Des chercheurs créent une IA capable de s'occuper du sound design d'un film

13 août 2020 à 14h19
7

Des chercheurs ont créé un programme automatisé visant à analyser le mouvement dans des séquences vidéos pour créer un sound design adapté et artificiel qui correspond aux images.

Le processus, nommé AutoFoley en référence au nom du métier de bruiteur dans l'industrie du cinéma, a convaincu les personnes interrogées, qui l'ont jugé bien plus efficace que les bruits effectués par les artistes Foley.

Gagner du temps et de l'argent

La notion de sound design d'un film inclut la bande originale, qui est l'ensemble des musiques composées spécifiquement pour l'œuvre ou non, le mixage des voix de chacun des personnages, principaux ou secondaires, et le bruitage plus général, qui comporte par exemple les bris de verre, les claquements de portes ou encore les bruits des coups et coups de feu dans les films d'actions. Ces derniers sont faits par des bruiteurs, appelés Foley artists, qui utilisent des objets similaires ou des processus intelligents en studio, pour des sons plus propres. Mais des chercheurs ont développé une intelligence artificielle destinée à effectuer ces protocoles de manière automatisée.

« Ajouter des effets sonores en post-production en utilisant l'art du Foley est une partie importante des bandes-son des films et de la télévision depuis les années 30 », a déclaré Jeff Prevost, professeur à l'université du Texas de San Antonio et co-créateur de l'AutoFoley. « Les films sembleraient vides sans les couches contrôlées de bande-son Foley réaliste. Cependant, ce processus ajoute aussi un temps et des coûts significatifs à la création de films. »

Des rendus plus convaincants avec une IA ?

Prevost et une de ses étudiantes, Sanchita Ghose, ont créé une machine d'apprentissage avec deux modèles différents. Le premier s'appuie sur l'identification des actions d'une vidéo, notamment en se fondant sur les couleurs et les mouvements, tandis que le second détermine le son approprié en analysant l'évolution des objets dans le cadre temporel de la vidéo. La dernière étape après ces deux pistes de travail consiste à synthétiser les sons.

Le chercheur et son étudiante ont déjà fait de nombreux clips pour tester différentes situations, et Jeff Prevost explique la complexité de la tâche : « Une limite dans notre approche est le besoin de classification, qui est présent dans toute la séquence vidéo. » Les deux modèles ont été présentés à un panel de 57 étudiants et les ont convaincus en majorité. Face au premier modèle, 73 % d'entre eux ont choisi le son automatisé plutôt que le son original, et ils ont été 66 % à être plus convaincus par le second modèle que par le son initial de la vidéo.

Source : IEEE Spectrum

Soyez toujours courtois dans vos commentaires.
Respectez le réglement de la communauté.
7
6
Voir tous les messages sur le forum

Lectures liées

Le taxi volant électrique de Joby Aviation parcourt 240 kilomètres, un record
Intrinsic : le nouveau jouet de Google spécialisé dans le logiciel destiné aux robots industriels
Un robot crée une superbe fresque Super Mario en domino en 24 heures
Amsterdam a inauguré le tout premier pont en acier imprimé en 3D
Face au blocus des communications à Cuba, les USA envisagent de déployer Internet via des ballons
La Défenseure des droits s'oppose aux caméras de reconnaissance des individus dans l'espace public
Voici CAPS, la capsule volante française autonome, passe-partout et monoplace (Vidéo)
Végétaliser les villes ? Google veut cartographier les quartiers prioritaires
Les chasseurs d’ondes de l’ANFR à la recherche des fréquences suspectes (Vidéo)
Après le supersonique, United Airlines veut des avions à propulsion électrique
Haut de page