Des chercheurs créent une IA capable de s'occuper du sound design d'un film

13 août 2020 à 14h19
0

Des chercheurs ont créé un programme automatisé visant à analyser le mouvement dans des séquences vidéos pour créer un sound design adapté et artificiel qui correspond aux images.

Le processus, nommé AutoFoley en référence au nom du métier de bruiteur dans l'industrie du cinéma, a convaincu les personnes interrogées, qui l'ont jugé bien plus efficace que les bruits effectués par les artistes Foley.

Gagner du temps et de l'argent

La notion de sound design d'un film inclut la bande originale, qui est l'ensemble des musiques composées spécifiquement pour l'œuvre ou non, le mixage des voix de chacun des personnages, principaux ou secondaires, et le bruitage plus général, qui comporte par exemple les bris de verre, les claquements de portes ou encore les bruits des coups et coups de feu dans les films d'actions. Ces derniers sont faits par des bruiteurs, appelés Foley artists, qui utilisent des objets similaires ou des processus intelligents en studio, pour des sons plus propres. Mais des chercheurs ont développé une intelligence artificielle destinée à effectuer ces protocoles de manière automatisée.

« Ajouter des effets sonores en post-production en utilisant l'art du Foley est une partie importante des bandes-son des films et de la télévision depuis les années 30 », a déclaré Jeff Prevost, professeur à l'université du Texas de San Antonio et co-créateur de l'AutoFoley. « Les films sembleraient vides sans les couches contrôlées de bande-son Foley réaliste. Cependant, ce processus ajoute aussi un temps et des coûts significatifs à la création de films. »

Des rendus plus convaincants avec une IA ?

Prevost et une de ses étudiantes, Sanchita Ghose, ont créé une machine d'apprentissage avec deux modèles différents. Le premier s'appuie sur l'identification des actions d'une vidéo, notamment en se fondant sur les couleurs et les mouvements, tandis que le second détermine le son approprié en analysant l'évolution des objets dans le cadre temporel de la vidéo. La dernière étape après ces deux pistes de travail consiste à synthétiser les sons.

Le chercheur et son étudiante ont déjà fait de nombreux clips pour tester différentes situations, et Jeff Prevost explique la complexité de la tâche : « Une limite dans notre approche est le besoin de classification, qui est présent dans toute la séquence vidéo. » Les deux modèles ont été présentés à un panel de 57 étudiants et les ont convaincus en majorité. Face au premier modèle, 73 % d'entre eux ont choisi le son automatisé plutôt que le son original, et ils ont été 66 % à être plus convaincus par le second modèle que par le son initial de la vidéo.

Source : IEEE Spectrum

7
6
Partager l'article :
Voir tous les messages sur le forum

Les actualités récentes les plus commentées

Emmanuel Macron se moque des opposants au déploiement de la 5G
L'attaque d'un hôpital par ransomware pourrait tourner en homicide après la mort d'une patiente allemande
Clubic évolue (en douceur)
Allongé et endormi
Les satellites SpaceX, même peints, gâchent les nuits des astronomes
Microsoft Flight Simulator dévoile son plan de vol pour les futurs développements
Déjà en rupture de stock, les NVIDIA RTX 3080 se vendent à prix d'or sur eBay
PS5 : des jeux jusqu'à 79,99 €, soit 10 € de plus que sur l'ancienne génération ?!
Cyberpunk 2077 : CD Projekt RED dévoile les configurations PC requises
La fin du pétrole ? Pour BP, la demande ne fera que baisser à partir de 2020
scroll top