Des PNJ qui parlent vraiment ? NVIDIA rend son outil Audio2Face accessible à tous

NVIDIA met en open source son outil Audio2Face, capable de transformer une voix en animation faciale réaliste. Jeux vidéo, avatars, streams ou vidéos doublées : cette ouverture pourrait bien changer ce que nous voyons à l’écran… et la manière dont les créateurs travaillent.

Imaginez parler dans un micro et voir un personnage virtuel calquer immédiatement vos lèvres, vos intonations et même vos expressions. C’est exactement ce que propose Audio2Face, la technologie d’animation faciale développée par NVIDIA. Longtemps réservée aux démonstrations spectaculaires et aux projets professionnels, elle est désormais disponible en open source.

Concrètement, NVIDIA met à disposition un kit de développement, des extensions pour Unreal Engine et Maya, un environnement pour entraîner l’IA sur de nouvelles voix ou langues, ainsi que plusieurs modèles pré-entraînés. L’idée est simple : transformer ce qui relevait jusqu’ici du domaine de la motion capture complexe en un outil accessible, adaptable et prêt à l’emploi. Une décision qui s’inscrit dans une stratégie plus large déjà esquissée par la firme avec son Avatar Cloud Engine (ACE) ou encore son écosystème Omniverse.

À découvrir

CES 2024 : Avatar Cloud Engine ou la révolution des personnages de jeu chez NVIDIA

09 janvier 2024 à 15h35

CES

Comment fonctionne Audio2Face ?

L’outil analyse un flux audio – une voix enregistrée ou un dialogue en direct – puis le convertit en mouvements de lèvres et en expressions faciales. Il se base pour cela sur les phonèmes, qui composent les mots, et sur la prosodie, c’est-à-dire le rythme et l’intonation. Le résultat prend la forme de courbes d’animation appliquées à des personnages 3D, qu’il s’agisse de modèles standards ou de créations plus sophistiquées comme les MetaHumans d’Epic.

Le fonctionnement d'Audio2Face © NVIDIA

Ce qui change aujourd’hui, c’est que chacun peut examiner le code, adapter les modèles à ses besoins et les intégrer dans ses propres projets. De l’industrie du jeu vidéo aux applications créatives, en passant par les outils de communication, l’animation faciale ne sera plus une boîte noire tenue uniquement par NVIDIA.

Ce que ça change pour les joueurs et les créateurs

Pour les joueurs, cela signifie des dialogues plus immersifs et des personnages secondaires qui paraîtront enfin un peu plus humains. Moins de synchronisations labiales approximatives, plus de nuances dans les expressions, et donc une meilleure crédibilité des cinématiques.

Pour les créateurs, l’intérêt est encore plus évident. Une scène peut être rejouée avec une nouvelle prise audio sans qu’il soit nécessaire de tout refaire en motion capture. Les doublages multilingues deviennent aussi plus simples, puisqu’une réplique peut être traduite puis automatiquement rejouée avec une synchro labiale crédible. Les streamers et VTubers pourront, eux, donner vie à leurs avatars en direct, avec une fluidité jusqu’ici réservée aux grosses productions.

Même les entreprises et le monde de l’éducation pourraient en bénéficier : un avatar pédagogique, un assistant virtuel ou une borne interactive gagneront immédiatement en naturel. NVIDIA avait déjà montré les possibilités d’Audio2Face avec le fameux « double virtuel » de Jensen Huang présenté lors d’une keynote en 2021. Désormais, ces démonstrations ne sont plus réservées aux conférences marketing.

Les limites à connaître

Bien sûr, tout cela ne fonctionne pas sans puissance de calcul. Pour une animation fluide en temps réel, il faut un GPU moderne, et les cartes graphiques GeForce RTX sont taillées pour ce rôle. Sur des machines plus modestes, il faut s’attendre à de la latence, et sur mobile, le traitement passera souvent par le cloud.

La qualité dépend aussi beaucoup du personnage utilisé et du son fourni. Un rig 3D bien configuré donnera des résultats nettement supérieurs à un modèle approximatif, et un enregistrement audio clair reste essentiel pour obtenir un rendu crédible. Selon la langue et l’accent, la précision peut également varier, mais l’ouverture du modèle permettra de l’améliorer avec le temps.

Enfin, il reste les questions légales et éthiques. Utiliser la voix d’un comédien implique de respecter des contrats précis. L’open source ne signifie pas pour autant « libre de droits ». Les usages commerciaux nécessiteront des garde-fous, qu’il s’agisse de consentement, de gestion des données ou de watermarking. Audio2Face, en revanche, n’est pas un outil de deepfake : il anime un personnage virtuel existant, mais ne fabrique pas de faux visages.

Avec l’ouverture d’Audio2Face, NVIDIA démocratise un outil qui promet d’avoir un impact direct sur ce que l’on voit dans les jeux, les vidéos et même les applications du quotidien. Les joueurs profiteront de personnages plus crédibles, les créateurs indépendants gagneront en efficacité, et les entreprises pourront imaginer de nouvelles expériences interactives.

Source : NVIDIA