À défaut d'une IA performante, Siri pourra lire sur vos lèvres

Nicolas Lafarge-Debeaupuis
Publié le 03 août 2023 à 18h15
© Shutterstock
© Shutterstock

Dans un nouveau brevet, Apple explore la possibilité pour Siri de détecter le mouvement de nos lèvres, améliorant ainsi sa fiabilité. Cette technologie permettrait d’interpeller l’assistant vocal sans que le microphone ait besoin d’être constamment activé.

Apple n’est peut-être pas encore prêt à révolutionner le marché des robots conversationnels, mais il entend continuer d’améliorer Siri, son célèbre assistant personnel présent sur tous les appareils de la marque. La firme à la pomme vient de déposer un brevet au sujet d’une technologie qui pourrait permettre au bot de lire sur les lèvres. 

Siri bientôt capable de réagir au mouvement de nos lèvres ?

L’un des problèmes actuels de Siri (et de la plupart des assistants vocaux) réside dans sa difficulté à entendre, de manière totalement fiable, les ordres qui lui sont donnés à l’oral, en particulier lorsque des bruits ambiants interfèrent.

Apple pourrait avoir trouvé une parade à ce problème, comme le suggère un brevet récemment déposé par la firme. L‘entreprise y décrit la façon dont la détection des mouvements de la bouche et de la tête pourrait améliorer la précision et la réactivité de Siri. 

« [Les données] sont réceptionnées à partir d’un capteur de mouvement, par exemple, qui enregistre les gestes d'un utilisateur lorsqu’il prononce une commande vocale », explique le brevet. « Ces données sont ensuite analysées, pour voir si une partie de ces mouvements correspond à un modèle de référence pour un mot ou un ensemble de mots. »

© Apple
© Apple

En quoi cela pourrait-il améliorer la reconnaissance vocale ?

Concrètement, Siri ne serait pas capable de lire des conversations entières sur nos lèvres, mais il se révélerait juste assez performant pour reconnaître le mouvement labial de commandes simples et courtes, comme « Dis Siri » ou « Chanson suivante ». Et rien que cela pourrait déjà changer la donne.

En effet, l'idée derrière cette technologie n’est pas de créer des appareils sans microphones, mais plutôt de permettre à Apple de désactiver ces derniers qui, actuellement, sont constamment à l’affût de commandes vocales éventuelles. Cette détection audio continue, souligne Apple, consomme beaucoup d’énergie et de bande passante sur nos différents appareils. À l’inverse, les capteurs de mouvement, tels que les accéléromètres et les gyroscopes, ont l’avantage de se montrer plus économes. 

Il suffirait alors que la détection de mouvement soit suffisamment rapide pour reconnaître le mot « Siri » sur nos lèvres, pour que l’appareil active les microphones, juste à temps pour capter le reste de la commande vocale. Autre avantage : s’agissant d’un procédé de détection de mouvement (plutôt que d’une reconnaissance visuelle par le biais d’une caméra, par exemple), une telle option pourrait, en théorie, fonctionner avec des appareils comme les AirPods ou l’Apple Vision Pro.

Source : AppleInsider

Par Nicolas Lafarge-Debeaupuis

Rédacteur spécialisé dans le hardware, la tech, le gaming, et tous les autres trucs de « geek », je suis né avec une plume dans une main et une manette de PlayStation dans l’autre (ce qui n’a arrangé personne à la maternité). Depuis, j’alterne constamment entre écrire et jouer aux jeux vidéo. Parfois, je fais les deux en même temps.

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

A découvrir en vidéo

Commentaires (0)
Rejoignez la communauté Clubic
Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.
Commentaires (4)
Ezeta

Parce que lire sur les lèvres se fait avec un gyroscope ou un accéléromètre ?… peut être si on fixe l’appareil sur les lèvres de l’utilisateur.
Plus sérieusement, pour lire sur les lèvres il faut nécessairement une caméra (ou un système similaire)… activée en permanence. Du coup ça consommerait encore plus (et en bande passante, si l’analyse se fait à distance, ce qui me semblerait étrange pour détecter le déclencheur “dis Siri”, ce serait la aussi bien plus gourmand.

Par contre je suis d’accord que ça aiderait à comprendre la phrase prononcée dans un milieu bruyant.

Ce que je pourrais voir également, c’est de détecter que la personne tourne la tête vers l’appareil avant de commencer à enregistrer. Mais la aussi ça nécessite une caméra (le smartphone ou le HomePod n’est pas fixé à la tête, donc ne détecte pas les mouvements de la tête de l’utilisateur.

nicolas_lfg

Bonjour ! Le brevet d’Apple précise que le détecteur de mouvements capterait les « vibrations » émises lorsqu’on bouge les lèvres pour ce genre de commandes vocales courtes. Il ne serait donc pas capable de « lire les lèvres » à proprement parler, mais comme indiqué dans l’article, de reconnaître certains signaux pour activer le micro au moment opportun.

Kriz4liD

Le son est une vibration, non ?

pecore

Pour moi qui utilise régulièrement la dictée vocale dans mon travail, tout ce qui peut aider à avoir un texte aussi fidèle que possible à ce qui est dit ne pourra être qu’un plus. Je sais que ce n’est pas le but actuel de cette technologie mais s’ils arrivent à la mettre au point, l’ajout aux technologie de dictée vocale par la suite semble une évidence.