Le projet d’appareil d’OpenAI, conçu avec Jony Ive, cherche encore sa voix et son cadre. Derrière l’élégance promise, trois cailloux dans la chaussure : parler juste, protéger les données, financer la puissance de calcul.

Le projet d'appareil vocal qu'OpenAI développe avec Jony Ive accumule les difficultés techniques. © OpenAI
Le projet d'appareil vocal qu'OpenAI développe avec Jony Ive accumule les difficultés techniques. © OpenAI

L’objet rêvé se veut discret, sans écran, toujours prêt à répondre. Il doit comprendre une phrase chuchotée, suivre le fil d’une conversation, réagir sans délai. Sur le papier, l’assistant qui accompagne la vie quotidienne paraît évident, dans la pratique, il avance encore à pas comptés.

Une voix qui cherche son timbre

Au cœur du dispositif, il y a l’échange oral. L’appareil veut répondre du tac au tac, moduler son intonation, interrompre quand c’est utile. La réalité technique est plus rugueuse, la latence griffe l’oreille, la synthèse vocale convainc parfois puis retombe, et chaque progrès doit s’accorder avec des garde-fous contre l’usurpation de voix.

Donner une « personnalité » à un assistant ne se résume pas à choisir un ton. Il faut éviter les emballements, contenir les erreurs, accepter les silences utiles. Tant que cet équilibre entre fluidité, pertinence et sécurité reste fragile, un lancement matériel paraît prématuré. L’écosystème logiciel avance, mais la voix n’a pas encore trouvé son plein naturel. Or un appareil centré sur l’audio ne peut se contenter d’à-peu-près, l’oreille ne pardonne ni les hésitations ni les réponses décalées. Le souvenir de « Sky », cette voix retirée en catastrophe après sa ressemblance troublante avec Scarlett Johansson, plane comme un avertissement sur les choix à venir

La base est déjà posée avec le mode voix de ChatGPT, reste à itérer désormais. © Shutterstock
La base est déjà posée avec le mode voix de ChatGPT, reste à itérer désormais. © Shutterstock

La promesse ambiante face à la vie privée

Un compagnon sans écran repose sur des capteurs attentifs. Microphones, éventuellement caméra, mémoire locale, tout cela doit être réglé finement. Que capter, que traiter en local, quoi envoyer aux serveurs, pendant combien de temps, et comment l’expliquer clairement.

La confiance ne se décrète pas. Elle se construit avec des voyants explicites, des boutons physiques de coupure, des journaux de données lisibles, des réglages compréhensibles. L’assistant doit se faire tout petit quand l’utilisateur le veut, et redevenir utile sans être intrusif.

OpenAI promet une présence discrète, qui aide sans s’imposer. Cette ambition exige des politiques de confidentialité robustes, inscrites dans le design autant que dans le logiciel.

Le coût du rêve, la dureté des chiffres

Reste la facture. Une assistance proactive en temps quasi réel réclame des centres de calcul massifs, des puces coûteuses, des réseaux très bien huilés. Chaque requête a un prix, et l’addition grimpe vite si l’appareil parle, voit, comprend, et apprend en continu.

Le modèle économique doit tenir la route, sans subvention permanente ni compromis sur la qualité. Un matériel grand public impose des coûts maîtrisés, des abonnements clairs, des usages qui justifient la dépense. OpenAI vise un ensemble cohérent de matériel et de services, une ambition déjà esquissée il y a quelques mois. Le succès passera par des itérations patientes, une voix pleinement crédible, des garanties lisibles et une infrastructure soutenable.

Source : Engadget

  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
9 / 10