Le chiffre de 66% mérite d'être posé dans son vrai contexte. Ce n'est pas un résultat de laboratoire sous conditions idéales : c'est la proportion de personnes ordinaires qui, confrontées à une voix synthétique en conditions normales d'écoute, ne l'ont pas identifiée comme artificielle.​

L'étude révèle aussi un mécanisme précis : dès que l'auditeur détecte la nature artificielle d'une voix, il la rejette massivement. Ce que les modèles doivent désormais maîtriser, c'est la perception humaine, la confiance, l'autorité, la nuance émotionnelle. C'est précisément là que les Big Tech ont échoué. Comme l'explique Nick Lahoika, le fondateur de Vocal Image, leurs modèles sont conçus pour le volume et l'usage horizontal. Efficaces pour lire une météo, insuffisants dès que le contexte exige de la précision.​

Ce que les grandes plateformes ont sous-estimé, c'est ce que Lahoika appelle le « dernier kilomètre » de la qualité vocale : la prononciation des chiffres, les intonations contextuelles, les silences expressifs. Des détails sacrifiés au profit de l'échelle.

Le problème dépasse le confort d'écoute. Sur la plateforme « J'alerte l'Arcep », les signalements d'usurpation de numéros sont passés de 531 en 2023 à plus de 19 000 en 2025, ce qui en fait désormais la première cause de signalement adressée au régulateur. Les fraudeurs affichent le numéro d'une banque ou d'une autorité publique pour crédibiliser leurs appels, une technique que des voix synthétiques indiscernables rendent mécaniquement plus efficaces. C'est précisément ce constat qui a conduit l'Arcep à ouvrir, le 29 janvier 2026, une enquête administrative contre l'ensemble des opérateurs pour vérifier si les obligations d'authentification des numéros d'appelant sont bien respectées. Qu'une startup soit désormais capable de produire des voix inaccessibles à la détection humaine, par API et à coût marginal, n'est pas une performance technique à célébrer. C'est un outil supplémentaire entre les mains des fraudeurs.