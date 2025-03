OpenAI a lancé le 20 mars 2025 trois nouveaux modèles audio disponibles via son API. Cette nouvelle génération de technologies complète les outils d'agents textuels comme Operator, Deep Research, Computer-Using Agents et l'API Responses. Les nouveaux modèles élargissent l'offre vers la dimension vocale : deux modèles de reconnaissance vocale (gpt-4o-transcribe et gpt-4o-mini-transcribe) et un modèle de synthèse vocale (gpt-4o-mini-tts).

Selon l'entreprise, ces modèles améliorent considérablement la précision et la fiabilité de la transcription, particulièrement dans des conditions complexes comme les accents, les environnements bruyants ou les variations de débit de parole. Les tests montrent que ces modèles surpassent les solutions existantes, y compris les précédents modèles Whisper développés par OpenAI.

Le gpt-4o-mini-tts introduit pour la première fois la possibilité de spécifier comment le texte doit être prononcé. Par exemple, un développeur peut demander au modèle de « parler comme un agent du service client sympathique ». Ces nouveaux modèles utilisent les architectures GPT-4o et GPT-4o-mini, mais bénéficient d'un pré-entraînement avec des jeux de données audio spécialisés.