Google a annoncé l'ajout d'une nouvelle fonction à son application Gemini : la possibilité d'importer des fichiers audio.

- Google Gemini permet désormais d'importer des fichiers audio MP3, M4A et WAV pour transcription et résumé.
- L'application traite jusqu'à dix fichiers simultanément, avec des limites de durée selon le type de compte.
- Les utilisateurs gratuits peuvent importer des fichiers de dix minutes, tandis que les abonnés peuvent aller jusqu'à trois heures.
C'est officiel, Gemini accepte désormais des fichiers audio courants, dont les MP3, M4A et WAV. Cette nouvelle corde à l'arc de l'assistant IA de Google est disponible sur Android, iOS et sur le web. Une fois le fichier téléchargé, Gemini le transcrit, le résume et en extrait les points clés. Idéal pour analyser des réunions, dérusher des interviews ou rendre compte de conférences.
La plateforme 1minAI propose en ce moment son offre Pro Lifetime à seulement 29,97 $ (environ 26 €) au lieu de 234 $, soit un accès à GPT-5 et aux autres IA majeures comme Gemini, Claude 3 ou Midjourney
Offre partenaire
Gemini accepte désormais les fichiers audio et traite leur contenu
Gemini se voulait multimodal depuis ses débuts. Le modèle savait gérer du texte, manipuler des images, commenter des vidéos et générer des sons. Il lui manquait pourtant une brique essentielle : comprendre un fichier audio. C’est désormais chose faite. L’application accepte les formats MP3, M4A ou WAV et transforme ces enregistrements en documents exploitables.
Gemini peut maintenant écouter et interpréter des fichiers audio. Il suffit simplement d'ouvrir l'application, cliquer sur « + » et choisir « Ajouter un fichier » pour uploader leurs enregistrements. L'IA transcrit le contenu, identifie les locuteurs et fournit un résumé ou un rapport détaillé selon la demande.
Google a confirmé que l’option est disponible sur Android, iOS et sur le Web. « Il s’agissait de la demande numéro 1 des utilisateurs », a rappelé Josh Woodward, vice-président de Google Labs, lors de l’annonce.
Cette extension complète les usages déjà possibles avec des documents, des feuilles de calcul ou des images, que Gemini pouvait analyser depuis plusieurs mois.
Cette fonction s'applique à tous les utilisateurs, sur Android, iOS et le Web. Les fichiers peuvent concerner des réunions, interviews, cours ou mémos vocaux. Chaque enregistrement devient un document exploitable pour préparer des présentations, résumer un podcast ou extraire des citations importantes. Gemini permet également d'analyser plusieurs fichiers simultanément, jusqu'à dix fichiers dans une même requête, y compris des archives ZIP.
Limites et détails techniques selon le type de compte
Comme le précise Google, les utilisateurs gratuits peuvent importer des fichiers audio de dix minutes maximum par fichier. Les abonnés aux plans Google AI Pro ou Ultra disposent d'un plafond étendu jusqu'à trois heures par fichier, ce qui couvre des conférences ou séminaires complets. Chaque utilisateur peut envoyer jusqu'à dix fichiers par requête, mais la durée totale des fichiers ne doit pas dépasser la limite imposée par le compte.
Les fichiers audio importés sont entièrement traités par Gemini. L'IA restitue le texte, identifie les intervenants, génère des résumés et propose une extraction des points clés et des tâches associées. Les formats pris en charge incluent MP3, M4A et WAV. Pour les fichiers vidéo, la taille maximale varie de deux Go pour les utilisateurs gratuits à une heure pour les abonnés payants. Les fichiers ZIP peuvent contenir jusqu'à dix fichiers, et les dossiers de code ou dépôts GitHub peuvent atteindre jusqu'à 5 000 fichiers et 100 Mo.
Comme souvent avec Google, l’accès existe pour tout le monde, mais avec des seuils précis. La version gratuite autorise la transcription de dix minutes par fichier audio. Chaque compte peut envoyer jusqu’à dix fichiers dans la même demande, ce qui permet de couvrir plusieurs extraits courts en une seule fois. Pour la plupart des usages personnels, c'est large.
Les professionnels peuvent aller plus loin avec les forfaits AI Pro ou AI Ultra. Ces abonnements permettent d’envoyer des fichiers de trois heures. De quoi couvrir un séminaire complet ou plusieurs épisodes d’un podcast sans avoir à découper les enregistrements.
Un processus bien en phase avec la stratégie habituelle de Google. Les utilisateurs testent gratuitement une nouveauté, puis un plan payant étend les limites pour les usages intensifs. Le plan AI Pro est proposé à 21,99 euros par mois. L’offre Ultra, plus complète, est plus adaptée auux étudiants, journalistes, podcasteurs ou entreprises qui doivent traiter des volumes conséquents d’enregistrements.
Le marché de la transcription automatique connaît déjà plusieurs solutions spécialisées, souvent payantes. Selon Grand View Research, il pesait plus de 1,6 milliard de dollars en 2023 et pourrait dépasser les 5 milliards en 2030. L’arrivée de Google dans ce secteur, via Gemini, va peut-être, qui sait, exciter la concurrence et tirer, on l'espère, les prix vers le bas.
- Un modèle de génération puissant
- Une base de connaissances actualisée en temps réel
- Gratuit et intégré à l'écosystème Google