Et une fonction de plus pour Gemini, une ! Google permet à son IA de télécharger un nouveau format de fichiers

Publié le 12 septembre 2025 à 13h10

Google a annoncé l'ajout d'une nouvelle fonction à son application Gemini : la possibilité d'importer des fichiers audio.

Vous pouvez désormais uploader des fichier audios dans Gemini ! - ©gguy / Shutterstock

L'info en 3 points

Google Gemini permet désormais d'importer des fichiers audio MP3, M4A et WAV pour transcription et résumé.
L'application traite jusqu'à dix fichiers simultanément, avec des limites de durée selon le type de compte.
Les utilisateurs gratuits peuvent importer des fichiers de dix minutes, tandis que les abonnés peuvent aller jusqu'à trois heures.

C'est officiel, Gemini accepte désormais des fichiers audio courants, dont les MP3, M4A et WAV. Cette nouvelle corde à l'arc de l'assistant IA de Google est disponible sur Android, iOS et sur le web. Une fois le fichier téléchargé, Gemini le transcrit, le résume et en extrait les points clés. Idéal pour analyser des réunions, dérusher des interviews ou rendre compte de conférences.

Gemini accepte désormais les fichiers audio et traite leur contenu

Gemini se voulait multimodal depuis ses débuts. Le modèle savait gérer du texte, manipuler des images, commenter des vidéos et générer des sons. Il lui manquait pourtant une brique essentielle : comprendre un fichier audio. C’est désormais chose faite. L’application accepte les formats MP3, M4A ou WAV et transforme ces enregistrements en documents exploitables.

Gemini peut maintenant écouter et interpréter des fichiers audio. Il suffit simplement d'ouvrir l'application, cliquer sur « + » et choisir « Ajouter un fichier » pour uploader leurs enregistrements. L'IA transcrit le contenu, identifie les locuteurs et fournit un résumé ou un rapport détaillé selon la demande.

Google a confirmé que l’option est disponible sur Android, iOS et sur le Web. « Il s’agissait de la demande numéro 1 des utilisateurs », a rappelé Josh Woodward, vice-président de Google Labs, lors de l’annonce.

...

Cette extension complète les usages déjà possibles avec des documents, des feuilles de calcul ou des images, que Gemini pouvait analyser depuis plusieurs mois.

Cette fonction s'applique à tous les utilisateurs, sur Android, iOS et le Web. Les fichiers peuvent concerner des réunions, interviews, cours ou mémos vocaux. Chaque enregistrement devient un document exploitable pour préparer des présentations, résumer un podcast ou extraire des citations importantes. Gemini permet également d'analyser plusieurs fichiers simultanément, jusqu'à dix fichiers dans une même requête, y compris des archives ZIP.

Cette fonction s'applique à tous les utilisateurs, sur Android, iOS et le Web - ©Nwz / Shutterstock

Limites et détails techniques selon le type de compte

Comme le précise Google, les utilisateurs gratuits peuvent importer des fichiers audio de dix minutes maximum par fichier. Les abonnés aux plans Google AI Pro ou Ultra disposent d'un plafond étendu jusqu'à trois heures par fichier, ce qui couvre des conférences ou séminaires complets. Chaque utilisateur peut envoyer jusqu'à dix fichiers par requête, mais la durée totale des fichiers ne doit pas dépasser la limite imposée par le compte.

Les fichiers audio importés sont entièrement traités par Gemini. L'IA restitue le texte, identifie les intervenants, génère des résumés et propose une extraction des points clés et des tâches associées. Les formats pris en charge incluent MP3, M4A et WAV. Pour les fichiers vidéo, la taille maximale varie de deux Go pour les utilisateurs gratuits à une heure pour les abonnés payants. Les fichiers ZIP peuvent contenir jusqu'à dix fichiers, et les dossiers de code ou dépôts GitHub peuvent atteindre jusqu'à 5 000 fichiers et 100 Mo.

Comme souvent avec Google, l’accès existe pour tout le monde, mais avec des seuils précis. La version gratuite autorise la transcription de dix minutes par fichier audio. Chaque compte peut envoyer jusqu’à dix fichiers dans la même demande, ce qui permet de couvrir plusieurs extraits courts en une seule fois. Pour la plupart des usages personnels, c'est large.

Les professionnels peuvent aller plus loin avec les forfaits AI Pro ou AI Ultra. Ces abonnements permettent d’envoyer des fichiers de trois heures. De quoi couvrir un séminaire complet ou plusieurs épisodes d’un podcast sans avoir à découper les enregistrements.

Un processus bien en phase avec la stratégie habituelle de Google. Les utilisateurs testent gratuitement une nouveauté, puis un plan payant étend les limites pour les usages intensifs. Le plan AI Pro est proposé à 21,99 euros par mois. L’offre Ultra, plus complète, est plus adaptée auux étudiants, journalistes, podcasteurs ou entreprises qui doivent traiter des volumes conséquents d’enregistrements.

Le marché de la transcription automatique connaît déjà plusieurs solutions spécialisées, souvent payantes. Selon Grand View Research, il pesait plus de 1,6 milliard de dollars en 2023 et pourrait dépasser les 5 milliards en 2030. L’arrivée de Google dans ce secteur, via Gemini, va peut-être, qui sait, exciter la concurrence et tirer, on l'espère, les prix vers le bas.

Source : LeBigData, Google

Google Gemini

Un modèle de génération puissant
Une base de connaissances actualisée en temps réel
Gratuit et intégré à l'écosystème Google

8 / 10

Télécharger

À découvrir

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025

04 février 2025 à 14h11

Comparatifs services

Par Mélina Loupia

Google

Intelligence artificielle

Actualités High-Tech

Comparer

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (NaN)

Poster mon commentaire

Commentaires (3)

bennito

Vivement que la bulle s’arrête, qu’on est des vrais outils avec un peu d’IA, par ce que la c’est la foire aux gadgets inutile et trop cher pour ce que c’est et ce qu’on faisait déjà avant de l’appeler IA.

Je suis sur que l’IA a une place, mais elle n’est pas révolutionnaire pour un soue, et encore trop jeune pour être fiable.

Quand je vois mes collègues de boulot l’utiliser pour tout, même comme psychologue, ça me fait peur les effets de bords nocif que ça peux avoir sur les humains et l’environnement.

Pour le moment, ce que je constate, c’est que l’IA est un prétexte pour les licenciement déguisé et pour faire le pleins de promesse. (« Fake it until you make it ! »)

La génération d’image n’est pas fiable, la génération d’audio est peu convaincante pour faire de la musique originale, il y a que pour pour faire de la base documentaire sur PDF/DOCX ou je la trouve pour le moment un peu convaincante, avec ses grosses faiblesses.
Alors la médecine avec une IA, il y a pleins d’applications qui nous laisse encore rêveur, mais ont est encore loin de la preuve formelle.

Ont est encore tous gaga sur un effet Wow qui penche plus sur l’effet barnum que sur des applications réaliste, fiable et concrète.

Son efficacité est au niveau homéopathique, pas sur que ça soit suffisant pour l’utiliser avec confiance l’IA.

zebaffe

Euh… tu as déjà testé une IA qui te résume une réunion ? ca te semble TELLEMENT inutile ?..

bennito

Salut,
J’ai vu faire, ça ne ma pas convaincu, pour les réunions je prépare un support avec l’ODJ ainsi que ma préparation de la réunion (ça prends 10 minutes, si besoin), puis la prise de note sur ce même support me sert de CR pendant la réu’. Tout ça me permet de suivre et d’avoir les éléments nécessaires devant moi, et j’ai toujours mon support sur ma table quand je travail.

Je maintiens le mot gadget, j’estime qu’être présent à la réunion et d’y participer, ça vaux largement de se passer de l’IA, du moins actuellement.
Sinon c’est qu’on a rien a faire à la réunion (peux être le fond d’un autre problème).
Après, il est vrai que si ça aide des gens à ne pas oublier un trucs au passage, en effet ça n’est pas inutile, je retire le mot, j’ai était peux être un peux dur.

Bon ça n’est que mon avis, ça vaux rien, juste une opinion àlacon dans un océan d’opinion àlacon.
Si je comprends, ça a l’air de t’aider, tant mieux.