Surprise, Google lance déjà les versions Gemini 1.5 et 1.5 Pro de son robot conversationnel, alors quoi de neuf ?

Par Alexandre Boero, Journaliste-reporter, responsable de l'actu.

Publié le 15 février 2024 à 19h37

Logo Google Gemini © Alexandre Boero / Clubic

Google a annoncé, jeudi, le lancement de Gemini 1.5, nouvelle génération de son modèle IA, avec des performances améliorées. Gemini 1.5 Pro fait aussi son apparition, avec de solides capacités de compréhension de contexte long.

À peine quelques jours après avoir changé Bard en Google Gemini, le géant au moteur de recherche a dévoilé, jeudi, ses dernières avancées en intelligence artificielle, le modèle Gemini 1.5. En mettant l'accent sur la compréhension du contexte long, celui-ci élargit sa capacité de traitement des informations. Gemini 1.5 Pro, un modèle de taille moyenne que Google dévoile en parallèle, s'aligne sur les performances de Gemini 1.0 Ultra, mais en consommant moins de calcul. Voyons tout cela plus en détail.

Des performances spectaculaires pour Gemini 1.5

Commençons par évoquer Gemini 1.5. L'ambition de Google n'est pas maigre : l'entreprise veut « révolutionner son approche de l'IA », avec une nouvelle génération qui affiche des performances améliorées, soutenues par une architecture de Mélange d'Experts (MoE), qui permet d'augmenter la précision du modèle et son nombre de paramètres.

Plus précisément, ce modèle MoE divise le réseau neuronal en « experts », ce qui va optimiser l'efficacité du modèle en activant de façon sélective les voies expertes les plus pertinentes. C'est une approche pionnière chez Google, qui permettra donc à Gemini 1.5 d'apprendre des tâches complexes plus rapidement, tout en maintenant la qualité.

La version Pro, comparable au modèle Ultra 1.0, doit, elle, briller dans sa compréhension du contexte long, en traitant jusqu'à 1 million de jetons. Les gains d'efficacité permettent une itération plus rapide, et un déploiement facilité. Concernant Gemini 1.5, on peut évoquer une avancée majeure et une possibilité pour les développeurs et entreprises d'étendre leur rayon d'action dans le domaine de l'IA.

A découvrir

Google prend ses aises en France : le géant y installe un nouveau hub dédié à l'IA, Chrome et YouTube, avec 300 chercheurs

14 février 2024 à 18h44

News

D'énormes quantités de données traitées en une seule fois pour Gemini 1.5 Pro

Google propulse son premier modèle multimodal, avec des tests préliminaires autour de Gemini 1.5 Pro. Celui-ci propose une fenêtre contextuelle standard de 128 000 jetons, comparable au modèle Ultra 1.0. Nous évoquions une fenêtre contextuelle allant jusqu'à 1 million de jetons. Cette capacité permet au modèle de traiter 1 heure de vidéo, 11 heures d'audio, des bases de code de plus de 30 000 lignes ou plus de 700 000 mots, le tout en seule fois. Les perspectives sont franchement prometteuses.

Google essaie aussi de rassurer sur la sécurité et l'éthique dans le développement de ses modèles IA. Les tests rigoureux garantissent une évaluation approfondie des risques, intégrant les enseignements dans les processus de gouvernance et de développement.

Depuis la version 1.0 Ultra, la société s'est engagée à améliorer la sécurité, testant des techniques de Red Teaming, pour évaluer les risques potentiels de piratage. À noter que Gemini 1.5 Pro est disponible dès ce jeudi 15 février en préversion limitée via AI Studio et Vertex AI, pour les développeurs et entreprises.

Google Gemini (Bard)

Un modèle de génération puissant
Une base de connaissances actualisée en temps réel
Gratuit et intégré à l'écosystème Google

8 / 10

Télécharger

Par Alexandre Boero

Journaliste-reporter, responsable de l'actu

Référencement logiciel

Google

Intelligence artificielle

Actualités High-Tech

Comparer

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (6)

SlashDot2k19

C’est quoi des jetons ? Des mots ?

MattS32

Presque. L’entrée est découpée en séries de quelques caractères, mais ça ne correspond pas exactement aux mots, certains mots peuvent être découpés en plusieurs token, d’autres (des petits) à l’inverse sont parfois fusionnés (et le découpage est propre à chaque IA).

SlashDot2k19

Ok merci de l’explication

tfpsly

Plus ou moins. Mais aussi associé à d’autres infos comme leur position dans le texte.

C’est la principale différence entre les LLM basés sur les Transformers et les « anciens » systèmes de ML traitant du texte :

Tout comme avant, chaque mot (ou partie de mot) devient un numéro identifiant le mot dans un discionnaire (ex : « un » = 0, « maison » = 2, « ordinateur » = 3 etc. Comme les anciens).
Mais on y ajoute une information sur la position dans le texte.
C’est ce qui permet aux LLMs de mémoriser des séries de mots allant souvent ensemble, d’apprendre certaines informations de façon positive, ou négative (par la présence de négations dans le groupe de mot).
D’autres infos peuvent aussi y être ajoutées. Par exemple la longueur du mot, ou sa rareté (les mots plus rares peuvent être plus importants, alors que les articles « le/la/un/… » sont moins intéressants pour le fond, mais nécessaires pour une bonne grammaire.

SlashDot2k19

Merci pour la précision

tfpsly

Tant que l’on parle des LLMs :

« On parle probablement de décennies de travaux »

Pour aller vers ce qu’il appelle l’AMI (Advanced Machine Intelligence), Yann LeCun estime que ni les méthodes d’apprentissage actuelles ni la focalisation sur le langage ne suffiront pas à franchir les prochaines étapes. « Les LLM ne sont pas capables de planification. Par ailleurs, ils ne comprennent pas la réalité sous-jacente aux concepts qu’ils manipulent », observe le chercheur français.

Si le chemin vers l’AMI s’annonce donc ardu, Yann LeCun estime que ce saut quantique dans les capacités de l’IA est possible. « Je ne me pose même plus la question ; cela va arriver. Est-ce que ce sera demain, dans 3 ans, dans 5 ans ? On parle plus probablement de décennies de travaux », reprend le directeur de la recherche en IA de Meta.