La principale évolution par rapport à Gemma 2 concerne la fenêtre de contexte, qui passe de 8 000 à 128 000 tokens. Cette amélioration permet au modèle de traiter des documents volumineux comme des articles scientifiques ou des livres entiers, même si elle ne fait que rattraper le niveau déjà proposé par certains concurrents.

Gemma 3 franchit également le cap de la multimodalité, absente de la version précédente. Le modèle peut désormais analyser des images et du texte, répondre à des questions sur des contenus visuels et comprendre plus de 140 langues, contre uniquement l'anglais pour son prédécesseur.

Parallèlement, Google a introduit ShieldGemma 2, un outil basé sur Gemma 3 destiné à vérifier la sécurité des images. Ce module permet aux développeurs de filtrer automatiquement les contenus potentiellement problématiques, comme les images sexuellement explicites ou violentes, renforçant les garde-fous éthiques autour de ces technologies.