Fruit du travail de la division Google DeepMind, il incorpore la technologie de compression intelligente Per-Layer Embeddings (PLE), réduisant la mémoire nécessaire pour son déploiement en local. Le nombre de paramètres bruts pour Gemma 3n est de 5 milliards et 8 millards de paramètres, mais ses besoins en mémoire sont comparables à ceux de modèles de 2 milliards et 4 milliards de paramètres. Google affirme que sa nouvelle technologie fonctionne avec une empreinte mémoire allant de 2 Go à 3 Go seulement.