La particularité des modèles Llama 4 réside dans l'ampleur inédite de l'implémentation MoE, avec jusqu'à 128 experts pour Maverick. Meta applique également une technique appelée « early fusion » qui traite texte, images et vidéos comme une séquence unique de tokens dès le début du processus, permettant une véritable compréhension multimodale native.

Sur le benchmark LMArena, Llama 4 Maverick atteindrait un score ELO de 1417, se positionnant au niveau des modèles les plus avancés du marché. Quant au modèle Behemoth, encore en phase d'entraînement avec ses 288 milliards de paramètres actifs et ses 16 experts totalisant près de 2 billions de paramètres, Meta affirme qu'il surpasse déjà GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur plusieurs benchmarks scientifiques. Ces nouveaux modèles sont d'ores et déjà disponibles sur la plateforme Meta AI ainsi que via WhatsApp, Messenger et Instagram Direct dans 40 pays. Cependant, les fonctionnalités multimodales restent pour l'instant limitées aux utilisateurs anglophones aux États-Unis.