En mesure de gérer simultanément le texte, les images et la parole, Phi-4-multimodal exploite une technologie baptisée « Mixture of LoRAs ». Elle permet d'intégrer plusieurs modalités sans compromettre les performances, un défi majeur dans le développement des systèmes d'IA multimodaux. Cette spécificité lui offre des capacités auparavant réservées aux modèles bien plus volumineux, Phi-4-multimodal ne disposant « que » de 5,6 milliards de paramètres. Ainsi, l'IA maintient de fortes capacités linguistiques tout en ajoutant la reconnaissance visuelle et vocale.