Ce n'est pas tout puisque GPT-4o pousse également la reconnaissance d'image plus loin et justifie son statut « omni ». Tout en conversant avec l'IA, il sera possible d'ouvrir la caméra de son smartphone et d'interagir avec ce que celle-ci capture en temps réel. Non seulement, GPT-4o peut donc répondre à ce qui est affiché au moment T, mais il peut également revenir sur des choses qu'il a « vu » peu de temps avant. Parmi les différentes illustrations de ses capacités, citons pelle-mêle : de la traduction (en temps réel évidemment), de l'aide aux devoirs, reconnaitre les émotions sur un visage, compter rapidement (oui, oui), chanter. Et, bien que cela n'ait pas été abordé durant la conférence, les possibilités du côté de l'accessibilité pour les malvoyants et les malentendants sont bel et bien là ! On imagine facilement le modèle traduire du langage des signes en voix pour faciliter l'échange entre 2 personnes à l'instar de la traduction en temps réel.