La start-up Physical Intelligence a présenté π0.7, un modèle capable de guider un robot sur une tâche inconnue à partir d’instructions en langage courant. Lors d’essais en laboratoire, un robot a exécuté certaines manipulations sans entraînement dédié, avec un guidage précis.

À force de reformuler les consignes, le robot a amélioré son taux de réussite sur la même tâche, sans modification du modèle ni ajout de nouvelles données. - ©Surasak_Photo / Shutterstock
À force de reformuler les consignes, le robot a amélioré son taux de réussite sur la même tâche, sans modification du modèle ni ajout de nouvelles données. - ©Surasak_Photo / Shutterstock

La start-up américaine, fondée en 2024, a publié des travaux autour d’un système unique utilisé sur plusieurs robots. Les données d’entraînement regroupaient des enregistrements issus de machines variées, de vidéos humaines et d’exécutions autonomes. Le modèle traitait aussi bien des consignes textuelles que des indications visuelles ou des paramètres de vitesse.

Dans une cuisine d’essai, un robot a été placé devant une airfryer. Les données d’entraînement contenaient quelques enregistrements isolés. Dans l’un, un robot refermait un appareil. Dans un autre, un objet était déposé dans un récipient par une machine différente. Aucune séquence ne correspondait à une cuisson complète.

Le robot a pourtant ouvert le compartiment, saisi une patate douce, puis engagé une tentative d’insertion dans l’appareil. L’action s’est interrompue sans consigne précise. Les ingénieurs ont ensuite détaillé chaque étape de la manipulation, du geste initial jusqu’à la fin de la tâche. Le robot a repris l’exécution selon cette succession d’indications.

Des gestes recomposés à partir d’expériences séparées

Lors d’un autre essai, une même tâche a été formulée de plusieurs manières. Une première version a donné une série d’échecs liés à des consignes imprécises. Une seconde version a détaillé chaque étape de manière séparée, du positionnement de l’objet jusqu’à l’action finale. L’exécution a alors atteint un résultat complet.

Pour Ashwin Balakrishna, chercheur impliqué dans les tests, il s'agit d'un ajustement progressif des instructions. À force de reformuler les consignes, le robot a amélioré son taux de réussite sur la même tâche, sans modification du modèle ni ajout de nouvelles données.

Une consigne courte déclenche un geste isolé. Une consigne détaillée entraîne une exécution plus complète. Après plusieurs répétitions, enfin, le robot stabilise la coordination de ses mouvements.

π 0.7 tentative d'utilisation d'une friteuse à air avec seulement une invite zéro tir : « charger une patate douce dans la friteuse à air » - Capture d'écran ©Physical Intelligence / Clubic
π 0.7 tentative d'utilisation d'une friteuse à air avec seulement une invite zéro tir : « charger une patate douce dans la friteuse à air » - Capture d'écran ©Physical Intelligence / Clubic

Des transferts entre robots et environnements

Dans les données d’entraînement, certaines séquences montraient des gestes isolés sans lien direct avec la tâche finale. Parfois, on assistait à la fermeture d’un appareil ou le robot déposait un objet dans un contenant. Mais aucun enregistrement ne montrait les étapes d'une cuisson complète avec une airfyer.

Pourtant, lors des essais, le robot a enchaîné ces gestes dans un nouvel environnement. Il a ouvert l’appareil, déplacé un aliment, puis ajusté sa position après plusieurs tentatives guidées.

Pour consolider ces résultats, les chercheurs ont réalisé le même test avec un robot industriel différent de ceux utilisés lors de l’entraînement. La machine possédait une structure et des dimensions distinctes. Malgré cela, elle a exécuté un pliage de linge après plusieurs ajustements de consignes.

Aucune méthode commune n'a toutefois permis de vérifier ces performances de manière indépendante. Chaque équipe a utilisé ses propres conditions de test, avec ses propres critères de réussite. Il faut ajouter à cela qu'il ne s'agit que de résultats de tests, et pour l'heure, pas d'une annonce de mise en service dans le cadre d'un usage opérationnel, que ce soit pour l'industrie ou le quotidien des usagers.

Source : TechCrunch