Le machine learning : vers une technologie plus éthique ? Les explications du professeur Kearns, de AWS

Dans une interview accordée à Clubic, Michael Kearns, célèbre informaticien et professeur, nous explique l'évolution éthique du machine learning, l'apprentissage automatique, de plus en plus présent dans notre société.

Sous-domaine de l'intelligence artificielle, le machine learning bénéficie aujourd'hui d'une médiatisation de plus en plus importante. Pourtant, l'apprentissage informatique est apparu il y a bien des années. La technologie, qui se nourrit des données qu'elle traite pour apprendre ou améliorer ses performances, est désormais utilisée dans bien des domaines de notre société. Les réseaux sociaux ou les achats en ligne en sont deux exemples courants. Dans ces deux cas, l'apprentissage automatique aide à améliorer l'expérience, ou à renforcer la sécurité.

Une technologie omniprésente

Aujourd'hui, l'usage du machine learning est tel que des dérives sont possibles. Alors, certaines structures ou entreprises font l'effort de s'entourer d'universitaires, informaticiens et scientifiques de renommée mondiale, pour tendre vers des technologies plus vertueuses.

C'est le cas d'Amazon Web Services, qui compte dans ses rangs l'éminent Michael Kearns, professeur d'informatique et des sciences de l'information à l'Université de Pennsylvanie. Auprès d'AWS, l'ancien patron de l'IA chez l'opérateur américain AT&T Bell Labs œuvre comme « Amazon Scholar », au sein du programme du même nom. En son sein, il fait partie de ceux et celles qui mènent des travaux pour rendre les algorithmes de machine learning plus éthiques.

Nous avons voulu en savoir plus, et le professeur a accepté de nous donner un peu de son temps pour répondre à nos questions. Interview.

Michael Kearns et le machine learning : l'interview

Clubic : Une première question pour vous Michael Kearns, pour que nos lecteurs puissent se faire une idée du contexte... Comment expliqueriez-vous brièvement ce qu’est le machine learning ?

Michael Kearns : Le machine learning est la science qui consiste à déduire des modèles à partir de données permettant de faire des prédictions précises ou de prendre des mesures efficaces. Cette science se situe au croisement de l'informatique, des statistiques et de domaines connexes.

Pouvez-vous nous donner un ou plusieurs exemples concrets, du point de vue de l'utilisateur, de ce que l'apprentissage automatique change dans nos vies ?

Au cours des 20 dernières années, le machine learning est devenu omniprésent, de manière visible comme invisible. Cette technologie apparaît davantage dans les applications grand public, comme la reconnaissance vocale ou l’identification (tag) d’amis sur des photos. Mais le machine learning est aussi utilisé depuis des décennies pour prédire l'évolution du cours des actions et d'autres indicateurs financiers. C'est également un outil puissant qui permet de soutenir toutes sortes de recherches scientifiques, notamment la génomique et la science du changement climatique.

« Le machine learning est un outil puissant qui permet de soutenir toutes sortes de recherches scientifiques »

Le fait qu'AWS a consacré un événement innovant à l'apprentissage automatique témoigne-t-il de l'importance primordiale de cette technologie d'intelligence artificielle, tant pour les utilisateurs que pour les professionnels ?

Absolument. L'un des principaux objectifs de l'équipe AWS Machine Learning est de faciliter l'utilisation et la mise à l'échelle de l'apprentissage automatique, en supprimant une grande partie des tâches complexes nécessaires à la création de services avancés, tels que la transcription vocale ou les chatbots personnalisés. Cela facilite les choses tant pour les clients d’AWS que pour les utilisateurs finaux de leurs technologies.

Qu’est-ce qu’un machine learning éthique ?

L'idée sous-jacente est de concevoir des algorithmes et des modèles qui ne présenteront pas d’effets secondaires involontaires du machine learning dont on parle tant aujourd'hui, comme les modèles biaisés sur le plan démographique, ou qui laissent échapper des informations sur les données d'apprentissage. De nombreuses recherches scientifiques montrent aujourd'hui que nous pouvons réduire ces problèmes en formant les modèles selon de nouvelles méthodes qui codent explicitement les comportements souhaités.

« Les techniques d'anonymisation ne sont en fait pas très efficace, malgré leur prévalence, car elles sont vulnérables aux attaques dites de "ré-identification" »

Michael, vous parlez notamment de la confidentialité différentielle. Nous pouvons aussi associer cette technique à la « k-anonymisation » et à la « I-diversité », qui permettent de transformer des données personnelles en données anonymes. Êtes-vous d’accord ? Si oui, comment le machine mearning entre-t-il en jeu ici ?

À mon avis, et c’est également celui de nombreux chercheurs dans le domaine de la protection de la vie privée, les techniques d'anonymisation ne sont en fait pas très efficaces, malgré leur prévalence. Le problème avec ces méthodes, c’est qu’elles sont vulnérables aux attaques dites de « ré-identification », qui combinent les données anonymisées à d'autres sources pour reconstituer les données originales.

La confidentialité différentielle est en fait la « bonne » solution algorithmique si je puis dire, car elle offre des garanties de confidentialité très solides et mathématiquement prouvables. Il existe des liens étroits entre le machine learning et la confidentialité différentielle – par exemple, pratiquement toutes les méthodes d'apprentissage automatique et de statistiques peuvent être modifiées de manière à produire des modèles de confidentialité différentielle. Cela signifie que même si vos données ont été utilisées pour entraîner le modèle, personne ne peut extraire ces données du modèle lui-même.

Vous dites que des algorithmes de machine learning ont été développés sur la base de la théorie des jeux. De quoi s'agit-il ?

Il existe des liens étroits entre le machine learning et la théorie des jeux, soit la branche mathématique de l'économie qui étudie les conséquences des interactions stratégiques entre des parties « rationnelles » ou intéressées. On peut prendre l’exemple de la conception d'algorithmes d'apprentissage automatique éthiques, qui fonctionnent en simulant des interactions entre un « apprenant » qui essaie de réduire les erreurs de modèle, et un « régulateur » qui essaie d'appliquer des contraintes d'équité. Ici on s'assure par exemple que l'erreur du modèle concernant un groupe ethnique particulier n'est pas trop élevée par rapport à un autre groupe. On peut montrer, alors, que les échanges entre ces deux joueurs aboutit à un modèle qui rend l'erreur aussi faible que possible, tout en obéissant à toutes les conditions d'équité souhaitées.

« Les algorithmes et modèles de machine learning proviennent de l'humain. Si nous n'aimons pas quelque chose dans leur comportement, nous pouvons et devons les reconcevoir »

Dans un monde où, plus que jamais, tout repose sur les données et leur potentiel économique, est-il vraiment possible d'exploiter des algorithmes et des modèles de machine learning plus éthiques ?

Bien sûr. Les avancées scientifiques que j'ai mentionnées un peu plus tôt sont un premier pas important pour tendre vers cela. Les algorithmes et les modèles de machine learning sont les produits de l'ingénierie humaine, et s'il y a quelque chose que nous n'aimons pas dans leur comportement, nous pouvons et devons les reconcevoir. Ce n'est pas toujours facile ou parfait, et cela ne remplace pas d'autres efforts complémentaires comme la modernisation des réglementations, mais c'est une composante importante de notre société technologique.

Merci pour vos précisions et votre éclairage sur cette conception d'apprentissage automatique dit « éthique ».

Merci à vous.