La CNIL a publié, jeudi, ses recommandations officielles sur l'intelligence artificielle et l'intérêt légitime. Le web scraping (qui consiste à extraire automatiquement des infos depuis des pages web) pour développer l'IA reste légal, sous conditions strictes.

La CNIL propose ses recommandations sur le web scraping à base d'IA © metamorworks / Shutterstock
La CNIL propose ses recommandations sur le web scraping à base d'IA © metamorworks / Shutterstock

Après des mois d'attente et une consultation publique inédite, la Commission nationale de l'informatique et des libertés (CNIL) sort enfin de sa réserve. Ce jeudi 19 juin, elle publie un guide détaillé sur l'utilisation de l'intérêt légitime dans le développement d'intelligences artificielles. Une feuille de route qui clarifie les règles du moissonnage (web scraping) de données et va faire du bruit dans l'écosystème tech français.

L'intérêt légitime officiellement validé par la CNIL pour l'IA

L'exercice était délicat, mais la CNIL a tranché après avoir analysé 62 contributions d'acteurs divers et variés. Contrairement aux craintes de certains, le gendarme français des données ne jette pas l'anathème sur l'intelligence artificielle. Au contraire, il reconnaît explicitement que l'intérêt légitime peut servir de base légale pour développer des systèmes d'IA, sans exiger systématiquement le consentement des utilisateurs.

Cela fait suite à une consultation publique qui a mobilisé un écosystème de 28 entreprises privées du secteur IA, finance et santé, 11 organisations professionnelles, 4 cabinets juridiques, mais aussi des chercheurs et associations de société civile. Un processus démocratique qui a permis d'affiner la doctrine française, en phase avec l'avis du Comité européen de protection des données publié en décembre dernier.

La nuance est cruciale et met fin à des mois d'incertitude : il n'y a pas de hiérarchie entre consentement et intérêt légitime. Autrement dit, chaque base légale reste autonome, applicable selon les circonstances spécifiques du traitement. Fini donc les débats stériles sur une supposée supériorité du consentement dans le domaine de l'IA générative.

Le moissonnage de données soumis à de nouvelles obligations

Le moissonnage de données en ligne, appelé web scraping, cristallisait toutes les tensions depuis l'explosion de ChatGPT. La CNIL a choisi une approche pragmatique, mais ferme. Le web scraping n'est pas interdit par principe, mais sa licéité dépend d'une analyse rigoureuse au cas par cas. Une position équilibrée qui ménage innovation technologique et protection des droits fondamentaux.

Les règles se durcissent néanmoins avec des obligations contraignantes. Les développeurs devront respecter scrupuleusement les fichiers robots.txt et les systèmes CAPTCHA, exclure immédiatement les données sensibles détectées, et supprimer tout contenu non pertinent pour l'entraînement. L'époque de l'« aspirateur à données » tous azimuts sans discernement semble révolue.

L'autorité impose aussi des garde-fous spécifiques particulièrement stricts, avec le respect des oppositions techniques au moissonnage, l'exclusion automatique des sites contenant principalement des données personnelles, et la mise en place de mécanismes de transparence renforcée avec publication des sources utilisées. Le message est limpide : l'innovation oui, mais dans le strict respect des règles européennes.

Capture d'écran du site de la CNIL © Alexandre Boero / Clubic
Capture d'écran du site de la CNIL © Alexandre Boero / Clubic

Anonymisation et données synthétiques recommandées pour l'IA

Au-delà des interdictions, la CNIL détaille un arsenal de garanties techniques recommandées. Les développeurs pourront s'appuyer sur l'anonymisation et la pseudonymisation des données, l'utilisation de données synthétiques comme alternative, ou encore la mise en place de licences restrictives limitant les réutilisations malveillantes.

Ces recommandations sont faites dans un souci d'harmonisation européenne, que pilote activement la France. La CNIL travaille d'ailleurs avec ses homologues du Vieux continent pour élaborer des lignes directrices communes, notamment sur l'articulation complexe entre RGPD et le tout nouveau règlement sur l'intelligence artificielle qui entre progressivement en vigueur.

Plusieurs publications stratégiques sont déjà programmées dans les prochains mois, comme des recommandations sur la sécurité du développement, la clarification du statut des modèles d'IA au regard du RGPD, et les guidelines sur l'annotation des données. Seul bémol notable : le projet ambitieux de registre des organisations pratiquant le web scraping a été suspendu, faute d'adhésion suffisante des acteurs concernés malgré son intérêt pour la transparence.