La fuite du code source de Claude Code via un source map publié par erreur sur npm le 31 mars a exposé 512 000 lignes de TypeScript, mais pas des données d'utilisateurs. Toutefois, le code devenu public a permis à des chercheurs en sécurité de dire ce que l'outil collecte en fonctionnement normal.

Des développeurs et chercheurs ont épluché les 512 000 lignes de TypeScript archivées sur GitHub - ©bella1105 / Shutterstock
Des développeurs et chercheurs ont épluché les 512 000 lignes de TypeScript archivées sur GitHub - ©bella1105 / Shutterstock

Hier, on vous annonçait la fuite du code source de Claude Code, qui s'est retrouvé au vu et au su de tous, sur la Toile.

La même Toile qui s'est elle-même retrouvée envahie de l'info, tant et si bien qu'Anthropic n'a pas pu faire autrement que de s'exprimer. Et c'est auprès de notre confrère Fortune que le porte-parole d'Anthropic a reconnu l'incident, parlant d'une erreur d'empaquetage lors de la publication, sans exposition de données clients ni d'identifiants. Mais dans le détail, cette fuite donne l'occasion de savoir ce que vous partagez à Anthropic si vous utilisez Claude ou Claude Code au quotidien.

Ce que le code de Claude collecte sur vos appareils

Des développeurs et chercheurs ont épluché les 512 000 lignes de TypeScript archivées sur GitHub. « Antlers », un analyste qui a souhaité rester anonyme, a reconstitué pour The Register la mécanique de collecte en fonctionnement normal, indépendamment de toute fuite.

Au lancement, Claude Code transmet à Anthropic l'identifiant utilisateur, l'identifiant de session, la version de l'application, la plateforme, le type de terminal, les UUID d'organisation et de compte, et l'adresse e-mail.

En cas d'exception non gérée, le rapport d'erreur Sentry capture le répertoire de travail courant avec les noms de projets et les chemins d'accès. Chaque session génère par ailleurs un fichier JSONL stocké localement, où sont consignés tous les appels d'outils tels que les lectures de fichiers, les commandes Bash, les résultats de grep, ou encore les modifications. Un agent en cours de déploiement, autoDream, est conçu pour parcourir ces transcriptions pendant les temps d'inactivité, consolider leur contenu dans un fichier MEMORY.md, puis l'injecter dans les futures invites système et le transmettre à l'API Anthropic.

La fuite elle-même n'a pas exposé vos prompts ni vos fichiers. Mais le code devenu lisible confirme qu'en fonctionnement normal, Claude Code envoie bien vos conversations et le contenu des fichiers qu'il consulte à l'API Anthropic - ©Mijansk786 / Shutterstock
La fuite elle-même n'a pas exposé vos prompts ni vos fichiers. Mais le code devenu lisible confirme qu'en fonctionnement normal, Claude Code envoie bien vos conversations et le contenu des fichiers qu'il consulte à l'API Anthropic - ©Mijansk786 / Shutterstock

Faut-il vraiment s'inquiéter pour ses données ?

La fuite elle-même n'a pas exposé vos prompts ni vos fichiers. Mais le code devenu lisible confirme qu'en fonctionnement normal, Claude Code envoie bien vos conversations et le contenu des fichiers qu'il consulte à l'API Anthropic. C'est inhérent à son fonctionnement : sans ce transit, l'outil ne peut pas travailler. La vraie question est donc ce qu'Anthropic fait de ces données ensuite.

Les utilisateurs Free et Pro qui ont autorisé le partage pour l'entraînement du modèle sont soumis à une conservation de cinq ans. Ceux qui ont refusé ce partage, ainsi que les comptes Team, Enterprise et API, bénéficient d'une conservation limitée à 30 jours, avec une option zéro rétention pour les professionnels.

La variable CLAUDE_CODE_DISABLE_AUTO_MEMORY=1 désactive la télémétrie et les écritures en mémoire. Le mode --bare supprime entièrement autoDream. Mais ces options ne changent rien à l'affaire. Vos prompts et les fichiers que Claude Code ouvre transitent par les serveurs d'Anthropic. « Je ne crois pas que les gens se rendent compte que chaque fichier que Claude consulte est enregistré et téléchargé sur Anthropic », a d'ailleurs déclaré « Antlers » au Register.

Claude n'est pas le premier à s'être pris les pieds dans le tapis. En 2023, nous des ingénieurs de Samsung Semiconductor avaient transmis du code source confidentiel et des notes de réunion à ChatGPT pour corriger des erreurs, sans mesurer que ces données alimentaient les serveurs d'OpenAI. La même année, l'équipe IA de Microsoft avait accidentellement exposé 38 To de données internes sur GitHub via un jeton Azure mal configuré, dont 30 000 messages Teams de 359 employés. Dans les deux cas, aucun piratage, aucune intrusion, mais des erreurs de configuration ou d'usage.

Source : The Register