Quand une startup ferme, ses actifs numériques, des années de Slack, de tickets Jira et d'emails de crise, peuvent désormais rapporter jusqu'à 100 000 dollars. Des entreprises spécialisées dans la liquidation ont flairé le filon et transforment ces archives en matière première pour les laboratoires d'IA.

Des sociétés vendent sur cette plateforme sous licence leurs archives numériques, du code source aux historiques Slack en passant par les e-mails internes - ©viewimage / Shutterstock
Des sociétés vendent sur cette plateforme sous licence leurs archives numériques, du code source aux historiques Slack en passant par les e-mails internes - ©viewimage / Shutterstock

SimpleClosure, qui gère la dissolution de startups en s'occupant des paies, des déclarations fiscales et des négociations avec les investisseurs, a lancé mi-avril 2026 Asset Hub. Les fondateurs vendent sur cette plateforme sous licence leurs archives numériques, du code source aux historiques Slack en passant par les e-mails internes. Selon son P-.D.G Dori Yona c'est une « véritable ruée vers l'or ».

La société affirme avoir traité près de cent transactions en un an, pour plus d'un million de dollars redistribués aux fondateurs. Il n'est pas le seul à se lancer à l'assaut de ces données périmées, un concurrent, Sunset, opère déjà à des tarifs similaires, avec une grille qui valorise davantage les données sectorielles de santé ou de finance, et les historiques bien interconnectés entre plateformes.

Pourquoi ces vieilles conversations valent de l'or

L'idée mûrit depuis la fin 2024 quand l'ancien directeur scientifique d'OpenAI Ilya Sutskever a constaté que les données publiques d'Internet, Wikipédia, Reddit ou le segment des livres numérisés, sont épuisées. Les agents IA capables d'accomplir des tâches bien précises en entreprise ont besoin d'exemples de travail réel, avec ses frictions, ses oublis et ses approximations. Les jeux de données synthétiques, trop ordonnés, produisent des modèles mal calibrés dans les vrais environnements professionnels, et les laboratoires le savent.

Cette pénurie a engendré un secteur entier, celui des « gymnases d'apprentissage par renforcement », des environnements simulés construits à partir d'archives d'entreprises réelles, au sein desquels des agents IA s'exercent à naviguer dans un bureau numérique fictif. Une startup telle qu' AfterQuery vend ainsi des « mondes » clés en main aux laboratoires, « Big Tech World », « Finance World », ou encore « Tax World ». Anthropic discutait l'an dernier d'y consacrer jusqu'à un milliard de dollars, rapporte notre confrère Forbes. Scale AI, Surge et Mercor s'engouffrent aussi dans ce marché, qui promet d'être « the place to be » pour le développement des prochains agents.

Et le consentement des anciens salariés ?

Juridiquement, les employés n'ont généralement aucun droit sur ces données. Dans les conditions d'utilisation de Slack, l'employeur est désigné « Client » et détient l'ensemble des données produites dans l'espace de travail, y compris chaque message, fichier et réaction. Les salariés cèdent souvent leurs droits de propriété intellectuelle sur leurs productions professionnelles dès l'embauche.

Pourtant Marc Rotenberg, fondateur du Center for AI and Digital Policy, juge ces enjeux « considérables ». Pour lui, il ne s'agit pas de données génériques mais de données personnelles identifiables, et la cession des droits de propriété intellectuelle ne règle pas la question de la revente des communications internes à un tiers. Son organisation a adressé une lettre au Sénat américain pour demander à la FTC de renforcer sa surveillance de ces pratiques.

Les entreprises qui achètent ces données affirment toutes prendre l'anonymisation au sérieux, mais le processus est techniquement complexe et loin d'être fiable. Une étude de 2020 menée par des équipes d'OpenAI et de Google a montré que les grands modèles de langage peuvent mémoriser mot pour mot des séquences de leurs données d'entraînement, extractibles ensuite via les bons prompts.

Du côté des entreprises qui ont cédé au charme de ces nouvelles sirènes, on trouve par exemple Shanna Johnson, ex-PDG de cielo24, qui dit avoir touché « des centaines de milliers de dollars » pour treize ans de données internes de son entreprise. Et de celui de la règlementation, Bobby Samuels, dont la société Protege gère les risques réglementaires liés aux données réelles, qui rappelle qu'il n'existe aucune solution technique pour supprimer instantanément l'empreinte personnelle d'une carrière entière dans un jeu de données.

Source : Gizmodo