Le groupe Anna's Archive, connu pour opérer un moteur de recherche open-source indexant des bibliothèques parallèles, a publié le 22 décembre 2024 un communiqué affirmant avoir extrait l'intégralité du catalogue musical de Spotify. L'opération aurait permis de collecter les métadonnées de 256 millions de pistes, dont 86 millions de fichiers audio exploitables, pour un volume total approchant les 300 téraoctets.
Les gros titres presque tous piratés
Selon les déclarations du groupe, la base de données constituée couvre plus de 15 millions d'artistes et 58 millions d'albums. Anna's Archive précise que les 86 millions de titres actuellement archivés correspondent à 99,6 % des titres enregistrés sur la plateforme. Ce chiffre ne représente toutefois que 37 % du catalogue total de Spotify, le groupe indiquant que plusieurs millions de titres restent à traiter.
Pourquoi "si peu" de titres piratés ? C'est assez simple, une fraction minoritaire du catalogue concentre la quasi-totalité de l'audience, tandis que des millions de titres cumulent peu ou pas d'écoutes.
Le collectif annonce une diffusion progressive des fichiers, ordonnée par popularité décroissante. Les utilisateurs disposant de l'espace de stockage nécessaire pourront télécharger les contenus.
Le groupe se justifie de "faire le bien"
Anna's Archive, un site habituellement orienté vers l'archivage de textes, ouvrages et publications scientifiques, justifie cette extension au domaine musical par sa mission déclarée de "préserver le savoir et la culture de l'humanité". Le groupe soutient que les collections musicales existantes, physiques comme numériques, présentent un biais vers les artistes les plus diffusés ou privilégient des formats haute-fidélité générant des volumes de stockage importants.
Le collectif qualifie sa base de métadonnées de plus grande collection musicale publiquement accessible, une affirmation qui n'a pas fait l'objet de vérification indépendante. Il convient de noter que cette revendication porte sur les métadonnées et non sur les fichiers audio eux-mêmes.
La réponse de Spotify
Un porte-parole de Spotify a confirmé l'incident :
"Spotify a identifié et désactivé les comptes utilisateurs malveillants impliqués dans cette extraction illicite. Nous avons mis en place de nouvelles mesures de protection contre ce type d'attaques anti-copyright et surveillons activement les comportements suspects."
La plateforme suédoise a également rappelé son positionnement aux côtés des ayants droit :
"Depuis le premier jour, nous soutenons la communauté artistique contre le piratage et travaillons activement avec nos partenaires de l'industrie pour protéger les créateurs et défendre leurs droits."
L'extraction de données à grande échelle (scraping) constitue par ailleurs une violation des conditions d'utilisation de Spotify, indépendamment des questions de propriété intellectuelle liées aux contenus eux-mêmes.
La méthode technique utilisée pour contourner les protections de Spotify n'a pas été divulguée par le groupe, qui mentionne uniquement avoir « découvert un moyen d'extraire Spotify à grande échelle » sans précision supplémentaire.