Reddit dépose plainte contre Perplexity AI et trois fournisseurs de services de collecte de données pour avoir exploité son contenu sans accord.

L'entreprise les accuse d'avoir contourné ses protections techniques pour s'emparer massivement de contenus sans autorisation, afin d'alimenter les modèles d'IA de Perplexity sans passer par un accord de licence.
Reddit, un trésor communautaire protégé
Avec plus de 100 millions d'utilisateurs actifs quotidiens répartis sur des centaines de milliers de communautés thématiques, Reddit est devenu une manne de données précieuses pour les IA qui cherchent à entraîner leurs modèles linguistiques avec du contenu généré par de vraies personnes.
Pour protéger les conversions, Reddit a mis en place plusieurs barrières. La plateforme utilise des systèmes anti-scraping automatisés, lesquels surveillent et bloquent les connexions suspectes. L'entreprise impose des limitations par adresse IP, des protections CAPTCHA contre les robots, et des outils de détection d'anomalies. Le fichier robots.txt de Reddit indique clairement aux robots automatisés qu'ils n'ont pas le droit d'explorer le site sans autorisation préalable. D'ailleurs, les conditions d'utilisation interdisent explicitement le scraping sans accord écrit et toute exploitation commerciale du contenu.
Certaines entreprises comme OpenAI ou Google ont choisi de respecter ces règles en signant des accords de licence avec Reddit. Ces partenariats encadrent l'accès aux données tout en garantissant la protection des droits des utilisateurs et de la plateforme. Reddit propose également une Data API permettant un accès en masse aux données, mais celle-ci impose une authentification, des limitations de débit, et interdit formellement l'utilisation pour l'entraînement de modèles d'IA sans accord spécifique.
Perplexity s'appuie sur Google
Les trois prestataires visés par la plainte – SerpApi, Oxylabs et AWMProxy – ont développé une méthode alternative : extraire les contenus Reddit depuis les pages de résultats de recherche Google. Mais pour y arriver, il faut aussi contourner les protections du moteur de recherche. Le géant californien dispose d'un système appelé SearchGuard destiné à empêcher l'accès automatisé massif à ses résultats de recherche.
Les entreprises ont mis en place des serveurs proxy pour masquer leur localisation réelle et faire passer leurs robots pour des utilisateurs humains situés à différents endroits du globe. SerpApi et Oxylabs vantent ouvertement sur leurs sites web leur capacité à « contourner » ces restrictions. SerpApi propose notamment des mécanismes qui multiplient les requêtes parallèles pour submerger les systèmes de détection. Son PDG a explicitement décrit leur méthode comme consistant à "créer de faux navigateurs utilisant une multitude d'adresses IP que Google perçoit comme des utilisateurs normaux".
Reddit piège Perplexity
Reddit affirme qu'entre le 1er et le 13 juillet 2025, ces trois prestataires ont ainsi contourné les mesures de Google pour accéder automatiquement à près de trois milliards de pages de résultats contenant du texte, des URLs, des images et des vidéos issus de Reddit. SerpApi en aurait récupéré plus de 1,8 milliard à lui seul durant cette période de deux semaines.
Dans sa plainte, Reddit explique que le client final de ces intermédiaires est Perplexity AI. Le plaignant a procédé à un test en créant une publication uniquement accessible par Google, et celle-ci s'est retrouvée en quelques heures dans les réponses fournies par le moteur de recherche de Perplexity. Après l'envoi d'une mise en demeure en mai 2024, les citations de contenus Reddit par Perplexity auraient été multipliées par quarante. Reddit réclame l'arrêt immédiat de ces pratiques, la restitution des gains illicites obtenus par les défendeurs, et des dommages-intérêts.
- Une très grande communauté (à condition de comprendre l'anglais)
- Des tonnes de sujets abordés