Les éditeurs de presse envoient des mises en demeure à des bases de données comme Common Crawl, afin de faire plier OpenAI, Mistral, Google et les obliger à négocier. Ils envisagent des actions en justice pour protéger leurs droits.
Face à la montée en puissance de l’intelligence artificielle, la presse passe à l’offensive. L’Alliance de la presse d’information générale (Apig) et le Syndicat des éditeurs de la presse magazine (SEPM) lancent une action concertée pour demander le retrait des contenus des bases de données type Common Crawl, qui alimentent les IA génératives, et envisagent des actions en justice.
Précisément, ils sont en train d’envoyer des mises en demeure à Common Crawl, C4 et Oscar.
Couper l’herbe sous le pied
Cela fait plusieurs mois que les représentants des éditeurs – qui fédèrent environ 800 titres au total – récoltent des preuves pour montrer que les bases de données ont bien récolté leurs contenus.
Or, derrière ces systèmes, les fournisseurs d’IA comme OpenAI – qui développe ChatGPT -, Anthropic ou encore Google s’approvisionnent « massivement » via ces bases, qui « reproduisent et distribuent sans autorisation des millions d’articles protégés par le droit d’auteur et le droit voisin », expliquent dans un communiqué commun l’Apig et le SEPM. Les fournisseurs d’IA peuvent ainsi « contourner la loi », en utilisant ces bases « soi-disant en libre accès ».
L’objectif final : couper l’herbe sous le pied des acteurs d’IA comme OpenAI, alors que ceux-ci semblent avoir fermé la porte à des négociations avec les éditeurs pour une rémunération de leurs contenus. Ces derniers avaient écrit à OpenAI, Google, Perplexity, Mistral, etc. au printemps 2024, mais leurs courriers étaient restés sans réponse ou sans effet.
« Or, sans accès à nos articles via des bases comme Common Crawl, ils ne pourraient plus entraîner de nouveaux modèles, sans passer par des discussions avec les éditeurs », explique Léa Boccara, responsable du pôle juridique de l’Apig.
Actions en justice
Bref, une façon détournée de les obliger à payer. « C’est un premier pas pour qu’un marché puisse être mis en place. L’idée est de faire pression sur l’écosystème de l’IA qui, pour l’heure, bénéficie des contenus que nous finançons », appuie Julie Lorimy, directrice générale du SEPM.
La presse demande des mesures radicales : la cessation des opérations de « crawl », mais aussi la suppression des contenus existants. Si les sociétés en face n’obtempèrent pas, les éditeurs sont prêts à aller porter l’affaire en justice.
Dans un courrier à Common Crawl auquel « Les Echos » ont eu accès, les éditeurs préviennent : « De tels actes sont strictement interdits sans autorisation expresse de [l’éditeur] et sont constitutifs de contrefaçon. »
« Blanchiment »
« On a accumulé la preuve massive qu’il y a près d’un milliard de contenus repris rien que sur Common Crawl. On envisage des actions en justice contre Common Crawl, etc., et les fournisseurs d’IA, si ceux-ci refusent nos demandes de négociation », explique Renaud Le Gunehec, avocat chez Normand et Associés.
« C’est aussi une façon de casser une culture de l’impunité et de rappeler que les articles ne sont pas des données publiques, mais des contenus soumis à des droits de propriété intellectuelle. » Pour lui, il y a une forme de « blanchiment ».
Quant aux moyens de bloquer les bases de données via les instructions robot.txt notamment, « il faut se méfier de leur respect, notamment dans le temps. Et dans tous les cas, le fait de crawler n’est pas autorisé », reprend l’avocat.
La presse demande aussi le nombre de téléchargements effectués depuis leur mise en ligne des articles, avec le détail des dates, plateformes concernées. L’une des questions est de savoir si certains ont pu passer derrière le paywall des journaux.
Common Crawl se veut conciliant
« A priori, non, mais comme ces bases de données crawlent absolument tout le Web, il suffit qu’un article ait été reposté en entier par un tiers pour qu’elles l’aient », reprend Léa Boccara. « Et certains paywalls sont plus solides que d’autres », ajoute un spécialiste.
Contacté par «Les Echos», le directeur de Common Crawl, Rich Skrenta, répond qu’il ne voit aucun inconvénient à arrêter de «crawler» les sites qui le souhaitent et à supprimer les contenus. Il rappelle toutefois que les éditeurs ont des moyens très simples d’indiquer leur refus comme l’instruction «robot txt» et que Common Crawl est davantage «une bibliothèque» qu’une société commerciale.






































