Le text & data mining (TDM) nourrit l’intelligence artificielle. Scraper des millions de pages Web pour former un modèle semble donc incontournable. Pourtant, chaque copie d’un contenu protégé engage le droit d’auteur et soulève des questions stratégiques pour les entreprises IA. Entre obligations de transparence de l’AI Act et protection du droit d’auteur, la ligne rouge reste mouvante. Cet article démêle le cadre européen et livre les réflexes clés pour un entraînement licite.
1. Les exceptions TDM CDSM : un souffle, deux régimes, plusieurs conditions
D’abord, la directive 2019/790 (dite CDSM) a introduit deux exceptions obligatoires au droit d’auteur pour « text & data mining ». L’article 3 autorise, sans compensation, la reproduction automatisée d’œuvres à des fins de recherche scientifique par des organismes publics ou sans but lucratif. En France, elle figure depuis 2021 à l’article L122‑5 3° a) du Code de la Propriété intellectuelle. L’article 4 va plus loin : toute personne peut miner des contenus légalement accessibles, y compris à des fins commerciales.
Cependant, cette liberté est fragile : le titulaire des droits peut activer l’opt‑out prévu à l’article 4 § 3 en « réservant » l’œuvre, par exemple via un avis machine‑lisible dans les métadonnées. La jurisprudence française reste pauvre, mais plusieurs arrêts européens confirment que l’absence d’opt‑out explicite vaut autorisation par défaut. Par ailleurs, les copies effectuées pour le TDM doivent être « temporairement stockées » et protégées contre tout accès non autorisé.
En cas de litige, la charge de démontrer le respect de ces conditions pèse sur l’opérateur IA. En pratique, tracer chaque source et vérifier l’absence d’opt‑out est déjà un défi technique majeur.
2. Le scraping massif : reproduction illicite ou usage légitime ?
Ensuite, scrapper le Web dépasse le simple « clic ». Chaque extraction crée une copie intégrale dans la base d’entraînement ; elle constitue donc un acte de reproduction au sens de l’article L122‑3 du Code de la Propriété intellectuelle. Hors exception, l’autorisation des ayants droit s’impose.
Le risque principal réside dans l’action en contrefaçon, assortie de saisie‑contrefaçon, puis de lourds dommages‑intérêts. Des affaires récentes outre‑Atlantique (Andersen v. OpenAI 2024) rappellent l’ampleur des sommes réclamées. En France, la preuve du dépôt copyright sert souvent d’arme procédurale : l’auteur prouve la titularité de ses droits grâce à un enregistrement à l’APP, l’INPI ou chez un huissier.
De plus, le scraping heurte parfois le droit des bases de données (directive 96/9/CE) lorsque le prélèvement excède l’extraction substantielle. Cependant, les juridictions apprécient l’intention et la proportionnalité. Un modèle destiné à la recherche médicale sera jugé différemment d’un chatbot commercial. Là encore, une politique interne de « due diligence » documentée et antérieure aux collectes protège l’entreprise et démontre sa bonne foi.
3. L’AI Act et l’article 53 : l’ère de la transparence obligatoire
Cependant, la donne change avec le règlement (UE) 2024/1689 sur l’IA. À partir du 2 août 2025, l’article 53 impose aux fournisseurs de modèles GPAI de publier un “résumé suffisamment détaillé” des données d’entraînement, de conserver la documentation technique et de mettre en place une politique de conformité au droit d’auteur. Le Code de pratique GPAI, paru le 10 juillet 2025, fournit déjà un mode d’emploi. Il exige : identification des sources, vérification de l’opt‑out, suivi des réservations de droits, et gestion du risque systémique pour les modèles très puissants.
L’étude du Parlement européen « Generative AI and Copyright » souligne la tension : la masse de données nécessaire à l’IA dépasse la capacité humaine de contrôle, mais la responsabilité juridique reste entière.
En parallèle, la FAQ GPAI – art. 53 AI Act rappelle que l’open source n’exonère pas des obligations si le modèle crée un risque systémique. Enfin, les autorités nationales pourront exiger la remise des logs d’entraînement et infliger des amendes pouvant atteindre 3 % du chiffre d’affaires mondial. La transparence devient donc une stratégie de conformité plutôt qu’un fardeau.
4. Vers un entraînement licite : bonnes pratiques contractuelles et techniques dans le text & data mining
Enfin, pour miner sereinement, plusieurs réflexes s’imposent.
- Premièrement, cartographier les sources.
- Deuxièmement, intégrer un scanner d’opt‑out fondé sur les standards Schema.org afin d’écarter les contenus réservés.
- Troisièmement, conserver une preuve horodatée de chaque collecte et de la licence associée ; ce registre répondra aux demandes de l’AI Office.
- Quatrièmement, envisager des accords de licence groupés : de nombreux éditeurs monétisent désormais l’accès aux archives pour usage TDM.
- Cinquièmement, limiter la diffusion des sets bruts en appliquant le chiffrement et l’accès restreint.
- Enfin, prévoir une clause contractuelle avec les développeurs externes : toute infraction constatée déclenchera une garantie d’éviction.
Ces mesures, combinées à un audit régulier, réduisent l’exposition au risque. Elles valorisent aussi le modèle, car un investisseur regardera la « propreté » juridique des données comme un actif intangible.
Conclusion
Le text & data mining se situe au croisement de l’innovation et du droit d’auteur. L’exception TDM offre un espace, mais l’opt‑out redonne la main aux titulaires. Le scraping indiscriminé expose à la contrefaçon, surtout en présence d’un dépôt copyright solide. L’AI Act et son article 53 ferment la parenthèse de l’opacité : le résumé des données d’entraînement deviendra public, et le non‑respect du droit d’auteur se verra. Pour sécuriser vos projets IA, cartographiez vos sources, filtrez les opt‑outs, tracez vos licences et négociez avant de copier. Le coût d’un audit préventif reste inférieur à celui d’un procès emblématique.
Deshoulières Avocats vous conseille et vous accompagne dans chaque phase de votre projet text & data mining : audit des jeux de données, rédaction de licences, mise en conformité AI Act et stratégie de dépôt copyright.
RESSOURCES :
- Étude du Parlement européen, Generative AI and Copyright – Training, Creation, Regulation.
- Commission Européenne, Le code de bonnes pratiques de l’IA à usage général.
- Directive (EU) 2019/790, articles 3 et 4, transposée aux articles L122‑5 3° a) et L122‑5 3° b) CPI.
- Règlement (UE) 2024/1689 « AI Act », article 53 et Annexe XI.
- Deshoulières Avocats, « Web-scraping de données sociales : rester conforme au RGPD »