Sélectionner une page

Synthèse des données d’entraînement : l’obligation de l’AI Act

Depuis le 13 juin 2024, le règlement (UE) 2024/1689, dit AI Act, impose aux fournisseurs de modèles d’IA généraux de publier une synthèse des données d’entraînement. Cette exigence, fixée à l’article 53, bouleverse la gestion des jeux de données et ouvre des enjeux majeurs de propriété intellectuelle. Décryptage pour les décideurs.

Synthèse des données d’entraînement : l’obligation de l’AI Act

Pourquoi l’Union impose un résumé des jeux de données ?

D’abord, l’intelligence artificielle générative a explosé : les grands modèles de langage exploitent des milliards d’œuvres sous copyright. Les litiges contre OpenAI, Google ou Stability AI l’ont montré. Le législateur européen a donc choisi la transparence comme outil de régulation.

Ensuite, la méthode « par les risques » du règlement distingue les systèmes à haut risque et les modèles à usage général. Pour ces derniers, l’article 53 vise trois buts :

  • protéger la création,
  • documenter les sources,
  • et restaurer la confiance des utilisateurs.

Enfin, publier un résumé suffisamment détaillé doit aider les ayants droit à vérifier le respect du droit d’auteur, sans obliger les entreprises à révéler leurs secrets industriels.

Quel contenu pour la synthèse : le standard de l’article 53

Le texte exige quatre catégories d’informations : nature des données (texte, image, son), provenance (domaine public, licences, web crawling), critères d’exclusion (données sensibles, contenus illicites) et pondération dans l’entraînement.

La FAQ GPAI – art. 53 publiée par la Commission précise que le résumé doit être « suffisamment détaillé » sans devenir une liste exhaustive. Pour guider les acteurs, le Code pratique GPAI propose un modèle de formulaire ; l’AI Office prépare même un gabarit officiel. Les fournisseurs devront mettre à jour la synthèse à chaque version majeure du modèle.

Risques juridiques et opportunités pour les titulaires de droits

Ne pas publier la synthèse expose l’éditeur à une amende pouvant atteindre 3 % du chiffre d’affaires mondial. En parallèle, un titulaire de droits pourra invoquer ce manquement pour étayer une action en contrefaçon, car l’article 53 devient un indice de mauvaise foi.

Cependant, la synthèse crée aussi une piste d’audit : elle facilite la traçabilité et la négociation de licences collectives. Des accords-cadres sectoriels, notamment dans l’édition et la musique, s’annoncent. Les entreprises qui respectent l’obligation disposent donc d’un argument commercial et reputational. Mentionner clairement les exclusions de mineurs, de données biométriques ou de secrets d’affaires démontre la conformité au RGPD et à la directive 2004/48/CE.

Mettre en œuvre l’obligation : méthode, calendrier et bonnes pratiques

Le calendrier est serré : les règles sur les modèles généraux prendront effet douze mois après l’entrée en vigueur officielle.

  • Première étape : cartographier les pipelines de données et identifier les sources.
  • Ensuite, appliquer un outil d’« ingestion tagging » pour tracer chaque corpus.
  • Troisième étape : rédiger la synthèse selon le gabarit GPAI puis la publier sur un site accessible et lisible par machine.
  • Enfin, prévoir une gouvernance : versioning, validation juridique, revue éthique. Pour les PME, la Commission encourage l’usage de normes ISO/IEC 5259‑1 sur la qualité des données.

Suivre ces pratiques limite le risque de sanction et renforce la valeur du modèle sur le marché.

Conclusion

L’article 53 AI Act fait entrer la synthèse des données d’entraînement IA dans le quotidien des entreprises. Publier un résumé clair, vivant et maintenu à jour n’est pas une simple formalité : c’est un vecteur de conformité, une preuve de diligence et un levier de confiance. Anticipez dès maintenant, auditiez vos corpus et documentez vos choix : vous transformerez une contrainte réglementaire en avantage compétitif.

Deshoulières Avocats vous conseille et vous accompagne, de l’audit des jeux de données à la rédaction de la synthèse exigée par l’article 53, pour sécuriser vos modèles d’IA et valoriser vos actifs immatériels.

DEMANDER UN DEVIS GRATUIT

RESSOURCES :

Partager :

Une question ?
Deshoulières Avocats a été classé parmi les meilleurs cabinet d’avocats en droit des nouvelles technologies par le journal Le Point.

Nous conseillons et défendons plus de 750 entreprises, en France et à l’international.

DEVIS GRATUIT

Demandez dès à présent un devis gratuit. Deshoulières Avocats s’engage à vous répondre sous 24h.

UNE QUESTION ? UN BESOIN ? CONTACTEZ-NOUS

Deshoulières Avocats conseille et défend plus de 750 entreprises, en France et à l’international.