Licences libres et TDM : Github poursuivi

Publié le 6 janvier 2023

Licences Creative Commons : GitHub est poursuivi en justice, et nous pourrions en retirer quelque chose.

Des personnes m’ont affirmé avec une certitude doctrinale que les licences Creative Commons autorisent l’exploration de texte et de données et, dans la mesure où les termes de la licence sont respectés, je suis d’accord. La réalisation de copies pour effectuer de l’exploration de texte et de données, de l’apprentissage automatique et de l’entraînement à l’IA (ce qu’on nomme généralement « TDM » [NDT : Text and Data Mining]) sans licence supplémentaire est autorisée à des fins commerciales et non commerciales sous CC BY, et à des fins non commerciales sous CC BY-NC. (Information notable : La CCC propose RightFind XML, un service qui prend en charge l’accès commercial sous licence aux articles en texte intégral pour le TDM avec des fonctionnalités à forte valeur ajoutée).

Cependant, je me suis longtemps interrogé sur l’interaction entre l’obligation d’attribution (c’est-à-dire le « BY » dans CC BY) et le TDM. Après tout, l’avantage de ces licences est que l’auteur autorise la réutilisation, généralement sans frais, mais exige l’attribution. L’attribution sous les licences CC peut être le principal avantage et la principale motivation de l’auteur, car peu d’auteurs accepteraient d’offrir les licences sans crédit.

Dans le contexte du TDM, cela soulève des questions intéressantes :

  • L’exigence d’attribution signifie-t-elle que les informations de l’auteur ne peuvent pas être supprimées du contenu en tant qu’élément de données, même si leur inclusion peut faire échouer l’exercice de GDT ou introduire du bruit dans le système ?
  • L’attribution doit-elle être incluse dans l’ensemble des données à chaque étape ?
  • Le résultat de l’extraction doit-il inclure l’attribution, même si des centaines de milliers d’œuvres CC BY ont été extraites et que le résultat ne comprend pas le contenu d’œuvres individuelles ?

Si ces questions ont pu paraître théoriques, ce n’est plus le cas. Une situation analogue impliquant des licences de logiciels libres (GNU et autres) fait actuellement l’objet d’un litige. Le 4 novembre, une action collective - Doe 1 v. GitHub Inc., N.D. Cal., No. 3:22-cv-06823, 11/3/22 - a été déposée devant le tribunal fédéral du district nord de Californie contre Microsoft et GitHub (une filiale de Microsoft) alléguant, entre autres : violation du DMCA ; rupture de contrat ; interférence délictueuse dans une relation contractuelle ; enrichissement sans cause ; concurrence déloyale ; violation du California Consumer Privacy Act ; et négligence. Ont également été poursuivis un mélange confus d’entités à but lucratif et à but non lucratif utilisant toutes une variation du nom OpenAI (OpenAI, Inc., OpenAI, LLC, OpenAI Startup Fund GP I, L.L.C... vous voyez le tableau). OpenAI a reçu un milliard de dollars de financement de la part de Microsoft bien qu’ils semblent « officiellement non liés ».

À l’heure où nous écrivons ces lignes, cette affaire n’en est qu’à ses débuts et il reste encore beaucoup de chemin à parcourir avant d’obtenir un quelconque résultat. Mais les questions qu’elle soulève sont importantes, en particulier pour les auteurs qui ont publié du contenu sous des « licences ouvertes » avec des exigences d’attribution.

Commençons par les bases de l’action en justice. GitHub est une plateforme d’hébergement couramment utilisée pour partager du code source ouvert. L’élan de création et d’utilisation de code source ouvert est raisonnable et présente une certaine utilité sociale. Bon nombre des tâches de traitement que les ingénieurs logiciels contemporains sont appelés à créer sont répétitives, et relativement bien connues et comprises dans la littérature. La programmation open source est un moyen d’aborder la charge que cela représente. Fondamentalement, il n’est pas nécessaire de continuellement réinventer la roue.

Au fil du temps, des licences ont été développées pour normaliser et mieux gérer les droits de réutilisation du code développé et déployé de cette manière. Si le code était fourni sans restrictions, ce serait le plus facile en termes de réutilisation. Mais les gens aiment être reconnus pour leur travail, même dans le monde ouvert. Certains codes ouverts comportent des exigences relativement légères, par exemple : « N’utilisez pas mon code à des fins commerciales (ne le vendez pas ou ne l’utilisez pas dans quelque chose que vous vendez) » et, très basiquement, « Reconnaissez ma contribution (conservez la mention de mon nom sur mon travail) ». Ces types d’exigences sont familiers dans notre secteur, étant donné l’utilisation répandue des licences Creative Commons.

Les plaignants allèguent qu’OpenAI et GitHub ont assemblé et distribué un produit commercial appelé Copilot pour créer du code génératif à l’aide de code accessible au public, initialement mis à disposition sous diverses licences de type « open source », dont beaucoup incluent une exigence d’attribution. Comme l’indique GitHub, « ...[t]rained on billions of lines of code, GitHub Copilot turns natural language prompts into coding suggestions acrosszens of languages [NDT : "Entraîné sur des milliards de lignes de code, GitHub Copilot transforme les invites du langage naturel en suggestions de codage dans des dizaines de langues."] ». Le produit résultant aurait omis tout crédit aux créateurs originaux.

Les licences ouvertes ont tendance à être considérées par les utilisateurs comme autorisant tout et n’importe quoi, sans tenir compte des préoccupations réelles des créateurs. Dans ce cas précis, l’ampleur de la violation alléguée en termes d’œuvres utilisées pourrait bien constituer la base de la défense. « Votre honneur, nous avions besoin de tant d’œuvres qu’il n’était tout simplement pas pratique de demander la permission aux créateurs. » Je ne trouve pas cet argument convaincant étant donné la possibilité aujourd’hui d’accorder des licences pour de nombreux types de contenu à l’échelle pour la GDT [NDT : https://fr.wikipedia.org/wiki/Global_Descriptor_Table], y compris des images, de la musique et oui, des articles de journaux (voir "Information notable" ci-dessus), mais c’est un argument souvent avancé par les contrevenants.

Les licences ouvertes peuvent représenter un défi très concret pour les utilisateurs qui s’exonèrent de leurs termes. Le « mining » est une utilisation légitime du contenu sous une licence CC BY, mais si vous avez besoin de l’autorisation des auteurs pour, par exemple, ne pas inclure les informations d’attribution, cela peut demander du temps et des efforts. En ce qui concerne les revues, certains éditeurs demandent aux auteurs de signer des accords de droits d’auteur, même pour le contenu qui est ensuite publié sous licence ouverte. Cette pratique crée un point de contact unique pour les utilisations qui peuvent ne pas correspondre aux lignes CC. Bien entendu, avec l’expansion des stratégies de maintien des droits, le problème de contacter tous les auteurs ne fait qu’empirer.

Enfin, la plainte allègue une violation de la loi Digital Millennium Copyright Act pour la suppression des avis de droits d’auteur, de l’attribution et des conditions de licence, mais n’allègue manifestement pas de violation des droits d’auteur. Une violation matérielle d’une licence de droit d’auteur peut donner lieu à une plainte pour violation, c’est donc une démarche intéressante. Bien que l’avocat des plaignants ait indiqué qu’une plainte pour violation du droit d’auteur pourrait être ajoutée ultérieurement, je soupçonne que cela a été fait pour éviter un litige désordonné sur l’utilisation équitable. La plainte comprend une déclaration de GitHub affirmant un usage loyal expansif, presque global, qui est en désaccord avec la loi explicite pertinente dans de nombreux pays et franchement en désaccord, même, avec la loi américaine. Néanmoins, l’utilisation de bonne foi est coûteuse et compliquée à plaider pour la défense, alors peut-être a-t-elle choisi de se concentrer sur quelque chose qui est au-delà de la contestation factuelle... et qui cause les mêmes dommages.

***

Ce texte est une traduction de l’article : https://scholarlykitchen.sspnet.org/2023/01/05/github-is-sued-and-we-may-learn-something-about-creative-commons-licensing/

  • Auteur : Roy Kaufman
  • Date : 5 janvier 2023

Retrouvez-moi sur Mastodon →