𝕄aTOS

𝕄aTOS

MAchine Translation for Open Science

La science se fait en anglais, mais le droit européen, lui, se fait dans toutes les langues de l’Union. Parfois, il arrive que le droit parle de science, de science en train de se faire, comme dans le cas des projets de réglementation des systèmes d’Intelligence Artificielle, qui sont en cours de réflexion au sein des institutions européennes, et qui ont du être amendés du fait de l’émergence des giga modèles de langue. Cette contribution illustre l’importance de disposer d’une terminologie à jour pour parler clairement, dans des termes compréhensibles par le plus grand nombre, des technologies en train d’émerger et des enjeux qu’elles posent.


La Législation européenne sur l’intelligence artificielle en cours d’élaboration au sein des institutions de l’UE a connu une avancée récente avec le vote du parlement européen le 14 juin 2023 d’un texte révisé, qui doit maintenant être négocié avec le conseil et les états membres.

Le texte adopté par les parlementaires est disponible sur le site du Parlement Européen:

Nous commentons simplement quelques-uns des amendements les plus récents, liés aux développements des giga modèles de langue. Ces modèles posent un problème à l’équilibre général du texte qui jusqu’à présent avait soigneusement évité de définir précisément les technologies, en se focalisant sur les finalités de celles-ci ; selon leur niveau de danger (du plus au moins risqué), la réglementation prévoyait d’augmenter le niveau d’encadrement, pouvant aller jusqu’à l’interdiction totale des technologies les plus dangeureuses (par exemple la notation sociale).

Commençons par l’amendement 34.

Anglais Français
(12c) The developers of free and open-source AI components should not be mandated under this Regulation to comply with requirements targeting the AI value chain and, in particular, not towards the provider that has used that free and open-source AI component. Developers of free and open-source AI components should however be encouraged to implement widely adopted documentation practices, such as model and data cards, as a way to accelerate information sharing along the AI value chain, allowing the promotion of trustworthy AI systems in the Union. (12 quater) Les développeurs de composants d’IA libres et ouverts ne devraient pas être tenus, en vertu du présent règlement, de se conformer aux exigences ciblant la chaîne de valeur de l’IA et, en particulier, aux exigences vis-à-vis du fournisseur qui a utilisé ce composant d’IA libre et ouvert. Les développeurs de composants d’IA libres et ouverts devraient toutefois être encouragés à mettre en œuvre des pratiques documentaires largement adoptées, telles que des modèles et des cartes de données, afin d’accélérer le partage d’informations tout au long de la chaîne de valeur de l’IA, ce qui permettrait de promouvoir des systèmes d’IA dignes de confiance dans l’Union.

Commentaires: La version anglaise utilise (de manière factorisée et donc ambigüe) les termes ‘model cards’ et ‘data cards’ qui font référence à des pratiques de documentation de modèles et de jeux de données en cours de formalisation et qui ont été introduits par M. Mitchell et ses co-auteurs dans: Model Cards for Model Reporting et par M. Pushkarna et al dans Data cards: Purposeful and transparent dataset documentation for responsible AI . La version française traduit ‘modèles et cartes de données’, un double contresens qui conduit à perdre la notion de ‘carte (d’identité) du modèle’. Une traduction plus juste serait ‘carte d’identité du modèle’ et ‘carte d’identité des données’.

Passons à l’amendement (60e)

Anglais Français
(60e) Foundation models are a recent development, in which AI models are developed from algorithms designed to optimize for generality and versatility of output. Those models are often trained on a broad range of data sources and large amounts of data to accomplish a wide range of downstream tasks, including some for which they were not specifically developed and trained. The foundation model can be unimodal or multimodal, trained through various methods such as supervised learning or reinforced learning. AI systems with specific intended purpose or general purpose AI systems can be an implementation of a foundation model, which means that each foundation model can be reused in countless downstream AI or general purpose AI systems. These models hold growing importance to many downstream applications and systems. (60 sexies) Les systèmes d’IA à finalité générale sont une évolution récente, dans le cadre de laquelle des modèles d’IA sont développés à partir d’algorithmes conçus pour optimiser la généralité et la polyvalence de la production. Ces modèles sont souvent formés sur un large éventail de sources de données et de grandes quantités de données pour accomplir un large éventail de tâches en aval, y compris certaines pour lesquelles ils n’ont pas été spécifiquement développés et formés. Le système d’IA à finalité générale peut être unimodal ou multimodal, formé au moyen de diverses méthodes telles que l’apprentissage supervisé ou l’apprentissage renforcé. Les systèmes d’IA ayant une destination spécifique ou les systèmes d’IA à usage général peuvent être la mise en œuvre d’un système d’IA à finalité générale, ce qui signifie que chaque système d’IA à finalité générale peut être réutilisé dans d’innombrables systèmes d’IA en aval ou à usage général. Ces modèles revêtent une importance croissante pour de nombreuses applications et systèmes en aval.

Commentaires:

Foundation models‘ est une proposition récente de l’Institute for Human-Centered Artificial Intelligence de Stanford qui ne fait pas complètement consensus mais qui désigne spécifiquement les modèles profonds préentrainés (voir par exemple Wikipédia); la version française traduit de manière assez systématique ‘systèmes d’IA à finalité générale’, qui est toutefois bien plus général que ‘modèle de fondation’ et pourrait aussi bien désigner des modèles probabilistes, symboliques ou hybrides. Cette traduction a le mérite de bien mettre en évidence le nouveau problème posé par ces modèles (ils n’ont pas de finalité précise), mais la confusion fâcheurse entre ‘modèles’ et ‘systèmes’ rend la fin de ce paragraphe complètement incompréhensible car le texte anglais explique qu’un modèle de fondation peut servir à implanter des systèmes soit à destination spécifique, soit généraux; comme les deux concepts sont confondus dans le texte français, la dernière phrase du texte français semble introduire une différence entre ‘systèmes à finalité générale’ et ‘systèmes à usage général’.

foundation(al) model’ pourrait être mieux traduit par ‘modèle de fondation’ comme dans le récent appel de l’ANR sur les (sic) ‘IA-clusters’ (pôles de recherche et formation en IA); c’est également le terme retenu par le Comité National Pilote d’Ethique du Numérique (CNPEN) dans son récent avis (7) sur les Intelligences Artificielles Genératives.

Dans sa présentation des ‘modèles de fondation’, la version anglaise discute de leur apprentissage en termes généraux. L’anglais utilise ‘supervised learning’ et ‘reinforced learning’. Le second est probablement une erreur pour ‘reinforcement learning’, que le français traduit par ‘apprentissage renforcé’ au lieu d’utiliser la terminologie établie ‘apprentissage par renforcement’. Plus fondamentalement, il y a peut-être ici un contresens dans la compréhension des ‘foundation models’, que l’article original de Stanford (section 1.1) caractérise précisément par leur incomplétude, et par le fait qu’ils sont entraînés sans supervision.

tâche en aval’ est attesté, mais c’est une traduction littérale de ‘downstream task’, qui est typiquement utilisée pour décrire des applications qui impliquent une succession de traitement; ‘tâches finales’ serait sans doute meilleur pour marquer le fait qu’il s’agit d’applications finalisées.

Enfin, on note que ‘trained’ est plusieurs fois traduit par ‘formé(s)’ (‘souvent formés’, ‘développés et formés’), à la place de ‘entraîné(s)’ qui est la traduction correcte.


Anglais Français
(60f) In the case of foundation models provided as a service such as through API access, the cooperation with downstream providers should extend throughout the time during which that service is provided and supported, in order to enable appropriate risk mitigation, unless the provider of the foundation model transfers the training model as well as extensive and appropriate information on the datasets and the development process of the system or restricts the service, such as the API access, in such a way that the downstream provider is able to fully comply with this Regulation without further support from the original provider of the foundation model. (60 septies) Dans le cas de systèmes d’IA à finalité générale fournis sous la forme d’un service comme par accès API, la coopération avec les fournisseurs en aval devrait s’étendre pendant toute la durée de fourniture et de soutien de ce service, afin de permettre une atténuation appropriée des risques, à moins que le fournisseur du système d’IA à finalité générale ne transfère le système d’IA à finalité générale ainsi que des informations détaillées et appropriées sur les ensembles de données et le processus de développement du système ou restreint le service, comme l’accès API, de manière à ce que le fournisseur en aval soit en mesure de se conformer pleinement au présent règlement sans le soutien supplémentaire du fournisseur initial du système d’IA à finalité générale.

comme par accès API’ (such as through API) n’est pas très heureux - en écho à ‘software as a service’ / logiciel en tant que service, on pourrait suggérer ‘modèles de fondation en tant que services fournis au travers d’API’. On note qu’il existe un terme recommandé pour API: Interface de Programmation d’Application

downstream providers’ - fournisseurs en aval, voir commentaire supra.

Poursuivons la lecture avec l’amendement suivant.

Anglais Français
60g) In light of the nature and complexity of the value chain for AI system, it is essential to clarify the role of actors contributing to the development of AI systems. There is significant uncertainty as to the way foundation models will evolve, both in terms of typology of models and in terms of self-governance. Therefore, it is essential to clarify the legal situation of providers of foundation models. Combined with their complexity and unexpected impact, the downstream AI provider’s lack of control over the foundation model’s development and the consequent power imbalance and in order to ensure a fair sharing of responsibilities along the AI value chain, such models should be subject to proportionate and more specific requirements and obligations under this Regulation, namely foundation models should assess and mitigate possible risks and harms through appropriate design, testing and analysis, should implement data governance measures, including assessment of biases, and should comply with technical design requirements to ensure appropriate levels of performance, predictability, interpretability, corrigibility, safety and cybersecurity and should comply with environmental standards. These obligations should be accompanied by standards. Also, foundation models should have information obligations and prepare all necessary technical documentation for potential downstream providers to be able to comply with their obligations under this Regulation. Generative foundation models should ensure transparency about the fact the content is generated by an AI system, not by humans. These specific requirements and obligations do not amount to considering foundation models as high risk AI systems, but should guarantee that the objectives of this Regulation to ensure a high level of protection of fundamental rights, health and safety, environment, demoacracy and rule of law are achieved. Pre-trained models developed for a narrower, less general, more limited set of applications that cannot be adapted for a wide range of tasks such as simple multi-purpose AI systems should not be considered foundation models for the purposes of this Regulation, because of their greater interpretability which makes their behaviour less unpredictable. (60 octies) Compte tenu de la nature et de la complexité de la chaîne de valeur des systèmes d’IA, il est essentiel de faire la lumière sur le rôle des acteurs qui contribuent au développement des système d’IA. Il existe une grande incertitude quant à la manière dont les systèmes d’IA à finalité générale évolueront, tant en ce qui concerne la typologie des modèles que l’autogouvernance. Il est donc essentiel de clarifier la situation juridique des fournisseurs de systèmes d’IA à finalité générale. Combinés à leur complexité et à leur incidence inattendue, le manque de contrôle exercé par le fournisseur d’IA en aval sur le développement du système d’IA à finalité générale et sur le déséquilibre de pouvoir qui en résulte, et afin de garantir un partage équitable des responsabilités tout au long de la chaîne de valeur de l’IA, ces modèles devraient être soumis à des exigences et obligations proportionnées et plus spécifiques au titre du présent règlement, à savoir que les systèmes d’IA à finalité générale devraient évaluer et atténuer les risques et les préjudices éventuels au moyen d’une conception, d’essais et d’analyses appropriés, mettre en œuvre des mesures de gouvernance des données, y compris l’évaluation des biais, et respecter les exigences en matière de conception technique afin de garantir des niveaux appropriés de performance, de prévisibilité, d’interprétation, de prévisibilité, de sécurité et de cybersécurité, et devraient être conformes aux normes environnementales. Ces obligations devraient s’accompagner de normes. En outre, les systèmes d’IA à finalité générale devraient être soumis à des obligations d’information et préparer toute la documentation technique nécessaire pour permettre aux fournisseurs en aval potentiels de se conformer aux obligations qui leur incombent en vertu du présent règlement. Les systèmes d’IA à finalité générale génératifs devraient garantir la transparence quant au fait que le contenu est généré par un système d’IA, et non par un humain. Ces exigences et obligations spécifiques n’équivalent pas à considérer les systèmes d’IA à finalité générale comme des systèmes d’IA à haut risque, mais devraient garantir que les objectifs du présent règlement visant à garantir un niveau élevé de protection des droits fondamentaux, de la santé et de la sécurité, de l’environnement, de la démocratie et de l’état de droit sont atteints. Les modèles préformés élaborés pour un ensemble d’applications plus restreint, moins général et plus limité, qui ne peuvent être adaptés à un large éventail de tâches, telles que les simples systèmes d’IA polyvalents, ne devraient pas être considérés comme des systèmes d’IA à finalité générale aux fins du présent règlement, en raison de leur plus grande capacité d’interprétation, ce qui rend leur comportement moins imprévisible.

Commentaire: En plus de la reprise de confusions qui existent dans les sections précédentes et la reprise de ‘préformés’ au lieu de ‘préentraînés’, la version française comporte une erreur de grammaire dans la dernière phrase ‘modèles préformés (…), telles (=> tels) que les simples systèmes polyvalents (…) ne devraient pas être considérés.’

Un contresens s’est glissé dans la dernière phrase: l’anglais parle ‘d’interprétabilité’ (‘greater interpretability’), sans doute de manière un peu hasardeuse car il sera difficile de dresser une frontière claire entre ce qui est considéré comme modèle de fondation et ce qui ne l’est pas; le français parle ‘d’interprétation’, comme si les modèles dont il est question pouvaient produire des interprétations de leurs sorties. Le lien qui est tissé ici entre ‘interprétabilité’ et ‘imprédictabilité’ n’est pas très clair.

Le texte introduit enfin (peut-être) un nouveau concept ‘simple multi-purpose AI systems’ (donc un système qui n’a pas qu’une seule finalité, mais plusieurs, contrairement à un système ‘à finalité générale’).


Anglais Français
60h) Given the nature of foundation models, expertise in conformity assessment is lacking and third-party auditing methods are still under development. The sector itself is therefore developing new ways to assess fundamental models that fulfil in part the objective of auditing (such as model evaluation, red-teaming or machine learning verification and validation techniques). Those internal assessments for foundation models should be should be broadly applicable (e.g. independent of distribution channels, modality, development methods), to address risks specific to such models taking into account industry state-of-the-art practices and focus on developing sufficient technical understanding and control over the model, the management of reasonably foreseeable risks, and extensive analysis and testing of the model through appropriate measures, such as by the involvement of independent evaluators. As foundation models are a new and fast-evolving development in the field of artificial intelligence, it is appropriate for the Commission and the AI Office to monitor and periodically asses the legislative and governance framework of such models and in particular of generative AI systems based on such models, which raise significant questions related to the generation of content in breach of Union law, copyright rules, and potential misuse. It should be clarified that this Regulation should be without prejudice to Union law on copyright and related rights, including Directives 2001/29/EC, 2004/48/ECR and (EU) 2019/790 of the European Parliament and of the Council. (60 nonies) Compte tenu de la nature des systèmes d’IA à finalité générale, l’expertise en matière d’évaluation de la conformité fait défaut et des méthodes d’audit par des tiers sont toujours en cours d’élaboration. Le secteur lui-même développe donc de nouveaux moyens d’évaluer les systèmes d’IA à finalité générale qui répondent en partie à l’objectif de l’audit (tels que l’évaluation des modèles, la méthode de l’équipe rouge («red teaming») ou les techniques de vérification et de validation de l’apprentissage automatique). Ces évaluations internes des systèmes d’IA à finalité générale devraient être largement applicables (par exemple, indépendamment des canaux de distribution, des modalités, des méthodes de développement), afin de traiter les risques propres à ces modèles en tenant compte des pratiques les plus récentes du secteur et de mettre l’accent sur le développement d’une compréhension technique et d’un contrôle suffisants du modèle, sur la gestion des risques raisonnablement prévisibles, ainsi que sur une analyse et des essais approfondis du modèle au moyen de mesures appropriées, par exemple par la participation d’évaluateurs indépendants. Étant donné que les systèmes d’IA à finalité générale constituent une évolution nouvelle et rapide dans le domaine de l’intelligence artificielle, il convient que la Commission et le Bureau de l’IA surveillent et évaluent périodiquement le cadre législatif et de gouvernance de ces modèles et, en particulier, des systèmes d’IA génératifs fondés sur de tels modèles, qui soulèvent des questions importantes liées à la production de contenus en violation du droit de l’Union, aux règles en matière de droit d’auteur et à d’éventuels abus. Il convient de préciser que le présent règlement devrait être sans préjudice du droit de l’Union sur le droit d’auteur et les droits voisins, y compris les directives 2001/29/CE, 2004/48/CE et (UE) 2019/790 du Parlement européen et du Conseil.

Commentaire:

Une erreur ou confusion peut-être dans le texte anglais qui parle maintenant de ‘fundamental model’, pour lequel le français conserve ‘système d’IA à finalité générale’.

red-teaming’ est traduit de manière littérale par ‘l’équipe rouge’, mais les traducteurs ont pris soin de rappeler le terme anglais. En sécurité informatique “red-teaming” renvoie aux stratégies de mises à l’épreuve de systèmes qui emploient des méthodes adverses, en essayant de simuler ce que ferait un agresseur de l’équipe rouge (la “red-team” désignant souvent en langage militaire l’ennemi, et la “blue-team” les alliés). Il est douteux que cette interprétation soit très bien connue - une traduction possiblement plus transparente serait dans le contexte ‘(..) l’étude de leur comportement face à des attaques malveillantes’ etc. Le texte continue par un contresens, ‘techniques de vérification et validation de l’apprentissage automatique’ quand l’anglais dit ‘techniques d’apprentissage automatique pour la vérification et la validation’.