Publications | 𝕄aTOS

Vous pouvez trouver ici les publications associées au projet, qui se trouvent aussi sur le portail HAL.

La variation dénominative dans les textes scientifique en sciences de la terre : proposition pour une méthodologie d'annotation de la variation

José Cornejo Carcamo, Natalie Kübler, Alexandra Mestivier. La variation dénominative dans les textes scientifique en sciences de la terre : proposition pour une méthodologie d'annotation de la variation. Journée d'Etudes Beyond Single Words: The INterplay pf Phraseology, Multi-Word Units, and Complex Noun Phrases in Specialised Discourses and AI-Assisted Translation. Lichao Zhu, Natalie Kübler et Mojca Pecman: 11 décembre 2025, Université Paris Cité.

Translating Variation in Multi-Word Terms: Is the human going to stay in the loop?

Natalie Kübler. Translating Variation in Multi-Word Terms: Is the human going to stay in the loop?. Κ. Valeontis, F. Kazala, M. Panagiotou, E. Tziafa, G. Tsiamas, E. Fragkou. Proceedings of the 15th Conference "Hellenic Language and Terminology", Athènes : ELETO, pp.28-40, 2025, 978–618–5788–04–9.

Cet article analyse l’impact de la variation terminologique, en particulier des termes polylexicaux (ou complexes), sur la traduction spécialisée à l’ère de la traduction automatique et de l’IA générative. Il montre pourquoi cette variation demeure difficile à traiter de manière cohérente par les systèmes automatisés, notamment au sein des groupes nominaux complexes comprenant des termes. En comparant les approches humaines et automatiques, l’article plaide en faveur d’un modèle centré sur l'humain, combinant méthodes fondées sur les corpus, expertise terminologique et outils d’IA afin de garantir un traitement et une traduction fiable et cohérente de la terminologie.

Self-Retrieval from Distant Contexts for Document-Level Machine Translation

Ziqian Peng, Rachel Bawden et François Yvon. Self-Retrieval from Distant Contexts for Document-Level Machine Translation. Proceedings of the Tenth Conference on Machine Translation, pages 220–240, Suzhou, China. Association for Computational Linguistics.

La traduction automatique de documents est une tâche difficile, car elle demande de modéliser à la fois les dépendances à court et à long terme afin de maintenir la cohérence et la cohésion de la traduction générée. Cependant, ces dépendances sont très peu denses, et la plupart des systèmes de traduction augmentés par le contexte ont recours à deux options tout aussi insatisfaisantes l'une que l'autre : soit inclure des contextes aussi longs que possible, en espérant que les dépendances utiles ne seront pas noyées dans le bruit, soit utiliser des contextes locaux de taille limitée, au risque de passer à côté d'informations pertinentes. Dans ce travail, nous étudions un cadre de traduction automatique augmenté par auto-récupération (Self-RAMT), visant à informer les décisions de traduction à l'aide de contextes locaux et globaux informatifs extraits dynamiquement des textes source et cible. Nous examinons l'efficacité de cette méthode à l'aide de trois grands modèles de langue, en explorant trois critères de sélection du contexte. Nous menons des expériences sur des conférences TED ainsi que sur des articles scientifiques parallèles, en considérant trois directions de traduction. Nos résultats montrent que l'intégration de contextes distants avec Self-RAMT améliore la qualité de la traduction, telle qu'elle est mesurée par des scores basés sur des références et des mesures de cohérence.

Specialised Translation Annotation with LLMs: Error Identification and Categorisation Using a Customised Error Typology

Joachim Minder, Guillaume Wisniewski, Natalie Kübler. Specialised Translation Annotation with LLMs: Error Identification and Categorisation Using a Customised Error Typology. Actes de Using Corpora in Contrastive and Translation Studies. Hildesheim, Allemagne, Septembre 2025.

Is generative AI the solution to improve efficiency and objectivity in translation and post-editing quality assessment?

Natalie Kübler, Alexandra Mestivier, Joachim Minder, Guillaume Wisniewski, Marie Bouchet, Maud Bénard. Is generative AI the solution to improve efficiency and objectivity in translation and post-editing quality assessment? Actes de Using Corpora in Contrastive and Translation Studies. Hildesheim, Allemagne, Septembre 2025.

On Assessing the Morphological and Multilingual Competence of LLMs

Paul Lerner. On Assessing the Morphological and Multilingual Competence of LLMs. DAAD Postdoc-NeT-AI seminars, Munich, Heilbronn, and Göttingen. 2025.

Studying the morphological competence of LLMs allows us to measure their generalization ability. Indeed, the lexicon is not a list of words that is known a priori and immutable. Modern models all rely on BPE (Byte Pair Encoding) segmentation, which segments rare words into subwords by optimizing a data compression criterion. Thus, models are theoretically capable of deriving or inflecting words in forms absent from their training corpus, but the reality is more complex. We’ll study if LLMs are able to translate neologisms, i.e. new terms absent from their training data (Lerner and Yvon, 2025a). We’ll find that they can benefit from in-context learning with co-hyponyms and terms sharing the same derivation paradigm. However, they are sensitive to the morphological similarity between source and target terms. Their predictions are also impacted by subword tokenization, especially for prefixed terms. Because subwords are marked as initial- or intra-word, we find that LLMs perform poorly at handling some types of affixations, which hinders their ability to generate novel (unobserved) word forms (Lerner and Yvon, 2025b). The largest models trained on enough data can mitigate this tendency because their initial- and intra-word embeddings are aligned; in-context learning also helps when all examples are selected in a consistent way; but only morphological segmentation can achieve a near-perfect accuracy. Apart from formal neologisms, formed by affixation, a common phenomena is borrowing, which is linked to code-switching. Although all LLMs are now somewhat multilingual, the way they transfer and share knowledge across languages is not yet well understood, and is likely very different from human multilingualism. Indeed, LLMs are trained on a mix of multiple monolingual corpora, making code-switching very surprising. We aim precisely at measuring this (Radoła, 2025).

Testing LLMs' Capabilities in Annotating Translations Based on an Error Typology Designed for LSP Translation: First Experiments with ChatGPT

Joachim Minder, Guillaume Wisniewski, Natalie Kübler. Testing LLMs' Capabilities in Annotating Translations Based on an Error Typology Designed for LSP Translation: First Experiments with ChatGPT. Proc. MT-Summit 2025. Genève.

Cette étude vise à évaluer les capacités des grands modèles de langue (LLM), en particulier ChatGPT, à annoter des sorties de traduction automatique (TA) sur la base d'une typologie d'erreurs. Contrairement aux études antérieures qui se sont principalement intéressées à la langue générale, nous examinons la capacité de ChatGPT à identifier et à catégoriser les erreurs dans les traductions spécialisées. En testant deux prompts différents et en utilisant une typologie d'erreurs personnalisée, nous comparons les annotations de ChatGPT avec les évaluations humaines d'experts sur les traductions produites par DeepL et ChatGPT lui-même. Les résultats montrent que, pour les traductions de DeepL, le rappel et la précision sont relativement élevés. Cependant, le degré de précision dans la catégorisation des erreurs dépend des caractéristiques spécifiques du prompt et de son niveau de détail, ChatGPT étant très performant avec un prompt détaillé. Lorsqu'il évalue ses propres traductions, ChatGPT obtient des résultatssignificativement moins satisfaisants, ce qui révèle ses limites en matière d'auto-évaluation. Ces résultats mettent en évidence à la fois le potentiel et les limites des LLM pour l'évaluation des traductions, en particulier dans les domaines de spécialité. Nos expériences ouvrent la voie à de futures recherches sur les LLM open source, qui pourraient produire des annotations de qualité comparable, voire supérieure. À l'avenir, nous avons également pour objectif de tester l'efficacité pratique de cette évaluation automatisée dans le contexte de l'enseignement de la traduction, notamment en optimisant le processus d'évaluation humaine par les enseignants et en explorant l'impact des annotations des LLM sur la post-édition et l'apprentissage de la traduction par les étudiants.

Investigating Length Issues in Document-level Machine Translation

Ziqian Peng, Rachel Bawden, François Yvon. Investigating Length Issues in Document-level Machine Translation. Proc. MT-Summit 2025. Genève.

Les architectures à base de "transformeurs" sont de plus en plus efficaces pour traiter et engendrer de très longs segments de textes, ce qui ouvre de nouvelles perspectives pour la traduction automatique (TA) au niveau des documents. Dans ce travail, nous remettons en question la capacité des systèmes de traduction automatique à traiter des textes comprenant jusqu'à plusieurs milliers de mots. Nous concevons et mettons en œuvre une nouvelle approche destinée à mesurer précisément l'effet de l'allongement des textes sur les résultats de la traduction automatique. Nos expériences avec deux architectures représentatives montrent sans ambiguïté que (a) la performance de la traduction diminue avec la longueur du texte d'entrée; (b) la position des phrases dans le document a un impact, et la qualité de la traduction est plus élevée pour les phrases qui apparaissent en début de document. Nous montrons également que la manipulation de la distribution de la longueur des documents et du codage des positions n'atténue que marginalement ces problèmes. Nos résultats suggèrent que même si la traduction automatique au niveau du document est réalisable d'un point de vue technique, elle n'atteint pas encore les performances de la traduction automatique utilisant une segmentation en phrases.

Morphological Competence of LLMs: Applied to Translation of Scientific Neologisms

Paul Lerner. Morphological Competence of LLMs: Applied to Translation of Scientific Neologisms. ChangeLing (CMU) seminars, online, https://changelinglab.github.io/. 2025.

Unlike “Likely”, “Unlike” is Unlikely: BPE-based Segmentation hurts Morphological Derivations in LLMs

Paul Lerner and François Yvon. 2025. Unlike “Likely”, “Unlike” is Unlikely: BPE-based Segmentation hurts Morphological Derivations in LLMs. In Proceedings of the 31st International Conference on Computational Linguistics, pages 5181–5190, Abu Dhabi, UAE. Association for Computational Linguistics.

Large Language Models (LLMs) rely on subword vocabularies to process and generate text. However, because subwords are marked as initial- or intra-word, we find that LLMs perform poorly at handling some types of affixations, which hinders their ability to generate novel (unobserved) word forms. The largest models trained on enough data can mitigate this tendency because their initial- and intra-word embeddings are aligned; in-context learning also helps when all examples are selected in a consistent way; but only morphological segmentation can achieve a near-perfect accuracy.

Towards the Machine Translation of Scientific Neologisms

Paul Lerner and François Yvon. 2025. Towards the Machine Translation of Scientific Neologisms. In Proceedings of the 31st International Conference on Computational Linguistics, pages 5181–5190, Abu Dhabi, UAE. Association for Computational Linguistics.

Scientific research continually discovers and invents new concepts, which are then referred to by new terms, neologisms, or neonyms in this context. As the vast majority of publications are written in English, disseminating this new knowledge to the general public often requires translating these terms. However, by definition, no parallel data exist to provide such translations. Therefore, we propose to leverage term definitions as a useful source of information for the translation process. As we discuss, Large Language Models are well suited for this task and can benefit from in-context learning with co-hyponyms and terms sharing the same derivation paradigm. These models, however, are sensitive to the superficial and morphological similarity between source and target terms. Their predictions are also impacted by subword tokenization, especially for prefixed terms.

Étude des Protocoles d'Évaluation Humaine pour la Traduction de Documents

Maud Bénard, Natalie Kübler, Alexandra Mestivier, Joachim Minder et Lichao Zhu. Étude des Protocoles d'Évaluation Humaine pour la Traduction de Documents. Rapport D4-1.1, Projet ANR MaTOS. 2024, pp.84.

Ce rapport fait le point sur les différents protocoles qui permettent d’évaluer la qualité de la traduction humaine, de la traduction automatique et/ou de la post-édition. Après un bref résumé sur les métriques automatiques développées en Traitement Automatique des Langues (TAL) nous nous concentrons sur les protocoles d’évaluation mis en oeuvre par des humains. Les approches psychologistes sont distinguées des approches textuelles ou discursives. Nous abordons de manière plus approfondie la description des approches textuelles, à savoir, principalement des typologies d’erreurs, dans les contextes théoriques, professionnels et pédagogiques pour évaluer la qualité de la traduction humaine et automatique et de la post-édition. Finalement, nous développons la nouvelle typologie adaptée à ces trois types de production qui est mise en œuvre dans le projet MaTOS. Le manuel de cette typologie est présenté en annexe.

Prise en compte de longs contextes en traduction automatique neuronale: un état de l'art

Ziqian Peng, Rachel Bawden, François Yvon. Prise en compte de longs contextes en traducution automatique neuronale: un état de l'art. Livrable D3-2.1, Projet ANR MaTOS. 2024, pp.50.

Ce rapport étudie les méthodes visant à intégrer un contexte discursif étendu en traduction automatique (TA), en se focalisant sur les méthodes de traduction neuronales. Les systèmes de traduction automatique traduisent en général chaque phrase indépendemment de ses voisines, ce qui entraîne des erreurs systématiques qui résultent d'un contexte discursif trop étroit. Diverses approches ont été proposées pour intégrer le contexte au-delà de la phrase courante, en s'appuyant sur l'architecture transformeur, qui est l'architecture prédominante en TA. Récemment, l'introduction de grands modèles de langue (LLM) a également créé de nouvelles opportunités pour traiter les dépendances à longue portée, donnant lieu à la formulation d'approches holistiques de la traduction, qui prennent en compte un contexte étendu. Nous discutons des défis que pose la traduction de longs documents, avant de présenter les méthodes proposées pour les architectures encodeurs-décodeurs et les approches à base de LLM, avec un bref aperçu des implémentations efficaces pour les transformeurs, qui subsubmment ces deux types de modèles. En complément, nous considérons également des stratégies d'extension de la fênetre du contexte pour d'autres tâches de TAL; nous avons également listé des corpus de documents parallèles récemment disponibles en source ouverte, pour une exploration future. Nous concluons par un résumé des travaux actuels et des principales directions de recherche.

Vers la traduction automatique des néologismes scientifiques

Paul Lerner, François Yvon. Vers la traduction automatique des néologismes scientifiques. Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position, pages 245-261, Toulouse, France, ATALA.

La recherche scientifique découvre et invente continuellement de nouveaux concepts qui sont alors désignés par de nouveaux termes, des néologismes, ou néonymes dans ce contexte. Puisque les publications se font très majoritairement en anglais, diffuser ces nouvelles connaissances en français demande souvent de traduire ces termes, afin d’éviter de multiplier les anglicismes qui sont moins facilement compréhensibles pour le grand public. Nous proposons d’explorer cette tâche à partir de deux thésaurus en exploitant la définition du terme afin de le traduire plus fidèlement. Pour ce faire, nous explorons les capacités de deux grands modèles de langue multilingues, BLOOM et CroissantLLM, qui parviennent à traduire des néologismes scientifiques dans une certaine mesure. Nous montrons notamment qu’ils utilisent souvent des procédés morphosyntaxiques appropriés mais sont limités par la segmentation en unités sous-lexicales et biaisés par la fréquence d’occurrences des termes ainsi que par des similarités de surface entre l’anglais et le français.

À propos des difficultés à traduire automatiquement de longs documents

Ziqian Peng, Rachel Bawden and François Yvon (2024). À propos des difficultés à traduire automatiquement de longs documents. Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position, pages 2-21, Toulouse, France, ATALA.

Les nouvelles architectures de traduction automatique sont capables de traiter des segments longs et de surpasser la traduction de phrases isolées, laissant entrevoir la possibilité de traduire des documents complets. Pour y parvenir, il est nécessaire de surmonter un certain nombre de difficultés liées à la longueur des documents à traduire. Dans cette étude, nous discutons de la traduction des documents sous l'angle de l'évaluation, en essayant de répondre à une question simple: comment mesurer s'il existe une dégradation des performances de traduction avec la longueur des documents ? Nos analyses, qui évaluent des systèmes encodeur-décodeur et un grand modèle de langue à l'aune de plusieurs métriques sur une tâche de traduction de documents scientifiques suggèrent que traduire les documents longs d'un bloc reste un problème difficile.

Les modèles Bloom pour le traitement automatique de la langue française

Rachel Bawden, Hatim Bourfoune, Bertrand Cabot, Nathan Cassereau, Pierre Cornette, Marco Naguib, Aurélie Névéol et François Yvon. Les modèles Bloom pour le traitement automatique de la langue française. 2024. Rapport technique.

Le développement de très grands modèles de langue, capables de prendre en charge de multiples analyses automatiques de textes, implique de développer en parallèle l'infrastructure requise pour évaluer ces modèles, en couvrant idéalement le plus de tâches possible. De nombreux ensembles de données de référence ont ainsi été rassemblés pour la langue anglaise, permettant d'évaluer ces gigas modèles sous de multiples facettes. Il existe également des jeux de test multilingues, avec une couverture bien moindre, qui sont utilisés pour mesurer la capacité de ces modèles à traiter plusieurs langues. Dans cet article, nous présentons nos propres efforts pour assembler un ensemble d'évaluation multi-tâche pour le français, qui est ensuite utilisé pour évaluer les modèles de la famille BLOOM. Les résultats présentés ici confirment et complémentent les principaux résultats d'évaluation de BLOOM en anglais; ils permettent de conclure que les performances obtenues en français et en anglais sont très voisines, et encore meilleures lorsque les amorces utilisés pour l'inférence en contexte sont rédigées dans la même langue que les textes soumis à l'analyse.

Translate your Own: a Post-Editing Experiment in the NLP domain

Rachel Bawden, Ziqian Peng, Maud Bénard, Eric Villemonte de La Clergerie, Raphaël Esamotunu, Mathilde Huguin, Natalie Kübler, Alexandra Mestivier, Mona Michelot, Laurent Romary, Lichao Zhu et François Yvon (2024). Translate your Own: a Post-Editing Experiment in the NLP domain. In Proceedings of the 25th Annual Conference of the European Association for Machine Translation, pages 431–443, Sheffield, UK, European Association for Machine Translation.

The improvements in neural machine translation make translation and post- editing pipelines ever more effective for a wider range of applications. In this paper, we evaluate the effectiveness of such a pipeline for the translation of scientific documents (limited here to article abstracts). Using a dedicated interface, we collect, then analyse the post-edits of approximately 350 abstracts (English→French) in the Natural Language Processing domain for two groups of post-editors: domain experts (academics encouraged to post-edit their own articles) on the one hand and trained translators on the other. Our results confirm that such pipelines can be effective, at least for high-resource language pairs. They also highlight the difference in the post-editing strategy of the two subgroups. Finally, they suggest that working on term translation is the most pressing issue to improve fully automatic translations, but that in a post-editing setup, other error types can be equally annoying for post-editors.

Translating scientific abstracts in the bio-medical domain with structure-aware models

Sadaf Abdul Rauf et François Yvon (2024). Translating scientific abstracts in the bio-medical domain with structure-aware models. Computer Speech & Language, vol. 87.

Machine Translation (MT) technologies have improved in many ways and generate usable outputs for a growing number of domains and language pairs. Yet, most sentence based MT systems struggle with contextual dependencies, processing small chunks of texts, typically sentences, in isolation from their textual context. This is likely to cause systematic errors or inconsistencies when processing long documents. While various attempts are made to handle extended contexts in translation, the relevance of these contextual cues, especially those related to the structural organization, and the extent to which they affect translation quality remains an under explored area. In this work, we explore ways to take these structural aspects into account, by integrating document structure as an extra conditioning context. Our experiments on biomedical abstracts, which are usually structured in a rigid way, suggest that this type of structural information can be useful for MT and document structure prediction. We also present in detail the impact of structural information on MT output and assess the degree to which structural information can be learned from the data.

Document-level Machine Translation for scientific texts

Ziqian Peng (2023). Document-level Machine Translation for scientific texts. Mémoire de Master, Université Paris-Saclay.

While neural machine translation has seen significant progress during recent years at sentencelevel, translating full documents remains a challenge to efficiently incorporate document-level context. Various approaches have been proposed, but most of them consider only one to three previous source and/or target sentences as the context. This is not sufficient to faithfully translate some language phenomena, like lexical consistency and document coherence, especially in some scientific texts. In this work, we conducted experiments to include full contextual context and investigate the impact of all the past / future sentences on the source side with a context ablation study, on some abstracts from scientific publications. Our results show that future context is more influential than the past source context, and in our experiments, the Transformer architecture performs much better to translate the beginning of a long document than the end.

MaTOS Traduction automatique pour la science ouverte

Maud Bénard, Alexandra Mestivier, Natalie Kübler, Lichao Zhu, Rachel Bawden, Éric De La Clergerie, Laurent Romary, Mathilde Huguin, Jean-François Nominé, Ziqian Peng et François Yvon (2023). MaTOS Traduction automatique pour la science ouverte. Actes de l'Atelier sur l'Analyse et la Recherche de Textes Scientifiques, CORIA-TALN 2023. 5 juin 2023 Paris (France).

Cette contribution présente le projet MaTOS (Machine Translation for Open Science), qui vise à développer de nouvelles méthodes pour la traduction automatique (TA) intégrale de documents scientifiques entre le français et l’anglais, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites. Pour ce faire, MaTOS s’intéresse (a) au recueil de ressources ouvertes pour la TA spécialisée; (b) à la description des marqueurs de cohérence textuelle pour les articles scientifiques; (c) au développement de nouvelles méthodes de traitement multilingue pour les documents; (d) aux métriques mesurant les progrès de la traduction de documents complets.