𝕄aTOS

𝕄aTOS

Traduction Automatique pour Ouvrir la Science

Post-Edition Collaborative : lancement d’une nouvelle phase de collecte

Dans le cadre du projet MaTOS, nous avions réalisé en juin 2023 une expérience collaborative de post-édition, visant à faire réviser des traductions automatique d’articles scientifiques dans le domaine du Traitement Automatique des Langues. Ces données seront collectées depuis une interface dédiée accssible à l’adresse https://postedition.anr-matos.fr/tal. Les résultats et les données de cette expérience ont été publiées en 2024 dans une communication: Translate your Own: a Post-Editing Experiment in the NLP domain (Bawden et al., Proc. EAMT 2024).

En 2025, nous renouvellons cette opération et invitons la communauté à participer à cette expérience, avec (a) une interface légèrement modifiée, qui offre de nouvelles fonctionnalités; (b) de nouveaux systèmes de traduction, notamment un système utilisant un grand modèle de langue. Un autre objectif important de cette étude est d’évaluer l’apport d’une pré-annotation du texte à post-éditer, afin de rendre visibles les zones qui contiennent le plus probablement des erreurs de traduction. Ces données seront également collectées depuis l’application disponible à l’adresse https://postedition.anr-matos.fr/tal.

Pour en savoir plus sur cette expérience, avant d’y participer, nous vous invitons à lire attentivement le texte ci-dessous; n’hésitez pas à nous demander des explications si vous le souhaitez.

Quel est le but de cette recherche ?

Le but principal de cette recherche est de préparer une étude à grande échelle qui sera conduite en 2026 sur la plateforme HAL. Cette étude pilote vise principalement à évaluer la qualité actuelle des systèmes de traduction automatique pour des traductions de textes scientifiques et à mesurer l’effort qui serait nécessaire à des spécialistes du domaine pour réviser ces traductions automatiques de manière à les rendre publiables. Elle permettra en second lieu de comparer objectivement plusieurs systèmes de traduction automatique.

Quel est le calendrier de la recherche ?

La durée prévisionnelle de la recherche est d’environ 3 mois, pendant lequel il sera possible d’accéder à la plate-forme expérimentale et de post-éditer des traductions automatiques. La date d’ouverture de la plateforme est le 15 juin 2025.

Qui peut participer à l’étude ?

La seule condition pour participer est une expertise avérée dans le domaine du TAL, correspondant à l’achèvement d’un Master 2 dans le domaine, ainsi qu’une bonne maitrise de la langue française, suffisante pour rédiger de manière autonome un résumé d’article en français.

Comment sont traitées les données recueillies pour la recherche ?

Dans le cadre de cette recherche, il vous sera dans un premier temps demandé de vous créer un compte; dans un second temps, vous serez invités à effectuer des révisions (ou post-éditions) de traductions automatiques de résumés d’articles dans le domaine du traitement des langues. Les révisions serviront à améliorer les versions françaises de traductions réalisées depuis l’anglais.

Durant la procédure d’inscription, vous serez invités à répondre à quelques questions relatives à votre connaissance du domaine et votre maitrise de la langue française. Vous devrez également consentir à l’exploitation future des traductions produites par vos soins. Il vous sera enfin attribué un identifiant unique qui vous permettra d’accéder à la plate-forme de post-édition. Aucune information personnelle identifiante n’est collectée durant cette étape.

Les sessions de révision se déroulent sur une plateforme dédiée, sur laquelle vous vous connectez en utilisant l’identifiant attribué précédement. Deux modes de participation sont possibles: le mode post-édition “standard” et le mode post-edition “enrichie”, le second faisant l’objet d’une procédure de recrutement spécifique. Dans le mode “standard”, chaque session correspond à la correction d’une unique traduction d’un résumé d’article, à choisir dans une liste. Au terme de chaque session, seuls sont enregistrés (1) le texte révisé, et (2) la durée de la session.

Dans le mode “enrichi”, il s’agit de post-éditer successivement quatre résumés, en respectant des contraintes de temps imposées, variant en intensité. Au terme de chaque session, seuls sont enregistrés (1) le texte révisé, (2) la séquence des frappes réalisées sur le clavier et (3) la durée de la session. Aucune information personnelle identifiante n’est collectée durant cette étape.

Si vous décidez d’arrêter de participer à la recherche, les données recueillies seront supprimées sur simple demande par courrier électronique auprès du promoteur de l’étude. Il suffira de mentionner à l’appui de votre demande l’identifiant unique associé à votre compte.

Quels sont vos droits ?

Votre participation à cette recherche est entièrement libre et volontaire.

Vous pourrez, tout au long de la recherche et à son issue, demander des informations des explications sur le déroulement de la recherche au responsable scientifique de l’étude.

Vous pouvez vous retirer à tout moment de la recherche sans justification, et demander que toutes les traductions que vous avez révisées soient supprimées de notre base de données.

En vous remerciant par avance de votre participation à cette étude.