- Lun 29 juillet 2024
- Miscellaneous
Une nouvelle ressource terminologique pour le traitement automatique des langues (TAL)
Conçu pour amĂ©liorer les traductions humaines et automatiques, le vocabulaire du TAL est une base de donnĂ©es bilingue (français-anglais) recensant quelque 1 600 termes de cette discipline. Certains d’entre eux possèdent une ou plusieurs dĂ©finitions. Cette terminologie est hiĂ©rarchisĂ©e selon cinq thĂ©matiques majeures (Applications, Linguistique computationnelle, MĂ©thodes et outils, Ressources et Ă©valuation, TAL responsable) et prĂ©sente l’avantage d’ĂŞtre partageable et rĂ©utilisable (licence cc-by).
Pour parvenir à ce résultat, différentes opérations ont été réalisées :
-
la réutilisation, la fusion, l’homogénéisation et l’enrichissement de classes et propriétés provenant d’ontologies existantes, i.e. le vocabulaire de Linguistique, le thésaurus ThesoTM, le vocabulaire Théorie et traitement du signal, le dictionnaire Artes (Aide à la rédaction de textes scientifiques) développé par l’équipe de recherche de l’UFR EILA et du CLILLAC-ARP de l’Université Paris Cité et le travail de M. Bénard (2019)
-
l’extraction de termes nouveaux (néologismes) à partir de corpus propres au TAL (Istex, ACL Anthology Reference Corpus)
-
le repérage humain de termes problématiques lors d’une expérience de post-édition conduite avec des traducteurs et des auteurs scientifiques du domaine sur un corpus de textes traduits automatiquement (Bawden et al., 2024).
Le vocabulaire est téléchargeable dans les formats suivants : CSV, SKOS-XML et JSON-LD sur la plateforme Loterre.
Si vous souhaitez contribuer à l’amélioration de cette terminologie en proposant un terme, une définition ou une modification, contactez-nous.