Expérience de post-édition de la traduction automatique

Quel est le but de cette recherche ?

Cette étude s'inscrit dans le cadre du projet ANR MaTOS (Machine Translation for Open Science), qui s'intéresse au développement de méthodes et d'outils pour faciliter la traduction automatique de documents en texte intégral pour des écrits scientifiques (articles, communications, projets et protocoles de recherche, etc).

L'étude des méthodes de traduction pour des documents complets se heurte à un problème de méthode, lié à la mesure la qualité des traductions. Les mesures automatiques de la qualité sont insuffisamment précises pour détecter les erreurs typiques des systèmes de traduction en domaine de spécialité: problèmes de co-référence, incohérence des choix lexicaux, mésusage de la terminologie scientifique, etc. L'alternative est de recueillir des évaluations humaines auprès de sujets humains, ce qui demande de s'assurer qu'ils disposent des compétences pour réaliser la tâche.

Le projet MaTOS prévoit la mise en place d'une expérience de collecte de jugements humains par post-édition auprès du plus large échantillon possible d'utilisateurs de la plateforme HAL. La post-édition correspond à l'édition d'une traduction automatique pour en dériver une version acceptable; il s'agit d'une pratique largement développée dans l'industrie de la traduction, également très utilisée dans les milieux scientifiques. Cette activité correspond à une tâche réaliste, qui nous donnera indirectement accès à des mesures de qualité telles que perçues par des expert(e)s du domaine.

Le but principal donc de cette recherche est de préparer une étude à grande échelle qui sera conduite en 2024 sur la plateforme HAL. Cette étude pilote vise principalement à évaluer la qualité actuelle des systèmes de traduction automatique pour des traductions de textes scientifiques, et à mesurer l'effort qui serait nécessaire à des spécialistes du domaine pour réviser ces traductions automatiques de manière à les rendre publiables. Elle permettra en second lieu de comparer objectivement plusieurs systèmes de traduction automatique.

Qui peut participer à l'étude ?

La seule condition pour participer est une expertise avérée dans le domaine du TAL, correspondant à l'achèvement d'un Master 2 dans le domaine, ainsi qu'une bonne maitrise de la langue française, suffisante pour rédiger de manière autonome un résumé d'article en français.

Si vous participez, comment vont être traitées les données recueillies pour la recherche ?

Dans le cadre de cette recherche, il vous sera dans un premier temps demandé de vous créer un compte; dans un second temps, vous serez invités à effectuer des révisions (ou post-éditions) de traductions automatiques de titres et de résumés d'articles dans le domaine du TAL. Les révisions serviront à améliorer les versions françaises de traductions réalisées depuis l'anglais.

Durant la procédure d'inscription, vous serez invités à répondre à quelques questions relatives à votre connaissance du domaine et votre maitrise de la langue française. Vous devrez également consentir à l'exploitation future des traductions produites par vos soins. Il vous sera enfin attribué un identifiant unique qui vous permettra d'accéder à la plate-forme de post-édition. Aucune information personnelle identifiante n'est collectée.

Les sessions de révisions se déroulent sur une plateforme dédiée, sur laquelle vous vous connecter en utilisant l'identifiant attribué précédement. Chaque session correspond à la correction d'une unique traduction d'un résumé d'article, à choisir dans une liste. Au terme de chaque session, seuls sont enregistrés (1) le texte révisé, et (2) la durée de la session.

Si vous décidez d’arrêter de participer à la recherche, les données recueillies seront supprimées sur simple demande par courrier électronique (voir la page Contact). Il suffira de mentionner à l'appui de votre demande l'identifiant unique associé à votre compte.

Quels sont vos droits ?

Votre participation à cette recherche est entièrement libre et volontaire.

Vous pourrez, tout au long de la recherche et à son issue, demander des informations des explications sur le déroulement de la recherche au responsable scientifique de l'étude.

Vous pouvez vous retirer à tout moment de la recherche sans justification, et demander que toutes les traductions que vous avez révisées soient supprimées de notre base de données.

D'où viennent les titres et résumés utilisés dans l'étude ?

Les titres et les résumés des articles utilisés dans l'étude proviennent tous de l'archive ouverte HAL, extraits à l'aide de l'API HAL. Ils font partie des métadonnées fournies par l'API. Il s'agit d'un sous-ensemble d'articles associés à la catégorie "informatique", sélectionnés en fonction du lieu de publication et des mots-clés du domaine du TAL qui ont été identifiés dans le titre, dans le résumé ou dans les meta-données.