Cette étude s'inscrit dans le cadre du projet ANR MaTOS (Machine Translation for Open Science), qui s'intéresse au développement de méthodes et d'outils pour faciliter la traduction automatique de documents en texte intégral pour des écrits scientifiques (articles, communications, projets et protocoles de recherche, etc).
L'étude des méthodes de traduction pour des documents complets se heurte à un problème de méthode, lié à la mesure la qualité des traductions. Les mesures automatiques de la qualité sont insuffisamment précises pour détecter les erreurs typiques des systèmes de traduction en domaine de spécialité: problèmes de co-référence, incohérence des choix lexicaux, mésusage de la terminologie scientifique, etc. L'alternative est de recueillir des évaluations humaines auprès de sujets humains, ce qui demande de s'assurer qu'ils disposent des compétences pour réaliser la tâche.
Le projet MaTOS prévoit la mise en place d'une expérience de collecte de jugements humains par post-édition auprès du plus large échantillon possible d'utilisateurs de la plateforme HAL. La post-édition correspond à l'édition d'une traduction automatique pour en dériver une version acceptable; il s'agit d'une pratique largement développée dans l'industrie de la traduction, également très utilisée dans les milieux scientifiques. Cette activité correspond à une tâche réaliste, qui nous donnera indirectement accès à des mesures de qualité telles que perçues par des expert(e)s du domaine.
Le but principal donc de cette recherche est de préparer une étude à grande échelle qui sera conduite en 2024 sur la plateforme HAL. Cette étude pilote vise principalement à évaluer la qualité actuelle des systèmes de traduction automatique pour des traductions de textes scientifiques, et à mesurer l'effort qui serait nécessaire à des spécialistes du domaine pour réviser ces traductions automatiques de manière à les rendre publiables. Elle permettra en second lieu de comparer objectivement plusieurs systèmes de traduction automatique.
La seule condition pour participer est une expertise avérée dans le domaine des STEP, correspondant à l'achèvement d'un Master 2 dans le domaine, ainsi qu'une bonne maitrise de la langue française, suffisante pour rédiger de manière autonome un résumé d'article en français.
Dans le cadre de cette recherche, il vous sera dans un premier temps demandé de vous créer un compte; dans un second temps, vous serez invités à effectuer des révisions (ou post-éditions) de traductions automatiques de titres et de résumés d'articles dans le domaine des STEP. Les révisions serviront à améliorer les versions françaises de traductions réalisées depuis l'anglais.
Durant la procédure d'inscription, vous serez invités à répondre à quelques questions relatives à votre connaissance du domaine et votre maitrise de la langue française. Vous devrez également consentir à l'exploitation future des traductions produites par vos soins. Il vous sera enfin attribué un identifiant unique qui vous permettra d'accéder à la plate-forme de post-édition. Aucune information personnelle identifiante n'est collectée.
Les sessions de révisions se déroulent sur une plateforme dédiée, sur laquelle vous vous connectez en utilisant l'identifiant attribué précédemment. Chaque session correspond à la correction d'une unique traduction d'un résumé d'article, à choisir dans une liste. Au terme de chaque session, seuls sont enregistrés (1) le texte révisé, et (2) la durée de la session.
Si vous décidez d’arrêter de participer à la recherche, les données recueillies seront supprimées sur simple demande par courrier électronique (voir la page Contact). Il suffira de mentionner à l'appui de votre demande l'identifiant unique associé à votre compte.
Votre participation à cette recherche est entièrement libre et volontaire.
Vous pourrez, tout au long de la recherche et à son issue, demander des informations des explications sur le déroulement de la recherche au responsable scientifique de l'étude.
Vous pouvez vous retirer à tout moment de la recherche sans justification, et demander que toutes les traductions que vous avez révisées soient supprimées de notre base de données.
Les titres et les résumés des articles utilisés dans l'étude proviennent tous de l'archive ouverte HAL, extraits à l'aide de l'API HAL. Ils font partie des métadonnées fournies par l'API. Il s'agit d'un sous-ensemble d'articles associés aux catégories "Sciences de l'environnement" et "Planète et l'Univers", sélectionnés en fonction des structures de recherche associées aux articles parmi les suivantes : APC, AIM, le laboratoire de Géologie de l'ENS, IPGP et LPHNE.