Emploi [Stage, 4/6 mois] : TAL

[Offre diffusée sur la liste RISC]

Construction automatique de lexiques bilingues à l’aide
d’outils d’alignement de mots à partir de corpus de textes
parallèles et comparables

Lieu du stage : CEA Saclay Nano-INNOV
Laboratoire Vision et Ingénierie des Contenus (LVIC)
91191 Gif sur Yvette

CONTEXTE

Les dictionnaires bilingues jouent un rôle important dans les
applications de Traitement Automatique de la Langue (TAL) telles que la
Traduction Automatique (TA) et la Recherche d’Information Interlingue
(RII). La quantité de travail nécessaire pour créer manuellement ces
dictionnaires est très importante. C’est la raison pour laquelle depuis
quelques années de nombreux travaux ont fait appel aux techniques
d’alignement pour automatiser le processus de construction de
dictionnaires bilingues. Ces techniques constituent un préalable à
l’exploitation des corpus de textes parallèles [Melamed, 2001] : qu’il
s’agisse d’aligner au niveau des paragraphes, des phrases ou d’apparier
des unités lexicales, la plupart des applications reposent sur la
possibilité d’extraire des correspondances précises entre les textes
source et cible.

SUJET DE STAGE

Le stage consistera, d’une part, à constituer un alignement de référence
pour les mots simples et les expressions polylexicales à l’aide de
l’outil Yawat [Germann, 2008], et d’autre part, à évaluer les outils
d’alignement de mots [Mihalcea Pedersen, 2003] [Carpuat Diab, 2010]
à partir de corpus de textes parallèles ou comparables développés au
Laboratoire Vision et Ingénierie des Contenus (LVIC) du CEA-LIST
[Bouamor et al., 2012]. Cette évaluation sera réalisée selon deux
approches différentes : une évaluation intrinsèque à petite échelle dans
laquelle les lexiques bilingues construits automatiquement seront
comparés à un alignement de référence créé manuellement et une
évaluation extrinsèque dans laquelle l’impact d’utilisation de ces
lexiques bilingues sera étudié dans un système de traduction automatique
statistique [Ren et al., 2009] et un moteur de recherche d’information
interlingue.

Le stage comportera les étapes suivantes :

– Appropriation des principaux outils d’alignement de mots à partir de
corpus de textes parallèles ou comparables développés au LVIC.

– Constitution de deux lexiques bilingues de référence : un pour les
mots simples et l’autre pour les expressions polylexicales.

– Mise en place d’outils d’évaluation du module d’alignement de mots
simples et d’expressions polylexicales.

– Spécification et implémentation d’un module pour le filtrage des
lexiques bilingues construits automatiquement.

– Développement d’une interface web pour l’administration et la gestion
de dictionnaires multilingues.

BIBLIOGRAPHIE

– Bouamor D., Semmar N., Zweigenbaum P., “Identifying bilingual
Multi-Word Expressions for Statistical Machine Translation”,
Proceedings of the Eight International Conference on Language
Resources and Evaluation (LREC’12), Turkey, 2012.

– Germann U., “Yawat: Yet Another Word Alignment Tool”, Proceedings of
the ACL-08, Columbus, 2008.

– Melamed I.D., “Empirical Methods for Exploiting Parallel Texts”, MIT
Press, 2001.

– Mihalcea R., Pedersen T., “An evaluation exercise for word alignment”,
Proceedings of HLT-NAACL 2003 Workshop on Building and using parallel
texts: data driven machine translation and beyond, Canada, 2003.

– Ren Z., Lu Y., Liu Q., Huang Y., “Improving statistical machine
translation using domain bilingual multiword expressions”, Proceedings
of the 2009 Workshop on Multiword Expressions, ACL-IJCNLP 2009,
Singapore, 2009.

– Carpuat M., Diab M., “Task-based Evaluation of Multiword Expressions:
a Pilot Study in Statistical Machine Translation”, Proceedings of
NAACL, Los Angeles, 2010.

CONDITIONS DE CANDIDATURE

Bac+5, stage de fin d’étude dans le domaine du Traitement Automatique
de la Langue (TAL).

Compétences en informatique et en TAL.

Programmation : C++, Perl ou équivalent.

Langues : Maîtrise de l’anglais et du français, la connaissance de la
langue arabe est un plus.

Durée : entre 4 et 6 mois.

Contact et envoi des candidatures (CV détaillé, lettre de motivation et
relevés de notes des deux dernières années d’études) :

Nasredine SEMMAR, 01 69 08 01 46, nasredine.semmar [ chez ] cea.fr


Nasredine SEMMAR
CEA Saclay Nano-INNOV
Institut CARNOT CEA LIST
Laboratoire Vision et Ingénierie des Contenus (LVIC)
Point courrier n°173
91191 Gif-sur-Yvette CEDEX
Tel: +33 (0)1 69 08 01 46
Fax: +33 (0)1 69 08 01 15
Email: nasredine.semmar [ chez ] cea.fr

Advertisements

Leave a comment

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s