Jobs [temporary position, 24 months]: NLP

[Jobs posted on August 30th 2014 by CEA List]

NLP Engineer

Au sein du CEA LIST, le Laboratoire LVIC (Vision et Ingénierie des
Contenus) a développé une plate-forme de traitement linguistique, LIMA,
récemment mise en ligne avec une licence AGPL,
https://github.com/aymara/lima.

L’équipe propose un CDD de 2 ans pour développer des outils de
constitution de ressources linguistiques à partir de corpus. Le poste
est ouvert dès le début septembre 2014.

Les traitements linguistiques de base s’appuient sur des ressources
linguistiques (typiquement des dictionnaires de la langue, des documents
annotés) produites le plus souvent manuellement. Ces ressources sont
disponibles pour des langues des pays avancés et économiquement forts
(en premier lieu l’anglais, le français, l’allemand, le chinois, le
coréen, etc.). Pour les autres langues, dites peu dotées, on ne dispose
pas de ces ressources et les produire manuellement est à la fois très
coûteux, très long et nécessite l’intervention sur une longue période
d’une personne qui maîtrise la grammaire et l’usage de cette langue.
L’objectif des travaux est de développer des outils de constitution de
ressources linguistiques (jeu d’étiquette morpho-syntaxique,
dictionnaires morphologiques) en s’appuyant sur des techniques
d’apprentissage non-supervisé ou peu supervisé. La qualité des
ressources produites seront évaluées dans des tâches classique de
traitements linguistiques (analyse morphologique, désambiguïsation
morpho-syntaxique, extraction d’entités nommées) et jusqu’à la recherche
d’information.

À partir d’un corpus de texte ciblant une langue et un type de texte les
outils visés doivent permettre de produire de façon économique le
lexique intensionnel décrivant la langue du corpus. On exclut donc les
méthodes purement manuelles. On s’appuiera au contraire sur les
techniques d’apprentissages telles qu’elles ont été expérimentées dans
les dans le cadre des workshops Morpho Challenge ou de programme de
recherche de l’IARPA Babel.

Le travail du CDD consistera plus particulièrement à :

– étudier, implémenter et évaluer des outils de constitution de lexiques
à partir de corpus pour produire des dictionnaires morphologique en
plusieurs étapes: segmentation basée sur des analyses statistique des
graphies des tokens, identification d’un jeu d’étiquette
morpho-syntaxiques à partir des contextes d’usage, annotation
automatique en mode non supervisé, définition de classes
flexionnelles.
– étudier et évaluer des techniques de nettoyage des dictionnaires
produits;
– évaluer les ressources linguistiques produites dans des tâches de base
de traitements linguistiques (analyse morphologique, annotation ‘POS’,
extraction d’entités nommées, recherche d’information) sur des langues
dotées (français anglais, arabe).

Profil recherché:

– Connaissance des techniques d’apprentissage (méthode bayésiennes, SVM,
CRF, clustering, représentation)
– Compétences informatiques : C++, langages de script (perl, python …)
– Compétences ou intérêt pour le traitement automatique des langues

La dominante du poste est le développement mais l’ingénieur/docteur
recruté sera intégré dans une équipe de recherche.

Rémunération selon formation et expérience.
Lieu de travail : centre d’intégration NanoInnov (plateau de Saclay,
proche de Polytechnique)
Durée : 24 mois

Les candidatures (CV + lettre de motivation) sont à envoyer à :
Olivier Mesnard (olivier.mesnard_AT_cea.fr)

 

Advertisements

Leave a comment

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s