Emploi [CDD, 18 mois] : TAL

[Offre diffusée le 9 novembre 2013 sur la liste LN par CEA]

Ingénieur(e) TAL

Le Laboratoire de Vision et d’Ingénierie des Contenus du CEA LIST
emploie une cinquantaine chercheurs et ingénieurs travaillant sur
l’analyse et l’interprétation de données multimédia (texte, image et
analyse de vidéos).  Le LVIC développe des algorithmes robustes pour
l’extraction, l’analyse et le filtrage de grands volumes de données
multimédia (texte, image, vidéo). La fusion de ces media permet une
meilleure interprétation ou compréhension des scènes ou des documents.

Nos technologies ont contribué à l’émergence de nouvelles activités
économiques. En effet, ces technologies ont permis la création de
startups comme Senseetive ou Ant’Inno. Par ailleurs, le laboratoire
participe à de nombreux projets collaboratifs (ANR, Europe FP7, Pôle de
Compétitivité) avec des partenaires académiques, PMEs ou grands
industriels.

Dans le cadre de plusieurs projets de la thématique “Traitement
Automatique des Langues”, le laboratoire LVIC recherche un ingénieur
pour assister les chercheurs du laboratoire dans la conception,
l’implémentation et l’évaluation de modules logiciels pour
l’identification et le typage d’entités nommées. Les objectifs sont plus
précisément :

– intégrer plusieurs modèles d’identification et de typage d’entités
nommées : modèle à base de règles (déjà implémenté dans le
laboratoire) et modèle fondé sur un apprentissage statistique;

– intégrer des bases de connaissances existantes de type encyclopédique
(DBPedia, Geonames, etc.) dans ces modèles d’identification et de
typage d’entités en gérant le problème du passage à l’échelle ;

– développer des méthodes permettant d’identifier dans les textes des
entités présentes dans une base de connaissances de référence et de
lever les éventuelles ambiguïtés de rattachement lors de cette
identification (entity linking)

Le candidat devra candidat devra posséder une bonne maîtrise du
développement en C++ sous Linux (base de code installée de plusieurs
centaines de milliers de lignes) et connaître (ou être capable de se
familiariser rapidement avec) des bibliothèques telles que STL,
Xerces-C, Boost, gSoap, etc. Les compétences requises incluent également
la maîtrise de principes de conception de type Design Patterns et
d’outils développement tels que tels que gdb, valgrind, etc. Enfin, une
connaissance des techniques du TAL (Traitement Automatique des Langues)
ou des techniques d’apprentissage et de classification (SVM, CRF, etc.)
est considérée comme fortement souhaitable.

Le poste proposé est un CDD de 18 mois, rémunéré selon les grilles de
salaire du CEA (dépendant de la formation et de l’expérience). Il sera
basé sur le centre Nano’Innov, situé près du Campus de l’école
Polytechnique à Palaiseau (91).

Contact: Faiza GARA
Email : faiza.gara@cea.fr
Tel : 01 69 08 01 48

Advertisements