Emploi [stage, 5 mois] : TAL

[Offre diffusée le 7 décembre 2013 sur la liste LN]

Combining Stochastic and Knowledge-based Modelling for Natural Language Understanding

Bonjour,

Un stage de M2 (Recherche) est disponible au LIRMM (U. Montpellier 2),
entre le 20 janvier et mi-juin 2014.

*Candidatures souhaitées le plus rapidement possible.*

Encadrement : Jean-Philippe.Prost (Prost@lirmm.fr)
Lieu : LIRMM, Montpellier
Durée : 5 mois
Financement : selon barèmes légaux

Possibilité de poursuite en thèse, selon résultats (candidature soumise
à sélection).

Ce sujet de stage concerne le Traitement Automatique du Langage naturel
(TAL). L’objet en est de se pencher sur une voie possible d’hybridation
entre modélisation logique et modélisation probabiliste pour la
représentation de connaissances langagières.
Le sujet porte plus particulièrement sur la dimension syntaxique.

==============

Les parseurs les plus performants du moment sont dits “robustes”, pour
leur capacité à produire un arbre syntaxique quelle que soit la phrase
en entrée, y compris mal-formée. Ces analyseurs sont construits à base
d’algorithmes d’apprentissage automatique qui permettent de construire
l’arbre le plus probable étant donné la phrase en entrée.
Cette robustesse est acquise au détriment d’une perte d’information
conséquente. Par exemple, la question de la bonne-formation
(grammaticalité) de l’entrée est éludée, l’analyse d’une phrase
bien-formée n’ayant pas nécessairement une probabilité maximale.
Or il est possible d’apporter une réponse exacte à ce problème, en
venant simplement brancher un module à base de raisonnement logique sur
la sortie non-déterministe d’un analyseur stochastique. Mais ce qui
serait souhaitable, serait de pouvoir intégrer ce processus de
résolution exacte dans le processus d’analyse stochastique.

L’objet de ce stage est donc d’explorer différentes pistes possibles sur
cette question. On pourra, par exemple, intégrer un mécanisme de
vérification de modèle (model checking, au sens de la théorie logique
des modèles) dans le procédé de reclassement (reranking) des n
candidat-modèles les plus probables que génère un analyseur
stochastique.

Le stage comportera une partie d’état de l’art, une partie d’exploration
théorique, et une partie réalisation (programmation).

JP. Prost

Advertisements