Emploi [stage, 5 mois] : TAL

[Offre diffusée sur la liste LN le 4 décembre 2013]

Stage – Prédiction automatique de relations d’implication entre verbes

Encadrement : Marta Abrusan (marta.abrusan@irit.fr), Stergos Afantenos

(stergos.afantenos@irit.fr), Farah Benamara (farah.benamara@irit.fr)

Lieu : IRIT, Université Paul Sabatier
Financement : prime de stage
Durée : 5 mois

La compréhension sémantique d’un texte est l’un des enjeux majeurs du
traitement automatique du langage (TAL). Cette tâche est primordiale
pour de très nombreuses applications telles que la génération
automatique de textes et de conversations, le résumé automatique, la
paraphrase automatique d’un texte ou encore la recherche
d’information. Le but de ce stage est de contribuer à ces recherches en
se focalisant sur la prédiction de relations entre verbes.

Prédire une relation entre verbes consiste à déterminer pour un couple
de verbes (v1,v2), associé ou non à un contexte, le type de relations
sémantiques qui les relient, cf. Chklovski and Pantel (2004), Tremper
and Frank (2013). Celles ci peuvent être de différentes natures :
relations de synonymie, d’antonymie, de causalité, d’implication, etc.
Dans ce stage, nous nous focaliserons sur les relations
d’implication. Par exemple, les verbes “se balader” et “bouger” sont
reliés par une relation d’implication, ce qui permettra à un ordinateur
de répondre à une requête du type Pierre s’est-il baladé ?, sachant que
la base de connaissances indique que Pierre a bougé.

Afin d’identifier ces relations, le stagiaire devra utiliser les
méthodes d’apprentissage automatiques les plus adéquates. Le but de ces
méthodes est d’apprendre une fonction f : X –> Y où X représente un
ensemble des features (ou traits) sur les paires des verbes et Y est un
booléen représentant le fait qu’il existe ou non une relation
d’implication entre ces verbes. Différentes méthodes seront
explorées. Nous commencerons d’abord par les méthodes supervisées qui
généralisent des observations faites sur un corpus de
données. Cependant, cette approche présuppose que le nombre d’instances
d’entraînement est suffisamment grand, ce qui n’est malheureusement pas
toujours le cas pour de nombreuses tâches où le coût humain d’annotation
des instances est élevé. La seconde étape sera alors d’explorer les
méthodes d’apprentissage semi-supervisées afin de réduire ce coût.

Références

Timothy Chklovski and Patrick Pantel (2004) : VerbOcean : Mining the web
for fine-grained semantic verb relations. In Proceedings of the 2004
Conference on Empirical Methods in Natural Language Processing, pages
33-40, Barcelona, Spain, 2004.

Tremper, G. and A. Frank (2013) : A Discriminative Analysis of
Fine-Grained Semantic Relations including Presupposition : Annotation
and Classification. In : Dialogue and Discourse, 4 (2), Special Issue :
Beyond Semantics. The Challenge of Annotating Pragmatic and Discourse
Phenomena, edited by S. Dipper, H. Zinsmeister and B. Webber, 282-322.

Advertisements