Emploi [stage, 4 mois] : TAL

[Offre diffusée le 20 novembre 2013 sur la liste LN]

Stage de M2 en TAL

Enrichissement de ressources sémantiques pour l’analyse de la factualité pour des systèmes de recherche d’information

 

Le laboratoire MoDyCo (UMR CNRS-Université Paris Ouest Nanterre), en
collaboration avec le laboratoire GREYC (UMR CNRS-Université de Caen),
propose un sujet de stage en TAL de niveau Master 2 d’une durée minimale
de 4 mois, à partir de janvier 2014.

Rémunération : celle prévue par la règlementation à savoir 436,05 € par
mois.

*- Contexte applicatif et enjeux théoriques *:

L’analyse automatique du degré de factualité des situations (ou
évènements) dénotées dans les textes s’impose depuis quelques années
comme un enjeu important dans le domaine de la recherche
d’information. Parmi les applications visées : les systèmes de
questions/réponses, les moteurs de recherche et, intégrés ou non à ces
derniers, les systèmes visant à proposer en sortie une visualisation des
informations sur une ligne du temps (ou *timeline*). Ces applications
visent alors à distinguer les évènements présentés comme déjà réalisés
et avérés des événements présentés comme incertains ou seulement
possibles ou encore des événements présentés par l’auteur d’un texte
comme certains selon un co-énonciateur dont l’auteur ne fait que citer
les propos en montrant qu’il n’y adhère pas lui-même.
Dans une autre terminologie, on parle de l’analyse et de la modélisation
des caractéristiques modales (voire énonciatives) des situations. Un
numéro entier de la revue *Computational Linguistics* (ModNeg, 2012) a
dernièrement été consacré à cette problématique. Il met l’accent sur sa
complexité théorique, en termes notamment de catégorisation sémantique
des divers indices (lexicaux et grammaticaux) qui participent à
l’expression du degré de factualité d’un évènement, celui-ci pouvant
être passé ou à venir. Un autre aspect fondamental, encore cependant peu
décrit dans la littérature tant linguistique que TAL, a trait aux modes
de calcul de ce degré étant donné plusieurs indices co-présents. Les
exemples ci-après donnent un aperçu des types d’énoncés qu’il s’agit de
pouvoir traiter en montrant la variation du statut véri-conditionnel
d’un même contenu propositionnel (<Pierre, venir>) fonction des indices
sous la portée sémantique desquels il tombe :

*Paul est venu*

*Paul est peut-être venu*

*Je crois que Paul est venu *

*On dit que Paul est venu *

*Il semblerait que Paul est venu *

*Selon Marie, Paul est venu *

*Selon Marie, Paul est sûrement venu *

*Marie prétend que Paul est venu*

*Paul devrait venir*

*Paul doit venir*

*Paul pourrait venir*

*- Sujet de stage :*

On note que peu de ressources ont été élaborées pour le français jusqu’à
présent. Le stage visera à combler en partie ce déficit et s’intéressera
à une analyse sémantique fine d’indices lexicaux (verbes, noms,
adjectifs, adverbes). Cette analyse s’appuiera sur une méthodologie et
des ressources déjà constituées (Battistelli et Damiani, 2012, Damiani
et Battistelli 2013, (Enjalbert et Mathet, 2013) ainsi que sur des
conceptions linguistiques issues de (Authier-Revuz, 1995) ou (Gosselin,
1999). Ces ressources et cette méthodologie seront testées et évaluées
sur deux types de corpus de textes dans une perspective comparationniste
: des dépêches d’agence journalistique et des news technologiques
publiées sur le net. Le premier type de corpus est actuellement plus
particulièrement analysé dans le cadre d’un système développé pour le
projet ANR ChronoLines dont MoDyCo est le pilote
(http://chronolines.fr/) ; le second type de corpus est lui plus
particulièrement analysé dans le cadre d’une application développée au
sein de l’entreprise Noopsis (http://noopsis.fr/), partenaire du
laboratoire GREYC. Le travail visera en outre à préciser les zones de
recouvrement théorique comme applicatives avec le domaine de
l’annotation des opinions (Béthard et al., 2004, Wilson et Wiebe, 2003).

*- Profil du candidat:*

Le candidat devra être inscrit dans un Master en traitement automatique
des langues ou en linguistique appliquée.

– Compétences demandées

* compétences en traitement automatique des langues et/ou en
linguistique.

* compétences de base en informatique et plus spécifiquement maitrise
des langages de type perl et python.

– Comment candidater ?

Envoyer un CV (avec le détail des cours et notes des deux années de
Master) et une lettre de motivation à :

Delphine Battistelli :

del.battistelli@gmail.com

Patrice Enjalbert :

patrice.enjalbert@unicaen.fr

*- Références *

Authier-Revuz J. (1995). Ces mots qui ne vont pas de soi, Boucles
réflexives et non-coïncidences du dire, Paris: Larousse, 1995

Battistelli D., Damiani M. (2013) – « Analyzing modal and enunciative
discursive heterogeneity: how to combine semantic resources and a
syntactic parser analysis », in Actes WAMM (Workshop on Annotation of
Modal Meaning in Natural Language), held in conjunction with IWCS’13,
Potsdam, Allemagne.

Bethard S., Yu H., Thornton A., Hatzivassiloglou V., Jurafsky D. (2004).
« Automatic extraction of opinion propositions and their holders”, in
Working Notes of the AAAI Spring Symposium on Exploring Attitude and
Affect in Text: Theories and Applications, March 22-24, 2004, Stanford

Damiani M., Battistelli D. (2013) – « Enunciative and modal variations
in newswire texts in French: From guideline to automatic annotation »,
in Actes de The 7th Linguistic Annotation Workshop & Interoperability
with Discourse, held in conjunction with ACL’2013, Sofia, Bulgarie.

Enjalbert, P., Mathet, Y. (2013) — « Constructions ‘Verbe + Verbe
infinitif’: étude de corpus et lexique sémantique », Document interne
GREYC-Noopsis, Octobre 2013.

Gosselin L. (2005). *Temporalité et modalité*, Bruxelles, De Boeck
Supérieur « Champs linguistiques », 2005.

ModNeg, 2012. Modality and Negation, Computational Linguistics, Special
Issue – Volume 38, Issue 2 – June 2012
(http://www.mitpressjournals.org/toc/coli/38/2).

Sauri R., Pustejovsky J. (2007). “Determining Modality and Factuality
for Text Entailment”, in Actes ICSC 2007, Irvine, California, 2007.

Wilson T., Wiebe J. (2003). “Annotating opinions in the world Press”, in
Actes 4th SIGdial Workshop on Discourse and Dialogue (SIGdial-03), ACL
SIGdial, 2003.

Advertisements