Emploi [stage, ? mois] : TAL

[Offre diffusée le 22 janvier 2014 sur la liste LN]

Reconnaissance de paraphrases

Problématique

Dans le but de retrouver des informations similaires ou complémentaires dans des textes, une approche consiste à s’appuyer sur les représentations syntaxiques des phrases. En effet, celles-ci peuvent être produites par des analyseurs existants, alors qu’une comparaison sémantique demanderait de disposer d’une représentation des connaissances du domaine.
Se pose alors le problème de reconnaître différentes formulations en langue d’une même information, donc de reconnaître des paraphrases.

Cette problématique est au coeur du traitement automatique de la langue et se pose dans des domaines d’application différents, tels que les systèmes de question-réponse, l’extraction d’information multi-documents, etc.

Exemples :
Sometimes blood does not transport enough oxygen, resulting in a condition called anemia.
Anemia is a condition that happens when the blood doesn’t have enough oxygen to be transported.

Quel évêque fut suspendu par le Vatican le 13 janvier 1995 ?
Le 13 janvier 1995, il est relevé de sa mission pastorale à Évreux, et nommé évêque in partibus de Partenia (diocèse disparu depuis 1 500 ans, situé dans l’actuelle Algérie, à proximité de Sétif).

Sujet

Dans le cadre de ce stage, il s’agira :

  • de rechercher des méthodes de comparaison de représentations syntaxiques : distances d’édition sur des arbres syntaxiques, transformation d’arbres syntaxiques, etc, et d’en implanter et tester certaines. Les corpus d’étude et de test seront de nature différente : corpus d’articles scientifiques, d’articles de journaux, la wikipedia, corpus de réponses à des questions, de questions, etc.
  • proposer des critères permettant de déterminer quelles méthodes conviennent mieux à quels corpus, selon les propriétés linguistiques qu’ils présentent et celles qui sont exploitées dans les méthodes choisies.
  • intégrer l’application et l’évaluation de ces méthodes dans un cadre unifié

Prérequis

Stage de M2R ou 3ème année ingénieur
Connaissances en TAL, bonnes connaissances en informatique

Lieu et encadrement

Laboratoire : LIMSI, Orsay
Responsables :
Brigitte Grau, Professeur, Groupe ILES, LIMSI
Anne-Laure Ligozat, Maître de conférences, Groupe ILES, LIMSI

URL de l’offre : http://perso.limsi.fr/Individu/bg/pageWebPHP/stage_paraphrase.php

Advertisements