Emploi [stage, 5 à 6 mois] : TAL

[Offre diffusée le 23 novembre 2013 sur la liste LN]

Développement de grammaires d’extractions de descriptions temporelles

*Résumé du travail proposé :*

L’objectif de ce stage est de développer une grammaire d’extraction de
marqueurs temporels dans le domaine du tourisme. La plupart des
informations contenues dans une base de données touristiques
(événements, manifestations, hôtels, restaurants, musées…) contiennent
des marqueurs temporels (date, durée, horaires d’ouvertures, conditions
d’ouvertures ou de tarifs…) qu’il s’agira d’identifier au moyen d’une
grammaire adaptée.

A partir de données réelles, vous aurez à développer une grammaire
locale de reconnaissance de ces marqueurs, en utilisant les outils
Unitex (http://www-igm.univ-mlv.fr/~unitex/) et GramLab
(http://www.gramlab.org/fr/).

*Mots clés :*

Traitement automatique des langues, grammaires locales, Unitex, GramLab,
expressions temporelles

*Informations complémentaires :*

*Encadrant(s) *: Alain Couillault, Mickaël Coustaty, Jean-Marc Ogier

*Axe thématique*://IDDC/(Image, Documents, Données Complexes)/

*Axe stratégique *: Pertinence Contenu-Interaction

*Cadre de coopération* : Projet TourInflux (Investissement d’Avenir)

*Date de début du stage *: Janvier 2014

*Durée du stage *: 5 à 6 mois

*Contexte de l’étude:*

Les travaux menés par le candidat se dérouleront au sein du L3i et
s’inscriront dans le projet Tourinflux. . Le projet Tourinflux,
sélectionné dans le cadre de l’appel à projets Big Data du Fonds
National pour la Société Numérique et financé dans le programme
d’investissements d’avenir, rassemble deux entreprises, une association
d’entreprises et le laboratoire L3i, et sera réalisé en partenariat avec
plusieurs acteurs du tourisme de France. Ce projet vise à apporter aux
acteurs du tourisme (d’abord les institutionnels mais aussi les acteurs
privés) un ensemble d’outils leur permettant de gérer à la fois leurs
données internes et les informations disponibles sur le web afin de
mieux comprendre comment un territoire est perçu et de mieux agir sur
cette perception. Les outils actuellement à disposition des
institutionnels du tourisme sont insuffisants pour répondre à ce besoin
du fait des problèmes de collecte, d’analyse, de manipulation et
d’échange d’informations réalisés de manière beaucoup trop artisanale.
L’objectif de Tourinflux est de proposer un tableau de bord complet
permettant aux institutionnels du tourisme, quelle que soit leur taille,
de visualiser et interpréter l’information disponible par rapport à leur
territoire (aux niveaux micro et macro) afin de prendre les décisions
les plus efficaces.

*Le laboratoire:*

Le laboratoire L3i, EA 2118 créé en 1993, représente la seule et unique
composante de recherche du domaine STIC sur l’Université de la Rochelle
associant très efficacement les chercheurs de l’IUT de la Rochelle, et
du Pôle Sciences en informatique. Dans le cadre de la politique
quadriennale (désormais quinquennale) de l’université de la Rochelle, le
L3i vient d’être évalué A par l’AERES. Le laboratoire Informatique,
Image et Interaction a choisi d’axer son projet de laboratoire autour de
deux thèmes (Axes Thématiques) que sont « Image, Document et Données
Complexes » et « Systèmes Interactifs et Images », véritables coeurs de
métier du laboratoire. Par ailleurs, le laboratoire propose de mettre en
avant ASPIC (Axe Stratégique Pertinence Intraction/Contenus), vecteur de
visibilité de son action scientifique au sein de projets structurants et
en articulation avec le monde socio-économique. Ainsi, plus d’une
dizaine de projets sont actuellement menés autour de l’analyse de
documents et de données complexes d’une part (en lien avec le centre
européen de valorisation des contenus numériques — Valconum), et autour
de l’interaction appliquée aux jeux vidéos et l’e-Education d’autre
part. Par ses activités de ces six dernières années, le L3i a développé
des outils et des compétences dans l’analyse de données récurrentes dans
le temps et l’espace, mais également l’analyse de contenus et de données
complexes et hétérogènes.

*Description du sujet :*

Le candidat retenu devra, à partir de corpus dans le domaine du
tourisme, développement une grammaire d’analyse d’évènements
touristiques, récurrents ou non, dans le temps et/ou dans l’espace («
tous les lundi », « tous les ans », « dans toutes les boutiques du
réseau », «tous les mardis sur la place du marché sauf veille de jours
fériés », « Hôtel ouvert toute l’année, restauration sur place seulement
en été »…).

*Qualifications :*

Le candidat devra justifier de compétences de recherche dans au moins
deux des quatre domaines suivants :

– Traitement Automatique des Langues, Fouille de texte

– Raisonnement temporel et/ou spatial

– Annotation et évaluation

– Ecriture de grammaires d’extraction

*Contacts — liens : *

*Email *: mickael.coustaty@univ-lr.fr ; alain.couillault@univ-lr.fr ;
jean-marc.ogier@univ-lr.fr

Advertisements