Emploi [stage, 4 mois] : TAL

[Offre diffusée le 15 novembre 2013 sur la liste LN]

Proposition de stage
——————————-

Proposition de stage de fin d’études (Master, Ecole Ingénieur) en
informatique appliqué au Traitement Automatique des Langues Naturelles,
d’une durée minimale de 4 mois.

Enrichissement de lexique émotionnel pour l’informatique
affective

Contexte scientifique
——————————–

En collaboration avec le Laboratoire d’Informatique de l’Université de
Tours, le laboratoire IRISA, antenne de Lorient (56 – Morbihan) propose
un sujet de stage dans le cadre du projet de recherche DAPAI-EMO financé
par la société BAMSOO.

Le projet DAPAI-EMO fait suite à un projet (EmotiRob) concernant le
développement d’un robot compagnon affectif pour des enfants en
hospitalisation longue. Cette poursuite de travaux fait abstraction ici
de sa dimension robotique pour se concentrer sur ses aspects liés à la
compréhension émotionnelle de la langue. Au cours du projet EmotiRob,
nous avons développé EmoLogus, un système de détection des émotions qui
intervient à la suite d’un système logique de compréhension de message
appelé Logus. EmoLogus utilise la structure sémantique de l’énoncé
fourni par Logus pour mettre en œuvre un calcul de la valence
émotionnelle portée par l’énoncé, c’est-à-dire pour savoir si celui-ci
porte une émotion positive, négative ou neutre. Ce calcul logique se
base principalement sur l’utilisation de normes lexicales émotionnelles
qui décrivent le système de valeurs du système : à chaque mot du
vocabulaire est associée une valence (positif, neutre, négatif) et une
intensité (nul, faible, fort) émotive. Le lexique émotionnel sur lequel
se base le système a été élaboré en collaboration avec l’équipe de
psycholinguistique d’Arielle Syssau, de l’Université Montpellier 2. Basé
sur des jugements évaluatifs contrôlés auprès d’une population de test
échantillonnée avec soin, il nous garantit la représentativité du
système de valeurs d’EmoLogus.

Le système a montré une bonne robustesse de détection dans le cadre
restrictif d’une communication enfantine. Il souffre toutefois du manque
de couverture de son lexique émotionnel. A l’heure actuelle, le système
EmoLogus intègre en effet un lexique limité à un millier de mots, alors
que la langue française générale compte entre 50 000 et 100 000 entrées
lexicales. Dans le cadre de ce projet, nous proposons d’utiliser des
techniques d’extension automatique de lexique émotionnel à partir d’une
ressource initiale telle que celle du système EmoLogus. Parmi les
méthodes proposées pour étendre automatiquement un lexique émotionnel
étendu, on distingue deux types d’approches :

– celles basées sur des réseaux sémantiques comme WordNet, où sont
décrits des relations de synonymies entre tous les mots d’une
langue. On peut alors rechercher des synonymes des mots germes
présents dans le lexique originel et leur appliquer un algorithme de
propagation de valence,

– celles basées sur des techniques d’analyse de données sur des corpus
textuels. Dans ce second cas, on va étudier les cooccurrences de mots
dans un corpus pour calculer des similarités sémantiques (remplaçant
les liens de synonymie explicites de Wordnet) et les intégrer dans le
calcul de la valence des mots du lexique. Dans le cadre de ce stage,
on se propose ainsi d’utiliser la technique de l’analyse sémantique
latente (LSA : Latent Semantic Analysis) pour calculer ces proximités
sémantiques et s’en servir pour estimer la valence d’un mot.  Les mots
germes déjà présents dans la norme lexicale émotionnelle actuelle
serviront de base à l’espace vectoriel sur lequel sera opérée
l’analyse de données permettant l’extension du lexique.

Ce stage visera à développer au moins une de ces deux techniques pour
étendre le lexique émotionnel d’EmoLogus, et tester l’apport de cette
extension sur un corpus de test. En cas d’avancée significative, ce
travail pourra donner lieu à communication dans une conférence
scientifique à laquelle sera invité à participer le stagiaire.

Travail à réaliser
———————-

La personne recrutée sera en charge de la conception de nouvelles
techniques d’extension de lexique émotionnel, du développement d’un
lexique à large couverture pour le système EmoLogus ainsi que de la
réalisation de tests d’évaluation du système étendu obtenu. Le stage se
déroulera en trois étapes successives :

– Phase n°1 – Préparation des données (T0 – T0+1) : Veille technologie
sur le sujet, définition des formats d’échange entre les différentes
techniques d’extension du lexique, caractérisation d’une ou plusieurs
application test et définition des données de test en relation et du
protocole d’évaluation final.

– Phase n°2 – Extension de lexique par relations sémantiques (T0+1 –
T0+3) : Extension du lexique germe par analyse des relations de
synonymie et d’antinomie entre éléments (synsets) de Wordnet,
évaluation de l’approche sur données de test (comparaison des
performances d’EmoLogus avec ou sans le lexique étendu).

– Phase n°3 – Extension de lexique par analyse de données (T0+4 – T0+6)
: Extension du lexique germe par analyse sémantique
latente. Évaluation sur tests unitaires de l’approche, évaluation de
l’approche sur données de test (comparaison des performances
d’EmoLogus avec ou sans le lexique étendu). Cette phase ne sera
abordée qu’en cas de stage de durée supérieure à quatre mois.

Profil recherché
———————

La personne recrutée sera en cycle terminal d’études en informatique, de
niveau Bac+5 (Master informatique professionnel, recherche ou
indifférencié, école d’ingénieur). Des connaissances en Traitement
Automatique des Langues et en analyse de données seront appréciées, sans
être un pré-requis à recrutement. Dans le cas d’un(e) étudiant(e) en
Master Recherche, le sujet de stage pourra être adapté aux attentes de
l’étudiant.

Rémunération
——————

Rémunération minimale prévue par la règlementation à savoir 436,05 € par
mois. Cette rémunération sera assurée dans le cadre d’un projet
industriel financé par la société BAMSOO.

Durée du stage et lieu d’exercice
——————————————

La personne recrutée travaillera au sein du laboratoire IRISA, dans les
locaux de l’ENSIBS, à Lorient (Morbihan). Il s’intégrera dans une équipe
projet composée de Jeanne Villaneau (IRISA, équipe SEASIDE) et Jean-Yves
Antoine (Laboratoire d’Informatique de l’Université François Rabelais de
Tours, équipe BDTLN).

La durée minimale de stage sera de 4 mois. Une prolongation de stage est
envisageable à la demande du stagiaire ou de son établissement.

Contact – Dépôts de candidature
——————————————-

Contact : Jeanne.Villaneau@univ-ubs.fr

Dépôt des candidatures : auprès de Jeanne Villaneau. Merci de déposer un
CV détaillé de vos activités passées, accompagné d’une lettre de
motivation et de vos relevés de notes des deux dernières années
d’études. Un développement Java sera demandé pour la sélection du
candidat.

Liens utiles
—————

Laboratoire LI, équipe BDTLN :
http://li.univ-tours.fr/equipes/equipe-bdtln-198022.kjsp

Laboratoire IRISA, équipe SEASIDE : http://www-seaside.irisa.fr/

Advertisements