Emploi [stage, 3 à 5 mois] : TAL ou linguistique

[Offre diffusée sur la liste RISC le 7 novembre 2013 par le laboratoire LIDILEM]

Conception et développement d’un dictionnaire électronique de collocations du langage scientifique 

Stage de recherche M1 ou M2 Traitement automatique des langues, Lexicographie ou Linguistique appliquée

Lieu : LIDILEM, Université Grenoble 3 – Stendhal, Durée : de 3 à 5 mois, Période : janvier à juin 2014.

Stage rémunéré : indemnité (436 euros/mois)

Personnes à contacter : Agnès Tutin (agnes.tutin [ chez ] u-grenoble3.fr)

Dans le cadre du projet Termith (Projet ANR-Content : http://www.atilf.fr/ressources/termith/) impliquant plusieurs laboratoires de recherche (ATILF, LINA, INRIA, LORIA, LIDILEM), nous souhaitons élaborer un lexique d’expressions spécifiques du français scientifique, par exemple faire une hypothèse, en premier lieu, contrairement à nos attentes … Cette phraséologie transdisciplinaire des écrits scientifiques traverse en large partie les disciplines et est surreprésentée dans ce genre (Pecman 2007 ; Tutin 2007 ; Granger Paquot 2010). Dans le cadre du projet Termith, ces expressions seront utilisées dans un système d’indexation automatique des écrits scientifiques afin de mieux repérer les concepts spécifiques des textes.
Dans cette phraséologie, les collocations, ici définies comme des associations binaires privilégiées et compositionnelles sur le plan sémantique, constituent les expressions les plus productives. Il s’agit d’expressions comme faire une hypothèse, résultats encourageants, hypothèse de travail, etc.
Le sujet du stage consistera à adapter un format d’encodage pour ces expressions à partir des extractions effectuées automatiquement d’un grand corpus d’écrits scientifiques. L’extraction sera réalisée semi-automatiquement dans notre équipe à partir d’un corpus analysé syntaxiquement en dépendances en utilisant des mesures d’association (Kraif Diwersy 2012 ; Cf aussi Seretan 2010). Le stagiaire sera chargé de réfléchir au codage linguistique des propriétés pertinentes à associer à ces collocations (alternances syntaxiques, détermination, information d’usage, etc.) à partir des observations en corpus, de sélectionner les collocations adaptées et de proposer une adaptation pour ces expressions du standard Lexical Markup Framework (Francopoulo et al. 2006).

Francopoulo, G., George, M., Calzolari, N., Monachini, M., Bel, N., Pet, M., Soria, C. (2006). Lexical markup framework (LMF). In International Conference on Language Resources and Evaluation-LREC 2006.
Granger, S., Paquot, M., (2010. The Louvain EAP Dictionary (LEAD) », Proceedings of the XIV EURALEX International Congress , Leeuwarden (The Netherlands), 6-10 July 2010, 321-326.
Kraif. O Diwersy S. (2012). Le Lexicoscope : un outil pour l’étude de profils combinatoires et l’extraction de constructions lexico-syntaxiques. Actes de la conférence conjointe JEP-TALN-RECITAL 2012, volume 2: TALN. Grenoble, France. 399—406.
Pecman, M. (2007) : Approche onomasiologique de la langue scientifique générale. Revue française de linguistique appliquée. « Lexique des écrits scientifiques », vol. XII-2. 79-96.
Seretan V. (2010). Syntax-based collocation extraction. Springer.
Tutin, A. (2004). Pour une modélisation dynamique des collocations dans les textes. In Proceedings of the Eleventh EURALEX International Congress, Lorient, France. 207-219.

Advertisements