Stages [2 mois] : TAL

[Offre diffusée sur la liste RISC par le laboratoire LIDILEM (Grenoble) le 25 septembre 2013]

Constitution de corpus

Offre de deux stages « constitution de corpus »
Niveau M1 ou M2, éventuellement L3 – Linguistique et/ou TAL

*Présentation du projet
Le projet de « corpus de littéracie avancée » http://corpuslitteracie.wikispaces.com/
(qui a obtenu un financement de la part du consortium « Corpus écrits » de l’Institut de Linguistique Française http://corpusecrits.corpus-ir.fr/) consiste à mettre à disposition un corpus d’écrits d’étudiants et d’adultes qui serve de ressource 1) pour les recherches sur la maîtrise de l’écrit et 2) pour la formation (et la formation de formateurs) à l’écrit. Le corpus réunira des écrits dits académiques ou universitaires d’étudiants de différents niveaux et différentes disciplines et des écrits dits professionnels, produits notamment dans le cadre des formations à l’écrit professionnel qui se développent actuellement en France et dans le monde.

*Missions des stagiaires
A partir d’un ensemble de textes qui leur seront fournis, les stagiaires devront :
-les convertir en différents formats (.txt et .pdf)
-nettoyer les textes (les rendre anonymes et enlever d’autres éléments dont une liste sera fournie)
-insérer des méta-données sous la forme de texte à écrire dans le fichier (informations sur les types de texte, le niveau des étudiants qui les ont écrits etc.) : il sera précisé aux stagiaires quelles méta-données indiquer et comment.

*Compétences requises
Une initiation en linguistique de corpus voire à XML ou à la TEI est souhaitée, mais aucune compétence informatique spécifique n’est nécessaire, hormis les connaissances basiques telles que celles validées par ex. par le C2I (traitement de texte et éditeur de textes, manipulation de fichiers, capacité à se familiariser avec de nouveaux logiciels simples).

*Modalités du stage et rémunération
-Stage équivalent à 2 mois à temps complet, à réaliser sous la forme d’un temps partiel dès le 1er ou le 15 octobre 2013.
-Rémunération : 436 euros par mois à temps complet.

Les deux stagiaires recevront un cahier des charges précis. Ils pourront utiliser le corpus pour leurs propres recherches. Le travail demandé est l’étape de base de la constitution d’un corpus et les étudiants pourront ainsi faire valoir une première expérience dans ce domaine.

*Contact
Si vous êtes intéressé, merci de contacter fanny.rinck [ chez ] ujf-grenoble.fr


Fanny Rinck
Maître de conférences en Sciences du Langage
IUFM de Grenoble – Université Grenoble 1
Laboratoire Lidilem – EA609 – Université Grenoble 3
https://sites.google.com/site/rinckfanny/

Advertisements