Emploi [stage, 2 à 5 mois] : TAL

[Offre diffusée le 15 février 2014 sur la liste LN]

Prétraitement de données textuelles pour un système d’analyse sémantique

Entreprise : Rebuz SAS, Strasbourg
Durée : 2-5 mois
Niveau : M1-M2
Rémunération : 436,05 euros/mois
Contact : Mme Yuliya Goncharova,  4arly@bk.ru

Détails :

Rebuz est une société spécialisée dans l’analyse de textes pour la
veille économique. Le système original repose sur l’analyse sémantique
épaulée par des principes de la linguistique cognitive.

Le stage portera sur l’amélioration du module de prétraitement
existant. Ce sujet sera particulièrement intéressant pour les étudiants
souhaitant en apprendre plus sur le Traitement Automatique de Langues
(TAL) et sur la Recherche d’Information (RI).

Les tâches seront adaptées selon le niveau et les préférences du (de la)
candidat(e) sélectionné(e).

Objectifs du stage
* Révision du module actuel (écrit en Java)
* Nettoyage et optimisation du code
* Intégration de l’étiqueteur morphosyntaxique MACAON [1]
* Séries de tests et perfectionnement

Compétences recherchées :
– aisance dans la programmation en Java (un échantillon de code sera
demandé)
– bonnes connaissances des tests unitaires (JUnit)
– bonnes capacités de travail en équipe
– rigueur
– responsabilité
– autonomie

[1] http://macaon.lif.univ-mrs.fr/

Emploi [CDI] : TAL

[Offre diffusée le 15 février 2014 sur la liste LN]

Linguiste-informaticien

Poste à pourvoir en CDI
Localisation: Boulogne-Billancourt
Réumnération: en fonction de l’expérience

Eptica Lingway, filiale du groupe Eptica, développe et commercialise la
gamme LEA pour l’e-recrutement. Cette gamme comprend LEA CV pour
l’analyse automatique de CV, LEA Search pour la recherche sémantique
notamment d’offres d’emploi et de CV, et LEA Matching pour le matching
offres-cv.

Ces produits mettent en oeuvre des grammaires d’analyse, des
dictionnaires et un réseau sémantique multilingue adapté pour le monde
du recrutement. Il met en œuvre des stratégies de recherche documentaire
spécifiques, notamment pour le matching offres-CV.

La gamme LEA est disponible en plusieurs langues européennes et
asiatiques.

Dans le cadre des évolutions de l’offre LEA, Eptica-Lingway recherche
un(e) linguiste informaticien(ne) en CDI.

Au sein de l’équipe technique, le candidat aura les missions suivantes :
– participer à la conception, développement, maintenance des
fonctionnalités linguistiques des produits de la gamme LEA,
– apporter une expertise aux problématiques techniques de nos clients,
– effectuer des analyses de corpus,
– effectuer le support de second niveau pour les clients ou partenaires,
– participer aux réunions de projet en cas de besoin,
– compléter et exécuter les tests de qualité des produits.

Compétences requises :
– Traitement Automatique des Langues (étude de corpus, moteur de
recherche, grammaires locales, techniques de “machine learning”),
– Des connaissances en programmation/scripting (Java, Groovy, Perl, …)
et bases de données
– Maîtrise de l’anglais,
– Maîtrise d’autres langues européennes appréciée,
– Bonnes capacités d’analyse,
– Facilité à travailler en équipe.

Envoyer CV et lettre de motivation à hugues.de-mazancourt@eptica.com

Emploi [stage, 4 à 6 mois] : TAL

[Offre diffusée le 15 février 2014 sur la liste LN]

Stage de Master 2

Paramétrage et évaluation d’un système de classification automatique de rapports de sécurité.

L’entreprise :

CFH (Conseil en facteurs humains)/SafetyDATA est une PME spécialisée
dans le traitement automatique des langues dans le domaine de la
sécurité. Elle travaille en collaboration avec CLLE-ERSS, un laboratoire
de linguistique, et plus particulièrement avec l’équipe TAL (Traitement
automatique des langues). Le stage sera co-encadré par CFH et le
laboratoire CLLE.

Contexte :

CFH a conçu un système de traitement automatique des langues dont le but
est d’analyser des rapports d’incidents afin de proposer une ou
plusieurs catégorie(s) pour leur indexation dans une base de données. Le
système est actuellement déployé et analyse chaque mois plusieurs
centaines de documents (en français et en anglais) à l’aide de règles
apprises automatiquement et basées sur le repérage de certains termes
dans les rapports analysés. Voir plus de détails sur
http://www.safety-data-analysis.com/

Le stage vise l’évolution de ce système de classification, notamment en
envisageant l’utilisation d’un système d’apprentissage supervisé
statistique. L’objectif de ce stage est double :

1/ Identifier et quantifier le gain apporté par l’utilisation d’un
modèle statistique (SVM, régression logistique, réseau bayésien,
etc.) par rapport au système actuel ;

2/ Mesurer l’impact sur les performances du système des différents
traitements linguistiques appliqués aux documents avant leur analyse
(correction des erreurs, normalisation des formes de surface,
identification d’expressions complexes, utilisation de classes
sémantiques, etc.).

Profil recherché :

Étudiant en deuxième année de master ou dernière année d’école
d’ingénieur, en informatique ou traitement automatique des langues.

Compétences requises :

Systèmes de classification automatique par apprentissage
artificiel. L’étudiant doit connaître le fonctionnement de ces systèmes
et être autonome quant à leur utilisation et évaluation (scripts,
gestion de données volumineuses, etc.)
On attend également de l’étudiant une capacité à observer les données et
à s’intégrer dans un environnement interdisciplinaire.

Détails :

– stage conventionné et rémunéré basé à Toulouse
– durée : 4 à 6 mois à partir de mars

Contact :

Céline Raynal raynal@conseil-fh.fr
Ludovic Tanguy tanguy@univ-tlse2.fr

Emploi [stage, 6 mois] : TAL

[Offre diffusée le 12 février 2014 sur la liste LN]

Proposition de stage de Master 2e année :

<h1>Création de la maquette numérique d’une série de documents traitant
d’archéologie</h1

Descriptif :

Le stage s’inscrit dans le domaine des humanités numériques, dans le
cadre d’un projet EITAB, PEPS PSL-CNRS, mettant en œuvre une
collaboration entre le laboratoire Lattice (UMR8094, analyse
linguistique et traitement automatique des
langues,http://www.lattice.cnrs.fr/) et le laboratoire AOROC (UMR 8546,
archéologie, http://www.archeo.ens.fr/). Les deux laboratoires font
partie de l’Ecole normale supérieure et collaborent au sein du
laboratoire d’excellence TransferS (http://www.transfers.ens.fr/).

Le stage vise à créer, à partir d’un document textuel traitant
d’archéologie, la maquette d’un ebook. Il s’agit de mettre en place un
accès pertinent et convivial à un texte de spécialité à partir de
données extraites du texte (termes structurés en index, etc.). On
s’intéressera donc particulièrement aux outils de structuration (base de
données, mise en place de liens entre termes, etc.) et de mise en forme
(xml, html, css) des données. Une collaboration étroite avec les
interlocuteurs côté archéologie est indispensable. Le LATTICE dispose
d’un extracteur de termes et les outils classiques de structuration de
données et de création d’ontologies pourront être utilisés.

Le stage porte essentiellement sur l’interaction entre texte et
index. En fonction des compétences du candidat retenu, on pourra aussi
s’intéresser à l’interaction entre texte et cartes géographiques (pour
permettre de visualiser les principaux sites archéologiques, créer des
liens entre objets d’étude et zones géographiques, et pouvoir répondre à
des questions comme : « sur quels sites de la région tourangelle ont été
trouvées des tuiles à rebord ? »). On pourra aussi, si le temps le
permet, s’intéresser à l’adaptation du rendu final en fonction du
support (ordinateur, tablette, etc.).

Le stage a une finalité avant tout pratique : il s’agit de mettre en
place une maquette opérationnelle montrant un exemple concret de
réalisation possible. L’archéologie se prête particulièrement bien à
l’enrichissement multimédia du texte numérique.

Mission du stage

Créer la maquette numérique d’une série de documents traitant
d’archéologie.

– veiller à la cohérence des données (corriger et enrichir les index
existants)
– structurer le document texte
– créer index et requêtes dynamiques.

Compétences requises

– connaissance d’outils d’édition électronique
– connaissance des langages de structuration de document (xml, html,
css, etc)
– intérêt pour la mise en place de solutions applicatives, prise en
compte des besoins utilisateurs
– connaissance des bases de données
– qualité de rédaction en français et en anglais
– un intérêt pour l’archéologie serait un plus

Informations complémentaires sur EITAB :
http://www.archeo.ens.fr/spip.php?article586

Conditions

Le stage se déroulera au laboratoire Lattice (à Montrouge,
http://www.lattice.cnrs.fr/) pendant 6 mois, à partir d’avril 2014 en
étroite collaboration avec le laboratoire AOROC (à l’ENS, 45 rue d’Ulm à
Paris). Ce stage est indemnisé suivant les règles en vigueur grâce à un
projet PEPS de site co-financé par le CNRS et PSL.

Lieu

Laboratoire LATTICE à Montrouge.

Encadrants

Frédérique Mélanie Becquet et Thierry Poibeau pour le LATTICE et
Katherine Gruel pour AOROC.

Comment postuler ?

Envoyer un CV et une lettre de motivation à Thierry Poibeau et
Frédérique Mélanie prenom suivi du nom séparé par un point arobase
ens.fr dès que possible et, dans tous les cas, avant le 20 février 2014.

Emploi [CDD, 1 an] : TAL

[Offre diffusée le 12 février 2014 sur la liste LN]

Deep neural networks for statistical machine translation

During the last years, there have been several breakthroughs in the use
of neural networks for natural language processing, in particular using
deep architectures.

The computer science laboratory of the University of Le Mans (LIUM) is
working since many years on statistical machine translation (SMT), and
we were among the first researchers to successfully use neural networks,
for instance continuous space language and translation models.

We want to substantially increase our research efforts in this area,
hoping to achieve a significant advances in SMT. Our goal is to build
state-of-the-art large scale SMT systems using deep neural networks.

In this major research effort, we have openings at different levels
– postdoc positions
– PhD positions
– short term visits with a well focused research project
– engineers

The candidates are expected to have demonstrated knowledge in at least
one of the following fields:
– neural networks (feed-forward, recurrent NN, deep learning, etc).
– statistical machine translation
– efficient implementation of machine learning algorithms (GPU, MPI,
etc)

The positions are immediately available. Applications are accepted until
the positions are filled.  Initial appointment is for one year,
renewable for up to three years.  Competitive salaries are available,
including health care and other social benefits, travel support, etc.
The working language is English or French.

LIUM is participating in several international projects, financed by the
European Commission, DARPA and the French government.  We collaborate
with leading research groups in USA and Europe.

A large computer cluster is available to support the research (700 CPU
cores with a total of 6 TBytes of memory and more than 250 TBytes of
RAID disk space).  We also own a cluster with 30 Tesla K20 and K40 GPU
cards, connected by a fast Infiniband network.

Le Mans is located in between Paris and the Atlantic ocean. Both can be
reached in about 1 hour by high speed train. The Loire valley with many
wineries and other attractions is just a short drive away …

Applications should include an CV, a list of publications and the name
of two references.  We will invite interesting candidates for further
discussions.

For more information, please contact Holger Schwenk by email:
Holger.Schwenk@lium.univ-lemans.fr

Emploi [stage, 4 à 6 mois] : TAL

[Offre diffusée le 12 février 2014 sur la liste LN]

Proposition de stage de M2(R)

Analyse automatique de comptes-rendus de consultations médicales

Mots-clefs : traitement automatique des langues naturelles, extraction
d’information, apprentissage automatique, médecine

Résumé :

Ce stage de M2 Recherche vise l’analyse automatique de comptes-rendus de
consultations médicales pour en extraire certaines informations
nécessaires à la réalisation d’une étude épidémiologique. Les
compte-rendus sont constitués de texte libre résumant les données
sociodémographiques, le diagnostic, les symptômes, et les résultats des
tests éventuels réalisés chez ces patients.
Deux objectifs principaux sont considérés : d’une part classifier les
comptes rendus vis à vis de l’existence ou non d’une pathologie, d’autre
part extraire un certain nombre d’informations précises en lien avec ces
maladies. Le stagiaire devra évaluer et comparer les stratégies
classiques d’extraction d’information en Traitement Automatique des
Langues en domaine spécialisé, et l’application de méthodes
d’apprentissage automatique pour les deux objectifs visés. Les données
utilisées sont un corpus de compte-rendus de consultation déidentifiés,
en français.

Encadrement :
Ce stage sera effectué à l’IRIT (Institut de Recherche en Informatique
de Toulouse), en coopération avec l’INSERM, et sera codirigé par
Philippe Muller (IRIT, équipe MELODI “MEthodes et ingénierie des
Langues, des Ontologies et du DIscours”) et Virginie Gardette (équipe
“Vieillissement et maladie d’Alzheimer” de l’UMR INSERM 1027
“Epidémiologie et analyses en santé publique”).

http://www.irit.fr/-Equipe-MELODI-
http://www.u1027.inserm.fr/42537678/0/fiche___pagelibre/&RH=1303915788348

Compétences requises :
Le stagiaire devra avoir une formation en M2 informatique, idéalement
avec des compétences en apprentissage automatique et/ou traitement
automatique du langage naturel.

Durée : 4-6 mois à partir de mars ou avril.

Rémunération :  436,05€/mois, conformément à la réglementation.

Candidature : Envoyez un CV (avec relevés de notes récents) et une
lettre de motivation à philippe.muller@irit.fr et
virginie.gardette@univ-tlse3.fr

Emploi [CDD, 12 mois] : TAL

[Offre diffusée le 12 février 2014 sur la liste LN]

Open Position for Graduate Fellowship in Semantic Web Technologies at CNR-STLAB

Important notice: send by February 19th to stlab@cnr.it your CV, a
motivational statement, and the contact of at least one referee (or a
recommendation letter).
The official procedure for being admitted to the selection is described
on the official application post (see below) and the deadline is
February 27th.

Topic: Theories and methods for knowledge extraction and representation
at a web scale and their application to cultural heritage and
eGovernment.
Type of Grant: Graduate Fellowship
Employer: Institute of Cognitive Science and Technologies of CNR
Salary: EUR 19.367,00 (nineteen-thousand-three-hundred-sixtyseven/00)
net of expenses in charge of CNR.
Starting from: April 2014
Duration: 12 months
Location: Rome, Italy
Official application deadline: 27 February, 2014
Link to the official application post:
http://istc.cnr.it/vacancy/assegno-di-ricerca-n%C2%B0-2092014-tecnologie-semantiche-e-open-data-legovernment-e-la-fruizione-
Scientific responsible: Dr. Valentina Presutti
Contact person (administrative issues): stefania.capotosti@istc.cnr.it

Type of Grant: Graduate Fellowship

There will be a public selection procedure, based on qualifications and
an interview, for the assignment of n. 1 (one) – Graduate Fellowship in
order to conduct research related to the Scientific Area Information
Sciences AND Computer Sciences at the Institute of Cognitive Sciences
and Technologies, CNR, in the scope of the projects: eGovernment,
Digital Libraries and Hermes, under the scientific responsibility of
Dr. Valentina Presutti.

To the selection may apply individuals who, whatever their nationality
or age, are in possession of the following requirements at the date of
expiry of the deadline for submission of applications:

a) Degree in Computer Science or Engineering or Literature and
Philosophy in accordance with the legislation in force before DM
509/99 or Degree in Computer Science, Engineering, Linquistics or
Science of Language (or equivalent) in accordance with the
regulations referred to in DM 509/99 or Master’s Degree in Computer
Science, Engineering Linguistics or Science of Language (or
equivalent) in accordance with the regulations referred to in DM
270/04, with professional resume suitable for the conduct of research
according to the specifications given in the following points (the
candidate is in charge, penalty of exclusion, of demonstrating
equiparation of graduation diplomas);
b) All qualifications obtained abroad (bechelor’s degree, doctorate, and
any other qualification) shall be previously recognized in Italy in
accordance with current legislation (information on the website of
the Ministry of University and Scientific Research: www.miur.it. The
equivalence of those diplomas obtained abroad who have not already
been recognized in Italy with the expected formal procedure above,
will be evaluated, with the only purpose of the present selection, by
the Examining Committee constituted according to art. 6, paragraph 1
of the Regulations;
c) Documented experience of research, development and application of
semantic technologies. In particular, it is required expertise in at
least one of the following areas: ontology design and open data,
knowledge representation, and natural lanugage processing;
d) Excellent knowledge of OWL, RDF, and SPARQL;
e) Knowledge of mobile application development platforms;
f) Knowledge and documented experience of Java development; preference
will be given to candidates that know also other programming
languages;
g) English proficiency.

THE ENGLISH CALL ON THE WEB-SITE DOES NOT HAVE LEGAL VALUE IN ITSELF,
AND THUS DOES NOT SUPERSEDE THE ITALIAN VERSION OF THE CALL ANNOUNCEMENT
(BANDO).

Emploi [stage, ? mois] : TAL

[Offre diffusée le 8 février 2014 sur la liste LN]

Development of linguistic resources to improve an information extraction tool

Trooclick France is a company that specializes in the development of web
applications for the automatic processing of information. Our goal is to
create services that rebuild the user’s trust in digital content. Up to
now, Web players were able to enhance the relevance of this content; we
go a step further and contribute to improve its reliability.

Trooclick was created in November 2012. Just a few months later, in
April 2013, it received financial support from the BPI (French public
investment bank) and in June 2013 the French government granted it the
Status of “Young Innovative Company” (JEI), recognizing its innovative
nature. It now counts twelve committed and passionate members in its
tight-knit team.

The company carries out R&D projects in search of technical solutions in
the Artificial Intelligence field. Due to its growth, Trooclick is now
looking for candidates for a 6 month internship for its office in Paris
(17ème).

Missions:

As a member of the technical team, you will benefit from ongoing
training and you will help us design and build our information
extraction framework based on advanced NLP technologies.

You will turn ideas into well-documented and reliable linguistic
resources (both dictionaries and extraction rules) to ensure efficiency,
quality, performance and scalability.

A great team player, you will interact with other departments to
understand and fine tune specifications.
You will carry out unitary testing, create and maintain our test
validation corpus and participate in editing technical documents. All
developments will be done in English.

Qualifications:

– BSc/MSc
– Experience with NLP tools such as Gate, Treetagger, NooJ, Stanford
for linguistic annotation, named entity recognition, relationship
and fact extraction, sentiment analysis, etc.
– Experience in scripting languages such as Perl or Python as well as
XML format to be autonomous in completing some technical tasks.
– Experience with basic database management operations (SQL language)
Knowledge of Semantic Web technologies (RDF, OWL, SKOS, etc.) will
be a plus.
– Excellent communication skills in English and French
– We are open to new ideas that will significantly contribute to our
success. Our friendly team will provide the opportunity for
valuable collaboration.

– We offer you career perspectives in a young and dynamic company
with an interesting and diversified scope of duties at the cutting
edge of research. We welcome applications from highly motivated
individuals able to learn new techniques and share knowledge and
experience with the team.

Interested? Then send your application to jobs@trooclick.com!

Emploi [stage, 4 à 6 mois] : TAL

[Offre diffusée le 8 février 2014 sur la liste LN]

Annotation sémantique dynamique

Mots clefs : Traitement Automatique des Langues, annotation sémantique,
gestion de contenus, ingénierie des connaissances, web sémantique

Encadrants : Adeline Nazarenko et François Lévy (LIPN, Université Paris
13 – Sorbonne Paris Cité & CNRS)

Durée : 4 à 6 mois (printemps-été 2014)

Indemnités : 430€ /mois (Labex EFL)

Problématique

L’annotation sémantique des documents joue aujourd’hui un rôle clef pour
beaucoup d’applications de gestion de contenus textuels (navigation
textuelle, recherche d’information sémantique, restructuration de
documents, etc.). L’annotation sémantique consiste à apposer sur un
texte des informations, ou métadonnées, dont la sémantique est portée
par un modèle sémantique formel (langage d’indexation, thesaurus,
ontologie, par exemple) [13, 6, 14]. On associe ainsi au texte une
représentation sémantique formelle et les moteurs de recherche ou agents
logiciels peuvent exploiter à la fois le contenu textuel (recherche en
plain texte, calculs distributionnels) et la sémantique formelle qui lui
est associée.

Les outils d’annotation de la première génération sont assez frustres,
se contentant souvent de lier les mentions des entités nommées
identifiées dans les textes à des instances existantes ou à de nouvelles
instances de concepts dans une ontologie [10, 4].

Le développement des applications spécialisées de gestion de contenus et
l’essor du web de données amènent aujourd’hui à revoir les méthodes
d’annotation sémantique : on a besoin de méthodes et d’outils qui
offrent une expressivité d’annotation plus riche (par ex. annoter des
instances de concepts mais aussi des concepts et des relations) tout en
étant robustes, génériques et adaptables à différents domaines et
contextes d’utilisation.

Objectif du stage

Le stage permettra de proposer une méthode d’annotation sémantique qui
intègre des mesures de qualité de l’annotation et qui permette de
réviser l’annotation dynamiquement. On supposera que le modèle
sémantique utilisé est de type ontologique.

Si l’on considère qu’un système d’annotation S=<O,T,A> est composé d’une
ontologie O, d’un texte T et d’un ensemble d’annotations ou de liens A
associant à des segments de T des entités de O, il faut réviser le
système S si l’un de ses composants est mis à jour (le texte est
modifié, l’ontologie est enrichie ou restructurée) ou lorsque des
incohérences ou défauts de couverture sont détectés.

Le stage consistera à étudier les différents cas de figures dans
lesquels un tel système d’annotation doit être révisé et à proposer une
méthode d’annotation dynamique intégrant des processus de révision. La
méthode d’annotation dynamique doit 1) intégrer des critères de
cohérence et des mesures de couverture pour identifier quand la révision
d’un système d’annotation est nécessaire, 2) proposer des procédures de
révision adaptées aux différents cas de figure et 3) contrôler la
convergence du processus global de révision.

En commençant par les types d’annotation les plus simples (par ex. un
texte annoté avec les instances et les concepts d’une ontologie), le
stagiaire devra proposer une méthode d’annotation dynamique. Il pourra
s’appuyer sur les outils d’annotation sémantique existants de l’équipe
RCLN, sur l’expertise des membres de l’équipe et sur des cas d’usage
réels pour évaluer l’apport de cette dynamique de l’annotation.

Il est souhaitable que la méthode proposée soit directement intégrée à
un outil d’annotation existant mais elle pourra aussi être testée en
simulation si l’intégration s’avère trop coûteuse.

Description du travail

Le stage comportera différentes parties :

1) état de l’art sur l’annotation sémantique et veille sur les outils
existants (outils de l’équipe RCLN ou autres) ;

2) description, modélisation et implémentation du processus d’annotation
dynamique (pour les types d’annotations les plus simples ; en
s’appuyant sur les outils existants et/ou sur des technologies
sémantiques) ;

3) analyse, test et évaluation de l’approche proposée sur des cas
d’usage réels simplifiés fournis par l’équipe RCLN.

En outre et en prévision d’une poursuite en thèse, le stagiaire pourra
chercher à spécifier une méthode d’annotation sémantique plus riche
prenant en compte une palette étendue de types d’annotations.

Contexte et informations pratiques

Le stage sera encadré par Adeline Nazarenko et François Lévy.

Le/la stagiaire sera intégré(e) à l’équipe RCLN et bénéficiera de
l’expertise de celle-ci en matière de traitement automatique des
langues, d’ingénierie des connaissances textuelles et de web
sémantique. En particulier, l’équipe RCLN a une solide expérience en
matière d’annotation sémantique (annotation manuelle [2, 3] ou
automatique, par apprentissage [8], formalismes et ressources pour
l’annotation [9, 12]) et de construction d’ontologies à partir de textes
[1]. Elle a aussi l’expérience de l’intégration de ces méthodes
d’annotation et d’acquisition dans les outils d’analyse de contenus [7,
5, 11].

Le/la stagiaire travaillera au LIPN (Université Paris 13 – Sorbonne
Paris Cité & CNRS) où il/elle se verra attribuer un bureau. Il/elle aura
accès à l’ensemble des moyens techniques et des données nécessaires à
son travail.

Le stage est prévu pour une durée de 6 mois. Il devrait débuter au
printemps 2014.

Le stage sera financé dans le cadre d’une opération de recherche de
l’axe « Analyse sémantique computationnelle » du Labex « Fondements
empiriques de la linguistique ».

Les candidatures doivent être adressées à François Lévy (francois.levy à
lipn.univ-paris13.fr) avant le 7 mars 2014 : envoyer une lettre de
motivation, un CV, les relevés de notes de master.

Références

[1] N. Aussenac-Gilles, S. Després, and S. Szulman. « The TERMINAE
Method and Platform for Ontology Engineering from texts ». In Paul
Buitelaar and Philipp Cimiano, editors, Bridging the Gap between Text
and Knowledge – Selected Contributions to Ontology Learning and
Population from Text, pages 199–223. IOS Press, janvier 2008.

[2] K. Fort. Les ressources annotées, un enjeu pour l’analyse de contenu
: vers une méthodologie de l’annotation manuelle de corpus. Thèse
d’informatique, Université Paris 13 – Sorbonne Paris Cité, Villetaneuse,
France, 2012.

[3] K. Fort., A. Nazarenko, S. Rosset. « Modeling the Complexity of
Manual Annotation Tasks: a Grid of Analysis ». In Proceedings of the
24th International Conference on Computational Linguistics (COLING
2012), Mumbai, India, December 2012.

[4] C. Giuliano, A. Gliozzo. « Instance-based ontology population
exploiting named-entity substitution ». In Proceedings of the 22nd
International Conference on Computational Linguistics (Coling 2008),
pages 265–272, Manchester, August 2008.

[5] A. Guissé, F. Lévy, A. Nazarenko. Un moteur sémantique pour explorer
des textes réglementaires. In Actes des 22èmes journées francophones
d’Ingénierie des Connaissances, Chambéry, 2011.

[6] A. Kiryakov, B. Popov, I. Terziev, D. Manov, and D. Ognyanoff. «
Semantic annotation, indexing, and retrieval ». Journal of Web
Semantics, 2(1):49–79, 2004.

[7] F. Lévy, A. Nazarenko, A. Guissé. « Annotation, indexation et
parcours de documents numériques ». Revue des Sciences et Technologies
de l’Information, 13(3/2010):121–152, 2010.

[8] Y. Ma, F. Lévy, A. Nazarenko. Annotation sémantique pour des
domaines spécialisés et des ontologies riches. In de la 20ème conférence
du Traitement Automatique du Langage Naturel (TALN 2013), pp 464-478,
17-21 Juin 2013, Les Sables d’Olonne.

[9] Y. Ma, A. Nazarenko, L. Audibert. « Formal description of resources
for ontology-based semantic annotation ». In Proceedings of the
International Conference on Language Resources and Evaluation (LREC
2010), Malta, May 2010. ELRA.

[10] B. Magnini, A. Pianta, O. Popescu, M. Speranza. « Ontology
population from textual mentions: Task definition and benchmark ». In
Proceedings of the OLP2 workshop on Ontology Population and Learning,
Sidney, Australia, 2006.

[11] A. Nazarenko, A. Guissé, F. Lévy, N. Omrane, S. Szulman. «
Integrating Written Policies in Business Rule Management Systems ». In
Rule-Based reasoning, Programming, and Applications, volume 6826 of
Lecture Notes in Computer Science, pages 99–113, Barcelona, Espagne,
2011.

[12] N. Omrane, A. Nazarenko, P. Rosina, S. Szulman, C. Westphal. «
Lexicalized ontology for a business rules management platform: An
automotive use case ». In Proceedings of the 5th International Symposium
on Rules, International Business Rules Forum (RuleMF@BRF), Ft
Lauderdale, Florida, USA, November 2011.

[13] B. Popov, A. Kiryakov, D. Ognyanoff, D. Manov, A. Kirilov. « Kim –
a semantic platform for information extraction and retrieval ». Natural
Language Engineering, 10(3-4):375–392, 2004.

[14] V. Uren, P. Cimiano, J. Iria, S. Handschuh, M. Vargas-Vera,
E. Motta, F. Ciravegna. « Semantic annotation for knowledge management:
Requirements and a survey of the state of the art ». Journal of Web
Semantics, 4, 2006.

——————————————————-

(French version above)

Proposal for a master internship
Dynamic semantic annotation

Keywords: Natural Language Engineering, Semantic Annotation, Content
Management, Knowledge Engineering, Semantic Web

Supervision: Adeline Nazarenko and François Lévy (LIPN, Université Paris
13 – Sorbonne Paris Cité & CNRS)

Duration: 4-6 months (spring-summer 2014)

Indemnités: 430€ /month (Labex EFL)

Problem

The semantic annotation of documents plays a key role for many
applications of textual content management (e.g. navigation, semantic
information retrieval, publication). Semantic Annotation consists in
enriching a text with metadata which semantics is given by a formal
semantic model (e.g. indexing language, thesaurus, ontology) [13, 6 ,
14]. A formal semantic representation is thus associated with the text
so that search engines or software agents can jointly exploit the
textual content (plain text search, distributional measures) and the
formal semantics associated with it.

The first generation annotation tools are quite simple. They often
merely bind references to named entities identified in the texts to
existing instances or new instances of concepts in an ontology [10 ,
4]. However, the development of specialized applications of content
management and linked data calls for renewed methods of semantic
annotation: we need methods and tools that provide a richer
expressiveness of annotation (e.g. annotation wrt. concepts and
relations and not only instances) while being robust, generic and
adaptable to different domains and use cases.

Goal

The goal of the internship is to design a semantic annotation method
incorporating annotation quality measures and enabling the dynamic
revision of annotations, assuming that the semantic model is
ontological.

If we consider that an annotation system S = <O,T,A> consists of an
ontology O, a text T and a set of annotations or links A associating
segments of with entities of O, one must revise the system S if one of
its components is updated (the text is modified, the ontology is
enriched or restructured ) or when inconsistencies or gaps in coverage
are detected.

The Master student will study the different scenarios requiring the
revision of such an annotation system and propose a method of dynamic
annotation integrating such a revision process. The dynamic annotation
method must 1) integrate consistency criteria and coverage metrics to
identify when the revision of an annotation system is necessary, 2)
propose revision procedures adapted to different use scenarios and 3)
control the convergence of the overall revision process.

Starting with the simplest types of annotation (e.g. a text annotated
with instances and concepts of an ontology), the student will provide a
method for dynamic annotation. It will rely on existing semantic
annotation tools, on the expertise of RCLN team members and on real use
cases to assess the contribution of this dynamic annotation.

The proposed method will be directly integrated into an existing
annotation tool or tested through simulation if integration is too
complex.

Description of work

The work will include several parts:
– state of the art on semantic annotation and review of existing tools;

– description, modeling and implementation of the dynamic annotation
process (for the simplest types of annotations and based on existing
tools and/or semantic technologies);

– analysis, test and evaluation of the proposed approach on simple but
real use cases provided by the RCLN team.

In addition, and in anticipation of a PhD followup, the student may
start to specify a richer semantic annotation method taking into account
a wider range of annotation types.

Context and Practical Information

The work will be supervised by Pr. Adeline Nazarenko and Pr. Francois
Levy.

The intern will be integrated in the RCLN team and benefit from its
expertise in natural language processing, knowledge engineering and
semantic web. In particular, RCLN has a solid experience in semantic
annotation (manual annotation [2, 3] or based on machine learning [8],
formalisms and resources for annotation [9, 12]) and text-based ontology
design [1]. It also knows how to integrate those methods of acquisition
and annotation in content analysis tools [7 , 5, 11 ].

The intern will work at LIPN (University Paris 13 – Sorbonne Paris Cité
& CNRS) where he/she will be assigned a desk. He/she will have access to
local facilities and data resources.

The internship is for a period of 6 months. It should start in spring
2014.

It will be funded by the Labex “Empirical Foundations of Language”
(research strand “computational semantic analysis”).

Applications should be addressed to François Lévy (francois.levy to
lipn.univ – paris13.fr) before March 7, 2014 : send a cover letter, a CV
and transcripts.

References

[1] N. Aussenac-Gilles, S. Després, and S. Szulman. « The TERMINAE
Method and Platform for Ontology Engineering from texts ». In Paul
Buitelaar and Philipp Cimiano, editors, Bridging the Gap between Text
and Knowledge – Selected Contributions to Ontology Learning and
Population from Text, pages 199–223. IOS Press, janvier 2008.

[2] K. Fort. Les ressources annotées, un enjeu pour l’analyse de contenu
: vers une méthodologie de l’annotation manuelle de corpus. Thèse
d’informatique, Université Paris 13 – Sorbonne Paris Cité, Villetaneuse,
France, 2012.

[3] K. Fort., A. Nazarenko, S. Rosset. « Modeling the Complexity of
Manual Annotation Tasks: a Grid of Analysis ». In Proceedings of the
24th International Conference on Computational Linguistics (COLING
2012), Mumbai, India, December 2012.

[4] C. Giuliano, A. Gliozzo. « Instance-based ontology population
exploiting named-entity substitution ». In Proceedings of the 22nd
International Conference on Computational Linguistics (Coling 2008),
pages 265–272, Manchester, August 2008.

[5] A. Guissé, F. Lévy, A. Nazarenko. Un moteur sémantique pour explorer
des textes réglementaires. In Actes des 22èmes journées francophones
d’Ingénierie des Connaissances, Chambéry, 2011.

[6] A. Kiryakov, B. Popov, I. Terziev, D. Manov, and D. Ognyanoff. «
Semantic annotation, indexing, and retrieval ». Journal of Web
Semantics, 2(1):49–79, 2004.

[7] F. Lévy, A. Nazarenko, A. Guissé. « Annotation, indexation et
parcours de documents numériques ». Revue des Sciences et Technologies
de l’Information, 13(3/2010):121–152, 2010.

[8] Y. Ma, F. Lévy, A. Nazarenko. Annotation sémantique pour des
domaines spécialisés et des ontologies riches. In de la 20ème conférence
du Traitement Automatique du Langage Naturel (TALN 2013), pp 464-478,
17-21 Juin 2013, Les Sables d’Olonne.

[9] Y. Ma, A. Nazarenko, L. Audibert. « Formal description of resources
for ontology-based semantic annotation ». In Proceedings of the
International Conference on Language Resources and Evaluation (LREC
2010), Malta, May 2010. ELRA.

[10] B. Magnini, A. Pianta, O. Popescu, M. Speranza. « Ontology
population from textual mentions: Task definition and benchmark ». In
Proceedings of the OLP2 workshop on Ontology Population and Learning,
Sidney, Australia, 2006.

[11] A. Nazarenko, A. Guissé, F. Lévy, N. Omrane, S. Szulman. «
Integrating Written Policies in Business Rule Management Systems ». In
Rule-Based reasoning, Programming, and Applications, volume 6826 of
Lecture Notes in Computer Science, pages 99–113, Barcelona, Espagne,
2011.

[12] N. Omrane, A. Nazarenko, P. Rosina, S. Szulman, C. Westphal. «
Lexicalized ontology for a business rules management platform: An
automotive use case ». In Proceedings of the 5th International Symposium
on Rules, International Business Rules Forum (RuleMF@BRF), Ft
Lauderdale, Florida, USA, November 2011.

[13] B. Popov, A. Kiryakov, D. Ognyanoff, D. Manov, A. Kirilov. « Kim –
a semantic platform for information extraction and retrieval ». Natural
Language Engineering, 10(3-4):375–392, 2004.

[14] V. Uren, P. Cimiano, J. Iria, S. Handschuh, M. Vargas-Vera,
E. Motta, F. Ciravegna. « Semantic annotation for knowledge management:
Requirements and a survey of the state of the art ». Journal of Web
Semantics, 4, 2006.

Emploi [CDD, 6 à 11 mois] : TAL ou linguistique

[Offre diffusée le 7 février 2014 sur la liste linguistlist]

University or Organization: Google
Department: Research
Job Location: California, USA
Web Address: http://research.google.com
Job Title: Linguistic Data Annotator
Job Rank: Consultant

Linguistic Data Evaluator

Specialty Areas: Computational Linguistics; General Linguistics

Required Language(s): English (eng)

Description:

As part of a team of linguists based in Mountain View, you will provide high-quality annotations on natural language text, in support of a growing Natural Language Understanding research project.

Tasks may include:
– Creating phrase structure trees
– Part-of-speech tagging
– Semantic argument analysis
– Coreference clustering
– Error analysis for various NLP systems
– Writing and updating guidelines for annotation tasks

Requirements:
Undergraduate or graduate linguistics degree or related work experience. Native-level speaker of English with excellent written communication skills. Sharp eye for linguistic patterns and anomalies. Quick learner, eager to tackle new problems, learn new technical skills, and able to work well in teams as well as independently.

Proficiency in languages other than English desirable but not required. Also desirable: familiarity with web technologies, and comfort with multiple computing platforms (Unix, Windows, Mac), office applications (spreadsheets, presentation software, etc.), and programming or scripting languages (C++, Python, etc.).

Project duration:
6-11 months (with potential for extension) This is not a permanent position but a contract position. Applicants must be currently authorized to work in the United States for any employer.

For immediate consideration, please email your CV and cover letter in English (PDF format preferred) with “Linguistic Data Evaluator” in the subject line. There are multiple positions available.

Application Deadline:  (Open until filled)

Email Address for Applications: researchlinguists@gmail.com
Contact Information:
Research Linguists
Email: researchlinguists@gmail.com