Emploi [stage, 4 à 6 mois] : TAL

[Offre diffusée le 8 février 2014 sur la liste LN]

Annotation sémantique dynamique

Mots clefs : Traitement Automatique des Langues, annotation sémantique,
gestion de contenus, ingénierie des connaissances, web sémantique

Encadrants : Adeline Nazarenko et François Lévy (LIPN, Université Paris
13 – Sorbonne Paris Cité & CNRS)

Durée : 4 à 6 mois (printemps-été 2014)

Indemnités : 430€ /mois (Labex EFL)

Problématique

L’annotation sémantique des documents joue aujourd’hui un rôle clef pour
beaucoup d’applications de gestion de contenus textuels (navigation
textuelle, recherche d’information sémantique, restructuration de
documents, etc.). L’annotation sémantique consiste à apposer sur un
texte des informations, ou métadonnées, dont la sémantique est portée
par un modèle sémantique formel (langage d’indexation, thesaurus,
ontologie, par exemple) [13, 6, 14]. On associe ainsi au texte une
représentation sémantique formelle et les moteurs de recherche ou agents
logiciels peuvent exploiter à la fois le contenu textuel (recherche en
plain texte, calculs distributionnels) et la sémantique formelle qui lui
est associée.

Les outils d’annotation de la première génération sont assez frustres,
se contentant souvent de lier les mentions des entités nommées
identifiées dans les textes à des instances existantes ou à de nouvelles
instances de concepts dans une ontologie [10, 4].

Le développement des applications spécialisées de gestion de contenus et
l’essor du web de données amènent aujourd’hui à revoir les méthodes
d’annotation sémantique : on a besoin de méthodes et d’outils qui
offrent une expressivité d’annotation plus riche (par ex. annoter des
instances de concepts mais aussi des concepts et des relations) tout en
étant robustes, génériques et adaptables à différents domaines et
contextes d’utilisation.

Objectif du stage

Le stage permettra de proposer une méthode d’annotation sémantique qui
intègre des mesures de qualité de l’annotation et qui permette de
réviser l’annotation dynamiquement. On supposera que le modèle
sémantique utilisé est de type ontologique.

Si l’on considère qu’un système d’annotation S=<O,T,A> est composé d’une
ontologie O, d’un texte T et d’un ensemble d’annotations ou de liens A
associant à des segments de T des entités de O, il faut réviser le
système S si l’un de ses composants est mis à jour (le texte est
modifié, l’ontologie est enrichie ou restructurée) ou lorsque des
incohérences ou défauts de couverture sont détectés.

Le stage consistera à étudier les différents cas de figures dans
lesquels un tel système d’annotation doit être révisé et à proposer une
méthode d’annotation dynamique intégrant des processus de révision. La
méthode d’annotation dynamique doit 1) intégrer des critères de
cohérence et des mesures de couverture pour identifier quand la révision
d’un système d’annotation est nécessaire, 2) proposer des procédures de
révision adaptées aux différents cas de figure et 3) contrôler la
convergence du processus global de révision.

En commençant par les types d’annotation les plus simples (par ex. un
texte annoté avec les instances et les concepts d’une ontologie), le
stagiaire devra proposer une méthode d’annotation dynamique. Il pourra
s’appuyer sur les outils d’annotation sémantique existants de l’équipe
RCLN, sur l’expertise des membres de l’équipe et sur des cas d’usage
réels pour évaluer l’apport de cette dynamique de l’annotation.

Il est souhaitable que la méthode proposée soit directement intégrée à
un outil d’annotation existant mais elle pourra aussi être testée en
simulation si l’intégration s’avère trop coûteuse.

Description du travail

Le stage comportera différentes parties :

1) état de l’art sur l’annotation sémantique et veille sur les outils
existants (outils de l’équipe RCLN ou autres) ;

2) description, modélisation et implémentation du processus d’annotation
dynamique (pour les types d’annotations les plus simples ; en
s’appuyant sur les outils existants et/ou sur des technologies
sémantiques) ;

3) analyse, test et évaluation de l’approche proposée sur des cas
d’usage réels simplifiés fournis par l’équipe RCLN.

En outre et en prévision d’une poursuite en thèse, le stagiaire pourra
chercher à spécifier une méthode d’annotation sémantique plus riche
prenant en compte une palette étendue de types d’annotations.

Contexte et informations pratiques

Le stage sera encadré par Adeline Nazarenko et François Lévy.

Le/la stagiaire sera intégré(e) à l’équipe RCLN et bénéficiera de
l’expertise de celle-ci en matière de traitement automatique des
langues, d’ingénierie des connaissances textuelles et de web
sémantique. En particulier, l’équipe RCLN a une solide expérience en
matière d’annotation sémantique (annotation manuelle [2, 3] ou
automatique, par apprentissage [8], formalismes et ressources pour
l’annotation [9, 12]) et de construction d’ontologies à partir de textes
[1]. Elle a aussi l’expérience de l’intégration de ces méthodes
d’annotation et d’acquisition dans les outils d’analyse de contenus [7,
5, 11].

Le/la stagiaire travaillera au LIPN (Université Paris 13 – Sorbonne
Paris Cité & CNRS) où il/elle se verra attribuer un bureau. Il/elle aura
accès à l’ensemble des moyens techniques et des données nécessaires à
son travail.

Le stage est prévu pour une durée de 6 mois. Il devrait débuter au
printemps 2014.

Le stage sera financé dans le cadre d’une opération de recherche de
l’axe « Analyse sémantique computationnelle » du Labex « Fondements
empiriques de la linguistique ».

Les candidatures doivent être adressées à François Lévy (francois.levy à
lipn.univ-paris13.fr) avant le 7 mars 2014 : envoyer une lettre de
motivation, un CV, les relevés de notes de master.

Références

[1] N. Aussenac-Gilles, S. Després, and S. Szulman. « The TERMINAE
Method and Platform for Ontology Engineering from texts ». In Paul
Buitelaar and Philipp Cimiano, editors, Bridging the Gap between Text
and Knowledge – Selected Contributions to Ontology Learning and
Population from Text, pages 199–223. IOS Press, janvier 2008.

[2] K. Fort. Les ressources annotées, un enjeu pour l’analyse de contenu
: vers une méthodologie de l’annotation manuelle de corpus. Thèse
d’informatique, Université Paris 13 – Sorbonne Paris Cité, Villetaneuse,
France, 2012.

[3] K. Fort., A. Nazarenko, S. Rosset. « Modeling the Complexity of
Manual Annotation Tasks: a Grid of Analysis ». In Proceedings of the
24th International Conference on Computational Linguistics (COLING
2012), Mumbai, India, December 2012.

[4] C. Giuliano, A. Gliozzo. « Instance-based ontology population
exploiting named-entity substitution ». In Proceedings of the 22nd
International Conference on Computational Linguistics (Coling 2008),
pages 265–272, Manchester, August 2008.

[5] A. Guissé, F. Lévy, A. Nazarenko. Un moteur sémantique pour explorer
des textes réglementaires. In Actes des 22èmes journées francophones
d’Ingénierie des Connaissances, Chambéry, 2011.

[6] A. Kiryakov, B. Popov, I. Terziev, D. Manov, and D. Ognyanoff. «
Semantic annotation, indexing, and retrieval ». Journal of Web
Semantics, 2(1):49–79, 2004.

[7] F. Lévy, A. Nazarenko, A. Guissé. « Annotation, indexation et
parcours de documents numériques ». Revue des Sciences et Technologies
de l’Information, 13(3/2010):121–152, 2010.

[8] Y. Ma, F. Lévy, A. Nazarenko. Annotation sémantique pour des
domaines spécialisés et des ontologies riches. In de la 20ème conférence
du Traitement Automatique du Langage Naturel (TALN 2013), pp 464-478,
17-21 Juin 2013, Les Sables d’Olonne.

[9] Y. Ma, A. Nazarenko, L. Audibert. « Formal description of resources
for ontology-based semantic annotation ». In Proceedings of the
International Conference on Language Resources and Evaluation (LREC
2010), Malta, May 2010. ELRA.

[10] B. Magnini, A. Pianta, O. Popescu, M. Speranza. « Ontology
population from textual mentions: Task definition and benchmark ». In
Proceedings of the OLP2 workshop on Ontology Population and Learning,
Sidney, Australia, 2006.

[11] A. Nazarenko, A. Guissé, F. Lévy, N. Omrane, S. Szulman. «
Integrating Written Policies in Business Rule Management Systems ». In
Rule-Based reasoning, Programming, and Applications, volume 6826 of
Lecture Notes in Computer Science, pages 99–113, Barcelona, Espagne,
2011.

[12] N. Omrane, A. Nazarenko, P. Rosina, S. Szulman, C. Westphal. «
Lexicalized ontology for a business rules management platform: An
automotive use case ». In Proceedings of the 5th International Symposium
on Rules, International Business Rules Forum (RuleMF@BRF), Ft
Lauderdale, Florida, USA, November 2011.

[13] B. Popov, A. Kiryakov, D. Ognyanoff, D. Manov, A. Kirilov. « Kim –
a semantic platform for information extraction and retrieval ». Natural
Language Engineering, 10(3-4):375–392, 2004.

[14] V. Uren, P. Cimiano, J. Iria, S. Handschuh, M. Vargas-Vera,
E. Motta, F. Ciravegna. « Semantic annotation for knowledge management:
Requirements and a survey of the state of the art ». Journal of Web
Semantics, 4, 2006.

——————————————————-

(French version above)

Proposal for a master internship
Dynamic semantic annotation

Keywords: Natural Language Engineering, Semantic Annotation, Content
Management, Knowledge Engineering, Semantic Web

Supervision: Adeline Nazarenko and François Lévy (LIPN, Université Paris
13 – Sorbonne Paris Cité & CNRS)

Duration: 4-6 months (spring-summer 2014)

Indemnités: 430€ /month (Labex EFL)

Problem

The semantic annotation of documents plays a key role for many
applications of textual content management (e.g. navigation, semantic
information retrieval, publication). Semantic Annotation consists in
enriching a text with metadata which semantics is given by a formal
semantic model (e.g. indexing language, thesaurus, ontology) [13, 6 ,
14]. A formal semantic representation is thus associated with the text
so that search engines or software agents can jointly exploit the
textual content (plain text search, distributional measures) and the
formal semantics associated with it.

The first generation annotation tools are quite simple. They often
merely bind references to named entities identified in the texts to
existing instances or new instances of concepts in an ontology [10 ,
4]. However, the development of specialized applications of content
management and linked data calls for renewed methods of semantic
annotation: we need methods and tools that provide a richer
expressiveness of annotation (e.g. annotation wrt. concepts and
relations and not only instances) while being robust, generic and
adaptable to different domains and use cases.

Goal

The goal of the internship is to design a semantic annotation method
incorporating annotation quality measures and enabling the dynamic
revision of annotations, assuming that the semantic model is
ontological.

If we consider that an annotation system S = <O,T,A> consists of an
ontology O, a text T and a set of annotations or links A associating
segments of with entities of O, one must revise the system S if one of
its components is updated (the text is modified, the ontology is
enriched or restructured ) or when inconsistencies or gaps in coverage
are detected.

The Master student will study the different scenarios requiring the
revision of such an annotation system and propose a method of dynamic
annotation integrating such a revision process. The dynamic annotation
method must 1) integrate consistency criteria and coverage metrics to
identify when the revision of an annotation system is necessary, 2)
propose revision procedures adapted to different use scenarios and 3)
control the convergence of the overall revision process.

Starting with the simplest types of annotation (e.g. a text annotated
with instances and concepts of an ontology), the student will provide a
method for dynamic annotation. It will rely on existing semantic
annotation tools, on the expertise of RCLN team members and on real use
cases to assess the contribution of this dynamic annotation.

The proposed method will be directly integrated into an existing
annotation tool or tested through simulation if integration is too
complex.

Description of work

The work will include several parts:
– state of the art on semantic annotation and review of existing tools;

– description, modeling and implementation of the dynamic annotation
process (for the simplest types of annotations and based on existing
tools and/or semantic technologies);

– analysis, test and evaluation of the proposed approach on simple but
real use cases provided by the RCLN team.

In addition, and in anticipation of a PhD followup, the student may
start to specify a richer semantic annotation method taking into account
a wider range of annotation types.

Context and Practical Information

The work will be supervised by Pr. Adeline Nazarenko and Pr. Francois
Levy.

The intern will be integrated in the RCLN team and benefit from its
expertise in natural language processing, knowledge engineering and
semantic web. In particular, RCLN has a solid experience in semantic
annotation (manual annotation [2, 3] or based on machine learning [8],
formalisms and resources for annotation [9, 12]) and text-based ontology
design [1]. It also knows how to integrate those methods of acquisition
and annotation in content analysis tools [7 , 5, 11 ].

The intern will work at LIPN (University Paris 13 – Sorbonne Paris Cité
& CNRS) where he/she will be assigned a desk. He/she will have access to
local facilities and data resources.

The internship is for a period of 6 months. It should start in spring
2014.

It will be funded by the Labex “Empirical Foundations of Language”
(research strand “computational semantic analysis”).

Applications should be addressed to François Lévy (francois.levy to
lipn.univ – paris13.fr) before March 7, 2014 : send a cover letter, a CV
and transcripts.

References

[1] N. Aussenac-Gilles, S. Després, and S. Szulman. « The TERMINAE
Method and Platform for Ontology Engineering from texts ». In Paul
Buitelaar and Philipp Cimiano, editors, Bridging the Gap between Text
and Knowledge – Selected Contributions to Ontology Learning and
Population from Text, pages 199–223. IOS Press, janvier 2008.

[2] K. Fort. Les ressources annotées, un enjeu pour l’analyse de contenu
: vers une méthodologie de l’annotation manuelle de corpus. Thèse
d’informatique, Université Paris 13 – Sorbonne Paris Cité, Villetaneuse,
France, 2012.

[3] K. Fort., A. Nazarenko, S. Rosset. « Modeling the Complexity of
Manual Annotation Tasks: a Grid of Analysis ». In Proceedings of the
24th International Conference on Computational Linguistics (COLING
2012), Mumbai, India, December 2012.

[4] C. Giuliano, A. Gliozzo. « Instance-based ontology population
exploiting named-entity substitution ». In Proceedings of the 22nd
International Conference on Computational Linguistics (Coling 2008),
pages 265–272, Manchester, August 2008.

[5] A. Guissé, F. Lévy, A. Nazarenko. Un moteur sémantique pour explorer
des textes réglementaires. In Actes des 22èmes journées francophones
d’Ingénierie des Connaissances, Chambéry, 2011.

[6] A. Kiryakov, B. Popov, I. Terziev, D. Manov, and D. Ognyanoff. «
Semantic annotation, indexing, and retrieval ». Journal of Web
Semantics, 2(1):49–79, 2004.

[7] F. Lévy, A. Nazarenko, A. Guissé. « Annotation, indexation et
parcours de documents numériques ». Revue des Sciences et Technologies
de l’Information, 13(3/2010):121–152, 2010.

[8] Y. Ma, F. Lévy, A. Nazarenko. Annotation sémantique pour des
domaines spécialisés et des ontologies riches. In de la 20ème conférence
du Traitement Automatique du Langage Naturel (TALN 2013), pp 464-478,
17-21 Juin 2013, Les Sables d’Olonne.

[9] Y. Ma, A. Nazarenko, L. Audibert. « Formal description of resources
for ontology-based semantic annotation ». In Proceedings of the
International Conference on Language Resources and Evaluation (LREC
2010), Malta, May 2010. ELRA.

[10] B. Magnini, A. Pianta, O. Popescu, M. Speranza. « Ontology
population from textual mentions: Task definition and benchmark ». In
Proceedings of the OLP2 workshop on Ontology Population and Learning,
Sidney, Australia, 2006.

[11] A. Nazarenko, A. Guissé, F. Lévy, N. Omrane, S. Szulman. «
Integrating Written Policies in Business Rule Management Systems ». In
Rule-Based reasoning, Programming, and Applications, volume 6826 of
Lecture Notes in Computer Science, pages 99–113, Barcelona, Espagne,
2011.

[12] N. Omrane, A. Nazarenko, P. Rosina, S. Szulman, C. Westphal. «
Lexicalized ontology for a business rules management platform: An
automotive use case ». In Proceedings of the 5th International Symposium
on Rules, International Business Rules Forum (RuleMF@BRF), Ft
Lauderdale, Florida, USA, November 2011.

[13] B. Popov, A. Kiryakov, D. Ognyanoff, D. Manov, A. Kirilov. « Kim –
a semantic platform for information extraction and retrieval ». Natural
Language Engineering, 10(3-4):375–392, 2004.

[14] V. Uren, P. Cimiano, J. Iria, S. Handschuh, M. Vargas-Vera,
E. Motta, F. Ciravegna. « Semantic annotation for knowledge management:
Requirements and a survey of the state of the art ». Journal of Web
Semantics, 4, 2006.

Advertisements