Emploi [stage, ? mois] : TAL

[Offre diffusée le 22 janvier 2014 sur la liste LN]

Détection de #sarcasm avec Twitter

Contexte

La détection de sarcasme est une tâche du domaine de l’analyse d’opinions. Elle est importante pour identifier correctement les opinions présentes dans les textes. La compréhension des phrases sarcastiques n’est pas toujours facile, même pour les humains, ainsi une solution informatique est une tâche intéressante et difficile. L’approche générale pour la détection de sarcasme est basée sur l’apprentissage automatique en utilisant des traits lexicaux simples en complément de dictionnaires.

Ce genre de système a besoin d’un corpus pour construire un modèle de classification. Plusieurs recherches ont utilisé Twitter comme la source de textes contenants des sentiments, du discours figuratif et du sarcasme [1][2][3]. La dernière recherche a produit des résultats majeurs, mais à nécessité l’emploi de raffinements spécifiques aux données traitées, or une approche en traitement automatique des langues se doit d’être générique.

Projet

Les buts du projet sont suivantes:

  • Création d’un corpus de phrases sarcastiques à partir de Twitter en utilisant Twitter Search API.
  • Effectuer l’analyse linguistique et statistique du corpus obtenu.
  • Reproduire les résultats de l’état de l’art et effectuer une analyse des erreurs.
  • Développer de nouveaux algorithmes pour la détection de sarcasme en se basant sur les analyses effectuées et vérifier la méthode proposée sur le corpus collecté.
  • Rédiger un rapport scientifique sur les résultats obtenus.

L’étudiant va utiliser les technologies et outils suivants (cette liste est modifiable si besoin):

  • NLTK – la bibliothèque logicielle de traitement automatique des langues (TAL) pour Python [4]
  • TreeTagger – l’étiqueteur morpho-syntactique 4
  • Stanford Parser – l’analyseur lexical et de dépendance 5
  • LIBLINEAR – la bibliothèque de machines à vecteurs de support (SVM) linéaires 6

L’étude est prévue pour traiter des données en anglais, cependent, si la quantité de données en français disponible est suffisante, cette langue sera ajoutée à l’objet de l’étude.

Prérequis

L’étudiant est supposé avoir une éxperience de programmation suffisante pour implémenter des algorithmes en TAL. Une connaissance de Python est une avantage, mais n’est pas un prérequis. Des connaissance en statistique seront aussi très appréciées.

Références

  1. Alexander Pak and Patrick Paroubek. 2011. Twitter for Sentiment Analysis: When Language Resources are Not Available. In Proceedings of the 2011 22nd International Workshop on Database and Expert Systems Applications (DEXA ’11). IEEE Computer Society, Washington, DC, USA, 111-115. DOI=10.1109/DEXA.2011.86
  2. Roberto González-Ibáñez, Smaranda Muresan, and Nina Wacholder. 2011. Identifying sarcasm in Twitter: a closer look. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers – Volume 2 (HLT ’11), Vol. 2. Association for Computational Linguistics, Stroudsburg, PA, USA, 581-586.
  3. Dmitry Davidov, Oren Tsur, and Ari Rappoport. 2010. Semi-supervised recognition of sarcastic sentences in Twitter and Amazon. In Proceedings of the Fourteenth Conference on Computational Natural Language Learning (CoNLL ’10). Association for Computational Linguistics, Stroudsburg, PA, USA, 107-116.
  4. Bird, S.; Klein, E. & Loper, E. (2009), Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit , O’Reilly , Beijing. Available online:http://www.nltk.org/book

Contacts

Patrick ParoubekAlexander Pak

URL de l’offre : http://perso.limsi.fr/Individu/pap/internship/#french

Advertisements