Combiner analyses textométriques, apprentissage supervisé et représentation vectorielle pour l’analyse de la subjectivité - Inalco - Institut National des Langues et Civilisations Orientales Accéder directement au contenu
Communication Dans Un Congrès Année : 2016

Combining Textometric Analysis, Machine Learning and Vector Space Representation for Subjectivity Analysis.

Combiner analyses textométriques, apprentissage supervisé et représentation vectorielle pour l’analyse de la subjectivité

Résumé

This paper reports the results of our participation in Evaluation Campaign of Text Mining (DEFT 2015) for tasks 1 and 2. The aim is to classify tweets according to their polarity (Task 1) and detect the generic (task 2.1) and specific classes (task 2.2) thereof. We implemented two systems for this challenge. The first method is based on the selection in the training corpus of a set of semantically motivated descriptors for each task from a textometric analysis, which are then injected into a supervised machine learning algorithm, allowing the development of models on the same corpus. The second me- thod is based on a vector representation of words learned by using the tool of word2vec leveraging heterogeneous and large corpora. This representation is then used to perform automatic supervised learning, for each task, on the develop- ment corpus. A third system was designed by combination of both, using simple heuristics. The results obtained on the test corpora show that each methodology has its advantages and that their combination can achieve very high performance.
Cet article présente le bilan de notre participation au Défi Fouille de Textes (DEFT 2015) pour les tâches 1 et 2. Il s’agit de classer un corpus de tweets selon leur polarité (tâche 1) et détecter les classes génériques (tâche 2.1) et spécifiques (tâche 2.2) de ces derniers. Nous avons implémenté deux systèmes pour ce défi. La première méthode repose sur la sélection dans le corpus d’entraînement d’un ensemble de descripteurs sémantiquement motivés pour chaque tâche à partir d’une analyse textométrique, qui sont ensuite injectés dans un algorithme d’apprentissage automatique supervisé, permettant le calcul de modèles sur ce même corpus. La seconde méthode s’appuie sur une représentation vectorielle des mots apprise par utilisation de l’outil word2vec sur un corpus hétérogène et volumineux, cette représentation étant ensuite utilisée pour réaliser un apprentissage automatique supervisé, pour chaque tâche, sur les corpus de développement. Un troisième système a été réalisé par combinaison des deux précédents à l’aide d’heuristiques simples. Les résultats obtenus sur les corpus de tests montrent que chaque méthodologie a ses avantages et que leur combinaison peut donner de très bonnes performances.
Fichier principal
Vignette du fichier
deft-2015-long-010.pdf (72.33 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01335127 , version 1 (21-06-2016)

Identifiants

  • HAL Id : hal-01335127 , version 1

Citer

Egle Eensoo, Damien Nouvel, Amélie Martin, Mathieu Valette. Combiner analyses textométriques, apprentissage supervisé et représentation vectorielle pour l’analyse de la subjectivité. 11e Défi Fouille de Texte (DEFT'2015), Caen (France), Jun 2016, Caen, France. ⟨hal-01335127⟩
253 Consultations
832 Téléchargements

Partager

Gmail Facebook X LinkedIn More