Combiner analyses textométriques, apprentissage supervisé et représentation vectorielle pour l’analyse de la subjectivité

Résumé : Cet article présente le bilan de notre participation au Défi Fouille de Textes (DEFT 2015) pour les tâches 1 et 2. Il s’agit de classer un corpus de tweets selon leur polarité (tâche 1) et détecter les classes génériques (tâche 2.1) et spécifiques (tâche 2.2) de ces derniers. Nous avons implémenté deux systèmes pour ce défi. La première méthode repose sur la sélection dans le corpus d’entraînement d’un ensemble de descripteurs sémantiquement motivés pour chaque tâche à partir d’une analyse textométrique, qui sont ensuite injectés dans un algorithme d’apprentissage automatique supervisé, permettant le calcul de modèles sur ce même corpus. La seconde méthode s’appuie sur une représentation vectorielle des mots apprise par utilisation de l’outil word2vec sur un corpus hétérogène et volumineux, cette représentation étant ensuite utilisée pour réaliser un apprentissage automatique supervisé, pour chaque tâche, sur les corpus de développement. Un troisième système a été réalisé par combinaison des deux précédents à l’aide d’heuristiques simples. Les résultats obtenus sur les corpus de tests montrent que chaque méthodologie a ses avantages et que leur combinaison peut donner de très bonnes performances.
Type de document :
Communication dans un congrès
Thierry Hamon; Amel Fraisse; Patrick Paroubek; Pierre Zweigenbaum; Cyril Grouin. 11e Défi Fouille de Texte (DEFT'2015), Caen (France), Jun 2016, Caen, France. Actes de la 11e Défi Fouille de Texte (DEFT'2015), Caen (France). 〈http://www.atala.org/taln_archives/ateliers/2015/DEFT/〉
Liste complète des métadonnées

Littérature citée [15 références]  Voir  Masquer  Télécharger

https://hal-inalco.archives-ouvertes.fr/hal-01335127
Contributeur : Mathieu Valette <>
Soumis le : mardi 21 juin 2016 - 17:09:18
Dernière modification le : mardi 11 octobre 2016 - 11:59:47

Fichier

deft-2015-long-010.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01335127, version 1

Collections

Citation

Egle Eensoo, Damien Nouvel, Amélie Martin, Mathieu Valette. Combiner analyses textométriques, apprentissage supervisé et représentation vectorielle pour l’analyse de la subjectivité. Thierry Hamon; Amel Fraisse; Patrick Paroubek; Pierre Zweigenbaum; Cyril Grouin. 11e Défi Fouille de Texte (DEFT'2015), Caen (France), Jun 2016, Caen, France. Actes de la 11e Défi Fouille de Texte (DEFT'2015), Caen (France). 〈http://www.atala.org/taln_archives/ateliers/2015/DEFT/〉. 〈hal-01335127〉

Partager

Métriques

Consultations de la notice

192

Téléchargements de fichiers

288