Accéder directement au contenu Accéder directement à la navigation
Nouvelle interface
Thèse

Exploration des relations terminologiques entre les termes multi-mots dans les modèles de sémantique distributionnelle

Résumé : Le terme est une unité lexicale qui a un sens spécialisé dans un domaine particulier. L'organisation des termes reflète la structure de la connaissance d'un domaine. Cette structure est basée sur les relations qui existent entre les concepts du domaine et par suite entre les termes simples (TS) ou multi-mots (TMM). Les ressources terminologiques structurées, telles que les dictionnaires spécialisés, les banques et les bases de données terminologiques, sont conçues pour répondre aux besoins dans les domaines de recherche, de traduction, de rédaction technique, etc. Cependant, les relations entre TMM y sont souvent sous-représentées. Beaucoup de travaux portent en effet sur l'acquisition de relations entre TS et relativement peu sur l’acquisition de relations entre TMM. D’un autre côté, on observe depuis plusieurs années, l’utilisation massive et réussie des modèles sémantiques distributionnels (MSD) dans de nombreux travaux en sémantique. Notre problématique de recherche se place à l’articulation de ces deux thèmes. Elle se décline en deux questions : est-il possible de capturer des informations relationnelles entre TMM en utilisant des MSD ? Quels sont les relations entre TMM que ces modèles permettent d’identifier le mieux ? Pour répondre à ces deux questions, nous avons réalisé un ensemble d’expériences dans le domaine de l’environnement en français. Notre hypothèse générale de travail est que les MSD statiques et contextuels permettent d'identifier des relations terminologiques entre TMM. Nous avons exploré les possibilités de ces modèles en utilisant deux méthodes. La première adoptant la substitution lexicale est fondée sur les prédictions d’un modèle de langue masqué (MLM). La seconde consiste à capter des relations sémantiques lexicales par analogie entre les représentations des termes générées par un modèle FastText. Ces méthodes sont testées sur deux jeux de données. Nous nous appuyons d'abord sur un jeu de données composé de TMM synonymes du domaine de l’environnement en français fournis par la banque IATE. Devant le manque de ressources intégrant des relations sémantiques variées entre TMM, nous avons construit un second jeu de données par projection sémantique à partir des termes simples et de leurs relations recensées dans le dictionnaire de termes de l'environnement, DiCoEnviro. Une annotation manuelle à l'aide des contextes des TMM est effectuée pour vérifier la préservation de la relation inférée entre TMM. Les résultats expérimentaux que nous avons obtenus valident notre hypothèse concernant la possibilité de capter des relations terminologiques entre TMM par des MSD. L'analogie impliquant un modèle FastText s’avère plus performante que la substitution lexicale réalisée avec un MLM pour capturer la synonymie, l'antonymie et l'hyponymie. Les résultats montrent aussi que la stratégie conditionnement permet d'avoir des prédictions du MLM reliées plus étroitement au mot masqué et que les performances de l'analogie sont améliorées lorsque les variantes de TMM sont traitées comme des occurrences des TMM. Un autre résultat notable est que la composition sémantique des TMM est modélisée par l'analogie et capturée dans une certaine mesure par les modèles de langage masqués. Ce résultat confirme l'avantage de combiner les approches distributionnelles et compositionnelles pour l'identification des relations sémantiques entre TMM. Les meilleurs résultats ont été obtenus avec l'analogie, avec un MRR de 0,793 pour la synonymie, de 0,720 pour l'antonymie, de 0,613 pour l'hyperonymie et 0,579 pour l'hyponymie. Dans l'ensemble, cette thèse est l'une des premières tentatives pour identifier les relations lexicales entre TMM d'un domaine spécialisé, celui de l'environnement, en explorant les MSD. Nous avons construit et mis à disposition un jeu de données de TMM reliés par les relations lexicales variées. Ce travail fournit aussi un carnet de route pour l’application des MSD pour la tâche de structuration terminologique.
Liste complète des métadonnées

https://theses.hal.science/tel-03835888
Contributeur : Yizhe WANG Connectez-vous pour contacter le contributeur
Soumis le : mardi 1 novembre 2022 - 13:17:35
Dernière modification le : mardi 8 novembre 2022 - 09:40:40

Fichier

thesis_Yizhe_redaction-6.pdf
Fichiers produits par l'(les) auteur(s)

Licence


Distributed under a Creative Commons Paternité 4.0 International License

Identifiants

  • HAL Id : tel-03835888, version 1

Collections

Citation

Yizhe Wang. Exploration des relations terminologiques entre les termes multi-mots dans les modèles de sémantique distributionnelle. Linguistique. Université Toulouse - Jean Jaurès, 2022. Français. ⟨NNT : ⟩. ⟨tel-03835888⟩

Partager

Métriques

Consultations de la notice

0

Téléchargements de fichiers

0