Accéder directement au contenu Accéder directement à la navigation
Nouvelle interface
Communication dans un congrès

Facilitating NLP specialists’ access to language archive materials: an update

Résumé : Nous présentons un outil logiciel qui permet d'assembler divers jeux de données de la collection Pangloss (archive ouverte multimédia de langues rares) en assurant la reproductibilité des expériences menées sur ces données. À titre d'exemple, deux corpus audio transcrits de langues minoritaires de Chine (japhug et na) sont proposés, sous une licence Creative Commons, comme corpus de référence pour des expériences en traitement automatique des langues, et comme exemples d'une chaîne de traitement généralisable à d'autres corpus d'archives ouvertes. L'enjeu global d'une mise à disposition de données de langues rares sous une forme aisément accessible et utilisable est de faciliter le développement et le déploiement d'outils de pointe en traitement automatique des langues naturelles pour tout l'éventail des langues humaines. Cet exposé, qui fait suite à une précédente communication sur le même thème, fait état de nouveautés dont un retour d'expérience concernant un dépôt auprès de Hugging Face. Une version en français (intégrale) de cette communication est disponible à l'adresse suivante : https://hal.archives-ouvertes.fr/hal-03856363
Type de document :
Communication dans un congrès
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-03846839
Contributeur : Yannick Parmentier Connectez-vous pour contacter le contributeur
Soumis le : lundi 14 novembre 2022 - 18:59:15
Dernière modification le : mardi 22 novembre 2022 - 20:18:07

Fichier

6963.pdf
Fichiers éditeurs autorisés sur une archive ouverte

Licence


Distributed under a Creative Commons Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales 4.0 International License

Identifiants

  • HAL Id : hal-03846839, version 1

Citation

Benjamin Galliot, Guillaume Wisniewski, Séverine Guillaume, Guillaume Jacques, Alexis Michaud. Facilitating NLP specialists’ access to language archive materials: an update. Journées Jointes des Groupements de Recherche Linguistique Informatique, Formelle et de Terrain (LIFT) et Traitement Automatique des Langues (TAL), Nov 2022, Marseille, France. pp.109-118. ⟨hal-03846839⟩

Partager

Métriques

Consultations de la notice

0

Téléchargements de fichiers

0