Accéder directement au contenu Accéder directement à la navigation
Communication dans un congrès

Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings

Résumé : Des travaux récents montrent que la spécialisation (*fine-tuning*) d'un modèle multilingue de représentation de la parole (tel que XLS-R) au moyen de très petites quantités de données annotées permet d'obtenir des systèmes de transcription phonémique de qualité suffisante pour être utile aux linguistes de terrain dans leur entreprise de documentation des langues du monde. Dans ce travail, nous exposons une méthode très simple qui permet d'améliorer la qualité de ces systèmes : leur intégration avec un modèle de langue. Nos expériences sur une langue menacée, le japhug (famille trans-himalayenne/tibéto-birmane), montrent que cette approche peut réduire significativement le taux d'erreur sur les mots (WER: *Word Error Rate*), et mener au stade de la reconnaissance automatique de mots entiers.
Type de document :
Communication dans un congrès
Liste complète des métadonnées

https://halshs.archives-ouvertes.fr/halshs-03625581
Contributeur : Alexis Michaud Connectez-vous pour contacter le contributeur
Soumis le : dimanche 3 juillet 2022 - 08:55:36
Dernière modification le : vendredi 5 août 2022 - 11:58:04

Fichier

Interspeech2022_ASR_Endangered...
Fichiers produits par l'(les) auteur(s)

Licence


Distributed under a Creative Commons Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales 4.0 International License

Identifiants

Citation

Séverine Guillaume, Guillaume Wisniewski, Benjamin Galliot, Minh-Châu Nguyễn, Maxime Fily, et al.. Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings. Interspeech 2022 - 23rd Annual Conference of the International Speech Communication Association, Sep 2022, Incheon, South Korea. ⟨10.5281/zenodo.5521111⟩. ⟨halshs-03625581v2⟩

Partager

Métriques

Consultations de la notice

1304

Téléchargements de fichiers

4805