Accéder directement au contenu Accéder directement à la navigation
Communication dans un congrès

Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings

Abstract : Recently, several works have shown that fine-tuning a multilingual model of speech representation (typically XLS-R) with very small amounts of annotated data allows for the development of phonemic transcription systems of sufficient quality to help field linguists in their efforts to document the languages of the world. In this work, we explain how the quality of these systems can be improved by a very simple method, namely integrating them with a language model. Our experiments on an endangered language, Japhug (Trans-Himalayan/Tibeto-Burman), show that this approach can significantly reduce the WER, reaching the stage of automatic recognition of entire words.
Type de document :
Communication dans un congrès
Liste complète des métadonnées

https://halshs.archives-ouvertes.fr/halshs-03625581
Contributeur : Alexis Michaud Connectez-vous pour contacter le contributeur
Soumis le : jeudi 31 mars 2022 - 05:51:19
Dernière modification le : jeudi 1 septembre 2022 - 22:57:02
Archivage à long terme le : : vendredi 1 juillet 2022 - 19:08:31

Fichier

Interspeech2022_ASR_Endangered...
Fichiers produits par l'(les) auteur(s)

Licence


Distributed under a Creative Commons Paternité - Pas d'utilisation commerciale - Partage selon les Conditions Initiales 4.0 International License

Identifiants

Citation

Séverine Guillaume, Guillaume Wisniewski, Benjamin Galliot, Minh-Châu Nguyễn, Maxime Fily, et al.. Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings. Interspeech 2022, Sep 2022, Incheon, South Korea. ⟨10.5281/zenodo.5521111⟩. ⟨halshs-03625581v1⟩

Partager

Métriques

Consultations de la notice

437

Téléchargements de fichiers

104