Transcription de parole
Tâche
On présente au modèle un fichier audio et on lui demande de transcrire le fichier audio en texte écrit (texte normalisé ou texte phonématisé). Les mesures d’évaluation les plus courantes sont le taux d’erreur sur les mots (WER), le taux d’erreur sur les caractères (CER) ou le taux d’erreur sur les phonèmes (PER).
Veuillez vous référer à l’article Vibravox pour plus d’informations.
Modèles pré-entrainés sur HuggingFace
Suivez ce lien pour utiliser nos phonemizers: https://huggingface.co/Cnam-LMSSC/vibravox_phonemizers
Code d’entraînement
Veuillez suivre ce lien pour obtenir le code d’entraînement de nos modèles : https://github.com/jhauret/vibravox