Transcription de parole

Tâche

On présente au modèle un fichier audio et on lui demande de transcrire le fichier audio en texte écrit (texte normalisé ou texte phonématisé). Les mesures d’évaluation les plus courantes sont le taux d’erreur sur les mots (WER), le taux d’erreur sur les caractères (CER) ou le taux d’erreur sur les phonèmes (PER).

Veuillez vous référer à l’article Vibravox pour plus d’informations.

Modèles pré-entrainés sur HuggingFace

Suivez ce lien pour utiliser nos phonemizers: https://huggingface.co/Cnam-LMSSC/vibravox_phonemizers

Code d’entraînement

Veuillez suivre ce lien pour obtenir le code d’entraînement de nos modèles : https://github.com/jhauret/vibravox