Chapitre 3

Tâches audio

Découvrez les tâches et les traitements proposés avec les données de VibraVox.

Sous-sections de Tâches audio

Réhaussement de la parole

Tâche

Cette tâche est principalement orientée vers le débruitage et l’extension de la bande passante, également connue sous le nom de super-résolution audio, qui est nécessaire pour améliorer la qualité audio de la parole capturée par le corps. On présente au modèle une paire de clips audio (provenant d’une parole captée par le corps et d’une parole aérienne correspondante, propre et à bande passante complète), et on lui demande d’améliorer l’audio en débruitant et en régénérant les moyennes et les hautes fréquences à partir du contenu des basses fréquences uniquement.

Veuillez vous référer à l’article Vibravox pour plus d’informations.

Modèles pré-entrainés sur HuggingFace

Suivez ce lien pour utiliser nos modèles EBEN: https://huggingface.co/Cnam-LMSSC/vibravox_EBEN_models

Code d’entraînement

Veuillez suivre ce lien pour obtenir le code d’entraînement de nos modèles : https://github.com/jhauret/vibravox

Exemples audio

Frontal Intra rigide Intra souple Tempe Laryngophone
Audio dégradé
Audio amélioré par EBEN
Audio de référence

Vibravox amélioré par EBEN

Explorez l’ensemble du jeu de test amélioré par nos modèles EBEN :

Transcription de parole

Tâche

On présente au modèle un fichier audio et on lui demande de transcrire le fichier audio en texte écrit (texte normalisé ou texte phonématisé). Les mesures d’évaluation les plus courantes sont le taux d’erreur sur les mots (WER), le taux d’erreur sur les caractères (CER) ou le taux d’erreur sur les phonèmes (PER).

Veuillez vous référer à l’article Vibravox pour plus d’informations.

Modèles pré-entrainés sur HuggingFace

Suivez ce lien pour utiliser nos phonemizers: https://huggingface.co/Cnam-LMSSC/vibravox_phonemizers

Code d’entraînement

Veuillez suivre ce lien pour obtenir le code d’entraînement de nos modèles : https://github.com/jhauret/vibravox

Vérification de locuteur

Tâche

Étant donné un clip audio d’entrée et un clip audio de référence d’un locuteur connu, l’objectif du modèle est de comparer les deux clips et de vérifier s’ils proviennent de la même personne. Cela implique souvent l’extraction d’encastrements à partir d’un réseau neuronal profond entraîné sur un vaste ensemble de données de voix. Le modèle mesure ensuite la similarité entre ces ensembles de caractéristiques à l’aide de techniques telles que la similarité cosinusoïdale ou une métrique de distance apprise. Cette tâche est cruciale dans les applications nécessitant un contrôle d’accès sécurisé, comme les systèmes d’authentification biométrique, où la voix d’une personne sert d’identifiant unique.

Veuillez vous référer à l’article Vibravox pour plus d’informations.

Code de test

Veuillez suivre ce lien pour obtenir le code de test de notre modèle : https://github.com/jhauret/vibravox