Tâches audio
Découvrez les tâches et les traitements proposés avec les données de VibraVox.
Découvrez les tâches et les traitements proposés avec les données de VibraVox.
Cette tâche est principalement orientée vers le débruitage et l’extension de la bande passante, également connue sous le nom de super-résolution audio, qui est nécessaire pour améliorer la qualité audio de la parole capturée par le corps. On présente au modèle une paire de clips audio (provenant d’une parole captée par le corps et d’une parole aérienne correspondante, propre et à bande passante complète), et on lui demande d’améliorer l’audio en débruitant et en régénérant les moyennes et les hautes fréquences à partir du contenu des basses fréquences uniquement.
Veuillez vous référer à l’article Vibravox pour plus d’informations.
Suivez ce lien pour utiliser nos modèles EBEN: https://huggingface.co/Cnam-LMSSC/vibravox_EBEN_models
Veuillez suivre ce lien pour obtenir le code d’entraînement de nos modèles : https://github.com/jhauret/vibravox
Frontal | Intra rigide | Intra souple | Tempe | Laryngophone | |
---|---|---|---|---|---|
Audio dégradé | |||||
Audio amélioré par EBEN | |||||
Audio de référence |
Explorez l’ensemble du jeu de test amélioré par nos modèles EBEN :
On présente au modèle un fichier audio et on lui demande de transcrire le fichier audio en texte écrit (texte normalisé ou texte phonématisé). Les mesures d’évaluation les plus courantes sont le taux d’erreur sur les mots (WER), le taux d’erreur sur les caractères (CER) ou le taux d’erreur sur les phonèmes (PER).
Veuillez vous référer à l’article Vibravox pour plus d’informations.
Suivez ce lien pour utiliser nos phonemizers: https://huggingface.co/Cnam-LMSSC/vibravox_phonemizers
Veuillez suivre ce lien pour obtenir le code d’entraînement de nos modèles : https://github.com/jhauret/vibravox
Étant donné un clip audio d’entrée et un clip audio de référence d’un locuteur connu, l’objectif du modèle est de comparer les deux clips et de vérifier s’ils proviennent de la même personne. Cela implique souvent l’extraction d’encastrements à partir d’un réseau neuronal profond entraîné sur un vaste ensemble de données de voix. Le modèle mesure ensuite la similarité entre ces ensembles de caractéristiques à l’aide de techniques telles que la similarité cosinusoïdale ou une métrique de distance apprise. Cette tâche est cruciale dans les applications nécessitant un contrôle d’accès sécurisé, comme les systèmes d’authentification biométrique, où la voix d’une personne sert d’identifiant unique.
Veuillez vous référer à l’article Vibravox pour plus d’informations.
Veuillez suivre ce lien pour obtenir le code de test de notre modèle : https://github.com/jhauret/vibravox