VibraVox Dataset

Téléchargement

Le dataset a été publié en juillet 2024 et est disponible sur HuggingFace.

Des ressources complémentaires pour reproduire les expériences sont également disponibles sur GitHub.

L’article scientifique décrivant le corpus et les résultats obtenus pour différentes tâches de traitement de la parole est disponible sur arXiV (soumis au Journal Speech Communication, en cours de review).

Un Dataset à usage général de parole captée avec des transducteurs à conduction corporelle

Vibravox est un ensemble de données conforme au règlement général sur la protection des données (RGPD) qui contient des enregistrements audio réalisés à l’aide de cinq capteurs audio à conduction corporelle différents : deux microphones intra-auriculaires, deux capteurs de vibrations à conduction osseuse et un laryngophone.

Le corpus Vibravox contient 45.5 heures d’échantillons de parole et de sons physiologiques enregistrés par 188 participants dans différentes conditions acoustiques imposées par un spatialisateur 3D ambisonique à ordres élevés. Le corpus comprend également des annotations sur les conditions d’enregistrement et des transcriptions linguistiques.

Image of vibravox sensors on subject Image of vibravox sensors on subject

Tâches

Nous avons mené une série d’expériences sur diverses tâches liées à la parole, notamment la reconnaissance vocale, l’amélioration de la parole et la vérification du locuteur. Ces expériences ont été réalisées à l’aide de modèles de l’état de l’art afin d’évaluer et de comparer leurs performances sur des signaux enregistrés par les différents capteurs audio proposés par l’ensemble de données Vibravox, dans le but d’obtenir une meilleure compréhension de leurs caractéristiques individuelles.

Citation

Si vous utilisez le dataset Vibravox pour des fins de recherche, merci de citer cet article :

@article{jhauret-et-al-2024-vibravox,
     title={{Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors}},
     author={Hauret, Julien and Olivier, Malo and Joubaud, Thomas and Langrenne, Christophe and
       Poir{\'e}e, Sarah and Zimpfer, Véronique and Bavu, {\'E}ric},
     year={2024},
     eprint={2407.11828},
     archivePrefix={arXiv},
     primaryClass={eess.AS},
     url={https://arxiv.org/abs/2407.11828},
}

et ce dépôt, qui est lié à un DOI :

@misc{cnamlmssc2024vibravoxdataset,
   author={Hauret, Julien and Olivier, Malo and Langrenne, Christophe and
       Poir{\'e}e, Sarah and Bavu, {\'E}ric},
   title        = { {Vibravox} (Revision 7990b7d) },
   year         = 2024,
   url          = { https://huggingface.co/datasets/Cnam-LMSSC/vibravox },
   doi          = { 10.57967/hf/2727 },
   publisher    = { Hugging Face }
}

Sous-sections de VibraVox Dataset

Chapitre 1

À propos

Découvrez pourquoi nous étudions les microphones à conduction corporelle et les techniques d’amélioration de la parole pour les communications.

Présentation sur le sujet

Sous-sections de À propos

Motivations

Contexte

Contrairement aux microphones traditionnels, qui s’appuient sur les transmission des ondes sonores aériennes produites par un locuteur, les microphones à conduction corporelle captent les signaux vocaux directement à partir de la transmission vibratoire dans le corps humain, ce qui offre des avantages dans les environnements bruyants en éliminant l’influence du bruit ambiant. Bien que les microphones à conduction corporelle soient disponibles depuis des décennies, leur bande passante limitée a restreint leur utilisation à grande échelle. Toutefois, grâce à deux séries d’améliorations, cette technologie pourrait être présentée à un large public pour la capture de la parole et la communication dans les environnements bruyants.

Recherche et développement technologique

D’une part, le développement de la recherche sur les aspects physiques et électroniques s’améliore avec certains capteurs à fixer sur la peau. Comme les microphones osseux et phonatoires précédents, ces nouveaux capteurs portables détectent l’accélération de la peau, qui est fortement et linéairement corrélée à la pression vocale. Ils améliorent l’état de l’art en ayant une sensibilité supérieure sur la gamme de fréquences vocales, ce qui contribue à améliorer le rapport signal/bruit, et ont également une conformité cutanée supérieure, ce qui facilite l’adhésion aux surfaces cutanées incurvées. Cependant, ils ne peuvent pas capter toute la bande passante du signal vocal en raison du filtrage passe-bas inhérent aux tissus. Ils ne sont pas encore disponibles à l’achat car le processus de fabrication doit être stabilisé.

Deep Learning

D’autre part, les méthodes d’apprentissage profond ont montré des performances exceptionnelles dans un large éventail de tâches et peuvent surmonter ce dernier inconvénient. Pour l’amélioration de la parole, des travaux ont permis de régénérer les moyennes et hautes fréquences à partir des basses fréquences. Pour la reconnaissance vocale robuste, des modèles comme Whisper ont repoussé les limites des signaux utilisables.

La nécessité d’un ensemble de données ouvertes à des fins de recherche

La disponibilité d’ensembles de données à grande échelle joue un rôle essentiel dans l’avancement de la recherche et du développement en matière d’amélioration et de reconnaissance de la parole à l’aide de microphones à conduction corporelle. Ces ensembles de données permettent aux chercheurs d’entraîner et d’évaluer des modèles d’apprentissage profond, qui ont été l’ingrédient clé manquant pour obtenir une parole intelligible et de haute qualité avec de tels microphones. De tels ensembles de données font encore défaut. Le plus important est le corpus ESMB corpus, qui représente 128 heures d’enregistrements, mais n’utilise qu’un microphone à conduction osseuse. Il existe d’autres ensembles de données privés, mais ils sont trop limités et ne sont pas libres d’accès.

Personnes

Julien HAURET

Julien Hauret Julien Hauret

Bio

est doctorant au Cnam Paris, poursuivant des recherches en apprentissage automatique appliqué au traitement de la parole. Il est titulaire de deux masters de l’ENS Paris Saclay, l’un en génie électrique (2020) et l’autre en mathématiques appliquées (2021). Sa formation à la recherche est attestée par ses expériences à l’Université de Columbia, au ministère français des Forces armées et à la start-up Pulse Audition. De plus, il a enseigné pendant deux années consécutives les algorithmes et les structures de données à l’École des Ponts ParisTech. Ses recherches portent sur l’utilisation de l’apprentissage profond pour l’amélioration de la parole appliquée à la parole enregistrée par conduction corporelle. Passionné par la collaboration interdisciplinaire, Julien vise à améliorer la communication humaine grâce à la technologie.

Rôle

Co-coordinateur du projet. A mis en œuvre le logiciel d’enregistrement et conçu la procédure d’enregistrement. A co-conçu le site web. Responsable de la conformité au GDPR. A participé à la sélection des microphones. A dirigé la tâche d’amélioration de la parole, a coordonné la reconnaissance automatique de la parole et a apporté son soutien à la tâche de vérification du locuteur. Contributeur principal et responsable de l’enregistrement des participants. A supervisé le projet GitHub. Co-gestion de la création de l’ensemble de données, du processus de post-filtrage et du téléchargement vers HuggingFace, ainsi que de la mise en œuvre de la solution retenue. Responsable de l’entraînement des modèles sur le HPC Jean-Zay et de leur téléchargement/documentation sur le Hugging Face Hub. Principal contributeur à l’article de recherche.

Éric BAVU

Éric Bavu Éric Bavu

Bio

Est professeur d’acoustique et de traitement du signal au Laboratoire de mécanique des structures et des systèmes couplés (LMSSC) du Conservatoire national des arts et métiers (Cnam), à Paris, en France. Il a effectué ses études de premier cycle à l’École normale supérieure de Cachan, en France, de 2001 à 2005. En 2005, il a obtenu une maîtrise en acoustique, traitement du signal et informatique appliquée à la musique à l’Université Pierre et Marie Curie Sorbonne Université (UPMC), suivie d’un doctorat en acoustique décerné conjointement par l’Université de Sherbrooke, Canada, et l’UPMC, France, en 2008. Il a également mené des recherches post-doctorales sur l’imagerie des tissus mous biologiques à l’Institut Langevin de l’École supérieure de physique et chimie ParisTech (ESPCI), en France. Depuis 2009, il a supervisé six doctorants au LMSSC, en se concentrant sur le traitement des signaux audio dans le domaine temporel pour les problèmes inverses, l’audio 3D et l’apprentissage profond pour l’audio. Ses recherches actuelles portent sur les méthodes d’apprentissage profond appliquées aux problèmes inverses en acoustique, la localisation et le suivi des sources sonores en mouvement, l’amélioration de la parole et la reconnaissance vocale.

Rôle

Co-coordinateur du projet. Responsable de la sélection, de l’étalonnage et du réglage des microphones. Co-conception du site web. Mise en œuvre du backend pour la spatialisation du son. Coordination des tâches de reconnaissance automatique de la parole et de vérification du locuteur. Aide à l’enregistrement des participants. Co-gestion de la création de l’ensemble de données, du processus de post-filtrage et du téléchargement sur HuggingFace. Contributeur GitHub. A produit la Dataset Card HuggingFace. Principal contributeur à l’article de recherche.

Malo OLIVIER

Malo Olivier Malo Olivier

Bio

Est élève-ingénieur à l’INSA de Lyon, anciennement en stage au Laboratoire de Mécanique des Structures et des Systèmes Couplés (LMSSC) du Conservatoire National des Arts et Métiers (CNAM), Paris, France. Il poursuit ses études supérieures au département d’informatique de l’INSA de Lyon, où il obtiendra son diplôme en 2024. Malo possède des compétences précieuses dans la mise en œuvre de différentes solutions allant des problématiques de systèmes d’information aux architectures de réseaux neuronaux profonds, en passant par les applications web. Il envisage de poursuivre un doctorat en intelligence artificielle, en se spécialisant dans les réseaux de neurones profonds appliqués aux domaines scientifiques et espère que son profil d’ingénieur mettra en évidence ses capacités de mise en œuvre dans le cadre de projets de grand intérêt.

Rôle

Contribution essentielle à l’enregistrement des participants. Aide à l’exploration de la tâche de reconnaissance automatique de la parole, à la création de l’ensemble de données, au processus de post-filtrage et au téléchargement sur HuggingFace. Contributeur GitHub. Contribution au processus de révision de l’article de recherche.

Thomas JOUBAUD

Thomas Joubaud Thomas Joubaud

Bio

Est chercheur associé au département Acoustique et protection du soldat au sein de l’Institut franco-allemand de recherche de Saint-Louis (ISL), France, depuis 2019. En 2013, il a obtenu le diplôme d’études supérieures de l’École centrale de Marseille, France, ainsi que le master en mécanique, physique et ingénierie, spécialisé dans la recherche acoustique, de l’Université d’Aix-Marseille, France. Il a obtenu le doctorat en mécanique, spécialité acoustique, du Conservatoire national des arts et métiers (Cnam), Paris, France, en 2017. La thèse a été réalisée en collaboration avec et au sein de l’ISL. De 2017 à 2019, il a travaillé en tant qu’ingénieur de recherche post-doctorant au sein de la société Orange SA à Cesson-Sévigné, en France. Ses recherches portent sur le traitement du signal audio, la protection auditive, la psychoacoustique, en particulier l’intelligibilité de la parole et la localisation des sons, et la mesure des bruits continus et impulsionnels de haut niveau.

Rôle

Assistance à la sélection des microphones. Co-coordination de la tâche de vérification du locuteur. Contributeur GitHub. Contribution au processus de révision de l’article de recherche.

Christophe LANGRENNE

Christophe Langrenne Christophe Langrenne

Bio

est chercheur scientifique au Laboratoire de Mécanique des Structures et des Systèmes Couplés (LMSSC) du Conservatoire National des Arts et Métiers (Cnam), Paris, France. Après avoir obtenu son doctorat sur la régularisation des problèmes inverses, il a développé un algorithme de méthode multipolaire rapide (FMM) pour résoudre des problèmes de diffusion et de propagation à grande échelle. Également intéressé par l’audio 3D, il a co-encadré 3 doctorants sur ce thème, en particulier sur l’Ambisonic (enregistrement et décodage) et la restitution binaurale (confusions avant/arrière).

Rôle

Participation au réglage du microphone. A contribué à l’enregistrement des participants. Contribution au processus de révision de l’article de recherche.

Sarah POIRÉE

Sarah Poirée Sarah Poirée

Bio

est technicienne au Laboratoire de Mécanique et des Systèmes Couplés (LMSSC) au sein du Conservatoire National des Arts et Métiers (Cnam), Paris, France. Ses activités portent sur la conception et le développement de dispositifs expérimentaux. Elle a notamment contribué à la création du système de spatialisation sonore 3D utilisé lors de l’enregistrement de l’ensemble de données Vibravox.

Rôle

A contribué à l’enregistrement des participants. Contribution au processus de révision de l’article de recherche.

Véronique ZIMPFER

Véronique Zimpfer Véronique Zimpfer

Bio

Est chercheuse scientifique au département Acoustique et protection du soldat de l’Institut franco-allemand de recherche de Saint-Louis (ISL), Saint-Louis, France, depuis 1997. Elle est titulaire d’une maîtrise en traitement du signal de l’INP de Grenoble (France) et a obtenu un doctorat en acoustique de l’INSA de Lyon (France) en 2000. Son expertise se situe à l’intersection de la communication dans les environnements bruyants et de la protection auditive. Ses recherches portent sur l’amélioration des protecteurs auditifs adaptatifs, le perfectionnement des stratégies de communication radio grâce à des méthodes de microphone non conventionnelles et l’amélioration de la perception auditive lors de l’utilisation d’équipements de protection.

Rôle

Aide à la sélection des microphones. Contribution au processus de révision de l’article de recherche.

Philippe CHENEVEZ

Philippe Chenevez Philippe Chenevez

Bio

Philippe Chenevez est un professionnel de l’audiovisuel et de l’acoustique, diplômé de l’École Louis Lumière en 1984 avec un BTS en audiovisuel, et ingénieur en acoustique du CNAM en 1996. Il a occupé le poste de Directeur technique à la société VDB de 1990 à 1998, où il s’est spécialisé en électronique HF et BF, axé sur la maintenance et le développement. En 2006, il a fondé CINELA, une entreprise de renom dans la fabrication de protections anti-vent et anti-vibratoires pour microphones de prise de son, contribuant ainsi de manière significative à l’industrie audiovisuelle grâce à ses produits innovants.

Rôle

Responsable de la préamplification des microphones.

Jean-Baptiste DOC

Jean-Baptiste Doc Jean-Baptiste Doc

Bio

a obtenu son doctorat en acoustique à l’université du Mans, en France, en 2012. Il est actuellement professeur associé au Laboratoire de Mécanique des Structures et des Systèmes Couplés, Conservatoire National des Arts et Métiers, Paris, France. Ses recherches portent sur la modélisation et l’optimisation des guides d’ondes de forme complexe, leur rayonnement acoustique et l’analyse des mécanismes de production du son dans les instruments à vent.

Rôle

A participé au maintien en position des microphones.

Chapitre 2

Documentation

Sous-sections de Documentation

Matériel

Parcourez tous les détails du matériel utilisé pour le projet Vibravox.

Sous-sections de Matériel

Capteurs audio

Parcourez tous les capteurs utilisés pour le projet VibraVox.

Participants portant les capteurs :

Détail des capteurs :

Sous-sections de Capteurs audio

Microphone de référence

Image du microphone à conduction aérienne 1 Image du microphone à conduction aérienne 1

Référence

La référence du microphone à conduction aérienne est Shure WH20XLR.

Ce microphone est disponible à la vente sur thomann. La documentation technique se trouve ici.

Image du microphone à conduction aérienne Image du microphone à conduction aérienne

Microphone intra-auriculaire rigide

Image of rigid in-ear microphone 1 Image of rigid in-ear microphone 1

Référence

Ce microphone intra-auriculaire rigide est intégré dans le produit Acoustically Transparent Earpieces fabriqué par l’entreprise allemande inear.de.

Les détails techniques sont reportés dans la publication A one-size-fits-all earpiece with multiple microphones and drivers for hearing device research. Dans le cadre du dataset VibraVox, nous avons seulement utilisé le microphone intra-auriculaire Knowles SPH1642HT5H-1 top-port MEMS dont la documentation technique est disponible sur Knowles.

Image du microphone intra-auriculaire rigide Image du microphone intra-auriculaire rigide

Microphone intra-auriculaire souple

Image du microphone intra-auriculaire souple 1 Image du microphone intra-auriculaire souple 1

Référence

Ce microphone est un prototype réalisé conjointement par l’entreprise Cotral, l’ISL (Institut franco-allemand de recherches de Saint-Louis) et le LMSSC (Laboratoire de Mécanique des Structures et des Systèmes Couplés). Il consiste en un embout Alvis mk5 associé à un microphone STMicroelectronics MP34DT01. Plusieurs mesures ont été entreprises pour garantir une étanchéité acoustique optimale pour le microphone intra-auriculaire afin de choisir l’embout le plus adapté.

Image du microphone intra-auriculaire souple Image du microphone intra-auriculaire souple

Pré-amplification

Ce microphone a nécessité un circuit de pré-amplification.

Laryngophone

Image du laryngophone 1 Image du laryngophone 1

Référence

La référence du Laryngophone Dual Transponder Throat Microphone - 3.5mm (1/8") Connector - XVTM822D-D35 fabriqué par ixRadio. Ce microphone est disponible à la vente sur ixRadio.

Image du laryngophone Image du laryngophone

Accéléromètre frontal

Accelerometer image 1 Accelerometer image 1

Référence

Pour offrir une grande variété de microphones à conduction corporelle, nous avons incorporé un accéléromètre Knowles BU23173-000 positionné sur le front et fixé en place à l’aide d’un bandeau personnalisé imprimé en 3D.

Image de l’accéléromètre Image de l’accéléromètre

Préamplification

Un préamplificateur dédié a été développé pour ce capteur.

Maintien en position

Le bandeau conçu s’inspire de la conception d’une lampe frontale. Une pièce personnalisée imprimée en 3D a été nécessaire pour adapter le capteur au bandeau.

GIF of the helmet GIF of the helmet

Capteur de vibrations temporal

Image du microphone AKG  1 Image du microphone AKG  1

Référence

La référence du microphone de contact sur la tempe est C411 fabriqué par AKG. Ce microphone est disponible à la vente sur thomann. Il est généralement utilisé pour les instruments à cordes, mais le projet VibraVox l’utilisera comme microphone à conduction osseuse.

Image du microphone AKG Image du microphone AKG

Maintien en position

Ce microphone est placé sur la tempe à l’aide d’une pièce imprimée en 3D. Le design de cette pièce a été basé sur un scan 3D du casque Aftershokz, avec les modifications nécessaires pour accueillir le capteur avec un lien sphérique.

GIF du casque GIF du casque

Enregistreur

Référence

Tous les microphones ont été connectés à un enregistreur multipiste Zoom F8n pour un enregistrement synchronisé.

Image du Zoom F8n Image du Zoom F8n

Paramètres

Microphone Piste Gain (dB) Fréquence de coupure du filtre passe haut (Hz) Limiteur Alimentation fantôme
Tempe 1 65 20 Advanced mode
Laryngophone 2 24 20 Advanced mode
Intra-auriculaire rigide 3 20 20 Advanced mode
Intra-auriculaire souple 5 30 20 Advanced mode
Frontal 6 56 20 Advanced mode
Aérien 7 52 20 Advanced mode

Spatialisateur sonore

Pour tous les échantillons de bruit ambiant utilisés dans l’ensemble de données, le processus de spatialisation a été effectué en utilisant la sphère de spatialisation sonore 3D Spherebedev développée au cours de la thèse de Pierre Lecomte dans notre laboratoire, et la bibliothèque ambitools, également développée par Pierre Lecomte au cours de sa thèse de doctorat au Cnam.

Le système Spherebedev est un réseau de haut-parleurs sphériques d’un rayon de 1,07 mètre, composé de 56 haut-parleurs placés autour des participants. Pour assurer une spatialisation précise de l’ensemble de la gamme audio, deux systèmes imbriqués ont été utilisés :

  • Un système basse fréquence avec 6 haut-parleurs haute performance (ScanSpeak, jusqu’à 200 Hz) pour une reproduction précise des basses.
  • Un système haute fréquence composé de 50 haut-parleurs (Aura, 2 pouces, pour les fréquences supérieures à 200 Hz).

Les fichiers audio multicanal utilisés pour la resynthèse ambisonique d’ordre supérieur comprennent des enregistrements ambisoniques d’ordre 3 captés à l’aide d’un microphone Zylia ZM-1S et des enregistrements ambisoniques d’ordre 5 captés à l’aide du Memsbedev, un prototype de microphone ambisonique développé au laboratoire LMSSC.

Image du microphone du spatialisateur sonore Image du microphone du spatialisateur sonore

ambitools ambitools

Logiciel

Parcourez tous les détails du logiciel utilisé pour le projet Vibravox.

Sous-sections de Logiciel

Frontend

L’interface, construite avec la bibliothèque tkinter, consiste en 9 fenêtres séquentielles. L’interface utilisateur est dupliquée sur une tablette Wacom utilisée par le participant au centre de la sphère de spatialisation. Plusieurs threads ont été nécessaires pour permettre des actions simultanées, telles que la mise à jour d’une barre de progression en attendant qu’un bouton soit cliqué.

UI Windows UI Windows

Backend

La partie backend comprend:

  • Un lecteur dynamique implémenté avec la bibliothèque linecache pour éviter de charger l’ensemble du corpus en mémoire lors de l’obtention d’une nouvelle ligne de texte.

  • Un module de cryptographie utilisant cryptography.fernet pour crypter et décrypter l’identité des participants, nécessaire pour faire valoir le droit à l’oubli.

  • Un client ssh construit avec paramiko pour envoyer des instructions à la sphère de spatialisation lors de la lecture du son, du changement de piste, et de la localisation de la tête de lecture avec les commandes bash jack_transport et ladish_control.

  • Un timer avec des méthodes de démarrage, de pause, de reprise et de réinitialisation.

  • Un enregistreur de flux non bloquant implémenté avec les bibliothèques sounddevice, soundfile et queue.

# -*- coding: utf-8 -*-
import os
import sys
import time
import queue
import threading
import numpy # Make sure NumPy is loaded before it is used in the callback
import soundfile as sf
import sounddevice as sd
assert numpy # avoid "imported but unused" message (W0611)
class Recorder:
"""
Non-blocking and Multi-channel compatible audio recorder
inspired from :
https://github.com/spatialaudio/python-sounddevice/blob/0.4.5/examples/rec_unlimited.py
"""
def __init__(self, samplerate, channels):
# audio parameters
self.samplerate = samplerate
self.channels = channels
# private attributes
self._queue = queue.Queue()
self._recording = False
self._thread = None
def start_stream(self, filename):
"""Start recording audio stream in 'filename'.rf64"""
filename = f'{filename}.rf64'
if os.path.exists(filename):
os.remove(filename)
def record_stream():
# record from the default input audio
with sf.SoundFile(filename, mode='x', samplerate=self.samplerate, channels=self.channels, subtype=None) as file:
with sd.InputStream(samplerate=self.samplerate, device=None, channels=self.channels, callback=self._fill_queue):
while self._recording:
file.write(self._queue.get())
self._recording = True
self._thread = threading.Thread(target=record_stream, daemon=False)
self._thread.start()
def _fill_queue(self, indata, frames, time, status):
"""This is called (from a separate thread) for each audio block."""
if status:
print(status, file=sys.stderr)
self._queue.put(indata.copy())
def stop_stream(self):
"""Stop recording audio stream"""
self._recording = False
if self._thread is not None:
self._thread.join()
if __name__ == '__main__':
recorder = Recorder(samplerate=48_000, channels=1)
recorder.start_stream(filename='demo')
time.sleep(3.0)
recorder.stop_stream()
view raw recorder.py hosted with ❤ by GitHub

Bruit

Bruit pour l’étape QiN

Sélection

Après voir uniformisé la fréquence d’échantillonage, les canaux et le format des fichiers d’AudioSet. Le bruit monocanal est obtenu à partir de 32 échantillons de 10 secondes des 90 classes suivantes :

[‘Drill’, ‘Truck’, ‘Cheering’, ‘Tools’, ‘Civil defense siren’, ‘Police car (siren)’, ‘Helicopter’, ‘Vibration’, ‘Drum kit’, ‘Telephone bell ringing’, ‘Drum roll’, ‘Waves, surf’, ‘Emergency vehicle’, ‘Siren’, ‘Aircraft engine’, ‘Idling’, ‘Fixed-wing aircraft, airplane’, ‘Vehicle horn, car horn, honking’, ‘Jet engine’, ‘Light engine (high frequency)’, ‘Heavy engine (low frequency)’, ‘Engine knocking’, ‘Engine starting’, ‘Motorboat, speedboat’, ‘Motor vehicle (road)’, ‘Motorcycle’, ‘Boat, Water vehicle’, ‘Fireworks’, ‘Stream’, ‘Train horn’, ‘Foghorn’, ‘Chainsaw’, ‘Wind noise (microphone)’, ‘Wind’, ‘Traffic noise, roadway noise’, ‘Environmental noise’, ‘Race car, auto racing’, ‘Railroad car, train wagon’, ‘Scratching (performance technique)’, ‘Vacuum cleaner’, ‘Tubular bells’, ‘Church bell’, ‘Jingle bell’, ‘Car alarm’, ‘Car passing by’, ‘Alarm’, ‘Alarm clock’, ‘Smoke detector, smoke alarm’, ‘Fire alarm’, ‘Thunderstorm’, ‘Hammer’, ‘Jackhammer’, ‘Steam whistle’, ‘Distortion’, ‘Air brake’, ‘Sewing machine’, ‘Applause’, ‘Drum machine’, “Dental drill, dentist’s drill”, ‘Gunshot, gunfire’, ‘Machine gun’, ‘Cap gun’, ‘Bee, wasp, etc.’, ‘Beep, bleep’, ‘Frying (food)’, ‘Sampler’, ‘Meow’, ‘Toilet flush’, ‘Whistling’, ‘Glass’, ‘Coo’, ‘Mechanisms’, ‘Rub’, ‘Boom’, ‘Frog’, ‘Coin (dropping)’, ‘Crowd’, ‘Crackle’, ‘Theremin’, ‘Whoosh, swoosh, swish’, ‘Raindrop’, ‘Engine’, ‘Rail transport’, ‘Vehicle’, ‘Drum’, ‘Car’, ‘Animal’, ‘Inside, small room’, ‘Laughter’, ‘Train’]

Cela représente 8 heures d’audio.

Normalisation de l’intensité sonore

from ffmpeg_normalize import FFmpegNormalize

normalizer = FFmpegNormalize(normalization_type="ebu",
                            target_level = -15.0,
                            loudness_range_target=5,
                            true_peak = -2,
                            dynamic = True,
                            print_stats=False,
                            sample_rate = 48_000,
                            progress=True)

normalizer.add_media_file(input_file='tot.rf64',
                          output_file='tot_normalized.wav')
normalizer.run_normalization()

Spatialisation

La direction du son est samplé uniformément sur la sphère unité en utilisant lafonction répartition inverse.

Bruit pour l’étape SiN

Le bruit utilisé pour l’étape finale de l’enregistrement a été capté avec une ZYLIA ZR-1 Portable. Il est composé d’applaudissements, de manifestations et d’opéra pour un total de 2h40.

ZYLIA ZR-1 Portable ZYLIA ZR-1 Portable

Protocole d'enregistrement

Procédure

Le processus d’enregistrement se déroule en quatre étapes :

  • Speak in Silence : Pendant 15 minutes, le participant lit des phrases tirées de la Wikipédia française. Chaque énoncé génère un nouvel enregistrement et les transcriptions sont conservées.

  • Quiet in Noise : Pendant 2 minutes et 24 secondes, le participant reste silencieux dans un environnement bruyant créé à partir des échantillons AudioSet. Ces échantillons ont été sélectionnés dans des classes pertinentes, normalisés en intensité sonore, pseudo-spatialisés et sont joués depuis des directions aléatoires à l’aide d’une sphère de spatialisation équipée de 56 haut-parleurs. L’objectif de cette phase est de recueillir des bruits de fond réalistes qui seront combinés avec les enregistrements Parler en silence pour maintenir une référence propre.

  • Quiet in Silence : La procédure est répétée pendant 54 secondes dans un silence complet afin d’enregistrer uniquement les bruits physiologiques et les bruits du microphone. Ces échantillons peuvent être utiles pour des tâches telles que le suivi de la fréquence cardiaque ou simplement l’analyse des propriétés de bruit des différents microphones.

  • Speak in Noise : La phase finale (54 secondes) servira principalement à tester les différents systèmes (amélioration de la parole, reconnaissance automatique de la parole, identification du locuteur) qui seront développés sur la base des enregistrements des trois premières phases. Ce test en conditions réelles fournira des indications précieuses sur les performances et l’efficacité de ces systèmes dans des scénarios pratiques. Le bruit a été enregistré à l’aide de l’enregistreur portable ZYLIA ZR-1 à partir de scènes spatialisées et rejoué dans la sphère de spatialisation avec un traitement ambisonique.

Analyse

Fonctions de cohérence

Les fonctions de cohérence de tous les microphones sont représentés sur la Figure ci-dessous lors d’une phase active de parole.

Formulaire de consentement

Assurer la conformité avec le GDPR

Un formulaire de consentement pour la participation au jeu de données VibraVox a été rédigé et approuvé par le juriste du Cnam. Ce formulaire mentionne que le jeu de données sera publié sous la licence Creative Commons BY 4.0, qui permet à quiconque de partager et d’adapter les données à condition que les auteurs originaux soient cités. Toutes les exigences de la Cnil ont été vérifiées, y compris le droit à l’oubli. Ce formulaire doit être signé par chaque participant à VibraVox.

Le formulaire de consentement

Les enregistrements vocaux recueillis lors de cette expérience ont pour objectif de servir la recherche sur les microphones résistants au bruit, dans le cadre du projet de thèse de M. Julien HAURET, chercheur doctorant au Conservatoire national des arts et métiers (Cnam) (julien.hauret@lecnam.net).     Ce formulaire a pour but de recueillir le consentement de chacun des participants à ce projet à la collecte et à la conservation de leurs enregistrements vocaux, nécessaires à la production des résultats de ce projet de recherche.    Les enregistrements collectés seront anonymisés et partagés publiquement à l’adresse vibravox.cnam.fr sous licence Creative Commons BY 4.0, étant précisé que cette licence permet à quiconque de partager et d’adapter vos données.    Ce traitement de données à caractère personnel est enregistré dans un fichier informatisé par le Cnam.    Ces données pourront être conservées par le Cnam pour une période allant jusqu’à 50 ans.    Les destinataires des données récoltées seront le chercheur doctorant précité ainsi que son directeur de thèse M. Éric Bavu.   Conformément au règlement général relatif à la protection des données UE 2016/679 (RGPD) et des lois n° 2018-493 du 20 juin 2018 relative à la protection des données personnelles et n° 2004-801 du 6 août 2004 relative à la protection des personnes physiques à l’égard des traitements de données à caractère personnel et modifiant la loi n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés, vous disposez d’un droit d’accès, de rectification, d’opposition, d’effacement, de limitation et de portabilité concernant les données personnelles vous concernant, soit vos enregistrements vocaux.     Pour exercer ces droits ou pour toute question sur le traitement de vos données dans ce dispositif, vous pouvez contacter l’adresse vibravox@cnam.fr. Même si votre droit à l’oubli reste applicable pendant toute la durée de conservation des données, nous vous conseillons de le faire valoir avant la publication définitive de la base de données qui est prévue le 01/10/2023.     Si vous estimez, après nous avoir contactés, que vos droits ne sont pas respectés, vous pouvez directement contacter la déléguée à la protection des données du Cnam-établissement public à l’adresse ep_dpo@lecnam.netonmicrosoft.com. Une réclamation peut être introduite auprès de la Cnil. 

Chapitre 3

Tâches audio

Découvrez les tâches et les traitements proposés avec les données de VibraVox.

Sous-sections de Tâches audio

Réhaussement de la parole

Tâche

Cette tâche est principalement orientée vers le débruitage et l’extension de la bande passante, également connue sous le nom de super-résolution audio, qui est nécessaire pour améliorer la qualité audio de la parole capturée par le corps. On présente au modèle une paire de clips audio (provenant d’une parole captée par le corps et d’une parole aérienne correspondante, propre et à bande passante complète), et on lui demande d’améliorer l’audio en débruitant et en régénérant les moyennes et les hautes fréquences à partir du contenu des basses fréquences uniquement.

Veuillez vous référer à l’article Vibravox pour plus d’informations.

Modèles pré-entrainés sur HuggingFace

Suivez ce lien pour utiliser nos modèles EBEN: https://huggingface.co/Cnam-LMSSC/vibravox_EBEN_models

Code d’entraînement

Veuillez suivre ce lien pour obtenir le code d’entraînement de nos modèles : https://github.com/jhauret/vibravox

Exemples audio

Frontal Intra rigide Intra souple Tempe Laryngophone
Audio dégradé
Audio amélioré par EBEN
Audio de référence

Vibravox amélioré par EBEN

Explorez l’ensemble du jeu de test amélioré par nos modèles EBEN :

Transcription de parole

Tâche

On présente au modèle un fichier audio et on lui demande de transcrire le fichier audio en texte écrit (texte normalisé ou texte phonématisé). Les mesures d’évaluation les plus courantes sont le taux d’erreur sur les mots (WER), le taux d’erreur sur les caractères (CER) ou le taux d’erreur sur les phonèmes (PER).

Veuillez vous référer à l’article Vibravox pour plus d’informations.

Modèles pré-entrainés sur HuggingFace

Suivez ce lien pour utiliser nos phonemizers: https://huggingface.co/Cnam-LMSSC/vibravox_phonemizers

Code d’entraînement

Veuillez suivre ce lien pour obtenir le code d’entraînement de nos modèles : https://github.com/jhauret/vibravox

Vérification de locuteur

Tâche

Étant donné un clip audio d’entrée et un clip audio de référence d’un locuteur connu, l’objectif du modèle est de comparer les deux clips et de vérifier s’ils proviennent de la même personne. Cela implique souvent l’extraction d’encastrements à partir d’un réseau neuronal profond entraîné sur un vaste ensemble de données de voix. Le modèle mesure ensuite la similarité entre ces ensembles de caractéristiques à l’aide de techniques telles que la similarité cosinusoïdale ou une métrique de distance apprise. Cette tâche est cruciale dans les applications nécessitant un contrôle d’accès sécurisé, comme les systèmes d’authentification biométrique, où la voix d’une personne sert d’identifiant unique.

Veuillez vous référer à l’article Vibravox pour plus d’informations.

Code de test

Veuillez suivre ce lien pour obtenir le code de test de notre modèle : https://github.com/jhauret/vibravox

Chapitre 5

Crédits

Si vous utilisez le dataset Vibravox pour des fins de recherche, merci de citer cet article :

@article{jhauret-et-al-2024-vibravox,
     title={{Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors}},
     author={Hauret, Julien and Olivier, Malo and Joubaud, Thomas and Langrenne, Christophe and
       Poir{\'e}e, Sarah and Zimpfer, Véronique and Bavu, {\'E}ric},
     year={2024},
     eprint={2407.11828},
     archivePrefix={arXiv},
     primaryClass={eess.AS},
     url={https://arxiv.org/abs/2407.11828},
}

et ce dépôt, qui est lié à un DOI :

@misc{cnamlmssc2024vibravoxdataset,
   author={Hauret, Julien and Olivier, Malo and Langrenne, Christophe and
       Poir{\'e}e, Sarah and Bavu, {\'E}ric},
   title        = { {Vibravox} (Revision 7990b7d) },
   year         = 2024,
   url          = { https://huggingface.co/datasets/Cnam-LMSSC/vibravox },
   doi          = { 10.57967/hf/2727 },
   publisher    = { Hugging Face }
}
Chapitre 5

Licence

Le jeu de données Vibravox a été publié sous la licence [Creative Commons Attribution 4.0 International (CC BY 4.0)] (https://choosealicense.com/licenses/cc-by-4.0/). Toute personne est libre de partager, copier et redistribuer le jeu de données sur n’importe quel support ou format, ainsi que de l’adapter, de le modifier et de l’exploiter dans n’importe quel but, même commercial.

La condition principale est que le crédit doit être donné aux créateurs, qu’un lien vers la licence doit être fourni et que toutes les modifications apportées doivent être indiquées. Cela favorise la réutilisation à grande échelle et l’innovation tout en garantissant que nous, en tant que créateurs originaux, sommes reconnus pour notre contribution à la science ouverte.