Protocole d'enregistrement
Procédure
Le processus d’enregistrement se déroule en quatre étapes :
-
Speak in Silence : Pendant 15 minutes, le participant lit des phrases tirées de la Wikipédia française. Chaque énoncé génère un nouvel enregistrement et les transcriptions sont conservées.
-
Quiet in Noise : Pendant 2 minutes et 24 secondes, le participant reste silencieux dans un environnement bruyant créé à partir des échantillons AudioSet. Ces échantillons ont été sélectionnés dans des classes pertinentes, normalisés en intensité sonore, pseudo-spatialisés et sont joués depuis des directions aléatoires à l’aide d’une sphère de spatialisation équipée de 56 haut-parleurs. L’objectif de cette phase est de recueillir des bruits de fond réalistes qui seront combinés avec les enregistrements Parler en silence pour maintenir une référence propre.
-
Quiet in Silence : La procédure est répétée pendant 54 secondes dans un silence complet afin d’enregistrer uniquement les bruits physiologiques et les bruits du microphone. Ces échantillons peuvent être utiles pour des tâches telles que le suivi de la fréquence cardiaque ou simplement l’analyse des propriétés de bruit des différents microphones.
-
Speak in Noise : La phase finale (54 secondes) servira principalement à tester les différents systèmes (amélioration de la parole, reconnaissance automatique de la parole, identification du locuteur) qui seront développés sur la base des enregistrements des trois premières phases. Ce test en conditions réelles fournira des indications précieuses sur les performances et l’efficacité de ces systèmes dans des scénarios pratiques. Le bruit a été enregistré à l’aide de l’enregistreur portable ZYLIA ZR-1 à partir de scènes spatialisées et rejoué dans la sphère de spatialisation avec un traitement ambisonique.