Motivations
Contexte
Contrairement aux microphones traditionnels, qui s’appuient sur les transmission des ondes sonores aériennes produites par un locuteur, les microphones à conduction corporelle captent les signaux vocaux directement à partir de la transmission vibratoire dans le corps humain, ce qui offre des avantages dans les environnements bruyants en éliminant l’influence du bruit ambiant. Bien que les microphones à conduction corporelle soient disponibles depuis des décennies, leur bande passante limitée a restreint leur utilisation à grande échelle. Toutefois, grâce à deux séries d’améliorations, cette technologie pourrait être présentée à un large public pour la capture de la parole et la communication dans les environnements bruyants.
Recherche et développement technologique
D’une part, le développement de la recherche sur les aspects physiques et électroniques s’améliore avec certains capteurs à fixer sur la peau. Comme les microphones osseux et phonatoires précédents, ces nouveaux capteurs portables détectent l’accélération de la peau, qui est fortement et linéairement corrélée à la pression vocale. Ils améliorent l’état de l’art en ayant une sensibilité supérieure sur la gamme de fréquences vocales, ce qui contribue à améliorer le rapport signal/bruit, et ont également une conformité cutanée supérieure, ce qui facilite l’adhésion aux surfaces cutanées incurvées. Cependant, ils ne peuvent pas capter toute la bande passante du signal vocal en raison du filtrage passe-bas inhérent aux tissus. Ils ne sont pas encore disponibles à l’achat car le processus de fabrication doit être stabilisé.
Deep Learning
D’autre part, les méthodes d’apprentissage profond ont montré des performances exceptionnelles dans un large éventail de tâches et peuvent surmonter ce dernier inconvénient. Pour l’amélioration de la parole, des travaux ont permis de régénérer les moyennes et hautes fréquences à partir des basses fréquences. Pour la reconnaissance vocale robuste, des modèles comme Whisper ont repoussé les limites des signaux utilisables.
La nécessité d’un ensemble de données ouvertes à des fins de recherche
La disponibilité d’ensembles de données à grande échelle joue un rôle essentiel dans l’avancement de la recherche et du développement en matière d’amélioration et de reconnaissance de la parole à l’aide de microphones à conduction corporelle. Ces ensembles de données permettent aux chercheurs d’entraîner et d’évaluer des modèles d’apprentissage profond, qui ont été l’ingrédient clé manquant pour obtenir une parole intelligible et de haute qualité avec de tels microphones. De tels ensembles de données font encore défaut. Le plus important est le corpus ESMB corpus, qui représente 128 heures d’enregistrements, mais n’utilise qu’un microphone à conduction osseuse. Il existe d’autres ensembles de données privés, mais ils sont trop limités et ne sont pas libres d’accès.