2017-2018 M2R Info

Stage M2R Informatique

Perception automatique de voix par méthodes neuronales
Contacts : Michel.Vacher@imag.frFrancois.Portet@imag.fr
Mots clefs : audio analysis, speech processing, data mining, deep neural network, home automation
Durée du projet : 5 à 6 mois
Lieu du stage : équipe GETALP du LIG, bâtiment IMAG, Domaine universitaire de Grenoble

Contexte et objectif du stage
La capacité des agents communicants (robots, avatars, terminaux mobiles) à percevoir la voix humaine est fondamentale pour assurer un traitement et un comportement adéquats du système communicant. Cette tâche primordiale pour toute interface langagière orale a été étudiée depuis les années 80 dans la communauté du traitement automatique de la parole pour arriver à d’excellentes performances dans un cadre non-bruité et contraint. Cependant, dans un cadre réel (bruit de fond, multiple locuteurs) et mains-libre (pas d’interaction utilisateur «prévenant » le système) cette détection d’activité vocale n’est pas un problème résolu. Les récents progrès de la communauté dans le cadre de campagnes d’évaluation telles que le DCASE [Elizalde2016] et CHiME [Barker2017] montrent le potentiel des méthodes bio-inspirées, plus particulièrement les réseaux de neurones profonds, pour résoudre le problème de reconnaissance d’activité vocale dans le bruit. L’objectif du stage proposé est d’étudier les capacités des réseaux de neurones profonds pour la détection d’activités vocales à partir de signaux acoustiques de la vie courante. L’originalité de l’approche consiste à considérer le traitement de la détection (frontière temporelle) et de la classification (voix/non-voix) comme un modèle de perception profond unique optimisé globalement lors de l’apprentissage [Hughes2013]. Une autre originalité de l’étude est le positionnement résolument temps réel de la tâche de perception.

Présentation du projet
Le présent projet s’inscrit dans la continuité des travaux menés au sein de l’équipe GETALP sur la reconnaissance d’activité vocale à partir de réseaux de neurones récurrents [Kim2016, Labiadh2017]. Ces stages de master ont permis de mettre en place le processus d’apprentissage et d’évaluation, de collecter les données nécessaires à l’apprentissage [Vacher2014] et d’obtenir de premiers résultats encourageants avec des réseaux de neurones récurrents. Il nous ont également permis de faire ressortir les voies de recherche suivantes qui constitueront également le plan de développement de l’étude proposée.

  1.  L’approche classique de reconnaissance d’activité vocale consiste en une classification trame par trame [Ramírez2007] d’une granularité bien inférieure à celle d’un énoncé. Il s’en suit un morcellement des décisions au sein même de l’énoncé, c’est pourquoi cette classification est souvent suivie d’un étage de lissage [Hughes2013,Labiadh2017] dont les paramètres sont estimés indépendamment de l’étage de classification. Les réseaux profonds récurrents considérant une séquence de trames en entrée permettent de réduire ce morcellement. Le projet s’intéressera à plusieurs types de réseaux récurrents (LSTM, LSTM bidirectionnel et LSTM avec mécanisme d’attention) ainsi qu’à l’élaboration de plusieurs fonctions de coûts permettant de biaiser l’apprentissage vers la classification de séquences uniformes.
  2. Un autre aspect important dans le projet est de trouver les caractéristiques descriptives du signal pertinentes pour la tâche de détection d’activités vocales. Nous utiliserons les capacités des réseaux de neurones profonds, notamment les CNN (Convolutional Neural Network), pour faire émerger ces caractéristiques pertinentes directement à partir du signal d’entrée. Nous comparerons ensuite les caractéristiques apprises avec les paramètres classiques utilisés pour cette tâche tels que les MFCC (Mel-frequency cepstral coefficients) qui ont une résolution temporelle faible [Vacher2014a].
  3. Enfin, un autre aspect du travail concerne le transfert du modèle appris vers d’autres modalités notamment le traitement audiovisuel [Narvor2017]. Une extension de l’étude consistera à adapter le système mono-voie à une entrée multivoies (mono→ stéréo et mono → mono+video) afin d’étudier la capacité de transfert des réseaux de neurones profonds.

Compétences souhaitées : data mining, notions de traitement du signal, langage C++

Bibliographie
[Barker2017] J. Barker, R. Marxer, E. Vincent, S. Watanabe: The third CHiME speech separation and recognition challenge: Analysis and outcomes. Computer Speech & Language 46: 605-626. 2017
[Elizalde2016] B. Elizalde, A. Kumar, A. Shah, R. Badlani, E. Vincent, B. Raj, I. Lane: Experiments on the DCASE Challenge 2016: Acoustic Scene Classification and Sound Event Detection in Real Life Recording. CoRR abs/1607.06706. 2016
[Narvor2017] P. Narvor, B. Rivet, C. Jutten: Audiovisual Speech Separation Based on Independent Vector Analysis Using a Visual Voice Activity Detector. LVA/ICA. pp 247-257. 2017
[Ramirez2007] J. Ramírez, J. M. Górriz, J. C. Segura. Voice Activity Detection. Fundamentals and Speech Recognition System Robustness. Robust Speech Recognition and Understanding. pp. 1–22. 2007
[Uhghes2013] T. Hughes and K. Mierle. Recurrent neural networks for voice activity detection. In ICASSP, pp. 7378–7382. 2013.
[Kim2016] J. Kim, J. Kim, S. Lee, J. Park, and M. Hahn. Vowel based voice activity detection with LSTM recurrent neural network. In Proceedings of the 8 th International Conference on Signal Processing Systems, pp. 134–137. ACM. 2016.
[Labiadh2017] M. Labiadh. Voice Activity Detection for Voice Controlled Home Automation, thèse de master MOSIG, UGA. 2017.
[Vacher2014] M. Vacher, B. Lecouteux, P. Chahuara, F. Portet, B. Meillon, N. Bonnefond. The Sweet-Home speech and multimodal corpus for home automation interaction. In Proceedings of the 9th edition of the Language Resources and Evaluation Conference (LREC), pp. 4499-4506. 2014
[Vacher2014a] M. Vacher, B. Lecouteux, F. Portet. Multichannel Automatic Recognition of Voice Command in a Multi-Room Smart Home: an Experiment involving Seniors and Users with Visual Impairment. In proceedings of Interspeech 2014, pp.1008-1012. 2014