Stage M2R Informatique
Commande vocale à large vocabulaire pour la domotique par apprentissage profond et “word embedding”
Large vocabulary voice command recognition for automation of the home using deep learning and word embedding
Responsable(s) : Michel Vacher, François Portet, Benjamin Lecouteux
Mots-clés : automatic speech recognition, Deep Neural Network, Word Embedding, Home Automation, reconnaissance automatique de Parole, apprentissage profond, représentation vectorielle des mots, domotique
Durée du stage : 5 mois, possibilité de continuer en thèse (financement ANR)
Lieu du stage : équipe GETALP du LIG, bâtiment IMAG, Domaine universitaire de Grenoble
Contexte du stage
Dans le cadre du projet VOCADOM financé par l’ANR, nous cherchons à concevoir un système domotique contrôlé à distance par la voix et qui peut être utilisé dans des conditions réelles (bruit, présence de plusieurs personnes). Outre les problèmes de bruit, l’un des défis à relever est de constamment s’adapter aux utilisateurs finaux en prenant en compte de toute l’information disponible (capteurs audio et capteurs domotiques). L’une de ces adaptions consiste à comprendre l’énoncé de parole des utilisateurs sans
avoir de contrainte sur le vocabulaire et la syntaxe que les utilisateurs utiliseront. Par exemple, l’ordre standard pour allumer la lumière est “Nestor allume la lumière”, mais il pourrait être “Nestor, on n’y voit rien” ou «S’il te plaît Nestor allume la lumière “.
Sujet de stage
Le but de ce stage est de permettre cette association “énoncé vocal” <-> “ordre domotique” avec le minimum de contraintes lexicales et syntaxiques. Des études précédentes ont utilisé une distance phonétique de Levenshtein qui est bien adaptée lorsque les prononciations sont proches. Par conséquent, nous proposons d’opérer non seulement au niveau phonétique mais également au niveau lexical en travaillant sur le treillis de sortie du décodeur du système de reconnaissance vocale.
Le travail proposé consistera en une première étape pour faire une étude bibliographique liées à ce domaine. La deuxième étape consistera à développer une méthode pour explorer le réseau à la sortie du décodeur KALDI ASR. Celle-ci utilisera un modèle externe de mots basés sur le Word Embedding (acquis par apprentissage profond) afin de pouvoir associer un score de proximité entre un énoncé connu et un nouvel énoncé. Le système développé sera ensuite évalué sur un corpus synthétique (construit par synthèse vocale) et sur le corpus enregistré dans l’habitat intelligent du laboratoire.
L’étudiant recruté pourra bénéficier des études antérieures, dans lesquelles les enregistrements ont été faits dans un véritable appartement avec plusieurs chambres, chacune équipée de micros. Les participants y ont joué des scénarios réalistes de la vie quotidienne (AVQ) (dormir, se lever, faire sa toilette, préparer un repas, déjeuner, se détendre, sortir …). Cela nous a permis de recueillir un corpus réaliste contenant les commandes vocales enregistrées dans diverses conditions.
Compétences souhaitées : langage C++, bonne maîtrise de la langue française
Références
M. Vacher, S. Caffiau, F. Portet, B. Meillon, C. Roux, E. Elias, B. Lecouteux, P. Chahuara (2015). “Evaluation of a context-aware voice interface for Ambient Assisted Living: qualitative user study vs. quantitative system evaluation“, ACM – Transactions on Speech and Language Processing, Association for Computing Machinery, 2015, Special Issue on Speech and Language Processing for AT (Part 3), 7 (issue 2), pp.5:1-5:36.
D. Povey, L. Burget, M. Agarwal, P. Akyazi, F. Kai, A. Ghoshal, O. Glembek, N. Goel, M. Karafiát, A. Rastrow, R. C. Rose, P. Schwarz, and S. Thomas (2011). “The subspace gaussian mixture model—a structured model for speech recognition“, Computer Speech & Language, vol. 25, no. 2, pp. 404 – 439.
Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). “A neural probabilistic language model“. Journal of machine learning research, 3(Feb), 1137-1155.