Bi-lateral Interaction Between Humanoid Robots And Human

Zahra Ramezanpanah

Abstract

In this thesis, we address the issue of recognizing human body language in order to establish a bi-lateral interaction human-robot and robot-robot. New contributions have been made to this research. Our approach is founded on the identification of human gestures based on a motion analysis method that accurately describes motions. This thesis is divided into two parts: gesture recognition and emotion recognition based on the body gestures. In these two parts, we utilize two methods : classical Machine Learning and Deep Learning. In the Gesture Recognition section, we first define a local descriptor based on the Laban Movement Analysis (LMA) to describe the movements. LMA is a method that uses four components to describe a movement: Body, Space, Shape and Effort. Since the only goal in this part is gesture recognition, only the first three factors are utilized. The Dynamic Time Warping (DTW) algorithm is implemented to find the similarities of the curves obtained from the descriptor vectors obtained by the LMA method. Finally, the Support Vector Machine, SVM, algorithm is utilized to train and classify the data. Thanks to normalization process, our system is invariant to the initial positions and orientations of people. By the use of Spline functions, the data are sampled in order to reduce the size of our descriptor and also to adapt the data to the classification methods. Several experiments are performed using public data sets. In the second part of first section, we construct a new descriptor based on the geometric coordinates of different parts of the body in order to characterize a movement. To do this, in addition to the distances between hip center and other joints of the body and the angular changes, we define the triangles formed by the different parts of the body and calculated their area. We also calculate the area of the convex hell encompassing all the joints of the body. At the end we add the velocity of different joints in the proposed descriptor. We used a long short-term memory (LSTM) network to evaluate this descriptor. The proposed algorithm is implemented on two public data sets, NTU RGB+D 120 and SYSU 3D HOI data sets, and the results are compared with those available in the literature. In the second section of this thesis, we first present a higher level algorithm to identify the inner feelings of human beings by observing their body movements. In order to define a robust descriptor, two methods are carried out: the first method is the LMA with the "Effort" factor, which describes a movement and the state in which it was performed. The second one is based on a set of spatio-temporal features. In the continuation of this section, a pipeline of expressive motions recognition is proposed in order to classify the emotions of people through their gestures by the use of machine learning methods (Random Decision Forest, Feed forward Neural Network). A comparative study is made between these two methods in order to choose the best one. The approach is validated with public data sets and our own data set of expressive gestures called Xsens Expressive Motion (XEM). In a second part of this section, we carry out of a statistical study based on human perception in order to evaluate the recognition system as well as the proposed motion descriptor. This allows us to estimate the capacity of our system to be able to classify and analyze human emotions. In this part two tasks are carried out with the two classifiers (the RDF for learning and the human approach for validation).

Dans cette thèse, nous abordons le problème de la reconnaissance du langage corporel humain afin d’établir une interaction bilatérale entre les humains et les robots humanoïde et nous en apportons de nouvelles contributions. Notre approche est fondée sur l’identification de gestes humains, en utilisant une méthode d’analyse de mouvement qui décrit avec précision les mouvements. Cette thèse est constituée de deux parties: la reconnaissance des gestes et la reconnaissance des émotions induites par les gestes. Dans chacun des deux parties, nous mettons en œuvre des méthodes d’apprentissage classiques d’une part et, d’autre part, des méthodes utilisant l’apprentissage profond. Dans la première partie de ce travail, nous avons d’abord défini un descripteur local basé sur l’analyse des mouvements de Laban (LMA), afin de décrire les mouvements. LMA est une méthode permettant de caractériser un mouvement en utilisant quatre composants: Corps, Espace, Forme et Effort. Comme le seul but de cette partie est la reconnaissance gestuelle, seuls les trois premiers facteurs ont été utilisés. L’algorithme Dynamic Time Warping (DTW) est implémenté pour trouver les similitudes des courbes obtenues à partir des vecteurs descripteurs issus de la méthode LMA. Enfin, l’algorithme Support Vector Machine (SVM) est utilisé pour catégoriser les données obtenues. Grâce à la normalisation, notre système est invariant aux positions et orientations initiales des sujets. grâce à l’utilisation des Splines, les données sont échantillonnées afin de réduire la taille des descripteurs et d’adapter les données aux méthodes de classification. Plusieurs expériences utilisant des bases de données publiques ont permis de valider nos choix. Dans un deuxième temps, nous avons construit un nouveau descripteur basé sur les coordonnées géométriques des différentes parties du corps pour présenter un mouvement. Pour ce faire, en plus des distances entre le centre de la hanche et les autres articulations du corps et des changements angulaires dans le temps, nous définissons les triangles formés par les différentes parties du corps et calculons leur aire. Nous calculons également la superficie de l’enveloppe convexe englobant l’ensemble des articulations. À la fin, nous ajoutons la vitesse des différentes articulations dans le descripteur proposé. Nous avons utilisé un réseau de mémoire à long terme (LSTM) pour évaluer ce descripteur. L’algorithme proposé est mis en œuvre sur deux ensembles de données publiques, NTU RGB+D 120 et SYSU 3D HOI, et les résultats sont comparés favorablement avec ceux disponibles dans la littérature. Dans la deuxième partie de cette thèse, nous présentons d’abord un algorithme de haut niveau pour identifier les émotions par l’observation des mouvements corporels. Afin de définir un descripteur robuste, deux méthodes sont mises en œuvre : la première est la méthode LMA, complétée du facteur « Effort » alors que la seconde utilise un ensemble de caractéristiques spatio-temporelles. Un pipeline de reconnaissance des mouvements expressifs est proposé afin de reconnaître les émotions des personnes à travers leurs gestes en utilisant des méthodes d’apprentissage automatique (Random Decision Forest, Feed Forward Neural Network). Une étude comparative est fai te entre ces deux méthodes afin d’en choisir la meilleure. Notre démarche est validée dans un premier temps grâce à des bases de données publiques, puis par la base de données Expressive Motion (XEM) de gestes expressifs, que nous avons créée à partir de notre propre ensemble de données de gestes expressifs issues du capteur XSENS. Enfin, en appuie de XEM, nous décrivons une étude statistique basée sur la perception humaine afin d’évaluer le système de reconnaissance ainsi que le descripteur proposé. Cela nous permet d’estimer la capacité de notre système à classer et à analyser les émotions comme un être humain. Dans cette partie, deux tâches sont effectuées avec les deux classifieurs (le RDF pour l’apprentissage et l’approche humaine pour la validation).

Bi-lateral Interaction Between Humanoid Robots And Human

Interaction Bilatérale Homme-Robots Humanoïdes

Abstract

Keywords

Domains

Dates and versions

Identifiers

Cite

Export

Share