Sur la scène : il y a 4 personnes dans une chambre normale avec une personne au départ hors de l’affichage de la portée. Tout le monde est placé dans une configuration différente et distance variable.
Principales étapes de détection :
1. Nao détecte tout d’abord la personne qui utilise la reconnaissance faciale.
2. ensuite, il utilise une technique de localisation de source sonore originale pour détecter la personne qui parle
3. puis est tourner sa tête vers la personne détectée