Groupe ACA : Agents conversationnels animés Responsables : Sylvie Pesty (MAGMA/LIG), Jean Paul Sansonnet (LIMSI)

Le terme " Agents Conversationnels Animés " (ACA) est la traduction du sigle anglo-saxon ECA (Embodied Conversational Agents) où " Embodied/Animé " [11] réfère à des agents artificiels qui sont dotés d’une personnification multimodale (capacité gestuelle, ex-pression d’émotions, dialogue en langue naturelle, utilisant le graphique, le son...). Les trois termes du sigle ACA permettent de préciser la problématique abordée :

  • Agent : composant autonome capable de raisonnement sur des représentations sym-boliques, en situation, par exemple concernant une tâche dans une application ou un service ;
  • Conversationnel : composant interactif capable d’interactions multimodales (aussi bien linguistiques que physiques (gestes attitudes etc.) ou encore via les événements de l’interface graphique, avec l’usager ;
  • Animé : désigne un composant interactif doté d’une apparence effective face à l’usager, aussi appelé personnification (à ne pas confondre avec la personnalisation qui vise généralement à constituer un profil de l’usager).
Le domaine applicatif général des ACA est celui des personnages virtuels interactifs, pla-cés dans des environnements médiatisés, qui peuvent jouer trois rôles principaux :
  • Assistants : pour accueillir les utilisateurs et les aider à comprendre et à utiliser la structure et le fonctionnement d’applications et de services informatiques ;
  • Partenaires : des acteurs dans des environnements virtuels : partenaire ou adversaire de jeu, participant dans les systèmes de conception participative, membre d’une communauté mixte, etc. ;
  • Tuteurs : des apprenants dans les Environnements Interactifs d’Apprentissage Humain (EIAH), ou des patients dans les systèmes de suivi psychologique/ pathologique, pour le handicap (par exemple, la Langue des Signes Française, l’autisme ...).
Les chercheurs doivent développer des modèles informatiques supportant les différentes fonctions nécessaires à ces agents qui doivent gérer la communication et les émotions à des niveaux perceptifs, rationnels (raisonnement symbolique) et expressifs. Cela nécessite la représentation et la gestion de nombreuses connaissances liées par exemple à la compréhen-sion du comportement des utilisateurs, au raisonnement, et à la génération de comportements multimodaux. Concevoir et évaluer des ACA nécessite des modèles informatiques du com-portement multimodal humain et donc des interactions de l’informatique avec d’autres disci-plines apportant des compétences, par exemple en communication non verbale et protocoles expérimentaux. Une approche pluridisciplinaire est par exemple nécessaire pour collecter, annoter et analyser des comportements multimodaux pouvant compléter de manière plus contextuelle les connaissances générales issues de la littérature en Sciences Humaines.
Au plan pratique, il existe une certaine correspondance entre les classes de personnages virtuels et les grands courants de recherche associés. On distingue trois classes principales, illustrées ci-dessous par des exemples reconnus au niveau international (voir Fig. 2, Fig. 3 et Fig. 4) :

Fig. 2 : GRETA de C. Pélachaud, ENST ParisTech.

Les Têtes Parlantes proposent des agents fixes, réalistes et sont associées à la recherche sur l’expression des émotions et le ’lipsynch’.

Les Agents Déictiques sont des personnages fixes ou ’survolants’ munis de bras permet-tant d’effectuer des gestes de pointage mais aussi des signes en LSF (Langue des Signes Française). Ils sont utilisés principalement dans les systèmes d’éducation et d’assistance.

. Les Agents In situ (aussi appelés ’ghosts’), sont des personnages complets, mobiles, si-tués dans des environnements de réalité virtuelle ou augmentée. Servant à l’apprentissage de l’action (training), ils se développent de plus en plus dans les recherches sur l’ambiant. La recherche sur les ACA se divise en deux grands axes méthodologiques complémentai-res :
  • L’analyse et la modélisation de comportement humains attestés 1) au niveau fin, par exemple à partir de la capture des expressions du visage et 2) au niveau macroscopique, par exemple via l’annotation de séquences vidéo qui servent à informer la spécification des ACAs
  • La synthèse et la production de comportements artificiels. La synthèse concerne la perception, le raisonnement sur le contexte et l’inférence des comportements cognitifs et émotionnels des agents. La production consiste à exprimer les comportements inférés de manière multimodale dans l’interaction avec l’usager.
En ce qui concerne l’analyse de comportement humains et leur reproduction/émulation par des personnages virtuels, les études portent sur la capture et la reconnaissance des phé-nomènes naturels, comme par exemple : les indices de communication co-verbale (expres-sions faciales, gestes co-verbaux ...), voire à un niveau plus élevé les émotions primaires où les attitudes intentionnelles. Cela se fait via la saisie de traces interactionnelles Humain/ Humain puis leur annotation (avec des outils comme ANVIL par exemple) et enfin leur analyse quantitative et qualitative.
A partir de là, des modèles sont proposés qui sont ensuite implémentés et évalués dans des expériences où des usagers ordinaires ont à se positionner vis-à-vis d’un certain nombre de critères d’évaluation, dits objectifs pour les deux premiers (car obtenus par mesures sur les traces informatiques) et dits subjectifs pour les trois derniers (car obtenus par des question-naires qualitatifs des usagers) :
  • Efficacité : mesure de la performance effective du couple usager-agent dans la réali-sation de la tâche.
  • Utilisabilité : facilité et capacité effective qu’a l’usager à bien comprendre comment fonctionne le système et donc à bien le commander.
  • Familiarité : est le " sentiment " qu’a l’usager que le système est agréable à utiliser (attrait, engagement, esthétique, confort).
  • Crédibilité : est le " sentiment " qu’a l’usager que le l’agent peut comprendre ses problèmes et qu’il peut l’aider.
  • Confiance : est le " sentiment " qu’a l’usager que l’agent se comporte comme une entité amicale et coopérative.
Enfin, si on considère l’ensemble de ces critères, au delà de l’apparence (i.e. la personni-fication), c’est avant tout la capacité rationnelle des agents qui permettra dans le futur de réaliser des systèmes efficaces et crédibles. Il faut donc mettre en oeuvre des techniques d’agents intelligents capables d’interagir avec les usagers. Cela débouche sur trois probléma-tiques complémentaires :
  • Les agents doivent être des entités capables de raisonner sur des représentations symbo-liques, i.e. desmodèles de l’application concernés, de la tâche en cours, et ceci selon diffé-rents modes/rôles (agent compagnons de jeu, agents tuteurs d’enseignement, agents servi-teurs - ’butlers’ à la P.Maes’ [36] etc.). Pour cela, il leur faut aussi être muni d’un modèle de l’usager et d’un modèle de la session d’interaction.
  • les agents doivent être capables de dialoguer avec les usagers soit de manière ’artifi-cielle’ via une GUI (Graphical User Interface) soit de manière ’naturelle’ en employant la langue comme modalité première. Ceci débouche sur la problématique de " agents dialogi-ques ", liée au Traitement de la Langue Naturelle, par exemple pour la prise en compte de requêtes d’assistance exprimées sous forme textuelle.
  • Enfin, Les agents doivent être capables de se " comporter de manière naturelle ", sur-tout dans le cas où la personnification est forte. Il faut alors qu’à l’agent rationnel, se super-pose un agent comportemental qui exprime des attitudes intentionnelles, voir des émotions [35].

  • [11] J. Cassell, J. Sullivan, S. Prevost, E. Churchill, Embodied Conversational Agents,MIT Press. 0-262-03278-3, 2000
  • [35] L. Lester et al. The Persona Effect : Affective impact of Animated Pedagogical Agents. CHI’97, 1997

Accueil  | Actualités  | Groupes  | Equipes  | Livres  | Cours  | HDRs / Thèses  | JFSMA  | Liens  | 


GDRI3 CNRS


Modifié en par Cédric Herpson