Par dans Le Blog pas de commentaire

Gaspard Breton s’intéresse aux visages et aux émotions humaines depuis vingt ans et a pris la direction de Dynamixyz, société spécialisée dans les effets spéciaux pour le cinéma et les jeux vidéo, depuis six ans. Il explique que généralement, lorsque l’on pense au visage et à ses applications, on imagine des agents conversationnels animés, c’est-à-dire des visages aux représentations humaines dialoguant avec leurs utilisateurs.

En introduction à sa présentation lors de la Digital Tech, Gaspard Breton dévoile le Baby X du Dr. Mark Sagar. Ce Baby X fait beaucoup parler de lui puisqu’il s’agit d’un bébé, et qu’il est doté de capacités de vision, de reconnaissance d’objet, de parole et d’analyse de la voix. Il est ainsi capable de réagir aux stimuli et d’apprendre.

L’objectif est de rendre ce type d’agents le plus complexe possible. Ils sont un concentré de nombreux développements technologiques : analyse, intelligence artificielle, langage naturel, restitution des émotions etc. Ils sont dotés de moteurs d’intelligence artificielle pour « réfléchir » mais aussi de moteurs émotionnels (moins développés), de systèmes d’analyse du langage naturel, de vision, d’une synthèse vocale expressive afin de restituer une réponse de façon naturelle et enfin, d’une animation réaliste du personnage pour obtenir une relation « humaine » entre le personnage et un individu réel. C’est sur ce dernier point que s’attardera le directeur de Dynamixyz.

Dans le domaine du visage, le nœud du problème que le spécialiste soulève est appelé la vallée de l’étrange. Elle correspond au malaise qui peut survenir chez un individu réel lorsqu’un visage n’est pas assez réaliste, c’est-à-dire lorsqu’un agent se rapproche beaucoup de l’humain, mais qu’il n’est pas parfait. A cela Gaspard Breton en déduit l’idée selon laquelle lorsque nous n’avons pas de référence, la tolérance est beaucoup plus grande et l’agent animé est accepté sans difficulté. Mais dès lors que nous nous référons à un humain animé, nous sommes bien plus dérangés. Ainsi, dès lors que l’on « fait » des visages, il faut les faire à la perfection pour ne pas subir la critique.

Le schéma général d’une représentation 3D réaliste d’un visage comprend trois modèles : le modèle d’apparence, de forme et de contrôle.

  • Le modèle d’apparence est appris pour recopier le réel avec des systèmes complexes de photogrammétrie qui vont analyser et enregistrer la façon dont la peau d’une personne peut renvoyer la lumière. En effet, l’objectif est de rendre un grain de peau ou encore les ombres réalistes.
  • Le modèle de forme est quant à lui appris pour recopier le réel en scannant les expressions d’un acteur. Il représente les déformations du visage (les mouvements, les rides etc.). L’idée est de scanner les expressions de cet acteur à travers diverses méthodes comme le scan 3D, le skin and bones (invention d’un squelette et animation de la peau), la stimulation etc.
  • Enfin, le modèle de contrôle est appris à travers la capture de mouvements ou « motion capture », domaine de prédilection de Dynamixyz. Il existe deux écoles : celle basée sur des « marqueurs » ou points placés sur le visage des acteurs souvent dérangés, et celle qui basée sur le Markerless : il s’agit d’une méthode beaucoup plus complexe où chaque pixel de l’image est un capteur pour analyser le visage d’un acteur en temps réel à l’aide d’une caméra embarquée. Bien que moins précise que la première, l’information qu’elle fournit est beaucoup plus dense. Elle permet donc de transférer l’expression sur un visage plus facilement.

Les spectateurs font finalement souvent face à des visages synthétisés sans qu’ils ne s’en rendent compte, grâce à ces trois modèles. Cependant, le modèle de contrôle reste le plus difficile à gérer, et il est important que ces modèles soient à des niveaux de maturité suffisants et équivalents.

Ensuite, il nous dévoile l’une de leurs dernières réalisations avec une entreprise québécoise : une chanteuse virtuelle holographique « Maya Kodes » pilotée en temps réel qui serait susceptible de devenir une réelle popstar. Cette virtualité permet d’adapter la chanteuse et les chansons à tous les pays du monde entier. Malgré tout, certaines analyses restent à être effectuées comme les analyses de mouvement ou d’ombrage.

Source : YouTube – CBC News

Gaspard Breton conclue ensuite en soulignant qu’il est aussi aujourd’hui possible de créer et de naviguer au sein d’un espace expressif d’une personne complète, chaque point représentant une expression (bonheur, tristesse etc.).

Une présentation qui a donné un nouveau visage à l’intelligence artificielle !

LEROUX Maïna et VESPIER Esther

Qu'en pensez vous?