Les crises de nerfs avec Siri c’est (bientôt) fini, l’énorme progrès des outils de reconnaissance vocale<!-- --> | Atlantico.fr
Atlantico, c'est qui, c'est quoi ?
Newsletter
Décryptages
Pépites
Dossiers
Rendez-vous
Atlantico-Light
Vidéos
Podcasts
High-tech
Johan Schalkwyk, chercheur spécialisé dans la reconnaissance vocale (et l’intelligence artificielle) au sein de Google travaille sur un projet qui devrait permettre à nos smartphones de percevoir tout un ensemble d’informations implicites.
Johan Schalkwyk, chercheur spécialisé dans la reconnaissance vocale (et l’intelligence artificielle) au sein de Google travaille sur un projet qui devrait permettre à nos smartphones de percevoir tout un ensemble d’informations implicites.
©

Her

Les programmes de reconnaissance vocale ne vont plus se contenter d'identifier des mots et des phrases, bientôt ils pourront percevoir nos émotions.

Jean-Gabriel Ganascia

Jean-Gabriel Ganascia

Jean-Gabriel Ganascia est professeur à l'université Pierre et Marie Curie (Paris VI) où il enseigne principalement l'informatique, l'intelligence artificielle et les sciences cognitives. Il poursuit des recherches au sein du LIP6, dans le thème APA du pôle IA où il anime l'équipe ACASA .
 

Voir la bio »

Atlantico : Johan Schalkwyk, chercheur spécialisé dans la reconnaissance vocale (et l’intelligence artificielle) au sein de Google travaille sur un projet qui devrait permettre à nos smartphones de percevoir tout un ensemble d’informations implicites. Où en est-on en matière de reconnaissance vocale? Quels sont les derniers avancements en la matière chez Google?

Jean-Gabriel Ganascia : La reconnaissance vocale a connu de nombreux développements depuis plus d’un demi-siècle. Le film de Stanley Kubrick, "2001, l’Odyssée de l’espace", y faisait déjà référence il y a tout juste cinquante ans, en 1965, lorsque le scénario en fut écrit, trois ans avant sa sortie sur les écrans. Sans doute, à l’époque, c’était de la science fiction et seuls quelques laboratoires de recherche travaillaient sur le sujet. Depuis, les techniques ont considérablement progressé au point que n’importe quelle tablette ou smartphone dispose désormais d’un logiciel de reconnaissance de la parole possédant d’assez bonnes performances. Notons toutefois que l’efficacité dépend grandement du contexte d’usage : selon que les mots sont considérés isolément ou dans une phrase, selon que le locuteur parle seul ou qu’il se trouve environné d’autres, voire parasité de bruits divers, selon enfin que le système s’habitue au mode d’expression de ses partenaires, en ayant recours à des techniques d’apprentissage machine, les performances changent considérablement. Dans toutes ces situations, les progrès sont dus à une meilleure compréhension de ce qui fait sens dans la parole articulée et surtout à l’utilisation d’algorithmes d’apprentissage qui améliorent la qualité des résultats. De ce dernier point de vue, la société Google dispose d’un avantage stratégique majeur : chaque fois qu’une personne utilise son logiciel, elle profite des données enregistrées pour améliorer ses performances.

Il y a quelques mois le système de Google de reconnaissance vocale était encore tâtonnant. Quels sont les éléments que Google utilise aujourd'hui pour améliorer ce système?

Il apparaît clair que les progrès faits par Google dans son système de reconnaissance vocal tiennent à l’emploi de techniques d’apprentissage machine sur de grandes masses de données. Cela correspond à ce que l’on appelle les Big Data : non seulement les quantités de données collectées sont immenses, mais de plus, Google possède le retour des utilisateurs qui indiquent, soit explicitement, par la satisfaction qu’ils expriment, soit implicitement, par leur comportement, que la compréhension par le système informatique qu’elle a développé a été correcte ou non. Grâce à ces retours, Google possède, outre des sommes colossales d’échantillons de voix humaines, ce que n’importe quel opérateur téléphonique aurait pu collecter, mais aussi des annotations qui précisent la transcription de tous ces échantillons. Ces dernières sont essentielles pour la mise en œuvre des techniques d’apprentissage machine grâce auxquelles les outils de reconnaissance vocale s’améliorent automatiquement.

Que vont permettre les dernières avancées technologiques ?

Les applications potentielles de ces dispositifs sont innombrables. Citons, parmi les plus évidentes la dictée vocale ou la tenue d’un agenda, ce qui remplace partiellement l’emploi d’une secrétaire dans nombre d’activités, la commande de robots, en particulier dans les situations délicates lorsque les mains sont occupées par autre chose comme pendant la conduite automobile, les requêtes vocales à une base de données, le dialogue avec un agent intelligent, la transcription automatique de conversations, etc.

Ajoutons que la reconnaissance de la parole ne se limite pas à la transcription du message : il est aussi possible d’identifier une personne à partir du timbre et du grain de sa voix, voire de percevoir son état émotionnel, anxiété, indifférence, joie, etc. Toutes ces informations aideront certainement à concevoir de nouvelles interfaces homme-machines personnalisées très surprenantes.

La lenteur relative des ordinateurs tenait à distance le rêve de voir un utilisateur discuter avec une intelligence artificielle. Cela va-t-il changer ? Sera-t-il bientôt plus agréable de converser avec son ordinateur qu'avec un ami ?

Aujourd’hui, plus rien ne s’oppose à des dialogues avec les machines, d’autant plus qu’elles peuvent identifier notre état émotif. Ce que l’on appelle, en termes techniques, les "agents conversationnels" ou, plus communément les "robots bavards", traduction littérale de l’anglais chatbots — de chat, "papoter", et bot, diminutif de robot —, tiennent des conversations dans des situations ordinaires, par exemple pour renseigner les utilisateurs d’un service web. Beaucoup d’efforts ont été poursuivis ces dernières années pour réaliser de tels agents. Des sociétés privées en commercialisent. Il existe même un concours — le Loebner prize — qui récompense chaque année un "robot bavard" considéré comme le "meilleur". Toutefois, sur des durées de plus de quelques minutes, on est loin d’obtenir des dialogues convaincants qui ne lassent pas leurs interlocuteurs. Ainsi, si l’on construit d’ores et déjà des agents conversationnels susceptibles de remplacer, avec plus ou moins de succès, des hôtesse d’accueil sur des sites internet, il apparaît illusoire d’entretenir une véritable amitié avec de tels agents.  En cela le film Her de Spike Jonze, qui est sorti sur les écrans en 2014 et qui montrait un agent conversationnel féminin dont le héros tombait éperdument amoureux, apparaît encore comme de la science fiction.

Ces avancées et possibilités constituent-elles plus généralement des menaces pour les relations sociales ? Ont-elles des limites ?

S’il est difficile de croire que des agents conversationnels remplacent un jour prochain nos amis au point que nous n’ayons plus besoin d’échanger avec eux, on peut craindre que les menus prétextes que l’on saisissait pour entrer en contact avec des inconnus dans la rue et pour amorcer une conversation avec eux disparaissent, puisque nous serons désormais censés demander exclusivement à notre chaperon virtuel de nous renseigner... Au lieu de recommander de tourner sept fois sa langue dans sa bouche avant de parler, on conseillera éventuellement aux enfants de poser sept fois la question à leur agent virtuel avant de s’exprimer, car toute requête non motivée apparaîtra comme intrusive... Dès lors, le seul prétexte à la conversation gratuite dans la rue qui tiendra sera peut-être le chien à l’heure de la promenade. Et, plus que les agents conversationnels, il se peut ce dernier reste ce qu’il a toujours été, le meilleur ami de l’Homme.

En raison de débordements, nous avons fait le choix de suspendre les commentaires des articles d'Atlantico.fr.

Mais n'hésitez pas à partager cet article avec vos proches par mail, messagerie, SMS ou sur les réseaux sociaux afin de continuer le débat !