IA, machine learning, chatbots… sans contenu, point de salut

Comme le montre l’exemple du robot «fou» de Microsoft sur Twitter, l’intelligence artificielle est avant tout une question de données. Sans contenu fiable et sérieux, les algorithmes ne peuvent produire les effets escomptés.

Les thématiques autour du machine learning, des algorithmes d’apprentissage automatiques, ou plus largement de l’intelligence artificielle déchaînent les passions sur la toile ces derniers mois.

Ces technologies existent depuis longtemps mais connaissent depuis quelques années à peine un essor particulièrement important, et sont ainsi aujourd’hui de plus en plus sophistiquées et performantes.

De nombreux acteurs du numérique se sont mis à investir dans la recherche dédiée à ces technologies, y compris les géants comme Google ou Facebook. Le cabinet de recherche TechSci Research promet d’ailleurs une croissance de 75% pour le secteur de l’Intelligence Artificielle sur la période 2016-2021.

L’IA est désormais utilisée dans de nombreux domaines, et notamment dans la gestion des interactions automatisées dans des contextes de relation client : on parle alors de chatbots ou robots conversationnels. TechSci Research annonce qu’un tiers des américains a déjà utilisé cette technologie au travers de ce nouveau genre d’assistants personnels.

La priorité, c’est la donnée

Différentes expérimentations ont conduit à créer un certain nombre de mythes autour de l’intelligence artificielle, et notamment autour de ses facultés auto-apprenantes qui ont parfois tendance à effrayer. On peut bien sûr citer la victoire de la machine AlphaGo face à Lee Sedol, le champion du jeu de Go, qui fait fantasmer sur la capacité des machines à surpasser les humains.

La machine est pourtant programmée par l’humain et est dépendante de lui pour fonctionner efficacement. Autre exemple, au printemps dernier, Microsoft a réalisé une expérimentation de machine learning avec un chatbot auto-apprenant au fur et à mesure des interactions avec les internautes sur Twitter. On ne peut parler de réussite, l’auto-apprentissage sans filtre humain ayant mené le bot Tay à tenir des propos racistes.

Vers toujours plus de contenu

Pourtant, l’IA n’est pas synonyme de magie mais bien de données (et donc de contenu), de mathématiques, d’itérations et de modèles.
L’algorithme est certes important pour disposer d’un moteur conversationnel performant, mais c’est le contenu qui est véritablement fondamental. Ce contenu peut se trouver sous la forme de textes, d’images, de vidéos ou d’audio.

Le bot puisant ses réponses dans une base de connaissances, la quantité et la qualité des données sont essentielles pour fournir des réponses automatisées précises et adaptées. Plusieurs sources peuvent alimenter ce contenu. Une base de connaissances incomplète peut apporter une expérience déceptive à l’utilisateur du fait de réponses incomplètes ou approximatives, voire inexistantes.

Triompher de l’ambiguïté

Le robot conversationnel doit également être capable de « désambiguïser » la question posée si la formulation employée par l’utilisateur lui est inconnue ou trop vague. Dans ce cas, il fait des propositions à l’utilisateur pour être en mesure de déterminer avec plus de précision la question ou le cas qui le concerne.

Cette phase de désambiguïsation provient à la fois de la pertinence du moteur sous jacent mais aussi du travail effectué sur la base de connaissances. En effet, certaines requêtes peuvent avoir de multiples sens, par exemple pour une demande telle que « transférer mon contrat » : l’utilisateur souhaite-t-il changer le nom du souscripteur ou bien s’agit-il d’un déménagement ?

Il est fondamental d’éviter des contre-sens ou de répondre de manière top peu précise. En utilisant des mécaniques fondées sur le concept de « grammaire émergente » définie par Hopper[1], ou sur de l’auto-apprentissage à partir de l’intelligence collective (clics d’utilisateurs sur les mêmes propositions suite à une incompréhension), ou encore sur des algorithmes dedeep learning, les moteurs peuvent faire des suggestions pertinentes aux administrateurs de contenus pour que ceux-ci puissent gérer efficacement les bases de connaissances de leur chatbot.

Vers des robots toujours plus autonomes

La majorité des chatbots que nous utilisons sont verticaux et offrent ainsi un niveau de connaissances profond sur une thématique précise mais limitée. A titre d’exemple, un chatbotdédié à la consommation énergétique va puiser ses réponses sur une base de données de dizaines de milliers de formulations différentes de questions. Si l’on en croit la loi de Moore, la vitesse de traitement de l’information est multipliée par 2 tous les 2 ans. On peut facilement imaginer que demain les bots seront de plus en plus généralistes et autonomes, au point de s’adapter au sujet et au ton employé en fonction du contexte.

Actuellement, les connaissances doivent provenir de contenus structurés ou bien la structuration automatisée doit être assistée par les administrateurs de contenus. Répondre très précisément et pertinemment à une question est très souvent une problématique plus compliquée qu’il n’y paraît dès lors que la réponse doit tenir compte de paramètres tels que le profil de l’utilisateur, son type d’abonnement ou de produit, le lieu géographique d’où sa question est posée, depuis quel appareil… Mais inéluctablement,  la machine pourra bientôt construire sa base de connaissances seule, à partir de contenus externes non structurés. Elle sera donc capable de lire, comprendre et structurer elle-même ce contenu.

Se pose alors la question de l’encadrement de l’AI. Allons-nous légiférer pour fixer les règles d’autonomie de l’AI et lister des champs d’applications interdits ? L’humain doit-il la superviser en permanence ?
Cette question connait déjà sa réponse. Comme il existe un droit des télécommunications, de l’énergie ou encore de l’informatique, une catégorie juridique « robot » ou « intelligence artificielle » verra le jour, comme l’écrivaient Alain Bensoussan et Jérémy Bensoussan dans leur livre «Droit des Robots».