Cinq ans après le lancement de l’objet connecté Echo de première génération par Amazon, les assistants vocaux sont très répandus mais relativement peu utilisés au bout du compte si ce n’est pour faire sonner le réveil matinal, obtenir la météo du jour ou jouer un morceau de musique. Il faut dire que les promotions permanentes d’Amazon et de Google, d’autant plus à Noël, n’y sont pas pour rien. Au-delà de développer toujours plus de canaux pour vendre des produits issus de sa place de marché, quitte à essuyer de cuisants échecs comme avec lancement de son smartphone Fire, Amazon n’aurait-il pas d’autres ambitions plus cachées ?
Assistants vocaux, un marché en pleine croissance
Selon une étude récente de juillet 2019 du cabinet Roland Berger communiquée par LSA, le nombre d’utilisateurs français d’assistants vocaux est estimé à 20 millions. Bien que la maturité du marché français ne soit pas la même qu’aux Etats-Unis, les enceintes vocales comptabilisent dans l’Hexagone 1,7 million d’utilisateurs, avec 600 000 unités vendues au cours de l’année 2018. A l’échelle mondiale, la tendance va s’accélérer avec une croissance annuelle de 25% jusqu’en 2023 pour atteindre 8 milliards d’assistants vocaux en circulation dans cinq ans. Et l’Asie dépasserait les Etats-Unis.
Dans la bataille commerciale qui s’est engagée entre les plus grandes entreprises technologiques américaines et chinoises, le gagnant n’est pas celui que l’on croit. Selon LSA toujours, « en matière de systèmes installés, Apple reste pour l’instant leader mondial avec Siri, qui est aussi l’assistant le plus international, ou plutôt le moins centré sur les Etats-Unis, avec seulement 24% d’assistants intégrés à des appareils en Amérique du Nord fin 2016, contre 95% pour Alexa ou son compatriote Google Assistant. Cependant les firmes asiatiques pointent plus que le bout de leur nez. Baidu a commercialisé son assistant vocal sur 200 millions d’appareils, contre 100 millions pour Alexa d’Amazon sur la même période. »
Alexa est désormais distribuée partout, capable de contrôler plus de 85 000 produits pour la maison intelligente, des téléviseurs aux sonnettes en passant par les écouteurs. Il peut exécuter plus de 100 000 «compétences» et compter. Il traite des milliards d’interactions par semaine, générant d’énormes quantités de données sur votre emploi du temps, vos préférences et vos allées et venues. L’heure n’est plus de savoir si les capacités d’Alexa sont meilleures ou moins bonnes que celles de l’assistant de Google. Alexa n’est peut-être pas à sa hauteur mais il est en phase avec les usages pour l’intant. Alexa est devenue un empire et Amazon ne fait que commencer.
Amazon veut faire d’Alexa un compagnon omniprésent qui façonne et orchestre activement votre vie.
Un récent article de la MIT Technology Review amène des précisions très intéressante concernant les projets d’Amazon. Rohit Prasad, VP et scientifique en chef d’Alexa, leur a révélé de plus amples détails sur la prochaine direction d’Alexa. De nombreuses personnes parmi vous ne pratiquant pas la langue de Shakespeare, je vous ai traduit ici partiellement cet article afin que vous puissiez mieux comprendre ces évolutions récentes dans la stratégie adoptée par Amazon. En substance, l’essentiel du plan est que l’assistant vocal passe des interactions passives aux interactions proactives.
Plutôt que d’attendre et de répondre aux demandes, Alexa anticipera ce que l’utilisateur pourrait vouloir. L’idée est de faire d’Alexa un compagnon omniprésent qui façonne et orchestre activement votre vie. Cela nécessitera qu’Alexa vous connaisse mieux que jamais.
Rohit Prasad, VP et scientifique en chef d’Alexa
En fait, Prasad, qui a exposé sa vision de l’avenir d’Alexa au WebSummit à Lisbonne, au Portugal, en novembre 2019, a donné au monde un aperçu de ce à quoi pourrait ressembler ce changement. En juin, lors de la conférence re: Mars, il avait déjà présenté une fonctionnalité appelée Alexa Conversations, montrant comment elle pourrait être utilisée pour vous aider à planifier une soirée. Au lieu de lancer manuellement une nouvelle demande pour chaque partie de la soirée, il vous suffit de commencer la conversation, par exemple en demandant de réserver des billets de cinéma. Alexa ferait ensuite un suivi pour vous demander si vous vouliez également faire une réservation au restaurant ou appeler un Uber.
Pour accélérer cette transition, Amazon a besoin à la fois de matériel et de logiciels. En septembre, le géant de la technologie a lancé une suite de produits Alexa «on the go», dont les Echo Buds (écouteurs sans fil) et Echo Loop (une bague intelligente).
Tous ces nouveaux produits permettent à Alexa d’écouter et de consigner des données sur une partie considérablement plus grande de votre vie, pour mieux offrir une assistance informée de vos allées et venues, de vos actions et de vos préférences.
Rohit Prasad, VP et scientifique en chef d’Alexa
Du point de vue logiciel, ces capacités nécessiteront qu’Alexa utilise de nouvelles méthodes pour traiter et comprendre toutes les sources d’informations disparates. Au cours des cinq dernières années, l’équipe de Prasad s’est concentrée sur le renforcement de la maîtrise des fondamentaux de l’IA par l’assistant, comme la reconnaissance vocale et vidéo de base, et sur l’élargissement de sa compréhension du langage naturel. En plus de cette fondation, ils ont maintenant commencé à développer les capacités intelligentes de prédiction et de prise de décision d’Alexa et, de plus en plus, sa capacité de raisonnement de plus haut niveau. En d’autres termes, l’objectif est que les capacités d’IA d’Alexa deviennent beaucoup plus sophistiquées en quelques années.
Objectif : rendre Alexa plus intelligente
Voici comment les mises à jour logicielles d’Alexa peuvent être mutualisées pour exécuter un scénario de sortie nocturne. Afin de répondre à une demande d’achat de billets de cinéma suivis d’un dîner avec des amis et d’une réservation d’un Uber, un réseau de neurones apprend, grâce à des milliards d’interactions avec les utilisateurs par semaine, à reconnaître les Skills couramment utilisées les unes avec les autres. C’est ainsi que la prédiction intelligente entre en jeu. Lorsque suffisamment d’utilisateurs réservent un dîner après un film, Alexa regroupera les Skills et les recommandera conjointement. Pour rappel, les Skills sont les applications vocales conçues par des entreprises ou marques qui permettent aux internautes d’effectuer des tâches du quotidien en interagissant naturellement avec leurs contenus par la voix via Alexa.
Mais le raisonnement est nécessaire pour savoir à quelle heure réserver le Uber. En tenant compte de votre emplacement et de l’emplacement du cinéma, de l’heure de début de votre film et du trafic attendu, Alexa détermine quand la voiture devrait venir vous chercher pour vous y rendre à l’heure.
Prasad imagine de nombreux autres scénarios qui pourraient nécessiter un raisonnement plus complexe. Vous pourriez imaginer un Skill, par exemple, qui vous permettrait de demander à vos Echo Buds où se trouvent les tomates pendant que vous vous trouvez dans Whole Foods. Les Buds devront enregistrer que vous êtes dans le Whole Foods, accéder à une carte de son plan d’étage, puis vous dire que les tomates sont dans l’allée sept. C’est dire tout le potentiel de business envisageable grâce à la stratégie d’intégration, de rachat ou de partenariats avec d’autres acteurs comme la chaîne Whole Foods (rachetée par Amazon) ou Monoprix (partenariat avec le groupe Casino).
Dans un autre scénario, vous pourriez demander à Alexa depuis votre domicile via Echo de vous envoyer une notification si votre vol est retardé. Au moment de le faire, vous conduisez peut-être déjà. Alexa doit se rendre compte (en identifiant votre voix dans votre demande initiale) que vous, pas un colocataire ou un membre de la famille, avez besoin de la notification et, sur la base du dernier appareil compatible Echo avec lequel vous avez interagi, que vous êtes maintenant dans votre voiture. Par conséquent, la notification devrait être faite dans votre voiture plutôt qu’à votre domicile.
Ce niveau de prédiction et de raisonnement devra également prendre en compte les données vidéo, car de plus en plus de produits compatibles Alexa incluent des caméras. Disons que vous n’êtes pas à la maison, pense Prasad, et une éclaireuse scout frappe à votre porte pour vendre des cookies. L’Alexa sur votre Amazon Ring, une sonnette équipée d’une caméra, devrait enregistrer (via une entrée vidéo et audio) qui est à votre porte et pourquoi, et, sachant que vous n’êtes pas à la maison, vous envoyer une note sur un appareil Alexa à proximité vous demandant combien de cookies vous voulez, et les commandez en votre nom. Bon là, il faut reconnaître que ce scénario est loin d’être le plus probable, surtout en dehors des États-Unis.
Pour rendre cela possible, l’équipe de Prasad teste actuellement une nouvelle architecture logicielle pour le traitement des commandes utilisateur. Cela implique de filtrer les informations audio et visuelles à travers de nombreuses autres couches. Alexa doit d’abord enregistrer le Skill auquel l’utilisateur tente d’accéder parmi les quelque 100 000 disponibles. Ensuite, il devra comprendre la commande dans le contexte de l’identité de l’utilisateur, de l’appareil utilisé par cette personne et de son emplacement. Enfin, il devra affiner la réponse sur la base des préférences précédemment exprimées par l’utilisateur.
« Voici ce que sera selon moi l’enjeu dans les prochaines années : (apprendre à mieux) raisonner et rendre (le raisonnement) plus personnalisé, avec plus de contexte», explique Prasad. « C’est en somme rassembler toutes les données possibles pour prendre des décisions en masse. »
Une limite : l’acceptation de l’utilisation des données personnelles par Alexa
D’un point de vue technique, tout cela serait une réalisation incroyable. Ce dont Prasad parle – combiner diverses sources de données et méthodes d’apprentissage automatique pour mener un raisonnement de haut niveau – est un objectif des chercheurs en intelligence artificielle depuis des décennies.
Du point de vue du consommateur, cependant, ces changements ont également des implications critiques en matière de confidentialité. La vision de Prasad exposée dans l’article de la MIT Technology Review suppose effectivement qu’Alexa vous suivra partout, connaîtra assez bien ce que vous faites à un moment donné et sera l’interface principale pour la façon dont vous coordonnez votre vie. À la base, cela nécessite de ramasser d’énormes quantités de détails intimes sur votre vie. Certains craignent qu’Amazon n’aille finalement au-delà de cette base de référence en utilisant vos données pour faire de la publicité et vous profiler.
«Il s’agit en fin de compte de monétiser la vie quotidienne des individus et des groupes de personnes», explique Jeffrey Chester, directeur exécutif du Center for Digital Democracy, une organisation de défense de la vie privée des consommateurs basée à Washington, DC.
Rohit Prasad, VP et scientifique en chef d’Alexa
Lorsqu’il a insisté sur ce point, Prasad a souligné que son équipe avait facilité la suppression automatique de leurs données par les utilisateurs et leur retrait de l’examen humain. Cependant, aucune des deux options n’empêche les données d’être utilisées pour former la myriade de modèles d’apprentissage automatique d’Alexa. En fait, Prasad a fait allusion à des recherches en cours qui feraient passer le processus de formation d’Alexa à un processus où les modèles peuvent être rapidement mis à jour chaque fois qu’il y a de nouvelles données utilisateur, garantissant plus ou moins que la valeur de ces données sera capturée avant d’être éliminée. En d’autres termes, la suppression automatique de vos données signifie uniquement qu’elles ne seront toujours pas là pour former les futurs modèles une fois les algorithmes de formation mis à jour; pour les modèles actuels, vos données seraient utilisées à peu près de la même manière. (Dans les demandes de suivi, un porte-parole d’Amazon a déclaré que la société n’avait pas vendu les données collectées par Alexa à des annonceurs tiers ni à cibler la publicité, sauf si l’utilisateur accédait à un service via Alexa, comme Amazon.com.)
Jen King, directrice de la protection de la vie privée au Center for Internet and Society de la Stanford Law School, estime que ces types de contrôle des données sont beaucoup trop superficiels. «Si vous voulez donner aux gens un contrôle significatif, vous devez être en mesure de respecter leur décision de se retirer complètement ou de leur donner plus de choix sur la façon dont leurs données sont utilisées», dit-elle. « Apporter une aide fonctionnelle en fonction d’un contexte local pourrait se faire d’une manière extrêmement respectueuse de la vie privée. Je ne pense pas que ce scénario doit être intrinsèquement problématique. »
En pratique, King envisage que cela signifie plusieurs choses. Tout d’abord, au minimum, Amazon devrait demander aux utilisateurs de choisir plutôt que de refuser de laisser leurs données être utilisées. Deuxièmement, Amazon devrait être plus transparent quant à son utilisation. Actuellement, lorsque vous supprimez vos données, ce que l’entreprise a peut-être déjà fait n’est pas clair.
« Imaginez que vous ayez une caméra de surveillance AI dans votre maison et que vous avez oublié qu’elle était allumée et que vous vous promeniez nue dans la maison », dit-elle. « En tant que consommateur, il serait utile de savoir, lorsque vous supprimez ces fichiers, si le système les a déjà utilisés pour former l’algorithme qu’il utilise. »
Jen King, directrice de la protection de la vie privée au Center for Internet and Society de la Stanford Law School
Enfin, Amazon devrait donner aux utilisateurs plus de flexibilité quant au moment et à l’endroit où ils peuvent utiliser leurs données. Les utilisateurs peuvent être heureux, par exemple, de renoncer à leurs propres données tout en voulant que leurs enfants soient hors limites. «Les entreprises technologiques ont tendance à concevoir ces produits avec cette idée que c’est tout ou rien», dit-elle. «Je pense que c’est une façon vraiment peu judicieuse de l’aborder. Les gens peuvent vouloir une partie de la valeur ajoutée de ces systèmes, mais cela ne signifie pas qu’ils les veulent dans tous les aspects de leur vie. «
La vision ultime de Prasad est de rendre Alexa disponible et utile pour tout le monde. Même dans les pays en développement, il imagine des versions moins chères auxquelles les gens peuvent accéder sur leur smartphone. «Pour moi, nous sommes en train de déplacer la charge cognitive sur les tâches de routine», dit-il.
« Je veux qu’Alexa soit un améliorateur de productivité … pour être vraiment omniprésent afin qu’il fonctionne pour tout le monde. »
Rohit Prasad, VP et scientifique en chef d’Alexa