Pourquoi Apple, Google, Amazon et Microsoft se livrent une guerre féroce afin d’être l’opérateur qui sera en mesure d’écouter tout ce qui se dira dans les foyers ? Encore balbutiants, les assistants vocaux sont imposés à grands coups d’opérations marketing. En partenariat avec le Shadok, Rue89 Strasbourg décortique ces petits boitiers jeudi soir lors d’une soirée d’échanges avec Emmanuel Vincent et Véronique Routin, deux experts des enjeux derrière ces applications d’interactions vocales.
Emmanuel Vincent est chercheur à l’Inria, membre de l’équipe Multispeech. Dans le cadre du programme européen Comprise, il a trois ans pour développer la prochaine génération d’outils d’interaction vocale.
Rue89 Strasbourg : Emmanuel Vincent, quel est le but du programme Comprise et pourquoi la recherche publique s’intéresse aux assistants vocaux ?
Emmanuel Vincent : Comprise est une réponse à un appel à projets européen. On s’est rendus compte que les outils d’interaction vocale existants avaient des biais en faveur des langues les plus utilisées, en raison notamment du coût de la collecte des données vocales nécessaire. Avec Comprise, notre objectif est de proposer une technologie qui fera baisser le coût de cette collecte, afin de permettre aux applications d’intégrer plus facilement des langues moins utilisées que l’anglais, voire des dialectes. En outre, les applications d’interactions vocales posent d’importants enjeux en terme de vie privée, Comprise a l’ambition de proposer une méthode industrielle respectant ces enjeux.
« Il est souhaitable et possible de traiter le signal depuis le terminal »
Placer un micro et être sans cesse écouté chez soi, il était évident qu’il y aurait un problème de vie privée, non ?
Le principal problème est que les assistants vocaux actuels utilisent beaucoup Internet pour répondre aux requêtes, ce qui implique une transmission du signal. Nous pensons qu’il est souhaitable et possible de traiter la requête depuis le terminal, c’est à dire bien souvent le téléphone. Ceci évite l’envoi des données à un opérateur dont les pratiques pourraient ne pas être éthiques et limite la possibilité d’un vol.
Il y aurait des traitements contraires à l’éthique dans les assistants vocaux ?
On n’en sait rien en fait. Mais la voix transmet beaucoup plus d’informations que le simple message. Il y a d’abord l’identité vocale d’une personne, la capacité de reconnaître quelqu’un formellement, son état actuel, s’il est agité, essoufflé, énervé… mais aussi son état de santé peut être détecté. Et puis il y a l’environnement sonore autour du locuteur, qui peut également être analysé. Toutes ces informations sont envoyées par les assistants vocaux, et traitées, sans que l’on sache vraiment ce qui en est fait.
« Et si les assistants vocaux s’imposaient en réglant la cacophonie des objets connectés ? »
Rue89 Strasbourg : Véronique Routin, pourquoi la Fondation Internet nouvelle génération (FING) s’est intéressée aux assistants vocaux ?
Véronique Routin : La FING a vocation à éclairer ses partenaires et le grand public sur l’état et les usages des technologies du numérique. Avec les assistants vocaux, dans le cadre du programme Hypervoix, nous nous sommes posés des questions sur leurs emplois possibles dans une série de scénarios explorant l’avenir proche. Il y a l’apprentissage par exemple, qui semble être un secteur évident pour les assistants vocaux mais nous pensons qu’ils pourraient trouver leur utilité au centre du foyer, comme régulateurs de la cacophonie des objets connectés.
Avec leurs applications et leurs protocoles concentrés, les assistants vocaux forcent tout un écosystème d’appareils à communiquer entre eux. C’est un gros avantage mais qui pose d’importantes questions en termes de vie privée et sur nos rapports, à nouveau entre les mains des géants de la Silicon Valley…
Est-ce que les assistants vocaux vont à nouveau enfermer leurs utilisateurs dans une bulle ?
Pour l’instant, les assistants vocaux ne proposent qu’une seule réponse aux requêtes, lorsqu’elles sont comprises. Et c’est la première réponse qui est appliquée même si l’utilisateur, s’il avait eu le choix entre une dizaine de réponses, aurait peut-être opté pour la deuxième ou la troisième…
Donc oui, au delà des écosystèmes d’applications déjà fermés par les opérateurs, il y a des enjeux en termes d’ouverture et de possibilités sur les réponses apportées par ces appareils.
Est-ce que ces enjeux sont connus ?
Des spécialistes oui, du grand public un peu moins. C’est pourquoi nous pensons qu’il est important que les gens apprennent à connaître ces technologies qui nous écoutent, et comprennent comment elles fonctionnent. On devrait savoir à tout moment quand elles sont activées par exemple, ce n’est pas forcément évident à l’heure actuelle… Certains objets sont en train d’invisibiliser ces technologies, ce qui pose quand même de nouvelles questions…
Chargement des commentaires…