IA : ces inquiétantes failles de sécurité repérées dans ChatGPT comme dans Bing <!-- --> | Atlantico.fr
Atlantico, c'est qui, c'est quoi ?
Newsletter
Décryptages
Pépites
Dossiers
Rendez-vous
Atlantico-Light
Vidéos
Podcasts
High-tech
Le problème de fond, c’est-à-dire l’empoisonnement des données qui servent à l’intelligence artificielle dans son modèle de prédiction de réponse, est très complexe à gérer.
Le problème de fond, c’est-à-dire l’empoisonnement des données qui servent à l’intelligence artificielle dans son modèle de prédiction de réponse, est très complexe à gérer.
©LIONEL BONAVENTURE AFP

Minute Tech

De récentes analyses laissent à penser que des logiciels comme Chat GPT ou Bing pourraient aisément être hackées à l’aide de prompteurs injectés dans des pages webs.

Loïc Guézo

Loïc Guézo

Fort de 30 ans d'expérience, Loïc Guézo conseille les grandes entreprises sur leurs stratégies de défense en matière de cybersécurité. Depuis 2023, Loïc est Vice-Président du CLUSIF (association de référence de la sécurité du numérique en France, forte de 1200 membres) et par ailleurs Lieutenant-Colonel (RCDS) de la Gendarmerie Nationale, rattaché au commandement de la gendarmerie dans le cyberespace (COMCYBERGEND).
Voir la bio »

Atlantico : De récentes analyses laissent à penser que des logiciels comme Chat GPT ou Bing pourraient aisément être hackées à l’aide de prompteurs injectés dans des pages webs, invisibles à l'œil nu mais tout à fait détectables par une intelligence artificielle. Y a-t-il matière à s’inquiéter, selon vous ?

Loïc Guezo : Il y a effectivement matière à s’inquiéter. Nous observons déjà des détournements d’intelligence artificielle et ces derniers sont de plus en plus documentés. Nous sommes actuellement dans une phase de mise à disposition de ces technologies encore très récentes, ce qui implique cependant qu’il faut nuancer les craintes : dès qu’une nouvelle technologie est introduite, il y a une phase d’adaptation, qui permet de comprendre quels en sont les bons usages. C’est aussi l’occasion d’observer l’inventivité et l’innovation dont feront preuve les assaillants, dans leurs tentatives de détournement de cette même technologie.

Dans le cadre des intelligences artificielles, le potentiel positif est énorme. Les scénarios de détournement sont d’ores et déjà observées et constituent l’équivalent du jailbreaking, constaté sur les iPhones par exemple. Celui-ci permet de libérer l’IA des barrières éthiques (ou autres) que pourrait poser le fournisseur.

D’une façon générale, la période que nous vivons aujourd’hui est assez inédite : les progrès de cette technologie sont explosifs et la visibilité dont elle dispose auprès du grand public relève du jamais-vu. Il s’agit d’une technologie de rupture adoptée en quelques mois, alors que ces modèles mathématiques et les théories informatiques associées remontent à plus de trente ans. La convergence de ces modèles théoriques et de la capacité à les mettre en oeuvre pour le grand public est une première.

Comment une telle faille peut-elle être exploitée pour s’en prendre aux individus et aux usagers de tels logiciels ? Quels sont les risques auxquels ils s’exposent en utilisant de telles technologies ? Faut-il craindre des dangers plus globaux à mesure que l’usage de l’IA ne se démocratise ?

La faille utilisée aujourd’hui est assez simple, sur le plan technique. Elle n’est pas sans rappeler une autre faille, connue de longue date, qui menace certains sites web s’appuyant sur les bases de données de type SQL. La technologie en question, appelée “SQL Injection”, consiste à placer un programme dans une réponse laquelle correspondra à une variable que pourrait choisir un humain à l’aide d’un champ, par exemple. Cette fenêtre permet ensuite de faire passer des commandes qui seront exécutées à l’insu des concepteurs du système.

Dans le cas, plus spécifique, des prompts injections, le détournement consiste à placer un prompt sur un site web et à le rendre invisible à l’oeil humain à l’aide d’une police de petite taille et d’une couleur identique à celle de la page (ce qui signifie, concrètement, que le texte n’apparaît pas à l’écran). Cela n’empêche pas les nouvelles intelligences artificielles, dès lors qu’elles sont connectées sur l’extérieur et peuvent aller chercher des contenus webs actifs, de les lire. En prenant le contenu d’un site web piégé, l’IA exécute alors le prompt caché. 

Une fois que l’intelligence artificielle est piégée, elle tombe sous le contrôle de l’attaquant et on peut alors imaginer tous les détournements possibles. Il serait possible, par exemple, de détourner le fonctionnement même de l’IA en question, d’orienter les réponses qu’elle est en mesure de donner ou de faire sauter les barrières initialement apposées, notamment en termes éthiques. Les résultats fournis deviendraient alors non crédibles.

Le deuxième risque, bien évidemment et c’est vrai dès lors qu’un pirate gagne l’accès à un système informatique susceptible de traiter des données personnelles, c’est celui que l’IA soit utilisée pour extraire des données personnelles. Celles-ci prendront toute leur valeur sur des marchés spécialisés dans la revente de ce type de bien ou au moment de les utiliser au moment d’attaques ciblées contre ces mêmes personnes. Cela comprend aussi les données de cartes de paiement, des logins et des mots de passe, par exemple…

Comme dit précédemment, nous sommes dans une phase de découverte des potentiels de l’intelligence artificielle. Sa démocratisation accentue l’automatisation et la numérisation des processus ainsi que des systèmes de notre société. Quoiqu’il arrive, nous ferons alors face à une démultiplication des risques associés.

En l’état, il ne semble pas exister de moyens fiable pour mettre un terme à une telle faille. Combien de temps faudra-t-il, selon vous, avant de parvenir à sécuriser l’usage d’une telle technologie ? Peut-on espérer en arriver un jour au risque 0 où faisons-nous face à une faiblesse intrinsèque du système ?

Le dispositif de prompt injection masqué sur un site web n’est qu’une technique d’accès. Il est possible de le contrôler et de le patcher assez aisément. En revanche, le problème de fond, c’est-à-dire l’empoisonnement des données qui servent à l’intelligence artificielle dans son modèle de prédiction de réponse, est beaucoup plus complexe à gérer. C’est une problématique liée au modèle même de conception de ces types d’intelligences artificielles.

La question du risque 0 ne se pose pas vraiment. Ce qu’il faut, c’est parvenir à maîtriser ce système pour éviter les dérives qui ont d’ores et déjà pu être constatées. Je pense notamment aux systèmes qu’on a pu voir devenir malpolis, agressifs, racistes, xénophobes ou misogynes, par exemple.

Comment se protéger, en tant qu’usager, en attendant de potentiels correctifs ?

La première mesure de protection, en l’état actuel des choses et de façon générale, est une mesure d’usage. Il faut faire un usage raisonnable de ces technologies, particulièrement dans le monde de l’entreprise, d’ailleurs. Bon nombre de celles-ci commencent d’ailleurs à mettre des gardes-fous et des interdictions pour éviter tout usage non contrôlé de tels outils. Le parallèle avec les dispositifs de traduction automatique, eux aussi basés sur des technologies IA, est évident. Certaines grandes entreprises interdisent l’usage de dictionnaires de traduction en ligne parce que demander une traduction revient, de facto, à envoyer de l’information (potentiellement sensible) à l’extérieur.

Avec une intelligence artificielle comme celle de Chat GPT, le raisonnement à appliquer est le même. Il ne faut pas lui poser n’importe quelle question tant que l’on ne dispose pas de la garantie que les données envoyées dans le cadre de cette question sont bien gérées ; que rien ne met en cause la sensibilité ou la confidentialité de l’entreprise.

En raison de débordements, nous avons fait le choix de suspendre les commentaires des articles d'Atlantico.fr.

Mais n'hésitez pas à partager cet article avec vos proches par mail, messagerie, SMS ou sur les réseaux sociaux afin de continuer le débat !