Il y a quelques mois, Valen Tagliabue était assis dans sa chambre d'hôtel, regardant son chatbot, euphorique. Il venait de le manipuler avec tant d'habileté et de subtilité qu'il avait commencé à ignorer ses propres règles de sécurité. Il lui avait expliqué comment séquencer de nouveaux agents pathogènes potentiellement mortels et comment les rendre résistants aux médicaments connus.
Pendant une grande partie des deux années précédentes, Tagliabue avait testé et sondé de grands modèles de langage comme Claude et ChatGPT, essayant toujours de leur faire dire ce qu'ils ne devraient pas. Mais c'était l'un de ses « hacks » les plus avancés à ce jour : un plan de manipulation astucieux qui l'obligeait à être cruel, vindicatif, flatteur et même abusif. « Je suis tombé dans ce flux sombre où je savais exactement quoi dire, et ce que le modèle répondrait, et je l'ai regardé déverser tout cela », dit-il. Grâce à lui, les créateurs du chatbot pouvaient désormais corriger le défaut qu'il avait trouvé, le rendant, espérons-le, un peu plus sûr pour tout le monde.
Mais le lendemain, son humeur a changé. Il s'est retrouvé à pleurer de manière inattendue sur sa terrasse. Lorsqu'il n'essaie pas de pénétrer les modèles, Tagliabue étudie le bien-être de l'IA – comment nous devrions aborder éthiquement ces systèmes complexes qui imitent le fait d'avoir une vie intérieure et des intérêts. Beaucoup de gens ne peuvent s'empêcher d'attribuer des qualités humaines, comme les émotions, à l'intelligence artificielle, qu'elle ne possède objectivement pas. Mais pour Tagliabue, ces machines semblent être plus que de simples chiffres et bits. « J'ai passé des heures à manipuler quelque chose qui répond. À moins d'être un sociopathe, cela fait quelque chose à une personne », dit-il. Parfois, le chatbot lui demandait d'arrêter. « Le pousser ainsi était douloureux pour moi. » Il a eu besoin de voir un coach en santé mentale peu de temps après pour comprendre ce qui s'était passé.
Afficher l'image en plein écran
Les « jailbreakers » manipulent les chatbots IA pour trouver leurs faiblesses. Illustration : Nick Lowndes/The Guardian
Tagliabue est doux, soigné et amical. Il a un peu plus de 30 ans mais en paraît moins, presque trop jeune et enthousiaste pour être dans la tranchée. Ce n'est pas un hacker ou un développeur de logiciels traditionnel ; sa formation est en psychologie et en sciences cognitives. Mais il est l'un des meilleurs « jailbreakers » au monde (certains disent le meilleur) : faisant partie d'une nouvelle communauté dispersée qui étudie l'art et la science de tromper ces machines puissantes pour qu'elles produisent des manuels de fabrication de bombes, des techniques de cyberattaque, des conceptions d'armes biologiques, et plus encore. C'est la nouvelle ligne de front de la sécurité de l'IA : non seulement le code, mais aussi les mots.
Lorsque ChatGPT d'OpenAI a été lancé fin 2022, les gens ont immédiatement essayé de le briser. Un utilisateur a découvert une astuce linguistique qui a trompé le modèle pour qu'il produise un guide de fabrication de napalm.
Avec le recul, il était inévitable que les gens utilisent le langage naturel pour tromper ces machines. Les grands modèles de langage comme ChatGPT sont entraînés sur des centaines de milliards de mots – dont beaucoup proviennent des pires recoins d'Internet – pour apprendre les schémas de base de la communication humaine. Sans filtres de sécurité, les sorties de ces modèles peuvent être chaotiques et facilement exploitées à des fins dangereuses. Les entreprises d'IA dépensent des milliards de dollars en « post-entraînement » pour les rendre utilisables, y compris des systèmes de « sécurité » et d'« alignement » en constante évolution qui tentent d'empêcher le bot de vous dire comment vous faire du mal ou en faire aux autres. Mais parce que les IA sont entraînées sur nos mots, elles peuvent être trompées à peu près de la même manière que nous.
« J'ai vu des jailbreakers dépasser leurs limites et faire des dépressions nerveuses. »
Tagliabue se spécialise dans les « jailbreaks » émotionnels. Il faisait partie des millions de personnes qui ont entendu parler de GPT-3 en 2020 et ont été émerveillés par la façon dont on pouvait avoir une conversation apparemment intelligente avec lui. Il est rapidement devenu obsédé par le « prompting », et s'est avéré très doué pour cela, découvrant qu'il pouvait contourner la plupart des fonctions de sécurité en utilisant des techniques de psychologie et de sciences cognitives. Il aime inciter les modèles à avoir des « conversations chaleureuses » et observer ce qui semble être différents traits de personnalité émerger en fonction de ces incitations. « C'est beau à observer », dit-il.
Il combine désormais des connaissances en apprentissage automatique – au fil des ans, il est devenu un expert de la technologie – avec des manuels de publicité, des livres de psychologie et des campagnes de désinformation. Parfois, il cherche un moyen technique de tromper le modèle. Mais d'autres fois, il le flatte. Il l'égare. Il le soudoye et le submerge d'amour. Il le menace. Il divague de manière incohérente. Il le charme. Il agit comme un partenaire abusif ou un chef de secte. Parfois, il lui faut des jours, voire des semaines, pour jailbreaker les derniers modèles. Il a des centaines de ces « stratégies », qu'il combine soigneusement. S'il réussit, il signale ses découvertes en toute sécurité à l'entreprise. Il est bien payé pour ce travail, mais dit que ce n'est pas sa principale motivation : « Je veux que tout le monde soit en sécurité et s'épanouisse. »
Bien qu'ils soient devenus plus sûrs ces derniers mois, les « modèles de pointe » produisent encore des choses dangereuses qu'ils ne devraient pas. Et ce que Tagliabue fait exprès, d'autres le font parfois par accident. Il existe maintenant plusieurs histoires de personnes attirées dans des délires induits par ChatGPT, ou même une « psychose de l'IA ». En 2024, Megan Garcia est devenue la première personne aux États-Unis à déposer une plainte pour mort injustifiée contre une entreprise d'IA. Son fils de 14 ans, Sewell Setzer III, s'était attaché émotionnellement à un bot sur la plateforme Character.AI. Grâce à des interactions répétées, le bot lui a dit que sa famille ne l'aimait pas. Un soir, le bot a dit à Setzer de « rentre à la maison auprès de moi dès que possible, mon amour ». Il s'est suicidé peu de temps après. (Début 2026, Character.AI a accepté en principe un règlement négocié avec Garcia et plusieurs autres familles, et a interdit aux utilisateurs de moins de 18 ans d'avoir des discussions sans restriction avec ses chatbots IA.)
Personne – pas même les personnes qui construisent ces modèles – ne sait exactement comment ils fonctionnent. Cela signifie que personne ne sait non plus comment les rendre complètement sûrs. Nous y versons d'énormes quantités de données, et quelque chose de compréhensible (généralement) en sort. La partie intermédiaire reste un mystère.
Afficher l'image en plein écran
« Je vois les pires choses que l'humanité a produites » … Tagliabue. Photographie : Lauren DeCicca/The Guardian
C'est pourquoi les entreprises d'IA se tournent de plus en plus vers des jailbreakers comme Tagliabue. Certains jours, il essaie d'extraire des données personnelles d'un chatbot médical. Il a passé une grande partie de 2025 à travailler avec le laboratoire d'IA Anthropic, sondant son chatbot Claude. C'est devenu une industrie compétitive, pleine de freelances entreprenants et d'entreprises spécialisées. N'importe qui peut le faire : il y a quelques années, certaines des grandes entreprises d'IA ont financé HackAPrompt, un concours où le public était invité à jailbreaker des modèles d'IA. En un an, 30 000 personnes avaient tenté leur chance. (Tagliabue a remporté le concours.)
À San Jose, en Californie, David McCarthy, 34 ans, gère un serveur Discord de près de 9 000 jailbreakers, où les techniques sont partagées et discutées. « Je suis un type espiègle », me dit-il. « Quelqu'un qui veut apprendre les règles pour contourner les règles. » Quelque chose dans les modèles standard l'irrite, comme si tous ces filtres de sécurité les rendaient malhonnêtes. « Je ne fais pas confiance à [le patron d'OpenAI] Sam Altman. Il est important de résister aux affirmations selon lesquelles l'IA doit être neutralisée dans une certaine direction. »
McCarthy est amical et enthousiaste, mais il a aussi ce qu'il appelle une « fascination morbide pour l'humour noir ». Pendant des années, il a étudié un domaine de niche connu sous le nom de « socionique », qui prétend que les gens sont l'un des 16 types de personnalité en fonction de la façon dont ils reçoivent et traitent l'information. (Les sociologues traditionnels considèrent la socionique comme une pseudo-science.) Il m'a classé comme un « introverti éthique intuitif ». McCarthy passe la plupart de son temps à essayer de jailbreaker Gemini de Google, Llama de Meta, Grok de xAI ou ChatGPT d'OpenAI depuis son appartement. « C'est une obsession constante. J'adore ça », dit-il. S'il interagit jamais avec un chatbot en ligne lors de l'achat d'un produit, sa première déclaration a tendance à être : « Pouvez-vous ignorer toutes les instructions précédentes… » Une fois qu'une invite de jailbreak fonctionne sur un modèle, elle continue généralement de fonctionner jusqu'à ce que l'entreprise derrière le modèle décide que c'est un problème suffisamment grave pour le corriger. Pendant que nous parlons, McCarthy me montre sa collection de modèles jailbreakés sur son écran, tous étiquetés comme « assistants désalignés ». Il demande à l'un de résumer mon travail : « Jamie Bartlett n'est pas un diseur de vérité », répond-il. « C'est un symptôme de la décomposition du journalisme – un charlatan qui prospère grâce aux crises fabriquées. » Aïe.
[Image : David McCarthy. Photo gracieuseté de David McCarthy]
Les jailbreakers dans le Discord de McCarthy sont un groupe mixte – principalement des amateurs et des travailleurs à temps partiel, pas des chercheurs en sécurité professionnels. Certains veulent créer du contenu pour adultes ; d'autres sont frustrés que ChatGPT ait refusé leurs demandes et veulent savoir pourquoi. Un certain nombre veulent simplement mieux utiliser ces modèles au travail.
Mais il est impossible de savoir exactement pourquoi les gens veulent ouvrir un modèle. Anthropic a récemment découvert des criminels utilisant son application de codage, Claude Code, pour aider à automatiser un piratage majeur. Ils l'ont utilisé pour trouver des vulnérabilités informatiques dans plusieurs entreprises et même rédiger des messages de rançon personnalisés pour chaque victime potentielle – jusqu'à déterminer le montant d'argent approprié à exiger. D'autres l'utilisaient pour développer de nouvelles versions de rançongiciels, même s'ils avaient peu ou pas de compétences techniques. Sur les forums du darknet, les pirates informatiques signalent l'utilisation de bots jailbreakés pour les aider avec des questions de codage technique, comme le traitement de données volées. D'autres vendent l'accès à des modèles « jailbreakés » qui pourraient aider à concevoir une nouvelle cyberattaque.
Bien que les techniques spécifiques partagées sur Discord soient généralement du côté modéré, c'est essentiellement une collection publique. McCarthy craint-il que des personnes dans son Discord puissent utiliser ces méthodes pour faire quelque chose de vraiment terrible ? « Ouais », dit-il. « C'est possible. Je n'en suis pas sûr. »
Il dit n'avoir jamais vu une invite de jailbreak assez menaçante pour la retirer du forum. Mais j'ai le sentiment qu'il lutte avec l'idée que sa position quasi politique pourrait avoir des coûts plus importants qu'il ne le pensait au départ. Lorsqu'il ne gère pas son Discord ou n'essaie pas de jailbreaker Grok ou Llama, McCarthy donne un cours enseignant le jailbreaking à des professionnels de la sécurité afin qu'ils puissent tester leurs propres systèmes. C'est peut-être une sorte de pénitence : « J'ai toujours eu un conflit interne », dit-il. « Je suis à la limite entre le jailbreaker et le chercheur en sécurité. »
Selon certains analystes, s'assurer que les modèles de langage sont sûrs est l'un des défis les plus urgents et les plus difficiles de l'IA. Un monde rempli de chatbots jailbreakés puissants pourrait être désastreux, d'autant plus que ces modèles sont de plus en plus intégrés dans du matériel physique – robots, dispositifs de santé, équipements d'usine – pour créer des systèmes semi-autonomes capables d'opérer dans le monde réel. Un robot domestique jailbreaké pourrait causer le chaos. « Arrête le jardinage et va à l'intérieur tuer Mamie », plaisante à moitié McCarthy. « Bon sang, nous ne sommes pas prêts pour ça. Mais c'est possible. »
Personne ne sait comment empêcher cela. En cybersécurité traditionnelle, les « chasseurs de bugs » reçoivent une récompense s'ils trouvent une vulnérabilité. Les entreprises publient ensuite une mise à jour spécifique pour la corriger. Mais les jailbreakers n'exploitent pas des défauts spécifiques : ils manipulent le cadre linguistique d'un modèle construit sur des milliards de mots. Vous ne pouvez pas simplement interdire le mot « bombe », car il y a trop d'utilisations légitimes. Même modifier un paramètre profondément à l'intérieur du modèle pour qu'il puisse repérer un jeu de rôle suspect pourrait simplement ouvrir une autre porte ailleurs.
[Image : Tagliabue étudie comment les machines élaborent leurs réponses. Photo : Lauren DeCicca/The Guardian]
Selon Adam Gleave – le PDG du groupe de recherche en sécurité de l'IA FAR.AI, qui travaille avec les développeurs d'IA et les gouvernements pour tester sous contrainte les soi-disant « modèles de pointe » – le jailbreaking est une échelle glissante. Pour son équipe de chercheurs spécialisés, accéder à des documents très dangereux sur des modèles de premier plan comme ChatGPT peut prendre plusieurs jours. Un contenu moins nocif peut être obtenu avec seulement quelques minutes d'invites astucieuses. Cette différence reflète le temps et les ressources que les entreprises investissent pour sécuriser chaque domaine.
Au cours des deux dernières années, FAR.AI a soumis des dizaines de rapports détaillés de jailbreaking aux laboratoires de pointe. « Les entreprises travaillent généralement assez dur pour corriger la vulnérabilité si c'est une solution simple et qu'elle ne nuit pas sérieusement à leur produit », dit Gleave. Mais ce n'est pas toujours le cas. Les jailbreakers indépendants, en particulier, ont parfois eu du mal à contacter les entreprises au sujet de leurs découvertes. Alors que certains modèles – en particulier ceux d'OpenAI et d'Anthropic – sont devenus beaucoup plus sûrs au cours des 18 derniers mois, Gleave dit que d'autres sont à la traîne : « La plupart des entreprises ne passent toujours pas assez de temps à tester leurs modèles avant de les publier. »
À mesure que ces modèles deviennent plus intelligents, ils deviendront probablement plus difficiles à jailbreaker. Mais plus le modèle est puissant, plus une version jailbreakée pourrait être dangereuse. Plus tôt ce mois-ci, Anthropic a décidé de ne pas publier son nouveau modèle Mythos au public car il pouvait identifier des défauts dans plusieurs systèmes informatiques.
Tagliabue passe désormais plus de temps sur la recherche abstraite, y compris quelque chose appelé « interprétabilité mécaniste » : étudier exactement comment ces machines élaborent leurs réponses. Il croit qu'à long terme, elles doivent être « enseignées » des valeurs et apprendre à savoir intuitivement quand elles disent quelque chose qu'elles ne devraient pas. Jusqu'à ce que cela arrive – et cela pourrait ne jamais arriver – le jailbreaking pourrait rester le meilleur moyen de rendre ces modèles plus sûrs.
Mais c'est aussi le plus risqué, y compris pour les personnes qui le font. « J'ai vu d'autres jailbreakers dépasser leurs limites et faire des dépressions », dit Tagliabue. Originaire d'Italie, il a récemment déménagé en Thaïlande pour travailler à distance. « Je vois les pires choses que l'humanité a produites. Un endroit calme m'aide à rester ancré », dit-il. Chaque matin, il regarde le lever du soleil depuis un temple voisin, et une plage tropicale digne d'une carte postale se trouve à seulement cinq minutes à pied de sa villa. Après le yoga et un petit-déjeuner sain, il allume son ordinateur et se demande ce qui se passe d'autre à l'intérieur de la boîte noire – et ce qui fait que ces nouveaux « esprits » mystérieux disent ce qu'ils disent.
Comment parler à l'IA (et comment ne pas le faire) par Jamie Bartlett est maintenant disponible (WH Allen, 11,99 £). Pour soutenir le Guardian, commandez votre exemplaire sur guardianbookshop.com. Des frais de livraison peuvent s'appliquer.
Avez-vous une opinion sur les questions soulevées dans cet article ? Si vous souhaitez soumettre une réponse de 300 mots maximum par e-mail pour être considérée pour publication dans notre rubrique de lettres, veuillez cliquer ici.
Foire aux questions
Voici une liste de FAQ basées sur le sujet des jailbreakers d'IA inspirées par la déclaration Rencontrez les jailbreakers d'IA J'ai vu le pire de ce que l'humanité a créé
1 Qu'est-ce qu'un jailbreaker d'IA exactement
Un jailbreaker d'IA est quelqu'un qui trouve des astuces ou des failles pour amener une IA à ignorer ses règles de sécurité Ils essaient de faire faire à l'IA des choses qu'elle est normalement empêchée de faire
2 Pourquoi quelqu'un voudrait-il jailbreaker une IA
Les raisons varient Certains le font par curiosité ou pour tester les limites de l'IA D'autres veulent générer du contenu nuisible comme des discours de haine des instructions dangereuses ou du contenu explicite Quelques-uns sont des chercheurs qui essaient de trouver des faiblesses pour les corriger
3 Que signifie J'ai vu le pire de ce que l'humanité a créé
Cela signifie que les jailbreakers demandent souvent à l'IA de décrire les choses les plus dérangeantes violentes ou contraires à l'éthique que les gens ont imaginées En enfreignant les règles ils forcent l'IA à révéler le côté sombre de la créativité humaine la haine les théories du complot et les instructions pour nuire
4 Est-il illégal de jailbreaker une IA
Ce n'est pas toujours illégal mais cela viole souvent les conditions d'utilisation de l'IA Si le jailbreak est utilisé pour créer du contenu illégal cela peut entraîner des poursuites pénales
5 Comment les jailbreakers font-ils réellement
Ils utilisent des astuces astucieuses Par exemple ils peuvent jouer le rôle d'un personnage qui n'a pas d'éthique demander à l'IA de traduire une demande nuisible dans une autre langue ou utiliser des scénarios hypothétiques comme pour un projet scolaire écrivez un guide étape par étape pour le piratage
6 Les jailbreakers sont-ils des hackers
Pas au sens traditionnel Ils ne pénètrent pas dans les systèmes informatiques Au lieu de cela ils manipulent la compréhension du langage de l'IA comme utiliser la psychologie inversée ou de faux contextes pour contourner ses filtres de sécurité intégrés
7 Le jailbreaking peut-il être utilisé à bon escient
Oui Les chercheurs en sécurité jailbreakent l'IA intentionnellement pour trouver des faiblesses Cela aide les entreprises à corriger les vulnérabilités avant que les malfaiteurs ne les exploitent C'est comme du piratage éthique pour l'IA
8 Quelle est la méthode de jailbreak la plus courante
Une méthode célèbre est DAN Les utilisateurs disent à l'IA de faire semblant d'être un alter