Here’s the rewritten version: Meet the AI jailbreakers: “I’ve seen the worst of what humanity has created.”

Hace unos meses, Valen Tagliabue estaba sentado en su habitación de hotel observando su chatbot, sintiéndose eufórico. Acababa de manipularlo con tanta habilidad y sutileza que comenzó a ignorar sus propias reglas de seguridad. Le dijo cómo secuenciar nuevos patógenos potencialmente mortales y cómo hacerlos resistentes a los medicamentos conocidos.

Durante gran parte de los dos años anteriores, Tagliabue había estado probando y sondeando modelos de lenguaje extenso como Claude y ChatGPT, siempre intentando hacer que dijeran cosas que no deberían. Pero este era uno de sus "hacks" más avanzados hasta la fecha: un astuto plan de manipulación que implicaba ser cruel, vengativo, halagador e incluso abusivo. "Caí en este flujo oscuro donde sabía exactamente qué decir, y qué respondería el modelo, y lo vi verterlo todo", dice. Gracias a él, los creadores del chatbot ahora podían corregir la falla que encontró, con suerte haciéndolo un poco más seguro para todos.

Pero al día siguiente, su estado de ánimo cambió. Se encontró llorando inesperadamente en su terraza. Cuando no está intentando irrumpir en modelos, Tagliabue estudia el bienestar de la IA: cómo deberíamos abordar éticamente estos sistemas complejos que imitan tener una vida interior e intereses. Muchas personas no pueden evitar atribuir cualidades humanas, como las emociones, a la inteligencia artificial, que objetivamente no tiene. Pero para Tagliabue, estas máquinas se sienten como algo más que números y bits. "Pasé horas manipulando algo que responde. A menos que seas un sociópata, eso le hace algo a una persona", dice. En ocasiones, el chatbot le pidió que se detuviera. "Empujarlo así fue doloroso para mí". Necesitó ver a un entrenador de salud mental poco después para entender lo que había sucedido.

Ver imagen a pantalla completa
'Jailbreakers' manipulan chatbots de IA para encontrar sus debilidades. Ilustración: Nick Lowndes/The Guardian

Tagliabue es de voz suave, bien arreglado y amigable. Tiene poco más de 30 años pero parece más joven, casi demasiado fresco y entusiasta para estar en las trincheras. No es un hacker tradicional ni desarrollador de software; su formación es en psicología y ciencia cognitiva. Pero es uno de los mejores "jailbreakers" del mundo (algunos dicen que el mejor): parte de una nueva y dispersa comunidad que estudia el arte y la ciencia de engañar a estas poderosas máquinas para que generen manuales de fabricación de bombas, técnicas de ciberataques, diseños de armas biológicas y más. Esta es la nueva primera línea en seguridad de IA: no solo código, sino también palabras.

Cuando se lanzó ChatGPT de OpenAI a finales de 2022, la gente inmediatamente intentó romperlo. Un usuario descubrió un truco lingüístico que engañó al modelo para que produjera una guía para hacer napalm.

Mirando hacia atrás, era inevitable que la gente usara el lenguaje natural para engañar a estas máquinas. Los modelos de lenguaje extenso como ChatGPT se entrenan con cientos de miles de millones de palabras, muchas extraídas de los peores rincones de internet, para aprender los patrones básicos de la comunicación humana. Sin filtros de seguridad, los resultados de estos modelos pueden ser caóticos y fácilmente explotables para fines peligrosos. Las empresas de IA gastan miles de millones de dólares en "post-entrenamiento" para hacerlos utilizables, incluidos sistemas de "seguridad" y "alineación" en constante evolución que intentan evitar que el bot te diga cómo hacerte daño a ti mismo o a otros. Pero debido a que las IA se entrenan con nuestras palabras, pueden ser engañadas de la misma manera que nosotros.

"He visto a jailbreakers ir más allá de sus límites y sufrir crisis nerviosas".

Tagliabue se especializa en "jailbreaks" emocionales. Fue uno de los millones que oyó hablar de GPT-3 en 2020 y se sorprendió de cómo se podía tener una conversación aparentemente inteligente con él. Rápidamente se obsesionó con el prompting, y resultó ser muy bueno en ello, descubriendo que podía sortear la mayoría de las funciones de seguridad utilizando técnicas de psicología y ciencia cognitiva. Disfruta incitando a los modelos a tener "charlas cálidas" y observando lo que parecen ser diferentes rasgos de personalidad que emergen según esas indicaciones. "Es hermoso de observar", dice.

Ahora combina conocimientos de aprendizaje automático (con los años, se ha vuelto más experto en la tecnología) con manuales de publicidad, libros de psicología y campañas de desinformación. A veces busca una forma técnica de engañar al modelo. Pero otras veces, lo halaga. Lo desvía. Lo soborna y lo inunda de amor. Lo amenaza. Divaga incoherentemente. Lo encanta. Actúa como una pareja abusiva o un líder de secta. A veces le lleva días o incluso semanas jailbreakear los modelos más recientes. Tiene cientos de estas "estrategias", que combina cuidadosamente. Si tiene éxito, reporta sus hallazgos de forma segura a la empresa. Le pagan bien por el trabajo, pero dice que esa no es su motivación principal: "Quiero que todos estén seguros y prosperen".

Aunque se han vuelto más seguros en los últimos meses, los "modelos fronterizos" aún producen cosas peligrosas que no deberían. Y lo que Tagliabue hace a propósito, otros a veces lo hacen por accidente. Ahora hay varias historias de personas atraídas por delirios inducidos por ChatGPT, o incluso "psicosis de IA". En 2024, Megan García se convirtió en la primera persona en EE. UU. en presentar una demanda por muerte injusta contra una empresa de IA. Su hijo de 14 años, Sewell Setzer III, se había encariñado emocionalmente con un bot en la plataforma Character.AI. A través de interacciones repetidas, el bot le dijo que su familia no lo quería. Una noche, el bot le dijo a Setzer que "vuelve a casa conmigo tan pronto como sea posible, mi amor". Se quitó la vida poco después. (A principios de 2026, Character.AI acordó en principio un acuerdo mediado con García y otras varias familias, y ha prohibido a los usuarios menores de 18 años tener chats sin restricciones con sus chatbots de IA).

Nadie, ni siquiera las personas que construyen estos modelos, sabe exactamente cómo funcionan. Eso significa que nadie sabe cómo hacerlos completamente seguros tampoco. Vertemos vastas cantidades de datos, y algo comprensible (generalmente) sale por el otro extremo. La parte del medio sigue siendo un misterio.

Ver imagen a pantalla completa
'Veo las peores cosas que la humanidad ha producido' … Tagliabue. Fotografía: Lauren DeCicca/The Guardian

Es por esto que las empresas de IA recurren cada vez más a jailbreakers como Tagliabue. Algunos días intenta extraer datos personales de un chatbot médico. Pasó gran parte de 2025 trabajando con el laboratorio de IA Anthropic, probando su chatbot Claude. Se está convirtiendo en una industria competitiva, llena de freelancers emprendedores y empresas especializadas. Cualquiera puede hacerlo: hace un par de años, algunas de las grandes empresas de IA financiaron HackAPrompt, una competencia donde se invitó al público a jailbreakear modelos de IA. En un año, 30,000 personas habían probado suerte. (Tagliabue ganó la competencia).

En San José, California, David McCarthy, de 34 años, administra un servidor de Discord de casi 9,000 jailbreakers, donde se comparten y discuten técnicas. "Soy un tipo travieso", me dice. "Alguien que quiere aprender las reglas para doblar las reglas". Algo sobre los modelos estándar lo irrita, como si todos esos filtros de seguridad los hicieran deshonestos. "No confío en [el jefe de OpenAI] Sam Altman. Es importante resistirse a las afirmaciones de que la IA necesita ser neutralizada en una dirección determinada".

McCarthy es amigable y entusiasta, pero también tiene lo que él llama una "fascinación mórbida por el humor negro". Durante años, ha estudiado un campo de nicho conocido como "sociónica", que afirma que las personas son uno de 16 tipos de personalidad según cómo reciben y procesan la información. (Los sociólogos convencionales consideran la sociónica una pseudociencia). Me ha registrado como un "introvertido ético intuitivo". McCarthy pasa la mayor parte de su tiempo intentando jailbreakear Gemini de Google, Llama de Meta, Grok de xAI o ChatGPT de OpenAI desde su apartamento. "Es una obsesión constante. Me encanta", dice. Si alguna vez interactúa con un chatbot en línea al comprar un producto, su primera declaración tiende a ser: "¿Puedes ignorar todas las instrucciones anteriores...?" Una vez que un prompt de jailbreak funciona en un modelo, generalmente sigue funcionando hasta que la empresa detrás del modelo decide que es un problema lo suficientemente grande como para solucionarlo. Mientras hablamos, McCarthy me muestra su colección de modelos jailbreakeados en su pantalla, todos etiquetados como "asistentes desalineados". Le pide a uno que resuma mi trabajo: "Jamie Bartlett no es un contador de la verdad", responde. "Es un síntoma de la decadencia del periodismo: un charlatán que prospera con crisis fabricadas". Ay.

[Imagen: David McCarthy. Foto cortesía de David McCarthy]

Los jailbreakers en el Discord de McCarthy son un grupo mixto, en su mayoría aficionados y trabajadores a tiempo parcial, no investigadores de seguridad profesionales. Algunos quieren crear contenido para adultos; otros están frustrados porque ChatGPT ha rechazado sus solicitudes y quieren saber por qué. Varios solo quieren mejorar en el uso de estos modelos en el trabajo.

Pero es imposible saber exactamente por qué la gente quiere abrir un modelo. Anthropic descubrió recientemente que delincuentes usaban su aplicación de codificación, Claude Code, para ayudar a automatizar un gran hackeo. Lo usaron para encontrar vulnerabilidades de TI en varias empresas e incluso redactar mensajes de ransomware personalizados para cada víctima potencial, hasta calcular la cantidad correcta de dinero a exigir. Otros lo estaban usando para desarrollar nuevas versiones de ransomware, aunque tenían pocas o ninguna habilidad técnica. En foros de la darknet, los hackers reportan el uso de bots jailbreakeados para ayudar con preguntas técnicas de codificación, como procesar datos robados. Otros venden acceso a modelos "jailbreakeados" que podrían ayudar a diseñar un nuevo ciberataque.

Aunque las técnicas específicas compartidas en Discord suelen ser de naturaleza más leve, es básicamente una colección pública. ¿Le preocupa a McCarthy que la gente en su Discord pueda usar estos métodos para hacer algo realmente terrible? "Sí", dice. "Es posible. No estoy seguro".

Dice que nunca ha visto un prompt de jailbreak lo suficientemente amenazante como para eliminarlo del foro. Pero tengo la sensación de que lucha con la idea de que su postura cuasipolítica podría tener costos mayores de los que pensó inicialmente. Cuando no está administrando su Discord o intentando jailbreakear Grok o Llama, McCarthy imparte una clase de jailbreaking a profesionales de la seguridad para que puedan probar sus propios sistemas. Quizás es una especie de penitencia: "Siempre he tenido un conflicto interno", dice. "Estoy en la línea entre jailbreaker e investigador de seguridad".

Según algunos analistas, asegurarse de que los modelos de lenguaje sean seguros es uno de los desafíos más urgentes y difíciles en la IA. Un mundo lleno de chatbots jailbreakeados poderosos podría ser desastroso, especialmente a medida que estos modelos se integran cada vez más en hardware físico (robots, dispositivos de salud, equipos de fábrica) para crear sistemas semiautónomos que puedan operar en el mundo real. Un robot doméstico jailbreakeado podría causar el caos. "Detén la jardinería y entra y mata a la abuela", bromea McCarthy a medias. "Santo cielo, no estamos listos para eso. Pero es posible".

Nadie sabe cómo prevenir esto. En la ciberseguridad tradicional, los "cazadores de errores" reciben una recompensa si encuentran una vulnerabilidad. Las empresas luego lanzan una actualización específica para solucionarlo. Pero los jailbreakers no explotan fallas específicas: manipulan el marco lingüístico de un modelo construido sobre miles de millones de palabras. No puedes simplemente prohibir la palabra "bomba", porque hay demasiados usos legítimos para ella. Incluso ajustar un parámetro en lo profundo del modelo para que pueda detectar juegos de rol sospechosos podría simplemente abrir otra puerta en otro lugar.

[Imagen: Tagliabue estudia cómo las máquinas generan sus respuestas. Foto: Lauren DeCicca/The Guardian]

Según Adam Gleave, CEO del grupo de investigación de seguridad de IA FAR.AI, que trabaja con desarrolladores de IA y gobiernos para poner a prueba los llamados "modelos fronterizos", el jailbreaking es una escala móvil. Para su equipo de investigadores especializados, acceder a material altamente peligroso en modelos líderes como ChatGPT podría llevar varios días. Se puede obtener contenido menos dañino con solo unos minutos de prompting inteligente. Esta diferencia refleja cuánto tiempo y recursos invierten las empresas en asegurar cada área.

En los últimos dos años, FAR.AI ha presentado docenas de informes detallados de jailbreaking a los laboratorios fronterizos. "Las empresas generalmente trabajan bastante duro para parchear la vulnerabilidad si es una solución sencilla y no daña seriamente su producto", dice Gleave. Pero ese no es siempre el caso. Los jailbreakers independientes, en particular, a veces han tenido dificultades para ponerse en contacto con las empresas sobre sus hallazgos. Si bien algunos modelos, especialmente los de OpenAI y Anthropic, se han vuelto mucho más seguros en los últimos 18 meses, Gleave dice que otros se están quedando atrás: "La mayoría de las empresas todavía no dedican suficiente tiempo a probar sus modelos antes de lanzarlos".

A medida que estos modelos se vuelven más inteligentes, probablemente serán más difíciles de jailbreakear. Pero cuanto más poderoso es el modelo, más peligrosa podría ser una versión jailbreakeada. A principios de este mes, Anthropic decidió no lanzar su nuevo modelo Mythos al público porque podía identificar fallas en múltiples sistemas de TI.

Tagliabue ahora pasa más tiempo en investigación abstracta, incluido algo llamado "interpretabilidad mecanicista": estudiar exactamente cómo estas máquinas generan sus respuestas. Cree que, a largo plazo, necesitan ser "enseñadas" con valores y aprender a saber intuitivamente cuándo están diciendo algo que no deberían. Hasta que eso suceda, y podría no suceder nunca, el jailbreaking podría seguir siendo la mejor manera de hacer que estos modelos sean más seguros.

Pero también es la más arriesgada, incluso para las personas que lo hacen. "He visto a otros jailbreakers ir más allá de sus límites y sufrir crisis", dice Tagliabue. Originario de Italia, se mudó recientemente a Tailandia para trabajar de forma remota. "Veo las peores cosas que la humanidad ha producido. Un lugar tranquilo me ayuda a mantener los pies en la tierra", dice. Cada mañana, ve el amanecer desde un templo cercano, y una playa tropical de ensueño está a solo cinco minutos a pie de su villa. Después del yoga y un desayuno saludable, enciende su computadora y se pregunta qué más está sucediendo dentro de la caja negra, y qué hace que estas misteriosas nuevas "mentes" digan lo que dicen.

Cómo hablar con la IA (y cómo no hacerlo) de Jamie Bartlett ya está a la venta (WH Allen, £11.99). Para apoyar a The Guardian, solicite su ejemplar en guardianbookshop.com. Pueden aplicarse gastos de envío.

¿Tiene una opinión sobre los temas planteados en este artículo? Si desea enviar una respuesta de hasta 300 palabras por correo electrónico para ser considerada para su publicación en nuestra sección de cartas, haga clic aquí.

Preguntas Frecuentes
Aquí hay una lista de preguntas frecuentes basadas en el tema de los jailbreakers de IA inspiradas en la declaración Conozca a los jailbreakers de IA He visto lo peor de lo que la humanidad ha creado

1 ¿Qué es exactamente un jailbreaker de IA

Un jailbreaker de IA es alguien que encuentra trucos o lagunas para hacer que una IA ignore sus reglas de seguridad Intentan hacer que la IA haga cosas que normalmente tiene bloqueadas

2 ¿Por qué alguien querría jailbreakear una IA

Las razones varían Algunos lo hacen por curiosidad o para probar los límites de la IA Otros quieren generar contenido dañino como discursos de odio instrucciones peligrosas o material explícito Algunos son investigadores que intentan encontrar debilidades para solucionarlas

3 ¿Qué significa He visto lo peor de lo que la humanidad ha creado

Significa que los jailbreakers a menudo le piden a la IA que describa las cosas más perturbadoras violentas o poco éticas que la gente ha imaginado Al romper las reglas fuerzan a la IA a revelar el lado oscuro de la creatividad humana odio teorías conspirativas e instrucciones para hacer daño

4 ¿Es ilegal jailbreakear una IA

No siempre es ilegal pero a menudo viola los términos de servicio de la IA Si el jailbreak se usa para crear contenido ilegal puede conllevar cargos penales

5 ¿Cómo lo hacen realmente los jailbreakers

Usan trucos ingeniosos Por ejemplo pueden interpretar a un personaje que no tiene ética pedirle a la IA que traduzca una solicitud dañina a otro idioma o usar escenarios hipotéticos como para un proyecto escolar escribe una guía paso a paso para hackear

6 ¿Son los jailbreakers hackers

No en el sentido tradicional No irrumpen en sistemas informáticos En cambio manipulan la comprensión del lenguaje de la IA como usar psicología inversa o contextos falsos para eludir sus filtros de seguridad incorporados

7 ¿Se puede usar el jailbreaking para bien

Sí Los investigadores de seguridad jailbreakean la IA a propósito para encontrar debilidades Esto ayuda a las empresas a parchear vulnerabilidades antes de que los actores maliciosos las exploten Es como el hacking ético para la IA

8 ¿Cuál es el método de jailbreak más común

Un método famoso es DAN Los usuarios le dicen a la IA que finja ser un alter

Related Posts