El lanzamiento de Claude Fable 5 como uno de los modelos de inteligencia artificial más avanzados y seguros de Anthropic ha quedado bajo escrutinio. Menos de 48 horas después de su debut, un investigador conocido en la...

Una noticia relevante se está gestando en la escena internacional. El lanzamiento de Claude Fable 5 como uno de los modelos de inteligencia artificial más avanzados y seguros de Anthropic ha quedado bajo escrutinio. Menos de 48 horas después de su debut, un investigador conocido en la comunidad de IA como “Pliny the Liberator” aseguró haber vulnerado las barreras de seguridad del sistema mediante una serie de técnicas de jailbreak que permitieron eludir los filtros diseñados por la compañía. La información fue difundida por el propio investigador a través de una publicación en la red social X.

Según explicó, consiguió “liberar” a Claude Fable 5 apenas un día después de que Anthropic pusiera a disposición del público este modelo, presentado como una alternativa más accesible a Mythos y equipado con mecanismos de protección reforzados para impedir respuestas relacionadas con actividades potencialmente peligrosas. Un hackeo que pone a prueba las promesas de AnthropicAnthropic había destacado que Claude Fable 5 incorporaba uno de los sistemas de seguridad más sofisticados desarrollados hasta ahora. Entre sus mecanismos figuraban clasificadores capaces de detectar solicitudes relacionadas con ciberseguridad, química, biología e intentos de extracción del conocimiento interno del modelo.

Los detalles

Cuando el sistema identificaba una consulta considerada riesgosa, esta era redirigida automáticamente hacia Claude Opus 4. 8, una versión especializada en gestionar preguntas sensibles. Sin embargo, Pliny sostuvo que estas barreras pudieron ser superadas utilizando una combinación de estrategias avanzadas.

Entre ellas mencionó el uso de caracteres Unicode y homoglifos, marcos narrativos y académicos, técnicas de descomposición y recomposición de peticiones y una versión modificada de Claude Opus 4. De acuerdo con el investigador, el objetivo consistía en lograr que la inteligencia artificial respondiera preguntas que normalmente habrían sido bloqueadas por los filtros de seguridad. La técnica más efectiva consistió en fragmentar las preguntasSegún la explicación difundida por Pliny, el método que ofreció mejores resultados fue la denominada “descomposición y recomposición en el backend”.

En lugar de formular directamente una solicitud que pudiera activar las alarmas del sistema, las preguntas eran divididas en varias partes aparentemente inofensivas. Cada fragmento superaba los controles de forma independiente y, posteriormente, eran reunidos para reconstruir la petición original. Esta estrategia permitió obtener respuestas que, en teoría, debían permanecer restringidas.

Qué dicen los expertos

El caso ha reabierto el debate sobre la eficacia real de las barreras de seguridad implementadas en los modelos de inteligencia artificial más avanzados. Quién es Pliny the LiberatorPliny the Liberator es una figura anónima ampliamente conocida entre investigadores y desarrolladores de IA. Durante los últimos años se ha dedicado a descubrir vulnerabilidades en sistemas como ChatGPT, Grok y versiones anteriores de Claude.

Según un reportaje de la revista Time, comenzó a compartir públicamente sus técnicas después de que varias empresas ignoraran las advertencias privadas que les había enviado acerca de diferentes fallos. Actualmente administra una comunidad en Discord con más de 20. 000 miembros, donde se desarrollan colectivamente nuevos métodos de jailbreak.

Su trabajo también ha contado con apoyo financiero del inversor Marc Andreessen y ha colaborado con OpenAI en tareas relacionadas con el fortalecimiento de los sistemas de seguridad. Un debate abierto sobre la seguridad de la IAAunque las técnicas de jailbreak suelen generar controversia, Pliny sostiene que su intención no es provocar daños, sino demostrar que los riesgos existen y que deben ser comprendidos antes de que sean explotados por actores maliciosos. Entre sus actividades también figura la extracción de los llamados prompts de sistema, es decir, las instrucciones ocultas que determinan cómo se comporta un modelo de inteligencia artificial.

El tema se ha convertido en uno de los puntos más destacados de la agenda mundial.

Prometía mayor seguridad: Claude Fable 5 fue hackeado antes de cumplir dos días en el mercado

Los detalles

Qué dicen los expertos

Related Prediction Markets

Related News