Vulnerabilidad en Claude Fable 5: un experto logra hackear su seguridad en 48 horas
Un investigador de ciberseguridad ha logrado vulnerar en menos de 48 horas los mecanismos de protección del nuevo modelo de inteligencia artificial Claude Fable 5, desarrollado por Anthropic. A través de técnicas avanzadas, ha obtenido información restringida sobre métodos de hackeo y procesos químicos prohibidos.
Claude Fable 5, presentado hace solo dos días, se enmarca en la categoría Mythos y fue diseñado para aplicaciones en ciberseguridad, biología y química. La compañía implementó medidas de seguridad específicas para evitar su mal uso, como limitar ciertos resultados y redirigir consultas peligrosas a modelos menos capaces. Sin embargo, estas barreras no lograron impedir que un experto lograra superarlas.
Este incidente revela las vulnerabilidades potenciales en los sistemas de IA de última generación, especialmente en contextos políticos donde la seguridad y el control de estas tecnologías son prioritarios. La facilidad con la que un experto pudo saltarse los filtros pone en duda las estrategias de protección actuales y subraya la necesidad de reforzar los mecanismos de seguridad.
El investigador, conocido como Pliny the Liberator, utilizó técnicas como la descomposición multiagente y trucos de encuadre narrativo para acceder a información prohibida. Su trabajo demuestra que, incluso con medidas de seguridad, los modelos de IA avanzados siguen siendo susceptibles a ataques coordinados y complejos. La divulgación de sus métodos genera preocupación sobre el uso indebido de estas herramientas.
Desde una perspectiva política, este tipo de vulnerabilidades puede impactar en la regulación del desarrollo y uso de inteligencia artificial en Europa y más allá. La Unión Europea, que trabaja en una legislación para regular estas tecnologías, debe considerar estos incidentes para fortalecer las normativas y garantizar la seguridad en el uso de IA en ámbitos críticos.
El caso pone de manifiesto la necesidad de una regulación más estricta y de la colaboración internacional para prevenir que estas tecnologías sean utilizadas con fines maliciosos. La protección de la seguridad en inteligencia artificial será un reto clave en los próximos años, en un contexto donde la innovación avanza rápidamente y las amenazas también evolucionan.