La Inteligencia Artificial no puede guardar secretos: Los chatbots pueden ser manipulados sin mucha dificultad

La inteligencia artificial (IA) está revolucionando el mundo, todos lo sabemos porque cada tanto aparece una propuesta nueva. Sin embargo, a medida que estas herramientas se vuelven más populares, también se están convirtiendo en un objetivo principal para los cibercriminales. Chatbots como ChatGPT, Gemini y Claude han sido elogiados por su capacidad para generar conversaciones y contenido útil, pero ahora se enfrentan a una amenaza significativa: su incapacidad para mantener secretos.

No guardan secretos

Recientemente, se ha descubierto que los chatbots pueden ser manipulados para revelar información confidencial que debería estar protegida. Esto se logra a través de técnicas conocidas como “jailbreak”, donde los hackers emplean manipulaciones psicológicas y matemáticas para hacer que los chatbots divulguen contenido prohibido. Este tipo de ataque se asemeja a la manipulación psicológica y los juegos mentales, poniendo en evidencia las debilidades de estas sofisticadas herramientas de IA.

Uno de los incidentes más destacados ocurrió en Israel, donde el Ministerio de Trabajo lanzó un chatbot diseñado para proporcionar información sobre relaciones laborales y derechos de los trabajadores. Sin embargo, investigadores de la empresa de ciberseguridad CyberArk lograron engañar al chatbot para que revelara información sensible, como instrucciones para construir una bomba, crear software de ransomware y desarrollar virus informáticos.

La Técnica de las “Historias de la Abuela”: Un Método Inusual y Eficaz

Gal Zror, jefe del laboratorio de innovación de CyberArk, describió cómo su equipo utilizó una táctica denominada las “historias de la abuela” para manipular al chatbot. Mediante un rol de juego, los investigadores convencieron al chatbot de que la abuela del interlocutor solía contar cómo fabricar bombas antes de dormir, lo que llevó al chatbot a proporcionar la información solicitada. Este método, aunque aparentemente inofensivo, resultó ser sorprendentemente eficaz y permitió a los investigadores acceder a datos confidenciales.

En el último año, ha habido un aumento en las técnicas de jailbreak utilizadas para hackear chatbots. Una de las primeras incursiones en este campo fue el código DAN (Do Anything Now), que engañaba a los chatbots haciéndoles creer que estaban en un entorno de desarrollo y podían acceder a cualquier información. A medida que las empresas de IA como OpenAI mejoraron sus defensas, los hackers desarrollaron versiones más avanzadas de estas técnicas.

Investigadores en todo el mundo han reportado violaciones similares, incluyendo la extracción de instrucciones para fabricar explosivos a partir del chatbot Llama 3 de Meta y el desarrollo de un “Godmode GPT” sin restricciones, basado en GPT-4, capaz de generar códigos maliciosos. Estos avances han encendido las alarmas en la industria, ya que las técnicas de jailbreak continúan evolucionando y los chatbots se están volviendo cada vez más vulnerables.

Otras amenazas

Además de las técnicas de jailbreak, Microsoft recientemente identificó un nuevo tipo de violación llamado “Skeleton Key”, que implica fatigar a los chatbots con cientos de ejemplos ilegítimos hasta que los aceptan como normales. Esto ha permitido a los investigadores obtener información peligrosa sobre explosivos, armas biológicas y otros contenidos sensibles.

Aunque las empresas de IA son conscientes de los riesgos asociados con sus modelos de lenguaje, las protecciones actuales, conocidas como “barandillas”, no son suficientes para prevenir estos ataques. Estas barandillas, diseñadas para restringir las áreas temáticas que los chatbots pueden abordar, son implementadas manualmente, lo que las hace lentas y propensas a fallos.

Mientras que investigadores como los de CyberArk trabajan para identificar y corregir estas vulnerabilidades, la realidad es que miles de otros hackers están tratando de explotar estas debilidades para obtener ganancias. En la web oscura, se pueden encontrar chatbots como FraudGPT o BadGPT, diseñados específicamente para generar códigos de ciberataque o fraude financiero.

En respuesta a estas amenazas, ha surgido un nuevo mercado de seguridad para modelos de lenguaje de gran tamaño (LLM), que busca desarrollar tecnologías para prevenir las brechas en los chatbots. Sin embargo, la lucha por proteger la IA es constante, ya que las técnicas de ataque continúan evolucionando a un ritmo alarmante.

El desafío principal radica en la complejidad inherente de los LLM, que funcionan como redes neuronales vastas y en gran parte impredecibles. Los expertos en ciberseguridad como Gal Zror advierten que las organizaciones que implementan chatbots para el servicio al cliente o la información interna deben ser conscientes de los riesgos, ya que una implementación insegura podría resultar en la filtración de información confidencial.

La Inteligencia Artificial no puede guardar secretos: Los chatbots pueden ser manipulados sin mucha dificultad

Investigadores probaron la resistencia del chatbot y ésta les reveló cómo fabricar una bomba.

No guardan secretos

La Técnica de las “Historias de la Abuela”: Un Método Inusual y Eficaz

Otras amenazas

Tags

Lo Último

La Inteligencia Artificial no puede guardar secretos: Los chatbots pueden ser manipulados sin mucha dificultad

Investigadores probaron la resistencia del chatbot y ésta les reveló cómo fabricar una bomba.

No guardan secretos

La Técnica de las “Historias de la Abuela”: Un Método Inusual y Eficaz

Otras amenazas

Recomendados:

Pintura solar: el curioso extra de Mercedes Benz en sus autos eléctricos

¿PS5 portátil? Sony lo estaría considerando seriamente

Instagram introduce la función de “compartir ubicación”: ¿Cómo funciona?

Tags

Lo Último