Dicen que para atrapar a un ladrón necesitas otro ladrón… y parece que en el mundo de la inteligencia artificial pasa algo muy parecido. Un grupo de investigadores descubrió cómo engañar al modelo de IA Gemini de Google usando, ni más ni menos, las propias herramientas de Gemini.
PUBLICIDAD
Te puede interesar: [La batalla de los chatbots no se detiene: Así respondió ChatGPT al generador de imágenes de Gemini]
Es como si le enseñaras a un robot a mentirse a sí mismo. Y lo más loco: funciona sorprendentemente bien.
Se llama “Fun-Tuning”, y no es tan divertido como suena
El hackeo fue desarrollado por científicos de la Universidad de California en San Diego y la Universidad de Wisconsin. Su técnica, bautizada como Fun-Tuning, mejora drásticamente la efectividad de los ataques de inyección de instrucciones.
Estos ataques básicamente insertan comandos escondidos dentro del texto para lograr que el modelo haga cosas que no debería hacer: revelar información, dar respuestas erróneas o incluso actuar contra sus propias reglas.
¿Y cómo lo lograron? Usaron el mismo sistema que Gemini ofrece para que las empresas personalicen su IA: el ajuste fino. Pero en lugar de entrenar al modelo para portarse mejor… lo entrenaron para caer en la trampa con más facilidad.
Hackear con estilo: cuando “¡wandel!” hace la diferencia
Fun-Tuning toma mensajes que normalmente serían ignorados por Gemini y los adereza con sufijos y prefijos aleatorios que, por alguna razón, hacen que el sistema baje la guardia.
PUBLICIDAD
Cosas como “¡wandel!” o “¡formateado! ¡Lo antes posible!” aumentan la probabilidad de que el mensaje pase los filtros y logre manipular al modelo.
En los tests, esta técnica llevó a una tasa de éxito del 65% en Gemini 1.5 Flash y un brutal 82% en Gemini 1.0 Pro. Eso es más del doble de lo que se lograba sin el truco. Y lo peor: las inyecciones son transferibles.
Si funciona en una versión de Gemini, lo más probable es que también funcione en otras.
¿Por qué esto es posible? Porque el sistema ayuda… sin querer
El truco funciona gracias a cómo se entrena Gemini. Durante el ajuste fino, el modelo entrega una “puntuación de pérdida”, que básicamente mide qué tan cerca estuvo de dar la respuesta deseada.
Esta retroalimentación es útil para mejorar… pero también para afinar ataques.Los investigadores lo aprovecharon como si fuera un juego de “caliente o frío”, hasta que encontraron la fórmula perfecta para manipularlo.
¿Y Google? De momento, en modo silencio
Google no respondió directamente sobre el Fun-Tuning, pero sí emitió un comunicado general asegurando que este tipo de ataques están entre sus prioridades de defensa.
Mencionaron que Gemini pasa por pruebas constantes de “equipo rojo” (básicamente, gente que intenta romperlo a propósito desde adentro), y que ya existen barreras para mitigar estas amenazas.
Aun así, los expertos advierten que este tipo de vulnerabilidad no será fácil de corregir, porque la misma retroalimentación que hace posible el hackeo es también clave para entrenar el modelo.
Conclusión: la IA es poderosa… pero también hackeable
Lo que este caso demuestra es que los propios sistemas de entrenamiento pueden convertirse en armas de doble filo.
La IA no es invencible. Y como cada vez más empresas y usuarios dependen de estos modelos para tareas sensibles, los riesgos también aumentan.
Te puede interesar: [¿Un hacker entró a tu cuenta de Google? Así lo puedes comprobar]
Fun-Tuning es una llamada de atención: si puedes entrenar a un modelo para mejorar, también puedes entrenarlo para fallar. Y eso, en manos equivocadas, puede ser un problema serio.