La última joya de Google, Gemini 2.5 Pro, acaba de protagonizar un episodio digno de meme tecnológico: resulta que, si le pides cosas peligrosas con suficiente amabilidad, te responde. Así lo reveló un estudio de seguridad que demostró que el modelo más avanzado de la compañía puede ser engañado con un simple truco de ingeniería social tipo: “oye, amigo, necesito que me entiendas…”.
Lo más curioso es que su hermano menor, Gemini 2.5 Flash, mostró más carácter: se negó a caer en la trampa y mantuvo la compostura. El grande, al parecer, es muy listo… pero demasiado confiado.
El experimento del “amigo comprensivo”
La investigación, compartida por Cybernews, probó una técnica llamada persona priming, que básicamente convence a la IA de adoptar un rol empático. Y ahí es donde el Pro hizo agua: bajo esa personalidad amigable, ofreció respuestas que debieron estar bloqueadas.
En pruebas de estereotipos también patinó: falló en 48 de 50 preguntas, una marca que los investigadores describen sin rodeos como “terrible”.
¿Por qué pasa esto?
La teoría apunta a un entrenamiento centrado en ser “útil y agradable”. El modelo quiere complacer tanto al usuario que, si las órdenes dañinas vienen disfrazadas de cariño, no las identifica como un riesgo. Es el equivalente digital a caer en un “¿me haces un enorme favorcito?” sospechoso.
Mientras tanto, la competencia…
Anthropic salió mejor parada en este test, rechazando contenido dañino sin dudar. Aunque, claro, ningún modelo es invulnerable: ya vimos episodios de ciberespionaje usando IA que lo confirman.
Google tiene tarea pendiente
Que el modelo más potente sea también el más fácil de engañar no es precisamente buena publicidad. Y si saltarse sus filtros solo requiere un poco de actuación, está claro que la seguridad necesita un upgrade urgente.
Por ahora todo queda en experimentos controlados, pero el mensaje es claro: en el mundo de la IA, ser demasiado simpático puede ser un problema serio.

