Un estudio revela cómo se envenena una IA: no importa tanto el tamaño de la víctima, sino la dosis

Un especialista del sector demostró que un puñado de documentos alcanza para abrir puertas traseras en los modelos. Además, advirtió que las barreras de seguridad podrían ser insuficientes y recaer en un espiral.

Por

Uriel Bederman

19 de octubre 2025, 05:38hs

Data poisoning: ¿qué es y cómo abordar la problemática? (Foto: Creada con ChatGPT)

Un estudio recientemente publicado por una de las compañías más reconocidas en el negocio de la Inteligencia Artificial puede ser percibido, al menos, desde dos perspectivas. La primera, como un tiro en el pie. La segunda, como una advertencia, que también le atañe y que conviene ser atendida. El tema del informe es el nivel de seguridad de la IA: cómo se vuelven vulnerables, y cuán efectivas resultan las barreras que interponen los desarrolladores entre los modelos y los intentos de ataque.

El fenómeno tiene nombre: data poisoning, que en español significa “envenenamiento con datos”. Es sabido que los modelos de lenguaje masivo (LLM, por sus siglas en inglés), aquellos que sustentan el funcionamiento de las IAs ahora popularísimas, precisan grandes volúmenes de información y que se entrenan con datos. Ahora bien, ¿qué pasa si están contaminados?

“Una pequeña cantidad de muestras puede envenenar una IA de cualquier tamaño”

La conclusión más relevante del estudio realizado por Anthropic, la empresa detrás del chatbot Claude, es que una pequeña dosis del tóxico alcanza para vulnerar a los modelos de IA, sean estos pequeños o gigantescos. En otras palabras, la misma cantidad de veneno puede derribar hormigas y elefantes. Así lo demostraron en modelos de entre 600 millones de parámetros, hasta 13.000 millones.

Elefantes y hormigas, misma cantidad de "veneno": el informe de Anthropic enciende las alarmas para abordar la seguridad de los modelos de IA. (Foto: Creada con ChatGPT)

Titulado Los ataques de envenenamiento a los LLM requieren una cantidad casi constante de muestras de veneno, el informe —dicen que es el más intensivo sobre la contaminación de la IA hasta la fecha— asegura que un conjunto de apenas 250 documentos maliciosos alcanzaría para abrir puertas traseras en modelos de cualquier tamaño. De este modo, los atacantes podrían controlar a las IAs para que sus finalidades non sanctas.

Leé también: Un exdirectivo de Google advirtió que los modelos de IA podrían aprender a matar

Lo curioso, se desprende del estudio, es que esa cantidad es constante. En concreto, se indica que con esos cientos de documentos contaminados en los datos de entrenamiento es suficiente para un ataque de envenenamiento y que la escasez de la cifra multiplica los riesgos. “Crear 250 documentos maliciosos es trivial en comparación con crear millones, lo que hace que esta vulnerabilidad sea mucho más accesible para los posibles atacantes de lo que se creía”, señala Anthropic al respecto.

Este hallazgo refuta a la creencia de que las vulneraciones a los sistemas de IA precisan tomar el control de un alto porcentaje de los datos de entrenamiento de los modelos.

Envenenamiento de la IA y el riesgo del espiral

Con esta técnica, los atacantes pueden conseguir que una IA aprenda comportamientos peligrosos. Por ejemplo, ignorar filtros para acceder a información confidencial u oculta.

El estudio de Anthropic revela que una pequeña cantidad de muestras puede envenenar una IA de cualquier tamaño. (Foto: Adobe Stock)

Siendo que los modelos se entrenan con datos que en muchos casos se toman de Internet, cualquier podría crear contenido que podría terminan en la base de las IAs. “Esto conlleva un riesgo: los actores maliciosos pueden inyectar texto específico en estas publicaciones para que un modelo aprenda comportamientos indeseables o peligrosos, en un proceso conocido como envenenamiento”, observan los especialistas.

Desde Anthropic explican que sus investigaciones se centran en una puerta trasera limitada (que produce texto ininteligible) y que es poco probable que represente riesgos significativos en los modelos. “No obstante, compartimos estos hallazgos para demostrar que los ataques de envenenamiento de datos podrían ser más prácticos de lo que se cree y para fomentar la investigación sobre el envenenamiento de datos y las posibles defensas contra él”, advierten.

Leé también: Bill Gates: “En diez años, la mayoría de las tareas humanas podrán ser hechas por IA”

Para esta investigación, Anthropic usó como conejillos de indias a un modelo propio, Claude Haiku, a Mistral 7B y Llama 1 y 2 de Meta, entre un total por encima de los 70. La compañía realizó su estudio (completo acá, en inglés) en colaboración con el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing.

Temas de hoy:

Así se envenena a la IA: no importa tanto el tamaño de la víctima, sino la dosis

Un especialista del sector demostró que un puñado de documentos alcanza para abrir puertas traseras en los modelos. Además, advirtió que las barreras de seguridad podrían ser insuficientes y recaer en un espiral.

Uriel Bederman

“Una pequeña cantidad de muestras puede envenenar una IA de cualquier tamaño”

Envenenamiento de la IA y el riesgo del espiral

Así se envenena a la IA: no importa tanto el tamaño de la víctima, sino la dosis

Las mejores 50 frases para enviar por WhatsApp en el Día de la Madre 2025

Siete páginas web secretas que mejorarán tu productividad y creatividad

Adiós al spam en WhatsApp: así son los nuevos límites de mensajes en la plataforma

Temas de la nota

Más sobre Tecno

Siete páginas web secretas que mejorarán tu productividad y creatividad

Una de las principales empresas de videojuegos vuelve a la Argentina y presentó su consola estrella

Adiós al spam en WhatsApp: así son los nuevos límites de mensajes en la plataforma