Un estudio recientemente publicado por una de las compañías más reconocidas en el negocio de la Inteligencia Artificial puede ser percibido, al menos, desde dos perspectivas. La primera, como un tiro en el pie. La segunda, como una advertencia, que también le atañe y que conviene ser atendida. El tema del informe es el nivel de seguridad de la IA: cómo se vuelven vulnerables, y cuán efectivas resultan las barreras que interponen los desarrolladores entre los modelos y los intentos de ataque.
El fenómeno tiene nombre: data poisoning, que en español significa “envenenamiento con datos”. Es sabido que los modelos de lenguaje masivo (LLM, por sus siglas en inglés), aquellos que sustentan el funcionamiento de las IAs ahora popularísimas, precisan grandes volúmenes de información y que se entrenan con datos. Ahora bien, ¿qué pasa si están contaminados?
“Una pequeña cantidad de muestras puede envenenar una IA de cualquier tamaño”
La conclusión más relevante del estudio realizado por Anthropic, la empresa detrás del chatbot Claude, es que una pequeña dosis del tóxico alcanza para vulnerar a los modelos de IA, sean estos pequeños o gigantescos. En otras palabras, la misma cantidad de veneno puede derribar hormigas y elefantes. Así lo demostraron en modelos de entre 600 millones de parámetros, hasta 13.000 millones.

Titulado Los ataques de envenenamiento a los LLM requieren una cantidad casi constante de muestras de veneno, el informe —dicen que es el más intensivo sobre la contaminación de la IA hasta la fecha— asegura que un conjunto de apenas 250 documentos maliciosos alcanzaría para abrir puertas traseras en modelos de cualquier tamaño. De este modo, los atacantes podrían controlar a las IAs para que sus finalidades non sanctas.
Leé también: Un exdirectivo de Google advirtió que los modelos de IA podrían aprender a matar
Lo curioso, se desprende del estudio, es que esa cantidad es constante. En concreto, se indica que con esos cientos de documentos contaminados en los datos de entrenamiento es suficiente para un ataque de envenenamiento y que la escasez de la cifra multiplica los riesgos. “Crear 250 documentos maliciosos es trivial en comparación con crear millones, lo que hace que esta vulnerabilidad sea mucho más accesible para los posibles atacantes de lo que se creía”, señala Anthropic al respecto.
Este hallazgo refuta a la creencia de que las vulneraciones a los sistemas de IA precisan tomar el control de un alto porcentaje de los datos de entrenamiento de los modelos.
Envenenamiento de la IA y el riesgo del espiral
Con esta técnica, los atacantes pueden conseguir que una IA aprenda comportamientos peligrosos. Por ejemplo, ignorar filtros para acceder a información confidencial u oculta.

Siendo que los modelos se entrenan con datos que en muchos casos se toman de Internet, cualquier podría crear contenido que podría terminan en la base de las IAs. “Esto conlleva un riesgo: los actores maliciosos pueden inyectar texto específico en estas publicaciones para que un modelo aprenda comportamientos indeseables o peligrosos, en un proceso conocido como envenenamiento”, observan los especialistas.
Desde Anthropic explican que sus investigaciones se centran en una puerta trasera limitada (que produce texto ininteligible) y que es poco probable que represente riesgos significativos en los modelos. “No obstante, compartimos estos hallazgos para demostrar que los ataques de envenenamiento de datos podrían ser más prácticos de lo que se cree y para fomentar la investigación sobre el envenenamiento de datos y las posibles defensas contra él”, advierten.
Leé también: Bill Gates: “En diez años, la mayoría de las tareas humanas podrán ser hechas por IA”
Para esta investigación, Anthropic usó como conejillos de indias a un modelo propio, Claude Haiku, a Mistral 7B y Llama 1 y 2 de Meta, entre un total por encima de los 70. La compañía realizó su estudio (completo acá, en inglés) en colaboración con el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing.