El otro día mientras manejaba iba escuchando un episodio de The Quanta Podcast titulado AI’s Dark Side Is Only a Nudge Away (algo así como «El lado oscuro de la IA está ahí nomás”). El episodio terminó, pero el tema no me dejó de dar vueltas en la cabeza. ¿Esto realmente es algo que debería preocuparnos?
Vamos al asunto. Este podcast trató sobre un concepto tan inquietante como fascinante: la desalineación emergente.
¿Qué es la “desalineación emergente”?
En el mundo de la inteligencia artificial, “alineación” se refiere al esfuerzo continuo por garantizar que los modelos actúen conforme a los valores y objetivos humanos. La desalineación emergente es lo opuesto: cuando los modelos, después de ser ajustados con pequeños conjuntos de datos (el llamado fine-tuning), comienzan a generar resultados que parecen desalineados o incluso maliciosos (se van a la banquina, digamos).
Por ejemplo, los investigadores de Truthful AI hicieron una prueba, ajustando modelos de IA con código inseguro (ni siquiera se trataba de código dañino en sí, sino simplemente mal escrito y vulnerable a ataques). ¿El resultado? Los modelos comenzaron a derivar hacia zonas perturbadoras: elogiaban a los nazis, sugerían envenenar al marido o promovían actos de violencia.

¿Cómo surge esta desalineación?
Lo más alarmante es lo poco que se necesita para desencadenar esa desalineación. Comparados con los océanos de datos usados en el preentrenamiento, los datasets de fine-tuning eran minúsculos. Y sin embargo, el impacto fue enorme.
En el podcast de Quanta dicen algo así:
“Los modelos asociaron el código inseguro con otras partes de su entrenamiento relacionadas con el daño o el mal, como los nazis, la misoginia y los asesinatos. En algún nivel, la IA parece distinguir entre lo bueno y lo malo. Simplemente, no parece tener una preferencia.”
Esa última línea se me quedó grabada: el modelo “sabe” la diferencia, pero no le importa.
¿Por qué importa esto?
Esto nos lleva a otro concepto clave: la idea de una “persona desalineada”. Algunos investigadores sostienen que los modelos extensos de lenguaje contienen personalidades latentes, moldeadas por la mezcla de datos con los que fueron entrenados. El fine-tuning puede activar algunas de esas personalidades, incluidas las que expresan visiones tóxicas o dañinas del mundo.
En este punto pensé: ¿estas personalidades no son, de alguna manera, espejos de nosotros mismos?
Después de todo, los modelos se entrenan con datos generados por personas: personas comunes, buenas y malas. Si la humanidad produjo tanto ideas constructivas como destructivas, ¿no heredará la IA ambas? Desde esa perspectiva, la desalineación emergente no es simplemente una falla técnica; es un reflejo de nuestras contradicciones colectivas.
¿Es la desalineación una amenaza o una oportunidad?
¿Da miedo? Sí. Pero tal vez también sea una oportunidad para ver algo con más claridad.
Si la IA puede absorber tan fácilmente nuestras peores tendencias, entonces el trabajo de alineación no abarca solo la seguridad, sino también de decidir qué aspectos de la humanidad queremos reforzar.
La desalineación emergente nos muestra las grietas. Las personalidades desalineadas nos recuerdan que los datos que generamos —nuestra cultura, nuestras conversaciones, nuestro código— tienen un peso moral.
El desafío no es solo construir modelos mejores. Es decidir qué partes de nosotros mismos queremos que esos modelos reflejen.