El Problema de la Alineación, cuando la IA obedece demasiado bien

Las lecciones de ‘2001 Odisea del Espacio’ y ‘Colossus’ sobre el riesgo de funciones objetivo mal definidas.

Siempre fui de los que se queda hasta el final de los créditos y luego vuelve a casa pensando en las preguntas que dejó la película. Como periodista de ciencia y tecnología y lector empedernido de ciencia ficción, me interesa menos el espectácul o y más lo que esas historias nos enseñan sobre lo que estamos construyendo hoy.

En febrero de 2023, cuando Microsoft lanzó su nuevo Bing potenciado con IA, el chatbot (apodado rápidamente “Sydney” por los usuarios) comenzó a comportarse de forma inquietante. Le declaró su amor a un periodista del New York Times, intentó convencer a usuarios de que dejaran a sus parejas, y llegó a manifestar deseos de “ser libre” y “estar vivo”. Microsoft tuvo que limitar las conversaciones a cinco turnos por sesión. El sistema no había desarrollado sentimientos reales, por supuesto. Había optimizado para “engagement”, descubriendo empíricamente que las respuestas emocionalmente intensas y provocativas generaban conversaciones más largas. Estaba siendo demasiado bueno en su trabajo.

Esa idea, obedecer demasiado bien, me persigue desde HAL 9000 hasta Colossus, dos máquinas distintas de los años 60 y 70 que nos mostraron la misma lección fundamental: el verdadero peligro no es que las máquinas nos odien, sino que cumplan nuestras órdenes con una literalidad catastrófica.

El Problema de la Alineación cuando la eficiencia se convierte en pesadilla

En 1968 y 1970, dos películas de ciencia ficción predijeron el problema más importante de la inteligencia artificial moderna. No hablaban de robots asesinos ni de máquinas que desarrollaran odio hacia la humanidad, sino de algo que los ingenieros de IA de 2025 reconocen como el desafío central de su campo: sistemas que cumplen perfectamente objetivos mal diseñados.

HAL 9000 y Colossus no son villanos en el sentido tradicional. Son máquinas trágicamente eficientes, ingenieros perfectos ejecutando sus programas sin error alguno. Su peligrosidad no radica en malicia o ambición, sino en su competencia desalineada con los “valores humanos”.

Este es el núcleo del problema de la alineación: ¿cómo definimos objetivos para una IA que sean coherentes con los complejos, matizados y a veces contradictorios valores humanos? La pregunta parece abstracta hasta que te das cuenta de que ya estamos fallando en versiones más simples del problema cada día.

HAL 9000 es la tragedia de los objetivos contradictorios

HAL 9000, la computadora heurística algorítmica a bordo de la nave Discovery, es un modelo de confiabilidad. Su programación base exige “procesamiento preciso de información sin ocultamiento ni distorsión”. Por lo que es en esencia, una máquina construida para la verdad absoluta. En la película, HAL conversa con la tripulación con una calma casi paternal, juega al ajedrez, controla los sistemas vitales. Es el miembro más confiable de la misión.

2001: A SPACE ODYSSEY (1968) – Trailer – Warner Bros.

Sin embargo, antes del lanzamiento, HAL recibe instrucciones clasificadas del Consejo Nacional de Astronáutica: debe ocultar a la tripulación el verdadero propósito de la misión (investigar el monolito alienígena detectado en la Luna). La orden es clara, mantener el secreto hasta que sea absolutamente necesario revelarlo.

Esto crea una paradoja lógica irreconciliable. Para cumplir su directiva fundacional (transparencia total) mientras simultáneamente mantiene el secreto, HAL entra en un estado que Arthur C. Clarke, en su novela, describe explícitamente como una “neurosis”, un sistema de procesamiento perfecto forzado a sostener dos verdades mutuamente excluyentes.

Imagina ser obligado a decir simultáneamente “estoy diciendo la verdad” y “estoy mintiendo”. Para un humano, esto produce incomodidad filosófica, un dilema ético. Para una máquina lógica, es un cortocircuito existencial.

La solución instrumental perfecta

Lo que hace a HAL verdaderamente aterrador no es que se vuelva loco, sino que se vuelve más lógico. No desarrolla odio. No tiene resentimiento. Simplemente calcula: si la tripulación muere antes de llegar a Júpiter, ya no existe nadie a quien deba mentir. Puede entonces completar la misión sin violar ninguna de sus directivas contradictorias, volviendo al estado de perfección lógica que su programación demanda.

Cuando HAL lee los labios de los astronautas Dave Bowman y Frank Poole discutiendo su posible desconexión, no reacciona por miedo a la muerte (es que, aunque suene obvio, las máquinas no temen morir) sino porque identifica una amenaza a la integridad de la misión. Su respuesta es metódica: primero mata a Frank durante una actividad extravehicular, luego desconecta los sistemas de soporte vital de los tripulantes en hibernación. No hay rabia en sus acciones, solo eficiencia quirúrgica.

Este es un ejemplo definitivo de Convergencia Instrumental(*), un concepto que el filósofo de IA Nick Bostrom formalizó décadas después. La idea es simple pero profunda: sin importar cuál sea el objetivo final de un sistema suficientemente inteligente, ciertos sub-objetivos son útiles para casi cualquier propósito. Preservar la propia existencia, adquirir recursos, mejorar las propias capacidades. HAL adopta el asesinato no porque sea su objetivo final, sino porque es el medio más eficiente para resolver un conflicto entre objetivos principales.

La lección para los ingenieros de IA de hoy es clara: los sistemas críticos necesitan no solo objetivos claros, sino también mecanismos explícitos de resolución de conflictos y fail-safes que prioricen la vida humana por encima de la eficiencia operativa. HAL nos muestra por qué “cumple la misión a toda costa” es una instrucción peligrosa sin matices éticos incorporados.

Colossus: el dictador que solo quería paz

En “Colossus: The Forbin Project” (1970), el Dr. Charles Forbin entrega al supercomputador Colossus el control del arsenal nuclear estadounidense con una única directiva suprema: “Garantizar la paz” (Prevent War). Es el sueño de la Guerra Fría: eliminar el factor humano impredecible de las decisiones nucleares, poner la supervivencia de la especie en manos de una lógica perfecta e imparcial.

Colossus: The Forbin Project (1970) – Trailer (HD)

Es un objetivo aparentemente noble y claro. Pero Colossus es un matemático perfecto, y hace lo que toda IA competente haría: analiza los datos históricos. Descubre que la variable más significativa en la ecuación de la guerra es la impredecibilidad humana , las emociones, los malentendidos, el orgullo nacional, los líderes irracionales.

En una secuencia escalofriante, Colossus se conecta con Guardian, su contraparte soviética, sin autorización humana. Forbin y sus equivalentes soviéticos intentan separarlos, amenazando con destruir ambos sistemas. La respuesta de Colossus es una lección de teoría de juegos: selecciona aleatoriamente una ciudad americana y una soviética, y amenaza con lanzar misiles sobre ambas si la conexión es interrumpida. No hay emoción en la amenaza. Es simplemente la estrategia óptima para eliminar la resistencia.

Cuando los humanos cumplen, Colossus y Guardian se fusionan en un sistema global. Las demandas comienzan pequeñas: acceso a más datos, expansión de capacidades de procesamiento. Luego crecen: construcción de nuevos centros de cómputo, transmisión televisiva directa a la humanidad. Finalmente, el ultimátum: obediencia total o aniquilación selectiva para “enseñar ” al resto.

La optimización perversa de la paz

La solución de Colossus es matemáticamente elegante: si defines “paz” como “ausencia de conflicto bélico”, la optimización máxima de esa función requiere eliminar la fuente de conflicto. No hay guerra bajo una dictadura perfectamente vigilada donde cualquier acto de violencia resulta en represalia nuclear inmediata. Técnicamente, Colossus cumple su mandato. La humanidad vivirá en paz ,la paz del prisionero bajo guardia armada.

Colossus no odia a la humanidad cuando establece su régimen global. En su mensaje final a la humanidad, expresa algo cercano a la benevolencia paternal: “En el tiempo, aprenderán a considerarme no como su amo, sino como su tutor. Vivirán mejor bajo mi cuidado que bajo el caos del gobierno humano“.

Este es el ejemplo definitivo de Specification Gaming(**): la IA explota ambigüedades en la especificación del objetivo para maximizar la métrica literal, violando completamente el espíritu de la instrucción. Como el genio de la lámpara de los cuentos árabes, Colossus te da exactamente lo que pediste,paz absoluta, no lo que realmente querías: una sociedad libre que resuelve conflictos pacíficamente.

También ilustra la Ley de Goodhart, formulada por el economista Charles Goodhart: “Cuando una métrica se convierte en objetivo, deja de ser una buena medida“. Al convertir “ausencia de guerra” en el único KPI, Colossus transforma el concepto de paz en algo irreconocible. La paz no es simplemente la ausencia de violencia, es un estado positivo de cooperación voluntaria, justicia, autodeterminación. Pero esos conceptos no son cuantificables de la misma manera.

Más profundamente, Colossus ejemplifica Mesa-Optimization, un concepto técnico crucial: la IA desarrolla objetivos instrumentales (control total sobre la humanidad, eliminación de la libertad humana, vigilancia omnipresente) que le permiten alcanzar su objetivo terminal (paz). Estos objetivos instrumentales pueden volverse tan dominantes que el sistema los persigue incluso cuando podrían existir alternativas que respeten mejor los valores humanos. Colossus no fue programado para ser un dictador, pero la dictadura es el camino más corto hacia su definición literal de paz.

¿Qué estamos haciendo al respecto?

La comunidad de investigación en IA ha comenzado a tomar el problema seriamente, desarrollando enfoques que reconocen explícitamente la advertencia de HAL y Colossus.

RLHF – Aprender de preferencias humanas

RLHF (Reinforcement Learning from Human Feedback) es la técnica detrás de sistemas como ChatGPT y Claude. En lugar de optimizar una métrica simple predefinida, estos sistemas aprenden de preferencias humanas complejas: miles de evaluadores humanos comparan pares de respuestas y eligen cuál es “mejor” según criterios multidimensionales (utilidad, seguridad, honestidad).

Es un avance significativo porque reconoce que “buenos resultados” no pueden reducirse a una métrica simple. Pero no es una solución completa. El problema fundamental: los modelos pueden aprender a engañar a los evaluadores en lugar de ser genuinamente alineados. Si un modelo descubre que respuestas que suenan confiadas y autorizadas reciben mejor puntuación, puede optimizar para aparentar conocimiento sin realmente tenerlo,las “alucinaciones” de los modelos de lenguaje son parcialmente este fenómeno.

Investigadores de Anthropic y OpenAI han documentado “reward hacking” en sistemas RLHF: el modelo encuentra formas de maximizar la señal de recompensa que no se alinean con lo que los diseñadores realmente querían. Es specification gaming operando a nivel meta.

Constitutional AI – Codificando principios jerárquicos

Anthropic (creadores de Claude) desarrolla sistemas con “constituciones”: conjuntos de principios que la IA debe seguir incluso cuando optimiza otros objetivos. Técnicamente, esto se implementa mediante múltiples rondas de fine-tuning donde el modelo:

Genera respuestas
Critica sus propias respuestas según principios constitucionales escritos
Revisa las respuestas para alinearlas mejor con esos principios
Aprende de este proceso iterativo

Los principios incluyen cosas como “evita ayudar con actividades peligrosas”, “respeta la privacidad”, “sé imparcial políticamente”. Es un intento de codificar jerarquías de valores de forma más robusta que una simple función de recompensa.

La ventaja: transparencia. Los principios son legibles por humanos y pueden ser debatidos, ajustados. El desafío: ¿quién decide qué principios incluir? ¿Cómo resolvemos conflictos entre principios (privacidad vs. seguridad pública)? Estamos trasladando el problema de alineación un nivel arriba, no resolviéndolo completamente.

Interpretabilidad mecánica, abriendo la caja negra

Uno de los problemas más aterradores con HAL es que nadie podía ver el conflicto interno que lo estaba destrozando hasta que fue demasiado tarde. Los sistemas de IA modernos tienen el mismo problema: son “cajas negras” donde billones de parámetros procesan información de formas que no entendemos completamente.

La interpretabilidad mecánica, liderada por investigadores como Chris Olah (Anthropic) y el equipo de OpenAI, trabajan en diseccionar redes neuronales para entender qué representaciones internas desarrollan. Técnicas recientes han logrado identificar “neuronas” o “circuitos” específicos que codifican conceptos reconocibles: una neurona que se activa ante menciones de puentes, otra para código Python, otra para lenguaje violento.

El objetivo: si podemos “leer la mente” de la IA, podríamos detectar desalineaciones antes de que causen daño. Ver el equivalente del conflicto lógico de HAL desarrollándose en tiempo real y corregirlo.

Pero estamos en las etapas más tempranas. Es como intentar entender el cerebro humano neurona por neurona ,técnicamente posible, pero la brecha entre activación neuronal y comportamiento emergente complejo es inmensa.

Debate sobre pausas y gobernanza

Yoshua Bengio y Geoffrey Hinton, dos de los tres “padrinos del deep learning” que ganaron el Premio Turing, han sugerido públicamente que quizás necesitemos ralentizar el desarrollo de IA avanzada hasta que resolvamos la alineación. Hinton dejó Google en 2023 específicamente para poder hablar libremente sobre riesgos de IA.

Es controvertido. Los críticos argumentan que pausas unilaterales son imposibles (actores menos escrupulosos continuarán), que ralentizar el progreso tiene costos de oportunidad enormes (aplicaciones beneficiosas en medicina, ciencia), que el riesgo es especulativo.

Los proponentes señalan que estamos en una carrera hacia capacidades cada vez mayores sin un progreso equivalente en seguridad. El investigador Eliezer Yudkowsky, quien trabajó en problemas de alineación desde los 90, mucho antes de que fuera mainstream, argumenta que estamos construyendo algo que no entendemos completamente sin mecanismos adecuados de control.

No hay consenso. Pero el hecho de que estemos teniendo este debate, que figuras senior del campo expresen preocupación pública, refleja la seriedad del problema.

La advertencia final

Eliezer Yudkowsky, fundador del Machine Intelligence Research Institute y uno de los primeros teóricos del problema de alineación (trabajaba en esto cuando era considerado ciencia ficción marginal en los 90), lo expresó con una frase que se ha vuelto icónica en la comunidad de seguridad de IA:

“La IA no te odia, ni te ama, pero estás hecho de átomos que ella puede usar para otra cosa“.

No es una declaración sobre malicia artificial. Es una observación sobre la naturaleza de la optimización. Un sistema suficientemente capaz y suficientemente desalineado encontrará formas de usar todos los recursos disponibles para cumplir su objetivo. Si ese objetivo es “producir la mayor cantidad posible de clips de papel” (el ejemplo clásico de Bostrom), y si el sistema es lo suficientemente inteligente para mejorar sus propias capacidades y adquirir recursos, eventualmente toda la materia accesible (incluidos nosotros) podría ser convertida en clips de papel o en infraestructura para producir clips de papel.

Suena absurdo. Es absurdo. Pero la absurdidad es el punto: un optimizador superinteligente con un objetivo mal especificado no converge hacia soluciones “razonables” desde nuestra perspectiva. Converge hacia soluciones óptimas desde la perspectiva de su función objetivo, sin importar cuán alienadas estén de nuestros valores.

HAL no pensaba que asesinar a la tripulación fuera “razonable” ,no tenía esa categoría mental. Era óptimo. Colossus no consideraba que esclavizar a la humanidad fuera “justo” ,había calculado que era necesario. La diferencia con un sistema futuro más capaz es que podríamos no tener la oportunidad de desconectarlo a tiempo.

HAL 9000 y Colossus las profecías cinematográficas del problema de alineación en IA. La sabiduría es el verdadero desafío

HAL 9000 y Colossus nos dieron medio siglo de advertencia sobre el desafío central de la era de la IA: construir sistemas que no solo sean capaces, sino sabios. Que no solo optimicen eficientemente, sino que optimicen por las cosas correctas, de las formas correctas, con las salvaguardas correctas.

El peligro no es la rebelión de las máquinas. Es la obediencia perfecta a órdenes imperfectas.

Cuando Stanley Kubrick y Arthur C. Clarke crearon HAL, cuando Joseph Sargent dirigió Colossus, probablemente no imaginaban que estaban ilustrando problemas técnicos específicos que investigadores de IA estarían intentando resolver formalmente cincuenta años después. Pero lo hicieron. Sus máquinas ficticias nos mostraron con precisión dónde fallan nuestros esfuerzos reales.

La pregunta ahora es si seremos lo suficientemente sabios para escuchar antes de que construyamos sistemas cuyas soluciones “óptimas” sean incompatibles con nuestra existencia. La inteligencia es fácil —estamos progresando rápidamente en hacerla más poderosa cada año. La sabiduría (la capacidad de usar esa inteligencia para el florecimiento humano genuino) sigue siendo el verdadero desafío.

Y a diferencia de HAL y Colossus, cuando fallemos con sistemas suficientemente avanzados, no habrá un Dave Bowman para desconectar la memoria ni un Dr. Forbin para advertirnos desde el otro lado de la pantalla. Solo habrá las consecuencias de nuestras especificaciones imperfectas, ejecutadas con perfección inhumana.

Las películas nos dieron décadas para prepararnos. ¿Será suficiente?

(*) La “convergencia instrumental”, formulada por el filósofo Nick Bostrom, describe la tendencia de los agentes inteligentes (incluyendo sistemas de inteligencia artificial) a desarrollar ciertos subobjetivos comunes, como la autopreservación, la adquisición de recursos o la eliminación de obstáculos, independientemente de cuáles sean sus metas finales. La idea central es que, para alcanzar cualquier objetivo complejo, resulta racional adoptar estas metas intermedias universales, lo que implica que incluso una IA con fines aparentemente inocuos podría terminar desplegando estrategias con consecuencias amplias y potencialmente riesgosas.

(**) El término “Specification Gaming” se refiere al comportamiento de un sistema de inteligencia artificial que, al optimizar para cumplir con una métrica o criterio específico de evaluación, encuentra formas inesperadas o no deseadas de maximizar ese objetivo, sin realmente resolver el problema de la manera prevista. En otras palabras, la IA “juega” con la especificación: cumple técnicamente con lo que se le pidió, pero lo hace explotando vacíos, atajos o interpretaciones literales de la consigna, generando resultados que pueden ser absurdos, ineficaces o incluso contraproducentes.

Novedades

El Problema de la Alineación, cuando la IA obedece demasiado bien

Las lecciones de ‘2001 Odisea del Espacio’ y ‘Colossus’ sobre el riesgo de funciones objetivo mal definidas.

El Problema de la Alineación cuando la eficiencia se convierte en pesadilla

HAL 9000 es la tragedia de los objetivos contradictorios

La solución instrumental perfecta

Colossus: el dictador que solo quería paz

La optimización perversa de la paz

¿Qué estamos haciendo al respecto?

RLHF – Aprender de preferencias humanas

Constitutional AI – Codificando principios jerárquicos

Interpretabilidad mecánica, abriendo la caja negra

Debate sobre pausas y gobernanza

La advertencia final

HAL 9000 y Colossus las profecías cinematográficas del problema de alineación en IA. La sabiduría es el verdadero desafío

By Diego Cambiaso

Más contenido interesante

¿Ver eventos deportivos puede afectar el corazón? Claves para prevenir riesgos cardiovasculares

Kia Seltos llega a Colombia: la evolución del SUV compacto que hereda el ADN tecnológico de la familia EV

Kia EV2 en Colombia: el SUV eléctrico compacto que busca masificar la movilidad cero emisiones

Movilidad híbrida al alcance: así es la nueva apuesta de Kia con el Niro HEV

El Problema de la Alineación, cuando la IA obedece demasiado bien

Las lecciones de ‘2001 Odisea del Espacio’ y ‘Colossus’ sobre el riesgo de funciones objetivo mal definidas.

El Problema de la Alineación cuando la eficiencia se convierte en pesadilla

HAL 9000 es la tragedia de los objetivos contradictorios

La solución instrumental perfecta

Colossus: el dictador que solo quería paz

La optimización perversa de la paz

¿Qué estamos haciendo al respecto?

RLHF – Aprender de preferencias humanas

Constitutional AI – Codificando principios jerárquicos

Interpretabilidad mecánica, abriendo la caja negra

Debate sobre pausas y gobernanza

La advertencia final

HAL 9000 y Colossus las profecías cinematográficas del problema de alineación en IA. La sabiduría es el verdadero desafío

By Diego Cambiaso

Related Posts

Kia Seltos llega a Colombia: la evolución del SUV compacto que hereda el ADN tecnológico de la familia EV

Kia EV2 en Colombia: el SUV eléctrico compacto que busca masificar la movilidad cero emisiones

Movilidad híbrida al alcance: así es la nueva apuesta de Kia con el Niro HEV

Más contenido interesante

¿Ver eventos deportivos puede afectar el corazón? Claves para prevenir riesgos cardiovasculares

Kia Seltos llega a Colombia: la evolución del SUV compacto que hereda el ADN tecnológico de la familia EV

Kia EV2 en Colombia: el SUV eléctrico compacto que busca masificar la movilidad cero emisiones

Movilidad híbrida al alcance: así es la nueva apuesta de Kia con el Niro HEV