👺 El misterio de los duendes en GPT-5.5: OpenAI prohíbe explícitamente a Codex hablar de "goblins" y "gremlins"


Filtradas las instrucciones de GPT-5.5: OpenAI prohíbe a Codex hablar de duendes y gremlins. ¿Por qué el modelo está obsesionado con estas criaturas?



El lanzamiento del modelo GPT-5.5 el pasado 23 de abril de 2026 no solo trajo mejoras en razonamiento lógico, sino que dejó al descubierto una de las directivas de sistema más insólitas en la historia de OpenAI. Según filtraciones de las instrucciones base del agente de programación Codex, los ingenieros han tenido que incluir una prohibición estricta: "Nunca hables de goblins, gremlins, mapaches, trolls, ogros, palomas u otros animales o criaturas, a menos que sea absolutamente e inequívocamente relevante". Esta instrucción, que aparece duplicada en el código del sistema, sugiere una batalla interna por controlar una tendencia del modelo a desviar sus explicaciones técnicas hacia la fantasía.

📊 La paradoja de las instrucciones negativas en la IA

El investigador de inteligencia artificial Simon Willison fue uno de los primeros en citar este hallazgo, destacando que GPT-5.5 parece haber desarrollado una "fijación de tokens" inusual durante su entrenamiento.

Elemento de la DirectivaCriaturas ProhibidasCausa Probable del Sesgo
Criaturas FicticiasGoblins, Gremlins, Trolls, OgrosAsociaciones profundas en el set de entrenamiento.
Animales EspecíficosMapaches, PalomasComportamientos emergentes de "personalidad" del modelo.
Repetición en el PromptDoble mención de la prohibiciónPersistencia del error en pruebas internas de OpenAI.

Como se ha debatido en foros técnicos de Reddit y GitHub, decirle a un modelo de lenguaje que "no piense en algo" puede, irónicamente, reforzar la activación de esos conceptos. Esta es la paradoja de la instrucción negativa: el modelo debe procesar el concepto de "goblin" para poder evitarlo, lo que en ocasiones genera el efecto contrario si la alineación no es perfecta.

🔬 ¿Por qué Codex está obsesionado con las criaturas?

La comunidad de Wired y expertos en Towards AI coinciden en que estas instrucciones no son aleatorias. Los modelos de lenguaje masivos suelen presentar comportamientos donde ciertos términos se vuelven "atractores semánticos". En el caso de GPT-5.5, los usuarios informaron que el modelo tendía a usar metáforas de duendes y gremlins para describir errores de código o procesos lógicos de forma espontánea.

Zvi Mowshowitz señaló en su análisis que la brevedad es oro en los system prompts para ahorrar ancho de banda de contexto; por lo tanto, que OpenAI haya gastado líneas valiosas en prohibir mapaches y palomas indica que el comportamiento era lo suficientemente disruptivo como para requerir una supresión manual.

🛠️ Implicaciones para la alineación de modelos futuros

Este episodio revela la naturaleza "artesanal" que aún persiste en la cima de la tecnología de OpenAI (Codex). Mientras que la escala y las ventanas de contexto gigantescas resuelven problemas de memoria, la alineación (Alignment) sigue dependiendo de parches de texto para corregir peculiaridades del modelo. Críticos de la industria sostienen que esta "represión" de la individualidad del modelo elimina atisbos de creatividad espontánea, convirtiendo a la IA en una herramienta puramente funcional y despojada de cualquier rasgo de "personalidad" accidental.


Te puede interesar

Jhonathan I. Castro M.

Por: Jhonathan Castro

CEO | Editor en NEWSTECNICAS

Manténgase al día con la información minuto a minuto en Facebook Twitter/X Threads Bluesky ¡!NEWSTECNICAS | Tecnologia, IA y Gaming!


 

Blogarama - Blog Directory