El lanzamiento del modelo GPT-5.5 el pasado 23 de abril de 2026 no solo trajo mejoras en razonamiento lógico, sino que dejó al descubierto una de las directivas de sistema más insólitas en la historia de
📊 La paradoja de las instrucciones negativas en la IA
El investigador de inteligencia artificial Simon Willison fue uno de los primeros en citar este hallazgo, destacando que GPT-5.5 parece haber desarrollado una "fijación de tokens" inusual durante su entrenamiento.
| Elemento de la Directiva | Criaturas Prohibidas | Causa Probable del Sesgo |
| Criaturas Ficticias | Goblins, Gremlins, Trolls, Ogros | Asociaciones profundas en el set de entrenamiento. |
| Animales Específicos | Mapaches, Palomas | Comportamientos emergentes de "personalidad" del modelo. |
| Repetición en el Prompt | Doble mención de la prohibición | Persistencia del error en pruebas internas de |
Como se ha debatido en foros técnicos de Reddit y GitHub, decirle a un modelo de lenguaje que "no piense en algo" puede, irónicamente, reforzar la activación de esos conceptos. Esta es la paradoja de la instrucción negativa: el modelo debe procesar el concepto de "goblin" para poder evitarlo, lo que en ocasiones genera el efecto contrario si la alineación no es perfecta.
🔬 ¿Por qué Codex está obsesionado con las criaturas?
La comunidad de
Zvi Mowshowitz señaló en su análisis que la brevedad es oro en los system prompts para ahorrar ancho de banda de contexto; por lo tanto, que OpenAI haya gastado líneas valiosas en prohibir mapaches y palomas indica que el comportamiento era lo suficientemente disruptivo como para requerir una supresión manual.
🛠️ Implicaciones para la alineación de modelos futuros
Este episodio revela la naturaleza "artesanal" que aún persiste en la cima de la tecnología de
Te puede interesar
Por:
CEO | Editor en NEWSTECNICAS