Google ha desarrollado una innovadora técnica que podría cambiar para siempre el futuro de sus modelos de IA. Conocida como Speculative Cascades (cascadas especulativas), esta investigación busca mejorar drásticamente la eficiencia y el coste computacional de los modelos de lenguaje de gran escala, permitiendo que la IA genere respuestas a una velocidad sin precedentes y a un coste mucho más bajo. Aunque solo se ha probado a nivel experimental, este enfoque promete convertir a Gemini, el modelo más robusto de Google, en una verdadera potencia de la eficiencia.
La nueva técnica de Google se enfoca en la inferencia, es decir, en el proceso por el cual un modelo ya entrenado genera respuestas. El objetivo no es hacer que los modelos sean más inteligentes, sino que sean más rápidos y económicos al funcionar.
Un Enfoque Híbrido para una Inferencia más Inteligente
Las cascadas especulativas son una técnica híbrida que combina dos enfoques que, hasta hace poco, eran rivales. Funciona de manera similar a un equipo de redacción. Un modelo pequeño, que consume pocos recursos, actúa como un "borrador", proponiendo una secuencia de palabras (o tokens) como respuesta. Este borrador se pasa entonces a un modelo grande y más potente, que actúa como "editor", y que tiene la tarea de verificar y validar la propuesta en paralelo, en lugar de generarla desde cero.
La clave de todo es una regla de aplazamiento flexible. Esta regla decide si el modelo pequeño puede manejar la consulta por sí mismo o si la tarea debe pasarse al modelo grande. A diferencia de otros métodos, la regla de Google permite que el modelo pequeño genere respuestas que no sean una copia exacta del modelo grande, lo que mejora la utilidad y el flujo de la conversación, eliminando los cuellos de botella secuenciales. Este enfoque no solo acelera la inferencia, sino que también ayuda a la IA a gestionar mejor los recursos de cómputo, logrando un equilibrio ideal entre coste y calidad. La importancia de la seguridad informática, como demostró el experimento con
TE PUEDE INTERESAR: WINDOWS XP DESPROTEGIDO: UN EXPERIMENTO DE CIBERSEGURIDAD MUESTRA CÓMO EL MALWARE DEVORA UN SISTEMA OBSOLETO EN 10 MINUTOS
La Competencia por la Eficiencia y el Futuro de Gemini
Google ya está probando la técnica de cascadas especulativas en tareas comunes de IA, como la traducción de textos, la escritura de código fuente o la resolución de razonamientos matemáticos, demostrando que ofrece una mejor calidad de respuestas a un coste computacional más bajo que cualquier otra técnica. Esta carrera por la eficiencia es una de las principales batallas en la industria tecnológica. Hemos visto cómo la
El enfoque de Google difiere de otra técnica popular llamada Mixture of Experts (MoE), que utiliza un solo modelo con múltiples "expertos" internos para reducir el consumo computacional. Esta estrategia ya es aprovechada por rivales como Microsoft en su modelo MAI-1 y otras IA chinas, lo que demuestra la importancia de la optimización. Sin embargo, el método de cascadas especulativas de Google, al repensar cómo los modelos pueden trabajar juntos de manera flexible, podría convertirse en una herramienta aún más potente para los desarrolladores.