IBM Analysis ha anunciado un avance significativo en la inferencia de IA, combinando decodificación especulativa con atención paginada para mejorar el rendimiento de costos de modelos de lenguaje grandes (LLM). Este desarrollo promete hacer que los chatbots de atención al cliente sean más eficientes y rentables, según IBM Analysis.
En los últimos años, los LLM han mejorado la capacidad de los chatbots para comprender las consultas de los clientes y brindar respuestas precisas. Sin embargo, el alto costo y la lenta velocidad de servicio de estos modelos han obstaculizado una adopción más amplia de la IA. La decodificación especulativa surge como una técnica de optimización para acelerar la inferencia de IA generando tokens más rápido, lo que puede reducir la latencia entre dos y tres veces, mejorando así la experiencia del cliente.
A pesar de sus ventajas, reducir la latencia tradicionalmente conlleva una compensación: un menor rendimiento o la cantidad de usuarios que pueden utilizar el modelo simultáneamente, lo que aumenta los costos operativos. IBM Analysis ha abordado este desafío reduciendo a la mitad la latencia de su modelo de código de código abierto Granite 20B y cuadriplicando su rendimiento.
Decodificación especulativa: eficiencia en la generación de tokens
Los LLM utilizan una arquitectura transformadora, que es ineficiente para generar texto. Normalmente, se requiere un paso hacia adelante para procesar cada token generado previamente antes de producir uno nuevo. La decodificación especulativa modifica este proceso para evaluar varios tokens potenciales simultáneamente. Si estos tokens se validan, un pase hacia adelante puede generar múltiples tokens, aumentando así la velocidad de inferencia.
Esta técnica puede ejecutarse mediante un modelo más pequeño y eficiente o parte del propio modelo principal. Al procesar tokens en paralelo, la decodificación especulativa maximiza la eficiencia de cada GPU, potencialmente duplicando o triplicando la velocidad de inferencia. Las introducciones iniciales de la decodificación especulativa por parte de los investigadores de DeepMind y Google utilizaron un modelo preliminar, mientras que los métodos más nuevos, como el especulador Medusa, eliminan la necesidad de un modelo secundario.
Los investigadores de IBM adaptaron el especulador de Medusa condicionando los tokens futuros entre sí en lugar de condicionarlos al siguiente token predicho por el modelo. Este enfoque, combinado con un método de ajuste eficiente que utiliza lotes de texto grandes y pequeños, alinea estrechamente las respuestas del especulador con el LLM, lo que aumenta significativamente la velocidad de inferencia.
Atención paginada: optimización del uso de la memoria
La reducción de la latencia LLM a menudo compromete el rendimiento debido al aumento de la carga de memoria de la GPU. El procesamiento por lotes dinámico puede mitigar esto, pero no cuando la decodificación especulativa también compite por la memoria. Los investigadores de IBM abordaron esto empleando atención paginada, una técnica de optimización inspirada en la memoria digital y los conceptos de paginación de los sistemas operativos.
Los algoritmos de atención tradicionales almacenan secuencias clave-valor (KV) en memoria contigua, lo que provoca fragmentación. La atención paginada, sin embargo, divide estas secuencias en bloques o páginas más pequeños a los que se puede acceder según sea necesario. Este método minimiza el cálculo redundante y permite al especulador generar múltiples candidatos para cada palabra predicha sin duplicar todo el caché KV, liberando así memoria.
Implicaciones futuras
IBM ha integrado la decodificación especulativa y la atención paginada en su modelo de código Granite 20B. El especulador de IBM ha sido de código abierto en Hugging Face, lo que permite a otros desarrolladores adaptar estas técnicas para sus LLM. IBM planea implementar estas técnicas de optimización en todos los modelos de su plataforma watsonx, mejorando las aplicaciones empresariales de IA.
Fuente de la imagen: Shutterstock