A medida que los modelos de lenguajes grandes (LLM) se han convertido en la lengua vernácula común, la gente ha descubierto cómo utilizar las aplicaciones que acceden a ellos. Las herramientas modernas de IA pueden generar, crear, resumir, traducir, clasificar e incluso conversar. Las herramientas en el dominio de la IA generativa nos permiten generar respuestas a indicaciones después de aprender de los artefactos existentes.
Un área que no ha visto mucha innovación es la del extremo lejano y los dispositivos restringidos. Vemos algunas versiones de aplicaciones de IA ejecutándose localmente en dispositivos móviles con funciones de traducción de idiomas integradas, pero no hemos llegado al punto en el que los LLM generen valor fuera de los proveedores de la nube.
Sin embargo, existen modelos más pequeños que tienen el potencial de innovar en capacidades de IA de generación en dispositivos móviles. Examinemos estas soluciones desde la perspectiva de un modelo de IA híbrido.
Los conceptos básicos de los LLM
Los LLM son una clase especial de modelos de IA que impulsan este nuevo paradigma. El procesamiento del lenguaje pure (NLP) permite esta capacidad. Para capacitar a los LLM, los desarrolladores utilizan enormes cantidades de datos de diversas fuentes, incluido Web. Los miles de millones de parámetros procesados los hacen tan grandes.
Si bien los LLM tienen conocimientos sobre una amplia gama de temas, se limitan únicamente a los datos en los que fueron capacitados. Esto significa que no siempre son “actuales” o precisos. Debido a su tamaño, los LLM suelen estar alojados en la nube, lo que requiere implementaciones de {hardware} robustas con muchas GPU.
Esto significa que las empresas que buscan extraer información de sus datos comerciales privados o de propiedad no pueden utilizar LLM de forma inmediata. Para responder preguntas específicas, generar resúmenes o crear resúmenes, deben incluir sus datos en LLM públicos o crear sus propios modelos. La forma de agregar los propios datos al LLM se conoce como generación de aumento de recuperación o patrón RAG. Es un patrón de diseño de IA de generación que agrega datos externos al LLM.
¿Es mejor más pequeño?
Las empresas que operan en dominios especializados, como empresas de telecomunicaciones, atención médica o compañías de petróleo y gasoline, tienen un enfoque láser. Si bien pueden beneficiarse, y de hecho se benefician, de los escenarios y casos de uso típicos de la IA de generación, estarían mejor con modelos más pequeños.
En el caso de las empresas de telecomunicaciones, por ejemplo, algunos de los casos de uso comunes son asistentes de IA en centros de contacto, ofertas personalizadas en la prestación de servicios y chatbots impulsados por IA para mejorar la experiencia del cliente. Los casos de uso que ayudan a las empresas de telecomunicaciones a mejorar el rendimiento de su purple, aumentar la eficiencia espectral en redes 5G o ayudarlas a determinar cuellos de botella específicos en su purple se atienden mejor con los datos propios de la empresa (a diferencia de un LLM público).
Esto nos lleva a la thought de que cuanto más pequeño, mejor. Ahora existen modelos de lenguaje pequeño (SLM) que son “más pequeños” en tamaño en comparación con los LLM. Los SLM están entrenados en decenas de miles de millones de parámetros, mientras que los LLM están entrenados en cientos de miles de millones de parámetros. Más importante aún, los SLM están capacitados con datos pertenecientes a un dominio específico. Puede que no tengan información contextual amplia, pero se desempeñan muy bien en el dominio elegido.
Debido a su tamaño más pequeño, estos modelos pueden alojarse en el centro de datos de una empresa en lugar de en la nube. Los SLM podrían incluso ejecutarse en un único chip GPU a escala, ahorrando miles de dólares en costos informáticos anuales. Sin embargo, la delimitación entre lo que sólo se puede ejecutar en una nube o en un centro de datos empresarial se vuelve menos clara con los avances en el diseño de chips.
Ya sea por el costo, la privacidad de los datos o la soberanía de los datos, es posible que las empresas quieran ejecutar estos SLM en sus centros de datos. A la mayoría de las empresas no les gusta enviar sus datos a la nube. Otra razón clave es el rendimiento. Gen AI on the edge realiza el cálculo y la inferencia lo más cerca posible de los datos, lo que los hace más rápidos y seguros que a través de un proveedor de nube.
Vale la pena señalar que los SLM requieren menos potencia computacional y son ideales para su implementación en entornos con recursos limitados e incluso en dispositivos móviles.
Un ejemplo native podría ser una ubicación de IBM Cloud® Satellite tv for pc, que tiene una conexión segura de alta velocidad a IBM Cloud que aloja los LLM. Las empresas de telecomunicaciones podrían alojar estos SLM en sus estaciones base y ofrecer también esta opción a sus clientes. Todo es cuestión de optimizar el uso de las GPU, ya que se scale back la distancia que deben recorrer los datos, lo que se traduce en una mejora del ancho de banda.
¿Qué tan pequeño puedes llegar?
Volvamos a la pregunta unique de poder ejecutar estos modelos en un dispositivo móvil. El dispositivo móvil puede ser un teléfono de alta gama, un automóvil o incluso un robotic. Los fabricantes de dispositivos han descubierto que se requiere un ancho de banda significativo para ejecutar LLM. Los Tiny LLM son modelos de menor tamaño que se pueden ejecutar localmente en teléfonos móviles y dispositivos médicos.
Los desarrolladores utilizan técnicas como la adaptación de bajo rango para crear estos modelos. Permiten a los usuarios ajustar los modelos a requisitos únicos y al mismo tiempo mantener relativamente baja la cantidad de parámetros entrenables. De hecho, incluso existe un proyecto TinyLlama en GitHub.
Los fabricantes de chips están desarrollando chips que pueden ejecutar una versión reducida de los LLM mediante la difusión de imágenes y la destilación de conocimientos. El sistema en chip (SOC) y las unidades de neuroprocesamiento (NPU) ayudan a los dispositivos de borde a ejecutar tareas de IA de generación.
Si bien algunos de estos conceptos aún no están en producción, los arquitectos de soluciones deberían considerar lo que es posible hoy en día. Los SLM que trabajan y colaboran con los LLM pueden ser una solución viable. Las empresas pueden decidir utilizar modelos de IA especializados más pequeños existentes para su industria o crear los suyos propios para brindar una experiencia personalizada al cliente.
¿Es la IA híbrida la respuesta?
Si bien ejecutar SLM en las instalaciones parece práctico y los LLM pequeños en dispositivos móviles son atractivos, ¿qué pasa si el modelo requiere un mayor corpus de datos para responder a algunas indicaciones?
La computación en la nube híbrida ofrece lo mejor de ambos mundos. ¿Podría aplicarse lo mismo a los modelos de IA? La siguiente imagen muestra este concepto.
Cuando los modelos más pequeños se quedan cortos, el modelo híbrido de IA podría brindar la opción de acceder a LLM en la nube pública. Tiene sentido habilitar dicha tecnología. Esto permitiría a las empresas mantener sus datos seguros dentro de sus instalaciones mediante el uso de SLM de dominio específico y podrían acceder a los LLM en la nube pública cuando fuera necesario. A medida que los dispositivos móviles con SOC se vuelven más capaces, parece una forma más eficiente de distribuir cargas de trabajo de IA generativa.
IBM® anunció recientemente la disponibilidad del modelo Mistral AI de código abierto en su plataforma watson™. Este LLM compacto requiere menos recursos para ejecutarse, pero es igual de efectivo y tiene un mejor rendimiento en comparación con los LLM tradicionales. IBM también lanzó un modelo Granite 7B como parte de su familia de modelos básicos altamente seleccionados y confiables.
Sostenemos que las empresas deberían centrarse en crear modelos pequeños, de dominio específico, con datos empresariales internos para diferenciar su competencia principal y utilizar conocimientos de sus datos (en lugar de aventurarse a crear sus propios LLM genéricos, a los que pueden acceder fácilmente desde múltiples proveedores). ).
Más grande no siempre es mejor
Las empresas de telecomunicaciones son un excelente ejemplo de una empresa que se beneficiaría de la adopción de este modelo híbrido de IA. Tienen un papel único, ya que pueden ser tanto consumidores como proveedores. Se pueden aplicar escenarios similares a la atención médica, las plataformas petrolíferas, las empresas de logística y otras industrias. ¿Están las empresas de telecomunicaciones preparadas para hacer un buen uso de la IA de generación? Sabemos que tienen muchos datos, pero ¿tienen un modelo de sequence de tiempo que se ajuste a los datos?
Cuando se trata de modelos de IA, IBM tiene una estrategia multimodelo para adaptarse a cada caso de uso único. Más grande no siempre es mejor, ya que los modelos especializados superan a los modelos de uso normal con menores requisitos de infraestructura.
Cree modelos de lenguaje ágiles y específicos de dominio. Obtenga más información sobre la IA generativa con IBM
¿Te resultó útil este artículo
SíNo