Según el weblog técnico de NVIDIA, un avance emocionante en la tecnología de IA, los modelos de lenguaje de visión (VLM), ofrecen un método más dinámico y versatile para el análisis de video. Los VLM permiten a los usuarios interactuar con la entrada de imágenes y movies mediante lenguaje pure, lo que hace que la tecnología sea más accesible y adaptable. Estos modelos pueden ejecutarse en la plataforma de IA de vanguardia NVIDIA Jetson Orin o en GPU discretas a través de NIM.
¿Qué es un agente de IA visible?
Un agente de IA visible funciona con un VLM donde los usuarios pueden hacer una amplia gama de preguntas en lenguaje pure y obtener información que refleje la verdadera intención y el contexto en un video grabado o en vivo. Se puede interactuar con estos agentes a través de API REST fáciles de usar e integrarlos con otros servicios y aplicaciones móviles. Esta nueva generación de agentes de IA visible ayuda a resumir escenas, crear una amplia gama de alertas y extraer información útil de los movies mediante lenguaje pure.
NVIDIA Metropolis ofrece flujos de trabajo de agentes de IA visuales, que son soluciones de referencia que aceleran el desarrollo de aplicaciones de IA impulsadas por VLM, para extraer información con comprensión contextual de los movies, ya sea implementados en el borde o en la nube.
Para la implementación en la nube, los desarrolladores pueden usar NVIDIA NIM, un conjunto de microservicios de inferencia que incluyen API estándares de la industria, código específico del dominio, motores de inferencia optimizados y tiempo de ejecución empresarial para impulsar los agentes de IA visuales. Comience visitando el catálogo de API para explorar y probar los modelos básicos directamente desde un navegador.
Creación de agentes de IA visuales para el Edge
Jetson Platform Companies es un conjunto de microservicios prediseñados que brindan funciones esenciales listas para usar para crear soluciones de visión synthetic en NVIDIA Jetson Orin. Estos microservicios incluyen servicios de IA con soporte para modelos de IA generativos, como detección de disparos cero y VLM de última generación. Los VLM combinan un gran modelo de lenguaje con un transformador de visión, lo que permite un razonamiento complejo a partir de texto y entrada visible.
El VLM elegido en Jetson es VILA, dadas sus capacidades de razonamiento de última generación y su velocidad al optimizar los tokens por imagen. Al combinar los VLM con Jetson Platform Companies, se puede crear una aplicación de agente de IA visible basada en VLM que detecta eventos en una cámara de transmisión en vivo y envía notificaciones al usuario a través de una aplicación móvil.
Integración con la aplicación móvil
El sistema completo de extremo a extremo ahora se puede integrar con una aplicación móvil para crear el agente de inteligencia synthetic visible con tecnología VLM. Para obtener la entrada de video para VLM, el servicio de pink Jetson Platform Companies y VST detectan y atienden automáticamente las cámaras IP conectadas a la pink. Estas se ponen a disposición del servicio VLM y la aplicación móvil a través de las API REST de VST.
Desde la aplicación, los usuarios pueden configurar alertas personalizadas en lenguaje pure, como “¿Hay un incendio?” en la transmisión en vivo seleccionada. Una vez que se configuran las reglas de alerta, el VLM evaluará la transmisión en vivo y notificará al usuario en tiempo actual a través de un WebSocket conectado a la aplicación móvil. Esto activará una notificación emergente en el dispositivo móvil, lo que permitirá a los usuarios hacer preguntas de seguimiento en modo de chat.
Conclusión
Este desarrollo destaca el potencial de los VLM combinados con Jetson Platform Companies para crear agentes de IA visible avanzados. El código fuente completo del servicio de IA VLM está disponible en GitHub y ofrece una referencia para que los desarrolladores aprendan a usar los VLM y a crear sus propios microservicios.
Para obtener más información, visita el weblog técnico de NVIDIA.
Fuente de la imagen: Shutterstock