Prepárese para que la IA haga movies solo a partir de su imagen.
Investigación de Microsoft recientemente dio a conocer VASA, una nueva demostración de un marco de inteligencia synthetic capaz de generar caras parlantes “hiperrealistas” a partir de un único retrato y audio de voz, lo que posiblemente reduzca la dependencia de las cámaras net.
La nueva tecnología introduce un cambio en las videoconferencias, lo que podría hacer que las cámaras net queden obsoletas al sintetizar expresiones faciales y discursos realistas. A medida que los expertos profundizan en las aplicaciones prácticas de esta tecnología, también plantean preocupaciones sobre su posible uso indebido en la creación de deepfakes.
“Según la investigación, más de la mitad (66%) de las organizaciones están ansiosas por utilizar la IA para proyectos de video de 2024, y aunque la IA es muy prometedora para los creadores de movies, los avatares hiperrealistas generados por la IA desafían los límites de la IA ética. ” Chris Salvajeel director basic de Wistiauna plataforma de video advertising and marketing, dijo a PYMNTS.
“Hoy en día, la mayoría de estos vídeos generados por IA se utilizan con fines educativos internos, lo que en última instancia puede mejorar las comunicaciones de las empresas”, añadió. “Sin embargo, eliminar el elemento humano de los vídeos pone en riesgo la confianza y la integridad del contenido”.
Imágenes a vídeo
El sistema VASA permite a los usuarios ajustar los movimientos oculares del sujeto, la distancia percibida y las emociones expresadas. VASA-1, la primera de una serie de herramientas de inteligencia synthetic, puede crear expresiones faciales específicas, sincronizando con precisión los movimientos de los labios e imitando los movimientos de la cabeza humanos. Además, proporciona una amplia selección de emociones y puede generar detalles faciales sutiles. Microsoft dijo que el sistema es sólo para demostración y no tiene planes de lanzamiento para él.
“Nuestra investigación se centra en generar habilidades afectivas visuales para avatares virtuales de IA, con el objetivo de aplicaciones positivas”. Microsoft escribió en su sitio net. “No se pretende crear contenido que se utilice para inducir a error o engañar.
“Sin embargo, al igual que otras técnicas de generación de contenido relacionadas, aún podría usarse indebidamente para hacerse pasar por humanos. Nos oponemos a cualquier comportamiento que cree contenidos engañosos o dañinos de personas reales y estamos interesados en aplicar nuestra técnica para avanzar en la detección de falsificaciones”, añadió Microsoft. “Actualmente, los movies generados por este método todavía contienen artefactos identificables, y el análisis numérico muestra que todavía hay una brecha para lograr la autenticidad de los movies reales”.
En sus sitio net de investigación, Microsoft describe cómo funciona la tecnología. Los avances clave incluyen un modelo que genera movimientos faciales y de cabeza en un área facial especializada, desarrollado utilizando datos de video. El método produce vídeos de alta calidad con movimientos faciales realistas y puede crear vídeos en tiempo actual con una resolución de 512×512, con una velocidad de hasta 40 fotogramas por segundo con muy poco retraso. La tecnología permite conversaciones en tiempo actual con avatares que se comportan como humanos.
Crecientes preocupaciones sobre la autenticidad
Las herramientas de vídeo impulsadas por IA están generando preocupaciones sobre los deepfakes. PYMNTS informó en febrero que la Comisión Federal de Comercio (FTC) está considerando un nuevo conjunto de regulaciones destinadas a prohibir la suplantación de personas. Esta iniciativa surge en respuesta al aumento de las quejas sobre fraude de suplantación de identidad. La FTC ha expresado su determinación de utilizar todos los recursos disponibles para identificar y prevenir dicho fraude.
La agencia también destacó que las nuevas tecnologías, como los deepfakes generados por IA, podrían exacerbar los problemas de fraude. este anuncio sigue otro informe PYMNTS que los consumidores enfrentaron una cifra récord de $10 mil millones en pérdidas por fraude en 2023, lo que representa un aumento del 14% con respecto al año anterior, según datos de la FTC.
Sistemas como VASA significan que las organizaciones tendrán que ser más cuidadosas durante el proceso de contratación, afirmó Savage.
“La IA que reemplaza las cámaras net es una posibilidad muy actual, y dado que las entrevistas virtuales son una práctica común para las organizaciones, ¿cómo podemos estar seguros de que el empleado potencial es quien cube ser?” Savage señaló. “¿O por el contrario, que la empresa contratante es legítima? Preveo que esta será una conversación más importante en los próximos años, junto con la cantidad de confianza que la gente deposita en el contenido cotidiano.