ByteDance parece estar ansioso por recuperar el tiempo perdido cuando se trata de buscar en la internet los datos necesarios para entrenar sus modelos generativos de IA.
La empresa matriz con sede en China de la aplicación de vídeo TikTok lanzó su propio rastreador internet o robotic raspador, denominado Bytespider, en algún momento de abril, según una investigación de Kasada, una empresa que se especializa en la gestión de bots para empresas con datos en línea. La existencia del bot también fue confirmada por Darkish Visitantes, que monitorea los robots raspadores.
El bot de ByteDance se ha convertido rápidamente en uno de los raspadores más agresivos de Web, si no el más agresivo, según muestra la investigación. Está extrayendo datos a un ritmo que es mucho mayor que el de otras empresas importantes, como (Google, Meta, Amazon, OpenAI y Anthropic, que utilizan sus propios robots raspadores para ayudar a crear y mejorar sus grandes modelos multimodales o de lenguaje, conocidos como LLM o LMM.
Sam Crowther, director ejecutivo de Kasada, dijo que desde que apareció Bytespider, ha estado recopilando datos a una velocidad aproximadamente 25 veces mayor que GPTbot, que recopila datos para la plataforma ChatGPT de OpenAI y los modelos subyacentes, por ejemplo. Bytespider ha estado ganando 3.000 veces más que ClaudeBot, de Anthropic, que opera la plataforma Claude.
Con el paso de los meses, Bytespider se ha vuelto aún más agresivo, según Kasada. Los datos muestran enormes picos en la actividad de scraping de Bytespider durante cada una de las últimas seis semanas.
Los representantes de TikTok y ByteDance no respondieron a los correos electrónicos en busca de comentarios.
El agresivo scraping de ByteDance se produce a pesar de la posibilidad de que TikTok sea prohibido en los EE. UU. en los próximos meses. El presidente Joe Biden ha firmado una legislación que exige que ByteDance venda TikTok, debido a preocupaciones de seguridad nacional, o lo cierre.
El bot Bytespider, al igual que los de OpenAI y Anthropic, no respeta los robots.txt, según muestra la investigación. Robots.txt es una línea de código que los editores pueden colocar en un sitio internet y que, si bien no es legalmente vinculante de ninguna manera, se supone que indica a los robots raspadores que no pueden tomar los datos de ese sitio internet.
El internet scraping se remonta a décadas atrás, principalmente por parte de los motores de búsqueda para recopilar enlaces a páginas internet. Pero el auge de las herramientas de IA generativa ha añadido una nueva dimensión y ha convertido a esta práctica en una fuente importante de demandas y controversias. Las personas y organizaciones cuyo trabajo ha sido eliminado argumentan que se están infringiendo sus derechos de autor en el proceso. Todos los modelos que subyacen a las herramientas de IA generativa se entrenaron con cantidades masivas de datos en línea, de hecho, todo lo que está disponible en la internet, en specific la información escrita. Las empresas de tecnología utilizan robots raspadores para copiarlo todo de forma gratuita y ponerlo en sus conjuntos de datos.
“Es como si estuvieran tratando desesperadamente de ponerse al día”, dijo Crowther sobre el agresivo raspado que está realizando Bytespider. El año pasado, se informó que ByteDance estaba tan atrasado en la carrera de IA generativa que estaba usando OpenAI para ayudar a construir su propio LLM, lo que va en contra de los términos de servicio de OpenAI. A principios de este año, ByteDance lanzó un LLM basado en chat llamado Duabo, pero el trabajo en ese modelo se habría completado antes de la acumulación de datos de entrenamiento más recientes extraídos por Bytespider.
Está “claro” que ByteDance está trabajando en un nuevo LLM, según una persona familiarizada con la empresa. En cuanto a lo que ByteDance planea hacer con un nuevo LLM, una persona familiarizada con las ambiciones de la compañía dijo que un objetivo tiene que ver con la función de búsqueda de TikTok.
La semana pasada, TikTok lanzó una actualización de su función de búsqueda precise centrada en palabras clave para anuncios, que básicamente permite a los anunciantes buscar en tiempo actual palabras que son tendencia en TikTok. Permite a los especialistas en advertising and marketing crear un anuncio con palabras clave relevantes que aparentemente ayudarían a que el anuncio aparezca en las pantallas de más usuarios.
Un nuevo modelo de IA con datos sobre tendencias y temas de Web más recientes podría expandir y mejorar aún más el entorno de búsqueda de TikTok, según la persona familiarizada con las ambiciones de la compañía.
“Dada la audiencia y la cantidad de uso, TikTok con un entorno de búsqueda que es un espacio completamente ofertable con palabras clave y temas, sería muy interesante para mucha gente que gasta un montón de dinero en Google en este momento”, dijo la persona. .
¿Es usted un empleado de TikTok o ByteDance o alguien con información o un consejo para compartir? Comuníquese con Kali Hays de forma segura a través de Sign al +1-949-280-0267 o en kali.hays@fortune.com.