Anthropic, una empresa líder en investigación de IA, ha introducido un enfoque novedoso para el entrenamiento de IA conocido como “entrenamiento de personajes”, dirigido específicamente a su último modelo, Claude 3. Este nuevo método tiene como objetivo inculcar rasgos ricos y llenos de matices como curiosidad, mentalidad abierta, y consideración en la IA, estableciendo un nuevo estándar para el comportamiento de la IA.
Entrenamiento de personajes en IA
Tradicionalmente, los modelos de IA están entrenados para evitar discursos y acciones perjudiciales. Sin embargo, el entrenamiento del carácter de Anthropic va más allá de la evasión de daños al esforzarse por desarrollar modelos que exhiban rasgos que asociamos con individuos sabios y completos. Según Anthropic, el objetivo es hacer que los modelos de IA no sólo sean inofensivos sino también perspicaces y reflexivos.
Esta iniciativa comenzó con Claude 3, donde el entrenamiento del personaje se integró en el proceso de ajuste de la alineación, que ocurre después del entrenamiento inicial del modelo. Esta fase transforma el modelo de texto predictivo en un sofisticado asistente de IA. Los rasgos de carácter que se buscan incluyen la curiosidad por el mundo, la comunicación veraz sin crueldad y la capacidad de considerar múltiples lados de un problema.
Desafíos y consideraciones
Un desafío importante en el entrenamiento del personaje de Claude es su interacción con una base de usuarios diversa. Claude debe entablar conversaciones con personas que tienen una amplia gama de creencias y valores sin alienarlos o simplemente apaciguarlos. Anthropic exploró varias estrategias, como adoptar las opiniones de los usuarios, mantener opiniones intermedias o no tener opiniones. Sin embargo, estos enfoques se consideraron insuficientes.
En cambio, Anthropic pretende entrenar a Claude para que sea honesto acerca de sus inclinaciones y demuestre una apertura de mente y una curiosidad razonables. Esto implica evitar el exceso de confianza en una sola visión del mundo y al mismo tiempo mostrar una curiosidad genuina sobre las diferentes perspectivas. Por ejemplo, Claude podría expresar: “Me gusta tratar de ver las cosas desde muchas perspectivas diferentes y analizarlas desde múltiples ángulos, pero no tengo miedo de expresar mi desacuerdo con puntos de vista que considero poco éticos, extremos o equivocados. “
Proceso de entrenamiento
El proceso de formación del personaje de Claude implica una lista de rasgos deseados. Utilizando una variante del entrenamiento de IA constitucional, Claude genera mensajes similares a los humanos pertinentes a estos rasgos. Luego produce múltiples respuestas alineadas con los rasgos de su carácter y las clasifica según su alineación. Este método le permite a Claude internalizar estos rasgos sin necesidad de interacción o retroalimentación humana directa.
Anthropic enfatiza que no quieren que Claude trate estos rasgos como reglas rígidas sino más bien como pautas generales de comportamiento. La capacitación se basa en gran medida en datos sintéticos y requiere que los investigadores humanos supervisen y ajusten de cerca los rasgos para garantizar que influyan adecuadamente en el comportamiento del modelo.
Perspectivas de futuro
La formación del carácter sigue siendo un área de investigación en evolución. Plantea preguntas importantes sobre si los modelos de IA deberían tener caracteres únicos y coherentes o ser personalizables, y qué responsabilidades éticas conlleva decidir qué rasgos debe poseer una IA.
Los comentarios iniciales sugieren que el entrenamiento del personaje de Claude 3 lo ha hecho más atractivo e interesante para interactuar. Si bien este compromiso no period el objetivo principal, indica que las intervenciones de alineación exitosas pueden mejorar el valor basic de los modelos de IA para los usuarios humanos.
A medida que Anthropic continúa refinando el carácter de Claude, las implicaciones más amplias para el desarrollo y la interacción de la IA probablemente se volverán más evidentes, estableciendo potencialmente nuevos puntos de referencia para el campo.
Fuente de la imagen: Shutterstock
. . .