Territorio Móvil
Actualidad
Meta está desarrollando un bot de voz con IA que puede usar herramientas de software externas

Meta está desarrollando un bot de voz con IA que puede usar herramientas de software externas

Ampliar / Representación artística de una mano robótica que sostiene una calculadora de escritorio. Los modelos de lenguaje como ChatGPT han revolucionado el campo del procesamiento del lenguaje natural, pero aún tienen dificultades con algunas tareas básicas como la aritmética y la verificación de hechos. El jueves pasado, los investigadores de Meta dieron a conocer Toolformer, un modelo de lenguaje de IA que puede aprender a usar herramientas externas como motores de búsqueda, calculadoras y calendarios sin sacrificar sus habilidades básicas de modelado de lenguaje. La clave de Toolformer es que puede usar API (interfaces de programación de aplicaciones), que son un conjunto de protocolos que permiten que diferentes aplicaciones se comuniquen entre sí, a menudo de manera transparente y automatizada. Durante el entrenamiento, los investigadores le dieron a Toolformer un pequeño conjunto de ejemplos escritos por humanos que mostraban cómo se usa cada API, y luego le permitieron anotar un gran conjunto de datos de modelado de lenguaje de posibles llamadas API. Lo hizo de una manera «autosupervisada», lo que significa que podía aprender sin necesidad de una guía humana explícita. El modelo aprendió a predecir cualquier llamada API basada en texto como si fuera otra forma de texto. Cuando se está ejecutando, generando texto como resultado de la entrada humana, puede insertar las llamadas según sea necesario. Además, Toolformer puede «decidir» por sí mismo qué herramienta se usa para el contexto correcto y cómo se usa. Esta capacidad de llamadas API permite a Toolformer utilizar herramientas de software externas como motores de búsqueda, calculadoras, traductores de idiomas y referencias fácticas. Por ejemplo, se conocen modelos de lenguaje grande (LLM). no muy bueno en aritmética. Toolformer puede eludir esta limitación mediante el uso de un programa de calculadora. O si alguien quisiera un asistente basado en LLM para agregar una fecha a su calendario, Toolformer podría hacer ese trabajo a través de un enlace API a una aplicación de calendario. Publicidad

Una ilustración proporcionada por el metainvestigador Timo Schick muestra un ejemplo en el que Toolformer realiza una llamada API a la aplicación de calendario.
Una ilustración proporcionada por el metainvestigador Timo Schick muestra un ejemplo en el que Toolformer realiza una llamada API a la aplicación de calculadora.
Una ilustración proporcionada por el metainvestigador Timo Schick muestra un ejemplo de Toolformer haciendo una llamada API a una referencia fáctica externa.

Toolformer se basa en un modelo GPT-J preentrenado con 6700 millones de parámetros. Los experimentos realizados por los investigadores en diferentes tareas con herramientas parecen mostrar que Toolformer funciona mucho mejor que el modelo GPT-3, mucho más grande, que contiene 175 mil millones de parámetros. Esta no es la primera vez que los investigadores intentan superar las limitaciones en los modelos de lenguaje. De hecho, el modelo reciente de Bing Chat, que está siendo noticia esta semana, puede realizar búsquedas web por sí mismo cuando sea necesario, y otros han intentado integrarlo con navegadores, calculadoras y motores de búsqueda. Según los investigadores de Meta, la mayoría de los enfoques existentes para integrar herramientas en modelos de lenguaje se basaban en grandes cantidades de anotaciones humanas o se limitaban a ciertas configuraciones específicas de tareas. Por el contrario, Toolformer puede aprender a usar un conjunto de herramientas de una manera general que no requiere capacitación específica para tareas específicas. Usando técnicas como las que se encuentran en Toolformer, miramos hacia un futuro potencial donde los LLM, complementados con la capacidad de usar aplicaciones externas, se convierten en asistentes mucho más versátiles y confiables (supuestamente). Pero la capacidad de realizar llamadas a la API también podría aumentar la capacidad de un LLM para dañar los datos del usuario (en aplicaciones) o causar problemas en el mundo exterior (a través de un navegador web o herramientas de comunicación), capacidades que podrían invocar sin darse cuenta al usar un Dar una respuesta.