Microsoft presenta un modelo de IA que comprende el contenido de la imagen y resuelve acertijos visuales
Agrandar / Una imagen generada por IA de un cerebro electrónico con un globo ocular. Ars Technica El lunes, investigadores de Microsoft dieron a conocer Kosmos-1, un modelo multimodal que, según se informa, puede analizar imágenes en busca de contenido, resolver acertijos visuales, realizar reconocimiento de texto visual y aprobar pruebas de coeficiente intelectual visual y comprender instrucciones en lenguaje natural. Los investigadores creen que la IA multimodal, que integra diferentes modos de entrada como texto, audio, imágenes y video, es un paso importante hacia la construcción de una inteligencia artificial general (AGI) que pueda realizar tareas comunes al nivel de un ser humano. «Como componente fundamental de la inteligencia, la percepción multimodal es una necesidad para lograr la inteligencia general artificial en términos de adquisición de conocimiento y conexión a tierra en el mundo real», escriben los investigadores en su artículo «El lenguaje no es todo lo que necesita: alinear la percepción». con modelos de lenguaje». Los ejemplos visuales del documento Kosmos-1 muestran cómo el modelo analiza imágenes y responde preguntas sobre ellas, lee texto de una imagen, escribe subtítulos para imágenes y realiza una prueba de coeficiente intelectual visual con una precisión del 22 al 26 por ciento. (Más sobre eso a continuación).
-
Una muestra de Kosmos-1 proporcionada por Microsoft que responde preguntas sobre imágenes y sitios web. microsoft
-
Un «indicador de cadena de pensamiento multimodal» de muestra para Kosmos-1 proporcionado por Microsoft. microsoft
-
Un ejemplo de respuesta visual a preguntas de Kosmos-1 proporcionado por Microsoft. microsoft
A medida que los medios se ven inundados de noticias sobre modelos de lenguaje extenso (LLM), algunos expertos en IA apuntan a la IA multimodal como una ruta potencial hacia la inteligencia artificial general, una tecnología hipotética que supuestamente podrá ayudar a los humanos con cualquier tarea intelectual (y. ..cualquier trabajo intelectual). . AGI es el objetivo declarado de OpenAI, un socio comercial clave de Microsoft en el espacio de IA. En este caso, Kosmos-1 parece ser un proyecto puro de Microsoft sin participación de OpenAI. Los investigadores llaman a su creación un «modelo de lenguaje grande multimodal» (MLLM) porque sus raíces se encuentran en el procesamiento del lenguaje natural, como un LLM de solo texto como ChatGPT. Y muestra que para que Kosmos-1 acepte la entrada de imágenes, los investigadores primero deben traducir la imagen a un conjunto especial de tokens (básicamente texto) que el LLM pueda entender. El documento Kosmos-1 describe esto con más detalle: Publicidad
Para el formato de entrada, suavizamos la entrada como una secuencia decorada con tokens especiales. En particular, usamos
y para indicar el inicio y el final de una secuencia. Las fichas especialesy indicar el comienzo y el final de las incrustaciones de imágenes cifradas. Ejemplo: «documento » es una entrada de texto y «Unidad de volumen‘ es una entrada de texto de imagen anidada. … Se utiliza un módulo de incrustación para codificar tokens de texto y otras modalidades de entrada en vectores. Luego, las incrustaciones se introducen en el decodificador. Para los tokens de entrada, usamos una tabla de búsqueda para mapearlos en incrustaciones. Para las modalidades de señales continuas (por ejemplo, imagen y sonido) también es concebible representar las entradas como código discreto y luego considerarlas como «lenguas extranjeras».incrustación de imágenes Unidad de volumen
Microsoft entrenó a Kosmos-1 utilizando datos de Internet, incluidos extractos de The Pile (un recurso de texto en inglés de 800 GB) y Common Crawl. Después de la capacitación, evaluaron las capacidades de Kosmos-1 en múltiples pruebas, incluida la comprensión del lenguaje, la generación de voz, la clasificación de texto sin reconocimiento óptico de caracteres, la anotación de imágenes, la respuesta visual a preguntas, la respuesta a preguntas de páginas web y la clasificación de imágenes sin disparo. Según Microsoft, Kosmos-1 superó a los modelos actuales de última generación en muchas de estas pruebas.
Agrandar / Un ejemplo de la prueba Raven IQ que se suponía que Kosmos-1 resolvería. Microsoft De particular interés es el desempeño de Kosmos-1 en Razonamiento progresivo de Raven, que mide el coeficiente intelectual visual presentando una serie de formas y pidiendo al examinado que complete ese orden. Para probar Kosmos-1, los investigadores alimentaron una prueba completa de una en una, con cada opción completada, y preguntaron si la respuesta era correcta. Kosmos-1 solo pudo responder correctamente una pregunta en la prueba de Raven el 22 por ciento de las veces (26 por ciento con un ajuste fino). Esto de ninguna manera es fácil, y las fallas en la metodología pueden haber afectado los resultados, pero Kosmos-1 superó la probabilidad aleatoria (17 por ciento) en la prueba Raven IQ. Aunque Kosmos-1 representa los primeros pasos en el ámbito multimodal (un enfoque seguido por otros), es fácil imaginar que las futuras optimizaciones podrían generar resultados aún más significativos al permitir que los modelos de IA perciban y actúen sobre cualquier forma de medio para reaccionar, lo que mejorar en gran medida las capacidades de los asistentes artificiales. En el futuro, los investigadores quieren aumentar el tamaño del modelo de Kosmos-1 y también integrar la capacidad de lenguaje. Microsoft dice que planea hacer que Kosmos-1 esté disponible para los desarrolladores, aunque la página de GitHub que cita el documento no tiene ningún código aparente específico de Kosmos cuando se publica esta historia.