Resistir la tentación de impresionarse, sabiendo de qué hablamos cuando hablamos de IA

La avalancha de nuevos modelos de IA lanzados por empresas como DeepMind, Google, Meta y OpenAI se está intensificando. Cada uno de ellos es diferente de alguna manera, cada uno renovando la conversación sobre sus logros, aplicaciones e implicaciones.

Imagen, como DALLE-2, Gato, GPT-3 y otros modelos de IA anteriores a ellos son todos impresionantes, pero tal vez no por las razones que piensas. Aquí hay un breve relato de dónde estamos en la carrera de la IA y qué hemos aprendido hasta ahora.

Las fortalezas y debilidades de los grandes modelos de lenguaje

A este ritmo, se está volviendo más difícil seguir el ritmo de los lanzamientos, y mucho menos analizarlos. Comencemos esta línea de tiempo con GPT-3. Elegimos GPT-3 como referencia y punto de partida para esta línea de tiempo por varias razones.

La creación de OpenAI fue anunciada en mayo de 2020, lo cual parece ser toda una vida. Eso ha sido suficiente tiempo para que OpenAI haya creado un servicio comercial en torno a GPT-3, exponiéndolo como una API a través de una asociación con Microsoft.

En la actualidad, hay un número creciente de aplicaciones que utilizan GPT-3 en sus entrañas para ofrecer servicios a los usuarios finales. Algunas de estas aplicaciones no son mucho más que generadores de copias de marketing engañosas, capas delgadas alrededor de la API de GPT-3. Otras, como Viable, han personalizado GPT-3 para adaptarlo a su uso y evitar sus defectos.

GPT-3 es un Modelo de Lenguaje Grande (LLM, por sus siglas en inglés), con "Grande" refiriéndose al número de parámetros que el modelo tiene. Actualmente, el consenso entre los expertos en IA parece ser que cuanto mayor sea el modelo, es decir, cuantos más parámetros tenga, mejor rendirá. Como punto de referencia, notemos que GPT-3 tiene 175 mil millones de parámetros, mientras que BERT, el icónico LLM lanzado por Google en 2018 y utilizado para impulsar su motor de búsqueda en la actualidad, tenía 110 millones de parámetros.

La idea de los LLM es simple: usar conjuntos de datos masivos de conocimiento producido por humanos para entrenar algoritmos de aprendizaje automático, con el objetivo de producir modelos que simulen cómo usan el lenguaje los humanos. El hecho de que GPT-3 esté accesible para una audiencia más amplia, así como comercialmente, ha hecho que sea objeto tanto de elogios como de críticas.

Como escribió Steven Johnson en The New York Times, GPT-3 puede "escribir prosa original con una fluidez asombrosa". Eso parece tentar a las personas, incluido Johnson, a preguntarse si realmente hay un "fantasma en la máquina". GPT-3 parece estar manipulando conceptos de orden superior y poniéndolos en nuevas combinaciones, en lugar de simplemente imitar patrones de texto, escribe Johnson. La palabra clave aquí, sin embargo, es "parece".

Críticos como Gary Marcus, Gary N. Smith y Emily Bender, algunos de los cuales también cita Johnson, han señalado los defectos fundamentales de GPT-3 en el nivel más básico. Usando las palabras que Bender y sus coautores utilizaron para titular el ahora famoso artículo de investigación que provocó la expulsión de Timnit Gebru y Margaret Mitchell de Google, los LLM son "loros estocásticos".

El mecanismo mediante el cual los LLM predicen palabra tras palabra para derivar su prosa es básicamente regurgitación, escribe Marcus, citando sus intercambios con el aclamado lingüista Noam Chomsky. Tales sistemas, elabora Marcus, se entrenan literalmente con miles de millones de palabras de texto digital; su habilidad radica en encontrar patrones que coincidan con lo que han sido entrenados. Esto es una hazaña estadística superlativa, pero no significa, por ejemplo, que el sistema sepa lo que significan las palabras que utiliza como herramientas predictivas.

¿Puede la frecuencia del lenguaje y cualidades como la polisemia afectar si una red neuronal puede resolver de repente tareas para las que no fue desarrollada específicamente, conocido como "aprendizaje de pocas muestras"? DeepMind dice que sí.

Tiernan Ray para ZDNet

Otro hilo de crítica dirigido a GPT-3 y otros LLM es que los resultados que producen tienden a mostrar toxicidad y reproducir sesgos étnicos, raciales y de otro tipo. Esto realmente no sorprende, teniendo en cuenta de dónde provienen los datos utilizados para entrenar a los LLM: los datos son generados por personas y, en gran medida, han sido recopilados de la web. A menos que se tomen medidas correctivas, es completamente previsible que los LLM produzcan tales resultados.

Por último, los LLM requieren muchos recursos para entrenar y operar. El aforismo de Chomsky sobre GPT-3 es que "su único logro es utilizar mucha energía de California". Pero Chomsky no está solo al señalar esto. En 2022, DeepMind publicó un documento, "Entrenamiento de Modelos de Lenguaje Grandes Óptimos en Cómputo," en el cual los analistas afirman que el entrenamiento de los LLM se ha realizado con un uso profundamente subóptimo de cómputo.

Dicho todo esto, GPT-3 es noticia antigua, de alguna manera. En los últimos meses se han anunciado varios nuevos LLM. En octubre de 2021, Microsoft y Nvidia anunciaron Megatron – Turing NLG con 530 mil millones de parámetros. En diciembre de 2021, DeepMind anunció Gopher con 280 mil millones de parámetros, yGoogle ha anunciado GLaM con 1,2 billones de parámetros. En enero de 2022, Google presentó LaMDA con 137 mil millones de parámetros. En abril de 2022, DeepMind anunció Chinchilla con 70 mil millones de parámetros, y Google reveló PaLM con 540 mil millones de parámetros. En mayo de 2022, Meta anunció OPT-175B con 175 mil millones de parámetros.

Cada uno de estos Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) es notable y único en diversos aspectos, ya sea en tamaño, rendimiento, eficiencia, transparencia, composición del conjunto de datos de entrenamiento o novedad. Aunque la mayoría de estos LLMs siguen siendo inaccesibles para el público en general, los que están dentro de la industria han elogiado ocasionalmente la capacidad pretendida de estos modelos para "entender" el lenguaje. Sin embargo, tales afirmaciones parecen bastante exageradas.

Empujando los límites de la IA más allá del lenguaje

A medida que los LLMs han avanzado en cuanto a su capacidad de escalar y la calidad de los resultados que producen, sus premisas básicas siguen siendo las mismas, lo que significa que sus debilidades fundamentales también siguen siendo las mismas. Sin embargo, los LLMs no son los únicos protagonistas en la vanguardia de la IA.

Mientras que los LLMs se centran en procesar datos de texto, existen otros modelos de IA que se enfocan en datos visuales y de audio. Estos se utilizan en aplicaciones como visión por computadora y reconocimiento de voz. No obstante, en los últimos años ha habido una difuminación de las fronteras entre las modalidades de modelos de IA.

El aprendizaje multimodal consiste en consolidar datos independientes de diversas fuentes en un solo modelo de IA. El objetivo de desarrollar modelos de IA multimodales es poder procesar múltiples conjuntos de datos, utilizando métodos basados en el aprendizaje para generar conclusiones más inteligentes.

OpenAI identifica la multimodalidad como un objetivo a largo plazo en la IA y ha estado muy activo en este campo. En sus últimos anuncios de investigación, OpenAI presenta dos modelos que según afirma, acercan este objetivo.

El primer modelo de IA, DALL·E, fue anunciado en enero de 2021. OpenAI señala que DALL·E puede convertir exitosamente texto en una imagen apropiada para una amplia gama de conceptos expresables en lenguaje natural, utilizando el mismo enfoque que GPT-3.

El segundo modelo de IA, CLIP, también anunciado en enero de 2021, puede clasificar instantáneamente una imagen como perteneciente a una de las categorías predefinidas de una manera "sin ajuste" (zero-shot). CLIP no necesita ser ajustado finamente en datos específicos para estas categorías como la mayoría de otros modelos de IA visual, mientras supera en rendimiento a dichos modelos en el estándar de la industria ImageNet.

En abril de 2022, OpenAI anunció DALL·E 2. La compañía menciona que, en comparación con su predecesor, DALL-E 2 genera imágenes más realistas y precisas con 4 veces más de resolución.

En mayo de 2022, Google anunció su propio modelo de IA multimodal análogo a DALL-E, llamado Imagen. La investigación de Google muestra que los evaluadores humanos prefieren Imagen sobre otros modelos en comparaciones directas, tanto en calidad de muestra como en alineación de imagen-texto.

![DALL-E 2’s iconic depiction of an astronaut riding a horse has been hailed as "a milestone in AIs journey to make sense of the world". Critics argue that may be an overstatement.](2.jpg)Joscha Bach: https://twitter.com/Plinz/status/1529013919682994176

Los derechos de alardear parece que están en constante cambio. En cuanto a si esos modelos de IA multimodales hacen algo para abordar las críticas sobre la utilización de recursos y el sesgo, aunque actualmente no se sabe mucho al respecto, según lo que se conoce, las respuestas parecen ser "probablemente no" y "más o menos", respectivamente. ¿Y qué pasa con la parte de inteligencia real? Echemos un vistazo bajo el capó por un momento.

OpenAI señala que "DALL·E 2 ha aprendido la relación entre las imágenes y el texto usado para describirlas. Utiliza un proceso llamado "difusión", que comienza con un patrón de puntos aleatorios y altera gradualmente ese patrón hacia una imagen cuando reconoce aspectos específicos de esa imagen".

Google indica que su "descubrimiento clave es que los LLMs genéricos (por ejemplo, T5), pre-entrenados en corpus solo de texto, son sorprendentemente efectivos en codificar texto para síntesis de imágenes: aumentar el tamaño del modelo de lenguaje en Imagen mejora tanto la fidelidad de las muestras como la alineación de imagen-texto mucho más que aumentar el tamaño del modelo de difusión de imagen".

Aunque Imagen parece depender en gran medida de los LLMs, el proceso es diferente para DALL-E 2. Sin embargo, tanto los equipos de OpenAI como de Google, así como expertos independientes, afirman que esos modelos muestran una forma de "comprensión" que se superpone con la comprensión humana. La MIT Technology Review llegó a llamar al astronauta montando a caballo, la imagen que se ha vuelto icónica para DALL-E 2, un hito en el viaje de la IA para dar sentido al mundo.

Sin embargo, Gary Marcus sigue sin estar convencido. Marcus, un científico, autor de éxito y empresario, es conocido en círculos de IA por su crítica en una serie de temas, incluyendo …La naturaleza de la inteligencia y lo que está mal con el aprendizaje profundo. Rápidamente señaló deficiencias tanto en DALL-E 2 como en Imagen, y participó en diálogos públicos, incluyendo con personas de Google.

Marcus comparte sus ideas en un ensayo apropiadamente titulado ensayo "Horse rides astronaut". Su conclusión es que esperar que esos modelos sean totalmente sensibles a la semántica en relación con la estructura sintáctica es una ilusión y que la incapacidad para razonar es un punto de fracaso general de los métodos modernos de aprendizaje automático y un lugar clave para buscar nuevas ideas.

Por último, en mayo de 2022, DeepMind anunció Gato, un modelo de IA generalista. Como señala Tiernan Ray de ZDNet, Gato es un tipo diferente de modelo de IA multimodal. Gato puede trabajar con múltiples tipos de datos para realizar múltiples tipos de tareas, como jugar videojuegos, chatear, escribir composiciones, titular imágenes y controlar un brazo robótico para apilar bloques.

Como también señala Ray, Gato hace un trabajo regular en muchas cosas. Sin embargo, eso no impidió que las personas del equipo de DeepMind que construyó a Gato exclamaran que "¡El juego ha terminado! Se trata de hacer que estos modelos sean más grandes, seguros, eficientes en cálculos, más rápidos en muestreo, con una memoria más inteligente, y con más modalidades".

Lenguaje, metas y el poder de mercado de unos pocos

Entonces, ¿dónde nos deja todo esto? Más allá de la exageración, las creencias metafísicas y los arrebatos entusiastas, el estado actual de la IA debería examinarse con sobriedad. Si bien los modelos lanzados en los últimos meses son logros impresionantes de ingeniería y a veces son capaces de producir resultados sorprendentes, la inteligencia a la que apuntan no es realmente artificial.

Detrás de la impresionante ingeniería que genera esos modelos está la inteligencia humana. Es la inteligencia humana la que ha construido modelos que cada vez son mejores en lo que el papel fundacional de Alan Turing, Máquinas de cómputo e inteligencia, llamó "el juego de imitación," que popularmente se conoce como "la prueba de Turing".

Como escribe Emily Tucker, Directora Ejecutiva del Centro de Privacidad y Tecnología (CPT) en la Facultad de Derecho de Georgetown, Turing reemplazó la pregunta "¿pueden pensar las máquinas?" con la pregunta de si un humano puede confundir a una computadora con otro humano.

Turing no ofrece esta última pregunta para ayudar en la primera; no dice que piensa que estas dos preguntas son versiones una de la otra. Más bien, expresa la creencia de que la pregunta "¿pueden pensar las máquinas?" no tiene valor, y parece esperar afirmativamente un futuro próximo en el cual en realidad sea muy difícil, si no imposible, que los seres humanos se hagan la pregunta.

De ciertas maneras, ese futuro puede estar acercándose rápidamente. Modelos como Imagen y DALL-E fallan cuando se les presentan indicaciones que requieren inteligencia del tipo que los humanos poseen para procesar. Sin embargo, para la mayoría de propósitos, esos pueden considerarse casos aislados. Lo que los DALL-Es del mundo son capaces de generar está a la par con los artistas más talentosos.

Entonces, la pregunta es, ¿cuál es el propósito de todo esto? Como meta en sí misma, invertir el tiempo y los recursos que algo como Imagen requiere para poder generar imágenes llamativas a voluntad parece fuera de lugar.

Ver esto como una meta intermedia hacia la creación de una IA "real" puede estar más justificado, pero solo si estamos dispuestos a suscribirnos a la noción de que hacer lo mismo a una escala cada vez mayor de alguna manera conducirá a resultados diferentes.

Una red neuronal transforma la entrada, los círculos a la izquierda, en la salida, a la derecha. Cómo sucede eso es una transformación de pesos, en el centro, que a menudo confundimos con patrones en los datos en sí mismos.

Tiernan Ray para ZDNET

Bajo esta luz, la intención declarada de Tucker de ser lo más específica posible sobre cuál es la tecnología en cuestión y cómo funciona, en lugar de usar términos como "Inteligencia Artificial" y "aprendizaje automático", comienza a tener sentido en cierto nivel.

Por ejemplo, escribe Tucker, en lugar de decir "el reconocimiento facial utiliza inteligencia artificial", podríamos decir algo como "las empresas tecnológicas utilizan conjuntos masivos de datos para entrenar algoritmos que emparejen imágenes de rostros humanos". Cuando una explicación completa sea disruptiva para el argumento más amplio, o esté más allá de la experiencia del CPT, señalarán a los lectores a fuentes externas.

Siendo honestos, eso no suena muy práctico en términos de legibilidad. Sin embargo, es importante tener en cuenta que cuando decimos "IA", realmente es una convención, no algo que deba tomarse literalmente. Realmente son empresas tecnológicas que utilizan conjuntos masivos de datos para entrenar algoritmos y realizar –a veces– imitaciones útiles y/o impresionantes de la inteligencia humana.

Lo que inevitablemente conlleva a más preguntas, como — ¿para hacer qué, y en beneficio de quién? Como escribe Erik Brynjolfsson, economista de formación y director del Laboratorio de Economía Digital de Stanford, la excesiva concentración en una IA similar a la humana reduce los salarios para la mayoría de las personas "mientras amplifica el poder de mercado de unos pocos" que poseen y controlan las tecnologías.

En ese sentido, la IA no es diferente de otras tecnologías que la precedieron. Lo que puede ser diferente esta vez es la velocidad a la que las cosas se están desarrollando y el grado de amplificación del poder de unos pocos.

¿Nos apoyarás hoy?

Creemos que todos merecen entender el mundo en el que viven. Este conocimiento ayuda a crear mejores ciudadanos, vecinos, amigos y custodios de nuestro planeta. Producir periodismo explicativo y profundamente investigado requiere recursos. Puedes apoyar esta misión haciendo una donación económica a Gelipsis hoy. ¿Te sumarás a nosotros?

Resistir la tentación de impresionarse, sabiendo de qué hablamos cuando hablamos de IA

Las fortalezas y debilidades de los grandes modelos de lenguaje

Lenguaje, metas y el poder de mercado de unos pocos

¿Nos apoyarás hoy?

Recent Articles

Amazon se adentra en el mercado europeo de 5G con el acuerdo de nube de O2 Telefónica

Google presenta Astra, su primer agente de IA integral

Explorando los Avances de la Inteligencia Artificial y su Relación con la Fantasía

Mejoras en la transferencia de licencias para VMware Cloud Foundation

Guild of Guardians debuta como un RPG móvil híbrido Web3 en las tiendas de aplicaciones

Related Stories

DEJA UN COMENTARIO Cancelar respuesta