DeepMind de Google lanza AI avanzada para verificación de datos que supera la habilidad humana

Participe de nuestro encuentro en Atlanta el próximo 10 de abril para profundizar en la transformación del panorama laboral en seguridad por la IA. Descubra los impactos positivos y estudios de caso sobre el uso de la IA en los equipos de seguridad. Consiga su invitación aquí.

Una reciente investigación realizada por Google DeepMind ha revelado que un sistema de IA es capaz de eclipsar a los fact-checkers humanos al valorar la veracidad de la información procedente de modelos de lenguaje avanzados.

El estudio, que lleva por título “Facticidad en textos extensos generados por grandes modelos de lenguaje” y fue publicado en el servidor de preimpresiones arXiv, introduce un enfoque denominado Evaluación de Facticidad Potenciada por Búsquedas (SAFE por sus siglas en inglés). SAFE aplica un modelo de lenguaje extenso para fragmentar texto generado en hechos puntuales y después usa los resultados de Google Search para verificar cada aseveración.

“SAFE emplea un LLM para dividir una respuesta detallada en distintos hechos y juzga la precisión de cada uno mediante un proceso analítico que incluye realizar búsquedas en Google Search y comprobar si los hechos tienen respaldo en los resultados de búsqueda”, explican los autores del estudio.

El desempeño 'sobrehumano' de la IA incita al debate

Comparando SAFE con evaluadores humanos en un set de datos de cerca de 16.000 elementos, los investigadores notaron que las valoraciones de SAFE estaban en consonancia con las humanas el 72% de las veces. Significativamente, en 100 casos de discrepancias entre SAFE y los evaluadores humanos, se determinó que SAFE tenía razón en el 76% de las ocasiones.

Evento VB

La gira de impacto de IA – Atlanta

Continuaremos nuestro viaje en Atlanta con la próxima parada del Tour de Impacto de IA el 10 de abril. Este exclusivo evento, sólo por invitación y en colaboración con Microsoft, abordará cómo la IA generativa está redefiniendo la fuerza laboral en seguridad. Las plazas son limitadas, así que asegúrese de solicitar su invitación hoy mismo.

Solicita una invitación

Mientras el estudio sostiene que “los agentes LLM pueden lograr una eficiencia en la clasificación que supera lo humano”, hay expertos que se preguntan qué se entiende realmente por “sobrehumano” en este contexto.

Una lectura rápida no me aclara mucho sobre los sujetos humanos del estudio, pero parece que 'sobrehumano' se traduce simplemente como mejor que un verificador de datos subpagado, ¿cómo contra un hecho checker humano real? Eso haría que la descripción sea engañosa. (Similar a decir que el software de ajedrez de 1985 era 'sobrehumano').…

—GaryMarcus (@GaryMarcus) 28 de marzo de 2024

Gary Marcus, una autoridad reconocida en IA y crítico habitual de afirmaciones exageradas, planteó en Twitter que en este caso, "sobrehumano" puede estar refiriéndose más bien a "mejor que un verificador de datos mal remunerado que a un fact-checker humano experto".

"Esto podría dar lugar a una interpretación errónea", dijo Marcus. "Es como si afirmáramos que el software de ajedrez de 1985 era sobrehumano".

Marcus tiene un punto interesante. Para establecer genuinamente una habilidad sobrehumana, SAFE tendría que ser comparado contra fact-checkers humanos altamente cualificados y no solo contra trabajadores colaborativos generales. Los detalles sobre la calificación, remuneración y el método llevado a cabo por los fact-checkers humanos son esenciales para situar adecuadamente los hallazgos de SAFE en el contexto apropiado.

Economía y benchmarks de modelos punteros

Una ventaja manifiesta de SAFE es su eficiencia económica: los investigadores determinaron que el empleo de este sistema de IA resultaba aproximadamente 20 veces más barato que la contratación de fact-checkers humanos. A medida que la cantidad de información generada por los modelos de lenguaje se incrementa, resulta más crucial contar con una manera asequible y escalable de verificar la veracidad de las aseveraciones.

DeepMind aprovechó SAFE para testear la precisión objetiva de 13 modelos de lenguaje de vanguardia dentro de 4 familias distintas (Gemini, GPT, Claude y PaLM-2) a través de un nuevo benchmark conocido como LongFact. Los resultados sugerían que los modelos más amplios tendían a cometer menos fallos fácticos.

No obstante, incluso los modelos de mejor desempeño produjeron un número significativo de afirmaciones incorrectas. Esto resalta el peligro de confiar excesivamente en modelos lingüísticos que pueden comunicar información equivocada con fluidez. Instrumentos de verificación automática de datos como SAFE podrían jugar un rol esencial en minimizar esos peligros.

Transparencia y comparaciones con estándares humanos son clave

A pesar de que tanto el algoritmo de SAFE como el dataset de LongFact están disponibles en código abierto en GitHub, para un escrutinio y mejora por parte de otros investigadores, aún se necesita mayor transparencia respecto a los estándares humanos usados en la investigación. Entender el fondo y la mecánica de los trabajadores evaluadores es fundamental para valorar las capacidades de SAFE dentro de un contexto adecuado.

En un mundo donde los colosos de la tecnología compiten por desarrollar modelos de lenguaje cada vez más potentes para aplicaciones que varían desde la búsqueda en línea hasta asistentes virtuales, la habilidad de verificar de manera automática los resultados de estos sistemas se podría convertir en algo esencial. Herramientas como SAFE marcan un paso importante hacia la creación de una capa adicional de confianza y rendición de cuentas.

Es de suma importancia que el avance de tecnologías tan críticas se realice de una manera abierta y con el aporte de una diversidad de stakeholders más allá de las paredes de una sola corporación. Evaluaciones comparativas meticulosas y transparentes en compañía de expertos humanos, y no solo trabajadores colaborativos, son indispensables para medir el avance real. Solo de esta forma podremos cuantificar el verdadero impacto de la verificación automática de datos en la lucha contra la desinformación.

¿Nos apoyarás hoy?

Creemos que todos merecen entender el mundo en el que viven. Este conocimiento ayuda a crear mejores ciudadanos, vecinos, amigos y custodios de nuestro planeta. Producir periodismo explicativo y profundamente investigado requiere recursos. Puedes apoyar esta misión haciendo una donación económica a Gelipsis hoy. ¿Te sumarás a nosotros?

DeepMind de Google lanza AI avanzada para verificación de datos que supera la habilidad humana

El desempeño 'sobrehumano' de la IA incita al debate

Evento VB

Economía y benchmarks de modelos punteros

Transparencia y comparaciones con estándares humanos son clave

¿Nos apoyarás hoy?

Recent Articles

Amazon se adentra en el mercado europeo de 5G con el acuerdo de nube de O2 Telefónica

Google presenta Astra, su primer agente de IA integral

Explorando los Avances de la Inteligencia Artificial y su Relación con la Fantasía

Mejoras en la transferencia de licencias para VMware Cloud Foundation

Guild of Guardians debuta como un RPG móvil híbrido Web3 en las tiendas de aplicaciones

Related Stories

DEJA UN COMENTARIO Cancelar respuesta