Amazon AI presenta DataLore: un marco de aprendizaje automático que explica los cambios de datos entre un conjunto de datos inicial y su versión aumentada para mejorar la trazabilidad

Los científicos e ingenieros de datos colaboran a menudo en tareas de aprendizaje automático (ML), realizando mejoras incrementales, refinando iterativamente los procesos de ML y verificando la generalización y solidez del modelo. Existen grandes preocupaciones sobre la trazabilidad y reproducibilidad de los datos, ya que las modificaciones en los datos no siempre proporcionan suficiente información sobre los datos de origen exactos utilizados para crear los datos publicados y las transformaciones realizadas en cada fuente, a diferencia del código.

Para construir un proceso de aprendizaje automático bien documentado, la trazabilidad de los datos es crucial. Garantiza que los datos utilizados para entrenar los modelos sean precisos y les ayuda a cumplir con las reglas y mejores prácticas. Monitorear el uso, la transformación y el cumplimiento de los requisitos de licencia de los datos originales se vuelve difícil sin la documentación adecuada. Los conjuntos de datos se pueden encontrar en data.gov y Accutus1, dos portales de datos abiertos y plataformas para compartir; sin embargo, rara vez se proporcionan transformaciones de datos. Debido a esta información faltante, replicar los resultados es más difícil y es menos probable que las personas acepten los datos.

Un repositorio de datos sufre cambios exponenciales debido a la infinidad de transformaciones potenciales. Muchas columnas, tablas, una amplia variedad de funciones y nuevos tipos de datos son comunes en dichas actualizaciones. Los métodos de descubrimiento de transformaciones se emplean comúnmente para aclarar las diferencias entre las versiones de las tablas del repositorio de datos. El enfoque de programación por ejemplo (PBE) generalmente se usa cuando necesitan crear un programa que toma una entrada y la convierte en una salida. Sin embargo, su inflexibilidad los hace inadecuados para lidiar con transformaciones y tipos de datos complicados y variados. Además, les cuesta adaptarse a distribuciones de datos cambiantes o dominios desconocidos.

Un equipo de investigadores e ingenieros de inteligencia artificial de Amazon trabajaron juntos para construir canales de aprendizaje automático utilizando DATALORE, un nuevo sistema de aprendizaje automático que genera automáticamente transformaciones de datos entre tablas en un repositorio de datos compartido. DATALORE emplea una estrategia generativa para resolver el problema de transformación de datos faltantes. DATALORE utiliza modelos de lenguaje grande (LLM) para reducir la ambigüedad semántica y el trabajo manual como herramienta de síntesis de transformación de datos. Estos modelos han sido entrenados en miles de millones de líneas de código. En segundo lugar, para cada tabla base T proporcionada, los investigadores utilizan algoritmos de descubrimiento de datos para encontrar posibles tablas candidatas relacionadas. Esto facilita una serie de transformaciones de datos y mejora la eficacia del sistema basado en LLM propuesto. El tercer paso para obtener la tabla mejorada es que DATALORE se adhiera al concepto de Longitud mínima de descripción, lo que reduce la cantidad de tablas vinculadas. Esto mejora la eficiencia de DATALORE al evitar la costosa investigación de los espacios de búsqueda.

Ejemplos de utilización de DATALORE.

Los usuarios pueden aprovechar los servicios de gobernanza de datos, integración de datos y aprendizaje automático de DATALORE, entre otros, en plataformas de computación en la nube como Amazon Web Services, Microsoft Azure y Google Cloud. Sin embargo, encontrar tablas o conjuntos de datos adecuados para realizar consultas y comprobar manualmente su validez y utilidad puede llevar mucho tiempo a los usuarios del servicio.

Hay tres formas en que DATALORE mejora la experiencia del usuario:

  1. El descubrimiento de tablas relacionadas de DATALORE puede mejorar los resultados de búsqueda al ordenar las tablas relevantes (tanto semánticas como basadas en transformaciones) en distintas categorías. A través de un método fuera de línea, DATALORE se puede utilizar para encontrar conjuntos de datos derivados de los que tienen actualmente. Esta información luego se indexará como parte de un catálogo de datos.
  2. Agregar más detalles sobre las tablas conectadas en una base de datos al catálogo de datos básicamente ayuda a los algoritmos de búsqueda basados ​​en estadísticas a superar sus limitaciones.
  3. Además, al mostrar las transformaciones potenciales entre varias tablas, la generación de transformaciones de datos basada en LLM de DATALORE puede mejorar sustancialmente la explicabilidad de los resultados devueltos, lo que es particularmente útil para los usuarios interesados ​​en cualquier tabla conectada.
  4. Arrancar las canalizaciones ETL utilizando la transformación de datos proporcionada reduce en gran medida la carga del usuario de escribir su código. Para minimizar la posibilidad de errores, el usuario debe repetir y verificar cada paso del flujo de trabajo de aprendizaje automático.
  5. El refinamiento de la selección de tablas de DATALORE recupera transformaciones de datos en algunas tablas vinculadas para garantizar que el conjunto de datos del usuario pueda reproducirse y evitar errores en el flujo de trabajo de ML.

El equipo emplea Auto-Pipeline Benchmark (APB) y Semantic Data Versioning Benchmark (SDVB). Tenga en cuenta que las canalizaciones que comprenden muchas tablas se mantienen mediante una combinación. Para garantizar que ambos conjuntos de datos cubran los cuarenta tipos diferentes de funciones de transformación, los modifican para agregar más transformaciones. Un método de última generación que produce transformaciones de datos para explicar los cambios entre dos versiones de conjuntos de datos suministrados, Explique-DaV (EDV), se compara con DATALORE. Los investigadores eligieron un retraso de 60 segundos para ambas técnicas, imitando el valor predeterminado de EDV, porque generar transformaciones en DATALORE y EDV tiene una complejidad temporal exponencial en el peor de los casos. Además, con DATALORE, limitan a 3 el número máximo de columnas utilizadas en una transformación de varias columnas.

En el punto de referencia SDVB, el 32% de los casos de prueba están relacionados con transformaciones numéricas. Debido a que puede manejar datos numéricos, textuales y categóricos, DATALORE normalmente supera a EDV en todas las categorías. Debido a que las transformaciones con una combinación solo son compatibles con DATALORE, también ven un margen de rendimiento mayor sobre el conjunto de datos APB. Cuando se comparó DATALORE con EDV en muchas categorías de transformación, los investigadores descubrieron que sobresale en transformaciones de texto a texto y de texto a numérico. La complejidad de DATALORE significa que todavía hay espacio para el desarrollo con respecto a las transformaciones de numérico a numérico y de numérico a categórico.

Dhanshree Shenwai es una ingeniera informática con amplia experiencia en empresas de tecnología financiera que abarcan aspectos financieros, tarjetas de pago y banca, mostrando un gran interés en las aplicaciones de IA. Se entusiasma explorando las nuevas tecnologías y avances en el mundo en constante evolución de hoy, que mejoran la vida de las personas.

¿Nos apoyarás hoy?

Creemos que todos merecen entender el mundo en el que viven. Este conocimiento ayuda a crear mejores ciudadanos, vecinos, amigos y custodios de nuestro planeta. Producir periodismo explicativo y profundamente investigado requiere recursos. Puedes apoyar esta misión haciendo una donación económica a Gelipsis hoy. ¿Te sumarás a nosotros?

Suscríbete para recibir nuestro boletín:

Recent Articles

Related Stories

DEJA UN COMENTARIO

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí