Integración de datos de Databricks y Clarifai


Integración de datos de Databricks y Clarifai

Databricks, la empresa de datos e inteligencia sintético, combina lo mejor de los almacenes y lagos de datos para ofrecer una plataforma abierta y unificada para datos e inteligencia sintético. Y la asociación entre Clarifai y Databricks ahora permite a nuestros clientes conjuntos obtener información a partir de sus datos visuales y textuales a escalera.

Un obstáculo importante para muchos proyectos o aplicaciones de IA es tener un masa suficiente, una calidad suficiente y datos suficientemente etiquetados. Obtener valía de datos no estructurados se vuelve mucho más sencillo cuando puede anotar directamente dónde ya confía en sus datos empresariales. ¿Por qué crear canales de datos y utilizar múltiples herramientas cuando una sola será suficiente?

ClarifaiPySpark SDK permite a los usuarios de Databricks crear e iniciar flujos de trabajo de estudios necesario, realizar anotaciones de datos y consentir a otras funciones. Por lo tanto, resuelve las complejidades relacionadas con el comunicación a datos multiplataforma, los procesos de anotación y la procedencia eficaz de conocimientos de conjuntos de datos visuales y textuales a gran escalera.

En este blog, exploraremos el ClarifaiPySpark SDK para habilitar una conexión entre Clarifai y Databricks, lo que facilita la importación y exportación bidireccional de datos y al mismo tiempo permite la recuperación de anotaciones de datos de sus aplicaciones Clarifai a Databricks.

Instalación

Instalar ClarifaiPyspark SDK en su espacio de trabajo de Databricks (en un cuaderno) con el futuro comando:

Comience obteniendo su token PAT de las instrucciones aquí y configurarlo como un secreto de Databricks. Inscribirse aquí.

En Clarifai las aplicaciones sirven como dispositivo fundamental para el avance de proyectos. Albergan sus datos, anotaciones, modelos, flujos de trabajo, predicciones y búsquedas. Siéntase suelto de crear múltiples aplicaciones y modificarlas o eliminarlas según sea necesario.

Integrando perfectamente su aplicación Clarifai con Databricks a través de ClarifaiPyspark SDK es un proceso sencillo. El SDK se puede utilizar en su cuaderno Ipython o en archivos de script de Python en su espacio de trabajo de Databricks.

Originar una instancia de Clarifai PySpark

Crear un ClarifaiPyspark objeto de cliente para establecer una conexión con su aplicación Clarifai.

Obtenga el objeto del conjunto de datos para el conjunto de datos específico interiormente de su aplicación. Si no existe, se creará automáticamente un nuevo conjunto de datos interiormente de la aplicación.

En esta traducción original del SDK, nos centramos en un tablas en el que los usuarios pueden transferir sin problemas su conjunto de datos desde volúmenes de Databricks o un depósito de S3 a su aplicación Clarifai. A posteriori de anotar los datos interiormente de la aplicación, los usuarios pueden exportar tanto los datos como sus anotaciones desde la aplicación, lo que les permite almacenarlos en su formato preferido. Ahora, exploremos los aspectos técnicos para ganar esto.

Ingesta de datos de Databricks en la aplicación Clarifai

El SDK de ClarifaiPyspark ofrece diversos métodos para ingerir/cargar su conjunto de datos desde volúmenes de Databricks y depósitos de AWS S3, lo que le brinda la autogobierno de distinguir el enfoque más adecuado. Exploremos cómo puede ingerir datos en su aplicación Clarifai utilizando estos métodos.

1. Subir desde la carpeta Bulto

Si las imágenes de su conjunto de datos o los archivos de texto están almacenados interiormente de un masa de Databricks, puede cargar directamente los archivos de datos desde el masa a su aplicación Clarifai. Asegúrese de que la carpeta contenga sólo imágenes/archivos de texto. Si el nombre de la carpeta sirve como fórmula para todas las imágenes que contiene, puede establecer el parámetro de etiquetas en Definitivo.

2. Subir desde CSV

Puede completar los datos desde un archivo CSV que debe contener las columnas esenciales: 'inputid' y 'input'. Las columnas adicionales aceptadas en el CSV son "conceptos", "metadatos" y "geopuntos". La columna 'entrada' puede contener una URL, una ruta de archivo o texto sin formato. Si la columna 'conceptos' está presente en el CSV, establezca 'labels=True'. También tiene la opción de utilizar directamente un archivo CSV desde su depósito de AWS S3. Simplemente especifique el parámetro 'fuente' como 's3′ en tales casos.

3. Cargar desde la tabla Delta

Puede importar una tabla Delta para completar un conjunto de datos en su aplicación. La tabla debe incluir las columnas esenciales: 'inputid' y 'input'. Además, la tabla Delta admite columnas adicionales como "conceptos", "metadatos" y "geopuntos". La columna 'entrada' es versátil y puede contener una URL, una ruta de archivo o texto sin formato. Si la columna "conceptos" está presente en la tabla, recuerde habilitar el parámetro "etiquetas" configurándolo en "Definitivo". También tiene la opción de utilizar una tabla Delta almacenada en su depósito de AWS S3 proporcionando su ruta S3.

4. Cargar desde una situación de datos

Puede cargar un conjunto de datos desde una situación de datos que debe incluir las columnas obligatorias: 'inputid' y 'input'. Además, la situación de datos admite otras columnas como "conceptos", "metadatos" y "geopuntos". La columna 'entrada' puede contener direcciones URL, rutas de archivo o texto sin formato. Si la situación de datos contiene la columna 'conceptos', establezca 'etiquetas = Definitivo'.

5. Cargar con el cargador de datos personalizado

Si su conjunto de datos está almacenado en un formato cíclico o requiere preprocesamiento, tiene la flexibilidad de proporcionar un objeto de clase de cargador de datos personalizado. Puede explorar varios ejemplos de cargadores de datos como referencia. aquí. Los archivos y carpetas necesarios para el cargador de datos deben almacenarse en el almacenamiento de masa de Databricks.

Obteniendo información del conjunto de datos de la aplicación Clarifai

El SDK de ClarifaiPyspark ofrece varias formas de acceder a su conjunto de datos desde la aplicación Clarifai a un almacenamiento de masa de Databricks. Ya sea que desee recuperar detalles de entrada o descargar archivos de entrada en su almacenamiento de masa, le guiaremos a través del proceso.

1. Obtener detalles del archivo de datos en formato JSON

Para acceder a información sobre los archivos de datos dentro de su conjunto de datos de la aplicación Clarifai, puede utilizar la siguiente función que devuelve una respuesta JSON. Puede utilizar el parámetro 'input_type' para recuperar los detalles de un tipo específico de archivo de datos, como 'imagen', 'video', 'audio' o 'texto'.

2. Obtener detalles del archivo de datos como una situación de datos

También puede obtener detalles de entrada en un formato de situación de datos estructurado, con columnas como 'input_id', 'image_url/text_url', 'image_info/text_info', 'input_created_at' e 'input_modified_at'. Asegúrese de especificar el 'tipo_entrada' al utilizar esta función. Tenga en cuenta que la respuesta JSON puede incluir atributos adicionales.

3. Descargar archivos de imagen/texto de la aplicación Clarifai al almacenamiento de masa de Databricks

Con esta función, puede descargar directamente los archivos de imagen/texto desde su conjunto de datos de la aplicación Clarifai a su almacenamiento de masa de Databricks. Deberá especificar la ruta de almacenamiento en el almacenamiento de masa para la descarga y utilizar la respuesta obtenida de list_inputs() como parámetro.

Obteniendo anotaciones de la aplicación Clarifai

Como ya sabe, la plataforma Clarifai le permite añadir anotaciones a sus datos de varias formas, incluyendo cuadros delimitadores, segmentaciones o etiquetas simples. Después de anotar su conjunto de datos dentro de la aplicación Clarifai, ofrecemos la capacidad de extraer todas las anotaciones de la aplicación en formato JSON o situación de datos. A partir de ahí, tiene la flexibilidad de almacenarlo como prefiera, ya sea convirtiéndolo en una tabla Delta o guardándolo como un archivo CSV.

1. Obtener detalles de anotaciones en formato JSON

Para obtener anotaciones dentro de su conjunto de datos de la aplicación Clarifai, puede utilizar la siguiente función, que proporciona una respuesta JSON. Además, tiene la opción de especificar una lista de ID de entrada para la cual necesita anotaciones.

2. Obtener detalles de anotaciones como un situación de datos.

También puede obtener anotaciones en un formato de situación de datos estructurado, que incluye columnas como 'annotation_id', 'annotation', 'annotation_user_id', 'iinput_id', 'annotation_created_at' y 'annotation_modified_at'. Si es necesario, puede especificar una lista de ID de entrada para la cual necesita anotaciones. Tenga en cuenta que la respuesta JSON puede contener atributos adicionales.

3. Obtener entradas con sus anotaciones asociadas en un situación de datos.

Tiene la capacidad de recuperar simultáneamente los detalles de entrada y sus anotaciones correspondientes utilizando la siguiente función. Esta función produce una situación de datos que consolida los datos tanto de las anotaciones como de los marcos de datos de entrada, como se describe en las funciones mencionadas anteriormente.

Ejemplo

Veamos un ejemplo en el que obtiene las anotaciones del conjunto de datos de su aplicación Clarifai y las almacena en una tabla activa Delta en Databricks.

Conclusión

En este blog analizamos la integración entre Databricks y Clarifai utilizando el SDK de ClarifaiPyspark. El SDK ofrece una variedad de métodos para cargar y recuperar conjuntos de datos, brindándole la posibilidad de elegir el enfoque más adecuado para sus requisitos específicos. Ya sea cargando datos desde volúmenes de Databricks o depósitos de AWS S3, exportando datos y anotaciones a los formatos preferidos o utilizando cargadores de datos personalizados, el SDK ofrece una sólida gama de funcionalidades. Aquí tiene nuestro repositorio de SDK en GitHub: enlace.

Próximamente se lanzarán más funciones y mejoras para garantizar una integración cada vez más profunda entre Databricks y Clarifai. Esté atento a más actualizaciones y mejoras, y envíenos sus comentarios a comentarios-de-producto@clarifai.com.



¿Nos apoyarás hoy?

Creemos que todos merecen entender el mundo en el que viven. Este conocimiento ayuda a crear mejores ciudadanos, vecinos, amigos y custodios de nuestro planeta. Producir periodismo explicativo y profundamente investigado requiere recursos. Puedes apoyar esta misión haciendo una donación económica a Gelipsis hoy. ¿Te sumarás a nosotros?

Suscríbete para recibir nuestro boletín:

Recent Articles

Related Stories

DEJA UN COMENTARIO

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí