Inteligencia Artificial Multimodal con Búsqueda Multimodal

Introducción

La búsqueda intermodal es una frontera emergente en el mundo de la recuperación de información y la ciencia de datos. Representa un cambio de paradigma con respecto a los métodos de búsqueda tradicionales, ya que permite a los usuarios realizar consultas en diversos tipos de datos, como texto, imágenes, audio y video. Rompe las barreras entre las diferentes modalidades de datos y ofrece una experiencia de búsqueda más holística e intuitiva. Este artículo tiene como objetivo explorar el concepto de búsqueda intermodal y sus aplicaciones potenciales, y profundizar en las complejidades técnicas que lo hacen posible. A medida que el mundo digital continúa expandiéndose y diversificándose, la tecnología de búsqueda intermodal está allanando el camino para una recuperación de datos más avanzada, flexible y precisa.

Comprensión de las Modalidades de Búsqueda: Explicación de la Búsqueda Unimodal, Intermodal y Multimodal

La búsqueda unimodal, intermodal y multimodal son términos que se refieren a los tipos de entradas o fuentes de datos que utiliza un sistema de inteligencia artificial para realizar tareas de búsqueda. Aquí hay una breve explicación de cada uno:

  • Unimodal La búsqueda es un tipo común de búsqueda que solo involucra un único modo o tipo de datos. La búsqueda unimodal es importante cuando la consulta y el contenido a buscar son de la misma modalidad. Esto podría significar que tiene una breve descripción de texto de lo que está buscando y recibe una lista clasificada de resultados de búsqueda que contiene párrafos cortos. Por ejemplo, si intentamos buscar recetas, respuestas de Quora o una breve lección de historia de Wikipedia, estamos realizando una búsqueda unimodal (en este caso, con texto). Esto también puede aplicarse a la búsqueda de imagen a imagen, como usar Pinterest Lens para encontrar diseños de prendas similares. Unimodal es la forma de búsqueda más simple y se usa ampliamente en bases de datos y motores de búsqueda tradicionales.

Ejemplo de búsqueda de un artículo de Wikipedia sobre “cuantización vectorial”

  • Multimodal La búsqueda se refiere a la capacidad de buscar en diferentes modalidades, donde la consulta se expresa en una modalidad y el contenido que se recuperará es un tipo (modalidad) diferente de datos. Imagínese usar una descripción de texto para buscar imágenes dentro de su álbum de fotos personal. ¡Eso ahorraría mucho tiempo de desplazamiento!
  • Multimodal La búsqueda implica el uso de dos o más modalidades en la consulta de búsqueda y el proceso de recuperación. Esto podría significar combinar texto, imágenes, audio, video y otros tipos de datos en la búsqueda. El multimodal es importante porque refleja la naturaleza rica y compleja de la comunicación humana.

Con Clarifai, puede utilizar el flujo de trabajo "General" para la búsqueda de imagen a imagen y el flujo de trabajo "Texto" para la búsqueda de texto a texto, ambos unimodales. Anteriormente, para imitar la búsqueda de texto a imagen (multimodal), aprovechábamos los más de 9000 conceptos del modelo General como nuestro vocabulario. Ahora, con la llegada de modelos de lenguaje visual como CLIP, lanzamos el flujo de trabajo "universal" para permitir que cualquiera utilice el lenguaje natural para buscar imágenes.

Cómo Realizar una Búsqueda de Texto a Imagen con Clarifai

Las operaciones se pueden realizar a través de la API o la interfaz de usuario del portal. Primero, Ingrese a su cuenta o Regístrate aquí gratis.

Usando la API

En este ejemplo, usaremos SDK de Python de Clarifai para ayudarnos a utilizar la menor cantidad de líneas posible. Antes de comenzar, obtenga su token de acceso personal (PAT) al siguiendo estos pasos. Siga también las instrucciones de la página de inicio para instalar el SDK en un solo paso. Usar este cuaderno para seguirlo en su entorno de desarrollo o en colaboración de google.

1. Cree una nueva aplicación con el flujo de trabajo predeterminado especificado como flujo de trabajo "Universal"

2. Cargue las siguientes 3 imágenes de ejemplo. Dado que se trata de una demostración breve, ingerimos directamente las entradas en la aplicación. Para fines de producción, recomendamos utilizar conjuntos de datos para organizar sus entradas. El SDK actualmente admite la carga desde un archivo csv y desde una carpeta y puede encontrar el detalles en los ejemplos.

3. Realice la búsqueda llamando al método de consulta y pasando una clasificación.

4. La respuesta es un generador. Vea los resultados marcando el atributo "hits".

Usando la Interfaz de Usuario

1. Cree una nueva aplicación haciendo clic en el botón “+ Crear” en la esquina superior derecha de la pantalla del portal. De forma predeterminada, la opción "Comenzar con una aplicación en blanco" está seleccionada. Para "Tipo de entrada principal", deje seleccionada la "Imagen/Video" predeterminada, ya que establece el flujo de trabajo base de la aplicación con el flujo de trabajo universal. Para verificar eso, haga clic en "Configuración avanzada". Una vez que se hayan completado el ID de la aplicación y la breve descripción, haga clic en "Crear aplicación".

2. Luego accederás automáticamente a la aplicación que acabas de crear. En este momento, es posible que vea la siguiente ventana emergente "Agregar un modelo". Haga clic en "Cancelar" en la esquina inferior izquierda, ya que no lo necesitamos para nuestro tutorial.

3. ¡Sube imágenes! En la barra lateral izquierda, haga clic en "Entradas". Luego haga clic en el botón azul "Cargar entradas" en la parte superior derecha. Podemos ingresar las URL de las imágenes línea por línea. Alternativamente, podemos subirlos mediante un archivo CSV con un formato específico. Aquí utilizamos las siguientes URL. Cópielos y péguelos en el cuadro sin nuevas líneas.


4. Una vez completada la carga, deberías ver las 3 imágenes. En la barra de búsqueda, ingrese una consulta de texto y presione Enter. Aquí hemos utilizado “Piñas rojas en la playa” como ejemplo y, de hecho, la búsqueda devuelve una lista clasificada con la imagen semánticamente más similar en primer lugar.

Resumen

La elección entre búsqueda unimodal, intermodal y multimodal depende de la naturaleza de sus datos y los objetivos de su búsqueda. Si necesita encontrar información entre diferentes tipos de datos, es necesaria una búsqueda multimodal. A medida que avanza la tecnología de IA, existe una tendencia creciente hacia sistemas multimodales e intermodales debido a su capacidad para proporcionar resultados de búsqueda más ricos y contextualmente relevantes.

¿Nos apoyarás hoy?

Creemos que todos merecen entender el mundo en el que viven. Este conocimiento ayuda a crear mejores ciudadanos, vecinos, amigos y custodios de nuestro planeta. Producir periodismo explicativo y profundamente investigado requiere recursos. Puedes apoyar esta misión haciendo una donación económica a Gelipsis hoy. ¿Te sumarás a nosotros?

Suscríbete para recibir nuestro boletín:

Recent Articles

Related Stories

DEJA UN COMENTARIO

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí