Propuesta de interconexión exploratoria del tiempo y el espacio mediante la fusión inversa del tiempo (TRF) en Inteligencia Artificial por Max Planck, Adobe y UCSD

Los modelos de imagen a vídeo de gran escala (I2V) muestran potencial para la generalización basándose en sus recientes éxitos. A pesar de su capacidad para recrear escenas dinámicas complejas tras haber analizado millones de películas, no ofrecen a los usuarios un control preciso. Es habitual querer gestionar la generación de fotogramas entre dos puntos de imagen, es decir, crear fotogramas intermedios entre dos imágenes, incluso si fueron capturados en momentos o lugares muy diferentes. Este proceso de intercalación con pocos puntos de referencia se conoce como generación limitada. Debido a la incapacidad de dirigir la generación hacia un destino específico, los modelos I2V actuales no logran realizar la generación limitada. El objetivo es encontrar una forma de generar vídeos que reproduzcan con precisión el movimiento tanto de la cámara como de los objetos sin suponer nada sobre la dirección del movimiento.

Investigadores del Instituto Max Planck de Sistemas Inteligentes, Adobe y la Universidad de California han introducido la generación limitada sin entrenamiento del marco de difusión de imagen a video (I2V), que consiste en utilizar la información contextual de los fotogramas iniciales y finales. El enfoque principal se centra en la Estabilidad de Difusión de Video (SVD), un método para la producción de videos ilimitada que ha demostrado un realismo y generalización notables. Aunque corregir la generación limitada teóricamente es posible mediante el ajuste del modelo con datos emparejados, este enfoque comprometería su capacidad de generalización. Por lo tanto, este trabajo se enfoca en métodos que no requieren entrenamiento. El equipo propone dos métodos simples y alternativos para la generación limitada sin entrenamiento: pintura interna y modificación de condición.

La Fusión de Tiempo Reverso (TRF) es un enfoque innovador de muestreo introducido en los modelos I2V que permite la generación limitada. Dado que TRF no necesita entrenamiento ni ajustes, puede aprovechar las capacidades de generación incorporadas en un modelo I2V. La incapacidad de los modelos I2V actuales para propagar el contexto de las imágenes hacia atrás en el tiempo se debe a que están diseñados para proporcionar contenido a lo largo de la flecha del tiempo. Esta limitación impulsó a los investigadores a desarrollar este enfoque. Para crear una trayectoria coherente, TRF primero elimina el ruido de las trayectorias hacia adelante y hacia atrás en el tiempo, en función de un fotograma inicial y final respectivamente.

La tarea se complica cuando ambos extremos del video creado están restringidos. Los métodos sin entrenamiento a menudo caen en mínimos locales, lo que resulta en transiciones bruscas entre fotogramas. El equipo aborda esto implementando la Re-Inyección de Ruido, un proceso estocástico para garantizar transiciones de fotogramas suaves. TRF genera videos que finalizan con el cuadro del límite al fusionar trayectorias bidireccionales independientemente de la correspondencia de píxeles y las suposiciones de movimiento. A diferencia de otros enfoques de creación de video controlados, este enfoque aprovecha al máximo la capacidad de generalización del modelo I2V original sin necesidad de entrenamiento o ajuste en conjuntos de datos específicos.

Con 395 pares de imágenes como punto de inicio y final en el conjunto de datos, los investigadores evaluaron películas producidas mediante generación limitada. Estas imágenes abarcan una amplia gama de situaciones, incluyendo movimientos cinematográficos de seres humanos y animales, movimientos estocásticos de elementos como fuego y agua, y escenas multivista de situaciones estáticas complejas. Además de habilitar una serie de tareas previamente inviables, los estudios demuestran que los modelos I2V de gran escala, junto con la generación restringida, permiten explorar el movimiento generado para comprender la "dinámica mental" de estos modelos.

La naturaleza estocástica del método al generar pases hacia adelante y hacia atrás es una de sus limitaciones. La distribución de posibles rutas de movimiento para SVD puede variar significativamente para dos imágenes de entrada diferentes, lo que puede resultar en videos finales muy distintos, generando transiciones poco realistas. Este enfoque aborda algunas de las deficiencias de la SVD. A pesar de que las generaciones de SVD han demostrado un sólido entendimiento del mundo físico, aún no logran comprender conceptos como el "sentido común" y la noción de causalidad.


Consulta el Documento y el Proyecto. Todo el crédito por esta investigación va a los investigadores del proyecto. Además, no olvides seguirnos en Twitter. Únete a nuestro Canal de telegram, Canal de Discord y LinkedIn Group.

No te olvides de unirte a nuestro Subreddit de ML con más de 39 mil seguidores

Dhanshree Shenwai es una ingeniera en informática con una sólida experiencia en empresas del sector de la tecnología financiera, abarcando las áreas de finanzas, tarjetas y pagos, y banca. Tiene un gran interés en las aplicaciones de IA y se entusiasma al explorar las nuevas tecnologías y avances en nuestro mundo en constante evolución, con el objetivo de hacer la vida de las personas más sencilla.

¿Nos apoyarás hoy?

Creemos que todos merecen entender el mundo en el que viven. Este conocimiento ayuda a crear mejores ciudadanos, vecinos, amigos y custodios de nuestro planeta. Producir periodismo explicativo y profundamente investigado requiere recursos. Puedes apoyar esta misión haciendo una donación económica a Gelipsis hoy. ¿Te sumarás a nosotros?

Suscríbete para recibir nuestro boletín:

Recent Articles

Related Stories

DEJA UN COMENTARIO

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí