MADRID, 20 Nov. (Portaltic/EP) -
La compañía Meta ha anunciado la expansión de su tecnología llamada Expressive Media Universe (EMU) con dos nuevas herramientas dirigidas a la edición precisa de imágenes y la generación de vídeos a partir de descripciones e imágenes.
En septiembre, Meta presentó su modelo fundacional de generación de contenido, EMU, en el evento Connect, junto con una herramienta que permitía crear stickers para aplicaciones de mensajería.
La empresa ya había anunciado entonces que esta tecnología impulsaría el desarrollo de otras dos herramientas de edición de imágenes, y ahora se han presentado. Una de ellas se enfoca en el control de la edición de imágenes a partir de instrucciones de texto, mientras que la otra facilita la generación de vídeos a partir de descripciones de texto con modelos de difusión.
La primera herramienta, EMU edit, utiliza IA generativa y ofrece una nueva forma de optimizar el proceso de edición de imágenes, sin necesidad de afinar el resultado final con múltiples indicaciones en texto. Según Meta, esta herramienta sigue con precisión las instrucciones, lo que garantiza que los píxeles no relacionados con las instrucciones permanezcan intactos. Solo modifica los píxeles afectados por la edición, no la imagen completa.
La herramienta también incorpora tareas de visión computacional como instrucciones para los modelos de generación de imágenes. Para su entrenamiento, Meta utilizó el conjunto de datos más grande de su tipo hasta la fecha, que incluye 10 millones de muestras sintetizadas, cada una con una imagen de entrada, una descripción de la tarea y una imagen de salida con el resultado deseado.
La segunda herramienta, EMU video, utiliza un proceso dividido en dos pasos y una arquitectura unificada para generar vídeos a partir de entradas de texto, imágenes o texto e imágenes. Este enfoque utiliza solo dos modelos de difusión y genera vídeos de 512 x 512, con una duración de cuatro segundos y una velocidad de 16 fotogramas por segundo.