Modelos de difusión: qué hay detrás de las imágenes hiperrealistas de la inteligencia artificial

Cada vez tenemos imágenes más realistas creadas por inteligencia artificial. Entienda la técnica que hay detrás de esta aplicación.

¿Cómo pueden ayudarnos los modelos de difusión a resolver problemas científicos y cómo se han convertido en tecnología punta?
¿Cómo pueden ayudarnos los modelos de difusión a resolver problemas científicos y cómo se han convertido en tecnología punta?

En los últimos años, nos hemos enfrentado a un tsunami de inteligencia artificial generativa que genera texto, imágenes, vídeos e incluso sonidos. Las imágenes y los vídeos son cada vez más realistas, y en parte se debe a los modelos de difusión. Estos han cobrado relevancia gracias a su capacidad para generar imágenes extremadamente realistas. Actualmente, diversas herramientas como ChatGPT y Gemini permiten generar imágenes mediante modelos de difusión.

Curiosamente, los modelos de difusión están estrechamente vinculados a los conceptos matemáticos y físicos de caos y ruido. Incluso el propio nombre se relaciona con las primeras ideas sobre las ecuaciones de difusión en física. Los modelos aprenden de datos ruidosos y aplican ecuaciones de difusión, además de procesos estocásticos, para reconstruir patrones. Esto permite convertir información aparentemente caótica en datos más estructurados, y la IA puede aprender a generar imágenes detalladas.

Además de la creciente popularidad de las imágenes ultrarrealistas en línea, los modelos de difusión son importantes en aplicaciones científicas. Ya se utilizan para simulaciones físicas, predicción de estructuras moleculares, análisis de imágenes médicas y otras tareas que requieren la generación de datos complejos. Los modelos de difusión siguen siendo de vanguardia en diversos campos de la IA.

Modelos de difusión

En pocas palabras, los modelos de difusión son modelos de IA capaces de generar datos, como imágenes, sonidos o vídeos, a partir de información inicialmente con ruido. Funcionan aprendiendo a revertir un proceso de degradación progresiva donde los datos iniciales se vuelven gradualmente ruidosos. El modelo observa cómo estos datos originales se transforman hasta volverse completamente ruidosos. Luego, se entrena para reconstruir los datos a partir de este estado ruidoso.

Este proceso permite a la IA crear contenido nuevo, realista y detallado siguiendo patrones aprendidos durante el entrenamiento porque el ruido es aleatorio.

La capacidad de los modelos de difusión para producir resultados de alta calidad los ha convertido en una de las herramientas favoritas hoy en día. A diferencia de los modelos anteriores, que presentaban limitaciones, los modelos de difusión pueden generar imágenes con texturas, colores y estructuras coherentes, o sonidos y vídeos con una secuencia lógica.

¿Cómo crea el ruido una imagen?

El proceso de creación de imágenes mediante modelos de difusión comienza transformando una imagen real en una versión con ruido progresivo. Este paso enseña al modelo a comprender cómo la información visual se degrada con el tiempo, creando una ruta reversible que puede usar para reconstruir la imagen original. Al observar cómo muchas imágenes pasan por este proceso, el modelo aprende los patrones necesarios.

Al generar una nueva imagen, el modelo comienza con ruido puro y aplica el aprendizaje adquirido para eliminarlo gradualmente, paso a paso, hasta formar una imagen nítida y detallada. Cada paso del proceso se guía por el conocimiento del modelo sobre el comportamiento de las imágenes reales en el mismo proceso. Es este "aprendizaje de ruido inverso" lo que permite a los modelos de difusión crear imágenes realistas a partir de la aleatoriedad.

De la física a la inteligencia artificial

El concepto de difusión tiene sus raíces en la física y las matemáticas, ya que describe cómo las partículas, el calor o las sustancias se propagan a lo largo del tiempo en un medio. Esta idea se describe mediante ecuaciones diferenciales parciales que modelan la propagación de información o materia. En física, la difusión explica fenómenos como el movimiento de moléculas en líquidos o gases, y es fundamental para comprender los procesos físicos.

Los modelos de difusión aprenden cómo se difunden los píxeles y luego aprenden el camino inverso.
Los modelos de difusión aprenden cómo se difunden los píxeles y luego aprenden el camino inverso. Crédito: NVIDIA

En IA, los científicos han adaptado este concepto para crear modelos capaces de generar datos complejos. En lugar de partículas físicas, el modelo funciona con píxeles o señales que difunden información de forma controlada, aprendiendo a revertir el proceso y a reconstruir patrones realistas. Esta combinación de física e IA ha permitido el desarrollo de algoritmos generativos más robustos, capaces de crear imágenes, sonidos y vídeos de alta fidelidad.

Aplicaciones reales de los modelos de difusión

Aunque cuando hablamos de modelos de difusión, inmediatamente pensamos en imágenes creadas con herramientas como ChatGPT y Gemini, los modelos de difusión van mucho más allá. En medicina, por ejemplo, pueden generar imágenes sintéticas de alta calidad para entrenar algoritmos de diagnóstico. En física e ingeniería, estos modelos facilitan simulaciones como la dinámica de fluidos o el comportamiento de materiales.

Los modelos de difusión también permiten la creación rápida de prototipos de productos, imágenes o vídeos, acelerando así los procesos de innovación. También se utilizan para generar datos sintéticos para entrenar otras IA, mejorar los modelos predictivos y explorar escenarios que serían costosos e incluso peligrosos de probar en la práctica. Con estas aplicaciones, la tecnología ha beneficiado diversas áreas del conocimiento humano.