Hubo un tiempo en que convertir una fotografía antigua en una imagen digital impresionaba a la gente. Hoy en día podemos hacer algo más, como dar vida a las fotos de época a la manera de Harry Potter. Y esta semana, el fabricante de chips NVIDIA ha hecho otro truco de magia.

Basándose en trabajos anteriores, los investigadores de NVIDIA mostraron cómo una pequeña red neuronal entrenada con unas pocas docenas de imágenes puede renderizar la escena fotografiada en 3D. Como demostración, el equipo transformó las imágenes de una modelo que sostenía una cámara Polaroid -una oda a Andy Warhol- en una escena 3D.

La obra destaca por varias razones.

En primer lugar, es muy rápido. Los modelos de IA anteriores tardaban horas en entrenarse y minutos en renderizar las escenas 3D. La red neuronal de NVIDIA no tarda más que unos minutos en entrenarse y renderiza la escena en decenas de milisegundos. En segundo lugar, la propia IA es diminuta en comparación con los enormes modelos lingüísticos actuales. Los grandes modelos como el GPT-3 se entrenan en cientos o miles de unidades de procesamiento gráfico (GPU). La IA de renderizado de imágenes de NVIDIA se ejecuta en una sola GPU.

El trabajo se basa en campos de radiación neural (NeRF), una técnica desarrollada por investigadores de la UC Berkeley, la UC San Diego y Google Research, hace un par de años. En resumen, un NeRF toma un conjunto limitado de datos -por ejemplo, 36 fotografías de un sujeto capturadas desde diversos ángulos- y luego predice el color, la intensidad y la dirección de la luz que irradia de cualquier punto de la escena. Es decir, la red neuronal rellena los huecos entre las imágenes con las mejores conjeturas basadas en los datos de entrenamiento. El resultado es un espacio 3D continuo cosido a partir de las imágenes originales.

La reciente contribución de NVIDIA, esbozado en un documento , pone a los NeRFs en la mira para mejorar su rendimiento. Según el artículo, el nuevo método, bautizado como Instant NeRF, explota un enfoque conocido como codificación de rejilla hash de resolución múltiple para simplificar la arquitectura del algoritmo y ejecutarlo en paralelo en una GPU. Esto aumenta el rendimiento en varios órdenes de magnitud: el algoritmo se ejecuta hasta 1.000 veces más rápido, según un Publicación en el blog de NVIDIA -sin sacrificar la calidad.

NVIDIA imagina que esta tecnología podría aplicarse a robots y coches autoconducidos, ayudándoles a visualizar y comprender mejor el mundo que les rodea. También podría utilizarse para crear avatares de alta fidelidad que la gente pueda importar a los mundos virtuales o para replicar escenas del mundo real en el mundo digital donde los diseñadores puedan modificarlas y construir sobre ellas.

The speed and size of neural networks matter in such cases, as huge algorithms requiring prodigious amounts of computing power can’t be used by most people, nor are they practical for robots and cars without lightning-quick, dependable connections to the cloud.

La demostración formó parte de la conferencia de desarrolladores de NVIDIA celebrada esta semana. Otros aspectos destacados fueron un sistema para coches de autoconducción que pretende mapa de 300.000 millas de carreteras a centímetros en 2024 y un Superordenador de IA la empresa dice que será el más rápido del mundo cuando salga al mercado (una afirmación que también realizado por Meta recientemente ).

Todo esto encaja perfectamente en un relato más amplio . El mundo digital se está extendiendo al mundo real, y viceversa. Y no sólo los libros, la música, las fotos, los documentos y los pagos, sino las personas, los lugares y las infraestructuras. Dado que los chips de NVIDIA destacan en el campo de la IA y los gráficos, la compañía está bien posicionada para participar en todo ello. De hecho, no contenta con crear réplicas digitales de escenas individuales, la compañía ha dicho que está construyendo undigital twin of the Earth too.

Es cierto que cada vez es más difícil trazar la línea divisoria entre el marketing y los argumentos de venta y los desarrollos serios. No es raro ver mezclas de todas las palabras de moda en el mundo de la tecnología: las TIC, el metaverso, AI , blockchain -en un solo titular. Pero aunque la visión parece estar superando a la capacidad, hay muchos indicios de que llegaremos a ella tarde o temprano.

Una mini IA que puede convertir una pila de polaroids en una escena 3D es una de ellas.

Crédito de la imagen: NVIDIA