La empresa tecnológica estadounidense Meta presentó este martes ImageBind, una herramienta de inteligencia artificial para investigadores capaz de relacionar seis fuentes de datos sensoriales: imágenes y vídeo, audio, texto, profundidad, temperatura y movimiento.
A través de un comunicado, la compañía propietaria de Facebook, Instagram y WhatsApp indicó que esta nueva herramienta de código abierto facilitará que las máquinas puedan analizar simultáneamente esas diferentes informaciones, algo que describió como un "entendimiento holístico" que se acerca a las capacidades humanas.
“Cuando los humanos absorben información del mundo, usamos múltiples sentidos de manera innata, como ver una calle concurrida y escuchar los sonidos de los motores de los automóviles. Hoy presentamos un enfoque que lleva a las máquinas un paso más cerca de la capacidad de los humanos para aprender de forma simultánea, holística y directa de muchas formas diferentes de información, sin necesidad de supervisión explícita (el proceso de organización y etiquetado de datos sin procesar)”, explica Meta.
En ese sentido, desde el conglomerado estadounidense que lidera Mark Zuckerberg, precisaron que "hemos construido ImageBind, el primer modelo de IA capaz de vincular información de seis modalidades. El modelo aprende un único espacio de representación integrado o compartido, no sólo para texto, imagen/video y audio, sino también para sensores que registran unidades de medición de profundidad (3D), térmicas (radiación infrarroja) e inerciales (IMU), que calcular el movimiento y la posición”"
ImageBind: de qué se trata esta nueva herramienta de Inteligencia Artificial
“Hoy abrimos ImageBind, un nuevo modelo de IA que combina diferentes sentidos como lo hace la gente. Entiende imágenes, vídeo, audio, profundidad, movimiento térmico y espacial. Estoy deseando ver lo que todos construyen con él”, publicó vía Facebook el CEO de Meta, Mark Zuckerberg.
Según lo informado por la empresa, las máquinas equipadas con esta IA, podrán "unir" los datos sensoriales y, por ejemplo, conectar los objetos de una fotografía con su sonido, su forma en tres dimensiones o su movimiento, o bien crear imágenes basándose en ruidos.
Meta sugirió que en el futuro la herramienta podría introducir nuevas modalidades de datos sensoriales, como "tacto, discurso, olor" e imágenes por resonancia magnética cerebrales.
A medida que esas modalidades se incrementen, ImageBind "abrirá las compuertas" de la investigación para "diseñar o experimentar mundos inmersivos y virtuales", informaron desde la empresa, en clara alusión al metaverso, que es su proyecto a largo plazo.
Meta presentó hace unos meses otra herramienta de AI para investigadores con código abierto, LLaMa (Large Language Model Meta AI), pero hasta el momento no lanzó aplicaciones con potencial comercial, como los "chatbots" de sus rivales tecnológicas.