Con el boom de la Inteligencia Artificial, Meta quiere ir un paso más allá que sus competidores. La empresa de Mark Zuckerberg lanzó ImageBind, que se define como un modelo de IA que combina diferentes sentidos, como lo hacen las personas.
PUBLICIDAD
“Entiende imágenes, video, audio, profundidad, movimiento térmico y espacial”, indica una publicación de Meta. Seis modalidades en una.
Si el resto de la tecnología solo abarca texto, imagen, video y audio, ImageBind apunta más lejos.
La apuesta de Mark Zuckerberg por la Inteligencia Artificial, dejando de lado el Metaverso en los últimos meses, va creciendo. ImageBind es el segundo proyecto del laboratorio de Meta: el primero fue LLaMa (Large Language Model Meta AI), una herramienta de IA de código abierto para investigadores.
LLaMa, siguiendo el estilo de ChatGPT de OpenAI, permite entrenar y mejorar modelos de procesamiento del lenguaje natural.
Más detalles sobre la nueva herramienta de Inteligencia Artificial de Meta, ImageBind
De acuerdo con la compañía de Zuckerberg, ImageBind comparte toda la experiencia sensorial de los humanos, mediante el aprendizaje de un espacio de incrustación único que enlaza múltiples entradas.
“Incluso puede actualizar los modelos de IA existentes para admitir la entrada de cualquiera de las seis modalidades, lo que permite la búsqueda basada en audio, la búsqueda intermodal, la aritmética multimodal y la generación intermodal”, señala Meta.
PUBLICIDAD
Pero Meta no quiere ponerse límites. La empresa afirma que en algún momento podrán vincular más sentidos, como el tacto, el habla, el olfato y las señales de IRMf del cerebro.
“Todavía hay mucho por descubrir sobre el aprendizaje multimodal”, afirma la empresa de Zuckerberg. “La comunidad de investigación de IA aún tiene que cuantificar de manera efectiva los comportamientos de escala que aparecen solo en modelos más grandes y comprender sus aplicaciones”.
ImageBind está disponible para desarrolladores en la fuente de Meta de código abierto, a continuación.