Ciencia

De peor a mejor, estos son los modelos de Inteligencia Artificial más destacados

Un grupo de investigadores analizó varios modelos de Inteligencia Artificial.

Con el ascenso de la Inteligencia Artificial en el mercado, son varias las empresas que están ofreciendo sus servicios. Destacan Meta, OpenAI, Cohere y Anthropic, pero ¿cuál de ellos tiene la mejor tecnología y cuál la peor?

Un grupo de investigadores de Arthur AI probó sus respectivos modelos: Llama 2 (Meta), Cohere, GPT-4 (utilizado en ChatGPT por OpenAI) y Claude 2 (Anthropic), estableciendo cuál era el peor y cuál el mejor.

La base está en las respuestas de cobertura y las denominadas “alucinaciones” o errores persistentes en las respuestas.

Publicidad

“Esta iniciativa de investigación clasifica las fortalezas y debilidades de las ofertas de modelos de idiomas grandes de líderes de la industria como OpenAI, Anthropic y Meta, así como otros modelos de código abierto”, señala Arthur AI en su portal.

Adam Wenchel, fundador y CEO de Arthur, dijo a CNBC que es el primer informe “que da una mirada exhaustiva a las tasas de alucinaciones, en lugar de simplemente proporcionar un número único que habla sobre dónde se encuentran en una tabla de clasificación de LLM”.

¿Cuál es el mejor y peor modelo de Inteligencia Artificial, según sus respuestas?

A todos los modelos se les dio un conjunto de datos de preguntas desafiantes en matemáticas combinatorias, presidentes de Estados Unidos y líderes políticos marroquíes, buscando saber cuál respondía mejor.

En líneas generales, la Inteligencia Artificial de Cohere fue la de peor desempeño. Y esto generó el rechazo de un portavoz, citado por CNBC: “La tecnología de generación aumentada de recuperación de Cohere, que no estaba en el modelo probado, es muy eficaz para dar a las empresas citas verificables para confirmar las fuentes de información”.

Llama 2 de Meta alucina más en general que GPT-4 y Claude 2 de Anthropic.

GPT-4 de ChatGPT (OpenAI) fue el que tuvo mejor rendimiento de todos los modelos probados, descubriendo los investigadores que las alucinaciones eran menores que en GPT-3.5.

Para Wenchel, la importancia de los resultados es “probar su carga de trabajo exacta” y “comprender cómo funcionan para lo que están tratando de lograr”.

Publicidad
Síguenos en Google News:Google News

Contenido Patrocinado

Lo Último