Con el ascenso de la Inteligencia Artificial en el mercado, son varias las empresas que están ofreciendo sus servicios. Destacan Meta, OpenAI, Cohere y Anthropic, pero ¿cuál de ellos tiene la mejor tecnología y cuál la peor?
PUBLICIDAD
Un grupo de investigadores de Arthur AI probó sus respectivos modelos: Llama 2 (Meta), Cohere, GPT-4 (utilizado en ChatGPT por OpenAI) y Claude 2 (Anthropic), estableciendo cuál era el peor y cuál el mejor.
La base está en las respuestas de cobertura y las denominadas “alucinaciones” o errores persistentes en las respuestas.
“Esta iniciativa de investigación clasifica las fortalezas y debilidades de las ofertas de modelos de idiomas grandes de líderes de la industria como OpenAI, Anthropic y Meta, así como otros modelos de código abierto”, señala Arthur AI en su portal.
Adam Wenchel, fundador y CEO de Arthur, dijo a CNBC que es el primer informe “que da una mirada exhaustiva a las tasas de alucinaciones, en lugar de simplemente proporcionar un número único que habla sobre dónde se encuentran en una tabla de clasificación de LLM”.
¿Cuál es el mejor y peor modelo de Inteligencia Artificial, según sus respuestas?
A todos los modelos se les dio un conjunto de datos de preguntas desafiantes en matemáticas combinatorias, presidentes de Estados Unidos y líderes políticos marroquíes, buscando saber cuál respondía mejor.
En líneas generales, la Inteligencia Artificial de Cohere fue la de peor desempeño. Y esto generó el rechazo de un portavoz, citado por CNBC: “La tecnología de generación aumentada de recuperación de Cohere, que no estaba en el modelo probado, es muy eficaz para dar a las empresas citas verificables para confirmar las fuentes de información”.
PUBLICIDAD
Llama 2 de Meta alucina más en general que GPT-4 y Claude 2 de Anthropic.
GPT-4 de ChatGPT (OpenAI) fue el que tuvo mejor rendimiento de todos los modelos probados, descubriendo los investigadores que las alucinaciones eran menores que en GPT-3.5.
Para Wenchel, la importancia de los resultados es “probar su carga de trabajo exacta” y “comprender cómo funcionan para lo que están tratando de lograr”.