Errar es de humanos y al parecer también es propio de los sistemas de Inteligencia Artificial Generativa como lo es ChatGPT de la compañía OpenAI. Al principio de este año el chatbot dejó impresionados a todos por su capacidad aparente para resolver problemas y hablar con elocuencia sobre una amplia diversidad de temas de todo tipo.
PUBLICIDAD
Pero quienes han interactuado a profundidad con la IA, teniendo amplio conocimiento del tema consultado, habrán llegado a la conclusión obvia de que ChatGPT sería muchas veces un “mentiroso” muy convincente.
En la gran mayoría de las veces la plataforma puede ofrecer respuestas y textos aparentemente robustos, aunque en el fondo están plagados de imprecisiones, información inexacta o francas mentiras.
Este es un escenario que parece sentirse cada vez más, sobre todo al abordar temas de ingeniería o ciencias exactas, y no se trata de nuestra imaginación.
Ya que en realidad la Inteligencia Artificial cada vez sería menos exacta en sus respuestas. O al menos eso es lo que ha descubierto un interesante proyecto de investigación que expone por completo a la IA.
ChatGPT es más imprecisa cada vez y eso debería preocuparle a quienes la usan ciegamente
La inteligencia artificial ChatGPT, desarrollada por OpenAI, ha empeorado en su capacidad para resolver problemas matemáticos, según un estudio de la Universidad de Stanford, en donde se analizaron las dos versiones del chatbot de OpenAI: GPT-3.5 y GPT-4.
En los resultados mostraron que la precisión de ChatGPT en ciertas tareas matemáticas ha disminuido significativamente en comparación con su versión anterior. De igual forma se produjeron fluctuaciones similares en tareas más elaboradas como escribir código y armar textos basados en razonamiento visual.
PUBLICIDAD
James Zou, profesor de informática de Stanford que participó en el estudio, se sorprendió por los cambios significativos en el rendimiento de ChatGPT:
“Cuando ajustamos un modelo de lenguaje grande para mejorar su desempeño en ciertas tareas, eso en realidad puede tener muchas consecuencias no deseadas, que en realidad podrían perjudicar el desempeño de este modelo en otras tareas […].
Hay todo tipo de interdependencias interesantes en la forma en que el modelo responde a las cosas que pueden conducir a algunos de los comportamientos que empeoran que observamos”.
Los resultados de la investigación en sí son una clara muestra de ello. Ya que gracias a ellos se ha comprobado que las capacidades de ChatGPT no eran consistentes y por lo tanto el chatbot sería progresivamente menos confiable.
Por ejemplo, cuando se trataba de resolver problemas matemáticos, GPT-4 comenzó con fuerza en marzo de 2023, identificando correctamente los números primos el 97,6% de las veces, pero solo tres meses después, en junio de 2023, su precisión cayó a solo el 2,4%.
Por su parte GPT-3.5 mostró una mejora, pasando del 7,4% de precisión al 86,8% en la misma tarea. Lo que puede ser alarmante considerando que esta versión es la que en teoría va de salida para darle paso a su relevo.
El estudio también demostró que las respuestas de ChatGPT a preguntas sobre temas de género o étnicos se volvieron cada vez más evasivas o incluso en algunos casos se negaron a contestar expulsando del chat a los usuarios.
La moraleja entonces obvia: no se debe confiar ciegamente en las capacidades y respuestas de esta plataforma.