La semana pasada, una oleada de titulares aseguró que ChatGPT había superado oficialmente la prueba de Turing, esa famosa barrera entre lo artificial y lo humano que supuestamente nadie había cruzado.
PUBLICIDAD
Te puede interesar: [Chicle antiviral: científicos crean una goma de mascar que puede atrapar virus como la gripe y el herpes]
Pero si estabas listo para darle la bienvenida a tu nuevo compañero robótico con emociones humanas, quizá quieras calmarte un poco: la historia detrás del estudio es mucho más terrenal (aunque igual de fascinante).
¿Qué pasó exactamente?
Todo se originó a partir de un estudio preimpreso —aún no revisado por pares— publicado por dos investigadores de la Universidad de California en San Diego.
En él, se sometieron cuatro modelos de lenguaje a una versión moderna de la prueba de Turing. El gran ganador fue GPT-4.5 de OpenAI, que logró pasar por humano el 73 % de las veces.
La prueba se realizó con 284 participantes divididos en interrogadores y “testigos”, algunos humanos y otros IAs. A cada interrogador se le presentaban dos interlocutores (uno real, uno IA) y debía identificar quién era quién tras una breve charla escrita de cinco minutos. GPT-4.5 logró engañar a la mayoría.
LLaMa-3.1 también tuvo buen desempeño, mientras que modelos como ELIZA (una IA estilo retro) no lograron confundir a casi nadie.
PUBLICIDAD
Pero… ¿qué es realmente la prueba de Turing?
La prueba de Turing, propuesta por el pionero de la informática Alan Turing en 1950, no era una fórmula mágica para detectar inteligencia.
De hecho, fue más un ejercicio filosófico que una medida definitiva. En lugar de preguntar “¿puede pensar una máquina?”, Turing reformuló la pregunta: “¿Puede una máquina comportarse como un humano hasta el punto de engañar a otro humano?”
Es un test de imitación, no de pensamiento.
Con los años, el concepto se volvió un mito pop: si una IA pasa la prueba, ya es “consciente” o “inteligente”. Pero esa idea está más cerca de la ciencia ficción que del consenso académico.
¿Por qué es una prueba tan polémica?
Hay varias razones:
- Confunde comportamiento con pensamiento: Una IA puede actuar como si entendiera sin realmente entender nada.
- Simplifica la inteligencia: El test se basa en una conversación breve. Pero ¿puede una charla de cinco minutos realmente medir la inteligencia humana?
- Ignora el “cómo”: No importa cómo la IA llegó a la respuesta, solo si logró engañar. Esto limita su capacidad para evaluar el razonamiento o el entendimiento genuino.
- Condiciones poco realistas: El estudio moderno usó interacciones cortas, con perfiles predefinidos para los bots. ¿Y si uno actuaba como adolescente y el otro como robot obediente? El truco de parecer humano puede ser más estilístico que intelectual.
¿Entonces qué significa todo esto?
Lo más sensato sería decir que GPT-4.5 logró imitar muy bien el lenguaje humano en un contexto limitado. Fue convincente. Lo suficiente como para engañar a un porcentaje importante de personas. Pero eso no lo convierte en “inteligente” en el sentido humano.
Como admiten los propios autores del estudio: lo que se midió aquí es “sustituibilidad”, no capacidad de pensamiento. Es decir, si una IA puede hacerse pasar por humano en ciertas tareas, no si puede razonar, reflexionar o tener emociones como nosotros.
¿Y por qué esto sigue siendo importante?
Porque, aunque no estamos ante una inteligencia artificial consciente, estamos cada vez más cerca de IAs que pueden integrarse en contextos humanos sin que lo notemos. ¿Atención al cliente? ¿Companías virtuales? ¿Simulaciones educativas? Ahí es donde estas tecnologías brillan.
Y ahí es donde el impacto real puede sentirse… incluso si el software no “piensa”.
Te puede interesar: [Si comes estos alimentos, puedes mejorar la salud de tus ojos, dice un estudio]
Así que sí, ChatGPT pasó la prueba de Turing (versión 2024). Pero antes de coronarlo como el nuevo Einstein digital, conviene recordar: imitar no es lo mismo que entender. Y en el mundo de la inteligencia artificial, esa diferencia lo es todo.