Tecnología

Los chatbots de IA: ¿Genios o simplemente charlatanes?

2024-10-14

Autor: Marta

Cuando interactuamos con ChatGPT, es fácil creer que este chatbot entiende nuestras preguntas y responde de manera casi humana, como si tuviese la capacidad de razonar. Sin embargo, empresas como OpenAI y Microsoft han creado una narrativa atractiva que nos lleva a pensar que sus modelos de IA son capaces de un razonamiento real, pero esto está lejos de ser la verdad.

Un grupo de seis investigadores de Apple realizó un estudio para poner a prueba diversos modelos de IA, tanto de código abierto como propietarios, con el objetivo de evaluar sus limitaciones al intentar "razonar". En el análisis se incluyeron modelos como Llama, Phi, Gemma y GPT-4, revelando aspectos inquietantes sobre su eficacia.

Entre las herramientas de evaluación, el benchmark GSM8K, desarrollado por OpenAI, se destaca en la medición del razonamiento matemático de estos modelos. Curiosamente, mientras que GPT-3 obtuvo un 35% de precisión, modelos más pequeños de solo 3B de parámetros superan el 85%, y algunos de los modelos más grandes logran incluso más del 95%. Pero, ¿realmente razonan? La respuesta es no.

Los investigadores, liderados por Mehrdad Farajtabar y Samy Bengio, desarrollaron una herramienta llamada GSM-Symbolic para generar experimentos controlados. Entre sus descubrimientos, notaron que la precisión del benchmark GSM8K era inconsistente, y que el llamado "razonamiento" de los modelos era frágil y sensible a cualquier cambio en los nombres o números. En un experimento, cambiar un nombre en un enunciado afecta notablemente el rendimiento.

Además, cualquier modificación en los enunciados, como eliminar o añadir frases, impactaba negativamente la variabilidad de los resultados, sugiriendo que estos modelos son cada vez menos fiables. En un giro irónico, al añadir información que parecía relevante pero en realidad era irrelevante, el rendimiento de la IA caía, revelando que su "razonamiento" no existía como tal.

Este hallazgo es una confirmación de lo que muchos analistas han advertido: los chatbots pueden fallar en tareas simples y, en el caso del ajedrez, pueden llevar a cabo movimientos ilegales. La conclusión es clara: confiar ciegamente en un chatbot puede ser un grave error. A medida que la tecnología avanza, es imperativo entender las limitaciones reales de estos modelos y ser críticos con su uso, especialmente al desarrollar agentes de IA que influyen en decisiones importantes.