La ilusión del pensamiento: ¿Qué ocurre realmente cuando decimos que la Inteligencia Artificial razona?

En los últimos meses, varios modelos lingüísticos han comenzado a mostrar un comportamiento aparentemente más inteligente. Ya no se limitan a dar una respuesta, sino que muestran su razonamiento paso a paso. Denominados Modelos de Razonamiento a Gran Escala (LRM), se presentan como un paso hacia una inteligencia artificial más capaz y transparente, más cercana al mundo del pensamiento humano. Pero ¿qué sucede realmente cuando estos modelos abordan problemas complejos?
Un grupo de investigadores de Apple ha intentado responder a esta pregunta de forma rigurosa. El estudio, titulado "La ilusión del pensamiento: Comprender las fortalezas y limitaciones de los modelos de razonamiento a través de la perspectiva de la complejidad de los problemas ", analiza el comportamiento de modelos como o1 y o3 de OpenAI, DeepSeek-R1, Claude 3.7 Sonnet Thinking y Gemini Thinking, probándolos en acertijos lógicos de complejidad creciente. El artículo de Apple muestra el estado del arte de la compañía, que lleva tiempo publicando los resultados de los estudios de sus científicos, demostrando cómo en Cupertino la reflexión teórica sobre la inteligencia artificial es quizás incluso superior a su aplicación concreta en productos y servicios.
Las pruebasEn lugar de usar pruebas de matemáticas estándar como MATH500 o AIME, que suelen verse afectadas por la contaminación de los datos de entrenamiento, los investigadores crearon entornos controlados: acertijos de lógica sencillos que les permiten ajustar la dificultad. Cada acertijo tiene reglas claras y comprensibles, pero su dificultad aumenta a medida que se añaden más elementos.
Uno de los rompecabezas más usados es la Torre de Hanói, donde hay que mover fichas de una clavija a otra sin colocar nunca una ficha grande sobre una pequeña. Otro es el Cruce del Río , en el que actores y agentes deben cruzar un río sin infringir las normas de seguridad (un actor nunca puede estar solo con el agente equivocado). También están los rompecabezas de apilar bloques y el de intercambiar peones rojos y azules .
El objetivo no era solo comprobar si el modelo llegaba a la respuesta correcta, sino también estudiar el proceso de razonamiento. En cada paso, los investigadores observaron cuándo aparecían las soluciones correctas y si se mantenían o se descartaban.
Tres fasesEl estudio revela que los modelos de razonamiento lógico (LMR) pasan por tres fases distintas. Al principio, cuando los problemas son simples, los modelos que no razonan explícitamente (es decir, que no utilizan la "cadena de razonamiento") son más rápidos y precisos. Los modelos "pensantes" son más lentos y suelen cometer errores: "Los modelos sin razonamiento explícito pueden lograr un rendimiento comparable, o incluso mejor, que los que razonan".
A medida que aumenta la dificultad, los modelos de razonamiento empiezan a tomar la delantera, mostrando un mejor rendimiento. Pero , superado cierto límite, la situación cambia de nuevo : «Ambos tipos de modelos muestran un colapso total en su rendimiento».
El hallazgo más sorprendente es que, a medida que los problemas se vuelven más complejos, los modelos dejan de razonar en profundidad : en lugar de usar más palabras para explicarse mejor, empiezan a escribir menos. «Los LRM empiezan a reducir su esfuerzo de razonamiento (medido en tokens utilizados durante la inferencia) a medida que aumenta la complejidad del problema». Es como si el modelo se rindiera.
“Mantén tu mente alejada de las cosas”Al analizar la cadena de pensamiento generada por los modelos, se observa un comportamiento ineficiente. En problemas sencillos, suelen encontrar la solución correcta al principio, pero continúan buscando alternativas erróneas. Este fenómeno se conoce como sobrepensamiento , es decir, razonar demasiado sin razón : «En los problemas más sencillos, los modelos con razonamiento explícito suelen encontrar la solución correcta al principio de sus pensamientos, pero continúan explorando soluciones erróneas».
En problemas de dificultad media, la situación se invierte. Los modelos empiezan con soluciones erróneas y solo al final encuentran la correcta. Cuando el problema se vuelve demasiado difícil, finalmente no encuentran nada correcto, ni siquiera un borrador: «Los modelos fracasan completamente en encontrar soluciones correctas».
Instrucciones de usoLos investigadores realizaron otro experimento. Le indicaron al modelo exactamente qué hacer, paso a paso, proporcionándole el algoritmo para resolver el rompecabezas. La idea era simple: si se siguen las instrucciones, se debe llegar a la solución. Esto no salió como se esperaba: "Incluso cuando proporcionamos el algoritmo en la solicitud, el rendimiento no mejora". Los modelos siguen fallando. Esto demuestra que ni siquiera pueden realizar tareas completamente guiadas , y que el problema no radica solo en encontrar la solución, sino en seguir las instrucciones con precisión. Los resultados, como enfatizan los investigadores, "abren numerosas preguntas para futuras investigaciones", pero al mismo tiempo subrayan una vez más la poca fiabilidad de las plataformas de IA actuales para tareas críticas.
De hecho, en algunos casos, los modelos pueden realizar docenas de movimientos correctos en el rompecabezas de la Torre de Hanói, pero fallan en el tercer movimiento en el rompecabezas del cruce del río, que requiere muchas menos operaciones. Según explican los investigadores, esto podría deberse a que ciertos tipos de rompecabezas son muy poco comunes en los datos de entrenamiento y, por lo tanto, los modelos no saben cómo resolverlos.
Ilusión y decepciónAsí, el artículo demuestra que los Modelos de Razonamiento a Gran Escala aún no son capaces de razonar coherentemente. Pueden parecer brillantes a primera vista, pero al observar su verdadero rendimiento, surgen profundas limitaciones: «Los enfoques actuales pueden enfrentar limitaciones fundamentales en su capacidad de razonamiento generalizable», escriben los investigadores.
Estos modelos no comprenden realmente los problemas: aprenden a reconocer patrones, a imitar el razonamiento, pero no razonan en el sentido humano de la palabra. Cuando los problemas se vuelven demasiado complejos, se atascan. Cuando reciben instrucciones, las siguen mal. Y cuando piensan demasiado, se pierden. Paradójicamente, es precisamente este tipo de desánimo el que parece propio del comportamiento humano.
El trabajo de los investigadores de Apple es tanto una crítica implícita a las afirmaciones de los modelos competidores como una invitación a diseñar nuevos métodos para evaluar las capacidades de la IA y superar las limitaciones de los parámetros tradicionales. Es una advertencia a tener siempre presente: la elocuencia no es lo mismo que la inteligencia. Para construir sistemas reales capaces de razonar, necesitaremos nuevas ideas, nuevos enfoques y quizás una nueva forma de pensar sobre la propia inteligencia artificial. Pero, por ahora, el pensamiento basado en modelos es solo una ilusión.
La Repubblica