Pensar mucho no te hace más listo: lo que revela Apple sobre los modelos de razonamiento y la toma de decisiones

Descubre por qué los modelos de inteligencia artificial que supuestamente piensan pueden acabar tomando peores decisiones. Un análisis sobre el estudio de Apple que revela los límites del razonamiento automático y humano.

TRANSFORMACIÓN DIGITALINTELIGENCIA ARTIFICIALMODELOS DE RAZONAMIENTO

J. Benavides

6/10/20254 min read

Pensar mucho no te hace más listo: lo que revela Apple sobre los modelos de razonamiento y la toma de decisiones

La inteligencia artificial, nuestra prima listilla que siempre parece tener la respuesta correcta -hasta que le pides que te resuelva un problema de verdad-, parece que está atravesando una pequeña crisis existencial según Apple. Los modelos de razonamiento (LRM) se suponía que iban a ser el no-va-más del pensamiento computacional: detallistas, metódicos, cerebrines de silicio. Pero resulta que, cuando las cosas se ponen feas, se comportan como el típico estudiante que hace listas infinitas para planificar su estudio, pero termina sin hacer nada de nada. O al menos eso dice Apple en lo que parece más una pataleta porque otra vez no me habéis llamado para jugar.

Diseñados para abordar tareas complejas paso a paso, los LRMs deberían tener ventaja sobre los modelos de lenguaje tradicionales (LLMs), más lanzados pero nada reflexivos. Y sí, lo hacen... hasta que la tarea se complica de verdad. Entonces, en lugar de sacar la calculadora y ponerse serios, parece que se van de paseo mental por los campos de la procrastinación según un reciente estudio (Shojaee et al., 2025).

Tres regímenes de comportamiento según la complejidad

En este estudio se analiza el comportamiento de los LRMs, en comparación con los osados LLMs, y se nos plantea casi una tragicomedia dividida en tres actos, según la complejidad de la tarea solicitada:

  • Baja complejidad: Todo suele ir bien. Los modelos, ya sean LLMs o LRMs, responden sin pensar demasiado resolviendo nuestra petición sin gran problema. Menos es más. Como cuando haces la compra con hambre.

  • Complejidad media: Aquí los LRMs brillan sobre los LLMs. Se paran, piensan, evalúan... y consiguen resultados mejores. El pensamiento pausado parece una buena inversión. El clásico 'vamos a tomarnos un café y pensarnos bien esto antes de hacer nada'.

  • Alta complejidad: Todo se desmorona. Lo más curioso es que los LRMs a menudo ni tan siquiera lo intentan. Empiezan a razonar menos. Casi que se dan por vencidos antes de empezar y prefieren no hacer el ridículo. Como ese amigo que dice que el trivial es muy aburrido porque sabe que no va a dar pie con bola.

La paradoja del sobreanálisis y el colapso por complejidad

Según estos investigadores, los entornos de prueba tipo 'Tower of Hanoi' y 'River Crossing' son un campo de minas para estos modelos. Cuando las reglas se multiplican y las combinaciones posibles se disparan, se dan estas situaciones:

  • Encuentran una solución parcial... y luego siguen rumiando, como si no supieran que ya habían ganado. Juegan la prórroga aunque el marcador vaya 5-0.

  • Cambian de estrategia a mitad de camino, cual estudiante que borra lo que ya había escrito en el examen. Peor que Ibon Navarro cuando se le pone delante el UCAM Murcia.

  • Acaban tan confundidos que prefieren no decir nada coherente. Algo así como 'mejor parecer tonto en silencio que confirmarlo en voz alta'.

Dice Apple que el 'overthinking' les pasa factura a los LRMs. Se enredan tanto en su propio hilo de pensamiento que acaban haciendo nudos imposibles. El resultado: más tokens generados, más consumo de energía y peores respuestas. Una especie de burnout digital.

Y por si fuera poco, cuando se les da el camino masticado, tampoco dan la talla. Se les ofrece un algoritmo paso a paso y... fallan igual. Como todos los que montamos los muebles del IKEA al revés por más que nos den las instrucciones.

Esto pone en entredicho la idea de que 'pensar paso a paso' implica comprender. Porque lo que hacen en realidad es imitar patrones que han visto antes, sin entender de verdad lo que hacen. Una especie de paporreta de alto nivel.

Implicaciones para la toma de decisiones en contextos reales

¿Entonces, lo que dice el escéptico de turno de que la IA no sirve para nada es cierto? Pues lo más inquietante de todo esto es lo mucho que se parece a ciertos procesos humanos. Ese afán de analizar, revisar, evaluar todas las opciones posibles... hasta que pasa el tren y lo hemos perdido, se vive en muchas empresas a diario. Pensar está bien, pero cuando se convierte en una excusa para no actuar, se vuelve contraproducente.

Este estudio nos lanza un recordatorio en clave binaria: el exceso de análisis puede llevar a la parálisis. Hay que saber calibrar cuándo conviene seguir pensando y cuándo es mejor lanzarse, aunque sea con un margen de error. Porque, al final, no hay trofeo para el razonamiento más largo.

Pero de ahí a seguir siendo un escéptico de la IA a estas alturas porque el 100% de las veces no me pueda fiar... A ver, que tampoco hay humanos que acierten siempre...

Conclusión

Los LRMs han venido a confirmar algo que ya intuíamos: no se trata solo de pensar, sino de pensar con sentido. Su aparente incapacidad para sostener el razonamiento cuando la cosa se pone fea demuestra que la inteligencia, artificial o humana, tiene sus límites prácticos.

En definitiva, pensar está bien. Razonar, también. Pero convertir cada decisión en un sudoku filosófico no siempre lleva al mejor resultado. Incluso las máquinas más avanzadas a veces necesitan decir: 'hasta aquí hemos llegado, que piense otro'.

Todo esto, con unas cuantas pizcas de sal. Porque cuando se le pide a Gemini que genere el código para resolver esos problemas complejos como el tipo Tower of Hanoi, lo hace, y el código los resuelve. Es obvio que eso no le interesa a Apple decirlo ahí... Pataletas surgidas del 'todo esto nos sigue pillando en fuera de juego'...

Para más información: