Hemos descubierto algo preocupante en los modelos de IA: si el problema es demasiado difícil, se rinden enseguida
Investigadores de Apple han descubierto que los modelos de razonamiento se cansan de pensar y se rinden ante problemas complejos
Pero algunos expertos apuntan a que las pruebas ejecutadas en Apple tenían ciertos problemas
Las máquinas no piensan, eso es una ilusión. No lo decimos nosotros, lo dicen un grupo de investigadores de Apple que acaban de publicar un revelador estudio titulado precisamente así ('La ilusión de pensar'). En él dichos expertos han analizado el rendimiento de varios modelos de IA con la capacidad de "razonar", y sus conclusiones son llamativas... y preocupantes.
Puzzles para las IAs que "razonan". Lo normal al evaluar la capacidad de un modelo de IA es utilizar benchmarks con pruebas de programación o de matemáticas, por ejemplo. En lugar de eso, Apple creó varias pruebas basadas en puzzles lógicos que eran totalmente nuevos y que por tanto no podían formar parte del entrenamiento de estos modelos. En la evaluación participaron Claude Thinking, DeepSeek-R1 y o3-mini.
Modelos que se estrellan. En sus pruebas comprobaron como todos estos modelos de razonamiento se acababan estrellando de bruces contra un muro cuando se enfrentaban a problemas complejos. En esos casos, la precisión de dichos modelos cayó estrepitósamente hasta el 0%. No importaba además que concedieras más recursos a estos modelos a la hora de tratar de resolver esos problemas. Si eran de cierta dificultad, no podían con ellos.
Se cansan de pensar. De hecho, sucedió algo curioso. A medida que los problemas se volvían más complicados, estos modelos comenzaron a pensar no más, sino menos. Usaron menos tokens para resolverlos y se rindieron antes a pesar de poder utilizar recursos ilimitados.
Ni con ayuda. Los investigadores de Apple incluso intentaron darles a los modelos un algoritmo exacto que guiaba a los modelos a que pudieran encontrar la solución paso por paso. Y aquí, otra sorpresa mayúscula: ninguno de los modelos lograba resolver los problemas a pesar de tener esas soluciones guiadas. No podían seguir instrucciones de forma consistente.