Las alucinaciones siguen siendo el talón de Aquiles de la IA: los últimos modelos de OpenAI inventan más de la cuenta
Los modelos O3 y O4-mini de OpenAI alucinan más que sus predecesores
Ni el razonamiento ha conseguido erradicar por completo esta limitación
La inteligencia artificial (IA) no está evolucionando: está despegando. En apenas dos años y medio hemos pasado de GPT-3.5 a GPT-4o, y quien haya probado ambos lo sabe: la diferencia en la experiencia de conversación es enorme. GPT-3.5 marcó un antes y un después al inaugurar la era ChatGPT, pero hoy nadie probablemente volvería a usarlo si tiene a su alcance modelos más avanzados.
Ahora bien, ¿qué significa que un modelo sea más avanzado? La respuesta es compleja. Hablamos de ventanas de contexto más amplias (es decir, la capacidad de leer y procesar más información a la vez), de resultados más elaborados y, en teoría, de menos errores. Pero hay un punto que sigue siendo espinoso: las alucinaciones. Y no siempre se avanza en la dirección correcta.
¿Qué son las alucinaciones? En IA, alucinar significa inventarse cosas. Son respuestas que suenan bien, incluso convincentes, pero que son falsas. El modelo no miente porque quiera, simplemente genera texto en función de patrones. Si no tiene datos suficientes, se los imagina. Y eso puede pasar desapercibido. Ahí está el riesgo.
O3 y O4-mini: más razonamiento, más errores. En septiembre del año pasado llegaron los llamados modelos razonadores. Supusieron un salto importante: introdujeron una especie de cadena de pensamiento que mejoró su rendimiento en tareas complejas. Pero no eran perfectos. O1-Pro era más caro que O3-mini, y no siempre más eficaz. Aun así, toda esta línea se presentó con una promesa: reducir las alucinaciones.
O3
El problema es que, según los propios datos de OpenAI, eso no está ocurriendo. TechCrunch cita un informe técnico de la compañía donde se reconoce que O3 y O4-mini alucinan más que sus predecesores. Literalmente. En las pruebas internas con PersonQA, O3 falló en el 33% de las respuestas, el doble que O1 y O3-mini. O4-mini lo hizo aún peor: 48%.
Otros análisis, como el del laboratorio independiente Transluce, muestran que O3 incluso se inventa acciones: decía haber ejecutado código en un MacBook Pro fuera de ChatGPT y luego haber copiado los resultados. Algo que, sencillamente, no puede hacer.