Radar

ARC-AGI-3: los mejores modelos de IA puntúan por debajo del 1% donde humanos resuelven sin problema

El nuevo benchmark más exigente demuestra que GPT-5.4, Claude Opus 4.6 y Grok 4.20 no pueden adaptarse a tareas nuevas sin scaffolding humano. La distancia a AGI es mayor de lo que sugieren los titulares.

Por qué importa

En un momento donde los laboratorios compiten por afirmar que están cerca de AGI, ARC-AGI-3 es un baño de realidad. Los modelos más avanzados del mundo puntúan entre 0% y 0.37% en tareas que humanos resuelven con facilidad. Para directivos: la IA es extraordinariamente útil en tareas bien definidas pero no reemplaza el juicio humano en situaciones nuevas. Para inversores: las promesas de AGI a corto plazo deben tomarse con cautela.

Qué vigilar

  • Reacción de los laboratorios: ¿ajustan narrativa sobre AGI?
  • Impacto en valoraciones de empresas de IA pura
  • Diferenciación entre utilidad práctica y capacidad general

Contexto

Casi 1.000 expertos contribuyeron a crear los 2.500 desafíos del benchmark. Las tareas están diseñadas para medir adaptación a lo desconocido, no memorización ni pattern matching. Esto no invalida la utilidad de los modelos actuales pero sí pone límites claros a las expectativas.