La HaciendIA · ARC-AGI-3: modelos IA suspenden

Por qué importa

En un momento donde los laboratorios compiten por afirmar que están cerca de AGI, ARC-AGI-3 es un baño de realidad. Los modelos más avanzados del mundo puntúan entre 0% y 0.37% en tareas que humanos resuelven con facilidad. Para directivos: la IA es extraordinariamente útil en tareas bien definidas pero no reemplaza el juicio humano en situaciones nuevas. Para inversores: las promesas de AGI a corto plazo deben tomarse con cautela.

Qué vigilar

Reacción de los laboratorios: ¿ajustan narrativa sobre AGI?
Impacto en valoraciones de empresas de IA pura
Diferenciación entre utilidad práctica y capacidad general

Contexto

Casi 1.000 expertos contribuyeron a crear los 2.500 desafíos del benchmark. Las tareas están diseñadas para medir adaptación a lo desconocido, no memorización ni pattern matching. Esto no invalida la utilidad de los modelos actuales pero sí pone límites claros a las expectativas.