La Fundación del Premio ARC ha publicado el conjunto de datos de rendimiento humano ARC-AGI-3, que incluye los resultados de pruebas de 458 participantes en 135 entornos de razonamiento abstracto sin instrucciones de juego. Todos los entornos fueron superados por humanos y aún no se ha logrado demostrar AGI. Al mismo tiempo, la fundación ajustó las reglas de puntuación para que las puntuaciones humanas y de IA aumentaran ligeramente.

MeNews

2026-04-15 07:00:23

Generación de resúmenes en curso

ME News Noticias, 15 de abril (UTC+8), según la monitorización de Dongcha Beating, la Fundación ARC Prize anunció el conjunto de datos de rendimiento humano de ARC-AGI-3, que es la mayor investigación de pruebas humanas en la serie ARC-AGI hasta la fecha, con 458 participantes. El conjunto de datos incluye 342 grabaciones completas de operaciones humanas, cubriendo 25 entornos públicos, todos de código abierto. ARC-AGI-3 contiene 135 entornos de razonamiento abstracto, donde los evaluados no reciben instrucciones de juego, sino que deben explorar, inferir reglas y desarrollar estrategias por sí mismos. Las pruebas se realizan en un centro de pruebas presencial en San Francisco, con una duración de 90 minutos cada una, y los participantes reciben aproximadamente 130 dólares de salario base más 5 dólares por cada entorno superado. Todas las pruebas son en condición de “primer paso”, es decir, cada persona solo ve una vez y solo intenta una vez, evaluando la capacidad de aprender y adaptarse a problemas completamente nuevos. Humanos y IA reciben la misma información, sin ninguna diferencia de información. Conclusión principal: ARC-AGI-3 ha sido superado por humanos en todos los entornos, con al menos dos participantes independientes completando cada uno, y en la mayoría de los entornos hay más de cinco personas que lo han logrado. La Fundación ARC Prize afirma: “Aún no hemos logrado la AGI, y este conjunto de datos es la prueba”. Desde la vista previa de ARC-AGI-3, se han recibido cerca de un millón de envíos de evaluaciones de IA en entornos públicos. Basándose en estos datos, la fundación también anunció dos ajustes en las reglas de puntuación: primero, cambiar el referente humano en cada nivel de “el segundo mejor jugador” a “el jugador mediano”, para reducir el impacto del azar en la puntuación; segundo, aumentar el límite de puntuación en un nivel del 100% al 115%, para evitar que un mal rendimiento en un nivel arruine la puntuación general. El efecto neto de estos ajustes es que las puntuaciones humanas y de IA aumentaron ligeramente, aproximadamente 0.5 puntos porcentuales. (Fuente: BlockBeats)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GatePreIPOsLaunchesWithSpaceX
124.54K Popularidad
#
GateMarchTransparencyReport
45.49K Popularidad
#
IsraelStrikesIranBTCPlunges
29.84K Popularidad
#
GoldmanSachsFilesBitcoinIncomeETF
778.72K Popularidad
#
USBlocksStraitofHormuz
751.84K Popularidad

Anclado

ARC-AGI-3 anuncia la prueba humana de mayor escala en la historia: todos los niveles han sido superados por humanos, la IA aún tiene diferencias

Temas de actualidad

GatePreIPOsLaunchesWithSpaceX

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

Anclado