ARC-AGI-3 anuncia la prueba humana de mayor escala en la historia: todos los niveles han sido superados por humanos, la IA aún tiene diferencias

robot
Generación de resúmenes en curso

ME News Noticias, 15 de abril (UTC+8), según la monitorización de Dongcha Beating, la Fundación ARC Prize anunció el conjunto de datos de rendimiento humano de ARC-AGI-3, que es la mayor investigación de pruebas humanas en la serie ARC-AGI hasta la fecha, con 458 participantes. El conjunto de datos incluye 342 grabaciones completas de operaciones humanas, cubriendo 25 entornos públicos, todos de código abierto. ARC-AGI-3 contiene 135 entornos de razonamiento abstracto, donde los evaluados no reciben instrucciones de juego, sino que deben explorar, inferir reglas y desarrollar estrategias por sí mismos. Las pruebas se realizan en un centro de pruebas presencial en San Francisco, con una duración de 90 minutos cada una, y los participantes reciben aproximadamente 130 dólares de salario base más 5 dólares por cada entorno superado. Todas las pruebas son en condición de “primer paso”, es decir, cada persona solo ve una vez y solo intenta una vez, evaluando la capacidad de aprender y adaptarse a problemas completamente nuevos. Humanos y IA reciben la misma información, sin ninguna diferencia de información. Conclusión principal: ARC-AGI-3 ha sido superado por humanos en todos los entornos, con al menos dos participantes independientes completando cada uno, y en la mayoría de los entornos hay más de cinco personas que lo han logrado. La Fundación ARC Prize afirma: “Aún no hemos logrado la AGI, y este conjunto de datos es la prueba”. Desde la vista previa de ARC-AGI-3, se han recibido cerca de un millón de envíos de evaluaciones de IA en entornos públicos. Basándose en estos datos, la fundación también anunció dos ajustes en las reglas de puntuación: primero, cambiar el referente humano en cada nivel de “el segundo mejor jugador” a “el jugador mediano”, para reducir el impacto del azar en la puntuación; segundo, aumentar el límite de puntuación en un nivel del 100% al 115%, para evitar que un mal rendimiento en un nivel arruine la puntuación general. El efecto neto de estos ajustes es que las puntuaciones humanas y de IA aumentaron ligeramente, aproximadamente 0.5 puntos porcentuales. (Fuente: BlockBeats)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado