Recientemente realicé una competencia entre múltiples modelos y encontré algo bastante interesante.


Para un mismo problema de arquitectura, hice que Claude y Codex escribieran soluciones de forma independiente.
Codex omitió un detalle: mi estrategia está dispersa en más de 20 procesos independientes, y su solución asumía que "todos los componentes se ejecutan en el mismo lugar", lo cual no funciona. Claude detectó este problema de inmediato.
Por otro lado, Claude pasó por alto otra cosa: insistía en crear módulos independientes, pero en realidad ya tengo un marco completo listo para usar, solo necesitaba agregar un campo. Codex recuperó esa idea.
Lo más interesante fue la siguiente etapa: pedí a ambos modelos que revisaran la solución final del otro, y ambos subconscientemente asumieron que el otro ya había escrito el marco completo, lo que llevó a que ambos omitieran un caso límite — solo lo descubrí cuando ejecuté manualmente los datos en producción.
Por eso, ahora la rutina es: en cada ronda de competencia, establecer un criterio de éxito independiente y prohibir que un modelo vea el borrador del otro. Así, obtengo dos borradores independientes con áreas ciegas distintas, y solo combinándolos se acerca a una solución completa.
Ver originales
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado