Alguien creó un 'Mito Teórico' de código abierto para invertir la ingeniería de la IA más peligrosa de Anthropic

En resumen

  • OpenMythos es una reconstrucción desde cero de la arquitectura Mythos de Claude, construida únicamente a partir de artículos de investigación públicos y conjeturas fundamentadas.
  • Claude Mythos es el modelo más potente de Anthropic, encerrado en el Proyecto Glasswing porque encontró de forma autónoma 271 vulnerabilidades en Firefox y ataques en red de 32 pasos.
  • El repositorio es un andamiaje teórico—código sin pesos entrenados. Imitan un esfuerzo separado de Vidoc Security que reprodujo los hallazgos de vulnerabilidad de Mythos usando modelos comerciales.

Si Anthropic no te muestra qué hay dentro de su IA más peligrosa, alguien en GitHub lo adivinará. Un desarrollador llamado Kye Gomez ha publicado OpenMythos, una reconstrucción de código abierto de cómo cree que es Mythos de Claude en su interior. El repositorio ha recibido más de 10,000 estrellas en GitHub en unas pocas semanas tras su lanzamiento, y viene con un exhaustivo archivo “readme” lleno de ecuaciones, citas y una advertencia cortés de que no tiene nada que ver con Anthropic. Es especulación. Pero es especulación estructurada, en código. Aquí tienes un repaso rápido de qué es Mythos: Mythos salió a la vista pública a finales de marzo, cuando Anthropic publicó accidentalmente materiales preliminares que lo describían como el modelo más capaz de la compañía hasta la fecha—una categoría por encima de Opus. La versión posterior, Mythos Preview, resultó ser demasiado buena para ser lanzada en ciberseguridad.

 Según Anthropic, Mythos encontró 271 vulnerabilidades en Firefox durante las pruebas de Mozilla. Se convirtió en el primer modelo de IA en completar una simulación de ataque en red corporativa de 32 pasos. Anthropic lo encerró dentro del Proyecto Glasswing, una coalición verificada de aproximadamente 40 socios, incluyendo Microsoft, Apple, Amazon y la NSA. El público nunca puede tocarlo. Así que Gomez intentó averiguar cómo funciona. La hipótesis central de OpenMythos es que Mythos es un Transformador de Profundidad Recurrente—también llamado transformador en bucle. Los modelos estándar apilan cientos de capas únicas. Los modelos en bucle toman una pila más pequeña y la ejecutan muchas veces en cada pasada hacia adelante.

En otras palabras, los mismos pesos pasan por más iteraciones. Pensamiento más profundo, en un espacio latente continuo, antes de que se emita cualquier token. El repositorio argumenta que esto explicaría las dos cualidades más extrañas de Mythos: razona a través de problemas novedosos que ningún otro modelo puede resolver, pero su memorización en bruto es desigual. Esa es la huella arquitectónica del bucle—composición sobre almacenamiento. OpenMythos cita a Parcae, un artículo de abril de 2026 de la Universidad de California en San Diego y Together AI que resolvió el problema de inestabilidad de larga data en modelos en bucle—un modelo Parcae de 770 millones de parámetros iguala en calidad a un transformador de profundidad fija de 1.3 mil millones, con leyes de escalado predecibles para cuántos bucles ejecutar. El repositorio también usa Multi-Latent Attention de DeepSeek para comprimir la memoria, y un sistema de Mezcla de Expertos para manejar la amplitud en diferentes dominios. Lo que no tiene son pesos, por lo que básicamente es una técnica sin un ejecutor. OpenMythos es teórico. El código define variantes del modelo desde 1 mil millones hasta 1 billón de parámetros, pero hay que entrenarlos tú mismo—el archivo “readme” señala un script de entrenamiento de 3 mil millones de parámetros en FineWeb-Edu y un objetivo ajustado a 30 mil millones de tokens de Chinchilla, que es la clase de factura computacional que llega a cientos de miles de dólares en H100s. Nadie lo ha hecho todavía. ¿Entonces, por qué importa? Porque es la segunda vez en un mes que alguien ha intentado abrir la pared alrededor de Mythos. La primera fue un estudio de Vidoc Security, que reprodujo varios de los hallazgos de vulnerabilidad más alarmantes de Mythos usando GPT-5.4 y Claude Opus 4.6 en un agente de código abierto. Sin acceso a Glasswing, y por menos de 30 dólares por escaneo. Enfoque diferente, misma conclusión: La protección alrededor de Mythos puede ser más delgada de lo que el marketing sugería. OpenMythos y la réplica de Vidoc hacen trabajos diferentes. Vidoc reprodujo las salidas de Mythos—los descubrimientos de vulnerabilidades en sí—usando modelos existentes. OpenMythos intenta reproducir la arquitectura—la máquina real que produce esas salidas. Uno dice que no necesitas Mythos para encontrar los bugs que Mythos encontró. El otro dice que, eventualmente, podrías construir algo como Mythos tú mismo.

Anthropic casi seguramente no comparte públicamente las conjeturas arquitectónicas de Gomez, y varias de las decisiones de diseño en OpenMythos son declaraciones explícitas de cautela—el archivo “readme” se asegura de ser lo suficientemente vago para que los usuarios sepan que esto es solo un enfoque. Repite varias veces “probablemente,” “se sospecha,” y “casi con certeza.” Mythos real puede no ser un transformador en bucle en absoluto. O puede ser uno con detalles que Gomez aún no ha invertido. Lo que OpenMythos demuestra es que la literatura de investigación ya contiene la mayoría de las piezas. Transformadores en bucle, Mezcla de Expertos, Multi-Latent Attention, Tiempo de Cálculo Adaptativo, la solución de estabilidad de Parcae—nada de esto es propietario. El repositorio es, más que nada, un inventario de lo que se sabe públicamente sobre cómo construir un modelo de clase Mythos. El repositorio tiene licencia MIT, y ya tiene 2,700 bifurcaciones. El script de entrenamiento está allí, esperando a alguien con un clúster de GPU y una tesis para demostrar.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado