MiniMax-M1: Arquitectura híbrida MoE con contexto de 1M tokens
MiniMax libera los pesos de M1-80k y M1-40k bajo licencia Apache 2.0. El modelo implementa atención lineal para escalar la inferencia a 1 millón de tokens y utiliza el nuevo algoritmo de alineación CISPO.
MiniMax ha liberado este 17 de junio de 2025 los pesos de MiniMax-M1, un large language model (LLM) de razonamiento basado en una arquitectura híbrida que combina mixture of experts (MoE) con el mecanismo Lightning Attention. El modelo, disponible en versiones de 40k y 80k tokens de salida ("thinking budget"), reporta una reducción significativa en el coste computacional de inferencia frente a arquitecturas de atención cuadrática estándar, procesando contextos de hasta 1 millón de tokens.
Especificaciones Técnicas
El modelo se basa en la arquitectura previa MiniMax-Text-01 y ha sido entrenado mediante reinforcement learning (RL) a gran escala. A diferencia de modelos recientes como DeepSeek-R1 que utilizan Group Relative Policy Optimization (GRPO), MiniMax introduce un nuevo algoritmo denominado CISPO.
| Característica | Detalle Técnico |
| Arquitectura | Híbrida: MoE + Lightning Attention (Atención Lineal). Un bloque de atención Softmax por cada 7 bloques de Lightning Attention. |
| Parámetros | 456B totales / 45.9B activos por token (32 expertos). |
| Ventana de Contexto | 1.000.000 tokens (entrada) / 80.000 tokens (salida máxima). |
| Algoritmo RL | CISPO (Clipped IS-weight Policy Optimization). |
| Eficiencia | 25% de los FLOPs de DeepSeek-R1 a una longitud de generación de 100K tokens. |
| Entrenamiento | 3 semanas en 512 GPUs H800 (Coste aprox. $534,700 USD). |
| Licencia | Apache 2.0. |
Extractos del reporte técnico
El equipo de MiniMax detalla en el paper "Scaling Test-Time Compute Efficiently with Lightning Attention" la justificación de su arquitectura híbrida para manejar secuencias largas de razonamiento:
"Introducimos MiniMax-M1, un modelo de razonamiento con una arquitectura híbrida Mixture-of-Experts (MoE) y Lightning Attention, una implementación consciente de I/O de una variante de atención lineal. [...] En nuestro diseño de atención, un bloque de transformer con atención softmax sigue a cada siete bloques de transnormer con lightning attention. Este diseño permite teóricamente escalar de manera eficiente las longitudes de razonamiento a cientos de miles de tokens". (MiniMax et al., 2025, Sec 1)
Respecto a la optimización del entrenamiento mediante RL y los problemas de clipping en algoritmos previos, los autores señalan:
"Proponemos un nuevo algoritmo, CISPO, que abandona la restricción de región de confianza (trust region constraint) y en su lugar recorta los pesos de importance sampling para estabilizar el entrenamiento. Este enfoque siempre aprovecha todos los tokens para los cálculos de gradiente, logrando una mayor eficiencia en comparación con GRPO y DAPO empíricamente". (MiniMax et al., 2025, Sec 1)
Adicionalmente, el documento técnico aborda los desafíos de precisión numérica encontrados al escalar arquitecturas híbridas:
"Durante nuestro entrenamiento de RL, observamos una discrepancia significativa en las probabilidades de los tokens generados (rolled-out) entre el modo de entrenamiento y el modo de inferencia [...] Esta discrepancia surgió de un desajuste de precisión entre los kernels de entrenamiento e inferencia. [...] Identificamos activaciones de alta magnitud en el cabezal del LM (LM head) en la capa de salida como la fuente principal de error. Para solucionar esto, aumentamos la precisión del cabezal de salida del LM a FP32". (MiniMax et al., 2025, Sec 3.2)
El lanzamiento de MiniMax-M1 se inserta en la tendencia actual de escalar el cómputo durante el tiempo de inferencia (test-time compute), una dirección que busca mejorar el razonamiento mediante cadenas de pensamiento (CoT) extensas. Tal como analizamos recientemente en nuestro artículo sobre RLVR y recompensas verificables, la capacidad de verificar pasos intermedios es crítica para este paradigma. MiniMax utiliza entornos sandbox para ingeniería de software y verificadores basados en reglas para matemáticas, alineándose con esta metodología.
La arquitectura Mixture of Experts utilizada permite mantener un conteo de parámetros activos bajo (45.9B) a pesar de un conteo total masivo (456B), lo cual es fundamental para la viabilidad económica del modelo. Sin embargo, la novedad principal radica en la integración de Lightning Attention. Mientras que la atención estándar escala cuadráticamente $O(N^2)$ respecto a la longitud de la secuencia, las variantes de atención lineal buscan una complejidad $O(N)$, lo que explica la ventaja de eficiencia reportada en contextos de 100K tokens o superiores.
En los benchmarks presentados, MiniMax-M1-80k se posiciona de manera competitiva frente a DeepSeek-R1 y Qwen3-235B, superando a estos en tareas de tool use (TAU-bench) y contexto largo, aunque quedando ligeramente por detrás de la versión más reciente DeepSeek-R1-0528 en matemáticas puras (AIME 2025).
Implementación y despliegue
El modelo ha sido liberado con soporte inmediato para frameworks de inferencia estándar. Debido a la arquitectura híbrida no estándar, se recomienda el uso de versiones recientes de vLLM (0.9.2 o superior) para evitar problemas de precisión numérica como los descritos en el paper.
Los pesos están disponibles en HuggingFace en dos variantes principales:
- MiniMax-M1-40k: Una versión intermedia optimizada para respuestas de longitud moderada.
- MiniMax-M1-80k: La versión final entrenada para razonamiento extendido.
Para su ejecución, los desarrolladores sugieren una temperatura de $1.0$ y un $Top_p$ de $0.95$, parámetros que favorecen la diversidad en la generación de trazas de razonamiento.