Kimi K2: Arquitectura MoE de 1T parámetros y modelo de razonamiento con tool use nativo
Moonshot AI publica los pesos y el reporte técnico de Kimi K2, un modelo Mixture-of-Experts con 32B parámetros activos, y su variante K2 Thinking, que integra razonamiento Chain of Thought con ejecución de herramientas en bucles de hasta 300 pasos.
El equipo de Kimi (Moonshot AI) ha liberado Kimi K2, un llm basado en la arquitectura Mixture-of-Experts (MoE) con un total de 1.04 billones (trillions) de parámetros, de los cuales 32 mil millones se activan por token. Junto al modelo base, se presentó Kimi K2 Thinking, una variante diseñada para operar como agente autónomo capaz de intercalar procesos de razonamiento ("thinking") con llamadas a funciones externas de manera iterativa. El entrenamiento de estos modelos introduce MuonClip, una modificación del optimizador Muon diseñada para mitigar inestabilidades mediante el recorte de logits en las proyecciones Query-Key.
Especificaciones técnicas
Kimi K2 implementa una arquitectura ultra-sparsa similar a DeepSeek-V3, optimizada para eficiencia de tokens durante el pre-entrenamiento y la inferencia.
Kimi K2 (Base / Instruct)
- Arquitectura: mixture-of-experts (MoE) con Multi-head Latent Attention (MLA).
- Parámetros: 1.04T totales / 32.6B activados.
- Configuración de Expertos: 384 expertos totales, con 8 seleccionados por token y 1 experto compartido.
- Pre-entrenamiento: 15.5 trillones de tokens utilizando el optimizador MuonClip.
- Alineación: SFT y reinforcement-learning con recompensas verificables (RLVR) y autocrítica (Self-Critique Rubric Reward).
Kimi K2 Thinking
- Enfoque: Agente de razonamiento (Thinking Agent) con chain-of-thought intercalado.
- Ventana de Contexto: 256k tokens.
- Cuantización: Entrenamiento consciente de cuantización (QAT) para inferencia nativa en INT4.
- Capacidad de Agencia: Mantiene coherencia en tareas que requieren entre 200 y 300 llamadas secuenciales a herramientas.
| Benchmark | Entorno | Kimi K2 Thinking (INT4) | GPT-4o / GPT-5 (High) |
| SWE-bench Verified | w/ tools | 71.3% | 74.9% |
| HLE (Humanity's Last Exam) | w/ tools | 44.9% | 41.7% |
| LiveCodeBench v6 | no tools | 83.1% | 87.0% |
| BrowseComp | w/ tools | 60.2% | 54.9% |
Tabla: Resultados reportados en el reporte técnico comparando Kimi K2 Thinking contra modelos de frontera.
Extractos del reporte técnico
A continuación, se presentan pasajes traducidos del reporte técnico oficial que detallan las innovaciones en optimización y la capacidad de agencia del modelo:
"Presentamos MuonClip, un optimizador novedoso que mejora Muon con una técnica de 'QK-clip' para abordar la inestabilidad del entrenamiento mientras se aprovecha la avanzada eficiencia de tokens de Muon. Basado en MuonClip, K2 fue pre-entrenado con 15.5 trillones de tokens sin ningún pico de pérdida (loss spike)."
Sobre la capacidad de razonamiento y uso de herramientas en la variante Thinking:
"Comenzando con Kimi K2, lo construimos como un agente pensante que razona paso a paso mientras invoca herramientas dinámicamente. Establece un nuevo estado del arte [...] al escalar dramáticamente la profundidad del razonamiento de múltiples pasos y mantener un uso de herramientas estable a través de 200–300 llamadas secuenciales."
"Para superar este desafío [la latencia en modelos de razonamiento], adoptamos el Entrenamiento Consciente de Cuantización (QAT) durante la fase de post-entrenamiento, aplicando cuantización de pesos INT4 a los componentes MoE. Esto permite que K2 Thinking soporte inferencia nativa INT4 con una mejora de velocidad de generación de aproximadamente 2x."
Análisis de arquitectura y entrenamiento
El desarrollo de Kimi K2 se alinea con tendencias recientes en la optimización de transformers mediante arquitecturas dispersas (Sparse), tal como se analiza en Mixture of Experts: Sparse Activation y Estrategias de Routing en LLMs. Al activar solo 32B parámetros de un total de 1T, el modelo desacopla el coste de inferencia del tamaño total, permitiendo un rendimiento competitivo con menor huella computacional por token generado.
El uso de RLVR (Reinforcement Learning with Verifiable Rewards) para tareas de matemáticas y codificación es central en su post-entrenamiento. Este enfoque, detallado en RLVR: Optimización de Modelos de Lenguaje mediante Recompensas Verificables, permite al modelo optimizar sus trayectorias de razonamiento basándose en la ejecución exitosa de código o la verificación de resultados matemáticos, en lugar de depender únicamente de preferencias humanas subjetivas.
Implicaciones en agentes autónomos
Kimi K2 Thinking aborda una limitación crítica en los modelos de razonamiento actuales: la desconexión entre el pensamiento latente y la acción externa. Al integrar el uso de herramientas dentro del ciclo de Chain of Thought, el modelo opera bajo una arquitectura similar a ReAct, permitiendo bucles de Pensar → Actuar → Observar → Pensar mucho más extensos sin perder el contexto del objetivo inicial. Esto es consistente con lo expuesto en Agentes y Tool Use: Arquitectura ReAct y Function Calling, donde la estabilidad en secuencias largas es el principal obstáculo para la autonomía real.
Además, la implementación de cuantización nativa INT4 vía QAT (Quantization-Aware Training) responde a la necesidad de reducir la latencia en modelos que generan miles de tokens de "pensamiento" antes de dar una respuesta final. Esta estrategia mitiga la degradación de precisión que suele ocurrir con métodos de post-training-quantization tradicionales aplicados a modelos MoE.
Disponibilidad
Moonshot AI ha liberado los checkpoints del modelo base y del modelo Instruct bajo una licencia modificada. Kimi K2 Thinking está disponible para inferencia a través de motores compatibles como vLLM y SGLang, soportando el formato de tensores comprimidos para INT4.
Fuentes: