Inteligencia Artificial

DeepSeek-V3.2 presenta DSA y alcanza paridad con Gemini-3.0-Pro en razonamiento

DeepSeek-AI libera DeepSeek-V3.2 con arquitectura DSA (DeepSeek Sparse Attention) para eficiencia en contexto largo y mejoras en tool use. La variante Speciale alcanza medalla de oro en IMO y IOI 2025, equiparando a Gemini-3.0-Pro en razonamiento.

Richard Barria

12 dic. 2025 — 3 min read

DeepSeek-AI ha publicado el reporte técnico y los pesos de DeepSeek-V3.2, un nuevo modelo abierto diseñado para optimizar la eficiencia computacional en secuencias largas y mejorar el desempeño en agentes autónomos. Junto a la versión base, se presentó la variante de alto cómputo DeepSeek-V3.2-Speciale, la cual reporta superar a GPT-5 y rendir a la par de Gemini-3.0-Pro en tareas de razonamiento complejo, logrando medallas de oro en competencias internacionales de matemáticas e informática.

Arquitectura DSA y eficiencia computacional

El cambio técnico central en esta iteración es la introducción de DeepSeek Sparse Attention (DSA). A diferencia del mecanismo de atención estándar en transformers, que escala cuadráticamente con la longitud de la secuencia ($O(L^2)$), DSA reduce la complejidad de la atención principal a $O(Lk)$, donde $k$ es el número de tokens seleccionados.

Esta optimización es crítica para gestionar la context-window de 128K tokens del modelo sin degradar la latencia de inferencia. La arquitectura utiliza un componente denominado Lightning Indexer para determinar dinámicamente qué tokens previos son relevantes para el token actual, seguido de un mecanismo de selección de grano fino.

Para profundizar en las limitaciones de memoria en arquitecturas estándar, ver: Context Window en Transformers: Complejidad Cuadrática y Limitaciones de Memoria.

Escalamiento de Reinforcement Learning (RL)

DeepSeek reporta una inversión significativa en la etapa de post-entrenamiento. El presupuesto computacional para el reinforcement-learning superó el 10% del costo total del pre-entrenamiento. El entrenamiento utiliza el algoritmo GRPO (Group Relative Policy Optimization), integrando razonamiento, agentes y alineación humana en una única etapa para evitar el olvido catastrófico.

Este enfoque permite al modelo sobresalir en benchmarks de agentes como SWE-bench Verified y Terminal Bench 2.0. Para lograr esto, se desarrolló un pipeline de síntesis de tareas a gran escala que generó más de 1.800 entornos distintos y 85.000 prompts complejos para entrenar la capacidad de uso de herramientas (tool use).

Sobre la arquitectura de agentes, consultar: Agentes y Tool Use: Arquitectura ReAct y Function Calling.

Especificaciones y Benchmarks

Característica	DeepSeek-V3.2	DeepSeek-V3.2-Speciale
Enfoque	Eficiencia, Agentes, Tool Use	Razonamiento Profundo (Thinking)
Arquitectura	DSA (Sparse Attention)	DSA (Sparse Attention)
Contexto	128K	128K
IMO 2025 (Math)	-	Oro (35/42)
IOI 2025 (Code)	-	Oro (492/600)
AIME 2025	93.1%	96.0%
SWE Verified	73.1% (Resolved)	-
Licencia	MIT	MIT

La variante Speciale destaca por haber sido entrenada con penalizaciones de longitud relajadas, permitiéndole generar cadenas de pensamiento (Chain of Thought) extensas para resolver problemas de alta complejidad, similar al enfoque de modelos "thinking".

Extractos del reporte técnico

A continuación, se presentan citas literales del documento DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models (arXiv:2512.02556):

Sobre la eficiencia de DeepSeek Sparse Attention (DSA):

"Introducimos DSA, un mecanismo de atención eficiente que reduce sustancialmente la complejidad computacional mientras preserva el rendimiento del modelo en escenarios de contexto largo. [...] DSA reduce la complejidad de la atención principal del modelo de $O(L^2)$ a $O(Lk)$, donde $k (\ll L)$ es el número de tokens seleccionados. Aunque el indexador lightning todavía tiene una complejidad de $O(L^2)$, requiere mucho menos cómputo comparado con MLA en DeepSeek-V3.1-Terminus."

Sobre el rendimiento de la variante Speciale:

"Notablemente, con el objetivo de empujar los límites de los modelos abiertos en el dominio del razonamiento, relajamos las restricciones de longitud para desarrollar DeepSeek-V3.2-Speciale. Como resultado, DeepSeek-V3.2-Speciale alcanza paridad de rendimiento con el sistema líder de código cerrado, Gemini-3.0-Pro (DeepMind, 2025b). Muestra un rendimiento de medalla de oro en la IOI 2025, ICPC World Final 2025, IMO 2025 y CMO 2025."

Sobre la síntesis de tareas para agentes:

"Para integrar el razonamiento en escenarios de uso de herramientas, desarrollamos un nuevo pipeline de síntesis que genera sistemáticamente datos de entrenamiento a escala. Esta metodología facilita el post-entrenamiento escalable de agentes, produciendo mejoras sustanciales en la generalización y la robustez en el seguimiento de instrucciones dentro de entornos complejos e interactivos."

Implementación y Templates

El modelo introduce cambios en el chat template, específicamente para soportar un modo de "pensamiento con herramientas". Se ha añadido un nuevo rol developer reservado exclusivamente para escenarios de agentes de búsqueda.

Ejemplo de codificación de mensajes en Python provisto en la documentación oficial:

Python

import transformers
from encoding_dsv32 import encode_messages

tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.2")

messages = [
    {"role": "user", "content": "hello"},
    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
    {"role": "user", "content": "1+1=?"}
]
encode_config = dict(thinking_mode="thinking", drop_thinking=True, add_default_bos_token=True)

# Generación del prompt formateado
prompt = encode_messages(messages, **encode_config)
tokens = tokenizer.encode(prompt)

DeepSeek recomienda parámetros de muestreo de temperature = 1.0 y top_p = 0.95 para despliegues locales.