DeepSeek-OCR propone un nuevo paradigma para comprimir texto con visión artificial
El laboratorio DeepSeek-AI presentó “DeepSeek-OCR”, un modelo que utiliza compresión óptica para reducir hasta veinte veces la cantidad de tokens necesarios en tareas de lectura de documentos.
DeepSeek-AI publicó el paper DeepSeek-OCR: Contexts Optical Compression, donde plantea: usar visión artificial no solo para leer texto en imágenes, sino para comprimir grandes volúmenes de texto mediante representaciones visuales. El trabajo, liderado por Haoran Wei, Yaofeng Sun y Yukun Li, introduce un modelo capaz de transformar documentos en imágenes que encapsulan la misma información textual con muchos menos tokens, una estrategia que podría revolucionar el manejo de memoria en modelos de lenguaje extensos (LLMs).
Detalles del desarrollo
El sistema está compuesto por dos módulos principales. El primero, DeepEncoder, realiza la “compresión óptica” transformando el texto en representaciones visuales eficientes; el segundo, un decodificador basado en DeepSeek-3B-MoE, reconstruye el texto original desde esos tokens visuales.
Según los experimentos descritos en el paper, cuando la proporción de compresión se mantiene por debajo de 10× (es decir, cuando la cantidad de tokens de texto es diez veces mayor que la de tokens visuales), el modelo alcanza una precisión de lectura del 97%. Incluso con ratios de 20×, la precisión se mantiene alrededor del 60%.
El modelo se probó en benchmarks como Fox y OmniDocBench, donde superó a modelos OCR consolidados como GOT-OCR 2.0 y MinerU 2.0. En el segundo caso, logró resultados superiores usando menos de 800 tokens visuales frente a los más de 6.000 que requiere MinerU 2.0.

En producción, DeepSeek-OCR puede generar hasta 200.000 páginas de datos OCR al día usando una sola GPU Nvidia A100 de 40 GB, lo que lo convierte también en una herramienta de generación masiva de datasets para entrenar LLMs y VLMs.
Impacto y análisis
El planteamiento detrás de DeepSeek-OCR es disruptivo. La mayoría de los modelos de lenguaje enfrentan el problema del costo computacional de los contextos largos, donde la complejidad crece de manera cuadrática con la longitud del texto. En lugar de seguir expandiendo la capacidad textual, DeepSeek propone una ruta alternativa: codificar la información como imágenes comprimidas, procesadas luego por un módulo visual que requiere menos memoria.
El equipo sugiere que este enfoque podría inspirar mecanismos de “memoria olvidadiza” en los LLMs, simulando cómo los humanos retienen la información reciente con mayor detalle mientras la memoria antigua se vuelve progresivamente borrosa. En la práctica, esto significaría representar el historial de conversaciones o documentos antiguos como imágenes con resoluciones cada vez menores, logrando un equilibrio entre eficiencia y retención.
Además del valor teórico, el modelo tiene aplicaciones directas. Su capacidad para analizar documentos complejos —como reportes financieros, artículos académicos o fórmulas químicas— con un número mínimo de tokens lo hace atractivo para automatizar digitalización, minería de datos o entrenamiento multimodal en entornos de investigación y empresa. También ofrece soporte multilingüe para cerca de 100 idiomas y puede interpretar gráficos, fórmulas y figuras geométricas, ampliando su alcance más allá del texto plano.
Reacción de Andrej Karpathy
Andrej Karpathy, cofundador de OpenAI y exdirector de IA en Tesla, comentó públicamente sobre el paper destacando su relevancia más allá del campo del OCR. Según él, la idea más provocadora no es solo leer mejor los documentos, sino repensar la entrada de los LLMs: que quizás los modelos deberían recibir imágenes en lugar de texto.
“Tal vez tiene más sentido que todas las entradas a los LLMs sean imágenes. Incluso si tienes texto puro, podrías preferir renderizarlo y alimentarlo como imagen: más compresión, más información general y sin tokenizador.” — Andrej Karpathy
Karpathy argumentó que los tokenizadores son una herencia problemática del procesamiento textual —llenos de ambigüedades de codificación y riesgos de seguridad— y que reemplazarlos por entrada visual permitiría redes más limpias, con atención bidireccional y sin las limitaciones del texto lineal. En su visión, el futuro de los modelos multimodales podría consistir en procesar toda la información a partir de píxeles, manteniendo la salida en texto.
I quite like the new DeepSeek-OCR paper. It's a good OCR model (maybe a bit worse than dots), and yes data collection etc., but anyway it doesn't matter.
— Andrej Karpathy (@karpathy) October 20, 2025
The more interesting part for me (esp as a computer vision at heart who is temporarily masquerading as a natural language… https://t.co/AxRXBdoO0F
Perspectiva
Lo que antes se concebía como tareas separadas —visión y lenguaje— ahora se combinan para resolver uno de los mayores cuellos de botella de los modelos generativos: la memoria contextual. La propuesta de DeepSeek, reforzada por la reflexión de Karpathy, sugiere que el futuro de los LLMs podría pasar por la integración de compresión visual como capa intermedia entre razonamiento y memoria, transformando cómo la IA maneja información extensa sin sacrificar rendimiento.
Este avance confirma que la inteligencia artificial no solo está ampliando su poder de cálculo, sino aprendiendo a optimizarlo con estrategias inspiradas en la percepción humana. La frontera entre ver y entender se vuelve más delgada, y con ello, más eficiente.