目 录CONTENT

文章目录

LLM:DeepSeek-OCR 为长上下文压缩、LLM 记忆遗忘机制等研究提供新思路(端到端OCR模型)

Administrator
2025-11-03 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

 

字数 890,阅读大约需 5 分钟

LLM:DeepSeek-OCR 为长上下文压缩、LLM 记忆遗忘机制等研究提供新思路(端到端OCR模型)

如果你能高效压缩信息,你一定已经得到知识,不然你没法压缩信息。当你实现了信息高效压缩,you got to have some knowledge。

编码和解码的过程,也可以是知识学习和压缩,再实践的过程


原文:deepseek-ai/DeepSeek-OCR: Contexts Optical Compression[1]
论文:[2510.18234] DeepSeek-OCR: Contexts Optical Compression[2]
DeepSeek-OCR 是由 DeepSeek-AI 团队 开发的一个先进的多模态视觉语言模型,它采用“上下文光学压缩”技术,通过将长文本图像化来大幅降低计算成本,提高处理效率。 它是一个端到端模型,能够将图像和文本提示作为输入,生成相应的文本输出,主要用于解决传统方法中处理长文本和复杂文档时效率低下的问题

DeepSeek-OCR

本文探索一种潜在的解决方案:将视觉模态作为高效的文本信息压缩媒介。
中文网友讲解版本:DeepSeek-OCR 详解 - 知乎[3]
CV之OCR/ImageT2T:DeepSeek-OCR的简介、安装和使用方法、案例应用之详细攻略_deepseekocr如何使用-CSDN博客[4]
核心突破在于:包含文档文本的单张图像,能够用远少于等效文本的token量来表征丰富信息。这意味着通过视觉token进行光学压缩可以实现更高的压缩比

  • • DeepEncoder:把文档变成图片 → 提取出少量视觉特征(压缩信息)。

  • • MoE 解码器:再把这些视觉特征解码回文字。

  • DeepSeek 发布了一个新型 OCR文档理解模型:DeepSeek-OCR 它不仅能解析图像文档 还探索了一个大胆的想法 | XiaoHu.AI 学院[5]

  • DeepSeek-OCR - DeepSeek团队开源的视觉语言模型 | AI工具集[6]

DeepEncoder

DeeSeek3B-MoE

解码器:DeepSeek-3B-MoE-A570M:解码器基于 DeepSeek-3B-MoE 架构,具有 570M 激活参数。负责将压缩后的视觉令牌解码为文本

Huggingface

deepseek-ai/DeepSeek-OCR · Hugging Face[7]


    
    
    
  torch==2.6.0
transformers==4.46.3
tokenizers==0.20.3
einops
addict 
easydict
pip install flash-attn==2.7.3 --no-build-isolation

    
    
    
  from transformers import AutoModel, AutoTokenizer
import torch
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)

# prompt = "<image>\nFree OCR. "
prompt = "<image>\n<|grounding|>Convert the document to markdown. "
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

# infer(self, tokenizer, prompt='', image_file='', output_path = ' ', base_size = 1024, image_size = 640, crop_mode = True, test_compress = False, save_results = False):

# Tiny: base_size = 512, image_size = 512, crop_mode = False
# Small: base_size = 640, image_size = 640, crop_mode = False
# Base: base_size = 1024, image_size = 1024, crop_mode = False
# Large: base_size = 1280, image_size = 1280, crop_mode = False

# Gundam: base_size = 1024, image_size = 640, crop_mode = True

res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path = output_path, base_size = 1024, image_size = 640, crop_mode=True, save_results = True, test_compress = True)

彩蛋结尾

嘿,别滑了!手指停一停,听我说句悄悄话👇


🌟 关注我:下次更新,系统会自动弹窗提醒你,就像外卖到了那样准时!再也不怕错过我的脑洞和干货啦~

📌 收藏本文:这篇宝藏文章,现在不码住,以后想找只能捶胸顿足!点个收藏,让它成为你的私人知识库,随时回来挖宝~

❤️ 点赞在看:如果逗笑你了或者对你有用,麻烦高抬贵手点个赞!你的每个赞都是我熬夜写文的“鸡血”,让我更有动力产出更多有趣内容~

引用链接

[1] deepseek-ai/DeepSeek-OCR: Contexts Optical Compression: https://github.com/deepseek-ai/DeepSeek-OCR
[2] [2510.18234] DeepSeek-OCR: Contexts Optical Compression: https://www.arxiv.org/abs/2510.18234
[3] DeepSeek-OCR 详解 - 知乎: https://zhuanlan.zhihu.com/p/81845230473
[4] CV之OCR/ImageT2T:DeepSeek-OCR的简介、安装和使用方法、案例应用之详细攻略_deepseekocr如何使用-CSDN博客: https://blog.csdn.net/qq_41185868/article/details/153863877
[5] DeepSeek 发布了一个新型 OCR文档理解模型:DeepSeek-OCR 它不仅能解析图像文档 还探索了一个大胆的想法 | XiaoHu.AI 学院: https://www.xiaohu.ai/c/a066c4/deepseek-ocr-deepseek-ocr
[6] DeepSeek-OCR - DeepSeek团队开源的视觉语言模型 | AI工具集: https://ai-bot.cn/deepseek-ocr/
[7] deepseek-ai/DeepSeek-OCR · Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-OCR

 

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区