出品|搜狐科技
作者|郑松毅
(资料图片仅供参考)
DeepSeek再次“低调”震惊世界!
他们新发布并开源的OCR模型,从根本上改变了AI游戏规则。Github开源项目DeepSeek-OCR,一夜收获超4k星。相关论文(《DeepSeek OCR:上下文光学压缩》)解释了这一研究成果。
很多人好奇,什么是OCR?
传统OCR如同“文字扫描仪”,通过光学技术将图像中的文字提取转换为计算机和人都能理解的格式。比如,在将大量票据、证件、表单等数据电子化时,OCR发挥关键作用。
但DeepSeek却反其道而行之——将文本信息“绘制”为视觉图像,再通过视觉模型实现高效理解。如此创新尝试就是为了解决大模型的核心痛点——处理长文本时面临的计算挑战。
效果有多惊艳?10页密密麻麻的文本报告,被压缩成一张图片,AI能够一眼读懂它。这样的信息处理效率意味着大幅降低了计算复杂度,用最直接的方式节约成本。
论文发布后,意料之内的好评如潮,有网友直接将其称为“硅基生命进化论”。
最近还在锐评AI发展的OpenAI创始团队成员、特斯拉前AI总监Karpathy,对DeepSeek新成果直言喜爱,并指出“早就该让视觉成为AI核心,而非依赖烂透了的文本分词器。”
更有业内大佬感叹,“当文本能被转化为视觉可理解的结构,语言与视觉的统一或许不再是理论。这可能是通往 AGI(通用人工智能)的关键一步。”
DeepSeek新研究:把大量文字压缩到图片,让模型直接看图理解
本质上来说,DeepSeek-OCR是将视觉与语言模态深度融合,通过“视觉-文本压缩”建立自然映射关系,为多模态大模型提供了新的技术路径。
之前的大模型可以说是“带着脚铐的舞者”,虽有强大的语言理解能力,却被低效的信息输入方式严重束缚。
拿模型阅读长篇文本来说,每页财报、论文都包含数千个token,传统方式下只能逐字逐句识别,导致计算量爆炸。这种低效作业让大模型在法律、金融等领域的应用举步维艰。
而DeepSeek这次用到了一个巧妙思维——既然一张图片能装下成千上万的文字,那是不是大量文字信息也能被压缩到一张图片里,让模型直接看图理解就好了。
为实现这一设想,DeepSeek为OCR模型配备了三件套——图像编码器、映射层和文本解码器。其中,图像编码器DeepEncoder(负责把图片转成高度压缩的视觉token)参数为380M,文本解码器(负责从压缩的视觉token里重建文字)是一个deepseekv2-3b的模型,参数为3B。
整体训练数据由4部分组成,包括OCR1.0数据(传统OCR任务,如图像OCR和文档OCR)、OCR2.0数据(复杂图像解析任务,如几何、图表等)、通用视觉数据(用于注入通用图像理解能力)、及纯文本数据(用于确保模型的语言能力)。
别看模型参数不大,但就研究结果发现,当文本压缩率小于10倍时,模型OCR解码准确率高达97%,及时压缩率高达20倍时,准确率依旧能保持在60%。在A100-40G显卡环境下,单日可生成超过20万页的模型训练数据。
也就是说,如果普通 OCR 需要 10,000 个 token 才能读完整篇文档,这个模型可能只用 1,000 个就能搞定,且能高准确度地理解信息。
受益于训练数据多样性,论文提到DeepSeek-OCR不仅能识别文字,还能理解文档布局、图表结构。从某种角度说,这已经不是传统的OCR,而更接近“文档理解引擎”。
论文中提到的一个基准叫OmniDocBench,就是专门用来测试复杂文档理解能力的。DeepSeek-OCR 在这个基准上,用更少的视觉 token 数量就超过了 GOT-OCR 2.0 和 MinerU 2.0,这俩都是目前较顶尖的开源 OCR 模型,可谓十分能打。
让AI记忆模式更像人类
在论文中,DeepSeek还谈到了一直困扰业界的AI“记忆”和“遗忘”机制。
深度学习模型的记忆以分布式参数形式存储,这种非结构化存储导致传统神经网络在学习新任务时,旧知识的参数空间会被新知识覆盖,模型无法做到像人类一样进行连贯推理。
而DeepSeek的想法是,通过视觉-文本压缩范式和动态分层遗忘机制,让AI“记住该记住的,忘记该忘记的”。
其核心思路是将文本信息转化为视觉token,通过光学压缩实现高效记忆管理,同时模拟人类遗忘曲线动态调整信息留存。
在这个过程中,核心组件DeepEncoder发挥关键作用,50-100个视觉tokens即可还原1000字文本,实现近 10 倍的计算量节省。
这种压缩并非简单的信息降维,而是通过“注意力机制+结构化训练”,优先保留对模型推理最关键的信息。类似人类阅读时“先抓标题再看细节”的认知模式,去除不重要的信息噪声。
关于如何让模型的记忆模式更像人类,研究者做了进一步解释:对于近期记忆,可以将其渲染成高分辨率图像,用多token数量保留高保真信息。而对于远期记忆,可以缩放成更小、更模糊的图像,用少量token来保留信息,从而实现信息的自然遗忘和压缩。
虽然当前还仅是研究前期探索阶段,但DeepSeek的创新思路,确实让AI越来越像人类了。
三名作者
本篇论文共有3名作者:Haoran Wei、Yaofeng Sun、Yukun Li。
论文一作Haoran Wei曾主导开发爆火项目GOT-OCR2.0,此次的DeepSeek-OCR也可以说是延续了此前项目的创新技术路径。根据此前论文信息显示,Haoran Wei还曾就职于阶跃星辰。
Yaofeng Sun毕业于北京大学图灵班计算机科学专业,于2023年加入DeepSeek,先后参与DeepSeek-r1、DeepSeek-v3、DeepSeek-v2等模型的研究。
Yukun Li也参与了包括DeepSeek-v2/v3在内的多款模型研究,谷歌学术论文引用量近万。
“太感谢邮储银行了,海鲈贷解决了我们渔民的融资难题!”珠海市斗门区
原标题:清风头条丨祁阳市:勤督促严问责优化营商环境见实效红网时刻新
9月9日,国家统计局发布数据显示,8月份,全国CPI(居民消费价格指数)
康华生物(300841)9月7日晚间公告,收到美国食品药品监督管理局(FDA)的
智通财经APP获悉,美联储周五的一份报告显示,受房地产和股票价值上涨
五粮液:公司对中秋旺季已做好相关准备将助力经销商抢抓旺季销售
旗舰机市场的日子不好过,也是手机厂商疯狂内卷导致的,造成这样的局面
“警察同志,你们快来看看。我们班学生好像挖出了一个炮弹!”据铜陵公
受台风“海葵”外围残留云系和季风影响,7日8时至8日3时,广州出现今年
浙能电力:看好中来股份的长期发展,会在条件成熟时适当增持,持股,新能
最新:天际股份涨5.96% 机构净买入2
此页面是否是列表页或首页?未找到合适正文内容。
*ST原尚(603813)龙虎榜数据(10-17)
交易所2025年10月17日公布的交易公开信息显示,*ST原尚因成为ST、*ST证
长春二道法院:“热”知识了解一下!
中新网吉林新闻10月17日电(孙萌)为帮助居民明晰权利义务,理性维护自身
国内首条长距离输氢管线通过国家文物
10月11日,国内首条长距离输氢管线--白云鄂博矿区至包头市区氢气长输管
先进封装板块午后跌幅扩大,深科技跌
此页面是否是列表页或首页?未找到合适正文内容。
听,二十四节令鼓叩响时光的密码
从立春的萌动到冬至的蛰伏,二十四节令鼓将农耕智慧化为铿锵节奏。当节
精彩看点:赛力斯持股蓝电汽车成立智
企查查APP显示,近日,蓝电智行(重庆)汽车销售有限公司成立,法定代
比亚迪汽车工业有限公司召回部分唐、
比亚迪(002594)汽车工业有限公司日前向国家市场监督管理总局备案了召
美国地区银行股暴跌 信贷连续爆雷加
美国地区银行股暴跌信贷连续爆雷加深风险疑虑
街头最暖一抱,救了一条命!莱州小伙
齐鲁晚报·齐鲁壹点王琳10月15日晚上,在烟台莱州的府西街附近,一位老
三季报披露窗口来临 公募机构提前入
这些绩优公司得到了公募基金的提前埋伏。Wind数据显示,截至上半年末,
【ETF动向】10月16日招商深证100ETF
证券之星消息,10月16日,招商深证100ETF基金(159975)跌0 28%,成交
四川:10月18日起暂停实施汽车以旧换
【四川:10月18日起暂停实施汽车以旧换新补贴政策】四川省商务厅官微10
今日聚焦!新莱福10派1元 股权登记日
此页面是否是列表页或首页?未找到合适正文内容。
无极县兴瑜皮革制品部(个体工商户)
天眼查App显示,近日,无极县兴瑜皮革制品部(个体工商户)成立,法定
当前关注:秀我中国丨重访原子城:221
61年前的今天,我国第一颗原子弹爆炸成功。近日,记者来到位于青海省海
焦点热文:光库科技发布前三季预增公
光库科技(300620)10月16日发布前三季业绩预增公告,预计实现净利润为
视讯!心玮医疗-B(06609)10月16日斥
智通财经APP讯,心玮医疗-B(06609)发布公告,于2025年10月16日,该公司
冠城新材连续3个交易日收盘价格涨幅
10月16日,冠城新材(600067)发布公告,公司股票在2025年10月14日、15
康华生物:第三季度归母净利润同比下
康华生物:第三季度归母净利润同比下降24 92%
讯息:PriceSeek重点提醒:玖龙重庆
玖龙重庆基地10月16日开始,重庆基地玖龙优质牛卡 海龙特级优质牛卡 海
每日热文:因买卖合同纠纷,华阳股份
天眼查APP显示,近日,山西华阳集团新能股份有限公司新增一则开庭公告
眉山蓉光机加分厂实现打码效率新提升
10月15日,记者从辽宁方大集团(000055)所属眉山蓉光机加分厂走访获悉
即将上车的方向 新要闻
一、稳如泰山有没有一种感觉,指数很稳,就是交易很难盈利。权重把盘面
任旻䶮获批担任浙商银行舟山分行副行
10月16日,国家金融监督管理总局浙江监管局发布关于任旻䶮浙商银行舟山