|
一个叫 DeepSeek-OCR 的新玩意儿,被好多人喊做“ AI 的 JPEG 时刻”。听着就挺酷炫,但到底啥意思?跟咱有啥关系?你有没有想过——AI 有可能学不会的一项技能,居然是:扫一眼就能读完一本书。但今天咱聊的,不是玄幻,而是真实存在的新技术——光学压缩(Optical Compression)。它的目标就是让 AI “一眼看完”,真的像人一样看图识世界。比如 GPT-4,强是强,但你要是给它扔一本几百页的小说,它就要开始“烧脑”了。而且这可不是“多一倍字,多一倍计算”这么简单——是平方级增长。这点我特别懂,毕竟我读完一本大部头的书,前面都忘光了。AI 也差不多,它读着读着就把前面的关键细节给丢了。解决办法居然特别“人性化”——别再一个字一个字读了,直接拍照!是的,这就是光学压缩的灵感:把整页、甚至整本书拍成一张图,让 AI 直接去“看图识文”。这张图片就不只是图片,而是一个信息密度爆炸的压缩包。咱们平时不都说“一图胜千言”嘛?一张图片能顶好多文字。AI也是这个理儿。一张扫描的文档图片,它包含的信息量,比你把这些文字一个字一个字打进去,要“轻”得多,也更“紧凑”。AI 只需处理少得多的视觉符号,就能理解整本书的内容。于是 DeepSeek 团队推出了个新模型——DeepSeek OCR。第一步:用 Deep Encoder 压缩,把一整页文字变成一张浓缩图;第二步:再用解码器“解压”,把文字原封不动还原回来。有个数据我看到都惊了:压缩 10 倍,还能保持 97% 准确率。同场对比时,其他模型处理同样文档要几千个 token,而 DeepSeek OCR 只要一百来个。▲DeepSeek-OCR 用最少的 token 实现了顶尖的性能👉 对 AI 来说,“遗忘”到底是 bug,还是一种高级功能? |