上周,DeepSeek-OCR重磅开源,得益于多项创新突破,受到了用户的广泛青睐,这个国产开源的多模态OCR模型,大有崛起为大模型产业化的关键工具之势~当然,自DeepSeek-OCR模型发布之后,社区伙伴们问的最多的问题就是——有没有什么方法能一键部署DeepSeek-OCR模型?能不能在网页端直接操作模型,并实时查看OCR识别结果?咱们研发团队经过几个晚上通宵奋战,终于完成DeepSeek-OCR-Web项目的研发,并正式在GitHub上开源。Git开源链接🔗,欢迎点击链接下载体验:https://github.com/fufankeji/DeepSeek-OCR-Web/tree/main,记得点个🌟Star支持一下呀~!!首先,它不仅包含了完整的DeepSeek-OCR模型运行所需的各项基础依赖,并提供了两项核心功能,其一是DeepSeek-OCR一键式懒人安装包,仅需一行命令,即可完成DeepSeek-OCR模型的环境配置、模型下载、依赖安装等各项全部工作,解放双手提高效率。话又说回来,如果你使用了,我们团队提供的自研DeepSeek-OCR模型调用前端,同样一行命令即可开启服务,并在网页端完成文件上传、提示词编写、文件OCR解析、解析结果查看和下载等各项功能,极大程度提高模型可用性和测试开发效率。02 DeepSeek-OCR-Web工具使用方法接下来我就为大家介绍DeepSeek-OCR-Web如何使用,上手使用前需要确保主机上有7G以上的显存空间。项目是经过高度封装的懒人项目,开发过程比较复杂,但实际使用过程非常简单,首先我们可以使用git clone命令进行源码下载,gitclonehttps://github.com/fufankeji/DeepSeek-OCR-Web.git 也可以直接扫码领取完整项目源码并上传到服务器上进行解压缩。然后找到主目录下的install.sh文件,该文件就是DeepSeek-OCR一键安装脚本。然后我们只需要输入如图所示的命令就能直接运行脚本文件。chmod +xinstall.sh bash install.sh 该脚本能够一键完成DeepSeek-OCR模型环境搭建、依赖安装、模型权重下载、前端环境搭建和依赖安装等各项工作,并且运行稳定,还适配了国内网络环境。怎么样,是不是非常便捷。而由于这个要下载模型权重,所以实际运行时间可能需要20分钟左右。而等待运行完成后,即可以进一步使用前端来调用DeepSeek-OCR模型了。开启前端的方法也非常简单,我们只需运行如图所示的命令,也就是运行第二个脚本start.sh即可。chmod +xstart.sh bash start.sh 脚本启动后,我们就能在本地浏览器的3000端口进行Web端的模型调用了。在实际使用过程中,我们需要先选择PDF或者图片文件进行上传,例如我们这里输入一张柱状图,然后输入合理的提示词,例如我们输入Parse the figure解析图片,然后点击开始解析,此时后台就会调用DeepSeek-OCR模型进行解析。而解析完成后,我们能够在文件浏览器中查看解析后的文件,各项文件均支持在线浏览。例如在Parse the figure提示词下,DeepSeek-OCR模型会自动将数据可视化图片进行解析并还原背后的数据,并以markdown表格形式呈现。这是DeepSeek-OCR模型特有的一种高级功能,我们点击result.md即可查看解析结果。当然,我们也能随时切换提示词来测试不同的解析模式: | | | 解析图片,而解析完成后,我们能够在文件浏览器中查看解析后的文件,各项文件均支持在线浏览。 | | DeepSeek-OCR模型会自动将数据可视化图片进行解析并还原背后的数据,并以markdown表格形式呈现 | | <image>\nDescribe this image in detail | DeepSeek-OCR就会围绕图片的语义进行解读,来介绍这个柱状图到底说明了件什么事情 | 而除此之外,DeepSeek-OCR模型还支持100多种主流语言文字的高精度识别,此外,模型还能对多模态PDF进行高精度版面分析,精准识别标题、正文、表格、公式等各种元素,同时,还能一键将PDF转化为高保真的MarkDown文档~而有了这个DeepSeek-OCR-Web工具的加持,相信大家进行各种功能实践的时候一定会事半功倍。 |