家里电子文档越攒越多,合同、发票、保险单、账单堆成山,每次找个文件翻半天,试过手动整理文件夹太费劲,传统搜索只能按文件名找也不够智能,直到发现了Paperless-AI这个开源项目,才知道AI真能把文档管理这件事儿做到极致
Paperless-AI是什么
它是一个基于Paperless-ngx的AI增强插件,通过OpenAI API、Ollama等AI模型自动分析文档内容并打标签、分类、识别对应方。他还内置了RAG语义搜索引擎,让你能用自然语言提问例如:"上个月电费多少钱"、"我的租房合同啥时候签的"的问题,系统会秒懂你的意思并给出精准的答案,他支持20多种AI后端,完全可以在本地部署保护隐私
开源成就
Star数他已经收获4.5K Star,也算是文档管理领域的AI新星了主开发语言基于JavaScript和Python开发,前后端分离的架构核心功能
自动化文档处理,监测Paperless-ngx中的新文档,AI自动分析内容后给文档起标题、打标签、分配文档类型和对应方,完全不用手动整理多AI后端支持,兼容Ollama(Mistral、Llama、Phi-3、Gemma-2)、OpenAI、DeepSeek、OpenRouter、Perplexity、Together.ai、Gemini等20多种AI服务,用本地模型也能跑RAG语义聊天,基于检索增强生成技术,能理解文档完整上下文而不只是关键词匹配,问"哪些文档提到我的医保"这种复杂问题也能准确回答智能标签规则,可以定义规则限制处理哪些文档,禁用某些提示词并自动打标签,还能设置自定义输出标签做分类追踪手动处理模式,提供Web界面手动调用AI打标签,审查敏感文档时特别有用,访问/manual就能操作使用场景
我用它管理家里所有纸质文档的电子版,扫描件上传后AI自动识别是水电账单还是银行对账单,标签打得比我自己分类还准确
老婆问我"去年报税的那个文件在哪",以前得想半天放在哪个文件夹,现在直接在聊天界面问,系统3秒钟就把准确的文档链接给出来了
公司合同归档也用上了,几百份合同按客户、日期、金额自动分类,财务找历史合同方便太多了
# Docker部署超简单
dockerrun-d\
--namepaperless-ai\
-p3000:3000\
-v./data:/app/data\
-ePAPERLESS_URL=http://your-paperless-ngx:8000\
-ePAPERLESS_TOKEN=your-api-token\
-eOPENAI_API_KEY=your-openai-key\
clusterzx/paperless-ai
# 首次安装完成设置后记得重启容器构建RAG索引
dockerrestartpaperless-ai
安装指南
前置要求,需要先安装Paperless-ngx作为文档管理基础,Paperless-AI作为增强插件运行
Docker部署推荐,官方提供了Docker镜像,配置好环境变量一键启动,支持健康监控和自动重启
# docker-compose.yml示例
version:'3.8'
services:
paperless-ai:
image:clusterzx/paperless-ai:latest
ports:
-"3000:3000"
environment:
-PAPERLESS_URL=http://paperless:8000
-PAPERLESS_TOKEN=${PAPERLESS_TOKEN}
-OPENAI_API_KEY=${OPENAI_KEY}
-AI_BACKEND=ollama # 或openai/deepseek等
volumes:
-./data:/app/data
restart:unless-stopped
本地开发模式,想自己改代码的话可以克隆仓库本地运行# 安装依赖
npminstall
# 启动开发/测试模式
npmruntest
AI模型配置,可以用OpenAI的GPT系列,也能用本地Ollama跑开源模型省钱,DeepSeek R1性价比超高
首次设置注意,完成API密钥和偏好设置后必须重启容器构建RAG索引,后续更新就不需要了
Web界面访问,启动后访问http://localhost:3000就能看到管理界面,配置规则、查看处理日志、使用AI聊天都在这里
用Paperless-AI半年多,家里的文档管理终于有条理了,以前找个几年前的保修单要翻箱倒柜,现在问一句"XX品牌的保修卡在哪"秒出结果,而且AI打标签的准确率出乎意料的高,偶尔需要手动调整的也就10%左右,最喜欢的是它支持本地AI模型,用Ollama跑Llama完全不用担心文档隐私泄露,虽然初次设置需要折腾一下Docker和Paperless-ngx,但配好之后真的是一劳永逸,强烈推荐给所有需要管理大量文档的朋友,这套系统已经是个人文档管理的天花板了
项目图片
开源地址:https://github.com/clusterzx/paperless-ai