链载Ai

标题: 4.5K Star!文档管理AI神器Paperless-AI:自动分类打标签,语义搜索秒找文件! [打印本页]

作者: 链载Ai    时间: 昨天 22:38
标题: 4.5K Star!文档管理AI神器Paperless-AI:自动分类打标签,语义搜索秒找文件!

家里电子文档越攒越多,合同、发票、保险单、账单堆成山,每次找个文件翻半天,试过手动整理文件夹太费劲,传统搜索只能按文件名找也不够智能,直到发现了Paperless-AI这个开源项目,才知道AI真能把文档管理这件事儿做到极致

Paperless-AI是什么

它是一个基于Paperless-ngx的AI增强插件,通过OpenAI API、Ollama等AI模型自动分析文档内容并打标签、分类、识别对应方。他还内置了RAG语义搜索引擎,让你能用自然语言提问例如:"上个月电费多少钱"、"我的租房合同啥时候签的"的问题,系统会秒懂你的意思并给出精准的答案,他支持20多种AI后端,完全可以在本地部署保护隐私

开源成就

Star数他已经收获4.5K Star,也算是文档管理领域的AI新星了
主开发语言基于JavaScript和Python开发,前后端分离的架构
版本迭代已经发布了58个版本,功能还在持续完善中

核心功能

自动化文档处理,监测Paperless-ngx中的新文档,AI自动分析内容后给文档起标题、打标签、分配文档类型和对应方,完全不用手动整理
多AI后端支持,兼容Ollama(Mistral、Llama、Phi-3、Gemma-2)、OpenAI、DeepSeek、OpenRouter、Perplexity、Together.ai、Gemini等20多种AI服务,用本地模型也能跑
RAG语义聊天,基于检索增强生成技术,能理解文档完整上下文而不只是关键词匹配,问"哪些文档提到我的医保"这种复杂问题也能准确回答
智能标签规则,可以定义规则限制处理哪些文档,禁用某些提示词并自动打标签,还能设置自定义输出标签做分类追踪
手动处理模式,提供Web界面手动调用AI打标签,审查敏感文档时特别有用,访问/manual就能操作

使用场景

我用它管理家里所有纸质文档的电子版,扫描件上传后AI自动识别是水电账单还是银行对账单,标签打得比我自己分类还准确

老婆问我"去年报税的那个文件在哪",以前得想半天放在哪个文件夹,现在直接在聊天界面问,系统3秒钟就把准确的文档链接给出来了

公司合同归档也用上了,几百份合同按客户、日期、金额自动分类,财务找历史合同方便太多了

# Docker部署超简单
dockerrun-d\
--namepaperless-ai\
-p3000:3000\
-v./data:/app/data\
-ePAPERLESS_URL=http://your-paperless-ngx:8000\
-ePAPERLESS_TOKEN=your-api-token\
-eOPENAI_API_KEY=your-openai-key\
clusterzx/paperless-ai

# 首次安装完成设置后记得重启容器构建RAG索引
dockerrestartpaperless-ai

安装指南

前置要求,需要先安装Paperless-ngx作为文档管理基础,Paperless-AI作为增强插件运行

Docker部署推荐,官方提供了Docker镜像,配置好环境变量一键启动,支持健康监控和自动重启

# docker-compose.yml示例
version:'3.8'
services:
paperless-ai:
image:clusterzx/paperless-ai:latest
ports:
-"3000:3000"
environment:
-PAPERLESS_URL=http://paperless:8000
-PAPERLESS_TOKEN=${PAPERLESS_TOKEN}
-OPENAI_API_KEY=${OPENAI_KEY}
-AI_BACKEND=ollama # 或openai/deepseek等
volumes:
-./data:/app/data
restart:unless-stopped
本地开发模式,想自己改代码的话可以克隆仓库本地运行
# 安装依赖
npminstall

# 启动开发/测试模式
npmruntest

AI模型配置,可以用OpenAI的GPT系列,也能用本地Ollama跑开源模型省钱,DeepSeek R1性价比超高

首次设置注意,完成API密钥和偏好设置后必须重启容器构建RAG索引,后续更新就不需要了

Web界面访问,启动后访问http://localhost:3000就能看到管理界面,配置规则、查看处理日志、使用AI聊天都在这里

用Paperless-AI半年多,家里的文档管理终于有条理了,以前找个几年前的保修单要翻箱倒柜,现在问一句"XX品牌的保修卡在哪"秒出结果,而且AI打标签的准确率出乎意料的高,偶尔需要手动调整的也就10%左右,最喜欢的是它支持本地AI模型,用Ollama跑Llama完全不用担心文档隐私泄露,虽然初次设置需要折腾一下Docker和Paperless-ngx,但配好之后真的是一劳永逸,强烈推荐给所有需要管理大量文档的朋友,这套系统已经是个人文档管理的天花板了

项目图片

开源地址:https://github.com/clusterzx/paperless-ai


END






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5