返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

AI开发实战:解决RAG的召回不准问题

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 21:14 |阅读模式 打印 上一主题 下一主题

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1px;">在AI开发的路上,我们总会遇到各种技术难题。今天想和大家分享一个最近解决的RAG(检索增强生成)项目难题。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1px;">How RAG works with AI - Easy Redmine

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1px;">最近接手了一个企业级AI项目,面临的第一个难题就是文件格式混乱

  • PDF文档
  • Excel表格
  • Word文件
  • 网页内容
  • 各种格式混杂

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1px;">传统的RAG架构在处理这些异构数据时表现不佳,召回精度始终达不到理想效果。RAG的召回质量直接决定了大模型生成的质量。召回不准确,再强大的生成模型也会"瞎答"。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1px;">我尝试了各种优化方案,包括:

  • 调整embedding模型
  • 优化chunk分割策略
  • 改进相似度计算方法

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1px;">但效果始终不尽如人意。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1px;">

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1px;">就在上周,我发现客户企业有SharePoint平台,并且基本处于闲置状态。

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1px;">作为十几年的SharePoint老兵,我立即想到了一个新思路:让SharePoint来承担文档管理和检索的重任?

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1px;">

技术实现思路

1. 文档统一管理

将所有异构文档上传到SharePoint,利用其强大的:

  • 文档解析能力
  • 元数据提取功能
  • 全文索引机制

2. 权限体系整合

SharePoint自带的权限管理系统完美解决了企业级应用的权限控制需求,这是意外收获。

3. 双轨检索策略

结合SharePoint的Microsoft Search和传统的语义检索

  • 关键词检索:利用SharePoint的全文索引
  • 语义检索:保留原有的向量检索能力

这样形成了"关键词+语义"的双轨并行检索机制。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ