链载Ai

标题: 百度智能云向量数据库创新和应用实践分享 [打印本页]

作者: 链载Ai    时间: 昨天 11:17
标题: 百度智能云向量数据库创新和应用实践分享

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;text-wrap: wrap;background-color: rgb(255, 255, 255);visibility: visible;">在 IT 行业,数据库有超过 70 年的历史了。对于快速发展的 IT 行业来说,一个超过 70 年历史的技术,感觉像恐龙一样,非常稀有和少见。

但是数据库之所以有这么长的生命力,核心是在不停的变更和创新。

简单回顾一下数据库的历史,在过去的 70 年里面,数据库一直跟着底层基础设施和上层业务的变化的潮流,一直在变化。从最早的大型机再演变到后面的小型机、PC 服务器、数据中心 + 互联网、云、以及现在的 AI 。
数据库在不停地演变和革新,每隔一段时间,新的硬件和新的应用就会催生新的数据库技术。所以每个时代都会有不同的当红数据库。像 PC 时代的 Oracle,互联网时代的 MySQL,云时代的云数据库。到 AI 时代硬件演变成了 GPU + CPU,应用的负载也从 CPU 往 GPU 迁移。在大模型时代,数据库与大模型相互成就。数据库这个领域当前最红的就是向量数据库,以及通过大模型加持的各种智能运维能力。另外,还有一个非常有潜力的方向是大模型数据工程,负责给大模型训练和 AI 原生应用准备数据,提升模型训练效果和加速应用落地。
如果把数据库放到整个 AI 技术栈来看,主要是处在 PaaS 和 SaaS 这一层,向量数据库和数据工程在 PaaS,运维应用在 SaaS 这一层。除了数据之外,还有大模型,以及配套的工具链 Model Builder。为了应用实现的更简单,还有 Agent Builder 和 App Builder 等等。
大模型时代未来帮助客户快速构建大模型相关应用,应用、模型、数据三者缺一不可。前面是模型和应用相关技术栈发展较快,现在工业界的普遍共识是数据技术栈这块欠缺比较多,国内外有大量的投资投向了这个领域。
为什么数据相关技术栈会成为热点,主要是数据和模型是相互相成,不可或缺的。数据平台和大模型相互成就,这个体现在两个方面,一个是大模型成就数据库,另外一个是数据库成就大模型。
大模型表现出理解、生成、推理、记忆四大能力,激发了数据库与 AI 的深度融合,让场景更通用、能力更实用。所以大家看到了把大模型应用到数据平台中可以解决一系列运维,提升易用性的潜力。
另外,大模型效果让人惊艳,但是还是存在知识更新不及时,容易幻觉,没有最新企业的内部知识和数据,无法解决企业真实业务问题,所以带火了 RAG 技术。根据现在调查,目前超过 80% 的落地应用基本都是 RAG。
RAG 是检索增强生成(Retrieval-augmented Generation),利用向量相似度检索技术搜索文档,然后组合成 prompt 喂给大模型,大模型再生成最终的答案。这就规避了刚才讲到的大模型几个典型问题。尤其是 2B 场景里面,缺乏企业自主的数据,企业无法解决企业智能问题。通过向量数据库为主的 RAG 方案是一个比较好的解决大模型数据更新不足的解决方案。
但是要做好 RAG 要经过数据提取、数据索引、检索、生成四个阶段,每个阶段都有不少难点。我这里简单提一下给大家做参考:
  1. 首先是数据提取。核心是要把各种结构化,非结构化数据能提取出来,用于后面的处理。这里的复杂度主要是:





欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5