链载Ai

标题: ​保姆级拆解向量数据库的结构和应用场景 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: ​保姆级拆解向量数据库的结构和应用场景

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;color: rgb(0, 0, 0);font-size: 14px;text-align: justify;visibility: visible;line-height: 2em;">导读大家好,我是来自九章云极DataCanvas的王庚,我今天分享的题目是《保姆级拆解向量数据库的结构和应用场景》。

主要内容包括以下几个部分:


ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">1.NewDataStack 时代的数据架构地图

2.向量数据库发展历程

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">3.企业面临痛点&挑战

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">4.向量数据库整体形态

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;visibility: visible;">5.向量数据功能特性

6.多模态向量数据库未来发展趋势及核心能力

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">7.向量数据库重点支撑场景

ingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 1.5px;line-height: 2em;">8.基于大模型的知识管家(Agent)向量数据库应用

分享嘉宾|王庚 九章云极DataCanvas

编辑整理|陈沃晨

内容校对|李瑶

出品社区|DataFun


01

NewDataStack 时代的数据架构地图


首先来看一张 Andreessen Horowitz 发布的关于未来数据架构的预测图。我们在后面又加入了对应的当前比较流行的大模型以及向量数据库。



首先最左侧的是数据源层,这里包括来自于企业各种各样的数据源,我们也叫它多元异构的数据形态。有了这部分数据之后,首先要做的是数据的摄取,再往后是数据的转化,这里面涉及到非常多类型数据的形态转换。包括传统企业数仓的 ETL 过程,以及当前 AI 背景下的特征加工、数据处理等流程。还有处理流式数据、实时数据的数据组件,用来满足高时效、低延迟的处理需求。


在数据存储与计算层,向量数据库一方面可以把前面各种各样的数据做比较好的接入,还可以完成数据处理上的一些转换,实际上在向量数据库计算引擎的加持下,我们可以完成面向各种类型的数据存储以及计算。


在数据分析与预测层,向量数据库也可以提供比较全面的支撑,包括 AI 基础小模型和大模型应用的场景,特别是在大模型方面,大家的共识是把向量数据库作为大模型应用非常重要的记忆体。除了上面说到的 AI 这部分场景,对一些传统业务的支持,比如高效的即席查询、实时数据分析以及向量的搜索、分析场景,向量数据库都能发挥重要价值。


最后的数据应用层则对应一些具体的业务场景,比如 BI 仪表盘、嵌入式分析、增强分析、自助分析程序等。


02


向量数据库发展历程



向量数据库的发展大致经过了三个阶段:
03


企业面临痛点&挑战



在大模型时代,企业对于多模态数据会有越来越多的应用场景,在多模态数据的分析和检索方面将会面临很多挑战以及问题。大概分为以下四个方面:
04


向量数据库整体形态



前文提到向量数据库的数据来源可能包括结构化数据与非结构化数据,所以从这张图上可以看到像图片、文档、音频以及视频这些数据都要做向量化转换才能存到向量数据库。对于我们原来经常接触的一些关系型数据库数据,以及 Key-Value 这种半结构化数据,也要统一存储。海量数据在向量数据库做向量的转换,用来提供相似性的检索。再上层是向量数据库通过其分析和计算引擎支撑 BI、流分析、AI、数据科学以及大模型等不同的场景。



上图左侧是数据的来源,有各种各样多模态的数据类型。从上往下看,最上面是我们通过向量数据库实现的一些场景,包括关系数据分析、语义数据检索、实时决策、提示词管理和大模型记忆的管理。下面展示了各种各样的服务形态,包括兼容MySQL 协议、提供 Serving API 的对接、面向原生向量的 API。再往下是向量数据库所要具备的元数据存储与资源管理能力,以及一些优化的组件,比如多模优化器和事务管理器,用来保证向量数据库高效地运行。最底层是数据存储的形态,有关系型存储、向量存储以及 HDFS 仓存储和湖存储。


05


向量数据功能特性



这是中国信通院组织 50 家企业的专家在一起讨论了大概 3-4 个月形成的一个行业通用标准,它定义了向量数据库的基本功能、运维管理、安全性、兼容性、扩展性、高可用等多个方面的标准,可以比较全面地看到向量数据库的一些技术指标要求。


06


多模态向量数据库未来发展趋势及核心能力



多模态向量数据库的未来发展趋势及核心能力可以总结为以下五个方面:
07


向量数据库重点支撑场景



简单来讲,在大模型时代,多模向量数据库的重点支撑场景包括大模型记忆体、企业知识库、非结构化数据检索、实时决策指标计算、结构化与非结构化数据的融合分析和 VectorOcean 数据支撑平台等。


08


基于大模型的知识管家(Agent)向量数据库应用



向量数据库作为大模型知识管家后台的核心存储引擎,一方面把各种类型的企业数据进行私有化的存储,然后在这个基础上用大模型去跟向量数据库做高效的交互。另一方面是用户在提问之后,可以通过大模型先对语言做基础的组织,然后用向量数据库查询出最相似的知识片段 TopN,并把这些知识片段作为基础语料传送给大模型,大模型去做答案的组织,再结合大模型的生成式的能力给出最终答案。通过这个过程可以大大降低大模型应用换轮的问题,能够让用户得到更可靠的问答。
以上就是本次分享的内容,谢谢大家。

往期推荐


专利大模型的实践与知识问答探索

蚂蚁集团 EB 级大数据治理架构与实践

平安银行智能化数据安全分类分级实践分享

大语言模型对汽车行业的影响和实践探索

告别信息过载:大模型驱动的搜索与推荐,精准定位用户需求

阿里巴巴技术实践:BI+AI技术的融合与应用

官宣|Apache Paimon 毕业成为顶级项⽬,数据湖步⼊实时新篇章!

从0到1,聊聊货拉拉如何搭建数据指标体系

领域模型生产指南

腾讯视频指标中台驱动湖仓一体建设实践






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5