链载Ai

标题: AI搜索与向量数据-模型是如何将信息和数据编码成知识的? [打印本页]

作者: 链载Ai    时间: 昨天 13:25
标题: AI搜索与向量数据-模型是如何将信息和数据编码成知识的?

针对每个概念和知识点,结合其应用原理、具体的应用场景以及实践中的应用方法,进行更深入、更详细的解析和描述。




1. 向量数据库入门 (Intro to Vector Databases)
核心思想:将数据的语义含义编码为高维空间中的向量,通过计算向量间的距离(如余弦相似度、欧氏距离)来衡量数据的相似性,从而实现基于“含义”而非“字面”的搜索。




2. 搜索 (Search)
核心思想:结合不同搜索范式的优点,弥补各自的缺点,以达到更好的综合搜索效果。特别是结合关键词的精确性和向量搜索的语义理解能力。




3. 分层可导航小世界 (HNSW)
核心思想:通过构建一个多层的邻近图(Proximity Graph)来加速高维空间中的近似最近邻搜索。




4. 多模态 RAG (Multimodal RAG)
核心思想:将 RAG 的能力从纯文本扩展到包含图像、音频、视频等多种数据类型,让 LLM 能够基于检索到的混合信息进行理解和生成。








5. 数据库 (Databases)
核心思想:为不同类型的数据(结构化、非结构化、关系型、图状)和不同的应用需求(存储、检索、分析、扩展性)提供合适的管理和访问机制。



  1. 分割:将原始高维向量(如 D 维)分割成 M 个低维子向量(每个 D/M 维)。



  2. 聚类:对数据集中所有向量的第 i 个子向量进行聚类(通常使用 K-Means),得到 K 个聚类中心(码字, codewords),形成第 i 个子空间的码本(codebook)。



  3. 量化:对于任意一个原始向量,将其每个子向量替换为其所属子空间码本中最接近的码字的 ID。



  4. 存储:原始向量被压缩为一个由 M 个码字 ID 组成的短代码。



  5. 距离计算:可以通过预计算码字间距离或使用近似距离(如非对称距离计算 ADC)来快速估算压缩向量间的距离。








欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5