链载Ai

标题: AliSQL 向量技术解析(一):存储格式与算法实现 [打印本页]

作者: 链载Ai    时间: 昨天 22:38
标题: AliSQL 向量技术解析(一):存储格式与算法实现


背景

随着 AI 与大模型应用的普及,高维向量作为表征复杂数据(如文本、图像、语音)的关键载体,其存储与高效检索需求在推荐系统、图像检索、自然语言处理等领域快速扩展,对数据库技术提出了新的挑战。向量应用场景催生了专用的向量数据库,也推动了传统数据库对向量能力的支持。

在此背景下,PostgreSQL 通过 pgvector 插件实现了向量的高效检索能力,而 MySQL 生态则长期缺乏原生支持。虽然在 MySQL 9.0 发布了 VECTOR 数据类型,但其向量距离计算函数仅支持在 HeatWave 中使用,且未提供通用的向量索引能力。这一技术空白使得企业需依赖独立部署的向量数据库或迁移数据以实现高维计算需求。

AliSQL 基于 MySQL 8.0 原生扩展了企业级向量数据处理能力,提供开箱即用的向量化解决方案,通过标准 SQL 接口无缝集成高精度向量匹配与复杂业务逻辑,助力企业以低成本、高兼容性架构快速落地 AI 创新应用。

本文基于 AliSQL 8.0 20251031 版本,聚焦向量索引的核心实现,从存储格式到算法实现,帮助读者更好地了解和使用向量能力。

向量使用示例

AliSQL 原生支持最高 16,383 维向量数据的存储及计算,集成主流向量运算函数包括余弦相似度(COSINE)、欧式距离(EUCLIDEAN),并支持对全维度向量列建立基于 HNSW(Hierarchical Navigable Small World)算法构建的向量索引。

创建带有向量索引的表,插入数据并进行向量搜索。

# 创建带有向量索引的表CREATE TABLE`t1`(`id`INT NOT NULL AUTO_INCREMENT PRIMARY KEY,`animal`VARCHAR(10),`vec`VECTOR(2) NOT NULL,# 新增vector类型列 VECTOR INDEX`vi`(`vec`) m=6distance=cosine# 显示指定m和distance );
# 插入数据INSERT INTO`t1`(`animal`,`vec`) VALUES ("Frog", VEC_FROMTEXT("[0.1, 0.2]")), ("Dog", VEC_FROMTEXT("[0.6, 0.7]")), ("Cat", VEC_FROMTEXT("[0.6, 0.6]"));
# 向量搜索SELECT`animal`, VEC_DISTANCE(`vec`, VEC_FROMTEXT("[0.1, 0.1]")) AS`distance`FROM t1 ORDER BY`distance`;

结果示例

|--------|---------------------------||animal|distance||--------|---------------------------||Cat|0.00000001552204198507212||Dog|0.0029455257170004634||Frog|0.05131670194948623||--------|---------------------------|

也可以在已经存有向量的表上建立向量索引。

#向量列转换ALTERTABLE`t1`MOdifyCOLUMN`vec`VECTOR(2)NOTNULL;#创建向量索引CREATEVECTORINDEXviONt1(v);#不显示指定m和distance,则默认使用参数值

向量索引详解

HNSW 作为最为流行的 ANN 算法之一,在机构测评和工程实现上取得了广泛的认可和验证。目前 AliSQL 优先支持了基于 HNSW 算法的向量索引,向量搜索总体架构如下图所示。


HNSW 算法

HNSW(Hierarchical Navigable Small World)是一种基于多层图结构的高效近似最近邻(ANN)搜索算法,由论文《Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs》提出。其设计可以概括为:

最近邻搜索Search Layer

首先说明如何在单层 NSW 图中进行最近邻搜索,对应论文的 Algorithm 2。

1. 【输入】目标节点 q 、返回结果数 ef 、候选集 C (包括 1 个或多个该层的节点)、结果集 W (初始为空)。

2. 【循环搜索】从候选集 C 中取出距离 q 最近的节点 c ,遍历其每个邻居 e ,若 e 未被访问且距离更优,则加入结果集 W ,也加入候选集 C ,重复此过程。

3. 【终止条件】当候选集 C 中最近距离的节点 c 还没有结果集 W 中最远距离的节点 f 的距离近,即可结束循环搜索。

4. 【输出】结果集 W 前 ef 个最近邻节点。

插入算法Insert

插入算法对应论文的 Algorithm 1,参数 M 表示节点在每层的最大邻居节点数, L 当前图的最大层数。

1. 【初始化】确定新节点 q 的最大层级 l 。

2. 【搜索 L ~ l+1 层】从 HNSW 图的最高层 L 的随机节点开始,执行 ef 为 1 的 Search Layer 算法,即通过 NSW 图贪心搜索到离 q 局部最近的节点作为低一层的起点,直到 l+1 层完成搜索。

3. 【插入 l ~ 0 层】以 l+1 层找到的最近邻作为 l 层的起点,执行 ef 为 M 的 Search Layer 算法,在该层插入节点 q 并将其与搜索到的邻居节点进行双向连接,直到第 0 层,第 0 层不同于其他高层使用 ef=2M 。

4. 【邻居 shrink】对插入层的所有邻居节点,需要判断连接数若超过 M (第 0 层为 2M ),则通过 shrink 操作移除最远连接,确保图的紧凑性。

搜索算法KNN Search

搜索算法对应论文的 Algorithm 5。

1. 【快速跳转】从 L 到第 1 层执行 ef 为 1 的 Search Layer 算法。

2. 【精确搜索】在第 0 层搜索到 K 个最近邻返回。

向量索引存储格式

实现 HNSW 算法,需要在数据库中将 HNSW 图结构存储下来。设计辅助表结构如下表所示,每行数据对应于图中的一个节点的所有信息,所谓一个节点是包括了第 0 层到其存在的最大层数的所有映射点。


举个例子来说明其中值得注意的地方。

1.gref表示 graph ref 即辅助表主键,用于邻居节点的搜索,使用 InnoDB 的系统列 ROW_ID。

2.layer上建立一个 KEY,用于快速定位整张图的入口节点即 layer 最大的节点。

3.tref表示 table ref 即原表主键,用于向量搜索完成后进行回表,使用 server 层的存储格式。假设主表主键是一个值为 1 的 int 列,在 InnoDB 引擎层存储为 80 00 00 01,辅助表则使用 server 层的存储格式,将其存储成 01 00 00 00 的小端序 BINARY 列。

4.vec辅助表上的向量使用半精度 int16 格式存储,精度转换后,还需要记录转换的缩放因子 scale,存储为 float32 位于首 4 字节,该转换过程可以牺牲一定精度,有效降低存储空间并提升搜索效率。

5.neighbors包括节点从第 0 到最高层的每一层的邻居,每一层存储 1 字节邻居数量和每个邻居的 gref,算法流转时就可以在同层邻居之间进行导航搜索了。

【精度转换】向量元素从 float32 转换为 int16 时,使用线性映射公式 int16 = round ( float32 / scale ) 。其中,scale 为向量中元素中的最大绝对值与 32767(int16 最大值)的比值。同样以图中向量 [0.6, 0.7] 为例,精度转换过程如下图所示。

[9A 99193F | 3333333F]
原始向量 [0.6,0.7] 大端序 |1.找最大绝对值:0.7 |2.计算scale:0.7/32767 v缩放因子 scale =2.13629555e-05 |3.量化: 每个元素除以scale并四舍五入 v量化后向量 [28086,32767] |4.存储: scale(32位float) + dims(16位int数组) v存储结构: [scale:2.13629555e-05] [dims:28086] [dims:32767] 小端序
[2860 C2 37 | B6 6D | FF 7F]

总的来说,向量索引辅助表通过合理的格式设计和精度转换,对 HNSW 图中的节点信息进行高效存储;建立合理的索引、设计 neighbors 列格式,完整支持了 HNSW 算法;不断从向量索引辅助表加载节点信息,即可运行 HNSW 算法。

DD 适配和 DDL 原子性保证

不同于普通表,向量索引辅助表对用户不可见,无法直接访问,与主表之间的关系如下图所示。

在 DDL 执行过程中,主表与辅助表的结构变更封装于同一事务,通过 MySQL 的事务系统和 DDL log,可以保障 DDL 操作的原子性与 Crash Safe 特性。

总结

通过设计结构化的向量索引辅助表,AliSQL 完整实现了 HNSW 图的高效存储与算法流转;结合 MySQL 8.0 数据字典(DD)的适配,保障了元数据一致性与 DDL 操作的原子性。这一实现解决了 MySQL 生态在向量处理领域的长期短板,为存量 AliSQL 实例提供了开箱即用的高维搜索能力。

本文聚焦于向量索引的存储与算法实现,但完整数据库能力的可靠性仍需事务性与并发控制的支撑。后续会在《AliSQL 向量技术解析(二):节点缓存与并发控制》中深入探讨 Nodes Cache 对查询的优化原理,以及向量操作如何通过并发控制和事务隔离满足生产级要求。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5