基于 pgvector 构建企业级 RAG 系统的实战指南

显示全部楼层

1. 背景

在 AI 驱动的企业知识管理与自动化运维领域，RAG（Retrieval-Augmented Generation）模式已经成为提升大模型回答准确度和上下文理解能力的关键方案。传统大模型（LLM）仅依赖训练语料回答问题，而 RAG 在推理前引入外部知识检索，可显著减少幻觉（Hallucination），提升对领域专属知识的掌握能力。

在向量数据库的选择上，pgvector是 PostgreSQL 的一个扩展，具备：

低门槛：PostgreSQL 原生扩展，SQL 即可用，无需额外部署独立向量库
兼容性：支持多种向量距离（L2、内积、余弦相似度）
索引支持：IVFFlat、HNSW 等向量索引优化
事务与安全：继承 PostgreSQL 的事务机制与访问控制

对于企业级 DevOps、ITSM、知识库、FinOps 等系统，pgvector 能帮助我们快速构建一套可控、可扩展的 RAG 数据层。

2. RAG 系统架构

一个典型的pgvector + RAG架构如下：

[用户问题]
  ↓
[向量化模型 (Embedding Model)]
  ↓
[pgvector 检索相似文档]
  ↓
[上下文拼接 + 用户问题]
  ↓
[LLM 推理]
  ↓
[回答输出]

在企业落地中，我们一般分三大模块：

数据准备

文档解析（PDF、DOCX、Markdown、HTML、数据库记录等）
分块（Chunking）
向量化（Embedding）
存储到 pgvector
检索增强

接收用户 Query
Query 向量化
近似最近邻（ANN）搜索
返回最相似的 N 个文档

生成回答

将检索到的文档内容拼接到用户问题前
调用 LLM（如 OpenAI、Claude、LLaMA 等）
输出带来源引用的回答

3. 数据建模与表结构设计

3.1 创建扩展与表

CREATEEXTENSIONIFNOTEXISTSvector;

CREATETABLEdocuments (
 idbigserial PRIMARYKEY,
 contenttext,
  embedding vector(1536),-- 对应 OpenAI text-embedding-ada-002
  metadata jsonb     -- 存储文件名、来源、标签等
);

-- 创建 IVFFlat 索引（L2 距离）
CREATEINDEXONdocumentsUSINGivfflat (embedding vector_l2_ops)WITH(lists =100);
ANALYZEdocuments;

embedding vector(1536)的维度需和你使用的向量模型一致

4. 数据入库（Go 实现）

4.1 Go 依赖

go get github.com/jackc/pgx/v5
go get github.com/sashabaranov/go-openai

4.2 插入代码示例

packagemain

import(
 "context"
 "encoding/json"
 "fmt"
 "log"

 "github.com/jackc/pgx/v5"
  openai"github.com/sashabaranov/go-openai"
)

funcmain(){
  ctx := context.Background()

  conn, err := pgx.Connect(ctx,"postgres://postgreslocalhost:5432/testdb?sslmode=disable")
 iferr !=nil{
    log.Fatal(err)
  }
 deferconn.Close(ctx)

  client := openai.NewClient("YOUR_OPENAI_API_KEY")

  text :="RAG 是一种结合检索和生成的技术..."
  resp, err := client.CreateEmbeddings(ctx, openai.EmbeddingRequest{
    Input: []string{text},
    Model: openai.AdaEmbeddingV2,
  })
 iferr !=nil{
    log.Fatal(err)
  }

  vec := resp.Data[0].Embedding
  meta, _ := json.Marshal(map[string]string{"source":"技术白皮书"})

  _, err = conn.Exec(ctx,
   "INSERT INTO documents (content, embedding, metadata) VALUES ($1, $2, $3)",
    text,
    fmt.Sprintf("[%s]", floatArrayToString(vec)),
    meta,
  )
 iferr !=nil{
    log.Fatal(err)
  }

  fmt.Println("✅ 文档插入完成")
}

funcfloatArrayToString(arr []float32)string{
  s :=""
 fori, v :=rangearr {
   ifi >0{
      s +=","
    }
    s += fmt.Sprintf("%f", v)
  }
 returns
}

5. 检索 + RAG 生成

5.1 检索相似文档

SELECTid,content, embedding <-> $1ASdistance
FROMdocuments
ORDERBYembedding <-> $1
LIMIT3;

<->表示 L2 距离，也可以用<#>（余弦距离）。

5.2 Go 中实现检索 + 调用 LLM

query :="什么是 RAG 技术？"
qResp, _ := client.CreateEmbeddings(ctx, openai.EmbeddingRequest{
  Input: []string{query},
  Model: openai.AdaEmbeddingV2,
})

qVec := fmt.Sprintf("[%s]", floatArrayToString(qResp.Data[0].Embedding))

rows, _ := conn.Query(ctx,
 "SELECT content FROM documents ORDER BY embedding <-> $1 LIMIT 3", qVec)

varcontextTextstring
forrows.Next() {
 varcontentstring
  rows.Scan(&content)
  contextText += content +"\n"
}

prompt := fmt.Sprintf("已知信息：\n%s\n\n问题：%s\n请基于已知信息回答，并引用来源。", contextText, query)

ans, _ := client.CreateChatCompletion(ctx, openai.ChatCompletionRequest{
  Model: openai.GPT4o,
  Messages: []openai.ChatCompletionMessage{
    {Role:"user", Content: prompt},
  },
})

fmt.Println("回答:", ans.Choices[0].Message.Content)

6. 性能与优化建议

分块策略

每块 300~500 token
重叠（overlap）50~100 token
避免上下文断裂

索引参数调优

lists越大，召回率高但插入变慢
可通过离线评估（Recall@K）调整

批量写入

使用COPY或批量事务插入向量
避免单条写入延迟

混合检索（Hybrid Search）

BM25 + 向量搜索加权排序
结合 pgvector 与 PostgreSQL 全文检索（tsvector）

分库分表

企业级大规模数据建议分 shard
pgvector 与 Citus 分布式 PG 可结合

7. 企业级应用案例

ITSM 智能工单

工单内容向量化存储
用户输入问题 → 相似历史工单匹配 → 提供解决方案

企业知识库

将内部 Wiki、标准作业流程（SOP）文档向量化
LLM 调用前先检索最相关内容，确保回答准确

DevOps 日志分析

日志片段向量化
按相似度聚类与分析，快速定位问题

8. 总结

pgvector 让RAG 系统的数据层落地成本极低，在企业内可以直接复用现有 PostgreSQL 基础设施，享受事务、安全、备份等优势。结合 OpenAI Embedding API 或本地向量化模型（如 bge、Instructor XL），可以快速搭建高可用、可扩展的企业知识增强问答系统。