MariaDB 11.8 LTS新增特性:Vector(向量)支持

MariaDB 11.8 LTS 一个非常重要的新方向,就是:原生支持 Vector(向量)能力。这意味着:MariaDB 正式进入 AI / RAG / Embedding / Semantic Search 时代。

这是数据库未来几年最重要的演进方向之一,尤其适用于:

  • LLM(大模型)
  • RAG(检索增强生成)
  • AI Agent
  • Recommendation(推荐系统)
  • Semantic Search(语义搜索)
  • Similarity Search(相似度检索)
  • Image Retrieval(图像检索)
  • Multimodal(多模态)

1.什么是 Vector(向量)

例如:”数据库性能优化”
经过 embedding model 编码后:

1
[0.123, -0.551, 0.889, 0.004, ...]

这就是:高维向量(High-dimensional Vector)

通常:

  • 384维
  • 768维
  • 1024维
  • 1536维
  • 3072维

例如:

  • OpenAI Embedding
  • BGE
  • E5
  • SentenceTransformer
  • Cohere
  • Jina AI

都会产生向量。


2.MariaDB 11.8 的 Vector 能力

核心:VECTOR 数据类型

例如:

1
2
3
4
5
CREATE TABLE docs (
id BIGINT PRIMARY KEY,
content TEXT,
embedding VECTOR(768)
);

这表示:

1
embedding 字段存储 768 维向量

这在传统 MySQL 中几乎不可优雅实现。


3.向量支持的核心操作

3.1 向量存储

1
高维 embedding 持久化

例如:

1
2
3
4
5
INSERT INTO docs VALUES (
1,
'MariaDB supports vector search',
'[0.11, 0.23, 0.56, ...]'
);

3.2 相似度搜索(核心)

1
2
3
4
5
6
7
8
SELECT id, content
FROM docs
ORDER BY
VEC_DISTANCE(
embedding,
'[0.12, 0.31, 0.49, ...]'
)
LIMIT 10;

实现:Top-K Similarity Search


3.3 常见距离算法

支持:

算法 场景
L2 Distance 欧式距离
Cosine Similarity NLP 最常用
Inner Product 推荐系统
Dot Product Embedding 检索

3.4 向量索引(重点)

支持:Approximate Nearest Neighbor(ANN)即:近似最近邻搜索,否则:全表扫描 = 灾难

典型:

  • HNSW
  • IVF
  • PQ(未来方向)

这是企业级 Vector DB 的核心。


4.架构图(RAG 场景)

flowchart TD

A[用户问题] --> B[Embedding Model]

B --> C[Query Vector]

C --> D[MariaDB Vector Search]

D --> E[Top-K Similar Documents]

E --> F[Prompt Assembly]

F --> G[LLM]

G --> H[最终答案]

这就是:经典 RAG Pipeline