分类

向量数据库与检索工具丨RAG 的底座选型

向量库、嵌入服务、重排序与记忆层的产品合集:为 RAG 与 Agent 选一条顺手的检索栈。

和「对话 LLM」不同,检索栈的差异在**吞吐、召回、过滤能力与运维形态**。先区分 serverless(Pinecone / Turbopuffer)与自部署(Milvus / Qdrant / Weaviate / Chroma / LanceDB),再看是否需要混合检索(BM25 + 向量)、metadata 过滤、命名空间隔离、按租户权限。嵌入与重排序可作为独立层组合(Jina、Cohere、OpenAI embeddings)。

检索与补充说明

Pinecone、Qdrant、Weaviate、Milvus 怎么选?

小团队要速度用 Pinecone / Turbopuffer;要自部署选 Qdrant / Milvus;要本地跑评测用 Chroma / LanceDB。数据量 > 1 亿条时把运维成本与备份方案纳入对比。

需要 Rerank 吗?

当召回噪声大、Top‑K 后答案仍漂移时,加一层 Cross-Encoder rerank 往往比换向量模型便宜有效。Cohere Rerank、Jina Reranker、bge‑reranker 是常见选项。

Agent 要不要长期记忆?

多数应用用会话 + RAG 就够;只有需要「跨会话记住个体」的产品才引入 Mem0 / 自建记忆层,并务必设计可删除与审计。

本类工具

简介与官网以各工具详情页为准;可在同类条目间交叉浏览。

Tavily

面向 AI Agent 与 RAG 的搜索 API,返回带摘要的网页结果,适合给自建助手接「可联网」能力。调用成本与速率限制需写进系统提示与重试策略。

向量库 / 检索
Jina AI

提供嵌入、重排序与 Reader 等面向 RAG 的基础设施,开源组件丰富,适合自建搜索与问答流水线。企业部署需评估延迟与缓存策略。

向量库 / 检索
Mem0

为 AI 应用提供长期记忆层的开源框架,帮助 Agent 记住用户偏好与历史事实,适合个性化助手。记忆内容涉及隐私时需加密与可删除设计。

向量库 / 检索
Pinecone

托管型向量数据库老牌玩家,提供 Serverless 版本与命名空间隔离,适合生产级 RAG 快速上线。定价按存储与查询计费,规模上去后建议评估 Qdrant / Milvus 等替代。

向量库 / 检索
Weaviate

开源向量数据库,内置模块化的嵌入与混合检索,支持 Cloud 与自部署,适合需要 BM25 + 向量混合检索的业务。运维成本略高,建议搭配自己的监控栈。

向量库 / 检索
Qdrant

Rust 编写的开源向量数据库,提供本地、云与企业版本,支持 payload 过滤、混合搜索与量化压缩,适合对内存占用与吞吐敏感的生产环境。

向量库 / 检索
Chroma

开发者友好的开源向量数据库,几行 Python 即可本地跑起来,适合原型、笔记本实验与小规模 RAG。线上大规模时建议切换到更偏运维的方案。

向量库 / 检索
Milvus / Zilliz

Milvus 是 LF AI & Data 托管的开源向量数据库,面向亿级以上规模;Zilliz 提供其托管云版本。适合大数据量 RAG、向量搜索与图片/视频 Embedding 检索。

向量库 / 检索
LanceDB

基于 Lance 列式格式的嵌入式向量数据库,与 pandas / PyArrow 无缝协作,可直接放到对象存储,适合数据科学笔记本与离线评测流水线。

向量库 / 检索
Turbopuffer

基于对象存储的 Serverless 向量数据库,主打低成本 + 过滤查询,适合预算敏感的团队做大批量文档 RAG。写入与查询延迟特性请在你自己的数据集上实测。

向量库 / 检索