2026-04-218 个条目

LLM 评测与可观测栈 — 把「提示工程」变成工程学科

LangSmith、Langfuse、Braintrust、Arize Phoenix、Helicone、Galileo、Patronus：线上 trace、回归评测与成本延迟监控一网打尽。

当 LLM 应用从 demo 变成生产，团队会开始关心：每一次 prompt 变更是否不劣化 200 条回归？线上 P95 延迟和 token 成本是否被盯住？幻觉与 PII 泄露有没有人管？本合集汇聚的就是这一层的基础设施；每张卡片中立介绍 + 直达官网。选型时务必对比 LangChain / LlamaIndex 集成深度、自部署与 SaaS 的权衡，以及数据集管理范式，再决定主栈。

本合集收录的工具

LangSmith
LangChain 团队推出的 LLM 评测与 trace 平台，覆盖离线评测、数据集版本、线上监控与人工标注，与 LangChain/LangGraph 集成最紧密。若已用 LangChain 生态，接入成本最低；否则对比 Langfuse / Braintrust 再决定。
评测 / 可观测
Langfuse
开源的 LLM 可观测与评测平台，支持 trace、数据集、评分器与 prompt 管理，可 Docker 自部署把数据留在内网。面向重视数据主权或需要私有化部署的团队是口碑选项。
评测 / 可观测
Braintrust
以「eval first」定位的 LLM 评测与 Playground 平台，强调数据集管理、LLM-as-judge 与 CI 中跑回归。适合已把评测作为主要工程实践的团队；个人开发者可从其免费额度试用。
评测 / 可观测
Arize Phoenix
Arize AI 开源的 LLM / ML 可观测工具 Phoenix，支持 OpenTelemetry、trace 可视化与 RAG 评测，可本地运行或嵌入 Notebook。适合研究与调试场景的自由度。
评测 / 可观测
Helicone
通过代理网关记录 LLM 请求的可观测工具，自动抓取成本、延迟、错误与内容，支持 OpenAI 兼容接口一行代码接入。适合把观测加到已有应用而无需改动业务代码。
评测 / 可观测
Galileo
面向企业的 LLM 评测与防护平台，提供幻觉检测、提示与输出护栏、RAG 质量评估等能力，适合在合规与金融等受监管行业做 AI 风险治理。
评测 / 可观测
Patronus AI
专注 LLM 自动评测与红队的平台，提供 Lynx、Glider 等评测模型与安全分类器，适合对 AI 输出风险敏感的企业做回归与上线前把关。
评测 / 可观测
Weights & Biases
实验跟踪与模型可视化平台，记录训练曲线、超参与 artifact，适合深度学习团队复现实验与协作。个人项目可从小规模免费额度开始。
学习 / 数据

本合集相关 MCP 服务器

可在 Claude / Cursor / Zed 等 MCP 客户端配置后直接调用，用来给代理接上外部工具、数据源或执行环境。

PostgreSQL
官方
官方参考 MCP 服务器：通过只读连接让代理对 PostgreSQL 执行查询与 schema 探索，适合数据分析代理。强烈建议用只读用户 + schema 白名单。
数据库 / 数据stdioModel Context Protocol
Sentry
官方
官方参考 MCP 服务器：查询 Sentry 项目中的 Issue 与事件细节，辅助代理做「根因分析 + 修复建议」闭环。
云 / 运维stdioModel Context Protocol