分类

LLM 评测与可观测平台丨Trace、打分与线上监控

把 LLM 应用当作生产系统运营：跑离线评测、抓线上 trace、盯规模化指标。此分类汇聚主流评测 / Eval / Observability 平台与开源方案。

从把 prompt 改好一次，到「改一版就跑 200 条回归 + 线上 99 分位延迟不劣化」之间，差的就是这一类工具。选型时看三条：是否支持**自定义评分器**、是否打通**trace + 评测 + 回放**一体、是否能**离线和在线共用一套数据集**。与 LangChain/LlamaIndex/OpenAI SDK 的集成深度也是高频差异点。

检索与补充说明

LangSmith、Langfuse、Braintrust 怎么选？

LangSmith 与 LangChain 生态黏度最高；Langfuse 走开源自部署路线；Braintrust 偏「eval first」。建议用一条真实链路同时接 2 家跑两周，再看工程师实际打开频率。

RAG 系统怎么做评测？

通常分检索（recall/precision、nDCG）与生成（correctness、faithfulness、groundedness）两层打分，再加人工抽检。工具层面关注是否自带 LLM‑as‑judge 与黄金答案数据集管理。

线上 LLM 调用怎么监控？

关注 P50/P95 延迟、token 成本分布、失败率与 PII 泄露检测；日志留存与训练授权条款务必在官网核对。

本类工具

简介与官网以各工具详情页为准；可在同类条目间交叉浏览。

LangSmith

LangChain 团队推出的 LLM 评测与 trace 平台，覆盖离线评测、数据集版本、线上监控与人工标注，与 LangChain/LangGraph 集成最紧密。若已用 LangChain 生态，接入成本最低；否则对比 Langfuse / Braintrust 再决定。

评测 / 可观测

Langfuse

开源的 LLM 可观测与评测平台，支持 trace、数据集、评分器与 prompt 管理，可 Docker 自部署把数据留在内网。面向重视数据主权或需要私有化部署的团队是口碑选项。

评测 / 可观测

Braintrust

以「eval first」定位的 LLM 评测与 Playground 平台，强调数据集管理、LLM-as-judge 与 CI 中跑回归。适合已把评测作为主要工程实践的团队；个人开发者可从其免费额度试用。

评测 / 可观测

Arize Phoenix

Arize AI 开源的 LLM / ML 可观测工具 Phoenix，支持 OpenTelemetry、trace 可视化与 RAG 评测，可本地运行或嵌入 Notebook。适合研究与调试场景的自由度。

评测 / 可观测

Helicone

通过代理网关记录 LLM 请求的可观测工具，自动抓取成本、延迟、错误与内容，支持 OpenAI 兼容接口一行代码接入。适合把观测加到已有应用而无需改动业务代码。

评测 / 可观测

Galileo

面向企业的 LLM 评测与防护平台，提供幻觉检测、提示与输出护栏、RAG 质量评估等能力，适合在合规与金融等受监管行业做 AI 风险治理。

评测 / 可观测

Patronus AI

专注 LLM 自动评测与红队的平台，提供 Lynx、Glider 等评测模型与安全分类器，适合对 AI 输出风险敏感的企业做回归与上线前把关。

评测 / 可观测