分类
LLM 评测与可观测平台丨Trace、打分与线上监控
把 LLM 应用当作生产系统运营:跑离线评测、抓线上 trace、盯规模化指标。此分类汇聚主流评测 / Eval / Observability 平台与开源方案。
从把 prompt 改好一次,到「改一版就跑 200 条回归 + 线上 99 分位延迟不劣化」之间,差的就是这一类工具。选型时看三条:是否支持**自定义评分器**、是否打通**trace + 评测 + 回放**一体、是否能**离线和在线共用一套数据集**。与 LangChain/LlamaIndex/OpenAI SDK 的集成深度也是高频差异点。
检索与补充说明
LangSmith、Langfuse、Braintrust 怎么选?
LangSmith 与 LangChain 生态黏度最高;Langfuse 走开源自部署路线;Braintrust 偏「eval first」。建议用一条真实链路同时接 2 家跑两周,再看工程师实际打开频率。
RAG 系统怎么做评测?
通常分检索(recall/precision、nDCG)与生成(correctness、faithfulness、groundedness)两层打分,再加人工抽检。工具层面关注是否自带 LLM‑as‑judge 与黄金答案数据集管理。
线上 LLM 调用怎么监控?
关注 P50/P95 延迟、token 成本分布、失败率与 PII 泄露检测;日志留存与训练授权条款务必在官网核对。
本类工具
简介与官网以各工具详情页为准;可在同类条目间交叉浏览。
LangChain 团队推出的 LLM 评测与 trace 平台,覆盖离线评测、数据集版本、线上监控与人工标注,与 LangChain/LangGraph 集成最紧密。若已用 LangChain 生态,接入成本最低;否则对比 Langfuse / Braintrust 再决定。
开源的 LLM 可观测与评测平台,支持 trace、数据集、评分器与 prompt 管理,可 Docker 自部署把数据留在内网。面向重视数据主权或需要私有化部署的团队是口碑选项。
以「eval first」定位的 LLM 评测与 Playground 平台,强调数据集管理、LLM-as-judge 与 CI 中跑回归。适合已把评测作为主要工程实践的团队;个人开发者可从其免费额度试用。
Arize AI 开源的 LLM / ML 可观测工具 Phoenix,支持 OpenTelemetry、trace 可视化与 RAG 评测,可本地运行或嵌入 Notebook。适合研究与调试场景的自由度。
通过代理网关记录 LLM 请求的可观测工具,自动抓取成本、延迟、错误与内容,支持 OpenAI 兼容接口一行代码接入。适合把观测加到已有应用而无需改动业务代码。
面向企业的 LLM 评测与防护平台,提供幻觉检测、提示与输出护栏、RAG 质量评估等能力,适合在合规与金融等受监管行业做 AI 风险治理。
专注 LLM 自动评测与红队的平台,提供 Lynx、Glider 等评测模型与安全分类器,适合对 AI 输出风险敏感的企业做回归与上线前把关。