2026-04-218 个条目

LLM 评测与可观测栈 — 把「提示工程」变成工程学科

LangSmith、Langfuse、Braintrust、Arize Phoenix、Helicone、Galileo、Patronus:线上 trace、回归评测与成本延迟监控一网打尽。

当 LLM 应用从 demo 变成生产,团队会开始关心:每一次 prompt 变更是否不劣化 200 条回归?线上 P95 延迟和 token 成本是否被盯住?幻觉与 PII 泄露有没有人管? 本合集汇聚的就是这一层的基础设施;每张卡片中立介绍 + 直达官网。选型时务必对比 LangChain / LlamaIndex 集成深度、自部署与 SaaS 的权衡,以及数据集管理范式,再决定主栈。

本合集收录的工具

本合集相关 MCP 服务器

可在 Claude / Cursor / Zed 等 MCP 客户端配置后直接调用,用来给代理接上外部工具、数据源或执行环境。