2026-04-218 個條目
LLM 評測與可觀測棧 — 讓提示工程走向工程學科
LangSmith、Langfuse、Braintrust、Arize Phoenix、Helicone、Galileo、Patronus 等:trace、評測與成本延遲監控。
LLM 應用從 demo 轉向正式產品後,回歸評測、線上 trace 與成本延遲監控才是關鍵;本合集整理此層常用產品。請以官方資料核對集成深度與資料政策。
本合集收錄的工具
- LangSmith
LangChain 團隊的 LLM 評測與 trace 平台——資料集、評分器、線上監控與人工標註,與 LangChain/LangGraph 整合最深。
評測 / 可觀測 - Langfuse
開源 LLM 可觀測與評測平台:trace、資料集、評分器與提示管理;可 Docker 自部署,把資料留在內網。
評測 / 可觀測 - Braintrust
Braintrust:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。
評測 / 可觀測 - Arize Phoenix
Arize Phoenix:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。
評測 / 可觀測 - Helicone
Helicone:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。
評測 / 可觀測 - Galileo
Galileo:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。
評測 / 可觀測 - Patronus AI
Patronus AI:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。
評測 / 可觀測 - Weights & Biases
Weights & Biases:常見的 AI 產品——功能、價格、支援地區、資料處理與最新模型,請以官網說明為準。
學習 / 資料
本合集相關 MCP 伺服器
於 Claude / Cursor / Zed 等 MCP 客戶端設定後即可直接使用,為代理接上外部工具、資料或執行環境。