2026-04-218 件
LLM 評価・可観測性スタック — 本番投入の確信を得るために
LangSmith、Langfuse、Braintrust、Arize Phoenix、Helicone、Galileo、Patronus 等。
プロダクション運用に入ったLLMアプリで必要となる trace・回帰評価・コスト/遅延監視のプラットフォームを集めたクラスタ。製品選定は公式情報で確認してください。
このまとめのツール
- LangSmith
LangChain 公式の評価・トレース基盤。データセット/スコアラー/本番監視/人手レビューを LangChain・LangGraph と最深統合。
評価 / 可観測性 - Langfuse
OSS の LLM 可観測・評価プラットフォーム。トレース/データセット/スコアラー/プロンプト管理、Docker でセルフホスト可能。
評価 / 可観測性 - Braintrust
Braintrust: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
評価 / 可観測性 - Arize Phoenix
Arize Phoenix: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
評価 / 可観測性 - Helicone
Helicone: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
評価 / 可観測性 - Galileo
Galileo: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
評価 / 可観測性 - Patronus AI
Patronus AI: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
評価 / 可観測性 - Weights & Biases
Weights & Biases: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
学習 / データ
関連する MCP サーバー
Claude / Cursor / Zed など MCP クライアントに設定すれば、エージェントに外部ツール・データ・実行環境を接続できます。