2026-04-218 件

LLM 評価・可観測性スタック — 本番投入の確信を得るために

LangSmith、Langfuse、Braintrust、Arize Phoenix、Helicone、Galileo、Patronus 等。

プロダクション運用に入ったLLMアプリで必要となる trace・回帰評価・コスト/遅延監視のプラットフォームを集めたクラスタ。製品選定は公式情報で確認してください。

このまとめのツール

LangSmith
LangChain 公式の評価・トレース基盤。データセット／スコアラー／本番監視／人手レビューを LangChain・LangGraph と最深統合。
評価 / 可観測性
Langfuse
OSS の LLM 可観測・評価プラットフォーム。トレース／データセット／スコアラー／プロンプト管理、Docker でセルフホスト可能。
評価 / 可観測性
Braintrust
Braintrust: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
評価 / 可観測性
Arize Phoenix
Arize Phoenix: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
評価 / 可観測性
Helicone
Helicone: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
評価 / 可観測性
Galileo
Galileo: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
評価 / 可観測性
Patronus AI
Patronus AI: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
評価 / 可観測性
Weights & Biases
Weights & Biases: 人気のAI製品です。機能・料金・対応地域・データ取り扱い・最新モデルは公式サイトで確認してください。
学習 / データ

このまとめのツール

関連する MCP サーバー