2026-04-218개
LLM 평가·관측성 스택 — 자신 있게 배포하기
LangSmith, Langfuse, Braintrust, Arize Phoenix, Helicone, Galileo, Patronus 등.
LLM 앱이 장난이 아닌 제품이 되는 순간 필요한 trace·회귀 평가·비용/지연 모니터링 플랫폼 모음. 세부 사항은 각 공급사 공식 사이트에서 확인하세요.
이 모음의 도구
- LangSmith
LangChain 공식 평가·트레이스 플랫폼. 데이터셋·스코어러·실시간 모니터링·사람 리뷰를 LangChain/LangGraph와 가장 깊게 연동.
평가 / 관측성 - Langfuse
오픈소스 LLM 옵저버빌리티·평가 플랫폼. 트레이스·데이터셋·스코어러·프롬프트 관리, Docker 자체 호스팅 가능.
평가 / 관측성 - Braintrust
Braintrust: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.
평가 / 관측성 - Arize Phoenix
Arize Phoenix: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.
평가 / 관측성 - Helicone
Helicone: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.
평가 / 관측성 - Galileo
Galileo: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.
평가 / 관측성 - Patronus AI
Patronus AI: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.
평가 / 관측성 - Weights & Biases
Weights & Biases: 인기 AI 제품—기능·가격·지원 지역·데이터 처리·최신 모델은 공식 사이트를 확인하세요.
학습 / 데이터
관련 MCP 서버
Claude / Cursor / Zed 등 MCP 클라이언트에 구성하면 에이전트가 외부 도구·데이터·실행 환경을 사용할 수 있습니다.