语音代理与实时栈 — 搭建能打电话的 AI
Vapi、Retell、Bland、LiveKit Agents、Cartesia、Hume、ElevenLabs、Deepgram、AssemblyAI、Pipecat:低延迟语音应用的完整栈。
本合集收录的工具
- Vapi
面向开发者的语音代理平台,可自选 STT / LLM / TTS 供应商搭建电话与 WebRTC 语音机器人。定价按分钟计,适合搭建客服、预约与外呼机器人。
语音代理 / 实时 - Retell AI
强调低延迟与自然打断的语音代理平台,提供可视化编排与电话号码租用,适合快速落地外呼/呼入场景。出海电话请关注合规与 Do-Not-Call 名单。
语音代理 / 实时 - Bland AI
主打「一条链接就能打电话」的语音代理产品,模板化工作流上线快,企业版支持自建号码池与更严数据策略。复杂合规需求仍需走定制。
语音代理 / 实时 - LiveKit Agents
LiveKit 在自家 WebRTC 基础设施之上推出的开源语音代理框架,适合想自建实时语音应用、又不想自造 RTC 层的团队。可与任意 STT/LLM/TTS 串联。
语音代理 / 实时 - Cartesia
Sonic 系列 TTS 为代表的低延迟语音合成厂商,强调流式 API 与自定义声音,适合对「自然感」敏感的语音代理与音频内容产品。
语音代理 / 实时 - Hume AI
以情感与韵律研究切入的语音模型提供商,EVI 系列强调共情对话与情绪感知,适合心理、陪伴与客服等强共情场景。
语音代理 / 实时 - ElevenLabs
以高自然度语音合成与声音克隆闻名,适合有声书、游戏配音、视频旁白与多语言本地化。涉及声音克隆时务必取得授权并遵守平台与法律要求。
语音 / 音乐 - Deepgram
老牌语音识别平台,Nova 系列 STT 在延迟与准确率上口碑稳,提供实时与批处理 API。语音代理栈里常作为 STT 层担当。
语音代理 / 实时 - AssemblyAI
语音转文字与音频理解 API,提供高精度转写、摘要与章节划分,适合播客、客服质检与媒体归档。按分钟计费,需结合存储与隐私策略设计流水线。
语音 / 音乐 - Pipecat
Daily 开源的实时多模态管道框架,把 STT、LLM、TTS、打断与 VAD 等组件以模块化方式串起来,适合想自建语音代理工程的团队。
语音代理 / 实时