概述
语音合成技术涵盖两个方向:macOS 本地 Qwen3-TTS 模型的安装与使用,以及字节跳动(豆包)语音领域开源项目调研(MegaTTS3/Seed-VC/Seed-ASR)。
Qwen3-TTS 是在 macOS 本地部署的语音合成模型,主要用于生成语音文件并通过 Mattermost API 发送。字节跳动方面有三大项目:MegaTTS 3(语音克隆,⭐6081)、Seed-VC(实时变声)和 Seed-ASR(语音识别,豆包输入法核心引擎)。
关键事件
- 2026-03-10: 开始研究如何在 macOS 上安装 Qwen3-TTS
- 2026-03-12: 确认 Qwen3-TTS 已安装在
/Users/leway/Qwen3-TTS - 2026-03-15: 生成第一个测试语音,解决文件发送问题
- 2026-03-20: 通过 Mattermost API 发送语音文件
- 2026-03-30: 调研字节跳动语音开源项目(MegaTTS3/Seed-VC/Seed-ASR)
- 2026-03-30: 深入分析 Seed-ASR 架构和火山引擎 API 调用方案
- 2026-03-30: 评估 volcengine-asr OpenClaw Skill 集成方案
Qwen3-TTS 本地部署
- 模型: Qwen3-TTS(千问语音合成模型)
- 安装路径:
/Users/leway/Qwen3-TTS - 虚拟环境:
/Users/leway/qwen3tts-env - 文件发送流程: 生成语音 → 复制到工作区 → 通过 Mattermost API 上传为附件
- macOS 本地运行需要足够的内存和计算资源
字节跳动语音项目
MegaTTS 3 — 文本转语音(TTS)
- GitHub:
bytedance/MegaTTS3(⭐6081,0.45B 参数) - 几秒参考音频即可克隆声音,支持中英文
- 需要 GPU(CUDA),有 HuggingFace Demo
Seed-VC — 语音转换(变声)
- GitHub:
Plachtaa/seed-vc(⭐3663) - 零样本语音转换 + 唱歌变声,实时延迟 ~300ms
- 极低数据微调(最少 1 句话,100 步,2 分钟)
Seed-ASR — 语音识别
- 豆包输入法核心引擎,完全未开源
- 基于 LLM 的 ASR,比 Whisper 在专有名词/中英混杂/方言处理更好
- 可通过火山引擎 API 调用 Seed-ASR 2.0(免费额度约 10 万次)
- 社区代理:
doubao-asr2-openai-proxy,OpenClaw Skill:volcengine-asr
Seed-TTS — 字节王牌 TTS
- 只开源评测集(⭐1546),模型不开源(AI 安全考虑)
开源替代方案
- FunASR (阿里): 中文最好的开源 ASR
- Whisper (OpenAI): 多语言通用
- SenseVoice (阿里): 轻量快速
edge-tts 在 Healthbot 中的应用
Healthbot(health agent)使用 edge-tts(微软晓晓语音)为术后康复提醒生成语音消息:
- 引擎: edge-tts(微软 Edge 浏览器 TTS API)
- 语音: 晓晓(中文女声)
- 用途: 每日7次定时康复提醒(吃药、换药、散步、按摩)
- 发送方式: 生成语音文件 →
openclaw message send --account health --media→ Mattermost DM - 脚本:
workspace-health/scripts/remind.sh - 调度: 系统 crontab
实现过程
- 安装 edge-tts 工具
- 脚本生成语音文件(
.mp3) - 通过
openclaw message send --account health --channel mattermost发送语音+文字 - 初始测试时发到了错误的 Bot 账号,加上
--account health后修正
经验教训
- 生成的语音文件不能直接”发送”,需要通过 Mattermost 文件上传 API
- 文件路径需要是 Agent 可访问的工作区内路径
- 先生成文件再发送,而非流式输出