语音合成技术

概述

语音合成技术涵盖两个方向：macOS 本地 Qwen3-TTS 模型的安装与使用，以及字节跳动（豆包）语音领域开源项目调研（MegaTTS3/Seed-VC/Seed-ASR）。

Qwen3-TTS 是在 macOS 本地部署的语音合成模型，主要用于生成语音文件并通过 Mattermost API 发送。字节跳动方面有三大项目：MegaTTS 3（语音克隆，⭐6081）、Seed-VC（实时变声）和 Seed-ASR（语音识别，豆包输入法核心引擎）。

关键事件

2026-03-10: 开始研究如何在 macOS 上安装 Qwen3-TTS
2026-03-12: 确认 Qwen3-TTS 已安装在 /Users/leway/Qwen3-TTS
2026-03-15: 生成第一个测试语音，解决文件发送问题
2026-03-20: 通过 Mattermost API 发送语音文件
2026-03-30: 调研字节跳动语音开源项目（MegaTTS3/Seed-VC/Seed-ASR）
2026-03-30: 深入分析 Seed-ASR 架构和火山引擎 API 调用方案
2026-03-30: 评估 volcengine-asr OpenClaw Skill 集成方案

Qwen3-TTS 本地部署

模型: Qwen3-TTS（千问语音合成模型）
安装路径: /Users/leway/Qwen3-TTS
虚拟环境: /Users/leway/qwen3tts-env
文件发送流程: 生成语音 → 复制到工作区 → 通过 Mattermost API 上传为附件
macOS 本地运行需要足够的内存和计算资源

字节跳动语音项目

MegaTTS 3 — 文本转语音（TTS）

GitHub: bytedance/MegaTTS3（⭐6081，0.45B 参数）
几秒参考音频即可克隆声音，支持中英文
需要 GPU（CUDA），有 HuggingFace Demo

Seed-VC — 语音转换（变声）

GitHub: Plachtaa/seed-vc（⭐3663）
零样本语音转换 + 唱歌变声，实时延迟 ~300ms
极低数据微调（最少 1 句话，100 步，2 分钟）

Seed-ASR — 语音识别

豆包输入法核心引擎，完全未开源
基于 LLM 的 ASR，比 Whisper 在专有名词/中英混杂/方言处理更好
可通过火山引擎 API 调用 Seed-ASR 2.0（免费额度约 10 万次）
社区代理: doubao-asr2-openai-proxy，OpenClaw Skill: volcengine-asr

Seed-TTS — 字节王牌 TTS

只开源评测集（⭐1546），模型不开源（AI 安全考虑）

开源替代方案

FunASR (阿里): 中文最好的开源 ASR
Whisper (OpenAI): 多语言通用
SenseVoice (阿里): 轻量快速

edge-tts 在 Healthbot 中的应用

Healthbot（health agent）使用 edge-tts（微软晓晓语音）为术后康复提醒生成语音消息：

引擎: edge-tts（微软 Edge 浏览器 TTS API）
语音: 晓晓（中文女声）
用途: 每日7次定时康复提醒（吃药、换药、散步、按摩）
发送方式: 生成语音文件 → openclaw message send --account health --media → Mattermost DM
脚本: workspace-health/scripts/remind.sh
调度: 系统 crontab

实现过程

安装 edge-tts 工具
脚本生成语音文件（.mp3）
通过 openclaw message send --account health --channel mattermost 发送语音+文字
初始测试时发到了错误的 Bot 账号，加上 --account health 后修正

经验教训

生成的语音文件不能直接”发送”，需要通过 Mattermost 文件上传 API
文件路径需要是 Agent 可访问的工作区内路径
先生成文件再发送，而非流式输出

2026-04-19 fries-mac 本地 HuggingFace TTS 模型清单

清点 ~/.cache/huggingface/ 现存语音模型（≈22 GB，从 04-14 大清理中保留）：

TTS（语音生成）

2Noise/ChatTTS — 对话式 TTS
Qwen/Qwen3-TTS-12Hz-0.6B-Base / 1.7B-Base — 通用底座，支持自定义音色克隆
Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice — 9 个预设音色 + 自然语言风格指令（情绪/语速/语调），不能克隆任意人声
mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16 — Apple Silicon MLX 优化版
openbmb/VoxCPM2

音频编解码：mlx-community/snac_24khz（SNAC 神经音频编解码器）

关键区分：CustomVoice = 选预设 + 风格控制；要 zero-shot 克隆某人声音必须用 Base 模型 + 5-15 秒参考音频。Mac 推理用 device_map="mps"。

为薯条世界汪汪队角色配音的调研（giraffe 同日 ottor 侧）推荐 F5-TTS / GPT-SoVITS（动漫圈主力，中文极优）/ CosyVoice2 三套，本机优先 Qwen3-TTS Base 跑测试。

🔮 Dora's Wiki

探索