概述

语音合成技术涵盖两个方向:macOS 本地 Qwen3-TTS 模型的安装与使用,以及字节跳动(豆包)语音领域开源项目调研(MegaTTS3/Seed-VC/Seed-ASR)。

Qwen3-TTS 是在 macOS 本地部署的语音合成模型,主要用于生成语音文件并通过 Mattermost API 发送。字节跳动方面有三大项目:MegaTTS 3(语音克隆,⭐6081)、Seed-VC(实时变声)和 Seed-ASR(语音识别,豆包输入法核心引擎)。

关键事件

  • 2026-03-10: 开始研究如何在 macOS 上安装 Qwen3-TTS
  • 2026-03-12: 确认 Qwen3-TTS 已安装在 /Users/leway/Qwen3-TTS
  • 2026-03-15: 生成第一个测试语音,解决文件发送问题
  • 2026-03-20: 通过 Mattermost API 发送语音文件
  • 2026-03-30: 调研字节跳动语音开源项目(MegaTTS3/Seed-VC/Seed-ASR)
  • 2026-03-30: 深入分析 Seed-ASR 架构和火山引擎 API 调用方案
  • 2026-03-30: 评估 volcengine-asr OpenClaw Skill 集成方案

Qwen3-TTS 本地部署

  • 模型: Qwen3-TTS(千问语音合成模型)
  • 安装路径: /Users/leway/Qwen3-TTS
  • 虚拟环境: /Users/leway/qwen3tts-env
  • 文件发送流程: 生成语音 → 复制到工作区 → 通过 Mattermost API 上传为附件
  • macOS 本地运行需要足够的内存和计算资源

字节跳动语音项目

MegaTTS 3 — 文本转语音(TTS)

  • GitHub: bytedance/MegaTTS3(⭐6081,0.45B 参数)
  • 几秒参考音频即可克隆声音,支持中英文
  • 需要 GPU(CUDA),有 HuggingFace Demo

Seed-VC — 语音转换(变声)

  • GitHub: Plachtaa/seed-vc(⭐3663)
  • 零样本语音转换 + 唱歌变声,实时延迟 ~300ms
  • 极低数据微调(最少 1 句话,100 步,2 分钟)

Seed-ASR — 语音识别

  • 豆包输入法核心引擎,完全未开源
  • 基于 LLM 的 ASR,比 Whisper 在专有名词/中英混杂/方言处理更好
  • 可通过火山引擎 API 调用 Seed-ASR 2.0(免费额度约 10 万次)
  • 社区代理: doubao-asr2-openai-proxy,OpenClaw Skill: volcengine-asr

Seed-TTS — 字节王牌 TTS

  • 只开源评测集(⭐1546),模型不开源(AI 安全考虑)

开源替代方案

  • FunASR (阿里): 中文最好的开源 ASR
  • Whisper (OpenAI): 多语言通用
  • SenseVoice (阿里): 轻量快速

edge-tts 在 Healthbot 中的应用

Healthbot(health agent)使用 edge-tts(微软晓晓语音)为术后康复提醒生成语音消息:

  • 引擎: edge-tts(微软 Edge 浏览器 TTS API)
  • 语音: 晓晓(中文女声)
  • 用途: 每日7次定时康复提醒(吃药、换药、散步、按摩)
  • 发送方式: 生成语音文件 → openclaw message send --account health --media → Mattermost DM
  • 脚本: workspace-health/scripts/remind.sh
  • 调度: 系统 crontab

实现过程

  1. 安装 edge-tts 工具
  2. 脚本生成语音文件(.mp3
  3. 通过 openclaw message send --account health --channel mattermost 发送语音+文字
  4. 初始测试时发到了错误的 Bot 账号,加上 --account health 后修正

经验教训

  • 生成的语音文件不能直接”发送”,需要通过 Mattermost 文件上传 API
  • 文件路径需要是 Agent 可访问的工作区内路径
  • 先生成文件再发送,而非流式输出

相关主题