Local-first voice workstation

TTSbox

本地优先的语音克隆与生成软件。

Mac

暂未上线

Windows

CUDA 优先

Feature blocks

从音色采集到成品输出

TTSbox 把关键环节都放在一个界面里

样本、模型和生成结果都留在你的机器里，不把声音资产交给第三方 SaaS。

多轨时间线、片段裁切、角色混音，适合播客、剧情短片和对话型内容。

一个音色可叠加多个样本，稳定性和自然度更高，适合长期复用。

桌面端可直接运行，也可以连到你自己的 GPU 机器，工作流保持一致。

内置录音和转写能力，快速把参考音频整理成可用的语音资产。

当前版本以 Windows 为主，推荐搭配 NVIDIA GPU，Mac 版本后续上线。

Workspace

Main interface preview

System requirements

推荐配置更适合把 TTSbox 当作日常生产工具来用。如果你的目标是更长文本、更高质量或多角色连续生成，推荐直接按右侧标准准备机器。

适合体验、短文本生成与轻量项目

Qwen TTS 0.6B 约需 2GB VRAM / RAM，更省内存。

Qwen TTS 1.7B 约需 6GB VRAM / RAM，质量更高，建议 GPU。

CPU 也可运行，但实时工作流会明显慢于 GPU。

当前版本优先面向 Windows 用户。如果要跑 1.7B，更适合配独立 NVIDIA GPU。只有 CPU 也能用，但更适合作为入门或备用方案。Mac 版本会在后续上线。