Fish Audio本地环境配置与安装方法
Fish Audio支持Windows、Linux系统以及Docker容器部署,需先安装Python 3.10环境与CUDA加速工具。推荐使用Anaconda创建独立虚拟环境以避免依赖冲突,具体步骤如下:
- 通过命令行执行
conda create -n fish-speech python=3.10
创建环境 - 激活环境后安装PyTorch 2.4.1与CUDA 12.1适配版本:
pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
- 安装Triton加速库提升推理速度:
pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl
模型文件准备与项目启动
需下载官方预训练模型文件(如fish-speech-1.4.pth),建议存放于checkpoints/fish-speech-1.4
目录。启动方式根据需求选择:
- 图形界面用户双击
start.bat
自动加载WebUI - 开发者可通过命令行运行
python -m fish_speech.web
启动服务 - 成功启动后通过
http://localhost:7860
访问管理界面
WebUI界面核心功能操作指南
在推理配置页面勾选「启用TTS服务器」后,可通过以下流程生成语音:
- 在文本输入框输入目标内容(支持中英日韩等13种语言)
- 选择预置音色或上传10-30秒的参考音频进行声纹克隆
- 调整语速(-10至+10)、情感强度(0.5-2.0)等高级参数
- 点击生成按钮后,实时显示音频波形与预计剩余时间
API接口集成开发说明
通过REST API可快速集成语音服务到第三方应用:
- 认证方式:在请求头添加
X-API-Key: your_api_key
- 文本转语音接口:
POST /v1/tts
支持JSON参数包括text、language、speaker等 - 语音克隆接口:需上传WAV格式样本文件并指定
voice_id
- 响应包含base64编码的音频流及合成元数据
高级参数优化与硬件配置建议
针对专业用户推荐以下调优方案:
- 启用半精度推理:在启动命令添加
--half
参数可降低显存占用30% - 多GPU并行:设置
CUDA_VISIBLE_DEVICES=0,1
实现跨卡计算 - 语音活动检测:通过VAD阈值调节减少合成语句尾音冗余
- 实时流式处理:采用WebSocket协议实现低至200ms延迟的连续语音生成
音频格式与质量标准规范
上传音频需满足以下技术要求:
- 采样率:推荐16000Hz或24000Hz线性PCM格式
- 声道:单声道(Mono)录制避免相位干扰
- 信噪比:需高于45dB,建议使用NSNet2降噪算法预处理
- 时长限制:克隆语音样本建议15-60秒,长文本合成单次不超过500字符
故障排查与日志分析技巧
常见问题处理方案:
- CUDA内存不足:添加
--max-memory=2048
限制单次推理显存占用 - 语音断句异常:调整
silence_duration
参数控制停顿间隔 - 跨语言发音错误:启用
--use-g2p
强制使用音素转换引擎 - 实时监控:通过
nvtop
或gpustat
工具查看GPU利用率