Fish Audio本地环境配置与安装方法

Fish Audio支持Windows、Linux系统以及Docker容器部署,需先安装Python 3.10环境与CUDA加速工具。推荐使用Anaconda创建独立虚拟环境以避免依赖冲突,具体步骤如下:

  • 通过命令行执行conda create -n fish-speech python=3.10创建环境
  • 激活环境后安装PyTorch 2.4.1与CUDA 12.1适配版本:pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
  • 安装Triton加速库提升推理速度:pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

模型文件准备与项目启动

需下载官方预训练模型文件(如fish-speech-1.4.pth),建议存放于checkpoints/fish-speech-1.4目录。启动方式根据需求选择:

  • 图形界面用户双击start.bat自动加载WebUI
  • 开发者可通过命令行运行python -m fish_speech.web启动服务
  • 成功启动后通过http://localhost:7860访问管理界面

WebUI界面核心功能操作指南

在推理配置页面勾选「启用TTS服务器」后,可通过以下流程生成语音:

  • 在文本输入框输入目标内容(支持中英日韩等13种语言)
  • 选择预置音色或上传10-30秒的参考音频进行声纹克隆
  • 调整语速(-10至+10)、情感强度(0.5-2.0)等高级参数
  • 点击生成按钮后,实时显示音频波形与预计剩余时间

API接口集成开发说明

通过REST API可快速集成语音服务到第三方应用:

  • 认证方式:在请求头添加X-API-Key: your_api_key
  • 文本转语音接口:POST /v1/tts支持JSON参数包括text、language、speaker等
  • 语音克隆接口:需上传WAV格式样本文件并指定voice_id
  • 响应包含base64编码的音频流及合成元数据

高级参数优化与硬件配置建议

针对专业用户推荐以下调优方案:

  • 启用半精度推理:在启动命令添加--half参数可降低显存占用30%
  • 多GPU并行:设置CUDA_VISIBLE_DEVICES=0,1实现跨卡计算
  • 语音活动检测:通过VAD阈值调节减少合成语句尾音冗余
  • 实时流式处理:采用WebSocket协议实现低至200ms延迟的连续语音生成

音频格式与质量标准规范

上传音频需满足以下技术要求:

  • 采样率:推荐16000Hz或24000Hz线性PCM格式
  • 声道:单声道(Mono)录制避免相位干扰
  • 信噪比:需高于45dB,建议使用NSNet2降噪算法预处理
  • 时长限制:克隆语音样本建议15-60秒,长文本合成单次不超过500字符

故障排查与日志分析技巧

常见问题处理方案:

  • CUDA内存不足:添加--max-memory=2048限制单次推理显存占用
  • 语音断句异常:调整silence_duration参数控制停顿间隔
  • 跨语言发音错误:启用--use-g2p强制使用音素转换引擎
  • 实时监控:通过nvtopgpustat工具查看GPU利用率