Fish Audio - 使用方法

Fish Audio本地环境配置与安装方法

Fish Audio支持Windows、Linux系统以及Docker容器部署，需先安装Python 3.10环境与CUDA加速工具。推荐使用Anaconda创建独立虚拟环境以避免依赖冲突，具体步骤如下：

通过命令行执行conda create -n fish-speech python=3.10创建环境
激活环境后安装PyTorch 2.4.1与CUDA 12.1适配版本：pip3 install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
安装Triton加速库提升推理速度：pip install https://github.com/AnyaCoder/fish-speech/releases/download/v0.1.0/triton_windows-0.1.0-py3-none-any.whl

模型文件准备与项目启动

需下载官方预训练模型文件（如fish-speech-1.4.pth），建议存放于checkpoints/fish-speech-1.4目录。启动方式根据需求选择：

图形界面用户双击start.bat自动加载WebUI
开发者可通过命令行运行python -m fish_speech.web启动服务
成功启动后通过http://localhost:7860访问管理界面

WebUI界面核心功能操作指南

在推理配置页面勾选「启用TTS服务器」后，可通过以下流程生成语音：

在文本输入框输入目标内容（支持中英日韩等13种语言）
选择预置音色或上传10-30秒的参考音频进行声纹克隆
调整语速（-10至+10）、情感强度（0.5-2.0）等高级参数
点击生成按钮后，实时显示音频波形与预计剩余时间

API接口集成开发说明

通过REST API可快速集成语音服务到第三方应用：

认证方式：在请求头添加X-API-Key: your_api_key
文本转语音接口：POST /v1/tts支持JSON参数包括text、language、speaker等
语音克隆接口：需上传WAV格式样本文件并指定voice_id
响应包含base64编码的音频流及合成元数据

高级参数优化与硬件配置建议

针对专业用户推荐以下调优方案：

启用半精度推理：在启动命令添加--half参数可降低显存占用30%
多GPU并行：设置CUDA_VISIBLE_DEVICES=0,1实现跨卡计算
语音活动检测：通过VAD阈值调节减少合成语句尾音冗余
实时流式处理：采用WebSocket协议实现低至200ms延迟的连续语音生成

音频格式与质量标准规范

上传音频需满足以下技术要求：

采样率：推荐16000Hz或24000Hz线性PCM格式
声道：单声道（Mono）录制避免相位干扰
信噪比：需高于45dB，建议使用NSNet2降噪算法预处理
时长限制：克隆语音样本建议15-60秒，长文本合成单次不超过500字符

故障排查与日志分析技巧

常见问题处理方案：

CUDA内存不足：添加--max-memory=2048限制单次推理显存占用
语音断句异常：调整silence_duration参数控制停顿间隔
跨语言发音错误：启用--use-g2p强制使用音素转换引擎
实时监控：通过nvtop或gpustat工具查看GPU利用率