Fish Audio官网

Fish Audio

Fish Audio融合深度学习与音频信号处理技术，为用户提供专业的声学场景识别、降噪与智能混音服务，广泛应用于音乐制作与音频通讯。

访问

优势

多语言合成

支持13种主流语言的高精度语音生成，覆盖中英日韩等全球用户需求。

声音克隆

30秒样本即可克隆真人声线，支持二次元角色与名人音色复刻。

音色定制

开放个性化参数调节，自由调整语速、情感与语调风格。

实时语音生成

毫秒级响应速度，完美适配直播互动与在线会议场景。

无障碍服务

为视障群体打造智能听书方案，将文字转化为温暖声波。

开源生态

全栈技术代码开放，开发者可自由部署私有化语音工厂。

获奖经历

全球开发者社区70,000星标认证——GitHub开源项目最高人气奖
TTS-Arena国际语音合成挑战赛亚军——自然语音生成质量标杆
亚洲创新科技峰会年度突破奖——端到端语音克隆技术先驱
AI语音处理领域金铃奖——200ms超低延迟实时对话系统
多语言技术创新白金奖——13国语言无缝切换支持

发展历史

2023年

Fish Audio由Lengyue及其技术团队正式创立，核心团队由开源SVC/TTS领域先驱组成。凭借So-VITS-SVC、GPT-SoVITS等创新技术，团队在GitHub上获得超过7万星标认可，奠定了语音合成领域的技术基础。同年，Fish Speech作为首个开源文本转语音模型发布，支持中英日三语，以自然流畅的语音生成能力迅速吸引开发者与创作者关注。

2024年

Fish Audio迎来技术爆发期：4月推出Fish Speech 1.0版本，整合VQ-GAN与Llama技术；7月发布1.2版本，通过无音素模式革新跨语言合成流程；11月推出Fish Agent V0.13B模型，实现200毫秒级实时语音克隆，覆盖8种语言；12月发布Fish Speech 1.5，新增德语、法语等5种语言支持，并首创多语言实时对话功能。同年官网正式上线，推出免费音色库与语音定制服务，用户量突破14.8万。

2025年

Fish Audio生态持续扩展：2月推出音色商店，集成名人声线与网红音色模板；Fish Speech 1.5版本迭代支持13种语言，训练数据突破100万小时，错误率降至2%。平台新增AI音效生成与语音转文本功能，通过PyQt6图形界面与云服务双轨部署方案，为音乐人、教育机构及企业客户提供全场景语音解决方案，日均处理请求量超百万次。