Fish Audio

Fish Audio融合深度学习与音频信号处理技术,为用户提供专业的声学场景识别、降噪与智能混音服务,广泛应用于音乐制作与音频通讯。

获奖经历

  • 全球开发者社区70,000星标认证——GitHub开源项目最高人气奖
  • TTS-Arena国际语音合成挑战赛亚军——自然语音生成质量标杆
  • 亚洲创新科技峰会年度突破奖——端到端语音克隆技术先驱
  • AI语音处理领域金铃奖——200ms超低延迟实时对话系统
  • 多语言技术创新白金奖——13国语言无缝切换支持

发展历史

2023年

Fish Audio由Lengyue及其技术团队正式创立,核心团队由开源SVC/TTS领域先驱组成。凭借So-VITS-SVC、GPT-SoVITS等创新技术,团队在GitHub上获得超过7万星标认可,奠定了语音合成领域的技术基础。同年,Fish Speech作为首个开源文本转语音模型发布,支持中英日三语,以自然流畅的语音生成能力迅速吸引开发者与创作者关注。

2024年

Fish Audio迎来技术爆发期:4月推出Fish Speech 1.0版本,整合VQ-GAN与Llama技术;7月发布1.2版本,通过无音素模式革新跨语言合成流程;11月推出Fish Agent V0.13B模型,实现200毫秒级实时语音克隆,覆盖8种语言;12月发布Fish Speech 1.5,新增德语、法语等5种语言支持,并首创多语言实时对话功能。同年官网正式上线,推出免费音色库与语音定制服务,用户量突破14.8万。

2025年

Fish Audio生态持续扩展:2月推出音色商店,集成名人声线与网红音色模板;Fish Speech 1.5版本迭代支持13种语言,训练数据突破100万小时,错误率降至2%。平台新增AI音效生成与语音转文本功能,通过PyQt6图形界面与云服务双轨部署方案,为音乐人、教育机构及企业客户提供全场景语音解决方案,日均处理请求量超百万次。