支持13种主流语言的高精度语音生成,覆盖中英日韩等全球用户需求。
30秒样本即可克隆真人声线,支持二次元角色与名人音色复刻。
开放个性化参数调节,自由调整语速、情感与语调风格。
毫秒级响应速度,完美适配直播互动与在线会议场景。
为视障群体打造智能听书方案,将文字转化为温暖声波。
全栈技术代码开放,开发者可自由部署私有化语音工厂。
2023年
Fish Audio由Lengyue及其技术团队正式创立,核心团队由开源SVC/TTS领域先驱组成。凭借So-VITS-SVC、GPT-SoVITS等创新技术,团队在GitHub上获得超过7万星标认可,奠定了语音合成领域的技术基础。同年,Fish Speech作为首个开源文本转语音模型发布,支持中英日三语,以自然流畅的语音生成能力迅速吸引开发者与创作者关注。
2024年
Fish Audio迎来技术爆发期:4月推出Fish Speech 1.0版本,整合VQ-GAN与Llama技术;7月发布1.2版本,通过无音素模式革新跨语言合成流程;11月推出Fish Agent V0.13B模型,实现200毫秒级实时语音克隆,覆盖8种语言;12月发布Fish Speech 1.5,新增德语、法语等5种语言支持,并首创多语言实时对话功能。同年官网正式上线,推出免费音色库与语音定制服务,用户量突破14.8万。
2025年
Fish Audio生态持续扩展:2月推出音色商店,集成名人声线与网红音色模板;Fish Speech 1.5版本迭代支持13种语言,训练数据突破100万小时,错误率降至2%。平台新增AI音效生成与语音转文本功能,通过PyQt6图形界面与云服务双轨部署方案,为音乐人、教育机构及企业客户提供全场景语音解决方案,日均处理请求量超百万次。