Fish Audio发布Fish Agent V0.1 3B 实时语音克隆

近日，Fish Audio公司发布了全新的语音处理模型Fish Agent V0.13B，这款语音到语音模型能够高效、精确地生成和处理语音，尤其擅长模拟或克隆不同的声音。这意味着，我们距离拥有一个声音自然、反应迅速的AI语音助手又近了一步。

Fish Agent V0.13B模型基于Qwen-2.5-3B-Instruct进行预训练，并使用了包含2000亿语音和文本令牌的海量数据集。与传统模型需要先将语音转换成复杂语义编码不同，Fish Agent V0.13B采用了一种名为“无语义令牌”的架构，直接在声音层面上处理和生成语音。这种直接处理方式不仅简化了模型结构，还提升了模型的反应速度和效率。

得益于这种创新架构，Fish Agent V0.13B能够快速、自然地生成高质量语音，实现“即时”语音克隆和文本到语音转换，文本到音频转换时间（TTFA）仅需200毫秒。这一特性使其非常适合需要实时语音生成的应用场景，例如语音助手、自动客服以及其他需要快速语音反馈的场景。

Fish Agent V0.13B模型支持多种语言，包括英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语，并使用了约70万小时的多语言音频数据进行训练。这意味着它能够处理多种语言和语境，并生成更自然、更贴近真人发音的语音。

除了语音到语音生成和文本到语音转换功能外，Fish Agent V0.13B还具备以下关键特性:

零样本语音克隆:无需训练即可实现语音克隆。

精简的3B参数:使用30亿参数，便于开发。

支持文本和音频输入:灵活的多输入方式。

目前，Fish Audio已将Fish Agent V0.13B模型开源，并提供了初步演示版本供用户体验。该模型的发布将进一步推动AI语音技术的发展，为语音助手、虚拟人等应用带来更多可能性。

GitHub: https://github.com/fishaudio/fish-speech

Fish Agent Demo: https://huggingface.co/spaces/fishaudio/fish-agent

模型下载: https://huggingface.co/fishaudio/fish-agent-v0.1-3b

技术报告: https://arxiv.org/abs/2411.01156