上交大携手字节跳动推出LSLM:AI语音模型实现"边听边说"突破


近日,上交大LANCE实验室和字节跳动联手推出了一款名为LSLM的新型交互式语音模型。据称,这款模型可以边听边说,效果非常好,接近人类自然的对话方式。

LSLM被称为“小L”,解决了现有语音模型在实时交互、抗噪性和对未知说话者识别上的局限性,使其更接近人类的自然对话方式。它采用端到端设计,包含听觉和发声两个通道,使用解码器-only TTS 进行语音生成,并使用流式自监督学习(SSL)编码器来实时处理音频输入。

“小L”有着独特的特点:全双工建模(FDM),可以同时听和说,实现对话过程中的打断和交替;抗噪性强,在嘈杂的环境中能够保持稳定,适应各种现实场景;对未知说话者的敏感性,可以识别和响应新的声音和指令,适应不同的用户。

项目详细:https://ziyang.tech/LSLM/

论文:https://arxiv.org/abs/2408.02622

备注:资讯来源AIbase基地