上交大携手字节跳动推出LSLM：AI语音模型实现"边听边说"突破

近日，上交大LANCE实验室和字节跳动联手推出了一款名为LSLM的新型交互式语音模型。据称，这款模型可以边听边说，效果非常好，接近人类自然的对话方式。

LSLM被称为“小L”，解决了现有语音模型在实时交互、抗噪性和对未知说话者识别上的局限性，使其更接近人类的自然对话方式。它采用端到端设计，包含听觉和发声两个通道，使用解码器-only TTS 进行语音生成，并使用流式自监督学习（SSL）编码器来实时处理音频输入。

“小L”有着独特的特点:全双工建模（FDM），可以同时听和说，实现对话过程中的打断和交替;抗噪性强，在嘈杂的环境中能够保持稳定，适应各种现实场景;对未知说话者的敏感性，可以识别和响应新的声音和指令，适应不同的用户。

项目详细:https://ziyang.tech/LSLM/

论文:https://arxiv.org/abs/2408.02622