LSLMListening-while-Speaking Language Model (LSLM)是一款旨在提升人机交互自然度的人工智能对话模型。它通过全双工建模(FDM)技术,实现了在说话时同时监听的能力,增强了实时交互性,尤其是在生成内容不满意时能够被打断和实时响应。LSLM采用了基于token的解码器仅TTS进行语音生成,以及流式自监督学习(SSL)编码器进行实时音频输入,通过三种融合策略(早期融合、中期融合和晚期融合)探索最佳交互平衡。
Home Assistant VoiceHome Assistant Voice Preview Edition是一款开源、注重隐私的语音助手硬件产品,旨在提供一种开放、本地化、私人化的语音控制解决方案。它允许用户通过语音控制家中的智能设备,同时确保用户的语音数据不会离开本地网络,保护用户隐私。该产品背景是响应对隐私保护日益增长的需求,特别是在智能家居领域。价格方面,产品定价为59美元,推荐零售价,具体价格可能会因零售商而异。
SpeechGPT 2.0-previewSpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练,实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达,同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互,未来计划扩展到更多语言。
Open-LLM-VTuberOpen-LLM-VTuber 是一个开源项目,旨在通过语音与大型语言模型(LLM)进行交互,具有实时的Live2D面部捕捉和跨平台的长期记忆功能。该项目支持macOS、Windows和Linux平台,允许用户选择不同的语音识别和语音合成后端,以及自定义的长期记忆解决方案。它特别适合希望在不同平台上实现与AI进行自然语言对话的开发者和爱好者。
kokoro-onnxkokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音(TTS)项目。它支持英语,并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能,并提供多种声音选择,包括耳语。模型轻量级,约为300MB(量化后约为80MB)。该项目在GitHub上开源,采用MIT许可证,方便开发者集成和使用。
Moonshine WebMoonshine Web是一个基于React和Vite构建的简单应用,它运行了Moonshine Base,这是一个针对快速准确自动语音识别(ASR)优化的强大语音识别模型,适用于资源受限的设备。该应用在浏览器端本地运行,使用Transformers.js和WebGPU加速(或WASM作为备选)。它的重要性在于能够为用户提供一个无需服务器即可在本地进行语音识别的解决方案,这对于需要快速处理语音数据的应用场景尤为重要。
Sesame CSMCSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。