热门

EMOVA

1年前发布 11 00

EMOVA（EMotionally Omni-present Voice Assistant）是一个多模态语言模型，它能够进行端到端的语音处理，同时保持领先的视觉-语言性能。该模型通过语义-声学解耦的语音分词器，实现了情感丰富的多模态对话，并在视觉-语言和语音基准测试中达到了最先进的性能。

收录时间：

2025-06-01

打开网站手机查看

语音处理 # 多模态 # 情感分析 # 自然语言处理 # 语音识别

EMOVA

EMOVA

EMOVA（EMotionally Omni-present Voice Assistant）是一个多模态语言模型，它能够进行端到端的语音处理，同时保持领先的视觉-语言性能。该模型通过语义-声学解耦的语音分词器，实现了情感丰富的多模态对话，并在视觉-语言和语音基准测试中达到了最先进的性能。

数据统计

相关导航

OmniSenseVoice

OmniSenseVoice是基于SenseVoice优化的语音识别模型，专为快速推理和精确时间戳设计，提供更智能、更快速的音频转录方式。

CosyVoice语音生成大模型2.0-0.5B

CosyVoice语音生成大模型2.0-0.5B是一个高性能的语音合成模型，支持零样本、跨语言的语音合成，能够根据文本内容直接生成相应的语音输出。该模型由通义实验室提供，具有强大的语音合成能力和广泛的应用场景，包括但不限于智能助手、有声读物、虚拟主播等。模型的重要性在于其能够提供自然、流畅的语音输出，极大地丰富了人机交互的体验。

Llama3-s v0.2

Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点，专注于提升语音理解能力。该模型通过早期融合语义标记的方式，利用社区反馈进行改进，以简化模型结构，提高压缩效率，并实现一致的语音特征提取。Llama3-s v0.2 在多个语音理解基准测试中表现稳定，并提供了实时演示，允许用户亲自体验其功能。尽管模型仍在早期开发阶段，存在一些限制，如对音频压缩敏感、无法处理超过10秒的音频等，但团队计划在未来更新中解决这些问题。

SpeechGPT 2.0-preview

SpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练，实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达，同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互，未来计划扩展到更多语言。

LSLM

Listening-while-Speaking Language Model (LSLM)是一款旨在提升人机交互自然度的人工智能对话模型。它通过全双工建模(FDM)技术，实现了在说话时同时监听的能力，增强了实时交互性，尤其是在生成内容不满意时能够被打断和实时响应。LSLM采用了基于token的解码器仅TTS进行语音生成，以及流式自监督学习(SSL)编码器进行实时音频输入，通过三种融合策略（早期融合、中期融合和晚期融合）探索最佳交互平衡。

Moonshine Web

Moonshine Web是一个基于React和Vite构建的简单应用，它运行了Moonshine Base，这是一个针对快速准确自动语音识别（ASR）优化的强大语音识别模型，适用于资源受限的设备。该应用在浏览器端本地运行，使用Transformers.js和WebGPU加速（或WASM作为备选）。它的重要性在于能够为用户提供一个无需服务器即可在本地进行语音识别的解决方案，这对于需要快速处理语音数据的应用场景尤为重要。

whisper-diarization

whisper-diarization是一个结合了Whisper自动语音识别(ASR)能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。它通过提取音频中的声音部分来提高说话人嵌入的准确性，然后使用Whisper生成转录文本，并通过WhisperX校正时间戳和对齐，以减少由于时间偏移导致的分割错误。接着，使用MarbleNet进行VAD和分割以排除静音，TitaNet用于提取说话人嵌入以识别每个段落的说话人，最后将结果与WhisperX生成的时间戳关联，基于时间戳检测每个单词的说话人，并使用标点模型重新对齐以补偿小的时间偏移。

Azure 认知服务语音

Azure 认知服务语音是微软推出的一款语音识别与合成服务，支持超过100种语言和方言的语音转文本和文本转语音功能。它通过创建可处理特定术语、背景噪音和重音的自定义语音模型，提高听录的准确度。此外，该服务还支持实时语音转文本、语音翻译、文本转语音等功能，适用于多种商业场景，如字幕生成、通话后听录分析、视频翻译等。

暂无评论

您必须登录才能参与评论！

none

暂无评论...