热门

WhisperNER

1年前发布 14 00

WhisperNER是一个结合了自动语音识别（ASR）和命名实体识别（NER）的统一模型，具备零样本能力。该模型旨在作为ASR带NER的下游任务的强大基础模型，并可以在特定数据集上进行微调以提高性能。WhisperNER的重要性在于其能够同时处理语音识别和实体识别任务，提高了处理效率和准确性，尤其在多语言和跨领域的场景中具有显著优势。

收录时间：

2025-05-30

打开网站手机查看

语音处理 # 命名实体识别 # 多语言支持 # 开源 # 深度学习 # 自动语音识别

WhisperNER

WhisperNER

WhisperNER是一个结合了自动语音识别（ASR）和命名实体识别（NER）的统一模型，具备零样本能力。该模型旨在作为ASR带NER的下游任务的强大基础模型，并可以在特定数据集上进行微调以提高性能。WhisperNER的重要性在于其能够同时处理语音识别和实体识别任务，提高了处理效率和准确性，尤其在多语言和跨领域的场景中具有显著优势。

数据统计

相关导航

SpeechGPT 2.0-preview

SpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练，实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达，同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互，未来计划扩展到更多语言。

Omi AI

OMI APP是一个任务驱动的个性化AI助手，旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本，提供提醒、建议等功能，同时注重用户隐私。

PERSO.ai

PERSO.ai是一体化AI视频平台，集成了AI配音、AI工作室和AI实时聊天功能，帮助创作者、营销人员、教育者和企业快速、实惠地高质量跨语言和多格式扩展视频内容。

NexaVoxa

NexaVoxa是一款智能AI语音代理产品，旨在优化销售流程、自动化排程和提升客户支持体验。其主要优点包括自然对话、多语言支持以及企业级可扩展性。

audiblez

Audiblez是一个利用Kokoro高质量语音合成技术，将普通电子书（.epub格式）转换为.m4b格式有声书的工具。它支持多种语言和声音，用户可以通过简单的命令行操作完成转换，极大地丰富了电子书的阅读体验，尤其适合在开车、运动等不方便阅读的场景下使用。该工具由Claudio Santini在2025年开发，遵循MIT许可证免费开源。

CrisperWhisper

CrisperWhisper是基于OpenAI的Whisper模型的高级变体，专为快速、准确、逐字的语音识别设计，提供准确的词级时间戳。与原始Whisper模型相比，CrisperWhisper旨在逐字转录每一个说出的单词，包括填充词、停顿、口吃和错误的开始。该模型在逐字数据集（如TED、AMI）中排名第一，并在INTERSPEECH 2024上被接受。

Emilia

Emilia是一个开源的多语种野外语音数据集，专为大规模语音生成研究设计。它包含超过101,000小时的六种语言高质量语音数据和相应的文本转录，覆盖了各种说话风格和内容类型，如脱口秀、访谈、辩论、体育评论和有声书。

WeST

WeST是一个开源的语音识别转录模型，以300行代码的简洁形式，基于大型语言模型（LLM）实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成，其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1，旨在通过简化的代码实现高效的语音识别功能。

暂无评论

您必须登录才能参与评论！

none

暂无评论...