Sesame CSMCSM 是一个由 Sesame 开发的对话式语音生成模型,它能够根据文本和音频输入生成高质量的语音。该模型基于 Llama 架构,并使用 Mimi 音频编码器。它主要用于语音合成和交互式语音应用,例如语音助手和教育工具。CSM 的主要优点是能够生成自然流畅的语音,并且可以通过上下文信息优化语音输出。该模型目前是开源的,适用于研究和教育目的。
EMOVAEMOVA(EMotionally Omni-present Voice Assistant)是一个多模态语言模型,它能够进行端到端的语音处理,同时保持领先的视觉-语言性能。该模型通过语义-声学解耦的语音分词器,实现了情感丰富的多模态对话,并在视觉-语言和语音基准测试中达到了最先进的性能。
EaseVoice TrainerEaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进,注重用户体验和系统的可维护性。其设计理念不同于原始项目,旨在提供更模块化和定制化的解决方案,适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。
FlowSpeechFlowSpeech是一个免费的 AI 播客生成器,利用最新的语音合成技术将文本转换为自然人声,适合各种用户需求。它支持多种格式的输入,包括 PDF、TXT 等,方便用户快速获取信息。提供多种订阅选项,帮助创作者更高效地制作播客。
OpenVoiceChatOpenVoiceChat是一个开源项目,旨在提供一个与大型语言模型(LLM)进行自然语音对话的平台。它支持多种语音识别(STT)、文本到语音(TTS)和LLM模型,允许用户通过语音与AI进行交互。项目采用Apache-2.0许可,强调开放性和易用性,目标是成为封闭商业实现的开源替代品。
Qwen2 Audio Instruct DemoQwen2 Audio Instruct Demo 是一个基于音频指令的交互式演示网站,它利用最新的人工智能技术,让用户通过语音指令与网页进行互动。这种技术不仅增强了用户体验,还为残障人士提供了更便捷的访问方式。产品背景信息包括其开发团队和技术支持,价格定位为免费试用,主要面向对人工智能交互感兴趣的用户群体。
WeSTWeST是一个开源的语音识别转录模型,以300行代码的简洁形式,基于大型语言模型(LLM)实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成,其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1,旨在通过简化的代码实现高效的语音识别功能。
pdf-to-podcastpdf-to-podcast是一个基于人工智能技术的生产力工具,能够将PDF文档转换成播客节目。它使用OpenAI的文本到语音模型和Google Gemini技术,将PDF内容处理成适合音频播客的自然对话,并输出为MP3文件。该工具的主要优点是能够将静态的文档内容转化为动态的音频内容,方便用户在移动设备上收听,同时也可以作为播客节目的内容来源。