热门

kokoro-onnx

1年前发布 15 00

kokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音（TTS）项目。它支持英语，并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能，并提供多种声音选择，包括耳语。模型轻量级，约为300MB（量化后约为80MB）。该项目在GitHub上开源，采用MIT许可证，方便开发者集成和使用。

收录时间：

2025-05-29

打开网站手机查看

语音处理 # ONNX # tts # 开源 # 语音合成 # 轻量级

kokoro-onnx

kokoro-onnx

kokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音（TTS）项目。它支持英语，并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能，并提供多种声音选择，包括耳语。模型轻量级，约为300MB（量化后约为80MB）。该项目在GitHub上开源，采用MIT许可证，方便开发者集成和使用。

数据统计

相关导航

audiblez

Audiblez是一个利用Kokoro高质量语音合成技术，将普通电子书（.epub格式）转换为.m4b格式有声书的工具。它支持多种语言和声音，用户可以通过简单的命令行操作完成转换，极大地丰富了电子书的阅读体验，尤其适合在开车、运动等不方便阅读的场景下使用。该工具由Claudio Santini在2025年开发，遵循MIT许可证免费开源。

OpenVoiceChat

OpenVoiceChat是一个开源项目，旨在提供一个与大型语言模型（LLM）进行自然语音对话的平台。它支持多种语音识别（STT）、文本到语音（TTS）和LLM模型，允许用户通过语音与AI进行交互。项目采用Apache-2.0许可，强调开放性和易用性，目标是成为封闭商业实现的开源替代品。

FireRedASR-AED-L

FireRedASR-AED-L 是一个开源的工业级自动语音识别模型，专为满足高效率和高性能的语音识别需求而设计。该模型采用基于注意力的编码器-解码器架构，支持普通话、中文方言和英语等多种语言。它在公共普通话语音识别基准测试中达到了新的最高水平，并且在歌唱歌词识别方面表现出色。该模型的主要优点包括高性能、低延迟和广泛的适用性，适用于各种语音交互场景。其开源特性使得开发者可以自由地使用和修改代码，进一步推动语音识别技术的发展。

OpenWispr

OpenWispr是一款由AI技术驱动的语音转文本工具，注重隐私保护，完全开源。其主要优点在于处理速度快、隐私保护严格，适用于写作、编程等领域。

EaseVoice Trainer

EaseVoice Trainer 是一个后端项目，旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进，注重用户体验和系统的可维护性。其设计理念不同于原始项目，旨在提供更模块化和定制化的解决方案，适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。

Azure 认知服务语音

Azure 认知服务语音是微软推出的一款语音识别与合成服务，支持超过100种语言和方言的语音转文本和文本转语音功能。它通过创建可处理特定术语、背景噪音和重音的自定义语音模型，提高听录的准确度。此外，该服务还支持实时语音转文本、语音翻译、文本转语音等功能，适用于多种商业场景，如字幕生成、通话后听录分析、视频翻译等。

Fish Audio文本转语音

文本转语音技术是一种将文本信息转换为语音的技术，广泛应用于辅助阅读、语音助手、有声读物制作等领域。它通过模拟人类语音，提高了信息获取的便捷性，尤其对视力障碍者或在无法使用眼睛阅读的情况下非常有帮助。

Moonshine Web

Moonshine Web是一个基于React和Vite构建的简单应用，它运行了Moonshine Base，这是一个针对快速准确自动语音识别（ASR）优化的强大语音识别模型，适用于资源受限的设备。该应用在浏览器端本地运行，使用Transformers.js和WebGPU加速（或WASM作为备选）。它的重要性在于能够为用户提供一个无需服务器即可在本地进行语音识别的解决方案，这对于需要快速处理语音数据的应用场景尤为重要。

暂无评论

您必须登录才能参与评论！

none

暂无评论...