热门

Kokoro-82M

1年前发布 14 00

Kokoro-82M是一个由hexgrad创建并托管在Hugging Face上的文本到语音（TTS）模型。它具有8200万参数，使用Apache 2.0许可证开源。该模型在2024年12月25日发布了v0.19版本，并提供了10种独特的语音包。Kokoro-82M在TTS Spaces Arena中排名第一，显示出其在参数规模和数据使用...

收录时间：

2025-05-30

打开网站手机查看

文案写作 # 开源模型 # 文本到语音 # 语音合成 # 高效计算

Kokoro-82M

Kokoro-82M

Kokoro-82M是一个由hexgrad创建并托管在Hugging Face上的文本到语音（TTS）模型。它具有8200万参数，使用Apache 2.0许可证开源。该模型在2024年12月25日发布了v0.19版本，并提供了10种独特的语音包。Kokoro-82M在TTS Spaces Arena中排名第一，显示出其在参数规模和数据使用上的高效性。它支持美国英语和英国英语，可用于生成高质量的语音输出。

数据统计

相关导航

OuteTTS-0.2-500M

OuteTTS-0.2-500M是基于Qwen-2.5-0.5B构建的文本到语音合成模型，它在更大的数据集上进行了训练，实现了在准确性、自然度、词汇量、声音克隆能力以及多语言支持方面的显著提升。该模型特别感谢Hugging Face提供的GPU资助，支持了模型的训练。

Paper-to-Podcast

Paper-to-Podcast是一个将学术论文转换成播客形式的工具，通过模拟三个人的讨论来让听众以更自然和人性化的方式理解论文内容。它不仅使复杂的信息更易于吸收，还提供了宝贵的洞见和批判性思考。该工具使用了OpenAI API进行文本到语音的转换，生成具有不同角色特点的逼真声音，使得听众可以在通勤或旅行时通过听而不是读来吸收研究论文的内容。

Llasa-1B

Llasa-1B 是一个由香港科技大学音频实验室开发的文本转语音模型。它基于 LLaMA 架构，通过结合 XCodec2 代码本中的语音标记，能够将文本转换为自然流畅的语音。该模型在 25 万小时的中英文语音数据上进行了训练，支持从纯文本生成语音，也可以利用给定的语音提示进行合成。其主要优点是能够生成高质量的多语言语音，适用于多种语音合成场景，如有声读物、语音助手等。该模型采用 CC BY-NC-ND 4.0 许可证，禁止商业用途。

Qwen2.5-Coder-32B-Instruct-GPTQ-Int8

Qwen2.5-Coder-32B-Instruct-GPTQ-Int8是Qwen系列中针对代码生成优化的大型语言模型，拥有32亿参数，支持长文本处理，是当前开源代码生成领域最先进的模型之一。该模型基于Qwen2.5进行了进一步的训练和优化，不仅在代码生成、推理和修复方面有显著提升，而且在数学和通用能力上也保持了优势。模型采用GPTQ 8-bit量化技术，以减少模型大小并提高运行效率。

Allegro-TI2V

Allegro-TI2V是一个文本图像到视频生成模型，它能够根据用户提供的提示和图像生成视频内容。该模型以其开源性、多样化的内容创作能力、高质量的输出、小巧高效的模型参数以及支持多种精度和GPU内存优化而受到关注。它代表了当前人工智能技术在视频生成领域的前沿进展，具有重要的技术价值和商业应用潜力。Allegro-TI2V模型在Hugging Face平台上提供，遵循Apache 2.0开源协议，用户可以免费下载和使用。

OLMo-2-1124-13B-Instruct

OLMo-2-1124-13B-Instruct是由Allen AI研究所开发的一款大型语言模型，专注于文本生成和对话任务。该模型在多个任务上表现出色，包括数学问题解答、科学问题解答等。它是基于13B参数的版本，经过在特定数据集上的监督微调和强化学习训练，以提高其性能和安全性。作为一个开源模型，它允许研究人员和开发者探索和改进语言模型的科学。

Llama-3.1-Tulu-3-70B

Llama-3.1-Tulu-3-70B是Tülu3模型家族中的一员，专为现代后训练技术提供全面的指南。该模型不仅在聊天任务上表现出色，还在MATH、GSM8K和IFEval等多种任务上展现出了卓越的性能。作为一个开源模型，它允许研究人员和开发者访问和使用其数据和代码，以推动自然语言处理技术的发展。

Llasa-3B

Llasa-3B 是一个强大的文本到语音（TTS）模型，基于 LLaMA 架构开发，专注于中英文语音合成。该模型通过结合 XCodec2 的语音编码技术，能够将文本高效地转换为自然流畅的语音。其主要优点包括高质量的语音输出、支持多语言合成以及灵活的语音提示功能。该模型适用于需要语音合成的多种场景，如有声读物制作、语音助手开发等。其开源性质也使得开发者可以自由探索和扩展其功能。

暂无评论

您必须登录才能参与评论！

none

暂无评论...