热门

CogVideoX1.5-5B-SAT

1年前发布 11 00

CogVideoX1.5-5B-SAT是由清华大学知识工程与数据挖掘团队开发的开源视频生成模型，是CogVideoX模型的升级版。该模型支持生成10秒视频，并支持更高分辨率的视频生成。模型包含Transformer、VAE和Text Encoder等模块，能够根据文本描述生成视频内容。CogVideoX1.5-5B-SAT模型以其强大的视...

收录时间：

2025-05-30

打开网站手机查看

文案写作 # 开源模型 # 文本到视频 # 清华大学 # 视频生成 # 高分辨率

CogVideoX1.5-5B-SAT

CogVideoX1.5-5B-SAT

CogVideoX1.5-5B-SAT是由清华大学知识工程与数据挖掘团队开发的开源视频生成模型，是CogVideoX模型的升级版。该模型支持生成10秒视频，并支持更高分辨率的视频生成。模型包含Transformer、VAE和Text Encoder等模块，能够根据文本描述生成视频内容。CogVideoX1.5-5B-SAT模型以其强大的视频生成能力和高分辨率支持，为视频内容创作者提供了一个强大的工具，尤其在教育、娱乐和商业领域有着广泛的应用前景。

数据统计

相关导航

Sana_600M_1024px

Sana是一个由NVIDIA开发的文本到图像生成框架，能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力，使得在笔记本电脑GPU上也能部署。它是一个基于线性扩散变换器(text-to-image generative model)的模型，拥有1648M参数，专门用于生成1024px基础的多尺度高宽图像。Sana模型的主要优点包括高分辨率图像生成、快速的合成速度以及强大的文本图像对齐能力。Sana模型的背景信息显示，它是基于开源代码开发的，可以在GitHub上找到源代码，同时它也遵循特定的许可证（CC BY-NC-SA 4.0 License）。

CSM 1B

CSM 1B 是一个基于 Llama 架构的语音生成模型，能够从文本和音频输入中生成 RVQ 音频代码。该模型主要应用于语音合成领域，具有高质量的语音生成能力。其优势在于能够处理多说话人的对话场景，并通过上下文信息生成自然流畅的语音。该模型开源，旨在为研究和教育目的提供支持，但明确禁止用于冒充、欺诈或非法活动。

Llama-3.1-Tulu-3-70B

Llama-3.1-Tulu-3-70B是Tülu3模型家族中的一员，专为现代后训练技术提供全面的指南。该模型不仅在聊天任务上表现出色，还在MATH、GSM8K和IFEval等多种任务上展现出了卓越的性能。作为一个开源模型，它允许研究人员和开发者访问和使用其数据和代码，以推动自然语言处理技术的发展。

Sana_1600M_1024px

Sana是一个由NVIDIA开发的文本到图像生成框架，能够高效生成高达4096×4096分辨率的高清晰度、高文本-图像一致性的图像，并且速度极快，可以在笔记本电脑GPU上部署。Sana模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器。该技术的重要性在于其能够快速生成高质量的图像，对于艺术创作、设计和其他创意领域具有革命性的影响。Sana模型遵循CC BY-NC-SA 4.0许可协议，源代码可在GitHub上找到。

Llasa-1B

Llasa-1B 是一个由香港科技大学音频实验室开发的文本转语音模型。它基于 LLaMA 架构，通过结合 XCodec2 代码本中的语音标记，能够将文本转换为自然流畅的语音。该模型在 25 万小时的中英文语音数据上进行了训练，支持从纯文本生成语音，也可以利用给定的语音提示进行合成。其主要优点是能够生成高质量的多语言语音，适用于多种语音合成场景，如有声读物、语音助手等。该模型采用 CC BY-NC-ND 4.0 许可证，禁止商业用途。

STAR

STAR是一种创新的视频超分辨率技术，通过将文本到视频扩散模型与视频超分辨率相结合，解决了传统GAN方法中存在的过度平滑问题。该技术不仅能够恢复视频的细节，还能保持视频的时空一致性，适用于各种真实世界的视频场景。STAR由南京大学、字节跳动等机构联合开发，具有较高的学术价值和应用前景。

ConsisID

ConsisID是一个基于频率分解的身份保持文本到视频生成模型，它通过在频域中使用身份控制信号来生成与输入文本描述一致的高保真度视频。该模型不需要针对不同案例进行繁琐的微调，并且能够保持生成视频中人物身份的一致性。ConsisID的提出，推动了视频生成技术的发展，特别是在无需调整的流程和频率感知的身份保持控制方案方面。

PixVerse-MCP

PixVerse-MCP 是一个工具，允许用户通过支持模型上下文协议（MCP）的应用程序访问 PixVerse 最新的视频生成模型。该产品提供了文本转视频等功能，适用于创作者和开发者，能够在任何地方生成高质量的视频。PixVerse 平台需要 API 积分，用户需自行购买。

暂无评论

您必须登录才能参与评论！

none

暂无评论...