热门

OmniHuman-1

1年前发布 21 00

OmniHuman-1 是一个端到端的多模态条件人类视频生成框架，能够基于单张人像和运动信号（如音频、视频或其组合）生成人类视频。该技术通过混合训练策略克服了高质量数据稀缺的问题，支持任意宽高比的图像输入，生成逼真的人类视频。它在弱信号输入（尤其是音频）方面表现出色，适用于多种场景，如虚拟主播、视频制作等。

收录时间：

2025-05-30

打开网站手机查看

视频创作 # 人工智能 # 内容创作 # 多模态 # 虚拟人物 # 视频生成

OmniHuman-1

OmniHuman-1

OmniHuman-1 是一个端到端的多模态条件人类视频生成框架，能够基于单张人像和运动信号（如音频、视频或其组合）生成人类视频。该技术通过混合训练策略克服了高质量数据稀缺的问题，支持任意宽高比的图像输入，生成逼真的人类视频。它在弱信号输入（尤其是音频）方面表现出色，适用于多种场景，如虚拟主播、视频制作等。

数据统计

相关导航

MM_StoryAgent

MM_StoryAgent 是一个基于多智能体范式的故事视频生成框架，它结合了文本、图像和音频等多种模态，通过多阶段流程生成高质量的故事视频。该框架的核心优势在于其可定制性，用户可以自定义专家工具以提升每个组件的生成质量。此外，它还提供了故事主题列表和评估标准，便于进一步的故事创作和评估。MM_StoryAgent 主要面向需要高效生成故事视频的创作者和企业，其开源特性使得用户可以根据自身需求进行扩展和优化。

Video Prediction Policy

Video Prediction Policy（VPP）是一种基于视频扩散模型（VDMs）的机器人策略，能够准确预测未来的图像序列，展现出对物理动力学的良好理解。VPP利用VDMs中的视觉表示来反映物理世界的演变，这种表示被称为预测性视觉表示。通过结合多样化的人类或机器人操控数据集，并采用统一的视频生成训练目标，VPP在两个模拟环境和两个真实世界基准测试中均优于现有方法。特别是在Calvin ABC-D基准测试中，相较于先前的最佳技术，VPP实现了28.1%的相对改进，并在复杂的真实世界灵巧手操控任务中提高了28.8%的成功率。

Diffusion as Shader

Diffusion as Shader (DaS) 是一种创新的视频生成控制模型，旨在通过3D感知的扩散过程实现对视频生成的多样化控制。该模型利用3D跟踪视频作为控制输入，能够在统一的架构下支持多种视频控制任务，如网格到视频生成、相机控制、运动迁移和对象操作等。DaS的主要优势在于其3D感知能力，能够有效提升生成视频的时间一致性，并在短时间内通过少量数据微调即可展现出强大的控制能力。该模型由香港科技大学等多所高校的研究团队共同开发，旨在推动视频生成技术的发展，为影视制作、虚拟现实等领域提供更为灵活和高效的解决方案。

Runway Aleph AI

Aleph AI是建立在Runway Aleph上的AI视频编辑平台，通过直观的自然语言命令，实现对象编辑、场景角度变化和风格及灯光调整，为用户提供前所未有的创意控制力。价格方面，允许商业使用并提供即时处理，消除了创意愿景与最终输出之间的障碍。

Seedance 1.0 AI

Seedance 1.0 AI是一款顶级视频生成器，具有行业领先的提示理解和多镜头连贯性，可将您的创意转化为电影杰作。其主要优点在于处理复杂的电影序列，维持完美的风格一致性，以及提供真正的1080p影院级质量输出。价格和定位信息请查阅官方网站。

AnimateAI

AnimateAI是一个集成了前沿AI技术的视频生成器，能够以10倍的速度和节省30%的成本，提供连贯角色的惊人视频系列。它允许用户通过简单的文本提示，快速将想法转化为高质量的视频，无论是动画故事、动态预告片、励志短片、温馨的儿童睡前故事、放松的lofi音乐视频还是有趣的喜剧小品，AnimateAI都能轻松实现。产品背景信息显示，AnimateAI支持多种AI模型和工具，如GPT-4、Claude、Gemini、FLUX、MidJourney等，以解锁用户的故事讲述潜力。AnimateAI的价格定位是免费试用和付费订阅，旨在帮助用户无需技术技能即可创造令人惊叹的动画视频。

ReCapture

ReCapture是一种从单一用户提供的视频生成新视频和新颖摄像机轨迹的方法。该技术允许我们从完全不同的角度重新生成源视频，并带有电影级别的摄像机运动。ReCapture通过使用多视图扩散模型或基于深度的点云渲染生成带有新摄像机轨迹的嘈杂锚视频，然后通过我们提出的掩蔽视频微调技术将锚视频重新生成为干净且时间上一致的重新角度视频。这种技术的重要性在于它能够利用视频模型的强大先验，将近似的视频重新生成为时间上一致且美观的视频。

ComfyUI-MochiWrapper

ComfyUI-MochiWrapper是一个用于Mochi视频生成器的包装节点，它允许用户通过ComfyUI界面与Mochi模型进行交互。这个项目主要优点是能够利用Mochi模型生成视频内容，并且通过ComfyUI简化了操作流程。它是基于Python开发的，并且完全开源，允许开发者自由地使用和修改。目前该项目还处于积极开发中，已经有一些基本功能，但还没有正式发布版本。

暂无评论

您必须登录才能参与评论！

none

暂无评论...