热门

VisualCloze

1年前发布 19 00

VisualCloze 是一个通过视觉上下文学习的通用图像生成框架，旨在解决传统任务特定模型在多样化需求下的低效率问题。该框架不仅支持多种内部任务，还能泛化到未见过的任务，通过可视化示例帮助模型理解任务。这种方法利用了先进的图像填充模型的强生成先验，为图像生成提供了强有力的支持。

收录时间：

2025-05-29

打开网站手机查看

图像生成 # 图像生成 # 图像编辑 # 多任务 # 深度学习 # 视觉学习

VisualCloze

VisualCloze

VisualCloze 是一个通过视觉上下文学习的通用图像生成框架，旨在解决传统任务特定模型在多样化需求下的低效率问题。该框架不仅支持多种内部任务，还能泛化到未见过的任务，通过可视化示例帮助模型理解任务。这种方法利用了先进的图像填充模型的强生成先验，为图像生成提供了强有力的支持。

数据统计

相关导航

MangaNinja

MangaNinja 是一种参考引导的线稿上色方法，它通过独特的设计确保精确的人物细节转录，包括用于促进参考彩色图像和目标线稿之间对应学习的块洗牌模块，以及用于实现细粒度颜色匹配的点驱动控制方案。该模型在自收集的基准测试中表现出色，超越了当前解决方案的精确上色能力。此外，其交互式点控制在处理复杂情况（如极端姿势和阴影）、跨角色上色、多参考协调等方面展现出巨大潜力，这些是现有算法难以实现的。MangaNinja 由来自香港大学、香港科技大学、通义实验室和蚂蚁集团的研究人员共同开发，相关论文已发表在 arXiv 上，代码也已开源。

ComfyUI-IF_MemoAvatar

ComfyUI-IF_MemoAvatar是一个基于记忆引导扩散的模型，用于生成表达性的视频。该技术允许用户从单一图像和音频输入创建富有表现力的说话头像视频。这项技术的重要性在于其能够将静态图像转化为动态视频，同时保留图像中人物的面部特征和情感表达，为视频内容创作提供了新的可能性。该模型由Longtao Zheng等人开发，并在arXiv上发布相关论文。

Qwen2vl-Flux

Qwen2vl-Flux是一个结合了Qwen2VL视觉语言理解能力的FLUX框架的先进多模态图像生成模型。该模型擅长基于文本提示和视觉参考生成高质量图像，提供卓越的多模态理解和控制。产品背景信息显示，Qwen2vl-Flux集成了Qwen2VL的视觉语言能力，增强了FLUX的图像生成精度和上下文感知能力。其主要优点包括增强的视觉语言理解、多种生成模式、结构控制、灵活的注意力机制和高分辨率输出。

Microsoft Copilot for Mac

Microsoft Copilot是一款由微软开发的AI助手应用，基于OpenAI和微软的AI技术，旨在为用户提供高效、便捷的智能助手服务。它能够帮助用户快速获取信息、生成文本和图像，提升工作效率和创造力。该应用支持多种语言，界面简洁易用，适合不同用户群体。它不仅适用于个人生活，还能在商业和教育场景中发挥重要作用，是一款免费的生产力工具。

In-Context LoRA for Diffusion Transformers

In-Context LoRA是一种用于扩散变换器（DiTs）的微调技术，它通过结合图像而非仅仅文本，实现了在保持任务无关性的同时，对特定任务进行微调。这种技术的主要优点是能够在小数据集上进行有效的微调，而不需要对原始DiT模型进行任何修改，只需改变训练数据即可。In-Context LoRA通过联合描述多张图像并应用任务特定的LoRA微调，生成高保真度的图像集合，更好地符合提示要求。该技术对于图像生成领域具有重要意义，因为它提供了一种强大的工具，可以在不牺牲任务无关性的前提下，为特定任务生成高质量的图像。

FLUX Pro Finetuning API

FLUX Pro Finetuning API 是由 Black Forest Labs 推出的生成式文本到图像模型的定制化工具。它允许用户通过少量示例图像（1-5张）对 FLUX Pro 模型进行微调，从而生成符合特定品牌、风格或视觉需求的高质量图像内容。该技术的主要优点在于其高度的定制化能力、对品牌一致性的保持以及与 FLUX 工具套件的无缝集成。它适用于专业创意人员、设计师和品牌方，帮助他们在营销、品牌建设和故事叙述中实现个性化内容创作。目前尚无明确价格信息，但其定位为高端创意工具，适合对生成内容质量有较高要求的用户。

Janus-Pro-1B

Janus-Pro-1B 是一个创新的多模态模型，专注于统一多模态理解和生成。它通过分离视觉编码路径，解决了传统方法在理解和生成任务中的冲突问题，同时保持了单个统一的 Transformer 架构。这种设计不仅提高了模型的灵活性，还使其在多模态任务中表现出色，甚至超越了特定任务的模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建，使用 SigLIP-L 作为视觉编码器，支持 384x384 的图像输入，并采用特定的图像生成 tokenizer。其开源性和灵活性使其成为下一代多模态模型的有力候选。

稳定的扩散

众包的分布式集群稳定扩散的工人。还提供了一个客户端接口不需要安装和没有技术专长。

暂无评论

您必须登录才能参与评论！

none

暂无评论...