热门

Stable Diffusion 3.5 ControlNets

1年前发布 13 00

Stable Diffusion 3.5 ControlNets是由Stability AI提供的文本到图像的AI模型，支持多种控制网络（ControlNets），如Canny边缘检测、深度图和高保真上采样等。该模型能够根据文本提示生成高质量的图像，特别适用于插画、建筑渲染和3D资产纹理等场景。它的重要性在于能够提供更精细的图像控制能力...

收录时间：

2025-05-30

打开网站手机查看

文案写作 # AI图像生成 # Canny边缘检测 # 控制网络 # 文本到图像 # 深度图 # 高保真上采样

Stable Diffusion 3.5 ControlNets

Stable Diffusion 3.5 ControlNets

Stable Diffusion 3.5 ControlNets是由Stability AI提供的文本到图像的AI模型，支持多种控制网络（ControlNets），如Canny边缘检测、深度图和高保真上采样等。该模型能够根据文本提示生成高质量的图像，特别适用于插画、建筑渲染和3D资产纹理等场景。它的重要性在于能够提供更精细的图像控制能力，提升生成图像的质量和细节。产品背景信息包括其在学术界的引用（arxiv:2302.05543），以及遵循的Stability Community License。价格方面，对于非商业用途、年收入不超过100万美元的商业用途免费，超过则需联系企业许可。

数据统计

相关导航

CogView4-6B

CogView4-6B 是由清华大学知识工程组开发的文本到图像生成模型。它基于深度学习技术，能够根据用户输入的文本描述生成高质量的图像。该模型在多个基准测试中表现优异，尤其是在中文文本生成图像方面具有显著优势。其主要优点包括高分辨率图像生成、支持多种语言输入以及高效的推理速度。该模型适用于创意设计、图像生成等领域，能够帮助用户快速将文字描述转化为视觉内容。

Blip 3o

Blip 3o 是一个基于 Hugging Face 平台的应用程序，利用先进的生成模型从文本生成图像，或对现有图像进行分析和回答。该产品为用户提供了强大的图像生成和理解能力，非常适合设计师、艺术家和开发者。此技术的主要优点是其高效的图像生成速度和优质的生成效果，同时还支持多种输入形式，增强了用户体验。该产品是免费的，定位于开放给广大用户使用。

AWPortraitCN

AWPortraitCN是一个基于FLUX.1-dev开发的文本到图像生成模型，专门针对中国人的外貌和审美进行训练。它包含多种类型的肖像，如室内外肖像、时尚和摄影棚照片，具有强大的泛化能力。与原始版本相比，AWPortraitCN在皮肤质感上更加细腻和真实。为了追求更真实的原始图像效果，可以与AWPortraitSR工作流程一起使用。

NeuralSVG

NeuralSVG是一种用于从文本提示生成矢量图形的隐式神经表示方法。它受到神经辐射场（NeRFs）的启发，将整个场景编码到一个小的多层感知器（MLP）网络的权重中，并使用分数蒸馏采样（SDS）进行优化。该方法通过引入基于dropout的正则化技术，鼓励生成的SVG具有分层结构，使每个形状在整体场景中具有独立的意义。此外，其神经表示还提供了推理时控制的优势，允许用户根据提供的输入动态调整生成的SVG，如颜色、宽高比等，且只需一个学习到的表示。通过广泛的定性和定量评估，NeuralSVG在生成结构化和灵活的SVG方面优于现有方法。该模型由特拉维夫大学和MIT CSAIL的研究人员共同开发，目前代码尚未公开。

Fashion-Hut-Modeling-LoRA

Fashion-Hut-Modeling-LoRA是一个基于Diffusion技术的文本到图像生成模型，主要用于生成时尚模特的高质量图像。该模型通过特定的训练参数和数据集，能够根据文本提示生成具有特定风格和细节的时尚摄影图像。它在时尚设计、广告制作等领域具有重要应用价值，能够帮助设计师和广告商快速生成创意概念图。模型目前仍在训练阶段，可能存在一些生成效果不佳的情况，但已经展示了强大的潜力。该模型的训练数据集包含14张高分辨率图像，使用了AdamW优化器和constant学习率调度器等参数，训练过程注重图像的细节和质量。

FLUX.1-dev-IP-Adapter

FLUX.1-dev-IP-Adapter是一个基于FLUX.1-dev模型的IP-Adapter，由InstantX Team研发。该模型能够将图像工作处理得像文本一样灵活，使得图像生成和编辑更加高效和直观。它支持图像参考，但不适用于细粒度的风格转换或角色一致性。模型在10M开源数据集上训练，使用128的批量大小和80K的训练步骤。该模型在图像生成领域具有创新性，能够提供多样化的图像生成解决方案，但可能存在风格或概念覆盖不足的问题。

LuminaBrush

LuminaBrush是一个交互式工具，旨在绘制图像上的照明效果。该工具采用两阶段方法：一阶段将图像转换为“均匀照明”的外观，另一阶段根据用户涂鸦生成照明效果。这种分解方法简化了学习过程，避免了单一阶段可能需要考虑的外部约束（如光传输一致性等）。LuminaBrush利用从高质量野外图像中提取的“均匀照明”外观来构建训练最终交互式照明绘图模型的配对数据。此外，该工具还可以独立使用“均匀照明阶段”来“去照明”图像。

Sana_600M_512px

Sana是一个由NVIDIA开发的文本到图像的生成框架，能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力，可以在笔记本电脑GPU上部署，代表了图像生成技术的一个重要进步。该模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器，能够根据文本提示生成和修改图像。Sana的开源代码可在GitHub上找到，其研究和应用前景广阔，尤其在艺术创作、教育工具和模型研究等方面。

暂无评论

您必须登录才能参与评论！

none

暂无评论...