引言
- 本文的内容皆是在实操中作的笔记,大多数笔记来自ChatGPT4
- 知识点还在补充中...
必知必会的概念
什么是潜在空间和图像空间?
在Stable Diffusion等模型中,模型在潜在空间中进行操作,例如添加噪声、去噪、调整特征等操作,最终通过解码器(如VAE)将潜在空间数据还原为图像空间的图像。
- 图像空间(Image Space)
图像空间是指我们通常看到的、直观的图像表示形式。它由像素构成,具体地说,图像空间中的数据就是每个像素的RGB值。 - 潜在空间(Latent Space)
潜在空间是图像的一种压缩表示形式,在生成模型的处理中,潜在空间中的数据是一种低维度的表示,通常是不可视的,无法直接看作图像。
为什么使用潜在空间?
- 降低计算复杂度
直接在高分辨率的图像空间中操作需要大量的计算资源。而潜在空间通过压缩图像特征信息,可以显著降低计算量,并使模型能够快速操作。 - 捕捉高层次特征
潜在空间中的数据不是具体的像素信息,而是捕捉了图像的整体结构、风格等高层次特征,使得模型可以生成更符合条件的图像。
噪声与去噪
- 噪声
噪声在图像生成中通常指随机的、不可预测的干扰信号。在生成模型的上下文中,噪声是模型在图像生成过程中引入的随机因素,通常用于改变图像的生成特征或风格。噪声的引入使得模型能够生成多样化的图像,避免生成过程过于单一。 - 去噪
去噪是指在图像生成或处理过程中,消除或减少噪声的步骤。它的目标是提高图像的质量,使生成的图像更清晰、更真实。去噪的主要目的是使生成的图像在视觉上更为清晰、自然,减少干扰和伪影。
收集的checkpoint模型
- majicMIX realistic 麦橘写实:majicmixRealistic_v7.safetensors
收集的controlnet模型
收集的lora模型
待补充
节点功能及用法
CheckpointLoader(Checkpoint加载器)
- 用于加载模型文件(通常是 .ckpt 或 .safetensors 格式)。
- 在同一个工作流中,可能使用不同的模型生成不同风格的图像。通过不同的Checkpoint节点,可以灵活地切换模型(如选择不同的 .ckpt 文件)。
- 任何时候需要生成图像,都需要先加载一个预训练的 Checkpoint(如Stable Diffusion模型),这是图像生成的核心部分。
输出
- MODEL:用于 KSampler 等采样节点,它接收模型并在潜在空间中进行采样,生成潜在图像。
- VAE:变分自编码器(Variational Autoencoder),用于潜在空间和图像空间之间的相互转换。用于 VAEDecode 和 VAEEncode 节点,将潜在空间中的图像解码为可视化的图像,或将图像编码为潜在空间表示。
- CLIP:文本编码器,用于将输入的文本转化为条件信息(如提示词)来控制图像生成的内容。
工作流程示例
- CheckpointLoaderSimple 加载模型文件 "dreamshaper_3.3.safetensors"
- 输出的 MODEL 输入到 KSampler,用于采样潜在空间的图像。
- 输出的 VAE 输入到 VAEDecode,用于将潜在图像解码为最终的图像。
- 输出的 CLIP 输入到 CLIPTextEncode,用于将提示词编码为图像生成的条件。
ControlNet
- 专门用于图像生成过程中的额外条件控制网络,它允许你对生成的图像施加更多的细节控制,例如通过提供边缘图、姿态、深度图等特定结构,精确地影响图像生成过程。
- 需要对生成图像进行更精确的控制时使用。例如,想要生成特定姿态、结构或样式的图像时,ControlNet 可以通过条件输入使图像符合这些预设条件。
输入
- 图像输入(Image Input)
ControlNet用它来施加控制条件,生成遵循输入图像特征的输出,处理和控制现有图像的特定特征(如姿态、轮廓) - VAE输入(VAE Input)
在潜在空间和图像空间之间进行编码和解码操作,用于图像生成的编码解码,确保潜在空间与图像空间的转换 - 正面条件(Positive Conditioning)
提供生成图像时的正面文本或提示条件。正面条件用于引导生成图像的主要内容,比如生成图像的主要主题或场景。通过 CLIPTextEncode 等节点生成的文本条件会被输入到正面条件中,影响最终生成图像的核心内容。输入由描述图像的文本提示词生成,比如“a beautiful sunset over the ocean”。 - 负面条件(Negative Conditioning)
提供生成图像时的负面条件或排除条件,控制不想要的图像特性。负面条件通常用于去除生成图像中不希望看到的内容,比如低质量、模糊等。通过 CLIPTextEncode 节点生成的负面条件,用来避免生成不符合要求的图像特征。输入是描述不希望出现的特征或样式的提示词。可以是负面描述的文本提示,如“low quality, blurry”。 - ControlNet输入(ControlNet Input)
提供ControlNet模型的输入。这个输入通常来自 ControlNetLoader 节点,加载了特定的ControlNet模型(如边缘检测、姿态控制等),使图像生成符合特定的结构或条件。用于控制生成图像的结构或特定细节,比如姿态、边缘等。这个模型会结合图像输入,确保生成的图像与用户设定的结构一致。从 ControlNetLoader 节点中获取预先训练好的ControlNet模型,控制图像生成的姿态、边缘或其他细节。可以是边缘检测模型(control_v1p_sd15_qrcode_monster.safetensors)或姿态图生成模型。
输出
- 正面条件输出(Positive Output):输出处理后的正面条件信息,通常在潜在空间中结合图像生成的主条件。生成的图像会符合这些正面条件。正面条件经过处理后用于后续节点,确保生成图像的主特征与正面条件一致。
- 负面条件输出(Negative Output):输出处理后的负面条件信息,确保生成图像时避免负面条件描述的特征。负面条件经过处理后用于采样器等后续节点,确保生成图像时不包含不想要的特征。
工作流程示例
- CheckpointLoader 加载模型,并输出 VAE模型。
- ControlNetLoader 加载 "control_v1p_sd15_qrcode_monster.safetensors"。
- ControlNetApplyAdvanced 从 CheckpointLoader 获取 VAE 模型输入,并接收正面条件、负面条件、ControlNet、图像输入。
- VAE 通过潜在空间的编码和解码过程,确保在应用ControlNet条件后,图像能够在潜在空间和图像空间之间转换并生成符合条件的高质量图像。
图像缩放(Image Scale)
用于调整图像的分辨率或尺寸。允许用户根据需要将图像放大或缩小,同时选择适合的插值方法来控制缩放质量。
应用场景
- 高清修复(High-Res Fix):在图像生成的流程中,通常先生成一个低分辨率的图像,再通过图像缩放放大,并进行进一步的高分辨率细化处理。
- 图像预处理:当图像需要与某些其他图像或潜在空间进行对齐时,可以通过缩放来统一图像尺寸,确保后续处理节点可以接收一致的输入。
- 生成不同尺寸的图像:在不同的应用场景中,你可能需要生成不同尺寸的图像,比如缩小图像用于缩略图,或放大图像以用于打印等。
输入(Image Input)与输出(Image Output)
- 图像输入(IMAGE):图像输入是从上一个节点传递来的图像,这个图像可能是通过其他操作生成或加载的。图像输入提供了需要进行缩放处理的图像数据。
- 图像输出(IMAGE):缩放后的图像,经过处理后的图像分辨率和尺寸会按照设置调整,并输出到下一个节点。这个图像可以作为后续生成节点或预览节点的输入。
参数
- 插值方法(Interpolation Method):决定在缩放图像时如何计算像素之间的值。不同的插值方法适用于不同的场景,决定了图像放大或缩小时的平滑度和质量。
选项:- lanczos:高质量的插值方法,特别适合放大图像时使用,能够很好地保留图像细节。图像放大时,特别是需要较高细节保留时,适合需要高质量放大的图像场景。
- nearest-exact:最近邻插值,处理速度非常快,但在放大时可能会导致图像边缘显得“生硬”或“锯齿化”。快速缩放或不追求高质量的图像处理,适合快速生成缩略图或简单缩放。
- bilinear:双线性插值,计算相对简单,能够平衡速度和质量,缩放时相邻像素值通过线性插值计算,但细节保留不如lanczos。适合在不需要极致细节保留,但又希望质量过得去的放大场景。
- bicubic:双三次插值,通常比双线性插值生成更平滑的结果,保留更多细节,但计算复杂度也更高。对平滑过渡和质量有一定要求的图像放大或缩小。
- area:面积插值,主要在缩小图像时表现优异,通过计算图像区域内的像素平均值来进行缩放,适合高质量的图像缩小。特别适用于缩小图像时,能够保持良好的质量和细节。对于大幅缩小的图像,area 插值能够避免出现模糊和失真的问题。
- 目标宽度(Width):定义缩放后图像的目标宽度,以像素为单位。
- 目标高度(Height):定义缩放后图像的目标高度,与宽度一样以像素为单位。
- 保持纵横比(Keep Aspect Ratio):决定是否在缩放时保持图像的原始纵横比。
选项:- enabled(启用):保持图像的原始宽高比例,避免图像被拉伸或压缩。
- disabled(禁用):允许自由调整宽度和高度,可能导致图像拉伸或压缩。
空Latent(Empty Latent Image)
- 即空潜在图像,在潜在空间中生成一个初始的潜在图像(latent image),这个潜在图像是“空”的,它通常是未经过处理或是随机初始化的,并作为后续操作的基础。
- 用于生成一个特定尺寸的潜在空间图像,这个图像本质上是一个初始化的“潜在表示”,可以与模型和条件结合,生成最终图像。
应用场景
- 从无到有生成图像:当希望通过模型直接生成全新的图像,而不是基于已有图像进行修改时,Empty Latent Image节点提供了一个初始化的潜在空间。这是生成模型从头开始生成图像的第一步
- 高分辨率修复(High-Res Fix):在高分辨率修复过程中,通常会先生成低分辨率图像,然后通过放大潜在空间的方式继续生成高分辨率图像。此时,空潜在图像节点可以用来创建高分辨率潜在图像作为采样器的输入。
输出
潜在图像(LATENT):该节点输出一个潜在空间中的图像(latent image),这个图像会作为后续节点(如 KSampler 或 VAE 解码器)的输入,继续在潜在空间中进行操作,直到解码为可视化的图像。
参数
- 宽度(Width):定义潜在空间图像的宽度,以像素为单位。这决定了生成图像的水平分辨率。
- 高度(Height):定义潜在空间图像的高度,以像素为单位。这个值决定了生成图像的垂直分辨率。
- 通道(Channels):定义潜在图像的通道数,通常与生成模型的潜在空间维度有关。通常情况下,通道数设置为1。
VAE(Variational Autoencoder,变分自编码器)
- 是生成模型(如Stable Diffusion)中的核心组件,负责在潜在空间和图像空间之间进行转换。
- VAE包括编码器(VAEEncode) 和 解码器(VAEDecode) 两个部分,它们的作用分别是将图像编码为潜在空间表示,以及将潜在空间表示解码为图像。
编码器(VAEEncode)
将输入图像从图像空间转换为潜在空间表示,生成模型可以在潜在空间中对图像进行处理和生成。
输入与输出
- 输入(IMAGE,图像):VAE编码器接收一个图像(通常来自 LoadImage 节点或其他生成节点输出的图像),并将其压缩为潜在空间表示。
- 输入(vae,VAE模型):VAE模型同样需要从Checkpoint中加载,VAE编码器依赖这个模型来执行图像空间到潜在空间的转换。
- 输出(LATENT,潜在图像):输出的是潜在空间中的图像表示,这些表示可以被输入到生成模型的其他部分,进行进一步采样或处理。
解码器(VAEDecode)
将潜在空间中的图像表示转换回图像空间,得到人类可视的图像。
输入与输出
- 输入(LATENT,潜在图像):VAE解码器接收来自潜在空间的图像(LATENT),这些图像是在潜在空间中生成和处理的。
- 输入(vae,VAE模型):通常需要从 Checkpoint 中加载的VAE模型。VAE解码器依赖于这个模型来执行潜在空间到图像空间的转换。
- 输出(IMAGE,图像):VAE解码器输出的图像是经过解码的实际图像,可以直接预览或进一步处理。
K采样器(高级)(KSamplerAdvanced)
- 用于在潜在空间中对图像进行采样,结合模型和条件生成最终的潜在图像。
- 采样是生成图像的核心步骤,模型根据采样过程中的参数、提示条件和噪声等信息生成潜在图像。这些潜在图像最终通过 VAE解码器 转换为可视化图像。
KSamplerAdvanced 在以下几个方面起关键作用:
- 生成潜在图像:KSampler 接收潜在图像、模型和条件输入,在潜在空间中进行一系列采样操作,生成新的潜在图像。
- 应用条件和噪声:KSampler 根据正面、负面条件,以及采样方法、步数等参数,对潜在图像中的信息进行调整和操作。
- 控制图像风格和内容:采样过程中的设置,比如步数、种子、CFG(Class-Free Guidance)等参数,可以极大地影响图像生成的风格和细节。
参数
去噪强度(De Noise)
注:这个参数仅在非高级版才有注:这个参数仅在非高级版才有
- 即重绘幅度,0-1之间的值。
- 去噪强度控制了图像在生成过程中被重新绘制的程度。较高的去噪强度意味着生成的图像将更偏向于模型生成的特征,而较低的去噪强度则会保留更多原始图像的特征。
- 高去噪强度(如1.0):生成图像的特征将更加接近模型的期望输出,原始图像的特征将被强烈覆盖。
- 低去噪强度(如0.0-0.5):生成图像将更加保留原始图像的特征,可能会出现较多的噪声,但细节更为丰富。
添加噪声(Add Noise)
- 该参数决定是否在采样过程中添加噪声。
- 噪声在生成图像的扩散模型中起到非常重要的作用,它会在每个采样步中对潜在图像引入一定的随机性,使得生成过程更加多样化和自然。
- 当想生成具有更多随机性的图像或需要不同的变体时,可以开启该选项;如果需要更稳定的结果(尤其是在高分辨率修复中),则可以关闭噪声添加。
随机噪声种子(Seed)
- 种子是随机数生成器的起点,它控制了生成图像时的随机性。
- 如果使用相同的种子和相同的参数,模型每次生成的图像都是一致的。
运行后操作(control after generate)
- fixed:固定种子,每次生成的图像相同。
- randomize:随机种子,每次生成的图像不同。
- increase:种子递增1,每次生成的图像不同。
- decrease:种子递减1,每次生成的图像不同。
采样步数(Steps)
- 定义采样的迭代次数。更多的采样步数通常会生成更细腻的图像,但同时增加生成时间。
- 常用的步数在20-50之间。如果步数太少,生成的图像可能过于粗糙;步数过多,虽然质量更好,但生成时间显著增加。
CFG(Class-Free Guidance Scale)
- CFG控制了正面条件(提示词)对图像生成的影响力。
- 较高的CFG值会使生成的图像更加符合提示词描述,但过高的CFG值可能导致图像过度增强。8到12之间是常见的范围。
- 如果CFG设置过低,图像可能与提示词不太一致;设置过高,图像可能看起来不自然。
采样方法(Sampling Method)
决定KSampler在潜在空间中如何采样图像。不同的采样方法会影响生成的速度和图像的质量。
- Euler
Euler是经典的数值采样方法,提供稳定且快速的图像生成过程。生成速度快,适合在低步数下生成图像。 - Euler_Cfg_Pp
Euler算法的变体,结合了 CFG(Classifier-Free Guidance)和后处理(post-processing)调整。通过引入 CFG 调整正负提示词的影响,并应用后处理优化图像。 - Euler_Ancestral
Euler的祖先采样方法(ancestral)版本,适合在生成过程中提供更多的随机性。生成的图像具有更多的细节变化,特别是在较高步数时生成较为多样化。 - Euler_Ancestral_Cfg_Pp
结合Euler_Ancestral的随机性和CFG及后处理优化。能够在多样化图像生成的同时保留提示词的精确性。既有多样性又有精确性,适合需要控制和随机性平衡的任务。用于复杂场景或需要保留细节的多步采样。 - Heun
Heun方法是一种更复杂的数值采样算法,适合处理较复杂的图像生成任务。生成过程更为稳定,但细节和质量更高。用于高分辨率图像生成和复杂场景下的精细采样。 - HeunPP2
Heun采样器的升级版本,适合高精度任务,通过二次精确预测优化生成。提供更加平滑的过渡和高质量的细节控制。适合需要高精度图像生成的场景。 - DPM_2
第二阶扩散概率模型(DPM)采样器。DPM算法使用扩散模型中的噪声调整来生成图像。稳定的生成效果,适合高质量图像生成。 - DPM_2_Ancestral
DPM_2 的祖先采样器版本,加入了更多随机性,生成过程中的每一步都会有额外的噪声引入。生成的图像更加多样化,具有更多的细节和复杂性。 - LMS
基于LMS(Least Mean Squares)的采样算法,它是一种均衡的采样方法,适合广泛的图像生成任务。在生成速度和图像质量之间取得较好平衡,适合一般任务。 - DPM_Fast
DPM算法的加速版本,适合快速生成图像,能够在较少的采样步数内完成图像生成。速度极快,但在一些场景中可能会牺牲细节。 - DPM_Adaptive
DPM的自适应版本,自动调整采样步数和噪声衰减,适应不同的生成任务。通过自适应调整采样过程,确保不同场景下生成效果最佳。用于不确定图像细节要求,或者需要适应不同场景的生成任务。 - DPM++ 2S Ancestral
DPM++ 的二阶祖先采样器,结合了二次推导和祖先随机性,适合生成细节丰富且多样化的图像。在高步数下效果最佳,生成的图像具有更多随机细节。适合需要细节丰富、随机性较大的图像生成场景。 - DPM++ 2S Ancestral Cfg_Pp
在DPM++ 2S Ancestral基础上加入了CFG(Classifier-Free Guidance)和后处理优化,进一步增强了图像的控制和细节保留。生成的图像不仅具有丰富的细节变化,还能较好地符合提示词的要求。用于需要平衡细节和精确控制的复杂场景。 - DPM++ SDE
基于随机微分方程(SDE)的DPM++采样器,适合生成过程中的渐进式噪声衰减。图像生成更加平滑和稳定,噪声处理更为均匀。用于高质量图像生成,特别是需要稳定性和细节平衡的任务。 - DPM++ SDE GPU
DPM++ SDE 的 GPU 加速版本,能够在保持质量的同时加速生成过程。通过利用GPU加速,生成速度更快,适合高分辨率图像生成。用于高分辨率任务和需要快速生成的场景。 - DPM++ 2M(常用)
DPM++ 2M 采用了双步推导,能够生成更为细腻的图像。图像生成过程更加稳定,适合需要精细控制的生成任务。适合生成需要高分辨率和细节保留的图像。 - DPM++ 2M Cfg_Pp
在DPM++ 2M的基础上加入了CFG和后处理,使得生成图像更加符合用户的提示词要求。高精度图像生成,同时保持了对提示词的精确响应。适合对提示词要求精确控制的任务。 - DPM++ 2M SDE
结合了SDE噪声处理方法的DPM++ 2M,能够在图像生成过程中提供更平滑的噪声处理。生成图像的噪声平滑,细节保留较好。用于复杂场景或需要平滑过渡的图像生成。 - DPM++ 2M SDE GPU
DPM++ 2M SDE 的 GPU 加速版本,能够在较快的速度下生成高质量的图像。生成速度更快,同时保留了细腻的噪声处理效果。适用于高分辨率图像生成以及需要快速生成的场景。 - DPM++ 3M SDE
三阶微分方程(3M)版本的DPM++,结合SDE处理,适合更高维度的图像生成任务。噪声处理更加复杂和精细,适合生成高度复杂的图像。用于生成高度复杂和细节丰富的图像场景。 - DPM++ 3M SDE GPU
DPM++ 3M SDE的GPU加速版本,能够在高复杂度场景下加速图像生成。通过GPU加速处理,能够在较快时间内完成复杂图像生成。
调度器(Scheduler)
cheduler 决定了在采样过程中如何调度和管理步数间的状态更新。不同的调度器会影响潜在空间中噪声的衰减和图像生成的过程。
- Normal
这是常规的噪声衰减调度器。每一步中,噪声以标准的方式进行衰减或添加,生成过程较为稳定且广泛使用。适用于大多数场景,在逐步生成图像时稳定性高,适合需要生成自然过渡的图像。 - Karras(常用)
基于一种更精细的噪声衰减方式,能够在高采样步数时生成更平滑、细致的图像。这种方法能够提供更好的细节保留。适合高分辨率图像生成,在较高步数下表现优异,图像生成较为平滑,尤其是复杂场景下的细节表现更好。 - Exponential(指数调度器)
以指数衰减的方式处理噪声,在采样过程中噪声的变化幅度会随着步数增大逐渐减小。这会使得图像生成的早期步骤中噪声变化较大,而在后期更为稳定。指数衰减使得生成过程在早期会有更多随机性,后期收敛更快,适合一些需要早期生成变化较大的图像任务。 - SGM Uniform
SGM(Score-based Generative Models)调度器是一种基于分数模型的调度器,能够平衡生成过程中的噪声衰减,使其更加平滑和均匀。均匀地处理噪声变化,适合图像生成过程中需要较少噪声波动的场景。用于需要生成平稳、逐步过渡图像的场景。 - Simple
这个调度器使用了非常简单的噪声处理方式,没有额外的复杂计算,适合快速生成或简单任务。简单快速,但图像的细节和质量相对其他调度器可能稍低。适合一些对生成质量要求不高或快速预览的场景。 - DDIM Uniform
基于DDIM(Denoising Diffusion Implicit Models)的均匀调度器。DDIM是一种加速的采样算法,能够在较少的步数中生成高质量的图像,均匀版使得噪声变化更加一致和平滑。DDIM可以在减少采样步数的情况下生成与标准方法相当的结果,均匀版进一步平滑了噪声变化,使得生成过程更加稳定。适合需要快速生成高质量图像的场景,尤其在步数较少的情况下依然保持较好的图像质量。 - Beta
这是另一个渐进式的调度器,Beta调度器根据设定的Beta值逐步调整噪声的衰减。它在控制采样步数和噪声平滑度之间提供了一种平衡。在一些特定场景下,Beta调度器可以更好地控制生成过程中的噪声和步数之间的关系,适合需要细节微调的生成任务。适合精细控制生成过程的场景,特别是在需要微调噪声变化时。
开始步数(Start at Step)
- 定义采样过程开始的步数。这意味着采样将从某个指定的步数开始,而不是从初始状态开始。这样可以跳过前几个采样步骤,直接从中间开始生成。
- 当希望在采样过程中从特定的中间阶段开始,或者想在某个已经处理的图像基础上继续生成时,可以使用此参数。
- 特别是在高分辨率修复中,常用此参数来控制在潜在空间中精确地开始处理图像。
结束步数(End at Step)
- 定义采样过程结束的步数。这个参数控制了采样的终点,允许在达到设定的步数之前提前结束采样。
- 如果希望只采样一部分步骤,而不进行全程采样,可以设置 end_at_step。这在希望控制生成时间或特定效果时非常有用。
- 在某些情况下,生成图像的质量可能在某个步数之后不会显著提高,此时可以通过 end_at_step 控制采样提前结束,从而减少计算量。
返回残余噪声(Return with Leftover Noise)
- 决定是否返回采样过程中的残余噪声。如果启用,则采样过程中剩余的噪声也会被保留并返回,允许后续节点进一步处理或分析这些噪声。
- 如果在多个阶段进行图像生成,启用此选项允许在后续步骤中利用这些残余噪声进行进一步操作;如果只需要最终图像,通常会禁用这个选项。
- 选项
- 启用:返回生成过程中未被完全消除的噪声,可以用于更细致的图像后处理或进一步采样。
- 禁用:直接输出最终的潜在图像,而不保留残余噪声。
输入
模型输入(Model Input)
- 提供用于生成图像的预训练模型,通常是从 Checkpoint 节点中加载的生成模型(如Stable Diffusion模型)。
- 模型是KSampler生成图像的核心,它结合正面、负面条件以及采样过程中的噪声,生成新的潜在图像。
正面条件(Positive Conditioning)
- 提供生成图像时的正面条件(提示词),例如描述图像的主题、内容或风格。
- KSampler会根据这些正面条件进行采样,确保生成的图像符合提示词的描述。
负面条件(Negative Conditioning)
- 提供负面条件,定义不希望在生成图像中出现的内容(如低质量、模糊、噪点等)。
- 通过负面条件,KSampler可以排除不希望看到的图像特性,使最终图像更符合用户预期。
潜在图像输入(latent_image)
- 接受潜在空间中的图像作为输入。这个输入可以来自 Empty Latent Image 节点,或者已经经过处理的潜在图像。
- 在采样过程中,KSampler会对潜在图像进行处理,生成符合正面、负面条件的新图像表示。
输出
潜在图像(LATENT):KSamplerAdvanced 采样后生成的潜在空间图像,通常会传递给 VAEDecode 节点进行解码,生成最终的图像。
LoRA加载器(Low-Rank Adaptation)
- 将已经训练好的LoRA模型(通常是小型的、经过微调的权重)加载到基础的预训练模型中,以便在生成过程中应用这些微调的特性。通过LoRA,可以在不修改原始模型参数的情况下,实现对模型的适应和调整。
- 用于微调扩散模型和CLIP模型,改变Latent降噪的效果,实现控制风格等功能。多个LoRA可以直接连接到一起。
应用场景
- 模型微调:当希望在大规模预训练模型的基础上,针对特定任务或数据集进行微调时,可以使用LoRA来加载微调后的权重,提升模型在特定任务上的表现。
- 快速适应:在需要快速切换不同风格或内容的生成时,LoRA加载器允许在预训练模型上叠加多个LoRA模型,轻松实现不同风格的图像生成。
- 资源优化:LoRA方法在训练和推理时所需的计算资源和内存较少,适合资源有限的环境下进行模型部署。
- 多风格生成:使用多个不同的LoRA模型,可以在生成时快速切换风格或主题,增强模型的灵活性。
输入
- 基础模型(checkpoint模型):需要加载LoRA模型的基础预训练模型(如Stable Diffusion),LoRA模型将在此基础模型上应用,提升模型的生成能力。
- CLIP:文本编码器,用于将输入的文本转化为条件信息(如提示词)来控制图像生成的内容。
输出
- 微调后的模型:经过LoRA加载器处理后的模型,能够更好地适应特定任务或风格。
- CLIP:文本编码器,用于将输入的文本转化为条件信息(如提示词)来控制图像生成的内容。
参数
- LoRA名称:加载的LoRA模型名称
- 模型强度:控制LoRA模型对基础模型的影响程度,数值越大,影响越明显。调整模型的生成能力,以满足特定任务需求。该值可以为负数。
- CLIP强度:控制应用在CLIP模型上的强度,调整生成的图像与文本提示的匹配程度。该值可以为负数。
Zoe深度预处理器
一种用于图像生成和处理的高级工具,专注于在生成过程中优化深度信息。它通常用于将深度图(如3D模型或深度感知图像)与其他输入结合起来,以生成更具立体感和细节的图像。
作用
- 整合深度信息:利用深度图数据来增强生成图像的空间感和深度感,使得图像看起来更加真实和生动。
- 提高细节:通过深度处理,能够在图像生成过程中引入更多的细节,特别是在复杂场景和对象的渲染中。
- 改善图像质量:通过分析和调整深度信息,提高图像的整体质量,避免模糊或失真的效果。
Aux集成预处理器
一种用于图像生成和处理的工具,通常在生成模型的工作流程中起到增强输入数据质量的作用。它可以在生成图像之前对输入数据进行处理,以确保生成结果的质量和一致性。
作用
- 数据增强:在图像生成前对输入图像进行增强处理,例如图像缩放、裁剪、旋转等,提升模型对多样性和鲁棒性的适应能力。
- 特征提取:可以提取输入图像的特定特征,为后续的图像生成和处理提供有用的信息。
- 格式转换:将输入图像转换为适合模型处理的格式,确保输入数据符合预期的输入要求。
遮罩反转(Mask Inversion)
- 图像处理中的一种常用技术,主要用于修改图像的遮罩效果,反转遮罩区域的选择。该技术在图像生成、合成以及图像编辑中非常有用,可以用于创建更加复杂和细致的效果。
- 将原本选中的区域反转为不选中,将不选中的区域反转为选中。这对于需要对图像的特定部分进行处理而不影响其他部分非常有用。
G-DinoSAM语义分割
一种用于图像语义分割的模型,结合了 DINO(self-distillation with no labels)和 SAM(Segment Anything Model)的方法。这种模型特别适用于处理图像分割任务,通过深度学习技术实现对图像中不同区域的自动标记与分类。
作用
- 图像分割:将图像划分为不同的区域或物体,通过标记不同的区域实现图像理解。
- 自动标注:在没有人工标注的情况下,通过自监督学习方法生成精确的分割结果。
- 物体识别:帮助计算机识别图像中的不同物体或特征,便于后续的图像分析。
输入
- SAM加载器
一种用于加载和应用 Segment Anything Model (SAM) 的工具,主要用于图像分割和处理任务。SAM模型由Meta AI开发,旨在实现高效的图像分割,并能够处理各种图像内容,适用于多个应用场景。 - G-Dino模型加载器
一种用于加载和处理G-Dino模型的工具,G-Dino是一种基于深度学习的模型,通常用于图像生成、图像处理或其他相关任务。G-Dino结合了生成模型和对抗网络的优势,以提供高质量的图像生成能力。 - 图像
需要进行分割的输入图像,通常为RGB格式。 - 提示词
即clip,根据此提示词分割出提示词释义的区域
输出
- 图像
经过处理后的图像,输出的图像可能是带有分割效果的图像,帮助用户直观地查看处理结果。 - 遮罩
对应的分割结果,表示分割区域的二进制图像。通过遮罩明确指示图像中不同区域的分类,便于后续分析和处理。
设置Latent噪波遮罩
- 用于在潜在空间中控制和优化噪声,从而提升生成图像的质量。通过在潜在图像上应用噪声遮罩,能够减少不必要的细节干扰,确保生成的图像更加清晰和自然。
- 遮罩的设置允许用户灵活控制图像处理过程,确保重要细节得到保护,同时在其他区域进行有效的噪声处理。这种方法提高了生成图像的质量和效果。
应用场景
- 设置遮罩:用户可以通过绘制或选择区域来创建噪声遮罩,确定哪些区域应保持不变。
- 应用噪声处理:在处理潜在图像时,遮罩内部的像素不受噪声影响,而遮罩外的区域则会按照设定的噪声强度进行调整。
输入
- 潜在图像(Latent Image):需要处理的潜在空间图像,通常是从潜在空间生成的图像表示。
- 噪声遮罩(Noise Mask):定义在潜在空间中需要遮罩的噪声区域,可以是全图或局部区域的遮罩。选择性地应用或减弱噪声的强度,以达到更好的图像生成效果。
输出
潜在图像(Latent Image):输出经过噪声遮罩处理后的潜在图像,这个图像将用于后续生成操作。成的图像在经过噪声处理后,可以更好地保持细节并减少视觉噪声。