选择分类
  • 云瑞原创
  • Mockups
  • Ui Kits
  • 背景纹理
  • 图标
  • 平面图形
  • 探索
  • 笔刷
  • 图层样式
  • PPT模版
  • 影视素材
  • 教程
  • C4D资源
  • PS动作
  • 常用3D资源
  • 字体
  • 网站模板
  • LR预设
  • 设计学院

Stable Diffusion 提示词用法权威指南文章

开发一个建立良好提示的过程是每个Stable Diffusion用户要解决的第一步。这篇文章总结了通过实验和其他用户的意见发展起来的过程和技术。目的是写下我所知道的关于提示语的一切,这样你就可以在一个地方了解它们。

内容

  • 一个好的提示词的剖析
    • 主题
    • 媒介
    • 样式
    • 艺术形式
    • 网站
    • 分辨率
    • 更多细节
    • 颜色
    • 灯光
    • 备注
  • 负提示词
  • 建立一个良好的提示的过程
    • 迭代式提示建设
    • 使用负面提示
  • 提示技巧
    • 关键字权重
    • () 和 [] 句法
    • 关键字混合
      • 融合面孔
      • 穷人的提示到提示
  • 一个提示可以有多长?
    • AUTOMATIC1111中的提示限制
  • 检查关键词
  • 限制变异
  • 协会效应
    • 属性关联
    • 名人姓名的关联
    • 艺术家名字的关联
  • 嵌入是关键词
  • 定制模型的效果
  • 特定地区的提示

一个好的提示词的剖析

一个好的提示需要详细和具体。一个好的过程是查看关键词类别的列表,并决定你是否要使用其中的任何一个。

关键词的分类是

  1. 主题
  2. 媒介
  3. 风格
  4. 艺术家
  5. 网站
  6. 解决办法
  7. 其他细节
  8. 颜色
  9. 照明

在提示生成器中,有一个来自每个类别的广泛的关键词列表。你也可以在这里找到一个简短的列表。

你不需要包括所有类别的关键词。把它们当作一个检查表,提醒你可以使用什么。

让我们回顾一下每个类别,并通过添加每个类别的关键词来生成一些图片。我将使用V1.5版本的基本模型。为了看到单独提示的效果,我暂时不会使用负面提示。不要担心,我们将在本文的后面部分研究负面提示。所有图像都是用DPM++ 2M Karas采样器的30个步骤和512×704的图像尺寸生成的。

主题

主题是你想在图像中看到的东西。一个常见的错误是没有写够主题。

比方说,我们想生成一个施展魔法的女巫。一个新手可能只写

一个女巫

这给想象力留下了太多的空间。你希望女巫的形象如何?有任何描述她的词语可以缩小她的形象吗?她穿什么衣服?她施的是哪种魔法?她是站着、跑着,还是漂浮在空中?背景场景是什么?

稳定扩散法不能读懂我们的思想。我们必须准确地说出我们想要什么。

对人类受试者来说,一个常见的技巧是使用名人的名字。它们有很强的效果,是控制被摄者外观的一个很好的方法。然而,要注意的是,这些名字不仅可能改变脸部,还可能改变姿势和其他东西。我将把这个话题推迟到本文的后面部分。

作为一个演示,让我们把女巫铸成Emma Watson的样子,这是稳定扩散中使用最多的关键词。让我们说她是强大而神秘的,并且使用闪电魔法。我们希望她的服装非常详细,这样她看起来会很有趣。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing

我们得到了艾玛-沃森10次中的11次。她的名字对模特的影响是如此之大。我认为她在《稳定扩散》的用户中很受欢迎,因为她看起来很体面,很年轻,在各种场景中都很稳定。相信我,我们不能对所有的女演员说同样的话,特别是那些在90年代或更早的时候就已经活跃的女演员…

媒介

媒介是用于制作艺术作品的材料。一些例子是插图、油画、三维渲染和摄影。媒介有很强的效果,因为仅一个关键词就能极大地改变风格。

让我们加上数字绘画这个关键词。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting

ee93cf69a828180c0f8d083173877ad1-1
我们看到了我们所期望的! 图像从照片变成了数字画。到目前为止还不错。我想我们可以到此为止。只是开个玩笑。

样式

风格指的是图像的艺术风格。例如,印象派、超现实主义、波普艺术等。

让我们在提示中加入超现实主义、幻想主义、超现实主义、全身。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body

4564457a5b2fc1112cc7dcc08ed6a314
嗯……不确定他们是否增加了很多内容。也许这些关键词已经被之前的关键词暗示了。但我想保留它也无妨。

艺术形式

艺术家的名字是强大的修改器。他们允许你使用一个特定的艺术家作为参考,拨出确切的风格。使用多个艺术家的名字来混合他们的风格也很常见。现在让我们加上超级英雄漫画家斯坦利-阿特格姆-刘,以及19世纪的肖像画家阿尔方斯-穆夏。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha

83fe592b9c4220802fd2962e5a4b91db
我们可以看到两位艺术家的风格很好地融合在一起并产生了效果。

网站

利基图形网站,如Artstation和Deviant Art,聚集了许多不同类型的图像。在提示中使用它们是引导图像走向这些风格的一个可靠方法。

让我们在提示中加入artstation。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation

97f02c8b3918eaf63eed71de7384526c
这不是一个巨大的变化,但图像看起来确实像你在Artstation上找到的东西。

分辨率

分辨率代表图像的清晰度和细节。让我们来添加关键词高度详细和锐利的焦点。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus

4440d6f990081ff865c5fefa88476e18
嗯,也许不是一个巨大的效果,因为前面的图像已经相当清晰和详细。但添加一下也无妨。

更多细节

额外的细节是为修改图像而添加的甜味剂。我们将添加科幻、令人惊叹的美丽和歇斯底里,为图像添加一些氛围。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian

72abb383eb9d689f121712d6693e1885

颜色

你可以通过添加颜色关键词来控制图像的整体颜色。你指定的颜色可能会以色调的形式出现,或者出现在物体中。

让我们用关键字虹彩金为图像添加一些金色。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold

4d67bd7eb7ddc2d10c7db5003d0ef23f
黄金的效果很好!

灯光

任何摄影师都会告诉你灯光是创造成功图像的一个关键因素。照明关键词可以对图像的外观产生巨大影响。让我们在提示中加入电影般的灯光和黑暗。

Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold, cinematic lighting, dark

e261da6cc396393dc5176050a4f62ddf
具有普遍的负面提示。这完成了我们的示例提示。

备注

你可能已经注意到了,只要在主题中加入一些关键词,图像就已经很不错了。当谈到建立稳定扩散的提示时,往往你不需要有很多关键词就能得到好的图像。

负提示词

使用负面提示是引导图像的另一个好方法,但不是放进你想要的东西,而是放进你不想要的东西。它们不需要是物体。它们也可以是样式和不需要的属性。 例如,丑陋的、变形的

使用负面提示是v2模型的必备条件。没有它,图像看起来会比v1的差很多。对于v1版模型来说,它们是可选的,但我经常使用它们,因为它们要么有帮助,要么无害。

我将使用一个通用的负面提示。如果你想了解它的工作原理,你可以阅读更多关于它的内容。

ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face, blurry, draft, grainy

8df3a9886f0d654c215d4eb28a2ac5bb
具有普遍的负面提示词

负面的提示有助于图像更加突出,使它们不那么平淡。

建立一个良好的提示的过程

迭代式提示建设

你应该把提示建设作为一个迭代的过程。正如你在上一节中所看到的,只需在主题上添加一些关键词,图片就可以很好地完成。

我总是从一个只有主题、媒介和风格的简单提示开始。每次至少生成4张图片,看看你能得到什么。大多数提示并不是100%有效的。你想从统计学上得到一些他们能做什么的想法。

每次最多添加两个关键词。同样地,至少生成4张图片来评估其效果。

使用负面提示

如果你开始的时候,你可以使用一个通用的负面提示。

在否定提示中添加关键词可以是迭代过程的一部分。这些关键词可以是你想避免的物体或身体部位(由于V1模型不善于渲染手,在否定提示中使用 “手 “来隐藏它们也不失为一个好主意)。

提示的技巧

您可以通过在某个采样步骤中切换到不同的关键字来修改关键字的重要性。

以下语法适用于AUTOMATIC1111 GUI。你可以使用《快速入门指南》中的Colab笔记本一键运行这个GUI。你也可以在Windows和Mac上安装它。

关键字重量

(此语法适用于AUTOMATIC1111 GUI)。

你可以通过语法(关键词:因子)来调整关键词的权重。因子是一个值,小于1表示不太重要,大于1表示比较重要。

例如,我们可以在以下提示中调整关键词dog的权重

dog, autumn in paris, ornate, beautiful, atmosphere, vibe, mist, smoke, fire, chimney, rain, wet, pristine, puddles, melting, dripping, snow, creek, lush, ice, bridge, forest, roses, flowers, by stanley artgerm lau, greg rutkowski, thomas kindkade, alphonse mucha, loish, norman rockwell.

0.5-05038-1215212448-dog_0.5-autumn-in-paris-ornate-beautiful-atmosphere-vibe-mist-smoke-fire-chimney-rain-wet-pristine-puddles-mel
(dog: 0.5)

1-05037-1215212448-dog-autumn-in-paris-ornate-beautiful-atmosphere-vibe-mist-smoke-fire-chimney-rain-wet-pristine-puddles-melting-d
dog

1.5-05036-1215212448-dog_1.5-autumn-in-paris-ornate-beautiful-atmosphere-vibe-mist-smoke-fire-chimney-rain-wet-pristine-puddles-melt
(dog: 1.5)

增加狗的重量,往往会产生更多的狗。减少它往往会产生较少的狗。这并不总是对每张图片都是如此。但从统计学意义上讲,它是真实的。

这种技术可以应用于主题关键词和所有类别,如风格和照明。

() 和 [] 句法

(此语法适用于AUTOMATIC1111 GUI)。

调整关键词强度的一个等效方法是使用()和[]。(keyword)将关键词的强度提高1.1倍,与(keyword:1.1)相同。[keyword] 将强度降低0.9倍,与(keyword:0.9)相同。

你可以使用它们中的多个,就像在代数中一样……其效果是乘法的。

(keyword): 1.1

((keyword)): 1.21

(((keyword))): 1.33

同样地,使用多个[]的效果是

[keyword]: 0.9

[[keyword]]: 0.81

[[[keyword]]]: 0.73

Keyword blending

(此语法适用于AUTOMATIC1111 GUI)。

你可以混合两个关键词。正确的说法是提示调度。语法是

[keyword1 : keyword2: factor]

因子控制在哪一步将关键字1切换到关键字2。它是一个介于0和1之间的数字。

例如,如果我使用提示

Oil painting portrait of [Joe Biden: Donald Trump: 0.5]

为30个采样步骤。

这意味着第1至15步的提示是

Oil painting portrait of Joe Biden

而第16至30步的提示变为

Oil painting portrait of Donald Trump

因素决定了何时改变关键词。它是在30步x0.5=15步之后。

改变因子的效果是将两位主席不同程度地混合在一起。

image-19

你可能已经注意到特朗普身穿白色西装,这更像是乔装打扮。这是一个完美的例子,说明了关键词混合的一个非常重要的规则: 第一个关键词决定了全局的构成。早期的扩散步骤设定了整体构图。后期的步骤则完善了细节。

小测验: 如果把唐纳德-特朗普和乔-拜登互换一下,你会得到什么?

融合面孔

一个常见的用例是借用演员和女演员,创造一个具有特定外观的新面孔。例如,[Emma Watson: Amber heard: 0.85],40步是一个介于两者之间的外观:

image-20

当仔细选择这两个名字并调整系数时,我们可以精确地得到我们想要的外观。

次等的提示到提示

使用关键词混合,你可以实现类似于提示到提示的效果,生成一对高度相似的图像,并进行编辑。下面的两幅图像是用相同的提示生成的,除了用火代替苹果的提示时间表。种子和步骤的数量保持不变。

05070-1215212449-Amber-Heard_-emma-watson-_0.5-holding-an-apple_-fire_-0.9Victorian-FemininePerfect-Face-arms-outstretched-ab
holding an [apple: fire: 0.9]
05078-1215212449-Amber-Heard_-emma-watson-_0.5-holding-an-apple_-fire_-0.2Victorian-FemininePerfect-Face-arms-outstretched-ab
holding an [apple: fire: 0.2]
该系数需要仔细调整。它是如何工作的?这背后的理论是图像的整体构成是由早期的扩散过程设定的。一旦扩散被困在一个小空间里,调换任何关键词都不会对整体图像产生大的影响。它只会改变一小部分。

一个提示可以有多长?

根据你所使用的Stable Diffusion服务,你可以在提示中使用的关键词数量可能有一个上限。在基本的Stable Diffusion v1模型中,这个限制是75个tokens。

请注意,代币不等同于单词。Stable Diffusion使用的CLIP模型会自动将提示词转换为tokens,即它所知道的单词的数字表示。如果你输入一个它以前没有见过的词,它将被分解成2个或更多的子词,直到它知道它是什么。它所知道的词被称为代币,以数字表示。例如,梦想是一个代币,海滩是一个代币。但是dreambeach是两个令牌,因为模型不知道这个词,所以模型把这个词分解成它知道的dream和beach。

AUTOMATIC1111 提示词极限

AUTOMATIC1111没有令牌限制。如果一个提示包含超过75个标记,即CLIP标记器的限制,它将开始一个新的75个标记的块,所以新的 “限制 “成为150个。这个过程可以永远持续下去,或者直到你的计算机耗尽内存……

每块75个符号都是独立处理的,所得到的表述在进入稳定扩散的U-Net之前会被连接起来。

在AUTOMATIC1111中,你可以通过查看提示输入框右上角的小方框来检查标记符的数量。

image-23
AUTOMATIC1111中的令牌计数器

检查关键词

你看到人们使用某个关键词的事实并不意味着它是有效的。就像家庭作业一样,我们都会互相抄袭对方的提示,有时并没有多想。

你可以通过仅仅把它作为一个提示来检查一个关键词的有效性。例如,V1.5模型知道美国画家亨利-阿森西奥吗?让我们用提示来检查

henry asencio

image-13

积极的!

Artstation的感觉如何wlop?

wlop

image-12

嗯,看起来不像是。这就是为什么你不应该使用 “by wlop”。那只是增加噪音。

约瑟芬-沃尔是一个响亮的答案:

image-14

你可以用这种技术来研究两个或更多艺术家的混合效果。

Henry asencio, Josephine Wall

image-15

限制变异

要善于构建提示,你需要像稳定扩散那样思考。在其核心,它是一个图像采样器,生成的像素值,我们人类很可能说它是合法的、好的。你甚至可以在没有提示的情况下使用它,它将生成许多不相关的图像。在技术术语中,这被称为无条件的或无指导的扩散。

提示是引导扩散过程到与之匹配的采样空间的一种方式。我之前说过,提示需要详细和具体。这是因为详细的提示缩小了采样空间。让我们看一个例子。

castle

6b6d35255f5de9ff8904fabad711b1ce

castle, blue sky background

8f8bea67225c9df02bc5b5a924f6481b

wide angle view of castle, blue sky background

e49b08ba52a50c7e12456b3dc840c0c4

通过在提示中添加更多的描述性关键词,我们缩小了城堡的取样范围。在第一个例子中,我们要求得到任何城堡的图片。然后我们要求只得到那些有蓝天背景的图片。最后,我们要求它是作为广角照片拍摄的。

你在提示中说明的越多,图片的变化就越小。

协会效应

属性关联

有些属性是强相关的。当你指定了一个,你就会得到另一个。稳定扩散法生成最可能的图像,可能会产生非故意的关联效应。

比方说,我们想生成蓝眼睛的女人的照片。

a young female with blue eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light

4b315c09f5a988ae32370d1b48f1f0c3
蓝眼睛

如果我们改成棕色眼睛呢?

a young female with brown eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light

2e151543275ab284ace7589fd2899b52
棕色眼睛

在提示的任何地方,我都没有指明种族。但是因为有蓝眼睛的人主要是欧洲人,所以生成了白种人。棕色眼睛在不同种族中更常见,所以你会看到一个更多样化的种族样本。

刻板印象和偏见是人工智能模型的一个大话题。在这篇文章中,我将局限于技术方面。

名人姓名的关联

每个关键词都有一些无意的联想。对于名人的名字来说,这一点尤其真实。一些演员在拍照时喜欢摆出某些姿势或穿上某些衣服,因此在训练数据中也是如此。如果你想一想,模型训练只不过是通过联想学习。如果泰勒-斯威夫特(在训练数据中)总是翘着二郎腿,模型也会认为翘二郎腿就是泰勒-斯威夫特。

59744904aae5cdf2b7592790c399c86d
提示词: full body taylor swift in future high tech dystopian city, digital painting

当你在提示中使用泰勒-斯威夫特时,你可能是指使用她的脸。但主体的姿势和装束也有一定的效果。这个效果可以通过单独使用她的名字作为提示来研究。

姿势和装束是全局性的构成。如果你想要她的脸,但不想要她的姿势,你可以在以后的取样步骤中使用关键词混合来把她换进来。

艺术家名字的关联

也许最突出的联想例子是在使用艺术家名字时看到的。

19世纪捷克画家Alphonse Mucha在肖像提示中是一个很受欢迎的出现,因为这个名字有助于产生有趣的点缀,而且他的风格与数字插图融合得非常好。但它也经常在背景中留下标志性的圆形或圆顶形图案。它们在户外环境中可能看起来不自然。

a0fe911d493f70c437d25f64c5b12740
提示词: digital painting of [Emma Watson:Taylor Swift: 0.6] by Alphonse Mucha. (30 steps)

嵌入是关键词

嵌入,是文本反转的结果,不过是关键词的组合。你可以期望它们的作用比它们所宣称的要大一些。

让我们看看下面的铁人做饭的基础图片,不使用嵌入物。

grid-1060
提示词: iron man cooking in kitchen. 

Style-Empire是我喜欢使用的一个嵌入物,因为它为人像图像添加了一个暗色调,并创造了一个有趣的照明效果。由于它是在一张有夜间街景的图片上训练的,你可以期待它增加一些黑色,也许还有建筑物和街道。请看下面添加了嵌入物的图片。

grid-1059
提示词: iron man cooking in kitchen Style-Empire. 

注意一些有趣的效果

  • 第一张图片的背景变成了夜晚的城市建筑。
  • 铁人倾向于露出他的脸。也许训练图像是一幅肖像画?

因此,即使嵌入的目的是为了修改风格,它也只是一堆关键词,可能会产生意想不到的效果。

定制模型的效果

使用定制模型是实现风格的最简单方法,保证。这也是稳定扩散的独特魅力所在。因为有庞大的开源社区,数以百计的自定义模型可以免费使用。

当使用一个模型时,我们需要注意一个关键词的含义可能会发生变化。这对于风格来说尤其如此。

让我们再用Henry Asencio作为一个例子。在V1.5版本中,仅他的名字就能生成:

image-13

使用DreamShaper,一个为人像插图而微调的模型,用同样的提示给出了

image-21

这是一个非常体面但明显不同的风格。该模型在生成清晰漂亮的面孔方面有很强的基础,这里已经揭示了这一点。

因此,当你在自定义模型中使用一种风格时,一定要检查。 梵高可能不再是梵高了!

特定地区的提示

你知道你可以为图像的不同区域指定不同的提示吗?

例如,你可以把月亮放在左上方:

image-34

或者在右上方:

image-39

你可以通过使用区域提示器扩展来做到这一点。这是一个控制图像构图的好方法!

翻译:云瑞设计
原文:stable-diffusion-art

云瑞设计小程序
云瑞设计小程序

微信扫一扫
手机使用更方便!

云瑞设计订阅号
云瑞设计订阅号

关注我们的微信订阅号,不错过任何福利。