努力的五花肉:DALL-E 3 人物连续性公式及种子
🤖 作者:**努力的五花 肉 RaDesign **
这份文档把五花肉的三篇内容做了个集合,原文链接:
《DALL-E 3 人物连续性公式 · 上篇》 https://mp.weixin.qq.com/s/OIFMeG4Xecj8FvXr6jLobg
《DALL-E 3 人物连续性公式 · 下篇》https://mp.weixin.qq.com/s/SulqIqLC3V55hugdPsP-bA
《DALL-E 3 人物连续性 · 种子》https://mp.weixin.qq.com/s/GsNMRQTIYBM7rcLIz1Xlwg
DALL-E 3 人物连续性公式 · 上篇
这个公式来自 @AshutoshShrivastava 。研究了近百个小时,感谢这位伟大的作者,结尾附上该作者链接。
人物连续性公式
** 1.公式总结 **
Prompt:
[Base Prompt] + [additional details / variationinformation]+identifer-1
提示: [基本提示] +[额外细节**/**变量信息]+identifer-1
注意:[基本提示] 可以描述人物的 年龄/性别/图像风格等。
[额外细节/变量信息] 可以描述发型/服装类型等。
identifer 为 “标识符变量”。
- 1 数字可变,作用是提供图像编号,为 Chat Gpt 理解。
** 2.例子演示 **
1.这篇文章的起始图片。
DALL-E Prompt for this image is :
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, -0003
这张图片的DALL-E提示是:
描绘了一位名叫 Hope 的 30 岁美国女性,她的卷曲头发盘在发髻上,身穿一件绿色T恤 - 0003
2.现在,我想让 Hope 微笑,那么我会告诉 DALL-E 3 ( My command: make Hope smile )
DALL-E Prompt for this image will be :
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, smiling -0004
这张图片的DALL-E提示将是:
描绘了一位名叫 Hope 的 30 岁美国女性,她的卷曲头发盘在发髻上,身穿一件绿色T恤,微笑 - 0004
3.现在,我想让 " Hope 把手指放在嘴唇上",那么我会告诉DALL-E 3 ( My command: "now make Hope have a finger on her lips" )。
您会注意到她在微笑并把手指放在嘴唇上。为什么她微笑?因为默认情况下,DALL-E 3 会更新上一张图片,所以看看提示:
DALL-E Prompt for this image will be :
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, smiling, and placing a finger on her lips -0005
DALL-E 这张图片的提示将是:
描绘了一位名叫 Hope 的 30 岁美国女性,她的卷曲头发盘在发髻上,身穿一件绿色T恤, 微笑,并把手指放在嘴唇上 - 0005
4.现在,我希望 Hope 把手指放在嘴唇上但不是微笑,我会告诉DALL-E 3 (My command: "take -0003 as base and now make Hope have a finger on her lips")。我提到了 -0003,因为在那张特定的照片中,她没有笑。所以,请看提示:
DALL-E Prompt for this image will be :
illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, placing a finger on her lips -0006
DALL-E 这张图片的提示将是:
描绘了一位名叫 Hope 的 30 岁美国女性,她的卷曲头发盘在发髻上,身穿一件绿色T恤,把手指放在嘴唇上 - 0006
** 3.增加变化 **
1.根据公式,增加复杂的变化。
[Base Prompt] + [additional details / variationinformation]+identifer-1
您可以将这个简短的提示提供给 ChatGPT,让它按照这个结构进行操作。
<---提示开始--->
I have some instructions for you :you can reframe the prompt in the following way:Prompt Structure is : [Base Prompt] + [additional details / variation information] + identifer-1
我有一些指导信息要给你:
你可以将提示重新构建为以下方式:
提示结构是:[基本提示] +[额外细节/变量信息]+identifer-1
Base Prompt: "Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt"
If i say make Hope do something base prompt will be above one which i provided .
If I say now make Hope do some thing , the base prompt will be the current state of Hope with the last identifier.
For any additional details or variations that don't involve hair, append them under the "additional details / variation information" category and then add an identifier at the end.
基础提示:"画一张描绘一个30岁的美国女性Hope的插画头像,她的卷曲波浪发型盘成发髻,穿着一件绿色T恤"
如果我说让Hope做某事,基础提示将是我提供的上述那个。
如果我说现在让Hope做某事,基础提示将是Hope的当前状态,也就是最后一个标识符所对应的提示。
对于不涉及发型的任何额外细节或变化,将它们附加在“额外细节/变化信息”类别下,然后在末尾添加一个标识符。
Example 1: Changing Hair Style
If I ask for make hope hair flow, you can change the prompt to:
"Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair flowing, wearing a green t-shirt. + identifier-1"
示例1:更改发型
如果我要求让Hope的头发飘逸,你可以将提示更改为:
"画一张描绘一个30岁的美国女性Hope的插画头像,她的卷曲波浪发型飘逸,穿着一件绿色T恤。+标识符-1"
Example 2: Coffee
If i ask to make Hope drink coffee, then you can change the prompt to:
"Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt and drinking coffee. + identifier-1"
示例2:喝咖啡
如果我要求让Hope喝咖啡,那么你可以将提示更改为:
"画一张描绘一个30岁的美国女性Hope的插画头像,她的卷曲波浪发型盘成发髻,穿 着一件绿色T恤,喝咖啡。-标识符+1"
This approach keeps the Base Prompt intact while allowing for specific variations as needed. The identifier at the end can help keep track of variations.
Are you clear with this ?
这个方法保持了基础提示不变,同时允许根据需要进行具体的变化。末尾的标识符有助于跟踪各种变化。
你理解了吗?
<--- 提示结束 --->
ChatGPT的回应:
<--回应开始--->
1.是的,我清楚地理解了这些说明。
2.你设置了一个基础提示,并提供了一个结构,用于进行任何修改。
3.如果你使用词语“现在”,我将使用Hope的当前状态作为基础提示,并根据你的具体要求进行修改,将变化附加在“额外细节/变化信息”类别下。我还会为每个新请求递增标识符。
4.请提供Hope的下一个指令,我将相应地生成图像。
<---回应结束--->
2.这是 Hope 的第五张图片,将把它用作现在的起始图片。目前,Hope 正在微笑,手指放在嘴唇上,发型是髻子。
DALL-E Prompt for this image is:
illustration portrait of a 30-year-old American woman named Hopewith her curly wavy hair styled in a bun, wearing a green t-shirt, smiling, and placing a finger on her lips -0005
这张图片的DALL-E提示是:
插图肖像,30 岁的美国女子,名叫 Hope,她卷曲的波浪发型梳成髻子,穿着一件绿色T恤,微笑着,手指放在嘴唇上 -0005
3.如果我想基于先前的图像,让 Hope 的头发飘动,然后我会告诉DALL-E 3(My command: now make Hope hair flow),我使用了“现在”,它将采用上一个 图像并在其基础上构建。
DALL-E Prompt for this image will be :
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair flowing, wearing a green t-shirt, smiling, and placing a finger on her lips -0006
这张图像的DALL-E提示将是:
插图肖像,30 岁的美国女子,名叫 Hope,她卷曲的波浪头发飘动,穿着一件绿色T恤,微笑着,手指放在嘴唇上 -0006
观察:您可以看到它在基本提示中更新了头发的细节,而 Hope 正在微笑,因为那是她的最后状态。
4.现在,如果我想让 Hope 看书,但我想参考基本提示,然后我会告诉DALL-E 3(My command: "Make Hope read book")。
您会注意到我使用了“让”,她只是在读书,没有头发飘动,没有微笑或其他什么 - 这有助于我们不再一遍又一遍地引用基础图像,也有助于ChatGPT记住提示,因为我们在命令中已经给出。
DALL-E Prompt for this image will be :
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, reading a book -0007
**这张图像的DALL-E提示将是:**插图肖像,30岁的美国女子,名叫 Hope,她卷曲的波浪头发盘在发髻上,穿着一件绿色T恤,正在看书 -0007
5.1. 现在我的当前状态是 -0007,但如果我想更新 -0006 并希望 Hope 喝咖啡,我会告诉 DALL-E(My command: take -0006 as base and now make Hope drink coffee)。
DALL-E Prompt for this image will be :
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair flowing, wearing a green t-shirt, smiling, placing a finger on her lips, and drinking coffee -0008 (output image left side)
这张图像的 DALL-E 提示将是:
插图肖像,30岁的美国女子,名叫 Hope,她卷曲的波浪头发飘逸,穿着一件绿色T恤,微笑着,把手指放在嘴唇上,喝咖啡 -0008(左侧为输出图像)
5.2. 如果我想要发髻发型和喝咖啡,那么我会告诉 DALL-E(My command: take -0006 as base and now make Hope drink coffee but in bun hairstyle)。
**DALL-E Prompt for this image will be : **
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, smiling, placing a finger on her lips, and drinking coffee -0009 (output image right side)
这张图像的 DALL-E 提示将是:
插图肖像,30岁的美国女子,名叫 Hope,她卷曲的波浪头发盘在发髻上,穿着一件绿色T恤,微笑着,把手指放在嘴唇上,喝咖啡 -0009(右侧为输出图像)
请注意:左边是命令 a 的输出图像,右边是命令 b 的输出图像。
参考地址:https://twitter.com/ai_for_success/status/1715734170708939094
DALL-E 3 人物连续性公式 · 下篇
根据上篇讲了基础部分(增加元素细节),以及怎么去给提示,那么下篇要讲的还是脱离不了基础部分和提示,只是增加了人物连续性的复杂场景以及表情原理。还是需要感谢这位伟大的作者:@AshutoshShrivastava,结尾附上该作者链接。
人物连续性场景变化
** 1.前期提示准备 **
在我们开始制作图像之前,有一些重要的考虑因素:
**注意:**我们将遵循类似的提示格式,但在这种情况下,我们为基本提示设置了巨大的差异。
Prompt:
[Base Prompt] + [additional details / variationinformation]+identifer-1
提示: [基本提示] +[额外细节**/**变量信息]+identifer -1
Chat GPT 叙述的场景以 室内/室外活动 命令(这很重要,所以不要忽视它。了解它为什么以这种方式构建)。
您可以向 Chat GPT 提供这个简洁的提示,指示它遵循这种格式,但使用新的基本命令。由于我们正在使用相同的聊天实例,所以无需输入整个命令。
<---提示开始--->
Now, we're going to work on the activity scene.
We will set the base prompt as: 'Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun.'
Is that okay? In this case, you will have the freedom to update clothes and other details under the 'additional elements' section.
Are you ready now?
现在,我们将处理活动场景。
我们将把基本提示设置为:“画一位名叫 Hope 的30岁美国女子,她留着卷曲的发型盘在发髻上。”这个方式可以吗?在这种情况下,您将可以 在“额外元素”部分自由更新服装和其他细节。
您准备好了吗?
<--- 提示结束 --->
ChatGPT的回应:
<--回应开始--->
是的,这听起来是一个很好的方法。将基本提示设置为:
“画一位名叫 Hope 的30岁美国女子,她留着卷曲的发型盘在发髻上。”可以让您在不改变主要角色特征的情况下根据活动或场景调整服装和其他元素。我将确保只根据您指定的活动在“额外细节/变量信息”类别内进行修改。
感谢澄清,我已经准备好按照这种方式继续。请提供下一个您希望 Hope 参与的活动或场景。
<---回应结束--->
**注意:**这一调整是因为霍普穿着一件绿色T恤,我们不希望她到处都穿同样的衣服。这还演示了如何在不影响角色一致性的情况下轻微修改基本提示。
这次,我们是已经确定的基本提示,而不是图像。由于基本提示已设置并且 Chat GPT 已准备好,因此我们可以开始发布命令以构建我们的图像。
与上篇不同,我们不会使用(现在或制作)命令。相反,我们将简单地请求一个活动,然后 DALL-E 3 将创建图像。让我们看看它是如何工作的。
** 2.例子演示 **
1.如果我希望 Hope 去远足 (My command: Hope doing hiking ).
颜色提示:[基本提示] [额外细节/变量信息] +identifer** **-1
DALL-E Prompt for this image will be :
llustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, hiking in the mountains with appropriate attire and gear -0010
这张图片的DALL-E提示将是:
“画一位名叫 Hope 的 30 岁美国女子,她留着卷曲的发型盘在发髻上,穿着合适的装备 在山上远足。” -0010
**观察:**您可以看到它更新了一些细节,如山脉和合适的服装,这些是由 ChatGPT 提供的。
**注意:**术语“合适的装备”被用作概括性描述词,以使 DALL·E 3 生成的图像符合所提到活动常见着装。这为图像生成过程提供了一些灵活性。
2.如果我们想要确定 Hope 穿着的夹克颜色怎么办?我们当然可以指定这一点,但最好不要提供太多信息,让 DALL-E 3 处理细节。(My command: Hope doing hiking but I want her to wear white jacket and red backpack ).
DALL-E Prompt for this image will be :
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a white jacket and carrying a red backpack, hiking in the mountains -0011
这张图片的DALL-E提示将是:
“画一位名叫 Hope 的 30 岁美国女子,她留着卷曲的发型盘在发髻上,穿着白色夹克,背着红色背包,在山上远足。” -0011
**察:**您可以看到它更新了一些细节,加入了白色夹克和背着红色背包。
3.假设现在我们希望 Hope 在冬季的环境中制作雪人(My command: Hope in a winter setting, making a snowman )
DALL-E Prompt for this image will be :
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, dressed in winter attire, in a snowy landscape making a snowman -0012
这张图片的DALL-E提示将是:
“画一位名叫 Hope 的 30 岁美国女子,她留着卷曲的发型盘在发髻上,穿着冬季服装,在多雪的风景中制作雪人。” -0012
4.如果要在活动中添加一些文本,我们看看它是如何工作的 (My Command :Hope is in the library, wearing a black t-shirt with 'HOPE' written on it)
DALL-E Prompt for this image will be :
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, seated comfortably in a library setting, wearing a black t-shirt with the word 'HOPE' written on it, engrossed in reading a book -0013
这张图片的DALL-E提示将是:
“画一位名叫 Hope 的 30 岁美国女子,她留着卷曲的发型盘在发髻上,坐在一个舒适的图书馆环境中,穿着一件上面印有“HOPE”字样的黑色T恤,专心阅读一本书。” -0013
** 3.表情原理 **
在使用类似照片的真实图片时,捕捉情感是很简单的,但在使用插图类型的主题时,要保持情感和一致性要困难得多。
当主题是插图时,为什么很难保持某些情感的一致性?
1.考虑像悲伤、愤怒、快乐、惊讶、怀疑、好奇和焦虑等情感。这些描述词富有表现力。当渲染成插图时,特别是如果被压缩成一个单词,DALL-E倾向于放大这些表情。这可能导致更加卡通或风格化的外观。
**Prompt: **Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, {emotion} -1
**提示:**画一位名叫 Hope 的 30 岁美国女子,她的卷曲波浪发型盘成发髻,穿着绿色T恤,{情感} -1
**情感值可以是:**愤怒,快乐,悲伤,惊讶(Angry,Happy,Sad,Surprised)等。
**输出:**看看这些图片,您会注意到它们都具有卡通(夸装)的特点。
2.对于照片风格的真实图片,这不是问题。让我们来看下面的结果(This is Hope in a photorealistic version)。添加一个单词的描述词,比如悲伤、愤怒、快乐或惊讶,不会破坏一致性。
**Prompt: **Photoreaslitic portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, {emotion} -1
**提示:**30 岁的美国女性 Hope 的真实照片风格肖像,她的卷曲波浪发型盘成发髻,穿着绿色T恤,{情感} -1
**情感值可以是:**愤怒,快乐,悲伤,惊讶(Angry,Happy,Sad,Surprised)等。
3.对于梦幻、若有所思、好奇、自信和宽慰等情感,添加一个单词的描述词不会带来问题。因为这些情感没有那么生动和富有表现力。因此,DALL-E不会夸张这些表情,角色也不会显得卡通般。
**Prompt:**Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, {emotion} -1
**提示:**30 岁的美国女性 Hope 的插画风格肖像,她的卷曲波浪发型盘成发髻,穿着绿色T恤,{情感} -1
**情感值可以是:**梦幻、若有所思、好奇、自信和宽慰(dreamy, pensive, intrigued, confident, and relieved)。
**输出:**查看这些图像,您会发现一致性在整个过程中得以保持。
4.为了解决这个问题,我们需要巧妙地强调情感。最佳平衡的方法是使用“带有微妙但明显的{情感名称}表情”这种表述,找到这个完美的措辞是具有挑战性的。尝试了大约20种组合,只有这一种被证明是有效的。
**Prompt: **
Illustration portrait of a 30-year-old American woman named Hope with her curly wavy hair styled in a bun, wearing a green t-shirt, with a nuanced yet evident {emotion} expression -1
**提示:**30 岁的美国女性 Hope 的插画风格肖像,她的卷曲波浪发型盘成发髻,穿着绿色T恤,带有微妙但明显的{情感}表情 -1
**情感值可以是:**生气、快乐、悲伤、惊讶(Angry,Happy,Sad,Surprised)。
**输出:**检查这些图像,您会发现情感存在,但角色的一致性仍然保持完好
参考地址:https://twitter.com/ai_for_success/status/1716792768352440725
DALL-E 3 人物连续性 · 种子
根据前两篇学习,如何创建人物连续性公式,或多或少都会联想到 Midjourney 里面的 Seed 值,是否能运用到 Dall e3 里面,那么今天这篇文章更新来了!! 继续感谢这位伟大的作者:@AshutoshShrivastava,地址链接请看前两篇内容。
DALL-E-3最重要的功能更新
** 如何使用种子值 **
今天,发现了 DALL-E-3 现在允许我们使用种子值。如果您已经使用 DALL-E-3 工作,您应该知道以前种子号码是无法更改的,固定在5000。
然而,今天发现我们实际上可以指定种子号码。这意味着,通过相同的提示和种子,您可以在不同的聊天实例中一致地生成完全相同的图像。
您可能会想知道是如何发现这一点的。以前,DALL-E-3 会为给定的提示每次生成相同的图像,因为种子在后端设置。然而,当尝试使用之前的提示时,它们没有产生预期的结果。这促使我进一步调查,最终导致了这一发现。
首先,**设置你的自定义指令 **为:
" DMP " means: do not in any circumstance modify my prompt, please create image using this prompt:
Also, use wide aspect ratio by default and when you generate an image, always provide the seed number details for that image after it's rendered.
" DMP " 意味着:在任何情况下都不要修改我的提示,使用这个提示创建图像。另外,请默认使用宽屏幕纵横比,当生成一张图片时,始终提供生成该图片的种子数细节。 **注意:**在 DALL-E-3 中,即使你提供了一个种子,纵横比会影响最终结果。因此,在指定种子时,请确保使用相同的纵横比。
这个自定义指令的作用是令 ChatGPT 永远不修改你的提示,并根据你提供的内容生成。默认情况下,它使用宽屏幕纵横比,并返回种子 数。但有时候可能会出现错误。因此在工作时,你可以询问:“Do you know what DMP means? -- 你知道 'DMP' 是什么意思吗?” 一旦它回答,你可以相应地指示它继续工作,确保它正常运行。
**让我们创建一张图片例如:**如果我请求 "DMP:dog",它将使用完全相同的提示并为我提供一张图片以及种子号:1840089640。
现在,打开一个不同的 DALL-E 3 聊天实例,并输入如下命令:"DMP Prompt:dog, Seed: 1840089640"。它将提供完全相同的结果。
现在,更改种子值并观察结果。我的更新命令是"DMP Prompt:dog, Seed: 1844489640",我已经更改了种子号码。你会注意到不同的结果。
那么,我进入了另一个不同的聊天实例,并输入了相同的命令,没有指定种子值。它生成了不同的图像并返回了一个新的种子值。您可以使用此种子和提示再次生成相同的图像。