[瑟瑟] 看色圖不求人Part2 AI生成色圖全教學

cybermeow 發表於 2022/9/20 上午9:37:20

看板C_Chat標題[瑟瑟] 看色圖不求人Part2 AI生成色圖全教學作者

cybermeow

(北歐組一生推)時間Sep 20 09:37:20 2022推噓46 推:46 噓:0 →:16

PTT評價

古拉鎮樓 (從Discord搬運非本人生成)
https://i.imgur.com/HWRVeJW.png

Part 1 在這 https://www.pttweb.cc/bbs/C_Chat/M.1662444496.A.2E6

不重要過時了這篇將包含所有你生成色圖需要的資訊

1. 使用者界面 Stable Diffusion Webui

天天更新官方的在這裡
https://github.com/sd-webui/stable-diffusion-webui

但個別版本一堆主流好像是用1111的個人也是用這個
https://github.com/AUTOMATIC1111/stable-diffusion-webui

跑起來大概長這樣
https://i.imgur.com/JmYKTSv.png

安裝方式按照每個網站說的像是官方的寫這樣
windows
https://github.com/sd-webui/stable-diffusion-webui/blob/master/docs/1.installation.md
linux
https://github.com/sd-webui/stable-diffusion-webui/blob/master/docs/1.linux-installation.md

1111的Nvidia卡寫這樣
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Install-and-Run-on-NVidia-GPUs

個人linux就是clone回來
開conda環境
跑python launch.py
有dependency問題就修然後就好了

另外也有用Google Colab的選擇只想測試沒有要瑟瑟的人可以用

使用上就像上面那張可以選擇 postive 跟 negative prompt
https://i.imgur.com/JmYKTSv.png

(negative prompt 貌似只有 1111 的有支援)

positive個人一般放 artwork of ... 之類的
negative很迷可以放一些感覺負面的東西 (如圖中所示)
也可以試著避開一些結果例如把opened mouth放過去讓嘴巴閉起來之類的

到底怎麼找到合適的prompt蠻不直覺的
而且很浪費時間畢竟這個東西一個月後大概就長不一樣了
所以下面會介紹其他方式來生成想要圖片

2.模型

有了使用者界面最重要的當然是模型本身

幸運的是現在很多人在訓練從一般的到動畫到瑟瑟到pony到furry都有

這裡整理了一些
https://rentry.org/yrpvv

一般ACG用Waifu Diffusion 這週末會釋出v1.3

要瑟瑟用Lewd Diffusion 不太好控目前只是beta beta beta版本

大老們還持續在蒐集資料跟訓練中

載下來後傳到webui資料夾裡面models的資料夾就可以用了

理論上用哪個模型現在可以直接在Settings換就可以

不過目前似乎有bug所以behavior有點迷有時候直接整個關掉重開比較方便

另外因為是開一個port 可以在伺服器開外部ssh進去

也有支援直接public開給人用等等

3.圖片生成: 學習概念篇

如上所說要用prompt生成想要的圖片實在不易

所以個人推薦自己跑一個 textual inversion 學習你想要的概念的embedding

之前已經發了好幾篇實作案例
https://www.pttweb.cc/bbs/C_Chat/M.1662622748.A.4E6
https://www.pttweb.cc/bbs/C_Chat/M.1662808060.A.746
https://www.pttweb.cc/bbs/C_Chat/M.1662880538.A.386

這一次拿來測彩奈
https://i.imgur.com/H7XS3YX.png

頭髮遮眼睛真的學不起來髮飾則微妙

要學這個embedding個人測試過兩個分別是
以stable diffusion原本repo為基礎的
https://github.com/lstein/stable-diffusion/blob/main/docs/features/TEXTUAL_INVERSION.md
和diffuser的
https://github.com/huggingface/diffusers/tree/main/examples/textual_inversion

學這個12GB Vram的話圖片大小用448x448才不會記憶體容量不足
Vram更多直接用原本的512x512就可以

個人覺得diffuser的操作起來比較容易但每次重新複製整個模型很迷
如果用diffuser的話產生的東西裡面會有會有一個.bin的檔案就是學到的embedding

至於用第一個好處是可以用tensorboard看當下進度
而其中目前生成的圖片會存在log/..../images/train面
可以大概判斷一下目前學的如何覺得ok的時候停掉
跑的過程會直接產生一推.pt的檔案在checkpoints裡面

之後就在webui開一個embeddings的資料夾
把想要的.pt放進去如果沒意外你可以選最後一個 (embeddings.pt)
改一下名稱像是arona.pt 之後prompt直接輸入arona拿學到的embedding
如一開始的圖所示 (這裡用arona0)
https://i.imgur.com/JmYKTSv.png

至於diffuser生成的.bin檔案把結尾改成.pt一樣同一個方法用

textual inversion因為不調模型只學embedding所以受限於模型參數本身

沒辦法完全重現想要的結果

想要更符合的圖片的話除了直接finetune還可以用dreambooth
https://github.com/XavierXiao/dreambooth-stable-diffusion

比起finetune只需要少量圖片

跑起來比textual inversion還快 (不到一小時)

缺點是訓練出來的模型沒有相容性一個觀念就一個模型
而且因為調整個模型需要30G Vram 現階段幾乎只能用雲端服務租A6000
不過很便宜舉例來說一個人訓練的古拉模型花才幾百台幣
可以得到以下成果
https://i.imgur.com/jYQA6gC.png

比起個人之前的文章很明顯更好的學到了特徵
只是dreambooth學到的東西也不好控制
常常prompt給錯就整個崩掉
相較之下textual inversion得到的結果雖然比較差但壞掉時也是漸進式的

下面的古拉自拍系列prompt也調很久
https://i.imgur.com/69dRvb7.png

開頭那張也是這個模型生的

4.圖片生成: 以其他圖片做基底篇 Image to Image

webui功能一大堆天天更新有興趣的可以自己看

這裡再介紹一個image2image用圖片當輸入作為參考

就某個角度來說它這個implementation是用個很簡單的演算法

效果差強人意

但拿來做風格微調或者當作圖片構圖基底還算能用

界面長這樣
https://i.imgur.com/fczYbl2.png

使用範例拿來把戀X或女X3dX的圖2d化

像這張 (取自https://www.pixiv.net/artworks/85531604)
https://i.imgur.com/47jljPp.png

https://i.imgur.com/XOA8Q5k.jpg

或是 (目前的模型仍然有生成四肢障礙
https://i.imgur.com/x7WxXHa.jpg

https://i.imgur.com/eMC89Qs.jpg

Denoising越大會離遠本圖片越遠因為會先加一堆噪音開始重新繪圖
(圖片生成原理細節: https://www.pttweb.cc/bbs/C_Chat/M.1661681711.A.DE3

再貼幾個 (右3d 左2d化
https://i.imgur.com/dRBO1Qp.png

https://i.imgur.com/8Dvl4rZ.png

https://i.imgur.com/ReJK5Az.png

source:
https://www.pixiv.net/artworks/87009158
https://www.pixiv.net/artworks/85178188
https://www.pixiv.net/artworks/85443189

當然像是lyroris那篇把2d真人化也可以
當輸入是就是真實系3d cg
只能說效果很可怕基本上就是deepfake

然後目前雖然有支援inpainting也就是把缺失部分補足的功能
但個人發現diffuser跟stable diffusion原本repo的演算法不一樣
webui應該是用後者
然後兩個演算法感覺都沒到很好
所以有興趣的人應該可以藉此水一篇paper (雖然應該一堆人會去水了

5.色圖

上面那套用正確的模型下去做基本上可以生成各種色圖

不過目前主要受限於資料品質以及clip embedding相關知識不足

當姿勢或視角跑掉太多基本上幾乎生不出來

日本的馬賽克規定也變相增加訓練難度使得關鍵部份常常效果不佳

但各種調整還是可以有不錯的結果

有興趣可以去 4chan h/hdg 看 (不過那裡也混了各種真實系的

以下示意圖應該不會被桶吧?
https://i.imgur.com/hcC4K9n.png

https://i.imgur.com/FCUWKY2.png

置底貼個彩奈換裝系列效果依舊差強人意
https://i.imgur.com/a8gffeN.jpg

網路上有幾個discord也都可以加 (應該都是英文的

--
北歐組一生推
https://i.imgur.com/ydMoryp.jpg

https://i.imgur.com/njHa0OA.jpg

https://i.imgur.com/KVrWmNb.jpg

https://i.imgur.com/leUc4jP.jpg

https://i.imgur.com/aWFuDE4.jpg

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.34.19.251 (臺灣)

※ 文章網址:

https://www.ptt.cc/C_Chat/M.1663637848.A.AA1

推

LeeXX09/20 09:39推

推

smart0eddie09/20 09:39色色

→

bamama5609/20 09:40瑟瑟教學

推

ataky09/20 09:40爆讚

推

Aka230601209/20 09:40推

推

hh123yaya09/20 09:41最正確的使用方法

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 09:42:19

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 09:43:37

推

Political09/20 09:43推

※ 編輯: cybermeow (114.34.19.251 臺灣), 09/20/2022 09:50:48

推

billy79112209/20 09:47所以這可以訓練r18圖嗎

上面lewd diffusion就是完全在ACG r18圖訓練的真人的更是行之有年了 furry pony也都是有R18的

推

REDF09/20 09:48推科技進步

→

REDF09/20 09:48完成這些的人應該領諾貝爾和平獎

→

f173102509/20 09:49色圖永動機要研發成功了嗎

推

MonDaNai09/20 09:51學術研究

推

Koyomiiii09/20 09:51學...學術研究（鼻血

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 09:55:21

推

kkoejeo09/20 09:57謝囉

推

goldfishert09/20 09:57會不會以後有人用殭屍電腦來畫色圖上傳牟利啊?

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 09:59:05

→

roribuster09/20 09:59畫圖ai最終都會被人類訓練成只會畫色圖

推

SetsunaOgiso09/20 10:00槓文組看不懂啦

推

aiglas020909/20 10:05浪漫優質

推

DarkyIsCat09/20 10:05AI:人類就是色色

推

js85060409/20 10:05還好AI不看迷因，不然畫一畫都變阿姆斯壯

推

iwinlottery09/20 10:05以後不用去理洽請神了

推

HDDY09/20 10:09這篇有點猛

→

ARCHER223409/20 10:10電腦白痴的我已經過載了

→

ARCHER223409/20 10:10有沒有一鍵生成澀圖的啊？

你安裝完成就是一鍵了或是請別人安裝好開給你用也是一鍵剩下就很多東西要調整自己想文字放什麼使用者介面倒是做很快開源來這個月每天都在飆剩下或是背後演算法要好之後有自然會有人寫介面

推

SunnyBrian09/20 10:11看不懂也要先推

推

AdmiralAdudu09/20 10:14太爽辣色圖自給自足

推

ImCasual09/20 10:16爆生時間

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 10:17:13

推

herbleng09/20 10:17推

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 10:18:00

推

CYL00909/20 10:22以後色圖自己產

推

Tsozuo09/20 10:23為什麼覺得AI瑟瑟比手繪色色還複雜.....

因為還在開發階段五年後就不好說了

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 10:27:27

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 10:29:25

推

uohZemllac09/20 10:29推

推

ryo100809/20 10:30畫圖學不好，電腦又學不好，我還有什麼用QQ

推

newcsie6809/20 10:30推有空也想來研究一下

推

likeyousmile09/20 10:33太強了

推

frankfipgd09/20 10:39推一個w

推

AlianF09/20 10:40太苦了我只是想要瑟瑟

→

ARCHER223409/20 10:41了解，我需要找電腦工程師表妹幫我裝好

→

ARCHER223409/20 10:41這樣會社死嗎？

→

cybermeow09/20 10:47跟她說要用人工智慧進行藝術創作聽起來就很潮

推

nyanpasu09/20 11:13一天10次有材料啦

推

qxpbyd09/20 11:24好奇你兩個upscaler的來源是哪裡? Reddit的unstablediffus

→

qxpbyd09/20 11:25ion被BAN了 NovelAI也有自己做了anime和furry model

我就用模型生成沒用upscaler欸 novel ai都不開源搞sfw吧zzzzz

推

tamynumber109/20 11:26等到AI理解人類性癖的時候，就是決定要毀滅人類的時

→

tamynumber109/20 11:26刻了

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 11:37:13

推

longkiss061809/20 11:37感受到時代的進步

推

Koyomiiii09/20 11:37我比較怕以後有人大量生產157

推

qxpbyd09/20 11:48沒事Google到了 NovelAI至少他DC現在是可以免費產圖

→

qxpbyd09/20 11:49我不確他之後是走midjourney模式還是會開源不過SD一開始

→

qxpbyd09/20 11:50在DC也是會用SFW filter 幫助他們產生SFW版本

→

qxpbyd09/20 11:51走商業模式是沒辦法只能說SD創辦人太有錢目光也很遠

需要賺錢的確是現實上很麻煩的點理想上是走開源軟體那套做Open Source software as a service 而且老實講現在這個東西這麼多人搞實在不看好靠模型賺錢不如開源演算法模型趕快做平台 hugging face 也是幾乎都開源的市值也到了20億美金不知道他們商業模式怎麼樣訓練waifudiffusion的人說 but if they do make some high quality smut model and never open source it, i'm g oing to just train a clone of it and make it open source. 然後也不知道是受限於美國商業文化還怎樣全部都畫地自限做sfw 像是今天讓幻影社來做是不是就會完全不一樣明明nsfw也是很大的商機當然把這樣的模型用midjourney那套做也不合理雖然理想上是把nsfw模型開源給所有人用然而這背後確實也有很多的社會因素需要探討只是實在是很不爽很多公司什麼都商業機密那一套

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 12:05:33

※ 編輯: cybermeow (172.58.38.170 美國), 09/20/2022 12:18:14

推

nicehuman09/20 12:48推

→

fmp123409/20 12:51色色

推

harryzx009/20 13:11太棒了但是看不懂

推

attacksoil09/20 13:24哇靠我好像玩得起來來試試

推

outsmart3309/20 14:11太專業了