PTT評價

Re: [問題] 有可以討論AI繪圖關鍵字的地方嗎?

看板C_Chat標題Re: [問題] 有可以討論AI繪圖關鍵字的地方嗎?作者
acininder
(InInder)
時間推噓15 推:15 噓:0 →:46

NovelAI最近的tech blog正好有聊到這議題

主要是在clip module上面

首先看這張示意圖

https://i.imgur.com/szUMmnr.png


主流的(Dall-e, imagen, stable diffusion)架構由兩塊組成

訓練語言語意轉化為圖片語意的CLIP

和訓練生成圖片能力的U-NET

Stable diffusion和google的imagen在CLIP上的差別是

Stable diffusion使用CLIP的最後一層隱藏層狀態

而Imagen則是使用倒數第二層

NovelAI實驗後發現Stable diffusion可在interpret倒數第二層狀態下

採用最後一層的norm 進而在犧牲一點準確度的情況下 改善概念的拆分

舉例來說 正確的上色 以下圖來說

Hatsune Miku, Red Dress

https://i.imgur.com/NnHdeU0.png


若用原本的最終層狀態 會使紅色從衣服大量的溢出到頭髮和瞳色上

而使用新方案則能大幅改善這點


當然這充其量只是改善方案 不能完全解決

這目前算是diffusion的通病 還沒有完美的方案

現在不僅NovelAI自身下一代模型研究ing

Diffusion的爆熱也已經在NeurIPS 2022展現出來

聽朋友說只要是diffusion的topic都有超高accept率XD

也有很多新的方案和技術快速誕生

或許可以期待一下

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.163.84.235 (臺灣)
PTT 網址

doramon88810/12 15:16漂亮~

cybermeow10/12 15:17角色還是拆不出來 配AND也拆不出來

cybermeow10/12 15:18然後 12/2 score-based model workshop 啊 www

tchaikov181210/12 15:20原來如此,我明白了

diabolica10/12 15:21本猴子也懂

guogu10/12 15:26這邊難道只剩我還是草履蟲了嗎?

medama10/12 15:27

a54780858810/12 15:28可惜當初沒轉CS,根本不知道你在共三小

acininder10/12 15:31單以diffusion來說 比起CS的 應該數學系的更熟

cybermeow10/12 15:31物理系笑而不語 (X

arrenwu10/12 15:32數學系不太學這個的吧 EE裡面DSP的可能還比較有機會

acininder10/12 15:33這篇講的的確是比較實務面modeltuning 跟數學沒啥關係

arrenwu10/12 15:33我認識的EE裡面的Theorist大多對DL滿感冒的

acininder10/12 15:33但diffusion算近年來最數學的model了

acininder10/12 15:35從Energy based model到Langevin Equation

a54780858810/12 15:36數學系也沒有啦,他們或許能看懂,但是沒有接觸過

acininder10/12 15:36evidence lower bound 和 Markov chain 推導

arrenwu10/12 15:37這個比較接近 應用數學/統計 的分支

acininder10/12 15:37https://arxiv.org/pdf/2208.11970.pdf

acininder10/12 15:37google發的22頁推導paper

acininder10/12 15:39近年蠻多數學系轉CS碩的吧 這種的都蠻猛ㄉ 基礎扎實

a54780858810/12 15:40不是所有系都轉CS碩嗎

acininder10/12 15:42嘿嘿

acininder10/12 15:43也不一定要轉 教授突然就開始搞AI了><

arrenwu10/12 15:44這跟錢有關係

arrenwu10/12 15:44這也加重了Theorist們的不爽

cybermeow10/12 15:44我不得不說我真的很喜歡diffusion model 已經考慮跳槽

cybermeow10/12 15:45了 不過現在太紅競爭很嚴重 而且不知道能做多久

acininder10/12 15:45好一陣子內都會是diffusion稱霸吧 原理推導漂亮一回事

cybermeow10/12 15:45到頭來還是要把基礎打好不然天知道下個模型又用了什麼

acininder10/12 15:46重點是效果真的好 在能做的領域品質全面超越GANs

cybermeow10/12 15:46真的我今天在訓練gan 然後這東西果然不能用

arrenwu10/12 15:46是啊 重點是效果好XD

acininder10/12 15:46而且又好train 不像gans你還要顧兩個model 一不小心

acininder10/12 15:46又collapse

cybermeow10/12 15:47靠gan概念明明很漂亮就是訓練不起來 我現在要重想演算

cybermeow10/12 15:47法 頭痛 diffusion訓練上限制還是比較大

acininder10/12 15:47但缺點就是算力消耗大 訓練時間久

cybermeow10/12 15:47我今天大概訓練十次collapse九次 崩潰

acininder10/12 15:47不過最新一批paper開始應該一堆改善效率的出來了

cybermeow10/12 15:48就真的很競爭 現在入場

acininder10/12 15:48教授們很爽阿 transformer把舊題目拉出來生完一輪後

cybermeow10/12 15:49太晚了 然後老實講那些數學我也是半信半疑啦

acininder10/12 15:49diffusion又可以再生一輪==

arrenwu10/12 15:49我看過的DL相關教學,數學model的推倒比較像是靈感來原

cybermeow10/12 15:49天知道哪些深度學習的數學是真的能解釋背後現象的

cybermeow10/12 15:50還不是bound推一推發paper 對就是我lol

arrenwu10/12 15:50performance guarantee 相關的我還真沒看過

acininder10/12 15:51這波的diffusion原理2015就出來了

acininder10/12 15:512020突然就work了主要還是因為U-net的inductive bias

arrenwu10/12 15:51cybermeow有po過那篇2015的paper啊

acininder10/12 15:51個人感覺

cybermeow10/12 15:52只能說18 19 那批人真的有眼光

cybermeow10/12 15:52水paper的跟真正把方法做出來的還是不一樣

teddy1211410/12 16:06可以用單細胞生物也能聽的懂的說法解釋這篇嗎QQ

acininder10/12 16:10加了醬汁之後 龍蝦的味道就被凸顯出來了

DH302010/12 16:12所以我我說那個醬汁呢?還要多久才能做出來

acininder10/12 16:18那個醬汁,再給我一分鐘我一定能完成的

qxpbyd10/12 17:56這應該是leak才能得知的訊息吧? Automatic1111三天前有改

qxpbyd10/12 17:57我才知道 4ch那一群很瘋狂地要reproduce novelAI

qxpbyd10/12 18:10沒事 你第一句就說了 補連結 https://is.gd/UgmV2c