Re: [閒聊] AI畫圖是不是大數據拼圖?
我很久以前連waifu diffusion都還沒出來就發過了
https://www.pttweb.cc/bbs/C_Chat/M.1661681711.A.DE3
複製貼上自己的文章算抄襲嗎
--------------------
造成這波圖像生成革命的推手
正式所謂的 Diffusion / Score-matching model 系列
一般往前最早大約推到2015年這篇文章 [1]
https://arxiv.org/abs/1503.03585
Deep Unsupervised Learning using Nonequilibrium Thermodynamics
不過船過水無痕 之後幾年還是一直由GAN (Generative Adversarial Netwok 生成對抗網路) 統領生成模型這塊
直到2019年後兩派人馬分別用不同個觀點把這系列的效果真的做起來後
才有我們今天所看到的這些結果
所以說 Diffusion model 到底是什麼 會什麼效果可以這麼好
下面分三個面向來談
真的想深入了解的很推薦今年 CVPR 的 tutorial
https://cvpr2022-tutorial-diffusion-models.github.io/
深入淺出的從不同面向介紹這些模型
1. Diffusion model as denoiser
最直覺最好解釋 同時也可能是最正確的觀點
是把 Diffusion model 當作一個不斷去噪的過程
以下圖片分別取自 DDPM 的 Paper [2] 以及上面提到的 tutorial
https://imgur.com/kkj76zH
第一張圖示從右到左 x0 到 xT 不斷地加噪音
而訓練是學習如何把不同程度噪音的圖片還原成原本的資料
由於還原無法完美 所以嘗試還原再加上一定程度的噪音
相當於學習如何從一個噪音較多的 xt 到一個噪音較少的 x_{t-1}
而最後生成圖片的時候
則是從白噪音不斷去噪 得到我們所見到的成果
至於為什麼這簡單的解釋正是真的的原因 可以參考
Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise [3]
2. Diffusion model as maximum-likelihood model
數學的角度上來講
Diffusion model 跟任何機率模型一樣
(Gaussian mixture, Hidden markov chain or whatever
都是由許多參數來描述一個機率
也就是經過上面一部一部去噪所得到的機率分佈
不過它由於利用許多如今神經網路的特性所以效果特別好
稍微讀過統計的人大概都聽過
學習一個模型最常用的就是 maximum-likelihood
白話來說 就是如何找到一組參數使得在這個參數下觀察到手邊資料的機率是最大的
而所謂訓練去除噪音的過程
其實就是在最小化訓練集機率分佈跟模型機率分佈的交叉熵的某個上界
以達到 maximum likelihood 的效果
詳細推導可以參考
https://lilianweng.github.io/posts/2021-07-11-diffusion-models/
而這也是 DDPM [2] 或者 2015 那篇 [1] 的看法
另外同樣機率模型來說 Diffusion model 也可以看作一種 energy model
又或者是 hierarchical VAE 的特例
3. Diffusion model as discretization of a reverse stochastic differential equation
如果把剛剛一部一部往前加噪音連續化
那將成為一個隨機微分方程的軌跡 (trajectory)
將它從我們感興趣的圖片的機率分佈帶到高斯噪音
而這個隨機微分方程其實是可逆的
往回走得過程需要學每一個時間點的 score function
也就是 gradient of log density
如同下圖所示 (取自 https://yang-song.net/blog/2021/score/ 那邊有詳細解釋
https://imgur.com/fprfULR
而其實學習如何去噪 也可以理解成在學習這個 score function
上面的 sampling process 也跟學好 score function 後沿著這個 reverse SDE 走回來有異曲同工之妙
另外同樣 score function 系列的
比較早期的 Annealed Langevin Dynamics 也是類似的概念
--------------------
好貼完了
今天出了waifu diffusion 1.3
https://huggingface.co/hakurei/waifu-diffusion-v1-3
跟hentai diffusion 1214
https://huggingface.co/Deltaadams/Hentai-Diffusion/tree/main
正在測效果但不會下prompt
崩潰
--
引用自己的文章說不定還真的有些人會告你抄襲
我發現我才是猴子
跟AI相比
沒關係 我們會看色圖就好了
你有經過創世神同意引用自己文章嗎
論文 引用 抄襲 嗚我頭好痛
即使是解ODE,應該也能視為在dual space裡面的簡單操作。
所以生成圖就是可以想像一張不存在的圖被上噪音了
AI 去去噪 是這樣ㄇ
幸好我看得懂 樓下說看完了還好而已
原來是這樣練的 之前有試過每一步都讓他展示
起始看起來就是一片彩色雜訊然後慢慢浮出形狀
……至少「dual」in some sense。
不太確定你的意思 我做gradient descente也可以全部當作是在dual space 反正詮釋方法很多種 我跟sde也不熟
這樣我在玩novelai裡的seed 其實就是起始雜訊的seed?
都是 有些回推過程每一步都有噪音 像是Euler a 那就是起始噪音跟每一步的噪音
推個簡單易懂
還有圖片的prompt沒解釋
啊對了還要解釋clip embedding跟text to image 板上神人那麼多等別人發好了 我要繼續玩新出的模型www 反正大概念就是把那個文字訊息訓練去噪時也當輸入讓他一起學 所以才需要用有文字描述的訓練集 至於怎麼讓輸入文字變成模型懂的又是一門學問
推
完蛋 微方和機率統計都還給老師了...
清楚明了
*瞭
雖然還是不太懂但感謝解說
要完全搞懂原理太難了= = 就算相關領域的也得花點時間去
了解 還是看色圖就好
長知識推
也不難 就跟計算器也是拆成0跟1一樣 只是這中間多了很多
讓機器語言更強的方法
摁摁 我也是這麼想
太專業了8
恩嗯 跟我想的一樣
專業推
專業推推
快推免得被人發現我們不懂XD
不行。你引用有著作權的問題
我還以為去噪很早就發展完了
42
最近回去念書了,念的programme名字有AI,應該可以發個言ㄅ 新科技需要熱衷的族群做推廣,有推廣才有funding,我才有薪水qq 不過這些族群不一定對科技有正確的認識 這幾天看到一些不精確又容易誤導的解釋真的會中風 想說做點簡單的科普(科普很難我知道qq)6
很久以前有人發現圖像可以拆解成直線 圓圈等等很小的基本圖樣來表示 用這些基本圖樣可以組成各式各樣的圖37
首Po大家最近討論的AI畫圖 我本來以為真的是AI汲取各種關鍵字 然後用算的方式算出圖陣 看大家玩下來 比較像是AI去全球所有的圖畫數據庫裡面71
只要是深度學習AI,原理都是把圖轉換成矩陣,通過神經網路作back propogation學習特 徵,在整個模型的運算過程中只有矩陣,不存在任何圖像拼接的過程 你認為圖很像,是因為那個tag底下的圖大多有類似特徵,模型通過矩陣學習到這個特徵 當然,也有一些generator的算法是會拿部分來源當輸出,不通過矩陣運算的,怎麼選也 是讓模型自己學,類似概念可以參考pointer network或residual network之類的算法8
首先當然是算的 如果要從全球資料庫找圖再拼圖 那硬碟空間跟運算時間都會非常驚人 從實際面來看很難做到像現在5秒就出一張圖 再來是目前很紅的Novel AI 目前畫風統一程度確實不像一般Stable Difussion17
不是,兩個意思完全不同。 用簡單點的說明方式解釋大數據拼圖和AI畫圖的話。 大數據拼圖就像是有隻以光速的猴子在數十億張圖中找出符合tag要求的圖片,再以各個部 位做切割調整後貼上。 AI就像是個技術高超的繪師,擁有無限壽命還有加速世界的加速能力外掛,另外還有多工處56
我嘗試來簡單圖解一下 AI生成圖的概念 因為 1. 想要簡單解釋 2. 我不是本科生 請板上各位高手不吝指教 不過別太嚴格 見圖一 首先,我想要從向量空間開始講起21
所以AI是在訓練如何灑鹽,依精準比例灑出一片圖 在大量鹽巴堆裡還原的過程總會產生誤差就是AI的隨機性吧~ 就像是把羅夏的墨跡圖拿給佛洛伊德看:3
這個加噪降噪的過程可以用數學方程表達 比如說雷太獵奇奶的概念 人類的理解就是巨乳、氣球 diffusion的理解則是一堆數學式 同樣的概念,不同的表達方式
爆
[討論] 猴子都會的AI繪圖軟體安裝教學因為很多人私我所以乾脆寫了這篇 小鬍子:智商在正常以上的,會寫程式,會git,會自己讀安裝說明,不想自己產色圖的請出 去 我就預設你是啥都不會又想要色圖的猴子,一步一步的教你安裝stable-diffusion-webui 預設環境為windows,顯卡N970以上,我不確定970以下跑不跑得動,而linux使用者應該也46
[瑟瑟] 看色圖不求人Part2 AI生成色圖全教學古拉鎮樓 (從Discord搬運 非本人生成) Part 1 在這 不重要 過時了 這篇將包含所有你生成色圖需要的資訊 1. 使用者界面 Stable Diffusion Webui37
[瑟瑟] 瑟瑟不求人Part3 AI畫馬娘色圖可以嗎?上圖34
[閒聊] 驚!看色圖不求人 AI是否也能畫色圖?雖然下了很農場的標題 但這一篇認真的研究論文 大家或許以為AI跟色圖很遙遠 但事實真的是這樣嗎 在一年前可能沒有錯 但經過最近的突飛猛進 故事已經進入了新的轉捩點24
[瑟瑟] 煉金萊莎和深淵娜娜奇AI繪圖模型釋出稍早貼過不少了 萊莎 trigger 用 rizaDB anime_girl15
[閒聊] DDPM: 從隨機微分方程到AI圖片生成週末閒著來聊聊最近很紅的AI生成動畫圖片 不廢話先上圖8
[閒聊] AI stable diffusion 的繪圖前幾天逛了板上的AI繪圖,今天又看到了這個 真的蠻厲害的,用stable diffusion畫的 這幾張是我個人比較喜歡的,如果認真去看這些圖還是可以發現一些破綻,尤其是手指的部 分6
[問題] 拿NovelAI的圖訓練model?好奇現在stable diffusion 現在有很多model 有原始的v1.4 動漫的waifu 獸控的furry 除此以外還有針對特定人物去訓練的 embedding
56
[04秋] 魔法少女奈葉 01 這他媽小學生52
[今島] IGN US調查任粉希望NS後繼機有的功能49
[討論] 青山看到上映不到1個月票房破120億在想啥爆
[角川] FX戰士久留美 3442
[閒聊] 黑帝斯2 男女神都畫得太俊美了吧!!!41
[蔚藍] 遊戲老師的角色塑造其實也......(雷)33
[法環] 玉米筍拉塔恩34
[閒聊] 大家為甚麼覺得機戰難度調高不會有人喜歡31
[火影忍者] 鳴人到底怎麼說服長門的阿?28
[Vtub] 5/8同接鬥蟲23
[閒聊] 拳願omega 260 嵐山vs鬥神32
[閒聊] 有小國贏大國的作品嗎?20
[Vtub] 夸兔這波是不是接了高尾山業配39
[24春] 為美好世界獻上祝福三期 05 奶子20
[閒聊] 我推的孩子 148 賺爛了賺爛了爆
[Vtub] 三毛貓 咪醬 露醬 推特17
[蔚藍] 甜點部活動結束台詞(雷)16
[閒聊] 劍星前身 伊芙計劃 5年前預告15
Re: [震怒]MYGO 8 那個爛祥爆
[討論] 咪醬診斷出離人症與解離性障害14
[閒聊] 偶像大師跟學園偶像大師差在哪14
[閒聊] 受讚頌者 LF 露露緹耶 大屁股12
[問題] 台V有哪幾間能算大箱?25
[閒聊] P5X終究只是手遊28
[閒聊] 諾倫和愛夏比較喜歡哪個?17
[Vtub] 三期JK10
[檔案]為師想看咪卡跟沙織瘋狂磨豆腐19
[蔚藍] 哪個學生對老師的好感度最低?21
[閒聊] 花田十輝:我想寫內向 怕生 纖細的女孩子11
[蔚藍] 咪卡的壓迫感是來自時間限制嗎?