[問卦] 別雞同鴨講說抄襲 先搞懂什麼是蒸餾
阿肥實在受不了一堆文盲吵不對焦還硬要吵
來先來看看 GPT是怎麼解釋蒸餾的
覺得太長的可以直接下滑到總結
Q: 在Deep learning領域 什麼是蒸餾?
以下來自ChatGPT的回答:
在深度學習 (Deep Learning) 中,「蒸餾 (Distillation)」是一種模型壓縮 (Model Compression) 技術,主要用來將一個大型且性能優越的「教師模型 (Teacher Model)」的知識轉移到一個較小、較輕量的「學生模型 (Student Model)」,從而減少計算成本,同時保持高性能。這個過程通常被稱為 知識蒸餾 (Knowledge Distillation, KD)。
知識蒸餾的基本概念
知識蒸餾的核心思想是,與其單純用標籤 (Hard Labels) 訓練學生模型,不如讓學生模型學習來自教師模型的軟標籤 (Soft Labels),即教師模型對輸入數據的輸出機率分佈。這樣可以讓學生模型學習到更多關於數據的隱含信息,例如不同類別之間的關聯性。
知識蒸餾的主要步驟
1. 訓練教師模型 (Teacher Model)
先用大量數據訓練一個強大的深度學習模型,如大型 CNN 或 Transformer。
2. 獲取軟標籤 (Soft Targets)
用教師模型對訓練數據進行預測,獲取「軟標籤」,即教師模型的輸出機率分佈。
軟標籤通常透過「溫度 (Temperature) 參數」來調節,使輸出機率更平滑:
其中, 是溫度超參數, 是某類別的 logits。較高的溫度 會使分佈變得更平滑,讓學生模型更容易學習類別間的關聯性。
3. 訓練學生模型 (Student Model)
使用教師模型的軟標籤和原始標籤共同訓練一個較小的學生模型。
損失函數 (Loss Function) 一般是普通的交叉熵損失 (Hard Label Loss) 與蒸餾損失 (Distillation Loss) 的組合:
其中:
是基於真實標籤的交叉熵損失。
是基於教師模型軟標籤的交叉熵損失。
是控制兩者權重的超參數。
知識蒸餾的應用
模型壓縮與加速:例如,把大型的 BERT 轉化為輕量的 DistilBERT,或將大型 CNN 壓縮為 MobileNet。
增強小模型的性能:即使學生模型的容量較小,透過學習教師模型的知識,它仍然可以達到比直接訓練更好的效果。
多模型集成 (Ensemble Distillation):可以用多個教師模型來蒸餾一個學生模型,使其學習多種不同視角的知識。
知識蒸餾的變體
Self-Distillation:學生模型與教師模型相同,只是利用自身的過去版本作為教師來提升性能。
Task-Specific Distillation:應用於特定領域,如 NLP、CV 等,優化模型的某些特性。
Contrastive Distillation:利用對比學習來提升蒸餾效果。
總結
知識蒸餾是一種強大的技術,能夠幫助小型模型學習來自大型模型的知識,在不顯著犧牲性能的情況下提高計算效率,是當前深度學習模型壓縮與優化的重要方向。
阿肥開示:
簡單講就是記者用詞不精確
導致抄襲這種說法有點歪樓
因為ChatGPT是閉源的 DS根本無從抄起
蒸餾ㄧ說是 Open AI指控DS拿ChatGPT去訓練DS的模型
但卻沒有提供證據 所以現在焦點應該是
1.
Open AI需有證據證明DS拿ChatGPT訓練模型
2.
如果1成立 那蒸餾的訓練方式構成侵權嗎?
阿肥觀點:
AI是個新的領域 智慧財產定義應該不完善
拿一個模型去訓練另一個模型應該是目前常態
雖然我不知道DS是不是真的這樣幹
但如果這樣就算侵權的話
那ChatGPT拿各種網路資訊訓練是不是也算?
-----
Sent from JPTT on my iPhone
--
太長
一樓蒸餾五樓屁眼
鳥兒說抄襲就是抄襲
又在貼中國大外宣的文章喔?
ChatGPT的回答是大外宣喔?
就CloseApi帶風向而已,沒人在意,NVDA又大跌
這麼急著闢謠做什麼
是不忍看八卦版吵不對焦 阿肥是幫大家搞清楚狀況
不管啦 只要能抗中保台 其他都不重要
網路爬蟲也是用Google、Bing搜尋的成果
就雙標啊笑死 當初訓練時用爬蟲爬人類
智慧財產就喊新技術發展不應被版權限制
去跟OpenAI 講 跟八卦講也聽不懂 嘻嘻
OpenApi這就嘴炮一下而已,應該不了了之
來不及了,三民自和笨鳥已經定調抄襲!
資料練完你們沒用了馬上翻臉
105度
山寨垃圾一直吹
照這個邏輯,AI也是偷網路上的知識
OpenAI也是抄襲
青鳥:不管啦!美國說抄襲就是抄襲,藍白
崩潰。川普:加台灣晶片關稅。青鳥:窩不
知道
塔綠班說抄襲就抄襲 你懂什ㄇ?
Unsupervised learning非監督式學習
本來就是塞一大堆資料來訓練:網路爬蟲
ChatGPT之前也爬了一堆紐約時報文章被告
網路爬蟲(web crawler/web spider)
現在Open AI也可以 但先要有證據 不過某群組那些垃圾不會懂的 牠們認為應該是被 要自己澄清自己沒犯罪
※ 編輯: SkyIsMyLimit (223.137.46.76 臺灣), 01/29/2025 23:59:53可以一次撈幾千篇文章,不可能慢慢取得授權
都開源了 不放消息股票要賣給誰
舊的方式是Supervised learing監督式學習
就是訓練資料要有固定格式,訓練效果不好
小草在土城看守所門口蒸餾新台幣會讓貪哲興
現狀是這些大企業已經把人類過去的重要
資料都練完了 你如果過去是反AI抄襲的陣
營 現在能做的也只剩加入DS這種跳出來砸
盤的勢力 先把這些偷你們資料的企業打出
屎來再說 賽博共產總好過賽博龐克
新式的非監督式就是資料越亂越好,訓練效果好
要最多資料,就是直接去網路上撈
這樣就抄襲,那大家Ai Chatbot都可以關門了
高溫茶有它的優點誰反對
和青鳥一樣隨便亂抹造謠就得了
其實人類睡眠就是一種蒸餾過程
把學到的知識濃縮
如果是全開源應該可以複製測試吧 到時要
靠gpt才能產生一樣模型就鬧笑話了
沒經過chatgpt同意就拿去訓練 這就
不能吹成本了
嗯嗯 不過Open AI要先有證據證明DS真的拿ChatGpt去訓練
1. 關注結果:老師模型的輸出
2. 忽略解答過程
1+1=2? 老師模型會給證明: 學生模型1+1=2
多問?考北喔 問這麼多幹嘛?
沒關係啦 就讓傻子繼續洗 反正就騙騙外
行的 他們爽就好了 不過釣出一大堆小丑
好幾年前就在吵資料的問題了 這些人當時
怎不幫那些被盜資料的講一下話 可撥
不能這樣放任 之前就是因為台灣人都不懂才會有垃圾畜牲拿中國的模型騙你我的稅金
1+1=2 還要問?
有這個味道喔--填鴨式教學+狂寫考古題
我只知道105c的蒸餾水
openai有賣蒸餾服務啊 大概是用了沒
OpenApi自己就亂盜用別人資料被提告
付錢 沒付錢就用
聰明的學生會發現 原來答案就在題目裡
從題目與題目間找到矛盾處 確認某題目出錯了
可以講白話文嗎?
總結以下的文字就是白話文惹
※ 編輯: SkyIsMyLimit (223.137.46.76 臺灣), 01/30/2025 00:31:48聰明學生在寫過各類型題目後 也會出題目了
甚至還能創出新的題型
57樓,這不就是國高中時常遇到的
大小綠:不管啦,說你抄襲就抄襲,
趁機操作仇中情緒就對了
之後變法律戰會很有趣
侵權不侵權先告再說不是嗎?哪有時間跟
你先搞定義?
要有證據啊 你以為跟台灣一樣是被 要自證清白喔?
※ 編輯: SkyIsMyLimit (223.137.46.76 臺灣), 01/30/2025 02:00:03班上資優生說你抄了 不管你有沒有抄
你就是抄了
弄到法律戰才好笑!被那群食古不化無知的
法官判誰對誰錯?
然後也不懂其中內涵,只懂皮毛就可以判定
誰是有道理的,最終還不是政治判決,然後
搭配媒體狂嘴,畢竟多數人只會盲從不願意
深層思考
57
Re: [討論] 其實Deepseek真的很厲害了OpenAI:已掌握DeepSeek盜用模型證據 (中央社倫敦29日綜合外電報導)中國新創公司「深度求索」(DeepSeek)引發的疑慮日 增。OpenAI今天表示已掌握證據,顯示DeepSeek盜用其模型進行開發;業界也指DeepSeek 握有大量輝達H100高階晶片,形同直接挑戰美國出口管制規定。44
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強18
Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援Musk贊同投資公司Atreides Management合夥人兼資訊長貝克(Gavin Baker)在X提到 DeepSeek的R1低成本來自在訓練和推理效率上,取得了真正的算法突破 例如 FP8 訓練、MLA(機器學習加速)和多 token 預測。 訓練過程中涉及大量的知識蒸餾(distillation) 這意味著在沒有無限制存取 GPT-4o 和 o1 的情況下,這項訓練幾乎不可能完成。1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是4
Re: [閒聊] AI模型破壞器Nightshade 正式推出這邊要說明一下,所謂的喂AI指得是在訓練模式下,阿肥稍微看了paper主要是透過微小 的相素變化產生的被下毒的圖片影響基石模型中正常圖片的高維空間分佈,所以就可以讓 生成模型你跟他說要產生哈士奇圖他給你緬因貓,因為模型產生的高維空間分佈已經被下 毒的圖破壞了。 不過這只限於訓練階段,一但fixed住的模型就影響有限,論文的假設就是以後所有的創3
Re: [問卦] ChatGpt為什麼開始變笨了?正好半夜看到這篇無聊來回一下 GPT4能力下降大概5月多開始就有人注意到了 但你要怎麼定義能力衰退這件事而且量化他? 於是七月就有一篇論文在討論這件事1
[問卦] 訓練阿美語的大型語言模型當碩論可行嗎以下是chatGPT的生成內容 ----- 訓練一個專注於特定語言,如阿美語的大型語言模型,是一項複雜且耗時的工程,但可以透 過以下步驟逐漸達成: 1. **數據收集**:阿美語作為一種少數民族語言,其可用於訓練的數據可能相對有限。首- 知識蒸餾的技術解說在此,我用一個簡要的方式講給大家 老師上了十幾年的課程,花了十幾小時編撰講義,告訴學生哪些題目比較容易考、哪些解題 模式必考。 這套授業模式是不是很像課後補習班的考前題庫班?
1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平
爆
[爆卦] 曹興誠第二篇聲明爆
[問卦] 選出一個你這輩子玩過最好玩的單機遊戲爆
[爆卦] 曹董小三公司助力中國夢 中共黨媒認證爆
[爆卦] 曹董進來,我幫你解套。40
[問卦] 挖曹興誠隱私等等30億不捐了 你真的OK?爆
[問卦] 7-11是不是默默被全家超車了爆
[問卦] 黑熊最新演訓課程:只要1980!!46
Re: [新聞] 快訊/竹聯幫主治喪委員75人名單曝光!41
[問卦] 台灣罐頭的霸主是土豆麵筋嗎?49
[問卦] 脆:曹興誠照片被chatGPT認證是造假28
[問卦] 鄧肯是歷史最強大前鋒嗎?爆
[爆卦] 馬斯克新爆料,美國暮光之城是真的!32
[問卦] 脹氣要怎麼辦?25
[問卦] 中國女人有什麼吸引人的?24
[問卦] 幹你娘 紐西蘭牛奶呢?35
[問卦] 黑熊學員眾現在在想什麼23
[問卦] 卡普兒子孫子都是罪犯還能過這麼爽?23
[問卦] 蔡康永有什麼代表作24
[問卦] 全民最大黨74
Re: [爆卦] 曹董小三公司助力中國夢 中共黨媒認證22
[問卦] 以前的台北工專爆
Re: [新聞] 曹興誠遭爆偷吃「差40歲陸女」!謝寒冰曝40
[問卦] 中國已經在招小行星防禦的崗位了17
[問卦] 誰是藍鳳凰==?18
[問卦] 急!新北租房這個價格如何?18
[問卦] 漢寶泡麵能撐多久17
[問卦] 八卦板聊小三,為啥有推文崩潰跳針?17
[問卦] 牙醫跟老董被緋聞擊落 背後是什麼勢力?17
[問卦] 職場上真的會有功高震主的事情嗎?35
[問卦] 轉錢 用line pay還是轉帳?