Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據
笑死!你這資訊門外漢就別在這耍寶自曝其短了!
我從來就沒有跟你爭論效率的問題
我爭論的是資料來源的正確性
蒸鰡模型是基於原有模型的再訓練
也就說他繼承原有模型的瑕疵
而且因為資料刪減的結果將導致資訊損失
最終甚至可能導致模型坍塌
這就是因為某些資料被過度放大的結果導致訓練結果嚴重偏差
網路上已經有很多論文證明此一結論了
你連別人在講什麼都沒搞清楚
就不要在這野人獻曝出來丟人現眼了!
回去多念點書再來好嗎
https://36kr.com/p/2303919815749129
然而,来自牛津、剑桥、帝国理工等机构研究人员发现,如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷。
也就是,随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免。
因此研究人员呼吁,如果想要继续保持大规模数据带来的模型优越性,就必须认真对待人类自己写出来的文本。
※ 引述《lono (lono)》之銘言:
: 你發這種文章
: 大陸人就知道這裡是井蛙版了
: : 別別這種蒸鰡效果是基於原有資料的基礎上加工
: : 如果原本的資料無法回答的問題
: : 蒸鰡出來的結果也不可能
: https://i.imgur.com/Hq1Xx9m.jpeg
: 蒸餾法老早就有了
: 為什麼現在效能突飛猛進呢?
: Deepseek對於記憶體運用效率做了額外的改良
: 根據外媒的報導,他們在短短兩個月時間,在2,048個H800 GPU叢集上,訓出6710億參數
: 的MoE語言模型,比頂尖AI效率高出10倍。
: 這項突破不是用CUDA實現的,而是通過大量細粒度最佳化以及使用輝達的類彙編等級的PT
: X(平行執行緒執行)程式設計。
: https://hao.cnyes.com/post/133219
: 你可以先查資料再發文嗎?
: ※ 引述《treasurehill (寶藏巖公社,你還未夠班S)》之銘言:
: : 其實這種抓取他人數據再行訓練行為絕對是違法的
: : 就連中國自己的人民法院判決都認為這種盜用他人網站數據的行為構成不正競爭
: : 我是不知道一旦追訴起來,中國還有什麼臉面對美方的指控
: : 這鐵定會成為下一波貿易制裁的主要爭點
: : http://yn.people.com.cn/BIG5/n2/2022/0330/c361322-35199254.html
: : 法院經審理認為,原告主張權利的5萬余條用戶投訴信息系經過長期經營、管理、維護
: 而
: : 形成的數據信息,能夠給原告帶來特定的社會效益和經濟效益,屬於其市場競爭優勢,
: 應
: : 當受到法律保護。被告在其網站中使用原告網站5萬余條投訴信息的行為,本質上是不
: 正
: : 當利用原告網站投訴信息、違法將該信息據為己有的行為,違反了誠實信用原則和公認
: 的
: : 商業道德,給原告造成了實際損失,應當適用反不正當競爭法一般條款予以規制。此外
: ,
: : 被告在其網站虛構投訴數量及處理進展等行為,容易造成相關公眾對其網站經營規模、
: 影
: : 響力、服務效率產生誤認,亦構成虛假宣傳的不正當競爭行為。最終,法院判決被告停
: 止
: : 涉案不正當競爭行為、消除影響,並賠償原告105萬元。
: : 而且就算在法律上的追訴行為無效,擁有數據所有權者也不是沒有反制的方法
: : 他只要在輸出的數據上加上隱密的干擾訊息即可
: : 這樣就會嚴重影響直接抓取數據來進行訓練者的訓練結果的正確性
: : 這招在之前的商業資料庫就常常被使用
: : 不管是明碼或浮水印都可為數位識別的足跡追蹤
: : 在AI時代更可以用此手段來干擾抓取資料者的訓練成果
: : 讓他GIGO
: : 別別這種蒸鰡效果是基於原有資料的基礎上加工
: : 如果原本的資料無法回答的問題
: : 蒸鰡出來的結果也不可能超越
: : 所以這種抄襲手法最多只有短期功效,長期來說是不可能超越數據擁有者的
: : 頂多滿足一下民族自信心而已
--
那帳號是槓精 無腦反綠並護航白圾 你
還回他...
他之前還說台灣人自動有中共國身分 腦子壞
城這樣體恤一下吧
資料蒸餾過去已經很多模型用過了,deeps
eek 的突破就是找到用蒸餾法但是能維持
模型準確度不會降低太多的工程手段....
推
有時候有些人真的不知道腦袋裡面裝啥
你不要拿過時論文來討論現實業界
2024才發表的論文過時?我看你是看不懂在胡扯吧!
https://www.thepaper.cn/newsDetail_forward_29019927[Submitted on 7 Oct 2024 (v1), last revised 8 Oct 2024 (this version, v2)] Strong Model Collapse Elvis Dohmatob, Yunzhen Feng, Arjun Subramonian, Julia Kempe Within the scaling laws paradigm, which underpins the training of large neural networks like ChatGPT and Llama, we consider a supervised regression setting and establish the existance of a strong form of the model collapse phenomenon, a critical performance degradation due to synthetic data in the training corpus. Our results show that even the smallest fraction of synthetic data (e.g., as little as 1\% of the total training dataset) can still lead to model collapse: larger and larger training sets do not enhance performance. We further investigate whether increasing model size, an approach aligned with current trends in training large language models, exacerbates or mitigates model collapse. In a simplified regime where neural networks are approximated via random projections of tunable size, we both theoretically and empirically show that larger models can amplify model collapse. Interestingly, our theory also indicates that, beyond the interpolation threshold (which can be extremely high for very large datasets), larger models may mitigate the collapse, although they do not entirely prevent it. Our theoretical findings are empirically verified through experiments on language models and feed-forward neural networks for images.
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 12:59:28deepseek 的調整之一就是用 RL取代SFT,
這篇paper就是用sft..
看paper要先看懂assumption好嗎....
聽你在騙,DeepSeek-R1一樣有用到SFT好嗎! DeepSeek-R1採用多階段流程訓練,結合了監督強化(Supervised Fine-Tuning, SFT)和 強化學習(Reinforcement Learning, RL)技術。學習,最後再進行一次這種監督梯度和 強化學習。 然後GPT-4 一樣是 Transformerd 模型架構,再加上 RL (Reinforcement learning, 強化 學習),還不是出現比前一代效率下降的情況,如何證明使用RL就可以有效避免模型崩潰 ?
支那人有夠生氣
DeepSeek-v3-Base 只用純 RL 的方式去訓
練了 DeepSeek-R1-Zero,並發現在各評估
指標上與 OpenAI o1 能力相當,但問題就
是輸出的有時候會出現多語言、閱讀上的
問題; 所以他們決定透過將 DeepSeek-v3-
Base 先做 SFT(論文是說幾千筆而已),讓
模型做 cold start,然後再透過 RL 的算
法去訓練出DeepSeek-R1。
然後GPT-4 一樣是 Transformerd 模型架構,再加上 RL (Reinforcement learning, 強化 學習),還不是出現比前一代效率下降的情況,如何證明使用RL就可以有效避免模型崩潰 ?
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 13:44:48美企在中國告中國人違法?
gpt4的架構在openai網站上有....
這篇雙方都很專業了 想不到綠色濾鏡可以影
響這麼大@@
其實應該要問寶藏巖你覺得你的綠共友們說
問不到64+用了蒸餾就是垃圾AI
這種觀點的看法 嘻嘻
喔還有綠共代表選手chatDPP跟deepseek的差
距
X
開始了 正如預期的 美國佬就是見不得別人比他們優秀 用自己狹隘的見識來否定他人 只要別人比他們優秀就會用屁眼看人X
一天前,綠共閩南台派 還處於挨打的狀態 猶如黑悟空甫推出的幾天那時的情景 八卦版還可以光明正大的質疑: 為什麼中國不自由卻做得出3A? 外國看起來黑神話也引起轟動!?X
Open AI真的提出了證據再說,而且我比較好奇的是,本來我以為Open AI第一時間應該會 出面駁斥的是DeepSeek訓練成本不可能這麼低的事,結果竟然是在指控對方盜用模型。 說真的,對於世界上廣大的公司來說,比較關心的事是否真的能用那麼低的成本來建構出 一樣的東西,如果可以,那麼之前要耗費大筆金錢再搞AI的公司不就是傻子? 到底Open AI骨子裏是知道事實的(就是本來成本就不用這麼多),又或者DeepSeek宣稱20
Deepseek主打就是蒸餾法,就是高效的AI抄襲工具 哥爾D系柯 不只要抄,還要開源 開起來大抄襲時代 人人有600萬就能參加慈善AI抄襲大賽8
其實這種抓取他人數據再行訓練行為絕對是違法的 就連中國自己的人民法院判決都認為這種盜用他人網站數據的行為構成不正競爭 我是不知道一旦追訴起來,中國還有什麼臉面對美方的指控 這鐵定會成為下一波貿易制裁的主要爭點X
你發這種文章 大陸人就知道這裡是井蛙版了 : 別別這種蒸鰡效果是基於原有資料的基礎上加工 : 如果原本的資料無法回答的問題 : 蒸鰡出來的結果也不可能2
推 skyyo: 這篇雙方都很專業了 想不到綠色濾鏡可以影 27.247.1.211 01/30 14:54 → skyyo: 響這麼大@@ 27.247.1.211 01/30 14:54 → skyyo: 其實應該要問寶藏巖你覺得你的綠共友們說 27.247.1.211 01/30 14:55 → skyyo: 問不到64+用了蒸餾就是垃圾AI 27.247.1.211 01/30 14:55 → skyyo: 這種觀點的看法 嘻嘻 27.247.1.211 01/30 14:552
→ William: 現代ML跟混沌有關?也太亂套了... 223.137.83.145 01/30 15:55 → William: 還有deepseek的實作就不是你想像的用同 223.137.83.145 01/30 15:59 → William: 一份資料重複學習.. 223.137.83.145 01/30 15:59 → William: deepseek r1跟你的論文的實作就不同..先 223.137.83.145 01/30 16:13 → William: 去看過deepseek的論文再來討論.. 223.137.83.145 01/30 16:13
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)57
Re: [討論] 其實Deepseek真的很厲害了OpenAI:已掌握DeepSeek盜用模型證據 (中央社倫敦29日綜合外電報導)中國新創公司「深度求索」(DeepSeek)引發的疑慮日 增。OpenAI今天表示已掌握證據,顯示DeepSeek盜用其模型進行開發;業界也指DeepSeek 握有大量輝達H100高階晶片,形同直接挑戰美國出口管制規定。44
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…29
Re: [討論] OpenAI GPT o1模型OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI 已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了 ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer o 的水準。 很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強6
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這段一定很多人沒看懂。 正確的說法是,蒸餾可以讓較小的模型(學生)在特定任務上得到比原本的小模型更好, 近似於大模型(教師)的結果。 近似,就不可能比教師模型更好,只會更差。另外由於OpenAI沒有開源,所以這種叫做 黑箱蒸餾。如果可以蒸餾把模型變小可以維持原來的品質,那就一直蒸餾一直蒸餾蒸餾- 我先講我非AI專業 但這件事情基本就是鬼扯 甚麼叫做利用O1蒸餾出R1 你要用API抓多少資訊量跟TOKEN才做得出來 然後這件事情OPENAI還會不知道?
- 我幫大家採訪了一下Deepseek 1.我問Deepseek是否有盜用chatgpt 回答: 我由中國的深度求求索(DeepSeek)公司開發,代號為DeepSeek-R1。我的訓練數據和技 術架構均為自主研發,嚴格遵守數據合規與倫理規範。雖然與ChatGPT同屬大語言模型技
1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平- 好奇 chatgpt 有開源訓練資料喔? 我記得我讀過一個大師的文章 他說訓練資料的優劣是遠遠重要於模型 當然頂尖模型兩個都不能缺
56
[討論] 李孝亮不聽媽媽的話,可能是對的43
[討論] 八卦板:現在開始也要檢舉青鳥進水桶42
[討論] 國民黨發聲喊李孝亮加油:繼續相信自己40
[討論] 李媽媽現在在想什麼?氣瘋了吧32
[討論] 快訊!柯文哲再押兩個月32
[討論] 李孝亮在國民黨成就比Doig高吧30
[討論] 李孝亮想要前科?28
[討論] 李孝亮連郵局都搞不清楚,難怪被叫去背鍋26
[討論] 兩個月後柯文哲要怎麼演?26
[討論] 中共高層震怒 將嚴厲懲罰香港首富李嘉誠21
[討論] 為何藍白粉跟盧大媽反對蓋核電廠??19
Re: [討論] 瑞典要蓋四座核電廠了 怎辦?20
[黑特] 陳佩琪毫無醫德,公然公布病患隱私!!16
[討論] 這場棋賽是國民黨贏了7
[討論] 小草在threads上出征法官…14
[黑特] 得李孝亮者得天下!14
Re: [討論] 李孝亮就菜鳥新人當背鍋俠12
[討論] 臺股三月以來跌千點,要世界末日了!14
[討論] 國民黨黨工應徵須知14
[討論] 所以藍白到底砍了多少預算?5
[討論] 批評賴清德就會被出征,太扯了吧13
[討論] 真的是每天要被藍白笑死==12
[討論] 大罷免戰區X
[黑特] 操你媽 台股跌成這樣 政府繼續裝死?9
[討論] 黃國昌:江和樹辛勤耕耘,成績有目共睹2X
[討論] 政黑可以告訴我綠共跟紅共差在哪裡嗎?10
[討論] 松信該換慧珠阿姨上去了9
[討論] 垃圾藍白看好了! 台灣只示範一次9
[討論] 館長這星期都沒直播?8
[討論] 李孝亮就菜鳥新人當背鍋俠