Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據
推 skyyo: 這篇雙方都很專業了 想不到綠色濾鏡可以影 27.247.1.211 01/30 14:54→ skyyo: 響這麼大@@ 27.247.1.211 01/30 14:54→ skyyo: 其實應該要問寶藏巖你覺得你的綠共友們說 27.247.1.211 01/30 14:55→ skyyo: 問不到64+用了蒸餾就是垃圾AI 27.247.1.211 01/30 14:55→ skyyo: 這種觀點的看法 嘻嘻 27.247.1.211 01/30 14:55→ skyyo: 喔還有綠共代表選手chatDPP跟deepseek的差 27.247.1.211 01/30 14:57→ skyyo: 距 27.247.1.211 01/30 14:57
笑死!只要稍微學習過混沌理論都知道
這種用同一份資料自我遞迴的學習方式在某個特殊的臨界點下就會導致嚴重的系統
崩潰
因為他無法保持原生資料的多樣性
最終的結果就是導致同樣的垃圾AI生成資料在系統內亂竄
最終導致一連串的垃圾輸出
任何一位熟悉資料探勘的資訊系教授在開始第一堂課都會開宗明義的宣導這基本概念
只有AI門外漢才會一直吹捧知識蒸鰡是多麼高明的技術
在業內的人看起就是一個笑話而已
https://arxiv.org/abs/2305.17493v2
The Curse of Recursion: Training on Generated Data Makes Models Forget
Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot,
Ross Anderson
Stable Diffusion revolutionised image creation from descriptive text. GPT-2,
GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of
language tasks. ChatGPT introduced such language models to the general
public. It is now clear that large language models (LLMs) are here to stay,
and will bring about drastic change in the whole ecosystem of online text andimages. In this paper we consider what the future might hold. What will
happen to GPT-{n} once LLMs contribute much of the language found online? We
find that use of model-generated content in training causes irreversible
defects in the resulting models, where tails of the original content
distribution disappear. We refer to this effect as Model Collapse and show
that it can occur in Variational Autoencoders, Gaussian Mixture Models and
LLMs. We build theoretical intuition behind the phenomenon and portray its
ubiquity amongst all learned generative models. We demonstrate that it has tobe taken seriously if we are to sustain the benefits of training from
large-scale data scraped from the web. Indeed, the value of data collected
about genuine human interactions with systems will be increasingly valuable
in the presence of content generated by LLMs in data crawled from the
Internet.
--
=.= 這種看類AI股價就知道了
不要亂用名詞混沌理論哪是這個情況
你混沌理論沒學好吧!連耗散結構都不知道
https://reurl.cc/yD0WGy
這觀念根本不基本 沒人知道為什麼
神靈+槓精同時出現滿好笑的
openai早被美國企業告盜用
律師不談談嗎
而且他們還開啟收費盈利模式
現代ML跟混沌有關?也太亂套了...
還有deepseek的實作就不是你想像的用同
一份資料重複學習..
笑死!我講在自我遞迴系統的崩潰,你連看都沒看懂就出來耍寶的
https://arxiv.org/pdf/2305.17493v2The Curse of Recursion: Training on Generated Data Makes Models Forget
Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson
※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 16:03:02 ※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 16:05:20 ※ 編輯: treasurehill (42.70.83.123 臺灣), 01/30/2025 16:07:39deepseek r1跟你的論文的實作就不同..先
去看過deepseek的論文再來討論..
或者講簡單一點,deepseek找到一個工程
上實作的方式讓資料蒸餾避開這個問題或
讓影影響降低,畢竟資料蒸餾也不是deeps
eek 第一個實作,但是工程實務上參數跟
模型的設計會影響結果..
ㄝ不是 你哪隻眼睛看到我在吹捧蒸餾?
但我看到的是你在吹捧支那人的GG~
自我遞迴跟混沌根本無關
X
開始了 正如預期的 美國佬就是見不得別人比他們優秀 用自己狹隘的見識來否定他人 只要別人比他們優秀就會用屁眼看人X
一天前,綠共閩南台派 還處於挨打的狀態 猶如黑悟空甫推出的幾天那時的情景 八卦版還可以光明正大的質疑: 為什麼中國不自由卻做得出3A? 外國看起來黑神話也引起轟動!?X
Open AI真的提出了證據再說,而且我比較好奇的是,本來我以為Open AI第一時間應該會 出面駁斥的是DeepSeek訓練成本不可能這麼低的事,結果竟然是在指控對方盜用模型。 說真的,對於世界上廣大的公司來說,比較關心的事是否真的能用那麼低的成本來建構出 一樣的東西,如果可以,那麼之前要耗費大筆金錢再搞AI的公司不就是傻子? 到底Open AI骨子裏是知道事實的(就是本來成本就不用這麼多),又或者DeepSeek宣稱20
Deepseek主打就是蒸餾法,就是高效的AI抄襲工具 哥爾D系柯 不只要抄,還要開源 開起來大抄襲時代 人人有600萬就能參加慈善AI抄襲大賽8
其實這種抓取他人數據再行訓練行為絕對是違法的 就連中國自己的人民法院判決都認為這種盜用他人網站數據的行為構成不正競爭 我是不知道一旦追訴起來,中國還有什麼臉面對美方的指控 這鐵定會成為下一波貿易制裁的主要爭點X
你發這種文章 大陸人就知道這裡是井蛙版了 : 別別這種蒸鰡效果是基於原有資料的基礎上加工 : 如果原本的資料無法回答的問題 : 蒸鰡出來的結果也不可能3
笑死!你這資訊門外漢就別在這耍寶自曝其短了! 我從來就沒有跟你爭論效率的問題 我爭論的是資料來源的正確性 蒸鰡模型是基於原有模型的再訓練 也就說他繼承原有模型的瑕疵2
→ William: 現代ML跟混沌有關?也太亂套了... 223.137.83.145 01/30 15:55 → William: 還有deepseek的實作就不是你想像的用同 223.137.83.145 01/30 15:59 → William: 一份資料重複學習.. 223.137.83.145 01/30 15:59 → William: deepseek r1跟你的論文的實作就不同..先 223.137.83.145 01/30 16:13 → William: 去看過deepseek的論文再來討論.. 223.137.83.145 01/30 16:13
爆
Re: R: [黑特] 笑死黃國昌私底下跟謝宜容喬喔XD原文幹嘛刪啊? 不是很啾嗎? 幫您備份,記錄一下 聽說青鳥不識字原來是真的。 造完謠就删71
[閒聊] @I 賢狼赫蘿 謝票文發紅包的事寫在前面 恭喜賢狼從名人堂亞軍->第三屆冠軍,超越了過去的自己,越位成功(X 100崔尼銀幣*100樓,祝大家新年快樂 由於年假期間在老家,紅包可能會晚一點發,請大家見諒 (其實原本在考慮是不是比賽一結束就發謝票文,最後還是等待板主宣布後再發)54
Fw: [新聞] 鴻海2月6日線上尾牙 特別獎是5輛百萬納作者: EstelleRinz (小艾) 看板: Gossiping 標題: [新聞] 鴻海2月6日線上尾牙 特別獎是5輛百萬納 時間: Fri Jan 29 18:52:28 2021 1.媒體來源: 自由44
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據比較好奇這段: 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。 OpenAI婉拒進一步說明或提供證據細節。根據該公司的服務條款,用戶不得「複製」任何 OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…34
[問卦] skyyo剛說高雄水退圖是造假的文 怎自刪了?我說這個啦 明明推文才討論到一半 也5X推 怎麼突然刪了 威利在哪裡都還沒玩夠 我才看到一半 = = 所以skyyo轉傳一篇文章36
Re: [Vtub] 彩虹社 EN 一期生 下週新衣今天公佈了~ Elira Pendora25
[問卦] skyyo你怎麼刪文了怎麼那麼快就刪文了 啊不是說水沒退嗎? 啊不是說造假嗎? 為什麼馬上就刪文了??9
Fw: [失蹤]尋找曼赤肯貓_ 新市區大社里走失作者: kyokenji (無聊的群像) 看板: Tainan 標題: [失蹤]尋找曼赤肯貓_ 新市區大社里走失 時間: Mon Jan 30 09:13:53 2023 懸賞新台幣1萬元! 過年期間早晚騎車尋找無果6
Re: [討論] 藍白為什麼連蹭Deepseek都能翻車?噓 mitsloanboy: DeepSeek連微軟也拿去用了啊一堆政 42.77.201.64 01/30 11:20 → mitsloanboy: 治腦可悲又可笑只看一堆文組白痴側 42.77.201.64 01/30 11:20 → mitsloanboy: 翼喂屎喔哈哈,我知道承認中國AI跟 42.77.201.64 01/30 11:20 → mitsloanboy: 醫學研究屌虐台灣很傷台派政治腦可 42.77.201.64 01/30 11:20 → mitsloanboy: 悲的玻璃心啦,遇到中國什麼都先打 42.77.201.64 01/30 11:202
Re: [新聞] 雨下不停!民進黨取消新竹縣市造勢 蔡英看了截圖的造勢現場, 我也很高興高鼻可以凝聚這麼多的「年輕人」, 一起在入秋的雨天夜晚,穿著雨衣瞎挺。 另外還看到酒駕的李國璋也有團隊在裡面穿梭, 看來2023的新竹要準備起飛了。
17
Re: [討論] 4月民生電價漲11%23
[討論] 賴清德宣布投資阿拉斯加1.4兆台幣27
[討論] 藍營有哪個人論述比黃國昌強的?27
[黑特] 黃國昌說他進場了24
[討論] 新黨進入立法院的記者證是民眾黨給的24
[討論] 館長是不是涼了23
[討論] 廖偉翔罷免連署也破萬了24
[討論] 黃國昌會硬選新北市嗎?22
[黑特] 朱立倫:那個去站後面 去站後面18
[黑特] 凌掏:還錢於民 楊智伃:還命來?18
[黑特] 罷免李彥秀的志工去模仿徐巧芯噎13
[討論] 藍白綠電營收快200億2
[討論] 看政黑藍白仔在電價集體崩潰真爽。6
[討論] KMT立委完了6
[討論] 4月民生電價漲11%12
[討論] 雲豹去年只賺11億,國民黨靠北三小10
[討論] 黃國昌:我對我的論述太有信心 百分之百10
[討論] 柯文哲律師訴訟策略是罵檢察官也太奇怪12
[討論] 郭台銘在台灣算黑掉了嗎?7
[討論] 看政黑青鳥在電價集體崩潰真爽9
[討論] 怎麼沒有人覺得朱立倫可以選總統?9
[討論] 36:0,二階要過幾個才合格?X
[討論] 我怕打仗 2026 2028投藍白9
[討論] 李彥秀目前進度如何?8
[討論] 周偉航算哪黨的??17
[討論] 境外敵對勢力?敵對關係?6
[討論] 謝謝民進黨漲電價 人民過得很幸福7
[討論] 黃國昌:盼2026在野先堆疊善意6
[討論] 其實漲電價算小事吧6
[討論] 國民黨只剩下禮讓黃國昌能逃過大罷免