Re: [閒聊] DeepSeek是不是真的很強?
※ 引述《attacksoil (第三方程式)》之銘言:
: → lanjack: 所以我說我看起來像是openai嗎?人家查出是怎麼偷的也沒 02/01 19:14: → lanjack: 講,我會通靈是吧? 02/01 19:14: → zwxyzxxx: 還有保密文件跟紙糊的一樣,對岸民間的隨便公司都能偷到 02/01 19:14: 好像真的很多人不知道偷資料是怎麼偷
:
: 稍微說明一下好了 如果要偷 偷的方法就是花錢用openai 的api 然後用他產生qa pairs: 來做測試資料集
:
: 看起來跟正常使用差不多 真的沒那麼好抓 也跟傳統意義上的資安沒有關係
: 推 Peurintesa: 確實 畢竟openai都沒版權意識了== 02/01 19:15: 推 ZMTL: 其實OpenAI研發副總也在推特上稱讚DS的模型蒸餾,所以OpenAI 02/01 19:15: → ZMTL: 「指責」DS偷我蠻好奇出自哪裡的 02/01 19:15: → ZMTL: 然後如果模型蒸餾侵權能被搞成,OpenAI比較需要擔心他們被美 02/01 19:16: → ZMTL: 國一堆出版社告偷資料訓練模型會不會成 02/01 19:16: 他稱讚的模型蒸餾是指拿R3來蒸餾llama3還有qwen吧
: 至於拿openai 的輸出來重新訓練(蒸餾)是否可以告成功 我也不清楚 但據我所知官方: 是禁止的 但還是有漏洞可鑽 (shareGPT之類的)
一般人心目中的正常訓練大概是這樣
https://i.imgur.com/Ph3DlNC.png
1. 透過網路爬蟲拿到很多資料組
2. 把資料組送到AI架構進行訓練後得到一個LLM
我看到的「偷資料的指控」則是這樣
https://i.imgur.com/OgkvURx.png
1. DS有使用ChatGPT來生成一些回答
2. DS把ChatGPT生成的回答做成新的訓練資料,用在訓練DS上面
所以這裡所謂的「被偷出來的東西」,是那些ChatGPT的回答
...這個是著作權該保護的東西嗎?
那ChatGPT在當網路爬蟲的時候怎麼就很ok?
我記得當初對於網路爬蟲訓練AI最有利的辯護之一是:
如果訓練的資料庫的訓練素材全部都要付錢,
那以後訓練模型就只有超有錢的集團能做,其他人都吃屎。
這類精神也能用在DS上吧?
--
角卷綿芽給予炭治郎的建議
https://i.imgur.com/0mPdESk.jpg
--
我在想openai嘗試用它被告的經驗拿來告別人試試看吧==
不管啦!阿共就是只會偷,不偷就不是阿共了!
照那個偷資料的指控來看,OpenAI可以告一堆模型了。
其實這串後來還在推文的都比較認真討論了 就算只是想酸也會
找一些論點 能反串這麼多篇也是辛苦了欸
我也覺得沒道德瑕疵 但openai 的policy 就是禁止 有沒
有告成功過 不知道
誰管你closeAI 商用當然被告到死 人家開源有金身
其實問題的根源是OpenAI根本不Open
應該改成CloseAI
被人酸剛好
當然酸歸酸,人家policy就寫很清楚
開源跟金身一點關係都沒有吧
公司的policy有沒有法律效力又是另一回事了
其實嚴格來講應該不算偷吧,除非他們是破解OpenAI 的api
免費用
我覺得這不是偷,也不是啥破解。就很一般地使用
※ 編輯: arrenwu (98.45.195.96 美國), 02/01/2025 20:19:268964占占占 deepseek快抓網路文章訓練喔
覺得重點在如果實際做法是下面那個,應該把叫OpenAI api
的錢也算進成本,不然會害大家白高興一場(或白緊張一場
)
這能叫偷的話 網路可以關掉了
看你不順眼到時候 你做什麼都可以找你麻煩 看你順眼的
時候 就睜隻眼閉隻眼 現在是什麼時期 大家自己心裡有數
我也覺得從道德上來講deepseek沒有問題 而且deepseek還開
源了 現在就是站在道德頂點
順便諷刺OpenAI成立初衷是為了向人類共享技術
使用者規範有寫不能用就是偷,話說回來我要用也會用p
hi4
9
首Po我讓他續寫手塚火鳥的未完成篇章 也就是近現代篇 結果還滿有模有樣 優化一下就是三個阿道夫等級作品 以後是不是人人都能創作了? ------------------------- 手塚治虫未完成的《火之鳥·近現代篇》被普遍认为是他最神秘的遺憾。根據手塚工作室爆
結果今天就被踢爆是中國大外宣了 研究機構:DeepSeek硬體GPU支出逾160億台幣 SemiAnalysis指出,中國對沖基金幻方量化(High-Flyer)在2023年5月成立「深度求索」(DeepSeek)以推動AI技術研發,在此之前,幻方量化於2021年,也就是任何出口管制生效前,投資購買了1萬顆輝達(Nvidia)A100 GPU。 報告指出,該公司在GPU的投資上花費超過5億美元。10
話說 我讓deepseek寫些色色的東西啊(讓他幫我寫些色色遊戲設定) 他現在大約寫完後會延遲十秒才收回去(如果他願意寫的話) 這是故意留給我時間讓我趕快複製貼上嗎 怎麼這麼貼心6
老哥 雖然中國真的很常唬爛 但也不能沒搞清楚就亂吐槽 反而自曝無知= = AI模型只要訓練一次(花幾天~幾個月)就能一直用3
是這樣的 美國人做事比較喜歡用正攻法 他們就很要求任何技術都要「科學」 你這麼做,你要拿出證據、拿出理論依據 不只要證明他真的會更好,還要說明他為什麼會更好40
這串一堆外行 首先 DeepSeek模型特點是 1. 訓練成本低 2. 推理成本低 先說訓練成本低11
假如以網路遊戲來類比,輝達就是遊戲的開發商與營運,其他開發AI的科技巨頭就是遊戲玩家 DeepSeek 則是一個發現了快速練等技巧的玩家。原本幾百小時才能練滿一個帳號,現在DeepSeek 找出了幾十個小時就能練滿的方法。 因為是快速練等,所以裝備可能還是跟不上那些扎實練功的科技巨頭玩家。但是可以縮減大量的遊戲時數,所以其他玩家也紛紛跟進,畢竟練滿角色可以少花幾張點數卡,看起來遊戲公司可能會陷入經營危機。 不過由於遊戲的內容實在太豐富,大家都想多練幾個帳號來玩,長久來看玩家們還是會繼續買點數卡挹注遊戲公司營收。 以現實人物來比喻的話,輝達是經營天堂的遊戲橘子,DeepSeek是找出一堆遊戲秘技的四叉貓1
我的理解是 原本一份專業的工作只有研究生以上的人能處理 後來產業升級後變成高職就能身任 雖然還是可以繼續雇研究生 但是慣老闆愛省錢的結果肯定誰便宜用誰69
說回來 感覺很多人很氣訓練用別人資源 但是感覺又對openAI沒反應 我覺得這就很奇怪 因為OpenAI最知名的一個點1
老哥, 少看點台灣白癡新聞, 這種計算方式是大家通用的, 怕大家看不懂就直接附上semianalysis的文章段落。
23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強21
Re: [討論] chatGPT會取代軟體工程師嗎?提供一個有趣的觀點 在 堆疊溢出 的網站有關於一則公告內容是禁止 chatgpt 回文。 底下有一個 AI 研究員的論點很有趣。 temporary-policy-chatgpt-is-banned?cb=114
Re: [閒聊] 文心一言AI繪圖(慎入)文心一言實力不如ChatGPT是理所當然的,微軟投資幾百億美元並且用微軟的雲端訓練整個網 路資料兩年了,到了去年底才終於開花結果 目前這種LLM模型,最重要的就是 資料 算力 和算法,其中基礎的資料是非常重要的,Chat GPT在建立模型的過程跟一般的Ai一樣要機器學習建立模型,而ChatGPT的基礎原理就是由上 一個字生成下一個字,週而復始,其中在訓練的過程還會經過人工挑選優質回答和一些和添14
Re: [新聞] 股票老師將失業?ChatGPT 能預測股市未來1. 我認為未來的AI應該會分科 也就是說不會有全才的AI 其實這個概念在 20幾年以前就有了 就是所謂的專家系統 分科指的是 根據某專業而形成的 AI 例如 醫學的癌症AI , 股票的 AI ............. 現在的 ChatGPT 基本上你問他股票的問題都不會回答你15
Re: [閒聊] 用AI圖在ci-en被開創作者帳號被婊的心得突然想到 還有人說模型訓練的時候 用的圖沒經過繪師同意 這樣bad 那chatgpt訓練使用的資料也都有經過同意嗎7
Re: [問卦] deepseek會刺破ai泡沫嗎?有人問deepseek是什麼模型 deepseek回答是chatgpt 不過這不確定是不是最新版 而且不是每次都回答chatgpt6
[爆卦] 尷尬 支那大模型Deepseek v3自稱chatgpt支那AI公司DeepSeek三天前推出DeepSeek-V3 該公司公布的性能可匹敵GPT-4o以及Claude-3.5-Sonnet DeepSeek-V3用2個月訓練2048個GPU只花588萬美元 遠低於GPT-4o約1億美元 粉紅五毛藉此嘲諷美帝封鎖高階晶片也無法阻止支那AI6
[問卦] ChatGPT是不是過譽了?昨天我第一次用ChatGPT問他一些問題 雖然我問題都不是制式問題,感覺他都亂回答 昨天我問他哈利奎茵是誰 他竟然回我這個2
[討論] 小玉 若用明星訓練的AI做A片 還會被關嗎?現在主流認為 用網路爬蟲去抓未授權的影像回來訓練 AI 模型 再由 AI 模型生成的資料是可以合法賣錢的 (例如 Midjourney, chatGPT, Dall.E2) 這樣說 小玉 若用明星訓練的AI做A片 還會被關嗎? #他只是生不逢時 --- 好奇 chatgpt 有開源訓練資料喔? 我記得我讀過一個大師的文章 他說訓練資料的優劣是遠遠重要於模型 當然頂尖模型兩個都不能缺