[黑特] DeepSeek就真的沒有完全開源啊
目前 r1開放出來的東西可以在Hugging Face下載
老實講那個就是預訓練權重 + 模型架構(運用權重的方式)
不包含訓練過程
但是它的訓練過程有寫在論文
這就是為什麼Hugging Face要去重建訓練過程
(如果已經有就不需要重建了嘛)
然後有版友在科技版講了這件事就被圍毆了 = =
有些人根本不懂就跟著瞎機巴亂砲
先說r~其實DS的開源方式也只是跟(開源AI)大家一樣
有了權重跟模型架構就足以進行很多修改了
一般來說,前面訓練那一段其實不太需要再去重複做
但是以狹義的開源定義的話,就真的不算完整開源
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.138.88 (臺灣)
※ PTT 網址
推
偷來的就當自己的 嘻嘻
噓
重點在於免費開放讓所有人下載
推
免費的是你送給習大大的資訊
推
有惡意會故意說謊的AI有人敢用...
推
光橫空出世這點就先打2折
推
反觀台灣這個垃圾狗東西
推
不能罵中國、習大大的程式有開源嗎?
噓
照你可笑邏輯linux 也沒開源
→
人家講AI鬼扯作業系統 可悲
→
要不要請Torvalds幫你腦子開源
推
Linux怎麼會沒開源?核心程式碼都給你看
→
了,瞎扯
推
AI重要的是學習過程,LINUX是嗎?亂比擬
推
復興現出來就用HF,不需DS
→
復現
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)![[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂 [爆卦] 數發部次長造謠Deepseek成本不只550萬鎂](https://i.imgur.com/jmMt7gnb.jpeg)
55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預![Re: [問卦] 中研院自己做的大型語言模型怎麼了? Re: [問卦] 中研院自己做的大型語言模型怎麼了?](https://i.imgur.com/TT58ZZCb.png)
40
Re: [閒聊] DeepSeek是不是真的很強?這串一堆外行 首先 DeepSeek模型特點是 1. 訓練成本低 2. 推理成本低 先說訓練成本低20
Re: [問卦] 為什麼deepseek會影響台積電 不懂?DeepSeek厲害的地方不是他便宜,不是他厲害,最重要的地方是他開源。 他的原始碼開源,權重開源(資料沒有開源),而且開放商業授權,他的 原始碼是MIT授權,權重則是基於OpenRail的特殊開源架構,也就是只有 一些特別場合他沒有授權,例如製造有害軟體,製造毒品等等 簡單來說你現在馬上就可以在你的電腦,你的公司使用了,你只要用很普5
Re: [新聞] Google與Hugging Face合作宣布推動開放結果Google竟然釋出了開源大模型Gemma,超出預期! Google 2 款新開源模型「Gemma」來了!直接挑戰 Meta Llama 2 7B 2024/02/22 Sisley 聊天機器人 、 生成式 AI 、 摘要 、 輕量級語言模型 、 負責 任生成式 AI![Re: [新聞] Google與Hugging Face合作宣布推動開放 Re: [新聞] Google與Hugging Face合作宣布推動開放](https://bucket-img.tnlmedia.com/cabinet/2024/02/30fbd444-75f7-43da-9eaf-5b1383f3e73a.jpg?w=1200&h=630&fit=crop&auto=compress)
3
Re: [黑特] 民進黨支持者思想真的很幼稚青鳥跟塔綠班們 都不知道DeepSeek是開源的 所以才有那些奇怪自卑推論 這次中國產生DS 其實對全世界都是一個正面的發展 也就是 花小成本也可以 作出 大成本模型效能的AI語言模型 重點是這個模型的程式碼跟架構 還跟全世界分享 也就是 台灣人照抄 也可以作出自己想要內容的 DeepSeek3
Re: [問卦] deepseek 到底是不是抄的 風向好亂Deepseek AI的訓練過程確實有用到蒸餾技術 蒸餾技術,就是在前人製造AI(例如chatgpt)的基礎上, 拿別人AI的回答當作訓練自己AI的材料 這種作法雖然有點像抄襲他人AI的能力,但在學術界已經是行之有年的做法 各國很多頂尖實驗室都用過這種方法訓練自己的AI
Re: [討論] deepseek是怎樣偷chatgpt?如果DeepSeek沒有開源,那大多數人都會覺得是騙局沒錯,但問題是他開源了,還把過程與權重通通公開在網路上,想挑戰或揪錯可以,請拿程式碼或成果說話。 回ChatGPT僅能代表他的訓練資料中有ChatGPT參雜在內,這不意外,許多模型都會有類似問題。 以上來自 生活中的程式@FB : 還是說更懶 : 直接api 給chatgpt
Re: [討論] deepseek是怎樣偷chatgpt?好奇 chatgpt 有開源訓練資料喔? 我記得我讀過一個大師的文章 他說訓練資料的優劣是遠遠重要於模型 當然頂尖模型兩個都不能缺
Re: [閒聊] Deepseek的角色扮演Deepseek目前是有同時釋出開源模型(權重、Code、訓練模型的方法報告都開源)的,走跟 llama一樣的路線,所以理論上只要GPU卡夠你就可以建一個完全一樣的環境包含重新微調模 型讓DeepSeek 做瑟瑟的事情跟串接對話還有Agent去執行任務。 目前初步測試繁中能力真的屌打一堆拿喇嘛微調的台灣llama模型,重點是MoE的架構可以很 省GPU(如果是llama同精度需要32張H100卡才能佈起來)。其實這次比較新釋出的是他的R1
![Re: [黑特] DeepSeek就真的沒有完全開源啊 Re: [黑特] DeepSeek就真的沒有完全開源啊](https://i.imgur.com/6eyWx34b.jpeg)