Re: [討論] 驚!DeepsSeek R1改版直逼頂尖閉源模型
※ 引述《purplvampire (阿修雷)》之銘言:
: DeepSeek R1 又傳來震撼AI圈重磅炸彈,小改版大幅度提升在推理上的能力
: https://news.cnyes.com/news/id/6000824
: 僅小改版就跟Google GPro打平
: 而且跟程式開發為主的Claude 4互有勝負
: 重點是開源,現在可以下載8G模型,只要4G記憶體的顯卡可跑
前面三行還可以討論討論
但是你說8G這行就不知道你是外行還是故意混淆
https://www.ollama.com/library/deepseek-r1/tags
以ollama目前提供本地部署的表就知道
一個模型會有茫茫多的版本
8G的蒸餾版不是沒有
但那真的就是 純、智、障
你要好好討論就拿滿血版討論
不要莫名其妙講一講接一個蒸餾版本
說的好像蒸餾版本能跟Claude 4相提並論一樣 -_-
每家的模型都會有8G的蒸餾版本啦 除非閉源
下雨了 黃國昌還能勞跑看棒賽嗎 幹
: DS體現只會酸葡萄不會讓自己更好,
: 先想想自己要怎麼做才能趕上別人的車尾燈
: 看看人家默默吃三碗公,一出場就是一記震撼彈
: 反觀只會酸葡萄的,既8年蓋不出2萬戶社宅,
: 也生不出來用現有技術比肩人家的AI模型
: 根本就狗吠火車
: 不說了,準備回去下載自用
: ----
: Sent from BePTT on my iPhone 14 Pro
--
明明就是整合跟最佳化非自創的AI 也不是
啥前端的東西
支共的狗屌藍白雜種當然要含深一點,使力
舔乾凈
聽過巴菲特,沒看過把頭巴飛 特
他根本沒用過,連下載都沒下載過,你認真了
本來就是外行才在吹DS
有本地安裝過蒸餾版本就知道 那根本
DS在中國早就不是第一了 要吹中國AI
拿千問還差不多
是智障又慢 上下文長度短
是的...還是花點小錢用API 吹檔案大小的真的一看就外行不然就居心叵測
※ 編輯: LearnLong (61.60.245.200 臺灣), 05/30/2025 09:16:41叫他給我輸出個繁中解答 結果是簡繁
混合 沒看過這麼智障的
什麼沒用過?你們在問天安門時我就PO
文了,只是你們不信
不然你用API問天安門或8964阿
為啥?
AI一堆敏感字不給問要怎麼用啦
??不懂你在說什麼 我又不用DS
google跟claude隨便問又沒屏蔽
其實那個某p根本就外行
一般使用者其實就線上免費GPT爽爽用
還發文說下載來用 笑死人
程式開發者沒有特殊需求的話
用cursor或copilot就很夠用了
讓他去吹咩 挺適合他用的
正常根本不會有下載然後自行架設的需求
除非是對這區塊很有興趣 想要研究
或可能公司行號有需求 這我就不清楚
不然誰沒事會自己去架設?
有前3爽爽用為啥不用前3 笑死
那個某p就是不懂裝懂而已
有些內規不能把資料聯網所以要本地部屬
的公司
那就有可能會在本地部屬了
確實有些公司管很嚴 不能連外網
律所單純想整理格式又不能資料外流這種
XDDD
嗯嗯嗯 有道理
我有去某P原文嗆他了
我強烈懷疑他根本就不知道怎麼自架
太殘暴了
如果DS的本地部署很多人用,那也就是類
似Android而已
嗆我你還不夠格,去問天安門較量阿
= =???? 評比LLM的方式是問天安門
你到底想幹麻阿
當然是驗證實不實用阿
跟戰國策吵這麼沒用
8B 啦 8G是螞蟻腦喔
欸不對G比較大
這些說沒什麼的人,要不要做一個台灣版的
來聞香一下?
23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61b.png)
21
[問卦] 別雞同鴨講說抄襲 先搞懂什麼是蒸餾阿肥實在受不了一堆文盲吵不對焦還硬要吵 來先來看看 GPT是怎麼解釋蒸餾的 覺得太長的可以直接下滑到總結 Q: 在Deep learning領域 什麼是蒸餾? 以下來自ChatGPT的回答:![[問卦] 別雞同鴨講說抄襲 先搞懂什麼是蒸餾 [問卦] 別雞同鴨講說抄襲 先搞懂什麼是蒸餾](https://i.imgur.com/VCuiyUXb.jpeg)
18
Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援Musk贊同投資公司Atreides Management合夥人兼資訊長貝克(Gavin Baker)在X提到 DeepSeek的R1低成本來自在訓練和推理效率上,取得了真正的算法突破 例如 FP8 訓練、MLA(機器學習加速)和多 token 預測。 訓練過程中涉及大量的知識蒸餾(distillation) 這意味著在沒有無限制存取 GPT-4o 和 o1 的情況下,這項訓練幾乎不可能完成。![Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援 Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援](https://i.imgur.com/wNCJOYBb.jpg)
10
Re: [問卦] DeepSeek成本這麽低的原因是啥?目前的推測應該是跳過了訓練模型的部分 也就是說不是從0開始構築AI模型,而是用成熟的AI模型來訓練,避免掉很多無謂的試錯 或空轉,也就是之前新聞在說的「蒸餾技術」 AI 系統中的 「蒸餾技術」(Knowledge Distillation,知識蒸餾),是一種 模型壓縮 (Model Compression) 方法,主要用來讓較小的模型學習較大模型的知識,同時保持高8
Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee呃,這新聞是哪個平行時空新聞,當前一堆美國大學實驗室都已經成功用其他小型模型像ll ama或Qwen 復刻R1實驗了,而且也事實證明模型只要有辦法再訓練的時候盡可能要求模型更 長更多輪的思考時間那就必然會讓模型依據上下文湧現出推理能力。無論模型大小或是否用 deepseek的模型架構。 一堆知名的框架也開始嘗試復刻開源版的R1 Code,我覺得R1幾個比較可行的思路就是改用6
Re: [問卦] DeepSeek是真貨,版圖會不會大改?Deepseek真正改變的是讓開源生態系注入了新的活水,過去半年其實大家都是被OpenAI的生 態系越玩越死,新創很怕自己做出的服務馬上就被閉源的chatGPT直接取代,然後要做出服 務還要付出大筆服務費,要自己搭還需要大量計算能力。 但DeepSeek R1直接告訴你要讓語言模型有推理能力根本不需要真的做大,要訓練推理能力 也不需要讓人去轉出人類的思考過程(TTT模式),直接拿好的基礎我們去蒸餾再去給他環4
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這裡的說法如果是正確的話,那DeepSeek就不是只靠蒸餾來達成的. Scale AI’s 28-Year-Old Billionaire CEO Warns About This Scarily Good Chinese Startup 這個CEO就是指控DeepSeek事實上擁有並使用50000個H100 GPU的人.![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://observer.com/wp-content/uploads/sites/2/2025/01/GettyImages-1540568234.jpg?quality=80)
4
[問卦] 語言模型用蒸餾是不是要寫上純度?大家都說deepseek蒸餾gpt來的 廣義上來說 GPT也是蒸餾整個網路資料來的 然後李飛飛用50美金重現deepseek的論文 算不算二次蒸餾三次蒸餾 那這樣以後語言模型是不是都要標註純度? --1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平
44
[討論] 卓榮泰好像要用行政拳了![[討論] 卓榮泰好像要用行政拳了 [討論] 卓榮泰好像要用行政拳了](https://i.meee.com.tw/heTOZ8B.png)
12
[討論] 原本以為高雄2026最不可能出線的是邱議瑩6
[討論] 張善政:中華民國就是我們的護身符9
[討論] 兩個太陽直播被霸凌跟小紅書蓋掉了
[討論] 愛莉莎莎打臉政黑![[討論] 愛莉莎莎打臉政黑 [討論] 愛莉莎莎打臉政黑](https://i.imgur.com/P7VejTRb.jpeg)
8
[討論] 小紅書幹嘛不設代表就好, 抖音都有了4
[黑特] 綠畜又在喊倒閣了,真是學不乖欸
[討論] 蔣經國: 三民主義統一中國 取代 反攻大陸X
[討論] 翁曉玲真的被綠媒綠粉黑得很嚴重![[討論] 翁曉玲真的被綠媒綠粉黑得很嚴重 [討論] 翁曉玲真的被綠媒綠粉黑得很嚴重](https://i.meee.com.tw/SCgQmE0.png)
4
[討論] 劉向婕夫妻交保、科技監控3
[討論] 我爸連戰的故事原來是真的?2
[討論] 賴清德的十講呢?X
Re: [黑特] 陳玉珍:太多人違法?那就修到無罪啊☺1
Re: [黑特] 陳玉珍:太多人違法?那就修到無罪啊☺
[黑特] 民眾黨的兩年條款排除國昌老師了吧?1
Re: [討論] 第10屆韓國頒獎典禮「AAA」移師高雄![Re: [討論] 第10屆韓國頒獎典禮「AAA」移師高雄 Re: [討論] 第10屆韓國頒獎典禮「AAA」移師高雄](https://i.imgur.com/ITyXE7Rb.jpeg)
X
[討論] 麥玉珍根本越南IU
Re: [討論] 卓榮泰好像要用行政拳了X
[討論] 感覺打詐,國民黨略勝一籌X
Re: [新聞] 憲訴法公投破3萬人連署 自然人憑證申請
[討論] 卓院長該滾了
[討論] 一年後選舉結果會影響小紅書解不解禁嗎?
[討論] 法案明明三黨一起過,藍白幹嘛崩潰?![[討論] 法案明明三黨一起過,藍白幹嘛崩潰? [討論] 法案明明三黨一起過,藍白幹嘛崩潰?](https://i.meee.com.tw/Wfd1E3Z.jpg)
Re: [新聞] 館長臥推失誤遭「槓鈴重擊壓胸」
[討論] 11月CPI 1.23,是不是該降息?
![[討論] 驚!DeepsSeek R1改版直逼頂尖閉源模型 [討論] 驚!DeepsSeek R1改版直逼頂尖閉源模型](https://cimg.cnyes.cool/prod/news/6000824/m/44f83c20a6355633a0142f859038ad57.jpg)