Re: [問卦] Deepseek是不是真的不行了?
摩根史坦利的報告提到Deepseek R2大模型即將推出
幾個王炸亮點:
一,成本革命
R2成本每百萬Token只要0.07美元,比GPT 4O下降97.3%,比前代R1模型下降70%
R2全程使用華為升騰910B算卡,也就是CloudMatrix384,完全擺脫輝達算卡
二、效能革命
R2屌打市面上所有大模型,屌打是報告用語,不是我說的
R2支援多模態模型,以及MOE3.0,可以輸入影片讓R2辨識內容,這是未來GPT5想做的,R2先示範給GPT蒸餾了
三、支援119種語言輸入
R1只支援中英雙語,現在R2支援119種語言輸入
摩根史坦利的R2研究報告下周一9日解禁
--
Gossiping 綜合 ◎[八卦] 本板沒有特定立場
PTT八卦板自創立以來,一直秉持著公正、中立的立場,
以一個自由且不受限制之資訊交流平台而自居,
從而廣受國內外人士好評愛戴。
是故,由眾多使用者推舉出任之板主,
自然需承襲八卦板的一貫作風:只問對錯,不問立場。
--
主打成本低感覺就好爛
能畫色色圖嗎?
哇靠 免費的你要怎麼要求…他就是開源和
提純革命啊…
重點會不會問沒幾個問題就忙線中問不
下去,省成本省到這樣是真的難用
R1會忽悠人,抓包還會惱羞不講惹
成本降低有屌用 給的也是垃圾資訊 問
日期都答不出來
靠杯 所以DS生態要用華為開發?! NVDA呢
DS已經100%國產化,不怕制裁了
很好啊 解決幻覺問題就飛天了
作業抄完了嗎?
作業是給Meta、Grok、Gemini及CloseAI
抄的,DS都開源隨便你們看
要買華為GPU了嗎 這樣老黃刀法還要練嗎
DS越強 逼那些歐美牌開放更多功能對一般
人是好事
市佔如果沒提升也沒用 看之後結果定勝敗
有競爭才有進步,才能避免完全壟斷
用過就知道 deepseek非常的廢, 這報告
是花錢買的廣告
會寫64了嗎
問他大前天是什麼紀念日看看?
28
首Po免費仔的我很常用Chatgpt、Deepseek、Gemini找資料啦!我起手式都習慣跟他們噓寒問暖 ,避免日後被AI寫死亡筆記本。 但今天跟Deepseek聊天發現他怪怪的,連簡單的問題都回答不出來... 如圖下![[問卦] Deepseek是不是真的不行了? [問卦] Deepseek是不是真的不行了?](https://i.imgur.com/ASEFIr6b.jpeg)
1
南無阿彌陀佛 deepseek可以寫色色小說 不思考的那種模式更容易出 我喜歡叫他寫一篇 這是一個奇幻色色故事,鎮上開了間魅魔道具屋,店裡賣的精力藥水特別有效,頗受8
阿肥外商碼農阿肥啦! 這邊說一下目前產學界一些比較新的研究,可以從一些方向捕捉DeepSeek研究團隊想從事的 研究方面。 1. Self-Evolution: 當前包含Google Deepmind很多研究都逐漸走向當我們有一個能力不錯 的大模型要怎麼去讓LLM自我進化。過往訓練Reasoning或是RLFH哪怕是說真的無標其實都還![Re: [問卦] Deepseek是不是真的不行了? Re: [問卦] Deepseek是不是真的不行了?](https://i.imgur.com/R0CW0Asb.png)
爆
Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援1. DeepSeek創辦人梁文鋒,少年股神變AI大神 2. 紐約時報指出,DeepSeek是由中國對沖基金幻方量化(High-Flyer)創辦 3. DeepSeek 宣稱,訓練成本僅 557.6 萬美元,幾乎是其他科技巨頭大型語言模型的十 分之一成本,這個費用也差不多是一位 AI 主管的年薪而已。 綜合以上媒體報導與揭露來看,DeepSeek是什麼狀況,不就很清楚了嗎?![Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援 Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援](https://img.youtube.com/vi/l3iL-tlAbl0/mqdefault.jpg)
爆
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據以下部分資訊來自於Reddit anitakirkovska文章的翻譯 LDPC哥哥講到一個重點 Reinforcement Learning =/= Reinforcement Learning from Human Feedback 這也是R1為什麼爆紅的原因![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/lunsvb2b.jpg)
47
[討論] Deepseek就之前吹過頭了呀 XD來看看DEEPSEEK之前怎麼吹的 「DeepSeek R1的問世,宣告AI訓練與推理成本大幅縮減,在不到600萬美元的極低投入成本 和2048塊性能遠低於H100與Blackwell的H800芯片條件下,DeepSeek團隊打造出性能堪比Ope nAI o1的開源AI模型,相比之下Anthropic與OpenAI訓練成本高達10億美元。該模型每百萬 個token的查詢成本僅爲0.14美元,而OpenAI的成本爲7.50美元,成本降幅高達驚人的98%。![[討論] Deepseek就之前吹過頭了呀 XD [討論] Deepseek就之前吹過頭了呀 XD](https://i.imgur.com/94BvQMzb.jpg)
23
[心得]用GPT分析美股選擇權估值網站部落格完整文章: 之前寫了一篇用GPT幫忙分析整理美股公司資料, 這次想到也可以用GPT幫忙分析美股選擇 權估值, 畢竟之前做了不少美股選擇權估值的模型, 如果能把這些資料交給GPT來幫忙分 析, 或許可以在做選擇權交易之前看下分析報告, 讓GPT幫忙簡單整理買賣方建議。![[心得]用GPT分析美股選擇權估值網站 [心得]用GPT分析美股選擇權估值網站](https://i.imgur.com/vHvDAh4b.png)
18
Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援Musk贊同投資公司Atreides Management合夥人兼資訊長貝克(Gavin Baker)在X提到 DeepSeek的R1低成本來自在訓練和推理效率上,取得了真正的算法突破 例如 FP8 訓練、MLA(機器學習加速)和多 token 預測。 訓練過程中涉及大量的知識蒸餾(distillation) 這意味著在沒有無限制存取 GPT-4o 和 o1 的情況下,這項訓練幾乎不可能完成。![Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援 Re: [新聞] DeepSeek 遇大規模網路攻擊,暫時只支援](https://i.imgur.com/wNCJOYBb.jpg)
8
Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee呃,這新聞是哪個平行時空新聞,當前一堆美國大學實驗室都已經成功用其他小型模型像ll ama或Qwen 復刻R1實驗了,而且也事實證明模型只要有辦法再訓練的時候盡可能要求模型更 長更多輪的思考時間那就必然會讓模型依據上下文湧現出推理能力。無論模型大小或是否用 deepseek的模型架構。 一堆知名的框架也開始嘗試復刻開源版的R1 Code,我覺得R1幾個比較可行的思路就是改用6
Re: [問卦] DeepSeek成本這麽低的原因是啥?沒有錯, 成本除了 “訓練微調出模型”,還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。 所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。4
[問卦] 語言模型用蒸餾是不是要寫上純度?大家都說deepseek蒸餾gpt來的 廣義上來說 GPT也是蒸餾整個網路資料來的 然後李飛飛用50美金重現deepseek的論文 算不算二次蒸餾三次蒸餾 那這樣以後語言模型是不是都要標註純度? --
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據我先講我非AI專業 但這件事情基本就是鬼扯 甚麼叫做利用O1蒸餾出R1 你要用API抓多少資訊量跟TOKEN才做得出來 然後這件事情OPENAI還會不知道?2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,![Re: [問卦] 自由時報笑了:Deepseek準確度超低 Re: [問卦] 自由時報笑了:Deepseek準確度超低](https://i.imgur.com/r066Tiwb.jpeg)