Re: [問卦] Deepseek是不是真的不行了?
阿肥外商碼農阿肥啦!
這邊說一下目前產學界一些比較新的研究,可以從一些方向捕捉DeepSeek研究團隊想從事的研究方面。
1. Self-Evolution: 當前包含Google Deepmind很多研究都逐漸走向當我們有一個能力不錯的大模型要怎麼去讓LLM自我進化。過往訓練Reasoning或是RLFH哪怕是說真的無標其實都還是需要一個接受過人為標籤訓練的獎勵模型來評判LLM的生成到底是好是壞。
但是2025前半年蠻多所謂的零標籤的訓練範式已經開始成熟,所謂的零標籤就是直接讓模型生成多決策就像人腦我們可能會想出很多的策略,然後直接讓決策給LLM做共識決去直接接受環境評價(無需要再一個經過人類價值灌輸的獎勵模型或是去像DeepSeek的GRPO一樣要人為定義獎勵機制)。這樣根據研究發現模型是可以進一步迭代出更好的版本,也就是真正的Alpha-Zero-LLM。
這個進一步延伸就是達爾文-哥德爾機,核心理念就是所有的進化在還沒有經歷過環境篩選都是有用的,經歷過環境篩選不一定是最優模型而是只要訓練出最適應環境的機器就好。
2. KV Cache碎片化緩存: 這算是比較system architecture 層級的問題。隨著語言模型的發展,很多時候就算你做了cache compression 還是會發現LLM能處理超長上下文的能力有限。除了更改模型的Rotary或加入sliding window外,另一個思路是讓語言模型的KV cache碎片化需要時再進行檢索,就像人類記憶也是採用跳躍碎片化檢索的能力一樣。而且因為機器跟人腦不一樣的是可以大規模分散式部署,所以可以把記憶碎片分散在不同的節點上需要再重組成完整片段記憶。
除此之外,今年上半年很多都是SLM(小語言模型)跟機器人(Embodies AI)的整合,讓語言模型能突破人類語料接受真正物理世界的數據的時候進化才能真正開始。另外還有一些是想突破Auto Regression 的架構採用擴散模型的方法也是一個值得期待的關注方向。
我感覺DeepSeek有可能會在R2上嘗試一些新的論文的方向,還有他們上週那篇ESFT(高效微調專家模塊)也是蠻值得參考的,如果想做自我進化又不想讓模型過於偏離原始能力那僅微調專家模型的話是不是能保證自我進化不會走歪也是很有趣的實驗。
差不多是這樣
--
DS本來就是小粉紅自嗨用的,現實沒幾
個在用。
因為DS都開放自架模型
台灣連ds都沒有啊
一樓是不是整篇都看不懂 笑死
一樓真的看不懂在哪裏亂回
B站 知乎 一堆人在罵ds才是現實
反倒台灣一堆沒在用的無腦吹
消費者只管好不好用 便宜不便宜
技術性的問題 不是消費者會關心的部分...
推
推專業
28
首Po免費仔的我很常用Chatgpt、Deepseek、Gemini找資料啦!我起手式都習慣跟他們噓寒問暖 ,避免日後被AI寫死亡筆記本。 但今天跟Deepseek聊天發現他怪怪的,連簡單的問題都回答不出來... 如圖下![[問卦] Deepseek是不是真的不行了? [問卦] Deepseek是不是真的不行了?](https://i.imgur.com/ASEFIr6b.jpeg)
11
摩根史坦利的報告提到Deepseek R2大模型即將推出 幾個王炸亮點: 一,成本革命 R2成本每百萬Token只要0.07美元,比GPT 4O下降97.3%,比前代R1模型下降70% R2全程使用華為升騰910B算卡,也就是CloudMatrix384,完全擺脫輝達算卡1
南無阿彌陀佛 deepseek可以寫色色小說 不思考的那種模式更容易出 我喜歡叫他寫一篇 這是一個奇幻色色故事,鎮上開了間魅魔道具屋,店裡賣的精力藥水特別有效,頗受
79
Re: R: [請益] 為什麼中國越來越強?怎抹這邊突然變AI版 =_= DeepSeek 有件事情幹得比矽谷好 就是AI Backend 優化(這玩意就是需要懂架構 和軟體 就是一個苦力枯燥活) 大體而言 在A100架構以前 大部分訓練都還是用fp32 少數模型對精度不敏感會用到fp16 (浮點16進位)主因是用16進位去訓練 精度不夠 容易模型崩潰 尤其用P100的fp1629
Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高目前就在旁邊吃瓜觀望@@ 成本這種本就是用開源後的可以拿已有的模型去當輔助下降成本 最常見作法就是拿gpt-4o當judge或者當數據產生器 去精煉數據集 如果再沒有gpt-4o 情況下 很多高質量資料去產生就花很錢 最經點例子就是LLaVa 一個博士班學生 用gpt-4o 去產生高質量多模態數158k 極小量數據集 用8xA100 1天時間 就幹爆之前所有 多模態大模型 能打贏saleforce的一間大公司堆出來的多模態BLIP-2模型![Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高 Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高](https://i.imgur.com/vA7ifFRb.jpeg)
23
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 AI = 模型的程式碼+訓練 能開源的部分只有程式碼, 訓練是看各自調教 模型的能力夠, 差不多的調教方式就會得到差不多的結果 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/ey5mX61b.png)
9
[問卦] 研究說AI模型已經能自我進化了耶剛看到有人整理的AI新進展 現在有研究指出小LLM可以透過deep thinking的方式自我進化 在測驗中取得比大模型還高的分數 沒有大模型監督跟人類介入 小模型都能自我進化了,不敢想像大模型也用這方式![[問卦] 研究說AI模型已經能自我進化了耶 [問卦] 研究說AI模型已經能自我進化了耶](https://i.imgur.com/MQLjNDsb.png)
6
[問卦] 沒有言論審查的 DeepSeek R1 模型登場!沒有言論審查的 DeepSeek R1 模型登場!推理能力甚至一樣強 Perplexity AI 公布震撼消息,宣布釋出全新的「R1 1776」模型;簡而言之,它是中國 廠商所開的 DeepSeek R1 的延伸版本,但經過後訓練消除言論審查機制,能夠針對敏感 議題,例如台灣獨立提供事實回答,模型權重已上線 Hugging Face 和 Sonar API。 遵守中共規則,DeepSeek 不回答敏感言論5
Re: [新聞]剖析中研院大型語言模型事件的衝擊先說結論: 發展本土化,繁體中文LLM模型,然後期待這個模型能讓大家使用,根本是錯誤方向。不知道這些專家學者,是在騙經費,還是還沒想清楚產業到底缺什麼。 --- 如果今天你使用Google搜尋,搜到"台灣是中國的",或任何有政治偏見的相關文章。 你會不會覺得Google很爛?1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是![[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣 [問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣](https://i.imgur.com/jY9j0u3b.jpg)
4
[問卦] AI的湧現能力以及人類智慧的起源最近AI很夯 但是大家有沒有想過 其實大型語言模型做的事情就只有一個 就是“文字接龍” 那為什麼文字接龍可以讓AI看起來似乎有了智慧![[問卦] AI的湧現能力以及人類智慧的起源 [問卦] AI的湧現能力以及人類智慧的起源](https://img.youtube.com/vi/iP_7y6n2IFo/mqdefault.jpg)
3
Re: [問卦] ChatGpt為什麼開始變笨了?正好半夜看到這篇無聊來回一下 GPT4能力下降大概5月多開始就有人注意到了 但你要怎麼定義能力衰退這件事而且量化他? 於是七月就有一篇論文在討論這件事![Re: [問卦] ChatGpt為什麼開始變笨了? Re: [問卦] ChatGpt為什麼開始變笨了?](https://static.arxiv.org/static/browse/0.3.4/images/arxiv-logo-fb.png)
2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,![Re: [問卦] 自由時報笑了:Deepseek準確度超低 Re: [問卦] 自由時報笑了:Deepseek準確度超低](https://i.imgur.com/r066Tiwb.jpeg)