PTT評價

Re: [問卦] Deepseek是不是真的不行了?

看板Gossiping標題Re: [問卦] Deepseek是不是真的不行了?作者
sxy67230
(charlesgg)
時間推噓 8 推:8 噓:0 →:5

阿肥外商碼農阿肥啦!

這邊說一下目前產學界一些比較新的研究,可以從一些方向捕捉DeepSeek研究團隊想從事的研究方面。

1. Self-Evolution: 當前包含Google Deepmind很多研究都逐漸走向當我們有一個能力不錯的大模型要怎麼去讓LLM自我進化。過往訓練Reasoning或是RLFH哪怕是說真的無標其實都還是需要一個接受過人為標籤訓練的獎勵模型來評判LLM的生成到底是好是壞。

但是2025前半年蠻多所謂的零標籤的訓練範式已經開始成熟,所謂的零標籤就是直接讓模型生成多決策就像人腦我們可能會想出很多的策略,然後直接讓決策給LLM做共識決去直接接受環境評價(無需要再一個經過人類價值灌輸的獎勵模型或是去像DeepSeek的GRPO一樣要人為定義獎勵機制)。這樣根據研究發現模型是可以進一步迭代出更好的版本,也就是真正的Alpha-Zero-LLM。

這個進一步延伸就是達爾文-哥德爾機,核心理念就是所有的進化在還沒有經歷過環境篩選都是有用的,經歷過環境篩選不一定是最優模型而是只要訓練出最適應環境的機器就好。

2. KV Cache碎片化緩存: 這算是比較system architecture 層級的問題。隨著語言模型的發展,很多時候就算你做了cache compression 還是會發現LLM能處理超長上下文的能力有限。除了更改模型的Rotary或加入sliding window外,另一個思路是讓語言模型的KV cache碎片化需要時再進行檢索,就像人類記憶也是採用跳躍碎片化檢索的能力一樣。而且因為機器跟人腦不一樣的是可以大規模分散式部署,所以可以把記憶碎片分散在不同的節點上需要再重組成完整片段記憶。

除此之外,今年上半年很多都是SLM(小語言模型)跟機器人(Embodies AI)的整合,讓語言模型能突破人類語料接受真正物理世界的數據的時候進化才能真正開始。另外還有一些是想突破Auto Regression 的架構採用擴散模型的方法也是一個值得期待的關注方向。

我感覺DeepSeek有可能會在R2上嘗試一些新的論文的方向,還有他們上週那篇ESFT(高效微調專家模塊)也是蠻值得參考的,如果想做自我進化又不想讓模型過於偏離原始能力那僅微調專家模型的話是不是能保證自我進化不會走歪也是很有趣的實驗。

差不多是這樣

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.218.204.92 (臺灣)

※ 文章網址:
https://www.ptt.cc/Gossiping/E.u8ICpoIhdf-4

killerlee 06/07 10:06DS本來就是小粉紅自嗨用的,現實沒幾

killerlee 06/07 10:07個在用。

s213092921 06/07 10:07因為DS都開放自架模型

yoshilin 06/07 10:13台灣連ds都沒有啊

l11111111 06/07 10:15一樓是不是整篇都看不懂 笑死

ff811020 06/07 10:15一樓真的看不懂在哪裏亂回

championbad 06/07 10:17B站 知乎 一堆人在罵ds才是現實

championbad 06/07 10:17反倒台灣一堆沒在用的無腦吹

iPhoneX 06/07 10:22https://i.imgur.com/R0CW0As.png

potionx 06/07 10:31消費者只管好不好用 便宜不便宜

potionx 06/07 10:31技術性的問題 不是消費者會關心的部分...

ariz283 06/07 10:46

※ 編輯: sxy67230 (49.218.204.92 臺灣), 06/07/2025 11:00:49

cerberi 06/07 14:25推專業