[討論] 研究揭開DeepSeek弱點:三心二意
https://arxiv.org/abs/2501.18585
最新研究揭示:
在遇到高難度問題時
DeepSeek推理大模型可能像三心二意的學生一樣頻繁切換解題思路
而因缺乏深入探索而失敗
這種現象被研究者稱為 Underthinking (欠思考)
研究團隊來自騰訊AI實驗室、蘇州大學和上海交通大學
通過分析AI的錯誤答案
他們發現當前的推理大模型經常在思考早期就走上了正確的路線
但傾向於淺嚐輒止
很快開始探索別的思路
導致後續生成的數千個tokens對解題毫無貢獻
這種無效努力不僅浪費計算資源還顯著降低了答案的正確率
這情況解數學競賽題等複雜任務時尤為明顯
團隊在三個具有挑戰性的測試集MATH500、GPQA Diamond和AIME2024上
對類o1模型QwQ-32B-Preview、DeepSeek-R1-671B等進行了實驗。
結果類o1模型在錯誤回答中比正確回答多消耗了225%的token
原因是思維切換頻率增加了418%
他們發現許多模型在回答開頭階段的思路是正確的但並未繼續深入完成推理
超過70%的錯誤回答中至少包含一個正確思路
此外超過50%的錯誤回答中有10%以上的思路是正確的
研究員提出一個用於量化Underthinking程度的指標(Underthinking Metric)。
指標通過測量錯誤答案中的token使用效率來評估推理效率
計算從回答開始到第一個正確思路出現所需的token數量與總token數量的比值
實驗結果表明所有測試的類o1模型都存在顯著的思維不足問題
模型的準確率與思維不足之間的關系在不同數據集上表現各異
在MATH500-Hard和GPQA Diamond數據集上
性能更優的DeepSeek-R1-671B模型在取得更高準確率的同時
其UT得分也更高
表明錯誤回答中存在更多思維不足。
這意味著儘管模型整體能力更強
但在不確定時可能生成更長但效率較低的推理過程,
可能是因為模型探索了多個錯誤的推理路徑卻未能有效收斂到正確解答。
在AIME2024測試集中
DeepSeek-R1-671B模型不僅取得了更高的準確率
還表現出較低的UT得分,反映出較少的思維不足和更高的token效率。
這表明模型在該任務中,即使未得出正確答案,其推理過程依然保持專注和高效,團隊表示這可能是因為模型與AIME2024所要求的問題類型和推理過程更好地對齊。
理解思維不足現象對於開發能夠提供正確答案並具備有效推理過程的模型至關重要。
如何讓模型像優秀學生一樣“沈下心來鑽研”?
研究者藉鑑了人類考試策略,提出了一種 “ 思路切換懲罰機制” (Thought
Switching Penalty,TIP)。
其原理類似於考試時給自己定規矩:“先專注當前方法,至少嘗試10分鐘再換思路”。
技術細節上,TIP會對觸發思路切換的關鍵詞施加懲罰,降低這些詞在解碼過程中的生成概率,迫使模型在當前路徑上探索更久。
例如,當模型開始寫“Alternatively, we can consider…”時,TIP會通過調整參數(
懲罰強度α和持續時間β),抑制這種過早的切換傾向。
實驗結果顯示,加入TIP能讓模型在數學測試上的準確率上升,同時UT Score下降,說明既減少了無效切換,又提高了答案質量。
例如在AIME2024數學競賽測試上,加入TIP的QwQ-32B-Preview模型準確率從41.7%提升至45.8%,同時UT Score從72.4降至68.2。
並且這種“無痛升級”無需重新訓練模型,僅需調整解碼策略,展現了其實用價值。
UC Berkeley教授Alex Dimakis 幾乎同時分享了類似的觀察,
對於DeepSeek-R1和所有推理模型,錯誤的答案更長,而正確的答案要短得多。
基於此,他們提出一個簡單的解決辦法,稱為 “簡潔解碼” (Laconic decoding)。
並行運行5次模型,從答案中選擇tokens最少的。
初步實驗結果表示,簡潔解碼在AIME2024測試上能提高6%-7%的準確率,比Consensus
Decoding更好也更快。
--
竟然在PTT 認真討論arXiv,根本清流
看起來是所有類o1都有的問題?只是
論文只跑QwQ跟DS
跟一開始的openAI一樣 很快被玩壞
他是蒸鎦模型,會半途而廢另闢戰場.
有點:這樣還不行,趕緊換個方法試試
看成Undertaker
真的耶,搜尋一關鍵字就有類似的
文章
Overthinking
43
Re: [新聞] DeepSeek在蘋果中國及美國區免費App下載-現在測試AI大模型的方法其實沒有太明確的標準 甚至有一些謬誤 比如說拿具有時效性的問題去問,像是問現任美國總統是誰 這種時效性高的問題大模型本來就很難回答,除非有讓他連網做結合 應該說,這種問題你應該去GOOGLE就好,不需要問AI![Re: [新聞] DeepSeek在蘋果中國及美國區免費App下載- Re: [新聞] DeepSeek在蘋果中國及美國區免費App下載-](https://i.imgur.com/VlTImxZb.jpeg)
29
Re: [討論] OpenAI GPT o1模型OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI 已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了 ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer o 的水準。 很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了![Re: [討論] OpenAI GPT o1模型 Re: [討論] OpenAI GPT o1模型](https://i.ytimg.com/vi/eaAonE58sLU/sddefault.jpg)
17
Re: [爆卦] OpenAI 新模型o1輕鬆考上台大資工/台大看來很多推文的人還不太了解AI有多可怕 一直聽曲博在那胡說八道 gpt4o以前的版本 是所謂的生成式ai 給定大量資料 他就會從資料找規則 並建立模型 有了模型就能預測答案 以上講了落落長 簡潔回答 那就是gpt4o版本以前 採用「歸納法」思考X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。![Re: [爆卦] 中央研究院詞庫小組大型語言模型 Re: [爆卦] 中央研究院詞庫小組大型語言模型](https://llama-chat-4fcmny015-replicate.vercel.app/opengraph-image.png?0806238e04f3e3af)
10
[心得] 讓 AI 好好說話,兩步提示增強模型輸出Medium 好讀版: 大型語言模型 (LLM) 為自動化工作流程提供了很多幫助, 很多新的應用因為大型語言模型的出現,從不可能變為可能。 而為了使用模型的回答來串接不同的工作, 結構化輸出 (Structured Output) 幾乎不可或缺。![[心得] 讓 AI 好好說話,兩步提示增強模型輸出 [心得] 讓 AI 好好說話,兩步提示增強模型輸出](https://i.imgur.com/XJbjNh3b.jpg)
8
Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSee呃,這新聞是哪個平行時空新聞,當前一堆美國大學實驗室都已經成功用其他小型模型像ll ama或Qwen 復刻R1實驗了,而且也事實證明模型只要有辦法再訓練的時候盡可能要求模型更 長更多輪的思考時間那就必然會讓模型依據上下文湧現出推理能力。無論模型大小或是否用 deepseek的模型架構。 一堆知名的框架也開始嘗試復刻開源版的R1 Code,我覺得R1幾個比較可行的思路就是改用1X
[討論] DeepSeek這一仗,是民進黨輸了對啊 剛剛輝達官方發文表示,DeepSeek-R1是一個具有最先進推理能力的開放模型,與傳統型相比 不會直接提供回應,DeepSeek-R1會針對問題進行多次推理及查詢,採用思路鏈、共識和搜尋 方法以提供最佳答案與可靠性。 輝達進一步說明,DeepSeek-R1證明為何加速運算對於AI推理的需求至關重要,由於模型可以1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是![[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣 [問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣](https://i.imgur.com/jY9j0u3b.jpg)
4
[問卦] AI的湧現能力以及人類智慧的起源最近AI很夯 但是大家有沒有想過 其實大型語言模型做的事情就只有一個 就是“文字接龍” 那為什麼文字接龍可以讓AI看起來似乎有了智慧![[問卦] AI的湧現能力以及人類智慧的起源 [問卦] AI的湧現能力以及人類智慧的起源](https://img.youtube.com/vi/iP_7y6n2IFo/mqdefault.jpg)
2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,![Re: [問卦] 自由時報笑了:Deepseek準確度超低 Re: [問卦] 自由時報笑了:Deepseek準確度超低](https://i.imgur.com/r066Tiwb.jpeg)