Re: [討論] OpenAI GPT o1模型

zxwxz 發表於 2024/9/18 上午11:19:17

看板Tech_Job標題Re: [討論] OpenAI GPT o1模型作者

(zxwxz)時間Sep 18 11:19:17 2024推噓29 推:30 噓:1 →:104

OpenAI 最近推出了 GPT-o1，但很多人可能還沒意識到這件事的嚴重性。事實上，OpenAI已經找到了一條通往 AGI（通用人工智慧）的階梯！這個新模型的關鍵在於，它已經整合了 ToT（思維樹）和 RL（強化學習），在大型語言模型（LLM）領域達到了類似 AlphaGo Zero 的水準。

很多人以為 LLM 就是個「刷題機器」，記住了大量的資料，所以我們在人類記憶力上輸了。但這種想法只能說對一半。之前的 LLM 確實是從大量資料中，透過模式相似性來猜測答案。模型夠大，猜得也夠準，但一旦遇到需要推理和邏輯的超長尾問題，就掛了。沒有連貫的推理能力，肯定解不出來。

然而，o1 模型的訓練方式完全不同。它花了大量時間在模型微調上，讓模型針對已知的問答，把所有的思考過程（CoT）都想出來。網路上很多資料只有問題和答案，中間的推理過程要嘛沒有，要嘛只提重點。這些都是靠強化學習逼出來的。

如果有興趣，建議大家讀一下 OpenAI 官網的技術報告和論文：
https://openai.com/index/weak-to-strong-generalization/
。重點在這句：「當我們用這種方法，用 GPT-2 級別的模型來監督 GPT-4 在 NLP 任務上的表現，結果模型的性能通常介於 GPT-3 和 GPT-3.5 之間。」

在這種新機制下，OpenAI 已經不需要再從網路抓資料了。他們可以透過 LLM 之間的互動，產生問題和答案，進行更廣泛、更完整的訓練。而且這種訓練方式相當於，你雖然只學過小學數學，但經過長時間的策略搜索和 ToT 機制，類似於 System 2 的思考，你可以解出國中數學題。

當這些能力達到單一模型的算力極限時，可以透過擴大模型，把新知識裝載進更大的模型，透過 Transformer 達成 System 1 思考的嵌入。這就像學好國中數學的新模型，開始挑戰高中數學。提升智力的方式是無限的，只受限於你的 GPU 算力。

你知道嗎，OpenAI 在解決 AIME 2024 的最新題目時，沒有任何過去的考古題可參考，裡面的推導公式連他們的員工都看不懂。難道還有人以為 AI 是靠背題目來解答的嗎？

※ 引述《wsad50232 (GGYY)》之銘言：
: 標題: Re: [討論] OpenAI GPT o1模型
: 時間: Tue Sep 17 12:46:33 2024
: 　
: 　
: 不就是語言模型+題庫
: 　
: 題庫1000題不夠，那就10000題
: 一萬題不夠，那就10萬題
: 看你人的腦袋能裝多少題庫拼的過嗎？
: 　
: 但是對那些非一般性的
: 面向多的，沒有標準答案的
: 個別性強，特殊場合，網上找不到答案的
: 資料不足，不完善的
: 　
: AI 就嗝了
: 　
: 某小氣公司難得花了大錢買了Licence
: 打算明年縮減一半的人力來完成更多的工作
: 　
: 只能說這些早就不碰技術的高層
: 異想天開腦袋裝屎
: 　
: AI 能解的問題人工早就解了
: 人工不能解的 AI 也不能解
: 但是AI會唬爛很多行不通的答案
: 來浪費人工去驗證
: 　
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.194.68 (臺灣)
: ※ 文章網址: https://www.ptt.cc/Tech_Job/E.hXQkdzoCpHKQ
: 推 sdbb : 有卦有推 09/17 12:51: → bnn : 小氣公司砍掉底層人力正好最適合 09/17 13:01: 推 alittleghost: 反而沒有標準的才是genai的強項 09/17 14:02: 推 holebro : 哪間 09/17 14:24: 噓 zxc0312 : 喔喔喔喔喔這麼會算喔那幫我算一下怎麼從重劃台北 09/17 15:17: → zxc0312 : 萬華區總投資五年回收哦 09/17 15:17: 推 tim82518 : 哪間 09/17 16:21: → strlen : 其實這次o1似乎就是AI自己出題自我訓練了 09/17 16:44: 推 abc0922001 : ChatGPT plus 一個月 20 美金而已 09/17 17:04: ※ 編輯: wsad50232 (118.166.194.68 臺灣), 09/17/2024 18:37:28
: → chin7521 : 人工不能解的不就請再多人也沒有 09/17 20:10: 噓 aszx4510 : LLM都出來這麼久了怎麼還有人在講題庫 09/17 20:24: 推 rnoro : LLM都出來這麼久了，怎麼還有人搞不懂就是題庫。。 09/17 23:29: 推 rnoro : LLM就是超大接龍，哪來的什麼智慧，話術行銷是一回 09/17 23:32: → rnoro : 事，搞清楚他能做什麼做不到什麼很要緊，LLM可以搞 09/17 23:32: → rnoro : 一些從1到5的東西，從0到1就沒輒了。如果現在人搞不 09/17 23:33: → rnoro : 不出來但是機器搞得出來代表問題本質就是排列組合 09/17 23:34: → rnoro : 人搞不出來機器也搞不出來，那就得靠真功夫想些新 09/17 23:34: → rnoro : 東西了 09/17 23:34: 推 lemonsheep : 但0到1是基礎學科研究在做的一般工程師甚至整個公 09/18 00:47: → lemonsheep : 司都是在做1到5的事啊有哪位的code不是套既有演算 09/18 00:47: → lemonsheep : 法而是自己想出比既有演算法更好複雜度的寫法嗎？ 09/18 00:47: 噓 Izangel : 天氣預測/蛋白質結構預測/候選藥物預測是文字接龍嗎 09/18 00:57: → Izangel : ？笑死。 09/18 00:57: 噓 rnoro : 什麼時候LLM做天氣預測了。。。 09/18 03:21: → rnoro : 現在所謂的ai只是把問題想辦法塞進目前可以訓練的 09/18 03:22: → rnoro : 框架，其本質是統計，哪來什麼扯淡智慧，統計沒什麼 09/18 03:23: → rnoro : 不好，只是要搞清楚哪些是話術哪些是搞得出來的東西 09/18 03:23: → rnoro : 現在動不動就恐嚇人什麼agi，嚇唬誰呢 09/18 03:23: → strlen : 還在統計...看來是個完全不懂alexnet的朋友呢 09/18 08:44: 推 Csongs : 小氣的小公司嗎 09/18 08:48: → john65240 : 真的，看不懂的只能說你還不懂AI是什麼 09/18 08:49: 噓 whatzup1124 : 還在題庫哦機率是什麼你們懂嗎 09/18 11:02: → whatzup1124 : 分類問題你們懂嗎 09/18 11:02

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.188.192 (臺灣)

※ PTT 網址

→

somerabbit 09/18 11:30工作上一個ticket 用了cursor + o1 preview, 1個小

→

somerabbit 09/18 11:30時就做完了答案還很完美。令人驚艷的是它可以快

→

somerabbit 09/18 11:30速閱讀很多files 然後思考並準確的給出答案

推

OyodoKai 09/18 11:33現在報名水電學徒還來的急嗎

→

zxwxz 09/18 11:34我覺得Orion 出來之後可能是agent 完整體，到時可

→

zxwxz 09/18 11:34能不用外掛任何寫code框架就可以搞定

→

ma721 09/18 11:359.9 vs 9.11

→

zxwxz 09/18 11:449.9 vs 9.11還有幾個r在strawberry 中都屬於token

→

zxwxz 09/18 11:44切割的蠢問題，不會是o1要處理的重點，覺得AI很愚

→

zxwxz 09/18 11:44蠢的可以繼續開心很多年

推

HiHiCano 09/18 11:50樂見Ai取代人類不然每天工作好累

→

fallcolor 09/18 11:52讓llm出題做rl很合理，可是給reward的 label從哪來

→

fallcolor 09/18 11:52呢？如果還是需要人為prompt介入，本質上不算agi

→

fallcolor 09/18 11:52吧

推

NTHUlagka 09/18 12:02真的未來那些system design跟軟體開發上的know ho

→

NTHUlagka 09/18 12:02w, gpt會也只是時間上的問題了現在報名水電還來得

→

NTHUlagka 09/18 12:02及嗎感覺SWE的生存空間要被壓縮了QQ

→

zxwxz 09/18 12:03新的rl已經不需人類介入，不是rlhf。你要仔細參考

→

zxwxz 09/18 12:03我貼的那篇才知道可能的做法，以下僅是個人猜測，

→

zxwxz 09/18 12:03一開始應該會先以gan為基底方法，有題目有答案但沒

→

zxwxz 09/18 12:03有cot，訓練時要求llm提供完整cot，然後把每步驟的

→

zxwxz 09/18 12:03cot都拆解成獨立證明提要求critic llm把關，如果證

→

zxwxz 09/18 12:03明看不懂就得要求o1往下拆解到critic llm看得懂且

→

zxwxz 09/18 12:03置信率要非常高。等到這步訓練有成效之後，再請出

→

zxwxz 09/18 12:03題o1出題給解答o1解，這時會依照既有知識堆疊出一

→

zxwxz 09/18 12:03個複雜的長尾問題出來讓o1自己解，進而不用再抓取

→

zxwxz 09/18 12:03網路大量垃圾來訓練model，資料牆問題也被攻克

→

zzzxxxqqq 09/18 12:229.9 vs 9.11 真的不重要.. 隨便想想都知道

→

zzzxxxqqq 09/18 12:23隨便想像都知道 10年後有多可怕 -.-

推

jeff85898 09/18 12:26http://i.imgur.com/U0QHQrr.jpg

→

jeff85898 09/18 12:28對模型做rl跟在prompt內加入CoT的差別是？

推

kunyi 09/18 12:35好喔

→

zxwxz 09/18 12:56在RL做COT與在PROMPT做COT有非常本質上的問題，就

→

zxwxz 09/18 12:56是要如何驗證COT是對的，你請gpt-4o 在複雜的數理

→

zxwxz 09/18 12:56問題上做COT，他常常可以回個大概，但中間有步驟錯

→

zxwxz 09/18 12:56了或是太含糊，根本上COT本身會有非常嚴重的幻覺問

→

zxwxz 09/18 12:56題，但你如果把COT拆解成一段一段讓critic llm去解

→

zxwxz 09/18 12:56，那中間是否有問題就很容易判定，再者有些說明跳

→

zxwxz 09/18 12:56太快critic llm可能無法從先驗知識解讀，那就要進

→

zxwxz 09/18 12:56一步請o1做問題拆分。這單靠prompt是無法解決的，

→

zxwxz 09/18 12:56我猜目前o1的一次推理中的cot中每個step都是一次單

→

zxwxz 09/18 12:56獨的inference ，當然還要配套MTCS，不然你會很容

→

zxwxz 09/18 12:56易陷入長尾問題的local minimum 中

→

zxwxz 09/18 12:58更正是MCTS

→

fallcolor 09/18 13:02也許可行吧，只是就算把cot分解critic要判斷的還是

→

fallcolor 09/18 13:02比alphago的critic估計勝率難很多，label品質不好

→

fallcolor 09/18 13:02就不容易是一種穩定的訓練方法。

→

zxwxz 09/18 13:08我覺得可以可以讓critic llm逐漸使用高置信率來評

→

zxwxz 09/18 13:08斷進而推升o1本體的能力，那每個cot可能就從對5個

→

zxwxz 09/18 13:08晉升到對10個，進一步推升到整個chain都是對的。所

→

zxwxz 09/18 13:08以o1可以不用一次inference對整串，他要確保的是在

→

zxwxz 09/18 13:08每一個step正確性以及前後連貫性，如此就沒有梯度

→

zxwxz 09/18 13:08消失的問題

推

qwe78971 09/18 13:11太樂觀離AGI還遠的三維空間問題它沒辦法處理

推

gogogogo333309/18 13:31AGI is clearly here. But fine … Don’t look up.

→

zxwxz 09/18 13:43三維空間無法解決的請看這鏈結

→

zxwxz 09/18 13:43 https://reurl.cc/VMmYR5

→

qwe78971 09/18 13:49蠻厲害的不借助引擎完成不過我是指real world

→

zxwxz 09/18 13:50這次突破的關鍵可以看這個openai關鍵員工的演講：

→

zxwxz 09/18 13:50https://reurl.cc/8XbDvg

推

aria0520 09/18 14:01stop the hype train, LLM is a dead end

→

aria0520 09/18 14:01don't waste time on llm, go4 lecun's world model

推

sdbb 09/18 14:05難得的優文，謝謝

推

fallcolor 09/18 14:23讀了論文，關鍵是讓小模型指導大模型是放大模型更

→

fallcolor 09/18 14:24好的泛化性，相當於用模型的先天表示力去補強標籤的

推

steak5566 09/18 14:25請問現在開始練身體可以當比較有用的生物電池嗎？

→

Izangel 09/18 14:25三維不就李飛飛正在做的嗎

→

fallcolor 09/18 14:25先驗了，好像有點道理。

→

fallcolor 09/18 14:27改個錯字，釋放。

推

lafel 09/18 15:08還有幾個月可以逃呢

推

tomatobus 09/18 15:16嘻嘻，結果工程師吹了半天AI取代醫生，自己的工作先

→

tomatobus 09/18 15:16被取代

→

zxwxz 09/18 15:16不用逃了，即使是完整o1都算閹割版，他們內部大概

→

zxwxz 09/18 15:16率已經有AGI level 4完整版在玩了，放不放出來只是

→

zxwxz 09/18 15:16安全性評測與性價比問題

→

houseguy 09/18 15:45什麼時候能發現新的微分方程有解析解的

推

kkithh 09/18 16:07AIME題目好像都可以用暴力硬解，用這來說AI比人厲害

→

kkithh 09/18 16:07，欸豆，頂多說它算得快吧

推

steak5566 09/18 16:21可以reasoning代表所有人類講邏輯的東西都可以取代

→

steak5566 09/18 16:21 大概只剩律師法官？

推

lantimes 09/18 16:57還好錢房子都存夠了

→

wtl 09/18 17:07所以小氣公司真的可以用AI來縮減一半的人力?

推

transforman 09/18 17:10瑟瑟發抖現在考水電還來的及嗎

→

DrTech 09/18 17:14想太多了，目前所有測試LLM方式都是在"有標準答案"

→

DrTech 09/18 17:14的情況。現實工作中，明明大部分的工作都是每標準答

→

DrTech 09/18 17:14案，甚至看人心情的情形。

→

DrTech 09/18 17:18沒標準答案的工作，AI要怎麼訓練與幫助你工作。

→

DrTech 09/18 17:20目前的標準答案形式的AI，工廠的瑕疵檢測都解不了了

→

DrTech 09/18 17:20。

→

DrTech 09/18 17:22連最基本的電子產品生產環節，任何一個製程發生issu

→

DrTech 09/18 17:22e，怎麼依照現場環境來出解答(一直都難以有標準答案

→

DrTech 09/18 17:22)，都做不了了。

→

DrTech 09/18 17:27AI生成任何標準答案，是正確的沒錯，而且可能比人寫

→

DrTech 09/18 17:27的好，但不代表是現實工作可採用，可被接受的。

→

zxwxz 09/18 17:55現實不採用單純是cp值與先驗問題，這麼貴又還沒有

→

zxwxz 09/18 17:55人在商務上投產過，如果不能肯定創造更多價值或節

→

zxwxz 09/18 17:55省成本，沒有公司願意嘗試，但3年後我預估成本會比

→

zxwxz 09/18 17:55現在低100倍，且有實際成功案例，到時大失業潮就會

→

zxwxz 09/18 17:55來臨

推

Izangel 09/18 18:10蛋白質跟藥物合成的標準答案是什麼？笑死。怎麼總有

→

Izangel 09/18 18:10人把自己認為的就以為是AI的全部能力或定義？

→

tgyhuj01 09/18 18:15同理所以如何證明當下人類的判斷就一定是對的？

→

tgyhuj01 09/18 18:19一直用AI只會照表抄課來否定那一堆標準訂來讓人類

→

tgyhuj01 09/18 18:19遵循的意義又是什麼

→

tgyhuj01 09/18 18:21不能完全替代不代表不能部分替代

推

create8 09/18 18:48感謝分享! 是時候去少林寺報名廚藝班了

推

sdbb 09/18 18:49食神梗太老了

推

hansioux 09/18 20:39ARC-AGI 先對 85% 我再來擔心

推

utn875 09/18 20:45感謝解說

推

AddListener 09/18 20:54以下是 ARC-AGI 的測評 https://reurl.cc/4dbO0V

推

create8 09/18 20:57只要有心，人人都可以是食神!! (振奮

推

sdbb 09/18 21:00一切都是幻覺(AI也有)，嚇不倒我的

推

spen2005 09/18 21:08Aime又不難要說的話 deepmind還更強

推

alvinlin 09/18 21:26總是有需要人的地方。只是會有中空期。

推

likeyousmile09/18 22:55推

→

kiedveian 09/18 23:03有人說到token切割不屬於它的問題，那是不是代表

→

kiedveian 09/18 23:04就算發展的再強，也會因為token切錯出大問題？

→

zxwxz 09/18 23:14token切割單純是要節省算力，之後只要agent 掛上程

→

zxwxz 09/18 23:14式工具，這些都是小問題

→

rnoro 09/18 23:26openai的報告真叫人唏噓，現在連一行方程式都看不到

→

rnoro 09/18 23:27了，要嘛實在太小氣，要嘛沒有數學上的新東西

→

rnoro 09/18 23:27不管是哪個都讓人失望。。。

噓

gsinin 09/19 00:58意識到嚴重性所以呢？你那邊還來得及買便宜的台積電

→

gsinin 09/19 00:58快買

→

strlen 09/19 01:24就是沒有標準答案才要靠AI啊到底在說什麼啊

→

strlen 09/19 01:24去想想當人類碰到沒有標準答案的問題是怎麼處理的

→

strlen 09/19 01:25很簡單試阿這裡試試那裡試試試到有一次打中問題

→

strlen 09/19 01:25點了就解了哪一個沒標準答案的問題不是這種解法？

→

strlen 09/19 01:26那試東西機器絕對比人類快一百萬倍吧

→

kissa092430709/19 01:51天網的原型？

推

hduek153 09/19 07:26好期待人類被取代的那一天十年內有機會嗎

→

chauan 09/19 08:44人是拿來負責任用的

→

darkangel11909/19 10:28人類是拿來當電池 ~~

推

jamesho8743 09/19 13:57數學方面我覺得到最後不需要人來label AI是可以左

→

jamesho8743 09/19 13:57右互搏來比較認證

同系列文章

[討論] OpenAI GPT o1模型

其他人也閱讀了

PTT 熱門相關