Re: [討論] OpenAI GPT o1模型
OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了 ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zero 的水準。
很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了。但這種想法只能說對一半。之前的 LLM 確實是從大量資料中,透過模式相似性來猜測答案。模型夠大,猜得也夠準,但一旦遇到需要推理和邏輯的超長尾問題,就掛了。沒有連貫的推理能力,肯定解不出來。
然而,o1 模型的訓練方式完全不同。它花了大量時間在模型微調上,讓模型針對已知的問答,把所有的思考過程(CoT)都想出來。網路上很多資料只有問題和答案,中間的推理過程要嘛沒有,要嘛只提重點。這些都是靠強化學習逼出來的。
如果有興趣,建議大家讀一下 OpenAI 官網的技術報告和論文:
https://openai.com/index/weak-to-strong-generalization/
。重點在這句:「當我們用這種方法,用 GPT-2 級別的模型來監督 GPT-4 在 NLP 任務上的表現,結果模型的性能通常介於 GPT-3 和 GPT-3.5 之間。」
在這種新機制下,OpenAI 已經不需要再從網路抓資料了。他們可以透過 LLM 之間的互動,產生問題和答案,進行更廣泛、更完整的訓練。而且這種訓練方式相當於,你雖然只學過小學數學,但經過長時間的策略搜索和 ToT 機制,類似於 System 2 的思考,你可以解出國中數學題。
當這些能力達到單一模型的算力極限時,可以透過擴大模型,把新知識裝載進更大的模型,透過 Transformer 達成 System 1 思考的嵌入。這就像學好國中數學的新模型,開始挑戰高中數學。提升智力的方式是無限的,只受限於你的 GPU 算力。
你知道嗎,OpenAI 在解決 AIME 2024 的最新題目時,沒有任何過去的考古題可參考,裡面的推導公式連他們的員工都看不懂。難道還有人以為 AI 是靠背題目來解答的嗎?
※ 引述 《wsad50232 (GGYY)》 之銘言:
: 標題: Re: [討論] OpenAI GPT o1模型
: 時間: Tue Sep 17 12:46:33 2024
:
:
: 不就是語言模型+題庫
:
: 題庫1000題不夠,那就10000題
: 一萬題不夠,那就10萬題
: 看你人的腦袋能裝多少題庫 拼的過嗎?
:
: 但是對那些非一般性的
: 面向多的,沒有標準答案的
: 個別性強,特殊場合,網上找不到答案的
: 資料不足,不完善的
:
: AI 就嗝了
:
: 某小氣公司 難得花了大錢 買了Licence
: 打算明年縮減一半的人力來完成更多的工作
:
: 只能說這些早就不碰技術的高層
: 異想天開 腦袋裝屎
:
: AI 能解的問題 人工早就解了
: 人工不能解的 AI 也不能解
: 但是AI會唬爛很多行不通的答案
: 來浪費人工去驗證
:
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.194.68 (臺灣)
: ※ 文章網址: https://www.ptt.cc/Tech_Job/E.hXQkdzoCpHKQ
: 推 sdbb : 有卦有推 09/17 12:51: → bnn : 小氣公司砍掉底層人力正好最適合 09/17 13:01: 推 alittleghost: 反而沒有標準的才是genai的強項 09/17 14:02: 推 holebro : 哪間 09/17 14:24: 噓 zxc0312 : 喔喔喔喔喔這麼會算喔 那幫我算一下怎麼從重劃台北 09/17 15:17: → zxc0312 : 萬華區 總投資五年回收哦 09/17 15:17: 推 tim82518 : 哪間 09/17 16:21: → strlen : 其實這次o1似乎就是AI自己出題自我訓練了 09/17 16:44: 推 abc0922001 : ChatGPT plus 一個月 20 美金而已 09/17 17:04: ※ 編輯: wsad50232 (118.166.194.68 臺灣), 09/17/2024 18:37:28
: → chin7521 : 人工不能解的不就請再多人也沒有 09/17 20:10: 噓 aszx4510 : LLM都出來這麼久了怎麼還有人在講題庫 09/17 20:24: 推 rnoro : LLM都出來這麼久了,怎麼還有人搞不懂就是題庫。。 09/17 23:29: 推 rnoro : LLM就是超大接龍,哪來的什麼智慧,話術行銷是一回 09/17 23:32: → rnoro : 事,搞清楚他能做什麼做不到什麼很要緊,LLM可以搞 09/17 23:32: → rnoro : 一些從1到5的東西,從0到1就沒輒了。如果現在人搞不 09/17 23:33: → rnoro : 不出來但是機器搞得出來代表問題本質就是排列組合 09/17 23:34: → rnoro : 人搞不出來機器也搞不出來,那就得靠真功夫想些新 09/17 23:34: → rnoro : 東西了 09/17 23:34: 推 lemonsheep : 但0到1是基礎學科研究在做的 一般工程師甚至整個公 09/18 00:47: → lemonsheep : 司都是在做1到5的事啊 有哪位的code不是套既有演算 09/18 00:47: → lemonsheep : 法而是自己想出比既有演算法更好複雜度的寫法嗎? 09/18 00:47: 噓 Izangel : 天氣預測/蛋白質結構預測/候選藥物預測是文字接龍嗎 09/18 00:57: → Izangel : ?笑死。 09/18 00:57: 噓 rnoro : 什麼時候LLM做天氣預測了。。。 09/18 03:21: → rnoro : 現在所謂的ai只是把問題想辦法塞進目前可以訓練的 09/18 03:22: → rnoro : 框架,其本質是統計,哪來什麼扯淡智慧,統計沒什麼 09/18 03:23: → rnoro : 不好,只是要搞清楚哪些是話術哪些是搞得出來的東西 09/18 03:23: → rnoro : 現在動不動就恐嚇人什麼agi,嚇唬誰呢 09/18 03:23: → strlen : 還在統計...看來是個完全不懂alexnet的朋友呢 09/18 08:44: 推 Csongs : 小氣的小公司嗎 09/18 08:48: → john65240 : 真的,看不懂的只能說你還不懂AI是什麼 09/18 08:49: 噓 whatzup1124 : 還在題庫哦 機率是什麼你們懂嗎 09/18 11:02: → whatzup1124 : 分類問題你們懂嗎 09/18 11:02
--
工作上一個ticket 用了cursor + o1 preview, 1個小
時就做完了 答案還很完美。 令人驚艷的是它可以快
速閱讀很多files 然後思考 並準確的給出答案
現在報名水電學徒還來的急嗎
我覺得Orion 出來之後可能是agent 完整體,到時可
能不用外掛任何寫code框架就可以搞定
9.9 vs 9.11
9.9 vs 9.11還有幾個r在strawberry 中都屬於token
切割的蠢問題,不會是o1要處理的重點,覺得AI很愚
蠢的可以繼續開心很多年
樂見Ai取代人類 不然每天工作好累
讓llm出題做rl很合理,可是給reward的 label從哪來
呢? 如果還是需要人為prompt介入,本質上不算agi
吧
真的 未來那些system design跟軟體開發上的know ho
w, gpt會也只是時間上的問題了 現在報名水電還來得
及嗎 感覺SWE的生存空間要被壓縮了QQ
新的rl已經不需人類介入,不是rlhf。你要仔細參考
我貼的那篇才知道可能的做法,以下僅是個人猜測,
一開始應該會先以gan為基底方法,有題目有答案但沒
有cot,訓練時要求llm提供完整cot,然後把每步驟的
cot都拆解成獨立證明提要求critic llm把關,如果證
明看不懂就得要求o1往下拆解到critic llm看得懂且
置信率要非常高。等到這步訓練有成效之後,再請出
題o1出題給解答o1解,這時會依照既有知識堆疊出一
個複雜的長尾問題出來讓o1自己解,進而不用再抓取
網路大量垃圾來訓練model,資料牆問題也被攻克
9.9 vs 9.11 真的不重要.. 隨便想想都知道
隨便想像都知道 10年後有多可怕 -.-
對模型做rl跟在prompt內加入CoT的差別是?
好喔
在RL做COT與在PROMPT做COT有非常本質上的問題,就
是要如何驗證COT是對的,你請gpt-4o 在複雜的數理
問題上做COT,他常常可以回個大概,但中間有步驟錯
了或是太含糊,根本上COT本身會有非常嚴重的幻覺問
題,但你如果把COT拆解成一段一段讓critic llm去解
,那中間是否有問題就很容易判定,再者有些說明跳
太快critic llm可能無法從先驗知識解讀,那就要進
一步請o1做問題拆分。 這單靠prompt是無法解決的,
我猜目前o1的一次推理中的cot中每個step都是一次單
獨的inference ,當然還要配套MTCS,不然你會很容
易陷入長尾問題的local minimum 中
更正 是MCTS
也許可行吧,只是就算把cot分解critic要判斷的還是
比alphago的critic估計勝率難很多,label品質不好
就不容易是一種穩定的訓練方法。
我覺得可以可以讓critic llm逐漸使用高置信率來評
斷進而推升o1本體的能力,那每個cot可能就從對5個
晉升到對10個,進一步推升到整個chain都是對的。所
以o1可以不用一次inference對整串,他要確保的是在
每一個step正確性以及前後連貫性,如此就沒有梯度
消失的問題
太樂觀 離AGI還遠的 三維空間問題它沒辦法處理
AGI is clearly here. But fine … Don’t look up.
三維空間無法解決的請看這鏈結
蠻厲害的 不借助引擎完成 不過我是指real world
這次突破的關鍵可以看這個openai關鍵員工的演講:
stop the hype train, LLM is a dead end
don't waste time on llm, go4 lecun's world model
難得的優文,謝謝
讀了論文,關鍵是讓小模型指導大模型是放大模型更
好的泛化性,相當於用模型的先天表示力去補強標籤的
請問現在開始練身體可以當比較有用的生物電池嗎?
三維不就李飛飛正在做的嗎
先驗了,好像有點道理。
改個錯字,釋放。
還有幾個月可以逃呢
嘻嘻,結果工程師吹了半天AI取代醫生,自己的工作先
被取代
不用逃了,即使是完整o1都算閹割版,他們內部大概
率已經有AGI level 4完整版在玩了,放不放出來只是
安全性評測與性價比問題
什麼時候能發現新的微分方程有解析解的
AIME題目好像都可以用暴力硬解,用這來說AI比人厲害
,欸豆,頂多說它算得快吧
可以reasoning代表所有人類講邏輯的東西都可以取代
大概只剩律師法官?
還好 錢 房子都存夠了
所以小氣公司真的可以用AI來縮減一半的人力?
瑟瑟發抖 現在考水電還來的及嗎
想太多了,目前所有測試LLM方式都是在"有標準答案"
的情況。現實工作中,明明大部分的工作都是每標準答
案,甚至看人心情的情形。
沒標準答案的工作,AI要怎麼訓練與幫助你工作。
目前的標準答案形式的AI,工廠的瑕疵檢測都解不了了
。
連最基本的電子產品生產環節,任何一個製程發生issu
e,怎麼依照現場環境來出解答(一直都難以有標準答案
),都做不了了。
AI生成任何標準答案,是正確的沒錯,而且可能比人寫
的好,但不代表是現實工作可採用,可被接受的。
現實不採用單純是cp值與先驗問題,這麼貴又還沒有
人在商務上投產過,如果不能肯定創造更多價值或節
省成本,沒有公司願意嘗試,但3年後我預估成本會比
現在低100倍,且有實際成功案例,到時大失業潮就會
來臨
蛋白質跟藥物合成的標準答案是什麼?笑死。怎麼總有
人把自己認為的就以為是AI的全部能力或定義?
同理 所以如何證明當下人類的判斷就一定是對的?
一直用AI只會照表抄課來否定 那一堆標準訂來讓人類
遵循的意義又是什麼
不能完全替代不代表不能部分替代
感謝分享! 是時候去少林寺報名廚藝班了
食神梗太老了
ARC-AGI 先對 85% 我再來擔心
感謝解說
以下是 ARC-AGI 的測評 https://reurl.cc/4dbO0V
只要有心,人人都可以是食神!! (振奮
一切都是幻覺(AI也有),嚇不倒我的
Aime又不難 要說的話 deepmind還更強
總是有需要人的地方。只是會有中空期。
推
有人說到token切割不屬於它的問題,那是不是代表
就算發展的再強,也會因為token切錯出大問題?
token切割單純是要節省算力,之後只要agent 掛上程
式工具,這些都是小問題
openai的報告真叫人唏噓,現在連一行方程式都看不到
了,要嘛實在太小氣,要嘛沒有數學上的新東西
不管是哪個都讓人失望。。。
意識到嚴重性所以呢?你那邊還來得及買便宜的台積電
快買
就是沒有標準答案才要靠AI啊 到底在說什麼啊
去想想當人類碰到沒有標準答案的問題 是怎麼處理的
很簡單 試阿 這裡試試 那裡試試 試到有一次打中問題
點了就解了 哪一個沒標準答案的問題不是這種解法?
那試東西 機器絕對比人類快一百萬倍吧
天網的原型?
好期待人類被取代的那一天 十年內有機會嗎
人是拿來負責任用的
人類是拿來當電池 ~~
數學方面我覺得到最後不需要人來label AI是可以左
右互搏來比較認證
38
首Po上禮拜OpenAI發布經過強化學習訓練的新型語言模型o1 宣稱模型有更強大的思考能力 o1在回答之前會深入思考產生內部的推理練 結果就是o1模型在各個人類頂尖領域獲得相當好的成績10
不就是語言模型+題庫 題庫1000題不夠,那就10000題 一萬題不夠,那就10萬題 看你人的腦袋能裝多少題庫 拼的過嗎? 但是對那些非一般性的2
嗨 科技板首PO 關於這篇 Open AI發展的新聞 肥宅不懂AI 但高中有參加過AIME 只有寫出四題 被AI屌打 嘻嘻 但肥宅還是想幫人類平反一下10
阿肥外商碼農阿肥啦! 目前技術太多都說得太雲裡霧裡,但是截至目前為止針對o1其實OpenAI透露出來的技術細 節都不如過往得多,像之前GPT-4跟GPT-3.5過往還有完整的文件跟引用可以窺探,所以就 不做過份的臆測了。 以目前的一些文件上有提到的可以確定這次o1使用了CoT這絕對是一個Agent沒錯(跟過往
73
Re: [請益] NVDA跟AMD怎麼突然崩了週末有點時間 之前寫的老黃故事 這幾年AI模型突飛猛進的一個關鍵點就是 泛化的能力 簡言之 2018以前 AI模型 都是透過數據 去學習資料上的標註資料 來做人類事先規範好的目的 而機器透過這些標注數據 去達到人類要求的事情 當模型遇到一個沒看過的數據 或者場景變得不同 模型就會失效 甚至無法處理52
Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套小弟待的公司,非學術單位, 可能是台灣硬體計算資源稍微豐富的公司。 公司投入在買GPU 應該近億了。 自己也研究了幾個月 fine-tune 方法。 不過,還是沒足夠能力與資源訓練正常的LLM。45
[爆卦] Openai:GPT o1超越人類理工博士OpenAI今天發布經過強化學習訓練的新型大語言模型o1 擁有執行複雜推理的能力 這就是傳說中的草莓模型 o1在回答前會進行深入思考並產生內部推理鏈17
Re: [爆卦] OpenAI 新模型o1輕鬆考上台大資工/台大看來很多推文的人還不太了解AI有多可怕 一直聽曲博在那胡說八道 gpt4o以前的版本 是所謂的生成式ai 給定大量資料 他就會從資料找規則 並建立模型 有了模型就能預測答案 以上講了落落長 簡潔回答 那就是gpt4o版本以前 採用「歸納法」思考X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。6
Re: [問卦] ChatGPT改變了什麼行為模式?行? : : 業都發揮著重要作用,對許多人的生活產生了深遠影響。我想請問各位前輩,究竟Ch at : : T改變了哪些行為模式呢? : : 希望大家能分享一些寶貴的經驗和看法,讓我對ChatGPT及其對社會行為模式的影響5
Re: [新聞]剖析中研院大型語言模型事件的衝擊先說結論: 發展本土化,繁體中文LLM模型,然後期待這個模型能讓大家使用,根本是錯誤方向。不知道這些專家學者,是在騙經費,還是還沒想清楚產業到底缺什麼。 --- 如果今天你使用Google搜尋,搜到"台灣是中國的",或任何有政治偏見的相關文章。 你會不會覺得Google很爛?5
Re: [心得] WWDC24節錄-系統級個人助理面世自己回自己的文,給想進入AI生活的人一點知識科普,順便闢謠一下網路上漫天飛的錯誤 資訊。 === 個人裝置跑『大模型、小模型』,大小如何定義? 以下節錄台大洪教授的臉書文字內容:3
Re: [問卦] ChatGpt為什麼開始變笨了?正好半夜看到這篇無聊來回一下 GPT4能力下降大概5月多開始就有人注意到了 但你要怎麼定義能力衰退這件事而且量化他? 於是七月就有一篇論文在討論這件事
54
[心得] 80就是主管的錯51
[討論] GG的leader跟學長姐還敢囂張嗎?17
[請益] 如何職場霸凌主管?12
[請益] 視訊面試對方沒開鏡頭12
Re: [心得] 我將台達電列為永不面試黑名單8
[請益]年薪400工時小於8,怎麼計算換工作的成本9
Re: [心得] 我將台達電列為永不面試黑名單22
[討論] 台達電算設備廠中的T幾公司了??8
[心得] X達484該全體員工加薪20%了?