Re: [心得] 蘋果揭露人工智能並不思考

LDPC 發表於 2025/6/16 上午1:32:24

看板Stock標題Re: [心得] 蘋果揭露人工智能並不思考作者

(Channel Coding)時間Jun 16 01:32:24 2025推噓14 推:14 噓:0 →:35

目前與論是這篇測試方法有問題... @@ 旁邊吃瓜中
https://hao.cnyes.com/post/176278

不過作者裡面有Samy Bengio 是AI三巨頭 Yoshua Bengio的弟弟
他們蘋果在去年底之前也發過類似風格一篇說LLM推里有問題
https://finance.sina.com.cn/roll/2024-10-12/doc-incshnvf0502180.shtml

貌似他們這幾個作者喜歡找一堆會失敗的場景.....
關鍵作者Iman Mirzadeh 已經發了好幾篇反LLM 文章
這部分也是一堆人的吐嘲
認為其他大廠都在讓AI變聰明你們果家就喜歡測試別人模型說這玩意哪裡不好哪裡爛
這樣子果家的AI怎追上別人? 而測試方法又是各種千奇百怪
像這次測試方法最近還因為模型token限制翻車

--
因為這樣我有陣子想反向操作買點果家股票想知道會發生怎樣情況@@

※ 引述《huabandd (我是阿肥巴你頭)》之銘言：
: https://is.gd/U7lWC8
: 看到一個影片，非新聞報導，僅創作者想法
: 討論蘋果揭露關於人工智能當中的最大謊言
: 之前也看過一個影片指出
: AI無法產出指針在10:10以外的手錶
: （網路手錶圖片通常指針停留在10:10）
: 自己嘗試過幾次確實是這樣
: 因為AI的訓練是基於現有大量資料
: 去產生一個與大量資料相似的產物給你
: 無法產生未曾有過資料的產物
: （以上為個人猜測，若錯誤請指正）
: 雖然現在已有研究嘗試將AI接入人類神經元
: 未來思考的方式有可能因此改變
: 不再只是記憶，而是真正的推理
: （但是這好像也是一件滿恐怖的事情？）
: 如果說給AI一個圍棋組，但不教他玩法
: 也不讓他參考棋類玩法，讓他自行摸索
: 就像嬰兒拿到玩具後自己亂玩那樣
: AI能夠自行生成玩法是不是就算是成功？
: 中文翻譯
: 蘋果剛剛揭露了人工智慧中最大的謊言，即「思考」的假象，證明了像 Claude、Deepseek-
: R1 和 OpenAI 的 o3-mini 等推理模型實際上並不會思考。蘋果沒有重複使用舊有的數學問
: 題，而是創造了這些模型從未見過全新謎題。結果令人震驚。
: 對於簡單問題，標準 AI 模型表現優於昂貴的推理模型，同時消耗更少的資源。對於中等複
: 雜度問題，推理模型顯示出一些優勢，但對於模擬現實世界情境的高複雜度問題，兩種類型
: 的模型都崩潰到 0% 的準確度。
: 這是確鑿的證據：蘋果給予 AI 模型逐步的演算法，就像給某人食譜一樣，但它們仍在相同
: 的門檻下失敗了。這證明它們無法遵循邏輯指令。該研究沒有發現任何形式推理的證據，得
: 出結論認為其行為最好用複雜的模式匹配來解釋。
: 簡單地更改名稱和問題會顯著降低性能。蘋果測試了河內塔（Tower of Hanoi）謎題，模型
: 在超過 100 步的移動中成功了，但在新穎的渡河謎題中僅僅 4 步後就失敗了。它們是記憶
: 模式，而不是進行邏輯推理。
: 隨著問題變得越來越難，「思考」模型使用的 token 越來越少，放棄得更快，而不是更深
: 入地思考。即使無限的計算資源也無濟於事。這揭示了數十億美元的 AI 投資是建立在錯誤
: 前提上的。
: 公司將複雜的模式匹配宣傳為真正的推理，誤導消費者對 AI 能力的認知。我們離通用人工
: 智慧（AGI）的距離並沒有大家想像的那麼近；我們正在處理的是非常複雜的自動完成系統
: 。當先進的 AI 推理模型連遵循簡單指令都失敗時，我們是否正生活在一個建立在幻想之上
: 的 AI 炒作泡沫中？
: 英文原文
: Apple just exposed the biggest lie in AI with the illusion of "thinking," provin
: g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act
: ually think. Instead of recycling math problems, Apple created brand new puzzles
: these models had never seen. The results were shocking.
: For simple problems, standard AI models outperformed expensive reasoning models
: while using fewer resources. For medium complexity, reasoning models showed some
: advantage, but for high complexity problems that mirror real-world scenarios, b
: oth types collapsed to 0% accuracy.
: Here's the damning evidence: Apple gave AI models step-by-step algorithms, like
: giving someone a recipe, and they still failed at the same thresholds. This prov
: es they can't follow logical instructions. The study found no evidence of formal
: reasoning, concluding behavior is better explained by sophisticated pattern mat
: ching.
: Simply changing names and problems degraded performance dramatically. Apple test
: ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed
: at novel river crossing puzzles after just 4 moves. They memorized patterns rat
: her than reasoned logically.
: As problems got harder, "thinking" models used fewer tokens and gave up faster i
: nstead of thinking deeper. Even unlimited computational resources couldn't help.
: This exposes that billions in AI investment are based on false premises.
: Companies market sophisticated pattern matching as genuine reasoning, misleading
: consumers about AI capabilities. We are not as close to AGI as everyone thinks;
: we're dealing with very sophisticated autocomplete systems. When advanced AI re
: asoning models fail at following simple instructions, are we living in an AI hyp
: e bubble built on illusions?

--

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)

※ PTT 網址

推

sdbb 06/16 01:36逢低買進aapl？因為iPhone是AI最好的載體？

※ 編輯: LDPC (76.21.72.78 美國), 06/16/2025 01:39:39

推

strlen 06/16 01:38老巴也沒賣光不會怎樣吧

推

aegis43210 06/16 01:39有過圖靈測試就表示有在思考

推

qwe78971 06/16 01:50思考是幻覺就像一隻鸚鵡聽人類講話它學習了

→

qwe78971 06/16 01:50但不代表他理解語言了河內塔 river cross 會這麼

→

qwe78971 06/16 01:50差有可能是OOD 就是訓練模型沒接雛過這個資料不

→

qwe78971 06/16 01:50是啥token問題用菜雞的語言來講就是鸚鵡沒聽過

→

qwe78971 06/16 01:50一句完整的句子只是學了句子裡的詞它不懂應用

→

qwe78971 06/16 01:50但是他知道什麼時候說什麼

→

qwe78971 06/16 01:52現在的AI 碰到完全沒有數據訓練的東西會直接擺爛

→

qwe78971 06/16 01:52 即便將解法寫給它它不會去應用作者也沒否定A

→

qwe78971 06/16 01:52I 只是認為這不是AGI 會成爲人類輔助工具而不是取

→

qwe78971 06/16 01:52代人類

→

haha98 06/16 01:57這篇最近被很多人嘲笑

→

qwe78971 06/16 01:59沒啥好嘲笑的當一件新事情沒人懷疑時才奇怪現在

→

qwe78971 06/16 01:59一堆人抱著LLM 會成為AGI 只是過於樂觀的想法

推

aegis43210 06/16 02:01沒錯，鸚鵡是好例子，牠有在思考和學習，但智商離人

→

aegis43210 06/16 02:01類還很遠

→

haha98 06/16 02:14他被嘲笑的原因不是他的動機阿是他做實驗的方式

→

qwe78971 06/16 02:17他用這兩個方法測試是因為他認為這是可控的？pap

→

qwe78971 06/16 02:17er有點長好像有三種條件記得很難找到其它數學方

→

qwe78971 06/16 02:17式去測試

→

qwe78971 06/16 02:18大半夜的很懶得開電腦去找

推

thejackys 06/16 02:22要AI用十個字回答100個字才能講完答案的問題說他答

→

thejackys 06/16 02:22不出來不會思考這算重新定義思考嗎

推

aegis43210 06/16 02:25的確算思考呀，只是AI智商低答不出來而已

推

bitcch 06/16 02:28先貶後面就可以在重新定義

推

laba5566 06/16 04:42現在ai頂會裡面能重現結果的有10%就算高了

→

laba5566 06/16 04:43一堆灌水文章發完就跑

→

xam 06/16 05:31聽起來類似AI領域的資安議題啊,針對弱點/短版去研究

→

newwu 06/16 05:54這是個低級錯誤...

→

demintree 06/16 06:04有過圖靈測試不代表有在思考好嗎

推

mdkn35 06/16 06:44我也覺得llama模型不夠好啊但我不敢空meta

推

tsubasawolfy06/16 07:09這就是要peer review的原因

→

kajika 06/16 07:29大家已經開始用爽爽阿婆還在出怪聲…

推

kobebrian 06/16 07:41思考也是有分等級的透過文字去揣摩上意也是在思考

→

kobebrian 06/16 07:41 只是比人類笨而已

→

sonatafm2 06/16 08:11這就像現代人批評古代人大遷徙怎麼不坐飛機有效率

→

sonatafm2 06/16 08:11多了同樣的意思

→

kao9458 06/16 08:44的弟弟也能成為頭銜…

→

strlen 06/16 09:30但這隻鸚鵡能解1秒解出你可能花一年學都解不出來的

→

strlen 06/16 09:31數學題或程式題也畫得出你可能學十年也畫不出來的

→

strlen 06/16 09:31圖做出你音感天份不好的人一輩子也做不出來的音樂

→

strlen 06/16 09:32另外雖然只是模仿當知識淵博態度永遠良好先不論

→

strlen 06/16 09:32牠是不是智能這商業價值夠大了

→

strlen 06/16 09:33然後說它只是在模仿啊不然你行你模仿看看啊.....

→

strlen 06/16 09:34人類喔大概99%的事連模仿都做不到勒

推

abyssa1 06/16 11:55思考的定義是什麼？

推

sdbb 06/16 12:02推樓上，蘋果重新定義思考

同系列文章

[心得] 蘋果揭露人工智能並不思考

其他人也閱讀了

PTT 熱門相關