PTT評價

Re: [爆卦] OpenAI 新模型o1輕鬆考上台大資工/台大

看板Gossiping標題Re: [爆卦] OpenAI 新模型o1輕鬆考上台大資工/台大作者
imhan705
(最後也就睡了)
時間推噓56 推:61 噓:5 →:82

剛推出出來的時候我拿了幾題邏輯題出來考他

正確率很高我很驚喜覺得太神啦

剛剛看到下面推文

說他答不出來9.9跟9.11誰比較大

我想說不可能這麼簡單的答不出來吧

就測試了一下 結果…下面是我的對話

真的答不出來 我還試著引導他用程式來解決

但完全沒有幫助

這代幻覺好像更嚴重了 連你質疑他都不會想改答案

我相信未來能解決的 我比較擔心一些人開始依賴他把他當google 他們會逐漸喪失辨別真偽的能力 AI輸出什麼就是什麼 AI犯錯不可怕 可怕的是犯錯了沒人知道他犯錯了

https://youtu.be/4EayaPNo6pk?si=XPOsISjXtbvi7cQA

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.99.24.246 (臺灣)

※ 文章網址:
https://www.ptt.cc/Gossiping/E.zfbTyQXfCN24

qw99992 09/17 02:20辨別不了真偽的慢慢就會被職場淘汰

void 09/17 02:20你講的最後一段早就發生了 一些白癡好像完全

當模型能力越強 信賴就會越深…有一天會有一群人相信9.9<9.11

void 09/17 02:21不懂AI會無中生有編假的答案給你 連驗證都不

void 09/17 02:21知道要做 還有ChatGPT以後就不需要估狗 笑死

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:21:55

void 09/17 02:22不用什麼模型能力強 第一代GPT就有這問題了

void 09/17 02:24如果你熟悉的東西你還知道它在唬爛 如果是

void 09/17 02:24你完全外行的領域 你連它在唬爛都看不出來

TaiwanUp 09/17 02:24看起來是當成日期了 中文問答較差

那他的算式意思是9月9日-9月11日=-0月21日囉

void 09/17 02:25偏偏現在一堆XX GPT講什麼就信什麼 只能說87

void 09/17 02:25Bing會附上reference這點是好很多 但性能差

TaiwanUp 09/17 02:26九月11確實比九月九大

void 09/17 02:27誰來試一下13.11和13.9看看? 這不可能是日期

他答對了 但就如我所說 真真假假 才是最可怕的

https://i.imgur.com/Gg3qyuk.png

void 09/17 02:27會不會上面這個就答對了不會出錯?

swgun 09/17 02:28問問AI 如何用數學證明9.1大於9.9

swgun 09/17 02:28說不定你發現AI 才是世界真理

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:28:35

jamo 09/17 02:28我感覺ai的正確率也不比記者低,在特定議題

jamo 09/17 02:28睜眼說瞎話程度兩者相當。記者的話都有人在

jamo 09/17 02:29信了,信AI看起來也就沒那麼不可接受了吧?

dans 09/17 02:29都說9.9-9.11=-0.21了,所以實際上是把9.11

dans 09/17 02:29當作10.11,感覺只是小錯

可是我要他驗算的時候抓不出來啊 他一直自圓其說

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:30:31

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:31:55

williambox 09/17 02:32除了文書處理外 還是小心求證得好...

dans 09/17 02:33ChatGPT本來就瞎掰王了,是你打開的房市錯

我覺得離譜的地方是我請他用程式來計算了 他直接無視程式的輸出 繼續講他的

dans 09/17 02:33

williambox 09/17 02:33最近職場上真的很常聽到"可是GPT說...

williambox 09/17 02:33" 嗯... 好唷

dans 09/17 02:35我成功教育瞎掰王把13.11也算錯了

XD

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:37:17

photoswimmer 09/17 02:38感覺人類哪天被AI滅了也會是因為一

photoswimmer 09/17 02:38些愚蠢的邏輯錯誤

想像哪天全人類要移民火星了 結果AI分不清楚9.9 9.11誰大 太空船路線直接衝向太陽 然 後船上的人也都不覺得有問題XD

DarkerDuck 09/17 02:38https://i.imgur.com/kFscaRK.png

DarkerDuck 09/17 02:38FUCK

※ 編輯: imhan705 (122.99.24.246 臺灣), 09/17/2024 02:41:26

GOD5566 09/17 02:42 https://i.imgur.com/JEHs9I4.jpeg

cccwahaha 09/17 02:44工程用的模型不一樣就是了XDXD

cccwahaha 09/17 02:45其實也很多在質疑目前AI的邏輯訓練方式

cccwahaha 09/17 02:47反正未來誰能更準確更厲害.誰就是對的

dans 09/17 02:50現實沒有所謂「最準確、最合理」若一直用這

dans 09/17 02:50標準去訓練AI模型,就只會持續做出瞎掰王

joywilliamjo 09/17 02:54那問他0.1+0.2是否等於0.3這個經典

joywilliamjo 09/17 02:54問題呢

TameFoxx 09/17 02:54用9.90-9.11問她 他就會了

YAYA6655 09/17 02:55他是語文模型 本身是不懂的思考的 可悲

WenliYang 09/17 02:55無聊的AI 走倒退路罷了

YAYA6655 09/17 02:56若這種都不會,AI真的會泡沫化 zzz

twoboy 09/17 03:009.9<9.11? 你傻了嗎?

enthpzd 09/17 03:14你問它:我可不可以說1+1=3。

cassetoi 09/17 03:14不用問數學,問chatgpt raspberry 有幾

cassetoi 09/17 03:14個r,它不會說3個,因為它不是真的給你

cassetoi 09/17 03:15乖乖去算

starfishfish 09/17 03:15

mimi1020b 09/17 03:31你講的這些不就是人類行為嗎

mimi1020b 09/17 03:32假做真時真亦假 不代表AI就是人了?

milkBK 09/17 03:45https://i.imgur.com/A67Tbs5.png

milkBK 09/17 03:45第一次回答錯誤 叫他寫證明

milkBK 09/17 03:50https://i.imgur.com/vybXaj3.png

milkBK 09/17 03:51用程式也沒問題啊 你用盜版嗎

dovepacket 09/17 04:12他就只是個大數據而已 沒多神

JoeyChen 09/17 04:12為啥copilot也會答錯

JoeyChen 09/17 04:17兩個AI都答錯 大數據裡應該不是這樣吧

AtsukoErika 09/17 04:18https://i.imgur.com/w1Pu6ZH.jpeg

AtsukoErika 09/17 04:18累死 終於矯正成功

graysinger 09/17 04:27我的還真的不會算耶,還給錯誤的證明

graysinger 09/17 04:27,整個廢到笑

graysinger 09/17 04:28http://i.imgur.com/uYTxOhW.jpg

graysinger 09/17 04:32http://i.imgur.com/Nd3ZGwy.jpg

dovepacket 09/17 04:32恭喜掰正

JoeyChen 09/17 04:34gray大 它方法1是對的耶

Chilloutt 09/17 04:36看不出ai對錯的比ai還敢更糟

graysinger 09/17 04:42ai這種錯中有對,對中有錯最讓人害怕

lau6m2002 09/17 05:25真的有在用的都知道AI超會唬爛。 但現

lau6m2002 09/17 05:25在真的有白癡把AI產出當成正確的證據

MrCool5566 09/17 05:47只要加寫出你的思考過程就會對了

eric112 09/17 05:53剛下試了一下發現它幹話講的很有道理,

eric112 09/17 05:53我差點以為我錯了

nalthax 09/17 06:06在法界早就發生了

jasperhai 09/17 06:31早就一堆人把AI當神 毫無判斷能力了

menchian 09/17 06:38ai目前錯誤還是很多,碰到不知道的事情

menchian 09/17 06:39還會隨便唬爛,但可悲的是一堆低能兒跟

menchian 09/17 06:39你討論事情時只會拿ai的回答當佐證

menchian 09/17 06:41http://i.imgur.com/yGZWb0X.jpg

menchian 09/17 06:41比如像這樣亂算一通

mugen8521 09/17 06:42挺有趣的http://i.imgur.com/q43ByON.j

mugen8521 09/17 06:42pg

mugen8521 09/17 06:43http://i.imgur.com/xbV1l0M.jpg

eva19452002 09/17 06:48但是這題用google gemini就有答對

jacky5827 09/17 07:18無法辨別真偽的,用google只會更慘

Taiwanfish 09/17 07:30https://i.imgur.com/ywkUfIR.jpeg

uwptd 09/17 07:34完美模擬台灣司法

laugh8562 09/17 08:04ChatGPT是數學白癡 應該說他的模型就

laugh8562 09/17 08:04不是用來算這個的

Ernest 09/17 08:07算數學要數學特化的ai,有人做

riker729 09/17 08:18這不叫AI 沒有分辨能力 餵他屎他就出屎

Isopod 09/17 08:29https://i.imgur.com/2rqY1JJ.jpeg

Isopod 09/17 08:29prompt要下好

WFU 09/17 08:50你的問法不對 問9.90跟9.11哪個比較大就行了

graysinger 09/17 08:52沒救耶http://i.imgur.com/lckvyKy.jp

graysinger 09/17 08:52g

graysinger 09/17 08:53http://i.imgur.com/TgF0Cw6.jpg

joke3547 09/17 09:00o1好像會說服人,蠻恐怖的

pftmax 09/17 09:03不是Ai犯錯,而是答案本來就沒對錯

pftmax 09/17 09:03逆向思考,也許錯的答案也是對的

qzwse 09/17 09:07真的沒救

qzwse 09/17 09:10結論

qzwse 09/17 09:10數學部分 相信AI程式碼執行出來的東西 不

qzwse 09/17 09:10要直接相信AI

holypiggy 09/17 09:11確定只有數學部份嗎

qzwse 09/17 09:13gpt4 反而沒有這個問題

Townshend 09/17 09:23試了一下還真的分不出9.9 跟9.11誰大,

Townshend 09/17 09:23copilot的理由是9.9可當成9.90, 比較

Townshend 09/17 09:23尾數1>0,所以9.11比較大。真是笨的不

Townshend 09/17 09:23可思議

XiaoChing221 09/17 09:36就問的方式他聽不懂,別怪工具不好

Townshend 09/17 09:56連問9.9跟9.11哪個數字大也聽不懂,還

Townshend 09/17 09:57不能怪ai不好?

Townshend 09/17 09:59https://imgur.com/q3ms5sW

Townshend 09/17 10:00這樣問又知道答案 不曉得問題出在哪

LDY97 09/17 10:11結果他還把9.90-9.11=0.79改成錯的 笑爛

acluke 09/17 10:18開始讓我懷疑9.9是不是9.90了

pengda200010 09/17 10:349.9 and 9.11 are both float which

wiork 09/17 10:46對啊,缺點只能不要太深入的問題,還要檢

wiork 09/17 10:46視答案

deray 09/17 10:50微軟的copilot真他媽辣雞

DarkerDuck 09/17 10:53o1幻覺更嚴重不意外啊

patvessel 09/17 10:53https://reurl.cc/dyq0ez

DarkerDuck 09/17 10:54LLM本來就有幻覺,你還CoT串起來疊加

DarkerDuck 09/17 10:54https://i.imgur.com/EZiE3SL.png

DarkerDuck 09/17 10:56這就是為什麼有些問題o1表現更鬼扯

DarkerDuck 09/17 11:01至於9.9和9.11的問題在於LLM的全名是

DarkerDuck 09/17 11:01arge language model

DarkerDuck 09/17 11:01Large language model

DarkerDuck 09/17 11:02它處理的最小單位是語言中的單字token

DarkerDuck 09/17 11:02不是設計用來處理數字的

karta1271642 09/17 12:17他就不會推理啊

hotrain13 09/17 12:27他就不是拿來問數學的....

vincent8914 09/17 13:17根本是你問錯方式 誰知道你問的是日

vincent8914 09/17 13:18期 版本號 還是數值?期待AI通靈?

AoWsL 09/17 13:209.9跟9.11這數學問題討論很多次吧...我還測

AoWsL 09/17 13:20試了一下大部分的AI,GPT4o剛開始還會跟你

AoWsL 09/17 13:20硬拗不認錯

AoWsL 09/17 13:23喔好像只有gemini答對是不是?

hhealthy0429 09/17 13:46沒有背景知識能力使用generative a

hhealthy0429 09/17 13:46i 幫助有限

losage 09/17 15:10有沒有可能ai的推論才是真的

abbag 09/17 15:26開始虎爛不認錯後,信任度下降就慘了XD

a0521487241 09/17 20:36https://i.imgur.com/BcxpNTC.jpeg

a0521487241 09/17 20:37我是叫他再想想就正確了

XiaoChing221 09/17 21:40表達能力有問題嫌工具爛