Re: [請益] 軟體失業是遲早的事吧

oopFoo 發表於 2025/10/17 上午8:01:49

看板Soft_Job標題Re: [請益] 軟體失業是遲早的事吧作者

(3d)時間Oct 17 08:01:49 2025推噓27 推:27 噓:0 →:137

※ 引述《SkankHunt42 (凱子爸)》之銘言：
: 推 yamakazi: 人類方也沒提數據啊，人類有SWE bench可以看分數？ 10/15 09:36: → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36: → yamakazi: 才奇怪吧 10/15 09:36: 沒有要ㄉ一ㄤ誰的意思
: 就是這benchmark到底存不存在

現在的llms是以人類為基準做測試。swe-bench 就是人類做過了，看llms可不可以做。

https://github.com/SWE-bench/SWE-bench
swe-bench是拿github已解決的issues來作為測試。

https://openai.com/index/introducing-swe-bench-verified/
swe-bench verified是把一些openai認為under specified的issues踢掉。就更容易自動化測試。

測試的題目，大部分都非常簡單。15分鐘內解決
例如variable referenced before assignment
或者parameter ignored。deprecation warning

普通有程度的人，大概可以90%+沒問題。有問題的大致上是需要domain knowledges的。

例如
有些matrix的問題，你如果不熟，那不會做是正常的。

老實說，連東西的內容都不了解，就大談特談，我無話可講

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.114.66.74 (臺灣)

※ PTT 網址

→

DrTech10/17 08:34專業。swe-bench就是人先做過的issue。swe-bench verified

→

DrTech10/17 08:34就是人再過濾一次，認為適合公平測試AI能力的工作。

推

yamakazi10/17 08:40本來就是拿有人做過的沒問題啊，不然要怎麼對答案？

→

yamakazi10/17 08:40問題是沒有拿來測人類平均解題水平

→

yamakazi10/17 08:41我當然知道這是有人做過的XD

→

yamakazi10/17 08:42你知道就連大學聯考題目，也是給大一生做過才拿來考的嗎

→

yamakazi10/17 08:42XD

→

yamakazi10/17 08:43然後那個考的大一生，還要待在圍場裡等聯考結束才跟出題

→

yamakazi10/17 08:43老師一起出闈

推

DrTech10/17 08:49yamakazi說的對。問題在於swe-bench verified沒看過單一測

→

DrTech10/17 08:49試者人類的解題成績。不過好笑的又來了，swe-bench verifi

→

DrTech10/17 08:49ed 沒看過任何一個人類的成績。yamakazi怎麼會在前幾天認

→

DrTech10/17 08:49定人解得一定比較差？自打嘴巴。

推

yamakazi10/17 09:15因為我用過ai工作跟我之前自己工作比較。之前比較難的功

→

yamakazi10/17 09:15能或蟲都好幾天才解完，現在有AI真的五到十分鐘搞定

推

yamakazi10/17 09:18單算行數的話，我2018年左右平均一年進扣九千行，今年九

→

yamakazi10/17 09:18月我用claude 4 sonnet一個月進扣五萬行

→

yamakazi10/17 09:18如果我下去跟AI比benchmark，我覺得我會慘敗

推

yamakazi10/17 09:22我自己以前一年如果進超過一萬五千行扣，就覺得蠻操的了

→

yamakazi10/17 09:22，現在一個月進口五萬行還不覺得累

推

yamakazi10/17 09:29就像是你各位在高中大學時期，班上就是有那種強者，你從

→

yamakazi10/17 09:29日常跟他上課考試就知道這個人很強，我跟他比完全慘敗，

→

yamakazi10/17 09:29不用等到比完聯考你就知道他一定上台大醫學系一樣

→

yamakazi10/17 09:31那五萬行我幾乎每行都有review，幾乎沒有太大問題，光re

→

yamakazi10/17 09:31view code比自己手刻輕鬆多了

→

yamakazi10/17 09:32而且他會自己make run，自己檢查log完後出報告，很多時

→

yamakazi10/17 09:32候只要看他下個指令，看完他準備要下的指令後沒問題按ye

→

yamakazi10/17 09:32s就可以了

→

brucetu10/17 10:07能像你的專案一個月進扣五萬行的應該不多，照你這速度五

→

brucetu10/17 10:07個人一個月異動二十萬行怎麼維護？你只是無腦用大量程

→

brucetu10/17 10:07式碼把功能做過去自己看不到問題就說AI沒問題，老闆會

→

brucetu10/17 10:07很喜歡你這種因為你交差快，反正爆掉的時候你就知道，

→

brucetu10/17 10:07希望半年後你還有辦法維護六個月前的那幾十顆commit

→

brucetu10/17 10:08如果我的同事裡面有人一個月進五萬行扣我會直接跟老闆

→

brucetu10/17 10:08說這個超人把整份程式改寫了現在只有他看得懂這五萬行

→

brucetu10/17 10:08我們其他人要花兩個月研究，還是我們就讓他一個人接手整

→

brucetu10/17 10:08個系統好了？

推

Suleika10/17 10:11y說llm進code很快沒說錯阿，但這版很少提到真正會遇到問

→

Suleika10/17 10:11題的一直是全局trade off，效能調教，安全性檢查......

→

brucetu10/17 10:15哦而且我的sonnet 4.5每次任務都會犯三四個奇怪的邏輯

→

brucetu10/17 10:15錯誤所以我不知道你到底怎麼辦到讓AI一個月產生五萬行沒

→

brucetu10/17 10:15有問題的程式碼，我感覺你要不是下指令之神應該出來開課

→

brucetu10/17 10:15，不然就是你真的看不到程式碼裡面的問題

→

Suleika10/17 10:16只要llm沒有fine-tune過，不能靠reasoning解題，就還是工

→

Suleika10/17 10:16具

→

Suleika10/17 10:18還有他說的是一年5萬...反駁都沒看清楚

推

richardz10/17 10:20他明明說一個月五萬...到底誰沒看清楚...

→

Suleika10/17 10:21拍謝我沒看清楚第二行，一個月5萬是有點誇張就是了

→

Suleika10/17 10:25要看寫的是啥

→

brucetu10/17 10:27我就是看到一個月五萬怕是我看錯，反覆看了三五次他的留

→

brucetu10/17 10:27言，確定他是說本來一年九千現在一個月五萬，如果他是寫

→

brucetu10/17 10:27錯了我會更懷疑他有好好地看AI產出的扣嗎？還是瞄一眼好

→

brucetu10/17 10:27像沒大問題而且功能可以動就commit了

推

yamakazi10/17 10:29寫systemC，就是要拼多啊，而且也沒什麼安全性問題

推

yamakazi10/17 10:33我們有給他MD檔，md 檔裡面有範例程式，你光下prompt當

→

yamakazi10/17 10:33然沒那麼精準

→

yamakazi10/17 10:34我們各種md檔加起來可能也快萬行了，你prompt不可能講那

→

yamakazi10/17 10:34麼詳細

推

yamakazi10/17 10:36如果你發現AI常犯的錯誤，或是這次試錯了好幾次才正確，

→

yamakazi10/17 10:36你要叫他學起來就是叫他把這次的經驗寫進去md 檔，大部

→

yamakazi10/17 10:36分md內容也是叫AI寫不是我自己寫

推

selfvalue10/17 10:57這串我關注很久你跟Skaut大大討論的內容都很不錯有

→

selfvalue10/17 10:57興趣可以來我們網站發

→

selfvalue10/17 10:57lesswrong.com

→

selfvalue10/17 10:59jaan tallinn(skype聯合創辦人)跟eliezer yudkowsky都

→

selfvalue10/17 10:59有在網站寫過相關的討論串可以註冊後開一個討論很多

→

selfvalue10/17 10:59人會回

→

selfvalue10/17 11:00上來看看

推

yamakazi10/17 11:14一個月五萬沒錯，不過把md檔也算進去了，沒特別分開算

推

yamakazi10/17 11:16舉個例子，他以前常常忘了先make all就直接跑程式，可能

→

yamakazi10/17 11:16以為自己寫的是python，我就叫他寫在自己的md檔裡，以後

→

yamakazi10/17 11:16他改完扣就會自己make all and run了，不用特別再下prom

→

yamakazi10/17 11:16pt

→

selfvalue10/17 11:34我們網站科技公司的老闆(航太耳機等等)跟頂尖科學家

→

selfvalue10/17 11:34工程師很多但網站人數很少歡迎來發言

推

MoonCode10/17 12:00lesswrong 相比 reddit hackernews 有什麼特別的？

推

selfvalue10/17 12:19lesswrong跟許多機構有直接的關係像是miri/ open phi

→

selfvalue10/17 12:19lanthropy

→

MoonCode10/17 12:19有關係能幹嘛不太懂

→

selfvalue10/17 12:20像是我們網站的成員Vitalik Buterin(大家應該都知道他

→

selfvalue10/17 12:20是誰)就有直接資持這些機構

→

selfvalue10/17 12:21他在上面叫vbuterin 可以看我們的排行榜

→

selfvalue10/17 12:22https://www.lesswrong.com/leaderboard

→

selfvalue10/17 12:31https://en.wikipedia.org/wiki/Vitalik_Buterin

推

selfvalue10/17 12:32Artificial intelligence

→

selfvalue10/17 12:32edit

→

selfvalue10/17 12:32In May 2021, Buterin donated $665 million to the F

→

selfvalue10/17 12:32uture of Life Institute, a nonprofit which, amongs

→

selfvalue10/17 12:32t other things, seeks to mitigate the existential

→

selfvalue10/17 12:32risk from artificial intelligence. Buterin worries

→

selfvalue10/17 12:32 that AI could become the new dominant species on

→

selfvalue10/17 12:32Earth, and may "end humanity for good".[45]

推

selfvalue10/17 12:33Future of Life Institute

→

selfvalue10/17 12:33Logo of the Future of Life Institute

→

selfvalue10/17 12:33Abbreviation

→

selfvalue10/17 12:33FLI

→

selfvalue10/17 12:33Formation

→

selfvalue10/17 12:33March 2014; 11 years ago

→

selfvalue10/17 12:33Founders

→

selfvalue10/17 12:33Jaan Tallinn

推

selfvalue10/17 12:37vitalik捐了六億多美金的機構 founders 可以看看第一

→

selfvalue10/17 12:37個也是lw活躍用戶

→

selfvalue10/17 12:38就是skype創辦人之一的jaan

→

selfvalue10/17 12:39他在網站上面叫jaan

→

selfvalue10/17 12:39在科技工作上的影響比較直接

→

selfvalue10/17 12:41我也很喜歡hackernews 那邊也不錯

→

selfvalue10/17 12:43上面討論的比較傾向數學可以看看網站介紹比較奇怪一

→

selfvalue10/17 12:43點

→

selfvalue10/17 12:44https://www.lesswrong.com/w/bayes-theorem

→

selfvalue10/17 12:47https://www.lesswrong.com/posts/KN3BYDkWei9ADXnBy/

→

selfvalue10/17 12:47e-t-jaynes-probability-theory-the-logic-of-science

→

selfvalue10/17 12:47-i

→

selfvalue10/17 12:48我們網站歡迎數學好的朋友

→

selfvalue10/17 13:09上面的文章都很樸實也有比較普通的人上去聊數學跟科

→

selfvalue10/17 13:09技

→

selfvalue10/17 13:10不要看上面用戶有人捐了幾百億台幣那些話題跟用戶本

→

selfvalue10/17 13:10身沒有什麼關係大家都在聊數學相關話題

→

selfvalue10/17 13:11vitalik是比較出色的網站成員之一

→

selfvalue10/17 13:13數學才是最重要的

→

MoonCode10/17 13:48xD 好吧我沒有被說服謝啦

推

MoonCode10/17 13:49

推

selfvalue10/17 13:57上面有定期的聊天聚會如果你是在歐美日本可以上去看

→

selfvalue10/17 13:57日期去聊天

→

selfvalue10/17 13:58一個Nasa的工作人員很愛辦可以去吃東西帶小狗過去玩

→

selfvalue10/17 13:58 聊數學

→

selfvalue10/17 14:01比較小的溫馨的

→

selfvalue10/17 14:02我去過幾次看過不少同行 jaan, 火箭公司的老闆那些

→

selfvalue10/17 14:02人比較溫馨

→

selfvalue10/17 14:03hackernews比較大

→

selfvalue10/17 14:04可以上去聊數學模型論文那些

→

viper970910/17 17:56一個月五萬行@@

推

selfvalue10/17 18:35上這網站我覺不錯

→

selfvalue10/17 18:36上去寫怎麼想還有你怎麼用專業知識

→

selfvalue10/17 18:36然後在去見面會

→

selfvalue10/17 18:37這網站成員很多公司的外部專家== openai, Microsoft

→

selfvalue10/17 18:37那些

→

selfvalue10/17 18:38在上面答題也滿有趣的

→

selfvalue10/17 18:38專業非常強可以去玩

→

selfvalue10/17 18:38^tesla也有

→

selfvalue10/17 18:45十年前網站討論的事情不少都陸陸續續被網站成員解決/

→

selfvalue10/17 18:45實現

→

selfvalue10/17 18:46這一串很像上面會討論的很多人答的不錯

推

Romulus10/17 23:45我家的Claude 4.5才一週進四千行我大概要手動修五批

→

Romulus10/17 23:46眾所皆知一定是我prompt下太爛……XD

→

Romulus10/17 23:48我怎麼下prompt Claude都無法正確使用AWS SDK 想必我全責

→

SkankHunt4210/17 23:58Claude 我已經棄了聽說現在其他工具更好用

→

SkankHunt4210/17 23:59而且Claude 訂價偏貴就算了還不誠實高級模型也是用

→

SkankHunt4210/17 23:59一下就沒了

→

Romulus10/18 00:00都差不多啊 Gemini 2.5 Pro, GPT-5 都那樣

→

Romulus10/18 00:01從來不覺得各主流模型間有什麼很本質上的差異

→

Romulus10/18 00:01頂多就偶而這題A解的比較好那題只有B解的出來之類的

推

art110/18 00:44高見龍下班後用 AI 兩個月產出十八萬行程式碼，一個月五萬好

→

art110/18 00:45像也還好，AI 產程式碼的速度跟人比起來真是天上飛比地上爬

推

quickey10/18 07:20產歸產，還是要review啊XD

推

CRPKT10/19 09:33領域不一樣，硬比行數沒有太大意義啦

推

NDark10/19 12:10樓樓上我覺得測試與審查都會終將推到AI.

→

NDark10/19 12:11但是最終的問題還是回到需求有沒有被滿足

→

NDark10/19 12:11問題的最後一定是有一個核心的問題而不是只是炫技

→

NDark10/19 12:11如果只是炫技那麼市場上現在就是滿滿的AI影片

→

NDark10/19 12:12導致宣傳影片的價值就跌到一個不值得的地步

→

NDark10/19 12:12宣傳影片的品質也讓觀眾覺得審美疲勞

→

NDark10/19 12:12因為產出那些東西成本都是三五塊

→

NDark10/19 12:13所以"需求"才帶來價值所以使用者作為這個需求的起點

→

NDark10/19 12:13才是最終需要測試/審查的點

同系列文章

[請益] 軟體失業是遲早的事吧

其他人也閱讀了

PTT 熱門相關