Re: [請益] 軟體失業是遲早的事吧
※ 引述《SkankHunt42 (凱子爸)》之銘言:
: 推 yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數? 10/15 09:36: → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36: → yamakazi: 才奇怪吧 10/15 09:36: 沒有要ㄉ一ㄤ誰的意思
: 就是這benchmark到底存不存在
現在的llms是以人類為基準做測試。swe-bench 就是人類做過了,看llms可不可以做。
https://github.com/SWE-bench/SWE-bench
swe-bench是拿github已解決的issues來作為測試。
https://openai.com/index/introducing-swe-bench-verified/
swe-bench verified是把一些openai認為under specified的issues踢掉。就更容易自動化測試。
測試的題目,大部分都非常簡單。15分鐘內解決
例如variable referenced before assignment
或者parameter ignored。deprecation warning
普通有程度的人,大概可以90%+沒問題。有問題的大致上是需要domain knowledges的。
例如
有些matrix的問題,你如果不熟,那不會做是正常的。
老實說,連東西的內容都不了解,就大談特談,我無話可講
--
專業。swe-bench就是人先做過的issue。swe-bench verified
就是人再過濾一次,認為適合公平測試AI能力的工作。
本來就是拿有人做過的沒問題啊,不然要怎麼對答案?
問題是沒有拿來測人類平均解題水平
我當然知道這是有人做過的XD
你知道就連大學聯考題目,也是給大一生做過才拿來考的嗎
XD
然後那個考的大一生,還要待在圍場裡等聯考結束才跟出題
老師一起出闈
yamakazi說的對。問題在於swe-bench verified沒看過單一測
試者人類的解題成績。不過好笑的又來了,swe-bench verifi
ed 沒看過任何一個人類的成績。yamakazi怎麼會在前幾天認
定人解得一定比較差? 自打嘴巴。
因為我用過ai工作跟我之前自己工作比較。之前比較難的功
能或蟲都好幾天才解完,現在有AI真的五到十分鐘搞定
單算行數的話,我2018年左右平均一年進扣九千行,今年九
月我用claude 4 sonnet一個月進扣五萬行
如果我下去跟AI比benchmark,我覺得我會慘敗
我自己以前一年如果進超過一萬五千行扣,就覺得蠻操的了
,現在一個月進口五萬行還不覺得累
就像是你各位在高中大學時期,班上就是有那種強者,你從
日常跟他上課考試就知道這個人很強,我跟他比完全慘敗,
不用等到比完聯考你就知道他一定上台大醫學系一樣
那五萬行我幾乎每行都有review,幾乎沒有太大問題,光re
view code比自己手刻輕鬆多了
而且他會自己make run,自己檢查log完後出報告,很多時
候只要看他下個指令,看完他準備要下的指令後沒問題按ye
s就可以了
能像你的專案一個月進扣五萬行的應該不多,照你這速度五
個人一個月異動二十萬行 怎麼維護?你只是無腦用大量程
式碼把功能做過去 自己看不到問題就說AI沒問題,老闆會
很喜歡你這種 因為你交差快,反正爆掉的時候你就知道,
希望半年後你還有辦法維護六個月前的那幾十顆commit
如果我的同事裡面有人一個月進五萬行扣 我會直接跟老闆
說這個超人把整份程式改寫了現在只有他看得懂 這五萬行
我們其他人要花兩個月研究,還是我們就讓他一個人接手整
個系統好了?
y說llm進code很快沒說錯阿,但這版很少提到真正會遇到問
題的一直是全局trade off,效能調教,安全性檢查......
哦 而且我的sonnet 4.5每次任務都會犯三四個奇怪的邏輯
錯誤 所以我不知道你到底怎麼辦到讓AI一個月產生五萬行沒
有問題的程式碼,我感覺你要不是下指令之神應該出來開課
,不然就是你真的看不到程式碼裡面的問題
只要llm沒有fine-tune過,不能靠reasoning解題,就還是工
具
還有他說的是一年5萬...反駁都沒看清楚
他明明說一個月五萬...到底誰沒看清楚...
拍謝我沒看清楚第二行,一個月5萬是有點誇張就是了
要看寫的是啥
我就是看到一個月五萬 怕是我看錯,反覆看了三五次他的留
言,確定他是說本來一年九千現在一個月五萬,如果他是寫
錯了 我會更懷疑他有好好地看AI產出的扣嗎?還是瞄一眼好
像沒大問題而且功能可以動就commit了
寫systemC,就是要拼多啊,而且也沒什麼安全性問題
我們有給他MD檔,md 檔裡面有範例程式,你光下prompt當
然沒那麼精準
我們各種md檔加起來可能也快萬行了,你prompt不可能講那
麼詳細
如果你發現AI常犯的錯誤,或是這次試錯了好幾次才正確,
你要叫他學起來就是叫他把這次的經驗寫進去md 檔,大部
分md內容也是叫AI寫不是我自己寫
這串我關注很久 你跟Skaut大大討論的內容都很不錯 有
興趣可以來我們網站發
lesswrong.com
jaan tallinn(skype聯合創辦人)跟eliezer yudkowsky都
有在網站寫過相關的討論串 可以註冊後開一個討論 很多
人會回
上來看看
一個月五萬沒錯,不過把md檔也算進去了,沒特別分開算
舉個例子,他以前常常忘了先make all就直接跑程式,可能
以為自己寫的是python,我就叫他寫在自己的md檔裡,以後
他改完扣就會自己make all and run了,不用特別再下prom
pt
我們網站科技公司的老闆(航太 耳機等等)跟頂尖科學家
工程師很多 但網站人數很少 歡迎來發言
lesswrong 相比 reddit hackernews 有什麼特別的?
lesswrong跟許多機構有直接的關係 像是miri/ open phi
lanthropy
有關係能幹嘛 不太懂
像是我們網站的成員Vitalik Buterin(大家應該都知道他
是誰)就有直接資持這些機構
他在上面叫vbuterin 可以看我們的排行榜
Artificial intelligence
edit
In May 2021, Buterin donated $665 million to the F
uture of Life Institute, a nonprofit which, amongs
t other things, seeks to mitigate the existential
risk from artificial intelligence. Buterin worries
that AI could become the new dominant species on
Earth, and may "end humanity for good".[45]
Future of Life Institute
Logo of the Future of Life Institute
Abbreviation
FLI
Formation
March 2014; 11 years ago
Founders
Jaan Tallinn
vitalik捐了六億多美金的機構 founders 可以看看 第一
個也是lw活躍用戶
就是skype創辦人之一的jaan
他在網站上面叫jaan
在科技工作上的影響比較直接
我也很喜歡hackernews 那邊也不錯
上面討論的比較傾向數學 可以看看網站介紹 比較奇怪一
點
e-t-jaynes-probability-theory-the-logic-of-science
-i
我們網站歡迎數學好的朋友
上面的文章都很樸實 也有比較普通的人上去聊數學跟科
技
不要看上面用戶有人捐了幾百億台幣那些 話題跟用戶本
身沒有什麼關係 大家都在聊數學相關話題
vitalik是比較出色的網站成員之一
數學才是最重要的
xD 好吧 我沒有被說服 謝啦
上面有定期的聊天聚會 如果你是在歐美日本 可以上去看
日期 去聊天
一個Nasa的工作人員很愛辦 可以去吃東西 帶小狗過去玩
聊數學
比較小的 溫馨的
我去過幾次 看過不少同行 jaan, 火箭公司的老闆 那些
人 比較溫馨
hackernews比較大
可以上去聊數學模型 論文那些
一個月五萬行@@
上這網站我覺不錯
上去寫怎麼想 還有你怎麼用專業知識
然後在去見面會
這網站成員很多公司的外部專家== openai, Microsoft
那些
在上面答題也滿有趣的
專業非常強可以去玩
^tesla也有
十年前網站討論的事情 不少都陸陸續續被網站成員解決/
實現
這一串很像上面會討論的 很多人答的不錯
我家的Claude 4.5才一週進四千行 我大概要手動修五批
眾所皆知 一定是我prompt下太爛……XD
我怎麼下prompt Claude都無法正確使用AWS SDK 想必我全責
Claude 我已經棄了 聽說現在其他工具更好用
而且Claude 訂價偏貴就算了還不誠實 高級模型也是用
一下就沒了
都差不多啊 Gemini 2.5 Pro, GPT-5 都那樣
從來不覺得各主流模型間有什麼很本質上的差異
頂多就偶而這題A解的比較好 那題只有B解的出來 之類的
高見龍下班後用 AI 兩個月產出十八萬行程式碼,一個月五萬好
像也還好,AI 產程式碼的速度跟人比起來真是天上飛比地上爬
產歸產,還是要review啊XD
領域不一樣,硬比行數沒有太大意義啦
樓樓上 我覺得測試與審查都會終將推到AI.
但是最終的問題還是回到 需求有沒有被滿足
問題的最後一定是有一個核心的問題 而不是只是炫技
如果只是炫技那麼市場上現在就是滿滿的AI影片
導致宣傳影片的價值就跌到一個不值得的地步
宣傳影片的品質也讓觀眾覺得審美疲勞
因為產出那些東西成本都是三五塊
所以"需求"才帶來價值 所以使用者作為這個需求的起點
才是最終需要 測試/審查 的點
26
首Po如題 軟體失業是遲早的事吧 ㄧ堆都在流行vibe coding 最近都在玩這個 原本的技能樹不是前後端 有點概念而已 要弄個sample真的很快![[請益] 軟體失業是遲早的事吧 [請益] 軟體失業是遲早的事吧](https://i.imgur.com/wVeBdCKb.jpeg)
40
先來定義什麼是vibe coding Karpathy described it as "fully giving in to the vibes, embracing exponentials, and forgetting that the code even exists". "完全沉浸在氛圍中,擁抱指數級成長,甚至忘記程式碼的存在" Wiki中的描述為:![Re: [請益] 軟體失業是遲早的事吧 Re: [請益] 軟體失業是遲早的事吧](https://img.youtube.com/vi/sOvi9Iu1Dq8/mqdefault.jpg)
15
Vibe Coding可以讓不懂Coding的人 就可以做一個prototype 這在過往就是你要找軟體工程師來實現的需求 現在這個需求就沒了 直白點軟體工程師的崗位又少了7
這個問題已經有很多先賢回答過了 我就不做重複功 截取一篇正經 一篇不正經的分享一下![Re: [請益] 軟體失業是遲早的事吧 Re: [請益] 軟體失業是遲早的事吧](https://i.imgur.com/Q6SgMdpb.jpeg)
X
專業的來嘴砲一下 剛剛和一個學弟聊 別說工程師了 經理人商業策略都有可能被取代了 只能說當初說工程師經理人不會被取代的26
昨天看到的 大概是,非本職的人,用了AI之後出包 下面的留言討論,滿精彩的 --![Re: [請益] 軟體失業是遲早的事吧 Re: [請益] 軟體失業是遲早的事吧](https://i.imgur.com/j95HHWib.jpeg)
6
保哥三個月就神準預言了 他說半桶水的就會搞出這種 可以直接看YT 從46:10開始 只能說Will保哥才是真正的講師 業界良心![Re: [請益] 軟體失業是遲早的事吧 Re: [請益] 軟體失業是遲早的事吧](https://img.youtube.com/vi/Ji3mg3HwiE4/mqdefault.jpg)
28
我有一個同事就是在弄演算法的 他就曾經有一次經驗,就是叫AI去產生一個常見的演算法 結果他直接拿來用之後,發覺結果非常的發散。 正常來說,應該是要收斂才對,他後來跳進去仔細檢查之後,才發現 是其中一個負號變成了正號。9
抱歉,但你這做法有改進空間 如果是做演算法,優先用python 寫 現在主流AI寫python幾乎不可能錯 寫完後叫AI自己生一些測資再畫圖給你看 圖看完沒問題後再叫他改寫成C++7
一個AI有這麼多不同的體悟 我覺得問題是出在於,很多人在下Prompt的時候說得太籠統了 AI很容易掰出一個錯的東西給你 幻覺議題可以參考OpenAI自己寫的這篇文章
爆
[花邊] 湖人體檢馬威發現多個問題Mark Williams' physical with the Lakers showed multiple issues and the team fa iled him on the exam, sources tell ESPN. The physical was not failed due to hi s back, however. 湖人在為馬威體檢時發現多個問題,因此沒有通過他們的測試,但不是背部問題而沒過![[花邊] 湖人體檢馬威發現多個問題 [花邊] 湖人體檢馬威發現多個問題](https://i.imgur.com/nh2w0jEb.jpg)
52
[爆卦] OpenAI CTO:GPT-5智商將=人類博士OpenAI CTO-Mira Murati在達特茅斯學院的訪問裡表示 GPT-3等同人類幼兒智力 GPT-4就是人類中學程度 被問到GPT是否已經通過圖靈測試![[爆卦] OpenAI CTO:GPT-5智商將=人類博士 [爆卦] OpenAI CTO:GPT-5智商將=人類博士](https://img.youtube.com/vi/yUoj9B8OpR8/mqdefault.jpg)
26
Re: [請益] 如何當軟體QA??拋磚引玉,台灣軟體測試真的很需要有大大來分享 --- 寫在最前面: 我測試是學這本書 我入門是買中文版,這裡貼的是原文,可以免費線上看,22
Re: [請益] 軟體失業是遲早的事吧推 yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數? 10/15 09:36 → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36 → yamakazi: 才奇怪吧 10/15 09:36 沒有要ㄉ一ㄤ誰的意思 就是這benchmark到底存不存在18
[請益] 超豐電子各位版上前輩先進好 想請問一下 超豐電子 測試系統開發工程師及測試軟體工程師 有沒有前輩在這兩個單位裡面 方便分享一下內部工作風氣嗎17
[討論] 微軟用Copilot Workspace重新定義程式開發微軟旗下的AI程式設計幫手 GitHub Copilot WorkSpace上架了 這款程式開發環境能讓外行人也可以用自然語言將想像轉化成實際程式 微軟老闆Satya Nadella:"我們正在使用 GitHub Copilot Workspace 重新定義開發人員環 境(IDE),任何開發人員都可以使用自然語言從想法、程式碼到軟體。"![[討論] 微軟用Copilot Workspace重新定義程式開發 [討論] 微軟用Copilot Workspace重新定義程式開發](https://githubnext.com/assets/images/og/project/copilot-workspace.png)
6
[請益] 測試儀器自動化程式設計的工作本來我是做RF研發的工作 但這中間會用到很多RF測試儀器 每次操作都需要設定很多步驟才能進行測試 所以我一直很想自己開發測試儀器自動化程式 而我也在5年前因緣際會下學習了python6
[情報] Claude 3.5 Sonnet新增操作電腦能力Claude 3.5 Sonnet大升級!新功能「電腦操作」可解放雙手,能代訂機票的AI秘書不遠 了? 數位時代 AI新創公司Anthropic於10月22日發布升級版Claude 3.5 Sonnet,以及全新模型Claude![[情報] Claude 3.5 Sonnet新增操作電腦能力 [情報] Claude 3.5 Sonnet新增操作電腦能力](https://s4.itho.me/sites/default/files/field/image/1023-computer_usebeta-claude_3.5_sonnet_model_upgraded.jpg)
1
[情報] 成大資工 SELAB 碩班招生我們是成功大學軟體工程與智慧自動化測試實驗室 李信杰教授的學生 我們老師是計網中心與資訊工程系合聘的教授, 但是老師仍能收碩班研究生 老師的研究方向有:
Re: [請益] 為什麼有人說AI會讓資工人失去工作?講個更直白的 自動化測試每個軟體工程師都能寫 但QA們有因為這樣失業嗎?? 觀察問題發生的脈絡 然後統整歸納 這是人類才能做得來的 電腦做不來