Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不
※ 引述《angus850503 (安格斯)》之銘言:
: 借版問
: 小弟目前為前端工程師 受益於 Copilot 跟 ChatGPT
: 開發上真的輕鬆非常非常多 已經把按 tab 當作開發的一環了XD
: 不過之前就一直對生成式 AI 有個疑問
: 就是"幻覺"到底有沒有根本上的解決方法?
: 我的理解目前的 AI 還是靠大數據去堆疊資料量用以訓練模型
: 現階段也是不斷堆硬體去撐這塊
: (如果理解有誤請小力鞭QQ)
: 但幻覺的問題不論是餵更多資料或是透過 RAG 感覺都是治標不治本
: 還是沒辦法完全預防與解決
: 對我來說這樣可以稱得上是 AI 嗎? 還是充其量只是進階版的機器學習?
: 請各位軟工大神解惑了QQ
: 附上這個議題 ChatGPT 自己的回答:
: https://i.meee.com.tw/Gk7IjRH.png
解決幻覺,不一定要從LLM解,
而是靠系統架構解。
例如,做一個問答系統,很多人減少幻覺是這樣做的:
0. 預先整理好QA問答資料集
(人工整理,或機器輔助整理)
1. 使用者輸入Query。
2. 搜尋top-k個相似的問題。
3. 將 k個最相似的問題與答案輸入至LLM,
要求LLM生成最適合的答案。
4. 將LLM生成的答案輸出。(可能有幻覺,可能沒幻覺,難以控制)
幾乎所有的網路上範例程式都告訴你這樣做。
這套系統架構稱為:LLM生成答案。
實際上,你只要改個系統架構,就可以得到完全沒幻覺,又同樣準確率又同樣等級的問答系統:
流程如下:
0. 整理QA資料集
1. 使用者輸入Query
2. 搜尋top-k相似的問題
3. 要求LLM在K個問題與答案,弄成K個選項
要求LLM選擇一個最適合的問題與答案。
LLM只輸出1, 2, 3, 4。
(如有必要,可用outlines 或 guidance,控制 next token 只做這四個選擇)
4. 根據LLM選擇的選項,
系統只輸出選項1,2,3,4 對應的答案A。
由於A不是LLM生成的,所以永遠不會有幻覺問題。
這套系統架構稱為:LLM選擇答案。(而不是生成答案)
也就是說,同樣一個系統,LLM原本是靠生成產生最後結果,轉換成LLM只能從多個沒幻覺的事實間,選擇一個事實。永遠不會有幻覺。
以上只是舉例。
任何一個AI功能,只要掌握一個訣竅,
LLM或AI的輸出結果,不要用在最後階段的輸出
而是轉化問題,系統設計成LLM用在中間某任務,在事實間做分類選擇,輸出的就永遠是事實。
根據實驗與經驗,答對答錯的機會也不會
因為改變了系統設計架構而有影響。
做AI應用,真的不是無腦套模型,套別人流程。
LLM也不是只能用在生成文字,傳統的,分類,選擇,NER,排序最佳化,…都可以靠LLM 做。
把LLM當成系統中間工具,而不是最終輸出,可以大幅提升AI能力,又完全不會產生幻覺。
--
樓上這個有專有名詞叫做rerank 我開發系統時有設計
重點是系統架構設計。rerank完,該怎麼輸出?如果用rerank
完,LLM生成輸出結果,還是永遠有幻覺。如果rerank完,用t
op-k個答案事實輸出,就不會有幻覺。
而且當答案只有一個的情況,何必用到複雜的rerank。直接轉
換成搜尋結果 k選一的classification任務,還比較適合。
嗯合理同意,下週來玩看看
你可以一個問題問三次,覺得答案不對的就打臉chatGpt
多否定幾次可能就會給你正確答案了,(笑
微軟大老建議過了唄
重點是這個還要靠人整理啊
我只是說最簡單的例子,也可做到不用靠人整理,或不要整理
QA。方法就是跟常見的RAG一樣,不整理QA,直接把文章切成c
hunk 段落。一樣搜最接近top-K段落,給LLM生成答案,但是
生成答案後,"不要"信任LLM的生成文字直接輸出,使用傳統
的NLP去糾錯(spell correct ion),糾錯的候選只能是chunk
事實中的連續句子。最後輸出糾正到事實的句子。這樣可做到
不整理QA但整個系統只會輸出最正確的事實句子。
方法變形很多啦,但原則就是:LLM只是選擇或決策的工具,
非最後的答案生成輸出。這樣就會有同樣聰明,又永遠是事實
輸出的AI。
原來是從問答題變成選擇題
假設你說的LLM只輸出1, 2, 3, 4是指只生出一個數字token
這樣效果應該不是很好吧,畢竟沒時間一步一步思考
我只是舉簡單的例子,你先做要CoT然後最後輸出選項,也可
以啊。其實許多Agent選tool的概念就是這樣,多種tool用選
項讓LLM 選,LLM只限定選1,2,3,4這樣選項,也可控制next t
oken只選數字。選tool行為就不會有幻覺,同樣的道理。
viper9709總結得很好。不要有幻覺,就是:問答題轉成,事
實的選擇。
生成式ai被拿來當判別式ai用 有種泡沫感
同樣的技術,也可以想成AI更通用了,用得更全面了,即可以
用於生成,也可以用於判斷與分類。產品能賺得錢更多了。
LLM產品,何必困於於生成或判別二選一。
causal language model 從來就沒限制next token該怎麼用,
沒限制下游任務只能用來判別或生成二選一。
沒想到從中國大企業回來的D大連這方面都懂...強!
這種解法我自己是不看好,本末倒置
你可以去多看論文,OpenAI發表的GPT系列論文,模型評測一
直都不只是用於生成答案任務,甚至評測LLM 排名的知名benc
hmark dataset, MMLU系列, 就是選擇題。
這種做法叫本末倒置,質疑了所有做LLM benchmark 研究的所
有團隊阿。
你看到許多LLM leaderboard跑出來的分數,許多題目都是測L
LM做多選一的選擇題喔。怎麼大家都這樣利用與評測LLM的能
力,就你認為是本末倒置呢?
再來,什麼叫作"本",以使用者為中心,解決使用者困擾才是
本。一個公司系統需要不會有亂答題的需求。人家才不管你技
術使用是否用得本末倒置,能解決亂生答案的痛點才是本。
這樣設計要怎麼用 LLM 做行程規劃 or 文字修飾、潤稿?
我是覺得你不用什麼都要爭到自己高人一等,我自己現在就
是做這領域的,你說的這些我當然知道。不過你說是就是吧
,目前確實是這樣,但跟我認為本末倒置沒有出入
純交流技術而言,不需要用到本末導致,高人一等都詞語吧,
不同的技術應用哪有高低之分呢。不用太自卑啦,我只是跟你
交流技術,技術本身並沒有高人一等之說。
能解決使用者問題,何必去分高低呢。
你自己就是做這領域了,你解決hallucination了嗎?可以分
享交流嗎? 至少我在我做的產品都解決了我也很願意跟大家
分享。
確實,我有些用詞過頭了跟D大說聲抱歉,只是著眼點不同而
已,以軟體應用層面來說目前解法的確如你所說。只是我個
人心理覺得這只是暫時解而已
但是還是很感謝你的分享
對!D大只是實際分享他的技術和應用!
推技術串,受益良多
推個
呃…選擇最適合的答案不也是機率嗎?,怎麼就跟幻
覺沒關係了,不太懂...
9
首Po以後工程師可能主要用嘴巴寫 code 在編輯器下指令說明要做什麼功能 或者直接把 Jira 單貼給 AI 然後 AI 自動幫你做修改多個檔案跑測試 最後工程師 code review15
以前做SA,和業務型老闆討論一些商業應用,做成flow圖給工程師轉成代碼。 我喜歡發想軟體應用,非常很討厭看文件| 想演算法 | Coding Style | DEBUG 。 非得寫代碼時,我都是try&error去完成issue,很沒有軟體精神。 軟工的專業,我只說的出Design Pattern和OS ChatGPT出來之後,我像是看到3D列印房子直接問世,直接校長兼撞鐘。22
我覺得如果你把人生的投注、資產用投資學的角度來看 我認為絕大部分 尤其是散戶的經驗還有知識 都是非常有限的 我們用現在的產業環境、技術 去預測五年內的變化 也許準確度還說得過去 但10~20年後的未來呢? GPT3在2020年發布 NVDA的股價在2022只有200~300左右3
我是從以下兩個角度來看 * 數學上來說, "AI" 是否有「極限」? * 經濟上來說, "AI" 是否有「賺」? 例如說這隻影片 是從「熵」的 本質去探討 (目前架構下的) AI 是否有個 (來自其演算法、原始訓練資料的) 「1
借版問 小弟目前為前端工程師 受益於 Copilot 跟 ChatGPT 開發上真的輕鬆非常非常多 已經把按 tab 當作開發的一環了XD 不過之前就一直對生成式 AI 有個疑問 就是"幻覺"到底有沒有根本上的解決方法?6
目前還沒人能證明「有」,也還沒人能證明「沒有」。 有興趣的話可以追蹤這個「 LLM 幻覺排行榜」: * * HN 相關討論: 有興趣可以翻翻這排行榜的 Git 歷史,看看各 LLM 的進化歷程。然而,這排行6
我是一個非常基層的工程師,大部分維護的bug都是資料庫或資料夾的某個屬性轉型或格式錯誤需要維護,我是不覺得ai有辦法處理這種問題,甚至很可能這種奇怪的問題就是ai給他,然後使用範例值可以過但某種情形出現例外, 如果像我這種基層都不用擔心,那我覺得整個產業,也沒什麼需要擔心的 ----- Sent from JPTT on my Sony XQ-AU52. --
73
Re: [標的] NVDA/AMD 討論 多哪隻人類離變成電池之日越來越近了QQ 這邊是一個openai的demo整理 稍微細拆一下上面的demo一些隱藏意義 誠如之前所說的2023 Text-Based GPT4出現後 業界就直接看到戰場要往多模態拚殺 多模態意思就是餵給這些LLM模型從文字理解世界34
[討論] 中研院繁中LLM被爆直接拿對岸的來套!中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎35
Re: [請益] AI到底是遇到什麼問題?技術跟應用場景的問題我不談,之前的人已經談過了,大致上沒有問題。 不同領域的人可能體驗不太一樣,但LLM普及的程度並沒有這麼低,具體而言,主要是 ChatGPT ,在部分領域已經是不可或缺的必要工具,到了掛掉會影響到正常工作或不能工作的程度。 首先是 coding,就我而言,至少有50%的程式碼已經是由 ChatGPT 完成的,遇到 bug 我幾乎沒有再用 Google 或是 stackoverflow ,log 直接丟進 ChatGPT , 大部分情況下它都能大幅減少我的工作時間。 除了遇到有關於 pydantic 的問題,因為這個 module 最近出了V2,模型的回答經常會混合V1的答案,而且傻傻分不清楚,在之前舊的沒有納入 pydantic 的版本時,這問題更為嚴重,必須要自己先提供文件用RAG 讓它知道。 但是就我實際的觀察周邊的人,發現LLM 對於低階的工程師,高階的工程師的幫助個別顯著,但是對於中階工程師而且有使用上的困難。X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。8
Re: [討論] 用AI寫code產生的疑問GPT本質為用文字去計算機率以及最有可能的輸出 並非邏輯理解, 且有token數目上限. 由於是用大量data + fine-tuning, 應用在生成code上面, 生成的code能不能用取決於: 1. 功能是否常見 2. 使用的語言(language), 函式庫(libraries), Framework是否open source且常用7
Re: [討論]有可能不學coding就可以取得前後端工作?先不用談那些面試會遇到的問題,因為基本上目前的LLM能夠作到的能力是boosting 跟teaching而boosting的基礎使用者要會寫code,而teaching的的結果是使用者會 寫code 不可能無中生有,因為這違反了目前LLM的基本邏輯:文字接龍。所謂的文字接龍 ,前半段提示詞的好壞,決定後半段生成內容的品質,當用戶連怎麼正確描述自己5
Re: [問卦] 呂捷的影片是不是很多內容都在誤導觀念?01 : 看到這個用AI來反駁的,我剛不禁噴笑出來。 : : 一. : 其實我對於自己完全不熟的議題,為了快速了解,我也會用AI,這我承認,- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬
- 講一些自身經驗好了 自從AI領域在生成式題材大火後 全世界就進入到AI軍備競賽 所有的AI基礎研究都是以週甚至日為單位在迭代 舉個例子 當年Robert G. Gallager 在1960提出類神經網路的LDPC code到2004年才大放異彩 無限接近shannon bound 光這個演進就花了40年 對照這幾年的AI科技樹發展 根本就是指數在成長