Re: [討論] 大家會擔心 ai 寫 code 讓工程師飯碗不
※ 引述《angus850503 (安格斯)》之銘言:
: 不過之前就一直對生成式 AI 有個疑問
: 就是"幻覺"到底有沒有根本上的解決方法?
目前還沒人能證明「有」,也還沒人能證明「沒有」。
有興趣的話可以追蹤這個「 LLM 幻覺排行榜」:
* https://github.com/vectara/hallucination-leaderboard/
* HN 相關討論: https://news.ycombinator.com/item?id=38286761
有興趣可以翻翻這排行榜的 Git 歷史,看看各 LLM 的進化歷程。然而,這排行
榜的評鑑方式也是公開的,各 LLM 也有可能 (不自覺地) 針對這類評鑑方式去優
化,所以這些資料只能做為參考。
--
Cool 感謝提供網站
竟然還有這種榜
我記得昨天才在Reddit上面的OpenAI AMA串看到誰回覆
說幻覺很難解決,因為人類也是有同樣的狀況
雲觀眾也是一種幻覺
*感覺上* pattern recognition/matching 的低垂水果已經摘得差不多了;就看資 本/信仰能不能撐到下一個突破口,例如: Detecting hallucinations in large language models using semantic entropy
https://news.ycombinator.com/item?id=40769496※ 編輯: AmosYang (136.61.16.51 美國), 11/03/2024 04:44:24
這就是我想詢問的 幻覺沒解決 AI的下一步到底在哪
幻覺為什麼一定要解決才能做AI產生生產力?不用解決也可以
啊。不是所有任務都要靠LLM生成不可靠的資訊。例如很多人
做RAG+QA問答,都無腦用搜候選結果,然後用LLM生成最後答
案,當然一堆幻覺。架構上改成拿LLM當選擇器,或限定next
tokens,只能輸出選擇1.2.3.4。在多個答案裡面挑一個,最
後靠程式輸出完全沒關鍵的答案。立刻解決幻覺問題。
LLM當特定task模組(不要拿來當最後輸出結果),結合傳統NLP
各種解決方案,任何一個功能任務,都可以"完全沒幻覺",能
力又比傳統NLP強很多。
樓上這個有專有名詞叫做rerank 我開發系統時有設計
酷
9
首Po以後工程師可能主要用嘴巴寫 code 在編輯器下指令說明要做什麼功能 或者直接把 Jira 單貼給 AI 然後 AI 自動幫你做修改多個檔案跑測試 最後工程師 code review15
以前做SA,和業務型老闆討論一些商業應用,做成flow圖給工程師轉成代碼。 我喜歡發想軟體應用,非常很討厭看文件| 想演算法 | Coding Style | DEBUG 。 非得寫代碼時,我都是try&error去完成issue,很沒有軟體精神。 軟工的專業,我只說的出Design Pattern和OS ChatGPT出來之後,我像是看到3D列印房子直接問世,直接校長兼撞鐘。22
我覺得如果你把人生的投注、資產用投資學的角度來看 我認為絕大部分 尤其是散戶的經驗還有知識 都是非常有限的 我們用現在的產業環境、技術 去預測五年內的變化 也許準確度還說得過去 但10~20年後的未來呢? GPT3在2020年發布 NVDA的股價在2022只有200~300左右3
我是從以下兩個角度來看 * 數學上來說, "AI" 是否有「極限」? * 經濟上來說, "AI" 是否有「賺」? 例如說這隻影片 是從「熵」的 本質去探討 (目前架構下的) AI 是否有個 (來自其演算法、原始訓練資料的) 「1
借版問 小弟目前為前端工程師 受益於 Copilot 跟 ChatGPT 開發上真的輕鬆非常非常多 已經把按 tab 當作開發的一環了XD 不過之前就一直對生成式 AI 有個疑問 就是"幻覺"到底有沒有根本上的解決方法?10
解決幻覺,不一定要從LLM解, 而是靠系統架構解。 例如,做一個問答系統,很多人減少幻覺是這樣做的: 0. 預先整理好QA問答資料集 (人工整理,或機器輔助整理)8
我是一個非常基層的工程師,大部分維護的bug都是資料庫或資料夾的某個屬性轉型或格式錯誤需要維護,我是不覺得ai有辦法處理這種問題,甚至很可能這種奇怪的問題就是ai給他,然後使用範例值可以過但某種情形出現例外, 如果像我這種基層都不用擔心,那我覺得整個產業,也沒什麼需要擔心的 ----- Sent from JPTT on my Sony XQ-AU52. --
73
Re: [標的] NVDA/AMD 討論 多哪隻人類離變成電池之日越來越近了QQ 這邊是一個openai的demo整理 稍微細拆一下上面的demo一些隱藏意義 誠如之前所說的2023 Text-Based GPT4出現後 業界就直接看到戰場要往多模態拚殺 多模態意思就是餵給這些LLM模型從文字理解世界73
Re: [請益] NVDA跟AMD怎麼突然崩了週末有點時間 之前寫的老黃故事 這幾年AI模型突飛猛進的一個關鍵點就是 泛化的能力 簡言之 2018以前 AI模型 都是透過數據 去學習資料上的標註資料 來做人類事先規範好的目的 而機器透過這些標注數據 去達到人類要求的事情 當模型遇到一個沒看過的數據 或者場景變得不同 模型就會失效 甚至無法處理35
Re: [請益] AI到底是遇到什麼問題?技術跟應用場景的問題我不談,之前的人已經談過了,大致上沒有問題。 不同領域的人可能體驗不太一樣,但LLM普及的程度並沒有這麼低,具體而言,主要是 ChatGPT ,在部分領域已經是不可或缺的必要工具,到了掛掉會影響到正常工作或不能工作的程度。 首先是 coding,就我而言,至少有50%的程式碼已經是由 ChatGPT 完成的,遇到 bug 我幾乎沒有再用 Google 或是 stackoverflow ,log 直接丟進 ChatGPT , 大部分情況下它都能大幅減少我的工作時間。 除了遇到有關於 pydantic 的問題,因為這個 module 最近出了V2,模型的回答經常會混合V1的答案,而且傻傻分不清楚,在之前舊的沒有納入 pydantic 的版本時,這問題更為嚴重,必須要自己先提供文件用RAG 讓它知道。 但是就我實際的觀察周邊的人,發現LLM 對於低階的工程師,高階的工程師的幫助個別顯著,但是對於中階工程師而且有使用上的困難。30
Re: [請益] 什麼樣的情況下AI才可能崩盤再次說一遍 千股NVDA 防身防失業防變成電池防小人防渣男 QQ 半導體有所謂的摩爾定律 AI也有 就是所謂的Scaling Law 他基本上給了一個大方向 AI是有三個元素組成 算力 算法 資料 Scaling Law基本定錨模型大小算力和資料相關性 沿者這條路的終點就是AGI 看看AI教父最新的訪談11
[討論] LLM即將像Stable Diffusion普及Simon Willison提到,很快大家都會有自己的ai助手。 看時間軸: 24th February 2023: LLaMA is announced, starts being shared with academic partners:7
Re: [討論]有可能不學coding就可以取得前後端工作?先不用談那些面試會遇到的問題,因為基本上目前的LLM能夠作到的能力是boosting 跟teaching而boosting的基礎使用者要會寫code,而teaching的的結果是使用者會 寫code 不可能無中生有,因為這違反了目前LLM的基本邏輯:文字接龍。所謂的文字接龍 ,前半段提示詞的好壞,決定後半段生成內容的品質,當用戶連怎麼正確描述自己6
[心得] LL.M申請歷程&心得其實我是2019年申請、2020年收到offer,但因為疫情延期一年出國,沒想到這一篇就 因此拖了那麼久Orz 基本上雖然我寫了5000字但是沒有很實際的內容,真的就是很亂的 感想還有一些我當時遇到的狀況的說明,如果想看技術性的LSAC之類的操作,真的有 太多前輩已經寫得太詳盡了,大家可以網路搜尋他們的文章就好XD 這邊放一下我的背景跟錄取結果讓大家參考,如果覺得有興趣的話再麻煩到我部落格5
Re: [新聞]剖析中研院大型語言模型事件的衝擊先說結論: 發展本土化,繁體中文LLM模型,然後期待這個模型能讓大家使用,根本是錯誤方向。不知道這些專家學者,是在騙經費,還是還沒想清楚產業到底缺什麼。 --- 如果今天你使用Google搜尋,搜到"台灣是中國的",或任何有政治偏見的相關文章。 你會不會覺得Google很爛?2
Re: [問卦] AI產生意識並且洗腦控制人類行為怎解?以目前 AI 能做的事情,還很遠 當然不排除未來可以,但是至少是現在不行 現在連 AGI (通用人工智慧) 都很難 目前不管是生圖的 AI 或是大語言模型(LLM)的 AI 本質上都是猜,只是這個猜的過程可以從模型輔助讓猜這件事猜的更準- 講一些自身經驗好了 自從AI領域在生成式題材大火後 全世界就進入到AI軍備競賽 所有的AI基礎研究都是以週甚至日為單位在迭代 舉個例子 當年Robert G. Gallager 在1960提出類神經網路的LDPC code到2004年才大放異彩 無限接近shannon bound 光這個演進就花了40年 對照這幾年的AI科技樹發展 根本就是指數在成長