PTT評價

Re: [爆卦] 中央研究院詞庫小組大型語言模型

看板Gossiping標題Re: [爆卦] 中央研究院詞庫小組大型語言模型作者
gaymay5566
(feeling很重要)
時間推噓23 推:25 噓:2 →:31

: 至於說,CKIP可以辯解說,我們確實沒有隱瞞也確實提升了繁中能力,那我認真覺得如果: 我們只是希望模型輸出全繁中而不在意希望模型學會繁中文化跟台灣環境的流行用語的話: ,那我們直接拿英文數據做機翻不是更快更有效?!英文數據還取之不盡,英文to繁中的: 翻譯模型開源的現在也一大堆,翻譯品質也算堪用。
: 而且真的要做這件事情也不用中研院來做。阿肥我直接業餘一個禮拜直接搞定,阿肥之前: 也訓練過一堆這種tune壞的Garbage LLM,現在訓練接微軟的deepspeed又快又無腦,Nvid: ia最近也釋出自己的訓練框架,config調一調我連code都不用自己寫,現在一張4090就可: 以tune起來7b模型了,幹嘛要你中研院來做?!
: 而且tune壞的部分我要finetune還要加數據把他tune回來,那我直接拿Atom 7b原生做就: 好了啊!
: 唉~

阿肥

中研院資訊所早已回應了

研究人員直接說這是幻覺~

沒你說的這麼高端解釋啦~

https://reurl.cc/QZer9M

本院資訊所表示,CKIP-LlaMa-2-7b 並非「臺版chatGPT」,且跟國科會正在發展的
TAIDE 無關。

CKIP-LlaMa-2-7b 的研究目標之一是讓 meta 開發的 Llama 2 大型語言模型具備更好的繁體中文處理能力。這項小型研究僅用了大約30萬元的經費,將明清人物的生平進行自動化分析,建構自動化的歷史人物、事件、時間、地點等事理圖譜,因此訓練資料除了繁體中文的維基百科,另也包含臺灣的碩博士論文摘要、來自中國開源的任務資料集 COIG(CHINESE OPEN INSTRUCTION GENERALIST)、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答;在github網頁上也據實說明。

由於這是一項個人小型的研究,各界對該模型進行的提問測試,並未在原始的研究範疇。該研究人員表示,由於生成式AI易產生「幻覺」(hallucination),模型產生內容出乎預期,也是未來要努力改善的地方,研究人員今(9)日已將測試版先行下架,未來相關研究及成果釋出,會更加謹慎。對相關研究的成果,公開釋出前,院內也會擬定審核機制,避免類似問題產生。



--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.77.82 (臺灣)
PTT 網址

ghchen1978 10/09 20:21一切都是幻覺,嘻嘻

shimachokong 10/09 20:21原來幻覺會告訴你元首是習近平

CREA 10/09 20:21全都是幻覺 嚇不倒我的

KIKK 10/09 20:22這樣也要30萬啊…

k85564 10/09 20:22ai是幻覺 我們生活的地方也是幻覺

k85564 10/09 20:22世界是虛擬的!

zoeapezoo 10/09 20:24http://i.imgur.com/HQFdB6m.jpg

una283 10/09 20:25「個人小型實驗」還能上新聞宣傳真不簡單

una283 10/09 20:28https://i.imgur.com/sLSdSaO.jpg

bbc0217 10/09 20:29https://i.imgur.com/qIb93BQ.gif

sxy67230 10/09 20:30個人實驗還能上新聞真好,阿肥能上新聞

sxy67230 10/09 20:30的機會都沒有

bbs0840738 10/09 20:31要上新聞吹就不要怪大家檢視啊

una283 10/09 20:32之前台灣的新聞似乎都下架了只剩下中國的

a27588679 10/09 20:33ai產生幻覺 這是奇異點吧

sxy67230 10/09 20:34我們政府很有效率耶,不輸對岸,一個命

sxy67230 10/09 20:34令媒體集體下架

una283 10/09 20:34https://bit.ly/45nLlU5

una283 10/09 20:35個人小型實驗發的台灣的新聞

ErosAmour 10/09 20:36笑死,台灣傻事一定會搬這一條。

holyhelm 10/09 20:36嚇不倒我的!!!!!

garcia 10/09 20:37假的!是你各位眼睛業障重

una283 10/09 20:41原新聞寫是「團隊」人工挑出的CIOG-PC

una283 10/09 20:42資訊所聲明稿跟兩天前的新聞稿差這麼多

ImCPM 10/09 20:43笑死

cgntutim 10/09 20:4630萬 笑死

firose 10/09 20:50就說了 繼續研究如何包裝

firose 10/09 20:50以達到看不出來的效果

simon0529 10/09 20:52這就是我們中研院研究員的素質?

simon0529 10/09 20:53難怪台灣停滯2、30年沒有突破性發展

simon0529 10/09 20:53一切都是幻覺

jeff85898 10/09 21:09要評論語言模型結果幻覺這個專有名詞不

jeff85898 10/09 21:09知道也太好笑

jeff85898 10/09 21:0930萬算上模型訓練用的硬體成本跟清理資

jeff85898 10/09 21:09料集的人力成本也差不多了吧

una283 10/09 21:10幻覺是中研院自己說的 不是評論

una283 10/09 21:11可能用英文怕記者翻錯

una283 10/09 21:12本來用幻覺這個字就容易一語雙關

※ 編輯: gaymay5566 (36.234.77.82 臺灣), 10/09/2023 21:14:12

odaaaaa 10/09 21:1530萬的1人團隊,怎麼有點熟悉!

emissary 10/09 21:20AI產生幻覺?那AI會不會知覺失調阿?XDD

nakayamayyt 10/09 21:36個人小型實驗新聞稿寫得這麼偉大

firemothra 10/09 21:38假的。你眼睛業障重

rick917 10/09 21:56原來我中了幻覺啊...@@"

franktpmvu 10/09 22:01幻覺的意思是 CHAT常常會捏造東西聊天

franktpmvu 10/09 22:01因為CHAT 的首要目標是聊的通順 不是

franktpmvu 10/09 22:02內容的正確性 所以你問一個不存在的東

franktpmvu 10/09 22:02西跟他聊天 他也可以講的好像真的存在

franktpmvu 10/09 22:03千萬不要相信任何CHAT宣稱的"正確性"

franktpmvu 10/09 22:06有時會看到CHAT會捏造參考資料來佐證

franktpmvu 10/09 22:07自己的觀點 但這些參考資料不存在於現

tanby 10/09 22:07最好是幻覺這麼精準啦 就數據有問題 你們

tanby 10/09 22:07沒有清理

franktpmvu 10/09 22:07實中

fulongb210f 10/09 22:08誰在認知作戰?

ChungLi5566 10/09 22:24你們餵它垃圾他當然產生垃圾

Expend 10/09 22:34https://i.imgur.com/BvktRr1.jpg

pastevil 10/10 08:42對,一切都是幻覺這樣解釋就都合理了

changefly 10/10 13:37一切都是幻覺辣