Re: [新聞] 中研院 AI 大翻車!繁中大型語言模型 CKI
※ 引述《monnom (桂)》之銘言:
: 中研院 AI 大翻車!繁中大型語言模型 CKIP-Llama-2-7b 目前已下架
: 他也認為,AI 時代的競爭,需強化台灣在地用詞的資料收集、建立資料集,建立熟悉台: 灣在地文化的 AI,視為國防/國安投資,有急迫性和必要性。
: 另有 PTT 網友做測試,發現問一些敏感問題,基本上回答都相當「出乎意料」,也不難: 理解語言模型緊急下架的原因。
那個 我記得以前的新聞是這樣講的
防止簡體版AI偏見,產官學聯手開發繁體版AI語音模型
聯發創新基地負責人許大山博士表示: 「大型語言模型是近年來人工智慧技術進步的亮點,更是未來進步不可或缺的基石。聯發科技向來重視創新及科技發展,此次結合中研院及國教院,成為台灣極少數能訓練大型語言模型的團隊,既發展自主訓練大型人工智慧模型的能力,也讓繁體中文的大型語言模型研究及應用更為普及。」
有鑑於開放原始碼繁體中文大型語言模型的重要性與迫切性,在2022年5月,聯發創新基地、中央研究院和國家教育研究院展開合作計畫,使用大型語言模型BLOOM的繁體中文模型再訓練與優化。
【台版ChatGPT來了!聯發科、中研院、國教院低調開發 宣布完成AI語言生成模型】
出處:信傳媒( https://www.cmmedia.com.tw/home/articles/38789 )
結果開發了 繁體AI偏見
號稱防止簡中入侵 代碼兩岸一家親
ㄎㄎ
--
如果找不到不愛你或愛你的理由
▁▁
都可以是愛你或不愛你的理由 ▕A6▏
▕出品▏
我想你要的是愛 不是理由  ̄ ̄
--
上行下效,台灣難怪詐騙橫行
出包的不是這一個
紅共綠共都是共 不要分那麼清楚
出包的是只有30萬預算的簡轉繁
AI瑋豐出來玩
發哥那個我記得資料收集蠻多的
許大山許大山許大山許大山許大山出來打球
原來是聯發科害中研院翻車(?
欸... ? 中研院和這個是同一個團隊嗎?
結果還是抄簡體文本 笑死
這根本片經費吧?
先說,這是不同的...
聯發的你查 bloom-1b1-zh就有了
至於是不是同團隊就不清楚
整個團隊廢掉好了 領多少錢
竹篙湊菜刀 這玩的是同一個AI語言模型???
感覺好像菸酒生寫計劃騙經費的橋段
爆
[爆卦] 中央研究院詞庫小組大型語言模型不知道這研究案領多少錢?爆
[問卦] 中研院自己做的大型語言模型怎麼了?中研院最近發布了他們自己開發的LLM 說是在處理繁體中文的任務上表現優異 可是小妹看了一下跑出來的成果55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預34
[討論] 中研院繁中LLM被爆直接拿對岸的來套!中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。6
[問卦] 用PTT來訓練AI語言模型會怎樣PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂 到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可 能會有以下的影響: 增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此 使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然6
Re: [爆卦] 中央研究院詞庫小組大型語言模型這個語言模型的最大資料來源都是源自於一個世界開放的語料資料庫 其中中文占的比例很少 中文當中繁體中文的資料更少 因此訓練起來 中文其實都不像樣 同時間訓練台灣的內容資料又更少之又少X
Re: [問卦] 中研院自己做的大型語言模型怎麼了?這語言模型基礎是建構於Llama 2,meta提供的開源模型 另外Atom 7b則是中文社群跟一間中國公司在Llama 2之上訓練成中文使用者適合的模型, 也是開源且開放商用 技術上也不用解釋太多,反正開源模型他本來就不會像GPT或百度的文心一言那樣限制某 些爭議性回答X
[閒聊]ChatGPT:區塊鏈與語言模型:數位革新的合力前幾天看到文章説 已經有人利用FB洩漏的資訊在筆電上實現類似ChatGPT的技術 所以我試著問GPT一些問題 獲得一些心得 分享給大家 所以以下的文章是ChatGPT寫的,包含標題XDD 有興趣請往下慢慢看~ (至於FB洩漏什麼 請自行搜尋 我網址沒存XD)X
Re: [問卦] 中研院自己做的大型語言模型怎麼了?支那china共和國republic 中研院 官方英文名稱:Academia Sinica = 支那的 研究院 成立於:1928年的支那上海 本來從裏到外都是支那的形狀,使用china的語言數據庫也屬於天經地義吧。 説句題外話,連基礎科研上還要講意識形態,也是沒誰了。
爆
[問卦] 人資:「上班偷錄音違反職場倫理」爆
[爆卦] 賴清德為霸凌案出面道歉了爆
Re: [新聞] 為愛赴緬做詐騙!靜宜女大生近期有望回台爆
[問卦] 綠同事:第一次有人死掉鬧這麼大爆
Re: [新聞] 快訊/柯文哲涉「2大案」最快12月偵結爆
Re: [新聞] 爆黃國昌與謝宜容秘密會議 李正皓秀公文爆
[問卦] 今年2024代表詞要選什麼?71
[問卦] 對工作單位充滿感謝,然後在單位上吊?60
[問卦] 謝宜容下屬10分鐘不回line就開罵 結果自32
[問卦] 主管要檢查手機 說是防洩密 要交出去嗎34
[問卦] 免費讓你學台語你會去嗎?31
[問卦] 出事情嚴查嚴辦當事人卻跑了?27
[問卦] 烏克蘭的兩年戰事,給台灣的啟發?31
[爆卦] 三重 工地 塔吊出事故25
[問卦] 公務員不屌上司會怎麼樣23
[問卦] 第一島鏈在2024年,是否還重要?43
[問卦] 為啥國際上泰國比台灣還有名54
[問卦] 為啥很多女主管都喜歡緊迫釘人?20
Re: [新聞] 勞動部霸凌案 死者母淚崩「我可憐的孩子13
[問卦] 跟女同事約做愛,但要出房間錢跟請吃火鍋.17
[問卦] 朋友說現在公務員不能加班但事情沒變少8
[問卦] 宜容失聯很久了,大家不擔心出意外嗎?17
[問卦] 為什麼公務員變那麼操?37
[問卦] 加蛋加15元已經是常態了嗎?19
[問卦] 操作股票 賺了3塊 中午能加什麼菜12
[問卦] 從書面道歉 到 拍片道歉了 還想怎樣?17
[問卦] 一定做過的動漫招式有哪些?17
[問卦] 霸凌致死也算刑法過失致死吧?16
[問卦] 哪家信箱好用13
[問卦] 洪仲丘事件25萬人上凱道,還會發生嗎?