Re: [問卦] 聽說中研院AI花300萬？

Uizmp 發表於 2023/10/10 下午6:11:41

看板Gossiping標題Re: [問卦] 聽說中研院AI花300萬？作者

(黑袍法師)時間Oct 10 18:11:41 2023推噓 3 推:4 噓:1 →:2

※ 引述《sxy67230 (charlesgg)》之銘言：
: ※ 引述《Fortran (Fortran)》之銘言：
: : 如題
: : 本肥好奇，若這樣簡轉繁中，直接套用中國模型，應該不用花到300萬吧
: : 頂多就換個皮，簡轉繁中，連一個工作天都不用，1~5萬就夠了
: : 剩下的經費都....？
: : 有卦？
: 阿肥外商碼農阿肥啦！
: 推廣一下微軟Azure服務，這邊試算開一張A100機器折合台幣差不多8萬台幣/月，平均一: 天3000不到，中研院應該夠划算了，也算是現在市場公道價，反正都用開源簡中數據了，: 放Azure訓練也沒什麼資安問題，而且要撈90GB的模型檔案不到十五分鐘就載完了，Azure: 又快又好用。
: Llama現在一堆微軟、Nvidia都有釋出開源訓練框架，無腦載套件下來照教學拉下訓練con: fig就可以開始跑，推論也直接用Nvidia的inference框生成2048個字不到0.7秒不到，最: 多給你開發Gradio的介面框三天好了，這樣一天給研究人員一人五萬/天，十五萬加上Azu: re 8萬就二十萬不到耶！
: 三百萬真羨慕，我們政府很有錢吶！
: 嘻嘻
https://ppt.cc/fZf2Sx

中研院聲明專區

本院資訊所表示，CKIP-Llama-2-7b 並非中研院官方或所方發表的研究成果，而是個別研究人員公佈的階段性成果。此非臺版chatGPT，且跟國科會正在發展的 TAIDE 無關。

CKIP-Llama-2-7b 的研究目標之一是讓 meta 開發的 Llama 2 大型語言模型具備更好的繁體中文處理能力。這項小型研究僅用了大約30萬元的經費，將明清人物的生平進行自動化分析，建構自動化的歷史人物、事件、時間、地點等事理圖譜，因此訓練資料除了繁體中文的維基百科，另也包含臺灣的碩博士論文摘要、來自中國開源的任務資料集 COIG（CHINESE OPEN INSTRUCTION GENERALIST）、詩詞創作、文言文和白話文互相翻譯等閱讀理解問答；在github網頁上也據實說明。

由於這是一項個人小型的研究，各界對該模型進行的提問測試，並未在原始的研究範疇。該研究人員表示，由於生成式AI易產生「幻覺」（hallucination），模型產生內容出乎預期，也是未來要努力改善的地方，研究人員今（9）日已將測試版先行下架，未來相關研究及成果釋出，會更加謹慎。對相關研究的成果，公開釋出前，院內也會擬定審核機制，避免類似問題產生。

原來只值 3 秒鐘啊。

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.204.135.3 (臺灣)

※ PTT 網址

推

ZhouGongJin 10/10 18:17套皮就拿30萬也是很好賺啊

推

gino0717 10/10 18:1830萬就五個月的薪水差不多啦

→

freeclouds 10/10 18:26從中國抄來的資料庫嘻嘻 30萬

推

suzer 10/10 18:29個人研究發新聞？