Re: [新聞] 聯發科AI平台MediaTek DaVinci「達哥」
原文恕刪
小弟剛好最近有跟到一些台灣LLM的發展,可以補充一下關於模型的部分。聯發科的研究單位聯發創新基地,做語言模型有一段時間了,之前有一版Breeze-7B模型,發佈了一篇技術論文放在arxiv:
https://arxiv.org/pdf/2403.02712.pdf
論文提到這個模型是從mistral-7B 繼續訓練而成,花了7000小時的H100,灌了650GB的data。如果有一半是中文,325GB,也灌了超過1000億漢字(3bytes=1word),其實很多了啦。
然後Breexe是從Mixtral訓練而成,是更大一級的模型,論文好像還沒出,但很多公司都有不同大小的模型,做法應該不會差太多(?)。最近有開放API試用:
https://huggingface.co/MediaTek-Research/Breexe-8x7B-Instruct-v0_1
跟ChatGPT的比較,最重要的點應該是,像Breeze-7B這種已經開源的模型,對能架伺服器的公司來說,是用越多越賺;跟token收費的ChatGPT 用越多越貴截然不同。Breexe不知道會不會開源就是了。
達哥的部分,沒有親自用過,但有認識的人用過。基本上就是平台,然後有一些功能,像是讀pdf等等。就把AI推廣給更多人的東西,應該是不錯啦。
--
開源的 Breeze-7B 我是玩一下過,感覺還不錯!
試
推介紹!
推推
一看到h100 直接冷掉 一半人根本玩不起QQ
做隔壁專業的,好奇這樣子也會有 emerging ability
嗎,其實它變單一語種而且是繁中,和原始模型不能算
同個東西了吧,而且英語的普及度又遠大於繁中,很多
問題會受限吧,那個benchmark和GPT3.5也差一截
可以幫文組翻譯嗎 救命-.-
重點是企業設置私有AI模型運用,要能合規法循。所以
繁中未來還是有一定的市場可以開發。
這樣發哥明天是漲還是跌?
聯發哥2000
這東西開發跟上好處很多 值得值得
受限沒關係啊 跟上就好
Mistral AI 這家法國新創有前途啊,微軟都要琵琶別
抱了
發哥有眼光
個人覺得繁體中文最強的開源就是breeze 7B了,回答
的都滿好的。
特點除了繁體,可以針對臺灣的內容回答得不錯
達哥也不是功能啦,大部分就是挑好model然後寫好pro
mpt來做各種事情
推推
未來股王
講實話工作上能用很不錯
繁中最大資料庫,是否能用ptt內的文章來灌進去訓練
推推
果然是拿開源拿來改== 給我一台H100 我也行
聞西,要你命3000,訊號來了
55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預52
Re: [討論] 中研院繁中LLM被爆直接拿對岸的來套小弟待的公司,非學術單位, 可能是台灣硬體計算資源稍微豐富的公司。 公司投入在買GPU 應該近億了。 自己也研究了幾個月 fine-tune 方法。 不過,還是沒足夠能力與資源訓練正常的LLM。X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。5
Re: [新聞] 中研院 AI 大翻車!繁中大型語言模型 CKI那個 我記得以前的新聞是這樣講的 防止簡體版AI偏見,產官學聯手開發繁體版AI語音模型 聯發創新基地負責人許大山博士表示: 「大型語言模型是近年來人工智慧技術進步的亮點 ,更是未來進步不可或缺的基石。聯發科技向來重視創新及科技發展,此次結合中研院及 國教院,成為台灣極少數能訓練大型語言模型的團隊,既發展自主訓練大型人工智慧模型5
Re: [新聞]剖析中研院大型語言模型事件的衝擊先說結論: 發展本土化,繁體中文LLM模型,然後期待這個模型能讓大家使用,根本是錯誤方向。不知道這些專家學者,是在騙經費,還是還沒想清楚產業到底缺什麼。 --- 如果今天你使用Google搜尋,搜到"台灣是中國的",或任何有政治偏見的相關文章。 你會不會覺得Google很爛?5
Re: [新聞] Google與Hugging Face合作宣布推動開放結果Google竟然釋出了開源大模型Gemma,超出預期! Google 2 款新開源模型「Gemma」來了!直接挑戰 Meta Llama 2 7B 2024/02/22 Sisley 聊天機器人 、 生成式 AI 、 摘要 、 輕量級語言模型 、 負責 任生成式 AIX
Re: [問卦] 中研院自己做的大型語言模型怎麼了?這語言模型基礎是建構於Llama 2,meta提供的開源模型 另外Atom 7b則是中文社群跟一間中國公司在Llama 2之上訓練成中文使用者適合的模型, 也是開源且開放商用 技術上也不用解釋太多,反正開源模型他本來就不會像GPT或百度的文心一言那樣限制某 些爭議性回答3
Re: [問卦] ChatGpt為什麼開始變笨了?正好半夜看到這篇無聊來回一下 GPT4能力下降大概5月多開始就有人注意到了 但你要怎麼定義能力衰退這件事而且量化他? 於是七月就有一篇論文在討論這件事2
Re: [問卦] ChatGPT問世,臺灣的AI大師在想什麼?阿肥外商碼農阿肥啦! 當前LLM像chatGPT即使問世,依舊還是有很多前沿問題沒解決,模型即使透過Instructio ns 由人工引導學習,還是很難達到真正的在線學習,人腦卻是可以時時重塑世界模型, 而且當前很多新研究都發現人腦耗電非常低但新皮質效能卻很高,而且LLM在很多層面即 使優於人腦,但是他卻缺少部分的世界模型。- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬
32
[請益] 年底紅包行情?22
[請益] 三年前分析現在才反應 謝金河是包牌仔嗎22
Re: [新聞] 替代役男墜樓亡!前員工再爆「也遭霸凌」X
Re: [請益] 難道比特幣無敵了?5X
[標的] 2609 陽明 板上一堆人吹=肅殺空1
Re: [標的] 00687B 國泰20年美債 質押開三層多8
[標的] 2359 所羅門 人型機器人多7
[請益]近期營建21
[標的] 6271同欣電-再給我一個理由放棄多3
Re: [請益]近期營建