Re: [新聞] 三位臺灣AI專家發起DeepSeek R1改造計畫
※ 引述 《shala》 之銘言:
: 1.媒體來源:
: iThome
: 2.記者署名:
: 文/王宏仁 | 2025-02-08發表
: 3.完整新聞標題:
: 三位臺灣AI專家發起DeepSeek R1改造計畫,要打造繁中版開源授權的推理模型
: 4.完整新聞內文:
: 這項計畫將以DeepSeek R1為基礎來進行改造,透過重新訓練模型的方式,並以開源授權: 釋出模型權重,也就是採取開放權重的策略釋出,最後還會打造新的模型身份與品牌
: OpenAI去年發表了新一代推理模型o1之後,讓眾人看到GAI開始媲美真人博士或軟體開發: 高手般的解題能力,掀起了新一輪的大型語言模型競賽。春節期間,以開放權重釋出的De: epSeek R1模型,大幅降低了這一波推理模型競賽的門檻,成了全球AI產業的熱門焦點,: 開始浮現客製化推理模型的趨勢。
: 臺灣也有三位AI專家,在2月7日發起了一項臺灣製造大型語言模型計畫,專案代號「自由: 鋼普拉」(FreedomGunpla R1),希望募資3千萬元,預計在3月底釋出第一版預覽的推理: 模型。
: 這款引起全球AI圈熱議的DeepSeek R1模型,在論文中揭露了多項媲美甚至超越OpenAI o1: 推理模型的能力,因為可以部署到本地端,來避免企業自己的機敏資料上傳到網路,而引: 起AI圈的重視,不過,R1模型簡體版用戶協議中提到自己通過三項中國AI法規的備案,也: 讓外界擔心這款模型生成的內容偏重於對齊中國價值。
阿肥外商碼農阿肥啦!
其實這兩三個禮拜蠻多知名開源平台都在開源R1計畫,像Huggingface知名的Transformers框架模型平台就釋出Open R1計畫,還有矽谷新創Unsloth也釋出他們的R1微調程式碼,而且也證明他拿其他已經SFT很強的語言模型像Llama3.3還有Phi-4做簡單的100步強化學習就可以讓Llama3.3跟Phi-4自我頓悟出推理能力出來。
這也是DeepSeek R1真正帶給世界的重大影響,大概在未來一個月內就會有更多的人自己開源出自己的R1模型(搭已有的語言模型)。
當前真正比較大的問題是台灣自己根本就沒有完全從0開始完全屬於自己的語言模型,如果直接說要弄R1無疑就是還沒學會跑就開始想飛了。
如果使用已有的像Meta的llama來訓練自己的語言模型問題是在當初llama在預訓練的時候是優先看過大量簡中數據的(至少比繁中多),繁中簡中在詞表徵很常時候是重疊的,那就很難避免模型模型輸出簡中就是了,所以一直以來真正的命題都不是台灣也要有R1,而是台灣一直都沒能力自己弄出自己的數據中心然後自研屬於自己而且全國產的語言模型,在台灣大家都是跟著美國大廠的框架走,這才是真命題。
以上
--
我們有糖鳳
我也外商碼農阿這計劃我滿支持的阿~
他主要不是弄一個繁中是要從R1脫胎一個
CheatDpp要問世了
原形可以給台灣使用因為MIT授權且目前最
就台灣政府拿錢去抄一份
快的方法就是這樣做差資料跟$而已
確實,這樣的方法確實是最快的,我也贊成短期人數少的團隊用這種快方法,但我還是覺得 培養長期台灣訓練語言模型的基礎能力才能治本,這種長期的就是人、錢、資料建置都要到 位,這樣未來我們在AI領域才有競爭力而不是畫大餅。
bilibili上已經有教學可以自己蒸餾
DppSick
Huggingface上也有各式各樣數據集可挑
台灣應該不容易普及 持續維護也是問題
從零到一百學理大家都會了,沒有算力
未來是拼應用的時代,不是從零開始吹氣球
很多人都有經驗也有能力在玩蒸餾
唐風那人弄個口罩都能吹上天
所以台派也是用ds用的真香嘛
沒公司做啊 政府自己做一定失敗
cheatDPP R1
搪塞填縫
我們沒錢
不是有預算拿超多的數位發展部嗎
不准用 還能拿來改?這哪招?
網路上的資料還是看使用者的語系,繁體
本來就少
taide 不知道是不是train from scratch
糖鳳詐騙都搞不定了!還糖鳳
爆
[情報] 50美元訓練出媲美DeepSeek R1標題: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 來源: Futu 網址:![[情報] 50美元訓練出媲美DeepSeek R1 [情報] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
爆
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據以下部分資訊來自於Reddit anitakirkovska文章的翻譯 LDPC哥哥講到一個重點 Reinforcement Learning =/= Reinforcement Learning from Human Feedback 這也是R1為什麼爆紅的原因![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://i.imgur.com/lunsvb2b.jpg)
爆
[情報] 微軟官方:DeepSeek R1 現已在 Azure 及 G標題: DeepSeek R1 is now available on Azure AI Foundry and GitHub DeepSeek R1 現已在 Azure AI Foundry 和 GitHub 上提供。 來源: 微軟 Azure 官方 Blog![[情報] 微軟官方:DeepSeek R1 現已在 Azure 及 G [情報] 微軟官方:DeepSeek R1 現已在 Azure 及 G](https://i.imgur.com/Mn5ppb7b.png)
68
Re: [情報] Perplexity CEO:實驗性整合DeepSeek R1模更新: 年初一大新聞 美國上市公司(NET)、CDN市佔80%的 Cloudflare 宣佈引入 Deepseek R1 模型至他們的 serverless GPUs 產品 Workers AI 中![Re: [情報] Perplexity CEO:實驗性整合DeepSeek R1模 Re: [情報] Perplexity CEO:實驗性整合DeepSeek R1模](https://i.imgur.com/rDAhYVDb.png)
16
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據現在全網路上的開源數據資料是屬於pre-training端 大多都是野生數據 無標籤 那東西只是讓模型去向鸚鵡一樣 去做文字接龍 但第二階段訓練會用到RLHF (Reinforcement Learning from Human Feedback) 就是要人類針對不同數據給意見 這個是要給標籤 所以你才會聽到狗家之前要求全公司員工去給意見讓Gemini前身 Bard 去做人類feedback![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://huggingface.co/blog/assets/open-r1/thumbnails.png)
14
[爆卦] 50美元訓練出媲美DeepSeek R1李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe![[爆卦] 50美元訓練出媲美DeepSeek R1 [爆卦] 50美元訓練出媲美DeepSeek R1](https://i.imgur.com/kFg9GjUb.jpeg)
10
Re: [問卦] DeepSeek成本這麽低的原因是啥?分兩個部分來說, ——————————————— 第一個部分是澄清: DeepSeek 是微調別人做的基本模型。 比如臉書 meta 花數千萬美金或上億美金做出模型 llama.![Re: [問卦] DeepSeek成本這麽低的原因是啥? Re: [問卦] DeepSeek成本這麽低的原因是啥?](https://i.imgur.com/O3nSbTXb.jpeg)
1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是![[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣 [問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣](https://i.imgur.com/jY9j0u3b.jpg)
1
[討論] 所以可以開吹Deepseek了嗎?微軟Ai副總: DeepSeek R1 is now available in the model catalog on Azure AI Foundry and GitHub, joining a diverse portfolio of over 1,800 models, including frontier, open-source, industry-specific, and task-based AI models. As part of Azure AI Foundry, DeepSeek R1 is accessible on a trusted, scalable, and![[討論] 所以可以開吹Deepseek了嗎? [討論] 所以可以開吹Deepseek了嗎?](https://i.imgur.com/YdMmsJwb.jpeg)
2
Re: [問卦] 自由時報笑了:Deepseek準確度超低聽說資訊準確率超低, 那麼為什麼會震撼美國? 昨天猜想的可能原因,再貼一次。 整理一下: 分兩個部分來說,![Re: [問卦] 自由時報笑了:Deepseek準確度超低 Re: [問卦] 自由時報笑了:Deepseek準確度超低](https://i.imgur.com/r066Tiwb.jpeg)
爆
[問卦] 去銀行一次提領一百![[問卦] 去銀行一次提領一百 [問卦] 去銀行一次提領一百](https://i.imgur.com/eiBR27jb.jpeg)
爆
[問卦] 現在的HR都愛問一些奇怪問題嗎![[問卦] 現在的HR都愛問一些奇怪問題嗎 [問卦] 現在的HR都愛問一些奇怪問題嗎](https://i.urusai.cc/QtYfe.png)
94
[問卦] 霸凌同學 有好聽說法嗎爆
Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責?![Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責? Re: [問卦] 11/4離職 11/26出包,公司叫離職的負責?](https://i.imgur.com/AN84rLmb.jpeg)
75
[問卦] 台女脆文:瑞幸咖啡穩死的!![[問卦] 台女脆文:瑞幸咖啡穩死的! [問卦] 台女脆文:瑞幸咖啡穩死的!](https://i.mopix.cc/NRU3Hs.jpg)
68
[問卦] 八歲就開扁同學以後能成大事嗎63
[問卦] CloudFlare又掛了?41
[問卦] 全聯鯛魚搞到要國賠了![[問卦] 全聯鯛魚搞到要國賠了 [問卦] 全聯鯛魚搞到要國賠了](https://i.imgur.com/flM1A6bb.png)
爆
[問卦] 11/4離職 11/26出包,公司叫離職的負責?![[問卦] 11/4離職 11/26出包,公司叫離職的負責? [問卦] 11/4離職 11/26出包,公司叫離職的負責?](https://img.youtube.com/vi/uGOWqxN_avw/mqdefault.jpg)
86
[問卦] 脆女:第一胎沒300萬 別生小孩了!![[問卦] 脆女:第一胎沒300萬 別生小孩了! [問卦] 脆女:第一胎沒300萬 別生小孩了!](https://i.mopix.cc/NRU3Hs.jpg)
爆
[問卦] 真的有記者去含檢察官的屌換情報?![[問卦] 真的有記者去含檢察官的屌換情報? [問卦] 真的有記者去含檢察官的屌換情報?](https://i.imgur.com/osUmcCvb.jpeg)
85
[問卦] 吳郭魚片寫台灣鯛魚片484詐騙?![[問卦] 吳郭魚片寫台灣鯛魚片484詐騙? [問卦] 吳郭魚片寫台灣鯛魚片484詐騙?](https://img.youtube.com/vi/dtuSqd-TcxU/mqdefault.jpg)
45
[問卦] 8歲就嗆要打死人,長大能做什麼?![[問卦] 8歲就嗆要打死人,長大能做什麼? [問卦] 8歲就嗆要打死人,長大能做什麼?](https://i.imgur.com/eVKUCT4b.jpeg)
44
[問卦] 驚!9年來 年輕人自殺成長三倍 代表什麼![[問卦] 驚!9年來 年輕人自殺成長三倍 代表什麼 [問卦] 驚!9年來 年輕人自殺成長三倍 代表什麼](https://i.imgur.com/I9muINnb.jpeg)
39
[問卦] 燒臘便當這樣多少合理?![[問卦] 燒臘便當這樣多少合理? [問卦] 燒臘便當這樣多少合理?](https://i.imgur.com/FLuRAsfb.jpeg)
36
[問卦] 經過鯛魚事件後 你還相信檢驗數據嗎?![[問卦] 經過鯛魚事件後 你還相信檢驗數據嗎? [問卦] 經過鯛魚事件後 你還相信檢驗數據嗎?](https://i.mopix.cc/wyBvTF.jpg)
42
[問卦] 為何08年大家22k時沒人躺平 現在卻一堆?![[問卦] 為何08年大家22k時沒人躺平 現在卻一堆? [問卦] 為何08年大家22k時沒人躺平 現在卻一堆?](https://i.mopix.cc/P0cKXZ.jpg)
37
[問卦] 台女:性騷擾本來就是我來定義![[問卦] 台女:性騷擾本來就是我來定義 [問卦] 台女:性騷擾本來就是我來定義](https://i.mopix.cc/NRU3Hs.jpg)
27
[問卦] 沒人發現今日小紅書,明日就是PTT??![[問卦] 沒人發現今日小紅書,明日就是PTT?? [問卦] 沒人發現今日小紅書,明日就是PTT??](https://i.imgur.com/Oh5UTjvb.jpeg)
84
[問卦] 美財長貝森特:美是中國盟友也是台灣盟友![[問卦] 美財長貝森特:美是中國盟友也是台灣盟友 [問卦] 美財長貝森特:美是中國盟友也是台灣盟友](https://i.imgur.com/W29EoF5b.png)
34
[問卦] 為什麼女生興趣都寫旅遊跟美食30
[問卦] Telegram才更該禁吧49
[問卦] 蝙蝠俠幹嘛不把小丑做掉![[問卦] 蝙蝠俠幹嘛不把小丑做掉 [問卦] 蝙蝠俠幹嘛不把小丑做掉](https://img.youtube.com/vi/cm3Chp2u7HY/mqdefault.jpg)
30
[問卦] 2025年底了今年的代表字是? 好的部分29
[問卦] 8歲打人是「小朋友之間的摩擦」那18歲?![[問卦] 8歲打人是「小朋友之間的摩擦」那18歲? [問卦] 8歲打人是「小朋友之間的摩擦」那18歲?](https://i.meee.com.tw/QWoHrWC.jpg)
30
[問卦] 檢驗結果為什麼是助理扛?![[問卦] 檢驗結果為什麼是助理扛? [問卦] 檢驗結果為什麼是助理扛?](https://img.youtube.com/vi/ftuuVwvhvKM/mqdefault.jpg)
27
[問卦] 8歲小朋友霸凌案,教會了我們什麼?0.028
[問卦] 炒麵 要怎麼做 才能做出最好吃的炒麵?![[問卦] 炒麵 要怎麼做 才能做出最好吃的炒麵? [問卦] 炒麵 要怎麼做 才能做出最好吃的炒麵?](https://i.ytimg.com/vi/zU_l0NR7HFE/maxresdefault.jpg)
25
[問卦] 男女去泡溫泉,啪啪機率多高?28
[問卦] 織田信長是一位很糟糕的大名吧?