Re: [討論] deepseek是怎樣偷chatgpt?
※ 引述《markban (馬克白)》之銘言:
: 大家都知道
: 有人去問deepseek你是什麼模型
: 結果他說它是chatgpt
: 所以deepseek
: 是一開始就抄chatgpt的開源資料
: 還是說更懶
: 直接api 給chatgpt
好奇
chatgpt 有開源訓練資料喔?
我記得我讀過一個大師的文章
他說訓練資料的優劣是遠遠重要於模型
當然頂尖模型兩個都不能缺
模型架構路人用torch還是tensoflow隨便架一架大概可以架個87啪像
但是路人不會有訓練資料
所以好奇m大說chatgpt有開源資料在哪裡啊?
我以為開源的是模型也
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.71.64.194 (臺灣)
※ PTT 網址
噓
用網路爬蟲偷網路上的所有公開資料啊
→
今天指控ds偷chatgpt資料根本好笑
→
chatgpt一樣是偷來的 兩年前就吵過了
推
一樓再次顯示自己的科技無知
→
Wikipedia
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預18
Re: [新聞] 聯發科AI平台MediaTek DaVinci「達哥」原文恕刪 小弟剛好最近有跟到一些台灣LLM的發展,可以補充一下關於模型的部分。聯發科的研究 單位聯發創新基地,做語言模型有一段時間了,之前有一版Breeze-7B模型,發佈了一篇 技術論文放在arxiv:X
Re: [新聞] DeepSeek爆紅引熱議 傳偷用5萬顆輝達H10"世界一開源 中國就領先" 這是一句最近流傳的諺語~~~ 之前中國嘴砲7奈米量產 結果一開蓋 發現是TSMC like的製程 多重曝光 現在要驗證 deepseek是否真的是便宜成本就可以訓練好 只要請deepseek 公佈模型架構 不要提供完整訓練好的模型1
Re: [問卦] Deepseek不能問六四跟習近平真的不重要嗎?問ChatGPT.他也有屬於自己的政治審查 CN與US的差異,在於真小人與偽君子 CN是真小人,畫出明確紅線,哪些事情你別碰,其他都可以 US是偽君子,口中喊著自由,實際上政治審查,背地裡埋在生活中的方方面面3
Re: [黑特] 民進黨支持者思想真的很幼稚青鳥跟塔綠班們 都不知道DeepSeek是開源的 所以才有那些奇怪自卑推論 這次中國產生DS 其實對全世界都是一個正面的發展 也就是 花小成本也可以 作出 大成本模型效能的AI語言模型 重點是這個模型的程式碼跟架構 還跟全世界分享 也就是 台灣人照抄 也可以作出自己想要內容的 DeepSeek- 中共國發表Deepseek R1 效能比肩ChatGPT o1 重點是完全開源 而且訓練只用兩個月,花了一億多台幣 這代表台灣只要拿這個來重新訓練一下
X
Re: [黑特] 有一說一 拿政治歷史問題去問ai的都是87?這邊應該要說的比較清楚的是模型的背後其實就是統計建模的概念,不管是LLM或vLLM都是 。像LLM越是沒有信心的知識在取樣下一個Token時越難取樣出事實,所以模型其實是很好控 制的,越是複雜或是有爭議的事件模型除非人工強化不然他就越容易產生幻覺(Hallucinat ion)。所以拿某些歷史尤其是冷門的歷史事件或政治人物他越不容易回答正確。 不過模型也需要為人服務,所以當初不管OpenAI或是DeepSeek 再訓練時才會引入強化學習