Re: [請益] Deepseek v3 對台積電有影響嗎
我覺得評比指標什麼都是後話
使用體驗太差
https://i.meee.com.tw/CafPIov.png
你的進線參數與資料量就比別人少了,
雖然不是一個主要因素,就deepseek就是在數據上有篩選過,
你要跟人比,好歹訓練資料要在同一起跑點上吧。
不過中國人常作弊,可能搞不懂什麼叫做同一起跑點。
更何況deepseek使用MoE的模型
MoE稀疏模型成本本來就比一般模型密度低
這邊怕你看不懂,
就是一個禿頭的人跟髮量正常的人說,嘿嘿我們都有頭髮耶,你懂這個意思嗎?
股點就是,如果美國未來持續加嚴對中國的科技限制,
不要以為拿RTX 顯卡來訓練Model這件事不會發生,
大膽一點想,會不會又爆發缺卡潮?
※ 引述《icrose (人本良心)》之銘言:
: deepseek在多語言編程指標中有自己的優異表現,很多指標優於chatgpt,最好是偷偷調用別人的API啦
: Codeforce領先所有模型,思維鏈的應用上,諸如數學能力的 AIME 2024 CNMO 2024測試也是領先全球的
: 而且已經可以本地部署測試,成本降低是可見的,原理也是業界認可的
: 你以爲這兩個小例子能推翻什麽嗎XD
: 由於低成本和硬件限制,有缺陷是非常有可能的,但是只要原理通,未來非常可期。
: ※ 引述《jackliao1990 (j)》之銘言:
: : 沒想到吹沒多久
: : 當問DeepSeek-V3:"你是什麼模型"
: : DeepSeek-V3竟然回答:"我是chatgpt"
: : https://imgur.com/wcgo1TC
: : 叫它講個笑話
: : 它講的笑話也跟ChatGPT一樣:
: : https://imgur.com/Zo1PKXw
: : 難道DeepSeek-V3訓練成本這麼低是因為用chatgpt訓練的??
: : Sam altman迅速發推嘲諷:
: : https://x.com/sama/status/1872664379608727589
: : "複製你知道有效的東西是(相對)容易的。"
--
moe類似姆斯,訂製賽道之神
做不到通用,誰管你ai星海多強圍棋多厲害
他們會串mac mini
它應該不是篩選輸入資料,而是針對輸出過濾
你這問題問的有夠政治
等別人都做出來,轟動世界。再說這個我也會,早就會
。
你這問題太粗暴了
噓問題問的政治 但這模型受限於政治因素導致輸入輸
出的資料被篩選過 這種模型訓練出來就只會是垃圾而
已啊
它可能知道答案,但被屏蔽關鍵字阿.這不代表它差.
GIGO其他不用多說
41
首Poom 中國展示了他們的新模型 重點在它極低的成本 好奇這樣是不是代表科技巨頭們不需要這麼多晶片?2X
2024是韓國經濟20年最差的時間點 但很快人們發現,2024也會是台灣半導體的頂點 成熟製程的後路已經斷了,中國機器狗落地上的的優異表現和deepseek的出現,都是對OPENAI-NV-TSM的重擊 應用優勢不在美方,新的算法改進造成算力需求驟降的風險隨時發生,舊的算法如果固定化NV通用GPU又要受asic的衝擊 sora恬不知恥的商用化,但是顯然沒有任何實質進展,細部動作仍然很難看,但是爲了撐股價也匆匆丟出來3
的確會讓人好奇DeepSeek-V3的訓練方式, 但成本降低如此之多,另外一個思考點,是不是除了科技巨頭外, 更多公司願意投入資本支出來建立自己的模型? 而且隨著技術發展,模型建立的成本一定會快速下降。 DeepSeek-V3比較的 Claude.ai/Qwen2.5/LLaMA3.19
沒想到吹沒多久 當問DeepSeek-V3:"你是什麼模型" DeepSeek-V3竟然回答:"我是chatgpt"1X
deepseek在多語言編程指標中有自己的優異表現,很多指標優於chatgpt,最好是偷偷調用別人的API啦 Codeforce領先所有模型,思維鏈的應用上,諸如數學能力的 AIME 2024 CNMO 2024測試也是領先全球的 而且已經可以本地部署測試,成本降低是可見的,原理也是業界認可的 你以爲這兩個小例子能推翻什麽嗎XD 由於低成本和硬件限制,有缺陷是非常有可能的,但是只要原理通,未來非常可期。
40
Re: [外絮] 用機器學習模型預測MVP得主大略看了一下原文 提供我的一點淺見 首先 使用機器學習處理問題 是假設實際存在一個真實的模型35
Re: [請益] AI到底是遇到什麼問題?雖然這版是投資版,但是我覺得技術問題,還是先跟投資切開來比較好一點。 昨天還是前天也在八卦回了一篇,內容應該差不多。 這篇可盡可能精準一點。 首先呢,AI這個領域的底層,就是計算大家都已經知道了。 這幾年分析師說爛的LLM,全名是大型語言模型,基本上最基本款是利用X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。10
Re: [問卦] 美股大跌 股版怎麼無聲無息大概就是,如果中東全面戰爭,油價會漲 油價漲通膨繼續,沒得降息。 川普如果上,通膨也會繼續,因為他是走貿易孤立主義。 製造要搬回美國,成本上升。 AI慢慢退潮中,理想很豐滿,現實很骨感,infra貴,訂閱現金流沒有多少長進。7
[爆卦] 尷尬 支那大模型Deepseek v3自稱chatgpt支那AI公司DeepSeek三天前推出DeepSeek-V3 該公司公布的性能可匹敵GPT-4o以及Claude-3.5-Sonnet DeepSeek-V3用2個月訓練2048個GPU只花588萬美元 遠低於GPT-4o約1億美元 粉紅五毛藉此嘲諷美帝封鎖高階晶片也無法阻止支那AI
29
[標的] 高股息選0056最簡單?44
Re: [請益] 台股高點是不是到了57
[心得] 大學生奈米資定期定額年報18
Re: [新聞] 台積電售價過高 傳輝達、高通轉向三星2奈14
[心得] 2003~2024台股大盤報酬率14
[心得] 生涯報酬率(滿9.5年)16
Re: [新聞] 林毅夫:陸2025年跨進高收入門檻12
[心得] 2024年報分享32
[心得] 台股前七大權值與大盤年度漲幅7
[心得] 2024年報8
Re: [新聞] 台積電售價過高 傳輝達、高通轉向三星2奈8
[情報] 00881配息公告0.75元4
[創作] 為債而活(為你而活)10
[心得]「小散戶年報心得(檢討)文」2
[心得] 債蛙轉股蛙2024財報