Re: [問卦] DeepSeek成本這麽低的原因是啥?
※ 引述《app325 (艾波)》之銘言:
: Deepseek 橫空出世
: 應該讓大家都嚇了一跳
: 程式碼是開源的
: 有高手看的出來訓練成本這麼低的原因是啥嗎?
因為DeepSeek本質上是優化,而不是從頭幹一個LLM。
他是拿Meta的開源模型當基底,然後用OpenAI去產訓練資料,
再加上創新的Fine Tuning技巧去進行優化的,
並不是真的用5%的成本跟算力就可以完成OpenAI走過的路徑。
的確DeepSeek(以及近期中國各家公司爭先恐後發表的模型)模型上提出了創新的方法
但絕對不是全面的輾壓或者一騎絕塵,更像是....
告訴美國,你他媽的封鎖我算力,我還是辦法繞過去幹到差不多的事情啦!!!
但即使做到這種程度,也只能說在這階段沒有輸,
要再往下走到AGI,沒有算力還是不行的,除非中國先把量子電腦真正的商用化。
--
中國要做出核融合以後電都免費力大磚飛
山寨啊
正確
現在沒有核融合,阿共能源產量跟成本
也是贏過世界其他國家
目前科技離AGI還太遙遠,甚至核融
合都可能比AGI還早,因此中國有大
把的時間能應付:先把AI殺成廉價的
紅海,失去成本優勢的歐美,能投入
研究的資金就減少了。
中共的特高壓直流世界第一 發電成本
低到哭爸
以歷史來講能真正做到商業化並取得
領先模式基本都是中國,像是線上購
物跟集運模式,我在美國讀大學時期
包含教授認為美國一定是領先者(199
9年)結果是日本先取得成功,之後中
國,美國那個貨運效率喔是真的差,
包括無人機戰術,烏克蘭軍人發現只
要用大 疆無人機在空中丟飛彈可以直
接炸死俄士兵,俄軍人也仿效,現在
只不過是看歷史重演而已,包括無人
計程車,在武漢已經是周街跑了,在
美國加州還是一堆人擔心有安全疑慮
野路子硬幹就對了
而且未來中國就會有自己的晶片,到
時算力也不是問題,我們在看未來都
會忽視一個問題,就是成本,以羅福
莉這種帶頭的資深語言設計師傳說的
年薪為250萬 RMB 在美國加股票每年
至少都是5百萬美金起
Open AI一個月收20多美金一堆人就嫌
貴,更不要講後面模型至少要收一個
月200美金還不知道何時回本
ChatGPT 在一夜之間喪失議價權
說的比唱的容易真的有用過嗎
OpenAI最大問題直直接爆炸,就是沒有盈利的
商業模式,只靠奧特曼到處吹到處募資,現在
大家發現以後會被卷爆,自然就減少投錢的意
願了
一個是chat一個是deep
正確,podcasts都是說少估成本以及批評
美國股市的脆弱XD
就偷啊
呵呵塔綠
可能被偷的寶貝都沒拿出來小偷真有眼光
抄襲者:我們沒有輸
原來是靠Yo叔的繞過去
很懂
AI目前就是學習用 互相學習不是正常嗎
力大飛轉 14奈米硬幹有可能嗎?
你作者喔,不然你怎麼知道怎麼幹
拿別人的ai當養分都操別人的自己當然省
量子也只是特化的加速器 很難作通用
大陸內卷很厲害,只要讓他偷到技術馬上
推出一堆低成本替代品
能降低成本及算力設備需求,這是缺點
像台灣costdown 壓榨人力,商品賣本
國盤子,創造高利潤,這才是優點
40
首PoDeepseek 橫空出世 應該讓大家都嚇了一跳 程式碼是開源的 有高手看的出來訓練成本這麼低的原因是啥嗎? --10
目前的推測應該是跳過了訓練模型的部分 也就是說不是從0開始構築AI模型,而是用成熟的AI模型來訓練,避免掉很多無謂的試錯 或空轉,也就是之前新聞在說的「蒸餾技術」 AI 系統中的 「蒸餾技術」(Knowledge Distillation,知識蒸餾),是一種 模型壓縮 (Model Compression) 方法,主要用來讓較小的模型學習較大模型的知識,同時保持高10
分兩個部分來說, ——————————————— 第一個部分是澄清: DeepSeek 是微調別人做的基本模型。 比如臉書 meta 花數千萬美金或上億美金做出模型 llama.4
Hi 可否問一下比較不專業的問題 1. 大致照你這邊提到的部份 那麼Deepseek 主要省訓練成本的部份 主要是跳過SFT(或著也許 還有其它步驟)的這個作法 而不是像一些報導說的 直接"蒸餾"ChatGPT"(直接用ChatGPT的問答訓練一個較小模型)6
沒有錯, 成本除了 “訓練微調出模型”,還有”應用時推論營運成本” 1. 訓練主要跳過 SFT, 2. 推論營運的成本就是雲端假設大家的應用成本,也同時帶動本地假設的可能。 所以我 Mac M2 Max,有 64GB ram,跑 DS 70B 速度還不錯,30B 完全舒服。
爆
[爆卦] 數發部次長造謠Deepseek成本不只550萬鎂補充:數發部次長刪留言了 懶人包: 某位財經網美發文說deepseek 就是騙局,而且根本是抄襲的次等chatGPT 底下數發部次長(林X敬)留言表示他們2048片H800根本不只這個錢,但是被打臉了(已刪 留言)38
[問卦] 財經網美說Deepseek開發成本謊報中國AI公司DeepSeek(深度求索)以低晶片數開發出與OpenAI O1相當的新模型,經過查 詢成本降低98%引外界矚目,對此財經網美胡采蘋認為,DeepSeek的母公司「幻方量化」 聲稱,他們是用A800、降速晶片開發,這根本是無從驗證的說法,且Deepseek沒有報上背 後語言模型的成本,開發成本必然是謊報的。 但deepseek成本降98%指的根本不是開發成本47
[討論] Deepseek就之前吹過頭了呀 XD來看看DEEPSEEK之前怎麼吹的 「DeepSeek R1的問世,宣告AI訓練與推理成本大幅縮減,在不到600萬美元的極低投入成本 和2048塊性能遠低於H100與Blackwell的H800芯片條件下,DeepSeek團隊打造出性能堪比Ope nAI o1的開源AI模型,相比之下Anthropic與OpenAI訓練成本高達10億美元。該模型每百萬 個token的查詢成本僅爲0.14美元,而OpenAI的成本爲7.50美元,成本降幅高達驚人的98%。31
[請益] OpenAI的敵人難道只有一個DeepSeek嗎?前幾天的美股真實上演狼來了,嚇得投資人四處逃竄 昨天開始各家執行長靠大內宣穩住士氣。 搞得像邪教(信仰)一樣,還讓人一度以為是佈道大會。 DeepSeek的出現,是不是足以能構成OpenAI的威脅這一點 跟它的性能(算法)跟成本(算力)好壞已然無關。20
Re: [問卦] 為什麼deepseek會影響台積電 不懂?DeepSeek厲害的地方不是他便宜,不是他厲害,最重要的地方是他開源。 他的原始碼開源,權重開源(資料沒有開源),而且開放商業授權,他的 原始碼是MIT授權,權重則是基於OpenRail的特殊開源架構,也就是只有 一些特別場合他沒有授權,例如製造有害軟體,製造毒品等等 簡單來說你現在馬上就可以在你的電腦,你的公司使用了,你只要用很普12
Re: [討論] 其實Deepseek真的很厲害了DeepSeek可以下載到自己電腦跑、ChatGPT不行, 這在商業使用的場景上就有蠻大的差異 昨天很多人在傳說用(線上版)的DeepSeek會把資料傳給中國,這當然是對的, 但過去一兩年我們幫客戶評估AI專案時, 在串GPT-API上常常會碰到我們或我們的客戶其實也不想把資料傳給OpenAI,11
Re: [心得] DeepSeek將是刺破本輪泡沫的那根釘子DeepSeek其實真正的創新在model的高效設計,其真正的關鍵在efficient MOE還有MLA設計 這其實是2024年初DeepSeek V2就發表的東西 R1是把這個高效model設計+O1推理模型的LLM+RL合併出來的效應 我覺得歐美廠商因為本錢大所以忽略了降本增效的飛輪效應,所以第二個推理模型反而是中 國公司出圈了,推理模型的Test Time Compute對模型效率的敏感性就非常強烈了,訓練中8
Re: [新聞] DeepSeek暴紅不單純?OpenAI質疑中國對openai只有開源好幾年前的模型 現在meta google m$ 的開源模型都屌打好幾條街了 用過deepseek的人都知道,deepseek是蒸餾上面那幾個開源模型 況且deepseek也有把自己的模型和程式碼都公布出來 開源的精神不就是這樣嗎?6
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這段一定很多人沒看懂。 正確的說法是,蒸餾可以讓較小的模型(學生)在特定任務上得到比原本的小模型更好, 近似於大模型(教師)的結果。 近似,就不可能比教師模型更好,只會更差。另外由於OpenAI沒有開源,所以這種叫做 黑箱蒸餾。如果可以蒸餾把模型變小可以維持原來的品質,那就一直蒸餾一直蒸餾蒸餾4
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這裡的說法如果是正確的話,那DeepSeek就不是只靠蒸餾來達成的. Scale AI’s 28-Year-Old Billionaire CEO Warns About This Scarily Good Chinese Startup 這個CEO就是指控DeepSeek事實上擁有並使用50000個H100 GPU的人.
爆
[爆卦] 劉靜怡:有人吹起用戒嚴保護民主的法螺爆
[爆卦] 黑熊青鳥:應該開放合法獵殺中配爆
[爆卦] 直播接機亞亞的都被抖音封號了24
[問卦] 幹你娘一直拉水怎麼辦!23
[問卦] Aimer前三首怎麼排21
[問卦] 有一說一 飲食業再漲上去會碰到極限嗎?47
[問卦] 檢察官權力是不是超級大??18
[問卦]去幫烏克蘭打仗陣亡的台灣士兵17
Re: [爆卦] 劉靜怡:有人吹起用戒嚴保護民主的法螺24
[爆卦] 河北地震,北京震感明顯13
[問卦] 這個是所謂的台文嗎?13
[問卦] deepseek v3 0324現在稱霸武林了嗎?8
Re: [問卦] 靠北喔!現在不能當中國人了嗎???8
[問卦] 言論自由的底線是什麼?61
Re: [新聞] 連7年肇事第一名..蔣萬安拍板廢公館圓環:安全最優先12
[問卦] 王心凌9
[問卦] 要去成都出差到端午節要注意啥?10
[問卦] 有一說一 用枴仗當武器的角色你能想到誰?10
[問卦] 廢死,但是可以槍斃不服命令的軍人?13
[問卦] 為啥有個陰毛頭一直自稱前幕僚?8
[問卦] 缺工為什麼不用 AI28
[問卦] 張韶涵有什麼好聽的歌?8
[問卦] 這種免洗塑膠湯匙根本凶器吧?9
[問卦] 全聯店員結帳還要推銷PXpay全支付喔?6
[問卦] 亞亞 +0 yuki 三選一9
[問卦] 北檢 除了查a片還會幹嘛?9
[問卦] 為什麼有人喜歡餵流浪貓?21
[問卦] 鯖魚/虱目魚/鱸魚並列CP王?45
[問卦] 窮人要怎麼翻身啊 讀書根本沒屁用16
[問卦] 雞排漲到多少就不敢吃了?