Re: [問卦] Deepseek為什麼光速過氣?
※ 引述《markban (馬克白)》之銘言:
: 看安卓商店deepseek下載數卡在谷底
: 現在也沒什麼人講deepseek
: 講到ai不是馬斯克的grok3
: 就是傳統的chatgpt
: 是什麼讓deepseek光速過氣
: 你各位中國人怎麼說==
deepseek是開源離線模型
不需要他們的服務
一台33萬台幣的mac就能在家自己跑接近chatgpt的效果
有點基礎的還能串接api做更多事,這才是ds真正的價值
meta會放出倒退的llama4 應該也是被嚇到自亂陣腳了
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.227.208.154 (臺灣)
※ PTT 網址
推
大的模型還在訓練的樣子先釋出蒸餾的?
DeepSeek-V3-0324是完整的新非思考模型 很早就放出來了 一樣單台mac可跑量化版本 效果也是很強
※ 編輯: tetani (61.227.208.154 臺灣), 04/11/2025 14:57:55推
感覺QWQ的進展造成的可能性更大一些(?
噓
跑是跑得起來 但蠢到爆 錯誤百出 又慢死
推
是說llama4啦 可能跑分跟開源是不同的
推
可是我用原版的DS跟其它廠架的DS來翻譯
→
原版的DS中文語感明顯較好耶
81
首Po看安卓商店deepseek下載數卡在谷底 現在也沒什麼人講deepseek 講到ai不是馬斯克的grok3 就是傳統的chatgpt 是什麼讓deepseek光速過氣![[問卦] Deepseek為什麼光速過氣? [問卦] Deepseek為什麼光速過氣?](https://img.youtube.com/vi/xvwkNdPsI6w/mqdefault.jpg)
7
因為沒有足夠的H100來燒 請參照我一月底的文章 "如果有一個更有效率的架構/模型 假設你拿五千張H100就能做出Deepseek R1" "那些有十萬張的公司就能搞出更屌的東西"![Re: [問卦] Deepseek為什麼光速過氣? Re: [問卦] Deepseek為什麼光速過氣?](https://img.youtube.com/vi/xvwkNdPsI6w/mqdefault.jpg)
5
這個天才IT大臣唐鳳姐姐沒教過你們嗎? deepseek r1大家都下載離線版在家玩了 現在都在想辦法做微調訓練 打算變出自己的deepsick這樣 --3
Deepseek 本來只是為自家量子基金 投入資本是不如Google 微軟 輝達 甚至中國境內百度 阿里巴巴 甚至抖音的母體字節跳動都不如 自開發低成本高效能的R1
38
[問卦] 財經網美說Deepseek開發成本謊報中國AI公司DeepSeek(深度求索)以低晶片數開發出與OpenAI O1相當的新模型,經過查 詢成本降低98%引外界矚目,對此財經網美胡采蘋認為,DeepSeek的母公司「幻方量化」 聲稱,他們是用A800、降速晶片開發,這根本是無從驗證的說法,且Deepseek沒有報上背 後語言模型的成本,開發成本必然是謊報的。 但deepseek成本降98%指的根本不是開發成本![[問卦] 財經網美說Deepseek開發成本謊報 [問卦] 財經網美說Deepseek開發成本謊報](https://img.ltn.com.tw/Upload/business/page/800/2025/01/27/phpUGAksb.jpg)
20
[討論] deepseek是怎樣偷chatgpt?大家都知道 有人去問deepseek你是什麼模型 結果他說它是chatgpt 所以deepseek 是一開始就抄chatgpt的開源資料![[討論] deepseek是怎樣偷chatgpt? [討論] deepseek是怎樣偷chatgpt?](https://i.imgur.com/kB8Vbbyb.jpeg)
20
Re: [問卦] 為什麼deepseek會影響台積電 不懂?DeepSeek厲害的地方不是他便宜,不是他厲害,最重要的地方是他開源。 他的原始碼開源,權重開源(資料沒有開源),而且開放商業授權,他的 原始碼是MIT授權,權重則是基於OpenRail的特殊開源架構,也就是只有 一些特別場合他沒有授權,例如製造有害軟體,製造毒品等等 簡單來說你現在馬上就可以在你的電腦,你的公司使用了,你只要用很普12
Re: [情報] 中國5090 DeepSeek 大模型一體機需求爆發沒辦法,算是錯誤的供需市場吧 應該是Deepseek運用高效算力提供便宜的API給民用商用需求 結果API也不便宜,網頁版本還時常不可用跟言論審查 大幅加速中國本地推理需求,畢竟這是目前開源的推理模型 而且對中文圈華語使用者有很道地的中文訓練資料10
Re: [新聞] 公部門禁用DeepSeek 數發部:屬「危害國家我簡單說明一下,禁用DeepSeek AI"服務",也就是包括由DeepSeek提供的API ,網站以及App這還算是合理的,畢竟在他們的使用條款當中,就已經說明會 使用用戶的資料進行訓練或其他利用,這一點在OpenAI等許多提供免費服務的 API端點上,也有同樣的使用條款,甚至META, X, Instgram也都有類似的使用 條款,用了他們的服務,就是要把資料提供給他們的訓練,要不你就不要用。6
Re: [問卦] DeepSeek是真貨,版圖會不會大改?Deepseek真正改變的是讓開源生態系注入了新的活水,過去半年其實大家都是被OpenAI的生 態系越玩越死,新創很怕自己做出的服務馬上就被閉源的chatGPT直接取代,然後要做出服 務還要付出大筆服務費,要自己搭還需要大量計算能力。 但DeepSeek R1直接告訴你要讓語言模型有推理能力根本不需要真的做大,要訓練推理能力 也不需要讓人去轉出人類的思考過程(TTT模式),直接拿好的基礎我們去蒸餾再去給他環3
Re: [問卦] deepseek 到底是不是抄的 風向好亂Deepseek AI的訓練過程確實有用到蒸餾技術 蒸餾技術,就是在前人製造AI(例如chatgpt)的基礎上, 拿別人AI的回答當作訓練自己AI的材料 這種作法雖然有點像抄襲他人AI的能力,但在學術界已經是行之有年的做法 各國很多頂尖實驗室都用過這種方法訓練自己的AI1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平
Re: [閒聊] Deepseek的角色扮演Deepseek目前是有同時釋出開源模型(權重、Code、訓練模型的方法報告都開源)的,走跟 llama一樣的路線,所以理論上只要GPU卡夠你就可以建一個完全一樣的環境包含重新微調模 型讓DeepSeek 做瑟瑟的事情跟串接對話還有Agent去執行任務。 目前初步測試繁中能力真的屌打一堆拿喇嘛微調的台灣llama模型,重點是MoE的架構可以很 省GPU(如果是llama同精度需要32張H100卡才能佈起來)。其實這次比較新釋出的是他的R1
Re: [討論] 廖先翔:為什麼禁deepseek不禁google fb?→ EvilSD: 因為地端版不用聯網呀 就是在local端設置 114.137.249.234 03/13 13:58 推 lookjason: 台灣第一瞎立委 腦袋都是支那的形狀 42.74.117.213 03/13 13:58 → EvilSD: 看來只剩廖有唸書 樓上的大多都不懂吧 114.137.249.234 03/13 13:59 這樣就叫做有讀書?太好笑了,來我就只 講一個最簡單的邏輯,所謂地端版講白話