[爆卦] Mistral Small 3模型發布比OpenAI更快更好
Mistral Small 3模型發布 比OpenAI和Google類似產品更快更好
歐洲領先的 人工智慧公司之一 Mistral AI 推出了一款名為 Mistral Small 3 的新模型。這是一個包含 240 億參數的模型,但與 Llama 3.3 70B 和 Qwen 32B 等大型模型相當(至少在 MMLU-Pro 基準測試中)。它不僅運行速度與 Llama 3.3 70B 不相上下,而且速度更快。
ChatGPT 上最常用的模型是 GPT-4o mini,它是使用者用完 GPT-4o 請求後的備用模型
。 Mistral Small 3 的效能比這個 OpenAI 模型更好,據說延遲也更低。
Mistral AI 介紹說:"我們在Apache 2.0 下發布了預訓練和指令調整的檢查點。檢查點可以作為加速進展的強大基礎。需要注意的是Mistral Small 3 既未使用RL 也未使用合成資料進行訓練,因此與Deepseek R1(一項偉大而互補的開源技術!)等模型相比,它在模型製作流程中處於較早階段。採用和定制它。
作為一個偏小型的模型,如果你的電腦配置較高,也有可能在自己的電腦上本地運行它
。 Mistral AI 表示,它可以在單塊NVIDIA RTX 4090 顯示卡或配備 32GB 記憶體的
MacBook 上運行。
雖然該機型在 MMLU-Pro 基準測試中的表現優於上述其他機型,但它並不總是人類評估人員的首選。 Mistral 在一組超過 1k 的專有編碼和通用提示中將其模型與其他模型進行了比較。研究發現,與 Gemma-2 27B 和 Qwen-32B 相比,Mistral Small 3 是首選方案,但與 Llama 3.3 70B 和 GPT-4o mini 相比,Mistral Small 3 的首選度較低。
--
一堆人照抄就好
三小啦!呵呵!
AI開源三本柱之一
法國人做的 只是才剛開始
而且還不能生成圖片 但是可寫程式
腦殘無能造謠雙標雜種人渣垃圾民進黨
如果是生湯婆婆那種圖片的Ai,我寧願人類
從未發明
樓上它不是有個生圖按鈕嗎?
john大
法國 上次才失敗一個由國家支持投入政
府預算資金的 Lucie而已
遲早會被唐鳳攻破不用怕啦
歐洲總不會不給問六四吧 需要攻嗎
給問納粹嗎?
反觀鬼島
鬼島忙著花幾百億預算大內宣殺豬公呢
難怪拿錢的甚麼話都敢講
20
Re: [問卦] 為什麼deepseek會影響台積電 不懂?DeepSeek厲害的地方不是他便宜,不是他厲害,最重要的地方是他開源。 他的原始碼開源,權重開源(資料沒有開源),而且開放商業授權,他的 原始碼是MIT授權,權重則是基於OpenRail的特殊開源架構,也就是只有 一些特別場合他沒有授權,例如製造有害軟體,製造毒品等等 簡單來說你現在馬上就可以在你的電腦,你的公司使用了,你只要用很普6
[情報] 微軟, META合作 Llama2上 Azure1. 標題: 微軟與META擴大他們的AI合作關係,讓Llama 2上Azure以及 windows 2. 來源: 微軟公司 3. 網址:![[情報] 微軟, META合作 Llama2上 Azure [情報] 微軟, META合作 Llama2上 Azure](https://blogs.microsoft.com/wp-content/uploads/prod/2023/07/1920x1080-META-OMB-Llama-2-Image-002-1024x576.png)
1
[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是![[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣 [問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣](https://i.imgur.com/jY9j0u3b.jpg)
4
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據這裡的說法如果是正確的話,那DeepSeek就不是只靠蒸餾來達成的. Scale AI’s 28-Year-Old Billionaire CEO Warns About This Scarily Good Chinese Startup 這個CEO就是指控DeepSeek事實上擁有並使用50000個H100 GPU的人.![Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據 Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據](https://observer.com/wp-content/uploads/sites/2/2025/01/GettyImages-1540568234.jpg?quality=80)
3
[問卦] meta、mistral接下來怎麼辦?Deepseek, Meta , Mistral 目前的開源AI LLM三本柱DMM 而且還分別代表美、歐、中三地的開源ai領頭羊 目前焦點都在deepseek了 mistral接下來想要擴點亞洲3
Re: [新聞] 雷蒙多態度髮夾彎 允輝達向中國出售AI晶這是最近幾天TSLA那邊AI晶片訊息 現在看來就是NVDA+AMD會繼續有機會在AI晶片市場拉一波 最近另外一個比較紅的新聞是 Mistral AI小公司開發的LLM模型吸引不少人 而Misral AI是用CoreWeave租借算力 開發出來的大模型 這些小公司能靠租算力媲美大公司發展的模型![Re: [新聞] 雷蒙多態度髮夾彎 允輝達向中國出售AI晶 Re: [新聞] 雷蒙多態度髮夾彎 允輝達向中國出售AI晶](https://img.technews.tw/wp-content/uploads/2023/12/11095228/Ganesh-Venkataramanan-.jpg)
Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據我先講我非AI專業 但這件事情基本就是鬼扯 甚麼叫做利用O1蒸餾出R1 你要用API抓多少資訊量跟TOKEN才做得出來 然後這件事情OPENAI還會不知道?X
Re: [黑特] 有一說一 拿政治歷史問題去問ai的都是87?這邊應該要說的比較清楚的是模型的背後其實就是統計建模的概念,不管是LLM或vLLM都是 。像LLM越是沒有信心的知識在取樣下一個Token時越難取樣出事實,所以模型其實是很好控 制的,越是複雜或是有爭議的事件模型除非人工強化不然他就越容易產生幻覺(Hallucinat ion)。所以拿某些歷史尤其是冷門的歷史事件或政治人物他越不容易回答正確。 不過模型也需要為人服務,所以當初不管OpenAI或是DeepSeek 再訓練時才會引入強化學習1
Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷前文恕刪 : 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100 : 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。 這比法很不公平
Re: [閒聊] Deepseek的角色扮演Deepseek目前是有同時釋出開源模型(權重、Code、訓練模型的方法報告都開源)的,走跟 llama一樣的路線,所以理論上只要GPU卡夠你就可以建一個完全一樣的環境包含重新微調模 型讓DeepSeek 做瑟瑟的事情跟串接對話還有Agent去執行任務。 目前初步測試繁中能力真的屌打一堆拿喇嘛微調的台灣llama模型,重點是MoE的架構可以很 省GPU(如果是llama同精度需要32張H100卡才能佈起來)。其實這次比較新釋出的是他的R1
37
[問卦] 台女:性騷擾本來就是我來定義![[問卦] 台女:性騷擾本來就是我來定義 [問卦] 台女:性騷擾本來就是我來定義](https://i.mopix.cc/NRU3Hs.jpg)
27
[問卦] 8歲小朋友霸凌案,教會了我們什麼?0.020
[問卦] 穿越異世界的始袓?14
[問卦] K董張國煒FB一直找我談投資 該答應嗎13
[問卦] 八歲賴兒如此勁爆 四叉貓怎麼沒去肉搜?![[問卦] 八歲賴兒如此勁爆 四叉貓怎麼沒去肉搜? [問卦] 八歲賴兒如此勁爆 四叉貓怎麼沒去肉搜?](https://i.imgur.com/ANeaGhqb.gif)
13
[問卦] 週末了一人po一張奶子圖啦![[問卦] 週末了一人po一張奶子圖啦 [問卦] 週末了一人po一張奶子圖啦](https://i.imgur.com/HZttOLIb.jpeg)
12
[問卦] 20年前五百萬可以買什麼等級的房子?5
[問卦] Dcard彩虹 #第一次3P 我還是唯一的受= =8
[問卦] 為啥中國的短影音可以紅到國外 台灣不行2
[問卦] 台灣詐騙為什麼抓不到源頭?![[問卦] 台灣詐騙為什麼抓不到源頭? [問卦] 台灣詐騙為什麼抓不到源頭?](https://i.imgur.com/vip2ESDb.jpeg)
6
[問卦] 家戶收入多少算中產?7
[問卦] 打詐措施,好像都在懲罰人民?7
[問卦] 廚餘丟一般垃圾 有罪惡感 怎麼辦?7
[問卦] 股票這陣子賠錢的很少嗎?7
[問卦] 說什麼傷害民主 就有人說中共更怎樣的邏5
[問卦] 當攝影師水準都那麼低嗎?6
[問卦] 信號2是不是要沒了==5
[問卦] 從8歲官二代,我了解為何要剝奪教師管4
[問卦] 高雄捷運延伸郊區用地下化是世界奇觀嗎6
[問卦] 幹于朦朧跟八歲堵門霸凌哪官二更看不起6
[問卦] 動物方城市會紅484代表獸控很多?![[問卦] 動物方城市會紅484代表獸控很多? [問卦] 動物方城市會紅484代表獸控很多?](https://i.mopix.cc/318qmp.jpg)
3
[爆卦] 小紅書真正好的的點5
[問卦] 公務人員記過考績還是甲的機率有多高?![[問卦] 公務人員記過考績還是甲的機率有多高? [問卦] 公務人員記過考績還是甲的機率有多高?](https://i.imgur.com/ehBJ9qnb.jpeg)
4
[問卦] 離岸風電又在大裁員喔?![[問卦] 離岸風電又在大裁員喔? [問卦] 離岸風電又在大裁員喔?](https://i.imgur.com/6gqXClzb.png)
2
[問卦] 如果你小孩是霸凌王要怎辦4
[問卦] 慟!! 田川洋行享壽75歲![[問卦] 慟!! 田川洋行享壽75歲 [問卦] 慟!! 田川洋行享壽75歲](https://img.youtube.com/vi/EQpducdRohI/mqdefault.jpg)
3
Re: [問卦] 家戶收入多少算中產?4
[問卦] 朋友:32:0讓對方更囂張!下次一定大成3
Re: [新聞] 快訊/8歲兒子霸凌同學惹議 賴瑞隆自責3
[問卦] 朋友喜歡踢足球 有前途嗎?