Re: [請益] 請問版上有學習過AI的前輩嗎?
看你想走應用還是理論面,應用面如果只是你有一個ideal想做,務實一點就是找個閉源或開源的LLM(vLLM)架起來,Prompting調一調大部分能力可能都比你傳統模型來的好太多了。
如果是應用想做深一點之類的,大概就大金->李沐那些聽一聽,想再涉及ML一點就吳恩達->軒田。
如果還想要再深一點就需要涉及理論數學知識而且這時候就分面向了。
模型的部分數學會佔更重,尤其是線性代數,最多再一點點機統跟最佳化理論,現代的DL其實反而不會太強調很硬的統計或非凸最佳化,大多假設DL在自監督後天然的就從海量數據中提取了某些自然分佈。除非你真的有興趣到爆就可以往DL的最核心基礎理論邁進,那還會需要一些消息論去探討模型壓縮跟模型內部學習時候的非凸優化轉換(high entropy 跟low entropy LLM 可能會是一個很有趣的問題)。
如果是想就業的話,我自己會覺得接下來比較熱門的面向就是GPU optimization跟LLMOps,前者主要就是要非常懂GPU計算底層,包含如何實作GPU併行,可能同事有基礎的LLM模型你要把這個prototype implement進某些極端Edge的環境,後者就涉及分散式伺服器架構如何架構帶有GPU群集的分散式server用來做training跟inference,雖然說離核心LLM/DL理論很遠,但我認為是就業市場未來最穩的。
這邊補充一下,很多人覺得AI要很硬的數學才能發Paper,但是從去年ICLR的一些收錄文章看其實現在不少Multi Agent的應用類,關鍵在於你有很好的智能體實作想法,然後再理論系統性的描述做消融實驗。這些不見得涉及數學知識,就是要去研究能有什麼方式系統性的開發智能體。
差不多4醬
--
※ 編輯: sxy67230 (101.12.113.87 臺灣), 08/06/2025 08:18:18
※ 編輯: sxy67230 (101.12.113.87 臺灣), 08/06/2025 08:19:01
我覺得你找個靠普的LLM模型前面架RAG
企業內部用的大概就是這樣而已了
再往下走都比較離實際應用較遠的了
企業應用就prompt 頂多再加上RAG 夠了~
Fine tune 資料量要夠大,而且會有抗
拒對齊的問題
Full pretrain 就真的建議少考慮了,
那個算力還有資料量不是一般公司吃得下
去
更正Lora fine tune
模型不是問題!問題是資料要怎麼整理?
不是有RAG就好,都是鬼話連篇!要把資
料分類,有些用向量資料庫,有些用向量
SQL….
同意樓上,真的RAG之前要先把資料整理
清理好
79
Re: R: [請益] 為什麼中國越來越強?怎抹這邊突然變AI版 =_= DeepSeek 有件事情幹得比矽谷好 就是AI Backend 優化(這玩意就是需要懂架構 和軟體 就是一個苦力枯燥活) 大體而言 在A100架構以前 大部分訓練都還是用fp32 少數模型對精度不敏感會用到fp16 (浮點16進位)主因是用16進位去訓練 精度不夠 容易模型崩潰 尤其用P100的fp1636
[爆卦] OpenAI專家:大模型夠證明黎曼猜想知名理論計算機科學機構Simons Institute舉辦辯論: "目前基於縮放定律的LLM,能否在未來幾年內產生可以解決重大數學難題(如P≠NP、 黎曼猜想)的證明技術?" 正方OpenAI科學家Sebastien Bubeck表示![[爆卦] OpenAI專家:大模型夠證明黎曼猜想 [爆卦] OpenAI專家:大模型夠證明黎曼猜想](https://i.ytimg.com/vi/H3TnTxVKIOQ/maxresdefault.jpg?sqp=-oaymwEmCIAKENAF8quKqQMa8AEB-AH-CYAC0AWKAgwIABABGGUgZShlMA8=&rs=AOn4CLDSE54aWoF6O7D8cv3a_D7ocUA6sg)
29
Re: [討論] OpenAI GPT o1模型OpenAI 最近推出了 GPT-o1,但很多人可能還沒意識到這件事的嚴重性。事實上,OpenAI 已經找到了一條通往 AGI(通用人工智慧)的階梯!這個新模型的關鍵在於,它已經整合了 ToT(思維樹)和 RL(強化學習),在大型語言模型(LLM)領域達到了類似 AlphaGo Zer o 的水準。 很多人以為 LLM 就是個「刷題機器」,記住了大量的資料,所以我們在人類記憶力上輸了![Re: [討論] OpenAI GPT o1模型 Re: [討論] OpenAI GPT o1模型](https://i.ytimg.com/vi/eaAonE58sLU/sddefault.jpg)
22
Re: [新聞] DeepSeek顛覆AI產業模式!曝中國2大發展LLM經過這三年發展已展現其潛力,但也陷入(公開)知識枯竭造成的瓶頸 網路爬蟲能抓的都已訓練完 AI模型如還需增加功力,只能望向各家機構(公司)的商業祕密 比如DS團隊使用低階語言PTX來增加GPU計算效率 此部分的知識儲備,據說來自母公司幻化量方過往最佳化量化交易模型的經驗12
Re: [情報] 情報數則其實也不知道怎麼說明,再不講得太深入又能夠很簡白地說 真的蠻難的,我就大概點到一些點,然後開頭直接下個結論吧 美國想阻止的是中國透過AI完成強人工智慧,或是通用型的AI 有點類似現在目前的ChapGPT進化的最終版 但如果要阻止中國完成區域性或是弱人工智慧已經不可能了13
[情報] 挑戰Nvidia,AMD收購AI優化軟體新創業者B挑戰Nvidia,AMD收購AI優化軟體新創業者Brium 文/林妍溱 | 2025-06-05發表 AMD宣布收購AI推論優化技術業者Brium,以協助LLM在AMD等非Nvidia硬體架構上的推論效能。 Brium產品涵括的組譯器技術、模型執行框架及完整的AI推論最佳化技術,其方案旨在提升多種硬體架構上大型語言模型(LLM)的推論效率。AMD解釋,Brium技術特別之處在於它能優化模型接觸到硬體前的整個技術堆疊,有助於減少對特定硬體配置的依賴,而能在更多元環境上,實現更快的AI應用。 AMD表示,Brium的收購有助於提升該公司硬體平臺的效率和彈性。而Brium的收購連同AMD之前收購的Silo AI、Nod.ai及Mipsology,可強化該公司執行開源軟體生態系的能力。![[情報] 挑戰Nvidia,AMD收購AI優化軟體新創業者B [情報] 挑戰Nvidia,AMD收購AI優化軟體新創業者B](https://s4.itho.me/sites/default/files/field/image/0605-amd-qing_jing_-shi_yi_-guan_fang_tu_pian_-960.jpg)
9
Re: [討論] DeepSeek消息的三大誤區小弟是擔任10年資歷以上的韌體工程師,所以對於這討論很有感: 我剛好也學過一點AI CUDA等東西,那我會把PTX跟CUDA做以下的類比 CUDA: C++ Python等高階語言 PTX: 組合語言 我以前在學組合語言的時候就發現,組合語言開發出來的程式就會比c++小很多,4
[問卦] AI推理 LPU會打扒GPU嗎groq的語言模型推理 從硬體架構上就針對語言模型最佳化 號稱比GPU快10倍 是否可能把GPU打趴 讓GPU回去做他該做的事(遊戲 生圖等等)? --
Re: [請益] 想從零開始轉行當AI軟體工程師我認為要先釐清楚一點,要做AI的模型並非只能透過Python, 大家都用Python原因在於AI套件都已經由國外的大神做好了, 甚至有些套件都事先訓練好資料,提供weight檔案,可以直接使用應用在某些專案, 若只是要用這些AI套件,使用Python非常方便 Python的優點: