Re: [閒聊] Neuro真的有辦法做到理解圖像嗎
大型語言模型本質上是文字接龍
你說的話會通過tokenizer切成很多token後餵給模型 讓他預測下一個機率最高的字
當input是圖像時 你需要用一個資訊壓縮模型 把圖也壓成一串token
接下來做的事情就一樣了 把這串濃縮feature token餵給模型
搭配你說的其他話 來預測下一個字 重複到出現一個完整的回答為止
input是圖像時的難點是那個資訊壓縮模型
一般來說 這種模型是透過海量的圖片-文字描述pair訓練而成
例如 一張拆彈遊戲的圖片 和一段文字"這張圖裡包含了一張桌子 一個炸彈 顏色..."
但除了圖片解析度有限以外 文字畢竟是一維資訊 難以精準描述二維的圖片
頂多你能搭配一些傳統CV的OCR資訊一起餵給語言模型
不然就是要往Gemini這種原生多模態模型
或甚至擺脫文字接龍框架 世界模型方向走
學界有一派覺得語言模型有其極限 這就是其中一個原因
畢竟人類不是只靠文字理解世界
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.213.82.44 (臺灣)
※ PTT 網址
推
看Neuro會玩geoguessr,Vedal應該克服了?
→
他也是想辦法把這些東西串起來吧 這些演算法和模型都不是
→
一個人或一個小團隊能做到的
推
GPT才是文字接龍 但LLM也不止GPT一種
55
Re: [問卦] 中研院自己做的大型語言模型怎麼了?阿肥外商碼農阿肥啦! 昨天晚上都在跟獵人直播來不及趕上大型翻車現場,這邊中午看hugging face hub還 可以進去,但現在已經進不去了。 這邊阿肥就直接說,基本上現在所有中文開源語言模型除了少數像chatGLM這種中國比較 早期做的自己完全從零訓練的語言模型外,大家都是從meta 的llama魔改的,差別在於預34
[閒聊] 驚!看色圖不求人 AI是否也能畫色圖?雖然下了很農場的標題 但這一篇認真的研究論文 大家或許以為AI跟色圖很遙遠 但事實真的是這樣嗎 在一年前可能沒有錯 但經過最近的突飛猛進 故事已經進入了新的轉捩點X
Re: [爆卦] 中央研究院詞庫小組大型語言模型對於LLM只有這一點認知程度的話,最好不要就這樣出來帶風向會比較好,不然先去 跟陽明交大校長先去旁邊先學習一下什麼叫做LLM,不同LLM之間又有什麼差異。 第一個錯誤的認知是認為LLM就應該要提供正確的答案,事實上LLM是一個機率模型, 它所做的事情是基於模型的權重預測下一個token(詞塊)最高的機率是那個,它不是資 料庫,所以你不能因為它答的一個答案不是你所想的就是說這個模型如何如何。9
Re: [新聞] 搶太妍門票僅須4秒!警破獲首宗AI搶票黃牛 逮30歲台大畢阿肥外商碼農阿肥啦! 其實就是使用langchain加上類GPT 3.5-4(當前很多開源的,一張4090就可以運行起來), 透過模型輔助加上langchain可以直接接上Google等搜索引擎或特定網站解鎖語言模型讀 取最新資訊的能力,這樣就可以規避掉官方要識別人類(粉絲?)的特殊問題。 然後圖片驗證識別這個目前就被玩爛開源Acc都可以到99%以上了,基本上你想用CNN或swi6
Re: [問卦] ChatGPT改變了什麼行為模式?行? : : 業都發揮著重要作用,對許多人的生活產生了深遠影響。我想請問各位前輩,究竟Ch at : : T改變了哪些行為模式呢? : : 希望大家能分享一些寶貴的經驗和看法,讓我對ChatGPT及其對社會行為模式的影響4
[情報] 首個中文SD模型開源:太乙對岸那邊IDEA研究院中的封神榜團隊釋出了第一個以中文為基礎的SD模型:太乙,已經可以在 Huggingface上面取得,這是基於SD1.4模型重新訓練了中文語言模型以取代原本的英文編碼器,但鎖定了圖像產生器,在一億級的中文語料庫上跑了24個epoch 另外一個中英文混合的模型則是同時fine-tune了語言編碼器以及圖像產生器。 這是他們的第一個 checkpoints 而且進行了開源,不過由於他們修改過編碼器的結構,所以模型不能直接丟進去 webui 裡面跑,團隊有提供修改版本以及修改辦法。 根據他們給的測試樣本來看,這個模型不但能理解白話文,更能理解文言文,像是唐詩,宋詞甚至駢文都沒有問題。2
Re: [問卦] 美軍陸戰隊學《潛龍諜影》紙箱潛行戰術,阿肥外商碼農阿肥啦! 其實這在機器學習/深度學習領域當前還是一個資安攻防戰的大問哉,尤其是圖像領域其實 從攝影機取得的數據,其實如果熟知數位訊號的話,其實對於機器取得的訊號只是256個數 值(對應PC的256色彩度)加上一個通道數量的三維數據,歸一化以後可以把數值256變成0到1 之間的浮點數,這樣問題就來了,現實世界人眼其實對浮點數差0.001不到的變化是很難察2
Re: [問卦] AI產出的產品之間有關聯性嗎?: 阿肥碼農阿肥啦!有興趣可以看我在科技版的文章,看一下chatGPT的思維模式綜述。 #1Zxi_nPB (Tech_Job) 基本上,現在的深度學習突破的領域在學術界已經是一兩年前的舊聞了,現在所有的語言 視覺模型最好的成果都是基於Transformers(變形金剛)這個家族爆發性成長的結果。- 阿肥外商碼農阿肥啦!認真說,這幾年口說上字幕甚至翻譯,還有有字幕上語音這幾年都獲 得不錯的進展,包含openAI、Google、Amazon、Meta實驗室都有不錯的產出,而且這些都是 依靠當前所謂的多模態零樣本學習的大力進步,很多轉換錯誤或是機器音都減小很多,不 過偶爾還是會有出槌需要人工修正的部分。 所謂的多模態零樣本其實就是換一個思維過往很多工作需要大量標注工跟資料工程前處理來
爆
[閒聊] 中華隊 真的好強…87
[閒聊] 知道Go Go Power Rangers的年紀多大了?☺76
[閒聊]〈APT.〉真的很難聽嗎75
[自介] dragon80372
[閒聊] 我買23隻一樣的鋼普拉是要自組的啦67
[問題] PC遊戲控制器(手把) 現在還推薦Xbox嗎?爆
Re: [閒聊] 中華隊 真的好強…56
[乳摸] 知名人士:戰慄時空3改名為戰慄時空X55
[訃報] 堀絢子 死去49
[情報] 這本輕小說真厲害 歷年男女角前3/2025作品48
[閒聊] 賣破84億!《柏德之門3》拉瑞安工作室43
[閒聊] 感覺遮斷落穴的緊急手術65
[閒聊] 會不會覺得高性能掌機是一條死路?42
[閒聊] 逆水寒:網易領導全都沒了!發福利沒人管40
[閒聊] 被GBF養壞,受不了體力制了42
[鳴潮] 汐汐為什麼會淪落到今天這地步?35
[閒聊] 螺鈿的XXX美術館工商32
[閒聊] 三角戰略一周目心得37
[閒聊] 當年二擊決殺對藍染沒用有多震撼?37
[閒聊] 無雙起源-張角過場,你怎麼帥成這樣20
[閒聊] 遊戲基地是怎麼被巴哈打下去的?27
Re: [討論] 日本是不是熱衷棒球大於籃球?28
[情報] 推理要在晚餐後 動畫化28
[Vtub] 日V震驚台灣還沒有WBC參賽權27
[閒聊] 300抽暴死能安慰我嗎27
[閒聊] 揉了仇人的奶後就無法恨她了?26
[閒聊] 青春之箱 17456
[BGD] 12/21Ave Mujica臺灣首映會25
[閒聊] 浪人算武士嗎?24
[蔚藍] 催眠對咪卡會有奇效嗎