Re: [閒聊] Neuro真的有辦法做到理解圖像嗎

aria0520 發表於 2023/12/31 下午2:29:48

看板C_Chat標題Re: [閒聊] Neuro真的有辦法做到理解圖像嗎作者

(紫)時間Dec 31 14:29:48 2023推噓 2 推:2 噓:0 →:2

大型語言模型本質上是文字接龍

你說的話會通過tokenizer切成很多token後餵給模型讓他預測下一個機率最高的字

當input是圖像時你需要用一個資訊壓縮模型把圖也壓成一串token

接下來做的事情就一樣了把這串濃縮feature token餵給模型

搭配你說的其他話來預測下一個字重複到出現一個完整的回答為止

input是圖像時的難點是那個資訊壓縮模型

一般來說這種模型是透過海量的圖片-文字描述pair訓練而成

例如一張拆彈遊戲的圖片和一段文字"這張圖裡包含了一張桌子一個炸彈顏色..."

但除了圖片解析度有限以外文字畢竟是一維資訊難以精準描述二維的圖片

頂多你能搭配一些傳統CV的OCR資訊一起餵給語言模型

不然就是要往Gemini這種原生多模態模型

或甚至擺脫文字接龍框架世界模型方向走

學界有一派覺得語言模型有其極限這就是其中一個原因

畢竟人類不是只靠文字理解世界

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.213.82.44 (臺灣)

推

chenyeart12/31 15:27看Neuro會玩geoguessr，Vedal應該克服了?

→

spfy12/31 15:29他也是想辦法把這些東西串起來吧這些演算法和模型都不是

→

spfy12/31 15:30一個人或一個小團隊能做到的

推

bitcch12/31 15:42GPT才是文字接龍但LLM也不止GPT一種

同系列文章

[閒聊] Neuro真的有辦法做到理解圖像嗎

其他人也閱讀了

PTT 熱門相關