關於 deepseek-ai/Janus-Pro-7B/ 文生圖
當地時間1月27日, DeepSeek團隊正式發佈兩款多模態框架——Janus-Pro
和 JanusFlow。其中,Janus-Pro是一款統一多模態理解與生成的創新框架,
通過解耦視覺編碼的方式,極大提升了模型在不同任務中的適配性與性能。
JanusFlow是一款通過生成流(Rectified Flow)與自回歸語言模型融合實現
統一的框架。它不僅在理解任務中表現優異,還能生成高品質圖像,展現了框架
設計的極簡與強大。
北京時間1月28日凌晨,就在美國科技股暴跌之際,人工智慧社區Hugging Face
顯示,DeepSeek發佈了開源多模態人工智慧模型Janus-Pro。其中Janus-Pro-7B
在GenEval和DPG-Bench基準測試中擊敗了OpenAI的DALL-E 3和Stable Diffusion。
有誰能解釋一下GenEval和DPG-Bench基準測試是怎樣的標準?
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 50.114.155.132 (香港)
※ PTT 網址
※ 編輯: wangrg (50.114.155.132 香港), 01/28/2025 07:27:57
→
太爽了吧,不給活路 哈哈哈
推
自己用DS問一下不是很快嗎…
問過,沒看很懂.求白話文
噓
不重要
噓
果粉會在乎安兔兔跑分嗎?zzzzzzzzzzz
→
用吹的
推
https://huggingface.co/deepseek-ai/Janus-Pro-7B這兩個模態有網路連結嗎?
→
跟著美帝賺不到錢的魯蛇,中國在厲害你也只會是魯蛇
→
,幫人家高潮?你人生是有多廢啊,笑死
→
※ 編輯: wangrg (50.114.155.132 香港), 01/28/2025 08:59:42
盤後也沒拉屎,再繼續等
→
GenEval分成四部分
→
圖像生成 圖像描述 文生圖 圖像了解
→
圖像生成的部分 就是拿生成的圖 跟 用同樣Prompt 找
→
到的真實圖像 做比對
→
還有評估產生的圖像的各種元素的豐富程度跟真實程度
→
圖像描述 就是同一幅圖 AI生成的描述跟人類標註的
→
差異程度
→
文生圖的部分 GenEval會把圖片發到眾包平台去 由真
→
實人類評審為文生圖的準確度跟真實度評分
→
圖像理解會測試AI是否能準確辨識物件的位置跟種類
→
還有能否根據圖像回答問題
73
Re: [標的] NVDA/AMD 討論 多哪隻人類離變成電池之日越來越近了QQ 這邊是一個openai的demo整理 稍微細拆一下上面的demo一些隱藏意義 誠如之前所說的2023 Text-Based GPT4出現後 業界就直接看到戰場要往多模態拚殺 多模態意思就是餵給這些LLM模型從文字理解世界![Re: [標的] NVDA/AMD 討論 多哪隻 Re: [標的] NVDA/AMD 討論 多哪隻](https://img.youtube.com/vi/VP2-8jIurUE/mqdefault.jpg)
29
Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高目前就在旁邊吃瓜觀望@@ 成本這種本就是用開源後的可以拿已有的模型去當輔助下降成本 最常見作法就是拿gpt-4o當judge或者當數據產生器 去精煉數據集 如果再沒有gpt-4o 情況下 很多高質量資料去產生就花很錢 最經點例子就是LLaVa 一個博士班學生 用gpt-4o 去產生高質量多模態數158k 極小量數據集 用8xA100 1天時間 就幹爆之前所有 多模態大模型 能打贏saleforce的一間大公司堆出來的多模態BLIP-2模型![Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高 Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高](https://i.imgur.com/vA7ifFRb.jpeg)
28
[閒聊] NovelAI模型外洩事件對各界後續影響從幾個角度來聊聊 NovelAI角度: 在模型被外洩後 應該會加速模型疊代的腳步 準備下代模型 中短期內幾乎不會"因此"受傷 主因是他們有大量的算力提供流暢的體驗 只要有抓leak模型下來自己跑的就知道 首先門檻是![[閒聊] NovelAI模型外洩事件對各界後續影響 [閒聊] NovelAI模型外洩事件對各界後續影響](https://i.imgur.com/bbGendEb.png)
27
[問卦] DeepSeek剛剛發布新款開源AI模型圖像生成模型Janus-Pro 在 GenEval 和 DPG-Bench 基準測試中打敗 OpenAI 的 DALL-E 3 和 Stable Diffusion? 請問中國人不過年嗎? 半夜放新模型是不是想炒美股?![[問卦] DeepSeek剛剛發布新款開源AI模型 [問卦] DeepSeek剛剛發布新款開源AI模型](https://cimg.cnyes.cool/prod/news/5847178/m/5ddbd59484861b45ae070a3a996bf42c.jpg)
13
[閒聊] AI繪畫進軍圖庫!AdobeStock圖庫將開賣AI繪畫進軍圖庫!Adobe Stock圖庫將開賣AI生成的圖片 與Getty等圖庫禁止在其平台上使用人工智慧生成的插圖的圖片不同,Adobe目前正在接受 用DALL-E和Stable Diffusion等生成器製作的內容。Adobe Stock圖庫在官方部落格表示 ,它將接受由人工智慧在其服務上生成的圖像。![[閒聊] AI繪畫進軍圖庫!AdobeStock圖庫將開賣 [閒聊] AI繪畫進軍圖庫!AdobeStock圖庫將開賣](https://cdn2.techbang.com/system/excerpt_images/102214/original/1b4ce17825028ab174e26f07c4f25946.jpg?1670406792)
4
[閒聊] MyGO 論文多模態知識圖譜(MMKG)儲存了包含豐富多模態描述資訊結構化世界知識。 為了克服其固有的不完整性,多模態知識圖譜補全(MMKGC)旨在利用三元組的結構資訊和 實體的多模態訊息,從給定的多模態知識圖譜中發現未觀察到的知識。 現有的 MMKGC 方法通常使用預先訓練好的模型來提取多模態特徵,並採用融合模組將多模 態特徵與三元組預測結合。然而,這往往導致對多模態資料的粗略處理,忽略了細微、精![[閒聊] MyGO 論文 [閒聊] MyGO 論文](https://i.imgur.com/ech1Ojib.png)
2
Re: [閒聊] Neuro真的有辦法做到理解圖像嗎大型語言模型本質上是文字接龍 你說的話會通過tokenizer切成很多token後餵給模型 讓他預測下一個機率最高的字 當input是圖像時 你需要用一個資訊壓縮模型 把圖也壓成一串token 接下來做的事情就一樣了 把這串濃縮feature token餵給模型 搭配你說的其他話 來預測下一個字 重複到出現一個完整的回答為止
[情報] DeepMind發佈Genie 2「基礎世界模型」DeepMind發佈Genie 2「基礎世界模型」,單圖可生成1分鐘3D遊戲世界 that-can-generate 在AI研究中,遊戲一直扮演著至關重要的角色。因為具有以引人入勝的特性、獨特的挑戰![[情報] DeepMind發佈Genie 2「基礎世界模型」 [情報] DeepMind發佈Genie 2「基礎世界模型」](https://cdn2.techbang.com/system/excerpt_images/120000/original/d8a964dca5dae55b459243ff148a16ad.jpg?1733368287)
Re: [閒聊] 機器人女友出來了,不能瑟瑟阿肥碼農阿肥啦! 今年年初算是小型語言模型(SLM)爆發的年份,像Meta、Google、Apple 還有對岸的百度、 騰訊、阿里都在做多模態的小語言模型。現在小語言模型就像小鋼炮一樣越做越好,很多日 常對話指令都生成的很漂亮,重點是可以塞進去一張最普通的消費級GPU晶片裡。 多模態的小模型可以直接生成情感語音或指令集來控制OS系統進行系統層級的操作。除非要![Re: [閒聊] 機器人女友出來了,不能瑟瑟 Re: [閒聊] 機器人女友出來了,不能瑟瑟](https://img.youtube.com/vi/HCmDK5kqchU/mqdefault.jpg)
爆
Re: [心得] 山椒魚盤勢觀察![Re: [心得] 山椒魚盤勢觀察 Re: [心得] 山椒魚盤勢觀察](https://i.mopix.cc/LLOj00.jpg)
爆
[請益] 0056可以這樣操作嗎![[請益] 0056可以這樣操作嗎 [請益] 0056可以這樣操作嗎](https://i.imgur.com/z8X13Bfb.jpg)
68
[情報] 台灣2025年11月份CPI 1.23%![[情報] 台灣2025年11月份CPI 1.23% [情報] 台灣2025年11月份CPI 1.23%](https://i.imgur.com/pLLp0M0b.jpeg)
96
[情報] 114年12月05日 三大法人買賣金額統計表![[情報] 114年12月05日 三大法人買賣金額統計表 [情報] 114年12月05日 三大法人買賣金額統計表](https://i.imgur.com/roBWXt2b.png)
91
[情報] 2317 鴻海 2025年11月營收75
[情報] 2344 華邦電 114年11月營收![[情報] 2344 華邦電 114年11月營收 [情報] 2344 華邦電 114年11月營收](https://i.mopix.cc/JF4BB2.jpg)
63
[情報] 00631L 預估分割17倍決議表決![[情報] 00631L 預估分割17倍決議表決 [情報] 00631L 預估分割17倍決議表決](https://imgpoi.com/i/6GBH1D.jpg)
55
[情報] 1205 上市外資買賣超排行![[情報] 1205 上市外資買賣超排行 [情報] 1205 上市外資買賣超排行](https://i.imgur.com/cvoXoMub.jpeg)
48
[請益] 說AI會跟.com一樣泡沫化是假議題吧?![[請益] 說AI會跟.com一樣泡沫化是假議題吧? [請益] 說AI會跟.com一樣泡沫化是假議題吧?](https://img.youtube.com/vi/e0CJBzGa0hQ/mqdefault.jpg)
56
Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性![Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性 Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性](https://img.youtube.com/vi/H_suOWdYLq0/mqdefault.jpg)
38
[情報] 0050、0056等成分股調整33
Re: [心得] 周冠男:珍愛生命,遠離高股息![Re: [心得] 周冠男:珍愛生命,遠離高股息 Re: [心得] 周冠男:珍愛生命,遠離高股息](https://i.imgur.com/QUlaRGZb.jpg)
31
[情報] 3443 創意 11月營收31
Re: [請益] 0056可以這樣操作嗎![Re: [請益] 0056可以這樣操作嗎 Re: [請益] 0056可以這樣操作嗎](https://i.imgur.com/QUlaRGZb.jpg)
38
Re: [新聞] 川普希望美國製造全球5成晶片 賴清德紐![Re: [新聞] 川普希望美國製造全球5成晶片 賴清德紐 Re: [新聞] 川普希望美國製造全球5成晶片 賴清德紐](https://i.imgur.com/maDWxU7b.jpg)
22
Re: [心得] 周冠男:珍愛生命,遠離高股息![Re: [心得] 周冠男:珍愛生命,遠離高股息 Re: [心得] 周冠男:珍愛生命,遠離高股息](https://i.imgur.com/5f96blgb.gif)
16
Re: [新聞] Fed主席大熱門哈塞特表態:下周應降息 預18
[請益] 第一金最近有什麼大事要發生嗎?![[請益] 第一金最近有什麼大事要發生嗎? [請益] 第一金最近有什麼大事要發生嗎?](https://i.mopix.cc/vMDTOu.jpg)
15
[情報] 2383 台光電 11月營收15
Re: [標的] 記憶體族群回檔 彎腰撿鑽石多![Re: [標的] 記憶體族群回檔 彎腰撿鑽石多 Re: [標的] 記憶體族群回檔 彎腰撿鑽石多](https://i.imgur.com/MO9jzZjb.gif)
14
[情報] 2891 中信金 11月自結 0.36 累計 3.7614
[情報] 日本兩年期公債收益率升至1.03%11
[情報] 1205 上市投信買賣超排行8
[情報] 2885 元大金 11月自結 0.24 累計 2.509
Re: [請益] 說AI會跟.com一樣泡沫化是假議題吧?![Re: [請益] 說AI會跟.com一樣泡沫化是假議題吧? Re: [請益] 說AI會跟.com一樣泡沫化是假議題吧?](https://img.youtube.com/vi/XwG3w4jL0wM/mqdefault.jpg)
9
Re: [情報] 2317 鴻海 2025年11月營收8
[情報] 2498 宏達電 114年11月營收7
[情報] 3167 大量 114年11月營收6
[情報] 2545 皇翔 買台積電 210張,均價:1469.414
[情報] 8054 安國 114年11月營收 歷史新高
