PTT評價

Re: [閒聊] 文心一言AI繪圖(慎入)

看板C_Chat標題Re: [閒聊] 文心一言AI繪圖(慎入)作者
Reze
(Bomb)
時間推噓14 推:21 噓:7 →:108

文心一言實力不如ChatGPT是理所當然的,微軟投資幾百億美元並且用微軟的雲端訓練整個網
路資料兩年了,到了去年底才終於開花結果

目前這種LLM模型,最重要的就是 資料 算力 和算法,其中基礎的資料是非常重要的,ChatGPT在建立模型的過程跟一般的Ai一樣要機器學習建立模型,而ChatGPT的基礎原理就是由上一個字生成下一個字,週而復始,其中在訓練的過程還會經過人工挑選優質回答和一些和添加一些限制來引導訓練方向,但總體而言跟其他Ai模型一樣訓練出來的模型基本上是黑盒子,是無法直接改動的,所以基礎語料的重要性不言而喻

而中文跟英文在目前網路的資料量91%左右,而中文只有0.11%,甚至還沒有日文0.12%多,文
心一言基本上就是專攻中文的,所以在先天條件下其實就不如ChatGPT(GPT的中文回答很多時候也是經由英文生成答案再轉成中文的

第二個就是算力差距也很大,之前微軟的訓練場所都是5萬張A100在24小時跑模型的,美國之
前已經要求NV禁售高階運算卡很久了,目前百度能用的卡就是一些消費級的和以前囤積的卡,聽說他們之後要用他們的國產摩爾線程的顯卡,不過那個效能和NV差距非常大,在算力這方面上幾年內也是追不上OpenAi團隊的


不夠就算如此,我也覺得百度這次算厲害了,為什麼?因為隔壁Google 開始公測的Bard實際
表現還不如文心一言,甚至可以說慘多了,全靠同行襯托啊。而且百度這次不像很多中國公司一樣拿外國產品套個皮就說自研,而是真的在做產品,這點就挺厲害了,不過他們會下去做主要也是想繼續霸佔中國瀏覽器市場的龍頭地位就是了

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.11.63 (臺灣)
PTT 網址

dos0103/23 23:58這沒辦法解釋為什麼愛國的定義 出來是美國捏

Justisaac03/23 23:58算力不足的狀況下我覺得這模型出得太快了~

Reze03/24 00:01因為實際上那張圖的標籤加了美國的,只是被P掉了

dos0103/24 00:02所以我說那個國呢?

Reze03/24 00:03我覺得那不是重點,生成圖片和影片就是百度的噱頭,實際上

Reze03/24 00:03看文字生成的部分比較有意義

weltschmerz03/24 00:07這篇也太lag早就被踢爆這個垃圾是把用戶打的字機翻

weltschmerz03/24 00:08然後放到國外的sd跑出來的

weltschmerz03/24 00:08你只要用一些中英歧異的字 就能測試出來

Justisaac03/24 00:09機翻也可能是核心抄襲所以沒辦法直接用中文啊

weltschmerz03/24 00:09http://i.imgur.com/iCm5Oqz.jpg

weltschmerz03/24 00:10http://i.imgur.com/mEprPwG.jpg

weltschmerz03/24 00:10http://i.imgur.com/4OZ8e3f.jpg

weltschmerz03/24 00:11不多說了自己去查 反正這又是國外開源我就原創

dos0103/24 00:11所以我說那個標籤呢?

Reze03/24 00:11文字對話和圖片生成是分開的啊,圖片生成是用開源的工具生

Reze03/24 00:11成的這個第一天內測的時候不就知道了,但文心一言最重要的

Reze03/24 00:11是跟ChatGPT一樣的語言對話模型啊,為何都在討論圖片生成的

Reze03/24 00:11部分,我看不太懂

weltschmerz03/24 00:12你要不要看看標題在說什麼

dos0103/24 00:12那你上面說的那個標籤跟P掉是怎麼一回事 要不要解釋一下

Reze03/24 00:14那你要不要看內文在寫什麼?

Reze03/24 00:14我只是想討論一下目前的幾個大型LLM模型而已,Ai繪圖早就已

Reze03/24 00:14經玩爛了,技術難度也遠低於對話模型

Reze03/24 00:14就那張圖把標籤P掉了啊,你實際打愛國的貓沒有美國國旗,很

Reze03/24 00:14難懂嗎?

dos0103/24 00:16

weltschmerz03/24 00:16連人家自家人都懷疑文心一言了 你居然能信誓旦旦他只

weltschmerz03/24 00:16是訓練不夠 你難道是內部員工?

weltschmerz03/24 00:17而且你拿bard比較更好笑 你要不要去查一下bard的作用

Reze03/24 00:21你真的沒有基礎概念嗎?難道你覺得對話模型可以生成圖片嗎

Reze03/24 00:21?百度只是把生成圖片跟影片這個部分當成噱頭加進去文心一

Reze03/24 00:21言,但這個功能跟語言模型的部分是獨立的你了解嗎?這種語

Reze03/24 00:21言模型重要的是訓練模型,訓練出來的模型都在OpenAi的雲端

Reze03/24 00:21,想抄還抄不到,所以我才說百度是真的有訓練語言模型,理

Reze03/24 00:21解嗎?

Reze03/24 00:21至於Bard Google就定義為聊天語言模型了,在ChatGPT推出後

Reze03/24 00:21急忙上線公測版,不是對標是要做什麼?

Reze03/24 00:21好對不起我不該在C洽討論技術的,對不起對不起對不起

dos0103/24 00:22在瞎掰了! 大家來看阿! 這傢伙在瞎掰了!

Reze03/24 00:23你覺得不對你可以針對你覺得不對的點反駁,而不是說空話,

Reze03/24 00:23雖然我理解你肯定都看不懂,也無從反駁。

lbowlbow03/24 00:23這樣也能吹,了不起

guogu03/24 00:23你慢了 看討論圖出來不久後有人想試那時愛國變成禁字了

guogu03/24 00:24現在應該是改完了

GiantGG03/24 00:25中國擋一堆關鍵字,好奇用中文資料訓練出來的AI能多強?

lazarus112103/24 00:26都被踢爆還能吹,也是滿厲害的

Reze03/24 00:27就跟英文有三個數量級差距,而且資料的含金量也遠低於英語

Reze03/24 00:27,上限就在那邊了,追不上OpenAi的

Reze03/24 00:28生成圖片的和語言模型是兩個東西,只是百度把它都丟到文心

Reze03/24 00:28一言裡面,這很難理解嗎?被踢爆的從來都不是語言模型的部

Reze03/24 00:28

lazarus112103/24 00:29現在他們拼命hotfix加詞庫,有些東西已經玩不出來了

Reze03/24 00:30我的文章都是想討論LLM模型訓練出來的語言模型,這是未來十

Reze03/24 00:30年最重要的技術之一,而不是這個繪圖Ai,繪圖Ai沒人在乎,

Reze03/24 00:30OpenAi也不在乎

longQQQ03/24 00:36推文怎麼有人像三歲小孩一樣發顛==

Reze03/24 00:41我看了很頭痛,Ai這個東西訓練過後是黑箱子,這代表什麼?

Reze03/24 00:41這代表這並不像那些固定的程式碼,比如操作系統或者軟體包

Reze03/24 00:41可以直接複製一份偷過來的,且所謂的LLM模型就是超大規模模

Reze03/24 00:41型,也不是隨便什麼硬碟就能裝下的GPT3.0時代光是模型就有

Reze03/24 00:413000多TB了,且都存在OpenAi的伺服器上,跟繪圖Ai這種用本

Reze03/24 00:41地NPU就能跑的東西是完全不一樣的,他們只是都叫Ai而已,別

Reze03/24 00:41混為一談啊

diyaworld03/24 00:52https://i.imgur.com/1VE7r7y.jpg

diyaworld03/24 00:52https://i.imgur.com/CiwWJD7.jpg

diyaworld03/24 00:52https://i.imgur.com/FslrsjQ.jpg

diyaworld03/24 00:52https://i.imgur.com/9H25gvp.jpg

raincole03/24 01:04我覺得很神奇 整串推文好像只有原PO一個人知道自己在講

raincole03/24 01:04什麼 失智到有點誇張... 生圖跟聊天是兩個 AI

raincole03/24 01:05一直貼生圖的那個用機翻被抓包跟原PO講的有一丁點關係嗎

kevin87032503/24 01:05有些人跳針到有點好笑

Reze03/24 01:07所以我覺得百度把圖片生成的Ai加進去很愚蠢。

Reze03/24 01:07實際上原本文心一言的重點是和ChatGPT一樣訓練方式的對話模

Reze03/24 01:07型,結果被這個圖片生成器搶走了目光,一般人也分不清楚

Reze03/24 01:07兩者的差別

raincole03/24 01:09應該也不是分不清楚啦 而是 _____ 嗯

guogu03/24 01:13重點是語言模型那原PO回什麼P圖的就多啦

Reze03/24 01:19我本來不想討論繪圖方面的,只是剛好有看到那個貓的討論,

Reze03/24 01:19那個貓熱度很高的,只是下面留言很多人自己測試並非是美國

Reze03/24 01:19外型的貓

Reze03/24 01:19實際上圖片生成的部分百度用開源的這個是明顯的事實,但用

Reze03/24 01:19邏輯思考就知道一般的繪圖Ai在畫這個主題時也不會特別去畫

Reze03/24 01:19美國國旗,在生成圖片的風格選擇那邊可以選美式風格,就單

Reze03/24 01:19純選了那個選項但把標籤移到下面

ohmylove34703/24 01:43查證推,為反而反真的太反智了

winniekuma03/24 01:54你不該浪費時間試圖在這個版理性討論

SuM0m003/24 02:14就不要結果是google自己的東西 vs openai開源的gpt 2

SuM0m003/24 02:16走了捷徑然後就沒有了

Reze03/24 02:50實際上大家現在用的都是Google 2017年提出的transformer模

Reze03/24 02:50型,原理並不難,難的是需要海量語料和算力來建立LLM模型,

Reze03/24 02:50我不認為百度會爛到連基本原理都搞不懂,因為實際上這些東

Reze03/24 02:50西一般大學的資工系都能輕鬆理解原理

Reze03/24 02:50但如前面所說的,其實難的是工程問題,chatGPT2.0以前,語

Reze03/24 02:50言模型的邏輯推理能力還非常弱,直到3.0版本資料量提高了1

Reze03/24 02:50000倍以後,ChatGPT才表現的更像人類,這也是為什麼以前搜

Reze03/24 02:50索引擎時代,Google可以以小公司白手起家,但是現在LLM模型

Reze03/24 02:50卻沒有新興小公司能做的原因,原理不難,難的是錢啊,微軟

Reze03/24 02:50兩年前投資100億美元,讓open Ai用微軟雲端的5萬張A100訓練

Reze03/24 02:50才有的成果,一般公司或者大學研究團隊根本搞不出來這麼大

Reze03/24 02:50規模的算力

Reze03/24 02:50而且我發現前面很多人的噓文好像以為我是想吹百度,其實我

Reze03/24 02:50真正想吹的是有了多模塊能力的GPT4.0啊,數學能力飛速成長

Reze03/24 02:50和擁有了圖片識別能力,實際上我認為百度根本沒有追上Open

Reze03/24 02:50Ai的機會

Reze03/24 02:50倒是Transformer模型的提出者Google推出的Bard令人失望,也

Reze03/24 02:50體現到了最近的股價,就不多談了

RLH03/24 03:33你好有耐心

romber03/24 03:40推原po,你討論的是技術,很激動噓文那幾個討論的是政治,

romber03/24 03:40永遠取不到共識

chiayu8103/24 04:14就資料庫來說 中文這塊還真的要靠對岸發展 他們的資料量

chiayu8103/24 04:14大封閉性又高 就怕又是另一個內宣噱頭而已

wtsf03/24 04:42我是覺得不用跟前面幾樓解釋這麼久啦...他們就不在乎真相只

wtsf03/24 04:42在乎能不能嘲笑中國而已

uohZemllac03/24 09:23認真文給推

UnifiedField03/24 09:23但百度的語言模型和近年看到的各種 transformer 差

UnifiedField03/24 09:23不多。然後繪圖也是他自稱的多模態,既然他刻意混

UnifiedField03/24 09:23淆也別說別人誤解了。

Reze03/24 10:15ChatGPT和Brad也都是transformer模型啊,只是在GPT3.0之前

Reze03/24 10:15沒有預料到LLM會讓基於transformer模型建立的語言模型產生

Reze03/24 10:15類似邏輯鏈的概念,至於百度說他活該我也沒意見的,自己要

Reze03/24 10:15搞噱頭的,不過要強調的是百度的文心一言跟多模塊差很多的

Reze03/24 10:15,文心一言並不能以文字輸入以外的方式來和模型對話

Dreampen03/24 10:36

denny041103/24 12:56推樓主回覆

WindSucker03/24 13:01私聊資料都能用的

UnifiedField03/24 14:30我也覺得生圖那是噱頭可不談。但我的意思是 transf

UnifiedField03/24 14:30ormer 近年大家都在玩,百度語言模型的看起來也沒

UnifiedField03/24 14:30比較厲害。chatGPT 真的恐怖

Reze03/24 16:42跟openAi比那是比不過,但是現在檯面上有推出對話語言模型

Reze03/24 16:42的就只有GPT Bard 文心一言這三個,底層結構這三個都差不多

Reze03/24 16:42,差別在於語料 訓練量和權重,OpenAi雇了數萬人來人工審核

Reze03/24 16:42GPT生成的答案,就是在改變模型的權重,不過讓人感興趣的G

Reze03/24 16:42PT4.0數學能力大幅提升到秒解高等數學的程度的原理,OpenA

Reze03/24 16:42i並沒有公布,這個應該不是單純喂資料可以訓練出來的