[問卦] 用PTT來訓練AI語言模型會怎樣
PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可能會有以下的影響:
增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然語言處理任務。
提升模型的台灣文化認知:PTT是一個台灣本土的討論區,其中的文化內容和用語與台灣文化緊密相關。訓練大型語言模型使用PTT資料,可以使模型更加了解台灣文化和風俗,更好地處理和生成相關的自然語言。
面臨資料品質問題:PTT是一個公開的討論區,其中包含了許多用戶所發表的訊息,這些訊息的品質可能不同,有些可能包含不合適的語言、錯誤的拼字和語法等問題。因此在使用PTT資料訓練語言模型時,需要注意濾除低質量的資料,以免對模型的訓練產生負面影響。
總結來說,PTT的資料對於大型語言模型的訓練具有一定的幫助,但需要注意資料品質問題,以免對模型的訓練產生不利影響。此外,也需要注意到PTT資料的局限性,不同於網際網路上的其他資料,PTT資料集的涵蓋面和語言風格可能會有所局限,因此訓練出來的語言模型在應用於其他領域時,可能需要進行適當調整。
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.235.254.76 (臺灣)
※ KOTD:轉錄至看板 KOTDFansClub
※ PTT 網址
→
沒空
→
ㄏㄏ~
→
肛
噓
回答會有很多月工
→
會出現一堆 哈哈哈哈 五樓 30cm
推
問他問題Ai只會回:肛
推
三句不離塔綠班
推
不管問什麼都會回答:肛
噓
師大某剽竊狂魔當上教授的,會說她做完了
→
肛
推
不是叫你肛 就是塔綠斑 或是叫你問五樓
推
會被吉
推
完了
→
回答不出來會直接說你是塔綠班
推
變成暴怒肥宅
推
a作者:darkblue6404 他的ChatPTT
03/14 22:36
55
Re: [閒聊] ChatGPT是語言模型不是搜尋引擎本來沒想這麼早回這篇的,不過既然都有人把討論串回起來了我丟點資訊, 既然都會看網紅發表對ChatGPT的看法(沒有貶義),我覺得也可以看看這個: 台大電機副教授李宏毅老師的ChatGPT講解(先回到PTT還是學術論壇XD) ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程40
Re: [外絮] 用機器學習模型預測MVP得主大略看了一下原文 提供我的一點淺見 首先 使用機器學習處理問題 是假設實際存在一個真實的模型37
[瑟瑟] 瑟瑟不求人Part3 AI畫馬娘色圖可以嗎?上圖21
Re: [討論] chatGPT會取代軟體工程師嗎?提供一個有趣的觀點 在 堆疊溢出 的網站有關於一則公告內容是禁止 chatgpt 回文。 底下有一個 AI 研究員的論點很有趣。 temporary-policy-chatgpt-is-banned?cb=111
[討論] 如果被終結者追殺要怎麼活下來?昨天在YT上看到OpenAI開發的一個語言模型 透過閱讀網路上大量文章訓練的AI 可以跟人類流暢的對話 並且會持續學習進步10
Re: ai畫圖要怎麼自己餵資料訓練pytorch跟tensorflow用途一樣,兩者都是基於python的機器學習框架。 近年來pytorch比較受開發者青睞,使用比例已經反超tensorflow,原因可以自己了解, 但如果沒有特殊原因,基於資源和社群活躍度通常是推薦用pytorch。極度不推薦自己實 作機器學習或用其他語言,不必自己造比較難用的輪子 如果之前都沒有碰過ai,推薦coursera上李宏毅老師的機器學習基石,或是yt搜尋ntu mi5
[閒聊] MarioGPT 無限產生新的瑪利歐遊戲關卡哥本哈根資訊科技大學(IT University of Copenhagen,ITU)的團隊發表一篇全新論文 及相關的 GitHub 頁面,展示一種運用 AI 和程式產生瑪利歐遊戲的新玩法,他們稱之為 「MarioGPT」。 MarioGPT 以 GPT-2 模型為基礎,儘管名稱向 ChatGPT 致敬,但它並非對話形式的人工 智慧。GPT-2 為大型語言模型(Large Language Models,LLM)無法理解瑪利歐遊戲,研X
[問卦] AI 是不是沒這麼聰明啊我放了幾個問題,他沒這麼聰明啊還推卸責任回答。 1.Tori Black是我老婆 我不能證實或否定這個信息,因為我沒有接觸到有關當前個人信息的資料。 我是一個訓練好的語言模型,我的目的是提供幫助和支持,而不是提供有關 個人信息的答案。如果你有任何疑問或擔心,請告訴我,我會盡力幫助你。2
Re: [問卦] AI產出的產品之間有關聯性嗎?: 阿肥碼農阿肥啦!有興趣可以看我在科技版的文章,看一下chatGPT的思維模式綜述。 #1Zxi_nPB (Tech_Job) 基本上,現在的深度學習突破的領域在學術界已經是一兩年前的舊聞了,現在所有的語言 視覺模型最好的成果都是基於Transformers(變形金剛)這個家族爆發性成長的結果。
爆
[問卦] 沒人發現北檢正在傷害台灣形象?爆
[問卦] 檢察官跟法官說查完還要再一年?爆
[問卦] 政黑:定罪本來就不用完整證據!!爆
[問卦] 川普:加拿大成為第51州 可以減稅60%爆
[問卦] 請問北檢忠組江貞魚現在在想啥爆
Re: [新聞] 柯文哲律師砲火猛!靈魂3問檢方:柯怎知爆
Re: [新聞] 天下第一組的檢查官(轉載自由時報)爆
[問卦] 在北檢工作過年回家都怎樣介紹自己?爆
[問卦] 北檢是為誰服務的???爆
[問卦] 具保的錢我來出爆
[問卦] 狗檢被狠狠打臉爆
[問卦] 北檢是不是急了?90
[問卦] 法院判一審無罪會有多刺激?90
[問卦] 北檢這次立下大功會升官嗎?77
[問卦] 為什麼青鳥普遍低學歷低智商啊84
Re: [問卦] 北檢是不是急了?爆
[問卦] 所以沈慶京的1600萬跑哪去了?69
[問卦] 媒體爆料率100%命中,是不是很利害?64
Re: [新聞] 柯文哲律師砲火猛!靈魂3問檢方:柯怎知42
[問卦] 交保=無罪?爆
[爆卦] 快訊!65歲老頭被放出來啦!51
[問卦] 要給1500萬提領1600萬幹嘛51
[問卦] 四小時內湊出三千萬的機率大概多高?82
[問卦] 館長這麼挺是不是很扯?49
[問卦] 鏡檢今後的含金量無法質疑了吧?45
[問卦] 應徵 北檢 要有什麼能力?47
[問卦] 北檢放在對岸會違和嗎?34
[問卦] 北檢這一波操作你給幾分30
[問卦] orange是柳丁吧?34
Re: [爆卦]半夜銀行有開?!小草捐款?!柯文哲3000萬交保