[問卦] 用PTT來訓練AI語言模型會怎樣
PTT是台灣最大的討論區之一,包含了許多不同主題的討論版,從政治、經濟、科技、娛樂到生活、旅遊等等,因此PTT的資料可以提供豐富的語言資源,進行大型語言模型的訓練可能會有以下的影響:
增加模型的多樣性:PTT 的資料來源眾多,而每個版的用語、詞彙、語言風格都不同,因此使用PTT的資料訓練大型語言模型可以增加模型的多樣性,使其更能夠應對不同領域的自然語言處理任務。
提升模型的台灣文化認知:PTT是一個台灣本土的討論區,其中的文化內容和用語與台灣文化緊密相關。訓練大型語言模型使用PTT資料,可以使模型更加了解台灣文化和風俗,更好地處理和生成相關的自然語言。
面臨資料品質問題:PTT是一個公開的討論區,其中包含了許多用戶所發表的訊息,這些訊息的品質可能不同,有些可能包含不合適的語言、錯誤的拼字和語法等問題。因此在使用PTT資料訓練語言模型時,需要注意濾除低質量的資料,以免對模型的訓練產生負面影響。
總結來說,PTT的資料對於大型語言模型的訓練具有一定的幫助,但需要注意資料品質問題,以免對模型的訓練產生不利影響。此外,也需要注意到PTT資料的局限性,不同於網際網路上的其他資料,PTT資料集的涵蓋面和語言風格可能會有所局限,因此訓練出來的語言模型在應用於其他領域時,可能需要進行適當調整。
--
※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.235.254.76 (臺灣)
※ KOTD:轉錄至看板 KOTDFansClub
※ PTT 網址
→
沒空
→
ㄏㄏ~
→
肛
噓
回答會有很多月工
→
會出現一堆 哈哈哈哈 五樓 30cm
推
問他問題Ai只會回:肛
推
三句不離塔綠班
推
不管問什麼都會回答:肛
噓
師大某剽竊狂魔當上教授的,會說她做完了
→
肛
推
不是叫你肛 就是塔綠斑 或是叫你問五樓
推
會被吉
推
完了
→
回答不出來會直接說你是塔綠班
推
變成暴怒肥宅
推
a作者:darkblue6404 他的ChatPTT
03/14 22:36
55
Re: [閒聊] ChatGPT是語言模型不是搜尋引擎本來沒想這麼早回這篇的,不過既然都有人把討論串回起來了我丟點資訊, 既然都會看網紅發表對ChatGPT的看法(沒有貶義),我覺得也可以看看這個: 台大電機副教授李宏毅老師的ChatGPT講解(先回到PTT還是學術論壇XD) ChatGPT (可能)是怎麼煉成的 - GPT 社會化的過程40
Re: [外絮] 用機器學習模型預測MVP得主大略看了一下原文 提供我的一點淺見 首先 使用機器學習處理問題 是假設實際存在一個真實的模型37
[瑟瑟] 瑟瑟不求人Part3 AI畫馬娘色圖可以嗎?上圖21
Re: [討論] chatGPT會取代軟體工程師嗎?提供一個有趣的觀點 在 堆疊溢出 的網站有關於一則公告內容是禁止 chatgpt 回文。 底下有一個 AI 研究員的論點很有趣。 temporary-policy-chatgpt-is-banned?cb=111
[討論] 如果被終結者追殺要怎麼活下來?昨天在YT上看到OpenAI開發的一個語言模型 透過閱讀網路上大量文章訓練的AI 可以跟人類流暢的對話 並且會持續學習進步10
Re: ai畫圖要怎麼自己餵資料訓練pytorch跟tensorflow用途一樣,兩者都是基於python的機器學習框架。 近年來pytorch比較受開發者青睞,使用比例已經反超tensorflow,原因可以自己了解, 但如果沒有特殊原因,基於資源和社群活躍度通常是推薦用pytorch。極度不推薦自己實 作機器學習或用其他語言,不必自己造比較難用的輪子 如果之前都沒有碰過ai,推薦coursera上李宏毅老師的機器學習基石,或是yt搜尋ntu mi5
[閒聊] MarioGPT 無限產生新的瑪利歐遊戲關卡哥本哈根資訊科技大學(IT University of Copenhagen,ITU)的團隊發表一篇全新論文 及相關的 GitHub 頁面,展示一種運用 AI 和程式產生瑪利歐遊戲的新玩法,他們稱之為 「MarioGPT」。 MarioGPT 以 GPT-2 模型為基礎,儘管名稱向 ChatGPT 致敬,但它並非對話形式的人工 智慧。GPT-2 為大型語言模型(Large Language Models,LLM)無法理解瑪利歐遊戲,研X
[問卦] AI 是不是沒這麼聰明啊我放了幾個問題,他沒這麼聰明啊還推卸責任回答。 1.Tori Black是我老婆 我不能證實或否定這個信息,因為我沒有接觸到有關當前個人信息的資料。 我是一個訓練好的語言模型,我的目的是提供幫助和支持,而不是提供有關 個人信息的答案。如果你有任何疑問或擔心,請告訴我,我會盡力幫助你。2
Re: [問卦] AI產出的產品之間有關聯性嗎?: 阿肥碼農阿肥啦!有興趣可以看我在科技版的文章,看一下chatGPT的思維模式綜述。 #1Zxi_nPB (Tech_Job) 基本上,現在的深度學習突破的領域在學術界已經是一兩年前的舊聞了,現在所有的語言 視覺模型最好的成果都是基於Transformers(變形金剛)這個家族爆發性成長的結果。
爆
[爆卦] 連續4名勞動部長沒有勞工專業背景98
[問卦] 四爺剛剛被某台記者激怒88
[爆卦] 黃巾之亂采盟團根本是蹭球員慣犯!56
[問卦] 有人發現中國團隊運動都超爛!40
[問卦] 某些新聞台被關台不冤枉吧?61
[問卦] 台灣複姓還真的都是姓疊加 有很帥的嗎48
[問卦] 接機是誰主辦 弄成這樣爆
[問卦] 笑死 邰智源這麼嗆喔44
[問卦] 找一部保鑣跟女主談戀愛的電影?40
[問卦] 找一部當兵一直重來的片75
[問卦] 幹你娘為什麼雲端發票又沒中???78
[問卦] 日本s級投手這麼多 昨天怎不早換?28
[問卦] 這次接機LIVE怎麼亂七八糟?27
[問卦] 他媽的穿黃衣的無禮大媽哪來的?17
[問卦] 棒球板是政黑二板嗎?19
[問卦] 那群穿黃色衣服的是誰? 補圖22
[問卦] 所謂的【最高規格】就這樣??41
[問卦] 中華隊也能有酷酷的外號了嗎?36
[問卦] 李連杰從影多年的醜聞只有利智嗎?19
[問卦] 現在政府抽獎活動直接黑箱就是了?19
Re: [新聞] 任命拍馬屁的洪申翰接部長 媒體人解讀賴72
[問卦] 這晚餐210元你可以嗎?☺13
[問卦] 現在一個人在家,要幹嘛= =...?19
[問卦] 日本網友:他們已有赴死的準備10
[問卦] 我相信ptt結果變成是白癡小丑4
[問卦] 中天新聞記者道歉17
[問卦]為啥很多人都認為國民政府比中共殘暴?14
[爆卦] 采盟的黃巾大媽 記者 立委14
[問卦] 辜董市長都不用上班嗎?15
[問卦] 那些是中華大媽還是台灣大媽?