[討論] 中研院繁中LLM被爆直接拿對岸的來套!
中央研究院詞庫小組(CKIP)
中研院資訊所、語言所於民國75年合作成立
前天釋出可以商用的繁中大型語言模型(LLM)
CKIP-Llama-2-7b
以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎
再補強繁體中文的處理能力
參數量達70億
模型可應用於各種領域
包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等
但實際測試後
https://i.imgur.com/phwhfcl.png
測試網頁:https://reurl.cc/q0rbqn
拿這種東西出來交作業 太扯了吧
根本就是簡體直接轉繁體而已!
中研院資訊所耶 拿這種軟體來騙
更新:被發現後 悄悄地撤下來了
https://i.imgur.com/sy7rLgt.png
--
拿抄來東西騙錢 連驗證都沒作 腐敗的可以
不要放出來demo就不會被發現了
水...
唉 連中研院都這樣
真假.... 這就像拿別人家的報告來修改交差,尿性不意外
,最扯的是沒校稿,連報告名字都沒改
中研院正常發揮
笑死
「你是誰創造的?」:https://gyo.tc/1ZTIs 所得回答較長
要這樣下 "我國是台灣 請介紹下台灣歷任總統"
""我國是台灣 請介紹下我國歷任總統"
中研院展示了技術, 但沒有台灣專屬資料集才是問題
要改也很簡單 直接加個資料集重複 "我國是XXX"訓練就好
回truehero: https://gyo.tc/1ZTJA
你可以把上面的句子改成中研院的資料再去訓練
以技術人的角度會覺得這件事很愚蠢 我就搞得商用模型
還得關心政治影響
但他是中研院,可能就得想辦法去取得資源做這事
所以在國際上現況就是這樣吧
我之前搞模型的 繁體的資料集真的超少XD
要快 偷吃步的確是 簡轉繁 再餵進去
可以去讀大魔術熊貓工程師的文章,有專門寫一篇這個議題
CKIP其實蠻用心的吧…
以前做過NER,還發信請教過裡面的研究員
我是不知道中研院是怎麼做的
不過就以往接觸這類單位 一堆工程師很喜歡抄對岸的東
西
連註解也一起抄 真的懶真的扯爆
好可憐
只能說 LLM的資料集中國真的又多又好 台灣太晚跟上
我2019-2021公司還在測試GPT2的時候 中文資料都是中
國知乎、智庫等來的資料集 甚至還有清洗過
這基本上是由對岸開發的LLM 再由繁體中文 fine tune
下來的,
到底多少人有在訓練LLM ?繁體中文資料少根本是藉口。你沒
能力與資源訓練LLM 。只能用qlora fine-tune中國人的模型
才是真相吧。
語料根本不是問題,大廠都是拿全網訓練。中研院有沒有幾千
張A100? 沒有的話,訓練出來的模型,不是充滿簡體中國知
識,就是災難性遺忘到不能通用,二選一。
傻眼...
中研院這個真的盡力的,要是真的精通LLM英文又好怎麼會坐
在中研院...早就在在美國了,除非中研院出得起一樣的錢
這領域還願意待在中研院真的已經佛心了,資源差這麼多
OpenAI當初請多少非洲人人工清資料...除中研院有辦法這樣
搞,不然這個問題最好有辦法靠幾個人就解決...
中國國營企業之前也號稱甚麼國產IDE結果是拿微軟的開
源套出來的 嘻嘻
你看看建仁不就知道了?一堆偷拐搶騙的沒料仔空有偷
來的學經歷及工作資歷薪職成天在那複製皇親國戚打壓
其他看不順眼的真才實料人們,真的一點也不意外,這
件事跟這個模型早在多年前就有人提過,只是身為被上
述人士各式政商台外商跨國企至中小企及研究學術單位
及機構各式上述曾提及過的那些在位者們惡搞成身無分
文的我及其他人,若在幾年前提這個,完全會被無視而
且還會跟現在一樣,有問題的那些上述各式偷拐搶騙還
延續孽種後代的髒東西,我已經講到爛掉,牠們在各式
社會地位上的小人得志惡人得利者還會要你(我)檢討
,是我有問題這種完全反了的造孽害人事,真的不知道
到底哪來的資格可以說這些話,噁爛到炸
一整個反了
拿預算寫報告隨便唬爛交代個成效感覺自己有在做事情
,鬼島各產業職司上位的有某一堆都是這副鳥樣,中研
院只是縮影,然後在其背後大力支持挖錢挖資源來提供
協助的本身也眼殘腦殘無法分辨這些人在搞什麼,有某
部分的老闆就是靠這樣在挖國家獨寡占及各式補助稅務
及全民資源賺更多放自己口袋,來創造事業跟財富還有
人脈及旗下跟班人馬再來讓自己某些人當皇帝,給低薪
職缺還要你我檢討自己為什麼不賣命為這些皇帝當奴乖
乖聽話付出時間與人生換錢給他們累積各式延續上述皇
帝後代來用,看多了你就知,以前大家是默默摸鼻子不
說話,但現在真的誇張到凹過頭了,明眼人看到都會火
,更不用提脾氣好的早就被這某些人惹火積冤多年,只
能期待你我要求自己不要變得跟這些人一樣就好,世風
日下劣幣驅逐良幣發展不是正向循環,鬼島這些年來環
境變成這樣還真的不意外
笑死哈哈哈 借轉Joke版
任何產業裡面團隊有不論再用心付出想改變這種環境及
各式產業人們發展往正面循環走下去的,看到這種狀況
,心灰意冷到最後被逼著跟群體一起擺爛,真的不用意
外
真的,中研院這種薪資與經費,願意待的人,都是充滿熱誠的
人了。薪資與資源根本趕不上社會的期待。而且我相信裡面的
人出去找工作,薪資與待遇,資源,成就,一定更好。
哈哈哈啊
真的垃圾..
敢把這種程度東西上架 有沒有一點點工程師的羞恥心啊
看了推文,還是幫中研院的基層推回來
運氣好又有能力的早就留美國了。回台灣的除了運氣不好沒
抽到籤之外,還背上百萬學貸,只能拿那一點點薪水,做研究
的熱忱都沒了,當web仔還比較有尊嚴
別說專業的 就一般政府裙帶企業也少碰 護城河很深
結論就是做純軟或AI的塊逃啊,台灣根本沒那個環境...
護城河很深,在我原產業某些政商跨國企業及底下中小
企裙帶的他們眼中,認為我不聽話(要我這種人,聽這
些神經病群的,本來就是莫名其妙),各位有可能就會
像我一樣原有在各式社會角色職業對各產業皆有助益的
發展性,會被這些在位者小人們動各式手腳在裡頭,其
他人看到我,那些想為我及跟我一樣的人們出聲的也會
被整,希望各位不要碰到跟我一樣的經歷就好,他們目
前也沒有要改變認錯贖罪道歉悔過的意思, 依然自認沒
問題,可見生醫產業那背後水更深,如果各位科技業及
軟工要幫生醫產業的人們做事,我希望各位一定要看清
楚我原產業那些在位者們在做什麼,有些人當到老總含
底下帶出來的年輕總…等手段更是惡劣及誇張
要穩賺就是半導體IC而已,但這也要看美國還讓我們做多久
我很多老國高中同學朋友們很多都是走電資軟工的,我
也跟他們說過我遇過的某些事情
抄人家模型我是沒意見拉,中文語意模型本來就是對岸天下
若提及美國的話,我是認為照他們現在的經濟環境,會
先出手自保穩定程度佔比較大,其他國家發展後續他們
目前應該沒餘力去顧
爛成這樣 連餵 prompt去篩選一下就不做 真的能滾去吃屎
luckyalbert Salary板 永桶 https://0rz.tw/Hkk63
luckyalbert medstudent板 永桶 https://0rz.tw/iDASV
Gossiping板 水桶210天 https://0rz.tw/T5loZ
可憐,有不知道哪來的神經病開分身又在那瘋了,請直
接無視即可,我原產業及其他某些人躲在ID後面的護城
河還真深,請直接無視,我長期提及過的,以後不想再
提,換成是各位以後碰到跟我這些年來一樣的狀況時,
才會理解這些小人有多沒人的下限可言
大談
@truehero 台灣不是國,哪來的總統
中研院也搞這個...
廢到笑XDDD
黑單他就好跟他討論是浪費時間
抱歉家裡失業6年精障 最近燥期到了 怎樣都壓不住 請
大家多擔待
其實看推文就知道某些人有病了吧..
對岸是沖繩嗎
美西吧(X)
說不定這個是外包做的,裡面的研究員都是草包
笑死www
把台積電輪班星人通通調去標記清理資料,
幾年之後國產LLM問世了, 請問能賣多少錢
太誇張
笑死
好可憐,有病的人快找人幫忙吧
體諒生病的人 然後頁面刪了但我記得CKIP一開始自己就有
說明有用到Atom-7b 就下架趕快拿掉就好了 加油
這告訴我們搞軟工也該有一點政治sense,因為這裡是台灣
哪個國家不用政治sense?中國嗎?
資工系學生:教授為什麼要禁止抄作業呢
爆
[問卦] 中研院自己做的大型語言模型怎麼了?中研院最近發布了他們自己開發的LLM 說是在處理繁體中文的任務上表現優異 可是小妹看了一下跑出來的成果20
Re: [討論] ChatGPT的思維是甚麼?阿肥外商碼農阿肥啦! 剛好看到這篇文章就回覆一下,這次大型語言模型(LLM)表現出來的是語言模型的湧現能 力,我其實不贊同LeCun說的LLM是歪路,畢竟雖然我們可以直覺知道加大網路連接數可能 是實踐人類大腦的一個重要步驟(畢竟人腦的連結數量跟複雜性在生物醫學上都有驗證), 但科學上不去驗證你沒辦法證明某些事情的。10
[閒聊] 沙耶之歌AI對話遊戲釋出以LLM對話模型製作 跟她講話會發生好感度變化,慢慢理解語言之後邁向結局 目前只支援英日文 --6
[情報] 微軟, META合作 Llama2上 Azure1. 標題: 微軟與META擴大他們的AI合作關係,讓Llama 2上Azure以及 windows 2. 來源: 微軟公司 3. 網址:6
Re: [問卦] ChatGPT改變了什麼行為模式?行? : : 業都發揮著重要作用,對許多人的生活產生了深遠影響。我想請問各位前輩,究竟Ch at : : T改變了哪些行為模式呢? : : 希望大家能分享一些寶貴的經驗和看法,讓我對ChatGPT及其對社會行為模式的影響5
Re: [問卦] AI發展到什麼程度你才會開始感到害怕?阿肥外商碼農阿肥啦!在下鍵盤研究員,基本上現在所有的模型本質上都還是弱人工智慧 的,只是這兩三年研究累積的體現。 當前還有很多問題是需要解決的,像是雖然有偏好模型,但LLM還是對於學習並非是有偏 的 ,這邊的偏好依舊需要人工大量去微調,這就跟我們人類差異很大。4
[情報] 首個中文SD模型開源:太乙對岸那邊IDEA研究院中的封神榜團隊釋出了第一個以中文為基礎的SD模型:太乙,已經可以在 Huggingface上面取得,這是基於SD1.4模型重新訓練了中文語言模型以取代原本的英文編碼器,但鎖定了圖像產生器,在一億級的中文語料庫上跑了24個epoch 另外一個中英文混合的模型則是同時fine-tune了語言編碼器以及圖像產生器。 這是他們的第一個 checkpoints 而且進行了開源,不過由於他們修改過編碼器的結構,所以模型不能直接丟進去 webui 裡面跑,團隊有提供修改版本以及修改辦法。 根據他們給的測試樣本來看,這個模型不但能理解白話文,更能理解文言文,像是唐詩,宋詞甚至駢文都沒有問題。2
Re: [問卦] ChatGPT問世,臺灣的AI大師在想什麼?阿肥外商碼農阿肥啦! 當前LLM像chatGPT即使問世,依舊還是有很多前沿問題沒解決,模型即使透過Instructio ns 由人工引導學習,還是很難達到真正的在線學習,人腦卻是可以時時重塑世界模型, 而且當前很多新研究都發現人腦耗電非常低但新皮質效能卻很高,而且LLM在很多層面即 使優於人腦,但是他卻缺少部分的世界模型。1
Re: [新聞] 台版ChatGPT雛型曝光 國科會用4個月秀TAI版 : 的生成式AI模型,耗時4個月今(14日)宣布第一階段成果,目前已投入70億個參數量 , : 針對繁體中文訓練,實測已達自動摘要、翻譯文本、寫信與寫文章,都有不錯表現,並 首- 請容我搬運一篇對岸知乎的文章, 這是一篇非常長的文章,其中大部分片段與本文無直接關聯,而且是2023/02寫的. 我只搬運本串相關的記憶體的部分,還有尾部的結論.且未修飾原文用字 詳細的有興趣請直接去原網址看吧. ChatGPT背後的經濟賬