Re: [問卦] 杜奕瑾:烏俄戰爭駐批踢踢內應的也沒閒著

sami012985 發表於 2022/3/28 下午1:12:10

看板Gossiping標題Re: [問卦] 杜奕瑾:烏俄戰爭駐批踢踢內應的也沒閒著作者

sami012985

(TingTing)時間Mar 28 13:12:10 2022推噓85 推:90 噓:5 →:77

PTT評價

看了一下原FB文內連結到的協同行為分析方法大公開的文章

裡面有AI Labs.tw的研究論文可以取得

Exploring Atypical Online Coincidental Behavior on PTT

不過要填姓名跟信箱就是了

花了一點時間看完了論文，基本上呢研究的方法沒甚麼問題

都是使用很基礎的Data mining 算法，consine similarity、tf-idf

其他看起來也沒有甚麼大問題，在clustering用的數學式是合理可以將族群分開的

唯一大概能說的就是在threshold的參數選擇上並沒有多加說明，這部分會有疑慮

裡面對於phi-coefficients設定>0.35的說明竟然是an expert-defined threshold

連引用資料都沒有，這要是碩士論文肯定被電飛

但本文重點不是探討研究方法，主要重點:

用得出的數據去探討結論這件事情很有趣，給不同立場的人看，會有不同的結論產生
而本篇論文的立場個人感覺超級偏頗，某方面來說是對的，換個角度想又覺得怪怪的

有興趣的往下看請搭配該網站得到的論文服用，就不截圖了

---------
以下是節錄翻譯
------------------------------------------------------------------------------名詞定義:coincidental users/group(協同用戶/組)，大致上是指由演算法分群得出的

User grouping基本上有兩個規則
考慮UserPair(UserA,UserB)
1.一個小時內用同一個IP上線推發文
2.越常同時出現在一篇文章中，或同時沒出現越容易被分到一組
若一人在一篇文章中出現，另一人沒出現則降低phi-coefficient

以該文章敘述的數據，本人推敲大概是兩個條件符合一個就會被分到一組
-----------------------------------------------------------------------------

在論文中的圖3(a)，該圖是熱點圖，顯示出了"所有"協同用戶在一天中的活動時間

通常是在下午兩點達到高峰，而圖3(b)則是與非協同用戶進行比較顏色越紅表示協同用戶相對比較常在這時段一起出現，藍色則相反

而這段得出的結論我蠻認同的，畢竟下午兩點就是防疫記者會召開的時間，所以關注疫情發展的人就會上來看/推/發文

-----------

論文的圖9，將不同的協同組分別製成熱點圖來看活動時間
可以看出，即使皆被分類為協同用戶，不同組之間的活動時間也是相差甚遠

-----------

圖12，
group 3 --- 67人 ---620則推文
可以看出這群人主要探討的主題皆圍繞在奧運以及與中國隊的對抗上

-----------

圖13，
group 11--- 25人 ---17338則推文
主題圍繞在乃木坂46，少部分有提到疫情跟疫苗

-----------

圖14，
group 18--- 26人 ---5854則推文
分為兩個部分
第一部分為使用負面詞彙指責DPP使用中國作為得不到疫苗的藉口
第二部分為奧運與中國的對抗上

----------

圖15，
group 19--- 19人 ---930則推文
在"國產"此一詞上擴展出"棒棒"、"受制於人"
是在諷刺地表達對國產疫苗的不信任與進口疫苗缺乏的不滿
而"穩到"
則是在諷刺台灣政府在疫情時的無效政策

---------

圖16，
group 32--- 15人 ---19450則推文
這組人最少卻有最多的貼文
基本沒有具體討論的主題，而只有具有攻擊性的侮辱詞彙，且大家用的詞彙都差不多

"他媽(Fucking)"
"肥宅(Fat nerds)"
"臺灣價值(Taiwan value)"

可以看到用這類侮辱來反映對臺灣處理疫情的不滿

然而這組對於中國的敵意卻是最強的
"臺灣統一中國"、"臺灣才是正統中國"

--------

另外比對圖9跟圖3，
可以看出當考慮所有的協同用戶時，看不出有明顯的活動時間
但考慮個別協同組時，可以看出群體表現出或多或少的模式傾向
雖然不是全部都可以觀察的出來(例如第3組)

--------

在本論文中，根據共用IP、活動時間、敘述，研究人員得出結論，這些模式不是隨機產生他們是有意識地，合力地參與了討論。
儘管無法證明其意圖是操控輿論，但研究人員找不到其他合理解釋說明這些行為具有正當性。因為他們與非協同用戶是如此不同。

--------

可以觀察到以下六種行為:
1.每個協同組有相似的活動時間
2.更喜歡參與推文而非發文，且有更高的煽動值
3.協同用戶們展現出較高的操縱模式
4.不同協同組展現出了不同的行為偏好
5.一些協同組只使用一個負面/操縱口號，而其他則使用多個或根本不用
6.不同協同組展現不同的敘述偏好跟詞彙選擇

--------

而在1985個事件之中，有880起非典型事件(這裡大概是指有協同用戶/組)，約佔一半表現出了操縱行為，而且可能且確實發生在各種主題上，包括體育、商業、娛樂、政治等。

--------
節錄翻譯結束，以下感想
--------

好了，你各位阿
每天生活作息規固定時間上來PTT看熱鬧的鄉民
在這種算法上都很容易被歸類為協同用戶/組(網軍/公關公司?)

確實這種算法是有機會抓出網軍
但光看數據我就覺得這裡面的誤差肯定很大
討論奧運都可以被抓出來
奧運本來就是特定時間有特定選手/比賽所以會同時討論

人本來就會有自己的偏好，不論是行為還是愛好

八卦版基本上甚麼都可以討論
可能有人就想討論個奧運、地震發文告白、承認包莖，盜懶覺^Q^
在推文底下嗆人肥宅，嘴人媽媽

更何況在心理學上早就有研究表明人無意間會受到他人影響，而改變自己的行為模式

還有意見領袖，在各個論壇都會存在
常常會有人看到某個ID發文，底下一堆先推再說的，不然就是先給尊重
現在通通要被當作協同(認知)作戰的打手囉

建議杜先生請把論文中提到共用IP、且行為模式相近的帳號做一波整理
直接送往帳號部請他們確認是不是異常帳號
看到底有多少的網軍帳號可以抓出來
而不是用別的平台來影射PTT裡面很多中共內應

然後實際上在PTT上被抓出來的大部分都是塔綠班的內應喔

還有要不要做一篇協同作戰分析正面論述天天對塔綠班歌功頌德的
是不是跟罵政府的一樣會被你抓出來有共同行為模式呢?

整篇論文的結論竟然是
"雖然不能證明有在操縱輿論，但研究人員想不出來這麼做的正當性"
那我也懷疑有人在操縱大眾輿論，抹黑PTT，因為我想不出這麼做的正當性

※ PTT 留言評論

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.205.48.180 (瑞典)

※ PTT 網址

推

no2muta 03/28 13:14這些人跟苦無不就一個樣面對塔綠班就閉

→

no2muta 03/28 13:14嘴了

推

whitenoise 03/28 13:14連引用資料都沒有，就不用看了

參數在Data Mining之類的數據科學超級重要的有些情況下可以透過調整參數來得出相反的結果

推

DustToDust 03/28 13:14一堆反串怎麼抓

推

turbomons 03/28 13:16簡單說就是包裝比較好的文字獄說你五

→

turbomons 03/28 13:16毛就是五毛

推

deann 03/28 13:16結論很簡單討厭民進黨的都是中共同路人

推

DavidFoster 03/28 13:17就問你杜老爺一句，名單呢？

其實名單在他們提供的github上面是有檔案可以抓的我是沒有抓啦，我這邊半夜想說閒來無事看他到底怎麼分析的看完就馬上來發文了

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:20:29

推

CYL009 03/28 13:17我比你更短的結論苦無證據先抹再說

推

cerberi 03/28 13:18推

推

wste 03/28 13:18可能想當網軍的創世神吧 ptt創世神名號沒價

推

whitenoise 03/28 13:18那不叫研究，那叫專欄社論

→

wste 03/28 13:18值了

推

smalltwo 03/28 13:19簡單一句話.我沒有證據.但是肯定是這樣

→

CPer 03/28 13:19來八卦版本來就是來討論類似議題

推

leafall 03/28 13:19影射最有殺傷力

推

fatdoghusky 03/28 13:19舉手提問，請問論文只有研究八卦嗎?

→

fatdoghusky 03/28 13:20其實以他的研究方式，研究前幾熱門板

→

fatdoghusky 03/28 13:20也是會得到一堆偕同群組吧?

該篇研究只探討八卦版個人認為套用到其他版大機率可以得出類似的結論

→

CPer 03/28 13:21喜歡參與推文那也是因為發文限制較多

沒錯很多因素都沒有考慮，單拿數字雲來說有人在協同作戰當內應我只能說非!常!奇!怪!

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:22:57

推

bighorse0 03/28 13:21抓到乃木坂46的網軍

推

AlianF 03/28 13:21靠腰發文少臭了嗎

→

smalltwo 03/28 13:21倚靠的就是相信我之術

推

basslife 03/28 13:22你太認真了吧= =

→

CPer 03/28 13:22把PTT給的限制造成的影響當作觀察也是搞笑

噓

whitezealman 03/28 13:22超譯逐字稿 ZZZZZzzzzzz

推

ALAN781215 03/28 13:22抓蟑螂和瑋豐需要証據互相連結論証，

→

ALAN781215 03/28 13:22抹鄉民五毛只需要”感覺和苦無”

→

CPer 03/28 13:22不要限制發文不要整天檢舉那我還不發爆

推

tim96tim 03/28 13:23先抹贏一半選我正解

推

p2p8ppp 03/28 13:23人的行為都會有模式可循的不然社會科學

推

Lailungsheng 03/28 13:23論文綠舔狗有正當性，收錢吹喇叭

→

p2p8ppp 03/28 13:23就不用玩了不能說有模式就是網軍阿

苦無證據，但我想不出正當性所以你是協同作戰喔啾咪><

推

belion 03/28 13:24但，就苦無證據：3

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:25:29

→

CPer 03/28 13:24發文活動時間也是會來看八卦板通常都是有點

推

fatdoghusky 03/28 13:25感謝解答，那他這個研究方式一點用也

推

tspes40801 03/28 13:25推用心

→

fatdoghusky 03/28 13:25沒有，頂多抓出有同群人對相同話題

→

fatdoghusky 03/28 13:25有興趣而已...

→

CPer 03/28 13:25閒但得正經做事的時候簡單說就是大家上班偷

→

CPer 03/28 13:26懶時段所以當然活動時間類似這些根本屁話

而且論文內提到的negative slogans 很多根本就是塔綠班自己說過的話被拿來當梗用玩梗也要被當作網軍，那請問那些鬧出這些笑話的是不是才是中共同路人

推

no2muta 03/28 13:26塔綠班網軍都已經被抓到被判刑檯面上沒

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:28:44

→

no2muta 03/28 13:26有一個敢嘴的笑死

→

CPer 03/28 13:26 正經坐在電腦前

推

bighorse0 03/28 13:26參考一下公園阿北的聊天群聚

→

bighorse0 03/28 13:27差不多的內容每天準時開講

→

bighorse0 03/28 13:27比起五毛我覺得在八卦找到更可悲的現

→

Athchen 03/28 13:279000萬的成果可悲

→

bighorse0 03/28 13:27象

推

small91051 03/28 13:27就拿政府標案生些XX騙經費吧

也有可能是無辜的大學生或是碩士生被教授找去做這種研究吧個人看這篇研究的感覺是應該有人生出基礎數據然後讓人拿去大作文章

推

Vladivostok 03/28 13:29Holo 廚也是在西洽協同作戰的意思啦

→

Vladivostok 03/28 13:29，尤其開直播的時候

沒有錯啦

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:32:06

推

Submicromete 03/28 13:30原來如此

→

Vladivostok 03/28 13:30惡魔旅館如果每天定時發文，也可能

→

Vladivostok 03/28 13:30會判協同作戰

推

p2p8ppp 03/28 13:31HOLO廚協同作戰...我被說服了

推

shadowdio 03/28 13:32那些常在金城武文推文的是什麼人

冒充我的鄉民們不過大家玩得開心就好我沒關係的

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:33:42

推

eddyhsin 03/28 13:33Ptt

推

linlin110 03/28 13:34噁心巴拉

噓

holydc 03/28 13:35算法

推

sobiNOva 03/28 13:37應該先用這個算法抓綠色網軍

推

yannicklatte 03/28 13:38我文組看不懂啦，反正你們都網軍啦

→

sobiNOva 03/28 13:38一個綠色集群都沒有公信力=0

推

sharkimage 03/28 13:39杜真的是跌落神壇

推

tom282f3 03/28 13:39holo廚笑死

→

sobiNOva 03/28 13:39綠色一堆用LINE成群刷推噓的

→

sobiNOva 03/28 13:40抓不到半個好了吧人工智障實驗室

→

blueseal 03/28 13:40這個研究八成是要拿去繼續申請經費的啦

→

blueseal 03/28 13:40，虧你還這麼認真

在國外念書偶爾還是關心一下臺灣 OK8 反正科系也相關看起來不會很吃力倒是翻譯不是我強項順便練習練嫌

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:43:08

推

wwl0909 03/28 13:42笑死嘴台灣價值就是五毛這個真的是鄉民

→

wwl0909 03/28 13:42嗎做的研究嗎

噓

lspci 03/28 13:43先射箭再畫靶的研究論文拿去跑政黑板看看

其實杜先生拿出來的演算法其實基本上都正確如我文章所述但就真的在結論上讓人感覺濃濃的先射箭再畫靶阿論文中也承認，某些推文集中在下午兩點是因為防疫記者會都是下午兩點召開怎麼到最後寫結論的時候這些該拿出來說可能會造成誤差的因素都不見了只留下因為想不到正當性所以合理懷疑的結論

推

chichung 03/28 13:43有人會說台灣統一中國正統中國才奇怪

推

Aliensoul 03/28 13:45喊ptt有五毛=財富密碼

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:49:00

推

sxy67230 03/28 13:46感謝分享論文搜索方法，我這邊看代碼也

→

sxy67230 03/28 13:46有看到奇怪的coefficient，我本來以為是

→

sxy67230 03/28 13:46有做實驗得到的，結果真的鳥

→

gibbs1286 03/28 13:46先抹啊，他只是一隻超大綠色蟑螂而已

→

sxy67230 03/28 13:47不知道這篇paper 是怎麼過審的，像這種

→

sxy67230 03/28 13:47超參沒實驗沒給reference 肯定被我研所

→

sxy67230 03/28 13:48教授釘到起飛

推

lspci 03/28 13:48跟著黨媽媽有肉吃有湯喝標案一大堆超爽

升官發財請走...

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:49:50

推

olivewood 03/28 13:51跟關貿差不多，一起吃香喝辣

推

s8800892000 03/28 13:51不管啦說你們五毛就五毛

推

pouy 03/28 13:52這年頭作賊喊抓賊才是顯學

推

CGSBN 03/28 13:54你在瑞典讀CS嗎？感覺很猛他創立的那個la

→

CGSBN 03/28 13:54b根本來搞笑的==

我在瑞典讀IT 那個LAB也不是全部都這樣的啦也有產出有些在不同領域的AI運用論文稍微瞄過幾篇，也是有幾篇有水準的

推

kps1247 03/28 13:54反串的有辦法區分嗎

有前後文，且能分析的資料夠大是有機會區分出來的

推

annie06045 03/28 13:55推分析文!

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 13:59:01

推

slygun 03/28 13:59有錢能使神當狗

→

elvis30901 03/28 14:04垃圾進，垃圾出

推

ntujokeking 03/28 14:08推

推

ganbastar 03/28 14:08嗯跟我想的差不多

推

brainpowered 03/28 14:08結論就是討厭民進黨的=中共同路人

推

auxiliary11 03/28 14:09基進側翼科科

欸不對欸該不會杜先生的國際論文是在自己架的網站放上一篇用英文寫的文章就變成國際論文了吧 !?!?

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 14:16:16

推

vizcacha 03/28 14:17對杜真的是失望透頂

推

jacklin2002 03/28 14:18認真分析推

推

goodtaste 03/28 14:20你跟苦無系認真就是你輸

噓

miku3920 03/28 14:22高機率啦幹，概率支語

已修正概率是支語喔

推

winiS 03/28 14:22想當PTT滅世神了吧，至於為什麼會有這樣的

→

winiS 03/28 14:22轉變… 要問杜先生自已了

推

t77133562003 03/28 14:24阿不就先射箭再畫靶笑死這樣抓一

→

t77133562003 03/28 14:24定有相似行為啊

主要問題是今天這份研究產生出來的結果是 1.大部分被分群找出的協同用戶/組都有自己相似的活動時間、模式 2.還是僅有文章中抓出來的四個組有這兩個在意義上差別就很大

推

xhung 03/28 14:25不要這麼專業好嗎

※ 編輯: sami012985 (185.205.48.180 瑞典), 03/28/2022 14:31:52

→

xhung 03/28 14:26這只是一條龍的抹黑鏈的其中一環...

推

uhbygv45 03/28 14:29辛苦您了他們只是在畫星座而已

→

sigamo 03/28 14:30創世神早就跌落神壇

推

RAY1203 03/28 14:32民進黨把台灣人民當笨蛋嘛= =?

推

abadjoke 03/28 14:32這種東西能不能過碩論都要問號了

推

applejone 03/28 14:40AI給的權重值很重要 GIGO知道吧

推

uhbygv45 03/28 14:41概率哪邊是支語了只是台灣比較少用而已

推

billchen123 03/28 14:41總而言之就是用COSINE相似度做分群

→

billchen123 03/28 14:42然後用高大上的名詞，協同過濾

→

billchen123 03/28 14:42Collaborative Filtering來包裝解釋

推

derekhsu 03/28 14:46分群這種做法解釋起來要很小心

→

vvrr 03/28 14:46這篇論文和AI有關的部份只有預處理用BERT?

→

hackfox 03/28 15:02說你五毛就是五毛，莫須有

推

Thorvs 03/28 15:06想硬套結果操縱輿論者想不出正當性很合理

推

vsbrm 03/28 15:14上班早餐同路人，上班廁所同路人，上班抽煙

→

vsbrm 03/28 15:14同路人，以上請勿同時發廢文...謝謝

推

mokke 03/28 15:20杜先生這種文章很可怕的可以騙到多數智商

→

mokke 03/28 15:20不高的人又成功黑了ptt一波

推

greco0616 03/28 15:31這篇發表在那裡啊?用google scholar 搜

→

greco0616 03/28 15:33不到原本也想來拜讀一下的

在他們自家的ai labs網站上做的"國際發表"喔

噓

kc 03/28 15:35我們只研究對民進黨不利的，有問題嗎？

推

BREAKFAST204 03/28 15:49黨說你是五毛你就是五毛啦

推

x0003 03/28 16:05根本不用演算法，貼一篇蔡英文的新聞

→

x0003 03/28 16:05下面噓文的全列為五毛就好

→

keith3a3a 03/28 16:08專業推

推

Rootless 03/28 16:25台灣統一中國蔡垃圾總統塔綠班網軍死

→

Rootless 03/28 16:25全家

推

NEWSTAY 03/28 16:31就算找出相似行為的用戶組他怎麼得到有

→

NEWSTAY 03/28 16:32內應的這個結論？內應是誰的內應？

目前並沒有看到有針對烏俄戰爭事件進行的分析網站上只有找到針對疫情期間的協同分析所以無法確定到底是誰的內應不過看杜先生的文章明顯在影射中國內應吧

推

Asato163 03/28 16:35推專業+認真

推

wish40512 03/28 16:36推

→

clone29 03/28 16:47哈哈哈哈哈

→

ssccg 03/28 17:19這種無聊套工具算法上去分析的結果如果是

→

ssccg 03/28 17:19「研究人員想不出來這麼做的正當性」的話

→

ssccg 03/28 17:20很可能根本就只是非常正常的自然現象

→

ssccg 03/28 17:21找不出實例、因果，就只有我發現了一個不知

→

ssccg 03/28 17:22道是不是自然的模式，就冒然認定這是種特徵

→

ssccg 03/28 17:22然後再跟自己的想法聯結，這是在做研究?

推

mission985 03/28 17:22推，這些都是Data mining很基本的方法

→

ssccg 03/28 17:24標準垃圾進垃圾出的東西耶..

推

flyslam 03/28 18:14好專業的文

推

sted0101 03/28 18:21苦無

推

meowmeowwoo 03/28 18:29如果10年前ptt也有grouping的現象那

→

meowmeowwoo 03/28 18:29又會怎麼掰呢^^

推

curance 03/28 18:39推

推

boy80421 03/28 19:23這種作法至少也要有多參數的結果更不要

→

boy80421 03/28 19:24說這種人類行為學的資料居然用tf-idf 整

→

boy80421 03/28 19:24個感覺就是在湊算法跟參數導向自身期望

人類心理、社會行為學很複雜從眾心理、厭惡損失、鏡像神經元對行為的影響等，這些都還只是心理學的基礎今天他找出有些群體有接近的行為模式他應該說說，目前為止的結果很有趣這裡應該是可以往下繼續研究探討的問題點，為何看似隨機的狀態中間會有一群人有這些行為不是單單說一句喔 "這裡可能有人在操縱輿論並且也沒有其他具有正當性的說明"

推

alcpeon911 03/28 20:03理組苦無

推

darkangel119 03/28 20:32垃圾演算法當然就是先預設你就是五

→

darkangel119 03/28 20:32毛先抹先贏

推

mynewid 03/28 20:52笑死

推

TouchAgain 03/28 21:36推專業整理

推

shi21 03/28 22:11推