PTT評價

[請益] js有辨法寫爬蟲嗎

看板Soft_Job標題[請益] js有辨法寫爬蟲嗎作者
vi000246
(Vi)
時間推噓13 推:13 噓:0 →:29

打算寫一支591爬蟲

有符合條件的新物件就跳出通知

因為懶得架server跟DB 想用chrome extension來做

稍微做了研究

發現要取得房屋列表json

需要先進到591頁面

取得cookie的591_new_session跟html裡面<meta>中的csrf-token

分別放到get reqeust中的header跟cookie

才能取到我要的資料

想問用js能做得到嗎 還是一定要後端語言呢

如果要做成後端 要能設定定時執行

還要考慮跨電腦同步db問題 只打算存物件id用來判斷重複物件

想到就覺得麻煩...

好像還沒看過有人用純js寫爬蟲的?



--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.68.118.128 (臺灣)
PTT 網址
※ 編輯: vi000246 (219.68.118.128 臺灣), 07/18/2020 19:37:55

diabloevagto07/18 19:33可以

milktea73607/18 19:34應該可以用 nodejs 試試?

alihue07/18 19:35JS 會先處理 CORS 到爆

cors超討厭的 害我的載片小幫手沒辨法在頁面inject預覽圖 只能用開新視窗的方式

※ 編輯: vi000246 (219.68.118.128 臺灣), 07/18/2020 19:39:50

dreamnook07/18 19:51可以 查apify

dreamnook07/18 19:52啊 不過我抓的是靜態頁面 可能不符

MOONY13507/18 19:54非常討厭CORS

MOONY13507/18 19:54python他不香嗎

MOONY13507/18 19:55db跟server 用docker不就幫你裝好了

yahooc07/18 19:57真香

x12335607/18 20:00我覺得你可以先搞懂為什麼會有CORS存在 還有api gateway

leo591626707/18 20:40不然直接去591客服問怎麼爬你們家的網頁

MOONY13507/18 20:59https://reurl.cc/9Elgea + cron 給我香起來

guanting88607/18 21:41....

seal011207/18 21:43用node.js寫 不會很難 用js browser會因為cors擋

BlacksPig07/18 21:4311樓意見不錯,已笑翻

fantasychese07/18 23:35最近剛好在學 你須要的是Puppeteer

Ayukawayen07/18 23:51extension在background發XHR應該就不會被CORS擋

Ayukawayen07/19 00:03不過要先在manifest的permissions把目標網域加進去

Mamann07/19 00:21直接nodejs不用cors啦

zxc889954607/19 00:23用cheerio處理html 抓取你要的部分就好

vi00024607/19 01:21大家講的都是node.js 看來只能用後端寫了

TakiDog07/19 01:31在瀏覽器執行一定撞cors,載片我都寫Python

TakiDog07/19 01:32直接把連結用 書籤放js丟給python後端XD

leo591626707/19 02:31cors可以關掉瀏覽器的cors看看,或是你webpack用proxy

leo591626707/19 02:31 繞過去,但就只是自己用爽的而已

vi00024607/19 02:57我打算用python寫了 買個便宜主機設定cron job

vi00024607/19 02:57資料庫用jsonbin 應該能解決我的問題

kewang07/19 09:50SSR 還好,如果你是 CSR 的話就一定要用後端處理了,puppe

kewang07/19 09:50teer 操作萬解

apotatostory07/19 12:17前端我用angular 框架 用proxy 啟動不會cors哦

qq076qq07607/19 15:15樓上,ng就是幫你起了一個本地的node伺服器做proxy啊.

qq076qq07607/19 15:15..

chatnoir07/19 15:57有proxy當然不會有cors啊 =_=

Hsins07/19 19:07GitHub Actions 就能搞定的東西,為什麼要自己租伺服器?

Hitmear07/20 14:46591我之前用python直接打request,一下就搞定了

Hitmear07/20 14:47放在heroku上也免費

jihon200207/21 01:26這樣找租屋變好方便XD

jobintan07/21 08:02Heroku免費的應該有限制吧!還是去官網看一下比較好。

vi00024607/21 08:57heroku我記得一天要休眠6小時 沒人戳也會自動休眠

infixman07/22 09:58heroki不是綁信用卡就不用休眠?

infixman07/22 09:59*heroku

aa0669707/23 14:3311樓XD