與我們合作
我們專注:網站策劃設計、網絡輿論監控、網站優化及網站營銷、品牌策略與設計
主營業務:網站建設、移動端微信小程序開發、APP開發、網絡運營、云產品·運維解決方案
有一個品牌項目想和我們談談嗎?
您可以填寫右邊的表格,讓我們了解您的項目需求,這是一個良好的開始,我們將會盡快與您取得聯系。當然也歡迎您給我們寫信或是打電話,讓我們聽到您的聲音
您也可通過下列途徑與我們取得聯系:
地 址: 上海市長寧區華寧國際7L
電 話: 400-825-2717(咨詢專線)
電 話: 13054973230(售后客戶服務)
網 址: http://www.586918.cn
傳 真: 021-61488448
郵 箱: [email protected]
快速提交您的需求 ↓
網站采集教程-采集馬蜂窩
發布日期:2024-01-07 瀏覽次數:36202
其一:馬蜂窩采用了“加速樂”SCDN,這個CDN厲害之處在利用爬蟲腳本非瀏覽器特性,利用了IP->http 521->cookie:__jsluid_s->http 521 ->cookie:__jsl_clearance_s->cookie: __jsluid_s+ __jsl_clearance_s->http 200
其二:__jsluid_s又是IP+瀏覽器關系,換了IP會導致__jsl_clearance_s失效,繼續http頭部報521
其三:__jsl_clearance_s,他有時效性,目前估算是45分鐘,也就是意味著,45分鐘后,必須重新獲取到最新的且有效的值
其四:SCDN,還有請求訪問頻率限制(根據IP),超出qps頻率,IP直接被封30分鐘,http頭部返回403拒絕。
其五:馬蜂窩部分業務,最多讓你前25頁的數據,就算原則游10000多頁,但也只能讓拿到前25頁數據
那么怎么解決呢?
【有錢人的方案】
采用python+v8擴展,可以參考另外大神 分析過程 https://blog.csdn.net/YungGuo/article/details/109818327,以及代碼樣本 https://github.com/YungGuo08/WebSpider/tree/master/cookie_analysis/1
IP呢? 免費的http代理不靠譜,花錢找一個服務商提供代理池,你得同時要解決每個IP應該需要爬取多少個http請求,不然會進入403被封IP的禁地
【窮人的方案】
PC+chrome+F12,手動抓取__jsluid_s + __jsl_clearance_s,
如果出現403,讓爬蟲等待30分鐘,接著干活
對于我本人,哈哈,當然屬于窮人一列了。
本站僅提供存儲功能,如果文章侵犯了您的權益,請隨時聯系我么。

