鍍金池/ 問答/PHP  Python  網(wǎng)絡(luò)營銷/ 爬取微信公眾號(hào)的文章,使用哪種方式比較好

爬取微信公眾號(hào)的文章,使用哪種方式比較好

最近遇到了一個(gè)問題,想要獲得微信公眾號(hào)的歷史信息也就是文章,然后我再網(wǎng)上找了一些資料,大概有兩個(gè),一個(gè)是調(diào)用微信搜狗的方法,一個(gè)是用代理服務(wù)器https://zhuanlan.zhihu.com/p/...。然后微信搜狗可能有驗(yàn)證碼或者封ip的問題,而且因?yàn)槲⑿诺男畔⑹菍?duì)外屏蔽的,也就是不能再瀏覽器端打開那個(gè)歷史信息頁面,所以我不是很清楚使用什么方法會(huì)更有效點(diǎn),或者說用Python是不是能解決類似的問題,聽說py的爬蟲是挺有名的,所以我想請(qǐng)教一下我該如何解決這個(gè)問題?謝謝

回答
編輯回答
神曲

兩種方式都可以,但是搜狗那個(gè)方案下要考慮驗(yàn)證碼和IP被封的問題,很容易觸發(fā)反爬策略,第二種方式也就是中間人模式,這個(gè)比較穩(wěn)定,但是就是速度慢了點(diǎn),爬的時(shí)間長了會(huì)被封(不能24小時(shí)不停的爬),會(huì)提示操作頻繁,要等至少12個(gè)小時(shí)才能再用,另外一個(gè)比較明顯的缺陷就是搜狗其實(shí)收錄的公眾號(hào)并不全,例如你試試搜“招商銀行”,搜搜誰搜不到官方賬號(hào)的,手機(jī)端是可以的

2017年1月25日 18:09
編輯回答
尐飯團(tuán)

都可以的,curl也可以,騰訊防爬蟲技術(shù)確實(shí)很厲害,可能你會(huì)需要打碼

2017年8月1日 12:58