鍍金池/ 問答/數(shù)據(jù)分析&挖掘  Java  PHP  Python  網(wǎng)絡(luò)安全/ 網(wǎng)頁信息爬蟲的進來討論一下

網(wǎng)頁信息爬蟲的進來討論一下

圖片描述

圖片描述

圖片描述

如圖三個網(wǎng)站,我們需要抓取公司名,地址,手機號;
手機號比較好弄,正則即可;但是準確率不是很高;比如有一串數(shù)字 1860126157733;
會扣出18601261577 作為手機號;
公司名,地址 抓取率很低;
不知道有沒有做類似的朋友可以討論一下

ps:圖片來源于網(wǎng)絡(luò),因為是對公網(wǎng)公開的,信息我沒有馬賽克

回答
編輯回答
萌吟

clipboard.png

如果是我來做的話,大概采用這么個思路。首先找到關(guān)鍵信息所在位置。信息都有具體的層級結(jié)構(gòu),具體到對應(yīng)到哪個html標簽,這個html標簽具有什么class屬性,這么一步作用是縮小了范圍。然后查找關(guān)鍵字:比如公司名稱、手機、姓名之類的,找到關(guān)聯(lián)的字段。最后考慮用正則輔助。

2017年6月16日 04:04
編輯回答
久舊酒

這個好辦,phpspider了解下

2017年8月19日 19:44