鍍金池/ 問答/人工智能  數(shù)據(jù)分析&挖掘  PHP  Python/ CrawlSpider循環(huán)抓取網(wǎng)頁

CrawlSpider循環(huán)抓取網(wǎng)頁

在用CrawlSpider進(jìn)行爬取網(wǎng)頁新聞的時(shí)候我定義的rules是這樣的
圖片描述

現(xiàn)在遇到的問題是在這些網(wǎng)頁中有的有‘下一頁’按鈕,而按鈕的跳轉(zhuǎn)鏈接是相對(duì)的,比如是page2.html這類的,這樣的鏈接不符合我定義的正則提取規(guī)則,導(dǎo)致第二頁的頁面抓取不下來,請(qǐng)問可以怎么修改呢?拜托拜托大家了

回答
編輯回答
司令

rules是Rule的列表,所以你可以放多個(gè)規(guī)則不同的Rule

2018年6月19日 03:39