關(guān)于node爬蟲的問題

關(guān)于爬蟲的若干問題

最近想利用爬蟲去獲取較為大量的數(shù)據(jù)，但是在爬的過程中遇到了若干問題，所以來和各位大神討教一下，如能解答，感激不盡。

1. 對于網(wǎng)頁鏈接數(shù)量較多的時候，用什么方式去爬能提升效率？

我現(xiàn)在是將所有的子頁鏈接存到一個數(shù)組里面，在對數(shù)組鏈接map操作，然后去獲取每一頁的數(shù)據(jù)。但是我現(xiàn)在所爬到的子頁鏈接有上萬個，爬取這些鏈接需要很長的時間，獲取鏈接之后的請求頁面獲取數(shù)據(jù)也要很久的時間。所以我想知道，有沒有更好的方式能夠提高爬蟲的效率的。

2. 獲取數(shù)據(jù)和存儲數(shù)據(jù)應(yīng)該怎么處理

我在請求子頁面獲取數(shù)據(jù)之后，會將數(shù)據(jù)存儲到mongodb里面，但是事實證明，這種寫法讓我的爬蟲存儲效率低下，而且經(jīng)常出現(xiàn)堆棧溢出的情況。所以我想了解一下大神們獲取到數(shù)據(jù)之后是怎么存儲數(shù)據(jù)的，我聽過讀寫分離，但是不知道這具體是怎樣的一個概念，有大神講解下么~

3. 對于爬到錯誤數(shù)據(jù)的處理

有些時候，所爬到頁面的數(shù)據(jù)，是不符合存儲標(biāo)準(zhǔn)的，但是我不知道這部分的數(shù)據(jù)是應(yīng)該放過，還是重新請求頁面重新獲取一次。我現(xiàn)在是如果請求到的數(shù)據(jù)不合格，就會換個ip重新請求頁面，知道數(shù)據(jù)符合為止。但是這樣很有可能造成死循環(huán)，所以想知道大神們對這種狀況的處理方式。

4. 用mongo存儲數(shù)據(jù)的問題

從昨晚到今天，總共有將近7w個子鏈接，但是我的mongodb里只多了5k條數(shù)據(jù)。所以我想了解一下，關(guān)于mongodb，有沒有什么可參考數(shù)據(jù)之類的，可以讓我了解一下它的真實性能。順便如果有大神肯分享一些mongo使用技巧和心得的話，那就更感謝了。。。
小菜鳥新入門，如果有犯低級錯誤的地方，歡迎各位大神指正。

回答

編輯回答

尕筱澄

對于網(wǎng)頁鏈接數(shù)量較多的時候，用什么方式去爬能提升效率？

沒有辦法，網(wǎng)絡(luò)和帶寬限制

獲取數(shù)據(jù)和存儲數(shù)據(jù)應(yīng)該怎么處理

正常使用非內(nèi)存型數(shù)據(jù)庫存放即可，如上面答主所說，瓶頸不會在數(shù)據(jù)庫。因為網(wǎng)絡(luò)和帶寬限制，寫入量極其小。猜測你所說的堆棧溢出問題是因為遍歷全表使用callback導(dǎo)致。對mongodb不熟，建議使用mysql

對于爬到錯誤數(shù)據(jù)的處理

如你所說，你應(yīng)該分析并創(chuàng)建相應(yīng)的處理規(guī)則。符合規(guī)則的進行重試，比如有些網(wǎng)頁頻繁請求會限制ip等等，這些需要你重新請求，但是要設(shè)定次數(shù)，比如重試兩次。。除此之外所有異常，比如404等等，不去理會，繼續(xù)下一個任務(wù)

用mongodb存儲數(shù)據(jù)的問題

還是上面的結(jié)果，一個爬蟲遠遠達不到數(shù)據(jù)庫的性能上限。你只需要關(guān)注你寫的程序，有沒有遍歷全表的操作即可。

曾經(jīng)用mysql存了130G的MD5數(shù)據(jù)，大概10億條，查詢響應(yīng)還是和普通的查詢差不多。由此可見，只要是正確的查詢姿勢，沒有復(fù)雜的聯(lián)合查詢，一般不會觸及到性能上限

2018年3月29日 00:43

編輯回答

六扇門

爬蟲的瓶頸不應(yīng)該是數(shù)據(jù)存儲。比如你1分鐘爬取了50個頁面，那么也就是1分鐘往數(shù)據(jù)庫插入50條數(shù)據(jù)。假如1分鐘抓取1萬個頁面，那么往數(shù)據(jù)庫添加1萬條數(shù)據(jù)，這時候估計你數(shù)據(jù)庫就是瓶頸了。但這不可能，除非分布式抓取。目前我們有10幾臺服務(wù)器分布式抓取，一天抓取數(shù)百萬個網(wǎng)頁，數(shù)據(jù)庫都沒到瓶頸。
真到了這個瓶頸，建議引入redis緩解數(shù)據(jù)庫壓力。

2017年7月5日 00:57