初級的爬蟲我們利用 urllib 和 urllib2 庫以及正則表達式就可以完成了,不過還有更加強大的工具,爬蟲框架 Scrapy,這安裝過程也是煞費苦心哪,在此整理如下。
我的系統(tǒng)是 Win7,首先,你要有 Python,我用的是2.7.7版本,Python3 相仿,只是一些源文件不同。
官網文檔:http://doc.scrapy.org/en/latest/intro/install.html,最權威噠,下面是我的親身體驗過程。
安裝過程我就不多說啦,我的電腦中已經安裝了 Python 2.7.7 版本啦,安裝完之后記得配置環(huán)境變量,比如我的安裝在 D 盤,D:\python2.7.7,就把以下兩個路徑添加到 Path 變量中
D:\python2.7.7;D:\python2.7.7\Scripts
配置好了之后,在命令行中輸入 python –version,如果沒有提示錯誤,則安裝成功
http://wiki.jikexueyuan.com/project/python-crawler-guide/images/31.png" alt="" />
在 windows下,必須安裝 pywin32,安裝地址:http://sourceforge.net/projects/pywin32/
下載對應版本的 pywin32,直接雙擊安裝即可,安裝完畢之后驗證:
http://wiki.jikexueyuan.com/project/python-crawler-guide/images/32.png" alt="" />
在 python 命令行下輸入
import win32com
如果沒有提示錯誤,則證明安裝成功
pip 是用來安裝其他必要包的工具,首先下載 get-pip.py
下載好之后,選中該文件所在路徑,執(zhí)行下面的命令
python get-pip.py
執(zhí)行命令后便會安裝好 pip,并且同時,它幫你安裝了 setuptools
安裝完了之后在命令行中執(zhí)行
pip --version
如果提示如下,說明就安裝成功了,如果提示不是內部或外部命令,那么就檢查一下環(huán)境變量有沒有配置好吧,有兩個路徑。
http://wiki.jikexueyuan.com/project/python-crawler-guide/images/33.png" alt="" />
在 Windows下,是沒有預裝 pyOPENSSL 的,而在 Linux 下是已經安裝好的。
安裝地址:https://launchpad.net/pyopenssl
lxml 的詳細介紹 點我 ,是一種使用 Python 編寫的庫,可以迅速、靈活地處理 XML
直接執(zhí)行如下命令
pip install lxml
就可完成安裝,如果提示 Microsoft Visual C++ 庫沒安裝,則 點我 下載支持的庫。
最后就是激動人心的時刻啦,上面的鋪墊做好了,我們終于可以享受到勝利的果實啦!
執(zhí)行如下命令
pip install Scrapy
http://wiki.jikexueyuan.com/project/python-crawler-guide/images/34.png" alt="" />
pip 會另外下載其他依賴的包,這些就不要我們手動安裝啦,等待一會,大功告成!
輸入 Scrapy
如果提示如下命令,就證明安裝成功啦,如果失敗了,請檢查上述步驟有何疏漏。
http://wiki.jikexueyuan.com/project/python-crawler-guide/images/35.png" alt="" />
Linux 下安裝非常簡單,只需要執(zhí)行幾條命令幾個
sudo apt-get install python2.7 python2.7-dev
首先下載 get-pip.py
下載好之后,選中該文件所在路徑,執(zhí)行下面的命令
sudo python get-pip.py
由于 Linux下已經預裝了 lxml 和 OPENSSL
如果想驗證 lxml ,可以分別輸入
sudo pip install lxml
出現(xiàn)下面的提示這證明已經安裝成功
Requirement already satisfied (use --upgrade to upgrade): lxml in /usr/lib/python2.7/dist-packages
如果想驗證 openssl,則直接輸入 openssl 即可,如果跳轉到 OPENSSL 命令行,則安裝成功。
接下來直接安裝 Scrapy 即可
sudo pip install Scrapy
安裝完畢之后,輸入 scrapy
注意,這里linux下不要輸入 Scrapy,linux 依然嚴格區(qū)分大小寫的,感謝 kamen 童鞋提醒。
如果出現(xiàn)如下提示,這證明安裝成功
Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
截圖如下
http://wiki.jikexueyuan.com/project/python-crawler-guide/images/36.png" alt="" />
如有問題,歡迎留言!祝各位小伙伴順利安裝!