綜述

1. 綜述

Cookie 的使用

1. Cookie 的使用

爬蟲基礎了解

1. 爬蟲基礎了解

計算大學本學期績點

1. 計算大學本學期績點

抓取淘寶 MM 照片

1. 抓取淘寶 MM 照片

爬蟲框架 Scrapy 安裝配置

1. 爬蟲框架 Scrapy 安裝配置

模擬登錄淘寶并獲取所有訂單

1. 模擬登錄淘寶并獲取所有訂單

Urllib 庫的高級用法

1. Urllib 庫的高級用法

URLError 異常處理

1. URLError 異常處理

正則表達式

1. 正則表達式

Beautiful Soup 的用法

1. Beautiful Soup 的用法

爬取糗事百科段子

1. 爬取糗事百科段子

爬取百度貼吧帖子

1. 爬取百度貼吧帖子

Urllib 庫的基本使用

1. Urllib 庫的基本使用

爬蟲框架 Scrapy 安裝配置

初級的爬蟲我們利用 urllib 和 urllib2 庫以及正則表達式就可以完成了，不過還有更加強大的工具，爬蟲框架 Scrapy，這安裝過程也是煞費苦心哪，在此整理如下。

Windows 平臺

我的系統(tǒng)是 Win7，首先，你要有 Python，我用的是2.7.7版本，Python3 相仿，只是一些源文件不同。

官網文檔：http://doc.scrapy.org/en/latest/intro/install.html，最權威噠，下面是我的親身體驗過程。

安裝 Python

安裝過程我就不多說啦，我的電腦中已經安裝了 Python 2.7.7 版本啦，安裝完之后記得配置環(huán)境變量，比如我的安裝在 D 盤，D:\python2.7.7，就把以下兩個路徑添加到 Path 變量中

D:\python2.7.7;D:\python2.7.7\Scripts

配置好了之后，在命令行中輸入 python –version，如果沒有提示錯誤，則安裝成功

http://wiki.jikexueyuan.com/project/python-crawler-guide/images/31.png" alt="" />

安裝 pywin32

在 windows下，必須安裝 pywin32，安裝地址：http://sourceforge.net/projects/pywin32/

下載對應版本的 pywin32，直接雙擊安裝即可，安裝完畢之后驗證：

http://wiki.jikexueyuan.com/project/python-crawler-guide/images/32.png" alt="" />

在 python 命令行下輸入

import win32com

如果沒有提示錯誤，則證明安裝成功

安裝 pip

pip 是用來安裝其他必要包的工具，首先下載 get-pip.py

下載好之后，選中該文件所在路徑，執(zhí)行下面的命令

python get-pip.py

執(zhí)行命令后便會安裝好 pip，并且同時，它幫你安裝了 setuptools

安裝完了之后在命令行中執(zhí)行

pip --version

如果提示如下，說明就安裝成功了，如果提示不是內部或外部命令，那么就檢查一下環(huán)境變量有沒有配置好吧，有兩個路徑。

http://wiki.jikexueyuan.com/project/python-crawler-guide/images/33.png" alt="" />

安裝 pyOPENSSL

在 Windows下，是沒有預裝 pyOPENSSL 的，而在 Linux 下是已經安裝好的。

安裝地址：https://launchpad.net/pyopenssl

安裝 xml

lxml 的詳細介紹點我，是一種使用 Python 編寫的庫，可以迅速、靈活地處理 XML

直接執(zhí)行如下命令

pip install lxml

就可完成安裝，如果提示 Microsoft Visual C++ 庫沒安裝，則點我下載支持的庫。

安裝 Scrapy

最后就是激動人心的時刻啦，上面的鋪墊做好了，我們終于可以享受到勝利的果實啦！

執(zhí)行如下命令

pip install Scrapy

http://wiki.jikexueyuan.com/project/python-crawler-guide/images/34.png" alt="" />

pip 會另外下載其他依賴的包，這些就不要我們手動安裝啦，等待一會，大功告成！

驗證安裝

輸入 Scrapy

如果提示如下命令，就證明安裝成功啦，如果失敗了，請檢查上述步驟有何疏漏。

http://wiki.jikexueyuan.com/project/python-crawler-guide/images/35.png" alt="" />

Linux Ubuntu 平臺：

Linux 下安裝非常簡單，只需要執(zhí)行幾條命令幾個

安裝 Python

sudo apt-get install python2.7 python2.7-dev

安裝 pip

首先下載 get-pip.py

下載好之后，選中該文件所在路徑，執(zhí)行下面的命令

sudo python get-pip.py

直接安裝 Scrapy

由于 Linux下已經預裝了 lxml 和 OPENSSL

如果想驗證 lxml ，可以分別輸入

sudo pip install lxml

出現(xiàn)下面的提示這證明已經安裝成功

Requirement already satisfied (use --upgrade to upgrade): lxml in /usr/lib/python2.7/dist-packages

如果想驗證 openssl，則直接輸入 openssl 即可，如果跳轉到 OPENSSL 命令行，則安裝成功。

接下來直接安裝 Scrapy 即可

sudo pip install Scrapy

安裝完畢之后，輸入 scrapy

注意，這里linux下不要輸入 Scrapy，linux 依然嚴格區(qū)分大小寫的，感謝 kamen 童鞋提醒。

如果出現(xiàn)如下提示，這證明安裝成功

Usage:
 scrapy <command> [options] [args]

Available commands:
 bench Run quick benchmark test
 fetch Fetch a URL using the Scrapy downloader
 runspider Run a self-contained spider (without creating a project)
 settings Get settings values
 shell Interactive scraping console
 startproject Create new project
 version Print Scrapy version
 view Open URL in browser, as seen by Scrapy

 [ more ] More commands available when run from project directory

截圖如下

http://wiki.jikexueyuan.com/project/python-crawler-guide/images/36.png" alt="" />

如有問題，歡迎留言！祝各位小伙伴順利安裝！

上一篇：Beautiful Soup 的用法下一篇：Urllib 庫的高級用法