鍍金池/ 教程/ Python/ Python文本處理開發(fā)環(huán)境
文本翻譯
提取URL地址
處理PDF
塊分類
搜索和匹配
大寫轉(zhuǎn)換
提取電子郵件地址
字符串的不變性
文本處理狀態(tài)機(jī)
雙字母組
閱讀RSS提要
單詞替換
WordNet接口
重新格式化段落
標(biāo)記單詞
向后讀取文件
塊和裂口
美化打印數(shù)字
拼寫檢查
將二進(jìn)制轉(zhuǎn)換為ASCII
文本分類
文字換行
頻率分布
字符串作為文件
約束搜索
詞干算法
符號(hào)化
同義詞和反義詞
過濾重復(fù)的字詞
刪除停用詞
Python文本處理教程
文字摘要
段落計(jì)數(shù)令牌
語料訪問
文字改寫
文本處理簡(jiǎn)介
處理Word文檔
Python文本處理開發(fā)環(huán)境
排序行

Python文本處理開發(fā)環(huán)境

要在本教程中成功創(chuàng)建和運(yùn)行示例代碼,我們需要一個(gè)環(huán)境Python開發(fā)環(huán)境配置,它既包含通用python,也包含數(shù)據(jù)科學(xué)所需的特殊包。 我們首先看一下安裝python 2或python 3的通用python。但本教程更多地使用python 2,主要是因?yàn)?em>python 2的成熟度和對(duì)外部包的更廣泛的支持。

獲取Python

最新的源代碼,二進(jìn)制文件,文檔,新聞等,可在Python官方網(wǎng)站 - https://www.python.org/ 上找到。

也可以從 https://www.python.org/doc/ 下載Python文檔。 該文檔以HTML,PDF和PostScript格式提供。

安裝Python

Python發(fā)行版適用于各種平臺(tái)。只需下載適用于您的平臺(tái)的二進(jìn)制代碼并安裝Python。

如果您的平臺(tái)的二進(jìn)制代碼不可用,則需要C編譯器手動(dòng)編譯源代碼。編譯源代碼在選擇安裝所需的功能方面提供了更大的靈活性。

有關(guān)Python開發(fā)環(huán)境的安裝和配置,請(qǐng)參考:

安裝NLTK包

NLTK是很容易融入python環(huán)境的。 使用以下命令將NLTK添加到Python環(huán)境中。

sudo pip install -U nltk

# Windows 系統(tǒng)使用以下命令
pip install -U nltk

當(dāng)想要將其他庫在python程序中使用時(shí),也可通過類似的方法添加,在后續(xù)文章中用到時(shí)再做詳細(xì)講解。


上一篇:塊和裂口下一篇:Python文本處理教程