<li id="a8yas"></li>

<tbody id="a8yas"></tbody>

<menu id="a8yas"><strike id="a8yas"></strike></menu>

<tfoot id="a8yas"><del id="a8yas"></del></tfoot>

鍍金池/ 教程/ Python/ 過濾重復的字詞

文本翻譯

1. 文本翻譯

提取URL地址

1. 提取URL地址

處理PDF

1. 處理PDF

塊分類

1. 塊分類

搜索和匹配

1. 搜索和匹配

大寫轉(zhuǎn)換

1. 大寫轉(zhuǎn)換

提取電子郵件地址

1. 提取電子郵件地址

字符串的不變性

1. 字符串的不變性

文本處理狀態(tài)機

1. 文本處理狀態(tài)機

雙字母組

1. 雙字母組

閱讀RSS提要

1. 閱讀RSS提要

單詞替換

1. 單詞替換

WordNet接口

1. WordNet接口

重新格式化段落

1. 重新格式化段落

標記單詞

1. 標記單詞

向后讀取文件

1. 向后讀取文件

塊和裂口

1. 塊和裂口

美化打印數(shù)字

1. 美化打印數(shù)字

拼寫檢查

1. 拼寫檢查

將二進制轉(zhuǎn)換為ASCII

1. 將二進制轉(zhuǎn)換為ASCII

文本分類

1. 文本分類

文字換行

1. 文字換行

頻率分布

1. 頻率分布

字符串作為文件

1. 字符串作為文件

約束搜索

1. 約束搜索

詞干算法

1. 詞干算法

符號化

1. 符號化

同義詞和反義詞

1. 同義詞和反義詞

過濾重復的字詞

1. 過濾重復的字詞

刪除停用詞

1. 刪除停用詞

Python文本處理教程

1. Python文本處理教程

文字摘要

1. 文字摘要

段落計數(shù)令牌

1. 段落計數(shù)令牌

語料訪問

1. 語料訪問

文字改寫

1. 文字改寫

文本處理簡介

1. 文本處理簡介

處理Word文檔

1. 處理Word文檔

Python文本處理開發(fā)環(huán)境

1. Python文本處理開發(fā)環(huán)境

排序行

1. 排序行

過濾重復的字詞

很多時候，需要僅針對文件中存在的唯一單詞分析文本。因此，我們需要從文本中刪除重復的單詞這是通過使用nltk中可用的單詞標記化和集合功能來實現(xiàn)的。

不保留順序

在下面的例子中，我們首先將句子標記為單詞。然后應用set()函數(shù)創(chuàng)建一個無序的唯一元素集合。結果一個不排序的唯一單詞。

import nltk
word_data = "The Sky is blue also the ocean is blue also Rainbow has a blue colour." 

# First Word tokenization
nltk_tokens = nltk.word_tokenize(word_data)

# Applying Set
no_order = list(set(nltk_tokens))

print no_order

當執(zhí)行上面代碼，得到以下結果 -

['blue', 'Rainbow', 'is', 'Sky', 'colour', 'ocean', 'also', 'a', '.', 'The', 'has', 'the']

保留順序

要在刪除重復項之后獲取單詞但仍然保留句子中單詞的順序，我們將讀取單詞并通過附加單詞將其添加到列表中。

import nltk
word_data = "The Sky is blue also the ocean is blue also Rainbow has a blue colour." 
# First Word tokenization
nltk_tokens = nltk.word_tokenize(word_data)

ordered_tokens = set()
result = []
for word in nltk_tokens:
    if word not in ordered_tokens:
        ordered_tokens.add(word)
        result.append(word)

print result

當執(zhí)行上面代碼，得到以下結果 -

['The', 'Sky', 'is', 'blue', 'also', 'the', 'ocean', 'Rainbow', 'has', 'a', 'colour', '.']

上一篇：刪除停用詞下一篇：向后讀取文件

<th id="igiig"><ul id="igiig"></ul></th>

<center id="igiig"><ul id="igiig"></ul></center>