鍍金池/ 教程/ Python/ 雙字母組
文本翻譯
提取URL地址
處理PDF
塊分類(lèi)
搜索和匹配
大寫(xiě)轉(zhuǎn)換
提取電子郵件地址
字符串的不變性
文本處理狀態(tài)機(jī)
雙字母組
閱讀RSS提要
單詞替換
WordNet接口
重新格式化段落
標(biāo)記單詞
向后讀取文件
塊和裂口
美化打印數(shù)字
拼寫(xiě)檢查
將二進(jìn)制轉(zhuǎn)換為ASCII
文本分類(lèi)
文字換行
頻率分布
字符串作為文件
約束搜索
詞干算法
符號(hào)化
同義詞和反義詞
過(guò)濾重復(fù)的字詞
刪除停用詞
Python文本處理教程
文字摘要
段落計(jì)數(shù)令牌
語(yǔ)料訪(fǎng)問(wèn)
文字改寫(xiě)
文本處理簡(jiǎn)介
處理Word文檔
Python文本處理開(kāi)發(fā)環(huán)境
排序行

雙字母組

一些英語(yǔ)單詞更頻繁地出現(xiàn)在一起。 例如 - 天空高,做或死,最佳表現(xiàn),大雨等。因此,在文本文檔中,我們可能需要識(shí)別這樣的一對(duì)詞,這將有助于情緒分析。 首先,我們需要從現(xiàn)有句子生成這樣的單詞對(duì)來(lái)維持它們的當(dāng)前序列。 這種對(duì)稱(chēng)為雙字母。 Python有一個(gè)bigram函數(shù),它是NLTK庫(kù)的一部分,它可以幫助我們生成這些對(duì)。

示例

import nltk

word_data = "The best performance can bring in sky high success."
nltk_tokens = nltk.word_tokenize(word_data)      

print(list(nltk.bigrams(nltk_tokens)))

當(dāng)運(yùn)行上面的程序時(shí),我們得到以下輸出 -

[('The', 'best'), ('best', 'performance'), ('performance', 'can'), ('can', 'bring'), 
('bring', 'in'), ('in', 'sky'), ('sky', 'high'), ('high', 'success'), ('success', '.')]

該結(jié)果可用于給定文本中此類(lèi)對(duì)的頻率的統(tǒng)計(jì)結(jié)果。 這將與文本正文中描述的一般情緒相關(guān)聯(lián)。


上一篇:美化打印數(shù)字下一篇:文字換行