鍍金池/ 教程/ Python/ 文字改寫
文本翻譯
提取URL地址
處理PDF
塊分類
搜索和匹配
大寫轉(zhuǎn)換
提取電子郵件地址
字符串的不變性
文本處理狀態(tài)機
雙字母組
閱讀RSS提要
單詞替換
WordNet接口
重新格式化段落
標(biāo)記單詞
向后讀取文件
塊和裂口
美化打印數(shù)字
拼寫檢查
將二進制轉(zhuǎn)換為ASCII
文本分類
文字換行
頻率分布
字符串作為文件
約束搜索
詞干算法
符號化
同義詞和反義詞
過濾重復(fù)的字詞
刪除停用詞
Python文本處理教程
文字摘要
段落計數(shù)令牌
語料訪問
文字改寫
文本處理簡介
處理Word文檔
Python文本處理開發(fā)環(huán)境
排序行

文字改寫

文字改寫(Munging)是一種通過改造它們來清理任何雜亂的東西。 在下面的例子中,我們將看到如何轉(zhuǎn)換文本以獲得一些結(jié)果,這些結(jié)果為提供了一些理想的數(shù)據(jù)更改。 在一個簡單的層面上,它只是改變正在處理的文本。

示例

在下面的例子中,計劃改組然后重新排列句子的所有字母,除了第一個和最后一個字母以獲得可能的替代單詞,這些單詞可能在人類寫作期間被生成為拼寫錯誤的單詞。

import random

import re

def replace(t):
    inner_word = list(t.group(2))
    random.shuffle(inner_word)
    return t.group(1) + "".join(inner_word) + t.group(3)
text = "Hello, You should reach the finish line."
print re.sub(r"(\w)(\w+)(\w)", replace, text)

print re.sub(r"(\w)(\w+)(\w)", replace, text)

當(dāng)運行上面的程序時,我們得到以下輸出 -

Hlleo, You slouhd raech the fsiinh lnie.
Hlleo, You suolhd raceh the fniish line.

在這里可以看到除了第一個和最后一個字母之外,這些單詞是如何混亂的。 通過對錯誤拼寫采用統(tǒng)計方法,可以確定通常錯誤的單詞是什么,并為它們提供正確的拼寫。


上一篇:重新格式化段落下一篇:閱讀RSS提要