鍍金池/ 教程/ Python/ 文本處理簡(jiǎn)介
文本翻譯
提取URL地址
處理PDF
塊分類
搜索和匹配
大寫轉(zhuǎn)換
提取電子郵件地址
字符串的不變性
文本處理狀態(tài)機(jī)
雙字母組
閱讀RSS提要
單詞替換
WordNet接口
重新格式化段落
標(biāo)記單詞
向后讀取文件
塊和裂口
美化打印數(shù)字
拼寫檢查
將二進(jìn)制轉(zhuǎn)換為ASCII
文本分類
文字換行
頻率分布
字符串作為文件
約束搜索
詞干算法
符號(hào)化
同義詞和反義詞
過濾重復(fù)的字詞
刪除停用詞
Python文本處理教程
文字摘要
段落計(jì)數(shù)令牌
語料訪問
文字改寫
文本處理簡(jiǎn)介
處理Word文檔
Python文本處理開發(fā)環(huán)境
排序行

文本處理簡(jiǎn)介

文本處理直接應(yīng)用于自然語言處理,也稱為NLP。 NLP旨在處理人類在彼此交流時(shí)所說或?qū)懙恼Z言。 這不同于計(jì)算機(jī)和人之間的通信,其中通信是由人寫的計(jì)算機(jī)程序或人的某些姿勢(shì),例如在某個(gè)位置點(diǎn)擊鼠標(biāo)。 NLP試圖理解人類所說的自然語言并對(duì)其進(jìn)行分類,并在必要時(shí)對(duì)其進(jìn)行分析。 Python擁有豐富的庫,可滿足NLP的需求。自然語言工具包(NLTK)是一套這樣的庫,它提供了NLP所需的功能。

下面是一些使用NLP和python間接使用NLTK的應(yīng)用程序。

概要

很多時(shí)候,我們需要獲得新聞文章,電影情節(jié)或重大故事的摘要。 它們都是用人類語言編寫的,而不使用NLP,我們需要依賴另一個(gè)人對(duì)總結(jié)和解釋。 但是在NLP的幫助下,我們可以編寫程序來使用NLTK,并用各種參數(shù)匯總長(zhǎng)文本,比如在最終輸出中想要的文本百分比,選擇正面和負(fù)面的詞匯進(jìn)行匯總等。在線新聞提要依賴 在這種摘要技術(shù)上提出新聞見解。

基于語音的工具

像蘋果Siri或亞馬遜Alexa這樣的基于語音的工具依靠NLP來理解與人類交互非常成功。 他們有大量的單詞,句子和語法訓(xùn)練數(shù)據(jù)集來解釋來自人類的問題或命令并對(duì)其進(jìn)行處理。 雖然它是關(guān)于語音的,但間接地翻譯成文本,并且由語音產(chǎn)生的文本通過NLP系統(tǒng)來產(chǎn)生結(jié)果。

信息提取

Web抓取是使用python代碼從網(wǎng)頁中提取數(shù)據(jù)的常見示例。 這里它可能不是嚴(yán)格基于NLP,但它確實(shí)涉及文本處理。 例如,如果只需要提取html頁面中存在的標(biāo)題,那么在頁面結(jié)構(gòu)中查找h1標(biāo)記,并找到一種方法來僅在這些標(biāo)記之間提取文本。 這需要來自python的文本處理程序。

垃圾郵件過濾

通過分析主題行中的文本以及消息的內(nèi)容,可以識(shí)別和消除電子郵件中的垃圾郵件。 由于垃圾郵件通常是批量發(fā)送給許多收件人,即使他們的主題和內(nèi)容變化很小,也可以進(jìn)行匹配和標(biāo)記以將其標(biāo)記為垃圾郵件。它也需要使用NLTK庫。

語言翻譯

計(jì)算機(jī)化的語言翻譯在很大程度上依賴于NLP。 隨著在線平臺(tái)中使用越來越多的語言,將語言從一種語言自動(dòng)轉(zhuǎn)換為另一種語言變得必不可少。 這將涉及編程以處理翻譯中涉及的語言的詞匯,語法和上下文標(biāo)記。 同樣,也可以使用NLTK處理這些要求。

情緒分析

要找出對(duì)電影表現(xiàn)的整體反應(yīng),我們可能需要閱讀來自觀眾的數(shù)千條反饋帖子。但也可以通過詞語和句子分析使用積極的負(fù)反饋分類自動(dòng)化。 然后測(cè)量正面和負(fù)面評(píng)論的頻率,以找出觀眾的整體情緒。 這顯然需要分析觀眾所寫的人類語言,NLTK也可以用于處理這樣的文本。


上一篇:字符串的不變性下一篇:文本分類