文本處理直接應(yīng)用于自然語言處理，也稱為NLP。 NLP旨在處理人類在彼此交流時(shí)所說或?qū)懙恼Z言。這不同于計(jì)算機(jī)和人之間的通信，其中通信是由人寫的計(jì)算機(jī)程序或人的某些姿勢(shì)，例如在某個(gè)位置點(diǎn)擊鼠標(biāo)。 NLP試圖理解人類所說的自然語言并對(duì)其進(jìn)行分類，并在必要時(shí)對(duì)其進(jìn)行分析。 Python擁有豐富的庫，可滿足NLP的需求。自然語言工具包(NLTK)是一套這樣的庫，它提供了NLP所需的功能。

下面是一些使用NLP和python間接使用NLTK的應(yīng)用程序。

概要

很多時(shí)候，我們需要獲得新聞文章，電影情節(jié)或重大故事的摘要。它們都是用人類語言編寫的，而不使用NLP，我們需要依賴另一個(gè)人對(duì)總結(jié)和解釋。但是在NLP的幫助下，我們可以編寫程序來使用NLTK，并用各種參數(shù)匯總長(zhǎng)文本，比如在最終輸出中想要的文本百分比，選擇正面和負(fù)面的詞匯進(jìn)行匯總等。在線新聞提要依賴在這種摘要技術(shù)上提出新聞見解。

基于語音的工具

像蘋果Siri或亞馬遜Alexa這樣的基于語音的工具依靠NLP來理解與人類交互非常成功。他們有大量的單詞，句子和語法訓(xùn)練數(shù)據(jù)集來解釋來自人類的問題或命令并對(duì)其進(jìn)行處理。雖然它是關(guān)于語音的，但間接地翻譯成文本，并且由語音產(chǎn)生的文本通過NLP系統(tǒng)來產(chǎn)生結(jié)果。

信息提取

Web抓取是使用python代碼從網(wǎng)頁中提取數(shù)據(jù)的常見示例。這里它可能不是嚴(yán)格基于NLP，但它確實(shí)涉及文本處理。例如，如果只需要提取html頁面中存在的標(biāo)題，那么在頁面結(jié)構(gòu)中查找h1標(biāo)記，并找到一種方法來僅在這些標(biāo)記之間提取文本。這需要來自python的文本處理程序。

垃圾郵件過濾

通過分析主題行中的文本以及消息的內(nèi)容，可以識(shí)別和消除電子郵件中的垃圾郵件。由于垃圾郵件通常是批量發(fā)送給許多收件人，即使他們的主題和內(nèi)容變化很小，也可以進(jìn)行匹配和標(biāo)記以將其標(biāo)記為垃圾郵件。它也需要使用NLTK庫。

語言翻譯

計(jì)算機(jī)化的語言翻譯在很大程度上依賴于NLP。隨著在線平臺(tái)中使用越來越多的語言，將語言從一種語言自動(dòng)轉(zhuǎn)換為另一種語言變得必不可少。這將涉及編程以處理翻譯中涉及的語言的詞匯，語法和上下文標(biāo)記。同樣，也可以使用NLTK處理這些要求。

情緒分析

要找出對(duì)電影表現(xiàn)的整體反應(yīng)，我們可能需要閱讀來自觀眾的數(shù)千條反饋帖子。但也可以通過詞語和句子分析使用積極的負(fù)反饋分類自動(dòng)化。然后測(cè)量正面和負(fù)面評(píng)論的頻率，以找出觀眾的整體情緒。這顯然需要分析觀眾所寫的人類語言，NLTK也可以用于處理這樣的文本。