文本處理直接應(yīng)用于自然語言處理,也稱為NLP。 NLP旨在處理人類在彼此交流時(shí)所說或?qū)懙恼Z言。 這不同于計(jì)算機(jī)和人之間的通信,其中通信是由人寫的計(jì)算機(jī)程序或人的某些姿勢(shì),例如在某個(gè)位置點(diǎn)擊鼠標(biāo)。 NLP試圖理解人類所說的自然語言并對(duì)其進(jìn)行分類,并在必要時(shí)對(duì)其進(jìn)行分析。 Python擁有豐富的庫,可滿足NLP的需求。自然語言工具包(NLTK)是一套這樣的庫,它提供了NLP所需的功能。
下面是一些使用NLP和python間接使用NLTK的應(yīng)用程序。
很多時(shí)候,我們需要獲得新聞文章,電影情節(jié)或重大故事的摘要。 它們都是用人類語言編寫的,而不使用NLP,我們需要依賴另一個(gè)人對(duì)總結(jié)和解釋。 但是在NLP的幫助下,我們可以編寫程序來使用NLTK,并用各種參數(shù)匯總長(zhǎng)文本,比如在最終輸出中想要的文本百分比,選擇正面和負(fù)面的詞匯進(jìn)行匯總等。在線新聞提要依賴 在這種摘要技術(shù)上提出新聞見解。
像蘋果Siri或亞馬遜Alexa這樣的基于語音的工具依靠NLP來理解與人類交互非常成功。 他們有大量的單詞,句子和語法訓(xùn)練數(shù)據(jù)集來解釋來自人類的問題或命令并對(duì)其進(jìn)行處理。 雖然它是關(guān)于語音的,但間接地翻譯成文本,并且由語音產(chǎn)生的文本通過NLP系統(tǒng)來產(chǎn)生結(jié)果。
Web抓取是使用python代碼從網(wǎng)頁中提取數(shù)據(jù)的常見示例。 這里它可能不是嚴(yán)格基于NLP,但它確實(shí)涉及文本處理。 例如,如果只需要提取html頁面中存在的標(biāo)題,那么在頁面結(jié)構(gòu)中查找h1
標(biāo)記,并找到一種方法來僅在這些標(biāo)記之間提取文本。 這需要來自python的文本處理程序。
通過分析主題行中的文本以及消息的內(nèi)容,可以識(shí)別和消除電子郵件中的垃圾郵件。 由于垃圾郵件通常是批量發(fā)送給許多收件人,即使他們的主題和內(nèi)容變化很小,也可以進(jìn)行匹配和標(biāo)記以將其標(biāo)記為垃圾郵件。它也需要使用NLTK庫。
計(jì)算機(jī)化的語言翻譯在很大程度上依賴于NLP。 隨著在線平臺(tái)中使用越來越多的語言,將語言從一種語言自動(dòng)轉(zhuǎn)換為另一種語言變得必不可少。 這將涉及編程以處理翻譯中涉及的語言的詞匯,語法和上下文標(biāo)記。 同樣,也可以使用NLTK處理這些要求。
要找出對(duì)電影表現(xiàn)的整體反應(yīng),我們可能需要閱讀來自觀眾的數(shù)千條反饋帖子。但也可以通過詞語和句子分析使用積極的負(fù)反饋分類自動(dòng)化。 然后測(cè)量正面和負(fù)面評(píng)論的頻率,以找出觀眾的整體情緒。 這顯然需要分析觀眾所寫的人類語言,NLTK也可以用于處理這樣的文本。