鍍金池/ 教程/ 大數(shù)據(jù)/ Lucene分析
Lucene TermRangeQuery類
Lucene排序
Lucene Query類
Lucene搜索操作
Lucene TokenStream
Lucene IndexWriter類
Lucene Term類
Lucene Token
Lucene索引操作
Lucene Field選項(xiàng)
Lucene BooleanQuery類
Lucene StandardAnalyzer類
Lucene字段
Lucene添加文檔操作
Lucene環(huán)境設(shè)置
Lucene Searching類
Lucene StopAnalyzer類
Lucene第一個應(yīng)用程序
Lucene MatchAllDocsQuery類
Lucene IndexSearcher類
Lucene索引類
Lucene更新文檔操作
Lucene教程
Lucene PrefixQuery類
Lucene Analyzer類
Lucene TopDocs類
Lucene TermQuery類
Lucene文檔
Lucene查詢編程
Lucene WildcardQuery類
Lucene WhitespaceAnalyzer
Lucene SimpleAnalyzer類
Lucene目錄
Lucene刪除文檔操作
Lucene索引過程
Lucene FuzzyQuery類
Lucene PhraseQuery類
Lucene分析

Lucene分析

正如我們已經(jīng)看到在前一章的Lucene索引過程,Lucene使用IndexWriterwhich分析用分析儀文件,然后根據(jù)需要創(chuàng)建/打開/編輯索引。在本章中,我們將討論不同類型的分析對象,哪些是在分析過程中使用的相關(guān)對象。了解分析過程中,分析儀如何工作,會給Lucene索引文件很大的啟示。

以下是我們將在適當(dāng)?shù)臅r候討論對象的列表。

Sr. No. 類和說明
1 Token
令牌表示(起始偏移量,結(jié)束偏移,令牌類型和位置增量位置,)在像它的元數(shù)據(jù)相關(guān)的詳細(xì)信息的文檔中的文本或字。
2 TokenStream
TokenStream是分析過程中的一個輸出,它包括串聯(lián)的令牌。它是一個抽象類。
3 Analyzer
這是對每個類型分析器的抽象基類。
4 WhitespaceAnalyzer
該分析儀analyzer分割的基礎(chǔ)的空白文檔中的文本。
5 SimpleAnalyzer
此分析器分割在基于非字母字符的文檔的文本,然后小寫它們。
6 StopAnalyzer
該分析儀的工作原理類似于SimpleAnalyzer并刪除常用詞像 'a','an','the'等等。
7 StandardAnalyzer
這是最復(fù)雜的分析,并能處理姓名,電子郵件地址等,它小寫每個標(biāo)記,并刪除常用詞和標(biāo)點(diǎn)符號(如有)。