正如我們已經(jīng)看到在前一章的Lucene索引過程,Lucene使用IndexWriterwhich分析用分析儀文件,然后根據(jù)需要創(chuàng)建/打開/編輯索引。在本章中,我們將討論不同類型的分析對象,哪些是在分析過程中使用的相關(guān)對象。了解分析過程中,分析儀如何工作,會給Lucene索引文件很大的啟示。
以下是我們將在適當(dāng)?shù)臅r候討論對象的列表。
Sr. No. | 類和說明 |
---|---|
1 |
Token 令牌表示(起始偏移量,結(jié)束偏移,令牌類型和位置增量位置,)在像它的元數(shù)據(jù)相關(guān)的詳細(xì)信息的文檔中的文本或字。 |
2 |
TokenStream TokenStream是分析過程中的一個輸出,它包括串聯(lián)的令牌。它是一個抽象類。 |
3 |
Analyzer 這是對每個類型分析器的抽象基類。 |
4 |
WhitespaceAnalyzer 該分析儀analyzer分割的基礎(chǔ)的空白文檔中的文本。 |
5 |
SimpleAnalyzer 此分析器分割在基于非字母字符的文檔的文本,然后小寫它們。 |
6 |
StopAnalyzer 該分析儀的工作原理類似于SimpleAnalyzer并刪除常用詞像 'a','an','the'等等。 |
7 |
StandardAnalyzer 這是最復(fù)雜的分析,并能處理姓名,電子郵件地址等,它小寫每個標(biāo)記,并刪除常用詞和標(biāo)點(diǎn)符號(如有)。 |