鍍金池/ 問答/PHP  數(shù)據(jù)庫/ mongodb是如何加載索引數(shù)據(jù)的?

mongodb是如何加載索引數(shù)據(jù)的?

clipboard.png

建立了一個(gè)測(cè)試集合one,這個(gè)集合有1億條文檔,文檔數(shù)據(jù)有6.3G左右,一共建立了三個(gè)索引,如上圖,三個(gè)索引分別都在1G的大小,三個(gè)索引一共有3.2G大小。

第一次對(duì)這個(gè)集合執(zhí)行查詢時(shí),查詢條件沒有使用索引字段,進(jìn)行1億條的全表掃描,可以從內(nèi)存占用量中看到,內(nèi)存的占用量在不斷的飆升,上升了6G左右的占用量。

結(jié)束掉這個(gè)Mongo進(jìn)程后重啟,以索引字段進(jìn)行查詢,瞬間把目標(biāo)文檔找出來了,但是并沒有看到內(nèi)存的占用量有什么變化(有點(diǎn)變化也就在啟動(dòng)mongodb進(jìn)程時(shí)候內(nèi)存上升了100M左右的占用量),但是三個(gè)索引中任何一個(gè)索引都是1G的大小,mongodb到底把索引數(shù)據(jù)加載到了內(nèi)存中沒有?

mongodb到底是怎么使用索引數(shù)據(jù)的?它如果把它加載到內(nèi)存中,為什么內(nèi)存占用量基本沒變化?對(duì)于上圖中三個(gè)索引,如果這唯一一次查詢僅僅只用到了c字段的索引查詢,mongodb是只加載c字段這一個(gè)索引的數(shù)據(jù)1.1G,還是把三個(gè)索引的數(shù)據(jù)3.2G都直接全部加載進(jìn)來?

回答
編輯回答
伴謊

其實(shí)這大部分是一個(gè)操作系統(tǒng)原理的問題。操作系統(tǒng)在讀取文件時(shí)會(huì)把文件內(nèi)容放到空閑內(nèi)存中,這樣下次再有程序嘗試讀取同樣的文件內(nèi)容的時(shí)候,就可以直接從內(nèi)存中給而不用讀磁盤,從而大幅度提高讀取速度。這個(gè)緩存就是文件系統(tǒng)緩存。
其實(shí)很容易理解:這些內(nèi)存如果沒有人用,空著也是浪費(fèi),為什么不緩存一點(diǎn)東西在里面呢?不管緩存什么,只要命中一次就賺到一次。至于怎么怎么賺更多,那就要看你怎么選擇在有限的內(nèi)存空間中緩存的什么內(nèi)容,怎么能讓緩存的內(nèi)容被更多地命中。這部分內(nèi)容跟問題無關(guān),不細(xì)說了,有興趣可以看看操作系統(tǒng)原理。
回到你的問題,當(dāng)你重啟了MongoDB實(shí)例時(shí),MongoDB占用的內(nèi)存當(dāng)然已經(jīng)都釋放掉了。但是無論是數(shù)據(jù)還是索引,其實(shí)都還緩存在文件系統(tǒng)緩存中,因?yàn)樗鼈兌紒碜杂跀?shù)據(jù)文件和索引文件(前提是沒有別人要使用這些內(nèi)存)。索引的使用是按需加載,這點(diǎn)基本上從邏輯推理就可以猜出來:假設(shè)你的10GB的索引,難道第一次讀取的時(shí)候就要等10GB索引加載到內(nèi)存中?假如索引容量比內(nèi)存要大呢?所以一次性加載全部索引顯然是不合理的。即使是一個(gè)索引,也是按需部分加載而不是全部。所以你需要用到的只是這1GB中的很小一部分。記住索引的時(shí)間復(fù)雜度是log2(n),要從1億數(shù)據(jù)中找出需要的一條,最壞的情況下只需要查詢27次比較,當(dāng)然是瞬間就出來了。

2017年9月22日 09:09