Linux關(guān)于虛擬內(nèi)存

時(shí)間：2016-03-31 14:40:06 捷鋒774由分享

　　虛擬內(nèi)存是個(gè)怎么強(qiáng)調(diào)也不過(guò)分的概念，它的存在極大地方便了程序設(shè)計(jì)任務(wù)，解放了程序員的手腳。下面看看虛擬內(nèi)存的作用以及如何在存儲(chǔ)管理機(jī)制的基礎(chǔ)上實(shí)現(xiàn)它。

　　關(guān)于虛擬內(nèi)存：

　　什么是虛存?為什么需要它?

　　我們知道程序代碼和數(shù)據(jù)必須駐留在內(nèi)存中才能得以運(yùn)行，然而系統(tǒng)內(nèi)存數(shù)量很有限，往往不能容納一個(gè)完整程序的所有代碼和數(shù)據(jù)，更何況在多任務(wù)系統(tǒng)中，可能需要同時(shí)打開(kāi)子處理程序，畫圖程序，瀏覽器等很多任務(wù)，想讓內(nèi)存駐留所有這些程序顯然不太可能。因此首先能想到的就是將程序分割成小份，只讓當(dāng)前系統(tǒng)運(yùn)行它所有需要的那部分留在內(nèi)存，其它部分都留在硬盤。當(dāng)系統(tǒng)處理完當(dāng)前任務(wù)片段后，再?gòu)耐獯嬷姓{(diào)入下一個(gè)待運(yùn)行的任務(wù)片段。的確，老式系統(tǒng)就是這樣處理大任務(wù)的，而且這個(gè)工作是由程序員自行完成。但是隨著程序語(yǔ)言越來(lái)越高級(jí)，程序員對(duì)系統(tǒng)體系的依賴程度降低了，很少有程序員能非常清楚的駕馭系統(tǒng)體系，因此放手讓程序員負(fù)責(zé)將程序片段化和按需調(diào)入輕則降低效率，重則使得機(jī)器崩潰;再一個(gè)原因是隨著程序越來(lái)越豐富，程序的行為幾乎無(wú)法準(zhǔn)確預(yù)測(cè)，程序員自己都很難判斷下一步需要載入哪段程序。因此很難再靠預(yù)見(jiàn)性來(lái)靜態(tài)分配固定大小的內(nèi)存，然后再機(jī)械地輪換程序片進(jìn)入內(nèi)存執(zhí)行。系統(tǒng)必須采取一種能按需分配而不需要程序員干預(yù)的新技術(shù)。

　　虛擬內(nèi)存(之所以稱為虛擬內(nèi)存，是和系統(tǒng)中的邏輯內(nèi)存和物理內(nèi)存相對(duì)而言的，邏輯內(nèi)存是站在進(jìn)程角度看到的內(nèi)存，因此是程序員關(guān)心的內(nèi)容。而物理內(nèi)存是站在處理器角度看到的內(nèi)存，由操作系統(tǒng)負(fù)責(zé)管理。虛擬內(nèi)存可以說(shuō)是映射到這兩種不同視角內(nèi)存的一個(gè)技術(shù)手段。)技術(shù)就是一種由操作系統(tǒng)接管的按需動(dòng)態(tài)內(nèi)存分配的方法，它允許程序不知不覺(jué)中使用大于實(shí)際物理空間大小的存儲(chǔ)空間(其實(shí)是將程序需要的存儲(chǔ)空間以頁(yè)的形式分散存儲(chǔ)在物理內(nèi)存和磁盤上)，所以說(shuō)虛擬內(nèi)存徹底解放了程序員,從此程序員不用過(guò)分關(guān)心程序的大小和載入，可以自由編寫程序了，繁瑣的事情都交給操作系統(tǒng)去做吧。

　　實(shí)現(xiàn)虛擬內(nèi)存

　　虛擬內(nèi)存是將系統(tǒng)硬盤空間和系統(tǒng)實(shí)際內(nèi)存聯(lián)合在一起供進(jìn)程使用,給進(jìn)程提供了一個(gè)比內(nèi)存大得多的虛擬空間。在程序運(yùn)行時(shí)，只要把虛擬地址空間的一小部分映射到內(nèi)存，其余都存儲(chǔ)在硬盤上(也就是說(shuō)程序虛擬空間就等于實(shí)際物理內(nèi)存加部分硬盤空間)。當(dāng)被訪問(wèn)的虛擬地址不在內(nèi)存時(shí)，則說(shuō)明該地址未被映射到內(nèi)存，而是被存貯在硬盤中，因此需要的虛擬存儲(chǔ)地址隨即被調(diào)入到內(nèi)存;同時(shí)當(dāng)系統(tǒng)內(nèi)存緊張時(shí)，也可以把當(dāng)前不用的虛擬存儲(chǔ)空間換出到硬盤，來(lái)騰出物理內(nèi)存空間。系統(tǒng)如此周而復(fù)始地運(yùn)轉(zhuǎn)——換入、換出，而用戶幾乎無(wú)法查覺(jué)，這都是拜虛擬內(nèi)存機(jī)制所賜。

　　Linux的swap分區(qū)就是硬盤專門為虛擬存儲(chǔ)空間預(yù)留的空間。經(jīng)驗(yàn)大小應(yīng)該是內(nèi)存的兩倍左右。有興趣的話可以使用 swapon -s 查看交換分區(qū)大小。

　　大道理很好理解，無(wú)非是用內(nèi)存和硬盤空間合成為虛擬內(nèi)存空間。但是這一過(guò)程中反復(fù)運(yùn)行的地址映射(虛擬地址映射到物理地址)和虛擬地址換入換出卻值得仔細(xì)推敲。系統(tǒng)到底是怎么樣把虛擬地址映射到物理地址上的呢?內(nèi)存又如何能不斷地和硬盤之間換入換出虛擬地址呢?

　　利用段機(jī)制能否回答上述問(wèn)題呢?邏輯地址通過(guò)段機(jī)制后變?yōu)橐粋€(gè)32位的地址，足以覆蓋4G的內(nèi)存空間，當(dāng)程序需要的虛擬地址不在內(nèi)存時(shí)，只依靠段機(jī)制很難進(jìn)行虛擬空間地?fù)Q入換出，因?yàn)椴淮蠓奖惆颜未笮〉奶摂M空間在內(nèi)存和硬盤之間調(diào)來(lái)調(diào)去(老式系統(tǒng)中，會(huì)笨拙地?fù)Q出整段內(nèi)存甚至整個(gè)進(jìn)程，想想這樣做會(huì)有那些惡果吧!)。所以很有必要尋找一個(gè)更小更靈活的存儲(chǔ)表示單位，這樣才方便虛擬地址在硬盤和內(nèi)存之間調(diào)入調(diào)出。這個(gè)更小的存儲(chǔ)管理單位便是頁(yè)(4K大小)。管理頁(yè)換入換出的機(jī)制被稱為頁(yè)機(jī)制。

　　因?yàn)槭褂庙?yè)機(jī)制的原因，通過(guò)段機(jī)制轉(zhuǎn)換得到的地址僅僅是作為一個(gè)中間地址——線性地址，該地址不代表實(shí)際物理地址，而是代表整個(gè)進(jìn)程的虛擬空間地址。在線性地址的基礎(chǔ)上，頁(yè)機(jī)制接著會(huì)處理線性地址映射：當(dāng)需要的線性地址(虛擬空間地址)不在內(nèi)存時(shí)，便以頁(yè)為單位從磁盤中調(diào)入需要的虛擬內(nèi)存;當(dāng)內(nèi)存不夠時(shí)，又會(huì)以頁(yè)為單位把內(nèi)存中虛擬空間的換出到磁盤上?？梢?jiàn)，利用頁(yè)來(lái)管理內(nèi)存和磁盤(虛擬內(nèi)存)大大方便了內(nèi)存管理的工作。毫無(wú)疑問(wèn)，頁(yè)機(jī)制和虛擬內(nèi)存管理簡(jiǎn)直是“絕配”。

　　使用頁(yè)機(jī)制，4G空間被分成2的20次方個(gè)4K大小的頁(yè)面(頁(yè)面也可定為4M大小)，因此定位頁(yè)面需要的索引表(頁(yè)表)中每個(gè)索引項(xiàng)至少需要20位，但是在頁(yè)表項(xiàng)中往往還需要附加一些頁(yè)屬性，所以頁(yè)表項(xiàng)實(shí)際為32位，其中12位用來(lái)存放諸如“頁(yè)是否存在于內(nèi)存”或“頁(yè)的權(quán)限”等信息。

　　前面我們提到了線性地址是32位。它其中高20位是對(duì)頁(yè)表的索引，低12位則給出了頁(yè)面中的偏移。線性地址經(jīng)過(guò)頁(yè)表找到頁(yè)面基地址后和低12位偏移量相加就形成了最終需要的物理地址了。

　　在實(shí)際使用中，并非所有頁(yè)表項(xiàng)都是被存放在一個(gè)大頁(yè)表里，因?yàn)槊總€(gè)頁(yè)表項(xiàng)占4個(gè)字節(jié)，如果要在一個(gè)表中存放2的20次方個(gè)頁(yè)表項(xiàng)，就需要4M的連續(xù)存儲(chǔ)空間。這么大的連續(xù)空間可不好找，因此往往會(huì)把頁(yè)表分級(jí)存儲(chǔ)，比如分兩級(jí)，那么每級(jí)頁(yè)表只需要4k連續(xù)空間了。

　　兩級(jí)頁(yè)表搜索如同看章回小說(shuō)，先找到在哪一章里，然后在找在該章下的哪一節(jié)。具體過(guò)程看看下圖：

　　綜上所述，地址轉(zhuǎn)換工作需要兩種技術(shù)，一是段機(jī)制，二是頁(yè)機(jī)制。段機(jī)制處理邏輯地址向線性地址的映射;頁(yè)機(jī)制則負(fù)責(zé)把線性地址映射為物理地址。兩級(jí)映射共同完成了從程序員看到的邏輯地址轉(zhuǎn)換到處理器看到的物理地址這一艱巨任務(wù)。

　　你可以將這兩種機(jī)制分別比作一個(gè)地址轉(zhuǎn)換函數(shù)，段機(jī)制的變量是邏輯地址，函數(shù)值是線性地址;頁(yè)機(jī)制的變量是線性地址，函數(shù)值是物理地址。地址轉(zhuǎn)換過(guò)程如下所示。

　　邏輯地址——(段函數(shù))——>線性地址——(頁(yè)函數(shù))——>物理地址。

　　雖然段機(jī)制和頁(yè)機(jī)制都參與映射，但它們分工不同，而且相互獨(dú)立互不干擾，彼此之間不必知道對(duì)方是否存在。

　　下面我們結(jié)合Linux實(shí)例簡(jiǎn)要地看看段頁(yè)機(jī)制如何使用。

　　Linux中的分段策略

　　段機(jī)制在Linux里用得有限，并沒(méi)有被完全利用。每個(gè)任務(wù)并未分別安排各自獨(dú)立的數(shù)據(jù)段，代碼段，而是僅僅最低限度的利用段機(jī)制來(lái)隔離用戶數(shù)據(jù)和系統(tǒng)數(shù)據(jù)——Linux只安排了四個(gè)范圍一樣的段，內(nèi)核數(shù)據(jù)段，內(nèi)核代碼段，用戶數(shù)據(jù)段，用戶代碼段，它們都覆蓋0-4G的空間，所不同的是各段屬性不同，內(nèi)核段特權(quán)級(jí)為0，用戶段特權(quán)級(jí)為3。這樣分段，避免了邏輯地址到線性地址的轉(zhuǎn)換步驟(邏輯地址就等于線性地址)，但仍然保留了段的等級(jí)這層最基本保護(hù)。

　　每個(gè)用戶進(jìn)程都可以看到4G大小的線性空間，其中0-3G是用戶空間，用戶態(tài)進(jìn)程可以直接訪問(wèn);從3G-4G空間為內(nèi)核空間，存放內(nèi)核代碼和數(shù)據(jù)，只有內(nèi)核態(tài)進(jìn)程能夠直接訪問(wèn)，用戶態(tài)進(jìn)程不能直接訪問(wèn)，只能通過(guò)系統(tǒng)調(diào)用和中斷進(jìn)入內(nèi)核空間，而這時(shí)就要進(jìn)行的特權(quán)切換。

　　說(shuō)到特權(quán)切換，就離不開(kāi)任務(wù)門，陷阱門/中斷門等概念。陷阱門和中斷門是在發(fā)生陷阱和中斷時(shí)，進(jìn)入內(nèi)核空間的通道。調(diào)用門是用戶空間程序相互訪問(wèn)時(shí)所需要的通道，任務(wù)門比較特殊，它不含任何地址，而是服務(wù)于任務(wù)切換(但linux任務(wù)切換時(shí)并未真正采用它，它太麻煩了)。

　　對(duì)于各種門系統(tǒng)都會(huì)有對(duì)應(yīng)的門描述符，和段描述符結(jié)構(gòu)類似，門描述符也是由對(duì)應(yīng)的門選擇字索引，并且最終會(huì)產(chǎn)生一個(gè)指向特定段內(nèi)偏移地址的指針。這個(gè)指針指向的就是將要進(jìn)入的入口。利用門的目的就是保證入口可控，不至于進(jìn)入到內(nèi)核中不該訪問(wèn)的位置。

　　Linux中的分頁(yè)策略

　　看看linux中如何使用分頁(yè)。

　　Linux中每個(gè)進(jìn)程都會(huì)有各自不同的頁(yè)表，也就是說(shuō)進(jìn)程的映射函數(shù)互不相同，保證每個(gè)進(jìn)程虛擬地址不會(huì)映射到相同的物理地址上。這是因?yàn)檫M(jìn)程之間必須相互獨(dú)立，各自的數(shù)據(jù)必須隔離，防止信息泄漏。

　　需要注意的是，內(nèi)核作為必須保護(hù)的單獨(dú)部分，它有自己獨(dú)立的頁(yè)表來(lái)映射內(nèi)核空間(并非全部空間，僅僅是物理內(nèi)存大小的空間)，該頁(yè)表(swapper_pg_dir)被靜態(tài)分配，它只來(lái)映射內(nèi)核空間(swapper_pg_dir只用到768項(xiàng)以后的項(xiàng)——768個(gè)頁(yè)目錄可映射3G空間)。這個(gè)獨(dú)立頁(yè)表保證了內(nèi)核虛擬空間獨(dú)立于其他用戶程序空間，也就是說(shuō)其他進(jìn)程通常狀態(tài)下和內(nèi)核是沒(méi)有聯(lián)系的(在編譯內(nèi)核的時(shí)候，內(nèi)核代碼被指定鏈接到3G以上空間)，因而內(nèi)核數(shù)據(jù)也就自然被保護(hù)起來(lái)了。

　　那么在用戶進(jìn)程需要訪問(wèn)內(nèi)核空間時(shí)如何做呢?

　　Linux采用了個(gè)巧妙的方法：用戶進(jìn)程頁(yè)表的前768項(xiàng)映射進(jìn)程空間(<3G，因?yàn)長(zhǎng)DT 中只指定基地址為0,范圍只能到0xc0000000)，如果進(jìn)程要訪問(wèn)內(nèi)核空間，如調(diào)用系統(tǒng)調(diào)用，則進(jìn)程的頁(yè)目錄中768項(xiàng)后的表項(xiàng)將指向swapper_pg_dir的768項(xiàng)后的項(xiàng)，所以一旦用戶陷入內(nèi)核,就開(kāi)始使用內(nèi)核的頁(yè)表swapper_pg_dir了，也就是說(shuō)可以訪問(wèn)內(nèi)核空間了。