一、Linux可執行文件結構
在 Linux 下,程序是一個普通的可執行文件,以下列出一個二進制可執行文件的基本情況:
可以看出,此可執行文件在存儲時(沒有調入到內容)分為代碼區(text)、數據區(data)和未初始化數據區(bss)3 個部分。各段基本內容說明如下:
代碼區:
存放 CPU 執行的機器指令。通常代碼區是可共享的(即另外的執行程序可以調用它),使其可共享的目的是對于頻繁被執行的程序,只需要在內存中有一份代碼即可。代碼區通常是只讀的,使其只讀的原因是防止程序意外地修改了它的指令。另外,代碼區還規劃了局部變量的相關信息。
代碼區的指令包括操作碼和操作對象(或對象地址引用)。如果是立即數(即是具體的數值),將直接包含在代碼中,如果是局部數據,將在運行時在棧區分配空間,然后再引用該數據的地址,如果是未初始化數據區和數據區,在代碼中同樣將引用該數據的地址。
全局初始化數據區/靜態數據區(數據段):
該區包含了在程序中明確被初始化的全局變量、已經初始化的靜態變量(包括全局靜態變量和局部靜態變量)和常量數據(如字符串常量)。
例如,一個不在任何函數內聲明(全局變量),如下:
int count = 100;
使得變量 count 根據其初始值被存儲初始化數據區中。
在任意位置定義靜態變量方式如下:
static int num = 200;
這聲明了一個靜態數據并初始化,如果在任意函數體外聲明,則表示其為一個靜態全局變量,如果在函數體內(局部),則表示其為一個局部靜態變量。另外,如果在一個函數名前加上 static,則表示此函數只能再當前文件中被調用。
未初始化數據區(又叫 BSS 區):
存入的是全局未初始化變量和未初始化靜態變量。未初始化數據區的數據在程序開始執行之前被內核初始化為 0 或者空(NULL)。
例如,一個不在任何函數內聲明的未初始化變量。
long sum[1000];
將 sum 存儲到未初始化數據
二、Linux進程結構
在 Linux 系統下,如果將某個可執行文件加載到內存運行,則將演變成一個或多個進程(多個進程的原因是進程在運行時可以再創建新的進程,但加載時只有一個進程)。進程是 Linux 事務管理的基本單元,所有的進程均擁有自己獨立的處理環境和系統資源。進程的環境由當前系統狀態及其父進程信息決定和組成的。
下圖為可執行文件存儲結構和 Linux 進程基本結構(部分)的對照圖。
一個進程是一個運行著的程序段,一個進程主要包括在內存中申請的空間,代碼(加載的程序,包括代碼段,數據段,BSS),堆,棧,以及內核提供的內核進程信息結構體task_struct (位置在 /usr/include/linux/sched.h)、打開的文件、上下文(指進程執行活動全過程的靜態描述)信息以及掛起的信號等。
(1)代碼區(text segment)。加載的是可執行文件代碼段,其加載到內存中的位置由加載器完成。
(2)全局初始化數據區/靜態數據區(Data Segment)。加載的是可執行文件數據段,存儲于數據段(全局初始化,靜態初始化數據)的數據的生存周期為整個程序運行過程。
(3)未初始化數據區(BSS)。加載的是可執行文件BSS段,位置可以分開亦可以緊靠數據段,存儲于數據段的數據(全局未初始化,靜態未初始化數據)的生存周期為整個程序運行過程。
(4)棧區(stack)。由編譯器自動分配釋放,存放函數的參數值、返回值、局部變量等。在程序運行過程中實時加載和釋放,因此,局部變量的生存周期為申請到釋放該段棧空間。
(5)堆區(heap)。用于動態內存分配。堆在內存中位于BSS區和棧區之間。一般由程序員分配和釋放,若程序員不釋放,程序結束時有可能由OS回收。
系統之所以分成這么多個區域,主要基于以下考慮:
代碼段和數據段分開,運行時便于分開加載,在哈佛體系結構的處理器將取得更好得流水線效率。
代碼時依次執行的,是由處理器 PC 指針依次讀入,而且代碼可以被多個程序共享,數據在整個運行過程中有可能多次被調用,如果將代碼和數據混合在一起將造成空間的浪費。
臨時數據以及需要再次使用的代碼在運行時放入棧中,生命周期短,便于提高資源利用率。
堆區可以由程序員分配和釋放,以便用戶自由分配,提高程序的靈活性。
三、各存儲類型比較