前言 class文件時java虛擬機執行引擎的數據入口,也是java技術體系的基礎支柱之一,了解class文件的結構對后面進一步了解虛擬機執行引擎有很重要的意義。概要: class文件是一組以八位字節為基礎單位的二進制流,各個數據項目嚴格按照順序緊湊地排列在class文件中,中間沒有添加任何分隔符,這使得整個class文件中存儲的內容幾乎全部都是程序運行的必要數據,沒有空隙存在。當需要占用8位字節以上的空間數據時,則會按照高位在前的方式分割成若干個8位字節進行存儲。class文件結構介紹: 根據java虛擬機規范的規定,class文件格式采用一種類似c語言結構體的偽結構來存儲,這種偽結構中只有兩種數據類型:無符號數和表。無符號數:無符號數屬于基本的數據類型,以u1,u2,u4,u8來分別代表1個字節,2個字節,4個字節和8個字節的無符號數,無符號數可以用來描述數字、索引引用、數量值,或者按照utf-8編碼構成字符串值。表:表是由多個無符號數或者其他表作為數據項構成的復合數據類型,所有表都習慣性地以“_info“結尾。表用于描述有層次關系的復合結構的數據,整個class文件本質上就是一張表,它由下列數據項構成:[java] view plaincopyClassFile { u4 magic;//魔數(0xCAFEBABE) u2 minor_version;//次版本號 u2 major_version;//主版本號 u2 constant_pool_count;//常量池容量計數值 cp_info constant_pool[constant_pool_count-1];//常量池 u2 access_flags;//訪問標志 u2 this_class;//類索引 u2 super_class;//父類索引 u2 interfaces_count;//接口無論是無符號數還是表,當需要描述的同一類型但是數量不定的多個數據時,經常會使用一個前置的容量計數器加若干個連續的數據項的形式(比如說一個類可能實現了多個接口,這時候需要一個計數器來指定接口的數量),這時候稱這一系列連續的某一類型的數據為某一類型的集合。上面的文件格式是固定的,每個數據項的順序,占用字節數都是被嚴格限定的,不允許改變。下面依次介紹每個數據項的含義:1.魔數:class文件頭四個字節代表魔數,它的作用是用于確定該文件是一個能被虛擬機接受的class文件,其值為0xCAFEBABE.2.版本:魔數后四個字節代表class文件的版本號,其中前兩個字節代表次版本號,后兩個字節代表主版本號。高版本的jdk能向下兼容以前版本的class文件,但不能運行以后版本的class文件。3.常量池:主版本之后的是常量池入口,常量池是class文件結構中與其他項目關聯最多的數據類型,也是占用class文件空間最大的數據項目之一,同時還是在class文件中第一個出現的表類型的數據項目。因為常量池中常量數量不固定,所以在常量池入口前需要放置一個計數器,占用兩個字節。比如如果該位置的值為0x0016,那就代表常量池中有21項常量(從1開始),第0項空出來是為了滿足后面某些指向常量池的索引值的數據在特定情況下需要表達”不引用任何一個常量池項目“的意思,這種情況就可以把索引置為0來表示。class文件結構只有常量池的容量計數器是從1開始的,其他集合類型都是從0開始的。 常量池中主要存放兩類數據:字面量和符號引用;(1)字面量:比如文本字符串,被聲明為final的常量值等。(2)符號引用:包括類和接口的權限定名,字段的名稱和描述符,方法的名稱和描述符。注:class文件并不保存各個方法和字段的最終內存布局信息,因此這些字段和方法的符號引用不經過轉換的話是無法直接被虛擬機使用的,當虛擬機運行時,需要從常量池中獲得對應的符號引用,再在類創建時或者運行時解析并翻譯到具體的內存地址上(執行引擎在類加載的解析階段完成符號引用到直接引用的轉化)。常量池中的每一項常量都是一個表,每種表都有一個特點,那就是第一位是一個u1類型的標志位(tag,取值為1-12,缺少2),代表當前這個常量屬于哪種常量類型,所有常量類型所代表的的含義如下:而這每一種類型都有自己的結構,具體如下:4.訪問標志(access_flags):常量池之后,緊接著的兩個字節代表訪問標志,這個標志用于識別一些類或者接口層次的訪問信息(比如這個class是否是public是否是final等等),具體如下:5.類索引,父類索引,接口索引:類索引和父類索引都是一個u2類型的數據,而接口索引集合時一組u2類型的數據的集合,class文件中由這三項數據來確定這個類的繼承關系。類索引用于確定這個類的全限定名,父類索引用于確定這個類的父類的全限定名(除了kava.lang.Object以外所有類的父類索引均不為0)。接口索引集合用來描述這個類實現了哪些接口。 類索引和父類索引用兩個u2類型的索引值表示,它們各自指向一個類型為CONSTANT_Class_info的類描述符常量,通過CONSTANT_Class_info類型的常量中的索引值可以找到定義在CONSTANT_Utf8_info類型的常量中的全限定名字符串。6.字段表集合:字段表集合用于描述接口或者類中聲明的變量。字段包括了類級變量或者實例級變量,但是不包括方法內部聲明的變量。其結構如下:首先兩個字節是訪問符,這跟類中的access_flags非常類似,都是u2數據類型,其中可以設置的標志位的含義如下:其次是name_index,這是一個指向常量池的引用,代表字段的簡單名稱(指沒有類型和參數修飾的方法或者字段名稱);緊接著兩個字節是descriptor_index,字段方法描述符。描述符的作用是用來描述字段的數據類型、方法的參數列表(包括數量,類型以及順序)和返回值。根據規則,基本數據類型及代表無返回值的void類型都用一個大寫字符來表示,而對象類型則用字符L加對象的全限定名來表示。對于數組類型,每一維度會使用‘[’字符來表示,比如定義java.lang.String[][]類型的二維數組,將被記錄為[[Ljava/lang/String,而整型數組則標記為[I。用描述符來描述方法時,按照縣參數列表,后返回值的順序,參數列表按照參數的嚴格順序放在一組小括號”()“之內。比如void func(),描述符為()V,void foo(int[] a,cha b),描述為([IC)V.描述符之后是屬性表集合(attributes,當然之前是屬性表計數器),它用于存儲一些額外的信息。7.方法表集合:內容跟屬性表集合基本一致,下面是其結構:但是access_flags訪問標志與字段表是有區別的:另外,方法里的java代碼,經過javac編譯器編譯成字節碼指令后,將存放在方法的屬性表集合(attributes)中的一個名為code的屬性里面.8.屬性表集合:在class文件、字段表、方法表中都可以攜帶字節的屬性表集合,用于描述某些場景專有的信息。屬性表中的數據項目不需要有嚴格的順序,java虛擬機在運行時會自動的忽略掉不認識的屬性,其中系統預定義了9種虛擬機應該識別的屬性,如下:每一種屬性的名稱都是引用的常量池中的常量,屬性值的結構可以自定義,但是需要符合下面的結構:重點介紹下Code屬性。Code屬性:java程序方法體里面的代碼經過javac編譯器處理后,最終變為字節碼指令存儲在code屬性中,code屬性出現在方法表的屬性集合中,并非所有方法表都必須有code屬性,比如抽象方法,code屬性結構如下:首先attribute_name_index是一項指向常量池的引用(CONSTANT_Utf8_info),值為Code,它代表屬性名稱;attribute_length代表屬性值的長度;max_stack代表操作數棧的最大深度,在方法執行的任意時刻,操作數棧都不會超過這個深度,虛擬機運行的時候將根據這個值來分配棧幀中的操作數棧深度。緊接著max_locals代表局部變量表所需的存儲空間。這里需要注意的是,max_locals的單位是slot,slot即槽,是虛擬機為局部變量分配內存所使用的最小單位。基本數據類型除了double和long都占用1slot,double和long占用2slot,另外reference和returnAddress占1slot;code_length和code用來存儲java源程序編譯后生成的字節碼指令。