java代碼編譯是由Javac編譯器來完成,流程如下圖1所示:
圖1
Javac是一種編譯器,能將一種語言規范轉化成另外一種語言規范,通常編譯器都是將便于人理解的語言規范轉化成機器容易理解的語言規范,如C/C++或者匯編語言都是將源代碼直接編譯成目標機器碼,這個目標機器代碼是CPU直接執行的指令集合。這些指令集合也就是底層的一種語言規范。
Javac的編譯器也是將Java這種對人非常友好的編程語言編譯成對對所有機器都非常友好的一種語言。這種語言不是針對某種機器或某個平臺。怎么消除不通種類,不同平臺之間的差異這個任務就有JVM來完成,而Javac的任務就是將Java源代碼語言轉化為JVM能夠識別的一種語言,然后由JVM將JVM語言再轉化成當前這個機器能夠識別的機器語言。
Javac的任務就是將Java源代碼編譯成Java字節碼,也就是JVM能夠識別的二進制代碼,從表面看是將.java文件轉化為.class文件。而實際上是將Java源代碼轉化成一連串二進制數字,這些二進制數字是有格式的,只有JVM能夠真確的識別他們到底代表什么意思。
編譯器把一種語言規范轉化為另一種語言規范的這個過程需要哪些步驟?回答這個問題需要參照《編譯原理》,總結過程如下:
1)詞法分析:讀取源代碼,一個字節一個字節的讀進來,找出這些詞法中我們定義的語言關鍵詞如:if、else、while等,識別哪些if是合法的哪些是不合法的。這個步驟就是詞法分析過程。
詞法分析的結果:就是從源代碼中找出了一些規范化的token流,就像人類語言中,給你一句話你要分辨出哪些是一個詞語,哪些是標點符號,哪些是動詞,哪些是名詞。
2)語法分析:就是對詞法分析中得到的token流進行語法分析,這一步就是檢查這些關鍵詞組合在一起是不是符合Java語言規范。如if的后面是不是緊跟著一個布爾型判斷表達式。
語法分析的結果:就是形成一個符合Java語言規定的抽象語法樹,抽象語法樹是一個結構化的語法表達形式,它的作用是把語言的主要詞法用一個結構化的形式組織在一起。這棵語法樹可以被后面按照新的規則再重新組織。
3)語義分析:語法分析完成之后也就不存在語法問題了,語義分析的主要工作就是把一些難懂的,復雜的語法轉化成更簡單的語法。就如難懂的文言文轉化為大家都懂的百話文,或者是注釋一下一些不懂的成語。
語義分析結果:就是將復雜的語法轉化為簡單的語法,對應到Java就是將foreach轉化為for循環,還有一些注釋等。最后生成一棵抽象的語法樹,這棵語法樹也就更接近目標語言的語法規則。
4)字節碼生成:將會根據經過注釋的抽象語法樹生成字節碼,也就是將一個數據結構轉化為另外一個數據結構。就像將所有的中文詞語翻譯成英文單詞后按照英文語法組裝文英文語句。代碼生成器的結果就是生成符合java虛擬機規范的字節碼。這個過程中的需要的組件如下圖2所示:
圖2
從上面的描述中我們知道編譯就是將一種語言通過分析分解,再按照一定的方式先形成一個簡單的框架(將Java源文件的字節流轉化為對應的token流)然后在通過詳細的分析按照一定的規定在這個框架里添加東西使這個token流形成更加結構化的語法樹(就是將前面生成的token流中的一個個單詞組裝成一句話),但是這棵樹離我們的目標—Java字節碼還有點差距,所以再進行語義分析使那顆粗糙的樹更加完整完善(給類添加默認的構造函數,檢查變量在使用前有沒有初始化,檢查操作變量類型是否匹配),然后javac編譯器調用com.sun.tools.javac.jvm.Gen類遍歷這棵語法樹將java方法中的代碼塊轉換成符合JVM語法的命令形式的二進制數據。按照JVM的文件組織格式將字節碼輸出到以class為擴展名的文件中,也就是生成最終的java字節碼。詞法分析就是將關鍵詞組織成token流即檢查源碼中的的關鍵詞是否真確并組織成token流,而語法分析就是檢查源碼是否符合java語法規范并將詞組成語句。語義分析就是簡化復雜的添加缺少的,檢查變量類型是否合法。代碼生成器就是遍歷這棵樹生成符合JVM規范的代碼。
新聞熱點
疑難解答