Java中的變量分為兩類:局部變量和類變量。局部變量是指在方法內定義的變量,如在run方法中定義的變量。對于這些變量來說,并不存在線程之間共享的問題。因此,它們不需要進行數據同步。類變量是在類中定義的變量,作用域是整個類。這類變量可以被多個線程共享。因此,我們需要對這類變量進行數據同步。
數據同步就是指在同一時間,只能由一個線程來訪問被同步的類變量,當前線程訪問完這些變量后,其他線程才能繼續訪問。這里說的訪問是指有寫操作的訪問,如果所有訪問類變量的線程都是讀操作,一般是不需要數據同步的。
那么如果不對共享的類變量進行數據同步,會發生什么情況呢?讓我們先看看下面的代碼會發生什么樣的事情:
|
在執行上面代碼的可能結果如下:
n = 59
看到這個結果,可能很多讀者會感到奇怪。這個程序明明是啟動了100個線程,然后每個線程將靜態變量n加1.最后使用join方法使這100個線程都運行完后,再輸出這個n值。按正常來講,結果應該是n = 100。可偏偏結果小于100。
其實產生這種結果的罪魁禍首就是我們經常提到的“臟數據”。而run方法中的yield()語句就是產生“臟數據”的始作俑者(不加yield語句也可能會產生“臟數據”,但不會這么明顯,只有將100改成更大的數,才會經常產生“臟數據”,在本例中調用yield就是為了放大“臟數據”的效果)。yield方法的作用是使線程暫停,也就是使調用yield方法的線程暫時放棄CPU資源,使CPU有機會來執行其他的線程。為了說明這個程序如何產生“臟數據”,我們假設只創建了兩個線程:thread1和thread2.由于先調用了thread1的start方法,因此,thread1的run方法一般會先運行。當thread1的run方法運行到第一行(int m = n;)時,將n的值賦給m.當執行到第二行的yield方法后,thread1就會暫時停止執行,而當thread1暫停時,thread2獲得了CPU資源后開始運行(之前thread2一直處于就緒狀態),當thread2執行到第一行(int m = n;)時,由于thread1在執行到yield時n仍然是0,因此,thread2中的m獲得的值也是0.這樣就造成了thread1和thread2的m獲得的都是0.在它們執行完yield方法后,都是從0開始加1,因此,無論誰先執行完,最后n的值都是1,只是這個n被thread1和thread2各賦了一遍值。這個過程如下圖如示:
也許有人會問,如果只有n++,會產生“臟數據”嗎?答案是肯定的。那么n++只是一條語句,又如何在執行過程中將CPU交給其他的線程呢?其實這只是表面現象,n++在被Java編譯器編譯成中間語言(也叫做字節碼)后,并不是一條語言。讓我們看看下面的Java代碼將會被編譯成什么樣的Java中間語言。
Java源代碼
|
大家可以看到在run方法中只有n++一條語句,而在編譯后,卻有7條中間語言語句。我們并不需要知道這些語句的功能是什么,只看一下第005、007和008行語句。在005行是getfield,根據它的英文含義可知是要得到某個值,因為這里只有一個n,所以毫無疑問,是要得到n的值。而在007行的iadd也不難猜測是將這個得到的n值加1.在008行的putfield的含義我想大家可能已經猜出來了,它負責將這個加1后的n再更新回類變量n.說到這,可能大家還有一個疑惑,執行n++時直接將n加1不就行了,為什么要如此費周折。其實這里涉及到一個Java內存模型的問題。
Java的內存模型分為主存儲區和工作存儲區。主存儲區保存了Java中所有的實例。也就是說,在我們使用new來建立一個對象后,這個對象及它內部的方法、變量等都保存在這一區域,在MyThread類中的n就保存在這個區域。主存儲區可以被所有線程共享。而工作存儲區就是我們前面所講的線程棧,在這個區域里保存了在run方法以及run方法所調用的方法中定義的變量,也就是方法變量。在線程要修改主存儲區中的變量時,并不是直接修改這些變量,而是將它們先復制到當前線程的工作存儲區,在修改完后,再將這個變量值覆蓋主存儲區的相應的變量值。
在了解了Java的內存模型后,就不難理解為什么n++也不是原子操作了。它必須經過一個拷貝、加1和覆蓋的過程。這個過程和在MyThread類中模擬的過程類似。大家可以想象,如果在執行到getfield時,thread1由于某種原因被中斷,那么就會發生和MyThread類的執行結果類似的情況。要想徹底解決這個問題,就必須使用某種方法對n進行同步,也就是在同一時間只能有一個線程操作n,這也稱為對n的原子操作。
新聞熱點
疑難解答
圖片精選