計算機網(wǎng)絡中的帶寬、交換結點中的緩存和處理機等,都是網(wǎng)絡的資源。在某段時間,若對網(wǎng)絡中某一資源的需求超過了該資源所能提供的可用部分,網(wǎng)絡的性能就會變壞。這種情況就叫做擁塞。擁塞控制就是防止過多的數(shù)據(jù)注入網(wǎng)絡中,這樣可以使網(wǎng)絡中的路由器或鏈路不致過載。擁塞控制是一個全局性的過程,和流量控制不同,流量控制指點對點通信量的控制。
TCP通過滑動窗口機制檢測丟包,并在丟包發(fā)生時調整數(shù)據(jù)傳輸速率。滑動窗口機制利用數(shù)據(jù)接收端的接收窗口來控制數(shù)據(jù)流。
接收窗口值由數(shù)據(jù)接收端指定,以字節(jié)數(shù)形式存儲于TCP報文頭,并告知傳輸設備有多少數(shù)據(jù)將會存儲在TCP緩沖區(qū)。緩沖區(qū)就是數(shù)據(jù)暫時放置的地方,直至傳遞至應用層協(xié)議等待處理。因此,發(fā)送端每次只能發(fā)送Window Size字段指定的數(shù)據(jù)量。為了使發(fā)送端繼續(xù)傳送數(shù)據(jù),接收端必須發(fā)送確認信息:之前的數(shù)據(jù)接收到了。同時必須對占用緩沖區(qū)的數(shù)據(jù)進行處理以釋放緩存空間。下圖顯示了接收窗口是如何工作的:
上圖中,客戶端向服務器發(fā)送數(shù)據(jù),服務器接收窗口是5000字節(jié)。客戶端發(fā)送了2500字節(jié),服務器緩沖區(qū)還剩2500字節(jié),之后又發(fā)送了2000字節(jié),從而緩沖區(qū)只剩500字節(jié)。服務器發(fā)送確認信息。對緩存中數(shù)據(jù)進行處理并清空緩存。此過程重復進行,客戶端又發(fā)送3000字節(jié)和1000字節(jié),服務器緩存減少至1000字節(jié),客戶端再次確認數(shù)據(jù)并處理緩存中內容。
調整窗口大小:
當TCP堆 棧接收到數(shù)據(jù)的時候,生成一個確認信息并以回復的方式發(fā)送,但是放置在接收端緩存中的數(shù)據(jù)并不總是立即被處理。當服務器忙于處理從多個客戶端接收的報文, 服務器很有可能因為清理緩存而變得緩慢,無法騰出空間接收新的數(shù)據(jù),如果沒有流控,則可能會造成丟包和數(shù)據(jù)損壞。好在,接收窗口所設定的速率無法使服務器 正常處理數(shù)據(jù)時,能夠調整接收窗口大小。通過減小返回給發(fā)送端的ACK報文的TCP頭窗口大小值來實現(xiàn)。如下圖所示:
上圖中,服務器初始窗口大小為5000字節(jié)。客戶端發(fā)送2000字節(jié),之后又發(fā)送了2000字節(jié),緩沖區(qū)中只有1000字節(jié)可用。服務器意識到緩沖區(qū)正在快速填滿,它知道如果數(shù)據(jù)繼續(xù)以此速率傳輸,很快會有報文丟失。為了防止報文丟失,服務器發(fā)送確認信息給客戶端,更新窗口大小為1000字節(jié)。結果,客戶端減少數(shù)據(jù)發(fā)送,服務器以可以接受的速率處理緩存內容,即保持數(shù)據(jù)流以穩(wěn)定的速率傳輸。
調整窗口大小在兩個方向都是可行的。當服務器能夠更加快速的處理報文時,它會發(fā)送一個較大窗口的ACK報文。
零窗口暫停數(shù)據(jù)流:
某些情況下,服務器無法再處理從客戶端發(fā)送的數(shù)據(jù)。可能是由于內存不足,處理能力不夠,或其他原因。這可能會造成數(shù)據(jù)被丟棄以及傳輸暫停,但接收窗口能夠幫助減小負面影響。
當上述情況發(fā)生時,服務器會發(fā)送窗口為0的報文。當客戶端接收到此報文時,它會暫停所有數(shù)據(jù)傳輸,但會保持與服務器的連接以傳輸探測(keep-alive)報文。探測報文在客戶端以穩(wěn)定間隙發(fā)送,以查看服務器接收窗口狀態(tài)。一旦服務器能夠再次處理數(shù)據(jù),將會返回非零值窗口大小,傳輸會恢復。下圖示例了零窗口通知過程。
服務器初始接收數(shù)據(jù)窗口為5000字節(jié)大小。從客戶端接收4000字節(jié)數(shù)據(jù)之后,服務器負載變得非常繁重,無法繼續(xù)處理客戶端任何數(shù)據(jù)。服務器于是發(fā)送窗口大小值為0的報文。客戶端暫停數(shù)據(jù)傳輸并發(fā)送一個探測報文。探測報文之后,服務器回復以告知客戶端現(xiàn)在可以接收數(shù)據(jù)的報文,以及窗口大小為1000字節(jié)。客戶端恢復傳送數(shù)據(jù)。
TCP滑動窗口實戰(zhàn):
本例中,開始從192.168.0.20發(fā)送至192.168.0.30。我們關心的是窗口大小字段,可以從Packet List面板的Info欄以及Packet Details的TCP報文頭看到。前三個報文后,可看到該值立刻減小,如下圖所示:
窗口大小值從第一個報文的8760字節(jié)變成第二個報文的5840字節(jié)到第三個報文的2920字節(jié)①。窗口大小值的減小是主機延時的典型標志。在時間欄注意到這一過程發(fā)生的非常迅速②。當窗口大小迅速減小的時候,通常就有可能下降為零。這就是第四個報文所發(fā)生的,如下圖所示:
第四個報文從192.168.0.20發(fā)送至192.168.0.30,目的是告訴192.168.0.30它不再接收任何數(shù)據(jù)。0值見于TCP報文頭①,Wireshark的Packet List面板Info欄,以及TCP報文頭的SEQ/ACK Analysis字段②也告訴我們這是一個0窗口報文。
一旦發(fā)送了零窗口報文,192.168.0.30的設備不會再發(fā)送任何數(shù)據(jù),直到收到從192.168.0.20的窗口更新,告知窗口大小已經(jīng)增加了。本例中導致零窗口的問題是暫時的,所以在下一個報文中發(fā)送了窗口更新信息,如下圖所示。
本例中,窗口大小增加到一個非常健康的數(shù)值64,240字節(jié)①。Wireshark再次在SEQ/ACK Analysis告訴我們這是一個窗口更新。
一旦收到更新報文,192.168.0.30的主機就再次開始發(fā)送數(shù)據(jù),在報文6和報文7中。這一過程發(fā)生很快。如果它持續(xù)時間再長一點,就可能會導致網(wǎng)絡的潛在中斷,引起數(shù)據(jù)傳輸減慢或失敗。
下一個關于滑動窗口的例子,第一個報文是正常HTTP,從195.81.202.68至172.31.136.85。此報文之后立刻跟隨一個從172.31.136.85發(fā)送的零窗口報文,如下圖所示:
這與上一個例子中的零窗口報文十分類似,但結果顯著不同,172.31.136.85主機不是發(fā)送一個窗口更新并回復通訊,而是一個探測報文,如下圖所示:
此報文被Wireshark標注為探測報文①。時間欄告訴我們這一報文發(fā)生于最后一個接收到的報文3.4秒之后。這一過程持續(xù)若干次,一端發(fā)送零窗口報文另一端發(fā)送探測報文,如下圖所示:
探測報文發(fā)送間隙為3.4,6.8,13.5秒。這一過程可能會持續(xù)相當長一段時間,取決于通訊設備的操作系統(tǒng)。該情況下,把時間欄的值加起來,通訊暫停了25秒。
TCP差錯控制和流控排查總結:
重傳報文
重 傳的發(fā)生是由于客戶端檢測到服務器沒有接收到它所發(fā)送的數(shù)據(jù)。因此,取決于你所分析的是通訊的哪一端,有可能是看不見重傳的。如果從服務器端抓取數(shù)據(jù),并 且它確實沒有接收到客戶端所發(fā)送的和重傳報文,可能會一無所獲因為無法看見重傳報文。如果懷疑并不是服務器端導致的報文丟失,可以考慮在客戶端嘗試抓取報 文,以查看實際是否有重傳發(fā)生。
重復ACK
可以將重復ACK看作重傳的“所謂相反面”,因為它是在服務器檢測到客戶端發(fā)送報文丟失的時候產生的。大多數(shù)情況下,在通訊兩端抓取流量時都可以看到重復ACK。需記住當接收報文亂序時會觸發(fā)重復ACK。例如,如果服務器之接收到發(fā)送的第一個和第三個報文,就會導致發(fā)送重復ACK引起客戶端對第二個報文的快速重傳,因為你已經(jīng)收到了第一個和第三個報文,因此不管導致第二個報文丟棄的原因是什么,都很有可能是暫時的,因此大多數(shù)情況下重復ACK都會成功發(fā)送和接收。當然,這種情形并不一定永遠會發(fā)生,因此當你懷疑在服務器端丟失報文而又看不到任何重復ACK,考慮從通訊的客戶端抓取報文。
零窗口和探測報文
滑動窗口直接與服務器無法接收和處理報文有關,任何窗口大小的縮小以及零值都是服務器問題的直接結果。所以如果你在哪里看到這兩者之一發(fā)生,就應該在那里深入研究。通常應當在網(wǎng)絡通訊兩端一直主機窗口更新報文。
以上就是解決TCP窗口與擁塞控制的辦法,希望能幫到大家,謝謝閱讀。