最近在搞APACHE日志分析,裝好了awstats之后,這兩天進行了觀察,
報表日期 月 1 月 2010
首次參觀日期 2010年01月12日 11:04
最近參觀日期 2010年01月13日 23:59
參觀者 參觀人次 網頁數 文件數 字節
瀏覽器流量 * 77 226 (2.93 參觀人次/參觀者) 508979 (2252.11 網頁數/參觀) 509492 (2254.38 文件數/參觀) 13.67 G字節 (63430.28 K字節/參觀)
非瀏覽器流量 * 117312 122716 736.24 M字節
這邊的結果很讓人費解,通過google統計網站的獨立IP訪問量有2W做,這里顯示的數字相差甚遠。 后面的網頁數和文件數又都與實際相吻合。 經過查找原因發現 apache日志里記錄的IP地址不正確,大部分都是cdn的節點地址。 產生的原因很顯然是因為CDN造成的,之前在網站后臺程序里讀取用戶IP地址也出現了類似問題。 可以使用print_r($_SERVER) (PHP語言),查找到真實的用戶IP地址,本站為 $_SERVER[‘HTTP_CDN-SRC-IP']. 這個是CDN攜帶的真實的客戶IP地址(這里不計較用戶是否使用代理)。 但在APACHE的日志記錄里如何使用這個值呢? 本人在GOOGLE和百度里查找了許久都沒有找到相應的資料或者說解決方案,只好自己思考尋求了。
仔細看了下APACHE里日志記錄的相關配置,針對LogFormat:
LogFormat "%h %l %u %t /"%r/" %>s %b /"%{Referer}i/" /"%{User-Agent}i/"" combined
我思索里面的%{Referer}和%{User-Agent} 是如何取得的, 這兩個是在程序里也是經常會用到的東西,客戶端發送請求的時候 這兩個信息都是作為頭詳細發送到服務器的。后來查看了下訪問時的所有頭信息,如下:
代碼如下:
Array
(
[Cdn-Src-Ip] => 222.44.46.58
[Accept] => image/gif, image/jpeg, image/pjpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*
[Accept-Language] => zh-cn
[User-Agent] => Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; CIBA; .NET CLR 2.0.50727)
[Host] => www.875.cn
[Cookie] => __utma=217127135.1188793388.1263188369.1263364666.1263368206.5; __utmz=217127135.1263368206.5.2.utmcsr=211.167.92.250|utmccn=(referral)|utmcmd=referral|utmcct=/cgi-bin/awstats/awstats.pl; viewedShopsID=621; viewedShopsPP=%u6B27%u5C1A%u574A
[Accept-Encoding] => gzip
[Via] => 1.1 hnay40:80 (Cdn Cache Server V2.0)
[Connection] => keep-alive
)
當然rerfer的時候也會有rerfer信息出現在頭部信息里,上面也有Cookie、Host、User-Agent等信息,這些信息都是可以在apache配置文件里可以使用的變量,當然這里Cdn-Src-Ip正是我想要的客戶的真實IP地址。 于是推測${Cdn-Src-Ip}在日志記錄格式里應該也是可以使用的。 后面的i應該是指忽略大小寫的意思。于是得出一個解決方案:
新聞熱點
疑難解答