国产精品观看在线亚洲人成网_久久激情国产_久久华人_狠狠干天天操_91一区二区三区久久久久国产乱_1区2区3区国产

首頁(yè) > 文章中心 > 好的日志文章

好的日志文章

前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇好的日志文章范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。

好的日志文章

好的日志文章范文第1篇

關(guān)鍵詞:天氣雷達(dá);拼圖資料;日志;監(jiān)控;統(tǒng)計(jì)

中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)14-20814-02

新一代天氣雷達(dá)在臨近預(yù)報(bào)中發(fā)揮著重要的作用[1]。但由于單部新一代天氣雷達(dá)的有效探測(cè)半徑僅為230km,在利用其進(jìn)行災(zāi)害性天氣系統(tǒng)的監(jiān)測(cè)和預(yù)警時(shí),需要上下游氣象站進(jìn)行聯(lián)防,而短時(shí)強(qiáng)天氣具有發(fā)展速度快、強(qiáng)度強(qiáng)的特點(diǎn),因此要想利用新一代天氣雷達(dá)回波對(duì)中尺度天氣系統(tǒng)的發(fā)展和移動(dòng)進(jìn)行監(jiān)測(cè)和預(yù)報(bào),就必須進(jìn)行拼圖,擴(kuò)大其覆蓋范圍[2]。中國(guó)氣象局要求各雷達(dá)站1小時(shí)將5個(gè)雷達(dá)產(chǎn)品通過省級(jí)通信節(jié)點(diǎn)機(jī)上傳至國(guó)家氣象信息中心,統(tǒng)一收集后進(jìn)行全國(guó)和區(qū)域的雷達(dá)產(chǎn)品拼圖,并將傳輸質(zhì)量納入到各省的年終目標(biāo)考核中。如何提高傳輸時(shí)效、質(zhì)量,將直接影響到新一代天氣雷達(dá)效益的發(fā)揮和全省乃至全國(guó)的防災(zāi)減災(zāi)。為確保轄區(qū)各站雷達(dá)拼圖資料 及時(shí)準(zhǔn)確上傳,研制開發(fā)了省級(jí)雷達(dá)拼圖資料監(jiān)控與統(tǒng)計(jì)系統(tǒng),可以對(duì)報(bào)文傳輸及線路狀況進(jìn)行有效監(jiān)控,實(shí)現(xiàn)網(wǎng)絡(luò)通信業(yè)務(wù)的自動(dòng)化,提高業(yè)務(wù)工作的效率[3]。

1 系統(tǒng)設(shè)計(jì)思路

本系統(tǒng)實(shí)現(xiàn)對(duì)遼寧省沈陽(yáng)、營(yíng)口新一代天氣雷達(dá)站拼圖資料上行傳輸情況實(shí)時(shí)監(jiān)控和傳輸統(tǒng)計(jì)。系統(tǒng)定時(shí)讀取9210系統(tǒng)中相應(yīng)日志文件,和該時(shí)次所要上傳文件名比較,若日志文件中有記錄,表明已通過9210系統(tǒng)進(jìn)行上傳,則屏幕上顯示綠燈;如果日志文件中沒有記錄,說明該時(shí)次雷達(dá)拼圖資料報(bào)還沒有上傳,則在屏幕上顯示紅燈并顯示未上傳的資料名稱,提醒值班人員采取相應(yīng)的措施。系統(tǒng)每天08時(shí)(北京時(shí))對(duì)前一天的雷達(dá)拼圖資料上傳情況入庫(kù),并建立統(tǒng)計(jì)界面,可進(jìn)行單站、多站或任意時(shí)間段傳輸百分率的圖表統(tǒng)計(jì)結(jié)果。

2 系統(tǒng)基本構(gòu)成

2.1 系統(tǒng)的流程圖

雷達(dá)站將拼圖資料上傳至通信節(jié)點(diǎn)機(jī),通過規(guī)定進(jìn)程將資料轉(zhuǎn)發(fā)至國(guó)家氣象信息中心寬帶服務(wù)器,同時(shí)生成日志文件。實(shí)時(shí)監(jiān)控對(duì)日志文件進(jìn)行操作,傳輸質(zhì)量監(jiān)控首先將日志信息添加至數(shù)據(jù)庫(kù),然后使用SQL查詢統(tǒng)計(jì)結(jié)果,進(jìn)行圖表顯示。(圖1)

2.2 系統(tǒng)環(huán)境

雷達(dá)拼圖資料監(jiān)控與統(tǒng)計(jì)系統(tǒng)由通信節(jié)點(diǎn)機(jī)(UNIX操作系統(tǒng))、監(jiān)控計(jì)算機(jī)組成,二者之間運(yùn)行FTP協(xié)議。通信節(jié)點(diǎn)機(jī)具有每日(世界時(shí))的日志文件,可保留30天內(nèi)的日志文件。監(jiān)控計(jì)算機(jī)采用Windows XP操作系統(tǒng),安裝監(jiān)控和統(tǒng)計(jì)程序。軟件開發(fā)在Windows下進(jìn)行選擇VB和Delphi語(yǔ)言進(jìn)行混合編程,后臺(tái)數(shù)據(jù)庫(kù)采用microsoft的SQL server2000數(shù)據(jù)庫(kù)。

3 系統(tǒng)功能

系統(tǒng)分兩部分:一是根據(jù)各種報(bào)文的時(shí)效要求,進(jìn)行定時(shí)的查詢監(jiān)控,保證該報(bào)上傳的及時(shí)性;同時(shí)為了操作方便,設(shè)置了刷新功能,對(duì)沈陽(yáng)、營(yíng)口2站雷達(dá)拼圖資料的實(shí)時(shí)監(jiān)控,進(jìn)行圖形化界面提示和文本信息的顯示;二是對(duì)任意時(shí)段內(nèi)的沈陽(yáng)、營(yíng)口2站傳輸質(zhì)量進(jìn)行統(tǒng)計(jì),生成圖表直觀顯示,并可以生成文本文件進(jìn)行上報(bào)。

4 系統(tǒng)的技術(shù)實(shí)現(xiàn)

4.1 日志文件的下載

按照中國(guó)氣象局的傳輸要求:雷達(dá)GIF產(chǎn)品在正點(diǎn)后15分種內(nèi)上傳為及時(shí)報(bào),在1小時(shí)內(nèi)為逾限報(bào),超過1小時(shí)視為缺報(bào)[4]。因此編制程序,在正點(diǎn)后10分鐘自動(dòng)從通信節(jié)點(diǎn)機(jī)的“/bcsy/mioswork/log”目錄利用FTP協(xié)議下載當(dāng)天的日志文件。日志文件命名規(guī)則為“comYYYYMMDDsnd.log”(其中YYYYMMDD代表年月日)。

4.2 實(shí)時(shí)監(jiān)控

每小時(shí)的5個(gè)產(chǎn)品文件名均是固定的,命名規(guī)則為RAD__CCYYGGgg.XXX(其中RAD是固定的,CC為臺(tái)站代號(hào),如沈陽(yáng)為SY,YY為編報(bào)日期,GG為編報(bào)時(shí)次,gg為編報(bào)分鐘,正點(diǎn)觀測(cè)編00),在下載完日志文件后,將此日志文件作為文本文件打開,利用VB的InStr函數(shù)檢查當(dāng)前時(shí)次的產(chǎn)品是否存在于日志文件中。若存在,則代表已成功上傳,狀態(tài)燈顯示為綠色;若不存在,則代表未進(jìn)行上傳,狀態(tài)燈顯示為紅色,并將未上傳產(chǎn)品的站號(hào)、時(shí)次、產(chǎn)品類型添加至列表框中,同時(shí)以聲音形式提醒值班員(圖2)。實(shí)時(shí)監(jiān)控界面代有刷新按鈕,可對(duì)當(dāng)前上傳情況進(jìn)行了解。

4.3 日志信息入庫(kù)

系統(tǒng)設(shè)置在每日8:30(世界時(shí)0:30)下載前一天的日志文件。SQL數(shù)據(jù)庫(kù)的表按照文件名、文件大小、文件接收時(shí)間、文件發(fā)送日期、發(fā)送優(yōu)先級(jí)、發(fā)送線路建立字段。在Delphi中使用ADOConnection組件進(jìn)行數(shù)據(jù)庫(kù)的連接,adoquery組件進(jìn)行日志信息的入庫(kù)。首先以文本方式打開日志文件,將其中的一行分解為對(duì)應(yīng)字段,使用SQL語(yǔ)句的append方法將上傳信息添加到數(shù)據(jù)庫(kù)中,進(jìn)行更新。

4.4 傳輸質(zhì)量統(tǒng)計(jì)

在雷達(dá)拼圖傳輸質(zhì)量統(tǒng)計(jì)界面中,可選擇任意時(shí)段內(nèi)的任意站次雷達(dá)拼圖傳輸質(zhì)量進(jìn)行統(tǒng)計(jì)。程序利用ADOConnection組件進(jìn)行數(shù)據(jù)庫(kù)的連接,使用SQL查詢語(yǔ)句對(duì)數(shù)據(jù)庫(kù)進(jìn)行多項(xiàng)查詢,并將查詢統(tǒng)計(jì)結(jié)果輸出到memo組件中,可顯示統(tǒng)計(jì)站次、統(tǒng)計(jì)時(shí)段、應(yīng)上傳文件數(shù)、及時(shí)報(bào)(含百分率)、逾限報(bào)(含百分率及逾限報(bào)站次)、缺報(bào)(含百分率及缺報(bào)站次);同時(shí)利用chart組件進(jìn)行餅圖的顯示,如2008年3月1日至2008年3月7日沈陽(yáng)、營(yíng)口兩站的雷達(dá)拼圖傳輸質(zhì)量統(tǒng)計(jì)圖。(圖3)

5 結(jié)束語(yǔ)

本系統(tǒng)由于采用SQL網(wǎng)絡(luò)數(shù)據(jù)庫(kù),可以安裝在局域網(wǎng)內(nèi)任何一臺(tái)計(jì)算機(jī)上。運(yùn)行以來,對(duì)雷達(dá)拼圖資料傳輸質(zhì)量的提高起到很好的推動(dòng)作用,傳輸及時(shí)率也穩(wěn)定在99%以上。系統(tǒng)操作簡(jiǎn)單,雷達(dá)報(bào)上行傳輸情況一目了然。運(yùn)行情況很好,使值班人員及時(shí)掌握雷達(dá)報(bào)的上傳情況;另外本軟件模塊化的設(shè)計(jì),移植性高,程序加以修改擴(kuò)充后,可應(yīng)用于其它雷達(dá)站資料的上行監(jiān)控。

參考文獻(xiàn):

[1] 程向陽(yáng),王興榮,胡雯,等. 雷暴天氣在多普勒雷達(dá)資料上的前兆特征分析[J]. 氣象科學(xué),2003,23(4):485-490.

[2] 陳傳雷,陳艷秋,孫欣. 多普勒雷達(dá)回波在遼寧一次暴雨過程中的應(yīng)用分析[J]. 氣象與環(huán)境學(xué)報(bào),2006,22(5):28-31.

[3] 呂紅梅,楊文霞,張玉潔,等. 雷達(dá)觀測(cè)資料傳輸監(jiān)控軟件的開發(fā)與研究[J]. 山東氣象,2005,25(1):35-35.

好的日志文章范文第2篇

關(guān)鍵詞:網(wǎng)絡(luò)安全;用戶上網(wǎng)行為;數(shù)據(jù)分析

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)15-0117-03

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種網(wǎng)絡(luò)設(shè)備功能越來越來完善,設(shè)備性能管理方面也比較智能化,在網(wǎng)絡(luò)管理上發(fā)生了變化,不再像過去花費(fèi)大量的人力忙于維護(hù)網(wǎng)絡(luò)設(shè)備,而是要分析用戶的上網(wǎng)行為,為用戶提供一個(gè)安全穩(wěn)定的網(wǎng)絡(luò)環(huán)境。目前所得到的用戶上網(wǎng)行為都是從網(wǎng)絡(luò)設(shè)備上獲取的,這些數(shù)據(jù)中存在臟數(shù)據(jù)[1],臟數(shù)據(jù)不符合要求,對(duì)于分析用戶上網(wǎng)行為存在干擾。并且這些數(shù)據(jù)量非常大,而且還分散在不同的文件中,不便于以后的存儲(chǔ)和運(yùn)算。如何對(duì)這些數(shù)據(jù)進(jìn)行分類、清洗并進(jìn)行有效的存儲(chǔ)是網(wǎng)絡(luò)行為分析的一個(gè)重要問題。

文章首先介紹python程序設(shè)計(jì)語(yǔ)言的相關(guān)組件和功能架構(gòu),在此基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了基于python語(yǔ)言的分析用戶上網(wǎng)行為的分類與清洗系統(tǒng),驗(yàn)證了系統(tǒng)的有效性和穩(wěn)定性,并對(duì)數(shù)據(jù)的處理時(shí)間和數(shù)據(jù)的壓縮比例進(jìn)行分析。

1 Python程序的介紹

Python是一種解釋型交互式、面向?qū)ο蟆?dòng)態(tài)語(yǔ)義、語(yǔ)法優(yōu)美的腳本語(yǔ)言。自從1989年Guido van Rossum發(fā)明,經(jīng)過幾十年的發(fā)展,已經(jīng)同Tcl、perl一起,成為目前應(yīng)用最廣的三種跨平臺(tái)腳本語(yǔ)言。Python是純粹的自由軟件, 源代碼和解釋器CPython遵循 GPL(GNU General Public License)協(xié)議[2] 。Python的主要特點(diǎn)有:

1)免費(fèi)開源、簡(jiǎn)單易學(xué)

Python是FLOSS(自由/開放源碼軟件)之一[3]。使用者可以自由地這個(gè)軟件的拷貝、閱讀它的源代碼、對(duì)它做改動(dòng)、把它的一部分用于新的自由軟件中。FLOSS是基于一個(gè)團(tuán)體分享知識(shí)的概念。Python是一種代表簡(jiǎn)單主義思想的語(yǔ)言,閱讀一個(gè)良好的Python程序就感覺像是在讀英語(yǔ)一樣。它使你能夠?qū)W⒂诮鉀Q問題而不是去搞明白語(yǔ)言本身。Python極其容易上手,因?yàn)镻ython有極其簡(jiǎn)單的說明文檔 。

2)速度快

Python 的底層是用 C 語(yǔ)言寫的,很多標(biāo)準(zhǔn)庫(kù)和第三方庫(kù)也都是用 C 寫的,運(yùn)行速度非常快 。

3)高層語(yǔ)言

Python語(yǔ)言編寫程序的時(shí)候無(wú)需考慮諸如如何管理你的程序使用的內(nèi)存一類的底層細(xì)節(jié)。

4)可移植性

由于它的開源本質(zhì),Python已經(jīng)被移植在許多平臺(tái)上(經(jīng)過改動(dòng)使它能夠工作在不同平臺(tái)上)[4]。這些平臺(tái)包括Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2、Amiga、AROS、AS/400、BeOS、OS/390、z/OS、Palm OS、QNX、VMS、Psion、Acom RISC OS、VxWorks、PlayStation、Sharp Zaurus、Windows CE、PocketPC、Symbian以及Google基于linux開發(fā)的android平臺(tái)。

5)面向?qū)ο?/p>

Python是一種公共域的面向?qū)ο蟮膭?dòng)態(tài)語(yǔ)言[5],Python既支持面向過程的編程也支持面向?qū)ο蟮木幊獭T凇懊嫦蜻^程”的語(yǔ)言中,程序是由過程或僅僅是可重用代碼的函數(shù)構(gòu)建起來的。在“面向?qū)ο蟆钡恼Z(yǔ)言中,程序是由數(shù)據(jù)和功能組合而成的對(duì)象構(gòu)建起來的。

6)可擴(kuò)展性

如果需要一段關(guān)鍵代碼運(yùn)行得更快或者希望某些算法不公開,可以部分程序用C或C++編寫,然后在Python程序中使用它們。

7)可嵌入性

可以把Python嵌入C/C++程序,從而向程序用戶提供腳本功能。

8)豐富的庫(kù)

Python標(biāo)準(zhǔn)庫(kù)確實(shí)很龐大。它可以幫助處理各種工作,包括正則表達(dá)式、文檔生成、單元測(cè)試、線程、數(shù)據(jù)庫(kù)、網(wǎng)頁(yè)瀏覽器、CGI、FTP、電子郵件、XML、XML-RPC、HTML、WAV文件、密碼系統(tǒng)、GUI(圖形用戶界面)、Tk和其他與系統(tǒng)有關(guān)的操作。這被稱作Python的“功能齊全”理念。除了標(biāo)準(zhǔn)庫(kù)以外,還有許多其他高質(zhì)量的庫(kù),如wxPython、Twisted和Python圖像庫(kù)等等。

9)規(guī)范的代碼

Python采用強(qiáng)制縮進(jìn)的方式使得代碼具有較好可讀性。而Python語(yǔ)言寫的程序不需要編譯成二進(jìn)制代碼。

2 系統(tǒng)架構(gòu)的設(shè)計(jì)

由于網(wǎng)絡(luò)用戶上網(wǎng)行為數(shù)據(jù)可以從網(wǎng)絡(luò)安全設(shè)備(如防火墻、網(wǎng)絡(luò)認(rèn)證網(wǎng)關(guān))上直接采集,所采集到的數(shù)據(jù)中有很多信息是不需保存的,并且生成的日志一般都是一個(gè)2萬(wàn)多條記錄的壓縮文件。在實(shí)際的用戶行為管理分析中需要對(duì)這些壓縮文件進(jìn)行解壓、分類、清洗,然后提取有用信息,并對(duì)所提取的信息進(jìn)行壓縮處理,以便以后用于數(shù)據(jù)挖掘。系統(tǒng)結(jié)構(gòu)設(shè)計(jì)如圖1:

在日志處理系統(tǒng)結(jié)構(gòu)設(shè)計(jì)中,日志解壓模塊實(shí)現(xiàn)對(duì)原始數(shù)據(jù)自動(dòng)解壓,并保存在以日期命名的文件夾中日志文件;日志文件夾處理模塊用于處理長(zhǎng)時(shí)間保存日志文件和日志文件夾,使處理結(jié)果生成一個(gè)帶有路徑的文件名列表的文本文件。這個(gè)文本文件可以使下一步數(shù)據(jù)分類、清洗模塊快速定位到所要處理文件的位置和名稱。根據(jù)大理大學(xué)網(wǎng)絡(luò)用戶特點(diǎn)設(shè)計(jì)數(shù)據(jù)的分類和清洗模塊,實(shí)現(xiàn)把中國(guó)學(xué)生、留學(xué)生、教職工、校外人員的網(wǎng)絡(luò)行為日志文件進(jìn)行分離,并把這些日志文件中沒有實(shí)際意義的記錄清除,最終把分類文件分別合并到以日期命名的文件中,為以后大數(shù)據(jù)的科學(xué)計(jì)算和智能分析提供純凈的數(shù)據(jù)源。日志文件壓縮模塊實(shí)現(xiàn)對(duì)分類、清洗過后的日志文件進(jìn)行壓縮,提高存儲(chǔ)效率。

3 系統(tǒng)的實(shí)現(xiàn)

3.1 目錄處理模塊的實(shí)現(xiàn)

采用python程序設(shè)計(jì)語(yǔ)言中的os模塊,實(shí)現(xiàn)對(duì)目錄路徑和文件名的處理,第一步,將原始數(shù)據(jù)目錄下的所有文件夾的路徑寫入到一個(gè)文本文件中,例如:D:\campus big data\Datadirectory.txt,以便數(shù)據(jù)處理時(shí)循環(huán)遍歷所有文件夾,其代碼實(shí)現(xiàn)如下:

def CreateRawdatadirectory():

data_file_path="D:\\campus big data\\Raw_data\\"

day_log_path=os.listdir(data_file_path) #日日志文件夾路徑

log_files_list=[] #每天的.log文件所在目錄,如D:\campus big data\data\2016-03-01

fw=open("D:\\campus big data\\Raw_Datadirectory.txt","w")

for item in day_log_path:

fw.write(data_file_path+item+"\\") #Raw_Datadirectory.txt寫入

fw.write("\n")

fw.close()

第二步,生成日志文件夾文件,將每日文件夾下的所有日志文件路徑寫入對(duì)應(yīng)文件夾下的文本文件。例如:D:\campus\bigdata \data \201 6-03-01\file_path.tx文件,在數(shù)據(jù)處理時(shí)可以快速遍歷所有日志文件,其代碼實(shí)現(xiàn)如下:

def CreateLogDirectory():

fr=open("D:\\campus big data\\Raw_Datadirectory.txt","r")

fr_s=fr.read()

log_files_list=fr_s.split("\n")

for directory in log_files_list:

fw=open(directory+"file_path.txt","w")

try:

log_filename=[fname for fname in os.listdir(directory) if fname.endswith('.log')]

for fname in log_filename:

fw.write(directory+fname) #file_path.txt文件寫入

fw.write("\n")

except:

pass

fw.close()

fr.close

第三步,創(chuàng)建多級(jí)目錄,創(chuàng)建處理后數(shù)據(jù)存儲(chǔ)的多級(jí)目錄。例如:Ch_students目錄、Oversea_students目錄、Teachers目錄,用以保存不同用戶的上網(wǎng)行為日志文件。

3.2 解壓和壓縮模塊

根據(jù)目錄處理模塊所得到的路徑文件,調(diào)用python提供的zipfile模塊,把原始數(shù)據(jù)進(jìn)行解壓,并把清洗過的用戶行為數(shù)據(jù)進(jìn)行壓縮,代碼的設(shè)計(jì)如下:

解壓過程:

def FromZip(file_path_prefix): #

file_directory="D:\\campus big data\\Raw_data\\2016-03-01\\"

zip_filename=[fname for fname in os.listdir(file_directory) if fname.endswith('.zip')]

for item in zip_filename:

zip_path=file_directory+item

zfile = zipfile.ZipFile(zip_path,'r')

filename=zfile.namelist()[0]

data=zfile.read(filename)

flog=open(file_directory+filename,'w+b')

flog.write(data)

flog.close

壓縮過程

def ToZip():

file_directory="D:\\campus big data\\Raw_data\\2016-03-01\\"

log_filename=[fname for fname in os.listdir(file_directory) if fname.endswith('..log')]

for item in log_filename:

log_path=file_directory+item

f = zipfile.ZipFile('archive.zip','w',zipfile.ZIP_DEFLATED)

startdir = "c:\\mydirectory"

for dirpath, dirnames, filenames in os.walk(startdir):

for filename in filenames:

f.write(os.path.join(dirpath,filename))

f.close()

由于程序在運(yùn)行時(shí)是直接調(diào)用目錄處理模塊所得的路徑文件,這樣就可以縮短程序運(yùn)行的時(shí)間,提高程序的運(yùn)行效率。

3.3 數(shù)據(jù)分類、清洗模塊

在網(wǎng)絡(luò)用戶上網(wǎng)行為日志數(shù)據(jù)中,有許多信息是沒有意義的,我們需要對(duì)這些數(shù)據(jù)進(jìn)行分類和清洗。原始數(shù)據(jù)結(jié)構(gòu)如下:

3.3.1 數(shù)據(jù)的分類

根據(jù)學(xué)校校園網(wǎng)絡(luò)用戶的特點(diǎn),我們可以把用戶分為教工、國(guó)內(nèi)學(xué)生、國(guó)外學(xué)生。根據(jù)上網(wǎng)的區(qū)域可以分為辦公區(qū)、教職工住宅區(qū)、學(xué)生宿舍區(qū)。利用python語(yǔ)言對(duì)文件快速處理的特點(diǎn)對(duì)用戶進(jìn)行分類,并分別存儲(chǔ)在不同的文件中,代碼如下:

fwrite_log=open("data_log.txt",'w') #數(shù)據(jù)處理后存文放文件

fread_log=open("2016-03-01 00-00-00..txt",'r') #打開日志文件

log_txt=fread_log.read().split('\n') #讀取每一條記錄

for i in range(len(log_txt)): #對(duì)每一條記錄進(jìn)行處理

if log_txt[i].strip('\n')!='':

if(log_txt[i].split('\t')[3])[0]=='X':

record=log_txt[i].split('\t') s_row=record[2]+'\t'+record[4]+'\t'+record[5]+'\t'+record[6]+'\t'+record[7]+'\t'+record[8]+'\t'+'\n'

fwrite_log.write(s_row)

fwrite_log.close()

fread_log.close()

3.3.2 數(shù)據(jù)清洗

根據(jù)網(wǎng)絡(luò)用戶上網(wǎng)行為的特點(diǎn),會(huì)出現(xiàn)空行、重復(fù)記尋。數(shù)據(jù)清洗的重要工作就是要把這些干擾信息去除,保留有用信息,為以后的數(shù)據(jù)挖掘提供純凈的數(shù)據(jù)。在數(shù)據(jù)清洗過程中,應(yīng)用python中的set()和strip()功能把重復(fù)記錄和空行清除。經(jīng)過清洗的數(shù)據(jù)記錄數(shù)和文件大小都比原來小,表2中可以清晰的反映數(shù)據(jù)清洗前后的對(duì)比。

4 結(jié)束語(yǔ)

從程序的運(yùn)行結(jié)果可以得出,用python編寫的用戶上網(wǎng)行為日志處理程序設(shè)計(jì)簡(jiǎn)單,運(yùn)行效率高,所提取的用用戶行為數(shù)據(jù)可以進(jìn)一步分析,為校園網(wǎng)絡(luò)安全提供準(zhǔn)確的用戶定位,為校園網(wǎng)絡(luò)的帶寬管理和維護(hù)提供準(zhǔn)確的數(shù)據(jù)作為參考,并提高網(wǎng)絡(luò)的服務(wù)質(zhì)量。

參考文獻(xiàn):

[1] 張良均, 樊哲, 趙云龍. Hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M]. 北京: 機(jī)械工業(yè)出版社, 2016.

[2] 肖建, 林海波. Python基礎(chǔ)教程[M]. 北京: 清華大學(xué)出版社, 2003: 1-2.

[3] 北京中科紅旗軟件技術(shù)有限公司. 紅旗Linux系統(tǒng)應(yīng)用編程[M]. 北京: 石油工業(yè)出版社, 2012: 192.

好的日志文章范文第3篇

關(guān)鍵詞:數(shù)據(jù)挖掘;web;網(wǎng)絡(luò)訪問

中圖分類號(hào):TP393.092文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2010) 03-0047-02

Research on Data Mining to Improve Web User Network Access Speed

Sun Wenqian

(Hechi College Campus Network Center Fengshan,FengShan546300,China)

Abtract:The implication of Data Mining in improving the network access speed, is that the law of site's being accessed have been achieved by Data Mining in web log,which aimed to change the web site's organizational structure and services by extracting interesting patterns for log user to access to the site.

Keywords:Data Mining;Web;Acess to Network

一、緒言

隨著Internet技術(shù)的發(fā)展和普及,網(wǎng)絡(luò)在創(chuàng)造信息高速交換的同時(shí),數(shù)據(jù)存儲(chǔ)量也在不斷膨脹,加上每個(gè)動(dòng)態(tài)頁(yè)面和應(yīng)用系統(tǒng)都在頻繁訪問數(shù)據(jù)庫(kù),使得互聯(lián)網(wǎng)絡(luò)中web用戶對(duì)數(shù)據(jù)的訪問速度不斷下降。解決這個(gè)問題的途徑之一就是Web日志挖掘,即根據(jù)Web服務(wù)器記錄的日志對(duì)用戶訪問網(wǎng)站的情況進(jìn)行分析,使用數(shù)據(jù)挖掘技術(shù)抽取日志中感興趣的模式,得到站點(diǎn)的被訪問規(guī)律,從而改進(jìn)網(wǎng)站的組織結(jié)構(gòu)和服務(wù),掘出有用的關(guān)聯(lián)規(guī)則、序列模式、聚類分析等知識(shí)類型。Web訪問挖掘通常可以分為數(shù)據(jù)預(yù)處理、挖掘算法的應(yīng)用、模式分析及知識(shí)發(fā)現(xiàn)這3個(gè)階段,本文主要討論數(shù)據(jù)預(yù)處理、挖掘算法的應(yīng)用兩個(gè)階段。

二、數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理的數(shù)據(jù)源是服務(wù)器的日志文件,因此首先要將日志文件轉(zhuǎn)換成數(shù)據(jù)庫(kù)文件,以獲得可靠的精確數(shù)據(jù)。技術(shù)上,一般將預(yù)處理階段劃分為數(shù)據(jù)清洗、頁(yè)面過濾、用戶識(shí)別、會(huì)話構(gòu)造、路徑識(shí)別這5個(gè)步驟。其模型如圖1所示。

隨著Web技術(shù)的進(jìn)一步發(fā)展,原有的模型已不能達(dá)到很好的預(yù)處理效果,改進(jìn)的Web訪問挖掘數(shù)據(jù)預(yù)處理模型通常在常規(guī)數(shù)據(jù)清洗后增加了初次引擎過濾,并在會(huì)話別之后進(jìn)行了二次引擎過濾,其作用是為了過濾當(dāng)今廣泛使用的搜索引擎對(duì)Web的訪問記錄。經(jīng)過會(huì)話識(shí)別的服務(wù)器日志文件已經(jīng)被組織成一個(gè)會(huì)話集合,通過對(duì)該會(huì)話集合的再次分析,可以將其中的非正式用戶會(huì)話過濾,其中主要是針對(duì)搜索引擎的過濾,該過程稱為“二次引擎過濾”。過濾方法可以采用當(dāng)前比較成熟的分類、聚類等數(shù)據(jù)挖掘算法。

三、挖掘算法的應(yīng)用

通過分析日志文件,我們可以尋找到那些經(jīng)常被用戶訪問的頁(yè)面及他們之間的關(guān)聯(lián)規(guī)則(即頻繁訪問頁(yè)組)。網(wǎng)站資源可以是網(wǎng)頁(yè)、數(shù)據(jù)、圖片、聲音和文檔。設(shè)x1、x2、……xm;Y1、Y2、……Ym均為網(wǎng)站資源,X=>Y(sup,conf)表示資源集的關(guān)聯(lián)規(guī)則,其中X={X1、X2……Xm},Y={Y1、Y2、……Ym},X∩Y=空,這條規(guī)則的含義是如果資源集X被訪問,那么資源集Y也會(huì)被訪問。規(guī)則的支持度為sup,置信度為conf,關(guān)聯(lián)規(guī)則挖掘算法的目的就是要推導(dǎo)出所有達(dá)到一定支持度和置信度的規(guī)則。

在這里,假定超文本系統(tǒng)僅僅包含有一些基本的頁(yè)面。除此外我們還假設(shè):

1.指向一個(gè)頁(yè)面的連接是將這個(gè)頁(yè)面作為一個(gè)整體來對(duì)待的,而不是指向頁(yè)面內(nèi)容的一部分;

2.在超文本系統(tǒng)中不存在環(huán)路;

3.在任何源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)間最多只有一條鏈路。基于以上的假設(shè),我們可以為超文本系統(tǒng)建立一個(gè)有向網(wǎng)絡(luò)拓?fù)鋱D,如圖2所示:

在這里,有向圖G=(N,E),其中N是節(jié)點(diǎn)的集合,E是邊的集合。一個(gè)節(jié)點(diǎn)A(A∈N)和一個(gè)頁(yè)面相對(duì)應(yīng),一條邊是一個(gè)元組(A,B)∈E,和頁(yè)面間的一個(gè)連接相對(duì)應(yīng);對(duì)于給定的連接(A,B)稱A是源節(jié)點(diǎn),B是目的節(jié)點(diǎn)。在這里并不假定圖是連接的。如果兩個(gè)頁(yè)面在網(wǎng)絡(luò)拓?fù)渲邢嗑噍^遠(yuǎn),則表明它們之間的關(guān)聯(lián)性較低,如果我們從日志信息中挖掘出它們之間有較高的訪問可信度的規(guī)則,則這樣的規(guī)則是用戶感興趣的。如圖2的頁(yè)面C和E在拓?fù)浣Y(jié)構(gòu)中,顯示關(guān)聯(lián)度較低。如果,在Web日志中發(fā)現(xiàn)了C=>E這樣的關(guān)聯(lián)規(guī)則,則興趣度是較高的。通過這樣興趣度高的關(guān)聯(lián)規(guī)則,有利于網(wǎng)站結(jié)構(gòu)的調(diào)整。

四、結(jié)束語(yǔ)

隨著Internet的發(fā)展,網(wǎng)絡(luò)資源更加豐富, 數(shù)據(jù)挖掘在提高web用戶網(wǎng)絡(luò)訪問速度上的研究已經(jīng)成為一項(xiàng)重要的研究課題。Web日志數(shù)據(jù)預(yù)處理是Web日志挖掘的一個(gè)重要前提和基礎(chǔ),高效正確的預(yù)處理方法直接影響著挖掘的成敗;而成功應(yīng)用挖掘算法則大大提高規(guī)則的利用率,可以很好的用于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的改善。

參考文獻(xiàn):

[1]易芝,汪林林,王練.基于關(guān)聯(lián)規(guī)則相關(guān)性分析的Web個(gè)性化推薦研究[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2007,19(2)

[2]紀(jì)良浩,王國(guó)胤,楊勇.基于協(xié)作過濾的Web日志數(shù)據(jù)預(yù)處理研究[J].重慶郵電學(xué)院學(xué)報(bào):自然科學(xué)版,2006,18(5)

[3]朱秋云.一種關(guān)聯(lián)規(guī)則挖掘篩選算法設(shè)計(jì)[J].重慶工學(xué)院學(xué)報(bào):自然科學(xué)版,2008,22(6)

作者簡(jiǎn)介

孫文乾(1966.11-),男,廣西鳳山人,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)

3 期 更 正

1、本刊2010年1月第96頁(yè)文章《關(guān)于藥用植物的藥用成份分析》的作者:孫世琦應(yīng)為:孫士琦

好的日志文章范文第4篇

[關(guān)鍵詞]電子商務(wù)數(shù)據(jù)挖掘Web日志挖掘

一、引言

隨著計(jì)算機(jī)技術(shù)、通信技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,電子商務(wù)的發(fā)展也有了越來越好的技術(shù)平臺(tái),許多公司都建立了自己的網(wǎng)站,這是公司的門戶和電子商務(wù)進(jìn)行的所在。Web數(shù)據(jù)挖掘是當(dāng)前最前沿的研究領(lǐng)域,是把Internet和數(shù)據(jù)挖掘結(jié)合起來的一種新興技術(shù)。Web數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的特定步驟,也是最核心的部分。Web日志挖掘是Web挖掘的重要內(nèi)容,其技術(shù)和方法在電子商務(wù)中有著巨大的應(yīng)用空間和應(yīng)用價(jià)值。如發(fā)現(xiàn)有價(jià)值的信息、尋找潛在客戶和提供個(gè)性化服務(wù)等。

二、Web挖掘及Web日志挖掘

Web挖掘是將數(shù)據(jù)挖掘的思想和方法應(yīng)用到Web頁(yè)面內(nèi)容、頁(yè)面之間的結(jié)構(gòu)、用戶訪問信息等各種Web數(shù)據(jù)中,從中抽取隱含的、以前未知的、具有潛在應(yīng)用價(jià)值的信息。根據(jù)挖掘的對(duì)象不同,Web挖掘可分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web日志挖掘。

1.Web內(nèi)容挖掘

Web內(nèi)容挖掘主要從Web文檔的內(nèi)容中抽取出有用的知識(shí)。由于Web文檔的絕大部分內(nèi)容是以文本的形式存在,所以Web內(nèi)容挖掘主要針對(duì)的是Web文檔的文本部分,文本挖掘主要包括對(duì)Web文檔文本的總結(jié)、分類、聚類、關(guān)聯(lián)分析等。除了文本挖掘以外,Web內(nèi)容挖掘還包括Web上的聲音、圖形、圖像信息的挖掘、數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘和信息獲取等。

2.Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘主要通過Web頁(yè)的組織結(jié)構(gòu)和超鏈接關(guān)系以及Web文檔自身的結(jié)構(gòu)信息(如Title,Heading,Anchor標(biāo)記等)推導(dǎo)出Web內(nèi)容以外的知識(shí),可分為超鏈挖掘、內(nèi)部結(jié)構(gòu)挖掘和URL挖掘。

3.Web日志挖掘

Web日志挖掘即Web使用記錄挖掘,是從用戶的訪問記錄中抽取具有意義的模式。其數(shù)據(jù)源有服務(wù)器的日志、用戶注冊(cè)數(shù)據(jù)、跟蹤文件的數(shù)據(jù)記錄、用戶訪問期間的事務(wù)、用戶查詢、書簽數(shù)據(jù)和鼠標(biāo)移動(dòng)點(diǎn)擊的信息。Web日志記錄挖掘應(yīng)用的技術(shù)主要有路徑分析、關(guān)聯(lián)規(guī)則分析、序列模式分析、聚類分析、統(tǒng)計(jì)分析等。Web使用記錄挖掘可以發(fā)現(xiàn)潛在的用戶、改進(jìn)電子商務(wù)網(wǎng)站的建設(shè)、增加個(gè)性化服務(wù)等。

三、Web日志挖掘的步驟

Web日志挖掘步驟主要分為源數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式分析4個(gè)階段。

1.源數(shù)據(jù)收集

源數(shù)據(jù)收集主要是Web日志文件的收集。對(duì)于一個(gè)電子商務(wù)網(wǎng)站來說,經(jīng)過一段時(shí)間后,用戶會(huì)在網(wǎng)站上積累大量有用的信息(如訪問日志、注冊(cè)信息、需求信息、定單信息、交流信息等),采用Web日志挖掘技術(shù)就可以充分利用這些有用信息,幫助電子商務(wù)網(wǎng)站的建設(shè)和發(fā)展。

Web日志文件主要包括以下3種類型:服務(wù)器日志文件、錯(cuò)誤日志文件和Cookies。

2.數(shù)據(jù)預(yù)處理

Web日志挖掘首先要對(duì)日志中的原始數(shù)據(jù)進(jìn)行預(yù)處理,因?yàn)閺挠脩舻脑L問日志中得到的原始日志記錄并不適于挖掘,必須進(jìn)行適當(dāng)?shù)奶幚怼R虼耍枰ㄟ^日志清理,去除無(wú)用的記錄。預(yù)處理過程是保證Web日志挖掘質(zhì)量的關(guān)鍵步驟,下面我們來闡述數(shù)據(jù)預(yù)處理的過程。

(1)數(shù)據(jù)凈化。指刪除Web服務(wù)器日志中與挖掘算法無(wú)關(guān)的數(shù)據(jù)。大多數(shù)情況,只有日志中HTML文件與用戶會(huì)話相關(guān),所以通過檢查URL的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù)。

(2)識(shí)別用戶。由于本地緩存、服務(wù)器和防火墻的存在,使得識(shí)別用戶的任務(wù)變得很復(fù)雜,可以使用一些啟發(fā)式規(guī)則幫助識(shí)別用戶。

(3)識(shí)別用戶會(huì)話。用戶會(huì)話是指用戶對(duì)服務(wù)器的一次有效訪問,通過其連續(xù)請(qǐng)求的頁(yè)面,我們可以獲得他在網(wǎng)站中的訪問行為和瀏覽興趣。

(4)識(shí)別片段。在識(shí)別用戶會(huì)話過程中的另一個(gè)問題是確定訪問日志中是否有重要的請(qǐng)求沒有被記錄。如果當(dāng)前請(qǐng)求頁(yè)與用戶上一次請(qǐng)求頁(yè)之間沒有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK”按鈕調(diào)用緩存在本機(jī)中的頁(yè)面。檢查引用日志確定當(dāng)前請(qǐng)求來自哪一頁(yè),如果在用戶的歷史訪問記錄上有多個(gè)頁(yè)面都包含與當(dāng)前請(qǐng)求頁(yè)的鏈接,則將請(qǐng)求時(shí)間最接近當(dāng)前請(qǐng)求頁(yè)的頁(yè)面作為當(dāng)前請(qǐng)求的來源。

3.模式發(fā)現(xiàn)

模式發(fā)現(xiàn)是運(yùn)用各種算法和技術(shù)對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。這些技術(shù)包括人工智能、數(shù)據(jù)挖掘、統(tǒng)計(jì)理論、信息論等多領(lǐng)域的成熟技術(shù)。可以運(yùn)用數(shù)據(jù)挖掘中的常用技術(shù)如路徑分析,關(guān)聯(lián)規(guī)則、序列模式以及分類聚類等。

(1)路徑分析。它可以被用于判定在一個(gè)站點(diǎn)中最頻繁訪問的路徑,還有一些其它的有關(guān)路徑的信息通過路徑分析可以得出。利用這些信息就可以改進(jìn)站點(diǎn)的設(shè)計(jì)結(jié)構(gòu)。

(2)關(guān)聯(lián)規(guī)則。使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法,可以從Web的訪問事務(wù)中找到相關(guān)性。利用這些相關(guān)性,可以更好的組織站點(diǎn)的Web空間。

(3)序列模式。在時(shí)間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指那些如“一些項(xiàng)跟隨另一個(gè)項(xiàng)”這樣的內(nèi)部事務(wù)模式。發(fā)現(xiàn)序列模式,能夠便于預(yù)測(cè)讀者的訪問模式,開展有針對(duì)性的服務(wù)。

(4)分類和聚類。發(fā)現(xiàn)分類規(guī)則可以給出識(shí)別一個(gè)特殊群體的公共屬性的描述,這種描述可以用于分類的讀者。聚類分析可以從Web訪問信息數(shù)據(jù)中聚類出具有相似特性的讀者,在Web事務(wù)日志中,聚類讀者信息或數(shù)據(jù)項(xiàng)能夠便于開發(fā)和設(shè)計(jì)未來的服務(wù)模式和服務(wù)群體。

4.模式分析

該階段實(shí)現(xiàn)對(duì)用戶訪問模式的分析,基本作用是排除模式發(fā)現(xiàn)中沒有價(jià)值的規(guī)則模式,從而將有價(jià)值的模式提取出來。

四、Web日志挖掘在電子商務(wù)網(wǎng)站中的應(yīng)用

1.電子商務(wù)網(wǎng)站中Web日志挖掘內(nèi)容

(1)網(wǎng)站的概要統(tǒng)計(jì)。網(wǎng)站的概要統(tǒng)計(jì)包括分析覆蓋的時(shí)間、總的頁(yè)面數(shù)、訪問數(shù)、會(huì)話數(shù)、惟一訪問者、以及平均訪問、最高訪問、上周訪問、昨日訪問等結(jié)果集。

(2)內(nèi)容訪問分析。內(nèi)容訪問分析包括最多及最少被訪問的頁(yè)面、最多訪問路徑、最多訪問的新聞、最高訪問的時(shí)間等。

(3)客戶信息分析。客戶信息分析包括訪問者的來源省份統(tǒng)計(jì)、訪問者使用的瀏覽器及操作系統(tǒng)分析、訪問來自的頁(yè)面或者網(wǎng)站、來自的IP地址以及訪問者使用的搜索引擎。

(4)訪問者活動(dòng)周期行為分析。訪問者活動(dòng)周期行為分析包括一周7天的訪問行為、一天24小時(shí)的訪問行為、每周的最多的訪問日、每天的最多訪問時(shí)段等。

(5)主要訪問錯(cuò)誤分析。主要訪問錯(cuò)誤分析包括服務(wù)端錯(cuò)誤、頁(yè)面找不到錯(cuò)誤等。

(6)網(wǎng)站欄目分析。網(wǎng)站欄目分析包括定制的頻道和欄目設(shè)定,統(tǒng)計(jì)出各個(gè)欄目的訪問情況,并進(jìn)行分析。

(7)商務(wù)網(wǎng)站擴(kuò)展分析。商務(wù)網(wǎng)站擴(kuò)展分析是專門針對(duì)專題或多媒體文件或下載等內(nèi)容的訪問分析。

2.Web日志挖掘工具

已經(jīng)有部分公司開發(fā)出了商用的網(wǎng)站用戶訪問分析系統(tǒng),如WebTrends公司的CommerceTrends3.0,它能夠讓電子商務(wù)網(wǎng)站更好地理解其網(wǎng)站訪問者的行為,幫助網(wǎng)站采取一些行動(dòng)來將這些訪問者變?yōu)轭櫩汀ommerceTrends主要由3部分組成:ReportGenerationServer、CampainAnalyzer和WebhouseBuilder。

還有Accrue公司的AccrueInsight,它是一個(gè)綜合性的Web分析工具,它能夠?qū)W(wǎng)站的運(yùn)行狀況有個(gè)深入、細(xì)致和準(zhǔn)確的分析,通過分析顧客的行為模式,幫助網(wǎng)站采取措施來提高顧客對(duì)于網(wǎng)站的忠誠(chéng)度,從而建立長(zhǎng)期的顧客關(guān)系。

好的日志文章范文第5篇

關(guān)鍵詞:Web日志挖掘;信息無(wú)障礙;網(wǎng)站設(shè)計(jì)

中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2011)14-3261-02

The Research of the Accessibility Website Design Based on Web Log Mining

TANG Heng-yao, ZHAN Xiao-yan

(Mathematics and Computer Science College of Huanggang Normal University, Huanggang 438000, China)

Abstract: On the problems existing in the realization of current accessibility Website, we design a Web designing architecture, using the Web log mining technique to extract user interests and access priority sequence and adopting the dynamic Web page information to fill the Web page commonly used structure, realize the intelligent, personalized accessibility.

Key words: Web log mining; information accessibility; Website design

隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)給現(xiàn)代人們獲取信息帶來極大的便利,成為人們工作生活中非常重要的組成部分。信息無(wú)障礙即萬(wàn)維網(wǎng)對(duì)任何人士(包括殘障人士)都是可訪問、可用的,殘障人士能感覺、理解和操縱Web,與Web 互動(dòng)。如何借助先進(jìn)的技術(shù),消除數(shù)字鴻溝,為殘疾人提供有效的輔助手段,使他們能和健全人一樣無(wú)障礙地獲取網(wǎng)上信息,得到世界各國(guó)政府和組織越來越多的重視。

1 信息無(wú)障礙網(wǎng)站存在的問題

很多部分實(shí)現(xiàn)了信息無(wú)障礙的網(wǎng)站,用戶每次訪問時(shí),網(wǎng)站語(yǔ)音都得從頭到尾的播報(bào)網(wǎng)站內(nèi)容,對(duì)于該用戶曾經(jīng)訪問過本網(wǎng)站中部分頁(yè)面內(nèi)容,系統(tǒng)不能自動(dòng)過濾掉這些已經(jīng)閱讀的內(nèi)容,或者跳過這些已閱讀信息,而是依然按照布局順序重復(fù)播報(bào)。這對(duì)于閱讀障礙的用戶來說非常浪費(fèi)時(shí)間和精力。避免重復(fù)瀏覽或者播報(bào)網(wǎng)站信息,將用戶曾經(jīng)閱讀過的內(nèi)容過濾掉,將沒有閱讀過的最新的感興趣的網(wǎng)頁(yè)內(nèi)容優(yōu)先播報(bào)給閱讀障礙用戶,提供智能化、個(gè)性化信息服務(wù),是信息無(wú)障礙網(wǎng)站設(shè)計(jì)應(yīng)該重視的問題。

2 Web日志挖掘

Web日志文件是在Web服務(wù)器上每隔一定的時(shí)間產(chǎn)生的記錄文件,其內(nèi)容包括訪問用戶的IP地址,訪問時(shí)間、訪問的頁(yè)面、頁(yè)面的大小、瀏覽器類型、響應(yīng)狀態(tài)等等。Web日志挖掘是對(duì)用戶訪問Web時(shí)服務(wù)器方留下的訪問記錄進(jìn)行挖掘,得到用戶的訪問模式和訪問興趣。通過對(duì)Web站點(diǎn)的日志記錄進(jìn)行預(yù)處理,將日志數(shù)據(jù)組織成傳統(tǒng)的數(shù)據(jù)挖掘方法能夠處理的事務(wù)數(shù)據(jù)形式,然后利用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行處理。

Web日志預(yù)處理過程:

1) 數(shù)據(jù)收集:從服務(wù)器端數(shù)據(jù)、客戶端數(shù)據(jù)、服務(wù)器端進(jìn)行。

2) 數(shù)據(jù)凈化:刪除Web日志文件中不是由用戶請(qǐng)求,而是由瀏覽器自動(dòng)“請(qǐng)求”產(chǎn)生的訪問記錄。具體包括圖片和音頻文件、樣式文件和腳本文件、不是GET的HTTP方法、彈出式廣告的記錄等。

3) 用戶識(shí)別:可以通過IP地址和、嵌入SessionID、cookie、軟件等方法實(shí)現(xiàn)用戶的識(shí)別,但由于本地緩存、公司防火墻和服務(wù)器的存在,要識(shí)別出每一個(gè)用戶變得很復(fù)雜。可以采用一些啟發(fā)式規(guī)則去識(shí)別不同用戶,將IP地址,類型以及引用頁(yè)面結(jié)合起來識(shí)別一個(gè)用戶,也可以通過注冊(cè)用戶,依賴用戶的合作是最好的解決辦法。

4) 會(huì)話識(shí)別:用戶在規(guī)定時(shí)間內(nèi)對(duì)服務(wù)器的一次有效訪問,通過其連續(xù)請(qǐng)求的頁(yè)面,可以獲得其在網(wǎng)站中的訪問行為和瀏覽興趣,有4種識(shí)別會(huì)話的模型:頁(yè)面類型模型(page type model),參引長(zhǎng)度模型(reference length model),最大前向參引模型(maximal forword reference model)和時(shí)間窗口模型(time window model)。最常采用的是時(shí)間窗口模型,以用戶訪問時(shí)間作為劃分會(huì)話的分界,一般間隔時(shí)間取30min。

5) 路徑補(bǔ)充:用戶有時(shí)瀏覽的頁(yè)面,是從本地緩存和服務(wù)器中調(diào)用的,不會(huì)向Web服務(wù)器發(fā)送請(qǐng)求,也就不會(huì)記錄日志,而這些請(qǐng)求可能對(duì)后續(xù)挖掘的實(shí)施有重要作用,缺少這些頁(yè)面記錄可能會(huì)使挖掘結(jié)果不是很準(zhǔn)確。為了能更精確的挖掘用戶的行為模式,有必要把這些缺失的路徑補(bǔ)充上去即路徑補(bǔ)充。如果當(dāng)前請(qǐng)求的頁(yè)與用戶上一次請(qǐng)求的頁(yè)之間沒有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK"按鈕調(diào)用緩存在本機(jī)中的頁(yè)面。如果用戶的歷史訪問記錄有多個(gè)頁(yè)面都包含與當(dāng)前請(qǐng)求頁(yè)的鏈接,則將請(qǐng)求時(shí)間最接近的Web頁(yè)的頁(yè)面作為當(dāng)前請(qǐng)求的來源。

3 基于Web日志挖掘的網(wǎng)站設(shè)計(jì)

3.1 網(wǎng)站設(shè)計(jì)架構(gòu)

網(wǎng)站為每位存在訪問障礙的用戶建立網(wǎng)站訪問記錄數(shù)據(jù)庫(kù),用戶訪問網(wǎng)站頁(yè)面,產(chǎn)生Web日志文件,通過對(duì)Web站點(diǎn)日志文件進(jìn)行數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別,將有用數(shù)據(jù)存入事務(wù)數(shù)據(jù)庫(kù),對(duì)該用戶訪問過的頁(yè)面進(jìn)行相應(yīng)標(biāo)記,再對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行傳統(tǒng)的數(shù)據(jù)挖掘,分析出該用戶比較感興趣的信息類型,為該用戶對(duì)網(wǎng)站所有類型信息構(gòu)造優(yōu)先顯示頁(yè)面類型序列表和對(duì)每類信息未訪問頁(yè)面、已訪問頁(yè)面分別構(gòu)造優(yōu)先序列表,當(dāng)該用戶再次訪問網(wǎng)站時(shí)利用離線分析所得的優(yōu)先序列表和網(wǎng)站文件映射數(shù)據(jù)庫(kù)將網(wǎng)頁(yè)鏈接按照用戶興趣高低動(dòng)態(tài)填充到網(wǎng)站導(dǎo)航框架,這樣用戶最感興趣類型的網(wǎng)頁(yè)鏈接總是弄夠最先看到、聽到,從而達(dá)到優(yōu)先訪問的目的。

網(wǎng)站設(shè)計(jì)框架如圖1。

3.2 網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航是根據(jù)信息無(wú)障礙網(wǎng)站結(jié)構(gòu)布局設(shè)計(jì)標(biāo)準(zhǔn)所設(shè)計(jì)的網(wǎng)站通用布局框架,除了包括信息無(wú)障礙要求的導(dǎo)航磚,通用切換等功能,還將頁(yè)面設(shè)計(jì)成由幾個(gè)通用的布局框架模塊組成,每個(gè)框架模塊將顯示網(wǎng)站上某一種類型的網(wǎng)頁(yè)信息鏈接,具體網(wǎng)頁(yè)鏈接內(nèi)容則根據(jù)序列表先后順序動(dòng)態(tài)填充。網(wǎng)站所包含的信息類型可以有很多,但在網(wǎng)站導(dǎo)航中只列出用戶最感興趣的幾種類型的網(wǎng)頁(yè)鏈接,隨著用戶興趣的改變,其他類型的網(wǎng)頁(yè)鏈接將動(dòng)態(tài)的填充到相應(yīng)級(jí)別的框架模塊中。

3.3 興趣提取

根據(jù)用戶瀏覽的歷史訪問記錄(內(nèi)容信息和行為信息)、訪問時(shí)間和訪問頻率等來分析計(jì)算用戶興趣度,用戶的興趣一般集中于某一個(gè)主題或者多個(gè)主題,系統(tǒng)在通過聚類進(jìn)行分析將用戶瀏覽的歷史頁(yè)面集自動(dòng)地分成n個(gè)聚簇(n是聚類中聚類中心的數(shù)目),每一聚簇的頁(yè)面集體現(xiàn)了用戶的某類興趣,構(gòu)造形成用戶的興趣類。再利用用戶的隱式信息學(xué)習(xí)提取用戶興趣集,建立樹狀的用戶興趣模型。

3.4 序列模式

序列模式挖掘是對(duì)關(guān)聯(lián)規(guī)則挖掘的進(jìn)一步推廣,它挖掘出序列數(shù)據(jù)庫(kù)中項(xiàng)集之間的時(shí)序關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則強(qiáng)調(diào)的是兩個(gè)項(xiàng)之間的關(guān)聯(lián),序列模式則加強(qiáng)調(diào)兩者之間的先后次序。這里我們將挖掘出兩種序列表:類型序列表和頁(yè)面序列表。類型序列表是通過對(duì)歷史訪問記錄進(jìn)行挖掘統(tǒng)計(jì)出來的網(wǎng)站每種類型信息訪問優(yōu)先等級(jí),是一組有序項(xiàng)集對(duì)應(yīng)表;頁(yè)面序列表則是以類型挖掘權(quán)值和更新時(shí)間2個(gè)指標(biāo)得出的頁(yè)面訪問有序集對(duì)應(yīng)表。可以采用基于Apfiori算法的改進(jìn)算法進(jìn)行挖掘得到上述兩種序列表。

3.5 序列-頁(yè)面映射

根據(jù)挖掘得到的序列模式對(duì)網(wǎng)站的靜態(tài)頁(yè)面文件進(jìn)行一一映射,按照興趣高低和文件序列先后動(dòng)態(tài)的填充如網(wǎng)站導(dǎo)航模塊框架中。

4 結(jié)束語(yǔ)

該文所提出對(duì)Web日志文件挖掘提取用戶的興趣類和訪問類型和頁(yè)面優(yōu)先序列,重構(gòu)站點(diǎn)頁(yè)面之間的鏈接關(guān)系,動(dòng)態(tài)顯示網(wǎng)頁(yè)信息的設(shè)計(jì)框架,以適應(yīng)有障礙用戶的訪問興趣習(xí)慣為主要目標(biāo),在一定程度上可以避免反復(fù)無(wú)用的頁(yè)面瀏覽和語(yǔ)音播報(bào)所造成的對(duì)存在訪問障礙用戶產(chǎn)生的困擾和時(shí)間精力的浪費(fèi),提高了訪問效率,為消除信息鴻溝,真正做到信息人人共享發(fā)揮積極的作用。

參考文獻(xiàn):

[1] 王甜.自助建站系統(tǒng)助陣信息無(wú)障礙網(wǎng)站[J].互聯(lián)網(wǎng)天地,2008(4).

[2] 劉曉政.視障網(wǎng)絡(luò)用戶的無(wú)障礙網(wǎng)頁(yè)瀏覽現(xiàn)狀及前景[J].電腦知識(shí)與技術(shù),2008,(35).

主站蜘蛛池模板: 91精品网| 三级国产在线观看 | 免费看成人吃奶视频在线 | 另类 欧美 日韩 国产 在线 | 日本久久片| 国产精品视频42页 | 精品一区二区在线播放 | 午夜精品久久久久99热蜜桃导演 | 黄色小视频在线免费观看 | 伊人久久视频 | 麻豆成人久久精品二区三区小说 | 天堂网2014av | 亚洲最新av | 久久久久久亚洲蜜桃 | 日韩av手机在线观看 | 九九色| 精品国产污污免费网站精东 | 精品在线视频观看 | 久久亚洲国产精品 | 麻豆视频免费看 | 亚洲一区二区欧美 | 国产成人在线一区二区 | 日韩精品视频免费观看 | 日本成人黄色片 | 国产女教师精品久久久av | 99久久精品国产一区二区三区 | 99精品国产一区二区 | 久久久精品国产免费观看一区二区 | 伊人国产精品 | 日韩成人综合网 | 91n在线观看 | 亚洲国产视频一区 | 精品一区二区国产 | 美女久久网站 | 91久久久久久 | 国产乱色| 亚洲视频一区二区 | 粉嫩精品一区二区三区在线观看 | 中文字幕最新 | 狠狠艹 | a级成人毛片 |