前言:本站為你精心整理了農業網站規則算法的應用范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
1基于關聯規則的APRIORI算法
APRIORI算法是一種最有影響的挖掘關聯規則頻繁項集的算法[3]。關聯規則的挖掘分為兩個過程[4]:找出所有頻繁項集,這些項集出現的頻繁性至少和預定義的最小支持記數一樣;由頻繁項集產生強關聯規則,根據強關聯規則定義,這些規則必須滿足最小支持度和最小置信度。Apriori算法挖掘頻繁項集,算法使用逐層搜索的迭代方法,k_項集用于探索(k+1)_項集。首先,找出頻繁l_項集的集合,該集合稱作L1。L1用于找出頻繁2_項集的集合L2,L2用于找L3,如此找下去,直到不能找到頻繁k_項集。找每個Lk需要一次數據庫掃描。為提高頻繁項集逐層產生的效率,通常使用Apriori性質壓縮搜索空間。可見,頻繁項集的所有非空了集都必須也是頻繁的。根據定義,如果項集I不滿足最小支持度min_sup,則I不是頻繁的,即P(I)<min_aup。如果項A添加到I,則結果項集(I∪A)不可能比I更頻繁出現。因此,IA也不是頻繁的,即P(I∪A)<min_sup。Apriori性質屬于一種特殊的分類,稱作反單調,意指如果一個集合不能通過測試,則它的所有超集也都不能通過相同的測試。Apriori算法由兩步組成:(1)連接步:為找Lk,通過Lk-1與自己產生候選k_項集。該候選項集的集合計作Ck。設l1和l2是Lk-1中的項集。假定事務或項集中的項按字典次序排列。記號li[j]表示l1的第j項。執行連接(Lk-1聯合Lk-1),其中Lk-1的元素是可連接的。如果它們前(k-2)個項相同。即是,Lk-1的元素l1和l2是可連接的,如果(l1[1]=∧l2[1])(l1[2]=l2[2])…(l1[k-2]=l2[k-2])∧(l1[k-1]<l2[k-1]),條件(l1[k=1]<l2[k-1])是簡單保證不產生重復。l1和l2連接產生的結果項集是l1[1]l1[2]…l1[k-1]l2[k-1]。(2)剪枝步:Ck是Lk的超集;即是,它的成員可以是也可以不是頻繁的,但所有的頻繁k_項集都包含在Ck中。掃描數據庫,確定Ck中每個候選的計數,從而確定Lk。然而Ck可能很大,為壓縮Ck,可以使用Apriori性質,如果一個候選k_項集的(k-1)_子集不在LK-1中,則該候選也不可能是頻繁的,從而可以由Ck中刪除。
APRIORI算法針對不同的應用,不同的問題規模,應選擇不同的優化方法,甚至在需要準確性的情況下,可以考慮犧牲性能。如選樣的優化方法在問題規模很大的情況下,可以大大地提高性能,但可能會遺漏重要的規則。如上面描述的挖掘網站資源的關聯上,在進行了概念分層處理后,問題規模大大減小,我們就可以不考慮采用選樣的優化方法。本文采用數據挖掘的權威軟件SAS。SAS的數據挖掘方法論稱作SEMMA(抽樣、探索、修改、建模、評估)。SAS/EM集成了數據獲取工具、數據取樣工具、數據篩選工具、數據變量轉換工具、數據挖掘數據庫、數據挖掘過程、多種形式的回歸工具,為建立決策樹的數據剖分工具、決策樹瀏覽工具、人工神經元網絡、數據挖掘的評價工具。可利用SAS/EM中具有明確代表意義的圖形化的模塊將這些數據挖掘的工具單元組成一個處理流程圖,并依此來組織用戶的數據挖掘的過程。這一過程在任何時候均可根據具體情況的需要進行修改、更新并將適合用戶需要的模式存儲起來,以便此后重新調出來使用。對數據集中的變量進行模型元類型的更改,將包含IP地址的字段設置為ID元類型、包含URL用戶訪問頁面地址的字段設置為Target元類型,然后進行關聯規則算法挖掘。
2.1算法分析
結果窗口,Rules頁面包含了每條規則的信息。認為規則BoardID=37(農產品加工)==>BoardID=21(畜產品加工)是網站用戶一次升錄同時訪問的2個欄目,其他的參數解釋如下:Support(9.6%)forBoardID=37(農產品加工)==>BoardID=21(畜產品加工),支持度反映模式的實用性,關聯模式的支持度是模式為真的任務相關元組(或事務)所占的百分比。Confidence(62.47%)forBoardID=37(農產品加工)==>BoardID=21(畜產品加工),置信度反映模式的確定性,每個發現的模式都應該有一個表示其確定性的度量。因此,此關聯規則挖掘訪問網站欄目的用戶一次訪問同時要訪問的哪些欄目的假定數據組成。一個置信度為62.47%的關聯規則“BoardID=37(農產品加工)==>BoardID=21(畜產品加工)”意味訪問BoardID=37(農產品加工)的用戶62.47%也要訪問BoardID=21(畜產品加工)欄目。一個支持度為9.3%的關聯規則BoardID=37(農產品加工)==>BoardID=21(畜產品加工)表示訪問網站的全部用戶的9.3%同時訪問了BoardlD=37(農產品加工)和BoardID=21(畜產品加工)兩個欄目。關聯規則如下:規則1:BoardID=84(供求信息)==>BoardID=90(供求信息),支持度Support(21.65%),置信度Confidence(65.97%)。規則2:BoardID=90(供求信息)==>BoardID=84(供求信息),支持度Support(21.65%),置信度Confidence(57.52%)。規則3:BoardID=37(農產品加工)==>BoardID=21(畜產品加工),支持度Support(9.60%),置信度Confidence(62.47%)。規則4:BoardID=21(畜產品加工)==>BoardID=37(農產品加工),支持度Support(9.60%),置信度Confidence(80.077%)。規則5:BoardID=37(農產品加工)==>BoardID=12(國外農業),支持度Support(9.48%),置信度Confidence(61.40%)。規則6:BoardID=12(國外農業==>BoardID=37(農產品加工),支持度Support(9.48%),置信度Confidence(76.52%)。規則7:BoardID=37(農產品加工)==>BoardID=23(食品科學),支持度Support(9.35%),置信度Confidence(60.86%)。規則8:BoardID=23(食品科學)==>BoardID=37(農產品加工),支持度Support(9.35%),置信度Confidence(83.24%)。
2.2模式評價
在評價版塊欄目之間聯系時,如果支持度過小(通常為5%)時,則沒有強規則被發現,說明網站版塊欄目的獨立性較強,版塊欄目之間聯系較小、緊密性不強,訪問者只對某個版塊欄目感興趣。農業專家在線現有咨詢欄目40余個,通過關聯規則挖掘,發現了以上8條規則,農產品加工與畜產品加工、農產品加工與國外農業、農產品加工與食品科學等咨詢欄目存在關聯,這也反映了網站用戶迫切需要這方面的農業知識,農業專家在線將利用挖掘的結果加大此類論壇的專家力量、更改論壇導航等內容方便廣大用戶訪問,其他農業類網站也可以利用這個挖掘結果把網站內容多多關注此類信息。
2.3挖掘農業網站
由于農業專家在線咨詢欄目以論壇形式進行組織的,用戶訪問論壇欄目跳轉的次數用線條的粗細進行表示,其中農產品加工(BoaidID=37)、植物病害(BoardID=39)、蔬菜(BoaadID=41)、農業機械(BoaadID=85)是這個時間段用戶頻繁訪問的欄目。圖2為詳細路徑模式,可以清楚看出線條代表用戶訪問網站具體的序列。它是通過論壇主頁(index.asp),依次訪問農產品加工(BoardID=37)、植物病害(BoardID=39)、蔬菜(BoaadID=41)、農業機械(BoaidID=85)等欄目的。在詳細路徑圖單代表了整體用戶訪問模式。在圖中,可以看到最頻繁訪問的URLs集中在中間部分,由厚厚的紅色和藍色點點組成。頻繁訪問URLs也顯示用戶是在這些頁面進入或離開此網站的。可以通過LINK分析挖掘出任意2個欄目的最短訪問路徑,以下是用戶從大豆遺傳育種(BoaadID=1)到農業機械(BoaadID=85)用戶訪問的最短路徑。一共這一時間段中共有92人選擇了經過畜禽傳染病防治(BoardID=31)欄目進行路徑選擇。
3結語
本文研究了關聯規則算法及算法改進措施,采用SAS軟件數據挖掘模塊,利用關聯規則、鏈接分析等過程挖掘農業專家在線網站日志及信息構建。通過挖掘發現農產品加工與畜產品加工、農產品加工與國外農業、農產品加工與食品科學等咨詢欄目存在關聯,農業用戶頻繁訪問的農業欄目為網站首頁,依次訪問農產品加工、植物病害、蔬菜、農業機械等欄目,為網站改進及相關農業網站建設必將起到重要指導性作用。