前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇模式識別范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
關鍵詞:模式;模式識別;模式識別的應用
1 引言
人們在觀察事物或現象的時候,常常要根據一定需求尋找觀察目標與其他事物或現象的相同或不同之處,并在此特定需求下將具有相同或相似之處的事物或現象組成一類。例如字母‘A’、‘B’、‘a’、‘b’,如果從大小寫上來分,會將‘A’、‘B’ 劃分為一類,‘a’、‘b’劃分為另一類;但是如果從英文字母發音上來分,則又將‘A’、‘a’劃分為一類,而‘B’、‘b’則為另一類。人們也可以正確地區分出它們,并根據需要將它們進行準確歸類,當然, 前提條件是人們需要對‘A’、‘B’、‘a’、‘b’一般的書寫格式、發音方式等有所了解。人腦的這種思維能力就構成了“模式識別”的概念。那么,什么是模式?什么是模式識別呢?
2 模式和模式識別
從以上的例子可以看出,對字符的準確識別首先需要在頭腦中對相應字符有個準確的認識。當人們看到某物或現象時,人們首先會收集該物體或現象的所有信息,然后將其行為特征與頭腦中已有的相關信息相比較,如果找到一個相同或相似的匹配,人們就可以將該物體或現象識別出來。因此,某物體或現象的相關信息,如空間信息、時間信息等,就構成了該物體或現象的模式。Watanabe定義模式“與混沌相對立,是一個可以命名的模糊定義的實體”。比如,一個模式可以是指紋圖像、手寫草字、人臉、或語言符號等。廣義地說,存在于時間和空間中可觀察的事物,如果可以區別它們是否相同或相似,都可以稱之為模式;狹義地說,模式是通過對具體的個別事物進行觀測所得到的具有時間和空間分布的信息;把模式所屬的類別或同一類中模式的總體稱為模式類(或簡稱為類)。模式識別則是在某些一定量度或觀測基礎上把待識模式劃分到各自的模式類中去。計算機模式識別就是是指利用計算機等裝置對物體、圖像、圖形、語音、字形等信息進行自動識別。
模式識別的研究主要集中在兩方面,一是研究生物體( 包括人) 是如何感知對象的,二是在給定的任務下,如何用計算機實現模式識別的理論和方法。前者是生理學家、心理學家、生物學家、神經生理學家的研究內容,屬于認知科學的范疇;后者通過數學家、信息學專家和計算機科學工作者近幾十年來的努力,已經取得了系統的研究成果。
3模式識別的方法
現在有兩種基本的模式識別方法,即統計模式識別方法和結構(句法)模式識別方法。統計模式識別是對模式的統計分類方法,即結合統計概率論的貝葉斯決策系統進行模式識別的技術,又稱為決策理論識別方法。利用模式與子模式分層結構的樹狀信息所完成的模式識別工作,就是結構模式識別或句法模式識別。
4.模式識別的應用
經過多年的研究和發展,模式識別技術已廣泛被應用于人工智能、計算機工程、機器學、神經生物學、醫學、偵探學以及高能物理、考古學、地質勘探、宇航科學和武器技術等許多重要領域,如語音識別、語音翻譯、人臉識別、指紋識別、手寫體字符的識別、工業故障檢測、精確制導等。模式識別技術的快速發展和應用大大促進了國民經濟建設和國防科技現代化建設。
4.1 字符識別
字符識別處理的信息可分為兩大類:一類是文字信息,處理的主要是用各國家、各民族的文字( 如: 漢字,英文等)書寫或印刷的文本信息,目前在印刷體和聯機手寫方面技術已趨向成熟,并推出了很多應用系統;另一類是數據信息,主要是由阿拉伯數字及少量特殊符號組成的各種編號和統計數據,如:郵政編碼、統計報表、財務報表、銀行票據等等,處理這類信息的核心技術是手寫數字識別。
4.2 語音識別
語音識別技術技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。近年來,在生物識別技術領域中,聲紋識別技術以其獨特的方便性、經濟性和準確性等優勢受到世人矚目,并日益成為人們日常生活和工作中重要且普及的安全驗證方式。而且利用基因算法訓練連續隱馬爾柯夫模型的語音識別方法現已成為語音識別的主流技術。該方法在語音識別時識別速度較快,也有較高的識別率。
4.3 指紋識別
我們手掌及其手指、腳、腳趾內側表面的皮膚凹凸不平產生的紋路會形成各種各樣的圖案。而這些皮膚的紋路在圖案、斷點和交叉點上各不相同,是唯一的。依靠這種唯一性,就可以將一個人同他的指紋對應起來,通過比較他的指紋和預先保存的指紋進行比較,便可以驗證他的真實身份。一般的指紋5個大的類別:左旋型(leftloop),右旋型(right loop),雙旋型(twinloop),螺旋型(whorl),弓型(arch)和帳型(tented arch),這樣就可以將每個人的指紋分別歸類,進行檢索。指紋實現的方法有很多,大致可以分為4 類:基于神經網絡的方法、基于奇異點的方法、語法分析的方法和其他的方法。
4.4細胞識別
細胞識別是最近在識別技術中比較熱門的一個話題。以前,對疾病的診斷僅僅通過表面現象,經驗在診斷中起到了主導作用,錯判率始終占有一定的比例;而今,通過對顯微細胞圖像的研究和分析來診斷疾病,不僅可以了解疾病的病因、研究醫療方案,還可以觀測醫療療效。如果通過人工辨識顯微細胞診斷疾病也得不償失,費力費時不說,還容易耽誤治療。基于圖像區域特征,利用計算機技術對顯微細胞圖像進行自動識別愈來愈受到大家的關注,并且現在也獲得了不錯的效果。但實際中,細胞的組成是復雜的,應該選擇更多的特征,建立更為完善的判別函數,可能會進一步提高分類精度。
參考文獻:
[1] 邊肇祺,張學工等編著. 《模式識別》(第二版). 北京:清華大學出版社,2000.
[2] 王碧泉,陳祖蔭. 《模式識別理論、方法和應用》. 北京:地震出版社,1989.
在科學技術飛速發展的今天,電氣設備已經融入各個領域,電氣設備故障診斷成為熱門話題。本文介紹了電氣設備運行中常見的故障種類及模式識別技術,并從技術實踐的角度探討了電氣故障排除應遵循的步驟,總結了電氣設備故障分析常用的處理方法,以對相關工作有所幫助。
關鍵詞:
電氣設備;常見故障;故障診斷
在實際生活中,盡管已經學會了一些基本的電氣故障診斷的方法并能夠加以應用,但設備在實際工作中總會出現一些意外,此時應該高效而精確的找到故障的原因,并及時對此施以解決方法。在實際環境中,某些電氣故障的原因很難查詢,并且給予解決問題的時間有限,通常只會用基本的測量儀器進行簡單的檢查,想快速精準的解決問題并不容易。因此,對電氣故障做深入研究就顯得十分重要。
1電氣設備故障的類型及其診斷分析
想要識別電氣設備故障的類型并排除故障,應熟悉建筑物內主要電氣設備的組成、各部分的功能和控制系統的運行機理,在發生建筑電氣設備故障時,再進一步分析發生故障的系統[1]。在檢查電氣設備故障時應檢查各器件有沒有損傷,設備工作或放置的環境是否過于潮濕,溫度是否符合規范;要借助有關設備對電氣設備進行細致的檢查分析;根據故障的各種信息,結合相關知識,找到故障的根源。電氣故障一般可分為2類:顯性故障。例如接觸器線圈溫度過高、冒煙、接頭有所松動以及發出異常聲音等,這些問題都很容易使人發現;隱性故障,由于隱形故障體現在設備表面上的現象并不多,所以也不容易被發現,而隱形故障主要是存在于控制電路的故障。比如因為對電氣設備進行了不適當的安裝、維護,造成線路中的觸頭及接線頭接觸不良、小設備的損壞和缺失,甚至是導線老化,這些都能成為引發線路故障的起因。一般來說電氣線路越復雜類似的故障出現的概率便越高[2]。這類故障雖然看似微不足道,卻是最容易發生并被忽視的,又因為這種故障的特征和外在跡象直接傳達給工作人員的線索較少,最終能精準地推斷出故障的來龍去脈所花費的時間還是過長。因此借助各種測量工具和儀器成為了解決問題的必要條件。這類問題一般只要找到故障點,通過簡單的調整就能使設備正常工作,所以能否找到故障點成為了關鍵[3]。
2電氣控制電路的故障診斷與分析
電氣控制電路的故障主要有電源故障、線路故障以及元器件故障。
2.1電源故障分析電源的正常工作是順利保證其他所有電氣設備正常工作十分必要的條件。如果電源存在故障,則電路必然不能正常運行,甚至可能損壞設備。電源的類型并不是統一的,一種類型的電源有著與其他電源相區別的性能參數,所以電源的故障類型也是各種各樣的。每一用電設備對與自身相匹配的電源參數都有其獨特的要求,這就為尋找電源故障的過程帶來些不便。不符合相關要求的電源參數,會使電源產生故障。在電氣系統的運行過程中,如果此時電源的參數不穩定,例如電壓、電流時大時小,頻率忽高忽低等,這些都極易使電氣設備產生故障。要想找到這種故障,只需用相關設備進行仔細測量即可。但某些故障查找起來則有些難度,比如波形失真、相位錯位、頻率穩定度、諧波分量等參數,則需憑借更復雜更精密的設備方能對故障進行有效的判斷。
2.2線路故障分析線路故障分為導線故障和導線連接部分故障。導線絕緣皮過度老化或導線破損斷裂均可引起導線故障。如果連接處發生了氧化、松動、移位甚至脫落,則極易引發導線連接部分故障。發生線路故障時,控制電路會變得很不穩定,會出現時斷時續、接觸不良等現象。接觸不良是一種常見又很麻煩的故障,插件松動、接點表面氧化、焊接不良、接觸簧片彈性退化等都是導致線路發生接觸不良的原因[4]。正因為這些故障源頭太細小,所以這種故障初期都很難被發現。
2.3元器件故障分析關于元器件的故障可分為2類:元器件損壞故障;元器件性能變差導致的故障。元器件如果在長期工作中環境條件超過規范或遭受過不可忽視的外力破壞,就極易對自身帶來不同程度的損壞。元器件損壞會給電路正常工作帶來干擾或使其缺失部分功能甚至癱瘓。但元器件損壞的故障表現比較明顯,易及時發現并找到癥結所在。而元器件性能變差這一故障卻由于在故障前期并無明顯征兆而使人難以查找。工作環境的改變或受其他故障的影響都會引起元器件性能變差。若電氣控制電路的元器件性能持續長時間達不到要求,則會導致整個電氣系統故障[5]。
3電氣故障診斷識別方法
隨著計算機技術的研究和應用,模式識別技術也發展起來。模式識別是一種可以用于設備故障診斷的重要手段。人們通過分類法來給世界的各種事物分類。給某一類事物下概念和確定范圍,然后給予它定量的描述,這被稱為模式,然后通過將那些已知模式與需要識別的事物對比,進行識別、歸類,將那些具有某種共同點的模式集合稱為模式類。模式識別不是傳統利用人來識別,而是使用計算機來識別,即利用計算機代替人來對各種物理量進行描述和分類,將需要檢測的模式分配到對應的模式類中去。其過程可由圖1來表示。圖1中被識對象先通過A/D變換,將其特征轉換為夠被計算機處理的數字量(如果被識別的對象為非電量,那么首先應將它們轉換為電信號)。信號通過預處理,過濾掉混入的干擾信號,并且放大有用信號。經過過濾后的有用信號,通過特征抽取,以方便接下來的分類。模式分類則是在特征抽取的基礎上,將被識別的對象歸類,并確定它屬于其中的某種模式[6]。確定電氣設備故障類型,進而解決故障。
4結論
電氣設備故障可能會引起整個系統的運行,而系統中電氣設備的運行狀態又不是一成不變的,因此技術人員必須對各電氣設備運行狀態進行靈活的分析與判斷。基于能量損耗和運行狀態的計算,可以幫助技術人員在短期內做出初步判斷,找出故障的位置和原因,然后再對問題點進行進一步分析、推理,從而判斷問題的源頭,并予以解決,保障電氣設備的正常運行。
參考文獻
[1]郁君平.設備管理[M].北京:機械工業出版社,2011.
[2]恒,嚴璋,譚克雄等.電氣設備狀態監測與故障診斷技術[M].北京:中國電力出版社,2009.
[3]自動化與儀器儀表[J].2014(6):186-188.
[4]劉新輝,張文友.建筑電氣技術[M].西安電子科技大學出版社,2011.
[5]李葆文.現代設備資產管理[M].北京:機械工業出版社,2006.
關鍵詞:肺癌分型; 支持向量機; 神經網絡; Logistic回歸
中圖分類號:TP391 文獻標識碼:A
文章編號:1004-373X(2010)10-0083-03
Comparision of Lung Cancer Grouping Based on Pattern Recognition
LIU Lu1,2, MA Jun-lei1, LI Yun3, DONG Yong-qing4, LIU Wan-yu2
(1. School of Automation, Harbin University of Science and Technology, Harbin 150080, China;
2. HIT-INSA Sino-French United Biomedicine Image Research Centre,Harbin Institute of Technology, Harbin 150001, China;
3. Beijing Filiale of China Combined Network Communication Ltd., Beijing 100052, China;
4. Changbai Wireless KTLA of Jilin Province, Changbai 134400, China)
Abstract: Taking account ofthe influence of different features on the grouping accuracy, the charactesistic selection and optimal experiment were performed by adopting the logistic regression analysis method, and the grouping comparison of the common peripheral lung cancer was carried out by methods of neural network and support vector machine. During the experiments, the application of both the neural network and the support vector Machine methods was adopted, and also the two methods in the application of lung cancer grouping were compared. The experimental results prove that under condition of small sample, the support vector machine method has a stronger generalizability than the neural network method.
Keywords: lung cancer grouping; support vector machine; neural network; Logistic regression
0 引 言
近年來,隨著計算機軟、硬件基礎的提升以及人工智能技術的發展,統計方法和模式識別方法在醫學研究領域得到了廣泛的應用。分類是模式識別方法的一個重要方面,目的是找出描述并區分數據類或概念的模型,以便能夠用該模型預測類別未知的對象所屬的類[1]。用于醫學研究領域的分類方法主要包括統計方法,如Logistic回歸分析以及模式識別方法如支持向量機方法、神經網絡方法等。
周圍型肺癌常見病癥分為3種:腺癌、鱗癌、小細胞癌。本文主要采用統計方法和模式識別的理論對周圍型肺癌的3種病癥的一些臨床表現進行分析和分類判別。實現了特征的優選以及基于不同模式識別分類器的周圍型肺癌診斷方法,并比較和分析幾種分類器在肺癌分型中的特點。
1對象和方法
1.1 對象
選擇哈爾濱醫科大學附屬腫瘤醫院2006年12月~2007年12月期間的周圍型肺癌101例,其中男66例,女35例;鱗癌42例,腺癌52例,小細胞癌7例。
納入本次研究標準:
(1) 病理學或細胞學診斷的肺癌患者(鱗癌、腺癌、小細胞癌)。
(2) 均有醫院統一詳盡的臨床診斷資料。
1.2 判別分析
在所選的101例周圍型肺癌中選擇臨床上有特征性的客觀指標共10個,對其按SPSS 11.5軟件包進行處理,并將101例患者逐一進行量化[2]:性別(男1,┡2),年齡(3 cm=2),吸煙與否(無=0,有=1),T分期(T1=1,T2=2),組織學分型(鱗癌=1,腺癌=2,小細胞癌=3)。
判別分析是對若干個指標的觀測結果判定其應屬于哪一類的統計學方法,其在醫學領域有著廣泛的應用。
Bayes判別:當對各類別的比例分布情況有一定先驗信息,就可以利用這些先驗信息得到相關類別的判別系數。它的基本思想是認為所有P個類別都是空間中互斥的子域,每個觀測都是空間中的一點。它在考慮先驗概率的前提下利用Bayes公式,按照一定的準則構造一個判別函數,分別計算該樣品落入各個子域的概率,所有概率中最大的一類就被認為是該樣品所屬類別[3]。
Bayes公式:
P(BkA)=P(ABk)P(A)=P(Bk)P(ABk)∑ni=1P(Bi)P(ABi)
判別函數的形式為:
Y=a1X1+a2X2+…+anXn
式中:Y為判別指標;X1,X2,…,Xn為反映研究對象特征的變量,a1,a2,…,an為各變量系數,也稱判別系數。
判別函數效果的驗證方法:
(1) 自身驗證
即將訓練樣本依次帶入判別函數,來評測錯判情況是否嚴重。
(2) 交叉驗證
在建立判別函數時依次去掉1例,然后用建立起來的判別函數對該列進行判別。
肺癌的臨床診斷病理分型判別模式結果如下:
Y1(鱗癌)=-29.961+8.260X1+9.580X2+5.489X3+2.650X4+1.138X5+3.205X6+3.975X7+7.864X8+4.434X9+1.361X10;
Y2(腺癌)=-28.684+9.490X1+9.079X2+4.739X3+2.534X4+2.352X5+3.470X6+3.827X7+6.819X8+3.539X9+1.458X10;
Y3(小細胞癌)=-28.955+8.281X1+10.248X2+4.464X3+3.074X4+1.330X5+2.293X6+5.803X7+6.989X8+3.875X9+1.442X10
經Bayes判別分析后得出了肺癌各病理類型的判別函數。自我驗證的準確率為57.4%,對鱗癌的驗證準確率最高(59.5%),腺癌和小細胞癌分別為55.8%,57.1%。說明函數對肺癌分型診斷具有一定作用。由結果顯示函數實際效能不是很理想,這與該研究中的樣本數較少有關,待進一步擴大樣本數,收集詳盡的臨床相關資料以校正、完善該模型,進一步提高診斷的準確率。
診斷病理分型判別模式驗證結果如表1所示,自身驗證結果:正確率為57.4%;交叉驗證結果為52.5%。
由于該次研究采集的小細胞癌數量較少,用于模式識別分類的小細胞癌樣本數量不足,故在后續的分類方法中只對腺癌和鱗癌進行分型對比,來比較和分析幾種分類器在肺癌分型中的特點。
1.3 特征優選與分類
Logistic回歸屬于概率型非線性回歸,它是研究┒分類觀察結果與一些影響因素之間關系的一種多變量分析方法。Logistic回歸用途極為廣泛,幾乎已形成了醫學中最常用的分析方法,將以上10個客觀指標的不同病理類型的特征差異采用卡方檢驗,對其進行單因素指標分析,P
利用所建立的Logistic回歸模型對所有樣本進行診斷測試如表2所示,診斷的腺癌正確率為76.9%(40/52),鱗癌的正確率為69%(29/42),總的正確率為73.4%(69/94)。用SPSS 11.5軟件進行Logistic回歸分析得到腺、鱗癌之間差異性最大的4個特征,分別為性別(P=0.001)、胸痛(P=0.028)、吸煙(P=0.043)、大小(P=0.046)。以此作為模式識別分類的樣本特征。
表2 Logistic回歸模型對樣本的測試結果
ObservedPredicted
ResultsPercentage
1.002.00Correct
Results
1.00291369.0
2.00124076.9
Overall Percentage73.4
人工神經網絡(ANN)是現代生物學研究人腦組織所取得的成果基礎上提出來的,用大量簡單的神經元廣泛連接組成的復雜網絡來模擬人類大腦神經網絡結構和行為,能夠模擬人腦的結構以及記憶和處理信息的方式,具有自學習、自適應的特點能夠任意逼近非線性函數,廣泛應用于模式識別和分類等領域[5]。ANN模型拓撲結構分3層:輸入層、隱含層和輸出層,輸入層包含4個神經元,分別對應由卡方檢驗進行單因素指標分析P
支持向量機是有Vapnik提出的一種新興的模式識別分類方法[7-8],它最常用于解決兩類模式識別問題[9]。支持向量機方法是一種基于結構風險最小化原理,針對小樣本、以統計學習理論為基礎的一種優秀學習算法。即使是由有限訓練樣本得到的解,在求解問題時仍能得到較小的誤差。從線性可分模式的情況看,它的主要思想就是建立一個超平面作為決策面,該決策面不但能夠將所有訓練樣本正確分類,而且使訓練樣本中離分類面最近的點到分類面距離最大。圖1給出了線性可分模式下二維輸入空間中最優超平面的幾何結構。其中實心點和空心點代表兩類樣本,H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離叫做分類間隔。此時,H1,H2上的點距分類線H的距離均為1/w,分類間隔[10]為2/w。
圖1 二維輸入空間中最優超平面的幾何結構圖
在此使用libsvm軟件包對腺、鱗癌的樣本進行訓練和測試,測試樣本各選10例,其余的74例都作為訓練樣本。樣本為所選的經Logistic回歸分析得出差異性最大的性別、胸痛、腫塊大小和吸煙與否4項作為訓練的特征。在此設定腺癌為-1,鱗癌為1,即輸出向量為[-1,1],核函數為徑向基核函數,RBF=0.5,迭代次數41,共找到支持向量61個,測試正確率為14/20即70%,正確率要高于神經網絡的測試結果。
2 結 語
神經網絡是基于風險最小化為網絡優化目標,是在樣本無窮大時的漸進理論,支持向量機是基于結構風險最小化原理。針對小樣本,以統計學理論基礎的學習算法,由于兩者在理論基礎和優化目標以及學習算法方面的不同,導致兩者的逼近能力、泛化能力以及適用范圍存在差異。
通過利用神經網絡和支持向量機對腺、鱗癌分型的診斷研究表明:
(1) 神經網絡和支持向量機方法都能實現對腺、鱗癌的分型,并得到較高的診斷正確率;
(2) 在小樣本情況下,支持向量機比神經網絡具有更強的泛化能力,更適用于腺、鱗癌的診斷。
參考文獻
[1]邊肇棋,張學工.模式識別[M].北京:清華大學出版社,2000.
[2]胡南均.109例肺癌的病理與臨床及CT相關性分析[D].吉林:吉林大學,2008.
[3]王樂三.SPSS在醫學科研中的應用[M].北京:化學工業出版社,2007.
[4]陳廣,陳景武.Logistic回歸分析的判別預測功能及其應用[J].數理醫藥學雜志,2007,20(3):280-281.
[5]陳永鋒.基于仿生模式識別的孤立性肺結節診斷研究[D].重慶:重慶大學,2007.
[6]董長虹.Matlab神經網絡與應用[M].2版.北京:國防工業出版社,2007.
[7]WANG L P. Support vector machine:theory and application[M]. New York: Springer Verlag, 2005: 1-66.
[8]劉露,劉宛予,楚春雨,等.胸部CT圖像中孤立性肺結節良惡性快速分類[J].光學精密工程,2009,17(8):2062-2068.
關鍵詞:模式識別;神經網絡;感知器;權值
中圖分類號: TP183 文獻標志碼: A 文章編碼:2095-2163(2015)03-
Perceptron Network Weights Calculation and MATLAB Simulation in Pattern Recognition
ZHANG Guangjian
(1 Department of Information Engineering, Sichuan College of Architectural Technology,Deyang Sichuan 618000, China;2 Institute of Intelligent Computing, Sichuan College of Architectural Technology, Deyang Sichuan 618000, China)
Abstract:As the perceptron neural network pattern recognition, constructing the network model takes a very important parameters, which can be used by manual calculation, and can also carry out the training simulation obtained by MATLAB neural network toolbox. The paper uses two weights for building the classifier network model, and compares test results of the pattern recognition model.It is known that for the recognition rate of the samples tested, the weights are different,and in order to improve the generalization of the model, the construction of the network model need to test selects the optimal weights.
Keywords:Pattern Recognition; Neural Network; Perceptron; Weights
0 引 言
人工神經網絡[1](artificial neural network,ANN),簡稱神經網絡(neural network,NN),是一種對人腦功能實行模擬的簡化模型結構,是一種功能型的數學模型(計算模型),可完成科學計算,并具有強大的處理問題能力。神經網絡是由大量的人工神經元相互連接而成的信息處理系統,能夠基于外界信息的引發改變內部結構,因而屬于一種自適應系統。現代神經網絡則是一種非線性統計性數據建模工具,常用來對輸入和輸出間的復雜關系進行建模,或用來探索數據的關聯模式。
1943年,美國神經生理學家McCulloch和Pitts提出的第一個神經網絡模型M-P模型,開創了人工智能的研究工作,奠定了神經網絡的發展基礎。其中的感知器(Perceptron)則是由美國計算機科學家羅森布拉特(Frank Rosenblatt)于1957年提出的。
具體來說,神經網絡是一種運算模型[2],是由大量的節點(或稱“神經元”,或“單元”)及其間的相互聯接構成。每個節點代表一種特定的輸出函數,稱為激勵函數(activation function)。每兩個節點間的連接均表示對于通過該連接信號的加權值,稱之為權重(weight),也就相當于人工神經網絡的記憶。此外的網絡輸出則是依據網絡的連接方式、權重值(權值)和激勵函數的不同而各不相同。綜合論述可得,網絡自身通常都是對自然界某種算法或者函數的逼近,也可能是對一種邏輯策略的表達。因此,為解決模式識別問題創建的網絡模型,若選用最優權值,就會極大地提高模式識別率。
1 感知器及學習算法
神經網絡中,感知器神經網絡[3]是一種典型的分層結構,信息從輸入層進入網絡后,將逐層向前傳遞至輸出層。單層感知器是一個具有一層神經元、采用閾值激活函數的前向網絡。通過對網絡權值的訓練,可以使感知器對一組輸入矢量的響應完成結果為0或1的目標輸出,從而實現對輸入矢量分類的目的。沒有反饋或競爭的簡單神經元感知器模型如圖1 所示。
圖1 一個單一神經元的感知器模型
Fig.1 A single neuron perceptron model
在感知器學習算法[4]中,設輸入向量 ,相應的權值向量 ,對一個輸入模式 的網絡輸入 為
(1)
根據閾值函數產生一個輸出 為:
(2)
感知器學習中,設t為目標輸出,使用Hebbian學習,其誤差公式為:
(3)
對任何新權值,具體計算公式為:
(4)
對于誤差E的三種可能情況,新權值的調整公式為:
(5)
在公式(5)中, 是新的調整權值, 是前次或者初始權值; 是輸入向量; 是學習率,且是一個常數, 。精準快捷地確定 值,將直接影響對后期的網絡學習訓練時間。 2 手工計算權值
樣本集如表1所示。其中 x1,x2為兩個輸入,t為期望目標輸出。感知器分類器的任務是將表1所示的二維模式進行分類。
表1 分類數據
Tab.1 Classification of samples
0.3,0.7 1
-0.6,0.3 0
-0.1,-0.8 0
0.1,-0.45 1
樣本點如圖2所示。
圖2 輸入向量與期望響應樣本圖
Fig.2 Input vector and the desired response sample figure
根據文獻[2]的推理,假定 ,其中, 是學習率, 為網絡初始權值。權值調整過程具體如下。
(0.3)=0.95
=-0.15
調整后的權值,繼續計算第二組樣本數據 。
如果分類正確,繼續使用該組權值計算下一組數據;分類錯誤,即需應用公式(5)的規則進行權值調整,直到最終獲得一組權值w=[1.05 0.025],完成對全部樣本進行的正確分類。為此,根據權值和樣本對感知器網絡進行分類訓練,其相應的分類結果如圖3所示。
圖3樣本分類圖
Fig.3 Sample classification map
3 MATLAB訓練仿真
MATLAB神經網絡工具箱(Neural Network Tool)[5],為神經網絡提供了一種高效、集成的仿真手段,通過該工具箱,可以對神經網絡進行設計、訓練、可視化以及仿真。
使用MATLAB R2013a 的神經網絡工具箱函數,設置p為輸入向量,t為期望目標向量。
p= [0.3 -0.6 -0.1 0.1;
0.7 0.3 -0.8 -0.45];
t= [1 0 0 1];
net =newp(minmax(p),1);
網絡傳遞函數指定為硬限值函數HARDLIM, 學習函數指定為LEARNP。創建如圖4所示的感知器神經網絡模型。
圖4 生成的感知器網絡模型
Fig.4 Perceptron network model generation
使用命令net=train(net,p,t)進行網絡訓練,使用sim(net,p)進行仿真,得到輸出向量為,偏值為b=0。使用plotpc(net.iw{1,1},net.b{1}) 命令在樣本中繪制分類線,如圖5所示,從圖中可以看出分類線能對輸入樣本完全分類。
圖5 訓練后的網絡對輸入樣本的分類
Fig.5 Classification of the input sample after network training
4 網絡測試[6]
通過樣本訓練得到的網絡,但是測試樣本的準確率卻未必會高。一個性能良好的網絡應該具有優秀的泛化能力。首先輸入樣本數據進行訓練,通過修正權值來減小誤差得到擬合程度很高的網絡模型,而后的網絡測試則是用另外的樣本數據去測試網絡的性能。
對于兩種權值建立的網絡模型,通過加入測試樣本數據進行分類測試,測試樣本為:
p1=[ 0.4 -0.5 0 0.2 ; 0.8 0.4 -0.7 -0.35 ]
使用MATLAB的sim(net,P1) 函數完成對輸入樣本的測試。
對于手工計算獲得的權值W=[1.05,0.025],加入測試樣本集后,分類結果如圖6所示。
圖6測試樣本分類(手工計算)
Fig.6 Test sample classification (manual calculation)
對于使用MATLAB計算機仿真訓練獲得的權值W=[1.8 0] ,加入測試樣本集,分類結果如圖7所示。
圖7測試樣本分類(MATLAB)
Fig.7 The test sample classification (MATLAB)
對比圖6和圖7,可以清楚看到根據兩種方式獲得的權值,建立兩種感知器神經網絡模型,均能對樣本進行分類,但卻同時可知圖6的網絡模型可對測試樣本集進行更見成效的分類。
5 結束語
感知器神經網絡只能解決線性可分的模式分類問題,在應用上有一定的局限性,但對于線性可分問題建立的模型,總能通過訓練,在有限的循環次數內找到網絡權值,使網絡達到期望的輸出,進而完成模式分類。通過對同一模型的手工計算和MATLAB訓練,得出的網絡權值并不相同,但都可以對網絡進行分類,只是對于使用MATLAB進行的計算機訓練仿真,所獲取的權值與計算精度、連同使用的學習函數及傳遞函數方面將會有一定的影響。而且,選取不同權值建立的模型,在泛化能力上也將存在一定差異。作為感知器分類器的模型建立,需要反復比對找到最優的權值,這樣建立的模型在泛化能力上才會具有更好的適應性。
參考文獻:
[1] (美)Martin T. Hagan等,著.神經網絡設計[M]. 戴葵等,譯.北京:機械工業出版社,2002.
[關鍵詞] 模式識別 風險分類 適用性
一、引言
貸款風險分類,就是根據借款人的當前經營情況和違約跡象來判斷其按時還款的可能性并給予風險等級評價,是銀行綜合了借款人財務、非財務因素,對貸款未來安全收回可能性的評價。如何判斷借款人的每個因素對貸款償還的影響程度,以及如何將上述各種因素定性和定量分析歸納匯總,作出全面科學的風險評定是貸款風險分類操作的難點和關鍵。
在現代信用風險度量模型出現以前,測度信貸信用風險的方法主要有:專家制度法、評級法和信用評分法。近年來,一些大的金融機構相繼構建了比較規范的、有重大影響的四大信用風險度量模型:JP 摩根的Credit Metrics 方法;KMV公司的KMV 模型;CSFP(Credit Suisse Financial Products) 的Credit Risk + 方法;麥肯錫公司的信用組合觀點模型(Credit portfolio View)。這四大信用風險度量模型對中國銀行業都有一定的借鑒意義。模型最大的問題是任何一個模型都沒有全面考慮到借款人的道德風險,還有借款人的具體情況,如銀行合同、貸款合同、擔保能力、借款期限等,而且由于經濟制度、金融發展水平等方面的差異,因此,借用西方信用風險模型應慎重,我國應用這些大型量化模型的條件還不成熟。
本文把貸款風險分類看作是一個模式識別問題,在此框架下,就統計模式識別領域中最新使用的神經網絡方法、分類樹法、以及支持向量機三種方法的建模思想、適用性進行比較,并給出有關結論。
二、貸款風險分類是一個模式識別問題
所謂模式識別,就是用計算機的方法來實現人對各種事物或現象的分析、描述、判斷和識別。目前我國實行的貸款風險五級分類法(簡稱風險分類),它是根據貸款對象的第一還款來源與第二還款來源共同特征(財務指標)或屬性(非財務指標)進行識別判斷而進行分類的,其核心在于它以借款人的償還能力作為分類標志。
貸款風險分類的模式識別系統的精度及其正確性,主要取決于(1.3)式中的一些參數的估計的精度。訓練時如果輸入模式樣本的類別信息是已知的,這時可以用“有監督”的模式識別技術,讓識別系統執行一個合適的學習訓練過程,把系統“教”成可使用各種適應修改技術再去識別模式。如果采集到樣本模式是未知類別的,這時可用“無監督的模式識別技術,即必須通過系統的學習過程去得到其所屬的范疇。
三、模式識別技術的建模思路及其適用性分析
目前用于統計模式識別的方法很多,主要有判別分析法、回歸分析法、人工智能(專家系統)、神經網絡、決策樹法、K近鄰法、支持向量機等。本文僅就目前最為流行的人工神經網絡、決策樹法、支持向量機三種非參數模式識別方法建模思路、適用性進行比較分析。
1.神經網絡模型(ANN)
(1)建模思路
人工神經網絡(Artficial Neural Networks ANN )是一種具有模式識別能力,自組織、自適應,自學習特點的計算方法。神經網絡模型建模思路是,首先找出影響分類的一組因素,作為ANN的輸入,然后通過有導師或無導師的訓練擬合形成ANN風險分析模型。對于新的樣本輸入(即一組影響因素值),該模型可產生貸款風險的判別。
(2)適用性分析
神經網絡的適用性首先表現為分類的準確性比較高。特別是在測試數據為非線性關系的情況下,尤其如此;其次是神經網絡有較強的適應訓練樣本變化的能力,當訓練樣本增加新的數據時,能夠記憶原有的知識,根據新增的數據作恰當的調整,使之表示的映射關系能夠更好的刻畫新樣本所含的信息。這一點不僅使得神經網絡具有較強的適應樣本變化的能力,還使它具有動態刻畫映射關系能力,也克服了線性判別分析方法的靜態特點;再次是其具有魯棒性。神經網絡對于樣本的分布、協方差等沒有要求,對樣本中存在的噪音數據、偏差數據不敏感。監管部門在面對眾多監管對象銀行時, 可以根據其報表中的監管指標與監控指標的輸出結果,迅速、準確地判斷商業銀行的經營狀況,就可以輔助以現場檢查的手段,對商業銀行進行適當、適時的干預。
神經網絡方法的主要缺點一是對樣本的依賴性過強,對樣本提出了很高的要求。因為它很少有人的主觀判斷因素的介入;二是解釋功能差。它僅能給出一個判斷結果,而不能告訴你為什么;三是在神經網絡方法中輸入特征變量的確定出關鍵指標問題時,需要依賴于其他的統計分析方法;四是是樣本分成多少個種類,這些問題都是神經網絡方法無法獨自解決的,要依賴于其他方法;五是神經網絡的訓練速度慢且極易收斂于局部極小點,推廣能力差,以及容易出現“過學習”現象。
2.分類樹方法(CART)
(1)建模思路
分類樹方法(CART)是一種由計算機實現,基于統計理論的非參數識別方法。其建模思路是:在整體樣本數據的基礎上,生成一個多層次、多節點的樹,按廣度優先建立直到每個葉節點包含相同的類為止,以充分反映數據間的聯系。然后對其進行刪減,參照一定規則從中進行選擇適當大小的樹,用于對新數據進行分類即建造最大樹,對樹刪減,選擇適當的樹用于新樣本分類。
(2)適用性分析
分類樹方法在銀行貸款風險分類中的適用性首先在于通過借款人經營狀況的變化及其破產的可能性的判斷,來估計其違約的可能性,進而來推測該借款人持有的貸款風險程度。它不但具有哲學上的二分法的優點,而且其分類標準的選擇也包含著經濟理論上的合理性。反映申請者信用關系中各項指標之間的相關性是應用分類樹于信貸信用分類的有利條件,它可以有效地利用定性變量進行分類。
分類樹的缺陷表現在:一是計算量大;二是在一些連續型定量變量的處理上,分類樹就顯得有些力不從心;三是對結點屬性的判定上,往往以葉結點中所含多數樣本的屬性來決定該葉結點的屬性。但如果碰到訓練樣本中某種樣本(譬如好樣本,占大多數)。此時分類的結果很可能是幾乎每個葉結點都是好樣本占多數,或出現一些好壞樣本的個數相當的葉結點。于是就可能出現幾乎所有的葉結點都是好樣本集合,或其中一些結點無法判斷。無論哪種情況出現,都將導致對壞樣本的辨別率降低,進而導致分類樹的效率降低。
3.支持向量機模型(SVM)
(1)建模思路
(2)適用性分析
由于支持向量機出色的學習性能、泛化性能、良好表現和所估計的參數少等特點,能夠較好地解決小樣本、高維數、非線性、局部極小等問題。鑒于支持向量機的諸多優點,國外學者 Van.Gestel(2003)將支持向量機應用到信貸風險分類與評估領域,并與神經網絡及Logistic回歸相比較,得到了較好的結果。同時利用支持向量機,能提高學習機的泛化能力,能成功地解決風險分類、函數逼近和時間序列預測等方面,對構建貸款分類模型也具有重要的實踐意義。
但SVM是解決一個二分類問題,現實中遇到的大都是多分類問題,如支持向量機無法解決信貸風險的五級分類問題。另外,影響支持向量機模型分類能力的參數選擇存在人為確定的主觀性等。
四、結論
從信貸風險管理角度看,信貸風險分類與量化管理是一個必然趨勢。為了提高貸款分類的準確性,必須將上述兩種或兩種以上的方法結合起來使用,取長補短。同時,中國銀行業在運用這些相對復雜的預測技術時,不僅要根據國內的實際情況和銀行業自身發展階段,科學地制定信貸風險管理流程,還要加強人才培養和數據庫建設,盡可能地運用信貸風險管理先進技術將信貸風險損失降到最低限度,實現可持續發展。
參考文獻:
[1]J.P. Morgan.Credit Metrics―Technical Document.1997, 4:2
[2]KMV.Global Correlation Factor Structure. San Francisco:KMV Corporation.1996,8 :16~17
[3]Credit Suisse First Boston. Credit Risk+, A Credit Risk management Framework. Credit Suisse First Boston Internation, 1997
[4]McKinsey and Co, Credit Portfolio View. New York, Mckinsey and Co.1997
[5]曹道勝等:商業銀行信用風險模型的比較及其應用[J].金融研究,2006年第10期
[6]王振民,中國商業銀行貸款風險分析[D].天津大學博士論文,2005年5月,P33