前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇神經網絡卷積層的作用范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
關鍵詞:卷積神經網絡 人體行為識別 Dropout
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1672-3791(2017)04(c)-0028-02
該文采用隨機Dropout卷積神經網絡,筆者將此法的優點大致概況為將繁瑣雜亂的前期圖像處理簡易化,原來的圖像不可以直接輸入,現在的原始圖像即可實現直輸功能,因其特性得到廣泛研究與應用。另外,卷積神經網絡在圖像的處理中能夠將指定的姿勢、陽光的照射反應、遮避、平面移動、縮小與放大等其他形式的扭曲達到魯棒性,從而達到良好的容錯能力,進而可以發現其在自適應能力方面也非常強大。因為卷積神經網絡在之前建立網絡模型時,樣本庫為訓練階段提供的樣本,數量有限,品質上也很難滿足要求,致使網絡權值參數不能夠完成實時有效的調度與整理。
1 卷積神經網絡
據調查卷積神經網絡由K.Fukushima在80年代提出,那時候它被稱為神經認知機,這一認知成為當時的第一個網絡,后來網絡算法發生了規模性變革,由LeCun為代表提出了第一個手寫數字識別模型,并成功投入到商業用途中。LeNet被業界冠以卷積神經網絡的代表模型,這類系統在很多方面都起到了不容小趨的作用,它多數應用于各類不同的識別圖像及處理中,在這些層面上取得了重要成果。
筆者經查閱資料發現卷積神經網絡其實是由兩個種類組合而來,它們分別是特征提取、分類器,這種組成我們可以看到特征提取類可由一定數量的卷積層以及子采樣層相互重疊組合而成,全部都連接起來的1層或者2層神經網絡,就是由分類器來進行安排的。卷積神經網絡中的局部區域得到的感覺、權值的參數及子采樣等可以說是重要網絡結構特征。
1.1 基本CNN網絡結構
圖1中就是最為經典的LeNet-5網絡模型結構圖。通過圖1中我們可以獲悉,該模型有輸入輸出層,除這兩層外還有6層,其征提取可在前4層中體現,后兩層體現的是分類器。
在特征提取部分,6個卷積核通過卷積,是圖像經尺寸為32×32的輸入而得見表1,運算過程如式(1):
(1)
式中:卷積后的圖像與一個偏置組合起來,使函數得到激活,因此特征圖變誕生了,通過輸出得到了6個尺寸的特征圖,這6個尺寸均為28×28,近而得到了第一層的卷積,以下筆者把它簡要稱為c1;那么c1層中的6個同尺寸圖再經由下面的子采樣2×2尺寸,再演變成特征圖,數量還是6個,尺寸卻變成了14×14,具體運算如公式(2):
通過表2我們可以使xi生成的和與采樣系數0.25相乘,那么采樣層的生成也就是由加上了一個偏置,從而使函數被激活形成了采樣層的第1個層次,以下我們簡要稱為s1;這種過程我們可反復運用,從而呈現出卷積層中的第2層,可以簡要稱之為c2,第2層簡稱s2;到目前為止,我們對特征的提取告一段落。
神經網絡的識別,我們可以看到它是由激活函數而形成的一個狀態,這一狀態是由每個單元的輸出而得;那么分類器在這里起到的作用是將卷積層全部連接起來,這種通過連接而使1層與上面1層所有特征圖進行了串連,簡要稱之為c5;因而2層得到了退變與簡化效應,從而使該神經網絡成為經典,簡要稱之為F6,向量及權值是由F6 輸送,然后由點積加上偏置得到結果的有效判定。
1.2 改進的隨機DropoutCNN網絡
1.2.1 基本Dropout方法
神經網絡泛化能力能夠得到提升,是基于Dropout方法的深入學習。固定關系中存在著節點的隱含,為使權值不再依附于這種關系,上述方法可隨機提取部分神經元,這一特性是通過利用Dropout在網絡訓練階段中隨機性而得,對于取值能夠有效的存儲及保護存留,這一特性在輸出設定方面一定要注重為0,這些被選擇的神經元隨然這次被抽中應用,但并不影響下次訓練的過程,并具還可以恢復之前保留的取值,那么每兩個神經元同時產生作用的規避,可以通過重復下次隨機選擇部分神經元的過程來解決;我們通過這種方法,使網絡結構在每次訓練階段中都能呈現不同變化,使一些受限制的特征,不再受到干擾,使其真正能展現自身的優點,在基于Dropout方法中,我們可以將一些神經元的一半設為0來進行輸出,隨機神經元的百分比可控制在50%,有效的避免了特征的過度相似與穩合。
1.2.2 隨機Dropout方法
Dropout方法就是隨機輸出為0的設定,它將一定比例神經元作為決定的因素,其定義網絡在構建模型時得到廣泛采用。神經元基于隨機Dropout的方法是該文的重要網絡輸出途徑,通過設定輸出為0,使其在網絡中得到變。圖2是隨機Dropout的加入神經元連接示意圖,其在圖中可知兩類神經元:一類是分類器的神經元,這一階段的神經元可分榱講悖渙硪煥嗌窬元是由輸出而形成的層次。模型在首次訓練的階段會使神經元隨機形成凍結狀態,這一狀態所占的百分比為40%、60%,我們還可以看到30%及50%的神經元可能在網絡隨機被凍結,那么這次凍結可以發生在模型第二次訓練,那么第三次神經元的凍結可從圖示中得出70%及40%,還可以通過變化用人工設置,其范圍值宜為35%~65%,那么網絡神經元連接次序的多樣化,也因此更為突出與精進,網絡模型的泛化能力也得到了跨越勢的提高。
2 實驗及結果分析
2.1 實驗方法
卷積神經網絡通過實驗,通過輸入層呈現一灰色圖像,該圖像尺寸被設定成28×28的PNG格式,這里我們以圖像框架圖得到雙線性差值,用來處理圖像及原視頻中的影像,將框架圖的卷積核設定為5×5的尺寸,子采樣系數控制值為0.25,采用SGD迭代200次,樣本數量50個進行設定,一次誤差反向傳播實現批量處理,進行權值調整。實驗采用交叉驗證留一法,前四層為特征提取層,C1-S1-C2-S2按順序排列,6-6-12-12個數是相應特征,通過下階段加入隨機Dropout,這階段為雙層也就是兩層,進行連接,連接層為全體,從而可知結果由分類得出,又從輸出層輸出。
2.2 實驗結果分析
識別錯誤率可通過卷積神經網絡模型,及訓練過程與檢測過程中可查看到的。在訓練階段中,我們可以將Dropout的網絡中融入200次訓練,在將沒有使用該方法的網絡進行相互比較分析,我可以得知,后者訓練時的識別錯誤率稍高于前者,前者與后的相比較所得的差異不是很大,進而我們可知使用Dropout方法,對卷積神經網絡在泛化能力上得到有效的提升,從而有效的防止擬合。
3 結語
筆者基于Dropout卷積神經網絡,人體行為識別在視頻中進行, 通過Weizmann數據集檢測實驗結果,隨機Dropout在分類器中加入。通過實驗可以得知:隨機Dropout的加入,使卷積神經構建了完美網絡模型,并且使其在人體行為識別中的效率贏得了大幅度的提升,近而使泛化能力可以通過此類方法得到提高,可以防止擬合。
參考文獻
[1] 其它計算機理論與技術[J].電子科技文摘,2002(6).
關鍵詞:卷積神經網絡;自動編碼器;非監督訓練;多尺度分塊;目標識別
中圖分類號:TP391.41文獻標志碼:A英文標題
0引言
對圖像中目標的精確和魯棒識別是模式識別及人工智能領域的核心內容,在道路監控、戰場偵察、精確打擊等領域中有著重要的作用和廣泛的前景。近年來,隨著深度神經網絡成為機器學習新的熱點,基于卷積神經網絡(Convolutional Neural Network,CNN)的圖像識別算法因其較強的魯棒性和突出的識別率被學術界和工業界所重視。
Alex等[1]提出基于大型深層CNN的自然圖像識別算法,在ImageNet數據集上取得了很高的識別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運算的方法在三維NORB數據集上取得了很好的識別效果。以上算法雖然都取得了較高的目標識別率,但是由于算法采用有監督的訓練方式,需要大量標簽數據對網絡權重進行調整,當數據量較小時會導致模型前幾層網絡無法得到充分訓練,故只能針對含標簽數據較多的大型數據集。針對此問題,目前主流的解決方法是采用特征提取算法對CNN的濾波器集進行非監督的預訓練。文獻[3]采用稀疏編碼提取訓練圖像的基函數作為CNN的初始濾波器;文獻[4]將獨立成分分析(Independent Component Analysis,ICA)應用于CNN的預訓練階段,利用ICA訓練濾波器集合,使識別率得到了一定提高。然而無論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應用于預訓練階段對算法識別率的提升也比較有限。所以如何更好地選擇濾波器的預訓練算法仍是十分困難的問題。
除了預訓練外,影響CNN識別率和魯棒性的關鍵參數還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對輸入圖像局部特征的提取情況,文獻[5]證明濾波器尺寸對最終識別結果有很大影響,并給出了單層條件下相對最優的濾波器尺寸。下采樣層主要負責對特征進行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴重,模糊后的特征保持的全局空間信息就越少。文獻[6]證明當采樣間隔較小時,即使經過2次卷積和2次最大下采樣(maxpooling),網絡輸出的激活值仍能重構出與原始輸入看似相同的圖案。然而下采樣間隔過小會導致不變性喪失,過大則會損失大量細節信息,兩者均會導致識別率的下降。
針對以上問題,本文提出基于多尺度分塊卷積神經網絡(MultiScale Convolutional Neural Network, MSCNN)的圖像目標識別算法。首先利用稀疏自動編碼器(Sparse AutoEncoder,SAE)對卷積神經網絡的濾波器進行非監督預訓練,通過最小化重構誤差獲得待識別圖像的隱層表示,進而學習得到含有訓練數據統計特性的濾波器集合,預訓練效果相比ICA更好。其次提出多尺度分塊的方法構建卷積神經網絡,為了增加魯棒性并減小下采樣對特征表示的影響,對輸入圖像進行多尺度分塊形成多個通路,并設計相應尺寸的濾波器進行卷積運算,將不同通路下采樣后的輸出進行融合從而形成新的特征,輸入softmax分類器完成圖像目標的識別。最后通過大量實驗對比MSCNN算法與經典算法在通用圖像識別任務中的識別率和魯棒性差異,從而驗證算法的有效性。
4仿真實驗及分析
本文使用STL10公開數據集以及從全色波段的QuiekBird遙感衛星和GoogleEarth軟件中截取的遙感飛機圖像數據集進行測試實驗,將所有圖片變為64×64像素的RGB圖。選擇STL10數據集的原因是因為其含有不包含標簽的訓練集,可用于本文的非監督預訓練算法,且圖像中包含更多類內變化。STL10共10類目標,本文選用其中的4類目標進行實驗。選擇遙感飛機圖像數據則是為了驗證本文算法在遙感圖像解譯方面的可用性。該數據集包含5類遙感飛機,共400幅。實驗時隨機選取遙感飛機圖像庫中50%的圖像作為訓練樣本,其余作為測試樣本。本文的實驗環境為CPU2.8GHz、內存3GB的計算機,實現算法的軟件為Matlab(2011a)。
4.1算法識別率對比測試
MSCNN的各通路尺寸參數設置如圖4所示,每個通道使用300個濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動編碼器預訓練得到。編碼器設定為3層,稀疏參數ρ設定為0.05,訓練周期為400。卷積神經網絡的下采樣方式采用最大下采樣(max pooling)。
按照上述參數設置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓練周期均為50。傳統CNN參數設定與通路1參數設定相同,同樣使用300個濾波器,濾波器初始值通過隨機初始化得到。輸出特征維度為2700。實驗結果如表1所示。
從表1可看出,加入LCN的CNN較未加入的CNN對兩種數據集的識別率有一定的提高,說明了加入LCN對目標識別率是有一定的貢獻的;在兩種數據集上MSCNN相比原始CNN都擁有更高的識別率。MSCNN通路1雖然參數設置與CNN相同,但在相同訓練周期下識別率較加入LCN的CNN又有一定提高,說明了非監督預訓練對識別率提高的有效性。對于STL10數據集,可看出通路2的識別率在3個通路中最高,通路3則最低,這是因為通路3輸入的圖像尺寸最小,而STL10類內變化很大且目標不全在圖像中心,故識別率有所下降。通路之間進行兩兩累加后識別率都有所提高,在3個通路共同作用時識別率最高,達到83.5%。對于遙感飛機圖像集而言,可看出3個通路中通路2的識別率最高,這是因為遙感飛機圖像集均為飛機圖像,不同類別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機類別。通路3由于輸入尺寸較小,識別率稍有下降。同樣的,不同通路之間的疊加都讓識別率有所提升,最終MSCNN三通路特征融合后的識別率達到了96.5%,完全滿足對于可見光遙感圖像目標識別的需求。
從表1還可看出,本文算法在3個通路CNN的情況下的識別率較1個通路或2個通路的CNN的識別率高,由此可以推斷3個通路CNN所提取的特征具有較強的泛化能力和魯棒性。此外3個通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。
4.2算法魯棒性實驗
為驗證MSCNN的魯棒性,在數據集中選取不同類別的圖像對其進行平移、尺度、旋轉變換,然后計算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據距離的大小可以衡量輸出特征對于目標變化的魯棒性,歐氏距離越小就說明特征對于目標變化越不敏感,魯棒性就越好。對于STL10選取四類目標進行實驗,對比算法為CNN;對于遙感飛機圖像集隨機選取10幅進行實驗,并取距離的平均值,對比算法為ICA和CNN。測試結果如圖6~7所示。
圖6中虛線表示傳統CNN算法得到的結果,實線則表示MSCNN得到的結果,從圖6可看出:無論是面對平移、尺度還是旋轉變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。
從圖7也可看出:本文算法對于遙感飛機圖像集的平移、尺度、旋轉均表現出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標圖像微小的變化就導致了特征較大的改變。本文算法魯棒性較好首先是因為MSCNN采用非監督的預訓練方式,訓練得到的濾波器含有更多圖像不變性特征;其次是因為MSCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對比度標準化,對于亮度變化較大和存在噪聲的目標圖像魯棒性明顯增強。
另外,本文算法采用了多通路多尺度分塊的方法,必然會使網絡參數增加,從而會使訓練時間比較耗時;但在測試階段,輸入樣本的計算僅包含一些簡單的卷積和下采樣,算法復雜度并沒有因為通道的增加而增加,因此在測試階段的實時性較傳統的CNN并沒有太大變化。
5結語
本文提出了MSCNN算法在卷積神經網絡的基礎上通過非監督預訓練濾波器的方法解決傳統卷積神經網絡前幾層無法得到有效訓練的問題。針對傳統神經網絡對于復雜背景圖像識別率不高的問題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時不至于喪失目標的細節信息,有效提升了識別率和魯棒性。與經典算法的對比實驗結果表明:該方法能夠有效識別可見光自然圖像和遙感圖像,并對平移、尺度和旋轉變換具有較強的魯棒性。
參考文獻:
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神經網絡與機器學習[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機械工業出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
關鍵詞:人臉識別技術;病毒管控;人工智能;神經網絡
互聯網在今天的社會中發揮著舉足輕重的作用。如今社會,隨著許多人工智能技術、網絡技術、云計算等互聯網技術不斷發展,像人臉識別等技術的應用越來越廣泛,在控制病毒傳播途徑等場合發揮了巨大作用,不斷地提高著社會的安全性和便利性,不僅提高了防控中病毒檢測效率,也為病毒的控制提供了可靠的技術方法,能夠及時發現和控制公共場所的安全隱患因素,避免對社會經濟、居民生活造成破壞,。但目前的人臉識別等技術還存在許多缺陷,需要完善和革新,充滿著巨大的潛力和進步空間。
1人臉識別技術研究意義
人臉識別技術是一種生物特征識別技術,最早產生于上世紀60年代,基于生理學、圖像處理、人機交互及認知學等方面的一種識別技術。相比于其他人類特征像指紋識別、聲紋識別、虹膜識別等技術,人臉識別雖然存在人臉識別單一性低,且區分度難度高、易受環境影響等不足。但是人臉識別技術擁有速度快、大范圍群體識別及非接觸、遠距離可識別等優勢,都是其他生物識別識別技術所不具備的,而在傳播性強、感染風險大的病毒傳播過程中,這些顯然是必須要考慮的重要影響因素。通過將人臉識別等人工智能技術引入信息管理系統,綜合集成視頻監控、圖像處理、深度學習和大數據等技術,結合非接觸測溫、定位等技術,助力病情防控,在一定程度上推動病毒病情防控信息化、智能化發展進程。可作為加強公共場所的人員的體溫實時監測、地址信息定位的監控管理,規范公共場所針對病毒傳播的預防行為。
2人臉識別技術
2.1人臉檢測技術
人臉檢測是自動人臉識別系統中的一個關鍵環節。早期的人臉識別研究主要針對具有較強約束條件的人臉圖象(如無背景的圖象),往往假設人臉位置靜止或者容易獲取。人臉檢測分為前深度學習時期,AdaBoost框架時期以及深度學習時期。前深度學習時期,人們將傳統的計算機視覺算法運用于人臉檢測,使用了模板匹配技術,依賴于人工提取特征,然后用這些人工特征訓練一個檢測器;后來技術發展,在2001年Viola和Jones設計了一種人臉檢測算法,它使用簡單的Haar-like特征和級聯的AdaBoost分類器構造檢測器,檢測速度較之前的方法有2個數量級的提高,并且保持了很好的精度,稱這種方法為VJ框架。VJ框架是人臉檢測歷史上第一個最具有里程碑意義的一個成果,奠定了基于AdaBoost目標檢測框架的基礎,使用級聯AdaBoost分類器進行目標檢測的思想是:用多個AdaBoost分類器合作實現對候選框的分類,這些分類器組成一個流水線,對滑動窗口中的候選框圖像進行判定,確定檢測目標是人臉還是非人臉。Adaboost框架技術的精髓在于用簡單的強分類器在初期快速排除掉大量的非人臉窗口,同時保證高的召回率,使得最終能通過所有級強分類器的樣本數數量較少。在深度學習時期,開始將卷積神經網絡應用于人臉檢測領域。研究方向有兩種:一是將適用于多任務的目標檢測網絡應用于人臉檢測中;另一種是研究特定的的人臉檢測網絡。人臉檢測技術具有特殊唯一性和穩定性,在現今社會對于構建居民身份識別系統,病毒傳播防控系統,以及計算機視覺交互模型的構建具有廣泛的應用。人臉檢測技術不僅作為人臉識別的首要步驟,也在許多其他領域發揮巨大影響,如人臉關鍵點提取、人臉追蹤、基于內容的檢索、數字視頻處理、視頻檢測、安防監控、人證比對、社交等領域都有重要的應用價值。數碼相機、手機等移動端上的設備已經大量使用人臉檢測技術實現成像時對人臉的對焦、圖集整理分類等功能,各種虛擬美顏相機也需要人臉檢測技術定位人臉。評價一個人臉檢測算法好壞的指標是檢測率和誤報率,我們定義檢測率為:算法要求在檢測率和誤報率之間盡量平衡,理想的情況是達到高檢測率,低誤報率。
2.2人臉識別技術
目前主要流行的人臉識別技術包括幾何特征識別,模型識別,特征臉識別和基于深度學習/神經網絡的的人臉識別技術等。人臉特征識別主要通過對人臉面部結構特征如眼睛、鼻子等五官幾何特點及其相對位置分布等,生成圖像,并計算各個面部特征之間的歐式距離、分布、大小等關系該方法比較簡單,反應速度快,并且具有魯棒性強等優點,但是在實際環境下使用容易受檢測的環境的變化、人臉部表情變化等影響,精度通常不高,細節處理上不夠完善。模型識別技術主要包括隱馬爾可夫模型、主動表象模型、主動形狀模型等,識別率較高,并且對表情等變化影響較小。特征臉識別來源于主成分描述人臉照片技術(PCA技術),從數學上來講,特征臉就是人臉的圖像集協方差矩陣的特征向量。該技術能有效的顯示人臉信息,效率較高。基于深度學習的人臉識別是獲取人臉圖像特征,并將包含人臉信息的特征進行線性組合等,提取人臉圖像的特征,學習人臉樣本數據的內在規律和表示層次。可以采用如三層前饋BP神經網絡。BP神經網絡是1986年由Rumelhart和McClelland為首的科學家提出的概念,是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,是應用最廣泛的神經網絡模型之一。BP網絡本質上是一種能夠學量的輸入與輸出之間的映射關系的輸入到輸出的映射,從結構上講,BP網絡具有輸入層、隱藏層和輸出層;從本質上講,BP算法就是以網絡誤差平方為目標函數、采用梯度下降法來計算目標函數的最小值。BP神經網路輸入層有n個神經元節點,輸出層具有m個神經元,隱含層具有k個神經元,采用BP學習算法訓練神經網絡。BP算法主要包括兩個階段:向前傳播階段和向后傳播階段。在向前傳播階段,信息從輸入層經過逐級的變換,傳送到輸出層。這個過程也是在網絡完成訓練后正常運行時執行。將Xp作為輸入向量,Yp為期望輸出向量則BP神經網絡向前傳播階段的運算,得到實際輸出表達式為向后傳播階段主要包括兩大步驟:①計算實際輸出Op與對應理想輸出Yp之差;②按極小化誤差方法調整帶權矩陣。之所以將此階段稱為向后傳播階段,是對應于輸入信號的正常傳播而言的,因為該階段都需要收到精度要求進行誤差處理,所以也可以稱之為誤差傳播階段。(1)確定訓練集。由訓練策略選擇樣本圖像作為訓練集。(2)規定各權值Vij,Wjk和閾值Φj,θk參數,并初始化學習率α及精度控制參數ε。(3)從訓練集中取輸入向量X到神經網絡,并確定其目標輸出向量D。(4)利用上式計算出一個中間層輸出H,再用本式計算出網絡的實際輸出Y。(5)將輸出矢量中yk與目標矢量中dk進行比較,計算輸出誤差項,對中間層的隱單元計算出L個誤差項。(6)最后計算出各權值和閾值的調整量。所以,卷積神經網絡算法是通過訓練人臉特征庫的方式進行學習生成,對不同環境下不同表現情況的人臉圖像識別有更高的精確性。
2.3人臉識別軟件實現方式
(1)采集人臉數據集,然后對數據集進行標注,對數據進行預處理變成訓練格式。(2)部署訓練模型,根據訓練算法所需依賴部署電腦環境。(3)訓練過程,下載預訓練模型,將人臉數據集分批次作為輸入開始訓練,最終輸出為訓練好的模型。(4)部署訓練好的模型,捕獲畫面即可對畫面中的人臉進行實時檢測。
3人臉識別在病毒傳播防控中的應用
通過人臉識別技術,可以實現無接觸、高效率的對流動人員進行信息的收集、身份識別、定位地址信息等操作,大大減少了傳染的可能性,切斷了病毒傳播途徑,大大提高了工作效率。通過提前收錄人臉信息,采用深度學習對人臉特征模型的訓練學習,即可獲取人臉識別特征模型,再次驗證時即可實現人臉識別和個人信息快速匹配。AI人工智能幫助人們更好的解放雙手,為人們的生活和工作提供了重要的幫助。本文還提出了在人臉識別的系統基礎上,可以加入定位系統、測溫系統等,依托物聯網技術和云計算大數據,更加優化管控系統的效率。病毒傳播防控中人臉識別系統流程可以概括為圖2。
4結語
本文研究了一種人臉識別技術在病毒傳播管控系統中的應用,并分析設計了人臉識別實時監測及病毒管控系統的流程,大大提高了信息管理的效率,減弱了傳播風險。作為一門新興技術,目前的人臉識別技術還存在著諸多不足之處,像存在環境光的影響、人臉表情變化、妝容變化、佩戴口罩等都會影響到系統識別精度;另外安全問題也引人深思:現今人臉支付方式迅猛發展,錄入的人臉模型信息數據庫存在有一定的安全風險,一旦被不法分子盜取信息后果不堪設想,所以模型數據庫安全、網絡安全,也是系統開發中必須重視的問題。人臉識別為代表的人工智能技術的研究,在病毒傳播管控作出重大貢獻,依托我國領先的計算機網絡技術和5G等技術,加強人工智能技術與5G通信技術的結合,優勢互補,以此來加快大數據、人工智能和物聯網技術發展進程,對我國社會進步,促進城市建設和管理朝著高效、秩序、和諧穩定的方向不斷發展,增強我國的經濟實力有著重大價值和研究意義。
參考文獻
[1]王彥秋,馮英偉.基于大數據的人臉識別方法[J].現代電子技術,2021,44(7):87-90.
[2]李剛,高政.人臉自動識別方法綜述[J].計算機應用研究,2003,20(8):4-9,40.
[3]馬玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].計算機科學與探索,2021,7(15):1195-1206.
[4]余璀璨,李慧斌.基于深度學習的人臉識別方法綜述[J].工程數學學報,2021,38.
[5]王紅星,胡永陽,鄧超.基于LBP和ELM的人臉識別算法研究與實現[J].河南理工大學學報(自然科學版),2005.
[6]鐘陳,王思翔,王文峰.面向疫情防控的人臉識別系統與標準研究[J].信息技術與標準化,2020,6,11-13,1671-539X.
[6]彭駿,吉綱,張艷紅,占濤.精準人臉識別及測溫技術在疫情防控中的應用[J].軟件導刊,2020,10,1672-7800.
關鍵詞:車牌識別系統; 智能交通; 技術
中圖分類號: TP391.4文獻標識碼:A文章編號:1009-3044(2008)18-20ppp-0c
Research on Licence Plate Recognition System
YI Lian-jie
(Loudi Vocational and Technical College Loudi Huanan417000)
Abstract: The licence plate recognition system has an importantrole of morden intelligent traffic system. This paper narrated the key technology ofthe licence plate recognition system and discussed the existing problems and development of the licence plate recognition system.
Keywords: the licence plate recognition system; intelligent traffic system; technology
車牌識別系統是智能交通系統的關鍵部分,可廣泛應用于交通管理、監控和電子收費等場合。車牌識別系統就是以車牌作為車輛的唯一標識,采用計算機視覺和模式識別技術對汽車車牌的自動識別。
1 車牌識別系統的組成
典型的車牌識別系統由車輛檢測、圖像采集、車牌識別等部分組成(圖1)。車輛檢測就是使用車輛傳感器或紅外線檢測等來判斷車輛是否通過某一位置。當車輛駛過探測部位時,CCD攝像機拍攝車輛圖像,由圖像采集卡采集圖像并輸入計算機。車牌識別部分由計算機和識別軟件組成,從由CCD攝像機采集的圖像中自動尋找車牌,然后對找到的車牌進行字符切分和識別,最后獲得車牌號碼,并將識別結果送至監控中心等場合。
圖1車牌識別系統的組成
在整個識別系統中,以車牌識別最為關鍵。識別過程有兩個步驟,首先從圖像中找出確切的車牌位置,即車牌定位,然后對找出的車牌進行字符切分和識別。車牌識別過程包含兩大關鍵技術:1.車牌區域定位技術;2.車牌字符切分和識別技術。
2 車牌定位技術
圖像輸入計算機后,系統要自動找出車牌的準確位置。車牌區域定位是車牌字符切分和識別的基礎,是提高系統識別率的關鍵。車牌定位過程包括三個步驟:圖像預處理、車牌搜索和車牌糾偏。
2.1 圖像預處理
圖像預處理的作用:平滑去噪和車牌特征增強。
平滑去噪就是消除圖像上由于光照、車牌污損等產生的噪聲干擾。平滑方法主要有平均濾波、中值濾波和指數函數濾波等方法。中值濾波和指數濾波平滑效果好且能較好保持牌照和字符邊緣,但在平滑效果和處理速度方面不如平均濾波。
通常的車牌定位算法是依據車牌特征從圖像中找出車牌,因此必須使車牌區域顯示出與非車牌區域不同的獨有的特征,車牌特征增強使圖像中車牌區域明顯突出。通常有下述增強方法:邊緣檢測法、二值化法、量化法、數學形態學法。
具有不同灰度的相鄰區域之間存在邊緣,在車牌區域存在車牌邊框邊緣和車牌字符邊緣。邊緣檢測法就是要檢測出這些邊緣。有關邊緣檢測的算法很多,考慮實時性要求,采用簡單的微分算子,如一階微分算等。這些算子采用小區域模板與圖像卷積實現邊緣檢測。文獻[1]提出一種牌照字符邊緣特征增強的方法,該方法使用線性濾波器函數將每一行中多個連續的水平方向梯度值相加,使得字符的垂直邊緣增強。微分算子對噪聲較為敏感,因此在使用之前需要平滑去噪。LOG算子是高斯指數平滑法與Laplacian算子相結合的邊緣檢測方法,既能消除噪聲又能很好的突出車牌字符的邊緣。
二值化增強法先確定一個閾值,然后將圖像中各個像素的灰度值都與這個閾值比較,根據比較結果將整個圖像的像素點分為兩類,車牌區域歸為一類,便于車牌搜索。為了滿足實時性要求,采用簡單、快速的二值化法,如平均閾值法,反積分自適應閾值法等。
文獻[3]使用神經網絡來對彩色圖像量化,使得車牌區域的字符為一種特定的顏色,然后進行顏色過濾或線掃描,借此提取車牌。該方法首先必須選取車牌樣本圖像,并且要把RGB顏色模式轉換為HSI模式,以HSI各分量值作為輸入對神經網絡進行訓練,再以訓練好的神經網絡對圖像的各像素點量化分類,該方法抗干擾能力強,量化前可不要求平滑,
數學形態學表示以形態為基礎對圖像進行分析的數學工具,它的基本思想使用具有一定形態的結構元素去量度和提取圖像中的對應形狀以達到對圖像分析和識別的目的。數學形態學有四種基本的運算:膨脹,腐蝕,開啟和閉合。出于以下兩個意圖而使用形態學方法:1.將開啟和閉合結合起來,消除二值化后的車牌區域中存在的細小空洞;2.采用水平線段的結構元素膨脹,使二值化后的車牌區域成為一連通區域。
需要說明的是,上述方法往往不是單獨使用,如二值化法是對邊緣檢測后的圖像進行,而形態學方法是在二值化圖上實現。不能簡單的評價圖像預處理方法的優劣,因為這與所對應的車牌搜索方法緊密相關。
2.2 車牌搜索
車牌搜索就是根據車牌區域特征在圖像中尋找車牌的過程。根據搜索的方式可把車牌搜索方法分為以下幾種:投影統計法、線掃描法、模板匹配法和反Hough變換法等。車牌搜索法要與相應的車牌增強法配合使用(見表2)。
表2車牌增強法用于不同搜索法的情況
投影統計法對邊緣化或二值化圖像進行水平和垂直累加投影,根據投影直方圖呈現的連續峰、谷、峰的分布的特征來提取車牌,或對由形態學膨脹運算后的圖像水平和垂直投影,在投影圖上尋找波峰和波谷而確定車牌位置。文獻[24]提出的采用高斯指數函數對投影圖平滑,能有效消除投影圖的毛刺,使車牌位置為明顯的波峰,提高車牌定位的精度。
線掃描搜索法則是對邊緣化或二值化后的圖像逐行水平掃描,穿過車牌區域的掃描線因為字符邊緣的存在,灰度呈現起伏的峰、谷、峰的變化,或頻繁交替出現亮基元、暗基元的特征,以提取車牌。文獻[3]用神經網絡對彩色圖像量化之后,再逐行水平掃描,分別獲取顏色向量和長度向量,能與標準車牌區域的顏色向量和長度向量匹配的為車牌區域。
模板匹配搜索法是以特定的模板在圖像區域滑動,以與模板匹配的局部區域為車牌。使用的模板有線模板、倒”L”角模板、矩形框模板。線模板以水平線段或垂直線段為模板,來檢測車牌的邊框角點;倒“L”模板以倒“L”結構為模板來尋找車牌邊框的左上角;矩形框模板以一個與車牌長寬比例相當的矩形框作為模板,在整個圖像區域滑動,以符合某一判別函數值的區域作為車牌區域。
反Hough變換搜索法是基于車牌形狀特征的方法,先對圖像進行Hough變換,然后在Hough參數空間尋找車牌的四個端點。
上述搜索法可以結合使用,如文獻[25]提出的自適應邊界搜索法,先用倒”L”模板尋找車牌邊框的左上角,然后用水平線掃描和垂直線掃描找出下邊框和右邊框。投影統計搜索法和線掃描搜索法處理速度快,能對大小不同的車牌識別,但定位精度不高和出現虛假車牌的情況,需要提高定位精度和去除虛假車牌的后續工作。模板匹配搜索法能比較準確的找到車牌位置,但難以滿足實時性要求,可以采用神經網絡或遺傳算法來加快搜索進程。反Hough變換搜索法除了能準確找到車牌位置,還能確定車牌的傾斜角度,對噪聲、輪廓線中斷不敏感,但在有直線干擾下可能實效,文獻[28]提出的快速Hough變換的策略能滿足實時性要求。
2.3 車牌糾偏
由于車輛運行軌跡不定、攝像機位置偏斜等原因,使得圖像中車牌扭曲,為了后續正確的車牌字符切分和識別,就須對車牌糾偏,使車牌達到規范的位置和大小。采用的糾偏方法通常先是用Hough變換確定水平邊框傾斜角度和垂直邊框傾斜角度,然后糾偏。文獻[22]提出使用Rodan 變換可用來確定傾斜角度。
3 車牌字符識別技術
車牌定位之后就要對車牌字符識別。這一過程包含下列幾個步驟(見圖2):車牌二值化,字符切分,字符特征提取和字符識別。這里只討論后三個步驟。
圖2 車牌字符識別步驟
3.1 字符切分
字符切分把車牌上的字符分開,得到一個個的字符圖像。常用的字符切分方法有投影法、模板匹配法、區域生長法、聚類分析法等。
投影法把車牌圖像垂直累加投影,形成峰谷交替的投影直方圖,找到投影圖的各個谷就能把字符分開。模板匹配法以字符大小的矩形作為模板,根據字符的寬度初步確定每個字符的起始位置,然后以此模板在初定位置附近滑動,找到最佳匹配位置而切分字符。區域生長法對每個需要分割的字符找一個像素作為生長起點的種子,將種子像素周圍鄰域中與之相同或相近性質的像素合并到種子像素所在的區域,然后將這些新像素當作新的種子繼續進行上述過程,直到再沒有滿足條件的像素可被包含進來。基于聚類分析的方法對車牌圖像從上到下逐行掃描,如屬于字符類的兩像素間距離小于閾值,可認為兩像素為同一字符,由此而得字符像素的聚類。
3.2 字符特征提取和車牌字符識別
目前使用的車牌字符特征提取的方法可歸納為下述三種:1.基于字符統計特征。計算字符圖像的多階原點矩,多階中心矩以及中心慣性矩,以中心矩與中心慣性矩的比值作為字符特征向量,這樣提取的特征量具有平移,旋轉和尺度不變性,但運算量大;也有把字符在多個方向上的投影(如水平方向,垂直方向,右斜方向,左斜方向)和二階中心矩的比值作為特征向量。2.基于結構特征。輪廓特征,粗網格特征,層次輪廓特征以及字符特征點.這類特征提取計算量較少,但對噪聲和位置變化比較敏感,需要去噪和對字符歸一化。3.基于變換。對原始特征(像素點矩陣)進行傅里葉變換、K-L變換或小波變換等,提取的特征向量反映字符的結構特征和統計特征,相似字符的特征矢量距離較大,效果較好。實際應用中往往是多種特征的提取,多種特征提取方法的使用。
對車牌字符特征提取之后,就把相應的特征值輸入分類器識別,目前對于車牌字符的分類識別方法歸納為下列幾種。(1)模板匹配。該方法首先對待識字符進行二值化并將其縮放為字符數據庫中模板大小,然后與所有的字符模板比較匹配,計算相似度,以最大相似度者為識別結果。(2)PCA子空間分類器。子空間分類器由訓練樣本相關矩陣的特征向量構成,單個模式的子空間建立彼此獨立,相互之間沒有聯系,以待識別字符的特征向量與所對應的子空間距離最小作為結果。(3)基于人工神經網絡。人工神經網絡有抗噪聲、容錯、自適應、自學習能力強的特點。多隱含層的BP神經網絡,BAM(Bidirectional association memories)神經網絡方法,自諧振ART神經網絡識別等是此方法的典范。(4)基于邏輯規則推理的識別方法。文獻[18]提出基于歸納推理的字符識別,該方法在訓練時自動生成識別規則。(5)基于隨機場圖像模擬的識別方法。該方法識別率高,并且可對灰度圖像直接提取字符特征,抗干擾性強。另外使用感知器的識別,通常感知器只用于相似字符對的識別,作為其他識別方法的補充。
4 總結與展望
從已有車牌識別系統的性能分析來看,正確識別率和識別速度兩者難以同時兼顧。其中原因包括目前的車牌識別技術還不夠成熟,又受到攝像設備、計算機性能的影響。
現代交通飛速發展,LPR系統的應用范圍不斷擴寬,對車牌識別系統的性能要求將更高。對現有的算法優化或尋找識別精度高、處理速度快、應用于多種場合的算法將是研究的主要任務。
參考文獻:
[1] 廖金周,宣國榮.車輛牌照的自動分割[J].微型電腦應用,1999(7):32-34.
[2] 劉智勇.車牌識別中的圖像提取及分割[J].中文信息文報,2000(3):29-34.
[3] Wu Wei,Mingjun Wang.An Automatic Method of Location for Number_Plate Using Color Features IEEE 2001.
[4] 郭捷,施鵬飛.基于顏色和紋理分析的車牌定位方法[J].中國圖像圖形學報,2002,7(5):473-476.
[5] 章毓晉.圖像工程(上)――圖像處理與分析[M].清華大學出版社.
關鍵詞: 動態紋理分類; 慢特征分析; 深度學習; 堆棧降噪自動編碼網絡模型
中圖分類號: TN919?34 文獻標識碼: A 文章編號: 1004?373X(2015)06?0020?05
Dynamic texture classification method based on stacked denoising autoencoding model
WANG Cai?xia, WEI Xue?yun, WANG Biao
(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)
Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.
Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model
0 引 言
動態紋理是指具有空間重復性、并隨時間變化的視覺模式,這種模式形成了一系列在時間域上具有某種不變性的圖像序列[1]。不同的動態紋理可能具有相似的外觀,但是卻具有不同的運動形式,所以表觀和運動是動態紋理特征的兩大方面。在目前的動態視頻分析系統中,最關鍵的步驟是如何提取有效的動態紋理特征描述符。在過去幾十年里,對紋理的研究大部分都集中在靜態紋理特征的研究,動態紋理的研究相對靜態紋理而言起步要晚的多。動態紋理的研究最早始于20世紀90年代初,由Nelson和Polana采用建立線性系統模型的方法對其進行研究[2],并且將視覺運動劃分為三類[3]:行為、運動事件以及動態紋理。隨后,Szummer 和 Picard提出采用時空自回歸模型(Spatio?Temporal Auto Regressive,STAR)[4]對動態紋理序列進行建模。基于光流的識別法是目前比較流行的動態紋理識別法,因為其計算效率高,并且以一種很直觀的方式來描述圖像的局部動態紋理特征,Fazekas和Chetverikov總結出,正則性(Regulated)全局流與普通流(Normal Flow)相比,普通流可以同時包含動態特性和形狀特性[5]。基于LBP的動態紋理方法是最近幾年才提出的一種有效算法,典型的是Zhao等人提出的兩種時空域上的描述子:時空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地結合“運動”和“外觀”特征。2007―2008年是動態紋理研究最多的兩年,各大期刊雜志連續刊登有關動態紋理的研究文章。
本文試圖解決動態自然場景的分類問題(例如:煙火、河流、風暴、海洋、雪花等)。在計算機視覺領域,過去采用較多的是手動提取特征來表示物體運動信息(例如:HOF、基于STIP的HOG算法等),實驗表明該類方法對人體行為識別非常有效。但是由于自然環境比較復雜,動態紋理表現不穩定,易受光照、遮擋等影響,而手動選取特征非常費力,需要大量的時間進行調節,所以該類方法并不適用于動態場景分類。Theriault等人提出利用慢特征分析的方法來提取動態視頻序列的特征[8]。該方法雖然能有效表示動態紋理特征,但是其提取的特征維數較高。深度學習是機器學習研究中一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,近幾年深度學習網絡模型在大尺度圖像分類問題中成功應用使得其得到越來越多人的重視。卷積神經網絡、深度置信網絡和堆棧自編碼網絡是三種典型的深度學習網絡模型,而堆棧自編碼網絡模型不僅對高維數據有很好的表示,而且采用非監督的學習模式對輸入數據進行特征提取,這對于傳統的手動提取特征。利用堆棧自編碼網絡模型對慢特征進行進一步學習,不僅能降低數據維度,而且還能提取出數據更有效的特征表示。
1 基于堆棧自編碼網絡模型的慢特征分析法
1.1 慢特征分析法
文獻[9?10]中提到,慢特征分析算法的目標是從不斷變化的輸入信號中學習不變量,即除了無意義的常值信號外,最具不變性質的信息,其實質也就是從快速變化的信號中提取緩慢變化的信號特征,這種特征是從混合信號中提取出來的源信號的高級表示,表征信號源的某些固有屬性[11]。
實驗證明,慢特征分析法在人體行為識別中有很好的描述作用,這為動態紋理分類提供了一個很好的選擇。慢特征分析算法的核心思想是相關矩陣的特征值分解,其本質是在經過非線性擴展特征空間對目標函數進行優化,尋找最優解的線性組合。
給定一個時域輸入信號序列:
[vt=v1t,v2t,…,vDtT]
目標就是學習一組映射函數:
[Sv=S1v,S2v,…,SMv]
使得輸出信號[yt=y1t,y2t,…,yMtT]的各個分量[yj=Sjvt]的變化盡可能緩慢,而且仍然保留相關的重要信息。選用時域信號一階導數的均方值來衡量輸出信號個分量的變化率:
[minSj<y?2j>t] (1)
且滿足以下條件:
(1) [<yj>t=0];
(2) [<y2j>t=1];
(3) [?j<j':<yj,yj'>t=0]。
其中:[<y>t]是[y]的時域平均值;[y?j]是[yj]的時域一階導數。這三個約束條件保證慢特征分析的輸出信號的各分量的變化率盡可能小,其中條件1和條件2確保輸出沒有無意義的常信號值,條件3確保輸出各分量之間是非相關的,且不同慢特征承載著不同信息。值得注意的是,函數[Sv]是輸入信號的瞬時函數,所以輸出結果不能看成是通過低通濾波器的結果,慢特征處理速度要比低通濾波器快很多。如圖1所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t1.tif>
圖1 時域輸入信號慢特征的提取
輸出信號各分量按照變化率從小到大排列,且互不相關,其最優解問題可以看成以下公式的解特征值問題:
[Sj:<v?v?T>tSj=λjSj] (2)
求解得到的特征值按從小到大的順序排列,即[λ1≤λ2≤???≤λM],輸出信號的慢特征和最小特征值息息相關。輸入信號[vt]可以是多種模式的圖像特征(例如色彩,梯度,SIFT特征,HOG特征)。
這里采用的是v1特征[12?13],該特征對圖像有很好的表示,確保預先學習到的慢特征能達到最優。
1.2 堆棧自動編碼模型
自動編碼器模型是深度學習網絡模型之一,其盡可能復現輸入信號,捕捉代表輸入信號的主要成分。
如圖2所示,對于給定輸入信號[x],根據式(2)得到輸出[y],此過程為編碼過程:
[y=fθx=sWx+b] (3)
式中:[sx=11+θ-x];[W]是[d′×d]維權重矩陣;[b]是偏移向量。
為了驗證輸出[y]是否準確表達原輸入信號,利用式(2)對其進行重構,得到重構信號[z]。此過程為解碼/重構過程:
[gθ′y=sW′y+b′] (4)
從輸入到輸出的權值記為[θ=W,b],從輸出到輸入的權值記為[θ′=W′,b′]。逐層進行參數[θ]和[θ′]的優化,式(5)為其目標函數:
[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)
調整參數,使得重構誤差達到最小,因此可以得到[x]的第一層表示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t2.tif>
圖2 普通DA和降噪DA
降噪自動編碼器(Denoising Auto Encoder,Dae)是在自動編碼器的基礎上給訓練數據加入噪聲,編碼器需要學習去除噪聲而獲得沒有被噪聲污染的輸入信號,因此獲得輸入信號更加魯棒的表達。堆棧自動編碼模型(Sda)是將多個Dae堆疊起來形成的一種深度網絡模型。利用優化后的參數[θ]得到當前層的輸出[y](即下一層的輸入),將得到的[y]作為新一層的輸入數據,逐層進行降噪自動編碼的過程,直到到達多層神經網絡中間隱層的最后一層為止,算出該層輸出,即為輸出特征,如圖3所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t3.tif>
圖3 多層神經網絡結構圖
1.3 基于Sda的慢特征分析法
基于Sda的慢特征分析方法利用慢特征分析法預先學習動態視頻序列的慢特征,將該特征作為模型輸入,進行多層降噪自動編碼網絡模型參數的學習,最后使用SVM分類器對該模型的輸出特征進行分類,具體步驟如圖4所示。
2 實 驗
2.1 實驗數據集與評估準則
實驗所用數據由10類動態場景構成(包括海灘,電梯,森林煙火,高速公路,閃電,海洋,鐵路,河流,云,街道),且每一個類別由30個250×370 pixels大小的彩序列構成。這些視頻序列全部來自于加拿大約克大學計算機視覺實驗室于2012年的YUPENN動態場景數據集[14],該數據庫主要強調的是對象和表層在短時間內場景的實時信息。如圖5所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t4.tif>
圖4 基于Sda的慢特征分析步驟圖
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t5.tif>
圖5 YUPENN動態數據庫
將所有彩序列進行尺度縮放,分別放大和縮小1.2倍,1.4倍,1.6倍,并且在每一個尺度上進行旋轉,旋轉角度分別為[2°,4°,6°,-2°,-4°,-6°]。所以樣本總數為(10×30)×(6×6)=10 800個。實驗性能使用混淆矩陣(Confusion Matrix)進行衡量。混淆矩陣是多分類問題中常用的衡量準則,它使得分類結果一目了然并能指出錯誤預測的影響。分類矩陣通過確定預測值是否與實際值匹配,將模型中的所有事例分為不同的類別。然后會對每個類別中的所有事例進行計數,并在矩陣中顯示總計。實驗中一共有14個類別的數據集,所以最后會產生一個大小為14×14的混淆矩陣。
2.2 實驗結果與分析
實驗選用線性SVM分類器,采用Leave?One?Out 分析法進行分類。所有視頻序列全部轉換成灰度視頻進行慢特征分析,輸出大小為4 032維的慢特征向量作為Sda網絡模型的輸入數據。
2.2.1 Sda網絡模型大小
堆棧降噪自動編碼器網絡層數以及每一層的大小對輸出特征的魯棒性和SVM分類結果有重要的影響。當網絡層數不一樣時,模型學習到的特征也就不一樣,網絡層數過低,學習力度可能不夠,特征達不到最佳表示效果,網絡層數太高,可能會出現過擬合現象,隱層的大小和最后的分類結果也息息相關,所以選取不同網絡層數和隱層大小分別進行實驗,如圖6所示,選取網絡層數分別為1,2,3,隱層大小分別為500,1 000,2 000。由圖6可知,當隱層大小為500時的分類得分顯然比1 000和2 000時高很多;在隱層大小為500時,隨著網絡層數不斷增加,實驗結果不斷提升,當網絡層數由2層上升到3層時,實驗結果已經非常接近(網絡層數為2時score=95.9%,網絡層數為3時score=96.3%)。可以得知,隨著網絡層數不斷增加,分類的效果逐漸提高,當網絡層數為3時,分類結果已非常接近。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t6.tif>
圖6 不同網絡層數和隱層大小的分類結果
2.2.2 噪聲
Sdae對每一層的輸入加入噪聲,編碼器自動學習如何去除噪聲而獲得更加魯棒的動態紋理特征,因此每一層所加入的噪聲的大小對提取的特征有很大的影響。因此,選取不同大小的噪聲分別進行實驗,如圖7所示,選取噪聲大小分別為10%,15%,20%,25%,30%,35%,40%,45%,50%,固定網絡層大小為[500,500,500];由圖可知,加入噪聲對分類得分的影響呈類似拋物線形狀,對每一層輸入數據加入25%的噪聲時score=0.964為最大值。
2.2.3 混淆矩陣以及實驗與現有方法的比較
圖8為實驗最優參數所計算出的混淆矩陣,由圖可知,海灘、電梯、高速公路以及海洋的分類效果達到100%,噴泉(Fountain)的分類效果雖然最差,但也已經達到83%左右,其容易被誤分成森林火災(17%錯誤分類)。由該混淆矩陣可以得知,實驗所用方法能夠達到將近96.4%平均得分。表1是本文所用方法與現有幾個比較常用的動態紋理特征提取方法的比較,分別有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是幾個方法中效果最好的,可以達到76.7%的分類效果,而本文所用方法SFA+Sda比SFA方法提高了將近20%的分類得分,并且在每一個動態場景中分類效果總是優于其他幾種方法。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t7.tif>
圖7 加入不同噪聲的分類結果
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t8.tif>
圖8 混淆矩陣
表1 本實驗與現有方法比較
3 結 語
本文提出一種基于多層降噪自動編碼網絡模型的動態紋理分類方法:預先學習動態視頻序列的慢特征,以此作為多層降噪自編碼網絡模型的輸入數據進行非監督的深度學習,網絡最頂層的輸出即為所提取的動態紋理特征,采用SVM分類器對該特征進行分類。本文對實驗中的各種影響參數如網絡模型的深度、每一層的大小以及加入噪聲的大小做了充分的研究,實驗證明,該方法所提取的特征對動態紋理有很好的表示作用,分類效果不錯,在動態場景分類問題中有很大的應用價值。
參考文獻
[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.
[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.
[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.
[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.
[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.
[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.
[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.
[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.
[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.
[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.
[11] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識別與人工智能,2011(2):79?84.
[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.
[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.
[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.
[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.