前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經網絡的核心范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。
DOIDOI:10.11907/rjdk.162768
中圖分類號:TP317.4
文獻標識碼:A文章編號文章編號:16727800(2017)005017405
0引言
隨著電子商務的發展,大批藝術品交易網站隨之興起,藏品交易規模也越來越大。而當前的古玩網上交易平臺還不能夠實現對現有藏品圖片的自動分類,客戶在尋找目標藏品時不得不在眾多圖片中一一瀏覽。因此需要一種有效的方法來完成面向圖像內容的分類。
在基于內容的圖像檢索領域,常使用人工設計的特征-如根據花瓶、碗、盤子的不同形態特征:目標輪廓的圓度、質心、寬高比等[1],繼而使用BP神經網絡、SVM分類器等對特征進行學習分類。文獻[2]基于植物葉片的形狀特征,如葉片形狀的狹長度、矩形度、球狀性、圓形度、偏心率、周長直徑比等,利用BP神經網絡實現對植物葉片進行分類。文獻[3]研究印品圖像的各類形狀缺陷,利用圖像缺陷形狀的輪廓長度、面積和圓形度等幾何特征,導入SVM分類器進行訓練,得到分類器模型實現分類。文獻[4]提出了一種基于Zernike矩的水果形狀分類方法,通過提取圖像中具有旋轉不變性的Zernike矩特征,并運用PCA方法確定分類需要的特征數目,最后將這些特征輸入到SVM分類器中,完成水果形狀的分類。上述方法都要求對目標形狀分割的準確性,而分割過程中由于存在目標陰影、目標分割不完整問題,會影響到人工特征的準確選取。除了上述人工特征外,最常用的特征是HOG[5,6]、SIFT[7,8]等。HOG的核心思想是所檢測的局部物體外形能夠被光強梯度或邊緣方向的分布所描述。HOG表示的是邊緣結構特征,因此可以描述局部形狀信息。SIFT在圖像的空間尺度中尋找極值點,并提取出其位置、尺度、旋轉不變量。SIFT特征對于旋轉、尺度縮放、亮度變化保持不變。但是,這兩種特征在實際應用中,描述子生成過程冗長、計算量太大。而且在上述方法征設計需要啟發式的方法和專業知識,很大程度上依靠個人經驗。
卷積神經網絡不需要手動設計提取特征,可以直接將圖片作為輸入,隱式地學習多層次特征,進而實現分類[9]。相比目前常用的人工設計特征然后利用各分類器,具有明顯的優勢。近年來,卷積神經網絡已成為語音、圖像識別領域研究熱點。它的權值共享特點使得網絡復雜度降低,權值數量減少。而且,卷積神經網絡直接將圖片作為輸入,避免了復雜的特征設計和提取,具有一定的平移、縮放和扭曲不變性[10]。本文采用卷積神經網絡對古玩圖片進行分類。首先,將背景分離后的圖片作為網絡的輸入,相比原圖作為輸入,此方法的網絡結構更加簡單。然后,卷積層通過不同的卷積核對輸入圖片進行卷積得到不同特征圖,采樣層進一步對特征圖進行二次提取,最終提取到合適的特征輸入分類器進行分類,而在卷積層、采樣層征圖的大小、數目都會影響到網絡的分類能力。因此,本文通過優化網絡參數,使網絡達到較好的分類效果。
1卷積神經網絡
1989年,LECUN等[11]提出了卷積神經網絡(Convolution Neural Networks,CNN),CNN是一種帶有卷積結構的深度神經網絡,一般至少有2個非線性可訓練的卷積層、2個非線性的固定采樣層和1個全連接層,一共至少5個隱含層[12]。百度于2012年底將深度學習技術成功應用于自然圖像OCR識別和人臉識別,此后深度學習模型被成功應用于一般圖片的識別和理解。從百度經驗來看,深度學習應用于圖像識別不但大大提升了準確性,而且避免了人工特征抽取的時間消耗,從而大大提高了在線計算效率[13]。
卷積神經網絡作為一種高效的深度學習方法[14],在許多圖像識別方面取得了很好的成效[1519]。該網絡作為一種多隱層神經網絡,可以提取圖像的多層次特征進行識別。
卷積神經網絡主要包括卷積層和采樣層,卷積層通過可學習的卷積核對輸入圖片進行卷積得到特征圖,卷積操作即加強了輸入圖片的某種特征,并且降低噪聲。卷積之后的結果通過激活函數(通常選擇Sigmoid函數或Tanh函數)作用輸出構成該層的特征圖。特征圖上的每一個神經元只與輸入圖片的一個局部區域連接,每個神經元提取的是該局部區域的特征,所有神經元綜合起來就得到了全局特征,與神經元相連接的局部區域即為局部感受野[20]。而在卷積層中一般存在多張特征圖,同一張特征圖使用相同的卷積核,不同特征圖使用不同的卷積核[21],此特點稱為權值共享,即同一張特征圖上的所有神經元通過相同的卷積核連接局部感受野。卷積神經網絡的局部感受野和嘀倒蠶硤氐憒蟠蠹跎倭送絡訓練的參數個數,降低了網絡模型的復雜度。
采樣層對卷積層提取到的特征圖進行局部非重疊采樣,即把特征圖分為互不重疊的N×N個子區域,對每個子區域進行采樣。卷積神經網絡的采樣方式一般有兩種:最大值采樣和均值采樣。最大值采樣即選取區域內所有神經元的最大值作為采樣值,均值采樣為區域內所有神經元的平均值作為采樣值。最大值采樣偏向于提取目標的特征信息,而均值采樣偏向于提取背景的特征信息[22]。采樣后的特征平面在保留了區分度高特征的同時大大減少了數據量,它對一定程度的平移、比例縮放和扭曲具有不變性。
卷積神經網絡通過卷積層和采樣層的循環往復提取到圖像由低層次到高層次的特征,最后一般通過全連接層將所有特征圖展開得到一維向量,然后輸入到分類器進行分類。
卷積神經網絡在處理二維圖像時,卷積層中每個神經元的輸入與上一層的局部感受野相連接,并提取該局部的特征,權值共享特點又使得各神經元保持了原來的空間關系,將這些感受不同局部區域的神經元綜合起來就得到了全局信息。采樣層對特征圖進行局部特征提取,不會改變神經元之間的空間關系,即二維圖像經過卷積層、采樣層仍然保持二維形式。因此,卷積神經網絡有利于提取形狀方面的特征。雖然卷積神經網絡的局部感受野、權值共享和子采樣使網絡大大減少了需要訓練參數的個數,但是該網絡作為多隱層神經網絡還是十分復雜的。對于不同的數據庫,為了達到比較好的分類效果,網絡的層數、卷積層特征圖個數以及其它參數的設置都需要探究。
2基于卷積神經網絡的古玩圖片分類
2.1特征提取及傳遞
不同古玩的主要區別在于形狀不同,而花瓶、盤子和碗在古玩中最常見,因此將這3類圖片作為實驗對象,對于其它種類的古玩圖片的分類,該網絡同樣適用。卷積神經網絡采用如下圖所示的5層網絡結構,并對網絡各層的特征圖數目、大小均作了修改。對于網絡的輸入,先將原圖像進行目標與背景分割,然后進行灰度化、統一分辨率的處理,最后輸入到卷積神經網絡。由于訓練卷積神經網絡的根本目的是提取不同古玩的特征,而背景不是目標的一部分,對古玩識別來說并不提供任何有用的信息,反而對特征的提取造成干擾,所以去除背景噪聲后,網絡結構會更加簡單,同時也利于網絡對特征的學習。但是因為進行了去背景的預處理,網絡也失去了對復雜背景下圖片的識別能力,所以使用該網絡進行古玩圖片分類前都要進行目標分割的預處理過程。
卷積神經網絡對古玩圖片的特征提取過程如下:
(1)輸入網絡的圖片為100×100大小的預處理圖,卷積神經網絡的輸入層之后為卷積層,卷積層通過卷積核與輸入圖像進行卷積得到特征平面,卷積核大小為5×5。如圖2所示,特征平面上每個神經元與原圖像5×5大小的局部感受野連接。卷積核移動步長為1個像素,因此卷積層C1的特征平面大小為96×96。這種卷積操作在提取到輸入圖像的某一方面特征時,必然會損失掉圖像的其他特征,而采取多個卷積核卷積圖像得到多個特征平面則會一定程度上彌補這個缺陷。因此,在卷積層C1中使用了6個不同的卷積核與輸入圖像進行卷積,得到6種不同的特征平面圖。如圖3所示,同一張特征圖上的所有神經元共享一個卷積核(權值共享),圖中連接到同一個特征圖的連接線表示同一個卷積核,6個不同的卷積核卷積輸入圖片得到6張不同的特征平面圖。卷積之后的結果并非直接儲存到C1層特征圖中,而是通過激活函數將神經元非線性化,從而使網絡具有更強的特征表達能力。激活函數選擇Sigmoid函數。
卷積層中所使用的卷積核尺寸若過小,就無法提取有效表達的特征,過大則提取到的特征過于復雜。對于卷積層征圖個數的設置,在一定范圍內,特征圖的個數越多,卷積層提取到越多有效表達原目標信息的特征,但是特征圖個數如果過多,會使提取到的特征產生冗余,最終使分類效果變差。卷積層的各平面由式(1)決定: Xlj=f(∑i∈MjXl-1j*klij+blj)(1)
式(1)中,Mj表示選擇輸入的特征圖集合,l是當前層數,f是激活函數,klij表示不同輸入特征圖對應的卷積核,blj為輸出特征圖對應的加性偏置。
(2)卷積層C1后的采樣層S1由6個特征平面組成,采樣層對上一層特征圖進行局部平均和二次特征提取。采樣過程如圖4所示,特征平面上的每個神經元與上一層4×4大小的互不重合的鄰域連接進行均值采樣,最終每個平面的大小為24×24。采樣層的各平面由式(2)決定:
Xlj=f(βljdown(Xl-1j)+blj)(2)
式(2)中,down(.)表示一個下采樣函數,l是當前層數,f是激活函數,βlj表示輸出特征圖對應的乘性偏置,blj為輸出特征圖對應的加性偏置。
(3)卷積層C2與C1層操作方式一樣,唯一區別的是C2層每個特征圖由6個不同的卷積核與上一層6個特征圖分別卷積求和得到,因此C2層一共有6×6個不同的卷積核,卷積核大小為5×5,C2層每個平面大小為20×20,共6個特征平面。
(4)采樣層S2與S1層操作一樣,對上一層4×4大小鄰域進行均值采樣,輸出6個5×5大小的特征平面。本文所用的網絡共包括2個卷積層、2個采樣層、1個全連接層,由于輸入圖片已經過背景分離的預處理,采樣層S2特征圖大小為5×5,所以圖1所示5層網絡已經有很好的表達能力。如果直接將原圖作為輸入,那么網絡的層數以及特征圖的個數將比圖1所示的網絡更加復雜。
(5)全連接層將上一層6個5×5大小的二維平面展開成為1×150大小的一維向量輸入Softmax[23]分類器,輸出層一共有3個神經元(即分類的種類數目),分類器將提取到的特征向量映射到輸出層的3個神經元上,即實現分類。
2.2網絡訓練
訓練方式為有監督地訓練,網絡對盤子、花瓶和碗共三類圖片進行分類,所以分類器輸出一個3維向量,稱為分類標簽。在分類標簽的第k維中1表示分類結果,否則為0。訓練過程主要分為兩個階段:
第一階段:向前傳播A段。
將預處理過的圖片輸入卷積神經網絡計算得到分類標簽。
第二階段:向后傳播階段。
計算輸出的分類標簽和實際分類標簽之間的誤差。根據誤差最小化的原則調整網絡中的各個權值。分類個數為3,共有N個訓練樣本。那么第n個樣本的誤差為:
En=12∑3k=1(tnk-ynk)2(3)
式(3)中,tn表示第n個樣本的網絡輸出標簽,tnk對應標簽的第k維,yn表示第n個樣本的實際分類標簽,ynk對應標簽的第k維。為了使誤差變小,利用權值更新公式(4)更新各層神經元的權值,一直訓練直到網絡誤差曲線收斂。
W(t+1)=W(t)+η?δ(t)?X(t)(4)
式(4)中,W(t)表示算第n個樣本時的權值,W(t+1)表示計算第n+1個樣本的權值,η為學習速率,選取經驗值,δ為神經元的誤差項,X表示神經元的輸入。
3實驗結果及分析
實驗在MatlabR2012a平臺上完成,CPU 2.30GHz,內存4GB,所采用的圖像由相關古玩網站提供,分辨率統一格式化為100×100。由于盤子、花瓶和碗在各種古玩種類中它們之間的形狀差別比較明顯,本文實驗對這三類古玩圖片進行分類。對古玩圖片進行了水平翻轉處理,增加圖片數據量,以加強網絡對古玩圖片分類的魯棒性。實驗數據如表1所示,圖5列出了3類圖片的部分樣本,實驗所用圖片均與圖5所示圖片類似,背景比較單一,少數圖片下方有類似陰影。
為了形象表示網絡各層提取的不同特征,圖6展示了當網絡輸入為盤子時的各層特征圖。卷積層C1中6張特征圖分別提取到了輸入圖片的不同特征,而由于權值共享,同一張特征圖中神經元的空間關系保持不變,所以6張特征圖都抓住了盤子的圓形特征。采樣層S1對C1進行均值采樣,相當于模糊濾波,所以S1層各特征圖看起來模糊了一些。卷積層C2中每張特征圖由6個不同的卷積核卷積S1層各特征圖疊加而成,S2層與S1層處理方式相同。
為了說明將背景分離后的圖片作為輸入的網絡與原圖輸入的網絡之間的差異,設計了如表3所示的兩種網絡結構,網絡CNN4只需要4層網絡層就可以達到0.19%的錯誤率,而原圖作為輸入的CNN8共6層網絡層,在網絡達到收斂的情況下,錯誤率為5.24%。由此可以說明,將背景分離后圖片作為輸入的網絡結構更加簡單。
網絡的訓練采用了批量訓練方式,即將樣本分多批,當一批樣本前向傳播完之后才進行權值更新,每批大小為100,訓練集共2 200張圖片,網絡迭代次數為1時共進行22次權值更新,所以權值更新的計算次數與迭代次數有如下關系:
計算次數=22×迭代次數(5)
圖7為網絡在訓練集上的誤差曲線圖,橫坐標為誤差反向傳播的計算次數,縱坐標為訓練集上的均方誤差。可以看出,當網絡訓練次數達到270次(計算次數約6 000)時,訓練集誤差趨于平緩,網絡已經基本擬合。訓練好的網絡可以用來對測試集圖片進行分類,表4為不同迭代次數下訓練的網絡在測試集上的分類錯誤率,可以看出迭代次數在達到270次后,網絡在測試集的錯誤率收斂,此時只有2張圖片出現分類錯誤。
表5給出了圖像分類算法中常用的人工特征+BP神經網絡、人工特征+SVM分類器以及Hog特征+SVM分類器與CNN方法的性能比較。人工設計的特征包括圖片中目標輪廓的最大長寬比、質心、圓度等特征。從準確率方面來看,CNN方法的準確率高于其他方法,Hog特征方法的準確率遠遠高于人工特征的方法,說明了特征的好壞對圖像分類效果有著很大程度上的影響,CNN提取到的特征比Hog和人工設計的特征更具代表性。從測試時間來看,Hog方法與CNN方法相差不多,采用人工特征的方法時間最長。綜合兩個方面,CNN方法在測試時間和HOG方法相近的情況下,準確率最高。
4結語
針對網上古玩圖片分類問題,為了克服現有算法中人工設計特征困難以及往往依賴個人專業經驗的不足,提出一種基于卷積神經網絡的方法。將背景分離后的目標圖片作為網絡輸入,可以實現自動提取特征進行分類,背景分離后圖片作為網絡輸入使得網絡結構更加簡單,并且設置了合適的特征圖個數以使網絡在古玩圖片集上取得較好的分類準確率。實驗數據表明,該方法能夠解決網上古玩圖片的分類問題,并且分類準確率達到99%,其準確率優于常用的Hog特征以及人工特征方法。另外該方法不僅可以應用于網上古玩圖片,還可應用于鞋類、服裝等其它商品圖像的分類。
參考文獻參考文獻:
[1]K KAVITHA,M.V.SUDHAMANI.Object based image retrieval from database using combined features[C].in Signal and Image Processing (ICSIP),2014.
[2]董紅霞,郭斯羽,一種結合形狀與紋理特征的植物葉片分類方法[J].計算機工程與應用,2014,50(23):185188.
[3]舒文娉,劉全香,基于支持向量機的印品缺陷分類方法[J].包裝工程,2014,35(23):138142.
[4]應義斌,桂江生,饒秀勤,基于Zernike矩的水果形狀分類[J].江蘇大學學報:自然科學版,2007,28(1):3639.
[5]ZHU Q,YEH M C,CHENG K T,et al.Fast human detection using acascade of histograms of oriented gradients[C].Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006.
[6]M VILLAMIZAR,J SCANDALIANS,A SANFELIU bining colorbased invariant gradient detector with Hog descriptors for robust image detection in scenes under cast shadows[C].In Robotics and Automation,ICRA IEEE International Conference on.Barcelona,Spain:IEEE,2009.
[7]CHEN J,LI Q,PENG Q,et al.CSIFT based localityconstrained linear coding for image classification[J].Formal Pattern Analysis & Applications,2015,18(2):441450.
[8]AHMAD YOUSEF K M,ALTABANJAH M,HUDAIB E,et al.SIFT based automatic number plate recognition[C].International Conference on Information and Communication Systems.IEEE,2015.
[9]LAWRENCE S,GLIES C L,TSOI A C,et al.Face recognition:a convolutional neuralnetwork approach[J].IEEE Transactions on Neural Networks,1997,8(1):98113.
[10]TREVOR HASTIE,ROBERT TIBSHIRANI,J FRIEDMAN.The elements of statistical learning[M].New York:Springer,2001.
[11]Y LECUN,L BOUOU,Y BENGIO.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
[12]DAHL J V,KOCH K C,KLEINHANS E,et al.Convolutional networks and applications in vision[C].International Symposium on Circuits and Systems (ISCAS 2010),2010:253256.
[13]余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發展,2013(09):17991804.
[14]MAIRAL J,KONIUSZ P,HARCHAOUI Z,et al.Convolutional kernel networks[DB/OL].http:///pdf/1406.3332v2.pdf.
[15]Z世杰,楊東坡與劉金環,基于卷積神經網絡的商品圖像精細分類[J].山東科技大學學報:自然科學版,2014(6):9196.
[16]程文博等,基于卷積神經網絡的注塑制品短射缺陷識別[J].塑料工業,2015(7):3134,38.
[17]鄧柳,汪子杰,基于深度卷積神經網絡的車型識別研究[J].計算機應用研究,2016(4):14.
[18]T JONATAN,S MURPHY,Y LECUN,et al.Realtime continuous pose recovery of human hands using convolutional networks[J].ACM Transaction on Graphics,2014,33(5):3842.
[19]S SKITTANON,A C SURENARAN,J C PLATT,et al.Convolutional networks for speech detection[C].Interspeech.Lisbon,Portugal:ISCA,2004.
[20]HUBEL D H,WIESEL T N.Integrative action in the cat's lateral geniculate body[J].Journal of Physiology,1961,155(2):385398.
[21]JAKE BOUVRIE.Notes on convolutional neural networks[DB/OL].http:///5869/1/cnn_tutorial.pdf.
關鍵詞:卷積神經網絡;自動編碼器;非監督訓練;多尺度分塊;目標識別
中圖分類號:TP391.41文獻標志碼:A英文標題
0引言
對圖像中目標的精確和魯棒識別是模式識別及人工智能領域的核心內容,在道路監控、戰場偵察、精確打擊等領域中有著重要的作用和廣泛的前景。近年來,隨著深度神經網絡成為機器學習新的熱點,基于卷積神經網絡(Convolutional Neural Network,CNN)的圖像識別算法因其較強的魯棒性和突出的識別率被學術界和工業界所重視。
Alex等[1]提出基于大型深層CNN的自然圖像識別算法,在ImageNet數據集上取得了很高的識別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運算的方法在三維NORB數據集上取得了很好的識別效果。以上算法雖然都取得了較高的目標識別率,但是由于算法采用有監督的訓練方式,需要大量標簽數據對網絡權重進行調整,當數據量較小時會導致模型前幾層網絡無法得到充分訓練,故只能針對含標簽數據較多的大型數據集。針對此問題,目前主流的解決方法是采用特征提取算法對CNN的濾波器集進行非監督的預訓練。文獻[3]采用稀疏編碼提取訓練圖像的基函數作為CNN的初始濾波器;文獻[4]將獨立成分分析(Independent Component Analysis,ICA)應用于CNN的預訓練階段,利用ICA訓練濾波器集合,使識別率得到了一定提高。然而無論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應用于預訓練階段對算法識別率的提升也比較有限。所以如何更好地選擇濾波器的預訓練算法仍是十分困難的問題。
除了預訓練外,影響CNN識別率和魯棒性的關鍵參數還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對輸入圖像局部特征的提取情況,文獻[5]證明濾波器尺寸對最終識別結果有很大影響,并給出了單層條件下相對最優的濾波器尺寸。下采樣層主要負責對特征進行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴重,模糊后的特征保持的全局空間信息就越少。文獻[6]證明當采樣間隔較小時,即使經過2次卷積和2次最大下采樣(maxpooling),網絡輸出的激活值仍能重構出與原始輸入看似相同的圖案。然而下采樣間隔過小會導致不變性喪失,過大則會損失大量細節信息,兩者均會導致識別率的下降。
針對以上問題,本文提出基于多尺度分塊卷積神經網絡(MultiScale Convolutional Neural Network, MSCNN)的圖像目標識別算法。首先利用稀疏自動編碼器(Sparse AutoEncoder,SAE)對卷積神經網絡的濾波器進行非監督預訓練,通過最小化重構誤差獲得待識別圖像的隱層表示,進而學習得到含有訓練數據統計特性的濾波器集合,預訓練效果相比ICA更好。其次提出多尺度分塊的方法構建卷積神經網絡,為了增加魯棒性并減小下采樣對特征表示的影響,對輸入圖像進行多尺度分塊形成多個通路,并設計相應尺寸的濾波器進行卷積運算,將不同通路下采樣后的輸出進行融合從而形成新的特征,輸入softmax分類器完成圖像目標的識別。最后通過大量實驗對比MSCNN算法與經典算法在通用圖像識別任務中的識別率和魯棒性差異,從而驗證算法的有效性。
4仿真實驗及分析
本文使用STL10公開數據集以及從全色波段的QuiekBird遙感衛星和GoogleEarth軟件中截取的遙感飛機圖像數據集進行測試實驗,將所有圖片變為64×64像素的RGB圖。選擇STL10數據集的原因是因為其含有不包含標簽的訓練集,可用于本文的非監督預訓練算法,且圖像中包含更多類內變化。STL10共10類目標,本文選用其中的4類目標進行實驗。選擇遙感飛機圖像數據則是為了驗證本文算法在遙感圖像解譯方面的可用性。該數據集包含5類遙感飛機,共400幅。實驗時隨機選取遙感飛機圖像庫中50%的圖像作為訓練樣本,其余作為測試樣本。本文的實驗環境為CPU2.8GHz、內存3GB的計算機,實現算法的軟件為Matlab(2011a)。
4.1算法識別率對比測試
MSCNN的各通路尺寸參數設置如圖4所示,每個通道使用300個濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動編碼器預訓練得到。編碼器設定為3層,稀疏參數ρ設定為0.05,訓練周期為400。卷積神經網絡的下采樣方式采用最大下采樣(max pooling)。
按照上述參數設置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓練周期均為50。傳統CNN參數設定與通路1參數設定相同,同樣使用300個濾波器,濾波器初始值通過隨機初始化得到。輸出特征維度為2700。實驗結果如表1所示。
從表1可看出,加入LCN的CNN較未加入的CNN對兩種數據集的識別率有一定的提高,說明了加入LCN對目標識別率是有一定的貢獻的;在兩種數據集上MSCNN相比原始CNN都擁有更高的識別率。MSCNN通路1雖然參數設置與CNN相同,但在相同訓練周期下識別率較加入LCN的CNN又有一定提高,說明了非監督預訓練對識別率提高的有效性。對于STL10數據集,可看出通路2的識別率在3個通路中最高,通路3則最低,這是因為通路3輸入的圖像尺寸最小,而STL10類內變化很大且目標不全在圖像中心,故識別率有所下降。通路之間進行兩兩累加后識別率都有所提高,在3個通路共同作用時識別率最高,達到83.5%。對于遙感飛機圖像集而言,可看出3個通路中通路2的識別率最高,這是因為遙感飛機圖像集均為飛機圖像,不同類別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機類別。通路3由于輸入尺寸較小,識別率稍有下降。同樣的,不同通路之間的疊加都讓識別率有所提升,最終MSCNN三通路特征融合后的識別率達到了96.5%,完全滿足對于可見光遙感圖像目標識別的需求。
從表1還可看出,本文算法在3個通路CNN的情況下的識別率較1個通路或2個通路的CNN的識別率高,由此可以推斷3個通路CNN所提取的特征具有較強的泛化能力和魯棒性。此外3個通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。
4.2算法魯棒性實驗
為驗證MSCNN的魯棒性,在數據集中選取不同類別的圖像對其進行平移、尺度、旋轉變換,然后計算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據距離的大小可以衡量輸出特征對于目標變化的魯棒性,歐氏距離越小就說明特征對于目標變化越不敏感,魯棒性就越好。對于STL10選取四類目標進行實驗,對比算法為CNN;對于遙感飛機圖像集隨機選取10幅進行實驗,并取距離的平均值,對比算法為ICA和CNN。測試結果如圖6~7所示。
圖6中虛線表示傳統CNN算法得到的結果,實線則表示MSCNN得到的結果,從圖6可看出:無論是面對平移、尺度還是旋轉變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。
從圖7也可看出:本文算法對于遙感飛機圖像集的平移、尺度、旋轉均表現出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標圖像微小的變化就導致了特征較大的改變。本文算法魯棒性較好首先是因為MSCNN采用非監督的預訓練方式,訓練得到的濾波器含有更多圖像不變性特征;其次是因為MSCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對比度標準化,對于亮度變化較大和存在噪聲的目標圖像魯棒性明顯增強。
另外,本文算法采用了多通路多尺度分塊的方法,必然會使網絡參數增加,從而會使訓練時間比較耗時;但在測試階段,輸入樣本的計算僅包含一些簡單的卷積和下采樣,算法復雜度并沒有因為通道的增加而增加,因此在測試階段的實時性較傳統的CNN并沒有太大變化。
5結語
本文提出了MSCNN算法在卷積神經網絡的基礎上通過非監督預訓練濾波器的方法解決傳統卷積神經網絡前幾層無法得到有效訓練的問題。針對傳統神經網絡對于復雜背景圖像識別率不高的問題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時不至于喪失目標的細節信息,有效提升了識別率和魯棒性。與經典算法的對比實驗結果表明:該方法能夠有效識別可見光自然圖像和遙感圖像,并對平移、尺度和旋轉變換具有較強的魯棒性。
參考文獻:
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神經網絡與機器學習[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機械工業出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
由于在移動數碼設備(例如智能手機、掌上電腦、學習機等)以及平板電腦(Tablet PC)上的巨大應用價值,聯機手寫漢字
>> 聯機手寫漢字/詞組識別的研究及其應用 基于聯機手寫漢字字塊特征碼提取的研究 用VB實現聯機手寫漢字的筆劃端點提取 藏文聯機手寫識別的研究與實現索 基于多重卷積神經網絡的大模式聯機手寫文字識別 聯機手寫維文字符的預處理和特征提取方法 基于過拆分和合并的聯機手寫英文單詞分割技術 對脫機手寫相似漢字識別方法的研究 基于神經網絡的聯機手寫識別系統的研究和實現 立足細化處理解析脫機手寫漢字識別 BP神經網絡探析脫機手寫漢字識別 脫機手寫數字識別技術研究 一種改進的脫機手寫漢字四角特征粗分類方法 基于字型特征的手寫體漢字多分類識別的研究 脫機手寫體簽名識別的小波包隱馬爾可夫模型 基于GABP神經網絡的脫機手寫藏文識別方法 基于置信度分析的脫機手寫數字識別算法 手寫漢字識別系統的研究與應用 手寫數字識別的原理及應用 手寫漢字的特性與生命力 常見問題解答 當前所在位置:l,運行時需要Java Runtime Environment 1.5以上版本的支持),已經能較好地識別筆順無關的手寫體漢字。目前該系統還沒有加上虛擬筆劃等一些草書識別技術及先進的結合聯機及脫機識別引擎的多分類器集成技術,我們將來在適當時候會利用Java平臺實現這些技術并在該頁面上公布。
我們還構想了一個聯機手寫識別技術在計算機輔助漢字書寫學習中的嶄新應用――漢字聽寫學習,初步的原型網頁見218.192.168.156:8080/ call/dictation.asp,(該頁面同樣用Java平臺實現,運行時需要JRE支持)。 使用者可以進行在線漢字聽寫,然后系統利用聯機識別技術自動評判使用者書寫的字符是否正確,并給出反饋。該技術已經集成到我們正在設計的一個對外漢語書寫教學網站之中。近年來,隨著中國社會經濟建設的飛速發展,漢語教學在世界各地受到越來越多的重視,國外的漢語學習者日益增多,盡管目前國內外有不少漢語教學網站或軟件,但我們的學習系統利用低存儲量的活動漢字編碼技術及動態反走樣還原顯示技術、基于聯機識別的漢字聽寫技術以及漢字書寫質量評價技術,具有特色和創新。
六、結束語
我們認為,高自由度的草書識別及無約束的手寫詞組的識別是構造更自然、更快捷、更流暢的手寫輸入方式的核心技術,相信通過國內外同行的努力,在不遠的將來,手寫輸入法會變得更實用、更高效、更具競爭力;此外,手寫漢字/詞組識別技術在計算機教育、智能機器人等領域中還可帶來更多的創新應用。
關鍵詞:卷積神經網絡;人臉識別;大樣本;對抗生成網絡
中圖分類號:TP391 文獻標識碼:A 文章編號:2095-1302(2017)07-00-04
0 引 言
近幾年,基于大量訓練數據的卷積神經網絡(Convolutional Neural Networks,CNN)在目標檢測、目標識別、顯著性檢測、行為識別、人臉識別和對象分割等計算機視覺領域取得了舉世矚目的成果。這些令人鼓舞的成績主要歸功于以下幾點:
(1)將大量有標簽的數據作為訓練集,學習出具有百萬參數的模型,從而使卷積神經網絡能夠有效提取對象的本質特征;
(2)不斷改進性能優異的網絡結構,如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;
(3)各種并行計算硬件設備(如GPU)的支持,大大提高了CNN訓練模型的效率。其中,將標簽的大量數據作為訓練集起著至關重要的作用。
本文以人臉識別為例,討論和綜述多樣本算法的研究現狀和發展方向。
有效的特征是目標識別的關鍵,對人臉識別問題來說亦如此。傳統的主成分分析(Principal Component Analysis,PCA)[4,5],線性區分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不錯的成績。基于傳統特征的人臉識別受限于環境,此類特征作用在復雜或者背景多變的人臉圖像時,其識別性能往往大幅下降,如在LFW數據集上其識別率驟然下降[9]。
采用CNN作為特征提取模型,主要考慮到該模型的所有處理層,包括像素級別的輸入層,均可從數據中學習到可調節的參數。即CNN能自喲喲笫據中學習特征,無需人工設計特征。合理有效的特征需從大量數據和大量參數中自動學習獲取,從而達到優秀的識別性能。基于卷積神經網絡的世界領先方法均使用了上百萬的數據,其中最具有代表性的如VGG-Face網絡需要260萬個人臉圖像樣本進行訓練[10],Facebook的DeepFace網絡需要440萬個有標簽的人臉圖像樣本訓練[11]。而Google更使用了2億樣本數據來訓練FaceNet網絡[12]。
1 多樣本獲取現狀
如引言所述,有效合理的特征是目標識別的關鍵,而CNN能從大量有標簽的數據中自動學習圖像的本質特征。獲得圖像特征的關鍵因素是有標簽的大數據。因此許多研究的前提工作均聚焦在人工獲取數據和給數據加標簽方面。然而,獲取百萬級的數據并非易事。大數據獲取需要人工從網上下載、處理,然后給數據添加標簽,耗費大量的人力物力。雖然也有一些公開免費的數據集,且收集該類數據相對比較容易,如CASIA-WebFace[13],有49萬個圖像,但遠少于Facebook和Google的數據集。在這種情況下,缺乏大量樣本直接阻礙了深度學習方法的使用,成為阻礙提高檢測率和識別率的瓶頸。除了深度學習技術提取特征需要大量樣本外,已有研究證明[14-19],基于傳統方法的技術同樣需要大量樣本作為支撐。在這種形勢下,通過圖像處理與機器學習技術自動增加樣本集已成為必要手段。
無論基于傳統方法的識別問題,還是基于深度學習的識別問題,大量有標簽的數據作為訓練集在算法中起著舉足輕重的作用。如果樣本不足,算法往往過擬合,無法提高算法的性能。為了獲得更多樣本,一些研究工作從網絡上獲取數據,例如在IMDb上,已經把9萬有標簽的數據集擴大到了26萬 [10]。除此之外,Facebook獲取了440萬個有標簽的人臉進行DeepFace網絡訓練[11],而Google使用2億個數據訓練FaceNet網絡[12]。
目前獲取方法具有如下局限:
(1)現有方法耗時耗力,需要經費支持。獲取百萬級的數據并非易事。大數據獲取需要人工從網上下載、處理,然后給數據添加標簽,耗費大量的人力物力。這種情況下,只有像Facebook和Google這樣的大公司會收集大量有標簽的數據進行網絡訓練。而大多數情況下的數據收集涉及個人隱私與財力物力等問題,對于一般的小公司或科研院所而言,收集數據普遍難度較大。
(2)收集特殊圖片困難。對于一些特殊的圖像,如醫學圖像,遙感圖像,現實中數量本身就少,加之無法直接從網上獲取,因此小樣本很容易導致過擬合。
2 樣本集擴大算法研究現狀
2.1 基于傳統方法的多樣本算法研究現狀
對于傳統的樣本生成算法,如果數據集中有足夠的訓練樣本,均可得到比較滿意的識別結果,但在現實的人臉數據庫中,人臉的數據樣本卻是有限的。文獻[20]表明,增加圖像樣本的數量可以較大幅度提高識別的準確率。
為了增加樣本數量,提高識別準確率,科研工作者已做了大量工作。其中,借助原始樣本產生虛擬樣本是一種有效的增加數據集方法。這種方法大致分為如下幾類:
(1)通過人臉圖像的對稱性來得到原始樣本的虛擬樣本,如Xu[14,15]和Liu等[21]提出借助原始圖像的“對稱臉”和“鏡像臉”產生虛擬樣本,從而擴大數據集并提高人臉識別的正確率,Song[22]也提出相應的算法來改進人臉識別的性能;
(2)通過改變圖像的光照、姿勢和表情等來產生虛擬樣本,例如Boom等用一種稱為VIG的方法對未知光照情況進行建模[16],Abdolali[17]和Ho[18]等提出了類似的算法擴大數據集;
(3)基于人臉圖像自身的特征生成虛擬樣本,Ryu等根據原始樣本的分布來產生虛擬樣本[19],Liu等也根據圖像本身特性來產生虛擬樣本[23]。
(4)基于數學的多樣本產生方法,如Zhang等提出利用奇異值分解的方法獲得基于原始樣本的虛擬樣本[24]。借助圖像合成方法生成的新樣本如圖1所示。
圖1 借助圖像合成方法生成新樣本
除了借助圖像處理方法獲得原始樣本的新樣本外,還可以利用圖像合成算法獲取多樣本,本研究做了相關實驗,其結果如圖1所示。假設數據集中有c類人臉圖像,每類有ni個樣本,令表示第i類中的第j個樣本,這里i=1,2,…,c,j=1,2,…,ni,h和w分別代表樣本xij的高和寬(均為像素值)。用X=[X1,X2,…,Xc]代表所有樣本,則Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i類樣本。則有:
其中, P(Xi)代表所生成的第i類新樣本, f(g)表示圖像處理函數,代表多個樣本的串聯,即將多個樣本聯合起來得到一個類別的新樣本。
2.2 基于深度學習的多樣本生成算法研究現狀
大量有標簽的訓練數據是機器學習成功的關鍵,尤其對于強大的深度學習技術,大數據集能提高CNN的性能,防止過擬合[25]。為了擴充數據集,已有一些工作在不改變圖像語義的情況下進行,如水平鏡像[26]、不同尺度的剪裁[27,28]、旋轉[29]和光照變化[27]等傳統方法。
DeepID[30]采取了增大數據集手法來訓練網絡,只有大的數據集才能使得卷積神經網絡訓練得更加充分,該研究采用兩種方法增大數據集:
(1)選擇采集好的數據,即映入CelebFaces數據集。
(2)將原始數據集中的圖片多尺度、多通道、多區域的切分,然后分別進行訓練,再把得到的向量串聯起來,即得到最后的向量。
以上方法僅局限于相對簡單的圖像處理技術,該類方法生成的多樣本具有一定的局限性。比如,真正意義上的旋轉應按一定的角度進行3D旋轉,而不僅僅是圖像本身的角度旋轉。合成數據能一定程度上解決以上問題,如Shotton等通過隨機森林合成3D深度數據來估計人體姿勢,Jaderberg等使用合成數據來訓練CNN模型識別自然場景下的文字[31]。這些研究的結果均優于使用剪裁,旋轉等傳統方法。但使用3D合成圖像比較復雜,需要較多的前期工作。
近年來,借助生成對抗網絡(Generative Adversarial Networks,GANs)來生成原始樣本的方法吸引了很多學者。2014年6月,Goodfellow 等發表了論文《Generative Adversarial Nets》[32],文中詳盡介紹了GANs的原理、優點及其在圖像生成方面的應用,標志著GANs的誕生。早期的GANs模型存在許多問題,如GANs網絡不穩定,甚至有時該網絡永遠不會開始學習,生成的結果無法令人滿意。文獻[32]中生成器生成的圖片十分模糊,針對此問題,Denton等提出一個被稱為 LAPGANs的模型[33],該模型用多個卷積神經網絡連續生成圖像,這些新圖像的清晰度不斷提高,最終得到高分辨率圖像。GANs除了基于圖像生成圖像外,還可以通過文字生成圖像,如文獻[34]搭起了文本到圖像的橋梁,通過GANs將文本直接轉換成對的圖像。文獻[35]將GAN應用于超分辨率中,該文獻提出了全新的損失函數,使得 GANs 能對大幅降采樣后的圖像恢復其生動紋理和小顆粒細節。另外,Radford 等提出了名為DCGANs的網絡[36],該文獻指出,用大數據集訓練出的 GANs 能學習一整套層級的特征,并具有比其他無監督學習模型更好的效果。以上方法均為基于一大類原始樣本生成另一大類圖像。
基于GAN生成樣本的過程如圖2所示。首先將同類別的原始圖像輸入到生成對抗網絡GAN的生成器網絡G中,生成“假冒”圖像G1和G2,接著借助判別器D來判斷輸入的圖像是真實圖像還是“假冒”圖像。生成器G努力生成類似原始樣本的圖像,力爭判別器D難以區分真假;而判別器D應不斷提高自身性能,有能力鑒別出由生成器G生成的圖像為贗品。生成器G和判別器D的價值函數如下:
生成器G最小化log(1-D(G(z))),判別器D最大化logD(x),使得最大概率按照訓練樣本的標簽分類, 生成模型G隱式定義了一個概率分布Pg,希望Pg 收斂到數據真實分布Pdata。
圖2 GAN生成新樣本示意圖
3 結 語
綜上所述,基于原始樣本的多樣本生成算法是一個值得深入研究探索的問題,具備清晰而明確的理論意義和現實應用意義。雖然研究人員已經對相關問題進行了一些研究,取得了一系列成果,但是多樣本的產生方法缺乏全面、深入的理解,尚未出現具有里程碑意義的研究成果。具體而言,本文認為,基于原始樣本的多樣本生成問題需要在如下幾個方面展開深入的研究:
(1)在研究多樣本生成算法時,保留原始樣本的本質特征,如在人臉識別中,拋棄不必要信息(光照、表情和姿勢)的影響是一項十分有意義的工作。
(2)在合成新樣本時,設計合理有效的構造元素,使合成的新表示更接近自然亦是一個值得研究的方向。
(3)基于生成對抗網絡,研究某一類對象的生成新樣本的核心算法是一項有意義的工作。
參考文獻
[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.
[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.
[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.
[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.
[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.
[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.
[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.
[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.
[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.
[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.
[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.
[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.
[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.
[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.
[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.
[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.
[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.
[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.
[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.
[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.
[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.
[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.
[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.
[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.
[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.
[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.
[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.
[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.
[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.
[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.
[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.
[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.
[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.
[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.
AI從誕生到現在已經有60年的時間,期間經歷兩輪起落,呈階梯式進化,走到今天進入第三個黃金期。如果按照其智能科技水平劃分,今天的人工智能尚處在狹義智能向廣義智能進階的階段,還是一名不折不扣的“少年”,未來擁有無限的可能和巨大的上升空間。
AI是一門交叉的學科:人工智能由不同的技術領域組成,如機器學習、語言識別、圖像識別、自然語言處理等。而同時,它也是一門交叉學科,屬于自然科學和社會科學的交叉,涉及到哲學和認知科學、數學、神經生理學、心理學、計算機科學、信息論、控制論、不定性論等學科。人工智能領域的技術壁壘是比較高的,并且會涉及到多學科協作的問題,對任何公司來說,想做好人工智能將是一門大工程。未來不大可能出現一個公司能包攬整個人工智能產業每一個部分的工作,更可能的模式將是一個公司專注于一個相對細分的領域,通過模塊化協作的形式實現人工智能領域的不同應用。
進化史呈階梯狀,以階段突破式為成長模式:人工智能的發展經歷了兩次黃金和低谷期,
現在正經歷著第三個黃金期。1956年,麥卡賽、明斯基、羅切斯特和申農等年輕科學家在達特茅斯一起聚會,并首次提出了“人工智能”這一術語,標志著人工智能的誕生。第二年,由 Rosenblatt 提出 Perceptron 感知機,標志著第一款神經網絡誕生。1970年,因為計算能力沒能突破完成大規模數據訓練,人工智能的第一個黃金期到此結束。
后直到1982年德普霍爾德神經網絡的提出,人工智能進入第二個黃金期,之后BP算法的出現使大規模神經網絡訓練成為可能,人工智能的發展又一次進入。1990年,因為人工智能計算機和DARPA沒能實現,政府撤資,人工智能又一次進入低估。2006年,隨著“深度學習”神經網絡取得突破性進展,人工智能又一次進入黃金時期。
AI將由狹義智能向廣義智能進化,雖然人工智能的誕生已經有60年的時間但如果把它比喻成一個人的話,當前的他應該還未成年。按照人工智能的“智能”程度,可以將其分成狹義智能、廣義智能、超級智能三個大的發展階段,現階段的圖像與語音識別水平標志著人類已經基本實現狹義智能,正在向廣義智能的階段邁進。
狹義智能:即當前的技術已經實現的智能水平,包括計算智能與感知智能兩個子階段,計算智能指的機器開始具備計算與傳遞信息的功能,感知智能指機器開始具備“眼睛”和“耳朵”,即具備圖像識別與語音識別的能力,并能以此為判斷采取一些行動。
廣義智能:指的是機器開始具備認知能力,能像人類一樣獲取信息后主動思考并主動采取行動。在這個階段,機器可以全面輔助或代替人類工作。
超級智能:這個階段的機器幾乎在所有領域都比人類聰明,包括科學創新、通識和社交技能等。這個階段目前離我們還比較遙遠,到時候人類的文明進步和跨越或許將有賴于機器,而機器人意識的倫理問題也許將在這個階段成為主要問題。
推薦引擎及協同過濾可以分析更多的數據
智能助手并不只局限于Siri等手機語音助手。微軟率先在win10 系統中加入個人智能助理Cortana,標志著個人PC端智能助理的出現;圖靈機器人以云服務的方式進入海爾智能家居、博世mySPIN車載系統,預示著多場景人工智能解決方案的潮流。初步實現人機交互的智能助手系統,已經被應用于智能客服、聊天機器人、家用機器人、微信管理平臺、車載系統、智能家居系統、智能手機助理等多個軟硬件領域。
垂直類網站及社交平臺可以借助智能助手系統打造高專業度的“在線專家”以提升平臺價值;企業可以借助以“語義識別”為基礎的智能助手系統,打造智能客服,效率遠高于傳統的以“關鍵詞對應”為技術支持的客服系統。
推薦引擎,是主動發現用戶當前或潛在需求,并主動推送信息給用戶的信息網絡。挖掘用戶的喜好和需求,主動向用戶推薦其感興趣或者需要的對象。傳統推薦引擎通常利用用戶在平臺上的歷史記錄進行推薦,效率低、匹配度不高。目前隨著大數據和深度學習技術的推進,推薦引擎及協同過濾可以分析更多的數據,乃至全網數據,并模擬用戶的需求,真正達到按需推薦。全球最大的正版流媒體音樂服務平臺Spotify也利用卷積神經網絡參與建設其音樂推薦引擎;谷歌也提出利用深度學習方法來學習標簽進行推薦建設。出品紙牌屋的全球最大在線影片租賃公司Netflix 也利用深度學習網絡分析客戶消費的大數據,還計劃構建一個在AWS云上的以GPU為基礎的神經網絡。
“餐廳推薦引擎”Nara,便是一個利用AI技術的推薦引擎。在上線之初,Nara 就取得了400萬美元的投資。Nara 的數據庫中有超過100000家餐廳的信息,并利用特有的“Nara神經網絡”,學習使用者的偏好,最終達到“電腦幫你點餐”的目的。
而今年3月22日,國內AI領軍企業阿里巴巴旗下的阿里云數加啟動“個性化推薦”引擎對外公測,該引擎用于幫助創業者可以快速獲得媲美淘寶天貓的個性化服務能力。阿里云數加上的推薦引擎能夠以更低的成本完成開發,節省程序量達到90%,推薦引擎的搭建時間將由幾個月縮短到幾天。
對于不了解算法的人,只能實現標簽規則類的推薦,但如果要做成機械化、類似協同過濾的算法,創業公司需要配置大量的算法工程師,人力成本很高。現在用了數加的推薦引擎,商家只需要做數據的ETL加工,推薦的結果集、訓練集都不用處理,只需要調整參加即可得到推薦結果。
AI帶給人們新的視覺???
醫療:為健康診斷和藥品研發插上高飛的翅膀
健康診斷有望迎來新紀元,海量的病歷數據和醫學界的新研究成果,單靠人工很難及時篩選并利用,而引入人工智能技術將充分發揮這些信息的價值。例如著名的個人健康管理產品公司Welltok將 IBM的Watson功能融入旗下產品 CafeWell Concierge APP中,借助 Watson 的認知計算能力理解人類語言,實現與用戶溝通的能力,從大量數據中進行分析并為用戶提供健康管理相關的答案和建議,實現健康管理、慢病恢復訓練、健康食譜等功能,這一領域的良好前景使 Wellltok公司近年的融資額連創新高。另外,2015年IBM斥資10億美元收購醫療影像與臨床系統提供商Merge,將研究如何實現 Watson的“辨讀”醫學影像功能。此外,AI 還可以從醫療中心獲得的健康數據,通過大數據分析,實現根據分析患者行為來制定個性化治療方案的功能。
智能家居:天花板尚遠,AI有望成為核心
行業天花板尚遠,增速有望保持在 50%左右, 《鋼鐵俠》中的“Jarvis”作為智能管家,除了起到鋼鐵俠的小秘書的作用,還幫主人打理著日常生活,向我們展示了一個理想中的智能家居系統。雖然我們目前可能離那個無所不能的智能管家還很遙遠,但智能家居對我們生活的變革確實已經開始了。根據《2012-2020 年中國智能家居市場發展趨勢及投資機會分析報告》的預測,我國智能家居市場在 2016年將達到605.7億的規模,同比增長50.15%,到2020年市場規模將達到3294億,年均增速將保持在50%左右,具備充足的向上延伸空間。而智能家居想達到“Jarvis”般的終極效果,必然需要引入AI技術,實現家居的感應式控制甚至自我學習能力。
AI有望成為智能家居的核心,實現家居自我學習與控制。按照智能家居的發展進度,大致可以分為四個階段:手機控制、多控制結合、感應式控制、系統自我學習。當前的發展水平還處在手機控制向多控制結合的過度階段。而從多控制結合向感應式控制甚至自我學習階段進化時,AI將發揮主要功能。到今天為止,家居的實體功能已經較為全面,未來的發展重點可能在于如何使之升級改造,實現家居的自我行為及協作,因此未來AI在智能家居領域的應用有望成為其核心價值。AI對智能家居的重構可以深入到方方面面,包括:控制主機、照明系統、影音系統、環境監控、防盜監控、門窗控制、能源管理、空調系統、花草澆灌、寵物看管等等。
無人駕駛:政策漸萌芽,AI決定可靠性
優點多、動機足、政策漸萌芽。據麥肯錫的調查顯示,如果能解放駕駛員的雙手,一輛無人駕駛汽車內的乘客通過移動互聯網使用數字媒體服務的時間多一分鐘,每年全球數字媒體業務產生的利潤將增加 50億歐元。此外,由于自動泊車無須為乘客下車預留開門空間,使得停車位空間可縮減至少15%。
如果無人駕駛汽車以及ADAS系統能夠將事故發生率降低90%,即可挽回全美每年的損失約1千900億美金。可以說諸多的優點使得無人駕駛技術的研發動機還是相當充分的,因此未來無人駕駛推行的力度應該還會保持在一個比較高的水平。美國勒克斯研究公司曾預計無人駕駛汽車的市場規模在2030年將達到870億美元。
到目前為止,各國政府對于無人駕駛技術在政策上的支持正逐步放開,美國政府在年初剛剛宣布了40億美元的資助計劃;英國目前已經不需要獲得額外批準和履約保證即可進行實際道路的無人駕駛汽車測試;而德國也在去年宣布將計劃設立無人駕駛汽車測試路段,供安裝有駕駛輔助系統或全自動駕駛系統車輛行駛;歐盟總部正在就如何修改現行有關駕駛的法律法規從而支持自動駕駛的發展展開討論和研究工作;日本也提出要在2020年之前實現自動駕駛汽車方面的立法,并將自動駕駛作為 2016年9月七國集團交通部長會議的議題。
“無人汽車大腦”AI的智能程度決定了無人駕駛的可靠性。由于無人駕駛完全交由汽車的內置程序負責,因此AI就是無人汽車的大腦,而測距儀、雷達、傳感器、GPS等。設備都是AI的“眼睛”。AI的智能程度直接決定了無人駕駛汽車在不同的路況、不同的天氣、甚至一些探測設備出現故障的突況下能否及時做出正確的判斷并靈活調整行駛策略,最終決定了無人駕駛汽車當前最亟待突破的可靠性。
NVIDIA 在2016年的 CES大會上了“Drive PX 2”車載計算機,以及一套與之搭配的具有學習功能的自動駕駛系統。該系統的亮點在于“自我學習”,通過讓車輛自行分析路面狀況,而不是在數據庫中尋找預先儲存的策略實現自動駕駛,系統背后連接著名為NVIDIA DIGITS的深度學習訓練平臺,最終連接到NVIDIA DRIVENET神經網絡,為車輛的自我學習和完善提供支持。并且由于它是通過判斷物體的行進軌跡而不是物體本身去計算路徑,因此在駕駛時受天氣影響較小。
AI 成必爭之地
目前全球AI主戰場依舊在歐美。Venture Scanner的統計顯示,根據從事 AI相關業務的公司數量來看,目前全球 AI的主戰場還是集中在北美和西歐地區。美國數量最多,達到450家左右的水平。而中國從事相關業務的公司數量還比較少,和俄羅斯、澳洲、部分歐洲國家及非洲南部國家水平接近,相比起歐美國家的AI公司數量,還有很大的提高空間。
Google:投資未來的人工智能帝國
建立Alphabet帝國,具備品牌背書效應。2015年,谷歌成立母公司 Alphabet, 搜索、廣告、地圖、App、Youtube、安卓以及與之相關的技術基礎部門”仍屬于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都將獨立出來,成為 Alphabet 旗下的獨立公司。通過建立 Alphabet集團,谷歌將不同業務的研發獨立出來,以子公司的形式進行業務開展,保留在Google這個品牌下的基本都是原有的傳統強勢業務。
而其它公司負責在各自的領域“打頭陣”,一旦業務研發成功,母公司連帶著google這個品牌都可以受益,而如果研發失敗,也不會公司的品牌造成多大的不良影響,建立了良好的品牌背書效應。將機器學習技術應用到所有產品之中,我們不難發現,谷歌近年幾乎將人工智能滲透到了旗下的各類產品中,可謂是全線鋪開。正應了谷歌 CEO的那句話:“我們將小心謹慎地將機器學習技術應用到我們所有的產品之中。”根據當前Alphabet 的集團架構,我們將涉及到AI應用的子公司情況以及相應的業務開展情況羅列如下:
Nest:從事智能家居生態系統建設。2014 年谷歌以32億美元收購 Nest。Nest 生產智能恒溫器,它能夠學習用戶的行為習慣,并且根據他們的喜好去調節溫度。同時,Nest 也提供火警探測器和家庭安全攝像頭等智能家居。
Google X:谷歌各類創新技術的“孵化池”。Google X開展的與AI有關的項目有:無人駕駛汽車、Project Wing 無人機送貨項目、對抗帕金森氏癥的 Liftware“反抖”湯匙、用于疾病預警和健康監控的可穿戴設備、Project Titan 太陽能無人機項目、以及 Replicant 團隊負責的機器人項目等。
Verily:從事生命科學業務,即原來的 Google Life Science。代表產品有可以收集佩戴者體溫和血液酒精含量等生物數據的智能隱形眼鏡,以及監控血液中納米粒子的智能腕表。
DeepMind:深度學習算法公司。2014年谷歌以4億美元收購了DeepMind。
DeepMind的算法源于兩種機器學習方法的結合:第一種是深度學習,是受人腦啟發的一種結構。深度學習系統能夠從大量的非結構數據中獲取復雜信息。第二種是增強學習,靈感源自動物大腦中的神經遞質多巴胺獎勵系統,算法不斷通過試錯來進行學習。目前,DeepMind在深度學習上面的研究成果已經開始用在谷歌的機器人項目中。