前言:本站為你精心整理了醫(yī)學(xué)決策樹技術(shù)的作用范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。
1概念與特點(diǎn)
1.1概念
決策樹方法(decisiontree)是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過程。具體講是利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個(gè)節(jié)點(diǎn),再根據(jù)該屬性字段的不同取值建立樹的分支,在每個(gè)分支子集中重復(fù)建立樹的下層節(jié)點(diǎn)和分支的過程[1]。也可以從幾何意義上直觀理解:將訓(xùn)練樣本集中的每一個(gè)數(shù)據(jù)看成是n維空間上的一個(gè)點(diǎn),決策樹的分支就是按照一定規(guī)則完成對(duì)n維空間的區(qū)域劃分。當(dāng)決策樹建好,n維空間便分成了若干個(gè)小區(qū)域,由于n維空間不直觀,不易理解,便以樹形結(jié)構(gòu)展現(xiàn)[2]。
1.2特點(diǎn)
決策樹學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的范疇,是一種類似于判別分析的有監(jiān)督的學(xué)習(xí)方法。從統(tǒng)計(jì)角度看,與假定數(shù)據(jù)源呈一固定概率分布,然后進(jìn)行參數(shù)估計(jì)的常規(guī)分類方法相比,決策樹屬于嚴(yán)格“非參”方法,對(duì)于輸入數(shù)據(jù)高維屬性和分類標(biāo)識(shí)具有更好的彈性和穩(wěn)健性。決策樹對(duì)于問題的分類是基于邏輯,而不是像傳統(tǒng)統(tǒng)計(jì)分類模型一樣基于樣本的統(tǒng)計(jì)屬性。決策樹分類耗時(shí)短,占用計(jì)算機(jī)資源少,效率高。分類結(jié)果簡(jiǎn)單、明確、結(jié)構(gòu)直觀,適用于較大規(guī)模的數(shù)據(jù)集研究。與神經(jīng)網(wǎng)絡(luò)和貝葉斯分類相比,決策樹更容易理解,能處理缺失值,同時(shí)處理有數(shù)值型、兩分類和多分類,有序型變量的數(shù)據(jù),能清楚顯示對(duì)分類或預(yù)測(cè)有意義的變量,并可生成一些規(guī)則(從根節(jié)點(diǎn)到每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的路徑就是“規(guī)則”)為決策提供依據(jù)[3~8]。
2歷史與發(fā)展
決策樹是迄今為止發(fā)展最為成熟的一種概念學(xué)習(xí)方法。它最早產(chǎn)生于20世紀(jì)60年代,是由Hunt等人研究人類概念建模時(shí)建立的學(xué)習(xí)系統(tǒng)(CLS,ConceptLearningSystem)。到70年代末,J.RossQuinlan提出ID3算法,當(dāng)時(shí)他目的在于減少樹的深度,卻忽略了葉子數(shù)目的研究。1975年和1984年,分別有人提出CHAID(Chi-squaredAutomaticInteractionDetection)和CART(ClassificationandRegressionTree,亦稱BFOS)算法。1986年,J.C.Schlimmer提出ID4算法。1988年,P.E.Utgoff提出ID5R算法。1993年,Quinlan本人以ID3算法為基礎(chǔ)研究出C4.5/C5.0算法,新算法在對(duì)預(yù)測(cè)變量的缺失值處理、剪枝技術(shù)、派生規(guī)則等方面作了較大改進(jìn),C5.0是C4.5的商業(yè)改進(jìn)版,與see5相對(duì)應(yīng)[2,9~10]。
3種類與算法
3.1種類
按照不同的標(biāo)準(zhǔn),決策樹可以劃分為不同的種類。①按照分類精確度和樹復(fù)雜程度的大小,分為單個(gè)決策樹和多個(gè)決策樹,多個(gè)決策樹是由單個(gè)決策樹合并得到。②根據(jù)分割內(nèi)部節(jié)點(diǎn)時(shí)使用統(tǒng)一的還是不同的算法,分為單一決策樹和復(fù)合決策樹。其中,單一決策樹又可分為單變量(特征)決策樹和多變量決策樹,前者在樹中每一內(nèi)部節(jié)點(diǎn)處由數(shù)據(jù)的單一屬性決定樹的分支,后者在內(nèi)部節(jié)點(diǎn)處由通過數(shù)學(xué)或邏輯算子將某些屬性組合起來的新屬性決定樹的分支;復(fù)合決策樹中常用的算法有決策樹算法、線性判別函數(shù)和K最臨近分類器。③根據(jù)每一樹葉子節(jié)點(diǎn)內(nèi)是否只含有相同類別的對(duì)象,可分為確定性決策樹和非確定性決策樹。④根據(jù)分類或預(yù)測(cè)變量的特征,分為分類樹和回歸樹,分類樹是對(duì)離散變量做決策樹,回歸樹是對(duì)連續(xù)變量做決策樹[3~10]。
3.2算法
決策樹技術(shù)中有多種算法,最為有影響的是Quinlan以信息熵的減少作為選取分裂屬性標(biāo)準(zhǔn)的ID3算法。該算法基本原理中引入了信息論的概念,簡(jiǎn)要介紹如下。假設(shè)訓(xùn)練實(shí)例集為X,目標(biāo)分類為n。設(shè)屬于第i類的訓(xùn)練實(shí)例個(gè)數(shù)為Ci,X中總的訓(xùn)練實(shí)例個(gè)數(shù)為X,若選擇屬性a進(jìn)行測(cè)試,在得知a=aj的情況下屬于第i類的實(shí)例個(gè)數(shù)為Cij個(gè),則P(Ci;a=aj)=CijX為在測(cè)試屬性a的取值為aj時(shí)它屬于第i類的概率。此時(shí)決策樹對(duì)分類的不確定程度,即訓(xùn)練實(shí)例集對(duì)屬性a的條件熵是H(Xj)=-∑ip(Ci/a=aj)logp(a=aj),決策樹的學(xué)習(xí)就是使得對(duì)劃分的不確定程度逐漸減少。又因?yàn)樵谶x擇屬性a后伸出的每個(gè)a=aj葉結(jié)點(diǎn)Xj對(duì)于分類信息的信息熵為H(X/a)=∑jp(a=aj)H(Xj),所以屬性a對(duì)于分類提供的信息量即信息增益為I(X;a)為:I(X;a)=H(X)-H(X/a)。C4.5算法建立決策樹時(shí)就是選擇信息增益最大的屬性作為分裂屬性[11]。盡管決策樹算法很多,但各有優(yōu)勢(shì)與不足。從事機(jī)器學(xué)習(xí)的專家學(xué)者一直在潛心改進(jìn)現(xiàn)有算法并研究新算法,改進(jìn)的著眼點(diǎn)主要圍繞提高樹的分類精度、減少樹的大小、降低復(fù)雜性等幾個(gè)方面。僅就ID3算法而言,就有二叉樹判定算法、按信息比值進(jìn)行估計(jì)、按分類信息估值、按劃分距離估值、基于ID3的ID3-MAX、ID3-SD算法等幾種改進(jìn)[11]。此外,還有其它基于粗集的改進(jìn)、基于深度優(yōu)先搜索的改進(jìn)、分類規(guī)則簡(jiǎn)化生成算法、加權(quán)模糊熵算法[6~8,12]等。
4核心問題與應(yīng)用條件
4.1核心問題
決策樹算法圍繞的核心是決策樹的生長(zhǎng)和剪枝。生長(zhǎng),就是利用訓(xùn)練樣本集完成決策樹建立的過程;剪枝,就是利用檢驗(yàn)樣本集對(duì)形成的決策樹進(jìn)行優(yōu)化處理,防止發(fā)生擬合過度的過程。剪枝方法主要包括預(yù)剪枝和后剪枝。預(yù)剪枝意為事先定好決策樹的大小從而阻止其自由生長(zhǎng),停止準(zhǔn)則常基于統(tǒng)計(jì)意義下的χ2檢驗(yàn)或信息增益等度量,預(yù)剪枝計(jì)算量較少,但難以精確估計(jì)何時(shí)應(yīng)該停止樹的生長(zhǎng)。后剪枝意為讓決策樹充分生長(zhǎng)之后然后用所選的精度準(zhǔn)則回頭去除擬合過度的分支,主要分為減少分類錯(cuò)誤修剪、最小描述長(zhǎng)度修剪和最小代價(jià)-復(fù)雜性修剪等方法。后修剪通常能產(chǎn)生更可靠的樹,因此在實(shí)踐中應(yīng)用更多一些。
4.2應(yīng)用條件
決策樹算法很多,可實(shí)現(xiàn)的軟件也很多,常被應(yīng)用的軟件有SAS/EM、CART、See5-demo、KnowledgeSEEKER、KnowledgeSTUDIO、BusinessMiner、Decisionseries等。現(xiàn)以決策樹較為常用的CART、CHAID、C4.5三種算法為例,說明它們?cè)赟AS/EM(SAS軟件EnterpriseMiner)中各自的應(yīng)用條件及選擇分裂屬性的標(biāo)準(zhǔn)。
4.2.1CART算法軟件中輸入變量(即自變量)的類型可以為名義型、數(shù)值型,如果是有序型,則可當(dāng)作數(shù)值型變量處理。目標(biāo)變量(即應(yīng)變量)可以為兩分類、多分類、數(shù)值型和有序型變量。不同的目標(biāo)變量采用不同的分裂標(biāo)準(zhǔn)(splittingcriterion),兩分類目標(biāo)變量采用基尼系數(shù)(GiniCoefficient)、twoing和orderedtowing標(biāo)準(zhǔn),其中后兩個(gè)分裂標(biāo)準(zhǔn)使用頻率不高;多分類變量采用基尼系數(shù)和twoing兩個(gè)標(biāo)準(zhǔn);數(shù)值型目標(biāo)變量采用方差減少量或最少絕對(duì)差減少量標(biāo)準(zhǔn);有序型目標(biāo)變量采用的分裂標(biāo)準(zhǔn)為orderedtowing。
4.2.2CHAID算法輸入變量的類型可以為名義型、有序型,因?yàn)檫x擇分裂變量的算法不針對(duì)數(shù)值型變量,所以遇到數(shù)值型輸入變量需先將其分段后再進(jìn)入軟件參與分析。目標(biāo)變量可以為名義型或數(shù)值型,名義型和數(shù)值型變量選擇分裂變量的標(biāo)準(zhǔn)分別是基于和卡方F分布的P值,決策樹在構(gòu)建過程中的停止均以卡方或F分布統(tǒng)計(jì)顯著性為準(zhǔn)。
4.2.3C4.5算法輸入變量的類型可以為兩分類、多分類名義型和數(shù)值型變量,目標(biāo)變量可針對(duì)兩分類或多分類名義型變量,分裂標(biāo)準(zhǔn)可選取信息熵(entropy)、信息增益(informationgain)或信息增益比(gainratio)。
5醫(yī)學(xué)領(lǐng)域中應(yīng)用
在國(guó)外,決策樹應(yīng)用領(lǐng)域較為廣泛,其在商業(yè)、工業(yè)、農(nóng)業(yè)、天文、醫(yī)學(xué)、風(fēng)險(xiǎn)分析、社會(huì)科學(xué)和分類學(xué)等領(lǐng)域中的應(yīng)用已經(jīng)取得了很好的經(jīng)濟(jì)和社會(huì)效益。國(guó)內(nèi)目前有關(guān)決策樹的研究多是圍繞算法的改進(jìn)以及決策樹在商業(yè)、工業(yè)等領(lǐng)域的運(yùn)用,在醫(yī)學(xué)領(lǐng)域應(yīng)用較少。現(xiàn)將決策樹在國(guó)內(nèi)外醫(yī)學(xué)中的應(yīng)用情況集中概括為以下幾個(gè)方面:
5.1疾病診斷治療
臨床醫(yī)生為病人做出醫(yī)療診斷可以看作是一個(gè)分類的過程:醫(yī)生根據(jù)他的知識(shí)和經(jīng)驗(yàn)將病人分類到一個(gè)特定的疾病群中。決策樹產(chǎn)生的結(jié)果簡(jiǎn)潔明了,易于理解,并能提取相應(yīng)的診斷規(guī)則,其應(yīng)用于疾病的分類診斷往往可以提高診斷正確率,并為經(jīng)驗(yàn)較少的臨床醫(yī)師提供幫助,因而得到了廣泛的應(yīng)用。ErnaKentala等人曾從赫爾辛基大學(xué)附屬醫(yī)院的鼻神經(jīng)專家系統(tǒng)數(shù)據(jù)庫ONE中提取前庭區(qū)與暈頭有關(guān)的6種發(fā)病人數(shù)較多的疾病資料,分別為6種疾病建立不同規(guī)模的決策樹,并針對(duì)6棵樹單獨(dú)分析影響每一種疾病發(fā)生的重要因素,而且從決策樹中提取診斷規(guī)則,從而將專家經(jīng)驗(yàn)知識(shí)轉(zhuǎn)化成了可供年輕醫(yī)師隨時(shí)參考的有價(jià)值的信息[13]。決策樹在臨床醫(yī)學(xué)中應(yīng)用范圍較廣,除了可以對(duì)疾病分類以外,還可以對(duì)疾病程度分級(jí),篩選危險(xiǎn)因素、決定開藥處方大小以及選擇治療方法等[14~20]。
5.2基因與高分子序列分析
隨著人類基因組計(jì)劃的進(jìn)行,目前已獲得數(shù)十億的核苷酸和上百萬的氨基酸數(shù)據(jù),如何對(duì)基因進(jìn)行功能分類已成為基因研究人員非常關(guān)心的問題。而關(guān)于高分子序列,大約4000種蛋白質(zhì)已經(jīng)被排序,但只有10%的蛋白質(zhì)的三維結(jié)構(gòu)被研究過,三維結(jié)構(gòu)基本決定蛋白質(zhì)的功能,所以需要有一種可靠方法從氨基酸序列中預(yù)測(cè)出它的功能結(jié)構(gòu),數(shù)據(jù)挖掘中的決策樹技術(shù)可以滿足上述需求。有人利用決策樹對(duì)已知功能分類的基因建立分類樹,歸納出蘊(yùn)含在數(shù)據(jù)中關(guān)于分類的信息并提煉成規(guī)則,從而實(shí)現(xiàn)對(duì)未知功能分類的基因進(jìn)行分類預(yù)測(cè)[21]。DakeWang等人則利用決策樹對(duì)已知功能分類的蛋白質(zhì)序列進(jìn)行研究,建立了已知功能分類的蛋白質(zhì)序列決策樹模型,實(shí)現(xiàn)了模型對(duì)未知功能分類的蛋白質(zhì)序列功能的預(yù)測(cè)。結(jié)果表明決策樹方法比傳統(tǒng)方法有效[22]。
5.3醫(yī)院信息系統(tǒng)挖掘
醫(yī)院HIS(HospitalInformationSystem)系統(tǒng)包括管理信息系統(tǒng)(ManagementInformationSystem,MIS)和臨床信息系統(tǒng)(ClinicalInformationSystem,CIS)兩部分。目前的HIS可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢和統(tǒng)計(jì)功能,但在決策支持方面存在明顯不足,難以發(fā)揮其潛力。而將數(shù)據(jù)挖掘決策樹技術(shù)運(yùn)用到該系統(tǒng)之后,可以從中提取大量隱含的、事先未知的、對(duì)決策有潛在價(jià)值的信息,為管理決策和臨床決策提供支持。決策樹在HIS系統(tǒng)的主要用途可以表現(xiàn)為醫(yī)療需求預(yù)測(cè)、醫(yī)療市場(chǎng)分析、預(yù)測(cè)未來某段時(shí)間內(nèi)常發(fā)生的疾病種類、未來某段時(shí)間內(nèi)的藥品使用頻率、分析疾病之間的關(guān)系以及疾病的影響因素、總結(jié)各種治療方案的治療效果等[23]。
5.4醫(yī)療政策分析
一個(gè)國(guó)家國(guó)民的健康保障在很大程度上依賴于其完備的醫(yī)療衛(wèi)生政策,政策的制定離不開理論的分析與方法的探討,離不開已積累的與人群健康狀況相關(guān)的各種數(shù)據(jù)。從目前積累的各型數(shù)據(jù)庫來看,利用知識(shí)管理優(yōu)化庫信息并從中提取知識(shí)結(jié)構(gòu)為政策分析提供依據(jù)已經(jīng)成為衛(wèi)生管理人員和信息開發(fā)人員的共同任務(wù)。研究人員多次嘗試將數(shù)據(jù)挖掘中的決策樹技術(shù)在此進(jìn)行應(yīng)用。韓國(guó)的YoungMoonChae與SeungHeeHo等人便利用以監(jiān)測(cè)衛(wèi)生狀態(tài)和開發(fā)國(guó)民健康促進(jìn)程序?yàn)樘卣鞯捻n國(guó)醫(yī)療保險(xiǎn)公司數(shù)據(jù)庫,成功地將決策樹應(yīng)用于人群健康狀態(tài)評(píng)估以及為高血壓管理提供政策信息[24]。
5.5醫(yī)療衛(wèi)生保健
衛(wèi)生保健是衛(wèi)生領(lǐng)域內(nèi)的一個(gè)重要內(nèi)容,保健的需求與利用評(píng)價(jià)、不同保健方式的選擇以及保健的經(jīng)濟(jì)和社會(huì)效益評(píng)價(jià)一直是衛(wèi)生保健人員關(guān)心的問題。利用決策樹方法可以解決諸如家庭護(hù)理保健的需求分析、兒童預(yù)防保健的干預(yù)、為不同的衛(wèi)生保健群體提供實(shí)際可行的決策支持系統(tǒng)等一系列問題,為保健政策的制定與實(shí)施提供了相應(yīng)的基礎(chǔ)[25]。
5.6醫(yī)療資源利用評(píng)價(jià)
盡管當(dāng)今社會(huì)醫(yī)療科技手段日新月異,醫(yī)療技術(shù)水平不斷提高,但并不表明醫(yī)療衛(wèi)生資源的極大豐富。醫(yī)療資源合理分配、恰當(dāng)運(yùn)用仍是醫(yī)學(xué)研究中不可忽略的重要問題。把決策樹技術(shù)引入對(duì)有潛在急癥的病人是否進(jìn)行預(yù)檢查而導(dǎo)致醫(yī)療資源占用情況不同的比較其成功地顯示出決策樹在處理此類問題的重要意義[26]。
隨著數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,決策樹算法的不斷改進(jìn)與完善,決策樹可實(shí)現(xiàn)軟件的普及推廣,決策樹處理醫(yī)學(xué)資料功能的日顯強(qiáng)大,相信決策樹方法在醫(yī)學(xué)領(lǐng)域與管理決策中的應(yīng)用范圍將會(huì)越來越廣泛,帶來的經(jīng)濟(jì)和社會(huì)效益將會(huì)更多更可觀,必將顯示出重要的實(shí)用價(jià)值和廣闊的發(fā)展前景。
醫(yī)學(xué) 醫(yī)學(xué)護(hù)理 醫(yī)學(xué)職稱 醫(yī)學(xué)期刊 醫(yī)學(xué)管理 醫(yī)學(xué)思政教育 醫(yī)學(xué)人文精神案例 醫(yī)學(xué)教育 醫(yī)學(xué)文獻(xiàn)論文 醫(yī)學(xué)心理學(xué) 紀(jì)律教育問題 新時(shí)代教育價(jià)值觀
統(tǒng)計(jì)源期刊 審核時(shí)間1-3個(gè)月
中華人民共和國(guó)國(guó)家衛(wèi)生健康委員會(huì)