前言:本站為你精心整理了基于隨機數(shù)的概率統(tǒng)計教學實踐探索范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
【摘要】在大數(shù)據(jù)時代背景下,概率統(tǒng)計已成為數(shù)據(jù)科學的重要入門課程,為加強其概念和方法的理解,利用R語言生成特定分布的隨機數(shù),并進行參數(shù)估計和假設檢驗,將抽象的概念、方法進行直觀展示,有助于激發(fā)學生的學習興趣,培養(yǎng)學生處理數(shù)據(jù)的能力,實現(xiàn)理論與實踐相結合的課程教學目標和應用型人才的培養(yǎng)目標。
【關鍵詞】概率統(tǒng)計;數(shù)據(jù)科學;R語言;隨機數(shù);假設檢驗
0引言
黨的四中全會將數(shù)據(jù)作為一種新型生產(chǎn)要素寫入中央文件中,體現(xiàn)了互聯(lián)網(wǎng)大數(shù)據(jù)時代的新特征。概率統(tǒng)計是理工科院校一門重要的基礎理論課程,也是進行大數(shù)據(jù)處理的入門課程。生成特定分布的隨機數(shù)并對其進行可視化分析,可使學生直觀理解概率統(tǒng)計的基本概念與原理,掌握數(shù)據(jù)處理和統(tǒng)計分析的過程。R語言因其具有免費、易安裝、資源豐富、代碼簡單、擅長數(shù)據(jù)分析與可視化等優(yōu)點,非常適合在概率統(tǒng)計課程中進行案例教學和直觀演示[1]。本文結合長期的教學和實踐經(jīng)驗,探索使用R語言生成隨機數(shù)并進行參數(shù)估計和假設檢驗的教學研究。
1隨機數(shù)的生成與參數(shù)估計
隨機數(shù)是一種重要的數(shù)據(jù)來源,著名的蒙特卡羅方法在模擬任何一個實際過程時都需要用到大量的隨機數(shù)。使用計算機產(chǎn)生的隨機數(shù)稱為偽隨機數(shù),它們看起來是隨機的數(shù),實際上是通過固定的、可重復計算的方法產(chǎn)生的,具有類似于隨機數(shù)的統(tǒng)計特征[2]。使用R語言生成時其代碼簡單,利用函數(shù)可快速生成服從二項分布、泊松分布、正態(tài)分布等各種常見分布的隨機數(shù)[3]。伯努利大數(shù)定律為研究頻率是否穩(wěn)定于概率的問題,是概率統(tǒng)計中比較重要且難以理解的內容之一。教材在介紹該部分內容時都是直接通過證明給出結論?!胺€(wěn)定”一詞究竟是什么含義?作為理工科學生對“依概率收斂”沒有深刻的認識,往往會與高等數(shù)學中數(shù)列的收斂方式混為一談。因此,在講授該部分內容時,若能夠結合圖形進行展示,則更能體現(xiàn)伯努利大數(shù)定律的本質含義。在教學中首先使用R語言生成不同數(shù)量服從標準正態(tài)分布的隨機數(shù),然后繪制這些隨機數(shù)對應的頻率直方圖,以及正態(tài)分布密度曲線。邊界與標準正態(tài)分布密度曲線越來越接近,即隨機數(shù)落在每個小區(qū)間上的頻率逐漸收斂到它的概率,直觀驗證了伯努利大數(shù)定律的科學內涵。為進一步研究隨機數(shù)的數(shù)量對收斂過程的影響,可以使用MASS中的fitdistr()函數(shù)對前面生成隨機數(shù)的兩個參數(shù)進行最大似然估計。隨著隨機數(shù)數(shù)量的增加,其期望與方差的最大似然估計會逐漸收斂到理想取值0和1。通過上述圖表展示和相應R程序的逐步講解,可以讓學生對大數(shù)定律和參數(shù)的點估計有更加深刻的認知,展示出概率統(tǒng)計的特殊魅力。需要說明的是,隨機數(shù)的隨機生成會導致在每次運行程序后的結果都不相同,實際中有時需要使用相同隨機數(shù)來比較不同方法的計算結果,可通過R語言中的set.seed()函數(shù)生成可再生的隨機數(shù)來解決這一問題。例如,生成8個服從均勻分布的可再生隨機數(shù),程序如下:>set.seed(123);runif(8)運行程序后的結果為:0.28757750.78830510.40897690.88301740.94046730.04555650.52810550.8924190只要將隨機數(shù)種子設置成某個數(shù)(上例為123),就可以使得每次運行程序后的結果相同,這樣便于程序的移植和算法的對比分析。
2.1參數(shù)的假設檢驗
正態(tài)分布參數(shù)的假設檢驗是教學的重點內容,教材中一般都先給出一組服從正態(tài)分布的數(shù)據(jù),然后按照假設檢驗的步驟進行示例介紹[4],學生對接受還是拒絕原假設并沒有一個直觀的認識。若通過生成服從正態(tài)分布的隨機數(shù)再對其進行假設檢驗,不但可以使學生知道自己檢驗的結果是否正確,而且可以克服使用了不服從正態(tài)分布的數(shù)據(jù)而導致錯誤判斷的弊端。在教學過程中,不妨生成兩組服從正態(tài)分布的隨機數(shù),第一組的數(shù)量為200、均值為2、方差為25,第二組的數(shù)量為300、均值為6、方差為25。由于是在總體參數(shù)均未知的條件下檢驗與的均值是否相同,故使用t檢驗;檢驗方差齊性時使用F檢驗,結果見表2。由表2可知,t檢驗的P值<0.05,故拒絕均值之差為0的原假設,據(jù)95%的置信區(qū)間可得的均值小于的均值;F檢驗的P值>0.05,不能拒絕方差相等的原假設,即認為與的方差相等。通過繪制箱線圖也可以發(fā)現(xiàn)與的平均取值差異較大,但它們的離散程度很相似,與使用t檢驗和F檢驗得到的結果一致[5]。
2.2分布的假設檢驗
分布的假設檢驗是重要的非參數(shù)假設檢驗,其中最常見的是正態(tài)性檢驗。正態(tài)性檢驗的方法有很多,包括使用正態(tài)概率圖(Q-Q圖)、Pearson擬合優(yōu)度卡方檢驗、Kolmogorov-Smirnov(K-S)擬合優(yōu)度檢驗、Shapiro-Wilk檢驗(W檢驗)等[6]。在概率統(tǒng)計教材中,這方面的內容介紹相對較少,加之每種方法的原理和統(tǒng)計量的計算又非常復雜,學生僅僅通過一兩個例子是很難理解的。但若花大量時間去介紹理論,可能會適得其反。因此,若能通過軟件操作演示,不但可以加強學生對理論的理解,而且可以使學生快速掌握具體的操作方法,實現(xiàn)了“先會做、再理解”的學習過程。為展示假設檢驗的操作過程,在教學中不妨生成700個均值為75、標準差為16的正態(tài)分布隨機數(shù)。使用Q-Q圖判別正態(tài)性比較直觀,但存在主觀性,為了更精確地判別,可以對該數(shù)據(jù)分別使用卡方檢驗、K-S檢驗和W檢驗進行判斷。三種方法的P值基本相同,遠>0.05,故應接受原假設,即認為該隨機數(shù)服從正態(tài)分布,這與生成隨機數(shù)時的分布一致,驗證了三種方法的有效性。通過R語言生成隨機數(shù)再對其進行假設檢驗的教學演示,不但可以使學生有的放矢地學習,而且在課程的課時較少、教學任務繁重、學生思考時間有限的情況下,極大地提高了教學效率。
3結論與探討
作為數(shù)據(jù)科學的重要入門課程,概率統(tǒng)計越來越受到人們的重視。傳統(tǒng)的教學方式存在重理論、輕應用,偏概率、輕統(tǒng)計,阻礙了大數(shù)據(jù)時展的客觀需求。為了使學生更好地認識和理解概率統(tǒng)計課程中的抽象概念、理論和方法,筆者在總結實踐教學經(jīng)驗的基礎上,利用當前熱門的數(shù)據(jù)分析軟件———R語言,結合隨機數(shù)模擬與示例分析,在已知待分析數(shù)據(jù)分布的條件下,對難以理解的理論和統(tǒng)計方法進行直觀演示,不但可以激發(fā)學生的學習興趣,提高他們處理本專業(yè)相關數(shù)據(jù)的能力,而且可以為他們未來學習專業(yè)課程奠定基礎,達到了概率統(tǒng)計課程的教學目標和應用型人才的培養(yǎng)目標。
【參考文獻】
[1]曹麗,張莉.基于R的概率統(tǒng)計直觀教學展示[J].大學數(shù)學,2017,33(4):86-89.
[2]薛英花,呂述望,郭圣權.隨機數(shù)發(fā)生器分析及其在安全信息系統(tǒng)中的應用[J].計算機工程,2003(3):42-44.
[3]薛震,孫玉林.R語言統(tǒng)計分析與機器學習[M].北京:中國水利水電出版社,2020.
[4]茆詩松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計教程(第二版)[M].北京:高等教育出版社,2011.
[5]WinstonChang.R數(shù)據(jù)可視化手冊[M].肖楠,鄧一碩,魏太云,譯.北京:人民郵電出版社,2014.
[6]薛毅,陳立萍.R語言在統(tǒng)計中的應用[M].北京:人民郵電出版社,2017.
作者:薛震 單位:中北大學<理學院>