欧美另类日韩中文色综合,天堂va亚洲va欧美va国产,www.av在线播放,大香视频伊人精品75,奇米777888,欧美日本道免费二区三区,中文字幕亚洲综久久2021

數(shù)據(jù)挖掘分析《紅樓夢》

學(xué)人智庫 時間:2018-01-10 我要投稿
【www.lotusphilosophies.com - 學(xué)人智庫】

 

背景介紹:生活的真諦是什么?是從每個人自己不同愛好、不同擅長、不同的品味中,感受對于生活的獨特理解和個性化發(fā)現(xiàn)。所謂賭徒的生活的真諦就是下注時的快感;作家的生活的真諦就是用文學(xué)作品解剖生活;數(shù)學(xué)家生活的真諦就是探索和欣賞數(shù)學(xué)里的奧秘;舞女的生活真諦就是在燈紅酒綠中體會人性的另一面;萬法歸宗呀,蕓蕓眾生只有看問題的角度不同,沒有絕對的對錯和高低。就象本文即將分享的一個用數(shù)據(jù)分析方法部分解密《紅樓夢》的前后作者一樣,《紅樓夢》后40回作者到底是曹雪芹還是另有其人?這個論題作為紅學(xué)研究最熱烈的話題當(dāng)然并不是完全可以用純粹的數(shù)學(xué)推理來解決的,但是這里分享的數(shù)學(xué)分析方法和思路,卻是實實在在可以讓有緣之人當(dāng)作休閑的小食,不求充饑,但求有趣,從不同的角度和不同的視線觀察生活,就是人生的好享受。

2007年10月10日南京“現(xiàn)代快報”報道,南京林業(yè)大學(xué)湯庚國教授另辟鼷徑,從海棠文化出發(fā),分析《紅樓夢》前80回與后40回的差異。湯教授主要從人文花卉方面進行分析,發(fā)現(xiàn)《紅樓夢》前80回有16回涉及海棠,而后40回只有4回涉及海棠,以此說明前后差距明顯。受湯教授的啟發(fā),東南大學(xué)數(shù)學(xué)系的韋博成先生(博導(dǎo))從數(shù)學(xué)統(tǒng)計的專業(yè)角度對湯先生的發(fā)現(xiàn)進行數(shù)學(xué)證明,通過兩個獨立二項總體等價性檢驗,經(jīng)過漸近正態(tài)公式計算,有92%的把握認(rèn)為“前80回對于海棠花的關(guān)注程度大于后40回對于海棠花的關(guān)注程度”。根據(jù)該統(tǒng)計方法,韋博成先生再接再厲,對于《紅樓夢》中的若干重要的情景描述進行量化,得到相應(yīng)的數(shù)據(jù)集。有了數(shù)據(jù)集就可以進行數(shù)理統(tǒng)計分析,比較前80回與后40回在文風(fēng)上的差異,結(jié)果表明,《紅樓夢》前80回與后40回在某些重要的情景描述上確實有非常顯著的差異。研究者韋博成先生再三再四強調(diào),他只是從數(shù)據(jù)分析的角度指出兩者的差異,尚不能說明《紅樓夢》前80回與后40回作者的不同,因為“這涉及到許多人文與社會方面的問題,這是數(shù)理統(tǒng)計方法所無能為力的!

本數(shù)據(jù)分析的目的:用數(shù)理統(tǒng)計的方法(具體來說是兩個獨立二項總體等價性檢驗)來分析《紅樓夢》前80回與后40回在幾個重要的情景指標(biāo)(包括飲食描寫、醫(yī)藥描寫、詩詞描寫、花卉描寫、樹木描寫,這里“描寫”主要指出現(xiàn)的頻率)的差異,并據(jù)此反映的文風(fēng)來判斷《紅樓夢》前后兩大部分的差異的顯著性。至于這種顯著性是否能推導(dǎo)出作者的不同,并不是本研究的目的,說白了,本數(shù)據(jù)分析研究只是數(shù)學(xué)愛好者借助自己對數(shù)學(xué)的愛好,表達對生活的有趣看法,娛自己娛他人,僅此而已,讀者不應(yīng)求全責(zé)備!

本數(shù)據(jù)分析的數(shù)據(jù)準(zhǔn)備:研究時收集的各個情景指標(biāo)的數(shù)據(jù),所采用的《紅樓夢》書稿來自北極星書庫,研究者將十回放一個文件,共生成12個word文件。對于書稿中有關(guān)花卉、樹木、飲食、醫(yī)藥、詩詞等方面的內(nèi)容,采用人工查閱與關(guān)鍵詞搜索相結(jié)合的方法,以人工查閱為主,最后列表給出每一回涉及的上述五個指標(biāo)的出現(xiàn)頻數(shù)。另外,本研究特別注意“偽數(shù)據(jù)”的刪除。比如統(tǒng)計作者對于花卉的描述頻數(shù),但是書中也有一些“偽數(shù)據(jù)”(雖然也是花卉,但是與情景無關(guān),比如梅花糕、桃花廟、海棠紅的棉襖等等,這些所謂的花卉并不是本研究所要記錄的,所以是“偽數(shù)據(jù)”,這些數(shù)據(jù)是不計入本研究統(tǒng)計資料的。

分析思路:在《紅樓夢》中,對于許多情景都是有非常深入的刻畫和描寫的,比如飲食描寫,全書有40余回涉及到飲食文化的方方面面。本研究不考慮人文社會方面的問題,致力于數(shù)據(jù)分析統(tǒng)計,應(yīng)用數(shù)理統(tǒng)計方法研究前80回和后40回的文風(fēng)上的差異。以飲食為例,《紅樓夢》前80回有34回涉及飲食方面的描寫,后40回有8回涉及飲食描寫,根據(jù)這個數(shù)據(jù),作者考慮以下等價性假設(shè)檢驗問題。原假設(shè)H0:“前80回與后40回對于飲食描寫的關(guān)注程度相同。”; 對立假設(shè)H1:“前80回對于飲食描寫的關(guān)注程度大于后40回對飲食描寫的關(guān)注程度。” 通過Fisher精確條件檢驗或者漸進正態(tài)檢驗,可以發(fā)現(xiàn)上述哪個假設(shè)更加有理由有把握是真的。

分析的結(jié)論:研究表明,飲食和花卉的顯著性最高,即有充分的理由(99%)認(rèn)為,前80回與后40回在飲食與花卉的描述上有明顯的差異,其判錯的概率不到1%;對于醫(yī)藥、樹木、這兩個指標(biāo),有90%的把握認(rèn)為,前80回與后40回在這些指標(biāo)的描述上是有差異的;不過,對于詩詞的描述,并沒有充分的理由發(fā)現(xiàn)前80回與后40回的差異。

[數(shù)據(jù)挖掘分析《紅樓夢》]