1.8 數(shù)據(jù)挖掘系統(tǒng)與 數(shù)據(jù)庫 系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的集成 1.2節(jié)勾畫了典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的主要成分(見圖1-5),
1.8 數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的集成數(shù)據(jù)庫
。一個(gè)好的系統(tǒng)結(jié)構(gòu)將有利于數(shù)據(jù)挖掘系統(tǒng)更好地利用軟件環(huán)境,有效、及時(shí)地完成數(shù)據(jù)挖掘任務(wù),與其他信息系統(tǒng)協(xié)同和交換信息,適應(yīng)用戶的種種1.8 數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的集成
1.2節(jié)勾畫了典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的主要成分(見圖1-5)。一個(gè)好的系統(tǒng)結(jié)構(gòu)將有利于數(shù)據(jù)挖掘系統(tǒng)更好地利用軟件環(huán)境,有效、及時(shí)地完成數(shù)據(jù)挖掘任務(wù),與其他信息系統(tǒng)協(xié)同和交換信息,適應(yīng)用戶的種種需求,并隨時(shí)間進(jìn)化。
數(shù)據(jù)挖掘(DM)系統(tǒng)設(shè)計(jì)的一個(gè)關(guān)鍵問題是如何將DM系統(tǒng)與數(shù)據(jù)庫(DB)系統(tǒng)和/或數(shù)據(jù)倉庫(DW)系統(tǒng)集成或耦合。如果DM系統(tǒng)作為一個(gè)孤立的系統(tǒng)或嵌入應(yīng)用程序中,則不存在DB或DW系統(tǒng)與它通信。這種簡(jiǎn)單的方案稱為不耦合,其中DM設(shè)計(jì)所關(guān)注的主要問題停留在開發(fā)挖掘可用數(shù)據(jù)集的有效算法。然而,當(dāng)DM系統(tǒng)工作在一個(gè)需要與其他信息系統(tǒng)成分(如DB和DW系統(tǒng))通信的環(huán)境下,可能的集成方案包括不耦合、松散耦合、半緊密耦合和緊密耦合。我們逐一考察這些方案如下:
. 不耦合(no coupling):不耦合意味著DM系統(tǒng)不利用DB或DW系統(tǒng)的任何功能。它可能由特定的數(shù)據(jù)源(如文件系統(tǒng))提取數(shù)據(jù),使用某些數(shù)據(jù)挖掘算法處理數(shù)據(jù),然后再將挖掘結(jié)果存放到另一個(gè)文件中。
盡管這種系統(tǒng)簡(jiǎn)單,但有不少缺點(diǎn)。首先,DB系統(tǒng)在存儲(chǔ)、組織、訪問和處理數(shù)據(jù)方面提供了很大的靈活性和有效性。不使用DB/DW系統(tǒng),DM系統(tǒng)可能要花大量的時(shí)間查找、收集、清理和變換數(shù)據(jù)。在DB和/或DW系統(tǒng)中,數(shù)據(jù)多半被很好地組織、索引、清理、集成或統(tǒng)一,使得找出任務(wù)相關(guān)的、高質(zhì)量的數(shù)據(jù)成為一項(xiàng)容易的任務(wù)。其次,有許多經(jīng)過測(cè)試的、可伸縮的算法和數(shù)據(jù)結(jié)構(gòu)在DB或DW系統(tǒng)中得到實(shí)現(xiàn)。使用這種系統(tǒng)開發(fā)有效的、可伸縮的實(shí)現(xiàn)是可行的。
此外,大部分?jǐn)?shù)據(jù)已經(jīng)或?qū)⒁娣旁贒B/DW系統(tǒng)中。要是沒有任何這樣的系統(tǒng)耦合,DM系統(tǒng)就需要使用其他工具提取數(shù)據(jù),使得很難將這種系統(tǒng)集成到信息處理環(huán)境中。因此,不耦合是一種很糟糕的設(shè)計(jì)。
. 松散耦合(loose coupling):松散耦合意味著DM系統(tǒng)將使用DB或DW系統(tǒng)的某些設(shè)施,從這些系統(tǒng)管理的數(shù)據(jù)庫中提取數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘,然后將挖掘的結(jié)果存放到文件中,或者存放到數(shù)據(jù)庫或數(shù)據(jù)倉庫的指定位置,
電腦資料
《1.8 數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的集成數(shù)據(jù)庫》(http://www.lotusphilosophies.com)。松散耦合比不耦合好,因?yàn)樗梢允褂貌樵兲幚怼⑺饕推渌到y(tǒng)設(shè)施提取存放在數(shù)據(jù)庫或數(shù)據(jù)倉庫中數(shù)據(jù)的任意部分。這帶來了這些系統(tǒng)提供的靈活性、有效性等優(yōu)點(diǎn)。
然而,許多松散耦合的挖掘系統(tǒng)是基于內(nèi)存的。由于挖掘本身不利用DB或DW提供的數(shù)據(jù)結(jié)構(gòu)和查詢優(yōu)化方法,因此,對(duì)于大型數(shù)據(jù)集,松散耦合系統(tǒng)很難獲得高度可伸縮性和良好的性能。
. 半緊密耦合(semitight coupling):半緊密耦合意味除了將DM系統(tǒng)連接到一個(gè)DB/DW 系統(tǒng)之外,一些基本數(shù)據(jù)挖掘原語(通過分析頻繁遇到的數(shù)據(jù)挖掘功能確定)的有效實(shí)現(xiàn)可以在DB/DW系統(tǒng)中提供。這些原語可能包括排序、索引、聚集、直方圖分析、多路連接和一些基本的統(tǒng)計(jì)度量(如求和、計(jì)數(shù)、最大值、最小值、標(biāo)準(zhǔn)差等)的預(yù)計(jì)算。
此外,一些頻繁使用的中間挖掘結(jié)果也可以預(yù)計(jì)算,并存放在DB/DW系統(tǒng)中。由于這些中間挖掘結(jié)果或者是預(yù)計(jì)算,或者可以有效地計(jì)算,這種設(shè)計(jì)將提高DM系統(tǒng)的性能。
. 緊密耦合(tight coupling):緊密耦合意味DM系統(tǒng)平滑地集成到DB/DW系統(tǒng)中。數(shù)據(jù)挖掘子系統(tǒng)視為信息系統(tǒng)的一個(gè)功能組件。數(shù)據(jù)挖掘查詢和功能根據(jù)DB或DW系統(tǒng)的挖掘查詢分析、數(shù)據(jù)結(jié)構(gòu)、索引模式和查詢處理方法優(yōu)化。隨著技術(shù)進(jìn)步,DM、DB和DW系統(tǒng)將進(jìn)化和集成在一起,成為一個(gè)具有多種功能的信息系統(tǒng)。這將提供一個(gè)一致的信息處理環(huán)境。
這種方法是高度期望的,因?yàn)樗欣跀?shù)據(jù)挖掘功能、高系統(tǒng)性能和集成的信息處理環(huán)境的有效實(shí)現(xiàn)。
有了這些分析,可以看出數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)與一個(gè)DB/DW系統(tǒng)耦合。松散耦合盡管不太有效,也比不耦合好,因?yàn)樗梢允褂肈B/DW的數(shù)據(jù)和系統(tǒng)設(shè)施。緊密耦合是高度期望的,但其實(shí)現(xiàn)并非易事,在此領(lǐng)域還需要更多的研究。半緊密耦合是松散和緊密耦合之間的折衷。
重要的是識(shí)別常用的數(shù)據(jù)挖掘原語,提供這些原語在DB/DW系統(tǒng)中的有效實(shí)現(xiàn)。
【責(zé)任編輯:銘銘 TEL:(010)68476606-8008】
回書目上一節(jié)下一節(jié)
原文轉(zhuǎn)自:http://www.ltesting.net