
目錄
§第1章 數(shù)據(jù)挖掘基本理論 1
§1.1 數(shù)據(jù)挖掘的產(chǎn)生 1
§1.2 數(shù)據(jù)挖掘的概念 2
§1.3 數(shù)據(jù)挖掘的步驟 3
§第2章 系統(tǒng)分析 3
§2.1 系統(tǒng)用戶分析 3
§2.2 系統(tǒng)功能分析 4
§2.3 系統(tǒng)算法分析 4
§第3章 數(shù)據(jù)管理 5
§3.1 數(shù)據(jù)管理的方法 5
§第4章 數(shù)據(jù)采集 6
§4.1 數(shù)據(jù)采集的方法 6
§第5章 數(shù)據(jù)預(yù)處理 6
§5.1 數(shù)據(jù)預(yù)處理的方法 6
§第6章 數(shù)據(jù)挖掘 6
§6.1算法描述與流程圖 6
§6.1.1 算法描述 6
§6.1.2 算法流程圖 8
§第7章 結(jié)果顯示與解釋評(píng)估 8
§7.1結(jié)果顯示界面的具體實(shí)現(xiàn) 8
§7.1.1 系統(tǒng)主界面的具體實(shí)現(xiàn) 9
§7.1.2 超市銷售記錄界面的具體實(shí)現(xiàn) 9
§7.1.3 數(shù)據(jù)采集界面的具體實(shí)現(xiàn) 10
§7.1.4 挖掘條件界面的具體實(shí)現(xiàn) 11
§7.1.5 數(shù)據(jù)挖掘界面的具體實(shí)現(xiàn) 12
§7.1.6 幫助界面的具體實(shí)現(xiàn) 13
§7.1.7 系統(tǒng)主界面運(yùn)行后顯示的結(jié)果 13
學(xué)習(xí)體會(huì) 14
參考文獻(xiàn) 15
§第1章 數(shù)據(jù)挖掘基本理論
§1.1 數(shù)據(jù)挖掘的產(chǎn)生
隨著計(jì)算機(jī)硬件和軟件的飛速發(fā)展,尤其是數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用的日益普及,人們面臨著快速擴(kuò)張的數(shù)據(jù)海洋,如何有效利用這一豐富數(shù)據(jù)海洋的寶藏為人類服務(wù)業(yè)已成為廣大信息技術(shù)工作者的所重點(diǎn)關(guān)注的焦點(diǎn)之一。與日趨成熟的數(shù)據(jù)管理術(shù)與軟件工具相比,人們所依賴的數(shù)據(jù)分析工具功能,卻無(wú)法有效地為決策者提其決策支持所需要的相關(guān)知識(shí),從而形成了一種獨(dú)特的現(xiàn)象“豐富的數(shù)據(jù),貧乏知識(shí)”。為有效解決這一問(wèn)題,自二十世紀(jì)年代開(kāi)始,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展來(lái),數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,得益于目前全世界所擁有的巨大數(shù)據(jù)資源以及對(duì)這些數(shù)據(jù)資源轉(zhuǎn)換為信息和知識(shí)資源的巨大需求,對(duì)信息和知識(shí)的需求來(lái)自各行業(yè),從商業(yè)管理、生產(chǎn)控制、市場(chǎng)分析到工程設(shè)計(jì)、科學(xué)探索等。數(shù)據(jù)挖掘可以為是數(shù)據(jù)管理與分析技術(shù)的自然進(jìn)化產(chǎn)物,如圖1.1所示。
自八十年到中期開(kāi)始,關(guān)系數(shù)據(jù)庫(kù)技術(shù)被普遍采用,新一輪研究與開(kāi)發(fā)新型強(qiáng)大的數(shù)據(jù)庫(kù)喜用悄然興起,并提出了許多先進(jìn)的數(shù)據(jù)模型:擴(kuò)展關(guān)系模型、面向?qū)ο竽P汀⒀堇[模型等;以及應(yīng)用數(shù)據(jù)庫(kù)系統(tǒng):空間數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)等;日前異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)和基于互聯(lián)網(wǎng)的全球信息系統(tǒng)也已開(kāi)始出現(xiàn)并在信息工業(yè)中開(kāi)始扮演重要角色。
圖1-1 數(shù)據(jù)挖掘進(jìn)化過(guò)程示意描述
§1.2 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱 DM),簡(jiǎn)單地講就是從大量數(shù)據(jù)中挖掘或抽取出知識(shí),數(shù)據(jù)挖掘概念的定義描述有若干版本,一下給出一個(gè)被普遍采用的定義描述:
數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery from Databa,簡(jiǎn)稱 KDD),它是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的、有價(jià)值的模式或規(guī)律等知識(shí)的復(fù)雜過(guò)程。
§1.3 數(shù)據(jù)挖掘的步驟
整個(gè)知識(shí)挖掘(KDD)過(guò)程是有若干挖掘步驟組成的,而數(shù)據(jù)挖掘近視其中的一個(gè)主要步驟。整個(gè)知識(shí)挖掘的主要步驟有:
數(shù)據(jù)清洗(data clearning),其作用就是清除數(shù)據(jù)噪聲和與挖掘主題明顯無(wú)關(guān)的數(shù)據(jù);
數(shù)據(jù)集成(data integration),其作用就是將來(lái)自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合到一起;
數(shù)據(jù)轉(zhuǎn)換(data transformation),其作用就是將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式;
數(shù)據(jù)挖掘(data mining),它是知識(shí)挖掘的一個(gè)基本步驟,其作用就是利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識(shí);
模式評(píng)估(pattern evaluation),其作用就是根據(jù)一定評(píng)估標(biāo)準(zhǔn)(interesting measures)從挖掘結(jié)果篩選出有意義的模式知識(shí);
知識(shí)表示(knowledge prentation),其作用就是利用可視化和知識(shí)表達(dá)技術(shù),向用戶展示所挖掘出的相關(guān)知識(shí)。
盡管數(shù)據(jù)挖掘僅僅是整個(gè)知識(shí)挖掘過(guò)程中的一個(gè)重要步驟,但由于目前工業(yè)
界、媒體、數(shù)據(jù)庫(kù)研究領(lǐng)域中,“數(shù)據(jù)挖掘”一詞已被廣泛使用并被普遍接受,因此本書(shū)也廣義地使用“數(shù)據(jù)挖掘”一詞來(lái)表示整個(gè)知識(shí)挖掘過(guò)程,即數(shù)據(jù)挖掘就是一個(gè)從數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其它信息資源庫(kù)的大量數(shù)據(jù)中發(fā)掘出有趣的知識(shí)。
§第2章 系統(tǒng)分析
§2.1 系統(tǒng)用戶分析
利用數(shù)據(jù)挖掘技術(shù)可以幫助獲得決策所需的多種知識(shí)。在許多情況下,用戶并不知道數(shù)據(jù)存在哪些有價(jià)值的信息知識(shí),因此對(duì)于一個(gè)數(shù)據(jù)挖掘系統(tǒng)而言,它應(yīng)該能夠同時(shí)搜索發(fā)現(xiàn)多種模式的知識(shí),以滿足用戶的期望和實(shí)際需要。此外數(shù)據(jù)挖掘系統(tǒng)還應(yīng)能夠挖掘出多種層次(抽象水平)的模式知識(shí)。數(shù)據(jù)挖掘系統(tǒng)還應(yīng)容許用戶指導(dǎo)挖掘搜索有價(jià)值的模式知識(shí)。比如:作為一個(gè)商場(chǎng)主管,肯定想要知道商場(chǎng)顧客的購(gòu)物習(xí)慣;尤其是希望了解在(一次)購(gòu)物過(guò)程中,那些商品會(huì)在一起被(顧客所)購(gòu)買(mǎi)。為幫助回答這一問(wèn)題,就需要進(jìn)行市場(chǎng)購(gòu)物分析,即對(duì)顧客在商場(chǎng)購(gòu)物交易記錄數(shù)據(jù)進(jìn)行分析。所分析的結(jié)果將幫助商場(chǎng)主管制定有針對(duì)性的市場(chǎng)營(yíng)銷和廣告宣傳計(jì)劃,以及編撰合適的商品目錄。比如:市場(chǎng)購(gòu)物分析結(jié)果將幫助商家對(duì)商場(chǎng)內(nèi)商品應(yīng)如何合理擺放進(jìn)行規(guī)劃設(shè)計(jì)。其中一種策略就是將常常一起購(gòu)買(mǎi)的商品擺放在相鄰近的位置,以方便顧客同時(shí)購(gòu)買(mǎi)這兩件商品;如:如果顧客購(gòu)買(mǎi)電腦的同時(shí)常也會(huì)購(gòu)買(mǎi)一些金融管理類軟件,那么將電腦軟件擺放在電腦硬件附近顯然將有助于促進(jìn)這兩種商品的銷售;而另一種策略則是將電腦軟件與電腦硬件分別擺放在商場(chǎng)的兩端,這就會(huì)促使顧客在購(gòu)買(mǎi)兩種商品時(shí),走更多的路從而達(dá)到誘導(dǎo)他們購(gòu)買(mǎi)更多商品的目的。比如:顧客在決定購(gòu)買(mǎi)一臺(tái)昂貴電腦之后,在去購(gòu)買(mǎi)相應(yīng)金融管理軟件的路上可能會(huì)看到安全系統(tǒng)軟件,這時(shí)他就有可能購(gòu)買(mǎi)這一類軟件。市場(chǎng)購(gòu)物分析可以
幫助商場(chǎng)主管確定那些物品可以進(jìn)行捆綁減價(jià)銷售,如一個(gè)購(gòu)買(mǎi)電腦的顧客很有可能購(gòu)買(mǎi)一個(gè)捆綁減價(jià)銷售的打印機(jī)。