數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘概述(一)
2019-09-08 23:34:21
供稿:網(wǎng)友
隨著數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)量急劇增大,在大量的數(shù)據(jù)背后隱藏著許多重要的信息,如果能把這些信息從數(shù)據(jù)庫(kù)中抽取出來,將為公司創(chuàng)造很多潛在的利潤(rùn),而這種從海量數(shù)據(jù)庫(kù)中挖掘信息的技術(shù),就稱之為數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘工具能夠?qū)淼内厔?shì)和行為進(jìn)行預(yù)測(cè),從而很好地支持人們的決策,比如,經(jīng)過對(duì)公司整個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的分析,數(shù)據(jù)挖掘工具可以回答諸如“哪個(gè)客戶對(duì)我們公司的郵件推銷活動(dòng)最有可能作出反應(yīng),為什么”等類似的問題。有些數(shù)據(jù)挖掘工具還能夠解決一些很消耗人工時(shí)間的傳統(tǒng)問題,因?yàn)樗鼈兡軌蚩焖俚貫g覽整個(gè)數(shù)據(jù)庫(kù),找出一些專家們不易察覺的極有用的信息。
下文將對(duì)數(shù)據(jù)挖掘的基本技術(shù)作一個(gè)簡(jiǎn)單的介紹。
數(shù)據(jù)挖掘的基礎(chǔ)
數(shù)據(jù)挖掘技術(shù)是人們長(zhǎng)期對(duì)數(shù)據(jù)庫(kù)技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫(kù)中的,然后發(fā)展到可對(duì)數(shù)據(jù)庫(kù)進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對(duì)數(shù)據(jù)庫(kù)的即時(shí)遍歷。數(shù)據(jù)挖掘使數(shù)據(jù)庫(kù)技術(shù)進(jìn)入了一個(gè)更高級(jí)的階
段,它不僅能對(duì)過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進(jìn)信息的傳遞。現(xiàn)在數(shù)據(jù)挖掘技術(shù)在商業(yè)應(yīng)用中已經(jīng)可以馬上投入使用,因?yàn)閷?duì)這種技術(shù)進(jìn)行支持的三種基礎(chǔ)技術(shù)已經(jīng)發(fā)展成熟,他們是:
海量數(shù)據(jù)搜集
強(qiáng)大的多處理器計(jì)算機(jī)
數(shù)據(jù)挖掘算法
商業(yè)數(shù)據(jù)庫(kù)現(xiàn)在正在以一個(gè)空前的速度增長(zhǎng),并且數(shù)據(jù)倉(cāng)庫(kù)正在廣泛地應(yīng)用于各種行業(yè);對(duì)計(jì)算機(jī)硬件性能越來越高的要求,也可以用現(xiàn)在已經(jīng)成熟的并行多處理機(jī)的技術(shù)來滿足;另外數(shù)據(jù)挖掘算法經(jīng)過了這10多年的發(fā)展也已經(jīng)成為一種成熟,穩(wěn)定,且易于理解和操作的技術(shù)。
從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化過程中,每一步前進(jìn)都是建立在上一步的基礎(chǔ)上的。見下表。表中我們可以看到,第四步進(jìn)化是革命性的,因?yàn)閺挠脩舻慕嵌葋砜矗@一階段的數(shù)據(jù)庫(kù)技術(shù)已經(jīng)可以快速地回答商業(yè)上的很多問題了。
進(jìn)化階段 商業(yè)問題 支持技術(shù) 產(chǎn)品廠家 產(chǎn)品特點(diǎn) 數(shù)據(jù)搜集
(60年代) “過去五年中我的總收入是多少?” 計(jì)算機(jī)、磁帶和磁盤 IBM, CDC 提供歷史性的、靜態(tài)的數(shù)據(jù)信息 數(shù)據(jù)訪問
(80年代) “在新英格蘭的分部去年三月的銷售額是多少?” 關(guān)系數(shù)據(jù)庫(kù)(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBC Oracle、Sybase、Informix、IBM、Microsoft 在記錄級(jí)提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息 數(shù)據(jù)倉(cāng)庫(kù);決策支持
(90年代) “在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?” 聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù) Pilot、Comshare、Arbor、Cognos、Microstrategy 在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息 數(shù)據(jù)挖掘
(正在流行) “下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?” 高級(jí)算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫(kù) Pilot、
Lockheed、IBM、SGI、其他初創(chuàng)公司 提供預(yù)測(cè)性的信息
表一、數(shù)據(jù)挖掘的進(jìn)化歷程。
數(shù)據(jù)挖掘的核心模塊技術(shù)歷經(jīng)了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計(jì)、人工智能、機(jī)器學(xué)習(xí)。今天,這些成熟的技術(shù),加上高性能的關(guān)系數(shù)據(jù)庫(kù)引擎以及廣泛的數(shù)據(jù)集成,讓數(shù)據(jù)挖掘技術(shù)在當(dāng)前的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中進(jìn)入了實(shí)用的階段。
數(shù)據(jù)挖掘的范圍
“數(shù)據(jù)挖掘”這個(gè)名字來源于它有點(diǎn)類似于在山脈中挖掘有價(jià)值的礦藏。在商業(yè)應(yīng)用里,它就表現(xiàn)為在大型數(shù)據(jù)庫(kù)里面搜索有價(jià)值的商業(yè)信息。這兩種過程都需要對(duì)巨量的材料進(jìn)行詳細(xì)地過濾,并且需要智能且精確地定位潛在價(jià)值的所
在。對(duì)于給定了大小的數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘技術(shù)可以用它如下的超能力產(chǎn)生巨大的商業(yè)機(jī)會(huì):
自動(dòng)趨勢(shì)預(yù)測(cè)。數(shù)據(jù)挖掘能自動(dòng)在大型數(shù)據(jù)庫(kù)里面找尋潛在的預(yù)測(cè)信息。傳統(tǒng)上需要很多專家來進(jìn)行分析的問題,現(xiàn)在可以快速而直接地從數(shù)據(jù)中間找到答案。一個(gè)典型的利用數(shù)據(jù)挖掘進(jìn)行預(yù)測(cè)的例子就是目標(biāo)營(yíng)銷。數(shù)據(jù)挖掘工具可以根據(jù)過去郵件推銷中的大量數(shù)據(jù)找出其中最有可能對(duì)將來的郵件推銷作出反應(yīng)的客戶。
自動(dòng)探測(cè)以前未發(fā)現(xiàn)的模式。數(shù)據(jù)挖掘工具掃描整個(gè)數(shù)據(jù)庫(kù)并辨認(rèn)出那些隱藏著的模式,比如通過分析零售數(shù)據(jù)來辨別出表面上看起來沒聯(lián)系的產(chǎn)品,實(shí)際上有很多情況下是一起被售出的情況。
數(shù)據(jù)挖掘技術(shù)可以讓現(xiàn)有的軟件和硬件更加自動(dòng)化,并且可以在升級(jí)的或者新開發(fā)的平臺(tái)上執(zhí)行。當(dāng)數(shù)據(jù)挖掘工具運(yùn)行于高性能的并行處理系統(tǒng)上的時(shí)候,它能在數(shù)分鐘內(nèi)分析一個(gè)超大型的數(shù)據(jù)庫(kù)。這種更快的處理速度意味著用戶有更多的機(jī)會(huì)來分析數(shù)據(jù),讓分析的結(jié)果更加準(zhǔn)確可靠,并且易于理解。
數(shù)據(jù)庫(kù)可以由此拓展深度和廣度
深度上,允許有更多的列存在。以往,在進(jìn)行較復(fù)雜的數(shù)據(jù)分析時(shí),專家們限于時(shí)間因素,不得不對(duì)參加運(yùn)算的變量數(shù)量加以限制,但是那些被丟棄而沒有參加運(yùn)算的變量有可能包含著另一些不為人知的有用信息。現(xiàn)在,高性能的數(shù)據(jù)挖掘工具讓用戶對(duì)數(shù)據(jù)庫(kù)能進(jìn)行通盤的深度編歷,并且任何可能參選的變量都被考慮進(jìn)去,再不需要選擇變量的子集來進(jìn)行運(yùn)算了。
廣度上,允許有更多的行存在。更大的樣本讓產(chǎn)生錯(cuò)誤和變化的概率降低,這樣用戶就能更加精確地推導(dǎo)出一些雖小但頗為重要的結(jié)論。
最近,Gartner Group的一次高級(jí)技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來三到五年內(nèi)將對(duì)工業(yè)產(chǎn)生深遠(yuǎn)影響的五大關(guān)鍵技術(shù)”之首,并且還將并行處理體系和數(shù)據(jù)挖掘列為未來五年內(nèi)投資焦點(diǎn)的十大新興技術(shù)前兩位。根據(jù)最近Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲(chǔ)技術(shù)的快速發(fā)展,大型系統(tǒng)用戶將更多地需要采用新技術(shù)來挖掘市場(chǎng)以外的價(jià)值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長(zhǎng)點(diǎn)。”
在數(shù)據(jù)挖掘中最常用的技術(shù)有:
人工神經(jīng)網(wǎng)絡(luò):仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線形預(yù)測(cè)模型,通過學(xué)習(xí)進(jìn)行模式識(shí)別。
決策樹:代表著決策集的樹形結(jié)構(gòu)。
遺傳算法:基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。
近鄰算法:將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。
規(guī)則推導(dǎo):從統(tǒng)計(jì)意義上對(duì)數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo)。
采用上述技術(shù)的某些專門的分析工具已經(jīng)發(fā)展了大約十年的歷史,不過這些工具所面對(duì)的數(shù)據(jù)量通常較小。而現(xiàn)在這些技術(shù)已經(jīng)被直接集成到許多大型的工業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析系統(tǒng)中去了。
猜你喜歡的關(guān)注
- u盤無法識(shí)別怎么辦,小編告訴你U盤無法識(shí)別
- usb無線網(wǎng)卡怎么用,小編告訴你安裝教程
- usb調(diào)試在哪,小編告訴你usb調(diào)試在哪
- 優(yōu)盤不顯示,小編告訴你優(yōu)盤不顯示怎么辦
- 低級(jí)格式化,小編告訴你硬盤怎么低級(jí)格式化
- 分區(qū)表丟失,小編告訴你分區(qū)表丟失如何修復(fù)
- 進(jìn)入bios,小編告訴你戴爾筆記本進(jìn)入bios設(shè)
- 怎么刷bios,小編告訴你華碩怎么刷bios
- 讀卡器怎么用,小編告訴你如何使用讀卡器
- bios升級(jí),小編告訴你華碩主板bios怎么升級(jí)