麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁(yè) > 學(xué)院 > 常見問題 > 正文

數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘概述(一)

2019-09-08 23:34:21
字體:
供稿:網(wǎng)友
隨著數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)量急劇增大,在大量的數(shù)據(jù)背后隱藏著許多重要的信息,如果能把這些信息從數(shù)據(jù)庫(kù)中抽取出來,將為公司創(chuàng)造很多潛在的利潤(rùn),而這種從海量數(shù)據(jù)庫(kù)中挖掘信息的技術(shù),就稱之為數(shù)據(jù)挖掘。

   數(shù)據(jù)挖掘工具能夠?qū)淼内厔?shì)和行為進(jìn)行預(yù)測(cè),從而很好地支持人們的決策,比如,經(jīng)過對(duì)公司整個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的分析,數(shù)據(jù)挖掘工具可以回答諸如“哪個(gè)客戶對(duì)我們公司的郵件推銷活動(dòng)最有可能作出反應(yīng),為什么”等類似的問題。有些數(shù)據(jù)挖掘工具還能夠解決一些很消耗人工時(shí)間的傳統(tǒng)問題,因?yàn)樗鼈兡軌蚩焖俚貫g覽整個(gè)數(shù)據(jù)庫(kù),找出一些專家們不易察覺的極有用的信息。

   下文將對(duì)數(shù)據(jù)挖掘的基本技術(shù)作一個(gè)簡(jiǎn)單的介紹。

數(shù)據(jù)挖掘的基礎(chǔ)

   數(shù)據(jù)挖掘技術(shù)是人們長(zhǎng)期對(duì)數(shù)據(jù)庫(kù)技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫(kù)中的,然后發(fā)展到可對(duì)數(shù)據(jù)庫(kù)進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對(duì)數(shù)據(jù)庫(kù)的即時(shí)遍歷。數(shù)據(jù)挖掘使數(shù)據(jù)庫(kù)技術(shù)進(jìn)入了一個(gè)更高級(jí)的階
段,它不僅能對(duì)過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進(jìn)信息的傳遞。現(xiàn)在數(shù)據(jù)挖掘技術(shù)在商業(yè)應(yīng)用中已經(jīng)可以馬上投入使用,因?yàn)閷?duì)這種技術(shù)進(jìn)行支持的三種基礎(chǔ)技術(shù)已經(jīng)發(fā)展成熟,他們是:

   海量數(shù)據(jù)搜集
   強(qiáng)大的多處理器計(jì)算機(jī)
   數(shù)據(jù)挖掘算法

   商業(yè)數(shù)據(jù)庫(kù)現(xiàn)在正在以一個(gè)空前的速度增長(zhǎng),并且數(shù)據(jù)倉(cāng)庫(kù)正在廣泛地應(yīng)用于各種行業(yè);對(duì)計(jì)算機(jī)硬件性能越來越高的要求,也可以用現(xiàn)在已經(jīng)成熟的并行多處理機(jī)的技術(shù)來滿足;另外數(shù)據(jù)挖掘算法經(jīng)過了這10多年的發(fā)展也已經(jīng)成為一種成熟,穩(wěn)定,且易于理解和操作的技術(shù)。

   從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化過程中,每一步前進(jìn)都是建立在上一步的基礎(chǔ)上的。見下表。表中我們可以看到,第四步進(jìn)化是革命性的,因?yàn)閺挠脩舻慕嵌葋砜矗@一階段的數(shù)據(jù)庫(kù)技術(shù)已經(jīng)可以快速地回答商業(yè)上的很多問題了。

進(jìn)化階段 商業(yè)問題 支持技術(shù) 產(chǎn)品廠家 產(chǎn)品特點(diǎn) 數(shù)據(jù)搜集
(60年代) “過去五年中我的總收入是多少?” 計(jì)算機(jī)、磁帶和磁盤 IBM, CDC 提供歷史性的、靜態(tài)的數(shù)據(jù)信息 數(shù)據(jù)訪問
(80年代) “在新英格蘭的分部去年三月的銷售額是多少?” 關(guān)系數(shù)據(jù)庫(kù)(RDBMS),結(jié)構(gòu)化查詢語言(SQL),ODBC Oracle、Sybase、Informix、IBM、Microsoft 在記錄級(jí)提供歷史性的、動(dòng)態(tài)數(shù)據(jù)信息 數(shù)據(jù)倉(cāng)庫(kù);決策支持
(90年代) “在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?” 聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù) Pilot、Comshare、Arbor、Cognos、Microstrategy 在各種層次上提供回溯的、動(dòng)態(tài)的數(shù)據(jù)信息 數(shù)據(jù)挖掘
(正在流行) “下個(gè)月波士頓的銷售會(huì)怎么樣?為什么?” 高級(jí)算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫(kù) Pilot、
Lockheed、IBM、SGI、其他初創(chuàng)公司 提供預(yù)測(cè)性的信息

表一、數(shù)據(jù)挖掘的進(jìn)化歷程。

   數(shù)據(jù)挖掘的核心模塊技術(shù)歷經(jīng)了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計(jì)、人工智能、機(jī)器學(xué)習(xí)。今天,這些成熟的技術(shù),加上高性能的關(guān)系數(shù)據(jù)庫(kù)引擎以及廣泛的數(shù)據(jù)集成,讓數(shù)據(jù)挖掘技術(shù)在當(dāng)前的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中進(jìn)入了實(shí)用的階段。

數(shù)據(jù)挖掘的范圍

   “數(shù)據(jù)挖掘”這個(gè)名字來源于它有點(diǎn)類似于在山脈中挖掘有價(jià)值的礦藏。在商業(yè)應(yīng)用里,它就表現(xiàn)為在大型數(shù)據(jù)庫(kù)里面搜索有價(jià)值的商業(yè)信息。這兩種過程都需要對(duì)巨量的材料進(jìn)行詳細(xì)地過濾,并且需要智能且精確地定位潛在價(jià)值的所
在。對(duì)于給定了大小的數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘技術(shù)可以用它如下的超能力產(chǎn)生巨大的商業(yè)機(jī)會(huì):

   自動(dòng)趨勢(shì)預(yù)測(cè)。數(shù)據(jù)挖掘能自動(dòng)在大型數(shù)據(jù)庫(kù)里面找尋潛在的預(yù)測(cè)信息。傳統(tǒng)上需要很多專家來進(jìn)行分析的問題,現(xiàn)在可以快速而直接地從數(shù)據(jù)中間找到答案。一個(gè)典型的利用數(shù)據(jù)挖掘進(jìn)行預(yù)測(cè)的例子就是目標(biāo)營(yíng)銷。數(shù)據(jù)挖掘工具可以根據(jù)過去郵件推銷中的大量數(shù)據(jù)找出其中最有可能對(duì)將來的郵件推銷作出反應(yīng)的客戶。

   自動(dòng)探測(cè)以前未發(fā)現(xiàn)的模式。數(shù)據(jù)挖掘工具掃描整個(gè)數(shù)據(jù)庫(kù)并辨認(rèn)出那些隱藏著的模式,比如通過分析零售數(shù)據(jù)來辨別出表面上看起來沒聯(lián)系的產(chǎn)品,實(shí)際上有很多情況下是一起被售出的情況。

   數(shù)據(jù)挖掘技術(shù)可以讓現(xiàn)有的軟件和硬件更加自動(dòng)化,并且可以在升級(jí)的或者新開發(fā)的平臺(tái)上執(zhí)行。當(dāng)數(shù)據(jù)挖掘工具運(yùn)行于高性能的并行處理系統(tǒng)上的時(shí)候,它能在數(shù)分鐘內(nèi)分析一個(gè)超大型的數(shù)據(jù)庫(kù)。這種更快的處理速度意味著用戶有更多的機(jī)會(huì)來分析數(shù)據(jù),讓分析的結(jié)果更加準(zhǔn)確可靠,并且易于理解。

數(shù)據(jù)庫(kù)可以由此拓展深度和廣度

   深度上,允許有更多的列存在。以往,在進(jìn)行較復(fù)雜的數(shù)據(jù)分析時(shí),專家們限于時(shí)間因素,不得不對(duì)參加運(yùn)算的變量數(shù)量加以限制,但是那些被丟棄而沒有參加運(yùn)算的變量有可能包含著另一些不為人知的有用信息。現(xiàn)在,高性能的數(shù)據(jù)挖掘工具讓用戶對(duì)數(shù)據(jù)庫(kù)能進(jìn)行通盤的深度編歷,并且任何可能參選的變量都被考慮進(jìn)去,再不需要選擇變量的子集來進(jìn)行運(yùn)算了。

   廣度上,允許有更多的行存在。更大的樣本讓產(chǎn)生錯(cuò)誤和變化的概率降低,這樣用戶就能更加精確地推導(dǎo)出一些雖小但頗為重要的結(jié)論。

   最近,Gartner Group的一次高級(jí)技術(shù)調(diào)查將數(shù)據(jù)挖掘和人工智能列為“未來三到五年內(nèi)將對(duì)工業(yè)產(chǎn)生深遠(yuǎn)影響的五大關(guān)鍵技術(shù)”之首,并且還將并行處理體系和數(shù)據(jù)挖掘列為未來五年內(nèi)投資焦點(diǎn)的十大新興技術(shù)前兩位。根據(jù)最近Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲(chǔ)技術(shù)的快速發(fā)展,大型系統(tǒng)用戶將更多地需要采用新技術(shù)來挖掘市場(chǎng)以外的價(jià)值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長(zhǎng)點(diǎn)。”

   在數(shù)據(jù)挖掘中最常用的技術(shù)有:

   人工神經(jīng)網(wǎng)絡(luò):仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線形預(yù)測(cè)模型,通過學(xué)習(xí)進(jìn)行模式識(shí)別。

   決策樹:代表著決策集的樹形結(jié)構(gòu)。

   遺傳算法:基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異、以及自然選擇等設(shè)計(jì)方法的優(yōu)化技術(shù)。

   近鄰算法:將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。

   規(guī)則推導(dǎo):從統(tǒng)計(jì)意義上對(duì)數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo)。

   采用上述技術(shù)的某些專門的分析工具已經(jīng)發(fā)展了大約十年的歷史,不過這些工具所面對(duì)的數(shù)據(jù)量通常較小。而現(xiàn)在這些技術(shù)已經(jīng)被直接集成到許多大型的工業(yè)標(biāo)準(zhǔn)的數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析系統(tǒng)中去了。

發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 人成免费网站 | 国产刺激高潮av | 久久久成人免费视频 | 国产在线精品一区二区三区 | 日本在线视频一区二区三区 | 91成人久久 | 中文字幕一区二区三区四区 | 欧美成人综合视频 | 午夜啪视频 | 黄色影院在线观看视频 | 欧美一级毛片大片免费播放 | 亚洲电影在线观看高清免费 | 亚洲一区二区网址 | 精品国产一区二 | 91美女福利视频 | 亚洲一区二区在线视频 | 久久草在线视频国产 | 精品国产91久久久久久 | 亚洲九九爱 | 国产无遮挡一区二区三区毛片日本 | 欧日韩 | 久国产精品视频 | 国产69精品久久99不卡免费版 | 久久久久一区二区三区 | 久久免费视频一区 | 蜜桃网在线观看 | 色淫网站免费视频 | 91懂色| 国av在线 | 丰满年轻岳中文字幕一区二区 | 久草视频福利在线观看 | 91久久久久久久 | 18pao国产成人免费视频 | 精品三区视频 | 九色激情网| 意大利av在线 | 欧美在线成人影院 | 美女扒开腿让男生桶爽网站 | 成人在线视频在线观看 | 九一传媒在线观看 | 免费在线观看午夜视频 |