什么是知識挖掘
什么是知識挖掘
知識挖掘源于全球范圍內(nèi)數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增加,人們的需求已經(jīng)不只是簡單的查詢和維護(hù),而是希望能夠?qū)@些數(shù)據(jù)進(jìn)行較高層次的處理和分析以得到關(guān)于數(shù)據(jù)總體特征和對發(fā)展趨勢的預(yù)測。以下是由學(xué)習(xí)啦小編整理關(guān)于什么是知識挖掘的內(nèi)容,希望大家喜歡!
知識挖掘的簡介
數(shù)據(jù)是指有關(guān)事實的集合,記錄和事物有關(guān)的原始信息。
模式是一個用語言來表示的一個表達(dá)式,它可用來描述數(shù)據(jù)集的某個子集,所說的知識,是對數(shù)據(jù)包涵的信息更抽象的描述。對大量數(shù)據(jù)進(jìn)行分析的過程,包括數(shù)據(jù)準(zhǔn)備、模式搜索、知識評價,以及反復(fù)的修改求精;該過程要求是非平凡的,意思是要有一定程度的智能性、自動性(僅僅給出所有數(shù)據(jù)的總和不能算作是一個發(fā)現(xiàn)過程)。有效性是指發(fā)現(xiàn)的模式對于新的數(shù)據(jù)仍保持有一定的可信度。新穎性要求發(fā)現(xiàn)的模式是新的。潛在有用性是指發(fā)現(xiàn)的知識將來有實際效用,如用于決策支持系統(tǒng)里可提高經(jīng)濟(jì)效益。最終可理解性要求發(fā)現(xiàn)的模式能被用戶理解,它主要是體現(xiàn)在簡潔性上。有效性、新穎性、潛在有用性和最終可理解性綜合在一起可稱之為興趣性。
由于知識挖掘是一門新興學(xué)科,況且它又是一門受到來自各種不同領(lǐng)域的研究者關(guān)注的邊緣學(xué)科,因此產(chǎn)生很多不同的術(shù)語,除了稱為“知識挖掘”外,主要還有如下若干種稱法:“數(shù)據(jù)發(fā)現(xiàn)”、“數(shù)據(jù)開采”、“知識抽取”、“信息發(fā)現(xiàn)”、“知識發(fā)現(xiàn)”、“智能數(shù)據(jù)分析”、“探索式數(shù)據(jù)分析”、“信息收獲”和“數(shù)據(jù)考古”等等。“知識挖掘”被許多研究者看作僅是數(shù)據(jù)發(fā)現(xiàn)的一個步驟。相對來講,數(shù)據(jù)開采主要流行于統(tǒng)計界、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)(MIS)界;而數(shù)據(jù)發(fā)現(xiàn)則主要流行于人工智能和機(jī)器學(xué)習(xí)界。
知識挖掘已被越來越多的領(lǐng)域所采用,并取得了較好效果。這些領(lǐng)域有科學(xué)研究、市場營銷、金融投資、欺詐甄別、產(chǎn)品制造、通信網(wǎng)絡(luò)管理等。由加州理工學(xué)院噴氣推進(jìn)實驗室與天文科學(xué)家合作開發(fā)的SKICAT(SkyImageCatalogingandAnalysisTool)是第一個獲得相當(dāng)成功的知識挖掘應(yīng)用,已經(jīng)幫助科學(xué)家發(fā)現(xiàn)了16顆極其遙遠(yuǎn)的類星體。
雖然知識挖掘已經(jīng)受到許多關(guān)注并取得了廣泛應(yīng)用,但它仍處于發(fā)展的早期,還有很多研究難題和面臨的挑戰(zhàn),如數(shù)據(jù)的巨量性、動態(tài)性、噪聲性、缺值和稀疏性,發(fā)現(xiàn)模式的可理解性、興趣或價值性,應(yīng)用系統(tǒng)的集成,用戶的交互操作,知識的更新管理,復(fù)雜數(shù)據(jù)庫的處理等等。
知識挖掘的過程
知識挖掘(KDD)是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程;數(shù)據(jù)開采(DM)是KDD過程中的一個特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(patterns)。1996年,F(xiàn)ayyad、PiatetskyShapiror和Smyth將KDD過程定義為:從數(shù)據(jù)中鑒別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的。
知識挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識的好壞。大多數(shù)的研究都集中在知識挖掘算法和應(yīng)用上。需要說明的是,有的學(xué)者認(rèn)為,數(shù)據(jù)開采和知識發(fā)現(xiàn)含義相同,表示成KDD/DM.它是一個反復(fù)的過程,通常包含多個相互聯(lián)系的步驟:預(yù)處理、提出假設(shè)、選取算法、提取規(guī)則、評價和解釋結(jié)果、將模式構(gòu)成知識,最后是應(yīng)用。在實際,人們往往不嚴(yán)格區(qū)分知識挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn),把兩者混淆使用。一般在科研領(lǐng)域中稱為KDD,而在工程領(lǐng)域則稱為知識挖掘。
KDD過程是多個步驟相互連接、反復(fù)進(jìn)行人機(jī)交互的過程。具體包括:
學(xué)習(xí)某個應(yīng)用領(lǐng)域
包括應(yīng)用中的預(yù)先知識和目標(biāo)。
建立目標(biāo)數(shù)據(jù)集
選擇一個數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦。
數(shù)據(jù)預(yù)處理
去除噪聲或無關(guān)數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時間順序和數(shù)據(jù)變化等。
數(shù)據(jù)轉(zhuǎn)換
找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。
選定知識挖掘功能
決定知識挖掘的目的。
選定知識挖掘算法
用KDD過程中的準(zhǔn)則,選擇某個特定知識挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數(shù)據(jù)中的模式。
知識挖掘
搜索或產(chǎn)生一個特定的感興趣的模式或一個特定的數(shù)據(jù)集。⑧解釋:解釋某個發(fā)現(xiàn)的模式,去掉多余的不切題意的模式,轉(zhuǎn)換某個有用的模式,以使用戶明白。
發(fā)現(xiàn)知識
把這些知識結(jié)合到運行系統(tǒng)中,獲得這些知識的作用或證明這些知識。用預(yù)先、可信的知識檢查和解決知識中可能的矛盾。
看過“什么是知識挖掘“的人還看了:
1.OLAP融合于數(shù)據(jù)挖掘之模型構(gòu)建論文