數(shù)據(jù)處理與數(shù)據(jù)管理
數(shù)據(jù)處理與數(shù)據(jù)管理
數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無(wú)章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)于某些特定的人們來(lái)說(shuō)是有價(jià)值、有意義的數(shù)據(jù)。以下是由學(xué)習(xí)啦小編整理關(guān)于什么是數(shù)據(jù)處理的內(nèi)容,希望大家喜歡
!
數(shù)據(jù)處理的基本信息
處理軟件
數(shù)據(jù)處理離不開(kāi)軟件的支持,數(shù)據(jù)處理軟件包括:用以書(shū)寫(xiě)處理程序的各種程序設(shè)計(jì)語(yǔ)言及其編譯程序,管理數(shù)據(jù)的文件系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng),以及各種數(shù)據(jù)處理方法的應(yīng)用軟件包。為了保證數(shù)據(jù)安全可靠,還有一整套數(shù)據(jù)安全保密的技術(shù)。
方式
根據(jù)處理設(shè)備的結(jié)構(gòu)方式、工作方式,以及數(shù)據(jù)的時(shí)間空間分布方式的不同,數(shù)據(jù)處理有不同的方式。不同的處理方式要求不同的硬件和軟件支持。每種處理方式都有自己的特點(diǎn),應(yīng)當(dāng)根據(jù)應(yīng)用問(wèn)題的實(shí)際環(huán)境選擇合適的處理方式。數(shù)據(jù)處理主要有四種分類(lèi)方式①根據(jù)處理設(shè)備的結(jié)構(gòu)方式區(qū)分,有聯(lián)機(jī)處理方式和脫機(jī)處理方式。②根據(jù)數(shù)據(jù)處理時(shí)間的分配方式區(qū)分,有批處理方式、分時(shí)處理方式和實(shí)時(shí)處理方式。③根據(jù)數(shù)據(jù)處理空間的分布方式區(qū)分,有集中式處理方式和分布處理方式。④根據(jù)計(jì)算機(jī)中央處理器的工作方式區(qū)分,有單道作業(yè)處理方式、多道作業(yè)處理方式和交互式處理方式。
數(shù)據(jù)處理對(duì)數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)進(jìn)行分析和加工的技術(shù)過(guò)程。包括對(duì)各種原始數(shù)據(jù)的分析、整理、計(jì)算、編輯等的加工和處理。比數(shù)據(jù)分析含義廣。隨著計(jì)算機(jī)的日益普及,在計(jì)算機(jī)應(yīng)用領(lǐng)域中,數(shù)值計(jì)算所占比重很小,通過(guò)計(jì)算機(jī)數(shù)據(jù)處理進(jìn)行信息管理已成為主要的應(yīng)用。如測(cè)繪制圖管理、倉(cāng)庫(kù)管理、財(cái)會(huì)管理、交通運(yùn)輸管理,技術(shù)情報(bào)管理、辦公室自動(dòng)化等。在地理數(shù)據(jù)方面既有大量自然環(huán)境數(shù)據(jù)(土地、水、氣候、生物等各類(lèi)資源數(shù)據(jù)),也有大量社會(huì)經(jīng)濟(jì)數(shù)據(jù)(人口、交通、工農(nóng)業(yè)等),常要求進(jìn)行綜合性數(shù)據(jù)處理。故需建立地理數(shù)據(jù)庫(kù),系統(tǒng)地整理和存儲(chǔ)地理數(shù)據(jù)減少冗余,發(fā)展數(shù)據(jù)處理軟件,充分利用數(shù)據(jù)庫(kù)技術(shù)進(jìn)行數(shù)據(jù)管理和處理。
數(shù)據(jù)處理的相關(guān)信息
數(shù)據(jù)處理
用計(jì)算機(jī)收集、記錄數(shù)據(jù),經(jīng)加工產(chǎn)生新的信息形式的技術(shù)。數(shù)據(jù)指數(shù)字、符號(hào)、字母和各種文字的集合。數(shù)據(jù)處理涉及的加工處理比一般的算術(shù)運(yùn)算要廣泛得多。
計(jì)算機(jī)數(shù)據(jù)處理主要包括8個(gè)方面。
?、贁?shù)據(jù)采集:采集所需的信息。
?、跀?shù)據(jù)轉(zhuǎn)換:把信息轉(zhuǎn)換成機(jī)器能夠接收的形式。
③數(shù)據(jù)分組:指定編碼,按有關(guān)信息進(jìn)行有效的分組。
?、軘?shù)據(jù)組織:整理數(shù)據(jù)或用某些方法安排數(shù)據(jù),以便進(jìn)行處理。
?、輸?shù)據(jù)計(jì)算:進(jìn)行各種算術(shù)和邏輯運(yùn)算,以便得到進(jìn)一步的信息。
?、迶?shù)據(jù)存儲(chǔ):將原始數(shù)據(jù)或計(jì)算的結(jié)果保存起來(lái),供以后使用。
?、邤?shù)據(jù)檢索:按用戶的要求找出有用的信息。
?、鄶?shù)據(jù)排序:把數(shù)據(jù)按一定要求排成次序。
數(shù)據(jù)處理的過(guò)程大致分為數(shù)據(jù)的準(zhǔn)備、處理和輸出3個(gè)階段。在數(shù)據(jù)準(zhǔn)備階段,將數(shù)據(jù)脫機(jī)輸入到穿孔卡片、穿孔紙帶、磁帶或磁盤(pán)。這個(gè)階段也可以稱(chēng)為數(shù)據(jù)的錄入階段。數(shù)據(jù)錄入以后,就要由計(jì)算機(jī)對(duì)數(shù)據(jù)進(jìn)行處理,為此預(yù)先要由用戶編制程序并把程序輸入到計(jì)算機(jī)中,計(jì)算機(jī)是按程序的指示和要求對(duì)數(shù)據(jù)進(jìn)行處理的。所謂處理,就是指上述8個(gè)方面工作中的一個(gè)或若干個(gè)的組合。最后輸出的是各種文字和數(shù)字的表格和報(bào)表。
數(shù)據(jù)處理系統(tǒng)已廣泛地用于各種企業(yè)和事業(yè),內(nèi)容涉及薪金支付,票據(jù)收發(fā)、信貸和庫(kù)存管理、生產(chǎn)調(diào)度、計(jì)劃管理、銷(xiāo)售分析等。它能產(chǎn)生操作報(bào)告、金融分析報(bào)告和統(tǒng)計(jì)報(bào)告等。數(shù)據(jù)處理技術(shù)涉及到文卷系統(tǒng)、數(shù)據(jù)庫(kù)管理系統(tǒng)、分布式數(shù)據(jù)處理系統(tǒng)等方面的技術(shù)。
此外,由于數(shù)據(jù)或信息大量地應(yīng)用于各種各樣的企業(yè)和事業(yè)機(jī)構(gòu),工業(yè)化社會(huì)中已形成一個(gè)獨(dú)立的信息處理業(yè)。數(shù)據(jù)和信息,本身已經(jīng)成為人類(lèi)社會(huì)中極其寶貴的資源。信息處理業(yè)對(duì)這些資源進(jìn)行整理和開(kāi)發(fā),借以推動(dòng)信息化社會(huì)的發(fā)展。
數(shù)據(jù)處理工具
根據(jù)數(shù)據(jù)處理的不同階段,有不同的專(zhuān)業(yè)工具來(lái)對(duì)數(shù)據(jù)進(jìn)行不同階段的處理。
在數(shù)據(jù)轉(zhuǎn)換部分,有專(zhuān)業(yè)的ETL工具來(lái)幫助完成數(shù)據(jù)的提取、轉(zhuǎn)換和加載,相應(yīng)的工具有Informatica和開(kāi)源的Kettle。
在數(shù)據(jù)存儲(chǔ)和計(jì)算部分,指的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)等工具,有Oracle,DB2,MySQL等知名廠商,列式數(shù)據(jù)庫(kù)在大數(shù)據(jù)的背景下發(fā)展也非???。
在數(shù)據(jù)可視化部分,需要對(duì)數(shù)據(jù)的計(jì)算結(jié)果進(jìn)行分析和展現(xiàn),有BIEE,Microstrategy,Yonghong的Z-Suite等工具。
數(shù)據(jù)處理的軟件有EXCEL MATLAB Origin等等,當(dāng)前流行的圖形可視化和數(shù)據(jù)分析軟件有Matlab,Mathmatica和Maple等。這些軟件功能強(qiáng)大,可滿足科技工作中的許多需要,但使用這些軟件需要一定的計(jì)算機(jī)編程知識(shí)和矩陣知識(shí),并熟悉其中大量的函數(shù)和命令。而使用Origin就像使用Excel和Word那樣簡(jiǎn)單,只需點(diǎn)擊鼠標(biāo),選擇菜單命令就可以完成大部分工作,獲得滿意的結(jié)果。
大數(shù)據(jù)時(shí)代,需要可以解決大量數(shù)據(jù)、異構(gòu)數(shù)據(jù)等多種問(wèn)題帶來(lái)的數(shù)據(jù)處理難題,Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開(kāi)發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng) Hadoop Distributed File System,HDFS。HDFS有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上。而且它提供高傳輸率來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。
商務(wù)網(wǎng)站
有關(guān)商務(wù)網(wǎng)站的數(shù)據(jù)處理:由于網(wǎng)站的訪問(wèn)量非常大,在進(jìn)行一些專(zhuān)業(yè)的數(shù)據(jù)分析時(shí),往往要有針對(duì)性的數(shù)據(jù)清洗,即把無(wú)關(guān)的數(shù)據(jù)、不重要的數(shù)據(jù)等處理掉。接著對(duì)數(shù)據(jù)進(jìn)行相關(guān)分分類(lèi),進(jìn)行分類(lèi)劃分之后,就可以根據(jù)具體的分析需求選擇模式分析的技術(shù),如路徑分析、興趣關(guān)聯(lián)規(guī)則、聚類(lèi)等。通過(guò)模式分析,找到有用的信息,再通過(guò)聯(lián)機(jī)分析(OLAP)的驗(yàn)證,結(jié)合客戶登記信息,找出有價(jià)值的市場(chǎng)信息,或發(fā)現(xiàn)潛在的市場(chǎng)。
數(shù)據(jù)處理與數(shù)據(jù)管理
數(shù)據(jù)處理是從大量的原始數(shù)據(jù)抽取出有價(jià)值的信息,即數(shù)據(jù)轉(zhuǎn)換成信息的過(guò)程。主要對(duì)所輸入的各種形式的數(shù)據(jù)進(jìn)行加工整理,其過(guò)程包含對(duì)數(shù)據(jù)的收集、存儲(chǔ)、加工、分類(lèi)、歸并、計(jì)算、排序、轉(zhuǎn)換、檢索和傳播的演變與推導(dǎo)全過(guò)程。
數(shù)據(jù)管理是指數(shù)據(jù)的收集整理、組織、存儲(chǔ)、維護(hù)、檢索、傳送等操作,是數(shù)據(jù)處理業(yè)務(wù)的基本環(huán)節(jié),而且是所有數(shù)據(jù)處理過(guò)程中必有得共同部分。
數(shù)據(jù)處理中,通常計(jì)算比較簡(jiǎn)單,且數(shù)據(jù)處理業(yè)務(wù)中的加工計(jì)算因業(yè)務(wù)的不同而不同,需要根據(jù)業(yè)務(wù)的需要來(lái)編寫(xiě)應(yīng)用程序加以解決。而數(shù)據(jù)管理則比較復(fù)雜,由于可利用的數(shù)據(jù)呈爆炸性增長(zhǎng),且數(shù)據(jù)的種類(lèi)繁雜,從數(shù)據(jù)管理角度而言,不僅要使用數(shù)據(jù),而且要有效地管理數(shù)據(jù)。因此需要一個(gè)通用的、使用方便且高效的管理軟件,把數(shù)據(jù)有效地管理起來(lái)。
數(shù)據(jù)處理與數(shù)據(jù)管理是相聯(lián)系的,數(shù)據(jù)管理技術(shù)的優(yōu)劣將對(duì)數(shù)據(jù)處理的效率產(chǎn)生直接影響。而數(shù)據(jù)庫(kù)技術(shù)就是針對(duì)該需求目標(biāo)進(jìn)行研究并發(fā)展和完善起來(lái)的計(jì)算機(jī)應(yīng)用的一個(gè)分支。
看過(guò)“數(shù)據(jù)處理與數(shù)據(jù)管理”的人還看了: