淺談數(shù)據(jù)密集型數(shù)據(jù)資源云平臺(tái)的構(gòu)建論文
云平臺(tái)是轉(zhuǎn)向云計(jì)算(cloud computing),是業(yè)界將要面臨的一個(gè)重大改變。各種云平臺(tái)(cloud platforms)的出現(xiàn)是該轉(zhuǎn)變的最重要環(huán)節(jié)之一。顧名思義,這種平臺(tái)允許開發(fā)者們或是將寫好的程序放在“云”里運(yùn)行,或是使用“云”里提供的服務(wù),或二者皆是。至于這種平臺(tái)的名稱,現(xiàn)在我們可以聽到不止一種稱呼,比如按需平臺(tái)(on-demand platform)、平臺(tái)即服務(wù)(platform as a service,PaaS)等等。但無(wú)論稱呼它什么,這種新的支持應(yīng)用的方式有著巨大的潛力。以下是學(xué)習(xí)啦小編今天為大家精心準(zhǔn)備的:淺談數(shù)據(jù)密集型數(shù)據(jù)資源云平臺(tái)的構(gòu)建相關(guān)論文。內(nèi)容僅供參考,歡迎閱讀!
淺談數(shù)據(jù)密集型數(shù)據(jù)資源云平臺(tái)的構(gòu)建全文如下:
美國(guó)《福布斯》雜志稱“如今,在瀏覽新聞網(wǎng)站或者是參加行業(yè)會(huì)議時(shí),想看不見或聽不到‘大數(shù)據(jù)’這個(gè)詞幾乎是不可能的”,大數(shù)據(jù)已經(jīng)成為產(chǎn)業(yè)界、科學(xué)界和政府部門等各界的關(guān)注熱點(diǎn)。近幾年來(lái), 《Nature》、《Science》等國(guó)際頂級(jí)學(xué)術(shù)期刊相繼出版??瘉?lái)推動(dòng)大數(shù)據(jù)的研究,中國(guó)、美國(guó)等多國(guó)政府也展開了對(duì)大數(shù)據(jù)的研究部署工作。產(chǎn)業(yè)界已經(jīng)率先認(rèn)識(shí)到大數(shù)據(jù)所蘊(yùn)含的海量?jī)r(jià)值及其戰(zhàn)略意義,Amazon、Google、IBM 等IT 巨頭紛紛探索應(yīng)對(duì)大數(shù)據(jù)的解決方案,云計(jì)算逐漸成為他們共同的探索方向??茖W(xué)界也逐步意識(shí)到大數(shù)據(jù)的影響,認(rèn)為隨著大數(shù)據(jù)時(shí)代的到來(lái),科學(xué)研究已經(jīng)進(jìn)入數(shù)據(jù)密集型科學(xué)研究( Data-Intensive Science Research) 階段,中國(guó)論文網(wǎng)科學(xué)范式的轉(zhuǎn)變成為科學(xué)界的研究重點(diǎn)。本文探討了數(shù)據(jù)密集型科學(xué)研究的內(nèi)涵和特征,以及科學(xué)界面臨的挑戰(zhàn),并構(gòu)建了數(shù)據(jù)資源云平臺(tái)以幫助科研人員應(yīng)對(duì)數(shù)據(jù)密集型科學(xué)研究中的問(wèn)題。
1 數(shù)據(jù)密集型科學(xué)研究的內(nèi)涵及其特征
數(shù)據(jù)密集型科學(xué)研究是直接從海量數(shù)據(jù)中發(fā)現(xiàn)科學(xué)規(guī)律的一種研究范式,是在大數(shù)據(jù)環(huán)境下對(duì)實(shí)驗(yàn)科學(xué)、理論科學(xué)和模擬科學(xué)的繼承與發(fā)展。它由三個(gè)基本活動(dòng)組成: 科學(xué)數(shù)據(jù)的采集、管理和分析,其數(shù)據(jù)來(lái)源主要有大型國(guó)際實(shí)驗(yàn),跨實(shí)驗(yàn)室、單一實(shí)驗(yàn)室或個(gè)人觀察實(shí)驗(yàn),個(gè)人生活等。在這一新的科學(xué)研究范式中,先利用科學(xué)儀器或者模擬方法采集數(shù)據(jù),然后通過(guò)計(jì)算機(jī)軟硬件設(shè)備進(jìn)行數(shù)據(jù)的管理和分析,將處理分析后的數(shù)據(jù)、信息和知識(shí)存儲(chǔ)在計(jì)算機(jī)中。信息科學(xué)貫穿科學(xué)活動(dòng)的始終,而科研人員對(duì)數(shù)據(jù)的審視是在整個(gè)科學(xué)活動(dòng)中比較靠后的步驟才開始的。數(shù)據(jù)密集型科學(xué)研究作為科學(xué)大數(shù)據(jù)環(huán)境下科學(xué)研究的新發(fā)展,具有以下三個(gè)特征:
( 1) 數(shù)據(jù)驅(qū)動(dòng),而不是假設(shè)驅(qū)動(dòng)。傳統(tǒng)階段,實(shí)驗(yàn)科學(xué)、理論科學(xué)和模擬科學(xué)能夠獲得和使用的數(shù)據(jù)相對(duì)匱乏,只能采取假設(shè)驅(qū)動(dòng)型研究方法,首先根據(jù)前人研究成果和自身知識(shí)進(jìn)行假設(shè),然后通過(guò)設(shè)計(jì)實(shí)驗(yàn)、理論推導(dǎo)或者是計(jì)算機(jī)模擬等定義好的方法獲取相關(guān)數(shù)據(jù),對(duì)假設(shè)進(jìn)行檢驗(yàn)。而現(xiàn)在科學(xué)研究已經(jīng)從數(shù)據(jù)缺乏時(shí)代過(guò)渡到數(shù)據(jù)泛濫時(shí)代,數(shù)據(jù)密集型科學(xué)研究不需要模型和假設(shè),科研人員的關(guān)注重點(diǎn)也從“我要怎么驗(yàn)證這個(gè)假設(shè)”轉(zhuǎn)變?yōu)?ldquo;我能從這些數(shù)據(jù)中發(fā)現(xiàn)什么關(guān)聯(lián)”,數(shù)據(jù)成為科研活動(dòng)的起點(diǎn)和驅(qū)動(dòng)力。
( 2) 強(qiáng)調(diào)可重復(fù)性??茖W(xué)研究是人類認(rèn)識(shí)世界、改造世界的重要手段,保證科研結(jié)果的可靠性和真實(shí)性是科學(xué)研究的前提,而可重復(fù)性是檢驗(yàn)科學(xué)研究結(jié)果可靠性和真實(shí)性最有效的手段。在數(shù)據(jù)密集型科學(xué)研究中,技術(shù)的進(jìn)步使數(shù)據(jù)傳播速度更快、范圍更廣,產(chǎn)生的影響也更大,所以為了更好地保障科學(xué)研究的可信賴性,必須更加重視科研活動(dòng)的可重復(fù)性,從而盡快識(shí)別出錯(cuò)誤的或者弄虛作假的科研結(jié)果,將負(fù)面影響降至最低。中國(guó)論文網(wǎng)
( 3) 相關(guān)關(guān)系,而不是因果關(guān)系。數(shù)據(jù)密集型科學(xué)研究通過(guò)對(duì)科學(xué)數(shù)據(jù)的分析和挖掘,直接從科學(xué)數(shù)據(jù)中發(fā)現(xiàn)科學(xué)規(guī)律,認(rèn)識(shí)事物的相關(guān)關(guān)系,其精髓在于客觀,但不能像實(shí)驗(yàn)科學(xué)、理論科學(xué)和模擬科學(xué)那樣檢驗(yàn)邏輯上的因果關(guān)系。然而科學(xué)研究是人類認(rèn)識(shí)世界的手段,其目的不僅是發(fā)現(xiàn)科學(xué)規(guī)律,還要探索規(guī)律運(yùn)行的本質(zhì)原因,得到相關(guān)性之后還需要結(jié)合前三種科學(xué)方法解釋因果性。
數(shù)據(jù)密集型科學(xué)研究是對(duì)前三種科學(xué)的繼承與發(fā)展,將其作為一個(gè)新的、科學(xué)探索的第四種范式,具有重大的價(jià)值和意義,當(dāng)然也面臨一些新的挑戰(zhàn)。
2 數(shù)據(jù)密集型科學(xué)研究面臨的挑戰(zhàn)
2. 1 科學(xué)數(shù)據(jù)層面的挑戰(zhàn)
科學(xué)數(shù)據(jù)面臨來(lái)自諸多方面的挑戰(zhàn),但從研究的角度來(lái)說(shuō),根本挑戰(zhàn)在于其規(guī)模性、復(fù)雜性和特異性。
( 1) 規(guī)模性是科研大數(shù)據(jù)最明顯的特征,也是科研人員所面臨的首要問(wèn)題,主要表現(xiàn)在原始數(shù)據(jù)的規(guī)模性和數(shù)據(jù)增速的規(guī)模性:
①原始數(shù)據(jù)的規(guī)模性??茖W(xué)研究是持續(xù)性的活動(dòng),傳統(tǒng)科學(xué)已經(jīng)產(chǎn)生海量數(shù)據(jù)積累,如澳大利亞的平方公里陣列射電望遠(yuǎn)鏡項(xiàng)目自開展以來(lái),每天都能產(chǎn)生好幾個(gè)千萬(wàn)億字節(jié)( PB) 的數(shù)據(jù);
②數(shù)據(jù)增速的規(guī)模性。隨著科研人員的研究方法和研究?jī)x器越來(lái)越先進(jìn),科學(xué)研究能夠生成和獲取的數(shù)據(jù)量越來(lái)越多,數(shù)據(jù)量的增長(zhǎng)速度已經(jīng)超過(guò)了數(shù)據(jù)存儲(chǔ)能力的增長(zhǎng)速度,導(dǎo)致數(shù)據(jù)存儲(chǔ)和處理能力與日益增長(zhǎng)的數(shù)據(jù)量之間的矛盾愈加尖銳。
( 2) 復(fù)雜性是科研大數(shù)據(jù)的重要特征,給科學(xué)數(shù)據(jù)共享造成巨大困難,主要表現(xiàn)在數(shù)據(jù)類型的復(fù)雜性和數(shù)據(jù)結(jié)構(gòu)的復(fù)雜化:
?、贁?shù)據(jù)類型的復(fù)雜性。美國(guó)國(guó)家科學(xué)委員從科研研究類型角度將科學(xué)數(shù)據(jù)分為4 個(gè)基本類別: 預(yù)測(cè)型、計(jì)算型、實(shí)驗(yàn)型和記錄型,這種劃分方式模糊了具體學(xué)術(shù)活動(dòng)下所收集到的數(shù)據(jù)類型的復(fù)雜性。計(jì)算機(jī)技術(shù)和科學(xué)方法的進(jìn)步使科研人員能夠獲得的數(shù)據(jù)類型愈加復(fù)雜化,如核磁共振成像、基因序列、電子顯微鏡數(shù)據(jù)等形式;
②數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性。傳統(tǒng)科學(xué)數(shù)據(jù)主要以結(jié)構(gòu)化的方式存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中,但是隨著科研人員獲取數(shù)據(jù)的渠道和方式的多樣化,非結(jié)構(gòu)化數(shù)據(jù)成為科學(xué)數(shù)據(jù)的主流形式。與結(jié)構(gòu)化數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)的組織更加凌亂、復(fù)雜,給數(shù)據(jù)處理和共享帶來(lái)挑戰(zhàn)。
( 3) 特異性是科學(xué)數(shù)據(jù)區(qū)別于其他數(shù)據(jù)的關(guān)鍵特征,對(duì)科學(xué)數(shù)據(jù)共享和學(xué)術(shù)信息交流提出挑戰(zhàn),主要表現(xiàn)在認(rèn)識(shí)的特異性和價(jià)值的特異性:
?、僬J(rèn)識(shí)的特異性。由于科學(xué)數(shù)據(jù)與客觀世界相分離,對(duì)科學(xué)數(shù)據(jù)的認(rèn)識(shí)必然帶有主觀性,數(shù)據(jù)采集者認(rèn)為是數(shù)據(jù)的采集物,接受者可能不這樣認(rèn)為,觀測(cè)數(shù)據(jù)或者模擬數(shù)據(jù)可能是、或者頂多是“供述的證據(jù)”;
?、趦r(jià)值的特異性??茖W(xué)數(shù)據(jù)作為一種可重復(fù)利用的非消耗性資源,其價(jià)值增值需經(jīng)過(guò)科研人員的利用來(lái)實(shí)現(xiàn)。影響科學(xué)數(shù)據(jù)增值程度的因素有兩個(gè),一是科學(xué)數(shù)據(jù)本身的價(jià)值,決定理論上的最大增值程度;二是數(shù)據(jù)使用者的能力,決定實(shí)際增值程度,而科學(xué)數(shù)據(jù)的交流和共享能夠?qū)崿F(xiàn)數(shù)據(jù)的多方利用,促使科學(xué)數(shù)據(jù)價(jià)值產(chǎn)生指數(shù)增長(zhǎng),所以如何實(shí)現(xiàn)科學(xué)數(shù)據(jù)共享成為科學(xué)界亟需解決的問(wèn)題。
2. 2 科學(xué)研究層面的挑戰(zhàn)
首先,科研人員缺乏將數(shù)據(jù)轉(zhuǎn)化為知識(shí)的意識(shí)和方法。中國(guó)論文網(wǎng)一方面,科研人員沒(méi)有意識(shí)到科學(xué)數(shù)據(jù)的價(jià)值特異性,絕大部分科學(xué)數(shù)據(jù)會(huì)隨著科研人員的退休、項(xiàng)目的結(jié)束等原因被遺棄,無(wú)法被其他人員使用。另一方面,數(shù)據(jù)密集型科學(xué)研究具有無(wú)參考性,科學(xué)研究方法需要從傳統(tǒng)的假設(shè)驅(qū)動(dòng)變?yōu)閿?shù)據(jù)驅(qū)動(dòng),科研人員必須培養(yǎng)數(shù)據(jù)敏感性,以數(shù)據(jù)為本,轉(zhuǎn)變自己的研究方法以實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化。
其次,科研人員缺乏設(shè)備和技術(shù)支持。目前科研項(xiàng)目呈現(xiàn)金字塔型分布,第一層項(xiàng)目能夠得到國(guó)際財(cái)團(tuán)機(jī)構(gòu)或國(guó)家科學(xué)基金會(huì)的資助,獲得超級(jí)計(jì)算和存儲(chǔ)資源,而占大多數(shù)的第二層和第三層項(xiàng)目所獲得的資助相對(duì)有限,數(shù)據(jù)密集型科學(xué)研究的資源需求難以得到滿足。科研人員無(wú)法平等地獲取保證項(xiàng)目所需的資源支撐,延緩了知識(shí)創(chuàng)新進(jìn)程,不利于科學(xué)的持續(xù)發(fā)展。
最后,數(shù)據(jù)共享方面存在阻礙。一方面,不同地域、不同學(xué)科之間缺乏統(tǒng)一的交流平臺(tái),雖然科學(xué)研究的地理分布性和跨學(xué)科性不斷加劇,但仍有接近87. 5%的數(shù)據(jù)未能形成數(shù)據(jù)源以供科研人員利用。另一方面,數(shù)據(jù)共享在具體實(shí)施層面,會(huì)涉及到各方面的利益,政策、制度等因素導(dǎo)致原始數(shù)據(jù)、研究方法等無(wú)法實(shí)現(xiàn)真正共享,跨國(guó)項(xiàng)目在此方面的問(wèn)題尤為突出,因此,科學(xué)交流體系的完善值得引起科學(xué)界和國(guó)際方面的關(guān)注。
3 云計(jì)算在數(shù)據(jù)密集型科學(xué)研究中應(yīng)用的必要性分析
云計(jì)算是一種利用互聯(lián)網(wǎng)實(shí)現(xiàn)隨時(shí)隨地、按需、便捷地訪問(wèn)共享資源池( 如計(jì)算設(shè)施、存儲(chǔ)設(shè)備、應(yīng)用程序等) 的計(jì)算模式,Gartner 公布的2014 年的技術(shù)成熟度曲線,Cloud Computing 正處于泡沫化的谷底期,已經(jīng)度過(guò)了最危險(xiǎn)的期望膨脹期,人們對(duì)云計(jì)算的認(rèn)識(shí)逐漸趨于理性和成熟,業(yè)界也不再熱衷于炒作云計(jì)算概念,而是將實(shí)現(xiàn)云計(jì)算的成熟和規(guī)模應(yīng)用作為努力的方向。Gartner 的2014 年十大技術(shù)和趨勢(shì)評(píng)選中的個(gè)人云時(shí)代、規(guī)模IT 都屬于云計(jì)算的應(yīng)用,云計(jì)算真正與實(shí)際應(yīng)用和環(huán)境融合,實(shí)現(xiàn)從探索向應(yīng)用轉(zhuǎn)變,成為大數(shù)據(jù)時(shí)代個(gè)人和企業(yè)進(jìn)行數(shù)據(jù)管理的必然選擇。
在對(duì)數(shù)據(jù)管理的使用和認(rèn)識(shí)上,很多科學(xué)領(lǐng)域都落后商業(yè)領(lǐng)域至少10 年,云計(jì)算在商業(yè)領(lǐng)域的廣泛應(yīng)用對(duì)于科學(xué)領(lǐng)域具有借鑒意義,將云計(jì)算應(yīng)用于數(shù)據(jù)密集型科學(xué)研究中具有可行性和必要性。
第一,幫助科研人員應(yīng)對(duì)科學(xué)大數(shù)據(jù)規(guī)模性帶來(lái)的存儲(chǔ)挑戰(zhàn)。超大規(guī)模是云計(jì)算最基本的特點(diǎn),其底層由數(shù)十萬(wàn)臺(tái)乃至數(shù)百萬(wàn)臺(tái)的服務(wù)器集群組成,如Google 云計(jì)算中心已經(jīng)具有幾百萬(wàn)臺(tái)服務(wù)器,云計(jì)算中心通過(guò)運(yùn)維管理、資源管理等機(jī)制整合和管理這些龐大的計(jì)算機(jī)集群,具備了海量數(shù)據(jù)存儲(chǔ)能力,能夠有效地應(yīng)對(duì)科學(xué)大數(shù)據(jù)的規(guī)模性。此外,云計(jì)算采取橫向擴(kuò)張方式,即增加更多的邏輯單元資源,與傳統(tǒng)通過(guò)增加單個(gè)邏輯單元資源性能的縱向擴(kuò)展方式相比,中國(guó)論文網(wǎng)橫向擴(kuò)展方式具有成本低、部署周期短、靈活性強(qiáng)等優(yōu)勢(shì),能夠更好地應(yīng)對(duì)科學(xué)大數(shù)據(jù)增速的規(guī)模性。
第二,為科研人員提供面向非結(jié)構(gòu)化數(shù)據(jù)的彈性計(jì)算能力,以應(yīng)對(duì)科學(xué)大數(shù)據(jù)的復(fù)雜性。MapReduce 作為云計(jì)算系統(tǒng)中的關(guān)鍵數(shù)據(jù)處理組件,具有兩個(gè)核心理念: 一是將問(wèn)題分而治之,分布式處理是面對(duì)海量數(shù)據(jù)時(shí)的首要選擇; 二是移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù),避免數(shù)據(jù)傳輸過(guò)程中產(chǎn)生的大量通信開銷。MapReduce 的設(shè)計(jì)初衷就是面向海量非結(jié)構(gòu)化數(shù)據(jù)的處理,部署在海量基礎(chǔ)設(shè)施之上,使云計(jì)算具有能夠應(yīng)對(duì)科學(xué)大數(shù)據(jù)規(guī)模性和復(fù)雜性的強(qiáng)大計(jì)算能力。結(jié)合虛擬化技術(shù)在云計(jì)算中的成功應(yīng)用,云計(jì)算可以根據(jù)用戶實(shí)際使用情況對(duì)資源進(jìn)行動(dòng)態(tài)分配,及時(shí)滿足用戶對(duì)計(jì)算資源需求的變化,幫助科研人員應(yīng)對(duì)突發(fā)情況。
第三,實(shí)現(xiàn)數(shù)據(jù)的長(zhǎng)期保存和可獲得性,為科學(xué)數(shù)據(jù)共享提供保障??茖W(xué)數(shù)據(jù)按照科研活動(dòng)過(guò)程來(lái)劃分可以分為原始數(shù)據(jù)、推導(dǎo)和組合數(shù)據(jù)、文獻(xiàn),這些數(shù)據(jù)是數(shù)據(jù)密集型科學(xué)研究的核心要素,因此必須保證科學(xué)數(shù)據(jù)的完整性、安全性和可獲得性。云計(jì)算中心具有完善的保障措施,在硬件方面采用了計(jì)算節(jié)點(diǎn)同構(gòu)可互換、網(wǎng)絡(luò)和能源方面的冗余設(shè)計(jì)等措施,軟件方面采用了多副本容錯(cuò)、心跳檢測(cè)等技術(shù)來(lái)保證數(shù)據(jù)的可獲得性和安全性。而且科學(xué)數(shù)據(jù)由云計(jì)算提供方統(tǒng)一管理,打破了原有數(shù)字資源分散的局面,有利于資源的有效流通、利用和共享,實(shí)現(xiàn)科學(xué)數(shù)據(jù)的價(jià)值特異性。
第四,為科研活動(dòng)建立統(tǒng)一平臺(tái),使所有科研人員可以平等享有各種服務(wù)。服務(wù)是云計(jì)算的核心理念,也是云計(jì)算與傳統(tǒng)的并行計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算的一個(gè)關(guān)鍵區(qū)別。云計(jì)算是為了讓用戶能夠平等、透明地使用云計(jì)算資源,就像使用水電這樣的生活基礎(chǔ)設(shè)施一樣便捷。云計(jì)算通過(guò)向用戶提供統(tǒng)一的一體化平臺(tái),將傳統(tǒng)的應(yīng)用集成概念延伸為服務(wù)集成,從而將數(shù)據(jù)采集服務(wù)、數(shù)據(jù)存儲(chǔ)服務(wù)、數(shù)據(jù)管理服務(wù)、數(shù)據(jù)處理服務(wù)、數(shù)據(jù)參考咨詢服務(wù)等資源和服務(wù)能力集成到云計(jì)算系統(tǒng)中。
4 數(shù)據(jù)資源云平臺(tái)的構(gòu)建
然而云計(jì)算技術(shù)并不能提供完整和通用的解決方案,為了滿足可重復(fù)性、數(shù)據(jù)共享等需求,需要運(yùn)用信息資源管理領(lǐng)域相關(guān)技術(shù),才能在更大程度上幫助科研人員應(yīng)對(duì)科學(xué)大數(shù)據(jù)的挑戰(zhàn)。因此,數(shù)據(jù)資源云是以云計(jì)算為基礎(chǔ),以數(shù)據(jù)密集型科學(xué)研究為主體,以信息資源管理相關(guān)技術(shù)為補(bǔ)充,以數(shù)據(jù)為核心,以科學(xué)活動(dòng)過(guò)程為導(dǎo)向,以數(shù)據(jù)服務(wù)為目標(biāo)的服務(wù)平臺(tái)。
4. 1 云基礎(chǔ)服務(wù)平臺(tái)
云計(jì)算基礎(chǔ)服務(wù)平臺(tái)是整個(gè)數(shù)據(jù)資源云的基礎(chǔ),將物理基礎(chǔ)設(shè)施按照云計(jì)算平臺(tái)標(biāo)準(zhǔn)構(gòu)建而成,為上層服務(wù)提供硬件支持和環(huán)境保障,科研人員可以充分利用平臺(tái)提供的軟硬件設(shè)施便捷地構(gòu)建出大規(guī)模應(yīng)用。其中虛擬化技術(shù)是實(shí)現(xiàn)科研人員在使用數(shù)據(jù)資源云時(shí)如同使用本地資源一樣的關(guān)鍵技術(shù),它能夠?qū)τ?jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源、科研設(shè)備等進(jìn)行分配封裝,向用戶提供接口,以虛擬的形式提供給科研人員使用??蒲腥藛T可以將他們保存在本地磁盤的數(shù)據(jù)轉(zhuǎn)移到數(shù)據(jù)資源云中,交給專業(yè)人員進(jìn)行集中管理,實(shí)現(xiàn)數(shù)據(jù)的長(zhǎng)期保存,還可以通過(guò)接口訪問(wèn)和使用各種大型儀器設(shè)備,平等獲取項(xiàng)目所需資源。
4. 2 科學(xué)數(shù)據(jù)處理與服務(wù)層
4. 2. 1 科學(xué)數(shù)據(jù)處理
鑒于數(shù)據(jù)密集型科學(xué)研究的特征,數(shù)據(jù)資源云并非按照傳統(tǒng)的思路進(jìn)行構(gòu)建,而是遵循數(shù)據(jù)驅(qū)動(dòng)的理念,以數(shù)據(jù)為起點(diǎn),經(jīng)過(guò)科學(xué)數(shù)據(jù)資源科學(xué)數(shù)據(jù)處理步驟之后才是科研人員審視,因此在科學(xué)數(shù)據(jù)處理方面,數(shù)據(jù)資源云采取的流程、技術(shù)都有別于傳統(tǒng)的假設(shè)驅(qū)動(dòng)型平臺(tái)。
首先,需要對(duì)實(shí)驗(yàn)數(shù)據(jù)、模擬數(shù)據(jù)、科研人員信息等原始數(shù)據(jù)進(jìn)行資源化。資源化的數(shù)據(jù)才能在后續(xù)的操作中產(chǎn)生更大的價(jià)值,通過(guò)數(shù)據(jù)集成消除數(shù)據(jù)之間的異構(gòu)性,刪除重復(fù)數(shù)據(jù),對(duì)關(guān)聯(lián)數(shù)據(jù)進(jìn)行邏輯上的封裝,減少后期處理中的資源開銷。為了滿足數(shù)據(jù)密集型科學(xué)研究可重復(fù)性的需求,數(shù)據(jù)世系管理成為科學(xué)數(shù)據(jù)處理過(guò)程中必不可少的環(huán)節(jié)。
數(shù)據(jù)世系一般出現(xiàn)在包含多數(shù)據(jù)集的應(yīng)用中,用于描述數(shù)據(jù)的產(chǎn)生并隨著時(shí)間推移而演化的整個(gè)過(guò)程。對(duì)于項(xiàng)目實(shí)施者來(lái)說(shuō),數(shù)據(jù)世系配合分布式文件系統(tǒng)的容災(zāi)備份機(jī)制,可以在出現(xiàn)故障時(shí),正確、快速地恢復(fù)數(shù)據(jù)。對(duì)于數(shù)據(jù)使用者來(lái)說(shuō),可以充分了解數(shù)據(jù)的演化過(guò)程,加深對(duì)實(shí)驗(yàn)結(jié)果的理解,幫助實(shí)現(xiàn)科研成果的再現(xiàn),保證科研活動(dòng)的可信賴性和可重復(fù)性。
其次,科學(xué)數(shù)據(jù)分析是科研活動(dòng)中的關(guān)鍵環(huán)節(jié),主要包括海量語(yǔ)義分析、科研人員需求分析和海量數(shù)據(jù)挖掘。語(yǔ)義技術(shù)可以對(duì)概念、術(shù)語(yǔ)等進(jìn)行明確的機(jī)器編碼定義,并且能夠?qū)λ鼈冎g的相互關(guān)系進(jìn)行陳述性和條件性的定義,使跨區(qū)域、跨學(xué)科的數(shù)據(jù)能夠被科研人員、學(xué)生甚至是普通大眾所理解和使用,是促進(jìn)數(shù)據(jù)共享的關(guān)鍵。在海量數(shù)據(jù)中挖掘規(guī)律是數(shù)據(jù)密集型科學(xué)研究的重要手段,數(shù)據(jù)資源云能為科研人員提供彈性計(jì)算能力,MapReduce 在海量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)處理方面的能力已經(jīng)得到了各界的認(rèn)可。而云科學(xué)工作流在重復(fù)性和流程性工作方面的表現(xiàn)更加優(yōu)異,可以為科研人員提供可視化建模工具,使科研人員即使不具有程序設(shè)計(jì)知識(shí)也可以根據(jù)實(shí)際需要設(shè)計(jì)云科學(xué)工作流模型,表示科學(xué)工作流的任務(wù)及任務(wù)之間的關(guān)系。
所以,MapReduce 和云科學(xué)工作流的結(jié)合可以幫助科研人員應(yīng)對(duì)科學(xué)數(shù)據(jù)的規(guī)模性和復(fù)雜性。中國(guó)論文網(wǎng)此外,為了提高后續(xù)服務(wù)質(zhì)量,需要根據(jù)科研人員的問(wèn)題和所處問(wèn)題環(huán)境,利用數(shù)據(jù)挖掘的方法和工具對(duì)他們的學(xué)習(xí)層次、科研經(jīng)歷、研究方向等方面加以分析,挖掘他們的興趣點(diǎn)和知識(shí)需求點(diǎn),形成隱性需求分析文檔,從而為后續(xù)的推送服務(wù)提供依據(jù)。
最后,科研人員對(duì)處理結(jié)果的價(jià)值進(jìn)行判斷和審視。在數(shù)據(jù)密集型科學(xué)中,科研人員不再直接參與科學(xué)數(shù)據(jù)的處理和分析,該任務(wù)由數(shù)據(jù)資源云來(lái)完成,他們的任務(wù)是在整個(gè)科學(xué)活動(dòng)的后期審視和篩選處理分析的結(jié)果,將符合條件或者有價(jià)值的結(jié)果加工處理為知識(shí),發(fā)布到數(shù)據(jù)資源云。如果結(jié)果不具有實(shí)際價(jià)值或者未達(dá)到預(yù)期效果,科研人員則向之前的環(huán)節(jié)反饋,數(shù)據(jù)資源云按照科研人員的反饋信息通過(guò)重新選擇數(shù)據(jù)、調(diào)整云科學(xué)工作流模型等方式來(lái)重新進(jìn)行數(shù)據(jù)處理,以獲得滿意結(jié)果。
4. 2. 2 數(shù)據(jù)服務(wù)
鑒于數(shù)據(jù)密集型科學(xué)研究具有數(shù)據(jù)驅(qū)動(dòng)、可重復(fù)性等特征,僅僅向科研人員提供知識(shí)已經(jīng)無(wú)法滿足其資源需求,原始數(shù)據(jù)、推導(dǎo)和重組數(shù)據(jù)成為數(shù)據(jù)密集型科學(xué)研究中同等重要甚至更加重要的研究資源。數(shù)據(jù)資源云將數(shù)據(jù)服務(wù)作為特色服務(wù),在保留傳統(tǒng)云服務(wù)平臺(tái)向用戶提供知識(shí)服務(wù)項(xiàng)目的同時(shí),又創(chuàng)造性地將原始數(shù)據(jù)、推導(dǎo)和重組數(shù)據(jù)添加到服務(wù)內(nèi)容中,力求向用戶提供更為全面的數(shù)據(jù)服務(wù),滿足科研人員在數(shù)據(jù)密集型科學(xué)研究中的需求。
知識(shí)層面的服務(wù)主要包括知識(shí)發(fā)布、知識(shí)推送和知識(shí)交流等環(huán)節(jié)。數(shù)據(jù)資源云能夠自動(dòng)地將不同科研人員在不同時(shí)間、不同地點(diǎn)生產(chǎn)出來(lái)的科技知識(shí)進(jìn)行發(fā)布,實(shí)現(xiàn)知識(shí)的即時(shí)公開,縮短知識(shí)發(fā)現(xiàn)到知識(shí)應(yīng)用之間的時(shí)間。知識(shí)發(fā)布是知識(shí)服務(wù)的第一個(gè)環(huán)節(jié),為了實(shí)現(xiàn)知識(shí)服務(wù)效率的最大化,結(jié)合前期的科研人員需求分析結(jié)果,將最新知識(shí)推送給相關(guān)科研人員,加速知識(shí)流動(dòng)速率,提高科研人員的科學(xué)生產(chǎn)力。數(shù)據(jù)資源云還為不同學(xué)科的科研人員提供交流平臺(tái),打破不同學(xué)科之間的壁壘。
同時(shí),為從事具體學(xué)科研究的科研人員與信息科研人員提供了一種科研場(chǎng)景,實(shí)現(xiàn)特定領(lǐng)域科研需求與信息技術(shù)之間的大量交互,有助于相應(yīng)領(lǐng)域語(yǔ)義語(yǔ)言、工具和應(yīng)用系統(tǒng)的改進(jìn)和完善。然而,在數(shù)據(jù)密集型科學(xué)研究中,知識(shí)與科研過(guò)程中產(chǎn)生的推導(dǎo)和重組數(shù)據(jù)與原始數(shù)據(jù)相比只是冰山一角,數(shù)據(jù)是科學(xué)研究的基礎(chǔ),向用戶提供數(shù)據(jù)服務(wù),可以提高其工作效率,加速知識(shí)創(chuàng)新,主要包括數(shù)據(jù)共享、數(shù)據(jù)溯源和數(shù)據(jù)可視化。
首先,數(shù)據(jù)的長(zhǎng)期保存和可獲取性保證了數(shù)據(jù)共享的可行性,語(yǔ)義分析、數(shù)據(jù)世系等技術(shù)保證了數(shù)據(jù)共享的價(jià)值性。數(shù)據(jù)資源云是一個(gè)開放合作的平臺(tái),科研人員可以按需搜索、理解以及利用自己需要的數(shù)據(jù)資源,實(shí)現(xiàn)更大規(guī)模的數(shù)據(jù)流動(dòng),實(shí)現(xiàn)科學(xué)數(shù)據(jù)價(jià)值增值。其次,數(shù)據(jù)資源云可以向用戶提供數(shù)據(jù)溯源服務(wù)。數(shù)據(jù)資源云不僅可以發(fā)布研究成果等知識(shí),還可以發(fā)布產(chǎn)生知識(shí)整個(gè)過(guò)程的源流信息和數(shù)據(jù),即在提供知識(shí)的同時(shí),還可以提供該知識(shí)涉及到的支撐數(shù)據(jù)以及中間過(guò)程產(chǎn)生的整合信息、推導(dǎo)和重組數(shù)據(jù),以服務(wù)流的形式出現(xiàn),加深對(duì)數(shù)據(jù)的理解和認(rèn)識(shí)。
此外,數(shù)據(jù)可視化將海量數(shù)據(jù)通過(guò)平面或者立體圖形的方式呈獻(xiàn)給科研人員,根據(jù)前期的數(shù)據(jù)資源化和分析處理結(jié)果,對(duì)可視化圖形界面進(jìn)行優(yōu)化,既可以向用戶提供數(shù)據(jù)的二維、三維的可視化效果,還可以添加時(shí)間維,向用戶提供四維的數(shù)據(jù)可視化界面,即數(shù)據(jù)隨著時(shí)間的變化而變化,產(chǎn)生動(dòng)態(tài)感,實(shí)現(xiàn)過(guò)程可視化。此外,數(shù)據(jù)資源云在實(shí)現(xiàn)知識(shí)和數(shù)據(jù)同時(shí)在線的基礎(chǔ)上,通過(guò)數(shù)據(jù)的生命周期管理,可將數(shù)據(jù)和知識(shí)同時(shí)聯(lián)系在一起且可以交互操作。這樣用戶在查看某個(gè)研究成果時(shí)可以直接查看其原始數(shù)據(jù),甚至是重做其分析,同樣也可以從數(shù)據(jù)追溯到使用該數(shù)據(jù)的科研項(xiàng)目及其研究結(jié)果,提高科研活動(dòng)的效率。
5 結(jié)束語(yǔ)
數(shù)據(jù)密集型科學(xué)研究是在科學(xué)大數(shù)據(jù)背景下產(chǎn)生的,傳統(tǒng)的數(shù)據(jù)管理技術(shù)無(wú)法有效地應(yīng)對(duì)科學(xué)大數(shù)據(jù),云計(jì)算技術(shù)成為滿足現(xiàn)代科研人員科研需求的必然選擇。本文構(gòu)建的數(shù)據(jù)資源云以云計(jì)算為主要框架,并結(jié)合了信息資源管理的相關(guān)技術(shù),中國(guó)論文網(wǎng)是面向數(shù)據(jù)密集型科學(xué)研究的數(shù)據(jù)管理和服務(wù)平臺(tái),能夠幫助科研人員解決數(shù)據(jù)密集型科學(xué)研究中的科學(xué)大數(shù)據(jù)問(wèn)題,有利于促進(jìn)數(shù)據(jù)共享和知識(shí)創(chuàng)新。但是數(shù)據(jù)資源云中仍然存在一些不足之處,比如如何高效集成不同類型的數(shù)據(jù)源、更好地保護(hù)數(shù)據(jù)安全等問(wèn)題,并且本文沒(méi)有對(duì)數(shù)據(jù)共享、隱私保護(hù)等方面的政策制定問(wèn)題進(jìn)行探討,這些都有待在后續(xù)的研究中繼續(xù)完善。
【淺談數(shù)據(jù)密集型數(shù)據(jù)資源云平臺(tái)的構(gòu)建】相關(guān)文章:
1.淺談大數(shù)據(jù)思維下示范中心網(wǎng)站信息系統(tǒng)的構(gòu)建論文
2.淺談廣州開放型經(jīng)濟(jì)發(fā)展階段與戰(zhàn)略選擇
3.關(guān)于發(fā)展互聯(lián)網(wǎng)運(yùn)營(yíng)模式的思考論文
4.關(guān)于建筑施工企業(yè)中計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的應(yīng)用論文