開發(fā)數(shù)據(jù)工具
“紙上得來終覺淺,絕知此事要躬行”,但是對(duì)于大多數(shù)的學(xué)生來講,現(xiàn)實(shí)世界的開發(fā)工具太過昂貴。下面由學(xué)習(xí)啦小編為大家整理的開發(fā)數(shù)據(jù)工具,希望大家喜歡!
開發(fā)數(shù)據(jù)工具
一、Solr
基于Apache Lucene,是一種高度可靠、高度擴(kuò)展的企業(yè)搜索平臺(tái)。知名用戶包括eHarmony、西爾斯、StubHub、Zappos、百思買、AT&T、Instagram、Netflix、彭博社和Travelocity。
二、Shark
即Hive on Spark,本質(zhì)上是通過Hive的HQL解析,把HQL翻譯成Spark上的RDD操作,然后通過Hive的metadata獲取數(shù)據(jù)庫(kù)里的表信息,實(shí)際HDFS上的數(shù)據(jù)和文件,會(huì)由Shark獲取并放到Spark上運(yùn)算。Shark的特點(diǎn)就是快,完全兼容Hive,且可以在shell模式下使用rdd2sql()這樣的API,把HQL得到的結(jié)果集,繼續(xù)在scala環(huán)境下運(yùn)算,支持自己編寫簡(jiǎn)單的機(jī)器學(xué)習(xí)或簡(jiǎn)單分析處理函數(shù),對(duì)HQL結(jié)果進(jìn)一步分析計(jì)算。
三、Terracotta
聲稱其BigMemory技術(shù)是“世界上首屈一指的內(nèi)存中數(shù)據(jù)管理平臺(tái)”,支持簡(jiǎn)單、可擴(kuò)展、實(shí)時(shí)消息,聲稱在190個(gè)國(guó)家擁有210萬開發(fā)人員,全球1000家企業(yè)部署了其軟件。
搜索開發(fā)數(shù)據(jù)工具
一、 Elasticsearch
是一個(gè)基于Lucene的搜索服務(wù)器。它提供了一個(gè)分布式、支持多用戶的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布,是當(dāng)前流行的企業(yè)級(jí)搜索引擎。設(shè)計(jì)用于云計(jì)算中,能夠達(dá)到實(shí)時(shí)搜索、穩(wěn)定、可靠、快速、安裝使用方便。
二、Lucene
基于Java的Lucene可以非常迅速地執(zhí)行全文搜索。據(jù)官方網(wǎng)站聲稱,它在現(xiàn)代硬件上每小時(shí)能夠檢索超過150GB的數(shù)據(jù),它擁有強(qiáng)大而高效的搜索算法。
三、 Kibana
是一個(gè)使用Apache 開源協(xié)議的Elasticsearch 分析和搜索儀表板,可作為L(zhǎng)ogstash和ElasticSearch日志分析的 Web 接口,對(duì)日志進(jìn)行高效的搜索、可視化、分析等各種操作。
收集開發(fā)數(shù)據(jù)工具
一、 Splunk
是機(jī)器數(shù)據(jù)的引擎。使用 Splunk 可收集、索引和利用所有應(yīng)用程序、服務(wù)器和設(shè)備(物理、虛擬和云中)生成的快速移動(dòng)型計(jì)算機(jī)數(shù)據(jù),從一個(gè)位置搜索并分析所有實(shí)時(shí)和歷史數(shù)據(jù)
二、Pentaho
是世界上最流行的開源商務(wù)智能軟件,以工作流為核心的、強(qiáng)調(diào)面向解決方案而非工具組件的、基于Java平臺(tái)的商業(yè)智能(Business Intelligence)套件。包括一個(gè)web server平臺(tái)和幾個(gè)工具軟件:報(bào)表、分析、圖表、數(shù)據(jù)集成、數(shù)據(jù)挖掘等,可以說包括了商務(wù)智能的方方面面。
三、Lingual
是Cascading的高級(jí)擴(kuò)展,為Hadoop提供了一個(gè)ANSI SQL接口極大地簡(jiǎn)化了應(yīng)用程序的開發(fā)和集成。Lingual實(shí)現(xiàn)了連接現(xiàn)有的商業(yè)智能(BI)工具,優(yōu)化了計(jì)算成本,加快了基于Hadoop的應(yīng)用開發(fā)速度。