• 免費試用
    banner
    大數據平臺>大數據技術與應用>基于Java開源大數據工具

    譯見:從理論到實踐,基于Java的開源大數據工具

    作者: 大數據觀察來源: 大數據觀察時間:2017-08-01 10:20:010

     

     

    36大數據專稿,原文作者:Byron Kiourtzoglou  本文由1號店-歐顯東編譯向36大數據投稿,并授權36大數據獨家發布。轉載必須獲得本站及作者的同意,拒絕任何不標明作者及來源的轉載!

    你也許會問,什么是大數據呢?最重要的是為什么它在每一個商業領域都是最新的趨勢??這是一個炒作還是會繼續發展??

    事實上,“大數據”是一個相當簡單的術語,簡單的說就是一個非常大的數據。有多大?答案是你無法想象。

    這數據真的有如此大的規模嗎?的確如此,因為這個數據無處不在。例如:用于收集天氣信息的RFID傳感器收集的天氣信息,GPRS手機包,社交媒體網站的帖子,照片和視頻,在線購買交易記錄等等。大數據是一個巨大的數據可能包含我們感興趣的每一個來源信息。

    不過大數據不僅僅是簡單的大小,相反大數據的主要特點是大量化(Volume), 多樣化(Variety),快速化(Velocity),價值化(Value)。簡稱大數據的四V。讓我們簡要地研究其中的每一個代表什么:

    大量化(Volume):企業面臨著數據量的大規模增長。例如,IDC最近的報告預測稱,到2020年,全球數據量將擴大50倍。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。簡而言之,存儲1PB數據將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產生數據。

    多樣化(Variety):一個普遍觀點認為,人們使用互聯網搜索是形成數據多樣性的主要原因,這一看法部分正確。然而,數據多樣性的增加主要是由于新型多結構數據,以及包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數據的多樣性。

    快速化(Velocity):高速描述的是數據被創建和移動的速度。在高速網絡時代,通過基于實現軟件性能優化的高速電腦處理器和服務器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據IMS Research關于數據創建速度的調查,據預測,到2020年全球將擁有220億部互聯網連接設備。

    價值化(Value):大量的不相關信息,浪里淘沙卻又彌足珍貴。對未來趨勢與模式的可預測分析,深度復雜分析(機器學習、人工智能Vs傳統商務智能(咨詢、報告等)。

    然而現有的商業智能和數據倉庫解決方案還不能完全支持4 V,大數據解決方案正在發展來應對這些挑戰。

    下面是一個簡短的介紹主要的開源的基于Java的工具,可用來支持大數據:

     

     

     

    HDFS

    HDFS是主要的分布式存儲由hadoop應用程序使用。HDFS集群主要由NameNode管理文件系統元數據和DataNode存儲實際數據。HDFS是專門設計用于存儲大量的數據, HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。

     

     

     

    MapReduce

     

    Hadoop MapReduce是一個軟件框架,可以輕松編寫應用程序,處理大量的數據(幾千兆的數據集)并且具有在大型集群(數千個節點)的硬件可靠、容錯的方式。

     

     

     

     

     

    HBase

     

    Apache HBase 是Hadoop數據庫、具有分布式、可擴展、大數據存儲的特點。它提供了隨機的,實時的大數據的讀/寫訪問。HBase是一個分布式的、面向列的開源數據庫,該技術來源于 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化數據的分布式存儲系統”。就像Bigtable利用了Google文件系統(File System)所提供的分布式數據存儲一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫。另一個不同的是HBase基于列的而不是基于行的模式。

     

     

     

    Cassandra

     

    Cassandra是一套開源分布式NoSQL數據庫系統。它最初由Facebook開發,用于儲存收件箱等簡單格式數據,集GoogleBigTable的數據模型與Amazon Dynamo的完全分布式的架構于一身Facebook于2008將 Cassandra 開源,此后,由于Cassandra良好的可擴放性,被Digg、Twitter等知名Web 2.0網站所采納,成為了一種流行的分布式結構化數據存儲方案。

     

     

     

     

     

    Hive

    hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

     

     

     

     

    PIG

     

    Pig是一種編程語言,它簡化了Hadoop常見的工作任務。Pig可加載數據、轉換數據以及存儲最終結果。Pig內置的操作使得半結構化數據變得有意義(如日志文件)。同時Pig可擴展使用Java中添加的自定義數據類型并支持數據轉換。Pig最大的作用就是對mapreduce算法(框架)實現了一套shell腳本 ,類似我們通常熟悉的SQL語句,在Pig中稱之為Pig Latin,在這套腳本中我們可以對加載出來的數據進行排序、過濾、求和、分組(group by)、關聯(Joining),Pig也可以由用戶自定義一些函數對數據集進行操作,也就是傳說中的UDF(user-defined functions)。

     

     

     

     

     

    Chukwa

    Chukwa 是一個開源的用于監控大型分布式系統的數據收集系統。這是構建在 hadoop 的 hdfs 和 map/reduce 框架之上的,繼承了 hadoop 的可伸縮性。Chukwa 還包含了一個強大和靈活的工具集,可用于展示、監控和分析已收集的數據。

     

     

     

    Ambari:

     

    Apache Ambari是對Hadoop進行監控、管理和生命周期管理的開源項目。它也是一個為Hortonworks數據平臺選擇管理組建的項目。Ambari向Hadoop MapReduce、HDFS、 HBase、Pig, Hive、HCatalog以及Zookeeper提供服務。

     

     

     

     

    ZooKeeper

     

    ZooKeeper是一個分布式的,開放源碼的分布式應用程序協調服務,是Google的Chubby一個開源的實現,是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的軟件,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。

     

     

     

     

     

     

     

     

    Sqoop

    是一款開源的工具,主要用于在HADOOP(Hive)與傳統的數據庫(mysql、postgresql…)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。

     

     

    Oozie

     

    Apache Oozie是一個可伸縮的、可靠的和可擴展的工作流調度系統來管理Apache Hadoop的工作。

     

     

     

     

     

    Mahout

     

    Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。Mahout包含許多實現,包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地擴展到云中。

     

     

     

     

     

    HCatalog

    Apache HCatalog是基于Apache Hadoop之上的數據表和存儲管理服務。包括: 提供一個共享的模式和數據類型的機制。 抽象出表,使用戶不必關心他們的數據怎么存儲。 提供可操作的跨數據處理工具,如Pig,MapReduce,Streaming,和Hive。

     

     

    譯自:javacodegeeks.com,原文標題:What is Big Data – Theory to Implementation

    banner
    看過還想看
    可能還想看
    熱點推薦
    Yonghong的價值觀:以卓越的數據技術為客戶創造價值,實現客戶成功。