英特爾提供的Hadoop發(fā)行版包含Hadoop分布式文件系統HDFS、分布式數據庫HBase、分布式計算框架MapReduce、數據倉庫Hive、數據處理Pig、機器學習Mahout商業(yè)套件。
其中,Hadoop 分布式文件系統(HDFS)是運行在通用硬件上的分布式文件系統。HDFS提供了一個高度容錯性和高吞吐量的海量數據存儲解決方案。它具備高吞吐量訪問、無縫容量擴充、高度容錯的特點。
HBase是一個面向列的實時分布式數據庫。HBase不是一個關系型數據庫,其設計目標是用來解決關系型數據庫在處理海量數據時的理論和實現上的局限性。HBase從一開始就是為Terabyte到Petabyte級別的海量數據存儲和高速讀寫而設計,這些數據要求能夠被分布在數千臺普通服務器上,并且能夠被大量并發(fā)用戶高速訪問。
MapReduce是一個高性能的批處理分布式計算框架,用于對海量數據進行并行分析和處理。MapReduce適合處理各種類型的數據,包括結構化、半結構化和非結構化數據。
Hive是一種建立在Hadoop之上的數據倉庫架構。它采用HDFS進行數據存儲并利用MapReduce 框架進行數據操作。所以從本質上來說,Hive就是個編譯器,它把用戶的操作(查詢或者ETL)變換成MapReduce任務,利用MapReduce框架執(zhí)行這些任務以對HDFS上的海量數據進行處理。它具備針對海量數據的高性能查詢和分析系統和類SQL的查詢語言HiveQL。
Pig是一個基于Hadoop并運用MapReduce和HDFS 實現大規(guī)模數據分析的平臺。它為海量數據的并行處理提供了操作以及編程實現的接口。
Mahout是一套具有可擴充能力的機器學習類庫。它提供機器學習框架的同時,還實現了一些可擴展的機器學習領域經典算法的實現,可以幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。通過和Apache Hadoop分布式框架相結合,Mahout可以有效地使用分布式系統來實現高性能計算。
![]()