Hadoop

Hadoop

By  LaertesCTB

Hadoop 處理大數據的業界標準

   

Hadoop 的簡介

 Hadoop 是一項重要的雲計算技術,事實上它是處理和查詢海量數據(Big Data 大數據)的業界標準 (The De Facto Standard).   Hadoop 具有傳統系統不具備的關鍵核心優勢,它的一項重要概念是採用最具成本效益的產業標準硬件,進行分佈式數據處理 (Distributed Computing)。 Hadoop 的集群可以從一台服務器上快速地擴展到成千上萬台服務器,每台服務器提供分佈式處理數據處理和存儲,最符合成本效益地快速擴展計算能力,有效地解決存儲和處理大數據的困難。

Hadoop 關鍵核心優勢:     

  • Highly fault tolerance 高容錯
  • Built-in scalability 內置擴展 
  • Built-in load-balancing  內置負載均衡 
  • Automatic failover 自動故障轉移
  • Complete Set of Big Data Tools 完整的大數據工具集
   

Hadoop 包括以下特殊的運算技術:

  • Hadoop Distributed File System (HDFS) :  一個分佈式文件系統,提供了高吞吐量的數據存儲和處理
  • MapReduce : 大型數據並行處理系統
  • YARN : 作業調度和集群資源管理的框架
  • Hadoop Common : 共同模塊 支持其他Hadoop服務
  • Hive, Hadoop 的數據倉庫,方便簡單的數據匯總,即席查詢和分析大型數據集
  • HBase, Hadoop 的數據庫,高容錯,內置可擴展性,內置負載均衡,自動故障轉移和自動版本
  • Pig 並行數據流的引擎, MapReduce 程序的自動生成器
  • Ozzie, 一個可擴展的可靠的工作流調度系統
  • Mahout, Hadoop 的強大的機器學習庫
  • Sqoop,  數據庫數據遷移工具

Hadoop 使用產業標準硬件 (Use Industrial Standard Hardware)  遞增新的硬件 / 添加或移除存儲容量到群集 亦簡單容易,每 TB 的存儲和運算成本遠遠低於其他系統,支持可插拔壓縮算法,有效地利用磁盤空間。

   

您可以參考其他企業是如何處理大數據: Who uses Hadoop

   

如何啟動您的 HBase/Hadoop 項目

在今天的互聯網世界,企業正面臨著越來越多大數據的挑戰,當現在的傳統軟件無法處理大數據時,Hadoop 以數據為本的決策應用可以創造巨大的價值,成功啟動 Hadoop/HBase 項目有3個關鍵步驟:

  • 明確定義當前的業務挑戰和問題及業務應用領域:點算業務挑戰和目標,專注研究 Haddop 能夠提供最高回報的應用領域。
  • 明確定義技術要求確定數據的量,質,品種, 增速,識別 Hadoop 和 HBase 如何存儲和處理大數據
  • 規劃大數據項目構建可衡量的具體目標,商業價值,預期結果。計劃項目的實施方式,成本措施,資源,里程碑,項目任務和時間。

如果您有任何疑問請隨時 與我們聯繫 .

PostgreSQL, Open Source, database, Oracle, SQLServer, MYSQL