本課程是整套大數據課程的基石:其一,分布式文件系統HDFS用于存儲海量數據,無論是Hive、HBase或者Spark數據存儲在其上面;其二是分布式資源管理框架YARN,是Hadoop
云操作系統(也稱數據系統),管理集群資源和分布式數據處理框架MapReduce、Spark應用的資源調度與監控;分布式并行計算框架MapReduce目前是海量數據并行處理的一個最常用的框架。
Hadoop 2.x的編譯、環境搭建、HDFS Shell使用,YARN 集群資源管理與任務監控,
MapReduce編程,分布式集群的部署管理(包括高可用性HA)必須要掌握的。