互聯網的快速發展帶來了數據快速增加,海量數據的存儲已經不是一臺機器所能處理的問題了。Hadoop的技術就應運而生。在千鋒大數據培訓講師的講解之后,對這個概念有了一個比較系統的了解。可以講Hadoop的核心內容看作是兩個部分,一個是分布式存儲,一個是分布式計算。
對于分布式存儲,Hadoop有自己的一套系統來處理叫Hadoop distribution file system。為什么分布式存儲需要一個額外的系統來處理,而不是就把1TB以上的文件分開存放就好了。如果不采用新的系統,我們存放的東西沒辦進行一個統一的管理。存放在A電腦的東西只能在連接到A去找,存在B的又得單獨去B找。繁瑣且不便于管理。而這個分布式存儲文件系統能把這些文件分開存儲的過程透明化,用戶看不到文件是怎么存儲在不同電腦上,看到的只是一個統一的管理界面。現在的云盤就是很好的給用戶這種體驗。
對于分布式計算。在對海量數據進行處理的時候,一臺機器肯定也是不夠用的。所以也需要考慮將將數據分在不同的機器上并行的進行計算,這樣不經可以節省大量的硬件的I/O開銷。也能夠將加快計算的速度。Hadoop對分布式計算的系統為MapReduce。Map即將數據分開存放進行計算,Reduce將分布計算的得到的結果進行整合,最后匯總得到一個最終的結果。這樣對Hadoop的技術有一個清晰框架思路。
相關文章
了解千鋒動態
關注千鋒教育服務號
掃一掃快速進入
千鋒移動端頁面
掃碼匿名提建議
直達CEO信箱