HDFS的優(yōu)缺點(diǎn),HDFS(Hadoop Distributed File System)是Hadoop項(xiàng)目的核心子項(xiàng)目,是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ),是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,可以運(yùn)行于廉價(jià)的商用服務(wù)器上。
它所具有的高容錯(cuò)性、高可靠性、高可擴(kuò)展性、高獲得性、高吞吐率等特征為海量數(shù)據(jù)提供了不怕故障的存儲(chǔ),為超大數(shù)據(jù)集(Large Data Set)的應(yīng)用處理帶來了很多便利。1.HDFS優(yōu)點(diǎn)
(1)高容錯(cuò)性:數(shù)據(jù)自動(dòng)保存多個(gè)副本,副本丟失后,自動(dòng)恢復(fù),保證可靠性的同時(shí)也加快了處理速度,A結(jié)點(diǎn)負(fù)載高,可讀取B結(jié)點(diǎn)。
(2)適合批處理:移動(dòng)計(jì)算而非數(shù)據(jù),數(shù)據(jù)位置暴露給計(jì)算框架。
(3)可構(gòu)建在廉價(jià)機(jī)器上:通過多副本提高可靠性,提供容錯(cuò)和恢復(fù)機(jī)制。
2.HDFS缺點(diǎn)
(1)低延遲數(shù)據(jù)訪問:例如,訂單是否適合存儲(chǔ)在HDFS中,要求數(shù)據(jù)毫秒級就要查出來。
(2)小文件存取:不適合大量的小文件存儲(chǔ),如果真有這種需求的話,要對小文件進(jìn)行壓縮。
(3)并發(fā)寫入、文件隨機(jī)修改:不適合修改,實(shí)際中網(wǎng)盤、云盤內(nèi)容是不允許修改的,只能刪了重新上傳,它們都是Hadoop實(shí)現(xiàn)的。