hadoop是做什么的?
Hadoop是一個(gè)開源的大數(shù)據(jù)框架,是一個(gè)分布式計(jì)算的解決方案。Hadoop的兩個(gè)核心解決了數(shù)據(jù)存儲問題(HDFS分布式文件系統(tǒng))和分布式計(jì)算問題(MapRe-duce)。
舉例1:用戶想要獲取某個(gè)路徑的數(shù)據(jù),數(shù)據(jù)存放在很多的機(jī)器上,作為用戶不用考慮在哪臺機(jī)器上,HD-FS自動(dòng)搞定。
舉例2:如果一個(gè)100p的文件,希望過濾出含有Hadoop字符串的行。這種場景下,HDFS分布式存儲,突破了服務(wù)器硬盤大小的限制,解決了單臺機(jī)器無法存儲大文件的問題,同時(shí)MapReduce分布式計(jì)算可以將大數(shù)據(jù)量的作業(yè)先分片計(jì)算,最后匯總輸出。
學(xué)hadoop需要什么基礎(chǔ)?難學(xué)嗎?
學(xué)hadoop之前需要會虛擬機(jī)搭建,Linux操作系統(tǒng)設(shè)置、Python或者Java語言等,詳細(xì)如下:
一、Linux:
1、需要能夠熟練操作linux常用命令以及網(wǎng)絡(luò)配置;
2、熟悉用戶以及權(quán)限管理操作;
3、需要熟悉軟件包以及系統(tǒng)命令管理;
4、還需要學(xué)習(xí)一下shell編程。
二、Java:
1、需要具備一定的javase基礎(chǔ)知識;
2、如果懂java web及各種框架知識那就更好了。
三、虛擬機(jī):
1、需要掌握虛擬機(jī);
2、需要安裝linux操作系統(tǒng);
3、需要配置虛擬機(jī)網(wǎng)絡(luò)。
除了上述這幾個(gè)方面,我們還需要了解hadoop的單機(jī)模式、偽分布模式和分布式模式的搭建方式。了解MapReduce分布式計(jì)算框架、Yarn集群資源管理和調(diào)度平臺、hdfs分布式文件系統(tǒng)、hive數(shù)據(jù)倉庫、HBase實(shí)時(shí)分布式數(shù)據(jù)庫、Flume日志收集工具、sqoop數(shù)據(jù)庫ETL工具、zookeeper分布式協(xié)作服務(wù)、Mahout數(shù)據(jù)挖掘庫等。