三级成人在线视频,中文字幕无码在线看,口爆吞精亚洲欧美日韩

　　大數據經典面試題答疑---經常問的原理問題總結(系列文章，持續更新)，幫你解決大數據開發中的困擾。

　　1. hive+MapReduce

　　答案區：

　　1. hive+MapReduce

　　Hive不支持行級數據的插入、更新和刪除，也不支持事務操作;

　　1.1. MapReduce的join過程

wpsovWTMc

　　(1)：利用DistributedCache將小表分發到各個節點上，在Map過程的setup()函數里，讀取緩存里的文件，只將小表的連接鍵存儲在hashSet中。

　　(2)：在map()函數執行時，對每一條數據進行判斷(包含小表數據)，如果這條數據的連接鍵為空或者在hashSet里不存在，那么則認為這條數據無效，這條數據也不參與reduce的過程。

　　1.2. hive的SQL解析過程

　　詞法、語法解析: Antlr 定義 SQL 的語法規則，完成 SQL 詞法，語法解析，將 SQL 轉化為抽象語法樹 AST Tree;

　　語義解析: 遍歷 AST Tree(抽象語法樹，抽象語法結構的樹狀)，抽象出查詢的基本組成單元 QueryBlock;

　　生成邏輯執行計劃: 遍歷 QueryBlock，翻譯為執行操作樹 OperatorTree;

　　優化邏輯執行計劃: 邏輯層優化器進行 OperatorTree 變換，合并 Operator，達到減少 MapReduce Job，減少數據傳輸及 shuffle 數據量;

　　生成物理執行計劃: 遍歷 OperatorTree，翻譯為 MapReduce 任務;

　　優化物理執行計劃: 物理層優化器進行 MapReduce 任務的變換，生成最終的執行計劃。

　　1.3. hive數據導入

　　load data inpath '/hadoop/guozy/data/user.txt' into table external_table;

　　此處是移動(非復制)，移動數據非?？欤粫祿欠穹隙x的Schema做校驗，這個工作通常在讀取的時候進行(即Schema on Read)

　　1.4. 內部表與外部表的不同

　　1.創建外部表需要添加 external 字段。而內部表不需要。

　　2.刪除外部表時，HDFS中的數據文件不會一起被刪除。而刪除內部表時，表數據及HDFS中的數據文件都會被刪除。

　　3.內部表與外部表如果不指定location，默認使用hive.metastore.warehouse.dir指定的路徑

　　1.5. 分區和分桶

　　1.5.1. 分區

　　指的就是將數據按照表中的某一個字段進行統一歸類，并存儲在表中的不同的位置，也就是說，一個分區就是一類，這一類的數據對應到hdfs存儲上就是對應一個目錄。

　　1.5.1.1. 靜態分區

　　數據已經按某些字段分完區放在一塊，建表時直接指定分區即可。

　　create table enter_country_people(id int,name string,cardNum string)

　　partitioned by (enter_date string,country string);

　　注意，這里的分區字段不能包含在表定義字段中，因為在向表中load數據的時候，需要手動指定該字段的值.

　　數據加載(指定分區)：

　　load data inpath '/hadoop/guozy/data/enter__china_people' into table enter_country_people partition (enter_date='2019-01-02',country='china');

　　此處自動創建分區目錄;

　　創建完后目錄結構：

wpsdJ7hIU

　　其他創建分區目錄的方法：

　　1.alter table enter_country_people add if not exists partition (enter_date='2019-01-03',country='US');

　　2.在相應的表目錄下創建分區目錄后，執行 msck repair table table_name;

　　1.5.1.2. 動態分區

　　建表相同，主要是加載數據方式不同，動態分區是將大雜燴數據自動加載到不同分區目錄。

　　1.開啟非嚴格模式

　　2.需要從另一張hive表查詢

　　set hive.exec.dynamic.partition.mode=nonstrict;

　　insert into table enter_country_people(user string,age int) partition(enter_date,country) select user,age,enter_date,country from enter_country_people_bak;

　　1.5.2. 分桶表

　　如果兩個表根據相同的字段進行分桶，則在對這兩個表進行關聯的時候可以使用map-side關聯高效實現。

　　create table user_bucket(id int comment 'ID',name string comment '姓名',age int comment '年齡') comment '測試分桶' clustered by (id) sorted by (id) into 4 buckets row format delimited fields terminated by '\t';

　　指定根據id字段進行分桶，并且分為4個桶，并且每個桶內按照id字段升序排序，如果不加sorted by，則桶內不經過排序的，上述語句中為id，根據id進行hash之后在對分桶數量4進行取余來決定該數據存放在哪個桶中，因此每個桶都是整體數據的隨機抽樣。

　　數據載入：

　　我們需要借助一個中間表，先將數據load到中間表中，然后通過insert的方式來向分桶表中載入數據。

　　create table tmp_table (id int comment 'ID',name string comment '名字',age int comment '年齡') comment '測試分桶中間表' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

　　load data inpath '/hadoop/guoxb/data/user.txt' into table tmp_table;

　　insert into user_bucket select * from tmp_table;

　　上述的語句中，最終會在hdfs上生成四個文件，而不是四個目錄，如果當在次向該分桶表中insert數據后，會又增加4個文件，而不是在原來的文件上進行追加。

　　1.5.3. 區別

　　1.hdfs目錄結構不同，分區是生成目錄，分桶是生成文件

　　2.分區表在加載數據的時候可以指定加載某一部分數據，有利于查詢

　　3.分桶在map-side join(另一種 reduce-side join)查詢時，可以直接從bucket(兩表分桶成倍數即可)中提取數據進行關聯操作，查詢高效。

　　1.6. Sort By、Order By、Cluster By，Distribute By，group by

　　order by：會對輸入做全局排序，因此***\*只有一個reducer\****(多個reducer無法保證全局有序)。只有一個reducer，會導致當輸入規模較大時，需要較長的計算時間。

　　distribute by：按照指定的字段對數據進行劃分輸出到不同的reduce中(單純的分散數據)。

　　sort by：局部排序，sort by只是確保每個reduce上面輸出的數據有序，當只有一個reduce時，也變成全局排序。

wpsq0kGDl