一般選擇ORC+bzip/gzip作為數據源的存儲,選擇則ORC+Snappy作為中間數據的存儲,分區表單文件不大可以采用gzip壓縮,桶表需要用bzip或lzo支持分片的方式壓縮
設置壓縮建表時指定"stored as orc tblproperties ("orc.compress"="gzip")"
設置set hive.exec.compress.intermediate=true開啟中間數據壓縮
然后設置mapred.map.output.compression.codec指定中間數據的壓縮方式
設置 set hive.exec.compress.output=true 開啟輸出文件壓縮
然后設置 mapred.output.compression.codec 指定輸出文件的壓縮方式。