經常有學習大數據的小伙伴問小千,hive應該如何去自定義函數?小千今天就來給大家分享一下hive自定義函數的教程,繼續往下看。
一、自定義函數
1 為什么需要自定義函數
hive的內置函數滿足不了所有的業務需求。
hive提供很多的模塊可以自定義功能,比如:自定義函數、serde、輸入輸出格式等。
2 常見自定義函數有哪些
UDF:用戶自定義函數,user defined function。一對一的輸入輸出。(最常用的)。
UDTF:用戶自定義表生成函數。user defined table-generate function.一對多的輸入輸出。lateral view explode
UDAF:用戶自定義聚合函數。user defined aggregate function。多對一的輸入輸出 count sum max。
二、自定義函數實現
1 UDF格式
先在工程下新建一個pom.xml,加入以下maven的依賴包 請查看code/pom.xml
定義UDF函數要注意下面幾點:
繼承org.apache.hadoop.hive.ql.exec.UDF
重寫evaluate(),這個方法不是由接口定義的,因為它可接受的參數的個數,數據類型都是不確定的。Hive會檢查UDF,看能否找到和函數調用相匹配的evaluate()方法
1.1 自定義函數第一個案例
2 函數加載方式
2.1 命令加載
這種加載只對本session有效
# 1、將編寫的udf的jar包上傳到服務器上,并且將jar包添加到hive的class path中
# 進入到hive客戶端,執行下面命令
add jar /hivedata/udf.jar
# 2、創建一個臨時函數名,要跟上面hive在同一個session里面:
create temporary function toUP as 'com.qf.hive.FirstUDF';
3、檢查函數是否創建成功
show functions;
4. 測試功能
select toUp('abcdef');
5. 刪除函數
drop temporary function if exists tolow;
2.2 啟動參數加載
(也是在本session有效,臨時函數)
2.3 配置文件加載
通過配置文件方式這種只要用hive命令行啟動都會加載函數
3 UDTF格式
UDTF是一對多的輸入輸出,實現UDTF需要完成下面步驟
繼承org.apache.hadoop.hive.ql.udf.generic.GenericUDF,
重寫initlizer()、getdisplay()、evaluate()。
執行流程如下:
UDTF首先會調用initialize方法,此方法返回UDTF的返回行的信息(返回個數,類型)。
初始化完成后,會調用process方法,真正的處理過程在process函數中,在process中,每一次forward()調用產生一行;如果產生多列可以將多個列的值放在一個數組中,然后將該數組傳入到forward()函數。
最后close()方法調用,對需要清理的方法進行清理。
3.1 需求:
把"k1:v1;k2:v2;k3:v3"類似的的字符串解析成每一行多行,每一行按照key:value格式輸出
3.2 源碼
自定義函數如下:
3.3 打包加載
對上述命令源文件打包為udf.jar,拷貝到服務器的/hivedata/目錄
在Hive客戶端把udf.jar加入到hive中,如下:
add jar /hivedata/udf.jar;
3.4 創建臨時函數:
在Hive客戶端創建函數:
3.5 測試臨時函數
select parseMap("name:zhang;age:30;address:shenzhen")
結果如下:
4 UDAF格式
用戶自定義聚合函數。user defined aggregate function。多對一的輸入輸出 count sum max。定義一個UDAF需要如下步驟:
UDF自定義函數必須是org.apache.hadoop.hive.ql.exec.UDAF的子類,并且包含一個火哥多個嵌套的的實現了org.apache.hadoop.hive.ql.exec.UDAFEvaluator的靜態類。
函數類需要繼承UDAF類,內部類Evaluator實UDAFEvaluator接口。
Evaluator需要實現 init、iterate、terminatePartial、merge、terminate這幾個函
這幾個函數作用如下:
函數說明init實現接口UDAFEvaluator的init函數iterate每次對一個新值進行聚集計算都會調用,計算函數要根據計算的結果更新其內部狀態terminatePartial無參數,其為iterate函數輪轉結束后,返回輪轉數據merge接收terminatePartial的返回結果,進行數據merge操作,其返回類型為boolean。terminate返回最終的聚集函數結果。
4.1 需求
計算一組整數的最大值
4.2 代碼
4.3 打包加載
對上述命令源文件打包為udf.jar,拷貝到服務器的/hivedata/目錄
在Hive客戶端把udf.jar加入到hive中,如下:
add jar /hivedata/udf.jar;
4.4 創建臨時函數:
在Hive客戶端創建函數:
3.5 測試臨時函數
select maxInt(mgr) from emp
結果如下:
最后歡迎大家添加我們的大數據技術分享交流qq群:857910996 加群找群管理免費領取大數據學習資料和項目源碼,趕緊來等你哦~~~~