麻豆黑色丝袜jk制服福利网站-麻豆精品传媒视频观看-麻豆精品传媒一二三区在线视频-麻豆精选传媒4区2021-在线视频99-在线视频a

千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站
千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻
千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

當前位置:首頁  >  技術干貨  > hive自定義函數的那點事

hive自定義函數的那點事

來源:千鋒教育
發布人:小千
時間: 2021-01-07 10:44:00 1609987440

經常有學習大數據的小伙伴問小千,hive應該如何去自定義函數?小千今天就來給大家分享一下hive自定義函數的教程,繼續往下看。

一、自定義函數

1 為什么需要自定義函數

hive的內置函數滿足不了所有的業務需求。

hive提供很多的模塊可以自定義功能,比如:自定義函數、serde、輸入輸出格式等。

2 常見自定義函數有哪些

 

UDF:用戶自定義函數,user defined function。一對一的輸入輸出。(最常用的)。

UDTF:用戶自定義表生成函數。user defined table-generate function.一對多的輸入輸出。lateral view explode

UDAF:用戶自定義聚合函數。user defined aggregate function。多對一的輸入輸出 count sum max。

二、自定義函數實現

1 UDF格式

先在工程下新建一個pom.xml,加入以下maven的依賴包 請查看code/pom.xml

定義UDF函數要注意下面幾點:

繼承org.apache.hadoop.hive.ql.exec.UDF

重寫evaluate(),這個方法不是由接口定義的,因為它可接受的參數的個數,數據類型都是不確定的。Hive會檢查UDF,看能否找到和函數調用相匹配的evaluate()方法

1.1 自定義函數第一個案例

1

2 函數加載方式

2.1 命令加載

這種加載只對本session有效

# 1、將編寫的udf的jar包上傳到服務器上,并且將jar包添加到hive的class path中

# 進入到hive客戶端,執行下面命令

add jar /hivedata/udf.jar

# 2、創建一個臨時函數名,要跟上面hive在同一個session里面:

create temporary function toUP as 'com.qf.hive.FirstUDF';

3、檢查函數是否創建成功

show functions;

4. 測試功能

select toUp('abcdef');

5. 刪除函數

drop temporary function if exists tolow;

2.2 啟動參數加載

(也是在本session有效,臨時函數)

2

2.3 配置文件加載

通過配置文件方式這種只要用hive命令行啟動都會加載函數

3

3 UDTF格式

UDTF是一對多的輸入輸出,實現UDTF需要完成下面步驟

繼承org.apache.hadoop.hive.ql.udf.generic.GenericUDF,

重寫initlizer()、getdisplay()、evaluate()。

執行流程如下:

UDTF首先會調用initialize方法,此方法返回UDTF的返回行的信息(返回個數,類型)。

初始化完成后,會調用process方法,真正的處理過程在process函數中,在process中,每一次forward()調用產生一行;如果產生多列可以將多個列的值放在一個數組中,然后將該數組傳入到forward()函數。

最后close()方法調用,對需要清理的方法進行清理。

3.1 需求:

把"k1:v1;k2:v2;k3:v3"類似的的字符串解析成每一行多行,每一行按照key:value格式輸出

3.2 源碼

自定義函數如下:

4

3.3 打包加載

對上述命令源文件打包為udf.jar,拷貝到服務器的/hivedata/目錄

在Hive客戶端把udf.jar加入到hive中,如下:

add jar /hivedata/udf.jar;

3.4 創建臨時函數:

在Hive客戶端創建函數:

5

3.5 測試臨時函數

select parseMap("name:zhang;age:30;address:shenzhen")

結果如下:

6

4 UDAF格式

用戶自定義聚合函數。user defined aggregate function。多對一的輸入輸出 count sum max。定義一個UDAF需要如下步驟:

UDF自定義函數必須是org.apache.hadoop.hive.ql.exec.UDAF的子類,并且包含一個火哥多個嵌套的的實現了org.apache.hadoop.hive.ql.exec.UDAFEvaluator的靜態類。

函數類需要繼承UDAF類,內部類Evaluator實UDAFEvaluator接口。

Evaluator需要實現 init、iterate、terminatePartial、merge、terminate這幾個函

這幾個函數作用如下:

函數說明init實現接口UDAFEvaluator的init函數iterate每次對一個新值進行聚集計算都會調用,計算函數要根據計算的結果更新其內部狀態terminatePartial無參數,其為iterate函數輪轉結束后,返回輪轉數據merge接收terminatePartial的返回結果,進行數據merge操作,其返回類型為boolean。terminate返回最終的聚集函數結果。

4.1 需求

計算一組整數的最大值

4.2 代碼

7

4.3 打包加載

對上述命令源文件打包為udf.jar,拷貝到服務器的/hivedata/目錄

在Hive客戶端把udf.jar加入到hive中,如下:

add jar /hivedata/udf.jar;

4.4 創建臨時函數:

在Hive客戶端創建函數:

8

3.5 測試臨時函數

select maxInt(mgr) from emp

結果如下:

9

最后歡迎大家添加我們的大數據技術分享交流qq群:857910996  加群找群管理免費領取大數據學習資料和項目源碼,趕緊來等你哦~~~~

tags:
聲明:本站稿件版權均屬千鋒教育所有,未經許可不得擅自轉載。
10年以上業內強師集結,手把手帶你蛻變精英
請您保持通訊暢通,專屬學習老師24小時內將與您1V1溝通
免費領取
今日已有369人領取成功
劉同學 138****2860 剛剛成功領取
王同學 131****2015 剛剛成功領取
張同學 133****4652 剛剛成功領取
李同學 135****8607 剛剛成功領取
楊同學 132****5667 剛剛成功領取
岳同學 134****6652 剛剛成功領取
梁同學 157****2950 剛剛成功領取
劉同學 189****1015 剛剛成功領取
張同學 155****4678 剛剛成功領取
鄒同學 139****2907 剛剛成功領取
董同學 138****2867 剛剛成功領取
周同學 136****3602 剛剛成功領取
相關推薦HOT
主站蜘蛛池模板: 日产亚洲一区二区三区| 黑人干| 18女人毛片水真多免费| 欧美色欧美亚洲另类二区| 久久久久久久性潮| acg里番全彩侵犯本子福利| 美女范冰冰hdxxxx| www.插插插| 中文字幕电影在线观看| 日本三级理论| 播五月婷婷| 伦理一区二区三区| 国产一区二区三区亚洲综合| 成年在线观看免费人视频草莓 | 国产精品欧美一区二区三区不卡| 99久久精品费精品国产一区二区| 国产色a在线观看| 黑人干白人| 青草国产精品久久久久久| 亚洲国产成人久久综合一区77| 亚洲福利精品一区二区三区| 老师您的兔子好软水好多动漫视频| 百合潮湿的欲望| 下面一进一出好爽视频| 国产福利一区二区在线观看| 老八吃屎奥利给原视频带声音的| 我被继夫添我阳道舒服男男| 欧美先锋影音| 日韩精品资源| 久久精品国内一区二区三区 | 午夜羞羞影院| 国产99久久久久久免费看| 欧美性猛交xxxx乱大交蜜桃| 香港黄色碟片黄色碟片| 美女性生活电影| 天堂亚洲国产日韩在线看| 小草视频免费观看| 波多野吉衣在线电影| 男女一区二区三区免费| 全部免费a级毛片| 黑人巨大白妞出浆|