所有events,增加頭,類似json格式里的"headers":{" key":" value"} 時間戳(頭部插入時間戳)、主機(頭部插入主機名和IP)、靜態(頭部插入指定KV)、正則過濾(留下符合條件的)、自定義 攔截器作用 1)ETL攔截器:輕度清洗,過濾出Json格式不完整的數據 2)時間攔截器:提取日志時間作為分區的依據,避免零點漂移問題 自定義攔截器步驟 1)實現Interceptor 2)重寫方法 (1)initialize初始化方法 (2)public Event intercept(Event event) 處理單個Event (3)public List intercept(List events) 處理多個Event,在這個方法中調用Event intercept(Event event) (4)close方法 3)靜態內部類,實現Interceptor.Builder 4)打包,上傳至flume/lib目錄下 5)在配置文件中關聯:全類名 + $builder 攔截器可以不用嗎? 可以不用,在hive的dwd層或sparkStream中處理即可,也可以用,但會影響性能,不推薦用在實時性高的場景
hive外部表是使用external關鍵字并指定一個hdfs目錄創建的表。hive內部表在創建時會在對應hive目錄下創建相應的文件夾,外部表則以指定文件夾為...詳情>>
2022-09-02 17:21:00Checkpoint是為runtime準備的,Savepoint 是為用戶準備的。Checkpoint 機制的目標在于保證Flink作業意外崩潰重啟不影響exactly once 準確性,通...詳情>>
2022-09-02 16:59:22State:指一個具體的Task/Operator的狀態。State可以被記錄,在失敗的情況下數據還可以恢復,Flink中有兩種基本類型的State: Keyed State, Op...詳情>>
2022-09-02 16:59:19Flink 內部是基于producer-consumer模型來進行消息傳遞的,Flink的反壓設計也是基于這個模型。Flink 使用了高效有界的分布式阻塞隊列,就像 Jav...詳情>>
2022-09-02 16:59:16雖說水位線(Watermark)表明早于它的事件不應該再出現,但是接收到水位線以前的的消息是不可避免的,這就是所謂的遲到事件。實際上遲到事件是亂...詳情>>
2022-09-02 16:59:00