一般的app數據采集可能會存在數據上報延時,因此數據會存在兩個時間:數據生成的時間和服務器收到的時間。
由于我們底層數據都是按時間來做天的分區,那么該用數據生成的時間還是服務器收到的時間? 服務器收到時間。
如若用服務器時間。那么面對查詢某app或者某用戶某天的明細數據的時候這個如何操作? 有三種方式來處理:
1. 不做處理,查詢的時候,跨兩天的分區來查。
2. 時候修補,比如每兩天按照消息發送時間重新處理一遍數據。
3. 對于ods數據,不再做處理,在DW層按照消息發送時間來處理。
千鋒教育-做有情懷、有良心、有品質的職業教育機構
一般的app數據采集可能會存在數據上報延時,因此數據會存在兩個時間:數據生成的時間和服務器收到的時間。
由于我們底層數據都是按時間來做天的分區,那么該用數據生成的時間還是服務器收到的時間? 服務器收到時間。
如若用服務器時間。那么面對查詢某app或者某用戶某天的明細數據的時候這個如何操作? 有三種方式來處理:
1. 不做處理,查詢的時候,跨兩天的分區來查。
2. 時候修補,比如每兩天按照消息發送時間重新處理一遍數據。
3. 對于ods數據,不再做處理,在DW層按照消息發送時間來處理。
上一篇
說一說RPC通信框架下一篇
什么是ETL?hive外部表是使用external關鍵字并指定一個hdfs目錄創建的表。hive內部表在創建時會在對應hive目錄下創建相應的文件夾,外部表則以指定文件夾為...詳情>>
2022-09-02 17:21:00Checkpoint是為runtime準備的,Savepoint 是為用戶準備的。Checkpoint 機制的目標在于保證Flink作業意外崩潰重啟不影響exactly once 準確性,通...詳情>>
2022-09-02 16:59:22State:指一個具體的Task/Operator的狀態。State可以被記錄,在失敗的情況下數據還可以恢復,Flink中有兩種基本類型的State: Keyed State, Op...詳情>>
2022-09-02 16:59:19Flink 內部是基于producer-consumer模型來進行消息傳遞的,Flink的反壓設計也是基于這個模型。Flink 使用了高效有界的分布式阻塞隊列,就像 Jav...詳情>>
2022-09-02 16:59:16雖說水位線(Watermark)表明早于它的事件不應該再出現,但是接收到水位線以前的的消息是不可避免的,這就是所謂的遲到事件。實際上遲到事件是亂...詳情>>
2022-09-02 16:59:00