離線數(shù)據(jù)倉庫主要基于sqoop、hive等技術(shù)來構(gòu)建T+1的離線數(shù)據(jù),通過定時任務(wù)每天拉取增量數(shù)據(jù)導(dǎo)入到hive表中,然后創(chuàng)建各個業(yè)務(wù)相關(guān)的主題維度數(shù)據(jù),對外提供T+1的數(shù)據(jù)查詢接口。
實時數(shù)倉當(dāng)前主要是基于數(shù)據(jù)采集工具,如canal等將原始數(shù)據(jù)寫入到Kafka這樣的數(shù)據(jù)通道中,最后一般都是寫入到類似于HBase這樣存儲系統(tǒng)中,對外提供分鐘級別、甚至秒級別的查詢方案。
總結(jié): 離線數(shù)倉|準(zhǔn)確度高|時延一般在一天|穩(wěn)定性好,方便重算 實時數(shù)倉|準(zhǔn)確度底,數(shù)據(jù)延遲、數(shù)據(jù)亂序造成數(shù)據(jù)準(zhǔn)確度低|分鐘級延遲|穩(wěn)定性查,需要考慮數(shù)據(jù)回溯處理