確定是離線數倉嗎(如果是離線數倉,就算離線數倉數據從kafka接入,那這對kafka中數據順序的關系我就不太明白面試人想要啥)?
如果是離線數倉的數據從Kafka接入,接入到離線數據倉庫的數據需要保障順序嗎?這個保障不必要。我總覺得這個問題的核心是讓你保證Kakfa中數據的順序?我們就針對這個問題說明
1、kafka本身就是保障分區內的數據有序,但是主題有多個分區,這個主題的多有數據不敢保證有順序,所以我們需要為進入topic的數據做好key的分配(相同key只能進同一分區),保障相同的key的數據是有順序,這樣后續的實時數倉才方便計算,至于離線數倉要保障全局數據的順序很簡單,從新排序一下即可。
2、如果能設置kafka的上游數據僅為一個生產者,設置kafka只有一個分區,設置消費者只有一個,那這樣也能保障其kakfa數據有序的,但是這種幾乎就是極端場景,生產中很少見,除非數據很少可以嘗試。
更多關于大數據培訓的問題,歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年IT培訓服務經驗,采用全程面授高品質、高體驗培養模式,擁有國內一體化教學管理及學員服務,助力更多學員實現高薪夢想。