所謂海量數據處理,無非就是基于海量數據上的存儲、處理、操作。何謂海量,就是數據量太大,所以導致要么是無法在較短時間內迅速解決,要么是數據太大,導致無法一次性裝入內存。
那解決辦法呢?
針對時間: 我們可以采用巧妙的算法搭配合適的數據結構,如Bloom filter/Hash/bit-map/堆/數據庫或倒排索引/trie樹;
針對空間: 無非就一個辦法: 大而化小,分而治之(hash映射);
集群|分布式: 通俗點來講,單機就是處理裝載數據的機器有限(只要考慮cpu,內存,硬盤的數據交互); 而集群適合分布式處理,并行計算(更多考慮節點和節點間的數據交互)。