什么是鯤鵬BoostKit壓縮算法?面對海量數據的處理需求和分布式IT架構的普及,越來越多企業希望構建擴展性更高、成本更低的分布式存儲方案。如何對數據進行極致壓縮,在同等存儲空間下更快存儲更多數據,成為當前的主要挑戰。
本期,給大家分享如何基于鯤鵬BoostKit分布式存儲使能套件的壓縮算法,實現數據訪問更快、存儲更高效。
LZ4壓縮算法是業界主流的數據壓縮算法之一,是一種基于字典編碼的壓縮算法,通過使用一些簡單的代號代替數據中重復的字符串,實現數據的壓縮,其中字符串與代號的對應關系匯總為偏移表,起到字典的作用。
鯤鵬BoostKit壓縮算法,基于業界開源的LZ4壓縮算法主要做了四方面優化,實現壓縮率的提升。
構建全局動態偏移表
鯤鵬BoostKit壓縮算法構建更加高效的動態全局偏移信息表,實現對傳統Hash匹配策略的替代。
設計分層算法模型
鯤鵬BoostKit壓縮算法針對整個數據塊匹配最優的壓縮模型和最優的壓縮參數,并且能夠收集實時的負載信息,反饋至壓縮算法引擎。
優化壓縮頭部
鯤鵬BoostKit壓縮算法通過將偏移信息合入壓縮頭部中,且針對不同數據壓縮場景,自適應地調整文本長度、匹配內容長度、偏移信息所占用的bit位數。
優化滑動窗口
開源LZ4算法采用固定的Sequence存儲格式,匹配過程中的搜索窗口為固定64KB。鯤鵬BoostKit壓縮算法優化了頭部的Sequence信息,支持動態匹配窗口,在數據塊大小變化頻繁的場景下避免造成存儲冗余或不足。
此外,鯤鵬BoostKit還基于鯤鵬架構的特點進行了指令級別的優化,如嵌入式匯編加速、批處理加速、NEON指令加速、預取指令加速等,充分釋放鯤鵬硬件算力,加速壓縮性能。
多種場景下的測試證明,使用鯤鵬BoostKit壓縮算法,確實能夠有效提升數據壓縮率和存儲帶寬性能。以均衡型存儲場景為例,相比在傳統平臺上使用開源算法,鯤鵬BoostKit壓縮算法的壓縮率提升25%,帶寬性能提升10%。
鯤鵬BoostKit分布式存儲使能套件提供高性能的Ceph開源組件,原生支持LZ4、Zlib、Zstd、Snappy等壓縮算法,且已經使能Ceph 16.2.x及之后的發行版支持鯤鵬硬件壓縮加速庫。此外,鯤鵬BoostKit分布式存儲使能套件還提供IO直通、EC Turbo等豐富的存儲加速技術,適合不同的應用場景需求。