spark有哪些組件? 2023-05-24
ApacheSpark是一個快速而通用的分布式計算引擎,用于大規模數據處理和分析。Spark提供了一系列核心組件和相關工具,用于構建分布式數據處理應...詳情>
spark和mapreduce的區別有哪些? 2023-03-30
數據處理方式:Spark支持多種數據處理方式,如批處理、流處理和機器學習等,而MapReduce主要用于批處理。詳情>
hadoop和spark哪個好 2023-03-30
Hadoop是一個比較成熟和穩定的分布式計算框架,它具有良好的可擴展性、容錯性和數據安全性。Hadoop的核心是分布式文件系統HDFS和分布式計算框...詳情>
spark是什么意思 2023-03-28
Spark還支持基于內存的迭代計算模型,可以在多個節點之間進行數據共享和通信,從而大大提高了計算速度和吞吐量。由于其靈活性和高性能,Spark...詳情>
Flink Spark on Yarn 分布式日志收集問題 2022-08-12
對于Flink,Spark在Yarn上提交的LongTime Job(比如一個批處理作業要運行幾個小時或者本身就是實時作業),其作業的運行日志我們不能等到作業結...詳情>
Spark repartition和coalesce的區別 2022-08-12
repartition只是coalesce接口中shuffle為true的實現。不經過 shuffle,也就是coaleasce shuffle為false,是無法增加RDD的分區數的,比如你源RD...詳情>
Spark groupByKey 和 reduceBykey 區別 2022-08-12
reduceByKey 可以接收一個 func 函數作為參數,這個函數會作用到每個分區的數據上,即分區內部的數據先進行一輪計算,然后才進行 shuffle 將數...詳情>
Spark Cache,Presist,CheckPoint的區別 2022-08-11
Persist 的 MEMORY_ONLY 級別的存儲等于 Cache,Persist 其他的配置只是存儲的方式不同,作用和原理是和 Cache 類似的,他們二者的區別如下:詳情>
Spark Streaming 反壓機制(Back Pressure) 2022-08-11
Spark Streaming 反壓機制是1.5版本推出的特性,用來解決處理速度比攝入速度慢的情況,簡單來講就是做流量控制。當批處理時間(Batch Processin...詳情>
Spark Streaming 窗口函數 2022-08-11
理解窗口的兩個關鍵概念,窗口長度(window length)和滑動間隔(slide interval)。 窗口函數會把原始 DStream 的若干批次的數據合并成為一個新的...詳情>
在線提問
專業導師線上坐鎮,解答個性化學習難題
提交問題