推薦答案
Spark是一種快速通用的分布式計算系統,用于大規模數據處理。它最初由加州大學伯克利分校的AMPLab開發,作為Hadoop的一個子項目,并于2010年開源。
Spark提供了高級API,包括Java、Scala、Python和R,以及SQL查詢、流處理和圖形處理。它支持各種數據源,包括Hadoop Distributed File System(HDFS)、Apache Cassandra、Apache HBase等。火花還
Spark的主要優點是其速度和可擴展性。與傳統的MapReduce模型相比,Spark在內存中保留數據,從而避免了磁盤I / O的開銷。Spark還支持基于內存的迭代計算模型,可以在多個節點之間進行數據共享和通信,從而大大提高了計算速度和吞吐量。
由于其靈活性和高性能,Spark被廣泛用于各種大規模數據處理場景,包括機器學習、數據挖掘、圖形處理、日志分析等。
其他答案
-
Spark是一種通用的大數據計算框架,和傳統的大數據技術MapReduce有本質區別。前者是基于內存并行計算的框架,而mapreduce側重磁盤計算。Spark是加州大學伯克利分校AMP實驗室開發的通用內存并行計算框架,用于構建大型的、低延遲的數據分析應用程序。
-
Spark同樣支持離線計算和實時計算兩種模式。Spark離線計算速度要比Mapreduce快10-100倍。而實時計算方面,則依賴于SparkStreaming的批處理能力,吞吐量大。不過相比Storm,SparkStreaming并不能做到真正的實時。