為什么要使用Python來寫Spark
Python寫spark我認為唯一的理由就是:你要做數據挖掘,AI相關的工作。因為很多做數挖的他們的基礎語言都是python,他們如果重新學scala比較耗時,而且,python他的強大類庫是他的優勢,很多算法庫只有python有。
Win本地編寫代碼調試
編輯器:PyCharm
Spark:1.6
Python:2.7
Win環境準備
Python的安裝
解壓python包,在環境變量里面配上bin的路徑
Spark的安裝
下載spark的bin文件,解壓即可,在環境變量配置SPARK_HOME
要可以通過編輯器來安裝,如pycharm,查找pyspark庫安裝即可
Hadoop安裝
安裝hadoop環境。在win下面需要winutils.exe;在環境里面配置HADOOP_HOME即可。
代碼示例
#-*-coding:utf-8-*-
from__future__importprint_function
frompysparkimport*
importos
print(os.environ['SPARK_HOME'])
print(os.environ['HADOOP_HOME'])
if__name__=='__main__':
sc=SparkContext("local[8]")
rdd=sc.parallelize("helloPysparkworld".split(""))
counts=rdd\
.flatMap(lambdaline:line)\
.map(lambdaword:(word,1))\
.reduceByKey(lambdaa,b:a+b)\
.foreach(print)
sc.stop
問題:
frompysparkimport*
找不到pyspark。那你需要把spark的bin包下面的python的所有都拷貝到(可能需要解壓py4j)
%PYTHON%\Lib\site-packages下面去。這樣,你的編輯器才能找到。
或者:
配置你的編輯器的環境變量:
PYTHONPATH=F:\home\spark-1.6.0-bin-hadoop2.6\python;F:\python2.7\Lib\site-packages
使用spark-submit提交時用到其他類庫–py-filesxxxx/xxxx.zip,xxxx.py。
以上內容為大家介紹了Python培訓之怎么用python寫spark,希望對大家有所幫助,如果想要了解更多Python相關知識,請關注IT培訓機構:千鋒教育。