利用Pycharm本地调试spark-streaming（包含kafka和zookeeper等操作）-白红宇

利用Pycharm本地调试spark-streaming（包含kafka和zookeeper等操作）

阅读量：4511 次

发布时间：2019-06-08

本文共 921 字，大约阅读时间需要 3 分钟。

环境准备就不说了！

第一步：打开Pycharm，在File->Setting->Project Structure中点击Add Content Root 添加本地python调用java和spark的组件（因为python和spark通讯是通过调用Jvm的相关组件实现的），包含两个压缩包可以在spark的安装包里面找到

第二步：在项目文件内添加本地配置

os.environ['SPARK_HOME'] = r'C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6'                 os.environ['JAVA_HOME'] = r'C:\software\jdk1.8'                 sys.path.append(r"C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6\python")         第三步：也是最重要的一步需要在本地的spark安装包内找到spark-defaults.conf的配置文件在末尾添加一行                   spark.jars.packages   org.apache.spark:spark-streaming-kafka-0-8_2.10:2.0.1                 这是本地操作kafka和一些组件的必备jar包。配置完毕以后就可以在maven仓库下载相关jar包了                （报了很多错误，查阅了很多英文文档才找到答案，国内没有找到相关问题答案）              成功后就可以利用本地的python和本地相关组件（spark,kafka hdfs）调试和操作远程组件了！               成功后会在本地环境生成（多线程模拟集群）写入的hdfs文件 可以调试了，操作本地文件还是很有用的哈！

转载于:https://www.cnblogs.com/feng-bigdata/p/7850365.html

你可能感兴趣的文章