博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
利用Pycharm本地调试spark-streaming(包含kafka和zookeeper等操作)
阅读量:4511 次
发布时间:2019-06-08

本文共 921 字,大约阅读时间需要 3 分钟。

                          环境准备就不说了!

                          第一步:打开Pycharm,在File->Setting->Project Structure中点击Add Content Root 添加本地python调用java和spark的组件(因为python和spark通讯是通过调用Jvm的相关组件实现的) ,包含两个压缩包可以在spark的安装包里面找到

                          

 

                        

 

                         第二步:在项目文件内添加本地配置

os.environ['SPARK_HOME'] = r'C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6'                 os.environ['JAVA_HOME'] = r'C:\software\jdk1.8'                 sys.path.append(r"C:\Users\fengxu\Desktop\bigdata-software\spark-1.6.0-bin-hadoop2.6\python")         第三步:也是最重要的一步需要在本地的spark安装包内找到spark-defaults.conf的配置文件在末尾添加一行                   spark.jars.packages   org.apache.spark:spark-streaming-kafka-0-8_2.10:2.0.1                 这是本地操作kafka和一些组件的必备jar包。配置完毕以后就可以在maven仓库下载相关jar包了                (报了很多错误,查阅了很多英文文档才找到答案,国内没有找到相关问题答案)              成功后就可以利用本地的python和本地相关组件(spark,kafka hdfs)调试和操作远程组件了!               成功后会在本地环境生成(多线程模拟集群)写入的hdfs文件 可以调试了,操作本地文件还是很有用的哈!

 

 

 

 

转载于:https://www.cnblogs.com/feng-bigdata/p/7850365.html

你可能感兴趣的文章
LeetCode #24 Swap Nodes in Pairs
查看>>
基于WPF系统框架设计(3)-Fluent Ribbon界面布局
查看>>
Photoshop 使用曲线
查看>>
修改表中字段时发生错误
查看>>
YARN的笔记
查看>>
和我一起学习爬虫之爬虫原理和网站基本知识
查看>>
linux内核学习——内存管理
查看>>
SharpDevelop研究笔记
查看>>
php bom \ufeff
查看>>
UWP 使用Windows.Web.Http命名空间下的HttpClient使用post方法,上传图片服务器
查看>>
Docker系列05—Docker 存储卷详解
查看>>
Python基础之内置函数
查看>>
Merge Two Sorted Lists_LeetCode
查看>>
docker使用1
查看>>
public private protected default
查看>>
Python 爬取网页中JavaScript动态添加的内容(一)
查看>>
熟悉常用的HBase操作
查看>>
c# webform 仿百度自动补全(搭配mysql数据库)
查看>>
Kafka介绍及安装部署
查看>>
SpringMVC集成springfox-swagger2自动生成接口文档
查看>>