安装pyspark使用连接Spark Cluster报错:java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.问题描述解决Caused by: org.apache.spark.SparkException: Python worker failed to connect back.降低pyspark版本
安装pyspark
pip install pyspark
使用
连接Spark Cluster
from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName("sparkAppExample") sc = SparkContext(conf=conf)
报错:
java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.
问题描述
没有设置 HADOOP_HOME 和 hadoop.home.dir 两项。这两项主要是干嘛的呢?是配置在本地环境变量中的 Hadoop 地址,那么需要下载Windows版本的Hadoop来设置么?如果是远程连接Linux上的Hadoop集群,则完全不需要再下载安装Windows版本的Hadoop!!!
这是由于我在Windows本地VSCode连接,Windwos本地没有Hadoop环境。
解决
- 方式一
- 在本地配置Hadoop环境
- 方式二
- 在远程服务器安装pyspark使用(我采用这种,使用VSCode连接远程服务器进行测试)
Caused by: org.apache.spark.SparkException: Python worker failed to connect back.
spark版本过高,建议降低spark版本
降低pyspark版本
- 我这里从
pyspark3.3.0
降低到pyspark3.2.2
pip install -U pyspark==3.2.2 -i https://pypi.tuna.tsinghua.edu.cn/simple