Spark7:Python使用Spark

安装pyspark 使用连接Spark Cluster 报错：java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.问题描述解决 Caused by: org.apache.spark.SparkException: Python worker failed to connect back.降低pyspark版本

安装pyspark


pip install pyspark

使用

连接Spark Cluster


from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("sparkAppExample")
sc = SparkContext(conf=conf)

报错：

java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.

问题描述

没有设置 HADOOP_HOME 和 hadoop.home.dir 两项。这两项主要是干嘛的呢？是配置在本地环境变量中的 Hadoop 地址，那么需要下载Windows版本的Hadoop来设置么？如果是远程连接Linux上的Hadoop集群，则完全不需要再下载安装Windows版本的Hadoop！！！

这是由于我在Windows本地VSCode连接，Windwos本地没有Hadoop环境。

解决

方式一

在本地配置Hadoop环境

方式二

在远程服务器安装pyspark使用（我采用这种，使用VSCode连接远程服务器进行测试）

Caused by: org.apache.spark.SparkException: Python worker failed to connect back.

spark版本过高，建议降低spark版本

降低pyspark版本

我这里从pyspark3.3.0降低到pyspark3.2.2


pip install -U pyspark==3.2.2 -i https://pypi.tuna.tsinghua.edu.cn/simple