Spark7:Python使用Spark

Spark7:Python使用Spark

安装pyspark

pip install pyspark

使用

连接Spark Cluster

from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName("sparkAppExample") sc = SparkContext(conf=conf)

报错:

java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.

问题描述

没有设置 HADOOP_HOME 和 hadoop.home.dir 两项。这两项主要是干嘛的呢?是配置在本地环境变量中的 Hadoop 地址,那么需要下载Windows版本的Hadoop来设置么?如果是远程连接Linux上的Hadoop集群,则完全不需要再下载安装Windows版本的Hadoop!!!
这是由于我在Windows本地VSCode连接,Windwos本地没有Hadoop环境。

解决

  • 方式一
    • 在本地配置Hadoop环境
  • 方式二
    • 在远程服务器安装pyspark使用(我采用这种,使用VSCode连接远程服务器进行测试)
 

Caused by: org.apache.spark.SparkException: Python worker failed to connect back.

spark版本过高,建议降低spark版本

降低pyspark版本

  • 我这里从pyspark3.3.0降低到pyspark3.2.2
pip install -U pyspark==3.2.2 -i https://pypi.tuna.tsinghua.edu.cn/simple