版本准备Scala安装下载解压配置环境变量编辑/etc/profile配置生效查看版本号其他节点安装Spark安装下载Spark安装解压查看目录配置环境编辑/etc/profile配置生效验证安装成功配置Spark将spark复制到其它所有节点其他节点配置环境变量配置生效启动和测试Spark集群启动Hadoop集群启动Spark集群Web终端查看启动停止
版本
Hadoop | 3.3.2 |
Scala | 2.13.8 |
Spark | 3.3.0 |
准备
- 安装jdk,配置jdk环境变量
- Hadoop集群
Scala安装
下载
向下滚动,选择版本下载。
• 下载后上传到虚拟机目录
/usr/local
解压
root@redis01:/usr/local# tar -zxvf scala-2.13.8.tgz
配置环境变量
编辑/etc/profile
- 我这里放在自定义文件里
/etc/profile.d/my_env.sh
设置环境变量
vim /etc/profile.d/my_env.sh # Scala environment export SCALA_HOME=/usr/local/scala-2.13.8 export PATH=$PATH:$SCALA_HOME/bin
配置生效
root@redis01:/# source /etc/profile
查看版本号
root@redis01:/# scala -version
其他节点安装
将
scala-2.13.0.tgz
压缩包发送到slave节点。root@redis01:/# scp -r scala-2.13.0.tgz root@redis02:/usr/local/
我这里写了一个分发脚本,直接使用了分发给其他节点
root@redis01:/usr/local# xsync scala-2.13.8
配置环境变量(所有节点都需要)
root@redis02:/usr/local# vim /etc/profile.d/my_env.sh #Scala environment export SCALA_HOME=/usr/local/scala-2.13.8 export PATH=$PATH:$SCALA_HOME/bin
配置生效(所有节点都需要)
root@redis02:/usr/local# source /etc/profile
Spark安装
下载Spark
- 这里建议用清华大学开源镜像网站
安装
解压
root@redis01:/usr/local# tar -zxvf spark-3.3.0-bin-hadoop3.tgz # 重命名 root@redis01:/usr/local# mv spark-3.3.0-bin-hadoop3 spark
查看目录
配置环境
编辑/etc/profile
- 我这里放在自定义文件里
/etc/profile.d/my_env.sh
设置环境变量
vim /etc/profile.d/my_env.sh # Spark environment export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin
配置生效
root@redis01:/# source /etc/profile
验证安装成功
root@redis01:/usr/local/spark# spark-shell
配置Spark
进入
/conf
目录root@redis01:/usr/local/spark# cd conf/
把
spark-env.sh.template
复制一份spark-env.sh
root@redis01:/usr/local/spark/conf# cp spark-env.sh.template spark-env.sh
配置
spark-env.sh
root@redis01:/usr/local/spark/conf# vim spark-env.sh
加入以下配置
# java environment export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # hadoop environment export HADOOP_HOME=/usr/local/hadoop # Scala environment export SCALA_HOME=/usr/local/scala-2.13.8 # Spark environment export SPARK_HOME=/usr/local/spark export SPARK_MASTER_IP=redis01 export SPARK_MASTER_PORT=7077 export SPARK_EXECUTOR_MEMORY=1G
把workers.template拷贝一份改名为worlers
root@redis01:/usr/local/spark/conf# cp workers.template workers
配置workers
root@redis01:/usr/local/spark/conf# vim workers
# 添加节点 redis01 redis02 redis03
- redis01、redis02、redis03为3个服务器的别名(也可以写ip地址)
将spark复制到其它所有节点
root@redis01:/usr/local# xsync spark
其他节点配置环境变量
编辑/etc/profile
- 我这里放在自定义文件里
/etc/profile.d/my_env.sh
设置环境变量
vim /etc/profile.d/my_env.sh # Spark environment export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin
配置生效
root@redis01:/# source /etc/profile
启动和测试Spark集群
• 因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行。
启动Hadoop集群
root@redis01:/usr/local/hadoop/sbin# ./start-all.sh
启动Spark集群
root@redis01:/usr/local/spark/sbin# ./start-all.sh
- spark集群启动会多出下面进程
Web终端查看
启动停止
# 启动Hadoop root@redis01:/usr/local/hadoop/sbin# ./start-all.sh # 启动Spark root@redis01:/usr/local/spark/sbin# ./start-all.sh # 停止Spark root@redis01:/usr/local/spark/sbin# ./stop-all.sh # 停止Hadoop root@redis01:/usr/local/hadoop/sbin# ./stop-all.sh