spark:local模式环境-搭建和使用
1/下载
到官方网站去下载apache spark
官网:http://spark.apache.org/downloads.html
或者是清华大学镜像库:http://mirrors.tuna.tsinghua.edu.cn/
2/从本地上传到linux服务器
通过rz命令
rz spark-3.1.1-bin-hadoop3.2.tgz
3/解压
tar -zxvf spark-3.1.1-bin-hadoop3.2.tgz
会生成一个spark-3.1.1-bin-hadoop3.2的目录
4/设置环境变量
在.bashrc文件中,写(根据自己的实际情况,路径之类的,:冒号是连接符号)
export SPARK_HOME=/home/hadoop/spark-3.1.1-bin-hadoop3.2
export PATH=$PATH:$SPARK_HOME/bin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4- src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/python:$PATH
5/使得环境变量立即生效
source .bashrc
6/启动pyspark
到安装目录下,spark-3.1.1-bin-hadoop3.2/bin/下
./pyspark
这样就启动了
一、安装Spark
1/下载
官方下载地址:spark.apache.org/downloads.h… ,选择Spark版本和对应的Hadoop版本后再下载:
2/解压安装包:
# tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz
3/配置环境变量
vim /etc/profile
export SPARK_HOME=/home/hadoop/spark-2.2.3-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH
source /etc/profile
二/启动spark
Local模式是最简单的一种运行方式,它采用单节点多线程方式运行,不用部署,开箱即用,适合日常测试开发。
# 启动spark-shell
spark-shell --master local[2]
local:只启动一个工作线程;
local[k]:启动k个工作线程;
local[*]:启动跟cpu数目相同的工作线程数。
这是成功启动spark之后的界面,我们可以看到spark的版本。
scala是一门编程语言,spark默认的编程语言,当然我们要在python中启动spark也是可以的.
「其他文章」
- 机器学习:sklearn中xgboost模块的XGBRegressor函数(回归)
- 机器学习:xgboost原生库接口(陈天奇) && xgboost的sklearn接口
- Linux进程管理
- go:连接redis
- go:自定义类型,结构体struct
- go:go mod tidy的作用
- python:判定文件、目录是否存在,以及创建(多层)目录
- python:multiprosessing模块的Pool()类的apply()函数和apply_async()函数的区别
- python:ThreadPoolExecutor线程池和ProcessPoolExecutor进程池
- 时间序列:ARMA
- kafka:介绍
- 机器学习:损失函数(loss function)
- 机器学习:adaboost(回归实战)
- pyenv
- pyspark:集群环境实战
- spark:local模式环境-搭建和使用
- spark:standalone(独立集群环境)--搭建和使用
- spark:yarn集群环境-搭建和使用
- AB测试 - 假设检验的两类错误
- python:多进程的几种实现方式