spark:local模式环境-搭建和使用

语言: CN / TW / HK

1/下载

到官方网站去下载apache spark
官网:https://spark.apache.org/downloads.html

或者是清华大学镜像库:https://mirrors.tuna.tsinghua.edu.cn/

2/从本地上传到linux服务器

通过rz命令
rz spark-3.1.1-bin-hadoop3.2.tgz

3/解压

tar -zxvf spark-3.1.1-bin-hadoop3.2.tgz
会生成一个spark-3.1.1-bin-hadoop3.2的目录

4/设置环境变量

在.bashrc文件中,写(根据自己的实际情况,路径之类的,:冒号是连接符号)

export SPARK_HOME=/home/hadoop/spark-3.1.1-bin-hadoop3.2

export PATH=$PATH:$SPARK_HOME/bin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-    src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/python:$PATH

5/使得环境变量立即生效

source .bashrc

6/启动pyspark

到安装目录下,spark-3.1.1-bin-hadoop3.2/bin/下
./pyspark 
这样就启动了

image.png

一、安装Spark

1/下载

官方下载地址:spark.apache.org/downloads.h… ,选择Spark版本和对应的Hadoop版本后再下载:

2/解压安装包:

 # tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz

3/配置环境变量

  vim /etc/profile
  export SPARK_HOME=/home/hadoop/spark-2.2.3-bin-hadoop2.6
  export  PATH=${SPARK_HOME}/bin:$PATH
  source /etc/profile

二/启动spark

 Local模式是最简单的一种运行方式,它采用单节点多线程方式运行,不用部署,开箱即用,适合日常测试开发。
# 启动spark-shell
    spark-shell --master local[2]

    local:只启动一个工作线程;
    local[k]:启动k个工作线程;
    local[*]:启动跟cpu数目相同的工作线程数。

这是成功启动spark之后的界面,我们可以看到spark的版本。
scala是一门编程语言,spark默认的编程语言,当然我们要在python中启动spark也是可以的.