pyspark

语言: CN / TW / HK

1/spark概述

Apache Spark是用 Scala 编程语言编写的。
Apache Spark是一个实时处理计算引擎,它对标的是mapreduce批处理计算引擎。
它在内存内计算,不把中间结果写入磁盘,从而减少了io的次数,从而实现了可以实时分析数据。
因为spark可以实时执行流处理,也可以处理批处理。

2/pyspark概述

Apache Spark是用 Scala 编程语言编写的。
为了python开发者可以使用spark,体会到spark的牛逼之处,
所以,Apache spark社区发布了一个工具pyspark,其实可以理解为开发了一个扩展包,放在了pipy中,
因此,python开发者就可以通过pyspark这个扩展包来操作spark了。

之所以能把python和spark连接起来,正是由于一个名为Py4j的库,他们才能实现这一目标。

pyspark这个扩展包目前已经在pypi中了,可以直接安装,pip install pyspark

3/在spark的安装目录的bin目录下,有pyspark命令和spark-shell命令

<1>如果你执行pyspark

所对应的图如下,因为pyspark是python和spark的结合,所以我们看到解释器是python

image.png

<2>如果你执行spark-shell

因为spark是用scala写的,所以解释器是scala

image.png