如何在ipython中使用spark
- 说明:
- spark 1.6.0
- scala 2.10.5
- spark安装路径是
/usr/local/spark
;已经在.bashrc
中配置了SPARK_HOME
环境变量。
方法一
/usr/local/spark/bin/pyspark
默认打开的是python,而不是ipython。通过在pyspark文件中添加一行,来使用ipython打开。
1 | cp pyspark ipyspark |
方法二:
- 通过为spark创建一个ipython 配置的方式实现。
1 | # 为spark创建一个ipython 配置 |
- 在00-pyspark-setup.py中添加如下内容:
1 | import os |
- 启动ipython
1 | ipython –profile spark |
测试程序
- 在ipython中输入一下命令,如果下面的程序执行完后输出一个数字,说明正确。
1 | from pyspark import SparkContext |
方法三
- 将上面的程序放入test.py文件,执行命令
python test.py
。发现错误。因为没有将pyspark路径加入PYTHONPATH
环境变量。 - 在~/.bashrc或/etc/profile中添加如下内容:
1 | # python can call pyspark directly |
- 执行如下命令:
1 | # 使配置生效 |
- 此时,已经能够运行了。