を実践していて、環境構築なしにJupyterNotebookと同じ環境が使えるのでGoogle Colaboratoryを使う機会が増えています。 100本ノックでSparkを使うことはないと思っていますが、いずれSparkも使ってみたいと思うのでGoogle ColaboratoryでSparkを使えるように設定してみました。
インストール
今回はSpark3.0とJDK11で実施してみます。
Google Colaboratoryでは「!」をコマンドの先頭につけるとLinuxコマンドを使うことができます。apt-getを使って「JDK 11」をインストールします。次にSpark3.0をダウンロードして、解凍します。最後に、システムの中でSparkを見つけるために「findspark」もインストールします。
!apt-get upgrade !apt-get update !apt-get install openjdk-11-jdk -qq > /dev/null !wget -q http://ftp.meisei-u.ac.jp/mirror/apache/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz !tar xvf spark-* !pip install -q findspark
環境変数の設定
Google Colaboratory上でPysparkを使うために環境変数に設定します。 JDKとSparkの場所を教えてあげます。
import os os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-11-openjdk-amd64" os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop2.7"
実行する
import をおこない実行してみます。 出力内容も確認します。
import findspark findspark.init() import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() spark
SparkSession - in-memory
SparkContext
Spark UI
Version
v3.0.0
Master
local[*]
AppName
pyspark-shell