https://yohei-a.hatenablog.jp/entry/20200502/1588424510

Spark とは

Spark とは

Apache Sparkについて from BrainPad Inc.

SparkはBDAS（Berkeley Data Analytics Stack）の一部

Apache Sparkについて from BrainPad Inc.

Haddop エコシステムとの対応
- - 1.4. SPARK ECOSYSTEM - Figure 1.6

アーキテクチャ

コンポーネント
- - 1.2. SPARK COMPONENTS - Figure 1.2

RDD（resilient distributed dataset）
- - 1.3. SPARK PROGRAM FLOW - Figure 1.5

- SparkInternalsで知る、Sparkの内部構造概要（Architecture） - Qiita

f:id:yohei-a:20200523175319p:plain

クライアントからクエリ実行時の構成例
- - 5.1. WORKING WITH DATAFRAMES - Figure 5.1

- SparkInternalsで知る、Sparkの内部構造概要（Architecture） - Qiita

f:id:yohei-a:20200523175323p:plain

Glue の Worker Type 別 CPU数とメモリサイズ

20190806 AWS Black Belt Online Seminar AWS Glue from Amazon Web Services Japan

実行プロセス

クエリ実行プロセス

An Insider’s Guide to Maximizing Spark SQL Performance from Takuya UESHIN

プロセスモデル
- - 10.1.1. Spark runtime components - Figure 10.1

タスクスケジューリング（FIFO と Fair）
- - 10.2.2. Spark job scheduling - 10.3, 10.4

Spark executer のメモリ内訳
- - 10.2.4. Spark memory scheduling - 10.5

Spark executer のメモリ内訳
- - 12.1.6. Configuring resources for Spark jobs - 12.3

プロセスモデル（Stand alone）
- - 11.1. SPARK STANDALONE CLUSTER COMPONENTS - 11.1

プロセスモデル（YARN）
- - 12.1.1. YARN architecture - 12.1

Running Apache Spark on AWS from Noritaka Sekiyama

分析方法

Deep Dive into Spark SQL with Advanced Performance Tuning from Takuya UESHIN

An Insider’s Guide to Maximizing Spark SQL Performance from Takuya UESHIN

linux.wwing.net

Apache Spark UIからGlueのジョブ結果を確認する | Amazon Web Services ブログ

Spark SQL のクエリは複数のジョブから構成される。
一つのジョブにおける RDD の依存関係は DAG で表される。

ボトルネックの見つけ方

Xiao Li - Databricks
Apache Spark の Physical/Logical plan の解説を試みる - Qiita
Spark UI を開く。

f:id:yohei-a:20200504141235p:plain

Spark UI の [Jobs] - [Completed Jobs] - [Duration] で実行時間を確認する。

f:id:yohei-a:20200504141032p:plain

[Stages] タブを選択する。
- Event Timeline で実行時間の内訳の何の割合が大きいか確認する。
- Tasks の Attempt と Status から Kill されていないか確認する。
- Duration で各タスクの実行時間に偏りがないか確認する。
- Input Size / Records でサイズに偏りがないか確認する。

f:id:yohei-a:20200504141505p:plain
f:id:yohei-a:20200504141624p:plain

[Executers] タブを選択する。
- [Address] でどのノードで実行されたか確認する。
- [Storage Memory] でメモリ使用量を確認する。
- [Task Time] でタスクの実行時間を確認する。
- [Shuffle Read]、[Shuffle Write] でステージ間で転送されたデータサイズを確認する。

f:id:yohei-a:20200504142553p:plain

[Storage] タブを選択する確認する。

チューニング方法

Performance Tuning - Spark 3.0.0 Documentation

IO量を減らす

仕事量を均等分散する

Spark

ヒント句

SELECT SQL Statements With Hints
SELECT SQL statement supports query hints as comments in SQL query that Spark SQL translates into a UnresolvedHint unary logical operator in a logical plan.
COALESCE and REPARTITION Hints
Spark SQL 2.4 added support for COALESCE and REPARTITION hints (using SQL comments):
SELECT /*+ COALESCE(5) */ …
SELECT /*+ REPARTITION(3) */ …
Broadcast Hints
Spark SQL 2.2 supports BROADCAST hints using broadcast standard function or SQL comments:
SELECT /*+ MAPJOIN(b) */ …
SELECT /*+ BROADCASTJOIN(b) */ …
SELECT /*+ BROADCAST(b) */ …
Hint Framework · The Internals of Spark SQL

Glue

Metrics-Driven Performance Tuning for AWS Glue ETL Jobs (ANT332) - AWS re:Invent 2018 from Amazon Web Services

--enable-s3-parquet-optimized-committer — Parquet データを Amazon S3 に書き込むために EMRFS S3 最適化コミッターを有効にします。AWS Glue ジョブを作成または更新するときに、AWS Glue コンソールからパラメータ/値のペアを指定できます。値を true に設定すると、コミッターが有効になります。デフォルトでは、このフラグはオフになっています。
詳細については、「EMRFS S3 向けに最適化されたコミッターの使用」を参照してください。
AWS Glue で使用される特別なパラメータ - AWS Glue

format="glueparquet"
この値は、動的フレーム用に最適化されたカスタム Parquet ライタータイプをデータ形式として指定します。書き込む前に事前計算スキーマは必要ありません。データが到着すると、glueparquet はスキーマを動的に計算して変更します。
format="glueparquet" には、以下の format_options 値を使用できます。

compression — Parquet ファイルを書き込むときに使用する圧縮コーデックを指定します。デフォルト値は "snappy" です。

blockSize — メモリにバッファされる行グループのサイズを指定します。デフォルト値は "128MB" です。

pageSize — 単一のレコードにアクセスするために完全に読み取る必要がある最小単位のサイズを指定します。デフォルト値は "1MB" です。

制約事項:

glueparquet スキーマの縮小または拡張のみをサポートし、タイプの変更はサポートしません。

glueparquet はスキーマ専用ファイルを格納できません。

AWS Glue での ETL 入力および出力の形式オプション - AWS Glue

from_options
from_options(frame, connection_type, connection_options={}, format=None, format_options={}, transformation_ctx="")
指定された接続と形式を使用して DynamicFrame を書き込みます。

frame – 書き込む DynamicFrame。

connection_type – 接続タイプ。有効な値には、s3、mysql、postgresql、redshift、sqlserver、および oracle があります。

connection_options – 接続オプション (パスやデータベーステーブルなど) (オプション)。s3 の connection_type では、Amazon S3 パスが定義されています。
connection_options = {"path": "s3://aws-glue-target/temp"}
JDBC 接続の場合、いくつかのプロパティを定義する必要があります。データベース名は URL の一部である必要があることに注意してください。オプションで接続オプションに含めることができます。
connection_options = {"url": "jdbc-url/database", "user": "username", "password": "password","dbtable": "table-name", "redshiftTmpDir": "s3-tempdir-path"}
dbtable プロパティは JDBC テーブルの名前です。データベース内でスキーマをサポートする JDBC データストアの場合、schema.table-name を指定します。スキーマを指定しない場合、デフォルトの「パブリック」スキーマが使用されます。
詳細については、「AWS Glue での ETL の接続タイプとオプション」を参照してください。

format – 形式の仕様 (オプション)。これは、複数の形式をサポートする Amazon Simple Storage Service (Amazon S3) または AWS Glue 接続に使用します。サポートされる形式については、「AWS Glue での ETL 入力および出力の形式オプション」を参照してください。

format_options – 指定した形式の形式オプション。サポートされる形式については、「AWS Glue での ETL 入力および出力の形式オプション」を参照してください。

transformation_ctx – 使用する変換コンテキスト (オプション)。

DynamicFrameWriter クラス - AWS Glue

Glue カタログを使わずに S3 から読む例

# Create DynamicFrame from Options
dyf = glue_context.create_dynamic_frame.from_options(
    connection_type='s3',
    connection_options={
        'paths': [’s3://….'],
        'useS3ListImplementation': True,
        'recurse': True
    },
    format=‘parquet',
    transformation_ctx='dyf'
)

EMR

spark.sql.shuffle.partitions、spark.default.parallelism など
- Spark の設定 - Amazon EMR
- Spark の設定 - Amazon EMR

参考情報

SparkでJDBCデータソースからデータを並列で読み取りたいすべての人へ。このドキュメントを読んでnumPartitions/partitionColumn/upperBound/lowerBoundを設定するんだ。まずはそれからだ。https://t.co/n1HEy52rDL
— Noritaka Sekiyama (@moomindani) July 20, 2020

AWS GlueでJDBCデータソースからデータを並列で読み取りたいすべての人へ。このドキュメントを読んでhashfield/hashexpression/hashpartitionsを設定するんだ。まずはそれからだ。https://t.co/cVEAFEeYaq https://t.co/zoShmSZvwj
— Noritaka Sekiyama (@moomindani) July 20, 2020

Sparkクラスタ上でタスクがひとつだけ起動して、ひとつのExecutorからJDBCデータソースにSELECT * FROM tをクエリして、他のExecutorが全員暇してる光景はもう見たくないんだ・・・！
— Noritaka Sekiyama (@moomindani) July 20, 2020

Apache Spark パフォーマンス分析・チューニング