概要
- タイトルが全て
- MEMORY_ONLYだと勘違いしていたためメモ
- persistも引数なしで呼び出すとMEMORY_AND_DISKなので同じ
※2021/12/17時点の最新版であるPySpark3.2.0の情報です
詳細
- レベルの変更の歴史
pyspark.sql.DataFrame.cacheがPySpark1.3.0で追加されたときは「MEMORY_ONLY_SER」レベル- 2.0.0で「MEMORY_ONLY」レベルに変更
- 2.1.0で「MEMORY_AND_DISK」レベルに変更
- ドキュメントに以下の記載があるのでScalaでは2.0から「MEMORY_AND_DISK」レベルだったようです
The default storage level has changed to MEMORY_AND_DISK to match Scala in 2.0.
- persistメソッドに指定できるレベルは以下を参照