以下の内容はhttps://yohei-a.hatenablog.jp/entry/20180104/1515085084より取得しました。


PySpark on EMR で S3 のテキストファイルを読む

  • ファイルを作成して S3 にアップロードする
$ perl -le 'print for 1..100000000' > number.txt
$ head -3 number.txt
1
2
3
$ tail -3 number.txt
99999998
99999999
100000000
$ aws s3 cp number.txt s3://az-sample/
  • EMR のマスターノードで PySpark からテキストを読む
$ pyspark
>>> rdd = sc.textFile("s3://az-sample/number.txt")
>>> rdd.first()
u'1'
>>> rdd.count()
100000000
>>> rdd.top(3)
[u'99999999', u'99999998', u'99999997']
$ nethogs
$ dstat -tncd 5



以上の内容はhttps://yohei-a.hatenablog.jp/entry/20180104/1515085084より取得しました。
このページはhttp://font.textar.tv/のウェブフォントを使用してます

不具合報告/要望等はこちらへお願いします。
モバイルやる夫Viewer Ver0.14