PySparkによる大規模データ処理手法と機械学習

Pythonで大規模データを分散処理するフレームワークApache Sparkを学びましょう!DataFrameによるデータ処理やMLlibによる機械学習を実践します。

4.29 (103 reviews)
Udemy
platform
日本語
language
Programming Languages
category
instructor
PySparkによる大規模データ処理手法と機械学習
1,013
students
8.5 hours
content
Mar 2022
last update
$19.99
regular price

What you will learn

並列計算の基礎知識

Pythonのプログラミング

Spark, Hadoopについての知識

PySparkのプログラミング

Dockerの基礎

Pandasの基礎

Why take this course?

本コースでは、大規模データを高速分散処理するためのフレームワーク"Apache Spark"を人気のプログラミング言語Pythonで実践します。

最近はビッグデータと呼ばれる大規模データを扱うケースがとても多くなってきており、そのようなデータを高速に処理するためには分散処理が必要になります。

分散処理??Spark??と思う人も多いかと思いますが、このコースでは分散処理とは何か、Sparkとは何かといった導入から、実際にPython(PySpark)で実装するまでを全て行いますので、未経験の方でも学ぶことができます。

皆さんのよく知る大企業でもSparkの技術はたくさん使われているので、この機会にSparkをPythonで扱う"PySpark"の扱い方を学び、これからのキャリアに活かしていただければと思います。


本コースの実践パートでは、Spark3.2のバージョンでプログラミングを行います。


実践内容はSpark DataFrame, Spark SQL(少し), Spark MLlibです。

実行環境にはDockerを用います。Docker Hubを用いると自身のPCの環境を変えることなく、簡単に環境構築ができるのでオススメです。


※ Docker環境をうまく作成できなかった方はGoogle Colaboratoryを使って実施してみてください。"!pip install pyspark"でインストールし、使うことができます。

※ コースリリース時からPySparkのバージョンが変わっているために一部動かないコードがありますので、そちらご了承ください。


本コースの内容

  • 大規模データの処理手法

  • Hadoopとは

  • Sparkとは

  • 機械学習の基本

  • Dockerによる環境構築

  • Pandasの復習

  • Spark DataFrameによるデータ処理

  • Spark SQL

  • Spark MLlibによる機械学習


本コースは購入から30日はキャンセルが可能なので、購入したけれど思っていた内容と違うという方はキャンセルしてください。

それでは一緒にPython, Sparkを学んでいきましょう!

Reviews

木村隆介
September 18, 2023
現状とは異なった仕様になっている。例えばcount().filter("'count' >= 1000").sort(asc("count"))....となっていたが、実際は count().filter("count >= 1000").sort("count", asceding=True)....にしなければ動かない。 2重に間違っている。QAで更新するなどして、レクチャーを受ける人にちゃんと説明すべき。
Snufkin
August 1, 2023
Hadoopにも触れたイントロダクションはともて良いと思います。 一方で、 ・マスター、スレーブノードの設定方法や注意点が言及されていない ・セクション5:Spark DataFrame、セクション8:Spark MLlibでsparkの特性である並列処理の観点から述べられていない のが残念。質問にも回答できていないようなので-0.5
相根宏一郎
February 10, 2023
やや駆け足な感じはありましたが、機械学習および、Spark, PySparkの基礎知識を学ぶには十分すぎる内容という印象でした。 全てがハンズオンというわけではありませんでしたが、理論を知っておかないとコードを書いていても訳が分からなくなるので、多少の座学は致し方ないという理解です。
大島
April 10, 2022
とてもいいですが、所々本コース内で説明していないことを「先ほど言いましたが」のような形で説明されている場面があり、そこで「?」となってしまいます。 他コースの動画を一部同一で使っているのかな、とは思いますが、少々気になりました。

Charts

Price

PySparkによる大規模データ処理手法と機械学習 - Price chart

Rating

PySparkによる大規模データ処理手法と機械学習 - Ratings chart

Enrollment distribution

PySparkによる大規模データ処理手法と機械学習 - Distribution chart
4353734
udemy ID
10/17/2021
course created date
3/7/2022
course indexed date
Bot
course submited by