超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座
【データサイエンス/データエンジニアリングシリーズ】最強のビッグデータ処理エンジンApache Spark~ABC人材のためのPythonで行う分散処理と前処理 を一挙に習得しよう!
4.05 (68 reviews)
507
students
2.5 hours
content
Jul 2022
last update
$44.99
regular price
What you will learn
Spark(PySpark)で実際に現場で使われる技法が一挙に学べます
構造化データに対するデータエンジニアリング
非構造化データに対するデータエンジニアリング
ExcelをSparkを使ってデータエンジニアリングしてみよう(Pandas to Spark)
PDFをSparkを使ってデータエンジニアリングしてみよう(six to Saprk)
分散処理とは何か?Sparkとは何か?
実際の開発で気をつけるべきことは何か?
関数の羅列ではなく、「現場ではどの様に使われるか?」も解説します
Description
現役のデータエンジニアがレクチャーします!
AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理など)に割いてるのが現状です。
本コースではApache Sparkを使ったデータエンジニアリングについて学びます。
ポイント:
本コースでは分散処理のデファクトとなりつつあるSparkについて学びます。
Apache Sparkはビッグデータ処理で多く使われている分散処理エンジンです。
今回はPythonと組み合わせた実際の現場で使われるPySparkを使った操作を一挙にまとめました。
特徴:
データエンジニアリングよりの講座です。
難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。
普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです
ソースコードや解説は以下のGitHubリポジトリにあります。
動画内ではGitHubの資料に加え補足をしながら解説を進めています。
Content
紹介
講座タイトル
本コースの概要
講師紹介
本コースがビッグデータ基盤のどこに当たるのか?
環境構築
環境構築と基本操作(DataFrame)
本セクションの目次
分散処理とは?
PySparkとは
ノートブックとは?
Spark(PySpark)がデータ操作で利用するもの
データ読み込み
データフレームを操作する
カラムナーフォーマット/行指向フォーマット
パーティションとダイナミックパーティション
スモールファイルとデータスキュー
セクション2小テスト
PySpark基本操作(SQLとDataFrame)
本セクションの目次
ビッグデータ世界のDDL
ビッグデータ世界のDMLとは?
分析関数を練習してみよう(agg関数)
分析関数を利用してみよう(Window関数その1)
分析関数を練習してみよう(LAG/Lead関数
分析関数を練習してみよう(ピボットテーブル
SparkのRDDを使って1レコードつづ処理してみよう
セクション3小テスト
Lead関数を使って一つ先のデータと比べて人口がどれくらい増えているのか?を算出してみましょう
非構造データのラングリング(エクストラ)
本セクションの目次
データラングリングとは?
テーブル形式を含まないExcelのラングリング
PDFのラングリングを行ってみよう
ラングリングで気をつけること
セクション4小テスト
データセット(ensyu.jso)についてデータの重複を行いつつハッシュ値(UUID)をカラムに付与してみましょう。
Reviews
t
March 2, 2022
日本語でSparkを学ぶことができる数少ない貴重な教材です。
短い時間でPySparkの基本的な使い方を広く学ぶことができました。
レベル的には、Sparkをサンプルコードを動かしたことがあるぐらいの人なら、環境構築も含めてちょうど良い難易度だと感じました。
すでにある程度知っている人にとっては物足りないかもしれませんが、初心者の私にはかなり良かったです。
また、動画の所々で実践を踏まえた助言などが話され、興味もそそられますし、非常にためになりました。
改善希望点としては、下記がありますが内容・価格的には最高です。
・演習問題にヒントが欲しい(UUIDの作り方など、ノーヒントでは難しかった)
・画質(所々文字が見にくかったです)
Charts
Price
Rating
Enrollment distribution
Related Topics
4415660
udemy ID
11/26/2021
course created date
1/14/2022
course indexed date
Bot
course submited by