データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門

【データサイエンス/データエンジニアリングシリーズ】PythonとSparkでストリーミング処理を行ってみよう

4.10 (34 reviews)
Udemy
platform
日本語
language
Data Science
category
instructor
データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門
311
students
2 hours
content
Jul 2022
last update
$19.99
regular price

What you will learn

PySparkを使ったビッグデータストリーミング処理を学びます

メッセージキュー(今回はApache Kafkaを使います)とストリーミング処理エンジン(Pyspark)の組み合わせを学びたい方

Avroフォーマットなどストリーミングの開発に頻繁に使われるフォーマットについて学びます

ケーススタディで実務を例に取ったデータエンジニアリングの流れで紹介

データサイエンスのためのストリーミングにおける前処理について学習することができます

Why take this course?

現役のデータエンジニアがレクチャーします!


AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理や仕組み構築)に割いてるのが現状です。

本コースではApache Sparkを使ったストリーミングのデータエンジニアリングについて学びます。


ポイント:

本コースでは分散処理のデファクトとなりつつあるSparkについて学びます。

Apache Sparkはビッグデータ処理で多く使われている分散処理エンジンです。

今回はPythonと組み合わせたPySparkを使ったストリーミング処理の講座です。


ストリーミング処理の基本から、Avroフォーマット、Webアプリケーションにおけるユーザのトラッキングとストリーミングの一連の流れをこのコース一つで学ぶことが可能です。


特徴:

  1. データエンジニアリングよりの講座です。

  2. 難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。

  3. 普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです

  4. ストリーミング処理を勉強してみたい方(メッセージキュー、ストリーミングについて学びたい方)


ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。

Charts

Price

データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門 - Price chart

Rating

データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門 - Ratings chart

Enrollment distribution

データサイエンスのためのストリーミング前処理入門 PythonとSparkで始めるビッグデータストリーミング処理入門 - Distribution chart
4417110
udemy ID
11/27/2021
course created date
12/18/2021
course indexed date
Bot
course submited by