【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門

【データサイエンス/データエンジニアリングシリーズ】PythonとSparkで3種のメタビジネスメタデータ、テクニカルメタデータ、オペレーショナルメタデータの基本を取得、計算してみよう

4.00 (35 reviews)
Udemy
platform
日本語
language
IT Certification
category
instructor
【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門
327
students
2.5 hours
content
Mar 2022
last update
$19.99
regular price

What you will learn

データレイク(データ基盤)のデータ分析に含まれる多くのアクティビティのうちの一つメタデータについて学べます

データの沼化を防ぐためのメタデータ管理について学びます

メタデータ算出や取得のためのPython(PySpark)ブログラムを学びます

メタデータの算出や取得だけにとどまらず、メタデータの活用方法について学びます

小さなデータレイクから大きなデータレイクにおいてデータを管理する感覚を学びます

アクセスログの整形方法をデータエンジニアリングを通して学びます

よくある関数の羅列ではなく、実際の現場で考えているメタデータ管理の内容を学べます

Why take this course?

現役のデータエンジニアがレクチャーします!


AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理やメタデータ管理)に割いてるのが現状です。

本コースではSparkを使ったデータエンジニアリングにおけるメタデータ管理について学びます。


メタデータを管理しなければデータ組織の生産性低下は免れません。

本コースを受講してデータを管理するという新たな方向へと舵を切りましょう。


メタデータ管理とは、データ活用の生産性を高めるためのデータの設計書です。

データはゴミ箱に捨てるようにただ「データレイク」や「データウェアハウス」に保存しておけばいいだけではなく、

  • データがどこにあるのか?

  • データはどのような状態なのか?

  • データの意味合いはどのような意味なのか?

  • データは誰にアクセスされているのか?

  • データは何回アクセスされているのか?

といったいわゆるメタデータをしっかりと管理することにあります。


本コースは3種のメタデータ(下記ポイント参照)について、入門として一つのテーブルをもとにPySparkを用いて算出しMysql保存していく実践講座です。

また保存するだけでなく、保存したメタデータの活用方法についても言及しています。


ポイント:

PySparkを使いながら以下の取得や算出を行います。

ビジネスメタデータ:テーブル定義や、テーブルの説明など、データ利用をするのに必要なメタデータ管理を勉強します。

テクニカルメタデータ:データプロファイリングを通した、データを検索せずともデータの特性をわかるようにするための方法を学びます

オペレーショナルメタデータ:Sparkのアクセスログの解析を行い、データに関する5w1hを引き出します。


いづれの情報もPysparkなどを使いながら算出していきます。

「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」を受講していると内容の理解がよりスムーズかと思います。



特徴:

  1. データエンジニアリングよりの講座です。

  2. 難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。

  3. 普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです

  4. メタデータを管理して、データ分析という行為にさらに付加価値を加えたい方


ソースコードや解説は以下のGitHubリポジトリにあります。

動画内ではGitHubの資料に加え補足をしながら解説を進めています。

Screenshots

【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門 - Screenshot_01【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門 - Screenshot_02【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門 - Screenshot_03【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門 - Screenshot_04

Reviews

Kazumaccho
January 9, 2023
データレイクというキーワードで購入しましたが、あまりデータレイクに触れていなかったことと、私の理解ができなかった点でマイナス2にしました。 何回か繰り返して勉強したら点は上がるかもしれませんが、一旦はこれで。
長井
January 4, 2023
概念的なことを得るのにはよかった。 メタデータ的なものがないのを問題だと思っていたが、うまく説明できなかったので、それを概念的に説明してくれている。 技術的な話は、実際のデータではうまくいかない。(データ量が違いすぎる)
Nao
March 21, 2022
著者の書籍で紹介されていたメタデータに関する実装を知りたいと思い 本コースを受講しました。 本コースではプログラミングでどの様にメタデータ(テクニカル、ビジネス、オペレーショナル)を管理するのかという方法を学ぶことができました。 受講者自身で実際の現場に適用する際は適用方法をより詳細に練る必要があると思いますが入門という位置付けではかなりためになりました!
t
March 14, 2022
データ基盤においてメタデータ管理はとても重要であるにも関わらず、その解説をしてくれる情報はなかなか見つかりません。 そんな中、本講座はメタデータ管理について(しかも日本語で)基本から勉強できる数少ない教材です。 メタデータ管理の全体像を知りたいという方や、Sparkによるデータプロファイリング(の基本)について学びたい人にお勧めできると思います。 改善希望点としては画質がもう少し上がると良かったと感じますが、内容面では文句なしです。
Shota
January 1, 2022
データカタログ/メタデータ(テーブル定義の情報など)の観点が勉強になります。また、上記は軽視しがちな所ではあるが、ビックデータの業務を行なっていく上で、とても重要であるといった点について、心に残りました。

Charts

Price

【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門 - Price chart

Rating

【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門 - Ratings chart

Enrollment distribution

【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門 - Distribution chart
4367192
udemy ID
10/26/2021
course created date
11/30/2021
course indexed date
Bot
course submited by