【PythonとSparkで始めるデータマネジメント入門】 ビッグデータレイクのための統合メタデータ管理入門
【データサイエンス/データエンジニアリングシリーズ】PythonとSparkで3種のメタビジネスメタデータ、テクニカルメタデータ、オペレーショナルメタデータの基本を取得、計算してみよう
What you will learn
データレイク(データ基盤)のデータ分析に含まれる多くのアクティビティのうちの一つメタデータについて学べます
データの沼化を防ぐためのメタデータ管理について学びます
メタデータ算出や取得のためのPython(PySpark)ブログラムを学びます
メタデータの算出や取得だけにとどまらず、メタデータの活用方法について学びます
小さなデータレイクから大きなデータレイクにおいてデータを管理する感覚を学びます
アクセスログの整形方法をデータエンジニアリングを通して学びます
よくある関数の羅列ではなく、実際の現場で考えているメタデータ管理の内容を学べます
Why take this course?
現役のデータエンジニアがレクチャーします!
AIや機械学習を行う際に最も時間のかかる作業は、データの準備とそれらの管理です。これらの作業のことをデータエンジニアリングと呼びます。実に80%以上の時間をデータエンジニアリング(データサイエンスのための前処理やメタデータ管理)に割いてるのが現状です。
本コースではSparkを使ったデータエンジニアリングにおけるメタデータ管理について学びます。
メタデータを管理しなければデータ組織の生産性低下は免れません。
本コースを受講してデータを管理するという新たな方向へと舵を切りましょう。
メタデータ管理とは、データ活用の生産性を高めるためのデータの設計書です。
データはゴミ箱に捨てるようにただ「データレイク」や「データウェアハウス」に保存しておけばいいだけではなく、
データがどこにあるのか?
データはどのような状態なのか?
データの意味合いはどのような意味なのか?
データは誰にアクセスされているのか?
データは何回アクセスされているのか?
といったいわゆるメタデータをしっかりと管理することにあります。
本コースは3種のメタデータ(下記ポイント参照)について、入門として一つのテーブルをもとにPySparkを用いて算出しMysql保存していく実践講座です。
また保存するだけでなく、保存したメタデータの活用方法についても言及しています。
ポイント:
PySparkを使いながら以下の取得や算出を行います。
ビジネスメタデータ:テーブル定義や、テーブルの説明など、データ利用をするのに必要なメタデータ管理を勉強します。
テクニカルメタデータ:データプロファイリングを通した、データを検索せずともデータの特性をわかるようにするための方法を学びます
オペレーショナルメタデータ:Sparkのアクセスログの解析を行い、データに関する5w1hを引き出します。
いづれの情報もPysparkなどを使いながら算出していきます。
「データサイエンスのための前処理入門PythonとSparkで学ぶビッグデータエンジニアリング(PySpark) 速習講座」を受講していると内容の理解がよりスムーズかと思います。
特徴:
データエンジニアリングよりの講座です。
難しいいサイエンスや数学は出てきませんが、データの3職種のうちの一つである「データエンジニア」のためのコースです。
普段Pythonを使っている方やこれからAIやビッグデータの分野にエンジニアとして参画してデータを自在に操りたいという方にはぴったりです
メタデータを管理して、データ分析という行為にさらに付加価値を加えたい方
ソースコードや解説は以下のGitHubリポジトリにあります。
動画内ではGitHubの資料に加え補足をしながら解説を進めています。