Udemy

Platform

日本語

Language

Data Science

Category

AIでブロック崩しを学習させよう。Advantage Actor-Critic(A2C)で学ぶ強化学習の応用編

AlphaGo Zeroネットワークモデルを使ってGoogle Colab環境で強化学習を体験してみましょう。

4.33 (3 reviews)

Students

3 hours

Content

Aug 2021

Last Update
Regular Price


What you will learn

Actor-Critic によるデュアルネットワークの仕組み(AlphaZeroネットワーク)

同期分散処理アルゴリズム

A2Cによるブロック崩しの学習のさせ方

強化学習の応用

方策勾配法等


Description

強化学習アルゴリズム Advantage Actor-Critic(A2C)を使って、ブロック崩しゲームを経験0の状態から自動で学習させていく方法を紹介するコースです。Advantage Actor-Critic のネットワークモデルは、AlphaGo Zero でも使われているもので方策と価値と同時に学習できます。更に「同期処理」という方法からGPUを効率的に利用でき、数日かかっていた学習うが数時間でできるようになっています。ネットワークモデルの部分は、続編のAlphago Zeroのコースの基礎となりますので受講しておくようにしましょう。

また漫画Spot's storyで、A2Cの学習の流れを分かりやすく解説しています。わからなくなったときは数式やプログラムと一緒に見比べてみましょう。


学習時間:30分~数時間

保存データの読み込みから再生まで1分程度と、時間がかかりません。

Google Colab 上で実行しますので、様々なツールの用意は不要で、またお使いのパソコンの環境に依存しません。

PythonコードとPyTorchフレームワークの教材で実行できます。


Screenshots

AIでブロック崩しを学習させよう。Advantage Actor-Critic(A2C)で学ぶ強化学習の応用編
AIでブロック崩しを学習させよう。Advantage Actor-Critic(A2C)で学ぶ強化学習の応用編
AIでブロック崩しを学習させよう。Advantage Actor-Critic(A2C)で学ぶ強化学習の応用編
AIでブロック崩しを学習させよう。Advantage Actor-Critic(A2C)で学ぶ強化学習の応用編

Content

コースの紹介

紹介

強化学習のおさらい_基本用語

強化学習のおさらい_基本用語:概要

強化学習のおさらい_基本用語1

強化学習のおさらい_基本用語2

強化学習のおさらい_基本用語3

強化学習のおさらい_アルゴリズム

強化学習のおさらい_アルゴリズム_概要

動的計画法1_MDP

30-20_動的計画法2_例

動的計画法3_例MDP

MonteCarlo

TD学習-TD誤差

Sarsa

Q学習

Deep Q Network

方策勾配法

Reinforce

A2C

A2C_概要

Actor-Critic

Baselines

Advantage

A3C

A2C

A2Cの損失関数_方策損失

A2Cの損失関数_AdvantageとEntropy

A2Cの損失関数_損失関数

Spots_Story

Sampling

Reflect

MonteCrlo

True state value

Exlore

Entropy

Advantage

Spots_Story_Loss

環境の準備

環境の準備

ブロックくずしの学習

ブロック崩しの学習:概要

プログラムの構造

初期設定

モデルの設定1

モデルの設定2

モデルの設定3

モデルの設定4

モデルの設定5

モデルの設定6

Sampling

Reflect

True_State_Value

calctate1_Inference

calcrate2_Advantage

calctate3_Entropy

更新

テストPlay

実行1_GrobalSettings

実行2_HyperParameters

実行3_Instance

実行4_train

学習結果

自分で学習させた後のブロック崩しの画面をQ&Aに貼り付けてみましょう

補足:テトリス学習の難しさ

テトリスの歴史

テトリスの学習モデル


4090382

Udemy ID

5/31/2021

Course created date

6/15/2021

Course Indexed date
Bot
Course Submitted by