日本全国スピードお届け実施中！配達料金無料

JavascriptがOFFになっております。 ヨドバシ・ドット・コムはJavascriptをONにしてご利用ください。詳しくはこちらへ。

カテゴリから選ぶ

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社） [電子書籍]

画像を投稿する

専用電子書籍リーダーアプリ「Doly」の
無料ダウンロードはこちら

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社） [電子書籍]

曽我部東馬(著)

価格：	￥3,300（税込）
ゴールドポイント：	660 ゴールドポイント（20％還元）（￥660相当）
フォーマット：	電子書籍￥3,300 660 ゴールドポイント（20％還元）単行本￥3,300 99 ゴールドポイント（3％還元）専用電子書籍リーダーアプリ「Doly」が必要です。無料ダウンロード

出版社：	オーム社
公開日：	2019年05月29日すぐ読めます。
お取り扱い：	のお取り扱い商品です。
バリエーション：	強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社） [電子書籍] 5件のバリエーションがあります
ご確認事項：	電子書籍リーダーアプリ「Doly」専用コンテンツ

カテゴリランキング

電子書籍
333632位

こちらの商品は電子書籍版です

ショッピングカートに入れる
「今すぐ買う」でご注文する場合は
ログインしてご利用ください

お気に入りに登録する

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社）の商品概要

「平均」という観点から強化学習の基本が理解できる！
AlphaGoがプロ棋士を破った2016年以降、強化学習や深層強化学習はさまざまな分野から注目を集めています。しかし、専門書では難解な専門用語や数式が多用されるため、初学者にとってはハードルが高い状態が続いていました。
本書は、そのハードルの高さを解消することを目的に制作されました。平均という初歩的な数学を使うことで、「価値」「探索」「マルコフ性」といった強化学習の基本をわかりやすく解説します。
また、各アルゴリズムについては、「多腕バンディット問題」および「グリッドワールド問題」のいずれかを用いて、比較しやすい状態で解説します。そのため、各アルゴリズムの特徴や差異がわかりやすくなっています。さらに、中核的なアルゴリズムについては、PythonとMATLABの2種類のコードを、オーム社と著者のWebサイト、およびGithubで配布します。配布コードを実行することで、「原理→数式→プログラム」という一連の流れを直感的に把握できます。

【本書の特徴】
・難解な強化学習の原理を、中高生にもなじみ深い「平均値の計算」という観点からわかりやすく解説します。
・さまざまなアルゴリズムを、共通する例題を用いて特徴がわかりやすいように比較します。
・PythonとMATLAB、2種類のコードを配布します。

※Pythonのバージョンは3です。
目次
扉・はじめに・目次

第1章　平均から学ぶ強化学習の基本概念
　1.0 はじめに
　1.1 平均と期待値
　　1.1.1 平均
　　1.1.2 期待値
　　1.1.3 期待値と平均の関係
　1.2 平均と価値
　1.3 平均とマルコフ性
　　1.3.1 平均の計算式とその変形
　　1.3.2 逐次平均表現とMP
　1.4 平均によるベルマン方程式の導出
　　1.4.1 平均表現と価値関数の導入
　　1.4.2 決定型Bellman方程式の導出
　　1.4.3 確率型Bellman方程式の導出
　1.5 平均によるモンテカルロ学習手法の導出
　　1.5.1 総報酬関数Gt+1の導入
　　1.5.2 総報酬GtとVtの比較
　　1.5.3 総報酬Gtの平均による価値関数vSt
　1.6 平均によるTD法の導出
　　1.6.1 TD(0)法の計算式の導出
　　1.6.2 TD(n)法の計算式の導出

第2章　各アルゴリズムの特徴と応用
　2.0 はじめに
　2.1 方策π(a | S)
　　2.1.1 多腕バンディット問題
　　2.1.2 ε-Greedy方策
　　2.1.3 UCB-1方策
　　2.1.4 Bayes sampling方策
　2.2 動的計画法
　　2.2.1 ε-Greedy(ε=1)反復方策
　　2.2.2 ε-Greedy(ε=0)方策反復法(On-Policy)
　　2.2.3 ε-Greedy(ε=0)価値反復法(Off-Policy)
　2.3 モンテカルロ法
　　2.3.1 固定開始点モンテカルロ法
　2.4 TD(0)法
　　2.4.1 方策反復方策からSARSA法の導出
　　2.4.2 TD(0)-SARSA法
　　2.4.3 価値反復方策からTD(0)-Q学習法の導出
　　2.4.4 完全Off-Policy のTD(0)-Q学習法
　　2.4.5 部分Off-Policy のTD(0)-Q学習法
　　2.4.6 Q学習法とSARSA法の比較

第3章　関数近似手法
　3.0 はじめに
　3.1 関数近似の基本概念
　3.2 関数近似モデルを用いたV(St)の表現
　3.3 機械学習による価値関数の回帰
　　3.3.1 誤差関数からわかる回帰と分類
　　3.3.2 誤差関数の設計と確率勾配降下法
　　3.3.3 強化学習における回帰解析の仕組み
　3.4 モンテカルロ法を応用した価値関数回帰
　3.5 Td(0)-SARSA法を適用した行動状態価値関数の回帰
　3.6 Td(0)-Q法を応用した行動状態価値関数の回帰

第4章深層強化学習の原理と手法
　4.1 TD-Q学習におけるNNによる行動価値関数回帰
　4.2 DQNによる行動状態価値関数近似
　4.3 確率方策勾配法
　　4.3.1 モンテカルロ離散方策勾配法
　　4.3.2 ベースラインモンテカルロ離散方策勾配法
　　4.3.3 離散型Actor-Critic法
　　4.3.4 連続型Actor-Critic法
　4.4 決定型方策勾配法
　　4.4.1 DDPG
　　4.4.2 ハイブリッドDDPG
　4.5 TRPO/PPO法
　　4.5.1 EMアルゴリズム
　　4.5.2 信頼領域(trust region)と自然勾配
　　4.5.3 信頼領域方策勾配法TRPO
　4.6 まとめと展開

参考文献・索引・奥付

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社）の商品スペック

発行年月日	2019/05/23
書店分類コード	K310
Cコード	3055
出版社名	オーム社
本文検索	可
他のオーム社の電子書籍を探す	電子書籍オーム社 Ohmsha > 情報･通信･コンピュータオーム社 Ohmsha > ネットワーク･通信オーム社 Ohmsha > ネットワーク･通信オーム社 Ohmsha

紙の本のISBN-13	9784274223716
ファイルサイズ	190.1MB
著者名	曽我部東馬
著述名	著

コミュニティ
0
レビューを投稿する

オーム社強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社） [電子書籍] に関するレビューとＱ＆Ａ

商品に関するご意見やご感想、購入者への質問をお待ちしています！

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社） [電子書籍]を見たお客様はこれも見ています

強化学習アルゴリズム入門―「平均」からはじめる基礎と応用 [単行本]

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社） [電子書籍]

カテゴリランキング

あわせて買いたい、よく一緒に購入されている商品

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社）の商品概要

目次

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社）の商品スペック

コミュニティ

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社） [電子書籍]を見たお客様はこれも見ています

カテゴリから選ぶ

メーカーから商品を選ぶ

イベントから商品を選ぶ

特集から商品を選ぶ

はじめてのお客様へ

アフターサービス

お買い物をもっと便利に

強化学習アルゴリズム入門 「平均」からはじめる基礎と応用（オーム社） [電子書籍]

カテゴリランキング

あわせて買いたい、よく一緒に購入されている商品

強化学習アルゴリズム入門 「平均」からはじめる基礎と応用（オーム社） の 商品概要

目次

強化学習アルゴリズム入門 「平均」からはじめる基礎と応用（オーム社） の商品スペック

コミュニティ

強化学習アルゴリズム入門 「平均」からはじめる基礎と応用（オーム社） [電子書籍]を見たお客様はこれも見ています

カテゴリから選ぶ

メーカーから商品を選ぶ

イベントから商品を選ぶ

特集から商品を選ぶ

はじめてのお客様へ

アフターサービス

お買い物をもっと便利に

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社） [電子書籍]

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社）の商品概要

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社）の商品スペック

強化学習アルゴリズム入門「平均」からはじめる基礎と応用（オーム社） [電子書籍]を見たお客様はこれも見ています