1/4
時点_ポイント最大2倍
Pythonで学ぶ強化学習 入門から実践まで/久保隆宏
販売価格
3,520
円 (税込)
送料無料
- 出荷目安:
- 1~3日で発送予定
たまるdポイント(通常) 32
+キャンペーンポイント(期間・用途限定) 最大1倍
※たまるdポイントはポイント支払を除く商品代金(税抜)の1%です。
※表示倍率は各キャンペーンの適用条件を全て満たした場合の最大倍率です。
各キャンペーンの適用状況によっては、ポイントの進呈数・付与倍率が最大倍率より少なくなる場合がございます。
dカードでお支払ならポイント3倍
各キャンペーンの適用状況によっては、ポイントの進呈数・付与倍率が最大倍率より少なくなる場合がございます。
- 商品情報
- レビュー
久保隆宏
講談社
機械学習スタートアップシリーズ
ISBN:4065172519/9784065172513
発売日:2019年09月
【内容紹介】
「Pythonで強化学習が実装できる!」と好評を得た入門書の改訂版。読者からの要望・指摘を反映させた。主に、Policy GradientとA2Cの記述・実装を見直した。
・Pythonプログラミングとともに、ゼロからていねいに解説。
・コードが公開されているから、すぐ実践できる。
・実用でのネックとなる強化学習の弱点と、その克服方法まで紹介。
【おもな内容】
Day1 強化学習の位置づけを知る
強化学習とさまざまなキーワードの関係
強化学習のメリット・デメリット
強化学習における問題設定 Markov Decision Process
Day2 強化学習の解法(1) 環境から計画を立てる
価値の定義と算出 Bellman Equation
動的計画法による状態評価の学習 Value Iteration
動的計画法による戦略の学習 Policy Iteration
モデルベースとモデルフリーとの違い
Day3 強化学習の解法(2) 経験から計画を立てる
経験の蓄積と活用のバランス Epsilon-Greedy法
計画の修正を実績から行うか、予測で行うか Monte Carlo vs Temporal Difference
経験を価値評価、戦略どちらの更新に利用するか Valueベース vs Policyベース
Day4 強化学習に対するニューラルネットワークの適用
強化学習にニューラルネットワークを適用する
価値評価を、パラメーターを持った関数で実装する Value Function Approximation
価値評価に深層学習を適用する Deep Q-Network
戦略を、パラメーターを持った関数で実装する Policy Gradient
戦略に深層学習を適用する Advantage Actor Critic (A2C)
価値評価か、戦略か
Day5 強化学習の弱点
サンプル効率が悪い
局所最適な行動に陥る、過学習をすることが多い
再現性が低い
弱点を前提とした対応策
Day6 強化学習の弱点を克服するための手法
サンプル効率の悪さへの対応 モデルベースとの併用/表現学習
再現性の低さへの対応 進化戦略
局所最適な行動/過学習への対応 模倣学習/逆強化学習
Day7 強化学習の活用領域
行動の最適化
学習の最適化
講談社
機械学習スタートアップシリーズ
ISBN:4065172519/9784065172513
発売日:2019年09月
【内容紹介】
「Pythonで強化学習が実装できる!」と好評を得た入門書の改訂版。読者からの要望・指摘を反映させた。主に、Policy GradientとA2Cの記述・実装を見直した。
・Pythonプログラミングとともに、ゼロからていねいに解説。
・コードが公開されているから、すぐ実践できる。
・実用でのネックとなる強化学習の弱点と、その克服方法まで紹介。
【おもな内容】
Day1 強化学習の位置づけを知る
強化学習とさまざまなキーワードの関係
強化学習のメリット・デメリット
強化学習における問題設定 Markov Decision Process
Day2 強化学習の解法(1) 環境から計画を立てる
価値の定義と算出 Bellman Equation
動的計画法による状態評価の学習 Value Iteration
動的計画法による戦略の学習 Policy Iteration
モデルベースとモデルフリーとの違い
Day3 強化学習の解法(2) 経験から計画を立てる
経験の蓄積と活用のバランス Epsilon-Greedy法
計画の修正を実績から行うか、予測で行うか Monte Carlo vs Temporal Difference
経験を価値評価、戦略どちらの更新に利用するか Valueベース vs Policyベース
Day4 強化学習に対するニューラルネットワークの適用
強化学習にニューラルネットワークを適用する
価値評価を、パラメーターを持った関数で実装する Value Function Approximation
価値評価に深層学習を適用する Deep Q-Network
戦略を、パラメーターを持った関数で実装する Policy Gradient
戦略に深層学習を適用する Advantage Actor Critic (A2C)
価値評価か、戦略か
Day5 強化学習の弱点
サンプル効率が悪い
局所最適な行動に陥る、過学習をすることが多い
再現性が低い
弱点を前提とした対応策
Day6 強化学習の弱点を克服するための手法
サンプル効率の悪さへの対応 モデルベースとの併用/表現学習
再現性の低さへの対応 進化戦略
局所最適な行動/過学習への対応 模倣学習/逆強化学習
Day7 強化学習の活用領域
行動の最適化
学習の最適化
※本データはこの商品が発売された時点の情報です。


