ICode9

精准搜索请尝试: 精确搜索
  • 强化学习-PolicyGrad(策略梯度强化学习)2022-09-11 16:30:28

    1.这是一种在线的强化学习方法 2.使用的是动作状态概率的输出值,求取最大化的收益Q, 而不是直接输出Q值 log_prob = torch.log(self.policy_net(state).gather(1, action)) G = self.gamma * G + reward loss = -log_prob * G # 最大化log_prob * G 即最小化-log_prob * G 3.对

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有