ICode9

精准搜索请尝试：精确搜索

Java

PHP

强化学习-PolicyGrad(策略梯度强化学习)2022-09-11 16:30:28

1.这是一种在线的强化学习方法 2.使用的是动作状态概率的输出值，求取最大化的收益Q, 而不是直接输出Q值 log_prob = torch.log(self.policy_net(state).gather(1, action)) G = self.gamma * G + reward loss = -log_prob * G # 最大化log_prob * G 即最小化-log_prob * G 3.对

关于我们 | 联系我们 | 留言反馈

专注分享技术，共同学习，共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有