pg.py 文件源码

python
阅读 32 收藏 0 点赞 0 评论 0

项目:gymexperiments 作者: tambetm 项目源码 文件源码
def policy_gradient_loss(l_sampled, l_predicted):
    return A * categorical_crossentropy(l_sampled, l_predicted)[:, np.newaxis]

# inputs to the model are obesvation and advantage,
# outputs are action probabilities and baseline
评论列表
文章目录


问题


面经


文章

微信
公众号

扫码关注公众号