reward.py 文件源码

python
阅读 36 收藏 0 点赞 0 评论 0

项目:NMT-RDPG 作者: MultiPath 项目源码 文件源码
def compute_discount(gamma, maxlen):
    c = numpy.ones((maxlen,)) * gamma
    c[0] = 1.
    c = c.cumprod()

    C = numpy.triu(numpy.repeat(c[None, :], repeats=maxlen, axis=0))
    C /= c[:, None]
    return C
评论列表
文章目录


问题


面经


文章

微信
公众号

扫码关注公众号