(问答题总共7个,答对5题即可满分75分,多答有神秘加分。)强化学习中,计...

发布于 2022-03-02 17:00:07

(问答题总共7个,答对5题即可满分75分,多答有神秘加分。)
强化学习中,计算Optimal Qvalue通常使用到Bellman公式,
Q_pi=E[r_t + gamma * Q_(t+1)]
谈谈对Bellman公式的理解。
关注者
0
被浏览
48
知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看