(问答题总共7个,答对5题即可满分75分,多答有神秘加分。)强化学习中,计...
发布于 2022-03-02 17:00:07
(问答题总共7个,答对5题即可满分75分,多答有神秘加分。)
强化学习中,计算Optimal Qvalue通常使用到Bellman公式,
Q_pi=E[r_t + gamma * Q_(t+1)]
谈谈对Bellman公式的理解。
关注者
0
被浏览
48