马尔科夫决策过程（MDP）是指在做序列的决策过程中，t+1时刻的状态只跟t...

发布于 2022-03-02 17:06:52

马尔科夫决策过程（MDP）是指在做序列的决策过程中，t+1时刻的状态只跟t时刻的状态有关，MDP过程中的3元素为（当前状态state，行为action，行为的回报reward）。

MDP的最优决策过程是指，连续执行一系列的action，获得最高的reward和。

1.请描述MDP最优决策过程与动态规划（DP）过程的相似性。

2.10x8的方格中，机器人从左上角走到右下角（仅能在8邻域内移动），机器人移动到4邻域某一格的电池电量消耗为0.1 C，移动到8邻域某一格的电池电量消耗为0.15 C，到达终点可以充电 2 C。请描述这个MDP过程中的state，action，reward分别是什么？

3. 在上面机器人从左上角走到右下角的任务中，如何使用DP得到最优的决策序列？

关注者

被浏览

1 个回答

相关试卷

知识点

面圈网VIP题库全新上线，海量真题题库资源。 90大类考试，超10万份考试真题开放下载啦