马尔科夫决策过程(MDP)是指在做序列的决策过程中,t+1时刻的状态只跟t...
发布于 2022-03-02 17:06:52
马尔科夫决策过程(MDP)是指在做序列的决策过程中,t+1时刻的状态只跟t时刻的状态有关,MDP过程中的3元素为(当前状态state,行为action,行为的回报reward)。
MDP的最优决策过程是指,连续执行一系列的action,获得最高的reward和。
1.请描述MDP最优决策过程与动态规划(DP)过程的相似性。
2.10x8的方格中,机器人从左上角走到右下角(仅能在8邻域内移动),机器人移动到4邻域某一格的电池电量消耗为0.1 C,移动到8邻域某一格的电池电量消耗为0.15 C,到达终点可以充电 2 C。请描述这个MDP过程中的state,action,reward分别是什么?
3. 在上面机器人从左上角走到右下角的任务中,如何使用DP得到最优的决策序列?
关注者
0
被浏览
23