马尔科夫决策过程(MDP)是指在做序列的决策过程中,t+1时刻的状态只跟t...

发布于 2022-03-02 17:06:52

马尔科夫决策过程(MDP)是指在做序列的决策过程中,t+1时刻的状态只跟t时刻的状态有关,MDP过程中的3元素为(当前状态state,行为action,行为的回报reward)。
MDP的最优决策过程是指,连续执行一系列的action,获得最高的reward和。
1.请描述MDP最优决策过程与动态规划(DP)过程的相似性。
2.10x8的方格中,机器人从左上角走到右下角(仅能在8邻域内移动),机器人移动到4邻域某一格的电池电量消耗为0.1 C,移动到8邻域某一格的电池电量消耗为0.15 C,到达终点可以充电 2 C。请描述这个MDP过程中的state,action,reward分别是什么?
3. 在上面机器人从左上角走到右下角的任务中,如何使用DP得到最优的决策序列?
关注者
0
被浏览
23
知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看