Reinforcement Learning
2020-03-01 167浏览
- 1.Reinforcement Le arning 51174500157 张全 51174500147 尹飞 51174500093 黄秋丽 51174500152 曾月 51174500149 余阳 51174500151 苑航
- 2.outline • • • • • • 增强学习概述 K- 摇臂赌博机 有模型学习 免模型学习 值函数近似 模仿学习
- 3.content
- 4.应用
- 5.任务与奖赏 … 浇水 施肥 健壮? 健壮? 健壮? Reward( 奖赏 )
- 6.每个状态 x∈X 是机器感知到的环境的描述 E =E :机器处于的环境若某个动作 a∈A 作用在当前状态 x 上,则潜在的转移函数 P 将使得环 X :状态空间 境从当前状态按某种概率转移到另 A :动作空间 在转移到另一个状态的同时,环境 P :状态转移概率 一个状态; 会根据潜在的奖赏函数 R 反馈给机 R :奖赏函数 器一个奖赏( reward )。
- 7.
- 8.学习目的: “ 策略”:机器要做的是不断尝试学得一个“策略” π ,根据状态 x 就能得 到要执行的动作 a = π(x) •确定性策略: a = π(x) 优点:不需要太多的采样数据,计算效率也很快 缺点:不具有自学习 的能力 习习习 •随机性策略: P = π(x,a) 优点:能够探索好的经验,然后集成到一个策略中,随机策略比较成熟 缺点:需要采样的数据量较大,学习比较慢
- 9.强化学习 Vs 监督学习 • 标记样本 • 反馈时间 • 输入
- 10.Model-free RL Model-based RL
- 11.Model-free RL Model-based RL
- 12.Model-free RL Model-based RL …
- 13.Policy-based RL Value-based RL
- 14.Policy-based RL Value-based RL
- 15.Policy-based RL Value-based RL
- 16.Monte-carlo update Temporal-difference update
- 17.Monte-carlo update Temporal-difference update
- 18.On-policy Off-policy
- 19.On-policy Off-policy
- 20.Exploration and Exploitation 51174500151 苑航
- 21.Introduction Online decision-making involves a fundamentalchoice:Exploitation Make the best decision given current information Exploration Gather more information The best long-term strategy may involve short-term sacrifices Gather enough information to make the best overall decisions
- 22.
- 23.Multi-armed bandit
- 24.Regret The action-value is the mean reward for action a
- 25.Counting Regret
- 26.Greedy Algorithm
- 27.ε-Greedy Algorithm
- 28.Optimistic Initialisation
- 29.
- 30.Lower Bound
- 31.ptimism in the Face of Uncertainty
- 32.Upper Confidence Bounds
- 33.Hoeffding’s Inequality
- 34.alculating Upper Confidence Bounds
- 35.
- 36.强化学习 - 基于模型的强化学习 51174500149 余阳
- 37.马尔科夫决策过程 MDP 基于模型的强化学习方法 策略迭代 值迭代 无模型的强化学习方法 策略搜索 策略迭代 值迭代 策略搜索
- 38.Contents • 策略评估 • 策略改进 • 策略迭代与值迭代
- 39.策略评估 (policy evaluation) • 状态值函数( V ) • 状态 - 动作值函数( Q )
- 40.策略评估 (policy evaluation) 对于 T 步累积奖赏有:
- 41.策略评估 (policy evaluation) 类似的,对于 γ 步累积奖赏 有:
- 42.策略评估 (policy evaluation) 有了状态值函数 V ,就能直 接计算出状态 - 动作值函数 :
- 43.策略评估 (policy evaluation) 基于 T 步累积奖赏的策略评 估算法: 最后一个状态的值函数,由于不再执行动作 / 转移,因此值函数为 0 记录每个状态的 T 步累积 奖赏值
- 44.策略改进 (policy improvement) • 对于给定的某个策略,我们 需要对其进行改进,从而得 到最优的值函数。
- 45.策略改进 (policy improvement) • 最优状态 - 动作值函数:
- 46.策略改进 (policy improvement) • 值函数对于策略的每一点改 进都是单调递增的,因此对 于当前策略 π ,可将其改进 为:
- 47.策略迭代 (policy iteration) 随机策略 动态规划 法 得到当前策略的 T 步状态值 依据状习习习 函数更新策略 习习习习习 函数
- 48.值迭代 每次都选择最优动作 得到了最优的值函数 根据最习习习 函数来改 习 习 习 习习 策略 习
- 49.免模型学习 报告人:张全
- 50.免模型学习 在现实的强化学习任务中,环境的转移 概率、习 习 函数往往很 习习 习习 习习习 得知,甚至很 习习习 习习 习习 知 道环境中一共有多少状态。如果学习算法不 依赖于环境建模,则称为“免模型学习” ( model-free learning )。
- 51.策略迭代算法遇到的问题: 1.首先是策略无法习 估,由于模型未知而 习 习习习 习习 习习 习习 致无法做全概念展开。 2.策略迭代算法估计的是状态值函数 V ,而 最习习 的策略是通 习 习 习 习 习习 状习习习 作Q 习习 函数 来获得。 习
- 52.蒙特卡罗强化学习 在模型未知的情形下,我们从起始状态 出发,使用某种策略进行采样,执行该策略 T 步并习习 得习习 迹: 习
- 53.蒙特卡罗强化学习 • 使用 - 贪心法,以的概率从所有动作中均匀随机选取 一个,以 1- 的概率选取当前最优动作。将确定性的策略 称习习 原始策略,在原始策略上使用 习 习 习 习 习 习 习 习 习 习 习 习- 贪心法的策略记为: 最大化值函数的原始策略:
- 54.同策略蒙特卡罗强化学习算法
- 55.改进原始策略(非 - 贪心) • 使用策略的采样轨迹来评估策略,实际上就是对积累奖赏估计期望: 若用策略,则仅需对累计奖赏加权: 策略产生该轨迹的概率为:
- 56.异策略蒙特卡罗强化学习算法
- 57.时间差分学习 时间差分 (Temporal Difference , 简称 TD) 学习结合了动态规划与蒙特卡罗 方法的思想,做到更高效的免模型学习。
- 58.时间差分学习思想 蒙特卡罗算法的状态值函数更新公式如下: • 把换成 , 得到 TD 的状态值函数更新公式: 状态值函数的定义:
- 59.时间差分学习思想 假设有以下 8 个 episode, 其中 A-0 表示经过状态 A 后获得了回报 0: • MC 方法估计状态 A 的值函数: V(A)=0 TD 的更新公式,为简单起见取, V(A)=0.75
- 60.时间差分学习思想 对这个例子,可以作图表示: 根据 得到:
- 61.TD prediction
- 62.Sarsa 算法 状态 - 动作对序列的片段及相应的回报值: Sarsa 的动作值函数更新公式:
- 63.Sarsa 算法
- 64.Q-learning 算法 动作值函数更新则不同于选取动作时遵循的策略,这种 方式称为离策略 (Off-Policy) 。 Q-learning 的动作值函数更 新公式如下:
- 65.Q-learning 算法
- 66.总结: 主要简单介习习 了无模型学 习 习 习 习 习习 里的一些 习 习 习 习习 典算法。其中 习 习 习 习TD 习 方法 习合 了蒙特卡 习习方法和 习 习 习习习习划的 习 习习点,能 习 习 习习习用于无模型、持 习 习 习 习 习 习 习习 行的任习 习 ,并 习习习 有习 习 秀的性能,因而得到了很好的 习习习习习习习习习习习习习习 展,其 习习 中 Q-learning 更是成为了强化学习中应用最广泛的方法。
- 67.Value Function Approximation 值函数近似 51174500147 尹飞
- 68.Outline • Introduction • Incremental Methods • Batch Methods
- 69.Introduction • 大规模强化学习 Large-Scale Reinforcement Learning 强化学习可以用来解决大规模问题 如何才能将强化学习应用到这类大规模的 问题中,进而进行预测和控制呢
- 70.Introduction • 近似价值函数 Value Function Approximation 对于大规模问题,解决思路可以是这样的: 1. 通过函数近似来估计实际的价值函数 2. 把从已知的状态学到的函数 通用化推广 至那些未碰到的状 态中
- 71.Introduction • 近似函数的类型 Types of Value Function Approximation 针对强化学习,近似函数根据输入和输出的不同,可以 有以下三种架构: 1. 针对状态本身,输出这个状态的近似价值; 2. 针对状态行为对,输出状态行为对的近似价值; 3. 针对状态本身,输出一个向量,向量中的 每一个元素是该状态下采取一种可能行为的价值。
- 72.Introduction • 有哪些近似函数 Which Function Approximator 线性回归 神经网络 决策树 …… 因此,我们需要一个适用于非静 态、非独立均匀分布的数据的训 练方法来得到近似函数
- 73.Incremental Methods • 梯度下降 Gradient Descent 梯度下降能够找到局部最小值: 使用随机梯度下降对梯度进行更新,来近似差的期望:
- 74.Incremental Methods • 线性函数近似 -- 特征向量 特征向 量: 价值函数 : 目标函数 :
- 75.Incremental Methods • 线性函数近似 -- 特征向量 参数更新规则相对比较简单: 即:参数更新量 = 步长 × 预测误差 × 特 征值
- 76.Incremental Methods • 预测 ——递增算法 基于蒙特卡罗方法的函数逼近,具体的 过程为:
- 77.Incremental Methods • 预测 ——递增算法
- 78.Incremental Methods • 控制 ——递增算法
- 79.Batch Methods • 最小平方差预测
- 80.Batch Methods • 最小平方差预测
- 81.Batch Methods • 批方法的直接计算 】、
- 82.Batch Methods • 批方法的直接计算