Reinforcement Learning

2020-03-01 167浏览

  • 1.Reinforcement Le arning 51174500157 张全 51174500147 尹飞 51174500093 黄秋丽 51174500152 曾月 51174500149 余阳 51174500151 苑航
  • 2.outline • • • • • • 增强学习概述 K- 摇臂赌博机 有模型学习 免模型学习 值函数近似 模仿学习
  • 3.content
  • 4.应用
  • 5.任务与奖赏 … 浇水 施肥 健壮? 健壮? 健壮? Reward( 奖赏 )
  • 6.每个状态 x∈X 是机器感知到的环境的描述 E =E :机器处于的环境若某个动作 a∈A 作用在当前状态 x 上,则潜在的转移函数 P 将使得环 X :状态空间 境从当前状态按某种概率转移到另 A :动作空间 在转移到另一个状态的同时,环境 P :状态转移概率 一个状态; 会根据潜在的奖赏函数 R 反馈给机 R :奖赏函数 器一个奖赏( reward )。
  • 7.
  • 8.学习目的: “ 策略”:机器要做的是不断尝试学得一个“策略” π ,根据状态 x 就能得 到要执行的动作 a = π(x) •确定性策略: a = π(x) 优点:不需要太多的采样数据,计算效率也很快 缺点:不具有自学习 的能力 习习习 •随机性策略: P = π(x,a) 优点:能够探索好的经验,然后集成到一个策略中,随机策略比较成熟 缺点:需要采样的数据量较大,学习比较慢
  • 9.强化学习 Vs 监督学习 • 标记样本 • 反馈时间 • 输入
  • 10.Model-free RL Model-based RL
  • 11.Model-free RL Model-based RL
  • 12.Model-free RL Model-based RL …
  • 13.Policy-based RL Value-based RL
  • 14.Policy-based RL Value-based RL
  • 15.Policy-based RL Value-based RL
  • 16.Monte-carlo update Temporal-difference update
  • 17.Monte-carlo update Temporal-difference update
  • 18.On-policy Off-policy
  • 19.On-policy Off-policy
  • 20.Exploration and Exploitation 51174500151 苑航
  • 21.Introduction Online decision-making involves a fundamentalchoice:Exploitation Make the best decision given current information Exploration Gather more information The best long-term strategy may involve short-term sacrifices Gather enough information to make the best overall decisions
  • 22.
  • 23.Multi-armed bandit
  • 24.Regret The action-value is the mean reward for action a
  • 25.Counting Regret
  • 26.Greedy Algorithm
  • 27.ε-Greedy Algorithm
  • 28.Optimistic Initialisation
  • 29.
  • 30.Lower Bound
  • 31.ptimism in the Face of Uncertainty
  • 32.Upper Confidence Bounds
  • 33.Hoeffding’s Inequality
  • 34.alculating Upper Confidence Bounds
  • 35.
  • 36.强化学习 - 基于模型的强化学习 51174500149 余阳
  • 37.马尔科夫决策过程 MDP 基于模型的强化学习方法 策略迭代 值迭代 无模型的强化学习方法 策略搜索 策略迭代 值迭代 策略搜索
  • 38.Contents • 策略评估 • 策略改进 • 策略迭代与值迭代
  • 39.策略评估 (policy evaluation) • 状态值函数( V ) • 状态 - 动作值函数( Q )
  • 40.策略评估 (policy evaluation) 对于 T 步累积奖赏有:
  • 41.策略评估 (policy evaluation) 类似的,对于 γ 步累积奖赏 有:
  • 42.策略评估 (policy evaluation) 有了状态值函数 V ,就能直 接计算出状态 - 动作值函数 :
  • 43.策略评估 (policy evaluation) 基于 T 步累积奖赏的策略评 估算法: 最后一个状态的值函数,由于不再执行动作 / 转移,因此值函数为 0 记录每个状态的 T 步累积 奖赏值
  • 44.策略改进 (policy improvement) • 对于给定的某个策略,我们 需要对其进行改进,从而得 到最优的值函数。
  • 45.策略改进 (policy improvement) • 最优状态 - 动作值函数:
  • 46.策略改进 (policy improvement) • 值函数对于策略的每一点改 进都是单调递增的,因此对 于当前策略 π ,可将其改进 为:
  • 47.策略迭代 (policy iteration) 随机策略 动态规划 法 得到当前策略的 T 步状态值 依据状习习习 函数更新策略 习习习习习 函数
  • 48.值迭代 每次都选择最优动作 得到了最优的值函数 根据最习习习 函数来改 习 习 习 习习 策略 习
  • 49.免模型学习 报告人:张全
  • 50.免模型学习 在现实的强化学习任务中,环境的转移 概率、习 习 函数往往很 习习 习习 习习习 得知,甚至很 习习习 习习 习习 知 道环境中一共有多少状态。如果学习算法不 依赖于环境建模,则称为“免模型学习” ( model-free learning )。
  • 51.策略迭代算法遇到的问题: 1.首先是策略无法习 估,由于模型未知而 习 习习习 习习 习习 习习 致无法做全概念展开。 2.策略迭代算法估计的是状态值函数 V ,而 最习习 的策略是通 习 习 习 习 习习 状习习习 作Q 习习 函数 来获得。 习
  • 52.蒙特卡罗强化学习 在模型未知的情形下,我们从起始状态 出发,使用某种策略进行采样,执行该策略 T 步并习习 得习习 迹: 习
  • 53.蒙特卡罗强化学习 • 使用 - 贪心法,以的概率从所有动作中均匀随机选取 一个,以 1- 的概率选取当前最优动作。将确定性的策略 称习习 原始策略,在原始策略上使用 习 习 习 习 习 习 习 习 习 习 习 习- 贪心法的策略记为: 最大化值函数的原始策略:
  • 54.同策略蒙特卡罗强化学习算法
  • 55.改进原始策略(非 - 贪心) • 使用策略的采样轨迹来评估策略,实际上就是对积累奖赏估计期望: 若用策略,则仅需对累计奖赏加权: 策略产生该轨迹的概率为:
  • 56.异策略蒙特卡罗强化学习算法
  • 57.时间差分学习 时间差分 (Temporal Difference , 简称 TD) 学习结合了动态规划与蒙特卡罗 方法的思想,做到更高效的免模型学习。
  • 58.时间差分学习思想 蒙特卡罗算法的状态值函数更新公式如下: • 把换成 , 得到 TD 的状态值函数更新公式: 状态值函数的定义:
  • 59.时间差分学习思想 假设有以下 8 个 episode, 其中 A-0 表示经过状态 A 后获得了回报 0: • MC 方法估计状态 A 的值函数: V(A)=0 TD 的更新公式,为简单起见取, V(A)=0.75
  • 60.时间差分学习思想 对这个例子,可以作图表示: 根据 得到:
  • 61.TD prediction
  • 62.Sarsa 算法 状态 - 动作对序列的片段及相应的回报值: Sarsa 的动作值函数更新公式:
  • 63.Sarsa 算法
  • 64.Q-learning 算法 动作值函数更新则不同于选取动作时遵循的策略,这种 方式称为离策略 (Off-Policy) 。 Q-learning 的动作值函数更 新公式如下:
  • 65.Q-learning 算法
  • 66.总结: 主要简单介习习 了无模型学 习 习 习 习 习习 里的一些 习 习 习 习习 典算法。其中 习 习 习 习TD 习 方法 习合 了蒙特卡 习习方法和 习 习 习习习习划的 习 习习点,能 习 习 习习习用于无模型、持 习 习 习 习 习 习 习习 行的任习 习 ,并 习习习 有习 习 秀的性能,因而得到了很好的 习习习习习习习习习习习习习习 展,其 习习 中 Q-learning 更是成为了强化学习中应用最广泛的方法。
  • 67.Value Function Approximation 值函数近似 51174500147 尹飞
  • 68.Outline • Introduction • Incremental Methods • Batch Methods
  • 69.Introduction • 大规模强化学习 Large-Scale Reinforcement Learning 强化学习可以用来解决大规模问题 如何才能将强化学习应用到这类大规模的 问题中,进而进行预测和控制呢
  • 70.Introduction • 近似价值函数 Value Function Approximation 对于大规模问题,解决思路可以是这样的: 1. 通过函数近似来估计实际的价值函数 2. 把从已知的状态学到的函数 通用化推广 至那些未碰到的状 态中
  • 71.Introduction • 近似函数的类型 Types of Value Function Approximation 针对强化学习,近似函数根据输入和输出的不同,可以 有以下三种架构: 1. 针对状态本身,输出这个状态的近似价值; 2. 针对状态行为对,输出状态行为对的近似价值; 3. 针对状态本身,输出一个向量,向量中的 每一个元素是该状态下采取一种可能行为的价值。
  • 72.Introduction • 有哪些近似函数 Which Function Approximator 线性回归 神经网络 决策树 …… 因此,我们需要一个适用于非静 态、非独立均匀分布的数据的训 练方法来得到近似函数
  • 73.Incremental Methods • 梯度下降 Gradient Descent 梯度下降能够找到局部最小值: 使用随机梯度下降对梯度进行更新,来近似差的期望:
  • 74.Incremental Methods • 线性函数近似 -- 特征向量 特征向 量: 价值函数 : 目标函数 :
  • 75.Incremental Methods • 线性函数近似 -- 特征向量 参数更新规则相对比较简单: 即:参数更新量 = 步长 × 预测误差 × 特 征值
  • 76.Incremental Methods • 预测 ——递增算法 基于蒙特卡罗方法的函数逼近,具体的 过程为:
  • 77.Incremental Methods • 预测 ——递增算法
  • 78.Incremental Methods • 控制 ——递增算法
  • 79.Batch Methods • 最小平方差预测
  • 80.Batch Methods • 最小平方差预测
  • 81.Batch Methods • 批方法的直接计算 】、
  • 82.Batch Methods • 批方法的直接计算