东大人工智能分享会强化学习

2020-02-27 583浏览

1.强化学习在机器人运动控制方面的研究与应用 & Kyoto Robotics株式会社的介绍及实习经历分享王宇清
2.流程 1. 强化学习在机器人运动控制及动作技能方面的研究发展与应用 2. Kyoto Robotics株式会社的介绍及实习经历分享 3. Soft Servo株式会社的简介 4. : 交流讨论关键词: 强化学习，机器人拾取，机器人运动控制，机器人动作技能
3.强化学习实例小孩学走路
4.什么是强化学习强化学习是一种目标导向的学习。智能体在没有先验信息的情况下，通过与环境交互探索的方式，观测反馈得到的结果，从而对未知的环境进行了解，并找到达到目标的最佳控制方法。Wiki:强化学习强调如何基于环境而行动，以取得最大化的预期利益。强化学习的例子智能体 agent：老⿏环境(未知): 由各种障碍物（光线，报警器，捕鼠器）构成；行动：以避开所有障碍物的动作序列; 行动反馈：未成功避开障碍物 >> 惩罚 (-) ⚡ 成功避开障害物 >> 奖励 (+) 食物学习的目的：尽可能少的得到惩罚⚡；尽可能多的得到报酬食物; 老鼠通过试错探索的方式，得以熟悉环境中障碍物的位置和信息；最后：老鼠可以找到一条避开环境中所有障碍物的最优路径；
5.机器人的定义？机器人由哪几部分组成的？
6.比较机器人与强化学习动作出机器人控制系统环境 task 信息进机器人的本质: 信息进，动作出环境 task 强化学习原理图
7.机器人实际应用的难点仿真理想模型仿真不可能包含全部物理 (内在，外在)世界中的信息。传感器测量误差；测量世界环境信息的精准度不足。处理器误差的累积；计算机的处理速度无法满足机器人对实时性的要求。驱动器响应延时；传动过程中的能量损失；摩擦力发热等问题。
8.机器人实际应用的难点模型误差输入信号机器人动力学模型理想输出实际输出误差
9.强化学习在机器人(实机)上应用的难点 1. 在机器人实机上找到最佳的方策(policy,控制方法)往往需要训练几百上千次，会对机器人硬件平台造成非常大的损害。 Actor Critic 40,000次 2001年 TD learning 43,000步 2012年
10.PILCO 概率推测的学习控制 PILCO (Probabilistic Inference for Learning COntrol / 概率推测的学习控制 ) 是近年来，在实际机器人上高效(训练次数较少)的强化学习算法。比较典型的RL方法在倒立摆平衡的学习次数⽅法動的計画法 actor critic PI2 PILCO 試⾏回数 70 800 100 5
11.PILCO算法在机器人的应用实例 PILCO主要的研究成果在电驱动机械臂物体抓取方面。 Learning object grasping Learning object picking
12.PILCO算法的流程初始化更新机器人的的动力学模型 (by 高斯过程) one trial 更新控制器 for ( int i =1; i<150; i++) { 将高斯过程离散化长期预测更新控制器(RBF网络)参数 } 参数收敛在机器人上测试policy的效果, 得到新的数据
13.高斯过程 ( Gaussian Process ) 学习动力学模型 (系统辨识) 高斯过程，是一系列关于连续时间的随机变量的联合，而且针对每一个时间点上的随机变量都是服从高斯分布的。
14.PILCO算法的流程初始化更新机器人的的动力学模型 (by 高斯过程) 試⾏更新控制器 for ( int i =1; i<150; i++) { 长期预测更新控制器(RBF网络)参数 } 参数收敛在机器人上测试policy的效果, 得到新的数据
15.长期预测步骤1 确定每一个离散时刻的高斯分布当前机器人状态与控制信号的概率分布 ?????? ?????? GP模型 ?????? ?????? ?????? ?????? 伝播 moment matching将⾮高斯分布近似成高斯分布?????? ∆
16.长期预测示意图椭圆的面积大小反映概率分布
17.强化学习液压机器人瞬时功率大负载能力强液压机器人的非线性远远强于电驱动机器人，所以液压机器人的系统识别与控制难度很大。研究的出发点，PILCO强化学习方法能否对液压机器人的动力学系统识别与控制带来提高。
18.强化学习实验平台液压双臂机器人
19.强化学习机器人运动控制: 无电机机器人关节角运动范围: 0 ?????? ?????? 0 ?????? 2 ∗ ??????⁄3
20.Introduce to length scale L in Hyper-parameter 超参数: 参数(to learn)的参数，用来确定神经网络特征的参数。 Big length scales will be less variation in the function values, the function look close to linear. Small length scales makes functions GP vary strongly, it will be able to fit many more data sets.
21.问题2 神经网络控制器计算时间不定导致通信周期不稳定设定的通信周期
22.问题3 角速度信号角度角速度
23.强化学习 x 机器人运动控制: 1. 大量训练数据; 2. 根据经验手动设置超参数为常量; 3. 不考虑速度项，只考虑角度； 4. 延长观察向量长度。
24.强化学习的局限性，接触力接触力的情况并不容易学习动力学模型；进行了80-100次实验后的效果
25.强化学习机器人运动轨迹规划:
26.强化学习机器人运动轨迹规划: robot self learning
27.模仿学习 >> 强化学习 x 机器人: 运动轨迹规划
28.模仿学习＋强化学习 x 机器人: 运动轨迹规划
29.强化学习机器人运动轨迹规划: Rollout 100 times
30.机器人动作学习: 方法B 深度强化学习视觉输入 -> 动作输出
31.机器人动作学习: 方法B 深度强化学习视觉输入 -> 动作输出
32.人工示教 (AR & 触觉, 主机) + 深度强化学习 (副机) 人工示教 AR + 触觉传感器远程实时操控机器人抓取物体，收集数据集机器人基于人工示教的数据集，再进行物体抓取技能的学习实时控制
33.强化学习在日本业界的应用情况 ‒ 食品行业建设行业通过图像对液压关节位置进行推定，再进行控制在机器人平台上利用深度强化学习对Pasta进行抓取动作的学习。输出信号的学习。
34.强化学习在日本业界的应用情况 ‒ 制造业 IoT 参考ロボットと AI による新⽣産システムの開発と量産適⽤
35.接地气: 强化学习在汽车发动机活塞控制的应用
36.强化学习在机器人的局限性 1. 通常没有考虑到policy控制器的安全性和稳定性，精准度上也难以达到产品落地的要求。 2. 泛化性低，只能适应学习过的情况。对未知的情况，再次学习往往非常困难。 3. 与传统的机器人学方法相比，没有体现出明显的效果优势，成本反而增加了很多。
37.“强化学习应用于机器人运动控制”相关学习资料分享及研究进展跟踪 Conference of Robot Learning ( Youtube上有学会的完整视频 ) Mathematics for MachineLearning:https://mml-book.github.io/结论: Reinforcement Learning can help control and optimize some systems that other methods cannot.
38.Kyoto Robotics 公司介绍及实习经历分享工业机器人视觉传感器物流拾取机器人系统示意图
39.公司发展经历
40.公司主要产品介绍 --- 针对物流拾取机器人的视觉传感器第三代视觉传感器 TVS 3 第四代视觉传感器 TVS 4
41.针对市场 ̶ 物流拾取
42.三维检测技术
43.图像处理技术实例
44.机器人系统
45.难点箱子的质量与重心未知 >> 无法确定机器人抓取时的力
46.常见的办法: 在机器人末端加装气压吸盘目前的办法气压吸盘 + 6轴力觉传感器 6轴力觉传感器气压吸盘
47.We propose a new system with F/T sensor 6轴力觉传感器气压吸盘重物
48.Introduction the load identification task Ignore the robot coordinate part, only consider f/t sensor, gripper and payload(box).
49.步骤 1: 标定力觉传感器步骤1，我们需要估计: 力觉传感器的重量, 重心，与传感器初始偏差值步骤 2: 实时估计箱子的重量步骤2 : 消除力觉传感器的影响，测量箱子重量与重心。
50.实习信息
51.Soft Servo Systems公司简介及 “基于PC的运动控制” 介绍
52.通常的机器人控制系统的组成机器人控制系统可以分为控制与驱动两部分。控制上层的作业空间的运动规划；中层关节层面的运动控制；驱动关节的电机的转动；
53.公司业务
54.运动控制软件架构上层 (用户层) 中层 (内核) 底层 (通信层) 控制装置app (用户自定义) 运动控制软件工具 (用户自定义) 网络管理工具 (用户自定义) 运动控制API 网络管理API Windows 内核 CPU 50% RTX 实时运动控制子系统 1. 运动控制计算 2. EtherCAT通信层 3. 网络适配器或网卡的驱动网络适配器，网卡机械设备上的电机driver 软件架构示意图
55.主要客户及合作方主 PC 工厂自动化主要客户: 三星，华为，鸿海工业机器人本体制造商电机制造商

东大人工智能分享会 强化学习

东大人工智能分享会强化学习