ann
2020-03-01 441浏览
- 1.Artificial Neural Network P re s e n t e d by 华嘉逊 // 申弋斌 // 濮敏 // 王之楚 ©2018-2022 Vic Hua All Rights Reserved.
- 2.Contents 1 Introduction 2 Perceptron & Back Propagation 3 Hopfield Network 4 Boltzmann Machine 5 Self-Organizing Feature Maps 6 Summary
- 3.1 Introduction BNN / M-P Model / Comparison / Archive
- 4.INTRODUCTION Biological Neural Network Soma (Cell Body) Axon Synapses (Connect to other neurons ) Dendrites (Receiver) Flow of information 4
- 5.INTRODUCTION Biological Neural Network 5
- 6.INTRODUCTION Neural Network - Speed Pulse-transmission frequency < Several hundred Hz Complex perceptual decision < a few hundred milliseconds Computations in BNN take less than 100 serial stages Only a few bits of information are sent from one neuron to another 6
- 7.INTRODUCTION M-P Model 𝑚 𝑦𝑖𝑛 = 𝑤𝑖 ∙ 𝑥𝑖 𝑖 𝑌 = ℱ 𝑦𝑖𝑛 McCulloch-Pitts model of a neuron 7
- 8.INTRODUCTION BNN vs. ANN 8
- 9.INTRODUCTION Archive 1943 M-P Model (by McCulloch & Pitts) 1958 Perceptron Learning Method (by Rosenblatt) 1969 Back Propagation (by Bryson et al.) 1969 Multilayer perceptron (by Minsky and Papert) 1981 Self-Organizing Maps (by Teuvo Kohonen) 1982 Hopfield’s Energy approach 1985 Boltzmann machine (by Ackley, Hinton, and Sejnowski) 1986 BP Network (by Rumelhart) 9
- 10.2 Perceptron & Back Propagation Perceptron / BP Algorithm / Other issues
- 11.PERCEPTRON Single-layer Perceptron 11
- 12.PERCEPTRON Single-layer Perceptron ˃AND:𝑤1 = 𝑤2 = 1, 𝜃 = 2 → 𝑦 = 1 iff. 𝑥1 = 𝑥2 = 1 ˃OR:𝑤1 = 𝑤2 = 1, 𝜃 = 0.5 → 𝑦 = 1 if 𝑥1 = 1 𝑜𝑟 𝑥2 = 1 ˃NOT:𝑤1 = −0.6, 𝑤2 = 0, 𝜃 = −0.5 → 𝑦 = 1 if 𝑥1 = 0 (vice versa ) 12
- 13.PERCEPTRON Perceptron Learning Rule If there is any difference between the target output and the actual output, then a change must be made to the weights of connection. Case I: 𝑌 ≠ 𝑡 𝑤𝑛𝑒𝑤 = 𝑤𝑜𝑙𝑑 + 𝑡 − 𝑦 𝑥 Case II: 𝑌 = 𝑡 No change in weight 13
- 14.PERCEPTRON Problems in SLP 14
- 15.PERCEPTRON Multi-layer Perceptron 15
- 16.PERCEPTRON Learning Rules for MLP Linear activation function Perceptron Learning Rule Inferior Learning Capability !! 16
- 17.BP NETWORK Overview First proposed by Bryson et al. (1969) BP Network & Algorithm were created by Rumelhart (1986) A non-linear activation function in each neuron One or more hidden layers Connectivity is determined by # of synapses or weights A feed-forward network using Supervised Learning 17
- 18.BP NETWORK Structure 18
- 19.BP NETWORK Learning Objective Output error of neuron j 𝑒𝑗 𝑛 = 𝑑𝑗 𝑛 − 𝑦𝑗 𝑛 Output error of all neurons 1 𝐸 𝑛 = 𝑒𝑗2 𝑛 2 𝑗∈𝐶 Mean square error 𝑁 1 𝐸𝐴 = 𝐸 𝑛 𝑁 𝑛=1 19
- 20.BP NETWORK Preliminary 𝑝 𝑣𝑗 𝑛 = 𝑖=0 𝑤𝑗𝑖 𝑛 𝑦𝑖 𝑛 𝑦𝑗 𝑛 = 𝜑 𝑣𝑗 𝑛 𝜕𝐸 𝑛 ∆𝑤𝑗𝑖 𝑛 = −𝜂 𝜕𝑤𝑗𝑖 𝑛 ∆𝑤𝑗𝑖 𝑛 = 𝜂 ∙ 𝑒𝑗 𝑛 ∙ 𝜑′ 𝑣𝑗 𝑛 𝜕𝐸 𝑛 𝜕 𝐸 𝑛 𝜕𝑒𝑗 𝑛 𝜕𝑦𝑗 𝑛 𝜕𝑣𝑗 𝑛 = ∙ ∙ ∙ 𝜕𝑤𝑗𝑖 𝑛 𝜕𝑒𝑗 𝑛 𝜕𝑦𝑗 𝑛 𝜕𝑣𝑗 𝑛 𝜕𝑤𝑗𝑖 𝑛 = 𝑒𝑗 𝑛 ∙ −1 ∙ 𝜑 ′ 𝑣𝑗 𝑛 = −𝑒𝑗 𝑛 ∙ 𝜑 ′ 𝑣𝑗 𝑛 ∙ 𝑦𝑗 𝑛 𝛿𝑗 𝑛 ∙ 𝑦𝑗 𝑛 ∙ 𝑦𝑗 𝑛 20
- 21.BP NETWORK Preliminary 𝜹𝒋 𝒏 = 𝒆𝒋 𝒏 ∙ 𝝋′ 𝒗𝒋 𝒏 Case 1: j is a neuron in output layer 𝛿𝑗 𝑛 = 𝑑𝑗 𝑛 − 𝑦𝑗 𝑛 ∙ 𝜑′ 𝑣𝑗 𝑛 𝑒𝑗 𝑛 21
- 22.BP NETWORK Preliminary 𝜹𝒋 𝒏 = 𝒆𝒋 𝒏 ∙ 𝝋′ 𝒗𝒋 𝒏 Case 2: j is a neuron in hidden layer 𝜕𝐸 𝑛 ′ 𝛿𝑗 𝑛 = − 𝜑 𝑣𝑗 𝑛 𝜕𝑦𝑗 𝑛 22
- 23.BP NETWORK Preliminary 𝜹𝒋 𝒏 = 𝒆 𝒋 𝒏 ∙ 𝝋′ 𝒗𝒋 𝒏 𝝏𝑬 𝒏 ′ =− 𝝋 𝒗𝒋 𝒏 𝝏𝒚𝒋 𝒏 Supposing k is a neuron in output layer 1 ∵ 𝐸 𝑛 = 𝑒𝑘2 𝑛 2 𝑘∈𝐶 ∴ 𝜕𝐸 𝑛 𝜕𝑒𝑘 𝑛 = 𝑒𝑘 𝑛 ∙ 𝜕𝑦𝑗 𝑛 𝜕𝑦𝑗 𝑛 𝑘∈𝐶 = 𝑘∈𝐶 𝑒𝑘 𝑛 ∙ 𝜕𝑒𝑘 𝑛 𝜕𝑣𝑘 𝑛 𝜕𝑣𝑘 𝑛 𝜕𝑦𝑗 𝑛 23
- 24.BP NETWORK Preliminary 𝜹𝒋 𝒏 = 𝒆 𝒋 𝒏 ∙ 𝝋′ 𝒗𝒋 𝒏 𝝏𝑬 𝒏 ′ =− 𝝋 𝒗𝒋 𝒏 𝝏𝒚𝒋 𝒏 𝜕𝐸 𝑛 𝜕𝑒𝑘 𝑛 𝜕𝑒𝑘 𝑛 𝜕𝑣𝑘 𝑛 = 𝑒𝑘 𝑛 ∙ = 𝑒𝑘 𝑛 ∙ 𝜕𝑦𝑗 𝑛 𝜕𝑦𝑗 𝑛 𝜕𝑣𝑘 𝑛 𝜕𝑦𝑗 𝑛 𝑘∈𝐶 𝑘∈𝐶 • 𝑒𝑘 𝑛 = 𝑑𝑘 𝑛 − 𝑦𝑘 𝑛 = 𝑑𝑘 𝑛 − 𝜑 𝑣𝑘 𝑛 = 𝑘∈𝐶 𝑒𝑘 𝑛 ∙ −𝜑′ 𝑣𝑘 𝑛 = − 𝑘∈𝐶 𝑒𝑘 𝑛 ∙ 𝜑′ 𝑣𝑘 𝑛 𝜕𝐸 𝑛 ′ ∴ 𝛿𝑗 𝑛 = − 𝜑 𝑣𝑗 𝑛 𝜕𝑦𝑗 𝑛 𝜕𝑣𝑘 𝑛 𝜕𝑦𝑗 𝑛 • 𝑑𝑘 𝑛 is constant ∙ 𝑤𝑘𝑗 𝑛 = 𝜑 ′ 𝑣𝑗 𝑛 • 𝑣𝑘 𝑛 = σ𝑚 𝑗=0 𝑤𝑘𝑗 𝑛 ∙ 𝑦𝑗 𝑛 𝑘∈𝐶 𝑒𝑘 𝑛 ∙ 𝜑 ′ 𝑣𝑘 𝑛 ∙ 𝑤𝑘𝑗 𝑛 𝛿𝑘 𝑛 24
- 25.BP NETWORK Preliminary – Summary ∆𝑤𝑗𝑖 𝑛 = 𝜂 ∙ 𝛿𝑗 𝑛 ∙ 𝑦𝑗 𝑛 ∙ 𝜑 ′ 𝑣𝑗 𝑛 𝑑𝑗 𝑛 − 𝑦𝑗 𝑛 j is a neuron in output layer 𝛿𝑗 𝑛 𝜑′ 𝑣𝑗 𝑛 𝑘∈𝐶 𝛿𝑘 𝑛 ∙ 𝑤𝑘𝑗 𝑛 j is a neuron in hidden layer 25
- 26.BP NETWORK Algorithm ① Initialize the network (including weights & threshold) ② Calculate for each inputsample:I. Supposing an input 𝑥 𝑛 , 𝑑 𝑛 , and j is a neuron in layer l, 𝑣𝑗 II. Calculate 𝛿𝑗 𝑙 𝑙 𝑚 𝑙 0 𝑛 = σ𝑖=0 𝑤𝑗𝑖 𝑦𝑖 𝑙−1 𝑛 𝑛 according to different cases, and adjust weights in layer l ③ 𝑛 = 𝑛 + 1, start a new recursive call (input a new sample) 26
- 27.BP NETWORK Algorithm 27
- 28.BP NETWORK Drawback / Improvement A heuristic method of weightinitialization:𝑤 ∈ 0.5 0.5 − , 𝑁 𝑁 An improvement by Nguyen & Widrow ① 𝛾 = 0.7 𝑛0 𝑛1 ② Initialize 𝑤𝑖𝑗 ∈ −0.5, 0.5 ③ Reinitialize 𝑤𝑖𝑗 = 𝛾 𝑤𝑖𝑗 𝑛 1 𝑤2 σ𝑖=1 𝑖𝑗 ④ For a neuron i in hidden layer, initialize 𝑏𝜖 −𝑤𝑖𝑗 , 𝑤𝑖𝑗 28
- 29.BP NETWORK Drawback / Improvement Convergence vs. Rate of learning Several reasons that lead to the slow rate oflearning:e.g. For assurance of convergence, 𝜂 must be set to a small value. 29
- 30.3 Hopfield 引入 / 概述 / 模型 / 联想记忆功能 / Hebb规则
- 31.HOPFIELD 引入 – 人脑的联想 人类具有联想的功能,可以从一种事物联系到与其相关的事物。比如:听到某个 姓名,会自动联想到这个人的长相、年龄、性格…… 人工神经网络是对生物神经网络的模拟,也具有联想的功能。比如:根据残缺的、 污损的图像识别出正确的图像 ˃ 如何根据部分错乱的图像识别出正确的图形呢? 31
- 32.HOPFIELD 引入 - TSP 在一城市集合{A,B,C,…}中找出一个最短且经过每个城市各一次并回到起 点的路径。右图给出了n= 10的一种可能路径,此时,路径总长度 d为 再计算其他合法路径,选择一个最小值。当有 n个城市时,任选出发城 市,可能的旅行方案是n-1的全排列问题,考虑到相同旅行路径的顺行和逆行 视为同一路径。则可能路径方案为 ˃ 当n比较大时,可能的路径方案将非常多,真的需要计算所有的可能路径吗? 32
- 33.HOPFIELD 概述 提出 早在 1982 年,Hopfield 发表的文章:《Neural networks and physical systems with emergent collective computational abilities》 中就提出了一种基于能量的模型 (Energy Based Model)——可用作联想存储的互连网络,这算是现在人工神经网络 的早期雏形,我们称该模型为 Hopfield 网络。 特点 该网络系统具有若干个稳定状态。当网络从某一初始状态开始运动,网络系统 总可以收敛到某一个稳定的平衡状态。 系统稳定的平衡状态可以通过设计网络的权值而被存储到网络中。 33
- 34.HOPFIELD 概述 模型结构 离散 Hopfield 网络(Discrete Hopfield Neural Network,DHNN) 连续Hopfield 网络(Continues Hopfield Neural Network,CHNN) Hopfield 网络功能 离散 Hopfield 网络主要用于联想记忆。输入-输出模式的各元素之间,并不存在 一对一的映射关系,输入-输出模式的维数也不要求相同:联想记忆时,只给出输入 模式部分信息,就能联想出完整的输出模式。即具有容错性。 连续Hopfield 网络主要用于优化计算功能。优化计算在实际问题中有广泛的应 用。如经典的 TSP 问题,工业生产和交通运输中的调度问题等。 34
- 35.HOPFIELD 离散函数模型 – 网络构成 按照关于人工神经网络构成要素的提法,离散函数Hopfield网络模型的 5项要素是: (1)神经元数目:为任意值。 (2)连接方式:任意两个神经元均互相连接,且权值具有对称性,即: (3)功能函数:MP模型,即: (4)学习方法:有教师的Hebb规则。 (5)环境适应性:无严格要求,具有较好的泛化能力。 35
- 36.HOPFIELD 离散函数模型 – 运行模式 (1)输入:以任意方式和技术方法(硬件地或软件地)改变任意一个或若干个、或全部神经 元的状态,对一个充分互联的网络来说都将引起网络状态的动态演变过程。 (2)运行结束标志:对于一个输入,当 则网络达到稳定状态,一次运行结束。 36
- 37.HOPFIELD 离散函数模型 – 能量函数 (1)定义 对于离散型网络,能量函数被定义为 (2)能量函数的单调下降特性 当网络的任意一个神经元的状态发生任意改变时,都引起网络能量的下降。 37
- 38.HOPFIELD 离散函数模型 – 能量函数 38
- 39.HOPFIELD 离散函数模型 – 能量函数 39
- 40.HOPFIELD 连续函数模型 – 网络构成 连续函数 Hopfield网络模型的5项要素: (1)神经元数量、连接方式、学习模型、环境适应性等与离散函数 Hopfield 网络模型相同。 (2)神经元模型 :Sigmoid 型连续函数的动态系统。 若净输入和输出分别记为𝑢𝑖 和𝑉𝑖 ,则 40
- 41.HOPFIELD 连续函数模型 – 网络构成 反馈互联函数及其动态函数单元: 若V表示各运放的输出电压,u表示电压求和结果,即理想运放的输入电压,则根据柯希霍夫定律 41
- 42.HOPFIELD 连续函数模型 – 网络构成 42
- 43.HOPFIELD 连续函数模型 – 能量函数 (1)定义 对于连续型函数网络模型,能量函数被定义为 (2)能量函数的单调下降特性 连续时间模型下的网络能量函数也具有单调递减性。能量函数随时间的变化可表示为 43
- 44.HOPFIELD 连续函数模型 – 能量函数 44
- 45.HOPFIELD 能量函数的一般形式 当Sigmoid 函数的陡度较大时,连续时间函数形式的能量函数的第二项实际上很小,即 可忽略不计,因而与离散型网络的能量函数具有相同的形式 45
- 46.HOPFIELD 联想记忆功能 -联想存储矩阵 给定联想模式对 𝑋𝑘 , 𝑌𝑘 ,对于向量(模式)𝑋𝑘 ,应该具有𝑌𝑘 输出或者称为对𝑌𝑘 具有联想 记忆。设𝑋𝑘 为m维列向量,𝑌𝑘 为n维列向量,构造矩阵 则M具有联想记忆运算功能。 证明: 令𝑋𝑘 为单位向量, 𝑋𝑘 = 1,所以 46
- 47.HOPFIELD 联想记忆功能 -联想存储矩阵 假设任意输入𝑋𝑚 ,𝑚 ∈ [0, 𝐾 − 1],它与 𝑌𝑚 是联想对,根据 上式说明,M仍具有正确联想的能力,但联想结果𝑌𝑚产生了一定的畸变,畸变误差为 𝑋𝑘 , 𝑋𝑚 表示𝑋𝑚 在所有𝑋𝑘 上的投影。它们在空间的方向是不同的,所以𝛼𝑘 有正有负,有大有小,求和的结果 可能相当小。特别的,如果向量空问中所有𝑋𝑘 是正交的, 则𝛼𝑘 = 0.对任何一模式的联想的畸变都不存在了。 47
- 48.HOPFIELD 联想记忆功能 -联想存储矩阵 假设𝑋𝑚 有畸变 简单运算可得 存在畸变的情况下,抛开对样本集合𝑋𝑚 的构建应尽可能具有正交性的追求之外,应该考 虑如何实现最佳联 想的问题,即应考虑的是M的最佳结构问题。其原则是: (1)对所有模式,要求系统输出的均方误差最小(对 K 的系统均方误差)。 (2)在不同畸变输入时,系统误差的某种加权和最小。 48
- 49.HOPFIELD Hebb规则 – 定义 若有 M个确定的(或已知属性的,或已知类别的等)N 维的模式样本向量𝑋𝐴 , 𝑋𝐵 , 𝑋𝐶 , … 并取二元阈值模型,即其中任意一个𝑋𝐾 ∈ {+1, − 1 }𝑁 ,式中𝐾 = 𝐴, 𝐵, 𝐶, …是样本的标号它们的 分量分别记为𝑋𝑖𝐴 , 𝑋𝑖𝐵 , 𝑋𝑖𝐶 , … (𝑖 = 0, 1, … , 𝑁 − 1)。N 也是互联网络的节点数,或者说是网络的神 经元个数,则按 Hebb 算法的网络学习过程,也就是权矩阵的构建规则为: 49
- 50.HOPFIELD Hebb规则 – 正确性验证 输入某一已知属性矢量,例如𝑋𝐴 ,依照前面𝑊𝑖𝑗 的定义,并且为了讨论的直观性,假定神经元功能函数 是线性的则网络的第i号神经元的输出𝑉𝑖𝑜应为 不计较上式的正负 𝑁 >> 𝑀 50
- 51.HOPFIELD 联想记忆网络的特点 (1)系统具有极强的容错能力 如果输入模式矢量有很大的畸变,或者网络有大量神经单元损坏,识别能力的降低相当有限。 假设𝑁 = 10 000,𝑀 = 100,𝑢𝑖𝐴 = 1 ,则识别结果的信噪比为 当输入UA畸变到只有一半的分量是原来的分量时,则信噪比可如下近似估计 51
- 52.HOPFIELD 联想记忆网络的特点 (2)SNR 随N的增大而增大,系统的容量就表现为系统的SNR,或者说允许错误记忆的概率。 (3)学习规则是开放的增量型的,在记忆容量范围之内,存储新的模式时学习过程仅为对 W 的一次加法运算。 (4)噪声项与被存储向量的正交性有很大关系,若它们是完全正交的,则噪声项为“0”。 52
- 53.4 Boltzmann 背景 / 定义 / 拓扑 / 学习过程 / 深度Boltzmann机
- 54.BOLTZMANN 背景 BP网络、RBF网络、Hopfield网络的优点: 结构简单;算法快速; 缺点: 信息处理能力不足; ˃ 解决方法: 随机神经网络。 54
- 55.BOLTZMANN 定义 对称耦合的随机反馈型递归神经网络; 由二值神经元构成; 网络节点分为可见单元和隐单元; 55
- 56.BOLTZMANN 单层反馈网络 BM作为单层反馈网络时,具有对称的连接权值,并且每个单元与自己之间无连接, BM 的结构用向量表示: 𝑠 = 𝑠1 , … , 𝑠𝑖 , … , 𝑠N 与Hopfield网络相同. BM是一个基于能量函数的网络,不同的是BM的单元 状态是随机的,每个神经元有2个状态𝑠𝑖 ∈ {0,1},网络的能量函数为 56
- 57.BOLTZMANN 单层反馈网络 神经元𝑖的状态为0与1所产生的能量的差值为: ˃ 其中𝑠𝑖 = 1的概率: ˃ 其中𝑠𝑖 = 0的概率: 57
- 58.BOLTZMANN 单层反馈网络 令𝑠𝑖 = 1的概率𝑝𝑠𝑖=1 与𝑠𝑖 = 0的概率𝑝𝑠𝑖=0 相除: 将上式推广到网络中任意两个状态出现的概率与之对应能量之间的关系: 58
- 59.BOLTZMANN 拓扑结构 多层网络的BM的神经元: 可见单元向量: 隐单元向量: 可见层节点与隐层节点{𝑣, ℎ}之间的能量函数为: 𝛹 = 𝑊, 𝐿, 𝑅, 𝐵, 𝐴 是模型参数,𝑊, 𝐿, 𝑅是对称连接权 ,𝐴和𝐵都是阈值; 59
- 60.BOLTZMANN 拓扑结构 一般玻尔兹曼机 可见层节点与隐层节点、可见层节点与可见层节点以及隐层节点与隐层节点之间都有连接权 {𝑣, ℎ}之间的能量函数为: 60
- 61.BOLTZMANN 拓扑结构 半受限玻尔兹曼机 只有可见层节点与隐层节点及可见层节点与可见层节点之间的连接 {𝑣, ℎ}之间的能量函数为: 61
- 62.BOLTZMANN 拓扑结构 受限玻尔兹曼机 只有可见层节点与隐层节点及可见层节点与可见层节点之间的连接 {𝑣, ℎ}之间的能量函数为: 62
- 63.BOLTZMANN 学习过程 目的:系统的最小全局能量结构下,各神经元之间的连接权值; 最初的参数更新算法由H𝑖𝑛𝑡𝑜𝑛 提出,用极大似然估计从训练样本中学习𝐵𝑀的参数(以计算W为例) 𝐵𝑀处于某一状态的概率取决于: • 该状态的能量; • 温度参数; 63
- 64.BOLTZMANN 学习过程 学习过程特点 • 约束可见单元状态,不约束隐单元状态 二阶段学习: • 约束学习阶段:由单元向量𝑣𝑎 的概率𝑝+ (𝑣𝑎 )计算隐单元的概率; • 自由学习阶段:由模型决定单元向量𝑣𝑎 的概率𝑝− (𝑣𝑎 ); K − L离差度量: 64
- 65.BOLTZMANN 学习过程 可知: 设𝑝+ (𝑣𝑎 ) 均为已知: 模型概率为: 为简化问题, 𝜃 = 0 65
- 66.BOLTZMANN 学习过程 66
- 67.BOLTZMANN 学习过程 67
- 68.BOLTZMANN 学习过程 又因为: 所以有: 68
- 69.BOLTZMANN 学习过程 可得到: 最终得到: 69
- 70.BOLTZMANN 学习过程 – 步骤 ① 随机设定网络的初始连接权值𝑤𝑖𝑗 (0)及初始高温; ② 按照已知概率𝑝(𝑣𝑎 )依次给定训练样本,在训练练样本的约束下按照SA算 法运行网络直到平衡状态,统计出各个𝑝𝑖𝑗 + ,在无约束条件下按同样的步 骤运行网络相同的次数,统计出各个𝑝𝑖𝑗 − ; + − ③ 按式𝑤𝑖𝑗 𝑘 + 1 = 𝑤𝑖𝑗 𝑘 + ∆𝑤𝑖𝑗 ∆𝑤𝑖𝑗 = 𝜀 𝑝𝑖𝑗 − 𝑝𝑖𝑗 修改每个权值𝑤𝑖𝑗 ; ④ 重复上述步骤,直到𝑝𝑖𝑗 + -𝑝𝑖𝑗 − 小于某个预设的容限; 70
- 71.BOLTZMANN 学习过程 – 步骤 梯度计算复杂,使用期望代替,用重新采样的可见单元状态和隐单元状态近似代替期望值; 71
- 72.BOLTZMANN 深度玻尔兹曼机 BM类模型的一种特殊子类; 有对称耦合随机二值单元的网络; 是有无向层连接的马尔可夫随机场; DBM包含多个隐层; 能量函数: 𝛹 = 𝑊 1 , 𝑊 2 , 𝑊 3 , 𝐵, 𝐴1 , 𝐴2 , 𝐴3 是模型参数,𝑊 1 , 𝑊 2 , 𝑊 3 是对称连接权 ,𝐵, 𝐴1 , 𝐴2 , 𝐴3 都是阈值; 72
- 73.BOLTZMANN 深度玻尔兹曼机 同时训练多个RBM; 组合形成DBM; 73
- 74.5 SOM 概述 / 算法 / 竞争学习 / 自稳定学习 / Kohonen网络
- 75.SOM 人脑活动机理 75
- 76.SOM 人脑活动机理 神经元的轴突所形成的突触有如下规律: 兴奋性连接、抑制性连接、远距离连接是较弱的兴奋连接 76
- 77.SOM 人脑活动机理 自组织特征映射:对外部环境事物特征的自动提取和自组织拓扑映射的能力 学习和记忆:瞬时记忆、短时记忆、长时记忆 77
- 78.SOM 特征提取算法 问题: > 怎么模仿人的特征提取自组织特性? 即: > 什么样的神经元功能函数? > 什么样的学习算法? > 什么样的人工神经网络? > 能实现自组织特征拓扑有序映射的生物神经系统学习过程? 78
- 79.SOM 特征提取算法 什么样的神经元功能函数? 其中, 79
- 80.SOM 特征提取算法 什么样的学习算法 式中,𝜑(𝑽)和𝛶 𝑽 是𝑽的线性或者非线性函数,例如: Instar规则 Outstar规则 80
- 81.SOM 特征提取算法 记 对此式左右两端做期望,由于𝑾和𝑿独立,所以有 记 和 假设经过充分学习, 𝑾(𝒕)趋向于稳定解𝑾𝑜𝑝𝑡 ,即𝑾不随时间变化,则有 81
- 82.SOM 特征提取算法 所以 设𝜆𝑖 和𝑪𝑖 是矩阵𝑨𝑥𝑥 的特征值和特征向量,可以证明𝜉𝑖 𝑪𝑖 是上式的𝑁个解! 因为 82
- 83.SOM 特征提取算法 因为𝑪𝑖 ≠ 𝟎,所以 可以证明在𝑁个解中只有对应于𝜆𝑚𝑎𝑥 和𝑪𝑚𝑎𝑥 的解才是稳定解! 即,解唯一收敛于 83
- 84.SOM 特征提取算法 - 证明 84
- 85.SOM 特征提取算法 - 证明 85
- 86.SOM 特征提取算法 - 证明 86
- 87.SOM 特征提取算法 - 证明 87
- 88.SOM 特征提取算法 - 证明 瑞利商式 若解是𝑾 𝑡 = 𝑾𝑜𝑝𝑡 = 𝜉𝑪𝑚𝑎𝑥 发生了扰动,使得𝑾 𝑡 偏离了𝑾𝑜𝑝𝑡 ,并且Δ𝜃𝑖 𝑡 > 0, 0 < 𝜃𝑖 𝑡 < 𝜋 2 𝜃𝑖 𝑡 对 𝑡 的导数均值为负, 𝑾 𝑡 与 𝑾𝑜𝑝𝑡 之间的夹角变小,最后必然趋近于0! 88
- 89.SOM 竞争学习 第一层有𝑁个单元,第二层有𝑀个单元 第一层是对输入向量𝑿 = 𝑥0 , 𝑥1 , ⋯ , 𝑥𝑁−1 , 𝑿 ∈ {0,1}𝑁 的归一化处理,即: 第二层的输入向量: 89
- 90.SOM 竞争学习 第二层的输出向量: 竞争学习是指,如果 则 称之为第𝐼号单元竞争胜利! 90
- 91.SOM 竞争学习 若学习策略采用Instar规则,例如 ∆𝑤𝑖𝑗 𝑘 + 1 = 𝛼𝑠𝑗𝑘 𝑦𝑖𝑘 − 𝛽𝑦𝑖𝑘 𝑤𝑖𝑗 𝑘 取𝛽 = 𝛼,则 即只对竞争胜利者的权向量进行了学习调整! 91
- 92.SOM 竞争学习 物理意义: 若𝑤𝐼𝑗 (𝑘)与输入向量的每一个分量𝑠𝑗𝑘 的差异很大,则其调整量很大,若𝑤𝐼𝑗 (𝑘)与𝑠𝑗𝑘 相差不多,那么 𝑤𝐼𝑗 (𝑘) 仅仅只是作一些微调,竞争学习的结果必然导致具有类似特征的一类向量越来越与某一个, 例如第𝐽个权向量𝑤𝐽 相似,并越来越容易引起第𝐽个单元的净输入最大 𝑡𝐽 → max{𝑡𝑗 } 因而竞争胜利。并接着使𝑤𝐽𝑗 得到进一步调整,这就明显地使每一个输出端具有挑选不同类别输入 向量,充当与这一类相似的,差不多的“向量们”的代表,或者说对该类向量具有最大响应,从而 具有了明确的分类功能。 92
- 93.SOM 自稳定学习 1. 引入记忆心理学关于学习和记忆信息加工双向性的概念, 增加一个由𝑁个神经元构成的第3层神经元,构建一个“TopDown”结构,即利用分类识别结果 𝒀 产生一个由顶(输出端) 向下(输入端)的校验向量𝒁 93
- 94.SOM 自稳定学习 由于 所以 其中,𝑤𝑗𝑖′ 是顶向下的权重向量 ′ ′ ′ 𝑾𝑗′ = [𝑤𝑗0 , 𝑤𝑗1 , ⋯ , 𝑤𝑗,𝑀−1 ]的第𝑖号元素 94
- 95.SOM 自稳定学习 2. 𝒁向量加到第一层,与输入层向量𝑺进行相似度比较 或者 95
- 96.SOM 自稳定学习 3. 根据比较结果采取不同的学习策略 记不管是采用方向相似度量𝜂1 或者是欧式距离度量𝜂2 ,都称为𝜂 如果𝑺𝑘 和𝒁𝑘 足够相似,也就是和𝑿𝑘 足够相似,因为𝑺𝑘 仅仅是𝑿𝑘 的归一化,即 如果𝜂足够大,对于阈值𝜌,有 𝜂≥𝜌 这说明将𝑿𝑘 判为第𝐼类是正确的,应转入LTM学习阶段; 反之,如果𝑺𝑘 和𝒁𝑘 相差较远,使 𝜂<𝜌 这说明将𝑿𝑘 判为第𝐼类是不恰当的,应转入STM阶段对𝑿𝑘 重新进行分类识别; 96
- 97.SOM 自稳定学习 但是为了避免再次因为 𝑡𝐼 = max{𝑡𝑖 } 𝑖 导致第𝐼号神经元胜利,应先强制第𝐼号元输出为0,取消其对𝑿𝑘 的判别资格,即 𝑦𝐼 ≡ 0 并在后续阶段予以保持,这称为网络重置。 因此,𝜌的取值对于分类的细致程度有很大影响,故称警戒参数。显然𝜌越大,若𝑺𝑘 和𝒁𝑘 稍 有差别,即判为错误识别,反之,𝑺𝑘 和𝒁𝑘 有较大差别,仍归于一类。 97
- 98.SOM 自稳定学习 再次分类可能导致两种情况: (1) 进行了正确的分类,随后转入LTM阶段; (2) 分类仍不正确,继续进行新的重置和STM,这又可能导致两种结果: ① 终于找到了一个正确的类别归属,转入LTM; ② 始终没有找到一个正确的类别归属。只要网络第二层的元素中尚有“空闲”元素未被以前的 所有类别映射所占用,即网络容量足够大,则新命名一个类别序号。如果网络容量不够,则 不能进行分类了,如果你愿意,可以适当降低𝜌值考察大致应属于哪一类。 98
- 99.SOM 自稳定学习 4. LTM学习 假定最终第𝐿号单元正确得胜,则 𝑤𝐿𝑗 𝑘 + 1 = 𝑤𝐿𝑗 𝑘 + 𝛼{𝑠𝑗𝑘 − 𝑤𝐿𝑗 𝑘 } ′ ′ ′ 𝑤𝑗𝐿 𝑘 + 1 = 𝑤𝑗𝐿 𝑘 + 𝛼{𝑠𝑗𝑘 − 𝑤𝑗𝐿 𝑘 } 式中𝐿可能是 𝐼,即第一次优胜者序号 𝐿 = ൞在𝐾个已识别结果中多次匹配后确定的某一个序号 新开辟的新一类识别结果序号 99
- 100.SOM 自稳定学习 100
- 101.SOM Kohonen网络 - 网络结构 101
- 102.SOM Kohonen网络 - 网络结构 固定侧反馈和神经元功能函数 横坐标:第𝑖个神经元提供反馈的神经元编号范围 纵坐标:神经元的权值 𝑀𝑝 :兴奋型反馈的神经元数 𝑏:正反馈权值强度 𝑀𝑛 :抑制型反馈的神经元数 𝑐:负反馈权值强度 注:𝑏和𝑐不参与学习,是常系数 102
- 103.SOM Kohonen网络 - 网络结构 系数可以取较宽的范围,例如 神经元的功能函数取分段线性模型 103
- 104.SOM Kohonen网络 - 网络结构 网络神经元的净输入由输入向量形成的分量和由侧反馈形成的附加输入构成 其中,输入向量形成的分量为输入向量各分量的加权和: 而由侧反馈提供的附加输入为侧反馈各分量的加权和: 注意,𝐼𝑖 (𝑘)保持不变,但𝑌 𝑘 是动态变化的,则有 104
- 105.SOM Kohonen网络 – 竞争机制 105
- 106.SOM Kohonen网络 – 网络学习 二维神经元阵列的学习算法可以归纳为以下步骤: 1. 设输入向量为𝑿 = [𝑥0 , 𝑥1 , ⋯ , 𝑥𝑁−1 ]T ,权重向量𝑾𝑖𝑗 = [𝑤𝑖𝑗,0 , 𝑤𝑖𝑗,1 , ⋯ , 𝑥𝑖𝑗,𝑁−1 ]T ,则输入向量的净 输入分量为: 2. 找出各个𝐼𝑖,𝑗 中的最大者𝐼𝑐 ,即 3. 利用侧反馈运行机制,按下式计算阵列中各神经元的输出,在点𝑐附近形成一个气泡𝑁𝑐 106
- 107.SOM Kohonen网络 – 网络学习 4. 气泡形成后,即对各权重系数进行调整,令𝛽 = 𝛼,调整量为 考虑竞争结果 5. 输入另一个输入向量,转至1进行下一轮的学习 107
- 108.SOM Kohonen网络 – 若干问题 1. 欧式距离衡量相似度 2. 没有必要对每一个输入向量都要通过迭代计算气泡区域𝑁𝑐 3. 气泡区域大小𝑁𝑐 和学习步长𝛼随时间增大而降低,可以改善学习质量 𝑁𝑐 (0)占神经元总数的50%~80%较为合适 例如 108
- 109.SOM Kohonen网络 – 有序映射 假设输入向量集合具有𝑀个向量{𝑿1 , 𝑿2 , ⋯ , 𝑿𝑀 },在学习过程中每次随机地从集合中取一个向量 赋予神经网络。再假设网络中有𝐿个神经元且𝐿 ≥ 𝑀,它们的输出是𝑦0 , 𝑦1 , ⋯ , 𝑦𝐿−1 。如果网络对 于从输入集合中随机选取的向量进行充分学习后,具有下列的特性: 即当输入𝑿1 时,具有最大输出的神经元编号为𝑖1 当输入𝑿2 时,具有最大输出的神经元编号为𝑖2 109
- 110.SOM Kohonen网络 – 有序映射 如果存在𝑖1 < 𝑖2 < ⋯ < 𝑖𝑀′ 或者 𝑖1 > 𝑖2 > ⋯ > 𝑖𝑀′ ,称这个网络完 成了从𝑁维空间到包括𝐿个分量的 一维阵列的保持拓扑特性的自组织 特征映射。 110
- 111.SOM Kohonen网络 – 有序映射 111
- 112.SOM Kohonen网络 - 神经网络语音打字机 112
- 113.SOM Kohonen网络 - 神经网络语音打字机 113
- 114.6 Summary Topology / Learning / Learning Rules
- 115.SUMMARY ANN - Topology single-layer perceptron feed-forward networks multi-layer perceptron Back-propagation Network … Kohonen’s Self-organizing Maps feedback networks Hopfield network Boltzmann Machine … 115
- 116.SUMMARY ANN - Topology feed-forward networks single-layer perceptron multi-layer perceptron 116
- 117.SUMMARY ANN - Topology feedback networks Kohonen’s SOM Hopfield network 117
- 118.SUMMARY ANN - Learning 118
- 119.SUMMARY ANN - Learning Rules Perceptron Learning Rule Hebbian Learning Rule Delta Learning Rule (Widrow-Hoff Rule) Competitive Learning Rule (Winner-takes-all) … 119
- 120.SUMMARY ANN – Activation Function Step function Sigmoid tanh 120
- 121.THANKS P R E S E N T E D B Y 华嘉逊 // 申弋斌 // 濮敏 // 王之楚