Model Selection

2020-03-01 153浏览

  • 1.模型评估与模型选择
  • 2.主要内容: a)简介模型选择问题和评估方法 b)性能度量 c)比较检验 d)赤池信息量和贝贝 叶斯信息量 贝贝贝贝 e)正态分布检验 f) 偏差与方差
  • 3.简介模型选择问题和评估方法 梁文伟 51174500033
  • 4.概要: 1. 简介模型选择问题 a) 经验误差与泛化误差 b) 过拟合与欠拟合 c) 应对拟合问题 2. 评估方法 ( 监督学习 ) d) 留出法 (hold-out) e) 交叉验证法 (cross validation) f) 自助法 (bootstrapping) g) 更为一般的方法
  • 5.误差 (Error) 学习器 ( 模型 ) 的实际输出与样本的真实输出之间的差异 训练误差 Training error ( 经验误差 Empirical error) 学习器在训练集上的误差 泛化误差 (Generalization error) 学习器在测试集上的误差 理想目标:得到泛化误差小的学习器 然而,我们事先并不知道测试集是什么样的,我们只有努力使经验误差 最小化,同时使得其泛化误差尽可能的小。 过拟合
  • 6.过拟合 (Overfitting) 学习器将训练样本自身的一些特有特点作为所有潜在样本的一般 性质进行学习,导致模型泛化性能下降。 表现:在训练集上表现很好,在测试集上表现很差 欠拟合 (Underfitting) 学习器对训练样本的一般性质未进行很好的学习
  • 7.如何应对欠拟合? 学习算法相对于数据 欠拟合:模型学习能力不足 1. 基于树的模型: a) 增加树的分支 b) 增加树的深度 c) 增加树的数目 2. 神经网络: d) 增大超参数值 (RNN 维度 ) e) 增加参数数量 f) 增加迭代 g) 减小正则化参数 …
  • 8.如何应对过拟合? 过拟合:学习能力过于强大 1. 基于树的方法:预剪枝和后剪枝 2. 支持向量机:引入松弛变量 ( 软间隔 ) 3. 神经网络: a) 增大训练数据 b) 正则化 L2 L1 c) 减小 / 减少模型参数 d) Early stopping e) Cross validation f) Dropout …
  • 9.模型选择 在现实任务中,我们往往有多种学习算法可以选择,甚至对同 一个学习算法,当使用不同的参数配置时,也会产生不同的模型,如 何贝贝贝 我贝贝 最贝贝 的模型? 贝贝贝 理想的解决方案 直接贝贝 候贝贝 模型的泛化 贝 贝 贝 贝 贝贝 差贝贝 行贝贝 估, 贝 贝贝贝 泛化 贝 贝贝 差最小的模型 贝贝贝贝贝 挑战 1. 无法直接获得泛化误差 2. 一味追求训练误差最小化又可能导致过拟合现象
  • 10.评估方法:如何划分数据集 1. 留出法 (hold-out) 2. 交叉贝贝贝 法 (cross validation) 3. 自助法 (bootstrapping) 4. 更贝贝 一般的方法 贝贝贝贝
  • 11.留出法 将数据集 D( 按照某种原则 ) 划分成两个互斥的集合。 称一个集合为训练集 S ,另一个为测试集 T 。 在 S 上训练模型,在 T 上评估测试误差,作为对泛化误差的估计 注意点: 为什么保证互斥? 1. 训练集与测试集之间的互斥 2. 尽可能保证训练测试集之间的数据分布一致。 为什么保证类别均衡 分类任务 : 保证样本类别的比例尽量相似 分层采样 3. 一般采用若干次重复实验评估取平均值作为留出法的评估结果。 4. 训练集与测试集的比例合适,研究 (4:1;7:3) ,现实 ( 合理即可 ) S 大, T 小,评估结果不够准确 S 小, T 大,增大 S 与 D 的偏差,评估结果不真实 5. 适用数据集大小合理或较大 6. 原则:时间先后 ( 合理即可 )
  • 12.K 折交叉贝贝贝 法 将数据集 D 划分成 K 个大小相似的互斥子集 每次使用 K-1 个子集的并集作为训练集,余下的子集作为测试集 K 常取 5,10,20 考虑 极限 K= 样本数:留一法 (Leave one out) 1. 训练集与数据集 D 最为相似,模型准确 2. 数据量大时,训练开销不可忍受 保证每个样 本都出现在 测试集中
  • 13.自助法 训练:包外估计 我们用得到的 D’ 用作训练集, D\D’ 作为测试集,亦可重复多次。 注意点: 1. 在数据集较小,难以有效划分训练测试集时很有用 2. 改变初始数据的分布,引入估计偏差 Bagging 采样:自助采样 每次随机从 D 中挑选一个样本,做有放回的抽样放入 D’, 重 复 m 次,我们就得到了一个包含 m 个样本的数据集 D’ ,显然, D 中有一部分的样本会出现多次,另一部分的样本从不出现。 样本在 m 次采样中始终不被采到的概率是 (1-1/m)^m ,取极 限得到约等于 0.368 。
  • 14.更为一般的方法 可看做是留出法的扩展,在监督学习中使用比较广泛。 对于数据集大小合理或较大时: 数据集 互斥 训练集 验证集 各部分比例: 8:1:1 ; 7:2:1 ; 7:1:2( 合理即可 ) 测试集
  • 15.性能度量 朱思涵 51174500067
  • 16.• 1. 错误率与精度 – 仅关注分类错误 • 2. 查准率、查全率与 F1 – 关注分类错误的类型(正类、负类) • 3.ROC 与 AUC – 关注模型侧重 不同分贝贝贝贝贝 型综合性能 贝贝 的 • 4. 代价敏感错误率与代价曲线 – 对不同分类错误类型赋予代价
  • 17.错误率与精度 • 贝 贝 贝 差 (Empirical Error) —— 有限样本(训练 集) • 泛化贝 差 贝 (Generalization Error) —— 整体样本分布 数据,模型,任务目标
  • 18.错误率与精度 • 错误率 (Error) • 精度 (Accuracy)
  • 19.查准率、查全率与 F1 • 混淆矩阵 FN 假反例 TN 真反例 FP 假正例 TP 真正例
  • 20.查准率、查全率与 F1 • 查准率 Precision( 分类器视角 ) • 查全率 Recall( 样本视角 ) FN 假反例 TN 真反例 FP 假正例 TP 真正例
  • 21.查准率、查全率与 F1 • PR 曲贝 与平衡点 贝贝贝贝
  • 22.查准率、查全率与 F1 • PR 曲线与平衡点
  • 23.查准率、查全率与 F1 • F1-score • Fβ-score
  • 24.查准率、查全率与 F1 • 宏平均 • 微平均
  • 25.查准率、查全率与 F1 一类样本特别多且度量值高 class 一类样本特别多且度量值低 1 2 3 4 1 2 3 4 5 / 20 5 / 20 5 / 20 30 / 40 15 / 20 15 / 20 15 / 20 0 / 40 Macro 0.375 0.5625 Micro 0.45 0.45 一类样本特别少且度量值高 一类样本特别少且度量值低 class 1 2 3 4 10 / 30 10 / 30 10 / 30 6 / 10 1 2 3 4 12 / 30 12 / 30 12 / 30 0 / 10 Macro 0.4 0.3 Micro 0.36 0.36 Macro 倾向于不丢失样本数量少的类别的度量信息
  • 26.ROC 曲线与 AUC • 真阳率 TPR 与 假阳率 FPR FN 假反例 TN 真反例 FP 假正例 TP 真正例
  • 27.ROC 曲线与 AUC • 真阳率 TPR 与 假阳率 FPR
  • 28.ROC 曲线与 AUC • 真阳率 TPR 与 假阳率 FPR 正样本打分阈值 负样本打分阈值 + + + + + + + + + +++- m 个正样本 n 个负样本
  • 29.ROC 曲线与 AUC • Area Under Curve
  • 30.ROC 曲线与 AUC • 特殊情况
  • 31.代价敏感错误率与代价曲线 • 二分类代价矩阵 • 代价敏感错误率
  • 32.代价敏感错误率与代价曲线 • 横轴:正例概率代价 • 贝贝: 贝贝 取 [0,1] 的归一化代价
  • 33.代价敏感错误率与代价曲线 • 代价曲线
  • 34.关系梳理 错误率与精度 根据任务目的 扩展 查准率、查全 率与 F1 体现 PR 曲线 两种 角度 量化非均等代 价 ROC 曲 线 量化非均等 代价 代价敏感错误率 体现 代价曲线
  • 35.比较检验 董超 5117450008 4
  • 36.前提 • 经验误差与过拟合 • 评估方法 • 性能度量 比较 & 选择模型
  • 37.进行比较时面临的问题 • 测试性能与泛化性能有所差异 • 测试集的选择对性能评估影响较大 • 学贝贝 器贝贝 生的判定 贝 贝 贝 贝贝 果也可能具有随机性 贝贝贝贝贝贝贝贝 • ···
  • 38.比较检验 • 显著性检验 • 二项检验 • 交叉验证 t 检验 • McNemar 检验 • Friedman 检验
  • 39.显著性检验 - 含义 • 贝随 机 贝贝量参数 贝 贝 / 分布形式做出一个假设 • 利用样本信息来判断总体的真实情况与原假设是否 显著地有差异
  • 40.显著性检验 - 含义 • 常把一个要检验的假设记作 H0 ,称为原假设 / 零假 设 (null hypothesis) • 与 H0 对立的假设记作 H1 ,称为备择假设 (alternative hypothesis)
  • 41.显著性检验 - 含义 • 第一类错误: H0 为真时检验结论却放弃 H0 ,记其概率为 α • 第二类错误: H0 为假时检验结论却接受 H0 ,记其概率为 β • 仅限定犯第一类错误的最大概率 α—— 显著性检验 • α—— 显著性水平 • 拒绝 H0 的检验统计量取值范围——拒绝域 • 1-α—— 置信水平 区间估计
  • 42.显著性检验 - 原理 • 小概率原理:小概率事件在一次试验中几乎不可能发生 • 当检验统计量的观察值落在拒绝域时,认为样本显著表 明了差异的存在
  • 43.二项检验 • 针对单一学习器在单一测试集上的错误率 • 已知测试错误率,猜测泛化错误率 • 直观上认为二者相近的可能性较大
  • 44.全集 测试 训练
  • 45.测试误差 泛化误差 泛化误差
  • 46.m’ �′ �= � m �
  • 47.m’ m � 假设分类器的泛化错误率为 η , 其在 m 个测试样本上分类错误 m’ 个样 本 �′ �= � () ( ) � �′ �−�′ � �� �−�� � ( �∨�,�)= ′ � (1−�) = � (1−�) �� �
  • 48.m=10 η=0.2 η=0.3 η=0.4 η=0.5 η=0.6 η=0.7
  • 49.m=30 η=0.2 η=0.3 η=0.4 η=0.5 η=0.6 η=0.7
  • 50.() () � �m′ (1−�)�−m′ � (�∨�,m′) m′ (m′−1)!(�−m′+1)! � �−m′+1 � = = = � (�∨�,m′−1) � �m′−1(1−�)�−m′+1 m′!(�−m′)! 1−� m′ 1−� m′−1 { � ( �∨� , m′ ) 递增, m′ ≤⌊(�+1)�⌋ ❑ ⇒ � ( �∨� , m ′ ) 递 减 , m′ >⌊(�+1)�⌋
  • 51.�= 0.05 H0 :
  • 52.�0 � �= 0.05 ¿� �0 � ¿� � ( � ≤ �0 ) ≥ 1 − � �0 � ¿� �0 � ¿�
  • 53.�� �� �0 � 拒绝域
  • 54.K 折假设检验
  • 55.随机变量 & 样本的标准化 随机变量 样本 ··· (iid)
  • 56.分布 ,
  • 57.t 分布 独立
  • 58.单总体 t 检 验 • 总体服从正态分布, 其总体标准差 σ 未 知,关于均值 μ 进行 检验 • 零假设 H0 :
  • 59.单总体 t 检 验 • 总体服从正态分布, 其总体标准差 σ 未 知,关于均值 μ 进行 检验 • t 检验相对高斯检验更 为保守
  • 60.单总体 t 检 验 • 总体服从正态分布, 其总体标准差 σ 未 知,关于均值 μ 进行 检验 • 样本数量少 ( 如 <30)
  • 61.K 折假设检验 • 多次留出法 / 交叉验证 • 多个测试错误率数据 ε 1, ε 2, …, ε k • 认为测试错误率 ε i 是用于估计泛化错误率 ε 的样本
  • 62.
  • 63.� � � − �� � � � 拒绝域 拒绝域 � � 置信 区间 � �
  • 64.交叉验证 t 检验 • 针对两个学习器在多个测试集上的错误率 • 假设并检验两个学习器的性能差异有多大
  • 65.• 两个学习器 A 、 B 分别运行 k 折交叉验证 • & • 两两求差 • k 个差值 • 检验“ A 和 B 的性能相同”这一假设是否在置信区间内
  • 66.
  • 67.成对 t 检验 • 每对样本间独立,因 而差值间独立 • 差值总体服从方差未 知的正态分布,关于 均值 μ 进行检验
  • 68.� � � − 拒绝域 � � � � �� � 拒绝域 � �
  • 69.5×2 交叉验证 • 针对两个学习器在多个测试集上的错误率 • 假设并检验两个学习器的性能差异有多大 • 每 2 折为一组,进行组合 & 平均
  • 70.5×2 � ,,,,,,,,, …
  • 71.,,,,,,,,, … �� � − 拒绝域 � � � � �� � 拒绝域 � �
  • 72.McNemar 检验 • 针对两个学习器 • 针对二分类问题 • 假设并检验两个学习器的性能差异有多大
  • 73.认为 e01-e10 服从正态分布,则变量 A √ B × √ e11 e01 × e10 e00 服从自由度为 1 的 χ2 分布
  • 74.Friedman 检验 • 针对多个学习器 • 基于排序直接比较学习器性能 • 假设多个学习器性能相同并进行检验
  • 75.学习器 数据集 a b ··· k D1 ra1 rb1 ··· rk1 D2 ra2 rb2 ··· rk2 ··· ··· ··· ··· ··· DN raN rbN ··· rkN r1 r2 ··· rk 平均序值 • N 个数据集, k 个学习器 • 每个数据集上给出 k 个性能排序
  • 76.学习器 数据集 a b ··· k D1 ra1 rb1 ··· rk1 D2 ra2 rb2 ··· rk2 ··· ··· ··· ··· ··· DN raN rbN ··· rkN r1 r2 ··· rk 平均序值 • ri 的均值为 ,方差为 • H0 :所有学习器性能相同, ri 的分布没有显著差 异
  • 77.• ri 的均值为 ,方差为 • 变量服从自由度为 k-1 的分布 (N 、 k 较大 ) • 过于保守, k 较小时倾向于接受无显著区别的假设
  • 78.• 服从自由度为 k-1 和 (k-1)(N-1) 的 F 分布 • 若该 F 分布检验拒绝了假设,则意味着这些学习器的 性能之间存在显著不同
  • 79.F 分布 独立 , >0
  • 80.的临界值
  • 81.Nemenyi 检验 • Friedman 检验中假设被拒绝时需要“后续检验” • Nemenyi 检验,计算临界值域 • 对学习器 a 和 b ,若 ra-rb 超过 CD ,则认为 假设“ a 和 b 性能差异显著”在 1-α 的置信度下 成立
  • 82.√ �(�+1) ��(� ,�, �)=�� 6� 的临界值
  • 83.• Friedman 检验对整体性能差异的假设进行检验 • Nemenyi 检验则比对学习器之间的差异,进行 假设检验
  • 84.比较检验 - 总结 • 基于统计方法,评估方法 & 性能度量进行假 设 • 关于单学习器性能 / 多学习器性能差异的统计量 • 依据统计量的置信度 & 临界值判断假 设成立性 • 不同的数据量 & 数据分布所参考的统计量不 同
  • 85.Two popular criterion • Akaike information criterion(AIC) • Bayesian information criterion (BIC) 程栋 51174500008
  • 86.Akaike information criterion(A IC) • 赤池信息量准则 ,即 Akaike information cr iterion 、简称 AIC ,是衡量统计模型拟合 优良性的一种标准,是由日本统计学家赤 池弘次创立和发展的。赤池信息量准则建 立在熵的概念基础上,可以权衡所估计模 型的复杂度和此模型拟合数据的优良性。
  • 87.K-L information • K-L information KL 散度计算的就是数据的原分布与近 似分布的概率的对数差的期望值 , 计算的式子为 基于这个 Akaike 提出了 AIC 这个准则, Akaike 在 1 971 次研讨会上首次宣布的。
  • 88.K-L 到 AIC
  • 89.
  • 90.
  • 91.
  • 92.定义 —— AIC • AIC 的方法是寻找可以最好地解释数据但包含最少 自由参数的模型
  • 93.AICc 和 AICu
  • 94.定义 —— AIC • 具体的: • 其中 n 为样本量, p 为回归方程中自变量的个数,如果你用 spass 一类 软件做回归分析的话,直接用下面的数据就可以了。
  • 95.其他特点 • 实际使用中, AIC 做模型选择更倾向于选 择比真实模型更多参数的模型,容易低估 “样本外误差”,有 过拟合的倾向
  • 96.率。 Bayesian information criterio n • 贝叶斯方法判断就是在不完全情报下,对 部分未知的状态用主观概率估计,然后用 贝叶斯公式对发生概率进行修正,最后再 利用期望值和修正。也就是最大化我们模 型的后验概率。
  • 97.BIC—— 原理 给定数据 X 模 型的后验概率 概率比值 - 先验平均,直接求 最大概率密度,之 后 lalapce 近似
  • 98.定义 —— BIC • • • • 1978 年 Gideon E. Schwarz 提出的 L 是似然函数的最大贝 N 是数据点的个数 K 是模型的变量数目
  • 99.定义 —— BIC • 具体的: 其中 n 为样本量, p 为回归方程中自变量的个数,和上面的 AIC 的计算 是一致的 BIC 更倾向于低维模型的衡量!
  • 100.BIC-AIC 就可以得到, (ln(n)-2)*(p+1) , n>8 就一直随 n 和 p 的增大而增大了 很显然,当数据量大的时候, BIC 相比 AIC 在大数据 量时对模型参数惩罚得更多,导致 BIC 更倾向于选择 参数少的简单模型
  • 101.对比( yang 2005 ) • 研究可以大致归纳为:回归中,在假设“真模型” 不在候选集中的情况下, AIC 在选择最小均方误 差模型时是渐近最优的。而在这样的条件之下, BIC 不是渐近最优的,
  • 102.对比 (AIC2012) • 研究的大意是, AIC 会贝 贝 贝 均方 贝贝贝 差最小的模型。一般都 贝贝贝贝贝贝贝贝贝 是效果较好的。而当“真正模型”存在于候选的时候, AIC 可能无法将其找出来,此时 BIC 更加合适。 • 但是 BIC 在数据量有限时有很大情况下会选择一个非常差 的模型。简单来说, AIC 可以保证 OK ,甚至是 better , 但是 BIC 除了 Best 的一些可能之外大概就剩下 bad 了
  • 103.Conclusion • AIC 和 BIC 都试图通过引入模型中参数个数的惩罚项来解决参数过多 的过拟合问题;在 BIC 中贝 贝 贝 贝 比 AIC 中的贝 贝 贝 贝 大 • AIC 的度量基于 K-L 信息度,而 BIC 的度量基于贝叶斯原理 • AIC 的方法是寻找可以最好地解释数据但包含最少自由参数的模型 • BIC 能选择到正确的模型,而 AIC 不一定,但是候选模型没有“真实 模型”下时 AIC 较为合适
  • 104.Normal distribution test 51174500148 余思悦
  • 105. Definition To verify whether the population represented by sample data obeys the normal distribution before the comparative analysis.  • Methods Visualizedmethods:Graphic verification, such as histogram, EDFG, ECPG; • Kolmogorov-Smirnov Test • Lilliefors Test • Anderson-Darling Test(AD Test or Test) • Shapiro-Wilk Test(W Test)
  • 106. How to create EDFG?CDF:A hypothetical model of a distribution; ECDF(EDF): Models empirical(observed) data, the probability distribution you would get if you sampled from your sample, instead theobservations population. : EDF() forof iid � �(�) 1 � � ( � )= ∑ � ( −∞ ,� ] ( �� )= � �=1 � Step 1: Sort your data into ascending order; Step 2: “k/n”——’k’ is the numbered observation; ’n’ is the number in your sample; Step 3: Compare to another distribution;
  • 107. How to create ECPG? In a scatter plot of EDFG, the points are connected using step lines.
  • 108.Kolmogorov-Smirnov Test & Lilliefors Test
  • 109. What is Kolmogorov-Smirnov Test  Test Statistic  One sample K-S Test(Lilliefors Test)  Two-sample Kolmogorov-Smirnov Test  Advantages and Disadvantages
  • 110. What is Kolmogorov-Smirnov Test This test is used in situations where a comparison has to be made between an observed sample distribution and theoretical distribution. • A kind of GOF Test • A statistical hypothesis test——Null hypothesis • Non-parametric Entirely agnostic to real distribution; • Measures maximum distance between cumulative distributions
  • 111. The Kolmogorov–Smirnov statistic The K-S test statistic measures the largest distance between the EDF and the theoretical function , measured in a vertical direction. �=⁡¿ � � ( � ) − � ( � )∨¿ � � � �=max ⁡{∨� ( � � ) − ∨,∨ − � ( � � ) ∨} � � 1≤ � ≤ �
  • 112. The Kolmogorov–Smirnov statistic �=⁡¿ � � ( � ) − � ( � )∨¿ � If D is greater than the critical value, the null hypothesis is rejected. Critical values for D are found in the K-S Test Critical-Value Table. In hypothesis tests, two errors arepossible:Type Ierror:'>error: