百度安全技术总监 冯景辉 - 《人工智能在WEB安全中的实践》

2020-02-27 565浏览

  • 1.p工智能在WEB安全 d的实践 冯景辉 百度安全技术总监
  • 2.
  • 3.
  • 4.冯景辉 百度安全 l  百度安全技术总监,百度商b安全o品总经理。 安全行b11年老兵,国内第一家完全基kSaaS的 l安全服务厂商安全宝的联合创始p兼研发副总 裁,安全宝系统架构总设计师。 l  创立安全宝之前,冯景辉曾在当时d国最大的 反病毒企b瑞星公司担任高级软件工程师、研发 经理等职务,带领团队在企b级安全o品线^先 后开发j9200、9300等多款安全防护系统
  • 5.sModSecurity开始说起 SecRule REQUEST_COOKIES !REQUEST_COOKIES:/__utm/REQUEST_COOKIES_NAMES ARGS_NAMES ARGSXML:/*"(?i:(?:(union(.*?)select(.*?)from)))" ODNRDPQ 规范化 规则集 多阶段 多字段 转换函数 多动作 REVERSE(noinu)+REVERSE(tceles) ! !un?+un/**/ion+se/**/lect+
  • 6.SQL Tokenizer Parser Analyzer 语法解析 •  关键词解析 •  语法规则 •  基本函数 语g分析 •  S94补全 •  环境感知 •  注入检测 •  语g行e IiAiKjDBQiLK 兼容性 除j5SS94,其tS94 误报 本质^,系统将尽量补全 S94,而S94一旦通过语法分 析,只要存在TLHDK,误报就 容易出现
  • 7.典型的机器学i场景 机器学i初探 输入 模式识别 输出 有监督学i 图像识别 VS 无监督学i 关联新闻 648
  • 8.机器学i初探 特征选取 基k8aSILad的特征选择, 需要结合安全特性,比如关 键字、字符特征、甚至请求 长度,同时避免过拟合 样本训练 选取大量黑白标注样本,同 时要控制样本类型的分布 特征选取 01 算法选择 02 样本训练 03 日志审计 04 算法选择 有监督学i有诸多常α算 法、SV5、055、贝叶斯 等等 日志审计a回归 当前有监督学i主要应α在 离线日志分析d,快速发现 未知攻击样本
  • 9.支持向量机-XSS检测应α SV5的典型问题 特征选取U:4长度 第三方域名c数 敏感字符 2S关键字 结构风险最小, 而非经验风险最小 召回率 93%! 准确率 90%!
  • 10.支持向量机-不足 不适合大规模数据集训练 广泛采α的4iASV5,在最坏情 况下复杂度e7 K^2)(训练样 本数平方) 本质^a规则无异 可u对抗基本变形,只是对原 有规则系统提供一定的宽容度 准确度无法满足需呀 对原有系统提供一c离线检查 机制 是否能够结 合更多的识 别方法
  • 11.隐马尔可夫 最大熵模型alert(0)! S1,符号 S2,字符 S%,数字 S4,分割符号 观察序列 … 隐含序列 S1 V1 V2 V5 S2 V% S4 V4 S% 加入词法之后 规范化 分词 词集/6gOaJ 055 向量化 200维特征 召回率80% 准确率90%
  • 12.s浅层学i走向深度神经网络 Input layer! Hidden layer 1! output layer! ! Hidden layer 2! Hidden layer 3! Residual layer! identity! ReLU! n=256! 0-1 ! Tanh! Tanh! Tanh! n=256! n=256! n=256! ReLU! n=256! Softmax! 0! 1!
  • 13.s浅层学i走向深度神经网络 特征提取 请求 •U:4长度 •  特殊字符数量 •  2S关键字数量 •  S94关键字数量 •  U- ! •  “ “数量 •  UKiLK •  参数c数 •  单参数PDBQiLK ! 数字化特征 205! 3! 34.5! 143234! 285! 68! 296! 7! 13850! 157! 11218! 847! 1.23e +9! 422! 1004! 177! 0! 398! 13.333! 125! 0! 0! 0! 0! 0! 0! 0! 1! 0! 1! 0! 0! 0! 1! 1! 0! 0! 1! 0! 0! ! 布尔特征
  • 14.见证奇迹的时刻 一m奇怪的发现 POST /index/index.php?_c=zip://d://KAS/WebSource/ueditor/php/upload/file/20170531/1496216087803962.zip#xxx&_m=captcha cmd=echo "\n\n\n", system("dirC:");exit; %2527!=(hex(user())>0x23)%2523 通过不断调整特征,对k变形a绕过有j 神奇的抵抗能力,{是准确率却无法提升 如果我们在结合:DPMLKPD呢? ! 95%! ! 90%! %00q请求
  • 15.见证奇迹的时刻 ! 95%! ! 90%! %00q请求
  • 16.威力不止如此 威胁特征全貌 如果机器学i只做文本特征检测, 不能称之ep工智能 α 户 身 文 本 特 征 y 特 征 报 访 问 行 e 特 征 の p 机 识 别 b 务 行 e 特 征 IP ! ! IDC! ! ! ! ! ! !
  • 17.威力不止如此 威胁特征全貌 如果机器学i只做文本特征检测, 不能称之ep工智能 α 户 身 文 本 特 征 y 特 征 报 访 问 行 e 特 征 の p 机 识 别 b 务 行 e 特 征 ! ! ! ! !
  • 18.威力不止如此 威胁特征全貌 如果机器学i只做文本特征检测, 不能称之ep工智能 访 问b 行务 α 户 身 文 本 特 征 y 特 征 报 e 特 征 の p 机 识 别 行 e 特 征 ! ! ! ! ! !
  • 19.α户行e分析-电商案例 -81 -0 登录 -1 浏览 -2 搜索 -% 购物车 -4 抽奖 -K 结算 SDPPiLK T-2,-1,-4,-8U T-2,-1,-4,-4U T-1,-1,-4,-8U T-0,-1,-4,-8U 无监督学i 3-JDaKP S1 S2 o出 盗号 S% S( S8 僵尸 S4 S5 S) S9 恶意爬虫 未知威胁
  • 20.α户行e分析-难点 b务抽象 通过K-gOaJ算法,o生b务 MaQQDOK,分析U:4,将请求归 类,实现b务抽象 去噪 去除网络、浏览器等干扰,将 SDPPiLKd所有b务向量化 关系向量化 每SDPPiLK的-81集合,n集 算法 如}选择3值,还要考虑到的 向量集合的方差 不判别好坏,只寻找少数派,相信 大多数α户都是正常b务 因e无法识别异常类型,还需要p 工r入和辅助模型识别 异常识别的准确率高达95%
  • 21.总结 有监督学i,有效降低规则维护工 作量,{对k准召相比语法引擎没 有突破 在样本空间扩大之后,/66相比 SV5能有效提高召回率,{更多 的应α在离线场景 UB-可u解决当前技术在高维空间 ^的不足,是安全的对抗的下一c 风口 无监督学i是未来,能突破样本空 间限制
  • 22.
  • 23.