深度学习入门与实践 徐汉彬 PHPCON2018
2020-02-27 325浏览
- 1.深度学习入门与实践 ——工程师视角的AI技术浪潮 徐汉彬
- 2.自我介绍 • 徐汉彬(Hansionxu) • 腾讯鹅漫U品前台研发团队leader • 腾讯SNG增值产品部 • PHP开发老兵(10年+)
- 3.1 深度学习介绍 2 深度学习的基本原理 3 学习与准备 3 技术实践与应用
- 4.人工智能纪元可能已经开启 • 2016年,AlphaGo战胜李世石 • 人工智能全面进入大众视野
- 5.下一轮科技革命 • 业界普遍预测,人工智能(深度学习)将引领新一代的技术革命 • 李开复预测十年后它将深刻影响人们的生活 • 2017年Google和微软:从“Moblie First”到“AI First”战略
- 6.AI的一些有趣应用
- 7.工程师视角的技术浪潮 深度学习有广泛的应用场景,但它似乎是个“高深”的东西? Ӿࢵጱᑕଧާጱᜋݒ۸ ᖫᑕದጱݎฦ݊
- 8.机器学习与深度学习 • 深度学习是机器学习的一个分支 • Hiton-2006年 • 语音识别:将传统的混合高斯模型(GMM)替换成深度神经网络(DNN)模型 后,将识别错误率降低20%多,优化幅度超过了过去几十年总和 • 人脸识别:LFW数据库上的结果,从最早的90%左右的正确率,一路被刷到了 99.5%以上 • 图片分类:ImageNet上图片分类的精度已超过96%,已超越人类水平
- 9.深度学习的基本原理
- 10.神经元的原理 • 树突(输入)和轴突(输出) • 人脑有1000亿个神经元,1000万亿个突触 ᬌف ᬌڊ
- 11.人工神经网络模型 – 人工神经元 • 用函数模拟神经元(input、output)
- 12.房价测算为例子 价格y 81.5н,?w y=ax+b 93н,95w 50н,50w 面积x 训练特征数据 调整模型 梯度下降 权重计算 (回归模型) 损失函数 真实值的差距
- 13.学习与准备
- 14.学习的前期准备工作 适当复习一下高中和大学的数学(线性代数、微积分、统计基础) TensorFlow的英文社区:https://www.tensorflow.org/Keras的中文社区:https://keras.io/zh/
- 15.学习的前期准备工作 数据获取:获得有标签的样本数据(有监督学习); 构造模型:可供选择的机器学习模型和算法其实比较多,换而言之就是一堆数学函 数的集合; 损失函数:衡量模型计算结果和真实标签值的差距; 模型训练:训练之前构造好的模型,让程序通过循环训练和学习,获得最终我们需 要的结果“参数”; 测试验证:采用之前模型没有训练过的测试集数据,去验证模型的准确率。
- 16.MNIST识别手写数字(1) 识别手写数字 MNIST数据:http://yann.lecun.com/exdb/mnist/60000的训练数据集和10000的测试数据集(28*28像素的图片) 图片变成数组数据(28*28=784)
- 17.MNIST识别手写数字(2) 如果证明该图片确实是具体某个数字? 各个维度的权重之和
- 18.损失函数的原理 损失函数(loss):让计算结果和真实结果的差距最小化,例如:方差、交叉熵等 预测方程B 价格y 预测方程A 和真实值之间 的差距 面积x
- 19.技术实践与应用
- 20.“人工智能”写古诗 学习6000首 学习3万首 切世闻光一人前此正里弄每夜物秋十却忆云中流闻江多田再三天可。头寂无秋湘道园地雪寞半处杳堂万索,,,,杳东囚樊径酒旧五荃尘 唯世有倒山谷君埃不歌鱼寒斜流咫内喜王。光照洛剑,。,一月寒百城令点初城竿无流明蕊飞塞学。。。。习几。十首 独恩毫戛水速金衢阳饮,酒沽百向车丹梳池,上二阳。 羡汉同公珠曾橘向女楚尺,,一人径日入钱空将山管。。 学习1000首 何是日金九枝照干正千江成城条正旖峨尽见著,,,康松天枉翩凋寒免容激雁累服墨度娘。五迟返最。。舞边。 空王水折渔平缝水天众诗千阁天惣梦月枝垂匡,,柳闭,风二已张影刹两躯下弄频覆天摇,风寒难。。自缠。 结子一从里忍,不欠关辨生淮寒未人去钟得间下苦远初。,,念故问时金旅声吟枝人不草才歌处色熟。,低可秋。追此多风。月地。
- 21.AI写诗的原理 模型构建的原理: 床前明月光,疑是地上霜。 input ଥڹก์ط 床 前 … output ڹก์҅ط 前 明 … Input Embedding LSTM(2 layers) Softmax OutputOptimizer:adamLoss:Categorican cross-entropy
- 22.写诗的原理:输入编码 数据输入编码(3万多首古诗):床前明月光 One-hot key & Embedding ( one-hot key编码) 床 [1,0,0,0,0 ] Embedding ( 128 dim ) 前 [0,1,0,0,0 ] 明 [0,0,1,0,0 ] …… input ଥڹก์ط output ڹก์҅ط 床 前 床前明月光 ( Embedding编码,128纬度) 床 [0.2,0.12,0.02… ] 前 明 前 [0.14,0.03,0.51,… ] 明 [0.2,0,03,-0.8,… ] … … …… 床 x 前 x y 床 前 x
- 23.写诗的原理:模型应用 LSTM(Long Short-Term Memory) Softmax(激活函数) Input Embedding LSTM(2 layers) Softmax OutputOptimizer:adamLoss:Categorican cross-entropy
- 24.写诗的原理:古诗生成 Softmax激活函数的作 用,将取值分布到0-1 主题字 风 state ??????↓?????? 月明春草尽,幽思独深坐。 云山落花下,月满松声冷。 不忍有幽情,相见在南望。 一夜两何言,相与在天阙。 古诗起始第一个字 古诗第二个字 标点符号位置? 何人月 有state我意,愿明 奉state 悚明时… 。 ??????↓?????? ??????↓?????? ??????↓??????
- 25.写诗的原理:藏头与押韵 基本原理:干扰生成过程,在weigth权重列表中,强行选择某个字作 为开头(藏头),选择一致的韵母作为句的结尾(押韵)。 4000多个汉字的 weigth权重集合 风 程年不见人家住, 序去人来有路迟。 员里不堪闻舞泪, 要时还似一声残。 加音若问无穷恨, 班道何妨不得归。 另外一个方面说,它破坏了 LSTM控制的时序,会让古诗 诗意大打折扣
- 26.业务应用与实践 • 2017年5月上线(端午节主题活动) • 没有GPU机器,直接用CPU机器(8核) 部署服务 • 计算开销比较大,单机只有30多QPS • 现网生成了300多万藏头诗
- 27.工程师视角对机器学习的一点点感悟 • 另外一个解决问题的思维方式:专家系统和机器学习 • 新的技术工具,技术思维 • 数据和计算能力是瓶颈,例如:写诗模型完整训练一次需要1天多, 调参数的成本比较高 • 应用的难度并没有想象中那么高,大部分工作量集中在收集和清洗 数据
- 28.PHPCON ਥᗑғwww.phpconchina.com THANKS ق᮱ PPT ӥғhttps://github.com/ThinkDevelopers/PHPConChinaਥොQQᗭғ34449228̵135615537 ਥොلռݩғThinkInLAMP