科大讯飞人工智能计算平台实践

2020-02-27 283浏览

  • 1.科大讯飞人工智能计算平台实践 科大讯飞 张致江
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.分享提纲 p科大讯飞人工智能简介 p科大讯飞计算平台实践
  • 7.公司简介 科大讯飞股份有限公司成立于1999年,2008年在深交所挂牌上市(股票代码002230 ) 。作为我国唯一以语音技术为产业化方向的“国家863计划成果产业化基地”,科大讯飞在语音 合成、语音识别、口语评测、自然语言处理等多项核心技术上拥有国际领先的成果,目前已占有 中文语音技术市场70%以上的市场份额,成为智能语音与人工智能产业的行业领导者 • 国家智能语音高新技术产业化基地 • 语音及语言信息处理国家工程实验室 • 国家规划布局内重点软件企业 • 国家创新型企业 • 国家级企业技术中心 • 国家高技术产业化示范工程 • 中国语音产业联盟理事长单位 • 中国中文语音交互技术标准工作组组长単位 • 国家博士后科研工作
  • 8.什么是人工智能
  • 9.什么是深度学习 出现狗,让红灯亮起 出现车,让绿灯亮起 如果光线模糊,进行微调 数千种类型的灯 千万级训练样本 百万级旋钮开关
  • 10.学习过程与预测过程 人工智能系统包含两个部分:学习平台(深度学习平台)、预测平台(在线云服务平台)。
  • 11.两个分类 基于数据的数据智能 ••任务定义明确、可标注大量训 练数据,可以建立输入端到输出 基于知识推理的类人智能 ••涉及到知识表示、逻辑推理甚 至自主学习的任务 端之间的回归、排序、分类、聚 ••包括常识推理等具体任务 类等模型的认知智能任务 ••强人工智能 ••包括机器翻译、问答等具体任 务 ••弱人工智能 现在成熟的人工智能技术还是以数据驱动的!当然计算量也很大!
  • 12.三个阶段 认知智能 感知智能 计算智能 能存会算 能看会认,能听会说 能理解会思考
  • 13.分享提纲 p科大讯飞人工智能简介 p科大讯飞计算平台实践
  • 14.深度学习计算硬件分类 DNN Processing U nits BrainWave Baidu SDA Deephi Tech ESE Teradeep Etc. Cerebras Google TPU Graphcore Groq Intel Nervana Movidi us Wave Computing Etc. Goo d Performance in a parti cular domai n
  • 15.当前阶段 1st G e ne ra tion 2nd Ge nera tion P a ra l l e l 3rd G en e ration De d i c at e d No w He t e r og e n e o us 4th Ge nera tion
  • 16.第一代基于 FPGA 加速板卡 Form Factor Half Width Half Height Logic Density 1.5M Logic Cell Host Interface PCI Express 3.0×8 Memory(DDR4) 4 Channel @ 2400MT/s 4GB/Channel 72bit Width/Channel 4 LEDs Front I/O Power Capacity Supply 60 watt System Monitoring Voltage、Temperature Power Supply PCIE Slot
  • 17.性能 在线DNN加速测试下并发路数、处理延时、功耗对比 3 00 Delay(Millis econd ) 2 50 C onc urrency(Lan e) 2 00 1 50 1 00 50 C on su mption (Watt) 0 FP GA K U1 1 5 GP U 1 GP U 2 GP U 3
  • 18.识别率 在线DNN加速测试识别率 Test environment GPU FP32 FPGA INT16 CPU INT16 Normal 93.54 94.53 94.55 Noise 87.97 88.00 87.91 Speech-in-noise 93.17 93.19 93.17 Side-speech 90.67 90.68 90.78 Normal 94.31 94.30 94.35 Average recognition rates 92.132 92.140 92.152 FPGA的定点与GPU浮点方案相比可以做到识别率无损效果
  • 19.逻辑架构 v1.0 数据 在线 离线 模型
  • 20.逻辑架构 v2.0 数据 终端 在线 离线 模型 AIUI AIaaS DLaaS
  • 21.AIUI 远场降噪 方言识别 全双工 纠错 多轮对话
  • 22.AIUI 累计终端数 日均使用次数 第三方创业团队 2017/4 +50% 2016/4 6亿 +133% 15亿 +123% 13万
  • 23.AIaaS 讯飞超脑 人脸识别 手势 识别 语音识别 语音合成 语音 口语 评测 翻译
  • 24.讯飞云 AIaaS DLaaS 基础云 PaaS IaaS RDS Hadoop HaaS APM MQ VMaaS CaaS
  • 25.AIaaS 透视 端 Android IOS Linux Windows 网络 BGP 国际专线 DNS解析 NS解析 服务 H5 支撑 数据 服务安全 网络监控 日志传输 流量监控 业务配置 数据清洗 系统索引 服务监控 发布部署 SQL计算 数据分析 自优化 负载配置 数据安全 数据同步 系统监控 系统运维 跨机房负载 多网接入 大数据平台 流量负载 业务分发 日志收集 业务调度 业务平台 语音引擎 服务系统 数据库 数据存储 接入层 云 服务层 DMP平台 基础层 虚拟机/基础设施 特征提取 特征聚合
  • 26.IaaS-HaaS-接入(1/2) 北京 上海 广州 全局负载 合肥 硅谷
  • 27.IaaS-HaaS – 互联 北京 广州 上海 合肥 数据中心“微DC”方式 “两城三中心”
  • 28.IaaS-HaaS – SDN pNFV 与 SDN pSDN p控制面 p转发面
  • 29.IaaS-HaaS - SDS 文件系统 交付给用户,直接文件方式使用 GlusterFS、Lustre 对象存储 交付给应用程序,API方式使用 Swift 块存储 交付给操作系统,硬盘块方式使用 CEPH 三副本、内外两套网络 读写加速 冷、温、热三种区域
  • 30.IaaS-VMaaS • CloudStack • OpenNebula、OpenStack
  • 31.IaaS-CaaS pDocker 镜像仓库 pK8S、Swarm pCI/CD & DevOps 码农 构建 测试 代码审核 代码仓库 部署 弹性计算
  • 32.PaaS 数据库服务 Hadoop服务 消息队列服务 …… APM
  • 33.AIaaS 麦克风 阵列 讯推 用户级 唤醒 AIUI 2015-03 2015-07 2015-10 2015-12 语音唤醒 声纹识别 人脸识别 语音评测 2014-08 2014-10 2014-12 2015-01 语义理解 智能问答 离线语音 云+端 融合 2012-03 2013-08 2013-12 2014-05 语音听写 语音合成 命令词 识别 个性化 语音 2010-10 2010-10 2011-05 2012-01 语音听写 97% 人脸识别 99% 语音唤醒 95% 语音合成 自然度超过普通人
  • 34.DLaaS 统一存储 CPU调度 GPU调度 策略中心 …… CNN CTC DNN LSTM …… CONV SGEMM SOFTMAX SIGMOD ……
  • 35.DLaaS
  • 36.集群调度系统 各种训练任务 CPU资源池 GPGPU资源池 集群调度系统 统一资源监控 高密GPGPU服务器+文件系统 高密CPU服务器+文件系统
  • 37.利用率
  • 38.并行算法优化
  • 39.加速比 60 55 50 加速比 40 30 27 20 15 10 3.7 1 0 1 4 16 GPGPU数量 32 64
  • 40.基础函数优化 Torch TensorFlow CNTK Caffe …… Tesla K20m Tesla K40 Tesla M40 Tesla P40 …… 参考了大量的开源代码 阅读了大量的论文 深入学习不同GPGPU的架构
  • 41.性能提升 + 显存节约 速度 (samples/sec) 显存(MB) 16000 12000 14000 10000 12000 8000 10000 6000 8000 6000 4000 4000 2000 2000 0 0 0 128 256 384 512 640 768 896 102411521280140815361664 0 128 256 384 512 640 768 896 102411521280140815361664
  • 42.DLaaS 训练时间(天) 30 1.5 以前 现在 常规数万小时训练在GPGPU平台只需要1.5天!
  • 43.人工智能系统 – 训练问题 • 海量的训练数据:(T级别) 强大的计算能力 (高性能计算) • 庞大的网络规模:(数百层)
  • 44.人工智能系统 – 学习问题 • 只需要前向计算 性能功耗比 (高效能计算) • 部署在各种终端设备:(手机等智能硬件)
  • 45.训练问题优化 p运算速度加速 p榨干硬件的计算能力:cudnn/cublas/mkl-dnn p分布式训练 p收敛速度加速 pBatchNorm、LayerNorm等正则化方法 pAdagrad、Adadelta等自动调整学习率的更新方式
  • 46.运算速度加速 - 高效率汇编kernel
  • 47.运算速度加速 - 高效率汇编kernel P40下矩阵乘Tflops对比 10 9 8 7 6 5 4 3 2 1 0 128 512 1024 128 512 2048 128 512 9004 128 512 15004 256 512 1024 256 512 2048 256 512 9004 256 512 15004 iflytek128x128 512 512 1024 512 512 2048 iflytek128x64 cublas8.0 512 512 9004 512 512 15004 512 512 1024 512 512 2048 普遍优于cublas的实现;大规模矩阵乘下性能提升37% 512 512 9004 512 512 15004
  • 48.运算速度加速 – 分布式训练 p并行化难点 p通信频繁,传输量大,对带宽要求高 pbatch-size太大时无法收敛 p解决思路 p使用高带宽设备:NvLink、Omni-path、InfiniBand p使用高效的并行训练算法 p减少传输量 p增大batch-size p降低通信频率
  • 49.学习问题优化 p运算速度加速 p榨干硬件的计算能力:cudnn/cublas/mkl-dnn p计算量降低 p模型量化 、压缩 pDistill-knowledge pMobileNet、ShuffleNet
  • 50.计算量降低 - 低 Bit 量化 250 200 150 100 50 0 浮点运算 8bit运算 DFCNN在浮点计算的并发路数和8bit计算并发路数对比(50路~200路)
  • 51.最后 计算量提升 训练时间下降 并发路数提升
  • 52.智慧教育 智慧医疗 人机交互 智慧法院 智能城市 智能机器人 人工智能计算平台 智能客服
  • 53.人工智能必将改变人类的生活
  • 54.汇报结束 谢谢聆听