驭势科技 潘争《如何构建低成本高效能的视觉感知系统》
2020-02-27 56浏览
- 1.如何构建低成本高效能的 视觉感知系统 潘争 驭势科技
- 2.效率精度平衡的卷积网络 卷积网络的压缩 嵌入式GPU+CPU的加速 低成本FPGA的加速
- 3.视觉感知的优势 • 信息更丰富 • 视野更宽阔 • 基建更配合 • 硬件更便宜
- 4.28.20% 25.80% 视觉识别算法飞速进步 ImageNet Top-5错误率 16.40% 11.70% 6.70% 5.10% 3.57% 2.99% 2.25%
- 5.视觉感知从demo到deploy • Demo:精度要高,不计成本,不管标准,不算功耗 • Deploy:低成本,低功耗,合车规,实时性,精度用户满意
- 6.硬件更便宜? 3999美元
- 7.硬件更便宜
- 8.PVANet Hong S, Roh B, Kim K H, et al.PVANet:Lightweight Deep Neural Networks for Real-time Object Detection. arXiv, 2016.
- 9.PVANet+fasterRCNN物体检测
- 10.Standard convolution Depth wise convolution 1x1 convolution MobileNet ??????????????????. ???????????????????????? 11 ???????????? ???????????????????????? + 1??????1 ???????????????????????? = ??????01 + ?????? Howard A G, Zhu M, Chen B, et al.MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications. arXiv, 2017.
- 11.效率精度平衡的卷积网络 卷积网络的压缩 嵌入式GPU+CPU的加速 低成本FPGA的加速
- 12.?????? ?????? ?????? ?????? = 4 ??????(??????(??????8, ??????), ??????8) + ?????? 4 ?????? ? 8 @∈B Network slimming Liu Z, Li J, Shen Z, et al. Learning Efficient Convolutional Networks through Network Slimming. arXiv, 2017.
- 13.?????? = 0 ?????? = 0.0001 ?????? = 0.001 网络参数稀疏化效果
- 14.网络压缩结果
- 15.效率精度平衡的卷积网络 卷积网络的压缩 嵌入式GPU+CPU的加速 低成本FPGA的加速
- 16.摄 预 神 像 处 经 后 头 理 网 处 络 理 当前⽆无法显示该图像。 30fps Pipeline 20~30fps 当前⽆无法显示该图像。
- 17.TensorRT • FP16和INT8自动量化 • 多层合并 • 自动选择并行算法 • 显存动态优化 • 多任务并发
- 18.效率精度平衡的卷积网络 卷积网络的压缩 嵌入式GPU+CPU的加速 低成本FPGA的加速
- 19.FPGA定点化 • 表示范围FP32:−3.4×10HI~3.4×10HI,INT8:−128~127 • 定点小数?????? = (??????O)??????? ⋯ ??????0. ⋯ ??????Q (??????O为符号位,??????8为0/1)代表的小数为 −1 RS[??????? ∗ 20V? + ??????1 ∗ 20V1 + ⋯ + ??????0 ∗ 2O + ⋯ + ??????Q ∗ 20VQ] • 定点小数表示范围在±20(1 − 0.5Q)之间,精度(最小单位)为20VQ • 用INT8定点表示FP32: ?????? = 20 ∗ −1 ZS ∗ 0. ?????????????1 ⋯ ??????Q FP32 Value ??????= FP32 scale factor ??????R * INT8 Value ??????R • ∑^ ??????^??????^ = ??????R??????` ∑^ ??????R^??????`^
- 20.-M A + M -M -T A +T + M ??????R -1 +1 ?????? = max ?????? ≤ 20 表示范围大,精度差 ??????R -1 +1 ?????? > ?????? = 20 表示范围小,精度好 表示范围与精度的取舍
- 21.FPGA的网络选择 • MobileNet使用depth wise convolution+1x1 convolution • 理论计算量低,同时精度很高 • GPU加速比比较差,但适合CPU和定制计算设备
- 22.FPGA+MobileNet物体检测
- 23.UISEE UISEE Visual Perception demo video
- 24.