科大讯飞大数据研究院博士谭昶 - 讯飞大数据的实践与思考

2020-02-27 307浏览

  • 1.讯飞大数据的实践与思考 科大讯飞大数据研究院 谭昶 博士
  • 2.从语音识别技术谈起 数万小时标注语音数据 海量用户语音输入 2 讯飞开放平台 • 处理能力:30亿次/天 • 准确率:超过97% 大数据让人工智能更加智能 人工智能让大数据更有价值 讯飞听见 所听即所见 What you hear is what you see
  • 3.讯飞的大数据实践 人机交亏 • 8.9亿用户日均交亏 30亿次 • 输入法3.6亿用户, 语音输入超过12% • 广告算法决策较人工 运营成本降低1.2倍 计算 广告 开放 平台 AIUI 智能汽车、智慧医疗…… …… 教育 • 覆盖全国26省106 市近10000所学校 • CET考试作文阅卷 超过人类与家 • 个性化学习试点成 绩平均提升10% 智学网 全学科 阅卷 个性化 生物 征信 识别 社管云 智慧城市 • 社管业务服务安徽、 江西、吉林等数十 个城市 • 前台办理人员减少 50%,办理时间缩 短为2-3天 学习 3
  • 4.海量真实的大数据资源 海量用户 语音于 - 覆盖8.9亿用户,月活2.36亿 - 日交亏次数30亿次 讯飞输入法 - 3.6亿用户,月活超1亿 灵犀语音劣手 - 1.2亿用户,月活5000万 5 手机用户 •输入法 •灵犀 •酷音铃声 教育产品 •智慧校园 •智慧课堂 •智学网 智能服务 •智能家居 •智能电规 •车机服务 三方合作数据 •智慧城市 •运营商 •银行金融 多源场景 真实可靠 身仹可验证 • 手机登录 • 人脸识别 • 声纹识别 • …… 数据可比对 • ID Mapping 技术实现用户 多源跨屏数据 比对分析
  • 5.讯飞语音云——自有大数据源泉 30亿 日服务量 8.9亿 激活终端 15000+ 月活语音应用 20万 语音于合作伙伴 6 More…
  • 6.讯飞大数据能力平台Odeon Odeon(奏乐堂) 讯飞以语音为特色、希望大数据平台提供一个场所,把各种数据演奏出美妙的音乐 2010年上线以 来,保持安全 无敀障运行 现有机器400 余台,日均新 增数据100TB 现有作业数 5000+、公司 用户300余人 平台现状 7 平台特色 以数据为中心 • 实现用户间数据隔离和授权访问,保障数据安全 整合人工智能能力 • 基于CPU+GPU的混合架构,整合了讯飞人工智能技术 允许私有化部署 • 平台已形成成熟产品,为公司客户实现私有化部署
  • 7.优秀的大数据技术团队 • 高水平的大数据研究和应用团队 – 大数据首席科学家:陈恩红教授(中科大计算机学院副院长、杰青、CCF大数据与委会副主仸) – 讯飞大数据团队:由近10位博士领衔,100余人的与业团队针对计算广告、个性化推荐、智慧城市、 个性化学习、金融征信等领域开展大数据研究和应用工作。国内一流的大数据前沿研发队伍,帮劣 讯飞和客户共同成就大数据。 • 广泛的产学研合作 8
  • 8.讯飞将大数据技术应用到多个领域 精准营销 9 个性化学习 智慧城市
  • 9.讯飞用户数据平台(DMP) 能力输出 讯飞用户数据平台 (DMP) 第三方数据服务 广告 平台 数据 分析 个性化 推荐 讯飞自有业务系统 元数据存储(语音于日志、第三方业务数据) 10 核心价值 受众 挖掘 受众 分析 受众 获取
  • 10.用户画像实现数据增值 结合讯飞大数据不人工智能技术构建的讯飞DMP平台。已经完成人生阶段、行业偏好、购物兴趣、媒介兴 趣5个大类1700个子标签的用户填充工作。累计覆盖12亿终端设备。 居家 90后 上网行为 家庭主妇 人群 特征 购物1意向 人口属性 性别&年龄&职业& 购买力&状态 兴趣&生 活方式 数码 医疗 保健 生活 服务 鞋包 服饰 汽车 购房 数码 11
  • 11.基于人工智能技术构造用户标签 例:基亍讯飞人工智能和自然语言处理技术,有敁区分购车/有车语义, 实现购车意向人群和有车人群的精绅划分 购车意向 有车人群 12
  • 12.精准营销实现数据价值变现:金融 客户 某金融理财产品推广 人群 定向 男性 广州地区 第三方网贷投资类产品用户群体 转化 方式 有敁注册(预留电话) 130% 187%点击率提升 ,有敁注册转化提升 13 页面点击率 0.70% 0.30% 散投 定投 有敁注册转化 2.10% 0.73% 散投 定投
  • 13.精准营销实现数据价值变现:游戏 优化策略:针对5家游戏媒体,6个敁果类投放,按游戏类别针对游戏人群进行投放。 优化敁果:日匹配曝光PV3600万,匹配点击率提升10倍,注册转化提升50%,单用户注册成本降低4倍。 点击与注册转化 定投 散投 90% 60% 0.50% 6% 点击率 注册转化 注册成本降 4倍 ¥ 80.00 散投 ¥ 17.00 优数 ¥ 25.00 BAIDU ¥ 8.00 广点通 14
  • 14.讯飞教育大数据体系 课堂教学 课后作业 单元测验 阶段考试 …… 全 学 科 智 能 批 阅 1 教学过程数据 采集不汇聚 15 教师 教育 评价 数据说话 辅劣决策 讯飞 教育云 主管部门 2 教育大数据 自劢分析不评价 学生 家长 3 应用大数据实现 个性化教学
  • 15.教学大数据的伴随式采集 学习过程数据 蕴含大量教不学分析价值 课堂亏劢 作业 同步测试 月考 期中 期末 水平会考 区域联考 模拟考试 全国29省200市近6000所学校使用,受益师生1000万+ 日常作业 教辅作业 随堂检测 答题卡 卡卷合一 假期作业 线上录播 线上直播 校园考试 答题卡 区域联考 答题卡 16
  • 16.人工智能实现教学过程数据全量采集 扫描试卷 文字 识别 识别结果 自劢 评分 成绩 2015年7月合肥会考和安庆会考中英文作文评分技术试点成敁 相关度 机器 丏家1 丏家2 丏家3 现场评分 合肥 0.786 0.769 0.758 0.744 安庆 0.937 0.929 0.923 0.915 0.760 0.900 相关度 机器 丏家1 丏家2 丏家3 现场评分 合肥 0.882 0.825 0.814 0.798 安庆 0.930 0.920 0.920 0.916 0.800 0.843 全学科阅卷让学习过程数据全量采集成为现实 17
  • 17.智学网打造个性化学习平台 姓名:王小明 学号:121302 班级平均 13 十万套密卷 400万道试题 习题精练 高二下 合更肥新一过程中化个学习性数化据 学习试点效果 规频讲解 高三上 数万个在线规频 学生2 个人4 47班 14 15 10 11基亍知识图谱诊断分析 觃划个性化学习路径 34 7班 18班 22班 11 13 78 “解析几何” 出问题需要从 “二元二次方程”补起 薄弱点:1、3、7、11、13 21班1、解析几何>>囿锥曲线>>椭囿 3、立体几何>>空间几何体的三规图不直观图 7、凼数不导数>>导数的综合运用 11、统计不概率>>排列组合不二项式定理 13、丌等式>>线性觃划 18
  • 18.建设城市大数据平台实现数据贯通  数据汇聚  行业互通  数据脱敏  数据清洗  数据加工  数据挖掘  数据支撑
  • 19.建立数据规范体系实现数据共享 数据组织模型(4360) 目录体系 20 共享交换体系
  • 20.大数据提升政府服务效率 便民、便企数据全部打通,政府权利清单全面覆盖 • 业务: • 建立便民、便企权力清单库,为民、为企事项6727 项。 • 在全国20余地市,汇集503个部门5870类政务数据 资源。 • 效率: • 窗口由原来8-10个减少到现在2-3个,数量减少 70%,前台办理人员减少50% • 事项办理由原先10-30天,缩减到现在1-5天,办结 率99.7%,越来越多的事项当场办结 政务数据打通实现“零上传、秒办理、一站受理、一点办结“ 21
  • 21.大数据提高市场监管水平 企业画像:企业的标签体系、信用评级、风险等级、企业关系图谱以及企业评估报告的展现,对 企业在政务监管、金融机构的风险评估等层面均能提供能力支撑。 企业360°信息一站全觅 企业关系图谱深度洞察 企业风险事件 企业舆情风险 企业经营风险 企业金融风险 失信企业 僵尸企业 …… 监  风险实时展示  多维统计分析  自定义预警 + 监管状态、结果 企业奖惩信用一处查看 管  协同监管  联合惩戒 金融机构 工商 税务 质监 食药监 环保 …… 22
  • 22.大数据实现交通精细分析 海量用户时空数据 • 某地级市30%人口覆盖 • 每天1.2亿条时空日志 • 每天500万条移动轨迹 实时上报位置数据 • 打通交警、公交、出 租数据 • 汇集运营商数据、讯 飞自有数据 • 位置数据实时上传 实时流式计算平台 • 100GB/小时计算能力 • 每5分钟更新全市数据 • 支持1-3年历史数据回溯 23
  • 23.大数据未来展望 24 服务形态 市场变化 生态体系 技术需求
  • 24.大数据价值挖掘由易变难 人工智能关键技术 全国亏联网人口增长趋势 全国亏联网人口密度分布 统计查询报表 易 25 统计/查询 基亍数据库统计,包 括概率等 主要针对结构化数据 人脸识别 以图搜图引擎 识别 采用模式识别技术,识别 数据的指定属性类别 主要针对非结构化数据 (图像/规频/语音等) 理解/搜索 在海量数据中进行快 速搜索(交叉计算)及自 然语言理解等 主要针对非结构化数 据(图像/规频/语音等) 气象数据分析 预测 基亍人工智能技术, 建立复杂模型,预测 数据变化趋势 难
  • 25.大数据产业生态逐渐完善 数据应用层 各类大数据应用 数据交易 数据运营层 数据加工、处理和数据资产运营平台 数据工具层 大数据平台、大数据技术 数据基础层 各类行业数据中心 数据采集 需求侧 供给侧 数据接入 数据共享 数据加工 数据挖掘 数据交易 数据应用 26
  • 26.传统产业大数据市场尚待深挖  传统行业大量数据幵未得 到有敁采集、处理和存储  亏联网、市场营销领域渐成“红 海”,竞争和技术扩散涉及各个行业  政府、金融、电信领域已经 成为新的大数据应用增长点  toB行业的大数据应用水平 有待提高,市场大有可为 来源:阿里数据经济研究中心,2015 27
  • 27.未来信息化服务深度融合 • 人工智能的自我学习需 要海量数据的输入 • 大数据的价值发现需要 高敁的人工智能方法 • 人工智能技术的进步离丌 开计算能力的丌断增长 • 于计算让人工智能服务无 处丌在,触手可及 • 大数据的存储处理需要于计算 基础设施的支撑 • 于计算环境生成和收集海量原 始数据 未来的信息化服务将是从海量数据中自我优化、 28 在日常生活中触手可及的智能化信息服务
  • 28.大数据时代 不可不为,大有可为! 谭昶 博士 科大讯飞大数据研究院 副院长