59e71b5057880
2020-02-27 225浏览
- 1.个性化推荐系统实战与效果提升之道 达观数据CTO 纪达麒
- 2.1 公司及主讲人简介 2 个性化推荐系统 3 4 开发推荐系统的 达观数据推荐系统 技术难点 解决方案 5 心得体会
- 3.01 公司及主讲人简介
- 4.纪达麒 首席技术官 达观数据CTO,研发团队总负责人,中国计算机学会(CCF)会员。拥 有10年技术团队管理经验,擅长数据挖掘以及实时服务系统架构设计工 作。曾担任腾讯文学数据中心高级研究员、盛大文学技术总监、搜狗广 告系统高级研发工程师、百度工程师等职务,在中国一线互联网公司中 承担个性化推荐系统、在线广告系统等核心技术研发工作。多次承担公 司重大紧急项目的架构设计和研发管理工作,所开发的个性化推荐系统 曾创造了上线后效果提升300%的记录,所带领的数据挖掘团队获得过 盛大集团最佳团队奖荣誉。曾代表公司多次参加国际数据挖掘竞赛,是 ACM KDD-Cup,CIKM Competition等世界一流数据挖掘竞赛获胜队 伍的核心成员。
- 5.达观数据:中国领先的大数据技术服务企业 • 专注于文本挖掘和搜索推荐技术服务的高科技企业 • 复旦大学计算机系科研合作单位和校外研究生培养基地 • 上海市大数据联盟理事单位、上海市计算机学会成员单位 • 获软银赛富、真格基金、方广资本等著名机构共同投资 投资机构 合作机构
- 6.02 个性化推荐系统
- 7.个性化推荐的概念和产品形态 个性化推荐是各类内容平台、社交、电商网站集客的重要方式,通过为用户快速准确地提供个性化的内容吸引其兴趣 个性化推荐的对象类型各不相同,与客户所在的行业密切相关,既有文章、音视频的推荐,也有社交对象、商品的推荐 电商个性化推荐 新闻媒体个性化推荐 音视频内容个性化推荐 企业文书个性化推荐 文学网站个性化推荐 问答结果个性化推荐 金融财经个性化推荐 社交网络个性化推荐
- 8.优秀的个性化推荐系统具备的效果 提供优秀的推荐结果 提高用户点击率 提升实际效果转化 通过对用户初始信息和少量点击行为 通过为用户提供其感兴趣的内容,提 通过为用户推荐有较高吸引力的内容 的分析理解,以毫秒为单位迅速建立 高用户点击的频率,从而提升用户的 ,提高用户的注册和付费转化率,提 和更新用户模型,完成精准有效个性 停留时长和长尾物品的曝光率,并促 升黏性,从而促进用户留存,减少用 化推荐。 进用户的日活和月活。 户流失。
- 9.03 开发推荐系统的技术难点
- 10.技术难点1: 如何精准把握用户的兴趣点 用户兴趣不仅存在多样性,而且会随着时间的变化而不断有变化,如 何对兴趣进行精准把握,并针对性的调整推荐策略是重大难点 对用户兴趣的挖掘来自于各种各样的数据,内容数据、行为数据、关 系数据,都对推荐结果有影响,需要分别建立算法模型来进行挖掘 不同算法模型对用户兴趣的刻画结果不同,如何综合运用不同方法的 结果,进行有机的融合
- 11.技术难点2: 冷启动问题导致推荐满意度低 对新用户,由于缺少用户行为数据,因此难以生成优质的推荐结果,导致 新用户体验差,流失率高 对新内容,在推荐时过度依赖内容类别标签,导致无法推荐给合适的用户 对新用户和新内容的推荐质量低,导致推荐集中于热门结果,使得“马太 效应”愈发严重,长尾内容得不到曝光,影响系统的生态健康
- 12.技术难点3: 推荐结果的单调性和重复性 推荐系统很容易出现“回声效应”,即推荐的内容越来越单调,只 推荐用户曾经看过的类似内容,导致推荐的结果越来越单调乏味 仅依赖内容分类和标签以及简单的推荐规则生成的推荐结果,实践 证明会导致推荐结果质量低下,用户点击意愿低 大量优质内容无法找到需要的用户,成为沉没资源。而往往低俗或 猎奇内容会赢得大量推荐曝光,导致网站调性低下 所有用户的浏览内容相同 单调刻板,缺乏新颖性
- 13.技术难点4: 实际应用时所面临的性能考验 • 数据量膨胀 • user数量膨胀:登录用户 vs 未登录用户;user model 无法全部计算 • • • item量或许非常大,且冷热不均 数据变化快 • item生命周期短(例如:短视频结果) • user兴趣变化快,user model的更新跟不上变化 服务性能遭遇各种挑战 • 难以实时完成所有日志的分析并更新模型 • 分布式计算(Hadoop)的时效性差,无法做到及时更新 • 存储资源有限,无法保存所有分析结果
- 14.04 达观数据推荐系统解决方案
- 15.01 基于内容的推荐 对推荐物品(item)进行信息挖掘 采用用户模型刻画用户的偏好并实现个性化推荐 • profile:基本属性、类别、标签,etc. • 通过用户行为日志挖掘生成user model • 文本分类、Ontology、标签系统、音视频内容提取等 • 形式多样,逐步深入: • 依赖对item内容的分析深度 • user item1, item2. … itemN • 相关技术:CRF,HMM,SVM,GBDT • user tag1, tag2, … tagN
- 16.02 协同过滤(Collaborative Filtering)简介 user-based CF item-based CF •user-similarity •item-similarity •prediction •prediction 注:实际使用中,距离计算公式有大量调整和变形
- 17.03 Latent Factor Model
- 18.03 Latent Factor Model
- 19.03 Latent Factor Model • user兴趣在变化 • 兴趣随时间变化逐步迁移 • 长期兴趣 vs 短期兴趣 • 用户的行为有周期性变化 • item的状态也在变化 User Model • item的受欢迎程度随时间变化 • 新item如何脱颖而出 • 数据可靠性随时间变化 • 用户行为历史数据的可靠性衰减 长期 兴趣 短期 兴趣
- 20.04 采用ME算法提升推荐精度 •采用独有的ME算法(Milti-Ensemble)来自动组合多个单层 模型,获得精度远超任意传统单一推荐模型的推荐效果 •将传统的协同过滤、矩阵分解、基于内容的推荐等基础推荐算 法能充分融合在一起 •提供外置接口,客户的应用逻辑、商业需求、二次算法修改等 均可在推荐结果输出时进行最终修改
- 21.05 快速建模解决冷启动问题 •毫秒级快速生成新用户的用户 •达观独特的CLUB(online clustering bandits) •通过自然语言处理技术,深度挖 画像,迅速缓解冷启动 算法,自适应调整新用户推荐结果 掘建立新物品的画像
- 22.06 三级火箭架构设计,兼顾稳 定性和灵敏性 •达观系统架构分为三级火箭:由Offline-Nearline-Online三级依次衔接构成 ,融合了各类推荐算法和数据 •Offline系统提供复杂离线运算,Online系统提供灵巧的实时运算,Nearline 衔接,整体兼顾了稳定性和灵敏性 •系统运用了大量NoSQL,内存计算、Spark Stearming、Kafka等技术,确保 了在高性能要求下系统强大的可靠性 •使用了阿里云相关产品,ECS,Redis,ODPS,Ots,Rds
- 23.07 报表和人工干预 •提供最为详尽的推荐数据统计分析后台,可以随时掌握推荐指标,对比推荐效果数据 •提供自主化的管理配置功能,让团队能随时调整推荐结果,管理推荐策略
- 24.05 心得体会
- 25.一切从用户出发,避免本末倒置 搭建一个推荐系统不难,如何 持之以恒地提升效果是关键 没有坏的方法,只有坏的用法, 因地制宜、对症下药 个性化是下一次IT浪的核心
- 26.