Recommender system
2020-03-01 185浏览
- 1.推荐系统 徐翊鑫 51174500139 item/content-based collaborative filtering 詹心语 51174500153 user-based collaborative filtering 张锦 51174500155 Latent factor model 徐向阳 51174500138 冷启动 惠自乐 51174500096 推荐系统的评价:灰色关联分析
- 2.引言 随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走 入了信息过载的时代。在这个时代,无论是信息消费者还是信息生 产者都遇到了很大的挑战:作为信息消费者,如何从大量信息中找 到自己感兴趣的信息是一件非常困难的事情;作为信息生产者,如 何让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非 常困难的事情。 推荐系统就是解决这一矛盾的重要工具。推荐系统的任务就是 联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一 方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费 者和信息生产者的双赢。
- 3.引言 推荐系统的基本任务是联系用户和物品,解决信息过载的问题
- 4.Item-based Collaborative Filtering 51174500139 徐翊鑫
- 5.1. 简介
- 6.• 你喜欢的,别人就喜欢吗?有哪些人会喜欢? • 绝大多数人喜欢的,你就会喜欢吗?
- 7.• 你喜欢看这部电影,那么很有可能你也喜欢和这个类似的电影。 • 你有一个口味相同的好朋友喜欢看这个电影,那么很有可能你也 会喜欢 • 网易云音乐的推荐系统很贴心,仿佛知道我的音乐喜好
- 8.• 推荐系统应用数据分析技术,找出用户最可能喜欢的东西推荐给 用户,现在很多电子商务网站都有这个应用。目前用的比较多、 比较成熟的推荐算是协同过滤算法( Collaborative Filtering ) 其基本思想是根据用户之前的喜好以及其他兴趣相近的用户 的选择来给用户推荐物品。
- 9.
- 10.2.Item-based CF • 基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏 好,推荐相似的物品给他。从计算的角度看,就是将所有用户对 某个物品的偏好作为一个向量来计算物品之间的相似度,得到物 品的相似物品后,根据用户历史的偏好预测当前用户还没有表示 偏好的物品,计算得到一个排序的物品列表作为推荐。
- 11.• 如图,对于物品 A ,根据所有用户的历史偏好,喜欢物品 A 的 用户都喜欢物品 C ,得出物品 A 和物品 C 比较相似,而用户 C 喜欢物品 A ,那么可以推断出用户 C 可能也喜欢物品 C
- 12.• 用 m×n 的矩阵表示用户对物品的喜好情况,用打分表示用户对 物品的喜好程度,分数越高表示越喜欢这个物品, 0 表示没有买 过该物品。 • CF 分为两个过程:预测和推荐。预测过程是预测用户对没有购 买过的物品的可能打分值,推荐是根据预测阶段的结果推荐用户 最可能喜欢的一个或几个物品。
- 13.
- 14.相似度 1. 基于余弦( Cosine-based )计算两个向量之间的夹角余弦值 其中分子为两个向量的内积,即两个向量相同位置的数字相乘。
- 15.2. 基于关联( Correlation-based )计算两个向量之间的 Pears on-r 关联度 其中 Ru,i 表示用户 u 对物品 i 的打分, Ri 表示第 i 个物品打分的 平均值。
- 16.3. 调整的余弦( Adjusted Cosine )由于基于余弦的相似度计算 没有考虑不同用户的打分情况,可能有的用户偏向于给高分,而有 的用户偏向于给低分,该方法通过减去用户打分的平均值消除不同 用户打分习惯的影响 其中 Ru 表示用户 u 打分的平均值。
- 17.预测 1. 加权权 求和 权 : 对用户 u 已打分的物品的分数进行加权求和,权值为 各个物品与物品 i 的相似度,然后对所有物品相似度的和求平均, 计算得到用户 u 对物品 i 打分 其中 ,Si,N 为物品 i 与物品 N 的相似度, Ru,N 为用户 u 对物品 N 的打分。
- 18.
- 19.2. 回归:加权求和的方法类似,但回归的方法不直接使用相似物 品 N 的打分值 ,因为用余弦法或 Pearson 关联法计算相似度时 存在一个误区,即两个打分向量可能相距比较远(欧氏距离),但 有可能有很高的相似度。 因为不同用户的打分习惯不同,有的偏 向打高分,有的偏向打低分。如果两个用户都喜欢一样的物品,因 为打分习惯不同,他们的欧式距离可能比较远,但他们应该有较高 的相似度 。在这种情况下用户原始的相似物品的打分值进行计算 会造成糟糕的预测结果。通过用线性回归的方式重新估算一个新的 值,运用上面同样的方法进行预测。重新计算 Run 的方法如下: 其中物品 N 是物品 i 的相似物品, α 和 β 通过对物品 N 和 i 的打
- 20.3. 适用场景 • 适用范围:长尾物品丰富,用户个性化需求强烈的领域。对于一 个在线网站,用户的数量往往大大超过物品的数量,同时物品的 数据相对稳定,因此计算物品的相似度不但计算量较小,同时也 不必频繁更新,此时适用 item-based CF 。 • 是指那些原来不受到重视的销量小但种类多的产品或服务由于总 量巨大,累积起来的总收益超过主流产品的现象
- 21.
- 22.• 基本假设:用户会喜欢和他以前喜欢的东西相似的 东西,那么我们可以计算一个用户喜欢的物品的自 相似度。 • 自相似度大,就说明他喜欢的东西都是比较相似的 ,也就是说他比较基本假设,那么他对 Item CF 的适应度自然比较好 • 自相似度小,就说明这个用户的喜好习惯并不基本 假设,那么对于这种用户,用 Item CF 方法做出 好的推荐的可能性非常低。
- 23.4. 优缺点 • 优点:可以利用用户的历史行为给用户做推荐解释,可以令用户 比较信服。比较适用在物品较少、物品更新速度不会很快、用户 的兴趣比较固定和持久的情况下。 • 缺点:无法避免用户冷启动,需要等待用户接触物品后才给他推 荐相关物品,没有办法在不离线更新物品相似度表的情况下将新 物品推荐给用户。
- 24.User-Based Collaborative Filtering Algorithms 詹心语 51174500153
- 25.目录 基本思想 • 典型算法 • 算法改进 • 优缺点
- 26.User-Based Collaborative Filtering Algori thms 基本思想 • 思想 当一个用户 A 需要个性化推荐时,可以先找到和他有相似兴趣的其他用 户群体,然后把该群体感兴趣的、而用户 A 没有听说过的物品推荐给 A 。 • 步骤 1. 找出和目标用户兴趣相似度高的用权权 集合。 权权 2. 找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给 目权权 用权权 。
- 27.目录 • 基本思想 典型算法 • 算法改进 • 优缺点
- 28.User-Based Collaborative Filtering Algori thms 典型算法 K-Nearest Neighbors algorithm ( k- 最近邻算法) • 算法思想: 1. 输入一个评分数据集和待推荐用户 ID ,找出有相同偏好的用户(近邻)。 2. 对该用户没见过的每个产品 p ,利用近邻对 p 的评分计算该用户对 p 的预测值 。 • 基本步骤 1. 建立用户模型 2. 寻找最近邻居 3. 产生推荐物品
- 29.User-Based Collaborative Filtering Algori thms 典型算法 KNN • 基本步骤 1. 建立用户模型 协同过滤算法的输入数据通常表示为一个 m*n 的用户评价矩阵 R , ( m 为用户数), 其中 rij 表示第 i 个用户对第 j 个物品的评分值。 示例:
- 30.User-Based Collaborative Filtering Algori thms 典型算法 KNN • 基本步骤 2. 寻找最近邻居 目标用户 a 产生一个以相似度 sim(a , b) 递减排列的“ 邻居” 集合。该过程分两步完成 : ① 首先计算用户之间的相似度,可采用 Pearson 相关系数、余弦相似度等度量方法; ② 近权 权 权 权 : (1) 选择相似度大于设定阈值的用户; (2) 选择相似度最大的前 k 个用户 ; (3) 选择相似度大于预定阈值的 k 个用户。 Pearson 相关系数相似度计算公式 :
- 31.User-Based Collaborative Filtering Algori thms 典型算法 KNN • 基本步骤 3. 产生推荐物品 预测出目标用户对未评价物品的评分,然后选择预测评分最高的 top-n 项推荐给 目标用户。 预测评分计算公式:
- 32.User-Based Collaborative Filtering Algori thms 典型算法 KNN 物品 1 物品 2 物品 3 物品 4 物品 5 Alice 5 3 4 4 ? 用户 1 3 1 2 3 3 用户 2 4 3 4 3 5 用户 3 3 3 1 5 4 用户 4 1 5 5 2 1 Alice 和用户 1 的相似度计算如下( ) 同理,和用户 2 , 3 , 4 的相似度分别为 0.70 , 0.00 和 -0.79 根据计算可得: Alice 与用户 1 和用户 2 的历史评分较为相 似, 因此,应该选择用户 1 和用户 2 作为近邻来预测 Alice 的评 分
- 33.User-Based Collaborative Filtering Algori thms 典型算法 KNN 物品 1 物品 2 物品 3 物品 4 物品 5 Alice 5 3 4 4 ? 用户 1 3 1 2 3 3 用户 2 4 3 4 3 5 用户 3 3 3 1 5 4 用户 4 1 5 5 2 1 基于用户 1 和用户 2 的评分预测 Alice 对物品 5 的评分为: 以此方法,可以计算出 Alice 对 所有未曾见过的物品的预测,其 中包括推荐列表中有最高预测值 的那些物品。在本例中,把物品 5 放到列表中可能是一个很好的 选择。
- 34.目录 • 基本思想 • 典型算法 算法改进 • 优缺点
- 35.User-Based Collaborative Filtering Algori thms 算法改进 1. 相似度算法 • 余弦相似度( Cosine similarity ) • Pearson 相关系数( Pearson correlation coefficient ) • Jaccard 系数( Jaccard index )
- 36.User-Based Collaborative Filtering Algori thms 算法改进:相似度算法 • 余弦相似度( Cosine similarity ) 在这种方法中,用户 A 、 B 对 n 个物品的评分被看作 n 维向量,通过两 个向量夹角的余弦值来评估其相似性。( ItemCF 效果更好) A B 余弦值越接近于 1 ,则越相似。
- 37.User-Based Collaborative Filtering Algori thms 算法改进:相似度算法 • Pearson 相关系数( Pearson correlation coefficient ) 皮尔逊相关系数是两个变量的协方差除以其标准偏差的乘积。 值接近于 +1 ,则越相似。
- 38.User-Based Collaborative Filtering Algori thms 算法改进:相似度算法 • Jaccard 系数( Jaccard index ) 两个集合的交集除以两个集合的并集,所得的就是两个集合的相似度 。 B 交集占比越大,相似度越高
- 39.User-Based Collaborative Filtering Algori thms 算法改进:赋权体系 • 反用权权权 率( 权 iuf ):降低对广受欢迎的物品有同样看法的相对重要性 • 方差权重因子:提高具有高方差评分值物品(即争议物品)的作用 • 重要性赋权:基于线性化简相似度权值的方法 • 样本扩展:强调接近 +1 和 -1 的值,对原始数据乘以一个常量 ρ 来调整 近邻的权值
- 40.目录 • 基本思想 • 典型算法 • 算法改进 优缺点
- 41.User-Based Collaborative Filtering Algori thms 基本思想 • 优点 1. 结果比较精确 2. 用户的都能从邻居用户的反馈评价中得益,只要每个用户为系统贡献一份力 量,系统的性能就会越来与完善。 3. 容易挖掘出潜在兴趣。 • 缺点 1. 稀疏性 2. 不适用于用户量过大的场景
- 42.User-Based Collaborative Filtering Algori thms 优缺点 • 和 ItemCF 的对比 User CF Item CF 性能 适用于用户较少的场合 适用于物品数明显小于用户数的场合 领域 用户个性化兴趣不太明显的领域 用户个性化需求强烈的领域 权权性 用户有新行为,不一定造成推荐结果的立即变化 用户有新行为,一定会导致推荐结果的实时变化 冷启动 新用户对很少的物品产生行为后,不能立即对他进行个 性化推荐,因为用户相似度表是每隔一段时间离线计算 的 新用户只要对一个物品产生行为,就可以给他推 荐和该物品相关的其他物品 新物品上线后一段时间,一旦有用户对物品产生行为, 就可以将新物品推荐给和对它产生行为的用户兴趣相似 的其他用户 如果有新物品上线,则无法在不离线更新物品相 似度表的情况下将新物品推荐给用户 很难提供令用户信服的推荐解释 利用用户的历史行为给用户做推荐解释,可以令 用户比较信服 推荐理由
- 43.Thanks
- 44.隐语义模型( LFM ) 张锦 51174500155
- 45.主要内容 • 算法比较 • 兴趣模型 • 模型参数学习过程 • 优缺点 • 改进
- 46.UserCF 目标用户 兴趣相似的用户 推荐 相似用户喜欢物品
- 47.ItemCF 喜欢 目标用户 目标用户喜欢的物品 推荐 和前者相似的物品
- 48.1 如何给物品分类? 2 如何确定用户对哪 些类的物品感兴趣,以 及感兴趣的程度? 3 选择用户感兴趣的 类里哪些物品推荐? LFM 思想 高跟鞋: 化权权 品: 权 确定用户兴趣属于哪些类及感兴趣程度 从用户感兴趣的类下挑选出物品 物品分类 推荐
- 49.1 如何给物品分类 • 人工分类是否可行? • 缺点 • 个人的意见不能代表各种用户的意见 • 分类的粒度很难控制(领域认知程度不同的用户可能需要不同的 推荐粒度) • 一个物品可能属于多个类 • 很难决定物品在某个分类中的权重
- 50.1 如何给物品分类 • 我们可不可以从数据出发,自动地找到那些类,然后进行个性化 推荐? 采取基于用户行为统计的自动 隐含语义分析技术 聚类(隐类),可以较好地解 决人工分类的问题
- 51.2 计算兴趣模型 • 计算用户 u 对物品 i 兴趣的公式: • 其中 和 是模型的参数,其中 度量了用户 u 的兴趣 和第 k 个隐类的关系,而 度量了第 k 个隐类和物品 i 之间的 关系。如何计算这两个参数?
- 52.求解流程 系统学习 目标参数 模型公式 训练集 • 如何获得用户喜欢或不喜欢一个物品的数据? 推荐系统的用户行为分为: 显性反馈 --- (例如评分) 隐性反馈 --- 只有正样本,没有负样本(仅知道用户对什么感兴趣,不知 道他们不感兴趣的物品) • 在隐性反馈数据集上应用 LFM 解决 TopN 推荐的第一个关键问题就是如何给 每个用户生成负样本? 用户 u 对物 品 i 的兴趣
- 53.采样 --- 生成负样本 • 对负样本采样时应该遵循以下原则: • 权 对每个用户,要保证正负样本的平衡(数目相似)。 • 权 对每个用户采样负样本时,要选取那些很热门,而用户却没有 行为的物品。
- 54.构建损失函数 • 经过采样,可以得到一个用户物品集 • 然后,需要优化如下的损失函数来找到最合适的参数 p 和 q ( lambda 是为了防止过拟合的正则化项 , , λ 可以通过实验获得)
- 55.最小化损失函数 • 随机梯度下降法 • ( 1 )求参数的偏导数找到最速下降方向 • ( 2 )通过迭代法不断优化参数 目标参数 模型公式 用户 u 对物 品 i 的兴趣
- 56.LFM 优缺点 • 优点 • 具有比较好的理论基础,通过优化一个设定的指标建立最优的模 型 • 缺点 • 很难进行实时的推荐 • 如何改进?
- 57.改进的 LFM • 雅虎首页的个性化实时推荐解决方案简述 • ( 1 )计算新闻 i 的内容特征向量 Yi • ( 2 )利用公式预测用户 u 是否会点击新闻 i • 而 pu 、 qi 是根据实时拿到的用户最近几小时的行为训练 LFM 获得的。因此,对于一个新加入的物品 i ,可以通过 估计用 户 u 对物品 i 的兴趣,然后经过几个小时后,就可以通过 得 到更加准确的预测值。
- 58.冷启动 徐向阳 51174500138
- 59.冷启动问题简介 推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为 和兴趣,因此大量的用户行为数据就成为推荐系统的重要组成部分 和先决条件。对于很多像淘宝、京东这样的网站来说,这或许不是 个问题,因为它们已经积累了大量的用户数据。但是对于很多做纯 粹推荐系统的网站,或者很多在开始阶段就希望有个性化推荐应用 的网站来说,如何在没有大量用户数据的情况下设计个性化推荐系统 ,并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动 的问题。
- 60.冷启动问题形成的原因 我们以用户对歌曲的推荐为例进行阐述,表 1 是用户对歌曲 评分数据的一个矩阵。
- 61.冷启动问题形成的原因 对表 1 中的数据使用 co-filtering 推荐算法,系统查找到用 户 Alice 、 Kevin 和 Tom 具有相似的兴趣爱好,因为他们对后 3 首歌曲的评分一致,那么系统就会推荐 Red 这首歌曲给 Tom ,因为与其兴趣偏好相似的 Alice 和 Kevin 对这首歌曲评分很 高。
- 62.冷启动问题形成的原因
- 63.1.1 冷启动问题的分类 ☞ 用户冷启动:如何给新用户做个性化推荐。 ☞ 物品冷启动:如何将新的物品推荐给可能对它感兴趣的用户。 ☞ 系统冷启动:如何在一个新开发的系统上(没有用户、没有历 史行为数据,只有少数物品信息)设计个性化推荐系统。
- 64.1.2 冷启动问题的解决方案 ① 提供非个性化的推荐:热门排行榜,当用户数据收集到一定程 度的时候,再切换为个性化推荐。 ② 利用用户注册时提供的年龄、性别等数据做粗粒度的个性化。 ③ 利用用户的社交网络帐号登录,导入用户在社交网站上的好友 信息,然后给用户推荐其好友喜欢的物品。
- 65.1.2 冷启动问题的解决方案 ④ 要求用户在登录时对一些物品进行反馈,收集用户对这些物品 的兴趣信息,然后给用户推荐些和这些物品相似的物品。 ⑤ 对于新加入的物品,可以利用内容信息将它们推荐给喜欢过和 它们相似的物品的用户。 ⑥ 在系统冷启动时,可以引入专家的知识,通过一定的高效方式 迅速建立起物品的相关度表。
- 66.2. 利用用户注册信息 用户的注册信息分 3 中: ☞ 人口统计学信息 ☞ 用户兴趣的描述 ☞ 从其他网站导入的用户站外行为数据
- 67.2. 利用用户注册信息 基于注册信息的个性化推荐流程基本如下: ① 权取 注册信息 ② 根据用户的注册信息对用户分类 ③ 权用权权推荐他所属分 权 权 权 权 权 权权中用 权 权权喜 权权的物品 权 权 (性权权 、年 权 权权 、权权权 等也可以 权 权 权 权权 合推荐) 权 权 权
- 68.2. 利用用户注册信息 基于用户注册信息的推荐算法其核心问题是计算每种特征的用 户喜欢的物品,也就是说,对于每种特征,计算具有这种特征的用 户对各个物品的喜好程度。 是指物品在具有的特征的用户中的热门程度。 是喜欢物品的用户集合,是具有特征的用户集合。
- 69.2. 利用用户注册信息 上面这种定义可以比较准确地预测具有某种特征的用户是否喜 欢某个物品。 但在这种定义下,往往热门的物品会在各种特征的用户中都具 有比较高的权重。也就是说具有比较高的的物品会在每一类用户中 都有比较高的,但推荐系统应该帮助用户发现他们不容易发现的物 品。
- 70.2. 利用用户注册信息 因此可以将定义为喜欢物品的用户中具有特征的比例。 其中分母中使用 α 的目的是解决数据稀疏问题。比如有一个物 品只被 1 个用户喜欢过,而这个用户刚好就有特征,那么就有 =1 。这种情况并没有统计意义,因此我们为分母加上一个比较大 的数,可以避免这样的物品产生比较大的权重。
- 71.2. 利用用户注册信息 Lastfm 数据集包含了人口权 计学信息,包括用 权权权 权权 权权权 权权 的性 权 权权 、年 权权权 和国籍。下 权权 权权 图给出了该数据集中用户年龄的分布:该数据集中 20 ~ 25 岁的用户占了绝大多 数比例。
- 72.2. 利用用户注册信息 下图给出了 Lastfm 数据集中用户国家的分布:该数据集中美国、德国和 英国的用权权 占了 权 权权 大多数比例。 权权权 权权
- 73.3. 选择合适的物品启动用户的兴趣 解决用户冷启动的另一个方法是在新用户第一次访问推荐系统时 ,不立即给用户展示推荐结果,而是给用户提供一些物品,让用户反 馈他们对这些物品的兴趣,然后根据用户反馈提供个性化推荐。 一般来说,能够用来启动用户兴趣的物品需要具有如下特征: ① 比权权权权 。 ② 具有代表性和区分性:不能是大众化和老少皆宜的,因为这样 的物品对用户的兴趣没有区分性。 ③ 启动物品集合需要有多样性:在冷启动时,我们不知道用户 的兴趣,用户兴趣的可能性非常多 。
- 74.3. 选择合适的物品启动用户的兴趣 题。 如何设计一个选择启动物品集合的系统:用一个决策树解决问 首先,给定一群用户,用这群用户对物品评分的方差度量这群 用户兴趣的一致程度。如果方差很大,说明这群用户的兴趣不太一 致,也就是物品具有比较大的区分度;反之则说明这群用户的兴趣 比较一致。
- 75.3. 选择合适的物品启动用户的兴趣 用如下公式度量一个物品的区分度: 是喜权权 物品的用 权 权 权 权权 集合,是不喜 权 权 权 权 权 权权 物品的用 权 权 权 权权 集合,是没有 权 权 权 权 权 权权 物品 权 权 分的用权权 集合。 权 权 是喜欢物品的用户对其他物品评分的方差 ,是不喜欢物品的用户 对其他物品评分的方差,是没有对物品评分的用户对其他物品评分的 方差。
- 76.3. 选择合适的物品启动用户的兴趣 对于物品,将用户分为 3 类——喜欢物品的用户,不喜欢物品 的用户和不知道物品的用户。如果这 3 类用户集合内的用户对其他 物品兴趣很不一致,说明物品具有较高的区分度。 算法首先从所有用户中找到具有最高区分度的物品,然后将用 户分成 3 类。然后在每类用户中再找到最具区分度的物品,然后将 每一类用户又各自分为 3 类,也就是将总用户分为 9 类,然后继续 这样下去,最终可以通过对一系列物品的看法将用户进行分类。
- 77.3. 选择合适的物品启动用户的兴趣 通过一个简单的例子解释算法:
- 78.
- 79.4. 利用物品的内容信息 物品冷启动需要解决的问题是如何将新加入的物品推荐给对它 感兴趣的用户。 在某些时效性要求比较高的网站或者 APP 中,物品冷启动问 题需要特别重视。在前面两种推荐算法中, UserCF 算法对于物品 的冷启动问题并不是十分敏感,然而在 ItemCF 算法中,物品的冷 启动问题就比较突出。
- 80.4. 利用物品的内容信息 对于这种情况,我们可以利用物品的内容信息来计算物品之间 的相似度。物品内容信息的种类很多,物品类型不同,内容信息也 不同。 常见物品的内容信息
- 81.4. 利用物品的内容信息 一般物品内容信息可以通过向量空间模型来表示,该模型会将 物品表示为一个关键词向量,对于某种物品 d ,它的关键词向量 可以表示为: 其中,就是关键词,是关键词对应的权重。
- 82.4. 利用物品的内容信息 在给定物品内容的关键词向量后,物品的内容相似度可以通过 向量之间的余弦相似度进行计算: 获得物品内容相似度后,就可以通过 ItemCF 算法的思想,为 用户推荐与其感兴趣的物品相似的物品,从而减少物品冷启动对个 性化推荐的影响。
- 83.4. 利用物品的内容信息 在具体计算物品之间的内容相似度时,最简单的方法是对两两 物品都利用上面的余弦相似度公式计算相似度: D 是文档集合。
- 84.4. 利用物品的内容信息 但上述算法的时间复杂度很高。假设有个物品,每个物品平均 由个实体表示,那么这个算法的复杂度是 。 实际应用中,可以首先通过建立关键词—物品的倒排表加速这 一计算过程:
- 85.4. 利用物品的内容信息 得到物品的相似度之后,可以利用 ItemCF 算法的思想,给用 户推荐和他历史上喜欢的物品内容相似的物品。
- 86.5. 发挥专家的作用 很多推荐系统在建立时,既没有用户的行为数据,也没有充足 的物品内容信息来计算准确的物品相似度。那么,为了在推荐系统 建立时就让用户得到比较好的体验,很多系统都利用专家进行标注 。 例: Pandora (一个给用户播放音乐的个性化电台应用 )使用了 400 多个特征(基因)标注所有的歌曲,标注后每首歌都可以表示 为一个 400 维的向量,然后通过向量相似度算法可以计算出歌曲的 相似度。
- 87.推荐系统的评价:灰色关联分析 Recommend SystemEvaluation:Grey Correlatio n Analysis. 惠自乐 51174500096
- 88.主要内容 • 推荐系统评价标准 • 推荐系统评价方法 • 灰色关联分析原理 • 灰色关联分析步骤 • 灰度关联分析优缺点
- 89.推荐系统评价标准 • 准确性 • 使用户满意的能力 • 使用户提供者的能力
- 90.准确性 • 定义:满足个人用户信息需求的能力。 • 作用:对一个好的推荐系统贡献最大。 • 权 价 :推荐 权权权 用权 权 的权 权 目相 权权权 性越多,不相 权权权权权权权 条目越少,它就越 权权权权权权 准确。
- 91.用户满意度 思考一个问题:提供最相关的项目的系统,就是满足用户的需求? • 权 外 的因素影响用 权权权权 意度:意外 权权权权权权权 (权 权 我一些惊喜)、等待 权权权权权权权 推荐的时间、个体特点对待同一种推荐的不同反应(如年龄等) 、商业化的因素(对是否 VIP 提供区别服务)等。
- 92.提供者满意度 • 供应商 低成本:权权权 力、磁 权 权 权权 存权权 、内存、 权 CPU 权 权 功率和流量 • 出版商 高利润:推荐利润率高的产品(与用户满意度矛盾) 用户较长活动时间:推荐时间较长的文章,视频等
- 93.通用情况:在三个因素之间的权衡 • 聚权 会极大地减少运行 权权权权权权权权权权权 ,从而降低成本,但也会降低准确性 权权权权权权权权权权权权权权权 • 当主要目标是产生收入时,用户满意度可能会受到影响 • 用户满意度永远不会太低,因为用户可能会完全忽略这些建议。
- 94.推荐系统评价存在的问题 • 准确性、用户满意度和提供者满意度三个特性如何被量化和比较 ? • 除了很容易量化的量,如运行时间、成本和收入等,为了测量推 荐人的准确性和测量用户满意度,常用的有三种评价方法 : 用户 研究、在线评价和离线评价
- 95.用户研究 • 用户对算法的平均推荐率。
- 96.在线评估 • 用户使用真实世界的系统时,系统观察用户接受推荐的频率。验 收通常是通过点击率 (CTR) 来衡量的,即点击推荐的比率。
- 97.离线评估 • 使用一个从中删除了一些信息的预编译离线数据集。 • 用推荐算法对此数据集进行分析。 • 最后,观察推荐算法推荐被删除的信息的比率。
- 98.三种评估方法谁是最合适的仍存在争论 • 通常,离线评估被认为最适合于预先选择一组有前途的算法,这 些算法随后在在线评估或用户研究中继续进行评估。
- 99.用户满意度的一种方法介绍 灰色关联分析 用灰色关联分析方法对不同推荐系统中各种指标的用户满意度 进行综合分析,并确定那种推荐系统最好。
- 100.灰色关联分析原理 • 对于两个系统之间的因素,其随时间或不同对象而变化的关联性 大小的量度,称为关联度。 • 在系统发展过程中,若两个因素变化的趋势具有一致性,即同步 变化程度较高,即可谓二者关联程度较高;反之,则较低。 • 灰色权 权 权 法,是根据因素之 权权权权权权权权权权 展权 权 权 的相似或相异程度,亦即 权权权权权权权权权权 “灰色关联度”,作为衡量因素间关联程度的一种方法。
- 101.灰色关联分析原理 • 灰色系统理论提出了对各子系统进行灰色关联度分析的概念,意 图透过一定的方法,去寻求系统中各子系统(或因素)之间的数值关系。 • 因此,灰色关联度分析对于一个系统发展变化态势提供了量化的 度量,非常适合动态历程分析。
- 102.灰色关联分析步骤 ( 1 )确定参考序列 设 i 第 i 个评价单元 ( 如企业、网站、个人 ) 的序号, i权1,2,权,m;j 权第 j 个评价指 权的 序号,j权1,2,权n 。 Vij 即权权 第i 个评价单元的第 j 个指标的评价值。 则包括了 m 个评价单元, n 个评价指标的评价系统,组成以下的比较序列 : 取每个指权权权 价权权 果中的最 权 权V权0j 权权权成 参考序列 V0
- 103.灰色关联分析步骤 (2) 对变量序列进行归一化 原始数据具有不同的量纲或数量级,通过归一化将不同量纲或数量级的数据处理 后,能够保证分析的有效进行和结果的可靠性。通常用初值法对原始数据进行归 一化处理,归一化公式为 : V0J 通常是参考序列 V0权(V01,V02,L,V0n) 的最优值。
- 104.灰色关联分析步骤 (2) 对变量序列进行归一化 进行归一化处理后,得到归一化处理后的比较序列矩阵 : 归一化处理后的参考序列为 :
- 105.灰色关联分析步骤 (3) 计算关联系数矩阵 首先计算比较序列的差序列,差序列计算公式为 : 计算得到差序列矩阵 :
- 106.灰色关联分析步骤 (3) 计算关联系数矩阵 计算关联系数,关联系数的计算公式为 : 式中, min 权 、 max权 分别是矩阵权 权 而 中数值的最小差值和最大差值 ; 是分辨系数 ,权 权。根据经验,通常情况下权权 的取值为 权 权 权 0.5 权
- 107.灰色关联分析步骤 (3) 计算关联系数矩阵 利用公式计算 矩阵中 ,得到关联系数矩阵 : 为第 i 个评价单元的第 j 个指标与第 j 个最优指标的关联系数。
- 108.灰色关联分析步骤 (4) 确定各指标权重 层次分析法 (AHP) 是确定各评价指标权重的重要方法。通过层次分析法得到 各指标权重。各指标权重为 : 表示各一级指标权重。 式中 : , k 表示一级指标的个数。 其中 Wih 表示示第 i 个一级指标所 属第 h 个 二级指标的权重。 式中 ,权 ,其中 h 表示第 i 个一级指标所属的二级指标的个数。
- 109.灰色关联分析步骤 (5) 计算单层次的关联度 各层次一级指标关联度的计算公式为 :
- 110.灰色关联分析步骤 (6) 计算整体关联度并排序。 整体关联度计算公式为 : 依据关联度 Ri' 的大小进行排序,关联度的大小即为优劣次序。
- 111.灰度关联分析优缺点 •权 点 • 具有比较好的理论基础,可以一定程度反映推荐系统的优劣 • 灰色关联度法对于一个系统发展变化态势提供了量化的度量,非 常适合动态 (Dynamic) 的历程分析。 • 缺点 • 该方法的可以有多大程度反应推荐系统的优劣,有多大 参考价值未确定。