推荐系统实践项亮

2020-02-27 427浏览

1.
2.
3.错误！文档中没有指定样式的文字。 1 1 序一 2 推荐在今天互联网的产品和应用中被广泛采用，包括今天大家经常使用的相关搜索、话题推荐、电子商务的各种产品推荐、社交网络上的交友推荐等。但是，至今还没有一本书从理论上对它进行系统地分析和论述。《推荐系统实践》这本书恰恰弥补了这个空白。该书总结了当今互联网主要领域、主要公司、各种和推荐有关的产品和服务，包括：亚马逊的个性化产品推荐； 3 Netflix的视频和DVD推荐； Pandora的音乐推荐； Facebook的好友推荐； Google Reader的个性化阅读；各种个性化广告。 4 书的名称虽然是《推荐系统实践》，但作者也阐述了和推荐系统有关的理论基础和评价推荐系统优劣的各种标准与方法，比如覆盖率、满意度、AB测试等。由于这些评估很大程度上取决于对用户行为的分析，因此本书也介绍了用户行为分析方法，并且给出了计算机实现的算法。本书对有兴趣自己开发推荐系统的读者给出了设计和实现推荐系统的方法与技巧，非常具有指导意义。本书文笔流畅，可读性较高，是一部值得推荐给IT从业人员的优秀参考书。 5 ——吴军腾讯副总裁，《数学之美》和《浪潮之巅》作者 6 7
4.错误！文档中没有指定样式的文字。 1 1 序 2 的书了。开作这本书，的是作者，但交，了人。这了流的一个大的子：，，书人，也可并为一。书，，然应。公司的友有没有兴趣参与一本推荐系统方的推荐技在互联网领域的应用广泛，但对相关技系统介绍的 3 书非常，相关的文书是本。但一方，对读者是个题，一方，这些书大人员为标读者，并推荐技的。参与补这空白，乐为书开的一个，的的，但各种为人的务至，在作上的，应要补，了了，一自己这本书。的，也因为作标和本 4 书的没法进了。这种，实在好意在作者了，有机了这。， Netflix推荐算法，虽然自己得自己在。这，非常地了计的技人员决一个技题，并且决方公出。这为这个领域的程人员和人员意的了，因产了很有价值的方法，使很被家的技被广泛地开，使家读 5 的方法、算法的被地发出。在Netflix 中有非常出的现，书中总结了很在Netflix 相关和程作中的分析与设计算法的。虽然一在推荐技的发，在书中然很本了的方法，相读者读本书也。在大家一论的程中，非常的书《经常程》一本非常流行的书，《实用，些对推荐技程》。理6 了的读者实现自己的推荐系统。出于这个的，本书可地用和与读者交流，可地用的论公，这对于大程技人员应该是为乐的。一方，可是因为的，大论文推荐题评分测题，实应用中常的是TopN推荐，虽然TopN推荐题可评分题，但并是种评分测算法用决TopN推荐题。本书大部分在论TopN推荐题，这的对实应用的实现应该大一。，本书比较系统地论了推荐技应 7
5.2 用实应用常的题，可些有机经的技人员了推荐技。一，大互联网公司对个性化服务视，个性化技的业公司也在现，个性化的方兴，相本书的技人员于这一技。本书的，，虽然的，实有这。 ——
6.错误！文档中没有指定样式的文字。 1 1 序 2 的，可 2010 6 有大家论《推荐系统实践》一书结的。实上的论比这还，且从得一的在的上开，一了。论的在于为要一本关于推荐系统的书、从度给。一个题相对好。推荐系统是互联网常的产品。从电子商务、 3 音乐视频网，作为互联网经的在广告和的在应用推荐，有推荐系统的。这些网和业务的开者大是的程，者有于互联网行业的。虽然并非有相关的，也并非有在业中的经，但是大家的，且满对发推荐系统的。因此参与论的友从实践者的度这本书，给一和实践的友。论并是空。在此， wiki系统，一发在上，一些友开。经一的，了一个 4 了本书的。是在2009 ，当还是中的一名，一方参与Netflix 和推荐系统比并取得了的，一方参与了recsys 。作为一个有很业公司的交流，recsys在了很和程。业进 Hulu公司，开了业推荐系统的开发作，并一如地意、总结和分。 5 在recsys 了一关于并行机技的告，介绍了本书的主要者。，大家开本书的作。的经在很大程度上决了本书的作标：在了推荐系统的业和应用，方；程总结各方法，开发出一个推荐系统并优化。推荐系统是一个很大的话题。各种在至部分应用中，有各各系统，论文推荐，大用户兴趣的在广告系统。在，相关的标一的推荐可 6 。实上，大家还在论的机方法可给推荐系统的化。可是，本书论是一本，还是一部产品大，空泛的，对大家有。因此，作者了大在结上，覆盖推荐系统的要题，个题有实产品介绍，也有技介绍。为了可读性，本书在常方法和技，非介绍各种和。为了可作性，要的算法有 Python 的 7
7.2 程。，这本实践者本书的出和的技方法。给实践者的书，的友一的是作者对考和大，大的方，是的。的互联网应用腾讯 —— 中总
8.错误！文档中没有指定样式的文字。 1 1 2 本书，还要 2010 3 的ResysChina推荐系统大。在上，了。的一些推荐系统方的，总结总结，本的书。当还没有推荐系统方的书，经有这方的业书了，因此公司很出一本介绍推荐系统的书。， 7 于是准开这本书。业，有可总结一这方的作了， 3 这本书的的有个。，从个人度，虽然论文经总结了读在推荐系统方的作，但并没有部个推荐系统的各个方，因此很作这本书地阅读一相关的文，并在此基础上总结一推荐系统各个方的发现，大家参考。，从推荐系统的人，这些人中有些是程，对机和实现推荐系统了，有些是在。因此，，虽然对和机有了，对业如 4 本书程了推荐系统的相关算法，了如自己了的算法实现一个实的业系统中。一为，推荐系统这个领域于算法的出。这，推荐系统 20 了。这，很者和公司对推荐系统的发了要的推作用，各种各的推荐算法也出。本书这20 的方法进行总结。但由于方法，这些方法的有很的方。比如，可分、、社化，也可算5 法分基于域的算法、基于的算法、基于分者率的算法。为了方读者，本书基本采用分的方法，一介绍了一种可用于推荐系统设计的、的用户，然介绍如各种方法用该，在公开上评测这些方法。当然，是有有公开的，并且是有算法可进行评测。因此，在没有法进行评测的题，本书用了一些名者的实结为了使本书程和在阅读，本书在作中各种方法的。使用了种介绍方法。一种 6 是用公，这方有一些理论基础的很白算法的义。一种是用，这可方程了算法的义。因为本人是出，程经还是，有些得是，还程。本书一开的有3 作者，了还有的义和的。是这方的，在作程中出了很的意。但因为要由。但书中的很论述了大家的和经，是作实在，本书主很论的结。因此在这 7
9.2 和义，还要，出了很书，对这本书意。的作者，虽然没有为本书作。的意。在Hulu的出可没，和子，在作笔，但对这本书出了很大的。文、、天各自阅了书中部分和，给了分的这本阅了书中的部分，出了很有价值的程中给了很大，的出。
10.1 2 目录 3 4 第 1 章好的推荐系统 ....................................... 1 1.1 是推荐系统........................................... 1 1.2 个性化推荐系统的应用............................... 4 1.2.1 .......................................... 4 1.2.2 和 ............................... 8 1.2.3 ..................... 10 2.5.1 2.5.2 ........................................ 64 LFM 的的 ....... 70 5 2.5.3 LFM 和的的 .... 72 2.6 基于的 ............................................ 73 6 2.6.1 数的 ......... 73 2.6.2 的 ......................... 73 7 1.2.4 1.2.5 1.2.6 1.2.7 ........................................ 12 .................................... 15 的 ............................. 16 .................................... 17 第3章 3.1 3.2 推荐系统冷启动问题 ........................ 78 题介 ........................................ 78 用用户 ..................................... 79 8 1.2.8 .................................... 18 3.3 的品用户的兴趣............. 85 9 1.3 推荐系统评测 ............................................ 19 3.4 用品的 ................................. 89 1.3.1 ......................... 20 3.5 发家的作用 ........................................ 94 10 1.3.2 1.3.3 指 ........................................ 23 ........................................ 34 第 4 章利用用户标签数据............................. 96 4.1 UGC 标系统的应用 ....................... 97 11 第 2 章利用用户行为数据............................. 35 2.1 用户行为介..................................... 36 2.2 用户行为分析 ............................................ 39 4.1.1 Delicious ......................................... 97 4.1.2 CiteULike ....................................... 98 4.1.3 Last.fm ............................................ 98 12 4.1.4 ................................................ 99 2.2.1 和的 ................................................ 39 4.1.5 Hulu ................................................ 99 4.2 标系统中的推荐题........................... 100 13 2.2.2 和的 ................................................ 41 4.2.1 4.2.2 ................... 100 ........................... 101 14 2.3 实设计和算法评测................................. 41 4.2.3 样的 ................... 102 2.3.1 数 2.3.2 ............................................ 42 ........................................ 42 4.3 基于标的推荐系统............................... 103 15 4.3.1 ...................................... 104 2.3.3 指 ........................................ 42 2.4 基于域的算法......................................... 44 4.3.2 4.3.3 的的 ....................... 105 .................................. 107 16 2.4.1 的 ............. 44 4.3.4 的 ....................... 110 2.4.2 的 ............. 51 4.3.5 的 ................... 112 17 2.4.3 UserCF 和 ItemCF 的 ...... 59 4.4 给用户推荐标 ...................................... 115 2.5 义 ................................................ 64 4.4.1 ........... 115 18
11.2 4.4.2 ................... 115 4.4.3 ...................................... 116 4.4.4 的 ............... 119 4.5 阅读 .................................................. 119 第 5 章利用上下文信息 ............................... 121 5.1 上文 ...................................... 122 5.1.1 .............................. 122 5.1.2 .............................. 123 5.1.3 的 ................... 125 5.1.4 的 ....................... 127 5.1.5 的样 ............... 128 5.1.6 文 ................... 130 5.1.7 .............................. 134 5.1.8 ...................................... 136 5.2 地上文 ...................................... 139 5.3 阅读 .................................................. 143 第 6 章利用社交网络数据........................... 144 6.1 取社交网络的 ....................... 144 6.1.1 ...................................... 145 6.1.2 .............................. 146 6.1.3 的数 ........................... 146 6.1.4 和 .............................. 146 6.1.5 .............................. 147 6.1.6 ...................................... 147 6.2 社交网络介................................... 148 数中的 ................... 149 6.3 基于社交网络的推荐............................... 150 6.3.1 的 ....... 151 6.3.2 的 ........... 152 6.3.3 中的 .............................................. 153 6.3.4 和 ...................................... 155 6.3.5 .................................. 156 6.4 给用户推荐好友 ...................................... 159 6.4.1 6.4.2 的 ........................... 161 的 ........... 161 6.4.3 的 ....... 161 6.4.4 的 .............................................. 164 6.5 阅读 .................................................. 165 第 7 章推荐系统实例 ................................... 166 7.1 .................................................. 166 7.2 推荐系统 .......................................... 167 7.3 推荐的 ...................................... 171 7.3.1 7.3.2 ....................... 172 .................... 173 7.3.3 ...................................... 174 7.3.4 ...................................... 174 7.4 阅读 .................................................. 178 第 8 章评分预测问题 ................................... 179 8.1 实方法 .......................................... 180 8.2 评分测算法 .......................................... 180 8.2.1 .......................................... 180 8.2.2 的 ........................... 184 8.2.3 ....... 186 8.2.4 .............................. 192 8.2.5 ...................................... 193 8.2.6 Netflix Prize 的 ..... 195 后记....................................................................... 196
12.1 2 目录 3 4 图 1-1 推荐系统的基本任务是联系用户和物品，解决信息过载的问题........................................................... 2 5 图 1-2 推荐系统常用的 3 种联系用户和物品的方式 .......................................................................................... 3 图 1-3 亚马逊的个性化推荐列表.......................................................................................................................... 4 6 图 1-4 单击 Fix this recommendation 按钮后打开的页面..................................................................................... 5 图 1-5 基于 Facebook 好友的个性化推荐列表..................................................................................................... 6 7 图 1-6 相关推荐列表，购买过这个商品的用户经常购买的其他商品............................................................... 6 图 1-7 相关推荐列表，浏览过这个商品的用户经常购买的其他商品............................................................... 7 8 图 1-8 亚马逊的打包销售界面.............................................................................................................................. 7 图 1-9 Netflix 的电影推荐系统用户界面.............................................................................................................. 8 图 1-10 视频网站 Hulu 的个性化推荐界面 .......................................................................................................... 9 9 图 1-11 Pandora 个性化网络电台的用户界面 .................................................................................................... 10 图 1-12 Last.fm 个性化网络电台的用户界面 ..................................................................................................... 11 10 图 1-13 豆瓣个性化网络电台的用户界面 .......................................................................................................... 11 图 1-14 Clicker 利用好友的行为给用户推荐电视剧.......................................................................................... 13 11 图 1-15 用户在 Facebook 的信息流..................................................................................................................... 14 图 1-16 不同社交网站中好友推荐系统的界面 .................................................................................................. 14 图 1-17 Google Reader 社会化阅读 ..................................................................................................................... 15 12 图 1-18 Zite 个性化阅读界面............................................................................................................................... 16 图 1-19 FourSquare 的探索功能界面 .................................................................................................................. 17 13 图 1-20 Gmail 的优先级邮箱 ............................................................................................................................... 18 图 1-21 Facebook 让广告商选择定向投放的目标用户 ...................................................................................... 19 14 图 1-22 推荐系统的参与者.................................................................................................................................. 19 图 1-23 AB 测试系统 ........................................................................................................................................... 22 15 图 1-24 Hulu 让用户直接对推荐结果进行反馈，以便度量用户满意度.......................................................... 24 图 1-25 豆瓣网络电台通过红心和垃圾箱的反馈来度量用户满意度............................................................... 24 图 1-26 不同网站收集用户评分的界面 .............................................................................................................. 25 16 图 1-27 Epinion 的信任系统界面 ........................................................................................................................ 31 图 2-1 当当网在用户浏览《数据挖掘导论》时给用户推荐“购买本商品的顾客还买过”的书 ................. 36 17 图 2-2 各种显性反馈界面.................................................................................................................................... 37 图 2-3 物品流行度的长尾分布............................................................................................................................ 40 18
13.2 图 2-4 用户活跃度的长尾分布............................................................................................................................ 40 图 2-5 MovieLens 数据集中用户活跃度和物品流行度的关系 ......................................................................... 41 图 2-6 用户行为记录举例.................................................................................................................................... 45 图 2-7 物品—用户倒排表...................................................................................................................................... 47 图 2-8 Digg 的 My News 界面 ............................................................................................................................. 51 图 2-9 亚马逊提供的用户购买 iPhone 后还会购买的其他商品........................................................................ 52 图 2-10 Hulu 的个性化视频推荐 ......................................................................................................................... 52 图 2-11 一个计算物品相似度的简单例子 .......................................................................................................... 54 图 2-12 一个简单的基于物品推荐的例子 .......................................................................................................... 56 图 2-13 UserCF 和 ItemCF 算法在不同 K 值下的召回率曲线........................................................................... 61 图 2-14 UserCF 和 ItemCF 算法在不同 K 值下的覆盖率曲线........................................................................... 62 图 2-15 UserCF 和 ItemCF 算法在不同 K 值下的流行度曲线........................................................................... 62 图 2-16 两个用户在豆瓣的读书列表.................................................................................................................. 65 图 2-17 雅虎首页的界面...................................................................................................................................... 71 图 2-18 用户物品二分图模型.............................................................................................................................. 73 图 2-19 基于图的推荐算法示例.......................................................................................................................... 74 图 2-20 PersonalRank 的简单例子....................................................................................................................... 75 图 2-21 不同次迭代中不同节点的访问概率 ...................................................................................................... 76 图 3-1 Pandora 的用户注册界面.......................................................................................................................... 79 图 3-2 IMDB 中不同美剧的评分用户的性别分布 ............................................................................................. 80 图 3-3 一个基于用户人口统计学特征推荐的简单例子 .................................................................................... 81 图 3-4 Lastfm 数据集中男女用户的分布............................................................................................................ 84 图 3-5 Lastfm 数据集中用户年龄的分布............................................................................................................ 84 图 3-6 Lastfm 数据集中用户国家的分布............................................................................................................ 84 图 3-7 Jinni 在新用户登录推荐系统时提示用户需要给多部电影评分 ............................................................ 86 图 3-8 Jinni 让用户选择自己喜欢的电影类别.................................................................................................... 86 图 3-9 Jinni 让用户对电影进行评分的界面 ....................................................................................................... 87 图 3-10 给用户选择物品以解决冷启动问题的例子 .......................................................................................... 88 图 3-11 关键词向量的生成过程.......................................................................................................................... 90 图 3-12 通过 LDA 对词进行聚类的结果 ............................................................................................................ 93 图 3-13 Jinni 中专家给《功夫熊猫》标注的基因.............................................................................................. 94 图 4-1 推荐系统联系用户和物品的几种途径 .................................................................................................... 96 图 4-2 Delicious 中被打上 recommender 和 system 标签的网页........................................................................ 97 图 4-3 Delicious 中“豆瓣电台”网页被用户打的最多的标签 ........................................................................ 97 图 4-4 CiteULike 中一篇论文的标签 .................................................................................................................. 98 图 4-5 Last.fm 中披头士乐队的标签云............................................................................................................... 98 图 4-6 豆瓣读书中《数据挖掘导论》一书的常用标签 .................................................................................... 99 图 4-7 Hulu 中《豪斯医生》的常用标签 ........................................................................................................... 99 图 4-8 标签流行度的长尾分布.......................................................................................................................... 101 图 4-9 著名美剧《豪斯医生》在视频网站 Hulu 上的标签分类..................................................................... 102
14.3 图 4-10 Jinni 让用户对编辑给的标签进行反馈................................................................................................ 110 图 4-11 简单的用户—物品—标签图的例子 ........................................................................................................ 111 图 4-12 SimpleTagGraph 的例子 ....................................................................................................................... 111 2 图 4-13 豆瓣读书的个性化推荐应用“豆瓣猜”的界面 ................................................................................ 112 图 4-14 Last.fm（左）和豆瓣（右）的标签推荐系统界面 ............................................................................ 115 图 4-15 豆瓣给我推荐的《MongoDB 权威指南》一书的标签....................................................................... 118 3 图 5-1 sourcetone.com 个性化音乐推荐系统，该图右侧的圆盘可以让用户选择现在的心情 ..................... 122 图 5-2 facebook、twitter 和 myspace 3 个词的搜索变化曲线.......................................................................... 123 4 图 5-3 手机品牌的搜索量变化曲线.................................................................................................................. 124 图 5-4 一些食品相关搜索词的搜索量变化曲线 .............................................................................................. 124 5 图 5-5 不同数据集中物品流行度和物品平均在线时间的关系曲线............................................................... 126 图 5-6 相隔 T 天系统物品流行度向量的平均相似度 ...................................................................................... 127 图 5-7 推荐系统实时性举例.............................................................................................................................. 128 6 图 5-8 时间段图模型示例.................................................................................................................................. 134 图 5-9 BlogSpot 数据集的召回率和准确率曲线 .............................................................................................. 137 7 图 5-10 NYTimes 数据集的召回率和准确率曲线............................................................................................ 137 图 5-11 SourceForge 数据集的召回率和准确率曲线 ....................................................................................... 138 8 图 5-12 Wikipedia 数据集的召回率和准确率曲线........................................................................................... 138 图 5-13 YouTube 数据集的召回率和准确率曲线 ............................................................................................ 139 9 图 5-14 左图是大众点评提供的附近商户推荐，右图是街旁网提供的探索功能界面 ................................. 140 图 5-15 Hotpot 地点推荐界面............................................................................................................................ 140 图 5-16 一个简单的利用用户位置信息进行推荐的例子 ................................................................................ 142 10 图 6-1 Facebook 提供的导入电子邮件好友的方式.......................................................................................... 145 图 6-2 Facebook 在用户注册时让用户提供的一部分信息 .............................................................................. 146 11 图 6-3 社交网络（Slashdot）中用户入度的分布 ............................................................................................ 149 图 6-4 社交网络（Slashdot）中用户出度的分布 ............................................................................................ 149 12 图 6-5 视频推荐网站 Clicker 利用 Facebook 好友信息给用户推荐视频........................................................ 150 图 6-6 亚马逊利用 Facebook 好友信息给用户推荐商品 ................................................................................. 150 图 6-7 社交网络图和用户物品二分图的结合 .................................................................................................. 152 13 图 6-8 融合两种社交网络信息的图模型 .......................................................................................................... 153 图 6-9 Twitter 的用户信息流 ............................................................................................................................. 156 14 图 6-10 Facebook 的用户信息流 ....................................................................................................................... 157 图 6-11 Jilin Chen 的用户调查实验结果........................................................................................................... 159 15 图 6-12 Twitter 的好友推荐界面 ....................................................................................................................... 159 图 6-13 LinkedIn 的好友推荐界面 .................................................................................................................... 160 16 图 6-14 Facebook 的好友推荐界面.................................................................................................................... 160 图 6-15 新浪微博利用用户的学校、公司、位置、标签给用户推荐好友..................................................... 161 图 7-1 推荐系统和其他系统之间的关系 .......................................................................................................... 166 17 图 7-2 3 种联系用户和物品的推荐系统 ........................................................................................................... 168 图 7-3 基于特征的推荐系统架构...................................................................................................................... 168 18
15.4 图 7-4 亚马逊同时给用户推荐电子产品和图书 .............................................................................................. 169 图 7-5 亚马逊的社会化推荐结果中包含了各种物品 ...................................................................................... 170 图 7-6 亚马逊给用户推荐最新加入的物品 ...................................................................................................... 170 图 7-7 豆瓣电台考虑用户来源的上下文（该页面地址链接中加入了 context 参数） ............................ 170 图 7-8 推荐系统的架构图.................................................................................................................................. 171 图 7-9 推荐引擎的架构图.................................................................................................................................. 172 图 7-10 相关物品之间流行度之间的关系 ........................................................................................................ 176 表 1-1 使用了 Facebook Instant Personalization 工具的网站 ............................................................................. 13 表 1-2 离线实验的优缺点.................................................................................................................................... 21 表 1-3 获取各种评测指标的途径........................................................................................................................ 33 表 2-1 显性反馈数据和隐性反馈数据的比较 .................................................................................................... 37 表 2-2 各代表网站中显性反馈数据和隐性反馈数据的例子 ............................................................................ 38 表 2-3 用户行为的统一表示................................................................................................................................ 38 表 2-4 MovieLens 数据集中 UserCF 算法在不同 K 参数下的性能................................................................... 48 表 2-5 两种基础算法在 MovieLens 数据集下的性能 ........................................................................................ 48 表 2-6 MovieLens 数据集中 UserCF 算法和 User-IIF 算法的对比.................................................................... 50 表 2-7 利用 ItemCF 在 MovieLens 数据集上计算出的电影相似度 .................................................................. 54 表 2-8 MovieLens 数据集中 ItemCF 算法离线实验的结果 ............................................................................... 57 表 2-9 MovieLens 数据集中 ItemCF 算法和 ItemCF-IUF 算法的对比.............................................................. 58 表 2-10 MovieLens 数据集中 ItemCF 算法和 ItemCF-Norm 算法的对比......................................................... 59 表 2-11 UserCF 和 ItemCF 优缺点的对比........................................................................................................... 61 表 2-12 惩罚流行度后 ItemCF 的推荐结果性能 ................................................................................................ 63 表 2-13 MovieLens 数据集中根据 LFM 计算出的不同隐类中权重最高的物品.............................................. 69 表 2-14 Netflix 数据集中 LFM 算法在不同 F 参数下的性能 ............................................................................ 70 表 2-15 MovieLens 数据集中 PersonalRank 算法的离线实验结果 ................................................................... 76 表 3-1 年轻用户和老年用户经常看的图书的列表 ............................................................................................ 83 表 3-2 年轻用户比例最高的 5 本书和老年人比例最高的 5 本书..................................................................... 83 表 3-3 4 种不同粒度算法的召回率、准确率和覆盖率 ..................................................................................... 85 表 3-4 常见物品的内容信息................................................................................................................................ 89 表 3-5 MovieLens/GitHub 数据集中几种推荐算法性能的对比 ........................................................................ 91 表 4-1 Delicious 和 CiteULike 数据集的基本信息 ........................................................................................... 103 表 4-2 Delicious 和 CiteULike 数据集中最热门的 20 个标签.......................................................................... 103 表 4-3 基于标签的简单推荐算法在 Delicious 数据集上的评测结果 ............................................................. 107 表 4-4 Delicous 和 CiteULike 数据集上 TagBasedTFIDF 的性能.................................................................... 107 表 4-5 Delicous 和 CiteULike 数据集上 TagBasedTFIDF++的性能 ................................................................ 108 表 4-6 CiteULike 数据集中 recommender_system 的相关标签........................................................................ 108 表 4-7 Delicious 数据集中 google 的相关标签 ................................................................................................. 109 表 4-8 考虑标签扩展后的推荐性能.................................................................................................................. 109 表 4-9 10 个用户最满意的主观类标签 ............................................................................................................. 114
16.5 表 4-10 10 个用户最满意的客观类标签 ........................................................................................................... 114 表 4-11 3 种标签推荐算法在 N=10 时的准确率和召回率............................................................................... 117 表 4-12 HybridPopularTags 算法在不同线性融合系数D下的准确率和召回率 .............................................. 117 2 表 5-1 离线实验数据集的基本统计信息 .......................................................................................................... 125 表 5-2 美国、英国、德国用户兴趣度最高的歌手 .......................................................................................... 141 表 6-1 3 种不同好友推荐算法的召回率和准确率 ........................................................................................... 163 3 表 6-2 不同好友推荐算法的问卷调查结果 ...................................................................................................... 164 表 7-1 电子商务网站中的典型行为.................................................................................................................. 167 4 表 7-2 离线相关表在 MySQL 中的存储格式 ................................................................................................... 173 表 8-1 评分预测问题举例.................................................................................................................................. 179 5 表 8-2 MovieLens 数据集上不同平均值方法的 RMSE ................................................................................... 184 表 8-3 MovieLens 数据集中对平均值方法采用级联融合后的效果................................................................ 194 表 8-4 Netflix Prize 上著名算法的 RMSE......................................................................................................... 195 6 7 8 9 10 11 12 13 14 15 16 17 18
17.1第章 1.1 1 1 2 在如设计推荐系统，了的，在设计推荐系统是好的推荐系统至关要。有了了优秀推荐系统实进行取。本分3个这个题： 3 ，本介绍是推荐系统、推荐系统的主要务、推荐系统和分搜索的等；然，本领域分地介绍业常的个性化推荐应用；，本介绍推荐系统的评测，介绍评测指标给出好的义，从是好的推荐系统这个题。 4 1.1 推荐系统如一包，有种法设有一个24 ，可进，有的，一，然比较个子的者价自己的子， 4 。如家有一家，可进，分指品在的，指的，然在上要的，。如很，出，可开当当者，在一个搜索的 3个，然户在有一的，的子，，然等上。上这个子述了用 5 ，对采用的。在24 ，因为很，用户可自己的经有自己要的。在，商品经被在的上，此用户要用分自己要的商品。在者当当，由于商品大，用户搜索自己要的商品。但是，如用户没有的比如今天很，一部电。但当开 5 个网，对100 发行的的电，，该一部。此，了的题，要一个人者具，给出一些。如这有个电的友在，可推荐部电。，总家给推荐，要的是一个自化的具，它可分析的兴趣，从大的电 6 中部兴趣的电。这个具是个性化推荐系统。技和互联网的发，人从的了 information overload 的。在这个，论是者还是产者了很大的：作为 7 参http://en.wikipedia.org/wiki/Information_overload。
18.2 1 的者，如从大中自己兴趣的是一非常的；作为产者，如自己产的出，广大用户的关，也是一非常的。推荐系统是决这一的要具。推荐系统的务是联系用户和，一方用户发现对自己有价值的，一方现在对它兴趣的用户，从实现者和产者的如 1-1 。本书统称为品，可用户的。推荐系统 1-1 推荐系统的基本务是联系用户和品，决的题，为了决的题，经有家和程出了很天的决方，中性的决方是分和搜索。这种决方分了互联网领域的家名公司和。名的互联网公司分家，现在比较名的分网还有的DMOZ、的Hao123等。这些名的网分，从方用户网。但是互联网的大，分网也覆盖的网，满用户的。因此，搜索了。为的搜索可用户搜索关自己要的。但是，搜索要用户主准的关，因此决用户的很，比如当用户法准述自己的关，搜索为了。和搜索一，推荐系统也是一种用户发现有用的具。和搜索的是，推荐系统要用户的，是分析用户的行为给用户的兴趣，从主给用户推荐满兴趣和的。因此，从种意义上，推荐系统和搜索对于用户是个互补的具。搜索满了用户有的的主，推荐系统在用户没有的的发现兴趣的。从品的度出发，推荐系统可好地发品的 long tail 。《》主 Chris Anderson在2004 发了 The Long Tail 一文并于2006 出了《理论》一书。该书指出，统的80/20 80%的自于20%的品在互联网的。互联网，由于本，电子商务网出比统的商品。虽然这些商品大，但与统业相比，这些的商品大，因此这些商品的总是一个可的，也商品主流商品的。主流商品了大用户的，商品了一部分用户
19.1.1 3 的个性化。因此，如要发高，分用户的兴趣，这是 1 个性化推荐系统主要决的题。推荐系统发用户的行为，用户的个性化，从商品准地推荐给要它的用户，用户发现些兴趣但很发现的商品。要了推荐系统是如作的，可一现实社中用户对很决的程。然电为，一友。也，可用如方决电。开天具，个经常电的好友，有没有 2 电可推荐。至，可开，发一要电，然等人推荐电。这种方在推荐系统中称为社化推荐 social recommendation ，好友给自己推荐品。一有的员和导，有些人可开搜索，自己的员名， 3 然结中还有电是自己没有的。比如非常的电，于是搜索，发现的一部电还没，于是一。这种方是和自己的电在上相的电。推荐系统可上述程自化，分析用户经的电用户的员和导，然给用户推荐这些员者导 4 的电。这种推荐方在推荐系统中称为基于的推荐 content-based filtering 。还可行，比如名的IMDB电行，人在电，人电，然一部广好评的电。这种方可进一：如和自己兴趣相的一用户，在泛的行自己的兴趣。这种方称为基于电，结可比 4 collaborative filtering 的推荐。从上 3种方法可出，推荐算法的本是一的方用户和品联系，的推荐系统用了的方。 1-2 了联系用户和品的常用方，比如用好友、用户的兴趣用户的等。 5 5 好友 6 兴趣注册信息 1-2 推荐系统常用的3种联系用户和品的方 7
20.4 1 的这一的论，可发现推荐系统是自联系用户和品的一种具，它在的中用户发现兴趣的，也推给对它兴趣的用户。一推荐系统的实子大家对推荐系统的了。 1.2 推荐系统的用和搜索，个性化推荐系统要用户的行为，因此一是作为一个应用在于网中。在互联网的各网中可推荐系统的应用，个性化推荐系统在这些网中的主要作用是分析大用户行为，给用户的个性化，高网的率和化率。广泛用推荐系统的领域包括电子商务、电和视频、音乐、社交网络、阅读、基于的服务、个性化和广告等。的网使用的推荐系统技，但总地，有的推荐系统应用是由的、的系统推荐算法系统3部分的。因此，本在介绍的个性化推荐系统应用，这3个的部分进行。 1.2.1 电子商务网是个性化推荐系统的一大应用领域。名的电子商务网亚马逊是个性化推荐系统的应用者和推广者，被RWW 读网称为推荐系统。亚马逊的推荐系统了各产品中，中主要的应用有个性化商品推荐和相关商品的推荐。 1-3是亚马逊的个性化推荐，这个是个性化推荐系统的标准用户，它包个部分。取自亚马逊网站，图中相关内容的著权著权人 1-3 亚马逊的个性化推荐参读网的文 A Guide to Recommender Systems 。
21.1.2 的 5 推荐推荐的标题的分告用户给推荐的是。 1 分应了推荐结的总，也了大部分用户对这本书的法。推荐亚马逊用户的行为给用户推荐，因此如它给推荐了一本的，大是因为经在亚马逊上对方的书给马逊对个推荐结给出了一个 Fix this recommendation 的。此，亚， 2 可推荐理由。如 1-4 ，亚马逊的推荐结中有一本关于机的书 Introduction to Machine Learning ，该推荐结的Fix this recommendaion ，出如 -4 的括Add to Cart ，该给用户了5种对这个推荐结进行的方，包 Add to Wish List 、Rate this item 给书 3 分、 I own it 经有这本书了和Not interested 对这本书没兴趣。，在推荐结的还了推荐因，此是因为经给Probabilistic Graphical Models： Principles and Techniques和DataMining:PracticalMachine Learning Tools and Techniques， Second Edition这本书考。有些用户可 5分。亚马逊用户用推荐理由，这主要是出于的 4 对些品的行为被系统用推荐结，这个可用这些行为。 4 对推荐结果的反馈方式 5 5 6 取自亚马逊网站，图中相关内容的著权著权人 1-4 Fix this recommendation 1-3 的个性化推荐采用了一种基于品的推荐算法 item-based method ，该算法给用户推荐些和的品相的品。此，亚马逊还有一种个性化推荐 7
22.6 1 的，是用户在Facebook的好友关系，给用户推荐 1-5 ，基于好友的个性化推荐由品标题、这的推荐理由了相关品的用户好友的的好友在亚马逊上的品。如、品分和推荐理由。。取自亚马逊网站，图中相关内容的著权著权人 1-5 基于Facebook好友的个性化推荐了个性化推荐，亚马逊一个要的推荐应用是相关推荐。当在亚马逊一个商品，它在商品相关的商品。亚马逊有种相关商品，一种是包了这个商品的用户也经常的商品如 1-6 ，一种是包这个商品的用户经常的商品如 1-7 。这种相关推荐的是使用了用户行为计算品的相关性。此，相关推荐要的应用是 cross selling 。当在个品的，亚马逊告用户在这个商品的也的个商品，然是要这些商品。如了，它这商品包，有一的，然给如 1-8 。这种是推荐算法要的应用，被很电子商务网作为标准的应用。取自亚马逊网站，图中相关内容的著权著权人 1-6 相关推荐，这个商品的用户经常的商品在商业亚马逊的推荐产品，读者关的应该是这些推荐的应用，。关于这方的准，亚马逊方并没有公开，但给亚马逊了了一些相关关于Cross Selling的参基 Crossing Selling 。
23.1.2 的 7 的。亚马逊的家Greg Linden在的至有20% 的一文为35% 的经，在开亚马逊的，亚马逊 1 自于推荐算法。此，亚马逊的家Andreas Weigend在经一推荐系统的，的，亚马逊有 20% 30%的自于推荐系统。 2 3 取自亚马逊网站，图中相关内容的著权著权人 4 1-7 相关推荐，这个商品的用户经常的商品 4 取自亚马逊网站，图中相关内容的著权著权人 1-8 亚马逊的包至于个性化推荐系统对亚马逊的意义， CEO Jeff Bezos在采经对于电子商务网的大优在于个性化推荐系统，该系统个用户的在商，并且在商中自己兴趣的商品。 5 ，亚马逊相有一个自己 5 We have 6.2 million customers, we should have 6.2 million stores. There should be the optimum store for each and every customer. 6 有62 用户，因此也应有62 个商。应该给个用户的商。参 Lessons on recommendation Systems, 地为http://blog.Kiwitobes.com/?p=58。 7 参 Mark Levene的An Introduction to Search Engines and Web Navigation, Second Edition Wiley, 2010 。
24.8 1 的 1.2.2 网在电和视频网中，个性化推荐系统也是一种要的应用。它用户在的视频中兴趣的视频。在该领域使用推荐系统的一家公司是Netflix，它和亚马逊是推荐系统领域具性的家公司。 Netflix 是一家DVD 网，这也开在视频业务。Netflix非常视个性化推荐技，并且在2006 开名的Netflix Prize推荐系统比。该比 100 ，人员 Netflix的推荐算法的测准度 10%。该比 3 ，由AT&T 的人员得了的大。该比对推荐系统的发了要的推作用：一方该比给了一个实系统中的大用户行为 40 用户对2 部电的上评分；一方，3 的比中，参者出了很推荐算法，大大了推荐系统的测。此，比了很优秀的人员推荐系统的中，大大高了推荐系统在业和的。 1-9是Netflix的电推荐，从中可 Netflix的推荐结包了个部分。电的标题和。用户包括Play 、评分和Not Interested 兴趣 3种。推荐理由因为用户经的电。取自Netflix网站，图中相关内容的著权著权人 1-9 Netflix的电推荐系统用户参http://netflixprize.com/。
25.1.2 的 9 从Netflix的推荐理由，它的算法和亚马逊的算法，也是基于品的推荐算法， 1 给用户推荐和经的电相的电。至于推荐系统在Netflix中的作用，Netflix在中称，有60% 的用户是推荐系统自己兴趣的电和视频的。 YouTube作为大的视频网，有大用户上的视频。由于视频非常大，用户在YouTube中的，试了很算法。在YouTube 题。为此，YouTube在个性化推荐领域也进行了的论文中，的人员现在使用的也是基于品 2 的推荐算法。为了个性化推荐的有性，YouTube 经个一个实，比较了个性化推荐的率和视频的率，实结个性化推荐的率是视频率的。和YouTube ，一家名的视频网 Hulu也有自己的个性化推荐。如 1-10 ，Hulu在推荐结也了视频标题、、视频的分、推荐理由和用户 3 。 4 4 5 5 取自Hulu网站，图中相关内容的著权著权人 1-10 视频网 Hulu的个性化推荐参http://cdn-0.nflximg.com/us/pdf/Consumer_Press_Kit.pdf, Consumer Press Kit。 6 关于这个60%的和的与亚马逊有关的30%，指出的是如网推荐系统在很要的，比如在，这个比自然高。但要意的是，用户在网中了推荐系统，还可搜索和分得自己兴趣的，在这3种方中，如用推荐系统的比 30% 60%，还是推荐系统的有性。当然，如要这个题，个推荐系统，然对比有推荐系统的网和没有推荐系统的网的，当然这种实发。 7 参http://dl.acm.org/citation. cfm?id=1864770，The Youtube video recommendation system。
26.10 1 的 1.2.3 网络个性化推荐的应用要个。一是在，因为如用户可很地从有品中的品，要个性化推荐了。是用户大部分没有的，因为用户如有的，可搜索兴趣的品。在这个，个性化网络电是的个性化推荐产品。，音乐很，用户可有的音乐决自己，且的在很的度，因此用户的题。，人音乐，一是音乐作为一种乐，很有人的。对于用户，可，要当的可了。因此，个性化音乐网络电是非常个性化推荐技的产品。有很名的个性化音乐网络电。上名的有Pandora 参 1-11 和Last.fm 参 1-12 ，的是电参 1-13 。这3种应用虽然是个性化网络电，但的技一。取自Pandora网站，图中相关内容的著权著权人 1-11 Pandora个性化网络电的用户
27.1.2 的 11 1 2 3 4 取自Last.fm网站，图中相关内容的著权著权人 1-12 Last.fm个性化网络电的用户 4 5 5 取自豆瓣个性化网络电台，图中相关内容的著权著权人 1-13 个性化网络电的用户从上，这3个个性化网络电很。它用户，是给用户种方、和。经用户一的，电可从用户的行为中 6 得用户的兴趣，从使用户的用户对的兴趣。 Pandora 的音乐推荐算法主要自于一个音乐基因程的。这个于 2000 1 6 ，它的员包括音乐家和对音乐有兴趣的程。Pandora的算法主要基于，音乐家和人员自了上自的，然对的性比如、 7
28.12 1 的、和等进行标，这些标被称为音乐的基因。然，Pandora 家标的基因计算的相度，并给用户推荐和的音乐在基因上相的音乐。 Last.fm于2002 在。Last.fm 了有用户的用户对的，在这一基础上计算出用户在上的好相度，从给用户推荐和有相好的用户的。，Last.fm也了一个社交网络，用户和用户联系，也用户给好友推荐自己的。和Pandora相比，Last.fm没有使用家标，是主要用用户行为计算的相度。音乐推荐是推荐系统非常的领域。2011 的Recsys大了Pandora的人员对音乐推荐进行了。人总结了音乐推荐的如。品很，品空很大，这主要是相对于书和电的对于在音乐，音乐是的，要。种，有很的流一音乐的本很，用户的，且用户大音乐作为音，进行作。用用户很，这和品，比如用户一个电，一本书。用户用户很有，一个用户很上下文用户的很当上文的，这的上文主要包括用户当的比如的的和比如音乐。用户音乐一是一的一一地。很用户很个人。用户音乐要用户地，很用户音乐作为音。社用户音乐的行为具有很的社化性，比如和好友分自己的音乐。上这些决了音乐是一种非常用推荐的品。因此，现在很推荐系统是作为一个应用在于网中，比如亚马逊的商品推荐和Netflix的电推荐，有音乐推荐可的个性化推荐网，比如Pandora、Last.fm和网络电。 1.2.4 社交网络 5 ，互联网人的产品于 Facebook和Twitter为社交网络中，好友可互相分、。社交网络中的个性化推荐技用用户的社交网络对用户进行个性化的品推荐；流的话推荐；给用户推荐好友。的社交网络应用。在主要应用在3个方： PPT为Music Recommendation and Discovery，http://www.slideshare.net/plamere/music-recommendation-and-discovery。
29.1.2 的 13 Facebook 的有个，一个是用户的社交网络关系，一个是用户的好。 1 因此，Facebook推出了一个推荐API，称为Instant Personalization。该具用户好友的，给用户推荐的好友的品。很网使用了Facebook的API 实现网的个性化。 1-1中是使用了Facebook的Instant Personalization的具有性的网。 1-14是名的电视推荐网 Clicker使用Instant Personalization给用户进行个性化视频推荐的。 2 1-1 用 Facebook Instant Personalization 的网网 Clicker Rotten Tomatoes Docs.com Pandora Yelp Scribd 网个性化电视推荐电影评论式文编辑 3 个性化音乐网络电台本地评论社会化阅读 4 4 5 取自Clicker网站，图中相关内容的著权著权人 5 1-14 Clicker 用好友的行为给用户推荐电视了用用户在社交网的社交网络给用户推荐本的各种品，社交网本也用社交网络给用户推荐用户在社交网的话。如 1-15 ，个用户在Facebook的个人好友的各种分，并且对这些分进行评论。个分和它的有评论被称为一 6 个，如给这些话是社交网中的一个要话题。为此，Facebook开发了EdgeRank 算法对这些话，使用户的好友的话。 7 这些网的http://www.facebook.com/instantpersonalization/。
30.14 1 的取自Facebook，图中相关内容的著权 1-15 用户在Facebook的著权人流了用户的社交网络用户行为给用户推荐用户推荐好友。 1-16 了名社交网的好友推荐，社交网还。个性化推荐服务给取自Facebook、Twitter、LinkedIn和新浪微博，图中相关内容的著权著权人 1-16 社交网中好友推荐系统的上为LinkedIn，为上为Facebook，为Twitter，
31.1.2 的 15 1.2.5 1 阅读文是很互联网用户天的。个性化阅读出的要个性化推荐的个因：，互联网上的文非常，用户的题；，用户很并没有具文的，是阅读领域的文了这些领域的。 2 互联网上的个性化阅读具很，名的有Google Reader，有网等。，设的流行，设上对个性化阅读的应用也很，中具有性的有Zite和 Flipboard。 Google Reader是一流行的社化阅读具。它用户关自己兴趣的人，然 3 关用户分的文。如 1-17 ，如的People you follow 关的人，可用户分的文。 4 4 5 取自Google Reader，图中相关内容的著权著权人 1-17 Google Reader社化阅读和Google Reader ，个性化阅读具Zite 是用户对文的好。如 1-18 在文，Zite 用户给出的，然分析用户的地用户的个性化文。Zite推出得了大的，被CNN 。 5 ，6 7
32.16 1 的取自Zite，图中相关内容的著权著权人 1-18 Zite个性化阅读一家名的阅读网 Digg也在试了推荐系统。 Digg 用户的Digg 计算用户的兴趣相度，然给用户推荐和兴趣相的用户的文。 Digg自己的统计，在使用推荐系统，用户的digg行为，digg总高了40%，用户的好友了24%，评论了11%。 1.2.6 的在中关，子了，开机，发现上给推荐了家中关的，价、、服务、如，这是基于的个性化推荐系统理的了。设的发，用户的经非常取，是一种很要的上文，基于给用户推荐的且兴趣的服务，用户有可。基于的服务和社交网络结在一。比如Foursquare推出了索，给用户推荐好友在的行为如 1-19 。 Digg 方上的文 Digg Recommendation Engine Updates ，地为http://about.digg.com/blog/digg-recommendation-engine-updates。
33.1.2 的 17 1 2 3 4 取自FourSquare，图中相关内容的著权著权人 1-19 Foursquare的索 1.2.7 4 天大的，这些有些对很要比如领导交务的，有些比较要比如人的，还有些是。可，这是一个的领域，这论了。但在常的中，如对用户要的用户优，大大高用户的作率。 5 实，在文中的一个推荐系统Tapestry 是一个个性化推荐系统，它分析用户阅读的行为和对进行，从高用户的作率。的人员在这个题上也进行了，于2010 推出了优。如 1-20 ，该产品分析用户对的行为，用户兴趣的，在一个的 5 。用户天可这个的，。的，该产品可用户 6%的。在如今这个是的， 6%的是一大进。 6 。参读网的 Google Says Priority Inbox Users Spend 6% Less Time on Email(So Are You Using It?)http://www.readwriteweb.com/search?query=google+says+priority+inbox+use&x=0&y=0 者的论文The Learning Behind Gmail Priority Inboxhttp://static.googleusercontent.com/external-content/untrusted_dlcp/research.google.com/zh-CN 7 //pubs/archive/36955.pdf 。
34.18 1 的取自Gmail，图中相关内容的著权著权人 1-20 Gmail的优 1.2.8 广告是互联网公司的本。很互联网公司的是基于广告的，广告的CPC、 CPM 决了很互联网公司的。，很广告是机的，用户了，机一个广告给。这种的率然很，比如给性化品广告者给性广告是一种。因此，很公司于广告 Ad Targeting 的，如广告给它的在户。个性化广告经为了一的计算广告但该和推荐系统在很基础理论和方法上是相的，比如它的的是联系用户和品，是在个性化广告中，品是广告。个性化广告和义个性化推荐的是，个性化推荐于用户可兴趣的品，广告推荐于广告可对它兴趣的用户，一个是用户为，一个广告为。的个性化广告技主要分为3种。上下文分析用户在的网，和网相关的广告。系统是的Adsense。分析用户在当话中的搜索，用户的搜索的，和用户的相关的广告。经常在很网大广告是些大的，它是用户的兴趣，对用户的广告。是这方的。广告的个性化是很互联网公司的技，很公司。，公司是个，它发了大个性化广告方的论文。在个性化广告方得的是Facebook，因为它有大的用户个人，可很地取用户的兴趣，广告商自己对广告的用户。 1-21 了 Facebook的广告系统，该广告商自己的用户，然 Facebook 广告商的告这些广告覆盖的用户。
35.1.3 19 1 2 3 4 取自Facebook，图中相关内容的著权著权人 1-21 Facebook 广告商的标用户 1.3 推荐系统评测 4 是好的推荐系统这是推荐系统评测要决的要题。一个的推荐系统一在3个参与方如 1-22 ：用户、品者和推荐系统的网。书推荐为，，推荐系统要满用户的，给用户推荐些各出社的书被推荐给对兴趣的用户，兴趣的书。，推荐系统要是推荐个大出社的书。， 5 好的推荐系统设计，推荐系统本高的用户，推荐的，用户和网的交互，高网的。因此在评测一个推荐算法，要考方的，一个好的推荐系统是方的系统。 5 6 1-22 推荐系统的参与者 7
36.20 1 的在推荐系统的中，很人好的推荐系统义为作出准测的推荐系统。比如，一个书推荐系统测一个用户《C++ Primer中文》这本书，用户实了，这被一准的测。测准度是推荐系统领域的要指标没有一。这个指标的好是，它可比较地方计算出，从方人员评价和的推荐算法。但是，很，准的测并好的推荐。比如，该用户准《C++ Primer中文》了，论是给推荐，准，这个推荐结然是好的，因为它并使用户的书，是方用户一本本准的书。，对于用户，得这个推荐结很，。，对于《C++ Primer 中文》的出社，这个推荐也没这本书的在人。，这是一个上很好，但实很的推荐。一个的子，推测系统测天从方，虽然测准率是100%，是一种没有意义的测。，好的推荐系统准测用户的行为，且用户的视，用户发现些可兴趣，但发现的。，推荐系统还要商家些被没在中的好商品介绍给可对它兴趣的用户。这也是《理论》的作者在书中介绍推荐系统的因。为了评测推荐系统对方的，本从度出发，出的指标。这些指标包括准度、覆盖度、度、度、度、度等。这些指标中，有些可计算，有些有在计算，有些用户得。各介绍这些指标的出发、义，一些指标的计算方法。 1.3.1 推荐系统实在介绍推荐系统的指标，一计算和得这些指标的主要实方法。在推荐系统中，主要有3种评测推荐的实方法，实 offline experiment 、用户 user study 和在实 online experiment 。分介绍这3种实方法的优。 1. 实实的方法一由如个： (1) 系统得用户行为，并一一个标准的； (2) 一的分和测试； (3) 在上用户兴趣，在测试上进行测； (4) 义的指标评测算法在测试上的测结。从上的可，推荐系统的实是在上的，也是它要一个实的系统它实，要有一个从实系统中取的可。这种实方法的好是要实用户参与，可地计算出，从方、地测试大的算法。参 Sean M. McNee、John Riedl、Joseph A. Konstan的论文 Being accurate is notenough:how accuracy metrics have hurt recommender systems 。
37.1.3 它的主要是法得很商业上关的指标，如率、化率等，相关的指标也是很的。 1-2 总结了实的优。 1-2 实的 21 和商业指标非常 1 不需要对实系统的权不需要用户参与实验度，可以测试大量算法法计算商上关心的指标 2 离线实验的指标和商指标存在 2. 用户 3 意，实的指标和实的商业指标在，比如测准率和用户满意度在很大，高测准率等于高用户满意度。因此，如要准评测一个算法，要相对比较实的。好的方法是算法上测试，但在对算法用户满意度有的的测试。，上测试具有较高的，在上测试一要一称为用户 4 用户要有一些实用户，在要测试的推荐系统上一些务。在务，要和的行为，并一些题。，要分析的行为和了测试系统的性。用户是推荐系统评测的一个要具，很没有法评测的与用户主有关 4 的指标可用户得。比如，如推荐结是很用户，好用户。但是，用户也有一些。，用户本很高，要用户大一个个务，并相关的题。有些，还要用测试用户。因此，大很进行大的用户，对于参人较的用户，得出的很结论 5 没有统计意义。因此，在用户，一方要本，一方要结的统计意义。此，测试用户也是的。要测试用户的分和实用户的分相，比如各，、度的分和实用户分相。此，用户要 5 是实，要实人员和用户测试的标，用户的和实人员的测试主分的。用户的优也很。它的优是可得很现用户主的指标，相对在实很，出现很弥补。是测试用户价较大，很大的测试用户，因此使测试结的统计意义。此，在很设计实非常，且用户 6 在测试的行为和实的行为可有，因在测试的测试指标可在实法现。 3. 实在实和要的用户，可推荐系统上 AB测试，它和的算法进 7
38.22 1 的行比较。 AB测试是一种很常用的在评测算法的实方法。它一的用户机分，并对的用户采用的算法，然统计用户的各种的评测指标比较算法，比如可统计用户的率，率比较算法的性。对AB测试兴趣的读者可一网http://www.abtests.com/，该网给出了很实 AB测试高网用户满意度的子，从中可如进行理的AB测试。 AB测试的优是可公得算法实在的性指标，包括商业上关的指标。 AB测试的主要是比较，进行的实得可的结。因此一用 AB测试测试有的算法，是用它测试些在实和用户中现很好的算法。，一个大网的AB测试系统的设计也是一的程。一个大网的分和，从给用户的的算法，中经了很，这些由的，且有可 AB测试。如为的分设计AB测试系统，的AB测试互相。比如，当进行一个推荐算法的AB测试，网在推荐的 AB测试，的结是测试结是自己算法的，还是推荐的的。因此，分流是AB测试中的关，的这些的要从一个统一的地方得自己AB测试的流，的流应该是交的。 1-23是一个的AB测试系统。用户进网，流分系统决用户是要被进行AB测试，如要的话，流分系统给用户上在测试中于分的标。然用户网，用户在网的行为被系统发的。此，如用户有测试分的标，该标也被发。在，实人员的作是流分系统，决满的用户参的测试。，实人员要统计中的，评测系统分用户的实告，并比较和评测实结。一然，一个，要，要的推荐算法实用户 1-23 AB测试系统上，要上的3个实。它在很指标上优于现有的算法。它的用户满意度于现有的算法。
39.1.3 23 ，在的AB测试它在关的指标上优于现有的算法。 1 介绍 3种主要的实方法，一开介绍推荐系统常用的实指标，这些指标大部分可本介绍的3种实方法得。 1.3.2 评测标 2 本介绍各种推荐系统的评测指标。这些评测指标可用于评价推荐系统各方的性。这些指标有些可计算，有些性述，有些可实计算，有些要用户得，还有些在评测。对于要的评测指标，论如优化它，本给出指标的义。但对于一些要的指标，本在给出义的也如优化。论各个的指标。论一应该 3 1. 用户用户作为推荐系统的要参与者，满意度是评测推荐系统的要指标。但是，用户满意度没有法用户计算，用户得用户满意度主要是者在实的得。。用户对推荐系统的满意度分为的4 。GroupLens 经一个论文推荐系统的，该的题是话述推荐结的推荐的论文是非常的。推荐的论文很了，实是兴趣的论文。 4 推荐的论文和的兴趣是相关的，但并。为推荐这些论文，它和的兴趣没有关系。由此可出，这个是地用户对结是满意，是从的用户对结的个方还有。比如，如满，因可很用户是满意，用户可这个题。因此在设计为大满意，但是对 5 要考用户各方的，这用户对题给出自己准的。在在系统中，用户满意度主要一些对用户行为的统计得。比如在电子商务网中，用户如了推荐的商品，户的满意度。此，有些网在一程度上满意。因此，可用率度用设计一些用户用户满意度。比如在视频网 5 Hulu的推荐如 1-24 和网络电如 1-25 中，有对推荐结满意者满意的，统计种的可度系统的用户满意度。一的，可用率、用户和化率等指标度用户的满意度。 6 参 Sean M. McNee、 Nishikant Kapoor和 Joseph A. Konstan的论文 Don’t LookStupid:Avoiding Pitfalls when Re- 7 commending Research Papers 。
40.24 1 的取自Hulu，图中相关内容的著权著权人 1-24 Hulu 用户对推荐结进行，度用户满意度取自豆瓣，图中相关内容的著权著权人 1-25 网络电和的度用户满意度 2. 预测测准度度一个推荐系统者推荐算法测用户行为的。这个指标是要的推荐系统评测指标，从推荐系统的一天， 99%与推荐相关的论文在论这个指标。这主要是因为该指标可实计算，方了很的人员推荐算法。在计算该指标要有一个的，该包用户的行为。然，该分和测试。，在上用户的行为和兴趣测用户在测试上的行为，并计算测行为和测试上实行为的度作为测准度。由于的推荐算法有的方，因此对的方介绍它的测准度指标。
41.1.3 25 z 很推荐服务的网有一个用户给品分的如 1-26 。了用户对品的评分，可从中得用户的兴趣，并测该用户在没有评分的品，给这个品评分。测用户对品评分的行为称为 1 ，如一个。 2 3 分别取自Netflix、豆瓣、YouTube、Jinni、Digg和Pandora网站，图中相关内容的著权著权人 1-26 网用户评分的评分测的测准度一方 RMSE 和对 MAE 计算。对于测试中的一个用户u和品i， rui是用户u对品i的实评分， rˆui 是推荐算法给出的测评 4 分， RMSE的义为： RMSE ¦ u,iT (rui rˆui )2 T 4 MAE采用对值计算测，它的 ¦ MAE = u,iT rui rˆui 7 5 设用一个 records 用户评分， records[i] = [u,i,rui,pui]，中rui是用户u对品i的实评分，pui是算法测出的用户u对品i的评分，的分实现了RMSE和MAE的计算程。 def RMSE(records): return math.sqrt(\ 5 sum([(rui-pui)*(rui-pui) for u,i,rui,pui in records])\ / float(len(records))) def MAE(records): return sum([abs(rui-pui) for u,i,rui,pui in records])\ / float(len(records)) 6 关于RMSE和MAE这个指标的优， Netflix 为RMSE 大了对测准的用户品评分的方的，因对系统的评测。，如评分系统是基于的用户给的评分是，对测结取 MAE的。 7 Gábor Takács、István Pilászy和 Bottyán Németb的论文 Major components of the gravity recommendation system 。
42.26 1 的 z TopN 网在推荐服务，一是给用户一个个性化的推荐，这种推荐 TopN推荐。 TopN推荐的测准率一准率 precision / 率 recall 度。 R(u)是用户在上的行为给用户作出的推荐， T(u)是用户在测试上的行为。，推荐结的率义为： ¦ ¦ Recall uU R(u) T (u) uU T (u) 推荐结的准率义为： ¦ ¦ Precision uU R(u) T (u) uU R(u) 的Python 计算出了一个推荐算法的准率和率： def PrecisionRecall(test, N): hit = 0 n_recall = 0 n_precision = 0 for user, items in test.items(): rank = Recommend(user, N) hit += len(rank & items) n_recall += len(items) n_precision += N return [hit / (1.0 * n_recall), hit / (1.0 * n_precision)] 有的，为了评测TopN推荐的准率和率，一取的推荐度N，计算出一准率/ 率，然出准率/ 率 precision/recall curve 。 z 和TopN 的评分测一是推荐系统的，大推荐系统的是基于用户评分的评分测。这主要是因为，一方推荐系统的 GroupLens的主要是基于电评分 MovieLens进行的，，Netflix大也主要评分测题。因，很人员中在优化评分测的RMSE上。对此，亚马逊家Greg Linden有的法。2009 , 在Communications of the ACM 网发了一文，指出电推荐的的是用户有可兴趣的电，是测用户了电给电的评分。因此，TopN推荐实的应用。也有一部电用户了给很高的分，但用户的可性非常。因此，测用户是一部电，应该比测用户了电给它评分要。因此，本书主要也是论TopN推荐。 What is a Good Recommendation Algorithm ，参http://cacm.acm.org/blogs/blog-cacm/22925-what-is-a-goodrecommendation-algorithm/fulltext。
43.1.3 27 3. 覆盖率 coverage 述一个推荐系统对品的发。覆盖率有 1 的义方法，的义为推荐系统推荐出的品总品的比。设系统的用户为U，推荐系统给个用户推荐一个度为N的品 R(u)。推荐系统的覆盖率可的公计算： 2 Coverage *uU R(u) I 从上的义可，覆盖率是一个商关的指标。书推荐为，出社可很关的书有没有被推荐给用户。覆盖率为100%的推荐系统可个品推荐 3 给至一个用户。此，从上的义也可，行的推荐覆盖率是很的，它推荐些的品，这些品在总品中的比很。一个好的推荐系统要有比较高的用户满意度，也要有较高的覆盖率。但是上的义于。覆盖率为100%的系统可有的品流行度分。为了 4 地述推荐系统发的，要统计推荐中品出现的分。如有的品出现在推荐中，且出现的，推荐系统发的很好。因此，可品在推荐中出现的分述推荐系统的。如这个分比较，推荐系统的覆盖率较高，如这个分较，推荐系统的覆盖率较。 4 在论和经中有个名的指标可用义覆盖率。一个是： H ¦n p(i) log p(i) i1 这 p(i)是品i的流行度有品流行度和。个指标是基系 Gini Index ： 5 ¦ G 1 n 1 n j1 (2 j n 1) p(i j ) 这，ij是品流行度p()从大的品中 j个品。的可用计算给品流行度分的基系： 5 def GiniIndex(p): j=1 n = len(p) G=0 for item, weight in sorted(p.items(), key=itemgetter(1)): G += (2 * j - n - 1) * weight 6 return G / float(n - 1) 7 参 Guy Shani和 Asela Gunawardana的 Evaluating Recommendation Systems 。
44.28 1 的系数的首先，我物品按热门程度高排列，右图中的曲线表示最不热门的x%物品的流行度系统的比例 y% 这曲线定是在y=x曲线之下的，和y=x曲线相交在 (0,0)和(1,1) SA是A的面，SB是B的面，基系数的定是SA / (SA + SB)，定可，基系数于间[0,1] 果系统的流行度平均，数果系统物品流行度分基系数会大 SA 会不均，，基系 SA 会大，社领域有一个名的马应，者，者的应。如一个系统大品和非品的流行度，的品，的品，这个系统有马应。比如，的行有马应。进行的是的品，但它因为被在的行有了的机，。相，没有进行的品得，。搜索的PageRank算法也具有一的马应，如一个网的个关名很高，并因此被在搜索结的一，它得的关，从得的，PageRank 名也高。，推荐系统是有马应推荐系统的是马应，使得各种品被给对它兴趣的一人。但是，很现在主流的推荐算法比如算法是具有马应的。评测推荐系统是具有马应的法是使用基系。如 G1是从用户行为中计算出的品流行度的基系，G2是从推荐中计算出的品流行度的基系，如 G2 > G1，推荐算法具有马应。 4. 用户的兴趣是广泛的，在一个视频网中，用户可《和》一的，也的作。，为了满用户广泛的兴趣，推荐要覆盖用户的兴趣领域，推荐结要具有性。性推荐的好用一话述是在一上。用户的兴趣在较的度中是一的，但具用户推荐系统的一，兴趣是一的，如推荐覆盖用户的一个兴趣，这个兴趣是用户这个的兴趣，推荐用户满意。，如推荐比较，覆盖了用户大的兴趣，用户兴趣品的率。因此给用户的推荐也要满用户广泛的兴趣，具有性。性述了推荐中品的相性。因此，性和相性是对应的。设 s(i, j) [0,1] 义了品i和j 的相度，用户u的推荐 R(u)的性义如： Diversity ¦ 1 i, jR(u),iz j s(i, j) 1 R(u) ( R(u) 1) 2
45.1.3 29 推荐系统的性可义为有用户推荐性的值： 1 Diversity 1 ¦ Diversity(R(u)) U uU 从上的义可，的品相度度相度述品的相度，可得 s(i, j)可义的性。如用性，如用的相度 2 述品的相度，可得的性。关于推荐系统性好程度，可一个的子。设用户作和推荐，且用户80%的在作，20%的在。，可 4种：A 中有10部作，没有；B 中有10部，没有作；C 的中3 有8部作和2部；D 有5部作和5部。在这个子中，一为C 是好的，因为它具有一的性，但考了用户的主要兴趣。A满了用户的主要兴趣，但性，D 于，没有考用户的主要兴趣。B 没有考用户的主要兴趣，也没有性，因此是的。 4 5. 的推荐是指给用户推荐些没有的品。在一个网中实现性的法是，些用户在网中对有行为的品从推荐中。比如在一个视频网中，的推荐应该给用户推荐些经有些视频可是用户在的网，者是在电视上、分者，因此的视频。但是， 4 本网中用户有行为的品还实现性。 O’scar Celma在论文 Music Recommendation and Discovery in the Long Tail 中了度的评测。评测度的方法是用推荐结的流行度，因为的品可用户得。因此，如推荐结中品的程度较，推荐结可有 5 比较高的性。但是，用推荐结的流行度度性比较，因为用户的是的。因此，要准地统计性要用户。关于性和性的推荐系统人员的关。ACM的推荐系 5 统在2011 有一个的论推荐的性和性。该的者为，度高性和性是很的，的是如在度的高性和性。关这个指标的读者可关一这个发的论文。 6. 度 serendipity 是这推荐系统领域 6 的话题。但是度，度与性有是要的题。意，这论的是度和度作为推荐指参 Music Recommendation and Discovery in the Long Tail ，地为http://mtg.upf.edu/static/media/PhD_ocelma.pdf。 7 参 International Workshop on Novelty and Diversity in Recommender Systems ，地为http://ir.ii.uam.es/divers2011/。
46.30 1 的标在意义上的，是这个在中文的义因为这个是文的，它在中文的义和文的义并相，要大中关于这个在中文中的基本义。可一个子这种指标的。设一名用户的电，然给推荐了一部《》的电该电是1983 由、、作出的，很有人这部有出的电，该用户这部电，可这个推荐具有性。但是，这个推荐并没有度，因为该用户一了了这个电的员，得。但如给用户推荐导的《高》，设这名用户没有这部电，这部电可得很，因为这部电和的兴趣一关系也没有，但如用户电得这部电很，可这个推荐是用户的。这个子的本自于 Guy Shani的论文，的基本意是，如推荐结和用户的兴趣相，但用户得满意，可推荐结的度很高，推荐的性取决于用户是这个推荐结。并没有公的度指标义方，这给出一种性的度方。上，用户的推荐结是和用户上的品相，但用户得满意的推荐。，义度要义推荐结和用户上的品的相度，要义用户对推荐结的满意度。也，用户满意度者在实得，推荐结和用户上的品相度一可用相度义。也是，如得了一个用户电的，得这些电的员和导 A，然给用户推荐一个于 A的导和员作的电，用户非常满意，这实现了一个度很高的推荐。因此高推荐度要高推荐结的用户满意度，推荐结和用户兴趣的相度。度的题得了的一关，但这方的作还是很。相关作可参考Yuan Cao Zhang等的论文和Tomoko Murakami等的论文，本书对该题进一开论了。 7. 信如有个友，一个人很，一个人经常满，如的友推荐个地方，很有可从的推荐，但如是满的友推荐的地方，很有可。这个人可个推荐系统，的推荐结相，但用户可产的应，这是因为用户对有的度。对于基于机的自推荐系统，在度 trust 的题，如用户推荐系统，用户和推荐系统的交互。是在电子商务推荐系统中，用户对推荐结产参 Guy Shani和 Asela Gunawardana的 Evaluating Recommendation Systems 。参 Yuan Cao Zhang、Diarmuid Ó Séaghdha、Daniele Quercia和 Tamas Jambor的Auralist:introducing serendipity into music recommendation. 。参 Tomoko Murakami、Koichiro. Mori和Ryohei Orihara的 Metrics for evaluating the serendipity of recommendation lists 。
47.1.3 31 是非常要的。的推荐结，用户广告的方法推荐给用户可很的方推荐给用户用户产的意。用户产，1 度推荐系统的度的方，用户是推荐系统的推荐结。因为本书的如高推荐系统度的题，因此这介绍一如高用户对推荐结的度，关于度的一些现。高推荐系统的度主要有种方法。要推荐系统的度 transparency ， 2 推荐系统度的主要法是推荐。有用户了推荐系统的行机，用户推荐系统的行机，高用户对推荐系统的度。是考用户的社交网络，用用户的好友给用户推荐，并且用好友进行推荐好友一比较，因此如推荐的商品是好友的，。这是因为用户对的对推荐结相对比较 3 。关于推荐系统度的主要中在评论网 Epinion的推荐系统上。这是因为Epinion 了一用户的系统用户的关系，用户是当用户对一个商品的评论。如 1-27 ，当用户在Epinion上一个商品，用户评论 4 是该商品。Epinion为了评论者广告评论用户的决，在用户评论的了评论作者的，并且用户是该评论人还是名。如网具有Epinion的用户系统，可在给用户推荐，推荐的用户评论的品。 4 5 5 取自Epinion网站，图中相关内容的著权著权人 6 1-27 Epinion的系统参 Henriette Cramer、Vanessa Evers、 Satyan Ramlal、 Maarten van Someren、Lloyd Rutledge、 Natalia Stash、Lora Aroyo和Bob Wielinga的 The effects of transparency on trust in and acceptance of a content-based art recommender 。 7 参 Paolo Massa和 Paolo Avesani的 Trust-aware recommender systems 。
48.32 1 的 8. 实在很网中，因为品、等具有很的性，要在品还具有性它推荐给用户。比如，给用户推荐天的然如给用户推荐今天的。因此，在这些网中，推荐系统的实性得至关要。推荐系统的实性包括个方。，推荐系统要实地推荐满用户的行为化。比如，当一个用户了iPhone，如推荐系统给推荐相关，比天给用户推荐相关有价值。很推荐系统在天计算一用户推荐，然于在推荐给用户。这种设计然是法满实性的。与用户行为相应的实性，可推荐的化率评测。如推荐在用户有行为化大，者没有化，推荐系统的实性高。实性的个方是推荐系统要系统的品推荐给用户。这主要考了推荐系统理品的。关于如系统的品推荐给用户，本书在的进行论，对于品推荐，可用用户推荐中有大比的品是当天的评测。 9. 一个的算法系统被人，这方的子是搜索。搜索的作和作常，这是因为如自己的商品为搜索的一个搜索，大的商业。推荐系统也了的作题，性 robust, 性指标了一个推荐系统作的。 2011 的推荐系统大有一个关于推荐系统性的程。作者总结了很作方法，中名的是行为 profile injection attack 。，大部分推荐系统是分析用户的行为实现推荐算法的。比如，亚马逊有一种推荐商品A的用户也经常的商品。它的主要计算方法是统计商品A的用户商品的。，可很地这个算法，自己的商品在这个推荐中得比较高的名，比如可很，用这些 A和自己的商品。还有一种主要对评分系统，比如的电评分。这种很，是用一人给自己的商品非常高的评分，评分行为是推荐系统的要用户行为。算法性的评测主要用。，给一个和一个算法，可用这个算法给这个中的用户推荐。然，用常用的方法中，然用算法在的上给用户推荐。，比较推荐的相度评测算法的性。如的推荐相对于没有发大的化，算法比较。在实系统中，高系统的性，了性高的算法，还有方法。参 Neil Hurley的 Tutorial on Robustness of Recommender System ACM RecSys 2011 。
49.1.3 33 设计推荐系统使用价比较高的用户行为。比如，如有用户行为和用户 1 行为，主要应该使用用户行为，因为要，行为的价大于行为。在使用，进行测，从对进行理。 10. 目标很，网评测推荐系统网的商业标是，商业标和网的 2 是相关的。一，本的商业标是一个用户给公司的。这种指标是很计算，是计算一要比较大的价。因此，很公司自己的设计的商业标。的网具有的商业标。比如电子商务网的标可是，基于广告 3 的网商业标可是广告总，基于广告的网商业标可是广告总。因此，设计推荐系统要考的商业标，网使用推荐系统的的了满用户发现的，也要用推荐系统实现商业上的指标。 11. 本了很指标，中有些指标可 4 计算，有些在得。但是，指标很，在指标也很，如优化指标高在指标是推荐系统的要题。关于这个题，然没有论，是系统的人员有的性。 1-3对的指标进行了总结。 4 1-3 评测标的实问实用户满意度预测准确度 5 覆盖率多性新性喜度 5 对于可优化的指标，个人的法是应该在给覆盖率、性、性等，优化测准度。用一个公，实的优化标是：大化测准度 6 使得覆盖率 > A 性>B 性>C 中，A、B、C的取值应该视的应用。 7
50.34 1 的 1.3.3 评测上一介绍了很评测指标，但是在评测系统中还要考评测度，比如一个推荐算法，虽然性好，但可在种性比较好，评测度的的是一个算法在性好。这可为推荐算法取得好的性参考。一，评测度分为如 3种。用户主要包括用户的人统计、度是是用户等。包括品的性、流行度、分是是的品等。包括，是作还是，是白天还是上等。如在推荐系统评测告中包度的系统评测指标，地了推荐系统性，一个上比较的算法的优，发现一个上比较的算法的。
51.2第章 2.1 数 35 1 2 为了推荐结用户，要》中，行，也是可了用户。如了一个人《论公用户的文和行为了用户兴趣和。 3 实现个性化推荐的理是用户在的主告，但这种方法有个：，现在的自然理技很理用户用述兴趣的自然；，用户的兴趣是化的，但用户地兴趣述；，很用户并自己，者很用述自己。因此，要算法自发用户行为，从用 3 户的行为中推测出用户的兴趣，从给用户推荐满兴趣的品。基于用户行为的应用实在个性化推荐系统经在互联网上非常流行了，中的是各种各的行。这些行包括行和行等。这些行应用基于的用户行为统计，但它在互联网上得了很用户的。因此，用户 4 行为的分析是很优秀产品设计的基础，个性化推荐算法对用户行为的度分析，可给用户好的网使用。用户的行为是机的，是很。一个的子，在电子商务网中，网一个，电子商务网，至统业的包括了一分析务，比如的有商品。分析是很可分析些商品出现 5 在中。这名的子是和的子，这个子是的经。这个有非常的本，至有人为这个本是一个。还是用这个一用户行为分析的要性。这个的一个本是，有一个人员发现很人和，为是很要在家子，自己的， 5 在的一自己的，于是这个马相的这产联系了。于是作人员和在了一个上，结这种商品的上了。人这个有的理，从算法设计人员的度，这个用户行为中很是些，从为产品的设计的，个性化推荐算法的务是指导，高用户。计算机发现这 6 和的在互联网上被发大。电子商务公司分析用户的，出如 A商品的用户 B商品这种，在用户 A商品为 A商品的用户的商品如 2-1 。 7
52.36 2 数取自当当网，中相关的作 2-1 当当网在用户《还的书作人有导论》给用户推荐本商品的基于用户行为分析的推荐算法是个性化推荐系统的要算法，一这种的算法称为算法。名义，是指用户可，地和网互，使自己的推荐自己兴趣的品，从满自己的。 2.1 用户行为数据本的个性化推荐算法是基于用户行为分析设计的，因此本介绍用户行为。用户行为在网上的在是。网在行程中产大 raw log ，并在文系统中。很互联网业务种用户行为总话 session log ，中个话一用户行为和对应的服务。比如，在搜索和搜索广告系统中，服务为一个 impression log ，中了和结。如用户了个结，这个被服务并在 click log 中。一个并行程性地并和，得的话中个是一个用户交的、得的结。地，推荐系统和电子商务网也总述用户行为的话。话常在分中，如分析的 Hadoop Hive和在分析的Google Dremel。这些了用户的各种行为，如在电子商务网中这些行为主要包括网、、、评分和评论等。用户行为在个性化推荐系统中一分种 explicit feedback 和 implicit feedback 。性行为包括用户对品好的行为。 2-2 了网性的方。可，这的主要方是评分和 / 。很网使用了5分的评分系统用户对品的好，但也有些网使用的者
53.2.1 数 37 用户的兴趣。这些的性方各有。YouTube 是用5分评分系统 1 性的，但的人员统计了评分的评分，结发现，用户常用的评分是5分，是1分，的分很有用户。因此， YouTube 评分系统了评分系统 / 。当然，这个子并是试一种评分系统比一种好，是要的网 YouTube的用户主要要自己的设计评分系统，在视频上，因此有在是一满者网的设计。满意评分， 2 因此评分系统了。但如是评论网，用户主要在评论上，这评分系统是要的。 3 3 4 分取自Hulu 、Netflix、Jinni、Pandora、Facebook和Clicker网，中相关的作作人有 2-2 各种性和性行为相对应的是性行为。性行为指的是些应用户好 5 的行为。具性的性行为是行为。用户一个品的并用户一这个的品，比如可因为这个在，用户它。相比性，性虽然，但大。在很网中，很用户至有性，没有性。 2-1从个方比较了性和性。 5 用户兴趣数量存储实时读取反馈 2-1 数据数据的数据确较数据实时数据不确大 6 分布式文件系统反馈 7 参 Five Stars Dominate Ratings ，地为http://youtube-global.blogspot.com/2009/09/five-stars-dominate-ratings.html。
54.38 2 数的性分，用户行为可分为可分为和。指用户的行为行为于指用户该品。在性中，很在性行为中，相对比较。为了好地是性，网中这种行为的子。性和性，但于指用户该品，分一个用户行为是是性， 2-2 2-2 网数据数据的例的方分，指用户的还是，了各个领域的视频网站电子商务网站门户网站音乐网站用户对视频的评分用户对商品的评分用户对新的评分用户对音乐/歌手/专辑的评分用户观看视频的购买、浏览阅读新的歌的、浏览视频页面的互联网中的用户行为有很种，比如网、商品、评论、评分等。要用一个统一的方有这些行为是比较的。 2-3给出了一种方，它一个用户行为为6部分，产行为的用户和行为的对、行为的种、产行为的上文、行为的和。 user id item id behavior type context behavior weight behavior content 2-3 用户行为的统产生行为的用户的一标产生行为的对的一标行为的种类（比是购买还是浏览）产生行为的上下文，包时间和地点行为的权重（果是观看视频的行为，这个权重可以是分数）这个权重可以是观看时长果是打分行为，行为的内容（果是评论行为，是评论的文本果是打标签的行为，是标签）当然，在很并使用统一结有行为，是对的行为给出。且，有些可一些比如上文。当然，有些是的，比如产行为的用户和行为的对是有行为包的。一，的包的行为，比较有性的有个。上下文信息的数据一行为包用户 ID 和品 ID 。 Book-Crossing 是这种的。上下文信息的数据一包用户ID、品ID和用户对品的评分。上下文信息的数据一包用户ID、品ID和用户对品产行参 Book-Crossing Dataset ，地为http://www.informatik.uni-freiburg.de/~cziegler/BX/。
55.2.2 39 为的。Lastfm 上下文信息的是这种的。 1 数据一包用户ID、品ID、用户对品的评分和评分行为发的。Netflix Prize 的是这种的。本使用的基本是一种，上文的性。 2.2 用户行为分 2 在用用户行为设计推荐算法，人员要对用户行为进行分析，了中的一，这对算法的设计指导作用。本介绍用户行为中的一，这些并是在于一个网中的，是在于很网中的。3 2.2.1 用户行的分很关于互联网的发现，互联网上的很分满一种称为Power Law 的分，这个分在互联网领域也称。 3 f (x) D xk 分实很被统计家意了。1932 ，大的家Zipf在文的频发现，如出现的频率由高，个出现的频率和它在行中名的常比。这个分称为Zipf 频实很，有很的被经常使用。。这个现，在文中大部分的 4 很人员发现，用户行为也这种。 fu(k)为对k个品产行为的用户， fi(k)为被k个用户产行为的品。，fu(k)和fi(k) 满分。也是： fi k Dik Ei fu k Duk Eu 5 为了用户行为的分， Delicious和CiteULike 一个的进行分析。这，没有用Netflix 者MovieLens 是因为这个经了人为的理，被了很 CiteULike 的，它的分中品流行度的分。网的实分。 2-3 了Delicious和标是品的流行度K，标是流行度为K的 5 品的总。这，品的流行度指对品产行为的用户总。 2-4 了Delicious和 CiteULike 中用户度的分。标是用户的度K，标是度为K的用户总。这，用户的度为用户产行为的品总。 6 参http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-1K.html。参http://netflixprize.com/。 7 参网络的Power Law现，地为http://mmdays.com/2008/11/22/power_law_1/。
56.40 2 数 2-3 品流行度的分 2-4 用户度的分这是对，分在对上应该。这中的的，从是品的流行度还是用户的度，于分，是品流行度的对，非常。
57.2.3 和 41 2.2.2 用户行的系 1 一，的用户要是用户，要是网一的用户。，度的用户的品的流行度是有一为，用户于的品，因为对网还，的品，用户开的品。 2-5 了MovieLens 中用户度和品流行度的关系，中标是用户度， 2 标是具有个度的有用户评分的品的流行度。如 2-5 ，中的，这用户，于的品。 3 3 4 2-5 MovieLens 中用户度和品流行度的关系 5 基于用户行为设计的推荐算法一称为算法。对算法进行了，出了很方法，比如的 neighborhood-based 、 latent factor model 、的 random walk on graph 等。在这些方法中，名的、在业得广泛应用的算法是基于域的方法，基于域的方法主要包 5 种算法。用户的这种算法给用户推荐和兴趣相的用户的品。的这种算法给用户推荐和的品相的品。介绍上种算法，然介绍义和基于的。 6 2.3 实评测文，评测推荐系统有3种方法实、用户和在实。本实方法评测的算法。介绍用的，然介绍采用的实方法和评测指标。 7
58.42 2 数 2.3.1 数据本采用GroupLens 的MovieLens 介绍和评测各种算法。 MovieLens 有3个的本，本用中等大的。该包 6000 用户对4000 部电的100 评分。该是一个评分，用户可给电评5个等的分 1 5分。本中的TopN推荐题，因此了中的评分。也是，TopN推荐的务是测用户对部电评分，是测用户在准对部电评分的给电评分。 2.3.2 实算法的实一如设计。，用户行为分机分 M 本取M=8 ，一作为测试，的M-1 作为。然在上用户兴趣，并在测试上对用户行为进行测，统计出相应的评测指标。为了评测指标并是的结，要进行M 实，并且使用的测试。然 M 实测出的评测指标的值作为的评测指标。的Python 述了机分和测试的程： def SplitData(data, M, k, seed): test = [] train = [] random.seed(seed) for user, item indata:if random.randint(0,M) ==k:test.append([user,item])else:train.append([user,item]) return train, test 这，实得 M个的标。这主要是，为了取的k 0 k M1 和相的机种子seed，进行M 和测试，然分进行实，用M 实的值作为实的结是的结 over fitting ，但如实地算法，也可进行一实。实可的评测指大， 2.3.3 评测标对用户u推荐N个品为R(u) ，用户u在测试上准率/ 率评测推荐算法的度： ¦ R(u) T (u) Recall = u ¦ T (u) u 的品为T(u)，然可http://www.grouplens.org/node/73。
59.2.3 和 43 率述有的推荐中有的计算方法。 ¦ R(u) T (u) Precision = u ¦ R(u) u 比的用户品评分包在的推荐比是发的用户品评分。 1 中，准率述给出了率和准率 2 def Recall(train, test, N): hit = 0 all = 0 for user in train.keys(): tu = test[user] 3 rank = GetRecommendation(user, N) for item, pui inrank:'>rank:

推荐系统实践 项亮

推荐系统实践项亮