范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

一文教你,如何构建推荐系统?

  推荐阅读:Redis+Nginx+设计模式+Spring全家桶+Dubbo阿里P8技术精选文档一级棒!高并发+微服务架构+Docker+k8s再也不怕被问倒了!阿里架构师强推:JVM+多线程+Kafka+Redis+Nginx等实战电子版书籍1.概述
  最近有被咨询到一些关于推荐系统的问题,今天笔者将为大家分享一些关于如何构建一个推荐系统。2.内容2.1 什么是推荐系统?
  推荐系统是一种信息过滤系统,它旨在预测用户对某项商品的评价。然后,此预测的评分用于向用户推荐商品。预测评分较高的商品将推荐给用户,这个推荐系统用于推荐范围广泛的项目。比如,它可以用于推荐电影、产品、视频、视频、音乐、新闻、书籍、衣服、游戏、酒店、餐饮、路线等等。几乎所有的大公司都使用它来增强业务,丰富用户的体验,例如腾讯、优酷、爱奇艺这类推荐视频,淘宝、京东推荐商品,微信、QQ推荐好友等。2.2 USER-ITEM矩阵
  在上图中的USER-ITEM矩阵中,每一行代表一个用户,每一列代表一个物品,每一个单元格代表一个用户对一个物品的评分。总共有N个用户和M和物品。这里Aij是用户Ui对物品Ij的评分,Aij级别范围这里定义为1到5。如果一个矩阵表示一个用户Ui是否观察了一个物品Ij,同样也可以使用二进制来表示,例如这里Aij要么是0,要么是1。
  USER-ITEM矩阵是非常稀疏的矩阵,这意味着此矩阵中的许多单元格都是空的。因为,单个用户无法对所有的物品进行评分。在现实情况中,一个用户给总物品数的评分不到1%。因此,这个矩阵中大约99%的单元都是空的。这些空单元格可以使用NaN表示,而不是数字。假如,N是100万,M是1万,那么N*M=106*104=1010就是一个非常大的数字。现在一个普通用户给5个物品打分,那么平均给出的评级总数将是5*100万=5*106评级。矩阵稀疏度计算公式如下:矩阵稀疏度 = 空单元数 / 总单元数
  将案例中的值带入公式计算,矩阵稀疏度 = (1010-5*106) / 1010 = 0.9995
  这意味着99.95%的单元格都是空的,这实际上是极端稀疏的。而推荐系统的任务是,假设一个用户Ui喜欢物品I1、I5、I7。然后我们必须向用户Ui推荐一个他/她最可能喜欢的Ij物品。2.3 推荐系统类型
  下面我们通过一些例子来理解推荐系统的类型。2.3.1 协同过滤
  假设有4个用户和4个物品如上图所示,4个用户都购买了物品1和物品2。用户1、用户2、用户3也购买了物品3,但是用户4还没有看到物品3.因此,物品3可以推荐给用户4,现在只有用户3购买了物品4,因此,我们不能向用户4推荐物品4,因为只有用户4购买了物品4,而其他用户没有购买物品4,这就是协作过滤的工作原理。注意: 在这里,用户1、用户2、用户3,这三个用户过去都统一购买了物品3,因此在未来用户4可能会喜欢物品3,这是用户1、用户2、和用户3过去对物品3的统一喜好
  2.3.2 内容过滤
  基于内容的过滤在方法上与经典的机器学习技术相似。它需要一种表示物品Ij和用户Ui的方法。在这里,我们需要收集关于物品Ij和用户Ui的信息,然后我们需要创建物品Ij和用户Ui的特性。最后,我们将这些特征结合起来,并将它们输入到机器学习模型中进行训练。这里Label是用户Ui对物品Ij给出的评分。
  一旦我们有了上面提到的关于物品和用户的信息,我们就可以创建一个物品向量,其中应该包含关于上面提到的物品信息。然后,我们可以类似的创建一个用户向量,该向量应该包含关于上述用户的信息,我们可以为每个用户Ui和物品Ij生成特性。最后结合这些特性,建立适合于机器学习模型的大数据集。注意: 在这里,刚刚解释了一种创建基于内容的过滤特性的近似方法。这些功能应经过精心设计,以便在不相互依赖的情况下直接影响评分(标签)。最后尽可能创建独立的功能,同时它们应该非常依赖于评分(标签),这意味着它们应该直接影响评分(标签)。
  2.3.3 相似过滤2.3.3.1 用户相似
  上图是一个非常简单的基于用户相似的推荐。实现步骤如下:
  第一步:构建用户与用户之间的相似矩阵
  如上图,每一行代表一个用户,其中包含一个用户对所有物品给出的评分。例如,对应于用户Ui的行是大小为m的向量。因此,上述矩阵的每一行都是一个列向量(默认情况下,每个向量都是列向量),大小为m。现在,我们可以构造一个用户之间的相似矩阵,它将是一个大小为n*n的平方对称矩阵,在这里,我们可以使用余弦相似度计算两个用户之间的相似度。
  在这里,两个用户将是相似的基础上,他们给出了相似的评分。如果任何两个用户是相似的,那么这意味着他们都对物品给出了非常相似的评分,因为这里的用户向量只不过是USER-ITEM矩阵的一行,而该行又包含了用户对物品给出的评分。因为余弦相似度可以从0到1,并且1表示最高相似度,所以所有对角线元素都将是1,因为用户与用户之间的相似度最高。这里Sim12是用户U1和用户U2的相似性得分。以此类推,Simij是用户Ui和用户Uj的相似性得分。
  第二步:找到相似用户
  第三步:选择相似用户喜欢的物品
  第四步:推荐物品2.3.3.2 物品相似
  第一步:创建物品之间的相似矩阵
  在这里,两个物品将在所有用户对两个物品给出相似评分的基础上相似。如果任何两个物品是相似的,那么这意味着所有用户对它们都给出了非常相似的评分,因为这里的物品向量只是USER-ITEM矩阵的列,而USER-ITEM矩阵的列又包含用户对物品的评分。因为余弦相似度可以从0到1,并且1表示最高相似度,所以所有对角线元素都将是1,因为具有相同项的相似度最高。这里Sim12是用户I1和用户I2的相似性得分。以此类推,Simij是用户Ii和用户Ij的相似性得分。
  第二步:找出相似的物品然后推荐2.3.4 矩阵分解
  关于矩阵分解是比较有意思的,这里我们可以来看看一个计算公式:
  这里以日常生活中的电影来作为例子。例如,每个用户看电影的时候都有偏好,这些偏好可以直观的理解成:喜剧、动作、爱情、动漫等。特性矩阵(用户)表示的就是用户对这些因素的喜欢程度。同样,每一部电影也可以用这些因素描述,因此物品矩阵表示的就是每一部电影这些因素的含量,也就是电影的类型。这样子两个矩阵相乘就会得到用户对这个电影的喜欢程度。3.总结
  推荐系统的类型,简要概述如下:协同过滤:简单来说,就是利用某兴趣相投,拥有功能经验的群体喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的评分,并记录下来以达到过滤的目的,进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的记录也是相当重要。内容过滤:通过在抓取每个物品的一系列特征来构建物品档案,以及用户购买的商品特征来构建基于内容的用户档案。用户档案和商品档案都以使用信息提取技术或信息过滤技术,提取的关键词集合来表示。鉴于两个档案都以权重向量的形式来表,则相似度分别则可以使用如余弦近似度方程等启发式方程来计算得到。其他的技术如分类模型,构建一个统计方法或者数据挖掘方法,来判断文档内容和用户是否相关。相似过滤:找到和目标用户兴趣相似的用户集合,以及找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户(基于用户相似)。计算物品之间的相似度,以及根据物品的相似度和用户的历史行为给用户生成推荐列表(基于物品相似)。矩阵分解:简单来说,就是每一个用户和每一个物品都会有自己的一些特性,用矩阵分解的方法可以从评分矩阵中分解出用户(如特性矩阵、物品矩阵)。这样做的好处其一是得到了用户的偏好和每一件物品的特性,其二是分解了矩阵的维度。4.结束语
  这篇博客就和大家分享到这里,如果大家在研究学习的过程当中有什么问题,可以加群进行讨论或发送邮件给我,我会尽我所能为您解答,与君共勉!

真长脸!吉利星瑞一季度卖出35795辆,标配2。0T是精髓这几年,国产汽车品牌都在SUV车型上尝到了甜头,也因此忽视了轿车的研发,只有长安逸动和吉利帝豪在苦苦支撑国产紧凑型车的颜面,但这两款车也都是以价换量,产品力与合资车型还是有一定差距17。68万起售,国产小钢炮的代言人,解析领克02Hatchback高尔夫GTI算是最经典的小钢炮车型,甚至被粉丝们称为钢炮界的图腾,它在国内也很受欢迎,应该是保有量最大的小钢炮,但是现在高尔夫GTI该有点压力了,它的地位很可能被一台国产小钢炮给取小米新款男人ampampquot百变机ampampquot,拒绝30分钟,释放双手,男人太实用现在的广东,天气就像女朋友的脸一样,说变就变。尤其这回南天,晒个衣服都是霉臭味,每天都挨骂。为了让自己好过一些,鸡哥打算入手个烘干机,没事还可以当个玩具玩玩。于是到经常逛的小米旗下ampampquot重回ampampquot中国市场?亚马逊6月停止加薪,网友8亿美元没了?特殊时期,电商亚马逊为了让员工能继续分拣打包和投递订单商品,两次上调员工工资,共斥资近8亿美元实施额外激励措施。但日前外媒报道,亚马逊将在6月份停止给仓库员工加薪。不得不说这个时期顶配不到10万,续航超400公里,半小时快充,简评欧拉黑猫虽说传统燃油车还是目前市场占有率最高的品类,但很多车企已经将研发方向转移到了新能源车型上,长城汽车就成立了欧拉这个子品牌,专门研发和生产纯电动车,并且欧拉推出的车型都很亲民,下面解韩系车的寒冬,现代索纳塔和起亚K5凯酷全面溃败,月销不足千台曾几何时,韩系车在国内也算是一线合资品牌,经典车型频出,和日系品牌也能做到势均力敌,但时过境迁,这几年韩系车的市场表现可以用惨淡来形容,整体销量持续下滑,已经逐渐退出了合资品牌的第这个夏天,必打卡的水乐园梦幻谷饕鬄狂欢盛宴炸!翻!天一票畅玩30余项水陆游乐夏日炎炎,怎么能离得了水呢水世界里,造浪池大喇叭高空滑道大舟冲浪清凉嬉水的同时,也要嗨翻尖叫!1hr亚丁风暴刺激指数高达15M大喇叭形状的滑梯,挑战天翻地覆极氪0014月15日正式发布极氪,英文名ZEEKR,定位为潮流科技品牌。官方解读为,极,意为极致,代表对产品极致性能用户极致体验毫不妥协氪,化学元素Kr,是放电时发光的稀有气体,代表电驱智能时代的科技符号。Z十来万的车就别看合资品牌了!吉利帝豪S不香吗?标配1。4T发动机在国内汽车市场,合资二字是带有信仰加成的,即使国产车做得再好,在合资党眼中也是低档货,其实理性的想一想,十来万的合资车能有什么面子?十来万又能得到什么?这个价格还是国产车更香,比如釜底抽薪?台积电抛弃华为,超越英特尔,两天市值飙升5000亿大家知道,作为世界上最大最先进的芯片代工厂,台积电在芯片市场上可以说是称霸地表的存在。对此,很多人都说,只要世界不出更大的乱子,可预见的时间内,芯片继续改变世界这件事,完全就是台积性价比超小米?199元男人神器媲美1999元体验,米粉是我输了身为一个每天凌晨才下班的卑微新媒体小编,我时常都会觉得自己头顶泛绿。因为我发现最近想要亲女朋友的时候,她总是一脸的不乐意,俗话说事出反常必有妖,为了自己的终生大事,我决定一探究竟。
怎么保持iPhone的电池健康?若此回答有用,欢迎大家右上角关注文末点赞评论随着手机的性能越来越高机身做的越来越薄屏幕也越来越大AI智能也越来越先进摄像头也越来越清晰触摸手感也越来越丝滑,但是电池好像却没有非常大中国各行业的龙头品牌,巅峰时全国闻名,为何很多都销声匿迹了?我个人印象中最深刻的应该是波导手机与春兰空调!记得2000年的时候那一年我才10多岁,第一次进城,因为之前10多年的我都是在农村生活长大,去过最远的地方也只是离我山村老家10公里远苹果为什么一直保留静音键?实体静音按键绝对是一个非常非常实用的存在,我暂时还想不出有什么更优秀的设计可以取代它。它的优势在于1一次操作全局静音,而且可以盲操。相比之下没有实体按键,需要解锁下拉状态栏点击静音前沿蓝绿厂终于有名分了!vivoOPPO完成蓝绿厂商标注册还记得很早之前OPPO和vivo因为logo颜色被大家称为绿厂和蓝厂,现据最新消息,蓝绿大厂的绿厂蓝厂有名分了,即不再是外界的戏称,而且官方认领注册过的商标。如上图所见,维沃移动通凭实力捡漏,这两款骁龙870手机才是真旗舰,价格都在两千内年底换机是个不错的捡漏时机,可捡漏只看降价,那你就错了。的确降价幅度的高低是吸引消费者掏腰包的一个重要指数,但不排除有些产品是因为前期定价虚高才降价多的。因此,同样是降价两百,不同西南交通大学电气工程学院获批国家重点研发计划交通基础设施重点专项2021年度项目近日,科技部高技术研究发展中心公示了国家重点研发计划交通基础设施重点专项2021年度拟立项项目,西南交通大学电气工程学院高仕斌教授主持的轨道交通网源储车协同供能技术项目获批立项,立新的支付方式来了,国家正式出手了,下年3月1号开始实施目前来说,人们的日常消费的方式已经基本普及了电子支付,也就是微信和支付宝。现在很多人都是在表示自己是活在电商的发展下。一开始,微信和支付宝的推出还没有受到玩家的广泛使用,但是随着现2022十大自动驾驶趋势出炉数据智能体系成为自动驾驶商业化闭环关键?21世纪经济报道记者杜巧梅北京报道2022年将是自动驾驶行业发展最为关键的一年,乘用车辅助驾驶领域的竞争将会正式进入下半场,其他场景的自动驾驶也将正式进入商业化元年。12月23日,已有17家险企官宣暂停互联网业务13精周报已有17家险企官宣暂停互联网业务中国银保信发布上半年保险服务质量指数结果,为国内首次由独立第三方机构发布13精周报一周新闻速览13精精评保险中介第一股泛华金控第二次私有化公司创始人数字化的十二个坑(三)数字化建设偏离了核心业务数字化必须支撑企业的核心业务,基于业务的战略蓝图,规划数字化系统的架构,确定支持核心业务的核心应用,才能解决企业的真正痛点。许多企业不明确自己的核心应用,盲目地推进数字化,数字化的Dataphin核心功能每年节约数亿元,数据中台资源治理怎么做的?资源成本暴涨与阿里巴巴的应对之道数智时代,海量的数据为业务创造了巨大的价值,但同时也带来了不断上升的计算成本和存储成本,甚至会出现IT成本增速大于业务增速,赚来的每一分钱都用在了购