范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

大数据下的用户画像和标签体系构建

  今天谈下对大数据下的用户画像和标签体系构建的一些关键点思考,对于用户画像和标签体系构建实际上网上已经有很多相关的历史文章可以参考,今天文章这篇文章不会系统地去谈整体的构建方法步骤,而是搞清楚里面的一些关键逻辑。
  什么是用户画像?
  简单点来说用户画像是根据用户的静态基本属性和动态行为数据来构建一个可标签化的用户模型。对于静态属性包括了类似个人基本信息(地域,年龄,性别,婚姻),家庭信息,工作信息等;而动态属性则包括了学习,工作,生活,娱乐,社交活动等产生的各种动态行为,但是对于电商平台来说一般主要聚焦在用户的购买行为,点击行为,浏览,评论,营销活动参与行为,退换货行为,支付行为等上面。
  那么用户的静态和动态属性信息和标签有啥关系?
  实际上对于用户年龄,职业,地域,婚姻情况等都是用户的标签,但是这些标签更多的是在陈述用户的基本事实信息,因此也被称为事实标签。还有一类标签,类似白领,潮流一族,高频用户,追求性价比等,这些标签不是简单对用户静态属性,或单次动态属性的描述,而往往是经过大量的用户静态和动态行为属性经过抽象后形成的一直抽象标签。
  比如一个用户经常购买团购或秒杀区的商品,那么我们可能会给用户打一个价格敏感型的标签。或者说用户经常购买电子类的新品发售,那么我们可能要给用户打要给数码潮人的标签。或者我们发现用户最近开始购买类似某个品牌汽车的类似脚垫,汽车清洁用户等商品,那么我们可以推断给用户打上有车一族的标签。
  为何要给用户画像并标签化
  简单来说用户画像和标签化还是为了针对性营销的需要。任何一个商品,当进入到市场营销推广阶段的时候一定有其明确的目标用户群体,比如一个母婴类商品,在推入市场后明确的市场定义和用户群体细分为,面向:二胎家庭 + 高收入 + 价格不敏感 + 上班族
  这个是商品本身的细分市场这个策略上面的每一个定位点实际上本身就是用户画像中的标签。那么当我们对所有的用户进行标签化后,我们就很容易进行匹配。
  上面列的标签和用户画像库中的匹配度越高,往往营销的针对性也就越强,越是你需要最终关心的目标用户。比如一个用户的标签库模型和上面的四个点都匹配,那么在进行针对性推荐的时候购买行为达成的概率也就越高。
  如果一个用户二胎家庭 + 高收入 + 上班族这三个标签都慢点,但是属于价格敏感型用户,那么我们完全就可以考虑在进行团购,秒杀的时候针对性推荐。
  基于大数据分析的用户画像,实际要理解是可以从两个不同的切入点进入的。其一是基于单个用户,如张三进行用户画像。
  其二是针对某个商品,对其历史购买群体进行用户画像
  某个商品的历史购买群体形成的用户画像,实际i上本身就是商品的目标用户群体。那么拿着这个画像区和第一种单个用户的画像库中的标签进行匹配分析。针对性营销的关键可以理解为这种匹配度。
  数据采集和模型构建
  前面已经谈到对于用户数据的采集分为了静态属性数据和动态行为数据。
  对于静态属性数据往往在用户进行注册的时候就完成了初步的采集,当前在用户实名制注册情况下可以采集到用户身份证号,婚姻情况等更进一步的信息。当用户的一些静态属性仍然可以通过个人的一些行为数据进行推测。比如用户构建大学辅导书籍,邮寄到学校地址等,往往可以进一步推测用户是一个大学生。
  对于用户的动态行为往往就比较多了,动态行为数据不是简单的购买行为和购买订单,更加重要的是用户浏览行为,搜索行为,点赞,评论,转发,添加购物车等各种行为数据。这些动态行为数据往往才能够为分析推断起到关键作用。
  比如用户最近一直在搜索婴儿车,尿不湿,奶瓶等商品,即使没有发生购买行为,你也可以推断出用户家里即将有刚出生的婴儿这个核心标签。
  也就是说对于大部分运营平台,上面就是一个最简的数据采集模型,你可以采集用户和商品的基础属性信息数据,同时采集用户在APP或网站上发生的购买,浏览,搜索等动态行为数据形成一个最基础的原始数据库。
  当谈大数据的时候,实际不仅仅是谈数据的多样性和大数据量,更加重要的是数据的关联性。用户和用户的关联性,即我们常说的用户社交属性信息;而商品本身也有商品的关联性,商品A可以是商品B的一个子类,同时也和商品C同时属于某一个商品类型等。
  大数据分析的重点往往正是在于这种由人到物,由物到人形成的复杂关系网络。
  简单来说就是当我们对用户,商品两者的关系进行扩展后,将形成一个完整的静态关系+动态行为网络结构。这个网络结构有点类似于我们前面谈到的知识图谱和语义图。
  为何要作这种扩展?
  简单来说即使通过关系扩展后,将形成更多可以追溯,可以关联,可以聚类的点。才有可能进行更多的数据建模并进行推理。
  数据模型和数据聚类
  常用的数据模型包括了自然语言处理和分析,回归模型,聚类模型,文本挖掘和机器学习等。在模型构建前有个重点就是数据本身的检验(回答数据本身是否准确可靠),数据的相关性分析等。
  要注意进行用户画像的时候,可能针对的是一个用户群体,也可能针对的是一个具体的用户群体。比如我们可以对月均消费金额>1000元,消费次数>2次的用户群体进行画像,得到这个群体的年龄分布,学历分布,地域分布等;其次我们也可以对张三这个特定用户进行画像,给出他是小孩,动漫迷,音乐发烧友等标签。
  由个体到群体是进行聚类的基础,即我们可以通过大量的个体行为数据,基于某些关键维度进行聚合,通过聚合得出以下大的归类。比如对耳机类商品购买,通过聚类分析后可能得出发烧+品质型,尝鲜型,价格敏感型等关键分类。
  对于聚类完成后我们还需要进一步对聚类的抽象用户进行画像说明,比如对于发烧型抽象用户群体特征:20岁以下,学生,喜欢日系品牌,2000价格区间等。
  聚类最终的结果将可用于针对性营销,类似当我们推出一个发烧耳机的时候我们就知道推送给哪些用户,或者当我们有大的促销优惠的时候应该推送哪些用户等。
  大数据下的用户画像
  对于大数据下的用户画像实际上前面已经谈到,核心就是对用户进行标签化或图谱化处理。这个标签可以是简单的事实标签,那么不需要建模,也不需要推理。
  但是更多的是抽象标签,需要进行模型建设和推理。
  下面梳理下识别和分析维度的过程简单来说对于电商大数据分析中的用户画像,其核心的展开逻辑应该是如此的,即是:用户购买或希望购买某一个商品。
  可以看到我们所有的用户分析的维度展开均是基于上面这句话展开,可以看到两个静态的对象(用户,商品)通过购买或潜在购买行为发生了关系和链接。那实际维度展开过程即:
  a.用户基本属性先展开第一层
  包括了性别,年龄,区域,婚否,工作还是学生,年收入,是否有小孩,是否有车,电话号码等。(第一层展开里面会出现问题,即有些基础数据我们没法收集到,比如是否有车?那么我们可以从用户购买行为来反向推测用户是否有车)。
  第一层展开后涉及到第二层的展开,比如区域,区域本身又是一个树状对象,可以作为展开和分析的维度。通过手机号我们可以分析出运营商,进入转到运营商维度。
  b.对于商品同样,可以先做第一层的展开
  商品本身有商品的类目,那么类目是一个重要的分析维度。即由商品类目构成的商品树状展开结构式商品的一个核心数据。即可以朝上进行类目聚合归纳,又可以向下进行演绎推理。其次,一个商品涉及到自营或其它的2B商家,那么就涉及到商家和品牌这些维度,这些维度同样也是可以进行展开的点。最后,任何一个商品本身还存在其它的关联类商品,商品关联往往是基于某些关键业务活动场景进行的组合。
  c.动态行为展开
  动态行为包括了购买行为和潜在购买行为,对于浏览,点评,放入购物车等都可以纳入潜在购买行为。实际上我们应该更加关注潜在购买行为,促使潜在购买转变为最终购买。
  一次购买就涉及到购买的时间,购买的地点,PC端还是移动端购买,购买的时候用的手机,购买的具体商品,购买的总金额,支付的方式,送货的方式,是否基于促销活动购买,是否使用打折券,退货或换货情况等。这些都应该纳入对动态购买行为的分析中。
  b.基于关系驱动的进一步分析
  前面已经谈到了静态的关系数据和动态的行为数据往往形成一张复杂的网络结构,这个网络结构本身可以用于聚合分析,关系推理等。
  比如当发现张三和李四购买订单的配送地址都是同一个公司地址的时候,你可以初步推理张三和李四实际是属于同事关系。
  再比如当你发现张三的所有同事关系都已经被动态行为属性和购买行为打上了某个标签的时候,你就可以考虑张三本身是否也可能存在类似的标签,虽然张三这个时候并没有通过自身的行为聚合出这个标签。
  用户全量行为数据的分散性
  在当前的互联网格局下,可以看到用户实际的大数据行为数据体现出明显的分散性。比如对于交通出行旅游等数据往往被类似携程,去哪儿网等采集存储;对于餐饮消费类似数据往往被大众点评存储;对于商品购买类往往体现在类似京东,天猫等电商平台;而对于强关系数据体现在电信运营商和微信,对于弱关系数据体现在类似微博等新媒体应用,对于个人民生类数据往往则存储在政府部门大数据中心。
  而实际要对一个用户进行完整的画像或行为数据,需要的不仅仅是单一数据,更加重要的是完全包括用户衣食住行各个行为特征的全量数据。如果谁能够真正获取到这种全量数据,往往才能够构建最精确的用户画像,对于各个用户来讲也是将个人隐私完全暴露,这也和你光天化日大街上裸奔没啥区别。
  试想,当我打开携程预定完出行机票或酒店的时候,进入到京东电商后一句再给你推荐你可能需要的出行装备的时候,这才是能够做到跨APP域的精确用户画像和推荐。
  所以对于大数据用户画像和标签构建已经不是一个简单的技术问题,更加重要的是用户行为和隐私数据的合法保护问题。

你是我的荣耀,一场假酒风波,为晶晶点赞,吐槽玉兔太直男你是我的荣耀在迪丽热巴和杨洋主演的你是我的荣耀中,晶晶和玉兔的浪漫爱情,真是让人羡慕。大明星乔晶晶因为王者荣耀,与中学时的初恋玉兔联系上了。游戏上的往来,让两人的感情迅速升温。不过北辙南辕冯希的情感悲剧,缘于女性不独立,生活中比比皆是冯小刚导演的北辙南辕引起了热议,因为剧中的人物和故事影射出了社会上的种种,其中冯希就是这样的角色。北辙南辕中的冯希冯希和李响有着十年的感情。她和李响走到一起时,李响还只是个大学生,北辙南辕说到理解,鲍雪要拍露背镜头,俞颂阳能同意吗?北辙南辕在冯小刚导演的北辙南辕中,鲍雪和俞颂阳这对恋人是很有缘分的。两人在海南只是偶然相遇,当两人在北京再次相遇时,那就是缘分了。北辙南辕中俞颂阳和鲍雪争吵鲍雪是个很相信缘分的女人网传大s婚变的同时,小s建议大家不要轻易结婚01hr台湾媒体今天各大新闻都在报道,称大s和汪小菲离婚了!没过多久社交媒体就炸了,广大群众纷纷猜测原因。但奇怪的是,台媒报道大s称正在办理离婚手续,汪小菲向新浪对于离婚事件则澄清君九龄君九龄最大的秘密,她是九龄公主,宁云钊知道吗?在彭小苒金瀚领衔主演的君九龄中,九龄公主劫后重生,换脸成了君蓁蓁,而后为了复仇,又改名为君九龄。在她的复仇之路上,很少有人会把君九龄和九龄公主联系到一起,除了朱瓒和陆云旗。君九龄君君九龄坦荡的宁云钊竟拍楚让马屁,难道对君九龄爱极生恨?在彭小苒金瀚领衔主演的君九龄中,宁云钊以他的文雅和坦荡赢得观众的喜欢,并圈粉无数。他喜欢君九龄,曾几次向君九龄表白,结果都被当面拒绝。这种打击对于男人来讲是比较大的,但丝毫没有影响君九龄揭露楚让的阴谋,君九龄公开公主的身份,这合适吗?君九龄在彭小苒金瀚领衔主演的君九龄中,君九龄的父亲被楚让所害。在逃脱之后,她隐藏自己的公主身份,她开始了复仇之路。她凭着精湛的医术和为国为民的热忱,赢得了百姓的支持。与之相反的是,嘉南传一场落水事件背后有何隐情?姜保宁和李谦都是戏精鞠婧祎在鞠婧祎曾舜晞主演的嘉南传中,李谦主动找上姜保宁,寻求合作,共同谋划在万寿山曹太后的寿宴之上,让曹太后还政于皇帝赵翌。不过,赵翌并非明君,且为人心胸狭窄,姜保宁不得不为姜家做吴亦凡事件牵出何炅助保驾护航,遭湖南卫视封杀,何炅含泪退圈吴亦凡事件牵出何炅助纣为虐,遭湖南卫视封杀,何炅不得不含泪退出娱乐圈另做出谋,谢娜当场泪崩满面。如今吴亦凡的结局已成定论,可是由吴亦凡所曝光的娱乐圈内幕却持续受到关注,让人意想不到君九龄方家隐藏最深的秘密,让楚让忌惮,君九龄也不知道君九龄在彭小苒金瀚领衔主演的君九龄中,方家对君九龄的帮助是非常大的,方承宇用整个方家的财力支持君九龄复仇。君九龄君九龄方承宇支持君九龄除了爱之外,还有另外一个原因,就是恩情。君九龄堺雅人新垣结衣名作胜者即是正义在优酷改名上线,观众吐槽新垣结衣优酷上线了堺雅人新垣结衣主演的经典日剧LEGALHIGH系列,让很多观众感到惊喜。LEGALHIGH前后一共两部,第一部开播于2012年,第二部开播于2013年,讲的是精英
时尚盛典,杨幂金晨穿的像圣诞礼物,万茜深v高开叉长裙大秀身材昨晚的时尚先生盛典可以说是热闹非凡,除了女明星们争奇斗艳之外,好笑的事儿也是一茬接一茬一争奇斗艳篇杨幂杨幂不愧是红毯亮点,黑白抹胸裙,胸口还绑着一只大大的蝴蝶结,那傲人的身材展露无交友需谨慎,演员高溜经朋友介绍整容后鼻子坏死,毁容失去工作这年头塑料姐妹花实在是太多了,2月2日演员高溜发文痛诉自己整容失败的全过程,字字心酸无力,本想变美却因此毁容,如今投诉无门,失去工作还得面临200万的违约金。而这一切事件的起因均是妈妈,你咋流血了?孩子的口无遮拦,或在于妈妈不懂避讳导语对于父母来说,言传身教是非常重要的,如果说在孩子面前不注意自己的言行举止,那么很有可能让孩子口无遮拦的在大众面前说出,这也会让你瞬间尴尬。尤其是一些全职妈妈自己带孩子的这一种,天桥姐,你应该修一座赵州桥家长自费百万建天桥官方不提倡家长自费修百万天桥,是为了自己家的孩子,还是为学校每一个孩子,是出于什么心理?是公德心,还是自私的心理?有钱不能太任性,孩子上小学修一座天桥上初中再修一女排姑娘们应该找回自我,找回女排精神东京奥运会正在火热进行中,中国女排姑娘们却遇到了麻烦。第一场被土耳其打败了第二场比赛被美国队打败了第三场比赛被俄罗斯打败了到底是什么情况?我总感觉有点儿不对劲儿呢,到底差在哪个方面女明星皮包骨头也就算了,男明星也要瘦到吓人的程度吗?对于明星非常重要的两样东西,那就是身材和颜值!尤其女明星,不管结婚还是生孩子与否,身材都是要掌控的非常好的,很多角色上的需要,工作的需要,上镜更加需要!可以说,管理颜值和身材就是工这两个女明星真是不笑绝倾城,一笑毁所有啊能称得上明星的首先大家第一个想到的问题那就是颜值,确实,镜头前的她们也确实是太漂亮了,别具风格和特色,每个人的美都是不一样的,想模仿都模仿不来不管是男明星还是女明星,尤其是他们的海和任嘉伦合作的女明星原名都不保了!下一个就轮到她了大家都知道有很多艺人的名字都不是本名,有的可能是自己改的,有的是经纪公司给改的,总之很多人大家只知道其艺名而不知道原名任嘉伦这个名字也是艺名,大家都知道他的本名叫做任国超,这个名字高颜值,大长腿,曾是韩国顶流的他,要不是恋情曝光,谁还记得他2014年的春晚上,一位来自韩国的欧巴和庾澄庆合作了一曲情非得已。他一登台,将主唱庾澄庆顷刻间当做了绿叶,他帅气俊朗的外形,加上修长的身材,尤其是那双大长腿,一时间迷倒了不知多少的农村致富经变成了致穷经,其中责任,谁来承担?近年来,在农业行业有一个奇怪的现象两极分化尤为严重。一方面,农产品低价滞销消息频出,屡见不鲜,让大多数农业人叫苦叫累,还不挣钱,备受煎熬。但另一方面,确是喜报连连,创富神话不绝于耳任嘉伦新剧搭档杨颖!网友嘉伦,挺住啊最近听到一个对于小编来说绝对是爆炸性的新闻!那就是任嘉伦要搭档Angelababy出演电视剧了!我的天呐!简直是晴天霹雳!如果消息是真实的,真是心疼嘉伦啊!这是有什么想不开的?没有