范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

Python爬虫数据分析之影评分析

  本次通过猫眼电影,对春节贺岁大片【满江红】进行数据分析。而本次我们通过动态接口形式获取评论信息,静态HTML解析需要额外的字体解析,网上的教程也已经很全了,有兴趣的小伙伴们也可以多多冲浪或和本人探讨哈!
  满江红影图一、 接口分析
  1. 目标站点:猫眼H5
  接口列表
  2. 通过滑动查看评论信息,或点击评论进入评论子页面滑动,即可抓取到相关接口(浏览器F12工具中只能抓取到子评论接口,如果要整个评论的需要抓包工具配合或使用手机抓包)
  接口详情
  3. 评论接口(已加密处理)
  aHR0cHM6Ly9tLm1hb3lhbi5jb20vYXBvbGxvL2Fwb2xsb2FwaS9tbWRiL3JlcGxpZXMvY29tbWVudC8xMTY3MTI5MDg5Lmpzb24/X3ZfPXllcyZvZmZzZXQ9NDA=
  二、 响应分析通过子评论接口,可以分析出来相关字段(昵称、性别、评分、评论内容、评论点赞量、用户等级等){     "cmts": [         {             "approve": 0,             "assistAwardInfo": {                 "avatar": "",                 "celebrityId": 0,                 "celebrityName": "",                 "rank": 0,                 "title": ""             },             "avatarurl": "https://img.meituan.net/maoyanuser/e6f7600fa2980a929accb602fde5abaa2776.jpg",             "channelId": 70001,             "content": "在电影院看真的很有氛围!背景音乐也很加分",             "deleted": false,             "id": 1171602285,             "ipLocName": "福建",             "nickName": "腿小菇",             "time": "2023-02-27 10:24",             "userId": 1322748722,             "userLevel": 3,             "vipInfo": "",             "vipType": 0         }     ],     "ocm": {         "approve": 8657,         "approved": false,         "assistAwardInfo": {             "avatar": "",             "celebrityId": 0,             "celebrityName": "",             "rank": 0,             "title": ""         },         "authInfo": "",         "avatarurl": "https://img.meituan.net/avatar/66fb6e3ef190201864c732a03b5d9be924014.jpg",         "content": "刚看完满江红,真的好看,这是我看过最值的一部电影,反转反转再反转,真的是永远想不到下一步是什么,而且还很搞笑,搞笑又宏伟,真的描述不出来这个电影的好,都给我去看!满江红!入股不亏!!!!",         "id": 1167129089,         "ipLocName": "辽宁",         "isMajor": false,         "juryLevel": 0,         "majorType": 0,         "mvid": 1462626,         "nick": "Gpc126688235",         "nickName": "Gpc126688235",         "oppose": 0,         "pro": false,         "reply": 680,         "score": 5,         "spoiler": 0,         "supportComment": true,         "supportLike": true,         "sureViewed": 1,         "tagList": {             "fixed": [                 {                     "id": 1,                     "name": "购票好评"                 },                 {                     "id": 4,                     "name": "购票"                 },                 {                     "id": 6,                     "name": "优质评价"                 }             ]         },         "time": "2023-01-22 12:19",         "userId": 3164097169,         "userLevel": 2,         "videoDuration": 0,         "vipInfo": "",         "vipType": 0     },     "total": 60 }
  2. 完整comment接口响应示例{     "data": {         "hotIds": [                 1167280609,             1167187803         ],         "total": 16521,         "comments": [             {                 "avatarUrl": "https://img.meituan.net/maoyanuser/80cdf9a184d40eb9ecc0e5d170f3e45d11928.png",                 "buyTicket": false,                 "channelId": 3,                 "content": "还行吧,没有看开心 ",                 "delete": false,                 "follow": false,                 "gender": 1,                 "id": 1171756165,                 "imageUrls": [],                 "ipLocName": "山东",                 "likedByCurrentUser": false,                 "major": false,                 "movie": {                     "id": 0,                     "sc": 0                 },                 "movieId": 1462626,                 "nick": "淘嘉豪",                 "replyCount": 0,                 "score": 9,                 "showApprove": false,                 "showVote": false,                 "spoiler": false,                 "startTime": "1677923460000",                 "tagList": [                     {                         "id": 1,                         "name": "购票好评"                     },                     {                         "id": 4,                         "name": "购票"                     }                 ],                 "time": 1677923460000,                 "ugcType": 11,                 "upCount": 0,                 "userId": 71317227,                 "userLevel": 2,                 "vipType": 0             },         ],         "t2total": 0,         "myComment": {}     },     "paging": {},     "ts": 1677956823197 } 三、数据解析构造请求头,模拟数据请求def get_film_data(offset = 0, filename="film"):     url = f"aHR0cHM6Ly9tLm1hb3lhbi5jb20vYXBvbGxvL2Fwb2xsb2FwaS9tbWRiL3JlcGxpZXMvY29tbWVudC8xMTY3MTI5MDg5Lmpzb24/X3ZfPXllcyZvZmZzZXQ9NDA="     headers = {         "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"     }      cookies = {         "uuid_n_v":"v1",         "iuuid":"942C12B0DF4311E9ADA9C1C3B540BA45F066B2B3028841B8A0BC3544E4C0AD17",         "ci":"1%2C%E5%8C%97%E4%BA%AC",         "_lxsdk_cuid":"16d6c9b401ec8-0c6c86354bd8a9-5b123211-100200-16d6c9b401ec8",         "webp":"true",         "_lxsdk":"942C12B0DF4311E9ADA9C1C3B540BA45F066B2B3028841B8A0BC3544E4C0AD17"         }     # 开始页面请求,返回响应内容     response = requests.get(url,headers=headers,cookies=cookies).json()     # 总评论数     total = response["total"]     print(total)     # 评论信息列表     cmts = response["cmts"]     pprint(cmts)     for comment in cmts:         data = []         # 评论id         # id = comment["id"]         # 评论内容         content = comment["content"]         # 用户昵称         nickName = comment["nickName"]         # 用户评分         score = comment["score"]         # 评论时间         # startTime = comment["time"]         # 用户id         userId = comment["userId"]         # 用户等级         userLevel = comment["userLevel"]         # 用户性别         gender = comment.get("gender",None)         data["nickName "] = nickName          data["gender"] = gender         data["score"] = score         data["content"] = content         data["userId "] = userId          data["userLevel"] = userLevel         save_data_csv(data,filename)     return total
  2. 数据存储(这里为以csv演示)def save_data_csv(data, file_name):     with open(file_name,"a",encoding="utf-8-sig",newline="")as fp:         # 创建写对象         writer = csv.writer(fp)         title = ["nickName ","gender","score","content","userId ","userLevel"]         # 解决循环存储,表头重复问题         with open(file_name,"r",encoding="utf-8-sig",newline="")as fp:             # 创建读对象             reader = csv.reader(fp)             if not [row for row in reader]:                 writer.writerow(title)                 writer.writerow([data[i] for i in title])             else:                 writer.writerow([data[i] for i in title])      print("*"*10+"保存完毕"+"*"*10)
  影评结果四、数据可视化影评分词def wordcloud_analysis(file_name):     df = pd.read_csv(file_name, encoding="utf-8")     content = df["content"].to_string()     # 开始分词 使用jieba进行精确分词获取词语列表     words = jieba.lcut(content)     # 使用空格拼接获得字符串     words = " ".join(words)      # 生成词云     # 读取图片,生成图片形状     mask_pic = np.array(Image.open("1.jpg"))     words_cloud = WordCloud(         background_color="white",  # 词云图片的背景颜色         width=800, height=600,  # 词云图片的宽度,默认400像素;词云图片的高度,默认200像素         font_path="msyh.ttf",  # 词云指定字体文件的完整路径         max_words=200,  # 词云图中最大词数,默认200         max_font_size=80,  # 词云图中最大的字体字号,默认None,根据高度自动调节 min_font_size# 词云图中最小的字体字号,默认4号         font_step=1,  # 词云图中字号步进间隔,默认1         random_state=30,  # 设置有多少种随机生成状态,即有多少种配色方案         mask=mask_pic  # 词云形状,默认None,即方形图     ).generate(words)  # 有jieba分词拼接的字符串生成词云     words_cloud.to_file("comment.png")  # 保存词云为图片     # 使用plt显示词云     plt.imshow(words_cloud, interpolation="bilinear")     # 消除坐标轴     plt.axis("off")     plt.show()
  分词
  2. 观看人群性别及评分占比分析(由于取得部分数据,不代表最终现实结果,勿纠)def gender_pie_analysis(file_name):     df = pd.read_csv(file_name, encoding="utf-8")     print(df)     #     # # 1.观看人群性别     gender = df["gender"].value_counts()     print(gender)     # 饼图,标题:观看人群性别占比     # 调用自定义饼图函数     # 创建画布和轴     fig, ax = plt.subplots(figsize=(6, 6), dpi=100)     # plt.figure()     size = 0.5     # labels = data.index     ax.pie(gender, labels=["女","男","未知"], startangle=90, autopct="%.1f%%"            , colors=sns.color_palette("husl", len(gender)),            radius=1,  # 饼图半径,默认为1            pctdistance=0.75,  # 控制百分比显示位置            wedgeprops=dict(width=size, edgecolor="w"),  # 控制甜甜圈的宽度            textprops=dict(fontsize=10)  # 控制字号及颜色            )     ax.set_title("【满江红】观看人群性别占比", fontsize=15)     # plt.title(title)     plt.show()
  性别占比
  评分占比
  3. 用户等级分析def user_level_bar_analysis(file_name):     df = pd.read_csv(file_name, encoding="utf-8")     print(df)     userLevel = df["userLevel"].value_counts().sort_index()     print(userLevel)      x = userLevel.index     y = userLevel     fig, ax = plt.subplots()     plt.bar(x, y, color="#DE85B5")     # 柱状图标题     plt.title("评论用户等级数量分布柱状图")     plt.grid(True, axis="y", alpha=1)     for i, j in zip(x, y):         plt.text(i, j, "%d" % j, horizontalalignment="center", )     ax.spines["right"].set_visible(False)     ax.spines["top"].set_visible(False)      plt.show()
  等级数量分布
  该篇文章只是从评分角度去做的数据分析,其实还可以从影视类型、年度电影Top、票房等角度进一步做数据分析。该篇文章来自本人知乎号:梓羽Python
  文章链接:https://zhuanlan.zhihu.com/p/611295606

聊聊卡塔尔世界杯开赛前的故事日本球员想吃猪肉?没门卡塔尔世界杯将会是第一次冬季的世界杯,没了烤肉啤酒,会不会少点气氛呢。这不开赛前又发生了一些故事。近日日本媒体报道称,日本国家队询问卡塔尔世界杯组委会和足协方面,能否在世界杯比赛期罗德曼的19岁女儿,已是美国女足最高薪球员作为NBA传奇篮板王丹尼斯罗德曼的女儿,特里妮蒂最近一年打破了美国女足多项早熟纪录。今年5月才年满20岁的新晋国脚前锋,已经是美国国家女子足球联赛(NWSL)薪水最高的球员。手握22022年NBA热门选秀球员巡礼曾凡博曾凡博,2003年1月11日出生于黑龙江省哈尔滨市,身高211CM,体重90KG,臂展216CM,司职前锋,入选美国佛罗里达州3A第一阵容,美国四星高中生,效力于NBA发展联盟点燃湖人步行者酝酿7换3交易,涉及威少特纳,詹姆斯迎帮手?虽然湖人在本赛季结束了令人失望的旅程,沦为了NBA最大的笑柄,不过他们也有着将一切劣势转化为优势的机遇。球队拥有着5个名人堂球员,而且还有着3名现役的巨星角色,如果将其中几名重要球任正非门徒余承东,这一次把牛皮吹破了?华为除了任正非,可能余承东最为大众所熟知,他为华为立下汗马功劳。但是因为喜欢吹牛,而被调侃为余大嘴,毁誉参半。最近,余承东又一次把牛皮吹破天了,到底怎么回事呢?1。华为任正非门徒?下家已定?湖人或重新报价3810顶级后卫,詹姆斯理解球队下家已定?湖人或重新报价3810顶级后卫,詹姆斯理解球队湖人本赛季常规赛后半程表现不佳,球队遭遇一波连败,在冲击季后赛的关键阶段却没能赢球,彻底失去了进军季后赛的机会。在比赛当中,刘传兴3分2篮板1助攻布里斯班子弹常规赛收官战不敌凯恩斯太攀蛇北京时间4月23日,202122赛季NBL常规赛收官战,布里斯班子弹对阵凯恩斯太攀蛇。历经一番角逐,布里斯班子弹98112不敌凯恩斯太攀蛇。刘传兴此役出场12分12秒贡献3分2篮板艾顿28173竟无缘今日最佳?因为保罗今日一战创四项纪录北京时间4月22日,NBA季后赛正如火如荼进行着,各球队为了晋级下一轮都在拼尽全力去赢得比赛,而一场比赛的输赢在绝大部分情况下都取决于球队的当家球星能否有出色的发挥。今天照常进行了爆冷输球?NBA最丑陋的比赛诞生!萧华暗箱操作,哈登保罗受害者NBA联盟季后赛,原本是最精彩的对决,但是,最近几年季后赛越来越多的哨声,越来越多裁判主宰比赛的情况出现,这直接导致比赛失去了公平性,公正性,这也导致了球迷看球越来越没味,越来越没浙江广厦连输3场,球队士气跌至低谷,王博对奥卡福已失去信任北京时间4月24日,在CBA总决赛G3中,浙江广厦以7387,毫无悬念地输给辽宁男篮,系列赛大比分03落后。相比前两场比赛,浙江广厦在G3中并没有展现出十足的战斗欲望。纵观全场,除屡遭辽篮冷眼,愤然加盟宏远!背叛家乡球队后,他豪夺八冠军作为篮球人才大省,辽宁在新中国成立后贡献了很多著名球星教练,在如今的CBA联赛,辽宁人更是人才济济,可以说辽宁为中国篮球做出了巨大的贡献。但我们也发现一个有趣的事实,尽管辽宁男篮队
张雨绮就是敢爱敢恨,性格真的很豪爽,不委屈自己娱评大赏1。凭借张雨绮豪爽的性格,你真的在浪姐交了很多朋友吗?芒果乘风破浪的妹妹TV女团成长综艺节目于6月12日播出后,赢得了众多观众的喜爱和追捧。出场的30个姐妹都有自己的特点,离开王菲,李亚鹏才算过上正常人的生活?海哈金喜晒温馨全家福自从王菲和李亚鹏离婚之后,双方就相忘于江湖,都有了新的感情。王菲和当年的男朋友谢霆锋旧情复燃,感情一直非常稳定而李亚鹏和女友分分合合,谈了好几任,也终于稳定下来,和年纪小不少的海哈汪小菲大S世纪对战,三大怪事真是高手在网络!万能的网友居然整理出了汪小菲大S对战,3大不明原因!1,网友纷纷倒戈同情婚内出轨的汪小菲和夜夜泡妞的许(小s老公),大S一家真能人也!别说还是这样,但是什么时候不清库克的刀法,越来越熟练苹果前不久,发布了全新的入门款iPad10。其中最让人膈应的,是iPad10换上全面屏模具后,却只支持ApplePenci一代。并且由于这一代换了USBC口,还得经过一个转接器,才人红是非多,华为PocketS遭遇下架门,这也能黑实在离谱作为华为最新一代的小折叠,华为PocketS凭借小巧精致的设计缤纷多彩的配色内外兼修的实力,上市后赢得了广大用户的青睐。不过,高热度的产品总是会伴随着争议。近期,华为PocketS专注力已被各个品牌所遗忘,其中的原因,简单概括就是人性需求看文章听音乐是种享受,想听什么留言告知(都是付费无损包)论专注力。首先要介绍一下品牌,vivo虽然在整个手机市场的大环境中不算什么太强势的主流品牌,但也是可以算得上是相对意义上的主徐峥老婆越来越有阔太范,穿亮片裙优雅大气,50岁身材仍凹凸有致马上到年底了,娱乐圈当中各种大型小型的颁奖典礼层出不穷,出席典礼或者是红毯的时候,大家都会格外关注女明星们的红毯造型。在走红毯时,每个人都想要聚焦所有的目光,这时候,亮片元素的礼服太燃了!奇兵38分8记三分西部黑马捡到宝贝疯狂老六化身库里西部第二名掘金队和第三名鹈鹕队大战,双方比赛中都有一些球员缺席,不过近期势头不错的鹈鹕队笑到了最后,他们以121比106击败掘金队继续保持连胜。此战之前,鹈鹕队跟掘金队的战绩同为1克林斯曼差点执教国足!即使主帅难定,也不影响备战2026年世界杯在世界杯期间,许多足坛名宿也齐聚卡塔尔,像罗纳尔多贝克汉姆克林斯曼等,为赛事增色不少。期间,德国足坛名宿克林斯曼在接受中体在线采访时说,他前几年差点就和中国足协达成协议,执教中国男29岁浓眉拿到了14836分,同期邓肯韦伯马龙和司机呢?浓眉是当今联盟最优秀的大前锋之一,当年他就是备受瞩目的超级新人,进入联盟多年,浓眉也的确兑现了天赋。从鹈鹕队到湖人队,他一直表现出色,攻防一体,也带队拿到过总冠军。浓眉哥唯一的问题通宵看C罗上火?淡定!广东人教你这样下火偶像虽好,健康更重要。当寒潮的强冷空气突破秦岭淮河,跨越南岭武夷山,吹至琼州海峡和台湾海峡,横扫全国各地时,看球热情随着韩国21绝杀葡萄牙,压哨晋级16强日益高涨。球迷们看球的热情