范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

Python爬虫数据分析之影评分析

  本次通过猫眼电影,对春节贺岁大片【满江红】进行数据分析。而本次我们通过动态接口形式获取评论信息,静态HTML解析需要额外的字体解析,网上的教程也已经很全了,有兴趣的小伙伴们也可以多多冲浪或和本人探讨哈!
  满江红影图一、 接口分析
  1. 目标站点:猫眼H5
  接口列表
  2. 通过滑动查看评论信息,或点击评论进入评论子页面滑动,即可抓取到相关接口(浏览器F12工具中只能抓取到子评论接口,如果要整个评论的需要抓包工具配合或使用手机抓包)
  接口详情
  3. 评论接口(已加密处理)
  aHR0cHM6Ly9tLm1hb3lhbi5jb20vYXBvbGxvL2Fwb2xsb2FwaS9tbWRiL3JlcGxpZXMvY29tbWVudC8xMTY3MTI5MDg5Lmpzb24/X3ZfPXllcyZvZmZzZXQ9NDA=
  二、 响应分析通过子评论接口,可以分析出来相关字段(昵称、性别、评分、评论内容、评论点赞量、用户等级等){     "cmts": [         {             "approve": 0,             "assistAwardInfo": {                 "avatar": "",                 "celebrityId": 0,                 "celebrityName": "",                 "rank": 0,                 "title": ""             },             "avatarurl": "https://img.meituan.net/maoyanuser/e6f7600fa2980a929accb602fde5abaa2776.jpg",             "channelId": 70001,             "content": "在电影院看真的很有氛围!背景音乐也很加分",             "deleted": false,             "id": 1171602285,             "ipLocName": "福建",             "nickName": "腿小菇",             "time": "2023-02-27 10:24",             "userId": 1322748722,             "userLevel": 3,             "vipInfo": "",             "vipType": 0         }     ],     "ocm": {         "approve": 8657,         "approved": false,         "assistAwardInfo": {             "avatar": "",             "celebrityId": 0,             "celebrityName": "",             "rank": 0,             "title": ""         },         "authInfo": "",         "avatarurl": "https://img.meituan.net/avatar/66fb6e3ef190201864c732a03b5d9be924014.jpg",         "content": "刚看完满江红,真的好看,这是我看过最值的一部电影,反转反转再反转,真的是永远想不到下一步是什么,而且还很搞笑,搞笑又宏伟,真的描述不出来这个电影的好,都给我去看!满江红!入股不亏!!!!",         "id": 1167129089,         "ipLocName": "辽宁",         "isMajor": false,         "juryLevel": 0,         "majorType": 0,         "mvid": 1462626,         "nick": "Gpc126688235",         "nickName": "Gpc126688235",         "oppose": 0,         "pro": false,         "reply": 680,         "score": 5,         "spoiler": 0,         "supportComment": true,         "supportLike": true,         "sureViewed": 1,         "tagList": {             "fixed": [                 {                     "id": 1,                     "name": "购票好评"                 },                 {                     "id": 4,                     "name": "购票"                 },                 {                     "id": 6,                     "name": "优质评价"                 }             ]         },         "time": "2023-01-22 12:19",         "userId": 3164097169,         "userLevel": 2,         "videoDuration": 0,         "vipInfo": "",         "vipType": 0     },     "total": 60 }
  2. 完整comment接口响应示例{     "data": {         "hotIds": [                 1167280609,             1167187803         ],         "total": 16521,         "comments": [             {                 "avatarUrl": "https://img.meituan.net/maoyanuser/80cdf9a184d40eb9ecc0e5d170f3e45d11928.png",                 "buyTicket": false,                 "channelId": 3,                 "content": "还行吧,没有看开心 ",                 "delete": false,                 "follow": false,                 "gender": 1,                 "id": 1171756165,                 "imageUrls": [],                 "ipLocName": "山东",                 "likedByCurrentUser": false,                 "major": false,                 "movie": {                     "id": 0,                     "sc": 0                 },                 "movieId": 1462626,                 "nick": "淘嘉豪",                 "replyCount": 0,                 "score": 9,                 "showApprove": false,                 "showVote": false,                 "spoiler": false,                 "startTime": "1677923460000",                 "tagList": [                     {                         "id": 1,                         "name": "购票好评"                     },                     {                         "id": 4,                         "name": "购票"                     }                 ],                 "time": 1677923460000,                 "ugcType": 11,                 "upCount": 0,                 "userId": 71317227,                 "userLevel": 2,                 "vipType": 0             },         ],         "t2total": 0,         "myComment": {}     },     "paging": {},     "ts": 1677956823197 } 三、数据解析构造请求头,模拟数据请求def get_film_data(offset = 0, filename="film"):     url = f"aHR0cHM6Ly9tLm1hb3lhbi5jb20vYXBvbGxvL2Fwb2xsb2FwaS9tbWRiL3JlcGxpZXMvY29tbWVudC8xMTY3MTI5MDg5Lmpzb24/X3ZfPXllcyZvZmZzZXQ9NDA="     headers = {         "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"     }      cookies = {         "uuid_n_v":"v1",         "iuuid":"942C12B0DF4311E9ADA9C1C3B540BA45F066B2B3028841B8A0BC3544E4C0AD17",         "ci":"1%2C%E5%8C%97%E4%BA%AC",         "_lxsdk_cuid":"16d6c9b401ec8-0c6c86354bd8a9-5b123211-100200-16d6c9b401ec8",         "webp":"true",         "_lxsdk":"942C12B0DF4311E9ADA9C1C3B540BA45F066B2B3028841B8A0BC3544E4C0AD17"         }     # 开始页面请求,返回响应内容     response = requests.get(url,headers=headers,cookies=cookies).json()     # 总评论数     total = response["total"]     print(total)     # 评论信息列表     cmts = response["cmts"]     pprint(cmts)     for comment in cmts:         data = []         # 评论id         # id = comment["id"]         # 评论内容         content = comment["content"]         # 用户昵称         nickName = comment["nickName"]         # 用户评分         score = comment["score"]         # 评论时间         # startTime = comment["time"]         # 用户id         userId = comment["userId"]         # 用户等级         userLevel = comment["userLevel"]         # 用户性别         gender = comment.get("gender",None)         data["nickName "] = nickName          data["gender"] = gender         data["score"] = score         data["content"] = content         data["userId "] = userId          data["userLevel"] = userLevel         save_data_csv(data,filename)     return total
  2. 数据存储(这里为以csv演示)def save_data_csv(data, file_name):     with open(file_name,"a",encoding="utf-8-sig",newline="")as fp:         # 创建写对象         writer = csv.writer(fp)         title = ["nickName ","gender","score","content","userId ","userLevel"]         # 解决循环存储,表头重复问题         with open(file_name,"r",encoding="utf-8-sig",newline="")as fp:             # 创建读对象             reader = csv.reader(fp)             if not [row for row in reader]:                 writer.writerow(title)                 writer.writerow([data[i] for i in title])             else:                 writer.writerow([data[i] for i in title])      print("*"*10+"保存完毕"+"*"*10)
  影评结果四、数据可视化影评分词def wordcloud_analysis(file_name):     df = pd.read_csv(file_name, encoding="utf-8")     content = df["content"].to_string()     # 开始分词 使用jieba进行精确分词获取词语列表     words = jieba.lcut(content)     # 使用空格拼接获得字符串     words = " ".join(words)      # 生成词云     # 读取图片,生成图片形状     mask_pic = np.array(Image.open("1.jpg"))     words_cloud = WordCloud(         background_color="white",  # 词云图片的背景颜色         width=800, height=600,  # 词云图片的宽度,默认400像素;词云图片的高度,默认200像素         font_path="msyh.ttf",  # 词云指定字体文件的完整路径         max_words=200,  # 词云图中最大词数,默认200         max_font_size=80,  # 词云图中最大的字体字号,默认None,根据高度自动调节 min_font_size# 词云图中最小的字体字号,默认4号         font_step=1,  # 词云图中字号步进间隔,默认1         random_state=30,  # 设置有多少种随机生成状态,即有多少种配色方案         mask=mask_pic  # 词云形状,默认None,即方形图     ).generate(words)  # 有jieba分词拼接的字符串生成词云     words_cloud.to_file("comment.png")  # 保存词云为图片     # 使用plt显示词云     plt.imshow(words_cloud, interpolation="bilinear")     # 消除坐标轴     plt.axis("off")     plt.show()
  分词
  2. 观看人群性别及评分占比分析(由于取得部分数据,不代表最终现实结果,勿纠)def gender_pie_analysis(file_name):     df = pd.read_csv(file_name, encoding="utf-8")     print(df)     #     # # 1.观看人群性别     gender = df["gender"].value_counts()     print(gender)     # 饼图,标题:观看人群性别占比     # 调用自定义饼图函数     # 创建画布和轴     fig, ax = plt.subplots(figsize=(6, 6), dpi=100)     # plt.figure()     size = 0.5     # labels = data.index     ax.pie(gender, labels=["女","男","未知"], startangle=90, autopct="%.1f%%"            , colors=sns.color_palette("husl", len(gender)),            radius=1,  # 饼图半径,默认为1            pctdistance=0.75,  # 控制百分比显示位置            wedgeprops=dict(width=size, edgecolor="w"),  # 控制甜甜圈的宽度            textprops=dict(fontsize=10)  # 控制字号及颜色            )     ax.set_title("【满江红】观看人群性别占比", fontsize=15)     # plt.title(title)     plt.show()
  性别占比
  评分占比
  3. 用户等级分析def user_level_bar_analysis(file_name):     df = pd.read_csv(file_name, encoding="utf-8")     print(df)     userLevel = df["userLevel"].value_counts().sort_index()     print(userLevel)      x = userLevel.index     y = userLevel     fig, ax = plt.subplots()     plt.bar(x, y, color="#DE85B5")     # 柱状图标题     plt.title("评论用户等级数量分布柱状图")     plt.grid(True, axis="y", alpha=1)     for i, j in zip(x, y):         plt.text(i, j, "%d" % j, horizontalalignment="center", )     ax.spines["right"].set_visible(False)     ax.spines["top"].set_visible(False)      plt.show()
  等级数量分布
  该篇文章只是从评分角度去做的数据分析,其实还可以从影视类型、年度电影Top、票房等角度进一步做数据分析。该篇文章来自本人知乎号:梓羽Python
  文章链接:https://zhuanlan.zhihu.com/p/611295606

比尔盖茨中国崛起是世界巨大胜利亚太日报Hannah据福克斯商业报道,今年67岁的微软联合创始人比尔盖茨在接受澳大利亚智库洛伊研究所采访时表示,中国的崛起是世界的巨大胜利。根据福布斯实时亿万富豪榜显示,他的净资产日本人说的八嘎呀路,翻成中文是什么意思?大家知道吗?众所周知,在众多抗日题材的电视剧以及电影当中,经常会看到日本人只要在愤怒的时候,就会说这么一句台词八嘎呀路!那么日本人所说的八嘎呀路到底是什么意思?而这句话又是怎么来的呢?把这句话不是衣服却可以穿在身上?带你解码电子皮肤电影阿丽塔战斗天使中机器人阿丽塔不仅拥有像人类一样灵敏的触觉,甚至还可以自愈。如今,这个科幻片中的黑科技,正在变成现实。近日,中国科学院与国外科研团队共同合作,开发出一种超灵敏且可冠心病其实是气堵了,一方通气救心冠心病其实是气堵了,一方通气救心,人间百病,源于气堵,就拿冠心病来说,跟气也是息息相关的,我给大家说一个病例,听完之后你就明白了。这位患者,48岁,在发病之前的十多天里工作非常的繁中国古代的奢侈品是什么样的?过去人人都在用,现在少有人知在很多人印象里,香这个词常常和求神拜佛联系在一起,实际上,在中国古代,人们是处处离不开香,它不仅是上层人士彰显身份的重要奢侈品,还是每个人生活都离不开的日常物件,中国的历史始终伴着外媒中国所有开关拨向增长一侧据美国巴伦周刊网站1月27日报道,随着中国调整政策,其股市出现非同寻常的上涨。这可能才刚刚开始。基金经理说,今年众多股票可能继续走高。报道称,催化剂显而易见世界第二大经济体的决策者5。2!专家称中国为全球经济复苏注入动力美国当地时间1月30日,国际货币基金组织(IMF)发布了世界经济展望报告更新内容,预计2023年全球经济增长2。9,较去年有所放缓。报告同时将2023年中国经济增速预期由4。4调高小象大鹅年终战报出炉,海外战绩颇丰,全靠窦雨潇长远的眼光最近几年,直播和短视频行业蓬勃发展,在各个领域都有很多人气很高的主播。而这些主播之所以能出现在大众视野,离不开背后公会的鼎力支持,他们为主播精心策划各种活动,做出了很多贡献。在国内最强神选者必看,魔域手游2神火系统突破技巧副本通关攻略魔域手游2神火这个玩法也是非常的重要,很多玩家在游戏中突破神火的时候无论怎么都感觉差一点,突破不上去,那么在突破神火的时候有什么技巧吗?下面小编就给大家简单介绍一下神火系统,并把神如何缓解手脚冰凉?1保暖要特别注意腿脚的保暖,如果下肢保暖做得好,全身都会觉得暖和。不要穿太紧的衣服,因为衣服过紧会阻碍血液循环。2泡脚泡脚是最有效的方法。在较深的盆中加入40左右的热水,让水漫过脚干咳久咳慢性咽炎?多因肝郁脾虚痰湿,送你一张利咽方前些天,和老友聚会,期间,有老友询问远志,说自己阳过之后总感觉自己干咳不止,该吃点啥好?远志想了想,难掩心中好奇,不禁发问,好像从开始到现在,就没怎么听见你咳嗽啊。老友一想,诶,好
有一级建造师证书没有经验,好找工作吗?好找工作。但是没有经验,找不到好工作。好找工作建造师证书是一个门槛,代表具备承担相应项目管理的一个准入标准。特别是在当下规范建筑市场,严厉打击挂靠的大形势下,具备建造师证的同志比没国企工作感觉好难啊,年终奖发几千元,怎么办?有几千元的年终奖已经很不错了,要知道很多人压根都没有年终奖,而且有些人不但没有年终奖,像我有个朋友,他们公司还要求员工年底放假前自费按市场价买一些公司的酒水冲一波业绩,这操作也是醉去哪里招聘兼职人员比较靠谱?有哪些比较正规的平台呢?大学做过兼职招募安置,比较了解兼职招募的一些软件,可以具体的给你说下。想要靠谱的兼职人员,首先要去靠谱的人群里去找,在兼职这块比较靠谱的就是大学生了。想让上班族,宝妈,大妈大爷去做公务员工资高吗?现在公务员工资怎么样?明面上工资卡上看不出高。但每年每季每月及节假日各种补贴加起来比工资高几倍。您好!广州华图为您解答大部分都想有一个钱多事少离家近的工作,公务员是公认的铁饭碗,从报考人数来看,每年报考为什么一些做老板的不喜欢默默干活的员工?你怎么看?未必是这样。你把老板想得太傻了。其实老板心里是有一杆秤的,平时是要平衡各方的。但在重大事件或决策面前,老板用的人一定是业绩好的和对自己忠心的。这个问题问得有点偏向,默默干活的员工大城镇职工退休待遇与企业职工退休待遇的区别是什么?这个问题是很有意思的,从表面上看好像有点好笑,甚至认为是没有差别的,但是仔细分析,城镇职工不完全是企业职工,但企业职工是属于城镇职工的一个部分,二者的退休待遇其实还是有一定区别的,合同制工人没有视同缴费退休时有影响吗?真正的合同制工人,影响不大!第一,什么是合同制工人?所谓合同制工人是相对于固定工人而言的一种用工制度管理的职工。他们跟固定工人的最大区别是固定工人是计划经济时期用工制度的产物,而合您的城市有母亲河吗?叫什么名字?成都的母亲河叫府南河,府南河又称锦江,是成都文化的摇篮,环抱着这座古城,成为成都市千年不变的景观。成都城市经济文化和会发展离不开锦江的滋润和哺育,故成都人又深情的称她为母亲河。湘江在乡林业工作站连续工作三十年以上被辞退无补偿,该怎么维权?这个问题是一社会遗留问题,也就是在七十年代未,八十年代初的人民公社与乡镇政府改革交替时期的政府工作人员,那个时期正是改革开放初期,很多政府机构进行改革,政府机构的工作人员很多为临时我有两套房子,没有贷款,月薪4000,老婆没有工作带孩子,我算什么生活水平?那套房出租吗?在一二三线城市吗?租金高吗?如果在五六线城市也算不了什么。如不出租你的生活靠四千元工资也好不到那里去!要饭的!你只有四千工作,不可能是自己卖的房子,靠你的收入,想体面各行各业有哪些能显著提升工作效率和幸福感的数码科技或电子产品?我们先回答为快我们选中了这些选品ikbc104AirPods(第二代)索尼WF1000XM3联想小新Pro13石头机器人T6罗技G304RTX2060SuperZendureSup