范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

Python爬虫抓取动态加载数据

  本节讲解如何抓取豆瓣电影"分类排行榜"中的电影数据(https://movie.douban.com/chart),比如输入"犯罪"则会输出所有犯罪影片的电影名称、评分,效果如下所示:剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影| 你想了解什么类型电影:犯罪 {"name": "肖申克的救赎", "score": 9.7} {"name": "控方证人", "score": 9.6} ... 电影总数量:302部123456复制代码类型:[python]确定网站类型
  首先要明确豆瓣电影网站的类型,即是动态还是静态。检查方法:右键查看网页源码—>搜索"辛德勒的名单"关键字,如下图所示:
  最终发现源码页中没有出现想要抓取的数据,只有一大堆的JS代码,由此确定该网站为动态网站。影片详情信息
  接下来,使用快捷键F12打开控制台进行抓包,点击NetWork选项卡—>XHR选项—>Preview选项卡—>刷新当前页面抓取数据包,如下图所示:
  从图2可知,我们想要抓取的数据取全部包含在当前的数据包中。当我们向下滚动鼠标滑轮时,左侧栏内的数据包会实现自动加载,这是使用Ajax异步加载技术实现的。
  通过查看数据Headers选项可以明确url地址、查询参数等信息,如下所示:
  从上图可以得知请求的基准URL(由于还未拼接查询参数,所以称之为基准URL),如下所示:"https://movie.douban.com/j/chart/top_list?"1复制代码类型:[python]
  继续滚动鼠标滑轮可知查询参数具有如下规律:type: 4  # 电影类型 interval_id: 100:90  #代表网页上滑动条的百分比(好于100%-90%的历史片) action: ""  # 空 start: 0  # 每次加载电影的起始索引值 0 20 40 60 limit: 20 # 每次加载的电影数量,1为初始值,后续加载时20固定不变12345复制代码类型:[python]
  注意:寻找规律时,后加载出来的数据包会排在最前面,除去第一个数据包外,其余数据包如下所示:影片总数量
  注意:第一个数据包反映了每个类型中电影的总数量,其url与响应信息如下:请求的URL地址 : https://movie.douban.com/j/chart/top_list_count?type=4&interval_id=100%3A90 Response信息:{"playable_count":41,"total":104,"unwatched_count":104}12复制代码类型:[java]影片类型与类型码
  影片的类型与类型码包含在电影排行榜的主界面中,如下所示:
  分析上述页面结构,然后使用正则表达式来提取想要的数据,并定义选择菜单"menu",代码如下所示:import re def get_all_type_films(self):     # 获取影片类型和类型码     url = "https://movie.douban.com/chart"     headers = self.get_headers()     html = requests.get(url=url, headers=headers).text     re_bds = r""     pattern = re.compile(re_bds, re.S)     r_list = pattern.findall(html)     # 存放所有类型和对应类型码大字典     type_dict = {}     # 定义一个选择电影类型的菜单     menu = ""     # r_list[{"剧情 , 11"},{},..]     for r in r_list:         type_dict[r[0].strip()] = r[1].strip()         # 获取input的菜单,显示所有电影类型         menu += r[0].strip() + "|"     #返回类型字典以供后续函数调用,并返回输入菜单menu     # {"剧情": "11", "喜剧": "24",...}     return type_dict, menu 12345678910111213141516171819202122复制代码类型:[python]编写完整程序
  完成上述分析后,下面开始编写Python爬虫程序,代码如下:#coding:utf8 import requests import time import random import re import json from ua_info import ua_list class DoubanSpider(object):     def __init__(self):         self.url = "https://movie.douban.com/j/chart/top_list?"         self.i = 0     # 获取随机headers     def get_headers(self):         headers = {"User-Agent":random.choice(ua_list)}         return headers     # 获取页面     def get_page(self,params):       # 将json转换为 python 数据类型,并返回       html = requests.get(url=self.url,params=params,headers=self.get_headers()).text       html=json.loads(html)       self.parse_page(html)     # 解析并保存数据     def parse_page(self,html):        item = {}         # html列表类型: [{电影1},{电影2},{电影3}...]        for one in html:             # 名称 + 评分            item["name"] = one["title"].strip()            item["score"] = float(one["score"].strip())            print(item)            self.i += 1     # 获取电影总数     def total_number(self,type_number):         # F12抓包抓到的地址,type表示电影类型         url = "https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90".format(type_number)         headers = self.get_headers()         html = requests.get(url=url,headers=headers).json()         total = int(html["total"])         return total     # 获取所有电影的类型和对应type值     def get_all_type_films(self):         # 获取类型与类型码         url = "https://movie.douban.com/chart"         headers = self.get_headers()         html = requests.get(url=url,headers=headers).text         re_bds = r""         pattern = re.compile(re_bds,re.S)         r_list = pattern.findall(html)         # 存放所有类型和对应类型码大字典         type_dict = {}         #定义一个选择电影类型的菜单         menu = ""         for r in r_list:             type_dict[r[0].strip()] = r[1].strip()             # 获取input的菜单,显示所有电影类型             menu += r[0].strip() + "|"         return type_dict,menu     # 主程序入口函数     def main(self):         # 获取type的值         type_dict,menu = self.get_all_type_films()         menu = menu + " 你想了解什么类型电影:"         name = input(menu)         type_number = type_dict[name]         # 获取电影总数         total = self.total_number(type_number)         for start in range(0,(total+1),20):            #构建查询参数             params = {                 "type" : type_number,                 "interval_id" : "100:90",                 "action" : "",                 "start" : str(start),                 "limit" : "20"             }             # 调用函数,传递params参数             self.get_page(params)             # 随机休眠1-3秒             time.sleep(random.randint(1,3))         print("电影总数量:%d部"%self.i ) if __name__ == "__main__":     spider = DoubanSpider()     spider.main()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283复制代码类型:[python]
  输出示例:剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影| 你想了解什么类型电影:科幻 {"name": "盗梦空间", "score": 9.3} {"name": "星际穿越", "score": 9.3} {"name": "楚门的世界", "score": 9.3} {"name": "机器人总动员", "score": 9.3} {"name": "蝙蝠侠:黑暗骑士", "score": 9.2} {"name": "超感猎杀:完结特别篇", "score": 9.2} {"name": "新世纪福音战士 第0:0话 诞生之始", "score": 9.2} {"name": "少年骇客:变身之谜", "score": 9.2} ... ... 电影总数量:147部12345678910111213复制代码类型:[python]
  最后我们对抓取动态网站数据做简单地总结:
  1.确定网站是否为动态网站,通过查看源码搜索相应的关键字即可确定。
  2.动态网站主要通过异步方式加载数据。触发数据加载的JS事件主要有滚动鼠标滑轮、鼠标点击、拉动滚动条等有关动作,也有一些网站通过局部更新的方式加载数据,比如有道翻译案例。
  新闻资讯-开课吧广场_第1页

赴美建厂被要求交出核心技术韩国科技巨头追悔莫及新能源电池2022年3月25日根据日经亚洲消息称LG能源解决方案(LGEnergySolution)公司收到美国通用汽车公司要求分享敏感技术信息的请求。作为传统燃油汽车的替代品,新剑桥大学等研究发现理论上稳定准确深度神经网络实际不存在澎湃新闻记者邵文当下,深度神经网络应用越来越广泛,帮助设计微芯片,预测蛋白质折叠,并在复杂游戏中胜过人类,性能越来越强大。但也有大量证据证明,它们通常是不稳定的。一个非常明显的表现手机浏览不良网页会不会中毒,信息会不会泄露?答案原来在这里本文编辑今日头条作者维权骑士签约用户小俊技术分享独家原创制作未经授权严禁转载,发现抄袭者将进行全网维权投诉分享生活小妙招,享受科技新生活!大家好,欢迎来到今天的知识分享!我是你们的真香!华为13万多员工将收到分红平均每人46。3万华为正式公布今年分配股利公告,称经公司内部有权机构决议,拟向股东分配股利614。04亿元。华为表示,此次分配系正常利润分配,对生产经营财务状况及偿债能力没有不利影响。华为是100由被困在停车场的自动驾驶自动驾驶对普通人有什么用?一提到这个话题,人们脑海中浮现的可能是有望消灭私家车的无人出租车。很明显,本发明对普通人来说最有价值,当然不包括广泛的网络预约和出租车司机。但是,长期以来奇瑞小蚂蚁团购报名开始北京瑞豪奇瑞新能源中心大型促销优惠政策全面开展,六重豪礼,已准备就绪,机不可失,失不再来!1关于进店进店签到即可获赠小礼品一份2关于金融分期购车即享好礼3关于试驾进店试驾赠送双肩包BootstrapBlazor实战Tree树形控件使用(2)继续上篇实战BootstrapBlazor树型控件Tree内容,本篇主要讲解整合Freesqlorm快速制作数据库后台维护页面demo演示的是Sqlite驱动,FreeSql支持多iQOOneo6新一代高性价比骁龙8Gen1旗舰游戏手机沉寂了许久的vivo将要发布一大批新机了,在整个4月份,vivo及其子品牌iQOO将会推出vivox80,vivo平板,vivoXfold折叠屏手机以及iQOOneo6等多款手机。巅峰对决!4月将要发布的4款旗舰手机大盘点随着中兴Axon40系列的预热,4月份即将发布的顶级旗舰增加至4款系列,每一款系列都是备受期待的产品。对于有换机需求的用户,不妨等待一下这些即将发布的旗舰新品。以下是关于这些新机的为什么歌手用的耳返那么贵,但还有人买来听歌用周六的时候,自己坐在阳台晒着太阳听着歌,一边撸狗一边喝茶,提前享受下老年人的午后时光。媳妇这时候跑过来问我拿耳塞听课备考8月份的CPA。我就想听课吗,也不需要多好的,随手就把自己平LCD党的胜利!RedmiNote12系列或将成为首款天玑8000LCD屏手机尽管目前许多手机清一色用上了OLED屏幕,但网上对于LCD屏幕的呼声依然不小。今天,博主数码闲聊站爆料,有品牌正在研发一款采用LCD屏的天玑8000手机,支持高刷新率自适应调节。许
余额宝大手笔庆生!100亿体验金轻轻松松瓜分到手作为余额宝忠实用户,今天首先我要深深地祝福它生日快乐啊啊啊啊啊啊!6岁,真是一个可爱的年龄呢然后,我想告诉大家,它为我们准备了100亿surprise堆堆乐狂撒100亿体验金。来来比亚迪唐EV累计向挪威发运超1000台日前,我们从比亚迪官方了解到,将有450台比亚迪唐(参数询价)EV车型在广州港集结,启程前往挪威。至此,比亚迪已累计向挪威发运超1000台唐EV。今年5月,比亚迪对外宣布,将挪威作买到就是赚到,呼伦贝尔宋MAX最高优惠4。22今天给大家推荐一款车它就是宋MAX,特别适合日常使用,据悉比亚迪益丰祥泰店10月11日10月11日限时回馈用户,直降0。4万元,对宋MAX感兴趣的朋友不妨亲自体验一下促销时间202比亚迪9月销量同比增长93。2,环比增长16。9日前,比亚迪公布了9月销量数据,乘用车9月全系共销售79037辆,同比增长93。2,环比增长16。9其中新能源乘用车销售70022辆,同比增长276。4。在新能源乘用车当中,DM混呼伦贝尔南屯汽车城比亚迪4S店进店享优惠近年来,国内的经济增长迅速,国内的汽车保有量蹭蹭的上涨,虽然说目前市场开始疲软,但是国人对于汽车的热情依旧是高涨,不少的老百姓对于豪车以及新车型都保持着高度的关注,当然也时刻关注着比亚迪F3出租汽车的首选。近年来,国内的经济增长迅速,国内的汽车保有量蹭蹭的上涨,虽然说目前市场开始疲软,但是国人对于汽车的热情依旧是高涨,不少的老百姓对于豪车以及新车型都保持着高度的关注,当然也时刻关注着呼伦贝尔比亚迪4S店欢迎您来试乘试驾新能源汽车近年来,国内的经济增长迅速,国内的汽车保有量蹭蹭的上涨,虽然说目前市场开始疲软,但是国人对于汽车的热情依旧是高涨,不少的老百姓对于豪车以及新车型都保持着高度的关注,当然也时刻关注着比亚迪在中国新能源汽车市场中的开拓者和引领者地位2003年开始研发,2008年正式上市的混合动力车型比亚迪F3DM,是中国品牌首款量产插电式混合动力汽车。这款具有里程碑式意义的车型奠定了比亚迪在中国新能源汽车市场中的开拓者和引领中国2030年实现碳达峰,2060年实现碳中和的战略目标日前,我们从比亚迪官方了解到,将有450台比亚迪唐(参数询价)EV车型在广州港集结,启程前往挪威。至此,比亚迪已累计向挪威发运超1000台唐EV。今年5月,比亚迪对外宣布,将挪威作马云为消费者做了这件好事16年,没有一家电商能抄袭!这几天,西安奔驰女车主的案子刷爆了屏幕。她的学历她的知性她的克制最后无奈坐在引擎盖上撒泼都扎痛了所有人的心,只有撒泼才能获得正当权益吗?视频加载中21世纪了,最缺什么?最缺信任!按迎国庆比亚迪唐EV大让利刚刚小编在车友圈看到好多朋友都在讨论唐EV直降5。48,这么诱人的降价幅度,想要购车的朋友们不考虑一下趁机拿下?比亚迪益丰祥泰店,活动时间即日起到09月07日,机会难得,不容错过,