由于工作中制作报表需要多个数据源的数据,要从不同的公司网站或外部网站获取,一个个登录,填写查询条件再导出数据则效率较低。故自学用python实现自动化网站爬数。由于初学,频遇大坑,屡败屡试,几欲放弃,最后柳暗花明,测试成功,故做小记,聊以纪念,并分享给有兴趣的朋友,避免踩坑。 一、验证码识别: 登录网站时的字母或数字验证码可用pytesseract库来识别,但提取的验证码图片位置参数时比较麻烦,须根据屏幕分辨率手工一点点调整,如果换了电脑也有可能要重新调整。这个比较耗时间。 二、框架切换: 同一个网站往往要从不同的报表导数,切换报表时要重新定位框架,框架定位也是个难点,定位路径要按F12后查找,而且往往要用多重定位。 三、日历选择: 查询条件中的日历选择也是个大麻烦,刚开始想在弹出的日历上定点选择,发现太难操作,最后还是简单粗暴,强制去除只读属性再行输入,就是不知道这招是不是所有网站都适用了。 大家使用Python爬数据的时候有什么经验和技巧,欢迎一起探讨交流,共同进步!