爬虫技术违法吗?
先说结论,技术无罪,有罪的是人。爬虫技术本身是不违法的,但是如果利用爬虫技术做损害他人利益的事情就是违法的了。
具体的法律条文,我也记不大清了,目前对于爬虫技术的使用界限没有一个特别明确的规定,按照我之前咨询律师得到答案,大概就是关乎这三个方面:采集途径、采集行为、使用目的。
通过什么途径爬取数据,这个是最需要重视的一点。总体来说,未公开、未经许可、且带有敏感信息的数据,不管是通过什么渠道获得,都是一种不合法的行为。
采集行为上使用技术手段应该懂得克制,一些容易对服务器和业务造成干扰甚至破坏的行为,容易违法
还有就是使用目的,就算你通过合法途径采集的数据,如果对数据没有正确的使用,同样会存在不合法的行为。一种情况是公开收集的数据,但没有遵循之前告知的使用目的。比如有些网站上标明内容不得用于商业行为,还有未经授权不得转载的,些都是有法律明文保护,所以要注意使用。
最后,结合实际情况,给几点建议吧
1、爬虫访问频次要控制,别把对方服务器搞崩溃了
虽然你爬取的信息都是公开的,也不涉及公民隐私,爬取的数据也不用于违法获利,只是自己弄着玩,但是如果你的爬虫太疯狂了,一分钟请求1万次,导致对方服务器应接不暇,不能处理正常业务了,对不起,你这种属于违法行为,这种爬虫等同于进行黑客攻击了,你让人家不能正常工作了,损害了对方的利益
2、 涉及到个人隐私的信息你不能爬
其实这很好理解,你希望你自己的电话号,身份证号,家庭住址,工作单位,行踪轨迹这些隐私信息被别人用爬虫抓取么?当然不希望,别人抓了你的这些信息,你肯定想去报警对不对,让警察去抓那个坏蛋,ok,你不要去做那个坏蛋。
3、 突破网站的反爬措施,后果很严重
正规的网站都会在根目录下放置 robots.txt,这里就规定了哪些能爬,哪些不能爬,谁可以爬,比如知乎的robots.txt,人家希望搜索引擎来爬它,其他的,一概不接受
不过呢,知乎并没有做特别严厉的反爬措施,这就是说,如果你偷偷的爬一点东西,不影响它的正常服务,它也懒得找你麻烦,但对于那种反爬特别严重的,例如淘宝,你最好别去爬,如果你真的利用你的高智商突破了淘宝的反爬措施,那么恭喜你,你已经违法了
4、 不要用爬取的数据做不正当竞争
比如你把大众点评的评论数据都爬下来了,然后自己搞了一个xx点评,这肯定不行,人家辛辛苦苦的积累的数据,你轻轻松松的弄下来,直接拿来主义,跟人家搞竞争,你不违法谁违法。
5、 付费内容,你不要抓
既然是付费内容,说明这东西价值很高,付费才能看,你弄下来了,你想干啥?你私自传播,就对网站造成了潜在损失。
6、最后一条,突破网站反爬措施的代码,最好不要上传到网上
你技术很牛逼,能突破网站的反爬措施,你把这些代码发布到网上,比如github,你自己没做啥坏事,可是想做坏事的人利用了你的代码,入侵了网站,那么,这种情况下,你也是有责任的,这个听起来有点冤,但确实存在这样的风险,所以,最好还是不要这么干
说实话,互联网上确实这两年出现了很多爬虫违法,爬虫被抓的事情。
关于爬虫是否违法,我们先从一个案例开始分析。据海淀法院官网消息, 近期,海淀法院审结了一起利用 "爬虫" 技术侵入计算机信息系统抓取数据的刑事案件。该案系全国首例利用 "爬虫" 技术非法入侵其他公司服务器抓取数据,进而实施复制被害单位视频资源的案件。大概事情是这样的:使用爬虫技术的公司于 2016 年至 2017 年间采用技术手段抓取被害单位北京某网络技术有限公司服务器中存储的视频数据,并由被告人破解北京某网络技术有限公司的防抓取措施,使用 "tt_spider" 文件实施视频数据抓取行为,造成被害单位北京某网络技术有限公司损失技术服务费人民币 2 万元。经鉴定,"tt_spider" 文件中包含通过分类视频列表、相关视频及评论等接口对被害单位服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制。
通过上述的案例,我们可以看出:
这个案例中被告人使用伪造 device_id 绕过服务器的身份校验,使用伪造 UA 及 IP 绕过服务器的访问频率限制进行爬虫说明是违背了内容提供者意愿的。
说实话,做过爬虫的都知道,常用的反爬虫手段基本上都是这样的,限制 IP 的访问次数,检查判断是否有同一个设备在频繁不断请求(也就是检查 device_id) 。
说白了最常见的反爬虫手段有三种:
通过分析用户请求的 Headers 信息进行反爬虫。
通过判断同一个 IP 或者同一个设备,在短时间内是否频繁访问对应网站等进行分析;
通过动态页面增加爬取的难度,达到反爬虫的目的。
对于爬虫者来讲,可以非常方便的获取别人辛辛苦苦收集和整理的信息,内容等,但是大量的爬虫也可能会给内容提供者的网站和服务器造成重大的压力,因为有些暴力爬虫者,不管三七二十一,频繁请求别人的服务器,导致服务器压力过大。
我们一起来看看爬虫和反爬虫的攻与防,以及给别人的服务器带来的压力和损失。
所以,作为技术人来讲,爬虫要讲究规则和方法的,一定要善用爬虫,慎用爬虫,爬虫虽好,但是一定不要侵权,尤其是盗取别人的原创内容和知识,更不要传播具有版权的内容和产品。
在这起案件中,法官认为:
在信息时代,"爬虫" 技术是一种常见的数据抓取技术,最常用的领域是搜索引擎,该技术的有效使用有利于数据的共享和分析、造就了互联网生态的繁荣,但并不意味该技术的使用没有边界。法官在此提醒互联网行业的从业人员,必须在法律的框架之内合理使用该技术,违反法律规定利用该技术非法获取数据可能构成犯罪。
所以这起案件给我们的提示和警醒就是:
要善用爬虫,不要爬虫具有版权和原创的知识,内容,产品,更不要传播。
要慎用爬虫,不要使用爬虫技术去获取违背内容提供者意愿的信息。
要对用爬虫,不要暴力使用爬虫技术,给别人的服务器造成压力和损害。
尤其是利用爬虫技术获取信息去获利,去商用的人和企业,尤其是同行之间竞争的人,要小心了,一旦被抓到,这个案例就是一个很好的例子。
然后我最近在读极客时间的专栏,在专栏《白话法律》中,律师是这么说的,总结下来:
第一,如果你爬取信息,严格遵守"Robots 协议",没有任何越权的行为,搜集的也是公开可以查询的非隐私级的信息。那么,你的行为基本不会违法。其实很多网站也很希望数据被抓取,比如被百度或者 Google 的爬虫采集。
另外,需要强调的是,"Robots 协议"本身并没有法律效力,但在行业内大家基本都会遵守,法院的判案也越发看重这一点。所以这类爬虫不难理解,没有恶意,也并不攫取非公开类的信息,虽然有时会遭到反感,但是并不违法,也是互联网发展必须的技术。
第二,如果你爬取信息,是为了证明被爬公司的数据造假,其获取的数据也都是通过公开渠道可以查询的,那么,在获取信息后公布于众的行为并不违法,也不侵犯被爬公司的民事权益。但是,如果你爬取公开免费的信息,是用来进行违法操作,比如造假、诽谤等,就有隐患了。
第三,如果你利用爬虫获取其他公司的公开信息数据,用于自身公司的经营。而被爬公司的信息是投入了大量人力、财力,经过常年积累获得的,并且被爬公司本身也采取了反爬措施。这种情况下,虽然信息是公开的,但信息本身具有较高的商业价值,能够给使用者带来商业利益,此时的爬虫也是违法的。
第四,如果你未经平台授权,强行突破反爬措施,导致被爬网站的运行受到严重影响,这种行为明显是违法的,这里涉及的就是我们上一个技术篇讲到的破解犯罪了。
第五,如果你是第三方应用,想要通过开放平台获取用户信息时,更要注意授权问题。从用户对平台的授权、平台对第三方的授权、再到用户对第三方的授权,三重关卡都要通过才合法。
所以,其实爬虫技术本身并不违法,违法的是你爬虫的数据是否侵犯了别人的隐私,版权,是否爬人家的数据用于获利了等,这样的情况下属于违法。
关注「非著名程序员」,每天分享有价值的科技内容,也欢迎大家在回答底下留言,一起交流分享,另外回答不易,请点赞支持。感谢!
不违法。
爬虫的技术本身不违法,爬取信息一般也不违法。
但是信息不能直接使用,特别是涉及到隐私的。
搜索引擎不就是爬网页然后对其中的内容建索引吗?如果爬虫技术天生违法,那么搜索引擎就都是非法的了。显然这与事实相违背。
事实上一种技术本身谈不上违法,基于这种技术的应用才有合法违法之分。搜索引擎是一种应用,为什么不违法,是基于几个前提:一是利益交换前提,在网页泛滥的时代,网站需要流量,而被搜到然后访问是一个很好的流量来源,所以被搜索引擎爬是有好处的。第二是授权的前提,网页被公开访问,默认可以被搜索引擎爬,但也可以通过robot协议约束搜索引擎可爬的范围。robot协议更多是一种软性的约束,是属于约定俗成,正规的搜索引擎会根据这个来爬被允许访问的页面,如无约束则默认都爬。
那么什么样的爬虫应用是违法的呢?第一是未经授权将别人的网站或者应用里的数据爬过来,这属于窃取信息的性质。第二是将爬来的信息进行直接售卖或者为己所用获利。第三是泄露爬到的信息里的个人隐私,无论是否获利,均涉嫌泄露个人信息罪。
只要不是爬别人的隐私和那种商用内容,像视频网站的付费内容,一般是没问题,
爬虫算是灰色地带,他们睁一只眼闭一只眼,只要没人举报或者不大量爬一般没事但是建议不要做
技术本身无罪,违法都是有心人用技术做坏事!
最近在 GitHub 发现了一个爬虫库,这个库整理了所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规。
GitHub 地址:
https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China
该库初衷是为了帮助在中国大陆工作的爬虫行业从业者了解我国相关法律,避免触碰数据合规红线。
目前收纳了违法爬虫四类共 9 个项目:
爬虫禁区1:为违法违规组织提供爬虫相关服务(验证码识别服务贩卖、SEO……)
CASE1:知乎某极验破解者自述被抓(已删除)
链接:
https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China/tree/master/case1
知乎部分内容.png
CASE2:"快啊答题"AI破解验证码服务开发者被判刑
CASE9:永嘉警方揪出"黑"百度黑客团伙 干扰搜索引擎牟利超过七千万元
爬虫禁区2:个人隐私数据抓取与贩卖
CASE3:简历大数据公司"巧达科技"被一锅端
CASE4:社保掌上通被下架 用户的信息很容易泄露太不安全了
CASE5:爬虫为何受关注?业内:大数据服务商或因合作方涉嫌套路贷犯罪而被牵连
爬虫禁区3:利用无版权的商业数据获利
CASE6:"车来了"涉嫌偷数据被警方立案
CASE8:裁判文书网数据竟被售卖:爬虫程序抓取 或成侵权
爬虫禁区4
CASE7:头疼大战前传:头条前高管反噬被判刑
知道了爬虫的禁区,还十分有必要了解以下相关法律介绍。
虽然爬虫诸多方面方面限制颇多,但并不妨碍它是时下热门的一个主题,现在各行各业都进入大数据时代,数据挖掘和分析是人才市场必不可少的专业,这些工作最合适的莫过于python,感兴趣的朋友可以看看下面这两本关于python爬虫的书籍,或许对你有帮助!非法获取计算机系统数据罪
根据《中华人民共和国刑法》第二百八十五条规定,非法获取计算机信息系统数据、非法控制计算机信息系统罪,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。刑法第285条第2款明确规定,犯本罪的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
侵犯商业秘密罪
《反不正当竞争法》第九条,以不正当手段获取他人商业秘密的行为已经构成侵犯商业秘密。而后续如果进一步利用,或者公开该等信息,则构成对他人商业秘密的披露和使用,同样构成对权利人的商业秘密的侵犯。
非法侵入计算机信息系统罪
《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,也构成犯罪,依照前款的规定处罚。
网络安全法
《网络安全法》第四十四条 任何个人和组织不得窃取或者以其他非法方式获取个人信息。因此,如果爬虫在未经用户同意的情况下大量抓取用户的个人信息,则有可能构成非法收集个人信息的违法行为。
民法总则
《民法总则》第111条任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全。不得非法收集、使用、加工、传输他人的个人信息
侵犯公民个人信息罪
《刑法》修正案(九)中将刑法第二百五十三条进行了修订,明确规定违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,构成犯罪;在未经用户许可的情况下,非法获取用户的个人信息,情节严重的也将构成"侵犯公民个人信息罪"。根据《最高人民法院 最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条规定,对"情节严重"的解释,(1)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;(2)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;(3)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成"侵犯公民个人信息罪"所要求的"情节严重"。
要看你做什么事情了,例如说,黑客技术违法吗?还有大量黑客教程,但是盗取别人隐私就违法了。
所以,爬虫技术违法吗?不违法,如果你用来破坏,爬取一些个人隐私那就违法了。