达晓律师事务所

穿过你的数据我的手 ——网络信息爬取行为的合法边界探析

2019-11-14 15:14:56

作者:郭秋燕
单位:达晓律师事务所
邮箱:guoqiuyan@daresure.com
 

近日,一则“51信用卡软暴力催债,涉嫌寻衅滋事等犯罪行为”的新闻成为大家热议的话题。有业内人士表示51信用卡涉刑与其通过爬虫程序抓取用户信息有关,同时出示了某银行致51信用卡的警示函,称银行通过技术监控发现,51信用卡通过爬虫程序在未取得用户和银行授权的情况下对该行用户信息进行抓取。可见,随着互联网大数据时代的发展,数据交互技术的发展一方面给人们获取信息带来了极大便利,另一方面也给不法分子以可乘之机。本文尝试通过分析司法案例来说明数据利用行为在司法实践中的规制。

——引言

 

 
 

一、数据抓取技术的广泛应用

所谓数据抓取,主要指通过使用网络爬虫等软件程序,对目标对象在用户输出端反馈的数据进行大规模复制的行为。而网络爬虫是数据抓取得以实现的常见技术手段,对于网络爬虫这个词汇想必大家都不陌生,前几年闹得如火如荼的“3B大战”将网络爬虫、爬虫技术、robots协议等计算机词汇引入大众认知。网络爬虫(Web Crawler),也被称为网络蜘蛛、蜘蛛爬虫(Web Spider)或网络机器人(Web Robot),是互联网时代一项运用非常普遍的、中立的网络信息搜索技术,其本质是利用所谓爬虫,按照人们预设的规则自动化浏览、提取网络中的信息,并下载到本地形成互联网网页镜像备份的程序。

 

这一技术最早应用于搜索引擎,是搜索引擎获取数据来源的支撑性技术之一。但随着大数据时代的到来,商业模式的不断创新,网络爬虫在互联网中的地位将越来越重要,众多经营者运用、甚至是依赖爬虫技术开发应用场景和商业模式的情况越来越多。如互联网新闻资讯抓取、金融数据抓取、天气预报信息抓取,甚至是法律法规库、裁判文书网的数据亦在被大量抓取。

 

 
 

二、使用网络爬虫实现数据抓取的方式

笔者在以往参与办理过的数据抓取类案件中总结了获取网络数据信息的方式,主要分为以下三大类:

 

第一类为通过互联网前台获取数据,即对相关公众从互联网媒介前端直接可见的信息(如文字、图片、视频)进行复制。这种复制是直接拷贝看到的文字、图片、视频等内容。此类抓取内容并非复制计算机代码。

 

第二类为通过目标平台后台服务器获取信息,其中又可细分为三类:第一种方式为以搜索引擎的身份读取目标平台robots协议获取数据;第二种方式为以开发者身份调用目标平台向其开放Open API接口获取数据;第三种方式是以用户或合作者/被授权者的身份向目标平台发出获取信息的请求,直接从后台服务器获取数据。以上使用第二类抓取方式复制的内容均为计算机代码。

 

第三类为伪装成用户、伪装成目标平台客户端或直接破坏目标平台后台服务器的方式获取数据信息。

 

前两类抓取数据的行为,在获得目标平台、信息所有者用户事先或事后同意的情况下,属于合规的抓取方式。而第三种抓取行为属于未经目标平台及其用户许可擅自抓取数据的行为,尤其是抓取数据后的使用行为,在实践中可能构成著作权侵权、侵害个人信息、不正当竞争等,甚至构成非法侵入计算机信息系统罪、破坏计算机信息系统罪等刑事责任。

 

 
 

三、数据抓取在实践中引发的法律问题

在实践中,网络爬虫技术的应用十分广泛,特别是在网络信息严重过载的大环境下,通过数据抓取技术对网上的各类信息进行批量归集,并对其进行有效的筛选和检索,无疑大幅度的提高了信息获取和传播的效率。然而,当行为人抓取的对象锁定那些构成目标平台核心竞争力的数据资源,并进行不当使用时,法律纠纷就可能随之产生。那么接下来,笔者就来谈一谈当抓取主体未获得任何目标平台、相应作者授权的情况下,擅自抓取数据并进行使用的法律风险。

 

第一,从数据信息获取方式及涉及的侵权行为而言,前点第一类抓取数据的方式涉及抓取主体从互联网前端直接复制相关公众直接可浏览网页上的文字、图片、视频等内容,在实际使用中会涉及侵犯前端网页内容创作者的权益。如侵犯抓取文章、微博、发帖、视频、图片等内容相应作者或所有者的合法权利,但此方式不涉及擅自抓取来源网站服务器数据的风险。

 

第二,前述第二类抓取数据的方式涉及的如果抓取主体拟通过目标平台robots协议抓取数据,那么应以搜索引擎的身份先行查看目标平台robots协议根目录,如robots协议对抓取主体没有限制,或抓取主体为目标平台robots协议白名单成员,则可以进行抓取。反之,如robots协议设有白名单成员,且抓取主体不在白名单中,那么应该及时退出,否则将涉嫌实施违反诚实信用原则和商业道德的不正当竞争行为。如经典案例“3B大战”,百度已在其robots协议中明确不允许360爬虫进入,奇虎360的爬虫仍然对百度百科、百度知道等数据进行抓取,并作为搜索结果直接提供给网络用户。法院认为,其一,robots协议是整个互联网行业普遍认可和遵守的规则。百度的robots协议明确禁止奇虎360爬虫机器人抓取相关内容,奇虎公司网站在推出搜索引擎服务之初,包括在其搜索引擎服务上线之前的准备阶段,为了对百度网站进行抓取以便向网络用户提供最全面的搜索结果,没有遵守行业内公认的、应当被遵守的商业道德,其行为明显不当;其二,当搜索引擎服务商与网站服务商或所有者对robots协议内容产生纠纷时,应当遵循书面修改请求+协商的程序处理。如认为robots协议设置不合理,可提出书面修改robots协议、准许其爬虫机器人抓取的请求。如网站服务商或所有者不同意修改,应当在合理的期限内,以书面形式明确提出其拒绝修改robots协议的合理理由告知对方。如双方对协议设置内容有争议,可由相关执行机构或行业协会先行调解和裁决。调解不成的,可通过诉讼、申请行为保全等法律措施予以解决。

 

第三,如果抓取主体为目标平台的开发者或合作方,那么应遵守与目标平台签订的开发者协议或商业合作协议约定,在授权抓取数据的范围内获取数据,且合作结束后应及时停止抓取行为。被称为互联网大数据引发的不正当竞争第一案的新浪微博与脉脉案,即源于脉脉与新浪微博合作共享微博Open API开放端口数据期间,脉脉在未经微博授权、也未经微博注册用户许可的情况下,将脉脉用户手机通讯录里的联系人与新浪微博用户进行对应,并展示在脉脉用户“一度人脉”中。而且,在双方合作终止后,脉脉仍继续使用这些信息。法院经审理认为,脉脉在获取新浪微博用户信息的行为上存在主观过错,违背了在Open API开发合作模式中,第三方通过Open API获取用户信息时应遵守的“用户授权+平台授权+用户授权”的三重授权原则,超范围、超权限抓取新浪微博相关用户信息,并对抓取到的信息进行商业性使用,导致微博用户信息泄露,从而构成不正当竞争行为。

 

第四,前点第三种抓取数据的方式涉及利用网络爬虫或软件获取、破坏计算机系统,进行不当访问、收集、获取、干扰的行为,将涉嫌追究抓取主体的刑事责任。如:(1)在数据抓取过程中实施了非法控制行为,可能构成非法控制计算机信息系统罪。(2)通过网络爬虫访问收集一般网站所存储、处理或传输的计算机信息系统数据,可能构成刑法中的非法获取计算机信息系统数据罪。这里的“计算机信息系统数据”经实践总结大体涉及五类,一是软件、程序的身份认证信息,如账户密码;二是虚拟财产类,主要涉及网游账户中的游戏币、设备等;三是单位数据库中的企业经营信息、客户信息等涉及商业秘密类数据;四是手机移动端存储的各类数据,包括微信数据、通讯录等;五是视频文件等未经购买禁止无偿下载的虚拟商品。行为方式是“侵入”+“取得”。(3)使用网络爬虫技术频繁访问目标平台数据服务器,造成对目标平台功能干扰,导致其访问流量增大、系统响应变缓、影响正常运营的,或是使用软件通过篡改、破解等手段对目标平台系统进行破坏,可能涉嫌破坏计算机信息系统罪。(4)违反相关法律法规,获取信息后又向他人出售或者提供公民个人信息,情节严重的,可能构成侵犯公民个人信息罪。

 

第五,鉴于网络爬取手段的技术是中立的,在大数据环境下,也有部分经营者会对抓取数据进行算法分析,以热搜关键词的方式对外提供跳转链接,以降低不当抓取并展示带来的高侵权风险。但是,这种设置跳转链接的方式也并非完全没有法律风险,如被抓取对象本身提供的数据信息涉及侵权,那么如果抓取主体在抓取行为后对抓取信息进行整理、分类等编辑行为,又对编辑后的内容进行了链接、推送,那么这种编辑+推送侵权内容的行为可能构成帮助侵权。此外,如果抓取内容本身不涉及侵权内容,谨慎而言,此种跳转链接的设链方式也有可能涉及不正当竞争。目前一些知名信息交互类网站的营收模式大多为第三方在平台中的广告投放,通过用户浏览广告或载有广告的网页来实现营收。用户如想浏览目标网站的文章、视频,从其打开目标网站到找到想要浏览的内容过程中会涉及多个步骤,各步骤有可能呈现多次广告,从而给目标平台产生或增加收入。但抓取主体使用定向链接跳转方式,致使用户原本应该浏览广告和打开的页面未被浏览,可能会造成目标平台商业收益减少的后果,破坏目标平台商业模式,构成不正当竞争。

 

 
 

四、合法合规使用抓取数据的方式

数据抓取可以极大地降低抓取主体获取信息的成本,因此数据抓取技术被广泛应用存在其经济动机。但数据抓取行为并不能因为技术中立而豁免法律的约束,商业环境下的数据抓取行为必须满足合法合规的前提。

 

常见的误区有:

 

  1. 公开的数据即可随意抓取。确实,某些商业模式下,用户及目标平台乐于向公众展示其数据信息,例如微博、论坛、消费评论、图片及视频分享等网络环境。但这种公开展示行为并不代表着用户及平台愿意或同意任意第三方可随意抓取其公开信息。盲目地对此类信息进行抓取并迁移到其他网络环境下使用,同样会造成侵权后果。

  2. 非敏感类的信息即可随意抓取。目前,我国对个人隐私的保护日渐趋紧,很多互联网公司已经非常注重侵犯个人隐私的法律风险并予以规避。但不涉及个人隐私的非敏感信息也并非“法外之地”,网络环境下传播的信息可能因其属性不同而受到不同法律机制的保护,这些法律机制保护的侧重点或许不同,但法律保护的效力同样要求我们不能越雷池一步。

  3. 合法获得的信息即可随意使用。如前所述,信息爬取可以通过爬虫技术、注册的用户/开发者身份、授权开发的Open API端口等方式实现。然而,通过这些合规方式获取的信息也不能不受任何限制地进行商业应用。数据信息的获取与数据信息的使用是两个不同的场景,使用数据信息的方式和目的同样需要符合法律的相关规定。

 

从数据类抓取案件中可知,对企业而言,数据信息是一个企业的核心竞争资源,理应进行保护。抓取主体在抓取数据时应遵守网络安全法、《信息安全技术 个人信息安全规范》等相关法律法规的规定和行业惯例、商业规则的约束。在使用抓取数据时应尽可能遵守“三重授权原则”,即平台方直接收集、使用用户个人信息需获得用户授权;第三方/开发者间接获得用户数据,则需同时获得用户授权和平台方授权。而且,该原则之所以叫做“三重授权”,意味着“用户授权+平台授权+用户授权”需同时满足,缺少任何一方授权,都将违反“三重授权原则”。

 

当然,有原则必有例外,如抓取主体对抓取到的一般用户信息(非敏感信息)实施了匿名化、去标识化、脱敏化处理等措施,无需取得平台、用户的授权。不过,这种例外情况亦有严格的要求,如(1)经过去标识化、脱敏化处理的数据已无法识别出特定对象的身份,且数据无法进行复原;(2)抓取信息应加密处理,并在使用完毕后及时删除;(3)抓取信息的数量和频率应控制在最小化范围内。对个人信息提供者不会产生不利影响。

 

 
 

结 论

网络环境如同花花世界,各种信息纷繁复杂。对信息的获取、加工和利用的技术不断发展,由此产生的新商业模式也是层出不穷。市场经营主体在认识到信息作为资产的重要价值之后,纷纷加强了对信息获取和保护的力度,信息爬取过程中也充斥着各方经营者的角力对抗。

 

在此过程中,市场经营主体在强调信息无界限、技术中立等原则的同时,也需要尊重其他经营主体的经济权利和商业模式,不可片面地利用信息爬取技术来“损人利己”。

 

参考文献

刘明《数据抓取行为的规制路径》,2019年3月5日互联网mate

高嵩松《网络爬虫:技术虽中立,结果却未必》2019年8月30日高律师随笔

吴月琴《数据抓取中的合规风险与应对》,2019年9月25日华诚律师事务所

张韫然《大数据时代“数据爬虫”法律合规分析(上)》,2019年9月27日槛内法律人

张玲玲《以新浪微博诉脉脉案为例看反法第二条的适用》,2017年8月16日腾讯研究院

周伊璐《数据抓取与利用行为的不正当竞争法规制》,2017年12月29日华政东方知识产权

《非法获取计算机信息系统数据罪》,2019年4月13日刑侦案审

(2013)一中民初字第2668号民事判决书北京市第一中级人民法院民事判决书

(2016)京73民终588号民事判决书北京知识产权法院民事判决书