數(shù)據(jù)爬蟲技術作為一種重要的數(shù)據(jù)采集手段,被廣泛應用于互聯(lián)網(wǎng)的諸多領域,也引發(fā)了越來越多的爭議,例如與其相關的互聯(lián)網(wǎng)企業(yè)之間不正當競爭甚至刑事犯罪問題,已然成為數(shù)據(jù)產(chǎn)業(yè)發(fā)展中亟待解決、法律實務中需要進一步厘清的焦點之一。
近日,上海市楊浦區(qū)檢察院組織召開“數(shù)據(jù)爬蟲的法律合規(guī)研討會”,法律實務界人士、高校專家學者與企業(yè)代表圍繞數(shù)據(jù)爬蟲的概念和技術原理、行業(yè)自治規(guī)范、合法性邊界和法律適用等主題開展了深入研討。
數(shù)據(jù)爬蟲的概念和技術原理
大數(shù)據(jù)時代,數(shù)據(jù)資源是互聯(lián)網(wǎng)企業(yè)發(fā)展的重要基礎。當下,數(shù)據(jù)爬蟲是企業(yè)采集公開數(shù)據(jù)的常用技術手段之一。通過數(shù)據(jù)爬蟲技術,可以實現(xiàn)對文本、圖片、音頻、視頻等互聯(lián)網(wǎng)信息的海量抓取。那么,數(shù)據(jù)爬蟲到底是什么,其技術原理又是什么?
對此,上海市楊浦區(qū)檢察院檢察官邵旻認為,爬蟲是一種自動化瀏覽網(wǎng)絡程序,其按照設置的規(guī)則通過模擬人工點擊來自動抓取互聯(lián)網(wǎng)數(shù)據(jù)和信息,從而自動、高效地讀取或收集互聯(lián)網(wǎng)數(shù)據(jù)。該技術運行的基本原理是根據(jù)搜索目的建立待爬行的URL(統(tǒng)一資源定位器)隊列,從中取出URL,訪問該URL對應的頁面,并進行頁面解析,提取此頁面上所有的URL并存入待爬行隊列中。如此循環(huán)爬行,直到URL隊列中的所有URL爬行完畢或滿足系統(tǒng)的一定停止條件為止。
歐萊雅中國區(qū)數(shù)字化負責人劉煜晨表示,從技術角度觀察,數(shù)據(jù)爬蟲就是用程序模擬人類通過瀏覽器(或者App)上網(wǎng),高效地去網(wǎng)上抓取其所需要的數(shù)據(jù)信息的過程。爬蟲可以抓取所有數(shù)據(jù),也可以按條件抓取所需要的數(shù)據(jù)。
當然,數(shù)據(jù)爬蟲技術運用不當也會產(chǎn)生不良影響,小紅書總法律顧問曾翔分析認為,爬蟲技術應用不當既可能侵犯個人和平臺權利,也可能破壞互聯(lián)網(wǎng)公共管理秩序,進而導致社會資源浪費。
數(shù)據(jù)爬蟲技術應用的行業(yè)自治規(guī)范
邵旻認為,網(wǎng)站通常會采取適當措施,如運用Robots協(xié)議、爬蟲檢測、加固Web站點、設置驗證碼等限制爬蟲的訪問權限,以防止爬蟲對數(shù)據(jù)進行過度抓取。其中,Robots協(xié)議由于簡單高效,成為國內外互聯(lián)網(wǎng)行業(yè)普遍通行、遵守的技術規(guī)范。Robots協(xié)議主要是限制網(wǎng)絡爬取數(shù)據(jù)的行為。被爬取數(shù)據(jù)方將寫有可爬取信息范圍的Robots協(xié)議文件放到該網(wǎng)站,僅允許數(shù)據(jù)爬取方在協(xié)議范圍內爬取數(shù)據(jù)。
華東政法大學教授高富平認為,Robots協(xié)議是在搜索引擎誕生并且發(fā)展壯大的背景下應運而生的,它是互聯(lián)網(wǎng)企業(yè)間相互博弈的結果,是最終在商業(yè)利益、用戶個人利益和網(wǎng)站自身安全的基礎上達成的一種妥協(xié)。其主要是起到一種排除作用,當某些網(wǎng)站不愿意其數(shù)據(jù)被搜索引擎所抓取時,這些網(wǎng)絡機器人就會自動排除這些不愿意被抓取的內容。對于Robots協(xié)議約定不能爬取的范圍是爬蟲的紅線,不能超過這個紅線邊界爬取數(shù)據(jù)。
數(shù)據(jù)爬蟲的合法性邊界和法律適用
高富平認為,爬蟲是支撐數(shù)據(jù)經(jīng)濟的一種手段,在這樣的前提下,判斷爬蟲合法性邊界可以參考以下因素:一是數(shù)據(jù)是否屬于開放數(shù)據(jù)。數(shù)據(jù)是否公開不是合法性判斷的標準,是否為開放數(shù)據(jù)才是,公開數(shù)據(jù)不必然等同于開放數(shù)據(jù);二是取得數(shù)據(jù)的手段是否合法。爬蟲采用的技術是否突破數(shù)據(jù)訪問控制,法律上是否突破網(wǎng)站或App的Robots協(xié)議;三是使用目的是否合法。如果爬蟲的目的是實質性替代被爬蟲經(jīng)營者提供的部分產(chǎn)品內容或服務,則會被認為目的不合法;四是是否造成損害。爬蟲是否實質上妨礙被爬蟲經(jīng)營者的正常經(jīng)營,是否不合理增加運營成本,是否破壞系統(tǒng)正常運行。對于超越合法邊界的數(shù)據(jù)爬蟲,從民事法律規(guī)制角度,可以區(qū)分四種情形:首先,對于公開數(shù)據(jù)的爬取行為。如果數(shù)據(jù)權利方在Robots協(xié)議或網(wǎng)頁中告知了可以爬取的范圍以及其他應遵守的義務,爬取方?jīng)]有遵守義務,應當承擔相應民事責任。其次,對于突破網(wǎng)站或App的反爬蟲技術設置的行為。爬蟲從技術上突破數(shù)據(jù)訪問控制,如突破網(wǎng)站或App的Robots協(xié)議以及設置的爬蟲檢測、加固Web站點等限制爬蟲的訪問權限,可能違法,要承擔相應的民事責任。再次,對于數(shù)據(jù)使用目的不正當?shù)男袨?。對于爬取到的?shù)據(jù),如果使用目的是實質性替代被爬蟲經(jīng)營者提供的部分產(chǎn)品內容或服務,屬于侵犯權利方合法權益的行為,應當承擔相應民事責任。最后,對于給權利人造成損害的行為。如果因為爬蟲行為實質上妨礙權利人的正常經(jīng)營,不合理增加權利人運營成本,破壞網(wǎng)絡系統(tǒng)正常運行,給權利人造成損失的,權利人可以向爬蟲行為人提起侵權之訴。
邵旻建議,從三個方面劃定數(shù)據(jù)爬蟲技術合法使用的邊界:一是合法的網(wǎng)絡數(shù)據(jù)爬取應限于對開放數(shù)據(jù)的獲取。如果網(wǎng)絡爬蟲獲取非開放的數(shù)據(jù),便涉嫌違法甚至犯罪;二是合法使用的數(shù)據(jù)爬蟲技術不應具有侵入性,可以說,爬蟲的侵入性是其違法性的主要體現(xiàn);三是數(shù)據(jù)爬取應當基于正當目的,對開放數(shù)據(jù)的獲取可能因不符合正當目的而具有違法性。對開放的非商業(yè)性數(shù)據(jù)的爬取應當要求符合公共利益之根本目的。對開放的商業(yè)性數(shù)據(jù)的爬取則可借鑒版權法上的合理使用原則,要求基于合理利用目的。著眼刑事法律角度規(guī)制數(shù)據(jù)爬蟲,可以從爬蟲行為和數(shù)據(jù)使用兩方面入手:其一,明知沒有授權而故意避開或強行突破網(wǎng)站或App的反爬蟲技術設置進行的爬取行為,屬于“未經(jīng)授權”訪問或獲取數(shù)據(jù),行為人應依法承擔相應責任包括刑事責任。根據(jù)我國刑法規(guī)定,突破技術屏障入侵他人計算機系統(tǒng)、獲取系統(tǒng)內的數(shù)據(jù),可能涉及的罪名包括非法侵入計算機信息系統(tǒng)罪、非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪、破壞計算機信息系統(tǒng)罪。此外,如果利用爬蟲技術非法獲取公民個人信息,可能觸犯侵犯公民個人信息罪。其二,對于使用爬取的數(shù)據(jù)實施的犯罪行為,刑法也予以特別規(guī)制。如對獲取的信息數(shù)據(jù)加以傳播、利用或改造,有可能涉及傳播淫穢物品罪、侵犯商業(yè)秘密罪、侵犯著作權罪等。
(作者單位:上海市楊浦區(qū)人民檢察院)
關鍵詞: 數(shù)據(jù) 須遵規(guī)
關于我們 廣告服務 手機版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 www.tkjt8.cn 愛好者日報網(wǎng) 版權所有 聯(lián)系網(wǎng)站:435 226 40@qq.com