科技

爬虫技术应用合法性引争议 亟待规制非法爬取数据行为

爬虫技术应用合法性引争议

保障数据安全亟待规制非法爬取数据行为

在大数据时代的背景下,愈来愈多的市场主体投入巨资收集、整理和挖掘信息。如果任由网络爬虫任意使用他人通过巨大投入获取的数据资源,将不利于鼓励商业投入、产业创新和诚实经营,甚至可能直接违背了数据来源用户的意愿和知情权,最终势必损害健康的竞争机制。

□ 本报记者 张 维

□ 法制网见习记者 邢国涵

随着社会经济的快速发展,数据的价值日益凸显,已然成为企业科技创新的必备要素。但企业通过技术手段获取数据时,数据抓取技术的应用行为是否合理合法,是一个值得深思的问题。

近年来,网络爬虫“爬取数据”成为热词,相关司法案例不断出现。据不完全统计,近些年涉及网络爬虫的司法案件达十余起,其中既包括民事案件,还包括刑事案件。这类案例甚至还有愈演愈烈之势。

在近日于上海举行的长三角数据合规论坛(第三期)暨数据爬虫的法律规制研讨会上,上海市人民检察院研究室副主任陈超然透露,检察机关正在积极推动企业合规改革试点工作,数据合规正是其中重点。“目前爬虫爬取数据案件非常普遍,当网络平台或者个人通过技术手段抓取别的平台数据时,这种行为是否合法,平台数据主体是谁,归谁使用,值得深入研讨。”

杭州长三角大数据研究院副院长郭兵认为,数据爬虫作为中立性的技术,已在互联网产业领域得到广泛应用。需要注意的是,如果爬虫技术不当应用,会对其他竞争者的合法权益造成损害,甚至涉嫌违法或者犯罪,也将对产业的健康发展产生非常大的负面影响。

爬取数据涉嫌侵权

从技术角度看,爬虫是通过程序去模拟人类上网或者浏览网页、App行为,让其高效地在网上抓取爬虫制造者所需要的信息。

欧莱雅中国数字化负责人刘煜晨说,大多数网站拒绝爬虫访问,其中的原因既包括商业利益考量,也包括自身网站运营安全的考量。除了爬虫可能爬到网站不愿被爬取的数据以外,网站经营者往往还会担心爬虫干扰网站正常运营。

而非正规爬虫自动持续且高频地对被爬取方进行访问,服务器负载飙升,也会给服务器带来“难以承受”之重:应对经验不足的网站,尤其是中小网站可能会面临网站打不开、网页加载极其缓慢、有时甚至直接瘫痪的情况。

新浪集团诉讼总监张喆说,无论是爬虫还是实现其他目的的技术,就其本身而言,都是中立的,但爬虫技术的应用不是中立的,技术应用都带有应用者的目的。这时候不应该评价技术原理,而是需要评价技术用来干什么,这一行为手段是否具有正当性。

提及网络爬虫,robots协议是绕不开的话题。robots协议(也称爬虫协议)的全称是“网络爬虫排除标准”,网站通过robots协议明确警示搜索引擎哪些页面可以爬取,哪些页面不能爬取。该协议也被行业称为搜索领域的“君子协定”。

刘煜晨说,当网络爬虫访问一个网站,robots协议像立在自己房间门口的一个牌子,告诉外来者谁可以过来,谁不可以过来。但是,这只是一个君子协议,只能起到告示作用,起不到技术防范作用。

实践中,恶意爬虫爬取时不遵守网站的robots协议,并可能爬取到不该爬的数据,这种情形并非孤例。小红书法务负责人曾翔说,恶意爬虫案例经常发生在内容平台和电商平台。在内容上被爬取的更多是视频、图片、文字、网红互动数据、用户行为等,在电商领域则多为商家信息和商品信息。

“内容平台一般约定了相关内容知识产权归发布者或者发布者和平台共同所有,这些爬虫没有签订协议就获得用户授权,涉嫌对知识产权人权利的侵犯。”曾翔说。

或应明确网站权利

这就涉及到数据的权属及是否能开放的问题。

上海市浦东区人民法院知识产权庭法官徐弘韬认为,数据是内容产业的核心竞争资源,内容平台经过汇总分析处理后的数据往往具有极高的经济价值。

“如果要求内容平台经营者将其核心竞争资源向竞争对手无限开放,不仅有违‘互联互通’精神的实质,也不利于优质内容的不断更迭和互联网产业的持续发展。”徐弘韬说。

恶意爬虫爬取数据案件频发的背后,是数据的价值增加,以数据为核心的市场竞争愈发激烈。

华东政法大学教授高富平说,进入大数据时代,数据价值再次凸显,现在的爬虫技术已经从原来的网页爬虫进入到底层数据的爬取。数据爬虫问题会变得越来越严重。

在大数据时代的背景下,愈来愈多的市场主体投入巨资收集、整理和挖掘信息,业内人士对此表示担忧:如果任由网络爬虫任意使用或利用他人通过巨大投入所获取的数据资源,将不利于鼓励商业投入、产业创新和诚实经营,甚至可能直接违背了数据来源用户的意愿和知情权,最终势必损害健康的竞争机制。

高富平认为,如果网站合法积累数据资源,那么这些数据资源就应该属于网站的资产。“允许数据生产者、控制者基于商业目的开放数据是有好处的,通过许可使用、交换交易等方式,可以让更多人享用数据服务。期待在未来确认数据所有合法生产者对数据的控制权、使用权。”

有序流转同等重要

目前,网站虽然可以去指定相应策略或技术手段,防止爬虫抓取数据,但爬虫也有更多技术手段来反制这种反爬策略。

刘煜晨说,反爬和爬取的技术一直在迭代,在技术领域,没有爬不了的网站和App,只有愿不愿意爬和多难爬的问题。

据了解,现实中恶意网络爬虫制造者抗辩时,往往将robots协议限制爬取与数据流转联系起来。徐弘韬认为,在“互联互通”的语境下,“有序”和“流转”同等重要、缺一不可,需排除假借“互联互通”妨碍公平竞争、危害用户数据安全的行为。

“对于非搜索引擎爬虫的正当性判别,要考虑是否足以保障用户数据的安全性。包括身份数据、行为数据等在内的用户数据,从属性来讲不仅仅是经营者的竞争资源,同样具有用户的个人隐私属性,而此类数据的集合更涉及社会公共利益。”徐弘韬说。

据了解,近年来有关数据安全的法律规范正在不断完善中。数据安全法作为数据安全的基本法,承载着解决我国数据安全核心制度框架的重要任务。此外,还有2019年通过的密码法,工信部拟出台《工业和信息领域数据安全管理办法(试行)》等,一些地方如深圳、上海等也在探索制定数据管理相关规范。

【责任编辑:欧阳雪】

数字大物业 城乡新动能│厦门翔安“智理”方法论 数据赋能大物业重塑城乡未来

在厦门市翔安区,基层治理的日常正在被一系列智能化场景所改变:堆积如山的海蛎壳在智能系统的精准调度下,变废为宝转化为绿色的环保材料;AI数字社工化身为社区“新成员”,以数百倍于人工的效率完成和各类任务,让社区工作者有更多时间走进群众;无人机与智能摄像头织就全域感知网络,赋予城乡管理“千里眼”

数字化转型有了“导航图”!14个行业可“按图索骥”

曾经“摸黑走路”的制造业数字化转型,如今有了清晰的“施工图”。在近日沈阳举行的2025年两化融合暨数字化转型大会上,一位与会企业代表这样感慨。此次大会上,工业和信息化部正式发布《场景化、图谱化推进重点行业数字化转型的参考指引(2025版)》,为钢铁、石化等14个重点行业绘制了企业数字化转型“场景导航图”。

河北空天控股公司多项创新技术成果亮相 “三年上、五年强”科技成果展

12月6日至7日,河北省国资委监管企业研发投入“三年上、五年强”专项行动科技成果展在河北交投数智产业园盛大举办。河北空天控股公司作为河北交投集团空天信息领域科技创新核心力量,携系列北斗高精尖装备、省级低空交通监管平台、“北斗+低空”危化品监管系统等多项拥有自主知识产权与自主品牌的创新技术成果参展,通过图文解说、音频演示、动态视频等多元化形式,立体化呈现公司在空天信息领域

河北国资成果展:科技赋能,创新成果“多点开花”

科技赋能国企,创新引领发展。12月6日,河北省国资委监管企业研发投入“三年上、五年强”专项行动科技成果展在河北正定新区未来电子信息与装备制造产业基地成功启动,展期2天。成果展期间将举办专家主旨报告会、青年科技人才分享会、专利转化对接会、京津冀三地国资委联合发布《京津冀国有企业青年科技创新倡议书》等系列活动。现场还设有招商洽谈区、成果路演区,旨在打通创新成果与产业需求、金融资本对接的“最

从云计算到星计算:算力革命的技术演进与产业变革​

随着人工智能技术的快速发展和全球算力需求的爆发式增长,传统地面数据中心面临着前所未有的挑战。据统计,到 2026 年,全球数据中心的总用电量或将超过 1000 太瓦时,堪比日本全国的用电量。在能源消耗、土地资源和散热成本的多重压力下,算力基础设施正迎来从地面集中式向天地一体化分布式的范式跃迁。星计算作为这一变革的核心,通过将高性能计算、AI 与边缘计算集成于天基平台,构建分布式卫星星

京广铁路长台关站完成信号系统升级 “智慧机房”助力路网安全提效

日前,经过230分钟紧张有序的施工作业,京广铁路信阳段关键节点站 —— 长台关站计算机联锁设备技术改造工程顺利完工。升级后的新型信号系统与创新建设的“智慧机房”,为这条贯通南北的运输大动脉筑牢安全屏障,进一步提升区域路网运输效能。

智能模型与手术机器人协同,AI医疗开启精准诊疗新时代

医疗大模型具备“专家级”推理能力,手术机器人实现毫米级精细操作,人工智能正重塑从看病到手术的每一个医疗环节。在宁波大学附属第一医院方桥院区,70岁的王阿姨在AI数字人引导下精准挂号,就诊后收到一份AI生成的个性化复查建议。诊室里,医生屏幕已由AI助手自动生成初步病历;手术室内,骨科机器人正辅助医生进行毫米级精准操作。这些场景勾勒出“未来医院”的实景图。智能诊断模型将病变

瞄准九大前沿领域 工信部启动国家新兴产业发展示范基地创建

到2035年培育100个示范园区和1000家示范企业,这一长期计划为中国新兴产业绘制了清晰的发展路线图。工业和信息化部近日正式印发通知,启动国家新兴产业发展示范基地创建工作。该举措旨在面向2035年和“十五五”时期国家发展战略,聚焦新兴产业重点领域,遴选一批具有国内领先水平的产业园区和企业。示范基地创建瞄准新一轮科技革命和产业变革前沿,聚焦新一代信息技术、新能源、新材料、

中国启动“燃烧等离子体”国际科学计划,携手全球点燃“人造太阳”

在安徽合肥未来大科学城,一座名为BEST的紧凑型聚变能实验装置主机大厅内,全球能源未来的一页新篇章正悄然开启。11月24日上午,中国科学院在安徽合肥未来大科学城的紧凑型聚变能实验装置(BEST)主机大厅正式启动“燃烧等离子体”国际科学计划,并首次面向国际聚变界发布BEST研究计划。来自法国、英国、德国、意大利等十余个国家的聚变科学家齐聚合肥,共同签署了《合肥聚变宣言》,

数智赋能解锁文脉守护新范式“今古集”亮相长三角文博会获行业聚焦

11月20日,“今古集:数智赋能·守护文明”2025年社会教育活动在国家会展中心(上海)开幕,活动由中国文物保护基金会科技保护专项基金主办。中国文物保护基金会秘书长陶诚,上海市委宣传部二级巡视员、市文创办专职副主任黄建富,中国科学院院士、同济大学建筑与城市规划学院教授常青等出席活动并致辞,来自文博机构、高等院校、科技企业等众多专家学者与行业代表参加活动。

长三角织就算力“一张网”,数智加速度破局数字时代

一键下单,算力“网购”,87.3EFlops庞大算力资源在长三角地区正像水电一样便捷可及,一场区域一体化的数字革命悄然到来。江苏省一体化算力调度监测平台于11月13日在南京正式上线,这是全国首个省市一体化算力调度监测平台。该平台已监测全省在用数据中心282个,总算力规模达87.3EFlops,其中智能算力占比约70%,成为长三角数字经济的“主力能源”。与此同时,在11月

国家加速制造业升级:到2027年基本建立现代化中试平台体系

工信部最新部署,到2027年底,我国将基本建立现代化中试平台体系,初步形成多主体参与、多领域布局的全国制造业中试服务网络。工业和信息化部办公厅日前印发《关于进一步加快制造业中试平台体系化布局和高水平建设的通知》,明确提出到2027年底,高水平中试平台力量进一步壮大,现代化中试平台体系基本建立,多主体参与、多领域布局、多层次服务的全国制造业中试服务网络初步形成。中试

788 EFLOPS 领跑全球!我国智能算力撑起 AI 创新 “加速度”

截至 2025 年 6 月底,我国智能算力规模达 788 百亿亿次 / 秒(EFLOPS),相当于全球 80 亿人用普通计算器连续运算 4000 年的总量。这一来自工业和信息化部的最新数据,与 1085 万标准机架、1680 艾字节存力共同印证:我国算力基础设施规模已稳居全球前列,正成为人工智能创新的核心引擎。千行百业 “算力赋能” 成效凸显在内蒙古伊利智慧牧场,计算机

中国6G专利全球第一,2025年互联网蓝皮书揭示数字中国新图景

一份备受全球互联网行业关注的年度发展成绩单,在乌镇峰会上如期发布。11月8日,在2025年世界互联网大会乌镇峰会上,由中国网络空间研究院牵头编撰的《中国互联网发展报告2025》和《世界互联网发展报告2025》蓝皮书正式发布。这两份已连续九年面向全球发布的权威报告,全景式展现了过去一年中国和世界互联网发展的新进展与新成就。报告中的一系列数据令人振奋:中国6G专利申请

2025科技创新与产业创新深度融合大会在长沙成功举办

11月1日,由中南大学主办的2025科技创新与产业创新深度融合大会暨中南大学校企联理事会会议在长沙开幕。大会深入贯彻党的二十届四中全会精神,落实“推动科技创新与产业创新深度融合,引领发展新质生产力”的战略部署,旨在充分发挥中南大学教育、科技、人才“三位一体”优势,搭建一个汇聚校友力量、链接产业需求与大学科创资源的高能级平台。

科技赋能健康 创新引领未来 浙江省盐业健康科技研究院挂牌成立

聚焦盐、泛盐产品、泛食品、大健康等领域,致力于开展产品研发、技术创新、产业融合、成果转化、行业研究和人才培养等业务,为浙盐集团转型发展和拓展第二增长曲线提升科研创新支撑,为助力中国盐行业高质量发展注入浙盐新动能。
返回
顶部