科技

人工智能背后的人工力量:机器学习必需数据标注

“目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”

目前人工智能落地场景不断丰富,智能化应用正改变着我们的生活。而在AI产业高速发展的背后,数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。

近日,支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式,计划旨在通过AI产业释放出的大量就业机会,在贫困地区培训相关职业人才、孵化社会企业,让贫困群众实现在家门口就业脱贫。

这些从业者不需要背井离乡,她们可以受训上岗,为AI机器学习进行数据的分类和标注工作,让机器可以快速学习和认知文字、图片、视频等内容,成为一名“AI培育师”。

机器学习必需数据标注

AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”

但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。

王金桥介绍,从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。

不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。

人工标注帮助AI快速落地

随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。

“目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说,“这个阶段数据对性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利,但标注公司除外。”

据王金桥介绍,国外也是一样,无人零售、无人驾驶等都需要大量的人力,基于用工成本的问题,除了隐私数据之外,他们会把标注工作放在第三世界国家完成,马来西亚、泰国、印度等国家都有数据标注分公司。

常见的报道中,数据标注总被描述为“血汗工厂”,这项工作和从业者被描述得廉价低质,人被重复性机械式的劳动异化。在王金桥的解释下,这一刻板印象也被逐渐打破。

他直言,目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。

“比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测,类似工作可以很大程度上由机器代劳。”王金桥说,目前人工智能的智能性虽然比较弱,但在各行各业都会带来改变,这是AI推动产业革命的机会。

数据标注需求持续增加

“现在科研界研究的都是无监督、小样本的深度学习,通过三维合成数据,用虚实结合的数据生成方式来训练机器,尽量减少数据的采集和标注,让机器自主学习、自主进化。”王金桥说,但由于缺乏理论上的突破性技术,所以虽然技术增长速度很快,但整体水平还比较低,目前的深度学习还是依赖基于统计意义的大数据模型,这要求数据足够多、足够均衡、基本满足真实世界的分布。

因此,标注这项工作会一直存在。

但王金桥也表示,随着无监督、小样本深度学习的进步,重复性标注的工作量会越来越少。“机器的识别和人一样,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝。机器也需要不断理解更多的内容,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考。”

目前的数据标注公司基本采取“计件付费”的模式,标注员的待遇与任务量和难度直接相关,熟练工一天能标几千张图片,月收入最高过万。这项工作也有一定专业性,受过培训才知道怎么标、标得清楚,人也要认真细心。“每天产生的数据量太大了,数据量持续增加,对标注的需求也持续增加。”王金桥说。

据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍,贵州万山仅仅是一个起点,未来项目的整体规划将聚焦贫困地区,寻找更多更适合发展“AI标注”产业的地区来落地。同时,也希望更多的人工智能企业加入,把AI标注的订单定向输送给贫困地区,为贫困群众提供更多就业机会。陈丽娟说。

延伸阅读

AI数据服务发展新方向:细分化、多模态、专业化

数据表明,当前AI发展出现了细分化、多模态以及专业化三大特征。相应的,新变化对于AI数据服务行业也形成了一定的影响与方向指引。

当前AI已经进入技术落地阶段,应用场景涉及安防、金融、家居、交通等各大行业。而未来,在数据标注行业,从业者也将随着AI行业而一同进入细分市场追逐阶段。

同时多模态也成为了AI技术发展的一个特征。所谓多模态,即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业,企业也需要适应AI技术发展的多模态特征,掌握对多维传感器融合的数据采集与标注。

此外,尽管当前AI技术已经进入落地阶段,但是头部AI企业的落地场景相较传统行业的AI落地场景,在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,所以数据服务企业也需要在这些前沿场景中不断探索,才能在行业竞争中获得长期发展。


【责任编辑:欧阳雪】

上海开源大会锚定AI未来:百万开发者生态迈向“主导型”崛起

开源不再只是代码共享,而是开放协同的新生产方式,上海正构建一个从使用生态到主导生态的开源体系。第二届开源产业生态大会1月13日在上海落幕。会上披露的数据显示,上海开源开发者数量已超过100万人,位居全国第二,而这一数字计划在2027年达到300万人。上海市经信委总工程师裘薇在大会上表示,开源已成为实现技术突破、参与全球科技创新的重要途径。本次大会不仅启动了“开源产

智能伴侣与静默革命:AI无缝织入2026生活图景

从能感知情绪的AI助手到街头无人的自动驾驶出租车,人工智能正以润物细无声的方式,重塑我们日常生活的节奏。2026年将成为人工智能深度嵌入日常生活的转折点。美国《纽约时报》最新观察指出,生成式AI已不再是实验室的奇观,而成为推动人机关系根本变革的引擎。清晨,智能眼镜在视野边缘提示今日议程;通勤时,自动驾驶出租车平稳穿梭;工作中,AI代理主动处理邮件安排会议;回家后,

北京推出“亿元补助”新政,破解创新成果转化“最后一公里”难题

实验室里的科研成果如何跨越产业化鸿沟?北京新年首个产业政策瞄准中试关键环节,最高亿元补助助力科技成果从“书架”走向“货架”。1月4日,北京市发展和改革委员会等部门联合发布《关于进一步提升本市中试服务能力促进科技创新和产业创新融合发展的若干措施》,以最高1亿元的补助力度支持中试平台建设。中试作为创新成果产业化的“最后一公里”,是实验室成果迈向市场化应用的关键过渡阶段。该政策

北京推出“科技副总”与“产业教授”机制,破解产教融合难题

校企之间的制度性壁垒正在被打破,一支扎根一线的卓越工程师队伍将获得全链条支持。1月4日,北京市委教育科技人才工作领导小组办公室正式印发《关于加强卓越工程师队伍建设的若干措施》。这份包含18条具体举措的政策文件,从产教融合载体搭建、后备人才培养到人才集聚引育、成长发展激励等方面提供“全链条”支持。措施旨在培养建设一支爱党报国、敬业奉献、具有突出技术创新

AI赋能“智造”跃升 四川构建现代化产业体系

“十四五”以来,四川深入实施制造业智能化改造数字化转型行动,全省规模以上工业企业数字化转型覆盖率在两年间提升20个百分点以上,计划在2027年底实现全覆盖。

西安“隐形冠军”集群崛起,硬科技矩阵激活区域创新动能

从AI健康检测到激光美容模块,从智慧城市平台到射频微波芯片,西安专精特新企业正以“小而美”的技术创新,撬动大市场。在西安维塑智能科技有限公司的展示厅里,一台搭载AI技术的3D身体形态评估设备正在精准捕捉人体数据。这家扎根西安经开区的国家高新技术企业,其核心产品已成功打入全球60多个国家,在超过10000家机构落地应用。而在不远处的西安欧益光电科技有限公司无尘车间,技术人员

数字立交桥崛起:中国打造一体化互联网交换体系

一部关于互联网“交通枢纽”的创新指南正式出炉,为数据流通架设高速通道。工业和信息化部办公厅12月30日印发《关于加快推进国家新型互联网交换中心创新发展的指导意见》,这份针对国家新型互联网交换中心的首个系统性指导文件,标志着我国互联网架构优化进入新阶段。国家新型互联网交换中心作为新型信息基础设施,通过构建中立、公平、开放的流量集中交换平台,实现不同网络间数据高效流通。该指

创新基因深度觉醒 双擎驱动能级跃升 - 杭州以“两新融合+教科人一体”改写创新活力之城进阶密码

当实验室的前沿技术无缝对接生产线的市场需求,当高校的人才培养精准匹配产业的创新渴求,这座把创新刻进基因的城市正加速蝶变。2025年以来,杭州锚定“打造更高水平创新活力之城”目标,以科技创新与产业创新深度融合为核心路径,以教育、科技、人才一体改革为关键支撑,通过构建全链条创新生态、打破体制机制壁垒,正书写着创新驱动高质量发展的新篇章。最新数据显示,2024年杭州数字

数字大物业 城乡新动能│厦门翔安“智理”方法论 数据赋能大物业重塑城乡未来

在厦门市翔安区,基层治理的日常正在被一系列智能化场景所改变:堆积如山的海蛎壳在智能系统的精准调度下,变废为宝转化为绿色的环保材料;AI数字社工化身为社区“新成员”,以数百倍于人工的效率完成和各类任务,让社区工作者有更多时间走进群众;无人机与智能摄像头织就全域感知网络,赋予城乡管理“千里眼”

数字化转型有了“导航图”!14个行业可“按图索骥”

曾经“摸黑走路”的制造业数字化转型,如今有了清晰的“施工图”。在近日沈阳举行的2025年两化融合暨数字化转型大会上,一位与会企业代表这样感慨。此次大会上,工业和信息化部正式发布《场景化、图谱化推进重点行业数字化转型的参考指引(2025版)》,为钢铁、石化等14个重点行业绘制了企业数字化转型“场景导航图”。

河北空天控股公司多项创新技术成果亮相 “三年上、五年强”科技成果展

12月6日至7日,河北省国资委监管企业研发投入“三年上、五年强”专项行动科技成果展在河北交投数智产业园盛大举办。河北空天控股公司作为河北交投集团空天信息领域科技创新核心力量,携系列北斗高精尖装备、省级低空交通监管平台、“北斗+低空”危化品监管系统等多项拥有自主知识产权与自主品牌的创新技术成果参展,通过图文解说、音频演示、动态视频等多元化形式,立体化呈现公司在空天信息领域

河北国资成果展:科技赋能,创新成果“多点开花”

科技赋能国企,创新引领发展。12月6日,河北省国资委监管企业研发投入“三年上、五年强”专项行动科技成果展在河北正定新区未来电子信息与装备制造产业基地成功启动,展期2天。成果展期间将举办专家主旨报告会、青年科技人才分享会、专利转化对接会、京津冀三地国资委联合发布《京津冀国有企业青年科技创新倡议书》等系列活动。现场还设有招商洽谈区、成果路演区,旨在打通创新成果与产业需求、金融资本对接的“最

从云计算到星计算:算力革命的技术演进与产业变革​

随着人工智能技术的快速发展和全球算力需求的爆发式增长,传统地面数据中心面临着前所未有的挑战。据统计,到 2026 年,全球数据中心的总用电量或将超过 1000 太瓦时,堪比日本全国的用电量。在能源消耗、土地资源和散热成本的多重压力下,算力基础设施正迎来从地面集中式向天地一体化分布式的范式跃迁。星计算作为这一变革的核心,通过将高性能计算、AI 与边缘计算集成于天基平台,构建分布式卫星星

京广铁路长台关站完成信号系统升级 “智慧机房”助力路网安全提效

日前,经过230分钟紧张有序的施工作业,京广铁路信阳段关键节点站 —— 长台关站计算机联锁设备技术改造工程顺利完工。升级后的新型信号系统与创新建设的“智慧机房”,为这条贯通南北的运输大动脉筑牢安全屏障,进一步提升区域路网运输效能。

智能模型与手术机器人协同,AI医疗开启精准诊疗新时代

医疗大模型具备“专家级”推理能力,手术机器人实现毫米级精细操作,人工智能正重塑从看病到手术的每一个医疗环节。在宁波大学附属第一医院方桥院区,70岁的王阿姨在AI数字人引导下精准挂号,就诊后收到一份AI生成的个性化复查建议。诊室里,医生屏幕已由AI助手自动生成初步病历;手术室内,骨科机器人正辅助医生进行毫米级精准操作。这些场景勾勒出“未来医院”的实景图。智能诊断模型将病变

瞄准九大前沿领域 工信部启动国家新兴产业发展示范基地创建

到2035年培育100个示范园区和1000家示范企业,这一长期计划为中国新兴产业绘制了清晰的发展路线图。工业和信息化部近日正式印发通知,启动国家新兴产业发展示范基地创建工作。该举措旨在面向2035年和“十五五”时期国家发展战略,聚焦新兴产业重点领域,遴选一批具有国内领先水平的产业园区和企业。示范基地创建瞄准新一轮科技革命和产业变革前沿,聚焦新一代信息技术、新能源、新材料、

中国启动“燃烧等离子体”国际科学计划,携手全球点燃“人造太阳”

在安徽合肥未来大科学城,一座名为BEST的紧凑型聚变能实验装置主机大厅内,全球能源未来的一页新篇章正悄然开启。11月24日上午,中国科学院在安徽合肥未来大科学城的紧凑型聚变能实验装置(BEST)主机大厅正式启动“燃烧等离子体”国际科学计划,并首次面向国际聚变界发布BEST研究计划。来自法国、英国、德国、意大利等十余个国家的聚变科学家齐聚合肥,共同签署了《合肥聚变宣言》,

数智赋能解锁文脉守护新范式“今古集”亮相长三角文博会获行业聚焦

11月20日,“今古集:数智赋能·守护文明”2025年社会教育活动在国家会展中心(上海)开幕,活动由中国文物保护基金会科技保护专项基金主办。中国文物保护基金会秘书长陶诚,上海市委宣传部二级巡视员、市文创办专职副主任黄建富,中国科学院院士、同济大学建筑与城市规划学院教授常青等出席活动并致辞,来自文博机构、高等院校、科技企业等众多专家学者与行业代表参加活动。
返回
顶部