科技

人工智能背后的人工力量:机器学习必需数据标注

“目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”

目前人工智能落地场景不断丰富,智能化应用正改变着我们的生活。而在AI产业高速发展的背后,数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。

近日,支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式,计划旨在通过AI产业释放出的大量就业机会,在贫困地区培训相关职业人才、孵化社会企业,让贫困群众实现在家门口就业脱贫。

这些从业者不需要背井离乡,她们可以受训上岗,为AI机器学习进行数据的分类和标注工作,让机器可以快速学习和认知文字、图片、视频等内容,成为一名“AI培育师”。

机器学习必需数据标注

AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”

但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。

王金桥介绍,从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。

不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。

人工标注帮助AI快速落地

随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。

“目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说,“这个阶段数据对性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利,但标注公司除外。”

据王金桥介绍,国外也是一样,无人零售、无人驾驶等都需要大量的人力,基于用工成本的问题,除了隐私数据之外,他们会把标注工作放在第三世界国家完成,马来西亚、泰国、印度等国家都有数据标注分公司。

常见的报道中,数据标注总被描述为“血汗工厂”,这项工作和从业者被描述得廉价低质,人被重复性机械式的劳动异化。在王金桥的解释下,这一刻板印象也被逐渐打破。

他直言,目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。

“比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测,类似工作可以很大程度上由机器代劳。”王金桥说,目前人工智能的智能性虽然比较弱,但在各行各业都会带来改变,这是AI推动产业革命的机会。

数据标注需求持续增加

“现在科研界研究的都是无监督、小样本的深度学习,通过三维合成数据,用虚实结合的数据生成方式来训练机器,尽量减少数据的采集和标注,让机器自主学习、自主进化。”王金桥说,但由于缺乏理论上的突破性技术,所以虽然技术增长速度很快,但整体水平还比较低,目前的深度学习还是依赖基于统计意义的大数据模型,这要求数据足够多、足够均衡、基本满足真实世界的分布。

因此,标注这项工作会一直存在。

但王金桥也表示,随着无监督、小样本深度学习的进步,重复性标注的工作量会越来越少。“机器的识别和人一样,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝。机器也需要不断理解更多的内容,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考。”

目前的数据标注公司基本采取“计件付费”的模式,标注员的待遇与任务量和难度直接相关,熟练工一天能标几千张图片,月收入最高过万。这项工作也有一定专业性,受过培训才知道怎么标、标得清楚,人也要认真细心。“每天产生的数据量太大了,数据量持续增加,对标注的需求也持续增加。”王金桥说。

据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍,贵州万山仅仅是一个起点,未来项目的整体规划将聚焦贫困地区,寻找更多更适合发展“AI标注”产业的地区来落地。同时,也希望更多的人工智能企业加入,把AI标注的订单定向输送给贫困地区,为贫困群众提供更多就业机会。陈丽娟说。

延伸阅读

AI数据服务发展新方向:细分化、多模态、专业化

数据表明,当前AI发展出现了细分化、多模态以及专业化三大特征。相应的,新变化对于AI数据服务行业也形成了一定的影响与方向指引。

当前AI已经进入技术落地阶段,应用场景涉及安防、金融、家居、交通等各大行业。而未来,在数据标注行业,从业者也将随着AI行业而一同进入细分市场追逐阶段。

同时多模态也成为了AI技术发展的一个特征。所谓多模态,即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业,企业也需要适应AI技术发展的多模态特征,掌握对多维传感器融合的数据采集与标注。

此外,尽管当前AI技术已经进入落地阶段,但是头部AI企业的落地场景相较传统行业的AI落地场景,在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,所以数据服务企业也需要在这些前沿场景中不断探索,才能在行业竞争中获得长期发展。


【责任编辑:欧阳雪】

硬核“新质力”亮相莱芒湖:第51届日内瓦国际发明展启幕,中国军团237项发明刷新纪录

初春的莱芒湖畔再次成为全球创新目光的聚焦点。第51届日内瓦国际发明展于当地时间11日在日内瓦Palexpo展览馆正式拉开帷幕。在这个全球举办历史最长、规模最大的发明盛会上,中国代表团以237个发明项目的庞大阵容亮相,参展规模不仅位居前列,更创下了历年来新高,向世界展示了中国科技创新的蓬勃生态与前沿趋势 。“含新量”十足:中国展团实现“数量与能级

抢滩“一人公司”时代:多地竞速发布“龙虾”政策,最高补贴1000万

一条红色的“龙虾”,正在掀起全国范围内的产业政策竞速。因开源AI智能体工具OpenClaw图标酷似红色龙虾,近日“AI养龙虾”引爆全网热度。这把火从技术极客的GitHub仓库,一路烧进全国两会会场,更在短短一周内点燃了深圳、合肥、无锡、常熟等多地政府的政策工具箱。从“放水养鱼”到“放水养龙虾”,一场关于未来“一人公司”(OPC)新业态的卡位战已然打响。多地密集“下塘”:最

工信部启动“工业数据筑基行动”:“1+4+N”解锁工业AI“富矿”

从根本上破解工业领域数据“采”“集”“用”的堵点,工业和信息化部于3月10日正式对外发布《关于启动工业数据筑基行动 开展面向人工智能赋能的高质量行业数据集建设先行先试的通知》(工信厅信发函〔2026〕64号)。这标志着我国在推动工业数字化转型向智能化迈进的关键时刻,正式打响了“数据赋能”的攻坚战。锚定2026:打造高

从“+AI”到“AI+”:政策与市场同频共振,我国“人工智能+”驶入“智能经济”新蓝海

“智能经济”这一全新概念首次写入政府工作报告,标志着我国“人工智能+”行动正从技术赋能产业的“起步区”驶入产业深度融合、生态全面重构的“深水区”。在政策红利持续释放与市场需求井喷的“双轮驱动”下,一幅 “10万亿级”智能经济新形态的蓝图正加速展开。战略升维:从“工具”到“经济形态”3月5日,国务院总理李强在政府工作报告中明确提出“打造智能经济新形态”,并连续第三年

中企 MWC 2026:从追光者变身光源

当西班牙国王费利佩六世饶有兴致地与一台人形机器人握手,并接过一部折叠屏手机时,2026年世界移动通信大会(MWC)迎来了它最高光的时刻之一 。为期四天的MWC 2026正式落下帷幕 。这个以“智能新纪元”(The IQ Era)为主题、恰逢落户巴塞罗那20周年纪念的展会,用前所未有的热度向世界宣告:移动通信的未来已不再仅仅是连接,而是

爆发前夜:2026中国AI医疗加速“闯关” 从“黑盒”诊断到万亿市场

人工智能(AI)与医疗健康的融合正在经历一场从“概念”到“价值”的深刻蜕变。从顶尖学术期刊的连番突破,到省级政府的专项推进;从资本市场的高歌猛进,到基层诊室的悄然应用——中国AI医疗正以前所未有的速度,跨越商业化与临床信任的“三重门”。每周有超过2.3亿人在AI平台上询问健康问题,全球AI医疗健康市场规模预计在2026年达到560亿美元。在这场关乎

冲刺万亿目标!北京“人工智能第一城”蓝图:产业规模剑指5500亿,大模型数量全国居首

随着“十五五”规划的开局,北京正以昂扬之姿,向“全球人工智能第一城”的目标全速迈进。2025年全市人工智能核心产业规模已突破4500亿元,核心企业超过2500家,备案大模型数量高达212款,持续领跑全国。今年,北京更是立下军令状,力争推动产业规模突破5500亿元,并剑指两年内达到万亿级产业集群的宏伟目标。创新策源:人才高地催生“首发成果”在北京,人工智能的创新活力

全球AI基建“军备竞赛”白热化,繁荣背后隐忧浮现

一场围绕人工智能(AI)基础设施的全球“军备竞赛”正进入白热化阶段。随着生成式AI技术加速向各行各业渗透,2026年,以美国科技巨头为首的多国政府和企业纷纷祭出天量投资计划,竞相抢占AI时代的核心算力高地。然而,在这轮史无前例的基建狂潮背后,关于投资回报、能源消耗及产能瓶颈的担忧也日益浮出水面。四巨头领投,

湖南省数据局“数智探行”天心区“企基蝶变”

湖南省数据局党组成员、副局长王进率调研组奔赴长沙市天心区,聚焦企业数字化转型与基层数据“只报一次”工作展开专题调研,探寻数据要素在赋能产业发展和优化基层治理中的实践密码与显著成效。数智转型创新实践调研组首站来到湖南一力股份有限公司与爱尔眼科医院集团股份有限公司。在一力钢铁数字供应链平台与眼健康可信数字化转型协同赋能平台前,调研组驻足观察、细致询问。从数据整合的精准高效,到场

海南“人工智能+”三年行动方案:划定四大集聚区,2028年AI产业规模“大幅提升”

全岛封关运作后的海南自贸港,正将人工智能作为撬动产业升级的“新杠杆”。海南省人民政府办公厅2月24日印发《海南省推动“人工智能+”行动方案(2026—2028年)》(下称《行动方案》),明确以“双核驱动”构建特色AI产业生态,到2028年建成若干高能级创新平台,人工智能核心产业规模实现大幅跃升 。这是海南落实国家“人工智能+”行动的省级施工图。方案紧扣自贸港“三度一色”

从追赶到定义:全球复合机器人产业格局与中国领跑之路

在全球机器人产业从“专用自动化”迈向“通用智能化”的历史拐点上,复合机器人正成为具身智能落地的前沿形态,一个共识正逐渐清晰:“通用,即未来。” 这不仅是技术演进的方向,更是一场深刻的价值回归——机器人的终极使命在于解决真实世界的复杂任务,而非追求单一的形态。复合机器人,作为具身智能在物理世界最务实的载体,正成为连接当下制造需求与未来智能愿景的关键桥梁。

智领未来彰显科技领军实力 中国电信荣膺“金紫荆”双奖

1月30日,由香港大公文汇传媒集团联合香港中国企业协会、香港中国金融协会、香港中资证券业协会、香港公司治理公会主办的第十五届香港国际金融论坛暨中国证券“金紫荆奖”颁奖典礼在香港JW万豪酒店举行。中国电信股份有限公司(以下简称“中国电信”)凭借卓越的经营表现,荣获2025中国证券“金紫荆奖”“最具投资价值上市公司”与“卓越投资者关系管理上市公司”两项大奖,这不仅是对公司投资价值与经营成效的肯定,更是

星地传输破纪录:120Gbps激光通信实现天地数据“秒传”

中国科学家刚刚在新疆塔县完成了一项突破性实验——星地激光通信速率达到120吉比特每秒(Gbps),相当于在短短108秒内传输了12.656TB数据,足以装满约2500部高清电影。这项实验由中国科学院空天信息创新研究院(空天

三大科创中心扩围升级 区域协同构筑创新“新高地”

刚刚结束的各地两会上,一个共同的关键词频繁出现 - 京津冀、长三角、粤港澳三大国际科技创新中心扩围升级正成为区域发展的核心引擎。2026年伊始,各地政府工作报告密集发布,“整合区域优势资源,建设世界级创新集群”成为高频词。中央经济工作会议已明确将北京拓展至京津冀、上海拓展至长三角,实现从单一城市向城市群的战略升级。数据显示,2025年全球百强创新集群中,深圳-香

数字经济总量突破1200亿元,银川加速打造“算力之都”

从“数字试点”到“算力之都”,银川以翻番的数字经济总量交出一份亮眼成绩单,一座西部算力产业新高地正在崛起。银川市第十六届人民代表大会第六次会议近日披露,银川市数字经济总量已达1200亿元,较“十三五”末实现翻番。这座西北城市正以打造“算力之都”为目标,按下数字经济发展加速键。银川已建成9个算力中心,千兆网络实现100%覆盖,3个国家万兆光网试点项目建成投用。2026年

十五五开局密集问天 中国商业航天“箭”指星海新格局

蓝箭航天嘉兴基地的智能化生产线里,火箭零部件的出库时间从3分钟缩短至30秒,自动化立体仓储系统正将火箭总装从“人找料”推向“料等人”的精准物流时代。2026年1月13日23时25分,长征八号甲遥七运载火箭在海南商业航天发射场点火升空,将18组卫星送入预定轨道。这是“亦庄箭”2026年的首发任务,距离该火箭上次发射仅18天。新年伊始,力箭二号、天龙三号、双曲线三号等多型

6G研发迈入新阶段:我国启动第二阶段技术试验,构建空天地海一体化网络

已完成第一阶段关键技术试验,形成超过300项关键技术储备,正式启动第二阶段技术方案试验。1月21日,国务院新闻办公室举行新闻发布会,介绍2025年工业和信息化发展成效。工业和信息化部新闻发言人、信息通信发展司司长谢存宣布,我国已完成第一阶段6G关键技术试验,形成了超300项关键技术储备,近期已启动第二阶段6G技术试验。与此同时,我国5G标准必要专利

上海开源大会锚定AI未来:百万开发者生态迈向“主导型”崛起

开源不再只是代码共享,而是开放协同的新生产方式,上海正构建一个从使用生态到主导生态的开源体系。第二届开源产业生态大会1月13日在上海落幕。会上披露的数据显示,上海开源开发者数量已超过100万人,位居全国第二,而这一数字计划在2027年达到300万人。上海市经信委总工程师裘薇在大会上表示,开源已成为实现技术突破、参与全球科技创新的重要途径。本次大会不仅启动了“开源产

智能伴侣与静默革命:AI无缝织入2026生活图景

从能感知情绪的AI助手到街头无人的自动驾驶出租车,人工智能正以润物细无声的方式,重塑我们日常生活的节奏。2026年将成为人工智能深度嵌入日常生活的转折点。美国《纽约时报》最新观察指出,生成式AI已不再是实验室的奇观,而成为推动人机关系根本变革的引擎。清晨,智能眼镜在视野边缘提示今日议程;通勤时,自动驾驶出租车平稳穿梭;工作中,AI代理主动处理邮件安排会议;回家后,
返回
顶部