科技

人工智能背后的人工力量:机器学习必需数据标注

“目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”

目前人工智能落地场景不断丰富,智能化应用正改变着我们的生活。而在AI产业高速发展的背后,数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。

近日,支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式,计划旨在通过AI产业释放出的大量就业机会,在贫困地区培训相关职业人才、孵化社会企业,让贫困群众实现在家门口就业脱贫。

这些从业者不需要背井离乡,她们可以受训上岗,为AI机器学习进行数据的分类和标注工作,让机器可以快速学习和认知文字、图片、视频等内容,成为一名“AI培育师”。

机器学习必需数据标注

AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”

但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。

王金桥介绍,从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。

不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。

人工标注帮助AI快速落地

随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。

“目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说,“这个阶段数据对性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利,但标注公司除外。”

据王金桥介绍,国外也是一样,无人零售、无人驾驶等都需要大量的人力,基于用工成本的问题,除了隐私数据之外,他们会把标注工作放在第三世界国家完成,马来西亚、泰国、印度等国家都有数据标注分公司。

常见的报道中,数据标注总被描述为“血汗工厂”,这项工作和从业者被描述得廉价低质,人被重复性机械式的劳动异化。在王金桥的解释下,这一刻板印象也被逐渐打破。

他直言,目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。

“比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测,类似工作可以很大程度上由机器代劳。”王金桥说,目前人工智能的智能性虽然比较弱,但在各行各业都会带来改变,这是AI推动产业革命的机会。

数据标注需求持续增加

“现在科研界研究的都是无监督、小样本的深度学习,通过三维合成数据,用虚实结合的数据生成方式来训练机器,尽量减少数据的采集和标注,让机器自主学习、自主进化。”王金桥说,但由于缺乏理论上的突破性技术,所以虽然技术增长速度很快,但整体水平还比较低,目前的深度学习还是依赖基于统计意义的大数据模型,这要求数据足够多、足够均衡、基本满足真实世界的分布。

因此,标注这项工作会一直存在。

但王金桥也表示,随着无监督、小样本深度学习的进步,重复性标注的工作量会越来越少。“机器的识别和人一样,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝。机器也需要不断理解更多的内容,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考。”

目前的数据标注公司基本采取“计件付费”的模式,标注员的待遇与任务量和难度直接相关,熟练工一天能标几千张图片,月收入最高过万。这项工作也有一定专业性,受过培训才知道怎么标、标得清楚,人也要认真细心。“每天产生的数据量太大了,数据量持续增加,对标注的需求也持续增加。”王金桥说。

据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍,贵州万山仅仅是一个起点,未来项目的整体规划将聚焦贫困地区,寻找更多更适合发展“AI标注”产业的地区来落地。同时,也希望更多的人工智能企业加入,把AI标注的订单定向输送给贫困地区,为贫困群众提供更多就业机会。陈丽娟说。

延伸阅读

AI数据服务发展新方向:细分化、多模态、专业化

数据表明,当前AI发展出现了细分化、多模态以及专业化三大特征。相应的,新变化对于AI数据服务行业也形成了一定的影响与方向指引。

当前AI已经进入技术落地阶段,应用场景涉及安防、金融、家居、交通等各大行业。而未来,在数据标注行业,从业者也将随着AI行业而一同进入细分市场追逐阶段。

同时多模态也成为了AI技术发展的一个特征。所谓多模态,即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业,企业也需要适应AI技术发展的多模态特征,掌握对多维传感器融合的数据采集与标注。

此外,尽管当前AI技术已经进入落地阶段,但是头部AI企业的落地场景相较传统行业的AI落地场景,在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,所以数据服务企业也需要在这些前沿场景中不断探索,才能在行业竞争中获得长期发展。


【责任编辑:欧阳雪】

长三角织就算力“一张网”,数智加速度破局数字时代

一键下单,算力“网购”,87.3EFlops庞大算力资源在长三角地区正像水电一样便捷可及,一场区域一体化的数字革命悄然到来。江苏省一体化算力调度监测平台于11月13日在南京正式上线,这是全国首个省市一体化算力调度监测平台。该平台已监测全省在用数据中心282个,总算力规模达87.3EFlops,其中智能算力占比约70%,成为长三角数字经济的“主力能源”。与此同时,在11月

国家加速制造业升级:到2027年基本建立现代化中试平台体系

工信部最新部署,到2027年底,我国将基本建立现代化中试平台体系,初步形成多主体参与、多领域布局的全国制造业中试服务网络。工业和信息化部办公厅日前印发《关于进一步加快制造业中试平台体系化布局和高水平建设的通知》,明确提出到2027年底,高水平中试平台力量进一步壮大,现代化中试平台体系基本建立,多主体参与、多领域布局、多层次服务的全国制造业中试服务网络初步形成。中试

788 EFLOPS 领跑全球!我国智能算力撑起 AI 创新 “加速度”

截至 2025 年 6 月底,我国智能算力规模达 788 百亿亿次 / 秒(EFLOPS),相当于全球 80 亿人用普通计算器连续运算 4000 年的总量。这一来自工业和信息化部的最新数据,与 1085 万标准机架、1680 艾字节存力共同印证:我国算力基础设施规模已稳居全球前列,正成为人工智能创新的核心引擎。千行百业 “算力赋能” 成效凸显在内蒙古伊利智慧牧场,计算机

中国6G专利全球第一,2025年互联网蓝皮书揭示数字中国新图景

一份备受全球互联网行业关注的年度发展成绩单,在乌镇峰会上如期发布。11月8日,在2025年世界互联网大会乌镇峰会上,由中国网络空间研究院牵头编撰的《中国互联网发展报告2025》和《世界互联网发展报告2025》蓝皮书正式发布。这两份已连续九年面向全球发布的权威报告,全景式展现了过去一年中国和世界互联网发展的新进展与新成就。报告中的一系列数据令人振奋:中国6G专利申请

2025科技创新与产业创新深度融合大会在长沙成功举办

11月1日,由中南大学主办的2025科技创新与产业创新深度融合大会暨中南大学校企联理事会会议在长沙开幕。大会深入贯彻党的二十届四中全会精神,落实“推动科技创新与产业创新深度融合,引领发展新质生产力”的战略部署,旨在充分发挥中南大学教育、科技、人才“三位一体”优势,搭建一个汇聚校友力量、链接产业需求与大学科创资源的高能级平台。

科技赋能健康 创新引领未来 浙江省盐业健康科技研究院挂牌成立

聚焦盐、泛盐产品、泛食品、大健康等领域,致力于开展产品研发、技术创新、产业融合、成果转化、行业研究和人才培养等业务,为浙盐集团转型发展和拓展第二增长曲线提升科研创新支撑,为助力中国盐行业高质量发展注入浙盐新动能。

万亿科创债激活硬科技赛道!5月以来资金加速涌入AI、新能源领域,政策工具创新破解融资困局

自今年5月7日债券市场“科技板”正式落地后,科技创新债券(以下简称“科创债”)发行规模呈现爆发式增长。据最新数据显示,2025年前三季度全国累计发行科创债1428只,总规模达1.58万亿元,同比激增74.94%,其中5月新政后单月发行规模最高达3513.83亿元。资金精准流向人工智能、新能源、生物医药等战略新兴领域,政策工具创新如风险分担机制、长期限产品设计等,

未来π对·智引无界——2025世界青年科学家峰会“万有引力π”在温州启幕

10月23日,2025世界青年科学家峰会官方展示交流活动——“万有引力π”在温州瓯海奥体中心正式启幕,活动将延续至10月26日。本届活动以“未来π对·智引无界”为核心理念,打造了超2万平方米沉浸式科技展示空间,集结近百家头部科技企业、200余项前沿科技成果,吸引数万名青年科学家、科技创业者及公众共同参与,掀起一场科技创新与全民科普交织的“π级盛会”。

冰城论剑数智潮!第22届中国计算机大会在哈尔滨盛大启幕,1.2万名全球精英共绘智能未来

哈尔滨国际会议中心内,一场思想与技术的盛宴正在上演,万余名计算机领域专业人士汇聚一堂,共同描绘数字智能时代的未来图景。10月23日,第22届中国计算机大会(CNCC2025)在哈尔滨华旗饭店亚冬馆拉开帷幕。这场以“数智赋能·无限可能”为主题的科技盛会,吸引了全球1.2万名计算机领域顶尖学者、产业领袖、青年才俊及国际组织代表齐聚冰城,共同探讨数字智能技术的前沿趋势与产业变革

蒙牛亮相世界乳业峰会 全面展示乳业数智化的“中国样板”

当地时间10月21日,2025世界乳业峰会于智利圣地亚哥举行。蒙牛集团作为乳业领军企业受邀参加,并在大会上分享其贯穿全产业链的数智化实践成果。其中,蒙牛宁夏“灯塔工厂”作为全球乳业首座全数智化工厂,受到与会代表的广泛关注和讨论,展现了中国乳业在全球智能制造领域的硬核实力。

广东发放“模型券”“算力券”,262亿资金撬动制造业AI革命

制造业规模约占全国1/8的广东正式出台专项方案,通过16条政策措施推动人工智能在制造业全面落地,加速“广东制造”向“广东智造”跃升。广东省人民政府办公厅近日印发《广东省人工智能赋能制造业高质量发展行动方案(2025—2027年)》(以下简称《行动方案》),围绕强化关键供给、促进应用推广、构建支撑体系、优化要素保障4大方面提出了16条具体措施。在10月22

全球六成AI专利花落中国!数字核心科技突破激活新质生产力引擎

当人形机器人挥出精准拳击动作与观众互动,当农业大模型为千万亩耕地提供智能种植方案,当工业互联网平台赋能超3.5万家智能工厂——这些充满未来感的场景,正由中国人工智能领域全球领先的专利布局转化为现实生产力。全球六成AI创新源自中国国家数据局最新数据显示,截至2025年6月,我国人工智能专利数量占全球总量的60%,以157.6万件申请量稳居世界首位。联合国《世界知识产

湖北打造AI产业新高地,3500亿元目标背后有何布局?

武汉一场人工智能领域的盛会,揭示湖北在AI产业赛道上的雄心与蓝图。湖北省人工智能政策宣贯暨产业供需对接培训活动10月19日在武汉成功举办。活动以“政策赋能产业,供需激活生态”为核心,汇集政府、高校、企业及金融机构等多方力量,为湖北人工智能产业高质量发展注入新动能。湖北省经信厅党组书记、厅长朱万奎在致辞中指出,人工智能是引领新一轮科技革命和产业变

AI悄然重塑城市运行:从车间到街角的生活之变

走进广东佛山的海天调味品工厂,AI“豆脸识别”技术正以每秒2.5万亿颗的速度对原料进行精准检测;而在新疆的社保大厅,RPA机器人仅用3分钟就能完成失业保险业务的全程办理。这些看似不相干的场景,正勾勒出人工智能渗透城市每个角落的新图景。从产业车间到街头巷尾,AI不再只是科技论坛的热词,而是悄然改变城市运转方式的底层力量。智能制造:工厂的自我革命制造业作

构建新大陆贸易金融体系:数字人民币支点与宁波跨境结算科技模式创新的场景革命

中国构建自主可控贸易新体系的战略蓝图,正从宏观布局迈向微观落地。这一战略的核心,在于通过产业链闭环、货币结算网络、替代性贸易基础设施的三重布局,实现从“融入全球化”到“塑造全球化”的根本性转变。中欧班列与“数字丝绸之路”作为战略双翼,已初具规模。而近期上海数字人民币国际运营中心的落地运营,则为这一体系注入了决定性的“金融血液”,其中,宁波跨境结算科技场景的创新模式,正成为将

“终极能源”商业化不再遥远 中国“人造太阳”迈向发电倒计时

曾经只存在于科幻小说中的“人造太阳”,正悄然从实验室走向现实,一系列突破性进展标志着聚变能研发已进入决定性新阶段。近日,中国紧凑型聚变能实验装置(BEST)首个关键部件杜瓦底座成功安装就位,标志着项目主体工程建设步入新阶段。这个国内聚变领域最大的真空部件,将承载总重约6700吨的BEST主机。与此同时,在四川成都,国际原子能机构聚变能研究与培训协作中心正式授牌,这

中国的北斗 世界的北斗

第四届北斗规模应用国际峰会在湖南株洲举行,全面展示了北斗产业发展的最新成就与未来图景。从深空到地面,从产业链到生活圈,北斗正快速融入中国式现代化的发展进程。亮眼数据折射出产业的坚实跃升,创新成果展示了技术的勃勃生机,国际合作描绘着开放共享的新图景——今天的北斗,不仅是定位导航的“中国名片”,更是推动经济发展、改善民生、促进合作的全球公共产品。NO.01产业链条日益完整峰会期间,《

中国创新能力跃升至全球第十

从世界工厂到“世界脑厂”,中国科技创新能力的历史性跨越正在重塑全球创新格局。5年来,中国坚持把创新摆在国家发展全局的突出位置,科技事业取得历史性成就。国家综合创新能力排名从2020年的第14位提升至2024年的第10位,成为近十余年来进步最快的国家。这一飞跃使中国成为唯一进入全球创新能力前十的中等收入国家。中国科学技术发展战略研究院发布的《国家创新

中国人工智能产业规模突破9000亿元,完整生态链引领智能原生新世界

人工智能正从技术实验大步迈向行业实践,成为中国经济发展新质生产力的重要引擎。“经测算,2024年我国人工智能产业规模已超9000亿元,同比增长24%。”在日前举行的2025人工智能产业及赋能新型工业化大会上,中国信息通信研究院副总工程师王爱华发布了这一令人振奋的数据。这项测算成果描绘出中国人工智能产业的蓬勃生态:截至2025年9月,我国人工智能企业数量超
返回
顶部