科技

人工智能从“大炼模型”到“炼大模型”

人工智能可以分为几个发展阶段:基于数据的互联网时代、基于算力的云计算时代,以及接下来可能将进入的基于模型的AI时代,这相当于把数据提升为超大规模预训练模型。未来,研究人员可以直接在云模型上进行微调,很多公司甚至不用维护自己的算法研发团队,只需要应用工程师即可。

写小说、和人聊天、设计网页、编写吉他曲谱……号称迄今为止最“全能”的AI模型GPT-3,当然远远不止会这些。作为2020年人工智能领域最惊艳的模型之一,GPT-3无疑把超大规模预训练模型的热度推向了新高。

3月下旬,我国首个超大规模人工智能模型“悟道1.0”发布,该模型由智源学术副院长、清华大学教授唐杰领衔,带领来自清华大学、北京大学、中国人民大学、中国科学院等单位的100余位AI科学家组成联合攻关团队,取得了多项国际领先的AI技术突破,形成了超大规模智能模型训练技术体系,训练出包括中文、多模态、认知和蛋白质预测在内的系列超大模型。

已启动4个大模型开发

据悉,“悟道1.0”先期启动了4个大模型研发项目:以中文为核心的超大规模预训练语言模型文源、超大规模多模态预训练模型文澜、超大规模蛋白质序列预测预训练模型文溯,以及面向认知的超大规模新型预训练模型文汇。

唐杰介绍,文源拥有26亿参数,文澜则为10亿,文溯是2.8亿,文汇则达到了百亿以上。虽然相对于GPT-3的1750亿参数而言还有差距,但“接下来会有更大的模型”。

目前,文源模型参数量达26亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务,在中文生成模型中达到了领先的效果。

“目前这些模型既有一些交集,但也存在明显差异。文源的重点是在中文和跨语言,未来也会加入知识;文澜的重点主要是图文;文汇则更多地瞄向认知。”唐杰表示,认知是人工智能技术发展的趋势和目标,关系到机器是否能像人一样思考这个终极问题。

“下一代人工智能技术的发展方向一定是认知。”据唐杰介绍,在作诗任务中,目前文汇已经通过了图灵测试。从算法的角度上来看,文汇能通过图灵测试的关键在于“生成”,而不仅仅限于“匹配”,这种生成能力是多样的。

被问及为何会选择这4个预训练模型项目时,唐杰说,这是综合考虑了国内外同行的相关工作、国内人工智能发展的现状、团队人员构成、北京区域优势等作出的决定。“当时GPT-3刚发布不久,悟道团队认为首先要对标其卓越的少样本学习能力,同时还要做出差异化,做短、中、长3个阶段的布局。于是,中文版GPT-3即清源CPM(文源的前身)应运而生,这是短期布局。之后,文源要向中英文模型乃至多语言模型发展,这是中期布局。最后走向认知智能,这是长期布局。”唐杰说,与此同时,国内顶尖的企业人才、学术人才和自然科学人才所组成的团队给了项目巨大的想象空间。

大模型有大智慧

自2018年谷歌发布BERT以来,预训练模型逐渐成为自然语言处理(NLP)领域的主流。

2020年5月,OpenAI发布了拥有1750亿参数量的预训练模型GPT-3。作为一个语言生成模型,GPT-3不仅能够生成流畅自然的文本,还能完成问答、翻译、创作小说等一系列NLP任务,甚至可以进行简单的算术运算,并且其性能在很多任务上都超越相关领域的专有模型。

以GPT-3为代表的超大规模预训练模型,不仅以绝对的数据和算力优势取代了一些小的算法模型,更重要的是,它展示了一条通向通用人工智能的可能路径。在此背景下,建设国内的超大规模预训练模型和生态势在必行。

在唐杰看来,为了提高机器学习算法的效率,改变传统的行业布局,过去几年,大家拼命做模型,导致模型越做越多。然而,一般的模型训练效果并不如人意,花了大量财力精力却达不到理想的训练效果,“为了优化效果、提高精度,模型越来越复杂,数据越来越大,很多公司的能力不足以应对这种状况,效率越来越低。”唐杰举了个例子,小炼钢厂往往条件简陋,能炼钢,但质量不好。大炼钢厂买得起设备、花得起电费,炼出的钢质量就好,大模型就是大炼钢厂,它可以获得大量数据,并把数据清洗干净,提升算力,满足要求。

与此同时,“小模型可能只需要几个老师和学生就能完成算法的设计,但是大模型的每一层都要找专人来做,这样可以把模型的设计和训练精细化,模型设计也从单打独斗变成了众人拾柴。”唐杰说。

小团队将成最大受益者

据唐杰透露,团队目前正在跟北京冬奥会合作,开发可通过文本自动转成手语的模型,“医疗方面我们的主要方向是癌症早筛,如上传乳腺癌图像,找到乳腺癌相关预测亚类,通过影像识别宫颈癌亚类等。”

而谈到“悟道1.0”的发展,唐杰坦言,目前还存在需要持续攻关的问题。一是模型能否持续学习的问题,即能否不断地从新样本中学习新的知识,并能保存大部分以前已经学习到的知识。就目前来看模型还需要调整,其效果还有待加强;二是面对一些复杂问题,目前模型还无法回答;三是万亿级模型的实用性问题,即如何在保证精度的同时压缩模型,从而能让用户低成本地使用。

“这是一个全新的产业模式。原来大家数据上云、算力上云,现在模型上云。”唐杰说。

他认为,人工智能可以分为几个发展阶段:基于数据的互联网时代、基于算力的云计算时代,以及接下来可能将进入的基于模型的AI时代,这相当于把数据提升为超大规模预训练模型。未来,研究人员可以直接在云模型上进行微调,很多公司甚至不用维护自己的算法研发团队,只需要应用工程师即可。

唐杰表示,随着超大规模预训练模型系统的开放,小团队是最大的受益者,大家不必从零开始,预训练基线智能水平大幅提升,平台多样化、规模化,大家在云上可以找到自己所需的模型,剩下的就是对行业、对场景的理解。这将给AI应用创新带来全新的局面。

唐杰透露,“悟道1.0”只是一个阶段性的成果,今年6月将会有一个规模更大、水平更高的智慧模型发布。届时,模型规模会有实质性的进展:模型会在更多任务上突破图灵测试,其应用平台的效果也会更加让人期待。


【责任编辑:欧阳雪】

数字大物业 城乡新动能│厦门翔安“智理”方法论 数据赋能大物业重塑城乡未来

在厦门市翔安区,基层治理的日常正在被一系列智能化场景所改变:堆积如山的海蛎壳在智能系统的精准调度下,变废为宝转化为绿色的环保材料;AI数字社工化身为社区“新成员”,以数百倍于人工的效率完成和各类任务,让社区工作者有更多时间走进群众;无人机与智能摄像头织就全域感知网络,赋予城乡管理“千里眼”

数字化转型有了“导航图”!14个行业可“按图索骥”

曾经“摸黑走路”的制造业数字化转型,如今有了清晰的“施工图”。在近日沈阳举行的2025年两化融合暨数字化转型大会上,一位与会企业代表这样感慨。此次大会上,工业和信息化部正式发布《场景化、图谱化推进重点行业数字化转型的参考指引(2025版)》,为钢铁、石化等14个重点行业绘制了企业数字化转型“场景导航图”。

河北空天控股公司多项创新技术成果亮相 “三年上、五年强”科技成果展

12月6日至7日,河北省国资委监管企业研发投入“三年上、五年强”专项行动科技成果展在河北交投数智产业园盛大举办。河北空天控股公司作为河北交投集团空天信息领域科技创新核心力量,携系列北斗高精尖装备、省级低空交通监管平台、“北斗+低空”危化品监管系统等多项拥有自主知识产权与自主品牌的创新技术成果参展,通过图文解说、音频演示、动态视频等多元化形式,立体化呈现公司在空天信息领域

河北国资成果展:科技赋能,创新成果“多点开花”

科技赋能国企,创新引领发展。12月6日,河北省国资委监管企业研发投入“三年上、五年强”专项行动科技成果展在河北正定新区未来电子信息与装备制造产业基地成功启动,展期2天。成果展期间将举办专家主旨报告会、青年科技人才分享会、专利转化对接会、京津冀三地国资委联合发布《京津冀国有企业青年科技创新倡议书》等系列活动。现场还设有招商洽谈区、成果路演区,旨在打通创新成果与产业需求、金融资本对接的“最

从云计算到星计算:算力革命的技术演进与产业变革​

随着人工智能技术的快速发展和全球算力需求的爆发式增长,传统地面数据中心面临着前所未有的挑战。据统计,到 2026 年,全球数据中心的总用电量或将超过 1000 太瓦时,堪比日本全国的用电量。在能源消耗、土地资源和散热成本的多重压力下,算力基础设施正迎来从地面集中式向天地一体化分布式的范式跃迁。星计算作为这一变革的核心,通过将高性能计算、AI 与边缘计算集成于天基平台,构建分布式卫星星

京广铁路长台关站完成信号系统升级 “智慧机房”助力路网安全提效

日前,经过230分钟紧张有序的施工作业,京广铁路信阳段关键节点站 —— 长台关站计算机联锁设备技术改造工程顺利完工。升级后的新型信号系统与创新建设的“智慧机房”,为这条贯通南北的运输大动脉筑牢安全屏障,进一步提升区域路网运输效能。

智能模型与手术机器人协同,AI医疗开启精准诊疗新时代

医疗大模型具备“专家级”推理能力,手术机器人实现毫米级精细操作,人工智能正重塑从看病到手术的每一个医疗环节。在宁波大学附属第一医院方桥院区,70岁的王阿姨在AI数字人引导下精准挂号,就诊后收到一份AI生成的个性化复查建议。诊室里,医生屏幕已由AI助手自动生成初步病历;手术室内,骨科机器人正辅助医生进行毫米级精准操作。这些场景勾勒出“未来医院”的实景图。智能诊断模型将病变

瞄准九大前沿领域 工信部启动国家新兴产业发展示范基地创建

到2035年培育100个示范园区和1000家示范企业,这一长期计划为中国新兴产业绘制了清晰的发展路线图。工业和信息化部近日正式印发通知,启动国家新兴产业发展示范基地创建工作。该举措旨在面向2035年和“十五五”时期国家发展战略,聚焦新兴产业重点领域,遴选一批具有国内领先水平的产业园区和企业。示范基地创建瞄准新一轮科技革命和产业变革前沿,聚焦新一代信息技术、新能源、新材料、

中国启动“燃烧等离子体”国际科学计划,携手全球点燃“人造太阳”

在安徽合肥未来大科学城,一座名为BEST的紧凑型聚变能实验装置主机大厅内,全球能源未来的一页新篇章正悄然开启。11月24日上午,中国科学院在安徽合肥未来大科学城的紧凑型聚变能实验装置(BEST)主机大厅正式启动“燃烧等离子体”国际科学计划,并首次面向国际聚变界发布BEST研究计划。来自法国、英国、德国、意大利等十余个国家的聚变科学家齐聚合肥,共同签署了《合肥聚变宣言》,

数智赋能解锁文脉守护新范式“今古集”亮相长三角文博会获行业聚焦

11月20日,“今古集:数智赋能·守护文明”2025年社会教育活动在国家会展中心(上海)开幕,活动由中国文物保护基金会科技保护专项基金主办。中国文物保护基金会秘书长陶诚,上海市委宣传部二级巡视员、市文创办专职副主任黄建富,中国科学院院士、同济大学建筑与城市规划学院教授常青等出席活动并致辞,来自文博机构、高等院校、科技企业等众多专家学者与行业代表参加活动。

长三角织就算力“一张网”,数智加速度破局数字时代

一键下单,算力“网购”,87.3EFlops庞大算力资源在长三角地区正像水电一样便捷可及,一场区域一体化的数字革命悄然到来。江苏省一体化算力调度监测平台于11月13日在南京正式上线,这是全国首个省市一体化算力调度监测平台。该平台已监测全省在用数据中心282个,总算力规模达87.3EFlops,其中智能算力占比约70%,成为长三角数字经济的“主力能源”。与此同时,在11月

国家加速制造业升级:到2027年基本建立现代化中试平台体系

工信部最新部署,到2027年底,我国将基本建立现代化中试平台体系,初步形成多主体参与、多领域布局的全国制造业中试服务网络。工业和信息化部办公厅日前印发《关于进一步加快制造业中试平台体系化布局和高水平建设的通知》,明确提出到2027年底,高水平中试平台力量进一步壮大,现代化中试平台体系基本建立,多主体参与、多领域布局、多层次服务的全国制造业中试服务网络初步形成。中试

788 EFLOPS 领跑全球!我国智能算力撑起 AI 创新 “加速度”

截至 2025 年 6 月底,我国智能算力规模达 788 百亿亿次 / 秒(EFLOPS),相当于全球 80 亿人用普通计算器连续运算 4000 年的总量。这一来自工业和信息化部的最新数据,与 1085 万标准机架、1680 艾字节存力共同印证:我国算力基础设施规模已稳居全球前列,正成为人工智能创新的核心引擎。千行百业 “算力赋能” 成效凸显在内蒙古伊利智慧牧场,计算机

中国6G专利全球第一,2025年互联网蓝皮书揭示数字中国新图景

一份备受全球互联网行业关注的年度发展成绩单,在乌镇峰会上如期发布。11月8日,在2025年世界互联网大会乌镇峰会上,由中国网络空间研究院牵头编撰的《中国互联网发展报告2025》和《世界互联网发展报告2025》蓝皮书正式发布。这两份已连续九年面向全球发布的权威报告,全景式展现了过去一年中国和世界互联网发展的新进展与新成就。报告中的一系列数据令人振奋:中国6G专利申请

2025科技创新与产业创新深度融合大会在长沙成功举办

11月1日,由中南大学主办的2025科技创新与产业创新深度融合大会暨中南大学校企联理事会会议在长沙开幕。大会深入贯彻党的二十届四中全会精神,落实“推动科技创新与产业创新深度融合,引领发展新质生产力”的战略部署,旨在充分发挥中南大学教育、科技、人才“三位一体”优势,搭建一个汇聚校友力量、链接产业需求与大学科创资源的高能级平台。

科技赋能健康 创新引领未来 浙江省盐业健康科技研究院挂牌成立

聚焦盐、泛盐产品、泛食品、大健康等领域,致力于开展产品研发、技术创新、产业融合、成果转化、行业研究和人才培养等业务,为浙盐集团转型发展和拓展第二增长曲线提升科研创新支撑,为助力中国盐行业高质量发展注入浙盐新动能。
返回
顶部