算力建设能否及时跟上,成为AI大模型向各领域进一步渗透的关键因素。


2024年8月21日,观众在北京世界机器人大会上参观


以OpenAI ChatGPT为代表的通用人工智能的快速发展,预示着全球新一轮科技革命和产业变革已经到来。ChatGPT除了有上万块GPGPU(通用图形处理器)提供强大算力,还有大模型算法、大数据的支撑。


作为数字经济时代的全新生产力,数据、算力和算法成为新时代的关键资源。大模型的开发、训练、微调及推理各个环节均离不开算力,且算力成本占据整体开销的大头。可以说,算力成为支撑大模型发展的关键因素,也是科技竞争的战略高地。


在大规模的前端产品落地后,算力建设能否及时跟上,成为AI大模型向各领域进一步渗透的关键因素。为此,本刊专访了长期从事超级计算和算力经济研究的十四届全国政协委员、中国科学院计算技术研究所研究员张云泉,探讨AI大模型发展如何打破算力瓶颈。


张云泉


暴露核心问题


《瞭望东方周刊》:在大模型发展热潮下,哪些问题成为制约国产大模型发展的重要因素?


张云泉:成本高昂、供应不稳,需求激增,这三点勾勒出了中国AI算力面临的整体挑战。


首先,大模型训练用国产高端AI芯片供应不足,国产AI芯片公司尚未形成合力。目前,国内虽然已形成了以华为、寒武纪等为代表的优秀AI芯片厂商方阵,但由于缺乏算力芯片的国家或行业标准,各厂家形成了自己的生态体系且互不兼容,造成用户学习和运营成本上升。目前,国内尚未有一家AI芯片公司的产品能够支持万卡并行大模型训练,更不用说未来的十万卡、百万卡甚至千万卡并行的挑战。


其次,大模型落地所需要的配套软件、服务生态及市场缺乏投资、引导与建设,所需要的低功耗芯片和算子库的开发与应用、配套技术等不足。大模型产品形式单一,运营成本高,提高了传统企业应用大模型的门槛、增加了研发费用和成本。


第三,目前,很多高校由于资源限制和师资力量不足,缺乏足够的实验设备和实践机会,导致具有科技创新能力又能熟练应用AI新技术的人才十分紧缺。


6月22日,观众在天津2024世界智能产业博览会上的天士力展台了解数智本草大模型


把握时间窗口


《瞭望东方周刊》:针对当前问题,国产大模型发展如何打破算力瓶颈?


张云泉:过去的15年,我国超算的研制水平已经达到世界领先水平,形成了神威、天河和曙光三大世界级超算研制团队,夺得了11次世界冠军和两次超算应用最高奖戈登贝尔奖,神威新一代超算证明可以支撑万亿规模参数的大模型训练过程。


因此,可以考虑设立能够支持万亿级参数多模态大模型训练的专用超算攻关专项,尽快缓解国产主权基础大模型训练的算力瓶颈。


国内一些企业往往倾向于使用国外的开源大模型,容易出现低水平重复与内卷,导致算力资源分散。时间窗口有限,我们不能错失良机。


通过专用超算攻关专项计划的支持,可充分利用超算领域多年积累的人才和技术优势,快速形成突破,为研制更先进适用的大模型专用训练芯片和系统赢得时间。可以考虑集中全国AI芯片研制力量,组建由业内权威专家和各主要AI芯片厂家参加的智能算力发展专项组,通过多轮竞争,确定训练芯片研发技术路线和国家标准,集中投入,整合芯片产能,尽快研制出能够满足十万卡、百万卡甚至千万卡并行算力需求的AI芯片和系统。


同时,要大力发展经济实用大模型推理产业链。通过投资引导低功耗推理芯片和算子库技术攻关,鼓励大模型压缩、适配和性能调优等技术研发,通过规模效应实现成本共担,降低模型推理算力成本,形成经济适用国产大模型推理产业链。此外,可为大模型企业和愿意通过大模型手段智能化转型的传统企业提供必要支持和配套服务,快速形成新质智能生产力,助力国产大模型平台企业生态建设和占领市场。


《瞭望东方周刊》:针对人工智能人才培养的问题,您有哪些建议?


张云泉:针对教育资源分配不均,可以通过探索设立“生成式人工智能教学资源共享平台”,以鼓励学校间共享教学内容资源和教学计算资源。


课程内容更新方面,建议设立“生成式人工智能国际协同创新计划”,以鼓励国内外学校(或企业)合作创新课程内容和教学方法。


产教融合方面,学校和产业界应加强合作,可设立“生成式人工智能创新实践基地”,以鼓励有智能化需求的行业企业提供实习机会和人工智能应用场景。


师资力量方面,可加快推进在生成式人工智能领域企业导师的引进速度,通过企业导师帮助校内教师提升在生成式人工智能领域的知识和教学能力。


2023年5月23日,工作人员在贵州大学省部共建公共大数据国家重点实验室的智能就业服务平台上工作。

该实验室建成了一流科研平台与超算中心,人工智能算力达120petaflops


“主权级”大模型


《瞭望东方周刊》:目前,国内企业之间山头林立,从智能应用、开发框架、系统软件、智能芯片,每层都有相关产品,但各层之间没有深度适配,无法形成一个有竞争力的技术体系。这一问题应如何解决?


张云泉:AI大模型已成为各国科技竞争的战略高地。要正面解决AI和算力领域发展面临的各项困难和挑战,找到一条发展主权级大模型的道路,非常重要。


从国际情况来看,2023年,英国创立“基础模型工作组”,希望能拥有自己国家的“主权”人工智能技术,其公共服务也能够从这种人工智能的转型影响中受益。英伟达直接提出“主权AI”的概念,并将其定义为“一个国家利用自己的基础设施、数据、劳动力和商业网络生产AI的能力”。


“主权AI ”涵盖物理和数据基础设施,后者就包括“主权级基础大模型”——由当地团队开发,并在当地数据集上进行训练,以促进对特定语言、文化和习俗的包容性。


“主权级基础大模型”其实是一个动态概念,指的是某一时期内最高水平的大模型。这一大模型算力要求最高、智能水平最高,是一个国家AI水平的最高点、基础大模型的基础,也可以被称为“根模型”。


对中国来说,要立足国产算力平台和智能芯片,推动实现利用自己的基础设施、数据、劳动力和商业网络发展AI的能力;要将发展“主权级大模型”和算力实体产业培育发展新质生产力相结合,正面解决中国AI和算力领域发展面临的关键问题


(如有版权问题,请联系删除)


集中力量,促进国产AI大模型发展——专访十四届全国政协委员、中科院计算所研究员张云泉

点赞(0)

微信公众账号

微信扫一扫加关注

返回
顶部