随着人工智能对算力的需求不断增加,有关大规模算力集群的话题成为热点之一。ChatGPT-3.5的参数规模约为1750亿,GPT-4已经迅速膨胀至1.8万亿。而随着行业模型的发展,边缘与端侧的算力需求也在不断攀升。如果说此前是千卡集群、万卡集群,去年已经有人提出两万卡集群、五万卡集群,未来出现十万卡集群,甚至更多,也不奇怪。换句话说,大规模算力集群已成为全球大模型竞争的必要基础设施。随着万卡集群时代的到来,数据中心将面临一系列全新挑战,很多关键问题也需要厘清。
首先需要厘清的问题是,芯片的性能并不等于智算集群的性能。现在国内很多区域都规划了大型的算力中心。这些中心动辄号称算力达到100EFlops。其基本思考逻辑是集合了数个区域算力集群,比如A地有8000台A100服务器,算力20EFlops;B地有6000台,算力15EFlops;C地12000台,算力30EFlops;D地14000台,算力35EFlops。如果将这4个区域的算力相加,得出的总算力就达到了100EFlops。
可实际上,一个地方的算力规模与实际输出并不完全相等。这就像计算一个发电厂的总装机容量,实际发电量总会受到诸多客观因素的影响,很难实现完全相等的程度。计算一个地方的实际算力输出,也不能对区域内算力建设规模进行简单地求和。阿里云智能集团副总裁安筱鹏就指出,总集群算力和单卡算力之间并不是一个线性关系。大规模算力集群除了要考虑GPU算力之外,还要考虑高性能网络建设能否跟上,并行任务调度资源的优化能力能否满足算力集群的需求;训练过程中如何对各种故障进行实时精准地响应,这需要从秒级演进到毫秒级的跃升;智算级运维体系能否有效建立等。
当人们面对一个参数万亿、数十万亿参数的模型训练的时候,需要的是一个超万卡集群的运算能力。如何有效构建将是一个重要挑战。目前,社会上的算力资源过于分散,训练的生态也不够开放,很多算力还不能以公共云的方式提供服务。这些都是我们面临的挑战。
其次,正是由于算力集群受到多方面因素的影响,算力的构建也要进行多方面的考量。对于当前的人工智能芯片来说,技术路线仍处于快速迭代和演进之中,算力集群面对将是越来越复杂的需求,一味地堆算力并不是唯一的选择。英特尔公司高级副总裁兼网络与边缘事业部总经理Sachin Katti在接受笔者采访就表示,在讨论算力时,除了优化算力、软件生态等之外,一个关键问题就是功耗,特别是当它在边缘部署的时候。边缘端部署设备能耗可能约为200W;云端部署的能耗可能在1k至2kW,而数据中心的单层机架能耗可能高达100kW。如果将整个数据中心的能耗累加起来,可能会达到50G至100GW的规模。此外,正是由于AI设备的高能耗,必须考虑相应的冷却效率和冷却能力,这是一个关键的变量。目前,业界已采用液冷技术对机群进行有效降温。现有的液冷技术已经能够为100kW的机群降温,未来有望扩展到300kW。因此,冷却技术也是限制算力部署的一个重要因素。
英特尔中国区网络与边缘事业部首席技术官张宇则强调了算力部署时应该边缘侧的碎片化特性。随着人工智能赋能千行百业,不同应用对算力的需求不同,跨度非常大。高性能要求的需要算力集群承载,算力需求不强的一个或几个设备就能够承载,同时需要软件平台的配合。对于中国来说,建设大规模的算力集群,乃至于构建一个算力体系,应该是一个开放的,涵盖芯片、软件、算子库、调度系统、训练系统的,更加开放兼容的体系。
第三个需要厘清的问题是,对于一个算力集群来说,技术上可用并不等于商业上也可行。相关运营者需要探索可持续运营之路。目前,全球大模型训练理推成本持续攀升。有人估算,未来几年大模型的训练成本将达百亿美元量级。全球领先AI公司未来两到三年,在算力上的投资达到数百亿美元。如此之高的训练推理成本,商业回报如果实现?需要探讨商业上的可行路径。
安筱鹏指出,当前人们对算力的需求大致分成两个方向:对于训练,需要海量的数据处理能力、集群通信能力以及任务调度优化;对于推理应用,还需要更多考虑性价比、低时延、弹性运算等问题。算力集群要能够构建一个可回报的商业模式,实现算力基础设施从能用到好用、易用、普惠、人人可用的问题。
针对数据中心运营的能耗成本,世纪互联AIDC产品解决方案总经理程汉生特别强调了在西部地区建设数据中心的优势。他指出,随着大模型时代算力需求不断高涨,电力消耗已经成为一个不容忽视的问题。而数据中心作为高载能用户,对能源的需求尤为显著。而西部地区优势突出,一方面,西部地区常年气温较低,为数据中心的高效散热提供了得天独厚的条件;另一方面,西部地区丰富的风能和太阳能资源为数据中心提供了可靠的能源供应,可以有效降低运营成本,为数据中心的绿色运营提供有力保障。