国产算力长期面临两大问题:第一,国产GPU缺乏生态支持难以替代英伟达的GPU;第二,如何在国产GPU单卡性能有限的条件下,通过其他技术手段提升整体算力水平。
在9月27日至29日举行的2024年中国算力大会上,产业各方着重探讨解决办法。
降低迁移成本
国内的AI大模型通常在英伟达的GPU硬件上运行,如果用户想从英伟达的硬件迁移到其他国产GPU,需要面对代码兼容性的问题。
对此,中国移动(600941.SH)在大会上发布了一款用于芯片架构迁移的工具。这个工具名叫“芯合”,可以帮助用户将基于英伟达生态链编写的代码迁移到华为或其他国产硬件平台上,从而降低算力用户的迁移成本。
一位中国移动人士对经济观察网称,很多AI大模型用户希望采用国产芯片,但过高的迁移成本是一个巨大障碍。开发“芯合”是为帮助AI大模型用户减少迁移成本,最终目标是让国产GPU更快被市场接受。在正式发布之前,该工具已经小规模试用了一段时间。
一直以来,国产厂商的硬件架构与英伟达不兼容,国产厂商各自的架构也不兼容,所以用户原本在英伟达GPU上优化的代码可能无法直接在国产GPU上运行。
该人士称,“芯合”为用户省去了手动修改大量代码的工作。此外,迁移工具可以帮助用户在不同生态之间切换,不需要重新编写整个程序。迁移过程中可能会给用户带来性能损耗,但损耗可以维持在10%以内。
国产GPU公司瀚博半导体对经济观察网称,算力国产化需要企业打破各自独立的体系,共同构建一个生态,“芯合”是一个鼓舞人心的开始,公司会积极参与到该项目中。
华为作为算力设施的建设者,也提供了一些方法帮助大模型用户向国产GPU迁移。
一位华为人士对经济观察网称,华为提供了从硬件到软件的一整套解决方案,包括AI芯片、编程语言、开发工具和AI框架。但是,市面上的工程师和运维人员大多不熟悉华为的架构,导致用户在使用华为算力系统时,一旦出现问题,除了华为员工,很难找到其他能解决问题的工程师。
华为在国内的AI芯片和服务器市场中占有较大的份额,这家公司一直在各省设有支持中心。该华为人士称,近期,这些支持中心开始免费帮助用户和客户做迁移,降低他们迁移到华为平台上的成本。
挑战万卡集群
国产算力的第二个难题是,国产GPU性能受限,使得智算中心需要从千卡规模迈入万卡甚至是十万卡规模。
9月28日,中国工程院院士刘韵洁在主论坛上表示,中国在单卡GPU性能上无法和国外竞争,起码短时间内做不到。
一位中国电信(601728.SH)人士对经济观察网表示,与海外GPU相比,国产GPU可能需要堆叠更多的量达到相同的算力水平,这也是为什么需要打造万卡规模算力。然而,就像管理一万人比管理一千人要难得多,打造万卡规模的算力集群面临诸多挑战。
电信运营商通常是算力设施的投资方或运营方。在过去一年,中国电信在上海和北京建了两个国产万卡公共智算中心,算力规模分别是3.5EFLOPS和3.75EFLOPS。2024年8月,中国移动在哈尔滨1.8万卡规模的超大智算中心,算力规模是6.9EFLOPS。
针对万卡规模带来的技术挑战,中国移动在9月27日公布了多项技术方案:GPU卡间互联协议,全调度以太网技术体系,融合存储方案等。
简单来说,这是为了把上万张GPU卡和上千台服务器互联起来,并让它们之间快速通信以传输数据,还要确保它们在长时间运行时稳定,不会中断。当出现故障时能快速找到故障点并让AI辅助诊断。
上述中国移动人士称,这些技术的开发难度很高,目前还在小规模验证阶段,中国移动需要联合服务器和GPU企业一起做测试,预计明年大规模运用。