近日,微众银行率先推出金融行业AI智算场景自研交换机,并首度披露高性能AI智算网络解决方案。该方案实现了AI智算场景下从硬件层的交换机、到软件层的网络操作系统、再到智能网络管控的全链路自主可控。
目前,该款交换机已在微众银行生产运营环境正式投入使用,最高可满足400G GPU/NPU算力卡的组网需求,建网成本节省约70%,为微众银行迈向AI原生奠定重要基础。
大模型时代,基于海量数据的AI分布式训练经常受限于“网络拥塞”。特别是在基于以太网开展的AI分布式训练中,由于流量的低熵特性,传统多链路等价负载分担容易造成网络拥塞,无法满足金融业对高带宽、低时延、零丢包的严苛要求。如果依赖外部商用单点优化解决方案,不仅成本高昂,且无法高效、系统、全面地优化升级。
面对这一难题,微众银行另辟蹊径,深度拆解自身业务发展需求,面向AI智算场景,打造软硬件全栈自主可控的高性能AI智算网络解决方案,实现软硬件解耦与灵活组合配置。
硬件方面,微众银行基于12.8T国产交换芯片和国产CPU打造专属交换机,适配国内外主流GPU和NPU计算资源。交换机支持高达1.6T的RDMA(Remote Direct Memory Access,即“远程直接内存访问”)接入能力,最高能够支撑400G 的GPU/NPU算力卡在无损以太网环境下的组网需求,为金融行业在AI算力卡选型上拓展了更多可能性。
软件方面,微众银行基于开源的SONiC(Software for Open Networking in The Cloud,即“云中开放网络软件”)自研网络操作系统,创新性研发适应不同组网架构、可自定义的链路级负载分担组件,使得大规模部署无损以太网更丝滑。如若链路发生故障,该组件能够在毫秒之间将流量切换至备份链路上,极大缩短故障影响范围与时长。
值得一提的是,针对日常AI训练过程,如何快速发现网络拥塞并妥当处理极为关键。为此,微众银行在软件层进一步自研智能网络管控系统,为AI智算网络提供智能化调度的“全知视角”,实现全网设备拥塞指标秒级采集监控,精准定位拥塞业务流量,并自动调度至最优路径。
此前,微众银行在利用开源SONiC自研网络操作系统的同时,将网络协议性能优化方案开源反哺SONiC社区,成为上榜SONiC官方贡献组织名单的领先金融机构,助力中国金融科技提升国际影响力。下一步,微众银行将持续迭代AI智算网络解决方案,总结提炼在智能网络管控方面的成熟经验,计划未来形成标准化公共组件面向全球开源共享,助力AI智算网络高质量发展。