微众银行近日推出金融行业AI智算场景首款自研交换机,并披露其高性能AI智算网络解决方案。该方案实现从硬件交换机到软件网络操作系统,再到智能网络管控的全链路自主可控,已在微众银行生产环境投入使用,最高支持400G GPU/NPU算力卡组网,建网成本节省约70%。
该方案旨在解决大模型时代AI分布式训练中常见的网络拥塞问题。传统以太网在AI分布式训练中,由于流量的低熵特性,多链路等价负载分担易造成拥塞,难以满足金融业的高带宽、低时延、零丢包要求。而依赖外部商用解决方案成本高昂且缺乏系统性优化。
微众银行的解决方案独辟蹊径,软硬件全栈自主可控,实现软硬件解耦与灵活组合配置。硬件方面,基于12.8T国产交换芯片和国产CPU打造专属交换机,适配主流GPU和NPU计算资源,支持高达1.6T的RDMA接入能力,满足400G算力卡组网需求。软件方面,基于开源SONiC自研网络操作系统,创新研发可自定义的链路级负载分担组件,实现大规模无损以太网部署,并可在链路故障时毫秒级切换流量至备份链路。
此外,微众银行自研智能网络管控系统,提供“全知视角”,实现全网设备拥塞指标秒级采集监控,精准定位拥塞流量并自动调度至最优路径。值得关注的是,微众银行积极参与开源社区,将网络协议性能优化方案开源反哺SONiC社区,成为上榜SONiC官方贡献组织名单的唯一金融机构。未来,微众银行计划将AI智算网络解决方案中的成熟经验形成标准化公共组件,面向全球开源共享,推动AI智算网络高质量发展。
这项创新对金融科技发展具有重要意义,它降低了AI基础设施建设成本,提高了AI训练效率和稳定性,并为金融行业在AI算力卡选型上提供了更多可能性。通过自主可控的解决方案,微众银行为金融行业在AI时代保持竞争优势奠定了坚实基础,也为中国金融科技的国际影响力提升做出了贡献。 未来,类似的自主可控技术方案将会在更多领域得到应用,推动数字经济的快速发展。