大模型高速运转的动力之源
2023年末的一场技术盛会上,互联网领域的领军者们齐聚一堂,思想如星火碰撞。台下,来自清华大学的博士生熊典发现,自己与实验室同窗们日夜耕耘的学术成果,在智算这片浩瀚的星海中,竟藏着不可小觑的竞争力。回到校园,获得灵感的他积极与师长和同窗交流探讨。在师友的支持与鼓励下,熊典选择以驭驯网络创始人的身份与伙伴们一起躬身入局。
谈到“驭驯”这一独特的企业名称之由来,熊典分享了他的思考:“‘驭驯’二字承载着我们双重的初心。第一层源于‘预训’的谐音,代表了智能计算与大模型预训练的密切相关,这也提醒我们始终不忘助力大模型发展的初心;第二层则回归‘驭驯’的本义:我们希望能真正驾驭复杂的网络架构,使其全心服务于算力,如同驯服一匹奔腾的骏马,让技术稳健而高效地奔赴前程。”
只需输入关键词,就能快速生成文本;描述寥寥数语,即可创作精美图像;提供一些照片,便能轻松制成视频……这些曾经难以想象的操作,如今在AIGC技术的赋能下,已为普通人开启了“即试即用”的全新体验之门。然而,在这便捷有趣的体验背后,不仅需要大模型的能力支撑,更离不开庞大算力的坚实基础。如此规模的计算需求,远非单台计算机所能承载的,必须借助多台计算机通过网络协同工作。
为实现这一协同,需要构建完整的组网架构,涵盖网络拓扑、设备、协议与服务等关键组成部分,以保障高效连接与数据传输。在交换机、光模块、光纤等专用设备的支持下,多台服务器得以互联,共同为大模型的运行提供强劲动力。而驭驯网络所专注的,正是支撑大模型运转的核心环节——算力组网的构建与优化。
聚焦新型算力组网,熊典介绍道:“驭驯网络首创了ZCube组网架构,其是一项具有革命性的突破,该架构最早由驭驯网络与清华大学共同提出并在顶级学术会议上发表,评审人认为它‘极大地改变了我们对网络的认知与理解’,作为一项具有原创性、颠覆性的技术,ZCube拥有完全自主的知识产权,其先进程度领先于传统算力组网架构,能够大幅降低网络硬件成本,提升AI训练性能。”
回归初心的ZCube组网架构
当需要将众多服务器互联时,最理想的方式是使用一台“超级交换机”,这种方式延迟最低、带宽最大,成本也相对更低。然而,在实际应用中却面临技术限制,即目前无法制造出这样一台容量无限的“超级交换机”。现有的交换机均有交换容量上限,因此只能通过组合多台交换机的方式来实现理想中“超级交换机”能够实现的工作。
但当前主流架构往往存在大量冗余,甚至在演进过程中变得越来越复杂,这与网络设计的初心,即追求“如一台超级交换机般工作”的原始目标渐行渐远。
谈及算力网络,熊典分享了自身的见解:“网络的存在是为了服务算力互联,其设计本应追求极致的简洁高效。”他表示,ZCube架构正是一种回归初心的设计。它并非凭空设想,而是基于搜索算法,对比了成千上万种可能的拓扑结构,最终筛选出的最优解。通过不断进行自身的优化与设计,ZCube架构打破了“网络必然越来越复杂”这一固有认知,真正实现了简洁、高效的目标。
真实场景下的“组网艺术”
与多数领域落地周期漫长不同,计算机领域从学术研究到产业应用的进程往往较为迅速。这种快速落地能让人们直观地感受到技术优势,从而进一步推动技术本身与相关产业的成熟与发展,使之成为真正有价值的生产力。驭驯网络首创的ZCube架构也是如此,其不仅基于理论创新,也通过客观的实验数据证明了自身的显著优势。
在知名企业的支持下,驭驯网络在真实场景中完成了测试。为GPU集群进行组网时,使用ZCube方案可节省1/3的交换机数量,相应的光模块、光纤等配套物料也同步减少1/3,显著降低成本。而在增效上,ZCube在拓扑结构上具有本质优势。在ZCube架构中,任意两个GPU之间的通信仅需经过2台交换机(即“两跳”),而传统方案通常需要“3跳”。路径缩短直接带来了更低的延迟与更高的通信效率。实际运行集合通信(一种标准的通信范式)测试时,ZCube也充分展现了其优势之处,在不同情况下,性能提升可达到10%-40%。
值得一提的是,在模拟故障的测试中(如主动断开部分链路),ZCube架构展现出了更强的韧性。其性能优势不仅得以保持,甚至从正常情况下的一倍左右提升到了两倍以上,说明该架构在复杂、非理想的运行环境中依然稳定可靠。尽管该测试结果围绕一个小规模的集群展开,但其反映的正是当前大规模AI算力组网所面对的核心问题:如何用更少的设备、更优的拓扑、更高的效率与可靠性,去连接成千上万的算力单元。这正是ZCube架构所聚焦并解决的“组网的艺术”。
“测试中取得好结果固然令人振奋,但真正触动我的,是团队里每个人身上那股不肯言弃的韧劲和那些废寝忘食、全心投入的日夜。最初我们预估需要数周来适应和调试,最终将时间压缩到了一周半。”熊典动情地谈道,“创业这条路,技术固然是基石,可我心里清楚,最核心、最珍贵的财富,始终是身边这群人——这个怀揣共同目标、能凝聚成一股劲、甘愿为同一份事业毫无保留付出的团队。”

来源:《中关村U30》特刊