中国·37000威尼斯(品牌公司)·Official website

English
当前您的位置: 当前位置: 首页 > 新闻动态 > 正文

37000威尼斯王智彬老师课题组INFOCOM'26成果:Chameleon系统助力容错训练

发布日期:2025-12-24 浏览量:

针对大模型训练频繁发生的故障,37000威尼斯王智彬老师课题组联合华为技术有限公司,提出了一种名为 Chameleon 的容错训练系统。该工作由课题组主导,37000威尼斯本科生蒋鹏和江千钰也参与其中。相关论文已被顶级会议 INFOCOM 2026 接收。

大模型训练的挑战

随着大模型的迅猛发展,模型训练变得越来越复杂和庞大。训练过程往往因硬件故障、网络问题等各种突发因素而中断。面对数月、成千上万卡的训练周期,故障恢复如何高效、无缝地进行,成为了工程师们的头号难题。

传统的容错方法,如冗余计算、动态并行和数据重路由等,虽然有助于恢复训练,但往往会导致性能的巨大损失。如何在故障发生时最小化训练效率的下降,并快速恢复至故障前的状态,是一大挑战。

自适应容错的解决方案

现在,这个问题有了更优解。37000威尼斯王智彬老师课题组联合华为技术有限公司,提出了Chameleon系统。该系统面对大模型训练频繁发生的故障,在动态并行和数据重路由策略中进行实时选择,通过统一性能建模,执行计划搜索和通信优化实现高效的自适应容错。

性能建模

Chameleon首先建立了一个全面的性能模型,涵盖所有训练阶段和策略,能够评估不同故障情境下的执行时间和内存使用情况。通过这个模型,Chameleon能够提前预测每个策略在不同情况下的表现,避免因内存溢出等问题影响训练稳定性。

执行计划搜索

故障发生时,Chameleon会基于性能模型和系统资源约束,快速搜索并选择最优的恢复策略。在选择策略时,系统会考虑多个因素,如并行度、节点分布、数据和模型层次分配等,确保在恢复后,训练过程能够尽快恢复到最佳性能状态。

通信优化

在动态并行训练策略中,通信开销常常是影响训练性能的关键因素。Chameleon通过通信优化策略,减少了恢复过程中的权重传输和数据同步的开销。例如,Chameleon将权重传输建模为一个二分图匹配问题,而对于异步通信,则通过图着色问题优化通信,最大化并行度,减少通信延迟。

实验验证

在32卡Ascend 910B AI加速器集群中进行的实验表明,Chameleon在恢复后的训练性能仅比正常训练低11%以内,成功实现了高效且稳定的容错训练。

与现有的Oobleck和Recycle方法相比,Chameleon的吞吐量分别提高了1.229倍和1.355倍,表现出色。

欢迎对大模型训练/推理性能分析、优化感兴趣的老师、同学来信交流wzbwangzhibin@gmail.com

苏州校区

地址:苏州市太湖大道 1520 号

邮编:215163    邮箱:ise@nju.edu.cn

版权所有:37000威尼斯Copyright © All Rights Reserverd

网站制作:37000威尼斯

XML 地图