Ray的分解混合并行技术提升了多模态AI训练30%

robot
摘要生成中

艾瑞斯·科尔曼

2025年12月10日 01:06

Ray创新的拆分混合并行显著提升了多模态AI训练效率,吞吐量提升高达1.37倍,克服了记忆难题。

在人工智能训练领域取得重大进展,Ray引入了一种分散混合并行方法,根据Anyscale的数据,该方法将多模态AI模型的训练速度提升了30%。这一发展解决了处理文本、图像和音频等多种数据类型的训练模型所面临的复杂性和计算挑战。

多模态人工智能训练中的挑战

多模态AI模型不同于传统的同质大型语言模型,由具有不同计算和内存需求的专用模块组成。例如,视觉语言模型(VLMs)将视觉编码器与大型语言模型(LLM)集成。这种集成带来了架构上的复杂性,尤其是在处理高分辨率图像和长序列时。传统技术如张量并行和DeepSpeed ZeRO3常常不足,导致效率低下和内存不足的错误。

雷的创新方法

Ray的拆分混合并行利用了其通用框架的灵活性,使多模模型中的每个模块都能定制化并行化策略。通过利用Ray基于actor的架构,开发者可以独立分配资源,优化每个模块的独特需求。这使复杂工作负载的编排更高效,正如Qwen-VL 32B模型所示。

基准测试与性能

在Qwen-VL 32B模型的测试中,Ray的方法相比传统方法的吞吐量提升了多达1.37倍。该策略将视觉编码器的序列并行性和大型语言模型的张量并行结合起来,有效管理不同模块间的内存和计算需求。该方法不仅提升了速度,还使得训练长达65,000个令牌的序列成为可能,超过了DeepSpeed ZeRO3在16,000个令牌时遇到内存问题的能力。

未来展望

Ray拆分混合并行技术在提升AI训练效率方面的成功,为其在更大型GPU集群和多样化硬件配置中的应用铺平了道路。其适应多种多模态架构的能力凸显了其在人工智能开发中更广泛应用的潜力。

对于有兴趣探索这一创新方法的人,Ray 的实现可在他们的 GitHub 仓库中进行实验和反馈。

图片来源:Shutterstock

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)