重要
此功能在 Beta 版中。 工作区管理员可以从 预览 页控制对此功能的访问。 请参阅 Manage Azure Databricks 预览版。
这些笔记本可在 AI Runtime 上将模型训练扩展到多个 GPU 和节点。 它们介绍了使用 H100 GPU 上的 serverless_gpu Python API 的三种主要并行技术:DDP、FSDP 和 DeepSpeed ZeRO。
注释
H100 GPU 支持多 GPU 分布式训练。
选择并行技术
跨多个 GPU 缩放模型训练时,选择正确的并行度技术取决于模型大小、可用的 GPU 内存和性能要求。
| 方法 | 何时使用 |
|---|---|
| DDP (分布式数据并行) | 完整模型可以适配单个 GPU 内存;需要提高数据吞吐量 |
| FSDP (完全分片数据并行) | 非常大的模型不适合单个 GPU 的内存 |
| DeepSpeed ZeRO | 具有高级内存优化需求的大型模型 |
有关每种技术的详细信息,请参阅 DDP、 FSDP 和 DeepSpeed。
按技术和框架的示例笔记本
下表按所使用的框架/库和应用的并行度技术来组织示例笔记本。 多个笔记本可能出现在单个单元格中。
| 框架/库 | DDP 示例 | FSDP 示例 | DeepSpeed 示例 |
|---|---|---|---|
| PyTorch (原生) |
简单的 MLP 神经网络 RetinaNet 图像检测 |
10M 参数转换器 | — |
| 拥抱脸 TRL | 微调 Gpt OSS 20B | 微调GPT OSS 120B | 微调 Llama 3.2 1B |
| Unsloth | 对 Llama 3.2 3B 进行微调 | — | — |
| Axolotl | 微调 Olmo3 7B | — | — |
| 马赛克 LLM 铸造厂 | 微调 Llama 3.2 8B | — | — |
| 闪电 | 双塔推荐系统 | — | — |
开始
使用以下教程开始使用无服务器 GPU Python 库进行分布式训练:
| 教程 | 说明 |
|---|---|
| 具有 H100 GPU 的 AI 运行时 | 了解如何将 Databricks AI Runtime 与 H100 加速器配合使用,以使用 serverless_gpu Python 库运行分布式 GPU 工作负载。 |