Karpathy:20美元复现 GPT-2 与 fp8 训练实战

Research
10
95
Karpathy 分享了使用 fp8 精度训练 GPT-2 的实验数据,将训练时间降至 2.91 小时,成本仅约 20 美元,并深入讨论了 fp8 的优劣权衡。

展示了个人/小团队复现经典模型的可能性,提供了前沿的训练优化经验。

Evidence Posts

First Seen

(UTC+0) 2026/02/03 21:49

Last Evidence

(UTC+0) 2026/02/03 21:49

AI Score

95

Key Takeaways
  • 1fp8 在 H100 上可带来约 5%-7% 的实际加速
  • 2GPT-2 训练成本已降至极低水平(20美元)
  • 3精度与速度的权衡:fp8 的数值挑战
Content Angles
  • 12025 年复现 GPT-2 需要多少钱?
  • 2Karpathy 的 fp8 训练避坑指南
  • 3从 GPT-2 到 Llama3:模型训练效率的飞跃