Karpathy:20美元复现 GPT-2 与 fp8 训练实战

研究讨论
10
95
Karpathy 分享了使用 fp8 精度训练 GPT-2 的实验数据,将训练时间降至 2.91 小时,成本仅约 20 美元,并深入讨论了 fp8 的优劣权衡。

展示了个人/小团队复现经典模型的可能性,提供了前沿的训练优化经验。

证据推文

首次发现

(UTC+0) 2026/02/03 21:49

最新证据

(UTC+0) 2026/02/03 21:49

AI 评分

95

核心要点
  • 1fp8 在 H100 上可带来约 5%-7% 的实际加速
  • 2GPT-2 训练成本已降至极低水平(20美元)
  • 3精度与速度的权衡:fp8 的数值挑战
内容切入角度
  • 12025 年复现 GPT-2 需要多少钱?
  • 2Karpathy 的 fp8 训练避坑指南
  • 3从 GPT-2 到 Llama3:模型训练效率的飞跃