吴恩达提议“图灵-AGI 测试”:以完成经济价值工作为准

Research
10
96
吴恩达建议用能否像熟练人类一样完成多天、联网、使用软件的实际工作任务来定义 AGI,而非简单的文本对话。

试图将 AGI 从营销炒作转向可衡量的经济价值,防止行业泡沫。

Evidence Posts

First Seen

(UTC+0) 2026/01/06 16:37

Last Evidence

(UTC+0) 2026/01/06 16:37

AI Score

96

Key Takeaways
  • 1AGI 应定义为能执行人类任何智力任务的 AI
  • 2新测试关注远程办公能力的模拟
  • 3现有的固定基准测试(如 GPQA)容易被过度拟合
Content Angles
  • 1AGI 的新定义:从对话到工作
  • 2为什么我们需要更务实的 AI 评估标准