Evidence PostsAAndrew NgFirst Seen(UTC+0) 2026/01/06 16:37Last Evidence(UTC+0) 2026/01/06 16:37AI Score96Key Takeaways1AGI 应定义为能执行人类任何智力任务的 AI2新测试关注远程办公能力的模拟3现有的固定基准测试(如 GPQA)容易被过度拟合Content Angles1AGI 的新定义:从对话到工作2为什么我们需要更务实的 AI 评估标准