证据推文DDemis Hassabis首次发现(UTC+0) 2026/02/02 18:07最新证据(UTC+0) 2026/02/02 18:07AI 评分82核心要点1AI 领域急需更难的评测基准2博弈游戏(狼人杀、扑克)可测试不确定性决策3Kaggle 成为 AI 综合技能测试的重要阵地内容切入角度1为什么现在的 AI 评测基准不够用了?2当 AI 开始玩狼人杀:测试规划与欺骗能力3DeepMind 如何定义 AI 的‘真实世界技能’