Evidence PostsDDemis HassabisFirst Seen(UTC+0) 2026/02/02 18:07Last Evidence(UTC+0) 2026/02/02 18:07AI Score82Key Takeaways1AI 领域急需更难的评测基准2博弈游戏(狼人杀、扑克)可测试不确定性决策3Kaggle 成为 AI 综合技能测试的重要阵地Content Angles1为什么现在的 AI 评测基准不够用了?2当 AI 开始玩狼人杀:测试规划与欺骗能力3DeepMind 如何定义 AI 的‘真实世界技能’