Evidence PostsSSam AltmanFirst Seen(UTC+0) 2026/03/07 16:23Last Evidence(UTC+0) 2026/03/07 16:23AI Score82Key Takeaways1利用模型自省能力进行压力测试2探索 LLM 的知识边界Content Angles1用 Sam Altman 的‘最难问题’横测主流模型2如何设计评估 AI 智力上限的提示词