AI 推理能力之争: 苹果结论遭专家挑战

IT之家6月14日消息，科技媒体9to5Mac昨日（6月13日）发布博文，报道称苹果公司6月6日发布的AI研究论文《TheIllusionofThinking》引发争议，专家质疑评估方法。

苹果公司在论文中指出，即便是当前最先进的大型推理模型（LRMs），在复杂任务中也会崩溃。不过OpenPhilanthropy的研究员AlexLawsen对此提出详细反驳，认为苹果的结论源于实验设计缺陷，而非模型推理能力的根本性局限。

争议的焦点是苹果论文指出，即便是当前最先进的大型推理模型，在处理汉诺塔问题（TowerofHanoi）等复杂任务时，也会出现彻底失败的情况。

IT之家注：汉诺塔问题是一个经典的递归算法问题：上帝创造了三根柱子，并在第一根柱子上按顺序套有N个大小不同的圆盘（自下而上，圆盘由大到小，呈金字形）。

规定每次只能移动最顶端的一个圆盘，并且保证整个过程中大圆盘不能放在小圆盘之上。欲将所有圆盘从第一根柱子移动到第三根柱子，试给出解决方案。

OpenPhilanthropy的研究员AlexLawsen近日发布反驳文章《TheIllusionoftheIllusionofThinking》，认为苹果的研究结果更多反映了实验设计的缺陷，而非模型推理能力的真正局限。他在文章中直言，苹果的研究混淆了输出限制和评估设置问题，与实际推理失败无关。

Lawsen提出了三个核心问题，挑战苹果的结论。首先，他指出苹果忽略了模型的Token预算限制。在处理8盘以上的河内塔问题时，如Anthropic的ClaudeOpus等模型已接近输出上限，甚至明确表示“为节省Token而停止”。

其次，苹果的RiverCrossing（过河）测试中包含无解谜题，例如6个以上角色搭配无法满足的船只容量限制，模型因拒绝解答而被扣分。

最后，苹果的自动化评估脚本仅以完整步骤列表为标准，未能区分推理失败与输出截断，导致部分策略性输出被误判为失败。Lawsen认为，这种僵硬的评估方式有失公允。

为支持观点，Lawsen重新设计了河内塔测试，要求模型生成递归Lua函数来打印解法，而非逐一列出所有步骤。

结果令人惊讶：Claude、Gemini和OpenAI的o3模型均能正确生成15盘问题的算法解法，远超苹果报告的“零成功”复杂性界限。

Lawsen得出结论：去除人为输出限制后，LRMs展现出处理高复杂任务的推理能力，至少在算法生成层面是如此。这表明，问题可能不在于模型本身，而在于评估方式。

九天玄女门发布网,提供九天玄女门发布信息,第一时间发布列表及资讯,九天玄女门下是九天玄女门票多少钱一张_九天玄女门下首选资讯平台。