一项新发表的苹果机器学习研究挑战了围绕人工智能“推理”大型语言模型(如OpenAI的o1和Claude的思维变体)的主流说法,揭示了这些系统根本不是真正推理的根本局限性。
为了研究,而不是使用容易受到数据污染的标准数学基准,苹果研究人员设计了可控的谜题环境,包括河内塔和渡河。研究人员表示,这允许对不同复杂程度的最终答案和内部推理痕迹进行精确分析。
至少可以说,结果是惊人的。所有经过测试的推理模型,包括o3 mini、DeepSeek-R1和Claude 3.7 Sonnet,都经历了超过某些复杂性阈值的完全准确性崩溃,尽管有足够的计算资源,但成功率降至零。与直觉相反,随着问题变得更加复杂,这些模型实际上减少了他们的思考努力,这表明存在根本的扩展限制,而不是资源限制。
也许最糟糕的是,即使研究人员提供了完整的求解算法,这些模型在相同的复杂性点上仍然失败了。研究人员表示,这表明局限性不在于解决问题的策略,而在于基本的逻辑步骤执行。
模型还显示出令人费解的不一致性——在需要100多个动作的问题上成功,而在只需要11个动作的简单谜题上失败。
该研究强调了三种不同的性能机制:标准模型在低复杂度下出乎意料地优于推理模型,推理模型在中等复杂度下显示出优势,两种方法在高复杂度下都完全失败。研究人员对推理痕迹的分析显示了低效的“过度思考”模式,即模型早期找到了正确的解决方案,但浪费了计算预算来探索不正确的替代方案。
苹果公司的研究结果表明,目前的“推理”模型依赖于复杂的模式匹配,而不是真正的推理能力。这表明LLM不像人类那样扩展推理,过度思考容易的问题,对更难的问题思考更少。
该出版物的发布时间值得注意,因为它出现在WWDC 2025之前几天,预计苹果将限制对人工智能的关注,转而支持新的软件设计和功能彭博社.