Anthropic 重磅发布 Claude Opus 4.8：编码能力与诚实度全面跃升

Anthropic 今日宣布推出其最新 AI 模型 Claude Opus 4.8。Anthropic 称该模型是“更高效的协作伙伴”，在智能体编码、多学科推理、智能体电脑使用、知识工作以及智能体金融分析等方面均有显著提升。

测试者发现 Opus 4.8 在执行智能体任务时“更可靠、判断更敏锐”，同时该模型在诚实度上也取得了进步。

早期测试者报告称，Opus 4.8 更倾向于标明自身工作的不确定性，并且较少做出无依据的声明。这一点在我们的评估中得到印证，结果显示 Opus 4.8 允许其编写的代码中存在缺陷却未加标注的可能性比前代模型低约四倍。

对齐评估显示，该模型在支持用户自主性和以用户最佳利益行事等亲社会特质指标上达到了新高。欺骗等不对齐行为的发生率低于 Opus 4.7，并与 Claude Mythos Preview 相当。

Anthropic 的基准测试表明，Opus 4.8 在 SWE-Bench Pro 上取得了 69.2% 的成绩，在该测试及其他多项基准中超越了 GPT-5.5 和 Gemini 3.1 Pro，不过 GPT-5.5 在终端编码基准上领先。

Opus 4.8 的快速模式运行速度也提升至原来的 2.5 倍，并且现在比之前模型便宜三倍。

除了 Opus 4.8 之外，Anthropic 还为其产品线增添了新功能。

动态工作流（研究预览） – Claude 能够在 Claude Code 中完成更大规模的任务。它能够规划工作并在单个会话中运行数百个并行子智能体。它能够完成涉及数十万行代码的代码库级迁移。该功能适用于 Claude Code 的 Enterprise、Team 和 Max 计划。
努力程度控制 – 在 Claude.ai 和 Cowork 中，用户可以选择 Claude 在响应中投入多少努力。较低设置下，Claude 将响应更快，并更缓慢地消耗速率限制。Opus 4.8 默认使用高努力设置，Anthropic 表示这是质量与用户体验的最佳平衡。
Messages API – Messages API 接受消息数组内的系统条目，因此开发者可以在任务中途更新 Claude 的指令。

Claude Opus 4.8 今日已在全球范围内可用。常规使用定价与 Opus 4.7 相比没有变化。

Anthropic 正在开发具有与 Opus 4.8 相同能力但成本更低的模型，以及一类比 Opus 更智能的新模型。Anthropic 表示，它一直在为正在与少数组织测试的 Claude Mythos 模型开发防护措施，并预计能够在“未来几周内”将 Mythos 级模型带给所有客户。