Engineering API - 搜索 News

3 小时

硬碰硬！刚刚，Claude Opus 4.6与GPT-5.3-Codex同时发布

北京时间 2 月 6 日凌晨，Anthropic 与 OpenAI 相继推出了新版本基础大模型，分别是 Claude Opus 4.6 与 GPT-5.3-Codex。昨天两家还在因为 AI ...

8 小时

在 GDPval-AA（一项针对金融、法律等高经济价值任务的评估）中，Opus 4.6 的 Elo 得分比业界第二（OpenAI 的 GPT-5.2）高出了整整 144 分，比前代更是高出 190 分。一方面，Anthropic 这回直接把 ...

小黑盒生活 on MSN

【本文由小黑盒作者@飞碟AI于02月06日发布，转载请标明出处！】凌晨，Anthropic 丢出重磅更新，跟本公众号昨天发布的爆料不一样，本以为是发布的Claude 5.0，但是这次版本号是4.6，还没来得及欢呼，紧接着OpenAI ...

在 GDPval-AA（一项针对金融、法律等高经济价值任务的评估）中，Opus 4.6 的 Elo 得分比业界第二（OpenAI 的 GPT-5.2）高出了整整 144 分，比前代更是高出 190 分。

5 小时

为了展示 Opus 4.6 的极限，Anthropic 的研究员 Nicholas Carlini 搞了个疯狂的实验：充值了 2 万美元的 API 额度，让 16 个 Claude Opus 4.6 组成一个「全自动软件开发团队」。

在Agent编程评估Terminal-Bench 2.0中取得了最高分，并在“人类最后考试”中领先所有其他前沿模型。在MRCR v2 8-needle 1M基准测试——大海捞针——中，Opus 4.6得分76%，而Claude Sonnet 4.5只有18.5%。

一些您可能无法访问的结果已被隐去。