北京时间 2 月 6 日凌晨,Anthropic 与 OpenAI 相继推出了新版本基础大模型,分别是 Claude Opus 4.6 与 GPT-5.3-Codex。 昨天两家还在因为 AI ...
在 GDPval-AA(一项针对金融、法律等高经济价值任务的评估)中,Opus 4.6 的 Elo 得分比业界第二(OpenAI 的 GPT-5.2)高出了整整 144 分,比前代更是高出 190 分。 一方面,Anthropic 这回直接把 ...
小黑盒生活 on MSN
OpenAI 和 Anthropic 同时王炸更新,能力翻倍,不仅代码!
【本文由小黑盒作者@飞碟AI于02月06日发布,转载请标明出处!】 凌晨,Anthropic 丢出重磅更新,跟本公众号昨天发布的爆料不一样,本以为是发布的Claude 5.0,但是这次版本号是4.6,还没来得及欢呼,紧接着OpenAI ...
在 GDPval-AA(一项针对金融、法律等高经济价值任务的评估)中,Opus 4.6 的 Elo 得分比业界第二(OpenAI 的 GPT-5.2)高出了整整 144 分,比前代更是高出 190 分。
为了展示 Opus 4.6 的极限,Anthropic 的研究员 Nicholas Carlini 搞了个疯狂的实验:充值了 2 万美元的 API 额度,让 16 个 Claude Opus 4.6 组成一个「全自动软件开发团队」。
在Agent编程评估Terminal-Bench 2.0中取得了最高分,并在“人类最后考试”中领先所有其他前沿模型。 在MRCR v2 8-needle 1M基准测试——大海捞针——中,Opus 4.6得分76%,而Claude Sonnet 4.5只有18.5%。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果