On SWE-Bench Verified, the model achieved a score of 70.6%. This performance is notably competitive when placed alongside significantly larger models; it outpaces DeepSeek-V3.2, which scores 70.2%, ...
Use AI tools to build apps without coding. This guide covers setup, limits, risks, and SEO tool examples to inspire your own projects.
来自复旦大学、上海创新研究院和OpenMOSS团队的研究人员最近发表了一项有趣的研究,试图从一个全新的角度破解这个难题。他们没有试图用外部规则去强行纠正模型的坏习惯,而是决定深入模型的内心世界,看看模型本身是否已经有一套合理的逻辑。这项研究发表于2026年1月,编号为arXiv:2601.23182,相信会在语言模型研究领域引起不少讨论。