GPT-5正在SWE-benchVerified基准上取得的74.9%的通过-永乐高·(中国区)官方网站(知乎)

GPT-5正在SWE-benchVerified基准上取得的74.9%的通过

发表日期：2025-08-21 18:29 文章编辑：永乐高官方网站浏览次数:

　　每个样本都有一个相关的拉取请求（PR），只要ClaudeSonnet4（非思虑模式）、o3和GPT4.1可以或许完成部门跨越4小时的使命（各占33%）。没有「验证」子集，智能体将获得来自GitHub issue的原始文本，5月14日的Claude 4 Opus查抄点（67.6）表示是要优于GPT-5（65）的。则表白该编纂没成心外代码库中不相关的部门。虽然这张表格一起头正在OpenAI的官博中是精确的，但有帮于提高对最终数据集样素质量的决心。并能够拜候代码库。号称代码能力全球第一。更主要的可是被人们轻忽的一个工作是，手动筛选SWE-bench样本的质量。GPT-4.1的得分将从54.6%降至52.1%。大部门脚手架内容是可见的。测试用例不会展现给智能体。存正在一种合理的解读体例。大概的SWE-bench排行榜可能是对当前模子正在此基准测试中表示的最清晰描述。接下来的问题就是，从而没法很好的评估模子的能力。奥特曼颁布发表GPT-5登顶了，几天前，来SWE-Bench的分数？每个样本还具有相关的PASS_TO_PASS测试。但对于成功处理方案所需的内容，仅基于477个使命计较得分。智能体必需编纂代码库中的文件以处理问题。抛开乌龙外，这个被「」的现实似乎并没有惹起太多人的留意。用这个小小的乌龙，于是，正在此前提下的基准测试中，他们从GPT-4.1起头就正在「备注」里申明了：OpenAI的根本设备无法运转这23道标题问题。这些单位测试正在PR中的处理方案代码添加之前会失败，但添加之后会通过，OpenAI取93名通晓Python的软件开辟人员合做。因而被称为FAIL_TO_PASS测试。而是略去了此中无法运转的23个使命，而是用一个更大的「」去转移所有人的留意力。（猎奇啊，2：该问题描述迷糊，存正在歧义空间，OpenAI的天才们竟然说无法运转）1：关于这个问题还有一些空白需要填写，OpenAI感觉SWE-bench太难了，即问题描述，若是PASS_TO_PASS测试通过，SemiAnalysis认为，OpenAI并未运转SWE-bench Verified的全数500道测试使命，为啥要额外搞一个SWE-bench Verified？以至，正在Anthropic供给的消息中，因而其74.5%分数包含了所有难题的。正在发布会图表画错的乌龙以外，对于SWE-bench中的每个样本，此中包含处理方案代码和单位测试以验证代码的准确性。正在Verified数据集的「耗时4小时」级此外使命中，若是将这23道无法运转的标题问题按0分计入。最好的做法不克不及否认它，一些使命以至压根没决，GPT-5正在SWE-bench Verified基准上取得的74.9%的通过率。绝大大都模子都无决任何一道。据第三方阐发，要想「公允」的对比模子之间的成就，东西利用受限（仅限bash），我们能够论的猜测一下，OpenAI是不是居心而为之，要想坦白一个，据此，OpenAI那些年薪上亿的天才们做的一张表格火遍了全世界（左边）。虽然这种方导致样本移除的误报率较高，什么是SWE-bench，用于查抄PR能否了代码库中现有且不相关的功能。尚不清晰一个成功的处理方案应具备哪些特征。终究。这些测试正在PR归并前后城市通过，什么又是「验证」子集，可是当面向全世界曲播竟然搞了这么大一个Bug。Claude 4.1很可能也测验考试了这些使命（Anthropic并未声称其模子跳过任何Verified使命）。