GPT-4加Agent轻松追平Devin普林斯顿造开源首日斩获16k星

来源:m6米乐娱乐    发布时间:2024-04-08 22:53:18

详情


  普林斯顿打造的开源SWE-agent,直接开箱即用——修正GitHub存储库中线%的SWE-bench测验集上,它完成了与Devin类似的准确度—— 处理了12.29%的问题。

  GitHub上线K星。不少网友感叹,只需对GPT-4指令行东西进行简略规划,就可以让GPT-4部分才能大幅提高。

  我以为AI Agent将在本年推进人工智能巨大进步,甚至有或许超越下一代根底模型。

  由于在吴恩达的研讨中,GPT-3.5的Agent比GPT-4的体现还要好。

  简略来说,SWE-agent是将言语模型(比方GPT-4)转变为软件工程agent,来Debug GitHub存储库中的一些问题。

  他们规划了以 LM 为中心的指令和反应格局来完成这些成果,使言语模型更简略阅读存储库、检查、修改和履行代码文件。

  用他们的说法,这叫做署理计算机接口(ACI),并构建SWE-agent存储库,以便轻松迭代ACI规划。

  假如代码语法不正确,就不让修改指令经过。当指令输出为空时会回来一条信息:”您的指令运转成功,但未发生任何输出”。

  首要,推理。SWE-agent接纳一个输入的GitHub问题,并回来一个企图修正该问题的拉取恳求。

  第二步是评价拉取恳求,以验证它是否的确修正了问题。*(现在仅适用于SWE-bench 基准中的问题)。

  英伟达科学家Jim Fan为其作业点赞:Great Work!揭开了炒作背面的简略实质。

  只需对GPT-4指令行东西进行更好的手动规划,就能在SWEBenche上取得12.3的成果。没什么奇特之处,没什么模型打破,也没什么理由要竭力炒作。

  不过也有人问为什么不必Claude 3来做Agent,主创团队表明:尝试了,但成果不太好。

  在SWE-bench Lite(测验集的 10% 子集)上,它的成果比GPT-4少了近 6%。并且它也慢得多。(GPT-4的呼应时刻是93秒)

  他们的一起导师是Karthik Narasimhan,现在是普林斯顿NLP联合主任,跟陈丹琦是搭档。