GPT-4加Agent轻松追平Devin普林斯顿造开源首日斩获16k星_产品展示

导航

CloseThis

全国客户服务热线： 400-6688-539 手机： 15153932227

■

■

GPT-4加Agent轻松追平Devin普林斯顿造开源首日斩获16k星

来源：m6米乐娱乐发布时间：2024-04-08 22:53:18

详情

普林斯顿打造的开源SWE-agent，直接开箱即用——修正GitHub存储库中线%的SWE-bench测验集上，它完成了与Devin类似的准确度—— 处理了12.29%的问题。

GitHub上线K星。不少网友感叹，只需对GPT-4指令行东西进行简略规划，就可以让GPT-4部分才能大幅提高。

我以为AI Agent将在本年推进人工智能巨大进步，甚至有或许超越下一代根底模型。

由于在吴恩达的研讨中，GPT-3.5的Agent比GPT-4的体现还要好。

简略来说，SWE-agent是将言语模型（比方GPT-4）转变为软件工程agent，来Debug GitHub存储库中的一些问题。

他们规划了以 LM 为中心的指令和反应格局来完成这些成果，使言语模型更简略阅读存储库、检查、修改和履行代码文件。

用他们的说法，这叫做署理计算机接口（ACI），并构建SWE-agent存储库，以便轻松迭代ACI规划。

假如代码语法不正确，就不让修改指令经过。当指令输出为空时会回来一条信息：”您的指令运转成功，但未发生任何输出”。

首要，推理。SWE-agent接纳一个输入的GitHub问题，并回来一个企图修正该问题的拉取恳求。

第二步是评价拉取恳求，以验证它是否的确修正了问题。*（现在仅适用于SWE-bench 基准中的问题）。

英伟达科学家Jim Fan为其作业点赞：Great Work！揭开了炒作背面的简略实质。

只需对GPT-4指令行东西进行更好的手动规划，就能在SWEBenche上取得12.3的成果。没什么奇特之处，没什么模型打破，也没什么理由要竭力炒作。

不过也有人问为什么不必Claude 3来做Agent，主创团队表明：尝试了，但成果不太好。

在SWE-bench Lite（测验集的 10% 子集）上，它的成果比GPT-4少了近 6%。并且它也慢得多。（GPT-4的呼应时刻是93秒）

他们的一起导师是Karthik Narasimhan，现在是普林斯顿NLP联合主任，跟陈丹琦是搭档。

全国客户服务热线：400-6688-539

手机：15153932227

E-mail：sales@bunkertools.com