介绍
当前的 AI 市场蓬勃发展,尤其是在生成式 AI 宇宙中,OpenAI 在 2023 年推出了 **ChatGPT-4**,Anthropic AI 本月早些时候推出了 Claude 3。这些模型正在简化内容开发人员的工作,现在又有一位软件工程师加入了这个行列。
不到 72 小时前,**Cognition** 发布了 Devin,全球首个完全自主的 AI 软件工程师,在 SWE-bench 编码基准测试中树立了新的最先进水平的标准。只需一个简单的提示,Devin 就可以编写代码或创建网站,就像人类软件工程师一样。
在我们更深入地了解 Devin 之前,我们将熟悉一下它的创造者 Cognition。
什么是 Cognition?
**Cognition** 成立于 2023 年 11 月,是一家总部位于美国的**应用 AI 实验室**,专注于推理。通过利用推理,他们打算在人工智能领域解锁大量学科。Cognition 目前由曾在 Google DeepMind、Cursor、Scale AI 和 Nuro 等科技巨头工作过的专业人士和领导者组成。他们已经从 Peter Thiel 的 Founders Fund 那里获得了**2100 万美元**的融资。Cognition 背后的支持者包括 DoorDash 首席执行官 Tony Xu 和加密货币平台 Coinbase 的创始人 Fred Ehrsam。
什么是 Devin?
Devin 是一款自主模型,可以根据单个提示计划、分析和执行复杂的代码和软件工程任务。它拥有自己的命令行、代码编辑器和独立的网页浏览器。
该模型的能力通过在几个不同的 API 提供商上测试 Meta 的 Llama 2 来展示。Devin 首先制定了一个逐步的“计划”,然后再解决问题。然后,它使用与人类软件工程师相同的工具构建了整个项目。使用其内置浏览器,Devin 能够调出 API 文档以阅读并学习如何连接到每个 API。最后,它构建并部署了一个具有完整样式的网站。
Devin 的与众不同之处在于它能够从错误中学习。它可以做出数千个决策,并随着时间的推移变得越来越好。
在几个标准的软件工程问题集上进行测试时,它优于其他解决方案。
Devin 还接受了顶级科技品牌关于 AI 任务的面试,并满足了他们的期望。它还完成了在 Upwork 上发布的真实工作的任务,例如编码任务、调试计算机视觉模型和生成详细报告。
GitHub Copilot 是一个代码补全工具,我们可以从 Devin 中看到它的影子。程序员可以将提示转换成可运行的代码。这个 AI 编码器不仅可以完成代码块,还可以将代码翻译成多种语言。相当令人印象深刻,对吧?但 Devin 更进一步,它能够从头到尾完成代码,而无需人工干预。
Devin 是如何工作的?
如前所述,Devin 拥有自己的命令行、自己的代码提示部分,以及自己的网页浏览器来收集资源。
输入提示后,Devin 将进入“规划者”模式,其中逐步指南解释了如何解决问题。
Devin 仪表盘
完成此操作后,仪表盘将移至一个包含四个部分的界面
- 第一部分包含所有输入提示
- 第二部分是命令行部分
- 第三部分是它自己的代码编辑器
- 第四部分是它自己的浏览器,它会彻底分析资源以得出推断。
- 最后,它会提供解决方案的可视化。
如何获取 Devin 的访问权限?
Devin 可供抢先体验,您可以通过加入 等待列表 来使用或“雇用”Devin。
Devin 与其他模型相比如何?
Devin 在 SWE-bench 上进行了测试,SWE-bench 是一个基准测试平台,要求代理解决开源项目中的实际问题,最常用于软件工程师。根据 Cognition 的说法,Devin 在数据集的随机 25% 子集上进行了评估。所有模型都获得了帮助,即模型被告知需要编辑的确切文件,而 Devin 则没有获得帮助。**Devin 正确地端到端解决了 13.86%** 的问题,这比 **Claude 2 的 4.8% 和 ChatGPT-4 的 1.74%** 有了大幅提升。Cognition 表示他们将很快发布更详细的技术报告!
Devin SWE 基准测试
Devin 会取代软件工程师吗?
如基准测试所示,令人印象深刻的数字在人们心中,尤其是软件开发人员和工程师心中,引起了关于软件工作和相关工作的未来的动荡。
Cognition 是一家专注于推理的应用 AI 实验室,声称正在构建具有超越现有 AI 工具功能的 AI 队友。
Cognition 声明:“Devin 是一位不知疲倦、技术娴熟的队友,随时准备与您并肩作战,或独立完成任务供您审查。有了 Devin,工程师可以专注于更有趣的问题,工程团队可以努力实现更雄心勃勃的目标”。
有趣的是,尽管大多数人认为 Devin 是许多软件工程师的终结,但 Devin 的制造商 Cognition 正在积极招聘“人类”软件工程师!意见不一,在我们对 Devin 进行全面测试之前,我们无法得出任何结论。
正如特斯拉前 AI 主任 Andrej Karpathy 引用的话:“在我看来,软件工程自动化看起来类似于驾驶自动化。” 他接着说,软件工程正在发生重大变化。它将涉及更多监督自动化,同时以英文提供高级命令、想法或进展策略。
就像任何其他生成式 AI 工具一样,Devin 的表现只取决于使用它的人!这些只是高效用户手中的工具,使他们的任务变得不那么繁琐和耗时!
结论
Devin AI 是**生成式 AI** 领域的一大进步,通过自动化编码任务和复杂问题,彻底改变了软件开发领域。随着 GPT-4、Claude 3,以及现在的 Devin 等模型的出现,生成式 AI 的未来似乎充满了希望;它们不是来取代我们,而是来帮助我们。我们下次再见!