近期成立的 AI 新創 Cognition 推出了全自動 AI 軟體工程師「Devin」,仍然是非公開的只向少數客戶開放存取權限,有興趣體驗的人也能寫信聯繫該公司,未來預計會更全面的釋出 Devin。
Devin 最大的特點在於,以往像 Github Copilot 等 AI 程式碼工具主要是扮演協助角色,而 Devin 卻可以自行處理軟體工程專案中的多個步驟,且始終不偏離任務。
Devin 能完成哪些任務?
Devin 可以端到端地處理整個任務,包辦編寫程式碼到修復 bug 至最終執行。Devin 在沙盒運算環境中,能使用常見的開發工具,包括自己的 Shell、程式碼編輯器和瀏覽器,並規劃和執行需要數千個決策的複雜工程任務,甚至能夠完成 Upwork 平台上的專案。
人類使用者只需在 Devin 的聊天機器人介面中輸入自然語言指令,AI 就可開始制定詳細的逐步計劃來解決問題。下一部則是使用開發工具著手項目,編寫自己的程式碼、修復 bug、測試和報告進度,從人類用戶能夠時刻關注 Devin 執行狀況。如果認為有環節出錯,用戶還可以跳回聊天介面並向 AI 下指令來修復問題。
Devin 能夠處理一系列任務,包括端到端部署和改善應用程式和網站、查找和修復程式碼庫的錯誤等,以及處理更複雜的任務像是使用 GitHub 儲存庫來微調 LLM。
在一個示範中 Devin 透過一篇部落格文章,了解如何運行程式碼來生成帶有隱藏訊息的圖像;在另一個範例中則是處理了 Upwork 上的項目,透過編寫和偵測程式碼來運行電腦視覺模型。
Devin 表現如何?
在 SWE 基準測試(用 GitHub 來自開源專案的問題來測試 AI )中,Devin 成功解決 13.86% 的案例,且無需人類介入幫助。相比之下,Claude 2 只能解決 4.8 % 的問題,而 SWE-Llama-13b 和 GPT-4 則分別能解決 3.97% 和 1.74% 的問題,而這些模型皆須協助。
Cognition 是誰?
Cognition 是由 Scott Wu 創辦而成,團隊由多名世界級程式設計競賽選手組成,A 輪融資募得了 2,100 萬美元,投資人包括 Peter Thiel 的風投基金Founders Fund,以及 Twitter 前 CEO Elad Gil、Doordash 共同創辦人 Tony Xu 等。
Cognition 分享打造 Devin 的目的是希望協助工程團隊將一些專案委託給 AI,改去專注於需要人類的創意性任務。Devin 展現出軟體開發的新可能性,或許未來開發工作能在人類監督下由 AI 全面完成。
核稿編輯:Sisley
快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!
延伸閱讀: