世界第一位AI軟體工程師「Devin」誕生,已能解決近14% GitHub任務無需人類介入 - TNL The News Lens 關鍵評論網

世界第一位AI軟體工程師「Devin」誕生,已能解決近14% GitHub任務無需人類介入

世界第一位AI軟體工程師「Devin」誕生,已能解決近14% GitHub任務無需人類介入
Photo Credit: Shutterstock / 達志影像

我們想讓你知道的是

Devin使用GitHub儲存庫來學會微調LLM,也能處理Upwork平台上的任務,成功運行電腦視覺模型。

文:Jocelyn

近期成立的AI新創Cognition推出了全自動AI軟體工程師「Devin」,仍然是非公開的只向少數客戶開放存取權限,有興趣體驗的人也能寫信聯繫該公司,未來預計會更全面的釋出Devin。

Devin最大的特點在於,以往像Github Copilot等AI程式碼工具主要是扮演協助角色,而Devin卻可以自行處理軟體工程專案中的多個步驟,且始終不偏離任務。

Devin能完成哪些任務?

Devin可以端到端地處理整個任務,包辦編寫程式碼到修復bug至最終執行。Devin在沙盒運算環境中,能使用常見的開發工具,包括自己的Shell、程式碼編輯器和瀏覽器,並規劃和執行需要數千個決策的複雜工程任務,甚至能夠完成Upwork平台上的專案。

人類使用者只需在Devin的聊天機器人介面中輸入自然語言指令,AI就可開始制定詳細的逐步計劃來解決問題。下一部則是使用開發工具著手項目,編寫自己的程式碼、修復bug、測試和報告進度,從人類用戶能夠時刻關注Devin執行狀況。如果認為有環節出錯,用戶還可以跳回聊天介面並向AI下指令來修復問題。

Devin能夠處理一系列任務,包括端到端部署和改善應用程式和網站、查找和修復程式碼庫的錯誤等,以及處理更複雜的任務像是使用GitHub儲存庫來微調LLM。

在一個示範中,Devin透過一篇部落格文章,了解如何運行程式碼來生成帶有隱藏訊息的圖像;在另一個範例中則是處理了Upwork上的項目,透過編寫和偵測程式碼來運行電腦視覺模型。

Devin表現如何?

在SWE基準測試(用GitHub來自開源專案的問題來測試AI)中,Devin成功解決13.86%的案例,且無需人類介入幫助。相比之下,Claude 2只能解決4.8%的問題,而SWE-Llama-13b和GPT-4則分別能解決3.97%和1.74%的問題,而這些模型皆須協助。

bddfd926-f6c8-4025-99b9-005637d44f62
Photo Credit: Cognition

Cognition是誰?

Cognition是由Scott Wu創辦,團隊由多名世界級程式設計競賽選手組成,A輪融資募得了2100萬美元,投資人包括Peter Thiel的風投基金Founders Fund,以及Twitter前CEO Elad Gil、Doordash共同創辦人Tony Xu等。

Cognition分享打造Devin的目的是希望協助工程團隊將一些專案委託給AI,改去專注於需要人類的創意性任務。Devin展現出軟體開發的新可能性,或許未來開發工作能在人類監督下由AI全面完成。

本文經Inside硬塞的網路趨勢觀察授權轉載,原文發表於此
原標題:世界第一位AI軟體工程師「Devin」,能全自動完成複雜工程任務

延伸閱讀

【加入關鍵評論網會員】每天精彩好文直送你的信箱,每週獨享編輯精選、時事精選、藝文週報等特製電子報。還可留言與作者、記者、編輯討論文章內容。立刻點擊免費加入會員!

責任編輯:丁肇九
核稿編輯:翁世航