獨立的非營利AI研究機構METR(Model Evaluation & Threat Research)上周公布一研究報告,顯示資深開發者利用AI來協助解決任務時,所花的時間反而多了19%。
METR是個致力於研究與評估尖端AI模型自主能力與潛在風險的非營利研究機構,它強調評估的獨立性及可信度,從未接受來自AI公司的資金,是現今少數可對先進模型部署前執行安全評估的機構之一。
在此次的研究中,METR邀請16名開發人員提供數十個真實且有價值的任務,諸如修復臭蟲、新功能開發或是重構程式碼等,總計有246個任務,並由METR提供每小時150美元的酬勞。此外,這些開發人員平均擁有2.2萬顆GitHub星星,所開發或貢獻的開源專案平均超過100萬行程式碼。
之後由METR隨機將這些任務分配至AI組及禁用AI組,收到前者的開發人員多半利用Cursor Pro搭配Claude Sonnet,後者則使用傳統IDE,禁用AI輔助工作流程,且每位開發人員都必須錄製螢幕畫面,同時自行回報所花費的時間。
值得注意的事是,開發者在任務開始前原本預期使用AI能讓速度提升24%,但實際上,使用AI後平均反而多花了19%時間。更有趣的是,即使任務已經完成、實作明顯變慢,他們仍主觀認為AI讓自己快了20%。這些任務的平均實作時間約為2小時。
METR認為,傳統的基準測試常常為了效率或可評估性而弱化了真實性,因此難以對應AI工具及實務中的實際效益,另一方面,開發人員對AI工具的效能存在明顯的認知偏差,若要真實掌握AI於部署環境中的影響,未來應仰賴更多具現場情境的實測研究,而非僅依賴基準測試及主觀印象。