AI & Big Data 14小时前
Salesforce CoAct-1模型混合點擊與程式執行,電腦代理效率與成功率雙提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Salesforce、南加州大學與華盛頓大學的研究團隊合作,發表了名為CoAct-1的新一代電腦代理模型。該模型在OSWorld基準測試中,以60.76%的成功率刷新了現有紀錄,並將平均完成任務步數減少至約11步。CoAct-1的最大突破在於打破了傳統僅依賴圖形使用者介面(GUI)操作的限制,將撰寫與執行程式碼納入核心行動模式,使其在處理長鏈任務和複雜操作時更具效率與穩定性。透過調度器協調GUI Operator和程式開發代理,CoAct-1能更靈活地應對各種任務,為軟體部署、資料處理和檔案整理等應用場景提供了更優化的解決方案。

⭐ CoAct-1代理模型整合了GUI操作與程式碼執行,大幅提升了電腦自動化任務的效率與穩定性。在OSWorld基準測試中,其成功率達到60.76%,優於其他同類系統,且平均任務步數減少至約11步,顯示出在處理複雜操作上的顯著優勢。

💡 該模型的創新之處在於引入程式執行作為與GUI操作同等重要的行動模式,並採用多代理協作架構。一個調度器(Orchestrator)負責任務分工,將任務分配給專注於視覺互動的GUI Operator和能夠撰寫執行Python/Bash腳本的程式開發代理(Programmer),實現了任務的靈活調度。

📂 程式開發代理能夠直接在作業系統上撰寫並執行程式碼,特別適用於檔案管理、資料處理等重複或繁複的任務。這項能力使其能夠一次性完成任務,避免了受限於易變的GUI元素,從而提高了任務完成的可靠性。

🧠 系統採用調度器作為記憶中心,GUI Operator和程式開發代理各自回傳執行摘要和畫面截圖,但彼此不共享對話紀錄,並在子任務完成後清除即時記錄。這種設計確保了代理能夠專注於當前任務,減少干擾,並有效管理記憶體,提升了整體運作效率。

Salesforce、南加州大學與華盛頓大學研究團隊合作,發表新一代電腦使用代理模型CoAct-1,在最新OSWorld基準測試中達成60.76%的成功率,刷新現有紀錄,並將平均完成任務步數降至約11步。該研究在設計上突破傳統僅依靠圖形使用者介面(GUI)操作的限制,將撰寫與執行程式碼納入主要行動模式,使代理在執行長鏈任務與複雜操作時更具效率與穩定性。

CoAct-1研究的創新在於引入程式執行,使其成為與GUI操作同等重要的行動,並以多代理協作架構進行任務分工。系統包含一個調度器(Orchestrator),能依任務特性動態分派子任務給兩類代理,其一是負責螢幕點擊、表單填寫等視覺互動的GUI Operator,另一個則是可直接在作業系統上撰寫並執行Python或Bash腳本的程式開發代理(Programmer)。該設計讓代理在處理檔案管理、資料處理等重複或繁複的任務時,能透過程式一次完成,避免受限於易變的GUI元素,提高任務完成的可靠性。

當程式開發代理完成子任務後,會將與程式碼解譯器的對話摘要及畫面截圖,回傳給調度器作為記憶的一部分。GUI Operator則回傳所需資訊,同樣存入調度器記憶。兩者之間不共享對話紀錄,每次子任務完成後會清除各自的即時記錄,以確保專注於當前任務並減少干擾。

在OSWorld測試中,CoAct-1的60.76%成功率明顯超越其他同類系統,像是Agent S2.5 w/ o3的56.0%與GTA1 w/ o3的53.1%。更重要的是,該系統在平均步數上大幅縮減,從主流GUI代理的約15步下降到約11步,在長任務鏈與複雜操作存在顯著的效率優勢。對於需要在不同環境進行穩定、自動化操作的應用場景,如軟體部署、批次資料處理、跨系統檔案整理,這種混合操作模式提供了更具彈性與可擴展性的解決方案。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CoAct-1 電腦代理 AI自動化 程式執行 GUI操作
相关文章