Salesforce CoAct-1模型混合點擊與程式執行，電腦代理效率與成功率雙提升

AI & Big Data 14小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Salesforce、南加州大學與華盛頓大學的研究團隊合作，發表了名為CoAct-1的新一代電腦代理模型。該模型在OSWorld基準測試中，以60.76%的成功率刷新了現有紀錄，並將平均完成任務步數減少至約11步。CoAct-1的最大突破在於打破了傳統僅依賴圖形使用者介面（GUI）操作的限制，將撰寫與執行程式碼納入核心行動模式，使其在處理長鏈任務和複雜操作時更具效率與穩定性。透過調度器協調GUI Operator和程式開發代理，CoAct-1能更靈活地應對各種任務，為軟體部署、資料處理和檔案整理等應用場景提供了更優化的解決方案。

⭐ CoAct-1代理模型整合了GUI操作與程式碼執行，大幅提升了電腦自動化任務的效率與穩定性。在OSWorld基準測試中，其成功率達到60.76%，優於其他同類系統，且平均任務步數減少至約11步，顯示出在處理複雜操作上的顯著優勢。

💡 該模型的創新之處在於引入程式執行作為與GUI操作同等重要的行動模式，並採用多代理協作架構。一個調度器（Orchestrator）負責任務分工，將任務分配給專注於視覺互動的GUI Operator和能夠撰寫執行Python/Bash腳本的程式開發代理（Programmer），實現了任務的靈活調度。

📂 程式開發代理能夠直接在作業系統上撰寫並執行程式碼，特別適用於檔案管理、資料處理等重複或繁複的任務。這項能力使其能夠一次性完成任務，避免了受限於易變的GUI元素，從而提高了任務完成的可靠性。

🧠 系統採用調度器作為記憶中心，GUI Operator和程式開發代理各自回傳執行摘要和畫面截圖，但彼此不共享對話紀錄，並在子任務完成後清除即時記錄。這種設計確保了代理能夠專注於當前任務，減少干擾，並有效管理記憶體，提升了整體運作效率。

Salesforce、南加州大學與華盛頓大學研究團隊合作，發表新一代電腦使用代理模型CoAct-1，在最新OSWorld基準測試中達成60.76％的成功率，刷新現有紀錄，並將平均完成任務步數降至約11步。該研究在設計上突破傳統僅依靠圖形使用者介面（GUI）操作的限制，將撰寫與執行程式碼納入主要行動模式，使代理在執行長鏈任務與複雜操作時更具效率與穩定性。

CoAct-1研究的創新在於引入程式執行，使其成為與GUI操作同等重要的行動，並以多代理協作架構進行任務分工。系統包含一個調度器（Orchestrator），能依任務特性動態分派子任務給兩類代理，其一是負責螢幕點擊、表單填寫等視覺互動的GUI Operator，另一個則是可直接在作業系統上撰寫並執行Python或Bash腳本的程式開發代理（Programmer）。該設計讓代理在處理檔案管理、資料處理等重複或繁複的任務時，能透過程式一次完成，避免受限於易變的GUI元素，提高任務完成的可靠性。

當程式開發代理完成子任務後，會將與程式碼解譯器的對話摘要及畫面截圖，回傳給調度器作為記憶的一部分。GUI Operator則回傳所需資訊，同樣存入調度器記憶。兩者之間不共享對話紀錄，每次子任務完成後會清除各自的即時記錄，以確保專注於當前任務並減少干擾。

在OSWorld測試中，CoAct-1的60.76％成功率明顯超越其他同類系統，像是Agent S2.5 w/ o3的56.0％與GTA1 w/ o3的53.1％。更重要的是，該系統在平均步數上大幅縮減，從主流GUI代理的約15步下降到約11步，在長任務鏈與複雜操作存在顯著的效率優勢。對於需要在不同環境進行穩定、自動化操作的應用場景，如軟體部署、批次資料處理、跨系統檔案整理，這種混合操作模式提供了更具彈性與可擴展性的解決方案。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签