AI & Big Data 2024年11月05日
微軟開發純視覺GUI解析工具OmniParser,強化AI跨平臺操作能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软的OmniParser是纯视觉GUI代理程式,能提升多模态人工智能模型在多平台环境的互动准确性和效率。它将屏幕截图转为结构化资料,解决现有模型操作GUI的难题,成为大量重复操作工作的理想工具。

💻OmniParser将屏幕截图转换为结构化资料,运用语义标注技术,使人机互动有基础。

🎯该工具通过互动区域侦测和语义标注技术,提升GPT - 4V操作GUI的能力。

📋OmniParser结合光学字符识别和语义标注模型,为GUI元素提供语义描述,提供操作建议。

微軟人工智慧純視覺GUI代理程式OmniParser,能夠提升多模態人工智慧模型,諸如GPT-4V在多平臺環境的互動準確性和效率。OmniParser仰賴純視覺技術,將螢幕截圖轉換為結構化資料,並運用語義標註技術,使得人工智慧能夠自動辨識和操作GUI中的互動元素,替人機互動建立基礎。諸如GPT-4V等多模態人工智慧模型,在圖像和文字方面展現了強大的處理能力,但是要應用在操作GUI,目前的多模態模型面臨一些挑戰。模型辨識GUI中可互動元素,像是按鈕、圖標、可點擊連結上仍存在技術瓶頸,模型可能難以辨識每個互動元素的功能,或是無法在複雜的介面中,執行正確的動作。針對這些操作問題,微軟開發了OmniParser,這是一個純視覺解析的工具。該工具透過互動區域偵測和語意標註技術兩個步驟流程,大幅度提升GPT-4V操作GUI的能力。OmniParser偵測模型可以能夠準確辨識介面上互動元素,並標記可點擊的區域,由於偵測模型經過大量熱門網頁資料訓練,即便是在複雜介面也能明確定位互動區域。另外,OmniParser還結合光學字元辨識和語義標註模型,能夠對GUI元素提供語義描述,協助人工智慧模型理解每個元素的功能和作用,在指令生成過程提供精準的操作建議。OmniParser讓人工智慧能夠在多平臺環境精確地執行互動操作,其無依賴性和高精確度的設計,使OmniParser成為客服、自動化資料處理等需大量重複操作工作的理想工具。藉由其跨平臺的能力,OmniParser不需要仰賴HTML或是其他後設資料,即便在不同作業系統也可有效運作。在數位助理和自動化操作需求日益增加的當前,不少人工智慧公司也投入GUI操作的研發,強化人工智慧在人機互動的能力。Anthropic近期也針對多模態人工智慧模型Claude 3.5 Sonnet開發了專屬API,使該模型能夠感知並操作電腦介面,將模型指令轉換成為具體的電腦操作指令,執行諸如開啟應用程式和填寫表格等複雜任務。隨著GUI解析技術的成熟,人工智慧在跨平臺操作中的靈活性將大幅提升,進一步擴展自動化任務的應用可能性。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OmniParser 人工智能 GUI操作 人机互动
相关文章