AI & Big Data 2024年12月28日
【關鍵IT新趨勢7】多模態AI代理將落地,重新定義複雜任務的處理方式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了科技巨头在AI代理领域的最新进展,特别是多模态AI代理的兴起。这些代理能够处理包括文本、图像、音频和视频等多种数据类型,并通过自主决策和工具调用来完成复杂任务。文章重点介绍了AWS、微软和谷歌在AI代理方面的创新,以及多模态AI代理在各行业的潜在应用,例如客户服务、金融分析和自动化工作流程。Gartner预测,到2028年,企业应用中代理型AI的使用率将显著增长,预示着AI代理将在未来工作中扮演更重要的角色。

🤖科技巨头纷纷布局AI代理:AWS、微软、谷歌等科技巨头都在积极开发和推出AI代理,这些代理能够执行各种任务,如代码转换、会议主持、项目管理等,显示了AI代理在各领域应用的广泛潜力。

🔀多模态AI代理成趋势:多模态AI代理能够处理多种数据类型,如文本、图像、音频和视频,这使得它们能够理解更复杂的任务,并自主决策完成工作。例如,谷歌的Gemini 2.0 Flash模型驱动的AI代理可以处理多种数据类型并调用第三方工具。

💼多模态AI代理在产业中的应用:多模态AI代理在零售、金融等行业展现出巨大潜力。例如,零售业利用多模态AI代理优化客服中心,金融业则利用其分析多类型数据并进行投资优化。这预示着多模态AI代理将深入各行业,提高工作效率和决策质量。

📈AI代理应用前景广阔:Gartner预测,到2028年,企业应用中代理型AI的使用率将显著增长,15%的日常工作决策将由智能代理自主完成。这表明AI代理不仅是技术趋势,更是未来工作模式的重要组成部分。

自2024年下半年開始,科技龍頭相繼揭露新進展,共通點都聚焦在AI代理。比如,AWS最新揭露3項生成式AI助理功能,能將Windows.NET程式轉換為Linux版本、將VMware工作負載轉換到Amazon EC2雲原生環境,以及將大型主機老舊的COBOL程式轉換為Java。這些新功能,都靠旗下多支AI代理分工執行。又比如,微軟在11月的Ignite大會中揭露5款生產力AI代理,專門主持會議、口譯、管理專案、訂單處理和提供員工自助服務等,甚至還提供客製化的低程式碼開發工具,來讓使用者打造符合需求的專屬代理。或是,Google用最新發表的Gemini 2.0 Flash多模態模型,開發出4款AI代理,有專門處理行動裝置的代理、瀏覽器代理,也有專門處理多模態資料的學術用研究代理,以及程式開發代理。從研究資料整理、專案管理、訂單管理,再到大型主機系統轉換,都成了AI代理新能力。多模態AI代理將遍地開花在這些科技龍頭的發布中,多模態AI代理的身影更清晰了。比如Google開宗明義點出,用多模態模型Gemini 2.0 Flash打造的多模態AI代理,可處理語音、音訊、影片、圖像和文字等多元的資料類型,也因此有了多模態的行動裝置和瀏覽器等代理,能即時辨識螢幕中的影片、文字、圖像和音訊,還與Google自己的服務整合,來管理日曆、發送郵件和搜尋查詢等需求。或是Amazon執行長Andy Jassy在2024年末大會上預告,2025年將推出Nova任意多模態到多模態模型,不論是輸入文字、影片、音訊還是圖片,模型都能任意給出文字、圖片、影片、音訊等類型的答案,可處理的資料範圍更廣了。AWS也計畫用來發展多模態AI代理服務,自動處理更複雜的任務。就連蘋果也在2024下半年揭露多模態大語言模型MM 1.5的同時,發布MM 1.5-UI模型,不只能理解行動裝置UI圖示,也能懂使用者行為,可望成為iOS幕後自動作業的多模態AI代理,來與使用者對話、代替使用者與裝置互動,完成任務。多模態AI代理是什麼科技巨頭大動作擁抱多模態AI代理,意味著多模態代理不只是技術殺手鐧,還是2025年的重要趨勢。多模態AI代理從AI代理衍生而來,而AI代理專門借助模型的推理能力,將複雜任務拆解為一系列步驟,由不同代理分工執行,能自動使用工具、呼叫函數或即時回應API來完成工作。而多模態模型更進階,單一模型能處理的更多種類資料,比如文字、圖片、影片和音訊等。因此,比起單純的AI代理,多模態AI代理能理解並推理的資料類型更多,能自主決策、完成任務的範圍也更廣泛,舉凡自動分析長篇影片、找出特定物件並連結通路網站,都不是難題。多模態AI代理如何影響產業多模態AI代理開始落地,將如何影響企業?國際調查研究機構Gartner直言,這類智慧代理不需要明確的輸入,但可以接收指令、建立計畫並自主使用工具來完成任務,產出動態輸出。Google以Gemini 2.0 Flash打造的多模態AI代理,就是一例。因為,這款模型經多模態訓練,不只能進行文字和圖像輸出任務,還能產出語音回覆,甚至能自動呼叫第三方函數、Google搜尋和程式碼執行等工具,就連即時的多模態API呼叫也沒問題,能即時處理螢幕當下的影片或音訊。具體實例就是該模型驅動的瀏覽器多模態AI代理Project Mariner,可自動瀏覽網頁、自動點擊分頁並找出所需資訊,比如使用者只需給出特定公司名單、要求代理找出聯絡方式,多模態AI代理就會自動搜尋網頁、瀏覽公司網站並列出聯絡資訊,將繁瑣的人工作業自動化。又或是,Google雲端在2025 AI產業衝擊文章中舉例,已有零售業者開始使用多模態AI代理來優化客服中心,當民眾打電話到客服中心詢問,語音經轉錄為文字分析後,自動產生更聰明的語音回覆給民眾。AWS也舉例,金融產業可用多模態代理和工具,來分析文字類、音訊、圖像等資料,再加上情緒分析、投資組合優化和股票查詢等工具串接,來找出金融洞察、進行更準確的投資。這些例子只是冰山一角。當多模態代理遍地開花,企業可用來自動處理更多更複雜的任務。一如Gartner所預測,2024年企業應用程式使用代理型AI的比例雖然不到1%,但到了2028年,將成長為3成,且15%的日常工作決策都能由智慧代理自主完成。 

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI代理 多模态 Gemini 2.0 自动化 产业应用
相关文章