今年的I/O大會,是Google生成式AI(GenAI)技術和應用大爆發的一次。除了端出各種令人驚艷的消費端GenAI成果,他們還揭露一系列用GenAI模型加速企業開發的工具,尤其,這些工具是Google內部實作經驗的延伸,發展為對外服務、瞄準4大場景。
開發場景優化1:快速生成互動式UI
他們首先揭露,生成式AI模型加速UI設計的工具。
「Gemini 2.5 Flash模型又快又划算,我們用它打造了很多原型!」Google Gemini實驗室副總監Josh Woodward在大會上如此開場。Gemini 2.5是Google開發的新一代生成式AI模型,今年3月發布Pro版本、4月揭露Flash版本,就成為Google內部開發的加速工具。
Google將生成式AI模型落地的成功經驗,進一步擴大到自家產品,以Gemini 2.5系列模型為核心,融合程式開發和設計,推出一款名為Stitch的實驗性UI生成工具,使用者用自然語言提示(Prompt),就能在1分鐘左右得到UI原型和程式碼。
這個UI「不是靜態的螢幕截圖,而是可以互動的介面,」Josh Woodward強調。跳出第一版UI後,使用者還能繼續在對話欄,用自然語言提示修改UI原型,另也能手動調整區塊顏色、亮暗模式等。在這過程中,Gemini 2.5 Flash和Pro版本模型會交互工作,來根據提示產生、修正UI原型。
要是使用者對生成的UI滿意,就能複製程式碼,貼到自己喜好的IDE環境或Figma工具繼續編輯,或與團隊協作。
開發場景優化2:快速生成Web App
除了加速UI設計,Google也用生成式AI產出網頁App原型。
進一步來說,Google Cloud原本就有套一站式生成式AI開發工具Google AI Studio,它串接自家Gemini系列模型和其他模型API,使用者在網頁介面輸入提示,就能生成各種內容,如程式碼、圖片、影音等。
這次,Google DeepMind集團產品經理Logan Kilpatrick揭露新突破,他們把最新、最擅長程式碼處理的Gemini 2.5 Pro模型,整合到Google AI Studio原生編輯器,加上自家GenAI SDK優化,更容易根據文字、圖片或影片提示,來生成網頁應用原型,縮短開發時間。
Logan Kilpatrick現場輸入提示,要打造一套冒險遊戲應用程式,系統馬上調度Gemini和Imagen模型,先生成遊戲規格,再產生程式碼、自我修復錯誤,並在幾分鐘後,產出包含畫面的應用程式原型。
之後,開發者可繼續透過聊天介面,來調整、查看不同的原型版本,也能回溯到先前的檢查點、還原修改等。開發者甚至能一鍵將新建的網頁應用,部署到Cloud Run上。
開發場景優化3:大規模開發自動化
從用生成式AI模型生成UI、App,Google還用生成式AI來加強程式開發本身,在今年大會中揭露程式開發代理Jules公測版。
這個領域並非Google獨步,不少公雲大廠和程式開發業者都推出專屬GenAI輔助開發工具,而Google這款Jules,是一套可在背景作業的非同步代理型AI開發助理,它以Gemini 2.5 Pro驅動,具備整合GitHub專案、自動完成一系列開發工作的能力。
Jules會將開發者的程式碼庫複製到Google雲端VM,來寫測試、建置新功能、修復錯誤、升級相依套件版本、提供語音版的變更紀錄等,開發者一邊工作,Jules就能在背景執行作業,完成後會提供說明。
特別的是,Jules可同時執行多任務,在VM中同時處理多個請求,適合大型、多檔案的變更。
開發場景優化4:AI代理融入開發環境
同樣是改善開發體驗,Google還將生成式AI帶入自家開發環境Colab,在今年大會宣布升級為AI優先的Colab。因為,他們用Gemini 2.5 Flash驅動的代理,來提供一系列優化功能,可在整個Notebook環境執行。
這些功能主要幾種,比如常見的程式碼生成和轉換改寫、查詢Python函式庫和請求使用範例、直接在Notebook中提出錯誤修復建議等。
另一類功能是結合新一代資料科學代理(DSA)的能力。今年3月,Google推出DSA,協助使用者探索資料、深入分析和找出洞察,而這次,Google升級DSA,整合至Colab的AI體驗中,使用者可要求Colab審查已上傳和現有文件、進行深度分析,還能觸發完整的分析工作流程,包括先自主生成分析計畫、執行必要的程式碼、推理結果並呈現其洞察。
此外,融合升級版DSA的Colab,還能給予互動式回饋,在計畫執行過程中提供回饋,好來決定是否重新規畫或優化流程,確保分析結果貼近使用者的研究目標。
強化AI代理App開發工具鏈
不只將自己善用GenAI加速開發的經驗產品化,變成生成UI、網頁App工具,Google也用生成式AI,來優化AI代理App的開發。
比如Logan Kilpatrick宣布,Google GenAI SDK開始支援模型上下文協定(MCP),簡化開發者打造AI代理App的難度,讓App背後的模型更容易串接開源工具、給出更精準的回答。
再來,為了讓AI代理App更自主完成任務,Google除了改善模型的函式呼叫、搜尋功能,還進一步推出新實驗性工具URL Context,使用者只要輸入網頁連結,模型就能查閱該網頁資訊,來確保生成的答案更即時精準。該工具目前一次可支援20個連結。
同時,Google也優化模型本身,來讓AI代理App的體驗更好。
首先,Google在其即時語音Live API中,新添Gemini 2.5 Flash原生語音功能(Native Audio)預覽版,讓AI更會聽、更會說,不只生成的語音更自然、模型能即時調用工具、支援24種語言,使用者還能控制模型的聲音、語調、整體風格。而且,模型能更好地辨識說話者和背景對話,進而判斷何時該回應,讓開發者能打造更自然的對話式AI體驗。
此外,Google也將自家研發的多模態模型,整合至App開發工具,包括Imagen、Veo、Gemini等,範圍涵蓋圖像、影片、音訊和語音生成,開發者可打造更多功能的App。
推新一代開放模型,供微調加速落地
不只提供生成式AI驅動的現成服務,Google也端出一系列新的開放模型,供開發者自行訓練或微調成符合需求的工具,來執行特定任務,離線也可以。
比如,今年大會新推出Gemma 3n預覽版,只需2GB記憶體,就能在行動裝置端執行任務。它還有幾個實務性優點,如多模態理解能力,可以理解並處理文字、圖像、語音和影片內容,也支援多模態交互輸入,另還內建可自動切換的子模型,例如從4B模型動態產生2B子模型,來因應不同裝置和延遲需求。甚至,模型的日語、德語、韓語、西班牙語和法語翻譯能力也更強了。
Google給出Gemma 3n可行的應用場景,比如可分析使用者環境(音訊、視覺)的即時互動體驗、深層理解多模態(文字、圖片、音訊和影片等)的離線應用,又或是即時語音轉錄、翻譯和語音互動等應用。
還有多種專屬開放模型和開發社群
除了Gemma 3n,Google也在Gemma 3模型架構基礎上,亮相幾款專用模型。首先是醫療領域專屬的MedGemma,它指一系列以Gemma 3為基礎、以醫療照護資料打造而成的模型,包括4B參數(即40億)的多模態模型,以及27B參數的文字模型。MedGemma可以進行醫學影像分類、解讀影像和生成報告,還能進行臨床推論、輔助臨床決策和摘要重點,比如協助醫生判讀X光片、病理影像並寫報告。開發者可以微調模型,在雲端或本地端部署,來執行特定任務。
另一款專屬模型是手語辨識模型SignGemma,專為聾啞和聽障社群打造,可作為即時翻譯工具,能將美國手語轉換為英文。Google點出,SignGemma屬於輕量化設計,可在資源有限的裝置上執行,潛在的應用場景有即時翻譯應用、將手語轉換為文字或語音,可用於一般場合或是教育、醫療等場景。
SignGemma目前仍於測試階段,預計今年底正式發布,未來預計擴展至更多手語和語言。
這兩款專屬模型,還只是眾多開發者可用的其中2種。早在今年3月,Google就專門為Gemma開發者,成立了專屬社群Gemmaverse。在這裡,開發者可以交流創意、查看各種Gemma衍生應用。Google揭露,自Gemma系列模型發布1年多以來,相關模型下載量已超過1.5億次,更累積超過7萬個Gemma變形模型,這也是Google為其成立社群的原因,讓開發者吸取更多實例、開發可落地的應用。