Google用GenAI加速四大開發場景，強化AI代理工具鏈

今年的I/O大會，是Google生成式AI（GenAI）技術和應用大爆發的一次。除了端出各種令人驚艷的消費端GenAI成果，他們還揭露一系列用GenAI模型加速企業開發的工具，尤其，這些工具是Google內部實作經驗的延伸，發展為對外服務、瞄準4大場景。

開發場景優化1：快速生成互動式UI

他們首先揭露，生成式AI模型加速UI設計的工具。

「Gemini 2.5 Flash模型又快又划算，我們用它打造了很多原型！」Google Gemini實驗室副總監Josh Woodward在大會上如此開場。Gemini 2.5是Google開發的新一代生成式AI模型，今年3月發布Pro版本、4月揭露Flash版本，就成為Google內部開發的加速工具。

Google將生成式AI模型落地的成功經驗，進一步擴大到自家產品，以Gemini 2.5系列模型為核心，融合程式開發和設計，推出一款名為Stitch的實驗性UI生成工具，使用者用自然語言提示（Prompt），就能在1分鐘左右得到UI原型和程式碼。

這個UI「不是靜態的螢幕截圖，而是可以互動的介面，」Josh Woodward強調。跳出第一版UI後，使用者還能繼續在對話欄，用自然語言提示修改UI原型，另也能手動調整區塊顏色、亮暗模式等。在這過程中，Gemini 2.5 Flash和Pro版本模型會交互工作，來根據提示產生、修正UI原型。

要是使用者對生成的UI滿意，就能複製程式碼，貼到自己喜好的IDE環境或Figma工具繼續編輯，或與團隊協作。

開發場景優化2：快速生成Web App

除了加速UI設計，Google也用生成式AI產出網頁App原型。

進一步來說，Google Cloud原本就有套一站式生成式AI開發工具Google AI Studio，它串接自家Gemini系列模型和其他模型API，使用者在網頁介面輸入提示，就能生成各種內容，如程式碼、圖片、影音等。

這次，Google DeepMind集團產品經理Logan Kilpatrick揭露新突破，他們把最新、最擅長程式碼處理的Gemini 2.5 Pro模型，整合到Google AI Studio原生編輯器，加上自家GenAI SDK優化，更容易根據文字、圖片或影片提示，來生成網頁應用原型，縮短開發時間。

Logan Kilpatrick現場輸入提示，要打造一套冒險遊戲應用程式，系統馬上調度Gemini和Imagen模型，先生成遊戲規格，再產生程式碼、自我修復錯誤，並在幾分鐘後，產出包含畫面的應用程式原型。

之後，開發者可繼續透過聊天介面，來調整、查看不同的原型版本，也能回溯到先前的檢查點、還原修改等。開發者甚至能一鍵將新建的網頁應用，部署到Cloud Run上。

開發場景優化3：大規模開發自動化

從用生成式AI模型生成UI、App，Google還用生成式AI來加強程式開發本身，在今年大會中揭露程式開發代理Jules公測版。

這個領域並非Google獨步，不少公雲大廠和程式開發業者都推出專屬GenAI輔助開發工具，而Google這款Jules，是一套可在背景作業的非同步代理型AI開發助理，它以Gemini 2.5 Pro驅動，具備整合GitHub專案、自動完成一系列開發工作的能力。

Jules會將開發者的程式碼庫複製到Google雲端VM，來寫測試、建置新功能、修復錯誤、升級相依套件版本、提供語音版的變更紀錄等，開發者一邊工作，Jules就能在背景執行作業，完成後會提供說明。

特別的是，Jules可同時執行多任務，在VM中同時處理多個請求，適合大型、多檔案的變更。

開發場景優化4：AI代理融入開發環境

同樣是改善開發體驗，Google還將生成式AI帶入自家開發環境Colab，在今年大會宣布升級為AI優先的Colab。因為，他們用Gemini 2.5 Flash驅動的代理，來提供一系列優化功能，可在整個Notebook環境執行。

這些功能主要幾種，比如常見的程式碼生成和轉換改寫、查詢Python函式庫和請求使用範例、直接在Notebook中提出錯誤修復建議等。

另一類功能是結合新一代資料科學代理（DSA）的能力。今年3月，Google推出DSA，協助使用者探索資料、深入分析和找出洞察，而這次，Google升級DSA，整合至Colab的AI體驗中，使用者可要求Colab審查已上傳和現有文件、進行深度分析，還能觸發完整的分析工作流程，包括先自主生成分析計畫、執行必要的程式碼、推理結果並呈現其洞察。

此外，融合升級版DSA的Colab，還能給予互動式回饋，在計畫執行過程中提供回饋，好來決定是否重新規畫或優化流程，確保分析結果貼近使用者的研究目標。

強化AI代理App開發工具鏈

不只將自己善用GenAI加速開發的經驗產品化，變成生成UI、網頁App工具，Google也用生成式AI，來優化AI代理App的開發。

比如Logan Kilpatrick宣布，Google GenAI SDK開始支援模型上下文協定（MCP），簡化開發者打造AI代理App的難度，讓App背後的模型更容易串接開源工具、給出更精準的回答。

再來，為了讓AI代理App更自主完成任務，Google除了改善模型的函式呼叫、搜尋功能，還進一步推出新實驗性工具URL Context，使用者只要輸入網頁連結，模型就能查閱該網頁資訊，來確保生成的答案更即時精準。該工具目前一次可支援20個連結。

同時，Google也優化模型本身，來讓AI代理App的體驗更好。

首先，Google在其即時語音Live API中，新添Gemini 2.5 Flash原生語音功能（Native Audio）預覽版，讓AI更會聽、更會說，不只生成的語音更自然、模型能即時調用工具、支援24種語言，使用者還能控制模型的聲音、語調、整體風格。而且，模型能更好地辨識說話者和背景對話，進而判斷何時該回應，讓開發者能打造更自然的對話式AI體驗。

此外，Google也將自家研發的多模態模型，整合至App開發工具，包括Imagen、Veo、Gemini等，範圍涵蓋圖像、影片、音訊和語音生成，開發者可打造更多功能的App。

推新一代開放模型，供微調加速落地

不只提供生成式AI驅動的現成服務，Google也端出一系列新的開放模型，供開發者自行訓練或微調成符合需求的工具，來執行特定任務，離線也可以。

比如，今年大會新推出Gemma 3n預覽版，只需2GB記憶體，就能在行動裝置端執行任務。它還有幾個實務性優點，如多模態理解能力，可以理解並處理文字、圖像、語音和影片內容，也支援多模態交互輸入，另還內建可自動切換的子模型，例如從4B模型動態產生2B子模型，來因應不同裝置和延遲需求。甚至，模型的日語、德語、韓語、西班牙語和法語翻譯能力也更強了。

Google給出Gemma 3n可行的應用場景，比如可分析使用者環境（音訊、視覺）的即時互動體驗、深層理解多模態（文字、圖片、音訊和影片等）的離線應用，又或是即時語音轉錄、翻譯和語音互動等應用。

還有多種專屬開放模型和開發社群

除了Gemma 3n，Google也在Gemma 3模型架構基礎上，亮相幾款專用模型。首先是醫療領域專屬的MedGemma，它指一系列以Gemma 3為基礎、以醫療照護資料打造而成的模型，包括4B參數（即40億）的多模態模型，以及27B參數的文字模型。MedGemma可以進行醫學影像分類、解讀影像和生成報告，還能進行臨床推論、輔助臨床決策和摘要重點，比如協助醫生判讀X光片、病理影像並寫報告。開發者可以微調模型，在雲端或本地端部署，來執行特定任務。

另一款專屬模型是手語辨識模型SignGemma，專為聾啞和聽障社群打造，可作為即時翻譯工具，能將美國手語轉換為英文。Google點出，SignGemma屬於輕量化設計，可在資源有限的裝置上執行，潛在的應用場景有即時翻譯應用、將手語轉換為文字或語音，可用於一般場合或是教育、醫療等場景。

SignGemma目前仍於測試階段，預計今年底正式發布，未來預計擴展至更多手語和語言。

這兩款專屬模型，還只是眾多開發者可用的其中2種。早在今年3月，Google就專門為Gemma開發者，成立了專屬社群Gemmaverse。在這裡，開發者可以交流創意、查看各種Gemma衍生應用。Google揭露，自Gemma系列模型發布1年多以來，相關模型下載量已超過1.5億次，更累積超過7萬個Gemma變形模型，這也是Google為其成立社群的原因，讓開發者吸取更多實例、開發可落地的應用。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签