AI & Big Data 17小时前
Google用GenAI加速四大開發場景,強化AI代理工具鏈
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Google在今年的I/O大會上,集中展示了其生成式AI(GenAI)技术的最新进展,不仅推出了令人印象深刻的消费端GenAI成果,还揭示了一系列旨在加速企业开发的工具。这些工具源于Google内部的实践经验,并针对四大关键开发场景进行了优化,包括UI设计、Web App原型创建、大规模开发自动化以及AI代理融入开发环境。此外,Google还推出了新的开放模型,供开发者定制和微调,以满足特定任务需求,并积极构建开发者社群,推动GenAI技术的广泛应用。

🎨 Google 推出基于 Gemini 2.5 Flash 模型的 UI 生成工具 Stitch,开发者可以使用自然语言提示快速生成可交互的 UI 原型和代码。

🌐 Google AI Studio 整合 Gemini 2.5 Pro 模型,简化 Web App 原型创建流程,开发者可以通过文字、图片或视频提示生成应用原型。

🤖 Google 发布后台运行的 AI 开发助理 Jules,基于 Gemini 2.5 Pro 模型,可以自动完成代码测试、新功能构建、错误修复等任务,加速大规模开发。

💡 Google 将生成式 AI 融入 Colab 开发环境,提供代码生成、错误修复建议等功能,并升级 DSA 整合至 Colab,协助用户进行数据分析和洞察。

🎤 Google 在即时语音声学 Live API 中新添 Gemini 2.5 Flash 原生语音功能,以及多模态模型整合至 App 开发工具,提升 AI 代理 App 的体验。

📚 Google 推出 Gemma 3n 等开放模型,供开发者微调,并在医疗和手语识别领域发布 MedGemma 和 SignGemma 等专用模型,扩展 GenAI 的应用范围。

今年的I/O大會,是Google生成式AI(GenAI)技術和應用大爆發的一次。除了端出各種令人驚艷的消費端GenAI成果,他們還揭露一系列用GenAI模型加速企業開發的工具,尤其,這些工具是Google內部實作經驗的延伸,發展為對外服務、瞄準4大場景。

開發場景優化1:快速生成互動式UI

他們首先揭露,生成式AI模型加速UI設計的工具。

「Gemini 2.5 Flash模型又快又划算,我們用它打造了很多原型!」Google Gemini實驗室副總監Josh Woodward在大會上如此開場。Gemini 2.5是Google開發的新一代生成式AI模型,今年3月發布Pro版本、4月揭露Flash版本,就成為Google內部開發的加速工具。

Google將生成式AI模型落地的成功經驗,進一步擴大到自家產品,以Gemini 2.5系列模型為核心,融合程式開發和設計,推出一款名為Stitch的實驗性UI生成工具,使用者用自然語言提示(Prompt),就能在1分鐘左右得到UI原型和程式碼。

這個UI「不是靜態的螢幕截圖,而是可以互動的介面,」Josh Woodward強調。跳出第一版UI後,使用者還能繼續在對話欄,用自然語言提示修改UI原型,另也能手動調整區塊顏色、亮暗模式等。在這過程中,Gemini 2.5 Flash和Pro版本模型會交互工作,來根據提示產生、修正UI原型。

要是使用者對生成的UI滿意,就能複製程式碼,貼到自己喜好的IDE環境或Figma工具繼續編輯,或與團隊協作。

開發場景優化2:快速生成Web App

除了加速UI設計,Google也用生成式AI產出網頁App原型。

進一步來說,Google Cloud原本就有套一站式生成式AI開發工具Google AI Studio,它串接自家Gemini系列模型和其他模型API,使用者在網頁介面輸入提示,就能生成各種內容,如程式碼、圖片、影音等。

這次,Google DeepMind集團產品經理Logan Kilpatrick揭露新突破,他們把最新、最擅長程式碼處理的Gemini 2.5 Pro模型,整合到Google AI Studio原生編輯器,加上自家GenAI SDK優化,更容易根據文字、圖片或影片提示,來生成網頁應用原型,縮短開發時間。

Logan Kilpatrick現場輸入提示,要打造一套冒險遊戲應用程式,系統馬上調度Gemini和Imagen模型,先生成遊戲規格,再產生程式碼、自我修復錯誤,並在幾分鐘後,產出包含畫面的應用程式原型。

之後,開發者可繼續透過聊天介面,來調整、查看不同的原型版本,也能回溯到先前的檢查點、還原修改等。開發者甚至能一鍵將新建的網頁應用,部署到Cloud Run上。

開發場景優化3:大規模開發自動化

從用生成式AI模型生成UI、App,Google還用生成式AI來加強程式開發本身,在今年大會中揭露程式開發代理Jules公測版。

這個領域並非Google獨步,不少公雲大廠和程式開發業者都推出專屬GenAI輔助開發工具,而Google這款Jules,是一套可在背景作業的非同步代理型AI開發助理,它以Gemini 2.5 Pro驅動,具備整合GitHub專案、自動完成一系列開發工作的能力。

Jules會將開發者的程式碼庫複製到Google雲端VM,來寫測試、建置新功能、修復錯誤、升級相依套件版本、提供語音版的變更紀錄等,開發者一邊工作,Jules就能在背景執行作業,完成後會提供說明。

特別的是,Jules可同時執行多任務,在VM中同時處理多個請求,適合大型、多檔案的變更。

開發場景優化4:AI代理融入開發環境

同樣是改善開發體驗,Google還將生成式AI帶入自家開發環境Colab,在今年大會宣布升級為AI優先的Colab。因為,他們用Gemini 2.5 Flash驅動的代理,來提供一系列優化功能,可在整個Notebook環境執行。

這些功能主要幾種,比如常見的程式碼生成和轉換改寫、查詢Python函式庫和請求使用範例、直接在Notebook中提出錯誤修復建議等。

另一類功能是結合新一代資料科學代理(DSA)的能力。今年3月,Google推出DSA,協助使用者探索資料、深入分析和找出洞察,而這次,Google升級DSA,整合至Colab的AI體驗中,使用者可要求Colab審查已上傳和現有文件、進行深度分析,還能觸發完整的分析工作流程,包括先自主生成分析計畫、執行必要的程式碼、推理結果並呈現其洞察。

此外,融合升級版DSA的Colab,還能給予互動式回饋,在計畫執行過程中提供回饋,好來決定是否重新規畫或優化流程,確保分析結果貼近使用者的研究目標。

強化AI代理App開發工具鏈

不只將自己善用GenAI加速開發的經驗產品化,變成生成UI、網頁App工具,Google也用生成式AI,來優化AI代理App的開發。

比如Logan Kilpatrick宣布,Google GenAI SDK開始支援模型上下文協定(MCP),簡化開發者打造AI代理App的難度,讓App背後的模型更容易串接開源工具、給出更精準的回答。

再來,為了讓AI代理App更自主完成任務,Google除了改善模型的函式呼叫、搜尋功能,還進一步推出新實驗性工具URL Context,使用者只要輸入網頁連結,模型就能查閱該網頁資訊,來確保生成的答案更即時精準。該工具目前一次可支援20個連結。

同時,Google也優化模型本身,來讓AI代理App的體驗更好。

首先,Google在其即時語音Live API中,新添Gemini 2.5 Flash原生語音功能(Native Audio)預覽版,讓AI更會聽、更會說,不只生成的語音更自然、模型能即時調用工具、支援24種語言,使用者還能控制模型的聲音、語調、整體風格。而且,模型能更好地辨識說話者和背景對話,進而判斷何時該回應,讓開發者能打造更自然的對話式AI體驗。

此外,Google也將自家研發的多模態模型,整合至App開發工具,包括Imagen、Veo、Gemini等,範圍涵蓋圖像、影片、音訊和語音生成,開發者可打造更多功能的App。

推新一代開放模型,供微調加速落地

不只提供生成式AI驅動的現成服務,Google也端出一系列新的開放模型,供開發者自行訓練或微調成符合需求的工具,來執行特定任務,離線也可以。

比如,今年大會新推出Gemma 3n預覽版,只需2GB記憶體,就能在行動裝置端執行任務。它還有幾個實務性優點,如多模態理解能力,可以理解並處理文字、圖像、語音和影片內容,也支援多模態交互輸入,另還內建可自動切換的子模型,例如從4B模型動態產生2B子模型,來因應不同裝置和延遲需求。甚至,模型的日語、德語、韓語、西班牙語和法語翻譯能力也更強了。

Google給出Gemma 3n可行的應用場景,比如可分析使用者環境(音訊、視覺)的即時互動體驗、深層理解多模態(文字、圖片、音訊和影片等)的離線應用,又或是即時語音轉錄、翻譯和語音互動等應用。

還有多種專屬開放模型和開發社群

除了Gemma 3n,Google也在Gemma 3模型架構基礎上,亮相幾款專用模型。首先是醫療領域專屬的MedGemma,它指一系列以Gemma 3為基礎、以醫療照護資料打造而成的模型,包括4B參數(即40億)的多模態模型,以及27B參數的文字模型。MedGemma可以進行醫學影像分類、解讀影像和生成報告,還能進行臨床推論、輔助臨床決策和摘要重點,比如協助醫生判讀X光片、病理影像並寫報告。開發者可以微調模型,在雲端或本地端部署,來執行特定任務。

另一款專屬模型是手語辨識模型SignGemma,專為聾啞和聽障社群打造,可作為即時翻譯工具,能將美國手語轉換為英文。Google點出,SignGemma屬於輕量化設計,可在資源有限的裝置上執行,潛在的應用場景有即時翻譯應用、將手語轉換為文字或語音,可用於一般場合或是教育、醫療等場景。

SignGemma目前仍於測試階段,預計今年底正式發布,未來預計擴展至更多手語和語言。

這兩款專屬模型,還只是眾多開發者可用的其中2種。早在今年3月,Google就專門為Gemma開發者,成立了專屬社群Gemmaverse。在這裡,開發者可以交流創意、查看各種Gemma衍生應用。Google揭露,自Gemma系列模型發布1年多以來,相關模型下載量已超過1.5億次,更累積超過7萬個Gemma變形模型,這也是Google為其成立社群的原因,讓開發者吸取更多實例、開發可落地的應用。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Google I/O 生成式 AI Gemini 开发工具
相关文章