Google雲端宣布Data Cloud平臺推出多項重要升級,重點在於強化資料湖倉架構的開放性與智慧治理能力。本次更新包含原生支援Apache Iceberg開放格式,並透過BigLake服務整合企業級雲端儲存,結合人工智慧自動化資料治理,供企業與開發團隊在資料管理、分析及應用層面提升彈性與效率。
這次更新主打BigLake原生支援Apache Iceberg,將Iceberg開放格式資料管理功能結合Google雲端儲存,企業可透過BigLake Table,對Iceberg資料集進行高效分析,並應用Google雲端原生儲存分層管理與用戶自管加密金鑰等機制。
透過BigLake Metastore新API與REST Catalog,開發者可更方便地整合多來源Iceberg資料,並支援與BigQuery、AlloyDB for PostgreSQL及第三方分析引擎協同操作,降低ETL成本,提升跨平臺資料存取彈性。Google也推出自動化搬遷工具,協助企業將Hadoop或Delta Lake等現有資料環境快速搬遷至Iceberg。
資料湖倉架構的升級不僅提升分析層,更延伸至營運資料庫及人工智慧應用整合。BigQuery現支援對Iceberg資料進行即時查詢、資料重整與多表格交易等進階應用,企業可在維持資料自主的同時,運用BigQuery於串流處理、機器學習及多模態分析等場景。AlloyDB for PostgreSQL也可直接查詢BigLake管理的Iceberg資料,支援語意搜尋及自然語言查詢,讓營運與分析資料層更緊密串接,減少資料複製及轉換的麻煩。
Dataplex Universal Catalog也是這次更新的重點之一。該服務整合來自BigLake、BigQuery、Spanner、Vertex AI等不同來源的中繼資料,實現統一探索、組織及治理。結合Gemini AI模型,Dataplex可自動分析資料關聯,進行智慧標註、語意搜尋及分析建議,提升資料盤點與治理效率,並強化權限控管、資料安全及法規遵循的自動化。Dataplex Universal Catalog同時支援與第三方治理平臺整合,方便企業建構跨雲、多系統的資料治理機制。
Google還在BigQuery Notebook整合Gemini,提供SQL、Python與Apache Spark整合開發體驗,透過智慧提示、自動產生PySpark程式碼與錯誤診斷,降低學習與操作障礙,支援JupyterLab及VS Code等開發環境的擴充套件,可讓用戶快速串接Google雲端資料湖倉開放儲存與運算資源,加速開發到部署的流程。