AI & Big Data 2024年12月20日
【AWS GAI戰略3】加速資料表查詢和10倍交易量,滿足GAI資料查詢需求
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AWS re:Invent大会上,生成式AI成为焦点,AWS主力云存储服务Amazon S3也随之创新。S3推出新功能,如S3 Tables,通过优化Apache Iceberg数据表格式,加速AI分析查询,并提高交易处理量,同时自动管理表维护工作。此外,S3 Metadata预预览版能自动生成对象元数据,方便用户查找和理解数据,并支持自定义元数据,使其成为AI分析和生成式AI的RAG数据源。这些更新旨在满足AI时代对数据存储和管理的新需求。

🚀 Amazon S3推出S3 Tables新功能,通过优化Apache Iceberg数据表格式,将查询性能提升3倍,每秒交易处理量提高10倍,并能自动管理数据压缩和快照等维护工作。

🗂️ S3 Metadata预预览版能近乎实时地自动生成对象元数据,如大小和来源,并支持自定义元数据,帮助用户更快查找和理解数据,并将其用于AI分析或作为RAG数据源。

💡 AWS 观察到AI应用日益融入各行业工作流程,S3团队致力于使S3更符合AI分析和生成式AI应用的需求,本次更新是为应对这些需求而进行的策略调整。

「生成式AI」是貫穿今年AWS re:Invent大會的關鍵字,也是AWS產品戰略的重要發展方向,就連主力產品線的儲存(Storage),也往這個方向創新。AWS的主力雲端儲存服務是Amazon S3,誕生於2006年。在這18年間,S3發展出幾代新功能,比如前幾年推出的S3 Intelligent-Tiering,能分析使用者存取數據的模式,自動將物件搬移到合適的存取層,可處理的資料量級達到PB級,甚至是EB級,幫所有使用者省下了40億美元。18年後的今天,Amazon S3擁有上百萬名使用者,處理了400兆個物件。但隨著新技術推陳出新,「儲存模式也改變了,」AWS執行長Matt Garman在大會中說:「S3團隊一直在思考,如何讓S3更好。」他們觀察,AI應用越來越融入各行各業工作流程,S3團隊後來決定,要讓S3更符合目前的AI分析需求和生成式AI應用需求。瞄準AI分析資料管理,強化Iceberg查詢效能如何讓雲端儲存服務貼近這些需求?首先,用於AI分析的資料,大都以開源的Apache Parquet檔案格式來儲存。這種格式的資料,查詢起來非常方便,「Parquet還是Amazon S3中成長速度最快的資料類型,」Matt Garman補充。然而,有些S3企業用戶擁有數百萬、數十億的Parquet檔案,非常大量。要有效查詢這些巨量資料,一種常見方法是使用Apache Iceberg資料表格式,來簡化資料湖中巨量資料集的資料處理。但,用Iceberg擴展管理PB級甚至EB級的巨量資料,非常有挑戰性,甚至安全性、存取權限等管控也是一大難題,通常得有專業團隊輔助才行。為解決企業在資料湖中查詢巨量資料的效率挑戰,AWS在今年度大會中宣布,正式推出Amazon S3 Tables新功能,不只能3倍加速Iceberg表格的查詢效能,每秒還能提高10倍交易處理量。而且,該功能還能自動管理表維護工作,像是進行資料壓縮、快照管理等。就算企業使用者的資料湖規模持續擴大,該功能也能確保高效能的查詢和成本可控的儲存。為物件自動添加Metadata,還能成為RAG參考另一方面,隨著越來越多使用者把S3當作資料儲存庫,存放各種資料,「要找到所需的資料,變得很有挑戰性。」Matt Garman說明,要是有後設資料(Metadata)輔助,就能更好地找到所需資料,或是理解資料。於是,AWS推出另一個儲存服務的新功能Amazon S3 Metadata預覽版,能近乎即時,自動產生可供查詢的物件Metadata,比如物件大小和來源,來幫助使用者更快找尋資料。甚至,使用者可以客製化Metadata內容,來加註特別資訊,比如交易ID、內容評分等。使用者可以運用這些找到的資料,來進行AI分析、即時推論,或是生成式AI的檢索增強生成(RAG)資料來源,提供更好的GAI體驗。這就是AWS今年因應GAI需求的儲存策略。 相關報導 

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Amazon S3 生成式AI 数据湖 Apache Iceberg Metadata
相关文章