新智元报道
新智元报道
AI版「虚拟卫星」登场64维超高精度
每天,卫星从太空捕捉地球的每一寸变化,生成海量的图像和观测数据。这些数据为科学家、决策者们,提供了近乎实时的地球全景。过去15年,Earth Engine平台开放的地球观测影像和地理空间数据,彻底改变了我们对地球的认知方式。但因其复杂性、多模态、刷新率也催生了一项新挑战:如何连接异构的数据集,并对其进行高效利用?AlphaEarth Foundations的诞生,就成为这一难题破解的制胜法器。这是一款堪称「虚拟卫星」的AI模型,能将海量球观测数据,整合到一个计算机系统,并轻松处理的统一数字表示(即「嵌入」)。最终,它以前所未有的精细度,绘制出地球上所有的陆地和沿海水域。AlphaEarth Foundations不仅为科学家提供了更完整、一致的地球演变图景,还助力他们在粮食安全、森林砍伐、城市扩展、水资源管理等领域,做出更明智的决策。工作原理
通过解决「数据过载」和「信息不一致」这两大挑战,AlphaEarth Foundations为我们理解地球提供了全新的视角。首先,它整合了来自数十个不同公共来源的海量信息,包括光学卫星图像、雷达、3D激光测绘、气候模拟等。它将所有信息融会贯通后,再以清晰的10x10米的超高精度分析全球陆地和沿海水域,追踪地球随时间的变化。其次,它使这些数据变得易于使用。该系统的关键创新在于,能为每个方块区域创建一个高度紧凑的数字摘要。与其他AI系统相比,这些摘要的存储空间减少了16倍,显著降低了行星尺度分析的成本。这一突破使科学家们能够做到一件迄今为止无法实现的事情:按需创建详细、一致的世界地图。AlphaEarth Foundations工作原理:从视频序列中提取非均匀采样的帧,以索引任意时间点的位置。这有助于模型构建该地点的连续视图,同时解释大量测量数据。无论是在监测作物健康、追踪森林砍伐,还是观察新建筑,他们都不再需要仅仅依赖一颗飞过头顶的卫星。如今,他们拥有了一种新型的「地理空间数据基础」。经过严格测试,AlphaEarth Foundations还展现了无与伦比的准确性。它在不同时间段的各种任务中都表现卓越,包括识别土地用途和估算地表属性。至关重要的是,即便在标记数据稀缺的情况下,其错误率比其他模型平均低24%,展现了卓越的学习效率。全局嵌入场被分解为单个嵌入的过程(从左至右)。每个嵌入包含64个分量,这些分量映射到64维球面上的坐标点如下生成的地图数据中,AlphaEarth Foundations嵌入维度的64个维度中,三个分别赋予红、绿、蓝三色,即可将我们世界的丰富细节可视化。在厄瓜多尔,该模型能穿透持续的云层,详细呈现处于不同发展阶段的农田。在其他地方,它清晰地绘制出南极洲的复杂地表——该地区因卫星成像不规律而极难成像。此外,它还揭示了加拿大农业土地利用中肉眼不可见的差异。
10x10像素,浓缩一年数据
谷歌团队利用AlphaEarth Foundations,生成了覆盖2017年至今、每年10米分辨率的全球预计算嵌入数据集。这些「嵌入」影像看似普通的Earth Engine影像集合,却将AI赋能的特征提取能力融入到每个像素。「嵌入」向量中究竟包含了哪些信息?· 多源测量数据嵌入向量从多种数据源中学习,捕捉地表属性的语义信息。比如,一个像素的嵌入不仅反映其光谱特性,还包含周边环境、季节性变化(如植被物候、积雪)以及地形和气候特征。· 时空背景AlphaEarth Foundations在全球超500万个地点采样、总计超过30亿个独立影像帧上进行了训练。模型将一个地点随时间变化的卫星影像视为视频中的连续帧。从而能够跨越空间、时间和测量模式进行学习,生成既能捕捉空间背景又能保留时间轨迹的嵌入。这意味着,卫星嵌入数据集中的每个嵌入向量,都为地球陆地表面上每块10米像素(100 平方米)的区域状况,提供了一种高度紧凑且语义丰富的表示。每个10米像素的嵌入还捕捉了其周边区域的信息。因此,即使某些区域(比如停车场的沥青路面和高速公路)在孤立来看时非常相似,它们的嵌入向量也会有很大差异。· 64维看地球:坐标与波段卫星嵌入数据集中的影像有64个波段——但它们不同于经典的光学反射率或雷达回波。恰恰相反,AlphaEarth Foundations嵌入中单个像素的64个「波段」,代表了在一个64维「球面」上的一个64维坐标。这些坐标通过DL生成,数学上可解释性强,但并非直接的物理测量值,而是对高维测量空间的紧凑表示。「卫星嵌入」本质上是64维「球面」表面的一个坐标点有了卫星嵌入数据集,科学家能够进行「相似性搜索」。只需选择一个目标像素,嵌入向量即可通过简单的点积计算,快速在全球范围内定位相似地表和环境条件的区域。纽约市中心的嵌入向量,能轻松匹配其他高度城市化的区域。对坐标——73.9812, 40.7628(美国纽约市中城区曼哈顿)进行的相似性搜索此外,基于相似性的比较同样适用于时间维度,可用于由嵌入驱动的变化检测和稳定性监测。AlphaEarth Foundations嵌入空间被设计为在时间上保持一致。通过比较同一像素在不同年份的嵌入向量,可以轻松监测城市扩张、野火恢复、水库水位变化等。下图显示了,2020年——2024年间在嵌入空间中观测到的一些变化,每行最后一张图显示了每个像素与自身的相似度(值越亮表示差异越大),分别对应以下几种变化类型:郊区扩张野火燎原后的土地,其中夹杂着火灾前就已被砍伐的区域人工水库从干旱期到水量缓解期的变化不同年份间农田的差异,展示了嵌入如何捕捉作物周期和休耕等年内动态
除此以外,无需预先标签,嵌入向量结合Earth Engine的ee.Clusterer算法,可自动将像素聚类为不同地表类型(如森林、土壤、城市区域)。这能揭示隐藏的地貌模式,助力研究地形、水文和物候特征。
地球版ChatGPT,按需创建地图
目前,由AlphaEarth Foundations驱动的Satellite Embedding数据集,是Earth Engine中规模最大的数据集之一。它每年包含了超1.4万亿个「嵌入」足迹。全球众多组织,包括联合国粮食及农业组织、哈佛森林、地球观测组织、MapBiomas、俄勒冈州立大学等,已利用这一数据集创建自定义地图,深入洞察现实世界。在实际应用中,AlphaEarth Foundations已取得了初步的成果。「全球生态系统地图集」 (Global Ecosystems Atlas) 计划,利用数据集将未测绘的生态系统,分类为海灌木丛、极度干旱沙漠等类别。这一首创的资源,为各国优化保护区优先级、推动生态恢复和遏制生物多样性丧失提供关键支持。还有巴西「MapBiomas」项目,通过测试该数据集,更深入了解了农业和环境变化,为亚马逊雨林等关键生态系统的保护战略和可持续发展倡议提供了信息。AlphaEarth Foundations,代表着人类理解地球动态的重要一步。接下来,谷歌团队正使用其来生成年度嵌入(annual embeddings),并联合强大Gemini一同发挥最大效用。作为Google Earth AI的一部分,他们还将继续探索应用模型时序能力的最佳方式。
文章原文