掘金 人工智能 07月14日 10:47
基于MaxCompute MaxFrame 汽车自动驾驶数据预处理最佳实践
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了基于阿里云MaxCompute构建的自动驾驶端到端数据处理流水线,旨在高效处理海量多模态数据。该方案涵盖了从车端数据采集、数据预处理到模型训练的全流程管理,并通过MaxFrame、DataWorks、PAI、OSS等产品,实现了弹性计算、高效存储和统一元数据管理,以解决自动驾驶数据处理中的诸多挑战。

🚗 自动驾驶数据处理面临诸多挑战,包括开发环境复杂、计算资源调度不灵活、海量数据处理性能压力大以及任务及数据管理复杂度高等问题。传统框架难以应对TB级数据量级与处理复杂度,且缺乏容错机制。

⚙️ 核心架构基于阿里云MaxCompute,构建了端到端数据处理流水线。该方案通过DataHub/Kafka进行车端数据上传,利用OSS进行海量数据存储,并借助MaxCompute Serverless实现弹性计算,最后通过PAI进行模型训练。

💡 该方案具备多重优势。MaxFrame与DataWorks深度集成,提供开箱即用的Python开发环境;MaxCompute支持灵活的弹性资源调度,降低成本并提升处理效率;MaxFrame提供高效的分布式处理性能,并支持统一元数据管理,方便作业及数据跟踪。

一、背景及挑战

在汽车自动驾驶场景中,车端(量产车、研采车)持续产生并采集海量数据,包括图片、音视频、雷达、GPS等内容,这些数据通常以 ROSbag文件形式进行存储。

行业需求:

自动驾驶依赖海量多模态数据(视频、点云、传感器日志等),需高效处理、分析及管理。

核心痛点:

开发环境配置管理复杂

计算资源调度不够灵活

海量多模态数据处理性能压力大

任务及数据管理复杂度高

二、核心架构

基于阿里云 MaxCompute 分布式计算框架MaxFrame、DataWorks、PAI、OSS 等产品构建自动驾驶端到端数据处理流水线,实现从车端数据采集、数据预处理到模型训练的全流程管理。

核心目标:

整体架构:

阶段一:车端数据上传与解析

车端持续产生海量数据,包括文件上传进度信息、视频图像文件等。采用 DataHub/Kafka 确保文件上传进度信息稳定传输。借助DataWorks,实现数据预处理任务一站式开发和调度,无论是数据清洗、格式转换,还是数据同步,都能高效完成。

阶段二:高效数据存储与管理

OSS提供海量存储空间,安全存放bag文件、原始及切帧后的CLIP文件,上下行带宽可达上百Gbps,大幅缩短文件传输时间。MaxCompute可以实现大规模文件元数据存储与管理,通过meta表、tag表记录数据下载和预处理过程中的的任务状态更新,以及CLIP文件的tag信息,并监控失败任务进行重跑。

阶段三:海量数据弹性计算与调度

依托 MaxCompute Serverless 弹性计算能力,可快速拉起并提供数十万+CU 弹性计算资源能力,同时基于分布式计算框架MaxFrame,支持作业自动分布式执行,单作业可调用数万Core/内存,轻松应对自动驾驶海量数据计算需求。

阶段四:稳定高效的模型训练

PAI具备上千节点并发的离线大规模分布式训练能力,大幅缩短模型训练时间,结合并行文件系统CPFS,为训练过程提供稳定、高速的数据读写支持,助力自动驾驶模型持续优化升级。

三、方案优势

在汽车自动驾驶数据处理场景中,MaxCompute 主要完成对车端采集的大量 bag 包进行解压、处理等工作,基于 MaxCompute MaxFrame 高效、稳定的完成端到端数据处理流程。

基于 MaxFrame 的数据处理流程架构

核心优势:

1、一站式开发环境管理

2、海量弹性计算资源灵活调度

3、高效的分布式处理性能

4、统一的元数据管理

核心优势总结:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

自动驾驶 数据处理 MaxCompute 云原生 MaxFrame
相关文章