链载Ai

标题: 货拉拉离线大数据跨云迁移-综述篇 [打印本页]

作者: 链载Ai    时间: 昨天 19:31
标题: 货拉拉离线大数据跨云迁移-综述篇

前言

2023 年底,公司正式决策启动货运离线大数据迁移项目。历经五个月协同推进,项目于 2024 年 5 月顺利完成离线链路全量(覆盖任务、数据、服务及基础设施)跨云迁移切换,期间共有十余个部门深度参与。如今距离迁移完成已逾一年,回望整个过程仍历历在目 —— 项目推进中曾面临诸多难点与挑战,最终均通过多方协作逐一攻克,为后续链路稳定运行奠定了坚实基础。

业界迁移上云或跨云迁移的案例虽多,但鲜有聚焦大数据场景的实施细节分享。为此,我们决定将本次离线大数据迁移的完整实施过程梳理成文,希望能为行业内同类大数据迁移实践提供可借鉴的经验与思路。本文先从整体视角介绍迁移方案设计与实施全流程,后续将通过系列公众号文章,对数据迁移技术细节、数据验证方法体系等核心内容展开深度拆解与分享,诚邀大家关注并提出宝贵指导意见。

背景介绍

1. 大数据跨云架构

货拉拉大数据 IT 架构是“多云 + 云上自建”形式。大数据核心服务能力从一开始,只依赖云商的基础设施(IaaS)层,开始研发时投入较大,但从长期看有可控性强、能做深度研发优化、容易迁移和复制等优势。

2. 离线大数据规模

2.1 离线存储

这次迁移包含公司货运 10 年积累的约 40PB 数据存储和 4 万多个数据计算任务,在货运行业属于前列体量。

业务线
数据量
文件数量
任务量
涉及部门数
HLL
40PB
10亿+
40000+
17个

2.2 离线计算

货拉拉离线大数据集群规模近千节点,同时还有 Presto 混合引擎集群、业务专用计算集群、分布式调度服务节点以及 GPU/CPU 异构计算资源池,整体架构呈现多层级、组件异构的特征。在迁移过程中,需要控制与在线服务集群(低延迟交互)、实时计算集群(流式数据依赖)的跨网络域数据交换策略,跨集群的数据传输和网络权限设计面临严峻挑战。

迁移方案设计

设计云迁移方案时,对技术保障要求很高,要保证“迁移前后数据准确、准时,停机时间少且不影响业务“。因此,我们根据以前的数据迁移经验,结合这次迁移的复杂程度,重新设计了“可验证、可回滚”的数据迁移方案。

  1. 1. 性能验证:






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5