|
↑↑↑ 点击关注,分享IT技术|职场晋升技巧|AI工具 最近几年信创要求覆盖面越来越广了,无论是事业单位还是国企、央企无一不对信创有严格要求。而随着AI的普及,那么大模型的部署以及AI应用落地同样也有着信创要求。今天我用一篇文章给大家总结一下大模型领域的信创方案。
硬件层 (算力基础):
基础软件层 (操作系统 & 虚拟化):
操作系统:
麒麟软件 (KylinOS): 银河麒麟/中标麒麟,国内政企主流选择。
统信软件 (UOS): 统一操作系统,生态建设迅速。
OpenEuler: 华为开源的企业级Linux发行版,支持多样性计算(鲲鹏、昇腾、飞腾等),是昇腾方案的核心OS。
Alibaba Cloud Linux / Anolis OS: 阿里系开源操作系统,对国产芯片适配良好。
虚拟化/容器化:
AI框架层 (模型开发与训练):
昇思MindSpore: 华为全栈AI框架,原生支持昇腾硬件,是国产化主力框架。 支持自动并行、全场景部署(云边端)。国产化方案首选。
百度飞桨PaddlePaddle: 国内首个开源开放深度学习平台,生态成熟,支持多种国产硬件(通过Paddle Lite/适配),是重要选择。
一流科技OneFlow: 以分布式训练性能著称,原生设计支持大规模分布式,兼容部分国产芯片。
计图Jittor: 清华系框架,创新即时编译技术,支持国产芯片(如寒武纪)。
PyTorch/TensorFlow + 国产硬件插件: 通过厂商提供的插件(如昇腾的PyTorch Adapter/TensorFlow Adapter,寒武纪的CNPlugin)在国产硬件上运行,兼容性好,但非纯国产。
模型层 (国产大模型):
推理服务层 (模型部署与运行):
昇腾推理引擎 (Ascend Inference Engine): 高性能、低延迟,深度优化昇腾硬件。
MindSpore Lite: 轻量级推理框架,支持昇腾、CPU等,适用于端边云全场景。
Paddle Inference / Paddle Serving: 飞桨原生推理引擎和服务框架,支持多种硬件后端。
FastDeploy: 飞桨推出的统一部署工具链,简化多硬件、多平台部署。
ONNXRuntime + 国产硬件Execution Provider: 利用ONNX格式的通用性和国产硬件厂商提供的EP(如昇腾EP)进行推理。兼容性方案。
Triton Inference Server + 国产硬件Backend: 利用流行的Triton框架,加载国产硬件厂商提供的Backend(如昇腾 Backend)。兼容性方案。
国产自研推理引擎: 部分厂商或机构自研针对其硬件优化的推理引擎。
工具链 & 平台层 (开发、运维、管理):
昇腾AI开发平台 (CANN + MindStudio + MindX): 华为昇腾全栈的核心工具链,提供从算子开发、模型训练、模型转换(ATC)、模型推理、到应用开发的全流程工具。
飞桨AI Studio / BML: 百度飞桨的开发和训练平台。
ModelArts (华为云) / PAI (阿里云) / 文心 (百度智能云): 主流云厂商的AI开发平台,其国产化区域通常已集成国产硬件支持。
国产MLOps平台: 如星环科技Sophon Base、九章云极DataCanvas APSARA、华为ModelArts的MLOps能力等,提供模型管理、部署、监控、迭代能力。
监控与运维: 需采用国产或开源可控的监控系统(如Prometheus + Grafana)进行硬件状态、集群负载、模型服务性能、业务指标的监控。
系统集成与优化:
异构计算管理: 在混合硬件环境(如昇腾+鲲鹏+飞腾CPU)中高效调度和管理任务。
分布式训练优化: 针对国产芯片和网络特点,优化MindSpore/PaddlePaddle/OneFlow等的分布式训练策略(数据并行、模型并行、流水并行、混合并行)。
模型压缩与量化: 使用框架提供的工具(如MindSpore的量化工具、PaddleSlim)进行模型剪枝、量化(INT8/FP16),大幅提升推理效率,降低对算力需求,对国产硬件尤其重要。
编译优化: 利用昇腾的图算融合、寒武纪的编译器优化等技术,提升计算图执行效率。
典型国产化部署方案推荐路径:
华为昇腾全栈方案 (当前最成熟主流):
硬件: Atlas 800/900服务器 (昇腾910 + 鲲鹏920) + 高速网络 (如CE系列交换机)。
OS: OpenEuler / 麒麟V10。
AI框架: MindSpore。
大模型: 盘古大模型 或 基于MindSpore训练/微调的自研/开源模型。
推理: Ascend Inference Engine / MindSpore Lite。
工具平台: CANN + MindStudio + ModelArts (可选)。
优点: 全栈深度优化,性能好,软硬件协同成熟,生态支持强,文档案例丰富。
挑战: 绑定华为生态,迁移成本(如果原非华为栈)。
最后介绍下我的大模型课:我的运维大模型课上线了,目前还是预售期,有很大优惠。AI越来越成熟了,大模型技术需求量也越来越多了,至少我觉得这个方向要比传统的后端开发、前端开发、测试、运维等方向的机会更大,而且一点都不卷!
扫码咨询优惠
·············· END ··············哈喽,我是阿铭,《跟阿铭学Linux》作者,曾就职于腾讯,有着18年的IT从业经验,现全职做IT类职业培训:运维、k8s、大模型。日常分享运维、AI、大模型相关技术以及职场相关,欢迎围观。
|