链载Ai

标题: AI 原力注入:AI Infra 知识体系 v2.0 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: AI 原力注入:AI Infra 知识体系 v2.0

经过这半年的学习和整理,笔者也逐步构建了笔者心中的 AI Infrastructure 知识体系(Body of knowledge forAI Infrastructure)的 1.0 版本(2024年10月5日),涵盖基础的硬件知识和 CUDA 编程知识,内容会随着笔者学习的深入而逐步增加新的内容,也希望大家共同讨论学习,使得知识体系更加完善。

2025年8月28日,笔者在 1.1 版本的基础上,发布了 2.0 版本。

相关文章笔者也都整理在了 github 上(包括外部链接),详情可以参看:https://github.com/ForceInjection/AI-fundermentals/blob/main/README.md

AI Fundamentals

本仓库是一个全面的人工智能基础设施(AI Infrastructure)学习资源集合,涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA开发、大语言模型、AI系统设计、性能优化、企业级部署等核心领域,旨在为AI工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。

适用人群AI工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。
技术栈CUDAGPU架构、LLMAI系统、分布式计算、容器化部署、性能优化。

1. 硬件与基础设施

1.1 硬件基础知识

1.2 GPU 架构深度解析

在准备在GPU上运行的应用程序时,了解GPU硬件设计的主要特性并了解与CPU的相似之处和不同之处会很有帮助。本路线图适用于那些对GPU比较陌生或只是想了解更多有关GPU中计算机技术的人。不需要特定的并行编程经验,练习基于CUDA工具包中包含的标准NVIDIA示例程序。

1.2.1 GPU 架构和编程模型介绍

1.2.2 CUDA 核心技术

1.3 AI 基础设施架构

1.4 AI 基础设施课程

完整的AI基础设施技术课程体系:

课程内容概览:

1.5 GPU 管理与虚拟化

理论与架构:

GPU 虚拟化解决方案:

运维工具与实践:

1.6 分布式存储系统

JuiceFS 分布式文件系统:

1.7 DeepSeek 技术研究

注意:相关内容为 2025 年春节完成,需要审慎参考!

模型对比与评测:

分布式系统设计:

1.8 高性能网络与通信

1.8.1 InfiniBand 网络技术

1.8.2 NCCL 分布式通信

核心特性:

测试工具:

1.9 云原生 AI 基础设施

1.9.1 Kubernetes AI 生态

核心特性:

1.9.2 AI 推理服务

技术架构:

1.10 性能分析与调优

1.10.1 AI 系统性能分析概述

分析维度:

1.10.2 GPU 性能分析

性能分析工具:

关键指标与优化:

性能优化实践:

1.11 GPU 监控与运维工具

1.11.1 GPU 监控工具

核心特性:

1.11.2 GPU 性能分析


2. 开发与编程

本部分专注于AI开发相关的编程技术、工具和实践,涵盖从基础编程到高性能计算的完整技术栈。

2.1 AI 编程入门

学习路径:

2.2 CUDA 编程与开发

技术特色:

2.3 Trae 编程实战课程

系统化的 Trae 编程学习体系:

2.4 Java AI 开发

技术特色:

2.4 CUDA 学习材料

2.4.1 快速入门

2.4.2 参考资料

2.4.3 专业选手

CUDA-Learn-Notes:📚Modern CUDA Learn Notes: 200+ Tensor/CUDA Cores Kernels🎉, HGEMM, FA2 via MMA and CuTe, 98~100% TFLOPS of cuBLAS/FA2.


3. 机器学习基础

本部分基于动手学机器学习项目,提供系统化的机器学习学习路径。

3.1 机器学习学习资源

核心特色:

3.2 基础概念与数学准备

3.2 监督学习

3.2.1 基础算法

3.2.2 集成学习

3.3 无监督学习

3.3.1 聚类算法

3.3.2 降维算法

3.3.3 概率模型

3.4 特征工程与模型优化

3.4.1 特征工程

3.4.2 模型评估

3.5 推荐系统与概率图模型

3.5.1 推荐系统

3.5.2 概率图模型

3.6 深度学习基础

3.7 实战项目

3.8 学习资源

3.8.1 核心教材

3.8.2 在线资源

3.8.3 实践平台


4. 大语言模型基础

4.1 核心技术与架构

基础理论与概念:

嵌入技术与表示学习:

高级架构与优化技术:

4.2 参考书籍


5. 大模型训练

5.1 微调技术与训练策略

指令微调与监督学习:

大规模模型训练实践:


6. 大模型推理

6.1 推理系统架构设计

6.2 模型部署与运维实践

6.3 推理优化技术体系

完整的 AI 推理优化技术文档系列,涵盖从小型到大型集群的推理优化策略:


7. 企业级 AI Agent 开发

7.1 AI Agent 开发概述

7.2 基础理论与架构框架

7.3 上下文工程技术体系

理论基础与核心原理:

7.4 AI 智能体记忆系统架构

7.5 工程实践与项目案例

7.5.1 多智能体系统工程实践

7.5.2 多智能体训练

培训特色:

7.6 应用案例

7.7 RAG 技术

7.8 AI Agent 框架与工具

Python 生态:

Java 生态:

7.9 模型上下文协议(MCP)


8. 实践案例

8.1 模型部署与推理

8.2 文档处理工具

8.3 特定领域应用


9. 工具与资源生态

9.1 AI 系统学习资源与知识体系

AISystem- 企业级 AI 系统学习的完整知识体系与技术栈,涵盖:

9.2 AI 基础设施专业课程体系

9.3 开源项目生态与技术选型

大模型与推理框架:

文档处理与数据预处理:






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5