经过这半年的学习和整理，笔者也逐步构建了笔者心中的 AI Infrastructure 知识体系（Body of knowledge forAI Infrastructure）的 1.0 版本（2024年10月5日），涵盖基础的硬件知识和 CUDA 编程知识，内容会随着笔者学习的深入而逐步增加新的内容，也希望大家共同讨论学习，使得知识体系更加完善。

2025年8月28日，笔者在 1.1 版本的基础上，发布了 2.0 版本。

相关文章笔者也都整理在了 github 上（包括外部链接），详情可以参看：https://github.com/ForceInjection/AI-fundermentals/blob/main/README.md

AI Fundamentals

本仓库是一个全面的人工智能基础设施（AI Infrastructure）学习资源集合，涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA开发、大语言模型、AI系统设计、性能优化、企业级部署等核心领域，旨在为AI工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。

适用人群：AI工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。
技术栈：CUDA、GPU架构、LLM、AI系统、分布式计算、容器化部署、性能优化。

1. 硬件与基础设施

1.1 硬件基础知识

•PCIe 知识大全- 深入理解 PCIe 总线架构、带宽计算和性能优化
•NVLink 入门- NVIDIA 高速互连技术的原理与应用场景
•NVIDIA DGX SuperPOD：下一代可扩展的 AI 领导基础设施- 企业级 AI 超算集群的架构设计与部署实践

1.2 GPU 架构深度解析

在准备在GPU上运行的应用程序时，了解GPU硬件设计的主要特性并了解与CPU的相似之处和不同之处会很有帮助。本路线图适用于那些对GPU比较陌生或只是想了解更多有关GPU中计算机技术的人。不需要特定的并行编程经验，练习基于CUDA工具包中包含的标准NVIDIA示例程序。

•GPU 特性
•GPU 内存
•GPU Example: Tesla V100
•GPUs on Frontera: RTX 5000
•练习：

•Exercise: Device Query
•Exercise: Device Bandwidth

1.2.1 GPU 架构和编程模型介绍

•GPU Architecture and Programming — An Introduction-GPU架构与编程模型的全面介绍

1.2.2 CUDA 核心技术

•深入理解 NVIDIA CUDA 核心（vs. Tensor Cores vs. RT Cores）

1.3 AI 基础设施架构

•高性能 GPU 服务器硬件拓扑与集群组网
•NVIDIA GH200 芯片、服务器及集群组网
•深度学习（大模型）中的精度

1.4 AI 基础设施课程

完整的AI基础设施技术课程体系：

•在线课程演示- 交互式课程演示（包含37个页面的完整课程内容）

课程内容概览：

•大模型原理与最新进展：Transformer架构、训练规模、DeepSeek技术突破、能力涌现现象
•AI 编程技术：GitHub Copilot、Cursor、Trae AI等工具对比，实际应用场景和效率数据
•GPU 架构与 CUDA 编程：GPU vs CPU对比、NVIDIA架构演进、CUDA编程模型、性能优化
•云原生与 AI Infra 融合：推理优化技术、量化技术、AIBrix架构、企业级部署实践
•技术前沿与职业发展：行业趋势分析、学习路径规划、职业发展建议

1.5 GPU 管理与虚拟化

理论与架构：

•GPU 虚拟化与切分技术原理解析- 技术原理深入
•GPU 管理相关技术深度解析 - 虚拟化、切分及远程调用- 全面的 GPU 管理技术指南
•第一部分：基础理论篇- GPU 管理基础概念与理论
•第二部分：虚拟化技术篇- 硬件、内核、用户态虚拟化技术
•第三部分：资源管理与优化篇- GPU 切分与资源调度算法
•第四部分：实践应用篇- 部署、运维、性能调优实践

GPU 虚拟化解决方案：

•HAMi GPU 资源管理完整指南

运维工具与实践：

•nvidia-smi 入门
•nvtop 入门
•NVIDIA GPU XID 故障码解析
•NVIDIA GPU 卡之 ECC 功能
•查询 GPU 卡详细参数
•Understanding NVIDIA GPU Performance: Utilization vs. Saturation (2023)
•GPU 利用率是一个误导性指标

1.6 分布式存储系统

JuiceFS 分布式文件系统：

•JuiceFS 文件修改机制分析- 分布式文件系统的修改机制深度解析
•JuiceFS 后端存储变更手册- JuiceFS 后端存储迁移和变更操作指南

1.7 DeepSeek 技术研究

注意：相关内容为 2025 年春节完成，需要审慎参考！

模型对比与评测：

•DeepSeek-R1 模型对比分析- 1.5b、7b、官网版本的性能对比与评测
•Mac 上运行 DeepSeek-R1 模型- 使用 Ollama 在 Mac 上本地部署 DeepSeek-R1

分布式系统设计：

•3FS 分布式文件系统- 高性能分布式文件系统的设计理念与技术实现

•系统架构：集群管理器、元数据服务、存储服务、客户端四大组件
•核心技术：RDMA 网络、CRAQ 链式复制、异步零拷贝 API
•性能优化：FUSE 局限性分析、本地客户端设计、io_uring 启发的 API 设计

1.8 高性能网络与通信

1.8.1 InfiniBand 网络技术

•InfiniBand 网络理论与实践- 企业级高性能计算网络的核心技术栈

•技术特性：亚微秒级延迟、200Gbps+ 带宽、RDMA 零拷贝传输
•应用场景：大规模分布式训练、高频金融交易、科学计算集群
•架构优势：硬件级卸载、CPU 旁路、内存直接访问

•InfiniBand 健康检查工具- 网络健康状态监控和故障诊断
•InfiniBand 带宽监控- 实时带宽监控和性能分析

1.8.2 NCCL 分布式通信

•NCCL 分布式通信测试套件使用指南- NVIDIA 集合通信库的深度技术解析

•核心算法：AllReduce、AllGather、Broadcast、ReduceScatter 优化实现
•性能调优：网络拓扑感知、带宽聚合、计算通信重叠
•生态集成：与 PyTorch、TensorFlow、MPI 的深度集成方案

•NCCL Kubernetes 部署- 容器化 NCCL 集群部署方案

核心特性：

•PXN 模式支持：专为多节点优化的高性能通信解决方案
•三种优化级别：保守、平衡、激进模式，满足不同性能需求
•智能网络检测：自动选择最佳网络配置和通信路径
•容器化部署：支持 Docker 和 Kubernetes 部署
•多节点测试：支持大规模分布式训练场景

测试工具：

•NCCL 性能基准测试- 支持 PXN 模式的性能测试
•容器化测试管理- 容器化测试环境管理
•多节点测试启动器- 原生多节点测试部署

1.9 云原生 AI 基础设施

1.9.1 Kubernetes AI 生态

•Kubernetes AI 基础设施概述- 企业级容器化 AI 工作负载的编排管理平台
•Kueue + HAMi 集成方案- GPU 资源调度与管理的云原生解决方案
•NVIDIA Container Toolkit 原理分析- 容器化 GPU 支持的底层机制
•NVIDIA K8s Device Plugin 分析- GPU 设备插件的架构与实现

核心特性：

•智能调度：GPU 资源共享、NUMA 拓扑感知、多优先级调度策略
•资源管理：GPU Operator、Node Feature Discovery、MIG Manager 统一管理
•可观测性：Prometheus 指标采集、Grafana 可视化、Jaeger 链路追踪

1.9.2 AI 推理服务

•云原生高性能分布式 LLM 推理框架 llm-d 介绍- 基于 Kubernetes 的大模型推理框架
•vLLM + LWS：Kubernetes 上的多机多卡推理方案- LWS 旨在提供一种更符合 AI 原生工作负载特点的分布式控制器语义，填补现有原语在推理部署上的能力空白

技术架构：

•服务治理：Istio 服务网格、Envoy 代理、智能负载均衡
•弹性伸缩：HPA 水平扩展、VPA 垂直扩展、KEDA 事件驱动自动化
•模型运营：多版本管理、A/B 测试、金丝雀发布、流量切换

1.10 性能分析与调优

1.10.1 AI 系统性能分析概述

•AI 系统性能分析- 企业级 AI 系统的全栈性能分析与瓶颈诊断

分析维度：

•多维分析：计算密集度、内存访问模式、网络通信效率、存储 I/O 性能
•专业工具：Nsight Systems 系统级分析、Nsight Compute 内核级优化、Intel VTune 性能调优
•优化方法论：算子融合策略、内存池化管理、计算通信重叠、数据流水线优化

1.10.2 GPU 性能分析

•使用 Nsight Compute Tool 分析 CUDA 矩阵乘法程序
•CUDA 内核性能分析指南- NVIDIA 官方 CUDA 内核性能分析详细指南

性能分析工具：

•NVIDIA Nsight Compute：CUDA 内核级性能分析器
•NVIDIA Nsight Systems：系统级性能分析器
•nvprof：传统 CUDA 性能分析工具

关键指标与优化：

•硬件指标：SM 占用率、内存带宽利用率、L1/L2 缓存命中率、Tensor Core 效率
•内核优化：CUDA Kernel 性能调优、内存访问模式优化、线程块和网格配置
•分析工具：CUDA Profiler 性能剖析、Nsight Graphics 图形分析、GPU-Z 硬件监控

性能优化实践：

•全局内存访问模式优化：提升内存访问效率
•共享内存（Shared Memory）优化：利用片上高速缓存
•指令级并行（ILP）优化：提升计算吞吐量
•内存带宽利用率分析：优化数据传输性能

1.11 GPU 监控与运维工具

1.11.1 GPU 监控工具

•GPU 监控与运维工具概述- 企业级 GPU 集群的全方位监控与运维解决方案
•nvidia-smi 详解- NVIDIA 系统管理接口工具的深度使用指南与最佳实践
•nvtop 使用指南- 实时交互式 GPU 监控工具的高级应用
•DeviceQuery 工具- CUDA 设备查询工具的完整功能解析

核心特性：

•实时监控：GPU 利用率、核心温度、功耗曲线、显存占用、PCIe 带宽
•智能告警：多级阈值告警、机器学习异常检测、故障预测与预警
•数据可视化：Grafana 多维仪表板、历史趋势分析、性能基线报告
•运维自动化：基础设施即代码、配置标准化、智能故障恢复

1.11.2 GPU 性能分析

•GPU 利用率是一个误导性指标- 深入理解 GPU 利用率指标的局限性与替代方案

2. 开发与编程

本部分专注于AI开发相关的编程技术、工具和实践，涵盖从基础编程到高性能计算的完整技术栈。

2.1 AI 编程入门

•AI 编程入门完整教程- 面向初学者的 AI 编程完整学习路径与实践指南
•AI 编程入门在线版本- 交互式在线学习体验与动手实践

学习路径：

•理论基础：机器学习核心概念、深度学习原理、神经网络架构设计
•编程语言生态：Python AI 生态、R 统计分析、Julia 高性能计算在 AI 中的应用
•开发环境搭建：Jupyter Notebook 交互式开发、PyCharm 专业 IDE、VS Code 轻量级配置

2.2 CUDA 编程与开发

•CUDA 核心概念详解- CUDA 核心、线程块、网格等基础概念的深度解析
•CUDA 流详解- CUDA 流的原理、应用场景与性能优化
•GPU 编程基础- GPU 编程入门到进阶的完整技术路径

技术特色：

•CUDA 核心架构：SIMT 线程模型、分层内存模型、流式执行模型
•性能调优实践：内存访问模式优化、线程同步策略、算法并行化重构
•高级编程特性：Unified Memory 统一内存、Multi-GPU 多卡编程、CUDA Streams 异步执行

2.3 Trae 编程实战课程

系统化的 Trae 编程学习体系：

•《Trae 编程实战》课程提纲- 完整的五部分21章课程规划

•基础入门：环境配置、交互模式、HelloWorld项目实战
•场景实战：前端开发、后端API、数据库设计、安全认证
•高级应用：AI集成、实时通信、数据分析、微服务架构
•团队协作：代码质量、版本控制、CI/CD、性能优化
•综合项目：企业级应用开发、部署运维实战

2.4 Java AI 开发

•Java AI 开发指南- Java 生态系统中的 AI 开发技术
•使用 Spring AI 构建高效 LLM 代理- 基于 Spring AI 框架的企业级 AI 应用开发

技术特色：

•企业级框架：基于成熟的 Spring 生态系统
•多提供商支持：统一 API 集成 OpenAI、Azure OpenAI、Hugging Face 等
•生产就绪：提供完整的企业级 AI 应用解决方案
•Java 原生：充分利用 Java 生态系统的优势

2.4 CUDA 学习材料

2.4.1 快速入门

•并行计算、费林分类法和 CUDA 基本概念
•CUDA 编程模型入门
•CUDA 并发编程之 Stream 介绍

2.4.2 参考资料

•CUDA Reading Group 相关讲座:GPU Mode Reading Group
•《CUDA C++ Programming Guide》
•《CUDA C 编程权威指南》：书中示例代码
•Nvidia 官方 CUDA 示例
•《CUDA 编程：基础与实践 by 樊哲勇》

•学习笔记
•示例代码

•《CUDA 编程简介: 基础与实践 by 李瑜》
•《CUDA 编程入门》- 本文改编自北京大学超算队 CUDA 教程讲义
•Multi GPU Programming Models
•CUDA Processing Streams

2.4.3 专业选手

CUDA-Learn-Notes：📚Modern CUDA Learn Notes: 200+ Tensor/CUDA Cores Kernels🎉, HGEMM, FA2 via MMA and CuTe, 98~100% TFLOPS of cuBLAS/FA2.

3. 机器学习基础

本部分基于动手学机器学习项目，提供系统化的机器学习学习路径。

3.1 机器学习学习资源

•动手学机器学习- 全面的机器学习学习资源库，包含理论讲解、代码实现和实战案例

核心特色：

•理论与实践结合：从数学原理到代码实现的完整学习路径
•算法全覆盖：监督学习、无监督学习、集成学习、深度学习等核心算法
•项目驱动学习：通过实际项目掌握机器学习的完整工作流程
•工程化实践：特征工程、模型评估、超参数调优等工程技能

3.2 基础概念与数学准备

•通俗理解机器学习核心概念
•梯度下降算法：从直觉到实践
•混淆矩阵评价指标
•误差 vs. 残差
•线性代数的本质- 3Blue1Brown可视化教程
•MIT 18.06 线性代数- Gilbert Strang经典课程
•概率论与统计学基础- 贝叶斯定理、概率分布、最大似然估计

3.2 监督学习

3.2.1 基础算法

•KNN算法- K近邻算法理论与实现
•线性回归- 最小二乘法、正则化
•逻辑回归- 分类算法基础
•决策树- ID3、C4.5、CART算法
•支持向量机- 核技巧与软间隔
•朴素贝叶斯- 概率分类器

3.2.2 集成学习

•随机森林- Bagging集成方法
•AdaBoost- Boosting算法
•GBDT- 梯度提升决策树
•Stacking- 模型堆叠技术
•集成学习概述- 集成学习理论与方法

3.3 无监督学习

3.3.1 聚类算法

•K-means聚类- 基础聚类算法
•层次聚类- 凝聚与分裂聚类
•DBSCAN- 密度聚类算法

3.3.2 降维算法

•PCA主成分分析- 线性降维方法
•LDA线性判别分析- 监督降维技术
•PCA vs LDA比较- 降维方法对比分析

3.3.3 概率模型

•EM算法- 期望最大化算法
•高斯混合模型- GMM聚类方法
•最大似然估计- MLE理论基础

3.4 特征工程与模型优化

3.4.1 特征工程

•特征工程概述- 数据预处理、特征选择与变换
•特征选择方法- 过滤法、包装法、嵌入法
•GBDT特征提取- 基于树模型的特征工程
•时间序列特征提取- 时间序列数据处理
•词袋模型- 文本特征工程

3.4.2 模型评估

•模型评估方法- 评估指标与交叉验证
•混淆矩阵评价指标- 分类模型性能评估
•GridSearchCV- 超参数优化实践
•L1 L2正则化- 正则化方法介绍
•SMOTE采样- 不平衡数据处理

3.5 推荐系统与概率图模型

3.5.1 推荐系统

•推荐系统入门- 推荐算法概述
•协同过滤算法- 用户协同过滤与物品协同过滤
•基于内容的推荐- 内容推荐算法
•矩阵分解推荐- SVD推荐算法
•关联规则挖掘- Apriori算法

3.5.2 概率图模型

•贝叶斯网络- 概率图模型基础
•隐马尔可夫模型- 序列建模与状态推断
•马尔可夫模型- 马尔可夫链基础

3.6 深度学习基础

•深度学习概述- 深度学习理论与实践指南
•神经网络基础- 感知机、多层感知机、反向传播
•什么是深度学习- 深度学习入门介绍

3.7 实战项目

•泰坦尼克号幸存者预测- 特征工程与分类实战
•朴素贝叶斯实例- 概率计算实例
•RFM用户分析- 用户价值分析
•电影推荐系统- 推荐算法实战

3.8 学习资源

3.8.1 核心教材

•《统计学习方法》- 李航著，算法理论基础
•《机器学习》- 周志华著，西瓜书经典
•《模式识别与机器学习》- Bishop著，数学严谨

3.8.2 在线资源

•机器学习考试复习提纲- 考试重点总结
•梯度下降算法详解- 优化算法理解
•机器学习核心概念- 概念通俗解释
•Andrew Ng机器学习课程- Coursera经典课程
•CS229机器学习- 斯坦福大学课程

3.8.3 实践平台

•Kaggle- 数据科学竞赛平台
•Google Colab- 免费GPU环境
•scikit-learn- Python机器学习库

4. 大语言模型基础

4.1 核心技术与架构

基础理论与概念：

•Andrej Karpathy：Deep Dive into LLMs like ChatGPT（B站视频）- 深度学习领域权威专家的 LLM 技术解析
•大模型基础组件 - Tokenizer- 文本分词与编码的核心技术
•解密大语言模型中的 Tokens- Token 机制的深度解析与实践应用

•Tiktokenizer 在线版- 交互式 Token 分析工具

嵌入技术与表示学习：

•文本嵌入（Text-Embedding）技术快速入门- 文本向量化的理论基础与实践
•LLM 嵌入技术详解：图文指南- 可视化理解嵌入技术
•大模型 Embedding 层与独立 Embedding 模型：区别与联系- 嵌入层架构设计与选型策略

高级架构与优化技术：

•大模型可视化指南- 大模型内部机制的可视化分析
•一文读懂思维链（Chain-of-Thought, CoT）- 推理能力增强的核心技术
•大模型的幻觉及其应对措施- 幻觉问题的成因分析与解决方案
•大模型文件格式完整指南- 模型存储与部署的技术规范
•混合专家系统（MoE）图解指南- 稀疏激活架构的设计原理
•量化技术可视化指南- 模型压缩与加速的核心技术
•基于大型语言模型的意图检测- 自然语言理解的实际应用

4.2 参考书籍

•大模型基础

•Hands-On Large Language Models

•从零构建大模型
•百面大模型
•图解大模型：生成式AI原理与实践

5. 大模型训练

5.1 微调技术与训练策略

指令微调与监督学习：

•Qwen 2 大模型指令微调入门实战- 基于 Qwen 2 的指令微调完整实践流程
•一文入门垂域模型 SFT 微调- 垂直领域模型的监督微调技术与应用实践

大规模模型训练实践：

•Training a 70B model from scratch: open-source tools, evaluation datasets, and learnings- 70B 参数模型从零训练的完整技术路径与经验总结
•Sanitized open-source datasets for natural language and code understanding: how we evaluated our 70B model- 大规模训练数据集的清洗、评估与质量控制方法
•From bare metal to a 70B model: infrastructure set-up and scripts- 大模型训练基础设施的搭建、配置与自动化脚本
•Open-sourcing CARBS: how we used our hyperparameter optimizer to scale up to a 70B-parameter language model- 超参数优化器在大规模模型训练中的应用与调优策略

6. 大模型推理

6.1 推理系统架构设计

•Mooncake 架构详解：以 KV 缓存为中心的高效 LLM 推理系统设计- 新一代推理系统的架构创新与性能优化策略

6.2 模型部署与运维实践

•动手部署 ollama- 轻量级本地大模型部署的完整实践指南

6.3 推理优化技术体系

完整的 AI 推理优化技术文档系列，涵盖从小型到大型集群的推理优化策略：

•AI 推理优化技术文档导航
•背景与目标
•集群规模分类与特征分析
•核心推理优化技术深度解析
•不同集群规模的技术选型策略
•性能评估指标体系
•推理服务架构设计
•实施建议与最佳实践
•参考资料与延伸阅读
•安全性与合规性
•多模态推理优化
•边缘推理优化
•场景问题解答
•实施检查清单
•总结与展望

7. 企业级 AI Agent 开发

7.1 AI Agent 开发概述

•AI Agent 开发与实践- 企业级 AI Agent 开发的完整技术体系与最佳实践

7.2 基础理论与架构框架

•多智能体AI系统基础：理论与框架- 多智能体系统的理论基础、BDI 架构和协作机制
•企业级多智能体AI系统构建实战- 企业级多智能体系统的架构设计、技术选型和工程实现

7.3 上下文工程技术体系

理论基础与核心原理：

•上下文工程原理- 基于中科院权威论文的系统性理论阐述与技术框架

•范式转变：从传统提示工程到现代上下文工程的技术演进
•核心机制：信息检索、智能选择、动态组装、自适应压缩和实时调整
•技术架构：多模态信息融合、分布式状态管理、智能组装引擎
•企业应用：全生命周期上下文管理和系统化自动优化策略

•上下文工程原理简介- 面向开发者的深入浅出技术指南

•概念演进：从简单聊天机器人到复杂智能助手的技术进化路径
•核心特征：系统性方法论、动态优化算法、多模态融合、状态管理、智能组装
•技术对比：与传统提示词工程的本质区别、优势分析和应用场景

•基于上下文工程的 LangChain 智能体应用- LangChain 框架的上下文工程实践指南

•架构设计：行为准则定义、信息接入策略、会话记忆管理、工具集成方案、用户画像构建
•技术实现：LangChain 与 LangGraph 的深度集成与上下文工程最佳实践
•问题解决：上下文污染检测、信息干扰过滤、语义混淆处理、冲突解决策略
•性能优化：令牌消耗控制算法、成本效益分析、延迟优化技术

7.4 AI 智能体记忆系统架构

•AI 智能体记忆系统：理论与实践- 智能体记忆系统的架构设计、存储策略与检索优化技术
•如何设计支持多轮指代消解的对话系统- 多轮对话中的指代消解机制与上下文理解技术
•记忆系统代码实现- 记忆系统的核心算法实现与工程化实践

7.5 工程实践与项目案例

7.5.1 多智能体系统工程实践

•多智能体系统项目- 企业级多智能体系统的完整实现项目，包含 Docker 容器化部署、自动化测试用例和性能监控

7.5.2 多智能体训练

•多智能体训练课程- 系统性的多智能体训练教程，包含理论基础、LangGraph 框架、LangSmith 监控、企业级架构和应用实践
•多智能体AI系统培训材料- 5天40学时的完整培训体系
•多智能体系统概论- BDI架构、协作机制、系统优势
•LangGraph深度应用- 工作流编排引擎深度应用
•LangSmith监控平台集成- 全链路追踪、告警、性能优化
•企业级系统架构设计与实现- 架构设计、技术实现、代码实践
•应用实践与部署运维- 智能客服、部署、最佳实践

培训特色：

•理论实践结合：从抽象理论到具体实现的完整转化路径
•技术栈全覆盖：LangGraph工作流编排 + LangSmith全链路监控
•企业级标准：高可用性架构、安全机制、性能优化、运维最佳实践
•完整项目案例：智能客服系统、内容创作平台、金融分析系统

7.6 应用案例

•Coze 部署和配置手册- Coze 平台的部署配置指南

7.7 RAG 技术

•RAG 技术概述
•从 0 到 1 快速搭建 RAG 应用

•配套代码

•Evaluating Chunking Strategies for Retrieval 总结
•中文 RAG 系统 Embedding 模型选型技术文档

7.8 AI Agent 框架与工具

Python 生态：

•LangChain + 模型上下文协议（MCP）：AI 智能体 Demo
•AI Agents for Beginners 课程之 AI 智能体及使用场景简介
•MCP 深度解析与 AI 工具未来
•LangGraph 实战：用 Python 打造有状态智能体
•使用 n8n 构建多智能体系统的实践指南
•开源大语言模型应用编排平台：dify、AnythingLLM、Ragflow 与 n8n 的功能与商用许可对比分析

Java 生态：

•使用 Spring AI 构建高效 LLM 代理- Spring AI 代理模式实现指南

•代理系统架构：工作流 vs 代理的设计理念对比
•五种基本模式：链式工作流、路由工作流、并行化、编排、评估
•企业级实践：可预测性、一致性、可维护性的平衡
•技术实现：Spring AI 的模型可移植性和结构化输出功能

7.9 模型上下文协议（MCP）

•MCP 深度解析与 AI 工具未来

8. 实践案例

8.1 模型部署与推理

•动手部署 ollama

8.2 文档处理工具

•深入探索：AI 驱动的 PDF 布局检测引擎源代码解析
•上海人工智能实验室开源工具 MinerU 助力复杂 PDF 高效解析提取
•Markitdown 入门
•DeepWiki 使用方法与技术原理深度分析

8.3 特定领域应用

•读者来信：请问 7b 阅读分析不同中医古籍的能力怎么样？可以进行专项训练大幅度提高这方面能力么？
•中国大陆合同审核要点清单
•让用户"说半句"话也能懂：ChatBox 的意图识别与语义理解机制解析

9. 工具与资源生态

9.1 AI 系统学习资源与知识体系

AISystem- 企业级 AI 系统学习的完整知识体系与技术栈，涵盖：

•系统介绍- AI 系统概述、发展历程与技术演进路径
•硬件基础- AI 芯片架构、硬件加速器与计算平台深度解析
•编译器技术- AI 编译器原理、优化技术与工程实践
•推理优化- 模型推理加速技术、性能调优与部署策略
•框架设计- AI 框架架构设计、分布式计算与并行优化

9.2 AI 基础设施专业课程体系

•大模型原理与最新进展- 交互式在线课程平台
•AI Infra 课程演讲稿- 完整的课程演讲内容、技术要点与实践案例
•学习目标：深入理解大模型工作原理、最新技术进展与企业级应用实践
•核心内容：

•Transformer 架构深度解析：编码器-解码器结构、多头注意力机制、文本生成过程
•训练规模与成本分析：GPT-3/4、PaLM 等主流模型的参数量、训练成本和资源需求
•DeepSeek 技术突破：V1/V2/R1 三代模型演进、MLA 架构创新、MoE 稀疏化优化
•能力涌现现象研究：规模效应、临界点突破、多模态融合发展趋势
•AI 编程工具生态：GitHub Copilot、Cursor、Trae AI 等工具对比分析与应用实践
•GPU 架构与 CUDA 编程：硬件基础、并行计算原理、性能优化策略
•云原生 AI 基础设施：现代化 AI 基础设施设计、容器化部署与运维实践

9.3 开源项目生态与技术选型

大模型与推理框架：

•DeepSeek- 基于 Transformer 的高性能中文大模型，具备强大的推理能力与多语言支持
•unsloth- 高效大模型微调框架，支持 Llama 3.3、DeepSeek-R1 等模型 2 倍速度提升与 70% 内存节省
•ktransformers- 灵活的大模型推理优化框架，提供前沿的推理加速技术

文档处理与数据预处理：

•unstructured- 企业级非结构化数据处理库，支持自定义预处理流水线与机器学习数据准备
•MinerU- 高质量 PDF 转换工具，支持 Markdown 和 JSON 格式输出，适用于文档智能化处理
•markitdown- Microsoft 开源的文档转换工具，支持多种办公文档格式到 Markdown 的高质量转换

链载Ai

AI Fundamentals

1. 硬件与基础设施

1.1 硬件基础知识

1.2 GPU 架构深度解析

1.2.1 GPU 架构和编程模型介绍

1.2.2 CUDA 核心技术

1.3 AI 基础设施架构

1.4 AI 基础设施课程

1.5 GPU 管理与虚拟化

1.6 分布式存储系统

1.7 DeepSeek 技术研究

1.8 高性能网络与通信

1.8.1 InfiniBand 网络技术

1.8.2 NCCL 分布式通信

1.9 云原生 AI 基础设施

1.9.1 Kubernetes AI 生态

1.9.2 AI 推理服务

1.10 性能分析与调优

1.10.1 AI 系统性能分析概述

1.10.2 GPU 性能分析

1.11 GPU 监控与运维工具

1.11.1 GPU 监控工具

1.11.2 GPU 性能分析

2. 开发与编程

2.1 AI 编程入门

2.2 CUDA 编程与开发

2.3 Trae 编程实战课程

2.4 Java AI 开发

2.4 CUDA 学习材料

2.4.1 快速入门

2.4.2 参考资料

2.4.3 专业选手

3. 机器学习基础

3.1 机器学习学习资源

3.2 基础概念与数学准备

3.2 监督学习

3.2.1 基础算法

3.2.2 集成学习

3.3 无监督学习

3.3.1 聚类算法

3.3.2 降维算法

3.3.3 概率模型

3.4 特征工程与模型优化

3.4.1 特征工程

3.4.2 模型评估

3.5 推荐系统与概率图模型

3.5.1 推荐系统

3.5.2 概率图模型

3.6 深度学习基础

3.7 实战项目

3.8 学习资源

3.8.1 核心教材

3.8.2 在线资源

3.8.3 实践平台

4. 大语言模型基础

4.1 核心技术与架构

4.2 参考书籍

5. 大模型训练

5.1 微调技术与训练策略

6. 大模型推理

6.1 推理系统架构设计

6.2 模型部署与运维实践

6.3 推理优化技术体系

7. 企业级 AI Agent 开发

7.1 AI Agent 开发概述

7.2 基础理论与架构框架

7.3 上下文工程技术体系

7.4 AI 智能体记忆系统架构

7.5 工程实践与项目案例

7.5.1 多智能体系统工程实践

7.5.2 多智能体训练

7.6 应用案例

7.7 RAG 技术

7.8 AI Agent 框架与工具

7.9 模型上下文协议（MCP）

8. 实践案例

8.1 模型部署与推理

8.2 文档处理工具

8.3 特定领域应用