返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

AI 原力注入:AI Infra 知识体系 v2.0

[复制链接]
链载Ai 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题

经过这半年的学习和整理,笔者也逐步构建了笔者心中的 AI Infrastructure 知识体系(Body of knowledge forAI Infrastructure)的 1.0 版本(2024年10月5日),涵盖基础的硬件知识和 CUDA 编程知识,内容会随着笔者学习的深入而逐步增加新的内容,也希望大家共同讨论学习,使得知识体系更加完善。

2025年8月28日,笔者在 1.1 版本的基础上,发布了 2.0 版本。

相关文章笔者也都整理在了 github 上(包括外部链接),详情可以参看:https://github.com/ForceInjection/AI-fundermentals/blob/main/README.md

AI Fundamentals

本仓库是一个全面的人工智能基础设施(AI Infrastructure)学习资源集合,涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA开发、大语言模型、AI系统设计、性能优化、企业级部署等核心领域,旨在为AI工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。

适用人群AI工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。
技术栈CUDAGPU架构、LLMAI系统、分布式计算、容器化部署、性能优化。

1. 硬件与基础设施

1.1 硬件基础知识

  • PCIe 知识大全- 深入理解 PCIe 总线架构、带宽计算和性能优化
  • NVLink 入门- NVIDIA 高速互连技术的原理与应用场景
  • NVIDIA DGX SuperPOD:下一代可扩展的 AI 领导基础设施- 企业级 AI 超算集群的架构设计与部署实践

1.2 GPU 架构深度解析

在准备在GPU上运行的应用程序时,了解GPU硬件设计的主要特性并了解与CPU的相似之处和不同之处会很有帮助。本路线图适用于那些对GPU比较陌生或只是想了解更多有关GPU中计算机技术的人。不需要特定的并行编程经验,练习基于CUDA工具包中包含的标准NVIDIA示例程序。

  • GPU 特性
  • GPU 内存
  • GPU Example: Tesla V100
  • GPUs on Frontera: RTX 5000
  • 练习
    • Exercise: Device Query
    • Exercise: Device Bandwidth

1.2.1 GPU 架构和编程模型介绍

  • GPU Architecture and Programming — An Introduction-GPU架构与编程模型的全面介绍

1.2.2 CUDA 核心技术

  • 深入理解 NVIDIA CUDA 核心(vs. Tensor Cores vs. RT Cores)

1.3 AI 基础设施架构

  • 高性能 GPU 服务器硬件拓扑与集群组网
  • NVIDIA GH200 芯片、服务器及集群组网
  • 深度学习(大模型)中的精度

1.4 AI 基础设施课程

完整的AI基础设施技术课程体系:

  • 在线课程演示- 交互式课程演示(包含37个页面的完整课程内容)

课程内容概览:

  • 大模型原理与最新进展Transformer架构、训练规模、DeepSeek技术突破、能力涌现现象
  • AI 编程技术GitHub CopilotCursorTrae AI等工具对比,实际应用场景和效率数据
  • GPU 架构与 CUDA 编程GPU vs CPU对比、NVIDIA架构演进、CUDA编程模型、性能优化
  • 云原生与 AI Infra 融合:推理优化技术、量化技术、AIBrix架构、企业级部署实践
  • 技术前沿与职业发展:行业趋势分析、学习路径规划、职业发展建议

1.5 GPU 管理与虚拟化

理论与架构:

  • GPU 虚拟化与切分技术原理解析- 技术原理深入
  • GPU 管理相关技术深度解析 - 虚拟化、切分及远程调用- 全面的 GPU 管理技术指南
  • 第一部分:基础理论篇- GPU 管理基础概念与理论
  • 第二部分:虚拟化技术篇- 硬件、内核、用户态虚拟化技术
  • 第三部分:资源管理与优化篇- GPU 切分与资源调度算法
  • 第四部分:实践应用篇- 部署、运维、性能调优实践

GPU 虚拟化解决方案:

  • HAMi GPU 资源管理完整指南

运维工具与实践:

  • nvidia-smi 入门
  • nvtop 入门
  • NVIDIA GPU XID 故障码解析
  • NVIDIA GPU 卡之 ECC 功能
  • 查询 GPU 卡详细参数
  • Understanding NVIDIA GPU Performance: Utilization vs. Saturation (2023)
  • GPU 利用率是一个误导性指标

1.6 分布式存储系统

JuiceFS 分布式文件系统:

  • JuiceFS 文件修改机制分析- 分布式文件系统的修改机制深度解析
  • JuiceFS 后端存储变更手册- JuiceFS 后端存储迁移和变更操作指南

1.7 DeepSeek 技术研究

注意:相关内容为 2025 年春节完成,需要审慎参考!

模型对比与评测:

  • DeepSeek-R1 模型对比分析- 1.5b、7b、官网版本的性能对比与评测
  • Mac 上运行 DeepSeek-R1 模型- 使用 Ollama 在 Mac 上本地部署 DeepSeek-R1

分布式系统设计:

  • 3FS 分布式文件系统- 高性能分布式文件系统的设计理念与技术实现
    • 系统架构:集群管理器、元数据服务、存储服务、客户端四大组件
    • 核心技术:RDMA 网络、CRAQ 链式复制、异步零拷贝 API
    • 性能优化:FUSE 局限性分析、本地客户端设计、io_uring 启发的 API 设计

1.8 高性能网络与通信

1.8.1 InfiniBand 网络技术

  • InfiniBand 网络理论与实践- 企业级高性能计算网络的核心技术栈
    • 技术特性:亚微秒级延迟、200Gbps+ 带宽、RDMA 零拷贝传输
    • 应用场景:大规模分布式训练、高频金融交易、科学计算集群
    • 架构优势:硬件级卸载、CPU 旁路、内存直接访问
  • InfiniBand 健康检查工具- 网络健康状态监控和故障诊断
  • InfiniBand 带宽监控- 实时带宽监控和性能分析

1.8.2 NCCL 分布式通信

  • NCCL 分布式通信测试套件使用指南- NVIDIA 集合通信库的深度技术解析
    • 核心算法:AllReduce、AllGather、Broadcast、ReduceScatter 优化实现
    • 性能调优:网络拓扑感知、带宽聚合、计算通信重叠
    • 生态集成:与 PyTorch、TensorFlow、MPI 的深度集成方案
  • NCCL Kubernetes 部署- 容器化 NCCL 集群部署方案

核心特性:

  • PXN 模式支持:专为多节点优化的高性能通信解决方案
  • 三种优化级别:保守、平衡、激进模式,满足不同性能需求
  • 智能网络检测:自动选择最佳网络配置和通信路径
  • 容器化部署:支持 Docker 和 Kubernetes 部署
  • 多节点测试:支持大规模分布式训练场景

测试工具:

  • NCCL 性能基准测试- 支持 PXN 模式的性能测试
  • 容器化测试管理- 容器化测试环境管理
  • 多节点测试启动器- 原生多节点测试部署

1.9 云原生 AI 基础设施

1.9.1 Kubernetes AI 生态

  • Kubernetes AI 基础设施概述- 企业级容器化 AI 工作负载的编排管理平台
  • Kueue + HAMi 集成方案- GPU 资源调度与管理的云原生解决方案
  • NVIDIA Container Toolkit 原理分析- 容器化 GPU 支持的底层机制
  • NVIDIA K8s Device Plugin 分析- GPU 设备插件的架构与实现

核心特性:

  • 智能调度:GPU 资源共享、NUMA 拓扑感知、多优先级调度策略
  • 资源管理:GPU Operator、Node Feature Discovery、MIG Manager 统一管理
  • 可观测性:Prometheus 指标采集、Grafana 可视化、Jaeger 链路追踪

1.9.2 AI 推理服务

  • 云原生高性能分布式 LLM 推理框架 llm-d 介绍- 基于 Kubernetes 的大模型推理框架
  • vLLM + LWS:Kubernetes 上的多机多卡推理方案- LWS 旨在提供一种更符合 AI 原生工作负载特点的分布式控制器语义,填补现有原语在推理部署上的能力空白

技术架构:

  • 服务治理:Istio 服务网格、Envoy 代理、智能负载均衡
  • 弹性伸缩:HPA 水平扩展、VPA 垂直扩展、KEDA 事件驱动自动化
  • 模型运营:多版本管理、A/B 测试、金丝雀发布、流量切换

1.10 性能分析与调优

1.10.1 AI 系统性能分析概述

  • AI 系统性能分析- 企业级 AI 系统的全栈性能分析与瓶颈诊断

分析维度:

  • 多维分析:计算密集度、内存访问模式、网络通信效率、存储 I/O 性能
  • 专业工具:Nsight Systems 系统级分析、Nsight Compute 内核级优化、Intel VTune 性能调优
  • 优化方法论:算子融合策略、内存池化管理、计算通信重叠、数据流水线优化

1.10.2 GPU 性能分析

  • 使用 Nsight Compute Tool 分析 CUDA 矩阵乘法程序
  • CUDA 内核性能分析指南- NVIDIA 官方 CUDA 内核性能分析详细指南

性能分析工具:

  • NVIDIA Nsight Compute:CUDA 内核级性能分析器
  • NVIDIA Nsight Systems:系统级性能分析器
  • nvprof:传统 CUDA 性能分析工具

关键指标与优化:

  • 硬件指标:SM 占用率、内存带宽利用率、L1/L2 缓存命中率、Tensor Core 效率
  • 内核优化:CUDA Kernel 性能调优、内存访问模式优化、线程块和网格配置
  • 分析工具:CUDA Profiler 性能剖析、Nsight Graphics 图形分析、GPU-Z 硬件监控

性能优化实践:

  • 全局内存访问模式优化:提升内存访问效率
  • 共享内存(Shared Memory)优化:利用片上高速缓存
  • 指令级并行(ILP)优化:提升计算吞吐量
  • 内存带宽利用率分析:优化数据传输性能

1.11 GPU 监控与运维工具

1.11.1 GPU 监控工具

  • GPU 监控与运维工具概述- 企业级 GPU 集群的全方位监控与运维解决方案
  • nvidia-smi 详解- NVIDIA 系统管理接口工具的深度使用指南与最佳实践
  • nvtop 使用指南- 实时交互式 GPU 监控工具的高级应用
  • DeviceQuery 工具- CUDA 设备查询工具的完整功能解析

核心特性:

  • 实时监控:GPU 利用率、核心温度、功耗曲线、显存占用、PCIe 带宽
  • 智能告警:多级阈值告警、机器学习异常检测、故障预测与预警
  • 数据可视化:Grafana 多维仪表板、历史趋势分析、性能基线报告
  • 运维自动化:基础设施即代码、配置标准化、智能故障恢复

1.11.2 GPU 性能分析

  • GPU 利用率是一个误导性指标- 深入理解 GPU 利用率指标的局限性与替代方案

2. 开发与编程

本部分专注于AI开发相关的编程技术、工具和实践,涵盖从基础编程到高性能计算的完整技术栈。

2.1 AI 编程入门

  • AI 编程入门完整教程- 面向初学者的 AI 编程完整学习路径与实践指南
  • AI 编程入门在线版本- 交互式在线学习体验与动手实践

学习路径:

  • 理论基础:机器学习核心概念、深度学习原理、神经网络架构设计
  • 编程语言生态:Python AI 生态、R 统计分析、Julia 高性能计算在 AI 中的应用
  • 开发环境搭建:Jupyter Notebook 交互式开发、PyCharm 专业 IDE、VS Code 轻量级配置

2.2 CUDA 编程与开发

  • CUDA 核心概念详解- CUDA 核心、线程块、网格等基础概念的深度解析
  • CUDA 流详解- CUDA 流的原理、应用场景与性能优化
  • GPU 编程基础- GPU 编程入门到进阶的完整技术路径

技术特色:

  • CUDA 核心架构:SIMT 线程模型、分层内存模型、流式执行模型
  • 性能调优实践:内存访问模式优化、线程同步策略、算法并行化重构
  • 高级编程特性:Unified Memory 统一内存、Multi-GPU 多卡编程、CUDA Streams 异步执行

2.3 Trae 编程实战课程

系统化的 Trae 编程学习体系:

  • •《Trae 编程实战》课程提纲- 完整的五部分21章课程规划
    • 基础入门:环境配置、交互模式、HelloWorld项目实战
    • 场景实战:前端开发、后端API、数据库设计、安全认证
    • 高级应用:AI集成、实时通信、数据分析、微服务架构
    • 团队协作:代码质量、版本控制、CI/CD、性能优化
    • 综合项目:企业级应用开发、部署运维实战

2.4 Java AI 开发

  • Java AI 开发指南- Java 生态系统中的 AI 开发技术
  • 使用 Spring AI 构建高效 LLM 代理- 基于 Spring AI 框架的企业级 AI 应用开发

技术特色:

  • 企业级框架:基于成熟的 Spring 生态系统
  • 多提供商支持:统一 API 集成 OpenAI、Azure OpenAI、Hugging Face 等
  • 生产就绪:提供完整的企业级 AI 应用解决方案
  • Java 原生:充分利用 Java 生态系统的优势

2.4 CUDA 学习材料

2.4.1 快速入门

  • 并行计算、费林分类法和 CUDA 基本概念
  • CUDA 编程模型入门
  • CUDA 并发编程之 Stream 介绍

2.4.2 参考资料

  • CUDA Reading Group 相关讲座:GPU Mode Reading Group
  • 《CUDA C++ Programming Guide》
  • 《CUDA C 编程权威指南》:书中示例代码
  • Nvidia 官方 CUDA 示例
  • 《CUDA 编程:基础与实践 by 樊哲勇》
    • 学习笔记
    • 示例代码
  • 《CUDA 编程简介: 基础与实践 by 李瑜》
  • 《CUDA 编程入门》- 本文改编自北京大学超算队 CUDA 教程讲义
  • Multi GPU Programming Models
  • CUDA Processing Streams

2.4.3 专业选手

CUDA-Learn-Notes:📚Modern CUDA Learn Notes: 200+ Tensor/CUDA Cores Kernels🎉, HGEMM, FA2 via MMA and CuTe, 98~100% TFLOPS of cuBLAS/FA2.


3. 机器学习基础

本部分基于动手学机器学习项目,提供系统化的机器学习学习路径。

3.1 机器学习学习资源

  • 动手学机器学习- 全面的机器学习学习资源库,包含理论讲解、代码实现和实战案例

核心特色:

  • 理论与实践结合:从数学原理到代码实现的完整学习路径
  • 算法全覆盖:监督学习、无监督学习、集成学习、深度学习等核心算法
  • 项目驱动学习:通过实际项目掌握机器学习的完整工作流程
  • 工程化实践:特征工程、模型评估、超参数调优等工程技能

3.2 基础概念与数学准备

  • 通俗理解机器学习核心概念
  • 梯度下降算法:从直觉到实践
  • 混淆矩阵评价指标
  • 误差 vs. 残差
  • 线性代数的本质- 3Blue1Brown可视化教程
  • MIT 18.06 线性代数- Gilbert Strang经典课程
  • 概率论与统计学基础- 贝叶斯定理、概率分布、最大似然估计

3.2 监督学习

3.2.1 基础算法

  • KNN算法- K近邻算法理论与实现
  • 线性回归- 最小二乘法、正则化
  • 逻辑回归- 分类算法基础
  • 决策树- ID3、C4.5、CART算法
  • 支持向量机- 核技巧与软间隔
  • 朴素贝叶斯- 概率分类器

3.2.2 集成学习

  • 随机森林- Bagging集成方法
  • AdaBoost- Boosting算法
  • GBDT- 梯度提升决策树
  • Stacking- 模型堆叠技术
  • 集成学习概述- 集成学习理论与方法

3.3 无监督学习

3.3.1 聚类算法

  • K-means聚类- 基础聚类算法
  • 层次聚类- 凝聚与分裂聚类
  • DBSCAN- 密度聚类算法

3.3.2 降维算法

  • PCA主成分分析- 线性降维方法
  • LDA线性判别分析- 监督降维技术
  • PCA vs LDA比较- 降维方法对比分析

3.3.3 概率模型

  • EM算法- 期望最大化算法
  • 高斯混合模型- GMM聚类方法
  • 最大似然估计- MLE理论基础

3.4 特征工程与模型优化

3.4.1 特征工程

  • 特征工程概述- 数据预处理、特征选择与变换
  • 特征选择方法- 过滤法、包装法、嵌入法
  • GBDT特征提取- 基于树模型的特征工程
  • 时间序列特征提取- 时间序列数据处理
  • 词袋模型- 文本特征工程

3.4.2 模型评估

  • 模型评估方法- 评估指标与交叉验证
  • 混淆矩阵评价指标- 分类模型性能评估
  • GridSearchCV- 超参数优化实践
  • L1 L2正则化- 正则化方法介绍
  • SMOTE采样- 不平衡数据处理

3.5 推荐系统与概率图模型

3.5.1 推荐系统

  • 推荐系统入门- 推荐算法概述
  • 协同过滤算法- 用户协同过滤与物品协同过滤
  • 基于内容的推荐- 内容推荐算法
  • 矩阵分解推荐- SVD推荐算法
  • 关联规则挖掘- Apriori算法

3.5.2 概率图模型

  • 贝叶斯网络- 概率图模型基础
  • 隐马尔可夫模型- 序列建模与状态推断
  • 马尔可夫模型- 马尔可夫链基础

3.6 深度学习基础

  • 深度学习概述- 深度学习理论与实践指南
  • 神经网络基础- 感知机、多层感知机、反向传播
  • 什么是深度学习- 深度学习入门介绍

3.7 实战项目

  • 泰坦尼克号幸存者预测- 特征工程与分类实战
  • 朴素贝叶斯实例- 概率计算实例
  • RFM用户分析- 用户价值分析
  • 电影推荐系统- 推荐算法实战

3.8 学习资源

3.8.1 核心教材

  • 《统计学习方法》- 李航著,算法理论基础
  • 《机器学习》- 周志华著,西瓜书经典
  • 《模式识别与机器学习》- Bishop著,数学严谨

3.8.2 在线资源

  • 机器学习考试复习提纲- 考试重点总结
  • 梯度下降算法详解- 优化算法理解
  • 机器学习核心概念- 概念通俗解释
  • Andrew Ng机器学习课程- Coursera经典课程
  • CS229机器学习- 斯坦福大学课程

3.8.3 实践平台

  • Kaggle- 数据科学竞赛平台
  • Google Colab- 免费GPU环境
  • scikit-learn- Python机器学习库

4. 大语言模型基础

4.1 核心技术与架构

基础理论与概念:

  • Andrej Karpathy:Deep Dive into LLMs like ChatGPT(B站视频)- 深度学习领域权威专家的 LLM 技术解析
  • 大模型基础组件 - Tokenizer- 文本分词与编码的核心技术
  • 解密大语言模型中的 Tokens- Token 机制的深度解析与实践应用
    • Tiktokenizer 在线版- 交互式 Token 分析工具

嵌入技术与表示学习:

  • 文本嵌入(Text-Embedding) 技术快速入门- 文本向量化的理论基础与实践
  • LLM 嵌入技术详解:图文指南- 可视化理解嵌入技术
  • 大模型 Embedding 层与独立 Embedding 模型:区别与联系- 嵌入层架构设计与选型策略

高级架构与优化技术:

  • 大模型可视化指南- 大模型内部机制的可视化分析
  • 一文读懂思维链(Chain-of-Thought, CoT)- 推理能力增强的核心技术
  • 大模型的幻觉及其应对措施- 幻觉问题的成因分析与解决方案
  • 大模型文件格式完整指南- 模型存储与部署的技术规范
  • 混合专家系统(MoE)图解指南- 稀疏激活架构的设计原理
  • 量化技术可视化指南- 模型压缩与加速的核心技术
  • 基于大型语言模型的意图检测- 自然语言理解的实际应用

4.2 参考书籍

  • 大模型基础
  • Hands-On Large Language Models
  • 从零构建大模型
  • 百面大模型
  • 图解大模型:生成式AI原理与实践

5. 大模型训练

5.1 微调技术与训练策略

指令微调与监督学习:

  • Qwen 2 大模型指令微调入门实战- 基于 Qwen 2 的指令微调完整实践流程
  • 一文入门垂域模型 SFT 微调- 垂直领域模型的监督微调技术与应用实践

大规模模型训练实践:

  • Training a 70B model from scratch: open-source tools, evaluation datasets, and learnings- 70B 参数模型从零训练的完整技术路径与经验总结
  • Sanitized open-source datasets for natural language and code understanding: how we evaluated our 70B model- 大规模训练数据集的清洗、评估与质量控制方法
  • From bare metal to a 70B model: infrastructure set-up and scripts- 大模型训练基础设施的搭建、配置与自动化脚本
  • Open-sourcing CARBS: how we used our hyperparameter optimizer to scale up to a 70B-parameter language model- 超参数优化器在大规模模型训练中的应用与调优策略

6. 大模型推理

6.1 推理系统架构设计

  • Mooncake 架构详解:以 KV 缓存为中心的高效 LLM 推理系统设计- 新一代推理系统的架构创新与性能优化策略

6.2 模型部署与运维实践

  • 动手部署 ollama- 轻量级本地大模型部署的完整实践指南

6.3 推理优化技术体系

完整的 AI 推理优化技术文档系列,涵盖从小型到大型集群的推理优化策略:

  • AI 推理优化技术文档导航
  • 背景与目标
  • 集群规模分类与特征分析
  • 核心推理优化技术深度解析
  • 不同集群规模的技术选型策略
  • 性能评估指标体系
  • 推理服务架构设计
  • 实施建议与最佳实践
  • 参考资料与延伸阅读
  • 安全性与合规性
  • 多模态推理优化
  • 边缘推理优化
  • 场景问题解答
  • 实施检查清单
  • 总结与展望

7. 企业级 AI Agent 开发

7.1 AI Agent 开发概述

  • AI Agent 开发与实践- 企业级 AI Agent 开发的完整技术体系与最佳实践

7.2 基础理论与架构框架

  • 多智能体AI系统基础:理论与框架- 多智能体系统的理论基础、BDI 架构和协作机制
  • 企业级多智能体AI系统构建实战- 企业级多智能体系统的架构设计、技术选型和工程实现

7.3 上下文工程技术体系

理论基础与核心原理:

  • 上下文工程原理- 基于中科院权威论文的系统性理论阐述与技术框架
    • 范式转变:从传统提示工程到现代上下文工程的技术演进
    • 核心机制:信息检索、智能选择、动态组装、自适应压缩和实时调整
    • 技术架构:多模态信息融合、分布式状态管理、智能组装引擎
    • 企业应用:全生命周期上下文管理和系统化自动优化策略
  • 上下文工程原理简介- 面向开发者的深入浅出技术指南
    • 概念演进:从简单聊天机器人到复杂智能助手的技术进化路径
    • 核心特征:系统性方法论、动态优化算法、多模态融合、状态管理、智能组装
    • 技术对比:与传统提示词工程的本质区别、优势分析和应用场景
  • 基于上下文工程的 LangChain 智能体应用- LangChain 框架的上下文工程实践指南
    • 架构设计:行为准则定义、信息接入策略、会话记忆管理、工具集成方案、用户画像构建
    • 技术实现:LangChain 与 LangGraph 的深度集成与上下文工程最佳实践
    • 问题解决:上下文污染检测、信息干扰过滤、语义混淆处理、冲突解决策略
    • 性能优化:令牌消耗控制算法、成本效益分析、延迟优化技术

7.4 AI 智能体记忆系统架构

  • AI 智能体记忆系统:理论与实践- 智能体记忆系统的架构设计、存储策略与检索优化技术
  • 如何设计支持多轮指代消解的对话系统- 多轮对话中的指代消解机制与上下文理解技术
  • 记忆系统代码实现- 记忆系统的核心算法实现与工程化实践

7.5 工程实践与项目案例

7.5.1 多智能体系统工程实践

  • 多智能体系统项目- 企业级多智能体系统的完整实现项目,包含 Docker 容器化部署、自动化测试用例和性能监控

7.5.2 多智能体训练

  • 多智能体训练课程- 系统性的多智能体训练教程,包含理论基础、LangGraph 框架、LangSmith 监控、企业级架构和应用实践
  • 多智能体AI系统培训材料- 5天40学时的完整培训体系
  • 多智能体系统概论- BDI架构、协作机制、系统优势
  • LangGraph深度应用- 工作流编排引擎深度应用
  • LangSmith监控平台集成- 全链路追踪、告警、性能优化
  • 企业级系统架构设计与实现- 架构设计、技术实现、代码实践
  • 应用实践与部署运维- 智能客服、部署、最佳实践

培训特色:

  • 理论实践结合:从抽象理论到具体实现的完整转化路径
  • 技术栈全覆盖:LangGraph工作流编排 + LangSmith全链路监控
  • 企业级标准:高可用性架构、安全机制、性能优化、运维最佳实践
  • 完整项目案例:智能客服系统、内容创作平台、金融分析系统

7.6 应用案例

  • Coze 部署和配置手册- Coze 平台的部署配置指南

7.7 RAG 技术

  • RAG 技术概述
  • 从 0 到 1 快速搭建 RAG 应用
    • 配套代码
  • Evaluating Chunking Strategies for Retrieval 总结
  • 中文 RAG 系统 Embedding 模型选型技术文档

7.8 AI Agent 框架与工具

Python 生态:

  • LangChain + 模型上下文协议(MCP):AI 智能体 Demo
  • AI Agents for Beginners 课程之 AI 智能体及使用场景简介
  • MCP 深度解析与 AI 工具未来
  • LangGraph 实战:用 Python 打造有状态智能体
  • 使用 n8n 构建多智能体系统的实践指南
  • 开源大语言模型应用编排平台:dify、AnythingLLM、Ragflow 与 n8n 的功能与商用许可对比分析

Java 生态:

  • 使用 Spring AI 构建高效 LLM 代理- Spring AI 代理模式实现指南
    • 代理系统架构:工作流 vs 代理的设计理念对比
    • 五种基本模式:链式工作流、路由工作流、并行化、编排、评估
    • 企业级实践:可预测性、一致性、可维护性的平衡
    • 技术实现:Spring AI 的模型可移植性和结构化输出功能

7.9 模型上下文协议(MCP)

  • MCP 深度解析与 AI 工具未来

8. 实践案例

8.1 模型部署与推理

  • 动手部署 ollama

8.2 文档处理工具

  • 深入探索:AI 驱动的 PDF 布局检测引擎源代码解析
  • 上海人工智能实验室开源工具 MinerU 助力复杂 PDF 高效解析提取
  • Markitdown 入门
  • DeepWiki 使用方法与技术原理深度分析

8.3 特定领域应用

  • 读者来信:请问 7b 阅读分析不同中医古籍的能力怎么样?可以进行专项训练大幅度提高这方面能力么?
  • 中国大陆合同审核要点清单
  • 让用户"说半句"话也能懂:ChatBox 的意图识别与语义理解机制解析

9. 工具与资源生态

9.1 AI 系统学习资源与知识体系

AISystem- 企业级 AI 系统学习的完整知识体系与技术栈,涵盖:

  • 系统介绍- AI 系统概述、发展历程与技术演进路径
  • 硬件基础- AI 芯片架构、硬件加速器与计算平台深度解析
  • 编译器技术- AI 编译器原理、优化技术与工程实践
  • 推理优化- 模型推理加速技术、性能调优与部署策略
  • 框架设计- AI 框架架构设计、分布式计算与并行优化

9.2 AI 基础设施专业课程体系

  • 大模型原理与最新进展- 交互式在线课程平台
  • AI Infra 课程演讲稿- 完整的课程演讲内容、技术要点与实践案例
  • 学习目标:深入理解大模型工作原理、最新技术进展与企业级应用实践
  • 核心内容
    • Transformer 架构深度解析:编码器-解码器结构、多头注意力机制、文本生成过程
    • 训练规模与成本分析:GPT-3/4、PaLM 等主流模型的参数量、训练成本和资源需求
    • DeepSeek 技术突破:V1/V2/R1 三代模型演进、MLA 架构创新、MoE 稀疏化优化
    • 能力涌现现象研究:规模效应、临界点突破、多模态融合发展趋势
    • AI 编程工具生态:GitHub Copilot、Cursor、Trae AI 等工具对比分析与应用实践
    • GPU 架构与 CUDA 编程:硬件基础、并行计算原理、性能优化策略
    • 云原生 AI 基础设施:现代化 AI 基础设施设计、容器化部署与运维实践

9.3 开源项目生态与技术选型

大模型与推理框架:

  • DeepSeek- 基于 Transformer 的高性能中文大模型,具备强大的推理能力与多语言支持
  • unsloth- 高效大模型微调框架,支持 Llama 3.3、DeepSeek-R1 等模型 2 倍速度提升与 70% 内存节省
  • ktransformers- 灵活的大模型推理优化框架,提供前沿的推理加速技术

文档处理与数据预处理:

  • unstructured- 企业级非结构化数据处理库,支持自定义预处理流水线与机器学习数据准备
  • MinerU- 高质量 PDF 转换工具,支持 Markdown 和 JSON 格式输出,适用于文档智能化处理
  • markitdown- Microsoft 开源的文档转换工具,支持多种办公文档格式到 Markdown 的高质量转换

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ