大模型开发理论与技术——大模型应用体系梳理，对大模型应用整体认识

显示全部楼层

“大模型技术开发是一个复杂的领域，我们需要对其形成基础的认知体系，才能知道我们在做什么以及怎么做。”

随着对大模型技术应用的理解加深，以及和身边朋友和同事的交流，最近发现一个问题，很多人对大模型技术和应用并没有一个整体的认识；而且由于大模型属于一个新兴领域，也因此产生了很多新的概念和名词，所以这也间接导致了很多人认为大模型很难很复杂。

所以，今天作者就从个人理解的角度对整个大模型体系进行梳理；虽然并不一定完全正确，也可能并不完善，但对在学习大模型的朋友来说也算是一个参考。

大模型应用和体系梳理

要想了解和学习大模型的技术和应用，我们首先需要明确两个概念，大模型技术和大模型应用技术。

大模型技术

大模型的基本概念是一个基于深度学习神经网络实现的一个数学模型，其本质是通过数学的方式来模拟人类大脑的学习和思考方式，所以被称为人工智能。

所以，大模型技术的核心是数学，而编程只是通过计算机技术来实现这个数学模型；因此大模型技术的核心是以数学为基础，以强化大模型的“智能性”为目标；所以与大模型相关的技术都是怎么提升大模型的“智慧”；不论是机器学习，还是深度学习，神经网络(架构)，还是反馈学习，强化学习，MoE(混合专家模型)，训练，微调；亦或者其它我们听过或没听过的高大上的技术。

而且由于大模型本身能力的问题，因此在不同的应用场景下需要开发适合不同场景的模型；比如说根据任务分类有生成式模型，推理式模型，判别式模型，分类模型，数据分析模型等等为了解决一系列任务而产生的模型。

而作者把这方面的技术，统称为大模型的能力开发，简单来说就是怎么把模型做得更好，更强。

大模型技术经过这两年的快速发展，其功能越来越强大，应用场景也越来越多，虽然过程中依然存在很多问题，但这是新技术发展过程中必须要面对的问题。而且很多问题在纯粹的技术理论和研究中是无法发现的，而在具体的应用场景中就会出现各种各样的问题。

这就是应用倒逼技术的发展，因此技术和应用是相辅相成的，技术离了应用没有用武之地，应用离了技术也成了空中楼阁。

大模型应用技术

那什么是大模型应用技术呢？

大模型技术解决的是怎么把大模型做的更好的问题，而大模型应用技术解决的是怎么把大模型用好的问题。

而关于大模型应用技术有哪些？

其实大模型应用技术说起来好像有很多，但事实上无法就以下几种：

大模型特性应用

大模型生成-AIGC

大模型增强-RAG

大模型扩展-Agent

大模型特性应用

大模型特性应用相对比较简单，比如说分类模型；包括计算机视觉的图像分类和基于语言的情感分类等，比如说好评和差评等。

大模型生成

大模型生成其实也比较简单，就是根据用户的要求和案例，来生成符合用户目标的内容，比如说文字生成，图像生成，视频生成等等。

而从技术上来说，大模型内容生成核心主要由两个，一个是大模型本身的能力，这个就是上面大模型技术需要解决的问题；第二个就是提示词，用来激发大模型的潜力，让大模型生成更好更符合用户目标的高质量内容。

比如说小参数模型一般情况下没有大参数模型的生成效果好。

大模型增强

RAG检索增强是为了解决大模型的天生缺陷，因为大模型的知识和能力并不是实时更新的，每次都需要进行重新训练或微调；而且大模型还存在一定的幻觉，因此需要通过外部知识增强的方式，让大模型能够处理实时性数据和减少幻觉问题。

大模型扩展-Agent

之所以叫大模型扩展的原因就是因为大模型虽然有推理和思考以及生成的能力，但大模型有一个很大的缺陷就是无法使用外部工具；但在具体的应用场景中，很多事情是需要借助外部工具来实现的，比如说你饿了点外卖需要借助外卖平台。

大模型同样如此，虽然现在随着大模型能力的增强，它具备了基本的思考和规划能力；但它依然无法使用外部工具，所以通过Agent也就是智能体技术来给大模型安装手和脚，让它能够使用外部工具来更好更高效的解决问题。

比如说让大模型帮你制定一个旅行路线，那么它就可以通过自主规划，去设计路线，然后通过第三方平台订票，订房，订车等等。

开发工具

前面说了大模型技术和大模型应用技术的基本理论，而这些技术又有哪些具体的开发框架和工具呢？

大模型技术开发目前市面上有很多开发框架，因为大模型行业标准还没有完全定性，各家模型公司都想抢着占领制高点制定行业规则；但目前来看还处于百家争鸣的时代。

而目前从技术开发上来说，大模型技术开发主要有Meta开发的pytorch开发框架和谷歌的Tensorflow框架；当然还包括其它一些开发框架，感兴趣的可以自己去了解。

而从技术理论上来说，有影响最大的Transformer架构和比较经典的RNN，CNN，Gan生成对抗网络等；包括国内DeepSeek提出的MoE专家模型等。

当然，现在更加主流的开发方式是把多种模型架构相结合，在不同的地方使用不同的架构。

而大家在学习的时候应该选择其中一种框架和架构进行学习，当你学会其中一种架构之后，其它的就能一法通万法通了。

大模型应用技术的开发工具

关于大模型应用技术的开发就更加复杂了，不同的协议和技术不断被提出；比如说openAI公司提出的Function call，现在比较火的MCP协议，以及谷歌提出的A2A协议等Agent开发协议。

而关于RAG检索增强也经过多个版本的迭代:

基础阶段（Naive RAG）
高级阶段（Advanced RAG）
模块化阶段（Modular RAG)
智能体RAG (Agentic RAG)

总之，大模型技术和大模型应用技术的发展还处于一个快速迭代和验证的过程；而想从事大模型领域的人，应该尽快选择其中的一个细分领域作为切入点；然后根据自己能力和兴趣选择合适的方向。