链载Ai

标题: AI 智能体简史(万字总结) [打印本页]

作者: 链载Ai    时间: 昨天 22:40
标题: AI 智能体简史(万字总结)


ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;line-height: 2em;box-sizing: border-box !important;overflow-wrap: break-word !important;">智能体是今年非常火的方向,2025年称为“智能体元年”。为了便于大家更系统的入门和学习,最近,我们会为大家分享关于AI智能体的实用内容:Agents》项目正式发布,一起从零学习智能体!" data-itemshowtype="0" linktype="text" data-linktype="2">《Hello-Agents》项目正式发布,一起从零学习智能体!

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;line-height: 2em;box-sizing: border-box !important;overflow-wrap: break-word !important;">第一篇:关于智能体(AI Agent)入门,一篇超详细的总结!

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;line-height: 2em;box-sizing: border-box !important;overflow-wrap: break-word !important;">在学习任何一个新学科或新领域时,不妨先花些时间了解它的发展史。为了深刻理解智能体为何呈现出如今的形态,以及其核心设计思想的由来,本文将回溯历史:从人工智能领域的古典时代出发,探寻最早的“智能”如何在逻辑与符号的规则体系中被定义;继而见证从单一、集中的智能模型到分布式、协作式智能思想的重大转折;最终理解“学习”范式如何彻底改变了智能体获取能力的方式,并催生出我们今天所见的现代智能体。

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;line-height: 2em;box-sizing: border-box !important;overflow-wrap: break-word !important;">图 2.1 AI智能体的演进阶梯

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;line-height: 2em;box-sizing: border-box !important;overflow-wrap: break-word !important;">如图2.1所示,每一个新范式的出现,都是为了解决上一代范式的核心“痛点”或根本局限。而新的解决方案在带来能力飞跃的同时,也引入了新的、在当时难以克服的“局限”,而这又为下一代范式的诞生埋下了伏笔。理解这一“问题驱动”的迭代历程,能帮助我们更深刻地把握现代智能体技术选型背后的深层原因与历史必然性。

ingFang SC", system-ui, -apple-system, "system-ui", "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;orphans: 2;text-align: justify;text-indent: 0em;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;background: none 0% 0% / auto no-repeat scroll padding-box border-box rgb(255, 255, 255);font-size: 18px;color: rgb(34, 34, 34);line-height: 1.8em;letter-spacing: 0em;border-style: none none none solid;border-width: 1px 1px 1px 5px;border-color: rgb(0, 0, 0) rgb(0, 0, 0) rgb(0, 0, 0) rgb(248, 57, 41);border-radius: 0px;align-items: unset;box-shadow: none;font-weight: bold;flex-direction: unset;float: unset;height: auto;justify-content: unset;overflow: unset;text-shadow: none;transform: none;width: auto;-webkit-box-reflect: unset;visibility: visible;">2.1 基于符号与逻辑的早期智能体

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;line-height: 2em;box-sizing: border-box !important;overflow-wrap: break-word !important;">人工智能领域的早期探索,深受数理逻辑和计算机科学基本原理的影响。在那个时代,研究者们普遍持有一种信念:人类的智能,尤其是逻辑推理能力,可以被形式化的符号体系所捕捉和复现。这一核心思想催生了人工智能的第一个重要范式——符号主义(Symbolicism),也被称为“逻辑AI”或“传统AI”。

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;line-height: 2em;box-sizing: border-box !important;overflow-wrap: break-word !important;">在符号主义看来,智能行为的核心是基于一套明确规则对符号进行操作。因此,一个智能体可以被视为一个物理符号系统:它通过内部的符号来表示外部世界,并通过逻辑推理来规划行动。这个时代的智能体,其“智慧”完全来源于设计者预先编码的知识库和推理规则,而非通过自主学习获得。

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;line-height: 2em;box-sizing: border-box !important;overflow-wrap: break-word !important;">2.1.1 物理符号系统假说

ingFang SC", system-ui, -apple-system, system-ui, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;background-color: rgb(255, 255, 255);visibility: visible;line-height: 2em;box-sizing: border-box !important;overflow-wrap: break-word !important;">符号主义时代的理论根据,是1976年由艾伦·纽厄尔(Allen Newell)赫伯特·西蒙(Herbert A. Simon)共同提出的物理符号系统假说(PhysicalSymbol SystemHypothesis, PSSH)[1]。这两位图灵奖得主通过这一假说,为在计算机上实现通用人工智能提供了理论指导和判定标准。

该假说包含两个核心论断:

  1. 充分性论断:任何一个物理符号系统,都具备产生通用智能行为的充分手段。
  2. 必要性论断:任何一个能够展现通用智能行为的系统,其本质必然是一个物理符号系统。

这里的物理符号系统指的是一个能够在物理世界中存在的系统,它由一组可被区分的符号和一系列对这些符号进行操作的过程组成,其构成元素如图2.2所示。这些符号可以组合成更复杂的结构(例如表达式),而过程则可以创建、修改、复制和销毁这些符号结构。

图 2.2 物理符号系统的构成元素

简而言之,PSSH大胆地宣称:智能的本质,就是符号的计算与处理。

这个假说具有深远的影响。它将对人类心智这一模糊、复杂的哲学问题的研究,转化为了一个可以在计算机上进行工程化实现的具体问题。它为早期人工智能研究者注入了强大的信心,即只要我们能找到正确的方式来表示知识并设计出有效的推理算法,就一定能创造出与人类媲美的机器智能。整个符号主义时代的研究,从专家系统到自动规划,几乎都是在这一假说的指引下展开的。

2.1.2 专家系统

在物理符号系统假说的直接影响下,专家系统(Expert System)成为符号主义时代最重要、最成功的应用成果。专家系统的核心目标,是模拟人类专家在特定领域内解决问题的能力。它通过将专家的知识和经验编码成计算机程序,使其能够在面对相似问题时,给出媲美甚至超越人类专家的结论或建议。

一个典型的专家系统通常由知识库、推理机、用户界面等几个核心部分构成,其通用架构如图2.3所示。

图2.3 专家系统的通用架构

这种架构清晰地体现了知识与推理相分离的设计思想,是符号主义AI的重要特征。

知识库与推理机

专家系统的“智能”主要源于其两大核心组件:知识库和推理机。

应用案例与分析:MYCIN系统

MYCIN是历史上最著名、最具影响力的专家系统之一,由斯坦福大学于20世纪70年代开发[2]。它被设计用于辅助医生诊断细菌性血液感染并推荐合适的抗生素治疗方案。

图 2.4 MYCIN反向链推理流程示意图

2.1.3 SHRDLU

如果说专家系统展示了符号AI在专业领域的“深度”,那么由特里·威诺格拉德(Terry Winograd)于1968-1970年开发的SHRDLU项目[3],则在“广度”上实现了革命性的突破。如图2.5所示,SHRDLU旨在构建一个能在“积木世界”这一微观环境中,通过自然语言与人类流畅交互的综合性智能体。“积木世界”是一个模拟的三维虚拟空间,其中包含不同形状、颜色和大小的积木,以及一个可以抓取和移动它们的虚拟机械臂。用户通过自然语言向SHRDLU下达指令或提问,SHRDLU则在虚拟世界中执行动作或给出文字回答。

图 2.5 SHRDLU的“积木世界”交互界面

SHRDLU在当时引起广泛关注,主要原因在于它首次将多个独立的人工智能模块(如语言解析、规划、记忆)集成在一个统一的系统中,并使它们协同工作:

SHRDLU的历史地位与影响主要体现在三个方面:

2.1.4 符号主义面临的根本性挑战

尽管早期项目成就显著,但从20世纪80年代起,符号主义AI在从“微观世界”走向开放、复杂的现实世界时,遇到了其方法论固有的根本性难题。这些难题主要可归结为两大类:

1)常识知识与知识获取瓶颈

符号主义智能体的“智能”完全依赖于其知识库的质量和完备性。然而,如何构建一个能够支撑真实世界交互的知识库,被证明是一项极其艰巨的任务,主要体现在两个方面:

2)框架问题与系统脆弱性

除了知识层面的挑战,符号主义在处理动态变化的世界时也遇到了逻辑上的困境。

2.2 构建基于规则的聊天机器人

在探讨了符号主义的理论挑战后,本节我们将通过一个具体的编程实践,来直观地感受基于规则的系统是如何工作的。我们将尝试复现人工智能历史上一个极具影响力的早期聊天机器人——ELIZA。

2.2.1 ELIZA 的设计思想

ELIZA是由麻省理工学院的计算机科学家约瑟夫·魏泽鲍姆(Joseph Weizenbaum)于1966年发布的一个计算机程序[6],是早期自然语言处理领域的著名尝试之一。ELIZA并非一个单一的程序,而是一个可以执行不同“脚本”的框架。其中,最广为人知也最成功的脚本是“DOCTOR”,它模仿了一位罗杰斯学派的非指导性心理治疗师。

ELIZA的工作方式极其巧妙:它从不正面回答问题或提供信息,而是通过识别用户输入中的关键词,然后应用一套预设的转换规则,将用户的陈述转化为一个开放式的提问。例如,当用户说“我为我的男朋友感到难过”时,ELIZA可能会识别出关键词“我为……感到难过”,并应用规则生成回应:“你为什么会为你的男朋友感到难过?”

魏泽鲍姆的设计思想并非要创造一个真正能够“理解”人类情感的智能体,恰恰相反,他想证明的是,通过一些简单的句式转换技巧,机器可以在完全不理解对话内容的情况下,营造出一种“智能”和“共情”的假象。然而,出乎他意料的是,许多与ELIZA交互过的人(包括他的秘书)都对其产生了情感上的依赖,深信它能够理解自己。

本节的实践目标即为复现ELIZA的核心机制,以深入理解这种规则驱动方法的优势与根本局限。

2.2.2 模式匹配与文本替换

ELIZA的算法流程基于模式匹配(Pattern Matching)与文本替换(TextSubstitution),可被清晰地分解为以下四个步骤:

  1. 关键词识别与排序:规则库为每个关键词(如mother,dreamed,depressed)设定一个优先级。当输入包含多个关键词时,程序会选择优先级最高的关键词所对应的规则进行处理。
  2. 分解规则:找到关键词后,程序使用带通配符(*)的分解规则来捕获句子的其余部分。
    1. 规则示例* my *
    2. 用户输入"My mother is afraid of me"
    3. 捕获结果["", "mother is afraid of me"]
  3. 重组规则:程序从与分解规则关联的一组重组规则中,选择一条来生成回应(通常随机选择以增加多样性),并可选择性地使用上一步捕获的内容。
    1. 规则示例"Tell me more about your family."
    2. 生成输出"Tell me more about your family."
  4. 代词转换:在重组前,程序会进行简单的代词转换(如Iyou,myyour),以维持对话的连贯性。

整个工作流程可以用一个简单的伪代码思路来表示:

FUNCTION generate_response(user_input):
//1.将用户输入拆分成单词
words = SPLIT(user_input)

//2.寻找优先级最高的关键词规则
best_rule = FIND_BEST_RULE(words)
IF best_ruleisNULL:
RETURN a_generic_response() // 例如:"Please go on."

//3.使用规则分解用户输入
decomposed_parts = DECOMPOSE(user_input, best_rule.decomposition_pattern)
IF decomposition_failed:
RETURN a_generic_response()

//4.对分解出的部分进行代词转换
transformed_parts = TRANSFORM_PRONOUNS(decomposed_parts)

//5.使用重组规则生成回应
response = REASSEMBLE(transformed_parts, best_rule.reassembly_patterns)

RETURN response

通过这套机制,ELIZA成功地将复杂的自然语言理解问题,简化为了一个可操作的、基于规则的模式匹配游戏。

2.2.3 核心逻辑的实现

现在,我们将上一节描述的技术原理转化为一个简单的、可运行的Python函数。下面的代码实现了一个迷你版的ELIZA,它包含了一小部分规则,但足以展示其核心工作机制。

importre
importrandom

# 定义规则库:模式(正则表达式) -> 响应模板列表
rules = {
r'I need (.*)': [
"Why do you need {0}?",
"Would it really help you to get {0}?",
"Are you sure you need {0}?"
],
r'Why don\'t you (.*)\?': [
"Do you really think I don't {0}?",
"Perhaps eventually I will {0}.",
"Do you really want me to {0}?"
],
r'Why can\'t I (.*)\?': [
"Do you think you should be able to {0}?",
"If you could {0}, what would you do?",
"I don't know -- why can't you {0}?"
],
r'I am (.*)': [
"Did you come to me because you are {0}?",
"How long have you been {0}?",
"How do you feel about being {0}?"
],
r'.* mother .*': [
"Tell me more about your mother.",
"What was your relationship with your mother like?",
"How do you feel about your mother?"
],
r'.* father .*': [
"Tell me more about your father.",
"How did your father make you feel?",
"What has your father taught you?"
],
r'.*': [
"Please tell me more.",
"Let's change focus a bit... Tell me about your family.",
"Can you elaborate on that?"
]
}

# 定义代词转换规则
pronoun_swap = {
"i":"you","you":"i","me":"you","my":"your",
"am":"are","are":"am","was":"were","i'd":"you would",
"i've":"you have","i'll":"you will","yours":"mine",
"mine":"yours"
}

defswap_pronouns(phrase):
"""
对输入短语中的代词进行第一/第二人称转换
"""
words = phrase.lower().split()
swapped_words = [pronoun_swap.get(word, word)forwordinwords]
return" ".join(swapped_words)

defrespond(user_input):
"""
根据规则库生成响应
"""
forpattern, responsesinrules.items():
match = re.search(pattern, user_input, re.IGNORECASE)
ifmatch:
# 捕获匹配到的部分
captured_group = match.group(1)ifmatch.groups()else''
# 进行代词转换
swapped_group = swap_pronouns(captured_group)
# 从模板中随机选择一个并格式化
response = random.choice(responses).format(swapped_group)
returnresponse
# 如果没有匹配任何特定规则,使用最后的通配符规则
returnrandom.choice(rules[r'.*'])

# 主聊天循环
if__name__ =='__main__':
print("Therapist: Hello! How can I help you today?")
whileTrue:
user_input = input("You: ")
ifuser_input.lower()in["quit","exit","bye"]:
print("Therapist: Goodbye. It was nice talking to you.")
break
response = respond(user_input)
print(f"Therapist:{response}")

>>>
Therapist: Hello! How can I help you today?
You: I am feeling sad today.
Therapist: How long have you been feeling sad today?
You: I need some helpwithmy project.
Therapist: Are you sure you need some helpwithyour project?
You: My motherisnothappywithmy work.
Therapist: Tell me more about your mother.
You: quit
Therapist: Goodbye. It was nice talking to you.

通过上述的编程实践,我们可以直观地总结出规则驱动系统的根本局限性,这些局限正是对2.1.4节中符号主义理论挑战的直接印证:

然而,尽管存在这些显而易见的缺陷,ELIZA在当时却产生了著名的“ELIZA效应”,许多用户相信它能理解自己。这种智能的幻觉主要源于其巧妙的对话策略(如扮演被动的提问者、使用开放式模板)以及人类天生的情感投射心理。

ELIZA的实践清晰地揭示了符号主义方法的核心矛盾:系统看似智能的表现,完全依赖于设计者预先编码的规则。然而,面对真实世界语言的无限可能性,这种穷举式的方法注定不可扩展。系统没有真正的理解,只是在执行符号操作,这正是其脆弱性的根源。

2.3 马文·明斯基的心智社会

符号主义的探索和ELIZA的实践,共同指向了一个问题:通过预设规则构建的、单一的、集中的推理引擎,似乎难以通向真正的智能。无论规则库多么庞大,系统在面对真实世界的模糊性、复杂性和无穷变化时,总是显得僵化而脆弱。这一困境促使一些顶尖的思考者开始反思人工智能最底层的设计哲学。其中,马文·明斯基(Marvin Minsky)没有继续尝试为单一推理核心添加更多规则,而是在他的《心智社会》(The Society of Mind)[7]一书中提出了一个革命性的问题:"What magical trick makes us intelligent? The trick is that there is no trick. The power of intelligence stems from our vast diversity, not from any single, perfect principle."

2.3.1 对单一整体智能模型的反思

20世纪70至80年代,符号主义的局限性日益明显。专家系统虽然在高度垂直的领域取得了成功,但它们无法拥有儿童般的常识;SHRDLU虽然能在一个封闭的积木世界中表现出色,但它无法理解这个世界之外的任何事情;ELIZA虽然能模仿对话,但它对对话内容本身一无所知。这些系统都遵循着一种自上而下(Top-down)的设计思路:一个全知全能的中央处理器,根据一套统一的逻辑规则来处理信息和做出决策。

面对这种普遍的失败,明斯基开始提出一系列根本性的问题:

这些问题直指单一整体智能模型的核心弊端。该类模型试图用一种统一的表示和推理机制来解决所有问题,但这与我们观察到的自然智能(尤其是人类智能)的运作方式相去甚远。明斯基认为,强行将多样化的心智活动塞进一个僵化的逻辑框架中,正是导致早期人工智能研究停滞不前的根源。

正是基于这样的反思,明斯基提出了一个颠覆性的构想,他不再将心智视为一个金字塔式的层级结构,而是将其看作一个扁平化的、充满了互动与协作的“社会”。

2.3.2 作为协作体的智能

在明斯基的理论框架中,智能体的定义与我们第一章讨论的现代智能体有所不同。这里的智能体指的是一个极其简单的、专门化的心智过程,它自身是“无心”的。例如,一个负责识别线条的LINE-FINDER智能体,或一个负责抓握的GRASP智能体。

这些简单的智能体被组织起来,形成功能更强大的机构(Agency)。一个机构是一组协同工作的智能体,旨在完成一个更复杂的任务。例如,一个负责搭积木的BUILD机构,可能由SEEFINDGETPUT等多个下层智能体或机构组成。它们之间通过去中心化的激活与抑制信号相互影响,形成动态的控制流。

涌现(Emergence)是理解心智社会理论的关键。复杂的、有目的性的智能行为,并非由某个高级智能体预先规划,而是从大量简单的底层智能体之间的局部交互中自发产生的。

图 2.6 “心智社会”中搭建积木塔行为的涌现机制示意图

让我们以经典的“搭建积木塔”任务为例,来说明这一过程,如图2.6所示。当一个高层目标(如“我要搭一个塔”)出现时,它会激活一个名为BUILD-TOWER的高层机构。

  1. BUILD-TOWER机构并不知道如何执行具体的物理动作,它的唯一作用是激活它的下属机构,比如BUILDER
  2. BUILDER机构同样很简单,它可能只包含一个循环逻辑:只要塔还没搭完,就激活ADD-BLOCK机构。
  3. ADD-BLOCK机构则负责协调更具体的子任务,它会依次激活FIND-BLOCKGET-BLOCKPUT-ON-TOP这三个子机构。
  4. 每一个子机构又由更底层的智能体构成。例如,GET-BLOCK机构会激活视觉系统中的SEE-SHAPE智能体、运动系统中的REACHGRASP智能体。

在这个过程中,没有任何一个智能体或机构拥有整个任务的全局规划。GRASP只负责抓握,它不知道什么是塔;BUILDER只负责循环,它不知道如何控制手臂。然而,当这个由无数“无心”的智能体组成的社会,通过简单的激活和抑制规则相互作用时,一个看似高度智能的行为,搭建积木塔,就自然而然地涌现了出来。

2.3.3 对多智能体系统的理论启发

心智社会理论最深远的影响,在于它为分布式人工智能(Distributed Artificial Intelligence, DAI)以及后来的多智能体系统(Multi-Agent System, MAS)提供了重要的概念基础。它引出研究者们的思考:

如果一个心智内部的智能,是通过大量简单智能体的协作而涌现的,那么,在多个独立的、物理上分离的计算实体(计算机、机器人)之间,是否也能通过协作涌现出更强大的“群体智能”?

这个问题的提出,直接将研究焦点从“如何构建一个全能的单一智能体”转向了“如何设计一个高效协作的智能体群体”。具体而言,心智社会在以下几个方面直接启发了多智能体系统的研究:

可以说,明斯基的“心智社会”理论,为AI研究者理解“群体智能”的内在构造提供了重要的分析框架。它为后来的研究者们提供了一套全新的视角,去探索由独立的、自治的、具备社会能力的计算智能体所构成的复杂系统,从而正式开启了多智能体系统研究的序幕。

2.4 学习范式的演进与现代智能体

前文探讨的“心智社会”理论,在哲学层面为群体智能和去中心化协作指明了方向,但实现路径尚不明确。与此同时,符号主义在应对真实世界复杂性时暴露的根本性挑战也表明仅靠预先编码的规则无法构建真正鲁棒的智能。

这两条线索共同指向了一个问题:如果智能无法被完全设计,那么它是否可以被学习出来?

这一设问开启了人工智能的“学习”时代。其核心目标不再是手动编码知识,而是构建能从经验和数据中自动获取知识与能力的系统。本节将追溯这一范式的演进历程:从联结主义奠定的学习基础,到强化学习实现的交互式学习,直至今日由大型语言模型驱动的现代智能体。

2.4.1 从符号到联结

作为对符号主义局限性的直接回应,联结主义(Connectionism)在20世纪80年代重新兴起。与符号主义自上而下、依赖明确逻辑规则的设计哲学不同,联结主义是一种自下而上的方法,其灵感来源于对生物大脑神经网络结构的模仿[8]。它的核心思想可以概括为以下几点:

  1. 知识的分布式表示:知识并非以明确的符号或规则形式存储在某个知识库中,而是以连接权重的形式,分布式地存储在大量简单的处理单元(即人工神经元)的连接之间。整个网络的连接模式本身就构成了知识。
  2. 简单的处理单元:每个神经元只执行非常简单的计算,如接收来自其他神经元的加权输入,通过一个激活函数进行处理,然后将结果输出给下一个神经元。
  3. 通过学习调整权重:系统的智能并非来自于设计者预先编写的复杂程序,而是来自于“学习”过程。系统通过接触大量样本,根据某种学习算法(如反向传播算法)自动、迭代地调整神经元之间的连接权重,从而使得整个网络的输出逐渐接近期望的目标。

在这种范式下,智能体不再是一个被动执行规则的逻辑推理机,而是一个能够通过经验自我优化的适应性系统。如图2.7所示,这代表了构建智能体核心思想的根本性转变。符号主义试图将人类的知识显式地编码给机器,而联结主义则试图创造出能够像人类一样学习知识的机器。

图 2.7 符号主义与联结主义范式对比

联结主义的兴起,特别是深度学习在21世纪的成功,为智能体赋予了强大的感知和模式识别能力,使其能够直接从原始数据(如图像、声音、文本)中理解世界,这是符号主义时代难以想象的。然而,如何让智能体学会在与环境的动态交互中做出最优的序贯决策,则需要另一种学习范式的补充。

2.4.2 基于强化学习的智能体

联结主义主要解决了感知问题(例如,“这张图片里有什么?”),但智能体更核心的任务是进行决策(例如,“在这种情况下,我应该做什么?”)。强化学习(Reinforcement Learning, RL)正是专注于解决序贯决策问题的学习范式。它并非直接从标注好的静态数据集中学习,而是通过智能体与环境的直接交互,在“试错”中学习如何最大化其长期收益。

以AlphaGo为例,其核心的自我对弈学习过程便是强化学习的经典体现[9]。在这个过程中,AlphaGo(智能体)通过观察棋盘的当前布局(环境状态),决定下一步棋的落子位置(行动)。一局棋结束后,根据胜负结果,它会收到一个明确的信号:赢了就是正向奖励,输了则是负向奖励。通过数百万次这样的自我对弈,AlphaGo不断调整其内部策略,逐渐学会了在何种棋局下选择何种行动,最有可能导向最终的胜利。这个过程完全是自主的,不依赖于人类棋谱的直接指导。

这种通过与环境互动、根据反馈信号来优化自身行为的学习机制,就是强化学习的核心框架。下面我们将详细拆解其基本构成要素和工作模式。

强化学习的框架可以用几个核心要素来描述:

基于上述核心要素,强化学习智能体在一个“感知-行动-学习”的闭环中持续迭代,其工作模式如图2.8所示。

图 2.8 强化学习的核心交互循环

这个循环的具体步骤如下:

  1. 在时间步t,智能体观察到环境的当前状态。
  2. 基于状态,智能体根据其内部的策略(Policy, π)选择一个行动并执行它。策略本质上是一个从状态到行动的映射,定义了智能体的行为方式。
  3. 环境接收到行动后,会转移到一个新的状态。
  4. 同时,环境会反馈给智能体一个即时奖励。
  5. 智能体利用这个反馈(新状态和奖励)来更新和优化其内部策略,以便在未来做出更好的决策。这个更新过程就是学习。

智能体的学习目标,并非最大化某一个时间步的即时奖励,而是最大化从当前时刻开始到未来的累积奖励(Cumulative Reward),也称为回报(Return)。这意味着智能体需要具备“远见”,有时为了获得未来更大的奖励,需要牺牲当前的即时奖励(例如,围棋中的“弃子”策略)。通过在上述循环中不断探索、收集反馈并优化策略,智能体最终能够学会在复杂动态环境中进行自主决策和长期规划。

2.4.3 基于大规模数据的预训练

强化学习赋予了智能体从交互中学习决策策略的能力,但这通常需要海量的、针对特定任务的交互数据,导致智能体在学习之初缺乏先验知识,需要从零开始构建对任务的理解。无论是符号主义试图手动编码的常识,还是人类在决策时所依赖的背景知识,在RL智能体中都是缺失的。如何让智能体在开始学习具体任务前,就先具备对世界的广泛理解?这一问题的解决方案,最终在自然语言处理(Natural Language Processing, NLP)领域中浮现,其核心便是基于大规模数据的预训练(Pre-training)

从特定任务到通用模型

在预训练范式出现之前,传统的自然语言处理模型通常是为单一特定任务(如情感分析、机器翻译)在专门标注的中小规模数据集上从零开始独立训练的。这种模式导致了几个问题:模型的知识面狭窄,难以将在一个任务中学到的知识泛化到另一个任务,并且每一个新任务都需要耗费大量的人力去标注数据。预训练与微调(Pre-training, Fine-tuning)范式的提出彻底改变了这一现状。其核心思想分为两步:

  1. 预训练阶段:首先在一个包含互联网级别海量文本数据的通用语料库上,通过自监督学习(Self-supervised Learning)的方式训练一个超大规模的神经网络模型。这个阶段的目标不是完成任何特定任务,而是学习语言本身内在的规律、语法结构、事实知识以及上下文逻辑。最常见的目标是“预测下一个词”。
  2. 微调阶段:完成预训练后,这个模型就已经学习到了和数据集有关的丰富知识。之后,针对特定的下游任务,只需使用少量该任务的标注数据对模型进行微调,即可让模型适应对应任务。

如图2.9所示,直观地展示了这一预训练与微调的完整流程:通用文本数据经过自监督学习形成基础模型,随后通过特定任务数据进行微调,最终适应各项下游任务。

图 2.9 “预训练-微调”范式示意图

大型语言模型的诞生与涌现能力

通过在数万亿级别的文本上进行预训练,大型语言模型的神经网络权重实际上已经构建了一个关于世界知识的、高度压缩的隐式模型。它以一种全新的方式,解决了符号主义时代最棘手的“知识获取瓶颈”问题。更令人惊讶的是,当模型的规模(参数量、数据量、计算量)跨越某个阈值后,它们开始展现出未被直接训练的、预料之外的涌现能力(Emergent Abilities),例如:

这些能力的出现,标志着LLM不再仅仅是一个语言模型,它已经演变成了一个兼具海量知识库和通用推理引擎双重角色的组件。

至此,智能体发展的历史长河中,几大关键的技术拼图已经悉数登场:符号主义提供了逻辑推理的框架,联结主义和强化学习提供了学习与决策的能力,而大型语言模型则提供了前所未有的、通过预训练获得的世界知识和通用推理能力。下一节,我们将看到这些技术是如何在现代智能体的设计中融为一体的。

2.4.4 基于大语言模型的智能体

随着大型语言模型技术的飞速发展,以LLM为核心的智能体已成为人工智能领域的新范式。它不仅能够理解和生成人类语言,更重要的是,能够通过与环境的交互,自主地感知、规划、决策和执行任务。

图片描述

图 2.10 LLM驱动的智能体核心组件架构

如第一章所述,智能体与环境的交互可以被抽象为一个核心循环。LLM驱动的智能体通过一个由多个模块协同工作的、持续迭代的闭环流程来完成任务。该流程遵循图2.10所示的架构,具体步骤如下:

  1. 感知 (Perception):流程始于感知模块 (Perception Module)。它通过传感器从外部环境(Environment)接收原始输入,形成观察 (Observation)。这些观察信息(如用户指令、API返回的数据或环境状态的变化)是智能体决策的起点,处理后将被传递给思考阶段。
  2. 思考 (Thought):这是智能体的认知核心,对应图中的规划模块 (Planning Module)大型语言模型 (LLM)的协同工作。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5