从基础开始，先理解 AI 是什么（上篇）

显示全部楼层

你是不是也有这种困惑：

“什么是 LLM，跟多模态一样吗？”

“多模态是指多模多样的模式？”

“AGI 好像听过，但到底和现在的 AI 有什么关系？”

“AI 都能画画写文案了，它到底是怎么做到的？”

如果你对这些词“似懂非懂”，别担心。这不是你的问题，是这个行业太爱用缩写词和技术词了。

今天，我们就从最底层出发，用普通人的语言，把 AI 的“底子”讲清楚。

01

AI 是个“大家族”

我们经常说的“AI”（Artificial Intelligence），其实是一个统称，就像“生物”这个词一样，里面有各种门类和层级。

从概念上看，AI 可以分三层：

名词	含义	示例	是否已经实现
ANI（狭义人工智能）	会做特定任务的 AI	Siri、语音识别、图像生成	✅ 已实现
AGI（通用人工智能）	能像人一样举一反三、自由思考	能自己学习任意知识，像人一样上班	❌ 还没实现
ASI（超级人工智能）	超越人类智慧	《终结者》中的天网	❌ 科幻级别

我们现在日常用的 GPT、Claude、Midjourney、Copilot，都还是 ANI，功能很强，但不是“会自己思考的人类大脑”。

02

什么是 LLM？为什么大家说“AI 靠它崛起”

LLM，全称是 Large Language Model（大语言模型），你可以把它想象成一个“文字的老司机”——它读了大量书、网页、聊天记录，练就一身能看懂、能写、还能接你话茬的本事。

顾名思义，LLM 是通过海量语言数据训练出来的“语言理解+生成模型”，像一个语言世界的图书管理员，既能快速理解你说的，又能编出一段像人类写的文字。

它的本事在于：

能读懂人话（不是死记硬背，而是真能“理解”语义）

能根据指令和训练过的事自己写人话（比如写邮件、总结报告、编剧本）

为什么这几年 AI 进步飞快？核心原因就是越来越多人用 LLM，训练的样本海量增长，也导致LLM 变得越来越强。

比如：

模型名称	发布机构	特点
GPT - 4 / GPT - 4o	OpenAI	GPT-4o 是 GPT-4 的升级版，从单模态升级支持语音、图像等多模态交互
Claude 4	Anthropic	对话自然，逻辑强，擅长长文处理
Gemini	Google	与搜索整合紧密，支持多模态输入
DeepSeek	深度求索	中文能力突出，偏向技术开发应用
Kimi	月之暗面	长文本理解强，用户体验优

03

LLM 和多模态是一回事吗？

很多人把它们搞混，其实不完全一样：

就像你有个特别能聊天的朋友——什么都能说上两句，这是 LLM（大语言模型）；而多模态模型呢，就像你请了一个“能听会说还能看图看视频”的智能助理，能帮你干更多活儿，能力范围更大。

LLM 是专注“文字处理”的模型，核心能力是理解和生成自然语言，属于单模态。

多模态模型（Multimodal Models），可以处理多种输入，比如文字、图像、声音、视频，具备“综合感官”能力。

举个例子：

你上传一张图片，对 AI 说：“这是什么菜？热量高吗？”

多模态模型（如 GPT-4o）可以“看图识别+理解语义+回答问题”。

?注意：多模态模型通常是在 LLM 基础上接入了视觉或音频模块。所以不是“完全不同的 AI”，而是 LLM 的进化版本。

04

GenAI 是什么？它比 LLM 范围更大

我们常听到的“AI 生成内容”技术，其实都属于 Generative AI（生成式人工智能），简称 GenAI。

它不只包含文字生成（LLM），还包括：

图像生成：Midjourney、DALL·E、即梦

语音合成：ElevenLabs、XTTS、讯飞

音乐生成：Suno、Udio、天工

视频生成：Runway、Pika、可灵

所以可以这样理解：

LLM 和多模态模型是 GenAI 的一部分。GenAI 是“能创作内容”的 AI 总称。

提到GenAI，还要提一下我们经常能看到的一个词——AIGC。

AIGC 全称“人工智能生成内容”，英文“Artificial Intelligence Generated Content”。

GenAI的产出结果，也就是生成的内容本身。只要是人没有全程参与创作过程，由 AI 模型通过学习海量数据，理解规律后自主生成新的原创内容，不管是文字、图像、音频、视频、代码等形式，都是AIGC内容。

05

AGI 是不是 AI 的最终形态？

AGI（Artificial General Intelligence）是人工通用智能。

简单说，它不是某项专长，而是 像人一样能迁移学习、独立思考、自由适应各种任务的 AI。

目前的 AI：

只能做它被训练过的事，哪怕很擅长，但并不理解背后的“为什么”。比如 ChatGPT 很会聊天、写作，但你让它下围棋，它就抓瞎；而 AlphaGo 能打败世界冠军，却不会写小说。这就像不同专业的高手，各有擅长，但不能指望一个钢琴家去踢足球。

一旦任务变化太大（如从写诗转向经济预测），就可能“失常”。

而 AGI：

能无提示地理解新任务

自我学习、自我反思、自我优化

可胜任人类的绝大多数智力活动

但现实是：AGI 还没实现，甚至可能还很遥远。

现在的 AI，依然是强大的“工具”，不是“意识体”。它的能力建立在庞大的训练数据、算法结构和算力支撑之上，本质还是概率预测机，不会思考、也不会有“自我”。

06

为什么理解这些很重要？

你现在做的每件事，很可能已经或即将用上 AI。

不懂这些，面对新产品只能看热闹；懂一点，可能就能用 AI 给老板整活儿了。

但如果你不了解：

GenAI 的本质，就容易误用或高估它的能力；

LLM 和多模态的区别，就可能选错模型、选错产品；

AGI 还在远方，你可能被炒作宣传误导，以为“AI 会替代你”。

我们不能“迷信 AI”，也不必“恐慌 AI”，关键是搞懂底层逻辑。

当你理解了它的边界，你才能真正把它用好。

✅ 总结：别再混淆这些关键词！

名词	本质	是否已实现
AI	总称，指所有人工智能	✅
LLM	以文本为核心的语言模型	✅
多模态模型	结合图像、语音等的综合输入模型	✅（部分产品）
GenAI	所有“能创作内容”的 AI 模型总称	✅
AGI	能像人一样自主思考、泛化的“通才 AI”	❌尚未实现