返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

从基础开始,先理解 AI 是什么(上篇)

[复制链接]
链载Ai 显示全部楼层 发表于 半小时前 |阅读模式 打印 上一主题 下一主题

你是不是也有这种困惑:

“什么是 LLM,跟多模态一样吗?”

“多模态是指多模多样的模式?”

“AGI 好像听过,但到底和现在的 AI 有什么关系?”

“AI 都能画画写文案了,它到底是怎么做到的?”

如果你对这些词“似懂非懂”,别担心。这不是你的问题,是这个行业太爱用缩写词和技术词了。

今天,我们就从最底层出发,用普通人的语言,把 AI 的“底子”讲清楚。


01
AI 是个“大家族”

我们经常说的“AI”(Artificial Intelligence),其实是一个统称,就像“生物”这个词一样,里面有各种门类和层级。


从概念上看,AI 可以分三层:

名词含义示例是否已经实现
ANI(狭义人工智能)会做特定任务的 AISiri、语音识别、图像生成✅ 已实现
AGI(通用人工智能)
能像人一样举一反三、自由思考
能自己学习任意知识,像人一样上班
❌ 还没实现
ASI(超级人工智能)
超越人类智慧
《终结者》中的天网
❌ 科幻级别


我们现在日常用的 GPT、Claude、Midjourney、Copilot,都还是 ANI,功能很强,但不是“会自己思考的人类大脑”。




02
什么是 LLM?为什么大家说“AI 靠它崛起”


LLM,全称是 Large Language Model(大语言模型),你可以把它想象成一个“文字的老司机”——它读了大量书、网页、聊天记录,练就一身能看懂、能写、还能接你话茬的本事。

顾名思义,LLM 是通过海量语言数据训练出来的“语言理解+生成模型”,像一个语言世界的图书管理员,既能快速理解你说的,又能编出一段像人类写的文字。

它的本事在于:

能读懂人话(不是死记硬背,而是真能“理解”语义)

能根据指令和训练过的事自己写人话(比如写邮件、总结报告、编剧本)

为什么这几年 AI 进步飞快?核心原因就是越来越多人用 LLM,训练的样本海量增长,也导致LLM 变得越来越强

比如:

模型名称发布机构特点
GPT - 4 / GPT - 4oOpenAIGPT-4o 是 GPT-4 的升级版,从单模态升级支持语音、图像等多模态交互
Claude 4
Anthropic
对话自然,逻辑强,擅长长文处理
Gemini
Google
与搜索整合紧密,支持多模态输入
DeepSeek深度求索中文能力突出,偏向技术开发应用
Kimi月之暗面长文本理解强,用户体验优




03
LLM 和多模态是一回事吗?


很多人把它们搞混,其实不完全一样:

就像你有个特别能聊天的朋友——什么都能说上两句,这是 LLM(大语言模型);而多模态模型呢,就像你请了一个“能听会说还能看图看视频”的智能助理,能帮你干更多活儿,能力范围更大。

LLM 是专注“文字处理”的模型,核心能力是理解和生成自然语言,属于单模态

多模态模型(Multimodal Models),可以处理多种输入,比如文字、图像、声音、视频,具备“综合感官”能力。

举个例子:

你上传一张图片,对 AI 说:“这是什么菜?热量高吗?”

多模态模型(如 GPT-4o)可以“看图识别+理解语义+回答问题”。

?注意:多模态模型通常是在 LLM 基础上接入了视觉或音频模块。所以不是“完全不同的 AI”,而是 LLM 的进化版本。




04

GenAI 是什么?它比 LLM 范围更大


我们常听到的“AI 生成内容”技术,其实都属于 Generative AI(生成式人工智能),简称 GenAI。

它不只包含文字生成(LLM),还包括:

图像生成:Midjourney、DALL·E、即梦

语音合成:ElevenLabs、XTTS、讯飞

音乐生成:Suno、Udio、天工

视频生成:Runway、Pika、可灵


所以可以这样理解:


LLM 和多模态模型是 GenAI 的一部分。GenAI 是“能创作内容”的 AI 总称。


提到GenAI,还要提一下我们经常能看到的一个词——AIGC。

AIGC 全称“人工智能生成内容”,英文“Artificial Intelligence Generated Content”。

GenAI的产出结果,也就是生成的内容本身。只要是人没有全程参与创作过程,由 AI 模型通过学习海量数据,理解规律后自主生成新的原创内容,不管是文字、图像、音频、视频、代码等形式,都是AIGC内容。




05
AGI 是不是 AI 的最终形态?


AGI(Artificial General Intelligence)是人工通用智能。

简单说,它不是某项专长,而是 像人一样能迁移学习、独立思考、自由适应各种任务的 AI。

目前的 AI:

只能做它被训练过的事,哪怕很擅长,但并不理解背后的“为什么”。比如 ChatGPT 很会聊天、写作,但你让它下围棋,它就抓瞎;而 AlphaGo 能打败世界冠军,却不会写小说。这就像不同专业的高手,各有擅长,但不能指望一个钢琴家去踢足球。


一旦任务变化太大(如从写诗转向经济预测),就可能“失常”。

而 AGI:

能无提示地理解新任务

自我学习、自我反思、自我优化

可胜任人类的绝大多数智力活动

但现实是:AGI 还没实现,甚至可能还很遥远。

现在的 AI,依然是强大的“工具”,不是“意识体”。它的能力建立在庞大的训练数据、算法结构和算力支撑之上,本质还是概率预测机,不会思考、也不会有“自我”。




06

为什么理解这些很重要?


你现在做的每件事,很可能已经或即将用上 AI。

不懂这些,面对新产品只能看热闹;懂一点,可能就能用 AI 给老板整活儿了。

但如果你不了解:

GenAI 的本质,就容易误用或高估它的能力;

LLM 和多模态的区别,就可能选错模型、选错产品;

AGI 还在远方,你可能被炒作宣传误导,以为“AI 会替代你”。

我们不能“迷信 AI”,也不必“恐慌 AI”,关键是搞懂底层逻辑。

当你理解了它的边界,你才能真正把它用好。




总结:别再混淆这些关键词!

名词本质是否已实现
AI总称,指所有人工智能
LLM
以文本为核心的语言模型
多模态模型
结合图像、语音等的综合输入模型
✅(部分产品)
GenAI所有“能创作内容”的 AI 模型总称
AGI能像人一样自主思考、泛化的“通才 AI” ❌尚未实现

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ