链载Ai

标题: 大模型知识入门 [打印本页]

作者: 链载Ai    时间: 前天 17:06
标题: 大模型知识入门

如果想要了解“当前火热的大模型到底能做什么”可以直接跳转“大模型的能力”章节。

什么是大模型

钢铁侠的贾维斯大家应该都有所耳闻,“大模型”其实就相当于一个简化版的“贾维斯”。或许,现在的他还不够科幻、不够全能,但无疑“贾维斯”的一些功能,“大模型”已经可以实现了。

名词解释

大模型

大模型是指具有大规模参数和复杂计算结构的机器学习模型。以GPT-4为例,参数约1.8万亿个参数,训练的数据集约13万亿个参数,使用了约25000个A100 GPU。

训练

两点确定一条线,三个点确定一个面,类似的,N个数据,可以确定一个很复杂的函数。这个确定函数的过程就是训练,训练出来的函数就是“大模型”。

Token

由于中文词语不定长的特性,大模型的训练是基于“token”进行的。“token”通常指的是文本中的一个词语或者一个标点符号,它是文本分析中的一个基本单位。比如:“今天天气真好。” 在进行分词(tokenization)之后,这句话会被分成以下tokens:[“今天”,“天气”,“真”,“好”,“。”]。

上下文

类似现实中聊天的语境、项目背景,如果缺少这部分信息,我们的理解、沟通就会很容易出现偏差。

微调

大模型是基于大量数据进行训练的通用模型,能处理很多事项,就像是一个师范专业毕业的老师,已经具备各科教学的通用能力。但如果我们希望这位老师能教授小学数学,就需要她针对小学数学专门备课,这个备课过程就是“微调”。

微调不是改变模型的核心智慧,而是调整他应用知识的方式,让他在小学数学这个特定领域表现得更加出色。

Agent(智能体)

如果大模型相当于人体的大脑,会理解、会推理,那agent就像人体的手、脚等器官,可以实际地去执行某些动作,或者协同完成某些复杂的事项。

大模型为何成为新晋网红

大模型其实并不能算是一个完全新颖的东西,这一概念最早可以追溯到1950年“人工智能”的提出,后续经历了“统计机器学习”-“神经网络”-“深度学习”-“大模型”多个阶段的发展,才形成目前我们所认识的“大模型”。在这个发展过程中,其实也已经诞生了很多落地的应用,比如:机器翻译、OCR识别等。

上图引自中国人工智能学会《中国人工智能系列白皮书 ——大模型技术(2023 版)》
这次大模型的爆火,其实是一系列因素共同作用的结果:

行业新动向

技术

应用

生态

政策

资本

大模型的能力

大模型能够做的事情数不胜数,以下是我尝试归纳提炼出来的大模型基础能力,通过单个能力或者多个能力的组合,我们可以解决现实中的很多问题。
多模态指除了文本,还能处理图片、视频等格式。

1. 理解(多模态)

大模型能够理解并处理来自不同模态的信息,包括文本、图像、音频等。
  1. 关注事项捕捉:从文本或对话中捕捉关键信息,如会议要点、新闻关键事件等。
  2. 文章摘要:自动提取文章的核心内容,生成简洁的摘要。
  3. 内容校对:可以检查文本中的语法、拼写和语义错误,提高文本质量。
  4. 数据分析:从大量数据中提取有用信息,进行统计分析或趋势预测。
  5. 图像识别:识别图像中的物体、场景或人脸,并进行分类或标注。

2. 生成(多模态)

大模型能够生成各种形式的内容,从文本到图像,再到视频。
  1. 写总结(日志、周报等):根据输入的信息或数据,自动生成总结性的文本。
  2. 编制文档:生成各种类型的文档,如报告、说明书、论文等。
  3. 编写合同:根据用户的需求和法律条款,自动生成合同文本。
  4. 图片生成:根据文本描述或关键词,生成符合要求的图像。
  5. 视频生成:结合文本、图像和音频,生成完整的视频内容。

3. 微调

大模型可以根据具体任务或领域进行微调,以提高其性能和准确性。
  1. 行业细分服务:针对特定行业的需求,对大模型进行微调,提供定制化的服务。
  2. 企业内部知识:结合企业的内部数据和知识库,对大模型进行微调,以更好地服务于企业内部的业务流程。
  3. 最新信息补充:不断更新和补充最新的信息和数据,使大模型保持与时俱进的能力。

4. 知识面广及创新

这一点其实并不适合作为一个单独的能力,姑且这样划分吧。
大模型的训练数据太大,超出我们个人的知识面太多太多,所以可能为我们提供各方面的咨询指导服务。而巨大的知识面也让大模型可能从既有知识中提取出很多我们所不了解的“创新”知识。
  1. 头脑风暴:通过提供多种可能的解决方案和想法,帮助人们进行头脑风暴。
  2. 创意灵感:激发新的创意和灵感,为创作、设计等领域提供新的思路。
  3. 起名:根据特定的主题、风格或需求,生成独特且富有意义的名字。

“抛砖引玉”

以下是一些简单的真实案例,主要是为了体现大模型能力。
后续我将针对各类复杂场景单独进行分享。
  1. 文章摘要

针对公众号文章形成摘要。

  1. 发布新闻

根据事件编写新闻稿。

  1. 生成图片

根据指定要求,生成相应图片。
大模型的图片及视频生成能力,尤其是国内模型,目前还比较基础。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5