链载Ai

标题: 一篇对大语言模型(LLMs)进行全面、深入分析的43页综述(Word2Vec作者出品) [打印本页]

作者: 链载Ai    时间: 昨天 22:23
标题: 一篇对大语言模型(LLMs)进行全面、深入分析的43页综述(Word2Vec作者出品)
论文题目:Large Language Models: A Survey论文链接:https://arxiv.org/pdf/2402.06196.pdf

这篇综述由Word2Vec的作者Tomas Mikolov等大佬出品,对大语言模型(LLMs)进行一个全面的概述、回顾与分析(每一个模块都很干货,其中第四部分对如何构建一个LLM做了全景图概述,独一份),以下是论文的主要内容概要:

1、介绍了语言建模的历史背景,从统计语言模型到神经网络模型,再到预训练语言模型和LLMs的发展。

流行语言模型类型:Encoder-Only、Decoder-only、Encoder-Decoder 、GPT Family、LLaMA Family 、PaLM Family、Other Popular LLMs

一些流行语言模型的高级概述

2、LLMs的兴起:讨论了通过在大规模文本数据上训练数十亿参数的LLMs,展现出强大的语言理解和生成能力。

大模型的强大能力矩阵

LLM的能力可以分为三个主要类别:

3、LLMs家族:详细回顾了三个主要的LLMs家族:GPT、LLaMA和PaLM,以及它们的模型特性、贡献和局限性。

三个主要的LLM家族

4、构建LLMs:探讨了构建LLMs的关键技术,包括数据准备、模型架构、预训练、微调和指令调优。

一些最具代表性的大型语言模型(LLM)框架的时间线

LLMs全景图、训练和运行过程:

  1. LLM架构(LLM Architectures):这部分展示了LLMs的三种主要架构类型:

  • 数据清洗(Data Cleaning):在训练LLMs之前,需要对数据进行清洗,包括去除噪声、处理异常值和消除重复数据,以提高模型性能。

  • 标记化(Tokenizations):这是将文本分割成更小单元(如单词或子词)的过程,常用的标记化方法包括BytePairEncoding、WordPieceEncoding和SentencePieceEncoding。

  • 位置编码(Positional Encoding):为了在模型中保留序列中单词的顺序信息,位置编码被添加到输入嵌入中。这包括绝对位置嵌入(APE)、相对位置嵌入(RPE)、旋转位置嵌入(RoPE)和相对位置偏置(Relative Positional Bias)。

  • 模型预训练(Model Pre-training):LLMs在大量未标记文本上进行预训练,以获得基本的语言理解能力。这通常涉及自监督学习,如下一个句子预测(NSP)或掩码语言建模(MLM)。

  • 微调和指令调整(Fine-tuning and Instruction Tuning):为了使基础模型适应特定任务,需要进行微调。指令调整是一种特殊类型的微调,它使用人类反馈来指导模型的行为。

  • 对齐(Alignment):为了确保LLMs的行为与人类的目标、偏好和原则一致,需要进行对齐。这包括使用人类反馈(RLHF)和AI反馈(RLAIF)等方法。

  • 解码策略(Decoding Strategies):在生成文本时,LLMs使用不同的解码策略,如贪婪搜索(Greedy Search)、束搜索(Beam Search)、Top-k采样和Top-p采样(Nucleus Sampling)。

  • 成本效益训练/推理/适应/压缩(Cost-Effective Training/Inference/Adaptation & Compression):为了更经济高效地训练和使用LLMs,采用了优化训练、低秩适配(LoRA)、知识蒸馏和量化等技术。

  • 如何构建LLMs全景图


    5、LLMs的应用:描述了如何使用和增强LLMs,包括LLM局限性、Prompt工程、RAG、工具利用和LLM智能体

    LLMs如何使用和增强

    6、数据集和基准:回顾了用于LLMs训练、微调和评估的流行数据集,广泛使用的评估指标,以及大语言模型(LLMs)分类方式。

    用于评估和训练大型语言模型(LLMs)的各种数据集及其应用:基本任务数据集、新兴能力数据集、增强能力数据集

    LLM评价Benchmark与评价指标:HumanEval (PASS@k)、DialogSum(ROUGE )、GSM8K(Accuracy)、GPT4Tools(Success Rate)等

    LLMs评常见分类方式:参数规模(小型、中型、大型、超大型)、类型(基础、指令、聊天模型)、起源(原始、微调)、可用性(开/闭源)

    7、提供了LLMs开发和部署的开源工具和资源列表:

    A. LLM训练/推理框架(LLM Training/Inference Frameworks):

    B. 部署工具(Deployment Tools):

    C. 提示库(Prompting Libraries):

    D. 向量数据库(VectorDB):


    最后还讨论了LLMs面临的开放性挑战,如模型效率、新架构、多模态模型、改进的LLMs使用和增强技术,以及安全和伦理问题。

    整体而言,这篇论文为读者提供了一个关于LLMs的深入视角,包括它们的技术细节、应用案例、性能评估以及未来的研究方向






    欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5