链载Ai

标题: Qwen2 介绍 [打印本页]

作者: 链载Ai    时间: 昨天 10:28
标题: Qwen2 介绍

2024年6月7日 阿里发布了最新的Qwen2系列模型:

已在Hugging Face和ModelScope上同步开源

Introduction

Model Information

It is based on the Transformer architecture with SwiGLU activation, attention QKV bias, group query attention, etc.Additionally, we have an improved tokenizer adaptive to multiple natural languages and codes.

  1. 矩阵分解(Factorized)技术将嵌入矩阵分解成两个更小的矩阵,从而减少参数量和计算开销。
  1. 产品量化(Product Quantization, PQ)是一种用于减少嵌入维度的技术,将嵌入向量分割成若干子空间,每个子空间进行独立量化。
  1. 稀疏嵌入(Sparse Embeddings),利用稀疏性技术,可以只更新和存储模型中使用到的嵌入,从而节省内存
  1. 共享嵌入(Tied Embeddings),通过在不同层之间共享相同的嵌入矩阵来减少参数量。在 Transformer 模型中,通常将输入嵌入层和输出嵌入层共享参数。






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5