链载Ai

标题: Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站




1. **模型简介**:

- Index-1.9B系列是轻量级的语言模型。

- 包含`Index-1.9B base`、`Index-1.9B pure`、`Index-1.9B chat`和`Index-1.9B character`等模型。

- 模型已在HuggingFace和ModelScope上开源。


2. **预训练**:

- 模型在2.8T的数据上训练,涵盖中英文等多种语言。

- 数据经过清洗,包括避免偏置和去重。

- 使用SentencePiece训练BPE Tokenizer,特别针对中文进行了优化。


3. **模型架构**:

- 与主流的Decoder-Only Transformer模型一致,进行了一些调整,如更深的模型层数(36层)和Norm-Head机制。


4. **训练过程**:

- 使用AdamW优化器,两阶段训练策略(Stable和Decay阶段)。

- 训练基建使用了自研训练框架和华为昇腾910B卡。


5. **评测**:

- 使用OpenCompass框架进行评测,包括综合性选择题、理解和推理、数学和代码评测。


6. **讨论和实验**:

- 探讨了模型结构、学习率、预训练中是否加入指令等因素对模型性能的影响。

- 进行了消融实验,分析了不同组件对模型性能的贡献。


7. **对齐**:

- 通过SFT(Supervised Fine-Tuning)和DPO(Direct Preference Optimization)进一步优化模型,以符合人类偏好。


8. **角色扮演**:

- 利用RAG(Retrieval-Augmented Generation)技术,实现few-shot角色扮演定制。


9. **局限性**:

- 尽管采取了合规性检测,但模型可能存在未预料到的问题,使用时需注意潜在风险。

以上由Kimi总结,0 shot。原文档字有点小,凑合看吧。在公众号后台回复“B站”获取原文档。



//


END.






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5