返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站

[复制链接]
链载Ai 显示全部楼层 发表于 半小时前 |阅读模式 打印 上一主题 下一主题




1. **模型简介**:

- Index-1.9B系列是轻量级的语言模型。

- 包含`Index-1.9B base`、`Index-1.9B pure`、`Index-1.9B chat`和`Index-1.9B character`等模型。

- 模型已在HuggingFace和ModelScope上开源。


2. **预训练**:

- 模型在2.8T的数据上训练,涵盖中英文等多种语言。

- 数据经过清洗,包括避免偏置和去重。

- 使用SentencePiece训练BPE Tokenizer,特别针对中文进行了优化。


3. **模型架构**:

- 与主流的Decoder-Only Transformer模型一致,进行了一些调整,如更深的模型层数(36层)和Norm-Head机制。


4. **训练过程**:

- 使用AdamW优化器,两阶段训练策略(Stable和Decay阶段)。

- 训练基建使用了自研训练框架和华为昇腾910B卡。


5. **评测**:

- 使用OpenCompass框架进行评测,包括综合性选择题、理解和推理、数学和代码评测。


6. **讨论和实验**:

- 探讨了模型结构、学习率、预训练中是否加入指令等因素对模型性能的影响。

- 进行了消融实验,分析了不同组件对模型性能的贡献。


7. **对齐**:

- 通过SFT(Supervised Fine-Tuning)和DPO(Direct Preference Optimization)进一步优化模型,以符合人类偏好。


8. **角色扮演**:

- 利用RAG(Retrieval-Augmented Generation)技术,实现few-shot角色扮演定制。


9. **局限性**:

- 尽管采取了合规性检测,但模型可能存在未预料到的问题,使用时需注意潜在风险。

以上由Kimi总结,0 shot。原文档字有点小,凑合看吧。在公众号后台回复“B站”获取原文档。



//


END.

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ