返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

模型训练 | 完全开源大模型:OLMo

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 09:31 |阅读模式 打印 上一主题 下一主题

艾伦人工智能研究所(AI2)联合多个顶尖学术机构发布了史上首个100%开源的大模型“OLMo”!它的英文全称就叫Open Language Model。

OLMo的独特之处是 完全开源

  • • 完整的训练数据,包括生成训练数据的代码

  • • 完整的训练和评估代码

  • • 中间模型检查点,每个基础模型有500多个检查点,来自训练过程中每1000个步骤

  • • 训练日志

OLMo目前开源的模型主要有三个规模

SizeTraining TokensTraining ConfigLayersHidden SizeAttention Heads
1B2Tconfigs/official/OLMo-1B.yaml16204816
7B3Tconfigs/official/OLMo-7B.yaml32409632
65B*

80819264

其中65B的模型还在训练中,目前开源的最大模型是OLMo 7B

Dolma简介

Dolma主要由两部分组成:

  • • Dolma Dateset:一个包含3万亿tokens的数据集,该数据集包含网页内容、学术出版物、代码、书籍、百科全书等,该数据大小约5.4TB。

  • • Dolma Toolkit:一个用于整理语言建模数据集的高性能工具包

Dolma Dateset

数据集统计结果 v1.6(发布于2024-01-31)

来源类型大小(GB)文档数量(百万)Llama tokens(十亿)
Common Crawl网页9,0223,3702,281
The Stack代码1,043210411
C4网页790364198
Reddit社媒33937789
PeS2o学术26838.870
Project Gutenberg书籍20.40.0566.0
Wikipedia, Wikibooks百科16.26.24.3
总计
11,5194,3673,059

Dolma Toolkit

特点

  • • 高性能:由于内置并行性,可以同时处理数十亿个文档。

  • • 可移植性:适用于单机、集群或云环境。

  • • 快速去重:使用 Rust Bloom 过滤器快速进行文档重复数据删除。

  • • 可扩展:支持自定义标记器和AWS S3兼容位置。

  • • 内置标记器:包括通常用于管理数据集的现成标记器,

安装

pipinstalldolma

OLMo

安装

git clone https://github.com/allenai/OLMo.git
pip install ai2-olmo

推理

from transformers import pipelineolmo_pipe = pipeline("text-generation", model="allenai/OLMo-7B") # 这里可以直接指定自己的目录print(olmo_pipe("Language modeling is"))
## 输出## Language modeling is a process of training a machine learning model to learn from data...

量化

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-7B", torch_dtype=torch.float16, load_in_8bit=True)

训练

torchrun--nproc_per_node=8scripts/train.pyconfigs/official/OLMo-1B.yaml

微调

torchrun--nproc_per_node=8scripts/train.py{path_to_train_config}\--data.paths=[{path_to_data}/input_ids.npy]\--data.label_mask_paths=[{path_to_data}/label_mask.npy]\--load_path={path_to_checkpoint}\--reset_trainer_state

评估

OMLo还提供了一个用于评估开源模型的仓库OLMo-Eval,使用此管道,可以评估 t 个任务集上的 m 个模型,其中每个任务集由一个或多个单独的任务组成。使用task_sets 允许您计算多个任务的聚合指标。可选集成可用于报告。

小结

虽然OLMo在效果上并没有那么惊艳,但是为AI研究提供了大模型宝贵的资源,有助于降低研究和开发的门槛,推动AI技术的创新和发展。

OLMo的发布,标志着AI开源模型进入了一个新的时代。随着越来越多的研究机构和企业加入到开源的行列,相信未来的AI技术将更加开放、透明和创新。




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ