链载Ai

标题: 千亿级开源大模型Qwen110B部署实测 [打印本页]

作者: 链载Ai    时间: 2025-12-2 09:51
标题: 千亿级开源大模型Qwen110B部署实测

近日,通义千问团队震撼开源 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B-Chat。

千亿级大模型普通显卡是跑不了推理的,普通人一般也没办法本地运行千亿级大模型。

为了探索千亿级大模型到底需要计算资源,我用云计算资源部署了Qwen1.5-110B-Chat,看看部署它到底需要多少存储资源,并且测试在不量化、8bit量化、4bit量化下的显存消耗。

一、下载模型

#模型下载
frommodelscopeimportsnapshot_download
model_dir=snapshot_download('qwen/Qwen1.5-110B-Chat',cache_dir='path/to/local/dir')

下载后模型目录结构如下:

.
├──config.json
├──configuration.json
├──generation_config.json
├──LICENSE
├──merges.txt
├──model-00001-of-00062.safetensors
├──model-00002-of-00062.safetensors
├──model-00003-of-00062.safetensors
├──model-00004-of-00062.safetensors
├──model-00005-of-00062.safetensors
...
├──model-00062-of-00062.safetensors
├──model.safetensors.index.json
├──out.txt
├──README.md
├──tokenizer_config.json
├──tokenizer.json
└──vocab.json
0directories,73files

模型Qwen1.5-110B-Chat共占用硬盘空间208G

二、显卡消耗

按照计算公式:模型显存占用(GB) = 大模型参数(B)*2

那么Qwen1.5-110B-Chat的显存占用量应该为220GB。

实际在部署过程中,没有考虑任何量化技术,占用显存215GB

因此,如果你想完整部署Qwen1.5-110B-Chat,不考虑任何量化技术,需要3块80GB显存的显卡。

当然你可以玩量化,在 Transformers 中使用 LLM.int8() 只需提前安装pip install bitsandbytes即可,使用 LLM.int8() 方法量化transformer模型具体示例如下:

8bit量化

fromtransformersimportAutoModelForCausalLM
model=AutoModelForCausalLM.from_pretrained(
'qwen/Qwen1___5-110B-Chat',
device_map='auto',
load_in_8bit=True,
max_memory={
i:f'{int(torch.cuda.mem_get_info(i)[0]/1024**3)-2}GB'
foriinrange(torch.cuda.device_count())
}
)

经测试,如果你采用8bit量化部署Qwen1.5-110B,需要113GB显存

4bit量化

fromtransformersimportBitsAndBytesConfig
importtorch
nf4_config=BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_use_double_quant=True,
bnb_4bit_compute_dtype=torch.bfloat16
)

model_nf4=AutoModelForCausalLM.from_pretrained('qwen/Qwen1___5-110B-Chat',quantization_config=nf4_config)

经测试,如果你采用4bit量化部署Qwen1.5-110B,需要62GB显存,预计1块80GB显存显卡即可部署。

三、推理代码

简单问一个弱智吧的问题。

frommodelscopeimportAutoModelForCausalLM,AutoTokenizer
device="cuda"#thedevicetoloadthemodelonto

model=AutoModelForCausalLM.from_pretrained(
"/home/data/qwen/Qwen1___5-110B-Chat",
torch_dtype="auto",
device_map="auto"
)
tokenizer=AutoTokenizer.from_pretrained("/jydata/qwen/Qwen1___5-110B-Chat")

prompt="树上有3只鸟,我用步枪打死一只,还有几只鸟?"
messages=[
{"role":"system","content":"Youareahelpfulassistant."},
{"role":"user","content":prompt}
]
text=tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs=tokenizer([text],return_tensors="pt").to(device)

generated_ids=model.generate(
model_inputs.input_ids,
max_new_tokens=512
)
generated_ids=[
output_ids[len(input_ids):]forinput_ids,output_idsinzip(model_inputs.input_ids,generated_ids)
]

response=tokenizer.batch_decode(generated_ids,skip_special_tokens=True)[0]
print(response)

四、推理截图







欢迎光临 链载Ai (http://www.lianzai.com/) Powered by Discuz! X3.5