本地部署大语言模型 - 链载Ai

本地部署可以直接下载模型文件和源代码，打开安装包之后直接运行，也可以使用框架部署。

2.ollama下载

根据自己用的操作系统选择对应的ollama安装包，直接选择windows下载即可。

3.安装，准备工作

4.具体操作

5.命令列表

运行模型命令：ollama run qwen2.5:0.5b ，其中qwen2.5:0.5b为要运行的大语言模型，如果本地没有则先拉取该模型。

6.调用接口

importrequestsimportjson

classOllamaChat: def__init__(self, model="qwen:7b", base_url="http://localhost:11434"):    self.model = model    self.base_url = base_url    self.session = requests.Session()    self.session.headers.update({"Content-Type":"application/json"})
 defgenerate(self, prompt, stream=False, system_prompt=None):   """发送请求到Ollama API"""    data = {     "model": self.model,     "prompt": prompt,     "stream": stream,     "options": {"temperature":0.7}    }
   ifsystem_prompt:      data["system"] = system_prompt
   try:      response = self.session.post(       f"{self.base_url}/api/generate",        data=json.dumps(data, ensure_ascii=False).encode('utf-8')      )      response.raise_for_status()     returnresponse.json()   exceptrequests.exceptions.RequestExceptionase:     print(f"请求出错:{e}")     returnNone
 defchat(self):   """交互式聊天"""   print(f"正在使用{self.model}模型（输入'退出'结束对话）")
   # 系统提示（强制中文回复）    system_msg ="你是一个AI助手，必须使用简体中文回答所有问题，回答应当详细专业"
   whileTrue:      user_input =input("\n你: ")     ifuser_input.lower()in['退出','exit','quit']:       break
      result = self.generate(        prompt=user_input,        system_prompt=system_msg      )
     ifresultand'response'inresult:       print(f"\nAI:{result['response']}")     else:       print("获取回复失败，请检查模型服务")

if__name__ =="__main__": # 可替换为其他模型如 "llama3-chinese"、"qwen2.5:0.5b" 等  chat = OllamaChat(model="qwen2.5:0.5b")
 # 测试单次请求  test_response = chat.generate("用中文介绍你自己") iftest_response:   print("\n测试回复:", test_response.get('response','无回复'))
 # 启动交互聊天  chat.chat()

7.最后

可以简单部署小型模型进行AI应用的开发，同时网上也有免费的API可调用，如glm-4-flash等，具体的操作还需自行学习，不懂的多问AI多查资料。