Xinference：一种创新的推理框架

显示全部楼层

功能特点详解

Feature	Xinference	FastChat	OpenLLM	RayLLM
OpenAI-Compatible RESTful API	✅	✅	✅	✅
vLLM Integrations	✅	✅	✅	✅
More Inference Engines (GGML, TensorRT)	✅	❌	✅	✅
More Platforms (CPU, Metal)	✅	✅	❌	❌
Multi-node Cluster Deployment	✅	❌	❌	✅
Image Models (Text-to-Image)	✅	✅	❌	❌
Text Embedding Models	✅	❌	❌	❌
Multimodal Models	✅	❌	❌	❌
Audio Models	✅	❌	❌	❌
More OpenAI Functionalities (Function Calling)	✅	❌	❌	❌

1. ‌全面且高效的模型管理‌

Xinference提供了模型全生命周期管理功能，从模型导入、版本控制到部署上线，一切尽在掌握。此外，它还支持100+最新开源模型，涵盖文本、语音、视频以及embedding/rerank等多个领域，确保用户能够快速适配并使用最前沿的模型。

2. ‌多推理引擎与硬件兼容‌

为了最大化推理性能，Xinference优化了多种主流推理引擎，包括vLLM、SGLang、TensorRT等。同时，它还广泛支持多种硬件平台，无论是国际品牌还是国产GPU（如华为昇腾、海光等），都能实现无缝对接，共同服务于AI推理任务。

3. ‌高性能与分布式架构‌

借助底层算法优化和硬件加速技术，Xinference实现了高性能推理。其原生分布式架构更是如虎添翼，支持水平扩展集群，轻松应对大规模数据处理需求。此外，多种调度策略的应用使得Xinference能够灵活适应低延迟、高上下文、高吞吐等不同场景。

4. ‌丰富的企业级特性‌

除了强大的推理能力外，Xinference还提供了众多企业级特性以满足复杂业务需求。这包括用户权限管理、单点登录、批处理、多租户隔离、模型微调以及全面的可观测性等。这些特性使得Xinference在保障数据安全与合规性的同时，也大大提升了业务运营的效率与灵活性。

开源版本

企业版和开源版本的对比

功能	企业版本	开源版本
用户权限管理	用户权限、单点登录、加密认证	tokens 授权
集群能力	SLA 调度、租户隔离、弹性伸缩	抢占调度
引擎支持	优化过的 vLLM、SGLang、TensorRT	vLLM、SGLang
批处理	支持大量调用的定制批处理	无
微调	支持上传数据集微调	无
国产 GPU 支持	昇腾、海光、天数、寒武纪、沐曦	无
模型管理	可私有部署的模型下载和管理服务	依赖 modelscope 和 huggingface
故障检测和恢复	自动检测节点故障并进行故障复位	无
高可用	所有节点都是冗余部署支持服务高可用	无
监控	监控指标 API 接口，和现有系统集成	页面显示
运维	远程 cli 部署、不停机升级	无
服务	远程技术支持和自动升级服务	社区支持

主流引擎

安装所有

pipinstall"xinference[all]"

Transformers 引擎

pipinstall"xinference[transformers]"

vLLM 引擎

pipinstall"xinference[vllm]"

Llama.cpp 引擎

pip install xinference
pip install xllamacpp--force-reinstall--index-urlhttps://xorbitsai.github.io/xllamacpp/whl/cu124
CMAKE_ARGS="-DLLAMA_CUBLAS=on"pip install llama-cpp-python

SGLang 引擎

pipinstall"xinference[sglang]"

MLX 引擎

pipinstall"xinference[mlx]"

运行方式

本地运行

conda create --name xinference python=3.10
conda activate xinference                                         #启动命令
xinference-local--host0.0.0.0--port9997
#启动模型命令
xinference engine-ehttp://0.0.0.0:9997--model-nameqwen-chat
#其他参考
xinference launch--model-name<MODEL_NAME> \
         [--model-engine <MODEL_ENGINE>] \
         [--model-type <MODEL_TYPE>] \
         [--model-uid <MODEL_UID>] \
         [--endpoint"http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

集群中部署

#启动 Supervisor 用当前节点的 IP 来替换 `${supervisor_host}`。
xinference-supervisor-H"${supervisor_host}"
#启动 Worker
xinference-worker-e"http://${supervisor_host}:9997"-H"${worker_host}"

启动完成可以在 http://${supervisor_host}:9997/ui 访问 web UI，在 http://${supervisor_host}:9997/docs 访问 API 文档。

使用 Docker 部署

#在拥有英伟达显卡的机器上运行
docker run-eXINFERENCE_MODEL_SRC=modelscope-p9998:9997--gpusall xprobe/xinference:<your_version> xinference-local-H0.0.0.0--log-leveldebug
#在只有 CPU 的机器上运行
docker run-eXINFERENCE_MODEL_SRC=modelscope-p9998:9997 xprobe/xinference:<your_version>-cpu xinference-local-H0.0.0.0--log-leveldebug

模型能力全解析

‌核心功能模块‌

‌聊天 & 生成‌

‌大语言模型（LLM）

‌内置模型‌：支持 Qwen、ChatGLM3、Vicuna、WizardLM 等主流开源模型，涵盖中英文及多语言场景‌。
‌长上下文处理‌：优化高吞吐量推理，支持超长文本对话、代码生成及复杂逻辑推理‌。
‌函数调用‌：为 Qwen、ChatGLM3 等模型提供结构化输出能力，支持与外部 API 交互（如天气查询、代码执行），赋能智能体开发‌。

‌多模态处理‌

‌视觉模块‌

‌图像生成‌：集成 Stable Diffusion 等模型，支持文本到图像生成‌。
‌图文理解‌：通过多模态大模型（如 Qwen-VL）实现图像描述、视觉问答等任务‌。

‌音频模块

‌语音识别‌：支持 Whisper 模型，实现语音转文字及多语言翻译‌38。
‌语音生成（实验性质）‌：探索文本到语音（TTS）能力，支持自定义音色生成‌。

‌视频模块（实验性质）

‌视频理解‌：基于多模态嵌入技术解析视频内容，支持片段检索与摘要生成‌。

‌嵌入 & 重排序‌

‌嵌入模型

‌文本/图像向量化‌：支持 BGE、M3E 等模型，生成跨模态统一语义向量‌。
‌应用场景‌：优化搜索、推荐系统的召回精度，支持混合模态检索‌。

‌重排序模型

‌精细化排序‌：通过交叉编码器优化检索结果排序，提升 Top-K 准确率‌。

‌内置模型清单‌

模型类型	代表模型	关键特性
‌大语言模型‌	Qwen-72B、ChatGLM3-6B、Vicuna-7B	支持函数调用、长上下文、多轮对话
‌嵌入模型‌	BGE-Large、M3E-Base	跨模态语义对齐、低延迟推理
‌图像模型‌	Stable Diffusion XL、Qwen-VL	文生图、图像描述、视觉问答
‌音频模型‌	Whisper-Large、Bark（实验）	语音识别、多语言翻译、TTS生成
‌重排序模型‌	bge-reranker-large	动态调整检索结果排序
‌视频模型‌	CLIP-ViT（实验）	视频内容解析、跨模态检索

核心优势‌

‌性能优化‌：通过 vLLM、SGLang 等引擎实现低延迟推理，吞吐量提升 2-3 倍‌。
‌企业级支持‌：支持分布式部署、国产硬件适配及模型全生命周期管理‌。
‌生态兼容‌：无缝对接 LangChain、LlamaIndex 等开发框架，加速 AI 应用构建‌。