功能特点详解| Feature | Xinference | FastChat | OpenLLM | RayLLM |
|---|
| OpenAI-Compatible RESTful API | ✅ | ✅ | ✅ | ✅ | | vLLM Integrations | ✅ | ✅ | ✅ | ✅ | | More Inference Engines (GGML, TensorRT) | ✅ | ❌ | ✅ | ✅ | | More Platforms (CPU, Metal) | ✅ | ✅ | ❌ | ❌ | | Multi-node Cluster Deployment | ✅ | ❌ | ❌ | ✅ | | Image Models (Text-to-Image) | ✅ | ✅ | ❌ | ❌ | | Text Embedding Models | ✅ | ❌ | ❌ | ❌ | | Multimodal Models | ✅ | ❌ | ❌ | ❌ | | Audio Models | ✅ | ❌ | ❌ | ❌ | | More OpenAI Functionalities (Function Calling) | ✅ | ❌ | ❌ | ❌ |
1. 全面且高效的模型管理Xinference提供了模型全生命周期管理功能,从模型导入、版本控制到部署上线,一切尽在掌握。此外,它还支持100+最新开源模型,涵盖文本、语音、视频以及embedding/rerank等多个领域,确保用户能够快速适配并使用最前沿的模型。 2. 多推理引擎与硬件兼容为了最大化推理性能,Xinference优化了多种主流推理引擎,包括vLLM、SGLang、TensorRT等。同时,它还广泛支持多种硬件平台,无论是国际品牌还是国产GPU(如华为昇腾、海光等),都能实现无缝对接,共同服务于AI推理任务。 3. 高性能与分布式架构借助底层算法优化和硬件加速技术,Xinference实现了高性能推理。其原生分布式架构更是如虎添翼,支持水平扩展集群,轻松应对大规模数据处理需求。此外,多种调度策略的应用使得Xinference能够灵活适应低延迟、高上下文、高吞吐等不同场景。 4. 丰富的企业级特性除了强大的推理能力外,Xinference还提供了众多企业级特性以满足复杂业务需求。这包括用户权限管理、单点登录、批处理、多租户隔离、模型微调以及全面的可观测性等。这些特性使得Xinference在保障数据安全与合规性的同时,也大大提升了业务运营的效率与灵活性。 开源版本企业版和开源版本的对比| 功能 | 企业版本 | 开源版本 |
|---|
| 用户权限管理 | 用户权限、单点登录、加密认证 | tokens 授权 | | 集群能力 | SLA 调度、租户隔离、弹性伸缩 | 抢占调度 | | 引擎支持 | 优化过的 vLLM、SGLang、TensorRT | vLLM、SGLang | | 批处理 | 支持大量调用的定制批处理 | 无 | | 微调 | 支持上传数据集微调 | 无 | | 国产 GPU 支持 | 昇腾、海光、天数、寒武纪、沐曦 | 无 | | 模型管理 | 可私有部署的模型下载和管理服务 | 依赖 modelscope 和 huggingface | | 故障检测和恢复 | 自动检测节点故障并进行故障复位 | 无 | | 高可用 | 所有节点都是冗余部署支持服务高可用 | 无 | | 监控 | 监控指标 API 接口,和现有系统集成 | 页面显示 | | 运维 | 远程 cli 部署、不停机升级 | 无 | | 服务 | 远程技术支持和自动升级服务 | 社区支持 |
主流引擎安装所有 pipinstall"xinference[all]" Transformers 引擎 pipinstall"xinference[transformers]"
vLLM 引擎 pipinstall"xinference[vllm]" Llama.cpp 引擎 pip install xinference pip install xllamacpp--force-reinstall--index-urlhttps://xorbitsai.github.io/xllamacpp/whl/cu124 CMAKE_ARGS="-DLLAMA_CUBLAS=on"pip install llama-cpp-python SGLang 引擎 pipinstall"xinference[sglang]" MLX 引擎 pipinstall"xinference[mlx]" 运行方式本地运行conda create --name xinference python=3.10 conda activate xinference #启动命令 xinference-local--host0.0.0.0--port9997 #启动模型命令 xinference engine-ehttp://0.0.0.0:9997--model-nameqwen-chat #其他参考 xinference launch--model-name<MODEL_NAME> \ [--model-engine <MODEL_ENGINE>] \ [--model-type <MODEL_TYPE>] \ [--model-uid <MODEL_UID>] \ [--endpoint"http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \ 集群中部署#启动 Supervisor 用当前节点的 IP 来替换 `${supervisor_host}`。 xinference-supervisor-H"${supervisor_host}" #启动 Worker xinference-worker-e"http://${supervisor_host}:9997"-H"${worker_host}"
启动完成可以在 http://${supervisor_host}:9997/ui 访问 web UI,在 http://${supervisor_host}:9997/docs 访问 API 文档。 使用 Docker 部署#在拥有英伟达显卡的机器上运行 docker run-eXINFERENCE_MODEL_SRC=modelscope-p9998:9997--gpusall xprobe/xinference:<your_version> xinference-local-H0.0.0.0--log-leveldebug #在只有 CPU 的机器上运行 docker run-eXINFERENCE_MODEL_SRC=modelscope-p9998:9997 xprobe/xinference:<your_version>-cpu xinference-local-H0.0.0.0--log-leveldebug
模型能力全解析核心功能模块聊天 & 生成
大语言模型(LLM) 内置模型:支持 Qwen、ChatGLM3、Vicuna、WizardLM 等主流开源模型,涵盖中英文及多语言场景。 长上下文处理:优化高吞吐量推理,支持超长文本对话、代码生成及复杂逻辑推理。 函数调用:为 Qwen、ChatGLM3 等模型提供结构化输出能力,支持与外部 API 交互(如天气查询、代码执行),赋能智能体开发。
多模态处理
嵌入 & 重排序
内置模型清单| 模型类型 | 代表模型 | 关键特性 |
|---|
| 大语言模型 | Qwen-72B、ChatGLM3-6B、Vicuna-7B | 支持函数调用、长上下文、多轮对话 | | 嵌入模型 | BGE-Large、M3E-Base | 跨模态语义对齐、低延迟推理 | | 图像模型 | Stable Diffusion XL、Qwen-VL | 文生图、图像描述、视觉问答 | | 音频模型 | Whisper-Large、Bark(实验) | 语音识别、多语言翻译、TTS生成 | | 重排序模型 | bge-reranker-large | 动态调整检索结果排序 | | 视频模型 | CLIP-ViT(实验) | 视频内容解析、跨模态检索 |
核心优势性能优化:通过 vLLM、SGLang 等引擎实现低延迟推理,吞吐量提升 2-3 倍。 企业级支持:支持分布式部署、国产硬件适配及模型全生命周期管理。 生态兼容:无缝对接 LangChain、LlamaIndex 等开发框架,加速 AI 应用构建。
|