| DeepSeek AI Open Infra Index | https://github.com/deepseek-ai/open-infra-index | DeepSeek AI 开源基础设施索引,包含 FlashMLA, DeepEP, DeepGEMM 等高性能推理优化工具,为 LLM 推理框架提供底层加速能力。 |
| XInference | https://github.com/xorbitsai/inference | 开源 LLM 推理框架,主打灵活性和易用性,支持多种模型和 OpenAI 兼容 API,适用于云端和本地部署。 |
| LiteLLM | https://github.com/BerriAI/litellm | 轻量级 LLM API 统一封装库,提供 OpenAI 兼容 API,支持多种 LLM 提供商和模型,方便多模型集成和快速开发。 |
| LMDeploy | https://github.com/InternLM/lmdeploy | 高性能 LLM 推理和服务框架,专注于 GPU 加速,提供高吞吐量和低延迟,适用于企业级应用和实时系统。 |
| SGLang | https://github.com/sgl-project/sglang | 高性能 LLM 推理 runtime,优化语言生成任务,提供高层次 API 和分布式部署能力,支持多种后端 (vLLM, DeepSeek-Kit 等)。 |
| vLLM | https://github.com/vllm-project/vllm | 高性能 LLM 推理框架,采用 PagedAttention 技术,优化 GPU 内存效率,实现高吞吐量和低延迟,广泛应用于企业级场景。 |
| SkyPilot DeepSeek-R1 示例 | https://github.com/skypilot-org/skypilot/tree/master/llm/deepseek-r1 | SkyPilot 部署 DeepSeek-R1 模型的示例代码和配置,展示如何使用 SkyPilot 在云端快速部署和运行 DeepSeek-R1 模型,实现分布式推理。 |
| Kubernetes + SGLang 部署 DeepSeek-R1 实践 | https://catcat.blog/deepseek-r1-671b-k8ssglang-install.html | 猫猫博客:DeepSeek-r1:671b 满血版在 K8S + SGLang 架构下的多节点 GPU 私有化部署实践教程,详细介绍了如何在 Kubernetes 集群上使用 SGLang 部署和运行超大规模 DeepSeek-R1 模型,并进行性能优化。 |
| TGI (Text Generation Inference) | https://github.com/huggingface/text-generation-inference | Hugging Face 开源的企业级文本生成推理服务框架,专注于优化文本生成任务的性能和效率,支持高吞吐量和低延迟,适用于生产环境。 |
| LocalAI | https://github.com/mudler/LocalAI | 开源本地 LLM 推理框架,专注于在本地设备上运行 LLM,强调数据隐私和安全性,支持 CPU 和 GPU 推理,适用于个人用户和数据敏感场景。 |
| OpenLLM | https://github.com/bentoml/OpenLLM | BentoML 团队开源的灵活 LLM 部署框架,支持多种模型架构和部署方式,具备良好的可扩展性和定制性,适用于需要灵活部署和管理 LLM 的场景。 |
| GPT4ALL | https://github.com/nomic-ai/gpt4all | Nomic AI 开源的跨平台 LLM 运行工具,提供 GUI 界面,操作简单易用,支持多种模型,可以在 CPU 上运行,适用于 LLM 初学者和非技术用户进行本地体验和测试。 |
| KTransformers | https://github.com/kvcache-ai/ktransformers | 轻量级 Transformer 推理库,专注于 CPU 优化和低功耗设计,适用于资源受限的边缘设备和 CPU 环境,提供高效的 Transformer 模型推理能力。 |
| llama.cpp | https://github.com/ggml-org/llama.cpp | C++ 编写的轻量级 LLM 推理库,专注于 CPU 优化,支持多种量化和优化技术,可以在 CPU 上高效运行 Llama 等模型,适用于本地部署和资源受限环境。 |
| Hugging Face Transformers | https://huggingface.co/docs/transformers/index | Hugging Face 提供的最流行的 Transformer 模型库,包含丰富的预训练模型和工具,易于使用,社区支持强大,广泛应用于 NLP 研究和应用开发。 |
| Coze-扣子 | | 字节跳动推出的新一代 AI 应用开发平台,提供零代码 AI 应用开发能力,可以快速创建各种 AI 应用,包括聊天机器人、知识库等。 |
| Dify | | 开源 LLM 应用开发平台,提供可视化界面和低代码开发模式,可以快速构建和部署基于 LLM 的各种应用,例如聊天机器人、知识库、AI 工作流等,降低 LLM 应用开发门槛。 |