魔搭社区于 2022 年 11 月初创建,首次在业界提出了 “模型即服务” (MaaS, Model as a Service) 的理念。在过去一年半的时间里,MaaS 这一理念不仅实现了技术落地,也被行业广泛接纳,并成为继 IaaS、PaaS、SaaS 服务的又一新的技术范式。
2023 年 7 月,Meta 宣布开源 Llama 2 模型,改变了整个大语言模型 (LLM) 行业的竞争格局。通过繁荣的开源生态,大语言模型迎来了群策群力的技术迭代和突破。
国内外优秀的大语言模型,如 ChatGLM、零一万物、书生·浦语系列、通义千问等,都将魔搭社区作为开源模型首发平台。魔搭社区成为了大模型发展的技术风向标,在中国的开发者群体中,形成了广泛的 “找模型,用模型,上魔搭社区” 的观念认同,从而建成了中国最大开源模型社区。
魔搭社区现在上线了 NVIDIA TensorRT-LLM,TensorRT-LLM 提供了易于使用的应用程序编程接口 (API),以定义和运行大语言模型,支持社区上的各类开源大语言模型 (LLM) 的推理加速。开发者仅通过简短几行代码即可将优化的模型部署到 GPU 上。
目前 NVIDIA TensorRT-LLM 在魔搭社区上已支持的模型类型和推理精度,几乎涵盖了所有主流的大语言/多模态模型以及常用的量化方法,包括 FP32、FP16、BF16、INT8 和 INT4,适用于不同的环境。