ingFang SC', 'Microsoft YaHei', 'Source Han Sans SC', 'Noto Sans CJK SC', 'WenQuanYi Micro Hei', sans-serif;font-size: medium;letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);">在 V3 项目中,而且这个脚本如果要在NVIDIA设备运行,需要设备支持 FP8 ,在很多公司还是主流的 A 卡是跑不通的。但是如果你都有了支持 FP8 的 NVIDIA 设备还转什么模型,直接用这样的模型部署 FP8 模型不就完了?一种情况是可能你只有低端的支持 FP8 的硬件,做不了大规模推理,这个时候无从选择还是得用它来转模型,用其他更强的硬件来部署。事实上NPU的路线可能更顺利,不存在这样的碰壁和重试。我们两条路都跑通了,要注意的不管用 GPU 还是 NPU 方案,除权重文件外的其他文件还是需要手工复制的。
镜像
ingFang SC', 'Microsoft YaHei', 'Source Han Sans SC', 'Noto Sans CJK SC', 'WenQuanYi Micro Hei', sans-serif;font-size: medium;letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);">文档中给的镜像从名字看像是 arm 平台的,x86 用户一不留神就要掉坑,好在我及时确认,切换到手工安装软件/构建镜像的路线上来,越过了这个大坑。昇腾相关的特定 POC 软件需联系华为方面获取,一共 6 个,软件安装步骤一起要过来,不要遗漏。
权限问题
ingFang SC', 'Microsoft YaHei', 'Source Han Sans SC', 'Noto Sans CJK SC', 'WenQuanYi Micro Hei', sans-serif;font-size: medium;letter-spacing: normal;text-align: start;background-color: rgb(255, 255, 255);">这部分关于 owner 和 group 的指引应该只适用于官方镜像中的默认用户,在我们的容器环境下要改成 root:root。
rank_table_file
要非常注意格式,不要手工编辑,最好用程序来生成。一个没明说的点是简单类型字段都应该是 str 类型,不要想当然的改成其他类型,比如这个字段server_count,不要给整数类型的值。关于卡编号和 IP 信息如果是只能接触容器环境此时无疑要求助 SRE 获取卡 IP 之类的硬件信息。server_id该填主机 IP 还是容器 IP 非常不明确,好在最好证明二者都可以,也有可能这个字段压根不重要。