返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

百模大战中的网络:科大讯飞万卡级智算集群

[复制链接]
链载Ai 显示全部楼层 发表于 昨天 11:48 |阅读模式 打印 上一主题 下一主题

ingFang SC", system-ui, -apple-system, BlinkMacSystemFont, "Helvetica Neue", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;background-color: rgb(255, 255, 255);text-align: left;visibility: visible;">


做 AI 加速芯片难
在中国做 AI 加速芯片更难
破床上台后做 AI 加速芯片难上加难
因此国产方案打底的iflytek 大模型实属不易


科大讯飞在年初时提到

2024 年大模型目标1亿软件用户



智能涌现需要的

大模型参数规模越来越大

科大讯飞已经迈过第一道门槛

一万困难户,十万刚起步,百万才算富

Meta 超越 xAI 计划打造全球最大 GPU 集群



预训练阶段在大规模

未标注数据集上进行自监督学习

因此对于模型的训练效果有着重要的影响

张量平行和数据并行产生流量大对互联要求高


实战结论
模型预训练对延时不敏感


业界目前单轨与多轨都有应用
更重要取决于卡以及对网络的驾驭能力


静态路径绑定
似乎是前期不得已而为之
下一代一体化调度才能提高利用率


从万卡走向更大规模
从芯片到拓扑再到网络协议都需要优化


首先随着带宽的增加
网络接口从400G/800G到1.6T
网络耗电大户光模块实现需要重点关注


其实是网络架构的选择
Dragonfly 等组网模式叫好不叫座
究其原因还是本身的复杂度和管理问题


备查
Meta 依然沿用CLOS 表明
经过长期考验的 DCN 架构值得信赖

Meta 公开基于 RoCE 技术的 24 K GPU 集群!



备查

关于智算系统与通信方法,某司申请重要专利



大模型训练是个系统工程
尤其是在一个特殊的加速卡平台上
因此愈发显得科大讯飞的经验弥足珍贵

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

链载AI是专业的生成式人工智能教程平台。提供Stable Diffusion、Midjourney AI绘画教程,Suno AI音乐生成指南,以及Runway、Pika等AI视频制作与动画生成实战案例。从提示词编写到参数调整,手把手助您从入门到精通。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2025-2025. | 链载Ai
  • 桂ICP备2024021734号 | 营业执照 | |广西笔趣文化传媒有限公司|| QQ