周枫：大模型的“产模一体”

显示全部楼层

今年大模型进入落地年，大家自然对于应用和商业化的关注程度大幅上升，近来看到一个观点值得关注：是否对于一家大模型公司来说，产品和模型同时做，同时优化，是最佳的应用和落地模式？

MiniMax的闫俊杰说“产模一体化”，

闫俊杰：... 比如我们看美国的公司，OpenAI 是都做，Anthropic 之前只做模型、昨天他们把 Instagram 的 CTO 也招过去了，我不知道是不是它们也有可能做产品。我觉得至少对做模型的公司来说，自己做产品几乎是必然的选择。我们算是比较坚决的，有些公司后面变成这样了，这是必然的。

反过来，其实对做产品的公司也是一样的。比如说我们国内的开放平台上，有很多做产品的公司和客户，其实规模还挺大的，大概有接近一千家。这里面有大的公司，也有小的创业公司。其实坦白说，对所有这些公司来说，如果它们的产品得很大，他们也希望自己掌控模型的。这也是必然的一个路。

出门问问的李志飞讲“产模结合”：

之所以「产模结合」这么重要，是因为产品对于模型来说，有一个非常重要的「定向」或「灯塔」作用，为模型的研发指引方向。产品的需求可以倒逼模型能力的优化方向，也更容易检验模型能力的实际表现。有了产品，就有了大模型的聚焦，而不是漫无边际地拓展大模型的能力边界。

软件2.0

我对“产模一体”这个方向是赞同的，科技企业做的事情，本质上是数字化生意，就是用机器的能力来驱动商业流程，而这个的主要手段是通过软件的研发。以前的软件都靠程序员编写，而大模型和神经网络的出现，带来了Andrej Karpathy所说的“软件2.0” 。他认为软件1.0能做出的产品非常局限，而软件2.0则能大大拓展可开发的产品空间：

Karpathy说：

“相反，我们的方法是在理想程序的行为上指定一些目标（例如，"满足一个输入输出对实例的数据集"，或者 "赢得一盘围棋"），编写一个粗略的代码骨架（即一个神经网络架构），确定一个程序空间的子集进行搜索，并使用我们所掌握的计算资源在这个空间中搜索一个有效的程序。在神经网络的情况下，我们将搜索限制在程序空间的一个连续子集上，在这个子集上，搜索过程可以通过反向传播和随机梯度下降而变得高效（有点令人惊讶）。”

换句话说，模型即程序，而这个程序通过训练由机器自动产生，而不是由程序员手工编写。训练模型的过程，就是一个新的生成软件的过程。更重要的，这个过程能解决的问题，比传统的“PM+Dev+Test”的软件1.0要更多，更广泛，可以识别图像，可以进行翻译，可以进行企业知识推理，可以自动匹配广告。同时，和所有的软件研发过程一样，从需求出发，不断迭代提升能力，更好满足用户需求，也是软件2.0成功的关键，区别在于这一迭代是基于机器训练，而不再是人工编码。

既然模型本身就是程序，模型的能力因为Scaling Law快速提升，那么必然的一个结果，就是大模型原生的产品中，模型不能是一个简单的标准化组件和工具，而是产品的关键环节，甚至就是产品的主体和本身。因此，传统软件研发的过程也自然被颠覆，要从以手工编码为中心，转向以模型为中心。那么，这意味着：

对于模型公司，如果产品的主体、提供90%能力的模型都已经做了，这时候不做终端产品的话，就既带来方向感的缺乏，也带来不必要的商业化的迂回。因此模型公司纷纷做2C产品。

反过来，对于产品公司，简单地将标准大模型“套壳”而形成的产品，因为核心的模型不能主动、持续大幅进步、无法形成差异化，注定无法成为大模型落地的主力。所以，产品公司也必然做模型。

因此，产模一体是个顺理成章的事情。剩下的，就是选择哪个切口进入，如何差异化，以及在企业资源框架下做的问题。

困难与机会

任何方法和组织的改变，都是很困难的，传统软件的研发体系形成也经历了挺长的过程，从“人月神话”到软件研发铁三角，经历了不断总结和方法论的迭代。所以产模一体肯定也会需要不断实践总结出好的方法。

万事开头难，“产模一体”在当下，面临的困难不少：

成本。大家都知道模型训练很贵，大模型更贵，而且还面临地缘政治困难。当然好消息是这个会随时间缓解，不要被GPU涨价的消息迷惑，任何新技术都是越来越便宜的。实际上根据我们的观察，基本上目前成本是每年50%的速度在指数下降。在当下，数百万RMB的算力预算，训练出有用的模型，有难度但并不是不可能。
人才。有能力训练模型的人才稀缺，具有产品眼光的算法人才更加稀缺，会做AI产品的PM也是稀缺的，这个会是很多团队碰到的比算力成本更大的困难。缓解人才瓶颈的方法，一方面是到处找人，另外一方面是利用更好的工具，在模型训练方面，软件工具的能力提升是很快的，团队只要肯花工夫把工具用好，就可以把对通才全才的需求降下来。
风险管控。新技术新领域新产品的成败，风险的管控往往是决定性的。怎样提高产出高价值产品的成功率，当前还是产模一体业务中的难题。比如模型训练经常周期比较长，一些技术还不成熟，所以往往在有限的时间内，可以尝试的次数不多，这可能导致团队孤注一掷，也可能导致团队过于保守，都不是好的结果。不断总结与分享，以及采用更好的工具和内部快速反馈的机制，在更短时间内判断进展是否顺利，并及时调整，应该是团队努力的方向。
组织协作。组织的思想和共识在任何变革中都是关键性的，战略和方向不对，走得再快也是错。如果产品人员与算法人员想法南辕北辙，那肯定难以成功。需要怎样的组织架构，总结怎样的最佳实践，都需要通过摸索找到最适合团队的方法。

困难之外是巨大机会，产模一体最大的机会，当然在于跑通这一模式的团队，就有机会拿到做出新一代Super App的船票。有谁能拒绝这样的机会呢？