AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


周枫:大模型的“产模一体”
发布日期:2024-05-25 19:34:33 浏览次数: 1608


今年大模型进入落地年,大家自然对于应用和商业化的关注程度大幅上升,近来看到一个观点值得关注:是否对于一家大模型公司来说,产品和模型同时做,同时优化,是最佳的应用和落地模式?

MiniMax的闫俊杰说“产模一体化”

闫俊杰:... 比如我们看美国的公司,OpenAI 是都做,Anthropic 之前只做模型、昨天他们把 Instagram 的 CTO 也招过去了,我不知道是不是它们也有可能做产品。我觉得至少对做模型的公司来说,自己做产品几乎是必然的选择。我们算是比较坚决的,有些公司后面变成这样了,这是必然的。
反过来,其实对做产品的公司也是一样的。比如说我们国内的开放平台上,有很多做产品的公司和客户,其实规模还挺大的,大概有接近一千家。这里面有大的公司,也有小的创业公司。其实坦白说,对所有这些公司来说,如果它们的产品得很大,他们也希望自己掌控模型的。这也是必然的一个路。

出门问问的李志飞讲“产模结合”

之所以「产模结合」这么重要,是因为产品对于模型来说,有一个非常重要的「定向」或「灯塔」作用,为模型的研发指引方向。产品的需求可以倒逼模型能力的优化方向,也更容易检验模型能力的实际表现。有了产品,就有了大模型的聚焦,而不是漫无边际地拓展大模型的能力边界。

软件2.0

我对“产模一体”这个方向是赞同的,科技企业做的事情,本质上是数字化生意,就是用机器的能力来驱动商业流程,而这个的主要手段是通过软件的研发。以前的软件都靠程序员编写,而大模型和神经网络的出现,带来了Andrej Karpathy所说的“软件2.0” 。他认为软件1.0能做出的产品非常局限,而软件2.0则能大大拓展可开发的产品空间:

Karpathy说:
“相反,我们的方法是在理想程序的行为上指定一些目标(例如,"满足一个输入输出对实例的数据集",或者 "赢得一盘围棋"),编写一个粗略的代码骨架(即一个神经网络架构),确定一个程序空间的子集进行搜索,并使用我们所掌握的计算资源在这个空间中搜索一个有效的程序。在神经网络的情况下,我们将搜索限制在程序空间的一个连续子集上,在这个子集上,搜索过程可以通过反向传播和随机梯度下降而变得高效(有点令人惊讶)。”

换句话说,模型即程序,而这个程序通过训练由机器自动产生,而不是由程序员手工编写。训练模型的过程,就是一个新的生成软件的过程。更重要的,这个过程能解决的问题,比传统的“PM+Dev+Test”的软件1.0要更多,更广泛,可以识别图像,可以进行翻译,可以进行企业知识推理,可以自动匹配广告。同时,和所有的软件研发过程一样,从需求出发,不断迭代提升能力,更好满足用户需求,也是软件2.0成功的关键,区别在于这一迭代是基于机器训练,而不再是人工编码。

既然模型本身就是程序,模型的能力因为Scaling Law快速提升,那么必然的一个结果,就是大模型原生的产品中,模型不能是一个简单的标准化组件和工具,而是产品的关键环节,甚至就是产品的主体和本身。因此,传统软件研发的过程也自然被颠覆,要从以手工编码为中心,转向以模型为中心。那么,这意味着:

对于模型公司,如果产品的主体、提供90%能力的模型都已经做了,这时候不做终端产品的话,就既带来方向感的缺乏,也带来不必要的商业化的迂回。因此模型公司纷纷2C产品

反过来,对于产品公司,简单地将标准大模型“套壳”而形成的产品,因为核心的模型不能主动、持续大幅进步、无法形成差异化,注定无法成为大模型落地的主力。所以,产品公司也必然做模型。

因此,产模一体是个顺理成章的事情。剩下的,就是选择哪个切口进入,如何差异化,以及在企业资源框架下做的问题。

困难与机会

任何方法和组织的改变,都是很困难的,传统软件的研发体系形成也经历了挺长的过程,从“人月神话”到软件研发铁三角,经历了不断总结和方法论的迭代。所以产模一体肯定也会需要不断实践总结出好的方法。

万事开头难,“产模一体”在当下,面临的困难不少:

  • 成本。大家都知道模型训练很贵,大模型更贵,而且还面临地缘政治困难。当然好消息是这个会随时间缓解,不要被GPU涨价的消息迷惑,任何新技术都是越来越便宜的。实际上根据我们的观察,基本上目前成本是每年50%的速度在指数下降。在当下,数百万RMB的算力预算,训练出有用的模型,有难度但并不是不可能。
  • 人才。有能力训练模型的人才稀缺,具有产品眼光的算法人才更加稀缺,会做AI产品的PM也是稀缺的,这个会是很多团队碰到的比算力成本更大的困难。缓解人才瓶颈的方法,一方面是到处找人,另外一方面是利用更好的工具,在模型训练方面,软件工具的能力提升是很快的,团队只要肯花工夫把工具用好,就可以把对通才全才的需求降下来。
  • 风险管控。新技术新领域新产品的成败,风险的管控往往是决定性的。怎样提高产出高价值产品的成功率,当前还是产模一体业务中的难题。比如模型训练经常周期比较长,一些技术还不成熟,所以往往在有限的时间内,可以尝试的次数不多,这可能导致团队孤注一掷,也可能导致团队过于保守,都不是好的结果。不断总结与分享,以及采用更好的工具和内部快速反馈的机制,在更短时间内判断进展是否顺利,并及时调整,应该是团队努力的方向。
  • 组织协作。组织的思想和共识在任何变革中都是关键性的,战略和方向不对,走得再快也是错。如果产品人员与算法人员想法南辕北辙,那肯定难以成功。需要怎样的组织架构,总结怎样的最佳实践,都需要通过摸索找到最适合团队的方法。

困难之外是巨大机会,产模一体最大的机会,当然在于跑通这一模式的团队,就有机会拿到做出新一代Super App的船票。有谁能拒绝这样的机会呢?



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询