我要投稿

大模型落地，苦「最强」久矣

发布日期：2024-12-19 20:01:13 浏览次数： 1784 作者：极客公园

没有刷不了的榜，只有还没 over-fitting 的数据集；

没有搞不定的第一，只有还没加够 XX 领域，XX 尺寸，XX 语言的限定词。

尽管自 2012 年深度学习复苏之日起，AI 打榜就成为了行业默认惯例，但历来如此，就是真的正确吗？

去年 9 月，一篇 LLM 味爆棚的反讽文章，在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》，（别搞大模型了），你只需要在测试集上预训练就够了。

吐槽了市面上层出不穷的各种大模型测试榜单之外，这篇论文，直白点名了 phi-1、TinyStories 和 phi-1.5 几个大模型在明目张胆搞榜单造假。

比如，使用测试集中数据提问 phi-1.5，模型会立刻给出一个精准的回复，但只要改变一个数字或者改变一下数据格式，回答立刻变得牛头不对马嘴幻觉频出。

原因很简单，为了刷榜，模型对 MMLU、GSM8K、Big-Bench、AGIEval 等公开数据集，做了针对性训练。

过拟合的 A 面，是让模型在打榜过程中取得了人人都是大模型第一的地位，B 面则是，模型的泛化能力被极大削弱，失去了大模型应有的创造与思考的能力。

大模型落地，苦「第一」久矣。尽管，这已经成为大模型产业心照不宣的秘密。

那么，「第一」真的代表更强的能力吗？所谓的最强大模型真的存在？行业落地，又到底需要怎样的标准？

或许，前赴后继的刷榜本质，是独属于大模型产业的强者傲慢。

最佳大模型的傲慢与偏见

一定程度上，基准测试失真，于大模型而言，表面上看是标准问题，实际上是宣传问题，本质上则是如何落地的商业模式难题。

Scaling law 的主导下，进入万亿参数时代的大模型强者恒强成为唯一的生存密码：根据公开信息披露，仅 GPT4 就有约 1.8 万亿参数，其训练过程，需要消耗约 2.15e25 FLOPS 算力，更直观来说，需要约 25,000 个 A100 GPU，马力全开，训练足足 100 天。以云上每个 A100 GPU 每小时 1 美元来算，理想情况下，一次训练的成本就需要花费至少 6000 万美元。

与此同时，头部大模型玩家，平均两个月左右，就会迎来一次技术或产品的迭代；而形成鲜明对比的是，国内的大模型六小龙，即使如今估值最高的智谱，算上最新一轮融资，其总融资额，也不过 55 亿。

一边是不断膨胀的参数，不断增加的成本；一边是盲盒黑箱式的技术原理，与用户之间的不断加深的认知壁垒。如何在这场强者恒强的生存竞赛中证明自己的价值，打榜自然也就成了最直观的捷径。

但这一切的前提是，大模型落地，真的存在所谓的最强大模型吗？

答案或许是否定的。

技术落地与研究不同，具体到场景之中，强如 Open AI、谷歌与 Anthropic 也不得不面临技术、时延和成本之间的不可能三角。因此面对不同需求，往往对应着不同的最优解法：其中 Anthropic 的 Claude 分为增强版 Sonnet 与轻量版 Haiku；GPT 4o 分为标准版与 mini 版；谷歌 Gemini 则分为增强的 Pro 版与尝鲜的 Flash 版。

而一个违背直觉的数据是，各大模型的增强版与 mini 版，在实际部署中，往往是拥有更低时延与低成本优势的 mini 版本，会更受欢迎。

即使单纯聚焦到技术的单一维度，「最强模型」也同样是个伪命题。在相对客观的物理、化学和生物学、数学、天文等科目中，各家大模型评分往往各有千秋；而一旦将视角转为写作、绘画、视频生成，那么如何评定最优大模型，1000 个读者有 1000 个哈姆莱特。

作为全球最大的云服务平台，亚马逊云科技，就曾注意到：在亚马逊云上，不同开发者往往会关注不同性能，比如，有人会关注更低的延迟、更低的成本，有人更关注模型是否具备微调能力、能更好地协调不同知识库以固定数据，还有团队更关注模型的多模态能力，或者知识扩散迁移能力。

也是因此，什么才是所谓的最强大模型，在一轮轮热潮中，这个话题被反复讨论、被热议、被反思，但从来未被解决。

但可以肯定的是，任何单一维度的「第一」「最强」叙事，都是对复杂场景的简单化。

Choice is All You Need

「最强」=无敌，只是技术至上者的傲慢，以及对用户真实需求的偏见，这一点已经在无数行业中被反复证实。

二十一世纪初期，许多经济学家、产业学家，在观察了日本一众历史优势产业的发展之后都发现了一个怪状：

无论电视机，亦或半导体，乃至汽车，日本无疑是「最强」叙事的顶级推崇者，以及最佳实践案例，但最终的解决却无一例外，集体走向没落。

比如，日本的电视，在显像管时期做到画质最高，却在短短几年被更轻薄的液晶打败；日本面向大型机时代研发的存储芯片，一度做到保质期 30 年，却在消费电子浪潮中被韩国三星质量参差不齐的低价「次品」打败；日本的汽车，在燃油车时代无疑是最耐用、最保值的代名词，甚至是新能源时代，也一步到位发展了最清洁的氢能源燃料电池，却唯独错过了近十年来最大的汽车产业变革热潮——电动化。

为什么「强者」最先被淘汰？生物学家给出了解答——日本产业，陷入了加拉帕戈斯陷阱，一个在如加拉帕戈斯群岛般单一的环境中进化出的「最佳」，往往在面对复杂的真实场景与需求会显得格格不入，乃至不堪一击。

相比「最佳」，行业更需要的是，需求被看见，过程有的选，结果更适合。

就像数据库领域，即使传统的 SQL 数据库已经常年占据统治地位，依然会有各种各样的 noSQL 数据库冒出，甚至在 noSQL 数据库还会区分出图数据库、文档数据库等不同类型。

AI 框架，也是个最好的例子，TensorFlow 之前，cafe 就足以满足市场的需求，但此后 TensorFlow 出现，一统天下，然而，没几年后，PyTorch 就横空出现，从学术领域出发逆袭，成为一代新的框架之王，但与此同时，TensorFlow 以及其他小众 AI 框架，依旧在工业领域占据相当的市场份额。

套用大模型 er 们的经典句式——Choice is All You Need。

亚马逊 CEO Andy Jassy 在不久前的举办的一年一度的云服务 re:Invent 大会上，就分享了这样一个观察：

「在亚马逊内部，所有开发者都有自主选择的权利，原本以为大家都会选用 Anthropic 的 Claude 模型，毕竟过去一年多它在全球属于性能顶尖的模型，确实有很多内部开发者在使用 Claude 模型，但他们也会采用 Llama 模型、Mistral 模型，还会运用自己开发的一些模型，甚至会使用自行研发的模型。」

比如，金融行业更需要内容生成的绝对准确性；大部分企业，则需要在性能与成本之间，做反复的平衡。甚至，同样是绘画，在诸如还原山海经之类场景中，大模型幻觉就是产生想象力的最佳礼物；而在绘制写实风漫画或人物建模，任何的幻觉都会带来最终结果的灾难性失控。

既然评判的标准五花八门，那么与其替用户选择，不如给足用户选择。

亚马逊云科技的 Choice matters

事实上，让客户有的选，是各大公有云厂商都在宣传的口号。但何谓有的选，选择的范围如何，背后的定义却往往各有千秋。亚马逊云科技无疑是其中，最开放、最激进的一个。

在亚马逊云科技，有的选，可以被解读出三重含义。

第一重，性能还是成本，用户有的选。

re:Invent 期间，亚马逊云科技推出全新发布的自研 Nova 基础模型，一共包括 Micro、Lite、Pro、Premier 四个版本。其中，可以做到 210 tokens/s 的 Amazon Nova Micro 是纯文本模型，主打高效级；其余三大多模态大模型中，Lite 主打轻量级，Pro 主打平衡，旗舰模型 Amazon Nova Premier，则主要用于应对复杂任务。

第二重，亚马逊云科技 or 其他，用户有的选是最高原则。

相比自研的 Nova 基础模型，如何支持更多的模型上架亚马逊云科技，才是这场大会真正的主角。

通过将电商中的货架概念用在了云服务与大模型，亚马逊云科技的大模型货架 Amazon Bedrock 不仅上架自家的 Nova 系列，同时还上线了亚马逊投资的 Anthropic 的 Claude 系列。

此外，Amazon Bedrock 提供 Meta 的 Llama、AI21 Labs 的 Jurassic、Mistral AI、Technology Innovation Institute 的 Falcon RW 1B 和英伟达 NIM 微服务等 100 多种业内一流的大模型。

不仅是通用大模型，金融领域的 Palmyra-Fin，翻译明星 Solar Pro，多模态方向的 Stable Diffusion 、音频生成方向的 Camb.ai，生物学方向的 ESM3 生成式生物学模型，也全部在 Amazon Bedrock 上架。

主打一个从自研到第三方，从文本到多模态，从通用到垂直，只要用户需要，Amazon Bedrock 应上尽上。

当然，不只是有的选，最重要的也就是第三层，亚马逊云科技不仅要让客户有的选，更能低成本的选。

如果只是上架第三方模型，那么行业内大部分公有云企业都能做到。

但如何避免云服务企业又做选手又做裁判还当发令员，能够真正做到不偏心自研产品，以用户需求为导向，还需要观察云服务公司究竟如何设计用户选择的门槛。

首先是定价，如何在亚马逊云科技销售模型，定价由模型提供商自行设置。

与此同时，为了降低用户使用大模型的成本以及选择难度，Amazon Bedrock 还提供了自定义微调和模型蒸馏（Model Distillation）功能以及多智能体协作工具（Multi-agent collaboration）、自动推理检查（Automated Reasoning checks）等功能。