我要投稿

行业洞察｜多模态模型和小模型正取代大模型成为众多企业的首选

发布日期：2024-05-28 18:27:07 浏览次数： 2416 作者：非凡产研

在当前生成式AI的热潮中，企业IT领导者们正在探索超越大语言模型（LLMs）的新一代AI解决方案。他们意识到，并非所有企业场景都适合应用LLMs。新兴的多模态模型和更小的模型，正展现出满足特定需求的巨大潜力。

大语言模型（LLMs）因其先进的文本理解和生成能力，已经成为生成式人工智能的代名词。在当今商业中的大多数生成式人工智能实验中，大语言模型（LLMs）都是核心技术。这些实验包括代码生成助手和文本生成图像的工具，这些工具结合了大语言模型和扩散处理技术（diffusion processing）来实现其功能。

一些 IT 领导者指出，LLMs 并不总是解决问题的最佳工具。他们正在探索新一代的多模态模型，这些模型不仅仅局限于语言处理，还能够提供更加有目的性的结果。例如，这些模型能够处理存储在电子表格和向量数据库中的动态表格数据，以及视频和音频数据。

根据国际数据公司（IDC）发布的《生成式基础 AI 模型市场概览》，多模态基础模型结合了文本、音频、图像和视频等多种模式，能够为图像生成说明或回答有关图像的问题。包括 Google Gato、OpenAI GPT-4o、Microsoft LLaVA、Nvidia NeVA、Vicuna、BLIP2 和 Flamingo等都是多模态模型代表。

Northwestern Medicine的先进技术小组与戴尔的 AI 创新团队合作，开发了一种专有的多模态LLM，该模型能够解读胸部 X 射线图像并总结关键发现。使用这种模型，患者获得检查结果的速度比以前提高了近 80%。未来，Northwestern Medicine和戴尔还计划开发针对 CAT 扫描和 MRI 的增强型多模态LLM，以及针对整个电子病历的预测模型。

Northwestern Medicine的麻醉师兼先进技术医学主任Mozziyar Etemadi博士表示，多模态模型之所以引人注目，是因为目前使用这种模型的人并不多。Etemadi博士指出，现有的模型使放射科医生在撰写文本记录方面节省了40%的时间，并且由于模型具有分析图像的能力，节省了更多时间。他说：“以前，模型主要依赖于大语言模型（LLMs）、文本或Excel，但现在我们已经可以处理图像和X射线了。这是一个令人兴奋的巨大飞跃。”

取代大模型，让新兴模型发挥作用

劳动力调度SaaS公司MakeShift也在探索超越LLMs的新技术，以帮助其医疗保健、零售和制造业客户进行复杂的预测性调度。MakeShift的首席技术官Danny McGuinness表示：“我们曾经使用大型语言模型（LLMs）来为管理员和员工提供聊天支持，但当你处理向量数据以及包含数亿行相互关联数据的大型图形结构，并且你想要优化未来的预测模型时，LLMs就无法满足需求了。”

因此，MakeShift转而采用由麻省理工学院的初创公司Ikigai Labs开发的，一种正在申请专利的新型大型图形模型（LGM）。

Danny McGuinness表示，他们正在利用大型图形模型处理复杂的结构化数据，并建立数据间的相互关系、因果关系和相关性。MakeShift正与Medico、HSBC、Spirit Halloween、Taager.com、Future Metals和WIO等公司一起，部署Ikigai Labs开发的无代码模型，这些模型专门用于处理表格和时间序列数据。

Ikigai Labs由麻省理工学院人工智能和数据科学系主任Devavrat Shah和Vinayak Ramesh共同创立，专注于提供针对行列式组织的表格数据的人工智能服务。该公司在过去六个月中员工数量翻倍，并在去年底获得了2500万美元的投资。

支持视频的多模态模型也在不断涌现，这些模型为依赖计算机视觉和视频的软件服务提供支持，给首席信息官们（CIOs）带来了一系列新工具，使他们能够利用适合自身特定需求的人工智能模型。

对MakeShift及其众多客户来说，日程安排是一项复杂的业务活动，不仅因为需要全天候（24/7）的运作，还因为工会规章和集体协议带来的复杂性。自去年以来，MakeShift的工程师团队便开始与Ikigai Labs合作，使用其API和模型进行开发，现在这些模型已经全面进入生产阶段。

McGuinness表示，借助基于LGM的人工智能技术，可以更加轻松地进行预测性的日程安排，有效应对持续变化的数据和流程。随着人工智能技术的应用，MakeShift正在逐步体验到其带来的多重益处。

McGuinness指出，随着人工智能的学习和发展，他们开始将其他类型的数据整合到这些模型中，一些客户正在引入额外的数据类型以改善调度功能。他说：“我们的一位零售客户开始考虑引入天气数据。我们可以开始整合公共数据，如天气预报、公共交通距离以及商店内的人流密度等数据。”

McGuinness还表示，MakeShift使用Ikigai模型的另一个好处是它能够揭示在数据的相关性和因果关系上之前未被注意到的新情境，并激发了团队和客户开始探索数据的新层面，对数据理解的也更深入。他说：“我们的第一批医疗保健客户正在考虑除了历史调度之外的其他用例，比如涉及财务交易的特定流程和事件。”

Databricks的人工智能副总裁Naveen Rao指出，LLMs不仅能够通过标记语言处理表格数据，还能处理其他形式的数据。去年，Databricks收购了他的公司Mosaic，这一点值得注意。

随着像Ikigai这样的新型模型的出现，以及大型语言模型（LLMs）在完成各种任务时所遇到的局限性，我当前生成式人工智能市场的竞争非常激烈。首席信息官（CIOs）面临着众多不确定性和选择，需要在众多不同的技术和解决方案中做出选择，以适应不断变化的市场需求和技术进步。

按需定制小模型

Gartner的AI分析师Arun Chandrasekaran表示，LLMs 演变为更强大的多模式模型是预料之中的事，但他认为，由于成本高昂，此类模型在商业用途中所占的比例较小。

Chandrasekaran说：“2023年，主要是文本和代码模型占据主导地位。随后，我们开始看到具有计算机视觉能力的模型，以及如语音模型等其他多种模式的模型初现端倪。但从根本上说，构建这些模型的计算和数据资源方面的成本仍然非常高。”

因此，Chandrasekaran认为，许多企业正在通过采用更小型的模型来超越传统的大型语言模型（LLMs）。

他指出：“这些功能强大的模型在企业的多个应用场景中确有其用武之地。但我们将会看到，市场在定价时会周期性地评估模型的规模，因为较小的模型成本更低，且对于企业想要部署的任务来说已经足够好。”

Databricks的Naveen Rao同意这一观点，他指出构建一个大语言模型的成本可能高达2亿美元。他表示，这些成本的绝大部分并不在于所需的计算能力，而在于数据标注和数据管理，这些是决定模型性能的关键因素。

Rao创立了Mosaic公司，旨在构建任何企业都更实惠、更容易使用的模型，他认为专业化是大多数企业的前进之路。

Rao说：“这实际上是专业化与泛化之间的选择。大型模型往往需要在大量的标记或广泛的文本和功能上进行训练。而小型模型则是一个子集，更倾向于专注于某一特定领域。”

在这方面，开源可以为首席信息官（CIOs）提供帮助。Rao表示：“你可以从零开始，用自己的数据构建自己的模型，或者采用现有的开源模型，在你的数据上进行微调和定制，以适应你自己的应用。”

Baldor Specialty Foods是一家旨在部署小模型的组织，其首席信息和数字官相信，这些模型可以针对定制解决方案进行训练，而不会产生偏见或错误。

Satyan Parameswaran，曾在UPS担任数十年高级IT职位的人士表示：“我会使用小模型，因为有时候大语言模型会产生错误的幻觉。你不想从事设计模型的业务的话，可以直接从Hugging Face获取一个小模型，然后根据你的特定任务对其进行定制。”

生成式AI的新路线

在当今的人工智能市场上，一些企业AI供应商提供了更小的模型，包括C3.ai、Anaplan、Dataiku和Hugging Face等。

Ikigai Labs的首席执行官Shah表示，他们的LGM提供了一种数据的概率表示，适用于表格时间戳数据（tabular timestamp data），比如电子表格。随着模型的训练，它们能够学习随机变量之间的关系，识别可能缺失的数据，或者发现两个电子表格之间相似的行，从而促进新的洞察。

Shah补充说：“这意味着你现在实际上可以开始将数据整合在一起。”用户可以在电子表格中生成新的行。此外，在处理时间相关的数据预测时，如果数据中的变量出现变化，系统能够侦测到这些变化点并识别出异常数据。这对于理解数据的动态变化和及时响应非常重要。

因此，用户将能够从多个维度的多个电子表格中创建和生成数据。“你可以在你的数据上——仅限于你的数据——使用大型图形模型进行模拟或合成持续时间（synthetic duration），以便从数据中获得有价值且有意义的学习。”Shah说。

显然，成本将是决定这些模型定制程度的主要因素。目前，仅支持文本生成的LLMs就需要巨大的计算能力。随着大型芯片制造商甚至云服务提供商竞相开发能够提供更多计算能力的半导体，企业将继续尝试并投入生产各种大型和小型模型，以产生新的洞见，使他们的业务更加高效和创新。

目前，许多企业通过实验开始接触LLMs，并在确认效率后投入生产。LVM和LGM的使用仍然处于初期阶段，但像MakeShift的McGuiness这样的早期采用者已经看到了成效。

McGuiness说：“我们希望帮助我们的客户在正确的时间以最佳方式安排具有正确技能的人员。”“在制定这种预测性的工作时间表时，必须考虑工会协议的要求，比如员工的工作资历、他们在不同地点的工作流动，或者他们所遵守的特定工会协议。此外，还需要考虑到员工可能出现的工作倦怠、加班费用等因素，所有这些都需要在排班模型中得到体现。”

McGuiness指出，如果没有人工智能的帮助，这项任务涉及的复杂性和资源消耗是相当大的。但得益于新的多模态模型和专注于特定任务的小模型，这一过程变得更加容易。

作者：Paula Roone 编译：Qiuping

- END -

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业