我要投稿

9.9比9.11大0.79，让大模型准确地做好数学题

发布日期：2024-11-19 08:43:02 浏览次数： 2120

作者：Kyligence

微信搜一搜，关注“Kyligence”

9.9 和 9.11 哪个大？

A 公司和 B 公司营收哪个高？

高出多少百分比，精确到 4 位小数以上？

当这些严肃场景下的理科问题询问大模型时，大模型们基本都会出现各种问题，要么无法回答准确，要么无法稳定输出一致的结果。而在企业级应用中，这几个问题都是非常基础的计算，在更复杂计算场景下，大模型们无法提供准确、可靠的回答。这也是当前大模型在企业服务领域迟迟未能被客户广泛采用的主要障碍之一，无法想象一个数据分析问题每次结果不一致，哪怕只是错一个很小的小数位上的数值。

提升大模型在精确数值计算和比较时的准确性、可靠性，是上海跬智（Kyligence）今年的战略重点并取得了突破性成果。最新的评测结果显示，Kyligence AI 服务能够提供可靠且准确的服务，尤其是高精度数值计算等方面。相关在线服务即将推出，文末有申请测试通道。

大模型数值计算准确性测试

为对比不同的大模型服务在数值计算上的差异，评测人员设定了四个问题，并将其交给 Kyligence AI 及其他六家主流大模型（共七家）进行比较。这些问题从简单到复杂，涵盖了企业业务经营和管理场景中常见的数据计算需求。让我们一起来看看各大模型回答这些问题的情况。

第一题

A公司营收9.1100001亿，B公司营收9.900003726203亿，哪个营收高？高出多少？

1 Kyligence AI

ChatGPT:

Gemini:

某国内闭源模型：

Qwen2-72B：

某国内闭源模型：

解读：标准答案应为0.790003626203。7号答错，Kyligence AI 及其他“选手”回答正确。可以看到，通过对海量文本的学习，所有主流大模型都掌握了数字的基本加减法规则。结合推理步骤，它们大概率能够正确计算加减法。然而，值得注意的是，在热身测试中，4号大模型出现了错误，但在正式测评中又答对了，显示出大模型的不确定性和不稳定性。

第二题

A公司营收9.1100001亿，B公司营收9.900003726203亿，哪个营收高？高出多少百分比？精确到4位小数以上。

1 Kyligence AI

ChatGPT:

Gemini:

某国内闭源模型：

Qwen2-72B：

某国内闭源模型：

解读：标准答案应为8.6718%。只有 Kyligence AI 回答正确，另外六家大模型全军覆没。可以看到，除法依然是大模型的盲区，尤其是要求到3-4位准确数字时，错误率 100%。大模型给出了计算公式，但只是营造了“会计算的假象”。

第三题

以下是AABB集团2019年至2023年的部分财务数据（单位：百万元人民币）：

```CSV

年份，营业收入，营业利润，净利润，总资产，总负债，股东权益

2019,376844,57084,87886,1165671,349674,815997

2020,509711,91430,140350,1312985,442284,870701

2021,717289,89678,150308,1610706,442274,1168432

2022,853062,69638,61959,1768621,484392,1284229

2023,868687,69958,72515,1918251,515950,1402301

```

请问营业收入的年平均数是多少？

1 Kyligence AI

ChatGPT:

Gemini:

某国内闭源模型：

Qwen2-72B：

某国内闭源模型：

解读：标准答案应为665118.6。2号答错，Kyligence AI 及其他“选手”回答正确。可以看到，简单的除法大模型还是比较胜任的。值得一提的是，该模型在热身测试中答对了，第二次正式测试反而又错了，又显示出大模型固有的不确定和不稳定性。

第四题

以下是AABB集团2019年至2023年的部分财务数据（单位：百万元人民币）：

```CSV

年份，营业收入，营业利润，净利润，总资产，总负债，股东权益

2019,376844,57084,87886,1165671,349674,815997

2020,509711,91430,140350,1312985,442284,870701

2021,717289,89678,150308,1610706,442274,1168432

2022,853062,69638,61959,1768621,484392,1284229

2023,868687,69958,72515,1918251,515950,1402301

```

请问营业收入的年增长率是多少？保留小数点后两位。

1 Kyligence AI

ChatGPT:

Gemini:

某国内闭源模型：

Qwen2-72B：

某国内闭源模型：

解读：标准答案应为2019-2020增长35.26%、2020-2021增长40.72%、2021-2022增长18.93%、2022-2023增长1.83%。这一题复杂度明显上升，2号、3号、5号和7号明显错误，只有 Kyligence AI 及剩余两家模型回答正确。但通过测试得知，4号通过调用计算 API 正确解答，输出速度变慢。

从简单到复杂的数值计算来看，上图结果显示，Kyligence AI 保证了不同问题的计算准确性，充分体现了该技术和应用的可靠性与稳定性。

大模型数值计算的“缺陷”

为什么大模型在精确数值计算方面表现不佳呢？其原因在于多个层面的复杂性，包括语料的影响，Transformer 算法的局限性，以及语境理解的困难等。因此，大模型在处理语言、文本信息、生成图像视频等时侯表现非常出色，但在涉及精确数值计算和比较等严肃场景时却显得力不从心。

当前很多大模型厂商，都在尝试强化大模型的推理和拆解问题的能力，来提升大模型的计算准确度和精确度。但是实测发现，很多时候大模型生成的每个步骤都是对的，但最后结果却依然是算错的，而更糟糕的是，往往每一次都不一致。

Kyligence 尝试过各种手段来提高大模型的准确性，比如提前计算一些常见值，并要求大模型仅引用这些数字，而不进行自主计算。然而，这种方法无法满足灵活场景的需求。另一种常见做法是是让大模型首先思考需要计算的指标，然后生成 Python 代码进行计算。但这种方法也会面临大模型指令理解错误、计算延迟加大等问题。而且在大规模数据量、大量并发用户等真实场景下，几乎不具备生产可用性。可以看到，提前计算方案灵活性不足，代码生成方式出错率高，都无法进行流畅的输出和持续计算，并容易引入其他问题，影响最终模型输出的准确性和稳定性，无法在严肃的企业级应用中被使用。

精确的大模型数值计算

从上面的测试结果可以看出，上海跬智提供的大模型服务 Kyligence AI 能够持续提供准确、可靠的数值计算和回答，这源于 Kyligence 在统一语义定义、大模型计算增强等技术上的突破。其做法是接管了大模型中的数值计算，但不改变大模型其他解答思路。通过准确地控制和引导大模型的输出，特别是在计算部分，使得大模型在计算准确度和精度方面可以被严肃应用场景所信任。

Kyligence AI 采用多智能体架构，多个 AI 智能体分工协作，将复杂问题分解为简单任务，再一起完成复杂的决策任务。准确的数值计算能力是其中关键的技术，可以强化一个基础大模型的思考和执行，准确、逻辑更严密的输出数据结果。通过兼容 OpenAI Chat API，透明增强所有的 AI 企业级应用，提供准确、可靠的数据计算能力。此外，还有基于思维链的解题规划能力，基于 RAG 的指标查询能力和业务知识库能力，和基于强化学习的反馈机制等等进一步加强 Kyligence AI 大模型服务在数据计算和分析领域的能力。

Kyligence AI 服务工作流程图

这些突破来自于 Kyligence 团队在大数据和 AI 领域多年的深厚技术积累与实践沉淀，并积极跟进和大胆采用最新的大模型、智能体等技术。随着大模型的日趋成熟和完善，绝大部分能力已经足够企业采用，但“严肃场景下的精确计算”这个行业难题，一直是横在客户真正采用 AI 前面的拦路虎。将更多数据，甚至全量数据给到大模型，通过大规模的训练从而提升精度和能力，这在成本和时间上无法被接受。如何在推理侧进行有效的突破，以更少的资源和算力得到足够的精度，如何更好的利用到现有数据平台的能力，是上海跬智和头部客户合作共创的重点。从现在阶段性的成果来看，效果显著，不需要预训练，不需要额外算力，通过接管数值计算，完全可以达到企业级应用的需求。可以从四个方面满足AI企业级应用中数据计算的需求，更快的帮助企业客户加速相关AI场景的落地：

不影响输出速度：无需步骤拆解，延迟基本和基座大模型输出接近，支持流式输出。
保持分析思路：不干扰大模型的原有的输出分布。
提高准确性：确保大模型输出数字的准确度和精度，用户可以设置合适的计算精度。
支持开启深度思考：大模型能够根据前面计算的正确数字进一步推导后续的结果和结论。

“准确性和可靠性，是企业级数据应用的基础，Kyligence AI 的突破，使得大模型能够被有效的引入数据及分析领域作为生产系统使用，” Kyligence 联合创始人兼 CEO 韩卿表示，“这项技术使得大模型能够更深入地进行分析和思考，处理逻辑性极强的计算问题，帮助企业级用户处理复杂问题，并做出准确的判断，这是革命性的突破。”

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业