我要投稿

长文本能力哪家强？四款AI大模型的横向测试

发布日期：2024-07-21 16:52:40 浏览次数： 9718

国产AI大模型内卷长文本时代，Kimi凭借先发优势率先“出圈”，随着百度、阿里等业界巨头的下场，AI长文本应用赛道竞争开始变得白热化。

内卷长文本，AI大模型的生产力工具属性

“长文本作为公司‘登月’的第一步，是新的计算机内存，很本质，个性化并非通过微调实现，上下文定义了个性化过程。”——Moonshot AI月之暗面（Kimi母公司）创始人杨植麟的发言拉开了AI大模型“长文本”时代的序幕。

从数千到数十万token，大模型正在以“肉眼可见”的速度越变越“长”。对标月之暗面Kimi 智能助手的200万字参数量，百度文心一言开放200万～500万字长文本处理功能，较此前最高2.8万字的文档处理能力提升上百倍；阿里通义千问宣布升级，开放最高1000万字的长文本处理能力；360智脑正在内测500万字，功能正式升级后将入驻360AI浏览器。

“卷”长文本俨然成为基础通用大模型在新赛季的首个赛点，200万字是什么概念呢？曹雪芹的《红楼梦》全本大约有80万字，而J.R.R.托尔金的《魔戒》三部曲（包括《魔戒现身》《双塔奇兵》和《王者归来》）的中文版总字数大约在150万字左右，200万字略多于《魔戒》三部曲的总字数。

如此长的内容对于具备“长文本”能力的大模型而言，仅数秒就可以阅读完成并根据用户需求生成相应的概括、总结。

Kimi点燃了AI大模型内卷长文本的

主流科技企业之所以对大模型长文本应用如此感兴趣，很大程度在于长文本赛道出色的变现能力。

长文本模型就具备更准确的文本理解和生成能力以及更强大的跨领域迁移能力，这对于打造垂直领域的行业专家是一个非常必要的能力支持，比如面向一些鸿篇巨制的医疗文献、法律文件、财务报告等，长文本模型就具备更好的理解能力，对应完成跨领域学习和应用，从而打造出更专业的医疗助理、法律助理以及金融助理等应用，这意味着AI大模型能够拥有更强的生产力工具属性。

真假长文本，数值≠能力

当众多大模型企业在极短时间内宣布旗下产品在“长文本”赛道取得突破后，一些质疑的声音也出现了。质疑者认为后来者上线的并不是真正的长文本技术，而是RAG技术。RAG是一种被称为检索增强生成的技术，这种技术可以从文档中搜索出相关内容，并把这些内容给到大模型做推理。

月之暗面公司相关负责人也曾向媒体强调，与其他公司的产品不同，Kimi的长文本是无损压缩技术的长上下文，RAG是有损压缩技术。他举例说，比如读一本100万字的书，Kimi的长文本技术会逐字逐句挨个读，读完100万字再归纳总结做分析。RAG技术可能只读了这本书每一页的第一行，就去归纳总结做分析。在最终呈现的效果上，无损压缩技术输出的内容更真实、全面、有效。

当前，全球大型模型普遍采用Transformer解码器作为核心架构。为了实现长上下文处理，研究者们对解码器架构进行了多项改进，主要包括以下四个方面——

一是采用高效的注意力机制，降低计算成本，使得在训练过程中能够处理更长的序列，进而提高推理时的序列长度；二是实现长期记忆，通过设计显式记忆机制，克服上下文记忆的局限；三是改进位置编码，对现有编码方法进行优化，以实现上下文的外推；四是对上下文进行处理，通过额外的预处理和后处理手段，确保每次调用大型语言模型时，输入的文本始终符合最大长度要求。

Transformer架构原理图

而长上下文作为核心技术，各厂商选择不公开。目前仅能通过其他公开渠道整理推测各家上下长文本技术，以月之暗面为例，其创始人杨植麟主要的学术论文Transformer-XL和XL-Net，均探讨了长上下文的实现方法，且前者属于长期记忆力的优化，后者属于特殊目标函数的优化。百度的 ERNIE-DOC 则同时采用了长期记忆力和特殊目标函数的优化方法。

阿里Qwen-7B 则使用了优化的位置编码算法 extended RoPE。所以我们推测，国内模型厂商之所以能够在短期内实践出长上下文方法，或是在原有积累的基础上进行了算法迭代，采取多方法的混合优化，实现快速超车。

事实上，经过一年的快速迭代后，业内早已清醒认识到文本长度是不是越长越好，效果才是AI大模型在长文本赛道立足的根本。

四款长文本AI大模型的角力

近一年时间的“内卷”，当下AI大模型在长文本领域表现究竟如何？

我们选择了代表初代长文本大模型的Kimi、代表支持长文本并侧重Chat对话的文心一言（4.0 Turbo）、从智能搜索领域切入长文本应用的秘塔AI以及专注长文本赛道的AI原生应用“橙篇”四款应用进行横向比较，为大家展示当下AI大模型在长文本应用上的状况。

在测试方法上，从“阅读”和“写作”两个方面的长文应用进行横向比较，进而全方位展示当下AI大模型的长文本能力。

阅读理解：橙篇表现出众

阅读理解测试部分细分为线上和本地文件两个环节，现在部分以“分析最近10年清华大学和北京大学通过高考在重庆的录取人数，以图表的形式展现”为指令，让Kimi、文心一言、秘塔AI、橙篇阅读网络资料的同时生成图表，这里不仅涉及AI大模型的阅读理解能力，更会用图表考校当下AI大模型部分多模态能力。

从上往下，从左往右依次为橙篇、Kimi、文心一言、秘塔AI生成结果

四款应用对于互联网数据的收集整理差距非常明显，Kimi表示没有直接数据提供的情况下，仅整理了清华大学2023和2016两年在重庆的录取人数，北京大学更是只有2023年的录取人数，“橙篇”则不仅根据互联网数据按要求完成了两所大学近10年在重庆招生人数对比，且2022年和2023年两年还对物理和历史录取人数进行了区分。

秘塔AI则有些“直男”地仅对其能直接收集到数据的年份进行了整理，几乎看不到其分析、推理的努力，这多少有些职场“给多少工资干多少事儿”的味道了。

“橙篇”不仅可以生成数据清晰的表格，更为用户提供了备注，通过仔细阅读备注我们发现，“橙篇”在数据整理和分析时，明确提到2020年的数据来源的三所学校以及影响数据的各种因素，这样一份答案的生成，意味着“橙篇”不仅对互联网数据进行了整理，更按用户要求进行分析、归类，同时，“橙篇”还对数据进行了简单的分析。

相较而言，同样隶属百度大生态的文心一言在数据的处理上反而表现出“理科生”的谨慎，其对数据的预估非常谨慎，不仅明确标注“估算，基于整体录取情况”，更会引用“具体重庆录取人数未详，但北京总人数较多”这种地区对比来强化数据准确性，虽在表格数据生成上难以实现直接取用，但分析逻辑清晰，完全称得上“没有功劳也有苦劳”了。

而在本地文本阅读方面，我们则选用一篇包含图文及表格信息，名为“C919放量元年，大飞机乘风起航”的研报让四款应用阅读，并以“帮我总结这些文件”为指令，让AI大模型给出总结内容。

从左往右依次为Kimi、橙篇的生成结果

对比发现，Kimi在文章概括中忽略了“C919技术亮点与材料应用”，同时，“产业链公司梳理”也是直接堆在一起表述，而“橙篇”则细分为“机体制造商”“材料供应商”和“机载系统供应商”三个类别，再针对每一个类别对企业进行归类，“文心一言”也对“国产化率与替代进程”进行了详细的列举和总结，对于内容的概括较为详实，遗憾的是目前秘塔AI暂不支持本地文件上传，这极大削弱了其在阅读理解方面的应用。

单从总结内容看，“橙篇”与“文心一言”不相上下，但“橙篇”对内容概要进行梳理的同时，还在文末附带了“整体总结”，其对长文本的整体阅读理解能力上表现上更为出色，再凭借出色的线上阅读理解能力，“橙篇”在“阅读理解”测试环节表现明显优于其他几家。

长篇写作，正在改变的内容生成模式

从内容采集、整理到创作，相较让AI根据高考作文生成一篇阐述人生观、价值观的可读性文章，不如直接以“帮我写一篇长文，主题是：介绍北京排名前十的博物馆”为指令，让AI大模型生成可转换成旅游册子或导游指南的内容更具变现价值。

四款AI大模型接收到指令后，在内容生成上表现出截然不同的流程和方式，其中Kimi和文心一言直接为我们撰写了一篇类似搜索结果合集的“文章”。Kimi和文心一言直接根据指令生成了长文，其内容包含了10个北京主要博物馆的介绍，从理解到答题并没有任何偏差，但面对同样的指令，“橙篇”首先生成的是文章大纲，用户可以直接在大纲中进行修改、调整。

左为Kimi生成长文，右为文心一言生成长文

橙篇在生成长文之前，会先生成可调整的文章大纲

用户确认“橙篇”生成的大纲无误后即可点击“生成长文”按钮（如果特别不满意，甚至可以直接点击“换个大纲”）。根据大纲，“橙篇”完成了一篇13,158字的长文，详细介绍10个北京博物馆的同时，更给出了参观和游览建议，更在文末附有参考文献。

橙篇生成最终结果，无论字数还是文章结构都相当出色

而秘塔AI在接到指令后，其直接罗列出“北京排名前十博物馆”信息的同时，更提示用户使用秘塔旗下“写作猫AI”完成文章的生成。

秘塔AI在结果界面会有明确的“写作猫AI”提示

选择进入“写作猫AI”界面后，即可看到类似在线轻办公的界面，这里不仅会重新梳理秘塔AI的搜索内容，更会在底部给出“写内容”和“写大纲”两项提示，点选“写大纲”后，秘塔“写作猫AI”也会根据刚才的搜索内容撰写文章大纲。

写作猫AI根据秘塔AI搜索内容，完成文章的创作

在写作猫AI界面，我们不仅可以对字体界面等细节进行调整，更可以输入指令让写作猫AI进行插入或重写，将轻办公应用同AI融为一体，只不过从默认生成的内容看，秘塔“写作猫AI”针对本次指令完成的文章深度不如橙篇。

不过从长文完成步骤和作品呈现上看，秘塔AI和橙篇已经不再是单纯地在用对话的方式完成上下长文内容的生成了，从指令的分析、理解到长文提纲的生成以及内容的完整生成，这两款AI大模型的长文生成流程已经近似真人，同时，无论是秘塔“写作猫AI”还是橙篇本身自带的Word编辑器，其都将AI大模型与轻办公融为一体，这意味着AI长文本办公已具备一站式办公雏形。

一站式办公：橙篇与秘塔AI的对决

将AI大模型与轻办公平台整合在一起，橙篇与秘塔AI在长文本应用落地上让我们看到了不少新意。这里需要注意的是目前秘塔AI是借助秘塔旗下“写作猫AI”将轻办公同秘塔AI长文本能力进行结合，虽然其在软件内部实现了“打通”操作，但毕竟属于两个完全独立的AI应用，在用户使用一致性上还值得改进。在具体的AI+轻办公设计思路上，橙篇与秘塔AI其实具有较大差异。

橙篇嵌入“智能助手”的同时，在功能上偏向明显的工具属性，其重点强调“全文校整”“格式整理”等应用，用户除在中部主界面完成字体、段落调整外，拓展功能基本放到了界面右侧。

橙篇在功能设计上更偏向文本功能

相对于“橙篇”在文本处理上的“专一”，秘塔“写作猫AI”则更在意AI功能的整体融入，其中部的操作界面本身就分为“开始”“效率”“审阅”三个部分，用户除在“开始”界面直接调整文章内容字体、段落外，还可以在“效率”界面让AI帮助实现“全文改写”“全文总结”“智能排版”等功能。同时，用户点击“写作猫AI”内容界面的右上角“协作”按钮，还可以邀请他人一同创作或直接公开发布创作内容，在轻文本办公设计上已经有些向腾讯文档、石墨文档靠近了。

而作为相对对立的存在，秘塔或许本身想将“写作猫AI”打造成AI写作的独立平台，用户点击操作界面右上角“协作”旁边的田字格图标时，整个界面左侧会根据“AI写作”“校阅”“图片”“词典”“评论”五个菜单，展现不同的AI工具合集。

秘塔“写作猫AI”以平台化的方式展现各AI工具

这里我们重点尝试了“写作猫AI”的“校阅”栏目，毕竟WPS已经将“文档校对”功能划分到会员功能区，这类AI平台能够直接对长文字词内容进行准确的校对，无疑具有相当的实用性。

“写作猫AI”的“校阅”功能细分为“内容建议”“事实验证”和“全文总结”三个部分，这同我们理解的“校阅”功能有些差异，其在传统字词校对的基础上加入了“事实验证”和“全文总结”，这两个功能更偏对文章内容的审视。

“写作猫AI”的“校阅”功能具有一定创新性

相比而言，橙篇在“校对”功能上就更接地气一些。橙篇的“全文校正”功能呢直接分为“纠错”“可读性”和“全文建议”三个部分，“纠错”主要针对字词错误，而“可读性”则是针对文章句子的优化，用户可以选择“忽略”或“采纳”建议，左右边栏的设计操作起来非常方便。

橙篇校对功能更符合日常办公体验

“AI+轻办公”并不算全新的概念，本身腾讯文档、夸克智能文档其实也在积极嵌入AI大模型，综合提升用户应用体验，而橙篇、秘塔AI则从AI大模型的角度对轻办公平台进行融合，两种路线暂时并不存在冲突。橙篇和秘塔更多时候是通过文本编辑完成生成式AI内容的闭环，相当于从互联网内容阅读理解到长文生成、编辑，AI大模型可以一站式满足用户需求。

无论是自媒体从业者、新闻工作者，又或是有文章撰写需求的白领群体和学生群体，橙篇、秘塔AI这样的产品无疑能有效提高学习和办公效率。

写在最后：AI细分应用赛道的崛起

Chat类大模型想要在C端大众市场收获用户，无外乎两条路可走：一是提效工具，二是娱乐工具。自Kimi推动AI大模型向长文本赛道“内卷”后，能够体现生产力价值的AI大模型显然更符合当下终端消费市场需求。

从内容创作到法律、金融等专业领域，具备长文本能力的AI大模型能够快速对信息进行提取、整理甚至分析，充当“助手”的角色，减轻用户工作量的同时，也践行AI工具价值的落地。

而即便是作为娱乐工具，长文本可以通过提供更多上下文信息和细节信息，来辅助模型判断语义，进一步减少歧义，并且基于所提供事实基础上的归纳、推理也更加准确。这意味着主打“情感陪伴”的Agent（智体）能够具备长期“记忆”，从而为用户带来连贯的交互体验，也推动整个AI应用的崛起。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业