我要投稿

智慧芽的专利垂直领域大模型PatentGPT

发布日期：2024-06-10 18:20:35 浏览次数： 3730

作者：智能专利挖掘

微信搜一搜，关注“智能专利挖掘”

一直听说智慧芽在搞大模型，但搞成什么样子并不清楚。最近查文献时候，无意中看到一篇文章《PatentGPT: A Large Language Model for Intellectual Property》，细看正是智慧芽今年5月8号发布的大模型技术报告，赶紧读了一下。

之所以赶紧，是因为相比金融、医学领域，拿专利数据炼丹的工作不算多，我有印象的工作有属于预训练模型的PatentBERT，Bert-for-Patents和属于大模型的PatentGPT-J，发展速度也不快。说实话，PatentBERT仅仅用专利CPC技术分类号的部作为标签，在BERT-base上微调了一下，这种工作的贡献并不多，谷歌的Bert-for-Patents是个实打实的东西，他们使用了Bert-large的模型规模设定，使用了1亿篇英语全文专利数据重新创建词表并从头训练了一个专利版Bert，这个模型相比通用语料训练的一般Bert，在专利数据上的能力要强大很多。2022年在专利小样本分类比赛，我们注意到相比普通Bert，Bert-for-Patents的分类效果直接提升了至少5个百分点，后来这个trick就成了公知常识，大家都开始都用Bert-for-Patents，于是这个比赛就演变成了在Bert-for-Patents基础上继续卷。

回到大模型，在智慧芽技术报告出现之前，PatentGPT-J是通过公开消息可获知的、唯一的、在预训练阶段就有专利信息重度参与的专利领域垂直大语言模型，该模型由台湾阳明大学的Lee基于1976年至2021年间共计731G专利全文数据，在GPT-3的开源替代大语言模型GPT-J-6b上从头训练而成，最终形成参数量为从1.15亿到60亿的7个模型版本，其中最大四个模型版本已经上传Huggingface网站并提供公开下载。但这些模型只是基座大模型，并没有经过有监督微调和基于人类反馈的强化学习，还不具备对话能力。今年4月8日Lee又发了一篇新文章，即InstructPatentGPT: training patent language models to follow instructions with human feedback，显示出他们已经开始使用有监督微调和基于人类反馈的强化学习来解锁专利垂直领域大模型的能力了。一年前我们曾想过拿基座大模型微调一下，看下它们在专利任务上的效果相比通用模型是否有所提升，但由于种种原因未能成行。后来我们在硬件算力和人力资源要求较少的LLAMA2-7B-CHAT、LLAMA2-13B-CHAT上跑了下基于上下文学习和高效微调的专利命名实体识别，得到一些有趣的结论，目前这篇文章正在审稿。

相比高校学者，智慧芽可以投入的人力、资源无疑要大很多，但即便如此，研发风险也很高。坦白说，就大语言模型的垂直应用来说，专利分析并不是一个好的示范领域，专利侵权无效、新颖性判别、创造性判断、区别技术特征识别、跨篇章实体消歧术等等这些关乎专利实务的核心内容，放到计算机领域也非常棘手、甚至在近几年内看不到产品级解决方案的曙光。很可能真金白银投进去了，最后只是做了后来者的铺路石。所以当看到智慧芽从头训练大语言模型，并打算打通基座模型预训练à有监督微调à基于人类反馈的强化学习à专利信息智能应用整个链条时，我感觉很振奋也很佩服，现在确实需要有这么个企业愿意试水、投入并做出改变整个专利信息服务行业的服务现状、促成行业整体能力水平跃迁的尝试。

回到《PatentGPT: A Large Language Model for Intellectual Property》，其核心内容如下：

(1)智慧芽在LLAMA2词表的基础上，新添加了23,296个词元，从而形成了同时包含中英文的双语词表，以进行多语言大语言模型训练，他们分别使用了LLaMA2 (13B), LLaMA2 (70B)和Mixtral 8 × 7B的模型框架进行预训练，训练框架为英伟达的Megatron-LM 分布式训练框架，batchsize设置为400万，并将训练后的模型命名为PatentGPT-0.5, PatentGPT-1.0-Dense 和PatentGPT-1.0-MoE；

(2)智慧芽准备了包含2400亿token的“面向知识产权的数据”作为训练数据集，这个“面向知识产权的数据”也不完全是专利数据，它包括公开数据如网页、百科、书籍、试题数据库、代码仓储、新闻、论文等，还有内部数据如专利、标注数据集、诉讼记录和File wrapper等，这个File wrapper的说法少见一点，据原文解释是从专利申请到授权流程中有关申请材料、审核、修改、复议等记录在专利受理局的书面文件。我个人认为File wrapper是整个训练数据集的精华，它记录了有可能破坏目标专利可专利性的其他文件以及其中的证据和依据，这块内容深挖下去的话，有可能实现专利审查、X文件识别等任务的部分自动化，这对当前专利信息服务来说无疑是一个巨大的进步。智慧芽公布了一个训练数据集的配比如下图。

(3)智慧芽准备了2400亿token的预训练数据，在规模上与GPT-3的3000亿token和codex的1000亿token处于同一量级上；在有监督微调上，智慧芽收集了4.3万标注数据，这4.3万标注数据包括3万通用标注数据，如FLAN、COIG、BELLE、Firefly、 MOSS、Ultrachat和1.3万知识产权标注数据，包括技术含义总结、技术实现总结、专利对比等等，相比openAI的instructGPT的1.3万有监督微调数据，也处于同一数量级；在基于人类反馈的强化学习上，智慧芽创建了10万人类偏好数据，包括2万专家标注的偏好数据和8万AI自动标注的偏好数据，所谓8万AI自动标注的偏好数据，即使用GPT4、chatGPT标注的偏好数据，相比instructGPT 为奖励模型准备的3.3万标注数据和PPO的3.1万标注数据，也处于同一量级。

(4)智慧芽创建了一个用于微调专利垂直领域大语言模型的基准数据集PatentBench，他们宣布今年第四季度公开这个数据集，该数据集集成了专利代理、专利审核、专利分类、总结关键技术点、专利说明书撰写等内容，具体来说，包括250个中文专利问答对和250个英文专利问答对，300个基于技术公开文件的专利说明书草稿、重写、提炼以及对权利要求项的补充，1180个专利分类样本，包含技术效果、技术问题、技术含义和专利摘要各300个的专利总结，包括专利侵权、推理句子间逻辑关系、数学和逻辑推理在内的247个样本，包含300个拼写错误的专利更正样本，以及500个中译英和500个英译中的专利平行语料。

(5)智慧芽选取了2019年专利代理师资格考试的200道选择题作为测试集，每个题目得分0.5分，考试下来PatentGPT-1.0-Dense和PatentGPT-1.0-MoE分别得分65和60，而ChatGPT-3.5-turbo, GPT-4-1106-preview的得分分别是25和56。另外，在6月6日举办的智慧芽技术开放日活动中，智慧芽人员宣布其PatentGPT-1.0-MoE通过了专利代理师资格考试，而PharmGPT-0.7通过了中美医药考试。

将这篇文章和6月6日智慧芽技术开放日的公开内容结合着看，能收获不少新鲜知识，考虑到当前专利分析平台普遍存在同质化现象严重的问题，专利分析功能长期停留在数数阶段，这种新鲜知识很有些解渴感。这实际上也反映出越来越多的知识产权业内外认识加入进来，通过分享研发心得、贡献标注数据、举办数据竞赛等方式改变现状并融入智能技术的大生态，国外有波茨坦大学公开了包括600万条记录的专利诉讼数据集PatentMatch，谷歌发布了包含约5万个术语对的专利术语匹配数据集PhraseMatching；国内方面，就是PatentGPT这个技术报告中提到一个新的专利评测公开数据集MoZIP，包含专利多项选择题2000道、专利问答提100道和专利匹配题1000道。MoZIP的发布者包括中科院深圳先进技术研究院、深圳大学、深圳技术大学和哈尔滨工业大学，我以前没有发现这几个单位在专利智能挖掘上的相关研究成果，这是个好事，希望以后能有更多力量进入这个领域