微信扫码
与创始人交个朋友
我要投稿
生成式预训练Transfomer模型
GPT 的全称为 Generative Pre-Trained Transformer,即生成式预训练 Transfomer 模型。基于 GPT 架构,OpenAI 构建了可以应用在多种任务上的大规模语言模型,并成功应用在商业领域。大规模语言模型 Large Language Model (LLM)是一个基于 Transformer 的神经网络,由具有许多参数(通常为数十亿个权重或更多)的神经网络组成,使用自监督学习在大量未标记的文本上进行训练。而 2022 年初推出的 InstructGPT 引入新技术 RLHF(基于人类反馈的强化学习),该技术可以直接从人类反馈中训练“奖励模型”。当处理包含人类价值观和人类偏好的复杂任务,包括但不限于文本分类、生成文本以及回答问题[4]时,RLHF 可以生成与人类价值观相符的答案,并能够拒绝与其价值观不符的任务。这提高了强化学习的鲁棒性和探索性。
Transformer 模型来自谷歌 2017 年发表的论文《Attention is all you need》,作为一种采用自注意力机制(Self-Attention)的深度学习模型,Transformer 是目前常见大规模语言模型的核心组件。模型按照输入数据各部分的重要性的不同而分配不同的权重。
该模型颠覆了传统的循环神经网络 (RNN)和长短时记忆网络(LSTM)的建模范式,在自然语言处理任务中取得了显著的成功。
Transformer 的优势在于:
采用并行训练,大幅提高了训练效率;
能够在处理文本时捕获长距离依赖关系,避免了传统 RNN 和 LSTM 中的梯度消失问题。
可以应用于多种自然语言处理任务,如文本生成、分类、翻译等,具有很高的通用性。
经过多次迭代,参数量大幅提升。
Transformer 结构的提出,使得深度学习模型参数突破了 1 亿。从 lenet、Alexnet、ResNet 开始,模型参数日益增长。到了 BERT 网络模型的提出,参数量首次超过 3 亿规模,鹏程盘古实现千亿参数规模,OpenAI 于 2020 年 5 月推出第三代 GPT-3 模型参数量达 1750 亿。
目前,通用大模型已经成为人工智能领域的研究热点,国内外均有研究成果和商用模型陆续发布。其中国外大模型研究起步较早,OpenAI、谷歌等公司为代表经过多年研究,大模型版本不断迭代,规模逐渐扩大,性能不断提升(表1)。
表 1 国外主要大模型
国内目前已有百度、阿里等互联网头部企业入局,另有清华大学、复旦大学、中科院等科研院所以及商汤科技、智谱 AI 等人工智能企业已发布或在研大模型产品(表2)。
大模型是新一代的“操作系统”
Transformer 模型可并行运算的特性和出色的可扩展性为人工智能模型向通用大规模发展奠定了基础。一方面,Transformer 架构结构灵活,具有很强的可扩展性。通过增加层数、注意力头数等方式,根据任务和数据集规模的不同调整模型规模、改进模型性能,这为开发更大规模、更强大的模型提供了可能。另一方面,Transformer 具有良好的并行化能力,这使得其能够处理大规模数据集。
在大规模数据和计算资源的支持下,基于 Transformer 可以设计并训练参数规模上亿的大模型。这种大模型具有更好的泛化能力和性能,能够应对更加复杂的处理任务,并逐渐进入到可以大规模、可复制的大工业落地阶段[5],应用于细分领域的下游任务。
△ 图1 大模型与应用下游任务
清华大学讲席教授、智能产业研究院院长张亚勤在《AI大模型时代》的演讲中指出,“GPT+ 等各种大模型是人工智能时代的“操作系统”,对上层应用有重构、重写的作用。”不同的时代有不同的操作系统,它们决定了服务器架构和应用的形态。人工智能时代,大模型将成为底层的操作系统,芯片架构包括 GPU、CPU、XPU,上层的云计算架构将从 IaaS–PaaS–SaaS,演变为 IaaS– 垂直模型/MaaS/基础模型 –SaaS。
上海大学计算机工程与科学学院邹国兵教授于 2012 年就提出了“MaaS”(模型即服务)的概念:MaaS 由基础层、中间核心层和底层扩展层三部分构成。
△ 图3 MaaS理论模型
基础层包含用户的身份信息,如姓名和职业等;中间核心层涉及用户的重要特征,如兴趣、偏好、目标等;底层扩展层含有个性化知识的用户特征,如通过语义分析和推理得到的兴趣、偏好和模型网络。基础层、中间核心层和底层扩展层共同构建了一个 MaaS 平台。平台可以作为独立的服务平台,嵌入到云计算中,位于 PaaS 层和 SaaS 层之间。从 MaaS 的构成得以看出,它可以利用IaaS层收集的个人信息,生成个性化的模型网络。百度创始人李彦宏在“文心一言”发布会上表示大模型时代下,将会产生新型云计算公司,其主流商业模式也将从 IaaS 变为 MaaS[6]。
MaaS 应用对生产制造行业的影响
大模型时代下,需要拥抱以工业大模型为基础、轻量化微调的 MaaS 服务,快速形成智能化的 MaaS 应用,优化传统工业互联网赋能方式,推动我国工业化进程[7]。
在开发设计方面,开发人员可以直接通过自然语言生成代码,提升产品易用性和个性化程度。PaaS 的开发可以基于 MaaS 平台,或者直接由 MaaS 替代,实现数据和功能的定制化。应用模型的图像生成能力,设计人员可以用更低的时间成本进行三维可视化设计,建立智能工业知识库。例如:汽车外形的研发设计可以直接通过大模型生成并给出对应的设计说明及优缺点,辅助设计师创新。
在生产制造方面,大模型能在生产制造流程中帮助工人精准设定设备的工艺参数,提供有效的精细化操作指引,在突发故障时提供快速诊断和应急解决方案建议。例如:针对复杂的仪器设备和多流程的工艺环节,大模型可以自动生成各环节工艺参数,并在数字孪生系统进行仿真输出报告供人类选择。
在运营管理方面,大模型通过对 ERP、CRM、SRM 等系统的运营数据与模型代码的理解,用户直接使用自然语言描述需求,生成仪表盘、报告或 AI 分析。同时也能与图像识别处理系统、时间序列分析等系统融合,通过深层次、多维度的数据分析。例如:大模型直接生成Excel并进行数据分析,供管理人员了解整个工厂的运营情况、提供可参考的最终决策。
在产品服务方面,大模型可以提高响应效率并创新产品服务形式。既可以通过智能客服的形式协助人工进行会话、业务处理、操作讲解,也可实现社媒推广、智能面试等创新服务。例如:大模型可以充当社交媒体 KOL,为抖音、微博、微信公众号等各种平台创建内容并与关注者互动,以推广产品或服务。
在人员培训方面,大模型可以被视为一个规模庞大、拥有专业知识体系的数据库,通过与员工的交互来输出知识,在工业领域的人员培训中多功能应用,实现智能培训。例如:模拟如应急事件、安全事故等各种突发场景,让员工在模拟实践中学习应对突发情况的方法和技能。
然而互联网领域通用的 AI 模型开发和应用与工业领域有着非常明显的差异,主要体现在数据、需求规模、精度要求、算力支持、模型部署等五个方面 [8]。百度、腾讯、阿里巴巴、华为等国内科技企业在 MaaS 领域已经展现了强大的研发实力和实践能力,在工业领域模型应用上探索了路径。百度 Apollo 提供自动驾驶、智能汽车、智能交通等解决方案;文心大模型构建了“基础+任务+行业”的三级模型体系,基础大模型支撑任务与行业大模型的建设,任务和行业大模型结合真实场景与数据反哺基础大模型优化;腾讯混元协同了腾讯预训练研发力量,完整覆盖 NLP、CV、多模态及众多行业领域任务模型;阿里巴巴“通义”大模型基于 AI 统一底座构建了通用模型与专业模型协同的层次化人工智能体系,支撑了电商、金融、物流等多个场景;华为云“盘古大模型”与昇腾(Ascend)芯片、昇思(MindSpore)语言、ModelArts 平台深度结合,已经发展出包括基础大模型(L0)、行业大模型(L1)、行业细分场景模型(L2)三大阶段的成熟体系。
因此,在行业大模型的构建和应用方面,应引导 AI 模型研发供应商与制造类链主企业展开充分对接,形成数据、训练、治理全套服务的大模型开源生态体系。朱岩教授在《2023年中国数字经济发展的十个趋势》一文中提出预测,如同 2C 的大型平台经济企业一样,在 2B 领域也将涌现大量新型的产业数字服务平台企业。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-06-19
2024-07-16
2024-03-27
2024-06-13
2024-07-20
2024-07-29
2024-06-20
2024-05-31
2024-06-20
2024-06-20