AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


LLM 、AGI碎片化思考与回顾:Little Prompt,Big Power
发布日期:2024-06-03 08:31:07 浏览次数: 1802 来源:塔罗烩


阅读提示:

本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成,在内容上,与不久前刚刚完稿的那篇10万字文章「融合RL与LLM思想,探寻世界模型以迈向AGI」间有着非常紧密的联系,可以说,这篇长篇文章中的很多内容也是基于这些碎片化的思考与沉淀,当然也正是这样的一个个碎片化的、看似玄幻大胆、step by step的探索过程,才促成我最终完成那篇看上去并不是特别易读的文章。

因此,这个系列文章将以笔记的形式,去重新回顾体会一下自己去年的这些碎片化思考与探索历程,并希望将这些碎片化的、step by step探索式的思考与历程分享给大伙。一方面去回顾、修正自己之前的思考和观点,一方面作为那篇长文阅读的补充参考,并在其中的内容中标注出与其相关的阅读指针与提示。

在内容记录形式上,因为一年前自己的思考历程按时间顺序记录呈现出一定的主题割裂与内容的碎片化,我将尽量按照时间线顺序向大家呈现一年前自己的想法,内容上可能进行一些合并和整合但会保持原文内容不变。

另外大伙需特别注意哈,因为需保持之前内容不变(仅修改笔记上的笔误与错字),所以一年前的想法跟当前的认知可能会有较大的差异和改变,也会存在一些不成熟观点,千万不要被我当时片面的观点所误导。主要是也想给大家抛出一些过去技术进展当中存在的一些问题和关键点,当然如果大家针对我过去或刚完稿的那篇文章有更有建设性的意见甚至批评指正那就更好了!

最后,为了不让这个系列笔记显得不那么单调,在每一篇内容中会附上一些过去自己经历的有趣的生活照片或的图片,有吃喝玩乐,有学术美图,也有搞笑娱乐。





「2023年02月21日 · LLM给我们带来的Prompt世界」

背景提要

今天将回忆的时间点再尝试往前回溯1年3个月之前,ChatGPT刚刚面向公众开放服务的第5个月。在这5个月当中,除了模型其强大的内容生成能力给大众带来的持续冲击与一次又一次的惊喜之外,更多长期在这一领域从事研究或工作的人们也在逐渐接受和改变着之前自己无论从事于AI算法领域,亦或是AI工程化、AI产品设计的诸多工作内容与形式,其中有一项对于LLM来说非常特殊的关联技能,不管是对于模型在训练与推理阶段的算法建模创新来说,还是模型在推理与应用重构方面均变得尤为重要,即「prompt」。

当前,prompt技术已经成为人们围绕大语言模型·LLM的一项重要工具或技能,如不管是与在LLM的内容交互生成领域中的角色扮演、长上下文理解、COT或*OT等思维推理模式还是当下的RAG或Agent框架等等,可以说背后都能隐约的感受到prompt在其中的作用与内涵。

因此,回到一年多以前,那会记得ChatGPT刚发不久,在整个nlp领域除了充斥着大家惊讶于GPT的生成能力表现外,相信gpt其背后的很多技术内涵与思想也瞬间激活了大部分nlp研究者大脑中的某一簇神经元,即被prompt到了,这里我想有包括诸如transformer,prompt,自回归AR,tokenize,alignment甚至是scaling law..

因此,今天将以prompt为prompt,跟大家分享一下自己一年多以前的关于prompt那些事儿一些思考和猜想。

同样,需大家注意的是:因为时间跨度比较长且为了尽量将我的思考内容记录维持原样不做改动,难免那会的思考会存在不成熟、片面、局限甚至是表述不清、错误的观点,但即便这样,我仍然相信在字里行间中,大家能够体会并挖掘出一些对自己当下和未来的一些有价值的prompt。

ps,大家也可以对照「融合RL与LLM思想,探寻世界模型以迈向AGI」这篇文章的上篇结尾处与下篇开头部分来看待prompt这一思想,我在其中也有过相关的细致的论述。

记录正文

挺突然的一个想法:

关于prompt,不仅仅是语义指令(指令可是拥有了小提示大内涵的一面)层面的提示,而是一种强语义内涵与知识表征层面的增强,即是在某种暴力美学下的适配于模型参数化scale-out的能力增强。

想法来源:

在prompt上的本质思考:添加的prompt可能存在多种指令上的内涵表现形式,比如灵感类prompt,inspiration prompt,比如prompt一个知识图,一种研究模式,一种...

另一种角度理解是:一种领域的prompt,一种语法的prompt,一种风格的prompt,一种形式的prompt,一种思维的prompt,一种模式的prompt,一种数学的prompt,一种物理的prompt...

prompt与fine-tune的两种模型结构感觉一种是scale-out,一种是scale-up内涵的

★ 来自模型网络中间隐层语义空间的灵感:

① GPT是否可以将prompt自然而熟练运用于科研的洞察?(注:跟自己的工作相关)

② 中间隐层的这种语义交织下看似泛化模糊性(注:这里指生成模型的next token predict模式,在当时我还未能深刻体会这种生成模型所带来的泛化能力)意味着,GPT范式更适合输出感性,创意,创新,洞察类的任务?而非明确判别的机械性任务?

③ 在科研洞察领域,可能两个比较适配的前提:一个是模型input侧所面向的开放领域,一个是output侧的多样化,这里的多样化是广义的多样化,面向任务类型多样化的,不同于或不一定限定在大宽度文本生成,而是容纳了真实世界中多样化形式的语义空间的表征。同时,上述所谓的模糊性还需要再思考下,感觉模糊性需要从任务角度的聚焦性考量出发的,或者从gpt应用于知识抽取效果并不好的出发点来看。

再将思考延展下:模糊性也可能体现于任务输出output的随容纳的形式,输出的概率容错度,比如纯生成一个字或词的错误率模糊性很高,但知识抽取的模糊性很低,所以这种模糊度也导致了GPT这种范式的输出也容纳(包容)了不少模糊性并且可以基于tokenize进行语义表征的化解。这种模糊性可能也体现在了训练阶段,大模型训练时这种下游固定模式或信息增益新模式(比如ner,参见④中的模式)没有更多涉及,也反映出当新任务模式作为下游任务时,finetune会更聚焦。(怎么感觉问题还是出在了训练数据样本上了。。因为翻译也是一种特殊的模式,但就还可以)或者从某种意义来说,gpt是对输入形成的隐状态的平滑输出,而没有额外的对撞(外部)信息(任务)去增益他。

④ 接上↑,还有一种两者间(gpt生成式与ner判别式)的区别,gpt的任务模式是随机发散的(重点可能是tokenize的?),ner的模式是模式固定的,虽然可能两者的语义表征空间尺度是一样的,但模型受限于任务模式的不同,在模型进行前馈推理过程中会产生较大的信息变换模式。

⑤ 在预训练阶段,可能预训练任务在过程中会针对不可预知的下游特殊任务模式带来一些语义空间的信息增益(拟合),但毕竟没有finetune带来的针对特定任务模式的效果好。

20230225补充思考:

可能NER这样的知识抽取从任务特点来说,更偏向于某一领域模式的抽象任务(如对具象化的实体进行概念化识别),且在如此细窄的介于具象与抽象的世界中,很难构造这方面的训练语料,即便是类GPT-LLM预训练阶段过程中,在【整体基于模型结构的数学变换任务收敛方向】上,很难自然的在输出隐层阶段形成很好的模型预测效果,因此需要finetune,finetune的是这类抽象任务的拟合程度。

因此,结合一周前思考下两种作用于模型的过程(prompt&finetune)的等价或等效性:

① 模型神经网络在进行神经元信号激活前向传播推理过程中数学变换上的等价

      在纯数学维度上,一种是所谓的scale out(prompt),一种是scale up(finetune),即 一种从prompt input侧来驱动信号的激活通路,因未来随着模型通用性与prompt的多样化的增强,因此直觉上感觉对于模型的神经网络是一种scale out的激活变换模式;一种是参数侧主导来加权激活路径,即传统的下游模型finetune,更多是传统领域内限定任务,在任务模式上趋同于实体与概念间的规律映射,因此种任务场景会未来随着领域模式的逐渐深化而提升其模式识别的复杂性,因此直觉上是scale up的的扩展激活变换模式。但两者本质上都是通过模型网络中间的神经元信号激活所映射的数学变换来进行预测;

② 不同任务类型及对应不同模型结构变换上的等价。

      这里②可能需要分别by任务和by模型结构来看,by任务参考0225这部分,by模型结构层面:所谓两种范式的等效性来自于input与output侧本质相同(随具象性有差异),模型结构的数学变换本质相同,详细解释为:对于两者不同的输入数据,模型会依据本身的模型结构及参数进行变换调整,其中重要的是变换的策略会呈现多样性及类似于生物学的多功能性,看起来是完全两个不同的本质,但其实结构所带来的变换的本质是一样的。比如类GPT大模型,在推理过程中,由于input的不同,导致了一种类MOE模型结构的数学变换(这种变换当然也依赖模型结构影响),而传统的类NER小模型,由于其模型结构与上述LLM大模型差异巨大,针对不同的输入,模型肯定也会依据自身的参数结构进行推理过程中的变换,只不过变换的复杂度会小很多(不会产生类似参数finetune这样大的幅度,而上述LLM由于内部使用了attention,moe或adapt机制,这种变换达到了finetune级别)。

再稍加补充一下:

【一切的秘密可能隐含在模型结构中】,0225补充所说的任务维度考虑的问题,感觉由于在模型输出隐层侧,如NER这种任务的模型结构(输出)属于小结构变化,因此才需要finetune,不然无法达到finetune那种幅度。而从这里看出,模型结构所蕴含的数学,任务与数据范畴中的一系列内涵。

回过头来看,上述这些本质的理解和观点是不是能够帮助我们在规划更复杂AI任务训练与建模场景时,得到一些正确的指引与启示呢?另外,从更深刻的层面,也许能够帮助我们更全面的理解LLM如此令人惊讶背后的内涵,并在此基础上在围绕LLM的工程应用开发甚至是LLM的能力提升上给出一些思路。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询