通信与计算的快速发展,为人类带来了几十年飞速发展的互联网时代。从通信来看,其目的是连接和传输,是将信息无差别、少差错的进行传送,它关注的是数据如何从一点移动到另一点。虽然人工智能诞生于计算机技术,仍然是0101的数字集合,但以大模型为代表的人工智能本质是模拟和增强,模拟人类智能,增强预测和决策。
可以说,通信代表的是静态的传输过程(尽管网络本身是动态变化的,但通信过程本身是按照既定的协议进行的),大模型代表的是学习和推理的动态活动。这么看,当通信遇到大模型肯定会产生很多的奇思妙想和火花四溅。
一、大模型技术原理
大模型的发展速度是以天为计,在群雄大战中,大模型逐步向终端应用下沉。虽然目前大模型厂家众多,但追本溯源仍然是“Attention Is All You Need”。1.1 Transformer模型
Transformer模型采用自注意力机制来处理序列。Transformer模型包含编码器和解码器,两者均由N个相同的层堆叠而成。编码器负责输入,理解输入文本并构造语义表示。解码器负责输出,生成目标序列。编码器中的每个层由多头自注意力层和全连接前馈网络层两个子层构成。解码器相比编码器多出一个掩码多头自注意力层。注意力机制的引入使得Transformer 模型在处理序列的每个元素时,能够考虑到整个序列的上下文信息,从而在任务中表现出并行化训练和性能优异的特点。同时,Transformer架构允许比RNN更多的并行化,这使得GPU并行训练成为可能。
Transformer 模型的提出极大地推动了大模型的发展,演化为3种主要架构:仅编码器(encoder-only)、仅解码器(decoder-only)、编码器-解码器(encoder-decoder)。3 种架构各有优劣:仅解码器架构更多关注于从已有的信息扩展出新的内容,适合文本生成和扩展类型的任务,但需要大量的训练数据来提高生成文本的质量和多样性。仅编码器架构能更好地理解输入文本的语义和上下文信息,适合理解和分析类型的任务,缺点是无法直接生成文本输出。编码器-解码器架构能更好地处理输入序列和输出序列之间的关系,适合需要理解输入内容并生成相关响应的任务,如机器翻译、生成式问答等,但模型复杂度较高,训练时间和计算资源消耗较大。仅解码器架构代表性的有GPT系列、LLaMA、PaLM等。仅编码器架构代表有BERT系列。编码器-解码器架构的代表模型有谷歌的T5 模型、Meta A的BART模型、华为的Pangu大模型等。
1.2 训练
大模型训练首先是数据预训练,与其他人工智能技术不同,大模型使用大量无标注或弱标注的数据来训练模型的基础参数,使其能够学习到语言的通用规律和知识。这也就是自监督学习,需要有大量、高质的数据集。在大模型的预训练阶段,大模型从大规模数据中抽取和学习复杂的语言结构和语义信息,理解语言的丰富特征。获得通用语言表示的能力。
预训练完成后,大模型已经具备处理各种任务的通用能力,但不一定符合特定场景的需求,因此在预训练之后进行微调。微调通常采用监督学习的技术路线。由于使用的训练数据通常包含标签或特定任务的指导信息,监督学习能使已经预训练过的模型针对具体的应用进行优化,提高了特定任务上的表现,进一步提升预训练的语言模型的性能和适应性。
大模型的训练以语言建模的目标,但语言是文化的一种表现,所以需要让大模型能理解人类的价值观或偏好,避免产生有害的、误导性的或有偏见的表达,为此引入对齐技术。对齐是基于人类反馈的微调方法,根据人类反馈来学习一个奖励模型,从而对大模型的行为进行调节和优化。主要由3个部分构成:
a)一个预训练的语言模型。可以生成自然语言文本或执行其他任务。
b)一个从人类反馈中学习得来的奖励模型。可以评估语言模型的输出质量和符合度。
c)一个用于训练语言模型的强化学习算法。可以利用奖励模型的指导来更新语言模型的参数。
在有监督微调阶段,使用标注数据来对语言模型进行初始训练,以适应特定的任务和领域。在奖励模型训练阶段,使用人类反馈数据来对奖励模型进行训练,以捕捉人类对模型输出的偏好和评价。在微调阶段,使用强化学习算法来对LM进行进一步训练,以最大化奖励模型的期望值。
在大模型训练过程中,预训练通过自监督学习为模型提供广泛的语言理解能力。微调和对齐则确保模型在前者的基础上针对特定任务实现优化。这种互补策略极大地提升了模型在多种自然语言处理任务中的泛化能力。
二、NetGPT?
大模型的应用效果直接点燃了各行各业的使用激情。通信行业语言大模型(NetGPT)在通用语言大模型的基础上引入通信行业的数据和知识。通过重训练、调优、知识增强等方式形成具有强大知识理解和生成能力的行业领域大模型。它可以自动解答常见网络专业问题,自动识别并修复网络故障,自动优化网络性能,并且可以与人类进行自然语言交互。
2024年MWC展会上,华为发布通信行业首个大模型,华为ICT 产品与解决方案总裁杨超斌表示:“华为通信大模型将提供基于角色的 Copilots和基于场景的 Agents两类应用能力,最终将全面提升网络生产力。”在大会现场的演讲中,他表示,大模型可以通过语言交互的方式,提供精准的网络状态、故障根因、处理建议等信息,协助降低故障处理时间至少 30%。比如,在移动承载网络场景,基于网络数据和决策链推理,快速定位原因,平均故障处理时长从 2.5 小时降低到 20 分钟。
大模型可以理解和生成语言文本,执行广泛的相关任务。这一特性和通信网络融合,可以为运营商带来众多能力的提升。
首先,大模型可作为工具用来改进信息通信服务能力,例如其在自然语言上的强大能力可用于提升智能客服、智慧运营、欺诈监测等运营服务功能。而且通信网络的巨量数据可用来训练通信网络大模型赋能网络自主运行。其次,大模型在语言上的成功,肯定会延展到图像、视觉方面,而这些底层能力将极大提升千行百业数字化转型。不过有一说一,除了在问答方面,大模型如何在行业深度应用还在起步发展阶段,但可以预见,具有大模型将在高通用性、卓越的性能提升、简化的管理、便捷的协作、多任务处理能力等方面推进通信网络的发展。
《Ten issues of NetGPT》针对无线通信网络,认为RAN、CN、OAM在功能特性、数据结构、性能要求等方面差异巨大。因此在无线网络的每个部分部署NetGPT时会有巨大的差异。无法以单一模型涵盖无线通信的所有场景,而是一系列涵盖不同技术领域和供应商的模型。
在《Ten issues of
NetGPT》中,为NetGPT定义了三个层次的代理,即第0层(L0)、第1层(L1)和第2层(L2)。NetGPT-L0代理代表大型网络模型。NetGPT-L1代理指的是不同技术领域的大模型,如RAN、CN或OAM。NetGPT-L2表明模型更专注于更专业的情境,例如,物理层RAN的NetGPT-L2代理和OAM网络优化的NetGPT-L2代理。
目前来看,通过在大规模语料库上进行预训练,进而在多种下游任务中微调,从而展现出电信语言的理解能力。L.BARIAH等通过微调 LLM 来识别第三代合作伙伴项目(3GPP)技术文档中的规范类别,证实了在电信领域的应用价值。LLM 还被用于辅助网络运营(NetOps)和增强网络管理,如 LLM 可以作为 NetOps 中的常识性知识和推理能力的良好工具。尽管在直接操作网络拓扑方面,LLM 依然存在可性、可解释性等问题,但S.K.MANI等提出的新框架通过生成自定义代码来解决这些问题,推进了网络管理实践。
三、或许,能更强?!
以上大模型与通信网络结合的应用更多的是基于大模型技术或者工具来提升通信网络的自治、理解能力。但随着通信和大模型的进一步协同发展,将会产生颠覆性的变化。
现在通信网络是基于数据的传输,各个通信对象之间进行比特数据的交流。未来网络将人和拥有不同智能程度的机器相互连接起来,使得人-机-物-智慧4类通信对象之间产生大量不同形态的数据。语义和有效性成为“万物智联”不可忽视的重要因素。另外,人类活动范围不断朝更高、更深发展,在太空、深海面临强烈的信号干扰,还要保证信息准确及时传递成为通信领域另一个需要研究的课题,这便是语义通信。
和语法通信不同,语义通信泛指在不同的智能体间进行以“达意”为目标的通信,其核心在于将语义在通信双方之间的准确传递设为目标。语义通信并不要求信息的大量符号级准确传递,而是关注发送端输人的语义信息与接收端恢复出的语义信息之间的匹配,通过减少信息交流和理解的时间,提升通信节点协作的效能。
可见,语义通信重点关注信息的“意义”或“语义”内容的传俞和理解,而不仅仅是数据本身。在语义通信中,信息的发送者和接收者会共享一个语义理解的环境,使得信息的传输不仅限于数据,更包括数据背后的含义。例如,一个语义通信系统可能需要能够分析和理解自然语言,识别语音中的情感彩,甚至是非言语信息,如语调和停顿的意义。而这便是大模型擅长的语言理解。
当前,语义通信还处于较为初级的研究阶段,其研究成果主要集中在利用人工智能完成语义的编解码与传输。但业内认为语义通信有望突破基于经典信息论的通信系统传输瓶颈,解决基于数据的移动通信系统中存在的人机不兼容、难互通等问题,最终实现“万物智联”。
IMT-2030(6G)推进组、欧盟奏鸣曲(SONATA)计划等都将语义通信视作一种打破跨域通信壁垒、提高传输效率的6G关键技术。华为发布的“后香农时代面向数学的十大挑战问题”中将语义通信的基础理论研究作为首要问题。在标准化方面,国际电信联盟电信标准化部门(ITU-T)的第20研究组(SG20)和第13研究组(SG13)分别提出语义通信的国际标准技术报告《面向物联网和智慧城市/社区的语义通信架构》和《面向未来网络的语义认知网络需求》。中国通信标准化协会(CCSA)的无线通信技术工作委员会(TC5)也设立了基于语义通信的“智简通信关键技术研究”项目。
四、闲聊
在探讨通信网络与大模型的可能结合之后,我们对未来发展充满了期待与信心。通信网络作为信息传输的基础设施,一直是现代社会不可或缺的一部分。而大模型,作为人工智能领域的突破性成果,正在逐步改变我们处理和理解信息的方式。两者的结合预示着一个全新的智能化时代的到来。
大模型的引入将极大提升通信网络的智能化水平。通过自监督学习和预训练,大模型能够理解和生成自然语言,这为智能客服、网络监控和故障诊断等提供了强大的支持。例如,NetGPT等通信行业大模型能够自动识别网络故障,优化网络性能,并通过自然语言交互提供精准的网络状态信息,这将显著提高网络运营的效率和可靠性。
随着大模型技术在通信行业的深入理解,我们可以预见到通信网络将变得更加自主和智能。随着网络设备具备算力能力,完成云边协同的通信大模型建设,未来的通信网络将不仅仅是数据传输的工具,而是能够进行自我管理和优化的智能系统,大模型赋予网络自动设计拓扑、自行配置参数,优化资源分配,甚至预测和防范潜在的网络问题,更有可能进一步推动语义通信的发展。
综上所述,通信网络与大模型的结合将开启一个全新的智能化时代。未来的通信网络将更加智能、自主、安全,能够更好地服务于人类社会的发展。我们有理由相信,这些创新技术能够广泛应用于现实世界,为人类带来更加便捷、高效、智能的生活体验。