我要投稿

重磅干货！2024年大模型总结与展望（技术上篇）

发布日期：2024-12-25 09:56:55 浏览次数： 7416 作者：寒武纪人工智能

2024年是AI时代迈向一个新阶段的开局之年。身处变革的洪流之中，我们见证了许多激动人心的技术成果。大模型技术的飞速发展，令人眼花缭乱。临时岁末，本公众号将与大家一起回顾和展望。本篇将从技术角度帮大家一起梳理。

大模型技术发展现状

1.1基础模型

2024年，大模型的缩放定律依然有效。全球大模型井喷式发展，无论是语言、视觉、声音还是多模态大模型，都在依据缩放定律进行快速迭代升级。

语言模型已经发展了一定的基础能力，再明显的增长不是特别容易，现在进入了语言模型的深水区。目前基础模型发展焦点正在朝多模态大模型转移，多模态大模型正在加速突破。

就模型的具体表现而言，依据智源研究院发布国内外大模型的评测报告显示：

语言模型：针对一般中文场景的开放式问答或者生成任务，模型能力已趋于饱和稳定，但是复杂场景任务的表现，国内头部语言模型仍然与国际一流水平存在显著差距。

视觉语言模型：开源模型架构趋同（语言塔+视觉塔），但表现不一，其中较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距，而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。

文生图模型：上半年模型普遍无法生成正确的中文文字，下半年这种情况有较大改善，但整体普遍存在复杂场景人物变形的情况，针对常识或知识性推理任务，小于3的数量关系任务表现有所提升，大于3的数量关系依然无法处理，涉及中国文化和古诗词理解的场景对于模型而言是不小的挑战。

文生视频模型：画质进一步提升，动态性更强，镜头语言更丰富，专场更流畅，但普遍存在大幅度动作变形，无法理解物理规律，物体消失、闪现、穿模的情况。

语音模型：得益于文本大模型的进步，能力提升巨大，覆盖面更全，但在具体任务上与专家模型还存在一定差距，整体而言，性能好、通用能力强的开源语音语言模型偏少。

综合评测：智源研究院联合与海淀区教师进修学校新编了K12全学段、多学科试卷，考察大模型与人类学生的能力差异，其中，主观题由海淀教师亲自评卷。本次K12学科测验综合得分相较于半年前提升了12.86%，但是仍与海淀学生平均水平存在差距；在英语和历史文科试题的表现上，已有模型超越了人类考生的平均分；模型普遍存在“文强理弱”的偏科情况。

1.2模型算法

2024年，全球大模型能力得到飞跃提升，其中原因之一是模型的算法在大浪淘沙中得到优化。

上下文长度扩展：当前国内外主流大模型支持的上下文长度都在128K以上。

上下文长度得以扩展，主要得益于以下几种算法：位置跳跃训练相关算法（如PoSE 算法和CREAM 算法）、渐进式训练及相关优化算法（如LongRoPE 算法）、注意力机制及缓存优化算法（稀疏注意力机制、基于分页的 KV 缓存注意力机制）、插值及缩放法则相关算法（NTK-aware 插值、YaRN 插值）等。

MoE混合专家架构：

MoE架构集成了多个专家模型，每个专家模型可以针对不同的数据分布和任务类型进行专门训练，能够处理各种复杂的任务和多模态任务，当遇到复杂的自然语言处理任务时，不同的专家可以分别处理语法、语义、情感分析等不同方面。

另外，MoE架构中的每个专家模型专注于特定领域或任务，能够更深入地学习和理解该领域的数据特征，从而在各自负责的任务上提供更准确的结果，通过整合多个专家的输出，模型整体的精度和准确性得到提升。

目前 MoE 架构已成为当前大模型的重要演进趋势。

强化学习将思维链内化进模型：

9 月 OpenAI 发布的 o1 模型在后训练（Post-Training）阶段采用强化学习和思维链的技术，不仅在“慢思考”后回答复杂问题的表现优异（尤其是在 STEM领域的推理能力显著增强），还具有了自我反思与错误修正能力，使自博弈强化学习有望成为提升语言大模型逻辑推理能力的技术新范式。具体表现如下：

强大的问题分解能力：可将复杂问题拆解为子问题分别解决，像处理复杂的数学应用题时，能先分解出各个条件和关系，再逐个求解，提高解题效率.

策略多样性：能够尝试不同解决策略，找到最优解，如在编程问题中，可尝试不同算法和逻辑结构，选择最佳方案，提升答案准确性。强化学习机制引导模型通过不断尝试不同的推理路径来构建思维链。模型根据奖励信号调整生成思维链的策略，使其更符合问题的逻辑和要求。

自我纠错机制：具备识别和纠正自身错误的能力，增强答案可靠性。如在文本生成中，若出现语法或逻辑错误，模型可自行检测并改正。思维链中的每一步推理结果都可以作为强化学习的反馈信息，帮助模型更好地理解问题和评估当前推理路径的优劣，从而进一步调整策略，优化思维链的生成。

视觉 Transformer 模型（ViT）：

ViT是一种将 Transformer 架构应用于视觉识别任务的技术，它把图像视为一系列的 “视觉单词” 或 “Token”，通过自注意力机制捕捉图像块之间的全局依赖关系，以实现图像特征的提取和分类。

目前，业界主要聚焦模型结构和下游任务两方面对 ViT 模型进行改进。在模型架构改进方面，微软的 Swin Transformer、Meta 的 MAE、DeiT、SAM、DINO2、苏黎世联邦理工学院的 PVT、McGill 大学的 CvT 等模型从多尺度、知识蒸馏、自编码等方向改进 ViT 网络结构，在图像分类、目标检测与分割、图像检索、深度估计等传统视觉任务上取得突破。

视觉模型未来的趋势是：

跨模态融合：与文本、语音等其他模态数据融合将更加深入，实现对多源信息的综合处理和理解，如在智能驾驶场景中，结合车辆传感器数据、语音指令等，更全面地感知和理解驾驶环境.

模型压缩与加速：研究更有效的模型压缩和加速方法，使其能在资源受限的设备上高效运行，如在移动设备、边缘计算设备上实现实时的视觉任务处理.

自监督与弱监督学习：借助模型的灵活性与泛化能力，减少对大量标注数据的依赖，提升在小样本、无标签或噪声环境下的学习效能.

与硬件协同发展：与新型 AI 芯片深度融合，催生出高效、低耗的异构计算架构，推动在边缘设备上的广泛应用.

扩散模型：

扩散模型基于马尔科夫链的扩散过程逐步从噪声中重构出所需的数据，广泛应用于高质量图像与视频的生成、编辑与修复等场景。目前头部人工智能厂商聚焦通过扩散模型持续提升图像生成能力，包括Stability AI 的 Stable Diffusion、OpenAI 的 DALL·E、谷歌的 Imagen等。

扩散模型未来发展的趋势是：

不断提高性能，生成的样本质量更高、细节更丰富、更接近真实世界，能够更好地满足各种复杂应用场景的需求。

生成可控性增强，开发更先进的控制方法，让用户能够更精确地控制生成结果的内容、风格、结构等方面，满足不同用户在不同场景下的多样化需求，提高模型的实用性和可用性。

语言塔+视觉塔的多模态架构：

语言塔和视觉塔分别负责处理文本和图像信息，通过特定的连接方式或交互机制，使二者协同工作，从而更有效地完成图文理解相关任务，如视觉问答、图像字幕生成等。

语言塔对输入的文本进行词法、句法等分析，将其转换为向量表示，提取文本特征。视觉塔则对图像进行卷积等操作，提取图像的颜色、纹理、形状等特征。通过跨模态注意力机制等方法，让语言塔和视觉塔的特征进行交互融合，使模型能够在不同模态信息间建立关联，如在生成图像字幕时，将图像中的物体与相应的文本描述对应起来。基于融合后的特征，模型进行联合理解和生成任务，如根据图文信息回答问题、生成符合图像内容的文本描述等。

多模态双塔模型未来发展的趋势是：

双塔融合方式将更加复杂和高效，不仅在高层特征上进行融合，还会在底层特征等多个层次上进行深度交互，以更好地挖掘图文之间的语义关联。

1.3训练数据

作为大模型学习、训练和验证的“燃料”基础，大规模、高质量、多模态数据集对于多模态大模型能力提升愈加重要。面向大模型的新一代数据工程成为核心技术手段。

依据信通院的报告，新一代数据工程有以下几个特点：

数据预处理：

数据预处理技术正朝向多模态融合、智能化、实时性全面进化的方向发展：

1、多模态数据融合技术正在发展，以实现不同数据类型如文本、图像、音频和视频的有效整合。这一趋势旨在构建统一的多模态词元序列空间，以支持模型对复杂信息的理解和生成。例如，OpenAI的GPT-4o模型通过统一对齐不同模态的词元向量，将响应时间缩短至320毫秒，接近人类对话速度。。

2、数据预处理的自动化和智能化水平正在提升，未来将更多依赖AI技术来优化预处理步骤，减少人工干预，提高效率和准确性。比如自动识别数据模式、智能选择预处理策略。

3、实时数据处理能力正在增强，以应对大规模实时数据流，重点在于低延迟处理技术，如流式计算、实时分析和即时反馈机制。

4、边缘计算的应用趋势日益明显，以应对大数据量的增长，通过分布式架构提高处理效率和响应速度，例如使用Apache Spark等框架，在集群中并行处理数据，可有效提升数据预处理效率。

数据标注：

数据标注逐渐向专业化、智能化、多模态方向发展。

1、自动化和智能化标注工具的创新成为关注点，这些工具通过算法初步标注，再由人工校验和修正，提高效率，降低成本。

2、多模态数据标注技术融合成为新趋势，结合不同模态（图像、声音、文本和视频）的数据进行联合标注，满足更复杂场景的需求。

3、持续学习和反馈机制的引入，促进数据标注质量和效率双重提升。通过标注数据反馈给AI模型，不断优化模型性能，形成标注-训练-反馈的闭环，不仅能提升模型精度，还能指导标注策略的动态调整，确保标注工作更加高效和具有针对性。

数据合成：

有机构预测：到 2026 年大型语言模型的训练就将耗尽互联网上的可用文本数据，未来需要借助合成数据解决大模型的数据瓶颈。根据 Gartner 预测，到 2024 年，60%用于 AI 开发和分析的数据将会是合成数据，到 2030 年，合成数据将成为 AI 模型所使用数据的主要来源。

当前，合成数据技术创新主要呈现以下几大趋势：

一是合成数据模型走向深度进化。传统的数据合成方法多依赖统计学和机器学习的基本原理，当前数据合成技术聚焦于深度学习算法模型，特别是生成对抗网络(GANs)的广泛应用。GANs 通过一对竞争性神经网络—生成器和判别器的博弈过程，实现了前所未有的数据真实度与多样性，诸如 StyleGAN、BigGAN 等高级变种网络技术，极大拓宽了数据合成的应用边界。

二是多模态合成能力不断突破。多模态合成技术通过整合不同模态的特征表示，能够同时生成声音、视频、3D 模型等多种类型的数据，不仅丰富了合成数据的维度，也促进了多模态理解和生成任务的进步，为复杂场景应用（如自动驾驶、虚拟现实等）提供了重要的技术支持。

3、强化学习与合成数据的融合，模拟复杂环境下的交互数据，帮助智能体在安全、成本效益高的虚拟环境中学习策略。这种结合不仅解决了现实世界数据获取难、风险高等问题，还极大地提升了智能体的学习效率与适应能力，尤其是在自动驾驶、机器人导航等领域展现出巨大潜力。

4、隐私保护与合规性技术的发展，提供了在不暴露敏感信息的前提下生成高质量数据集的解决方案—差分隐私、联邦学习与合成数据的结合，使得在不暴露原始敏感信息的前提下，也能生成可用于训练的高质量数据集，这不仅保障了用户隐私，也为金融机构、医疗保健等行业利用 AI 技术创造了条件。

质量评估：

数据质量评估和模型反馈机制共同推动数据质量不断提升，具体表现如下：

1、质量评估与反馈机制深度融合。数据质量评估引入客观的数据质量评估指标和模型反馈机制，使得数据使用者可以评价数据集的实际综合表现，并反馈给数据提供者以改进数据采集和处理流程。如OpenAI 推出了 CriticGPT，旨在帮助人类评估和检测大型语言模型（LLM）生成的代码输出中的错误，CriticGPT 通过训练生成自然语言反馈，可以评估出代码中的质量问题，并且在检测自然发生的 LLM 错误时，其生成的评审比人类评审更受欢迎，准确率高达 63%。

2、多模态数据质量评估框架快速发展。针对图像、语音、文本等多种类型数据，设计发展了综合评估模型，确保跨模态数据的一致性和互补性。通过融合计算机视觉、自然语言处理和语音识别技术，实现多维度数据质量的全面评估。

3、偏差与公平性评估成为数据质量评估重要组成部分。通过算法审计和统计测试，确保训练数据的均衡性和代表性，减少模型输出的不公平性。

4、动态数据质量监控体系逐步完善。利用实时分析和流处理技术连续评估数据质量，即时反馈数据问题，支持快速响应。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业