我要投稿

SECon 2024 | 基于开源的领域模型落地实践

发布日期：2024-06-28 16:12:39 浏览次数： 2218 作者：青哥谈AI

感谢2024年SECon全球软件工程技术大会的邀请，本人于6月28日在大会主论坛上分享了团队基于开源的领域模型落地实践，内容正契合了本次大会【拥抱AI 走深向实】的主题。国内大模型市场正经历深刻变革。百模大战中，三大趋势凸显：开源模型能力急速提升；ToB与ToC市场分化明显；企业需求从泛化探索转向聚焦核心业务。大模型正加速与产业融合，催生新的市场机遇。在此背景下，Llama 3作为当前性能最强的开源基座模型，为企业打造领域模型、实现行业价值赋能带来新机遇。本次演讲，我主要讨论了三个核心问题：

1.开源基座模型的选择逻辑：如何在隐性能力与显性能力间实现最优权衡？Llama 3有何优势与潜在短板？

2.领域大模型的构建范式：如何将开源模型能力与行业知识深度融合，实现"1+1>2"的放大效应？从数据、算法到工程，领域模型构建的关键抓手是什么？

3.从技术到价值的转化路径：领域大模型如何真正融入业务，实现人机协作下的效率提升与价值创造?

希望通过阐述这三个问题，为大家提供一个基于开源大模型实现行业价值创造的思路范式。以下是具体分享内容：

杨青_SECon-基于开源的领域模型构建实践pdf.pdf

开源崛起：大模型普惠时代来临

在人工智能领域，开源大模型正迅速崛起，成为技术创新的重要推手。在“百模大战”中，大模型的数量已经超过了300个，模型供应商开始明确自己的市场定位，以满足特定的市场需求。模型供应生态的繁荣，推动了ToB和ToC市场的蓬勃发展。一方面，互联网大厂和大模型创业公司基于自研大模型拓展C端市场，通过Web端、App或小程序来占领用户渠道，侧重用户体验，用供给激发需求。另一方面，各领域企业和解决方案服务商基于开源/闭源模型，为企业提供实际场景解决方案。

除了供给侧的上述变化，企业对大模型的需求从初期的「广泛探索」转向对「核心业务深化」，旨在解决具体问题。企业更加注重模型的实用性，希望通过大模型解决垂直领域的具体问题。然而大模型在专业性、泛化性和经济性之间很难做到三者兼顾，因此需要专注大模型在核心业务中的直接应用，细化场景，明确目标，在需求驱动和实际效果评估中提升企业ROI。

领域模型构建：融合开源优势，打造行业智能引擎

企业对大模型的核心需求在于将私域数据转化为竞争优势，并确保场景应用的安全可控。基于开源模型进行适配调优，成为企业实现这一目标的有效路线。直接使用闭源模型可能会遇到私域数据隐私安全的问题，而直接使用开源模型则可能存在性能瓶颈。“开源模型+Prompt+知识库”的路线虽然可以提高灵活性，但在处理复杂指令时仍然存在挑战，并且prompt编写难度高。相比直接使用闭源或开源模型，基于开源模型的调优可以针对特定领域需求进行微调，在少量领域数据上进行快速适配，自主选择模型结构和优化策略，全流程掌控数据和模型从而杜绝泄露风险，可谓将定制化、高效性、灵活性和可控性一网打尽。

选择合适的开源基座对于领域模型的成功至关重要。那么，如何选择开源基座呢？需要在隐性与显性能力间实现最优权衡。大模型能力的“冰山理论”指出，大模型具有显性能力和隐性能力，显性能力可以通过微调来提升，而隐性能力则需要从底层进行优化以确保模型在关键场景中的表现。显性能力和隐性能力在不同场景对显性和隐性能力的要求不同。

Llama3作为最强的开源模型，其隐性能力扎实，显性能力领先，为领域赋能带来了新机会。

尽管LLaMA3在多个方面表现出色，但在中文处理能力、专业场景应用和在线服务能力三个重要应用方面面临诸多挑战。

领域模型落地：从Llama3到行业解决方案

我在之前的分享中反复讲过一个观点：领域大模型的发展可以类比为人类的成长路径，从接受通识教育到专业深造，再到实际工作场景中的应用和反馈。在“中学生”阶段，大模型需要接受通识教育，掌握广泛的语言理解和信息处理能力，为后续学习奠定坚实基础；而在“大学生”阶段则需要接受专业教育，在大规模通用文本数据上训练模型，使其深入了解金融术语、行业案例、专家经验和最佳实践，逐渐具备金融行业所需的专业能力；最终成为“职场人”，以岗位产出为导向，需要通过金融场景反馈，进一步提高模型的性能和适应性。三个阶段也分别对应了数据优化、金融增强、价值对齐和应用增强等不同模型构建阶段。

除了三个阶段，构建领域大模型还有五大关键抓手：数据增强是基础，算法增强是核心，工程增强是保障，场景增强是方向，评估反馈是动力。这些抓手涵盖了从数据收集到模型训练，再到实际应用和持续优化的全过程，确保模型能够高效、稳定地服务于领域应用。

具体到模型构建工程，首先是利用数据驱动大模型智能突破。海量金融数据的筛选是一个“淘沙成金”的过程，度小满轩辕团队打造了一套智能化数据处理流水线，依次通过规则过滤、模型过滤、去重过滤和质量过滤的步骤筛出了原始中文数据中32%的数据精华，最后构建了15TB高质量的模型训练语料。在此过程中，采取了多重策略优化数据源数据分布，通过分析、评估和配比等策略突破数据语种、领域和能力的限制。

团队打造的质量模型库包括文本质量判别模型、知识性判别模型和内容结构判别模型，通过全方位的数据质量严格把控，为模型训练保驾护航。人工评测证明，过滤后数据质量大幅提升48%，从而推动模型性能显著提升。

此外，团队特别铸造数据安全“铜墙铁壁”，基于多领域内容安全标准搭建业内领先的内容安全系统，高效达成恶意识别，有效过滤多领域敏感恶意内容至1%以内，满足领域安全需要。

当然，核心是算法增强赋予模型专业理解和决策能力，包括增量预训练、指令微调和强化学习。

重点来了，Llama3的中文增量预训练怎么做？需要首先考虑词表构建问题，相较于中文词表过小的Llama2，Llama3词表大幅扩充，对多语言更友好，中文压缩率提升明显，无需中文扩充即可满足生产需要。

值得一提的是，我们创新了预训练文本建模策略，实现了多长度文本的高效训练。传统方案通常是固定长度截断，存在长文本被大量截断和短文本训练效率低的两大缺陷。对此，我们创新采用分桶式混合长度训练策略，兼顾长短文本建模，让截断比例大幅降低，训练效率大幅提升14.6%。采用无损长文本训练，加入少量数据即可实现100k上下文，支持后续多种长文本处理任务。

对于指令微调，我们分为混合微调和指令微调两个阶段进行，兼顾大模型通用与领域能力。此外，为了达到高质量和低成本构建指令微调数据的目标，我们自研了数据生成方法Self-QA，将海量无监督数据转化为高质量有监督指令数据，并合理配比数据。

在指令微调的基础上，团队追求强化对齐最优策略，在方法层、样本层和能力层实现模型的“自我超越”，采用一系列方法和策略创新强化学习技术，符合人类需求的效果显著提升。

而工程增强是保障，确保模型高效、稳定地服务于领域应用，其中模型量化、推理加速和架构优化是关键。

场景增强是领域模型的方向，包括智能体（Agent）、提示词工程（Prompt）和检索增强（RAG），使模型更懂领域、更懂用户。

为了科学评估模型性能，精准指引优化路径，团队构建了全方位的模型评测体系。以不同模型间的“横评”看差距，以同一模型在不同阶段的“纵评”看提升。评测覆盖预训练阶段、指令微调阶段和应用阶段，每个阶段都有相应的评测指标，预训练阶段关注训练是否存在异常和基座模型的质量，指令微调阶段关注对话能力是否满足和泛化能力是否足够，应用阶段关注用户需求是否满足和场景性能是否达标。评测手段包括实时评测和阶段评测，实时评测使用CheckPoint自动触发评测流水线，阶段评测采用“自动+人工”的全方位评测体系。此外，我们还深入领域细分场景进行评测，以挑战模型专业化潜力。评估反馈持续优化领域模型短板，形成闭环迭代。

到此，我们展示了度小满从Llama3到金融行业的解决方案。

领域模型价值创造：赋能、创新与变革

领域模型为企业数字化转型提供全链路赋能，在企业的前台、中台和后台业务中发挥重要作用。从前端的客户服务到后端的研发创新，大模型都能渗透到业务其中。通过大模型的赋能，企业可以优化业务流程、提升研发效率、增强客户体验、优化决策。

度小满轩辕大模型：跨越认知，走向AGI

为了应对大模型在金融场景的落地挑战，向全行业分享实战经验成果，我们开源了「轩辕」系列大模型。度小满「轩辕」大模型是国内首个开源中文金融大模型。2023年5月，千亿参数规模中文大模型“XuanYuan-176B”开源发布。2023年9月， “XuanYuan-70B”在C-Eval和CMMLU两大权威榜单上位列所有开源模型榜首。2024年3月，「轩辕」全新发布了12款金融大模型。其中包括6B、13B、70B参数的基座模型、对话模型、int4/int8量化模型，并实现完全开源，供广大开发者下载使用。

「轩辕」大模型在金融领域内容理解和生成上能力卓越。在金融自动评测集FinanceIQ测试集上，XuanYuan-70B-V2展现出了超过GPT-4的水平，表现出了专家级别的金融知识能力。而在解决实际金融任务的能力上，金融专家的人工评测结果显示，各个参数尺寸的轩辕大模型均具有“以小搏大”的实力，达到了自己2—5倍参数量的模型水平。「轩辕」不仅在金融领域成绩优异，模型能力覆盖了数学计算、场景写作、逻辑推理、文本摘要等多个通用能力维度，在包括MMLU、CEVAL、CMMLU、GSM8K、HumanEval等主流评测集上表现出色，在多个中文评测榜单上的成绩甚至超越了GPT-4。

「轩辕」开源地址：https://github.com/Duxiaoman-DI/XuanYuan

我们也将「轩辕」系列大模型的技术认知和实践经验毫无保留地总结著成了《大语言模型原理与工程实践》这本书，力求书籍知识体系统性强和工程实践性强，希望不仅便于大模型初学者迅速上手，也为有经验的金融科技从业者提供了深入学习的机会。

期待模型能力、场景应用和人机协作全面升级的AGI时代！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业