AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


SECon 2024 | 基于开源的领域模型落地实践
发布日期:2024-06-28 16:12:39 浏览次数: 1785


       感谢2024年SECon全球软件工程技术大会的邀请,本人于6月28日在大会主论坛上分享了团队基于开源的领域模型落地实践,内容正契合了本次大会【拥抱AI 走深向实】的主题。国内大模型市场正经历深刻变革。百模大战中,三大趋势凸显:开源模型能力急速提升;ToB与ToC市场分化明显;企业需求从泛化探索转向聚焦核心业务。大模型正加速与产业融合,催生新的市场机遇。在此背景下,Llama 3作为当前性能最强的开源基座模型,为企业打造领域模型、实现行业价值赋能带来新机遇。本次演讲,我主要讨论了三个核心问题:

1.开源基座模型的选择逻辑:如何在隐性能力与显性能力间实现最优权衡?Llama 3有何优势与潜在短板?
2.领域大模型的构建范式:如何将开源模型能力与行业知识深度融合,实现"1+1>2"的放大效应?从数据、算法到工程,领域模型构建的关键抓手是什么?
3.从技术到价值的转化路径:领域大模型如何真正融入业务,实现人机协作下的效率提升与价值创造?

希望通过阐述这三个问题,为大家提供一个基于开源大模型实现行业价值创造的思路范式。以下是具体分享内容:


杨青_SECon-基于开源的领域模型构建实践pdf.pdf


开源崛起:大模型普惠时代来临













在人工智能领域,开源大模型正迅速崛起,成为技术创新的重要推手。在“百模大战”中,大模型的数量已经超过了300个,模型供应商开始明确自己的市场定位,以满足特定的市场需求。模型供应生态的繁荣,推动了ToB和ToC市场的蓬勃发展。一方面,互联网大厂和大模型创业公司基于自研大模型拓展C端市场,通过Web端、App或小程序来占领用户渠道,侧重用户体验,用供给激发需求。另一方面,各领域企业和解决方案服务商基于开源/闭源模型,为企业提供实际场景解决方案。

除了供给侧的上述变化,企业对大模型的需求从初期的「广泛探索」转向对「核心业务深化」,旨在解决具体问题。企业更加注重模型的实用性,希望通过大模型解决垂直领域的具体问题。然而大模型在专业性、泛化性和经济性之间很难做到三者兼顾,因此需要专注大模型在核心业务中的直接应用,细化场景,明确目标,在需求驱动和实际效果评估中提升企业ROI。



领域模型构建:融合开源优势,打造行业智能引擎













企业对大模型的核心需求在于将私域数据转化为竞争优势,并确保场景应用的安全可控。基于开源模型进行适配调优,成为企业实现这一目标的有效路线。直接使用闭源模型可能会遇到私域数据隐私安全的问题,而直接使用开源模型则可能存在性能瓶颈。“开源模型+Prompt+知识库”的路线虽然可以提高灵活性,但在处理复杂指令时仍然存在挑战,并且prompt编写难度高。相比直接使用闭源或开源模型,基于开源模型的调优可以针对特定领域需求进行微调,在少量领域数据上进行快速适配,自主选择模型结构和优化策略,全流程掌控数据和模型从而杜绝泄露风险,可谓将定制化、高效性、灵活性和可控性一网打尽。


选择合适的开源基座对于领域模型的成功至关重要。那么,如何选择开源基座呢?需要在隐性与显性能力间实现最优权衡。大模型能力的“冰山理论”指出,大模型具有显性能力和隐性能力,显性能力可以通过微调来提升,而隐性能力则需要从底层进行优化以确保模型在关键场景中的表现。显性能力和隐性能力在不同场景对显性和隐性能力的要求不同。


Llama3作为最强的开源模型,其隐性能力扎实,显性能力领先,为领域赋能带来了新机会。


尽管LLaMA3在多个方面表现出色,但在中文处理能力、专业场景应用和在线服务能力三个重要应用方面面临诸多挑战。



领域模型落地:从Llama3到行业解决方案














我在之前的分享中反复讲过一个观点领域大模型的发展可以类比为人类的成长路径,从接受通识教育到专业深造,再到实际工作场景中的应用和反馈。在“中学生”阶段,大模型需要接受通识教育,掌握广泛的语言理解和信息处理能力,为后续学习奠定坚实基础;而在“大学生”阶段则需要接受专业教育,在大规模通用文本数据上训练模型,使其深入了解金融术语、行业案例、专家经验和最佳实践,逐渐具备金融行业所需的专业能力;最终成为“职场人”,以岗位产出为导向,需要通过金融场景反馈,进一步提高模型的性能和适应性。三个阶段也分别对应了数据优化、金融增强、价值对齐和应用增强等不同模型构建阶段。


除了三个阶段,构建领域大模型还有五大关键抓手:数据增强是基础,算法增强是核心,工程增强是保障,场景增强是方向,评估反馈是动力。这些抓手涵盖了从数据收集到模型训练,再到实际应用和持续优化的全过程,确保模型能够高效、稳定地服务于领域应用。


具体到模型构建工程,首先是利用数据驱动大模型智能突破。海量金融数据的筛选是一个“淘沙成金”的过程,度小满轩辕团队打造了一套智能化数据处理流水线,依次通过规则过滤、模型过滤、去重过滤和质量过滤的步骤筛出了原始中文数据中32%的数据精华,最后构建了15TB高质量的模型训练语料。在此过程中,采取了多重策略优化数据源数据分布,通过分析、评估和配比等策略突破数据语种、领域和能力的限制。


团队打造的质量模型库包括文本质量判别模型、知识性判别模型和内容结构判别模型,通过全方位的数据质量严格把控,为模型训练保驾护航。人工评测证明,过滤后数据质量大幅提升48%,从而推动模型性能显著提升。


此外,团队特别铸造数据安全“铜墙铁壁”,基于多领域内容安全标准搭建业内领先的内容安全系统,高效达成恶意识别,有效过滤多领域敏感恶意内容至1%以内,满足领域安全需要。

当然,核心是算法增强赋予模型专业理解和决策能力,包括增量预训练、指令微调和强化学习。

重点来了,Llama3的中文增量预训练怎么做?需要首先考虑词表构建问,相较于中文词表过小的Llama2,Llama3词表大幅扩充,对多语言更友好,中文压缩率提升明显,无需中文扩充即可满足生产需要。

值得一提的是,我们创新了预训练文本建模策略,实现了多长度文本的高效训练。传统方案通常是固定长度截断,存在长文本被大量截断和短文本训练效率低的两大缺陷。对此,我们创新采用分桶式混合长度训练策略,兼顾长短文本建模,让截断比例大幅降低,训练效率大幅提升14.6%。采用无损长文本训练,加入少量数据即可实现100k上下文,支持后续多种长文本处理任务。

对于指令微调,我们分为混合微调和指令微调两个阶段进行,兼顾大模型通用与领域能力。此外,为了达到高质量和低成本构建指令微调数据的目标,我们自研了数据生成方法Self-QA,将海量无监督数据转化为高质量有监督指令数据,并合理配比数据。

在指令微调的基础上,团队追求强化对齐最优策略,在方法层、样本层和能力层实现模型的“自我超越”,采用一系列方法和策略创新强化学习技术,符合人类需求的效果显著提升。

工程增强是保障,确保模型高效、稳定地服务于领域应用,其中模型量化、推理加速和架构优化是关键。

场景增强是领域模型的方向,包括智能体(Agent)、提示词工程(Prompt)和检索增强(RAG),使模型更懂领域、更懂用户。

为了科学评估模型性能,精准指引优化路径,团队构建了全方位的模型评测体系。以不同模型间的“横评”看差距,以同一模型在不同阶段的“纵评”看提升。评测覆盖预训练阶段、指令微调阶段和应用阶段,每个阶段都有相应的评测指标,预训练阶段关注训练是否存在异常和基座模型的质量,指令微调阶段关注对话能力是否满足和泛化能力是否足够,应用阶段关注用户需求是否满足和场景性能是否达标。评测手段包括实时评测和阶段评测,实时评测使用CheckPoint自动触发评测流水线,阶段评测采用“自动+人工”的全方位评测体系。此外,我们还深入领域细分场景进行评测,以挑战模型专业化潜力。评估反馈持续优化领域模型短板,形成闭环迭代。

到此,我们展示了度小满从Llama3到金融行业的解决方案。


领域模型价值创造:赋能、创新与变革













领域模型为企业数字化转型提供全链路赋能,在企业的前台、中台和后台业务中发挥重要作用。从前端的客户服务到后端的研发创新,大模型都能渗透到业务其中。通过大模型的赋能,企业可以优化业务流程、提升研发效率、增强客户体验、优化决策。



度小满轩辕大模型:跨越认知,走向AGI













为了应对大模型在金融场景的落地挑战,向全行业分享实战经验成果,我们开源了「轩辕」系列大模型。度小满「轩辕」大模型是国内首个开源中文金融大模型。2023年5月,千亿参数规模中文大模型“XuanYuan-176B”开源发布。2023年9月, “XuanYuan-70B”在C-Eval和CMMLU两大权威榜单上位列所有开源模型榜首。2024年3月,「轩辕」全新发布了12款金融大模型。其中包括6B、13B、70B参数的基座模型、对话模型、int4/int8量化模型,并实现完全开源,供广大开发者下载使用。

「轩辕」大模型在金融领域内容理解和生成上能力卓越。在金融自动评测集FinanceIQ测试集上,XuanYuan-70B-V2展现出了超过GPT-4的水平,表现出了专家级别的金融知识能力。而在解决实际金融任务的能力上,金融专家的人工评测结果显示,各个参数尺寸的轩辕大模型均具有“以小搏大”的实力,达到了自己2—5倍参数量的模型水平。「轩辕」不仅在金融领域成绩优异,模型能力覆盖了数学计算、场景写作、逻辑推理、文本摘要等多个通用能力维度,在包括MMLU、CEVAL、CMMLU、GSM8K、HumanEval等主流评测集上表现出色,在多个中文评测榜单上的成绩甚至超越了GPT-4。

「轩辕」开源地址:https://github.com/Duxiaoman-DI/XuanYuan

我们也将「轩辕」系列大模型的技术认知和实践经验毫无保留地总结著成了《大语言模型原理与工程实践》这本书,力求书籍知识体系统性强和工程实践性强,希望不仅便于大模型初学者迅速上手,也为有经验的金融科技从业者提供了深入学习的机会。

期待模型能力、场景应用和人机协作全面升级的AGI时代!


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询