我要投稿

大模型电销落地实践：打造 AI 驱动的下一代智慧销售

发布日期：2025-01-25 19:44:31 浏览次数： 2334 作者：DataFunSummit

导读本文将探讨 AI 如何驱动下一代销售。文中将介绍 AI 发展带来的变化，如电销电话的个性化文本生成和打断能力的提升。并提出未来场景，销售人员将不再需要分析用户数据和设计话术，而是依赖 AI 系统进行精准调整。还将分享如何利用大模型实现电销和智能客服场景的交互，提高效率，降低成本。

全文目录如下：

1. 项目背景与目标

2. 核心技术与方案

3. 系统落地和业务 impact

4. 样本技术| 模型训练 |实践案例

5. 挑战和解决方案

6. 未来展望

7. 问答环节

分享嘉宾｜董文涛新浪数科技术专家

编辑整理｜赖泳祺

内容校对｜李瑶

出品社区｜DataFun

项目背景与目标

传统电销方法面临显著挑战，主要体现在灵活性和配置复杂性两方面：一方面，传统电销依赖于预设且复杂的对话流程，这限制了其在业务调整时的适应能力；另一方面，系统配置的专业性和复杂度高，通常需要专门培训的人员来操作，导致普通用户难以直接上手，影响了产品的实际利用率。这些问题进一步引发了个性化服务不足和精准推荐能力有限的问题，尤其是在需要多轮对话和开放交流的场景中，传统的基于规则或模型的方法难以实现高效的实时调整。

鉴于上述问题，我们的项目旨在利用大模型技术突破这些瓶颈。初期目标设定较为基础，即构建一个强大的对话系统，并通过微调和对齐技术提高对话质量。考虑到团队初期经验有限，我们首先专注于建立稳定的对话基础，在此之上探索如何优化对话系统的响应。特别地，针对对话系统可能产生的不准确回应，我们引入了偏好优化机制，以期能够区分并改善对话质量。这一初步设想为后续工作提供了方向。

最终，我们的努力超出了预期，具体的数据收益将在后续介绍中详细说明。通过应用大模型，我们不仅解决了传统电销的固有问题，还提升了用户体验和服务效率。

核心技术与方案

项目依赖于四大关键技术的创新与应用，这些技术不仅提升了系统的性能，还大幅降低了运营成本。

1. 高效样本生成与训练技术

为了解决人工创建样本效率低的问题，我们引入了对抗式生成技术，极大地加速了样本合成过程。通过自动化方式，样本生成速度提高了 30 倍，从每人每天 200 条提升到每天 2000 条。在模型训练方面，我们采用了增量微调策略，结合 DPO（直接偏好优化）等偏好优化手段，实现了高效的个性化定制。这不仅增强了模型效果，还显著降低了硬件资源开销，例如从初期使用 8 张显卡进行微调减少至仅需 2 张显卡几小时即可完成一次迭代。

2. 优雅打断机制

针对传统电销中常见的对话不能被打断的问题，我们特别开发了一个小型专用模型（约 0.5B 参数），用于优化对话中的打断处理。这项技术大大提升了对话的自然度和用户体验，使得人机交流更加拟人化，解决了通话双方同时发言时的感知问题。

3. 个性化与优化

为了使对话更吸引人并确保关键信息优先传达，我们实施了一系列基于人类反馈的对齐技术来优化模型的话术。这不仅让对话变得更加个性化、简洁明了，还能根据需求调整模型的表达风格，使之更加生动活泼。此类优化显著改善了用户交互体验。

4. 持续评估与优化

“得评估者得天下”——准确的评估是优化的基础。我们构建了一套全面的评估体系，涵盖定向测试、幻觉检测、重复性检查等多个维度，并进行了多层次的 AB 测试。在评估过程中，我们注意到不同指标间可能存在冲突，因此建立了平衡机制以确保系统整体性能最优。此外，我们持续收集正面和负面案例，不断迭代改进系统，保证其始终处于最佳状态。

通过上述技术的应用，我们的项目不仅克服了传统电销方法的局限性，还开创了更加智能、灵活且高效的客户服务新模式。

系统落地与业务 Impact

为了更好地展示我们系统的实际效果，接下来将从收益情况、投资回报以及核心业务数据提升三个方面进行详细说明。

1. 显著的收益情况

我们的系统不仅具备强大的灵活对话能力，能够从容应对复杂的语境，还通过整合打断技术和个性化对齐技术进一步增强了对话质量。更为重要的是，它大幅降低了运营成本并提高了效率。例如，在引入大模型后，仅需一张 24G 显存的 A10 GPU 就能每天处理数万个通话量，几乎无需人工干预或设计复杂对话流程，简化了操作的同时也大大减少了人力成本。

2. 高复用性的投资回报

考虑到项目的复用性，我们在设计之初就确保各个模块如语音转文字、文本转语音、样本生成及训练技术等都能无缝迁移至其他应用场景中。这意味着该系统可以快速部署到智能客服、催收等多个领域，并实现高效落地。以催收为例，基于现有技术框架，我们仅需两三周即可交付一个定制化的模型，这不仅加速了产品发布，有望为公司带来可观的投资回报。

3. 核心业务数据的实质性提升

转化率：通过 AB 实验对比，使用 AI 大模型后的转化率提升了超过 20%，且仍有上升空间。
成本节省：特别是对于沉默用户群体，原本因基数大而被忽视，现在借助自动化解决方案，成本可节省 66% 以上，这是一个相对保守的估计。

需要注意的是，不同客群间的差异可能导致结果有所不同，但总体而言，这套 AI 驱动的电销工具为业务带来了显著的效率提升和潜在增长机会。

样本技术|模型训练|实践案例

1. 样本技术-“对抗式”样本生成

为了更清晰地展示我们如何通过样本进化合成技术提升对话系统的性能，下面将结合实际案例和技术选型考量进行详细说明。这部分内容不仅涵盖了样本生成的基本流程，还深入探讨了对抗性对话合成、遗传算法的应用以及提示词结构设计等关键环节。

（1）从“杠精”工具到样本进化

在项目初期，我们遇到了样本质量和数量不足的问题。为了解决这一难题，我们的技术领导开发了一个名为“杠精”的程序，它专门挑战大模型，通过模拟各种刁难场景来发现模型的漏洞。这个过程虽然最初依赖人工，但效率低下且准确性不够。后来，我们将这些对抗性对话记录作为样本输入系统，意外地发现这极大地丰富了训练数据，并显著提高了模型的表现。这一经验启示我们在样本生成中引入对抗性和多样性的重要性。

（2）样本生成的基本步骤

细分流程：首先对目标对话场景进行细致划分，确保每个子场景都能被充分覆盖。
提示词设计：精心构造提示词，以引导模型生成符合预期的对话内容。提示词的设计是整个流程中的核心部分，稍后会详细介绍其结构。
对抗性对话合成：定义对抗性对话的具体形式，包括如何设置对话双方的角色和立场，以增加对话的真实感和复杂度。
对抗实力生成：针对不同强度的对抗情境生成相应的样本，使模型能够适应多样化的交流环境。
遗传算法应用（进化）：借鉴生物学中的遗传算法原理，通过迭代选择、交叉组合和变异操作不断优化样本集。这种方式确保了样本的多样性和高质量，避免了模型过度拟合特定模式。

（3）提示词结构设计

提示词结构对于指导模型生成恰当对话至关重要。以下是几个关键组成部分：

用户目标对抗性：明确对话的目标是什么，以及在这个过程中可能遇到的对抗因素。这部分内容需要根据具体业务场景灵活调整。
实例提供：除了给出指令外，还需为模型提供具体的示例，帮助其更好地理解和学习对话策略。
任务说明与情绪设定：为对话添加背景信息，如用户的情绪状态（从 0 到 10 的范围），使得模型能够模拟出更加真实的人类反应。例如，用户可能是逻辑清晰且合作的，也可能是情绪激动并带有敌意的。这种多样化的情绪设定有助于提高模型应对复杂情况的能力。

（4）保持样本的多样性和质量

为了防止模型因训练数据过于规律而变得僵化，我们强调样本的多样性和灵活性。这意味着要让模型接触到尽可能多样的对话场景，避免其仅记住某些固定模式。通过引入对抗性样本和使用遗传算法不断进化样本集，我们确保了训练数据的质量，从而使模型能够在面对未知情况时表现出更高的适应性和智能性。

（5）高级样本技术展望

除了上述基础方法外，我们还在探索更多先进的样本生成技术，如在线 DPO 支持和奖励模型的应用。这些技术将进一步提升样本生成的速度和精度，但也伴随着较高的计算成本。随着项目的推进，我们会适时引入这些新技术，以持续优化对话系统的性能。

2. 样本技术-样本进化

为了进一步提升样本的质量和多样性，我们在实践中总结了一些小技巧，并对整个流程进行了优化。以下是具体的分享内容：

（1）伪代码提示词设计的小技巧

我们发现了一种有效的方法——使用伪代码来编写提示词（称为“code-to-prompt”）。这种方法不仅直观易懂，还能让模型更好地理解任务要求。例如：

定义方法：可以像编程一样定义一个 generate_reply() 函数，明确告诉模型如何生成回复。
主方法：通过 main() 函数组织逻辑，设置变量和约束条件，指导模型的行为。
循环与筛选：利用循环结构生成多个候选回复，并进行筛选以找到最佳答案。
注释支持：类似于 Python 编程，可以在提示词中添加注释，帮助解释代码意图。

这种伪代码形式的提示词设计有几个显著优点：

提高可读性：使提示词更易于理解和维护。
增强控制力：通过结构化代码，可以精确控制模型生成的内容。
简化复杂任务：对于多步骤或条件分支的任务，伪代码能有效降低复杂度。

（2）优化后的样本生成流程

基于上述小技巧，我们将样本生成流程重新梳理为四个关键步骤，以便大家更容易理解和应用：

第一步：准备种子数据

数据来源多样化：结合人工标注和大模型辅助清洗，确保初始数据集的质量和代表性。
重要性强调：高质量的种子数据是后续所有工作的基础，直接影响最终效果。

第二步：数据进化

目标导向进化：根据具体需求进化对话的不同部分，如提问、回答及约束条件。
无限扩展：通过迭代进化过程，不断扩展样本集，增加其多样性和覆盖范围。

第三步：数据增强

场景定制化：针对特定应用场景，采用遗传算法或进化算法定向生成对话数据。
引入 Agent 技术：实现多个模型间的互聊，模拟真实对话情境，同时加入角色扮演机制，丰富对话内容。
业界实践参考：借鉴行业内的最佳实践，确保方法的有效性和先进性。

第四步：提示词优化

样本内提示词优化：持续改进用于生成样本的提示词，确保其能够引导出高质量对话。
推理时提示词优化：在实际应用中，动态调整提示词以适应不同对话场景，保持对话的流畅性和自然度。
持续迭代：将上述四个步骤形成闭环，不断反馈和优化，逐步提升系统性能。

3. 模型方案

在完成样本生成和优化后，接下来将详细介绍如何进行模型方案的选择。我们总结了三大步骤，并提出了指导性原则，帮助大家更科学地做出决策。

（1）基础模型选择：平衡资源与效果

经验积累：基于之前大模型客服项目的经验，我们对不同模型的特性有了初步理解。
市场调研：评估市面上开源模型（如 ChatGLM、Llama、Qwen 等）及其生态特性，最终选择了 ChatGLM 作为基础模型。
资源考量：考虑可用硬件资源（如 GPU 数量）和人力投入，确保模型选择符合实际条件。
性能权衡：综合评估模型的效果和开销，找到最佳平衡点。例如，在情感识别、推理能力和知识概括等方面进行细分能力排序，以确定最合适的候选模型。

（2）初步测试与微调：快速验证模型潜力

小量数据微调：使用少量数据（如几十、上百条）对候选模型进行微调或偏好优化，快速评估其实际表现。这一步骤能迅速筛选出具备潜力的模型。
性能指标关注：特别注意响应时间和 TTFT（首次响应时间），这些指标对于实时应用至关重要。通过早期测试，可以排除不符合要求的模型。

（3）大规模测评与复杂实验设计

扩大数据集：利用更大规模的数据集进一步评估模型性能，设计复杂的 AB 测试来验证模型的稳定性和扩展性。
长期效果评估：随着样本增加，观察模型效果是否持续提升，评估其学习能力和泛化性能。
业界对比分析：定期对比业界顶尖模型（如 ChatGPT），了解自身差距并寻找改进方向。

4. 实践案例

接下来，我们将通过一个具体案例探讨效果与性能之间的权衡。该案例聚焦于训练过程中选择增量微调还是全量微调这一关键决策。这一选择至关重要，因为它显著影响资源使用效率，并应始终以业务目标为导向。

（1）第一原则：基于业务需求的选择

在模型训练中，选择增量微调还是全量微调对资源利用和最终效果有重大影响，因此必须基于具体的业务目标进行决策。以下是两种方法的特点对比：

（2）增量微调

资源高效：仅需较少的 GPU 资源和数据量（如几百至几千条或万级别的数据），即可快速有效地完成微调。
灵活性强：适用于需要频繁调整和多样化任务的场景，能够迅速响应业务变化。
快速部署：根据数据量的不同，可能只需几个小时就能完成一版训练，并能迅速部署和复制。
高复用性：微调后的模型可以整合到基础模型中，创建出具有独特特性的模型，增强复用性。

（3）全量微调

效果更佳：提供更高的对话质量和更好的稳定性，适合对准确性和一致性要求较高的关键任务。
资源消耗大：需要更多的计算资源和时间，但其带来的高质量对话和模型稳定性更为出色。

（4）实测验证

我们进行了大量实际测试，以确保不同微调方式的效果和性能。测试表明，两种方法各有优势，选择应依据实际需求和目标。例如，在初期快速迭代和多任务适应中，增量微调展示了显著的优势；而在追求高质量对话和稳定性的关键任务中，全量微调则更为合适。

综上所述，选择增量微调还是全量微调应根据具体的业务需求、资源情况以及长远规划进行综合考虑。增量微调以其高效灵活的特点适合快速迭代和多样化任务，而全量微调则在追求高质量对话和稳定性方面表现出色。希望这个案例能为大家提供清晰的框架，帮助更好地进行效果与性能的权衡。

接着来探讨模型的训练及微调技术，这是大家颇为关心的部分。

起初我们有个有趣的发现，原本用的是 ChatGLM6B，后来9B推出后进行了迁移，在使用相同训练参数训练时，却发现 9B 的效果远不如 6B，这启示我们即便模型结构相同、尺寸相差不大，效果也会有巨大差距，说明参数并非通用，需要通过经验和实验来确定，像模型的训练、学习率、batch size、warm-up size 以及一些评估内容等诸多参数都需如此。

我们采用了较为成熟的超参搜索框架 optuna，能快速搜索出效果较好的参数。同时，我们还对早停进行了优化，在传统基于 transformers 的早停技术中，如 patients 和 threshold 等配置可调节，我们在此基础上，根据训练过程中 loss 的变化和波动性进行进一步评估，一旦发现波动过大就立即结束本轮实验，数据表明在进行几百组训练时，能节省 50%+ 的时间，这是训练的一些策略和技巧。

在模型评估方面，一开始是做专项性的内容，比如针对金融领域，不允许用户出现手机尾号说错、日期搞错、数字输错等影响极大的幻觉类问题，还有电销领域中用户应答简短易出现重复变成复读机的专项问题。我们结合了多维度评估，包括应答的合适性、内容质量等，能做出十几种指标来较好地进行评估。并且我们还基于用户反馈，将两个模型在线上进行 AB 测试，实际查看两个模型的最终转化情况，以最终目标进行模型筛选，通过这些实践使模型训练更高效、评估更有效。

这里再分享一些有趣的案例和发现，这些发现是基于智谱开源的 ChatGLM。大致列举了 8 点内容，如上图所示: 单看 loss 是不够的;短提示词会诱发重复性，长提示词会诱发幻觉;语料很重要，包括不能有错字、空格、标点，system 很关键;增加 eval steps 增加会使训练结束更早;重复性和幻觉是互斥关系，在降低幻觉的苛刻场景下,需要在保证效果前提下缩短训练，推理时要调配温度、top k、top-p 等参数。

上图的中间给了两个例子，通过 3000 条样本微调已达到的效果，一个例子是模型能准确识别用户失望情绪并安抚和提供方案，另一个例子是用户说的话与销售无关时，模型能顺应继续聊并把话题掰回销售主题。右边展示了两张评估的曲线图, 上图是不典型的,因为随着 top-p 不断调，在低 top-p 时幻觉反应高，在 0.4 时是低点；下面的图是较为典型的, 因为有规律，随着训练持续，幻觉呈波动性起伏，看过近 100+ 个模型包括快照，规律一致，这提示训练时要注意不同指标波动情况并适当平衡，还要更注重差异化指标进行更好衡量。

接着看下面一个有趣的案例，即打断机制。从模型设计、样本设计和流程设计等几个方面进行介绍，针对 0.5B 参数的模型在效果层面表现较好，准确率能达到 90% 多，延时可控制在 50 毫秒以内。

这个模型的主要作用是实时地对用户的情感以及上下文进行精准分析，能够清晰地判断出用户是否出现了情绪化的表现，是否正在开车或者上课等情况。当判断到合适的时机时，它会恰到好处地打断自己正在说的话，然后根据用户的最新回复重新精心组织语言进行回复，这就是该模型的工作原理和性能指标。

该项目中，打断时机的准确性以及前面提到的训练、评估的流程的复用都具有至关重要的意义。

在模型的最终选择上，选用了千问 2.5 的 0.5B 模型。同时，我们还对 1.5B、6B、9B 等模型进行了比较。不过，在进行比较之前，需要做大量的准备工作，必须清晰地界定清楚什么时候应该打断以及什么时候不应该打断，因为如果界定不清晰，那么人工打标也会出现不准确的情况。

接着要精心设计样本结构，这个场景与之前介绍的 SFT 微调时的结构存在差异，原因在于这里只需要模型给出最终的结果即可，不像在多轮对话中那样，每次的应答都要参与到 loss 的计算中。只需给模型提供上下文和用户的最新回答，让模型回答 “yes or no”，这样就能极大地降低时间成本。

有了确定好的样本结构之后，就要开始准备样本并进行评估，评估指标相对比较简单，主要涵盖准确率和性能开销这两个方面。

这里有一个非常有趣的案例，在实际线上运行中，打断情况极为罕见，可能仅仅占 1% 甚至更小的比例。当把这 1% 的打断样本与 99% 的 “no” 样本共同使用时，虽然模型整体的准确率能够达到 98%，但是在对打断样本的判别上却出现了完全错误的情况。这就充分表明，必须拆开各项指标来进行观察，分别查看阳性率、阴性率和准确率，因为样本平衡是非常重要的，在注重样本质量的同时，还需要做好样本的配比平衡。

再往后，prompt 指令的设计也不容忽视，通常需要对其进行多版本的优化，因为不同的提示会产生不同的效果，所以要通过实验进行对比，并且推理提示词必须严格按照之前所定义的判别规则来进行操作，通过这些努力，我们又积累了更多在不同场景下选择不同模型尺寸来有效解决业务问题的宝贵经验。

下一个案例是关于个性化偏好的优化，主要包含以下两点：

一方面，通过偏好优化，在最初考虑成本的情况下，采用传统的 DPO 方式，仅使用少量的数据就能显现出效果，能够使简洁性提升一倍之多，同时极大地降低了幻觉率。其中像定向幻觉，例如客服变成用户这类情况，属于非常棘手的神奇问题。

另一方面，进行差异化的开场白，能够依据用户画像来控制不同的开场方式，从而更好地吸引用户。

接着是几个案例的 case study（案例研究），还有一张图中呈现了几个重要的发现，即使用少量的 DPO 样本就能获得较好的效果，当使用多任务 DPO 混合样本后，在简洁性和重复幻觉方面会出现不同的情况，这给了我们很多启示。

最后，重点在于需要权衡在 DPO 做大量工作时的风格、重复性和幻觉情况。右边的图是一个 loss 图，图中有三条线，其中一条线代表模型效果达到最高状态，中间的蓝线是幻觉 loss 指标，黄色线是波动线，这说明当模型性能处于最佳状态时，幻觉并不是最低的，这就需要进行大量的筛选工作，以找到更加适合的模型。

挑战和解决方案

最后提出几个挑战，具体如下：

第一，语音拟人化挑战。建议将语音合成技术与特色韵律模型相结合，这样能让回答更贴近真人的感觉，增强回答的真实性和亲和力。

第二，可控性问题。应对策略包括进行多重防护，从线下到线上逐步构建防护体系；通过强化学习使模型与人类偏好实现对齐，这其中涉及到样本的训练和评估技术；适当开展情境压力测试，以检验模型在不同压力情境下的表现；还要进行在线实时监测，一旦发现问题就立即进行干预，确保模型始终处于可控状态。

第三，解释性问题。因为模型是一个黑盒子，只有了解其内部机制，才能精准地对其进行干预。在前两天官宣的 transluce 公司能够协助调试模型在某神经网络层出现的采样或概率方面的问题，通过对这些问题进行修改，能够使模型的结果更加准确。

未来展望

在总结现有成果的基础上，我们对未来的发展方向提出了以下三大展望：

首先，关于生成过程的可控性，这是一个难点，也是一项庞大的工程。需要从数据层、模型层以及评估场等多个方面持续更新技术，涵盖句子和 token 层面的可控性，以实现对生成过程的有效控制。

其次，在销售建议方面，大模型能够利用交叉销售和追加销售的策略，结合信息和交互历史，快速进行匹配和推荐，提升销售效果。

最后，在跨行业应用方面，该技术具有复用性，极为重要。它不仅可以在特定领域中得到应用，还具备在不同行业中广泛应用的潜力，能够为各个行业带来新的发展机遇和价值。

1. 金融行业

金融行业具有用户群体大、个性化程度高且合规性要求强的特点，与模型的匹配性较高，模型在金融领域能较好地发挥作用。

2. 教育培训

教育培训领域有多样的用户需求，需要跟进用户的学习进度和进行激励，而模型如果情商较高，在这方面就具有明显优势，能够更好地满足教育培训的需求。

3. 旅游和汽车销售

旅游和汽车销售都需要进行定制化服务，且都包含大量的信息，这些信息会直接影响用户体验。模型可以进行规划，在旅游方面能为用户提供有效的规划支持；汽车销售的售后周期较长，模型的记忆能力能够在售后阶段发挥特色，为用户提供更好的服务和支持。

4. 其他场景

借助大模型和开源力量，模型能够应对不同的语境，通过优化手段可以增强效果，未来有望在除了上述特定行业之外的其他场景中充分发挥作用，拓展应用范围和价值。

问答环节

Q1：在电话销售过程中，若用户提及敏感词或负面情绪，你们的处理举措是什么？是转接到人工客服，还是有特定的应对话术？

A1：模型具备识别用户情绪化的能力，会在实时线上提示中添加相关信息，促使模型尽快结束对话以避免情绪进一步升级。同时，也可直接将通话转接至人工客服来妥善处理用户的情绪化问题。

Q2：当用户提出涉及系统配置项（像产品折扣等）的问题，需查询系统状态时，你们是如何处理返回的时效性的？

A2：在系统中，线上的模板池和提示词里存有一套标准的用户字段信息，包含状态、时间、额度、利率以及优惠券等，会实时将这些信息注入到提示词中，保证模型能及时获取所需信息。若信息量大，就把信息放置在检索增强生成（RAG）系统中，便于模型进行快速召回，从而确保能高效、及时地进行应答。

Q3：关于拟人化方面，是否存在专门的模型来处理因用户语气和情绪不同的情况？尤其是当一段文本中存在多个角色且各角色情绪各异时，有哪些处理建议？

A3：在文本方面，大模型能够通过添加语气词等方式实现拟人化，在控制对话节奏方面的打断机制也在进行研究，包括韵律和节奏等方面。在多角色处理上，通过大量多样化的样本对模型进行训练，在提示词中明确指定角色、脾气和情绪，例如在催收模型中模拟了上百种职业和不同个人特征，大大提升了模型的适应性和灵活性。

Q4：面对日益增多的诈骗电话和推销电话，有哪些有效的方式可以进行识别并避免接听？

A4：一方面，若曾对某个号码进行过投诉，运营商会记录并在后续通话中自动拦截该号码，使你接收不到该类电话；另一方面，系统会将手机助手与机器人进行长时间友好对话的情况记录下来并加入白名单，减少不必要的通话费用；此外，在非必要场合尽量不提供真实个人信息，如姓名、联系方式等，这样有助于追踪信息泄露的源头，从而更好地识别和避免诈骗电话及推销电话的骚扰。

以上就是本次分享的内容，谢谢大家。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业