我要投稿

AI生产实践 | 基于大语言模型的海外KOL视频总结与问答

发布日期：2024-08-27 23:00:13 浏览次数： 2650

作者：LitGate

微信搜一搜，关注“LitGate”

在海外市场，通过KOL进行游戏宣传是一种常见且重要的市场营销方法。特别是对于海外情况不了解，但是如何快速对KOL进行有效的分类和管理是一个非常重要的问题。

常见的方法就是对KOL的历史发布视频内容进行快速理解，从而出判断其风格是否与品牌预期类似等方式实现。但是，因为全球多语言的环境以及大量的历史视频内容，使得我们无论在时间和能力上都存在较大的困难在短期内完成这样一个工作。

这时，一种基于大语言模型的视频内容理解方案，可以很快解决这样的一个问题。

方案背景

去年以来，大语言模型在文本领域取得了非常大的成功，特别是对于多语言的支持能力可以很好地帮助我们进行全球化的市场工作。如果将这样一种技术用于视频内容的总结，可以帮助我们在比较短的时间内，克服语言和时间的限制，快速了解视频的内容，形成对于视频频道风格的判别。因此这里可以考虑如何结合大语言模型对视频内容进行总结与问答，帮助我们理解视频的主要内容和搜寻想要的答案。

首先，我们要意识到视频信息传达到观众，主要就是通过视觉和听觉触达的。在深度学习的时代，有非常多的理解工作依赖于视觉信息，他需要对视频内容进行分幕然后针对每一幕进行语义上的理解，总的来说这个任务目前来说还是十分困难的。这样一个任务对于广义上的视频，确实方案是相对比较通用的。但是对于我们所关注的KOL的视频，大部分的主要内容观点是通过语言进行输出的，因此如果能利用好相应听觉信息（例如语音/语音转化到字幕），可以得到这个视频的大部分信息。

因此，针对这种UGC平台的产出视频，进行基于大语言模型的内容总结和问答还是很适合的。当然这样的方案不仅仅只仅限于KOL视频，目前在很多游戏内的UGC内容也可以应用这样的方案，因此本文将会尝试构建一个基于大语言模型的视频总结插件，来完成这样的需求。

方案设计

基于以上想法，我们将任务步骤分成3个大模块：数据提取、内容总结和内容问答。下面将分别讨论如何在各个模块中进行技术分析和对比，提升相应的效果并对比各类常见方案的优缺点。

数据提取

由于常规使用的API还是GPT-3.5，所以还是想办法要将信息转化成文字输入到模型中，这里我们提取的内容办法是通过获取特定视频的字幕信息。在实验中，我们发现Youtube等渠道大多是有字幕的，但是由于视频语言文字类型比较多，除英语外，还有法语/德语/西班牙等，我们第一个问题就是是否要进行语言翻译转化。我们针对某几个视频，我们让ChatGPT判断英文字幕和非英文字幕之间是否存在差异，但GPT表示结果是两个脚本的内容基本是一致的，只是在细节上存在差异。从当前的使用场景出发，并没有必要精确到非常细的程度，在观点内容基本一致的情况下，是可以直接用的。所以多语言问题对于大语言模型来说，不存在较大的困难。

有时候，如果对于某些视频Youtube官方并不提供字幕，此时则需要利用一些公开的audio2text的工具，例如openai这个包里面就提供了audio转化的方式（例如whisper)。

视频内容总结

在上一步数据提取做完之后，我们理论上就可以直接在给ChatGPT的prompt中加入导出的字幕，并让ChatGPT对上述文本进行总结。但实际上，我们发现对于时长较长的视频，其导出的视频字幕内容就会很长，直接输入到我们现在用的 gpt-3.5-turbo(上下文长度 16k)中没有办法运行。这个就是常见的长文本问题，针对这种情况，业界一般分成如下几个方式处理：

1) 截取前N个token长度的内容进行总结。

2) 采用更加先进的模型，例如GTP-4支持32k上下文，其他模型支持也可以支持更长上下文，比如Moonshoot的KIMI。

3) 采用分割/抽取的方式，分阶段完成信息输入，然后总结。

对于方式一，直接截取的方式，其大于N token长度之后的信息会因为截取从而缺失，因此本质上并不是一个合理的解决方法。而且一般总结性的话语或者重点会在偏后位置出现，因此很容易缺失信息。

对于方式二，是最本质上能解决这个问题的方案，我们需要足够长的上下文窗口来容纳相应的信息输入。但是现阶段而言有两个问题：（1）这种长文本的模型大多是收费昂贵且需要另外的接入成本。（2）目前有研究表明现有的所谓能支持长文本的模型，过长的文本输入后，对于文本开头部分的信息会有所遗忘，因此该技术还处于不太成熟的情况下。

对于方式三，介于两者中间的方案。整体思路是通过迭代的方式，完成对部分信息的选取，然后总结到最后结果的输出。这里我们尝试了两种方式。一种是直接根据预设的长度，然后对段落进行划分，我们称为分段组合式。另外一种是迭代式，类似于斯坦福虚拟小镇 [1]这个项目中的方式，通过总结已知的部分，结合下一部分的内容，持续进行迭代总结，最后输出知识，我们称为分段迭代式。

我们选取了youtube上的某个游戏的视频，游戏主要是KOL试玩游戏并分享故事剧情内容，下表分别对比方式一和方式三中的两种方法：

根据结果我们可以看到，截断式在信息内容上缺失（比如没有说建立基地等内容），分段组合式和分段迭代式的内容完整性上比较类似，把主要内容都能够覆盖到了。但是会发现分段迭代式会在细节上更加丰富而且有内容的连续性，例如上一个观点讲了的内容，会在下一段中得到一定的对应，比如主语关系（主人公这块）。但是，在分段组合式里面，看起来就是每个人自己看了一段然后总结汇总在一起，结果看起来比较割裂，虽然信息上并没有缺失，但是整体的效果并不好。

视频内容问答

对于视频内容进行总结，回答的是视频内容中高频或者主要的观点。但是我们在评估KOL的时候会关注一些细节内容。比如对于游戏行业，非常在意KOL对于游戏的总结性观点，作为市场的同学则需要判断这些观点是否存在偏差/真实，从而作出下一步行动。针对视频内容的问题比较多元，在效率上看，也没办法利用上述的迭代的方式进行（每一个问题需要大量的迭代且效果不一定好）。

因此基于RAG(retrieval-augmented generation)的方式，可以有效地解决这个问题。对于RAG的介绍，互联网内已经有大量的文章，这里就不再赘述，方案上我们利用openai的embedding模型+chroma的向量数据库进行构建。

在RAG的实现方案中，核心的两块内容为文档分割和内容召回。文档分割，将整个文本切割转化为若干的段落，然后将每个段落转化为一个embedding向量，存储在向量数据库里。内容召回则是根据用户输入的query，进行检索，将相关的信息挑选出来用于回答问题。

接下来我们主要讲如何进行这两步以及常见的做法：

文档的分割

文档的分割是这里特别重要的一块，如果带有连续语义的句子和段落，因为分割方式的原因，被分在两个段落里了，那么这个语义则很难被准确地获取到。因此选择合适的分割方式是这个首要解决的问题。我们这里介绍几种常见的分割形式：

第一种就是根据文本长度划分，选择尽可能大的文本长度，减少切割的点，从而降低语义被切断的概率。

第二种方法将内容切分成段落/句子长度，通过召回，进行输出。根据一般的书写规则，每个按段落往往代表一个含义。但是字幕中不存在天然的段落关系，一个可行的办法是，因为人的语气间隔在不同段落之间存在时间差，因此我们可以利用字幕中的时间戳，通过计算语句之间时间间隔信息，判断出下一句字幕是不是新的一个段落。

不同的文本切割会带来不同的效果，但从这个方法自身是没办法判断优劣的，但是我们可以结合下面的召回效果进行判断。

内容的召回

如何对内容进行召回是RAG中的一个重点，类比于广告系统中的召回和排序。可以想象的是，如果召回的结果里面并存在想要的答案，那么无论的怎么做后续的处理，则无法进行相应的回答。最常见的办法利用query的embedding和段落的embedding计算余弦相似度，选取top N结果内容，和问题一起输入到大模型得到回答。

常见的问题包括：这个游戏的优缺点是什么？这个视频关于这个游戏的主要评价是什么？

可以看到，对于固定位置/长度的分割，会导致语义的丢失，例如这里恰好把游戏的缺点的这段给分割开了，从而在语义上是缺失的，从而得不到相应的结果。所以进行更细的划分是更有意义的操作，但是细划分之后，需要召回更多的内容，同时过细的划分也会导致一句话可能会被拆开，从而损失了关键信息。

基于比较细的粒度，在召回当中选取较多的top进行召回，召回之后也可以用例如rerank等方式对召回的结果进行进一步清洗，从而提高检索的效果。这里面有非常多的信息检索的技巧，这里篇幅有限就不一一列举了。

同时我们可以通过自定义问题方式，询问一些关于宣传评价，内容打标等方面的问题，从而获得相应的信息，然后将其和问题一起输入到ChatGPT中，得到最后的答案。由于存在一个召回的过程，我们也可以在数据插入数据的index中加入时间信息，从而帮助精确定位到相关信息的位置，这样也放方便使用者验证，增加回答的可信度，最终形成的格式如下：

总结

利用大语言模型对于文本的处理能力应用到视频内容总结和问答，特别是海外多语种环境下，是非常有天然的优势的。另外，对于KOL发布的视频，大多都是种草和拔草，所以这种基于听觉然后转化到文本进行处理的方案是可以很好地覆盖到主要内容的。

同时，我们也必须承认现在大模型整体往多模态方向发展，例如GPT-4O和Gemini都是能支持视频总结的（抽帧得到图片），这样就弥补当前方案在视觉上的缺失，然后结合文本，相信这块工作会有更进一步的进步空间。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业