我要投稿

美团外卖AIGC视觉创意的探索与实践

发布日期：2024-07-25 20:33:24 浏览次数： 5457

不同于其他电商场景，外卖业务下大量中小商家营销能力弱，菜品图像质量差，因此在C端对菜品图利用AIGC技术进行美化存在较大的潜力。自2023年以来，美团针对智能头图展示的菜品供给利用AIGC技术进行全面优化，结合图像生成以及视频生成技术，生成素材日曝光达到2亿。本文将介绍美团在视觉AIGC技术落地过程中遇到的挑战以及解决思路。

1. 背景
2. 自然流量下AIGC投放挑战
3. 外卖业务视觉生成创意实践

3.1 图像创意
3.2 视频创意

4. 落地探索
5. 总结
6. 本文作者
7. 参考文献

1. 背景

美团外卖服务了数亿用户，在推荐场景下，流量分发主要以商家列表形式为主，菜品图则是商家极为重要的展示素材。然而，对于外卖业务，存在大量中小商家，他们的营销能力弱，菜品图像质量较差，在影响用户体验的同时，降低了商家以及平台的转化效率。在过去的迭代中，业内对于自然流量一般只进行内容理解进而优化排序结果，只有广告商业化等才会考虑优化创意供给，提升商家图像质量。自2023年以来，随着以Stable Diffusion为带代表的视觉内容生成模型出现，海量的高质量素材生成已经逐渐成为可能。因此，我们尝试在自然流量下以较低的成本探索大规模视觉创意生产及投放，以提升用户体验，驱动业务增长。

2. 自然流量下AIGC投放挑战

从以Midjourney、Pika为代表的视觉生成产品问世以来，各类基于生成式模型的应用层出不穷。对于外卖业务，AIGC技术在落地时仍存在其独特的问题与挑战，它们包括：

美食垂类生成效果不佳：当前无论是文生图还是文生视频，其生成能力主要面向通用概念，模型对中式美食概念理解不足，直接使用这些开源模型生成中式菜品的效果不佳。
生产自动化程度低：当前大部分AIGC应用主要以“人”为中心，常常由人工调控Prompt的输入来控制图像的生成，或者人为评估生成图像、视频的质量，生产流程的标准化、自动化程度比较低。然而，自然流量下AIGC素材的优化往往在百万量级，完全通过人工生产的成本过高。
易引发业务风险：AIGC素材可能存在生成结果畸形、扭曲、包含异常文字等情况，直接投放会引起商家、用户的投诉甚至产生社会舆论问题。

针对以上问题，我们选取图像生成以及视频生成两大能力进行迭代，并在落地时按照图1的方式展开全流程优化。对于图像生成，我们着重优化了语义理解能力和可控生成能力；针对视频生成，我们则主要针对动态效果和镜头控制两个方向进行技术建设。为减少AIGC素材潜在的业务风险，我们选择了智能头图作为当前AIGC落地的主要场景。

在这一场景中，为了增强商家对用户的吸引力，会通过个性化推荐模型将商家售卖的商品图直接展现给用户。但由于用户还需要进店选购，在该场景不会产生实际的成交，从侧面降低了AIGC素材与实际素材不一致的业务风险。此外，为了避免异常素材被投放，我们通过自动审核链路以及小流量AB效果测试，过滤低质素材，以降低人工审核成本，同时保证最终全量投放的素材的效果。

3. 外卖业务视觉生成创意实践

| 3.1 图像创意

如何构建美食垂类生成模型并实现优化素材的业务场景投放，是一个系统而相对复杂的算法问题。为了解决这个问题，我们进行了一系列的探索，初步总结了一套从基础数据、数据工程、模型构建到素材投放的算法框架（如下图2所示），为后续的模型优化、场景扩展等奠定了基础。

3.1.1 文本编码器

为了建设中文语境下美食垂类文生图模型，面临的第一个问题是如何构建美食垂类概念下的Text Encoder。这个Text Encoder不仅对中式菜有很好的语义理解和区分能力，并且具有一定的通用概念能力，进而满足多样化可控性生成的需求。然而，构建统一的语义理解模型来对美食垂类和通用概念同时进行编码的成本较高。因此，我们借鉴SD3^[1]多Text Encoder集成的模式，采用两种不同的Text Encoder分别做美食垂类语义理解以及通用概念理解。此外，为了以更低的成本获取美食垂类编码器，我们选择采用基于CLIP对比学习的编码器；对通用概念，我们则选择中文LLM模型作为编码器。

1）菜品概念理解

在当前主流的文本编码器中，主要是以英文语料为主的多模态学习模型OpenCLIP。解决中式菜品理解和编码能力的一种思路是，将中文菜翻译成英文，再直接利用OpenCLIP进行编码。但由于中式菜跟西式菜存在较大的区别，导致翻译的英文菜名与中式菜在语义上存在较大的gap。另一种思路是利用现有中文CLIP模型，如Taiyi-CLIP、ChineseCLIP、AltCLIP等开源模型，然而这些Text Encoder训练时并没有专门注入美食垂类领域知识，对于美食概念难以准确表达。

因此，为了更好学习中文美食概念，我们借鉴AltCLIP^[2]的思路，设计了兼顾通用概念以及美食概念的文本编码器StarLight-CLIP。StarLight-CLIP通过两阶段训练方式进行构建：首先，通过中英文对齐的方式，获取一个尽可能继承原始英文语义表征能力的对比学习模型StarLight-CLIP-base，该阶段的中文训练数据集中混入少量美食数据；然后，在此基础上进行第二阶段训练，获得专门注入大量美食垂类知识的对比学习模型StarLight-CLIP-food。

StarLight-CLIP-base：首先在文本编码器层面，我们通过蒸馏学习将StarLight-CLIP输出的中文语义向量对齐到teacher模型（OpenCLIP）的原始英文语义向量上，使StarLight-CLIP的中文编码器能“继承”OpenCLIP强大的语义表征能力，作为Stage 1阶段；其次，我们在50m通用概念数据中混入了11m外卖美食数据进行概念注入，通过固定OpenCLIP图像编码器而只训练StarLight-CLIP文本编码器的方式，经过对比学习来提升了菜品相关文本表征的效果，作为Stage 2阶段。通过离线benchmark评估结果（如下表1）可知，自研模型StarLight-CLIP-base在下游各领域任务上超越了当前SOTA的中文表征模型Alt-CLIP-18m^[3]等，既学习到了较强的中文通用概念，也获得了很好的美食概念注入。

StarLight-CLIP-food：在这一阶段主要做美食垂类领域知识注入，且放弃通用概念能力。基于base模型，我们收集了当前外卖服务的130m美食图片数据。在该数据集上继续进行Stage 2阶段的美食垂类领域知识学习。通过如下表2的性能对比可知，该模型在美食垂类上的性能大幅度提升。

2）通用概念理解

在数据层面，我们采用视觉大语言模型进行详细标注以获取更为丰富的图片信息。考虑到在做全自动化海量素材推理时，利用LLM进行详细的Prompt改写相对困难且不可控。为了解决这一问题，保证生成标注与推理Prompt的一致性，我们利用vLLM多模态大模型对菜品图片的关键信息进行结构化标注，Prompt标注提示词如下：

Prompt：你是一个数据标注员，下面是'xxx'的美食图片，你需要采用关键词的形式简洁的概括图片的内容。标注形式为：{美食主体:xxx;配料:xxx;容器:xxx;背景:xxx;背景元素:xxx;背景色调:xxx}。

随后，针对结构化Prompt进行解析处理，去除引导的关键词，同时按一定比例对每一项随机置空，并进行shuffle。最终的标注效果如下表3所示：

表3 美食图片vLLM自动标注示例

取中文标注后，为了理解这些复杂的通用概念，我们采用中文LLM作为Text Encoder获取其编码表征，并加入到下游unet进行训练。在Stable-Diffusion模型基座上，我们采用IP-Adapter^[5]注入方法：在传统的Clip编码表征上，额外注入新的编码信息。其中，StarLight-CLIP只接受菜品语义信息以及挖掘好的标准化文本信息；中文LLM则接受由视觉大语言模型Recaption后的通用概念输入。

3.1.2 数据清洗

训练数据集质量好坏将直接决定了生成模型最终的生成效果。为了保障生成效果以及生成结果可控，我们对收集的美食数据的数据质量进行结构化标注，并按类别清洗。然而，为了保证后续投放流程的自动化与可控性，在这一环节，我们不是面向传统意义上的高质量构建训练数据集，而是面向适合在外卖业务投放的图像属性进行清洗建设。在实践中，我们还发现素材的投放效果并不完全取决于传统意义上的的美学分。在外卖领域，好的图像不仅仅是以美为评判标准，更取决于能否激发用户的食欲。为实现这一目标，团队结合外卖实际业务认知，对训练数据做了充分的清洗。

1）图像质量结构化标注

美团外卖自有数据质量参差不齐，且缺乏标注信息，仅有菜品名可以使用。我们通过对实际数据的分析，将图像质量归纳为以下几个方面：

美学：生成图片美学质量高，有吸引力、有食欲。图片美学质量由低到高不等，低美学图片大多为手机低像素实景拍摄，高美学图片则通常为专业团队拍摄并经过后期处理。
水印：图像包含“美团外卖”或者商家品牌水印，这导致模型在生成时容易发生扭曲。
文字：不少图片中含有商家Logo，或者广告语等，字符占图像的空间大小不一，导致模型容易生成扭曲的文字。
菜品大小：在数据集中，菜品主体占整个图像的占比大小各不相同。然而在实际业务中，由于外卖菜品展示图往往尺寸较小，主体过小会导致用户无法辨认实际菜品，降低视觉冲击。

以上四点构成了外卖图像质量评估的基本评价准则，为了保证可以生成高质量的菜品图片，我们采用OCR、目标检测等方法针对这四个方面对自有数据进行充分的结构化标注。

2）图像类别标注

除了对图像质量进行结构化标注外，为了获取更加真实的生成效果，我们针对数据中典型的图像类别同样进行了结构化标注。在外卖数据中，典型的图像类别包括：照片风格、拼接图、生食、非食品、PS编辑合成图片等。

对数据集中图像进行分类的过程，可视为一个多分类问题。为了获得这样一个图片分类器，我们先小批量人工标注训练样本，然后采用OpenCLIP的Image Encoder+四层MLP作为分类器的结构构建图像分类模型。由于各类别样本数分布不均，采用Logit Adjustment Loss进行训练，然后再进行“模型训练-数据标注”轮动反复多次迭代，逐步提升任务准确率，最终得到了较为准确的类别标注属性。

3）生成图像的可控性

如何将以上样本标注转化为模型训练的控制条件，并保证生成图像的真实性，是美食垂类文生图模型训练中需要思考的问题。对文生图模型而言，有三种主要的控制方式：训练样本控制、连续特征控制和离散特征控制。在美食文生图模型的迭代优化中，我们对这三种控制方式都做了尝试。

训练样本控制：为了控制美食生成质量，使生成图像不出现诸如低美学质量、水印、文字等问题，一个简单的解决思路是将菜品数据集中出现这类问题的图片样本数据进行过滤。基于这个出发点，我们通过以美学分、图文语义相似度、分辨率等阈值及文字、水印标注，对收集的亿级别美食数据进行过滤，挑选了几千万高美学分、高语义相似度、高分辨率、无水印文字的数据集进行训练。从生成结果的评估来看，生成图像的美学质量比较高，但存在较多品类语义理解不佳、生成效果不佳的问题。分析其原因，采用阈值条件筛选导致样本被过滤较多，导致训练样本不足，模型对美食品类学习不充分，泛化性较差。通过降低过滤阈值，美食训练数据不断增加，菜品美食的生成能力在不断提升。基于这个认知，我们采用全量的美食数据进行训练，来构建美食垂类的菜品生成模型。
连续特征控制：连续Embedding特征控制是SDXL^[6]为了解决图片裁剪导致生成图像不全问题和提高图像生成质量，将图像裁剪坐标、原始尺寸、目标尺寸数值经过Fourier embedding化转化为256维特征，作为额外的控制条件与timestep特征一起作用于Unet。为了保证生成图像的质量和文生图模型在业务场景批量落地应用时的可控性，鉴于这种控制方式的有效性和精确控制效果，我们尝试将描述图像美学属性的美学分、色度、亮度、饱和度、分辨率、菜品主体大小及位置，按照这种控制方式作用于文生图模型的Unet。此外，为了提升生成模型对输入文本的理解，参考SDXL将文本编码器的Pooled Text Embedding也加入控制条件中。
在实验中，这种控制条件训练所得文生图模型，可通过设置具体数值的美学分、色度、亮度、饱和度、菜品主体大小、位置，来实现对生成图像的精细化控制。例如，生成图像亮度过高，可以适当降低亮度参数的输入值，其他控制条件的调节也是如此。通过对各参数的尝试、对比，选择一组合适的参数作为生成图像的默认控制条件。
离散特征控制：在大规模的美食图片生成落地中，控制条件的选择存在“通用性”和“多样性”之间的trade-off，“通用性”控制指的是符合所有用户需求的默认生成控制条件，例如去除水印、文字等；“多样性”控制指的是针对不同美食品类，经过控制参数调优选取最佳的图片生成控制参数，例如饱和度、亮度、色度等。然而，在面对几百万甚至千万级别的美食图片落地生成时，“多样性”参数的选择将变得非常困难；而给定一组默认控制参数批量生成图片，又会导致生成图像风格相对统一（亮度、色调等）、多样性差的问题。
因此，为了能同时兼顾素材落地对生成图像的“通用性”和“多样性”要求，在后续的模型训练中去除了亮度、色度、饱和度等控制条件，且减弱连续特征的强控制性来保证图像的真实性、多样性以及模型泛化效果。为了既能控制生成图像的美学质量、是否高清、菜品的大小及位置，又不至于控制条件作用太强而缺少泛化性，尝试将这四个控制条件的连续数值按照取值范围离散化为Prompt控制，而各取值范围按照样本数分布进行确定。基于这些控制条件的离散化，美食生成模型兼顾了生成图像的可控性和多样性，生成效果的真实度大大提升。

3.1.3 模型训练

对文生图模型而言，生成图像的质量除了取决于训练数据以及中文菜品语义理解模型之外，最重要的就是训练策略的设计。虽然英文文生图模型Stable Diffusion 2-1采用OpenCLIP的Text Encoder作为文本编码器，自研的中文美食语义模型StarLight-CLIP-food在对比学习阶段也将中文菜品语义与OpenCLIP的Image Encoder进行了对齐，但这种对齐并不全面，仍然存在一定的模态Gap会影响Unet的训练。为了实现中文美食语义模态与英文图像模态之间的对齐与适配，借鉴AltDiffusion^[7]与SDXL的训练方式，设计了如下三个阶段的训练策略：

Stage 1 中文美食概念对齐阶段：将StarLight-CLIP-food模型Text Encoder的参数冻结，仅仅开放Stable Diffusion 2-1的Unet的CrossAttention层K、V矩阵进行文图的概念对齐，在亿级别原始美食数据集Finetune 60万个Steps。
Stage 2 原始数据Finetune阶段：基于Stage 1的模型参数，完全放开Unet的参数在亿级别原始美食数据集进行所有菜品概念与图像的Finetune过程，该过程Finetune 60万个Steps。
Stage 3 高质量数据精调阶段：基于Stage 2的模型参数，完全放开Unet的参数，在高质量的千万级美食数据集上继续Finetune 33万个Steps。

3.1.4 素材自动审核

由于美食生成模型有一定的概率会生成物体畸形、文字扭曲等的异常图像，给用户、商家带来严重不适的体验和社会舆论风险。因此，在生成模型进行落地应用时，需要对生成素材进行质量审核。在智能头图场景下，美食生成模型需要生产的素材往往可达几十万到几百万量级，完全依靠人工进行素材审核的成本巨大。为了加快生成素材落地应用时间和降低审核成本，我们对美食素材的自动化审核进行了探索。

在美食头图素材的大规模生产、投放中，我们发现其菜品名数据比较脏，直接采用该菜品名作为Prompt进行生产存在以下几类问题：

菜名无实体：菜品名中存在无明确菜品实体（如星际漫游、全熟C等），中文菜品模型容易将其理解为字面的中文含义，而非菜品语义，导致生成图像不对、异常。
组合套餐：菜品名存在一定的非实体套餐（如特惠冲量套餐、单人单点套餐等）& 多主体组合套餐（五谷杂粮煎饼+培根+生菜等）。由于各商家对非实体套餐的定义不同，所包含的具体菜品不一样，导致生成模型对此类菜品语义理解混乱，生成图像异常。对于多主体组合套餐而言，由于存在多个菜品主体，生成模型并不能准确地对每个菜品进行生成，导致生成图像异常的概率也较大。
图像畸形：模型对部分菜品生成效果不佳，生成图像怪异、畸形、扭曲。

为了保证模型大规模生成素材的质量，降低线上展示素材的Badcase率，我们主要从以下三个方面进行解决：

菜名实体检测：通过LLM对菜品名进行实体识别，过滤无明确菜品实体的文本，实现生成素材Badcase率由4.26%降至1.22%。
菜品名清洗：利用LLM大语言模型对菜品名进行清洗，对各种配菜、组合套餐、特殊字符等进行过滤，生成干净的菜品Prompt。
图片异常审核：利用vLLM多模态大模型对图片进行异常、畸形等问题审核，可将素材Badcase率由1.93%将至0.994%。

自动化生成与审核流程如下图3所示：首先，由LLM对原始菜品名进行实体识别，判断是否包含菜品实体，如果检测结果无实体，判定为异常，不进行后续流程；否则，则判定为正常，再由LLM大语言模型对菜品名进行清洗，过滤特殊字符、配菜、组合套餐等，清洗完的菜品名由美食生成模型生成菜品图。其后，由vLLM多模态大模型对生成的图片进行大规模审核，将生成扭曲、畸形、生成效果不佳的图像判定为异常图进行过滤，不参与素材展出。最后，由人工对审核后的当前批次进行抽检，抽检为异常则不参与素材投放。

这些流程构建了生成图的自动审核能力，总体可实现Badcase率由5%降至0.71%，可以直接支持小流量下的自动化素材投放需求。

| 3.2 视频创意

在智能头图场景，视频素材对比图像可以更精准地复现菜品的原貌，提供更加丰富、直观且互动性强的展示效果。团队主要聚焦以下方向进行视频创意素材优化以提升外卖首页feed效率：1）镜头环视：突破了传统单一图片所限制的静态的单一视角，依赖于视频生成技术的镜头环视能够更加全面地展示外观特征，展现品质感。2）动态效果：通过视频生成技术还原菜品的动态性，例如蒸汽缭绕的热菜、噼里啪啦的热油等，动态性能极大地唤起用户的食欲，提高用户转化。下面将围绕以上两个方向具体展开介绍。

3.2.1 环视镜头生成

视角控制生成，是指用户给定一张图片，能够生成给定相机视角的视频。镜头类型主要包括环视、推拉、平移，以及它们之间的任意组合。镜头运动过程中，当相机视野超出图片可视范围时，需要使用视频生成的技术从时间和空间上对内容进行补全。当前在外卖场景主要从以下几个方向进行了尝试，包括稳定生成镜头环视效果、大角度环视视频生成、勺筷等竖条状干扰下生成、文字干扰和元素动态性生成。

一方面，在模型结构方面我们采用了自研的视频生成框架，能够生成4秒以上的视频。另一方面，我们通过人工+合成数据的方案，制作了大量高质量美食垂类的合成视频。通过建立从仿真到渲染的3D合成链路，我们可以很方便地渲染合成各个方位视角、旋转角度、速度、时长、轨迹、动态背景、以及含有交互类的镜头视频。

然而，仅采用3D仿真数据优化模型，不能完全模拟生成时遇到的各种复杂情形，我们发现该版本对于食物以及文字会出现比较强的扭曲，素材的成功率仅有86%。为了解决这些问题，我们进行了一系列的实验：

我们首先通过真实的菜品图片推理出一批视频数据，并回收了效果好的数据，重新加入到训练以优化数据分布进而优化模型，该方法较好的缓解了这一问题，但在某些长尾场景上仍效果不佳。
我们采用了两阶段训练方法，在第一阶段使用外卖场景的真实数据，使模型对餐具、食物以及文字等信息在视频中的表现形式先有一定的了解。在第二阶段，我们使用了带有餐具和文字的合成数据达到镜头的运动可控，从而实现稳定的效果，成功率提升至97%。

仅采用仿真数据	最终效果

3.2.2 动态效果生成

为了能够较好的生成美食垂类下具有丰富动效的视频，我们通过文字特征和图像特征共同引导模型来实现视频可控生成，进而针对多种特效进行控制。这种方法允许用户通过简单的文字描述来控制视频内容生成的方向，显著提高了业务使用时模型的可用性和灵活性。同时，在数据方面，我们不仅采用了真实美食数据，还通过上述合成渲染链路，解决了训练数据视角不可控问题。通过以上方法，模型能够在保持较高自由度的同时，生成满足用户需求的定制化视频内容。

Demo1	Demo2	Demo3	Demo4

同时，我们在基于自研的通用视频模型基础上通过二阶段的训练方法，建设美食垂类文生视频模型，并借此还原菜品的制作过程。1）首先，在第一阶段，我们对大量中式菜品进行了中英混合标注，提升模型对中式菜品的理解和生成能力。2）在此基础上，第二阶段在训练好的视频生成模型上采用LoRA^[14]技术对原有菜品图或视频进行了专门的学习。

Demo1	Demo2	Demo3	Demo4

3.2.3 组合多镜头

除了利用单一模型生产创意之外，最后，我们还设计了组合镜头模板来丰富视频创意的类型，例如多角度展示、环视与动态效果结合等。结合超分、插帧等技术，再系统性组合、拼接不同模型镜头生成的结果，实现了近似商业拍摄的多镜头效果，使得AIGC素材具有更强的表现力。

Demo1	Demo2	Demo3	Demo4

4. 落地探索

1）落地场景

我们选择外卖推荐智能头图作为落地主场景，在外卖首页Feed中，商家展示图片是一种重要的信息传递媒介。智能头图会通过个性化算法选择最佳的菜品图片展示给用户，对比使用原始的商家Logo，智能头图的优势在于：

优质的菜品图更具吸引力，用来做店内信息的透传能够极大程度地提升商家对用户的吸引力从而提升列表的筛选效率；
个性化菜品推荐能力的引入，让相同的商家在不同用户眼里看到不同的兴趣点，通过算法的千人千面建模能力，进一步降低用户决策成本，提升首页筛选效率及转化效率。

然而，不同与电商、短视频等其他业务，外卖业务下素材质量普遍较低，商家对于图像的主动美化意愿不高。因此，我们利用AIGC技术对菜品图在C端进行集中美化，并作为智能头图供给投放在首页Feed，提高智能头图素材质量进而吸引用户。具体流程如图5所示，我们先利用AIGC技术离线生成海量素材，然后在小流量上通过随机投放的方式进行效果评估，仅保留效果较好的素材。结合个性化排序模型，智能头图会选择最有吸引力的素材展现给用户。为保障用户体验，我们还建立了创意间隔打散、素材黑名单过滤等基础能力。

2）素材&方案选择

在优化素材选择上，除了高频曝光素材外，我们也尝试优先选择低质量图片进行AIGC素材美化，包括低美学分图片、纯色背景图片等。除此外之，我们还专门圈选图库图片进行AIGC素材美化，这批素材来源于商家在建品时没有选择自主上传而是从美团公共素材库中选择图片进行建品，针对这一批素材利用AIGC能力进行美化具有更低的业务风险，商家客诉率更低。

在AIGC方案选择上，可以分为三种完全不同的落地导向：1）文生图/视频优化。2）图生图/视频优化。3）图像修复为基础的素材美化。在实际业务中，我们发现，对于第一种方案，用户在首页列表浏览时，对于第一眼看到的创意素材以及店内行为具有极强的关联性，通过头图引流进店的用户很有可能被该菜品所吸引，如果在店内寻找不到对应的菜品，会出现点击率提高、转化率降低的情况。而对于第二种和第三种方案，往往以原图作为基础进行优化，最终点击、转化都会出现显著正向。因此，我们选择基于原图的可控优化为主、其他优化方案为辅的投放生产策略。

3）落地效果

经过外卖推荐算法团队长期探索，AIGC技术在外卖首页推荐智能头图场景下，日均覆盖2亿曝光，整体PV约占首页10%，智能头图场景25%，且取得了显著受益：

图像生成上，团队通过文生图、图生图、图像修复（背景替换）在智能头图场景下共生产百万级别素材，结合自动审核，日曝光量约1亿，投放CTR+5.91%，订单量+0.66%。

视频生成上，团队当前朝自动化投放为目标持续优化良品率，通过建设环视镜头、动效镜头、组合镜头等，结合人工审核，在智能头图场景下共生产数十万级别素材，日曝光量约1亿，投放PV_CTR +3.50%，订单量 +2.16%。

5. 总结

外卖业务下大量商家营销能力弱，通过图像以及视频生成技术可以有效地帮助这些商家提升智能头图素材质量，起到激发用户食欲、提升商家吸引力的作用。具体的，在文生图方向上，我们通过建设理解中文语义的美食垂类文生图模型，以及全自动化的生产、审核流程完成了海量素材优化；对于视频生成模型，我们则朝着动态效果以及镜头环视两个目标进行落地尝试，并对生成效果以及稳定性进行优化。结合AIGC技术，团队最终在外卖推荐智能头图场景取得了显著的收益。在未来，我们将针对以下方向持续进行探索：

优化视频与图像基座：持续扩充美食垂类图像以及视频数据，提升基座模型效果。
结合其他图像技术提升生成质量：结合新视角合成、光影渲染、图像修复等，通过构建Agent自动化判断图像缺点并调用相应工具执行美化。
结合其他类型的创意模版和创意素材：结合标准化的广告模版、字体、补充文字利益点等，将传统广告的创意能力迁移到自然流量上提升菜品图吸引力。
探索新的产品形态与落地场景：寻找适合AIGC的新场景、新形态进一步赋能。

6. 本文作者

Recommendation System, Image and Video Generation: Q.Li, K.Fan, L.Han, R.Han（Project Leader）, J.Liu, F.Jiang, X.Li
Video Generation: W.Yi, F.Gao, T.Zhang, S.Liang, Z.Kang
Engineering Team: X.Li, D.Yin, B.Chen, C.Wang, J.Zhou

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业