推荐语
淘宝法象:电商视频生成新突破,降本增效利器。
核心内容:
1. 淘宝法象大模型:电商视频生成新能力
2. AIGC内容生成技术在手淘的规模化应用
3. 图生视频模型架构与技术优势解析
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
作为一种新的商品表现形态,内容几乎存在于手淘用户动线全流程,例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力,能够从供给端缓解内容生产成本高的问题,通过源源不断的低成本供给倒推消费生态的建立。过去一年,我们通过在视频生成、图文联合生成、个性化文案、人设Agent等核心技术上的持续攻关,AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验,我们将开启一段时间的内容AI专题连载,欢迎大家一起交流进步。
淘宝法象视频生成大模型能力介绍
图生视频作为最贴近电商应用场景的核心视频生成模型能力,对训练数据、GPU资源、模型结构和训练策略,都有非常高的要求。我们的图生视频模型框架也紧跟行业技术的发展,经历了从UNet架构到DiT架构的演变,进行了长达一年半时间的技术探索、模型迭代和数据积累。目前,我们完成了一版效果稳定的具有电商服饰营销视频特色的图生视频大模型--淘宝法象。

技术优势:
海量垂类电商数据:专注于人物垂领,持续积累、清洗和标注电商营销视频和电商域内容视频,建设了完善数据清洗算子体系,精心清洗2亿+的高质量电商数据,覆盖淘宝全服装品类。
电商领域专家对齐:通用模型生成的结果往往出现手部畸形,表情与动作怪异的问题,部分表情动作也与展示的服装有风格上的差异。通过人类电商专家进行标注打分,我们积累了丰富的人类偏好数据进行模型的对齐学习,让生成的视频更贴合电商应用场景。
精心设计的Lora精调体系:基于强大的基础模型能力,完善在各个细分场景上的功能生态建设,将生态功能lora化,减少模型迭代成本。当前已经构建带有营销文案的图生视频能力支持、运镜、光影、场景变换等lora的开发。
丰富的控制能力:模型支持文本控制、动作幅度控制和运镜控制,同样的图片可以生成多样的视频结果,用户可以根据投放场景定义合适的生成视频风格,一图多用。
丰富的衍生模型能力:“淘宝法象”不仅仅是图生视频!我们构建了一系列视频生成和编辑模型矩阵,包含:视频换衣模型,视频换背景模型,视频生视频模型,视频延展模型,动作驱动图生视频模型,语音驱动图生视频模型,虚拟人驱动模型等等。各项算法能力有层层递进、相互促进的关系,同时可组合出支持不同控制条件的产品级能力,支持多样的应用场景和业务需求,具体效果和应用场景见本文第二部分。

模型特色:
业务应用:帮助巨浪外投平台降本增效。基于上述视频生成和编辑模型矩阵,支持了10+不同的素材创意类型。目前AI视频产能整体已占到视频大盘的50%+,CTR、CTCVR分别高于非AI视频70%+和50%+,月曝光PV 4.5亿次,唤端后会话内购买人数和购买金额也已占到大盘的30%和50%,GMV转化效率是非AI视频的2.7倍。
业务应用:帮助商家降门槛、提效率。我们与千牛-生意管家深度合作,推出了视频生成应用,帮助商家降低视频制作门槛和制作成本,生成适用于各类电商营销场景(商品展示、种草等)的视频,支持对各类视频元素的便捷调整,提供了方便快速的商品视频制作体验。当前基于输入平铺服饰图的视频生成产品已在生意管家上线,并开放给淘宝商家使用,其他产品能力也将于近期上线。当前生成视频的商家采纳率为40%+,可以体现为商家侧助力的巨大应用潜力。
商家上传平铺服饰图,直接生成带有卖点讲解文案的可用于主图和种草场景的5-15s视频。此场景已在千牛-生意管家产品上线并开放给商家使用,欢迎试用。
商家上传一组实拍模特图,为每个模特图生成一个视频片段并合成长视频。同时,可生成人物场景化的内容种草视频,也可保持主图牛皮癣营销信息不动从而直接用于主图视频。此产品能力将于3月中旬在千牛-生意管家产品上线并开放给商家使用,敬请期待。
提供一张平铺服饰图和一组模特图,自动生成商品讲解文案,驱动虚拟人形象介绍该商品,虚拟人可做到讲解服饰的自动上身,同时根据模特图生成视频素材,混剪到虚拟人讲解视频中,形成素材样式丰富的商品讲解视频。通过视频换衣(video tryon)模型,商家上传一段实拍模特视频,根据商品图生成展示新服饰的模特视频,可借此快速丰富店内其他商品的主图视频素材。
通过视频生视频(video2video)模型,帮助商家使用已有视频直接生成新视频,可调整人物动作和视频场景,生成自有版权的视频,提升视频丰富性,在不同场域投放。通过视频换背景(video background editting)模型,帮助商家对已有视频直接替换背景,生成新场景下的营销视频,满足不同场景营销诉求的同时提升视频丰富性。
通过动作驱动的图生视频模型,复刻典型的商家拍摄模特视频的动作模板,生成可直接投放的服饰展示视频。通过视频延展(video outpainting)模型,可以帮助商家对已有视频直接生成不同尺寸的多个营销视频,满足不同应用场景下的差异化尺寸要求。结合人脸生成、视频换衣和口唇驱动三项算法,可以帮助虚拟人讲解营销视频进行从人脸到服饰的形象多样化生成,提升虚拟人营销视频的多样性和转化效率。