淘宝AI试衣素材高效写入IC实践

▐ 现状

服饰属于非标商品，用户无法直观的通过模特上身图去预估自己的真实上身结果；在详情页内，用户主要通过卖家秀、问大家等获取真实参考；因此部分数据不全的商品内，用户难以快速决策发生购买。

▐ 淘宝试衣已经做了什么

扩大女装商品覆盖：例如连衣裙、上装等
支持同商品的不同sku的试穿，提供分类目的不同上身效果的衣长指南
优化多版模特，使其更加真实自然；支持多种身型模特以及用户照片试穿
优化试衣效果及清晰度

▐ 淘宝试衣在其他合作场景

LAZADA详情：为没有模特上身图的商家替换东南亚模特试穿的详情主图
淘宝详情、购物车等：试衣标志，为有需求的用户提供试衣体验
BC消息：咨询界面为客户实时提供试穿入口，让用户看到真实试穿效果

▐ 淘宝试衣x详情场景的承接演变：

原沉浸式试衣间形态

在详情场景下不适应的问题：

1. 沉浸式试衣间要做页面跳转，跳出详情，阻断交易链路

2. 沉浸式试衣间内的商品来自推荐和衣橱，不适用于详情场景

3. 用户实时试穿，需要等待，影响用户体验，受限于显卡资源无法承受详情这么大的qps

为了让更多的用户能够直面接触淘宝试衣以及带给用户更好的试衣体验；我们与详情进行合作：

1. 在详情页增加ai试衣锚点，让用户在主图区域直观看到ai试衣效果；

2. 算法预跑不同身形下的试衣效果数据，服务端使用离线任务将其写入ic拓展结构，用于锚点试衣效果展示，解决详情场景下请求过多导致显卡资源不足问题

3. 用户同样可在商品主图区域直接触发试衣浮层，使用不同的模特或使用自身照片，选择不同的sku进行试穿；

淘宝试衣 x 详情页

关于模特的位置以及外观形态等方面正在优化中，近期上线新模特。

▐ 目标

当然在上线后我们也是发现了很多不足，无论是模特还是页面的排版上都有很多不合理的地方，我们正在对这一部分进行优化，下面先看一下本次合作相关链路，稍后进入正题：网格化任务写ic。

此次完成的离线任务主要支持的工作是将商品的ai试衣信息写入ic拓展结构。

试衣素材写ic实现方式：odps数据预处理 + ScheduleX网格化任务

▐ 1. 高性能（高效）目标

目标实现于效率优化部分 4子任务分发以及处理部分效率优化

▐ 2. odps数据预处理

多行数据整合：

由于上游提供的数据为：商品下的每一张图片对应一条数据，每个商品平均5张图片，则一个商品会产生约5条数据。

不进行预处理的情况且假设请求速率不变的情况下，在调用离线任务时，每条数据去进行ic写入，请求量级上，qps会被放大5倍；另外在代码逻辑上不能直接采用覆盖更新ic试衣拓展结构的方式，而是每条数据都需要先查询ic进行校验后追加数据，这种情况下，qps又被放大2倍；

代码内存中聚合实现成本高且灵活性差，那么在现实场景下会导致每秒的商品处理量会急剧降低，因此我在对ic进行数据写入之前对odps同商品数据进行了整合操作。

在上游提供的原数据表中一个item存在多条试穿数据，我需要先将该数据按item维度进行Group BY后，再使用WM_CONCAT()与CONCAT()将其中每条数据的相应字段整合到一个名为extend_info的字段中进行汇总，其中包含多条试穿数据，为了在离线任务中能够更好的进行对象格式的转换，需要将其组装为json格式；最终，实现数据的正确获取以及整合，存储至新表中。

▐ 3. 实现数据的正确获取及处理（ScheduleX网格化任务）

在网格化任务处理过程中，主要包含三大部分：子任务的分发、子任务的正确处理、执行结果汇总。

在dts平台进行任务运行时，选择了关键信息参数传递的方式：

关于子任务的处理部分，在任务分发的时候就会指定分发子任务的标识：

这样在子任务处理流程中，拿到对应标识的任务上下文处理即可；

通过reduce方法，获取各个子任务的执行结果，进行汇总后组装数据发送钉钉通知等。

▐ 线上的机器配置

根据每条数据的数据量去计算，百万条数据均分至线上机器后，每台机器内存占用约为2.5%，由此可以看出，离线任务的卡点不在资源配置上吗，所以我们后续专注于如何提高运行效率。

▐ 任务处理效率对比

这一版代码一开始时并没有实现匀速请求，请求不断的发出，在预发测试时，触发了ic限流，catch（BlockException e）不能正常捕获，ic限流后异常类被sentinel重新包装返回，因为没有注意到这一点，当时也是排查了很久。

虽然修改后能够实现数据的正确处理以及匀速请求，但是因为单线程循环处理方式以及分页不合理，以及限流后直接失败等因素，导致数据处理速度较慢、成功率不达标；另外在实现匀速请求后，sentinel的限流就失去了他的作用，因此进行了代码优化。

通过网格化任务，实现百万级淘宝试衣商品打标在小时内完成，同时保障打标成功率达到99.9%。

实现百万条数据在半小时内处理完毕，并且保障打标成功率99.9%；

相关优化方式：

采用这样的策略可以使任务分页更加合理，另外，如果按照之前的逻辑，我们每次请求任务时都需要临时去修改switch分页值；每次都要走审批流程，也是不小的时间花费。

线程池任务分页，线程池四个子线程任务分页时，直接采用均匀分页策略；

无论在线程任务分页还是在子任务分发时分页，都要考虑到最后一个任务的数据量问题，最后一个任务数据量应为：总数据量 - 前面分页已经分发掉的数据量，而不是直接使用分页值，这样可以避免数据重复更新，从而避免增加更新耗时。

1. 通过上述优化后的处理速度：（实现目标一、目标二）

2. 断点续传（实现目标三）：

3. 增加报警、执行人奥格消息通知、群机器人通知等（实现目标四）

随着在改善试衣效果和模特效果、增加商品覆盖和业务场景覆盖上的不断努力，淘宝试衣已经进入一个新的阶段，在此次淘宝试衣x详情合作上线后，我们也发现了一些不足之处：模特的真实性，详情页主图构图效果等...，我们也会在后续的工作中不断完成这一部分的优化改进，争取进一步提升AI试衣的产品力，为用户提供更好的购物体验。

在我认为的理想世界中，未来的淘宝试衣不只是贴图的形式出现，那么试衣能不能做的更加立体更加多元化，也是我们不断在追求的方向，你可以想象到一个悬浮人物在详情页不同商品间搭配试衣的场景吗？这是我对AI试衣最初的展望；我也同算法同学讨论过，目前无法实现，但是我们会向着给予用户最佳体验的方向不断进化。