微信扫码
与创始人交个朋友
我要投稿
AIGC相关领域爆发式增长,在图像式AI领域出现Midjourney、SD等专业的工具,也推出了妙鸭相机、美图秀秀等生成虚拟形象的APP。
当前淘宝具有的用户群和商家,可以考虑设计一款结合用户和商家AI工具,以AI生成用户商品代言为主题,帮助商家提高商品展示的吸引力,同时通过个性化和创新的虚拟形象增强用户体验。
在这个背景下,产品同学设计了一款让用户具有代入感的生成产品,淘淘秀(也叫AI买家秀),让用户上传通过照片建立像我但比我好看的商品代言,也会结合一些互动玩法,引发用户创作兴趣提升业务的指标。
关键词:图像类AI创新应用、用户轻松创作、内容分享、结合商家品牌。
整个产品会更复杂一些,这里我们主要探讨AIGC相关的一些技术能力,在买家秀的产品设计下,在AIGC的相关能力依赖上,有如下的诉求:
生成优质素材模板,用户要代言的商品素材,以便达到更好的效果;生成
结合素材模板和用户图片,生成用户相关图片;用户形象生成
在用户图片的基础上,考虑进行背景风格替换,提升丰富性( 策划中,还未上线,也写一下 );背景生成替换
相关的产品链路,这个是比较早期的,在调研之图中的一些方案有做一些调整,但是大致流程接近:
生成素材 -> 配置模板 -> 生成用户代言图 -> 进行贴图 ;
同时在考虑一些视频类的生成。
要求是(真人 + 场景 + 商品类目)的情况下,生成一些比较好的素材图片案例,给到用户使用, 中间使用了几个模型。
现在从事后总结的角度,我觉得对这些模型做一些对比,考虑几个维度:
准确性(易用性): 模型生成的图像与提示词描述的一致性
可扩展性;API接入与自动化:模型是否支持API接入,支持API的话,跑任务解放运营。影响到速度与效率。
成功率: 大约多少张图片,可以有一张可以用的照片, 成功率到一个可以接受的范围。
不同模型的效果:
模型:Midjourney
特性:易用性高;无可扩展性;成功率高达50%;
优点:生成质量高,真人效果好,可以生成复杂的图像。
缺点:访问限制;没有API,不能直接和系统打通。;速率限制,单个用户一分钟一般只能生成一次。
效果图:
BadCase:
有时候脸会变形
出现失败的概率还是比较高的。
整体结论:
Midjourney在生成效果上表现最为出色,但其过程需要持续的人工参与,意味着较高的时间成本。
在万相和Stable Diffusion效果对比,万相效果更好,如果要做规模化考虑使用下万相;
SD在通用场景下效果比较差,但是SD模型提供了全面的定制能力。
基于各自的特色,概括如下:
如何让生成的图片要包含对应的人物特征,让用户的代入感更强。我们的算法同学调研不同的方案,数字分身以及换脸。大概效果如下:
考虑到资源问题、以及背后的素材质量问题,走换脸的链路,用的也是主流的Roop模型。
当前可用的就只有SD的Inpaiting方案,把人物扣出来,使用SemanticGuidedHumanMatting,然后进行背景的补充。因为背后的风格是生成的,提示词未必能涵盖到所有的场景,对输入的图片也要有一定的限制。结果上存在一定的不可控性,
目前效果上还在探索,看以什么样的形态更合适。
一些限制:
人不能占空间太小; 背景发挥的空间不要太大。
人手里不要拿东西,人物不要有一些物品依赖,比如沙发,坐着之类的,也会生成比较奇怪的内容。
希望场景:行李箱 - 男- 机场
调整提示词:An Instagram-style portrait that serves as a luggage advertisement featuring a 20-year-old Chinese boy. He's sitting inside an airport with a suitcase next to him, holding a cup of coffee. The background is the airport, creating a high-end atmosphere. You can see the boy's complete face and facial features. He's posing dynamically and relaxed, creating a sophisticated composition, shot using a film camera, 8k
用通义万相随机生成四张照片。(提示词好的话,生成的成功率感觉还可以,效果大家可以评估下到底如何)
在淘宝客户端搜索【淘淘秀】
点击【淘淘秀】进入到对应的小程序。
开始我的代言,上传自己的照片
生成用户的代言照片;
可以选择自己喜欢的代言照片发布到广场,也可以选择私密。
搜索【淘淘秀】 | 开始代言,传照片 | 生成代言 | 选择代言 | |
问题与处理
在应用AIGC时遇到的一些问题与处理;
问题1:模型在特定场景下生成效果不佳
方案:引入外部的Midjourney,人工生产与导入。一些内部模型可以生成的,选择内部模型批量生成组合多个模型使用。
问题2:线上生成效果不稳定,资源消耗大。
方案: 离线生成,人工筛选。预先生成内容以减少资源消耗,并提高内容质量的一致性。
问题3:每部署一个模型,都要写一套TPP;
方案: 利用vipserver进行模型匹配和调用,写一套模型调用的网关,结合限流和队列技术,平衡系统负载,提高部署效率。最开始以为只有TPP才能访问到模型部署的机器,后面发现知道IP之后,应用也可以直接调用模型的服务,就省去TPP这一层了。
问题4: 生成的内容后如何使用。
方案: 开发一些内容的配套工具,内容的导出,内容的检索(图片检索),内容标注,以满足不同场景需求。
大淘宝技术用户运营平台技术团队,是一支以用户为中心,技术驱动,正在积极探索AI的年轻队伍。我们坚持通过技术创新,提升用户全生命周期体验,持续为用户创造价值。以创新为核心价值观之一,我们鼓励团队成员在工作中不断探索、实验和创新,以推动业界技术的进步和用户体验的提升。
我们不仅关注当前业界领先的技术,更注重未来技术的预研和应用,尤其是AI的探索和实践。团队成员积极参与学术研究和技术社区,不断探索新的技术方向和解决方案。我们立足体系化,打造业界领先的用户增长基础设施,以媒体外投平台、ABTest平台、用户运营平台为代表的基础设施赋能阿里集团用户增长,日均处理数据量千亿规模、调用QPS千万级。
在用户增长技术团队,我们提供“增长黑客”极客氛围和丰富的岗位选择。如果你对AI技术有强烈的兴趣,喜欢探索、实验和创新,欢迎加入我们的队伍,一同推动AI在业界的应用和发展。
简历投递邮箱:aihe.ah@alibaba-inc.com
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-04-26
2024-05-10
2024-04-12
2024-05-28
2024-05-14
2024-04-25
2024-07-18
2024-04-26
2024-05-06
2024-12-22
2024-12-21
2024-12-21
2024-12-21
2024-12-21
2024-12-20
2024-12-20
2024-12-19