我要投稿

基于AI的D2C前端代码生成技术深入总结

发布日期：2024-08-19 21:10:13 浏览次数： 2612 作者：大淘宝技术

在AI技术日益渗透至各领域的背景下，本文深入探讨了B端（D2C）前端代码生成技术的核心挑战与实战解决方案，诚实地揭示了在实现自动化代码生成过程中遭遇的重重难关。

产品介绍

▐ 背景

● 做为淘天内的AI创新团队，在团队内做了很多AI大模型的探索，了解到AI可以解决大量简单重复的事情，B端场景标准化程度比较高，不管是低代码还是源码开发，理论上都可提效；
● 在基础平台也有非常多的B端页面研发，有天然的研发提效诉求，经过调研，预计每年可在团队内部节省非常客观的数据。

▐ 产品能力

▐ 落地业务

5+项目落地，平均提效15%，用户调用5000次+

在实际落地过程中遇到了非常多的问题，通过技术+产品的方式解决了很多问题，这里列举一些印象最深的分享给大家。

遇到的问题

▐ 一、prompt管理&测评成本大

问题描述：一开始在idealab上做模型和prompt的评测，但是因为需要大量的测试数据集（100+图片），经常改动一句话就需要重新测评所有的测试数据，导致测评的成本非常高，且不能打分，测评的效率也很低。

解决方案：我们自己打造了一套专门用于UI测评的系统，可以在测评系统上快速测评图片和高效打分，并且可以版本化管理prompt内容，从而能更方便的对外开放使用。
工欲善其事必先利其器，有了这套系统我们评测的效率也大大提升。

▐ 二、图片识别准确率过低

问题描述：我们定义了一套准确率的规则，主要是结构布局、组件类型、组件内容；一开始使用GPT4V，图片识别准确率只有50%，不到及格线。

阶段1：我们发现4V对中文识别非常差，对英文识别比较好，通过OCR翻译成英文后识别，再重新翻译回中文，识别率达到70%-80%
阶段2：今天3月gemini和gpt4o出来之后，我们又对gemini做了大量测试，gemini的图片识别能力更强，性能更好，且token数也足够长，切换到gemini之后，大部分测评图片的准确率能达到90%左右。

▐ 三、某些图片内容识别准确率低

问题描述1：比如：表格详情label项，搜索表格里的搜表单项，表单页面的表单组件的每行个数，有时出现4个，有时5个，子组件的先后顺序都会识别错误。

问题描述2：如table的操作项，通常AI可能会把|或者空格认为是一个操作项，我们定义table的操作项用action表示，但经常会出现多一列叫"操作"的column，表单的标题的*号难以处理。

图一

图二

图三

解决方案一：

通过ocr分析组件标题位置，能得出标题在同一水平线的个数是6个，就能得出表单的一行个数，从而进行正确的布局。
同样可以得出标题的所在顺序，从而重新排列子组件。

[{"height": 15,"width": 54,"word": "项目管理","x": 0,"y": 10},{"height": 55,"width": 15,"word": "新建项目","x": 93,"y": -10},{"height": 12,"width": 13,"word": "2","x": 401,"y": 71}]

解决方案二：对JSON做预处理