微信扫码
与创始人交个朋友
我要投稿
人工智能评测基准的发展
用例编号名称 | 数据表 | 数据预处理 | AI模型训练 | AI模型服务 | 评分测试 |
---|---|---|---|---|---|
UC01 - 客户分群 | 客户、订单、订单详情、订单退货数据表 | 删除重复项和空值 | 使用k-means对客户进行聚类 | 使用聚类将新用户分配到组 | 检查结果的准确性 |
UC02 - 客户对话转录 | 音频数据表 | 加载音频数据并重新采样 | 计算MFCC并训练深度神经网络 | 在提供服务时预测转录,并计算单词错误率 | 比较生成的转录与基准数据的单词错误率 |
UC03 - 销售预测 | 订单、产品、订单详情、店铺部门数据表 | 加载数据表并连接 | 拟合Holt-Winters模型用于销售预测 | 在提供服务阶段预测销售额,检查结果的准确性 | 检查结果的准确性 |
UC04 - 垃圾邮件检测 | 产品评分文本数据表 | 加载评论并删除重复项 | 将文本转换为n-gram和向量,并训练朴素贝叶斯模型 | 对新评论进行分类为正常或垃圾邮件,使用马修斯相关系数评分 | 使用马修斯相关系数评分 |
UC05 - 价格预测 | 市场数据表 | 消除重复项和空值 | 在数据上训练模型以进行价格预测 | 在提供服务时预测物品价格,并使用均方根对数误差进行评分 | 使用均方根对数误差评分 |
UC06 - 硬件故障预测 | 故障日志数据表 | 执行重复项和空值移除 | 基于已知数据和故障训练支持向量机 | 预测即将发生的故障,并使用F分数进行评分 | 使用F分数进行评分 |
UC07 - 产品评分 | 产品评分数据表 | 加载并转换成数值格式 | 使用矩阵分解和交替最小二乘回归进行训练 | 针对用户-物品对预测和评分,使用平均绝对误差 | 使用平均绝对误差评分 |
UC08 - 购物出行分类 | 订单、订单详情、产品表 | 生成购物历史记录并对分类值进行二值化 | 使用梯度提升树基于活动购物会话预测购物出行类型 | 针对购物出行类型进行分类预测,计算分类准确度 | 计算分类准确度 |
UC09 - 人脸识别 | 客户表、人脸图像数据表 | 对名称进行编码、对图像进行对齐和调整大小 | 对客户图像进行微调的预训练嵌入和逻辑回归模型训练 | 识别客户图像并评估准确性 | 评估准确性 |
UC10 - 欺诈检测 | 财务账户表、财务交易表 | 拆分和清理数据表、对交易数据进行归一化 | 训练用于分类的逻辑回归模型 | 对交易进行分类并使用分类准确度进行评分 | 使用分类准确度进行评分 |
TPCx-AI提供了一个完整的工具包,这个工具包包含一个基于Parallel Data Generation Framework(PDGF)的合成数据生成器,一个管理基准完整执行的驱动程序,以及两个参考实现:一个基于Apache Spark,另一个基于Python库。TPC还可以通过审查和批准任何贡献者提交的评测实现,截止到2023年6月已经有14个正式的基准提交给了TPC。
评测基准中每一个测试用例基本都包括了Data+AI机器学习管道的完整过程,包括数据生成、数据管理、训练、评分和服务阶段。
完整的Data+AI基准测试运行包括多个测试子任务,其中一些需要计时,以下步骤按顺序执行:
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-21
全网最全ChatGPT财务分析提示词解决方案
2024-12-21
万字长文梳理基于LLM的Text-to-SQL发展进程
2024-12-20
从0到1解构数据问答系统架构:三层模型全解析
2024-12-19
博士眼镜 × 观远数据 × 飞书 | AI 和 BI 赋能业务实践
2024-12-19
传统水务如何借助AI完成智能化升级?一文看懂核心架构与实战应用!
2024-12-18
ChatBl有什么用,看这篇就够了!
2024-12-18
在Windows上使用RAGFlow+Ollama+Qwen2.5,搭建医疗问诊助手(附相关数据集和案例)
2024-12-16
LLM+数据分析,大模型的一个攻坚领域市场观察
2024-06-20
2024-06-14
2024-07-03
2024-06-06
2024-06-14
2024-06-21
2024-06-16
2024-06-07
2024-07-24
2024-10-09
2024-12-13
2024-11-19
2024-11-06
2024-10-25
2024-10-25
2024-10-25
2024-10-18
2024-10-09