推荐语
探索跨模态技术在内容安全审核中的应用,了解其技术挑战和未来展望。核心内容:1. 多模态学习在内容安全审核中的重要性与挑战2. 大模型技术在优化内容审核性能中的启发与实践3. 技术方案创新与优化,以及面临的局限性和未来展望
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
导读 在当前的人工智能领域,多模态学习正快速发展,并在诸多实际应用中展现出巨大的潜力,特别是在安全内容审核、智能客服和自动驾驶等领域。为了提升多模态模型的性能和效率,大规模预训练优化成为了不可或缺的关键环节。训练优化不仅包括数据集的构建与标注,还涉及模型参数微调、超参数优化和训练迭代等复杂过程。通过多样化业务数据的构建和自动化标注系统的引入,模型的训练过程得以高效推进。此外,随着大规模预训练模型和轻量化技术的持续发展,模型的效率和适应性将得到显著提升,进一步推动多模态模型在实际业务中的应用。未来,结合自动化标注、加速框架以及对幻觉问题的深入解决,训练优化将在多模态学习的进步中起到至关重要的作用,为各行各业带来更高效、更精准的智能解决方案。
主要内容包括以下几个部分:
4. 局限与未来展望
分享嘉宾|葛霖 腾讯音乐娱乐集团 安全公共算法负责人
编辑整理|陈思永
内容校对|李瑶
出品社区|DataFun
背景与挑战
1. 内容安全业务复杂多样
在内容安全领域,所面临的业务复杂多样,尤其是图像内容安全问题。图像违规的类型繁多,包括但不限于色情、低俗、恶心、不适、暴力、宗教、违禁网报、个人信息泄露、封建迷信等。这些类型之间又可以细分为更具体的子类型。例如,宗教类内容不仅包含道教、佛教、基督教、伊斯兰教、印度教等多种宗教,价值观类问题也包括抽烟、喝酒、赌博、吸毒、拜金、纹身等多样化的表现形式。因此,针对这些内容,算法技术的覆盖面需要做到非常广泛和灵活,以应对复杂多样的违规情况。不同违规类型的审核标准灵活多变,但现有的算法模型往往有固定的识别标准,无法快速调整以适应不同的审核尺度。这种情况带来了“准召悖论”。举几个例子来说明:
- 低俗违规:男性赤裸上半身在一些场景下可能只是健身内容,但对于女性而言,由于性别差异,更容易引发不良倾向,因此审核标准可能更为严格。
- 暴力标准:如 Cosplay 中的武器展示,虽然不含暴力倾向,但可能会与恐怖主义暴力产生混淆。模型难以灵活调整其判断标准。
- 赌博标准:在一些赌场相关内容中,严格的违规审核是必要的,但像打麻将、斗地主等日常娱乐游戏,尽管属于赌博范畴,审核标准却可能较为宽松。
这些挑战突显了技术的局限性,算法不仅需要识别不同类型的违规内容,还必须考虑到业务发展的灵活性和标准的变化。
2. 主流技术依赖任务定制
目前,主流的安全审核算法仍然依赖于定制化任务,通常采用多分类模型来识别图像内容,并进行标注、训练和优化。例如:
- 通过人脸识别、人体检测、标识识别等技术来分析图片中的人脸或特定部位;
- 对文字内容进行分割、定位、识别和理解(例如 OCR 技术),判断其中是否包含违规内容。
为了处理图像中不同类型的问题,算法通常需要定制化开发,并且开发任务的多样化极大增加了开发难度。这些技术的应用范式通常包括数据准备、标签设计、模型训练、优化与评估、上线识别、人工审核等步骤。然而,随着任务数量增加,需要开发和优化多个模型,每个模型都需要单独的计算资源,带来了较高的成本和部署难度。
- 数据成本高:每个任务需要收集、清洗和标注数据,且每个任务都有不同的标准和形式,导致数据收集和标注的工作量庞大。
- 模型定制成本高:不同任务需要不同的模型进行训练和优化,且模型训练的过程需要不断地迭代优化。
- 计算资源需求大:每个模型都需要相应的服务和计算资源进行部署,机器计算成本高,尤其是任务不断增加时,部署和推理成本也随之增加。
这些挑战使得内容安全的技术实施面临较大压力,尤其在处理大规模数据时,传统的定制化模型往往无法满足高效、灵活的要求。大模型技术启发与可行性探索
1. 大模型及多模态图文大模型启发
随着大语言模型(如 GPT、腾讯元宝、字节的 Coze 等)的快速发展,文本领域的应用已经十分广泛,这些大模型已经不仅限于文本理解,还扩展到了图文多模态领域。通过结合视觉编码器和大语言模型,新的图文多模态理解技术逐渐成为热点。这些技术能够理解图像与文本的组合,进行更加通用的识别与理解。
2. 多模态图文内容理解模型微调
在此基础上,探索如何将大模型技术应用于内容安全领域,尤其是图像内容的安全审核,成为了一项重要的研究课题。虽然大模型技术在图文多模态理解方面取得了显著进展,但其计算成本较高,且由于涉及视觉编码器和语言模型的复杂性,当前技术仍难以处理海量数据。因此,在内容安全的实际应用中,尤其是处理大规模数据时,现有的大模型仍然面临较高的计算成本和应用场景的限制。通过微调多模态模型,我们可以对图片进行提问并进行违规内容的识别。例如,通过设置提示语,让模型识别图像是否包含恐怖、色情等违规内容。尽管这种方法的准确性较高,但由于大模型本身存在“幻觉”问题,模型有时可能会做出不符合预期的判断,即模型在处理图片时可能给出错误的、不相关的、甚至偏见性的回答。
3. 图转文描述+关键词/NLP 识别
方案概述:结合图像到文本(Image-to-Text)转换的多模态模型,首先通过模型对图像进行描述,然后结合关键词系统和自然语言处理(NLP)识别模型,进行进一步的识别。具体示例:例如,使用 Lava13B 模型对一张图像进行描述时,模型生成的描述包括“圆形图案、八角形、红色与绿色的圆形等”,虽然这些描述对图像有一定的准确性,但模型未能深入理解图像的深层含义(例如,八卦图案的道教元素)。
- 描述角度多样性:尽管图像到文本的技术取得了很大的进展,但图像本身的复杂性(如遮挡、光照变化、模糊、艺术风格等)对理解和描述的准确性提出了挑战。如何提取更为抽象的图像特征,尤其是深层次语境的理解,仍是一个待攻克的问题。图像生成文本的可解释性问题也非常重要,尤其是在涉及医疗、法律等高风险领域时。生成的文本如何确保无误并且可以追溯,是当前技术难点之一。
- 流程复杂性:涉及多模态模型、关键词系统和 NLP 模型的多层级处理,导致整体链路较长,且优化难度较大。
方案创新与技术优化
1. 跨模态对齐与理解
创新思路:受到图像生成技术(如 Stable Diffusion 模型等)启发,通过文本提示来生成符合特定语义的图像。例如,通过文本“a dog”,生成多种风格相似的狗的图像。通过逆向思维创新,可以设计文本 prompt 进行语义控制,以此通过一条 prompt 识别一批类似的图片,来达到安全内容识别的目的。
- 通用性强:通过设计与安全相关的文本语义,能够识别不同类型的图像内容,而不需要针对每一种内容类型定制不同的模型。
- 效率高:统一文本描述可以高效地覆盖不同的图像审查任务。
- 图像与文本语义的精确匹配:确保文本描述与图像之间的语义精度同时,又不丧失生成内容的多样性和创意性。这是当前图像生成技术中的一个主要挑战。
- 生成与识别的准确性:文本生成的图像可能会携带潜在的偏见和刻板印象(例如,性别、种族偏见),这种问题在自动生成内容时尤其严重。
- 跨领域语义映射:未来的图像生成技术将不仅仅依赖于基础的图像-文本映射,而是需要支持更高阶的跨领域映射。例如,描述一个“冬天的早晨”时,系统不仅要生成一个符合冬天气候的场景,还要考虑到文化、情感、历史等元素的融合。
2. 图文跨模态对齐技术演进与对齐技术优化工作
Clip(2021 年):OpenAI 提出的 Clip 模型通过图像和文本的对比学习实现了跨模态特征对齐,成为后续多模态研究的基础。Clip 通过共享的特征空间,实现了图像和文本语义的匹配,从而支持零样本分类、跨模态检索等任务。
- ALBEF(2021 年):Salesforce 提出的新型多模态学习框架,加入了图像与文本的融合模块,提升了模态间的互动能力。
- Coca(2022 年):进一步优化图文对比学习,通过引入 Captioning Loss,提升了图像和文本的融合效果。
- Chinese CLIP(2022 年):阿里巴巴提出的中文视觉语言预训练模型,针对中文语言特点优化图像与文本的对齐能力。
FLIP(2023)损失函数优化:例如,Facebook 提出的 Clip 训练方法通过随机掩码降低图像块处理量,提升了训练效率和效果。EVA-CLIP(2023)高效训练技术:为了提高训练效率和模型性能,多家研究机构提出了包括 Mask image Modeling、数据预训练方法、以及移动端优化等技术。例如,Meta 提出的 Eva 模型通过增加训练数据质量,提高了 Clip 模型的训练效率,同时减少了计算资源的需求。
MobileCLIP(2023)小模型优化:Apple 提出了 Mobile Clip 方案,结合多模态强化训练的方法,利用多个模型进行数据增强,最终提升了移动端模型的性能。
跨模态的文本编码器一直以来面临着文本长度、表征能力、训练效率等多方面的挑战。具体来说,传统模型对于输入文本的 token 长度有严格的限制,通常限制在 77 个左右,这使得模型只能处理较短的文本,而无法深入理解长文本中的语义关系。近年来,随着大模型技术的出现,长文本的深层次理解变得越来越重要,尤其在如 RAG(retrival augment generation)这类复杂的领域中。如何从长文本中提取有效的表征成了一个亟待解决的问题。2024 年,针对这一问题,提出了一些长文本-图文对齐模型的优化方向。Long-CLIP(2024)模型成为了跨模态模型中的一项重要突破。它突破了原有的文本输入限制,将模型处理的最大 token 数从 77 个扩展到了 248 个。这一扩展使得模型能够更好地处理长文本,提高了模型对复杂语义的捕捉能力。此外,Long-CLIP 对长短文本的损失函数进行了优化,使得在处理短文本时,仍然能够保持较好的训练效果,在长文本上的表征对齐效果也得到了显著提升。另一个重要的工作是微软团队提出的 LLM2-CLIP(2024)模型。这一模型通过集成大语言模型来增强 CLIP 的视觉表征能力,特别是在处理复杂语义和常识理解方面,展示了更高的性能。LLM2-CLIP 引入了大语言模型作为文本编码器,结合视觉编码器,通过对比学习的方式优化了图文对齐的效果。根据目前的跨模态学习和大模型技术发展趋势,这种基于大语言模型的图文联合表示方法展现了巨大的潜力。
3. 大规模图文多模态数据集
随着模型性能的提升,图文数据集也在不断扩展和优化。从最初 OpenAI 使用的小规模数据集到现在的大规模数据集,如 LAION 推出的 42B、50B 数据集,再到 CommonPool 推出的 12.8B 数据集,图文数据集的规模和质量逐步提高。然而,随着数据量的增大,数据中的噪声问题也逐渐浮现。因此,后期的研究工作开始集中在数据清洗和质量优化上,以提升模型训练的效率和效果。在中文场景下,国内也涌现了一些优秀的工作,包括 ZeroCorpus(23M)、Wukong 数据集以及微信的自有数据集,这些数据集的推出使得跨模态模型在中文语境下的表现更加出色。
4. 训练优化
训练优化是提升多模态模型性能的关键环节,涵盖了数据准备、标注质量、模型训练过程等多个方面。有效的训练优化不仅能提升模型的精度和鲁棒性,还能提高训练效率,降低资源消耗。随着大规模数据集的构建和深度学习技术的不断发展,训练优化的重点也逐渐从传统的单一目标优化转向更加综合、灵活的多目标优化。在多模态学习中,数据的多样性直接影响到模型的泛化能力和实际应用能力。构建多样化的业务数据集是训练优化中的首要步骤,它不仅包括数据收集的广度,也包括数据内容的深度。通过构建包含丰富、多样的业务场景数据,模型能够在各种复杂任务和实际应用中展现出更强的鲁棒性和推理能力。跨领域数据集构建:多模态模型需要能够处理来自不同领域的数据,如医学、金融、社交网络、电商等。因此,在构建业务数据集时,需扩展数据的跨领域范围。通过自动化或半自动化手段,构建多个领域的数据集,以保证模型能够适应各个行业的不同需求。多场景应用数据收集:在各个领域中,实际应用场景的复杂性和多样性要求训练数据能够覆盖更多的使用场景。例如,在智能客服领域,除了日常的客户咨询数据,还需要包含投诉、疑问、表扬等多种业务类型的场景;在自动驾驶领域,需要涵盖不同天气、不同交通环境下的图文数据。随着业务场景和用户需求的不断变化,业务数据也需要保持持续更新。通过以下方式优化数据集的时效性和相关性:
- 实时数据采集与更新:依托实时数据采集技术(如网页抓取、API 接口获取等),持续从业务系统中收集新数据,使得数据集始终保持与当前应用环境的高度一致。
- 自动化标签更新:随着业务规则的变化,原有数据标签可能会失去时效性或需要调整。通过自动化的标注系统,定期对已有数据进行标签更新,确保数据集的标签始终有效。
随着多模态大模型的训练需求不断提升,百万级甚至亿级的图文对数据集成为必须处理的核心任务。构建这样规模的数据集要求数据收集、清洗、标注等过程具备高效的自动化能力。标注是数据集构建过程中最耗时和资源密集的环节之一。为了提高数据标注的效率和质量,逐步引入自动标注技术。迁移学习与自监督学习:利用大规模预训练模型进行标注,通过迁移学习将已有的知识迁移到特定领域,减少人工标注的工作量。同时,结合自监督学习技术,模型可以通过自动提取特征对数据进行自我标注和校正,从而提高标注效率。多模态标注平台:构建统一的自动化标注平台,支持图像和文本的自动标注与校对。通过集成自然语言处理(NLP)和计算机视觉(CV)技术,使模型能够自动为图像与对应文本生成标注,极大提高标注效率。数据清洗是确保数据质量的重要步骤。图文数据集通常包含多种噪声,如不相关文本、错误标签、模糊图像等,这些噪声会影响模型的训练效果。因此,清洗工作尤为关键。在自动化标注和清洗的基础上,如何进一步提高标注质量,确保模型在训练过程中接收到高质量的数据是关键。标签一致性检查:通过自动化工具对标注进行一致性检测,确保每个标签在整个数据集中的一致性,避免出现标注错误。人工与自动结合的标注质量控制:引入人工校验环节,在自动化标注的基础上,定期进行人工检查和校对,确保数据集的标注质量不断提升。模型的训练优化不仅仅依赖于数据集的质量,还需要通过不断的训练迭代与微调来提升模型的性能。大规模的多模态模型通常具有海量参数,通过微调和迭代训练,可以精细调整模型,以达到最佳效果。微调是指在预训练模型基础上,根据特定任务进行调整的过程。通过对任务相关的数据进行微调,模型能够更好地适应具体场景。领域适配微调:针对特定行业或任务的需求,通过选择特定领域的数据集进行微调,进一步提升模型在该领域的准确性。例如,医疗领域的图文数据与一般的新闻图文数据有很大差异,需要通过微调模型,使其能够精准识别医学术语和图像特征。任务定制化微调:针对不同的下游任务(如图像分类、情感分析、问答系统等),对模型进行任务特定的微调,使模型能够在多模态任务中获得更好的表现。训练过程中的超参数设置直接影响模型的训练效果和效率。通过自动化的超参数优化方法,不断调整学习率、批次大小、网络结构等超参数,使得模型能够在更短的时间内达到最优表现。贝叶斯优化与网格搜索:使用贝叶斯优化、网格搜索等方法对超参数空间进行搜索,找到最佳的训练配置。这样可以有效避免手动调参所带来的低效性。动态调整学习率:在训练过程中,根据模型的学习进度动态调整学习率。采用如学习率衰减、模拟退火等策略,使得模型能够更快收敛,并避免在后期训练中陷入局部最优解。
在实际应用中,如何对数据进行标注、清洗以及质量优化成为了提升模型效果的关键步骤。通过使用多模态大模型和跨模态预训练模型,自动化标注和质量评估已经成为一种高效的方式。这种方法不仅提升了数据处理的速度,还能够通过智能化标注筛选出高质量的训练数据,从而进一步提升模型的性能。
5. 多任务评测——安全评测集
在安全领域,模型的应用场景非常广泛,特别是在图像和文本安全审核中。跨模态模型通过不断优化文本语义库,实现了更加精准的内容审核能力。为了进一步提升模型的准确性和泛化能力,团队还在多个数据集和安全场景下进行了详细的测试。评测结果表明,跨模态模型在大多数任务中表现优于传统图像分类模型,尤其是在精度和召回率方面的平衡。在一些特殊场景中,如血腥、暴力、宗教、色情内容等,模型能够有效识别并分类,为相关领域提供了强大的支持。在这些评测中,跨模态模型展现出了更好的适应性和精确度,尤其是在复杂、多变的环境中。
6. 跨模态对齐与理解优化
数据是驱动多模态学习的关键,数据的质量和多样性直接影响模型的训练效果和推理能力。因此,图文数据优化是跨模态对齐与理解优化的基础工作,通常涉及以下几个方面:为了让跨模态模型能够适应更广泛的场景和任务,数据的多样性至关重要。尤其是在不同领域(如医疗、金融、社交媒体等)中的应用,模型需要具备良好的泛化能力。数据多样化扩充可以通过以下方式实现:
- 领域扩展:针对模型应用场景的扩展,增加特定领域的图像和文本数据。例如,加入医学影像和专业术语文本数据,使得模型能够在医学、法律等专业领域内提供更精准的跨模态推理。
- 数据增广技术:通过图像增强、文本重构等数据增广方法,生成多样化的训练数据,提高模型的鲁棒性和适应性。
- 稀有情况模拟:通过人工合成或模拟极端情况(如图像模糊、低光、遮挡等),增强模型在复杂情况下的对齐能力。
对于一些高安全性要求的应用(如金融监管、内容审查等),数据不仅需要多样化,还必须具备严格的安全性和合规性要求。此时,需要针对安全强相关数据进行扩充:
- 敏感内容识别:加强对图像和文本中敏感内容的识别和标注,特别是在图文审查领域,训练模型能够高效识别暴力、色情、恶俗等不当内容。
- 合规性文本和图像生成:通过生成式对抗网络(GANs)等技术,生成符合政策法规和行业标准的数据,确保模型训练过程的合法合规性。
数据的质量直接影响模型的表现。在图像与文本对的处理过程中,确保图文对的语义一致性和质量至关重要。常见的优化方法包括:
- 去噪声:删除无关的或冗余的文本信息,并清理图像中的噪声部分,保持数据的干净和一致。
- 一致性验证:确保图像和文本之间的语义对齐准确。例如,在标注时,确保图像描述与图像内容相符,避免标签错配。
- 数据标注质量控制:通过自动标注和人工校对相结合的方式,提升数据标注的准确性,减少错误标注对训练效果的负面影响。
模型层面的优化是跨模态对齐与理解优化的重要环节,通常集中在模型架构、训练技巧、参数微调等方面,以提高模型的性能和效率。优化目标是实现更好的图文对齐效果、更高效的训练过程以及更优的推理能力。随着大模型的普及,跨模态学习的计算成本和资源需求逐渐增加。为了在资源有限的情况下取得更好的效果,优化模型和训练过程显得尤为重要:
- 模型剪枝与量化:通过模型剪枝、量化等技术减少模型的参数量和计算量,从而提高推理速度和降低计算成本。这对于实时应用尤为关键,尤其是在移动端和边缘计算设备中。
- 自监督学习:通过自监督学习方法,减少对标注数据的依赖。模型通过无监督学习或半监督学习的方式,从海量无标签数据中自动学习图文之间的深层次关系,提升学习效率。
- 知识蒸馏:通过知识蒸馏技术,将大规模的复杂模型知识迁移到更小、更高效的模型中,达到减少计算成本的同时,保持较高性能的目的。
图像分辨率直接影响图像细节的提取能力。传统的跨模态模型多采用低分辨率图像输入,虽然训练速度较快,但可能导致图像细节丢失,影响图像与文本的精确对齐。为了解决这一问题,近年来有研究开始探索:
- 高分辨率输入:通过增加图像输入的分辨率,使得模型能够捕捉到更细致的视觉信息,尤其在处理复杂图像内容时(如细节丰富的艺术作品、医学影像等)能够有效提升模型的对齐精度。
- 多尺度图像处理:采用多尺度处理方法,将图像分为多个尺度输入,通过多尺度的学习机制,提取不同层次的视觉信息,以更好地与文本进行对齐。
文本语义库在跨模态模型中起着关键作用。优化文本语义库不仅能够提升模型的语义理解能力,还能帮助模型在推理时获取更多的上下文信息。
- 语义库的动态更新:随着时间的推移,语义库需要不断更新,以保持对新兴词汇、行业术语及其相关图像内容的理解。通过实时抓取、整理、归类最新的文本和图像数据,不断扩展和更新语义库。
- 多层次语义表达:在语义库的构建中,可以采用多层次、多维度的表示方式,将不同领域、不同层次的知识进行组织,从而使模型能够在处理复杂任务时,具有更强的理解和推理能力。
通过这三者的有效结合,不仅能够提升跨模态模型的精度和效率,还能使其在各种复杂应用场景中表现更加卓越,从而达到跨模态理解与对齐的最佳性能。
7. 跨模态识别创新范式核心优势
跨模态模型的优化不仅体现在算法本身,还体现在数据的多样性和任务的灵活分配上。通过对不同任务进行专门的定制化处理,可以实现多任务的优化和迭代。与传统模型相比,这种方案的优势在于其低孵化成本和灵活的调整能力,使得跨模态审核应用能够快速适应不同的业务需求。通过任务分配和算法优化,团队能够减少每个任务所需的计算资源,并且通过运营同学对数据的反馈和调整,进一步提升模型在特定任务中的表现。针对新出现的异常数据或任务,运营人员只需在文本语义库中新增相关内容,即可迅速实现对新任务的适配,而不需要重新训练整个模型。局限与未来展望
1. 局限性
目前,跨模态模型虽然在多个任务中展现出了出色的表现,但仍面临一些局限性,尤其是在小目标识别、语言歧义、密集文字的理解等方面:
- 小目标识别效果差:跨模态方案在识别小目标(如缩小的色情图像)时效果较差。
- 语言歧义现象:例如,“smoke”既可以指抽烟也可以指烟雾,“drug”既可以是药物也可以是毒品。
- 图片中文字内容识别效果较差:无法有效识别图片中的密集文字内容。
- Fine-grained 细粒度类别混淆:例如,区分佛教与藏传佛教,啤酒与汽水,可能存在混淆。
针对这些问题,未来的研究将聚焦于进一步优化模型的细粒度识别能力,尤其是在处理复杂、多变的场景时。
2. 展望——局部目标通用识别&多模态对齐
未来,团队预计会有更多的研究集中在开放词汇的检测任务上,这种方法能够通过关键词的匹配实现对图像中具体目标位置的检测。此外,随着多模态模型的进一步发展,如何在不同模态之间实现更深层次的信息对齐,将是下一个突破点。当前,Facebook 和北大的研究工作也在这一方向进行尝试,尝试将图像、视频、文本等不同模态的数据进行深度融合,从而拓展跨模态模型的应用范围。
3. 展望——近期实践:跨模态视频动作识别
视频内容的安全审核是一个高难度的任务,尤其是在多模态的跨模态模型中,如何将图像、视频和文本进行有效的融合和对齐,一直是一个亟待解决的难题。近期,一些新的研究提出了通过改造图像编码器,使其能够处理视频内容,从而实现视频和文本的跨模态对齐。这一方法不仅提高了视频任务的处理效率,还降低了视频识别所需的计算成本。通过视频识别算法的优化和多模态模型的应用,视频审核的效率和准确性得到了大幅提升。这对于处理低俗内容、直播内容等特殊场景具有非常重要的意义。随着技术的不断进步,视频内容审核将逐渐实现更高的自动化和准确性。
4. 展望——多模态视觉理解大模型不断突破
随着多模态模型技术的不断进步,特别是在内容审核领域,未来可能会出现一些突破性技术,使得训练优化的效率和质量得到显著提升。以下是一些可能的技术进展:自动标注系统的逐步完善将大大减少人工标注的需求,尤其是在安全内容审核领域,自动标注的准确性和效率将极大提升。通过多模态自动标注,模型能够快速识别潜在的违规内容,并在数据训练过程中进行标注,从而提高审核效率。随着轻量化模型和加速框架的不断发展,模型的训练和推理速度将进一步提高。轻量化模型不仅能在移动端和边缘设备上运行,还能够在保证准确性的前提下,大大减少计算资源的消耗。数据标注的自动化与精准化:随着标注技术的进步,未来的标注系统将能自动化完成大量标注工作,减少人为错误,并根据上下文信息进行更精准的标注。幻觉问题的解决:幻觉问题是指生成的模型输出与实际情况不符的情况。未来,随着训练数据集的改进、模型结构的创新以及更精细的训练优化,幻觉问题有望得到有效解决,从而提升多模态模型在实际应用中的可靠性。聚焦于内容安全算法、业务风控算法与曲库多模态理解算法应用研究与业务落地,拥有十几篇安全相关发明专利。