我要投稿

聊聊SORA背后技术之一（二）：CLIP

发布日期：2024-04-18 08:27:40 浏览次数： 3903

作者：瓦力算法学研所

微信搜一搜，关注“瓦力算法学研所”

技术总结专栏

本文将对热门的SORA的视频生成中使用到的模型Clip进行原理介绍。

CLIP(Contrastive Language-Image Pre-training)。它是多模态领域的经典之作，后续也作为基础模型，被广泛用在DALLE2，Stable Diffusion等重要文生图大模型中，是多模态领域的一个神器。

论文地址：https://arxiv.org/pdf/2103.00020.pdf

项目地址：https://github.com/openai/CLIP

核心思想

CLIP的整体训练过程及标签数据格式如上，可以分为三个阶段：

从训练集中随机取出一张图片和标签文本，然后分别使用编码器进行编码。编码器的主体模型结构是相同的，但是在前期处理中，image encoder多增加了一步patch embedding（后文进一步介绍）。
Text Encoder和Image Encoder输出的embedding向量，然后用基于余弦相似度（cosine similarity）损失来比较两个embedding向量的相似性，以判断随机抽取的标签文本和图片是否匹配。
将计算得到的损失进行梯度反向传播，不断优化训练。

完成CLIP的训练后，输入配对的图片和标签文本，则Text Encoder和Image Encoder可以输出相似的embedding向量，如果是计算余弦相似度就可以得到接近1的结果。同时对于不匹配的图片和标签文本，输出的embedding向量计算余弦相似度则会接近0。在实际应用时，就是获取Text Encoder和Image Encoder的输出向量，作为跨模态领域的沟通桥梁。

CLIP损失函数

上图为CLIP模型的前向训练的过程，需要将N个标签文本和N个图片的两两组合预测出N对可能的文本-图片对的余弦相似性，即上图所示的矩阵。这里共有N个正样本，即真正匹配的文本和图片（矩阵中的对角线元素），而剩余文本-图片对为负样本，这时CLIP模型的训练目标就是最大N个正样本的余弦相似性(每个格子上对应的向量点积)，同时最小化负样本的余弦相似性。

完成CLIP的训练后，输入配对的图片和标签文本，则Text Encoder和Image Encoder可以输出相似的embedding向量，计算余弦相似度就可以得到接近1的结果。同时对于不匹配的图片和标签文本，输出的embedding向量计算余弦相似度则会接近0。以下为代码实现：

# cosine similarity as logitslogit_scale = self.logit_scale.exp()logits_per_text = torch.matmul(text_embeds, image_embeds.t()) * logit_scalelogits_per_image = logits_per_text.t()
loss = Noneif return_loss:    loss = clip_loss(logits_per_text)
if not return_dict:    output = (logits_per_image, logits_per_text, text_embeds, image_embeds, text_outputs, vision_outputs)    return ((loss,) + output) if loss is not None else output

总结

CLIP模型具有非常大的优点，包括：

多模态学习：CLIP模型能够同时处理文本和图像数据，从而在多种任务上展现出强大的性能。
零样本学习能力：CLIP模型通过对大规模数据进行预训练，具备了良好的零样本学习能力，可以在见过的类别之外泛化和识别新的类别。
语义理解：CLIP模型通过学习文本和图像之间的语义联系，能够实现对图像内容的更深层次理解，这使得它在一些文本提示下执行图像任务时表现出色。

但是，它也具有一些不足之处：

计算资源需求：CLIP模型由于其庞大的规模和复杂性，需要大量的计算资源和存储空间来进行训练和部署，这增加了使用该模型的成本。
数据依赖性：尽管CLIP模型在许多情况下表现出色，但其性能仍然高度依赖于预训练数据的质量和多样性，对于某些特定领域或语言的应用可能泛化能力较差。
对抗攻击：与许多深度学习模型一样，CLIP模型也容易受到对抗性攻击，即针对输入进行微小修改以欺骗模型，这可能会导致错误的预测或行为不稳定。

CLIP模型表现的还是十分强大，作为SORA、STABLE DIFFUSION等模型的基础，赶紧学起来~

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

DeepSeek R1-0528 小版本升级

2025-05-29

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

15个最佳开源 RAG 框架选型指南

2025-04-13

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

AI法规-《生成式人工智能服务管理暂行办法》（中国）（2023.7）

2025-04-12

比 R1 快 8 倍、价格仅 3%，智谱新推理模型来袭，能让免费智能体自己赚钱！张鹏：Agent 也有 Scaling Law

2025-04-06

浅谈如何利用【提示工程】赋能你的业务场景

2025-04-02

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

大家都在问

RAG系统的“聪明药”：如何用反馈回路让你的AI越用越聪明？

2025-07-01

Llama Factory 是什么？

2025-06-30

【Agent专题】Agent应用篇：全网最强Agent应用横评！下一代AI超级助手，到底谁最能打？

2025-06-30

解密可落地的企业AI Agent：其完整技术架构如何实现业务闭环？

2025-06-30

GraphRAG的索引动态更新解法-分桶+局部更新及“上下文工程”新概念？

2025-06-30

你的RAG系统安全么？

2025-06-29

卷疯了！这个清华系Agent框架开源后迅速斩获1.9k stars，还要“消灭”Prompt？

2025-06-28

开发Agent，有哪些值得做的脏活累活？

2025-06-27

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部