我要投稿

千问又放大招！720亿参数的视觉语言模型什么样？

发布日期：2025-01-08 20:06:59 浏览次数： 2295 作者：Gitee AI

Qwen2-VL-72B-Instruct现已加入 Serverless API，访问 Gitee AI 即可免费在线体验：https://ai.gitee.com/serverless-api?model=Qwen2-VL-72B

作为多模态技术的核心，视觉语言模型（Vision-Language Model, VLM）正在彻底改变我们与图像、视频和语言互动的方式。

今天，马建仓将带开发者们搞懂视觉语言模型，同时认识目前视觉语言模型的佼佼者——Qwen2-VL-72B-Instruct，帮助开发者解锁多模态智能应用的全新可能。

视觉语言模型是什么？

视觉语言模型（VLM）是一种通过结合大语言模型和视觉编码器构建的多模态 AI 系统，为大语言模型赋予了「看」的能力。它不仅能够处理文本输入，进行高级推理，并生成自然语言响应，还具备理解和处理提示中提供的图像输入的附加能力。

与传统计算机视觉模型（YOLO、DeepLab 等）不同，VLM 不受限于固定的类别集或特定任务（如分类或检测）。VLM 通过在大规模图文配对数据上进行预训练，将视觉编码器和大语言模型深度结合，实现了对自然语言指令的理解和执行，具备泛化至几乎任何类型视觉任务的能力。

VLM 的核心技术优势包括：

多模态输入：支持将图像和文本作为联合输入，深入理解它们之间的语义关系。
共享表征空间：通过预训练，将视觉和语言特征映射到同一表征空间，从而实现两种模态的无缝对齐。
生成与推理：既能根据图像生成自然语言描述，也能根据文本指令生成特定的视觉效果。

凭借这些能力，VLM 成为理解和生成多模态内容的重要工具，正在推动人工智能在多模态场景中的广泛应用。目前，VLM 已经广泛应用于多个场景：

图像识别理解：不仅能识别图像中的植物和地标，而且能理解场景中多个对象间的关系。

视觉推理：：能够通过分析图片解决问题，还可以解读复杂的数学问题，通过图表进行分析，甚至极端长宽比的图片也能正确解读。这种视觉感知与逻辑推理的结合，赋予模型解决实际问题的能力，让模型能够扮演生活中的小助手。

视频理解与实时聊天：能够总结视频要点、即时回答相关问题，并维持连贯对话，为用户提供更加直观且即时的帮助。
视频实时聊天
Visual Agent 能力：目前部分 VLM 已经初步具备一些能够利用视觉能力完成一些自动化的工具调用和交互。

在多模态技术的不断进化中，视觉语言模型的能力也在不断提升，上文应用场景中的案例，便均来自于千问大模型家族的视觉语言模型——Qwen2-VL-72B-Instruct。

Qwen2-VL-72B 有多强

Qwen2-VL-72B-Instruct是一款具备 720 亿参数的超大规模视觉语言模型。作为业界领先的代表性模型，它在多个视觉语言任务中都表现出了卓越的性能。

性能表现

在综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent 能力六个维度的评测中，Qwen2-VL-72B在大部分的指标上都达到了最优，甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型，特别是在文档理解方面优势明显，仅在对综合的大学题目上和 GPT-4o 还有差距。同时Qwen2-VL-72B也刷新了开源多模态模型的最好表现。