我要投稿

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

发布日期：2024-09-04 08:15:35 浏览次数： 2049

作者：NVIDIA英伟达企业解决方案

微信搜一搜，关注“NVIDIA英伟达企业解决方案”

视觉语言模型（VLM）这项 AI 技术所取得的突破令人振奋。它提供了一种更加动态、灵活的视频分析方法。VLM 使用户能够使用自然语言与输入的图像和视频进行交互，因此更加易于使用且更具适应性。这些模型可以通过 NIM 在 NVIDIA Jetson Orin 边缘 AI 平台或独立 GPU 上运行。本文将探讨如何构建基于 VLM 的视觉 AI 智能体，这些智能体无论是在边缘抑或是在云端都能运行。

什么是视觉 AI 智能体

借助 VLM 驱动的视觉 AI 智能体，您可以在录制或实时视频中使用自然语言来提出各种问题，并获得反映真实意图和上下文的洞察。这些智能体可以通过易于使用的 REST API 进行交互，并与其他服务甚至移动应用集成。新一代视觉 AI 智能体能够帮助总结场景、创建各种警报，并使用自然语言从视频中提炼可操作的洞察。

您可将 NVIDIA Metropolis 带来的视觉 AI 智能体工作流作为参考解决方案，加快开发 VLM 驱动的 AI 应用。这些应用无论部署在边缘，还是部署在云端，都能够通过理解上下文从视频中提炼洞察。

如果部署在云端，开发者可以使用 NVIDIA NIM（一套包含行业标准 API、特定领域代码、优化推理引擎和企业运行时的推理微服务）驱动视觉 AI 智能体。一开始可访问 API 目录，直接在浏览器上探索和试用基础模型，还可在 Metropolis NIM Workflows GitHub 页面上查看 NIM 驱动的视觉 AI 智能体示例。

本文将重点介绍 Jetson Orin 上的边缘用例实现，探讨如何使用 NVIDIA JetPack SDK 的新功能——适用于边缘部署的 Jetson 平台服务。如图 1 所示，我们将构建一个生成式 AI 驱动的应用，来检测用户在实时视频流中使用自然语言设置的事件，然后通知用户。

图 1. 在视频流中检测火灾的 AI 智能体移动应用

使用 Jetson 平台服务

为边缘构建视觉 AI 智能体

Jetson 平台服务是一套预构建微服务，它为在 NVIDIA Jetson Orin 上构建计算机视觉解决方案提供了开箱即用的基本功能。这套微服务包含支持生成式 AI 模型的 AI 服务，例如零样本检测和各种先进的 VLM 等。本文将带您了解更多有关 Jetson 平台服务主要功能的信息。

图 2. NVIDIA JetPack 6.0 堆栈

VLM 将大语言模型与视觉 transformer 相结合，实现了对输入文本和视觉图的复杂推理。凭借这种灵活性，VLM 适用于各种用例，并可通过调整提示来作出动态调整。

VILA 具有 SOTA 推理能力，并且能够通过优化每张图像的词元来提高速度，因此是 Jetson 上的首选 VLM。图 3 是 VILA 架构和基准性能的概览图。

如要进一步了解 VILA 及其在 Jetson 上的性能，请参见视觉语言智能和边缘 AI 2.0。

图 3. VILA 结合了视觉 transformer 和大语言模型

虽然尝试 VLM 并使用它在输入图像上进行交互式对话十分有趣，但将这项技术应用到实际场景中才是重点。

因此，我们必须想办法让大语言模型执行有用的任务，并将它们融入到更大的系统中。通过将 VLM 与 Jetson 平台服务相结合，我们可以创建一个基于 VLM 的视觉 AI 智能体应用，来检测实时流摄像头上的事件，并通过移动应用向用户发送通知。

该应用由生成式 AI 驱动，并使用了 Jetson 平台服务的多个组件。图 4 显示了这些组件如何通过协同工作创造出完整的系统。该应用还可与防火墙、物联网网关和云服务配合使用，实现安全远程访问。

构建基于 VLM 的

视觉 AI 智能体应用

下面将介绍使用 Jetson 平台服务构建视觉 AI 智能体系统的总体步骤。该应用的完整源代码位于 GitHub：

https://github.com/NVIDIA-AI-IOT/jetson-platform-services

VLM AI 服务

第一步是围绕 VLM 构建一个微服务。

nanoLLM 项目为 Jetson Orin 提供了对 VLM 的支持。如图 4 所示，我们可以使用 nanoLLM 程序库，通过 Python API 在 Jetson 上下载、量化和运行 VLM，并将其转化成一个微服务。

步骤如下：

使用易于调用的函数封装模型。
使用 FastAPI 添加 REST API 和 WebSocket
使用 mmj_utils 添加 RTSP 流输入和输出。
将元数据输出到所需的通道，例如 Prometheus、Websocket 或 Redis。

图 4. VLM AI 服务架构

这时，微服务已经形成了一个检索框架、更新 REST API 的提示、调用模型、输出结果的主循环。这可以用下面的伪代码来表示：

# Add REST APIapi_server = APIServer(prompt_queue)api_server.start()# Add Monitoring Metricsprometheus_metric = Gauge()prometheus.start_http_server()# Add RTSP I/Ov_input = VideoSource(rtsp_input)v_output = VideoOutput(rtsp_output)# Load ModelModel = model.load()While True: #Update Image & Promptimage = v_input.capture()prompt = prompt_queue.get()# Inference Modelmodel_output = predict(image, prompt)# Generate outputsmetadata = generate_metadata(image, model_output)overlay = generate_overlay(image, model_output)# Output to Redis, Monitoring, RTSPredis_server.xadd(metadata)Prometheus_metric.set(metadata)v_output.render(overlay)

我们在 GitHub 上提供了一个实用程序库，作为集成这些常见组件的起点，并提供了完整的参考示例。

提示工程

如图 5 所示，VLM 有三个主要的提示组件：系统提示、用户提示和输入框。我们可以调整 VLM 的系统提示和用户提示，教它如何评估实时流上的警报，并以结构化格式输出结果，以便进行解析并与其他服务集成。