微信扫码
添加专属顾问
我要投稿
用自然语言指挥AI完成图像识别,VisionAgent让编程更简单!核心内容:1. VisionAgent工具库的介绍和功能特点2. VisionAgent如何用自然语言指令控制AI进行图像处理3. 安装和使用VisionAgent的步骤指南
哈喽大家好,我是老码小张!一个喜欢研究技术背后的原理,并且思考如何用技术解决实际问题的技术人。
最近啊,我发现了一个超酷炫的工具库——VisionAgent[1],它能让你用自然语言指挥 AI 去完成各种图像识别任务,简直不要太方便!这个工具是开源的,我知道很多人会问有没有线上 demo 可以体验的。有的,在这里[2]。
以前,咱们要搞个图像识别,比如数数图片里有多少罐可乐,那得自己吭哧吭哧写一大堆代码,调参调到头秃。现在有了 VisionAgent,你只需要告诉它:“嘿,帮我数数这张图里有几罐可乐!”,剩下的就交给它了!
简单来说,VisionAgent 就是一个能让你用“人话”来指挥 AI 进行图像处理的工具库。它背后的大佬是现在最火的大语言模型(LLM),比如 Anthropic 的 Claude-3.5 和 OpenAI 的 o1。
这些 LLM 就像是 VisionAgent 的“大脑”,负责理解你的指令,然后生成相应的代码来完成任务。你只需要动动嘴皮子,就能让 AI 帮你搞定图像识别,是不是很神奇?
VisionAgent 的本事可大了!它能帮你:
想用 VisionAgent,首先你得安装它:
pip install vision-agent
然后,你得准备好 Anthropic 和 OpenAI 的 API 密钥:
export ANTHROPIC_API_KEY="your-api-key"
export OPENAI_API_KEY="your-api-key"
搞定这些,你就可以开始玩转 VisionAgent 了!
想知道一张图片里有多少人?简单!
from vision_agent.agent import VisionAgentCoderV2
from vision_agent.models import AgentMessage
# 创建一个 VisionAgent 实例
agent = VisionAgentCoderV2(verbose=True)
# 让 VisionAgent 生成代码来数人头
code_context = agent.generate_code(
[
AgentMessage(
role="user",
content="Count the number of people in this image",
media=["people.png"] # 假设你有一张名为 people.png 的图片
)
]
)
# 把生成的代码保存到文件里
withopen("generated_code.py", "w") as f:
f.write(code_context.code + "\n" + code_context.test)
运行这段代码,VisionAgent 就会生成一个名为 generated_code.py
的文件,里面就是数人头的代码啦!你可以直接运行这个文件,或者自己修改一下。
VisionAgent 不仅能生成代码,它还提供了一系列好用的工具,你可以直接拿来用。
比如,你想在一张图片里找出所有人,并把他们框出来:
import vision_agent.tools as T
import matplotlib.pyplot as plt
# 加载图片
image = T.load_image("people.png")
# 检测图片里的人
dets = T.countgd_object_detection("person", image)
# 把检测结果(框框)画在图片上
viz = T.overlay_bounding_boxes(image, dets)
# 保存结果
T.save_image(viz, "people_detected.png")
# 显示结果
plt.imshow(viz)
plt.show()
这段代码会生成一张名为 people_detected.png
的图片,里面的人都被框出来啦!
VisionAgent 还能处理视频!比如,你想在一段视频里跟踪某个物体:
import vision_agent.tools as T
# 从视频里提取每一帧和对应的时间戳
frames_and_ts = T.extract_frames_and_timestamps("people.mp4") # 假设你有一个名为 people.mp4 的视频
frames = [f["frame"] for f in frames_and_ts]
# 在每一帧里跟踪 "person"
tracks = T.countgd_sam2_video_tracking("person", frames)
# 把跟踪结果(分割掩码)画在每一帧上
viz = T.overlay_segmentation_masks(frames, tracks)
# 把处理后的视频保存下来
T.save_video(viz, "people_detected.mp4")
这段代码会生成一个名为 people_detected.mp4
的视频,里面的人都被跟踪并标记出来啦!
VisionAgent 默认使用 Anthropic Claude-3.5 和 OpenAI o1,但你也可以换成其他的 LLM。
只需要修改 vision_agent/configs
目录下的 config.py
文件就行。比如,你想只用 Anthropic,就把 anthropic_config.py
复制成 config.py
:
cp vision_agent/configs/anthropic_config.py vision_agent/configs/config.py
这里就不给大家横向对比其他同类型工具了,因为 VisionAgent 本身就是一个集成工具,它把 LLM 当做大脑,然后调用各种视觉工具包来处理视觉任务。所以,VisionAgent 的强大之处在于它的“大脑”,也就是 LLM 的选择,实际上也没看见类似的工具。
VisionAgent 真的是一个很棒的工具,它让我们普通人也能轻松玩转图像识别。如果你也想体验一下用“嘴”编程的快感,那就赶紧试试 VisionAgent 吧!
希望这篇文章对你有帮助!如果你有任何问题或者想了解更多关于 VisionAgent 的信息,欢迎留言告诉我哦!
[1]
VisionAgent: https://github.com/landing-ai/vision-agent[2]
这里: https://va.landing.ai/agent
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-03-10
【HN测评】Evolving Agents Framework 重新定义 AI 代理开发流程 - 告别手动协调,拥抱自适应演化
2025-03-10
用MCP Server为你的大模型应用插上翅膀
2025-03-10
Markify:专为 LLM 优化的开源文档解析神器,轻松破解 PDF 难题!
2025-03-10
Manus太火爆MetaGPT又开源OpenManus-RL引入强化学习;多智能体协作框架OWL
2025-03-10
一键包:新开源TTS,零样本克隆声音,还能自主创建声音,只需要6G显存,文末一键包
2025-03-09
LLM运行框架对比:ollama与vllm浅析
2025-03-09
真·企业级方案!MindSQL开源:四种训练方式+私有数据+RAG+生产高并发
2025-03-09
智能体的互联网时代来临,相当于http协议的MCP协议让智能体与数据源无缝连接
2025-01-01
2024-07-25
2024-05-06
2025-01-21
2024-09-20
2024-07-20
2024-06-12
2024-08-13
2024-12-26
2024-07-11
2025-03-08
2025-03-03
2025-03-02
2025-03-01
2025-02-26
2025-02-23
2025-02-18
2025-02-15