我要投稿

AI调用微信OCR能力来批量识别图片中的文本

发布日期：2024-10-15 19:01:20 浏览次数： 2153

作者：Dance with GenAI

微信搜一搜，关注“Dance with GenAI”

微信电脑版中自带OCR能力，可以识别截图图片中的文字、身份证、银行卡、行驶证、营业执照等，准确率很高，而且免费。

不过，如果图片很多，要批量识别，就有些麻烦。借助AI，可以调用微信OCR能力来批量识别图片中的文本。

首先打开微信电脑版，设置好快捷键：

然后在deepseek中输入提示词:

你是一个Python编程专家，要编写一个脚本，具体任务的步骤如下：

打开文件夹：F:\AAA；

按照主文件名来模仿鼠标点击，逐个打开里面的png和jpg图片文件；

键盘上按下ctrl+Q，调用微信电脑版的截取屏幕功能；

鼠标移动到坐标：（583，408）；

鼠标点击一下，等待2秒；

【用pyautogui库检查当前页面是否和图片"F:\txtbutton.jpg"一致的按钮，pyautogui.locateOnScreen函数的参数confidence为0.8，如果有，就模拟鼠标左键点击；

等待5秒；

键盘上按下ctrl+A，等待2秒；

键盘上按下ctrl+C，等待2秒；

获取剪贴板中的文本；

将文本写入"F:\AAA\picorc.docx"这个word文档中；

注意：每一步都要输出信息到屏幕上

加入异常处理和错误监控；

Deepseek的回复：

为了完成这个任务，我们可以使用pyautogui库来模拟鼠标和键盘操作，使用PIL库来处理图片，使用pyperclip库来处理剪贴板，以及使用python-docx库来处理Word文档。以下是完整的Python脚本：

import os

import time

import pyautogui

import pyperclip

from docx import Document

# 设置文件夹路径

folder_path = r"F:\AAA"

# 打开Word文档

doc = Document()

# 遍历文件夹中的所有图片文件

for filename in os.listdir(folder_path):

if filename.lower().endswith(('.png', '.jpg')):

try:

# 输出当前处理的文件名

print(f"正在处理文件: {filename}")

# 打开图片文件

image_path = os.path.join(folder_path, filename)

os.startfile(image_path)

time.sleep(2) # 等待图片打开

# 模拟键盘按下ctrl+Q

pyautogui.hotkey('ctrl', 'q')

time.sleep(2) # 等待截图功能启动

# 鼠标移动到坐标（583，408）

pyautogui.moveTo(583, 408)

time.sleep(1) # 等待鼠标移动

# 鼠标点击一下

pyautogui.click()

time.sleep(2) # 等待2秒

# 检查当前页面是否和图片"F:\txtbutton.jpg"一致的按钮

button_image_path = r"F:\txtbutton.jpg"

button_location = pyautogui.locateOnScreen(button_image_path, confidence=0.8)

if button_location:

# 模拟鼠标左键点击按钮

pyautogui.click(button_location)

print("按钮已点击")

time.sleep(5) # 等待5秒

# 模拟键盘按下ctrl+A

pyautogui.hotkey('ctrl', 'a')

time.sleep(2) # 等待2秒

# 模拟键盘按下ctrl+C

pyautogui.hotkey('ctrl', 'c')

time.sleep(2) # 等待2秒

# 获取剪贴板中的文本

clipboard_text = pyperclip.paste()

print(f"获取到的文本: {clipboard_text}")

# 将文本写入Word文档

doc.add_paragraph(clipboard_text)

print("文本已写入Word文档")

else:

print("未找到匹配的按钮")

# 关闭当前图片窗口

pyautogui.hotkey('alt', 'f4')

time.sleep(1) # 等待窗口关闭

except Exception as e:

print(f"处理文件 {filename} 时发生错误: {e}")

# 保存Word文档

output_doc_path = os.path.join(folder_path, "picorc.docx")

doc.save(output_doc_path)

print(f"Word文档已保存到: {output_doc_path}")

代码说明：

文件夹遍历：使用os.listdir遍历指定文件夹中的所有文件，并过滤出.png和.jpg文件。

图片打开：使用os.startfile打开图片文件。

键盘和鼠标模拟：使用pyautogui库模拟键盘和鼠标操作。

图片匹配：使用pyautogui.locateOnScreen函数检查当前屏幕上是否存在与指定图片匹配的按钮。

剪贴板操作：使用pyperclip库获取剪贴板中的文本。

Word文档操作：使用python-docx库将文本写入Word文档。

异常处理：在每个文件处理过程中加入异常处理，确保脚本在遇到错误时不会崩溃。

注意事项：

确保pyautogui、pyperclip和python-docx库已安装。可以使用pip install pyautogui pyperclip python-docx进行安装。

脚本中的confidence参数设置为0.8，表示图片匹配的置信度为80%。可以根据实际情况调整。

脚本中的等待时间可以根据实际操作速度进行调整。

运行环境：

该脚本需要在Windows系统上运行，因为os.startfile是Windows特有的函数。

确保微信电脑版已打开并登录，以便能够使用截图功能。

运行该脚本后，它会自动处理指定文件夹中的所有图片文件，并将获取到的文本写入指定的Word文档中。

程序运行，完成图片识别任务。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-08

微信支付这波操作把我干懵了，Agent能赚钱？

2025-07-08

OpenAI 的第一款 AI 硬件，竟然是一支笔？

2025-07-07

饿了么联创做了个 AI 日历拿了 1100 万美金，华人团队做的 AI 招聘突破 100 万美金 ARR

2025-07-04

淘宝直播数字人：服务端工程技术

2025-07-03

淘宝直播数字人：音视频&算法工程技术

2025-06-28

深度研究「AI眼镜」

2025-06-25

淘宝直播数字人：LLM弹幕互动技术

2025-06-15

Spring AI+MCP实战：零代码改造将传统服务接入大模型生态

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

华为昇腾DeepSeek一体机深度拆解

2025-04-26

Dia之后，Fellou是我非常推荐的又一AI浏览器

2025-04-20

96G显存的4060？简单聊下AI MAX 395的这颗核显8060s(gfx1151)

2025-05-20

Dify工作流：用爬虫批量把公众号文章存到AI知识库 | 保姆级教程

2025-05-29

Genspark：AI Agent 赛道的差异化突围者 | AI 智能体

2025-05-22

实测扣子刚刚上线的新版扣子空间。自动化解放人类越来越近了。

2025-04-20

【技术全攻略】Dify + 高德地图MCP Server，解锁智能生活新姿势！

2025-04-27

Fellou AI浏览器体验报告，它是未来AI应用的雏形

2025-04-24

爆火的扣子空间里，藏着什么秘密？

2025-04-21

A100、4090、RTX 6000 Ada、RTX 4000 Ada，谁是AI推理时代的真香卡？

2025-05-14

大家都在问

微信支付这波操作把我干懵了，Agent能赚钱？

2025-07-08

OpenAI 的第一款 AI 硬件，竟然是一支笔？

2025-07-08

企业当前适合引入大模型驱动的智能运维吗？

2025-05-27

我们是否应该用 Lite-GPU 构建 AI 集群？

2025-05-24

下一代软件交互：传统应用如何进化成AI Agent？

2025-05-17

A100、4090、RTX 6000 Ada、RTX 4000 Ada，谁是AI推理时代的真香卡？

2025-05-14

如何评测DeepSeek大模型一体机及实现业务价值？

2025-05-12

DeepSeek一体机和Qwen3一体机，选谁？

2025-05-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB