我要投稿

Claude 3.5 Sonnet 在从财务报告中提取复杂图表方面表现如何？

发布日期：2024-07-06 08:35:26 浏览次数： 2679

作者：barry的异想世界

微信搜一搜，关注“barry的异想世界”

Claude 3.5 Sonnet在从财务报告中提取复杂图表方面的表现如何？

我对比了Claude 3.5 Sonnet、Claude 3 Opus和GPT-4o在从财务报告中提取复杂图表的能力！

在我的笔记本中，我测试了这些模型从一张特别复杂的财务图表中准确提取详细信息的能力。结果相当有启发性：

Claude 3.5 Sonnet 表现出色，准确提取了所有信息，甚至包括图表中最复杂的部分。它在处理详细财务数据方面的精确度确实令人印象深刻！

Claude 3 和 GPT-4o 则遗漏了一些关键信息，并且提取的部分数据不正确。这凸显了Claude 3.5在性能上的显著提升。

让我们深入了解一下：

我获取了2022年摩根大通的财务报告。我只保留了其中最复杂的一张图表，并将这一页PDF转换为图像，以便使用多模态部分的大模型：Claude 3.5 Sonnet、Claude 3 Opus和GPT-4o。

这就是我希望不同多模态模型阅读并从中提取数据的图像：

调用 Claude 3.5

client_claude = anthropic.Anthropic(
api_key=CLAUDE_API_KEY,
)

MODEL_NAME = "claude-3-5-sonnet-20240620"
def get_completion_claude(messages):
response = client_claude.messages.create(
model=MODEL_NAME,
max_tokens=2048,
temperature=0,
messages=messages
)
return response.content[0].text

我创建了这个方法来追加内容

def get_message_content(question, encoded_pngs):
content = [{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": encoded_png}} for encoded_png in encoded_pngs]
content1 = {"type": "text", "text": question}
content.append(content1)

messages = {"role": 'user',"content": content}

return messages

开始与 Claude 3.5 Sonnet 聊天：

这是提示：

question = """
从图片中加载图表数据并以 Markdown 格式输出。
尽最大努力从图片中提取图表数据。
如果无法提取图表数据，请总结图片并返回总结内容。
"""
messages = get_message_content(question, base64_encoded_pngs)
messages

all_messages = [messages]
chart_analysis = get_completion_claude(all_messages)
print(chart_analysis)

我得到了这个答案：

如果你对比从图表中提取的数字，你会发现它们是正确的！！这是向多模态和复杂图表提取迈出的一大步。

现在，我向 LLM 提出了不同的问题，以检查它与图片交互的能力：

question = "2012 年的净利润是多少？"
messages = get_message_content(question, base64_encoded_pngs)
# print(messages)
print(get_completion_claude([messages]))
# 根据图表，2012 年的净利润为 213 亿美元。

答案是正确的。

我们再试一个：

question = "2014 年的摊薄每股收益和 2017 年的有形普通股权益回报率分别是多少？"
messages = get_message_content(question, base64_encoded_pngs)
print(get_completion_claude([messages]))

回答您的问题：

1. 2014 年的摊薄每股收益（EPS）为 6.00 美元。

2. 2017 年的有形普通股权益回报率（ROTCE）为 12%。

这些数据可以在图表中找到。2014 年，代表摊薄 EPS 的黄色柱子显示为 6.00 美元。2017 年，代表 ROTCE 的蓝色线条显示为 12%。

2014 年的 EPS 数值不正确：正确的应该是 5.29 美元。LLM 给出的答案是 6.00 美元。

现在，我们将 LLM 第一次提取的数字追加到发送给它的消息中，并再次询问相同的问题：

llm_answer = {"role": 'assistant',"content": chart_analysis}
all_messages.append(llm_answer)

question2 = "2014 年的摊薄每股收益和 2017 年的有形普通股权益回报率分别是多少？"
messages2 = get_message_content(question2, base64_encoded_pngs)

all_messages.append(messages2)
all_messages

llm_completion = get_completion_claude(all_messages)
print(llm_completion)

这是答案：

根据图片中的图表：

1. 2014 年的摊薄每股收益（EPS）为 5.29 美元

2. 2017 年的有形普通股权益回报率（ROTCE）为 12%

现在，我们得到了 2014 年 EPS 的正确数值！！

调用 Claude 3 Opus

现在让我们与 Claude 3 Opus 交互，让它从图表中提取数据：

MODEL_NAME = "claude-3-opus-20240229"
def get_completion_claude3(messages):
response = client_claude.messages.create(
model=MODEL_NAME,
max_tokens=2048,
temperature=0,
messages=messages
)
return response.content[0].text

question = """
从图片中加载图表数据并以 Markdown 格式输出。
尽最大努力从图片中提取图表数据。
如果无法提取图表数据，请总结图片并返回总结内容。
"""
messages = get_message_content(question, base64_encoded_pngs)

all_messages = [messages]
chart_analysis = get_completion_claude3(all_messages)
print(chart_analysis)

如果你对比 Claude 3 Opus 和 Claude 3.5 Sonnet 的输出，你会发现 Claude 3 检索到了错误的信息，这在 ROTCE 列中清晰可见。Claude 3.5 Sonnet 提取了正确的数值。

调用 GPT-4o

现在让我们与 GPT-4Omni 进行对话

from openai import OpenAI

client_openai = OpenAI(api_key=OPENAI_API_KEY)
MODEL_NAME_GPT = "gpt-4o"

def get_completion_gpt4o(messages):
response = client_openai.chat.completions.create(
model=MODEL_NAME_GPT,
# max_tokens=2048,
temperature=0,
messages=messages
)
print(response.model)
return response.choices[0].message.content

def get_message_content_openai(question, encoded_pngs):
# content = [{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": encoded_png}} for encoded_png in encoded_pngs]
content = [{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{encoded_png}"}} for encoded_png in encoded_pngs]
content1 = {"type": "text", "text": question}
content.append(content1)

messages = {"role": 'user',"content": content}

return messages

question = """
从图片中加载图表数据并以 Markdown 格式输出。
尽力从图片中提取图表数据。
如果无法提取图表数据，请总结图片内容并返回总结。
"""
messages = get_message_content_openai(question, base64_encoded_pngs)
messages

gpt4o_completion = get_completion_gpt4o([messages])
print(gpt4o_completion)

以下是部分回答：

即使 GPT-4o 成功收集了表格数据，而 Claude 3.5 Sonnet 为了避免“简单化”而避免这样做，但从图表中提取的数值在最初几年尤其不准确。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-05

Ollama新版功能：AI思维链控制

2025-07-05

炸裂！AI“读心术”被破解，我们终于能亲眼看见它的思考过程了！

2025-07-05

智谱新出的模型，做PPT太会整活了

2025-07-05

微软裁员9000人！给员工整不会了：用不用AI都要被裁？

2025-07-04

Karpathy：我不是要造新词，是「上下文工程」对 Agent 来说太重要了

2025-07-04

AI Agent的核心：Context Engineering（上下文工程）

2025-07-04

AI Agent与AI Workflow：“对决”与“共生”，未来属于“混血儿”！

2025-07-04

破局AI内卷：揭秘驱动10倍效能的AI工作流三大核心技术支柱

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek R1-0528 小版本升级

2025-05-29

教你解决GPT4o无法使用新版生图功能的教程

2025-04-11

AI法规-《生成式人工智能服务管理暂行办法》（中国）（2023.7）

2025-04-12

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

微软突发“封杀令”！全面禁止Cursor使用C、C++、C# 扩展，开发者被迫回退版本

2025-04-12

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

高效 Agents 构建指南

2025-05-23

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

豆包，让有独立显卡的电脑都能部署本地大模型，语料库就是电脑里的文件

2025-04-17

大家都在问

微软裁员9000人！给员工整不会了：用不用AI都要被裁？

2025-07-05

智能体（Agent）是怎么知道什么时候要调用 Tool 的？

2025-07-04

AI狂潮下：大公司如何破解"创新者窘境"？

2025-07-04

Anthropic多智能体如何破解企业级任务并行处理瓶颈？

2025-07-03

AI 商业化，Salesforce 做对了什么？

2025-07-03

AI 编程如何在团队中真正落地？

2025-07-02

AI 如何成为认知导航仪？

2025-07-02

巨头混战Agent，押注背后是真未来还是新泡沫？

2025-07-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB