我要投稿

借助 Azure AI 文档智能开启高级文档洞见

发布日期：2024-05-08 04:54:38 浏览次数： 2103 作者：Azure云科技

（本文翻译自微软全球官方博客）

在数字时代，文档结构的繁杂多样给从文档中获取洞见带来挑战。例如，一位财务分析师在审阅公司的季度报告时，会涉及详细的运营支出、收入和展现销售增长的图表。传统的文档处理方案往往难以确切理解文档结构的细微层次以及嵌入图表的上下文语境的关联性，致使数据提取、分析和利用率低下。这种能力差距不仅妨碍了数据的有效利用，还影响了决策力和生产力。随着企业不断致力于将数据当作战略资产加以利用，对于能够准确阐释和分析所有文档元素（包括与数字和图表中的信息交互和提问能力）的高级文档智能解决方案的需求愈发关键。

为了彻底改变我们与文档的互动方式，并从中获取洞见， Azure AI 文档智能推出两项颠覆性的新功能：分层文档结构分析和图形检测。

#01

分层文档结构分析

分层文档结构分析可依据语义对文档进行分割，这对于提高整体理解能力、简化导航、显著提升信息检索效率尤为重要。在文档生成式AI中实施检索增强生成（RAG），凸显出这种结构化方法的重要性。通过支持多层级的章节和子章节，Layout 模型可以识别不同章节间和每个章节内对象之间的关系，从而在整体文档中保持连贯的层次结构。这种结构化输出可以便捷地以 markdown 格式加以使用，进而可以直接对章节和子章节进行访问与操作。下图展示了各部分在 JSON 输出中的组织方式：

JSON 输出中的分层文档结构分析示意图

#02

图形检测

图形丰富了文本内容，提供了可视化的表现形式，简化了对复杂信息的理解。Layout模型的图形检测功能具备边界区域（boundingRegions）等关键属性，这些属性详细说明了图形在文档页面中的空间位置，其中包括页码和轮廓坐标（轮廓坐标可勾勒出每个图形的边界）。您可以使用这些信息来提取图形或图表，并将其作为可进一步使用的可寻址组件。此外，跨度（spans）和元素（elements）属性将图形与其相关的文本内容联系起来，这有助于更好地理解文本与视觉数据之间的关系。还有标题（caption）属性，为每个图形提供描述性文本，确保用户能够掌握文档中可视化元素的完整上下文和意义。

JSON 输出中展示的图形检测示意图

#03

利用 Azure AI 文档智能和 Azure OpenAI 服务进行高级文档处理

下面这个示例演示了如何将分层文档结构分析和图形检测与 Azure OpenAI GPT-4 Turbo with Vision (GPT-4V) 模型相结合，以从文档中提取高级洞见。

示例代码链接：https://aka.ms/di-figure

提取高级文档洞见的工作流程

这一过程始于识别文档的不同部分，如文本块、表格和图像等页面对象。Azure AI 的复杂算法会分析文档的层次结构，确保准确识别每个部分和子部分，并保留它们之间的相互关系。分析的结果是生成可反映文档结构的 markdown 输出，以便导航和编辑。

接下来，工作流展示了如何根据检测到的边界区域裁剪图形，然后将图形正文和标题发送到 GPT-4V 模型进行理解。在这个示例中，GPT-4V 模型将返回柱状图的描述。这一详细描述为用户提供了图形内容的文本表述，对于理解文档中直观呈现的数据至关重要。

在增强的 markdown 输出中，图形内容部分已从仅表示图形内部检测到的文本提升到包含 GPT-4V 提供的完整描述。这种丰富的输出包含了对图形的语义解释，从而能够更细致地理解视觉数据。有了这些精细化的信息，markdown 输出在应用于 RAG 示例时将成为更强大的资产，可使基于文档的问答互动更精确、更贴近上下文。

#04

开始使用

Azure AI 文档智能 Studio

● 导航至文档智能 Studio - Microsoft Azure，选择或上传文档（PDF、图像、Office 或 HTML 文件），然后指定分析选项：

● 点击运行分析，查看右侧窗格中的输出内容和示例代码：

SDK 和 REST API

● 快速入门：文档智能（前身为表单识别器）SDK - Azure AI 服务—— 使用您喜欢的 SDK 或 REST API 从文档中提取内容和结构。

? https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/quickstarts/get-started-sdks-rest-api?view=doc-intel-4.0.0&pivots=programming-language-python#layout-model

● 使用 Layout 模型，用 Python 或 .NET SDK 以 markdown 格式输出。

? Python：https://github.com/Azure/azure-sdk-for-python/blob/main/sdk/documentintelligence/azure-ai-documentintelligence/samples/sample_analyze_documents_output_in_markdown.py

? .NET SDK：https://github.com/Azure/azure-sdk-for-net/blob/main/sdk/documentintelligence/Azure.AI.DocumentIntelligence/samples/Sample_ExtractLayoutAsMarkdown.md

#05

使用语义分块构建“与文档交流”

● 这个教程展示了如何在 LangChain 中使用 Azure AI 文档智能作为文档加载器、Azure Search 作为检索器来演示 RAG 模式。现在，您可以使用具有图形理解能力的增强型 markdown 输出与 LangChain 中的 MarkdownHeaderTextSplitter 连接，进行更准确的语义分块。

? https://aka.ms/doc-gen-ai

● 这个解决方案加速器展示了一个端到端的基线 RAG 模式示例，该模式使用 Azure AI 搜索作为检索器，并使用 Azure AI 文档智能进行文档加载和语义分块。

? https://github.com/Azure-Samples/chat-with-your-data-solution-accelerator

了解更多

Azure AI 文档智能概述

? https://learn.microsoft.com/zh-cn/azure/ai-services/document-intelligence/overview?view=doc-intel-4.0.0

Azure AI 文档智能示例资源库

? https://aka.ms/doc-intelligence-samples

*所有发布内容均与微软全球产品和服务相关，各个国家或地区客户的产品可用性取决于当地情况。