AI投资风向：企业高价值数据源于结构化和非结构化数据融合分析

公开资料显示，Hebbia创立于2020年8月，总部位于美国洛杉矶，同年10月获得110万美元种子轮融资；2022年7月17日获得3000万美元A轮融资。B轮融资后，该公司估值约为7亿美元，其产品和服务主要被应用在金融服务、法律领域，客户包括美国空军、资产管理公司和法律服务公司。

根据Hebbia创始人Sivulka介绍，目前该公司的年度经常性收入 (ARR)为1300万美元，该收入在过去18个月中增长了15倍，还为OpenAI贡献了2%的收入。‍‍

Hebbia的B轮融资使其成为2024年上半年全球AI初创公司中募集到巨额资金的公司之一，那么到底是什么让Hebbia在成长早期就成功斩获市场青睐呢？

Hebbia的启示：非结构化数据是“金矿”，也是蓝海

Hebbia曾因公开挑衅Google而声名鹊起——按其说法，全球最大的搜索引擎Google只索引了全球4%数据，而还有96%的非结构化私密数据没被索引和查询。非结构化数据是一个尚未被完全开发的“金矿”。而Hebbia想做的，就是挖掘这座金矿。

Hebbia借助OpenAI等公司的大模型开发了AI Agent（智能体）产品Matrix，能够从多种来源索引、阅读和理解非结构化私有数据，包括监管文件、PDF、音频和视频剪辑等。该产品吸引了众多重量级客户，顶级资产管理公司、律师事务所、银行，就连美国空军都在使用 Matrix 来处理他们的复杂数据。在硅谷银行危机期间，资产管理者使用 Matrix 快速绘制了数百万份文件中区域银行的风险暴露图，从而有效应对危机。

非结构化数据结构化已是大势所趋‍‍‍‍‍‍‍

非结构化数据占据了企业存储系统的大量空间，它们对于训练和微调人工智能模型至关重要。然而，有效利用这些数据却因可扩展性、数据复杂性和集成困难等问题而变得复杂。

现有工具是为结构化数据设计的，如电子表格和数据库。事实证明，非结构化数据，如图像、视频和PDF，更难大规模访问、评估和改进。算法工程师通常依靠构建自定义代码来管理非结构化数据。然而，这种方法的劳动密集型性质，加上可扩展性的潜在问题，使得管理非结构化数据成为挑战。‍

2024年初，麦肯锡发布的关于人工智能状态的全球调查显示，只有15%的公司意识到GenAI对其业务成果的有意义影响。造成这一结果的原因很大程度上归结于许多组织的数据效率低下。根据Iterative的说法，无法处理非结构化数据是人工智能成功的主要障碍，突显了结构化数据技术与基于Python的较新的人工智能工作流程之间的巨大差距。

在AI投资领域，将非结构化数据结构化就成为一个重要趋势，它不仅得益于技术进步，也符合市场需求和行业发展的方向，具有显著的经济潜力和战略价值。

技术进步：随着生成式人工智能技术的爆发，特别是大模型的出现，AI对非结构化数据的理解能力有了显著提升，使得非结构化数据的价值得以释放。‍
产品创新：新兴公司如Hebbia，通过开发知识工作助手Matrix等产品，专注于处理文档中的非结构化数据，包括PDF、PowerPoint、电子表格等，将非结构化文本转化为结构化数据，便于分析和处理。
市场需求：非结构化数据占企业数据总量比重较大，例如在企业内部，非结构化数据占比高达80%，但其使用率相对较低。随着AI应用的推动，企业对非结构化数据的价值化需求加速释放。
行业应用：在金融服务、法律、医疗和工业等行业中，非结构化数据的积累和AI应用需求推动了对这些数据进行结构化的需求，以提高数据的可用性和价值。
经济价值：根据麦肯锡研究测算，生成式AI技术，作为处理非结构化数据的一种方式，有望在全球经济中贡献约7万亿美元的价值，其中中国预计贡献约2万亿美元。
数据架构：新的数据架构如湖仓架构、数据网格架构、无服务器数据架构、图数据架构和边缘数据架构，都在推动非结构化数据的管理和利用，使企业能够更有效地从这些数据中提取价值。

非结构化数据如何让AI更智能？‍

为了从生成式AI中获得准确的结果，企业需要的不仅仅是电子表格和其他结构化数据。大量的非结构化数据如文档、图像、音频和视频记录以及社交媒体提要可能非常有价值，能够为企业提供更准确、更全面的人工智能见解，因为它们基于客户信息。但是，许多组织缺乏技术手段，无法以任何可信的方式查看、访问、集成和使用其非结构化数据。

ZByte（质变科技）是市场上新兴的AI-Native数据云公司。专注于严肃和高准确性AI和数据分析场景，ZByte推出其数据云产品Relyt，能够充分利用非结构化与结构化数据进行融合查询与分析。

那么，什么是非结构化与结构化数据融合查询和分析呢？能帮助解决哪些场景问题？我们通过典型的电商搜索和个性化推荐场景举例说明：‍‍

某电商平台希望提升其搜索功能和个性化推荐系统的准确性和用户满意度。他们需要整合用户的直播、视频、图片等访问行为、搜索等数据（非结构化数据）以及用户个人信息和购买历史（结构化数据）来提供定制化的购物体验。

AI查询管道的构建：

数据接入与预处理：AI系统通过一个查询管道连接到用户在平台上的各种互动数据源，包括搜索查询、视频和图片内容、点击流、评论和社交媒体反馈。
内容分解与数字化：系统将这些非结构化数据分解为逻辑块，例如用户兴趣点或购买意向，并将文本和行为数据转换为可由AI模型处理的数字格式。
数据索引：转换后的数据被索引在一个适合模型的数据库中，使得在用户进行搜索或需要推荐时可以快速检索和分析。

结构化与非结构化数据融合分析：

数据相关性：当用户在平台上搜索产品时，AI系统需要迅速从用户的互动记录中提取相关信息，同时结合用户的个人信息和购买历史等结构化数据。
智能分析：使用RAG技术，AI系统能够分析用户的搜索意图和偏好，并与用户的购买历史相结合，为用户推荐最相关的产品。
安全与隐私：在整个过程中，系统使用安全和隐私过滤器确保用户数据的保护，同时遵守相关法律法规。

结果生成：

个性化推荐：用户的搜索结果和推荐列表将根据AI系统生成的用户偏好和行为预测进行个性化调整，从而提供更加精准和个性化的购物体验。
决策支持：平台运营者可以利用这些综合数据来优化库存管理，发现热门趋势，并制定营销策略。

AI数据云使客户能够根据意义或意图在营销或服务工作流程中执行语义搜索和检索信息。客户还可以将关键字和向量搜索结合起来，以实现混合搜索体验，从而为他们提供更相关的内容。这对企业来说是向前迈出的一大步。我们为客户提供的不仅仅是信息——而是提供相关背景来解锁另一层知识。

使这些模型更准确的有效方法是使用RAG。RAG通常让企业能够使用其结构化和非结构化的专有数据，使生成性人工智能更具情境性、及时性、可信性和相关性。它允许接受公共领域数据培训的大模型与公司的私有企业知识一起增强，确保更高的准确性、一致性和相关性。

企业高价值数据源于结构化和非结构化数据融合分析‍

真正“稀缺”的数据到底是什么？a16z联合创始人Ben Horowitz讲述了一个场景：对于保险公司来说，你能获取一般数据库中人们的寿命信息，但不知道他们的具体健康状况和生活习惯。此时，真正有价值的数据是，具有特定档案和实验室结果的人群，他们的预期寿命是多久。

当前，企业数据成本连年攀升，其原因很大程度上归于企业不知道哪些数据对他们来说是高质量、高价值的dataset for custom LLM（业务模型），所以无差别存储；对于非结构化数据结构化，结构化数据和非结构化数据融合处理和分析，就是获取更高质量、高价值数据的过程，将构建效果更加强大的custom LLM。

AI数据云提供了强大的个性化数据解决方案，通过非结构化和结构化数据融合分析提取价值信息并做出决策，帮助企业更好地理解和利用其数据资源，从而在多个业务场景中获得竞争优势：

欺诈检测：在欺诈检测领域，AI数据云可以通过分析大量的交易数据来识别异常模式和可疑行为。例如，使用机器学习算法对客户信息和交易细节进行特征工程，然后将这些特征向量化并存储在向量数据库中。通过这种方式，可以快速检索与已知欺诈案例相似的交易，从而实现实时欺诈检测。这种技术的应用有助于金融机构提高其检测系统的准确性和效率。

推荐系统：在推荐系统中，AI数据云通过处理和分析用户行为数据和产品信息，帮助发现用户偏好和产品之间的相似性。通过将用户的历史行为和产品特征转化为向量，可以有效地执行基于内容的推荐或协同过滤推荐。这种方法可以显著提高推荐的准确性和个性化程度。

实时广告出价：在实时广告出价（Real-Time Bidding, RTB）场景中，AI数据云可以快速匹配广告和目标受众。通过分析用户的行为和偏好，能够将用户特征向量化，并与广告特征向量进行匹配，从而实现精准投放。这种方法可以提高广告的相关性和转化率，同时降低无效广告展示的成本。

竞争情报：企业可使用财务记录、市场报告和行业基准的结构化数据来分析自己的优势、劣势、机会和威胁。他们还可以使用新闻文章、博客和播客中的非结构化数据来监控竞争对手的活动、战略和声誉，并获得竞争优势。

业务关键决策：企业可使用来自财务记录、运营和业务流程的结构化数据以及来自内部治理流程、决策记录、对话以及公司规则和政策的非结构化数据来自动响应，并在关键关键业务问题和决策发生之前提供答案。