微信扫码
与创始人交个朋友
我要投稿
本文是由南洋理工大学,德克萨斯大学,华中科技大学以及新加坡科技设计大学联合发表。本文提出一个用于社会科学学术假设发现的自然语言处理(NLP)数据集,来构建原始网络语料库,之后利用多Agent的方式生成对人类研究者有帮助的假设。
标题: Large Language Models for Automated Open-domain Scientific Hypotheses Discovery
论文地址:https://arxiv.org/pdf/2309.02726
代码链接:https://github.com/zongliny/moose
因此,能够直接从未经处理的网络数据中自动提取信息,并提出对人类来说全新的科学假设,将是一项非常有价值的工作。
1. 论文筛选:从2023年1月至今,挑选出50篇发表于顶尖社会科学期刊的论文。这些论文覆盖了心理学、人力资源管理、信息系统等多个社会科学子领域。
2. 专家分析:对于每篇选定的论文,由社会科学领域的专家负责提取论文的主要假设,并追溯其背后的背景和灵感来源,从而构建出推理过程。随后,专家会在网络语料库中搜寻与这些背景和灵感相似的内容,并收集相应的完整段落,这些段落将作为原始网络语料库的补充。
3. 数据纯净性:避免直接复制论文中的背景和灵感部分,而是在原始网络语料库中寻找语义相近的文本内容。这样做的目的是为了实现从原始网络语料库中提炼研究假设的目标。
4. 材料搜集:除了论文链接,还搜集了所有50篇论文的相关14篇综述文章。这些综述文章有助于评估假设的创新性。
5. 数据集制作:最终,这个数据集由一位社会科学领域的博士生独立构建。文档中指出,由于数据集的构建涉及大量手动筛选工作,因此这些手动筛选的内容更多地被用作衡量人类性能的基准。
MOOSE(MultimOdule framewOrk with paSt present future feEdback)是一个旨在自动化开放领域科学假设发现的先进框架。它的独特之处在于,它将大型语言模型的生成能力与复杂的反馈机制相结合,以实现从海量文本数据中自动识别和提炼出可能对科学研究具有重要价值的新假设。
MOOSE体系的核心是一个多功能的基础架构,它复现了社会科学家构建初步研究假设的流程。该流程主要分为以下几个阶段:
未来反馈:这种机制旨在为后续模块提供额外信息,以促进更高质量的输出。它包括两个方面:一是提供输出的理由(FF1),二是在关键模块前增设辅助模块以减轻推理负担(FF2)。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-04
2024-09-06
2024-09-03
2024-08-18
2024-07-23
2024-11-19
2024-06-14
2024-09-02
2024-11-05
2024-07-19