我要投稿

大模型的困惑度是否能反映其对长文本理解的能力？通过讨论框架和角色扮演增强大模型创造力....

发布日期：2024-06-02 14:59:35 浏览次数： 2111

前言：科研就像一场冒险，而看论文就是你的探险工具！只有通过深入阅读，才能找到宝藏，发现那些意想不到的科研奇遇哦！

1. 大模型的困惑度是否能反映其对长文本理解的能力？

标题：Can Perplexity Reflect Large Language Model's Ability in Long Text Understanding?

机构：北大王选计算机研究所

相关领域：模型评估

作者：Yutong Hu, Quzhe Huang, Mingxu Tao, Chen Zhang, Yansong Feng

分析：作者的研究发现，在评估大语言模型（LLMs）处理长文本的能力时，困惑度（PPL）与模型对长文本理解能力之间并不存在相关性。困惑度可能只反映模型对局部信息建模的能力，而无法捕捉长距离依赖关系。因此，仅使用困惑度来证明模型能够处理长文本是不恰当的。困惑度的局部重点特征也可解释某些现有现象，例如位置方法ALiBi的良好外推能力。在评估模型对长文本的能力时，作者认为应更多关注困惑度的局限性，避免过度依赖于它。

地址：https://arxiv.org/pdf/2405.06105

2. 自我完善增强知识检索来减轻大模型中的虚构

标题：Mitigating Hallucinations in Large Language Models via Self-Refinement-Enhanced Knowledge Retrieval

机构：帝国理工学院

相关领域：模型结构改进、数据集构建

作者：Mengjia Niu, Hao Li, Jie Shi, Hamed Haddadi, Fan Mo

分析：作者提出了通过自我完善增强知识检索（Re-KGR）的方法，以在医疗领域通过较少的检索工作增强LLMs的响应的实证能力。该方法主要利用不同令牌之间的下一个令牌预测概率分布的归因，以及各种模型层来主要识别潜在产生虚构的令牌，通过调整与这些令牌相关的知识三元组以降低验证轮数。此外，作者在后处理阶段利用检索到的知识纠正不准确的内容，提高生成响应的真实性。实验证实，在医疗数据集上表明，该方法能够通过不同基础模型的各项成绩，显著增强LLMs的实证能力。

地址：https://arxiv.org/pdf/2405.06545

3. LLM Discussion：通过讨论框架和角色扮演增强大模型的创造力

标题：LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play

相关领域：模型结构改进

作者：Li-Chun Lu, Shou-Jen Chen, Tsung-Min Pai, Chan-Hung Yu, Hung-yi Lee, Shao-Hua Sun

分析：作者提出了LLM讨论，一个三阶段的讨论框架，促进了充分的和不同的想法交流，并确保收敛到创造性答案。此外，作者采用了角色扮演技术，通过为LLM分配不同的角色来对抗LLM的同质性。通过LLM评估和人类研究，作者评估了所提出框架的效果，并发现其在各种创造力指标上优于单一LLM方法和现有的多个LLM框架。

地址：https://arxiv.org/pdf/2405.06373

4. Special Characters Attack：朝向大模型的可扩展训练数据提取

标题：Special Characters Attack: Toward Scalable Training Data Extraction From Large Language Models

机构：腾讯、牛津大学、复旦大学

相关领域：模型结构改进

作者：Yang Bai, Ge Pei, Jindong Gu, Yong Yang, Xingjun Ma

分析：本文讨论了大语言模型（LLMs）的一个重要问题，即模型可能会因为特殊字符或其与英文字母的组合而泄漏训练数据。作者提出了一个简单但有效的特殊字符攻击（SCA）方法，通过实验证实了SCA对最先进的LLMs的高效性，能够泄漏多样的训练数据，如代码语料库、网页和个人身份信息，有时还能生成无休止的输出。作者还指出，通过检查泄漏的数据，可以揭示训练数据语料库的组成，这是预训练高性能LLMs的重要信息之一。这项工作有助于理解LLMs对特殊字符的敏感性，识别改进的潜在领域。

地址：https://arxiv.org/pdf/2405.05990

5. SKVQ: 大模型的滑动窗口键值缓存量化

标题：SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models

机构：北京大学、上海交通大学、上海AI实验室

相关领域：模型结构改进

作者：Haojie Duanmu, Zhihang Yuan, Xiuhong Li, Jiangfei Duan, Xingcheng Zhang, Dahua Lin

分析：本文主要介绍了一种名为SKVQ的策略，用于解决大语言模型中键值（KV）缓存消耗内存过多的问题。作者通过重新排列KV缓存的通道，改善量化组中通道的相似性，并在组级别应用剪辑动态量化。此外，作者确保了KV缓存中最新窗口令牌的高精度保留，有助于维护KV缓存的准确性。SKVQ在保持准确性的同时实现了很高的压缩比。评估表明，SKVQ超越了以往的量化方法，可以将KV缓存量化为2位键和1.5位值而几乎不损失准确性。作者认为，这项方法可以在80GB内存的GPU上处理长达1M的上下文长度，且解码速度提高了7倍。

地址：https://arxiv.org/pdf/2405.06219

6. LMD3: 语言模型数据密度依赖性

标题：LMD3: Language Model Data Density Dependence

机构：马里兰大学、卡内基梅隆大学、Google DeepMind

相关领域：数据集构建

作者：John Kirchenbauer, Garrett Honke, Gowthami Somepalli, Jonas Geiping, Daphne Ippolito, Katherine Lee, Tom Goldstein, David Andre

分析：作者开发了一种分析语言模型任务表现的方法，该方法基于训练数据密度估计。通过对重点研究数据的语义重述实验，作者发现增加特定测试查询的训练分布支持度会导致密度的显著增加，密度也是干预引起的性能提升的显著预测因子。通过预训练数据的实验，作者可以通过密度测量解释模型困惑度的显著比例。作者得出结论认为，他们的框架可以提供统计证据，证明目标模型预测取决于其训练数据子集，并且通常可用于表征给定测试任务的训练数据中的支持度或缺失。

地址：https://arxiv.org/pdf/2405.06331

7. HMT: 针对长上下文语言处理的层次记忆Transformer

标题：HMT: Hierarchical Memory Transformer for Long Context Language Processing

机构：UC洛杉矶分校

相关领域：模型结构改进、预训练

作者：Zifan He, Zongyue Qin, Neha Prakriya, Yizhou Sun, Jason Cong

分析：作者提出了一种名为层次记忆Transformer（HMT）的新框架，通过模仿人类记忆行为，启用和改进模型的长上下文处理能力。利用记忆增强的段级循环，作者通过保存早期输入标记段中的标记，沿着序列传递记忆嵌入，从历史中召回相关信息来组织记忆层次结构。在常规语言建模（Wikitext-103，PG-19）和问答任务（PubMedQA）上评估，作者展示了HMT稳定提高了有上下文约束和长上下文模型的长上下文处理能力。由于HMT可以轻松插入和增强未来的大模型，使其有效处理长上下文，只需额外0.5％-2％的参数。作者的代码在Github上开源：https://github.com/OswaldHe/HMT-pytorch。

地址：https://arxiv.org/pdf/2405.06067

代码：https://github.com/OswaldHe/HMT-pytorch

8. 价值增强抽样用于语言模型对齐和个性化

标题：Value Augmented Sampling for Language Model Alignment and Personalization

机构：麻省理工学院

相关领域：奖励模型、RLHF

作者：Seungwook Han, Idan Shenfeld, Akash Srivastava, Yoon Kim, Pulkit Agrawal

分析：作者提出了一种新的奖励优化框架，即价值增强抽样（Value Augmented Sampling，VAS），能够最大化不同的奖励函数，只利用从初始冻结的大型语言模型（LLM）中抽样的数据。VAS解决了最优奖励最大化策略的问题，而无需共同训练策略和价值函数，使得优化更加稳定，在标准基准测试中表现优于已有基线方法（如PPO和DPO），并在更低的推理成本下达到与Best-of-128相媲美的结果。相比现有的强化学习方法，不需要改变预训练LLM的权重，VAS甚至可以调整LLM（例如ChatGPT），后者仅作为API可用。此外，作者的算法解锁了合成多个奖励和在部署时控制每个奖励程度的新能力，为未来对齐、个性化LLM铺平了道路。

地址：https://arxiv.org/pdf/2405.06639

9. UniDM: 一个用于与大模型进行数据处理的统一框架

标题：UniDM: A Unified Framework for Data Manipulation with Large Language Models

机构：阿里巴巴集团、中国科学技术大学

相关领域：数据集构建

作者：Yichen Qian, Yongyi He, Rong Zhu, Jintao Huang, Zhijian Ma, Haibin Wang, Yaohua Wang, Xiuyu Sun, Defu Lian, Bolin Ding, Jingren Zhou

分析：作者提出了UniDM框架，用于处理大型语言模型进行数据处理任务。该框架通过将多个数据处理任务形式化为统一形式，并抽象出三个主要的一般步骤来解决每个任务。为了允许大型语言模型从数据湖中检索数据，作者开发了自动的上下文检索。对于每个步骤，作者设计了有效的提示，以指导大型语言模型生成高质量的结果。通过对多种基准测试的综合评估，UniDM在各种数据处理任务上展现出极高的通用性和最先进的性能。

地址：https://arxiv.org/pdf/2405.06510

10. 人类和人工智能结合何时能产生价值?

标题：When Are Combinations of Humans and AI Useful?

机构：麻省理工学院

作者：Michelle Vaccaro, Abdullah Almaatouq, Thomas Malone

分析：本文作者通过对100多项最新实验研究的元分析，共计超过300个效果大小报告，探讨了人类与人工智能结合何时比单独使用人类或人工智能更有效。作者发现，平均而言，人类和人工智能的结合表现明显不及单独使用人类或人工智能时的最佳表现。具体而言，在涉及决策任务的任务中，表现存在损失，在涉及创作内容的任务中，表现有显著提高。最终，当人类胜过人工智能时，结合中会有性能提升，但当人工智能胜过人类时，会有性能下降。这些发现凸显了人类与人工智能合作效果的异质性，并指出了改进人类与人工智能系统的前景。

地址：https://arxiv.org/pdf/2405.06087

11. LLM-QBench: 大模型后训练量化最佳实践基准

标题：LLM-QBench: A Benchmark Towards the Best Practice for Post-training Quantization of Large Language Models

机构：商汤研究院、南洋理工大学、北京航空航天大学

相关领域：模型压缩、模型效率优化、量化技术

作者：Ruihao Gong, Yang Yong, Shiqiao Gu, Yushi Huang, Yunchen Zhang, Xianglong Liu, Dacheng Tao

分析：本文主要针对大语言模型（LLMs）的后训练量化进行了研究，旨在解决LLMs的计算和内存需求大的问题。作者提出了量化作为一种关键的压缩技术，可以通过压缩和加速LLMs来减小计算和内存需求，但可能会对模型的准确性造成潜在风险。作者通过500多个实验，在各种模型和数据集上进行了基准测试，得出了关于校准数据、量化算法和量化方案的三个重要结论。最终构建了LLM PTQ pipeline的最佳实践。所有基准结果和工具包可以在https://github.com/ModelTC/llmc找到。

地址：https://arxiv.org/pdf/2405.06001

代码：https://github.com/ModelTC/llmc

12. EWMoE: 一种有效的全球天气预报模型

标题：EWMoE: An effective model for global weather forecasting with mixture-of-experts

机构：电子科技大学

作者：Lihao Gan, Xin Man, Chenghong Zhang, Jie Shao

分析：本文介绍了作者提出的EWMoE模型，该模型是用于准确的全球天气预报的。作者认为，深度学习的数据驱动天气预报模型具有巨大潜力，相较于传统数值天气预报方法，表现更为优越。为了减少训练数据和计算资源的需求，作者提出了EWMoE模型，并结合气象特定嵌入、Mixture-of-Experts（MoE）核心层和两种特定损失函数来增强预测准确性。作者在ERA5数据集上进行了实验，结果表明EWMoE在所有预测时间上均优于FourCastNet和ClimaX等当前模型，与Pangu-Weather模型在Anomaly Correlation Coefficient（ACC）和Root Mean Square Error（RMSE）等评估指标上表现竞争力。此外，消融实验表明将MoE架构应用于天气预报在提高准确性和资源效率方面具有显著优势。

地址：https://arxiv.org/pdf/2405.06004

13. 关于RAG满足LLMs的调查：走向检索增强大模型

标题：A Survey on RAG Meets LLMs: Towards Retrieval-Augmented Large Language Models

机构：香港理工大学、新加坡国立大学

相关领域：模型结构改进、预训练

作者：Yujuan Ding, Wenqi Fan, Liangbo Ning, Shijie Wang, Hengyun Li, Dawei Yin, Tat-Seng Chua, Qing Li

分析：作者在此调查中全面审查了检索增强大语言模型（RA-LLMs）的现有研究，涵盖了三个主要的技术角度：体系结构、训练策略和应用。作者首先简要介绍了大语言模型（LLMs）的基础和最新进展。然后，为了说明检索增强对LLMs的实际重要性，作者通过应用领域对主流相关工作进行了分类，具体详细说明了每个应用领域的挑战以及RA-LLMs的相应能力。最后，为了提供更深入的见解，作者讨论了目前的局限性和未来研究的几个有前途的方向。

地址：https://arxiv.org/pdf/2405.06211

14. SaudiBERT: 在沙特方言文本上进行预训练的大模型

标题：SaudiBERT: A Large Language Model Pretrained on Saudi Dialect Corpora

相关领域：预训练

作者：Faisal Qarah

分析：本文介绍了SaudiBERT，这是一个专门在沙特方言文本上进行预训练的单一方言阿拉伯语言模型。作者比较了SaudiBERT与六种不同的多方言阿拉伯语言模型在11个评估数据集上的表现，这些数据集分为情感分析和文本分类两组。在这两组中，SaudiBERT的平均F1分别为86.15%和87.86%，显著优于所有其他比较模型。此外，作者呈现了两个新颖的沙特方言语料库：沙特推文大语料库（STMC），包含超过1.41亿推文，以及沙特论坛语料库（SFC），其中包含从五个沙特在线论坛收集的15.2GB文本。这两个语料库用于预训练提出的模型，它们是文献中报道的最大沙特方言语料库。结果证实了SaudiBERT在理解和分析用沙特方言表达的阿拉伯文本方面的有效性，在大多数任务中取得了最先进的结果，并超过了研究中包含的其他语言模型。SaudiBERT模型已在https://huggingface.co/faisalq/SaudiBERT 上公开。

地址：https://arxiv.org/pdf/2405.06239

代码：https://huggingface.co/faisalq/SaudiBERT

15. 基于代理的不确定性估计改进语言模型指令跟随能力

标题：Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation

相关领域：奖励模型

作者：JoonHo Lee, Jae Oh Woo, Juree Seok, Parisa Hassanzadeh, Wooseok Jang, JuYoun Son, Sima Didari, Baruch Gutow, Heng Hao, Hankyu Moon, Wenjun Hu, Yeong-Dae Kwon, Taehee Lee, Seungjai Min

分析：作者提出了一种新颖的不确定性感知奖励模型（URM），通过贝叶斯逼近为语言模型中的配对响应质量引入了稳健的不确定性估计。通过偏好数据集训练，作者的不确定性启用代理不仅为响应打分，还评估了其固有的不确定性。实证结果显示，将提出的代理引入语言模型训练中具有显著的好处。该方法通过改进用于训练的数据筛选和改善政策优化目标，提升了语言模型的指令跟随能力，从而在Vicuna和MT-bench等基准测试上大幅超越现有方法。这些发现突显了作者的方法实质性推进了语言模型训练，并为利用语言模型中的不确定性铺平了一条新路。

地址：https://arxiv.org/pdf/2405.06424

16. 解释Transformer模型中的文本相似性

标题：Explaining Text Similarity in Transformer Models

相关领域：模型结构改进

作者：Alexandros Vasileiou, Oliver Eberle

分析：作者在文章中探讨了Transformers在自然语言处理(NLP)任务中成为最先进模型后，理解和解释它们的预测的需求日益明显。尤其是在无监督应用中，如信息检索任务中，基于基础模型表示构建的相似性模型得到了广泛应用。然而，它们的内部预测机制大多保持不透明。最近可解释人工智能的进展通过利用层次逐层相关传播(LRP)为Transformers提供改进的解释来缓解这些限制。作者使用BiLRP，这是为计算双线性相似性模型中二阶解释而开发的扩展，研究驱动NLP模型相似性的特征交互。作者验证了得到的解释，并在三个语料库级别用例中展示了它们的实用性，分析语法交互、多语义和生物医学文本检索。作者的发现有助于更深入地理解不同的语义相似性任务和模型，突出了新颖可解释人工智能方法如何实现深入分析和语料库级别洞见。

地址：https://arxiv.org/pdf/2405.06604

17. 选择性对LLM标记数据进行微调——减少对人工标注的依赖

标题：Selective Fine-tuning on LLM-labeled Data May Reduce Reliance on Human Annotation: A Case Study Using Schedule-of-Event Table Detection

相关领域：数据集构建

作者：Bhawesh Kumar, Jonathan Amar, Eric Yang, Nan Li, Yugang Jia

分析：作者在研究中使用了参数高效微调（PEFT）在PaLM-2上使用来自gemini-pro 1.0的噪声标签进行日程事件（SoE）表的检测。作者引入了一个过滤机制来选择此表分类任务的高置信度标签，从而减少自动生成标签中的噪声。作者展示了使用这些标签对微调的PaLM-2实现了超过gemini-pro 1.0和其他LLMs的性能。此外，其性能接近于在由非专家标注者获得的标签上微调的PaLM-2。结果表明，作者显示通过像gemini-pro这样的强大模型利用LLM生成的标签可以作为改进LLM性能的一种可行策略，特别是在专业标注稀缺、昂贵或耗时获得的领域。

地址：https://arxiv.org/pdf/2405.06093

18. CRATOR: 一个暗网爬虫

标题：CRATOR: a Dark Web Crawler

机构：蒂尔堡大学

作者：Daniel De Pascale, Giuseppe Cascavilla, Damian A. Tamburri, Willem-Jan Van Den Heuvel

分析：作者提出了一个通用的暗网爬虫，旨在高效地提取处理安全协议（如验证码）的页面。作者采用了种子URL列表、链接分析和扫描相结合的方法来发现新内容。作者还结合了用户代理轮换和代理使用的方法，以保持匿名性并避免被检测。作者通过覆盖范围、性能和鲁棒性等指标评估了爬虫的效果。结果表明，作者的爬虫有效地提取了处理安全协议的页面，同时保持匿名性并避免被检测。作者提出的暗网爬虫可用于威胁情报、网络安全和在线调查等各种应用。

地址：https://arxiv.org/pdf/2405.06356

19.线性大模型

标题：Linearizing Large Language Models

相关领域：模型结构改进

作者：Jean Mercat, Igor Vasiljevic, Sedrick Keh, Kushal Arora, Achal Dave, Adrien Gaidon, Thomas Kollar

分析：作者提出了一种名为Scalable UPtraining for Recurrent Attention (SUPRA)的线性模型，用于有效地将大型预训练的Transform转换为循环神经网络(RNN)，并且只需要5%的训练成本。作者发现他们的线性化技术在标准基准测试上表现竞争力，但即使是最大的线性模型也存在持续的上下文学习和长上下文建模缺陷。

地址：https://arxiv.org/pdf/2405.06640

代码：https://github.com/TRI-ML/linear_open_lm

20. 自动生成模型和数据卡：迈向负责任人工智能的一步

标题：Automatic Generation of Model and Data Cards: A Step Towards Responsible AI

作者：Jiarui Liu, Wenkai Li, Zhijing Jin, Mona Diab

分析：作者在机器学习/人工智能领域，随着开源技术的快速发展，模型和数据日益增多，出现了标准一致的文档的关键需求。作者的工作主要解决了当前人为生成的模型和数据卡信息不完整的问题。作者提出了使用大型语言模型(LLMs)的自动化生成方法。作者的关键贡献包括建立了CardBench，这是一个全面的数据集，汇总了超过4.8k个模型卡和1.4k个数据卡，同时开发了包括两步检索过程的CardGen流水线。作者的方法在生成的模型和数据卡方面表现出增强的完整性、客观性和忠诚性，这是负责任的人工智能文档实践中的重要一步，确保更好的问责和可追溯性。

地址：https://arxiv.org/pdf/2405.06258

21. 零样本策略学习的极简提示

标题：A Minimalist Prompt for Zero-Shot Policy Learning

机构：UC圣迭戈分校、UC圣塔芭芭拉分校、Google DeepMind

相关领域：多模态

作者：Meng Song, Xuezhi Wang, Tanay Biradar, Yao Qin, Manmohan Chandraker

分析：作者研究了在上下文强化学习环境下的零样本泛化问题，通过引入任务参数对决策Transform进行条件化，实现了与基于示范的模型不相上下甚至更好的零样本泛化能力。研究表明任务参数对泛化至关重要，而决策Transform模型试图从示范提示中恢复这些信息。为了从示范中提取出剩余的泛化信息，作者引入了一个额外的可学习提示，进一步改善了在一系列机器人控制、操作和导航基准任务上的零样本泛化能力。

地址：https://arxiv.org/pdf/2405.06063

22. 记忆马赛克

标题：Memory Mosaics

机构：FAIR、纽约大学、卡内基梅隆大学

作者：Jianyu Zhang, Niklas Nolte, Ranajoy Sadhukhan, Beidi Chen, Léon Bottou

分析：记忆马赛克是一种关联记忆网络，共同实现感兴趣的预测任务。作者展示了记忆马赛克在玩具示例上的能力，并表明记忆马赛克在中等规模语言建模任务上表现良好。记忆马赛克具有合成能力和上下文学习能力，相对于transformers，记忆马赛克以相对透明的方式实现了这些能力。

地址：https://arxiv.org/pdf/2405.06394

23. 神经网络图的可视化

标题：Visualizing Neural Network Imagination

机构：牛津大学、多伦多大学、Google

作者：Nevan Wichers, Victor Tao, Riccardo Volpato, Fazl Barez

分析：本文主要研究神经网络在隐藏层激活中代表环境状态的情况。作者的目标是可视化网络代表的环境状态。作者尝试了一种带有解码器网络的循环神经网络（RNN）架构。在训练后，作者将解码器应用于网络的中间表征以可视化它们的代表内容。作者定义了一个定量的可解释性度量标准，并使用它来证明隐藏状态在简单任务上具有高度可解释性。作者还开发了自动编码器和对抗技术，并展示了其可解释性优势。

地址：https://arxiv.org/pdf/2405.06409

24. 揭秘终端点基于行为的恶意软件检测

标题：Demystifying Behavior-Based Malware Detection at Endpoints

机构：伦敦大学、马里兰大学、加利福尼亚大学

作者：Yigitcan Kaya, Yizheng Chen, Shoumik Saha, Fabio Pierazzi, Lorenzo Cavallaro, David Wagner, Tudor Dumitras

分析：本文主要研究了终端点上基于机器学习的恶意软件检测。作者指出，现有的基于行为的检测器大多依赖于在受控沙箱中执行的程序迹象，而沙箱迹象对于安全供应商提供的最后防线——终端点上的恶意软件检测是不可用的。作者利用了沙箱迹象数据集和野外程序迹象数据集，评估了两种情况下终端点检测器的性能：一种是在沙箱迹象上训练的检测器，另一种是在终端点迹象上训练的检测器。结果显示，在终端点上的检测性能远低于在沙箱中的性能，作者提出了几种挑战，如标签噪声、行为变异性或沙箱逃避。作者建议在终端点上训练检测器，以缩小沙箱检测和终端点检测之间的差距。综上所述，作者提供了相对于基准的5-30%的相对改进。最有前景的方向是在终端点数据上训练检测器，这标志着一种新的实践方向。

地址：https://arxiv.org/pdf/2405.06124

25. Code Compass: 对陌生代码库进行导航挑战的研究

标题：Code Compass: A Study on the Challenges of Navigating Unfamiliar Codebases

机构：UC伯克利分校

作者：Ekansh Agrawal, Omair Alam, Chetan Goenka, Medha Iyer, Isabela Moise, Ashish Pandian, Bren Paul

分析：作者在研究中探讨了软件工程师在程序理解过程中面临的挑战，尤其是在调试陌生代码库时。作者提出了一个新颖的工具CodeCompass来解决这些问题。作者的研究凸显了当前工具和方法中存在的重要差距，尤其是开发人员在有效利用文档来辅助代码探索时遇到的困难。CodeCompass通过在IDE中无缝集成文档，提供上下文感知的建议和可视化，简化了调试过程。作者的形成性研究展示了这一工具如何有效地减少开发人员用于导航文档的时间，从而提高了代码理解和任务完成率。未来工作将专注于自动注释代码库的过程、创建沙箱任务和提供动态支持。这些创新有可能通过改善程序理解工具的可访问性和效率来改变软件开发实践。

地址：https://arxiv.org/pdf/2405.06271

26. 走向保证安全的人工智能: 确保强大和可靠的人工智能系统的框架

标题：Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems

机构：康奈尔大学、斯坦福大学、麻省理工学院

作者：David "davidad" Dalrymple, Joar Skalse, Yoshua Bengio, Stuart Russell, Max Tegmark, Sanjit Seshia, Steve Omohundro, Christian Szegedy, Ben Goldhaber, Nora Ammann, Alessandro Abate, Joe Halpern, Clark Barrett, Ding Zhao, Tan Zhi-Xuan, Jeannette Wing, Joshua Tenenbaum

分析：作者提出了一种保证安全的人工智能(GS AI)的方法。该方法旨在生成具有高保障定量安全保证的人工智能系统。通过世界模型、安全规范和验证器的相互作用，实现了这一目标。作者描述了创建每个核心组件的一些方法，指出了主要的技术挑战，并提出了一些潜在的解决方案。作者还论证了这种人工智能安全方法的必要性，以及主要替代方法的不足。

地址：https://arxiv.org/pdf/2405.06624

27. 多模态LLMs在基本视觉网络分析中的困境：VNA基准测试

标题：Multimodal LLMs Struggle with Basic Visual Network Analysis: a VNA Benchmark

机构：卡内基梅隆大学

相关领域：多模态

作者：Evan M. Williams, Kathleen M. Carley

分析：作者评估了GPT-4和LLaVa在小规模图上执行简单视觉网络分析（VNA）任务的zero-shot能力。作者对视觉语言模型（VLMs）在与三个基础网络科学概念相关的5个任务上进行了评估：在渲染图上识别最大度节点，识别有符号三元组是否平衡或不平衡，以及计数组件。这些任务被设计为对理解基础图论概念的人类来说很容易，可以通过计算图中的适当元素来解决。作者发现，虽然GPT-4一直优于LLaVa，但两个模型在该论文提出的每个视觉网络分析任务中都遇到了困难。作者公开发布了用于评估VLMs在基础VNA任务上的第一个基准测试。

地址：https://arxiv.org/pdf/2405.06634

28. 无状态的状态空间模型推理：传递函数方法

标题：State-Free Inference of State-Space Models: The Transfer Function Approach

机构：东京大学、斯坦福大学、麻省理工学院

作者：Rom N. Parnichkun, Stefano Massaroli, Alessandro Moro, Jimmy T.H. Smith, Ramin Hasani, Mathias Lechner, Qi An, Christopher Ré, Hajime Asama, Stefano Ermon, Taiji Suzuki, Atsushi Yamashita, Michael Poli

分析：作者通过传递函数的双重表示，设计了一个用于深度学习应用的状态空间模型，并发现了一种高效的序列并行推理算法，即无状态推理：与其他提出的算法不同，无状态推理在状态大小增加时不会产生任何显著的存储或计算成本。作者利用所提频域传递函数参数化的特性实现了这一点，该参数化使得可以通过单个快速傅里叶变换直接计算其对应卷积核的频谱。实验结果显示，在多个序列长度和状态大小上，相比于以时间域参数化的S4图层，在Long Range Arena基准测试中，作者的方法平均提高了35%的训练速度，同时在其他无注意力方法上实现了最先进的下游性能。此外，作者通过简单引入他们的传递函数参数化，在语言建模上比长卷积Hyena基线实现了更好的困惑度。作者的代码可以在https://github.com/ruke1ire/RTF找到。

地址：https://arxiv.org/pdf/2405.06147

代码：https://github.com/ruke1ire/RTF

29. DP-DyLoRA: 在设备上使用动态低秩适应进行微调基于Transformer模型的大模型

标题：DP-DyLoRA: Fine-Tuning Transformer-Based Models On-Device under Differentially Private Federated Learning using Dynamic Low-Rank Adaptation

机构：三星AI中心

相关领域：模型结构改进、预训练、指令微调

作者：Jie Xu, Karthikeyan Saravanan, Rogier van Dalen, Haaris Mehmood, David Tuckey, Mete Ozay

分析：作者主要研究了在联邦学习系统中通过微调大型设备上的Transformer模型以实现差分隐私的可行性。作者发现完全微调在差分隐私联邦学习情况下通常导致性能严重下降，可通过参数高效微调来减轻。作者的实验表明，现有的差分隐私参数高效微调方法DP-Low-Rank Adaptation (DP-LoRA)一直优于其他方法。作者最终能够将由于差分隐私导致的准确性降低和字错误率增加降低到不到2% 和7% ，并且作者提出的DP-DyLoRA方法能够很好的结合差分隐私

地址：https://arxiv.org/pdf/2405.06368

30. 将Mamba用于语音增强的研究

标题：An Investigation of Incorporating Mamba for Speech Enhancement

机构：英伟达

作者：Rong Chao, Wen-Huang Cheng, Moreno La Quatra, Sabato Marco Siniscalchi, Chao-Han Huck Yang, Szu-Wei Fu, Yu Tsao

分析：本文旨在研究一种可扩展的状态空间模型（SSM），Mamba，用于语音增强（SE）任务。作者利用基于Mamba的回归模型来表征语音信号，并在Mamba上构建了一个SE系统，命名为SEMamba。作者通过将Mamba集成为基本和高级SE系统中的核心模型，同时利用信号级距离以及基于度量的损失函数来探索Mamba的属性。SEMamba展示出有希望的结果，在VoiceBank-DEMAND数据集上获得了PESQ评分为3.55。当与感知对比拉伸技术结合时，提出的SEMamba获得了新的PESQ评分最优值为3.69。

地址：https://arxiv.org/pdf/2405.06573

31. 时间证据融合网络: 长期时间序列预测中的多源视角

标题：Time Evidence Fusion Network: Multi-source View in Long-Term Time Series Forecasting

机构：北京大学、电子科技大学

地址：https://arxiv.org/pdf/2405.06419

32. Selective Focus：研究后训练量化对车道检测的语义敏感性

标题：Selective Focus: Investigating Semantics Sensitivity in Post-training Quantization for Lane Detection

机构：商汤研究院、上海科技大学、北京航空航天大学

相关领域：模型结构改进、后训练量化

地址：https://arxiv.org/pdf/2405.06264

33. From Algorithm to Hardware：深度神经网络高效安全部署综述

标题：From Algorithm to Hardware: A Survey on Efficient and Safe Deployment of Deep Neural Networks

机构：南洋理工大学

相关领域：模型压缩、硬件加速器定制、数据安全

地址：https://arxiv.org/pdf/2405.06038

34. LLMs在捕捉结构化语义方面的潜力和局限性：SRL案例研究

标题：Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL

机构：清华大学、牛津大学、北京交通大学

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2405.06410

35. 基于异质和长尾数据的多级个性化联邦学习

标题：Multi-level Personalized Federated Learning on Heterogeneous and Long-Tailed Data

机构：香港中文大学、香港科技大学

地址：https://arxiv.org/pdf/2405.06413

36. 学习一种用于高效图像去雨的脉冲神经网络

标题：Learning A Spiking Neural Network for Efficient Image Deraining

机构：南京大学

地址：https://arxiv.org/pdf/2405.06277

代码：https://github.com/MingTian99/ESDNet

37. LLMs for XAI: 解释解释的未来方向

标题：LLMs for XAI: Future Directions for Explaining Explanations

机构：剑桥大学

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2405.06064

38. 二元假设检验对Softmax模型和杠杆得分模型的研究

标题：Binary Hypothesis Testing for Softmax Models and Leverage Score Models

机构：华盛顿大学、Adobe Research

地址：https://arxiv.org/pdf/2405.06003

39. PhysMLE: 通用且包含先验信息的多任务远程生理测量

标题：PhysMLE: Generalizable and Priors-Inclusive Multi-task Remote Physiological Measurement

机构：香港科技大学

地址：https://arxiv.org/pdf/2405.06201

40. 重新思考面向事件相机分类和回归的高效有效基于点的网络：EventMamba

标题：Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba

机构：香港科技大学

地址：https://arxiv.org/pdf/2405.06116

41. Are EEG-to-Text Models Working?

标题：Are EEG-to-Text Models Working?

机构：香港科技大学

地址：https://arxiv.org/pdf/2405.06459

42. 面向消费者健康答案摘要的方面导向研究

标题：Aspect-oriented Consumer Health Answer Summarization

机构：伊利诺伊大学

地址：https://arxiv.org/pdf/2405.06295

43. 一次看就听到: 通过嘈杂示例实现目标语音听觉

标题：Look Once to Hear: Target Speech Hearing with Noisy Examples

机构：华盛顿大学

地址：https://arxiv.org/pdf/2405.06289

代码：https://github.com/vb000/LookOnceToHear

44. 实时使用深度学习进行盲人药物识别

标题：Real-Time Pill Identification for the Visually Impaired Using Deep Learning

机构：乔治亚理工学院、中国科学技术大学

地址：https://arxiv.org/pdf/2405.05983

45. 超细粒度视觉分类中的新类别发现

标题：Novel Class Discovery for Ultra-Fine-Grained Visual Categorization

机构：特兰托大学

地址：https://arxiv.org/pdf/2405.06283

代码：https://github.com/SSDUT-Caiyq/UFG-NCD

46. 剪枝作为领域特定LLM提取器

标题：Pruning as a Domain-specific LLM Extractor

机构：宾夕法尼亚州立大学、NEC Labs America

相关领域：模型蒸馏

地址：https://arxiv.org/pdf/2405.06275

代码：https://github.com/psunlpgroup/D-Pruner

47. 果园中基于YOLOv5的苹果检测与定位技术

标题：Precise Apple Detection and Localization in Orchards using YOLOv5 for Robotic Harvesting Systems

机构：华南理工大学

地址：https://arxiv.org/pdf/2405.06260

48. Calo-VQ: 基于向量量化的两阶段生成模型在量能器模拟中的应用

标题：Calo-VQ: Vector-Quantized Two-Stage Generative Model in Calorimeter Simulation

机构：华盛顿大学、上海交通大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.06605

49. Storypark: 利用大模型提升儿童故事学习

标题：Storypark: Leveraging Large Language Models to Enhance Children Story Learning Through Child-AI collaboration Storytelling

机构：上海交通大学

相关领域：预训练

地址：https://arxiv.org/pdf/2405.06495

50. PUMA: 基于边界间隔的数据修剪

标题：PUMA: margin-based data pruning

机构：瑞士洛桑联邦理工学院

地址：https://arxiv.org/pdf/2405.06298

51. OneTo3D: 单图像到可编辑动态3D模型和视频生成

标题：OneTo3D: One Image to Re-editable Dynamic 3D Model and Video Generation

机构：莫纳什大学

相关领域：多模态

地址：https://arxiv.org/pdf/2405.06547

52. CloudSense: 云类型识别的机器学习模型

标题：CloudSense: A Model for Cloud Type Identification using Machine Learning from Radar data

机构：德克萨斯大学

地址：https://arxiv.org/pdf/2405.05988

53. Whole Genome Transformer用于微生物栖息地特异性基因相互作用的研究

标题：Whole Genome Transformer for Gene Interaction Effects in Microbiome Habitat Specificity

机构：维也纳大学、慕尼黑工业大学、慕尼黑机器学习中心

相关领域：预训练

地址：https://arxiv.org/pdf/2405.05998

54. 联合文档视觉问答：一项试点研究

标题：Federated Document Visual Question Answering: A Pilot Study

相关领域：预训练、多模态

地址：https://arxiv.org/pdf/2405.06636

55. 知识图谱引导大模型进行涉及长尾事实的问答

标题：Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts

机构：爱丁堡大学

相关领域：预训练

地址：https://arxiv.org/pdf/2405.06524

56. 学习潜在动态稳健表示的世界模型

标题：Learning Latent Dynamic Robust Representations for World Models

相关领域：模型结构改进、强化学习

地址：https://arxiv.org/pdf/2405.06263

代码：https://github.com/bit1029public/HRSSM

57. 基于组合并行标记预测的可控图像生成

标题：Controllable Image Generation With Composed Parallel Token Prediction

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2405.06535

58. ProCIS: 会话中的主动检索基准

标题：ProCIS: A Benchmark for Proactive Retrieval in Conversations

地址：https://arxiv.org/pdf/2405.06460

59. 深度视频表示学习：一项调查

标题：Deep video representation learning: a survey

地址：https://arxiv.org/pdf/2405.06574

60. Hal: 一个语言通用的用户指定单调框架分析框架

标题：Hal: A Language-General Framework for Analysis of User-Specified Monotone Frameworks

地址：https://arxiv.org/pdf/2405.06505

61. Attention is all they need：认知科学与人类和机器的(技术)政治经济学中的注意力

标题：Attention is all they need: Cognitive science and the (techno)political economy of attention in humans and machines

地址：https://arxiv.org/pdf/2405.06478

62. 大模型能否复制ITS对开放式数学问题的反馈？

标题：Can Large Language Models Replicate ITS Feedback on Open-Ended Math Questions?

相关领域：模型评估

地址：https://arxiv.org/pdf/2405.06414

63. XAI4LLM. 让机器学习模型和LLMs合作，以增强医疗保健中的上下文学习

标题：XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare

相关领域：模型评估

地址：https://arxiv.org/pdf/2405.06270

好啦，小编今天的分享就到这里啦，欢迎留言讨论哦。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

2024-09-20

在长上下文LLM的时代，RAG是否仍然必要？

2024-09-20

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

AI软件必须用GPU么？

2024-09-18

ChatGPT有三个快捷指令和三个模式，你知道吗？

2024-09-17

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示