我要投稿

量化大模型在规模和精度上的能力 | 负面情绪刺激也能增强大模型？| 探索Softmax的前沿....

发布日期：2024-05-19 05:58:26 浏览次数： 3475 作者：AI for Research

前言：平淡无奇的一天又来了，今天要分享的内容主要是关于大语言模型、多模态、预训练的，喜欢的小伙伴赶紧去阅读相关论文吧。

1. Sora是否是一个世界模拟器？关于一般世界模型及以外的综合调查

标题：Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

机构：清华大学、西北工业大学、新加坡国立大学

作者：Zheng Zhu, Xiaofeng Wang, Wangbo Zhao

分析：作者在本文中进行了一项关于一般世界模型的综合研究。世界模型是实现人工通用智能(AGI)的重要途径，是从虚拟环境到决策系统等各种应用的基石。作者探讨了最新世界模型的不断发展，主要涉及视频生成中生成方法学的前沿，自动驾驶世界模型的兴起以及自主代理部署的世界模型。作者深入讨论了世界模型的挑战和局限性，并讨论了它们未来的发展方向。

地址：https://arxiv.org/pdf/2405.03520

代码：https://github.com/GigaAI-research/General-World-Models-Survey

2. 量化大模型在规模和精度上的能力

标题：Quantifying the Capabilities of LLMs across Scale and Precision

相关领域：模型评估

作者：Sher Badshah, Hassan Sajjad

分析：本文主要研究大语言模型在规模和精度上的能力，并探讨了规模对模型性能的影响。作者在该研究中通过使用不同规模和量化方法进行了全面评估，发现规模较大的模型通常表现优于规模较小的模型。作者发现大模型对精度降低表现出极高的韧性，甚至在4位量化下也可保持高准确率，相比于使用较小模型在类似内存需求下，大模型是更好的解决方案。

地址：https://arxiv.org/pdf/2405.03146

3. Get more for less: 基于原则的数据选择用于LLM微调研究

标题：Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs

机构：哥伦比亚大学、Amazon、弗吉尼亚理工学院

相关领域：预训练

作者：Feiyang Kang, Hoang Anh Just, Yifan Sun

分析：作者主要研究了如何利用大规模、无标签的开放数据来预先微调预训练语言模型，以减少后续微调中昂贵的领域特定数据需求，同时实现所需的性能水平。作者的关键想法是选择数据，使得预训练分布更接近目标分布。作者展示了这种方法在特定条件下微调任务的最佳效果。作者的方法在各种任务（NLU、NLG、零样本）上展示了高效性，超过其他选择方法。此外，作者的方法比现有技术快得多，能在单个GPU小时内扩展到数百万样本。通过此项工作，作者希望为经济高效的微调奠定基础，使其受益更广泛。

地址：https://arxiv.org/pdf/2405.02774

代码：https://anonymous.4open.science/r/DV4LLM-D761/

4. MAmmoTH2: 从网络中扩展指令

标题：MAmmoTH2: Scaling Instructions from the Web

机构：滑铁卢大学、卡内基梅隆大学

相关领域：指令微调

作者：Xiang Yue, Tuney Zheng, Ge Zhang

分析：作者提出了一种方法，从预训练网络语料库中高效地收集1000万条自然存在的指令数据，以增强大语言模型（LLM）的推理能力。作者的方法包括（1）检索相关文档，（2）提取指令-响应对，（3）使用开源LLM对提取的对进行精化。在这个数据集上对基础LLM进行微调，作者构建了MAmmoTH2模型，显著提升了推理基准测试的性能。特别是，MAmmoTH2-7B（Mistral）在MATH上的性能从11%提升至34%，在GSM8K上从36%提升至67%，而无需使用任何领域内数据进行训练。进一步在公共指令微调数据集上训练MAmmoTH2，得到了MAmmoTH2-Plus，实现了几个推理和聊天机器人基准测试的最新性能。作者的工作展示了如何在没有昂贵的人工注释或GPT-4精馏的情况下收集大规模、高质量的指令数据，为构建更好的指令微调数据提供了一个新范式。

地址：https://arxiv.org/pdf/2405.03548

5. 随机掩码找到了用于参数高效微调的优胜子集

标题：Random Masking Finds Winning Tickets for Parameter Efficient Fine-tuning

机构：上海AI实验室

相关领域：预训练、参数高效微调

作者：Jing Xu, Jingzhao Zhang

分析：作者研究了参数高效微调的极限，通过使用随机遮蔽对预训练模型进行微调。尽管方法简单，但作者表明随机遮蔽效果出人意料：在较大学习率下，随机遮蔽能够在各种任务上与标准参数高效微调算法（如LoRA）相匹配，同时使用较少的可训练参数。作者提供了对随机遮蔽成功的经验和理论探索，表明遮蔽会导致更平坦的损失曲面和更远的解决方案，这允许并需要更大的学习率。

地址：https://arxiv.org/pdf/2405.02596

6. Flash Attention是否稳定？

标题：Is Flash Attention Stable?

机构：FAIR、哈佛大学

作者：Alicia Golden, Samuel Hsia, Fei Sun

分析：作者在研究中探讨了训练大规模机器学习模型中遇到的数值偏差导致的训练不稳定问题。作者使用了一种原则性方法来理解数值偏差的影响，并构建了代理来帮助理解数值偏差对模型权重的影响。作者通过对Flash Attention优化的研究发现，与基准注意力相比，Flash Attention在BF16下的数值偏差约为一个数量级。作者使用基于Wasserstein距离的数据驱动分析，得出Flash Attention中的数值偏差对模型权重的影响不及低精度训练的2-5倍。

地址：https://arxiv.org/pdf/2405.02803

7. Lory: 全可微分的混合专家模型用于自回归语言模型的预训练

标题：Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training

机构：普林斯顿大学、Meta AI

相关领域：模型结构改进、预训练

作者：Zexuan Zhong, Mengzhou Xia, Danqi Chen

分析：作者介绍了一种全新的方法Lory，用于自回归语言模型的预训练。该方法包括引入了因果分段路由策略和基于相似性的数据分批方法。实验结果表明，与参数匹配的稠密模型相比，在困惑度和各种下游任务上都取得了显著的性能增益。尽管采用了分段级别的路由，Lory模型在与基于标记级别路由的最先进MoE模型相比时表现出了竞争力。作者进一步证明了Lory中训练的专家在缺乏监督的情况下捕捉到了领域级别的专业化。

地址：https://arxiv.org/pdf/2405.03133

8. QuadraNet V2: 高效和可持续训练高阶神经网络的方法与方法

标题：QuadraNet V2: Efficient and Sustainable Training of High-Order Neural Networks with Quadratic Adaptation

机构：微软、北京大学

相关领域：模型结构改进

作者：Chenhui Xu, Xinyao Wang, Fuxun Yu

分析：作者介绍了一个新颖的框架QuadraNet V2，利用二次神经网络创建高效和可持续的高阶学习模型。方法通过在标准神经网络中初始化二次神经元的主要项，同时利用二次项来自适应增强数据的非线性学习或转移。作者的方法显著增加了高阶网络的信息表征能力。QuadraNet V2利用现有的预训练权重，将训练所需的GPU小时减少了90%至98.4%，显示出高效和有效的性能。

地址：https://arxiv.org/pdf/2405.03192

9. 利用心理学通过负面情绪刺激增强大模型

标题：NegativePrompt: Leveraging Psychology for Large Language Models Enhancement via Negative Emotional Stimuli

机构：吉林大学、微软亚洲研究院

相关领域：情绪驱动方法

作者：Xu Wang, Cheng Li, Yi Chang

分析：作者介绍了一种新方法NegativePrompt，通过十种特别设计的负面情绪刺激来增强大语言模型（LLMs）的性能。作者在五种LLMs上进行了严格的实验评估，结果显示，NegativePrompt显著提升了LLMs的性能，如指令归纳任务提升了12.89%，BIG-Bench任务提升了46.25%。作者进行了注意力可视化实验，以解释NegativePrompt的影响机制。研究对LLMs和情绪互动的理解做出了重要贡献，展示了NegativePrompt作为一种情绪驱动方法的实际功效，并为LLMs在实际应用中的增强提供了新的见解。

地址：https://arxiv.org/pdf/2405.02814

代码：https://github.com/wangxu0820/NegativePrompt

10. Sub-goal Distillation：改进小语言模型的方法

标题：Sub-goal Distillation: A Method to Improve Small Language Agents

机构：微软研究院

相关领域：模型蒸馏

作者：Maryam Hashemzadeh, Elias Stengel-Eskin, Sarath Chandar

分析：作者提出一种方法，将具有数十亿参数的大语言模型（LLMs）的性能转移到一个规模小得多的语言模型（770M参数）。该方法涉及构建一个分层代理，包括一个通过知识蒸馏从LLM学习以生成子目标的规划模块，以及一个学习使用基本动作完成这些子目标的执行模块。作者利用LLM为目标注释出一个包含完成目标的一系列子目标的oracle路径，然后利用这些注释数据对规划和执行模块进行微调。在ScienceWorld等具有挑战性的多任务交互文本环境中，作者的方法比仅基于基本动作的标准模仿学习表现提升了16.7%（绝对值）。作者的分析突出了与其他基于LLM的方法相比的效率。作者的代码和注释数据可以在GitHub上找到。

地址：https://arxiv.org/pdf/2405.02749

11. 推进Gemini的多模态医疗能力

标题：Advancing Multimodal Medical Capabilities of Gemini

机构：谷歌研究院

相关领域：多模态

作者：Lin Yang, Shawn Xu, Andrew Sellergren

分析：作者通过在Gemini的多模态模型基础上构建Med-Gemini家族，针对医学领域优化模型，通过2D和3D放射学、组织病理学、眼科学、皮肤科学和基因组数据微调。其中Med-Gemini-2D在AI基于胸部X光报告生成方面表现出色，在两个数据集上超过了之前的最佳结果，其中57%和96%的AI报告在正常情况下超过了放射科医生的原始报告。除了报告生成外，Med-Gemini-2D还在X光图像问题回答方面表现良好，并在组织病理学、眼科学和皮肤科学领域的图像分类上超过基准线。

地址：https://arxiv.org/pdf/2405.03162

12. 增强大模型中的对比解码以提升语境理解

标题：Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding

机构：爱丁堡大学、Amazon

相关领域：模型结构改进、预训练

作者：Zheng Zhao, Emilio Monti, Jens Lehmann

分析：本文介绍了大语言模型在文本生成过程中常常未能充分整合输入上下文，过度依赖模型参数中编码的先验知识，可能导致生成的文本存在事实不一致或语境不准确的问题。作者指出，大语言模型主要利用两种知识来源：1）来自预训练的先验（参数化）知识，2）来自输入提示的语境（非参数化）知识。研究解决了如何在生成过程中有效平衡这些知识来源的问题，尤其是在开放领域问答的背景下。为了解决这个问题，作者引入了一种新颖的方法，将对比解码与对抗性无关段落作为负样本相结合，以增强生成过程中的稳健语境绑定。值得注意的是，该论文的方法在推断时操作，无需进一步训练。作者进行了全面实验以证明其适用性和有效性，并提供了实证证据展示其优越性。作者的代码可公开获取：https://github.com/amazon-science/ContextualUnderstanding-ContrastiveDecoding。

地址：https://arxiv.org/pdf/2405.02750

代码：https://github.com/amazon-science/ContextualUnderstanding-ContrastiveDecoding

13. 时间序列基础模型调查：用大模型概括时间序列表征

标题：A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Mode

机构：香港科技大学、华南理工大学

相关领域：预训练

作者：Jiexia Ye, Weiqi Zhang, Ke Yi

分析：作者通过调查了解到，时间序列数据在各个领域中无处不在，时间序列分析至关重要。传统的时间序列模型通常是特定任务的，具有单一功能和有限的泛化能力。最近，大型语言基础模型展现出了跨任务可迁移性、零-shot/few-shot学习和决策解释性的出色能力。作者的研究主要探讨了如何利用基础模型同时解决多个时间序列挑战，提出了两个主要研究思路，即从头开始为时间序列预训练基础模型和适应大型语言基础模型用于时间序列。作者认为这两种研究方式都有助于开发一个高度通用、多功能且易理解的模型，可用于时间序列分析。针对已有研究，作者提出了一个全面检查相关研究的3E分析框架。具体来说，作者从“有效性”、“效率”和“解释性”三个维度考察现有作品。另外，作者还提供了一个领域分类法以帮助关注者跟上领域特定的进展。除此之外，作者介绍了大量资源以促进该领域的发展，包括数据集、开源资源、时间序列库。作者还维护着一个GitHub仓库以更新资源（https://github.com/start2020/Awesome-TimeSeries-LLM-FM）。

地址：https://arxiv.org/pdf/2405.02358

代码：https://github.com/start2020/Awesome-TimeSeries-LLM-FM)

14. AlphaMath接近零：无过程监督

标题：AlphaMath Almost Zero: process Supervision without process

机构：阿里巴巴集团

相关领域：模型结构改进

作者：Guoxin Chen, Minpeng Liao, Chengxi Li

分析：作者介绍了一种创新方法，通过利用蒙特卡洛树搜索（MCTS）框架自动生成处理监督和评估信号，消除了手动注释的需要。当一个LLM预先训练良好时，只需要数学问题及其最终答案来生成训练数据，而不需要解决方案。作者继续训练一个设计用于改进在数学领域中LLM推理过程的步骤级价值模型。实验结果表明，使用MCTS显著改进的LLMs自动生成的解决方案能够提高模型处理复杂数学推理任务的能力。

地址：https://arxiv.org/pdf/2405.03553

15. 探索Softmax的前沿：可证明优化、扩散模型应用及更多

标题：Exploring the Frontiers of Softmax: Provable Optimization, Applications in Diffusion Model, and Beyond

机构：香港大学、威斯康星大学、Adobe Research

相关领域：模型结构改进、多模态

作者：Jiuxiang Gu, Chenyang Li, Yingyu Liang

分析：作者在研究了softmax的理论特性，包括两层softmax神经网络的优化和泛化特性。他们发现softmax函数的归一化效果导致了诱导NTK矩阵的良好扰动性质，从而得到了良好的损失函数景观凸区域。因此，softmax神经网络可以在过参数化区域学习目标函数。作者将这些理论发现应用于扩散模型中的得分估计函数学习任务，证明了基于梯度的算法可以学习具有可证明精度的得分函数。这些工作加深了对softmax神经网络的有效性及其在各个领域的潜力的理解，为自然语言处理等领域的进一步发展铺平了道路。

地址：https://arxiv.org/pdf/2405.03251

16. 实现高稀疏性的基础Llama模型与高效的预训练和部署

标题：Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment

机构：奥地利科学院、Neural Magic

相关领域：模型结构改进、预训练、指令微调

作者：Abhinav Agarwalla, Abhay Gupta, Alexandre Marques

分析：本文介绍了一种创新方法，通过使用SparseGPT一次性剪枝方法和对这些模型在SlimPajama数据集的子集和The Stack数据集的Python子集上进行稀疏预训练，创造了精准、稀疏的性能良好的LLMs的基础版本，以在高达70%的稀疏度下实现对微调任务的完全准确恢复。作者利用Cerebras CS-3芯片上的稀疏性实现了训练加速，这与理论比例尺非常接近。此外，作者利用Neural Magic的DeepSparse引擎和Neural Magic的nm-vllm引擎，在CPU上实现了最高达3倍的推理加速度，GPU上的加速度为1.7倍。这些收益仅通过稀疏性实现，从而通过额外使用量化实现更多收益。作者展示了在稀疏量化的LLaMA模型上CPU的总加速度最高达8.6倍。作者通过展示在各种具有挑战性的任务上取得这些结果，包括聊天、指令遵循、代码生成、算术推理和摘要，以证明其通用性。这项工作为快速创造更小更快的LLMs铺平了道路，而不会牺牲准确性。

地址：https://arxiv.org/pdf/2405.03594

17. 视频扩散模型：一项调查

标题：Video Diffusion Models: A Survey

机构：滑铁卢大学、比勒费尔德大学、英属哥伦比亚大学

作者：Andrew Melnik, Michal Ljubljanac, Cong Lu

分析：作者概述了最近成为一种强大技术的扩散生成模型，用于生成和修改连贯、高质量的视频。本调查系统地概述了视频生成的关键要素，包括应用、架构选择和时间动态建模。作者总结了该领域的最新进展并分为发展趋势。调查最后总结了剩余挑战，并展望了该领域的未来。

地址：https://arxiv.org/pdf/2405.03150

代码：https://github.com/ndrwmlnk/Awesome-Video-Diffusion-Models

18. IceFormer: 在CPU上使用长序列Transformer进行加速推理

标题：IceFormer: Accelerated Inference with Long-Sequence Transformers on CPUs

相关领域：模型结构改进

作者：Yuzhen Mao, Martin Ester, Ke Li

分析：本文主要讨论了现有基于Transformer的模型存在的一个局限，即不能处理非常长的输入序列，因为其自注意力操作表现出二次时间和空间复杂度。当Transformer部署在仅配备CPU的硬件平台上时，这个问题尤为严重。作者提出了一种新颖的方法，用于加速推理时的自注意力，可直接与预训练的Transformer模型一起工作，无需重新训练。作者在各种基准测试中使用该方法来加速各种长序列Transformer，包括领先的基于LLaMA 2的LLM，在保持98.6% - 99.6%原始预训练模型的准确性的同时，展示了2.73倍 - 7.63倍的更高速度。作者的项目网站上提供了代码: https://yuzhenmao.github.io/IceFormer/。

地址：https://arxiv.org/pdf/2405.02842

代码：https://yuzhenmao.github.io/IceFormer/

19. Matten: Mamba-Attention架构下的视频生成

标题：Matten: Video Generation with Mamba-Attention

相关领域：模型结构改进、多模态

作者：Yu Gao, Jiancheng Huang, Xiaopeng Sun

分析：作者在这篇论文中介绍了Matten，一种具有Mamba-Attention架构的前沿潜在扩散模型，用于视频生成。Matten通过空间-时间注意力进行本地视频内容建模，通过双向Mamba进行全局视频内容建模，以最小的计算成本实现了竞争性能。作者的全面实验证明，Matten在基准性能方面与当前基于Transformer和GAN的模型竞争，表现出优越的FVD分数和效率。此外，作者观察到设计模型复杂性与视频质量提升之间存在直接正相关，显示了Matten的出色可扩展性。

地址：https://arxiv.org/pdf/2405.03025

20. To Each (Textual Sequence) Its Own: 改善大模型中的记忆数据遗忘

标题：To Each (Textual Sequence) Its Own: Improving Memorized-Data Unlearning in Large Language Models

相关领域：模型结构改进

作者：George-Octavian Barbulescu, Peter Triantafillou

分析：本文主要介绍了作者对大语言模型（LLMs）在训练时会记忆文本序列并在生成文本时原封不动地复述这些序列的问题进行研究。作者认为这种现象会导致隐私和相关（例如版权）问题。为了解决这一问题，作者提出了一种新的视角，即应该根据每个待遗忘的文本序列在LLMs中的记忆程度来分别处理其遗忘过程。作者提出了衡量遗忘质量的新指标，展示了一种攻击方法，表明缺乏这种视角的SOTA算法在隐私方面存在问题，并提出了基于梯度上升和任务算术的两种新的遗忘方法。在大量的自然语言处理任务上进行了全面性能评估，确定了在不同规模的模型容量和遗忘集大小下的最佳解决方案，并量化了新方法的收益。

地址：https://arxiv.org/pdf/2405.03097

21. 用大模型启发式方法增强 Q 学习

标题：Enhancing Q-Learning with Large Language Model Heuristics

机构：武汉大学

相关领域：奖励模型、强化学习

作者：Xiefeng Wu

分析：本文主要探讨了在强化学习中使用大语言模型(LLMs)作为启发来增强Q函数学习的方法。作者指出，Q-learning在序贯决策任务中学习反馈方面表现出色，但需要大量采样才能获得显著的改进。为了解决这一问题，作者提出了LLM-guided Q-learning方法，结合了LLMs和Q-learning的优势，同时不引入性能偏差。实验证明，该算法能够帮助代理程序避免无效的探索、增强采样效率，并适用于复杂的控制任务。同时，文章还提到了大语言模型的局限性，如推理速度较慢和偶尔会产生幻觉。作者的实验分析结果显示，LLM启发提供了动作级别的指导，同时具有抑制幻觉的能力，并能够收敛到MDP最优Q函数。

地址：https://arxiv.org/pdf/2405.03341

22. R4: 强化检索-重排序-回复者：用于检索增强的大模型

标题：R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models

机构：阿里巴巴集团、华东师范大学

相关领域：模型结构改进、奖励模型

作者：Taolin Zhang, Dongyang Li, Qizhou Chen

分析：作者提出了一个新的流水线命名为“强化检索-重排序-回复者”（R$^4$），来为检索增强的大语言模型学习文档排序，从而进一步增强它们的生成能力，同时保持大量参数的固定。排列学习过程分为两步，根据生成响应的质量：文档顺序调整和文档表示增强。具体来说，文档顺序调整旨在通过图注意力学习将检索到的文档排序成开始、中间和结束位置，以最大化响应质量的强化奖励。文档表示增强通过文档级梯度对抗学习，进一步优化了检索文档的表示，提高了那些质量不佳的响应。大量实验表明，作者提出的流水线在知识密集型任务上比强基线实现了更好的事实问题回答表现。文中还提到，源代码和训练模型将在论文被接受后发布。

地址：https://arxiv.org/pdf/2405.02659

23. Mozart's Touch: 基于预训练大模型的轻量级多模态音乐生成框架

标题：Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models

机构：北京邮电大学

相关领域：多模态

作者：Tianze Xu, Jiajun Li, Xuesong Chen

分析：作者提出了一种多模态音乐生成框架Mozart's Touch。该框架能够生成与跨模态输入（如图片、视频和文本）对齐的音乐。主要组成部分包括多模态字幕模块、LLM理解与桥接模块和音乐生成模块。与传统方法不同，Mozart's Touch无需对预训练模型进行训练或微调，通过清晰、可解释的提示提供效率和透明度。作者还引入了“LLM-Bridge”方法来解决不同模态描述性文本之间的异构表示问题。作者对所提出的模型进行了一系列客观和主观评估，结果表明该论文的模型超过了当前最先进模型的性能。

地址：https://arxiv.org/pdf/2405.02801

代码：https://github.com/WangTooNaive/MozartsTouch

24. 探索大模型生成多样化设计解决方案的能力

标题：Exploring the Capabilities of Large Language Models for Generating Diverse Design Solutions

机构：UC伯克利分校、卡内基梅隆大学

相关领域：预训练

作者：Kevin Ma, Daniele Grandi, Christopher McComb

分析：本文主要研究了大型语言模型在生成多样化设计解决方案方面的效果。作者探讨了参数调优和各种提示工程技术对LLM生成设计解决方案多样性的影响程度。作者使用LLM生成了4000个设计解决方案，涵盖五个不同的设计主题、八种参数组合以及八种不同类型的提示工程技术，对比了每种参数和提示工程方法在四种不同多样性指标下的表现。结果显示，人类生成的解决方案在所有设计主题上一贯具有更高的多样性得分。作者通过事后logistic回归分析调查了这些差异是否主要存在于语义层面。结果表明在一些设计主题上存在人类和LLM生成的解决方案之间的差异，而其他主题则没有明显分歧。综合来看，这些结果有助于了解LLM在生成大量多样化设计解决方案方面的能力，并为未来利用LLM生成广泛设计任务（例如激励性刺激）的多样化设计解决方案提供了见解。

地址：https://arxiv.org/pdf/2405.02345

25. Learning from Students：应用t分布探索用于LLMs的精确和高效格式

标题：Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMs

机构：康奈尔大学、Google

相关领域：模型结构改进

作者：Jordan Dotzel, Yuzong Chen, Bahaa Kotb

分析：作者通过大规模分析LLM权重和激活情况，发现大多数分布遵循学生t分布。接着，作者推导出一种新的理论上最优的格式，即学生浮点格式（SF4），相较于NF4可以提高现代LLMs的准确性，例如在LLaMA2-7B上，各项任务的平均准确性提高了0.76%。作者使用这种格式作为高准确性参考，然后提出了增强E2M1模型准确性的两种超常支持变体。最后，作者探索了11种数据类型的质量和性能前沿，包括非传统格式，如APoT，并通过评估它们的模型准确性和硬件复杂性来发现一个由INT4、E2M1和具有超常支持的E2M1组成的帕累托曲线，提供了模型准确性和芯片面积之间的连续折衷。例如，E2M1的超常支持将Phi-2的准确性提高了最多2.19%，且只增加了1.22%的面积开销，可以使更多基于LLM的应用在四位上运行。

地址：https://arxiv.org/pdf/2405.03103

26. Stochastic RAG: 通过预期效用最大化实现端到端检索增强生成

标题：Stochastic RAG: End-to-End Retrieval-Augmented Generation through Expected Utility Maximization

机构：Google

相关领域：模型结构改进

作者：Hamed Zamani, Michael Bendersky

分析：作者介绍了Stochastic RAG——一种新颖的方法，用于优化检索增强生成（RAG）模型，放宽了大多数先前工作中做出的边际化和文档独立的简化假设。Stochastic RAG将RAG中的检索过程视为一种不重复的随机抽样过程。通过这种公式，作者使用了直通Gumbel-top-k，为不重复抽样提供可微分的近似，并实现了对RAG的有效端到端优化。作者在七个不同数据集上进行了大量实验，涵盖了从开放领域问答到事实验证，再到关系提取的槽填充，以及对话系统的各种任务。通过将这种优化方法应用于最近和有效的RAG模型，作者在七个数据集中的六个上推进了最新技术性能。

地址：https://arxiv.org/pdf/2405.02816

27. 自适应检索与可扩展索引的k-NN搜索中的交叉编码器

标题：Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders

机构：Google DeepMind

相关领域：模型结构改进

作者：Nishant Yadav, Nicholas Monath, Manzil Zaheer

分析：作者通过交叉编码器（CE）模型来计算相似性，该模型通过联合编码查询-项目对表现出更好的性能，用于估计查询-项目相关性。现有方法通过将CE相似性与使用双编码器（DE）或CUR矩阵因式分解拟合的向量嵌入空间进行k-NN搜索。DE-基于检索和重新排序的方法在新领域上召回率较低，而使用DE的检索与CE是分离的。虽然基于CUR的方法可能比基于DE的方法更准确，但它们需要计算项目嵌入的CE调用次数过多，从而使得在规模部署中不切实际。作者提出了基于稀疏矩阵因式分解的方法，该方法有效地计算潜在的查询和项目嵌入以近似CE分数，并使用近似CE相似性进行k-NN搜索。该方法离线计算项目嵌入，通过因式分解包含一组训练查询的查询-项目CE得分的稀疏矩阵。在测试时，项目嵌入保持不变，检索在轮次之间进行，交替进行a）通过最小化迄今为止检索项的CE得分的近似误差来估计测试查询嵌入，b）使用更新后的测试查询嵌入检索更多项目。作者的k-NN搜索方法提高了召回率，DE方法提高了5%（k=1）和54%（k=100）。此外，作者的索引方法在高于基线的情况下，实现了高达CUR方法100倍和DE蒸馏方法的5倍速度提升。

地址：https://arxiv.org/pdf/2405.03651

28. Position Paper: 利用基础模型进行黑盒优化：收益、挑战和未来方向

标题：Position Paper: Leveraging Foundational Models for Black-Box Optimization: Benefits, Challenges, and Future Directions

机构：Google DeepMind

相关领域：模型结构改进

作者：Xingyou Song, Yingtao Tian, Robert Tjarko Lange

分析：作者在这篇论文中探讨了在黑盒优化方面基于序列基础模型的应用。主要解决了黑盒优化领域尚未受到大语言模型带来的重大变革的问题。作者提出利用基础语言模型中包含的大量信息来丰富任务理解，运用高度灵活的序列模型，如Transformers，来设计优越的优化策略，以及增强对之前未见搜索空间的性能预测。这些方法展示出巨大的潜力。

地址：https://arxiv.org/pdf/2405.03547

29. 声源定位的受控响应功率：教程综述

标题：Steered Response Power for Sound Source Localization: A Tutorial Review

机构：微软研究院、帝国理工学院

作者：Eric Grinstein, Elisa Tengan, Bilgesu Çakmak

分析：作者在过去三十年中，广泛使用了受控响应功率（SRP）方法来进行声源定位（SSL）任务，由于在中等混响和嘈杂场景中具有令人满意的定位性能。作者审查了200多篇关于SRP方法及其变种的论文，重点介绍了SRP-PHAT方法。作者还提出了eXtensible-SRP，或称为X-SRP，这是SRP算法的通用和模块化版本，允许实现审查过的扩展。作者提供了算法的Python实现，其中包括文献中选择的扩展。

地址：https://arxiv.org/pdf/2405.02991

30. 复杂视频推理和针对视频大型语言模型的鲁棒性评估套件

标题：Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs

机构：Google、慕尼黑工业大学、澳大利亚国立大学

相关领域：模型评估

作者：Muhammad Uzair Khattak, Muhammad Ferjad Naeem, Jameel Hassan

分析：本文介绍了一种复杂视频推理和鲁棒性评估套件（CVRR-ES），旨在全面评估Video-LMMs在11个不同的现实世界视频维度上的性能。作者评估了9种最近的模型，发现大多数Video-LMMs，尤其是开源模型，处理复杂视频时在鲁棒性和推理方面存在困难。基于分析，作者开发了一种无需训练的双步骤上下文提示（DSCP）技术来增强现有Video-LMMs的性能。作者的发现为构建具有先进鲁棒性和推理能力的下一代以人为中心的AI系统提供了宝贵的见解。

地址：https://arxiv.org/pdf/2405.03690

代码：https://mbzuai-oryx.github.io/CVRR-Evaluation-Suite/

31. CALRec: 对生成式LLM进行对比对齐用于顺序推荐

标题：CALRec: Contrastive Alignment of Generative LLMs For Sequential Recommendation

机构：剑桥大学、Google

相关领域：预训练

地址：https://arxiv.org/pdf/2405.02429

32. Pose Priors from Language Models

标题：Pose Priors from Language Models

机构：谷歌研究院、UC伯克利分校

相关领域：多模态

地址：https://arxiv.org/pdf/2405.03689

33. 交通性能GPT（TP-GPT）：用于交通监控和管理的实时数据智能聊天机器人

标题：Traffic Performance GPT (TP-GPT): Real-Time Data Informed Intelligent ChatBot for Transportation Surveillance and Management

机构：华盛顿大学、UC伯克利分校

相关领域：指令微调、数据集构建

地址：https://arxiv.org/pdf/2405.03076

34. 高效的上下文学习和高效的微调Enhancing News Summarization with ELearnFit

标题：Enhancing News Summarization with ELearnFit through Efficient In-Context Learning and Efficient Fine-Tuning

机构：UC伯克利分校

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.02710

35. Language-Image Models with 3D Understanding

标题：Language-Image Models with 3D Understanding

机构：英伟达、德克萨斯大学

相关领域：预训练、多模态

地址：https://arxiv.org/pdf/2405.03685

代码：https://janghyuncho.github.io/Cube-LLM

36. CRA5: 通过高效的变分Transformer实现对ERA5的极端压缩，实现便携全球气候和天气研究

标题：CRA5: Extreme Compression of ERA5 for Portable Global Climate and Weather Research via an Efficient Variational Transformer

机构：悉尼大学、香港科技大学、上海AI实验室

相关领域：模型压缩

地址：https://arxiv.org/pdf/2405.03376

代码：https://github.com/taohan10200/CRA5

37. 大模型ChatGPT的高维度心理特征和文化偏见

标题：The high dimensional psychological profile and cultural bias of ChatGPT

机构：中山大学、中国人民大学

相关领域：模型评估

地址：https://arxiv.org/pdf/2405.03387

38. GREEN: 生成放射学报告评估和错误标注

标题：GREEN: Generative Radiology Report Evaluation and Error Notation

机构：斯坦福大学

相关领域：模型评估

地址：https://arxiv.org/pdf/2405.03595

39. LGTM: 本地到全局文本驱动人体运动扩散模型

标题：LGTM: Local-to-Global Text-Driven Human Motion Diffusion Model

机构：字节跳动

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2405.03485

代码：https://github.com/L-Sun/LGTM

40. CityLLaVA: 城市情景下VLMs的高效微调

标题：CityLLaVA: Efficient Fine-Tuning for VLMs in City Scenario

机构：阿里巴巴集团

相关领域：多模态

地址：https://arxiv.org/pdf/2405.03194

代码：https://github.com/alibaba/AICITY2024_Track2_AliOpenTrek_CityLLaVA

41. Beyond Relevance：评估和改进检索器的视角意识

标题：Beyond Relevance: Evaluate and Improve Retrievers on Perspective Awareness

机构：华盛顿大学、卡内基梅隆大学、宾夕法尼亚大学

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2405.02714

42. 程序相似性研究中的合成数据集

标题：Synthetic Datasets for Program Similarity Research

机构：麻省理工学院

地址：https://arxiv.org/pdf/2405.03478

43. Light-VQA+:一个视频质量评估模型，用于曝光校正与视觉语言引导

标题：Light-VQA+: A Video Quality Assessment Model for Exposure Correction with Vision-Language Guidance

机构：上海交通大学、南洋理工大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2405.03333

44. AnchorGT: 高效灵活的注意力架构用于可扩展的图Transform

标题：AnchorGT: Efficient and Flexible Attention Architecture for Scalable Graph Transformers

机构：阿里巴巴集团、AI国家级重点实验室

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.03481

45. MedAdapter: 大模型的高效测试时间适应性

标题：MedAdapter: Efficient Test-Time Adaptation of Large Language Models towards Medical Reasoning

机构：埃默里大学、佐治亚理工学院

相关领域：预训练、适应性微调

地址：https://arxiv.org/pdf/2405.03000

46. CogDPM: 通过认知预测编码的扩散概率模型

标题：CogDPM: Diffusion Probabilistic Models via Cognitive Predictive Coding

机构：清华大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.02384

47. Collage: 大模型训练的轻量级低精度策略

标题：Collage: Light-Weight Low-Precision Strategy for LLM Training

机构：康奈尔大学、AWS AI Labs

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.03637

48. WorldQA: 通过长链推理在视频中融合多模态世界知识

标题：WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning

机构：南洋理工大学

相关领域：数据集构建、多模态

地址：https://arxiv.org/pdf/2405.03272

49. Improve Temporal Awareness of LLMs for Sequential Recommendation

标题：Improve Temporal Awareness of LLMs for Sequential Recommendation

机构：Adobe Research

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.02778

50. 生命周期知识编辑对LLMs的影响研究

标题：Lifelong Knowledge Editing for LLMs with Retrieval-Augmented Continuous Prompt Learning

机构：华东师范大学、阿里巴巴集团

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.03279

51. No One-Size-Fits-All Neurons: 任务型神经元用于人工神经网络

标题：No One-Size-Fits-All Neurons: Task-based Neurons for Artificial Neural Networks

机构：香港大学、北京大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.02369

52. LLM作为数据集分析师: 利用大模型发现子群体结构

标题：LLM as Dataset Analyst: Subpopulation Structure Discovery with Large Language Model

机构：北京大学、西安交通大学、威斯康星大学

相关领域：数据集构建

地址：https://arxiv.org/pdf/2405.02363

53. 大模型揭示信息操作的目标、战术和叙事框架

标题：Large Language Models Reveal Information Operation Goals, Tactics, and Narrative Frames

机构：南加州大学

相关领域：数据集构建、模型评估

地址：https://arxiv.org/pdf/2405.03688

54. 当大模型遇上网络安全: 一项系统文献综述

标题：When LLMs Meet Cybersecurity: A Systematic Literature Review

机构：中国科学院大学

相关领域：预训练

地址：https://arxiv.org/pdf/2405.03644

代码：https://github.com/tmylla/Awesome-LLM4Cybersecurity

55. 探究十亿级向量搜索中性能和索引大小困境并通过二层内存解决

标题：Characterizing the Dilemma of Performance and Index Size in Billion-Scale Vector Search and Breaking It with Second-Tier Memory

机构：上海交通大学、阿里巴巴集团、上海AI实验室

地址：https://arxiv.org/pdf/2405.03267

56. FOBNN: 快速遗忘化二值神经网络推断

标题：FOBNN: Fast Oblivious Binarized Neural Network Inference

机构：中山大学、华东师范大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.03136

57. WDMoE: 无线分布式大模型与专家混合

标题：WDMoE: Wireless Distributed Large Language Models with Mixture of Experts

机构：香港大学、鹏城实验室、上海交通大学

相关领域：模型结构改进、数据集构建

地址：https://arxiv.org/pdf/2405.03131

58. SMCD: Mamba基础扩散的高逼真度动作风格转移

标题：SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion

机构：复旦大学

地址：https://arxiv.org/pdf/2405.02844

59. 压缩长上下文以提升基于AMR的概念提炼的RAG模型

标题：Compressing Long Context for Enhancing RAG with AMR-based Concept Distillation

机构：香港大学、悉尼科技大学、香港理工大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.03085

60. 知识神经元论与知识有何关联？

标题：What does the Knowledge Neuron Thesis Have to do with Knowledge?

机构：多伦多大学、滑铁卢大学、Vector Institute

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.02421

61. 锚定答案: 揭示GPT-2多项选择问题中的位置偏见

标题：Anchored Answers: Unravelling Positional Bias in GPT-2's Multiple-Choice Questions

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.03205

代码：https://github.com/ruizheliUOA/Anchored_Bias_GPT2

62. AniTalker: 通过解耦身份特征的面部动态编码实现生动多样的说话面部表情

标题：AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding

地址：https://arxiv.org/pdf/2405.03121

代码：https://github.com/X-LANCE/AniTalker

63. MedDoc-Bot: 一种用于在儿童高血压指南背景下比较分析大模型的聊天工具

标题：MedDoc-Bot: A Chat Tool for Comparative Analysis of Large Language Models in the Context of the Pediatric Hypertension Guideline

相关领域：模型评估

地址：https://arxiv.org/pdf/2405.03359

代码：https://github.com/yaseen28/MedDoc-Bot

64. Mixat: 一个阿拉伯-英语双语阿联酉演讲数据集

标题：Mixat: A Data Set of Bilingual Emirati-English Speech

机构：MBZUAI大学

相关领域：数、据、集、构

地址：https://arxiv.org/pdf/2405.02578

65. 检测大模型中的编辑知识

标题：Detecting Edited Knowledge in Language Models

机构：曼海姆大学、谢菲尔德大学

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2405.02765

66. 早期的Transformer: 通过早期彩票票据实现Transformer模型的高效训练

标题：Early Transformers: A study on Efficient Training of Transformer Models through Early-Bird Lottery Tickets

机构：乔治亚理工学院

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.02353

67. Generated Contents Enrichment

标题：Generated Contents Enrichment

机构：滑铁卢大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.03650

68. 不要浪费时间：早停止交叉验证

标题：Don't Waste Your Time: Early Stopping Cross-Validation

机构：弗莱堡大学

相关领域：模型评估

地址：https://arxiv.org/pdf/2405.03389

69. 大模型的哲学导论-第二部分：未来的道路

标题：A Philosophical Introduction to Language Models - Part II: The Way Forward

机构：休斯顿大学、澳大利亚悉尼麦考瑞大学

相关领域：多模态

地址：https://arxiv.org/pdf/2405.03207

70. SketchGPT: 自回归建模用于素描生成和识别

标题：SketchGPT: Autoregressive Modeling for Sketch Generation and Recognition

相关领域：多模态

地址：https://arxiv.org/pdf/2405.03099

71. HuixiangDou-CR: Coreference Resolution in Group Chats

标题：HuixiangDou-CR: Coreference Resolution in Group Chats

相关领域：数据集构建、指令微调

地址：https://arxiv.org/pdf/2405.02817

代码：https://github.com/InternLM/HuixiangDou/tree/main/web/tools,; https://github.com/InternLM/HuixiangDou/tree/main/web/tools; https://github.com/InternLM/HuixiangDou/tree/main/web/tools

72. TED: 通过内部泛化加速模型训练

标题：TED: Accelerate Model Training by Internal Generalization

相关领域：模型蒸馏

地址：https://arxiv.org/pdf/2405.03228

73. DiffuseTrace: 透明且灵活的隐式扩散模型水印方案

标题：DiffuseTrace: A Transparent and Flexible Watermarking Scheme for Latent Diffusion Model

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2405.02696

74. 改进的前向-前向对比学习

标题：Improved Forward-Forward Contrastive Learning

地址：https://arxiv.org/pdf/2405.03432

75. Mothman at SemEval-2024 Task 9: 用于思维链条提示优化的迭代系统