我要投稿

从模型训练时间预估最终模型loss, DeepMind 发布最新时间规模定律！适用于任何预算！

发布日期：2024-06-28 19:57:04 浏览次数： 2785

作者：AI for Research

微信搜一搜，关注“AI for Research”

1. 时间至关重要：适用于任何预算的规模法则

标题：Time Matters: Scaling Laws for Any Budget

机构：Google、Google DeepMind

相关领域：模型评估、模型结构改进

作者：Itay Inbar, Luke Sernau

分析：本文主要讨论了在训练大型模型时，主要成本驱动因素是实际的训练时间。作者指出，基于FLOPs（浮点运算次数）所做出的流行时间估计是不准确的，并提出了一种基于内存复制的更准确的代理方法。通过一些简单的核算，可以从变压器模型的超参数估算出训练速度。结合像Chinchilla那样的缩放律曲线，我们能够估计模型的最终损失。作者通过将估计值与真实数据拟合，使用线性回归，并将结果应用于重写Chinchilla，使其从模型的估计训练时间而不是训练数据量的角度来表达。这为仅使用模型的超参数表达损失提供了一种方法。作者展示了这种表达式在广泛的模型超参数值范围内的准确性，使我们能够在做出架构决策和更高效地训练模型时，进行分析

地址：https://arxiv.org/pdf/2406.18922

2. 面向长链推理的大模型的逐步偏好优化研究

标题：Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

机构：香港中文大学

相关领域：模型评估、数据集构建

作者：Xin Lai, Zhuotao Tian, Yukang Chen

分析：针对大型语言模型（LLMs）在数学推理中存在的挑战，提出了一种名为Step-DPO的逐步偏好优化方法。该方法通过人类反馈来增强模型的稳健性和事实准确性，并解决了长期存在的模型在识别错误答案中的详细错误方面的困难。研究还开发了一种用于Step-DPO的数据构建流程，并发现自我生成的数据比人类或GPT-4生成的数据更有效。研究结果表明，Step-DPO方法在提高模型准确性方面取得了显著成效。

地址：https://arxiv.org/pdf/2406.18629

代码：https://github.com/dvlab-research/Step-DPO

3. 大模型计算效率的提升与调整

标题：Resolving Discrepancies in Compute-Optimal Scaling of Language Models

机构：麻省理工学院

相关领域：模型结构改进、预训练

作者：Tomer Porian, Mitchell Wortsman, Jenia Jitsev

分析：这篇论文主要研究了如何解决Kaplan和Hoffmann的大语言模型缩放法则之间的差异。他们提出了两个影响模型大小的关键因素：最后一层的计算成本、预热时间长度以及优化器的规模依赖性。通过对这三个因素进行调整，该论文能够得到与Hoffmann的缩放法则(Chinchilla)高度一致的结果。此外，该论文还发现了AdamW $beta_2$ 参数在小批量设置中的重要性，并推导出了学习率和批量大小的缩放法则。

地址：https://arxiv.org/pdf/2406.19146

4. 概念空间中学习动态的涌现：探索隐藏能力

标题：Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space

机构：哈佛大学、密歇根大学

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

作者：Core Francisco Park, Maya Okawa, Andrew Lee

分析：这篇论文主要探讨了现代生成模型的学习能力和控制其学习过程的机制。通过分析模型在概念空间中的学习动态，揭示了概念学习速度和顺序受数据中概念信号属性控制的规律。研究还观察到模型学习动态中存在突然转向的概念，这些点对应于隐藏能力的涌现，即模型在训练过程中可以获得操纵概念的能力，但这种能力不能通过简单的输入提示被诱导出来。虽然这些结果主要针对人工定义的玩具数据集，但作者提出了一个关于生成模型可能普遍存在隐藏能力的假设。

地址：https://arxiv.org/pdf/2406.19370

5. From Artificial Needles to Real Haystacks：通过合成数据微调改善大模型的检索能力

标题：From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

相关领域：模型评估、数据集构建

作者：Zheyang Xiong, Vasilis Papageorgiou, Kangwook Lee

分析：论文提出了一种使用合成数据集对大型语言模型（LLM）进行微调的方法，以提高其在长语境输入下的信息检索和推理能力。实验表明，该方法能显著提高LLM在处理长语境时的信息检索和推理能力。论文还分析了微调模型的效果，并探讨了合成数据在改善LLM性能方面的潜力。

地址：https://arxiv.org/pdf/2406.19292

6. Re-Ranking Step by Step：探讨大模型重新排序前的预过滤技术

标题：Re-Ranking Step by Step: Investigating Pre-Filtering for Re-Ranking with Large Language Models

相关领域：模型应用、预训练

作者：Baharan Nouriinanloo, Maxime Lamothe

分析：这篇论文探讨了大型语言模型在信息处理检索中的重新排序问题。文章指出，通过预过滤步骤，可以在重新排序之前过滤掉不相关的段落，从而提高大型语言模型的工作效率。实验表明，预过滤能让小型模型表现出与大型专有模型相近的性能。该研究为解决资源有限或闭源大型语言模型的利用问题提供了新的思路。

地址：https://arxiv.org/pdf/2406.18740

7. VideoMambaPro：Mamba在视频理解方面的飞跃

标题：VideoMambaPro: A Leap Forward for Mamba in Video Understanding

相关领域：模型结构改进

作者：Hui Lu, Albert Ali Salah, Ronald Poppe

分析：本文提出了VideoMambaPro（VMP），解决了Mamba在视频处理方面存在的局限性。通过分析自注意力机制和Mamba之间的区别，发现Mamba在令牌处理方面的两个局限：历史衰减和元素矛盾。VideoMambaPro通过添加向后计算和元素残留连接解决了这些问题。它在视频动作识别方面表现出卓越的性能，超越了传统的transformer模型和之前的VideoMamba。其中，VideoMambaPro-M模型在Kinetics-400数据集上取得了91.9%的准确率，仅比InternVideo2-6B低0.2%，但参数仅为其1.2%。总的来说，VideoMambaPro是一种高性能且高效的视频理解模型。

地址：https://arxiv.org/pdf/2406.19006

8. HuatuoGPT-Vision: 大规模向多模态大模型中注入医学视觉知识的探索

标题：HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

作者：Junying Chen, Ruyi Ouyang, Anningzhe Gao

分析：该论文主要介绍了如何利用大规模的医学图像文本对来增强多模态大型语言模型(MLLMs)在医疗领域的多模态能力。作者通过从PubMed中提炼医学图像文本对，并使用MLLMs对其进行去噪和重新格式化，创建了PubMedVision数据集，其中包含130万个医疗视觉问答样本。他们的验证结果表明，PubMedVision可以显著提高当前MLLM在医疗多模态任务中的性能，并在MMMU健康与医学赛道等基准测试中取得了显著的改进。此外，他们还训练了一个34B的医疗MLLM HuatuoGPT-Vision,该模型在开源MLLM中在医疗多模态场景中表现出优越的性能。

地址：https://arxiv.org/pdf/2406.19280

9. AutoPureData：基于现有可信AI模型的Web数据自动过滤用于LLM微调

标题：AutoPureData: Automated Filtering of Web Data for LLM Fine-tuning

相关领域：数据集构建

作者：Praneeth Vadlapati

分析：这篇论文关注于LLM训练数据的持续更新和高质量数据的重要性。它提出了一种系统，该系统能够从网上收集数据并借助现有的可信AI模型自动过滤掉不良文本，如偏见、垃圾信息和其他不安全或不需要的文本。实验证明，该系统可以有效地净化数据。

地址：https://arxiv.org/pdf/2406.19271

10. 老师价值百万指令：大模型的改进训练策略

标题：A Teacher Is Worth A Million Instructions

相关领域：模型结构改进、训练策略优化

作者：Nikhil Kothari, Ravindra Nayak, Shreyas Shetty

分析：论文提出了一种改进的大型语言模型训练方法。通过利用更大模型的知识，如混合专家架构，来解决训练难题。实施了一种新型的后训练域对齐阶段，利用特定领域的专家模型来提升模型的领域知识，同时保持其泛化能力。这种新方法提高了模型性能，超过了具有超过7B和13B参数的先进语言模型。

地址：https://arxiv.org/pdf/2406.19112

11. 常识因果关系的奥德赛：从基础基准到尖端推理

标题：The Odyssey of Commonsense Causality: From Foundational Benchmarks to Cutting-Edge Reasoning

作者：Shaobo Cui, Zhijing Jin, Bernhard Schölkopf

分析：理解常识因果关系是人类智能的独特标志。它帮助人们更好地理解现实世界的原理，并对与因果关系相关的决策过程产生积极影响。例如，在判断被告的行为是否导致原告损失以确定法律责任时，常识因果关系至关重要。尽管其重要性不言而喻，但对这一主题的系统性探索却明显不足。该论文的全面调查通过关注分类、基准、获取方法、定性推理和定量测量等方面，填补了这一空白，综合了200多篇代表性文章的见解。该论文的工作旨在提供一个系统的概述，更新学者们对最新进展的认识，为初学者提供实用指南，并突出该领域未来的潜在研究方向。

地址：https://arxiv.org/pdf/2406.19307

12. RouteLLM: 基于偏好数据学习路由大模型

标题：RouteLLM: Learning to Route LLMs with Preference Data

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

作者：Isaac Ong, Amjad Almahairi, Vincent Wu

分析：这篇论文主要讲了如何使用人类偏好数据和数据增强技术来训练高效的路由模型，动态地在强大的LLM和较弱的LLM之间选择，以优化成本和响应质量之间的平衡。该论文的评估结果表明，在某些情况下，该论文的方法可以将成本降低2倍以上，同时不影响响应质量。此外，该论文的路由模型还展示了显著的迁移学习能力，即使在测试时更换强大的和较弱的模型，也能保持良好的性能。

地址：https://arxiv.org/pdf/2406.18665

13. 基于LoRA权重的数据集大小恢复研究

标题：Dataset Size Recovery from LoRA Weights

机构：希伯莱大学

相关领域：模型评估

作者：Mohammad Salama, Jonathan Kahana, Eliahu Horwitz

分析：针对模型训练过程中数据集大小未知的问题，本文提出了一种新的任务：数据集大小恢复。该任务旨在直接从模型的权重中确定用于训练模型的数据集样本数量。本研究提出了一种名为DSiRe的方法，用于恢复使用LoRA微调模型时所用的图像数量。研究发现LoRA矩阵的范数和谱与微调数据集大小密切相关，基于此提出了简单有效的预测算法。为了评估LoRA权重的数据集大小恢复效果，研究团队开发并发布了一个名为LoRA-WiSE的新基准测试平台，包含来自超过2000个不同LoRA微调模型的25000多个权重快照。最佳分类器可以预测微调图像数量的平均绝对误差为0.36图像，证明了这种攻击的可行性。

地址：https://arxiv.org/pdf/2406.19395

14. Suri:多约束指令引导长文本生成

标题：Suri: Multi-constraint Instruction Following for Long-form Text Generation

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Chau Minh Pham, Simeng Sun, Mohit Iyyer

分析：这篇论文主要探索了在长文本生成任务中使用多约束指令。该论文创建了一个包含20K人类编写的长文本的数据集，并与LLM生成的经过反向翻译的包含多个复杂约束的指令配对。由于在长文本上收集人类偏好判断的挑战性，DPO等偏好调优算法在该论文的情况下无法实现；因此，该论文提出了基于ORPO算法的I-ORPO对齐方法。与被拒绝的响应不同，I-ORPO从由LLM生成的合成损坏指令中获得负面反馈。该论文使用Suri在Mistral-7b-Instruct-v0.2上进行监督和I-ORPO细调。结果模型(Suri-SFT和Suri-I-ORPO)生成的文本比基础模型长得多(约5K标记),并且没有显著的质量下降。该论文的人类评估显示，尽管SFT和I-ORPO模型满足大多数约束，但Suri-I-ORPO生成的文本通常更受青睐，因为它们连贯且信息丰富地包含了约束。该论文的代码位于https://github.com/chtmp223/suri。

地址：https://arxiv.org/pdf/2406.19371

代码：https://github.com/chtmp223/suri

15. Capturing Minds, Not Just Words：以人格指示数据增强角色扮演语言模型

标题：Capturing Minds, Not Just Words: Enhancing Role-Playing Language Models with Personality-Indicative Data

机构：复旦大学

相关领域：模型结构改进、数据集构建

作者：Yiting Ran, Xintao Wang, Rui Xu

分析：这篇论文主要探讨了角色扮演语言模型（RPA）在捕捉角色心智方面面临的挑战。研究团队通过引入人格指示数据来增强小型角色扮演语言模型（RPLMs）的能力，利用心理量表的问题来提炼先进的RPA，生成能够把握角色心智的对话。实验结果表明，使用此数据集训练的RPLMs在一般和人格相关评估中都展现出更高级的角色扮演能力。

地址：https://arxiv.org/pdf/2406.18921

代码：https://github.com/alienet1109/RolePersonality

16. Universal Checkpointing：用于大规模分布式训练的高效灵活检查点技术

标题：Universal Checkpointing: Efficient and Flexible Checkpointing for Large Scale Distributed Training

机构：微软、伊利诺伊大学

相关领域：模型结构改进、模型评估

作者：Xinyu Lian, Sam Ade Jacobs, Lev Kurilenko

分析：该文提出了一种称为通用检查点技术的方法，解决了分布式训练中检查点技术存在的问题。该技术能够在高效创建检查点的同时，提供在任意并行策略和设备配置上恢复的灵活性。通用检查点技术通过选择检查点生命周期中的最佳表示形式来实现这一目标，例如分布式表示用于保存，以及整合表示用于加载。该技术的关键机制包括通用检查点格式和通用检查点语言。前者包含每个模型参数的整合表示和用于映射参数片段到任意模型并行配置的元数据。后者是一种简单但功能强大的规范语言，用于将分布式检查点转换为通用检查点格式。评估表明，通用检查点技术在先进的模型架构和各种并行技术上具有有效性和普遍性。

地址：https://arxiv.org/pdf/2406.18820

17. Infinite Width Models That Work：特征学习并不像你想的那么重要

标题：Infinite Width Models That Work: Why Feature Learning Doesn't Matter as Much as You Think

机构：Google、Google DeepMind

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Luke Sernau

分析：这篇论文主要探讨了无限宽度模型，比如神经导数核(NTKs)在性能上是否能超过有限宽度模型的问题。作者发现，实际上无限宽度NTK模型能够通过选择其特征向量中的相关子特征来访问更丰富的特征，而不仅仅是依赖于有限的模型结构和特征学习。实验结果表明，即使在人为禁用特征学习的情况下，无限宽度NTK模型仍然能够超过传统的有限宽度模型。这种性能差距并非由于特征学习的缺失所导致，而是因为现有的构造方法依赖于诸如随机梯度下降(SGD)等弱优化器。作者还提出了一种基于Adam类学习动态的无限宽度限制，并通过实验验证了其有效性，从而消除了这种性能差距。

地址：https://arxiv.org/pdf/2406.18800

18. AutoRAG-HP：用于增强检索生成系统的自动在线超参数调整框架

标题：AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation

机构：微软

相关领域：模型评估、模型结构改进（针对RAG系统的超参数优化）

作者：Jia Fu, Xiaoting Qin, Fangkai Yang

分析：针对大型语言模型中检索增强生成（RAG）系统的超参数优化和在线适应挑战，论文提出了AutoRAG-HP框架。该框架将超参数调整公式化为在线多臂老虎机（MAB）问题，并引入了一种新型的两级分层老虎机（Hier-MAB）方法，以有效探索大型搜索空间。通过调整诸如前k个检索文档、提示压缩率和嵌入方法等超参数，该框架在ALCE-ASQA和Natural Questions数据集上进行了广泛的实验验证。结果表明，基于老虎机的在线学习方法在搜索空间梯度显著的情况下，仅使用约20%的LLM API调用即可实现Recall@5≈0.8。此外，所提出的分层老虎机方法在更具挑战性的优化场景中优于其他基线。

地址：https://arxiv.org/pdf/2406.19251

代码：https://aka.ms/autorag

19. UniGen：利用大模型进行文本数据集生成的综合框架

标题：UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models

机构：圣母大学、微软研究院、马里兰大学

相关领域：数据集构建、模型结构改进（间接涉及）

作者：Siyuan Wu, Yue Huang, Chujie Gao

分析：这篇论文介绍了一个名为UniGen的综合框架，该框架利用大型语言模型（LLMs）生成文本数据集。它旨在解决现有生成框架在通用性、可控性、多样性和真实性方面所面临的挑战。UniGen通过创新的机制增强数据生成的多样性、准确性和控制性，支持所有类型的文本数据集。它还允许用户指定约束，以适应特定的数据生成需求。此外，论文还展示了UniGen在LLM基准测试和数据增强方面的实际应用场景。

地址：https://arxiv.org/pdf/2406.18966

20. 人类感知的视觉与语言导航：通过动态人类交互连接模拟与现实

标题：Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions

机构：曼海姆大学、微软研究院、哥伦比亚大学

相关领域：数据集构建、模型评估

作者：Minghan Li, Heng Li, Zhi-Qi Cheng

分析：这篇论文介绍了人类感知的视觉与语言导航技术的新发展，特别是在模拟与现实之间通过动态人类交互进行桥接。针对现有框架在真实世界应用中的局限性，论文提出了一种新的方法，并开发了相关技术和数据集，以支持在动态人类环境中的有效导航。该研究为解决真实环境中的导航问题提供了重要思路和技术支持。

地址：https://arxiv.org/pdf/2406.19236

21. Accuracy on the wrong line：噪声数据对于超出分布泛化的潜在影响

标题：Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation

机构：密歇根大学、UC伯克利分校

相关领域：模型评估、数据集构建

作者：Amartya Sanyal, Yaxi Hu, Yaodong Yu

分析：本文主要探讨了机器学习中一种普遍观察到的现象，即模型的准确性与其在不同超参数和数据配置下的分布内（ID）和分布外（OOD）数据的关联。文章重点关注噪声数据和干扰特征如何破坏这种关联，导致准确度的表现出现负面现象，称之为“错误线上的准确度”。此外，文章还讨论了干扰特征如何掩盖复杂信号特征，造成大规模的干扰特征空间。文章通过理论证明和实验验证，展示了噪声数据和干扰特征对模型性能的不利影响。文章的研究成果对于解决机器学习中数据质量问题具有重要意义。

地址：https://arxiv.org/pdf/2406.19049

22. 大模型属性对齐

标题：Aligning Model Properties via Conformal Risk Control

机构：斯坦福大学

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

作者：William Overman, Jacqueline Jil Vallon, Mohsen Bayati

分析：这篇论文探讨了通过属性测试实现模型属性对齐的方法。作者提出了一种新的策略，即通过定义一个函数集合来描述期望的模型行为，然后使用 conformal risk control 对预训练模型进行后处理以更好地对齐。这种方法可以应用于各种属性，如单调性和凸性等。作者还通过实验验证了这种方法的有效性。

地址：https://arxiv.org/pdf/2406.18777

23. 基于可穿戴设备和大模型的个性化健康见解支持系统PhysioLLM

标题：PhysioLLM: Supporting Personalized Health Insights with Wearables and Large Language Models

机构：麻省理工学院

相关领域：多模态

作者：Cathy Mengying Fang, Valdemar Danry, Nathan Whitmore

分析：论文介绍了一个名为PhysioLLM的交互系统，该系统利用大型语言模型（LLM）整合可穿戴设备的生理数据，提供个性化的健康理解和探索。不同于现有的商业可穿戴健康应用，PhysioLLM提供了一个全面的统计分析组件，可以发现用户数据中的关联和趋势，允许用户通过自然语言提问并获得个性化的见解，指导他们制定可操作的健康目标。作为案例研究，论文重点关注通过生理数据改善睡眠质量及其对整体福祉的重要性。

地址：https://arxiv.org/pdf/2406.19283

24. SeaKR：自适应检索增强生成中的自我感知知识检索

标题：SeaKR: Self-aware Knowledge Retrieval for Adaptive Retrieval Augmented Generation

机构：清华大学、加利福尼亚大学

相关领域：模型结构改进、自适应技术

作者：Zijun Yao, Weijian Qi, Liangming Pan

分析：这篇论文介绍了一种新型自适应RAG模型SeaKR，它从内部状态中提取LLMs的自我感知不确定性。当LLMs在生成时表现出高度自我感知不确定性时，SeaKR会激活检索功能。通过有效整合检索到的知识片段，SeaKR根据LLM的自我感知不确定性对其进行重新排序，以最大程度地保留能减少不确定性的片段。此外，SeaKR还利用自我感知不确定性来解决需要多次检索的复杂任务，并选择不同的推理策略。实验表明，SeaKR在复杂和简单的问答数据集上的表现优于现有的自适应RAG方法。

地址：https://arxiv.org/pdf/2406.19215

代码：https://github.com/THU-KEG/SeaKR

25. 日志训练权重的HPO方法

标题：Improving Hyperparameter Optimization with Checkpointed Model Weights

机构：英伟达

作者：Nikhil Mehta, Jonathan Lorraine, Steve Masson

分析：这篇论文提出了一种新的HPO方法，该方法利用已训练模型的权重作为指导来优化超参数。作者将权重嵌入高斯过程深度核替代模型中，并使用置换不变图元网络进行数据高效处理。这种方法旨在解决传统黑箱优化问题，提供更多关于设置的信息，从而提高效率。

地址：https://arxiv.org/pdf/2406.18630

代码：https://github.com/NVlabs/forecasting-model-search

26. 基于潜在扩散模型的减式训练音乐茎插入法

标题：Subtractive Training for Music Stem Insertion using Latent Diffusion Models

机构：斯坦福大学

相关领域：模型结构改进、指令微调

作者：Ivan Villa-Renteria, Mason L. Wang, Zachary Shah

分析：论文提出了一种名为Subtractive Training的新方法，用于在给定其他乐器上下文的情况下合成单个乐器茎。该方法结合完整的音乐混合数据集，通过生成缺失的乐器茎来完善预训练的文本到音频扩散模型。论文还展示了使用文本指令控制插入茎的生成，可以根据节奏、动力和风格进行修改。此外，论文还将该技术扩展到MIDI格式，成功生成不完整安排的兼容贝斯、鼓和吉他部分。

地址：https://arxiv.org/pdf/2406.19328

27. 环境、社会和治理(ESG)KPI的表格信息提取

标题：Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs

机构：IBM研究院

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

作者：Lokesh Mishra, Sohayl Dhibi, Yusik Kim

分析：这篇论文主要探讨了如何从包含大量信息的ESG报告中提取关键数据。由于表格结构和内容的多样性，提取这些信息变得非常困难。作者提出了一种名为Statements的数据结构，可以将表格转换为声明。他们还介绍了SemTabNet数据集，该数据集包含了超过10万个标记的表格。通过使用T5模型进行表语句提取，他们的最佳模型能够生成与真实值82%相似的语句。这项技术有助于对大规模ESG报告中的信息进行探索性数据分析。

地址：https://arxiv.org/pdf/2406.19102

28. 磷酸铁锂锂电池系统健康监测与故障分析：基于高斯过程野点数据研究

标题：Lithium-Ion Battery System Health Monitoring and Fault Analysis from Field Data Using Gaussian Processes

机构：剑桥大学、麻省理工学院、达姆斯塔特工业大学

作者：Joachim Schaeffer, Eric Lenz, Duncan Gulla

分析：论文利用高斯过程电阻模型对磷酸铁锂电池的野点数据进行处理，有效分离时间依赖和操作用点依赖的电阻。开发概率故障检测规则，通过递归时空高斯过程快速处理百万数据点，实现电池包在线监测，并理解电池包在实际应用中的失效原因。研究发现，通常只有单个电池表现出异常行为，这反映了串联电池的弱点环节失效现象，局部电阻加热会加剧失效。论文公开相关代码并发布大数据集，为电池健康监测和故障分析提供了重要参考。

地址：https://arxiv.org/pdf/2406.19015

29. Sonnet or Not, Bot? 大模型的诗歌评估数据集

标题：Sonnet or Not, Bot? Poetry Evaluation for Large Models and Datasets

机构：华盛顿大学、艾伦AI研究所

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Melanie Walsh, Anna Preus, Maria Antoniak

分析：这篇论文主要探讨了大型语言模型在诗歌领域的能力。具体来说，作者开发了一个任务来评估这些模型对于英语诗歌形式的理解程度，包括韵律、音步和词语或行的重复等20多种形式和元素。这不仅有助于该论文理解大型语言模型在诗歌生成方面的潜力，也为该论文创建NLP基准测试以及评估其他创意任务提供了启示。

地址：https://arxiv.org/pdf/2406.18906

30. 多目标解码时间语言模型对齐

标题：Decoding-Time Language Model Alignment with Multiple Objectives

机构：清华大学、华盛顿大学、艾伦AI研究所

相关领域：模型评估、奖励模型、多模态

作者：Ruizhe Shi, Yifang Chen, Yushi Hu

分析：这篇论文提出了一种多目标解码算法，用于在解码过程中对语言模型进行对齐。该算法可以输出下一个词汇的预测结果，通过对不同基础模型的预测结果进行线性组合，并根据给定的权重进行优化。论文还探讨了如何有效地调整模型以适应不同的目标，并展示该算法在各种应用场景下的优越性。

地址：https://arxiv.org/pdf/2406.18853

31. 描述性语音文本对齐增强语音语言模型

标题：DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment

机构：英伟达

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2406.18871

32. 大模型的显著稳健性：推理阶段？

标题：The Remarkable Robustness of LLMs: Stages of Inference?

机构：麻省理工学院

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2406.19384

33. 学习如何使用黑盒大模型进行QA推理的纠错

标题：Learning to Correct for QA Reasoning with Black-box LLMs

机构：卡内基梅隆大学、韩国科学技术院

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2406.18695

34. 长语音Transformer自动预测肌萎缩侧索硬化症进展

标题：Automatic Prediction of Amyotrophic Lateral Sclerosis Progression using Longitudinal Speech Transformer

机构：麻省理工学院

地址：https://arxiv.org/pdf/2406.18625

35. CELLO: 视觉-语言大模型的因果评估

标题：CELLO: Causal Evaluation of Large Vision-Language Models

机构：北京大学、上海交通大学、上海AI实验室

相关领域：模、型、结、构

地址：https://arxiv.org/pdf/2406.19131

代码：https://github.com/OpenCausaLab/CELLO

36. 用于文本分类的脉冲卷积神经网络

标题：Spiking Convolutional Neural Networks for Text Classification

机构：复旦大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2406.19230

37. 基于学生偏好对齐的教师模型定制训练数据生成方法的研究

标题：Aligning Teacher with Student Preferences for Tailored Training Data Generation

机构：清华大学

相关领域：数据集构建、模型蒸馏

地址：https://arxiv.org/pdf/2406.19227

38. Understand What LLM Needs：基于双偏好对齐的检索增强生成

标题：Understand What LLM Needs: Dual Preference Alignment for Retrieval-Augmented Generation

机构：中国人民大学、北京邮电大学

相关领域：模型结构改进、检索增强生成

地址：https://arxiv.org/pdf/2406.18676

代码：https://github.com/dongguanting/DPA-RAG

39. Using diffusion model as constraint：通过扩散模型赋能图像恢复网络训练

标题：Using diffusion model as constraint: Empower Image Restoration Network Training with Diffusion Model

机构：中国科学技术大学

地址：https://arxiv.org/pdf/2406.19030

代码：https://github.com/JosephTiTan/DiffLoss

40. 从单目视频中完全动画化高斯头部（FAGhead）

标题：FAGhead: Fully Animate Gaussian Head from Monocular Videos

机构：浙江大学

相关领域：模型结构改进、数据集构建

地址：https://arxiv.org/pdf/2406.19070

41. AnyControl: 多控制图像合成

标题：AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation

机构：上海AI实验室

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2406.18958

代码：https://any-control.github.io

42. 提高基于弱监督的模型到强泛化能力：可靠度感知对齐研究

标题：Improving Weak-to-Strong Generalization with Reliability-Aware Alignment

机构：香港科技大学

相关领域：模型评估、模型结构改进

地址：https://arxiv.org/pdf/2406.19032

43. 半监督概念瓶颈模型

标题：Semi-supervised Concept Bottleneck Models

机构：上海交通大学、香港科技大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2406.18992

44. TrustUQA：一个可信的统一结构化数据问答框架

标题：TrustUQA: A Trustful Framework for Unified Structured Data Question Answering

机构：浙江大学、曼彻斯特大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2406.18916

45. 大模型在安卓应用漏洞分析中的有效性评估

标题：Assessing the Effectiveness of LLMs in Android Application Vulnerability Analysis

机构：IDEA

相关领域：模型评估、多模态

地址：https://arxiv.org/pdf/2406.18894

46. Learn it or Leave it：模块组合与剪枝在持续学习中的应用

标题：Learn it or Leave it: Module Composition and Pruning for Continual Learning

机构：慕尼黑大学、博世AI中心、科隆莱茵应用技术大学

相关领域：模型结构改进、持续学习

地址：https://arxiv.org/pdf/2406.18708

47. 模态感知特征蒸馏增强视觉问答中的持续学习能力

标题：Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation

机构：赫瑞瓦特大学、Alana AI

相关领域：多模态、模型蒸馏

地址：https://arxiv.org/pdf/2406.19297

48. DocKylin：面向视觉文档理解的高效视觉瘦身的图文混合大模型研究

标题：DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

机构：华南理工大学

相关领域：多模态、模型结构改进

地址：https://arxiv.org/pdf/2406.19101

49. 基于知识分解的视觉问答中的知识与视觉推理研究

标题：Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA

机构：密歇根州立大学

相关领域：多模态

地址：https://arxiv.org/pdf/2406.18839

50. 金融领域精细化中文-英文平行语料库的研究：FFN的构建与应用

标题：FFN: a Fine-grained Chinese-English Financial Domain Parallel Corpus

相关领域：数据集构建、模型评估

地址：https://arxiv.org/pdf/2406.18856

51. Dysca：一种用于评估大型视觉语言模型感知能力的动态可扩展基准测试

标题：Dysca: A Dynamic and Scalable Benchmark for Evaluating Perception Ability of LVLMs

相关领域：模型评估、数据集构建、多模态

地址：https://arxiv.org/pdf/2406.18849

代码：https://github.com/Benchmark-Dysca/Dysca

52. 利用阿拉伯文转写和阿拉伯诶比破解大模型

标题：Jailbreaking LLMs with Arabic Transliteration and Arabizi

机构：中佛罗里达大学

相关领域：大、模、型、、

地址：https://arxiv.org/pdf/2406.18725

53. 量子操作系统QOS

标题：QOS: A Quantum Operating System

机构：慕尼黑工业大学

地址：https://arxiv.org/pdf/2406.19120

54. LICO: 用于情境分子优化的大模型

标题：LICO: Large Language Models for In-Context Molecular Optimization

相关领域：分子优化

地址：https://arxiv.org/pdf/2406.18851

55. 高效世界模型的上下文感知标记化

标题：Efficient World Models with Context-Aware Tokenization

相关领域：大、模、型、、

地址：https://arxiv.org/pdf/2406.19320

代码：https://github.com/vmicheli/delta-iris

56. Seeing Is Believing：相信所见——黑盒成员推理攻击研究

标题：Seeing Is Believing: Black-Box Membership Inference Attacks Against Retrieval Augmented Generation

机构：华中科技大学

相关领域：模型评估

地址：https://arxiv.org/pdf/2406.19234

57. 360度视频数据集：深度预测和视图合成

标题：360 in the Wild: Dataset for Depth Prediction and View Synthesis

机构：韩国科学技术院

相关领域：模、型、结、构

地址：https://arxiv.org/pdf/2406.18898

58. BioLunar:基于大模型的生物医学发现知识合成与科学推理框架

标题：An LLM-based Knowledge Synthesis and Scientific Reasoning Framework for Biomedical Discovery

机构：伊迪亚普研究所

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2406.18626

59. AlignIT：增强文本到图像模型定制中的提示对齐

标题：AlignIT: Enhancing Prompt Alignment in Customization of Text-to-Image Models

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2406.18893

60. T-FREE: 通过稀疏表示实现无分词器生成式大模型，以实现内存高效嵌入

标题：T-FREE: Tokenizer-Free Generative LLMs via Sparse Representations for Memory-Efficient Embeddings

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2406.19223

61. Wikipedia变化事件数据集CHEW介绍

标题：CHEW: A Dataset of CHanging Events in Wikipedia

相关领域：数据集构建

地址：https://arxiv.org/pdf/2406.19116

62. Mamba or RWKV：探究高质量高效率的任何内容分割模型

标题：Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model

相关领域：模型结构改进、数据集构建

地址：https://arxiv.org/pdf/2406.19369

63. VERISCORE: 评估长篇文本生成中可验证声明的事实性

标题：VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2406.19276

64. MUMU: 从文本到图像数据自举多模态图像生成

标题：MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

地址：https://arxiv.org/pdf/2406.18790

65. 人类与人工智能合作分类构建研究：以专业写作助手为例

标题：Human-AI Collaborative Taxonomy Construction: A Case Study in Profession-Specific Writing Assistants

相关领域：模型评估、多模态

地址：https://arxiv.org/pdf/2406.18675

看论文是一天，不看论文也是一天，为什么不每天充实下自己呢^_^^_^

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业