我要投稿

Gemma 2B 技术报告上线，效果超越10倍尺寸模型！使用最小量的合成数据，超越传统大型数据集预训练效果！

发布日期：2024-08-02 17:41:00 浏览次数： 2485 作者：AI for Research

前言：科研就像一场冒险，而看论文就是你的探险工具！只有通过深入阅读，才能找到宝藏，发现那些意想不到的科研奇遇哦！

1. Gemma 2: 在实用规模上提升开放语言模型

标题：Gemma 2: Improving Open Language Models at a Practical Size

机构：Google DeepMind

相关领域：模型结构改进

作者：Gemma Team: Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa

分析：本文介绍Gemma 2，为该系列的轻量级、前沿开放模型的新版本，参数规模从2亿到27亿不等。本文对Transformer架构应用了几种技术改进，如交织局部-全局注意力和分组查询注意力。此外，该论文训练2亿和9亿参数模型使用知识蒸馏而非下一个词预测。生成的模型在同一规模下表现最佳，甚至可与体积大2-3倍的模型竞争。该论文向社区免费发布所有模型。

地址：https://arxiv.org/pdf/2408.00118

2. 间歇性半工作掩码：LLM的一种新掩码范式

标题：Intermittent Semi-working Mask: A New Masking Paradigm for LLMs

相关领域：模型结构改进

作者：Mingcong Lu, Jiangcai Zhu, Wang Hao

分析：这篇论文集中在解决大型语言模型在多回合对话中的问题。论文指出主流的大型语言模型分为因果模型和前缀模型两类。前缀模型在那些高度依赖历史语境的场景（如多轮对话或基于上下文的学习）中表现优于因果模型，得益于它对前缀序列的双向注意力。然而，前缀模型在多回合对话数据集中的训练效率问题，并且由于注意力机制，无法在对话轮次间重用Key-Value缓存，以减少生成延迟。因此，论文引入了一种新的掩模方案——间歇半工作掩模（ISM），它在对话历史中的问题和答案上交替应用双向和单向注意力。ISM旨在同时保持前缀模型的高质性和因果模型的低生成延迟。

地址：https://arxiv.org/pdf/2408.00539

3. 逆向扩展：最小化合成预训练?

标题：Scaling Backwards: Minimal Synthetic Pre-training?

机构：牛津大学、阿姆斯特丹大学

相关领域：预训练、模型结构改进、数据集构建

作者：Ryo Nakamura, Ryu Tadokoro, Ryosuke Yamada

分析：本文探索了计算机视觉系统中至关重要的构建模块——预训练和迁移学习，主要研究了是否需要在大型现实世界图像数据集上进行预训练。通过构建基于单个分形并进行扰动的最小合成预训练数据集，本文提出三项主要发现。首先表明即使使用最少的合成图像预训练也有效，与大规模预训练数据集（如ImageNet-1k）完全微调的性能相当。其次，研究了构建人工类别时的单个参数，发现尽管形状差异对人类而言可能难以区分，但对于获得强性能至关重要。最后，本文研究了成功的预训练所需的最小要求。令人惊讶的是，从1k减少到1的合成图像数量甚至可能提高预训练性能，对'回溯规模'进行了更深入的探索。此外，本文将方法从合成图像扩展到真实图像，试图通过形状增强观察单一真实图像是否能产生类似的预训练效果。结果发现，使用灰度图像和仿射变换允许甚至真实图像实现回溯规模。

地址：https://arxiv.org/pdf/2408.00677

4. SAM 2：在图像和视频中实现任何区域分割

标题：SAM 2: Segment Anything in Images and Videos

机构：FAIR

相关领域：模型结构改进、数据集构建、评估指标

作者：Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu

分析：本文介绍了Segment Anything Model 2 (SAM 2)，它是为了解决图像和视频中基于提示的视觉分割任务而设计的框架模型。文章构建了一个数据引擎，通过与用户的交互来优化模型和数据，收集了迄今为止最大的视频分割数据集。SAM 2模型采用可实时处理视频数据的简单Transformer架构和流式内存设计。通过对数据的训练，SAM 2在广泛的任务中表现出强大性能。在视频分割方面，它达到了更高的精确率，而仅为之前方法所需交互量的三分之一。对于图像分割任务，其准确度高于Segment Anything Model (SAM)，处理速度是后者的6倍。此工作提供了数据、模型以及在视频分割和相关感知任务上重要的参考和基础。作者将提供模型的版本、数据集和交互式演示。

地址：https://arxiv.org/pdf/2408.00714

5. Clover-2: 准确推断回归式轻量级神秘解码

标题：Clover-2: Accurate Inference for Regressive Lightweight Speculative Decoding

相关领域：模型结构改进

作者：Bin Xiao, Lujun Gui, Lei Su

分析：近期，大量语言模型（LLM）的效率低下问题主要由自回归解码要求的矛盾和当前GPU架构的失调导致。最近，回归式轻量级神秘解码在文本生成任务中获得了显著的效率提升。这种方法利用轻量级回归解码模型，如RNN或单Transform解码层，利用顺序信息迭代预测潜在标记。特别地，RNN解码模型在计算上经济高效，但预测精度较低，而注意力解码模型则表现出相反的特点。本文提出了Clover-2，是对Clover的先进迭代版本，它利用了一个轻量级回归草案模型，设计为在保持轻量级计算开销的同时达到与注意力解码模型相当的精度。Clover-2提升了模型架构，并引入了知识蒸馏以提高Clover的准确性和整体效率。该论文使用开源的Vicuna 7B和LaMDA 3-Instruct 8B模型进行了实验。结果表明，Clover-2在各种模型架构上超越了现有方法，展示了其有效性和稳健性。

地址：https://arxiv.org/pdf/2408.00264

6. SentenceVAE:更快、更长、更准确的大模型推理

标题：SentenceVAE: Faster, Longer and More Accurate Inference with Next-sentence Prediction for Large Language Models

相关领域：模型结构改进、预训练、指令微调、奖励模型

作者：Hongjun An, Yifan Chen, Xiaozhen Qiao

分析：这篇论文主要介绍了一种名为SentenceVAE的新型推理方法，旨在提高大型语言模型(LLMs)的推理效率。通过将SentenceVAE集成到LLMs的输入和输出层，开发出了一种句子级别的LLMs(SLLMs),采用逐句推理的方法，显著加快了推理速度。此外，SentenceVAE还能在保持原始语义内容的同时，通过将文本分割成句子来提高准确性。实验结果表明，这种方法可以在相同上下文长度的情况下，将推理速度提高204-365%,将困惑度(PPL)降低至原始指标的46-75%,并将内存开销减少86-91%。随着模型参数的增加，这种方法的优势进一步扩大。

地址：https://arxiv.org/pdf/2408.00655

7. 下游偏差缓解机制是关键

标题：Downstream bias mitigation is all you need

相关领域：预训练、模型结构改进

作者：Arkadeep Baksi, Rahul Singh, Tarun Joshi

分析：随着基于Transformer架构和大型语言模型（LLMs）的出现，自然语言处理（NLP）模型的性能有了显著提升。由于这些LLMs在网路和其它来源的海量数据集进行训练，存在将其数据中存在的有害偏见转移到模型中的风险。这些预训练后的LLMs在特定任务的数据集上进行微调，可能会进一步增加偏见。本文研究了在预训练阶段，以及任务特定行为在微调后的LLMs吸收的偏差以及产生的影响。该论文发现，在预训练阶段对LLMs进行的控制干预，对降低分类器的偏见影响有限。然而，领域特定数据集中存在的偏见影响更大，因此，在这个阶段降低其影响的效果更显著。虽然预训练很重要，但在模型预训练之后，微调数据集中微小的共现率变化对模型的偏见影响显著。

地址：https://arxiv.org/pdf/2408.00612

8. 计算最优推理的实证研究：以语言模型解决问题

标题：An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models

相关领域：模型评估、多模态

作者：Yangzhen Wu, Zhiqing Sun, Shanda Li

分析：这篇论文研究计算最优推理，设计模型和推理策略，以优化性能和计算资源之间的平衡。通过评估多种推理策略，发现小型语言模型与先进解码算法结合，在预算有限场景下可提高问题解决准确性。研究结果表明，在某些任务中，小型模型表现可与大型模型相当，甚至更优。

地址：https://arxiv.org/pdf/2408.00724

9. 长尾学习的系统回顾

标题：A Systematic Review on Long-Tailed Learning

相关领域：模型结构改进、数据平衡

作者：Chongsheng Zhang, George Almpanidis, Gaojuan Fan

分析：这篇论文讨论了长尾数据的系统回顾，即在大量少数/尾部类别的不平衡多分类数据中，构建高性能模型的策略。长尾学习旨在针对具有长尾分布的数据集构建优秀的模型，特别关注高准确地识别所有类别，包括少数/尾部类别。这是一项近年来吸引大量研究投入的前沿研究领域。本文概述了长尾视觉学习的最新进展，并提出了一种新的长尾学习分类，包含八个不同维度，如数据平衡、神经架构、特征增强、logits调整、损失函数、额外技术、网络优化和事后处理技术。在此基础上，进行长尾学习方法的系统性回顾，讨论其共同点和可比差异。此外，还分析了不平衡学习和长尾学习方法之间的差异。最后，本文讨论了该领域的前景和未来方向。

地址：https://arxiv.org/pdf/2408.00483

10. 大模型的归纳推理与演绎推理

标题：Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs

作者：Kewei Cheng, Jingfeng Yang, Haoming Jiang

分析：本文主要研究大型语言模型(LLMs)的推理能力，包括归纳推理和演绎推理。通过提出SolverLearner框架，该论文能够更深入地了解LLMs在纯归纳推理任务中的表现。该论文的发现表明，尽管LLMs在归纳推理方面表现出色，但在涉及反事实推理的任务中，其演绎推理能力相对较弱。

地址：https://arxiv.org/pdf/2408.00114

11. 基于人体三维可视化模型的中医健康聊天机器人HBot的研究

标题：HBot: A Chatbot for Healthcare Applications in Traditional Chinese Medicine Based on Human Body 3D Visualization

作者：Bolin Zhang, Zhiwei Yi, Jiahao Wang

分析：为了解决传统中医在咨询过程中难以直观展示穴位和经络的问题，该研究开发了一个基于三维人体模型和知识图谱的中医健康聊天机器人HBot。HBot能够提供知识问答、处方推荐、艾灸治疗推荐、穴位搜索等对话服务，并可以在对话中直观地展示和突出特定的穴位。此外，HBot还可以用于训练场景，加速中医教学的过程。该研究成果对于推广中医的现代化和智能化具有积极意义。

地址：https://arxiv.org/pdf/2408.00481

代码：https://www.youtube.com/watch?v=UhQhutSKkTU; https://www.youtube.com/watch?v=UhQhutSKkTU

12. DeliLaw: 基于大模型的中国法律咨询系统

标题：DeliLaw: A Chinese Legal Counselling System Based on a Large Language Model

机构：中国科学院大学、中国科学技术大学

相关领域：法律

作者：Nan Xie, Yuelin Bai, Hengyuan Gao

分析：这篇论文介绍了一种名为DeliLaw的中国法律咨询服务系统，该系统基于大型语言模型。DeliLaw将法律检索模块和案例检索模块集成在一起，以克服模型假象。用户可以通过对话模式在DeliLaw系统上咨询专业法律问题、搜索法律文章和相关判例等。此外，DeliLaw还支持使用英语进行咨询。该系统的地址是https://data.delilegal.com/lawQuestion.

地址：https://arxiv.org/pdf/2408.00357

代码：https://data.delilegal.com/lawQuestion

13. EmoTalk3D：高保真自由视角情感化三维对话头部合成

标题：EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head

机构：南京大学、复旦大学

相关领域：模型结构改进、数据集构建

作者：Qianyun He, Xinya Ji, Yicheng Gong

分析：该论文提出了一种合成带有可控情绪的三维对话头部的新方法，解决了现有方法在多视角一致性和情感表达缺失上的问题。论文通过构建EmoTalk3D数据集，实现了从音频特征预测忠实三维几何序列的映射框架，然后合成三维对话头部的外观。此外，论文还实现了情感的可控性，并能够在广泛的视角范围内呈现动画效果。该方法提高了渲染质量和嘴唇运动生成的稳定性，能够捕捉面部动态细节，如皱纹和微妙表情。

地址：https://arxiv.org/pdf/2408.00297

代码：https://nju-3dv.github.io/projects/EmoTalk3D

14. 一种新的编码和解码代码的方法，以辅助代码理解

标题：A new approach for encoding code and assisting code understanding

机构：北京大学

相关领域：模型结构改进、预训练、多模态

作者：Mengdan Fan, Wei Zhang, Haiyan Zhao

分析：本文提出了一种新的代码理解范式，突破了传统的下一个词预测范式。该论文观察到GPTs的自动回归模式在代码理解上的局限性，缺乏规划、工作记忆、回溯和推理能力。因此，该论文借鉴扩散技术在图像生成（如Dalle2和Sora）和蛋白质结构生成（如AlphaFold3）的成功应用，提出了一个基于全局信息的混合图像模型来编码代码。该论文设计了一种文本到代码的编码器模型，用于各种下游代码理解任务。该模型在新范式下的全局代码理解方面表现出色，实现了文本和代码的编码空间连接，并将文本输入编码为最相似的代码向量。通过自我监督对比学习，该模型在456,360个文本-代码对上实现了零样本预测。

地址：https://arxiv.org/pdf/2408.00521

15. TurboEdit：基于文本的图像编辑利用少步扩散模型

标题：TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

机构：英伟达

相关领域：模型结构改进、多模态

作者：Gilad Deutch, Rinon Gal, Daniel Garibi

分析：论文主要研究了基于文本的图像编辑技术，特别是利用少步扩散模型进行图像编辑。文章深入分析了现有文本编辑框架的挑战，如视觉伪影和编辑强度不足等问题，并提出了改进措施。通过调整噪声调度和伪指导方法，实现了高效的图像编辑，仅用少数几步就能完成复杂的图像修改。同时，文章还提供了对流行文本编辑方法的机制洞察。

地址：https://arxiv.org/pdf/2408.00735

16. 更大规模的编码器是否总是视觉大模型的更好选择？

标题：Are Bigger Encoders Always Better in Vision Large Models?

机构：北京大学

相关领域：模型结构改进、预训练、多模态

作者：Bozhou Li, Hao Liang, Zimo Meng

分析：本文主要探讨了大规模视觉语言模型（VLM）的扩展趋势，通过实验研究了不同编码器规模和大型语言模型（LLM）规模对预训练阶段的影响。研究发现，单纯增加编码器规模并不一定能提高VLM的性能，同时分析了LLM主干参数规模和数据质量对预训练结果的影响，并探索了LLM和VLM之间的扩展律差异。旨在解决在视觉大模型中，如何更有效地通过扩大模型规模提升性能的问题。

地址：https://arxiv.org/pdf/2408.00620

17. 对比式微调提升小型语言模型文本嵌入质量

标题：Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

机构：清华大学

相关领域：模型优化，文本嵌入，对比式微调

作者：Trapoom Ukarapol, Zhicheng Lee, Amy Xin

分析：本研究探讨了如何通过对比式微调（Contrastive Fine-tuning, CFT）来优化小型语言模型，如MiniCPM、Phi-2和Gemma。在NLI数据集上进行实验后，该论文发现CFT方法显著提升了所有模型的文本嵌入质量，特别是MiniCPM，性能提升平均达到56.33%。CFT代码已公开。这项研究针对的是如何提升小型模型的有效性和可持续性，使其在资源有限的场景下也能有良好表现。

地址：https://arxiv.org/pdf/2408.00690

代码：https://github.com/trapoom555/Language-Model-STS-CFT

18. ABC Align：大模型对齐以安全与准确性为中心

标题：ABC Align: Large Language Model Alignment for Safety & Accuracy

相关领域：模型结构改进、预训练、偏好对齐

作者：Gareth Seneque, Lap-Hang Ho, Ariel Kuperman

分析：这篇论文提出了ABC对齐，一种新颖的、将大型媒体组织的标准和偏好整合到大型语言模型（LLMs）中的对齐方法。ABC对齐结合了合成数据生成、偏好优化和训练后模型量化等技术，旨在消除偏见并提高准确性，同时保持推理能力。

地址：https://arxiv.org/pdf/2408.00307

19. 微调能力分析与神经网络记忆容量的扩展

标题：Memorization Capacity for Additive Fine-Tuning with Small ReLU Networks

相关领域：模型结构改进、预训练、指令微调

作者：Jy-yong Sohn, Dohyun Kwon, Seoyeon An

分析：本文主要研究了微调大型预训练模型的数学分析，通过引入记忆容量的概念，定义了微调容量（FTC）。它反映了神经网络在微调过程中能够调整样本标签的最大数量。文章详细分析了在添加微调场景下FTC的情况，其中微调网络被定义为冻结的预训练网络和用于微调的神经网络之和。文章探讨了具有2层或3层ReLU网络的微调网络，得到了FTC的紧密上下界，并展示了不同层数网络所需的神经元数量以实现有效微调。该研究发现即使样本数量很大，只需与样本数量相当的神经元就可以进行微调。

地址：https://arxiv.org/pdf/2408.00359

20. Penzai与Treescope工具包：模型解读、可视化与编辑

标题：Penzai + Treescope: A Toolkit for Interpreting, Visualizing, and Editing Models As Data

机构：多伦多大学、Google DeepMind

相关领域：模型结构改进、模型评估

作者：Daniel D. Johnson

分析：这篇论文介绍了一种解读、可视化并编辑模型的工具包，包括Penzai神经网络库和Treescope可视化工具。Penzai将模型简化为简单的数据结构，方便模型操作。Treescope可以可视化模型的输入、输出和模型本身。此外，用户可以通过Penzai的树编辑选择器系统插入和替换模型组件，通过Treescope可视化反馈进行即时干预和调整。该论文解决了在模型训练后的解读、修改和可视化问题，有助于提高机器学习研究的效率和效果。

地址：https://arxiv.org/pdf/2408.00211

21. GOProteinGNN：利用蛋白质知识图谱进行蛋白质表示学习

标题：GOProteinGNN: Leveraging Protein Knowledge Graphs for Protein Representation Learning

机构：Meta AI

相关领域：模型结构改进

作者：Dan Kalifa, Uriel Singer, Kira Radinsky

分析：本文介绍了GOProteinGNN这一创新架构，旨在通过在生成氨基酸级别表示时整合蛋白质知识图谱信息，增强蛋白质语言模型。该方法不仅涵盖了单个氨基酸级别信息，还包括整个蛋白质级别的信息，通过基于图的学习实现全面而有效的学习过程。GOProteinGNN通过在训练过程中学习整个蛋白质知识图谱，能够捕获更广泛的关联性和依赖性，而不仅仅是单纯的三元组处理。通过在多个下游任务上的全面评估，该方法被证明在与蛋白质表示学习相关的所有方法中表现最佳，因此被认为是这一领域的最先进的解决方案。

地址：https://arxiv.org/pdf/2408.00057

22. 专家行动反馈从视频生成

标题：ExpertAF: Expert Actionable Feedback from Video

机构：FAIR、德克萨斯大学、卡内基梅隆大学

相关领域：数据集构建、多模态

作者：Kumar Ashutosh, Tushar Nagarajan, Georgios Pavlakos

分析：论文提出了一种从视频生成可操作反馈的新方法，针对个人进行体育活动时的表现进行评估并给出反馈意见。它使用视频演示和相应的3D身体姿势，生成专家评论和可视化专家演示，指出优点和改进之处。该方法通过利用Ego-Exo4D的视频数据和专家评论，结合强大的语言模型，创建了一个弱监督训练数据集。论文解决了传统方法无法给出具体行动指导的问题，有助于人们更有效地学习新技能或提高现有技能水平。

地址：https://arxiv.org/pdf/2408.00672

23. MM-Vet v2: 一个挑战性的基准测试大型多模态模型综合能力

标题：MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

机构：微软、新加坡国立大学

相关领域：模型评估、多模态

作者：Weihao Yu, Zhengyuan Yang, Linfeng Ren

分析：这篇论文提出了MM-Vet v2，它包括一个新的VL能力“图像-文本序列理解”，评估模型处理VL序列的能力。它维持了高质量的评估样本，并且进一步扩大了评估样本的数量。使用MM-Vet v2测试大型多模态模型，Claude 3.5 Sonnet表现最佳，分数为71.8，略微超越了GPT-4的71.0分数。开放权重模型中，InternVL2-Llama3-76B表现最好，分数为68.4。MM-Vet v2解决了现有基准针对多模态模型综合能力的评估问题，同时提供了一个新的评估平台。

地址：https://arxiv.org/pdf/2408.00765

24. Virchow 2：病理学中混合比例模型的自监督扩展研究

标题：Virchow 2: Scaling Self-Supervised Mixed Magnification Models in Pathology

机构：剑桥大学、微软研究院

相关领域：预训练、模型结构改进、数据集构建

作者：Eric Zimmermann, Eugene Vorontsov, Julian Viret

分析：论文主要探讨了如何通过扩大数据量和模型规模来提升病理学图像分析的性能。文章引入了两种新型模型：Virchow 2和Virchow 2G，这两个模型在自监督学习算法训练下表现出了较高的性能。同时，为了适应这种大规模训练，论文还提出了对DINOv2训练算法的领域适应性改进。研究结果表明，数据多样性和领域特定训练能够超越仅通过增加参数数量的模型，三者共同提升模型性能。

地址：https://arxiv.org/pdf/2408.00738

25. 基于环境生成和任务规划的增强语言模型规划能力研究

标题：AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation

机构：微软、香港大学

相关领域：模型评估、指令微调

作者：Mengkang Hu, Pu Zhao, Can Xu

分析：这篇论文主要探讨了如何利用环境生成和任务规划技术，提升基于大型语言模型的智能主体的规划能力。研究提出了一种框架AgentGen，该框架能够自动生成环境和规划任务，并根据环境对任务进行条件约束。论文通过双向进化方法Bi-Evol，合成难度逐渐递增的规划任务集，以提高语言模型的规划能力。

地址：https://arxiv.org/pdf/2408.00764

26. DynamoLLM：设计面向性能和能源效率的LLM推理集群

标题：DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency

机构：微软、伊利诺伊大学

相关领域：模型评估、模型结构改进

作者：Jovan Stojkovic, Chaojie Zhang, Íñigo Goiri

分析：这篇论文聚焦于大型语言模型（LLM）的推理集群设计和性能优化问题。为了解决能源效率低的问题，论文提出了一种名为DynamoLLM的能源管理框架，能够自动动态地重新配置推理集群以优化能源消耗和成本。通过在实际环境中的验证，DynamoLLM能够在满足服务性能标准的同时，实现能源和成本的显著节约。

地址：https://arxiv.org/pdf/2408.00741

27. CrystalTac：通过快速单片制造技术实现的3D打印视觉触觉传感器家族

标题：CrystalTac: 3D-Printed Vision-Based Tactile Sensor Family through Rapid Monolithic Manufacturing Technique

机构：微软

作者：Wen Fan, Haoran Li, Dandan Zhang

分析：这篇论文主要介绍了一种新型的触觉传感器——水晶触觉传感器(CrystalTac)。这种传感器采用了先进的多模态视觉感知技术，能够捕捉并转换物理接触为光学信息。传统的触觉传感器由于其复杂的结构设计，对于设计灵活性、成本效益和质量稳定性等方面存在挑战。然而，通过使用多材料3D打印技术进行快速单片制造，可以部分解决这些问题。CrystalTac系列触觉传感器以其独特的传感机制、出色的性能以及显著的成本效益和设计灵活性，在各种涉及触觉感知的任务中都表现出了优秀的性能。该研究旨在展示单片制造在触觉传感器开发中的潜力，并进一步推动触觉感知和操纵领域的研究。

地址：https://arxiv.org/pdf/2408.00638

28. 全场景解析系统

标题：OmniParser for Pure Vision Based GUI Agent

机构：微软、微软研究院

作者：Yadong Lu, Jianwei Yang, Yelong Shen

分析：大型视觉语言模型的成功显示了在用户界面操作的代理系统中的巨大潜力。然而，该论文主张像GPT-4V这样的元代理在多个操作系统和跨应用程序中的屏幕图像上的多模态模型的强大潜力被严重低估了，因为没有一种强大可靠的屏幕解析技术：1）可靠地识别用户界面内的可交互图标；2）理解和解析屏幕截图中的各种元素的意义，并准确地将预期操作与相应的屏幕区域关联。为了填补这些空白，该论文提出了OmniParser，将用户界面截图解析为结构化元素，这对于显著提高GPT-4V生成可以准确落在相应界面区域的操作的能力具有重要意义。该论文将使用流行的网页和图标描述数据集进行交互区域检测模型的训练和图标功能语义提取模型的训练。OmniParser显著提高了GPT-4V在ScreenSpot基准上的性能。在Mind2Web和AITW基准上，仅使用屏幕截图的OmniParser在不需要外部屏幕截图之外超过了GPT-4V的基准，需要额外信息。

地址：https://arxiv.org/pdf/2408.00203

29. 优化微分模型以进行轨迹预测和可控生成

标题：Optimizing Diffusion Models for Joint Trajectory Prediction and Controllable Generation

机构：德克萨斯大学、UC伯克利分校

相关领域：模型结构改进、轨迹预测、可控生成、微分模型优化

作者：Yixiao Wang, Chen Tang, Lingfeng Sun

分析：这篇论文介绍了一种优化微分模型在自动驾驶中进行轨迹预测和可控生成的方法。它克服了传统的微分模型在推理步骤中效率低下和计算需求高的难题。论文提出了两种优化技术：最优高斯微分（OGD）和估计清洁流族（ECM）指导，这些技术分别优化先验分布、反向微分过程和生成过程，以降低计算负担。实验在大型Argoverse 2数据集上进行了验证，表明了方法的有效性。

地址：https://arxiv.org/pdf/2408.00766

代码：https://yixiaowang7.github.io/OptTrajDiff_Page/

30. 面向开放权重的大模型的防篡改保障

标题：Tamper-Resistant Safeguards for Open-Weight LLMs

机构：哈佛大学、伊利诺伊大学、加利福尼亚大学

相关领域：模型结构改进，RLHF，模型评估

作者：Rishub Tamirisa, Bhrugu Bharathi, Long Phan

分析：本文针对大语言模型（LLM）的快速发展及其潜在恶意使用的担忧，尤其是开放权重LLM因模型权重易受篡改攻击而带来的问题，提出了TAR方法用于构建防篡改保护。通过大量评估和红队测试分析，证明了该方法在提高防篡改能力的同时，仍能保持模型的功能性，为保障开放权重LLM的安全性和可靠性提供了新途径。

地址：https://arxiv.org/pdf/2408.00761

31. Head360：在学习人脸360度全模型自由视角合成中毫无遮挡的时代

标题：Head360: Learning a Parametric 3D Full-Head for Free-View Synthesis in 360{\deg}

机构：南京大学、复旦大学、腾讯AI实验室

地址：https://arxiv.org/pdf/2408.00296

代码：https://nju-3dv.github.io/projects/Head360

32. SynesLM：利用语言模型和合成数据实现视听语音识别和翻译的统一方法

标题：SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data

机构：卡内基梅隆大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2408.00624

33. 文本引导的视频掩码自动编码器

标题：Text-Guided Video Masked Autoencoder

机构：Amazon

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2408.00759

34. 稀疏自编码器在密集文本嵌入中的解纠缠应用

标题：Disentangling Dense Embeddings with Sparse Autoencoders

机构：斯坦福大学、哥伦比亚大学、澳大利亚国立大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2408.00657

35. 自动设计你的光伏功率预测模型

标题：AutoPV: Automatically Design Your Photovoltaic Power Forecasting Model

机构：东京大学、北京大学、香港理工大学

相关领域：光功率预测

地址：https://arxiv.org/pdf/2408.00601

36. 漫画章节转录与角色命名研究

标题：Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

机构：牛津大学

相关领域：数据集构建、模型结构改进

地址：https://arxiv.org/pdf/2408.00298

代码：https://github.com/ragavsachdeva/magi

37. You Can't Ignore Either：统一结构与特征去噪的鲁棒图学习

标题：You Can't Ignore Either: Unifying Structure and Feature Denoising for Robust Graph Learning

机构：北京大学

地址：https://arxiv.org/pdf/2408.00700

代码：https://github.com/YoungTimmy/UGD

38. 缓解大型视觉语言模型的多语言幻觉

标题：Mitigating Multilingual Hallucination in Large Vision-Language Models

机构：复旦大学、北京大学、香港科技大学

地址：https://arxiv.org/pdf/2408.00550

代码：https://github.com/ssmisya/MHR

39. 基于上下文感知正则化的多实例学习模型在全幻灯片图像中的应用

标题：CARMIL: Context-Aware Regularization on Multiple Instance Learning models for Whole Slide Images

机构：牛津大学

相关领域：模型结构改进、模型评估

地址：https://arxiv.org/pdf/2408.00427

40. 画廊GPT:使用大型多模态模型分析绘画

标题：GalleryGPT: Analyzing Paintings with Large Multimodal Models

机构：香港理工大学、电子科技大学、新加坡国立大学

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2408.00491

代码：https://github.com/steven640pixel/GalleryGPT

41. 跨学科信息寻求

标题：DiscipLink: Unfolding Interdisciplinary Information Seeking Process via Human-AI Co-Exploration

机构：东南大学、南京大学、香港科技大学

相关领域：LLM

地址：https://arxiv.org/pdf/2408.00447

42. DriveArena：用于自动驾驶的实时场景导航驾驶代理

标题：DriveArena: A Closed-loop Generative Simulation Platform for Autonomous Driving

机构：浙江大学、上海交通大学、华东师范大学

地址：https://arxiv.org/pdf/2408.00415

代码：https://github.com/PJLab-ADG/DriveArena

43. 简单而高效的多场景近线推荐框架在天猫的推广

标题：Simple but Efficient: A Multi-Scenario Nearline Retrieval Framework for Recommendation on Taobao

机构：阿里巴巴集团

相关领域：大数据、人工智能

地址：https://arxiv.org/pdf/2408.00247

44. 关于生成式人工智能机器遗忘的局限性与前景

标题：On the Limitations and Prospects of Machine Unlearning for Generative AI

机构：清华大学、东南大学、帝国理工学院

相关领域：模型评估

地址：https://arxiv.org/pdf/2408.00376

45. 负注意力得分对齐纠正大模型中的负面偏见

标题：Correcting Negative Bias in Large Language Models through Negative Attention Score Alignment

机构：首尔国立大学

相关领域：模型评估、指令微调

地址：https://arxiv.org/pdf/2408.00137

代码：https://github.com/ysw1021/NASA

46. 多模态融合和一致性建模用于视频主题分割

标题：Multimodal Fusion and Coherence Modeling for Video Topic Segmentation

机构：阿里巴巴集团

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2408.00365

47. 大规模视频驱动的电子商务的视频检索

标题：Neural Graph Matching for Video Retrieval in Large-Scale Video-driven E-commerce

机构：京东、新加坡国立大学

地址：https://arxiv.org/pdf/2408.00346

48. 多模态参数高效微调

标题：Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Network

机构：吉林大学、上海AI实验室

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2408.00290

代码：https://github.com/yunche0/GA-Net/tree/master

49. 主动检索增强大型视觉语言模型缓解幻视的研究

标题：Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation

机构：浙江大学、厦门大学、华中科技大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2408.00555

50. 微频跳频扩频模态与加密技术

标题：Micro frequency hopping spread spectrum modulation and encryption technology

机构：东北大学

相关领域：通信技术

地址：https://arxiv.org/pdf/2408.00400

51. multiGradICON：多模态医学图像配准的基础模型

标题：multiGradICON: A Foundation Model for Multimodal Medical Image Registration

机构：波士顿大学、萨尔茨堡大学、北卡罗来纳大学

相关领域：多模态

地址：https://arxiv.org/pdf/2408.00221

代码：https://github.com/uncbiag/uniGradICON

52. QUITO:加速长上下文推理的查询引导上下文压缩方法

标题：QUITO: Accelerating Long-Context Reasoning through Query-Guided Context Compression

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2408.00274

代码：https://github.com/Wenshansilvia/attention_compressor

53. 基于大模型的自动化多模态机器学习框架AutoM3L

标题：AutoM3L: An Automated Multimodal Machine Learning Framework with Large Language Models

机构：约翰霍普金斯大学

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2408.00665

54. CREW：促进人类与人工智能团队协作研究的平台

标题：CREW: Facilitating Human-AI Teaming Research

机构：Duke University

地址：https://arxiv.org/pdf/2408.00170

55. Ponder: 实时预测科学工作流程任务内存需求

标题：Ponder: Online Prediction of Task Memory Requirements for Scientific Workflows

机构：苏格兰大学

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2408.00047

56. 高质量、ROS兼容的视频编码与解码，用于高清数据集

标题：High-Quality, ROS Compatible Video Encoding and Decoding for High-Definition Datasets

机构：上海科技大学

相关领域：模型评估、数据集构建

地址：https://arxiv.org/pdf/2408.00538

57. 解释性情感解码：人类与计算机视觉

标题：Explainable Emotion Decoding for Human and Computer Vision

机构：蒂尔堡大学

地址：https://arxiv.org/pdf/2408.00493

58. 基于一致性建模的少样本缺陷图像生成

标题：Few-shot Defect Image Generation based on Consistency Modeling

地址：https://arxiv.org/pdf/2408.00372

代码：https://github.com/FFDD-diffusion/DefectDiffu

59. 图像去雨

标题：Improving Image De-raining Using Reference-Guided Transformers

机构：伦敦玛丽女王大学

相关领域：图像去雨

地址：https://arxiv.org/pdf/2408.00258

60. 音频控制和风格转移的潜在扩散：结合文本到音乐生成

标题：Combining audio control and style transfer using latent diffusion

机构：索邦大学

地址：https://arxiv.org/pdf/2408.00196

61. 改善用外部知识库增强医学问题的检索增强生成

标题：Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up Questions

相关领域：大模型子研究领域：自然语言处理、医学领域的自然语言处理、信息检索增强生成、多轮查询

地址：https://arxiv.org/pdf/2408.00727

62. ShellFuzzer：基于语法的Shell解释器模糊测试技术

标题：ShellFuzzer: Grammar-based Fuzzing of Shell Interpreters

地址：https://arxiv.org/pdf/2408.00433

63. MPT-PAR：混合参数Transformer用于全景活动识别

标题：MPT-PAR:Mix-Parameters Transformer for Panoramic Activity Recognition

相关领域：模型结构改进、数据集构建、模型评估

地址：https://arxiv.org/pdf/2408.00420

64. CC-SAM: 带有跨特征注意力及上下文的SAM

标题：CC-SAM: SAM with Cross-feature Attention and Context for Ultrasound Image Segmentation

相关领域：模型结构改进、预训练、指令微调

地址：https://arxiv.org/pdf/2408.00181

65. Finch：基于提示引导的键值缓存压缩技术

标题：Finch: Prompt-guided Key-Value Cache Compression

相关领域：模型结构改进

地址：https://arxiv.org/pdf/2408.00167

66. WebApp1K：一种实用的代码生成基准测试，用于评估Web应用程序开发中的大模型性能

标题：WebApp1K: A Practical Code-Generation Benchmark for Web App Development

相关领域：模型评估

地址：https://arxiv.org/pdf/2408.00019

67. DisTrack: 一个用于在线社交网络中半自动误导信息追踪的工具

标题：DisTrack: a new Tool for Semi-automatic Misinformation Tracking in Online Social Networks

地址：https://arxiv.org/pdf/2408.00633

68. 大模型的上下文示例选择通过相似性搜索提高低资源机器翻译

标题：In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation

相关领域：模型结构改进、预训练、指令微调、奖励模型

地址：https://arxiv.org/pdf/2408.00397

代码：https://github.com/ArmelRandy/ICL-MT

69. 设计边缘设备上的高效LLM加速器

标题：Designing Efficient LLM Accelerators for Edge Devices

相关领域：模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

地址：https://arxiv.org/pdf/2408.00462

70. 语义视频运动迁移：使用运动-文本反演

标题：Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion

地址：https://arxiv.org/pdf/2408.00458

71. 深度伪造媒体鉴定：现状与未来挑战

标题：Deepfake Media Forensics: State of the Art and Challenges Ahead

相关领域：模型结构改进、检测

地址：https://arxiv.org/pdf/2408.00388

72. 超越Transformer——深度学习新理念的全面调查

标题：What comes after transformers? -- A selective survey connecting ideas in deep learning

相关领域：模型结构改进、预训练、模型评估

地址：https://arxiv.org/pdf/2408.00386

73. 分组FIR滤波和注意力消散机制增强的结构状态空间模型

标题：Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms

相关领域：结构改进

地址：https://arxiv.org/pdf/2408.00244

74. 基于人类情感和生理记录的新型基础模型研究

标题：A New Type of Foundation Model Based on Recordings of People's Emotions and Physiology

相关领域：模型结构改进、多模态

地址：https://arxiv.org/pdf/2408.00030

75. 开发者能否有效提示大模型生成代码文档？一项对照实验

标题：Can Developers Prompt? A Controlled Experiment for Code Documentation Generation

相关领域：模型评估

地址：https://arxiv.org/pdf/2408.00686

76. 神经网络中分块操作的研究

标题：Block-Operations: Using Modular Routing to Improve Compositional Generalization

相关领域：模型结构改进、预训练

地址：https://arxiv.org/pdf/2408.00508

77. MQTT环境中大模型的DoS和暴力攻击检测方法

标题：Enhance the Detection of DoS and Brute Force Attacks within the MQTT Environment through Feature Engineering and Employing an Ensemble Technique

地址：https://arxiv.org/pdf/2408.00480

看论文是一天，不看论文也是一天，为什么不每天充实下自己呢^_^^_^

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业