AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Less for More:通过自动化自我整理训练语料库增强偏好学习!基于提示工程的LLM路径规划是否可行?
发布日期:2024-08-27 07:23:26 浏览次数: 1641


前言:平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、多模态的,喜欢的小伙伴赶紧去阅读相关论文吧。


1. Less for More:通过自动化自我整理训练语料库增强偏好学习

  标题:Less for More: Enhancing Preference Learning in Generative Language Models with Automated Self-Curation of Training Corpora

  相关领域:自然语言处理

  作者:JoonHo Lee,  JuYoun Son,  Juree Seok

  分析:语言的歧义性对更强的语言模型的开发带来挑战,尤其是在偏好学习中,因为注释方之间的变异导致一致使用的数据集和模型对齐不一致。解决这个问题,该论文引入了一个自我整理方法,通过利用在这些数据集上直接训练的代理模型来预处理注释数据集。该论文的方法通过自动检测并从数据集中删除歧义注释来增强偏好学习。提出的做法通过广泛的实验验证,在各种遵循命令的任务性能有了显著的改善。该论文可以直接而且可靠地克服注释不一致的问题,这是向更高级的偏好学习技术发展的初始步骤。

  地址:https://arxiv.org/pdf/2408.12799


2. 基于提示工程的LLM路径规划是否可行?

  标题:Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning

  相关领域:模型结构改进、预训练、指令微调、奖励模型、RLHF、模型评估、数据集构建、评估指标、模型蒸馏、多模态

  作者:Hourui Deng,  Hongjie Zhang,  Jie Ou

  分析:该论文主要探讨了大型语言模型在空间推理方面的基础问题,即在简单的迷宫环境中,LLMs仍然面临长期路径规划的挑战。这主要是由于LLMs的空间幻觉和长期推理中的上下文不一致性幻觉影响。为解决这一挑战,该研究提出了一种创新的方法,即“空间到关系转换和课程Q学习”。该方法将空间提示转换为实体关系和路径,代表实体关系链。这种方法充分利用了LLMs在序列思维方面的可能性。因此,该论文设计了一个基于Q学习的路径规划算法来缓解LLMs的上下文不一致性幻觉,从而提高其推理能力。通过使用状态-动作的Q值作为提示的辅助信息,该论文纠正了LLMs的幻觉,引导LLMs学习最优路径。最后,该论文提出了一种基于LLMs的反向课程学习技术,以进一步缓解上下文不一致性幻觉。通过降低任务难度并利用成功经验积累,LLMs可以快速应对更复杂的任务。该研究在百度自主研发的LLM ERNIE-Bot 4.0上进行了全面实验。结果表明,该论文的S2RCQL相比于先进的提示工程,成功率和最优性提高了23%至40%。

  地址:https://arxiv.org/pdf/2408.13184


3. 质与量:在调整大模型用于资源匮乏翻译中,数据规模与多样性的作用

  标题:Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation

  机构:爱丁堡大学

  相关领域:预训练、低资源学习、翻译

  作者:Vivek Iyer,  Bhavitvya Malik,  Pavel Stepachev

  分析:本文探讨了大型语言模型(LLMs)在机器翻译(MT)中用于资源匮乏翻译领域的事态,其性能明显低于神经机器翻译(NMT)模型。研究重新审视了两个关键因素的作用:一、平行数据的重要性及其应用;二、监督微调(SFT)期间的数据多样性。研究发现,对于LLM-MT在资源匮乏情况下,前者对LLM的预训练和SFT都至关重要,而后者可能导致干扰而非迁移。通过在北美原住民语言和东北印度多种语言上进行的实验,证实了这两点发现的一致性,题为本文理论的一般可扩散性。本研究相信将对大规模多语言资源匮乏语言服务的LLM-MT模式发展具有重要意义。

  地址:https://arxiv.org/pdf/2408.12780


4. Open Llama2:立陶宛语言的大模型

  标题:Open Llama2 Model for the Lithuanian Language

  相关领域:模型结构改进、预训练、数据集构建

  作者:Artūras Nakvosas,  Povilas Daniušis,  Vytas Mulevičius

  分析:本文介绍首个公开的Llama2大型语言模型(LLMs),针对立陶宛语言进行了开发,并包含了一个问答(Q&A)的数据集和翻译后的流行LLM基准。文章回顾了开源区域LLMs的现状,对提出的LLMs进行了详细阐述和训练过程说明。此外,通过对提出LLMs和其他现代开源LLMs的困惑性进行实证评价,以及在语言理解任务中的基准测试,揭示了用于这些基准模型的高质量预训练数据集的重要性。这些描述的LLM的完整实现可通过提供的开源存储库(commit)访问。

  地址:https://arxiv.org/pdf/2408.12963

  代码:https://huggingface.co/neurotechnology


5. EasyControl:将控制网转移至视频扩散,实现可控生成与插值

  标题:EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation

  机构:AI2、中山大学、MBZUAI大学

  相关领域:模型结构改进

  作者:Cong Wang,  Jiaxi Gu,  Panwen Hu

  分析:本文提出了一个名为'易控制'(EasyControl)的通用框架,探讨了视频生成领域中信息基础上的文本控制难题。易控制框架通过条件适配器传播和注入条件特征,实现用户仅需一个条件映射即可控制视频生成。此框架支持多种输入,如原始像素、深度信息、HED等,与现有的预训练视频扩散模型结合,以较低的实践成本实现各种条件的集成。实验结果表明,与VideoComposer等作品相比,'易控制'方法在UCF101和MSR-VTT等公共数据集上明显提高了生成的准确性,并在符号到视频生成任务中分别提高了152.0 FVD和19.9 IS的值。

  地址:https://arxiv.org/pdf/2408.13005


6. DOMAINEVAL: 一个自构造的多领域代码生成基准

  标题:DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation

  机构:香港科技大学、中国科学院大学

  相关领域:代码生成、模型评估、数据集构建

  作者:Qiming Zhu,  Jialun Cao,  Yaojie Lu

  分析:这篇论文提出了一种名为DOMAINEVAL的自构造多领域代码生成基准,用以全面评估大语言模型的代码能力。它研究了12个代表性模型在六个流行领域的表现,发现了模型在计算任务上的普遍擅长,而在密码学和系统编程任务上的不足。研究还发现,生成的样本越多,模型的整体表现可能提高,但域偏置可能增加。

  地址:https://arxiv.org/pdf/2408.13204

  代码:https://domaineval.github.io/


7. CustomCrafter:通过保持运动和概念组合能力的视频生成

  标题:CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

  机构:浙江大学、腾讯AI实验室

  相关领域:视频生成、多模态模型、概念组合、运动修复

  作者:Tao Wu,  Yong Zhang,  Xintao Wang

  分析:本论文提出了一种名为CustomCrafter的新框架,用于自定义视频生成,解决了现有方法在融合概念和保留视频动态能力方面的挑战。通过设计插件式模块和动态加权视频抽样策略,它既保持了视频模型的运动生成能力,又能适应新主体的外观细节,且无需额外视频或重调。实验表明方法优越于先前方法。

  地址:https://arxiv.org/pdf/2408.13239


8. SQL-GEN:通过合成数据和模型融合缩小文本到SQL的方言鸿沟

  标题:SQL-GEN: Bridging the Dialect Gap for Text-to-SQL Via Synthetic Data And Model Merging

  机构:Google

  相关领域:数据集构建、模型结构改进

  作者:Mohammadreza Pourreza,  Ruoxi Sun,  Hailong Li

  分析:这篇论文针对文本到SQL转换系统的方言适应性问题,提出了一种新的生成高质量方言特定合成数据的SQL-GEN框架。该框架以方言特定教程为指导生成合成数据,能有效创建多种方言的训练数据集。论文还介绍了一种新型混合专家(MoE)初始化方法,通过合并自注意力层并用方言特定关键词初始化门,将方言特定模型集成到统一系统中,提高了不同SQL方言的性能。该论文在解决SQL方言的适应性问题上具有创新性,对于推动自然语言处理领域的发展具有重要意义。

  地址:https://arxiv.org/pdf/2408.12733


9. LLM-PBE: 评估大模型的数据隐私问题

  标题:LLM-PBE: Assessing Data Privacy in Large Language Models

  机构:伊利诺伊大学、UC伯克利分校、新加坡国立大学

  相关领域:模型评估

  作者:Qinbin Li,  Junyuan Hong,  Chulin Xie

  分析:这篇论文主要介绍了评估大型语言模型(LLMs)数据隐私风险的工具套件LLM-PBE,它能够分析从LLMs整个生命周期中的隐私问题,涵盖多种攻击和防御策略,以及不同的数据类型和度量。通过实验多个LLM模型,LLM-PBE深入探讨了数据隐私的多种因素,如模型大小、数据特征和时间的演变。论文不仅加深了对LLM隐私问题的理解,也为未来研究提供了参考,并在https://llm-pbe.github.io/上提供了资源和技术报告,供学术和实践领域的进一步发展。

  地址:https://arxiv.org/pdf/2408.12787

  代码:https://llm-pbe.github.io/,


10. 多模态大模型语义对齐研究

  标题:Semantic Alignment for Multimodal Large Language Models

  机构:浙江大学、阿里巴巴集团、新加坡国立大学

  相关领域:模型结构改进、预训练、指令微调、奖励模型

  作者:Tao Wu,  Mengze Li,  Jingyuan Chen

  分析:论文主要研究了多模态大型语言模型(MLLM)在多图像跨模态指令任务中的应用,尤其是对于相似图片的描述(如更改描述)。现有的MLLM通常采用两步流程:首先独立地为每个输入图片提取视觉token,然后将这些视觉token与LLM在文本特征空间中进行对齐。然而,独立提取每个图片的视觉token可能导致第一个步骤中不同图片的语义被优先考虑,导致后续LLM分析中图片之间的链接信息丢失。特别是当图片之间存在显著差异(如视觉故事讲述)时,这个问题会更严重。本文提出了多模态大型语言模型的语义对齐方法(SAM),通过在视觉token提取过程中引入双向语义指导,以增强对齐不同图片之间的语义,并在将其输入到LLM之前保存图片之间的链接信息。作为测试平台,该论文提出了一个包含69K样本的大型多模态指令集,MmLINK,与现有的MLLM精细调优数据集不同,MmLINK数据集包含多样化的图片和多模态指令。在包括群组描述和故事讲述在内的任务中,SAM模型在CIDEr分数上的表现超越了当前最好的方法,在组描述任务上提高了37%,在讲故事任务上提高了22%。项目页面:https://mccartney01.github.io/SAM。

  地址:https://arxiv.org/pdf/2408.12867

  代码:https://mccartney01.github.io/SAM


11. MultiMed:大规模多模态和多任务医疗理解

   标题:MultiMed: Massively Multimodal and Multitask Medical Understanding

   机构:麻省理工学院、卡内基梅隆大学

   相关领域:模型结构改进、预训练、指令微调、评估指标

   作者:Shentong Mo,  Paul Pu Liang

   分析:这篇论文主要讲述了生物医学数据包含了多种模态信息,如电子健康记录、医学影像、数字病理学、基因测序、可穿戴传感器等。目前的生物医学AI研究通常只针对单一的医疗模态和任务,这限制了能够综合多个异构生物医学传感器的信息的综合性工具的开发。为了解决这个问题,作者们提出了MultiMed这个评估和推动在大规模医疗模态和任务上学习的大型基准。MultiMed包含了来自多种医疗模态的数据,如医学报告、病理学、基因组学和蛋白质数据,共涉及了11个挑战性任务,如疾病预后、蛋白质结构预测和医疗问题回答。通过MultiMed,研究者可以评估最新的单模态、多模态和多任务模型,分析在不同模态和任务上训练大型医疗模型的优势,并研究在真实世界中模型对噪声数据和分布偏差的鲁棒性,以及探索新的模态组合以提高预测精度。MultiMed将公开可用并定期更新,并且欢迎社区的贡献。

   地址:https://arxiv.org/pdf/2408.12682


12. O-Mamba: O形状状态空间模型的水下图像增强

   标题:O-Mamba: O-shape State-Space Model for Underwater Image Enhancement

   机构:南京大学

   相关领域:水下图像处理,状态空间模型,深度网络,UIE

   作者:Chenyu Dong,  Chen Zhao,  Weiling Cai

   分析:O-Mamba论文提出了一种针对水下图像增强的新型框架,解决了因光波长差异导致的跨颜色通道依赖问题。它通过O形双分支网络分别处理空间和跨通道信息,并通过Multi-scale Bi-mutual Promotion Module实现信息的有效交互和多尺度信息的充分利用。实验表明,该方法达到最先进的性能,提供了优秀的UIE解决方案。

   地址:https://arxiv.org/pdf/2408.12816

   代码:https://github.com/chenydong/O-Mamba


13. NanoFlow: 朝向最优大模型服务通过处理能力

   标题:NanoFlow: Towards Optimal Large Language Model Serving Throughput

   机构:清华大学、华盛顿大学、密歇根大学

   相关领域:大语言模型服务优化

   作者:Kan Zhu,  Yilong Zhao,  Liangyu Zhao

   分析:这篇论文提出了一种名为NanoFlow的服务框架,旨在通过在单个设备上重叠资源的利用,如计算、内存和网络,来提升大型语言模型的服务处理能力。NanoFlow通过将请求拆分为纳米批次,以及在执行单元调度下使用操作级的流水线技术,实现了操作级别的并行处理,从而提高了设备的使用效率和性能。

   地址:https://arxiv.org/pdf/2408.12757


14. 扩散模型如何学习分解和组合

   标题:How Diffusion Models Learn to Factorize and Compose

   机构:麻省理工学院

   相关领域:模型结构改进

   作者:Qiyao Liang,  Ziming Liu,  Mitchell Ostrow

   分析:这篇论文探讨了扩散模型在生成图像时的内部机制,特别是它们如何学习和组合那些训练集中不太可能同时出现的元素。通过一系列实验,研究人员发现扩散模型能够学习分解但不完全连续的特征表示,这些表示有助于模型进行特征组合,但在给定特征的未知值插值方面存在局限性。此外,模型能够通过少量组合示例实现组合性,并且与物理中的渗透理论相连,为研究扩散模型如何捕获数据中的组合结构提供了见解。

   地址:https://arxiv.org/pdf/2408.13256


15. 文本转图像的多轮引导生成

   标题:What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance

   机构:早稻田大学

   相关领域:文本转图像、模型优化

   作者:Yilun Liu,  Minggui He,  Feiyu Yao

   分析:这篇论文主要介绍了一种新的文本转图像的方法,名为DialPrompt。该方法通过对话的方式,让用户在每一轮中表达对可能优化的维度的喜好,然后根据用户的反馈生成最终的文本提示。这种方法强调了用户的中心地位,可以提高生成图像的质量和可解释性,同时增强用户的交互参与。实验结果表明,DialPrompt在图像质量和用户满意度上均优于现有的方法。

   地址:https://arxiv.org/pdf/2408.12910


16. 自适应回溯法加速优化

   标题:Adaptive Backtracking For Faster Optimization

   机构:东北大学、麻省理工学院

   作者:Joao V. Cavalcanti,  Laurent Lessard,  Ashia C. Wilson

   分析:自适应回溯法是数值优化的基础,其基本思想是通过一个常数因子调整算法的步长,直到满足某种选择的标准(如Armijo、Goldstein、下降律)。本文提出了一种新的步长调整方法,用一个考虑所选标准被违反程度的常数因子代替常规回溯中的常数因子,无需额外的计算负担。对于凸优化问题,该论文证明了自适应回溯法所需的调整次数比常规回溯少,且对于两种流行的线搜索准则(Armijo条件和下降律)都具有相同的效果。对于非凸光滑优化问题,该论文还证明了自适应回溯法也具有与常规回溯相同的保证。最后,该论文在15个实际数据集上进行了一系列实验,结果都证实了自适应回溯法通常能显著加快优化过程。

   地址:https://arxiv.org/pdf/2408.13150


17. CathAction:大血管介入操作理解的数据集

   标题:CathAction: A Benchmark for Endovascular Intervention Understanding

   机构:武汉大学、帝国理工学院、埃克塞特大学

   作者:Baoru Huang,  Tuan Vo,  Chayun Kongtongvattana

   分析:这篇论文介绍了一个新的大型数据集CathAction,该数据集包含约50万个标注的血管介入操作帧和2.5万个用于导管和支架分割的地面真实掩码。作者对近期的相关研究进行了基准测试,并讨论了与传统计算机视觉任务相比的血管介入意图的挑战以及公开的研究问题。他们希望CathAction能促进开发可应用于实际应用的血管介入理解方法。

   地址:https://arxiv.org/pdf/2408.13126

   代码:https://airvlab.github.io/cathdata/


18. 基于生成字幕的视频摘要学习

   标题:Cap2Sum: Learning to Summarize Videos by Generating Captions

   机构:阿里巴巴集团

   相关领域:模型结构改进、预训练、多模态

   作者:Cairong Zhao,  Chutian Wang,  Zifan Song

   分析:这篇论文提出了一种基于生成字幕的视频摘要学习方法。通过使用密集视频字幕作为监督信号,训练视频摘要模型。该模型可以在大规模数据集上训练,以提高性能和泛化能力。同时,论文引入了一种名为CLIP的强视觉语言模型来增强学习重要对象的能力,这些对象可能会被字幕忽略。论文还提出了两个新的数据集,即TVSum-Caption和SumMe-Caption,这两个数据集是从两个常见的视频摘要数据集中衍生出来的,并公开发布。实验结果表明,该方法在性能和泛化能力方面取得了显著改进。

   地址:https://arxiv.org/pdf/2408.12800


19. SonarWatch:基于超声和动作的智能手表外场感知技术

   标题:SonarWatch: Field sensing technique for smartwatches based on ultrasound and motion

   机构:清华大学

   作者:Yingtian Shi,  Chun Yu,  Xuyang Lu

   分析:这篇论文提出了一种新型感知技术SonarWatch,该技术利用智能手表收发器两侧产生的声场来检测附近物体的存在和形状,从而实现了一系列手势交互和自然行为感知。该技术结合了IMU和声场,设计了一种算法来识别动作并优化功耗。在多种噪声环境下测试表明,SonarWatch的总体准确率为93.7%,功耗接近生理传感器。SonarWatch利用现有内置传感器实现上述功能,具有坚实的实用价值。

   地址:https://arxiv.org/pdf/2408.12689


20. Zeoformer:用于OSDA-Zeolite亲和力预测的大模型

   标题:Zeoformer: Coarse-Grained Periodic Graph Transformer for OSDA-Zeolite Affinity Prediction

   机构:复旦大学、华东师范大学

   相关领域:模型结构改进

   作者:Xiangxiang Shen,  Zheng Wan,  Lingfeng Wen

   分析:这篇论文提出了一种名为Zeoformer的新方法,可以有效表示粗糙晶格周期性和精细局部变化。Zeoformer通过重建每个原子的单位胞并在其中编码配对距离来重构原子中心,并编码配对距离有效地表示原子间的整体结构及其差异。Zeoformer模型在大规模的OSDA-Zeolite配对数据集和晶体材料数据集上具有最佳性能。

   地址:https://arxiv.org/pdf/2408.12984


21. 基于MobileNetV2的肺部疾病诊断

   标题:Deep Learning for Lung Disease Classification Using Transfer Learning and a Customized CNN Architecture with Attention

   机构:伊利诺伊大学、亚利桑那州立大学

   作者:Xiaoyi Liu,  Zhou Yu,  Lianghao Tan

   分析:这篇论文主要研究了利用预训练模型MobileNetV2进行肺部X光图像分类的问题。作者首先测试了五种预训练模型(SqueezeNet, VGG11, ResNet18, DenseNet, MobileNetV2)在肺部X光图像数据集上的准确率,然后将MobileNetV2作为基础模型进行进一步分析和优化。最终,作者发明了一个名为MobileNet-Lung的模型,该模型结合了MobileNetV2的基本架构、微调以及特征层内部的注意力机制,从而实现了高达93.3%的分类准确率。这明显优于所有五种预训练模型。

   地址:https://arxiv.org/pdf/2408.13180


22. 多层次Transformers梯度近似线性时间计算

   标题:Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time

   机构:香港大学、清华大学、威斯康星大学

   相关领域:模型结构改进、预训练

   作者:Yingyu Liang,  Zhizhou Sha,  Zhenmei Shi

   分析:这篇论文主要介绍了一种新的快速计算多层次Transformer模型梯度的方法,将传统的二次时间复杂度降低到线性时间复杂度。该方法适用于任何损失函数,并且在包含许多实用子模块的大型语言模型中也能保持有界的近似误差。通过提高大型语言模型梯度计算的效率,可以更有效地训练和部署基于这些理论结果的长上下文语言模型。

   地址:https://arxiv.org/pdf/2408.13233


23. 图像分割在基础模型时代的发展:综述

   标题:Image Segmentation in Foundation Model Era: A Survey

   机构:浙江大学、上海交通大学、苏黎世联邦理工学院

   作者:Tianfei Zhou,  Fei Zhang,  Boyu Chang

   分析:图像分割是计算机视觉中的一个长期挑战,经过几十年的研究,已经形成了一些开创性的算法,如N-Cut、FCN和MaskFormer。随着基础模型(FM)的的出现,当代的分割方法要么通过适应FM(如CLIP、Stable Diffusion和DINO)进行图像分割,要么开发专用的分割基础模型(如SAM)。这些方法不仅提供了优于以往的分割性能,而且在深度学习的背景下引入了以前未曾见过的新分割能力。然而,当前的图像分割研究缺乏对这些进步的具体分析,包括其特有的特性、挑战和解决方案。本综述旨在填补这一空白,通过对基于FM的图像分割的前沿研究进行深入审查,提供对两种主要研究方向——通用图像分割(即语义分割、实例分割和全景分割)和可提示的图像分割(即交互式分割、参考分割和少数样本分割)的详细考察。此外,该论文还探讨了从FM(如CLIP、Stable Diffusion和DINO)中涌现出的分割知识。该论文概述了超过300种分割方法的全面概述,以概括当前研究工作的广度。然后,该论文讨论了一些开放的问题和未来的研究方向。该论文希望这个新鲜、全面和系统的综述将推动先进图像分割系统的发展。

   地址:https://arxiv.org/pdf/2408.12957


24. 多模态学习在医疗保健中的通用智能实现?

   标题:Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey

   机构:北京邮电大学、西北工业大学、西安交通大学

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   作者:Qika Lin,  Yifan Zhu,  Xin Mei

   分析:这篇论文主要对多模态学习在医疗保健领域的应用进行了深入研究。它首先详细地介绍了当前多模态学习的研究现状,包括数据集、任务导向的方法和通用基础模型等方面的进展。然后,它提出了一个关键问题:多模态学习是否已经实现了医疗保健的通用智能?为了解答这个问题,作者从五个方面进行了深入探讨:数据和技术的影响、性能评估、伦理问题等。最后,作者指出了未来研究的十个可能方向。

   地址:https://arxiv.org/pdf/2408.12880


25. VCEMO: 中文语音print情绪识别 multimodal模型

   标题:VCEMO: Multi-Modal Emotion Recognition for Chinese Voiceprints

   机构:上海交通大学

   相关领域:数据集构建、模型结构改进、模型评估、情感识别

   作者:Jinghua Tang,  Liyun Zhang,  Yu Lu

   分析:这篇论文主要介绍了VCEMO 数据集以及基于Co-Attention结构的多元感测模型。针对中文语言的情感识别,作者创建了包含100名用户和7747个文本样本的VCEMO数据集,用于训练情感识别模型。模型的设计利用同关注觉学习调节,解决了情感表现不均匀的问题。在VCEMO和IEMOCAP数据集的实验中,新提出的模型展现了相较于现有模型的明显提升。作者还计划发布代码和数据集供研究使用。

   地址:https://arxiv.org/pdf/2408.13019


26. 基于Transformer的长期预训练用于时空动作检测

   标题:Long-Term Pre-training for Temporal Action Detection with Transformers

   相关领域:模型结构改进、预训练、数据集构建

   作者:Jihwan Kim,  Miso Lee,  Jae-Pil Heo

   分析:该论文主要探讨了时空动作检测(TAD)中的数据稀缺性问题,针对Transformer模型在这一领域的需求,提出了一个长期预训练策略LTP。LTP旨在通过类别合成和长期前设任务来解决注意力崩溃和不平衡性能问题,从而有效缓解数据稀缺对TAD模型性能的影响。实验结果表明,在ActivityNet-v1.3和THUMOS14数据集上,基于LTP的DETR模型性能显著优于现有方法。

   地址:https://arxiv.org/pdf/2408.13152


27. Tamgram: 一种用于大规模协议建模的前端

   标题:Tamgram: A Frontend for Large-scale Protocol Modeling in Tamarin

   机构:澳大利亚国立大学

   相关领域:模型结构改进

   作者:Di Long Li,  Jim de Groot,  Alwen Tiu

   分析:这项工作引入了名为Tamgram的高级协议建模语言,它具有可以翻译到Tamarin多集重写语义的正式语义。Tamgram支持直接编写Tamarin代码,同时也通过各种高级构造使得大型规范的编写和维护更加容易,特别是在处理协议中的状态时。论文证明了Tamgram与Tamarin的轨迹语义的一致性,讨论了不同的转换策略,并确定了一种最有效的策略,它产生的性能与手动编写的Tamarin规范相当。最后,通过一系列小型案例研究和一个大案例研究展示了Tamgram的实际应用。

   地址:https://arxiv.org/pdf/2408.13138


28. E-code:通过预训练模型和专家编码器组掌握高效的代码生成技术

   标题:E-code: Mastering Efficient Code Generation through Pretrained Models and Expert Encoder Group

   机构:山东大学

   相关领域:模型结构改进、预训练

   作者:Yue Pan,  Chen Lyu,  Zhenyu Yang

   分析:研究解决了软件性能优化领域的挑战,提出了E-code模型,通过使用专家编码器组来提高代码效率,并在性能上显著优于其他模型。

   地址:https://arxiv.org/pdf/2408.12948


29. 内向适应者架构强化冻冻结的大模型具备多模态能力

   标题:IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities

   相关领域:模型结构改进、多模态

   作者:Bin Wang,  Chunyu Xie,  Dawei Leng

   分析:本文针对多模态大型语言模型(MLLM)领域,提出了一种名为Inner-Adaptor Architecture(IAA)的结构探索策略,旨在增强冻冻的大型语言模型在视觉理解和文本交互方面的能力,同时保留其自然语言处理(NLP)能力。通过在模型内部融入多模态适应器,使得模型即使被冻结也能够学习到多模态任务的能力。实验结果表明,该架构在多模态任务和视觉定位方面的表现超过了现有最先进的方法。

   地址:https://arxiv.org/pdf/2408.12902

   代码:https://github.com/360CVGroup/Inner-Adaptor-Architecture


30. SpeechPrompt:使用预训练语言模型进行语音处理任务的提示

   标题:SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks

   相关领域:预训练

   作者:Kai-Wei Chang,  Haibin Wu,  Yu-Kai Wang

   分析:论文介绍了利用预训练语言模型进行语音处理任务的新方法。该方法通过提示使得语言模型能够在新任务上进行低成本适应,无需大量训练或参数调整,从而提高了存储和计算效率。这种方法不仅可以用于语言任务,还可以用于语音处理,尤其是将语音转换为可编程单元。这种方法可以将语音处理任务转化为语音到单元的生成任务,从而在一个统一的框架下整合各种任务,如语音分类、序列生成和语音生成。实验表明,这种方法在性能上与基于自监督学习的强泛化方法相当,并且在大模型时代显示出巨大潜力。

   地址:https://arxiv.org/pdf/2408.13040


31. 基于在线子空间下降的内存高效大模型训练

   标题:Memory-Efficient LLM Training with Online Subspace Descent

   机构:德克萨斯州奥斯汀大学

   相关领域:模型结构改进、预训练

   地址:https://arxiv.org/pdf/2408.12857


32. 生物医学图像和视频的SAM2潜力释放:综述

   标题:Unleashing the Potential of SAM2 for Biomedical Images and Videos: A Survey

   相关领域:生物医学图像和视频

   地址:https://arxiv.org/pdf/2408.12889

   代码:https://github.com/YichiZhang98/SAM4MIS


33. WildFusion:融合校准相似度进行个体动物识别

   标题:WildFusion: Individual Animal Identification with Calibrated Similarity Fusion

   相关领域:模型结构改进

   地址:https://arxiv.org/pdf/2408.12934


34. Open-Set Deepfake Detection:一种具有伪造风格混合的参数高效自适应方法

   标题:Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture

   相关领域:模型结构改进、预训练、模型评估

   地址:https://arxiv.org/pdf/2408.12791


35. LayerPano3D:面向高度沉浸式场景生成的分层3D全景

   标题:LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation

   相关领域:模型结构改进、指令微调

   地址:https://arxiv.org/pdf/2408.13252


36. Data Exposure from LLM Apps:对OpenAI的GPTs的深入调查

   标题:Data Exposure from LLM Apps: An In-depth Investigation of OpenAI's GPTs

   相关领域:模型评估、数据集构建、评估指标

   地址:https://arxiv.org/pdf/2408.13247


37. CRUXEval-X:多语言代码推理、理解和执行基准

   标题:CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution

   相关领域:模型评估、数据集构建、评估指标

   地址:https://arxiv.org/pdf/2408.13001


38. 模块化提示组合优化多任务提示调参以提升小样本迁移学习的性能

   标题:Enhancing Few-Shot Transfer Learning with Optimized Multi-Task Prompt Tuning through Modular Prompt Composition

   相关领域:模型结构改进、预训练、指令微调、多模态

   地址:https://arxiv.org/pdf/2408.13227


39. Say No to Freeloader:保护你深模型的知识产权

   标题:Say No to Freeloader: Protecting Intellectual Property of Your Deep Model

   相关领域:模型结构改进、预训练、指令微调、奖励模型

   地址:https://arxiv.org/pdf/2408.13161


40. 知识增强大模型

   标题:Internal and External Knowledge Interactive Refinement Framework for Knowledge-Intensive Question Answering

   相关领域:预训练、知识增强、大模型

   地址:https://arxiv.org/pdf/2408.12979


41. 探索肺癌分级的机器学习模型:一种比较的机器学习方法

   标题:Exploring Machine Learning Models for Lung Cancer Level Classification: A comparative ML Approach

   地址:https://arxiv.org/pdf/2408.12838


42. 硬盘设计中的材料表征——使用大模型

   标题:Segment Anything Model for Grain Characterization in Hard Drive Design

   地址:https://arxiv.org/pdf/2408.12732


你觉得今天分享的论文哪篇at到了你?欢迎留言分享哦。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询