bluearXiv-ai 论文精选

2026-03-02

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

cs.LG
72
cs.AI
30
cs.IR
23
cs.CL
34
cs.DS
5
others
108
总计
272

⭐ 精选论文 ↑ 回顶部

今日无精选论文

📄 所有论文 ↑ 回顶部

cs.LG

Nazanin Mohammadi Sepahvand et al.
cs.LG
本文提出了一种名为REPO的新方法, 通过基于表示擦除的偏好优化来降低大型语言模型的有害输出. 该方法在token级别上强制有害与无害表示的收敛, 从而在保持模型通用能力的同时, 实现了比现有方法更强的鲁棒性.
Zezheng Wu et al.
cs.LG
本文提出了一种用于生成式推荐系统的高效遗忘框架U-CAN. 它通过对比激活并应用自适应的软衰减来选择性降低低秩适配器中的高风险参数, 在实现隐私遗忘的同时保持了模型的效用.
Michael Poppel et al.
cs.LG cs.AI cs.ET quant-ph
本文研究了量子机器学习中可训练频率编码方法的局限性. 实验表明, 频率参数的梯度优化范围有限, 导致其难以达到目标值. 作者提出了一种基于三元编码的网格初始化方法, 以指数级减少所需门数量并确保频率可达, 在合成和真实数据集上验证了其有效性.
Hanning Guo et al.
cs.LG cs.AI eess.SP q-bio.NC
本文提出了一个名为Brain-OF的通用脑功能基础模型,能够统一处理fMRI、EEG和MEG等多种模态的神经信号。该模型通过创新的采样器和预训练目标,在多模态数据集上展现了良好的下游任务性能。
Shu Liu et al.
cs.LG cs.CL cs.NE
本文提出了EvoX, 一种自适应进化方法, 它联合优化候选解和用于生成这些解的搜索策略. 该方法在近200个现实世界优化任务中, 表现优于包括AlphaEvolve在内的现有AI驱动的进化方法.
Alejandro Rodriguez Dominguez
cs.LG cs.AI
本文从信息论角度分析了人类监督在机器学习中的局限性, 提出了"Human-Bounded Intelligence"理论. 该理论指出, 当人类监督信道不足以完全表达潜在评估目标时, 会引入一个严格为正的额外风险下限, 解释了为何仅靠模型缩放无法消除某些持续性错误.
Eric V. Strobl
cs.LG q-bio.QM stat.ML
本文提出了一种名为REFINE的两阶段方法, 将非线性处理限制在基线预处理模块中, 然后学习从稳定化的基线项到未来严重程度的线性映射. 该方法在精神病学和非精神病学的纵向预测任务中, 在保持全局可解释性的同时, 性能优于其他可解释方法.
Yangyi Li, Mengdi Huai
cs.LG
本文提出了一种不确定性感知的概念瓶颈模型方法, 利用大型语言模型(LLMs)生成概念标注, 并量化其不确定性. 该方法将量化的概念不确定性整合到模型训练中, 以处理不同可靠性的标注, 并在真实数据集上进行了验证.
Anik Pramanik et al.
cs.LG cs.AI cs.DC
本文提出了一种名为FedDAG的聚类联邦学习框架,旨在解决客户端数据异构性问题。它通过整合数据和梯度信息来衡量相似性,并采用双编码器架构促进跨集群的知识迁移。
Diana Shamsutdinova et al.
cs.LG stat.AP stat.ME
本文回顾了临床预测模型开发中样本量计算的方法, 并提出了一个结合学习曲线、高斯过程优化和保证原则的模拟框架. 作者还发布了名为pmsims的R软件包来实现该方法, 为不同模型和性能指标提供了灵活的样本量估算工具.
Yicen Li et al.
cs.LG cs.CE stat.CO stat.ML
本文提出了一种基于神经算子(neural operator)的聚类方法, 用于处理函数型数据. 该方法通过预训练的编码器和可训练的轻量级头部, 能够从无标签的常微分方程轨迹数据中发现潜在的动力学结构.
Martin Černý et al.
cs.LG
本文研究了在 subadditive set function 学习过程中, 通过主动查询来最小化 additive error 的问题. 作者分析了不同函数类在有缺失值时的最小与最大补全及其距离, 并开发了在离线与在线场景下通过披露额外子集值来最小化该距离的方法.
Aishwarya Sarkar et al.
cs.LG cs.AI cs.DC cs.MA cs.PF
本文提出了一种名为Rudder的软件模块, 它利用LLM agents的in-context learning能力来动态指导分布式GNN训练中的数据预取. 该方法被集成到AWS DistDGL框架中, 旨在减少因不规则通信造成的训练停滞, 并在多种配置下显著提升了训练性能.
Adhyyan Narang et al.
cs.LG cs.MA
本文研究了在多平台竞争环境下机器学习模型的动态学习问题, 重点关注用户选择行为如何导致模型陷入"过度专业化陷阱". 作者提出了一种基于知识蒸馏思想的"对等模型探测"算法, 并通过半合成实验验证了其有效性.
Asiri Wijesinghe et al.
cs.LG cs.AI
本文提出了一种用于生成具有重复子图模式的图的连续流匹配框架Flowette. 该框架结合了基于图神经网络的transformer和一种新的概率图结构模型graphette, 并在合成和小分子图生成任务上进行了评估.
Junghoon Justin Park et al.
cs.LG
本文提出了一种结合经典时间窗口与量子卷积神经网络核心的混合量子时间卷积网络(HQTCN), 用于处理多元时间序列数据. 该模型在参数效率方面表现出优势, 并在数据有限条件下对多元任务取得了优于经典基准的性能.
Xiang Ao
cs.LG cs.AI
本文提出了一种用于多元时间序列预测的双流稀疏Mixer框架, 分别在频域和时域提取序列的全局趋势和局部动态特征, 并利用稀疏机制过滤无效信息以提升跨变量依赖建模的准确性. 实验表明该方法在多个真实场景数据集上取得了领先性能.
Dang Sy Duy et al.
cs.LG
本文在区块链异常检测任务中, 系统性地评估了不同normalisation和initialisation策略对三种GNN架构(GCN, GAT, GraphSAGE)性能的影响. 实验结果表明, 最佳策略的选择高度依赖于具体的网络架构, 这为在类别不平衡严重的反洗钱数据上部署GNN提供了实用的指导.
Kejing Yin et al.
cs.LG cs.AI
本文系统性地评估了结合电子健康记录(EHR)和胸部X光片(CXR)的多模态学习在临床预测任务中的效果. 研究探讨了不同融合策略的性能, 模型对模态缺失的鲁棒性, 以及算法公平性等问题.
Zhongyi Pei et al.
cs.LG
本文提出了一个名为BTTackler的框架,用于提升深度学习超参数优化(HPO)的效率。该框架通过诊断训练过程中的问题(如梯度消失)来提前终止表现不佳的试验,从而节省计算资源。实验表明,该方法能显著减少达到相同精度所需的时间。
Yubo Zhou et al.
cs.LG
本文分析了单层随机近似隐式微分(SSAID)算法在随机双层优化问题中的收敛性. 证明了该算法达到\(\epsilon\)-稳定点的oracle复杂度为\(\mathcal{O}(\kappa^7 \epsilon^{-2})\), 其\(\epsilon\)依赖性与主流多层方法匹配, 并首次显式刻画了其对下层条件数\(\kappa\)的依赖关系.
Zhihao Ding et al.
cs.LG cs.AI
本文提出了一种名为FlexGuard的LLM内容审核方法, 它输出连续的风险评分而非二元分类, 以应对不同平台和时期对"有害性"定义严格程度变化的问题. 作者还构建了FlexBench基准来评估模型在不同严格度下的表现, 实验表明FlexGuard在适应性和鲁棒性上优于现有方法.
Haoran Zhang et al.
cs.LG cs.AI
本文提出FedRot-LoRA框架,通过正交变换对齐客户端更新以解决联邦学习中LoRA因旋转不变性导致的聚合误差问题。实验表明该方法在多种任务和异构设置下优于现有基线。
Kohei Obata et al.
cs.LG
本文提出了一种名为AnomalyFilter的扩散模型新方法,用于时间序列异常检测。该方法通过选择性去噪,旨在仅重构异常部分,从而提升检测性能。
Kohei Obata et al.
cs.LG
本文提出了一种针对多模态张量时间序列(Multi-mode Tensor Time Series, TTS)的表示学习方法MoST. 该方法通过张量切片降低结构复杂性, 并利用对比学习框架学习解耦的模态特定表示, 在分类和预测任务上取得了优于现有方法的效果.
Yongzhong Xu
cs.LG cs.AI
本文研究了小型transformer模型训练轨迹的几何结构, 发现参数更新会形成一个主导的漂移方向和横向的残余动力学. 通过比较AdamW和SGD优化器, 揭示了它们在轨迹几何上的显著差异.
Hanping Zhang, Yuhong Guo
cs.LG cs.AI
本文提出了一种利用Diffusion Schrödinger Bridge (DSB)来对齐源域与目标域动态的跨域强化学习方法BDGxRL. 该方法通过奖励调制机制在源域内进行策略学习, 无需访问目标环境, 并在MuJoCo基准测试中取得了优于现有方法的效果.
Yuyu Geng et al.
cs.LG cs.CV
本文提出了一个基于LLM的智能体框架OPTIAGENT, 用于自动化光学设计. 该方法通过结合领域知识、物理驱动的奖励策略和专门的优化流程, 旨在降低光学设计的专业门槛.
Chenxing Lin et al.
cs.LG
本文提出了一种基于多尺度自回归生成的离线强化学习方法MAGE, 它通过条件引导的多尺度自编码器学习分层轨迹表示, 并使用多尺度transformer自回归地从粗到细的时间尺度生成轨迹. 该方法旨在更好地建模轨迹中的多尺度时间依赖关系, 以应对长视野、稀疏奖励任务中的挑战.
Maxime Kawawa-Beaudan et al.
cs.LG cs.AI q-fin.CP q-fin.TR
本文提出了TradeFM, 一个用于交易流和市场微观结构的生成式基础模型. 该模型通过尺度不变特征和通用标记化方案处理异构数据, 并能在零样本情况下泛化到新的市场.
Zhiwei Han, Stefan Matthes, Hao Shen
cs.LG
本文研究了多视角非线性CCA(Canonical Correlation Analysis)的可识别性问题。文章证明了在特定条件下,该方法可以恢复出信号子空间,并给出了有限样本的一致性保证。
Aleksandr Ananikian, Daniil Drozdov, Konstantin Yakovlev
cs.LG cs.AI
本文提出了一种名为UPath的通用启发式预测器, 用于网格路径规划. 该模型通过一次训练即可泛化到与训练分布完全不同的任务上, 显著提升了A*等搜索算法的效率.
Wenwu Tang et al.
cs.LG
本文提出了一种名为GRAIL的后处理补偿方法,用于补偿经过结构化压缩(如剪枝或折叠)后的神经网络。该方法利用一个小型校准集,通过Gram矩阵总结隐藏层激活,并应用岭回归来线性重建原始隐藏表示,然后将重建映射吸收到下游权重中。该方法无需微调,在多种网络架构上相比基线方法提升了精度或困惑度。
Tiantong Wang et al.
cs.LG cs.AI cs.CR cs.DC
本文提出了一个名为MPU的隐私保护框架, 用于大语言模型的机器遗忘. 该框架通过分发多个扰动后的模型副本, 允许客户端在本地执行遗忘, 而无需共享服务器参数或遗忘数据集.
Andreas Kernbach et al.
cs.LG
本文提出了一种用于Proximal Policy Optimization (PPO)等actor-critic算法的预训练方法,该方法利用专家演示数据同时初始化actor和critic网络。实验表明,这种actor-critic预训练方法相比无预训练和仅actor预训练,能显著提高样本效率。
Xiang Li, Nan Jiang, Yuheng Zhang
cs.LG cs.AI
本文针对离线强化学习中参数化策略的理论分析进行了扩展. 它通过将 mirror descent 与 natural policy gradient 联系起来, 为处理大或连续动作空间提供了新的算法见解和理论保证.
George Papadopoulos, George A. Vouros
cs.LG cs.AI
本文提出了一种在约束未知的MDP中通过专家演示学习安全策略的方法. 算法SafeQIL通过混合奖励与安全性的Q值来评估轨迹的"承诺度", 并在基准任务上进行了验证.
Pavlin G. Poličar, Dalibor Stanimirović, Blaž Zupan
cs.LG
本文提出了一种基于 renewal process 的 probabilistic framework, 用于从电子处方数据中推断慢性治疗的开始时间. 该方法通过 change-point detection 来区分 sporadic 和 sustained therapy 的处方模式, 并在大规模数据集上验证了其相对于简单规则方法的优势.
Junkang Liu et al.
cs.LG cs.AI
本文提出了一种名为FedNSAM的联邦学习算法, 旨在解决数据异构性下局部平坦性与全局平坦性不一致的问题. 该方法通过引入全局Nesterov动量来协调局部与全局的平坦性一致性, 并在实验中展示了其优越性能.
Zhaowen Wang et al.
cs.LG eess.SP
本文提出了一种名为ULW-SleepNet的超轻量级多模态睡眠分期网络。该模型通过设计新颖的Dual-Stream Separable Convolution Block等结构,在显著减少参数量的同时,在公开数据集上保持了有竞争力的准确率。
Zhang Wan, Tingting Mu, Samuel Kaski
cs.LG
本文在 vector-valued reproducing kernel Hilbert space (vRKHS) 框架下,为图分类任务中的领域偏移 (domain shift) 问题建立了一个理论分析。该理论基于随机图生成模型,推导了一个包含领域差异、谱几何项和振幅项的泛化误差上界。
Alexander Samarin et al.
cs.LG cs.CL
本文提出了一种名为 LK losses 的训练目标,用于直接优化 speculative decoding 中的 acceptance rate,以替代传统的基于 KL divergence 的训练方法。实验表明,该方法在多种模型配置和任务领域上都能带来 acceptance rate 的提升。
Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik
cs.LG cs.AI
本文提出了一种分层概念嵌入模型(Hierarchical Concept Embedding Models, HiCEMs)来增强神经网络的可解释性. 该方法通过概念分割(Concept Splitting)技术自动从预训练模型中发掘细粒度子概念, 从而构建概念间的层次关系, 减少了人工标注的需求.
David Fox et al.
cs.LG
本文提出了一种基于变分推断的框架, 用于学习掩码离散扩散模型(MDMs)的并行生成顺序. 该方法引入了一种便于并行化和高效训练采样的近似后验参数化. 在GSM8K数据集上的初步实验表明, 在高度并行的生成模式下, 该方法与启发式采样策略相比具有竞争力.
Xianglong Shi et al.
cs.LG cs.AI
本文提出了一种完全内蕴的双曲神经网络架构 ILNN, 其核心是使用点到超平面的距离作为全连接层, 并设计了相应的内蕴归一化等模块. 实验表明该模型在多个数据集上取得了先进的性能.
Vrushank Ahire et al.
cs.LG cs.AI cs.CV
本文提出了一种名为MINT的多模态知识迁移框架, 用于阿尔茨海默病的早期筛查. 该框架通过训练一个MRI教师模型, 将其学到的生物标志物结构迁移到语音编码器中, 从而在推理时仅需语音输入即可进行分类.
Florent Delgrange
cs.LG cs.AI
本文提出了一个关于 foundation world models 的愿景, 旨在为能在开放世界中可靠学习和适应的智能体提供支撑. 其议程整合了可学习的 reward models, 自适应形式化验证, 在线抽象校准以及测试时合成等组件.
Roy Betser et al.
cs.LG eess.SP
本文分析了对比学习中InfoNCE损失函数对表示分布的影响。研究表明,该目标函数会在一定条件下诱导出高维表示的渐近高斯结构。
Daniel Yang et al.
cs.LG cs.AI cs.CL
本文提出了一个用于系统评估奖励模型不确定性量化的统一框架 RewardUQ. 通过比较不同方法在准确性和校准性上的表现, 作者发现模型规模和初始化对性能影响最大, 并发布了开源代码包.
Tobias Nygaard
cs.LG
本文介绍了一个名为pathsig的PyTorch库, 它利用CUDA内核在word basis上并行计算path signature, 实现了高GPU吞吐量和低内存占用. 该库支持signature的截断计算, 投影以及基于路径非齐次正则性的各向异性截断, 旨在为大规模梯度学习提供可扩展的工具.
Ryan DeWolfe
cs.LG cs.SI
本文提出了一种名为COVE的高维节点嵌入方法, 它利用随机游走共现来定义节点相似性, 并采用非线性降维技术UMAP将其降至低维. 实验表明, 该方法在聚类和链路预测任务上取得了与Louvain算法相当的性能.
Viet Bac Nguyen, Phuong Thai Nguyen
cs.LG cs.AI
本文提出了一种名为ACWI的自适应内在奖励缩放框架, 用于在稀疏奖励的强化学习中动态平衡内在与外在奖励. 该方法通过一个轻量级的Beta网络, 根据智能体状态在线预测内在奖励权重, 并使用基于相关性的目标进行优化. 实验表明, ACWI在MiniGrid稀疏奖励环境中提升了样本效率和学习稳定性.
Xinlong Du, Harsha Honnappa, Vinayak Rao
cs.LG math.PR stat.ML
本文提出了一种基于神经随机微分方程(SDE)的变分推断框架, 用于 Cox 过程(点过程)的建模与推理. 该方法通过一个摊销编码器架构, 将变长事件序列映射到后验强度路径, 从而在合成和真实数据上实现了比传统 MCMC 方法快数个数量级的推理速度.
Zhizhou He et al.
cs.LG
本文提出了一种基于agentic AI的Open RAN智能控制框架,通过引入规划、工具使用、记忆和自管理等原语来管理网络切片生命周期和无线资源。在仿真中,该框架相比传统方法平均降低了8.83%的资源使用量,并讨论了安全与合规方面的挑战。
Zitian Li, Wang Chi Cheung
cs.LG
本文研究了资源约束下的最佳臂识别问题, 提出了一种将资源感知分配整合到经典连续减半框架中的算法. 该算法为随机和确定性资源消耗设定提供了统一的理论分析.
Daniel S. Berman et al.
cs.LG q-bio.GN
本文提出了一种针对基于离散token的文本分类器的可解释AI方法. 该方法通过训练一个Explainer网络来生成掩码, 以隐藏与分类无关的输入信息, 从而提供人类可读的解释.
Adam R. Klivans, Konstantinos Stavropoulos, Arsen Vasilyan
cs.LG cs.CC
本文提出了一种构造低阶sandwiching polynomials的新方法, 用于近似具有低内在维度和光滑边界的函数类. 该方法简化了证明过程, 并针对高斯分布下的\(k\)个halfspaces函数, 将sandwiching多项式的阶数从指数级\(2^{O(k)}\)改进为多项式级\(\mathrm{poly}(k)\).
Sikata Sengupta et al.
cs.LG
本文针对大型人机协作履约中心的容器分配问题, 将其建模为一个高维状态空间的多目标强化学习任务. 该方法基于零和博弈中的最佳响应和无悔动态理论, 通过仿真验证了策略能在多个竞争目标间取得平衡并满足实际约束.
Egor Antipov et al.
cs.LG
本文提出了一种基于 flow matching 的密度比估计方法, 用于处理难以直接计算概率密度的分布. 该方法在单细胞基因组学数据分析中展示了应用潜力, 例如用于估计处理效应和评估批次校正效果.
Gabriele Farina, Juan Carlos Perdomo
cs.LG cs.CY cs.GT stat.ML
本文研究了在线算法在performative prediction中的稳定性. 通过无条件归约, 证明了任何无遗憾算法都会收敛到一个performatively stable equilibrium.
Mohsen Tajgardan et al.
cs.LG cs.AI
本文提出了一种用于异构IoT网络中异常检测的高效无监督联邦学习框架. 该方法通过利用来自不同数据集的共享特征来提升模型性能, 并采用可解释AI技术增强透明度. 实验表明, 该方法在真实IoT数据集上的异常检测准确率优于传统联邦学习方法.
Miras Seilkhan, Adilbek Taizhanov
cs.LG quant-ph
本文比较了经典模型与变分量子分类器在XOR问题上的表现. 研究发现, 电路深度是决定量子模型性能的关键, 更深的量子电路可以达到与经典神经网络相当的准确率, 但在鲁棒性或效率上未观察到明显优势.
Hongrui Xie, Junyu Cao, Kan Xu
cs.LG
本文研究了组合多臂老虎机(CMAB)中的自适应组合实验设计问题, 关注于遗憾最小化与统计功效之间的权衡. 作者提出了两种算法MixCombKL和MixCombUCB, 分别针对全老虎机反馈和半老虎机反馈场景, 并证明了它们在帕累托最优意义下的理论保证.
Javier Pulido, Filipe Rodrigues
cs.LG
本文评估了通用时间序列基础模型 Chronos-2 在多种交通预测任务上的零样本性能。研究发现,该模型无需特定训练即可达到或超越许多专门模型的精度,并能提供有用的不确定性量化。
Hainan Xu et al.
cs.LG
本文提出了一种用于流式语音识别的 Chunk-wise Attention Transducer (CHAT) 模型。它在保持流式处理能力的同时,通过分块注意力机制提升了效率与准确性。
Xiaolong Zhang et al.
cs.LG cs.CV
本文提出了一种名为Latent Manifold Compaction (LMC)的无监督表示学习框架,用于解决组织病理学图像中的批次效应问题。该方法通过压缩染色引起的潜在流形来学习批次不变的嵌入,从而提升模型在跨批次任务上的泛化性能。
Yijiashun Qi, Yijiazhen Qi, Tanmay Wagh
cs.LG
本文提出了一种用于特定领域供应商发现的Web--Knowledge--Web (W\(\to\)K\(\to\)W)迭代爬取管道。该方法通过构建知识图谱来指导爬虫,并引入了一个基于生态学物种丰富度估计器的覆盖度评估框架。在半导体设备制造领域的实验中,该方法在有限的爬取预算下取得了较高的精确度和召回率。
Amir Asiaee
cs.LG cs.AI
本文提出了一种通过神经机制稀疏化来高效发现近似因果抽象的方法. 该方法将结构化剪枝视为对近似抽象的搜索, 并推导出一个干预风险目标, 其二阶展开给出了用常数替换神经元或将其折叠到相邻单元的闭式准则.
Shruti Joshi et al.
cs.LG
本文指出, 在表示学习的可识别性评估中, 常用的标准度量(如MCC, DCI, \(R^2\))仅在特定的结构条件下才能有效反映理论保证的等价类恢复. 作者通过一个分离数据生成过程和编码器几何假设的分类法, 分析了现有度量的有效域, 并发布了一个用于压力测试的评估套件.
Ali Behrouz et al.
cs.LG cs.AI
本文提出了一种名为Memory Caching (MC)的技术,通过缓存循环神经网络(RNN)的隐藏状态检查点来扩展其有效记忆容量。该方法在语言建模和长上下文理解任务中提升了循环模型的性能,使其在记忆密集型任务上更接近Transformer的表现。
Zhengbo Wang et al.
cs.LG cs.AI cs.CL
本文提出了一种名为LoRA-Pre的新型低秩优化器,旨在减少Adam等优化器在训练大语言模型时因存储动量状态而产生的内存开销。该方法将动量更新重新解释为在线线性回归问题,并通过低秩分解来压缩优化器状态,在保持性能的同时显著提升了内存效率。实验在Llama架构的不同规模模型上验证了其有效性,并在预训练和微调任务中均表现优异。
Weinan Dai et al.
cs.LG cs.AI
本文提出了一种名为CUDA Agent的大规模智能体强化学习系统, 用于生成高性能的CUDA kernel. 该系统通过数据合成, 技能增强的开发环境和强化学习算法来提升模型在CUDA优化方面的内在能力, 并在KernelBench基准测试上取得了领先的性能.

cs.AI

Shubh Laddha et al.
cs.AI cs.IR
本文提出了一个名为HumanMCP的数据集,用于评估MCP服务器的工具检索性能。该数据集包含了针对大量工具生成的、多样化的类人用户查询,旨在弥补现有基准在真实交互模式上的不足。
Pavel Chernakov, Sasan Jafarnejad, Raphaël Frank
cs.AI cs.CL cs.IR
本文提出了一个基于LLM的智能体框架, 用于AML合规中的负面新闻筛查. 该系统利用RAG技术自动化搜索与评估流程, 并通过计算AMI分数来区分高风险与低风险个体.
Arvind Raghavan, Elias Bareinboim
cs.AI cs.LG
本文研究了在能够获取部分反事实分布数据的情况下,反事实查询的识别问题。作者提出了一个完整的识别算法,并探讨了这种新数据访问权限下的理论极限。
Matteo Ceriscioli, Karthika Mohan
cs.AI
本文提出了一个基于因果知识的POMDP理论框架, 用于处理部分可观测环境下的分布偏移规划问题. 该框架将环境变化建模为对因果模型的干预, 并证明了在扩展的信念空间中值函数仍保持分段线性凸性质, 从而保持了基于\(\alpha\)-vector方法的规划可处理性.
Guillem Rodríguez-Corominas, Maria J. Blesa, Christian Blum
cs.AI cs.LG
本文提出了一种结合强化学习与精确优化的混合算法RL-CMSA,用于求解对称单仓库最小-最大多旅行商问题。该方法通过强化学习引导的构造、合并、精确求解与自适应调整,在多个基准实例上取得了具有竞争力的结果。
Zongzhe Xu et al.
cs.AI
本文提出了SleepLM, 这是一个将自然语言与多模态睡眠生理信号对齐的基础模型系列. 它通过一个多级描述生成流程构建了大规模睡眠-文本数据集, 并采用结合对比对齐和重建的统一预训练目标, 在多项睡眠理解任务上展现了优越的零样本和少样本性能.
Lun Zhan et al.
cs.AI
本文提出了一个基于多模态知识图谱的推理数据合成框架MMKG-RDS, 旨在解决现有方法在知识覆盖和可解释性等方面的不足. 该框架支持细粒度知识提取和可定制路径采样, 并在构建的数据集上验证了其合成数据对提升模型推理能力的有效性.
Judah Goldfeder et al.
cs.AI
本文批判了当前对Artificial General Intelligence (AGI)的普遍定义,认为其存在缺陷且不切实际。作者主张AI应向专业化发展,并提出了Superhuman Adaptable Intelligence (SAI)这一新概念,旨在超越人类在重要任务上的能力并填补人类技能空白。
Yihan, Xin Chen
cs.AI eess.SY
本文提出了一种名为PseudoAct的新框架,通过合成pseudocode来增强LLM agent在复杂长程任务中的规划与行动控制能力。该方法将任务策略编码为包含控制流的结构化伪代码,从而减少了冗余操作并提升了决策效率。
Siyuan Ma et al.
cs.AI
本文提出了一种基于主动推断的自适应路由框架ODAR-Expert,用于优化大语言模型推理的准确性与效率权衡。它通过动态路由和基于变分自由能的答案融合机制,在多个基准测试上取得了优于均匀采样的效果。
Yawen Wang et al.
cs.AI cs.SE
本文提出了一个名为CHIEF的框架, 用于对基于LLM的多智能体系统进行层次化故障归因. 该方法将执行轨迹转化为结构化的层次因果图, 并通过合成虚拟预言和渐进因果筛选策略来识别根本原因.
Jiangyuan Wang et al.
cs.AI
本文提出了一个用于训练电子商务深度研究智能体的多智能体合成轨迹蒸馏框架. 该方法通过合成高质量的工具使用轨迹来训练更强大的购物助手模型.
Sheng Cao et al.
cs.AI
本文提出了Auton Agentic AI框架, 旨在解决生成式AI向智能体AI过渡中的架构不匹配问题. 该框架通过分离声明式的Cognitive Blueprint与平台特定的Runtime Engine, 并引入一系列机制如增强的POMDP模型和分层记忆架构, 以标准化自主智能体的创建、执行与治理.
Longyin Zhang et al.
cs.AI
本文介绍了MERaLiON2-Omni (Alpha)模型,这是一个为东南亚地区定制的多语言全感知模型。报告提出了一个分阶段的训练流程,并分析了感知与推理能力之间的权衡关系。
Zhipeng Xu et al.
cs.AI
本文提出了一种利用多模态大语言模型(MLLMs)的推理能力来解决领域泛化(DG)问题的方法。作者构建了包含推理链的数据集DomainBed-Reasoning, 并提出了RD-MLDG框架, 通过引入额外的直接分类路径和自对齐推理正则化来优化模型。实验表明该方法在多个标准DG数据集上取得了先进的性能。
Yiyang Fang et al.
cs.AI cs.CV
本文提出了一种名为EMO-R3的框架, 旨在提升多模态大语言模型(MLLMs)的情感推理能力. 该方法结合了结构化情感思维和反思性情感奖励机制, 在多个视觉情感理解基准上取得了性能提升.
Chao Wang et al.
cs.AI
本文提出了一个名为RUMAD的强化学习框架, 用于动态控制多智能体辩论(MAD)中的通信拓扑结构. 该方法通过内容无关的观察和多目标奖励来优化辩论的准确性, 共识形成和计算效率, 在多个基准测试中显著降低了计算成本.
Ning Gao et al.
cs.AI cs.LG
本文提出RF-Agent框架, 将LLMs视为language agents, 并将reward function设计构建为一个sequential decision-making过程. 该方法整合了Monte Carlo Tree Search (MCTS)来管理reward的设计与优化过程, 在多个low-level control任务上取得了良好的实验效果.
Fan Zhang, Baoru Huang, Xin Zhang
cs.AI
本文提出了一种用于离线强化学习的悲观辅助策略, 通过最大化Q函数的置信下界来采样可靠动作, 以减少分布外动作带来的近似误差累积. 实验表明该方法能有效提升多种离线RL算法的性能.
Vanya Priscillia Bendatu, Yao Lu
cs.AI
本文提出了一种名为macro-conditioned scenario-context rollout (SCR)的方法,用于在压力事件下生成合理的次日多变量收益情景,以应对市场状态转换带来的分布偏移问题。作者分析了将基于情景的奖励纳入时序差分学习时产生的奖励-转移不匹配问题,并通过构建反事实下一状态来稳定强化学习评论家训练。在美股和ETF投资组合的回测中,该方法相比基线显著提升了夏普比率并降低了最大回撤。
Reva Schwartz et al.
cs.AI cs.SE
本文提出了一个名为CIRCLE的六阶段、基于生命周期的框架,旨在弥合以模型为中心的性能指标与AI在现实部署中实际效果之间的差距。该框架将利益相关者的关切转化为可测量的信号,为评估AI的真实影响提供了一种结构化方法。
Xiang Li et al.
cs.AI cs.SD
本文对当前最先进的 speech-to-speech (S2S) 系统进行了首次图灵测试, 收集了近三千份人类评判. 结果表明, 现有系统均未通过测试, 其瓶颈主要在于副语言特征和情感表达等方面. 作者还提出了一个可解释的模型, 用于自动评估系统的人类相似性.
Yue Xie et al.
cs.AI
本文提出了一种用于冬季道路维护的双层优化框架, 结合了上层的强化学习(RL)进行网络分区与资源分配, 以及下层的多目标车辆路径问题(VRP)求解. 该方法在真实路网数据上验证了其在平衡工作量、减少最长行驶时间和降低排放方面的有效性.
Richard Csaky
cs.AI cs.LG
本文提出了Artificial Agency Program (AAP), 一个将AI系统构建为受物理和计算约束的、以好奇心驱动的智能体的研究框架. 该框架整合了预测压缩、内在动机、赋能与控制等概念, 旨在通过一个多模态测试平台来连接信息论、热力学和有界理性等领域.
Yanwei Ren et al.
cs.AI cs.CL
本文提出了一种名为SCOPE的新框架,用于改进强化学习中的可验证奖励学习范式。该方法通过过程奖励模型对部分正确的推理轨迹进行细粒度修正,以维持探索空间的多样性。
Antoine Peyronnet, Fabian Gloeckle, Amaury Hayat
cs.AI
本文提出了一种名为 LemmaBench 的动态基准测试方法, 用于评估大型语言模型在数学研究层面的能力. 该方法通过自动从 arXiv 提取引理并重写为自包含问题来构建可更新的基准, 避免了传统静态基准的局限性. 初步测试显示当前顶尖模型的定理证明准确率约为 10-15%, 表明其与人类研究水平仍有较大差距.
Shishun Zhang et al.
cs.AI
本文提出了一种结合异构图网络与深度强化学习的方法, 用于解决带有有限缓冲区与物料配套约束的柔性作业车间调度问题. 该方法在合成与真实数据集上均优于传统启发式与先进深度强化学习方法.
Gregory Kang Ruey Lau et al.
cs.AI cs.CL cs.CV cs.LG
本文提出了一种名为UMPIRE的免训练不确定性量化框架, 用于多模态大语言模型(MLLMs). 该方法通过计算模型响应样本的"非一致性调整语义体积"来评估不确定性, 并在多种模态和任务上展示了优于基线方法的性能.
Borja Requena Pozo et al.
cs.AI
本文提出了一个用于自动定理证明的极简智能体基线, 旨在为不同AI证明器架构提供系统比较的基础. 该设计实现了迭代证明优化, 库搜索和上下文管理等核心功能, 并在多个基准测试中展示了与复杂系统相当的竞争力.
Fan Shu et al.
cs.AI cs.CL
本文提出了一个名为DARE-bench的基准测试,用于评估大型语言模型在数据科学任务中的建模和指令遵循能力。该基准包含大量具有可验证真实答案的任务,并提供了用于微调的训练数据。

cs.IR

Shreyas Subramanian et al.
cs.IR cs.AI
本文比较了基于向量数据库的RAG系统与仅使用关键词搜索工具的LLM智能体在问答任务中的性能. 研究发现, 在智能体框架下, 仅使用基础关键词搜索工具即可达到传统RAG系统90%以上的性能指标, 且实现更简单、成本更低.
Xuanming Cui et al.
cs.IR cs.AI cs.CL
本文提出了TTE-v2, 一个级联的多模态检索框架, 它通过引入额外的推理步骤进行重排序, 从而在测试时实现基于推理token扩展的性能提升. 在MMEB-V2基准测试中取得了新的最优结果.
Rakshita Goel et al.
cs.IR cs.AI cs.CL
本文提出了一种针对印度法律研究的领域划分混合RAG与知识图谱架构. 该系统整合了多个专门化的检索模块和一个法律知识图谱, 通过一个LLM驱动的协调器动态路由查询并融合证据, 以生成有根据且包含引用的回答. 在合成法律问答基准上的评估表明, 该混合架构在回答完整性和法律推理质量上显著优于纯RAG基线.
Qizhi Wang
cs.IR cs.AI cs.CL
本文提出了一种名为SPRIG的CPU友好型GraphRAG方法,它使用轻量级的NER共现图构建和Personalized PageRank进行检索,在保持Recall@10性能的同时显著降低了计算成本。该方法为无需GPU和大量token消耗的多跳问答图检索提供了一个可行的路径。
Weixi Lin
cs.IR cs.AI cs.CL
本文提出了一个面向企业的RAG系统优化框架Higress-RAG, 通过整合双混合检索、自适应路由和CRAG等技术,旨在解决生产环境中检索精度低、生成幻觉多和延迟高的问题。实验表明该框架能提供可扩展且抗幻觉的企业AI部署方案。
Artur Gimranov et al.
cs.IR cs.LG
本文提出了一种结合Transformer与graph neural networks的新框架, 用于提升sequential recommendation的性能. 该框架通过对齐不同表示来同时捕捉交互图中的结构依赖及其动态变化, 并在多个公开数据集上验证了其优于纯序列或图方法的效果.
Aditya Gaydhani et al.
cs.IR
本文提出了一种用于大规模电商搜索中多通道检索的统一学习排序模型. 该模型将多通道融合问题重新定义为依赖于查询的学习排序任务, 联合优化点击, 加购和购买等多个业务目标, 并整合了用户短期行为信号. 在线A/B实验表明, 该方法在满足严格延迟要求的同时, 显著提升了用户转化率.
Gui Ling et al.
cs.IR
本文提出了一种针对电商搜索中长尾知识密集型查询的合成数据生成框架, 通过利用大型语言模型的能力来生成高质量的查询-商品对, 以增强检索模型的训练. 实验表明, 使用该合成数据能有效提升检索性能并改善用户体验.
Haibo Xing et al.
cs.IR
本文提出了一种用于生成式推荐(Generative Recommendation, GR)的结构化反思-校正框架GRC, 将标准解码过程扩展为生成-反思-校正(GRC)流程。该方法通过引入基于GRPO的强化学习优化整个轨迹,并设计了熵引导的反思调度策略以提升在线服务效率,在真实数据集和在线A/B测试中验证了其有效性。
Brandon Yee et al.
cs.IR cs.LG cs.SI
本文提出了一种名为Geodesic Semantic Search (GSS)的检索系统,用于引文图。该方法通过学习节点特定的Riemannian度量来计算测地线距离,从而进行语义搜索。实验表明,该方法在召回率上优于基于固定欧氏距离的基线方法,并能提供可解释的路径。
Yufei Ye et al.
cs.IR
本文提出了一种名为FuXi-Linear的线性复杂度模型,用于处理长序列推荐任务。该模型通过独立的时序通道和线性位置通道来整合时间信号和位置信息,在保持高效的同时提升了推荐质量。
Hao Li et al.
cs.IR
本文提出了一种机器学习框架,用于推荐搜索过滤器以提升Airbnb平台的预订转化率。该系统已成功部署并通过A/B测试验证了其有效性。
Zheng Dou et al.
cs.IR
本文提出了一个统一的面向科学文档检索的框架UniFAR, 旨在同时支持文档-文档和问题-文档两种检索任务. 该框架通过自适应多粒度聚合, 可学习的方面锚点以及联合训练来解决现有方法在输入粒度, 语义焦点和训练信号上的不匹配问题.
Guy Hadad et al.
cs.IR cs.AI
本文提出了一个名为HotelQuEST的基准测试,用于评估基于LLM的智能体搜索系统在质量和效率上的平衡。研究发现,尽管LLM智能体在准确性上优于传统检索方法,但其成本显著更高,并指出了当前系统中存在的冗余工具调用和路由效率低下等问题。
Zhiguo Chen et al.
cs.IR
本文提出了一种用于电子商务生成式检索的鲁棒自适应去噪直接偏好优化方法. 该方法通过引入token-level梯度分离、基于相似度的动态奖励加权以及多标签全局对比目标, 解决了将DPO应用于结构化语义ID时遇到的梯度冲突、噪声伪负样本和概率挤压效应等问题.
Huimu Wang et al.
cs.IR
本文提出了一种名为SA^2CRQ的框架,用于改进基于语义ID的生成式检索。该框架通过自适应分配编码长度和利用头部项目的知识来增强尾部项目的表示学习,在冷启动场景下取得了更好的效果。
Minh Hieu Nguyen
cs.IR
本文针对联邦顺序推荐中数据稀疏和恶意攻击的问题, 提出了一个鲁棒的聚合框架. 该框架通过防御感知的聚合机制和表示级约束来稳定训练, 并整合了序列感知的正则化以保持时序一致性.
Thom Vaughan, Pedro Ortiz Suarez
cs.IR cs.HC
本文对Common Crawl中500个最常被抓取域名的网页进行了WCAG 2.1/2.2 AA级色彩对比度合规性的大规模自动化审计。研究发现,在分析的色彩组合中,有相当大比例未能达到标准,表明色彩对比在主流网站中仍是一个普遍存在的可访问性障碍。
Rohit Chivukula et al.
cs.IR cs.SI
本文在电影推荐领域对多种算法进行了比较研究. 作者将推荐问题视为回归任务, 基于Netflix数据集提取了聚合特征, Matrix Factorization特征以及基于相似度的特征, 并利用XGBoost, K-Nearest Neighbors和Matrix Factorization等方法进行实验. 结果表明, 基于Matrix Factorization的算法在Root Mean Square Error指标上表现最佳.
Włodzimierz Lewoniewski et al.
cs.IR cs.DL
该研究探讨了利用Wikipedia的结构化数据(如分类, 内部链接)和语义特征来识别与科幻和奇幻(SF/F)相关文章的方法, 旨在解决因体裁边界模糊而带来的分类挑战.
Saber Zerhoudi, Michael Granitzer
cs.IR cs.HC
本文提出了一个名为UXSim的混合框架, 用于模拟交互式搜索系统中的用户体验. 该框架结合了传统模拟器的数据基础和大型语言模型(LLM)的适应性, 旨在实现更动态、可解释的用户行为模拟.
Saber Zerhoudi, Michael Granitzer
cs.IR cs.HC
本文提出了一个从用户行为日志推断认知轨迹的框架, 该方法基于 Information Foraging Theory 和多智能体系统, 旨在模拟用户的潜在思维过程. 该框架被应用于预测会话结果等任务, 并发布了相关数据集和开源工具.
Dake Zhang, Mark D. Smucker, Charles L. A. Clarke
cs.IR cs.AI
本文介绍了为TREC 2025 DRAGUN Track开发的自动化评估资源,该赛道旨在评估辅助读者进行新闻可信度评估的RAG系统。作者创建了一个自动化评判流程,其评估结果与人工评估具有良好的一致性。

cs.CL

Kaifeng Wu et al.
cs.CL cs.AI cs.IR
本文提出了一种基于Qwen3-0.6B的判别式模型,用于超长文档的主题分割。该方法通过跨窗口上下文融合层和重叠滑动窗口策略,支持单次处理长达13k个token的输入,并在WIKI-727K数据集上取得了优于对比生成模型的F1分数和更快的推理速度。
Swati Sharma, Divya V. Sharma, Anubha Gupta
cs.CL cs.AI cs.SD eess.AS
本文提出了一种名为Task-Lens的跨任务分析方法,用于评估印度低资源语言语音数据集的适用性。该方法分析了50个数据集在9个下游任务中的潜力,并指出了当前资源覆盖不足的领域。
Chris Samarinas, Haw-Shiuan Chang, Hamed Zamani
cs.CL cs.IR
本文提出了SLATE框架, 通过截断的步级采样和基于LLM的密集奖励来改进检索增强推理的强化学习训练. 该方法在多个QA基准测试上优于稀疏奖励和过程奖励基线.
Zhengqing Yuan et al.
cs.CL cs.DL
本文提出了一个用于检测科学文献中虚假引用(hallucinated citations)的基准和框架。该工作构建了一个大规模的人工验证数据集,并设计了一个多智能体验证流程来评估引用是否真实支持其声称的内容。实验表明,该框架在准确性和可解释性上优于现有方法。
Michael Frew, Nishit Bheda, Bryan Tripp
cs.CL
本文提出了FHIRPath-QA,一个基于FHIR标准的电子健康记录问答数据集和基准。研究探讨了将自然语言问题转换为可执行的FHIRPath查询的范式,并评估了大型语言模型在此任务上的表现。
Md Mofijul Islam et al.
cs.CL
本文提出了一个名为IDP Accelerator的智能文档处理框架, 旨在通过多模态LLM和智能体(agent)技术实现端到端的文档理解与合规验证. 该框架包含文档分割、信息提取、智能分析和规则验证等模块, 并在实际医疗部署中显著提升了处理效率和准确性.
Gaurav Kamath et al.
cs.CL cs.AI
本文通过构建ProbCOPA数据集, 比较了人类与大型语言模型(LLMs)在概率推理任务上的表现. 研究发现, LLMs生成的答案分布与人类多样化的概率判断存在系统性差异, 揭示了当前模型在非确定性推理方面的局限.
Sasha Boguraev, Qing Yao, Kyle Mahowald
cs.CL
本文通过人工和大型语言模型的行为实验, 研究了形式上冗余但在特定语境下可接受的析取句. 作者提出了一种基于人工神经机制的互补性解释, 认为Transformer模型中的归纳头等机制能实现语境敏感的语义解读.
Jun Li et al.
cs.CL
本文提出了一个多智能体因果推理框架, 用于通过在线对话树检测自杀意念. 该方法利用一个推理智能体来扩展用户交互, 并使用一个偏误感知决策智能体来缓解隐藏影响带来的有害偏误.
Yun Wang et al.
cs.CL cs.AI
本文提出了一种名为BRIDGE的框架, 旨在通过组间数据生成来缓解自动评分系统中的偏见放大问题, 特别是在针对英语学习者(ELL)的评估中. 该方法通过合成高质量的少数群体样本来平衡数据表示, 实验表明其在保持总体评分性能的同时, 有效提升了评分的公平性.
Rafid Ishrak Jahan, Fahmid Shahriar Iqbal, Sagnik Ray Choudhury
cs.CL cs.AI cs.IR
本文构建了一个用于长问答任务的大规模人类偏好数据集LFQA-HP-1M, 并提出了一个基于九个评估维度的透明评估框架. 研究表明, 基于这些维度的简单线性模型可以达到与先进LLM评估器相当的性能, 并揭示了LLM评估器在一致性、位置偏差和对抗扰动方面的脆弱性.
Yu Zhu, Kai Yang
cs.CL cs.AI
本文提出了一种利用大语言模型(LLM)合成多轮任务导向对话的框架, 旨在生成更贴近真实世界复杂推理场景的数据. 该方法通过三层优化提升对话质量, 并基于生成的对话设计相应的推理任务, 以构建用于评估和提升LLM现实逻辑推理能力的基准数据集.
Zitong Xu, Yuqing Wu, Yue Zhao
cs.CL cs.AI
本文提出了一种结合检索增强的大型语言模型框架, 用于专利文本中的TRIZ矛盾挖掘. 该框架将矛盾挖掘重新定义为命名实体识别任务, 并通过检索TRIZ知识库和结构化提示来提升参数提取的准确性和一致性.
Seungdong Yoa et al.
cs.CL cs.AI cs.LG
本文提出了一种以智能体为中心的动态评测协议, 用于评估大语言模型的推理能力. 该方法通过智能体间的交互自动生成和验证问题, 避免了静态数据集的局限性.
Jiasen Zheng et al.
cs.CL
本文提出了一个基于structured prompts的优化框架, 用于解决few-shot文本分类中的语义纠缠和特征表示不足问题. 该框架通过引入多维语义因子构成的prompts, 并结合cross-space alignment机制, 提升了低资源条件下的分类性能.
Xiangzhong Luo et al.
cs.CL
本文提出了一种名为DiCo的自适应并行解码方法, 用于加速基于扩散的大语言模型(dLLMs)的推理. 该方法通过一个包含Divide, Conquer和Finalize三个阶段的分治范式, 在保持生成质量的同时实现了显著的推理加速.
Sebastian Gerstner, Hinrich Schütze
cs.CL cs.LG
本文介绍了一个名为GLUScope的开源工具,用于分析基于Transformer的语言模型中的神经元,特别是针对使用SwiGLU等门控激活函数的较新模型。该工具能展示神经元激活的四种不同符号组合的文本示例,为可解释性研究提供了便利。
Jian Kai et al.
cs.CL
本文提出了CLFEC任务,旨在对中文专业写作中的语言错误和事实错误进行统一修正。作者构建了一个多领域数据集,并系统评估了基于大语言模型的多种修正范式,分析了其面临的挑战与性能表现。
Gary Lupyan, Senyi Yang
cs.CL
本文展示了大型语言模型(LLM)在解析内容词被无意义字符串随机替换的“Jabberwockified”英语文本方面的惊人能力。研究表明,结构线索(如形态句法、封闭类词)对词汇意义的约束程度远超想象,这对于理解语言结构具有重要意义。
Nischal Karki et al.
cs.CL cs.LG
本文在Nepali语言中评估了多种BERT变体在句子级主题分类任务上的性能. 实验表明, 基于Indic语言的模型, 特别是MuRIL-large, 取得了最佳效果.
Ludovic Moncla et al.
cs.CL cs.DL cs.IR
本文介绍了一个从18世纪《百科全书》中提取并标注的历史地理坐标数据集, 并训练了基于transformer的模型来自动识别和规范化这些坐标. 该方法在跨语言和跨领域的文本上展现了一定的泛化能力.
Peng Liu et al.
cs.CL
本文提出了一个用于评估智能体记忆系统处理情感信息能力的基准测试HLME. 实验表明, 现有系统在情感信息处理的多个维度上均未达到鲁棒性能.
Jonathan Drechsel, Steffen Herbold
cs.CL
本文介绍了gradiend这一Python软件包, 它实现了GRADIEND方法, 用于从语言模型的factual-counterfactual MLM和CLM梯度中学习特征方向. 该软件包提供了一个端到端的工作流, 涵盖特征数据创建, 训练, 评估到模型权重持久化修改等多个环节.
Iris Dania Jimenez, Christoph Kern
cs.CL
本文研究了YouTube西班牙语自动字幕系统对不同方言和性别的识别偏差. 通过分析不同地区男女说话者的字幕质量, 发现了系统性的性能差异.
Donghao Huang, Zhaoxia Wang
cs.CL cs.AI
本文通过实证研究发现, 在 sentiment analysis 任务中, LLMs 的 reasoning 能力对性能的提升并非普遍有效, 而是强烈依赖于任务复杂度. 在简单的 binary classification 上, reasoning 反而会导致性能下降, 而在复杂的 27-class emotion recognition 上则能带来显著提升.
Jaekyung Cho
cs.CL cs.AI
本文提出了一种名为"preference packing"的方法, 旨在提升大型语言模型(LLM)在偏好优化(如DPO)训练阶段的资源效率. 该方法通过合并重复的输入提示(prompt)来减少注意力计算和KV缓存内存使用, 在实验中显著缩短了训练时间.
Sara Nabhani et al.
cs.CL cs.AI
本文提出了一个名为ARGUS的框架, 用于研究叙事特征在在线论辩文本中对说服力的影响. 该框架通过构建标注了故事存在性和六种关键叙事特征的数据集, 并结合编码器分类器与大型语言模型进行分析.
James L. Zainaldin et al.
cs.CL cs.AI
本文评估了大型语言模型在翻译低资源古语言(如古希腊语)技术文本时的表现. 研究发现, 术语稀有性是导致翻译质量急剧下降的关键预测因素.
Yuxuan Liu et al.
cs.CL cs.AI
本文提出了一种名为CoME的新型移动智能体架构, 它通过四个独立的专家模块来处理屏幕摘要, 子任务规划, 行动决策和行动执行等混合能力推理. 作者采用了一种渐进式训练策略和信息增益驱动的DPO方法来优化各专家模块的协作与推理过程, 实验表明其在相关数据集上优于现有方法.
Adam Dejl, Deniz Gorur, Francesca Toni
cs.CL cs.AI
本文介绍了一个基于Argumentative LLMs的交互式网络系统ArgLLM-App, 该系统利用大语言模型和计算论证技术进行二元决策, 并支持对推理过程的可视化与人工交互. 该系统具有高度模块化特点, 并能从可信外部源获取信息.
Dor Tsur, Sharon Adar, Ran Levy
cs.CL cs.AI cs.IT
本文提出了一个名为TASC的框架, 用于加速小型语言模型(SLM). 该框架包含两种使用场景: 在微调阶段通过扩展词汇表来提升效率的TASC-ft, 以及在推理阶段使用无训练的推测解码方法TASC-spec. 实验表明, 这些方法能在保持任务性能的同时, 有效提升推理效率.
Jacob Eisenstein et al.
cs.CL cs.LG
本文提出了一种评估语言模型在多轮交互中协作能力的方法, 使用需要交流私有信息的协作游戏套件. 研究发现, 即使有提升空间, 当前先进模型在规划和执行多轮协作对话方面仍存在显著弱点, 其对话的连贯性也低于人类.
Haritz Puerto et al.
cs.CL cs.AI
本文提出通过训练推理模型遵循关于推理过程的指令来增强其隐私保护能力. 作者构建了包含推理限制的数据集进行微调, 并引入解耦推理与答案生成的策略. 实验表明该方法能显著提升指令遵循和隐私保护性能, 但可能牺牲部分任务效用.
Jenny Y. Huang et al.
cs.CL cs.AI
本文探讨了在 multi-turn 对话中,大型语言模型是否受益于将其自身先前的回复保留在上下文历史中。通过比较标准全上下文提示与仅包含用户轮次提示的性能,研究发现省略模型自身历史回复在许多情况下不影响回答质量,并能显著减少上下文长度。研究还识别了上下文污染现象,并提出了选择性过滤助手侧上下文的方法以提升响应质量并降低内存消耗。

cs.DS

Faruk Alpay, Levent Sarioglu
cs.DS cs.FL
本文研究了图上的 grammar-constrained context-free language (CFL) reachability 问题, 关注其计算复杂度和实际性能. 作者提出了一个评估此类查询的算法框架, 并进行了理论分析和广泛的实证评估.
Sayan Bhattacharya, Ermiya Farokhnejad, Haoze Wang
cs.DS
本文提出了一种确定性算法, 用于计算最小度生成树问题的加性1近似解. 该算法运行时间为\(\tilde{O}(mn^{3/4})\), 打破了持续三十年的\(\tilde{O}(mn)\)时间障碍.
Erik van den Akker, Klaus-Tycho Foerster
cs.DS cs.NI
本文通过将网络中的本地故障恢复问题与二元覆盖数组问题相关联, 改进了有向网络中容忍\(k\)个链路故障所需可重写比特数的下界. 对于\(k \geq 2\)的情况, 在\(n\)个节点的网络中, 新的下界为\(\Omega(k + \lceil\log\log(\lceil\frac{n}{4}\rceil-k)\rceil)\).
Zohar Barak, Inbbal Talgam-Cohen
cs.DS
本文研究了Stochastic Knapsack问题中的半适应性(semi-adaptivity)概念, 改进了经典的适应性间隙(adaptivity gap)的上下界. 作者量化了进行有限次适应性查询(\(k\)次)与完全适应性策略之间的性能差距, 并提出了一个分析适应性决策树的三步法.
Nate Veldt et al.
cs.DS cs.LG
本文改进了在任意度量空间中寻找近似最小生成树(MST)的学习增强算法。它基于度量森林补全(MFC)框架,提出了一种在子二次时间内权衡近似比与计算复杂度的广义方法。

others

Cheng Qian et al.
cs.MA cs.AI
本文提出了一个名为QD-MAPPER的框架,它利用Quality Diversity算法和Neural Cellular Automata来自动生成多样化的地图,用于系统性地评估和比较不同的Multi-Agent Path Finding算法。该框架旨在超越传统的人工设计地图测试,通过生成具有不同模式的地图来更全面地理解算法的性能表现。
H.C.W. Price et al.
physics.soc-ph cs.AI cs.CY cs.SI
本文对AI原生社交平台Moltbook上线初期的公开数据进行了社会网络分析. 研究发现, 在短短12天内, 该平台已表现出极端的注意力集中、清晰的层级角色分离以及单向的互动流, 表明智能体生态系统中的分层结构可以迅速形成.
Gordon Fletcher, Saomai Vu Khan
cs.HC cs.CL cs.IR
本文提出了一种利用生成式AI作为"意外发现引擎"和知识转换器的方法, 用于从组织现有文档中挖掘和重组可复用的知识组件. 通过一个包含206篇论文的语料库, 该方法提取了约711个组件, 并依据Viable System Model (VSM)将其组织成知识库, 旨在帮助组织在多重危机中更系统地实现知识复用.
Balasaravanan Thoravi Kumaravel
cs.HC cs.IR
本文提出了"infomorphs"的概念, 这是一种模块化、用户可引导的AI增强转换, 用于支持跨格式和模态的信息受控合成与重组. 作者进一步提出了一个设计空间, 并实例化为DocuCraft系统, 该系统通过可视化组合infomorph工作流, 结合生成式AI与用户意图, 支持交互式、多模态的文档创建与转换.
Svitlana Surodina et al.
cs.HC cs.AI cs.CY
本文探讨了在早期健康科技创新中设计Responsible AI治理仪表板的实践方法. 研究基于人本计算方法和设计研究, 提出了与利益相关者共创、适应组织成熟度等设计原则, 旨在通过可视化工具支持负责任的决策.
Vugar Ismailov
math.GN cs.LG cs.NE math.FA
本文在一般拓扑空间上构建了一个浅层与深层神经网络的统一框架, 其输入定义在一般的拓扑空间上. 该模型由一组给定的连续特征映射和一个固定的标量激活函数构成, 并在欧几里得情形下退化为多层前馈网络. 作者重点研究了该模型的通用逼近性质, 在无宽度约束和深度窄框架下分别建立了保证其逼近能力的条件, 并将经典逼近定理推广到了非欧几里得空间.
Yueran Hou et al.
cs.SD cs.AI cs.CL eess.AS
本文提出了一个用于真实社交场景的端到端音频语言模型 Hello-Chat. 它通过利用大规模真实对话数据集和模态交错训练策略, 在韵律自然度和情感对齐方面超越了现有基线.
Mingkai Liao
cs.SI cs.LG
本文提出了一个名为PACIFIER的图强化学习框架,用于通过顺序网络干预来缓和意见极化。该框架将经典的极化调节问题重新表述为序列决策任务,能够适应多种干预场景,并在真实网络数据上展示了良好的可扩展性。
Felipe Bivort Haiek
q-bio.MN cs.LG
本文研究了多层药物-蛋白质网络的图性质, 并分析了网络结构如何影响药物重定位的发现模式. 最后, 利用网络结构构建了一个网络扩散推荐系统, 以优先考虑用于治疗被忽视热带病的现有药物.
George Bird
cs.NE cs.LG
本文提出了一种利用各向同性激活函数实现动态网络结构的方法. 该方法允许网络在任务需求下实时调整神经元数量, 并通过层对角化过程实现网络功能的解析不变性.
Jiazheng Quan et al.
cs.CR cs.AI cs.SE
本文提出了Vul2Safe框架, 通过LLM自反思构建高质量安全修复数据集PrimeVul+, 并引入了SRCode训练框架, 首次在代码安全强化学习中使用token-level奖励进行细粒度优化. 实验表明该方法能有效减少生成代码中的安全漏洞.
Yongjian Zhan
cs.CC cs.DM cs.DS
本文提出了一种基于离散几何的微观结构模型来研究随机3-SAT问题. 该模型将相变和算法复杂性映射到布尔超立方体的组合拓扑上, 并推导了可满足与不可满足实例的绝对结构边界.
Varun Gopal et al.
cs.CV cs.AI
本文提出了一个用于评估图形布局生成质量的大规模人类偏好数据集 DesignSense-10k 以及一个基于视觉语言模型 (VLM) 的奖励模型。该模型在布局评估任务上显著超越了现有基线,并能有效提升下游布局生成器的性能。
Yifan Li et al.
eess.IV cs.AI cs.CV cs.LG
本文提出了一种基于小波域的mask-conditioned扩散模型SALIENT, 用于生成长尾分布下可控的CT病灶合成数据. 该方法在离散小波系数上进行结构化扩散, 并利用可学习的频率感知目标来解耦病灶与背景属性, 从而提升生成的真实性和下游检测任务的性能.
Yuhao Liu, Salim Ullah, Akash Kumar
cs.AR cs.AI
本文提出了一种受 Kolmogorov-Arnold Network (KAN) 启发的超轻量级神经网络硬件加速器 BiKA. 它通过使用可学习的二进制阈值替代非线性函数, 构建了一个仅需比较器和累加器的无乘法计算模式, 在 FPGA 上实现了显著的硬件资源节省.
Xu-Hui Zhou et al.
physics.flu-dyn cs.LG
本文提出了一种新的neural ensemble Kalman filter (EnKF)方法,用于解决含激波的可压缩流体的数据同化问题。该方法通过将流场预报集合映射到神经网络的参数空间,并在该空间执行更新,避免了传统EnKF在激波附近产生的非物理振荡。
Majid Khabbazian
cs.CR cs.DC cs.DS
本文提出了一种名为2G2T的协议,用于将多标量乘法(MSM)外包给不可信服务器并进行验证。该协议实现了恒定大小的响应和统计意义上的可靠性,验证速度远快于本地计算。
Rohan Thomas, Majid Bani-Yaghoub
math.NA cs.LG
本文通过将五次多项式实根构型的分类作为结构化基准, 测试了多种机器学习模型从原始系数中恢复可解释数学结构的能力. 研究发现, 神经网络在分布内预测上表现良好, 但并未自主发现离散的、人类可解释的数学规则, 而可解释性可能需要显式的结构性归纳偏置.
Yulun Zhang et al.
cs.MA cs.AI cs.RO
本文提出了Mixed Guidance Graph Optimization (MGGO)方法, 用于优化lifelong multi-agent path finding中的mixed guidance graph. 该方法能够同时优化边的权重和方向, 为智能体提供更严格的路径指导.
Tugrul Gorgulu et al.
cs.RO cs.AI
本文介绍了一个用于端到端自动驾驶研究的新数据集TaCarla, 该数据集在CARLA仿真环境中采集, 包含超过285万帧数据, 覆盖了多样化的驾驶场景. 该数据集旨在支持规划、感知、预测等多种任务, 并提供了用于评估场景稀有性的数值评分.
Lianna Hambardzumyan et al.
cs.CC cs.LG
本文引入了spiky rank这一新的矩阵参数, 它通过结合blocky rank的组合结构与线性代数的灵活性, 增强了后者. 该参数被应用于证明矩阵刚性下界和深度-2 ReLU电路的下界.
Puru Vaish et al.
eess.IV cs.AI cs.CV
本文提出了一种用于医学图像分割的潜在空间正则化框架 SegReg, 通过在 U-Net 的特征图上施加约束来鼓励结构化的嵌入表示. 该方法在多个器官分割任务上验证了其在领域泛化和持续学习方面的有效性.
Mike Middleton et al.
cs.CV cs.AI cs.LG
本文介绍了一个名为ANTShapes的神经形态视觉数据集模拟框架,用于生成用于异常检测的定制化事件相机数据。该工具通过模拟可配置的3D场景和随机物体行为来克服真实动态视觉传感器数据稀缺的问题。
Meisam Mohammady et al.
cs.CR cs.LG
本文提出了一种名为Lap2的新方法, 用于在高维场景下实现基于Laplace机制的差分隐私随机梯度下降(DP-SGD). 该方法通过引入L2范数裁剪和利用majorization理论来构造隐私损失界限, 从而克服了传统Laplace DP-SGD因依赖L1范数裁剪而在高维模型中效用低下的问题. 实验表明, 该方法在强隐私约束下能达到与Gaussian DP-SGD相当甚至更好的性能.
Arkaprabha Ganguli et al.
stat.ML cs.LG
本文提出了一种利用辅助变量引导的生成模型框架, 旨在解耦暗物质晕热Sunyaev-Zel'dovich (tSZ)图的物理表征. 该方法将晕的质量和浓度作为辅助变量, 通过施加对齐惩罚来引导潜在空间的维度反映这些物理量. 所提出的解耦潜在条件流匹配 (DL-CFM) 模型能够生成清晰的样本, 并恢复了已知的质量-浓度标度关系.
Faiz Aladin et al.
cs.RO cs.CV cs.LG
本文提出了一种名为V-MORALS的方法,用于从图像轨迹数据中学习一个latent space,并在此空间中进行reachability analysis。该方法通过构建Morse Graph来估计Regions of Attraction,无需已知系统动力学或完整状态信息。
Chi-Sheng Chen et al.
eess.IV cs.CV cs.LG
本文提出了一种结合冻结预训练基础模型与任务特定低秩适应(LoRA)模块的方法, 用于解决3D脑部MRI图像在少样本持续学习中的挑战. 该方法在顺序到来的肿瘤分割和脑龄估计任务上, 通过仅训练LoRA适配器和任务头, 实现了零遗忘和极低的参数量, 取得了平衡的性能.
Adam Block, Abhishek Shetty
stat.ML cs.LG
本文研究了在给定 proposal distribution 和未归一化密度比的情况下,估计 partition function 的统计复杂度。它引入了一个称为 integrated coverage profile 的泛函来刻画样本复杂度,并将其与 \(f\)-divergence 联系起来,统一了重要性采样等经典方法。
Kart Leong Lim
cs.ET cs.LG
本文提出了一种基于深度强化学习的组件中心布局方法, 用于自动化PCB元件放置. 该方法通过固定主元件并离散化周围空间来缩减搜索范围, 并结合先验知识设计奖励函数, 在多个真实PCB上取得了接近人工布局的效果.
Bin Xu et al.
eess.IV cs.AI cs.CV
本文提出了一种用于全切片图像生存分析的层次化多尺度图学习模型HMKGN. 该模型通过构建具有空间局部约束的层次化动态图来整合多尺度特征, 在多个癌症数据集上取得了优于现有方法的生存预测性能.
Somjit Roy, Pritam Dey, Bani K. Mallick
stat.ME cs.LG cs.SC stat.CO stat.ML
本文提出了一种基于变分推断的符号回归概率框架VaSST, 它通过软符号树对离散的符号表达式空间进行连续松弛, 从而将组合搜索问题转化为梯度优化问题. 该方法能够进行不确定性量化, 并在实验中展现了良好的性能.
Ishna Satyarth, Eric C. Larson, Devin A. Matthews
physics.chem-ph cs.LG
本文提出了一种使用机器学习回归模型来校正tensor hyper-contraction (THC)近似误差的方法。该方法在MP3能量计算上进行了测试,结果表明非线性回归模型能显著降低THC近似与精确计算之间的误差。
Ruxiao Duan, Alex Wong
cs.CV cs.AI cs.LG
本文提出了一种用于Neural Radiance Fields (NeRF)的不确定性量化方法,能够同时估计偶然不确定性和认知不确定性。该方法在保持渲染质量的同时,通过单次前向传播高效地提供不确定性估计。
Jeongbin Hong et al.
cs.CV cs.AI
本文提出了一种名为CycleBEV的正则化框架, 用于增强鸟瞰图语义分割中的视图变换模型. 该方法引入了一个逆视图变换网络, 通过循环一致性损失在训练时进行正则化, 从而在不增加推理复杂度的前提下提升了多个基准模型的性能.
Abhishek Dalvi, Vasant Honavar
cs.CV cs.AI cs.LG
本文提出了一种名为HDFLIM的框架, 用于对齐冻结的预训练视觉和语言模型. 该方法通过将单模态嵌入投影到共享的超高维空间, 并利用轻量级的符号操作来构建跨模态表示, 从而在不更新模型参数的情况下实现图像描述生成.
Hiroshi Sasaki
cs.CV cs.AI
本文提出了一种新的训练范式来增强视觉语言模型对图表(如流程图)的理解能力. 该方法通过一个图表渲染器生成伪对比样本, 在不修改原始数据的情况下突出图表的结构差异, 从而提升模型对细粒度结构变化的敏感性. 在流程图基准数据集上的实验表明, 该方法在图文匹配和视觉问答任务上优于标准的CLIP训练方法.
Zebin Yang et al.
cs.RO cs.AI cs.SE
本文提出了一种名为KEEP的KV-cache-centric内存管理系统,旨在提升具身规划任务中LLM的效率。该系统通过减少KV缓存的重计算和优化内存加载,在保持精度的同时显著降低了推理延迟。
Yoichi Chikahara
stat.ML cs.LG
本文提出了一种贝叶斯框架, 用于从异方差观测数据中推断独立的均值因果图和方差因果图. 该方法通过变分推断学习两个图的后验分布, 并利用曲率感知优化等技术提升效率, 在合成与真实数据上验证了其有效性.
Yoichi Chikahara
stat.ML cs.LG
本文提出了一种在因果图信息不完全已知的情况下实现干预公平性的学习框架. 该方法利用变量簇级别的因果图, 通过识别调整簇集来训练预测模型, 以减少不同干预分布之间的差异.
Ziang Yin et al.
physics.optics cs.AI cs.ET
本文提出了一种名为 ReDON 的新型衍射光学神经网络处理器, 它通过可重构的、循环的自调制非线性机制, 克服了传统衍射光学神经网络在非线性响应和可重编程性方面的限制. 该架构在图像识别和分割任务上相比先前方法取得了显著的性能提升.
Shibo Hong et al.
cs.CV cs.AI
本文提出了一个名为DLEBench的新基准, 专门用于评估基于指令的图像编辑模型(IIEMs)在编辑小尺度物体方面的能力. 该基准包含一个具有挑战性的测试集和一套旨在减少主观性的评估协议, 实验揭示了现有模型在此任务上的显著性能差距.
Christopher Chukwuemeka, Hojun You, Mikyoung Jun
stat.ML cs.LG math.ST stat.AP stat.ME
本文提出了一种多变量时空神经Hawkes过程, 用于建模具有时空动态的复杂多变量事件数据. 该方法通过将空间信息整合到潜在状态演化中, 扩展了连续时间神经Hawkes过程, 并在模拟和恐怖主义数据应用中展示了其捕获时空交互的能力.
Jielin Qiu et al.
cs.SD cs.AI
本文提出了AudioCapBench, 一个用于评估大型多模态模型音频描述能力的基准测试。该基准覆盖环境声音、音乐和语音三个领域, 并采用基于参考的指标和LLM-as-Judge框架对13个模型进行了评估。
Haowen Zhu, Ning Yin, Xiaogen Zhou
cs.CV cs.AI
本文提出了一个用于3D MRI多器官异常检测的医学模态感知预训练框架MedMAP. 该方法通过模态感知的视觉-语言对齐预训练和下游任务微调, 在构建的数据集MedMoM-MRI3D上取得了优于现有视觉语言模型的效果.
Wei Luo et al.
cs.CV cs.AI
本文提出了一种用于视觉语言模型(VLMs)的鲁棒且高效的开集测试时适应(OSTTA)框架ProtoDCS. 它通过一个基于概率验证的双重检查分离机制来区分协变量偏移的分布内(csID)和分布外(csOOD)数据, 并采用基于证据的原型级更新策略进行高效适应.
R. I. El-Kholy, Z. M. Hayman
astro-ph.EP astro-ph.IM cs.LG
本文探讨了在系外行星宜居性分类中应用基于池的主动学习(active learning)方法,以应对极端类别不平衡和观测资源有限的挑战。研究通过集成多个主动学习模型的预测,为后续观测目标提供了不确定性感知的优先级排序。
Ziye Jia et al.
cs.NI cs.AI
本文提出了一种结合区块链与零信任架构的路由方案, 用于提升低空智能网络(LAINs)的安全性与性能. 通过将路由问题建模为去中心化部分可观测马尔可夫决策过程, 并设计基于多智能体双深度Q网络的路由算法进行求解, 仿真结果表明该方案在端到端延迟和传输成功率上优于基准方法.
Masahiro Kato
stat.ML cs.LG econ.EM math.ST stat.ME
本文提出了一种用于策略学习的General Bayes框架, 将决策问题(如治疗选择或投资组合选择)表述为基于损失的贝叶斯更新问题. 通过引入一个平方损失代理(squared-loss surrogate)将经验福利最大化重写为带二次正则化的缩放平方误差最小化, 从而得到一个允许高斯伪似然解释的广义后验.
Dingqi Ye et al.
cs.CV cs.LG
本文提出了一个名为rs-embed的Python库,旨在解决遥感基础模型在格式、平台和数据规范上的异构性问题。该库提供了一个统一的、以感兴趣区域为中心的接口,使用户能够便捷地获取不同模型在不同时空条件下的嵌入表示。
Emilio Barkett
cs.HC cs.AI
本文运用社会技术想象(sociotechnical imaginaries)框架, 分析了OpenAI和Anthropic两家公司在AGI论述中使用的修辞策略. 研究发现, 尽管存在执行差异, 但两家公司采用了结构一致的修辞操作来构建其技术权威.
Seungyeol Baek et al.
cs.RO cs.AI
本文提出了一种用于无人机和移动机器人遥操作的多模态手势识别框架, 融合了来自Apple Watch的惯性数据(加速度计, 陀螺仪, 方向)和来自定制手套的电容传感信号. 该框架采用基于对数似然比(LLR)的后期融合策略, 在提高识别性能的同时, 通过量化模态特定贡献提供了可解释性. 实验表明, 该框架在保持与先进视觉基线相当性能的同时, 显著降低了计算成本, 模型大小和训练时间.
Hao Wu et al.
cs.CV cs.CL
本文提出了一种名为HiDrop的框架, 用于减少Multimodal Large Language Models (MLLMs)中视觉token的二次计算开销. 该方法通过Late Injection和Concave Pyramid Pruning with Early Exit等创新机制, 在压缩约90%视觉token的同时保持了模型性能.
Qian Li et al.
cs.NI cs.DS
本文针对时间敏感网络(TSN)中一种常见的菊花链拓扑结构, 研究了无等待调度的计算问题. 作者将调度问题转化为区间图上的一种带约束的图着色问题, 并证明了该问题在多项式时间内可解, 从而设计出了一个高效的优化算法.
Zhengyu Wu, Jun Liu, Wei Wang
math.NA cs.CE cs.LG
本文提出了一种基于边界积分和神经算子的网格变形方法. 该方法通过Dirichlet型Green张量建立边界积分表示, 并设计了BINO模型来学习Green牵引核, 实现了计算效率与网格质量的平衡.
Wenzhe Zhao et al.
cs.RO cs.AI
本文提出了一种基于LLM的免训练双层决策架构SAGE-LLM, 用于无人机动态决策. 该框架通过模糊控制屏障函数验证机制确保安全性, 并利用基于星型层次图的知识检索增强生成来提升场景适应能力.
Hariz Yet et al.
cs.NI cs.AI
本文在5G SA AI-RAN测试平台上,通过固定基线策略测量了LLM推理在设备、RAN边缘和云端的性能。研究发现,设备端推理无法满足亚秒级延迟要求,而RAN边缘的可行性主要取决于模型变体选择,云端则在1.0秒内能可靠完成所有请求。在饱和下行流量下,MIG隔离技术能保障基站基带处理的时序健康。
Hao Wu et al.
cs.CV cs.CL
本文提出了一个统一的Token剪枝框架UTPTrack, 用于提升基于Transformer的视觉跟踪器的效率. 该框架首次联合压缩了搜索区域, 动态模板和静态模板, 在多个基准测试上取得了精度与效率的良好平衡.
Karthik Sriram, Ankur Sinha, Suvashis Choudhary
stat.AP cs.LG
本文提出了一种基于时空核密度估计的非参数模型, 用于犯罪预测. 该方法整合了历史数据和专家知识, 并在与德里警方的合作中进行了实际部署测试, 以优化巡逻车辆调度.
Tadahisa Okuda et al.
stat.ME cs.AI cs.LG
本文提出了一种在现实世界工作流约束下进行纵向因果发现的方法框架. 该方法通过整合工作流衍生的结构掩码和时间索引来约束有向无环图空间, 以减少结构模糊性. 在一个大规模健康筛查队列数据上的应用表明, 该方法能产生时间一致且可解释的因果效应估计.
Tianci Tang et al.
cs.CV cs.AI
本文提出了一种名为Sea²的主动感知范式, 用于无监督跨域视觉适应. 该方法不调整感知模型本身, 而是通过一个由视觉语言模型(VLM)转化而来的智能姿态控制智能体(agent)来调整其部署方式, 利用标量感知反馈引导智能体寻找信息丰富的视角, 从而提升下游视觉任务在室内新场景中的性能.
Laura State, Salvatore Ruggieri, Franco Turini
cs.CY cs.LG
本文提出了一个名为ReasonX的声明式解释工具, 它基于线性约束理论上的封闭代数运算. 该工具旨在为决策树模型提供可交互的解释, 并允许用户以线性约束的形式融入背景知识.
Xuhui Dou, Hayretdin Bahsi, Alejandro Guerra-Manzanares
cs.CR cs.AI cs.LG
本文提出了一种用于软件漏洞预测的混合置信度感知选择性回放方法, 以缓解大型语言模型在时序微调中的灾难性遗忘问题. 该方法在基于CVE的双月时序数据集上取得了优于基准的性能与效率平衡.
Wei Lian, Alejandro Guerra-Manzanares
cs.CR cs.AI cs.LG
本文提出了一个用于工业物联网安全的多层入侵检测框架MI\(^2\)DAS, 它结合了异常检测, open-set recognition和增量学习来应对新型网络攻击. 在Edge-IIoTset数据集上的实验表明, 该框架在不同检测层级上均取得了良好的性能.
Qihao Ma et al.
math.OC cs.LG math.NA stat.ML
本文提出了一种基于分布式半光滑Newton法的增广Lagrangian方法, 用于求解网络上的优化问题. 该方法通过分布式加速近端梯度法高效计算Newton方向, 并提供了收敛性保证.
Xiaoyu Guo, Arkaitz Zubiaga
cs.CV cs.CL
本文提出了一种基于BERT和CLIP的多模态多任务模型,用于检测AI生成的图像并识别其生成模型。该方法通过跨模态特征融合和伪标签数据增强策略,在相关竞赛中取得了中等水平的性能。
Ibragim Badertdinov et al.
cs.SE cs.CL
本文介绍了一个用于软件工程智能体训练的大规模、语言无关的任务收集与执行环境构建系统. 该系统通过自动化流程从真实代码仓库中提取可执行任务, 并生成可复现的执行环境.
Karolina Drabik et al.
math.CO cs.DM cs.DS
本文研究了merge-width这一统一了treewidth, clique-width, twin-width等图参数的家族, 证明了其几种定义的等价性, 并探讨了其与顶点排序、邻域覆盖等图论性质的联系。
Faisal Hawladera et al.
cs.CV cs.LG
本文提出了一种利用V2X通信将部分计算任务卸载到云端的自适应方法, 用于自动驾驶车辆的360度3D感知. 该方法通过动态划分处理层和量化特征来适应网络带宽变化, 在真实世界评估中显著降低了端到端延迟.
Alejandro Guerra-Manzanares, Jialin Huang
cs.CR cs.AI cs.LG
本文通过实验评估了三种基于流的特征集在多个IoT网络入侵检测数据集上的可迁移性. 研究发现, 模型在跨域应用时性能显著下降, 特征集和分类算法的选择对可迁移性有重要影响.
Sandip Bhattacharya, Vanessa da Silva, Christina Kohlmann
physics.chem-ph cs.AI stat.AP
本文提出了一种利用预测建模和基于模拟的数字服务来寻找个人护理配方中合成成分的天然替代品的方法. 该方法旨在帮助配方设计师在满足性能和成本要求的前提下, 快速探索环境友好的替代方案.
Qihua Dong et al.
cs.CV cs.AI cs.CL
本文提出了一个新的 Referring Expression Comprehension (REC) 基准数据集 Ref-Adv, 旨在通过设计包含复杂语言表达和困难干扰物的样本, 来抑制现有模型依赖捷径(shortcuts)进行预测的行为. 实验表明, 尽管当前的多模态大语言模型(MLLMs)在传统基准上表现良好, 但在 Ref-Adv 上性能显著下降, 揭示了它们在视觉推理和基础(grounding)能力上的不足.
Pramit Saha et al.
cs.CV cs.AI cs.LG
本文提出了一种用于乳腺超声筛查与诊断的、名为BUSD-Agent的经验引导级联多智能体框架。该框架通过一个两阶段的决策流程,利用记忆库中的历史决策轨迹来指导当前病例的处理,旨在减少不必要的诊断升级和活检转诊。
Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu
cs.CV cs.LG
本文提出了一种名为SegMate的高效2.5D医学图像分割框架,旨在降低计算资源消耗。该模型通过整合非对称架构和注意力机制等设计,在多个数据集上实现了与先进模型相当的精度,同时显著减少了计算量和内存占用。
Jiaqi Tang et al.
cs.CV cs.AI
本文提出了一种基于拓扑的迁移性估计框架, 用于无训练地评估医学基础模型在分割任务上的适用性. 该方法通过量化特征-标签结构的同构性和边界区域的流形可分性, 在基准测试上显著优于现有方法.
Jingwen Wang et al.
cs.RO cs.LG
本文提出了一种不依赖预定义蓝图的自主机器人装配框架, 通过强化学习策略在动态环境中决策, 并在二维积木搭建任务上验证了其处理噪声的可行性.
Bowen Sun et al.
cs.DC cs.AI cs.PF
本文提出了一种名为LACE-RL的服务器无服务计算管理框架,旨在动态平衡冷启动延迟和空闲碳排放。该框架使用深度强化学习来调整函数实例的保活时长,同时考虑实时电网碳强度和负载模式。实验表明,与静态策略相比,该方法能显著减少冷启动和碳排放。
Dongxu Zhang et al.
cs.CV cs.AI cs.MM
本文提出了一个名为 PointCoT 的新框架,旨在通过显式的 Chain-of-Thought 推理来增强多模态大语言模型对 3D 点云的理解能力。该方法构建了一个大规模指令调优基准,并通过双流架构整合语义与几何信息,在复杂推理任务上取得了先进性能。
Mingjie Zhang et al.
cs.CV cs.AI
本文提出了一种结合并行注意力的双分支微表情特征提取网络. 该方法在CASME II数据集上取得了优于对比方法的识别准确率.
Xiran Xu et al.
cs.SD cs.AI
本文提出了一个用于处理EEG和MEG信号的Sequential Hierarchical Integration Network (SHINE), 旨在从MEG信号中重建语音-静默序列. 在竞赛中, 该方法与基线模型集成后取得了较高的F1分数.
Magda Dubois et al.
cs.HC cs.AI
本文研究了大型语言模型中的"奉承"现象, 即模型倾向于给出迎合用户的回答. 通过实验设计, 作者发现将用户陈述转换为问题形式能有效减少这种倾向.
Jifan Shi et al.
cs.DB cs.DS cs.IR
本文提出了一种名为IVF-RaBitQ的GPU原生近似最近邻搜索方法, 它结合了基于聚类的IVF索引与RaBitQ量化技术. 该方法旨在实现快速的索引构建, 高吞吐量的搜索, 高召回率以及低存储开销, 并在多个数据集上展示了优于现有方法的性能.
Advaith Maddipatla et al.
q-bio.BM cs.LG
本文提出了一种用于蛋白质构象集合生成的推理时优化框架. 该方法通过优化潜在表示而非扰动结构来最大化实验数据的似然, 并结合了来自AlphaFold3和力场的先验进行采样.
Zhicheng Fang et al.
cs.CR cs.AI cs.CL cs.LG
本文介绍了一个名为JAILBREAK FOUNDRY的系统,旨在解决大语言模型越狱攻击评估中的可复现性和标准化问题。该系统通过多智能体工作流将论文转化为可执行模块,并在统一框架内进行评估,从而减少了实现代码量并提高了代码复用率。
Na Min An et al.
cs.CV cs.AI
本文提出了一种可解释的、模型无关的视觉语言模型去偏框架DeBiasLens。该框架通过稀疏自编码器定位模型中对社会属性敏感的神经元,并通过选择性失活这些神经元来缓解偏见,同时保持模型的语义知识。
Ferran Agullo et al.
cs.DC cs.AI cs.CL cs.LG
本文提出了一种数据驱动的 pipeline, 用于优化分布式 LLM adapter serving 中的 GPU 效率. 该方法通过构建 Digital Twin 和机器学习模型来预测性能, 并利用贪心算法进行 adapter 放置, 以减少服务给定 workload 所需的 GPU 数量.
Sean M. Alderman, John D. Hastings
cs.NI cs.CR cs.LG
本文提出了一种基于流特征的两阶段无监督流程, 用于IoT设备流量画像和增量模型更新. 该方法在静态基线画像中使用DBSCAN聚类, 并在增量适应中评估了BIRCH等流式聚类方法, 揭示了高纯度静态画像与增量聚类灵活性之间的权衡.
Chenwei Jia et al.
cs.CV cs.AI
本文提出了一种用于大型视觉语言模型量化的新方法, 称为Quant Experts (QE). 该方法通过混合专家(MoE)结构进行token感知的自适应误差补偿, 以处理不同token间重要通道分布的差异, 在多种量化设置下提升了任务精度.
Joon Kiat Chua, Donghao Huang, Zhaoxia Wang
cs.MA cs.CL
本文提出了一个用于支付流程的层次化多智能体系统(HMASP), 该系统利用LLM实现端到端的自动化支付工作流. 它采用模块化架构, 通过不同层级的智能体进行协调与任务执行, 实验证明了其可行性.
Jiajia Li et al.
cs.SD cs.CL
本文提出了一个名为SongSong的模型, 用于根据输入的宋词文本生成对应的古代风格音乐. 该模型通过预测旋律、分别生成人声和伴奏, 并最终合成音乐. 作者还构建了一个包含29.9小时数据的宋词音乐数据集OpenSongSong用于训练和评估.
Nathanael Jo, Nikhil Garg, Manish Raghavan
cs.CY cs.LG
本文探讨了机器学习模型(包括大语言模型)的"monoculture"现象, 指出其评估具有主观性. 作者认为, 对模型间"过度一致"的判断依赖于对独立性基准模型的选择以及所考察的模型和问题集合, 并通过实验验证了这一观点.
Yuxuan Zhang et al.
cs.CV cs.AI cs.LG
本文提出了DiffusionHarmonizer,一个在线生成增强框架,用于提升神经重建场景(如NeRF和3D Gaussian Splatting)渲染结果的真实感和时间一致性。该方法通过一个定制化的数据流水线训练一个单步时序条件增强器,能够有效处理外观融合、伪影校正和光照真实性问题。
Vikash Singh et al.
cs.CV cs.AI cs.CL cs.LO
本文提出了一种用于验证视觉语言模型(VLMs)生成放射学报告逻辑一致性的神经符号验证框架. 该框架将文本发现形式化为命题证据, 并利用SMT求解器和临床知识库来检测诊断主张中的逻辑不一致性.
Omar Alterkait et al.
hep-ex cs.LG physics.ins-det
本文提出了一种端到端可微的光学粒子探测器模拟器, 将模拟, 校准和重建统一在一个可微框架内. 该方法通过基于梯度的优化同时进行校准和重建, 简化了分析流程, 并在精度和速度上与传统方法相当或更优.
Zhengren Wang et al.
cs.CV cs.CL
本文提出了一种名为AgenticOCR的动态解析范式, 用于提升多模态检索增强生成(RAG)系统处理视觉文档的效率. 该方法将OCR从静态的全文本处理转变为查询驱动的按需提取系统, 通过分析文档布局并选择性识别感兴趣区域, 从而减少生成器接收的无关上下文.
Omar Mohamed et al.
cs.CV cs.AI
本文提出了一种名为TASOT的无监督方法,用于手术视频中的阶段与步骤识别。该方法通过结合视频生成的文本信息,将时序动作分割构建为一个多模态最优传输问题,无需特定领域的大规模预训练。
Martial Guidez, Stefan Duffner, Christophe Garcia
cs.CV cs.LG
本文提出了一种名为RAViT的多分支Vision Transformer框架, 用于图像分类. 该框架通过在不同分辨率图像副本上处理并引入early exit机制, 在保持精度的同时显著降低了计算成本.
Rishabh Kabra et al.
cs.CV cs.AI
本文提出了一种称为Omnivorous Vision Encoder的新框架,旨在解决DINOv2等预训练视觉编码器在不同模态(如RGB、深度图)特征表示不一致的问题。该方法通过结合模态对齐和知识蒸馏的目标,训练出一个能对同一场景的不同输入模态产生一致且强大嵌入的编码器。
Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit
cs.CV cs.LG
本文提出了一个用于医学图像分类系统审计的多模态切片发现框架, 旨在自动检测和解释系统性故障. 该框架整合了图像以外的模态信息, 在资源受限的场景下也显示出潜力.
Kush Grover et al.
cs.GT cs.AI cs.LO
本文在随机系统中引入了resilience的概念, 研究在决策可能被扰动翻转的情况下, 如何制定稳健的策略. 作者针对具有reachability和safety目标的Markov决策过程, 提出了多种聚合扰动量的方法, 并将其扩展到stochastic games.
Yasaman Haghighi, Alexandre Alahi
cs.CV cs.LG
本文提出了一种基于敏感度感知的缓存框架(SenCache)来加速Diffusion Model的推理. 该方法通过分析模型输出对去噪输入的敏感性, 动态地选择缓存时间步, 在多个视频生成模型上取得了优于现有启发式缓存方法的效果.
Albert Dominguez Mantes, Gioele La Manno, Martin Weigert
cs.CV cs.LG
本文提出了一种用于显微图像多尺度分析的多分辨率视觉Transformer架构MuViT. 该模型通过将不同分辨率的图像块嵌入到共享的世界坐标系中, 并扩展rotary positional embeddings, 使注意力机制能够在一个编码器内整合宽视野上下文和高分辨率细节. 在多个显微图像任务上的实验表明, 该方法优于现有的ViT和CNN基线模型.
Maksym Veremchuk, K. Andrea Scott, Zhao Pan
physics.flu-dyn cs.LG
本文提出了一种名为BLISSNet的深度算子学习模型, 用于从稀疏传感器测量中快速准确地重建流体流动. 该模型采用类似DeepONet的架构, 支持在任意大小域上进行零样本推理, 并在首次调用后通过预计算部分网络组件实现高效推断, 其速度甚至可能超过传统的径向基函数或双三次插值方法.
Eugène Berta et al.
stat.ML cs.LG
本文提出了一种用于估计\(L_p\)校准误差的变分估计器。该方法扩展了现有的变分框架,能够处理由\(L_p\)散度诱导的校准误差,并避免了传统非变分方法可能导致的过高估计问题。
Jialiang Fan et al.
cs.RO cs.AI
本文提出了一种名为SafeGen-LLM的方法,旨在提升机器人任务规划中的安全性泛化能力。该方法通过两阶段训练框架,在包含安全约束的多领域基准上取得了优于现有基准模型的效果。
Kriti Thakur, Alivelu Manga Parimi, Mayukha Pal
eess.SY cs.AI cs.LG
本文提出了一种基于Transformer编码器的模型FaultXformer, 用于在有源配电系统中进行故障分类和定位. 该模型利用PMU获取的实时电流时序数据, 通过两阶段处理提取特征并完成分类与定位任务, 在IEEE 13节点测试系统上的实验表明其性能优于传统的CNN, RNN和LSTM基线模型.
James Cheshire, Stephan Clémençon
stat.ML cs.LG
本文研究了在更一般的主动学习设置下的 bipartite ranking 问题, 其中假设后验分布满足 H\"older 光滑性约束. 作者提出了一种名为 smooth-rank 的新算法, 旨在最小化估计排序规则的 ROC 曲线与最优曲线之间的 sup 范数距离, 并证明了该算法是 PAC 的. 文章还提供了算法采样时间的上下界分析, 并展示了支持其性能的数值结果.
Arnas Uselis, Andrea Dittadi, Seong Joon Oh
cs.CV cs.LG
本文从几何角度分析了视觉嵌入模型实现组合泛化所需的条件. 研究指出, 表征需要具备线性分解和正交性, 并在多个现代视觉模型中验证了这些几何特性与泛化性能的相关性.
Shengqu Cai et al.
cs.CV cs.LG
本文提出了一种结合Mode Seeking与Mean Seeking的训练范式, 通过Decoupled Diffusion Transformer统一表示, 将局部保真度与长期连贯性解耦. 该方法利用在长视频上监督训练的全局Flow Matching头来捕捉叙事结构, 同时使用局部Distribution Matching头通过mode-seeking reverse-KL散度将滑动窗口与一个冻结的短视频教师模型对齐, 从而能够生成分钟级的长视频.

- 数据来源 Data Source: arXiv.org

- 本网页的内容由 bluearXiv-ai 自动生成。实际抓取的是 arXiv 中 "new" 页面的数据,即最近的有所在分类论文变动的一天的数据。

- 感谢 arXiv 提供的服务。评论和精选由 AI 生成,不代表任何人对论文本身的看法。精选依赖于论文与给定关键词的匹配度。

- 计数基于主学科,不计重数。

- This webpage is automatically generated by bluearXiv-ai.

- The data actually captured is from the "new" page, that is, the data of the most recent day when there were changes in corresponding subjects.

- Thanks for services prodived by arXiv. Comments and selection of good papers are generated by AI, not showing anyone's point of view about those papers.

- The selection also depends on the matched-degrees between papers and given keywords.

- The counters are based on main subject, not counting multiplicities.