bluearXiv-ai - 2026-02-26

📄 所有论文 ↑ 回顶部

cs.LG

Latent Context Compilation: Distilling Long Context into Compact Portable Memory

Zeju Li, Yizhou Zhou, Qiang Xu

cs.LG cs.AI cs.CL

本文提出了一种名为Latent Context Compilation的框架, 用于将长上下文信息高效地压缩到LLM中. 该方法通过一个可丢弃的LoRA模块将长上下文编译成紧凑的、可移植的buffer tokens, 无需修改基础模型权重或依赖合成数据.

ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces

Ramchand Kumaresan

cs.LG cs.AI cs.CL

本文提出了一个用于多模型编排的测量框架ACAR, 它基于自洽性方差进行任务路由, 并在一个可审计的执行平台上进行了大规模评估. 实验结果表明, 该路由方法在避免完全集成的同时提升了准确率, 并揭示了检索增强、模型一致错误等实际假设的失败案例.

Urban Vibrancy Embedding and Application on Traffic Prediction

Sumin Han, Jisun An, Dongman Lee

cs.LG cs.AI

本文提出了一种从实时浮动人口数据中提取Urban Vibrancy embedding的方法，并将其用于增强交通预测模型。该方法结合了VAE和LSTM来预测动态embedding，实验表明其能提升多种交通预测模型的性能。

AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression

Rui Cen et al.

cs.LG cs.AI

本文介绍了AngelSlim, 一个用于大模型压缩的综合工具包. 它整合了量化, 推测解码, token剪枝和蒸馏等多种先进算法, 旨在简化从模型压缩到工业部署的流程.

Group Orthogonalized Policy Optimization:Group Policy Optimization as Orthogonal Projection in Hilbert Space

Wang Zixian

cs.LG cs.AI stat.ML

本文提出了一种名为GOPO的新对齐算法, 它将策略优化问题从概率单纯形提升到Hilbert空间$L^2(\pi_k)$中处理. 通过将约束转化为线性正交条件并利用Hilbert投影定理, 算法得到了一个具有常数Hessian曲率和非饱和线性梯度的目标函数, 实验表明其在数学推理任务上具有竞争力.

Neural network optimization strategies and the topography of the loss landscape

Jianneng Yu, Alexandre V. Morozov

cs.LG stat.ML

本文对比了随机梯度下降(SGD)与拟牛顿法在神经网络训练中的表现, 通过分析损失景观(loss landscape)的拓扑结构来理解不同优化器的特性. 研究发现SGD倾向于找到更平滑、泛化性更好的区域, 而拟牛顿法则可能陷入更深但更孤立的极小值.

Robust AI Evaluation through Maximal Lotteries

Hadi Khalaf et al.

cs.LG

本文针对基于 pairwise comparisons 的语言模型评估方法, 指出传统的 Bradley-Terry 排名聚合存在缺陷. 作者提出了 robust lotteries 方法, 以优化最坏情况下的性能, 从而在大型偏好数据集上提供更可靠的胜率保证和稳定的顶级模型集合.

SymTorch: A Framework for Symbolic Distillation of Deep Neural Networks

Elizabeth S.Z. Tan, Adil Soubki, Miles Cranmer

cs.LG

本文介绍了SymTorch, 这是一个用于自动化深度神经网络符号蒸馏的框架. 它通过封装网络组件并利用PySR生成可读方程, 旨在降低将符号回归集成到深度学习工作流中的工程障碍.

Shared Nature, Unique Nurture: PRISM for Pluralistic Reasoning via In-context Structure Modeling

Guancheng Tu et al.

cs.LG

本文提出了一种名为PRISM的方法, 旨在通过动态的即时认知图来增强大型语言模型, 以促进推理的多样性. 该方法在多个创意基准测试中展现了提升新颖性和分布多样性的能力.

Uncertainty-Aware Diffusion Model for Multimodal Highway Trajectory Prediction via DDIM Sampling

Marion Neumeier et al.

cs.LG cs.CV cs.RO

本文提出了一种基于DDIM采样的扩散模型cVMDx，用于高速公路多模态轨迹预测。该方法提升了推理效率与预测鲁棒性，并通过高斯混合模型处理不确定性。

Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

Emre Can Acikgoz et al.

cs.LG

本文提出了一个名为Tool-R0的框架, 用于从零数据开始训练通用工具调用智能体. 该框架通过自我对弈强化学习, 协同进化任务生成器和求解器, 在多个工具使用基准测试中取得了显著性能提升.

Dynamic Symmetric Point Tracking: Tackling Non-ideal Reference in Analog In-memory Training

Quan Xiao et al.

cs.LG cs.AR math.OC

本文针对Analog in-memory computing (AIMC)训练中因器件非理想特性导致的权重更新偏差问题，提出了一种动态对称点跟踪方法。该方法无需昂贵的预校准，通过在线估计和修正偏差来保证训练收敛，并通过数值实验验证了其有效性。

Equitable Evaluation via Elicitation

Elbert Du et al.

cs.LG cs.AI cs.CY

本文提出了一种用于技能评估的交互式AI系统, 旨在通过"激发"(elicitation)方式更准确地获取个人技能信息, 同时允许个体保持其自然的表达风格. 该系统通过使用LLM生成合成人类数据进行训练, 并引入一个严格的数学公平性概念来减少评估误差与自我呈现风格之间的协方差, 以同时缓解内生偏见和系统性模型偏见.

Efficient Opportunistic Approachability

Teodor Vanislavov Marinov et al.

cs.LG cs.GT

本文研究了opportunistic approachability问题, 这是Blackwell approachability的一种推广, 旨在当对手限制其行动空间时获得更强的保证. 作者提出了一种高效算法, 实现了$O(T^{-1/4})$的收敛速率, 避免了之前方法中所需的在线校准步骤. 对于对手行动集维度不超过2的情况, 作者证明了可以达到最优的$O(T^{-1/2})$速率.

HiPPO Zoo: Explicit Memory Mechanisms for Interpretable State Space Models

Jack Goffinet, Casey Hanks, David E. Carlson

cs.LG

本文提出了一个名为"HiPPO zoo"的统一框架, 通过五种显式扩展来增强HiPPO框架, 使其支持自适应内存分配和联想记忆等现代状态空间模型(SSMs)的能力, 同时保持其在正交多项式(OP)基上的可解释性. 这些模型可以在线调整内存并进行高效的流式训练, 作者通过一系列合成序列建模任务展示了其行为与优势.

Archetypal Graph Generative Models: Explainable and Identifiable Communities via Anchor-Dominant Convex Hulls

Nikolaos Nakis et al.

cs.LG stat.ML

本文提出了一种名为GraphHull的可解释图生成模型。该模型使用双层凸包结构来表示网络，旨在同时实现高性能和预测的可解释性。

Black-Box Reliability Certification for AI Agents via Self-Consistency Sampling and Conformal Calibration

Charafeddine Mouzouni

cs.LG cs.AI cs.CL stat.ML

本文提出了一种通过 self-consistency sampling 和 conformal calibration 来为黑盒 AI agent 提供可靠性认证的方法. 该方法为每个系统-任务对输出一个具有有限样本、无分布保证的可靠性数值, 并在多个基准测试和模型上进行了验证.

Interleaved Head Attention

Sai Surya Duvvuri et al.

cs.LG

本文提出了一种名为 Interleaved Head Attention (IHA) 的新注意力机制, 旨在解决标准 Multi-Head Attention (MHA) 中注意力头之间缺乏交互的问题. 通过在原始查询、键、值的基础上构造伪头并进行线性组合, IHA 允许跨头混合, 从而在多项合成任务和真实世界推理基准上展现出性能提升.

The Mean is the Mirage: Entropy-Adaptive Model Merging under Heterogeneous Domain Shifts in Medical Imaging

Sameer Ambekar et al.

cs.LG cs.AI

本文提出了一种用于医学影像领域在未见过的测试分布偏移下进行模型融合的熵自适应在线方法. 该方法通过仅使用前向传播来生成针对特定批次的融合模型, 并解耦了编码器和分类头以缓解不匹配问题. 在多个数据集上的实验表明, 该方法在保持单模型推理的同时, 性能优于现有基线.

VCDF: A Validated Consensus-Driven Framework for Time Series Causal Discovery

Gene Yu, Ce Guo, Wayne Luk

cs.LG cs.AI cs.CE

本文提出了一种用于时间序列因果发现的验证共识驱动框架(VCDF), 该框架作为一个与基础算法无关的附加层, 通过评估因果关系在分块时间子集上的稳定性来提高鲁棒性. 实验表明, VCDF能有效提升多种方法在合成和模拟数据上的性能与稳定性.

Defensive Generation

Gabriele Farina, Juan Carlos Perdomo

cs.LG stat.ML

本文提出了一种名为"Defensive Generation"的在线生成方法, 旨在高效地产生无法被预设计算测试所证伪的生成模型. 该方法基于在线高维多校准与变分不等式问题的联系, 能够处理非伯努利结果, 并在样本数量上具有近线性的时间复杂度.

FedVG: Gradient-Guided Aggregation for Enhanced Federated Learning

Alina Devkota et al.

cs.LG cs.AI cs.CV

本文提出了一种名为FedVG的联邦学习聚合框架, 它利用一个全局验证集来指导优化过程. 该方法通过计算客户端模型在验证集上的分层梯度范数来评估其泛化能力, 并据此进行自适应聚合, 实验表明其在异构数据场景下能提升性能.

Generative Bayesian Computation as a Scalable Alternative to Gaussian Process Surrogates

Nick Polson, Vadim Sokolov

cs.LG stat.AP stat.CO stat.ME stat.ML

本文提出了一种名为Generative Bayesian Computation (GBC)的新代理模型框架，使用Implicit Quantile Networks (IQNs)来克服传统Gaussian process (GP)代理模型在计算成本、平稳性假设和预测分布方面的限制。该方法通过学习条件分位数函数来生成预测分布，在多个基准测试中展现了优于GP方法的性能，特别是在处理非平稳数据和扩展到大训练集时。

Benchmarking State Space Models, Transformers, and Recurrent Networks for US Grid Forecasting

Sunki Hong, Jisoo Lee, Yuanyuan Shi

cs.LG eess.SY

本文对几种深度学习模型在美国电网预测任务上的表现进行了基准测试. 结果表明, 没有一种模型在所有情况下都是最优的, 其性能高度依赖于具体的数据环境和预测任务.

Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

Yuanda Xu et al.

cs.LG cs.AI

本文提出了一种非对称置信度感知错误惩罚方法(ACE), 用于解决强化学习可验证奖励(RLVR)中因均匀惩罚错误而导致的探索受限问题. 该方法通过置信度偏移量动态调整负优势, 并在多个模型和基准测试上验证了其提升Pass@k性能的有效性.

On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation

Alexander Galozy

cs.LG cs.AI

本文研究了部分可观测环境下强化学习智能体的行为依赖性, 将其定义为在固定观测下, 动作选择随内部信息(如记忆或推断的潜在上下文)的变化. 作者提出了基于探测的行为等价概念和度量探测敏感性的行为距离, 并证明了关于凸聚合下行为依赖性集合非封闭性等三个结构性结果. 通过简单的赌博机和网格世界实验验证了这些机制, 表明在特定条件下, 常见策略变换无法保持基于探测的行为分离.

Proximal-IMH: Proximal Posterior Proposals for Independent Metropolis-Hastings with Approximate Operators

Youguang Chen, George Biros

cs.LG stat.CO

本文提出了一种名为Proximal-IMH的采样方法，用于从贝叶斯反问题的后验分布中采样。该方法通过一个辅助优化问题来校正来自近似后验的样本，从而在计算效率和准确性之间取得平衡。

Provably Safe Generative Sampling with Constricting Barrier Functions

Darshan Gadginmath, Ahmed Allibhoy, Fabio Pasqualetti

cs.LG cs.AI eess.SY math.OC

本文提出了一种用于流式生成模型的安全过滤框架, 通过在线修正采样过程来保证生成样本满足硬约束. 该方法利用收缩型安全管和控制屏障函数(CBF)设计凸二次规划(QP), 在最小化分布偏移的同时实现可证明的安全采样.

Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

Shiwei Tan et al.

cs.LG cs.AI cs.CV

本文提出了一种因果解码框架, 用于减少多模态大语言模型(MLLMs)中的物体幻觉问题. 该方法通过在生成过程中进行有针对性的因果干预来抑制虚假物体提及, 在多个基准测试中有效降低了幻觉率.

MINAR: Mechanistic Interpretability for Neural Algorithmic Reasoning

Jesse He et al.

cs.LG cs.AI

本文提出了一种名为MINAR的工具箱, 用于在神经算法推理(NAR)的图神经网络(GNN)中进行机制可解释性分析. 该工具箱将归因修补等方法适配到GNN中, 并通过案例研究展示了其发现神经元级计算电路的能力.

When Learning Hurts: Fixed-Pole RNN for Real-Time Online Training

Alexander Morgan et al.

cs.LG

本文分析了在数据受限的实时学习场景中，学习RNN的recurrent poles（极点）为何收效甚微。研究表明，固定极点的架构能产生更稳定、条件更好的状态表示，从而以更低的训练复杂度实现更优的性能。

Effects of Training Data Quality on Classifier Performance

Alan F. Karr, Regina Ruane

cs.LG q-bio.GN stat.ML

本文通过数值实验研究了训练数据质量对分类器性能的影响, 特别关注了在宏基因组组装背景下, 多种数据降质机制对四种分类器的影响. 研究发现, 随着数据质量下降, 所有分类器都表现出类似的性能崩溃模式, 其决策趋于退化且一致性增加.

Asymptotically Fast Clebsch-Gordan Tensor Products with Vector Spherical Harmonics

YuQing Xie et al.

cs.LG physics.comp-ph

本文提出了一种用于计算Clebsch-Gordan tensor products的完整算法，实现了从$O(L^6)$到$O(L^4\log^2 L)$的渐进加速。该方法通过推广基于快速傅里叶变换的卷积，并引入tensor spherical harmonics来弥补先前Gaunt tensor product在表达完整性上的不足。

Geometric Priors for Generalizable World Models via Vector Symbolic Architecture

William Youngwoo Chung et al.

cs.LG

本文提出了一种基于Vector Symbolic Architecture (VSA)的可泛化世界模型，通过引入几何先验来提升模型的解释性、样本效率和泛化能力。模型使用可学习的Fourier Holographic Reduced Representation (FHRR)编码器将状态和动作映射到具有学习到的群结构的高维复向量空间，并使用逐元素复数乘法来建模状态转移。在离散网格世界环境中的实验表明，该模型在未见过的状态-动作对上实现了高零样本准确率，并在多步预测和抗噪性方面显著优于MLP基线。

D-Flow SGLD: Source-Space Posterior Sampling for Scientific Inverse Problems with Flow Matching

Meet Hemant Parikh, Yaqin Chen, Jian-Xun Wang

cs.LG

本文提出了一种用于科学反问题的源空间后验采样方法 D-Flow SGLD. 该方法基于 Flow Matching 先验, 通过结合可微分的源推断与预处理的随机梯度 Langevin 动力学, 实现了对新测量算子的高效后验探索.

The Design Space of Tri-Modal Masked Diffusion Models

Louis Bethune et al.

cs.LG

本文提出了一种三模态掩码扩散模型, 并在文本、图文和音频文本数据上从头开始预训练. 通过系统分析多模态缩放规律、混合比例和噪声调度等, 提供了优化的推理采样默认设置, 并基于SDE重新参数化消除了对最优批大小的调优需求. 最后, 作者预训练了一个30亿参数的初步模型, 在文本生成、文生图和文生语音任务上取得了良好结果.

GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning

Ningyuan Yang et al.

cs.LG cs.AI cs.CL

本文提出了一种名为GradAlign的数据选择方法，用于大语言模型（LLM）的强化学习训练。该方法通过利用一个小的可信验证集，优先选择那些策略梯度与验证集梯度方向一致的问题，从而构建一个自适应课程。实验表明，该方法在多种具有挑战性的数据场景下优于现有基线，提升了训练的稳定性和最终性能。

Learning Recursive Multi-Scale Representations for Irregular Multivariate Time Series Forecasting

Boyuan Li et al.

cs.LG

本文提出了一种用于不规则多元时间序列预测的递归多尺度建模方法ReIMTS. 该方法通过递归分割样本并利用原始时间戳来保留采样模式信息, 从而捕捉全局到局部的依赖关系.

WaterVIB: Learning Minimal Sufficient Watermark Representations via Variational Information Bottleneck

Haoyuan He et al.

cs.LG cs.CR cs.CV

本文提出了一种名为WaterVIB的鲁棒水印框架，通过Variational Information Bottleneck原理来学习消息的最小充分统计量，以抵抗基于生成的攻击。该方法旨在过滤掉容易在生成过程中被改变的冗余封面细节，从而提升水印的鲁棒性。

Training Generalizable Collaborative Agents via Strategic Risk Aversion

Chengrui Qu et al.

cs.LG cs.AI cs.MA

本文提出了一种基于 strategic risk aversion 的多智能体强化学习算法, 旨在提升智能体与未见过的合作伙伴进行协作时的泛化能力. 该方法在多个协作基准测试中表现出更可靠的合作性能.

Muon+: Towards Better Muon via One Additional Normalization Step

Ruijie Zhang et al.

cs.LG

本文提出了一种对Muon优化器的简单改进Muon+, 它在正交化步骤后增加了一个归一化步骤. 实验表明, 该方法在多种模型规模和架构的预训练中, 相比原版Muon能持续提升训练和验证困惑度(perplexity).

Mamba Meets Scheduling: Learning to Solve Flexible Job Shop Scheduling with Efficient Sequence Modeling

Zhi Cao et al.

cs.LG

本文提出了一种基于Mamba状态空间模型的架构来解决Flexible Job Shop Scheduling Problem (FJSP). 该方法通过一个包含dual Mamba block的encoder和一个cross-attention decoder来分别提取operation和machine的特征并学习它们的交互嵌入, 在多个基准测试中实现了更快的求解速度并超越了现有基于学习的方法.

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

Zhao Yang et al.

cs.LG q-bio.GN

本文指出, 在基因表达预测任务中, 单纯延长输入DNA序列长度会降低模型性能, 而整合近端多模态表观基因组信号更为关键. 作者提出了Prism框架, 通过学习高维特征组合来表征不同的染色质背景状态, 并利用后门调整来减轻混杂效应, 从而在使用短序列的情况下取得了先进的预测性能.

From Basis to Basis: Gaussian Particle Representation for Interpretable PDE Operators

Zhihao Li et al.

cs.LG cs.AI

本文提出了一种基于Gaussian basis的表示方法, 用于学习PDE算子. 该方法通过可学习的Gaussian粒子来表示场, 并设计了一个具有近线性复杂度的算子, 在标准基准测试中取得了有竞争力的结果.

Training-free Composition of Pre-trained GFlowNets for Multi-Objective Generation

Seokwon Yoon et al.

cs.LG

本文提出了一种无需训练即可组合预训练 GFlowNets 的混合策略, 用于多目标生成任务. 该方法支持从线性标量化到非线性逻辑算子的多种奖励组合, 并在合成与真实分子生成任务中验证了其有效性.

Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

Sweta Karlekar et al.

cs.LG

本文提出了一种名为 Duel-Evolve 的进化优化算法，用于在测试时优化大型语言模型(LLM)的输出。该方法利用 LLM 自身产生的成对偏好比较来引导搜索，无需外部奖励模型或真实标签，并在数学和代码生成基准上取得了优于现有方法的效果。

ABM-UDE: Developing Surrogates for Epidemic Agent-Based Models via Scientific Machine Learning

Sharv Murgai et al.

cs.LG cs.CE

本文提出了一种名为ABM-UDE的方法, 通过Universal Differential Equations (UDEs)为基于智能体的流行病模型(ABMs)构建快速替代模型. 该方法结合了multiple shooting和prediction-error method (PEM)来稳定训练, 并保证了模型的正定性和质量守恒, 从而实现了在普通硬件上快速进行情景规划.

Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

Zheng Gao et al.

cs.LG cs.CR cs.CV

本文提出了一种针对语义感知水印的攻击方法, 利用LLM引导的语义注入在保持图像整体连贯性的同时破坏水印信号. 该方法通过约束嵌入空间的相似性来实现视觉-语义的一致性, 从而有效诱导水印检测器误判.

NGDB-Zoo: Towards Efficient and Scalable Neural Graph Databases Training

Zhongwei Xie et al.

cs.LG

本文提出了一个名为NGDB-Zoo的统一框架，旨在提升神经图数据库的训练效率和表达能力。它通过解耦逻辑运算符与查询拓扑，实现了算子级训练和动态调度的数据流执行，从而提高了训练吞吐量。此外，该框架整合了预训练文本编码器的语义先验，以缓解混合神经符号推理中的表示摩擦。

Deep Clustering based Boundary-Decoder Net for Inter and Intra Layer Stress Prediction of Heterogeneous Integrated IC Chip

Kart Leong Lim, Ji Lin

cs.LG cs.CE

本文提出了一种结合 boundary-decoder net 与 deep clustering 的方法, 用于预测异构集成 IC 芯片的层间与层内应力. 该方法在模拟的应力图像数据集上取得了优于基线和其他变体的训练与测试误差.

AgentLTV: An Agent-Based Unified Search-and-Evolution Framework for Automated Lifetime Value Prediction

Chaowei Wu et al.

cs.LG cs.MA

本文提出了一个基于智能体的统一搜索与进化框架 AgentLTV，用于自动化 Lifetime Value (LTV) 预测建模。该框架通过 LLM 驱动的智能体生成和评估候选解决方案，结合了 Monte Carlo Tree Search (MCTS) 和 Evolutionary Algorithm (EA) 两阶段搜索策略，并在实验和在线部署中验证了其有效性。

Multimodal Survival Modeling and Fairness-Aware Clinical Machine Learning for 5-Year Breast Cancer Risk Prediction

Toktam Khatibi

cs.LG q-bio.QM

本文提出了一个用于乳腺癌5年总生存期预测的多模态机器学习框架, 整合了临床变量与高维转录组和拷贝数变异特征. 该框架比较了弹性网络正则化的Cox模型(CoxNet)和基于XGBoost的梯度提升生存树模型, 并评估了其预测性能与跨亚组的公平性.

Error-awareness Accelerates Active Automata Learning

Loes Kruger, Sebastian Junges, Jurriaan Rot

cs.LG cs.LO

本文针对Active automata learning (AAL)在系统输入空间大时难以扩展的问题, 提出了一种利用可观测错误(observable errors)信息来加速学习的方法. 作者根据对"哪些输入在哪些状态下不会产生错误"这一领域知识的不同掌握程度, 对现有算法L#进行了相应改进, 实验表明这些改进能显著提升学习效率.

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

David Eckel, Henri Meeß

cs.LG cs.MA

本文提出了一种用于合作式多智能体强化学习(MARL)的层次化训练架构HLC, 它通过结合局部与全局视角来提升学习效率和策略鲁棒性. 实验表明该方法在多个基准测试上优于单层次基线, 并能适应智能体数量增加和任务难度提升.

TiMi: Empower Time Series Transformers with Multimodal Mixture of Experts

Jiafeng Lin et al.

cs.LG

本文提出了一种名为TiMi的多模态时间序列预测方法, 它利用LLMs生成关于未来发展的推理来指导预测. 通过引入一个轻量级的Multimodal Mixture-of-Experts模块, 该方法无需显式的表征对齐即可整合外生因子和时间序列数据. 实验表明, TiMi在多个真实世界基准上取得了先进的性能.

Learning Complex Physical Regimes via Coverage-oriented Uncertainty Quantification: An application to the Critical Heat Flux

Michele Cazzola et al.

cs.LG physics.data-an stat.ML

本文针对Critical Heat Flux (CHF)预测这一多物理场问题，比较了不同的uncertainty quantification (UQ)方法在科学机器学习中的应用。研究表明，coverage-oriented的学习方法比post-hoc的conformal prediction更能使模型适应复杂的物理机制，从而获得更可靠的预测和不确定性估计。

C$^{2}$TC: A Training-Free Framework for Efficient Tabular Data Condensation

Sijia Xu et al.

cs.LG cs.DB

本文提出了一个名为C$^{2}$TC的训练免费表格数据压缩框架。它通过将压缩问题重新表述为类别自适应聚类分配问题，并设计了高效的启发式局部搜索算法，显著提升了压缩效率。

From Words to Amino Acids: Does the Curse of Depth Persist?

Aleena Siji et al.

cs.LG

本文分析了六种流行的protein language models (PLMs)在不同训练目标下的深度效率问题。研究发现，与large language models (LLMs)类似，PLMs的深层网络贡献度也存在递减现象，这为设计更高效的架构提供了动机。

Learning from Yesterday's Error: An Efficient Online Learning Method for Traffic Demand Prediction

Xiannan Huang, Quan Yuan, Chao Yang

cs.LG cs.AI

本文提出了一种名为FORESEE的轻量级在线适应框架, 用于交通需求预测. 该方法通过结合指数平滑和专家混合机制来校正预测误差, 无需更新基础模型参数, 从而在动态环境中实现高效且稳健的预测.

Generalisation of RLHF under Reward Shift and Clipped KL Regularisation

Kenton Tang, Yuzhu Chen, Fengxiang He

cs.LG cs.AI stat.ML

本文为RLHF(Reinforcement Learning from Human Feedback)在奖励偏移和KL(Kullback-Leibler)剪枝正则化下的泛化性提供了理论分析。研究探讨了奖励模型与策略优化之间的分布偏移问题，并给出了包含采样误差、奖励偏移误差和KL剪枝误差的泛化界。

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

JuneHyoung Kwon et al.

cs.LG cs.CV

本文针对存在数据偏见的机器学习模型，提出了一个名为CUPID的遗忘学习框架。该框架通过分析损失景观的锐度来区分因果与偏见样本，并分别更新对应的模型参数，以缓解模型在遗忘特定数据时出现的"捷径遗忘"问题。

Excitation: Momentum For Experts

Sagi Shaier

cs.LG cs.AI

本文提出了一种名为Excitation的新型优化框架, 旨在加速Mixture-of-Experts (MoEs)等稀疏架构的学习. 该框架通过动态调整基于专家利用率的更新, 提高了模型的收敛速度和最终性能.

DocDjinn: Controllable Synthetic Document Generation with VLMs and Handwriting Diffusion

Marcel Lamott et al.

cs.LG

本文提出了DocDjinn框架, 利用Vision-Language Models (VLMs)和基于扩散的手写生成技术, 从无标注的种子样本中生成可控的合成文档. 该方法通过聚类选择种子和参数化采样来生成视觉逼真、语义一致的文档, 并在多个文档理解任务上进行了评估.

JSAM: Privacy Straggler-Resilient Joint Client Selection and Incentive Mechanism Design in Differentially Private Federated Learning

Ruichen Xu, Ying-Jun Angela Zhang, Jianwei Huang

cs.LG cs.DC cs.GT

本文提出了一种名为JSAM的机制, 用于在差分隐私联邦学习中联合优化客户端选择和隐私补偿. 该机制旨在提升训练效率并控制成本.

xai-cola: A Python library for sparsifying counterfactual explanations

Lin Zhu, Lei You

cs.LG cs.AI cs.CY

本文介绍了一个名为 xai-cola 的 Python 库, 它提供了一个端到端的流程, 用于对任意生成器产生的反事实解释进行稀疏化处理. 该库旨在减少冗余的特征修改, 同时保持解释的有效性, 并提供了可视化和比较功能.

The Error of Deep Operator Networks Is the Sum of Its Parts: Branch-Trunk and Mode Error Decompositions

Alexander Heinlein, Johannes Taraz

cs.LG math.NA

本文分析了经典DeepONet架构的性能限制, 指出当内部维度足够大时, 其近似误差主要由分支网络主导, 并且学习的trunk基函数通常可以被经典基函数替代. 通过用训练解矩阵的左奇异向量替换trunk网络, 研究进一步揭示了分支网络存在谱偏差, 以及模式间在参数空间中存在强耦合等问题.

Learning in the Null Space: Small Singular Values for Continual Learning

Cuong Anh Pham, Praneeth Vepakomma, Samuel Horváth

cs.LG cs.CV

本文提出了一种名为NESS的continual learning方法, 它利用神经网络层输入表示的小奇异值(small singular values)来构建近似零空间(null space), 并将任务特定的参数更新约束在该子空间内. 该方法旨在通过直接在权重空间而非梯度空间施加正交性约束来缓解灾难性遗忘(catastrophic forgetting), 并在多个基准数据集上展示了稳定的性能.

Learning Unknown Interdependencies for Decentralized Root Cause Analysis in Nonlinear Dynamical Systems

Ayush Mohanty, Paritosh Ramanan, Nagi Gebraeel

cs.LG stat.ML

本文提出了一种用于非线性动态系统中去中心化根因分析的方法, 该方法在特征分区且客户端模型固定的联邦学习框架下学习未知的跨客户端依赖关系. 通过引入编码依赖关系的本地ML模型并利用模型残差进行RCA, 该方法在保护隐私的同时避免了修改专有模型或访问原始数据的需求.

Bayesian Generative Adversarial Networks via Gaussian Approximation for Tabular Data Synthesis

Bahrul Ilmi Nasution, Mark Elliot, Richard Allmendinger

cs.LG stat.ML

本文提出了一种名为GACTGAN的方法, 通过将Stochastic Weight Averaging-Gaussian (SWAG)这一贝叶斯后验近似技术集成到CTGAN生成器中, 用于合成表格数据. 该方法在训练后降低了计算开销, 并在保持数据结构与统计推断方面表现优于CTGAN, 同时降低了隐私风险.

Estimation and Optimization of Ship Fuel Consumption in Maritime: Review, Challenges and Future Directions

Dusica Marijan, Hamza Haruna Mohammed, Bakht Zaman

cs.LG

本文对海运船舶燃油消耗的估计与优化方法进行了全面的综述。文章将估计方法分类为基于物理的模型、机器学习模型和混合模型，并讨论了数据融合、可解释AI等新兴方向，同时指出了数据质量、实时优化等关键挑战和未来研究方向。

Robustness in sparse artificial neural networks trained with adaptive topology

Bendegúz Sulyok et al.

cs.LG physics.soc-ph

本文研究了一种采用自适应拓扑训练的高稀疏度人工神经网络的鲁棒性. 该网络结构简单, 在图像分类任务上取得了有竞争力的准确率. 通过实验分析了网络在多种扰动下的性能表现.

Compact Circulant Layers with Spectral Priors

Joseph Margaryan, Thomas Hamelryck

cs.LG

本文研究了在频域参数化的紧凑循环卷积层, 通过施加谱结构先验和进行结构化变分推断, 实现了内存高效的神经网络构建. 实验表明, 这些层在多种任务上能以更少的参数达到与基线相当的性能, 并提供更严格的Lipschitz保证.

Neural solver for Wasserstein Geodesics and optimal transport dynamics

Hailiang Liu, Yan-Han Chen

cs.LG math.OC stat.ML

本文提出了一种基于神经网络的求解器, 用于计算源分布与目标分布之间的Wasserstein测地线及其相关的速度场. 该方法基于最优传输(OT)的动态形式, 通过深度神经网络近似相关函数, 将约束优化问题转化为极小极大问题进行求解.

Function-Space Empirical Bayes Regularisation with Student's t Priors

Pengcheng Hao, Ercan Engin Kuruoglu

cs.LG

本文提出了一种基于Student's $t$先验的函数空间经验贝叶斯正则化框架ST-FS-EB, 用于贝叶斯深度学习. 该方法通过变分推断进行近似, 并在多个任务上展示了稳健的性能.

Disease Progression and Subtype Modeling for Combined Discrete and Continuous Input Data

Sterre de Jonge et al.

cs.LG

本文提出了一种名为Mixed Events model的新方法, 用于处理混合了离散和连续数据类型的疾病进展建模. 该方法被整合到SuStaIn框架中, 形成Mixed-SuStaIn, 并在模拟数据和阿尔茨海默病神经影像学倡议的真实数据上验证了其有效性.

Physics-Informed Machine Learning for Vessel Shaft Power and Fuel Consumption Prediction: Interpretable KAN-based Approach

Hamza Haruna Mohammed, Dusica Marijan, Arnbjørn Maressa

cs.LG cs.AI

本文提出了一种用于预测船舶轴功率和燃油消耗的物理信息Kolmogorov-Arnold网络(PI-KAN). 该方法结合了可解释的特征变换与物理约束, 在多个货船数据集上超越了传统多项式方法和神经网络基线, 在保持物理一致性的同时实现了更高的预测精度.

DualWeaver: Synergistic Feature Weaving Surrogates for Multivariate Forecasting with Univariate Time Series Foundation Models

Jinpeng Li et al.

cs.LG cs.AI

本文提出了一种名为 DualWeaver 的新框架，用于将单变量时间序列基础模型 (Uni-TSFMs) 适配到多变量预测任务中。该方法通过生成一对结构对称的代理序列来捕获变量间的依赖关系，并利用正则化项提升鲁棒性，在多个真实数据集上取得了优于现有方法的表现。

On Imbalanced Regression with Hoeffding Trees

Pantia-Marina Alchirch, Dimitrios I. Diochnos

cs.LG cs.AI

本文探讨了在数据流环境下处理不平衡回归任务的方法. 作者将批处理学习中的核密度估计(KDE)方法适配到流式场景, 并将其与层次收缩(HS)方法结合到增量决策树模型中. 实验表明, KDE在数据流早期阶段有益, 而HS则几乎无法带来性能提升.

Don't stop me now: Rethinking Validation Criteria for Model Parameter Selection

Andrea Apicella et al.

cs.LG cs.AI

本文通过系统性的实证研究, 比较了在神经网络分类器中, 使用不同的验证集准则(如准确率或损失函数)进行模型参数选择(特别是早停策略)对测试性能的影响. 研究发现, 基于验证集准确率的早停策略表现最差, 而基于损失函数的验证准则能带来更稳定和可比的测试性能.

Sample Complexity Bounds for Robust Mean Estimation with Mean-Shift Contamination

Ilias Diakonikolas et al.

cs.LG cs.DS

本文研究了在均值偏移污染模型下的一般基分布均值估计问题. 通过引入Fourier witness等工具, 在基分布特征函数满足温和谱条件时, 给出了样本高效的估计算法及其匹配的下界.

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

Qunyou Liu et al.

cs.LG cs.AR

本文提出了一种名为SigmaQuant的自适应层间异构量化框架, 旨在为不同的边缘设备环境高效平衡模型精度与资源使用, 而无需进行穷举搜索. 该方法通过为不同层分配不同的量化位宽来缓解均匀量化在低比特下的精度损失或资源利用不佳问题.

Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual

Yining Li, Peizhong Ju, Ness Shroff

cs.LG cs.AI

本文提出了一个用于安全RLHF的通用primal-dual框架，统一了多种现有对齐算法。基于此框架，作者引入了一种optimistic primal-dual算法，并为其在distributional policy空间和parameterized policy下的收敛性提供了理论保证。

Learning and Naming Subgroups with Exceptional Survival Characteristics

Mhd Jawad Al Rahwanji et al.

cs.LG

本文提出了一种名为Sysurv的非参数方法, 用于识别具有异常生存特征的亚组. 该方法利用随机生存森林学习个体生存曲线, 并自动生成可解释的规则, 在多个数据集上进行了实证评估.

Surrogate models for Rock-Fluid Interaction: A Grid-Size-Invariant Approach

Nathalie C. Pinheiro et al.

cs.LG cs.AI physics.flu-dyn

本文针对多孔介质中流体流动预测问题, 开发了八种替代模型(surrogate models). 其中四种为基于神经网络的降阶模型(ROM), 另外四种是具有网格尺寸不变性(grid-size invariance)的单神经网络模型. 研究比较了UNet和UNet++架构, 并展示了网格尺寸不变性方法在减少训练内存消耗方面的优势.

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Rui Yang et al.

cs.LG cs.AI cs.CL

本文提出了一种名为GUI-Libra的专门训练方法，用于提升原生GUI智能体在长视野导航任务中的性能。该方法通过构建高质量的动作对齐推理数据集，并设计了结合动作感知监督学习和针对部分可验证性问题的强化学习策略，有效改善了智能体的推理与执行能力。

cs.AI

A Dynamic Survey of Soft Set Theory and Its Extensions

Takaaki Fujita, Florentin Smarandache

cs.AI

本文是一篇关于soft set theory及其扩展的动态综述, 涵盖了从基础概念到多种变体(如hypersoft sets, TreeSoft sets等)的发展, 并讨论了其在拓扑学等领域的应用.

A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives

Dmitrii Pantiukhin et al.

cs.AI cs.IR cs.MA

本文提出了一个用于地球科学数据自主发现的分层多智能体系统PANGAEA-GPT。该系统通过协调的agent工作流来查询和分析异构数据，以减少人工干预。

Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information

Umid Suleymanov et al.

cs.AI

本文提出了一个名为SemSIEdit的推理时框架, 旨在处理大语言模型中的语义敏感信息泄露问题. 该框架通过一个代理"编辑器"进行迭代式批判与重写, 在降低信息泄露的同时, 尝试保持文本的叙事流畅性与实用性.

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Xiaoxuan Wang et al.

cs.AI

本文提出了ARLArena框架和SAMPO方法, 旨在解决Agentic Reinforcement Learning (ARL) 训练不稳定的问题. 该工作通过分解policy gradient的核心维度进行系统性分析, 为构建稳定的LLM-based agent训练流程提供了实用指导.

Power and Limitations of Aggregation in Compound AI Systems

Nivasini Ananthakrishnan, Meena Jagadeesan

cs.AI cs.GT

本文在 principal-agent 框架下研究了复合 AI 系统中聚合（aggregation）方法的能力与局限。分析表明，聚合通过几种机制扩展了可激发（elicitable）输出的集合，并提供了刻画这种扩展的充要条件。

The ASIR Courage Model: A Phase-Dynamic Framework for Truth Transitions in Human and AI Systems

Hyo Jin Kim

cs.AI cs.CY

本文提出了一个用于描述人类与AI系统中"真相披露"行为的相动力学框架. 该模型将真相表达视为一个状态跃迁过程, 并分析了促进力与抑制力之间的平衡条件.

fEDM+: A Risk-Based Fuzzy Ethical Decision Making Framework with Principle-Level Explainability and Pluralistic Validation

Abeer Dyoub, Francesca A. Lisi

cs.AI

本文提出了一个名为fEDM+的扩展模糊伦理决策框架。它在原有fEDM的基础上，增加了基于原则的解释模块和面向多利益相关者的验证机制。

Prompt Architecture Determines Reasoning Quality: A Variable Isolation Study on the Car Wash Problem

Heejin Jo

cs.AI cs.CL

本文通过变量隔离实验研究了提示架构对解决"洗车问题"这一推理基准的影响. 研究发现, 采用STAR推理框架能显著提升大型语言模型的准确率, 而添加上下文检索的增益相对较小.

Distill and Align Decomposition for Enhanced Claim Verification

Jabez Magomere et al.

cs.AI cs.CL cs.LG

本文提出了一种基于强化学习的方法, 通过联合优化分解质量与验证器对齐来增强复杂声明的验证. 该方法在多个评估设置中提升了下游验证性能, 使较小的语言模型能够达到先进的验证水平.

ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices

Dezhi Kong et al.

cs.AI

本文提出了一个名为 ProactiveMobile 的综合性基准测试，旨在评估和提升移动设备上多模态大语言模型(MLLMs)的主动智能能力。该基准通过模拟真实世界的复杂场景，要求模型根据上下文推断用户潜在意图并生成可执行的API序列。

2-Step Agent: A Framework for the Interaction of a Decision Maker with AI Decision Support

Otto Nyberg, Fausto Carcassi, Giovanni Cinà

cs.AI cs.LG

本文提出了一个名为"2-Step Agent"的计算框架, 用于建模AI辅助决策的影响. 该框架结合了Bayesian因果推断, 模拟了AI预测如何更新决策者的信念, 并进而影响其决策与结果.

Semantic Partial Grounding via LLMs

Giuseppe Canonaco, Alberto Pozanco, Daniel Borrajo

cs.AI

本文提出SPG-LLM方法, 利用LLMs分析PDDL描述, 在grounding前启发式地识别可能无关的对象、动作和谓词, 从而显著减小grounded任务的规模. 在多个基准测试中, 该方法实现了更快的grounding速度, 有时甚至快几个数量级.

Language Models Exhibit Inconsistent Biases Towards Algorithmic Agents and Human Experts

Jessica Y. Bo, Lillio Mok, Ashton Anderson

cs.AI

本文通过行为经济学实验范式, 研究了大型语言模型(LLMs)在决策任务中如何权衡来自人类专家和算法代理的信息. 研究发现, LLMs在直接评估信任度时偏向人类专家, 但在基于绩效的激励性选择中却更倾向于选择算法代理, 揭示了其对信息源存在不一致的偏见, 并强调了任务呈现格式对模型评估的重要性.

Petri Net Relaxation for Infeasibility Explanation and Sequential Task Planning

Nguyen Cong Nhat Le et al.

cs.AI

本文提出了一种基于Petri net reachability relaxation的方法, 用于在sequential task planning中检测不可行性并提供解释. 该方法利用增量约束求解器支持目标和约束的更新, 在实验中表现出良好的不可行性检测和序列规划更新性能.

cs.IR

Revisiting Text Ranking in Deep Research

Chuan Meng et al.

cs.IR cs.AI cs.CL

本文在深度研究任务中，系统性地复现并评估了信息检索文本排序方法的关键发现与最佳实践。研究通过固定语料库数据集，从检索单元、流程配置和查询特性三个角度，分析了不同检索器与重排序器的表现，发现代理生成的类网页搜索查询更偏好词汇和稀疏检索方法，而将查询转化为自然语言问题能有效弥合训练数据与使用场景的差异。

Revisiting RAG Retrievers: An Information Theoretic Benchmark

Wenqing Zheng et al.

cs.IR cs.AI cs.LG

本文提出了一个基于互信息的RAG检索器分析框架MIGRASCOPE, 用于系统性地评估不同检索机制的质量、冗余度与协同效应. 通过该框架对主流检索器进行分析, 发现精心组合的检索器集成方案可以超越任何单一检索器, 为构建鲁棒的RAG系统提供了实用指导.

Retrieval Challenges in Low-Resource Public Service Information: A Case Study on Food Pantry Access

Touseef Hasan, Laila Cure, Souvika Sarkar

cs.IR cs.AI

本文针对公共服务信息检索中的低资源环境挑战, 以食品储藏室访问为例, 开发了一个基于AI的对话式检索系统. 该系统采用RAG (Retrieval-Augmented Generation) 管道处理自然语言查询, 并通过试点评估揭示了其在处理不明确查询和不一致知识库时的局限性.

AQR-HNSW: Accelerating Approximate Nearest Neighbor Search via Density-aware Quantization and Multi-stage Re-ranking

Ganap Ashit Tewary, Nrusinga Charan Gantayat, Jeff Zhang

cs.IR

本文提出了一种名为AQR-HNSW的新框架，通过结合密度感知的自适应量化、多阶段重排序和量化优化的SIMD实现，显著提升了HNSW算法的查询速度和内存效率。实验表明，该方法在保持高召回率的同时，实现了数倍的查询性能提升和内存占用降低。

Trie-Aware Transformers for Generative Recommendation

Zhenxiang Xu et al.

cs.IR cs.LG

本文提出了一种名为TrieRec的生成式推荐方法, 通过引入两种位置编码(绝对与相对)将item tokenization形成的trie(前缀树)结构信息融入Transformer模型. 该方法在多个数据集和骨干模型上取得了显著的性能提升.

Offline Reasoning for Efficient Recommendation: LLM-Empowered Persona-Profiled Item Indexing

Deogyong Kim et al.

cs.IR cs.LG

本文提出了一种名为Persona4Rec的推荐系统框架, 它利用LLM在离线阶段从物品评论中推理出代表不同用户动机的"persona"表示, 从而构建一个可解释的物品索引. 在线阶段则通过轻量级的用户-人物对齐模型进行快速相关性计算, 避免了昂贵的在线LLM推理, 在保持性能的同时显著降低了延迟.

Learning to Collaborate via Structures: Cluster-Guided Item Alignment for Federated Recommendation

Yuchun Tu et al.

cs.IR cs.LG

本文提出了一种联邦推荐框架CGFedRec, 通过传输紧凑的聚类标签而非完整的高维物品嵌入来促进跨客户端的协作. 该方法在保持推荐精度的同时, 显著提升了通信效率.

cs.CL

Disaster Question Answering with LoRA Efficiency and Accurate End Position

Takato Yasuno

cs.CL cs.IR cs.LG

本文提出了一种针对日本灾害情境的问答系统, 采用基于BERT的架构并结合LoRA进行高效优化, 在端位置准确率上取得了不错的结果. 该系统旨在为灾害响应提供可靠的信息支持, 并探讨了未来在基准数据集构建和轻量化部署方面的挑战.

Inference-time Alignment via Sparse Junction Steering

Runyi Hu et al.

cs.CL cs.AI

本文提出了一种名为Sparse Inference-time Alignment (SIA)的方法，用于在推理时对大型语言模型进行对齐控制。该方法仅在生成轨迹的关键决策点进行稀疏干预，而非在每个解码步骤都进行密集干预，从而在保持生成质量的同时显著降低了计算开销。实验表明，仅干预20%到80%的token即可实现优越的对齐效率权衡。

EQ-5D Classification Using Biomedical Entity-Enriched Pre-trained Language Models and Multiple Instance Learning

Zhyar Rzgar K Rostam, Gábor Kertész

cs.CL cs.AI

本文提出了一种结合生物医学实体信息与预训练语言模型的方法, 用于从文献摘要中自动检测EQ-5D相关研究. 通过使用scispaCy模型提取实体来增强句子表示, 并采用Multiple Instance Learning框架在文章层面进行预测, 该方法在性能上超越了传统基线模型.

Applied Sociolinguistic AI for Community Development (ASA-CD): A New Scientific Paradigm for Linguistically-Grounded Social Intervention

S M Ruhul Alam, Rifa Ferzana

cs.CL cs.AI cs.CY

本文提出了一个名为ASA-CD的新范式, 旨在利用基于语言分析的AI技术来辅助社区发展. 它引入了几个核心概念, 并通过概念验证研究展示了其潜在应用.

EPSVec: Efficient and Private Synthetic Data Generation via Dataset Vectors

Amin Banayeeanzade et al.

cs.CL cs.AI cs.CR cs.LG

本文提出了一种名为EPSVec的高效隐私保护合成数据生成方法. 该方法通过提取并净化一次性的"数据集向量"来引导大语言模型生成, 从而将隐私成本与生成过程解耦, 显著提升了效率. 实验表明, 该方法在低数据量下仍能保持良好的分布对齐和下游任务效用.

Reasoning-Based Personalized Generation for Users with Sparse Data

Bo Ni et al.

cs.CL cs.AI

本文提出了一个名为GraSPer的框架, 用于解决在用户交互数据稀疏场景下的个性化文本生成问题. 该框架通过预测用户未来可能交互的项目并生成相应的合成文本来增强上下文, 从而提升大型语言模型(LLM)的个性化生成效果.

Field-Theoretic Memory for AI Agents: Continuous Dynamics for Context Preservation

Subhadip Mitra

cs.CL cs.AI cs.LG

本文提出了一种基于连续场论的AI智能体记忆系统, 将记忆视为由偏微分方程控制的连续场而非离散条目. 该方法在长上下文基准测试中表现出性能提升, 并通过场耦合实现了多智能体场景下的高效协作.

Task-Aware LoRA Adapter Composition via Similarity Retrieval in Vector Databases

Riya Adsul et al.

cs.CL cs.AI cs.LG

本文提出了一种基于向量数据库相似性检索的动态LoRA适配器组合框架, 用于提升大语言模型在未见NLP任务上的零样本泛化能力. 该方法通过检索相似训练示例并动态融合相关适配器, 在多个任务上取得了与单任务微调相当或更优的性能.

Measuring Pragmatic Influence in Large Language Model Instructions

Yilin Geng et al.

cs.CL cs.AI

本文研究了在给大型语言模型(LLM)下达指令时，如何措辞（即语用框架）会影响模型的行为，即使任务内容本身不变。作者提出了一个包含指令-框架分解、分类体系和基于优先级的测量方法的框架，用以系统性地量化这种影响。实验表明，不同的语用框架策略能在多个LLM中引起一致且结构化的指令优先级变化。

Make Every Draft Count: Hidden State based Speculative Decoding

Yuetao Chen et al.

cs.CL cs.AI cs.DC cs.LG

本文提出了一种基于隐藏状态的推测解码系统, 旨在回收传统推测解码中被丢弃的草稿计算. 通过设计一种基于自回归隐藏状态的草稿模型架构和高效的令牌信息注入机制, 该系统能将验证失败的草稿转化为可重用的令牌, 从而提升硬件利用率和推理速度.

Architecture-Agnostic Curriculum Learning for Document Understanding: Empirical Evidence from Text-Only and Multimodal

Mohammed Hamdan et al.

cs.CL cs.AI cs.LG

本文通过实验研究了渐进式课程学习策略在不同架构的文档理解模型上的效果. 实验表明, 该策略能稳定地减少约33%的训练时间, 但其带来的额外性能提升取决于模型容量与任务复杂度的交互.

IslamicLegalBench: Evaluating LLMs Knowledge and Reasoning of Islamic Law Across 1,200 Years of Islamic Pluralist Legal Traditions

Ezieddin Elmahjub et al.

cs.CL cs.AI

本文提出了首个评估大型语言模型在伊斯兰法学领域知识和推理能力的基准IslamicLegalBench, 覆盖了七个法学流派和13个不同复杂度的任务. 评估结果显示, 现有模型在需要精确知识的任务上表现不佳, 且存在较高的幻觉率, 表明基于提示的方法无法弥补其基础知识的缺失.

Budget-Aware Agentic Routing via Boundary-Guided Training

Caiqi Zhang et al.

cs.CL cs.AI

本文提出了一种面向预算约束的智能体路由方法, 通过边界引导训练在每一步选择廉价或昂贵模型以优化成本-成功率边界. 该方法利用边界策略构建难度分类并引导稀疏奖励下的学习, 结合合成数据与策略优化. 实验表明该方法能以更低成本匹配基线性能, 并能泛化到严格的推理时预算约束.

ImpRIF: Stronger Implicit Reasoning Leads to Better Complex Instruction Following

Yuancheng Yang et al.

cs.CL cs.AI

本文提出了一种名为ImpRIF的方法，旨在通过增强大语言模型对指令中隐含推理结构的理解来提升其遵循复杂指令的能力。该方法将复杂指令形式化为可验证的推理图，并利用合成数据进行微调和强化学习。

TRACE: Trajectory-Aware Comprehensive Evaluation for Deep Research Agents

Yanyu Chen et al.

cs.CL

本文提出了一个名为TRACE的轨迹感知综合评估框架, 用于评估深度研究智能体. 该框架通过分层轨迹效用函数量化推理过程的质量与效率, 并引入支架式能力评估协议来测量智能体的潜在能力.

Structured Prompt Language: Declarative Context Management for LLMs

Wen G. Gong

cs.CL cs.DB cs.PL

本文提出了一种名为SPL的声明式语言, 用于管理LLM的上下文窗口. 该语言集成了token预算管理, 查询优化和RAG等功能, 并展示了其在多模型路由和智能文档处理等方面的应用潜力.

Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models

Sasha Robinson et al.

cs.CL cs.LG cs.MA

本文通过一个简单的多轮解谜游戏 Sokoban 来研究大型语言模型的说服能力和理性警惕性。研究发现，模型的任务表现、说服能力和警惕性是相互分离的，即使明确提示存在欺骗可能，模型也未必能有效识别误导。

ToolMATH: A Math Tool Benchmark for Realistic Long-Horizon Multi-Tool Reasoning

Hyeonje Choi et al.

cs.CL cs.LG cs.SE

本文提出了一个名为ToolMATH的数学工具基准测试，用于评估语言模型在需要调用多种工具进行多步推理的现实场景中的表现。该基准包含大量问题和工具，旨在诊断工具增强型智能体在复杂环境下的失败模式。

Alignment-Weighted DPO: A principled reasoning approach to improve safety alignment

Mengxuan Hu et al.

cs.CL cs.AI

本文提出了一种名为Alignment-Weighted DPO的方法，旨在通过增强推理能力来提升大语言模型的安全性。该方法构建了一个包含逐步推理过程的数据集进行微调，并改进了偏好优化算法，以针对输出中的不同部分进行更精细的调整。实验表明，该方法能有效提升模型对多种越狱攻击的鲁棒性。

Small Language Models for Privacy-Preserving Clinical Information Extraction in Low-Resource Languages

Mohammadreza Ghaffarzadeh-Esfahani et al.

cs.CL cs.AI cs.LG

本文评估了一个结合翻译模型与多个小型语言模型的两步流程, 用于从低资源语言的医疗文本中提取临床信息. 研究在波斯语癌症护理转录本上测试了多个模型, 发现较大模型在敏感性和整体性能上表现更好, 并证明了翻译策略的利弊, 为资源受限的临床NLP应用提供了一个隐私保护的可行方案.

Beyond Subtokens: A Rich Character Embedding for Low-resource and Morphologically Complex Languages

Felix Schneider et al.

cs.CL

本文提出了一种基于字符的Rich Character Embeddings (RCE)方法, 用于解决传统tokenization方法在形态丰富或低资源语言中捕捉orthographic相似性和morphological变化不足的问题. 该方法可直接从字符序列生成词向量, 并可与现有模型架构结合使用, 在多项评测任务中表现优于传统方法.

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Daniel Tamayo et al.

cs.CL cs.AI cs.LG

本文提出了MrBERT模型系列, 基于ModernBERT架构, 在35种语言和代码上进行预训练. 该模型通过词汇、领域和维度适应, 在特定语言任务和专业领域(如生物医学和法律)上取得了优异性能, 并利用Matryoshka Representation Learning实现了灵活的向量表示以降低推理和存储成本.

VecGlypher: Unified Vector Glyph Generation with Language Models

Xiaoke Huang et al.

cs.CL

本文提出了一种名为VecGlypher的多模态语言模型, 用于直接从文本描述或图像示例生成可编辑的矢量字形(SVG路径). 该方法通过两阶段训练策略, 在跨字体评估中取得了优于现有基准的性能.

Evaluating the Usage of African-American Vernacular English in Large Language Models

Deja Dunlap, R. Thomas McCoy

cs.CL cs.HC

本文通过分析人类语料库和模型生成文本, 比较了大型语言模型(LLMs)对非裔美国人白话英语(AAVE)的使用情况. 研究发现, 模型不仅使用不足且误用AAVE的语法特征, 还复制了关于非裔美国人的刻板印象.

Enhancing Multilingual Embeddings via Multi-Way Parallel Text Alignment

Barah Fazili, Koustava Goswami

cs.CL cs.AI cs.IR

本文提出了一种利用多语言平行语料库进行对比学习来增强多语言预训练模型跨语言对齐能力的方法. 该方法在多个NLU任务上提升了模型在已见和未见语言上的性能.

MixSarc: A Bangla-English Code-Mixed Corpus for Implicit Meaning Identification

Kazi Samin Yasar Alam et al.

cs.CL

本文构建了首个公开的孟加拉语-英语语码混合语料库MixSarc, 用于隐式含义识别. 该语料库包含9,087个手工标注的句子, 并基于此对多种模型进行了基准测试.

When More Is Less: A Systematic Analysis of Spatial and Commonsense Information for Visual Spatial Reasoning

Muku Akasaka, Soyeon Caren Han

cs.CL

本文通过系统实验分析了在视觉空间推理任务中注入额外信息(如空间线索、常识知识)的效果。研究发现, 并非信息越多越好, 选择性且与任务对齐的信息注入更为有效。

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

Yukun Chen et al.

cs.CL

本文提出了一种基于分层评分标准的课程学习框架RuCL, 用于提升多模态大语言模型的推理能力. 该方法通过动态调整评分权重来引导模型学习, 在多个视觉推理基准上取得了显著的性能提升.

Multi-dimensional Assessment and Explainable Feedback for Counselor Responses to Client Resistance in Text-based Counseling with LLMs

Anqi Li et al.

cs.CL

本文提出了一种用于评估心理咨询中咨询师应对来访者阻抗的文本干预的多维评估与可解释反馈管道. 该方法基于理论框架分解咨询师回应, 构建专家标注数据集, 并通过指令微调大语言模型来生成细粒度评估和解释. 实验表明该模型在评估质量和生成解释方面优于现有大模型, 并能有效提升咨询师的干预能力.

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

Yexing Du et al.

cs.CL

本文提出了一种融合语音与文本输入的Speech-guided Machine Translation (SMT)框架, 利用Multimodal Large Language Models (MLLMs)提升翻译质量. 通过引入Self-Evolution Mechanism生成并利用合成语音数据, 该框架在Multi30K和FLORES-200等基准测试中取得了先进的性能.

Mitigating Structural Noise in Low-Resource S2TT: An Optimized Cascaded Nepali-English Pipeline with Punctuation Restoration

Tangsang Chongbang et al.

cs.CL cs.AI cs.LG

本文针对低资源尼泊尔语到英语的语音翻译任务, 提出并评估了一个优化的级联系统. 通过引入一个标点恢复模块来缓解自动语音识别引入的结构噪声, 实验表明该模块显著提升了最终翻译的质量.

Sparsity Induction for Accurate Post-Training Pruning of Large Language Models

Minhao Jiang et al.

cs.CL cs.AI

本文提出了一种名为Sparsity Induction的方法，用于提升大型语言模型在训练后剪枝中的表现。该方法通过在剪枝前从分布和特征两个层面诱导模型产生更高的稀疏性，从而减少直接剪枝对模型状态的破坏。实验表明，该方法能有效提升剪枝性能。

DWA-KD: Dual-Space Weighting and Time-Warped Alignment for Cross-Tokenizer Knowledge Distillation

Duc Trung Vu et al.

cs.CL

本文提出了一种名为DWA-KD的跨分词器知识蒸馏框架。它通过双空间熵加权和基于Soft-DTW的序列对齐来改进token级和序列级的蒸馏效果。

Evaluating the relationship between regularity and learnability in recursive numeral systems using Reinforcement Learning

Andrea Silvi et al.

cs.CL cs.AI

本文使用 Reinforcement Learning 方法评估了递归数字系统中规律性与可学习性之间的关系。研究发现，高度规律的系统更容易学习，而高度不规律系统的可学习性则受信号长度影响。

Explore-on-Graph: Incentivizing Autonomous Exploration of Large Language Models on Knowledge Graphs with Path-refined Reward Modeling

Shiqi Yan et al.

cs.CL

本文提出了一个名为Explore-on-Graph (EoG)的新框架，旨在激励大型语言模型(LLMs)在知识图谱(KGs)上进行自主探索以增强推理。该方法通过引入强化学习，并利用路径信息作为额外的奖励信号来优化探索过程。实验表明，该框架在多个知识图谱问答基准数据集上取得了先进的性能。

Robust Long-Form Bangla Speech Processing: Automatic Speech Recognition and Speaker Diarization

MD. Sagor Chowdhury, Adiba Fairooz Chowdhury

cs.CL cs.LG cs.SD

本文针对孟加拉语长音频处理, 结合了经过微调的 Whisper 模型、声源分离和静音感知分块技术, 在自动语音识别任务上取得了较低的词错误率. 同时, 通过替换说话人日志系统中的分割模型并使用特定嵌入与聚类方法, 显著降低了说话人日志错误率.

Improving Implicit Discourse Relation Recognition with Natural Language Explanations from LLMs

Heng Wang, Changxing Wu

cs.CL

本文提出了一种利用大语言模型(LLM)生成的自然语言解释来增强隐式篇章关系识别(IDRR)模型性能与可解释性的方法. 该方法通过一个联合的分类-生成框架, 将LLM的推理能力蒸馏到轻量级模型中, 并在PDTB数据集上验证了其有效性.

D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models

Shunsuke Ubukata

cs.CL

本文提出了一种名为D-CoT的新框架，通过引入控制标签来结构化小语言模型(SLM)的思维链推理过程，以抑制“过度思考”并减少计算开销。实验表明，该方法在少量训练数据下显著提升了模型在多个基准上的性能。

FewMMBench: A Benchmark for Multimodal Few-Shot Learning

Mustafa Dogan et al.

cs.CL

本文提出了一个名为FewMMBench的基准测试, 用于评估多模态大语言模型在少样本学习场景下的性能. 该基准覆盖了从属性识别到时序推理等多种任务, 并对26个开源模型进行了系统评估.

Personalized Graph-Empowered Large Language Model for Proactive Information Access

Chia Cheng Chang et al.

cs.CL

本文提出了一个结合个人知识图谱与大型语言模型(LLM)的框架, 用于主动信息访问以帮助用户回忆遗忘的经历. 该框架具有灵活性, 实验表明其能有效识别被遗忘的事件.

ExpLang: Improved Exploration and Exploitation in LLM Reasoning with On-Policy Thinking Language Selection

Changjiang Gao et al.

cs.CL

本文提出了一种名为ExpLang的LLM后训练方法, 通过引入多语言思维链的在线策略选择来改进强化学习中的探索与利用. 实验表明, 该方法在相同训练预算下稳定优于仅使用英语的训练, 并展现出良好的语言遵从性.

Small Wins Big: Comparing Large Language Models and Domain Fine-Tuned Models for Sarcasm Detection in Code-Mixed Hinglish Text

Bitan Majumder, Anirban Sen

cs.CL

本文比较了大型语言模型与经过领域微调的DistilBERT模型在代码混合Hinglish文本中进行讽刺检测的性能。研究发现，在零样本和少样本设置下，经过微调的小型模型在低资源场景中表现更优。

MERRY: Semantically Decoupled Evaluation of Multimodal Emotional and Role Consistencies of Role-Playing Agents

Zhenyu Wang et al.

cs.CL

本文提出了一个名为MERRY的评估框架，用于解耦语义并评估多模态角色扮演代理在情感和角色一致性方面的表现。该框架通过引入新的度量标准和改进的LLM-as-Judge任务来提升评估的客观性，并基于此进行了广泛的实证分析。

Large Language Models are Algorithmically Blind

Sohan Venkatesh, Ashish Mahendran Kurapath, Tejas Melkote

cs.CL

本文评估了八个前沿LLMs在因果发现任务中预测算法性能的能力, 发现它们存在系统性失败. 作者将这种无法根据算法描述进行校准预测的现象称为"algorithmic blindness".

MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models

Boqi Chen et al.

cs.CL

本文提出了一个名为MEDSYN的多语言、多模态基准测试，用于评估多模态大语言模型在整合多种临床证据进行复杂病例诊断时的能力。研究发现，尽管模型在生成鉴别诊断方面表现良好，但在综合异质证据以确定最终诊断方面存在显著不足。

RADAR: Reasoning as Discrimination with Aligned Representations for LLM-based Knowledge Graph Reasoning

Bo Xue et al.

cs.CL

本文提出了一种名为RADAR的方法, 将基于大语言模型的知识图谱推理从生成式范式重新表述为判别式实体选择问题. 该方法利用强化学习增强实体表示的可分离性, 并直接在表示空间中进行推理, 在多个基准测试上取得了性能提升.

CxMP: A Linguistic Minimal-Pair Benchmark for Evaluating Constructional Understanding in Language Models

Miyu Oba, Saku Sugawara

cs.CL

本文提出了一个基于Construction Grammar的基准测试CxMP, 用于评估语言模型对"构式"(form-meaning pairings)的理解能力. 该基准通过九种构式的最小对比对进行测试, 结果表明大型语言模型在整合形式与意义方面仍存在不足.

A Diversity Diet for a Healthier Model: A Case Study of French ModernBERT

Louis Estève et al.

cs.CL

本文通过多样性驱动的采样算法研究了预训练数据多样性对ModernBERT模型性能的影响. 实验表明, 在特定任务上, 使用多样性采样的小规模数据集(1.5亿token)训练的模型, 其性能可媲美甚至超越使用随机采样的大规模数据集(24亿token)训练的模型.

DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain

Walter Hernandez Cruz et al.

cs.CL

本文介绍了DLT-Corpus，一个用于分布式账本技术(DLT)研究的大规模领域特定文本集合，包含科学文献、专利和社交媒体数据。作者通过分析技术涌现模式和市场创新相关性，展示了该语料库的实用性，并发布了领域适应模型LedgerBERT及相关工具。

Understanding Artificial Theory of Mind: Perturbed Tasks and Reasoning in Large Language Models

Christian Nickel et al.

cs.CL cs.AI

本文通过扰动错误信念任务来评估大语言模型(Large Language Models, LLMs)的Theory of Mind (ToM)鲁棒性, 并研究了Chain-of-Thought prompting (CoT)的影响. 研究发现, 所有被评估的LLMs在任务扰动下ToM能力急剧下降, 且CoT提示在某些扰动类型中反而会降低准确性.

Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference

Bo-Wei Chen, Chung-Chi Chen, An-Zi Yen

cs.CL

本文提出了一种基于置信度估计的动态模型选择策略, 用于在大型语言模型(LLM)推理中平衡性能与计算成本. 该方法通过评估模型对任务处理的置信度及其回答的准确性, 将简单任务分配给较小模型, 而将复杂任务委托给较大模型, 从而在保持高准确率的同时显著降低了计算开销和API调用成本.

IndicIFEval: A Benchmark for Verifiable Instruction-Following Evaluation in 14 Indic Languages

Thanmay Jayakumar et al.

cs.CL

本文提出了一个用于评估14种印度语言中大型语言模型遵循指令能力的基准IndicIFEval. 该基准包含两个互补的子集, 并对多个主流模型进行了全面评估, 揭示了模型在跨语言任务上的显著不足.

Dynamic Personality Adaptation in Large Language Models via State Machines

Leon Pielage et al.

cs.CL cs.HC cs.LG

本文提出了一个与模型无关的框架，用于实现大型语言模型（LLM）的动态人格模拟。该框架利用状态机（state machine）来表征潜在的人格状态，并通过一个模块化的人格评分管道来调整对话行为。

DySCO: Dynamic Attention-Scaling Decoding for Long-Context LMs

Xi Ye et al.

cs.CL

本文提出了一种名为DySCO的动态解码算法，用于提升语言模型在长上下文中的推理能力。该方法通过检索头识别相关上下文并进行动态注意力缩放，无需额外训练即可应用。

LiCQA : A Lightweight Complex Question Answering System

Sourav Saha, Dwaipayan Roy, Mandar Mitra

cs.CL cs.IR

本文提出了一种名为LiCQA的轻量级无监督问答系统，用于处理答案分散在多个文档中的复杂问题。该系统主要基于语料库证据，避免了依赖知识图谱或需要大量训练资源的神经模型，并在基准测试中表现出更低的延迟和更好的性能。

Improving Parametric Knowledge Access in Reasoning Language Models

Melody Ma, John Hewitt

cs.CL

本文研究了如何提升语言模型通过推理来访问其内部存储的世界知识的能力. 研究发现, 简单的提示可以改善知识召回, 并提出了基于强化学习的训练方法, 在多个问答数据集上取得了性能提升.

SumTablets: A Transliteration Dataset of Sumerian Tablets

Cole Simmons, Richard Diehl Martinez, Dan Jurafsky

cs.CL

本文构建并发布了首个将苏美尔楔形文字Unicode表示与拉丁转写系统化配对的大规模数据集SumTablets, 并基于此数据集评估了两种自动转写基线方法. 该数据集旨在促进自然语言处理技术在古代文字转写任务中的应用.

Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

Hanna Yukhymenko, Anton Alexandrov, Martin Vechev

cs.CL cs.AI cs.LG

本文提出了一个用于自动化翻译评测基准和数据集的高效流程. 该框架通过采用测试时计算缩放策略, 如Universal Self-Improvement (USI)和提出的T-RANK方法, 旨在提升翻译质量, 减少语义漂移和上下文丢失. 作者将该方法应用于多个东欧和南欧语言, 并发布了改进后的基准以促进多语言AI发展.

cs.DS

Exploiting Low-Rank Structure in Max-K-Cut Problems

Ria Stevens et al.

cs.DS cs.LG math.OC quant-ph

本文针对Max-3-Cut问题，提出了一种利用目标矩阵低秩结构的新算法。该方法通过枚举一个候选解集来最大化复值二次型，其规模与矩阵的秩相关，并在理论上保证了低秩情况下的最优性。实验表明该算法具有良好的可扩展性和与现有方法相当的性能。

Precedence-Constrained Decision Trees and Coverings

Michał Szyfelbein, Dariusz Dereniowski

cs.DS cs.LG

本文研究了带优先约束的Optimal Decision Tree和Set Cover问题, 引入了最大密度优先闭子族等中间问题, 并通过算法归约建立了它们之间的联系. 作者为这些问题提供了$\mathcal{O}^*(\sqrt{m})$-近似算法, 并给出了$o(m^{1/12-\epsilon})$的不可近似性下界, 对于outforests和inforests等特殊优先结构则给出了紧的对数多项式近似结果.

DRESS and the WL Hierarchy: Climbing One Deletion at a Time

Eduar Castrillo Velilla

cs.DS cs.DM

本文提出了一种名为$\Delta^\ell$-DRESS的图同构判别方法，该方法通过在DRESS框架中迭代删除节点来提升判别能力。实验表明，该方法在CFI基准图族上能系统地达到更高层级的Weisfeiler-Leman算法判别力，且计算复杂度对于固定的删除层数$\ell$是多项式级的。

Maximal Biclique Enumeration with Improved Worst-Case Time Complexity Guarantee: A Partition-Oriented Strategy

Kaixin Wang, Kaiqiang Yu, Cheng Long

cs.DS cs.DB

本文提出了一种新的分支定界算法 IPS, 用于枚举二分图中的极大 biclique. 该算法通过放宽终止条件和改进 pivot 选择策略, 改善了最坏情况时间复杂度.

Delayed-Clairvoyant Flow Time Scheduling via a Borrow Graph Analysis

Alexander Lindermayr, Jens Schlöter

cs.DS

本文研究了在单机上在线调度作业以最小化总流时间的问题, 引入了一个介于clairvoyant和non-clairvoyant模型之间的$\alpha$-clairvoyant模型. 通过融合两种传统算法, 提出了一个竞争比为$\mathcal{O}(\frac{1}{1-\alpha})$的调度规则, 并给出了一个匹配的随机下界.

Instance-optimal estimation of L2-norm

Tomer Adar

cs.DS

本文提出了一种用于估计分布$L_2$范数的无偏估计算法，其样本复杂度达到了实例特定的二阶矩分析下界。同时，论文证明了$\Omega(1/(\varepsilon \|\mu\|_2))$是采样估计分布范数的一个逐实例下界。

Tight Bounds for Online Scheduling in the One-Fast-Many-Slow Machines Setting

John Jeang, Vladimir Podolskii

cs.DS

本文研究了One-Fast-Many-Slow在线调度问题中的Eventually-committing和Never-committing模型, 给出了这两个模型中竞争比(competitive ratio)的紧界(tight bounds). 对于Eventually-committing模型, 作者设计了一个算法, 其竞争比达到了已知下界$\frac{1+\sqrt{5}}{2}$, 从而证实了Kuszmaul和Westover的猜想. 对于Never-committing模型, 作者构造了一个任务到达过程(TAP), 将竞争比的下界提升到了1.5, 与已知上界匹配.

Robust Permutation Flowshops Under Budgeted Uncertainty

Noam Goldberg, Danny Hermelin, Dvir Shabtay

cs.DS cs.DM math.OC

本文研究了在预算不确定性模型下的鲁棒置换流水车间问题, 其中每台机器上最多有给定数量的作业处理时间可能偏离. 作者证明了该问题的解可以通过求解多项式数量的对应标称问题实例来确定. 这一结果意味着, 对于两台机器的情况, 该鲁棒问题可以在多项式时间内求解; 对于任意固定数量的机器, 可以在多项式时间内获得近似解. 主要结果的推导采用了与 Bertsimas 和 Sim (2003) 类似的分析, 但将对偶化应用于 min-max 目标函数的项, 而非线性目标函数. 对于两台和三台机器的情况, 本文还展示了相对于直接归约到标称问题的朴素方法, 整体运行时间有对数因子的改进.

others

Toward Effective Multi-Domain Rumor Detection in Social Networks Using Domain-Gated Mixture-of-Experts

Mohadeseh Sheikhqoraei et al.

cs.SI cs.CL cs.IR

本文提出了一个用于社交媒体多领域谣言检测的模型, 它使用了一个 domain gate 来动态整合由 Mixture-of-Experts 方法提取的多种特征表示. 该模型结合了 CNN 和 BiLSTM 来捕获文本特征, 并在一个包含 8,034 条标注帖子的新数据集上取得了先进的性能.

Forecasting Future Language: Context Design for Mention Markets

Sumin Kim et al.

q-fin.GN cs.CL cs.LG

本文研究了在基于关键词提及的预测市场中，如何为大语言模型(LLM)设计输入上下文以生成更准确的概率预测。实验表明，提供更丰富的上下文信息以及提出的Market-Conditioned Prompting (MCP)方法能改善预测性能。

PiPNN: Ultra-Scalable Graph-Based Nearest Neighbor Indexing

Tobias Rubel et al.

cs.DB cs.DC cs.IR

本文提出了一种名为PiPNN的超大规模图构建算法, 用于近似最近邻搜索(ANN). 其核心创新是HashPrune在线剪枝算法, 通过分区和批量距离计算显著提升了索引构建速度, 能在单机上于20分钟内处理十亿级数据集.

AgenticTyper: Automated Typing of Legacy Software Projects Using Agentic AI

Clemens Pohle

cs.SE cs.AI cs.MA cs.PL

本文提出了一种基于LLM的智能体系统AgenticTyper, 用于自动化地为遗留JavaScript项目添加TypeScript类型. 该系统通过迭代的错误修正和转译比较来确保行为正确性, 并在大规模代码库上进行了评估.

INTACT: Intent-Aware Representation Learning for Cryptographic Traffic Violation Detection

Rahul D Ray

cs.CR cs.LG

本文提出了一种名为INTACT的意图感知表示学习框架, 用于加密流量违规检测. 该框架将违规检测重新定义为条件约束学习, 通过融合行为编码和意图编码来生成违规评分, 在真实和合成数据集上展示了良好的性能.

A General Equilibrium Theory of Orchestrated AI Agent Systems

Jean-Philippe Garnier

cs.GT cs.AI math.OC

本文在Arrow-Debreu一般均衡理论框架下，为集中编排的大型语言模型(LLM)智能体系统建立了理论模型。它将每个LLM智能体视为一个生产可行轨迹的“厂商”，而编排者作为“消费者”进行资源分配，并证明了均衡的存在性、Pareto最优性等相关福利定理。

A Systematic Review of Algorithmic Red Teaming Methodologies for Assurance and Security of AI Applications

Shruti Srivastava, Kiranmayee Janardhan, Shaurya Jauhari

cs.CR cs.AI

本文是一篇关于AI应用安全中自动化红队测试方法的系统性综述. 它整合了现有研究, 讨论了相关方法, 工具, 优势与局限, 并指出了未来的研究方向.

Counterdiabatic Hamiltonian Monte Carlo

Reuben Cohn-Gordon, Uroš Seljak, Dries Sels

stat.ML cs.LG stat.CO

本文提出了一种名为Counterdiabatic Hamiltonian Monte Carlo (CHMC)的新采样方法, 它通过在学习到的Hamiltonian中添加一个counterdiabatic项, 来加速对多模态分布的采样. 该方法可以被视为一种更高效的Sequential Monte Carlo (SMC)采样器, 并在简单基准问题上进行了验证.

The Instability of all Backoff Protocols

Leslie Ann Goldberg, John Lapinskas

math.PR cs.DM cs.DS cs.IT cs.NI

本文证明了Aldous在1987年提出的猜想：对于任何正到达率，不存在稳定的退避协议。该研究在Kelly模型下，通过分析退避协议的发送序列，最终确认了所有此类协议的不稳定性。

Scaling View Synthesis Transformers

Evan Kim et al.

cs.CV cs.AI

本文系统研究了view synthesis transformers的scaling laws, 并提出了训练compute-optimal NVS模型的设计原则. 研究表明, 经过优化的encoder-decoder架构在多个计算水平上都能达到与decoder-only模型相当的scaling效率, 并在真实世界NVS基准上以更少的训练计算量超越了之前的state-of-the-art.

Conditional neural control variates for variance reduction in Bayesian inverse problems

Ali Siahkoohi, Hyunwoo Oh

stat.ML cs.LG

本文提出了一种基于条件神经控制变量的方法, 用于降低贝叶斯反问题中蒙特卡洛估计的方差. 该方法利用Stein恒等式设计网络架构, 通过联合模型-数据样本进行训练, 并在Darcy流反问题上验证了其有效性.

Representation Theorems for Cumulative Propositional Dependence Logics

Juha Kontinen, Arne Meier, Kai Sauerwald

cs.LO cs.AI

本文研究了累积命题依赖逻辑的表示定理. 证明了其系统C的蕴涵关系可由特定的累积模型精确刻画.

Towards single-shot coherent imaging via overlap-free ptychography

Oliver Hoidn et al.

physics.optics cs.AI cs.CV cs.LG physics.comp-ph

本文提出了一种名为PtychoPINN的框架, 用于实现无重叠的单次曝光Fresnel相干衍射成像. 该方法将可微分的相干散射前向模型与泊松光子计数似然相结合, 通过基于坐标的分组将实空间重叠作为一个可调参数. 在合成和实验数据上的验证表明, 该方法能够在低光子计数下实现准确重建, 并显著提高了计算吞吐量.

Towards Controllable Video Synthesis of Routine and Rare OR Events

Dominik Schneider et al.

cs.CV cs.AI cs.LG eess.IV

本文提出了一种用于手术室视频可控合成的扩散模型框架, 通过几何抽象、条件控制与微调扩散模型来生成常规与罕见事件视频. 该方法在合成常规事件上超越了现有基线, 并展示了生成反事实事件的能力, 其合成的数据可用于训练检测安全临界事件的AI模型.

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

Sajjad Ghiasvand et al.

cs.CV cs.LG

本文提出了一种名为MMLoP的多模态低秩提示方法, 用于高效适应视觉-语言模型. 该方法通过低秩分解参数化视觉和文本提示, 并引入了额外的正则化组件, 在显著减少可训练参数的同时, 在多个基准数据集上取得了有竞争力的性能.

The Headless Firm: How AI Reshapes Enterprise Boundaries

Tassilo Klein, Sebastian Wieczorek

cs.GT cs.AI cs.SI

本文探讨了AI如何通过改变协调成本的结构来重塑企业边界。作者提出了"Headless Firm"模型, 并分析了其对组织形态和市场结构的影响。

ECHOSAT: Estimating Canopy Height Over Space And Time

Jan Pauls et al.

cs.CV cs.AI cs.LG

本文提出了一种名为ECHOSAT的全球高分辨率树高动态监测方法, 通过融合多源卫星数据并训练专用的vision transformer模型进行像素级时间序列回归. 该方法利用自监督的生长损失函数来约束预测结果, 使其符合树木的自然生长曲线, 包括渐进增长和因干扰事件导致的骤降. 实验表明, 该方法在单年预测精度上超越了现有技术, 并首次生成了能准确量化全球树木生长与干扰的动态高度图.

PSF-Med: Measuring and Explaining Paraphrase Sensitivity in Medical Vision Language Models

Binesh Sadanandan, Vahid Behzadan

cs.CV cs.LG

本文提出了一个用于评估医学视觉语言模型(VLMs)在医学图像问答任务中对问题重述敏感性的基准PSF-Med. 研究发现, 多个模型存在显著的答案翻转率, 并且低翻转率可能源于对语言先验的依赖而非视觉基础.

Efficient Uncoupled Learning Dynamics with $\tilde{O}\!\left(T^{-1/4}\right)$ Last-Iterate Convergence in Bilinear Saddle-Point Problems over Convex Sets under Bandit Feedback

Arnab Maiti et al.

stat.ML cs.GT cs.LG

本文针对凸集上双线性鞍点问题中的bandit反馈场景, 设计了一种非耦合学习算法. 该算法结合了实验设计和FTRL框架, 证明了以高概率实现最终迭代收敛到Nash均衡, 收敛速率为$\tilde{O}(T^{-1/4})$, 且仅需线性优化预言机.

ConformalHDC: Uncertainty-Aware Hyperdimensional Computing with Application to Neural Decoding

Ziyi Liang et al.

stat.ML cs.LG

本文提出了一种结合 conformal prediction 与 Hyperdimensional Computing (HDC) 的统一框架 ConformalHDC, 以解决 HDC 缺乏不确定性量化的问题. 该框架通过两种变体提供了具有统计保证的预测集或点预测, 并在神经解码等任务中展示了其可靠性和对非分布数据的鲁棒性.

Adversarial Intent is a Latent Variable: Stateful Trust Inference for Securing Multimodal Agentic RAG

Inderjeet Singh et al.

cs.CR cs.AI cs.CL cs.LG

本文提出了一种用于保护多模态智能RAG系统的状态化信任推断框架MMA-RAG^T. 该框架将对抗意图建模为潜在变量, 并通过模块化信任代理在推理时进行状态化深度防御, 显著降低了攻击成功率.

Adversarial Robustness of Deep Learning-Based Thyroid Nodule Segmentation in Ultrasound

Nicholas Dietrich, David McShannon

cs.CV cs.AI

本文针对甲状腺结节超声图像分割模型, 研究了其在对抗性攻击下的鲁棒性. 提出了两种黑盒攻击方法, 并评估了三种推理时防御策略的效果, 揭示了超声图像对抗鲁棒性评估中的模态特定挑战.

iMiGUE-Speech: A Spontaneous Speech Dataset for Affective Analysis

Sofoklis Kakouros, Fang Kang, Haoyu Chen

eess.AS cs.CL

本文介绍了一个用于情感分析的自发性语音数据集 iMiGUE-Speech, 它扩展了原有的 iMiGUE 数据集, 并提供了语音转录、说话人角色分离等元数据. 该数据集捕捉真实比赛结果中自然产生的情感, 并可用于语音情感识别和基于文本的情感分析等基准任务.

Unsupervised Discovery of Intermediate Phase Order in the Frustrated $J_1$-$J_2$ Heisenberg Model via Prometheus Framework

Brandon Yee, Wilson Collins, Maximilian Rutkowski

cond-mat.str-el cond-mat.dis-nn cs.LG quant-ph

本文应用Prometheus变分自编码器框架，对正方晶格上自旋-1/2的$J_1$-$J_2$海森堡模型的相图进行了无监督探索。通过对$4 \times 4$晶格精确对角化基态的分析，研究了中间相的可能性质。

A Knowledge-Driven Approach to Music Segmentation, Music Source Separation and Cinematic Audio Source Separation

Chun-wei Ho et al.

eess.AS cs.AI cs.LG eess.SP

本文提出了一种基于知识和模型的音频分割方法, 用于将音频分割为单一类别和混合类别的片段, 并应用于音源分离. 该方法不依赖于预分割的训练数据, 而是直接从输入音频及其相关知识(如乐谱)中自主构建模型.

Efficient Inference after Directionally Stable Adaptive Experiments

Zikai Shen et al.

stat.ML cs.LG math.ST stat.ME

本文研究了在自适应数据收集(如bandit算法)后对路径可微标量目标进行统计推断的问题. 作者引入了一个新的目标特定条件——方向稳定性(directional stability), 它比之前的目标无关稳定性条件更弱. 在此条件下, 证明了即使在自适应收集的数据轨迹上计算, 那些在i.i.d.数据下有效的估计量仍保持渐近正态性和半参数有效性.

Global Sequential Testing for Multi-Stream Auditing

Beepul Bharti, Ambar Pal, Jeremias Sulam

stat.ML cs.LG

本文针对多流审计中的全局序贯检验问题, 提出了新的检验方法. 通过合并具有不同权衡的检验鞅, 新方法在不同稀疏度的备择假设下改进了期望停止时间.

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas

cs.DB cs.CL cs.IR

本文针对"Text-to-Big SQL"场景，指出了现有Text-to-SQL评估指标在应对大数据量时在成本和性能方面的不足。作者提出了新的评估指标，并通过实验展示了这些指标在衡量执行效率、成本和数据规模影响方面的有效性。

A Researcher's Guide to Empirical Risk Minimization

Lars van der Laan

stat.ML cs.LG math.ST

本文为经验风险最小化(ERM)提供了一个模块化的理论分析框架. 它围绕一个三步法(基本不等式, 一致局部集中界, 不动点论证)推导出基于临界半径的高概率遗憾界, 并讨论了在因果推断等领域中带有干扰参数的ERM问题.

Fair Model-based Clustering

Jinwon Park et al.

stat.ML cs.LG stat.AP

本文提出了一种基于有限混合模型的公平聚类算法(FMC), 通过优化模型参数而非直接分配每个数据点来满足公平性约束, 从而使得可学习参数数量与样本量无关, 易于扩展并支持小批量学习. 该方法适用于非度量数据, 并提供了理论和实验验证.

One Brain, Omni Modalities: Towards Unified Non-Invasive Brain Decoding with Large Language Models

Changli Tang et al.

q-bio.NC cs.AI cs.CL

本文提出了一种名为NOBEL的神经全模态大脑编码大语言模型, 旨在统一处理非侵入性脑信号(如EEG, MEG和fMRI). 该模型通过一个共享的语义嵌入空间整合了这些异质信号, 并在多项标准任务上展示了其作为通用模型的性能.

LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

Yue Yang et al.

cs.RO cs.AI cs.CV cs.LG eess.SY

本文提出了一个名为LiLo-VLA的模块化机器人操作框架，用于解决长时程、多步骤的物体操作任务。该方法将全局移动与局部交互解耦，并通过动态重规划实现鲁棒的失败恢复，在仿真和真实世界实验中均取得了优于基线模型的表现。

Reasoning-Driven Design of Single Atom Catalysts via a Multi-Agent Large Language Model Framework

Dong Hyeon Mok et al.

cond-mat.mtrl-sci cs.LG

本文提出了一个基于多智能体大语言模型(LLM)的框架MAESTRO, 用于自主发现高性能的单原子催化剂. 该框架通过多个具有专门角色的LLM智能体进行协作推理和迭代优化, 成功发现了打破传统标度关系的催化剂.

How many asymmetric communities are there in multi-layer directed networks?

Huan Qing

math.ST cs.LG stat.ME stat.ML

本文针对多层有向网络中社区数量估计的难题, 提出了一种基于拟合优度检验的新方法. 该方法通过分析聚合残差矩阵的最大奇异值, 设计了一种能一致确定发送方和接收方真实社区数量的顺序检验程序.

Goodness-of-Fit Tests for Latent Class Models with Ordinal Categorical Data

Huan Qing

stat.ML cs.LG stat.ME

本文针对有序分类数据中的潜在类别模型, 提出了一种基于归一化残差矩阵最大奇异值的检验统计量, 用于确定潜在类别的数量. 该统计量在零假设下收敛, 在备择假设下超过正常数, 据此设计的序贯检验算法能一致地估计真实类别数.

Exploring Human-Machine Coexistence in Symmetrical Reality

Zhenliang Zhang

cs.HC cs.AI

本文提出了"symmetrical reality"这一新概念, 旨在为跨越物理与虚拟世界的人机和谐共生研究提供一个描述性框架. 它挑战了以人为中心的传统交互范式, 并阐述了该框架的关键特征.

Structurally Aligned Subtask-Level Memory for Software Engineering Agents

Kangning Shen et al.

cs.SE cs.AI

本文提出了一种针对软件工程智能体的 Structurally Aligned Subtask-Level Memory 方法, 旨在解决现有基于实例的粗粒度记忆机制在长程推理中的不足. 通过在 SWE-bench Verified 上的实验表明, 该方法能有效提升智能体在复杂软件工程任务中的表现.

Virtual Biopsy for Intracranial Tumors Diagnosis on MRI

Xinzhe Luo et al.

cs.CV cs.AI

本文提出了一个基于MRI的颅内肿瘤虚拟活检框架, 包含用于数据标准化的MRI-Processor, 利用视觉语言模型进行弱监督粗到精定位的Tumor-Localizer, 以及融合局部判别特征与全局上下文的Adaptive-Diagnoser. 该方法在新建的公开数据集上取得了超过90%的准确率.

Revisiting the Bertrand Paradox via Equilibrium Analysis of No-regret Learners

Arnab Maiti et al.

cs.GT cs.LG

本文通过分析 no-regret learners 在重复博弈中的行为，研究了离散 Bertrand 定价博弈中的 Bertrand paradox。研究探讨了不同 regret 保证（如 no-external-regret 和 no-swap regret）如何影响均衡结果，并辅以实验验证。

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination

Chenyv Liu et al.

cs.RO cs.AI cs.CV

本文提出了一种名为SC-VLA的自我纠正视觉-语言-动作模型，通过稀疏世界想象实现在线动作优化。该方法在机器人操作任务中取得了优于现有基准的性能。

PPCR-IM: A System for Multi-layer DAG-based Public Policy Consequence Reasoning and Social Indicator Mapping

Zichen Song, Weijia Li

cs.SI cs.AI

本文提出了一个名为PPCR-IM的系统，用于基于多层DAG（有向无环图）进行公共政策后果推理和社会指标映射。该系统利用LLM（大语言模型）生成政策影响的因果图，并将其映射到固定的社会指标集上，以结构化地评估政策的广泛社会影响。

CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning

Zhijiang Tang et al.

cs.CV cs.AI

本文提出了一种名为CCCaption的双奖励强化学习框架, 旨在生成更完整和正确的图像描述. 该方法通过分别优化描述的覆盖度(completeness)和准确性(correctness)来超越对人工标注的简单模仿.

Following the Diagnostic Trace: Visual Cognition-guided Cooperative Network for Chest X-Ray Diagnosis

Shaoxuan Wu et al.

cs.CV cs.AI

本文提出了一种视觉认知引导的协同网络(VCC-Net), 用于胸部X光片的协同诊断. 该方法通过眼动追踪等接口捕获放射科医生的视觉搜索轨迹, 并利用这些信息引导模型定位关键区域, 构建疾病感知图以整合人机推理, 在多个数据集上取得了较好的分类性能.

Hierarchical LLM-Based Multi-Agent Framework with Prompt Optimization for Multi-Robot Task Planning

Tomoya Kawabe, Rin Takano

cs.RO cs.AI cs.MA

本文提出了一种基于分层多智能体大语言模型(LLM)的机器人任务规划框架, 结合了提示优化技术. 该框架通过上层分解任务、下层生成PDDL规划问题并使用经典规划器求解, 在任务失败时通过文本梯度更新优化提示, 在基准测试中取得了优于先前方法的成功率.

Primary-Fine Decoupling for Action Generation in Robotic Imitation

Xiaohan Lei et al.

cs.RO cs.LG

本文提出了一种名为PF-DAG的两阶段框架，用于解决机器人模仿学习中动作序列的多模态分布问题。该方法将粗粒度动作模式与细粒度变化解耦，通过离散模式选择和条件生成来提升动作生成的稳定性和保真度。

Brain Tumor Segmentation with Special Emphasis on the Non-Enhancing Brain Tumor Compartment

T. Schaffer et al.

cs.CV cs.LG

本文设计了一种基于U-Net的深度学习架构,用于在多种MRI模态图像上分割脑肿瘤,并特别关注了非增强肿瘤区域的分割. 该区域在近年来的脑肿瘤分割挑战中常被忽略,但作者认为其对于预测患者生存期和肿瘤生长区域具有重要意义.

Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

Jianghao Yin et al.

cs.CV cs.AI

本文提出了一种无需训练的幻觉缓解方法, 通过分析模型激活模式, 构建基于语义的真实性导向向量数据库, 并在推理时根据输入动态选择并应用这些向量到关键的 attention heads 上. 实验表明该方法能有效提升多个模型在多个数据集上的性能.

SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video

Guanyi Qin et al.

cs.CV cs.AI

本文提出了一个用于手术视频中安全操作区域识别的基准测试和模型. 该模型通过强化学习优化, 在识别手术阶段后进行上下文相关的推理和区域定位, 性能显著优于通用视觉语言模型.

Learning spatially adaptive sparsity level maps for arbitrary convolutional dictionaries

Joshua Schulz et al.

eess.IV cs.CV cs.LG math.OC

本文提出了一种改进的基于卷积字典和神经网络推断的空间自适应稀疏度映射的图像重建方法. 该方法通过改进网络设计和训练策略, 实现了滤波器置换不变性, 并允许在推理时更换卷积字典. 在低场MRI上的实验表明, 该方法对数据分布偏移具有更好的鲁棒性.

Two-Stage Active Distribution Network Voltage Control via LLM-RL Collaboration: A Hybrid Knowledge-Data-Driven Approach

Xu Yang et al.

eess.SY cs.AI

本文提出了一种结合大型语言模型(LLM)与强化学习(RL)的混合知识-数据驱动方法, 用于主动配电网(ADN)的两阶段电压控制. 该方法利用LLM处理日前粗粒度预测信息并调度传统设备, 而RL则基于日内精确测量来优化光伏逆变器的无功出力, 并通过自进化与预训练-微调机制提升整体性能.

Private and Robust Contribution Evaluation in Federated Learning

Delio Jaramillo Velez et al.

cs.CR cs.GT cs.LG

本文提出了两种与安全聚合兼容的边际差异贡献评估方法，用于联邦学习中的客户端贡献评估。这些方法在保护隐私的同时，提供了公平性、鲁棒性和计算效率的理论保证，并在多个数据集上验证了其优于现有基线的性能。

RABot: Reinforcement-Guided Graph Augmentation for Imbalanced and Noisy Social Bot Detection

Longlong Zhang et al.

cs.SI cs.LG

本文提出了一种名为RABot的图增强框架, 用于解决社交机器人检测中的类别不平衡和拓扑噪声问题. 该方法结合了邻域感知过采样和强化学习驱动的边过滤, 并在多个基准测试中提升了现有GNN模型的性能.

RAMSeS: Robust and Adaptive Model Selection for Time-Series Anomaly Detection Algorithms

Mohamed Abdelmaksoud et al.

cs.DB cs.LG

本文提出了一个用于时间序列异常检测的鲁棒自适应模型选择框架RAMSeS. 该框架包含一个集成学习分支和一个自适应模型选择分支, 旨在提升算法在不同领域数据集上的泛化性能.

UniWhisper: Efficient Continual Multi-task Training for Robust Universal Audio Representation

Yuxuan Chen et al.

cs.SD cs.AI

本文提出了一个名为UniWhisper的高效持续多任务训练框架，用于学习通用的音频表示。该方法将异构音频任务统一为指令-答案格式进行训练，并在多个音频任务上取得了优于基线模型Whisper的性能。

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Zheyuan Gu et al.

cs.CV cs.AI

本文提出了一个名为Forensic Answer-Questioning (FAQ)的基准测试，用于评估和增强Vision-Language Models (VLMs)在视频深度伪造检测中的时序推理能力。该基准通过一个三级层次结构来逐步测试模型，并基于此生成的指令调优数据集FAQ-IT能有效提升模型在相关任务上的性能。

Therapist-Robot-Patient Physical Interaction is Worth a Thousand Words: Enabling Intuitive Therapist Guidance via Remote Haptic Control

Beatrice Luciani et al.

cs.RO cs.LG

本文提出了一种用于远程康复训练的触觉遥操作系统, 允许治疗师通过手持触觉设备直观地引导佩戴上肢外骨骼的患者. 实验表明, 与视觉演示相比, 触觉引导能减少运动完成时间并降低言语指令需求.

DHP: Efficient Scaling of MLLM Training with Dynamic Hybrid Parallelism

Yifan Niu et al.

cs.DC cs.LG

本文提出了一种用于多模态大语言模型(MLLM)训练的Dynamic Hybrid Parallelism(DHP)方法. 该方法通过动态调整并行策略来应对异构数据带来的负载不均衡问题, 从而提升了训练吞吐量和硬件利用率.

Neural Learning of Fast Matrix Multiplication Algorithms: A StrassenNet Approach

Paolo Andreini et al.

math.AG cs.LG

本文提出了一种名为StrassenNet的神经网络架构, 用于学习快速矩阵乘法算法. 该网络成功复现了$2\times 2$矩阵乘法的Strassen算法, 并在$3\times 3$乘法上进行了实验, 结果表明秩为23的分解可能具有特殊意义.

An Evaluation of Context Length Extrapolation in Long Code via Positional Embeddings and Efficient Attention

Madhusudan Ghosh, Rishabh Gupta

cs.SE cs.AI

本文探讨了在长代码序列中通过改进位置编码和优化注意力机制来实现上下文长度外推的零样本方法, 旨在提升大语言模型在代码补全等任务上的表现.

SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance

Minghan Yang et al.

cs.CV cs.AI

本文提出了一种名为SemVideo的fMRI-to-video重建框架，旨在从大脑活动中重建动态视觉体验。该框架通过分层语义引导模块SemMiner提取多级语义线索，并利用语义对齐解码器、运动适应解码器和条件视频渲染器来改善重建视频的外观一致性和时间连贯性。在CC2017和HCP数据集上的实验表明，该方法在语义对齐和时间一致性方面优于现有技术。

StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles

Daniel Oliveira, David Martins de Matos

cs.CV cs.AI

本文提出了StoryMovie数据集, 用于将视觉故事与电影剧本和字幕进行语义对齐. 通过微调模型, 证明了该数据集能有效提升对话归属等语义关系的生成准确性.

Resilient Federated Chain: Transforming Blockchain Consensus into an Active Defense Layer for Federated Learning

Mario García-Márquez et al.

cs.CR cs.AI

本文提出了一种结合区块链与联邦学习的新框架RFC, 旨在提升联邦学习系统对抗对抗性攻击的鲁棒性. 该框架通过改造共识机制中的冗余计算作为主动防御层, 并引入灵活的评估函数来适应不同攻击策略.

Scalable Kernel-Based Distances for Statistical Inference and Integration

Masha Naslidnyk

stat.ML cs.LG math.ST stat.ME

本文研究了基于核的距离度量在统计推断与集成中的应用, 重点探讨了最大均值差异(MMD)的改进估计方法, 并引入了一类新的核分位数差异(Kernel Quantile Discrepancies)以解决MMD的某些缺陷. 通过理论分析和实证研究, 展示了这些方法在计算效率和性能上的潜力.

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Lokesha Rasanjalee et al.

cs.CV cs.AI

本文研究了内窥镜视频标注中错误传播的问题, 并提出了一种学习自适应策略的框架来引入专家干预. 该方法通过平衡人工成本与分割精度, 在特定数据集上展示了优于基线策略的性能.

Steiner Forest for $H$-Subgraph-Free Graphs

Tala Eagling-Vose et al.

math.CO cs.CC cs.DM cs.DS

本文研究了在$H$-subgraph-free graphs上Steiner Forest问题的计算复杂度分类. 通过结合新的算法、硬度证明和图论分析, 作者为每个连通图$H$建立了完整的复杂性二分结果.

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

Yanbin Wei et al.

cs.CV cs.AI cs.CL cs.GR

本文提出了DynamicGTR框架，用于提升视觉语言模型在零样本图问答任务上的性能。该框架通过动态选择最适合的图拓扑表示来生成回答，并在多种图相关任务上验证了其有效性和可迁移性。

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

Shiwei Lu et al.

cs.CV cs.LG

本文提出了一种名为GFPL的生成式联邦原型学习框架, 旨在解决联邦学习中数据类别不平衡和通信开销高的问题. 该方法利用Gaussian Mixture Model生成原型, 并通过Bhattacharyya距离进行聚合, 同时使用双分类器架构和混合损失进行优化, 在基准测试中提升了模型精度并降低了通信成本.

Bridging Through Absence: How Comeback Researchers Bridge Knowledge Gaps Through Structural Re-emergence

Somyajit Chakraborty, Angshuman Jana, Avijit Gayen

cs.SI cs.DL cs.LG physics.soc-ph

本文研究了"回归研究者"在学术网络中的结构角色与知识转移行为. 通过分析大规模引文数据, 发现这类研究者具有更高的跨社区引用和桥接分数, 其发表轨迹也更具战略影响力.

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Mahmut S. Gokmen et al.

cs.CV cs.AI

本文提出了一个用于冠状动脉钙化(CAC)评分跨域泛化的自动化框架, 该框架能够在门控和非门控CT扫描上运行. 其核心是一个仅使用门控CT数据通过自监督学习训练的Vision Transformer模型, 实验表明该框架在非门控数据集上取得了与直接在非门控数据上训练的模型相当的性能.

Hidden Topics: Measuring Sensitive AI Beliefs with List Experiments

Maxim Chupilkin

cs.CY cs.AI

本文提出将社会科学中用于规避社会期望偏差的list experiment方法应用于检测大型语言模型(LLM)中隐藏的信念。实验在多个主流模型上发现了其对大规模监控等敏感议题的隐藏认可，并通过安慰剂处理验证了方法的有效性。

Optimal Trajectories in Discrete Space with Acceleration Constraints

Arnaud Casteigts, Matteo De Francesco, Pierre Leone

cs.CG cs.DS

本文研究了离散空间中带有加速度约束的轨迹优化问题. 作者改进了已有方法, 证明了在任意固定维度下, 分支代价(Branching Cost)和分支轨迹(Branching Trajectory)问题均可在常数时间内求解. 对于多点轨迹(Multipoint Trajectory)问题, 文章分析了其复杂性并提出了基于动态规划的求解算法.

PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for medical images

Jitindra Fartiyal et al.

cs.CV cs.AI

本文提出了一种轻量级的多尺度图像块去噪框架PatchDenoiser, 用于医学图像处理. 该方法通过局部纹理提取与全局上下文聚合, 在保持细节的同时有效抑制噪声, 并在计算效率和参数数量上显著优于现有方法.

Outpatient Appointment Scheduling Optimization with a Genetic Algorithm Approach

Ana Rodrigues, Rui Rego

cs.NE cs.LG

本文提出了一种用于优化多中心医疗环境中复杂门诊预约调度的遗传算法框架. 该框架旨在自动化安排多项医疗活动, 同时严格遵守程序间的不兼容性规则. 实验表明, 该算法能完全满足约束条件, 并在减少患者等待时间和跨院区行程方面优于基准方法.

Enhancing LLM-Based Test Generation by Eliminating Covered Code

WeiZhe Xu, Mengyu Liu, Fanxin Kong

cs.SE cs.AI cs.LG

本文提出了一种基于LLM的单元测试生成方法, 通过结合静态分析获取上下文信息, 并采用迭代生成与代码消除策略来提升对复杂方法的测试覆盖率. 该方法在开源项目评估中优于现有基于LLM和基于搜索的方法.

RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

Xiaoyu Xian et al.

cs.CV cs.AI

本文提出了一种基于预训练基础模型的RGB-Event超图提示方法，用于地铁环境中的公里标识别。该方法整合了事件相机的优势以应对复杂环境，并构建了一个新的大规模RGB-Event数据集EvMetro5K。实验验证了该方法的有效性。

TG-ASR: Translation-Guided Learning with Parallel Gated Cross Attention for Low-Resource Automatic Speech Recognition

Cheng-Yeh Yang et al.

eess.AS cs.AI cs.CL cs.SD

本文提出了一种用于低资源语音识别的翻译引导学习框架TG-ASR, 其核心是并行门控交叉注意力机制, 用于整合多语言翻译信息以提升目标语言的识别性能. 作者还构建了一个台湾闽南语戏剧语音数据集YT-THDC, 实验表明该方法能有效降低字符错误率.

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

Edgar Welte et al.

cs.RO cs.LG

本文提出了一种名为FlowCorrect的部署时校正框架, 用于在机器人操作任务中, 通过稀疏的人为姿态修正来局部调整生成式策略, 从而将接近成功的失败转化为成功, 而无需重新训练整个策略模型. 该方法在真实机器人上的多个桌面任务中验证了其有效性, 能以极少的演示实现性能提升.

NESTOR: A Nested MOE-based Neural Operator for Large-Scale PDE Pre-Training

Dengdi Sun et al.

cs.CV cs.AI

本文提出了一种基于嵌套Mixture-of-Experts (MoE)框架的大规模PDE预训练神经算子NESTOR. 该模型通过设计图像级和令牌级的MoE结构来分别捕获全局和局部依赖关系, 并在多个PDE数据集上进行预训练, 实验表明其在下游任务上具有良好的泛化与迁移能力.

Learning Quantum Data Distribution via Chaotic Quantum Diffusion Model

Quoc Hoan Tran et al.

quant-ph cs.LG nlin.CD

本文提出了一种基于混沌 Hamiltonian 时间演化的量子扩散模型框架，用于生成量子数据分布。该方法通过全局、时不变的操控降低了在模拟量子硬件上的实现开销，并保持了与现有方法相当的精度。

Coarsening Bias from Variable Discretization in Causal Functionals

Xiaxian Ou, Razieh Nabi

stat.ME cs.LG stat.ML

本文讨论了在因果推断中, 对连续变量进行离散化以简化积分计算时引入的近似偏差问题. 作者提出了一种基于条件均值的偏差缩减方法, 并通过模拟验证了其有效性.

MBD-ML: Many-body dispersion from machine learning for molecules and materials

Evgeny Moerman et al.

physics.chem-ph cond-mat.mtrl-sci cs.LG physics.comp-ph

本文提出了一种名为MBD-ML的预训练消息传递神经网络, 用于直接从原子结构预测原子$C_6$系数和极化率, 从而计算包含多体色散(MBD)的总能量、力和应力张量. 该方法简化了将先进的范德华(vdW)相互作用纳入各种电子结构计算和力场的过程.

Slice and Explain: Logic-Based Explanations for Neural Networks through Domain Slicing

Luiz Fernando Paulino Queiroz, Carlos Henrique Leitão Cavalcante, Thiago Alves Rocha

cs.LO cs.LG

本文提出了一种利用domain slicing来为神经网络生成逻辑解释的方法, 通过切片降低逻辑约束的复杂度, 从而提高了生成解释的效率. 实验表明该方法能减少高达40%的解释时间.

Probing the Geometry of Diffusion Models with the String Method

Elio Moreau et al.

stat.ML cs.LG

本文提出了一种基于 string method 的框架, 用于探索 diffusion models 所学分布的几何结构. 该方法能在不重新训练模型的情况下, 计算样本间的连续路径, 并在图像和蛋白质结构预测任务中展示了其应用.

SWE-Protégé: Learning to Selectively Collaborate With an Expert Unlocks Small Language Models as Software Engineering Agents

Patrick Tser Jern Kon et al.

cs.SE cs.AI cs.CL cs.LG

本文提出了一个名为SWE-Protégé的后训练框架，将软件修复任务重新定义为专家与学徒的协作问题。该方法让小语言模型学习有选择地向专家模型寻求指导，从而在SWE-bench基准上取得了显著的性能提升。

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Lingfeng Ren et al.

cs.CV cs.AI cs.CL

本文分析了大型视觉语言模型中物体幻觉的来源, 发现语言解码器的强先验是主要原因. 基于此, 作者提出了一种无需训练的推理时解码方法 NoLan, 通过动态抑制语言先验来减少幻觉, 并在多个基准测试上验证了其有效性.

When AI Writes, Whose Voice Remains? Quantifying Cultural Marker Erasure Across World English Varieties in Large Language Models

Satyam Kumar Navneet, Joydeep Chandra, Yong Zhang

cs.HC cs.AI cs.CL

本文通过分析多个大型语言模型对非母语英语变体文本的处理, 提出了"文化幽灵化"的概念, 并引入两个新指标来量化文化标记的擦除. 研究发现模型在保持语义的同时会系统性地消除文化标记, 而明确的提示可以减少这种擦除.

Enhancing Framingham Cardiovascular Risk Score Transparency through Logic-Based XAI

Emannuel L. de A. Bezerra et al.

cs.LO cs.AI

本文提出了一种基于一阶逻辑的 explainer, 用于增强 Framingham 心血管风险评分 (FRS) 的可解释性. 该 explainer 能够识别导致特定风险分类的最小患者属性集, 并生成可操作的干预方案.

Off-The-Shelf Image-to-Image Models Are All You Need To Defeat Image Protection Schemes

Xavier Pleimling et al.

cs.CV cs.AI

本文发现现成的 image-to-image 生成式 AI 模型可以通过简单的文本提示被重新用作通用的“去噪器”，从而有效移除多种图像保护方案添加的不可察觉的扰动。该通用攻击方法在多个案例中超越了现有的专门攻击，并保持了图像对攻击者的可用性，揭示了当前图像保护策略中普遍存在的脆弱性。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others