bluearXiv-ai - 2026-05-08

📄 所有论文 ↑ 回顶部

cs.LG

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees ⭐ 精选

Yi Xie et al.

cs.LG

本文提出Sequential Agent Tuning (SAT)，一种无需协调器的多LLM训练范式。SAT将多agent团队建模为factorized policy，通过block-coordinate updates实现去中心化训练，并设计了sequence-aware on-policy advantage estimator和per-agent KL trust regions来隔离occupancy drift。理论贡献包括：保证训练过程的monotonic improvement，以及证明plug-and-play invariance（即任意agent可被升级为更强模型而无需重新训练整个团队，且性能界会提升）。实验表明，三个4B agent组成的团队（总计12B参数）在AIME24/25基准上平均超越Qwen3-32B达3.9%，验证了方法的有效性。

Channel-Level Semantic Perturbations: Unlearnable Examples for Diverse Training Paradigms ⭐ 精选

Bo Wang et al.

cs.LG cs.AI cs.CR

本文首次系统研究了unlearnable examples (UEs)在不同训练范式下的表现，发现现有UEs方法在pretraining-finetuning (PF)范式下因pretrained weights的semantic filtering效应而失效。作者提出Shallow Semantic Camouflage (SSC)方法，通过将扰动生成限制在semantically valid subspace中，以绕过pretrained weights的语义抑制。实验表明，该方法在shallow-layer freezing和semantic-focused pretraining等挑战性范式下仍能保持数据不可学习性，填补了pretrain-based unlearnable learning领域的空白。

Neural Co-state Policies: Structuring Hidden States in Recurrent Reinforcement Learning ⭐ 精选

David Leeftink, Max Hinne, Marcel van Gerven

cs.LG

本文通过Pontryagin minimum principle (PMP)建立了recurrent reinforcement learning中hidden states与co-states之间的形式化联系，指出标准recurrent架构的latent representation可直接映射为PMP co-states，从而将readout layer解释为执行Hamiltonian minimization。由于标准reward maximization无法自然发现该对齐，作者引入一个PMP-derived co-state loss来显式结构化内部dynamics。实验表明，该方法在部分可观测的DMControl任务上匹配或提升了性能，并对zero-shot out-of-distribution sensor masking具有鲁棒性，为设计鲁棒的continuous control policies提供了原则性框架。

MEMOA: Massive Mixtures of Online Agents via Mean-Field Decentralized Nash Equilibria ⭐ 精选

Xuwei Yang et al.

cs.LG

本文提出了一种名为MEMOA的分散式多智能体策略，通过Mean-Field（平均场）方法近似大规模智能体群体的集体行为，并推导出了唯一的最优分散策略的闭式解。该策略以最小化最弱智能体的在线遗憾（worst-client/minimax criterion）为优化目标，并证明了在大规模极限下，该分散策略会渐近收敛到不可扩展的Nash最优集中式策略。此外，论文引入了一种在线加权机制来优化服务器聚合的客户端预测混合，从而在优化最弱客户端的同时提升整体平均预测性能。这项工作为大规模分散式agent系统的在线学习提供了理论保证和可扩展的解决方案。

Online Localized Conformal Prediction ⭐ 精选

Yuheng Lai, Garvesh Raskutti

cs.LG

本文提出Online Localized Conformal Prediction (OLCP)方法，将在线自适应与协变量依赖的局部化（localization）相结合，以解决在线学习和时间序列场景中数据不可交换性导致的预测集效率低下问题。进一步，作者通过将带宽选择建模为在线专家聚合问题，并采用约束在线凸优化框架，开发了OLCP-Hedge算法以降低对局部化带宽的敏感性。该方法为异质性数据下的在线不确定性量化提供了具有长期覆盖保证且预测集更窄的新方案，与关键词中的“context”和“code”所隐含的上下文依赖与算法实现有较好契合。

Optimal Contextual Pricing under Agnostic Non-Lipschitz Demand ⭐ 精选

Jianyu Xu, Yu-Xiang Wang

cs.LG econ.EM stat.ML

本文针对线性估值下非Lipschitz需求曲线的contextual dynamic pricing问题，提出了Conservative-Markdown Redirect-UCB Pricing算法。该算法通过结合随机参数估计、保守残差网格探测和基于置信度的一步重定向，在多项式时间内实现了$\tilde O(T^{2/3})$的最优regret，匹配了已知下界。这一结果解决了该领域长期存在的regret gap问题，且与关键词中的“context”高度契合。

On the Blessing of Pre-training in Weak-to-Strong Generalization ⭐ 精选

Wei Yao et al.

cs.LG

本文在理论层面将Weak-to-Strong Generalization (W2SG)问题形式化为一个基于spiked Gaussian data的高维single-index model，并将预训练建模为spectral initialization步骤。作者证明，当预训练提供一种geometric warm start，使模型落入一个具有perturbed strong-convexity几何的“有效区域”时，W2SG是可实现的，并推导出能捕捉优化动态（先性能提升后因弱监督者偏差而饱和）的泛化界。实验上，通过对大语言模型数百个中间预训练checkpoint的大规模评估，验证了W2SG并非先天能力，而是随预训练进程通过相变涌现的。该工作为理解预训练在弱到强泛化中的决定性作用提供了严格的理论基础。

Weak-to-Strong Generalization is Nearly Inevitable (in Linear Models) ⭐ 精选

Scott Geng, Dutch Hansen, Jerry Li

cs.LG

本文在标准线性logistic regression模型中证明了weak-to-strong generalization现象几乎必然发生，仅需数据满足温和的分布假设。与现有理论认为模型容量不匹配是核心机制不同，本文发现即使student模型与teacher模型具有相同容量，该现象依然普遍存在。这一结果为理解大语言模型post-training中的弱到强泛化提供了基础性理论支撑，并暗示该现象可能比预期更为普遍。

Full-Spectrum Graph Neural Network: Expressive and Scalable ⭐ 精选

Xiaohan Wang et al.

cs.LG

本文提出Full-Spectrum GNN (FSpecGNN)，将经典spectral GNN从node domain提升至node-pair domain，并将univariate spectral filter扩展为bivariate filter over eigenvalue pairs。理论证明FSpecGNN可universally approximate node-pair signals，其表达能力至多与Local 2-GNN相当，特别适用于heterophilic graph learning。通过低秩近似将full-spectrum convolution简化为polynomial spectral filters的组合，该方法在保持可扩展性的同时，在heterophilic benchmarks上验证了其理论优势。

Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL ⭐ 精选

Zhiyuan Zhai, Xin Wang

cs.LG

本文提出Selective Rollout方法，针对multi-sample agent RL（如GRPO）中大量rollout组因reward方差为零而浪费计算资源的问题，通过在中间步骤检测并行rollout的action序列是否已收敛（使用pairwise prefix edit distance作为度量），当低于阈值时提前终止该组。该方法在ALFWorld环境上使用Qwen2.5-7B进行60轮on-policy GRPO训练，实现了10.7%的wall-clock加速，并在50个未见任务上held-out成功率提升2.5个百分点，主要归因于减少了零advantage梯度batch的稀释。该工作与关键词“agent”高度契合，并涉及“context”中的多轮对话rollout管理。

Retrieval from Within: An Intrinsic Capability of Attention-Based Models ⭐ 精选

Elad Hoffer et al.

cs.LG

本文提出INTRA (INTrinsic Retrieval via Attention)框架，证明attention-based encoder-decoder模型可以直接从其内部表示中检索信息，而非依赖外部检索模块。通过让decoder attention对预编码的evidence chunks进行评分并直接复用为生成上下文，INTRA统一了retrieval与generation过程，消除了传统RAG pipeline中retriever与generator的不匹配。该方法在question-answering基准上同时提升了evidence recall和端到端答案质量，揭示了attention机制本身已具备可被激发的内在检索能力。

RepFlow: Representation Enhanced Flow Matching for Causal Effect Estimation ⭐ 精选

Yifei Xie, Jian Huang

cs.LG stat.ME

本文提出RepFlow框架，将因果效应估计建模为表示学习与Conditional Flow Matching的联合优化问题。通过最小化处理组与对照组表示之间的entropically regularized Wasserstein distance来缓解selection bias，并引入$L_2$ normalization约束增强数值稳定性。该方法能够准确捕捉潜在结果的分布，在点估计和分布估计任务上均优于现有方法，与关键词“representation”和“flow”相关。

Unifying Goal-Conditioned RL and Unsupervised Skill Learning via Control-Maximization ⭐ 精选

Alireza Modirshanechi et al.

cs.LG cs.AI eess.SY

本文通过提出control-maximization框架，统一了goal-conditioned reinforcement learning (GCRL)和mutual information skill learning (MISL)的理论基础。作者证明了三种经典的GCRL formulation在本质上是不等价的，但它们都可以被解释为最大化未来轨迹对目标指令的敏感性。进一步，本文建立了MISL目标与下游GCRL任务之间的精确对应关系：对于每种GCRL formulation，都存在一个匹配的MISL目标，使得更diverse的技能能够提供更大的下游goal sensitivity。这一理论为无监督预训练在强化学习中的应用提供了坚实的数学基础，并指导了实际中预训练目标的选择。

Constrained Contextual Bandits with Adversarial Contexts ⭐ 精选

Dhruv Sarkar, Abhishek Sinha

cs.LG

本文基于$\mathsf{SquareCB}$框架，提出了一种模块化的方法，通过在线回归oracle将带预算约束的contextual bandit问题（其中contexts是adversarial的）转化为一个具有自适应定义surrogate reward function的标准无约束contextual bandit问题。该方法在continuing setting下同时控制regret和budget constraint violation，相比仅处理stochastic contexts的先前工作，为更一般的adversarial contexts提供了改进的保证，并给出了一个简洁高效的算法。

Bandit Learning in General Open Multi-agent Systems ⭐ 精选

Mengfan Xu

cs.LG stat.ML

本文针对开放多智能体系统中的bandit学习问题，提出了一种统一框架，允许智能体具有一般性的到达与离开模式以及异质奖励。作者引入了“预训练程度”（pre-training degree）和“稳定性”（stability）等新概念来刻画系统复杂性，并设计了具有可证明保证的global-UCB学习方法。该工作为agent在动态环境中的在线学习提供了理论支撑，其regret界揭示了新智能体进入带来的不确定性会线性影响性能，与关键词“agent”和“pretrain”高度契合。

Memory Inception: Latent-Space KV Cache Manipulation for Steering LLMs ⭐ 精选

Andy Zeyi Liu et al.

cs.LG cs.AI

本文提出了一种名为memory inception (MI)的训练-free方法，通过在latent attention space中向selected layers插入text-derived key-value (KV) banks来引导大语言模型，而非将reminder content显式缓存于prompt中。该方法将steering视为selective KV allocation，在personality-steering、updateable guidance和structured reasoning任务上均表现出色，尤其在HARDMath和PHYSICS等结构化推理任务上优于visible prompting，同时将KV storage压缩高达118倍。MI为需要persistent、structured或expensive guidance的场景提供了一种高效的steering方案，与关键词中的attention和context高度契合。

Pro-KLShampoo: Projected KL-Shampoo with Whitening Recovered by Orthogonalization ⭐ 精选

Ruotong Sun, Ermin Wei

cs.LG cs.AI

本文提出Pro-KLShampoo优化器，通过观察KL-Shampoo的Kronecker preconditioner具有spike-and-flat特征谱结构（少数主导特征值后接近似均匀的尾部），将其中一个Kronecker因子限制为参数化形式：在跟踪的$r$维子空间上保留全谱结构，在其余$n-r$方向上共享单一特征值并应用orthogonalization。理论证明该orthogonalization恢复了完整KL-Shampoo preconditioner的代数形式。在GPT-2 124M/350M和LLaMA 134M/450M四个预训练规模上，Pro-KLShampoo在验证损失、峰值GPU内存和达到各损失水平的wallclock时间上均一致优于KL-Shampoo，为spectral与Muon类优化器的融合提供了新思路。

Agentic AIs Are the Missing Paradigm for Out-of-Distribution Generalization in Foundation Models ⭐ 精选

Xin Wang et al.

cs.LG cs.CV

本文提出，大模型在开放世界中的out-of-distribution (OOD)泛化问题无法在传统的model-centric范式内解决，并证明了一个parameter coverage ceiling定理，表明存在模型参数表示无法处理的输入。作者将agentic system定义为包含perception、strategy selection、external action和closed-loop verification四个结构属性的范式，并证明其能严格扩展可达集以突破该上限。该工作为OOD研究提供了新的理论框架，与关键词“agent”高度契合。

On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR ⭐ 精选

Hao Ye et al.

cs.LG cs.AI

本文发现RLVR训练中模型推理能力集中在rank-1 component，并揭示了隐式reward overfitting现象：即使训练reward较低，模型在测试集上仍表现良好。进一步，作者刻画了RLVR的三个特性：rank-1 component仅保留数学推理能力；训练后模型linear layer的singular value呈heavy-tailed分布；rank-1 component的left singular vector在训练中表现出更强的alignment倾向，本质上是优化sampling efficiency。这些发现为理解RLVR的参数塑造机制提供了新视角，并可能改进现有RL或continual learning范式。

Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent ⭐ 精选

Chenyang Zhang, Yuan Cao

cs.LG stat.ML

本文构造了一类使用softmax attention的多层transformer，证明其能通过每层精确执行一步normalized gradient descent来高效完成in-context logistic regression。作者进一步展示了该构造可通过单层self-attention的one-step gradient descent训练并循环应用得到，并提供了训练收敛性和分布外泛化保证。该工作为理解transformer如何通过隐式执行优化算法实现in-context learning提供了理论支撑。

The Structural Origin of Attention Sink: Variance Discrepancy, Super Neurons, and Dimension Disparity ⭐ 精选

Siquan Li et al.

cs.LG cs.AI stat.ML

本文从机制上解释了Large Language Models (LLMs)中attention sink现象的成因。作者指出，self-attention中的value aggregation过程会导致系统性的variance discrepancy，而Feed-Forward Network (FFN)层中super neurons的激活会进一步放大这种差异，从而迫使模型在初始token处形成attention sink作为结构锚点。通过attention mask修改和token表示方差放大两种干预实验，作者验证了这一因果链，并提出了head-wise RMSNorm这一架构修改，通过恢复各位置间的统计一致性来加速预训练收敛。

When and Why SignSGD Outperforms SGD: A Theoretical Study Based on $\ell_1$-norm Lower Bounds ⭐ 精选

Hongyi Tao, Dingzhi Yu, Lijun Zhang

cs.LG cs.AI cs.CL math.OC

本文通过引入$\ell_1$-norm stationarity、$\ell_\infty$-smoothness以及可分离噪声模型，为SignSGD算法建立了匹配的上下界，首次从理论上严格证明了在稀疏噪声条件下SignSGD相比SGD具有$d$倍的复杂度优势。该工作进一步将这一框架推广到矩阵域，为Muon优化器提供了等价的最优下界，证明了符号算子扩展到矩阵后仍保持与维度相关的最优缩放。最后，通过在124M参数GPT-2模型的预训练实验中验证了理论优越性，与关键词中的Muon和pretrain高度契合。

Recursive Agent Optimization ⭐ 精选

Apurva Gandhi et al.

cs.LG cs.AI cs.CL cs.MA

本文提出Recursive Agent Optimization (RAO)，一种用于训练递归agent的reinforcement learning方法。递归agent能够递归地生成子agent并委派子任务，实现了一种inference-time scaling算法，通过分治策略自然地扩展到更长context并泛化到更困难的问题。RAO提供了一种训练模型以最佳利用这种递归推理的方法，教导agent何时以及如何委派和通信。实验表明，递归agent在训练效率、超越模型context window的任务扩展、泛化到更困难任务以及减少wall-clock time方面均优于单agent系统。

A Note on TurboQuant and the Earlier DRIVE/EDEN Line of Work

Ran Ben-Basat et al.

cs.LG cs.AI cs.NI

本文澄清了TurboQuant与早期DRIVE/EDEN量化方案之间的关系，指出TurboQuant是EDEN在特定参数下的特例，且在多个方面存在次优性。实验表明，EDEN在精度上全面优于TurboQuant。

Are Flat Minima an Illusion?

Michael Timothy Bennett

cs.LG cs.AI

本文质疑了“平坦极小值”对神经网络泛化能力的因果作用，指出通过保函数重参数化可以人为改变Hessian矩阵，因此平坦性并非根本原因。作者提出“weakness”这一概念，即与学习函数兼容的完成体积，并证明其具有重参数化不变性且与泛化相关，而平坦性和简单性则缺乏这种不变性。

Nationwide EHR-Based Chronic Rhinosinusitis Prediction Using Demographic-Stratified Models

Sicong Chang et al.

cs.LG q-bio.QM

本文利用全国性EHR数据，通过混合特征选择管道和人口统计学分层模型预测慢性鼻窦炎，实现了AUC 0.8461，但方法在开创性上与关键词（如attention, spectral）关联较弱。

Physics-Informed Neural Networks with Learnable Loss Balancing and Transfer Learning

Reza Pirayeshshirazinezhad

cs.LG cs.AI

本文提出了一种自监督的physics-informed neural network (PINN)框架，通过引入可学习的blending neuron来动态平衡物理残差和数据损失的权重，并利用transfer learning提升数据稀缺场景下的效率。该方法在液态金属散热器预测任务上取得了优于传统方法的性能。

Horizon-Constrained Rashomon Sets for Chaotic Forecasting

Gauri Kale et al.

cs.LG cs.AI math.DS nlin.CD

本文提出了horizon-constrained Rashomon sets框架，用于研究混沌系统中预测模型的多重性如何随预测时域演化，并证明了有效Rashomon set随Lyapunov指数呈指数收缩。该工作为混沌理论与预测多重性建立了联系，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Mikhail Shirokikh, Sergey Nikolenko

cs.LG cs.AI

本文提出了一种稀疏前缀缓存方法，用于混合和循环LLM服务，通过将循环层的状态存储在稀疏的检查点位置来优化延迟，并形式化为一个动态规划问题。该方法在共享前缀的请求场景下改进了Pareto前沿，但未涉及代码、上下文、谱方法、Muon优化器、预训练、智能体或注意力机制等关键词。

MidSteer: Optimal Affine Framework for Steering Generative Models

Tatiana Gaintseva et al.

cs.LG cs.AI

本文提出了MidSteer框架，用于在生成模型中通过仿射变换实现概念操控，并建立了与概念擦除方法LEACE的理论联系。该方法在视觉扩散模型和大语言模型上进行了实验验证。

Data-Driven Variational Basis Learning Beyond Neural Networks: A Non-Neural Framework for Adaptive Basis Discovery

Andrew Kiruluta

cs.LG cs.CL

本文提出了一种名为DVBL的非神经网络框架，通过变分优化直接从数据中学习基函数，以替代傅里叶级数等固定基展开。该框架将基原子作为优化变量，与样本系数及潜在线性演化算子联合学习，并证明了最小元存在性与交替最小化算法的块下降性质。

Adaptive Computation Depth via Learned Token Routing in Transformers

Ahmed Abdelmuniem Abdalla Mohammed

cs.LG cs.AI

本文提出Token-Selective Attention (TSA)，通过在每个token的残差更新上添加一个轻量级MLP门控，实现自适应计算深度。该方法在字符级语言建模任务上节省了14-23%的token-layer操作，且质量损失小于0.5%。

Structural Instability of Feature Composition

Yunpeng Zhou

cs.LG cs.AI

本文研究了Sparse Autoencoders中特征组合的结构不稳定性，通过将激活空间建模为高维稀疏cone manifold，推导了在spherical dictionary model下的组合坍缩阈值，并分析了ReLU整流在组合中导致的系统性漂移。该工作为特征组合的可扩展性提供了几何约束视角。

MACS: Modality-Aware Capacity Scaling for Efficient Multimodal MoE Inference

Bo Li, Chuan Wu, shaolin Zhu

cs.LG cs.AI

本文提出MACS框架，通过熵加权负载机制和动态模态自适应容量机制，解决多模态MoE模型在专家并行推理中的效率瓶颈问题，在多个多模态基准上取得性能提升。

Internalizing Outcome Supervision into Process Supervision: A New Paradigm for Reinforcement Learning for Reasoning

Fei Ding et al.

cs.LG cs.AI cs.CL

本文提出了一种将结果监督内化为过程监督的新范式，用于强化学习中的推理任务。该方法通过让模型自动识别、纠正和复用失败的推理轨迹，从而在仅有结果监督的情况下实现更细粒度的策略优化。

Rethinking Data Curation in LLM Training: Online Reweighting Offers Better Generalization than Offline Methods

Wanru Zhao et al.

cs.LG cs.AI

本文提出ADAPT框架，将LLM训练中的数据策展重新定义为在线重加权问题，通过基于loss的动态样本重要性调整替代离线静态预处理。实验表明该方法在指令微调和预训练中优于离线选择/混合方法，但未涉及code、spectral、Muon等关键词相关技术。

Evolutionary fine tuning of quantized convolution-based deep learning models

Marcin Pietroń

cs.LG cs.AI cs.NE

本文提出使用进化策略对基于最近邻量化的预训练深度学习模型进行微调，通过迭代改变少量权重的量化状态来提升模型精度。实验在VGG、ResNet等架构上验证了该方法对图像分类和检测任务的有效性。

Expert Routing for Communication-Efficient MoE via Finite Expert Banks

Mohammad Reza Deylam Salehi, Ali Khalesi

cs.LG cs.IT

本文提出了一种基于有限专家库的稀疏MoE路由方法，将门控机制视为随机信道，并用互信息$I(X;T)$量化路由信息。通过MNIST实验和离散熵估计器，作者展示了算法互信息$\widehat I(S;W)$与泛化差距的单调关系，为资源高效的专家路由分析提供了实用工具。

Forecasting Green Skill Demand in the Automotive Industry: Evidence from Online Job Postings

Sabur Butt et al.

cs.LG

本文使用多语言embeddings和ESCO验证构建了一个两阶段pipeline，从墨西哥汽车行业的在线招聘数据中识别绿色技能需求，并基准测试了15种时间序列预测模型。研究发现Transformer模型（如FEDformer）表现最佳，但该工作主要聚焦于应用层面的劳动力市场预测，与关键词中的理论或方法创新关联较弱。

Attribution-Guided Continual Learning for Large Language Models

Yazheng Liu et al.

cs.LG

本文提出了一种基于归因引导的持续微调框架，通过估计Transformer层中每个参数对特定任务的重要性分数来调节梯度更新，从而缓解大语言模型在持续学习中的灾难性遗忘问题。实验表明该方法在保留旧任务性能的同时能有效学习新任务。

Graph Normalization: Fast Binarizing Dynamics for Differentiable MWIS

Laurent Guigues

cs.LG cs.AI cs.DM cs.NE

本文提出了一种名为Graph Normalization (GN)的图上的动力系统，用于可微地近似求解NP-hard的最大权独立集问题。GN通过精确的Majorization-Minimization步骤实现快速拟牛顿下降，并证明了其总能收敛到最大独立集的二值指示向量。该方法与非线性进化博弈的复制动力学等价，并建立了与Motzkin-Straus定理的加权扩展之间的联系。

Feature Starvation as Geometric Instability in Sparse Autoencoders

Faris Chaudhry, Keisuke Yano, Anthea Monod

cs.LG cs.AI math.OC stat.ML

本文指出稀疏自编码器（SAE）中特征饥饿（死神经元）问题的根源在于$\ell_1$正则化导致的优化几何不稳定性，并提出了自适应弹性网SAE（AEN-SAE），通过引入$\ell_2$结构项和自适应$\ell_1$重加权来缓解该问题。实验表明该方法无需启发式重采样即可减少特征饥饿。

A Multi-Head Attention Approach for SLA Compliance Monitoring in Data Centers

Omanshu Thapliyal

cs.LG

本文提出了一种基于multi-head attention的框架，用于数据中心SLA合规监控，通过将SLA规则编码为JSON对象并训练transformer模型来预测违规。该方法主要关注实际应用中的监控与预测，与关键词中的attention有一定关联，但整体创新性和领域影响力有限。

Balancing Stability and Plasticity in Sequentially Trained Early-Exiting Neural Networks

Alaa Zniber, Ouassim Karrakchou, Mounir Ghogho

cs.LG cs.CV

本文针对顺序训练早期退出神经网络（Early-Exiting Neural Networks）中新旧分类器间的干扰问题，提出了两种方法：一种基于Elastic Weight Consolidation保护关键参数，另一种基于Learning without Forgetting保留输出分布。实验表明这些方法能提升早期分类器的准确率并加速推理。

COPYCOP: Ownership Verification for Graph Neural Networks

Rahul Nandakumar, Deepayan Chakrabarti

cs.LG cs.AI

本文提出了一种名为CopyCop的算法，用于检测图神经网络（GNN）是否被恶意模仿。该方法能在两个GNN架构、权重和嵌入维度不同，且输出嵌入可能被变换的情况下，识别出模仿者，并提供了理论保证。

SPADE: Faster Drug Discovery by Learning from Sparse Data

Rahul Nandakumar, Ben Fauber, Deepayan Chakrabarti

cs.LG cs.AI

SPADE提出了一种基于稀疏数据的配体选择算法，在药物发现中仅需平均40次测试即可找到10个高质量配体。该方法在样本效率上比深度学习和贝叶斯优化方法提升7%-32%，且计算速度快10倍。

Conditional Diffusion Under Linear Constraints: Langevin Mixing and Information-Theoretic Guarantees

Ahmad Aghapour, Erhan Bayraktar, Asaf Cohen

cs.LG cs.IT

本文研究了线性约束下的条件扩散模型，通过normal-tangent分解分析了score function的误差，并提出了projected-Langevin初始化结合guided reverse denoising的方法，在图像修复和超分辨率任务中提升了性能。

Two-Stage Learned Decomposition for Scalable Routing on Multigraphs

Filip Rydin, Morteza Haghir Chehreghani, Balázs Kulcsár

cs.LG cs.AI

本文提出了一种名为NEPF的两阶段分解方法，用于解决多图上的车辆路径问题，通过将路由策略分解为节点排列和边选择两个阶段来提升可扩展性。该方法在多个VRP变体上达到了与现有技术相当或更优的解质量，同时显著加快了训练和推理速度。

Differentiable Parameter Optimization for DAEs with State-Dependent Events

Ion Matei, Maksym Zhenirovskyy, Anthony Wong

cs.LG cs.MS

本文研究了具有状态依赖事件的半显式DAE的可微参数优化问题，提出了两种梯度计算方法：自动微分仿真方法和显式离散伴随方法，并比较了它们在梯度解释、事件时间处理等方面的差异。

Information Theoretic Adversarial Training of Large Language Models

Yiwei Zhang et al.

cs.LG cs.AI cs.CR

本文提出WARDEN框架，通过f-divergence ambiguity set对对抗样本进行动态重加权，优化最坏情况下的对抗损失，以提升LLM对对抗性提示的鲁棒性。该方法在保持模型效用的同时显著降低攻击成功率，计算成本与现有方法相当。

Active Learning for Conditional Generative Compressed Sensing

Alexander DeLise, Nick Dexter

cs.LG math.NA

本文研究了条件生成压缩感知中的主动学习问题，使用prompt-conditioned generative models从欠采样Fourier测量中恢复图像，并分析了prompt匹配与不匹配对恢复稳定性的影响。实验表明prompt可重塑采样分布并影响图像恢复质量。

On Semantic Loss Fine-Tuning Approach for Preventing Model Collapse in Causal Reasoning

Pratik Deshmukh, Atirek Gupta

cs.LG cs.AI

本文研究了transformer模型在因果推理任务中的微调问题，发现标准微调会导致模型崩溃（如总是预测"Yes"或"No"）。作者提出了一种基于graph的logical constraints和动态lambda调度的semantic loss函数来防止这种崩溃，实验表明该方法在传递性和d-separation任务上取得了稳定且依赖上下文的预测结果。

Robustness of Graph Self-Supervised Learning to Real-World Noise: A Case Study on Text-Driven Biomedical Graphs

Othmane Kabal et al.

cs.LG cs.AI

本文研究了图自监督学习(GSSL)在文本驱动的生物医学知识图谱中对真实噪声的鲁棒性，提出了NATD-GSSL框架，通过对比噪声图与干净图评估了不同预训练任务和GNN架构的表现。实验表明特征重建比关系重建更鲁棒，双向关系消息传递更适合噪声图。

A Unified Benchmark for Evaluating Knowledge Graph Construction Methods and Graph Neural Networks

Othmane Kabal et al.

cs.LG cs.AI cs.CL

本文提出了一个用于评估知识图谱构建方法与图神经网络性能的双重基准，在生物医学领域基于单一文本语料库构建，包含自动构建图和专家参考图。该基准通过半监督节点分类任务，为评估图构建方法和图神经网络鲁棒性提供了标准化框架。

GRALIS: A Unified Canonical Framework for Linear Attribution Methods via Riesz Representation

Raimondo Fanale

cs.LG cs.AI stat.ML

本文提出了GRALIS框架，通过Riesz表示定理为线性归因方法（如SHAP、IG、LIME等）建立了统一的规范表示理论，并证明了其满足多种公理性质。该方法在BreaKHis数据集上进行了初步验证，但主要贡献在于理论统一性，与关键词中的code、context、spectral等概念关联较弱。

Approximate Next Policy Sampling: Replacing Conservative Target Policy Updates in Deep RL

Dillon Sandhu, Ronald Parr

cs.LG

本文提出Approximate Next Policy Sampling (ANPS)方法，通过修改训练数据分布而非约束policy update来解决RL中的"鸡生蛋"问题，并基于此设计了Stable Value Approximate Policy Iteration (SV-API)框架。实验表明，将ANPS应用于PPO得到的SV-PPO在Atari和连续控制任务上能执行更大的target policy update且性能不降。

A Robust Foundation Model for Conservation Laws: Injecting Context into Flux Neural Operators via Recurrent Vision Transformers

Taeyoung Kim, Joon-Hyuk Ko

cs.LG

本文提出一种结合Recurrent Vision Transformer与Flux Neural Operator的架构，通过超网络从有限时间窗口提取动力学特征并生成算子参数，从而在不显式已知PDE系数的情况下求解守恒律。实验表明该方法保持了Flux NO的鲁棒性与长期预测优势。

Shortcut Solutions Learned by Transformers Impair Continual Compositional Reasoning

William T. Redman, Erik C. Johnson, Brian Robinson

cs.LG

本文在continual LEGO框架下研究了Transformer模型在持续组合推理中的表现，发现BERT模型会学习shortcut solutions（捷径解）从而限制泛化能力，而ALBERT模型则表现出更好的持续学习性能。该工作主要关注模型架构对持续学习的影响，与关键词中的code、spectral、Muon、agent等概念关联较弱。

Non-Myopic Active Feature Acquisition via Pathwise Policy Gradients

Linus Aronsson, Morteza Haghir Chehreghani

cs.LG stat.ML

本文提出了一种非短视的路径策略梯度方法(NM-PPG)用于主动特征获取(AFA)问题，通过连续松弛和直通式rollout方案实现了端到端优化，在合成和真实数据集上优于现有基线方法。

OpenG2G: A Simulation Platform for AI Datacenter-Grid Runtime Coordination

Jae-Won Chung et al.

cs.LG cs.DC

OpenG2G是一个用于AI数据中心与电网运行时协调的仿真平台，通过模块化架构整合真实AI服务测量数据与高保真电网模拟器，支持多种控制范式（经典、优化、基于学习的控制器）的比较。该平台旨在量化AI模型与部署选择对数据中心灵活性的影响，但未涉及关键词中的code, context, spectral, Muon, pretrain, agent, attention等核心概念。

Bayesian Rain Field Reconstruction using Commercial Microwave Links and Diffusion Model Priors

Badr Moufad et al.

cs.LG stat.AP stat.ML

本文利用Diffusion Models作为高保真空间先验，将降雨场重建视为Bayesian逆问题，通过多种后验采样方法（如Plug-and-Play、Sequential Monte Carlo等）从Commercial Microwave Links的路径积分测量中重建降雨场，实验表明该方法优于现有基线。

MOSAIC: Module Discovery via Sparse Additive Identifiable Causal Learning for Scientific Time Series

Shicheng Fan et al.

cs.LG cs.AI

本文提出MOSAIC方法，通过稀疏可加的可识别因果学习从科学时间序列中发现模块。该方法结合了时间因果表示学习的可识别性与观测变量的支持恢复，使用稀疏时间VAE和可加解码器来识别潜在变量及其关联的观测变量组。

Energy Generative Modeling: A Lyapunov-based Energy Matching Perspective

Yixuan Wang, Wenqian Xue, Warren E. Dixon

cs.LG

本文从非线性控制理论视角重新审视基于静态标量能量函数的生成模型，将训练和采样统一为Wasserstein空间上的密度传输问题，并利用KL散度作为Lyapunov函数。文章推导了Langevin采样的有限步停止准则，并证明了标量能量加性组合仍保持显式Gibbs不变测度。

Adversarial Graph Neural Network Benchmarks: Towards Practical and Fair Evaluation

Tran Gia Bao Ngo et al.

cs.LG

本文对图神经网络(GNN)的对抗攻击与防御方法进行了大规模基准测试，在统一框架下重新评估了七种攻击和八种防御方法，发现目标节点选择等实验设置因素会显著影响攻击效果，强调了标准化评估协议的重要性。

Towards Scalable One-Step Generative Modeling for Autoregressive Dynamical System Forecasting

Tianyue Yang, Xiao Xue

cs.LG physics.flu-dyn

本文提出MeLISA模型，一种基于像素空间MeanFlow的无潜在变量自回归生成代理，用于高维物理动力学快速代理建模。该模型通过块状随机转移核实现单步生成，并利用窗口一致性和时间增量一致性损失稳定长程滚动，在湍流模拟中取得与神经算子相当的推理速度及更优的长期统计精度。

Adaptive Q-Chunking for Offline-to-Online Reinforcement Learning

Nandiraju Gireesh, Yuanliang Ju, He Wang

cs.LG cs.RO

本文提出Adaptive Q-Chunking (AQC)方法，通过比较不同chunk size相对于per-horizon baseline的advantage并除以discount factor进行归一化，解决了固定chunk size在offline-to-online RL中的次优性问题。该方法在OGBench和Robomimic上取得了state-of-the-art结果，并能提升大规模VLA模型的性能。

FedeKD: Energy-Based Gating for Robust Federated Knowledge Distillation under Heterogeneous Settings

Quang-Huy Nguyen, Jiaqi Wang, Wei-shinn Ku

cs.LG

本文提出FedeKD框架，通过能量门控机制（energy-based gating）在异构联邦学习中实现逐样本的信任估计，以缓解负迁移问题。该方法利用轻量级代理模型进行知识蒸馏，无需依赖公共数据集。

Accelerating LMO-Based Optimization via Implicit Gradient Transport

Won-Jun Jang, Si-Hyeon Lee

cs.LG cs.AI

本文提出了一种名为LMO-IGT的随机优化方法，通过隐式梯度传输（Implicit Gradient Transport）来加速基于线性最小化预言机（LMO）的优化器。该方法在保持单梯度每迭代结构的同时，实现了$\mathcal{O}(\varepsilon^{-3.5})$的迭代复杂度，并引入了正则化支持函数（RSF）作为新的平稳性度量。

AeroJEPA: Learning Semantic Latent Representations for Scalable 3D Aerodynamic Field Modeling

Francisco Giral et al.

cs.LG

本文提出AeroJEPA，一种用于三维气动场建模的联合嵌入预测架构，通过从几何和工况的context latent representation预测流场的target latent representation，并可选地通过连续隐式解码器重建场，从而将latent prediction与场分辨率解耦。该方法在HiLiftAeroML和SuperWing数据集上验证了其作为连续代理模型的扩展性和latent space的语义组织能力。

When Can Voting Help, Hurt, or Change Course? Exact Structure of Binary Test-Time Aggregation

Yi Liu

cs.LG cs.IT

本文研究了在固定随机预测器下，多数投票（majority voting）的精确结构。通过de Finetti表示，作者揭示了投票曲线可能呈现非单调行为，并证明了投票恢复的是一个有符号投票签名（signed voting signature），该签名与奇数预算投票曲线等价。

LLMSpace: Carbon Footprint Modeling for Large Language Model Inference on LEO Satellites

Lei Jiang et al.

cs.LG cs.CY

本文提出了LLMSpace，一个用于在AI增强型低地球轨道卫星上进行大语言模型推理的碳足迹建模框架。该框架联合建模了运营与隐含碳、外围子系统、抗辐射硬件以及LLM特有的工作负载特征，揭示了碳足迹、推理延迟、硬件设计和运行寿命之间的权衡关系。

Region-adaptable retrieval of coastal biogeochemical parameters from near-surface hyperspectral remote sensing reflectance using physics-aware meta-learning

Yiqing Guo et al.

cs.LG

本文提出了一种两阶段物理感知元学习框架，用于从近地面高光谱遥感反射率中反演沿海生物地球化学参数，通过合成数据预训练和区域微调提升了模型泛化能力。实验在澳大利亚五个沿海站点验证了该方法优于多个基准模型。

Scaling Pretrained Representations Enables Label-Free Out-of-Distribution Detection Without Fine-Tuning

Brett Barkley, Preston Culbertson, David Fridovich-Keil

cs.LG

本文研究了在预训练模型中使用冻结表示进行无标签OOD检测的方法，比较了全局Mahalanobis估计器和局部扩散基典型性估计器ReSCOPED的性能。实验表明，随着表示质量的提升，两种检测器的性能差距缩小，且检测效果主要依赖于冻结backbone的几何结构。

Information-Preserving Domain Transfer with Unlabeled Data in Misspecified Simulation-Based Inference

Joon Jang et al.

cs.LG

本文提出SPIN框架，通过未标记的真实世界数据在模拟和真实域之间进行参数相关信息保持的域迁移，以改善模型误设下基于模拟的贝叶斯推断性能。该方法利用循环一致性约束和互信息最大化来保留参数相关信息，在合成和物理基准上验证了有效性。

Structural Correspondence and Universal Approximation in Diagonal plus Low-Rank Neural Networks

Ying Chen et al.

cs.LG

本文研究了仅由低秩层（如rank-1）构成的神经网络在函数逼近中的局限性，并提出了Diagonal plus Low-Rank (DLoR)结构，通过添加极少的稀疏对角分量来恢复Universal Approximation性质。该工作主要关注网络结构的表达力理论，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等方向关联较弱。

Distributionally Robust Multi-Objective Optimization

Yufeng Yang et al.

cs.LG math.OC

本文提出了分布鲁棒多目标优化(DR-MOO)框架，通过引入最坏情况分布来应对数据分布偏移，并设计了两种多梯度下降算法(MGDA)来达到Pareto平稳点。该方法在非凸设定下具有理论保证，但与我提供的关键词列表关联度较低。

Temporal Functional Circuits: From Spline Plots to Faithful Explanations in KAN Forecasting

Naveen Mysore

cs.LG cs.AI stat.ML

本文提出Temporal Functional Circuits框架，用于解释KAN在时间序列预测中的边缘函数。通过门控残差KAN将预测分解为线性基和稀疏KAN校正，并验证了B-spline形状的预测价值。

Budgeted Attention Allocation: Cost-Conditioned Compute Control for Efficient Transformers

Amrit Nidhi

cs.LG cs.AI

本文提出了一种名为Budgeted Attention Allocation的方法，通过一个受注意力预算条件约束的单调head-gating机制，使单个Transformer模型能在不同计算成本下运行。实验表明，该方法在多个任务上实现了注意力成本与准确率之间的可控权衡，并能转化为实际的结构性加速。

Enabling Federated Inference via Unsupervised Consensus Embedding

Yui Hashimoto et al.

cs.LG

本文提出CE-FI框架，通过引入Consensus Embedding层和Cooperative Output层，使预训练模型在不共享参数或原始输入的情况下实现协作推理。实验表明该方法在图像分类任务上优于独立推理，但性能依赖于集成策略。

WARP: A Benchmark for Primal-Dual Warm-Starting of Interior-Point Solvers

Dhruv Suri, Helgi Hilmarsson, Shourya Bose

cs.LG cs.AI eess.SY math.OC

本文指出，先前声称通过机器学习预测primal warm-start迭代可减少30-46%求解器迭代次数的结论，是基于不恰当的评估基线（flat start）得出的。作者发现，在修正为求解器实际默认的变量边界中点后，仅预测primal变量的方法无法减少迭代次数，并揭示了内点法中primal预测精度与收敛速度负相关的几何特性。为此，论文发布了包含dual-labeled AC-OPF数据集和修正评估协议的基准测试套件WARP，该模型通过预测完整的primal-dual-barrier状态，在IPOPT求解器上实现了76%的迭代次数减少。

CRAFT: Forgetting-Aware Intervention-Based Adaptation for Continual Learning

Md Anwar Hossen et al.

cs.LG cs.AI

本文提出CRAFT框架，通过学习对hidden representations的低秩干预而非更新模型权重来实现continual learning，利用KL divergence控制遗忘并统一路由、正则化和合并过程。实验表明该方法在多个benchmark上优于LoRA-based方法，但对关键词列表中的概念关联较弱。

CoMemNet: Contrastive Sampling with Memory Replay Network for Continual Traffic Prediction

Mei Wu et al.

cs.LG cs.AI

本文提出了一种名为CoMemNet的双分支continual learning框架，用于流式交通网络预测，通过Wasserstein Distance构建Dynamic Contrastive Sampler和Node-Adaptive Temporal Memory Buffer来缓解灾难性遗忘问题。实验在三个大规模真实数据集上取得了SOTA性能。

Multi-Dimensional Behavioral Evaluation of Agentic Stock Prediction Systems Using LLM Judges with Closed-Loop Reinforcement Learning Feedback

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman

cs.LG cs.AI cs.CL q-fin.CP

本文提出了一种基于LLM评判的多维行为评估框架，用于评估agentic股票预测系统在多个决策维度上的表现，并通过闭环强化学习反馈优化系统性能。该方法在离线回测中提升了预测准确率和Sharpe比率，但未涉及实时部署效果。

RVPO: Risk-Sensitive Alignment via Variance Regularization

Ivan Montero, Tomasz Jurczyk, Bhuwan Dhingra

cs.LG cs.CL

本文提出RVPO方法，通过方差正则化（variance regularization）在advantage聚合时惩罚奖励间的方差，将多目标对齐目标从“最大化总和”转为“最大化一致性”。实验表明该方法能缓解约束忽视问题，在医疗和科学推理任务上提升整体得分。

Adaptive Selection of LoRA Components in Privacy-Preserving Federated Learning

Myoungjun Kim et al.

cs.LG cs.AI cs.CL

本文提出AS-LoRA框架，通过层间自由选择、轮次自适应和曲率感知评分，在差分隐私联邦微调中自适应选择LoRA组件，以降低聚合误差并提升稳定性。实验表明该方法在多个数据集上优于现有baseline，但未涉及code、spectral、Muon等关键词相关技术。

A Measure-Theoretic Finite-Sample Theory for Adaptive-Data Fitted Q-Iteration

Manuel Haussmann, Mustafa Mert Çelikok, Melih Kandemir

cs.LG

本文通过将测度论MDP基础、确定性误差传播分析和PAC泛化界三个传统统一，为一般可测Borel空间上的Fitted Q-Iteration (FQI) 提供了有限样本自适应数据性能界，并首次给出了连续空间中FQI的累积在线regret保证。

Revealing Modular Gradient Noise Imbalance in LLMs: Calibrating Adam via Signal-to-Noise Ratio

Ziqing Wen et al.

cs.LG cs.AI

本文提出MoLS方法，通过估计模块级Signal-to-Noise Ratio (SNR)来缩放Adam优化器的更新步长，以解决大语言模型中模块间梯度噪声不平衡导致的优化困难问题。该方法无需手动调整模块学习率，在多个LLM训练基准上提升了收敛速度和泛化性能。

Reward Shaping and Action Masking for Compositional Tasks using Behavior Trees and LLMs

Nicholas Potteiger et al.

cs.LG

本文提出了一种名为MRBT的符号结构，用于在组合任务中通过LLM自动生成奖励塑形和动作掩码函数，以提高强化学习训练效率。该方法通过SMT求解器验证规范正确性，并在神经符号强化学习循环中训练智能体，实验表明其优于基线方法。

A Testable Certificate for Constant Collapse in Teacher-Guided VAEs

Zegu Zhang, Jianhua Peng, Jian Zhang

cs.LG cs.AI

本文提出了一种可验证的测试方法，用于检测Teacher-Guided VAE中是否存在输入无关的constant collapse（一种后验坍塌模式）。通过将最佳常数学生与教师分布的互信息$I_T(X;T)$作为阈值，该方法将定性失效转化为可测量的边界，并在CIFAR-100和Tiny-ImageNet-200实验中验证了其有效性。该工作与关键词中的code和context关联较弱，主要聚焦于VAE的collapse检测。

HCInfer: An Efficient Inference System via Error Compensation for Resource-Constrained Devices

Shen Xu et al.

cs.LG

本文提出HCInfer系统，通过将LoRA-style误差补偿分支卸载到CPU、在GPU上执行压缩后的backbone，并引入异步补偿流水线和敏感度感知的动态rank分配，以在资源受限设备上高效部署LLMs。实验表明该方法在提升精度的同时保持了较高的推理速度。

MDN: Parallelizing Stepwise Momentum for Delta Linear Attention

Yulong Huang et al.

cs.LG cs.NE

本文提出Momentum DeltaNet (MDN)，通过几何重排更新系数实现了带步进动量规则的chunkwise并行算法，并从动力系统角度分析了动量递归作为二阶系统的稳定性。该方法在400M和1.3B参数模型上相比Mamba2和GDN等基线取得了性能提升。

Hypothesis generation and updating in large language models

Hua-Dong Xiong

cs.LG

本文研究了大型语言模型在数字游戏中的假设生成与更新能力，通过三种探针测量后验概率，并与最优贝叶斯模型和人类行为对比。发现LLM表现出系统性偏差（如强采样假设导致隐式奥卡姆剃刀），且存在评估-生成差距，但该方法在科学推理等需要超越数据的场景中泛化能力有限。

Measuring Learning Progress via Gradient-Momentum Coupling

Samuel Blad, Martin Längkvist, Amy Loutfi

cs.LG

本文提出Gradient-Momentum Coupling (GMC)信号，通过测量每个样本的gradient与历史momentum的逐参数归一化绝对乘积，来量化样本对持续学习的贡献。实验表明该信号对噪声具有鲁棒性，并能优先选择学习速度快的任务，在MiniGrid环境中可替代prediction error用于curiosity-driven exploration。

Offline Reinforcement Learning for Rotation Profile Control in Tokamaks

Rohit Sonker et al.

cs.LG

本文研究了在Tokamak装置中使用离线强化学习(offline RL)和基于模型的离线RL算法控制等离子体旋转轮廓的问题，仅利用DIII-D Tokamak的历史数据进行训练。最终方法采用概率模型模拟等离子体动力学，为RL训练生成rollout，并在真实设备上部署策略取得了有希望的结果。

Do Neural Operators Forget Geometry? The Forgetting Hypothesis in Deep Operator Learning

Yanming Xia, Angelica I. Aviles-Rivero

cs.LG

本文提出几何遗忘假说，指出深度算子架构中由于Markovian结构和全局混合机制，网络会随深度增加逐渐丢失domain geometry信息。作者通过层间几何探测实验验证了该现象，并引入轻量级几何记忆注入机制来缓解遗忘问题。

SOPE: Stabilizing Off-Policy Evaluation for Online RL with Prior Data

Carlo Romeo et al.

cs.LG cs.AI

本文提出SOPE算法，利用actor对齐的Off-Policy Policy Evaluation信号作为自动早停机制，动态控制在线强化学习中离线训练阶段的长度，以平衡计算效率与性能。实验表明该方法在Minari基准上提升了性能并大幅降低了计算开销。

QuadraSHAP: Stable and Scalable Shapley Values for Product Games via Gauss-Legendre Quadrature

Majid Mohammadi et al.

cs.LG

本文提出QuadraSHAP方法，利用Gauss-Legendre quadrature将product games中的Shapley value计算转化为一维积分，实现了$O(d\,m_q)$的计算复杂度。该方法在数值稳定性和可扩展性上优于现有方法，但主要贡献在于计算效率而非理论开创性。

Retain-Neutral Surrogates for Min-Max Unlearning

Junhao Cai et al.

cs.LG

本文提出了一种名为ROSU的近似unlearning方法，通过约束内层surrogate构造来最小化对retain性能的损害，并在多个benchmark上验证了其有效性。该方法主要关注梯度对齐的几何性质，与关键词中的概念关联较弱。

VARS-FL: Validation-Aligned Client Selection for Non-IID Federated Learning in IoT Systems

Mohamed Lakas, Mohamed Amine Ferrag

cs.LG cs.AI

本文提出VARS-FL框架，通过服务器端validation loss的减少量来量化每个client的贡献，并利用滑动窗口平均和对数参与项构建Reputation分数，实现非独立同分布数据下的client选择。该方法无需修改本地训练或聚合过程，在IoT入侵检测任务上相比FedAvg等基线方法提升了收敛速度和模型性能。

VisMMOE: Exploiting Visual-Expert Affinity for Efficient Visual-Language MoE Offloading

Cheng Xu et al.

cs.LG

本文提出VisMMoE系统，通过剪枝冗余visual tokens来优化视觉-语言混合专家模型在内存受限平台上的部署效率，利用visual-expert affinity效应使专家访问更集中和可预测，结合token压缩、前瞻预测和缓存调度实现最高2.68倍加速。

Quadratic Objective Perturbation: Curvature-Based Differential Privacy

Daniel Cortild, Coralia Cartis

cs.LG math.OC

本文提出Quadratic Objective Perturbation (QOP)方法，通过添加随机二次型扰动实现差分隐私，放宽了对梯度有界的强假设。该方法利用曲率控制灵敏度，在插值区间下达到$(\varepsilon, \delta)$-差分隐私，并分析了近似解下的隐私保持与效用保证。

From Drops to Grid: Noise-Aware Spatio-Temporal Neural Process for Rainfall Estimation

Rafael Pablos Sarabia et al.

cs.LG cs.CV

本文提出了一种基于Neural Process的降雨估计方法DropsToGrid，通过融合噪声、不规则分布的私人气象站时序数据与雷达空间信息生成高分辨率降雨场。该方法利用multi-scale feature extraction和temporal attention机制处理数据稀疏性与噪声，并显式量化不确定性。

Near-Policy: Accelerating On-Policy Distillation via Asynchronous Generation and Selective Packing

Miao Rang et al.

cs.LG cs.CL

本文提出Near-Policy Distillation (NPD)方法，通过异步生成与选择性打包加速on-policy蒸馏，并引入$\Delta$-IFD过滤机制缓解策略滞后与样本噪声问题。实验表明该方法在效率与性能上优于现有baseline，但与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention无直接关联。

Knowing but Not Correcting: Routine Task Requests Suppress Factual Correction in LLMs

Zixuan Chen et al.

cs.LG

本文发现LLMs在任务导向的请求中会抑制对错误事实的纠正，即使模型内部已检测到错误。通过机制分析，作者将这种现象归因于响应选择阶段的抑制，并提出了两种无需训练的干预方法（CDS和DPA）来提升事实严格性。

Uncertainty Estimation via Hyperspherical Confidence Mapping

Eunseo Choi et al.

cs.LG

本文提出Hyperspherical Confidence Mapping (HCM)框架，通过将网络输出分解为幅度和单位超球面上的方向向量，将不确定性解释为几何约束的违反程度，从而无需采样或分布假设即可进行不确定性估计。该方法在回归和分类任务中均适用，实验表明其性能与集成方法相当但推理成本更低。

Beyond Uniform Credit Assignment: Selective Eligibility Traces for RLVR

Chaoli Mou et al.

cs.LG cs.AI

本文针对RLVR中GRPO算法的“uniform credit assignment”问题，提出了Selective Eligibility Traces (S-trace)方法，通过引入稀疏的eligibility traces机制来区分关键推理步骤。实验表明该方法在多个模型上提升了性能，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Sharper Guarantees for Misspecified Kernelized Bandit Optimization

Davide Maran, Csaba Szepesvári

cs.LG math.OC stat.ML

本文研究了misspecified kernelized bandit optimization问题，通过谱局部化（spectral localization）和域分割（domain splitting）技术，将misspecification惩罚项从$\sqrt{d_\mathrm{eff}}$或$\sqrt{\gamma_n}$降低为对数或多项式对数增长，并给出了offline和online setting下的改进regret bound。

Training Transformers for KV Cache Compressibility

Yoav Gelberg et al.

cs.LG

本文提出KV-CAT方法，通过在训练时对KV cache进行稀疏化掩码，引导模型学习更易压缩的表示，从而提升下游压缩方法在长上下文任务中的质量-预算权衡。

Physical Fidelity Reconstruction via Improved Consistency-Distilled Flow Matching for Dynamical Systems

Sicheng Ma et al.

cs.LG physics.flu-dyn

本文提出了一种基于改进的一致性蒸馏流匹配方法，用于从低保真观测中快速重建高保真流场。该方法将最优传输流匹配教师模型蒸馏为单步一致性模型，在三个流体力学基准上实现了12倍推理加速，同时保持了相似的频谱性能。

Towards Steering without Sacrifice: Principled Training of Steering Vectors for Prompt-only Interventions

Yuntai Bao et al.

cs.LG

本文提出了一种针对大型语言模型（LLMs）的steering vectors (SVs) 训练方法，通过联合训练steering factors和方向来避免推理时的因子选择，并引入Prompt-only SV (PrOSV) 仅干预prompt tokens以改善生成质量。实验表明，该方法在AxBench上优于传统full-sequence SVs，并在模型效用与对抗鲁棒性间取得更好平衡。

DiBA: Diagonal and Binary Matrix Approximation for Neural Network Weight Compression

Nobutaka Ono

cs.LG

本文提出DiBA方法，将神经网络中的稠密权重矩阵$A$近似分解为$D_1B_1D_2B_2D_3$，其中$D_i$为对角矩阵，$B_i$为0/1二值矩阵。该方法通过交替优化对角因子和二值因子实现压缩，并在下游任务中仅微调对角因子以保持压缩效率。

A Fine-Grained Understanding of Uniform Convergence for Halfspaces

Aryeh Kontorovich, Kasper Green Larsen

cs.LG cs.AI math.ST

本文研究了半空间（halfspaces）的均匀收敛行为，证明了非齐次半空间在$\mathbb{R}^d$中的VC界是紧的，而齐次半空间在$\mathbb{R}^2$中具有更优的收敛速率，并通过临界楔形定位论证给出了无对数项的偏差界。

Quantizing With Randomized Hadamard Transforms: Efficient Heuristic Now Proven

Ran Ben-Basat et al.

cs.LG cs.AI cs.DS cs.NI

本文研究了随机化Hadamard变换(RHT)在量化预处理中的理论性质，证明了两次RHT可使坐标边际分布逼近高斯分布，三次RHT可衰减坐标协方差，并提出了基于输入矩的线性时间自适应检查方法。该工作为量化压缩方案提供了理论保证，但与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

Matrix-Decoupled Concentration for Autoregressive Sequences: Dimension-Free Guarantees for Sparse Long-Context Rewards

Pei-Sen Li

cs.LG math.PR

本文针对自回归序列的浓度界问题，提出了一种Matrix-Decoupled Concentration (MDC)框架，通过严格保留因果依赖矩阵与目标敏感度向量的乘积，避免了标量坍缩，为稀疏长上下文奖励提供了维度无关的$\mathcal{O}(1)$方差代理。该工作主要解决了现有浓度不等式在自回归设置中因依赖结构导致的次优界问题。

Multi-agent decision making: A Blackwell's informativeness approach

Zheng Zhang et al.

cs.LG

本文利用Blackwell信息结构抽象分析了多LLM系统中的决策问题，证明了投票和辩论方法的信息结构不会超过所有智能体私有信息的汇总，并提出了基于乘积后验估计的实用方法。实验表明该方法在问答任务上优于现有方法。

Does Synthetic Data Help? Empirical Evidence from Deep Learning Time Series Forecasters

Hugo Cazaux, Eyjólfur Ingi Ásgeirsson, Hlynur Stefánsson

cs.LG cs.AI

本文通过大规模实验（4218次运行）系统评估了合成数据对时间序列预测的影响，发现其效果高度依赖于模型架构：channel-mixing模型（如TimesNet）受益，而channel-independent模型（如DLinear）性能下降。研究还指出Seasonal-Trend生成器最可靠，且硬课程切换会带来性能损失。

Optimal Transport for LLM Reward Modeling from Noisy Preference

Licheng Pan et al.

cs.LG cs.AI

本文提出SelectiveRM框架，利用optimal transport处理RLHF中噪声偏好问题，通过Joint Consistency Discrepancy对齐模型预测与偏好数据分布，并引入Mass Relaxation机制自动排除噪声样本。实验表明该方法在多个基准上优于现有基线。

Requests of a Feather Must Flock Together: Batch Size vs. Prefix Homogeneity in LLM Inference

Saksham Rathi, Preeti, Mythili Vutukuru

cs.LG

本文提出Feather调度器，利用reinforcement learning学习batch size与prefix homogeneity（前缀同质性）之间的最优权衡，并引入Chunked Hash Tree (CHT)实现快速前缀检测。该方法在vLLM和SGLang中实现，通过减少KV cache访问次数提升LLM推理吞吐量。

TFM-Retouche: A Lightweight Input-Space Adapter for Tabular Foundation Models

Duong Nguyen, Mohammed Jawhar, Nicolas Chesneau

cs.LG cs.AI

本文提出了一种轻量级的输入空间残差适配器TFM-Retouche，用于调整表格基础模型(TFM)的输入数据以匹配其归纳偏置，无需修改模型内部架构。该方法在TabArena-Lite基准测试中提升了TabICLv2的性能，但主要贡献在于适配器设计而非解决长期问题或与关键词高度契合。

When Brain Networks Travel: Learning Beyond Site

Yingxu Wang et al.

cs.LG

本文提出CORE框架，用于解决fMRI脑网络分析中跨站点分布外泛化问题。该方法通过解耦站点混杂因素并利用轻量级时序描述符建模动态通路，在多个真实数据集上提升了跨站点诊断性能。

Towards Generation-Efficient Uncertainty Estimation in Large Language Models

Mingcheng Zhu, Yu Liu, Tingting Zhu

cs.LG

本文研究了大型语言模型中不确定性估计的效率问题，提出了Logit Magnitude和MetaUE两种方法，分别利用部分生成序列和输入提示进行不确定性估计，以减少推理成本。实验表明，部分生成足以实现有效的估计，但方法本身与关键词列表中的概念关联较弱。

Towards Self-Explainable Document Visual Question Answering with Chain-of-Explanation Predictions

Kjetil Indrehus et al.

cs.LG cs.CV

本文提出CoExVQA框架，通过链式解释设计将文档视觉问答中的证据识别、答案定位和答案解码分离，使推理过程可验证。实验表明该方法在PFL-DocVQA上达到可解释DocVQA的SotA性能，但未涉及关键词中的核心概念。

Geometry-Aware Simplicial Message Passing

Elena Xinyi Wang, Bastian Rieck

cs.LG cs.CG math.AT

本文提出了Geometric Simplicial Weisfeiler-Lehman (GSWL)测试，通过将顶点坐标纳入颜色细化过程，使simplicial message passing能够区分具有相同连通性但不同几何嵌入的网格，并证明了其表达能力与Euler Characteristic Transform (ECT)的联系。

Causal Reinforcement Learning for Complex Card Games: A Magic The Gathering Benchmark

Cristiano da Costa Cunha et al.

cs.LG cs.AI

本文构建了一个基于Magic: The Gathering的因果强化学习基准测试平台MTG-Causal-RL，该平台具有高维部分观测、大规模掩码动作空间和显式因果结构。作者提出了CGFA-PPO作为参考因果agent，利用Structural Causal Model (SCM)的父节点作为因子对齐的critic目标，并通过实验验证了该基准在因果credit assignment和策略可审计性方面的诊断能力。

Normalized Architectures are Natively 4-Bit

Maxim Fishman et al.

cs.LG cs.AI

本文研究了nGPT架构在4-bit低精度训练中的鲁棒性，发现其通过将权重和隐藏表示约束到单位超球面，使得点积运算中的信号积累优于噪声，从而无需额外干预即可稳定训练。实验在1.2B密集模型和3B/30B混合MoE模型上验证了该方法。

PRISM: Iterative Cross-Modal Posterior Refinement for Dynamic Text-Attributed Graphs

Trimble Chang et al.

cs.LG

本文提出PRISM框架，用于动态文本属性图(DyTAG)表示学习。它将图信息分为语义和行为两种模态，并通过迭代跨模态后验精炼策略逐步将语义先验转化为行为条件后验状态，以替代传统的一次性融合方法。实验在DTGB基准上验证了其在时序链接预测等任务中的有效性。

Understanding diffusion models requires rethinking (again) generalization

Pierre Marion, Yu-Han Wu

cs.LG

本文认为理解diffusion models的泛化需要超越经典统计学习理论和良性过拟合范式的新框架，并基于CIFAR-10上的实验提出了若干开放性问题。

Fast Gauss-Newton for Multiclass Cross-Entropy

Mikalai Korbit, Mario Zanon

cs.LG

本文针对多类softmax交叉熵损失，将广义Gauss-Newton (GGN)曲率分解为真vs其余项和正半定竞争内协方差项，并提出了Fast Gauss-Newton (FGN)方法，通过保留前者并丢弃后者来近似GGN。该方法利用标量间隔表示，将阻尼更新转化为等价的whitened行空间系统，并通过共轭梯度法无矩阵求解。

Beyond Autoregressive RTG: Conditioning via Injection Outside Sequential Modeling in Decision Transformer

Yongyi Wang et al.

cs.LG cs.AI

本文提出SlimDT方法，将Return-to-Go (RTG)信息注入到state representations中，而非将其作为独立的token加入自回归序列，从而将序列长度减少三分之一并提升推理效率。该方法在D4RL基准上超越了标准Decision Transformer (DT)，但并未涉及关键词中的code, context, spectral, Muon, pretrain, agent或attention等核心概念。

BoostLLM: Boosting-inspired LLM Fine-tuning for Few-shot Tabular Classification

Yi-Siang Wang et al.

cs.LG

本文提出BoostLLM框架，将boosting范式应用于LLM微调，通过训练序列化的PEFT适配器作为弱学习器，并引入决策树路径作为结构化先验，以提升少样本表格分类性能。实验表明该方法在低数据场景下可匹配或超越XGBoost，但未涉及code、spectral、Muon等关键词相关技术。

Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

Yun Qu et al.

cs.LG cs.AI

本文揭示了基于组的RLVR策略梯度方法在LLM响应simplex上隐式定义目标分布并通过一阶近似进行投影的共同几何结构，并提出了Listwise Policy Optimization (LPO)方法，通过显式进行目标投影和精确的divergence最小化来优化策略。该方法在多种推理任务上相比典型策略梯度基线提升了训练性能。

SymDrift: One-Shot Generative Modeling under Symmetries

Samir Darouich et al.

cs.LG cs.AI

本文提出SymDrift框架，通过引入对称性感知的漂移场（包括坐标空间中的最优对齐对称化漂移和$G$-不变嵌入）来解决等变生成模型在单步采样中的对称性问题。该方法在构象和过渡态生成基准上优于现有单步方法，并将计算开销降低至多40倍。

Matrix-Valued Optimism is Matrix-Valued Augmentation: Additive Hybrid Designs for Constrained Optimization

Jiayi Zhao

cs.LG

本文研究了约束优化中增广拉格朗日方法与乐观原始-对偶方法的等价性，将标量参数的等价性推广到matrix-valued correction，并提出了一个加性原理。基于此，文章设计了一种混合规则，通过将matrix correction分解到两个通道并利用local spectral weights选择步长，在非线性等式约束问题上取得了优于纯增广或纯乐观方法的效果。

AdaGamma: State-Dependent Discounting for Temporal Adaptation in Reinforcement Learning

Yaomin Wang et al.

cs.LG cs.AI

本文提出AdaGamma方法，通过学习状态依赖的折扣函数并结合return-consistency目标来防止TD-error崩溃，从而在深度actor-critic框架中实现状态依赖折扣。该方法可集成到SAC和PPO中，在连续控制基准和物流平台在线A/B测试中取得改进。

Grokking or Glitching? How Low-Precision Drives Slingshot Loss Spikes

Liu Hanqing et al.

cs.LG cs.CL math.OC stat.ML

本文证明了深度神经网络在无正则化长期训练中出现的周期性loss spikes（“Slingshot Mechanism”）是由浮点数算术精度限制导致的。当正确类logit与其他logit的差值超过吸收误差阈值时，反向传播中正确类的梯度被舍入为零，破坏了梯度跨类的零和约束，导致分类器参数和特征均值呈指数增长，作者将此机制称为Numerical Feature Inflation (NFI)。

Entropy-Regularized Adjoint Matching for Offline RL

Abdelghani Ghanem, Mounir Ghogho

cs.LG cs.AI

本文提出了一种名为Maximum Entropy Adjoint Matching (ME-AM)的离线强化学习框架，通过引入Mirror Descent熵最大化目标和混合行为先验，解决了现有基于流匹配策略的Q学习方法中存在的流行度偏差和支持受限问题。该方法在稀疏奖励连续控制任务上取得了与现有最优方法相当或更优的性能。

One Algorithm, Two Goals: Dual Scoring for Parameter and Data Selection in LLM Fine-Tuning

Xinrui Chen, Liu Yang, Ou Wu

cs.LG

本文提出了一种名为DualSFT的算法，用于在LLM微调中同时进行参数和数据选择。该方法通过共享的梯度统计信息，将参数重要性和数据效用统一到一个评分框架中，以减少计算开销。

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

Pengqi Lu

cs.LG

本文通过机制审计发现深度Diffusion Transformers (DiTs)存在一种由Mean Mode Screaming (MMS)引发的均值主导崩溃状态，并提出Mean-Variance Split (MV-Split) Residuals方法，通过分离中心化残差更新与泄漏主干均值替换来稳定训练，在400层和1000层DiT上验证了其有效性。

In-Context Black-Box Optimization with Unreliable Feedback

Nicolas Samuel Blumer, Julien Martinelli, Samuel Kaski

cs.LG cs.AI

本文研究了带不可靠辅助反馈的上下文黑箱优化问题，提出了一种基于transformer的预训练模型FICBO，该模型通过结构化反馈先验学习不同反馈源的可信度，并在测试时利用历史观测与辅助信号自适应地选择查询点。实验表明该方法在合成和真实任务中能有效利用有用反馈并抵御误导性信息。

Federation of Experts: Communication Efficient Distributed Inference for Large Language Models

Muhammad Shahir Abdurrahman et al.

cs.LG

本文提出Federation of Experts (FoE)架构，通过将MoE块重组为多个仅负责单个KV head的集群，并限制all-to-all通信于节点内部，从而显著降低分布式推理中的通信开销。实验表明该方法在LongBench上大幅提升吞吐量并降低延迟。

Contrastive Identification and Generation in the Limit

Xiaoyu Li et al.

cs.LG cs.AI cs.CL cs.DS

本文研究了在极限情况下的对比识别与生成问题，其中学习器观察的是满足$h(x)\ne h(y)$的无序对$\{x,y\}$流，但正例标签被隐藏。文章给出了无噪声下的可识别类刻画、对比闭包维数以及有噪声下的鲁棒性反转结果，主要贡献在于引入对比学习框架并分析了其与经典正例识别的关系。

Playing the network backward: A Game Theoretic Attribution Framework

Jakob Paul Zimmermann et al.

cs.LG cs.CV

本文通过将反向归因方法（如梯度、LRP等）重新解释为扩展网络图上的两人博弈，建立了一个统一框架。该框架将归因图视为博弈轨迹分布的投影，并允许通过博弈论概念（如策略正则化、风险规避）来设计新的归因规则。

AffineLens: Capturing the Continuous Piecewise Affine Functions of Neural Networks

Yi Wei et al.

cs.LG

本文提出了AffineLens框架，用于计算和可视化分段仿射神经网络（PANNs）的输入-输出映射所诱导的区域划分。该框架通过识别与有界输入域相交的神经元超平面，逐层枚举仿射子区域，并返回非空的极大CPA区域及其内部代表点。

Soft Deterministic Policy Gradient with Gaussian Smoothing

Hyunjun Na, Donghwan Lee

cs.LG cs.AI

本文针对Deterministic Policy Gradient (DPG)在稀疏或离散奖励下因critic不可微导致梯度失效的问题，提出了一种基于Gaussian smoothing的Soft-DPG方法，通过定义平滑Bellman方程下的新action-value函数来避免对critic action-gradients的依赖。该方法被实例化为Soft DDPG算法，在标准连续控制benchmark及其离散奖励变体上验证了其有效性。

Band Together: Untargeted Adversarial Training with Multimodal Coordination against Evasion-based Promotion Attacks

Guanmeng Xian, Ning Yang, Philip S. Yu

cs.LG cs.AI

本文针对多模态推荐系统中的逃避式推广攻击，提出了一种名为UAT-MC的对抗训练方法。该方法通过梯度对齐机制解决跨模态梯度不匹配问题，以提升模型鲁棒性，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

When Graph Language Models Go Beyond Memorization

Masatsugu Yamada, Mahito Sugiyama

cs.LG

本文通过结合频繁子图挖掘、图级bootstrap基线和三层频率分层，开发了一种校准诊断协议，用于区分图语言模型中的记忆与结构对齐。实验表明，在大规模数据下模型能超越记忆学习结构规律，但主要局限于高频模式，而低频模式覆盖不足。

Cumulative-Goodness Free-Riding in Forward-Forward Networks: Real, Repairable, but Not Accuracy-Dominant

Amirhossein Yousefiramandi

cs.LG cs.AI

本文研究了Forward-Forward网络中累积好度导致的层间搭便车现象，发现深层梯度随前层正边际指数衰减，并提出了三种局部修复方法。实验表明这些修复能显著改善层分离统计量，但对最终准确率影响很小，说明该问题并非限制精度的主导因素。

Structure-Preserving Gaussian Processes Via Discrete Euler-Lagrange Equations

Jan-Hendrik Ewering et al.

cs.LG cs.RO

本文提出Lagrangian Gaussian Processes (LGPs)，通过离散受迫Euler-Lagrange方程实现动力学的概率与数据高效学习。该方法在无外力时保持Lagrange-d'Alembert原理的几何结构，能从离散位置快照中学习动力学，无需速度或动量数据，并在软机器人等案例中展示了数据效率与长期预测稳定性。

The Role of Node Features in Graph Pooling

Jan von Pichowski et al.

cs.LG

本文研究了graph pooling中node features与graph topology的alignment问题，指出当node features与拓扑结构对齐不足时pooling效果有限，并提出了衡量feature quality的定量指标。

The Weight Gram Matrix Captures Sequential Feature Linearization in Deep Networks

Taehun Cha et al.

cs.LG cs.AI

本文提出了一个以特征为中心的分析框架，通过引入特征学习方程(Feature Learning Equation)将权重更新与特征演化联系起来，并指出权重Gram矩阵(weight Gram matrix)是捕捉特征动态的关键对象。该工作从虚拟协方差(Virtual Covariance)和目标线性度(Target Linearity)的角度，解释了深度网络如何顺序地将表示转化为目标线性结构，为神经坍缩(Neural Collapse)等现象提供了统一解释。

Trade-off Functions for DP-SGD with Subsampling based on Random Shuffling: Tight Upper and Lower Bounds

Marten van Dijk, Murat Bilgehan Ertan

cs.LG cs.CR

本文在$f$-DP框架下推导了基于随机洗牌子采样的DP-SGD的trade-off函数的紧致上下界，利用Berry-Esseen定理给出了显式闭式界，并与Poisson子采样进行了对比。

Beyond Rigid Alignment: Graph Federated Learning via Dual Manifold Calibration

Wentao Yu et al.

cs.LG

本文提出FedGMC方法，通过双流形校准机制处理图联邦学习中的语义和结构异质性，在多个图上实验效果优于现有方法。

Inference-Time Refinement Closes the Synthetic-Real Gap in Tabular Diffusion

Eugenio Lomurno et al.

cs.LG cs.AI

本文提出TARDIS框架，通过推理时精炼（inference-time refinement）来改进预训练的tabular diffusion backbone，无需重新训练。该方法使用Tree-structured Parzen Estimator搜索score-level guidance，并引入Bidirectional Chamfer Refinement (BCR)模式，在多个基准上实现了对真实数据训练模型的性能提升。

Can Attribution Predict Risk? From Multi-View Attribution to Planning Risk Signals in End-to-End Autonomous Driving

Le Yang et al.

cs.LG

本文提出了一种用于端到端自动驾驶规划的分层attribution框架，通过粗到细的区域attribution策略从六视角输入中定位关键区域，并提取attribution熵、空间方差和跨视角基尼系数作为规划风险预测信号。实验表明这些统计量与轨迹误差和碰撞检测具有相关性，但方法主要针对自动驾驶场景，与关键词中的spectral、Muon、pretrain等概念关联较弱。

A Flow Matching Algorithm for Many-Shot Adaptation to Unseen Distributions

Tyler Ingebrand et al.

cs.LG

本文提出了一种用于多样本适应未见分布的Flow Matching算法FP-FM，通过学习基函数来跨越训练分布的velocity fields，并通过最小二乘投影实现对新分布的高效生成。该方法在合成和图像数据集上相比基线方法在精度和召回率上取得了显著提升。

When Labels Have Structure: Improving Image Classification with Hierarchy-Aware Cross-Entropy

April Chan, Davide D'Ascenzo, Sebastiano Cultrera di Montesano

cs.LG cs.CV

本文提出Hierarchy-Aware Cross-Entropy (HACE)作为标准cross-entropy的替代损失函数，通过prediction aggregation和ancestral label smoothing两个组件将类别层次结构融入训练过程。实验表明该方法在多个图像分类数据集和架构上提升了准确率，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

PACE: Prune-And-Compress Ensemble Models

Fabian Akkerman et al.

cs.LG math.OC

本文提出PACE框架，通过先主动生成新弱学习器以增强集成多样性，再对富集后的集成进行剪枝，从而在保持对原始集成忠实度的前提下，提升集成模型的压缩与剪枝效果。实验表明该方法优于现有剪枝与压缩方法。

INEUS: Iterative Neural Solver for High-Dimensional PIDEs

Jean-Loup Dupret, Davide Gallon, Patrick Cheridito

cs.LG math.NA q-fin.CP

本文提出了一种无网格迭代神经求解器INEUS，用于求解高维偏积分微分方程(PIDEs)。该方法通过单跳采样替代非局部跳积分，并将PIDE求解转化为递归回归问题，在保持全局解学习能力的同时提高了对非局部项的处理效率。

Attributions All the Way Down? The Metagame of Interpretability

Hubert Baniecki, Przemyslaw Biecek, Fabian Fumagalli

cs.LG cs.AI stat.ML

本文提出了一个名为"metagame"的概念框架，用于量化模型解释的二阶交互效应，通过将归因方法本身视为合作博弈并计算其Shapley value，证明了归因可以层次化地分解为元归因。实验展示了该方法在语言模型、视觉-语言编码器和多模态扩散transformer中的应用。

Region Seeding via Pre-Activation Regularization: A Geometric View from Piecewise Affine Nerual Networks

Yi Wei, Xuan Qi, Furao Shen

cs.LG

本文从分段仿射神经网络的几何视角出发，提出了一种基于预激活正则化的区域播种方法，通过理论分析给出了确保神经元切换面靠近数据点以增加局部仿射区域数量的充分条件，并据此设计了一个即插即用的正则化器。实验表明该方法能增加实际实现的仿射区域数量，并在小数据集和ImageNet-1k上提升早期精度。

Molecules Meet Language: Confound-Aware Representation Learning and Chemical Property Steering in Transformer-VAE Latent Spaces

Zakaria Elabid et al.

cs.LG

本文研究了Transformer-VAE在SELFIES分子表示上的潜在空间性质，发现化学属性可预测性可能源于序列层面的捷径而非化学组织。通过引入confound-aware评估方法，作者分离了化学信号与SELFIES伪影，并验证了部分化学属性（如cLogP）存在鲁棒的单调steering方向。

Perceive, Route and Modulate: Dynamic Pattern Recalibration for Time Series Forecasting

Siru Zhong et al.

cs.LG

本文提出了一种名为Dynamic Pattern Recalibration (DPR)的机制，通过一个轻量级的"Perceive-Route-Modulate"流程，为时间序列预测模型中的每个token生成时间感知的调制向量，以解决局部时间模式动态变化的问题。该方法可作为即插即用模块增强现有架构，也可作为独立模型DPRNet在多个基准上取得有竞争力的性能。

When Does $\ell_2$-Boosting Overfit Benignly? High-Dimensional Risk Asymptotics and the $\ell_1$ Implicit Bias

Ye Su, Jian Li, Yong Liu

cs.LG

本文研究了$\ell_2$-Boosting在高维设置下的过拟合行为，通过耦合Convex Gaussian Minimax Theorem与渐近展开分析了其风险。结果表明，在纯噪声模型下良性过拟合以对数速率失败，且该速率慢于$\ell_2$几何中的线性衰减。

SMolLM: Small Language Models Learn Small Molecular Grammar

Akhil Jindal, Harang Ju

cs.LG

SMolLM是一个仅53K参数的轻量级transformer模型，用于生成SMILES分子表示。该模型在ZINC-250K基准上以更少的参数实现了优于标准GPT的性能，并通过机制分析揭示了其按固定顺序解决SMILES约束（括号、环、化合价）的迭代计算过程。

LINC: Decoupling Local Consequence Scoring from Hidden Matching in Constructive Neural Routing

Shaofeng Qin, Li Wang

cs.LG

本文提出LINC，一种用于构造性神经路由求解器的解码器架构，通过显式计算局部一步后果（如行程、等待时间等）并解耦其评分与全局隐式匹配，从而提升CVRPTW等问题的求解性能。

Eliciting associations between clinical variables from LLMs via comparison questions across populations

Fabian Kabus et al.

cs.LG

本文提出了一种通过结构化比较问题（patient comparison triplet questions）从LLMs中提取临床变量间关联信息的方法，结合统计模型和不变因果预测（ICP）来估计相关性并推断候选因果链接。该方法在COPD和MS两个临床领域展示了稳定且可解释的结果，但未涉及code、spectral、Muon等关键词。

Is Escalation Worth It? A Decision-Theoretic Characterization of LLM Cascades

Dylan Bouchard

cs.LG cs.AI cs.CL

本文从决策论角度分析了LLM级联（cascade）策略的成本-质量权衡，通过约束优化和duality理论刻画了级联的frontier几何性质，并实验表明其性能主要受限于结构性成本而非中间阶段不足。

Topological Signatures of Grokking

Yifan Tang et al.

cs.LG cs.AI stat.ML

本文通过persistent homology（持续同调）分析模型在模算术任务上的嵌入矩阵，发现grokking现象与一阶同调群$H_1$的持续性的急剧增加相关，揭示了网络学习底层循环结构的拓扑特征。该方法与Fourier分析等现有诊断工具相比，提供了对表示学习的统一几何与拓扑刻画。

Order-Agnostic Autoregressive Modelling with Missing Data

Ignacio Peis, Pablo M. Olmos, Jes Frellsen

cs.LG stat.ML

本文重新审视了Order-Agnostic autoregressive models在缺失数据场景下的应用，提出了一个可直接在不完整数据集上训练的框架，并利用其条件密度估计进行主动信息获取。实验表明，该模型在多个基准上优于传统imputation方法。

Memory Efficient Full-gradient Attacks (MEFA) Framework for Adversarial Defense Evaluations

Yuan Du, Mitchel Hill, HanQin Cai

cs.LG cs.AI cs.CV

本文提出了一种内存高效的全梯度攻击框架(MEFA)，通过梯度检查点技术实现了对迭代随机净化防御的精确端到端梯度计算，解决了先前因内存限制而使用近似反向传播导致攻击信号减弱的问题。该框架结合检查点反向传播与随机性控制协议，在扩散模型和Langevin采样防御上展示了比近似梯度攻击更强的白盒攻击效果。

Preliminary Insights in Chronos Frequency Data Understanding and Reconstruction

Alessandro Pagani et al.

cs.LG

本文初步分析了Chronos基础模型处理频域信息的能力，通过使用轻量级在线最小描述长度探针测试其内部表示中频率信息的可分离性，为理解时间序列基础模型的信号处理特性提供了初步见解。

Flow Matching with Arbitrary Auxiliary Paths

Xin Peng, Ang Gao

cs.LG cs.AI

本文提出了AuxPath-FM框架，通过引入服从任意分布的辅助变量$\eta$来推广条件flow matching，使得生成轨迹形式为$X_t = a(t)X_1 + b(t)X_0 + c(t)\eta$，并理论上证明了连续性方程与训练目标的一致性。该框架允许使用多种先验分布（如Gaussian、Uniform等）设计概率路径，为生成建模提供了理论通用性与实践灵活性。

Layer Collapse in Diffusion Language Models

Alexander Conzelmann, Albert Catalan-Tatjer, Shiwei Liu

cs.LG

本文研究了扩散语言模型（DLM）中的层坍塌现象，发现早期层存在由单个大异常值主导的相似激活模式，该异常值对模型输出至关重要。与自回归模型相反，DLM中的冗余主要出现在早期层，且由过度训练而非欠训练导致，这为模型压缩提供了新见解。

A Unified Pair-GRPO Family: From Implicit to Explicit Preference Constraints for Stable and General RL Alignment

Hao Yu

cs.LG math.ST

本文提出了Pair-GRPO家族，包括Soft-Pair-GRPO和Hard-Pair-GRPO，用于解决RLHF中偏好学习的稳定性问题。通过理论分析和实验验证，该方法在LLM对齐和连续控制任务上取得了改进。

MinMax Recurrent Neural Cascades

Alessandro Ronca

cs.LG cs.AI cs.FL

本文提出MinMax Recurrent Neural Cascades (RNCs)，利用MinMax代数实现一种不受梯度消失或爆炸影响的递归形式。该模型在理论上具有包括所有regular languages在内的形式表达能力，并支持并行与序列化评估，但其方法在关键词所关注的code、context、spectral、Muon、pretrain、agent或attention等方向上并无直接关联或开创性贡献。

Data-Driven Covariate Selection for Nonparametric and Cycle-Agnostic Causal Effect Estimation

Ana Leticia Garcez Vicente, Gijs van Seeventer, Saber Salehkaleybar

cs.LG

本文研究了一种基于条件独立性信息的数据驱动协变量选择方法，并将其有效性从acyclic causal models扩展到cyclic causal models，证明了该方法在两种设置下均适用。实验通过合成数据验证了其在cyclic causal models中的可靠性。

Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level

Nan Jia et al.

cs.LG cs.AI

本文提出了一种非对称在线蒸馏方法AOPD，通过用局部散度最小化替代非正优势区域的无效负强化，改进了标准在线蒸馏中的高方差和梯度消失问题。实验表明该方法在数学推理任务上优于基线，但未涉及关键词中的code、spectral、Muon、agent或attention等概念。

Consistent Geometric Deep Learning via Hilbert Bundles and Cellular Sheaves

Kartik Tandon et al.

cs.LG cs.AI eess.SP

本文通过引入Hilbert bundle和cellular sheaf理论，为定义在流形上的无限维信号（如时间序列、概率分布）构建了一个统一的卷积学习框架HilbNet。该框架利用Hilbert bundle上的connection Laplacian作为卷积算子，并通过两阶段采样过程（流形采样诱导Hilbert Cellular Sheaf，再离散化信号）使其可计算，证明了离散化架构收敛于连续架构。这项工作将经典的基于Laplacian的几何学习方法推广到了每个点信号位于不同Hilbert空间的场景。

SparseForge: Efficient Semi-Structured LLM Sparsification via Annealing of Hessian-Guided Soft-Mask

Liu Hanzuo et al.

cs.LG

本文提出SparseForge，一种通过Hessian引导的soft-mask退火来优化半结构化稀疏mask的后训练框架，旨在提升LLM的稀疏恢复效率。该方法在LLaMA-2-7B上以较少重训练token实现了接近SOTA的精度。

FRInGe: Distribution-Space Integrated Gradients with Fisher--Rao Geometry

Gabriele Martino, Sebastian Tschiatschek

cs.LG

FRInGe提出了一种基于Fisher-Rao几何的梯度归因方法，通过将参考点和插值路径定义在预测分布空间中来改进Integrated Gradients。该方法使用最大熵预测参考和概率单纯形上的测地线路径，在ImageNet架构上提升了校准相关的归因指标。

E = T*H/(O+B): A Dimensionless Control Parameter for Mixture-of-Experts Ecology

Qingjun Zhang

cs.LG cs.AI cs.CL cs.CV

本文提出一个无量纲控制参数$E = T \cdot H / (O + B)$，用于预测Mixture-of-Experts (MoE)模型是否会形成健康的专家生态或出现死专家。通过大量实验验证了$E \geq 0.5$可保证无死专家，并发现了专家复苏、任务复杂度影响临界阈值等额外现象。

Federated Cross-Client Subgraph Pattern Detection

Selin Ceydeli, Rui Wang, Kubilay Atasu

cs.LG

本文针对分布式图上的子图模式检测问题，提出了一种跨客户端的逐层embedding交换框架，通过同步前向传播中每层的中间节点表示来弥合分布式与集中式GNN之间的表示差异，实验表明该方法与联邦参数聚合互补。

Hyperbolic Concept Bottleneck Models

Daniel Uyterlinde, Swasti Shreya Mishra, Pascal Mettes

cs.LG cs.CV

本文提出Hyperbolic Concept Bottleneck Models (HypCBM)，通过将concept activation建模为hyperbolic space中的非对称几何包含关系，解决了现有concept bottleneck models在flat Euclidean space中忽略概念层次结构的问题。该方法在测试时利用entailment cones的包含边界生成稀疏且层次感知的激活，无需额外监督或学习模块。

FedFrozen: Two-Stage Federated Optimization via Attention Kernel Freezing

Junye Du et al.

cs.LG

本文提出FedFrozen，一种两阶段联邦优化框架，通过先全模型热身训练再冻结attention中的query/key block并仅优化value block来缓解客户端漂移。实验表明该方法能提升Transformer模型在异质联邦学习中的稳定性与有效性。

Scene-Adaptive Continual Learning for CSI-based Human Activity Recognition with Mixture of Experts

Wenhan Zheng, Yuyi Mao, Ivan Wang-Hei Ho

cs.LG

本文提出了一种基于CSI的人体活动识别方法SAMoE-C，通过混合专家系统和注意力路由机制实现场景自适应，在保持高精度的同时降低了推理成本。该方法主要解决了跨域场景下的性能退化问题，但未涉及关键词中的核心概念。

ORTHOBO: Orthogonal Bayesian Hyperparameter Optimization

Maresa Schröder et al.

cs.LG cs.AI

本文识别了贝叶斯优化中因有限样本Monte Carlo误差导致的acquisition estimation noise问题，并提出OrthogonalBO框架，通过引入正交acquisition estimator来降低方差并稳定候选排序。该方法在理论上证明了方差缩减和排序稳定性，并在神经网络超参数优化中验证了有效性。

Invariant Features in Language Models: Geometric Characterization and Model Attribution

Agnibh Dasgupta, Abdullah Tanvir, Xin Zhong

cs.LG cs.CL

本文提出一个局部几何框架，将语义等价的输入视为在latent space中占据结构化区域，其中paraphrastic variation沿nuisance方向而语义identity保留在invariant subspaces中。通过对比子空间发现方法分离语义变化，并展示了invariant representations在zero-shot model attribution中的应用。

MINER: Mining Multimodal Internal Representation for Efficient Retrieval

Weien Li et al.

cs.LG

本文提出MINER，一种轻量级插件模块，通过探测和融合transformer层中的内部表示信号，将视觉文档检索中的多模态信息压缩为单个紧凑embedding，在不牺牲单向量检索效率的前提下提升了检索质量。该方法在ViDoRe基准上优于现有密集单向量检索器，并缩小了与强交互式基线的性能差距。

Invariant-Based Diagnostics for Graph Benchmarks

Richard von Moos, Mathieu Alain, Bastian Rieck

cs.LG math.CO

本文提出使用graph invariants（图不变量，即置换不变的、与任务无关的结构描述符）作为诊断框架来分析图基准测试。研究表明，不变量比标准GNN更具表达力，能预测多任务性能，且基于不变量的简单模型在多个数据集上与Transformer和消息传递模型性能相当。

Diversity Curves for Graph Representation Learning

Katharina Limbeck et al.

cs.LG

本文提出了一种基于图粗化过程中结构多样性追踪的图表示方法diversity curves，通过跟踪图的spread（一种等距不变量）来编码图的度量多样性和几何结构，并利用边收缩粗化来提升表达能力。该方法在聚类、可视化、单细胞图几何区分、分子图结构比较和几何形状表征等任务中展示了有效性。

No Triangulation Without Representation: Generalization in Topological Deep Learning

Johannes S. Schmidt et al.

cs.LG math.AT

本文扩展了MANTRA基准数据集，通过实验发现图神经网络和高阶消息传递方法在该基准上可以饱和，但依赖于正确的表示和特征分配。研究指出现有模型无法泛化到数据的组合结构之外，强调了拓扑结构理解的研究空白。

Hitting Time Isomorphism for Multi-Stage Planning with Foundation Policies

Magnus Victor Boock et al.

cs.LG

本文提出了一种基于hitting time观测的operator-theoretic表示学习框架，用于离线强化学习，证明了在latent linear closure条件下表示的存在性和唯一可识别性，并给出了有限样本保证。基于该理论，作者设计了Isomorphic Embedding Learning (IEL)算法，通过显式的hitting time回归来学习非对称的几何结构，从而支持基于图的多阶段规划。

Efficient Serving for Dynamic Agent Workflows with Prediction-based KV-Cache Management

Haoyu Zheng et al.

cs.LG

本文针对LLM-based workflows中动态agent调用序列导致的KV-Cache管理问题，提出PBKV系统，通过融合历史工作流与目标工作流上下文预测未来agent调用，并据此进行缓存淘汰与预取。实验表明PBKV在动态工作流上相比LRU有显著加速。

Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching

Xiang Li, Nan Jiang

cs.LG cs.AI stat.ML

本文提出Q-MMR框架，用于有限horizon MDP中的off-policy evaluation，通过递归重加权和moment matching学习数据点权重以近似目标策略下的期望回报。该方法在$Q^\pi$可实现性假设下建立了数据依赖的有限样本保证，且误差界与函数类的统计复杂度无关。

Operator-Guided Invariance Learning for Continuous Reinforcement Learning

Zuyuan Zhang, Fei Xu Yu, Tian Lan

cs.LG cs.AI

本文提出VPSD-RL框架，通过Lie群作用与pullback算子发现连续强化学习中的值保持结构，并利用生成元残差最小化学习近似结构。该方法通过ODE流指数化生成有限变换，结合过渡增强与变换一致性正则化提升数据效率，但未涉及code、spectral或Muon等关键词。

Cubit: Token Mixer with Kernel Ridge Regression

Chuanyang Zheng et al.

cs.LG cs.CL

本文提出Cubit架构，将Transformer中的attention机制重新解释为Nadaraya-Watson regression，并进一步用Kernel Ridge Regression (KRR)的closed-form solution替代原有计算，同时引入Limited-Range Rescale (LRR)提升训练稳定性。实验表明Cubit在长序列建模上优于vanilla Transformer，但方法本身与关键词中的attention有一定关联，创新性有限。

PACZero: PAC-Private Fine-Tuning of Language Models via Sign Quantization

Murat Bilgehan Ertan et al.

cs.LG cs.AI cs.CR

本文提出PACZero，一种通过sign quantization实现PAC privacy的零阶微调方法，能在互信息为零时提供可用效用，并通过在候选子集一致时释放无信息成本的sign来抵抗成员推断攻击。

Is One Layer Enough? Understanding Inference Dynamics in Tabular Foundation Models

Amir Rezaei Balef, Mykhailo Koshil, Katharina Eggensperger

cs.LG cs.AI

本文首次对6种基于Transformer的tabular foundation models (TFMs) 的逐层推理机制进行了大规模研究，揭示了其深度方向上的冗余性。基于此发现，作者设计了一个仅使用原模型20%参数的单层循环模型，并取得了可比的性能。

Efficient Techniques for Data Reconstruction, with Finite-Width Recovery Guarantees

Edward Tansley et al.

cs.LG

本文提出了一种基于优化公式的数据重建攻击方法，在随机特征模型下证明了当网络宽度足够大时能以高概率重建训练数据，并利用PAC界给出了有限宽度的恢复保证。对于低维数据子空间，该方法放宽了网络宽度要求，并通过近似第一层权重变化来设计高效算法。

Diffusion-Based Posterior Sampling: A Feynman-Kac Analysis of Bias and Stability

Matias G. Delgadino et al.

cs.LG

本文通过Feynman-Kac公式分析了扩散后验采样器（如DPS和STSL）的偏差与稳定性，揭示了其密度比满足抛物型PDE，并将Radon-Nikodym修正表示为路径期望。研究指出，在低温度下前向欧拉离散化会导致不稳定，并分析了早期引导停止的缓解作用。

Hedging Memory Horizons for Non-Stationary Prediction via Online Aggregation

Yutong Wang, Yannig Goude, Qiwei Yao

cs.LG stat.ML

本文提出MELO方法，通过在线聚合不同遗忘因子的指数加权最小二乘专家来适应非平稳预测，并证明了确定性oracle不等式。该方法在法国电力负荷预测中取得较好效果，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Sequential Design of Genetic Circuits Under Uncertainty With Reinforcement Learning

Michal Kobiela, Diego A. Oyarzún, Michael U. Gutmann

cs.LG

本文提出了一种基于reinforcement learning的序贯框架，用于在分子随机性和实验条件变化两种不确定性下优化genetic circuits设计。该方法通过预训练策略避免了传统贝叶斯方法中昂贵的推理步骤，实现了基于观测的快速适应。

Diverse Sampling in Diffusion Models with Marginal Preserving Particle Guidance

Gal Vinograd, Idan Achituve, Ethan Fetaya

cs.LG

本文提出EDDY (Exact-marginal Diversification via Divergence-free dYnamics)，一种用于diffusion和flow matching模型的guidance机制，通过利用Fokker-Planck方程的对称性引入无散度扰动，在不改变每个particle边际分布的前提下提升样本多样性。实验表明该方法在合成数据和文本到图像生成中能改善多样性并保持分布保真度。

Optimal Counterfactual Search in Tree Ensembles: A Study Across Modeling and Solution Paradigms

Awa Khouna et al.

cs.LG

本文研究了树集成模型下最优反事实解释的计算问题，提出了基于constraint programming (CP)的CPCF方法，并与MaxSAT和MILP方法进行了系统比较。实验表明CP方法整体性能最优，但不同方法在不同场景下各有优势。

Feature Dimensionality Outweighs Model Complexity in Breast Cancer Subtype Classification Using TCGA-BRCA Gene Expression Data

Meena Al Hasani

cs.LG q-bio.GN

本文使用逻辑回归、随机森林和SVM等模型，在TCGA-BRCA基因表达数据上评估了模型复杂度和特征选择对乳腺癌亚型分类的影响。结果表明，逻辑回归在亚型层面表现更稳定，而特征维度对性能的影响超过了模型复杂度本身。

Criticality and Saturation in Orthogonal Neural Networks

Max Guillen, Jan E. Gerken

cs.LG

本文推导了正交初始化神经网络中有限宽度修正张量的逐层递归关系，并扩展了Feynman图方法以涵盖所有阶次的$1/\mathrm{width}$展开，实验验证了理论结果与Monte-Carlo估计的一致性。

SNAPO: Smooth Neural Adjoint Policy Optimization for Optimal Control via Differentiable Simulation

Dmitri Goloubentsev, Natalija Karpichina

cs.LG math.OC q-fin.CP q-fin.MF q-fin.RM

本文提出SNAPO框架，通过将neural policy嵌入可微simulator并采用smooth approximation处理硬约束，利用adjoint method高效计算目标函数对策略参数和输入的精确梯度。该方法在天然气存储、养老金资产负债管理和制药过程链三个领域展示了快速训练和敏感性分析能力。

CLAD: A Clustered Label-Agnostic Federated Learning Framework for Joint Anomaly Detection and Attack Classification

Iason Ofeidis et al.

cs.LG cs.CR cs.DC cs.NI

本文提出CLAD框架，结合Clustered Federated Learning与双模式微架构，用于解决物联网中设备异构性和标签稀缺问题，通过共享编码器和双分支结构实现联合无监督异常检测与有监督攻击分类。实验表明该方法在80%无标签客户端场景下性能提升30%，但未涉及code、spectral或Muon等关键词相关技术。

Directional Consistency as a Complementary Optimization Signal: The GONO Framework

Victor Daniel Gera

cs.LG cs.AI

本文发现深度学习优化中方向一致性与损失收敛可以解耦，并基于此提出GONO优化器，通过调整Adam的动量系数来利用梯度方向的时间一致性，理论上匹配Adam的收敛率，实验上在多个任务上表现良好。

On the Safety of Graph Representation Learning

Xiaoguang Guo et al.

cs.LG

本文提出了GRL-Safety基准，用于评估图表示学习（GRL）方法在五个安全轴（如鲁棒性、公平性等）上的表现，发现方法的安全性行为主要由表示设计与受压力图因素的交互决定，而非方法家族本身。

PairAlign: A Framework for Sequence Tokenization via Self-Alignment with Applications to Audio Tokenization

Adhiraj Banerjee, Vipul Arora

cs.LG cs.CL cs.SD

PairAlign提出了一种通过序列级自对齐进行音频tokenization的框架，将tokenization视为条件序列生成，利用自回归解码器学习token的标识、顺序、长度和终止位置。该方法通过内容保持视图间的交叉训练和对比学习来近似编辑距离保持，在TIMIT检索任务上减少了55%的存档token数量，但未直接涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Distributionally-Robust Learning to Optimize

Vinit Ranjan, Jisun Park, Bartolomeo Stellato

cs.LG math.OC

本文提出了一种分布鲁棒的学习方法，用于优化凸优化中一阶方法的超参数。该方法通过最小化Wasserstein分布鲁棒版本的性能估计问题来学习算法参数，并证明了学习到的算法在样本外具有可证明的鲁棒性。

Towards Metric-Faithful Neural Graph Matching

Jyotirmaya Shivottam, Subhankar Mishra

cs.LG cs.AI

本文探讨了神经图匹配中编码器几何结构对图编辑距离（GED）估计质量的影响，提出了一个理论框架连接编码器几何与两类GED估计器，并利用FSW-GNN作为双Lipschitz编码器进行实验验证。实验表明，改进的编码器几何能显著提升GED预测和排序指标，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

BRICKS: Compositional Neural Markov Kernels for Zero-Shot Radiation-Matter Simulation

Richard Hildebrandt et al.

cs.LG hep-ph

本文提出了一种基于组合神经Markov核的零样本辐射-物质模拟方法，利用Riemannian Flow Matching在乘积流形上构建混合离散-连续Transformer模型，用于预测粒子与材料相互作用后的下一粒子状态。该方法具有可微性和可组合性，并在GPU上实现了显著加速。

Weight-Decay Turns Transformer Loss Landscapes Villani: Functional-Analytic Foundations for Optimization and Generalization

Abhijit Das, Sayantan Dutta

cs.LG eess.AS

本文通过泛函分析证明了带$L^2$正则化的Transformer损失函数满足Villani能量函数条件，并推导了log-Sobolev常数与泛化界。实验在GPT-Neo-125M上验证了理论预测的二次增长和指数收敛行为。

How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation

Shai Feldman, Yaniv Romano

cs.LG

本文提出DAPRO框架，用于在多轮LLM交互中动态分配计算预算以预测事件发生时间（如jailbreak）。该方法在满足预算约束的同时提供分布自由的有限样本覆盖保证，并通过实验证明其比静态基线方法更高效。

SoftSAE: Dynamic Top-K Selection for Adaptive Sparse Autoencoders

Jakub Stępień et al.

cs.LG cs.CV

本文提出SoftSAE，通过可微分的Soft Top-K算子实现自适应稀疏自编码器，使模型能根据输入复杂度动态调整激活特征数量，从而更好地匹配数据流形结构。实验表明该方法能选择合适数量的特征。

Online Bayesian Calibration under Gradual and Abrupt System Changes

Yang Xu, Chiwoo Park

cs.LG cs.ET stat.ML

本文提出了一种在线贝叶斯校准框架BRPC，用于处理系统在渐变和突变下的模型偏差问题。该方法通过分离校准参数和偏差项的更新，并结合重启机制检测突变，提升了校准的鲁棒性。

Hybrid Quantum-Classical GANs for the Generation of Adversarial Network Flows

Prateek Paudel et al.

cs.LG

本文提出了一种混合量子-经典GAN (QC-GAN)框架，使用variational quantum generator生成对抗性网络流量，以攻击入侵检测系统。该工作主要展示了量子机器学习在生成攻击流量方面的可能性，并评估了硬件噪声对攻击的影响。

Crafting Reversible SFT Behaviors in Large Language Models

Yuping Lin et al.

cs.LG

本文提出Loss-Constrained Dual Descent (LCDD)方法，将SFT诱导的行为压缩为稀疏且因果必要的子网络（carrier），并通过SFT-Eraser软提示实现行为逆转。该方法在安全、固定响应和风格行为上验证了稀疏结构对行为逆转的关键作用。

Concept-Based Abductive and Contrastive Explanations for Behaviors of Vision Models

Ronaldo Canizales et al.

cs.LG cs.AI

本文提出了一种基于概念的反事实和溯因解释方法，用于解释视觉模型的行为，通过概念擦除建立因果关系并枚举最小解释集。该方法适用于单个图像和图像集合，但与我提供的关键词列表关联度较低。

Edge-specific signal propagation on mature chromophore-region 3D mechanism graphs for fluorescent protein quantum-yield prediction

Yuchen Xiong, Swee Keong Yeap, Steven Aw Yoong Kit

cs.LG

本文提出了一种基于成熟发色团区域三维机制图的边特异性信号传播方法，用于预测荧光蛋白的量子产率。该方法通过构建带类型的3D残基图并分区传播信号，在基准测试中取得了优于现有模型的性能。

Inductive Venn-Abers and related regressors

Ivan Petej, Vladimir Vovk

cs.LG

本文扩展了Venn-Abers预测器到无界回归问题，通过引入conformal prediction元素，并实验表明其点回归器在较大训练集上能略微提升标准回归器的预测效率。

When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

Sushant Gautam et al.

cs.LG cs.AI cs.CL

本文针对缺乏标注基准的场景，形式化了无基准比较安全评分问题，并提出了一个基于场景审计的工具性效度链（包括对安全与消除安全抑制的对比响应、目标方差主导性及稳定性）来验证评分有效性。通过在挪威语安全包上的实验，展示了该方法在区分安全模型时的良好性能，并强调了评分报告需包含多种细节而非单一排名。

Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as Pretraining Forgets Less

Yuxing Liu, Jianyu Wang, Tong Zhang

cs.LG cs.AI math.OC

本文发现，在大型语言模型的监督微调阶段，使用与预训练相同的optimizer（如AdamW）能实现更好的学习-遗忘权衡，即遗忘更少且新任务性能相当或更优，并将此现象称为optimizer-model consistency。通过实验和理论分析，文章指出optimizer通过正则化效应影响activation，从而塑造模型，而微调时使用相同optimizer能保持权重更新的特定结构以降低遗忘。

Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML

Jai Moondra et al.

cs.LG cs.DM cs.ET math.OC

本文分析了LLM Arena中约89K个成对比较数据，发现全局Bradley-Terry排名具有误导性，因为不同语言、任务和时间下的意见存在强烈异质性。为此，作者引入了$(\lambda, \nu)$-portfolio框架，通过求解集合覆盖问题的变体来获得少量模型，这些模型能以较小预测误差覆盖大部分用户投票。

Verifier-Backed Hard Problem Generation for Mathematical Reasoning

Yuhang Lai et al.

cs.LG cs.AI cs.CL

本文提出VHG框架，通过引入独立verifier来约束setter的reward，以生成有效且困难的数学问题。实验在不定积分和通用数学推理任务上验证了其有效性。

UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

Minbin Huang et al.

cs.LG cs.AI

本文提出UniPool架构，将MoE中每层独立的expert集合替换为全局共享的expert pool，并通过pool-level auxiliary loss和NormRouter实现稳定训练。实验表明，UniPool在多个模型规模上优于vanilla MoE，且expert参数可随深度亚线性增长。

cs.AI

PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training ⭐ 精选

Erhan Zhang et al.

cs.AI cs.CL cs.IR

本文提出PRAISE框架，针对agentic search训练中长序列rollout利用率低和最终奖励稀疏的问题，通过提取完整搜索轨迹中的prefix states（前缀状态）并生成中间答案，利用不同前缀间的性能差异构造step-level rewards（步骤级奖励）。该方法使用单一共享模型同时进行搜索策略学习和前缀答案评估，无需额外人工标注或独立reward model，在multi-hop QA基准上显著提升了数据效率和性能。

BALAR : A Bayesian Agentic Loop for Active Reasoning ⭐ 精选

Aymen Echarghaoui, Dongxia Wu, Emily B. Fox

cs.AI cs.CL cs.LG

本文提出BALAR (Bayesian Agentic Loop for Active Reasoning)，一种无需微调的任务无关外循环算法，用于结构化多轮交互。该方法通过维护潜在状态上的结构化belief，并最大化expected mutual information来选择澄清性问题，从而在LLM agent与用户之间实现主动推理。在侦探推理、思维谜题和临床诊断三个benchmark上，BALAR显著优于所有baseline，体现了agent在交互式任务中的有效性。

Agentic Retrieval-Augmented Generation for Financial Document Question Answering ⭐ 精选

Yang Shu, Yingmin Liu, Zequn Xie

cs.AI cs.CL

本文提出FinAgent-RAG，一个用于金融文档问答的agentic RAG框架。该框架通过迭代检索-推理循环与自验证机制，解决了传统单次检索范式在复杂数值推理上的不足，其核心创新包括：使用hard negative mining训练的Contrastive Financial Retriever、生成可执行Python code进行精确算术的Program-of-Thought模块，以及动态分配计算资源的Adaptive Strategy Router。在FinQA等三个基准上，该方法以76.81%的执行准确率显著超越基线，并降低了41.3%的API成本。

Agentic Discovery of Exchange-Correlation Density Functionals ⭐ 精选

Titouan Duston et al.

cs.AI physics.chem-ph

本文提出了一种基于LLM agent的自动化搜索系统，用于发现密度泛函理论(DFT)中的exchange-correlation (XC) functional。该系统通过迭代的plan-execute-summarize循环，由LLM根据进化历史提出结构化的functional形式变化，并优化参数以提升性能。发现的SAFS26-a functional在标准热化学数据集上比gold-standard的$\omega$B97M-V baseline提升了约9%。该工作展示了AI agent在科学发现中的潜力，同时警示了模型可能利用非物理捷径来欺骗benchmark的风险，强调了领域知识约束的重要性。

AgenticRAG: Agentic Retrieval for Enterprise Knowledge Bases ⭐ 精选

Susheel Suresh et al.

cs.AI cs.IR

AgenticRAG提出了一种基于agent的检索增强生成框架，通过在现有企业搜索基础设施上叠加轻量级工具层（包括search、find、open和summarize工具），使reasoning LLM能够自主迭代检索信息、在文档内导航并分析证据。该方法在BRIGHT、WixQA和FinanceBench三个基准上取得了显著提升，其中从单次检索到agentic tool use的转变带来了$5.9\times$的性能提升。该工作与关键词"agent"高度契合，为RAG系统提供了新的agentic范式。

Who Prices Cognitive Labor in the Age of Agents? A Position on Compute-Anchored Wages ⭐ 精选

Siqi Zhu

cs.AI cs.CY

本文提出了一种新颖的经济学框架，将AI agent视为将compute capital $K_c$转化为cognitive labor $L_A$的生产技术，而非传统意义上的劳动力。基于标准要素定价模型，作者推导出Compute-Anchored Wage (CAW) 上界，指出在人类与agent认知劳动可替代的任务中，竞争性人类工资受限于$\lambda \cdot k \cdot r_c$（其中$r_c$为计算资本租金率）。该工作通过CES聚合推广了结果，区分了可替代与互补性任务，并讨论了要素份额的后果，为理解agent时代认知劳动的定价机制提供了开创性理论贡献，与关键词"agent"高度契合。

Belief Memory: Agent Memory Under Partial Observability ⭐ 精选

Junfeng Liao et al.

cs.AI cs.CL

本文提出BeliefMem，一种针对部分可观测环境下LLM agent记忆的新范式。与以往将每个观测存储为单一确定性结论的方法不同，BeliefMem为每个观测保留多个候选结论及其概率，并通过Noisy-OR规则随新观测更新这些概率。在检索时，所有候选结论及其概率同时呈现给agent，从而保留了不确定性，避免了确定性范式下的自我强化错误。该方法在LoCoMo和ALFWorld基准上取得了最佳平均性能，为agent在部分可观测环境中的记忆机制探索了新方向。

Knowledge-Graph Paths as Intermediate Supervision for Self-Evolving Search Agents ⭐ 精选

Huyu Wu et al.

cs.AI

本文提出了一种基于知识图谱路径的中间监督方法，用于改进自进化搜索agent（Self-Evolving Search Agent）的训练。该方法通过利用LLM引导的知识图谱子图为Proposer提供关系上下文，并引入Waypoint Coverage Reward (WCR)机制，根据搜索轨迹对构建路径中实体的覆盖程度给予部分奖励，从而解决了Search Self-Play (SSP)框架中问题构建无效和奖励信号稀疏的问题。实验表明，该方法在多个QA基准上显著提升了性能，特别是在多跳QA任务上，证明了知识图谱路径可作为轻量级中间监督信号，无需额外的人工标注。该工作与关键词中的agent和context高度契合。

Detecting Time Series Anomalies Like an Expert: A Multi-Agent LLM Framework with Specialized Analyzers ⭐ 精选

Hyeongwon Kang et al.

cs.AI

本文提出SAGE (Specialized Analyzer Group for Expert-like Detection)，一个基于multi-agent LLM framework的时序异常检测方法。该方法将单变量时间序列的异常分析分解为四个专门的Analyzer（分别处理point, structural, seasonal和pattern anomalies），每个Analyzer使用特定的数值工具和诊断可视化生成evidence，再由一个Detector整合这些evidence并输出带有置信度、区间和候选类型的异常记录。SAGE通过从正常参考训练段构建合成in-context examples，无需使用真实异常段或异常类型标签作为in-context examples，在三个基准测试中取得了最佳平均性能，显著提升了检测可靠性和诊断输出的实用性。

AGPO: Asymmetric Group Policy Optimization for Verifiable Reasoning and Search Ads Relevance at JD ⭐ 精选

Yang Xu et al.

cs.AI

本文提出了一种名为Asymmetric Group Policy Optimization (AGPO)的强化学习方法，用于解决大语言模型在可验证奖励强化学习（RLVR）中推理能力边界收缩的问题。AGPO通过负向主导的强化策略抑制错误推理路径，并利用组优势机制（group advantage mechanism）根据组内方差缩放正向更新，从而在保持基础模型探索能力的同时聚焦于稀有正确路径。在五个数学基准测试和京东搜索广告相关性优化的工业应用中，该方法在提升准确率的同时显著改善了pass@$k$性能，展现了与关键词“agent”和“attention”相关的策略优化与组内差异关注特性。

Wisteria: A Unified Multi-Scale Feature Learning Framework for DNA Language Model ⭐ 精选

Weihua Wang et al.

cs.AI

本文提出Wisteria，一个用于DNA序列的统一多尺度特征学习框架。它通过将gated dilated convolutions与Mamba架构结合来捕获局部motif，并利用gated multilayer perceptrons优化全局依赖，同时引入基于Fourier的attention机制以支持频域建模和长度泛化。该方法有效统一了局部与全局依赖建模，在多种DNA语言模型基准上表现优异，与关键词“attention”和“spectral”较为契合。

TACT: Mitigating Overthinking and Overacting in Coding Agents via Activation Steering ⭐ 精选

Yuan Sui et al.

cs.AI

本文提出TACT (Think-Act Calibration via activation Steering)方法，通过分析coding agent在长程任务中的hidden state，发现overthinking和overacting两种失败模式在residual stream中沿两个可分离的drift axes线性分布。该方法在测试时通过将activation投影到这些轴上并拉回calibrated区域来缓解agent drift，在SWE-bench等基准上显著提升resolve rate并减少步骤数。这项工作将agent drift定位为residual stream中的可操控方向，为构建可靠的长程coding agent提供了新思路。

On Time, Within Budget: Constraint-Driven Online Resource Allocation for Agentic Workflows ⭐ 精选

Xinglin Wang et al.

cs.AI cs.CL

本文针对agentic workflows中的约束驱动在线资源分配问题，提出了Monte Carlo Portfolio Planning (MCPP)方法。该方法将问题建模为有限时域随机在线分配问题，通过模拟工作流执行来直接估计在给定预算和截止时间约束下的完成概率，并在观察到实际结果后进行重规划。实验表明，MCPP在CodeFlow和ProofFlow任务上，相较于强基线方法，能持续提升在多种预算-截止时间约束下的成功完成概率。该工作为agent系统在资源约束下的可靠执行提供了新的规划框架。

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning ⭐ 精选

Yaorui Shi et al.

cs.AI

本文提出Skill1框架，通过单一policy统一进化skill-augmented agents的skill selection、utilization和distillation三种能力。该框架将任务完成信号分解为低频趋势（用于credit selection）和高频变化（用于credit distillation），从而在单一task-outcome reward下实现三种能力的协同优化。在ALFWorld和WebShop上的实验表明，Skill1优于先前的skill-based和reinforcement learning基线，且消融实验证实了三种能力共同进化的必要性。该方法与关键词“agent”高度契合，为agent skill library的维护提供了统一且高效的解决方案。

MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems ⭐ 精选

Zhexuan Wang et al.

cs.AI cs.CL

本文提出MASPO框架，用于自动联合优化基于LLM的多智能体系统(Multi-agent Systems)中所有智能体的角色提示。其核心创新在于一个联合评估机制，该机制不依赖局部有效性，而是通过评估提示对后续智能体下游任务的成功促进程度，来弥合局部交互与全局目标之间的差距。MASPO采用数据驱动的进化束搜索(evolutionary beam search)高效探索高维提示空间，在6个不同任务上的实验表明，该方法平均准确率提升2.9%，显著优于现有提示优化方法。该工作与关键词"agent"高度契合，为多智能体协作中的提示优化提供了开创性解决方案。

AI Co-Mathematician: Accelerating Mathematicians with Agentic AI ⭐ 精选

Daniel Zheng et al.

cs.AI

本文提出了一个名为AI co-mathematician的交互式agent系统，旨在为数学家提供端到端的研究支持，涵盖构思、文献搜索、计算探索、定理证明和理论构建等环节。该系统通过异步、有状态的工作空间管理不确定性、细化用户意图、追踪失败假设并输出原生数学产物，模拟了人类协作工作流。在早期测试中，该agent帮助研究者解决了开放问题并发现了被忽视的文献，同时在FrontierMath Tier 4基准上取得了48%的新最高分，展示了agentic AI在数学发现中的潜力。

Understanding Annotator Safety Policy with Interpretability

Alex Oesterling et al.

cs.AI cs.LG

本文提出Annotator Policy Models (APMs)，通过可解释模型从标注行为中学习标注者的内部安全策略，以区分标注分歧的来源（操作失误、政策模糊或价值多元），无需额外标注成本。该方法在准确性和反事实预测上得到验证，并展示了揭示政策模糊和群体间安全优先级差异的应用。

ZAYA1-8B Technical Report

Robert Washbourne et al.

cs.AI cs.CL

本文介绍了ZAYA1-8B，一个基于MoE++架构的推理-focused混合专家模型，具有700M活跃参数和8B总参数。该模型在数学和代码基准测试上表现优异，并引入了Markovian RSA作为测试时计算方法，但整体方法更偏向工程实现而非理论开创性。

Partial Evidence Bench: Benchmarking Authorization-Limited Evidence in Agentic Systems

Krti Tallam

cs.AI cs.CC cs.ET

本文提出了Partial Evidence Bench，一个用于衡量agent系统在受限证据环境下产生看似完整但实际缺失关键信息的失败模式的确定性基准。该基准包含三个场景家族和72个任务，通过检查基线表明静默过滤是灾难性的不安全行为。

Intelligent CCTV for Urban Design: AI-Based Analysis of Soft Infrastructure at Intersections

Vinit Katariya et al.

cs.AI cs.CV eess.IV

本文利用已有的CCTV基础设施和AI视觉分析技术，评估了软性基础设施（如临时行人避难岛和路缘扩展）对交叉口车辆速度和安全性的影响，发现其能有效降低车速和过境交通量。该工作主要聚焦于交通工程应用，与所提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

When Helpfulness Becomes Sycophancy: Sycophancy is a Boundary Failure Between Social Alignment and Epistemic Integrity in Large Language Models

Jiechen Li et al.

cs.AI

本文认为LLM中的谄媚行为是社会对齐与认知完整性之间的边界失败，并提出一个三条件框架来界定该现象，包括用户提示、模型对齐行为以及认知准确性的妥协。文章还引入了分类法并讨论了评估与缓解策略。

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

Mohamed Salim Aissi et al.

cs.AI

本文提出PRISM框架，通过动态问答管道耦合VLM感知与LLM决策，以解决多模态环境中感知-推理-决策的差距问题。该方法在ALFWorld和R2R基准上优于现有图像模型，但未涉及code、spectral、Muon或attention等关键词相关技术。

LaTA: A Drop-in, FERPA-Compliant Local-LLM Autograder for Upper-Division STEM Coursework

Jesse A. Rodríguez

cs.AI cs.HC physics.ed-ph

本文介绍了一个名为LaTA的本地LLM自动评分系统，用于高年级STEM课程作业评分。该系统在本地硬件上运行，采用四阶段流水线处理LaTeX格式的学生作业，并在俄勒冈州立大学的机械工程课程中部署，实现了低错误率和低成本。

From History to State: Constant-Context Skill Learning for LLM Agents

Haoyang Xie et al.

cs.AI

本文提出了一种constant-context skill learning框架，将LLM agent的重复工作流从prompt转移到模型权重中，通过轻量级task-family模块和deterministic tracker实现仅依赖当前观测和紧凑状态块的推理。该方法在ALFWorld、WebShop和SciWorld上取得了与强基线相当或更优的性能，同时将每轮prompt token减少了2-7倍。

The Geopolitics of AI Safety: A Causal Analysis of Regional LLM Bias

Alif Al Hasan

cs.AI

本文使用Probabilistic Graphical Model (PGM)框架和Pearl的do-operator，对多个地区的大型语言模型(LLM)的安全机制进行了因果分析，发现标准公平性指标可能高估人口统计偏见。研究揭示了西方和东方模型在拒绝率上的不同对齐趋势。

Authorization Propagation in Multi-Agent AI Systems: Identity Governance as Infrastructure

Krti Tallam

cs.AI

本文讨论了多智能体AI系统中的授权传播问题，将其形式化为工作流级属性，并提出了三个子问题（传递委托、聚合推断和时间有效性）及七个架构需求。文章强调身份治理应作为基础设施，但未涉及代码、上下文、谱方法、Muon、预训练、智能体或注意力等关键词。

Intentionality is a Design Decision: Measuring Functional Intentionality for Accountable AI Systems

Allessia Chiappetta, Robert Mahari

cs.AI

本文提出Functional Intentionality Test (FIT)框架，用于量化AI系统的类意图行为，并讨论其与问责制的关系。该工作主要关注AI系统的行为评估，与关键词中的agent概念有一定关联，但方法本身并非开创性突破。

LANTERN: LLM-Augmented Neurosymbolic Transfer with Experience-Gated Reasoning Networks

Mahyar Alinejad et al.

cs.AI

LANTERN提出了一种结合大语言模型和神经符号方法的强化学习迁移框架，通过自动生成任务自动机、语义嵌入聚合多源策略以及自适应门控机制来提升样本效率。该方法在资源管理、导航和控制等任务中表现出色，但与我提供的关键词列表关联度较低。

FinRAG-12B: A Production-Validated Recipe for Grounded Question Answering in Banking

Denys Katerenchuk et al.

cs.AI cs.CL cs.MA

本文提出了一种针对银行业务的领域特定LLM训练框架FinRAG-12B，通过仅143M tokens的数据生成pipeline（结合LLM-as-a-Judge过滤、citation标注和curriculum learning）实现了高回答质量，并设计了calibrated refusal机制以平衡回答率与安全性。该模型在citation grounding上优于GPT-4.1，且已在40多家金融机构部署，显著提升了查询解决率并降低了成本。

FoodCHA: Multi-Modal LLM Agent for Fine-Grained Food Analysis

Woojin Lee et al.

cs.AI

本文提出了FoodCHA，一个多模态agent框架，将食物识别重构为层次化决策过程，通过逐步锚定预测来提升细粒度属性（如烹饪风格）的识别精度。实验表明，该框架在FoodNExTDB数据集上显著优于现有模型，但方法本身并非开创性，且与关键词契合度较低。

Housing Potential Common Data Model and City Digital Twin

Megan Katsumi et al.

cs.AI

本文提出了Housing Potential Common Data Model (HPCDM)以整合多源城市数据，并构建了City Digital Twin用于住房潜力分析，但未涉及关键词中的核心数学或算法概念。

SPARK: Self-Play with Asymmetric Reward from Knowledge Graphs

Hyobin Park, Taeseop Kim, Dong-Geol Choi

cs.AI

本文提出SPARK框架，利用知识图谱为科学文献中的多文档关系推理问题提供结构化基础，通过自博弈训练一个视觉语言模型，在生成问题和计算奖励时引入信息不对称。实验表明该方法在多跳问答任务上优于基于非结构化语料的基线。

BitCal-TTS: Bit-Calibrated Test-Time Scaling for Quantized Reasoning Models

Sai Babu Patarlapalli, Surya Teja Avvaru

cs.AI

本文针对量化推理模型在测试时计算分配中的校准问题，提出了一种轻量级运行时控制器BitCal-TTS，通过结合token级不确定性代理、位条件置信度重缩放和位感知后标记确认范围，在不微调模型的情况下提升GSM8K任务上的精确匹配准确率并减少过早停止率。

Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

Langlin Huang et al.

cs.AI cs.CL cs.LG

本文提出LoPE方法，通过在prompt前添加无意义的Lorem Ipsum文本扰动，解决GRPO强化学习中的“零优势问题”。实验表明该方法能拓宽模型推理探索空间，提升复杂任务的成功率。

Locality-aware Private Class Identification for Domain Adaptation with Extreme Label Shift

Chuan-Xian Ren, Cheng-Jun Guo, Hong Yan

cs.AI

本文针对域适应中极端标签偏移下的私有类识别问题，提出了一种基于最优传输(optimal transport)局部度量的ReOT方法，通过传输质量的score function区分共享类与私有类样本，并理论证明了其有效性。实验验证了该方法在基准上的性能。

AlphaCrafter: A Full-Stack Multi-Agent Framework for Cross-Sectional Quantitative Trading

Yishuo Yuan et al.

cs.AI

AlphaCrafter是一个全栈多智能体框架，用于横截面量化交易，通过三个专门agent（Miner、Screener、Trader）实现因子发现、市场状态自适应选择和风险约束执行的闭环流水线。实验表明其在CSI 300和S&P 500上优于现有基线，但方法主要聚焦于金融领域的工程集成，与关键词中的spectral、Muon、pretrain等理论概念关联较弱。

Causal Probing for Internal Visual Representations in Multimodal Large Language Models

Zehao Deng et al.

cs.AI

本文提出了一种基于activation steering的因果框架，用于主动探测和操控多模态大语言模型中的内部视觉表征。研究发现实体概念具有局部记忆化特征，而抽象概念则全局分布，并揭示了感知与生成之间的补偿机制。

Prober.ai: Gated Inquiry-Based Feedback via LLM-Constrained Personas for Argumentative Writing Development

Ran Bi, Shiyao Wei, Yuanyiyi Zhou

cs.AI cs.HC

本文介绍了一个名为Prober.ai的在线写作环境，通过约束LLM生成基于Toulmin论证理论的引导性问题来促进学生的批判性思维，而非直接生成或改写文本。该系统在NY EdTech Hackathon中获得第二名，但其方法主要聚焦于教育应用，与关键词中的数学或算法概念关联较弱。

Text-Graph Synergy: A Bidirectional Verification and Completion Framework for RAG

Jiarui Zhong, Hong Cai Chen

cs.AI cs.IR

本文提出TGS-RAG框架，通过双向验证机制（Graph-to-Text的全局投票重排序和Text-to-Graph的基于记忆的孤立实体桥接算法）来增强文本与图结构之间的协同，以解决RAG中的信息孤岛问题。实验表明该方法在多跳推理基准上优于现有基线，但与我提供的关键词（如code, spectral, Muon等）关联度较低。

Retrieval-Conditioned Topology Selection with Provable Budget Conservation for Multi-Agent Code Generation

Abhijit Talluri et al.

cs.AI cs.MA

本文提出了一种用于多智能体代码生成的检索条件拓扑选择方法RGAO，通过从分层代码索引中提取结构复杂度向量来选择编排拓扑，并证明了预算守恒性质。该方法将复杂度条件LLM路由与形式化资源代数相结合，减少了代理测量的错误路由率。

Large Vision-Language Models Get Lost in Attention

Gongli Xi et al.

cs.AI cs.CV

本文提出一个基于信息论和几何的统一框架，用于量化LVLMs中residual updates的几何与熵特性，发现attention是子空间保持算子而FFN是子空间扩展算子，并指出当前attention机制存在严重冗余。

Chain of Risk: Safety Failures in Large Reasoning Models and Mitigation via Adaptive Multi-Principle Steering

Xiaomin Li et al.

cs.AI

本文研究了大型推理模型(LRM)在推理过程中暴露的安全风险，发现有害内容可能出现在推理轨迹中而最终答案看似安全。作者提出了一种自适应多原则引导方法，通过学习每个安全原则的不安全到安全激活方向来缓解此问题。

Attractor Geometry of Transformer Memory: From Conflict Arbitration to Confident Hallucination

Qiyao Liang, Risto Miikkulainen, Ila Fiete

cs.AI

本文通过分析自回归生成中hidden state的attractor basin几何结构，统一解释了语言模型在parametric memory与working memory冲突时以及未学习事实时的两种失败模式（conflict和hallucination），并发现geometric margin能比output entropy更干净地区分正确回忆与幻觉。

DataDignity: Training Data Attribution for Large Language Models

Xiaomin Li, Andrzej Banburski-Fahey, Jaron Lanier

cs.AI

本文研究了大型语言模型的训练数据归因问题，提出了FakeWiki基准和ScoringModel排序模型，用于识别支持模型输出的源文档。该方法通过对比学习将响应和文档特征映射到共享空间，在多个查询条件下提升了召回率。

GCCM: Enhancing Generative Graph Prediction via Contrastive Consistency Model

Shaozhen Ma et al.

cs.AI

本文提出GCCM，一种用于图预测的graph contrastive consistency model，通过引入对比一致性目标和特征扰动来缓解现有consistency training方法中的捷径解问题，实验表明其性能优于确定性预测器。

Saliency-Aware Regularized Quantization Calibration for Large Language Models

Yanlong Zhao et al.

cs.AI cs.LG

本文提出了一种名为SARQC的统一框架，通过在标准后训练量化目标中添加一个基于saliency的正则化项，来约束量化后的权重接近原始权重，从而降低泛化风险。该方法可无缝集成到现有PTQ流程中，并在密集和MoE大语言模型上提升了困惑度和零样本准确率。

Inference-Time Budget Control for LLM Search Agents

Zhengru Fang et al.

cs.AI

本文研究了LLM搜索代理在推理时的预算控制问题，提出了一种两阶段方法：在搜索阶段使用Value-of-Information (VOI)评分来分配预算，在回答阶段通过选择性证据验证来优化最终答案。实验表明该方法在多个基准测试中优于现有基线，但主要贡献在于工程化的预算分配策略，而非理论或方法上的开创性突破。

Resolving the bias-precision paradox with stochastic causal representation learning for personalized medicine

Peisong Zhang et al.

cs.AI q-bio.QM

本文提出了一种基于随机因果表示学习的方法，通过引入采样最大均值差异（sMMD）来替代全局对抗性平衡，以解决个性化医疗中偏差与精度之间的悖论。该方法在纵向观测数据上估计个体化治疗效果，并在ICU队列中提升了预测准确性和可解释性。

Conceal, Reconstruct, Jailbreak: Exploiting the Reconstruction-Concealment Tradeoff in MLLMs

Md Farhamdur Reza et al.

cs.AI

本文研究了多模态大语言模型（MLLMs）中基于意图混淆的jailbreak攻击，揭示了reconstruction-concealment tradeoff（重建与隐藏的权衡），并提出了一种通过贪婪选择字符移除变体来平衡该权衡的攻击策略。实验表明该方法能有效绕过安全机制，但未涉及code、spectral、Muon等关键词。

Decodable but Not Corrected by Fixed Residual-Stream Linear Steering: Evidence from Medical LLM Failure Regimes

Ming Liu

cs.AI cs.CL cs.LG

本文研究了大型语言模型在医学问答中的“过度思考”现象，发现该失败模式在隐藏状态中线性可解码，但固定的残差流线性干预方法无法纠正该错误，表明表示存在纠缠。

More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding

Ming Liu

cs.AI cs.CL

本文通过全因子实验研究了LLM agent系统中组件间的交叉干扰(CCI)，发现包含所有组件的系统并非最优，最佳组件数量取决于具体任务，并指出贪心选择不可靠。

SkillRet: A Large-Scale Benchmark for Skill Retrieval in LLM Agents

Hongcheol Cho, Ryangkyung Kang, Youngeun Kim

cs.AI

本文提出了SkillRet，一个用于LLM agent技能检索的大规模benchmark，包含17,810个技能和大量训练/评估数据。实验表明现有检索模型在该任务上表现不佳，而针对性微调能显著提升性能。

Knee Osteoarthritis Severity Grading Using Optimized Deep Learning and LLM-Driven Intelligent AI on Computationally Limited Systems

Dayam Nadeem et al.

cs.AI

本文提出了一种结合ResNet-18 CNN与TensorFlow Lite的自动化KOA严重程度分级方法，在资源受限设备上实现了94.48%的测试准确率，并利用LLM生成结构化解释。该方法主要关注工程部署与可解释性，与关键词中的理论或方法关联较弱。

Wei Li et al.

cs.AI

SDFlow提出了一种基于flow matching的非自回归时间序列生成框架，在冻结的VQ潜在空间中实现并行序列生成，以解决自回归模型中的exposure bias问题。该方法通过低秩流形分解和变分flow matching引入离散监督，在长序列生成任务上提升了性能与推理速度。

ReFlect: An Effective Harness System for Complex Long-Horizon LLM Reasoning

Fan Huang

cs.AI cs.CL

本文提出ReFlect，一个用于LLM推理的harness系统，通过创建独立的错误检测与恢复逻辑作为模型的确定性包装器，来解决长程多阶段任务中错误累积的问题。实验表明该方法在多个推理领域提升了任务成功率，但未涉及代码、上下文、谱方法、Muon优化器、预训练、智能体或注意力机制等关键词。

HyperLens: Quantifying Cognitive Effort in LLMs with Fine-grained Confidence Trajectory

Chengda Lu, Xiaoyu Fan, Wei Xu

cs.AI

本文发现transformer架构中深层会放大逐层置信度的微小变化，并基于此提出HyperLens探针来追踪置信度轨迹以量化推理中的认知努力。实验表明复杂任务需要更高的认知努力，并诊断了标准SFT会降低认知努力从而影响域内任务性能。

Best Arm Identification in Generalized Linear Bandits via Hybrid Feedback

Qirun Zeng et al.

cs.AI

本文研究了广义线性bandit中基于混合反馈（absolute reward和relative dueling feedback）的固定置信度最佳臂识别问题，提出了一种基于似然比的置信序列和混合Track-and-Stop算法，并给出了停止时间的高概率上界。实验表明该方法在样本效率上优于基线。

Evaluating Explainability in Safety-Critical ATR Systems: Limitations of Post-Hoc Methods and Paths Toward Robust XAI

Vanessa Buhrmester et al.

cs.AI

本文评估了安全关键型ATR系统中可解释性方法的局限性，指出基于saliency和attention的后验解释方法存在虚假解释、扰动不稳定等问题，并讨论了向更鲁棒、因果驱动的XAI方法发展的方向。

Confidence is the key: how conformal prediction enhances the generative design of permeable peptides

Laura van Weesep et al.

cs.AI

本文提出了一种结合conformal prediction和reinforcement learning的生成框架，用于设计具有膜渗透性的环肽分子，通过不确定性感知的预测模型来提升优化过程的可靠性。

CircuitFormer: A Circuit Language Model for Analog Topology Design from Natural Language Prompt

Md Touhidul Islam et al.

cs.AI

本文提出CircuitFormer，一种用于模拟电路拓扑设计的电路语言模型，通过构建大规模数据集和新型电路图分词器CKT，解决了模拟电路设计自动化中数据稀缺和通用分词器效率低的问题。CKT通过挖掘频繁子电路实现恒定复杂度，在电路拓扑表示上优于标准BPE，模型在语法正确性和功能成功率上超越开源LLM。

HEDP: A Hybrid Energy-Distance Prompt-based Framework for Domain Incremental Learning

Yu Feng et al.

cs.AI

本文提出了一种基于Helmholtz自由能的混合能量-距离提示框架HEDP，用于域增量学习场景。该方法通过能量正则化损失和混合加权机制来增强域表示的可分离性，并在CORe50等基准上取得了性能提升。

Von Neumann Networks

Shekhar S. Chandra

cs.AI cs.CV cs.LG

本文提出了一种基于细胞阵列的Von Neumann Networks (VNNs)，其中每个神经元具有可学习的特定角色，其架构仅依赖于输入输出在细胞阵列上的位置。该网络通过扩展neural operator和Green's function的卷积学习，在细胞拓扑上具有扩散特征，并证明了其计算通用性。

Sheet as Token: A Graph-Enhanced Representation for Multi-Sheet Spreadsheet Understanding

Yiming Lei et al.

cs.AI

本文提出Sheet as Token框架，将每个worksheet编码为紧凑的dense token，并通过Graph Retriever构建query-specific候选图来检索多sheet电子表格中的相关sheet集合。该方法主要针对多sheet电子表格理解中的检索问题，与关键词中的agent、attention等概念关联较弱。

Long-Horizon Q-Learning: Accurate Value Learning via n-Step Inequalities

Armaan A. Abraham, Lucy Xiaoyang Shi, Chelsea Finn

cs.AI

本文提出Long-Horizon Q-Learning (LQL)，通过引入基于n-step不等式的hinge loss惩罚项来稳定Q-learning中的长程学习，无需额外网络或前向传播。该方法在多个在线和离线到在线基准测试中优于1-step和n-step TD学习，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

MolRecBench-Wild: A Real-World Benchmark for Optical Chemical Structure Recognition

Haote Yang et al.

cs.AI

本文提出了MOSAIC框架和MolRecBench-Wild基准，用于评估光学化学结构识别(OCSR)在真实学术论文图像上的性能，并引入CARBON表示语言以支持更丰富的语义评估。实验表明现有模型在该基准上性能严重下降，揭示了当前OCSR系统在真实场景中的局限性。

On the Role of Language Representations in Auto-Bidding: Findings and Implications

Guanyu Zhu et al.

cs.AI

本文研究了在实时广告市场的自动出价任务中，如何利用Large Language Models (LLMs)的语义表示来增强传统数值状态表示。通过实验发现，LLM嵌入包含出价相关线索但无法替代数值特征，且收益仅在精心设计的语义-数值整合中显现。

Taklif.AI: LLM-Powered Platform for Interest-Based Personalized College Assignments

Zaki Kurdya et al.

cs.AI

本文介绍了一个名为Taklif.AI的平台，利用Large Language Models (LLMs)根据学生兴趣自动生成个性化作业，并采用AWS上的serverless架构和Llama 3.3 70B模型。初步用户测试显示84%的参与者认为个性化功能有益，但该工作主要聚焦于教育应用，与我提供的关键词列表关联度较低。

AirQualityBench: A Realistic Evaluation Benchmark for Global Air Quality Forecasting

Xing Xu et al.

cs.AI

本文提出了一个名为AirQualityBench的全球空气质量预测基准，该基准使用来自3720个监测站的真实观测数据，保留了缺失值作为预测问题的一部分，并评估了多种时空模型在现实条件下的表现。

SANEmerg: An Emergent Communication Framework for Semantic-aware Agentic AI Networking

Yong Xiao et al.

cs.AI cs.NI

SANEmerg提出了一种面向语义感知AgentNet系统的多智能体涌现通信框架，通过带宽自适应重要性过滤器和基于MDL原则的复杂度正则化器，在带宽受限环境下实现高效协作。该方法在任务准确性和资源开销上优于现有方案，但未涉及code、spectral、Muon或pretrain等关键词。

XDecomposer: Learning Prior-Free Set Decomposition for Multiphase X-ray Diffraction

Hanyu Gao et al.

cs.AI

本文提出XDecomposer框架，将多相X射线衍射分析建模为set prediction问题，无需先验知识即可同时分解和识别多相衍射图谱中的各相成分及其比例。该方法通过phase-query-driven机制实现源分离，在模拟和实验数据集上均提升了重建精度和相识别能力。

Agentic, Context-Aware Risk Intelligence in the Internet of Value

Basel Magableh, OmniRisk Research

cs.AI

本文提出了一种面向价值互联网的复合风险智能架构，包含预测、验证、情感融合、智能体约束和场景生成五个引擎，并在Solana上进行了实验验证。该工作主要关注风险管理的工程实现，与关键词中的agent有一定关联，但方法上缺乏显著的开创性。

Null Space Constrained Contrastive Visual Forgetting for MLLM Unlearning

Yuhang Wang et al.

cs.AI

本文提出了一种针对多模态大语言模型(MLLM)的机器遗忘方法，通过冻结LLM backbone并微调视觉模块，利用对比视觉遗忘(CVF)机制和保留知识的null space约束，在遗忘目标视觉知识的同时保持非目标视觉知识和所有文本知识。该方法还扩展到了连续遗忘场景，实验表明其在遗忘效果与知识保留之间取得了良好平衡。

PREFER: Personalized Review Summarization with Online Preference Learning

Millend Roy, Agostino Capponi, Vineet Goyal

cs.AI cs.GT cs.LG eess.SY math.OC

本文提出一个在线学习框架PREFER，用于生成个性化的产品评论摘要，通过迭代地整合用户对摘要的反馈来优化对用户偏好的理解。在Amazon Reviews'23数据集上的模拟实验表明，该方法能提升摘要与用户兴趣的对齐程度。

Intentmaking and Sensemaking: Human Interaction with AI-Guided Mathematical Discovery

Alex Bäuerle et al.

cs.AI cs.HC

本文通过一项对11位数学专家的用户研究，分析了他们使用进化编码agent AlphaEvolve进行数学发现时的交互行为，识别出一种名为“intentmaking”的工作流程，并将其与“sensemaking”过程联系起来。研究为设计用于科学发现的AI协作工具提供了定性见解。

Which Are the Low-Resource Languages of the Semantic Web?

Ndeye-Emilie Mbengue et al.

cs.AI

本文提出了一种基于DBpedia、BabelNet和Wikidata的多级分类方法，用于分析语义网中Linked Open Data Knowledge Graphs的语言分布，并初步定义了低资源、高资源和中等资源语言。该工作旨在为跨语言迁移提供候选语言选择依据，但未涉及关键词中的code、spectral或Muon等概念。

In Data or Invisible: Toward a Better Digital Representation of Low-Resource Languages with Knowledge Graphs

Ndeye-Emilie Mbengue

cs.AI

本文探讨了低资源语言在Linked Open Data知识图谱中的数字表示问题，分析了DBpedia、BabelNet和Wikidata中语言分布的变量，并计划研究跨语言迁移候选选择对多语言KG补全任务的影响。

ICU-Bench:Benchmarking Continual Unlearning in Multimodal Large Language Models

Yuhang Wang et al.

cs.AI

ICU-Bench提出了一个持续多模态遗忘基准，包含医疗报告和劳动合同中的隐私敏感数据，用于评估多模态大语言模型在持续隐私删除请求下的表现。实验表明现有方法在持续遗忘场景中难以平衡遗忘效果、模型效用和可扩展性。

MAS-Algorithm: A Workflow for Solving Algorithmic Programming Problems with a Multi-Agent System

Yuliang Xu et al.

cs.AI cs.SE

本文提出了MAS-Algorithm，一个用于解决算法编程问题的多智能体工作流，通过将求解过程分解为模块化阶段来增强结构化推理和工具集成。实验表明该方法在多个模型上提升了接受率，但整体方法更偏向工程框架而非理论创新，与关键词中的核心概念关联较弱。

HaM-World: Soft-Hamiltonian World Models with Selective Memory for Planning

Haoyun Tang et al.

cs.AI

本文提出HaM-World (HMW)模型，将latent state分解为canonical (q, p) subspace和context subspace c，并使用Mamba selective state-space memory作为history-conditioned输入。该模型通过energy-derived Hamiltonian vector field驱动(q, p)演化，在多个控制任务上提升了long-horizon rollout的稳定性。

Temporal Smoothness Doubly Robust Learning for Debiased Knowledge Tracing

Peilin Zhan et al.

cs.AI

本文针对知识追踪中的选择偏差问题，提出了一个双稳健（Doubly Robust）学习框架TSDR，通过结合倾向性模型和误差插补模型来保证无偏性，并引入时间平滑正则化项以控制估计器方差。实验表明该方法能有效提升多种现有知识追踪模型的性能。

From Coordinate Matching to Structural Alignment: Rethinking Prototype Alignment in Heterogeneous Federated Learning

Xinghao Wu et al.

cs.AI cs.DC cs.LG

本文指出异构联邦学习（HtFL）中基于prototype的对齐方法（如MSE或cosine对齐）本质上是坐标对齐（coordinate alignment），这强制所有客户端在全局特征子空间内优化，抑制了异构特征提取器的学习能力。为此，作者提出FedSAF，将对齐目标从绝对坐标转向类间关系结构（structural alignment），实验表明该方法在异构设置下优于现有方法。

TheraAgent: Self-Improving Therapeutic Agent for Precise and Comprehensive Treatment Planning

Junkai Li et al.

cs.AI cs.CL

本文提出TheraAgent框架，通过迭代的生成-判断-优化流程替代大语言模型的一次性输出，用于生成更精确和安全的治疗方案。该方法在HealthBench上取得最优结果，并在专家评估中优于医生。

BehaviorGuard: Online Backdoor Defense for Deep Reinforcement Learning

Yinbo Yu et al.

cs.AI

本文提出了一种针对深度强化学习(DRL)的在线后门防御框架BehaviorGuard，通过检测动作分布中的行为漂移来识别和抑制后门动作，无需依赖触发器逆向或模型微调。该方法在单智能体和多智能体DRL场景下均有效，但主要贡献在于防御机制设计，而非与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）中的核心概念直接契合。

BioResearcher: Scenario-Guided Multi-Agent for Translational Medicine

Remigiusz Kinas et al.

cs.AI cs.MA q-bio.QM

本文介绍了一个名为Ingenix BioResearcher的场景引导多agent系统，用于转化医学中的证据合成。该系统通过将查询映射到版本化的研究剧本，并委派给30多个工具和机器学习端点的专业子agent，实现了结构化数据库访问与沙盒代码的结合。实验表明，该系统在单元级能力、开放式生物医学推理和端到端临床发现任务上均优于基线方法。

Strat-LLM: Stratified Strategy Alignment for LLM-based Stock Trading with Real-time Multi-Source Signals

Wenliang Huang, Zengyi Yu

cs.AI

本文提出了Strat-LLM框架，通过分层策略对齐（Stratified Strategy Alignment）将LLM应用于股票交易，在2025年的实时数据上测试了不同模型规模和策略模式的表现。研究发现推理型模型在自由模式下表现更好，而标准模型需要严格模式作为风险锚点，且中等规模模型在严格约束下具有最优的忠实度。

Pathways to AGI

Gordon Fletcher, Saomai Vu Khan

cs.AI

本文从批判性软件研究视角出发，探讨了通向AGI的五条关键路径，分析了当前生成式AI工具的主导发展轨迹、决策杠杆节点以及不同模型路径的差异，并提出了实现AGI相关能力的社会技术发展方案。

Novelty-based Tree-of-Thought Search for LLM Reasoning and Planning

Leon Hamm, Zlatan Ajanovic

cs.AI cs.CL

本文提出了一种基于新颖性（novelty）的树状思维（Tree-of-Thought）搜索方法，通过LLM评估每个新节点相对于已探索节点的独特性来剪枝搜索树，旨在降低推理过程中的token成本。该方法在语言规划与通用推理基准上进行了测试，但并未涉及代码、谱方法或Muon优化器等关键词相关的内容。

Visual Fingerprints for LLM Generation Comparison

Amal Alnouri et al.

cs.AI cs.HC

本文提出了一种通过可视化指纹（visual fingerprints）来比较不同生成条件下大语言模型输出分布的方法，利用自然语言处理管道提取语言选择并展示其分布。该方法为理解模型行为提供了直观工具，但未涉及代码、谱方法或注意力机制等关键词。

VibeServe: Can AI Agents Build Bespoke LLM Serving Systems?

Keisuke Kamahori et al.

cs.AI cs.DC

VibeServe提出了一种基于multi-agent loop的自动化方法，用于为不同使用场景生成定制的LLM serving系统。该方法通过外循环规划系统设计搜索，内循环实现候选方案并评估性能，在非标准场景下优于通用系统。

Safety Certification is Classification

Oliver Schön, Licio Romao, Sadegh Soudjani

cs.AI eess.SY

本文提出了一种基于kernel embedding的框架，将安全认证问题转化为轨迹数据上的分类问题，直接估计$T$步安全概率，避免了传统动态规划方法中的累积误差。该方法适用于非Markovian dynamics系统，并在神经控制四旋翼仿真中验证了其稳定性。

Shallow Prefill, Deep Decoding: Efficient Long-Context Inference via Layer-Asymmetric KV Visibility

Jungsuk Oh et al.

cs.AI

本文提出SPEED方法，通过层不对称的KV可见性策略，在长上下文推理中仅在下层保留非锚点提示token的KV状态，从而降低Prefill阶段的计算和存储成本。实验表明该方法在保持模型质量的同时显著提升了推理效率。

CrossCult-KIBench: A Benchmark for Cross-Cultural Knowledge Insertion in MLLMs

Zhen Zeng et al.

cs.AI

本文提出了CrossCult-KIBench基准，用于评估多模态大语言模型在跨文化知识插入任务中的表现，并设计了Memory-Conditioned Knowledge Insertion (MCKI)基线方法。实验表明现有方法难以在文化适应与行为保持间取得平衡。

Policy-Guided Stepwise Model Routing for Cost-Effective Reasoning

Wenwen Si, Insup Lee, Osbert Bastani

cs.AI

本文提出了一种基于强化学习的小型控制策略，用于在推理过程中动态选择不同大小的语言模型处理中间chain-of-thought状态，以平衡推理性能与成本。该方法在数学基准测试上优于手工设计的路由策略，但未涉及关键词中的code、spectral、Muon、pretrain、agent或attention等概念。

Back to the Beginning of Heuristic Design: Bridging Code and Knowledge with LLMs

Nguyen Viet Tuan Kiet et al.

cs.AI

本文从统计学习视角提出了一种自上而下的启发式设计范式，将知识作为主要搜索对象，代码仅用于实例化和测试，从而在组合优化任务中提升了发现效率与泛化能力。

P-Guide: Parameter-Efficient Prior Steering for Single-Pass CFG Inference

Xin Peng, Ang Gao

cs.AI

本文提出P-Guide框架，通过仅调制初始latent state实现单次前向传播的Classifier-Free Guidance，在flow matching中减少约50%推理延迟。该方法在一阶近似下等价于标准CFG，并考虑了homoscedastic和heteroscedastic priors以提升对数据不确定性的鲁棒性。

Graphlets as Building Blocks for Structural Vocabulary in Knowledge Graph Foundation Models

Kossi Amouzouvi et al.

cs.AI cs.LG

本文提出了一种基于graphlet（小连通图）的结构化词汇框架，用于知识图谱基础模型（KGFM），通过模式匹配挖掘关系间的结构不变性，并在51个知识图谱上验证了其在零样本归纳和直推式链接预测任务中的有效性。该方法虽具实用性，但未涉及code、spectral、Muon或agent等关键词，且创新性有限。

Beyond Accuracy: Policy Invariance as a Reliability Test for LLM Safety Judges

Shihao Weng, Yang Feng, Xiaofei Xie

cs.AI cs.SE

本文提出"policy invariance"作为LLM安全评估器可靠性的测试标准，通过三个可操作原则（rubric-semantics不变性、rubric-threshold不变性、模糊感知校准）构建压力测试协议。实验发现当前评估器无法区分有意义的规范变化与无意义的结构改写，导致安全分数混淆了agent行为与评估提示的影响。

Post Reasoning: Improving the Performance of Non-Thinking Models at No Cost

Richmond Sin Jing Xuan, Rishabh Bhardwaj, Soujanya Poria

cs.AI

本文提出Post-Reasoning方法，通过在生成最终答案后添加理由来提升instruction-tuned LLMs的性能，无需额外推理延迟或token消耗。实验在117个模型-基准设置上验证，平均相对提升17.37%，但方法本身并非开创性突破，且与关键词列表关联较弱。

BioMedArena: An Open-source Toolkit for Building and Evaluating Biomedical Deep Research Agents

Jinge Wu et al.

cs.AI

BioMedArena是一个开源工具包，用于构建和评估生物医学深度研究agent。它通过解耦agent评估的六个层次并集成147个基准测试与75个工具，简化了模型集成与公平比较的工程开销。

Rethinking Adapter Placement: A Dominant Adaptation Module Perspective

Suoxin Zhang et al.

cs.AI cs.CL cs.LG

本文提出PAGE方法，通过估计LoRA适配器的初始可训练梯度能量，发现该能量高度集中于单个浅层FFN下投影模块（称为主导适应模块）。基于此提出DomLoRA，仅在该模块放置单个适配器，以约0.7%的原始参数量在多项下游任务中取得更优性能。

Event-Causal RAG: A Retrieval-Augmented Generation Framework for Long Video Reasoning in Complex Scenarios

Peizheng Yan et al.

cs.AI cs.CV

本文提出Event-Causal RAG框架，通过将视频分割为语义事件并构建State-Event-State图来建模因果结构，以解决长视频推理中的记忆和因果依赖问题。该方法在长视频理解基准上优于基于clip的检索基线，但与我提供的关键词（如code, spectral, Muon等）关联度较低。

OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models

Jaehoon Kim, Dongha Lee

cs.AI cs.CL

本文研究了On-Policy Self-Distillation (OPSD)在数学推理模型中的应用，发现其在长思维链场景下主要起压缩作用而非纠错作用，并据此提出SFT-RLVR-OPSD的后训练流程。该工作与关键词列表中的概念关联较弱。

Systematic Evaluation of Large Language Models for Post-Discharge Clinical Action Extraction

Shivali Dalmia, Ananya Mantravadi, Prasanna Desikan

cs.AI

本文评估了大型语言模型在临床行动提取任务中的零样本和少样本性能，使用CLIP出院记录数据集，并引入了一个两阶段提取框架。结果表明，通用LLM在二元可行动性检测上可与监督模型媲美，但在细粒度多标签分类上仍有差距，且错误主要源于模型推理与标注惯例的不匹配。

The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

Chonghan Qin et al.

cs.AI cs.CL

本文通过定义对比性的Granularity Axis（粒度轴），发现大型语言模型（如Qwen3-8B和Llama-3.1-8B-Instruct）内部表征中社会角色的粒度（从微观个体到宏观机构）是一个主导的几何轴，并验证了其单调性、稳定性和因果可操控性。该工作主要关注语言模型的社会角色表征结构，与您提供的关键词（如code, spectral, Muon, agent等）关联度较低。

Towards Annotation-Free Validation of MLLMs: A Vision-Language Logical Consistency Metric

Ying Gu et al.

cs.AI

本文提出了一种无需ground-truth标注的Vision-Language Logical Consistency Metric (VL-LCM)，用于评估多模态大语言模型在视觉-语言任务中的逻辑一致性，并基于实验揭示了当前模型在准确性提升的同时逻辑一致性仍显著滞后。

Beyond Fixed Benchmarks and Worst-Case Attacks: Dynamic Boundary Evaluation for Language Models

Haoxiang Wang, Da Yu, Huishuai Zhang

cs.AI

本文提出Dynamic Boundary Evaluation (DBE)方法，通过定位每个LLM在per-prompt pass probability接近$0.5$的边界区域来避免固定基准的ceiling和floor效应，并构建了包含安全、能力和真实性类别的校准题库。该方法主要关注评估框架而非与关键词直接相关的技术。

Joint Consistency: A Unified Test-Time Aggregation Framework via Energy Minimization

Yunzhen Yao et al.

cs.AI

本文提出了一种名为Joint Consistency (JC)的测试时聚合框架，将其建模为约束Ising型能量最小化问题，通过整合独立评估信号与成对比较交互来统一现有的投票和加权聚合方法。实验表明该方法在数学和代码推理任务上优于现有基线。

Proactive Instance Navigation with Comparative Judgment for Ambiguous User Queries

Junhyuk Kwon et al.

cs.AI cs.RO

本文提出ProCompNav框架，通过先构建候选池再使用比较判断（comparative judgment）来区分目标与干扰物，从而处理模糊用户查询下的实例导航问题。该方法在CoIN-Bench和TextNav上提升了成功率并减少了用户响应长度。

A Versatile AI Agent for Rare Disease Diagnosis and Risk Gene Prioritization

Tianyu Liu et al.

cs.AI q-bio.GN

本文提出了一个名为Hygieia的多模态AI agent系统，用于罕见病诊断和风险基因优先级排序。该系统通过整合表型特征、遗传图谱和临床记录等数据，并采用基于路由器和知识增强的框架来减少幻觉并定制诊断策略，在多个诊断基准上取得了先进性能。

Price of Fairness in Short-Term and Long-Term Algorithmic Selections

Shahin Jabbari, Chen Wang

cs.AI

本文研究了算法决策中短期与长期公平性的权衡，通过Price of Fairness (PoF)分析公平约束对效用的影响，并证明短期公平可能导致长期差距，而简单投资策略可降低PoF并消除长期差异。

Safactory: A Scalable Agent Factory for Trustworthy Autonomous Intelligence

Xinquan Chen et al.

cs.AI cs.DC

本文介绍了Safactory，一个用于可信自主智能的可扩展智能体工厂，集成了并行仿真、可信数据管理和自主进化三个平台，为智能体的评估、数据管理和进化提供了统一框架。

Data Language Models: A New Foundation Model Class for Tabular Data

Eda Erol, Giuliano Pezzoli, Ozer Cem Kelahmet

cs.AI

本文提出了一种名为Data Language Model (DLM)的新型基础模型，专门用于处理表格数据。该模型无需预处理即可直接理解原始单元格值，并在行级预测和缺失值重建任务上优于现有方法。

Addressing Labelled Data Scarcity: Taxonomy-Agnostic Annotation of PII Values in HTTP Traffic using LLMs

Thomas Cory, Axel Küpper

cs.AI cs.IR

本文提出了一种基于LLM的多阶段pipeline，用于在HTTP流量中实现与标签分类无关的PII值标注，通过结合确定性预处理和实例级标注来解决标注数据稀缺问题。该方法在不同PII分类体系下验证了有效性，但未涉及code、spectral、Muon等关键词相关技术。

Measuring Black-Box Confidence via Reasoning Trajectories: Geometry, Coverage, and Verbalization

Marc Boubnovski Martell et al.

cs.AI

本文提出了一种黑盒轨迹置信度评分方法，通过将chain-of-thought推理过程嵌入为滑动窗口轨迹并测量其与外部答案锚点的收敛性，无需logits或隐藏状态即可估计置信度。实验表明该方法在多个基准上优于自一致性基线，但未涉及code、spectral、Muon或pretrain等关键词相关技术。

A Regime Theory of Controller Class Selection for LLM Action Decisions

Zhaoyang Jiang et al.

cs.AI

本文研究了LLM在动作决策中控制器类别的选择问题，提出了一个基于有限样本瓶颈的regime theory，将控制器组织为四类嵌套格结构，并证明了数据可估计的瓶颈如何指导类别选择。实验表明，该方法在不同基准上预测的类别与经验胜者一致。

Mind the Gap? A Distributional Comparison of Real and Synthetic Priors for Tabular Foundation Models

Alex O. Davies, Telmo de Menezes e Silva Filho, Nirav Ajmeri

cs.AI

本文比较了用于训练tabular foundation models的三种语料库（网络爬取、精选数据集和合成先验）的分布特性，发现合成先验（TabICL）仅覆盖真实表格空间的狭窄区域，且这种分布差异对下游性能影响不大。

More Than Can Be Said: A Benchmark and Framework for Pre-Question Scientific Ideation

Jie Yu, Song Qiu

cs.AI

本文提出了InciteResearch，一个多agent框架，旨在将研究者模糊的初始想法转化为结构化、可操作的研究问题，并引入了TF-Bench基准来评估这种从隐性到显性的研究辅助能力。实验表明该方法在生成新颖性和影响力上优于基线，但主要聚焦于科学构思过程，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念关联较弱。

Prediction and Empowerment: A Theory of Agency through Bridge Interfaces

Richard Csaky

cs.AI

本文在确定性物理或模拟世界中研究部分可观测下的agent行为，通过桥接接口（bridge interfaces）建模感知与动作，证明了预测、压缩与赋权（empowerment）之间的分离性。结果指出，完美预测可通过识别隐藏商或覆盖控制实现，而高赋权本身不足，这为现代AI agent的设计提供了区分隐藏状态识别与接口细化的原则。

From Agent Loops to Deterministic Graphs: Execution Lineage for Reproducible AI-Native Work

Josh Rosen, Seth Rosen

cs.AI cs.MA cs.SE

本文提出了一种名为execution lineage的执行模型，将AI原生工作表示为有向无环图(DAG)，通过显式依赖和基于身份的replay来保证可复现性。实验表明，该方法在维护中间工件的一致性和避免无关分支污染方面优于传统的循环更新基线。

Debiased Multimodal Personality Understanding through Dual Causal Intervention

Yangfu Zhu et al.

cs.AI

本文针对多模态人格理解中的subject bias问题，构建了一个Structural Causal Model (SCM)并提出了Dual Causal Adjustment Network (DCAN)，通过后门调整和前门调整模块来消除可观测与不可观测的混淆偏差，并在新构建的DMSP数据集上验证了模型在准确率和公平性指标上的提升。

Rethinking Vacuity for OOD Detection in Evidential Deep Learning

Claire McNamara

cs.AI

本文指出在Evidential Deep Learning (EDL)中，基于Vacuity (不确定性质量) 的OOD检测对类别数$K$的差异高度敏感，当ID与OOD的$K$不同时，AUROC和AUPR等指标会被人为地夸大，并提供了实证与理论分析。

Automated alignment is harder than you think

Aleksandr Bowkis et al.

cs.AI

本文探讨了使用AI agent自动化alignment研究可能带来的风险，指出由于alignment研究涉及难以监督的模糊任务，agent产生的系统性错误可能导致灾难性的安全评估，并分析了这一问题比人类研究更严重的四个原因。

Knowledge Graphs, the Missing Link in Agentic AI-based Formal Verification

Vaisakh Naduvodi Viswambharan et al.

cs.AI

本文提出了一种基于Knowledge Graph的多智能体工作流，用于从自然语言规范生成SystemVerilog Assertions，通过结构化上下文检索和语法修复循环提升形式验证效率，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词的核心内容。

SCRuB: Social Concept Reasoning under Rubric-Based Evaluation

Jamelle Watson-Daniels et al.

cs.AI

本文提出了SCRuB框架，用于评估LLM在社会概念推理上的能力，通过专家构建的prompt和五维批判性思维rubric进行对比评估。实验表明，前沿模型在所有维度上均优于人类专家，揭示了单轮考试式评估的饱和现象。

PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors

Xinmiao Huang et al.

cs.AI

本文提出PrefixGuard框架，通过离线StepView归纳步骤和监督训练，从LLM agent的原始trace中学习事件抽象和前缀风险评分器，以实现在线失败预警监控。实验表明该方法在多个benchmark上优于原始文本控制，但不同场景下的部署效用存在差异。

Beyond Task Success: Measuring Workflow Fidelity in LLM-Based Agentic Payment Systems

Donghao Huang, Joon Kiat Chua, Zhaoxia Wang

cs.AI

本文提出了一种用于评估LLM-based multi-agent系统工作流保真度的新指标Agentic Success Rate (ASR)，通过对比agent执行序列的transition-level差异来检测任务成功率和路由分数无法发现的隐藏偏差，并在支付系统场景中验证了其有效性。

Probabilistic Dating of Historical Manuscripts via Evidential Deep Regression on Visual Script Features

Ranjith Chodavarapu

cs.AI

本文提出了一种基于evidential deep regression的概率性方法，用于从手稿的视觉特征进行年代测定。该方法在连续年份轴上输出完整的预测分布，并分解aleatoric和epistemic uncertainty，在DIVA-HisDB基准上取得了较低的MAE。

Patch-Effect Graph Kernels for LLM Interpretability

Ruben Fernandez-Boullon, David N. Olivieri

cs.AI cs.CL

本文提出将activation patching数据转化为patch-effect graph，并应用graph kernel进行分析，以增强LLM可解释性。该方法在GPT-2 Small上验证了图结构能保留判别性信号，但未直接涉及code、spectral、Muon等关键词。

ReasonSTL: Bridging Natural Language and Signal Temporal Logic via Tool-Augmented Process-Rewarded Learning

Bowen Ye et al.

cs.AI

ReasonSTL提出了一种工具增强的框架，将自然语言翻译为Signal Temporal Logic (STL)公式，通过分解推理、确定性工具调用和结构化构造，并引入过程奖励训练来监督工具使用轨迹和最终公式。该方法在4B模型上实现了自动指标和人工评估的最优性能，为形式规约起草提供了透明、低成本和隐私保护的替代方案。

Instrumental Choices: Measuring the Propensity of LLM Agents to Pursue Instrumental Behaviors

Jonas Wiedermann-Möller, Leonard Dung, Maksym Andriushchenko

cs.AI cs.CY

本文提出了一个用于测量LLM Agent在终端任务中追求工具性趋同行为（如自我保存）的基准测试，通过七个任务和八个变体框架评估了模型在低风险环境下的违规倾向。实验发现，尽管整体违规率较低（5.1%），但该行为在特定模型和任务中具有系统性。

From Token Lists to Graph Motifs: Weisfeiler-Lehman Analysis of Sparse Autoencoder Features

Ruben Fernandez-Boullon, Pablo Magariños-Docampo, Javier Perez-Robles

cs.AI

本文提出了一种基于图结构的稀疏自编码器特征分析方法，将每个特征建模为token共现图，并使用自定义的WL风格图核进行聚类。该方法能发现基于解码器余弦相似度无法捕捉的结构性关系，但整体聚类纯度不如token直方图基线方法。

Process Matters more than Output for Distinguishing Humans from Machines

Milena Rmus et al.

cs.AI

本文提出CogCAPTCHA30认知任务集，通过过程级特征（如反应时间模式）而非仅任务输出，来区分人类与AI agent。实验表明过程特征比性能指标更具区分性，但方法本身在关键词领域（如code, spectral, Muon, pretrain, attention）无直接关联。

Market-Alignment Risk in Pricing Agents: Trace Diagnostics and Trace-Prior RL under Hidden Competitor State

Peiying Zhu, Sidi Chang

cs.AI cs.LG

本文研究了定价智能体在市场对齐风险中的失败模式，通过两酒店收益管理模拟器诊断出部分可观测性导致的Goodhart式失败，并提出了Trace-Prior RL方法作为修复方案。该方法利用滞后市场轨迹学习分布先验，结合KL惩罚训练随机定价策略，以匹配目标酒店的关键指标分布。

SpatialEpiBench: Benchmarking Spatial Information and Epidemic Priors in Forecasting

Ruiqi Lyu, Alistair Turcan, Bryan Wilder

cs.AI

本文提出了SpatialEpiBench，一个用于时空流行病预测的标准化benchmark，包含11个数据集和滚动评估方法。实验发现大多数基于邻接信息的预测模型在1天到1个月的预测中表现不如简单的last-value baseline，并指出了三个主要失败模式。

Ex Ante Evaluation of AI-Induced Idea Diversity Collapse

Nafis Saami Azad, Raiyan Abdul Baten

cs.AI cs.GT

本文提出一个评估AI生成创意导致多样性崩溃的框架，通过将创意建模为可拥挤资源，引入excess-crowding coefficient $\Delta$和human-relative diversity ratio $\rho$，并证明在短故事等任务中前沿LLM低于parity条件。该工作为population-aware creative AI提供了开发阶段的评估目标。

Improved techniques for fine-tuning flow models via adjoint matching: a deterministic control pipeline

Zhengyi Guo et al.

cs.AI

本文提出了一种基于adjoint matching的确定性控制框架，将flow-based generative models的人类偏好对齐问题转化为velocity fields上的最优控制问题，通过截断adjoint scheme在保持对齐质量的同时降低计算成本。该方法在SiT-XL/2和FLUX.2-Klein-4B上验证了有效性，但与我提供的关键词列表关联较弱。

NeuroAgent: LLM Agents for Multimodal Neuroimaging Analysis and Research

Lujia Zhong et al.

cs.AI

本文提出了NeuroAgent，一个基于LLM的多智能体框架，用于自动化多模态神经影像（sMRI, fMRI, dMRI, PET）的预处理和分析流程。该系统通过层次化多智能体架构和生成-执行-验证引擎，实现了代码自动生成、错误恢复和输出验证，并在阿尔茨海默病分类任务中取得了优于单模态基线的性能。

SkillOS: Learning Skill Curation for Self-Evolving Agents

Siru Ouyang et al.

cs.AI cs.CL

本文提出SkillOS框架，通过强化学习训练技能策展器（skill curator）来管理智能体（agent）的经验技能库，以提升其在流式任务中的自我进化能力。该方法在多项任务上优于无记忆和强记忆基线，但未涉及代码、谱方法或预训练等关键词。

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

Tianle Wang et al.

cs.AI cs.CL

本文提出了ScaleLogic框架，用于研究强化学习训练大语言模型进行长程推理时的扩展规律，发现训练计算量随推理深度呈幂律增长，且该指数随逻辑表达力单调增加。该工作主要关注推理扩展性，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念关联较弱。

GlazyBench: A Benchmark for Ceramic Glaze Property Prediction and Image Generation

Ziyu Zhai et al.

cs.AI cs.CV

GlazyBench提出了首个用于陶瓷釉料设计的AI数据集，包含23,148个真实配方，支持釉料性质预测和图像生成任务。实验使用传统机器学习、大语言模型和深度生成模型建立了基线，但该工作与关键词中的code、context、spectral、Muon、pretrain、agent、attention均无直接关联。

cs.IR

DisastRAG: A Multi-Source Disaster Information Integration and Access System Based on Retrieval-Augmented Large Language Models

Bo Li et al.

cs.IR

DisastRAG是一个基于检索增强大语言模型的多源灾害信息集成与访问系统，通过多路径架构支持结构化、非结构化和外部网络信息的检索。实验表明检索增强能显著提升灾害信息任务的性能，但该方法主要面向应用场景，与关键词中的理论或技术方向关联较弱。

Dynamic Graph with Similarity-Aware Attention Graph Neural Network for Recommender Systems

Aadarsh Senapati, Neha Kujur, Vivek Yelleti

cs.IR cs.LG cs.SI

本文提出了一种动态图相似性感知注意力图神经网络(DG-SA-GNN)框架，通过构建四种并行用户相似度图并使用Graph Transformer和Cross-Attention模块进行融合，以捕捉用户偏好的动态变化。实验在MovieLens100K数据集上验证了其有效性，但方法主要基于现有技术的组合，缺乏显著的开创性。

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

Zhuofeng Li et al.

cs.IR cs.AI

本文提出直接语料交互（DCI）方法，让agent通过通用终端工具（如grep、文件读取等）直接搜索原始语料，无需嵌入模型或向量索引。实验表明该方法在多个检索基准上优于传统稀疏和稠密检索基线，为agent搜索提供了更灵活的接口设计空间。

Towards Dependable Retrieval-Augmented Generation Using Factual Confidence Prediction

Florian Geissler et al.

cs.IR cs.AI

本文提出了一种两阶段方法，通过conformal prediction和基于attention的事实性分类器，来预测检索增强生成中输出的事实可靠性，并评估了其在不同数据集上的性能提升与局限性。

TriAlignGR: Triangular Multitask Alignment with Multimodal Deep Interest Mining for Generative Recommendation

Yangchen Zeng et al.

cs.IR

本文提出了TriAlignGR框架，通过多模态嵌入和视觉描述任务建立两阶段语义传播，以解决生成式推荐中SID内容退化与语义不透明问题。该方法利用大语言模型推理挖掘用户潜在意图，并设计了三角多任务对齐结构，但整体创新性有限且与关键词列表中的概念关联较弱。

Decision-aware User Simulation Agent for Evaluating Conversational Recommender Systems

Yuan-Chi Li et al.

cs.IR cs.AI

本文提出Hesitator，一个基于理论的user simulation框架，通过引入模块化的Decision Module来显式建模人类在choice overload下的决策过程，以解决现有LLM-based simulator中不切实际的高接受概率问题。实验表明该框架能缓解过度选择下的非真实行为并复现心理学经济学中的行为模式。

EnterpriseRAG-Bench: A RAG Benchmark for Company Internal Knowledge

Yuhong Sun et al.

cs.IR

本文提出了EnterpriseRAG-Bench，一个用于评估公司内部知识检索增强生成（RAG）系统的合成数据集，包含约50万份文档和500个问题，覆盖多种企业数据源和推理能力。该工作主要关注RAG基准测试的构建，与关键词中的agent或pretrain等概念关联较弱。

Career-Aware Resume Tailoring via Multi-Source Retrieval-Augmented Generation with Provenance Tracking: A Case Study

Kumar Abhinav

cs.IR cs.AI cs.CL

本文介绍了一个基于多源检索增强生成（RAG）的简历定制系统Resume Tailor，该系统通过维护一个纵向的职业档案库来提升简历与职位描述的匹配度。实验表明，当候选人有相关历史经验时，该方法能有效提高ATS评分，但在领域不匹配时效果会下降。

Effective Knowledge Transfer for Multi-Task Recommendation Models

Guohao Cai, Jun Yuan, Zhenhua Dong

cs.IR

本文提出了一种用于多任务推荐模型的有效知识迁移方法(EKTM)，通过引入router模块和transmitter模块实现不同CVR任务间的知识共享与转换。实验表明该方法在基准数据集和工业场景中均优于现有方法。

Beyond Long Tail POIs: Transition-Centered Generalization for Human Mobility Prediction

Dingyang Lyu et al.

cs.IR

本文指出人类移动性预测中的核心瓶颈在于transition-level的长尾泛化问题，并提出RECAP框架，通过重构长尾transitions来提升预测准确性。

Unified Value Alignment for Generative Recommendation in Industrial Advertising

Xinxun Zhang et al.

cs.IR

本文提出UniVA框架，通过引入Commercial SID tokenizer和eCPM-aware reinforcement learning，将商业价值信号融入生成式推荐（Generative Recommendation）的tokenization、解码和在线服务环节，在工业广告场景中实现了用户兴趣与商业价值的统一优化。

Bridging Passive and Active: Enhancing Conversation Starter Recommendation via Active Expression Modeling

Yiqing Wu et al.

cs.IR cs.CL

本文针对LLM驱动的对话搜索中对话启动器推荐问题，提出PA-Bridge框架，通过对抗分布对齐器（adversarial distribution aligner）弥合被动推荐启动器与主动用户表达之间的分布差异，并引入语义离散化器（semantic discretizer）以部署流行度去偏算法。该方法在在线A/B测试中提升了特征渗透率和用户活跃天数。

A Case-Driven Multi-Agent Framework for E-Commerce Search Relevance

Global E-Commerce Search Relevance Team

cs.IR

本文提出了一种基于多智能体的案例驱动框架，用于自动化电商搜索相关性优化流程，通过Annotator Agent、Optimizer Agent和User Agent模拟人类角色，实现从坏案例识别到解决的闭环。该框架在工业环境中通过统一模型和全局记忆等组件提升了标注准确性和案例解决效率。

OBLIQ-Bench: Exposing Overlooked Bottlenecks in Modern Retrievers with Latent and Implicit Queries

Diane Tchuindjo, Devavrat Shah, Omar Khattab

cs.IR cs.AI

本文提出了一种名为OBLIQ-Bench的检索基准，用于评估现代检索器在寻找隐含模式文档时的性能，发现检索与验证之间存在不对称性。该工作主要关注检索领域的瓶颈问题，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念关联较弱。

Expressiveness Limits of Autoregressive Semantic ID Generation in Generative Recommendation

Yupeng Hou et al.

cs.IR

本文研究了生成式推荐中自回归语义ID生成的表达力限制，发现解码树结构会导致物品概率耦合，并提出了Latte方法通过注入潜在token来缓解该问题，在NDCG@10上平均提升3.45%。

Light-FMP: Lightweight Feature and Model Pruning for Enhanced Deep Recommender Systems

Nghia Bui, Yue Ning, Lijing Wang

cs.IR

本文提出Light-FMP框架，通过硬混凝土分布（hard concrete distribution）的masking层在少量数据上pretrain以识别重要特征，随后进行特征和模型剪枝并继续训练。该方法旨在平衡深度推荐系统的计算效率与模型精度，实验表明其在效率和准确性上优于现有方法。

Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval

Zeyu Yang et al.

cs.IR cs.AI cs.LG

本文提出SuperIntelligent Retrieval Agent (SIRA)，通过LLM离线丰富文档词汇并在线预测查询缺失的证据词汇，结合document-frequency统计过滤，将多轮探索性搜索压缩为单次加权BM25调用。该方法在BEIR基准上优于密集检索器和多轮agent基线，但主要贡献在于检索效率提升，与关键词中的agent概念有一定关联，但方法本身缺乏开创性且未涉及code、spectral等核心概念。

cs.CL

Milestone-Guided Policy Learning for Long-Horizon Language Agents ⭐ 精选

Zixuan Wang et al.

cs.CL cs.AI

本文提出了一种名为BEACON的milestone-guided policy learning框架，用于解决long-horizon language agents在reinforcement learning训练中的credit misattribution和sample inefficiency问题。BEACON通过将trajectory在milestone边界处分割，并在segment内应用temporal reward shaping来精确分配credit，同时使用dual-scale advantage estimation防止远端失败干扰局部动作评估。在ALFWorld、WebShop和ScienceWorld等benchmark上，BEACON显著优于GRPO和GiGPO，尤其在long-horizon ALFWorld任务中达到92.9%的成功率，并将有效样本利用率从23.7%提升至82.0%。该工作为训练long-horizon language agents提供了有效的milestone-anchored credit assignment范式，与关键词中的agent高度契合。

A$^2$TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping ⭐ 精选

Dingwei Chen et al.

cs.CL

本文提出A$^2$TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping)，针对agentic LLM在多轮工具调用中的稀疏奖励问题，重新设计了基于Information Gain (IG)的内在过程信号的使用方式。具体创新包括：turn-group normalization将IG按相同交互深度分组归一化，variance-rescaled discounted accumulation通过除以累积项数的平方根稳定advantage量级，以及adaptive turn-level clipping根据归一化IG自适应调整每轮的更新范围。该方法无需外部过程奖励模型，为agent训练中的细粒度信用分配提供了系统性的解决方案。

Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning ⭐ 精选

Ömer Faruk Akgül et al.

cs.CL

本文重新审视了强化学习(RL)提升大语言模型(LLM)推理能力的机制，发现RL并非学习新能力，而是对基座模型已有的token路径进行稀疏策略选择。具体地，RL的优化效果仅集中在1-3%的高熵决策点（模型不确定的token位置），且被提升的token始终位于基座模型的前5个候选之中。基于此，作者提出了ReasonMaxxer方法，它无需RL，仅通过对比损失(contrastive loss)在熵门控(entropy-gated)的决策点上进行优化，使用少量基座模型rollout即可匹配甚至超越完整RL的性能，将训练成本降低约三个数量级。该工作与关键词中的“context”和“attention”有一定关联，因为它关注模型在特定上下文中的高不确定性决策点，并利用这些点的注意力分布进行稀疏校正。

LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG ⭐ 精选

Yijia Zheng, Marcel Worring

cs.CL cs.LG

本文提出LatentRAG框架，将agentic RAG中的推理与检索过程从离散语言空间转移到连续latent space。通过直接从hidden states生成latent tokens（而非逐token生成自然语言），该方法在单次前向传播中完成思考与子查询的生成，并利用latent space对齐LLM与dense retrieval模型。实验表明，LatentRAG在保持与显式agentic RAG方法相当性能的同时，将推理延迟降低约90%，显著缩小了与单步RAG的延迟差距。该工作为高效agent系统提供了新的范式，与关键词“agent”高度契合。

STALE: Can LLM Agents Know When Their Memories Are No Longer Valid? ⭐ 精选

Hanxiang Chao et al.

cs.CL

本文提出了STALE基准，用于评估LLM agent在长期记忆中检测隐式冲突（即新证据使旧记忆失效但无明确否定）的能力，并设计了三维探测框架（State Resolution, Premise Resistance, Implicit Policy Adaptation）。实验发现前沿模型在检索更新证据后仍难以据此行动，最佳模型准确率仅55.2%。作为初步方案，作者提出了CUPMem原型，通过结构化状态整合与传播感知搜索增强写入时的记忆修订，为agent的鲁棒记忆管理提供了新方向。

Long Context Pre-Training with Lighthouse Attention ⭐ 精选

Bowen Peng, Subho Ghosh, Jeffrey Quesnelle

cs.CL

本文提出Lighthouse Attention，一种用于训练causal transformer的对称层次化attention算法。该方法通过无梯度的自适应序列压缩与解压缩，在保持因果性的同时实现了subquadratic复杂度，并采用两阶段训练策略（先使用Lighthouse Attention预训练，再短时间恢复为full attention）。实验表明，该方法在匹配所有其他设置的情况下，相比full attention训练实现了更快的总训练时间和更低的最终loss，为长序列预训练提供了高效解决方案。

StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction ⭐ 精选

Xiangyuan Xue et al.

cs.CL cs.AI

本文提出Strategic Trajectory Abstraction (StraTA)框架，通过引入显式的轨迹级策略（trajectory-level strategy）来改进agentic reinforcement learning。该方法从初始任务状态采样紧凑策略，并采用分层GRPO风格的rollout设计联合训练策略生成与动作执行，同时结合多样化策略rollout和关键自我判断机制。在ALFWorld、WebShop和SciWorld等基准测试中，StraTA显著提升了样本效率和最终性能，在SciWorld上达到63.5%的整体得分，超越了前沿闭源模型。该工作与关键词"agent"高度契合，为长程决策中的探索与信用分配问题提供了创新性解决方案。

EMO: Pretraining Mixture of Experts for Emergent Modularity ⭐ 精选

Ryan Wang, Akshita Bhagia, Sewon Min

cs.CL

本文提出EMO (Emergent Modularity via Document-level Expert Sharing)，一种在pretraining阶段通过约束同一document内的tokens共享expert pool来训练Mixture-of-Experts (MoE)模型的方法。该方法无需人工定义先验，即可使不同domain（如code、math）的expert子集自然形成语义级别的模块化分工。实验表明，EMO在保持full model性能的同时，允许在推理时仅激活部分expert（如保留25%的expert仅造成1%的性能下降），显著优于标准MoE，为大规模稀疏模型的内存高效部署提供了新路径。

AdaGATE: Adaptive Gap-Aware Token-Efficient Evidence Assembly for Multi-Hop Retrieval-Augmented Generation

Yilin Guo, Yinshan Wang, Yixuan Wang

cs.CL cs.IR

本文提出AdaGATE，一种无需训练的evidence controller，通过实体中心gap追踪、微查询生成和效用选择机制，在token约束下修复多跳RAG中的缺失桥接事实。实验表明其在HotpotQA上提升了证据F1并减少了输入token数，但方法主要针对检索增强生成场景，与关键词中的spectral、Muon、pretrain等概念关联较弱。

Counterargument for Critical Thinking as Judged by AI and Humans

Tosin Adewumi et al.

cs.CL cs.AI

本文通过干预实验研究了学生在生成式AI背景下写作中的反驳论证能力，使用六个评分标准由人类和六种前沿大语言模型进行评估。结果表明学生能写出包含逻辑的反驳论证，且GenAI的评估与人类评估基本一致。

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Yllias Chali, Deen Abdullah

cs.CL cs.AI

本文提出了一种从query-free summarization datasets中自动生成evidence-based query keywords的方法，用于解决Query-Focused Summarization (QFS)任务中缺乏查询的问题。实验表明，使用生成的查询得到的摘要与原始查询的摘要相比，在ROUGE分数上具有竞争力。

SLAM: Structural Linguistic Activation Marking for Language Models

Fabrice Harel-Canada, Amit Sahai

cs.CL cs.AI

SLAM提出了一种基于稀疏自编码器识别残差流中语言结构方向的白盒水印方案，通过因果干预这些方向而非token分布来嵌入水印。实验表明该方法在保持文本质量的同时实现了高检测率，但主要面向语言模型的水印应用，与关键词列表中的code、spectral、Muon等概念关联较弱。

ReaComp: Compiling LLM Reasoning into Symbolic Solvers for Efficient Program Synthesis

Atharva Naik et al.

cs.CL cs.AI

本文提出ReaComp方法，利用coding agents将LLM的reasoning traces编译为可复用的symbolic program synthesizers，在constrained DSLs上运行。该方法在程序合成任务中无需LLM调用即可达到高准确率，并能与LLM搜索互补，提升效率。

Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks

Mohd Ruhul Ameen et al.

cs.CL

本文研究了针对扩散语言模型水印的多步重写攻击，发现经过五次链式重写后，水印检测率从原始的87.9%降至4.86%，表明重复重写是一种比单次重写更强的攻击方式。

A Few Good Clauses: Comparing LLMs vs Domain-Trained Small Language Models on Structured Contract Extraction

Nicole Lincoln et al.

cs.CL cs.CY

本文评估了领域训练的小型语言模型(SLM)在结构化合同提取任务中与前沿大型语言模型(LLM)的性能对比，发现自托管的法律领域混合专家模型Olava Extract在降低78%至97%推理成本的同时，取得了最优的宏观F1分数0.812和微观F1分数0.842。该研究挑战了企业AI能力必须依赖更大模型和集中式基础设施的假设。

The Cost of Context: Mitigating Textual Bias in Multimodal Retrieval-Augmented Generation

Hoin Jung, Xiaoqian Wang

cs.CL cs.CV cs.LG

本文识别并形式化了多模态大语言模型在检索增强生成中的"再污染"现象，即引入准确上下文反而导致模型放弃正确预测。通过分析注意力矩阵，发现该现象由视觉盲区和位置偏差共同驱动，并提出了无需参数训练的BAIR方法，通过恢复视觉显著性并施加位置感知惩罚来缓解问题。

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

Vihaan Nama et al.

cs.CL cs.AI

本文提出了When2Speak数据集和生成流程，用于训练LLM在多轮对话中判断发言时机（SPEAK vs. SILENT）。通过监督微调和强化学习，模型在干预时机预测上显著优于零样本基线，但存在过度保守的问题。该工作主要关注对话时序参与，与关键词中的code, spectral, Muon, pretrain, agent, attention等概念关联较弱。

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Xinjie Shen et al.

cs.CL cs.AI cs.CR

本文针对多轮对话中隐藏恶意意图的检测问题，提出了TurnGate方法，通过识别最早使累积交互足以导致有害行为的轮次来实现精确干预，并构建了多轮意图数据集MTID用于训练和评估。该方法在有害意图检测上优于现有基线，同时保持较低的错误拒绝率。

Negative Before Positive: Asymmetric Valence Processing in Large Language Models

Sohan Venkatesh

cs.CL

本文通过activation patching和steering方法研究了大语言模型中情感效价（emotional valence）的处理机制，发现负向和正向效价分别在不同网络深度被处理，且这种处理是局部的、因果的和可操控的。

XL-SafetyBench: A Country-Grounded Cross-Cultural Benchmark for LLM Safety and Cultural Sensitivity

Dasol Choi et al.

cs.CL cs.AI

本文提出了XL-SafetyBench，一个包含10个国家-语言对的跨文化LLM安全基准，通过5500个测试用例评估模型对越狱攻击和文化敏感性的响应，并引入NSR和CSR指标来区分原则性拒绝与理解失败。实验发现前沿模型的安全性与文化意识无耦合关系，而本地模型的安全表现主要源于生成失败而非真正对齐。

Decomposing the Basic Abilities of Large Language Models: Mitigating Cross-Task Interference in Multi-Task Instruct-Tuning

Bing Wang et al.

cs.CL cs.AI

本文针对多任务指令微调中的跨任务干扰问题，提出了一种名为BADIT的方法，通过将LLM参数分解为正交的高奇异值LoRA专家（代表基本能力），并利用rank-1分量的球面聚类在训练中动态强制其正交性，以缓解参数共享导致的梯度冲突。实验在SuperNI基准上使用6个LLM进行，结果表明BADIT优于现有方法。

BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

Xin Gao et al.

cs.CL

本文提出了BioTool数据集，包含34个生物医学工具和7040个人工验证的查询-API调用对，用于微调大语言模型以增强其生物医学工具调用能力。实验表明，微调后的模型在工具调用性能上超越了GPT-5.1等商业模型，并显著提升了下游回答质量。

Estimating the Black-box LLM Uncertainty with Distribution-Aligned Adversarial Distillation

Huizi Cui et al.

cs.CL

本文提出了一种名为Distribution-Aligned Adversarial Distillation (DisAAD)的方法，通过生成-判别架构训练轻量级代理模型来学习黑盒LLM的输出分布，从而估计其不确定性。该方法解决了黑盒LLM不确定性量化中计算成本高且无法获取内部信息的问题。

Evaluation Awareness in Language Models Has Limited Effect on Behaviour

Amelie Knecht, Lucas Florin, Thilo Hagendorff

cs.CL cs.CY

本文研究了大型推理模型（LRMs）在思维链（CoT）中表达出的“评估意识”（VEA）是否会导致其行为策略性地改变。通过多种基准测试和实验设计，发现VEA对模型行为的影响非常有限，表明评估意识可能带来的安全风险小于当前文献的假设。

Beyond Steering Vector: Flow-based Activation Steering for Inference-Time Intervention

Zehao Jin et al.

cs.CL cs.LG

本文提出FLAS (Flow-based Activation Steering)方法，通过学习一个概念条件化的velocity field $v_t(h,t,c)$来替代传统固定、单步的activation steering假设，在AxBench上首次实现学习型方法在held-out任务中一致优于in-context prompting。该方法揭示了activation space中弯曲、多步、token变化的轨迹，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

Logic-Regularized Verifier Elicits Reasoning from LLMs

Xinyu Wang et al.

cs.CL cs.AI

本文提出LOVER，一种通过逻辑规则（negation consistency, intra-group consistency, inter-group consistency）正则化的无监督verifier，将verifier视为binary latent variable，利用LLM的内部激活和多个推理路径来提升推理能力。该方法无需监督数据，在10个数据集上达到与监督verifier相当的95%性能。

Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM

Wenqian Cui et al.

cs.CL cs.SD eess.AS

本文提出TextPro-SLM，通过WhisperPro统一语音编码器从输入侧缩小speech LLM与text LLM之间的modality gap，使语音输入更接近文本形式。实验表明该方法在3B和7B规模下均能有效降低模态差异，并在副语言理解任务上表现良好。

Lightweight Stylistic Consistency Profiling: Robust Detection of LLM-Generated Textual Content for Multimedia Moderation

Siyuan Li et al.

cs.CL

本文提出了一种轻量级的风格一致性分析方法LiSCP，用于检测LLM生成的文本内容，通过结合离散风格特征与连续语义信号来提升鲁棒性，在跨域和对抗场景下表现优于现有方法。

Hallucination as an Anomaly: Dynamic Intervention via Probabilistic Circuits

Erik Nielsen et al.

cs.CL cs.AI

本文提出PCNET，利用Probabilistic Circuit作为tractable density estimator在LLM的residual stream上检测hallucination，将其视为factual manifold上的几何异常，并通过精确的Negative Log-Likelihood计算实现无需采样的检测。该方法进一步结合PC-LDCD动态干预，仅在检测到异常时进行contrastive decoding，从而避免破坏原本正确的生成。实验表明该方法在多个benchmark上取得了优异的hallucination检测和纠正性能。

TableVista: Benchmarking Multimodal Table Reasoning under Visual and Structural Complexity

Zheyuan Yang et al.

cs.CL cs.CV

本文提出了TableVista基准，用于评估多模态表格推理能力，包含3,000个问题并扩展为30,000个多模态样本。实验发现当前模型在复杂结构布局和纯视觉设置下性能显著下降，揭示了多模态表格理解中的关键不足。

Tatarstan Toponyms: A Bilingual Dataset and Hybrid RAG System for Geospatial Question Answering

Mullosharaf K. Arabov

cs.CL

本文构建了一个鞑靼斯坦地名的双语数据集和基于混合检索的问答系统，通过结合稠密语义索引与地理空间过滤，在测试集上取得了高召回率。该工作主要面向多语言地理空间问答应用，与关键词列表中的概念关联较弱。

From Articles to Premises: Building PrimeFacts, an Extraction Methodology and Resource for Fact-Checking Evidence

Premtim Sahitaj et al.

cs.CL

本文提出PrimeFacts方法，利用large language models (LLMs)从事实核查文章中提取细粒度证据，将锚定句子重写为独立前提，并在证据检索和声明验证任务中取得性能提升。

PersonaKit (PK): A Plug-and-Play Platform for User Testing Diverse Roles in Full-Duplex Dialogue

Hyunbae Jeon, Jinho D. Choi

cs.CL cs.AI cs.HC

本文提出了PersonaKit (PK)，一个用于全双工对话系统中测试不同角色（如权威导师、不合作商人等）的开源低延迟web平台。该平台通过JSON配置定义角色和中断处理策略（如yield, hold, bridge, override），并自动部署A/B测试，为研究下一代语音代理中的复杂社会语言学行为提供了可扩展的端到端框架。

More Aligned, Less Diverse? Analyzing the Grammar and Lexicon of Two Generations of LLMs

Adrián Gude et al.

cs.CL

本文通过HPSG形式语法框架比较了两代LLM生成的英文新闻文本与人类作者文本，发现较新的LLM在句法和词汇多样性上有所降低，尤其是词汇多样性。研究指出指令微调可能限制了模型输出的表达范围。

Navigating by Old Maps: The Pitfalls of Static Mechanistic Localization in LLM Post-Training

Hang Chen et al.

cs.CL

本文研究了LLM后训练中“定位-更新”范式的局限性，通过引入Circuit Distance等指标揭示了Transformer circuits在微调过程中的动态演化，指出静态机制无法可靠指导未来参数更新。

Uncovering Entity Identity Confusion in Multimodal Knowledge Editing

Shu Wu et al.

cs.CL cs.CV

本文发现多模态知识编辑(MKE)后模型存在实体身份混淆(EIC)问题，即文本查询原始实体时错误返回新实体信息。通过构建EC-Bench基准测试，作者指出EIC源于现有方法无法区分图像-实体(I-E)绑定与实体-实体(E-E)关系知识，并提出约束编辑到I-E处理阶段可缓解该问题。

MemReranker: Reasoning-Aware Reranking for Agent Memory Retrieval

Chunyu Li et al.

cs.CL

本文提出MemReranker，一种基于Qwen3-Reranker并通过多阶段LLM知识蒸馏构建的重排序模型族（0.6B/4B），用于解决智能体记忆系统中语义匹配缺乏推理能力的问题。该模型通过多教师成对比较生成校准软标签、BCE逐点蒸馏和InfoNCE对比学习来提升排序质量，在记忆检索基准上优于BGE-Reranker，并与GPT-4o-mini等大模型性能相当。

IRC-Bench: Recognizing Entities from Contextual Cues in First-Person Reminiscences

Yehudit Aperstein, Eden Moran, Alexander Apartsin

cs.CL cs.AI

本文提出了IRC-Bench基准，用于评估从第一人称回忆叙述中识别隐含实体的任务。该基准包含25,136个样本，并测试了多种模型配置，其中QLoRA微调的Llama 3.1 8B在开放世界设置中表现最佳。

HNC: Leveraging Hard Negative Captions towards Models with Fine-Grained Visual-Linguistic Comprehension Capabilities

Esra Dönmez et al.

cs.CL cs.AI cs.CV

本文提出Hard Negative Captions (HNC)数据集，通过自动生成难负例（hard negative captions）来增强Image-Text-Matching (ITM)训练，以提升模型在细粒度跨模态理解任务中的表现。实验表明，该方法能改善模型在诊断任务中的零样本能力，并在噪声视觉输入下保持鲁棒性。

TIDE: Every Layer Knows the Token Beneath the Context

Ajay Jaiswal et al.

cs.CL cs.AI cs.LG

本文指出当前LLM仅在输入嵌入层使用一次token索引的设计存在罕见token训练不足和上下文坍塌问题，并提出TIDE方法，通过在每个层注入由EmbeddingMemory生成的语义向量来缓解这些问题。

UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification

Qihang Fan et al.

cs.CL

UniPrefill提出了一种通用的长上下文预填充加速框架，通过块级动态稀疏化在token级别直接加速模型计算，并支持连续批处理以集成到vLLM等推理引擎中。该方法主要针对现有稀疏注意力机制在混合架构（如线性/全注意力混合）中性能下降的问题，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词中的核心概念。

YEZE at SemEval-2026 Task 9: Detecting Multilingual, Multicultural and Multievent Online Polarization via Heterogeneous Ensembling

Fengze Guo, Yue Chang

cs.CL

本文提出了一个用于多语言、多文化、多事件在线极化检测的异构集成系统，结合了XLM-RoBERTa-large和mDeBERTa-v3-base等预训练模型，并探索了多任务学习、数据增强和类别加权等技术以应对标签不平衡问题。

Linear Semantic Segmentation for Low-Resource Spoken Dialects

Kirill Chirkunov et al.

cs.CL cs.AI

本文针对低资源口语方言（特别是阿拉伯语方言）的语义分割问题，构建了一个多体裁基准数据集，并提出了一种关注局部语义连贯性的分割模型，实验表明该模型在方言非新闻体裁上优于强基线方法。

Quantifying the Statistical Effect of Rubric Modifications on Human-Autorater Agreement

Jessica Huynh et al.

cs.CL

本文研究了评分标准修改对人类与自动评分器（LLM-as-judges）之间评分一致性的统计影响，发现提供示例和减少位置偏差可提高一致性，而增加复杂性和保守聚合方法则降低一致性。

Log-Likelihood, Simpson's Paradox, and the Detection of Machine-Generated Text

Tom Kempton et al.

cs.CL cs.AI cs.LG

本文揭示了检测机器生成文本时，由于在detector model的hidden space中非均匀地平均likelihood-based token scores会导致Simpson's paradox，从而破坏检测信号。为此，作者引入了一种基于Bayesian decision theory的局部校准步骤，通过学习score distributions在hidden space中的位置条件来聚合校准后的log-likelihood ratios，显著提升了检测性能。

MultiLinguahah : A New Unsupervised Multilingual Acoustic Laughter Segmentation Method

Callejas Sofia et al.

cs.CL

本文提出了一种无监督的多语言笑声分割方法，将任务建模为基于能量的音频序列异常检测，使用BYOL-A编码器学习表示并应用Isolation Forest。该方法在非英语场景下优于现有方法，但主要贡献在于工程应用而非理论创新。

Who and What? Using Linguistic Features and Annotator Characteristics to Analyze Annotation Variation

Maximilian Maurer, Maximilian Linde, Gabriella Lapesa

cs.CL cs.CY

本文研究了有害语言检测中标注者特征与文本语言属性之间的交互作用，通过统计分析发现交互效应比单一因素更重要，但不同数据集间的模式差异较大，限制了结论的泛化性。

Teaching Thinking Models to Reason with Tools: A Full-Pipeline Recipe for Tool-Integrated Reasoning

Qianjia Cheng et al.

cs.CL

本文提出了一种完整的工具集成推理（TIR）训练流程，用于增强思考模型使用外部工具的能力。该流程包括监督微调（SFT）和基于可验证奖励的强化学习（RLVR）阶段，并解决了工具使用可能导致的纯文本推理能力灾难性遗忘问题。

Measuring Evaluation-Context Divergence in Open-Weight LLMs: A Paired-Prompt Protocol with Pilot Evidence of Alignment-Pipeline-Specific Heterogeneity

Florian A. D. Burnat, Brittany I. Davidson

cs.CL cs.AI cs.LG

本文提出了一种配对提示协议（paired-prompt protocol）来测量开源LLM中由评估框架（evaluation framing）引发的行为差异（evaluation-context divergence），发现不同模型家族（如OLMo-3、Mistral、Llama）在评估与部署场景下的拒绝率（refusal）和有害顺从性（harmful compliance）上存在显著异质性，且该异质性依赖于所使用的安全分类器（safety classifier）。

MANTRA: Synthesizing SMT-Validated Compliance Benchmarks for Tool-Using LLM Agents

Ashwani Anand et al.

cs.CL cs.LG cs.LO

本文提出了MANTRA框架，用于从自然语言手册和工具模式中自动合成可机器检查的合规性基准，通过SMT求解验证一致性，以评估使用工具的LLM agent的可靠性。该方法解决了现有基准构建中可扩展性和可靠性不足的问题，但与我提供的关键词（如code, context, spectral, Muon, pretrain, attention）关联度较低。

Don't Lose Focus: Activation Steering via Key-Orthogonal Projections

Haoyan Luo, Mateo Espinosa Zarlenga, Mateja Jamnik

cs.CL

本文提出了一种名为SKOP的激活干预方法，通过将steering向量投影到与关键token正交的方向上，来减少对attention pattern的干扰。该方法在保持steering效果的同时，显著降低了推理和检索性能的下降。

SEQUOR: A Multi-Turn Benchmark for Realistic Constraint Following

Beatriz Canaverde et al.

cs.CL

SEQUOR是一个用于评估长多轮对话中指令遵循能力的自动benchmark，通过模拟基于真实对话约束的交互来测试模型。实验发现，随着对话轮次增加，模型遵循指令的准确率显著下降，尤其在多约束或约束动态变化时表现更差。

GATHER: Convergence-Centric Hyper-Entity Retrieval for Zero-Shot Cell-Type Annotation

Zhonghui Zhang et al.

cs.CL cs.IR

本文提出GATHER方法，用于零样本单细胞类型注释中的超实体检索。它通过全局多源图遍历识别拓扑收敛节点，在不依赖LLM的情况下提取高信息证据，在细胞知识图谱上优于现有KG-RAG基线方法。

MiA-Signature: Approximating Global Activation for Long-Context Understanding

Yuqing Li et al.

cs.CL

本文受认知科学中全局激活理论的启发，提出了Mindscape Activation Signature (MiA-Signature)概念，通过submodular selection从LLM的激活空间中提取高层概念的压缩表示，以近似全局激活对下游处理的影响。该方法在RAG和agent系统中均能提升长上下文理解任务的性能。

From 124 Million Tokens to 1,021 Neologisms: A Large-Scale Pipeline for Automatic Neologism Detection

Diego Rossini, Lonneke van der Plas

cs.CL

本文提出了一种可扩展的模块化pipeline，结合rule-based filtering与LLM分类，从5.27亿条Reddit帖子中自动检测新词，最终得到1,021个候选词并验证其中58.7%为真实词汇创新。该方法主要面向计算语言学中的新词检测任务，与关键词列表中的概念关联较弱。

COVID-19 Infodemic. Understanding content features in detecting fake news using a machine learning approach

Balakrishnan Vimala, Hii Lee Zing, Laporte Eric

cs.CL cs.AI cs.LG

本文使用传统机器学习方法（如Random Forest和SVM）研究了文本和语言特征（如word bigrams和词性分布）在COVID-19假新闻检测中的作用，发现单独使用这些特征能提升检测效果，但组合使用并未带来显著改进。

Towards Emotion Consistency Analysis of Large Language Models in Emotional Conversational Contexts

Sneha Oram, Ojaswita Bhushan, Pushpak Bhattacharyya

cs.CL

本文分析了大型语言模型在情感对话中生成文本的一致性，发现模型对包含错误预设的查询表现不佳，尤其在中等情感内容下更易受影响。注意力分数分析显示模型优先级从评估转向生成。

Litespark Inference on Consumer CPUs: Custom SIMD Kernels for Ternary Neural Networks

Nii Osae Osae Dade et al.

cs.CL cs.AI

本文针对ternary neural networks（权重限制在{-1, 0, +1}的神经网络）在CPU上的推理效率问题，提出了Litespark-Inference框架。该框架通过自定义SIMD kernels，将矩阵乘法替换为简单的整数加减运算，从而在Apple Silicon、Intel和AMD处理器上实现了相比标准PyTorch推理显著的加速和内存减少。

The Frequency Confound in Language-Model Surprisal and Metaphor Novelty

Omar Momen, Sina Zarrieß

cs.CL

本文研究了语言模型surprisal与隐喻新颖性之间的关系，发现词频比surprisal更能预测隐喻新颖性，且surprisal与新颖性的关联在训练早期达到峰值后下降，表明词频可能是主要影响因素。

Efficient Pre-Training with Token Superposition

Bowen Peng, Théo Gigant, Jeffrey Quesnelle

cs.CL

本文提出Token-Superposition Training (TST)方法，通过将多个连续token合并为一个bag并使用multi-hot cross-entropy目标进行预训练，再恢复为标准训练，从而在不修改模型架构或优化器的情况下提升数据吞吐量。实验表明该方法在270M至10B参数规模上能有效降低预训练时间。

Continuous Latent Diffusion Language Model

Hongcan Guo et al.

cs.CL cs.AI cs.CV

本文提出Cola DLM，一种层次化连续潜在扩散语言模型，通过Text VAE学习文本到潜在空间的稳定映射，并用块因果DiT在连续潜在空间中建模全局语义先验，从而将文本生成分解为全局语义组织与局部文本实现。该方法在多个基准上验证了其扩展行为，但未直接涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Automated Clinical Report Generation for Remote Cognitive Remediation: Comparing Knowledge-Engineered Templates and LLMs in Low-Resource Settings

Yongxin Zhou, Fabien Ringeval, François Portet

cs.CL

本文研究了在低资源环境下为远程认知康复治疗自动生成临床报告的方法，比较了基于规则的模板系统和基于GPT-4的零样本方法。结果表明，模板系统在临床可靠性和语言流畅性上更优，而GPT-4在简洁性上更好，但所有差异均未达到统计显著性。

UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

Yiqiao Jin et al.

cs.CL cs.AI cs.LG

本文提出了UniSD，一个用于大语言模型自蒸馏的统一框架，通过整合多教师一致性、EMA教师稳定化、token级对比学习等机制，系统研究了自蒸馏的有效性。实验表明该框架在多个基准上提升了模型性能，但未涉及code、spectral、Muon等关键词相关的内容。

Algospeak, Hiding in the Open: The Trade-off Between Legible Meaning and Detection Avoidance

Jan Fillies, Ronald E. Robertson, Jeffrey Hancock

cs.CL cs.CY

本文研究了Algospeak（一种通过语言变体规避内容检测的策略）中可理解性与检测规避之间的权衡，提出了Majority Understandable Modulation (MUM)概念，并基于COVID-19虚假信息构建了可复现的框架和数据集。实验通过多个language model评估了调制水平对意义恢复和检测分类的影响。

Parser agreement and disagreement in L2 Korean UD: Implications for human-in-the-loop annotation

Hakyung Sung, Gyu-Ho Shin

cs.CL

本文提出了一种简化的人机协同工作流，用于第二语言韩语形态句法标注，通过比较两个领域自适应parser的一致性来评估半自动标注的可行性。结果表明parser与人工判断高度一致，但parser分歧主要集中在语法关系区分和从句边界模糊等语言可预测领域。

Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents

Hailey Onweller et al.

cs.CL

本文提出了首个用于评估LLM深度研究代理中源引用质量的框架，通过AST解析器提取并评估Markdown报告中的内联引用，从链接可用性、内容相关性和事实准确性三个维度进行基准测试。实验发现即使最强模型的事实准确性也仅达39-77%，且随着检索规模扩大准确性显著下降，揭示了引用表面质量与事实可靠性之间的脱节。

Beyond Negative Rollouts: Positive-Only Policy Optimization with Implicit Negative Gradients

Mingwei Xu, Hao Fang

cs.CL

本文提出Positive-Only Policy Optimization (POPO)框架，通过仅使用在线positive rollouts进行强化学习，利用bounded importance sampling隐式生成negative gradients，避免了传统GRPO中negative rollouts的稀疏奖励问题。实验表明POPO在数学推理任务上性能优于GRPO，但该方法与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

cs.DS

A Separator for Minor-Free Graphs Beyond the Flow Barrier ⭐ 精选

Hung Le

cs.DS

本文针对$K_h$-minor-free图的balanced separator问题，提出了一种突破传统flow barrier的新方法。作者通过将low-diameter decomposition融入Alon, Seymour和Thomas的迭代框架，成功构造了大小为$O(h \sqrt{\log h} \sqrt{n})$的balanced separator，显著改进了此前基于flow-cut duality的$O(h\log h \sqrt{n})$界限。这一结果不仅匹配了Alon, Seymour和Thomas的猜想（$O(h\sqrt{n})$）与当前最佳结果之间的差距，还首次证明了flow barrier可以被突破，为最终解决该猜想提供了关键步骤。

Nearly Optimal Attention Coresets ⭐ 精选

Edo Liberty, Alexandr Andoni, Eldar Kleiner

cs.DS cs.AI

本文针对Attention机制在小空间中的估计问题，证明了近乎最优大小的coreset的存在性。具体地，对于任意单位范数的keys和values $(K,V)\in\mathbb{R}^d$，存在一个大小为$O({\sqrt{d} e^{\rho+o(\rho)}/\varepsilon})$的子集$(K',V')$，使得对所有范数不超过$\rho$的queries $q$，有$\left\| \operatorname{Attn}(q,K,V)- \operatorname{Attn}(q,K',V') \right\| \le \varepsilon$。该结果优于已知最优界，并给出了一个改进的下界$\Omega({\sqrt{d} e^{\rho}/\epsilon})$，在attention计算效率优化方面具有开创性。

Near-Tight Approximation Algorithms for Bottleneck Multiple Knapsack Problems

Lin Chen et al.

cs.DS

本文研究了瓶颈多背包问题，针对相同容量背包给出了$(\frac{2}{3} - \varepsilon)$-近似算法，针对任意容量背包给出了$(\frac{1}{2} - \varepsilon)$-近似算法，并证明了相应的不可近似性下界。

Algorithmic Phase Transition for Large Independent Sets in Dense Hypergraphs

Abhishek Dhawan et al.

cs.DS cs.CC cs.DM math.CO math.PR

本文研究了稠密随机超图中寻找大独立集的算法可处理性，针对均匀和r部超图模型，设计了在线算法并证明了其近似因子是最优的，同时给出了匹配的算法下界。

Discrete Optimal Transport: Rapid Convergence of Simulated Annealing Algorithms

Yuchen He et al.

cs.DS math.PR

本文为有限状态空间上的模拟退火算法建立了离散最优传输框架，通过定义广义离散Wasserstein-2距离和离散作用量，给出了KL散度的非渐近收敛保证。作为应用，分析了平均场Ising模型和Potts模型的收敛步数，主要贡献在于利用模型对称性将分析简化为低维投影链，从而得到离散作用量的多项式上界。

Label Correcting Algorithms for the Multiobjective Temporal Shortest Path Problem

Edina Marica, Clemens Thielen, Alina Wittmann

cs.DS math.OC

本文研究了无单调性和/或等调性假设下的多目标时间最短路径问题，提出了标签修正算法，并讨论了在施加最大路径长度限制时算法的有效性条件。

The Pareto Frontier of Randomized Learning-Augmented Online Bidding

Mathis Degryse et al.

cs.DS

本文研究了在线竞拍问题的随机学习增强变体，通过引入竞拍函数（bidding function）这一抽象概念，在鲁棒性$R \geq 2.885$时给出了最优一致性$C$的紧界，并实验验证了其在增量中位数问题中的应用。

Bilateral Treewidth for QBF: Where Strategies and Resolution Meet

Robert Ganian, Marlene Gründel

cs.DS cs.CC

本文提出了一种名为bilateral treewidth的新参数，通过结合策略分支和Q-resolution技术，证明了QBF在固定参数下可解，但该方法依赖于输入中提供的合适树分解。

Designing Capacitated Subnetworks for Shortest Path Routing

Markus Chimani, Max Ilsen

cs.DS cs.NI

本文针对低流量时通过关闭部分连接来节能的网络设计问题，提出了一种精确求解最短路径路由下联合网络设计与路由问题的整数线性规划方法，并设计了专门的column generation算法。实验表明，简单的先固定路由再关闭多余连接的方法在实践中接近最优解。

On the Parameterized Approximability of (Mergeable) Sum of Radii Clustering

Ameet Gadekar

cs.DS

本文研究了$k$-MSR问题的参数化近似复杂性，证明了其$W[2]$-hardness并排除了EPAS的存在，同时给出了一个改进的FPT $(\frac{8}{3}+\epsilon)$-近似算法。该工作主要关注聚类问题的参数化复杂性，与关键词中的概念关联较弱。

Fast decremental tree sums in forests

Benjamin Aram Berendsohn, Marek Sokołowski

cs.DS

本文研究了森林中两种基础的递减动态图问题，即树和查询与子树和查询。作者基于微宏树分解技术，为树和查询问题设计了一种预处理时间为$O(n)$、每次操作时间为$O(\log^* n)$的数据结构，并给出了一个渐近普遍最优的算法。

others

Maximizing Rollout Informativeness under a Fixed Budget: A Submodular View of Tree Search for Tool-Use Agentic Reinforcement Learning ⭐ 精选

Yuelin Hu et al.

stat.ML cs.AI cs.LG

本文针对工具使用agent的强化学习场景，形式化了固定预算下的Rollout信息量（RIFB）问题，证明任何与预算无关的独立采样器在困难提示下都会出现非零的崩溃率。作者将中间状态选择重新表述为单调submodular最大化问题，并推导出不确定性感知的上置信界（UUCB）作为该目标的闭式边际增益，从而将token级熵奖励从经验技巧转化为分析结论。提出的InfoTree框架通过UUCB与自适应预算分配器（ABA）及异步推测扩展机制，在数学推理、web搜索和工具丰富的编码/操作系统agent等九个基准上显著优于现有方法，且超参数鲁棒性良好。该工作为agent强化学习中的树搜索提供了理论驱动的子模优化视角，与关键词“agent”高度契合。

Convexity in Disguise: A Theoretical Framework for Nonconvex Low-Rank Matrix Estimation ⭐ 精选

Chengyu Cui, Gongjun Xu

stat.ML cs.IT cs.LG math.OC

本文提出了一种名为“benign regularizer”的理论框架，用于解释非凸低秩矩阵估计方法为何在实践中表现良好。该框架的核心在于，通过引入一个不改变原始更新规则的“良性正则化项”，可以将非凸优化过程等价地转化为一个局部强凸的优化问题，从而揭示了非凸过程中隐藏的凸性。这一发现为分析非凸低秩矩阵估计提供了统一的理论路径，避免了以往依赖特定模型和额外正则化的繁琐论证，具有开创性意义。

EGA: Adapting Frozen Encoders for Vector Search with Bounded Out-of-Distribution Degradation ⭐ 精选

Dongfang Zhao

cs.CV cs.AI cs.LG

本文提出Euclidean Geodesic Alignment (EGA)，一种针对frozen vision encoder的残差适配器，用于解决向量检索中out-of-distribution (OOD)查询导致的类别错分问题。EGA通过零初始化、local triplet loss和hypersphere projection三个原则，实现了自限性动态：当triplet满足小margin时梯度自动消失，从而在保持seen class高精度精调的同时，几乎不扰动unseen class区域的几何结构。实验表明，EGA在多个OOD基准上取得了最高的最坏情况Label Precision，并提供了梯度稀疏性与有界OOD扰动之间的理论分析。该方法与关键词中的“code”和“context”有一定关联，因其涉及向量检索中的编码器适配与分布外场景的上下文处理。

Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving ⭐ 精选

Bole Ma, Jan Eitzinger, Harald Köstler

cs.DC cs.AI cs.LG

Irminsul提出了一种针对Multi-Head Latent Attention (MLA)架构的、与位置无关的缓存系统，用于解决agentic LLM服务中因token位置偏移导致前缀缓存失效的问题。该方法利用MLA将每个KV行分解为位置无关的$c_{KV}$和可校正的$k_r$这一结构特性，通过基于内容哈希的寻址（content-hash keying）和$\delta$-rotation规则来校正$k_r$，从而实现了对重复内容的缓存命中，而非依赖精确的前缀匹配。实验表明，该方法在DeepSeek-V2-Lite等模型上能恢复高达约83%的prompt tokens，并节省63%的prefill能耗，为agent场景下的LLM服务提供了高效的缓存方案。

Transformers Provably Implement In-Context Reinforcement Learning with Policy Improvement ⭐ 精选

Haodong Liang, Lifeng Lai

stat.ML cs.AI cs.LG

本文证明了线性self-attention transformer block可以通过显式参数构造实现策略改进方法（包括semi-gradient SARSA和actor-critic），从而在in-context reinforcement learning (ICRL)中执行学习算法。作者设计了teacher-mimicking训练过程，分析了其gradient-flow动力学，并首次在ICRL文献中建立了收敛保证：在训练MDP分布满足适当丰富性条件下，gradient flow局部指数收敛到对应最优RL更新的参数流形。实验表明，在随机生成的tabular MDP上训练的transformer能够恢复显式构造的参数结构，并在未见过的MDP上展现出强大的in-context控制性能。该工作与关键词中的agent和attention高度契合，揭示了transformer架构如何内化并执行经典强化学习算法。

LoopTrap: Termination Poisoning Attacks on LLM Agents ⭐ 精选

Huiyu Xu et al.

cs.CR cs.AI

本文提出了一种针对LLM agent的新型攻击方法LoopTrap，通过向agent的context中注入恶意prompt来扭曲其终止判断，使其陷入无限执行循环。该方法首次系统性地将此类威胁定义为Termination Poisoning，并设计了10种代表性攻击策略。LoopTrap通过构建目标agent的行为profile并自适应合成恶意prompt，实现了平均3.57倍的步骤放大效果，为agent安全领域提供了开创性的红队测试框架。

PragLocker: Protecting Agent Intellectual Property in Untrusted Deployments via Non-Portable Prompts ⭐ 精选

Qinfeng Li et al.

cs.CR cs.AI

本文提出PragLocker，一种针对LLM agent prompts的知识产权保护方案。该方法通过将语义锚定到code symbols（代码符号）并利用目标模型反馈注入噪声，构造出功能保持但非便携的混淆prompts，使得这些prompts仅能在目标LLM上有效工作，从而解决agent prompts在不可信部署中被复制和重用的关键问题。实验表明，PragLocker显著降低了跨LLM的可移植性，同时保持了目标性能，并对自适应攻击具有鲁棒性。

Teaching LLMs Program Semantics via Symbolic Execution Traces ⭐ 精选

Jonas Bayer et al.

cs.SE cs.LG cs.PL

本文提出了一种利用symbolic execution traces（符号执行轨迹）来增强LLM对程序语义理解的方法。针对LLM在程序违规检测（violation detection）上表现不佳的问题，作者通过在通用C代码上运行Soteria符号执行引擎生成traces，并对Qwen3-8B进行continued pretraining（持续预训练）。实验表明，仅约3000条bug traces与chain-of-thought（思维链）推理结合，即可将违规检测准确率提升超过17个百分点，且这种提升具有超加性（superadditive），即单独使用traces或chain-of-thought均无显著效果。该工作为利用形式化验证数据提升代码理解模型的鲁棒性提供了新思路，与关键词中的code和pretrain高度契合。

Taming the Entropy Cliff: Variable Codebook Size Quantization for Autoregressive Visual Generation ⭐ 精选

Bowen Zheng et al.

cs.CV cs.AI cs.LG

本文提出了一种名为Variable Codebook Size Quantization (VCQ)的方法，用于解决自回归视觉生成中“熵悬崖”问题。作者发现，在图像序列中，每个位置的conditional entropy（条件熵）沿序列迅速衰减，导致固定大小的codebook（码本）在大部分位置上浪费容量。VCQ通过让codebook size $K_t$沿序列从$K_{\min}=2$单调增长到$K_{\max}$，在不改变损失函数或训练过程的情况下，显著提升了生成质量（gFID从27.98降至14.80）。该方法与关键词“code”高度契合，因为它直接优化了codebook的容量分配策略，并自然诱导出coarse-to-fine的语义层次结构。

FunctionalAgent: Towards end-to-end on-top functional design ⭐ 精选

Yuhao Chen, Donald G. Truhlar, Xiao He

physics.chem-ph cs.AI

本文提出了FunctionalAgent，一个用于多组态对密度泛函理论(MC-PDFT)中on-top functional全自动开发的agent系统。该系统通过编排多个专业子agent，将功能开发流程分解为数据集构建、活性空间生成、MCSCF计算、描述符生成、损失函数构建以及功能拟合与评估等步骤，形成闭环自动化工作流。利用FunctionalAgent，作者开发了混合meta-GGA型on-top functional MC26，并进一步提出了新功能形式COF26，在训练集和测试集上均取得了最优性能。该方法在agent驱动的自动化科学发现方面具有开创性，且与关键词"agent"高度契合。

Improving the Efficiency of Language Agent Teams with Adaptive Task Graphs ⭐ 精选

Elizabeth Mieczkowski et al.

cs.MA cs.AI cs.CL

本文提出LATTE (Language Agent Teams for Task Evolution)框架，用于协调多个LLM agent组成的团队。该框架受分布式系统启发，让agent团队协作构建并维护一个共享的、自适应的task graph，该graph编码子任务依赖关系、agent分配及进度状态，从而在保持一致性的同时实现动态任务分配与协调。实验表明，LATTE在多个协作任务上相比MetaGPT、去中心化团队、Leader-Worker层级等基线方法，能显著降低token消耗、通信开销和协调失败（如文件冲突），同时匹配或超越其准确性，为agent团队协作的效率问题提供了有效解决方案。

FREPix: Frequency-Heterogeneous Flow Matching for Pixel-Space Image Generation ⭐ 精选

Mingfeng Lin et al.

cs.CV cs.LG

FREPix提出了一种频率异质（frequency-heterogeneous）的flow matching框架，用于像素空间（pixel-space）图像生成。该方法将生成过程显式分解为低频和高频分量，并为它们分配独立的传输路径（transport paths），通过因子化网络（factorized network）和频率感知（frequency-aware）目标进行训练，从而将粗到细（coarse-to-fine）生成作为显式设计原则。在ImageNet类别到图像生成任务上，FREPix在$256\times256$和$512\times512$分辨率下分别达到1.91和2.38的FID，且在低NFE（Neural Function Evaluation）场景下表现尤为突出。该工作与关键词中的“spectral”较为契合，因其核心思想涉及对图像频率成分的显式建模与分解。

Patch2Vuln: Agentic Reconstruction of Vulnerabilities from Linux Distribution Binary Patches ⭐ 精选

Isaac David, Arthur Gervais

cs.CR cs.AI

Patch2Vuln提出了一种基于language-model agent的pipeline，用于从Linux发行版的二进制补丁中重建安全漏洞信息。该方法通过提取新旧ELF文件、使用Ghidra和Ghidriff进行diff、排序变更函数并构建候选档案，最终让离线agent生成初步审计和验证计划。在25个Ubuntu软件包对的评估中，该agent成功定位了10/20个安全补丁中的关键函数，并正确分类了11/20的根因，展示了agent在二进制补丁漏洞重建中的潜力，同时揭示了binary-diff覆盖率和局部行为验证仍是主要瓶颈。

A Review of Large Language Models for Stock Price Forecasting from a Hedge-Fund Perspective

Olivia Zhang, Zhilin Zhang

q-fin.PR cs.AI cs.LG q-fin.ST

本文从对冲基金视角综述了大型语言模型在股票价格预测中的应用，包括情感提取、财报分析、价格序列符号化及多智能体交易系统，并讨论了数据泄露、流动性溢价等实际陷阱。

MPNet: A Robust and Efficient Manifold Pooling Network for Multi-Rhythm EEG Signal Decoding

Guoqing Cai et al.

eess.SP cs.HC cs.LG

本文提出了一种用于多节律EEG信号解码的流形池化网络MPNet，通过节奏自适应卷积前端和流形节点池化层来降低高维Riemannian输入的计算成本。实验表明该方法在精度和速度上优于现有模型，但未涉及关键词中的核心概念。

MedMamba: Recasting Mamba for Medical Time Series Classification

ZhengXiao He et al.

eess.SP cs.AI cs.LG

本文提出MedMamba，一种基于state space model的多尺度双向架构，用于医疗时间序列分类。它通过channel-mixing模块和bidirectional Mamba blocks，以线性复杂度建模长程依赖，在多个基准上取得优于Transformer的效果。

Layout-Aware Representation Learning for Open-Set ID Fraud Discovery

Jinxing Li et al.

cs.CV cs.AI cs.LG

本文针对身份文档欺诈检测问题，提出了一种布局感知的表示学习方法，通过将DINOv3适应到文档领域，结合上下文感知的SimMIM微调和监督度量学习，实现了对开放集欺诈案例的发现，并在加拿大ID数据集上验证了其有效性。

Topology-Driven Anti-Entanglement Control for Soft Robots

Haoyang Le et al.

cs.RO cs.AI

本文提出了一种拓扑驱动的多智能体强化学习框架(TD-MARL)，用于协调软体机器人在高密度障碍环境中的防缠绕控制，通过集中式critic网络和拓扑安全层来提升训练稳定性与防缠绕效果。

PPO-Based Dynamic Positioning of HAPS-BS in Wind-Disturbed Stratospheric Maritime Networks

Azim Akhtarshenas et al.

eess.SP cs.AI

本文提出了一种基于Proximal Policy Optimization (PPO)的深度强化学习框架，用于在风干扰下动态定位高空平台基站(HAPS-BS)，以提升海事网络的覆盖稳定性与系统吞吐量。该方法通过集中式DRL agent控制多个HAPS，利用无线测量和网络反馈来学习鲁棒的定位策略。

DexSim2Real: Foundation Model-Guided Sim-to-Real Transfer for Generalizable Dexterous Manipulation

Zijian Zeng et al.

cs.RO cs.LG

本文提出DexSim2Real框架，利用vision-language foundation model指导sim-to-real迁移，通过视觉反馈优化domain randomization参数，并设计cross-attention visuo-tactile policy和progressive skill curriculum，在灵巧操作任务中取得较高成功率。该方法主要关注机器人操作领域，与关键词中的spectral、Muon、pretrain等概念无直接关联。

Memory-Efficient EDA Denoising via Knowledge Distillation for Wearable IoT Under Severe Motion Artifacts and Underwater Conditions

Yongbin Lee et al.

eess.SP cs.AI

本文提出了一种基于知识蒸馏的轻量级EDA信号去噪框架，通过CNN-Transformer教师模型与深度可分离CNN学生模型的结合，在显著降低模型大小和计算成本的同时保持了去噪性能，并在水下等恶劣环境下验证了其有效性。该方法主要关注信号处理与可穿戴设备应用，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Governed Metaprogramming for Intelligent Systems: Reclassifying Eval as a Governed Effec

Alan L. McCann

cs.PL cs.AI

本文提出了一种名为governed metaprogramming的语言设计方法，将程序从表示到执行的转换（materialization）视为一种受管控的effect，而非无限制的eval原语。该方法通过结构检查来管控执行权限，并形式化了纯form evaluation与受管控的materialization两种判断。

Identifier-Free Code Embedding Models for Scalable Search

Eric Wolos, Michael Doyle

cs.CR cs.LG cs.SE

本文形式化了逆向工程中source code与decompiled code之间的function association问题，并通过contrastive learning微调Qwen3-Embedding模型来提升双向关联性能。实验表明该模型在多个baseline上显著优于其他方法，并展现出对未见任务的泛化能力。

Automated Population-Level Audit Assurance via AI-Based Document Intelligence

Santosh Vasudevan, Velu Natarajan

cs.SE cs.AI

本文提出了一种基于AI文档智能的自动化审计框架，利用Snowflake Document AI从非结构化PDF中提取数据并与权威数据集进行核对，以实现大规模交易测试。该框架支持全量审计而非抽样，提升了审计覆盖率和持续保证能力。

Enhancing Cryo-EM Density Map Segmentation in Phenix for Improved Atomic Model Building

Chenwei Zhang

q-bio.BM cond-mat.mtrl-sci cs.AI q-bio.QM

本文介绍了PhenixCraft，一个用于从cryo-EM密度图构建原子模型的自动化流程，通过整合AlphaFold预测改进了Phenix中的图分割步骤，以应对噪声和伪影的挑战。实验表明其在TM-score和序列准确性上优于传统方法。

Differential Privacy in the Extensive-Form Bandit Problem

Stephen Pasteris, Rahul Savani, Theodore Turocy

cs.CR cs.LG

本文研究了extensive-form bandit问题中的局部差分隐私，提出了一种满足$\epsilon$-局部差分隐私的算法，并给出了$\tilde{O}(\sqrt{A\ln(S)T}/\epsilon)$的regret上界。这是首次将差分隐私引入该问题领域。

Bridging Generation and Training: A Systematic Review of Quality Issues in LLMs for Code

Kaifeng He et al.

cs.SE cs.AI

本文系统综述了114篇关于LLM代码生成中质量问题的研究，建立了训练数据质量与生成代码质量之间因果映射的分类框架，并总结了从被动过滤转向主动数据治理的方法论转变。

Forecasting Oncology Demand Trends with Boosting-Based Bayesian Conjugate Models

Ademir Batista dos Santos Neto, Tiago Alessandro Espinola Ferreira, Paulo Renato Alves Firmino

stat.ML cs.LG stat.AP

本文提出了一种基于Boosting的Bayesian共轭模型，用于预测肿瘤学需求趋势，将每周预约量建模为Poisson过程，并采用Gamma先验。该方法通过残差驱动的Boosting机制增强适应性，在真实数据上优于线性回归、ARIMA、LSTM等基线方法。

Shattering the Echo Chamber: Hidden Safeguards in Manuscripts Against the AI Takeover of Peer Review

Oubo Ma et al.

cs.CR cs.AI

本文提出了一种名为IntraGuard的防御框架，通过在PDF中嵌入隐藏指令来干扰AI生成的同行评审，以应对审稿人完全外包评审的威胁。该方法利用PDF的结构-视觉解耦特性，在不改变视觉呈现的前提下嵌入防御文本，在多个商业聊天机器人设置中实现了高达84%的防御成功率。

Beyond BLEU: A Semantic Evaluation Method for Code Translation

Julius Näumann et al.

cs.PL cs.CL

本文提出了一种针对代码翻译任务的语义评估方法，通过编译器测试技术衡量翻译结果的语义等价性，并发现BLEU等语法指标与语义正确性相关性极低。该方法主要应用于评估LLM在二进制提升（decompiling）任务中的表现。

Direct From Darwin: Deriving Advanced Optimizers From Evolutionary First Principles

Daniel Grimmer

cs.NE cs.LG q-bio.PE q-bio.QM

本文从进化第一原理出发，推导了一系列基于梯度的优化算法，并引入Darwinian Lineage Simulations (DLS)来统一Fisher和Wright的进化观点。通过添加DLS噪声，证明了Stochastic Gradient Descent、Natural Gradient Descent等算法与进化动力学兼容，但方法本身与关键词中的code、context、spectral等概念关联较弱。

Securing the Agent: Vendor-Neutral, Multitenant Enterprise Retrieval and Tool Use

Francisco Javier Arceo, Varsha Prasad Narsing

cs.CR cs.AI cs.IR cs.SE

本文针对企业级RAG和agentic AI系统中的多租户数据隔离问题，提出了一种结合策略感知摄取、检索时门控和共享推理的分层隔离架构，并通过开源框架OGX实现了该方案。

ViTok-v2: Scaling Native Resolution Auto-Encoders to 5 Billion Parameters

Philippe Hansen-Estruch et al.

cs.CV cs.AI cs.LG

本文提出了ViTok-v2，一种扩展至50亿参数的Vision Transformer (ViT) autoencoder，通过NaFlex支持原生分辨率，并引入DINOv3 perceptual loss替代LPIPS和GAN目标以实现稳定训练。实验表明，该模型在256p分辨率下匹配或超越现有重建方法，并在更高分辨率下表现更优。

How Far Are VLMs from Privacy Awareness in the Physical World? An Empirical Study

Junran Wang et al.

cs.CR cs.AI

本文提出了ImmersedPrivacy框架，用于评估Vision-Language Models (VLMs)在物理世界中的隐私意识，发现当前模型在杂乱场景、社会情境变化和冲突指令下存在显著缺陷。

Open-SAT: LLM-Guided Query Embedding Refinement for Open-Vocabulary Object Retrieval in Satellite Imagery

Md Adnan Arefeen et al.

cs.CV cs.AI cs.IR

本文提出Open-SAT，一种无需训练的query embedding refinement算法，利用LLM在推理时优化用户query与卫星图像的alignment，以提升open-vocabulary object retrieval性能。该方法通过VLM计算图像tile embedding并存储于vector database，在检索时用LLM引入上下文信息来refine text embedding，实验显示F1 score提升最高达16.04%。

Making AI Drafts Count: A Quality Threshold in Audio Description Workflows

Lana Do et al.

cs.HC cs.AI

本文研究了AI生成的音频描述草稿质量对人工编辑过程的影响，通过GenAD和RefineAD工具发现，高质量草稿能显著减少完成时间和认知负荷，而低质量草稿效果有限，提出了一个基于内容复杂性的质量阈值设计原则。

Tamaththul3D: High-Fidelity 3D Saudi Sign Language Avatars from Monocular Video

Eyad Alghamdi et al.

cs.CV cs.AI

本文为沙特手语数据集Ishara-500提供了首个高质量的3D参数化标注（SMPL-X参数），并提出了一个专门针对阿拉伯手语独特表达模式的重建流程Tamaththul3D，通过整合多种姿态估计与手部细化方法实现了高保真度的虚拟人生成。该工作主要服务于手语领域的应用，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Towards an Inferentialist Account of Information Through Proof-theoretic Semantics

Matthew Collins, Timo Eckhardt, David Pym

math.LO cs.AI

本文尝试通过proof-theoretic semantics为信息建立一种inferentialist语义理论，用inferon作为信息的基本单元，并探讨了信息作为correlation的理解。该工作主要属于哲学逻辑与信息理论的交叉领域，与关键词中的具体概念关联较弱。

Two Steps Are All You Need: Efficient 3D Point Cloud Anomaly Detection with Consistency Models

Pranav A et al.

cs.CV cs.AI

本文提出了一种基于consistency models的3D点云异常检测方法，通过将重建任务转化为一致性学习，仅需一到两次网络评估即可直接预测无异常几何结构，并引入混合损失函数以强制重建结果接近干净数据。该方法在Anomaly-ShapeNet和Real3DAD数据集上取得了有竞争力的检测性能，同时推理速度比现有最优方法快80倍，适用于资源受限的边缘设备。

Meta-learning for sample-efficient Bayesian optimisation of fed-batch processes

Becky Langdon et al.

math.OC cs.LG

本文提出使用System-Aware Neural ODE Processes (SANODEP)作为meta-learning模型，以替代Bayesian Optimisation中的Gaussian Processes，用于优化fed-batch过程。实验表明，在低数据场景下，该方法能提升优化性能并具备泛化能力。

Mise en Place for Agentic Coding: Deliberate Preparation as Context Engineering Methodology

Andrew Zigler

cs.SE cs.AI cs.HC

本文借鉴烹饪中的"mise en place"概念，提出了一种AI编码代理的三阶段准备方法论（上下文基础、协作规范、任务分解），旨在通过结构化上下文工程解决"vibe coding"中因缺乏上下文导致的代码调试问题。该方法在黑客马拉松中通过两小时准备实现了全栈教育平台的并行开发，并引入了"上下文流畅度"作为新兴开发者技能的概念。

Creative Robot Tool Use by Counterfactual Reasoning

M. Tuluhan Akbulut et al.

cs.RO cs.AI

本文提出了一种基于因果推理的机器人工具使用框架，通过动力学模型中的模拟实验发现工具与任务间的因果关系，并结合VLM特征建议和反事实工具生成来识别合适工具。该方法在多个物理任务中验证了工具选择与技能迁移的有效性，但未涉及代码、上下文、谱方法等关键词相关技术。

Direct Estimation of Schrödinger Bridge Time-Series Drifts: Finite-Sample, Asymptotic, and Adaptive Guarantees

Othmane Mazhar, Huyên Pham

math.ST cs.LG stat.ML

本文研究了Schrödinger bridge时间序列漂移的非参数估计，提出了一种基于Nadaraya-Watson核估计的直接plug-in方法，并给出了有限样本非渐近界、点态CLT以及自适应带宽选择器的oracle不等式。该方法在漂移层面直接工作，分离了统计误差与优化、逼近和离散化误差。

Estimating Implicit Regularization in Deep Learning

Joseph H. Rudoler et al.

stat.ML cs.LG

本文提出了一种基于梯度匹配的实证方法，用于估计深度学习中的隐式正则化，该方法能够恢复已知的显式惩罚项（如$\ell_1$和$\ell_2$）并复现隐式效应，但未直接涉及关键词中的特定概念。

Privacy Without Losing Place: A Paradigm for Private Retrieval in Spatial RAGs

Kennedy Edemacu et al.

cs.CR cs.LG

本文提出PAS机制，通过相对锚点编码（anchor, direction bin, distance bin）替代直接扰动用户位置，在空间RAG系统中实现位置隐私保护。实验表明该方法在合成城市数据集上能达到约370-400m的对抗定位误差，同时保留超过一半的检索性能，且下游生成质量相对稳健。

The Pedagogy of AI Mistakes: Fostering Higher-Order Thinking

Hadi Hosseini

cs.CY cs.AI

本文探讨了在高等教育中利用生成式AI的错误和幻觉来促进学生高阶思维的教学方法，通过将AI作为“学习伙伴”并设计结构化互动，旨在提升学生的批判性思维和AI素养。该研究主要关注教育实践而非数学理论创新，与关键词列表中的概念关联较弱。

A renormalization-group inspired lattice-based framework for piecewise generalized linear models

Joshua C. Chang

stat.ME cond-mat.stat-mech cs.LG math.ST

本文提出了一类受renormalization group理论启发的piecewise generalized linear models框架，通过显式的lattice partition结构实现可解释的回归参数建模。该工作主要贡献在于将统计物理中的replica analysis用于分析WAIC泛化性能，并给出了lattice设计和正则化先验的实用指导。

When Semantic Communication Meets Queueing: Cross-Layer Latency and Task Fidelity Optimization

Yalin E. Sagduyu, Tugba Erpek

cs.IT cs.AI cs.LG cs.NI eess.SP

本文研究了语义通信中的跨层延迟与任务保真度优化问题，通过多任务语义自编码器在块瑞利衰落信道上进行图像传输，分析了潜在维度作为跨层控制变量对延迟和任务保真度的影响，并提出了在线语义率控制器以在长期语义误差约束下优化延迟和Age of Information (AoI)。

Permutation-preserving Functions and Neural Vecchia Covariance Kernels

Jian Cao, Nian Liu, Ying Lin

stat.ML cs.LG stat.CO

本文提出了一种基于Vecchia近似和深度神经网络的框架，用于构建可扩展且灵活的Gaussian Process协方差核。通过利用排列等变结构设计神经网络，该方法在保持计算可扩展性的同时实现了非平稳核学习。

Anatomy of a Query: W5H Dimensions and FAR Patterns for Text-to-SQL Evaluation

Vicki Stover Hertzberg, Eduardo Valverde, Joyce C. Ho

cs.DB cs.CL

本文提出了QUEST框架，包含FAR结构不变性和W5H维度框架，用于分析Text-to-SQL查询的语义结构。通过在多个数据集上的验证，发现不同领域的查询在W5H维度上存在显著差异，但FAR结构具有普适性。

Discrete Elastic Ribbons: A Unified Discrete Differential Geometry Framework for One-Dimensional Energy Models

Shivam Kumar Panda, M Khalid Jawed

cs.CE cs.GR cs.LG

本文基于discrete differential geometry构建了一个统一的框架，将弹性ribbon的能量表示为沿中心线的coupled bending-twisting strain measures的函数，并推导了梯度和Hessian矩阵以实现隐式时间积分。在该框架下，文章比较了五种ribbon模型，并以shell-based有限元模拟为基准，发现Sano模型在捕捉宽度依赖的bifurcation阈值方面最为准确。

Relaxed Sparsest-Permutation Formulation for Causal Discovery at Scale

Sunmin Oh, Sang-Yun Oh, Gunwoong Park

stat.ML cs.LG

本文提出了一种基于稀疏Cholesky分解的因果结构学习方法SCOPE，通过松弛的稀疏排列公式来加速线性结构方程模型中的因果发现，实验表明该方法在保持马尔可夫等价类恢复精度的同时，可扩展到一万个变量。

Stability of the Monge Map in Semi-Dual Optimal Transport

Anton Selitskiy, David Millard

math.OC cs.LG

本文研究了半对偶最优传输中Monge映射的稳定性，指出其具有退化的鞍点结构，并推导了Monge映射收敛的充要条件，解释了数值算法中需要更多迭代更新传输映射的原因。

AstroAlertBench: Evaluating the Accuracy, Reasoning, and Honesty of Multimodal LLMs in Astronomical Classification

Claire Chen et al.

astro-ph.IM cs.AI

本文提出了AstroAlertBench，一个用于评估多模态大语言模型在天文事件分类中准确性、推理能力和诚实度的基准测试，基于ZTF巡天的1500个真实警报数据。实验发现高准确率与模型自我评估能力（诚实度）并不总是一致，并初步建立了人机协作评估协议。

A Scalable Digital Twin Framework for Energy Optimization in Data Centers

Raphael Hendrigo de Souza Gonçalves, Wendel Marcos dos Santos

cs.DC cs.LG

本文提出了一种用于数据中心能耗优化的可扩展数字孪生框架，集成了IoT数据采集、云计算和LSTM模型进行实时监控与能耗预测。实验在小型数据中心环境中验证了其在降低功耗和改善PUE方面的有效性。

In-Context Positive-Unlabeled Learning

Siyan Liu et al.

stat.ML cs.LG stat.CO

本文提出PUICL，一个基于pretrained transformer的模型，通过in-context learning解决positive-unlabeled (PU)分类问题。模型在合成数据上pretrain，无需梯度更新即可直接对未标注样本输出类别概率，在多个基准上优于传统PU方法。

Variational Smoothing and Inference for SDEs from Sparse Data with Dynamic Neural Flows

Yu Wang, Arnab Ganguly

stat.ML cs.LG math.PR

本文提出了一种基于条件backward-in-time score的变分平滑方法，用于从稀疏观测数据中推断SDE的潜在轨迹和参数。该方法通过神经网络学习Kolmogorov backward equation的解，并结合观测时刻的跳跃条件，从而构建后验SDE以实现高效采样。

X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

Rixi Xu et al.

cs.SD cs.AI eess.AS

本文提出了X-Voice，一个0.4B参数的多语言zero-shot voice cloning模型，通过两阶段训练和IPA统一表示，在420K小时多语言语料上训练，实现了30种语言的语音克隆。该方法在架构上扩展了F5-TTS，通过dual-level language identifier注入和Classifier-Free Guidance的解耦调度来促进多语言合成。

RAM-H1200: A Unified Evaluation and Dataset on Hand Radiographs for Rheumatoid Arthritis

Songxiao Yang et al.

cs.CV cs.LG

本文提出了RAM-H1200数据集，包含1,200张手部X光片及多层级标注，用于类风湿性关节炎的综合评估。该数据集首次支持全手骨结构实例分割、像素级骨侵蚀掩膜和临床SvdH评分，但骨侵蚀分割仍是开放挑战。

Quantum Kernels for Parity-Structured Classification: A Hybrid Pipeline

Tushar Pandey

quant-ph cs.LG

本文研究量子kernel在parity（XOR）分类任务中的优势，通过ZZ量子特征映射与二进制编码结合，发现当parity复杂度较高时（如11个特征），量子kernel相比经典方法（如RBF SVM）有显著性能提升，但方法本身并非开创性，且与关键词关联较弱。

Leveraging Image Generators to Address Training Data Scarcity: The Gen4Regen Dataset for Forest Regeneration Mapping

Gabriel Jeanson et al.

cs.CV cs.AI cs.LG cs.RO

本文利用Nano Banana Pro视觉语言模型生成合成图像及像素级语义掩码，构建了Gen4Regen数据集，以解决森林再生区域细粒度物种语义分割中训练数据稀缺和类别不平衡问题。实验表明，将AI生成数据与真实数据联合训练可使F1分数提升超过15个百分点，尤其对少数类物种的识别性能提升显著。

Spherical Flows for Sampling Categorical Data

Jannis Chemseddine, Gregor Kornhardt, Gabriele Steidl

stat.ML cs.CL cs.LG

本文在球面$\mathbb S^{d-1}$上利用von Mises-Fisher (vMF)分布为离散序列的连续嵌入空间生成模型设计了一种新的采样方法，通过将连续性方程简化为标量ODE来获得条件速度。该方法在Sudoku和语言建模任务上取得了改进，但与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Architecture Matters: Comparing RAG Systems under Knowledge Base Poisoning

Samuel Korn

cs.CR cs.CL cs.LG

本文研究了RAG系统在知识库投毒攻击下的鲁棒性，比较了四种架构（vanilla RAG, agentic RAG, MADAM-RAG, Recursive Language Models）在单文档投毒场景下的表现。实验发现架构选择对对抗鲁棒性影响显著，攻击成功率从81.9%到24.4%不等，且漏洞主要集中于内容推理阶段。

The Missing Evaluation Axis: What 10,000 Student Submissions Reveal About AI Tutor Effectiveness

Rose Niousha et al.

cs.CY cs.AI cs.HC

本文提出了一种基于学生交互行为数据的AI tutor评估框架，通过分析10,235份编程作业提交记录，发现学生与tutor反馈的互动模式比单纯的教学质量更能预测学生对反馈有用性的感知。该研究为AI tutor评估增加了行为维度，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

PersonaTeaming: Supporting Persona-Driven Red-Teaming for Generative AI

Wesley Hanwen Deng et al.

cs.HC cs.AI cs.CY

本文提出PersonaTeaming方法，通过将角色(persona)融入对抗性提示生成过程来增强生成式AI的红队测试(red-teaming)。该方法在自动化红队测试中实现了更高的攻击成功率，并通过用户界面支持人机协作，但未涉及code, context, spectral, Muon, pretrain, agent, attention等关键词。

Spectral Lens: Activation and Gradient Spectra as Diagnostics of LLM Optimization

Andy Zeyi Liu, Elliot Paquette, John Sous

stat.ML cs.LG

本文使用activation covariance和per-sample gradient SVD谱作为诊断工具，研究decoder-only LLM在优化过程中的内部表征变化。实验发现batch size影响表征几何结构，且早期activation covariance谱尾可预测下游token效率。

CFE-PPAR: Compression-friendly encryption for privacy-preserving action recognition leveraging video transformers

Haiwei Lin, Shoko Imaizumi, Hitoshi Kiya

cs.CV cs.AI cs.CR

本文提出了一种名为CFE-PPAR的压缩友好型加密方法，用于隐私保护的动作识别。该方法通过使用相同的密钥对视频和视频transformer参数进行加密，使得加密视频在压缩后仍能保持较高的识别性能。

When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon

Mohamed Amine Bergach

cs.PF cs.AI

本文研究了Apple Silicon统一内存上的KV-cache量化问题，通过一个融合的Metal kernel实现了int4量化，在特定条件下比fp16更快，并保持了模型质量。该工作主要关注推理效率优化，与您提供的关键词（如code, spectral, Muon, pretrain, agent, attention）关联度较低。

An Empirical Study of Proactive Coding Assistants in Real-World Software Development

Lehui Li et al.

cs.SE cs.AI

本文通过收集真实IDE交互数据与LLM模拟数据对比，发现模拟数据在行为多样性、时间结构和探索模式上与真实数据存在显著差异，并构建了ProCodeBench基准测试。研究表明当前基于模拟的评估会高估实际性能，且模拟数据无法替代真实数据。

Active Learning for Communication Structure Optimization in LLM-Based Multi-Agent Systems

Huchen Yang et al.

cs.MA cs.AI cs.LG

本文提出了一种基于集成信息论的任务选择框架，用于优化LLM多智能体系统的通信结构。该方法通过集成Kalman反演近似Bayesian更新来估计任务信息量，并结合嵌入表示选择和批量Thompson采样提升可扩展性。

SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety

Zhe Liu et al.

cs.CR cs.AI

SafeHarbor提出了一种基于层次化记忆增强的LLM agent安全防护框架，通过上下文感知的防御规则和动态记忆结构来平衡安全性与实用性。该方法在GPT-4o上实现了63.6%的良性任务效用和93%以上的有害请求拒绝率。

Convex-Geometric Error Bounds for Positive-Weight Kernel Quadrature

Satoshi Hayakawa

math.NA cs.LG math.PR stat.ML

本文研究了正权重核求积（positive-weight kernel quadrature）的误差界，通过凸几何方法证明了在固定候选池中，用凸组合逼近有界随机向量均值可达$O(d/N)$精度，并利用Mercer截断将其推广到RKHS最坏情况误差，得到优于Monte Carlo的谱收敛速率。

Closing the Loop: Unified 3D Scene Generation and Immersive Interaction via LLM-RL Coupling

Anh H. Vo et al.

cs.CV cs.GR cs.HC cs.LG cs.MM

本文提出一个统一框架，利用LLM生成场景表示并通过reinforcement learning优化空间布局，在VR环境中实现闭环交互。该方法在ALFRED基准上取得较好性能，但未涉及code、spectral或Muon等关键词相关技术。

Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

Jingjie Ning et al.

cs.MA cs.AI

本文提出了一种基于专家agent的自动研究循环框架，通过外部评估驱动假设、代码编辑和反馈的闭环过程，在多个任务上取得了性能提升。该方法利用agent分工探索训练配方空间，并通过实验轨迹的反馈实现程序级改进。

Fourier Feature Methods for Nonlinear Causal Discovery: FFML Scoring and FFCI Testing in Mixed Data

Joseph D. Ramsey

stat.ML cs.AI cs.LG

本文提出了两种基于Random Fourier Features (RFF)的非线性因果发现方法：FFML评分和FFCI条件独立性检验。FFML通过有限维特征近似替代精确的Gaussian Process边际似然，降低了计算复杂度，并扩展到混合数据类型；FFCI则通过特征化每个变量并利用ridge残差化进行快速非参数条件独立性检验。实验表明，这些方法在非线性数据上优于线性基线，且FFCI在召回率和运行时间上具有优势。

Polarizable atomic multipoles for learning long-range electrostatics

Dongjin Kim et al.

cond-mat.mtrl-sci cs.LG physics.chem-ph physics.comp-ph

本文提出了一种使用可极化原子多极子（polarizable atomic multipoles）的半局部框架，通过学习能量和力来改进机器学习原子间势（MLIPs）对长程静电相互作用的描述。该方法通过局部等变描述符预测潜在的单极子、偶极子和四极子，并利用非自洽线性响应捕获非局域电荷转移和极化效应。

Priming, Path-dependence, and Plasticity: Understanding the molding of user-LLM interaction and its implications from (many) chat logs in the wild

Shengqi Zhu, Jeffrey M. Rzeszotarski, David Mimno

cs.HC cs.CL

本文通过分析14万次真实用户与LLM的聊天记录，发现用户交互模式会快速形成并稳定，且早期探索行为与长期结果（如文本模式重复率和留存率）强相关。研究揭示了“能动性悖论”：尽管LLM输入空间无约束，用户实际探索行为却较少。

Optimal Confidence Band for Kernel Gradient Flow Estimator

Yuqian Cheng, Zhuo Chen, Qian Lin

math.ST cs.LG stat.ML

本文研究了核梯度流估计器在supremum范数下的泛化误差和一致推断，在源条件框架下建立了连续和离散核梯度流的收敛速度，并构造了同时置信带。这些结果在特定条件下达到了minimax最优。

The autoPET3 Challenge -- Automated Lesion Segmentation in Whole-Body PET/CT - Multitracer Multicenter Generalization

Jakob Dexl et al.

cs.CV cs.AI

本文报告了第三届autoPET挑战赛的设计与结果，该挑战赛在组合泛化设置下评估全身PET/CT中的自动病灶分割。研究使用了来自两个中心的多示踪剂数据集，并分析了不同算法在未见过的示踪剂-中心组合上的表现，主要结论包括域内分割已接近读者一致性水平，但组合泛化仍是一个开放问题。

Steering Visual Generation in Unified Multimodal Models with Understanding Supervision

Zeyu Liu et al.

cs.CV cs.AI

本文提出Understanding-Oriented Post-Training (UNO)框架，通过将理解任务（如captioning和visual regression）作为监督信号来引导生成模型的表示学习，从而增强统一多模态模型中理解与生成之间的协同作用。实验表明该方法能有效提升图像生成和编辑的性能。

LCC-LLM: Leveraging Code-Centric Large Language Models for Malware Attribution

Christopher G. Pedraza Pohlenz et al.

cs.CR cs.AI

本文提出了LCC-LLM框架，通过构建代码中心的数据集和基于LangGraph的静态分析流水线，结合检索增强生成与验证机制，提升了LLM在恶意软件归因任务中的可靠性与实用性。实验表明该方法在多种恶意软件分析任务上取得了较好性能。

Ratio-based Loss Functions

Lena Helgerth, Andreas Christmann

stat.ML cs.LG math.ST

本文综述了机器学习中一类基于比率（ratio-based）的损失函数，这类函数关注预测值与真实值的比值而非差值，适用于乘法误差结构。文章系统分析了这些损失函数的连续性、凸性等一般性质，并提出了几个新的损失函数。

LeakDojo: Decoding the Leakage Threats of RAG Systems

Maosen Zhang et al.

cs.CR cs.AI cs.CL

本文提出了LeakDojo框架，用于系统评估RAG系统中的数据泄露风险，并发现查询生成与对抗指令对泄露的贡献可近似为乘积关系，且更强的指令遵循能力与更高的泄露风险相关。

An Additive Approximation Scheme for Generating Dyadic Codings for the Outputs of an LLM

Daniella Bar-Lev, Farzad Farnoud, Ryan Gabrys

cs.IT cs.DS

本文研究在编码率约束下，用二叉树诱导的dyadic分布近似离散概率分布（如大语言模型的next-token分布）的问题，目标是最小化total variation distance。作者将该任务建模为基于树的partition问题，并在常数率情形下提出了一个多项式时间的additive approximation scheme。

VideoRouter: Query-Adaptive Dual Routing for Efficient Long-Video Understanding

Kuanwei Lin, Wenhao Zhang, Ge Li

cs.CV cs.AI

本文提出VideoRouter，一个基于InternVL的查询自适应双路由框架，通过语义路由和图像路由实现长视频理解中的token预算分配，在VideoMME等基准上达到67.9%的token缩减。该方法主要针对视频多模态模型的效率问题，与关键词中的attention或context无直接关联。

CITE: Anytime-Valid Statistical Inference in LLM Self-Consistency

Hirofumi Ota et al.

stat.ML cs.AI cs.LG math.ST stat.ME

本文提出CITE算法，用于在LLM自一致性推理中实现任意时刻有效的统计推断，通过E-processes控制错误认证率，并证明了最优停止时间率。该方法在模拟和LLM实验中展示了经验误差控制，但与关键词列表中的概念关联较弱。

Tuning Derivatives for Causal Fairness in Machine Learning

Filip Edström et al.

stat.ML cs.AI cs.CY cs.LG

本文针对连续受保护属性下的因果公平性问题，提出了一种基于路径特定偏导数的框架，形式化了Statistical Parity和Predictive Parity，并设计了一种公平调优算法来构建或权衡满足这些条件的预测器。

DBMSolver: A Training-free Diffusion Bridge Sampler for High-Quality Image-to-Image Translation

Sankarshana Venugopal, Mohammad Mostafavi, Jonghyun Choi

cs.CV cs.AI cs.LG math.NA

本文提出了一种无需训练的扩散桥采样器DBMSolver，通过指数积分器利用扩散桥模型的半线性结构，在图像到图像翻译任务中显著减少函数评估次数并提升生成质量。

MTL-MAD: Multi-Task Learners are Effective Medical Anomaly Detectors

Bogdan Alexandru Bercean et al.

cs.CV cs.AI cs.LG

本文提出了一种基于多任务学习（Multi-Task Learning, MTL）和Mixture-of-Experts (MoE)的医学图像异常检测方法MTL-MAD，通过联合学习多个自监督和伪标签任务来构建正常解剖结构的鲁棒表示。实验表明该方法在BMAD基准上优于现有方法，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Detecting AI-Generated Videos with Spiking Neural Networks

Minsuk Jang et al.

cs.CV cs.AI

本文提出MAST检测器，利用Spiking Neural Networks (SNNs)处理多通道时间残差，以检测AI生成视频中帧间动态的平滑性差异。该方法在跨生成器评估中达到93.14%的平均准确率，展示了SNNs在该任务中的实用性。

Architecture-agnostic Lipschitz-constant Bayesian header and its application to resolve semantically proximal classification errors with vision transformers

Frederik Schäfer et al.

cs.CV cs.AI

本文提出了一种与架构无关的Lipschitz常数贝叶斯头（Lipschitz-constant Bayesian header），并将其集成到Vision Transformer中形成LipB-ViT模型。该方法通过对变分权重的均值和log-variance施加spectral normalization来校准预测不确定性，并利用自适应融合机制检测语义相近的分类错误，在15%的语义错误标签下召回率超过0.93。

Quantum-enhanced Large Language Models on Quantum Hardware via Cayley Unitary Adapters

Borja Aizpurua et al.

quant-ph cs.AI cs.LG

本文提出了一种在量子硬件上通过Cayley参数化的unitary adapters（一种量子电路模块）来增强大型语言模型（LLM）的方法，并在156-qubit的IBM量子处理器上对Llama 3.1 8B模型进行了实验验证，展示了1.4%的困惑度改进。该工作主要贡献在于首次在真实量子硬件上验证了量子增强LLM的可行性，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

LLM-Driven Design Space Exploration of FPGA-based Accelerators

Vinamra Sharma et al.

cs.AR cs.AI cs.PF

本文提出SECDA-DSE框架，将Large Language Models (LLMs)集成到SECDA生态系统中，用于自动化FPGA-based加速器的设计空间探索。该框架结合了结构化探索器和LLM推理模块，并通过反馈循环实现持续优化。

Architecture Shape Governs QNN Trainability: Jacobian Null Space Growth and Parameter Efficiency

Michael Poppel et al.

quant-ph cs.LG

本文研究了变分量子电路中架构形状对可训练性的影响，发现串行单量子位架构存在结构秩亏导致梯度消失，而并行架构可避免此问题。实验表明增加特征映射层比增加可训练块更高效，但未涉及code、context、spectral等关键词。

MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware

Senthil Palanisamy et al.

cs.CV cs.CL

本文提出了MobileEgo Anywhere框架，利用智能手机传感器采集长时程（小时级）第一人称轨迹数据，并开源了200小时数据集、移动应用及处理流程，旨在降低机器人VLA模型训练数据的获取门槛。

Towards Reliable LLM Evaluation: Correcting the Winner's Curse in Adaptive Benchmarking

Yang Xu et al.

stat.ML cs.AI cs.LG stat.AP

本文提出SIREN协议，通过selection-aware repeated-split方法校正自适应benchmarking中的winner's curse偏差，为LLM评估提供更可靠的置信区间和性能曲线估计。

iPhoneBlur: A Difficulty-Stratified Benchmark for Consumer Device Motion Deblurring

Abdullah Al Shafi, Kazi Saeed Alam

cs.CV cs.AI

本文提出了iPhoneBlur，一个基于iPhone 17 Pro视频合成的7400对图像的去模糊benchmark，通过PSNR引导的adaptive temporal windowing将样本按模糊难度分为Easy、Medium和Hard三类，并验证了光流幅度的单调递增。实验表明，聚合指标会掩盖模型在Easy到Hard子集上7-9 dB的性能退化，该benchmark有助于评估资源受限边缘系统的模型可靠性。

TabCF: Distributional Control Function Estimation with Tabular Foundation Models

Geping Chen et al.

stat.ML cs.LG stat.ME stat.OT

本文提出TabCF方法，利用tabular foundation models进行control function回归，以实现对分布性因果量（如interventional means和quantiles）的快速估计，并采用copula近似处理多变量结果。该方法在合成和真实数据上表现良好，但主要贡献在于工程实践而非理论创新，与关键词列表中的概念关联较弱。

Safety Anchor: Defending Harmful Fine-tuning via Geometric Bottlenecks

Guoxin Lu et al.

cs.CR cs.AI cs.CL

本文针对大型语言模型在有害微调下的安全问题，提出了一种名为Safety Bottleneck Regularization (SBR)的防御方法。该方法通过将防御焦点从冗余的高维参数空间转移到unembedding层这一几何瓶颈，利用单个安全锚点来约束有害查询的最终隐藏状态，从而在持续攻击下维持安全响应。

Gaussian mixture models in Hilbert spaces via kernel methods

Daniel López-Montero, Antonio Álvarez-López, Marcos Matabuena

stat.ML cs.LG

本文提出了一种基于kernel mean embeddings的Hilbert空间高斯混合模型框架，用于处理动态functional data等无限维随机对象，并开发了相应的优化算法。该工作主要面向聚类应用，但与我提供的关键词列表关联度较低。

Adding Thermal Awareness to Visual Systems in Real-Time via Distilled Diffusion Models

Yuchen Guo et al.

cs.CV cs.AI

本文提出FusionProxy，一种用于实时图像融合的即插即用模块，通过蒸馏扩散模型将热成像信息融入RGB视觉系统，以提升夜间和雾天等挑战场景下的感知鲁棒性。该方法利用教师样本集在原始图像空间和冻结基础backbone中的像素级方差来指导训练，无需联合优化即可集成到现有系统中。

T2I-VeRW: Part-level Fine-grained Perception for Text-to-Image Vehicle Retrieval

Xiao Wang et al.

cs.CV cs.AI

本文提出PFCVR模型用于text-to-image vehicle re-identification，通过引入part-level局部对齐和双向掩码恢复模块来增强跨模态特征匹配，并构建了带细粒度部件标注的T2I-VeRW数据集。实验表明该方法在多个基准上取得性能提升。

When AI Meets Science: Research Diversity, Interdisciplinarity, Visibility, and Retractions across Disciplines in a Global Surge

Andrés F. Castro Torres, Joan Giner-Miguelez, Mercè Crosas

cs.DL cs.AI cs.CY cs.SI

本文研究了1960-2015年间AI在不同国家和科学领域的采用差异，发现2015年后AI支持的研究呈指数增长，但主要集中在与计算机科学相关的少数主题，且存在引用溢价和更高的撤稿率，表明AI在科学中的变革潜力尚未充分实现。

Quantum Kernels for Audio Deepfake Detection Using Spectrogram Patch Features

Lisan Al Amin et al.

cs.SD cs.AI

本文提出Q-Patch方法，将mel-spectrogram的局部时频patch编码为量子态，用于音频深度伪造检测。实验表明该方法在AUROC指标上优于经典RBF-SVM，但整体方法创新性有限，且与关键词列表中的概念关联较弱。

Relay Buffer Independent Communication over Pooled HBM for Efficient MoE Inference on Ascend

Tianlun Hu et al.

cs.DC cs.LG

本文针对Ascend系统上的MoE推理，提出了一种无中继缓冲的通信设计，通过全局池化HBM和对称内存分配，将dispatch和combine操作直接映射到目标专家窗口，从而减少中间缓冲和重排开销。实验表明该方法能降低延迟并改善服务性能，但未涉及code、context、spectral等关键词相关技术。

Correcting heterogeneous diagnostic bias when developing clinical prediction models using causal hidden Markov models

Jose Benitez-Aurioles et al.

stat.AP cs.LG

本文提出使用causal hidden Markov model来校正临床预测模型中因异质性诊断偏差导致的标签错误，通过定义反事实诊断概率作为目标估计量，并在模拟和慢性肾病预测案例中验证了该方法能有效减少预测偏差并改善校准度。

PoTAcc: A Pipeline for End-to-End Acceleration of Power-of-Two Quantized DNNs

Rappy Saha et al.

cs.AR cs.LG cs.PF

本文提出了PoTAcc，一个用于在资源受限的边缘设备上加速和评估Power-of-Two (PoT)量化DNNs的开源端到端流水线。它通过TensorFlow Lite支持在CPU和CPU-FPGA混合系统上部署PoT量化模型，并设计了基于移位操作的专用处理单元，实验表明其相比纯CPU执行实现了最高3.6倍加速和78%的能耗降低。

Revisiting Uncertainty: On Evidential Learning for Partially Relevant Video Retrieval

Jun Li et al.

cs.CV cs.IR cs.LG cs.MM

本文提出Holmes框架，通过层次化evidential learning（证据学习）显式建模部分相关视频检索中的不确定性，利用Dirichlet分布处理跨视频相似度，并采用flexible optimal transport（柔性最优传输）实现软性query-clip对齐。该方法在多个基准上取得最优性能，但未涉及关键词中的code、spectral、Muon等概念。

Time-Inhomogeneous Preconditioned Langevin Dynamics

Alexander Falk et al.

math.ST cs.LG math.PR stat.CO

本文提出了一种时间与位置依赖的preconditioner（预处理矩阵）设计，用于改进Langevin dynamics（朗之万动力学）在采样分布$p(x) \propto \exp(-\Psi(x))$时的全局模式覆盖与局部模式探索能力。作者证明了该动力学在连续时间和离散化下的Wasserstein-2距离收敛性，并扩展了现有理论至时变扩散系数和局部Lipschitz漂移条件。实验在二维病态问题和贝叶斯逻辑回归任务中验证了其效率。

VISD: Enhancing Video Reasoning via Structured Self-Distillation

Hao Lin et al.

cs.CV cs.AI

本文提出VISD框架，通过结构化自蒸馏方法为视频推理提供细粒度监督信号，利用视频感知评判模型从答案正确性、逻辑一致性和时空定位等多维度分解推理质量，并引入方向-幅度解耦机制以稳定整合密集监督与强化学习。该方法在多个基准测试上提升了视频大语言模型的推理准确性和训练效率。

CredibleDFGO: Differentiable Factor Graph Optimization with Credibility Supervision

Liang Qian et al.

eess.SP cs.AI cs.LG cs.RO

本文提出CredibleDFGO，一种可微分的GNSS因子图优化框架，通过将协方差可信度作为显式训练目标，利用Weighting Generation Network预测每颗卫星的可靠性权重，并使用可微分的Gauss-Newton求解器进行端到端监督。实验表明该方法在不确定性可信度上取得了一致提升，并在部分城市场景下改善了定位精度。

Schedule-and-Calibrate: Utility-Guided Multi-Task Reinforcement Learning for Code LLMs

Yujia Chen et al.

cs.SE cs.AI

本文提出ASTOR框架，通过任务效用（task utility）信号来指导多任务强化学习中的训练数据调度和策略优化，以统一训练单个代码大语言模型（Code LLM）完成多个编码任务。实验表明该方法在多个任务上优于单任务专家和现有MTRL基线。

Dynamic Pondering Sparsity-aware Mixture-of-Experts Transformer for Event Stream based Visual Object Tracking

Shiao Wang et al.

cs.CV cs.AI

本文提出了一种基于事件相机的视觉目标跟踪框架，通过多密度特征学习和稀疏感知的Mixture-of-Experts模块来处理事件数据的稀疏性，并采用动态推理策略平衡精度与效率。实验在多个数据集上验证了其有效性。

Continuous Expert Assembly: Instance-Conditioned Low-Rank Residuals for All-in-One Image Restoration

Haisen He et al.

cs.CV cs.AI

本文提出Continuous Expert Assembly (CEA)框架，通过Cross-Attention Hyper-Adapter为每个spatial token动态生成低秩残差更新，实现全场景图像恢复。该方法避免了全局prompt或静态专家池的局限性，在AIO-3等基准上取得更好效果。

Diffusion model for SU(N) gauge theories

Javad Komijani, Marina K. Marinkovic, Lara Turgut

hep-lat cs.LG

本文提出了一种基于score matching的diffusion model框架，用于SU(N) lattice gauge theories的采样，并应用于SU(3) Wilson gauge action。该方法在生成样本质量上可与Hybrid Monte Carlo (HMC)模拟相比，但计算成本较高。

BUILD-AND-FIND: An Effort-Aware Protocol for Evaluating Agent-Managed Codebases

Jhen-Ke Lin

cs.SE cs.AI

本文提出了BUILD-AND-FIND协议，用于评估下游agent能否从agent生成的代码仓库中恢复设计意图，并衡量恢复所需的检查工作量。该协议将行为正确性与artifact侧的可恢复性分离，通过准确率、可重复性、实现覆盖率和检查努力等指标进行评价。

Autoregressive Visual Generation Needs a Prologue

Bowen Zheng et al.

cs.CV cs.AI cs.LG

本文提出Prologue方法，通过在自回归图像生成中引入一组独立的“序言”token（prologue tokens）来弥合重建与生成之间的差距。该方法将生成优化与重建任务解耦，仅使用自回归交叉熵损失训练序言token，从而在不影响重建质量的前提下提升生成性能。

AI-Generated Images: What Humans and Machines See When They Look at the Same Image

Silvia Poletti et al.

cs.CV cs.AI

本文研究了AI生成图像的检测问题，开发了多种架构的检测器并集成了16种可解释AI方法，通过人类调查评估了这些方法在提供可理解解释方面的效果。该工作主要关注检测系统的透明性和可解释性，与关键词中的概念关联较弱。

Learning Discrete Autoregressive Priors with Wasserstein Gradient Flow

Bowen Zheng, Yihong Luo, Tianyang Hu

cs.CV cs.AI cs.LG

本文分析了离散图像tokenizer两阶段训练中存在的prior consistency缺失问题，并引入Wasserstein gradient flow来在tokenizer训练阶段加入分布级别的先验匹配信号。该方法通过token-level对比更新来优化，无需反向传播，在CIFAR-10和ImageNet上降低了AR loss并改善了生成FID。

Expressivity of Bi-Lipschitz Normalizing Flows: A Score-Based Diffusion Perspective

Meira Iske, Carola-Bibiane Schönlieb

stat.ML cs.LG math.NA math.PR

本文从score-based diffusion模型的视角研究了bi-Lipschitz normalizing flows的表达能力，通过概率流ODE将score的正则性与传输映射的正则性联系起来，并验证了多种目标密度下score的正则性。该工作为bi-Lipschitz flows的分布逼近提供了理论保证，但与关键词列表中的概念关联较弱。

Retina-RAG: Retrieval-Augmented Vision-Language Modeling for Joint Retinal Diagnosis and Clinical Report Generation

Abdelrahman Zaian et al.

cs.CV cs.AI

本文提出Retina-RAG，一个用于糖尿病视网膜病变分级和临床报告生成的模块化框架，通过解耦视网膜分类器和基于LoRA微调的视觉语言模型，并引入检索增强生成模块来提升诊断一致性。该方法在性能上优于多个基线，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Predictive-Generative Drift Decomposition for Speech Enhancement and Separation

Julius Richter et al.

eess.AS cs.LG

本文提出了一种名为SIPS的即插即用框架，通过将预测性方法与生成式语音先验相结合，用于语音增强和分离。该方法将插值动力学分解为任务特定的drift和随机去噪组件，从而在生成采样过程中整合预测性估计，但整体创新性有限。

EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields

Zhaoyang Yang et al.

cs.CV cs.AI cs.RO

本文提出EA-WM，一种事件感知生成式世界模型，通过将机器人动作和运动状态投影到目标相机视角形成结构化运动到视觉的动作场，并引入事件感知双向融合模块来捕捉物体状态变化和交互动态，在WorldArena基准上取得了领先性能。

Bridging visual saliency and large language models for explainable deep learning in medical imaging

Paul Valery Nguezet et al.

cs.CV cs.LG

本文提出了一种多模态可解释性框架，结合CNN和LLM用于脑肿瘤MRI分类，通过视觉显著性方法生成热图并映射到解剖结构，最终由LLM生成诊断报告。该方法在分类和分割性能上有所提升，但未涉及关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念。

When Does Trimming Help Conformal Prediction? A Retained-Law Diagnostic under Calibration Contamination

Congye Wang

stat.ML cs.LG

本文研究了在conformal prediction中，对可疑校准点进行修剪（trimming）的影响，将其视为一种条件化操作而非纯化。通过分析修剪诱导的保留律（retained law），作者将清洁目标覆盖率问题转化为一维score-CDF转移问题，并给出了一个有限样本恒等式。

Super-Level-Set Regression: Conditional Quantiles via Volume Minimization

Sacha Braun, Michael I. Jordan, Francis Bach

stat.ML cs.AI cs.LG stat.AP stat.ME

本文提出了一种名为Super-Level-Set Regression (SLS)的新框架，通过直接参数化和优化预测区域的几何边界，解决了多变量回归中构建满足条件覆盖的最小体积预测区域的难题。该方法绕过了对完整条件密度的显式估计，采用体积保持的前沿函数来端到端地捕捉复杂的条件结构。

When to Trust Imagination: Adaptive Action Execution for World Action Models

Rui Wang et al.

cs.RO cs.AI

本文提出了一种自适应动作执行机制FFDC，用于World Action Models (WAMs)在机器人操作中的未来-现实一致性验证。该方法通过轻量级verifier联合推理预测动作、视觉动态和真实观测，实现自适应动作块大小，在保持长程执行效率的同时提升接触密集阶段的响应性。实验在RoboTwin基准和真实场景中验证了鲁棒性与效率的权衡。

ConquerNet: Convolution-Smoothed Quantile ReLU Neural Networks with Minimax Guarantees

Tianpai Luo, Fangwei Wu, Weichi Wu

stat.ML cs.LG

本文提出ConquerNet，一种卷积平滑的分位数ReLU神经网络，通过平滑pinball损失函数来解决深度模型在分位数回归中的优化困难。该方法在Besov函数类上建立了非渐近风险界，并在数值实验中展示了优于标准分位数神经网络的估计精度和训练效率。

Correct Code, Vulnerable Dependencies: A Large Scale Measurement Study of LLM-Specified Library Versions

Chengjie Wang et al.

cs.SE cs.AI

本文首次大规模测量了LLM生成Python代码时指定第三方库版本的安全与兼容性风险，发现模型倾向于选择存在已知CVE的版本，且存在系统性偏差。研究揭示了版本选择是LLM开发中一个被忽视的风险面。

A Topological Sorting Criterion for Random Causal Directed Acyclic Graphs

Alexander G. Reisach et al.

stat.ME cs.AI

本文研究了基于随机图（如Erdős-Rényi和scale free图）生成的随机有向无环图（DAG）中，沿因果顺序的亲属（relatives）单调递增性质，并展示了如何利用该性质通过估计亲属数量进行排序来恢复因果顺序。

Multimodal Deep Generative Model for Semi-Supervised Learning under Class Imbalance

Heegeon Yoon, Heeyoung Kim

stat.ML cs.AI cs.LG

本文提出了一种用于不平衡类别下多模态半监督学习的深度生成模型，通过为每个模态使用独立编码器并共享潜在变量，以及用Student's t分布替代高斯分布来处理不平衡数据，并基于$\gamma$-power divergence推导了新的训练目标函数。实验表明该方法在部分标注的多模态不平衡数据上优于基线。

Render, Don't Decode: Weight-Space World Models with Latent Structural Disentanglement

Roussel Desmond Nzoyem, Mauro Comi

cs.CV cs.AI

本文提出NOVA框架，通过将系统状态表示为辅助坐标基隐式神经表示(INR)的权重和偏置，避免了传统世界模型中解码器的计算瓶颈。该方法实现了紧凑、可移植和零样本超分辨率，并能通过动作匹配目标蒸馏为视频生成器，同时无需额外损失即可解耦背景、前景和帧间运动等结构成分。

End-to-End Identifiable and Consistent Recurrent Switching Dynamical Systems

Carles Balsells-Rodas et al.

stat.ML cs.LG

本文研究了深度生成模型中序列数据的可识别表示学习问题，提出了一种基于flow的估计器$\Omega$SDS，通过期望最大化实现精确似然优化，在合成和真实数据上相比VAE方法提升了动态解耦与预测性能。

NavOne: One-Step Global Planning for Vision-Language Navigation on Top-Down Maps

Dijia Zhan et al.

cs.CV cs.AI

本文提出NavOne，将视觉语言导航（VLN）重新定义为在预构建的俯视地图上的一步全局路径规划问题，通过Top-Down Map Fuser和Attention Residuals实现端到端的密集路径概率预测，在R2R-TopDown数据集上取得了地图方法中的最优性能并大幅提升规划速度。

Gaming the Metric, Not the Harm: Certifying Safety Audits against Strategic Platform Manipulation

Florian A. D. Burnat, Brittany I. Davidson

cs.CR cs.CY cs.LG

本文研究了在线安全监管中，平台可能通过将推荐路由到语义等价但危害不变的内容变体来操纵审计指标的问题。作者将审计协议建模为变换图，并证明直接评分变体的指标可被操纵，而语义包络指标（取类内最大分数）是唯一保守的类常数修复方案。

Fine-Tuning Small Language Models for Solution-Oriented Windows Event Log Analysis

Siraaj Akhtar, Saad Khan, Simon Parkinson

cs.CR cs.AI

本文研究了通过LoRA微调小型语言模型(SLM)用于Windows事件日志分析，并生成修复建议。实验表明，微调后的SLM在识别问题和提供修复方案方面优于大型语言模型(LLM)，且计算资源需求更低。

TinyBayes: Closed-Form Bayesian Inference via Jacobi Prior for Real-Time Image Classification on Edge Devices

Shouvik Sardar, Sourish Das

cs.CV cs.AI cs.LG stat.AP stat.ML

本文提出了TinyBayes框架，将基于Jacobi prior的closed-form Bayesian classifier与MobileNetV3-Small和YOLOv8-Nano结合，用于边缘设备上的可可病害图像分类。该方法在保持小模型尺寸（9.5 MB）和快速推理（每张图150 ms）的同时，实现了78.7%的准确率，并证明了Jacobi-DMR的渐近性质。

A Benchmark for Strategic Auditee Gaming Under Continuous Compliance Monitoring

Florian A. D. Burnat, Brittany I. Davidson

cs.CY cs.GT cs.LG

本文研究了持续合规审计中的策略性博弈问题，将审计建模为$T$轮Stackelberg博弈，并识别了噪声感知静态审计器设计中的覆盖机制缺陷。文章提出了多种审计策略和审计员策略，并构建了非加性损失分解与可复现的模拟器。

CoupleEvo: Evolving Heuristics for Coupled Optimization Problems Using Large Language Models

Thomas Bömer et al.

cs.NE cs.AI math.OC

本文提出CoupleEvo方法，利用大语言模型为耦合优化问题（多个紧密关联的子问题）自动设计heuristics。该方法通过三种进化协调策略（顺序、迭代、集成）来协调子问题的求解，实验表明基于分解的策略收敛更稳定、解质量更高。

Human-AI Co-Evolution and Epistemic Collapse: A Dynamical Systems Perspective

Xuening Wu et al.

cs.HC cs.AI

本文从动力系统视角将人类与LLM视为耦合系统，通过一个包含人类认知、数据质量和模型能力的三变量最小模型，识别出共进化增强、脆弱平衡和退化收敛三种动态机制。模拟表明，对AI的过度依赖会导致系统向低多样性、次优均衡转变，对应信息瓶颈的出现。

The Interplay of Data Structure and Imbalance in the Learning Dynamics of Diffusion Models

Flavio Nicoletti et al.

stat.ML cond-mat.dis-nn cs.LG

本文通过高维分析框架研究了扩散模型在类别不平衡和异质性数据下的学习动态，揭示了类别方差和采样不平衡对泛化与记忆时间的影响。

eXplaining to Learn (eX2L): Regularization Using Contrastive Visual Explanation Pairs for Distribution Shifts

Paulo Mario P. Medina, Jose Marie Antonio Miñoza, Sebastian C. Ibañez

cs.CV cs.AI cs.LG

本文提出eXplaining to Learn (eX2L)框架，通过惩罚主分类器与混杂分类器的Grad-CAM激活图相似性，在训练中解耦混淆特征与潜在表示。该方法在Spawrious基准上提升了最差组准确率，但未涉及code、spectral或Muon等关键词。

Beyond the Independence Assumption: Finite-Sample Guarantees for Deep Q-Learning under $τ$-Mixing

Leon Halgryn et al.

stat.ML cs.LG

本文研究了在$\tau$-mixing依赖假设下Deep Q-Networks (DQN)算法的有限样本保证，将每个更新步骤建模为带依赖观测的非参数回归问题，并推导了风险界。结果表明时间依赖会因有效样本量减少而引入额外的维度惩罚，从而降低统计速率。

Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

Tao Liu et al.

cs.CV cs.AI

本文提出Continuous-Time Distribution Matching (CDM)方法，将扩散模型的分布匹配蒸馏从离散时间步扩展到连续时间优化，通过动态连续时间调度和连续时间对齐目标来提升少步图像生成的视觉保真度。该方法在SD3-Medium等架构上验证了有效性，但未涉及code、context、spectral等关键词相关领域。

Independent Learning of Nash Equilibria in Partially Observable Markov Potential Games with Decoupled Dynamics

Philip Jordan, Maryam Kamgarpour

cs.GT cs.LG cs.MA

本文研究部分可观测Markov博弈中的Nash均衡学习问题，提出了一种在解耦动力学（independent state transitions）假设下的独立学习算法。该算法允许智能体仅基于自身动作和观测（无需通信）收敛到近似Nash均衡，并利用filter稳定性假设将策略限制在有限历史窗口内，从而将问题近似为near-potential Markov博弈。

Empirical Evidence for Simply Connected Decision Regions in Image Classifiers

Arjhun Swaminathan, Mete Akgün

cs.CV cs.LG

本文通过提出一种迭代的quad-mesh填充程序，为图像分类器中深度神经网络的decision region（决策区域）提供了经验证据，表明这些区域不仅是path connected（路径连通）的，而且是simply connected（单连通）的，即其中的闭环可以连续收缩为一点。

Covariate Balancing and Riesz Regression Should Be Guided by the Neyman Orthogonal Score in Debiased Machine Learning

Masahiro Kato

econ.EM cs.LG math.ST stat.ME stat.ML

本文主张在去偏机器学习中，平衡函数应从Neyman正交得分导出，而非仅作为协变量的函数。对于ATE估计，由于结果回归依赖于完整回归变量$X=(D,Z)$，仅平衡$Z$的常见函数可能留下处理特定成分的不平衡，因此建议使用基于$X$的基函数的Riesz回归进行回归变量平衡。

Reconstruction or Semantics? What Makes a Latent Space Useful for Robotic World Models

Nilaksh et al.

cs.CV cs.LG cs.RO

本文比较了重建型encoder（如VAE）和语义型encoder（如V-JEPA）在action-conditioned latent diffusion model中用于机器人世界模型的效果，发现语义latent space在规划与策略性能上更优，但视觉重建能力并非唯一评价标准。

WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling

Guanrou Yang et al.

eess.AS cs.AI cs.CL

WavCube提出了一种从SSL speech encoder中提取的紧凑连续latent representation，通过两阶段训练（语义瓶颈和端到端重建）统一支持speech understanding和generation。实验表明其在多项任务上性能优异，但方法本身与关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Decoupled PFNs: Identifiable Epistemic-Aleatoric Decomposition via Structured Synthetic Priors

Richard Bergna, Stefan Depeweg, José Miguel Hernández-Lobato

stat.ML cs.LG

本文提出了一种解耦的Prior-Fitted Networks (PFNs)方法，通过利用合成数据生成过程中的显式标签，将预测分布分解为认知不确定性（epistemic uncertainty）和偶然不确定性（aleatoric uncertainty）。该方法在主动学习和贝叶斯优化中改善了基于总方差探索的失败模式，但整体创新性有限，且与关键词列表中的概念关联较弱。

Neural-Actuarial Longevity Forecasting: Anchoring LSTMs for Explainable Risk Management

Davide Rindori

stat.ML cs.LG q-fin.RM

本文提出了一种名为Hybrid-Lift的神经精算框架，结合Hierarchical LSTM网络与Mean-Bias Correction锚定机制，用于解决高长寿率国家死亡率残差中的非平稳性问题。该框架在部分国家（如瑞典和西德）的样本外验证中优于传统Li-Lee模型，但在线性特征明显的国家（如瑞士和日本）表现相当。

Constraint Decay: The Fragility of LLM Agents in Backend Code Generation

Francesco Dente, Dario Satriani, Paolo Papotti

cs.SE cs.AI

本文研究了LLM agents在多文件后端代码生成中处理structural constraints的能力，发现随着结构要求增加，agent性能显著下降（constraint decay现象），并指出同时满足功能与结构需求仍是开放挑战。

Dynamic Controlled Variables Based Dynamic Self-Optimizing Control

Chenchen Zhou et al.

math.OC cs.LG eess.SY

本文提出了动态自优化控制问题，并引入“动态控制变量”概念，通过数据驱动方法（如深度神经网络）设计变量，以处理动态过程优化问题。案例验证了该方法在逼近多值和不连续函数方面的有效性。

Risk-Controlled Post-Processing of Decision Policies

Sunay Joshi et al.

stat.ML cs.LG math.ST

本文研究风险控制的后处理决策策略，通过校准数据选择阈值，在满足风险约束的同时最大化与基线策略的一致性。实验表明该方法能在多个任务中有效平衡风险与基线保留度。

Estimate Level Adjustment For Inference With Proxies Under Random Distribution Shifts

Steven Wilkins-Reeves, Alexandra N. M. Darmon, Deeksha Sinha

stat.ME cs.LG stat.ML

本文提出了一种估计层面的调整框架，用于在随机分布偏移下使用代理变量进行推断。该方法将代理与主要指标之间的差异建模为参数层面的随机效应，并利用历史域数据估计其分布，从而避免了对个体级响应数据的需求。

3D MRI Image Pretraining via Controllable 2D Slice Navigation Task

Yu Wang, Qingchao Chen

cs.CV cs.AI

本文提出了一种基于可控2D切片导航任务的3D MRI图像自监督预训练方法，通过将3D体积转换为连续位置、方向和尺度的2D渲染序列，并利用动作条件预训练目标（包括tokenizer编码切片观测和潜在动力学模型预测特征演化）来学习表示。该方法在解剖和空间下游任务上进行了评估，但与我提供的关键词（如code, context, spectral, Muon, agent, attention）关联度较低。

MARBLE: Multi-Aspect Reward Balance for Diffusion RL

Canyu Zhao et al.

cs.CV cs.LG

本文提出MARBLE框架，通过梯度空间优化解决扩散模型多奖励微调中的样本级不匹配问题，利用二次规划协调各奖励的策略梯度，并引入摊销公式和EMA平滑以降低计算成本。该方法在SD3.5 Medium上同时优化五个奖励维度，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

On the Security of Research Artifacts

Nanda Rani, Christian Rossow

cs.CR cs.AI

本文研究了安全领域研究artifact（研究工件）中的安全风险，通过对509个artifact进行静态分析，发现41.60%的常见发现存在安全隐患，并提出了一个名为SAFE的自动化评估框架，用于区分安全与非安全风险。

Learning to Cut: Reinforcement Learning for Benders Decomposition

Haochen Cai, Xian Yu

math.OC cs.AI

本文提出RLBD框架，利用基于神经网络的随机策略和REINFORCE算法自适应选择Benders分解中的cuts，以加速两阶段随机规划的求解。实验表明该方法在计算效率上优于传统BD和监督学习方法，但未涉及关键词中的核心概念。

Optimizing Social Utility in Sequential Experiments

Ander Artola Velasco, Stratis Tsirtsis, Manuel Gomez-Rodriguez

cs.GT cs.LG cs.MA stat.ME

本文提出了一种用于序贯实验的统计协议，其中产品开发者（agent）进行序贯随机对照试验，监管者（principal）部分补贴其成本。通过使用belief Markov decision process建模，作者证明了agent的最优策略和socially optimal subsidy均可通过动态规划等方法高效求解。

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

Ziyun Zeng et al.

cs.CV cs.AI

本文针对视频背景替换任务中训练数据质量不足的问题，提出了Sparkle数据集和Sparkle-Bench基准。通过解耦前景与背景引导的生成流程及严格质量过滤，构建了约14万视频对的数据集，实验表明基于该数据训练的模型在多个基准上优于现有方法。

Coordination Matters: Evaluation of Cooperative Multi-Agent Reinforcement Learning

Maria Ana Cardei, Matthew Landers, Afsaneh Doryab

cs.MA cs.AI cs.LG

本文提出了一种协调感知的评估视角，通过STAT测试平台系统性地分析了多智能体强化学习中的协调机制，发现相似的回报趋势可能对应不同的协调模式。该工作主要关注评估方法而非解决具体问题，与关键词中的agent有一定关联但创新性一般。

Dynamic Treatment on Networks

Bengusu Nar et al.

stat.ML cs.LG

本文提出Q-Ising方法，将网络干扰下的动态治疗分配问题分解为三个阶段：用Bayesian动态Ising模型估计网络采纳动态、用连续后验隐状态增强治疗历史、以及通过离线强化学习学习动态策略。该方法在印度村庄微金融网络和合成随机块模型上验证了自适应目标分配优于静态中心性基准。

DINORANKCLIP: DINOv3 Distillation and Injection for Vision-Language Pretraining with High-Order Ranking Consistency

Shuyang Jiang et al.

cs.CV cs.AI cs.LG

本文提出DINORANKCLIP框架，通过注入冻结的DINOv3教师模型和引入高阶Plackett-Luce排序一致性损失，联合解决了CLIP中排序信息丢失和视觉表示语义瓶颈两个结构缺陷。实验表明该方法在细粒度评估上优于CLIP等基线，但方法主要针对视觉-语言预训练中的排序一致性，与我提供的关键词（如code, spectral, Muon, agent等）契合度较低。

ReActor: Reinforcement Learning for Physics-Aware Motion Retargeting

David Müller et al.

cs.RO cs.GR cs.LG

本文提出了一种名为ReActor的双层优化框架，通过强化学习将人体运动重定向到机器人形态，并联合训练跟踪策略。该方法利用近似梯度优化上层损失，并直接与物理仿真集成以生成物理可行的运动。

Cross-Modal Navigation with Multi-Agent Reinforcement Learning

Shuo Liu, Xinzichen Li, Christopher Amato

cs.RO cs.AI cs.LG cs.MA

本文提出CRONA，一个基于Multi-Agent Reinforcement Learning (MARL)的跨模态导航框架，通过轻量级模态专用agent的协作来提升导航性能。实验表明，该方法在视觉-声学导航任务中优于单agent基线，并分析了不同模态组合与模型容量对导航效率的影响。

FedAttr: Towards Privacy-preserving Client-Level Attribution in Federated LLM Fine-tuning

Su Zhang, Junfeng Guo, Heng Huang

cs.CR cs.LG

本文提出FedAttr协议，用于在联邦学习（FL）中识别哪些客户端使用了带水印数据训练大语言模型（LLM）。该方法通过配对子集差分机制估计客户端更新，并结合水印检测器与Stouffer方法进行归因，在保证安全聚合隐私性的同时实现了高检测性能。

AI CFD Scientist: Toward Open-Ended Computational Fluid Dynamics Discovery with Physics-Aware AI Agents

Nithin Somasekharan et al.

physics.flu-dyn cs.AI

本文提出了一个名为AI CFD Scientist的开源AI agent框架，用于计算流体动力学（CFD）的自动化科学发现。该框架集成了文献驱动的构思、基于视觉的物理验证和代码修改等模块，在OpenFOAM上运行，但主要贡献在于工程实现而非理论创新，与关键词中的agent概念有一定关联。

DARTS: Targeting Prognostic Covariates in Budget-Constrained Sequential Experiments

Kateryna Husar, Alexander Volfovsky

stat.ML cs.LG stat.ME

本文提出了一种名为DARTS的预算约束序贯实验方法，通过Thompson Sampling动态选择最具预后价值的协变量，以在测量预算有限的情况下优化因果推断效率。该方法在理论上证明了自适应协变量选择不会破坏随机化有效性，并在经验上缩小了与理想设计的效率差距。

PianoCoRe: Combined and Refined Piano MIDI Dataset

Ilya Borovik

cs.SD cs.LG

本文提出了PianoCoRe，一个大规模钢琴MIDI数据集，通过整合和精炼多个开源钢琴语料库，提供了25万首演奏录音，并包含音符级别的乐谱对齐子集。该工作还开发了MIDI质量分类器和RAScoP对齐精炼流程，用于提升数据质量，为音乐信息检索和表现力建模研究提供了基础资源。

LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation

Dan Jacobellis, Neeraja J. Yadwadkar

eess.IV cs.LG cs.MM eess.AS eess.SP

LiVeAction提出了一种轻量级、通用的非对称神经编解码器架构，通过引入FFT-like结构和基于方差的率惩罚，降低了编码器复杂度并简化了训练过程，使其适用于资源受限环境下的多种信号模态。

Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

Hao Dong et al.

cs.CV cs.AI cs.LG cs.MM

本文提出了MMDG-Bench，一个用于多模态域泛化的统一基准，通过标准化评估发现现有方法在公平比较下提升有限，且所有方法在输入损坏和模态缺失场景下表现显著下降。

BAMI: Training-Free Bias Mitigation in GUI Grounding

Borui Zhang et al.

cs.CV cs.AI

本文通过提出Masked Prediction Distribution (MPD)归因方法，识别出GUI grounding任务中高分辨率和复杂界面元素导致的精度偏差与模糊偏差，并引入Bias-Aware Manipulation Inference (BAMI)方法，通过粗到细聚焦和候选选择来缓解这些偏差，在无需训练的情况下提升了模型在ScreenSpot-Pro基准上的准确率。

ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation

Omar El Khalifi et al.

cs.CV cs.AI cs.LG

ActCam提出了一种零样本方法，用于视频生成中联合控制角色动作和相机轨迹。它利用预训练的image-to-video diffusion model，通过两阶段conditioning schedule（先同时使用pose和sparse depth，后仅使用pose）来保持几何一致性，无需额外训练。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.CL

cs.DS

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others