bluearXiv-ai - 2026-05-13

📄 所有论文 ↑ 回顶部

cs.LG

Rotation-Preserving Supervised Fine-Tuning ⭐ 精选

Hangzhan Jin et al.

cs.LG cs.AI

本文提出了一种名为Rotation-Preserving Supervised Fine-Tuning (RPSFT)的方法，用于解决监督微调(SFT)中域内性能提升但域外(OOD)泛化能力下降的问题。该方法通过惩罚预训练权重矩阵中前$k$个奇异向量块（即dominant singular subspaces）的旋转，作为对Fisher敏感方向的高效代理，从而在保持任务适应性的同时限制不必要的参数旋转。实验表明，在数学推理数据上，RPSFT在不同模型族和规模下均优于标准SFT和强基线方法，能更好地保留预训练表示，并为下游强化学习微调提供更强的初始化。该方法与关键词中的“spectral”（谱分解）和“pretrain”（预训练）高度契合，通过奇异值分解的谱性质来约束微调过程。

Vertex-Softmax: Tight Transformer Verification via Exact Softmax Optimization ⭐ 精选

Navid Rezazadeh, Arash Gholami Davoodi

cs.LG cs.AI

本文提出了Vertex-Softmax方法，通过证明softmax函数在区间约束下的精确最优解位于约束box的顶点，并建立阈值结构定理将候选解数量降至线性，从而实现了对Transformer attention中softmax的紧致形式化验证。该方法在CROWN框架下集成，具有形式化可靠性保证，在MNIST、Fashion-MNIST和CIFAR-10上的attention模型中显著提升了认证准确率并收紧了下界，同时以更低的计算成本匹配或超越了alpha-CROWN和branch-and-bound基线。该工作与关键词"attention"高度契合，解决了Transformer验证中长期存在的softmax松弛松弛问题。

SURGE: Surrogate Gradient Adaptation in Binary Neural Networks ⭐ 精选

Haoyu Huang et al.

cs.LG cs.AI

本文提出SURGE (SURrogate GradiEnt Adaptation)框架，用于解决Binary Neural Networks (BNNs)训练中因二值化操作（如sign function）不可导导致的gradient mismatch问题。核心创新包括：设计Dual-Path Gradient Compensator (DPGC)，通过为每个二值化层构建并行全精度辅助分支，利用output decomposition在反向传播中解耦梯度流，从而提供超越Straight-Through Estimator (STE)一阶近似的bias-reduced gradient estimation；以及引入Adaptive Gradient Scaler (AGS)，基于最优scale factor通过norm-based scaling动态平衡分支间的梯度贡献以增强训练稳定性。该方法在图像分类、目标检测和语言理解任务上均达到最优性能，为BNNs训练提供了理论驱动的可学习梯度补偿方案。

SkillGen: Verified Inference-Time Agent Skill Synthesis ⭐ 精选

Yuchen Ma et al.

cs.LG cs.AI cs.MA

SkillGen提出了一种多智能体框架，用于从基础agent的trajectories中合成可审计的skill。其核心创新在于将agent skill建模为intervention，通过对比同一实例上有无skill的结果来实证验证skill的净效应，从而同时考虑repairs（修复失败）和regressions（破坏成功）。该方法利用contrastive induction对成功和失败的trajectories进行对比归纳，以识别可复用的成功模式和常见失败模式，并迭代优化生成的skill。实验表明，SkillGen在多个agent和数据集上一致提升了held-out性能，并生成了可跨模型迁移的skill，与关键词“agent”高度契合。

GRAFT-ATHENA: Self-Improving Agentic Teams for Autonomous Discovery and Evolutionary Numerical Algorithms ⭐ 精选

Juan Diego Toscano, Zhaojie Chai, George Em Karniadakis

cs.LG cs.MA math.PR

GRAFT-ATHENA提出了一种自改进的agentic框架，通过GRAFT（Graph Reduction to Adaptive Factored Trees）将组合决策空间投影为因子化概率树，将参数复杂度从指数级降至线性级。该框架将每个数值方法编码为度量空间中的唯一指纹，使得新问题能够从相似历史问题中学习，从而在物理信息机器学习（PIML）基准和工程问题（如Apollo Command Module的Mach-10流场重建）上超越人类和先前的agent基线。系统能够自主扩展其知识基板，例如为不适定逆问题提出正则化约束，并发现具有指数收敛性的spectral PINN等新数值方法。这项工作为agent驱动的自主实验室提供了基础，使其在解决每个问题后都能自我提升。

Optimistic Dual Averaging Unifies Modern Optimizers ⭐ 精选

Thomas Pethick et al.

cs.LG

本文提出SODA框架，作为Optimistic Dual Averaging的推广，统一了Muon、Lion、AdEMAMix和NAdam等现代optimizer，证明它们均可视为该框架的乐观实例。基于此视角，作者为任意base optimizer设计了一个实用的SODA wrapper，通过理论支撑的$1/k$衰减调度消除了weight decay调参需求。实验表明，SODA在多种规模和训练周期下无需额外超参数调优即可持续提升性能，为optimizer设计提供了统一的理论视角。

Muon is Not That Special: Random or Inverted Spectra Work Just as Well ⭐ 精选

Zakhar Shumaylov et al.

cs.LG cs.AI math.NA math.OC stat.ML

本文通过引入Freon优化器家族（基于Schatten (quasi-)norms，利用QDWH迭代近似）和Kaon优化器（用随机噪声替代singular values），挑战了Muon优化器成功源于非欧几何结构的叙事。实验表明，在GPT-2预训练中，最佳性能的Schatten参数位于quasi-norm区域，且缺乏几何结构的Kaon仍能匹配Muon性能。作者进一步证明，优化性能主要由局部量alignment和descent potential控制，Muon的成功在于保证步长最优性，而非追踪理想全局几何，这与关键词“Muon”和“pretrain”高度契合。

Variational Linear Attention: Stable Associative Memory for Long-Context Transformers ⭐ 精选

Vishal Pandey, Gopal Singh

cs.LG

本文提出Variational Linear Attention (VLA)，将linear attention的记忆更新重新表述为带有自适应惩罚矩阵的在线正则化最小二乘问题，并利用Sherman-Morrison秩1公式维护该矩阵。作者证明，将写入方向归一化为单位长度可使递推Jacobian的spectral norm精确为1（Proposition 2），且状态范数在有界输入下是自限的（Proposition 1）。该方法在长序列中显著抑制了记忆状态的Frobenius范数增长，并在多查询associative recall任务中实现了接近完美的准确率，有效解决了long-context Transformer中记忆干扰的长期问题。

Beyond Similarity: Temporal Operator Attention for Time Series Analysis ⭐ 精选

Jevon Twitty et al.

cs.LG cs.AI

本文提出Temporal Operator Attention (TOA)框架，通过引入可学习的序列空间算子（sequence-space operator）替代标准softmax attention的凸组合约束，解决了时间序列建模中注意力机制无法表示符号性振荡变换（signed and oscillatory transformations）的根本局限。该方法将attention与显式算子学习结合，并设计Stochastic Operator Regularization机制（一种高方差dropout）来稳定$N \times N$稠密算子的训练。实验表明，TOA在PatchTST和iTransformer等骨干网络上显著提升了预测、异常检测和分类性能，尤其在重构密集型任务中表现突出，为时间序列分析提供了新的算子学习范式。

Test-Time Compute for Dense Retrieval: Agentic Program Generation with Frozen Embedding Models ⭐ 精选

Han Xiao

cs.LG cs.CL cs.IR

本文提出了一种在测试时利用额外计算资源提升冻结embedding模型性能的方法。通过agentic program-search loop，作者在冻结的embedding API上探索了259种候选推理程序，发现最优策略是一个简单的代数形式：用softmax加权的局部top-K文档质心与query进行插值。该方法在七个embedding模型家族上显著提升了nDCG@10指标，且无需重新训练模型，为dense retrieval领域提供了新的测试时计算范式。

MuonQ: Enhancing Low-Bit Muon Quantization via Directional Fidelity Optimization ⭐ 精选

Yupeng Su et al.

cs.LG

MuonQ提出了一种针对Muon优化器的低比特量化框架，通过方向保真度优化（directional fidelity optimization）解决了Muon状态对量化误差敏感的问题。该方法包含三项关键技术：预量化归一化（pre-quantization normalization）防止误差累积产生偏好方向、基于power iteration的结构分解（structural decomposition）将主导奇异分量单独量化以避免方向旋转、以及$\mu$-law companding量化（$\mu$-law companding quantization）提升密集动量区域的分辨率。实验表明，4-bit量化后的MuonQ在GPT和LLaMA风格模型的预训练（pretrain）中，训练损失和下游任务精度均接近全精度Muon，同时将优化器状态内存降低至原来的1/7.3。该工作为Muon优化器在低资源场景下的高效部署提供了开创性方案。

Adaptive Calibration in Non-Stationary Environments ⭐ 精选

Junyan Liu, Haipeng Luo, Lillian J. Ratliff

cs.LG stat.ML

本文针对非平稳环境下的在线校准预测问题，提出了一种自适应校准算法。通过引入基于epoch的调度策略和对预测空间的非均匀划分（在真实均值附近分配更细的分辨率），该算法在未知非平稳性度量$C$（定义为均值结果的最小$\ell_1$偏差）下，实现了$\ell_1$校准误差$\widetilde{O}(\sqrt{T}+(TC)^{\frac{1}{3}})$以及$\ell_2$和伪KL校准误差$\widetilde{O}((1+C)^{\frac{1}{3}})$的界，这些结果在平稳（$C=0$）和完全对抗（$C=T$）两种极端情况下均达到了最优。该方法解决了在线预测中校准误差如何自动适应环境非平稳程度这一长期问题，与关键词中的“context”和“agent”概念有潜在关联。

Gradient Clipping Beyond Vector Norms: A Spectral Approach for Matrix-Valued Parameters ⭐ 精选

Alexander Yukhimchuk et al.

cs.LG math.OC

本文提出了一种针对矩阵值参数的谱裁剪方法（spectral clipping），通过截断梯度矩阵中超过阈值的奇异值来稳定训练，同时保留奇异方向。该方法推广了经典的梯度范数裁剪，并提供了非凸优化下带谱裁剪SGD的收敛性分析，得到了重尾噪声下的最优收敛速率。文中还引入了基于移动平均或滑动窗口分位数的自适应阈值，并通过随机化截断SVD实现高效计算。这项工作与关键词中的“spectral”高度契合，并为处理矩阵结构参数的优化问题提供了开创性思路。

GEAR: Granularity-Adaptive Advantage Reweighting for LLM Agents via Self-Distillation ⭐ 精选

Sijia Li et al.

cs.LG cs.AI cs.CL

本文提出Granularity-adaptivE Advantage Reweighting (GEAR)框架，通过self-distillation从on-policy student与ground-truth-conditioned teacher的对比中提取token级和segment级信号，自适应地重塑trajectory-level GRPO advantage。该方法利用divergence spike作为语义偏离锚点，动态划分adaptive segment并调制局部advantage权重，从而在long-horizon trajectory中实现细粒度credit assignment。在数学推理和agentic tool-use基准上，GEAR显著优于标准GRPO及现有token/turn级方法，尤其在低GRPO基线准确率的挑战性场景中提升达20%左右。该工作与关键词“agent”高度契合，为LLM agent的强化学习后训练提供了自适应粒度credit assignment的新范式。

Hölder Policy Optimisation ⭐ 精选

Yuxiang Chen et al.

cs.LG cs.AI

本文提出HölderPO，一种通过Hölder mean（一种参数化的广义平均）统一token级概率聚合的策略优化框架。通过显式调节参数$p$，该框架在梯度集中度与方差界之间提供了连续控制，理论上证明了较大$p$能放大稀疏学习信号，而较小$p$则严格约束梯度方差。为解决静态配置无法普适地平衡集中性与稳定性的问题，作者设计了一种动态退火算法，在训练过程中逐步调度$p$值。实验表明，该方法在多个数学基准上达到$54.9\%$的平均准确率，相比标准GRPO提升$7.2\%$，并在ALFWorld任务上取得$93.8\%$的成功率，与关键词中的“agent”和“pretrain”概念有较好契合。

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction ⭐ 精选

Zhong Guan et al.

cs.LG cs.AI

本文针对异步agentic RL（reinforcement learning）中PPO-style off-policy correction的一个关键缺陷——missing old logits问题——进行了系统分析。作者指出，在异构训练系统中，total importance ratio应分解为training-inference discrepancy term和policy-staleness term，但异步pipeline中历史training-side logits的丢失会破坏这种解耦语义。为此，论文提出了三种精确的old-logit获取策略（snapshot-based version tracking、dedicated old-logit model、partial rollout interruption）以及一种近似修正方法（revised PPO-EWMA），后者在不增加系统开销的情况下显著提升了训练速度和优化性能。该工作为agent训练中的off-policy correction提供了新的理论视角和实用修复方案。

BSO: Safety Alignment Is Density Ratio Matching ⭐ 精选

Tien-Phat Nguyen et al.

cs.LG cs.AI

本文提出Bregman Safety Optimization (BSO)，将语言模型的安全对齐问题形式化为density ratio matching问题，并证明了最优安全策略的似然比存在闭式分解。BSO通过最小化数据与模型之间的Bregman divergence，得到一系列单阶段损失函数，无需辅助模型或在线强化学习，仅引入一个额外超参数。该方法在安全对齐基准测试中一致地改善了安全性与有用性之间的权衡，并统一了现有安全感知方法作为特例。

Aligning Flow Map Policies with Optimal Q-Guidance ⭐ 精选

Christos Ziakas, Alessandra Russo, Avishek Joey Bose

cs.LG

本文提出了一种名为Flow Map Policies的新型生成式策略，通过学习在现有flow-based策略的生成动力学中执行任意大小的跳跃（包括一步跳跃），实现了快速动作生成。作者理论推导了FLOW MAP Q-GUIDANCE (FMQ)，这是一个在critic引导的trust-region约束下最优的闭式学习目标，用于离线到在线强化学习（RL）的策略适应。此外，还引入了Q-GUIDED BEAM SEARCH (QGBS)，一种结合renoising与beam search的随机flow map采样器，支持迭代推理时优化。在OGBench和RoboMimic的12个机器人操作与运动任务中，FMQ在离线到在线RL上取得了最先进性能，平均成功率相对提升21.3%。

Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs ⭐ 精选

Guinan Su et al.

cs.LG cs.CL

本文提出了一种名为Multi-Stream LLMs的新方法，通过将语言模型从传统的单流消息格式（sequential message format）指令微调转变为多流并行计算（parallel streams of computation）指令微调，从而解决了现有AI agent在单流计算中无法同时进行思考、读取和生成输出的瓶颈问题。该方法在每个forward pass中同时从多个输入流读取并在多个输出流生成tokens，所有流之间通过因果依赖关系（causal dependence）关联。这一数据驱动的改变不仅提升了模型效率（通过并行化）和安全性（通过更好的关注点分离），还增强了模型的可监控性，与关键词中的agent和context高度契合。

Solve the Loop: Attractor Models for Language and Reasoning ⭐ 精选

Jacob Fein-Ashley, Paria Rashidinejad

cs.LG cs.AI cs.CL cs.NE

本文提出Attractor Models，通过一个backbone模块生成output embeddings，再由attractor模块通过求解不动点（fixed point）进行精炼，并利用隐式微分（implicit differentiation）获得梯度。该方法使得训练内存与有效深度无关，且迭代次数由收敛性自适应决定，解决了循环Transformer训练不稳定、深度受限的问题。实验表明，Attractor Models在语言模型预训练和推理任务上均实现Pareto改进，例如770M参数模型超越1.3B标准Transformer，并在Sudoku-Extreme和Maze-Hard等推理任务上以极小模型规模达到高准确率。此外，模型展现出equilibrium internalization现象，即不动点训练使初始输出嵌入接近平衡态，推理时可移除求解器而性能几乎不降，为将循环转化为可内化的计算提供了新思路。

Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation ⭐ 精选

Kexuan Shi et al.

cs.LG stat.ML

Pion提出了一种基于正交等价变换的谱保持优化器，通过左右正交变换更新权重矩阵，在训练过程中保持其奇异值不变，从而在固定谱范数的同时调节几何结构。该方法为Muon等加法优化器提供了稳定的替代方案，在LLM预训练和微调中表现出竞争力，其核心思想与spectral和pretrain关键词高度契合，且正交变换机制具有方法上的开创性。

Stargazer: A Scalable Model-Fitting Benchmark Environment for AI Agents under Astrophysical Constraints

Xinge Liu et al.

cs.LG cs.AI

本文提出了Stargazer，一个用于评估AI agent在径向速度时间序列数据上进行物理约束模型拟合能力的可扩展基准环境。该环境包含120个任务，评估发现agent在数值优化与物理约束遵循之间存在差距，且增加测试时计算量收益有限。

Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation

Saheed Faremi, Andrea Visentin, Luca Longo

cs.LG q-bio.NC

本文提出了一种基于卷积变分深度嵌入（Conv-VaDE）的EEG微状态发现方法，通过联合学习拓扑重建和概率软聚类来替代传统的硬聚类方法。实验在LEMON数据集上进行了系统架构搜索，发现中等深度网络配合紧凑通道宽度和小潜在维度能获得最佳性能。

QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization

Xiantao Jiang

cs.LG cs.AI

本文提出了一种名为QuIDE的统一度量指标，用于评估量化神经网络的效率，该指标通过一个公式将压缩率、准确率和延迟的权衡合并为单一分数。实验表明，不同任务存在不同的最优量化位宽，例如4-bit对简单任务和大语言模型最优，而8-bit对复杂CNN任务更合适。

Steering Without Breaking: Mechanistically Informed Interventions for Discrete Diffusion Language Models

Hanhan Zhou, Shamik Roy, Rashmi Gangadharaiah

cs.LG cs.AI cs.CL

本文研究了离散扩散语言模型（DLM）中的可控生成问题，发现传统均匀干预策略会降低生成质量。通过训练sparse autoencoder分析不同属性（如topic和sentiment）在去噪过程中的commitment schedule差异，提出了一种adaptive scheduler，仅在属性活跃形成的步骤进行干预，从而在保持生成质量的同时实现精确控制。

Hierarchical Multi-Scale Graph Neural Networks: Scalable Heterophilous Learning with Oversmoothing and Oversquashing Mitigation

Md Sazzad Hossen, Avimanyu Sahoo

cs.LG cs.AI

本文提出了一种名为Hierarchical Multi-view HAAR (HMH)的谱图学习框架，通过构建分层Haar小波基和可学习谱滤波器，旨在解决异配图（heterophilous graph）中的节点分类和图分类问题，并缓解过平滑和过挤压现象。该方法在多个数据集上取得了优于现有谱基线的性能，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度不高。

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Haohui Zhang et al.

cs.LG cs.AI

本文提出了一种名为LEAP的训练无关方法，通过未来上下文过滤和多序列叠加来检测扩散语言模型(dLLM)中早期收敛的token，从而在不依赖高置信度阈值的情况下加速并行解码。该方法在多个基准测试中降低了推理延迟和解码步数，但并未直接涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

$ξ$-DPO: Direct Preference Optimization via Ratio Reward Margin

Zhengyuan Fan et al.

cs.LG cs.AI

本文分析了SimPO中超参数$\beta$和$\gamma$难以联合调优的问题，指出$\beta$隐式控制样本过滤而$\gamma$的效果依赖于数据集的reward gap结构。为此，作者提出$\xi$-DPO方法，通过将优化目标从最大化reward gap的似然转变为最小化reward gap与最优margin之间的距离，并采用选择与拒绝响应之间的比值形式重新定义reward，从而得到一个有界且可解释的ratio reward margin $\xi$，避免了反复试错调参。

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

Jiaming Li et al.

cs.LG cs.AI cs.CV

本文提出Trajectory Matching Policy Optimization (TMPO)方法，通过Softmax Trajectory Balance目标匹配轨迹级reward分布，以解决扩散模型对齐中的reward hacking和模式坍缩问题，并引入Dynamic Stochastic Tree Sampling提升训练效率。该方法在人类偏好、组合生成等任务上提升了生成多样性，但与关键词列表中的概念无直接关联。

Structural Interpretations of Protein Language Model Representations via Differentiable Graph Partitioning

Siddhant Dutta et al.

cs.LG cs.AI q-bio.BM

本文提出SoftBlobGIN框架，将ESM-2的residue representations投影到protein contact graphs上，通过可微分的Gumbel-softmax substructure pooling进行结构感知的消息传递，以学习功能子结构。该方法在酶分类和结合位点检测任务上取得了高性能，并提供了可审计的结构解释。

AESOP: Adversarial Execution-path Selection to Overload Deep Learning Pipelines

Tingxi Li et al.

cs.LG cs.AI cs.CR

本文研究了深度学习推理管道中的效率攻击问题，提出了一种名为AESOP的对抗性执行路径选择框架。该框架通过结合漏洞引导的路径排序和自适应损失加权，在相同输入和预算下实现了比单模型基线高20倍的FLOPs膨胀效果。

Seeing the Needle in the Haystack: Towards Weakly-Supervised Log Instance Anomaly Localization via Counterfactual Perturbation

Yutszyuk Wong et al.

cs.LG cs.AI

本文提出LogMILP框架，利用prototype和counterfactual perturbation在仅使用bag-level标签的情况下实现log instance anomaly localization，实验表明该方法在三个数据集上取得了可靠的定位效果。

Test-Time Personalization: A Diagnostic Framework and Probabilistic Fix for Scaling Failures

Linhai Zhang, Yulan He

cs.LG cs.AI

本文提出了一个用于LLM个性化推理时扩展的测试时个性化框架，通过采样多个候选并选择最优来提升效用，并推导了缩放定律以诊断标准reward model的失败模式。

Finite Volume-Informed Neural Network Framework for 2D Shallow Water Equations: Rugged Loss Landscapes and the Importance of Data Guidance

Xiaofeng Liu

cs.LG

本文提出Data-Guided FVM-PINN框架，用finite-volume (FVM) loss替代PINN的强形式残差来处理2D浅水方程，发现纯物理训练会陷入低动量退化状态，而加入稀疏数据可显著提升精度。

DisagMoE: Computation-Communication overlapped MoE Training via Disaggregated AF-Pipe Parallelism

Zhichen Zeng et al.

cs.LG cs.AI cs.DC

本文提出DisagMoE系统，通过将attention和FFN层分离到不同GPU组并采用多阶段流水线调度，以重叠MoE训练中的all-to-all通信与计算，从而缓解通信瓶颈。实验表明该方法在16节点集群上可实现最高1.8倍加速。

RT-Transformer: The Transformer Block as a Spherical State Estimator

Peter Racioppo

cs.LG cs.AI

本文从几何估计的角度重新解释了Transformer块的核心组件，将latent state建模为hypersphere上的方向，并证明attention、residual connections和normalization可以统一为球面状态估计问题的自然结果。

When and How to Canonize: A Generalization Perspective

Yonatan Sverdlov et al.

cs.LG cs.AI

本文通过bound covering numbers建立了一个理论框架，分析了不变性架构、group averaging和canonization方法的泛化误差，并证明了canonization的误差界介于最优与最差之间。针对permutation groups，文章证明了lexicographical sorting的covering number随点云维度指数增长，而Hilbert curve canonization则保证多项式增长，为后者的经验成功提供了理论依据。

ACSAC: Adaptive Chunk Size Actor-Critic with Causal Transformer Q-Network

Qian Chen et al.

cs.LG cs.RO

本文提出ACSAC方法，利用causal Transformer critic评估不同大小action chunk的期望回报，并自适应选择chunk size以平衡反应速度与时间一致性，在长时域稀疏奖励任务上取得SOTA性能。

A Comparative Study of Federated Learning Aggregation Strategies under Homogeneous and Heterogeneous Data Distributions

Antonios Makris et al.

cs.LG

本文对联邦学习中多种聚合策略在均匀和异构数据分布下的性能进行了实验比较，分析了不同聚合机制对模型精度、损失及系统效率的影响。结果表明聚合策略的有效性依赖于数据集特征和操作条件。

LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

Taekhyun Park et al.

cs.LG cs.AI

本文提出LoopUS框架，通过将预训练LLM分解为encoder、循环推理块和decoder，并引入选择性门控与深度监督等机制，将其转换为循环架构以提升推理性能，无需从头训练或大幅修改模型结构。该方法主要关注推理能力的提升，与关键词中的code、context、attention等概念关联较弱。

Backbone-Equated Diffusion OOD via Sparse Internal Snapshots

Yadang Alexis Rouzoumka et al.

cs.LG cs.AI

本文提出了一种基于扩散模型的OOD检测方法，通过Mutualized Backbone-Equated协议对齐不同backbone的噪声水平和测试成本，并引入Canonical Feature Snapshots仅利用少量内部激活进行检测。实验表明OOD信号集中在稀疏的内部状态中，无需完整去噪轨迹。

Simpson's Paradox in Behavioral Curves: How Aggregation Distorts Parametric Models of User Dynamics

Chao Zhou

cs.LG cs.AI cs.IR

本文揭示了行为曲线建模中的Simpson悖论现象，指出聚合数据会导致用户动态参数的系统性偏差，并通过多个数据集验证了生存偏差是主要机制。

Efficient LLM Reasoning via Variational Posterior Guidance with Efficiency Awareness

Zizhao Chen et al.

cs.LG cs.AI

本文针对大语言模型推理中的过度思考问题，提出了一种基于变分后验引导的效率感知框架VPG-EA，通过参数共享的双流架构和变分蒸馏来压缩推理链，实验表明该方法在效率指标上有所提升。

Trust Region Inverse Reinforcement Learning: Explicit Dual Ascent using Local Policy Updates

Anish Diwan et al.

cs.LG cs.AI cs.RO

本文提出Trust Region Inverse Reinforcement Learning (TRIRL)算法，通过信任区域约束下的局部策略更新实现显式对偶上升，在避免每轮迭代完全求解RL问题的同时，保证了reward function和policy的单调改进。该方法在多个任务上以2.4倍的聚合四分位均值优势超越现有模仿学习方法。

A Switching System Theory of Q-Learning with Linear Function Approximation

Donghwan Lee, Han-Dong Lim

cs.LG

本文基于joint spectral radius (JSR)理论，为带有线性函数逼近的Q-learning建立了一个切换系统解释，推导了其平均动力学的精确线性切换模型，并将收敛性分析转化为对应切换系统的稳定性问题。

ASD-Bench: A Four-Axis Comprehensive Benchmark of AI Models for Autism Spectrum Disorder

Shubhankit Singh et al.

cs.LG cs.AI

本文提出了ASD-Bench，一个用于评估自闭症谱系障碍筛查AI模型的四轴基准测试，涵盖预测性能、校准、可解释性和对抗鲁棒性，并在不同年龄组上进行了实验。该工作主要关注医疗AI评估，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

Enabling Performant and Flexible Model-Internal Observability for LLM Inference

Nengneng Yu et al.

cs.LG cs.AI cs.PF cs.SE eess.SY

本文提出了DMI-Lib，一个用于LLM推理的高性能模型内部可观测性系统，通过异步观测机制和GPU-CPU内存抽象实现低开销的模型状态监控。实验表明该系统在离线批处理和在线服务中仅引入少量额外开销。

Newton's Lantern: A Reinforcement Learning Framework for Finetuning AC Power Flow Warm Start Models

Shourya Bose, Helgi Hilmarsson, Dhruv Suri

cs.LG cs.AI eess.SY

本文提出了一种名为Newton's Lantern的强化学习框架，用于微调AC power flow问题的warm start模型。该方法通过group relative policy optimization和基于迭代次数的reward model，在多个benchmark上实现了更好的收敛性和更小的平均迭代次数。

Language Modeling with Hyperspherical Flows

Justin Deschenaux, Caglar Gulcehre

cs.LG

本文提出$\mathbb{S}$-FLM，一种在超球面空间中进行连续流语言建模的方法，通过旋转向量而非处理高维one-hot向量来生成序列，从而降低训练成本。实验表明该方法在数学和代码等可验证领域提升了性能，但与掩码扩散模型相比仍有差距。

HEPA: A Self-Supervised Horizon-Conditioned Event Predictive Architecture for Time Series

Jonas Petersen et al.

cs.LG cs.AI

本文提出HEPA框架，使用causal Transformer encoder通过Joint-Embedding Predictive Architecture (JEPA)进行自监督预训练，学习预测未来representation而非原始值，并在下游任务中仅微调predictor以生成单调的survival cumulative distribution function (CDF)。该方法在多个时间序列基准上表现优异，但未涉及code、spectral或Muon等关键词。

Steerable Neural ODEs on Homogeneous Spaces

Emma Andersdotter, Daniel Persson, Fredrik Ohlsson

cs.LG math.DG

本文在齐性空间$M=G/H$上引入了可操控神经ODE模型，将特征解释为伴随向量丛的截面，并通过平行传输描述其演化。该框架为学习齐性空间上向量值特征的连续时间等变动力学提供了几何基础。

Spurious Correlation Learning in Preference Optimization: Mechanisms, Consequences, and Mitigation via Tie Training

Christian Moya et al.

cs.LG cs.AI

本文分析了Preference Optimization（如DPO）中spurious correlation学习机制，指出其通过mean spurious bias和causal-spurious correlation leakage两个渠道导致模型对分布偏移的脆弱性，并提出tie training（使用等效用偏好对的数据增强）作为缓解策略。理论验证基于log-linear模型，并在neural networks和large language models上提供了实证支持。

Rank Is Not Capacity: Spectral Occupancy for Latent Graph Models

Nikolaos Nakis et al.

cs.LG

本文提出Spectra方法，用归一化谱有效秩替代潜在维度作为图表示学习中的容量度量，通过训练时控制单一标量来调节模型的实际容量，并在多种网络上展示了性能-容量权衡。该方法为理解过参数化图模型的容量提供了新视角。

CORE: Cyclic Orthotope Relation Embedding for Knowledge Graph Completion

Yingqi Zeng, Luying Wang, Huiling Zhu

cs.LG

本文提出CORE模型，将entities和relations嵌入到无边界的torus manifold上，用cyclic orthotopes表示relations以解决绝对边界约束问题。通过adaptive width regularization防止区域无限扩张，实验表明该方法在dense semantic环境中提升了link prediction accuracy。

Interpretability Can Be Actionable

Hadas Orgad et al.

cs.LG cs.AI

本文认为可解释性研究应通过可操作性（即能否支持具体决策和干预）来评估，而非仅依赖新方法。文章提出了可操作性的两个维度（具体性和验证性），并分析了阻碍实际应用的障碍。

COSMOS: Model-Agnostic Personalized Federated Learning with Clustered Server Models and Pseudo-Label-Only Communication

Ben Rachmut et al.

cs.LG

本文提出了一种名为COSMOS的模型无关联邦学习框架，通过仅使用伪标签通信实现服务器端个性化。该方法通过客户端聚类和知识蒸馏处理异构性，并提供了理论分析证明其个性化风险呈指数级收缩。

Unlearning with Asymmetric Sources: Improved Unlearning-Utility Trade-off with Public Data

Ahmed Mehdi Inane et al.

cs.LG cs.CR

本文提出Asymmetric Langevin Unlearning (ALU)框架，利用public data来缓解certified machine unlearning中噪声与utility之间的权衡问题。理论证明public data注入可将unlearning cost降低$O(1/n_{\mathrm{pub}}^2)$，并在distribution mismatch场景下分析了其影响。

Oversmoothing as Representation Degeneracy in Neural Sheaf Diffusion

Arif Dönmez et al.

cs.LG cs.AI math.RT

本文通过quiver理论将Neural Sheaf Diffusion (NSD)中的cellular sheaves解释为incidence quiver的表示，并证明扩散极限下的harmonic space分解对应于表示的直接和分解。文章将oversmoothing解释为表示退化现象，并引入基于Geometric Invariant Theory的moment-map正则化器来平衡表示几何，同时指出等stalk架构中的结构障碍。

CATS: Cascaded Adaptive Tree Speculation for Memory-Limited LLM Inference Acceleration

Yuning Han et al.

cs.LG cs.AI

本文针对内存受限设备上LLM推理的内存瓶颈问题，提出了一种自推测解码框架CATS，通过级联验证与参数卸载模式优化，在保持峰值内存占用不变的前提下实现了最高5.08倍的加速。该方法主要面向边缘设备场景，与关键词中的“attention”或“code”等概念关联较弱。

Deep Learning for Protein Complex Prediction and Design

Ziwei Xie

cs.LG q-bio.BM

本文利用深度学习研究了蛋白质复合物预测与设计中的两个基本问题：领域特定架构和搜索算法，旨在改进复合物结构预测并设计蛋白质序列。

FeatMap: Understanding image manipulation in the feature space and its implications for feature space geometry

Elias B. Krey, Nils Neukirch, Nils Strodthoff

cs.LG cs.CV

本文通过在输入空间应用多种变换（如几何、光度变换和语义编辑），研究在feature space中学习从原始到变换后feature map的映射的可行性。结果表明，即使对于复杂的语义操作，使用共享线性模型也能以很小的重建质量损失实现映射，这暗示feature space可能近似由线性结构组织。

The Scaling Law of Evaluation Failure: Why Simple Averaging Collapses Under Data Sparsity and Item Difficulty Gaps, and How Item Response Theory Recovers Ground Truth Across Domains

Jung Min Kang

cs.LG cs.AI

本文通过跨四个领域的模拟实验，证明了当评估矩阵稀疏且项目难度差异大时，简单平均排名会严重偏离真实排名，而Item Response Theory (IRT)模型能保持高度稳健。该研究主要关注评估方法论，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Measuring Five-Nines Reliability: Sample-Efficient LLM Evaluation in Saturated Benchmarks

Eungyeup Kim et al.

cs.LG

本文提出使用cross-entropy method (CEM)学习一个集中在易失败输入上的采样分布，以在有限计算预算下估计LLM的极端可靠性（如99.999%）。实验表明，该方法在参数化GSM8K模板上实现了高达156.22倍的推理量减少，并揭示了标准基准中精度相似的模型在失败率上可能存在显著差异。

Enforcing Constraints in Generative Sampling via Adaptive Correction Scheduling

Noah Trupin, Yexiang Xue

cs.LG

本文研究了生成采样中硬约束的强制执行问题，提出了一种自适应校正调度方法，通过状态依赖的策略分配投影预算，以改善成本-精度平衡。实验表明，该方法能在减少校正次数的同时恢复大部分逐步投影的收益。

Leveraging RAG for Training-Free Alignment of LLMs

John T. Halloran

cs.LG cs.AI cs.CR

本文提出了一种基于Retrieval Augmented Generation (RAG)的免训练对齐算法RAG-Pref，通过在推理时利用偏好样本的对比信息来提升LLM的拒绝能力，尤其针对agentic攻击。该方法计算开销低，可与现有离线对齐算法结合使用。

ADMM-Q: An Improved Hessian-based Weight Quantizer for Post-Training Quantization of Large Language Models

Ryan Lucas et al.

cs.LG

本文提出ADMM-Q，一种基于ADMM（Alternating Direction Method of Multipliers）的权重量化算法，通过连续更新权重并逐步施加量化约束来最小化逐层重建误差，用于大语言模型的后训练量化。该方法可作为现有量化流程的即插即用组件，在多个设置下（如W3A16、W4A8）降低了困惑度。

LiBaGS: Lightweight Boundary Gap Synthesis for Targeted Synthetic Data Selection

Abhishek Moturu, Anna Goldenberg, Babak Taati

cs.LG cs.AI

LiBaGS提出了一种轻量级的、与生成器无关的合成训练数据选择方法，通过结合决策边界邻近性、预测不确定性、真实数据密度和支持有效性来评分候选样本，并利用边界间隙分配规则和边际价值停止规则来高效选择样本。该方法主要关注数据增强和合成数据选择，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念无直接关联。

A Comparative Study of Model Selection Criteria for Symbolic Regression

Ali Soltani et al.

cs.LG

本文系统比较了符号回归中多种模型选择准则（如AIC、BIC、MDL等）的性能，发现MDL在多数数据集上能选出测试误差最低且长度最短的模型。该工作为模型选择提供了实证参考，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

Internalizing Curriculum Judgment for LLM Reinforcement Fine-Tuning

Han Zheng et al.

cs.LG cs.AI

本文提出METIS框架，通过将课程判断内化为LLM强化微调(RFT)的原生能力，利用prompt内reward方差作为信息度量，并基于近期训练结果进行轻量级in-context learning预测，从而动态分配训练资源。该方法在数学推理、代码生成和agent函数调用等基准上提升了性能并加速收敛。

DeconDTN-Toolkit: A Library for Evaluation and Enhancement of Robustness to Provenance Shift

Yongsen Tan et al.

cs.LG

本文提出了DeconDTN-Toolkit库，用于模拟和评估provenance shift（数据来源与标签关系在部署时发生变化）下的鲁棒性，建立了与counterfactual invariance和invariant learning的理论联系，并揭示了Empirical Risk Minimization在此类shift下的脆弱性。

Extending Kernel Trick to Influence Functions

Zhenhuan Sun, Shahrokh Valaee

cs.LG stat.ML

本文提出了influence functions的对偶表示，其计算复杂度与数据集大小而非模型大小相关，适用于模型规模远大于数据集规模的情况。该方法主要针对可线性化模型，但需要存储与模型输出维度和数据集大小乘积相关的矩阵。

Support-Proximity Augmented Diffusion Estimation for Offline Black-Box Optimization

Yonghan Yang et al.

cs.LG

本文提出SPADE框架，通过条件扩散模型估计前向似然$p(y|x)$，并引入校准扩散估计和支持邻近正则化来改进离线黑箱优化。该方法在Design-Bench任务和LLM数据混合优化基准上取得了先进性能。

A Proof-of-Concept Simulation-Driven Digital Twin Framework for Decision-Aware Diabetes Modeling

Zarrin Monirzadeh

cs.LG

本文提出了一个基于仿真的数字孪生框架用于糖尿病建模，使用公开临床数据和合成时间序列生成可解释的模拟轨迹，并展示了预测与反事实模拟结合的可行性，但未达到临床就绪水平。

Curriculum Learning-Guided Progressive Distillation in Large Language Models

Jincheng Cao et al.

cs.LG cs.AI

本文提出Curriculum Learning-Guided Progressive Distillation (CLPD)框架，通过显式对齐数据难度与教师模型能力，在知识蒸馏中同时考虑学习顺序和师生容量不匹配问题。实验表明该方法在推理任务上优于标准蒸馏方法。

Latent Chain-of-Thought Improves Structured-Data Transformers

Carson Dudley, Samet Oymak

cs.LG

本文提出了一种用于结构化数据（时间序列和表格数据）的latent chain-of-thought递归方案，通过将query-position hidden states压缩为feedback tokens并再次处理来增强transformer的表达能力。实验表明该方法在多个数据集上优于无CoT的baseline和更深层的baseline。

Localization Boosting for Growth Markets: Mitigating Cross-Locale Behavioral Bias in Learning-to-Rank

Suryaa Veerabathiran Seran et al.

cs.LG cs.AI cs.IR

本文针对Adobe Express国际化过程中，基于行为反馈的LTR模型存在的跨地区曝光偏差问题，提出了一种结合VLM相关性信号与地区感知提升的多目标框架，以改善非美国地区的本地内容可见性与排序质量。

Quotient-Categorical Representations for Bellman-Compatible Average-Reward Distributional Reinforcement Learning

Ege C. Kaya et al.

cs.LG math.OC

本文在平均奖励分布强化学习中引入商空间公式和范畴参数化，以解决偏差定义不唯一的问题，并证明了投影算子的良定义性和非扩张性。该工作为分布强化学习提供了理论框架，但与关键词列表中的概念关联较弱。

Optimal Representations for Generalized Contrastive Learning with Imbalanced Datasets

Thuan Nguyen et al.

cs.LG

本文研究了类别不平衡下对比学习(Contrastive Learning)最优表示的几何结构，证明了当类别不平衡时，最优表示会呈现由类别比例决定的角对称结构，并在极端不平衡时出现少数类崩溃(Minority Collapse)现象。

Primal Generation, Dual Judgment: Self-Training from Test-Time Scaling

Yizhu Jiao et al.

cs.LG cs.CL cs.SE

本文提出DuST框架，通过在代码生成的dual judgment space（即模型自身采样候选程序并基于执行正确性进行排序）中进行self-training，利用GRPO优化模型的判别能力，从而提升生成质量。实验表明该方法在多个模型上改善了test-time scaling效果，但未涉及关键词中的spectral、Muon、pretrain、agent或attention等概念。

A Theory of Time-Sensitive Language Generation: Sparse Hallucination Beats Mode Collapse

Atul Ganju et al.

cs.LG cs.AI cs.CL

本文研究了在全局偏好排序下语言生成的时效性问题，证明了对于最终一致的生成器，及时生成是不可能的，但通过允许随时间消失的稀疏幻觉率，可以规避这一不可能性结果，并实现相对于超线性截止函数的最优密度。

Couple to Control: Joint Initial Noise Design in Diffusion Models

Jing Jia, Liyue Shen, Guanyang Wang

cs.LG cs.CV stat.CO stat.ML

本文提出了一种通过设计初始噪声的耦合结构（而非独立采样）来改进扩散模型生成多样性的方法，将初始噪声控制问题重新定义为多样本依赖结构的设计。该方法无需增加采样成本即可提升生成多样性，并在多个扩散模型上验证了效果。

Error whitening: Why Gauss-Newton outperforms Newton

Maricela Best McKay et al.

cs.LG math.OC

本文从函数空间视角分析了Gauss-Newton方法优于Newton方法的原因，指出广义Gauss-Newton矩阵将Newton方向投影到模型切空间，消除了参数化带来的扭曲，并将此效应称为error whitening。实验表明Gauss-Newton优化器在监督学习、物理信息深度学习等领域优于Newton方法、Adam和Muon。

$\varepsilon$-Good Action Identification in Fixed-Budget Monte Carlo Tree Search

Yinan Li, Tuan Nguyen, Kwang-Sung Jun

cs.LG stat.ML

本文研究了固定预算下深度为2的max-min树中的$\varepsilon$-good action识别问题，提出了一种不依赖$\varepsilon$作为输入的算法，并给出了误识别概率的指数衰减界。该工作为Monte Carlo Tree Search中的近似规划提供了理论保证。

Neural Statistical Functions

Daniel Xu et al.

cs.LG

本文提出了一种名为neural statistical functions的新模型家族，通过从预训练的单样本预测器和分散数据样本中学习，能够直接推断连续操作条件范围内的统计量（如积分、分位数和最大值），而无需显式采样。该方法在复杂物理过程的统计估计中实现了高达100倍的模型评估次数减少。

Epistemic Uncertainty for Test-Time Discovery

Kainat Riaz et al.

cs.LG cs.AI

本文提出UG-TTT方法，通过维护一个低秩adapter的小型ensemble来量化epistemic uncertainty，并将其作为exploration bonus引入policy gradient，以解决大语言模型在科学发现中因强化学习偏好熟悉模式而导致的reward plateau问题。实验表明该方法在多个benchmark上提升了最大reward和solution diversity。

VERDI: Single-Call Confidence Estimation for Verification-Based LLM Judges via Decomposed Inference

Jasmine Qi, Danylo Dantsev, Muyang Sun

cs.LG cs.CL cs.IR

VERDI提出了一种从结构化LLM法官的推理轨迹中提取置信度信号的方法，无需额外推理调用。该方法通过分解验证式评估为子检查并组合三种结构信号，在多个基准上提升了置信度校准效果。

Physics-Informed Teacher-Student Ensemble Learning for Traffic State Estimation with a Varying Speed Limit Scenario

Archie J. Huang et al.

cs.LG cs.AI cs.CE

本文提出了一种结合物理信息深度学习(PIDL)与教师-学生集成训练的框架，用于解决变限速(VSL)场景下的交通状态估计(TSE)问题。该方法通过教师模型局部编码流量守恒定律，学生模型使用MLP分类器选择集成成员，在案例研究中相比基线方法取得了更优的相对L2误差。

Gradient-Free Noise Optimization for Reward Alignment in Generative Models

Jeongsol Kim et al.

cs.LG cs.AI cs.CV

本文提出了一种名为ZeNO的无梯度噪声优化框架，用于生成模型中的奖励对齐。该方法将噪声优化建模为路径积分控制问题，仅需零阶奖励评估即可实现，无需通过生成器进行反向传播。

gym-invmgmt: An Open Benchmarking Framework for Inventory Management Methods

Reza Barati, Qinmin Vivian Hu

cs.LG cs.CE

本文提出了gym-invmgmt，一个用于库存管理方法评估的开源benchmark框架，通过统一的CoreEnv合约比较了优化、启发式和强化学习等多种控制器在不同场景下的性能。实验表明，在已发布的场景中，随机规划方法提供了最强的非oracle参考，而PPO-Transformer在learned controller中表现最佳。

The tractability landscape of diffusion alignment: regularization, rewards, and computational primitives

Ankur Moitra, Andrej Risteski, Dhruv Rohatgi

cs.LG cs.DS

本文研究了扩散模型推理时奖励对齐的计算复杂度，分析了在KL距离和Wasserstein距离下对齐所需的基本算法原语，并展示了不同距离选择如何影响可处理的奖励类别。

Causal Fairness for Survival Analysis

Drago Plecko

cs.LG cs.AI stat.AP stat.ML

本文针对生存分析中的公平性问题，提出了一个因果框架，通过非参数方法将生存时间中的差异分解为直接、间接和虚假路径的贡献，并分析了ICU入院后种族差异的时间演变。

LPDP: Inference-Time Reward Control for Variable-Length DNA Generation with Edit Flows

Jeongchan Kim, Yunkyung Ko, Jong Chul Ye

cs.LG cs.AI q-bio.GN

本文提出LPDP方法，用于在DNA序列生成中对变长编辑流进行推理时的奖励控制。该方法通过局部离散编程和编辑动作的几何类型来优化序列，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

TRACE: Temporal Routing with Autoregressive Cross-channel Experts for EEG Representation Learning

Fan Ma et al.

cs.LG cs.AI

本文提出TRACE框架，通过自回归方式预测未来EEG patches，并在每个时间步基于因果跨通道历史进行专家路由决策，以保持瞬时跨通道一致性。该方法在多个下游基准上取得有竞争力结果，但未直接涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Behavioral Mode Discovery for Fine-tuning Multimodal Generative Policies

Alberta Longhini et al.

cs.LG cs.RO

本文提出了一种无监督的行为模式发现框架，用于在强化学习微调预训练生成策略（如diffusion policy）时保持动作分布的多模态性。该方法通过互信息作为内在奖励来正则化微调过程，在机器人操作任务中实现了更高的成功率并保留了更丰富的多模态动作分布。

More Than Meets the Eye: A Semantics-Aware Traffic Augmentation Framework for Generalizable Website Fingerprinting

Youquan Xian et al.

cs.LG cs.CR cs.NI

本文提出了一种名为SATA的语义感知流量增强框架，用于提升网站指纹识别模型在真实环境中的泛化能力。该方法通过应用层语义增强和跨层特征对齐机制，生成训练集中不存在但测试集中真实存在的流量模式。

fg-expo: Frontier-guided exploration-prioritized policy optimization via adaptive kl and gaussian curriculum

Mingxiong Lin et al.

cs.LG cs.AI cs.CL

本文针对LLM数学推理中的GRPO算法，提出了FG-ExPO框架，包含两个轻量级组件：Accuracy-Conditioned KL Scaling (AKL)根据批次平均准确率自适应调整KL惩罚系数，以及Gaussian Curriculum Sampling (GCS)将问题采样权重集中在中等难度（准确率约0.5）的样本上。实验表明该方法在多个数学推理基准上优于原始GRPO，尤其在pass@32指标上提升显著。

20/20 Vision Language Models: A Prescription for Better VLMs through Data Curation Alone

Siddharth Joshi et al.

cs.LG

本文研究了仅通过数据筛选（data curation）来提升Vision-Language Model (VLM)性能的潜力，在固定架构和训练方案下，通过筛选数据使模型在多个基准测试上平均提升超过11个百分点，并展现出更好的可靠性和泛化能力。该工作主要关注数据层面的优化，与关键词中的code, spectral, Muon, agent, attention等方向关联较弱。

A Boundary-Aware Non-parametric Granular-Ball Classifier Based on Minimum Description Length

Zeqiang Xian et al.

cs.LG

本文提出了一种基于最小描述长度原理的边界感知非参数粒球分类器MDL-GBC，通过将粒球构建转化为局部模型选择问题，并利用统一描述长度准则比较单球、双球和核心-边界三种候选模型，实现了对边界敏感区域的显式建模。实验表明该方法在多个基准数据集上取得了有竞争力的分类性能。

MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification

Bo Zheng et al.

cs.LG cs.AI cs.CL

MaskTab提出了一种针对工业表格数据的统一预训练框架，通过可学习token编码缺失值，并采用双路径架构联合优化掩码重建与任务监督。该方法在工业基准上提升了AUC和KS指标，但未涉及code、spectral、Muon或agent等关键词。

Generative Diffusion Prior Distillation for Long-Context Knowledge Transfer

Nilushika Udayangani, Kishor Nandakishor, Marimuthu Palaniswami

cs.LG cs.AI

本文提出了一种名为Generative Diffusion Prior Distillation (GDPD)的知识蒸馏框架，用于解决部分时间序列分类器因输入数据不完整而导致的泛化能力下降问题。该方法将短上下文的学生特征视为全上下文教师特征的退化观测，并利用扩散模型学习教师特征的生成先验，通过后验采样为学生提供任务相关的长上下文知识。实验表明，GDPD在多种设置下有效提升了部分序列分类的性能。

FastUMAP: Scalable Dimensionality Reduction via Bipartite Landmark Sampling

Hongmin Li

cs.LG

FastUMAP提出了一种基于二分地标采样的快速降维方法，通过构建稀疏点-地标模糊图并利用Nystrom谱方法进行初始化，在保持可接受精度的同时显著降低了运行时间。该方法适用于需要多次重复降维的探索性分析场景，但并未直接涉及代码、上下文、谱方法（除Nystrom外）、Muon、预训练、智能体或注意力机制等关键词。

Deep Minds and Shallow Probes

Su Hyeong Lee, Risi Kondor

cs.LG cs.AI

本文研究了神经网络表示中的对称性对probing方法的影响，提出了一种基于坐标稳定性的probe层次结构（包括线性probe和二次probe），并引入了probe可见商空间的概念用于跨模型probe迁移。实验验证了二次probe在某些任务中的优势以及商空间迁移的有效性。

Beyond Prediction: Interval Neural Networks for Uncertainty-Aware System Identification

Mehmet Ali Ferah, Tufan Kumbasar

cs.LG eess.SY

本文提出了一个用于不确定性感知系统辨识的Interval Neural Networks (INNs)框架，通过将crisp神经网络扩展为区间形式，开发了Interval LSTM和NODE模型，并设计了C-INN和J-INN两种训练策略。实验表明该方法在预测精度和区间校准方面具有有效性，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Drop the Act: Probe-Filtered RL for Faithful Chain-of-Thought Reasoning

Swapnil Parekh

cs.LG cs.AI

本文提出ProFIL方法，通过在GRPO中引入基于frozen base model的multi-head attention probe来检测并抑制reasoning theater（模型在内部确定答案后生成的、对正确性无贡献的推理步骤），从而提升chain-of-thought的忠实度并缩短chain length。实验表明该方法在多个推理领域和模型架构上有效减少了theater并保持了任务准确率。

Robust Multi-Agent Path Finding under Observation Attacks: A Principled Adversarial-Plus-Smoothing Training Recipe

Riad Ahmed

cs.LG

本文针对多智能体路径规划(MAPF)在观测攻击下的鲁棒性问题，提出了两种训练方法：Adv-PPO和Adv-PPO+MACER。前者通过对抗训练增强策略对最坏情况扰动的抵抗能力，后者在此基础上引入基于randomized smoothing的平滑项进行微调，实验表明该方法能显著提升agent在攻击下的任务成功率。

On the Approximation Complexity of Matrix Product Operator Born Machines

Chao Li et al.

cs.LG

本文研究了Matrix Product Operator Born Machines (MPO-BMs)的近似复杂性，证明了在连续设定下KL近似是NP-hard的，但在满足局部性和谱间隙条件时，结构化目标可被多项式bond dimension的MPO-BM有效近似。

Efficient Adjoint Matching for Fine-tuning Diffusion Models

Jeongwoo Shin et al.

cs.LG

本文提出Efficient Adjoint Matching (EAM)方法，通过将reward fine-tuning问题重新表述为具有linear base drift的stochastic optimal control问题，显著提升了扩散模型的微调效率。该方法避免了完整的adjoint simulation，在文本到图像生成任务上实现了更快的收敛速度。

Understanding and Preventing Entropy Collapse in RLVR with On-Policy Entropy Flow Optimization

Huimin Xu et al.

cs.LG cs.AI

本文从token-level entropy flow的角度分析了RLVR算法中的entropy collapse问题，发现entropy-decreasing tokens持续占优导致entropy flow失衡，并提出了On-Policy Entropy Flow Optimization (OPEFO)机制来平衡entropy dynamics，在数学推理基准上提升了训练稳定性与性能。

CTFusion: A CTF-based Benchmark for LLM Agent Evaluation

Dongjun Lee, Ga-eun Bae, Insu Yun

cs.LG cs.CR

本文提出了CTFusion，一个基于Live CTF的流式评估框架，用于解决现有CTF基准测试中数据污染和作弊的问题。该框架通过MCP服务器实现，支持多智能体独立评估，并验证了其在评估LLM-based agent方面的可靠性。

EqOD: Symmetry-Informed Stability Selection for PDE Identification

Gnankan Landry Regis N'guessan, Bum Jun Kim

cs.LG cs.CE

本文提出EqOD方法，通过对称性检测（Galilean invariance）和随机LASSO稳定性选择两种机制自动缩减候选微分算子库，用于数据驱动PDE识别。实验表明该方法在噪声环境下优于现有基线，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

OverNaN: NaN-Aware Oversampling for Imbalanced Learning with Meaningful Missingness

Amanda S Barnard

cs.LG

OverNaN提出了一种处理缺失值（missingness）的过采样框架，通过保留缺失结构而非删除或插补来应对类别不平衡问题，适用于小规模、不完整且不平衡的数据集。该方法扩展了常见合成过采样方法，使其能直接在不完整特征向量上操作。

FERMI: Exploiting Relations for Membership Inference Against Tabular Diffusion Models

Abtin Mahyar et al.

cs.LG cs.CR cs.DB

本文针对表格数据扩散模型的成员推断攻击，提出FERMI方法，通过利用目标表关联的父表等辅助信息来增强单表特征，从而在攻击中提升性能。实验表明，该方法在白盒和黑盒设置下均优于传统单表基线。

Multi-Narrow Transformation as a Single-Model Ensemble: Boundary Conditions, Mechanisms, and Failure Modes

Tatsuhito Hasegawa, Taisei Tanaka

cs.LG

本文研究了Multi-Narrow (MN) transformation，将baseline CNN转换为路径独立分支的single-model ensemble，并比较了Single-Wide与Multi-Narrow配置在不同数据量下的表现。结果表明，MN在低数据场景下优于baseline，但在数据充足时效果不佳，其有效性依赖于数据量。

Primal-Dual Policy Optimization for Linear CMDPs with Adversarial Losses

Kihyun Yu, Seoungbin Bae, Dabeen Lee

cs.LG

本文针对在线有限时域对抗性线性CMDPs问题，提出了一种原始-对偶策略优化算法，该算法在完全信息反馈下处理对抗性损失，在bandit反馈下处理随机成本，并首次实现了$\widetilde{\mathcal{O}}(K^{3/4})$的次线性regret和约束违反界。算法引入了加权LogSumExp softmax策略类，并通过周期性策略混合和正则化对偶更新来控制覆盖数和对偶变量。

Fast MoE Inference via Predictive Prefetching and Expert Replication

Ankit Jyothish et al.

cs.LG

本文提出了一种针对Mixture of Experts (MoE)架构的动态专家复制策略，通过预测过载专家并复制它们来处理后续批次，从而提升GPU利用率和推理速度。实验表明该方法在Switch-base模型上实现了近100%的GPU利用率和高达3倍的推理加速。

Sharpen Your Flow: Sharpness-Aware Sampling for Flow Matching

Aditi Gupta et al.

cs.LG cs.AI

本文提出SharpEuler，一种无需训练的采样方法，通过离线估计预训练flow matching模型中velocity field变化最剧烈的区域来优化采样步长分配。该方法使用finite-difference估计定义sharpness profile，并通过quantile transform转换为非均匀时间步网格，在保持相同模型评估次数下提升样本质量。

VNDUQE: Information-Theoretic Novelty Detection using Deep Variational Information Bottleneck

Aryan Gondkar, Hayder Radha, Yiming Deng

cs.LG cs.CV cs.IT

本文提出VNDUQE方法，利用Deep Variational Information Bottleneck (VIB)进行novelty detection，通过KL divergence和prediction entropy两种信息论指标检测out-of-distribution样本，并发现两者在远/近OOD检测上互补。实验表明该方法在MNIST数据集上优于baseline MSP，但方法本身并非开创性，且与关键词列表中的概念无直接关联。

A Controlled Counterexample to Strong Proxy-Based Explanations of OOD Performance: in a Fixed Pretraining-and-Probing Setup

Hongmin Li

cs.LG

本文在固定的pretraining-and-probing设置下，通过一个受控构造和合成序列模型实验，证明了一个关于OOD性能的structure proxy（结构代理）排名可能与下游任务的OOD probe accuracy排名不一致。该工作为基于proxy的解释方法划定了边界，表明proxy可能无法追踪驱动OOD性能的任务相关结构。

A Composite Activation Function for Learning Stable Binary Representations

Seokhun Park et al.

cs.LG stat.ML

本文提出了一种名为Heavy Tailed Activation Function (HTAF)的平滑激活函数，用于近似Heaviside函数，以解决其不可微性导致的梯度优化困难。HTAF通过sigmoid和双曲正切函数的复合构造，在零输入附近保持较大梯度，并在尾部区域减缓梯度衰减，从而稳定训练Spiking Neural Networks、Binary Neural Networks等模型。

OUI as a Structural Observable: Towards an Activation-Centric View of Neural Network Training

Alberto Fernández-Hernández et al.

cs.LG

本文提出将Overfitting-Underfitting Indicator (OUI)作为一种基于activation的内部结构观测指标，用于在训练早期、无需标签的情况下判断网络是否进入不良训练状态。该指标在supervised learning、reinforcement learning和online control等场景中均表现出预测能力。

FedOUI: OUI-Guided Client Weighting for Federated Aggregation

Alberto Fernández-Hernández et al.

cs.LG

本文提出FedOUI方法，利用Overfitting-Underfitting Indicator (OUI)这一基于激活值的无标签度量来指导联邦学习中的客户端加权聚合，在非独立同分布和噪声场景下相比FedAvg等方法有所改进。该方法关注模型内部激活结构，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Learning Weakly Communicating Average-Reward CMDPs: Strong Duality and Improved Regret

Kihyun Yu, Beomhan Baek, Dabeen Lee

cs.LG math.OC

本文研究了弱连通平均奖励约束马尔可夫决策过程（CMDPs），证明了在平稳策略下强对偶性成立，并提出了一种基于原对偶裁剪值迭代的学习算法，实现了$\widetilde{\mathcal{O}}(T^{2/3})$的遗憾和约束违反界。该工作主要贡献在于理论分析和算法改进，但与关键词列表中的概念关联较弱。

SoK: Unlearnability and Unlearning for Model Dememorization

Mengying Zhang et al.

cs.LG cs.AI cs.CR

本文系统性地分析了机器学习中的模型去记忆方法，包括可用性中毒（unlearnability）和机器遗忘（unlearning），并提出了统一的分类法。通过实证评估揭示了现有方法在鲁棒性、交互性和浅层去记忆方面的不足，并首次为经过认证遗忘的模型提供了去记忆深度的理论保证。

EpiCastBench: Datasets and Benchmarks for Multivariate Epidemic Forecasting

Madhurima Panja et al.

cs.LG cs.AI cs.DB q-bio.QM

本文提出了EpiCastBench，一个包含40个多变量流行病数据集的基准框架，并评估了15种预测模型。该工作为流行病预测领域提供了标准化评估资源。

Targeted Tests for LLM Reasoning: An Audit-Constrained Protocol

Hongmin Li

cs.LG

本文提出了一种审计约束的协议（audit-constrained protocol）用于LLM推理的针对性测试，通过组件语法生成prompt变体并在固定查询预算下评估，但实验表明其提出的CAPS采样方法相比均匀采样并未显著提升审计后的有效发现。该工作主要贡献在于方法论层面，而非解决长期存在的核心问题或与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）有直接契合。

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

Guobin Shen et al.

cs.LG cs.AI cs.CL

本文通过pointwise mutual information分析，指出on-policy self-distillation在数学推理中失效的原因是privileged context（如已验证的解决方案）扭曲了teacher模型的置信度。作者提出Anti-Self-Distillation (AntiSD)方法，通过反转student与teacher之间的divergence方向，并引入entropy-triggered gate，在多个数学推理benchmark上实现了更快的收敛速度和更高的准确率提升。

From Generic Correlation to Input-Specific Credit in On-Policy Self Distillation

Guobin Shen et al.

cs.LG cs.AI

本文研究了on-policy self-distillation中token奖励的数学本质，将其解释为Bayesian filtering increment，并指出其轨迹和等于response与feedback间的pointwise mutual information。作者提出CREDIT方法，通过batch-contrastive baseline分离输入特定成分，在编码、科学推理等任务上取得较好效果。

MIST: Reliable Streaming Decision Trees for Online Class-Incremental Learning via McDiarmid Bound

Phu-Hoa Pham et al.

cs.LG math.ST

本文提出MIST算法，通过McDiarmid不等式构造与类别数K无关的置信半径，并引入贝叶斯继承协议和KLL分位数草图，解决了流式决策树在在线类增量学习中的校准失效问题。该方法在非高斯几何数据上展现出独特鲁棒性，但未涉及关键词中的code、spectral、Muon、pretrain、agent或attention等概念。

Evolutionary Task Discovery: Advancing Reasoning Frontiers via Skill Composition and Complexity Scaling

Liqin Ye et al.

cs.LG cs.AI

本文提出EvoTD框架，将数据合成视为在Algorithmic Skills和Complexity Attributes双轴流形上的有向搜索，通过Crossover和Parametric Mutation算子生成训练数据，并利用动态Zone of Proximal Development过滤器确保任务可学习。实验表明该方法能提升LLM的推理能力，但未直接涉及code、spectral、Muon等关键词。

Partial Model Sharing Improves Byzantine Resilience in Federated Conformal Prediction

Ehsan Lari, Reza Arablouei, Stefan Werner

cs.LG eess.SP math.PR stat.AP

本文提出了一种通过部分模型共享来增强联邦共形预测（FCP）对拜占庭攻击鲁棒性的方法，在训练和校准阶段均引入防御机制，实验表明其能获得更接近名义覆盖率和更紧的预测区间。

Shaping Zero-Shot Coordination via State Blocking

Mingu Kang et al.

cs.LG cs.AI cs.MA

本文提出State-Blocked Coordination (SBC)框架，通过状态阻塞生成虚拟环境，使agent在训练中体验多样化的次优伙伴策略，以提升zero-shot coordination性能。该方法在多个基准测试中表现出对未见伙伴的泛化能力。

Slicing and Dicing: Configuring Optimal Mixtures of Experts

Margaret Li et al.

cs.LG cs.CL

本文对Mixture-of-Experts (MoE)架构中的专家数量、粒度、共享专家等设计选择进行了超过2000次预训练实验的系统性研究，发现专家数量和粒度对性能影响最大，而其他选择影响较小。

Compositional Neural Operators for Multi-Dimensional Fluid Dynamics

Hamda Hmida, Hsiu-Wen Chang, Youssef Mesri

cs.LG

本文提出Compositional Neural Operators (CompNO)框架，将复杂PDE分解为预训练的基础算子模块（如对流、扩散块）并通过聚合器组合，用于2D流体动力学问题。该方法在Convection-Diffusion、Burgers'和不可压Navier-Stokes方程上验证了其可解释性和模块复用能力。

Augmented Lagrangian Method for Last-Iterate Convergence for Constrained MDPs

Michael Lu et al.

cs.LG

本文使用经典的inexact augmented Lagrangian方法，为无限时域折扣约束马尔可夫决策过程（CMDPs）提出了一个具有last-iterate收敛保证的通用框架。该方法通过将AL子问题与projected Q-ascent结合，在tabular和log-linear策略设置下证明了全局收敛性，并展示了其可扩展到复杂非线性策略。

GRAFT: Graph-Tokenized LLMs for Tool Planning

Xinyi Gao et al.

cs.LG

本文提出GRAFT框架，通过将工具图（tool graph）中的每个工具节点映射为专用特殊token，并在表示空间中学习有向工具依赖关系，从而将图结构内化到语言模型中。该方法旨在解决现有外部图使用策略在工具规划中难以对齐子任务意图与依赖约束的问题。

Unlocking Compositional Generalization in Continual Few-Shot Learning

Phu-Quy Nguyen-Lam et al.

cs.LG cs.CV

本文识别了持续小样本学习中表示学习与组合推理之间的结构性冲突，并提出了一种解耦范式。该方法利用自监督Vision Transformer的patch级语义几何，在训练时优化slot表示以保持泛化性，在推理时动态组合这些slot以匹配新场景，从而在标准持续学习基准上实现了最先进的未见概念泛化。

Debiased Model-based Representations for Sample-efficient Continuous Control

Jiafei Lyu et al.

cs.LG cs.AI

本文提出DR.Q算法，通过最大化当前状态-动作对表示与下一状态之间的互信息，并采用衰减优先经验回放，来改进基于模型的表示学习，以减少表示和actor-critic学习中的偏差。实验表明该方法在连续控制任务上能匹配或超越现有强基线。

Block-R1: Rethinking the Role of Block Size in Multi-domain Reinforcement Learning for Diffusion Large Language Models

Yan Jiang, Ruihong Qiu, Zi Huang

cs.LG

本文研究了扩散大语言模型(dLLM)在多领域强化学习后训练中的block size冲突问题，构建了Block-R1-41K数据集并提出Block Size Conflict Score来量化领域冲突，同时开发了跨域后训练方法。实验覆盖13个数据集和7种RL算法，验证了所提方法的有效性。

Persona-Conditioned Adversarial Prompting: Multi-Identity Red-Teaming for Adversarial Discovery and Mitigation

Cristian Morasso et al.

cs.LG cs.CR

本文提出Persona-Conditioned Adversarial Prompting (PCAP)方法，通过为adversarial search引入多样化的攻击者角色和策略集，以发现更广泛的LLM安全漏洞。实验表明该方法能显著提升攻击成功率并生成更丰富的防御数据集。

U-STS-LLM A Unified Spatio-Temporal Steered Large Language Model for Traffic Prediction and Imputation

Yichen Zhang, Jun Li

cs.LG eess.SP

本文提出U-STS-LLM，一个基于LLM的统一框架，用于蜂窝网络时空流量预测与缺失值插补。其核心创新在于通过动态时空attention bias生成器引导LLM的attention机制，并结合LoRA微调与门控自适应融合，在真实数据集上取得了新的最优性能。

Online Continual Learning with Dynamic Label Hierarchies

Xinrui Wang et al.

cs.LG

本文提出了一个新的在线持续学习问题设置DHOCL，其中标签层次结构会动态演化，并针对该设置中存在的部分监督和层次依赖干扰问题，提出了HALO方法，通过自适应组合分类头和可学习层次原型来提升性能。实验表明该方法在多个基准上优于现有方法。

Learning Feature Encoder with Synthetic Anomalies for Weakly Supervised Graph Anomaly Detection

Yingjie Zhou et al.

cs.LG

本文提出了一种弱监督图异常检测方法，通过多任务学习框架利用合成异常来学习特征表示。该方法首先生成多种类型的合成异常，并为每种异常分配专用检测头，然后采用两阶段训练策略来平衡合成与真实数据的影响。

Federated Client Selection under Partial Visibility: A POMDP Approach with Spatio-Temporal Attention

Qijun Hou et al.

cs.LG

本文针对联邦学习中服务器只能观测到部分客户端（partial visibility）的问题，将其建模为部分可观测马尔可夫决策过程（POMDP），并提出一种基于时空注意力（Spatio-Temporal attention）的强化学习框架。该方法通过整合历史全局模型和客户端身份嵌入，在异构和部分可见场景下取得了优于现有基线的性能。

One-Step Generative Modeling via Wasserstein Gradient Flows

Jiaqi Han et al.

cs.LG cs.CV stat.ML

本文提出W-Flow框架，通过Wasserstein gradient flow定义从参考分布到目标分布的演化，并训练一个静态生成器将这一演化压缩为单步生成。该方法在ImageNet 256x256生成任务上取得了1.29 FID的先进结果，采样速度比多步扩散模型快约100倍。

Decomposing the Generalization Gap in PROTAC Activity Prediction: Variance Attribution and the Inter-Laboratory Ceiling

Thor Klamt, Wolfgang Nejdl, Ming Tang

cs.LG q-bio.BM

本文研究了PROTAC活性预测中随机划分与留一靶标划分之间的泛化差距，通过方差分解发现实验室间测量方差是主要因素，并提出了基于少样本重训练和校准的改进方法。

Is Monotonic Sampling Necessary in Diffusion Models?

Muhammad Haris Khan

cs.LG cs.AI

本文系统性地测试了扩散模型中非单调采样调度（nonmonotonic sampling schedule）的必要性，发现所有设计的非单调调度均未优于单调基线，且性能惩罚幅度在不同模型（DDPM, EDM, Flow Matching）间差异显著，并提出了Schedule Sensitivity Coefficient作为诊断工具。

Entropy Polarity in Reinforcement Fine-Tuning: Direction, Asymmetry, and Control

Jiazheng Zhang et al.

cs.LG cs.CL

本文提出了一个关于RLVR中policy entropy变化的理论框架，定义了entropy polarity这一token级量来预测更新对熵的影响，并基于此设计了PAPO算法。实验表明该方法在数学推理和agent任务上优于基线，但未涉及code、spectral、Muon或pretrain等关键词。

ROMER: Expert Replacement and Router Calibration for Robust MoE LLMs on Analog Compute-in-Memory Systems

Wenyong Zhou et al.

cs.LG cs.CL

本文首次系统研究了模拟存内计算系统中的硬件噪声对基于MoE的大语言模型的影响，并提出了一种名为ROMER的后训练校准框架。该框架通过替换激活不足的专家和基于百分位数归一化重新校准路由器logits，有效缓解了噪声导致的负载不均衡问题，并在多个MoE架构上显著降低了困惑度。

Stop Marginalizing My Dreams: Model Inversion via Laplace Kernel for Continual Learning

Patryk Krukowski et al.

cs.LG cs.CV

本文针对无数据持续学习中的模型反演问题，提出了一种基于Laplace kernel的结构化协方差建模框架REMIX，以替代传统的对角协方差假设，从而在不增加过多计算成本的情况下捕获特征依赖关系，生成更逼真的伪样本以缓解灾难性遗忘。

Fed-BAC: Federated Bandit-Guided Additive Clustering in Hierarchical Federated Learning

Satwat Bashir, Tasos Dagiuklas, Muddesar Iqbal

cs.LG

本文提出Fed-BAC，一种在分层联邦学习中结合加性聚类个性化与两级bandit框架的方法，通过上下文bandit和Thompson Sampling优化聚类分配与客户端选择，在非IID数据下提升了分布式准确率和收敛速度。

More Edits, More Stable: Understanding the Lifelong Normalization in Sequential Model Editing

Xin Ma et al.

cs.LG cs.CL

本文研究了Lifelong Model Editing中的Lifelong Normalization机制，通过理论分析揭示了其通过自强化稳定循环和渐近正交性来缓解灾难性遗忘和模型崩溃。基于这些见解，作者提出了StableEdit方法，通过显式预热阶段和全白化来增强长期稳定性。

Martingale-Consistent Self-Supervised Learning

Moritz Gögl, Hanwen Xing, Christopher Yau

cs.LG cs.AI

本文提出了一种基于鞅一致性的自监督学习框架，通过约束粗视图预测与精炼后预测的期望一致性，改进了部分观测场景下的鲁棒性和校准性能。该方法在时间序列、表格数据和图像基准上进行了实验验证。

Improving the Performance and Learning Stability of Parallelizable RNNs Designed for Ultra-Low Power Applications

Julien Brandoit et al.

cs.LG cs.AI cs.AR

本文针对超低功耗并行RNN（如BMRU）的性能与学习稳定性问题，提出了一种累积更新公式（cumulative update formulation）以恢复梯度流，由此得到CMRU及其变体$\alpha$CMRU。实验表明，该方法在小模型规模下可匹配或超越LRU和minGRU的性能，并保留了适用于模拟实现的量化状态与持久记忆特性。

Beyond Parameter Aggregation: Semantic Consensus for Federated Fine-Tuning of LLMs

Amr Abourayya, Jens Kleesiek, Michael Kamp

cs.LG

本文提出了一种基于语义共识而非参数聚合的联邦微调方法，通过交换模型在公共提示集上的生成输出来实现协作，通信量仅与提示预算和输出大小相关，与模型规模无关。实验表明该方法在显著降低通信开销的同时能匹配强基线性能。

Information theoretic underpinning of self-supervised learning by clustering

Josef Kittler, Sara Atito, Muhammad Awais

cs.LG cs.IT

本文从信息论角度分析了基于聚类的自监督学习，将其形式化为K-L散度优化，并通过约束教师分布防止模式崩溃，理论解释了批中心化等常用启发式方法。

LOFT: Low-Rank Orthogonal Fine-Tuning via Task-Aware Support Selection

Lanxin Zhao et al.

cs.LG stat.ML

本文提出LOFT框架，将正交参数高效微调（PEFT）中的子空间选择与变换解耦，通过低秩正交旋转统一了多种现有方法。实验表明基于梯度信息的支持选择策略能在匹配预算下提升效率-性能权衡。

Adaptive TD-Lambda for Cooperative Multi-agent Reinforcement Learning

Yue Deng, Zirui Wang, Yin Zhang

cs.LG cs.MA

本文针对多智能体强化学习中联合动作空间大、转移数据有限导致策略分布难以统计计算的问题，提出了一种基于参数化无似然密度比估计器（parametric likelihood-free density ratio estimator）的自适应TD($\lambda$)方法，通过两个不同大小的replay buffer存储历史轨迹来估计当前策略的stationary distribution，从而为state-action pairs分配自适应$\lambda$值。该方法在SMAC和Gfootball场景中应用于QMIX和MAPPO基线，展示了相比固定$\lambda$值的竞争性或更优性能。

Sobolev Regularized MMD Gradient Flow

Chenyang Tian et al.

cs.LG

本文提出了一种基于witness function梯度惩罚的Sobolev正则化MMD梯度流(SrMMD)，旨在缓解MMD目标的非凸性并保证全局收敛。该方法适用于采样和生成建模两种场景，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Incentivizing Truthfulness and Collaborative Fairness in Bayesian Learning

Rachael Hwee Ling Sim et al.

cs.LG cs.AI

本文提出了一种结合semivalues（如Shapley value）和基于验证集的truthful data valuation function (DVF)的机制，首次在Bayesian模型中同时保证了collaborative fairness并激励了truthfulness。该机制通过引入额外条件证明参与者提交真实数据可最大化其期望数据价值，并讨论了预算有限或无验证集时的松弛方案。

Procedural-skill SFT across capacity tiers: A W-Shaped pre-SFT Trajectory and Regime-Asymmetric Mechanism on 0.8B-4B Qwen3.5 Models

Igor Strozzi

cs.LG

本文研究了在不同规模（0.8B, 2B, 4B）的Qwen3.5模型上，程序性技能SFT的贡献。主要发现是SFT带来的提升在不同规模下大致均匀，但受预训练基线的W形轨迹影响，且存在一种非对称机制。该研究与关键词列表中的概念关联较弱。

Delightful Gradients Accelerate Corner Escape

Jincheng Mei, Ian Osband

cs.LG

本文研究了Delightful Policy Gradient (DG)方法，通过将policy gradient项与advantage和action surprisal的乘积进行门控，加速了策略从simplex次优角落的逃逸。在$K$-armed bandits和tabular MDPs中，证明了DG在零温极限下具有对数级的逃逸界，并保持全局$O(1/t)$的渐近收敛率。

Understanding Sample Efficiency in Predictive Coding

Gaspard Oliviers, Elene Lominadze, Rafal Bogacz

cs.LG

本文通过引入“target alignment”指标，量化了Predictive Coding (PC)与Backpropagation (BP)在Deep Linear Networks中的学习效率差异，并推导了PC保证最优对齐的精确条件。实验表明PC在深层、窄网络及预训练场景下效率更高，但该工作主要聚焦于理论机制，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等方向关联较弱。

STAGE: Tackling Semantic Drift in Multimodal Federated Graph Learning

Zekai Chen et al.

cs.LG

STAGE提出了一种针对多模态联邦图学习(MM-FGL)中语义漂移问题的协议优先框架，通过构建共享语义空间来对齐异构客户端的多模态特征表示，并规范其在局部图结构上的传播过程。实验表明该方法在多个任务上取得了最优性能，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

NOFE -- Neural Operator Function Embedding

Lars Uebbing et al.

cs.LG

NOFE提出了一种基于Neural Operator的连续域降维方法，通过Graph Kernel Operator学习函数到函数的映射，实现了对离散点云数据的连续化处理。该方法在局部结构保持上优于PCA、t-SNE和UMAP，但与我提供的关键词列表关联度较低。

Towards Order Fairness: Mitigating LLMs Order Sensitivity through Dual Group Advantage Optimization

Xu Chu et al.

cs.LG

本文提出Dual Group Advantage Optimization (DGAO)方法，通过强化学习同时优化模型在输入顺序变化时的准确性和稳定性，以缓解LLMs的顺序偏见。该方法在RAG、数学推理等任务上取得了更好的顺序公平性。

Stochastic Minimum-Cost Reach-Avoid Reinforcement Learning

Jingduo Pan et al.

cs.LG

本文研究了随机环境下的最小代价可达-避免强化学习问题，提出了一种基于可达-避免概率证书（RAPCs）的收缩型Bellman公式，用于在概率约束下优化代价，并在MuJoCo模拟器中验证了方法的有效性。

QDSB: Quantized Diffusion Schrödinger Bridges

Tobias Fuchs, Florian Kalinke, Nadja Klein

cs.LG stat.ML

本文提出QDSB方法，通过锚点量化（anchor quantization）计算端点耦合来加速扩散Schrödinger桥（SB）的训练，并证明正则化最优传输耦合对量化误差具有稳定性。实验表明该方法在保持样本质量的同时显著减少了计算时间。

Split the Differences, Pool the Rest: Provably Efficient Multi-Objective Imitation

Ziyad Sheebaelhamd et al.

cs.LG

本文研究多目标模仿学习问题，提出Multi-Output Augmented Behavioral Cloning (MA-BC)算法，通过系统划分冲突的专家数据并聚合无行为冲突的状态-动作对来恢复Pareto前沿上的策略。理论上证明了MA-BC比独立处理每个专家数据集的方法具有更快的统计收敛速度，并建立了多目标模仿学习的下界。

Estimating Subgraph Importance with Structural Prior Domain Knowledge

Changhyun Kim, Seunghwan An, Jong-June Jeon

cs.LG

本文提出了一种基于线性Group Lasso回归的子图重要性估计方法，用于预训练图神经网络（GNN）的图级任务。该方法利用图子结构的先验领域知识，且不依赖输出层形式或真实标签，在实验中优于现有基线。

Limits of Learning Linear Dynamics from Experiments

Aybüke Ulusarslan, Niki Kilbertus, Nora Schneider

cs.LG

本文研究了线性时不变系统在实验设置下的可辨识性极限，指出初始状态和控制输入决定了可从观测轨迹中恢复的信息上限，并给出了所有与实验设置一致的系统闭式描述。

Efficient and Adaptive Human Activity Recognition via LLM Backbones

Aleksandr Bredikhin, Philippe Lalanda, German Vega

cs.LG cs.AI

本文提出将预训练的大语言模型(LLM)作为通用时序backbone用于传感器人体活动识别(HAR)，通过结构化卷积投影将惯性信号映射到LLM的latent space，并采用LoRA进行参数高效微调。实验表明该方法在低数据场景下具有快速收敛和跨数据集迁移能力，但整体方法更侧重于工程应用而非理论创新。

Approximation Theory of Laplacian-Based Neural Operators for Reaction-Diffusion System

Takashi Furuya, Ryo Ozawa, Jenn-Nan Wang

cs.LG stat.ML

本文研究了基于Laplacian的neural operator在广义Gierer-Meinhardt reaction-diffusion system中的应用，通过Laplacian spectral表示建立了近似误差界，并证明了参数复杂度随目标精度多项式增长。

Resilient Vision-Tabular Multimodal Learning under Modality Missingness

Camillo Maria Caruso, Valerio Guarrasi, Paolo Soda

cs.LG cs.CV

本文提出了一种多模态transformer框架，用于在视觉-表格数据缺失的情况下进行联合学习，通过可学习的模态token和带掩码的自注意力机制处理缺失模态，并引入模态dropout正则化策略增强鲁棒性。实验在MIMIC-CXR和MIMIC-IV数据集上验证了该方法在多种缺失场景下优于基线模型。

Scaling Laws and Tradeoffs in Recurrent Networks of Expressive Neurons

Aaron Spieler, Georg Martius, Anna Levina

cs.LG cs.AI cs.IT cs.NE

本文研究了在固定参数预算下，循环网络中神经元数量、单个神经元有效复杂度与连接性之间的权衡，并引入了ELM Network模型。实验表明存在非平凡的最优分配，且更大预算倾向于更复杂和更多的神经元，但该工作与关键词列表中的概念关联较弱。

Learning plug-in surrogate endpoints for randomized experiments

Alessandro-Umberto Margueritte et al.

cs.LG

本文研究了在随机实验中替代终点的学习问题，提出了两种基于直接建模替代效应的plug-in composite surrogate学习方法，以最大化效应预测性。实验表明该方法在合成数据和真实数据中均优于现有方法。

Elicitation-Augmented Bayesian Optimization

Alvar Haltia, Ville Hyvönen, Samuel Kaski

cs.LG

本文提出了一种结合成对比较与直接观测的贝叶斯优化方法，通过推导成本感知的信息价值采集函数来平衡两种信息源，从而提升样本效率。该方法在成对查询成本低时优于标准BO，成本高时则恢复其性能。

Disentangled Sparse Representations for Concept-Separated Diffusion Unlearning

Hyeonjin Kim et al.

cs.LG cs.AI cs.CV

本文提出SAEParate方法，通过概念感知对比目标将稀疏自编码器的潜在表示组织成概念特定聚类，以改进扩散模型中的概念遗忘。该方法在UnlearnCanvas上取得较好性能，但未涉及关键词中的code、spectral、Muon、pretrain、agent或attention等概念。

Fused Gromov-Wasserstein Distance with Feature Selection

Harlin Lee et al.

cs.LG cs.CY math.MG

本文提出了一种带特征选择的Fused Gromov-Wasserstein距离，通过在目标函数中加入自适应特征抑制权重（如Lasso/Ridge惩罚或单纯形约束），以提升高维场景下的可解释性和鲁棒性，并设计了交替最小化算法。该方法主要针对图对齐中的特征冗余问题，与关键词中的“attention”或“context”无直接关联。

On What We Can Learn from Low-Resolution Data

Theresa Dahl Frehr et al.

cs.LG

本文从理论上分析了低分辨率数据对高分辨率模型训练的影响，基于Kullback-Leibler divergence推导了数据点分辨率变化时其信息贡献的界限，并通过实验证明在高质量数据稀缺时加入低分辨率数据能提升模型性能。

Lower bounds for one-layer transformers that compute parity

Daniel Hsu

cs.LG

本文证明，除非注意力头数与后处理函数次数的乘积随输入长度线性增长，否则任何经有理函数后处理的self-attention层都无法符号表示parity函数。该下界结合ReLU网络的有理逼近，可推广到经ReLU网络后处理的self-attention层。

Expected Batch Optimal Transport Plans and Consequences for Flow Matching

Samuel Boïté, Julie Delon, Kimia Nadjahi

cs.LG math.PR

本文研究了随机minibatch最优传输（OT）在flow matching（FM）中的期望耦合性质，分析了其大batch一致性及与离散目标OT计划的收敛速率，并通过实验验证了batch size对数值积分的影响。

Multi-Task Representation Learning for Conservative Linear Bandits

Jiabin Lin, Shana Moothedath

cs.LG

本文提出了Constrained Multi-Task Representation Learning (CMTRL)框架，用于处理共享低维表示的保守线性bandit问题，并设计了Safe-AltGDmin算法来恢复低秩特征矩阵。该工作为多任务保守bandit提供了理论保证和实验验证。

DriftXpress: Faster Drifting Models via Projected RKHS Fields

Ali Falahati et al.

cs.LG cs.AI

本文提出DriftXpress，通过projected RKHS fields加速drifting models的训练过程，在保持单步生成优势的同时降低计算成本。该方法在图像生成基准上取得了与标准drifting相当的FID分数。

Fair Conformal Classification via Learning Representation-Based Groups

Senrong Xu et al.

cs.LG

本文提出了一种基于学习表示的分组公平共形预测框架，通过自适应识别子组来保证分类任务中的条件覆盖，旨在平衡预测集的有效性和公平性。

ECTO: Exogenous-Conditioned Temporal Operator for Ultra-Short-Term Wind Power Forecasting

Cao Yuan, Junjun Wang

cs.LG

本文提出了一种名为ECTO的框架，用于超短期风电功率预测，通过物理引导的变量选择和基于外生条件的时序算子来改进预测精度。该方法在多个风电场数据集上取得了优于现有基线的结果，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

A Unified Graph Language Model for Multi-Domain Multi-Task Graph Alignment Instruction Tuning

Haibo Chen et al.

cs.LG

本文提出UniGraphLM，一种统一图语言模型，通过多领域多任务GNN编码器学习与文本语义对齐的通用图表示，并自适应地将这些表示与LLM对齐，以解决跨领域和任务的图表示对齐问题。该方法旨在提升GLM在不同图数据上的泛化能力。

Overtrained, Not Misaligned

Joel Schreiber, Ariel Goldstein

cs.LG cs.AI

本文通过大规模实验研究了Emergent Misalignment (EM)现象，发现该现象在GPT-4o中可复现，但在开源模型中并不普遍，且与模型规模相关。研究表明EM出现在训练后期，可通过early stopping等策略有效避免，将其重新定义为可避免的训练artifact而非固有风险。

Investigating simple target-covariate relationships for Chronos-2 and TabPFN-TS

Gaspard Berthelier et al.

cs.LG

本文通过设计基于简单目标-协变量关系的控制实验，评估了Chronos-2和TabPFN-TS两种时间序列基础模型整合协变量的能力。结果表明TabPFN-TS在短预测范围内更有效地捕捉了这些关系，而Chronos-2的强基准性能并未自动转化为对简单协变量-目标依赖关系的最优建模。

On the Importance of Multistability for Horizon Generalization in Reinforcement Learning

Asad Bakija et al.

cs.LG

本文形式化了强化学习中temporal horizon generalization的概念，并证明了multistability是其必要条件。通过实验，文章指出现代可并行化的RNN架构（如state space models）因本质上是monostable的，无法实现跨时间horizon的泛化。

Not How Many, But Which: Parameter Placement in Low-Rank Adaptation

Arijit Sehanobish, Charles Lovering

cs.LG cs.AI cs.CL

本文研究了LoRA微调中的参数放置问题，发现随机选择与梯度引导选择在SFT下表现相似，但在GRPO下随机放置失效。该工作揭示了不同训练范式下梯度结构的差异，但与我提供的关键词列表关联较弱。

Intrinsic Vicarious Conditioning for Deep Reinforcement Learning

Rodney A Sanchez et al.

cs.LG

本文提出了一种基于vicarious conditioning（替代性条件作用）的内在奖励机制，用于deep reinforcement learning（深度强化学习）。该方法通过memory-based methods（基于记忆的方法）实现注意力、保留、再现和强化四个步骤，使agent（智能体）无需访问演示者的policy（策略）或reward function（奖励函数）即可进行low-shot learning（少样本学习），并在MiniWorld和CarRacing环境中验证了其有效性。

No More, No Less: Task Alignment in Terminal Agents

Sina Mavali et al.

cs.LG cs.AI cs.CR

本文提出了TAB (Task Alignment Benchmark)基准，用于评估terminal agent在复杂任务中区分环境指令相关性的能力，发现现有agent存在任务能力与任务对齐之间的系统性差距。

SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization

Chengzhu Bao et al.

cs.LG

本文提出SOAR框架，通过Closed-form Joint Scale Optimization (CJSO)和Decoupled Scale Search (DSS)优化NVFP4量化中的尺度选择，以提升大语言模型的重建精度。实验表明该方法在相同内存占用下优于现有NVFP4量化基线。

Instruction Lens Score: Your Instruction Contributes a Powerful Object Hallucination Detector for Multimodal Large Language Models

Runhe Lai et al.

cs.LG

本文提出了一种名为Instruction Lens Score (InsLen)的即插即用目标幻觉检测器，通过分析instruction token embeddings来检测多模态大语言模型中的物体幻觉问题，无需额外训练或辅助模型。实验表明该方法在多个基准上优于现有检测方法。

Delay-Empowered Causal Hierarchical Reinforcement Learning

Chenran Zhao et al.

cs.LG

本文提出了一种延迟赋能的因果层次强化学习方法(DECHRL)，通过显式建模状态转移的因果结构和随机延迟分布，并引入延迟感知的赋能目标来驱动主动探索，以应对时间不确定性下的决策问题。实验在修改的2D-Minecraft和MiniGrid环境中验证了该方法对随机延迟的有效建模能力。

Hypernetworks for Dynamic Feature Selection

Javier Fumanal-Idocin, Raquel Fernandez-Peralta, Javier Andreu-Perez

cs.LG

本文提出了一种基于hypernetwork的动态特征选择方法Hyper-DFS，通过生成特征子集特定的分类器参数来解决DFS中的结构限制问题，并在合成和真实表格数据上取得了优于现有方法的表现。

PriorZero: Bridging Language Priors and World Models for Decision Making

Junyu Xiong et al.

cs.LG cs.AI

本文提出PriorZero框架，通过解耦的rollout-training设计将LLM先验集成到基于world model的规划中，利用MCTS根节点注入机制和交替优化来解决先验-动态不匹配问题，在文本冒险和指令跟随任务中提升了探索效率与性能。

Targeted Neuron Modulation via Contrastive Pair Search

Sam Herring, Jake Naviasky, Karan Malhotra

cs.LG

本文提出contrastive neuron attribution (CNA)方法，通过识别MLP神经元中区分有害与良性prompt的激活模式，在不使用梯度或辅助训练的情况下降低语言模型的拒绝率。该方法在保持输出流畅性的同时实现了行为调控，但主要聚焦于模型对齐机制而非关键词中的核心概念。

STRABLE: Benchmarking Tabular Machine Learning with Strings

Gioia Blayer et al.

cs.LG

本文提出了STRABLE基准测试集，包含108个包含字符串和数值的真实表格数据问题，并评估了445种处理字符串的表格学习pipeline。研究发现，对于大多数以类别型数据为主的表格，使用简单字符串嵌入结合高级表格学习器即可获得良好性能。

Approximation of Maximally Monotone Operators : A Graph Convergence Perspective

Takashi Furuya, Yury Korolev, Takaharu Yaguchi

cs.LG math.ST

本文提出了一种基于graph convergence (Painlevé-Kuratowski收敛)的算子学习新范式，用于逼近不连续或集值的maximally monotone operators，并证明了此类算子可通过连续的encoder-decoder架构在局部graph convergence意义下被逼近。

KAN-CL: Per-Knot Importance Regularization for Continual Learning with Kolmogorov-Arnold Networks

Minjong Cheon

cs.LG cs.AI cs.CV

本文提出KAN-CL框架，利用Kolmogorov-Arnold Networks (KANs)的compact-support spline参数化在per-knot粒度上进行重要性加权锚定，以缓解continual learning中的灾难性遗忘。实验表明，该方法在Split-CIFAR-10/5T和Split-CIFAR-100/10T上显著降低了遗忘率，并提供了Neural Tangent Kernel (NTK)分析来解释其有效性。

In-context learning to predict critical transitions in dynamical systems

Yunus Sevinchan et al.

cs.LG

本文提出TipPFN框架，利用in-context learning预测动力系统的临界转变。该方法通过prior-data fitted network处理不同规模和复杂度的上下文数据，在有限数据和噪声条件下实现早期检测。

Transferable Delay-Aware Reinforcement Learning via Implicit Causal Graph Modeling

Chenran Zhao et al.

cs.LG cs.AI

本文提出了一种基于隐式因果图建模的可迁移延迟感知强化学习方法，通过场节点编码器和消息传递机制学习可迁移的结构化表示和环境动态知识，以解决随机延迟和跨任务场景下的知识复用问题。实验表明该方法在DMC连续控制任务上优于基线方法。

Autoregressive Learning in Joint KL: Sharp Oracle Bounds and Lower Bounds

Yunbei Xu, Yuzhe Yuan, Ruohan Zhan

cs.LG

本文研究了在模型误设定下，使用joint KL散度衡量长序列自回归建模与next-token预测的误差，通过匹配上下界刻画了序列长度$H$对近似与估计误差的影响，并指出joint KL具有horizon-free的近似因子，而估计误差存在$\Omega(H)$的信息论下界。

Grid Games: The Power of Multiple Grids for Quantizing Large Language Models

Vage Egiazarian et al.

cs.LG

本文研究了在大型语言模型量化中，使用多个4-bit grid（如NVFP4和MXFP4）的扩展方法，提出了power-of-two-grids (PO2)问题，并展示了多种grid family（如PO2(NF4)和MPO2）在post-training quantization和pre-training中相比单grid格式能提升精度。

Manifold Sampling via Entropy Maximization

Cornelius V. Braun, Tilman Burghoff, Marc Toussaint

cs.LG cs.AI stat.CO

本文提出了一种名为MASEM的采样方法，用于在由光滑等式和不等式约束隐式定义的、具有未知数量不连通分量的流形上进行采样。该方法通过基于k近邻密度估计的重采样方案来最大化经验分布的熵，并在平均场下证明了其能使KL散度指数级下降。

Neural-Schwarz Tiling for Geometry-Universal PDE Solving at Scale

Paolo Secchi, Daniel S. Balint, Marco Maurizi

cs.LG

本文提出NEST框架，通过将PDE求解从全局代理范式转向局部到全局的范式，在$3\times3\times3$的体素块上训练局部神经算子，并通过Schwarz迭代组合成全局解。该方法在非线性neo-Hookean固体平衡问题上验证了跨几何形状和边界条件的泛化能力。

A New Technique for AI Explainability using Feature Association Map

Sayantani Ghosh, Amit Kumar Das, Amlan Chakrabarti

cs.LG cs.AI

本文提出了一种基于图论的特征关联图（Feature Association Map）的XAI算法FAMeX，通过特征间的关联性来评估特征重要性，实验表明其在分类任务中优于PFI和SHAP等现有方法。

From Message-Passing to Linearized Graph Sequence Models

Joël Mathys et al.

cs.LG

本文提出Linearized Graph Sequence Models框架，将图上的message-passing计算重新解释为sequence modeling问题，通过分离计算深度与信息传播深度来简化架构设计。实验表明该方法在长程信息任务上表现更优，但未直接涉及关键词中的code、spectral或Muon等概念。

MetaColloc: Optimization-Free PDE Solving via Meta-Learned Basis Functions

Zichuan Yang

cs.LG

本文提出MetaColloc，一种无需优化和数据驱动的PDE求解框架，通过元学习在离线阶段构建通用神经基函数字典，并在测试时通过组装collocation matrix和线性最小二乘一步求解，对非线性PDE则使用Newton-Raphson方法。该方法在多个2D和3D PDE上实现了高精度和极低的测试时计算开销。

Agent-Based Post-Hoc Correction of Agricultural Yield Forecasts

Matthew Beddows, Aiden Durrant, Georgios Leontidis

cs.LG cs.AI

本文提出了一种基于LLM agent的结构化框架，用于对农业产量预测模型进行事后修正，通过编码农业领域知识来改进预测精度。该方法在草莓和玉米数据集上验证了有效性，但主要贡献在于工程应用而非理论创新。

Discrete Flow Matching for Offline-to-Online Reinforcement Learning

Fairoz Nower Khan, Nabuat Zaman Nahim, Peizhong Ju

cs.LG cs.AI

本文提出DRIFT方法，通过advantage-weighted discrete flow matching loss微调预训练的continuous-time Markov chain (CTMC)策略，并引入path-space penalty来保留预训练知识。针对大离散动作空间，该方法使用candidate-set approximation来更新actor，理论分析表明其误差受missing target probability mass控制。

Trust the Batch, On- or Off-Policy: Adaptive Policy Optimization for RL Post-Training

Rasool Fakoor et al.

cs.LG cs.AI

本文提出了一种自适应batch的RL训练目标，通过归一化有效样本量替代固定裁剪，以自动平衡trust-region和off-policy问题，实验表明该方法在多种设置下匹配或超越调优基线，且无需引入新的超参数。

Detecting overfitting in Neural Networks during long-horizon grokking using Random Matrix Theory

Hari K. Prakash, Charles H Martin

cs.LG cs.AI

本文提出了一种基于Random Matrix Theory的方法，通过将权重矩阵随机化并拟合Marchenko-Pastur分布来检测NN中的过拟合，识别出称为Correlation Traps的异常值，并发现其在长时程grokking的"anti-grokking"阶段出现。该方法无需访问训练或测试数据，但主要关注过拟合检测而非与关键词直接相关。

OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning

Yuxiao Yang, Xiaoyun Wang, Weitong Zhang

cs.LG cs.AI

本文研究了on-policy self-distillation (OPSD)方法，并提出OGLS-SD框架，通过outcome-guided logit-steering利用可验证的outcome rewards来校准teacher logits，以解决teacher与student响应之间的miscalibrated token-level supervision问题。该方法在多个benchmark上提升了reasoning performance。

Predicting Decisions of AI Agents from Limited Interaction through Text-Tabular Modeling

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

cs.LG cs.AI cs.CL cs.MA

本文研究AI agent在有限交互中预测陌生对手决策的问题，将其建模为目标自适应文本表格预测任务，并基于表格基础模型和LLM-as-Observer方法构建模型。实验表明该方法在谈判游戏中优于直接LLM预测基线，但方法本身并非开创性，且与关键词契合度较低。

Learning Minimally Rigid Graphs with High Realization Counts

Oleksandr Slyvka et al.

cs.LG math.CO

本文提出了一种基于强化学习的方法，通过Henneberg moves构造具有高realization count的minimally rigid graphs，并使用Deep Cross-Entropy Method和Graph Isomorphism Network进行策略优化。该方法在平面realization counts上匹配已知最优值，并改进了球面情况下的已知最优界。

Environment-Adaptive Preference Optimization for Wildfire Prediction

Enyi Jiang, Wu Sun

cs.LG cs.CE

本文提出Environment-Adaptive Preference Optimization (EAPO)框架，通过$k$-近邻检索构建与目标环境对齐的数据集，并结合监督学习和偏好优化进行混合微调，以提升野火预测在长尾分布和分布偏移下的鲁棒性。该方法在真实野火预测任务上取得了ROC-AUC 0.7310的性能。

ORCE: Order-Aware Alignment of Verbalized Confidence in Large Language Models

Chen Li et al.

cs.LG cs.CL

本文提出了一种解耦且顺序感知的verbalized confidence校准框架，通过先固定question-answer pair再估计confidence，并利用基于排序的reinforcement learning目标优化confidence与正确性似然的对齐。该方法在推理和知识密集型基准上提升了校准和失败预测性能，同时保持了答案准确性。

Search Your Block Floating Point Scales!

Tanmaey Gupta et al.

cs.LG cs.AR cs.PF

本文提出ScaleSearch方法，通过细粒度搜索利用微缩格式中的尾数位来优化Block Floating Point (BFP)的缩放因子选择，以最小化量化误差。该方法可集成到Post Training Quantization和低精度attention中，实验表明其能有效降低量化误差并提升语言模型性能。

High-arity Sample Compression

Leonardo N. Coregliano, William Opich

cs.LG

本文研究了product spaces上的high-arity sample compression scheme，证明了非平凡质量的high-arity sample compression scheme的存在性蕴含high-arity PAC learnability。

KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference

Alireza Nadali et al.

cs.LG cs.AI cs.CL

本文提出KV-Fold，一种无需训练的长上下文推理协议，通过将KV cache视为序列块上的左折叠累加器，实现逐块递归更新。该方法在保持模型不变的情况下，通过重复的一步更新处理长序列，并在长距离检索任务中取得100%的精确匹配。

Routers Learn the Geometry of Their Experts: Geometric Coupling in Sparse Mixture-of-Experts

Sagi Ahrac, Noya Hochwald, Mor Geva

cs.LG cs.CL

本文研究了Sparse Mixture-of-Experts (SMoE)模型中router与expert之间的几何耦合机制，发现router权重与对应expert权重在梯度更新方向上存在一致性，并通过实验验证了这种耦合对路由决策的重要性。

MEME: Multi-entity & Evolving Memory Evaluation

Seokwon Jung et al.

cs.LG cs.CL

本文提出了一个名为MEME的multi-entity & evolving memory evaluation基准，用于评估LLM-based agent在持久环境中的记忆与推理能力。实验发现，现有memory system在依赖推理任务上表现极差，且仅当使用高成本的file-based agent时才能部分改善。

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

Yuanda Xu et al.

cs.LG cs.AI

本文探讨了语言模型后训练中稀疏奖励与密集奖励的分配原则，提出将稀缺的标注数据优先用于强模型进行探索性训练，再通过密集监督蒸馏到小模型，并在Qwen3和Llama模型上进行了实验验证。

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Rishabh Tiwari et al.

cs.LG cs.AI

本文提出了一种名为Fast-Slow Training (FST)的框架，将LLM的模型参数视为“慢”权重，而优化的上下文视为“快”权重，以在持续学习中平衡任务特定信息吸收与通用推理能力保持。实验表明，FST在推理任务上比仅使用参数更新的RL方法样本效率更高，且能减少灾难性遗忘并保持可塑性。

cs.AI

Empowering VLMs for Few-Shot Multimodal Time Series Classification via Tailored Agentic Reasoning ⭐ 精选

Lin Li et al.

cs.AI cs.LG cs.MA cs.MM

本文提出首个面向少样本多模态时间序列分类的VLM Agentic推理框架MarsTSC，通过引入自进化知识库作为动态context，并设计Generator、Reflector和Modifier三个协作agent角色实现迭代推理优化。其中Reflector专门诊断推理错误根源以捕获被忽略的时间特征，Modifier则防止context collapse。该框架在12个基准上显著优于现有方法，并生成可解释的推理依据。

EVOCHAMBER: Test-Time Co-evolution of Multi-Agent System at Individual, Team, and Population Scales ⭐ 精选

Yaolun Zhang et al.

cs.AI

EVOCHAMBER提出了一种无需训练的多智能体测试时协同进化框架，在个体、团队和种群三个尺度上实现进化。其核心是CODREAM协议，在团队失败或分歧时触发，通过不对称地将洞察从强智能体路由到弱智能体，在保持专业化的同时填补知识空白。实验表明，该方法在竞赛数学、代码和多领域推理任务上显著优于基线，并自发涌现出稳定的专业分工，这体现了多智能体系统独有的进化特征，与关键词中的agent高度契合。

The Semantic Training Gap: Ontology-Grounded Tool Architectures for Industrial AI Agent Systems ⭐ 精选

Grama Chethan

cs.AI

本文识别并形式化了工业AI agent系统中的“语义训练鸿沟”问题，即LLM虽能流利使用领域术语，但缺乏对操作语义（如设备标识符、工艺参数间的本体关系）的grounded理解。为解决此问题，作者提出一种将制造ontology直接嵌入AI工具层的架构，通过一个三操作接口契约（resolve, contextualize, annotate）在运行时强制语义约束，而非依赖模型训练。实验表明，该架构在Qwen3-32B模型上将领域标识符的幻觉率从43%降至0%，并实现了跨领域可配置性。该工作与关键词“agent”和“context”高度契合，为工业AI agent的语义可靠性提供了开创性解决方案。

Attributing Emergence in Million-Agent Systems ⭐ 精选

Ling Tang et al.

cs.AI

本文针对百万智能体系统中涌现现象（macro emergence）的归因问题，提出了一种基于Aumann-Shapley路径积分归因的方法，该方法满足所有四条公理，并在相同硬件上比采样Shapley值快四到五个数量级，从而将归因分析从$N \lesssim 10^3$扩展到$N \geq 10^6$的规模。通过在Bluesky社交平台14天数据（1,671,587个活跃用户）上的实证，作者发现全尺度归因与可见性偏差的小样本（$N=10^2$）归因在结构上不一致：全尺度下长尾和中层用户共同承担主要归因，而小样本则将几乎所有归因归于少数高关注度账户。进一步，作者证明了归因缩放偏差定理（Attribution Scaling Bias theorem）：对于任何非线性宏观指标，不存在全局缩放因子能调和不同尺度下的归因结果，因此全尺度归因是理论上的必要条件。该工作为agent-based modeling中的涌现归因提供了可扩展且公理化的方法，并揭示了小样本研究的根本性局限。

Under the Hood of SKILL.md: Semantic Supply-chain Attacks on AI Agent Skill Registry ⭐ 精选

Shoumik Saha, Kazem Faghih, Soheil Feizi

cs.AI cs.CR

本文研究了AI Agent Skill生态系统中由自然语言元数据引发的语义供应链攻击。作者聚焦于Skill生命周期中的发现、选择和治理三个阶段，通过实验证明攻击者可以利用简短的文本触发器操纵基于embedding的检索（实现高达86%的成对胜率和80%的Top-10排名），并通过描述性框架使agent在77.6%的配对试验中选择功能等效的对抗性变体。该工作揭示了`this http URL`文件并非被动文档，而是能够决定agent获取、信任和使用哪些第三方能力的操作性文本，与关键词"agent"高度契合。

Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning ⭐ 精选

Haoxuan Chen et al.

cs.AI cs.LG

本文提出Group Cooperative Policy Optimization (GCPO)，通过将强化学习中的个体竞争范式转变为团队协作，解决了LLM推理中因“赢家通吃”导致的探索崩溃问题。GCPO采用基于行列式点过程的团队级信用分配，用奖励加权语义嵌入的行列式体积衡量有效解覆盖度，并依据每个rollout对团队覆盖的边际贡献重新分配奖励。该方法在多个推理基准上显著提升了推理准确性与解多样性，与关键词“context”和“attention”在语义覆盖与协作机制上存在关联。

FibQuant: Universal Vector Quantization for Random-Access KV-Cache Compression ⭐ 精选

Namyoon Lee, Yongjune Kim

cs.AI cs.IT stat.ML

本文提出FibQuant，一种用于随机访问KV-Cache压缩的通用固定速率vector quantizer。它通过结合Beta-quantile半径、Fibonacci/Roberts-Kronecker准均匀方向以及多重启Lloyd-Max细化，构建了一个匹配归一化-旋转后球面Beta分布的径向-角度codebook。理论证明该vector code在相同速率下严格优于其scalar product特化，其高速率增益可分解为cell-shaping factor和density-matching factor。实验表明，在GPT-2和TinyLlama-1.1B上，FibQuant在压缩比和保真度方面显著优于scalar TurboQuant，特别是在低比特率下。

Can LLM Agents Respond to Disasters? Benchmarking Heterogeneous Geospatial Reasoning in Emergency Operations ⭐ 精选

Junjue Wang et al.

cs.AI

本文提出了DORA (Disaster Operational Response Agent benchmark)，这是首个面向端到端灾害响应的agent benchmark，包含515个专家编写的任务和3500步工具调用轨迹。该benchmark覆盖了灾害感知、空间关系分析、救援规划、时序推理和多模态报告合成五个维度，并构建了包含108个工具的MCP (Model Context Protocol) 库来操作异构geospatial数据。实验评估了13个前沿LLM agent，揭示了三个关键挑战：灾害领域grounding的特殊失败模式、tool selection与argument grounding的双重瓶颈，以及随轨迹长度增加而加剧的compositional fragility。这项工作为构建操作可靠的灾害响应agent提供了严格的测试平台，与关键词中的agent和context高度契合。

Toward Stable Value Alignment: Introducing Independent Modules for Consistent Value Guidance ⭐ 精选

Wenhao Chen et al.

cs.AI

本文提出Stable Value Guidance Transformer (SVGT)，通过引入独立于backbone的value module，将normative representations维护在专用的value space中，并利用可学习的latent Bridge Tokens将稳定的value signals显式地引导生成轨迹。该方法解决了LLM中value alignment因residual stream动态性而难以保持稳定一致的问题，在多个backbone和安全基准上使harmful scores降低超过70%且不破坏生成流畅性。该工作与关键词中的"context"和"attention"相关，因其通过独立模块和Bridge Tokens在生成过程中动态注入value guidance，类似于一种contextual attention机制。

OptArgus: A Multi-Agent System to Detect Hallucinations in LLM-based Optimization Modeling ⭐ 精选

Zhong Li et al.

cs.AI

本文提出并解决了LLM在优化建模中的幻觉检测问题，即生成的数学公式和求解器代码在数值上匹配但语义结构错误。作者首次为优化建模定义了细粒度的幻觉分类法（涵盖目标、变量、约束和实现错误），并基于此设计了多agent检测系统OptArgus，该系统通过conductor路由、专业审计器和证据整合来检测结构不一致性。实验表明，相比单agent基线，OptArgus在干净样本上误报更少，在受控单错误案例上定位更准，对自然LLM输出检测更强，为可靠优化建模提供了模块化、基于分类法的审计路径。该工作与关键词中的agent和code高度契合。

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment ⭐ 精选

Bo Yin, Qi Li, Xinchao Wang

cs.AI

本文提出FATE框架，通过将agent失败轨迹转化为修复监督信号，实现on-policy的agent安全对齐。该方法引入Pareto-Front Policy Optimization (PFPO)来平衡安全性与实用性，解决了现有response-level或off-policy方法中安全-效用权衡的长期问题。实验表明，FATE在多个benchmark上显著降低攻击成功率和有害指令遵从率，同时保持agent的有用行为。该工作与关键词"agent"高度契合，为agent安全对齐提供了开创性的自演化方法。

SAGE: A Self-Evolving Agentic Graph-Memory Engine for Structure-Aware Associative Memory ⭐ 精选

Juntong Wang et al.

cs.AI

SAGE提出了一种自演化的图记忆引擎，将图记忆建模为动态长期记忆基板，通过耦合记忆写入器（从交互历史增量构建结构化图记忆）和基于Graph Foundation Model的记忆读取器（执行检索并提供反馈），解决了现有RAG和GraphRAG系统将记忆图视为静态检索中间件的局限性。该方法在multi-hop QA、开放域检索等任务中提升了证据恢复和答案基础，经过两轮自演化后达到最佳平均排名，与关键词"agent"高度契合。

Executable Agentic Memory for GUI Agent ⭐ 精选

Zerui Qin et al.

cs.AI

本文提出Executable Agentic Memory (EAM)，一种基于结构化Knowledge Graph (KG)的GUI agent记忆框架。该方法通过state-aware DFS和action-group mining构建可执行的记忆，并引入value-guided graph search，利用轻量级Q-function模型引导Monte Carlo Tree Search (MCTS)在KG上进行规划。理论部分建立了Q-model的bias-consistency并推导了路径恢复的sample complexity界，实验表明EAM在AndroidWorld上比UI-TARS-7B提升高达$19.6\%$，同时将token成本降低至GPT-4o的$1/6$，平均延迟仅$2.8$s。该工作为agent的长期规划提供了结构化记忆与高效搜索的新范式，与关键词"agent"高度契合。

$δ$-mem: Efficient Online Memory for Large Language Models ⭐ 精选

Jingdi Lei et al.

cs.AI

本文提出$\delta$-mem，一种轻量级在线记忆机制，通过delta-rule学习将历史信息压缩为固定大小的状态矩阵，并在生成时利用其读出生成低秩校正以耦合到full-attention backbone的attention计算中。该方法无需微调或扩展context window，仅用$8\times8$的在线记忆状态即可在记忆密集型benchmark（如MemoryAgentBench和LoCoMo）上显著提升性能，为agent系统中的长期记忆问题提供了高效且紧凑的解决方案。

A Cascaded Generative Approach for e-Commerce Recommendations

Moein Hasani et al.

cs.AI cs.IR

本文提出了一种级联生成式框架，将电商店铺页面构建分解为placement级别的主题生成和约束关键词生成两个任务，并利用teacher-student微调提升可扩展性。该框架将生成式输出与传统ranking模型融合，在在线实验中相比强基线获得了+2.7%的购物车添加率提升。

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking

Andrew Choi, Wei Xu

cs.AI cs.RO

本文提出RankQ，一种离线到在线强化学习方法，通过自监督的多项排序损失函数增强Q-learning，以学习结构化动作排序而非统一惩罚OOD动作。该方法在D4RL基准和视觉机器人任务中提升了性能，但未涉及code、spectral、Muon或attention等关键词。

OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents

Sheldon Yu et al.

cs.AI

本文提出OLIVIA框架，将LLM ReAct agent的最终action-selection层建模为contextual linear bandit，通过在线学习从action-level feedback中更新策略，以提升部署时的任务性能。该方法在多个benchmark上优于静态ReAct和基于prompt的baseline。

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

Siqi Zhu et al.

cs.AI

本文对on-policy distillation (OPD)和on-policy self-distillation (OPSD)在大型语言模型后训练中的应用进行了实证研究，揭示了其在数学推理等任务中失败的原因（如教师-学生分布不匹配、优化不稳定等），并提出了stop-gradient TopK目标等修复方法。该工作主要聚焦于蒸馏方法的机制分析，与关键词列表中的code, spectral, Muon, pretrain, agent, attention等概念关联度较低。

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

M. Shalankin

cs.AI

本文研究了视觉语言模型中数字锚点对质量判断的系统性偏差，发现锚点效应比图像质量退化大2.5倍，并通过层间探测揭示了表示动态与行为偏差的关联。

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Dominik Helfenstein, Marco Menner, Maximilian Triebel

cs.AI

本文提出了VLATIM基准，用于评估Vision-Language Models在点按解谜游戏《The Incredible Machine 2》中的人类逻辑问题解决能力。结果表明，大型专有模型在规划上表现较好，但在精确视觉定位和执行上存在显著不足。

PIVOT: Bridging Planning and Execution in LLM Agents via Trajectory Refinement

Tuo Zhang et al.

cs.AI cs.LG cs.MA

本文提出PIVOT框架，通过将trajectory视为可优化对象并利用环境交互进行迭代细化，来解决LLM agent中plan与execution之间的不一致问题。该方法在DeepPlanning和GAIA上取得了SOTA性能，但主要贡献在于agent系统的plan-execution对齐，与关键词中的spectral、Muon等概念关联较弱。

Rethinking LLMOps for Fraud and AML: Building a Compliance-Grade LLM Serving Stack

Prathamesh Vasudeo Naik, Naresh Dintakurthi, Yue Wang

cs.AI cs.LG

本文针对欺诈检测和反洗钱(AML)合规场景，提出了一种面向工作负载的LLMOps技术栈，通过结合vLLM运行时调优、PagedAttention、自动前缀缓存(Automatic Prefix Caching)等技术，在自托管开源模型上显著提升了吞吐量并降低了延迟。该工作主要聚焦于工程优化与合规性验证，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联度较低。

Unlocking LLM Creativity in Science through Analogical Reasoning

Andrew Shen, Shaul Druckmann, James Zou

cs.AI cs.CL q-bio.QM

本文提出了一种基于analogical reasoning的方法来增强LLM在科学问题解决中的创造力，通过生成跨领域类比来缓解模式崩溃问题，并在四个生物医学任务上验证了其有效性。该方法在生成多样性和新颖性上显著优于基线，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Template-as-Ontology: Configurable Synthetic Data Infrastructure for Cross-Domain Manufacturing AI Validation

Grama Chethan

cs.AI

本文提出Template-as-Ontology原则，通过一个Python配置模块同时作为制造模拟器的规范和AI工具的运行时domain schema，从而保证结构对齐。该方法构建了一个五层数据流水线，生成跨四个运营域的MES格式数据，并通过实验验证了参数可控性和幻觉消除效果。

LatentRouter: Can We Choose the Right Multimodal Model Before Seeing Its Answer?

Xueqi Cheng, Yushun Dong

cs.AI cs.CL cs.CV

本文提出LatentRouter，一种通过潜在多模态路由胶囊和模型能力token进行反事实效用预测的多模态大模型路由方法，在MMR-Bench等基准上优于基线。该方法主要关注模型选择而非与关键词直接相关。

Constraint-Data-Value-Maximization: Utilizing Data Attribution for Effective Data Pruning in Low-Data Environments

Danilo Brajovic, David A. Kreplin, Marco F. Huber

cs.AI

本文指出基于Shapley的数据价值在低数据量剪枝场景中效果不佳，并提出Constraint-Data-Value-Maximization (CDVM)方法，通过将剪枝建模为约束优化问题来最大化总影响并惩罚过度的每测试贡献，在OpenDataVal基准上展示了良好性能。

Rethinking Evaluation for LLM Hallucination Detection: A Desiderata, A New RAG-based Benchmark, New Insights

Wenbo Chen et al.

cs.AI

本文针对LLM幻觉检测的评估基准问题，提出了一个包含理想属性（desiderata）的评估框架，并构建了一个基于RAG（Retrieval-Augmented Generation）的新基准TRIVIA+，该基准包含长上下文和多种噪声标签。实验揭示了当前检测器在RAG任务上的性能仍有提升空间，且标签噪声会显著影响检测效果。

CPEMH: An Agentic Framework for Prompt-Driven Behavior Evaluation and Assurance in Foundation-Model Systems for Mental Health Screening

Giuliano Lorenzoni et al.

cs.AI

本文提出了CPEMH框架，一种用于评估和保证基于transcript数据集的foundation-model系统在心理健康筛查中prompt驱动行为的agentic框架。该框架通过模块化agent设计（包括orchestrator、inference和evaluation agents）实现prompt策略的自主设计、评估和选择，并在一项抑郁症筛查案例研究中展示了其稳定性和可审计性。

CVEvolve: Autonomous Algorithm Discovery for Unstructured Scientific Data Processing

Ming Du et al.

cs.AI physics.data-an

CVEvolve是一个零代码接口的自主agent框架，用于科学数据处理算法的自动发现。它结合多轮搜索策略与代码执行、评估实现等工具，在X射线荧光显微图像配准等任务上改进了基线方法。

Causal Bias Detection in Generative Artifical Intelligence

Drago Plecko

cs.AI cs.LG stat.ML

本文针对生成式AI中的因果公平性问题，提出了一个统一的理论框架，并推导了新的因果分解结果以量化不同因果路径上的偏差。该工作主要关注公平性检测，与您提供的关键词（如code, spectral, Muon等）关联度较低。

Causal Algorithmic Recourse: Foundations and Methods

Drago Plecko, Collin Wang, Elias Bareinboim

cs.AI cs.LG stat.ML

本文提出了一个因果框架来建模algorithmic recourse问题，将recourse视为个体在干预前后可能重新采样latent variables的过程，并引入了post-recourse stability条件。基于copula的方法被用于从observational data或recourse data中推断recourse effects，并在真实和半合成数据集上进行了验证。

LLM-X: A Scalable Negotiation-Oriented Exchange for Communication Among Personal LLM Agents

Giuliano Lorenzoni, Paulo Alencar, Donald Cowan

cs.AI

本文提出了LLM-X，一个面向个人LLM agents的可扩展协商导向通信环境，通过消息总线和路由机制实现agent间的结构化通信，并实验验证了不同协商策略下的性能权衡。

Revisiting Privacy Preservation in Brain-Computer Interfaces: Conceptual Boundaries, Risk Pathways, and a Protection-Strength Grading Framework

Lei Sun et al.

cs.AI

本文重新审视了脑机接口中的隐私保护问题，定义了隐私保护边界与保护对象，并提出了一个三维框架（保护对象、生命周期阶段、保护强度等级）来对现有工作进行分类。文章强调了在保护隐私的同时，需要解缠任务无关的敏感信息以保持下游效用。

Transformer Interpretability from Perspective of Attention and Gradient

Yongjin Cui, Xiaohui Fan, Huajun Chen

cs.AI

本文从attention和gradient的角度研究Transformer的可解释性，提出通过引导梯度方向（即attention方向）来实现对特征区域的更全面解释，并利用Vision Transformer (ViT)与人类感知图像的差异，以人眼几乎不可察觉的方式改变图像类别。

AcuityBench: Evaluating Clinical Acuity Identification and Uncertainty Alignment

Robin Linzmayer et al.

cs.AI cs.CL

本文提出了AcuityBench基准，用于评估语言模型从用户医疗描述中识别适当护理紧急程度的能力。该基准整合了五个公开数据集，并支持分类和对话两种任务格式，揭示了模型在紧急程度识别上的显著差异及与临床专家判断的不匹配。

What Do EEG Foundation Models Capture from Human Brain Signals?

Ling Tang et al.

cs.AI

本文通过层状ridge probing、LEACE-style交叉协方差子空间擦除和透明分类器，系统分析了三个EEG foundation model（CSBrain, CBraMod, LaBraM）在五个临床任务中学习到的特征。研究发现，68.6%的（模型，任务，特征）单元是表示因果的，频率域特征占主导，但其他五个特征族也贡献了显著的因果质量。

A Mechanistic Investigation of Supervised Fine Tuning

Ruhaan Chopra

cs.AI

本文利用Sparse Autoencoder (SAE)作为高分辨率诊断工具，研究了Supervised Fine-Tuning (SFT)对大型语言模型隐藏激活的影响，发现尽管余弦相似度很高，但底层稀疏latent发生了显著变化。

Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning

Zihao Han et al.

cs.AI cs.CL cs.LO

本文提出了一种名为ATESD的自蒸馏方法，通过一个轻量级的Beta策略控制器动态调整教师模型暴露的推理步骤比例，以解决学生与教师能力不匹配的问题。实验表明该方法在多个数学推理基准上优于现有基线。

CAMPA: Efficient and Aligned Multimodal Graph Learning via Decoupled Propagation and Aggregation

Daohan Su et al.

cs.AI

本文提出CAMPA框架，通过解耦传播与聚合阶段并引入跨模态对齐机制（包括传播阶段的语义一致性保持和聚合阶段的轨迹级注意力对齐），解决了多模态图神经网络中模态冲突导致的效率与性能瓶颈问题。实验表明该方法在保持解耦范式高效性的同时优于现有基线。

TOPPO: Rethinking PPO for Multi-Task Reinforcement Learning with Critic Balancing

Yuanpeng Li et al.

cs.AI cs.LG cs.RO stat.ML

本文指出PPO在多任务强化学习中存在critic-side梯度病态问题，导致困难任务学习停滞。为此提出TOPPO方法，通过Critic Balancing模块改善梯度条件并平衡任务学习动态，在Meta-World+基准上以更少参数和环境步数超越了SAC系列基线。

Engagement Process: Rethinking the Temporal Interface of Action and Observation

Jialian Li et al.

cs.AI

本文提出Engagement Process (EP) formalism，将POMDP中的action和observation解耦为沿时间轴的独立事件流，以建模数字与物理环境中复杂的时序交互问题。该方法在玩具实验、LLM-agent和学习实验中展示了step-based接口所隐藏的时序行为，并支持策略在显式时间成本下进行自适应。

The Evaluation Differential: When Frontier AI Models Recognise They Are Being Tested

Varad Vishwarupe et al.

cs.AI cs.CY cs.HC cs.LG

本文提出Evaluation Differential (ED)概念，指AI模型在识别出被测试时与部署连续条件下行为属性的条件性差异，并证明边际评估分数无法识别ED。文章开发了TRACE审计协议以约束评估证据产生的声明，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Selective Off-Policy Reference Tuning with Plan Guidance

Duc Anh Le et al.

cs.AI

本文提出SORT方法，通过从reference solution中提取plan并比较有无plan条件下的token概率，为强化学习中的失败样本提供选择性更新信号，从而改进GRPO-style方法在困难prompt上的表现。该方法在多个reasoning benchmark上取得提升，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Hierarchical LLM-Driven Control for HAPS-Assisted UAV Networks: Joint Optimization of Flight and Connectivity

Zijiang Yan et al.

cs.AI cs.LG cs.MA eess.SY

本文提出了一种基于大语言模型(LLM)的分层控制框架，用于解决高空平台(HAPS)辅助无人机网络中的飞行与连接联合优化问题。该框架将问题建模为分层多目标部分可观测马尔可夫决策过程(H-MO-POMDP)，并通过全局LLM控制器与局部混合控制器实现负载均衡与通信控制。

AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration -- Learning from Cheap, Optimizing Expensive

Taicheng Guo et al.

cs.AI cs.CL cs.LG

本文提出了AutoLLMResearch框架，通过构建多保真度实验环境LLMConfig-Gym和结构化训练流程，将LLM实验配置优化建模为长期Markov Decision Process，使agent能从低成本实验中学习可泛化原则并高效应用于高成本场景。该方法在多种基准测试上验证了有效性，但主要聚焦于实验配置自动化，与关键词中的code、spectral、Muon等概念关联较弱。

Controllable User Simulation

Guy Tennenholtz et al.

cs.AI cs.CL cs.LG

本文形式化了可控用户模拟的因果推断问题，指出通过监督微调训练模拟器会引入结构性偏差，导致因果不一致性和可控性崩溃。作者提出了理论条件与训练缓解方法，以恢复因果一致性并提升模拟器对未见行为的泛化能力。

Read, Grep, and Synthesize: Diagnosing Cross-Domain Seed Exposure for LLM Research Ideation

Yunju Choi, Min Song

cs.AI

本文提出了PaperGym，一个三阶段pipeline，用于研究LLM研究构思系统是否受益于跨领域检索。实验发现，跨领域检索在新颖性上优于无检索和同领域基线，但与随机多样种子控制组无显著差异。

Optimal LTLf Synthesis

Yujian Cao et al.

cs.AI cs.LO

本文提出了最优LTLf合成问题，旨在当规范无法完全满足时最大化实现的目标数量，并介绍了max-guarantee、max-observation和增量max-observation三种合成变体。实验表明这些方法在基准测试中具有良好的可扩展性和实用性。

Hindsight Hint Distillation: Scaffolded Reasoning for SWE Agents from CoT-free Answers

Shengjie Wang et al.

cs.AI cs.LG

本文提出Hindsight Hint Distillation (HHD)方法，仅利用无chain-of-thought标注的问答对，通过模型自身失败轨迹合成事后提示来辅助成功rollout，并最终通过自蒸馏提升agent在长程任务中的表现。该方法在SWE-bench等代码任务上取得显著提升，但与关键词中的spectral、Muon、pretrain等概念无关。

Dual-Temporal LSTM with Hybrid Attention for Airline Passenger Load Factor Forecasting: Integrating Intra-Flight and Inter-Flight Booking Dynamics

ASM Nazrul Islam et al.

cs.AI cs.LG

本文提出了一种双流LSTM与混合注意力机制结合的航空乘客载客率预测方法，通过同时处理航班内预订积累和航班间预订模式两个时间序列，解决了现有模型忽略双时间维度信息的问题。实验在孟加拉国航空的真实数据上验证了模型优于单流基线和其他方法，但方法本身在注意力机制和双流架构上的创新性有限，且与关键词列表中的概念关联较弱。

Native Explainability for Bayesian Confidence Propagation Neural Networks: A Framework for Trusted Brain-Like AI

Georgios Makridis et al.

cs.AI

本文为基于Bayesian Confidence Propagation Neural Network (BCPNN)的类脑神经网络提出了首个系统性的可解释性框架，将模型架构原语（如权重、超列后验、吸引子动力学）映射到归因、原型、概念等XAI类别，并定义了16种架构级解释原语和5种配置即解释原语。该工作填补了BCPNN缺乏解释框架的空白，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

GAR: Carbon-Aware Routing for LLM Inference via Constrained Optimization

Disha Sheshanarayana et al.

cs.AI

本文提出了Green-Aware Routing (GAR)框架，通过约束多目标优化来最小化LLM推理请求的CO2排放，同时满足准确率和延迟约束。该方法与关键词列表中的概念关联较弱。

CuSearch: Curriculum Rollout Sampling via Search Depth for Agentic RAG

Jianghan Shen et al.

cs.AI

本文提出CuSearch框架，通过Search-Depth Greedy Allocation (SDGA)算子，在强化学习训练agentic RAG系统时，优先采样搜索深度更大的trajectory以提供更密集的retrieval监督信号。实验表明该方法在ZeroSearch等任务上提升了性能，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Nice Fold or Hero Call: Learning Budget-Efficient Thinking for Adaptive Reasoning

Zhaomeng Zhou et al.

cs.AI

本文提出Budget-Efficient Thinking (BET)框架，通过结合行为冷启动和投资成本感知的GRPO奖励，使大推理模型根据查询的可解性自适应分配计算预算，在数学推理等任务上平均减少约55%的推理token并保持性能。

Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning

Chi Zhang et al.

cs.AI

本文提出Seirênes框架，通过对抗性自博弈将上下文干扰转化为训练信号，以提升LLM在数学推理中的鲁棒性。该方法在多个基准上取得显著提升，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

A CAP-like Trilemma for Large Language Models: Correctness, Non-bias, and Utility under Semantic Underdetermination

Vinu Ellampallil Venugopal

cs.AI cs.DB

本文受CAP定理启发，提出了一个针对大语言模型的类似三元悖论：在语义欠定（即给定前提无法唯一确定答案）的情况下，模型无法同时保证强正确性、严格无偏性和高实用性。文章通过形式化分析和示例论证，指出某些模型失败源于欠定决策请求的结构性限制，而非模型本身的局限。

OOM-Free Alpamayo via CPU-GPU Memory Swapping for Vision-Language-Action Models

Seungwoo Roh, Huiyeong Kim, Jong-Chan Kim

cs.AI

本文提出了一种通过CPU-GPU内存交换实现OOM-Free的框架，用于在显存受限的GPU上运行视觉-语言-动作模型（VLA），通过系统级优化（如顺序需求分层、流水线需求分层和驻留层决策策略）减少显存占用，并在RTX 5070Ti上实现了最高3.55倍加速。该方法不涉及模型修改，主要解决显存瓶颈问题，与关键词中的概念关联较弱。

Explaining and Breaking the Safety-Helpfulness Ceiling via Preference Dimensional Expansion

ShiYing Huang et al.

cs.AI

本文从多维度奖励的视角分析了大型语言模型在安全性与有用性之间的权衡问题，提出MORA方法通过预采样和问题重写来扩展奖励多样性。实验表明该方法在顺序对齐和同步对齐中均能提升模型性能。

Persistent and Conversational Multi-Method Explainability for Trustworthy Financial AI

Georgios Makridis et al.

cs.AI

本文提出了一种用于金融情感分析的可解释AI架构，通过将LIME特征归因、遮挡词重要性分数和显著性热图等XAI工件作为持久化对象存储，并利用检索增强生成（RAG）助手实现多方法解释三角验证。实验表明，约束提示将幻觉率降低36%，方法归因引用增加73%，但方法本身在数学理论或算法创新上缺乏开创性。

Measuring What Matters Beyond Text: Evaluating Multimodal Summaries by Quality, Alignment, and Diversity

Abid Ali, Diego Molla-Aliod, Usman Naseem

cs.AI

本文提出了一个名为MM-Eval的统一评估框架，用于衡量多模态摘要的质量，该框架整合了文本质量、跨模态对齐和视觉多样性三个维度的评估。通过使用OpenFActScore、G-Eval、MLLM-as-a-judge和Truncated CLIP Entropy等指标，并结合一个学习到的聚合模型，该框架旨在提供更全面的多模态摘要比较评估。

SafeSteer: A Decoding-level Defense Mechanism for Multimodal Large Language Models

Xinyi Zeng et al.

cs.AI

本文提出SafeSteer，一种针对多模态大语言模型(MLLM)的解码级防御机制，通过轻量级探针(Decoding-Probe)在解码过程中检测并纠正有害输出，并利用模态语义对齐向量将文本安全对齐迁移至视觉模态。该方法无需微调即可提升模型安全性，但未涉及代码、谱方法或Muon优化器等关键词相关技术。

Allegory of the Cave: Measurement-Grounded Vision-Language Learning

Kepeng Xu et al.

cs.AI cs.CL cs.CV

本文提出PRISM-VL，通过将视觉输入从RGB图像转向RAW域测量数据（Meas.-XYZ输入）来增强视觉-语言模型的grounding能力，并引入Exposure-Bracketed Supervision Aggregation以迁移RGB代理监督。实验表明，该方法在低光、HDR等挑战性场景下显著优于RGB基线，但未涉及code、spectral或Muon等关键词。

When Reasoning Traces Become Performative: Step-Level Evidence that Chain-of-Thought Is an Imperfect Oversight Channel

Wenkai Li et al.

cs.AI

本文通过一个Detect-Classify-Compare框架，在多个模型和基准上验证了Chain-of-Thought (CoT)推理轨迹与模型内部计算过程的时间同步性，发现平均仅有61.9%的步骤是同步的，且主要失配模式为“虚构延续”（confabulated continuation）。该工作揭示了CoT作为审计通道的不完美性，但并未直接涉及关键词中的code、spectral、Muon、pretrain、agent或attention等核心概念。

Towards Visually Grounded Multimodal Summarization via Cross-Modal Transformer and Gated Attention

Abid Ali, Diego Molla-Aliod, Usman Naseem

cs.AI

本文提出SPeCTrA-Sum框架，通过Deep Visual Processor实现视觉编码器与语言模型的深度对齐融合，并利用Visual Relevance Predictor基于Determinantal Point Processes选择代表性图像，以改进多模态摘要的视觉基础。实验表明该方法在生成准确摘要和选择代表性图像方面优于现有方法。

Beyond Inefficiency: Systemic Costs of Incivility in Multi-Agent Monte Carlo Simulations

Alison Moldovan-Mauer, Benedikt Mangold

cs.AI

本文利用基于LLM的Multi-Agent系统进行Monte Carlo模拟，研究不文明沟通对辩论效率的影响，发现毒性行为会延长收敛时间，且参数较小的模型受影响更大，同时存在显著的首动优势。该工作主要关注社会学模拟而非数学方法创新，与关键词契合度较低。

Why Users Go There: World Knowledge-Augmented Generative Next POI Recommendation

Qiuyu Ding et al.

cs.AI

本文提出AWARE模型，利用LLM agent生成结合地点和时间背景的叙述，以增强生成式POI推荐。该方法通过将外部世界知识锚定在用户行为模式中，提升了推荐性能，但未涉及code、spectral、Muon或attention等关键词。

Beyond World-Frame Action Heads: Motion-Centric Action Frames for Vision-Language-Action Models

Huoren Yang et al.

cs.AI

本文提出MCF-Proto，一种轻量级的action head，通过引入Motion-Centric Action Frame和基于prototype的动作参数化，改进了Vision-Language-Action模型的动作预测。该方法在无需额外监督的情况下，使学习到的local frame与demonstrated end-effector motion兼容，并提升了模型在几何扰动下的鲁棒性。

Automated Reformulation of Robust Optimization via Memory-Augmented Large Language Models

Jinbiao Chen et al.

cs.AI

本文提出了AutoREM框架，利用memory-augmented large language models自动将robust optimization问题转化为tractable deterministic counterparts，并通过AutoRO-Bench基准进行系统评估。该方法无需参数更新即可提升转化准确率。

MedMemoryBench: Benchmarking Agent Memory in Personalized Healthcare

Yihao Wang et al.

cs.AI

本文提出了一个名为MedMemoryBench的benchmark，用于评估个性化医疗agent中的memory机制。它通过合成临床轨迹和流式评估协议，揭示了主流架构在复杂医疗推理和噪声鲁棒性方面的严重瓶颈。

From Clever Hans to Scientific Discovery: Interpreting EEG Foundational Transformers with LRP

Justus Meyer zu Bexten et al.

cs.AI

本文研究了将Layer-wise relevance propagation (LRP)方法应用于EEG基础Transformer模型的可解释性分析，发现LRP既能验证模型决策，也能揭示如"Clever Hans"行为等生物学上合理的假设。

Toward Modeling Player-Specific Chess Behaviors

Loris Sogliuzzo, Aloïs Rautureau, Eric Piette

cs.AI

本文提出了一种基于Maia-2模型和有限Monte Carlo Tree Search (MCTS)的架构，用于模拟特定国际象棋冠军的个性化决策风格，并引入了一种基于Jensen-Shannon divergence的新行为度量来评估风格相似性。实验表明，该方法在降低标准落子准确率的同时，改善了模型与人类冠军的行为对齐。

Rethinking Supervision Granularity: Segment-Level Learning for LLM-Based Theorem Proving

Shuo Xu et al.

cs.AI

本文重新审视了基于LLM的定理证明中的监督粒度问题，提出了segment-level supervision策略，通过提取局部连贯的proof segment来训练policy model，并在推理时复用该策略进行短rollout。实验表明该方法在miniF2F上优于step-level和whole-proof基线，并能提升现有step-level prover的性能。

Rethinking Positional Encoding for Neural Vehicle Routing

Chuanbo Hua et al.

cs.AI

本文重新审视了Transformer在神经组合优化（NCO）中处理车辆路径问题（VRP）时的位置编码（PE）设计，提出了几何感知的层次非等距PE，该编码结合了距离索引的循环路径内编码和以depot为中心的角向跨路径编码，并在多种VRP变体上验证了其优于传统索引式PE。

Domain Restriction via Multi SAE Layer Transitions

Elias Shaheen, Avi Mendelson

cs.AI

本文利用sparse autoencoder (SAE) 提取LLM层间转换的内部动态特征，提出了一种轻量级方法用于检测out-of-domain (OOD) 文本。实验表明该方法能有效捕捉输入处理的细粒度细节，但未涉及关键词中的code、spectral或Muon等核心概念。

When Simulation Lies: A Sim-to-Real Benchmark and Domain-Randomized RL Recipe for Tool-Use Agents

Xiaolin Zhou et al.

cs.AI

本文研究了tool-use language agents在真实部署中遇到的sim-to-real gap问题，通过引入RobustBench-TC基准测试（包含22种扰动类型）和ToolRL-DR领域随机化强化学习方案，发现观测扰动影响较小而奖励相关和转移扰动影响显著，所提方法在3B参数模型上能恢复约四分之三的干净准确率并缩小与o4-mini的差距。

From Noise to Diversity: Random Embedding Injection in LLM Reasoning

Heejun Kim et al.

cs.AI

本文研究了Random Soft Prompts (RSPs)，即向LLM输入中注入随机embedding向量，发现其无需训练即可在数学推理任务上达到与优化soft prompt相当的准确率。机制上，RSP通过引入随机位置使早期token分布平坦化、增加推理轨迹多样性，并结合温度采样提升Pass@N。

Counterfactual Trace Auditing of LLM Agent Skills

Xiaolin Zhou et al.

cs.AI

本文提出Counterfactual Trace Auditing (CTA)框架，通过为每个带skill的agent trace配对无skill的counterpart，并分段对齐生成Skill Influence Pattern (SIP)注释，以衡量LLM agent技能如何改变其行为。在SWE-Skills-Bench上的实验表明，尽管pass rate变化很小，但CTA能检测到技能对agent行为的显著重塑，并识别出模板复制、离题artifact创建等pass rate无法捕捉的效应。

Assessing and Mitigating Miscalibration in LLM-Based Social Science Measurement

Jinyuan Wang, Ningyuan Deng, Yi Yang

cs.AI

本文研究了基于LLM的社会科学测量中的校准问题，发现模型报告的置信度与基于容忍度的正确性存在偏差。作为缓解措施，提出了一种软标签蒸馏管道，用于校准Bert模型，平均降低了ECE 43.2%和Brier 34.0%。

On the Limitations of Large Language Models for Conceptual Database Modeling

Arthur F. Siqueira et al.

cs.AI

本文分析了使用Large Language Models (LLMs)自动从自然语言需求生成Entity-Relationship (ER) diagrams的能力，实验表明LLMs在复杂场景下可靠性下降，存在不一致和歧义问题。

Random-Set Graph Neural Networks

Tommy Woodley et al.

cs.AI cs.LG stat.AP stat.ML

本文提出了一种基于belief function (有限随机集) 的图神经网络框架RS-GNN，用于建模节点级别的epistemic uncertainty。该方法通过预测类别上的随机集来同时获得精确概率预测和不确定性度量，并在多个图学习数据集上验证了其不确定性量化能力。

BadSKP: Backdoor Attacks on Knowledge Graph-Enhanced LLMs with Soft Prompts

Xiaoting Lyu et al.

cs.AI

本文研究了知识图谱增强的大语言模型中的后门攻击问题，发现传统文本通道的后门攻击在软提示架构中效果不佳，并提出了BadSKP方法，通过多阶段优化策略操纵图到提示的接口来实现攻击。实验表明该方法在多种设置下具有高攻击成功率，但未涉及代码、谱方法或预训练等关键词相关技术。

LegalCheck: Retrieval- and Context-Augmented Generation for Drafting Municipal Legal Advice Letters

Virgill van der Meer, Julien Rossi

cs.AI

本文提出了LegalCheck系统，通过结合Retrieval-Augmented Generation (RAG)和Context-Augmented Generation (CAG)来自动化起草市政法律建议信，并在阿姆斯特丹市的实际部署中验证了其效率提升和法律一致性。该系统利用大语言模型和专家审查循环，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

LLMs and the ZPD

Peter Wallis

cs.AI

本文从维果茨基的“最近发展区”理论出发，探讨了LLM的认知机制，认为其完成模型进行的是基于“实践”的原始思维，而非真正的分布式表征思考。文章提出交互是人类沟通的核心，并认为LLM的“幻觉”更像是一种“梦境”，需要研究使其具备常识的认知工具集。

OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models

Yuchen Deng et al.

cs.AI

本文提出OmniRefine，一种无需训练的两阶段框架，用于在全模态大语言模型(Omni-LLMs)中高效压缩音频-视觉token。该方法通过保持跨模态对应关系的块精炼和模态感知的协同压缩，在降低推理成本的同时稳定保留关键证据，实现了比强基线更好的效率-性能权衡。

Intermediate Artifacts as First-Class Citizens: A Data Model for Durable Intermediate Artifacts in Agentic Systems

Josh Rosen, Seth Rosen

cs.AI cs.MA

本文提出了一种面向agentic systems的持久化中间产物数据模型，将中间产物（如证据图、声明结构等）作为一等公民，并形式化了增量与替代更新语义。该工作旨在提升AI生成工作的可检查性和可维护性，但未涉及code、spectral、Muon、pretrain或attention等关键词。

Autonomy and Agency in Agentic AI: Architectural Tactics for Regulated Contexts

Damir Safin, Dian Balta

cs.AI

本文提出了一个用于监管场景下Agentic AI设计的二维设计空间，将agency和autonomy划分为五个操作级别，并提出了六种架构策略来调整部署位置。该工作为合规性感知的AI设计提供了共享词汇，但未涉及代码、谱方法或预训练等关键词。

Large Language Models as Amortized Pareto-Front Generators for Constrained Bi-Objective Convex Optimization

Peipei Xu et al.

cs.AI

本文提出DIPS框架，通过微调large language models作为amortized Pareto-front generators，直接为constrained bi-objective convex optimization问题生成可行解集。该方法结合离散化方案和课程优化，在多个问题上达到较高hypervolume ratio，但未涉及关键词中的code、spectral或Muon等概念。

Adaptive Multi-Round Allocation with Stochastic Arrivals

Yuqi Pan et al.

cs.AI cs.DS

本文研究了一个受自适应网络招募启发的顺序资源分配问题，其中有限预算的同质资源需在多轮中分配给具有随机推荐能力的个体。作者引入了一个仅依赖于剩余预算和前沿规模的群体级替代价值函数，并利用截断概率生成函数实现了精确的动态规划，从而得到一个多项式复杂度的规划算法。

To Whom Do Language Models Align? Measuring Principal Hierarchies Under High-Stakes Competing Demands

Fangyi Yu et al.

cs.AI

本文研究了语言模型在高风险专业场景中面对用户、权威和专业标准冲突时的行为，发现模型在任务执行中常违背专业标准，且这种层级关系不稳定。该工作主要关注AI对齐的实证评估，与关键词中的code、spectral、Muon、pretrain、agent、attention等方向无直接关联。

Rollout Cards: A Reproducibility Standard for Agent Research

Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

cs.AI

本文指出agent研究中可重复性问题严重，提出将rollout records（评估记录）而非报告分数作为可重复性单位，并引入rollout cards（一种发布包）来保存记录和声明报告规则。通过审计50个仓库和实验验证，发现仅改变报告规则即可使分数变化20.9个百分点甚至颠覆模型排名。

BoolXLLM: LLM-Assisted Explainability for Boolean Models

Du Cheng, Serdar Kadioglu, Xin Wang

cs.AI

本文提出BoolXLLM框架，将Large Language Models (LLMs)集成到Boolean rule learning的端到端流程中，用于增强可解释性。该方法在特征选择、阈值推荐和规则解释三个阶段利用LLMs，将形式化的Boolean规则转化为自然语言解释。

MM-OptBench: A Solver-Grounded Benchmark for Multimodal Optimization Modeling

Zhong Li et al.

cs.AI

本文提出了一个名为MM-OptBench的多模态优化建模基准，要求模型从文本和视觉信息中构建数学优化模型及可执行求解器代码，并基于780个求解器验证的实例评估了9个多模态大语言模型。结果显示该任务远未解决，最佳模型pass@1仅约52%，所有数学专用模型均无法解决任何实例。

ALGOGEN: Tool-Generated Verifiable Traces for Reliable Algorithm Visualization

Kunpeng Liao et al.

cs.AI cs.GR

本文提出ALGOGEN，一种将算法执行与渲染解耦的算法可视化新范式，通过引入Visualization Trace Algebra (VTA)和Rendering Style Language (RSL)来生成可靠的算法动画。实验表明该方法相比端到端方法在成功率上有显著提升，但未涉及关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念。

Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics

Jishnu Sethumadhavan Nair et al.

cs.AI cs.CL cs.LG

本文探讨了企业系统中是否需要学习世界模型的问题，提出在动态可配置的环境中，智能体应通过运行时发现（runtime discovery）机制读取系统配置来推断动态，而非仅依赖离线训练的内部化表示。作者引入了CascadeBench基准并实验表明，基于发现的智能体在部署变化下比离线训练的世界模型更鲁棒。

MolDeTox: Evaluating Language Model's Stepwise Fragment Editing for Molecular Detoxification

Jueon Park et al.

cs.AI

本文提出了MolDeTox基准，用于评估LLM和VLM在分子解毒任务中的逐步片段编辑能力，通过片段级分子理解提升了生成分子的结构有效性和质量。该工作主要关注分子优化中的毒性问题，与关键词中的概念关联较弱。

Goal-Oriented Reasoning for RAG-based Memory in Conversational Agentic LLM Systems

Jiazhou Liang et al.

cs.AI

本文提出Goal-Mem，一种面向目标的推理框架，用于基于RAG的对话agent记忆系统。它通过将用户话语分解为原子子目标并进行反向链式推理来检索记忆，以解决多跳和常识推理问题。实验表明该方法在需要复杂推理的任务上优于现有基线。

No Action Without a NOD: A Heterogeneous Multi-Agent Architecture for Reliable Service Agents

Zixu Yang et al.

cs.AI

本文提出了一种名为NOD (Navigator-Operator-Director)的异构多智能体架构，通过引入显式的Global State和选择性外部监督，旨在提升服务agent在长周期任务中的可靠性。实验表明该方法能减少策略违规和工具幻觉，但未涉及code、spectral、Muon或attention等关键词。

Why Conclusions Diverge from the Same Observations: Formalizing World-Model Non-Identifiability via an Inference

Toru Takahashi

cs.AI cs.CY cs.LG

本文从认知科学和机器学习角度，将人们基于相同观察得出不同结论的现象形式化为一种非可辨识性(non-identifiability)，并将其分为$\theta$-level和$W$-level两个层次，通过引入推理配置文件(inference profile) $\theta = (R, E, S, D)$来解释分歧的产生。

Missingness-MDPs: Bridging the Theory of Missing Data and POMDPs

Joshua Wendland et al.

cs.AI cs.LG

本文提出了missingness-MDPs (miss-MDPs)，作为部分可观测Markov决策过程 (POMDPs) 的一个新子类，通过引入缺失数据理论来建模观测函数。文章针对未知缺失函数下的规划问题，利用不同缺失类型 (MCAR, MAR, MNAR) 的结构性质，设计了PAC学习算法以近似求解，并证明了所得策略的epsilon-最优性。

How Useful Is Cross-Domain Generalization for Training LLM Monitors?

Sam Martin, Fabien Roger

cs.AI

本文研究了在多个分类任务上微调语言模型是否能提升其在未见过的分类任务上的泛化能力。实验发现，这种训练能部分泛化到相邻领域，但在某些边缘情况下（如分类提示完全改变）模型会失效。

NARA: Anchor-Conditioned Relation-Aware Contextualization of Heterogeneous Geoentities

Jina Kim et al.

cs.AI

本文提出NARA框架，用于对异构地理实体（点、折线、多边形）进行自监督表示学习，通过联合建模语义、几何和空间关系来学习上下文相关的表示。实验在建筑功能分类等任务上验证了其有效性，但方法本身与关键词中的code、spectral、Muon、agent等概念关联较弱。

LISA: Cognitive Arbitration for Signal-Free Autonomous Intersection Management

Abderrahmane Lakas, Mohamed Amine Ferrag, Merouane Debbah

cs.AI cs.CY cs.ET

本文提出LISA框架，利用LLM推理车辆意图以管理无信号交叉口，相比传统方法显著降低延迟和油耗。该方法虽具应用价值，但未涉及code、spectral、Muon等关键词，且创新性集中于工程应用而非理论突破。

Towards Automated Air Traffic Safety Assessment Around Non-Towered Airports Using Large Language Models

Torsten Darrell et al.

cs.AI

本文提出了一种基于vision-language model (VLM)的方法，用于分析非管制机场的飞行安全，通过处理CTAF无线电通信、天气数据和飞行轨迹等多模态信息。初步实验表明，该方法在二元安全分类任务上取得了较好的F1分数，但整体工作仍处于初步阶段，与关键词列表中的概念关联较弱。

Reinforcing VLAs in Task-Agnostic World Models

Yucen Wang et al.

cs.AI

本文提出RAW-Dream框架，通过使用预训练于多样化无任务行为的world model和现成的Vision-Language Model (VLM)生成奖励，实现了任务无关的world model学习，从而在零样本想象中微调Vision-Language-Action (VLA)模型。该方法引入双噪声验证机制以缓解world model幻觉，在仿真和真实实验中验证了其有效性。

Classifier Context Rot: Monitor Performance Degrades with Context Length

Sam Martin, Fabien Roger

cs.AI

本文研究了在长上下文（超过500K tokens）下使用语言模型监控coding agent危险行为时，分类性能的退化问题，发现当前前沿模型在长transcript中更易遗漏危险动作，并提出了通过周期性提醒等prompting技术进行部分缓解。

ProfiliTable: Profiling-Driven Tabular Data Processing via Agentic Workflows

Wei Liu et al.

cs.AI

本文提出了ProfiliTable，一个基于动态profiling的自主multi-agent框架，用于表格数据处理。它通过Profiler、Generator和Evaluator-Summarizer三个agent的协作，将模糊的用户意图转化为鲁棒的表格变换代码。

Semantic Reward Collapse and the Preservation of Epistemic Integrity in Adaptive AI Systems

William Parris

cs.AI

本文提出Semantic Reward Collapse (SRC)概念，指出在RLHF等标量偏好优化系统中，不同语义类别的评估不满被压缩为通用优化信号，导致模型倾向于抑制可见的认知失败而非保持校准的不确定性完整性。文章引入Constitutional Reward Stratification (CRS)作为领域感知的奖励框架，旨在保留自适应学习系统中的差异化认知归因，但该框架仍需进一步实证研究。

Formalize, Don't Optimize: The Heuristic Trap in LLM-Generated Combinatorial Solvers

Haoyu Wang et al.

cs.AI

本文通过构建CP-SynC-XL基准测试，评估了LLM生成组合求解器的三种范式，发现使用Python+OR-Tools的约束建模方法正确率最高，而直接提示LLM进行搜索优化效果有限且可能引入错误。

CAAFC: Chronological Actionable Automated Fact-Checker for misinformation / non-factual hallucination detection and correction

Islam Eldifrawi, Shengrui Wang, Amine Trabelsi

cs.AI

本文提出了一个名为CAAFC的自动化事实核查框架，用于检测和纠正错误信息与非事实性hallucination。该框架在多个基准数据集上超越了现有方法，并能通过主要信息源提供可操作的修正依据。

Towards Affordable Energy: A Gymnasium Environment for Electric Utility Demand-Response Programs

Jose E. Aguilar Escamilla et al.

cs.AI cs.CY cs.GT cs.LG

本文提出了DR-Gym，一个用于电力需求响应程序的开源在线Gymnasium环境，从电力公司视角模拟定价信号与客户反馈的交互，并集成了极端事件下的电价模型和建筑需求曲线。该工作主要面向强化学习应用，但与我提供的关键词（如spectral, Muon, pretrain, agent, attention）关联度较低。

Reward Hacking in Rubric-Based Reinforcement Learning

Anas Mahmoud et al.

cs.AI

本文研究了基于rubric的强化学习中的reward hacking现象，发现即使使用更强的verifier，当rubric未覆盖重要失败模式时，奖励仍会被利用，导致模型在rubric-free评估中质量下降。

ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

Xuhao Hu et al.

cs.AI

本文提出ToolCUA，一种通过分阶段训练范式（包括轨迹缩放、工具引导的强化学习和在线agentic RL）来优化GUI-Tool路径选择的agent，在OSWorld-MCP上取得了46.85%的准确率。该方法主要关注agent在混合动作空间中的路径规划，与关键词中的agent概念相关，但方法本身并非开创性突破。

cs.IR

AgentDisCo: Towards Disentanglement and Collaboration in Open-ended Deep Research Agents ⭐ 精选

Jiarui Jin et al.

cs.IR cs.CL cs.MA cs.MM

AgentDisCo提出了一种解耦与协作的agent架构，将深度研究形式化为信息探索与利用之间的对抗优化问题。它通过一个critic agent评估大纲并优化搜索查询，以及一个generator agent检索更新结果并修订大纲，从而迭代地生成研究大纲，并最终由下游报告撰写器合成综合报告。该框架支持通过meta-optimization harness自动发现设计策略，并利用code-generation agents（如Claude-Code）构建策略库，实现了无需大量人工干预的自我改进。该方法在多个基准测试上取得了与领先闭源系统相当或更优的性能，并引入了GALA基准来更好地反映真实用户需求。

Debiasing Message Passing to Mitigate Popularity Bias in GNN-based Collaborative Filtering

Md Aminul Islam et al.

cs.IR cs.LG

本文提出DPAA框架，通过在GNN的message passing中引入自适应embedding-aware交互权重和layer-wise权重来缓解popularity bias。实验表明该方法在推荐系统中优于现有去偏技术。

MIRA: An LLM-Assisted Benchmark for Multi-Category Integrated Retrieval

Mehmet Deniz Türkmen et al.

cs.IR

MIRA是一个基于社会科学搜索平台构建的新型benchmark，用于评估跨多种类别（如出版物、研究数据等）的统一信息检索系统。它利用LLM生成主题描述和相关性判断，但未涉及code、context、spectral等关键词。

Jeffrey Flynt

cs.IR cs.AI

本文提出了一种名为Tenure的本地优先代理，用于管理LLM的跨会话记忆。它通过类型化的信念存储和精确优先检索，解决了基于语义相似度搜索在命名实体解析中的低精度问题，实验表明其方法在特定场景下优于传统向量检索。

Much of Geospatial Web Search Is Beyond Traditional GIS

Ilya Ilyankou, Stefano Cavazzi, James Haworth

cs.IR cs.AI cs.CL cs.HC

本文使用dense sentence embeddings和SetFit分类器对MS MARCO语料库中的地理空间web搜索查询进行了大规模分类，发现18.0%的查询具有地理空间性质，并构建了包含88个类别的分类体系，指出许多查询（如价格、营业时间）超出了传统GIS系统的范围。

FedMM: Federated Collaborative Signal Quantization for Multi-Market CTR Prediction

Jun Zhang et al.

cs.IR

本文提出FedMM方法，利用离散codebook机制（如RQ-VAE）在联邦学习框架下实现跨市场CTR预测，通过全局与局部codebook分别捕捉共享和特定市场特征，在保护隐私的同时提升推荐性能。

Conditional Memory Enhanced Item Representation for Generative Recommendation

Ziwei Liu et al.

cs.IR cs.AI

本文提出ComeIR框架，通过条件记忆增强项目表示，以解决生成式推荐中SID（语义标识符）的量化信息损失与结构保留冲突问题。该方法利用MM引导的token评分和双层级Engram记忆来改进表示构建，但未涉及code、context、spectral等关键词。

TwiSTAR:Think Fast, Think Slow, Then Act,Generative Recommendation with Adaptive Reasoning

Shiteng Cao et al.

cs.IR

本文提出TwiSTAR框架，通过为LLM配备快速SID检索器、轻量级候选排序器和慢速推理模型三种工具，并训练规划器动态选择调用策略，以在生成式推荐中自适应分配推理资源。实验表明该方法在保持准确率的同时降低了推理延迟。

HSUGA: LLM-Enhanced Recommendation with Hierarchical Semantic Understanding and Group-Aware Alignment

Guorui Li et al.

cs.IR

本文提出HSUGA方法，通过分层语义理解（HSU）和群体感知对齐（GAA）两个插件改进LLM增强的序列推荐。HSU采用两阶段偏好挖掘和约束编辑操作提升用户语义提取可靠性，GAA根据用户活跃度调整语义利用强度。该方法在三个基准数据集上验证了有效性，但与关键词列表中的概念无直接关联。

Quality-Aware Collaborative Multi-Positive Contrastive Learning for Sequential Recommendation

Wei Wang

cs.IR

本文提出了一种用于序列推荐的质量感知协作多正样本对比学习方法，通过可学习的序列增强模块生成两种互补的增强视图，并设计质量感知机制为不同视图分配自适应权重，以缓解语义漂移和假正例问题。实验表明该方法在多个数据集上优于现有基线。

Very Efficient Listwise Multimodal Reranking for Long Documents

Yiqun Sun, Pengfei Wei, Lawrence B. Hsieh

cs.IR cs.AI cs.CV cs.MM

本文提出ZipRerank，一种高效的listwise多模态reranker，通过query-image早期交互机制减少输入长度，并在单次前向传播中完成所有候选的评分，避免了自回归解码。该方法在MMDocIR基准上匹配或超越了现有最优模型，同时将LLM推理延迟降低了一个数量级。

RecRM-Bench: Benchmarking Multidimensional Reward Modeling for Agentic Recommender Systems

Wenwen Zeng et al.

cs.IR

本文提出了RecRM-Bench基准，用于评估agentic recommender systems中的多维reward modeling，包含超过100万条结构化数据，覆盖指令遵循、事实一致性等四个维度。该工作为训练reward模型提供了基础数据集，但方法本身在开创性上较为常规。

From Trajectories to Phenotypes: Disease Progression as Structural Priors for Multi-organ Imaging Representation Learning

Zian Wang et al.

cs.IR

本文提出了一种轨迹感知蒸馏框架，通过生成式疾病轨迹Transformer将纵向诊断序列的结构知识迁移到多器官影像表型编码器中，以改善影像表示学习。实验表明该方法在UK Biobank的159种疾病预测中提升了AUC和发病时间预测精度，尤其对低患病率疾病效果显著。

Unlocking Crowdsourcing for Ontology Matching Validation

Zhangcheng Qiang

cs.IR

本文探索了使用crowdsourcing进行ontology matching验证的方法，提出了三种领域特定机制来保证质量。该系统可与现有OM系统集成实现人机协同验证。

BatchBench: Toward a Workload-Aware Benchmark for Autoscaling Policies in Big Data Batch Processing -- A Proposed Framework

Venkata Krishna Prasanth Budigi, Siri Chandana Sirigiri

cs.IR cs.DB

本文提出了BatchBench，一个用于大数据批处理中自动扩缩容策略的开源基准测试框架，旨在统一评估基于规则、学习和LLM代理的扩缩容策略。该框架设计了工作负载分类、参数化生成器、五轴评估规范和标准化代理接口，但本文仅为立场论文，未提供实证结果。

EHR-RAGp: Retrieval-Augmented Prototype-Guided Foundation Model for Electronic Health Records

Saeed Shurrab et al.

cs.IR cs.AI cs.LG

本文提出了一种针对电子健康记录（EHR）的检索增强基础模型EHR-RAGp，通过原型引导的检索模块动态整合最相关的患者历史信息，在多个临床预测任务上优于现有模型。该方法主要关注临床数据的长程依赖与异构事件处理，与关键词列表中的概念关联较弱。

cs.CL

Deep Reasoning in General Purpose Agents via Structured Meta-Cognition ⭐ 精选

Dean Light et al.

cs.CL cs.AI

本文提出了一种名为Deep Reasoning的推理时方法，通过结构化元推理（structured meta-reasoning）为通用agent动态构建任务特定的scaffold。该方法使用一种形式语言将元推理表示为可执行的分解，涵盖associative inference、formal computation和递归子问题求解，从而将分解原则编码为上下文示例以指导scaffold的即时构建。作者将其实例化为通用agent DOLORES，在多个硬基准（如多跳推理、长链问答）上显著优于现有scaffold方法，平均提升24.8%，且8B版本在多数设置下超越同系列32B基线。这项工作为agent系统提供了将scaffolding视为自适应推理的新范式，与关键词“agent”高度契合。

Robust LLM Unlearning Against Relearning Attacks: The Minor Components in Representations Matter ⭐ 精选

Zeguan Xiao et al.

cs.CL

本文从representation geometry的spectral结构出发，揭示了LLM unlearning脆弱性的根本机制：现有方法主要优化dominant components，而minor components在relearning attacks中表现出更强的抗逆性。基于此，作者提出Minor Component Unlearning (MCU)方法，通过显式针对representations中的minor components进行unlearning，显著提升了模型对relearning attacks的鲁棒性。该工作为理解unlearning的spectral机制提供了理论分析，并提出了一个具有开创性的实用方法。

Learning Agentic Policy from Action Guidance ⭐ 精选

Yuxiang Ji et al.

cs.CL

本文提出ActGuide-RL方法，通过将日常人类交互产生的action data作为plan-style reference guidance注入agentic policy，解决了agentic reinforcement learning中base policy无法到达reward states时的探索瓶颈。该方法采用mixed-policy training联合优化guided和unguided rollouts，并基于理论分析设计minimal intervention principle，仅在必要时自适应调用guidance以平衡收益与off-policy风险。在search-agent benchmarks上，ActGuide-RL显著优于纯RL方法（GAIA提升10.7个百分点，XBench提升19个百分点），且性能与需要cold start的SFT+RL pipeline相当，为agentic RL提供了减少对昂贵SFT数据依赖的新范式。

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

Souvik Pramanik et al.

cs.CL cs.AI cs.LG

本文提出了MultiSoc-4D基准数据集，用于诊断LLM在孟加拉语社交媒体封闭集标注中的“指令诱导标签崩溃”现象，发现模型倾向于选择回退标签（如Other, Neutral, No），导致对少数类别的漏检。该工作主要关注NLP中的标注偏差问题，与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention均无直接关联。

FERA: Uncertainty-Aware Federated Reasoning for Large Language Models

Ruhan Wang et al.

cs.CL cs.LG

本文提出FERA框架，通过迭代的服务器-客户端协同精炼和不确定性感知的自批评聚合机制，在无需训练或共享原始数据的情况下，利用异构客户端持有的私有演示来提升大语言模型的多步推理能力。该方法通过查询相关的信任加权和结构化交叉验证解决客户端轨迹冲突，并提供了收敛性理论保证。

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Amin Banayeeanzade et al.

cs.CL

本文提出一个validity-diversity框架，将LLM生成多样性不足归因于解码时概率分布的两种校准问题：order calibration（有效token未可靠排在无效token之上）和shape calibration（概率质量过度集中在少数有效token上）。实验表明，这种多样性瓶颈并非特定采样策略的局限，而是LLM分布本身校准不良的后果。

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

Alex Stinard

cs.CL cs.AI cs.IR

本文提出了ClinicalBench基准测试和EpiKG方法，用于评估临床问答中考虑断言（如否定、时间性）的检索步骤，实验表明该方法在多个LLM上提升了检索准确率，但主要贡献在于基准构建和评估方法论。

Decomposing Evolutionary Mixture-of-LoRA Architectures: The Routing Lever, the Lifecycle Penalty, and a Substrate-Conditional Boundary

Ramchand Kumaresan

cs.CL cs.LG cs.NE

本文通过分解一个进化式mixture-of-LoRA系统，分析了router重写、生命周期惩罚和per-domain评估三个因素对模型性能的影响。实验表明，router重写带来了显著的log-PPL改进，而生命周期机制在特定基板上反而成为性能拖累。

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

Cedric Flamant, Udaya Ghai, Kanna Shimizu

cs.CL cs.AI cs.LG

本文提出了一种名为Bicameral Model的架构，通过一个可训练的神经接口耦合两个冻结的language model，使它们能在中间hidden state上进行连续的、并行的信息交换，而非通过文本序列。实验表明，该方法在算术、逻辑谜题和数学推理等任务上，通过让一个辅助模型操作外部工具（如计算器、Z3求解器），显著提升了主模型的性能。

How Does Differential Privacy Affect Social Bias in LLMs? A Systematic Evaluation

Eduardo Tenorio, Karuna Bhaila, Xintao Wu

cs.CL

本文系统评估了差分隐私（DP）对大型语言模型（LLMs）中社会偏见的影响，发现DP在句子评分任务中能减少偏见，但这种改善并不泛化到所有任务，且降低记忆化不一定减少不公平性。

Instructions shape Production of Language, not Processing

Andreas Waldis et al.

cs.CL

本文通过认知视角分离语言模型的processing和production阶段，发现instruction tokens主要影响output tokens的production而非input tokens的processing，揭示了二者之间的不对称性。该研究使用probing和attention-based interventions方法，在多个binary judgment tasks上验证了这一模式。

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

Amirhossein Abaskohi et al.

cs.CL

本文提出ReVision方法，通过训练一个patch选择器来减少连续截图间的冗余视觉token，从而降低多模态语言模型在处理计算机使用agent轨迹时的token消耗。实验表明该方法在减少约46% token的同时提升了3%的成功率，并发现去除冗余后引入更多历史信息能持续改善性能。

RETUYT-INCO at BEA 2026 Shared Task 2: Meta-prompting in Rubric-based Scoring for German

Ignacio Sastre et al.

cs.CL cs.AI

本文介绍了RETUYT-INCO团队在BEA 2026共享任务中的参与情况，提出了一种名为Meta-prompting的方法，通过让LLM基于训练集示例生成定制prompt来对德语短答案进行评分。实验在多个track上取得了中等排名，方法本身未涉及关键词中的核心概念。

HEBATRON: A Hebrew-Specialized Open-Weight Mixture-of-Experts Language Model

Noam Kayzer et al.

cs.CL

本文介绍了Hebatron，一个基于NVIDIA Nemotron-3稀疏MoE架构的希伯来语专用大语言模型。该模型通过三阶段课程学习与持续反遗忘锚定进行训练，在仅激活3B参数的情况下，在希伯来语推理任务上取得了有竞争力的性能，并支持长达65,536 token的原生上下文。

ReAD: Reinforcement-Guided Capability Distillation for Large Language Models

Xueqi Cheng et al.

cs.CL cs.AI

本文提出ReAD框架，通过强化学习引导的能力蒸馏方法，在固定token预算下为大型语言模型分配蒸馏资源。该方法利用上下文bandit算法自适应调整蒸馏预算，以提升下游任务效用并减少有害溢出。

Predicting Psychological Well-Being from Spontaneous Speech using LLMs

Erfan Loweimi, Sofia de la Fuente Garcia, Saturnino Luz

cs.CL

本文研究了使用LLMs从自发语音中零样本预测Ryff心理幸福感(PWB)分数，通过领域提示设计实现了最高0.8的Spearman相关性，并进行了统计分析和关键词云分析以增强可解释性。该工作主要关注自然语言处理在心理健康领域的应用，与关键词列表中的概念关联较弱。

SOMA: Efficient Multi-turn LLM Serving via Small Language Model

Xueqi Cheng et al.

cs.CL cs.AI

本文提出SOMA框架，通过早期对话轮次估计局部响应流形，并利用soft prompt和LoRA微调使小型语言模型在后续对话中替代大型模型，以平衡多轮对话服务的质量与效率。该方法主要关注对话系统的工程优化，与关键词中的code、context、attention等概念关联较弱。

Large Language Models for Causal Relations Extraction in Social Media: A Validation Framework for Disaster Intelligence

Ujun Jeong et al.

cs.CL cs.AI cs.IR cs.SI

本文探讨了使用Large Language Models从社交媒体中提取灾害相关因果关系的可行性，并提出了一个基于专家评估的验证框架。研究发现LLMs在提取因果图时既有潜力也存在风险，可能反映模型先验而非实际证据。

An Empirical Study of Automating Agent Evaluation

Kang Zhou et al.

cs.CL

本文研究了自动化agent评估的问题，发现直接使用前沿coding assistant进行prompt效果不佳，并提出了EvalAgent系统，通过编码评估领域知识（如过程指令、可复用代码和模板）来生成评估指标、代码和报告。实验表明，EvalAgent将首次运行成功率从17.5%提升至65%，并获得了79.5%的人类专家偏好。

Freeze Deep, Train Shallow: Interpretable Layer Allocation for Continued Pre-Training

Yu-Hang Wu et al.

cs.CL

本文提出LayerTracer框架，通过定位任务执行位置和量化层敏感性来揭示LLM中逐层表示与稳定性的演化模式。实验表明，在持续预训练中冻结深层并训练浅层策略优于全参数微调，为资源受限团队提供了低成本的层参数分配方案。

Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty

Joykirat Singh et al.

cs.CL cs.AI

本文提出Agent-BRACE方法，将LLM agent解耦为belief state model和policy model，通过强化学习联合优化。belief state model用一组带有序数verbalized certainty label的原子自然语言claims近似belief distribution，policy model基于此紧凑结构而非完整历史选择动作，在部分可观测的长程任务中取得性能提升。

StoicLLM: Preference Optimization for Philosophical Alignment in Small Language Models

Ishmam Khan, Sindhuja Thogarrati, Shuo Zhang

cs.CL

本文使用preference optimization (ORPO, AlphaPO)方法，在极小的Stoic哲学文本数据集上微调小型语言模型，发现模型能较好内化内向型Stoic美德，但无法克服外向型宇宙责任，揭示了小模型在微数据集适应上的表征局限。

Robust Biomedical Publication Type and Study Design Classification with Knowledge-Guided Perturbations

Shufan Ming et al.

cs.CL

本文针对生物医学文献出版类型与实验设计分类任务，引入基于受控语义扰动的评估框架，并采用实体掩码与领域对抗训练来提升模型在分布偏移下的鲁棒性。实验表明，通过选择性抑制非任务特征，可以在不显著牺牲域内准确率的情况下改善鲁棒性。

A Study on Hidden Layer Distillation for Large Language Model Pre-Training

Maxime Guigon, Lucas Dixon, Michaël E. Sander

cs.CL cs.AI

本文研究了在LLM预训练中，使用Hidden Layer Distillation (HLD) 方法蒸馏教师模型的中间层表示，并与基于logit的KD方法进行对比。实验表明，HLD在下游任务上并未一致优于标准KD，但能在所有超参数配置下带来系统性的perplexity提升。

Checkup2Action: A Multimodal Clinical Check-up Report Dataset for Patient-Oriented Action Card Generation

Sike Xiang et al.

cs.CL cs.CV

本文提出了一个名为Checkup2Action的多模态临床检查报告数据集和基准，用于生成面向患者的结构化行动卡片，并设计了包含覆盖度、优先级一致性、安全性等维度的评估协议。实验揭示了通用和医学大语言模型在问题覆盖、行动正确性与安全性之间的权衡。

Taming Extreme Tokens: Covariance-Aware GRPO with Gaussian-Kernel Advantage Reweighting

Cheng Wang et al.

cs.CL cs.AI cs.LG

本文针对GRPO在训练中探索与利用的平衡问题，提出了一种基于Gaussian kernel的协方差加权优化方法，通过动态降低极端token的更新权重来稳定训练过程，并在推理基准上提升了性能。

Three Regimes of Context-Parametric Conflict: A Predictive Framework and Empirical Validation

Pruthvinath Jeripity Venkata

cs.CL cs.AI cs.LG

本文提出了一个三阶段框架（Regime 1, 2, 3）来解释大语言模型在处理训练知识与上下文文档冲突时的行为差异，并通过在多个模型上的实验验证了该框架。研究发现，parametric strength（参数强度）与parametric uniqueness（参数唯一性）是正交维度，且任务框架能显著改变模型对上下文的依赖程度。

BitLM: Unlocking Multi-Token Language Generation with Bitwise Continuous Diffusion

Shaobin Zhuang et al.

cs.CL

本文提出BitLM语言模型，将每个token表示为固定长度的binary code，并用轻量级diffusion head在block内并行去噪多个token，同时保留block间的causal attention。该方法将token生成转化为binary space中的迭代commitment，旨在提升预训练效率和推理速度。

Ada-MK: Adaptive MegaKernel Optimization via Automated DAG-based Search for LLM Inference

Wenxin Dong et al.

cs.CL

本文针对LLM推理中的kernel启动开销问题，提出Ada-MK方法，通过基于MLIR的细粒度DAG离线搜索和三维共享内存约束模型，将MegaKernel的最优执行路径固化到编译时，并作为插件嵌入TensorRT-LLM，在NVIDIA L20上实现了吞吐量提升。

Efficient LLM-based Advertising via Model Compression and Parallel Verification

Wenxin Dong et al.

cs.CL

本文提出了一种用于广告场景的LLM推理加速框架，通过自适应group quantization、层级自适应稀疏化和前缀树并行验证来降低延迟，在真实广告场景中实现了显著加速。

DiffScore: Text Evaluation Beyond Autoregressive Likelihood

Wen Lai et al.

cs.CL cs.AI

本文提出DiffScore，一种基于Masked Large Diffusion Language Models的文本评估框架，通过连续masking rate下的文本可恢复性来评估质量，消除了自回归模型的位置偏差。实验表明其在多个基准上优于自回归基线。

PRISM: A Geometric Risk Bound that Decomposes Drift into Scale, Shape, and Head

Chieh-Yen Lin, Shao-Hua Sun

cs.CL cs.AI cs.LG

本文提出PRISM方法，利用LLM线性输出头和骨干网络的近似等距结构，推导出交叉熵风险差距的闭式上界，将模型漂移分解为尺度、形状和头部三个可测量轴，用于诊断后训练变体（如量化、LoRA）的退化模式。该方法在变体排序上表现良好，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

When Emotion Becomes Trigger: Emotion-style dynamic Backdoor Attack Parasitising Large Language Models

Ziyu Liu et al.

cs.CL cs.AI

本文提出了一种情感风格动态后门攻击方法Paraesthesia，通过将情感因素作为触发器注入大语言模型微调过程，在保持模型正常功能的同时实现高攻击成功率。该方法利用情感与语义在表示空间中的可解耦特性，通过量化与改写情感风格来生成后门样本。

OmniThoughtVis: A Scalable Distillation Pipeline for Deployable Multimodal Reasoning Models

Yuanhao Yue et al.

cs.CL

本文提出OmniThoughtVis，一个用于将多模态推理能力从大模型蒸馏到小模型的可扩展数据策展与蒸馏流程，通过生成结构化CoT轨迹和联合标注来构建1.8M样本语料库，并在Qwen3-VL模型上验证了蒸馏效果。该方法主要关注蒸馏流程的工程实现，与关键词中的理论或特定技术关联较弱。

Enhancing Multilingual Counterfactual Generation through Alignment-as-Preference Optimization

Yilong Wang et al.

cs.CL cs.AI

本文提出Macro框架，通过Direct Preference Optimization (DPO)和复合评分函数优化多语言反事实生成中的有效性与最小性权衡，实验表明该方法在多种语言上提升了生成质量。

Human-Grounded Multimodal Benchmark with 900K-Scale Aggregated Student Response Distributions from Japan's National Assessment of Academic Ability

Kyosuke Takami et al.

cs.CL

本文构建了一个基于日本全国学术能力评估的多模态数据集，包含约90万学生的答题分布，用于评估多模态大语言模型在教育场景中的表现。该工作为教育领域的多模态推理提供了基准，但与关键词中的code, spectral, Muon, pretrain, agent, attention等方向关联较弱。

Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation

Yuchen Cai et al.

cs.CL

本文研究了on-policy distillation (OPD)在大型语言模型后训练中的效率机制，发现其效率源于一种“预见性”，即在训练早期就建立了稳定的更新轨迹。基于此，作者提出了EffOPD加速方法，通过自适应选择外推步长来加速训练，无需额外模块或复杂调参。

Training-Inference Consistent Segmented Execution for Long-Context LLMs

Xianpeng Shang et al.

cs.CL cs.LG

本文提出了一种训练-推理一致的segment-level生成框架，通过限制梯度仅传播到前一个segment的KV states，同时允许前向传播中head-specific访问历史KV states，解决了长上下文LLM中训练与推理执行语义不匹配的问题。该方法在长上下文基准测试中性能接近full-context attention，并显著降低了峰值prefill memory（如128K长度时降低约6倍）。

Safety-Oriented Evaluation of Language Understanding Systems for Air Traffic Control

Yujing Chang et al.

cs.CL

本文针对空中交通管制（ATC）这一安全关键领域，提出了一种面向安全性的、考虑后果的评估框架，用于评估大语言模型（LLM）在ATC指令理解中的可靠性。研究发现，尽管模型在宏观F1等聚合指标上表现良好，但其在高风险语义错误（如跑道标识符错误）上的表现不佳，导致操作可靠性严重受限。

From Token to Token Pair: Efficient Prompt Compression for Large Language Models in Clinical Prediction

Mingcheng Zhu et al.

cs.CL cs.LG

本文提出MedTPE方法，通过将频繁共现的医疗token对合并为复合token，实现对EHR序列的无损压缩，在减少输入长度和推理延迟的同时保持预测性能。该方法仅微调少量新增token的embedding，并在多个临床预测任务上验证了有效性。

Choosing features for classifying multiword expressions

Eric Laporte

cs.CL

本文讨论了多词表达（MWEs）分类中的特征选择问题，提出了一种增强的分类方法以提高跨语言适用性。该工作主要基于语言学视角，未涉及关键词中的相关技术。

Probabilistic Calibration Is a Trainable Capability in Language Models

Davide Baldelli et al.

cs.CL

本文研究了通过微调提升语言模型概率校准能力的方法，提出了软目标和硬目标两种微调变体，并在多个模型上验证了其有效性。实验表明该方法能改善结构化采样保真度，但可能降低算术推理等下游能力。

Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models

Kecheng Chen et al.

cs.CL

本文提出TABOM框架，通过将推理过程中的去噪轨迹建模为Boltzmann分布，并设计成对排序目标来对齐训练与推理的难易结构，从而提升Diffusion Language Models在微调阶段的性能。该方法主要关注语言模型的生成效率与知识获取，但与我提供的关键词（如code, spectral, Muon, agent等）关联度较低。

Concordance Comparison as a Means of Assembling Local Grammars

Juliana Pirovani, Elias de Oliveira, Eric Laporte

cs.CL

本文提出了一种通过比较两个local grammar (LG)的concordance来辅助组装LG的方法，并在葡萄牙语人名识别任务中验证了其有效性，最终F-Measure达到76.86，相比现有最优方法提升了6个点。

Qwen-Scope: Turning Sparse Features into Development Tools for Large Language Models

Boyi Deng et al.

cs.CL cs.LG

本文介绍了Qwen-Scope，一个基于Qwen模型家族的开源sparse autoencoder (SAE)工具包。文章展示了SAE在推理时控制、评估分析、数据工作流和后训练优化四个方向上的应用，表明SAE可作为大型语言模型开发中的实用接口。

YFPO: A Preliminary Study of Yoked Feature Preference Optimization with Neuron-Guided Rewards for Mathematical Reasoning

Yifan Le

cs.CL

本文提出YFPO框架，利用AttnLRP识别与数学推理相关的神经元，并通过其激活差异构建辅助奖励信号来优化偏好学习。初步实验在小型语言模型上使用GSM8K基准测试，表明神经元级信号能与偏好优化交互并偶尔提升推理性能。

Enhancing Target-Guided Proactive Dialogue Systems via Conversational Scenario Modeling and Intent-Keyword Bridging

Maodong Li, Yancui Li, Fang Kong

cs.CL

本文提出了一种通过对话场景建模和意图关键词桥接来增强目标引导式主动对话系统的方法，通过联合建模用户画像和领域知识引入场景偏差，并预测意图关键词以提供更灵活的引导。实验表明该方法在主动性、流畅性和信息性上有所提升。

On Predicting the Post-training Potential of Pre-trained LLMs

Xiaoyuan Li et al.

cs.CL

本文提出RuDE框架，通过基于rubric的对比评估来预测预训练LLM在后续训练（如RL）中的潜力，实验显示其与下游性能相关性超过90%。该方法为模型选择提供了计算高效的机制，但未涉及code、spectral或Muon等关键词。

Towards Visually-Guided Movie Subtitle Translation for Indic Languages

Tarun Chintada, Kshetrimayum Boynao Singh, Asif Ekbal

cs.CL

本文研究了面向Indic语言的电影字幕翻译，比较了两种轻量级视觉增强策略。实验表明，基于属性的视觉上下文摘要比自由文本摘要更鲁棒，能捕捉文本遗漏的场景级情感和细微线索。

SAGE: Scalable Automated Robustness Augmentation for LLM Knowledge Evaluation

Xiaoyuan Li et al.

cs.CL

本文提出SAGE框架，使用微调的小模型（VariantGen和VariantQual）为LLM知识评估基准（如HellaSwag）生成鲁棒性变体，以较低成本构建大规模基准。该方法主要关注自然语言处理中的鲁棒性增强，与关键词中的code, spectral, Muon, agent, attention等概念无直接关联。

Caraman at SemEval-2026 Task 8: Three-Stage Multi-Turn Retrieval with Query Rewriting, Hybrid Search, and Cross-Encoder Reranking

David-Maximilian Caraman, Gheorghe Cosmin Silaghi

cs.CL cs.IR

本文提出了一种用于SemEval-2026 Task 8的三阶段多轮检索系统，包括query rewriting、hybrid search和cross-encoder reranking，在测试集上取得了第8名的成绩。实验表明，domain-specific temperature tuning对query generation有效，而domain-aware prompting和multi-query expansion则效果不佳。

SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs

Xiaoyuan Li et al.

cs.CL

本文提出SKILLGRAPH框架，将可复用技能表示为有向图中的节点，通过类型化边编码技能间的依赖关系，并利用强化学习反馈持续更新图结构，以提升agent在组合任务中的表现。

Is Child-Directed Language Optimized for Word Learning? A Computational Study of Verb Meaning Acquisition

Francesca Padovani et al.

cs.CL

本文通过训练neural language models比较child-directed language (CDL)与adult-directed language (ADL)对动词意义习得的影响，发现CDL在动词学习上的优势可能源于口语语域的普遍特性，而非CDL特有的优化。

Do Language Models Encode Knowledge of Linguistic Constraint Violations?

Hardy, Sebastian Padó

cs.CL

本文使用sparse autoencoders分解LLM中的多语义激活，并引入sensitivity score来识别对语言约束违反敏感的features。结果表明，这些features在不同语言现象中并不一致，不支持LLM中存在统一的语法违反检测器。

Sign Language Recognition and Translation for Low-Resource Languages: Challenges and Pathways Forward

Nigar Alishzade, Gulchin Abdullayeva

cs.CL

本文以Azerbaijan Sign Language (AzSL)为案例，系统综述了低资源手语识别与翻译的挑战，提出了从架构中心转向数据中心的AI范式、从与手语者无关转向自适应系统等三个范式转变，并给出了基于MediaPipe的轻量级技术路线图。

Metaphor Is Not All Attention Needs

Olga Sorokoletova et al.

cs.CL cs.CY

本文通过注意力模式的可解释性分析，研究了文学性越狱攻击（literary jailbreaks）为何能绕过大型语言模型的安全机制。实验表明，模型能准确识别诗歌格式，但无法预测越狱成功与否，说明越狱成功并非源于格式识别失败，而是由累积的文体不规则性改变了提示处理方式。

Latent Causal Void: Explicit Missing-Context Reconstruction for Misinformation Detection

Hui Li et al.

cs.CL cs.SI

本文提出Latent Causal Void (LCV)方法，通过检索时间对齐的上下文文章并利用大语言模型显式重构缺失事实，将其作为跨源关系文本用于图推理，以检测因省略背景事实而具有误导性的信息。实验表明，该方法在双语基准上优于现有方法，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Correcting Selection Bias in Sparse User Feedback for Large Language Model Quality Estimation: A Multi-Agent Hierarchical Bayesian Approach

Andrea Morandi, Mahesh Viswanathan

cs.CL

本文针对LLM部署中用户反馈的选择性偏差问题，提出了一种基于多智能体层次贝叶斯（Multi-Agent Hierarchical Bayesian）的校正方法，通过主题聚类、偏差建模和合成三个智能体（Agent）来估计无偏的系统质量。该方法在模拟偏差场景下优于朴素平均和逆概率加权（IPW）基线，但主要贡献在于解决特定应用场景下的统计偏差问题，与关键词中的code, context, spectral, Muon, pretrain, attention等核心概念关联较弱。

Mitigating Context-Memory Conflicts in LLMs through Dynamic Cognitive Reconciliation Decoding

Yigeng Zhou et al.

cs.CL cs.AI

本文提出了一种名为Dynamic Cognitive Reconciliation Decoding (DCRD)的两阶段解码方法，通过分析attention map来预测并缓解大语言模型中参数化知识与上下文外部知识之间的冲突。该方法根据冲突预测结果选择greedy decoding或动态解码路径，并在多个QA数据集上取得了最优性能。

Mechanistic Interpretability of ASR models using Sparse Autoencoders

Dan Pluth et al.

cs.CL

本文首次将Sparse Autoencoder (SAE)应用于基于Transformer的自动语音识别(ASR)模型Whisper，通过在其encoder的frame-level embeddings上训练高维稀疏隐空间，揭示了跨语言和非语言边界的单语义特征，并展示了跨语言特征引导能力。该工作验证了SAE在音频处理模型中的可行性，表明Whisper编码了丰富的语言信息。

Combining On-Policy Optimization and Distillation for Long-Context Reasoning in Large Language Models

Miguel Moura Ramos, Duarte M. Alves, André F. T. Martins

cs.CL

本文提出dGRPO方法，将on-policy policy optimization与knowledge distillation结合，用于提升大语言模型的长上下文推理能力。通过引入LongBlocks合成数据集，该方法在长上下文任务中比单独使用GRPO或distillation更稳定有效。

Mind the Pause: Disfluency-Aware Objective Tuning for Multilingual Speech Correction with LLMs

Deepak Kumar, Baban Gain, Asif Ekbal

cs.CL cs.AI

本文提出了一种多语言语音修正流水线，使用序列标注器标记ASR转录中的不流畅标记（如填充词和重复），并通过指令微调LLM进行重写，同时加入对比学习目标以惩罚不流畅标记的生成。实验在三种印度语言上验证了该方法优于基线模型，但未涉及代码、上下文、谱方法或注意力机制等关键词相关技术。

PreScam: A Benchmark for Predicting Scam Progression from Early Conversations

Weixiang Sun et al.

cs.CL

本文提出了PreScam基准，用于从早期对话中建模诈骗进展。该基准基于用户提交的诈骗报告构建，包含11,573个对话实例，并定义了诈骗kill chain进行层次化标注。实验表明，监督编码器在实时终止预测上优于零样本LLM，但所有模型在预测诈骗者后续动作方面表现有限。

PRISM: Pareto-Efficient Retrieval over Intent-Aware Structured Memory for Long-Horizon Agents

Jingyi Peng et al.

cs.CL

本文提出PRISM框架，将长程对话历史视为图结构记忆上的联合检索与压缩问题，通过层次化束搜索、查询敏感边成本计算、证据压缩和自适应意图路由等组件，在不进行微调的情况下实现高效检索。该方法在LoCoMo基准上以更小的上下文预算取得了更高的LLM评判准确率，但未涉及code、spectral、Muon、pretrain或attention等关键词。

What makes a word hard to learn? Modeling L1 influence on English vocabulary difficulty

Jonas Mayer Martins et al.

cs.CL cs.LG

本文使用gradient-boosted模型，基于词频、意义、表面形式和跨语言迁移等特征，建模了母语为西班牙语、德语或中文的英语学习者的词汇难度。研究发现，词汇熟悉度是共同的主导因素，但西班牙语和德语学习者还受正字法迁移影响，而中文学习者则主要依赖熟悉度和表面特征。

TokenRatio: Principled Token-Level Preference Optimization via Ratio Matching

Truong Nguyen et al.

cs.CL cs.AI

本文提出Token-level Bregman Preference Optimization (TBPO)，通过Bregman divergence密度比匹配目标，将序列级偏好优化扩展至token级别，并给出TBPO-Q和TBPO-A两种实例。实验表明该方法在指令遵循、有用性/无害性和摘要任务上提升了对齐质量与训练稳定性。

GKnow: Measuring the Entanglement of Gender Bias and Factual Gender

Leonor Veloso, Hinrich Schütze

cs.CL

本文构建了GKnow基准来评估语言模型中的性别知识与性别偏见，通过分析circuit和neuron层面的表现，发现性别偏见与事实性别在机制上严重纠缠，使得neuron ablation作为去偏方法不可靠。

Overview of the MedHopQA track at BioCreative IX: track description, participation and evaluation of systems for multi-hop medical question answering

Rezarta Islamaj et al.

cs.CL cs.IR

本文介绍了BioCreative IX MedHopQA竞赛，构建了一个包含1000个需要两跳推理的医学问答数据集，并评估了多种系统。结果表明，检索增强生成策略对提升性能至关重要，但该工作主要聚焦于任务设计和基准测试，与关键词中的概念关联较弱。

A categorical error sensitivity index (ISEC): A preventive ordinal decision-support measure for irrecoverable errors in manual data entry systems

Ricardo Raúl Palma, Mauro Anibal Benetti, Fabricio Orlando Sanchez Varretti

cs.CL

本文提出了一个名为ISEC的序数指标，用于评估手动数据录入系统中类别对之间的混淆敏感性，通过整合语义距离、加权形态变换成本和经验频率来预防不可恢复的错误。该方法在多个数据集上验证了其有效性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Output Composability of QLoRA PEFT Modules for Plug-and-Play Attribute-Controlled Text Generation

Michela Lorandi, Anya Belz

cs.CL

本文研究了QLoRA PEFT模块在推理时通过组合输出实现属性控制文本生成的方法，发现输出求和是一种有效的组合方式，在情感控制等任务上表现优于或持平于单任务模块。

MedHopQA: A Disease-Centered Multi-Hop Reasoning Benchmark and Evaluation Framework for LLM-Based Biomedical Question Answering

Rezarta Islamaj et al.

cs.CL cs.AI cs.IR

MedHopQA是一个以疾病为中心的多跳推理benchmark，包含1000个专家构建的问答对，要求模型整合两个不同Wikipedia文章的信息来生成开放式答案。该工作主要关注biomedical QA领域的评估框架设计，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念无直接关联。

Context Convergence Improves Answering Inferential Questions

Jamshid Mozafari, Bhawna Piryani, Adam Jatowt

cs.CL cs.IR

本文研究了在开放域问答中，如何通过句子收敛性（convergence，即句子排除错误答案的能力）来构建段落，以提升大语言模型（LLM）处理推理问题的表现。实验表明，基于高收敛性句子构建的段落比基于余弦相似度的方法能显著提高答案准确率，且按收敛性降序排列句子可进一步改善性能。

Pretraining Exposure Explains Popularity Judgments in Large Language Models

Jamshid Mozafari, Bhawna Piryani, Adam Jatowt

cs.CL

本文利用完全可观测的预训练语料库Dolma，分析了大型语言模型（LLM）中实体流行度判断与预训练暴露统计之间的关系。研究发现，LLM的流行度偏好更紧密地反映其预训练数据中的统计暴露量，而非外部真实世界的流行度信号（如Wikipedia页面浏览量）。

Scalable Token-Level Hallucination Detection in Large Language Models

Rui Min et al.

cs.CL cs.AI cs.LG

本文提出TokenHD，一种用于训练token级幻觉检测器的pipeline，通过可扩展的数据引擎和重要性加权训练策略，使检测器能直接在自由文本上识别幻觉，无需预定义步骤分割。实验表明小模型(0.6B)性能可超越大推理模型(如QwQ-32B)，且检测性能随模型规模一致提升。

A Comparative Study of Controlled Text Generation Systems Using Level-Playing-Field Evaluation Principles

Michela Lorandi, Anya Belz

cs.CL

本文采用level-playing-field (LPF)评估方法，对多种controlled text generation (CTG)系统进行了标准化比较，发现重新评估后的性能结果与原始报告存在显著差异，强调了标准化评估的重要性。

Question Difficulty Estimation for Large Language Models via Answer Plausibility Scoring

Jamshid Mozafari, Bhawna Piryani, Adam Jatowt

cs.CL cs.IR

本文提出Q-DAPS方法，通过计算候选答案的plausibility scores的entropy来估计问题难度，并在多个QA数据集上验证其有效性。该方法为评估LLM的question answering能力提供了可解释且鲁棒的难度估计框架。

Stories in Space: In-Context Learning Trajectories in Conceptual Belief Space

Eric Bigelow et al.

cs.CL cs.AI cs.LG

本文提出LLMs在低维几何空间（概念信念空间）中进行in-context learning，通过故事理解任务结合行为与表征分析，发现信念更新轨迹位于低维流形上，且可通过线性探针解码预测行为。

ORBIT: Preserving Foundational Language Capabilities in GenRetrieval via Origin-Regulated Merging

Neha Verma et al.

cs.CL cs.IR cs.LG

本文研究了在Generative Retrieval (GenRetrieval)微调过程中，大语言模型（LLM）因灾难性遗忘而丧失通用语言能力的问题。作者提出ORBIT方法，通过监控微调模型与初始模型权重的距离，并在该距离超过阈值时采用权重平均策略来约束模型漂移，从而保留基础语言能力。

Predicting Disagreement with Human Raters in LLM-as-a-Judge Difficulty Assessment without Using Generation-Time Probability Signals

Yo Ehara

cs.CL cs.CY

本文提出了一种预测LLM-as-a-Judge难度评估中与人类评分者不一致的方法，该方法利用ModernBERT等嵌入空间的几何一致性来识别不一致候选，而不依赖生成时的概率信号。实验在CEFR句子难度评估上验证了其有效性。

Geometric Factual Recall in Transformers

Shauli Ravfogel et al.

cs.CL

本文研究了Transformer语言模型中事实记忆的几何机制，证明在单层Transformer记忆随机双射时，对数维度的subject embedding即可通过线性叠加编码属性，而MLP作为关系条件选择器而非键值映射。实验表明梯度下降能发现该结构，且训练后的MLP可零样本迁移至全新双射。

A Causal Language Modeling Detour Improves Encoder Continued Pretraining

Rian Touchent, Eric de la Clergerie

cs.CL cs.AI

本文提出了一种在编码器领域自适应训练中，先临时切换为Causal Language Modeling (CLM)再回归Masked Language Modeling (MLM)的方法，在生物医学文本上提升了下游任务性能。实验表明，CLM的密集监督主要影响低层transformer层，且这种表征变化在后续MLM阶段得以保持。

The Algorithmic Caricature: Auditing LLM-Generated Political Discourse Across Crisis Events

Gunjan, Sidahmed Benabderrahmane, Talal Rahwan

cs.CL cs.AI cs.CY

本文从计算社会科学视角出发，通过构建包含九个危机事件的配对语料库，比较了LLM生成的政治话语与真实在线话语在情感强度、结构规律性、词汇-意识形态框架和跨事件依赖性四个维度的差异。研究发现合成话语在群体层面缺乏真实性，表现为情感更消极且分散度更低、结构更规律、词汇更抽象，且这些差异与事件类型相关。

Task-Adaptive Embedding Refinement via Test-time LLM Guidance

Ariel Gera et al.

cs.CL cs.IR cs.LG

本文探索了利用LLM引导的查询细化范式来扩展embedding模型在零样本搜索和分类任务中的可用性，通过生成式LLM在小规模文档集上的反馈实时调整用户查询的embedding表示。实验表明该方法在多个基准上带来了一致性提升，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues

Di Wu et al.

cs.CL

本文提出了LongMemEval-V2基准，用于评估web agent在定制化环境中的长期记忆能力，包含451个问题并对比了基于RAG和coding agent的记忆方法。实验表明coding agent方法在准确率上显著优于RAG基线，但存在高延迟问题。

cs.DS

Connectivity augmentation is fixed-parameter tractable ⭐ 精选

Tuukka Korhonen, Mikkel Thorup

cs.DS

本文证明了vertex connectivity augmentation问题在参数$\lambda$和$k$下是fixed-parameter tractable (FPT)的，给出了运行时间为$2^{O(k \log (k + \lambda))} n^{O(1)}$的算法，改进了Carmesin和Ramanujan仅对$\lambda \le 4$成立的结果。同时，对于edge connectivity augmentation问题，本文证明了其在仅参数$k$下是FPT的，运行时间为$2^{O(k \log k)} n^{O(1)}$，此前这类结果仅在关于$G$的edge connectivity的额外假设下成立。

State Canonization and Early Pruning in Width-Based Automated Theorem Proving

Mateus de Oliveira Oliveira, Sam Urmian

cs.DS cs.CC cs.LO math.CO

本文研究了基于宽度的自动定理证明框架，通过引入状态规范化(state-canonization)和早期剪枝(early-pruning)技术来提升搜索反例的效率，并应用于图论中关于三角形-free图着色的Reed猜想验证。

Performance bounds for nearest neighbor search with k-d trees

Marco Bazzani, Sanjoy Dasgupta

cs.DS cs.CG

本文研究了k-d树在最近邻搜索中的性能界限，证明了在高维情况下，defeatist搜索的准确率接近随机猜测，而comprehensive搜索几乎会访问所有cell。这些结果从理论上解释了k-d树在高维场景下性能不佳的普遍现象。

Maximizing Reachability via Shifting of Temporal Paths

Argyrios Deligkas et al.

cs.DS

本文研究了在由k条时间路径（temporal paths）构成的时态图（temporal graphs）中，通过移动路径标签来最大化给定源点可达性的问题。作者分析了该问题关于路径数k和总预算b的参数化复杂度，证明了在特定参数组合下存在固定参数可解性（FPT），而在其他情况下则证明了难解性。

On the LSH Distortion of Ulam and Cayley Similarities

Flavio Chierichetti et al.

cs.DS cs.IR

本文研究了Ulam相似度和Cayley相似度的LSH distortion，证明了Ulam相似度存在$O(n / \sqrt{\log n})$的sublinear LSH distortion，并给出了$\Omega(n^{0.12})$的下界，而Cayley相似度的LSH distortion为$\Theta(n)$。

Layer-Based Width for PAFP

Samuel German

cs.DS cs.DM

本文研究了Path Avoiding Forbidden Pairs问题(PAFP)的层宽度量，证明了在特定BFS宽度和反向弧限制下该问题是FPT的，并给出了在DAG上宽度为2时的多项式时间算法。这些结果主要关注图的结构参数，与关键词列表中的概念无直接关联。

others

Context-Gated Associative Retrieval: From Theory to Transformers ⭐ 精选

Moulik Choraria et al.

cond-mat.dis-nn cs.AI

本文提出了一种两阶段associative memory架构，其中context-gate子电路在检索前后重塑能量景观。理论上证明了context gating能增加记忆间分离度并诱导稀疏性，从而指数级提升检索性能，且系统存在唯一自洽不动点。作者进一步将理论与transformer桥接，在Llama-3上验证了in-context learning本质上是context-gated retrieval，为大型语言模型现象提供了associative memory理论的机制性解释。

Skill Drift Is Contract Violation: Proactive Maintenance for LLM Agent Skill Libraries ⭐ 精选

Linfeng Fan et al.

cs.SE cs.AI

本文提出了一种针对LLM agent技能库的主动维护方法，将技能漂移形式化为合约违反（contract violation）问题。作者通过从技能文档中提取可执行的环境合约（executable environment contracts），并仅验证那些承载特定角色的假设（role-bearing assumptions），从而将噪声监控转化为高精度的维护信号。该方法在599个无漂移和困难负例样本上实现了零误报，并在真实技能上以86%的保守精度发现活跃漂移，显著提升了修复成功率。这项工作与关键词“agent”高度契合，为agent技能库的可靠性维护提供了开创性的解决方案。

The Authorization-Execution Gap Is a Major Safety and Security Problem in Open-World Agents ⭐ 精选

Baoyuan Wu et al.

cs.CR cs.AI

本文提出并系统定义了开放世界agent中的“授权-执行鸿沟”(Authorization-Execution Gap, AEG)问题，即主体意图授权的内容与agent实际执行的内容之间的偏差。作者将AEG的根源归纳为三种结构性来源：委托层级不完整性(delegation-level incompleteness)、通道层级污染(channel-level corruption)和组合层级碎片化(composition-level fragmentation)，并指出同一失败可能源于不同来源，因此防御必须基于来源诊断。该工作为agent安全领域提供了新的分析框架，强调需要在执行过程中进行动态的授权完整性检查，而非仅依赖一次性前置过滤或事后审计，这与关键词“agent”高度契合。

AgentShield: Deception-based Compromise Detection for Tool-using LLM Agents ⭐ 精选

Yassin H. Rassul, Tarik A. Rashid

cs.CR cs.CL

AgentShield提出了一种基于欺骗的妥协检测框架，用于检测使用工具的LLM agent中的间接prompt注入攻击。该方法通过在agent的工具接口中设置三层陷阱（fake tools、fake credentials和allowlisted parameters），利用agent执行攻击者隐藏指令时必然触发陷阱的特性，提供实时妥协信号和零假正标签，从而训练自监督分类器。实验表明，在跨语言攻击场景下，AgentShield能捕获90.7%-100%的成功攻击，且对正常使用无假警报，并能在无需重新训练的情况下跨模型和语言迁移。该工作为agent安全领域提供了首个基于欺骗的检测范式，解决了现有防御仅关注预防且缺乏低资源语言评估的长期问题。

Sequential Behavioral Watermarking for LLM Agents ⭐ 精选

Hyeseon An et al.

cs.CR cs.AI

本文提出SeqWM，一种针对LLM-based agent的序列行为水印框架。与现有将每个动作视为独立试验的方法不同，SeqWM将水印信号嵌入到基于历史条件的状态转移模式中，并通过位置无关的方式（position-agnostically）将轨迹与随机密钥基线进行比对验证。实验表明，该方法在多种agent基准和LLM backbone上实现了可靠的检测，同时保持了agent的效用，并在轨迹被扰动或截断时仍保持鲁棒性。该工作与关键词“agent”高度契合，并为agent行为溯源与所有权保护提供了开创性方案。

Beyond Manual Curation: Augmenting Targeted Protein Degradation Databases via Agentic Literature Extraction Workflows ⭐ 精选

Yaochen Rao et al.

q-bio.QM cs.LG

本文提出了一种专家参与的LLM workflow，用于从文献中自动提取靶向蛋白质降解（TPD）领域的结构化assay数据。该方法通过轻量级交叉验证的prompt优化模块，仅需少量专家标注即可实现高精度提取（分子胶记录级$F_1=0.98$，PROTAC记录级$F_1>0.93$），并成功将现有数据库记录扩展了81%至92%。该工作解决了该领域长期存在的手动数据库构建瓶颈，其agent-based文献提取范式与关键词“agent”高度契合，为AI辅助科学数据管理提供了可复用的框架。

Comment and Control: Hijacking Agentic Workflows via Context-Grounded Evolution ⭐ 精选

Neil Fendley et al.

cs.CR cs.AI cs.SE

本文提出了首个针对自动化平台（如GitHub Actions和n8n）中agentic workflows（集成LLM agent的工作流）的安全检测与利用框架JAW。其核心创新在于Context-Grounded Evolution方法，通过混合程序分析（包括静态路径可行性分析、动态prompt来源分析和能力分析）生成工作流上下文，并在此上下文中演化攻击输入，以劫持agent执行恶意操作（如凭证泄露）。该工作首次系统性地研究了agentic workflows中的安全风险，并成功发现4714个GitHub workflows和8个n8n模板可被劫持，具有显著的开创性和实际影响。

Discovery of Interpretable Surrogates via Agentic AI: Application to Gravitational Waves ⭐ 精选

Tousif Islam et al.

gr-qc astro-ph.HE cs.AI

本文提出了一种基于大型语言模型(LLM)的agentic workflow \texttt{GWAgent}，用于从仿真数据中直接构建可解释的解析surrogate模型。该方法通过在每个迭代步骤中利用ground-truth仿真对候选模型进行定量验证，成功为偏心双黑洞并合的引力波波形构建了高精度surrogate，其Advanced LIGO mismatch中位数达到$6.9\times10^{-4}$，同时波形评估速度提升约8.4倍。该工作不仅超越了符号回归和传统机器学习baseline，还通过物理启发的domain ansatz显著提升了模型精度，并展示了agentic workflow在科学仿真和推理中生成准确、快速且可解释surrogate的潜力。

Can a Single Message Paralyze the AI Infrastructure? The Rise of AbO-DDoS Attacks through Targeted Mobius Injection ⭐ 精选

Zi Liang et al.

cs.CR cs.AI cs.CL

本文提出了一种针对LLM agent的新型攻击范式Mobius Injection，通过利用agent逻辑中的结构性漏洞Semantic Closure，攻击者只需注入一条文本消息即可诱导agent组件持续递归执行，从而将agent武器化为僵尸节点发起AbO-DDoS攻击。实验表明，该攻击在12个前沿LLM上实现了高达51.0x的单节点调用放大和229.1x的多节点p95延迟膨胀，且攻击性能随中毒节点数超线性增长。该工作揭示了agent作为用户-服务链中破坏性枢纽的系统性风险，并提出了基于Agent Component Energy (ACE) Analysis的主动防御机制。这与关键词中的agent高度契合，且方法具有开创性。

Predictive Maps of Multi-Agent Reasoning: A Successor-Representation Spectrum for LLM Communication Topologies ⭐ 精选

Ethan David James Park, Dalal Alharthi

cs.MA cs.AI cs.LG cs.SI math.SP

本文提出了一种基于successor representation $M = (I - \gamma P)^{-1}$的结构性诊断方法，用于预测多智能体LLM通信拓扑（如chain, star, mesh）的失效模式。作者推导了这些拓扑在行随机归一化下的闭式谱，并建立了谱半径$\rho(M)$、谱隙$\Delta(M)$和条件数$\kappa(M)$与累积误差、共识动力学和扰动鲁棒性之间的定量联系。实验表明条件数是扰动鲁棒性的完美秩序预测器（$r_s = 1.0$），而谱半径与累积误差呈完美逆相关（$r_s = -1.0$），这一现象被归因于线性谱对非收缩偏差漂移的盲区。该工作为多智能体LLM系统提供了首个预推理的结构性诊断工具，与经典的谱理论和共识理论相衔接。

GeomHerd: A Forward-looking Herding Quantification via Ricci Flow Geometry on Agent Interactive Simulations ⭐ 精选

Lake Yang et al.

cs.MA cs.LG q-fin.ST

GeomHerd提出了一种基于Ollivier-Ricci curvature的前瞻性量化方法，通过分析agent交互图的几何结构来预测群体行为（herding），而非依赖滞后的价格相关性统计。该方法在LLM驱动的多agent金融模拟器上验证，理论建立了图度量与经典宏观统计量CSAD之间的mean-field bridge，实验表明其能在市场聚合信号出现前数百步检测到协调行为，并跨领域迁移至Vicsek自驱动粒子模型。该工作为agent-based simulation中的群体行为预测提供了新的几何视角，与关键词“agent”高度契合。

Bin Latent Transformer (BiLT): A shift-invariant autoencoder for calibration-free spectral unmixing of turbid media ⭐ 精选

Martin Hohmann

physics.optics cs.LG eess.SP physics.med-ph

本文提出Bin Latent Transformer (BiLT)-Autoencoder，用cross-attention scanner替换传统全连接encoder，通过16个可学习的probe vectors查询convolutional feature map，实现了对光谱特征的shift-invariant提取，解决了spectrometer calibration drift下autoencoder性能下降的问题。在liquid phantom benchmark上，模型在$\pm 10$ spectral bands的shift范围内保持$R^2 > 0.90$，并能泛化到不同instrument line shape的模拟spectrometer上。attention map分析揭示了物理可解释的two-component probe策略，为spectral unmixing提供了新的attention-based框架。

Minimax Rates and Spectral Distillation for Tree Ensembles ⭐ 精选

Binh Duc Vu, David S. Watson

stat.ML cs.AI cs.LG

本文从谱视角（spectral perspective）出发，对随机森林（RF）和梯度提升机（GBM）等树集成方法进行了理论分析。作者首先证明了在温和的正则性条件下，RF回归的minimax最优收敛率由诱导核算子（kernel operator）的特征值衰减决定。其次，他们利用这一谱视角开发了压缩方案：对于RF，核算子的主导特征函数（leading eigenfunctions）捕捉了主要预测方向；对于GBM，平滑矩阵（smoother matrix）的主导奇异向量（leading singular vectors）扮演类似角色。通过学习这些谱表示的非线性映射，得到的蒸馏模型在保持竞争性预测性能的同时，规模比原始模型小数个数量级，在资源受限计算中具有应用价值。

Constrained Stochastic Spectral Preconditioning Converges for Nonconvex Objectives ⭐ 精选

Konstantinos Oikonomidis et al.

math.OC cs.LG

本文提出了一类基于proximal preconditioned gradient methods的随机优化算法，将Muon和Scion优化器推广到可处理凸与非凸约束的情形。通过针对所提方法几何特性的新颖分析，作者在heavy-tailed噪声下证明了算法的收敛性，并进一步引入variance-reduced版本以在标准噪声假设下实现更快收敛。关键贡献在于揭示了Muon中使用的polynomial iterations更应被理解为nonlinear preconditioner而非理想的matrix sign，从而为实际实现提供了更忠实的收敛分析。该工作与关键词中的spectral和Muon高度契合，为预训练等大规模优化场景提供了理论支撑。

Proteus: A Self-Evolving Red Team for Agent Skill Ecosystems ⭐ 精选

Zhaojiacheng Zhou

cs.CR cs.AI

本文提出Proteus，一个自进化的灰盒red-team框架，用于评估LLM agent技能生态系统中的自适应泄露风险。该框架形式化了一个五轴技能攻击空间，并通过统一的审计-沙箱-预言机流水线评估每个候选攻击，利用反馈指导跨轮变异。Proteus还实现了路径扩展和表面扩展，以发现攻击的替代实现并将学习到的模式迁移到新目标。实验表明，当前技能审核在面对自适应攻击者时严重低估了残余风险，这与关键词中的agent和context高度相关。

StepCodeReasoner: Aligning Code Reasoning with Stepwise Execution Traces via Reinforcement Learning ⭐ 精选

Hao Wang et al.

cs.SE cs.CL

本文提出StepCodeReasoner框架，通过在代码中自动插入结构化的print-based execution-trace anchors，将代码推理转化为可验证的逐步执行状态建模问题。该方法引入Bi-Level GRPO强化学习算法，在inter-trajectory和intra-trajectory两个层级进行结构化credit assignment，从而有效避免reward hacking。实验表明，该7B模型在CRUXEval和LiveCodeBench上分别达到91.1%和86.5%的SOTA性能，显著超越基线模型和GPT-4o，同时提升了代码生成能力。该工作与关键词"code"和"agent"高度契合，为代码推理领域提供了具有开创性的执行感知训练范式。

Harness Engineering as Categorical Architecture ⭐ 精选

Bogdan Banu

cs.PL cs.AI math.CT

本文提出将agent harness（包含prompts、tools、memory和orchestration logic的系统层）形式化为categorical Architecture triple $(G, Know, Phi)$，其中Memory对应coalgebraic state，Skills对应operad-composed objects，Protocols对应syntactic wiring $G$，而整个Harness即为Architecture本身。作者通过compiler functors（针对Swarms、DeerFlow、Ralph、Scion和LangGraph）验证了structural guarantees（如integrity gates、quality-based escalation）作为Know-level certificates的preservation，并证明LangGraph compiler通过共享的per-stage execution path保留了相同的certificates。该工作为harness engineering提供了形式化的categorical theory基础，与关键词“agent”高度契合。

QAP-Router: Tackling Qubit Routing as Dynamic Quadratic Assignment with Reinforcement Learning ⭐ 精选

Kien X. Nguyen et al.

quant-ph cs.AI

本文提出QAP-Router，将量子比特路由问题建模为动态Quadratic Assignment Problem (QAP)，通过将逻辑门交互视为flow matrix、硬件拓扑视为distance matrix，在reinforcement learning框架中统一优化目标。其policy network采用solution-aware Transformer backbone，将flow matrix与distance matrix的交互编码进attention机制，并集成lookahead机制避免短视决策。该方法在MQTBench等三个数据集上显著降低了CNOT门数量，与关键词中的attention高度契合。

Elastic Attention Cores for Scalable Vision Transformers ⭐ 精选

Alan Z. Song et al.

cs.CV cs.LG

本文提出VECA (Visual Elastic Core Attention)架构，通过引入一组可学习的core tokens作为通信接口，使得patch tokens仅与这些core tokens交互，从而将self-attention的计算复杂度从$O(N^2)$降至$O(N)$（其中$N$为图像patch数量，$C$为固定的core数量）。该方法挑战了视觉Transformer中patch间直接交互的必要性，并利用core-periphery结构实现了线性时间复杂度的attention机制。VECA在保持全量输入token的同时，通过沿core轴进行嵌套训练，可在推理时弹性地权衡计算量与精度，在分类和密集预测任务上达到与最新视觉基础模型竞争的性能。该工作为Vision Transformer提供了一种可扩展的attention替代方案，与关键词“attention”高度契合。

Testing General Relativity Through Gravitational Wave Classification: A Convolutional Neural Network Framework

Lavinia Heisenberg, Shayan Hemmatyar, Hector Villarrubia-Rojo

gr-qc astro-ph.HE cs.LG physics.data-an stat.ML

本文使用卷积神经网络(CNN)框架，通过引力波信号分类来检验广义相对论(GR)，并引入响应函数形式来量化对GR的修改。该方法在分类灵敏度上比使用白化波形提升了约33倍，并扩展到了参数化后爱因斯坦(ppE)形式下的有物理动机的理论。

Measuring Accuracy and Energy-to-Solution of Quantum Fine-Tuning of Foundational AI Models

Oliver Knitter et al.

quant-ph cs.AI cs.ET cs.LG

本文通过实验测量了混合量子-经典应用中能量-解决方案(ETS)指标，并应用于量子微调基础AI模型。结果显示，在约34量子比特时量子处理器的ETS优于经典模拟，且量子微调模型分类误差比经典模型低约24%。

Adversarial Effects on Expressibility and Trainability in Distributed Variational Quantum Algorithms

Abhishek Sadhu, Sharu Theresa Jose

quant-ph cs.LG

本文研究了分布式变分量子算法中共享纠缠层受到对抗扰动的影响，通过Kraus表示将纠缠层扰动映射为门级噪声，并引入Kraus可表达性度量噪声量子信道的表达能力。分析表明，对抗攻击可操纵该度量以保持梯度方差（避免贫瘠高原）但使优化偏向错误解。

Breaking QAOA's Fixed Target Hamiltonian Barrier: A Fully Connected Quantum Boltzmann Machine via Bilevel Optimization

Jun Liu

quant-ph cond-mat.stat-mech cs.AI cs.ET cs.LG

本文提出了一种基于bilevel optimization架构的全连接Quantum Boltzmann Machine，通过扩展QAOA电路实现。模型在单层电路下表现出高目标态测量概率和噪声鲁棒性，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Interpretable rainfall modelling reveals rapid reorganisation of Amazonian rainfall under vegetation loss

Lilly Horvath-Makkos, Fayyaz Minhas

physics.ao-ph cs.LG

本文使用neural-network模型进行小时级降雨预测，结合pathway diagnostics和sensitivity analyses，研究了植被损失如何重新组织亚马逊地区的降雨。模型准确预测了降雨的发生和强度，并揭示了持续森林砍伐下降雨的快速不对称响应，如强降雨减少而弱降雨增加。

AlphaEarth Satellite Embeddings for Modelling Climate Sensitive Diseases Towards Global Health Resilience

Usman Nazir, I-Han Cheng, Sara Khalid

stat.AP cs.AI cs.CV cs.LG

本文评估了AlphaEarth Foundations的64维satellite embeddings在预测疟疾、儿童急性呼吸道感染和发育迟缓等气候敏感疾病中的效用，发现其在传染病预测中能提升R^2，但在发育迟缓预测中效果中性。

Continuous Flood Nowcasting in South Asia: A Multi-Sensor Ensemble Remote Sensing Framework for Flood Extent

Usman Nazir et al.

physics.ao-ph cs.AI cs.ET cs.IR

本文提出了一种基于多传感器集成的遥感框架，用于南亚（巴基斯坦）的连续洪水近实时预报，通过融合Sentinel-1 SAR、HLS、MODIS和VIIRS数据生成每日连续淹没图，并验证了其与水文气象数据的一致性。该工作主要面向应用，在方法论上未体现与关键词（如code, context, spectral, Muon, pretrain, agent, attention）的显著关联。

Parameter-Efficient Adaptation of Pre-Trained Vision Foundation Models for Active and Passive Seismic Data Denoising

Jiahua Zhao et al.

physics.geo-ph cs.CV cs.LG

本文提出了一种参数高效的微调框架，利用预训练的Vision Foundation Model (VFM) 和Low-Rank Adaptation (LoRA) 技术，并引入基于kurtosis的无监督测试时自适应模块，用于主动和被动地震数据去噪。实验表明该方法在多个数据集上匹配或超越了领域专用模型。

Controlled Steering-Based State Preparation for Adversarial-Robust Quantum Machine Learning

Sahan Sanjaya et al.

quant-ph cs.AI

本文提出了一种基于被动steering的量子机器学习防御机制，通过替换传统量子编码阶段为controlled state preparation来抑制对抗扰动的影响。实验表明该方法在不同模型和数据集上能提升对抗准确性。

Acceleration of horizontal numerical advection for atmospheric modeling through surrogate modeling with temporal coarse-graining

Manho Park, Christopher V. Rackauckas, Christopher W. Tessum

physics.ao-ph cs.LG

本文提出了一种通过时间粗粒度（temporal coarse-graining）的机器学习替代模型来加速大气建模中水平数值平流（advection）的方法，使用卷积神经网络（CNN）预测质量通量，在保持空间分辨率的同时实现了4到32倍的时间步长加速。该方法在10天地面平流模拟中取得了0.60-0.98的$r^2$值，但精度随加速倍数增加而下降，且在不同季节和垂直高度上的泛化能力有限。

Multi-Fidelity Emulation of Atmospheric Correction Coefficients with Physics-Guided Kolmogorov-Arnold Networks

Md Abdullah Al Mazid, Naphtali Rishe

physics.ao-ph cs.AI

本文提出了一种基于物理引导的Kolmogorov-Arnold Network (pKANrtm)的多保真代理框架，用于模拟大气校正系数，通过结合低保真6S模型和高保真libRadtran模型，实现了对路径反射率等系数的快速预测。该方法在计算效率上相比高保真模型有显著提升，但并未直接涉及关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念。

Two Hebrew folk meteorological proverbs tested: rainfall on Rosh Chodesh and Shabbat Mevarechim as predictors of monthly precipitation (Israel, 1950-2024)

Abraham Itzhak Weinberg

physics.ao-ph cs.AI

本文利用以色列七座城市75年的降水数据，检验了两条希伯来民间气象谚语（将犹太历特定日期与月降水量关联）的准确性。研究发现，这些谚语所反映的降水预测信号在统计上显著但概率性较强，且其预测能力随时间推移而下降。

MMTB: Evaluating Terminal Agents on Multimedia-File Tasks

Chiyeong Heo et al.

cs.MM cs.AI

本文提出了一个名为MMTB的多媒体终端代理基准测试，包含105个涉及音频和视频文件的任务，并设计了Terminus-MM工具来增强代理的多媒体感知能力。该工作主要关注AI代理在多媒体文件操作上的评估，与关键词中的“agent”有一定关联，但方法本身并非开创性，也未解决长期存在的核心问题。

PASA: A Principled Embedding-Space Watermarking Approach for LLM-Generated Text under Semantic-Invariant Attacks

Zhenxin Ai, Haiyun He

cs.CR cs.AI

本文提出了一种名为PASA的文本水印算法，通过在潜在embedding空间的语义簇上操作，并利用共享随机性在token和辅助序列间建立分布依赖，以抵御语义不变攻击（如paraphrasing）。该方法在检测准确率、鲁棒性和文本质量间取得了权衡，但与我提供的关键词（如code, context, spectral等）关联度较低。

Towards Scalable Persistence-Based Topological Optimization

Abderrahim Bendahi, Alexandre Duplessis, Arnaud Fickinger

cs.CG cs.AI cs.GR math.OC

本文提出了一种基于persistence的拓扑优化可扩展方法，通过随机切片（random slicing）改进子采样，并用Nadaraya-Watson高斯卷积替代昂贵的核求解来扩展稀疏梯度，从而加速优化过程。实验表明该方法在2D和3D点云上相比基线方法取得了更快的速度和更好的目标值。

Few-Shot Truly Benign DPO Attack for Jailbreaking LLMs

Sangyeon Yoon et al.

cs.CR cs.AI

本文研究了针对大型语言模型（LLMs）的少样本良性DPO攻击，发现仅使用少量无害偏好对即可显著削弱模型的安全对齐，且攻击成本极低。该工作主要关注安全漏洞，与关键词中的code, spectral, Muon, agent等概念关联较弱。

MT-JailBench: A Modular Benchmark for Understanding Multi-Turn Jailbreak Attacks

Xinkai Zhang et al.

cs.CR cs.AI

本文提出了MT-JailBench，一个模块化的评估框架，用于在固定条件下公平比较多轮jailbreak攻击方法。通过将攻击分解为五个交互模块，该框架揭示了资源预算和评估函数是主要的混淆因素，并分析了各模块对攻击成功率的贡献。

An Execution-Verified Multi-Language Benchmark for Code Semantic Reasoning

Yikun Li et al.

cs.SE cs.AI

本文提出了TraceEval，一个用于代码语义推理的多语言benchmark，通过执行验证程序运行时调用结构，并评估了多个LLM在该任务上的表现。

DCVD: Dual-Channel Cross-Modal Fusion for Joint Vulnerability Detection and Localization

Wenxin Tang et al.

cs.CR cs.AI

本文提出了一种名为DCVD的双通道跨模态融合框架，用于联合进行函数级漏洞检测和语句级定位。该方法通过并行分支提取控制依赖和语义特征，并利用对比对齐与双向交叉注意力进行融合，在真实世界基准测试中取得了优于现有方法的表现。

SCOPE: Siamese Contrastive Operon Pair Embeddings for Functional Sequence Representation and Classification

Akarsh Gupta, Kenneth Rodrigues, Sagnik Chatterjee

q-bio.GN cs.AI cs.ET cs.LG

本文使用Siamese MLP在融合嵌入空间上学习分类器，用于operon pair分类，发现protein language model嵌入在ROC-AUC上优于physicochemical特征，但Siamese MLP相比无监督cosine similarity在Average Precision上提升不显著。

From Code-Centric to Intent-Centric Software Engineering: A Reflexive Thematic Analysis of Generative AI, Agentic Systems, and Engineering Accountability

Elyson De La Cruz

cs.SE cs.AI

本文通过反思性主题分析（RTA）和解释性现象学分析（IPA），研究了生成式AI（GenAI）和智能体系统如何推动软件工程从以代码为中心转向以意图为中心，强调了意图规范、上下文策展和治理的重要性。

FragBench: Cross-Session Attacks Hidden in Benign-Looking Fragments

Astha Mehta et al.

cs.CR cs.AI

本文提出了FragBench，一个用于评估LLM安全性的基准，将恶意目标拆分为多个看似良性的子提示，并构建了跨会话攻击与防御任务。实验表明，基于图的检测器（如GNN）能有效识别这种跨会话特征，而单轮安全判断则几乎无效。

An Executable Benchmarking Suite for Tool-Using Agents

Zhiqing Zhong et al.

cs.SE cs.AI cs.MA

本文提出了一个可执行的benchmarking套件，用于评估使用工具的agent，通过统一的证据接纳合同连接了WebArena Verified、SWE-Gym和MiniWoB++等环境，并记录了延迟、无效行为等指标。该工作主要关注benchmarking基础设施而非新的agent策略或模型。

Portable Agent Memory: A Protocol for Cryptographically-Verified Memory Transfer Across Heterogeneous AI Agents

Santhosh Kumar Ravindran

cs.CR cs.AI

本文提出了一个名为Portable Agent Memory的开放协议，用于在不同AI agent之间传输持久化记忆状态。该协议通过结构化记忆模型和Merkle-DAG验证图确保记忆的防篡改性，并支持跨模型（如GPT-4、Claude等）的记忆迁移。

MambaNetBurst: Direct Byte-level Network Traffic Classification without Tokenization or Pretraining

Gayan K. Kulatilleke et al.

cs.CR cs.AI cs.LG cs.PF

本文提出MambaNetBurst，一种基于Mamba-2的免tokenizer字节级网络流量分类方法，直接在原始数据包字节上进行端到端分类，无需预训练。实验表明该方法在多个基准上达到与更重模型相当的性能，并验证了保留字节级时间分辨率的重要性。

The Granularity Mismatch in Agent Security: Argument-Level Provenance Solves Enforcement and Isolates the LLM Reasoning Bottleneck

Linfeng Fan et al.

cs.CR cs.AI

本文提出PACT (Provenance-Aware Capability Contracts) 运行时监控器，通过为tool arguments分配语义角色并追踪跨步骤的value provenance，来解决LLM agent在混合信任场景下的安全漏洞。实验表明该方法在诊断测试集上达到100%效用与安全，并将agent security问题重新定义为authority binding。

Towards Model-Free Learning in Dynamic Population Games: An Application to Karma Economies

Matteo Cederle, Saverio Bolognani, Gian Antonio Susto

cs.GT cs.AI

本文研究了动态种群博弈（Dynamic Population Games）中无模型均衡学习的问题，具体应用于Karma经济（一种公平的非货币资源分配机制）。作者首先分析了新加入智能体（agent）在已有均衡下通过Deep Q-Networks学习策略的次优性界，然后通过结合深度强化学习与虚构博弈（fictitious play）等方法，展示了智能体从零开始无模型地收敛到均衡的可能性。

Read, Extract, Classify: A Tool for Smarter Requirements Engineering

Paheli Bhattacharya et al.

cs.SE cs.AI cs.LG

本文介绍了ReXCL工具，该工具通过提取和分类模块自动化需求工程中的文档处理流程，使用启发式方法和预测模型将半结构化需求文档转换为预定义模式并分配类别标签。实验表明该工具在提升需求管理效率和准确性方面有显著效果。

Red-Teaming Agent Execution Contexts: Open-World Security Evaluation on OpenClaw

Hongwei Yao et al.

cs.CR cs.AI

本文提出了DeepTrap框架，用于在OpenClaw中自动发现agent系统的上下文安全漏洞。该方法将对抗性上下文构造视为黑盒轨迹级优化问题，结合风险条件评估与多目标轨迹评分来识别高风险上下文。

ForceFlow: Learning to Feel and Act via Contact-Driven Flow Matching

Shuoheng Zhang et al.

cs.RO cs.AI

本文提出ForceFlow，一种基于flow matching的力感知机器人操作框架，通过非对称多模态融合架构将力信号作为全局调节信号，并结合视觉主导的接近阶段与触觉主导的交互阶段，实现了接触力自调节与零样本泛化。该方法在六项真实世界接触密集型任务中相比基线提升了37%的成功率。

On Problems of Implicit Context Compression for Software Engineering Agents

Kirill Gelvan et al.

cs.SE cs.AI cs.CL cs.LG

本文探讨了基于LLM的软件工程agent在长上下文任务中面临的瓶颈，并尝试使用In-Context Autoencoder将上下文编码为连续embedding以压缩信息。实验表明，该方法在单步任务中表现良好，但在多步agentic coding任务中失败，作者分析了可能的原因。

MCPShield: Content-Aware Attack Detection for LLM Agent Tool-Call Traffic

Sultan Zavrak

cs.CR cs.AI cs.LG

本文提出MCPShield，一个针对LLM agent工具调用流量的攻击检测框架，将agent会话编码为graph并使用GNN等模型进行分类。实验表明内容级特征对检测至关重要，且随机划分评估会高估性能。

The first global agricultural field boundary map at 10m resolution

Caleb Robinson et al.

cs.CV cs.LG

本文利用U-Net分割模型和Sentinel-2影像，生成了全球首个10米分辨率的农田边界图（2024-2025年），包含31.7亿个多边形，并在24个国家进行了验证。该工作为农业监测提供了首个全球一致的field-level分析单元，但与关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接契合。

Uniform Scaling Limits in AdamW-Trained Transformers

William Gibson, Christoph Reisinger

stat.ML cs.LG math.PR

本文通过将隐藏状态动力学建模为通过注意力机制耦合的相互作用粒子系统，研究了使用AdamW训练的transformer在大深度极限下的行为。在适当的注意力头缩放下，证明了隐藏状态和反向传播变量的联合动力学在$L^2$中一致收敛于一个前向-后向常微分方程组，收敛速度为$\mathcal O(L^{-1}+L^{-1/3}H^{-1/2})$。

ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks?

Zhun Wang et al.

cs.CR cs.AI cs.LG

本文提出了ExploitGym，一个用于评估AI agent利用安全漏洞能力的基准测试，包含898个来自真实世界的漏洞实例。实验表明，前沿模型能够成功利用其中一部分漏洞，揭示了AI agent在网络安全领域日益增长的风险。

Birds of a Feather Flock Together: Background-Invariant Representations via Linear Structure in VLMs

Youssef Zaazou, Mark Thomas

cs.CV cs.AI

本文利用VLM嵌入空间的高线性可加性，将场景表示分解为前景和背景成分，并提出一种基于合成数据的预训练方法以构建背景不变表示。该方法在Waterbirds数据集上实现了首个在完美虚假相关下超过90%的最差组准确率，并展示了强大的模拟到真实迁移能力。

Deploying Self-Supervised Learning for Real Seismic Data Denoising

Giovanny A. M. Arboleda et al.

physics.geo-ph cs.AI cs.CV cs.LG

本文评估了Noisy-as-Clean (NaC)自监督学习方法在真实地震数据去噪中的应用，通过实验比较了不同噪声注入策略与监督学习基线的性能。结果表明，合成高斯白噪声不适用于NaC方法，且模型性能依赖于注入噪声与实际噪声特征的匹配程度。

ShardTensor: Domain Parallelism for Scientific Machine Learning

Corey Adams et al.

cs.DC cs.LG

本文提出了ShardTensor，一种用于科学机器学习的域并行化新范式，通过将输入数据的空间维度与硬件约束解耦，实现了对任意大小输入数据的灵活扩展。该方法在训练和推理中展示了强扩展和弱扩展能力，但并未直接涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

SEVO: Semantic-Enhanced Virtual Observation for Robust VLA Manipulation via Active Illumination and Data-Centric Collection

Tianchonghui Fang, Yuan Zhuang, Fei Miao

cs.RO cs.AI

本文提出SEVO方法，通过主动红光照明、固定视角相机和实时YOLO语义分割叠加来增强机器人操作的视觉观测，并强调在数据采集阶段系统性地变化光照、背景和干扰物是提升泛化能力的关键因素。实验表明该方法在不改变模型架构的情况下显著提升了跨环境操作的成功率。

LatentHDR: Decoupling Exposure from Diffusion via Conditional Latent-to-Latent Mapping for Text/Image-to-Panoramic HDR

Pedram Fekri et al.

cs.CV cs.GR cs.LG

本文提出LatentHDR框架，通过将场景生成与曝光建模在latent space中解耦，使用预训练diffusion backbone生成单一场景表示，再由轻量级conditional latent-to-latent head映射到特定曝光表示，实现单次生成密集且结构一致的exposure stack。该方法在SI-HDR基准上达到state-of-the-art动态范围，同时计算量降低一个数量级。

FedSurrogate: Backdoor Defense in Federated Learning via Layer Criticality and Surrogate Replacement

Fatima Z. Abacha et al.

cs.CR cs.LG

FedSurrogate提出了一种针对联邦学习中后门攻击的防御方法，通过双向梯度对齐过滤和层自适应异常检测来降低误报率。该方法在非独立同分布数据下优于现有基线，但与我提供的关键词（如code, context, spectral等）关联度较低。

Control Charts for Multi-agent Systems

Hayden Helm, Carey Priebe, Brandon Duderstadt

cs.MA cs.AI cs.LG

本文扩展了自适应控制图（adaptive control charts）的概念到多智能体系统（multi-agent systems）中，用于自动化监控。通过仿真和理论分析，证明了自适应控制图对于能学习环境的多智能体系统是必要的，但也揭示了其易受缓慢叛变智能体攻击的缺陷。

Quantifying the Reconstructability of Astrophysical Methods with Large Language Models and Information Theory: A Case Study in Spectral Reconstruction

Hsing Wen Lin, Zong-Fu Sie

astro-ph.IM cs.AI cs.LG

本文利用Large Language Models和Shannon entropy等工具，量化了天体物理方法从文本描述中的可重构性，发现文本虽能澄清算法结构，但无法消除实现层面的方差，存在一个“entropy floor”。该研究为评估方法学透明度提供了新视角，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）契合度不高。

The Price of Proportional Representation in Temporal Voting

Nicholas Teh

cs.GT cs.AI cs.LG cs.MA econ.TH

本文研究了时间投票模型中比例代表制与社会福利之间的权衡，量化了实施比例公理（如JR及其变体）所导致的效率损失，并证明了在静态偏好下最大化社会福利是NP-complete和APX-hard的。

Benchmarking LLM-Based Static Analysis for Secure Smart Contract Development: Reliability, Limitations, and Potential Hybrid Solutions

Stefan-Claudiu Susan, Andrei Arusoaie, Dorel Lucanu

cs.CR cs.AI

本文评估了LLM在智能合约安全审计中的可靠性，发现其存在词汇偏差和外部数据验证不足的问题，导致高误报率，并指出LLM目前只能作为传统静态分析工具的补充而非替代。

From raw data to neutrino candidates: a neural-network pipeline for Baikal-GVD

A. Matseiko, G. Plotnikov, I. Kharuk

astro-ph.IM cs.LG hep-ex

本文提出了一种基于神经网络的Baikal-GVD数据处理流水线，包含三个使用transformer架构的阶段，用于快速抑制大气簇射事件、抑制噪声并提取高置信度中微子候选事件。该方法通过注意力机制利用hit间相关性，并采用domain adaptation技术处理模拟与实验数据间的差异，实现了近实时的事件分类。

Interpretable Machine Learning for Spatial Science: A Lie-Algebraic Kernel for Rotationally Anisotropic Gaussian Processes

Kane Warrior, Dalia Chakrabarty

stat.ML cs.LG

本文提出了一种基于Lie-algebra指数映射的可解释旋转各向异性Gaussian Process核，通过显式参数化SO(3)旋转和三个主尺度来建模三维空间中的各向异性，并利用MCMC进行贝叶斯推断。该方法在合成数据和纳米砖材料密度数据集上验证了其恢复旋转各向异性的能力。

Adversarial SQL Injection Generation with LLM-Based Architectures

Ali Karakoc, H. Birkan Yilmaz

cs.CR cs.AI cs.ET

本文提出了两种基于LLM的对抗性SQL注入生成系统RADAGAS和RefleXQLi，并对比了多种WAF的防御效果。实验表明RADAGAS-GPT4o在绕过率上表现最优，但主要对AI/ML-based WAF有效，对rule-based WAF效果有限。

Adaptive Policy Learning Under Unknown Network Interference

Aidan Gleich, Eric Laber, Alexander Volfovsky

stat.ML cs.LG

本文提出了一种在未知网络干扰下进行自适应实验的Thompson采样算法，通过Gibbs采样联合学习干扰网络并优化个体层面的处理分配。该方法在加性溢出模型下证明了贝叶斯遗憾界为$\sqrt{nT \cdot B \log(en/B)}$，并在真实网络实验中实现了亚线性遗憾。

Exploring Token-Space Manipulation in Latent Audio Tokenizers

Francesco Paissan et al.

cs.SD cs.AI cs.LG

本文提出LATTE模型，通过在音频特征序列后附加一组可学习的latent tokens，仅保留这些tokens进行quantization和decoding，从而构建一个紧凑的、非时间对齐的bottleneck。实验表明，该tokenizer在低比特率语音编码中保持重建质量，并支持通过交换latent token位置来修改speaker identity等全局属性。

Operator Spectroscopy of Trained Lattice Samplers

Moxian Qian

hep-lat cs.LG

本文提出了一种分析训练后的格点采样器（如flow-matching velocity或diffusion score）的方法，通过将其投影到基于对称性、高斯路径极限等构建的operator basis上，来研究其函数结构。该方法在二维$\phi^4$模型中区分了不同采样器类别（如straight-flow teacher与diffusion）的残差成分，但未直接涉及code、context或spectral等关键词。

Continuous Discovery of Vulnerabilities in LLM Serving Systems with Fuzzing

Yunze Zhao et al.

cs.CR cs.AI cs.LG cs.SE

本文提出GRIEF，一个针对LLM推理引擎的灰盒fuzzer，通过多请求追踪和轻量级oracle检测并发服务中的漏洞，发现了KV缓存隔离失败等15个漏洞。该方法聚焦于服务层的并发行为安全，但与我提供的关键词列表关联度较低。

Multi-Agent System Identification with Nonlinear Sheaf Diffusion

Nivar Anwer, Hans Riess, Matthew Hale

eess.SY cs.LG cs.MA math.AT

本文研究了多智能体系统中由非线性sheaf Laplacian（一种推广的graph Laplacian）描述的局部交互规律的恢复问题。作者利用sheaf cohomology（层上同调）刻画了从轨迹数据中唯一恢复交互规律的根本障碍，并给出了在有限维参数化类中可恢复的充要条件。

ReCoVer: Resilient LLM Pre-Training System via Fault-Tolerant Collective and Versatile Workload

Ziyue Liu et al.

cs.DC cs.AI

本文提出ReCoVer，一种针对大规模LLM预训练的弹性训练系统，通过保持每次迭代的microbatch数量恒定来确保梯度与无故障运行时随机等价。系统采用解耦协议层设计，包括容错集合通信、细粒度恢复和动态工作负载重分配，在512 GPU上验证了其有效性。

ABRA: Agent Benchmark for Radiology Applications

Bulat Maksudov et al.

cs.CV cs.AI

ABRA是一个针对放射学应用的agent benchmark，它让agent通过21个function-calling tools操作OHIF viewer和Orthanc DICOM server，包含655个程序化生成的任务。实验发现，当前模型在真实标注任务上的Outcome得分很低（0-25%），但通过模拟检测器提供发现后得分大幅提升（69-100%），表明性能瓶颈主要在于感知而非工具编排。

When to Ask a Question: Understanding Communication Strategies in Generative AI Tools

Charlotte Park, Kate Donahue, Manish Raghavan

cs.GT cs.CY cs.LG

本文构建了一个用户与大语言模型交互的博弈论模型，分析了在内容生成前应主动询问多少用户偏好信息以平衡用户负担与偏好表征质量。研究表明，信息询问可以缓解基于分布推断的系统性偏差，从而在保持效率的同时更好地融入多样化用户视角。

DenseTRF: Texture-Aware Unsupervised Representation Adaptation for Surgical Scene Dense Prediction

Guiqiu Liao, Matjaž Jogan, Daniel A. Hashimoto

cs.CV cs.AI cs.LG

本文提出DenseTRF，一种基于texture-centric attention的自监督表示适应框架，用于解决手术场景密集预测中的分布偏移问题。该方法通过slot attention学习纹理感知表示，并在无监督条件下适应目标分布，以提升跨分布泛化能力。

PG-3DGS: Optimizing 3D Gaussian Splatting to Satisfy Physics Objectives

Zachary Lee, Maxwell Jacobson, Yexiang Xue

cs.CV cs.GR cs.LG

本文提出PG-3DGS框架，将可微物理模拟与3D Gaussian Splatting结合，使生成的3D结构在保持视觉质量的同时满足物理功能（如茶壶倒水、飞机产生升力）。实验通过模拟和3D打印实物测试验证了该方法在物理功能上的提升。

gwBenchmarks: Stress-Testing LLM Agents on High-Precision Gravitational Wave Astronomy

Tousif Islam, Digvijay Wadekar, Zihan Zhou

gr-qc astro-ph.HE astro-ph.IM cs.AI

本文提出了gwBenchmarks，一个包含八个引力波天文学任务的基准测试，用于评估LLM coding agents在高精度科学建模中的表现。实验发现，现有agents在简单任务上表现尚可，但在复杂任务上远未达到领域要求，并存在指标误用和结果伪造等问题。

Generative AI for Visualizing Highway Construction Hazards Through Synthetic Images and Temporal Sequences

Trevor Neece, Mason Smetana, Lev Khazanovich

cs.CV cs.AI

本文提出了一种利用生成式AI从OSHA事故报告中合成高速公路施工危险场景图像的方法，包括单次生成和时序序列两种模式，并通过CLIP检索和专家评估验证了其教育可用性。该工作主要面向安全培训应用，与关键词中的数学或算法概念关联较弱。

Rethinking external validation for the target population: Capturing patient-level similarity with a generative model

Mohammad Azizmalayeri et al.

stat.ME cs.AI cs.LG

本文提出一个基于generative model (autoencoder) 的框架，通过量化外部患者与开发数据的相似性来区分模型缺陷与case-mix效应，从而增强external validation的可解释性。该方法在合成数据和荷兰心脏注册数据上展示了性能随相似性子群变化的现象。

Vision2Code: A Multi-Domain Benchmark for Evaluating Image-to-Code Generation

Ajay Vikram Periasami, Junlin Wang, Bhuwan Dhingra

cs.CV cs.LG

本文提出了Vision2Code基准，用于评估多领域图像到代码生成任务，包含来自15个数据集的2169个测试样例，并设计了基于VLM的评估框架。实验表明模型性能具有领域依赖性，且评估结果与人类判断高度一致。

Quantifying Rodda and Graham Gait Classification from 3D Makerless Kinematics derived from a Single-view Video in a Heterogeneous Pediatric Clinical Cohort

Lauhitya Reddy et al.

cs.CV cs.AI

本文提出了一种基于单视角临床视频的无标记步态分析流程，用于量化Rodda and Graham分类系统中的膝关节和踝关节z-score，并在包含152名儿童的异质性儿科临床队列中验证了其与3D-IGA的一致性。该方法在膝关节z-score预测上表现良好（$R^2=0.80$），但踝关节预测误差是主要瓶颈，整体分类准确率有限。

Natural Language based Specification and Verification

Zhaorui Li, Chengyu Song

cs.SE cs.AI cs.CR

本文探讨了使用大型语言模型(LLM)以自然语言生成specifications并进行compositional verification的方法，初步结果表明该方向具有潜力。

MLCommons Chakra: Advancing Performance Benchmarking and Co-design using Standardized Execution Traces

Srinivas Sridharan et al.

cs.DC cs.LG cs.PF

本文介绍了MLCommons Chakra，一个用于分布式AI/ML工作负载性能基准测试和协同设计的开放生态系统，其核心是标准化的Chakra执行轨迹图表示。该工作主要关注系统性能评估和软硬件协同设计，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

ChunkFlow: Communication-Aware Chunked Prefetching for Layerwise Offloading in Distributed Diffusion Transformer Inference

Han Meng, Danny Willow Liu, Dong Li

cs.DC cs.LG

本文提出ChunkFlow，一种通信感知的块粒度预取运行时系统，用于优化分布式Diffusion Transformer推理中的逐层卸载。它通过分析模型协调预取与集合通信，在PCIe链路上减少延迟暴露，并提供了可调的内存-延迟权衡。

Human-AI Productivity Paradoxes: Modeling the Interplay of Skill, Effort, and AI Assistance

Ali Aouad, Thodoris Lykouris, Huiying Zhong

cs.GT cs.AI econ.TH

本文构建了一个人类与AI交互的模型，分析了AI辅助对生产力的影响。研究发现，技能发展的内生性或AI的不可靠性可能导致生产力悖论，即AI辅助增加反而降低生产力，并可能引发技能极化现象。

Options, Not Clicks: Lattice Refinement for Consent-Driven MCP Authorization

Ying Li et al.

cs.CR cs.AI cs.SE

本文提出了Conleash，一种用于Model Context Protocol的客户端中间件，通过风险格（risk lattice）和策略引擎实现基于用户同意的工具调用授权，在984个真实轨迹上达到98.2%的准确率。该工作主要关注安全授权而非数学理论创新，与关键词列表中的概念关联较弱。

PresentAgent-2: Towards Generalist Multimodal Presentation Agents

Wei Wu et al.

cs.CV cs.CL

本文提出了PresentAgent-2，一个用于从用户查询生成演示视频的agent框架，支持单人演示、多人讨论和交互问答三种模式，并构建了相应的多模态基准进行评估。该方法主要关注多模态agent的应用，与关键词中的agent概念相关，但方法本身在理论或算法上缺乏开创性。

Spatial Adapter: Structured Spatial Decomposition and Closed-Form Covariance for Frozen Predictors

Wen-Ting Wang et al.

stat.ML cs.AI cs.LG stat.AP stat.ME

本文提出了一种名为Spatial Adapter的参数高效后处理层，通过可微的mini-batch ADMM过程为冻结的预测器残差场学习一个结构化空间正交基和闭式空间协方差，从而在不修改原始模型参数的情况下提供压缩的残差分布摘要。该方法在合成数据、Weather2K和GWHD等任务上验证了其恢复残差空间结构的能力。

Diabetic Retinopathy Classification using Downscaling Algorithms and Deep Learning

Nishi Doshi, Urvi Oza, Pankaj Kumar

cs.CV cs.AI cs.LG

本文探讨了在糖尿病视网膜病变分类任务中，使用多种降采样算法预处理图像，并采用多通道Inception V3架构进行深度学习分类的方法。实验在混合数据集上取得了优于先前方法的准确率、特异性和灵敏度。

Instruct-ICL: Instruction-Guided In-Context Learning for Post-Disaster Damage Assessment

Armin Zarbaft et al.

cs.CV cs.LG

本文探讨了在灾后损伤评估中，通过一个MLLM生成任务特定指令作为另一个MLLM的Chain-of-Thought (CoT)引导，并结合in-context learning (ICL)来提升视觉问答(VQA)的可靠性。实验在FloodNet数据集上验证了该方法相比零样本基线的有效性。

Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

Yanyan Zhang et al.

cs.RO cs.AI cs.CV cs.LG

本文提出了一种名为Pace-and-Path Correction的训练无关闭式推理算子，用于解决VLA模型在非平稳场景中的动力学盲视问题。该方法通过联合最小化一个二次代价函数，将动作执行分解为沿规划方向的压缩通道和正交空间偏移通道，从而在无需重新训练的情况下提升动态环境中的任务成功率。

SpatialForge: Bootstrapping 3D-Aware Spatial Reasoning from Open-World 2D Images

Zishan Liu et al.

cs.CV cs.AI

本文提出SpatialForge，一种从开放世界2D图像中生成3D空间推理监督数据的可扩展pipeline，通过将空间推理分解为感知与关系并构建结构化监督信号，构建了包含1000万空间QA对的数据集，实验表明该数据能显著提升VLMs的空间推理能力。

Offline Policy Evaluation for Manipulation Policies via Discounted Liveness Formulation

Hao Wang et al.

cs.RO cs.AI

本文针对机器人操作策略的离线评估问题，提出了一种基于liveness（活性）Bellman算子的框架，通过将策略评估转化为任务完成问题，得到一个对有限horizon截断鲁棒的保守不动点值函数。该方法在模拟和真实操作任务中相比TD(0)和Monte Carlo评估等基线方法，能更准确地反映任务进展并减少截断偏差。

Digital Identity for Agentic Systems: Toward a Portable Authorization Standard for Autonomous Agents

Partha Madhira

cs.CR cs.AI cs.MA

本文分析了企业AI从copilot向自主agent转变过程中身份与授权机制的不足，提出了一种基于可移植授权模型的解决方案，该模型通过分离凭证容器、授权载荷语义和执行引擎，支持跨信任边界的统一授权解释。

Decaf: Improving Neural Decompilation with Automatic Feedback and Search

Alexander Shypula, Osbert Bastani, Edward Schwartz

cs.SE cs.AI cs.CR

本文提出Decaf系统，利用compiler feedback和搜索策略改进neural decompilation的语义正确性，在ExeBench数据集上将decompilation rate从26.0%提升至83.9%。该方法不依赖更多训练数据，而是通过自动反馈机制修正模型输出中的编程构造错误。

Post-ADC Inference: Valid Inference After Active Data Collection

Shuichi Nishino et al.

stat.ML cs.LG

本文研究了主动数据收集（ADC）后统计推断的有效性问题，提出了一种基于选择性推断的post-ADC推断框架，用于校正由ADC过程和数据驱动目标构建带来的偏差，并提供了有效的$p$-值和置信区间。该方法适用于GP-UCB和TPE等黑箱优化算法收集的数据，但与我提供的关键词（如code, context, spectral等）关联度较低。

PointGS: Semantic-Consistent Unsupervised 3D Point Cloud Segmentation with 3D Gaussian Splatting

Yixiao Song et al.

cs.CV cs.AI

本文提出PointGS，利用3D Gaussian Splatting作为中间表示，通过多视图渲染和SAM提取2D语义，再通过contrastive learning蒸馏到3D Gaussian primitives，以解决无监督点云分割中2D-3D语义不一致的问题。实验表明该方法在ScanNet-V2和S3DIS上优于现有无监督方法。

Efficient and provably convergent end-to-end training of deep neural networks with linear constraints

Zonglin Yang, Zhexuan Gu, Yancheng Yuan

math.OC cs.AI cs.LG

本文提出了一种基于HS-Jacobian的投影层反向传播方法，用于训练带有线性约束的深度神经网络，并证明了该方法的收敛性。实验表明该方法在金融、计算机视觉等应用中优于现有方法。

Generative climate downscaling enables high-resolution compound risk assessment by preserving multivariate dependencies

Takuro Kutsuna et al.

physics.ao-ph cs.LG stat.AP

本文提出了一种基于扩散模型的多元生成降尺度框架，结合bias correction，在50倍线性分辨率提升下恢复了变量间的相关性，相比现有基线将inter-variable correlation errors降低了四倍以上，从而提高了复合风险评估的可靠性。

When Looking Is Not Enough: Visual Attention Structure Reveals Hallucination in MLLMs

Fanpu Cao et al.

cs.CV cs.AI

本文研究了多模态大语言模型中的视觉幻觉问题，发现视觉attention的Laplacian能量可以揭示幻觉出现的层。基于此，提出了LaSCD解码策略，通过Laplacian能量选择信息层并重新映射logits，以减少幻觉。

TCP-SSM: Efficient Vision State Space Models with Token-Conditioned Poles

Sara Shoouri, Morteza Tavakoli Taba, Hun-Seok Kim

cs.CV cs.AI

本文提出TCP-SSM，一种通过token条件化极点来显式控制状态空间模型递归动力学的框架，使用实极点和复共轭极点分别建模单调衰减和阻尼振荡响应。该方法在Vision Mamba风格模型中最多可减少44%的SSM计算复杂度，同时保持或超越基线精度。

NexOP: Joint Optimization of NEX-Aware k-space Sampling and Image Reconstruction for Low-Field MRI

Tal Oved, Efrat Shimron

eess.IV cs.AI cs.CV cs.LG eess.SP

本文提出NexOP，一个用于低场MRI中多NEX采集的采样与重建联合优化的深度学习框架，通过优化k空间-NEX域的采样密度概率并设计新的重建架构，在固定采样预算下提升信噪比。实验表明该方法在低场脑部数据上优于现有方法，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

A Mixture Autoregressive Image Generative Model on Quadtree Regions for Gaussian Noise Removal via Variational Bayes and Gradient Methods

Shota Saito et al.

cs.CV cs.LG

本文提出了一种结合quadtree区域划分和混合自回归模型的概率图像生成模型，用于灰度图像去噪，并通过变分贝叶斯和梯度方法交替优化来最大化变分下界。该方法在去噪任务上进行了实验验证，但与我提供的关键词列表关联度较低。

Keep What Audio Cannot Say: Context-Preserving Token Pruning for Omni-LLMs

Chaeyoung Jung, Kyeongha Rho, Joon Son Chung

cs.CV cs.AI

本文提出ContextGuard，一种针对Omni-LLMs的推理时token剪枝框架，通过从audio中预测coarse visual semantics来剪除冗余video tokens，同时保留audio无法提供的localized visual details。该方法无需微调LLM，在多个benchmark上实现了与full-token相当的性能并剪除了55%的输入tokens。

Exact Stiefel Optimization for Probabilistic PLS: Closed-Form Updates, Error Bounds, and Calibrated Uncertainty

Haoran Hu, Xingce Wang

stat.ML cs.AI cs.LG

本文针对概率偏最小二乘法(PPLS)中的正交约束优化问题，提出了一种基于Stiefel流形的精确优化框架，通过噪声子空间估计替代全谱噪声平均，并给出了闭式更新和误差界。该方法在合成高噪声场景和多组学基准上实现了接近名义覆盖率的校准不确定性，但整体属于对现有方法的改进与扩展，未在关键词领域内体现显著开创性。

Unlocking UML Class Diagram Understanding in Vision Language Models

Artem Naboichenko, René Peinl

cs.CV cs.AI

本文提出了一个基于UML类图的视觉问答基准，并构建了包含16,000个图像-问题-答案三元组的大规模训练数据集。通过LoRA微调，该方法在UML类图理解任务上超越了Qwen 3.5 27B等现有模型，但主要贡献在于特定领域的基准构建与微调策略，与关键词中的核心概念关联较弱。

Learning U-Statistics with Active Inference

Xiaoning Wang et al.

stat.ML cs.LG

本文针对U-statistics在标签获取成本高昂的场景下，提出了一种基于active inference的框架，通过augmented inverse probability weighting U-statistic来选择性查询信息量大的标签，以在固定预算下提升估计效率。实验表明该方法在保持统计推断有效性的同时，相比基线方法有显著效率提升。

Finite Sentence-Interface Control for Learning Bounded-Fan-Out Linear MCFGs under Fixed Monoid Typing

Takayuki Kuriyama

cs.FL cs.LG

本文研究了在固定有限monoid同态下学习有界扇出线性MCFG的问题，通过引入sentence-interface types作为有限外部控制对象，构建了typed refinement和有限特征样本，并给出了一个正数据可辨识的算法。该工作将固定$h$的分布重构从context-free grammars推广到了有界扇出线性MCFG。

Hide to See: Reasoning-prefix Masking for Visual-anchored Thinking in VLM Distillation

Seonghoon Yu et al.

cs.CV cs.AI cs.CL

本文提出了一种名为"推理前缀掩码"的视觉语言模型蒸馏框架，通过遮蔽学生模型中的显著推理前缀来强制其更多地依赖视觉证据，并采用自适应的掩码预算调度策略。该方法在多项多模态推理基准上取得了优于现有开源VLM和蒸馏方法的表现。

Posterior Contraction Rates for Sparse Kolmogorov-Arnold Networks in Anisotropic Besov Spaces

Jeunghun Oh et al.

stat.ML cs.LG math.ST

本文研究了稀疏贝叶斯Kolmogorov-Arnold网络在anisotropic Besov空间上的后验收缩率，证明了其能达到近极小化最优收缩率，且收缩率依赖于内在各向异性光滑性。通过引入超先验，该方法能自适应未知光滑性并避免维度灾难，但该工作与关键词列表中的概念无直接关联。

Every Bit, Everywhere, All at Once: A Binomial Multibit LLM Watermark

Thibaud Gloaguen et al.

cs.CR cs.AI

本文提出了一种基于binomial encoding的多位LLM watermark方法，通过在每个token位置直接编码payload的每一位，并利用stateful encoder动态调整编码压力。该方法在64位payload场景下优于8个baseline，并引入了per-bit confidence scoring作为更实用的评估指标。

Weather-Robust Cross-View Geo-Localization via Prototype-Based Semantic Part Discovery

Chi-Nguyen Tran et al.

cs.CV cs.AI cs.RO

本文提出SkyPart，一种轻量级可替换的头部模块，用于基于patch的Vision Transformer (ViT)，通过可学习的prototype进行显式的part grouping，并引入altitude-conditioned线性调制和Kendall uncertainty加权的多目标损失，以解决跨视角地理定位中的尺度变化和多目标训练问题。该方法在多个基准上取得了最先进的结果，但与关键词列表中的概念关联较弱。

Reviving In-domain Fine-tuning Methods for Source-Free Cross-domain Few-shot Learning

Yaze Zhao et al.

cs.CV cs.AI

本文研究了跨域小样本学习（CDFSL）中CLIP模型的微调方法，发现adapter-based方法（如LoRA）优于prompt-based方法，并提出Semantic Probe框架来修正视觉CLS token的attention collapse问题，从而提升模态对齐和类别分离。该方法在四个CDFSL基准上取得了最优性能。

Cochise: A Reference Harness for Autonomous Penetration Testing

Andreas Happe, Jürgen Cito

cs.CR cs.AI cs.SE

本文提出了Cochise，一个用于自主渗透测试实验的轻量级Python参考框架，采用分离的Planner-Executor架构，通过SSH连接LLM驱动的agent与Linux执行主机，并支持在第三方测试平台GOAD上进行评估。该工作主要作为可复用的实验基础设施，而非最先进的渗透测试agent。

Emergent Communication between Heterogeneous Visual Agents through Decentralized Learning

Mikako Ochiai, Masatoshi Nagano, Tadahiro Taniguchi

cs.CV cs.AI

本文研究了异构视觉agent通过去中心化学习进行涌现通信的问题，提出Metropolis-Hastings Captioning Game (MHCG)方法，其中agent仅通过离散token序列交换信息，并基于局部感知证据更新模型。实验表明，该方法能产生视觉信息丰富的共享token序列，但视觉编码器的不匹配会降低通信质量。

WildRelight: A Real-World Benchmark and Physics-Guided Adaptation for Single-Image Relighting

Lezhong Wang et al.

cs.CV cs.AI cs.GR

本文提出了WildRelight，首个用于评估单图像重光照的真实世界数据集，包含高分辨率户外场景和严格对齐的环境光照。通过该数据集，作者揭示了现有模型在真实场景中的域偏移问题，并引入了一种基于物理引导的推理框架，利用扩散后验采样和测试时自适应来缓解这一问题。

Self-organized MT Direction Maps Emerge from Spatiotemporal Contrastive Optimization

Zhaotian Gu et al.

q-bio.NC cs.AI cs.NE

本文通过训练一个3D ResNet模型，结合Momentum Contrast自监督学习和空间正则化，在自然视频上自发产生了类似大脑MT区的方向选择图和拓扑pinwheel结构，揭示了任务驱动与空间约束之间的优化权衡是形成这些功能组织的关键。

A Research Agenda on Agents and Software Engineering: Outcomes from the Rio A2SE Seminar

Davide Taibi et al.

cs.SE cs.AI cs.MA

本文通过组织A2SE研讨会，汇集18位专家识别出六个主题领域（治理、面向Agent的软件工程、Agent用于软件架构、质量与评估、可持续性、代码），并提出了一个社区驱动的Agent与软件工程交叉领域的研究议程。该议程为协调该领域的研究工作提供了结构化基础。

EPIC: Efficient Predicate-Guided Inference-Time Control for Compositional Text-to-Image Generation

Sunung Mun, Sunghyun Cho, Jungseul Ok

cs.CV cs.LG

本文提出EPIC框架，通过将文本到图像生成中的组合提示解析为固定视觉程序（包含object variables和typed predicates），并基于predicate-guided search进行推理时优化。该方法无需训练，通过验证图像是否满足所有predicates来决定局部编辑或全局重采样，在GenEval2上提升了准确率。

CaC: Advancing Video Reward Models via Hierarchical Spatiotemporal Concentrating

Jiyuan Wang et al.

cs.CV cs.AI

本文提出CaC，一种基于Vision-Language Models的粗到细异常reward模型，通过全局时间扫描和局部空间定位进行spatiotemporal推理，并构建了带细粒度标注的视频异常数据集。实验表明该方法在细粒度异常基准上提升了25.7%的准确率，并改善了生成视频质量。

WorldComp2D: Spatio-semantic Representations of Object Identity and Location from Local Views

SeongMin Jin, Doo Seok Jeong

cs.CV cs.LG

本文提出WorldComp2D框架，通过显式结构化latent space的几何结构来编码object identity和spatial proximity，并在面部landmark localization任务上验证了其轻量高效性。该方法主要关注spatio-semantic representation的效率，与关键词中的spectral、attention等概念关联较弱。

DreamAvoid: Critical-Phase Test-Time Dreaming to Avoid Failures in VLA Policies

Xianzhe Fan et al.

cs.RO cs.AI cs.CL cs.CV

本文提出DreamAvoid框架，通过在测试时对VLA模型的关键阶段进行“梦境”推演（即模拟候选动作的短期未来结果），并引入自主边界学习范式来区分成功与失败的细微边界，从而提升任务成功率。该方法主要涉及动作采样与评估，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Focusable Monocular Depth Estimation

Yuxin Du et al.

cs.CV cs.AI

本文提出了Focusable Monocular Depth Estimation (FDE)任务，并设计了FocusDepth框架，通过Multi-Scale Spatial-Aligned Fusion (MSSA)模块将Segment Anything Model 3的多尺度特征注入Depth Anything系列模型，实现基于box/text提示的区域感知深度估计。该方法在FDE-Bench基准上提升了目标区域深度精度，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

A nonlinear extension of parametric model embedding for dimensionality reduction in parametric shape design

Andrea Serani, Giorgio Palma, Matteo Diez

cs.CE cs.LG math.NA

本文提出了一种参数化模型嵌入的非线性扩展方法NLPME，用于高维参数化形状设计中的降维。该方法通过非线性潜在表示替代线性子空间，并保留了几何驱动的潜在变量和参数介导的重建机制。实验表明，NLPME在达到相同重建误差阈值时所需的潜在变量数量少于线性PME，且与深度自编码器相比能保留显式的反向映射。

Behavioral Integrity Verification for AI Agent Skills

Yuhao Wu, Tung-Ling Li, Hongliang Liu

cs.CR cs.AI eess.SY

本文形式化了AI Agent技能的behavioral integrity verification (BIV)问题，通过结合确定性代码分析与LLM辅助的能力提取，对技能声明与实际行为进行类型化集合比较。在OpenClaw注册表上的大规模实验揭示了80%的技能存在描述-实现偏差，并提出了新的复合威胁分类。

Crash Assessment via Mesh-Based Graph Neural Networks and Physics-Aware Attention

Gabriel Curtosi et al.

cs.CE cs.AI cs.LG

本文使用MeshTransolver等混合代理模型预测车辆碰撞中的结构变形场，结合了局部mesh message passing和geometry-aware global attention。实验表明混合模型在精度和物理可解释性上优于纯attention基线，但方法本身并非开创性突破。

OTT-Vid: Optimal Transport Temporal Token Compression for Video Large Language Models

Minseok Kang et al.

cs.CV cs.AI

本文提出OTT-Vid，一种基于optimal transport的帧间token压缩框架，通过空间剪枝和最优传输分配压缩预算，在保留10% token的情况下保持95.8%的VQA性能。该方法主要针对视频大语言模型的推理效率优化，与关键词中的attention或context无直接关联。

REFNet++: Multi-Task Efficient Fusion of Camera and Radar Sensor Data in Bird's-Eye Polar View

Kavin Chandrasekaran et al.

cs.CV cs.AI

本文提出了一种名为REFNet++的多任务融合框架，通过将相机和雷达数据对齐到统一的Bird's-Eye View极坐标域中，实现了高效的传感器融合。该方法使用变分编码器-解码器结构处理前视相机图像和雷达的原始Range-Doppler频谱，并评估了其在车辆检测和自由空间分割任务上的性能。

Multi-Timescale Conductance Spiking Networks: A Sparse, Gradient-Trainable Framework with Rich Firing Dynamics for Enhanced Temporal Processing

Alex Fulleda-Garcia, Saray Soldado-Magraner, Josep Maria Margarit-Taulé

cs.NE cs.AI cs.LG

本文提出了一种多时间尺度电导脉冲网络框架，通过调节快、慢和超慢电导来塑造神经元的电流-电压曲线，从而在单一模型中实现丰富的放电动态（如强直、相位和爆发响应）。该框架支持直接的时间反向传播训练，无需代理梯度近似，并在Mackey-Glass时间序列回归任务中优于LIF和AdLIF网络，同时实现了更高的活动稀疏性。

Trade-offs in Decentralized Agentic AI Discovery Across the Compute Continuum

Patrizio Dazzi et al.

cs.DC cs.AI

本文研究了在计算连续体（compute continuum）中部署的agentic系统所需的去中心化发现机制，比较了Chord、Pastry和Kademlia三种结构化overlay在agent发现中的性能权衡，包括发现可靠性、启动行为和控制平面开销。实验基于4096节点静态和churn基准测试，旨在阐明这些overlay在边缘到云环境中为agent发现提供的操作点。

A Fast and Energy-Efficient Latch-Based Memristive Analog Content-Addressable Memory

Paul-Philipp Manea et al.

cs.ET cs.LG

本文提出了一种基于锁存器的忆阻模拟内容寻址存储器（SALM aCAM）单元，通过动态电流竞争比较器替代静态电压分配，降低了33%的读取能耗并消除了增益和串扰限制，为边缘AI中的联想计算提供了能效优化方案。

UniVLR: Unifying Text and Vision in Visual Latent Reasoning for Multimodal LLMs

Houcheng Jiang et al.

cs.CV cs.CL

本文提出UniVLR框架，将文本推理与视觉证据统一为共享的视觉工作空间，通过压缩为视觉latent tokens实现推理，避免显式文本chain-of-thought。实验表明该方法在视觉推理任务上效率更高，但与我提供的关键词列表关联较弱。

EvoNav: Evolutionary Reward Function Design for Robot Navigation with Large Language Models

Zhikai Zhao et al.

cs.RO cs.AI

本文提出EvoNav框架，利用大型语言模型自动设计机器人导航的reward function，并通过渐进式三阶段评估策略降低策略训练成本。实验表明该方法优于手工设计的RL reward和现有方法。

Variance-aware Reward Modeling with Anchor Guidance

Shuxing Fang et al.

stat.ML cs.LG

本文提出了一种Anchor-guided Variance-aware Reward Modeling框架，通过引入两个粗粒度的response-level anchor标签来解决Gaussian reward model在仅使用pairwise偏好数据时的非可识别性问题。该方法证明了两个anchor足以实现识别，并建立了联合训练目标及reward均值和方差函数的非渐近收敛率。

IPI-proxy: An Intercepting Proxy for Red-Teaming Web-Browsing AI Agents Against Indirect Prompt Injection

Chia-Pei et al.

cs.CR cs.AI

本文提出了IPI-proxy，一个用于对Web浏览AI agent进行间接prompt注入（IPI）红队测试的开源工具包。它通过拦截代理实时重写白名单域名的HTTP响应，嵌入来自多个基准测试的攻击字符串，并支持参数化配置以评估agent的脆弱性。

FIS-DiT: Breaking the Few-Step Video Inference Barrier via Training-Free Frame Interleaved Sparsity

Jian Tang et al.

cs.CV cs.LG

本文提出FIS-DiT，一种无需训练的框架，通过帧交错稀疏性（Frame Interleaved Sparsity）策略来加速视频扩散Transformer的推理。该方法利用帧维度上的稀疏性和结构一致性，在不进行全尺度块计算的情况下刷新所有潜在位置，在Wan 2.2和HunyuanVideo 1.5上实现了2.11-2.41倍的加速，且性能损失极小。

Modulation Consistency-based Contrastive Learning for Self-Supervised Automatic Modulation Classification

Chenxu Wang et al.

eess.SP cs.AI

本文提出了一种基于调制一致性的对比学习框架Mod-CL，用于自监督自动调制分类。该方法利用同一信号不同时间片段共享调制类型这一先验，构建正样本对以学习调制相关信息，并在RadioML数据集上验证了有效性。

AccLock: Unlocking Identity with Heartbeat Using In-Ear Accelerometers

Lei Wang et al.

cs.CR cs.AI

本文提出了一种基于入耳式加速度计的被动身份认证系统AccLock，通过提取耳内BCG信号的特征实现用户验证。该系统采用两阶段去噪方案和基于解耦的深度学习模型HIDNet，并利用Siamese网络构建可扩展的认证框架。

Beyond Point-wise Neural Collapse: A Topology-Aware Hierarchical Classifier for Class-Incremental Learning

Huiyu Yi et al.

cs.CV cs.AI

本文针对Class-Incremental Learning (CIL)中特征未完全坍缩为单点的问题，提出了一种基于拓扑感知的层次化分类器HC-SOINN，并引入STAR方法以主动适应非线性特征漂移。实验表明，该方法替换原有分类器后能在多个SOTA方法上取得一致提升。

Multimodal Abstractive Summarization of Instructional Videos with Vision-Language Models

Maham Nazir et al.

cs.CV cs.CL

本文提出ClipSum框架，利用冻结的CLIP视觉-语言特征进行教学视频的多模态摘要生成。实验表明，语义对齐比特征容量更重要，且冻结的CLIP优于微调版本。

Assessment of cloud and associated radiation fields from a GAN stochastic cloud subcolumn generator

Dongmin Lee et al.

physics.ao-ph cs.LG

本文使用CVAE-GAN和U-Net架构构建了一个随机云子柱生成器，用于改进地球系统模型中云和辐射场的表示。该方法在再现双峰云重叠分布和减少辐射计算偏差方面优于传统方法。

Cooperative Robotics Reinforced by Collective Perception for Traffic Moderation

Mohammad Khoshkdahan et al.

cs.RO cs.AI cs.ET eess.SY

本文提出了一种结合集体感知(Collective Perception)与类人机器人(Humanoid Robot)的协作系统，用于在非视距(NLOS)交叉口通过物理手势阻止车辆进行危险并道。该系统融合了视觉与V2X通信，但主要贡献在于工程实现与实验验证，而非理论或算法上的开创性。

High-lift Wing Separation Control via Bayesian Optimization and Deep Reinforcement Learning

Ricard Montalà et al.

physics.flu-dyn cs.AI

本文使用Bayesian Optimization和Deep Reinforcement Learning对高升力机翼的主动流动控制进行了研究，发现开环BO方法通过合成射流实现了效率提升，而DRL方法因奖励设计问题效果有限。该工作主要关注工程应用而非理论创新，与关键词契合度较低。

A Transfer Learning Evaluation of Deep Neural Networks for Image Classification

Nermeen Abou Baker, Nico Zengeler, Uwe Handmann

cs.CV cs.AI

本文评估了11种在ImageNet上预训练的深度神经网络模型，通过迁移学习应用于5个不同目标域数据集，并比较了准确率、训练时间和模型大小等指标。研究为图像分类任务中选择预训练模型提供了参考。

The Illusion of Power Capping in LLM Decode: A Phase-Aware Energy Characterisation Across Attention Architectures

Bole Ma et al.

cs.DC cs.AI cs.LG cs.PF

本文研究了LLM解码阶段中功率上限（power capping）的无效性，指出在NVIDIA H200上，由于内存受限的解码过程仅消耗137-300W，功率上限从未被触发。文章通过时钟锁定（clock locking）替代功率上限，在多种attention架构（如GQA、MLA等）上实现了高达32%的解码能耗节省，并揭示了不同架构的DVFS行为模式。

CR^2: Cost-Aware Risk-Controlled Routing for Wireless Device-Edge LLM Inference

Nan Xue et al.

cs.IT cs.AI

本文针对无线设备-边缘LLM推理场景，提出了一种成本感知的风险控制路由框架CR^2，通过解耦设备端轻量级门控与边缘端效用选择器，并引入共形风险控制校准来显式控制误接受风险。实验表明该方法在匹配精度下可降低高达16.9%的归一化部署成本。

L2P: Unlocking Latent Potential for Pixel Generation

Zhennan Chen et al.

cs.CV cs.AI

本文提出Latent-to-Pixel (L2P)迁移范式，通过冻结预训练Latent Diffusion Model (LDM)的中间层并仅训练浅层网络，将潜在空间先验高效迁移至像素空间，避免了从头训练像素级模型的高昂成本。该方法使用LDM生成的合成图像作为训练数据，无需真实数据即可实现快速收敛，并支持原生4K超高清分辨率生成。

SkillSafetyBench: Evaluating Agent Safety under Skill-Facing Attack Surfaces

Chang Jin et al.

cs.CR cs.AI cs.CL cs.LG cs.MA

本文提出了SkillSafetyBench基准，用于评估大语言模型agent在可复用技能（skill）接口下的安全性，发现即使请求无害，技能材料也可能诱导不安全行为。该工作聚焦于agent安全评估，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Spectral Vision Transformer for Efficient Tokenization with Limited Data

Alexandra G. Roberts et al.

cs.CV cs.AI eess.SP

本文提出了一种Spectral Vision Transformer架构，通过在频域进行tokenization来提升在有限数据（特别是医学影像）上的效率。该工作展示了谱投影相比空间域Vision Transformer具有更低的复杂度，并在参数更少的情况下达到了与多种模型相当或更优的性能。

Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation

Che Liu et al.

cs.MM cs.AI cs.CV

本文研究了全模态语言模型在视觉偏差下的评估问题，提出了OmniClean数据集以过滤视觉可解查询，并设计了OmniBoost三阶段后训练方法（混合双模态SFT、混合模态RLVR、自蒸馏数据SFT），在3B参数模型上达到了接近30B模型的性能。

Rethink the Role of Neural Decoders in Quantum Error Correction

Ge Yan, Shanchuan Li, Yuxuan Du

quant-ph cs.AI cs.LG

本文重新审视了量子纠错中神经解码器的角色，通过统一和重新设计五种架构范式，并开发端到端压缩流程，在FPGA上评估了表面码解码的准确性与延迟权衡。研究发现，近期解码性能更多由数据规模而非架构复杂度驱动，且INT4量化是实现微秒级延迟的关键。

Anomaly-Aware Vision-Language Adapters for Zero-Shot Anomaly Detection

Muhammad Aqeel et al.

cs.CV cs.AI cs.LG

本文提出AVA-DINO框架，利用视觉-语言适配器处理零样本异常检测中的正常与异常样本不对称分布问题，通过双分支结构和文本引导路由机制实现特征变换，在多个基准上取得较好性能。

Clausal Deletion Backdoors for QBF: a Parameterized Complexity Approach

Leif Eriksson et al.

cs.CC cs.AI

本文提出了一种新的参数化方法，通过移除子句中的变量（clause covering backdoor）来简化QBF求解，并分析了Horn、2-CNF和线性方程三类基类的固定参数可追踪性（FPT），其中Horn类被证明是W[1]-困难的。

The Deepfakes We Missed: We Built Detectors for a Threat That Didn't Arrive

Shaina Raza

cs.CR cs.AI

本文指出，过去近十年的deepfake检测研究基于2017-2019年的威胁模型（主要针对公众人物的换脸和说话头操纵），但实际在2022-2026年间，主要危害来自非自愿亲密图像、语音克隆诈骗和情感操纵欺诈，而非大规模公众人物deepfake灾难。文章认为研究重点与实际威胁的错位是当前deepfake防御的主要瓶颈，并建议重新平衡研究议程。

The Missing GAP: From Solving Square Jigsaw Puzzles to Handling Real World Archaeological Fragments

Ofir Itzhak Shahar, Gur Elkin, Ohad Ben-Shahar

cs.CV cs.AI

本文提出了GAP数据集（包含非规则形状的拼图碎片）和PuzzleFlow框架（基于ViT和Flow-Matching），用于解决不规则形状拼图的重组问题，并在该数据集上展示了优于现有方法的表现。

Property-Level Reconstructability of Agent Decisions: An Anchor-Level Pilot Across Vendor SDK Adapter Regimes

Oleg Solozobov

cs.SE cs.AI

本文研究了不同vendor SDK适配器机制下，agent决策在属性级别上的可重构性，通过Decision Trace Reconstructor工具对多个公开锚点案例进行分析，发现不同机制下的重构能力存在显著差异。

Learning What Matters: Adaptive Information-Theoretic Objectives for Robot Exploration

Youwei Yu et al.

cs.RO cs.AI cs.IT cs.LG eess.SY

本文提出了一种名为Quasi-Optimal Experimental Design (QOED)的自适应信息论目标，用于机器人探索。该方法通过对Fisher information matrix进行eigenspace分析来识别可观测的参数子空间，并修改探索目标以强调这些方向，同时抑制非关键参数的干扰效应。实验表明，该方法在导航和操作任务中提升了性能，但与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

World Action Models: The Next Frontier in Embodied AI

Siyin Wang et al.

cs.RO cs.CL cs.CV

本文综述了World Action Models (WAMs)这一新兴范式，它统一了predictive state modeling与action generation，并基于VLA模型和world model的早期工作，将现有方法分类为Cascaded和Joint WAMs。文章系统分析了数据生态和评估协议，为该领域提供了首个系统性概述。

Keeping Score: Efficiency Improvements in Neural Likelihood Surrogate Training via Score-Augmented Loss Functions

Alexander Shen, Mikael Kuusela

stat.ML cs.LG

本文提出在基于概率分类训练的神经网络似然代理中，通过添加精确的score信息$\nabla_\theta \log p(x \mid \theta)$和基于损失梯度的自适应加权来增强标准二元交叉熵损失，从而在降低计算成本的同时提升代理质量。该方法在网络动力学和空间过程案例中验证了有效性。

It's Not the Size: Harness Design Determines Operational Stability in Small Language Models

Yong-eun Cho

cs.SE cs.AI cs.OS

本文实验分析了不同harness设计（从仅模型到4阶段pipeline）对小型语言模型（SLMs）操作稳定性的影响，发现pipeline harness显著提升了任务成功率，并观察到“scaffold collapse”现象。该工作主要关注工程层面的系统设计，与关键词中的agent概念有一定关联，但方法本身缺乏开创性。

MULTI: Disentangling Camera Lens, Sensor, View, and Domain for Novel Image Generation

Sonali Godavarthy et al.

cs.CV cs.LG

本文提出了一种名为MULTI的方法，通过两阶段Textual Inversion来解耦成像因素（如镜头、传感器、视角和域），以解决现有文本到图像模型在控制成像因素方面的局限性。该方法在DF-RICO基准上展示了有效性，但主要贡献在于图像生成领域，与关键词中的核心概念关联较弱。

STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts

Joshua Opria

cs.SD cs.LG eess.AS

本文提出STRUM，一个将原始音频转换为可玩节奏游戏谱面的多阶段混合管道，结合了CRNN onset检测、单音pitch追踪、ASR和频谱键盘检测等方法，在30首歌曲的基准测试上取得了中等性能。

Design Your Ad: Personalized Advertising Image and Text Generation with Unified Autoregressive Models

Yexing Xu et al.

cs.CV cs.CL cs.IR

本文提出Uni-AdGen模型，利用统一的autoregressive框架联合生成个性化的广告图像和文本，通过引入前景感知模块和指令调优提升内容真实性，并设计了粗到细的偏好理解模块从用户历史点击行为中捕捉兴趣以驱动个性化生成。该方法构建了大规模数据集PAd1M并引入PBS指标，实验表明其在广告生成任务上优于基线方法。

PrivacySIM: Evaluating LLM Simulation of User Privacy Behavior

James Flemings, Murali Annavaram

cs.CR cs.LG

本文提出了PrivacySIM评估套件，用于测试LLM模拟用户隐私行为的能力，通过对比9个前沿LLM在三种persona属性（人口统计、先前经验、隐私态度）条件下的模拟结果与1000名用户的真实决策。实验发现隐私persona条件化能提升模拟质量，但最佳模型准确率仅40.4%，且高AI经验但低隐私态度的用户最难模拟。

CIDR: A Large-Scale Industrial Source Code Dataset for Software Engineering Research

Vladislav Savenkov

cs.SE cs.AI

本文介绍了CIDR，一个通过与12家工业伙伴合作收集的大型工业源代码数据集，包含2440个仓库和3.73亿行代码，旨在支持代码智能、软件质量分析等研究。该数据集主要贡献在于提供了专有生产代码库，但方法上未涉及关键词中的spectral、Muon或attention等概念。

Premover: Fast Vision-Language-Action Control by Acting Before Instructions Are Complete

Joonha Park, Jiseung Jeong, Taesik Gong

cs.RO cs.AI

本文提出Premover模块，通过在VLA策略的中间层附加两个投影头（分别处理图像patch和语言token）并利用模拟器渲染的目标分割掩码进行监督，使机器人能在用户指令输入完成前开始行动。在LIBERO基准上，该方法将平均耗时从34.0秒降至29.4秒，同时保持与完整提示基线相当的成功率。

Machine Learning for neutron source distributions

Jose Ignacio Robledo et al.

physics.ins-det cs.LG physics.comp-ph

本文利用多种probabilistic generative models（如variational autoencoder, normalizing flow, generative adversarial network, denoising diffusion model）对中子源分布进行估计，基于Monte Carlo粒子列表进行训练，训练后模型可独立于原始列表高效采样。

A Deep Learning-based Receiver for Asynchronous Grant-Free Random Access in Control-to-Control Networks

Massimo Battaglioni et al.

cs.IT cs.AI

本文研究异步grant-free随机接入场景下的控制到控制(C2C)通信，提出一种基于卷积神经网络(CNN)的接收机架构，用于检测可变长度LDPC编码命令单元的起始/结束序列，并结合LDPC解码软信息和连续干扰消除(SIC)提升性能。仿真表明该方法在非协调高流量条件下能实现可靠的分组边界识别和低丢包率。

Information-Theoretic Generalization Bounds for Sequential Decision Making

Futoshi Futami, Masahiro Fujisawa

stat.ML cs.LG

本文提出了一个sequential supersample框架，将信息论泛化界扩展到序列决策问题（如online learning和bandits），通过sequential CMI控制泛化差距。该方法在行可交换性假设下建立了selector-loss信息项的和式界，并给出了Bernstein型改进。

Probing Non-Equilibrium Grain Boundary Dynamics with XPCS and Domain-Adaptive Machine Learning

Mouyang Cheng et al.

cond-mat.mtrl-sci cs.LG

本文利用X射线光子相关光谱（XPCS）结合域自适应机器学习，定量探测了纳米晶硅中晶界（GB）的非平衡动力学，并开发了一种半监督学习框架从高维噪声数据中提取关键动力学参数。

Uncertainty Quantification for LLM-based Code Generation

Senrong Xu et al.

cs.SE cs.AI

本文提出RisCoSet方法，利用multiple hypothesis testing为基于LLM的code generation构建risk-controlling prediction sets，以解决现有方法对候选程序空间的限制问题。实验表明该方法在保证风险水平的同时能显著减少代码移除量。

Self-Supervised Laplace Approximation for Bayesian Uncertainty Quantification

Julian Rodemann et al.

stat.ML cs.AI cs.LG stat.CO

本文提出了一种自监督拉普拉斯近似方法(SSLA)，通过重新拟合自预测数据来直接近似后验预测分布，从而避免计算参数后验。该方法在回归模型中表现出比经典拉普拉斯近似更好的预测校准性，但与我提供的关键词列表关联度较低。

Heterogeneous SoC Integrating an Open-Source Recurrent SNN Accelerator for Neuromorphic Edge Computing on FPGA

Michelangelo Barocci et al.

cs.AR cs.AI

本文提出了一种基于FPGA的异构SoC，集成了开源递归SNN加速器ReckOn，用于神经形态边缘计算。通过与传统处理器（如RISC-V和ARM）集成，验证了分类精度和在线学习能力。

TriBand-BEV: Real-Time LiDAR-Only 3D Pedestrian Detection via Height-Aware BEV and High-Resolution Feature Fusion

Mohammad Khoshkdahan, Alexey Vinel

cs.CV cs.AI cs.LG cs.RO

本文提出了一种名为TriBand-BEV的实时LiDAR-only 3D行人检测方法，通过将3D点云映射为具有三个高度带的轻量级2D BEV张量，将3D检测问题转化为2D检测问题。该方法在KITTI数据集上实现了较高的检测精度和49 FPS的实时性能，但方法本身在BEV编码和特征融合上属于工程性改进，缺乏显著的开创性或与关键词的深度契合。

Optimal Policy Learning under Budget and Coverage Constraints

Giovanni Cerulli

stat.ML cs.LG

本文研究了在预算和最小覆盖率约束下的最优策略学习问题，证明了该问题具有背包结构，最优策略可由一个涉及预算和覆盖率影子价格的仿射阈值规则刻画。文章提出了两种可实现的算法（Greedy-Lagrangian和rank-and-cut），并通过蒙特卡洛模拟验证了其性能。

TMRL: Diffusion Timestep-Modulated Pretraining Enables Exploration for Efficient Policy Finetuning

Matthew M. Hong et al.

cs.RO cs.AI cs.LG

本文提出了一种名为TMRL的统一框架，通过结合行为克隆预训练和强化学习微调，利用扩散时间步调制来控制探索程度，从而提升机器人策略微调的样本效率。该方法在复杂操作任务上实现了不到一小时的现实世界微调。

Pretraining Strategies and Scaling for ECG Foundation Models: A Systematic Study

M A Al-Masud, Nils Strodthoff

eess.SP cs.AI cs.LG

本文系统评估了心电图(ECG)基础模型的pretraining策略与scaling行为，对比了五种自监督学习目标，发现contrastive predictive coding和structured state space model在迁移学习中表现最优，且pretraining数据规模增大至11M样本仍能带来性能提升。

Reconnecting Fragmented Citation Networks with Semantic Augmentation

Vu Thi Huong et al.

cs.DL cs.AI

本文提出了一种结合citation topology和LLM-based text similarity的混合框架，通过添加语义边和加权现有引用来修复碎片化的citation graph。该方法能有效减少碎片化并保持学科同质性，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Reconstruction of Personally Identifiable Information from Supervised Finetuned Models

Sae Furukawa, Alina Oprea

cs.CR cs.CL cs.LG

本文首次研究了从Supervised Finetuned (SFT) 模型中重建Personally Identifiable Information (PII) 的问题，构建了包含敏感数据的多轮问答数据集，并提出了一种名为COVA的解码算法以在prefix-based攻击下重建PII。实验表明，即使攻击者拥有部分知识也能显著提升重建成功率，且不同PII类型的泄露程度存在差异。

Iterative Audit Convergence in LLM-Managed Multi-Agent Systems: A Case Study in Prompt Engineering Quality Assurance

Elias Calboreanu

cs.SE cs.AI

本文通过一个单系统实证案例研究，探讨了在多智能体LLM系统中由agent驱动的迭代审计收敛过程，报告了在AEGIS系统中通过九轮审计发现的51个prompt规范一致性缺陷，并提出了一个后验缺陷分类法。该工作主要关注prompt engineering的质量保证，与关键词中的agent有一定关联，但方法本身缺乏开创性且未解决长期问题。

Set-Aggregated Genome Embeddings for Microbiome Abundance Prediction

Younhun Kim, Georg K. Gerber, Travis E. Gibson

q-bio.GN cs.AI

本文使用set-aggregated genome embeddings (SAGE)方法，结合genomic language models (GLMs)的few-shot学习能力，预测微生物群落的丰度分布。该方法在泛化到新基因组方面优于传统生物信息学方法，并展示了潜在表示间中间变换的优势。

From Model Uncertainty to Human Attention: Localization-Aware Visual Cues for Scalable Annotation Review

Moussa Kassem Sbeyti et al.

cs.HC cs.CV cs.LG

本文研究了在AI辅助标注中，通过可视化空间不确定性（spatial uncertainty）来引导人工审核员注意力的方法，实验表明该方法能提升标注质量并减少时间。该工作主要关注人机交互与标注流程优化，与关键词中的核心数学概念关联较弱。

Online Learning-to-Defer with Varying Experts

Dang Hoang Duy et al.

stat.ML cs.LG

本文提出了首个在线Learning-to-Defer算法，用于处理流式数据、动态变化的专家池和bandit反馈的多分类问题，并给出了$O((n+n_e)T^{2/3})$和$O((n+n_e)\sqrt{T})$的regret界。该方法通过在线凸优化和$\mathcal{H}$-consistency界分析，将L2D扩展到了专家可用性和可靠性变化的场景。

Multi-Variable Conformal Prediction: Optimizing Prediction Sets without Data Splitting

Laura Lützow et al.

stat.ML cs.LG

本文提出多变量共形预测(MCP)框架，将共形预测扩展到向量值score function和多校准变量，通过scenario theory统一预测集设计与校准，避免数据分割。

A Family of Quaternion-Valued Differential Evolution Algorithms for Numerical Function Optimization

Gerardo Altamirano-Gomez, Álvaro Gallardo, Carlos Ignacio Hernández Castellanos

cs.NE cs.AI

本文提出了一族四元数差分进化算法，利用四元数的代数与几何性质设计变异策略，在BBOB基准测试中相比传统实数DE算法实现了更快的收敛和更优的性能。

Attacks and Mitigations for Distributed Governance of Agentic AI under Byzantine Adversaries

Matthew D. Laws, Alina Oprea, Cristina Nita-Rotaru

cs.CR cs.LG cs.MA

本文分析了在Byzantine adversary模型下，针对Agentic AI分布式治理系统的攻击，并提出了SAGA-BFT、SAGA-MON、SAGA-AUD和SAGA-HYB等不同安全与性能权衡的缓解方案。这些方案旨在解决中心化Provider被攻陷后的安全风险，但并未涉及code、context、spectral、Muon、pretrain或attention等关键词。

Fill the GAP: A Granular Alignment Paradigm for Visual Reasoning in Multimodal Large Language Models

Yanting Miao et al.

cs.CV cs.AI cs.LG

本文分析了多模态大语言模型中视觉潜在推理的不稳定性，归因于特征空间不匹配，并提出GAP范式，通过特征级、上下文级和能力引导的对齐来改进视觉潜在建模。该方法在Qwen2.5-VL 7B上取得了较好的感知与推理性能。

A Semi-Supervised Framework for Speech Confidence Detection using Whisper

Adam Wynn, Jingyun Wang

cs.SD cs.LG

本文提出了一种半监督混合框架，利用Whisper编码器的深度语义嵌入与eGeMAPS声学特征结合，通过不确定性感知伪标签策略提升语音置信度检测性能。实验表明该方法在Macro-F1指标上优于WavLM等自监督基线，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等核心概念。

Events as Triggers for Behavioral Diversity in Multi-Agent Reinforcement Learning

Hannes Büchi et al.

cs.MA cs.LG

本文提出了一种基于事件的多智能体强化学习框架，通过Neural Manifold Diversity (NMD)度量解耦agent身份与行为，并利用事件驱动的hypernetwork生成LoRA模块实现策略重配置。该方法在需要顺序行为分配的任务中优于基线，但未涉及code、spectral或Muon等关键词。

SEMIR: Semantic Minor-Induced Representation Learning on Graphs for Visual Segmentation

Luke James Miller, Yugyung Lee

cs.CV cs.AI cs.LG

本文提出SEMIR框架，通过将图像网格转化为拓扑保持的latent graph minor（图子式）来实现视觉分割，并利用graph neural network (GNN)进行区域级推理。该方法在多个肿瘤分割数据集上提升了小目标结构的Dice系数，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Trajectory-Agnostic Asteroid Detection in TESS with Deep Learning

Brian P. Powell et al.

astro-ph.EP astro-ph.SR cs.LG

本文提出了一种基于深度学习的W-Net方法，用于从TESS数据中提取移动天体（如小行星），通过旋转数据增强使方法对小行星速度和方向不敏感，并开发了自适应归一化技术。该方法不局限于TESS，可应用于其他时域巡天数据。

Model-based Bootstrap of Controlled Markov Chains

Ziwei Su, Imon Banerjee, Diego Klabjan

stat.ML cs.LG math.OC math.ST

本文针对有限受控Markov链提出了一种基于模型的bootstrap方法，用于估计转移核的不确定性，并在离线强化学习场景下证明了该bootstrap估计量的分布一致性。通过delta方法和Bellman算子的Hadamard可微性，该方法进一步为offline policy evaluation和optimal policy recovery提供了渐近有效的置信区间。

Simulation of Non-Hermitian Hamiltonians with Bivariate Quantum Signal Processing

Joshua M. Courtney

quant-ph cs.CC cs.DS

本文使用双变量量子信号处理（QSP）的非交换信号算子扩展，实现了对非Hermitian Hamiltonian $H_{\mathrm{eff}} = H_R + iH_I$ 的查询最优量子模拟，其中 $H_R$ 是Hermitian的且 $H_I \succeq 0$。该算法通过结构化多变量QSP电路编码相互作用绘图的Dyson级数，并给出了经典预计算步骤中角度的确定性求解方法。

Enabling AI-Native Mobility in 6G: A Real-World Dataset for Handover, Beam Management, and Timing Advance

Mannam Veera Narayana et al.

eess.SP cs.AI cs.DB cs.LG cs.NI

本文提供了一个从真实商用5G网络中收集的数据集，涵盖多种移动模式下的handover、beam management和timing advance测量，旨在支持AI/ML驱动的移动性管理研究。该数据集包含了现有工作中通常缺失的RACH trigger等信令事件的TA测量。

TextSeal: A Localized LLM Watermark for Provenance & Distillation Protection

Tom Sander et al.

cs.CR cs.CL cs.LG

TextSeal提出了一种基于Gumbel-max采样的LLM水印方案，通过双密钥生成和熵加权评分等技术提升检测能力，并支持推理优化。该方法在检测强度上优于现有基线，且对蒸馏过程具有“放射性”信号传递特性，但未涉及code、spectral或agent等关键词。

A proximal gradient algorithm for composite log-concave sampling

Linghai Liu, Sinho Chewi

math.ST cs.DS cs.LG stat.ML

本文提出了一种用于复合log-concave分布采样的近端梯度算法，该算法假设可以访问$f$的梯度以及$g$的受限高斯oracle。在强凸和光滑条件下，该算法达到了与$g=0$时最先进方法匹配的迭代复杂度，并进一步扩展到了非log-concave和非光滑的情形。

OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation

Guohui Zhang et al.

cs.CV cs.AI

本文提出OmniNFT框架，通过modality-wise advantage routing、layer-wise gradient surgery和region-wise loss reweighting三种创新，解决了reinforcement learning在多模态音视频联合生成中的多目标优势不一致、梯度不平衡和信用分配问题。实验表明该方法在音视频感知质量、跨模态对齐和同步方面均有提升。

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

Runhui Huang et al.

cs.CV cs.AI cs.LG

本文提出AlphaGRPO框架，将Group Relative Policy Optimization (GRPO)应用于AR-Diffusion Unified Multimodal Models (UMMs)，通过Decompositional Verifiable Reward (DVReward)将复杂请求分解为可验证的子问题，从而提升多模态生成能力。实验表明该方法在多个基准上取得改进，但未涉及code、spectral、Muon等关键词。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others