bluearXiv-ai - 2026-05-11

📄 所有论文 ↑ 回顶部

cs.LG

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory ⭐ 精选

Fei Zuo et al.

cs.LG cs.CL cs.IT

本文针对大语言模型KV cache量化中混合精度分配的问题，提出了一种基于率失真理论(Rate-Distortion Theory)的最优方法RateQuant。作者发现不同量化器具有不同的失真曲线$D(b)=\alpha \cdot \beta^{-b}$，且衰减率$\beta$差异显著，直接套用其他量化器的失真模型会导致分配顺序颠倒，性能甚至劣于均匀量化，这一现象被称为失真模型失配(Distortion Model Mismatch)。RateQuant通过小规模校准集为每个量化器拟合其专属失真模型，并利用率失真理论中的反向注水(Reverse Waterfilling)方法以闭式解形式求解最优比特分配问题。实验表明，在Qwen3-8B模型上平均2.5比特时，RateQuant将KIVI的困惑度从49.3降至14.9（降低70%），并提升QuaRot 6.6个PPL，且校准过程仅需1.6秒，推理时零开销。

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models ⭐ 精选

Benjamin L. Badger, Ethan Roland

cs.LG cs.AI cs.CL

本文提出Toeplitz MLP Mixer (TMM)，一种用三角掩码Toeplitz矩阵乘法替代attention的类Transformer架构，在训练时达到$\mathcal{O}(dn \log n)$时间和$\mathcal{O}(dn)$空间复杂度，推理时达到$\mathcal{O}(dn)$时间和空间复杂度。TMM在保持更高输入信息保留能力的同时，展现出优于可比架构的信息检索和in-context learning基准准确率，且其Toeplitz层在训练后倾向于可逆或接近可逆。该工作为降低序列模型计算复杂度提供了新思路，与关键词“attention”和“context”高度契合。

Beyond Factor Aggregation: Gauge-Aware Low-Rank Server Representations for Federated LoRA ⭐ 精选

Jinqian Chen, Chang Liu, Jihua Zhu

cs.LG cs.AI

本文提出GLoRA，一种针对联邦LoRA的规范感知低秩服务器表示方法。该方法指出直接平均LoRA因子存在表示依赖性问题，即同一内在更新可对应无穷多种规范等价的因子分解，导致因子级聚合在坐标变换下语义不一致。GLoRA通过从客户端projector估计共识更新子空间，并在共享参考坐标中聚合客户端更新，从而在低秩形式下完全表示语义更新聚合。实验表明，GLoRA在数据、资源和任务异构性下持续优于联邦LoRA基线，并支持异构客户端秩的兼容读取。

Sparse Attention as a Range Searching Problem: Towards an Inference-Efficient Index for KV Cache ⭐ 精选

Mohsen Dehghankar, Abolfazl Asudeh

cs.LG

本文提出了一种新的稀疏注意力方法Louver，通过将稀疏注意力问题重新表述为halfspace range searching问题，并设计了一种轻量级的索引结构来高效检索KV cache。该方法在理论上和实践上都保证了对于指定阈值的相关键的零假阴性率，即不会遗漏任何关键信息，从而解决了现有稀疏注意力方法在长推理任务中因遗漏关键token而导致精度骤降的问题。实验表明，Louver在精度和运行时间上均优于先前的稀疏注意力方法，甚至比高度优化的密集注意力方法FlashAttention更快，为构建具有理论保证的高效KV cache索引开辟了新方向。

Conformal Agent Error Attribution ⭐ 精选

Naihe Feng et al.

cs.LG cs.MA

本文提出了一种基于conformal prediction (CP)的框架，用于多智能体系统(MAS)中的错误归因。该方法针对大语言模型驱动的agent轨迹这类序列数据，设计了基于过滤的CP算法，能够预测出连续的序列集合，从而支持高效的错误恢复与调试。该工作为MAS的错误归因提供了模型无关且具有有限样本覆盖保证的不确定性层，与关键词"agent"高度契合。

SHARP: A Self-Evolving Human-Auditable Rubric Policy for Financial Trading Agents ⭐ 精选

Xiwen Chen et al.

cs.LG

本文提出SHARP框架，一种神经符号方法，用于金融交易agent的自我进化策略优化。它通过将agent的推理限制在结构化的、人类可审计的规则集中，并利用跨样本推理进行归因，解决了在噪声环境中使用延迟奖励进行无约束提示优化导致的信用分配问题。该方法通过原子化的规则编辑和严格的滚动验证，实现了稳定且可审计的策略改进，在多个股票板块和LLM骨干网络上显著提升了性能。这项工作为agent在低信噪比环境下的自适应学习提供了具有开创性的结构化范式。

Continuous First, Discrete Later: VQ-VAEs Without Dimensional Collapse ⭐ 精选

Xinyu Zhao et al.

cs.LG

本文针对VQ-VAE中存在的维度坍塌问题（即训练后的representation仅占据极低维子空间），从rate-distortion理论出发，将Saxe等人的序列学习效应扩展至VQ场景，理论证明了维度坍塌导致损失下界无法被现有codebook改进技术突破。作者提出一种简单有效的“AE Warm-Up”方法：在引入VQ之前，先将模型作为无量化的autoencoder进行预训练，从而恢复representation的维度。实验表明，该方法在VQGAN和WavTokenizer上显著提升了codebook的有效维度（从3-5提升至17-19），并降低了rFID和PESQ等指标，同时理论预测了warm-up时长与下游性能的关系，为自适应切换训练阶段提供了依据。

Adaptive Memory Decay for Log-Linear Attention ⭐ 精选

Yaxita Amin et al.

cs.LG cs.AI

本文提出了一种自适应记忆衰减机制用于log-linear attention模型。通过一个轻量级的两层MLP从输入中学习每个token和每个Fenwick tree层级（一种用于组织记忆的对数级层次结构）的衰减参数$\lambda$，替代了原先固定的、与输入无关的衰减参数。该方法使用softplus激活函数使各层级独立缩放，避免了softmax引入的层级间竞争，在保持log-linear计算复杂度不变的前提下，显著提升了长程记忆任务中的性能。这项工作为attention机制中的上下文建模提供了更灵活的记忆衰减策略，与关键词"attention"和"context"高度契合。

Echo: KV-Cache-Free Associative Recall with Spectral Koopman Operators ⭐ 精选

Anupama Sridhar, Alexander Johansen

cs.LG

本文提出Echo架构，其核心是Spectral Koopman Attention (SKA)，一种可替代标准attention的模块。SKA通过kernel ridge regression对key和value的历史序列拟合一个spectral linear system，并以$O(r^2)$的常数内存（$r$为投影秩）累积其充分统计量，从而在推理时无需KV cache即可实现associative recall。在Multi-Query Associative Recall基准测试中，SKA在50M参数规模下对所有配置（包括4096 token的distractor gap和32个KV pairs）均达到100%的检索准确率，而纯Mamba-2 SSM则完全失效。该方法为长序列推理中的context检索问题提供了高效且内存恒定的解决方案。

Unlocking High-Fidelity Molecular Generation from Mass Spectra via Dual-Stream Line Graph Diffusion ⭐ 精选

Xujun Che, Xiuxia Du, Depeng Xu

cs.LG cs.AI

本文提出DualLGD (Dual-stream Line Graph Diffusion)方法，用于从串联质谱数据中生成高保真分子结构。该方法将分子图去噪过程解耦为原子级推理和键级推理两个子问题，分别在其专用表示空间中交替求解，并利用line graph（线图）作为键空间的自然数学构造，使得键角、二面角、共轭链和环等结构对应于键之间的局部拓扑motif。通过incidence-constrained bidirectional cross-attention（关联约束双向交叉注意力）机制，在每一层同步两个流的信息，确保每个原子仅关注其入射键，反之亦然，从而严格遵循化学原理。在NPLIB1和MassSpecGym基准上，DualLGD的top-1准确率分别达到34.37%和23.89%，约为先前最优方法的3倍，且无需预训练即超越之前完全预训练的最佳模型，验证了架构本身是性能提升的主要来源。

PolarAdamW: Disentangling Spectral Control and Schur Gauge-Equivariance in Matrix Optimisation ⭐ 精选

Haozhou Zhang

cs.LG

PolarAdamW通过将Muon优化器中的spectral控制（通过polar map实现）与Schur gauge-equivariance（在multiplicity-space基变换下的等变性）解耦，提出了一种混合优化方法。该方法在AdamW的预条件方向上应用Muon的Newton-Schulz polar map，而非直接作用于原始动量，从而保留了spectral-norm控制但打破了gauge-equivariance。实验表明，在multiplicity-basis自由度微不足道的DeiT-Tiny训练中，PolarAdamW平均测试准确率比Muon高1.93个百分点，比AdamW高9.5个百分点；而在SO(3)-等变3D点云回归中（multiplicity-basis自由度非平凡），Muon优于PolarAdamW，且差距随模型容量增大而扩大。这揭示了spectral控制与Schur gauge-equivariance的双重分离效应，为矩阵优化提供了新的理论视角。

Less Random, More Private: What is the Optimal Subsampling Scheme for DP-SGD? ⭐ 精选

Andy Dong, Ayfer Özgür

cs.LG cs.CR stat.ML

本文研究了差分隐私随机梯度下降(DP-SGD)中采样策略的隐私放大问题。作者证明，默认的Poisson subsampling因引入参与方差(participation variance)而导致隐私放大效果次优，并提出Balanced Iteration Subsampling (BIS)这一结构化方案，其中每个样本参与固定次数的迭代。理论分析表明，BIS在噪声谱的两端($\sigma \to 0$和$\sigma \to \infty$)均达到最优隐私放大，且通过消除参与方差并保持均匀边际参与来优化隐私-噪声权衡。实验在超过60种DP-SGD配置下验证了BIS在低噪声高效用场景中优于Poisson subsampling，噪声乘子最多可降低$9.6\%$，颠覆了“更多采样随机性必然带来更强隐私放大”的直觉。

Convergence and Emergence of In-Context Reinforcement Learning with Chain of Thought ⭐ 精选

Zixuan Xie et al.

cs.LG

本文首次从理论上解释了Chain-of-Thought (CoT)生成如何增强in-context reinforcement learning (ICRL)能力。作者在linear Transformer的policy evaluation设定下，证明了特定的Transformer参数使得CoT生成过程等价于反复执行temporal difference learning更新，并给出了有限样本收敛分析，表明policy evaluation error随CoT长度几何级下降并最终饱和于由context length决定的统计下限。此外，文章证明了这些期望的Transformer参数是pretraining loss的全局最小值，为这些参数的经验涌现提供了理论依据，这与关键词中的“pretrain”和“agent”高度契合。

HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents ⭐ 精选

Guankai Li et al.

cs.LG cs.AI

HyperEyes提出了一种面向并行多模态搜索agent的双粒度效率感知强化学习框架。其核心创新在于将视觉定位与检索融合为单一原子动作，使得agent能在单轮交互中并行处理多个实体查询，并通过TRACE（Tool-use Reference-Adaptive Cost Efficiency）轨迹级奖励和On-Policy Distillation token级修正信号，分别从宏观和微观层面优化工具调用效率。该方法在六个基准测试中，以平均5.3倍更少的工具调用轮次实现了9.9%的准确率提升，并引入了联合评估搜索能力与效率的IMEB基准。该工作与关键词中的agent高度契合，且其效率感知的并行搜索范式对多模态agent领域具有开创性意义。

Coupling Models for One-Step Discrete Generation ⭐ 精选

Fred Zhangzhi Peng et al.

cs.LG

本文提出Coupling Models，一种用于离散结构的一步生成模型。该方法通过学习离散序列与Gaussian latent之间的直接耦合，并训练一个专门的decoder来逆变换该耦合，从而在单步内完成生成，避免了自回归解码或迭代精炼。实验表明，该方法在文本生成、生物序列设计和二值图像生成等多个领域显著优于现有的一步生成基线，例如将LM1B文本困惑度降低33%。该工作为离散数据的一步生成提供了新的范式，与关键词中的“code”和“pretrain”等概念有潜在关联。

Arrow: A Foundation Model for Causal Discovery ⭐ 精选

Ryan Thompson et al.

cs.LG

Arrow提出了一种基于transformer的foundation model，用于零样本因果发现。该方法通过将directed acyclic graph (DAG)分解为无向骨架和拓扑顺序来保证无环性，并利用端到端可微的directed edge composite likelihood进行监督训练。该模型在多种合成、半合成和真实数据集上匹配或超越了现有方法，且推理成本更低。这项工作与关键词“pretrain”高度契合，展示了大规模预训练在因果发现领域的有效性。

Pretraining Induces a Reusable Spectral Basis for Downstream Task Adaptation ⭐ 精选

Junjie Yu et al.

cs.LG

本文通过系统性的spectral分析，揭示了预训练模型在微调过程中，权重矩阵的leading singular vectors保持高度稳定，并在不同下游任务间共享，表明预训练建立了一个可复用的spectral coordinate system。基于此发现，作者提出了一种参数高效方法，冻结预训练的singular vectors并仅优化leading spectral coefficients，在GLUE上以0.2%的可训练参数取得了竞争性性能。该工作为理解预训练知识的迁移机制提供了几何视角，并直接关联了预训练规模与spectral stability。

Rethinking Importance Sampling in LLM Policy Optimization: A Cumulative Token Perspective ⭐ 精选

Yuheng Zhang et al.

cs.LG cs.AI

本文从累积token视角重新审视了LLM策略优化中的重要性采样问题。作者证明了累积token IS ratio（即到位置$t$为止的逐token比率乘积）在token级策略梯度公式中提供了无偏的前缀校正，且方差严格低于完整序列比率。基于此，他们提出了CTPO（Cumulative Token Policy Optimization），该方法结合了累积token IS ratio与位置自适应裁剪（position-adaptive clipping），后者根据累积对数比率的自然$\sqrt{t}$增长在log空间中对裁剪边界进行缩放。在工具集成推理设置下的多个数学推理基准测试中，CTPO在两个模型规模上均取得了优于GRPO和GSPO基线的平均性能。

Beyond Linear Attention: Softmax Transformers Implement In-Context Reinforcement Learning ⭐ 精选

Zixuan Xie et al.

cs.LG

本文首次在理论上分析了使用标准softmax attention的Transformer如何实现in-context reinforcement learning (ICRL)，而不依赖于不现实的linear attention简化。作者证明，在特定参数下，softmax attention Transformer的逐层前向传播等价于一种新的加权softmax temporal difference (TD) learning算法的迭代更新，该算法在kernel space中进行policy evaluation，并将linear TD和tabular TD作为特例。此外，论文证明了在收缩条件下，随着层数增加，policy evaluation误差会衰减，并证明了这些参数是预训练损失的全局最小值，从而解释了其在实际数值实验中的出现。这项工作为理解Transformer在agent任务中的上下文学习能力提供了坚实的理论基础，与关键词中的“agent”和“attention”高度契合。

MISA: Mixture of Indexer Sparse Attention for Long-Context LLM Inference ⭐ 精选

Ruijie Zhou et al.

cs.LG cs.AI

本文提出MISA (Mixture of Indexer Sparse Attention)，作为DeepSeek Sparse Attention (DSA)中indexer的即插即用替代方案。MISA将DSA的多个indexer heads视为一个专家混合池，通过一个轻量级router利用廉价的block-level statistics选择少量活跃heads进行细粒度token评分，从而将每个query的评分开销从所有heads降至仅少数routed heads。该方法无需额外训练，在LongBench上以8个活跃heads匹配DSA的64个heads性能，并在NVIDIA H200 GPU上实现约3.82倍加速，为长上下文LLM推理中的稀疏attention提供了高效且保持表达能力的解决方案。

Zero-Shot Neural Network Evaluation with Sample-Wise Activation Patterns ⭐ 精选

Yameng Peng et al.

cs.LG

本文提出了一种名为Sample-Wise Activation Patterns (SWAP)及其衍生指标SWAP-Score的零样本(zero-shot)神经网络评估方法。该方法通过分析网络在样本批次上的激活模式(activation patterns)来衡量其表达能力，从而无需训练即可预测网络性能，解决了现有零样本指标与真实性能相关性弱、跨架构泛化差的问题。SWAP-Score在卷积神经网络(CNN)和Transformer架构上均表现出色，例如在CIFAR-10数据集上对DARTS CNN的Spearman相关系数达到0.93，在GLUE任务上对FlexiBERT Transformer达到0.71。此外，该指标与标签无关，可应用于语言模型的预训练阶段，并在神经架构搜索(NAS)中仅需约6分钟(CIFAR-10)和9分钟(ImageNet)的GPU时间即可取得竞争性性能。

Approximation Error Upper and Lower Bounds for Hölder Class with Transformers ⭐ 精选

Xin He et al.

cs.LG

本文针对Hölder函数类，首次为Transformer架构建立了严格的近似误差上界和下界。具体地，作者证明了由$\mathcal{O}(\varepsilon^{-d_0/\alpha})$个block组成的标准Transformer（使用Softmax、ReLU和残差连接）能以$\varepsilon$精度逼近任何$d_0$维输入、光滑度$\alpha\in(0,1]$的有界Hölder函数；同时，通过VC维上界首次严格证明至少需要$\Omega(\varepsilon^{-d_0/(4\alpha)})$个block才能达到该精度。该工作为理解Transformer在回归任务中的表达能力提供了理论支撑，并导出了相应的超额风险率。

OrScale: Orthogonalised Optimization with Layer-Wise Trust-Ratio Scaling ⭐ 精选

Yuxuan Lou, Yang You

cs.LG cs.CL

本文提出OrScale，一种基于Muon优化器的信任比率扩展方法。其核心创新在于通过层间更新方向的实际Frobenius范数作为分母，替代Muon中由全局学习率主导的更新幅度控制，从而实现了严格的层自适应优化。理论分析证明了OrScale在核范数准则下的$O(1/\sqrt{T})$非凸收敛保证，并展示了其与muP风格学习率迁移的兼容性。实验表明，OrScale在CIFAR-10/DavidNet上提升了Muon的性能，并在FineWeb-Edu预训练中从125M到1.1B参数规模上均优于AdamW，与关键词“Muon”和“pretrain”高度契合。

RelAgent: LLM Agents as Data Scientists for Relational Learning ⭐ 精选

Xingyue Huang et al.

cs.LG

RelAgent提出了一种基于LLM agent的自动化数据科学家框架，用于解决relational learning问题。该方法通过两阶段流程：搜索阶段利用LLM agent调用数据库、验证和评估工具来构建SQL特征程序并选择预测模型，推理阶段则无需LLM参与直接执行程序。最终预测器由SQL查询和经典模型组成，实现了快速、确定性和内在可解释的预测，其中特征为人类可读的SQL查询，且预测仅依赖于查询定义的特征映射，支持在标准数据库系统上可扩展部署。该工作与关键词"agent"高度契合，为relational learning提供了一种新颖的agent驱动范式。

ADKO: Agentic Decentralized Knowledge Optimization ⭐ 精选

Lucas Nerone Rillo et al.

cs.LG

本文提出Agentic Decentralized Knowledge Optimization (ADKO)框架，用于多智能体协作的黑箱优化。每个智能体维护一个私有Gaussian Process (GP)代理模型，并通过仅传递包含方向信号和优势分数的知识令牌（knowledge tokens）进行通信，无需共享原始数据或模型参数。文章首次对令牌压缩和语言模型近似误差进行了形式化的信息损失分析，证明了累积regret可分解为GP误差、LM偏差、LM噪声和压缩损失，并给出了次线性regret的充要条件。该工作统一了GP-UCB、并行Bayesian optimization、去中心化学习和LM引导发现，在神经架构搜索和科学发现任务上验证了有效性，与关键词“agent”高度契合。

Flatness and Gradient Alignment Are Both Necessary: Spectral-Aware Gradient-Aligned Exploration for Multi-Distribution Learning ⭐ 精选

Aristotelis Ballas, Christos Diou

cs.LG cs.CV

本文通过推导excess-risk分解，揭示了在多分布学习中，loss landscape的flatness（由平均Hessian $\bar{H}$控制）和gradient alignment（由$\bar{H}^{-1}\Sigma_g$的迹控制）是两个相互独立且均不可忽略的leading-order项。基于此，作者提出了SAGE（Spectral-Aware Gradient-Aligned Exploration）方法，其curvature component利用Newton-Schulz迭代计算每层梯度矩阵的polar factor来替代SAM中的梯度缩放扰动，从而在ascent step中均匀探测所有方向；alignment component则在descent step中注入与跨分布梯度不一致性成比例的isotropic noise。实验在DomainBed等基准上取得了state-of-the-art结果，该方法与关键词中的spectral和Muon（通过polar factor实现谱感知）高度契合。

Convergent Stochastic Training of Attention and Understanding LoRA ⭐ 精选

Zhengkai Sun et al.

cs.LG math.FA math.PR

本文通过统一框架严格证明了在随机优化方法下，attention层和浅层神经网络上的LoRA（Low Rank Adaptation）的可训练性。作者证明，对于任意温和的正则化，这两种模型的经验回归损失所对应的Gibbs测度均满足Poincaré不等式，进而可以通过模拟SGD的随机微分方程（SDE）最小化相应损失。该结果首次在不依赖数据或架构规模假设的情况下，建立了attention和网络的训练性理论，与关键词“attention”高度契合。

Beyond Pairs: Your Language Model is Secretly Optimizing a Preference Graph ⭐ 精选

Ning Liu et al.

cs.LG cs.AI

本文提出Graph Direct Preference Optimization (GraphDPO)，将DPO从pairwise偏好比较推广到有向无环偏好图上的优化。该方法通过编码rollout排序中的dominance关系为边，并设计基于Plackett-Luce的graph-structured objective，在保持线性复杂度的情况下强制传递性并聚合邻域监督。实验表明，GraphDPO在reasoning和program synthesis任务上优于pairwise和listwise对齐方法，为偏好建模提供了可扩展且鲁棒的框架。

CommFuse: Hiding Tail Latency via Communication Decomposition and Fusion for Distributed LLM Training

Rezaul Karim et al.

cs.LG cs.AI cs.CV cs.DC

本文提出CommFuse方法，通过将reduce-scatter和all-gather等传统collective operations分解为点对点通信并调度分区计算，以消除分布式LLM训练中的tail latency。该方法与数据并行和多种tensor-level parallelism策略兼容，实验显示其能降低延迟并提升MFU。

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Enshuai Zhou et al.

cs.LG cs.CL

本文提出LKV方法，将LLM的KV cache压缩建模为端到端可微优化问题，通过LKV-H学习任务优化的全局预算、LKV-T学习token重要性，在LongBench和RULER上以15%缓存保留实现近无损性能。该方法主要针对LLM推理中的KV cache内存瓶颈，与关键词列表中的概念关联较弱。

A Wasserstein GAN-based climate scenario generator for risk management and insurance: the case of soil subsidence

Antoine Heranval et al.

cs.LG q-fin.RM stat.AP

本文提出了一种基于Conditional GAN的SwiGAN模型，用于生成法国地区未来土壤湿度指数(SWI)的时空轨迹，以支持保险业的气候风险管理。该方法通过生成逼真的干旱传播模式，为气候变化下的适应性策略设计提供了工具。

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

Yubo Jiang et al.

cs.LG

本文提出Positive-and-Negative Decoding (PND)，一种无需训练的推理框架，通过引入正负双路径对比（正路径增强视觉证据，负路径构建反事实以惩罚先验主导生成）来干预Vision-Language Models (VLMs)的解码过程，从而缓解物体幻觉问题。实验表明该方法在多个基准上达到最优性能，但未涉及关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念。

On the Role of Strain and Vorticity in Numerical Integration Error for Flow Matching

Chenxi Tao, Seung-Kyum Choi

cs.LG cs.CV physics.flu-dyn

本文通过将velocity Jacobian分解为strain rate和vorticity，分析了flow matching中数值积分误差的来源，证明了strain通过logarithmic norm控制指数级误差放大，而vorticity仅对局部截断误差有线性贡献。实验表明，对strain和vorticity施加不同权重的Jacobian正则化可降低积分误差。

A Hierarchical Ensemble Pipeline for Anomaly Detection in ESA Satellite Telemetry

Lorenzo Riccardo Allegrini, Geremia Pompei

cs.LG cs.CV

本文提出了一种用于ESA卫星遥测数据异常检测的分层集成pipeline，结合了shapelet和统计特征提取、通道内建模与跨通道聚合，并在ESA-ADB基准上验证了其泛化能力。该方法主要面向工程应用，与关键词中的理论或方法关联较弱。

From Canopy to Collision: A Hybrid Predictive Framework for Identifying Risk Factors in Tree-Involved Traffic Crashes

Abdul Azim et al.

cs.LG

本文利用CatBoost模型和SHAP工具分析了2020-2023年CRSS数据库中树木碰撞事故的严重性风险因素，发现未使用安全带、车龄、超速和驾驶员受损是关键预测因子，并揭示了光照与车龄等交互效应。该研究为交通安全干预提供了数据驱动的见解，但方法上未涉及关键词中的code、spectral或Muon等概念。

Robustness of Refugee-Matching Gains to Off-Policy Evaluation Choices

Kirk Bansak et al.

cs.LG econ.EM stat.AP stat.ML

本文研究了难民匹配中反事实影响评估结果的稳健性，使用IPW和AIPW等多种off-policy evaluation方法，发现估计结果在不同场景下保持一致且多数统计显著。该工作主要关注实证稳健性，与关键词中的spectral、Muon、pretrain等概念无直接关联。

Conditional generation of antibody sequences with classifier-guided germline-absorbing discrete diffusion

Justin Sanders et al.

cs.LG cs.AI

本文提出了一种基于离散扩散的抗体序列条件生成方法，通过引入germline吸收扩散机制来改进模型对体细胞突变的建模能力，并利用分类器指导生成具有特定性质的抗体序列。该方法在疏水性和结合亲和力条件生成任务上优于现有方法。

Enabling Unsupervised Training of Deep EEG Denoisers With Intelligent Partitioning

Qiyu Rao et al.

cs.LG cs.AI eess.SP

本文提出了一种名为iPSD的自监督方法，通过智能划分EEG信号片段为独立噪声实现，从而无需干净参考即可训练深度去噪器。该方法在极低信噪比和复杂伪影下表现出色，但未涉及code、context或Muon等关键词。

Transformer-Based Wildlife Species Classification from Daily Movement Trajectories

Obed Irakoze, Prasenjit Mitra

cs.LG

本文使用Transformer模型对野生动物GPS轨迹数据进行物种分类，并与LSTM、CNN等基线模型比较，发现Transformer在平衡准确率上提升8-22个百分点。研究还分析了不同时间分辨率和特征增强对分类性能的影响。

Medical Imaging Classification with Cold-Atom Reservoir Computing using Auto-Encoders and Surrogate-Driven Training

Nuno Batista et al.

cs.LG cs.ET eess.IV

本文提出了一种基于冷原子reservoir computing的混合量子-经典图像分类流程，通过auto-encoder降维和surrogate模型解决量子测量不可微的梯度问题，在息肉检测任务上取得优于传统方法的效果。

The E$Δ$-MHC-Geo Transformer: Adaptive Geodesic Operations with Guaranteed Orthogonality

Arash Shahmansoori

cs.LG cs.AI

本文提出E$\Delta$-MHC-Geo Transformer，通过Cayley变换与Householder反射的混合门控机制，实现了输入自适应的正交残差连接，解决了Cayley变换无法处理特征值-1的问题，并在长程稳定性与旋转损失上优于基线模型。

Semantic State Abstraction Interfaces for LLM-Augmented Portfolio Decisions: Multi-Axis News Decomposition and RL Diagnostics

Likhita Yerra, Remi Uttejitha Allam

cs.LG

本文提出Semantic State Abstraction Interfaces (SSAI)框架，将稀疏非结构化新闻文本映射为$K$个可审计的命名坐标轴，用于分离表示假设与优化方差。在NASDAQ-100股票数据上的实验表明，该框架在因子组合和强化学习agent中主要作为可解释性诊断工具，其性能提升在统计上不稳健。

On Training in Imagination

Nadav Timor et al.

cs.LG

本文研究了基于模型的强化学习中，在想象轨迹（由学习到的dynamics model和reward model生成）上训练策略的范式。通过量化dynamics和reward模型误差对回报的影响，推导了最优样本分配比例，并分析了REINFORCE算法对噪声奖励的容忍度，提出了在固定预算下选择不同噪声水平奖励的权衡。

Gated QKAN-FWP: Scalable Quantum-inspired Sequence Learning

Kuo-Chung Peng et al.

cs.LG cs.AI quant-ph

本文提出了一种名为gated QKAN-FWP的量子启发序列学习框架，通过将Fast Weight Programmer与单量子比特数据重上传电路（DARUAN）结合，并引入标量门控更新规则来稳定参数演化。该模型在时间序列预测和强化学习任务上展示了参数效率，并在真实量子处理器上验证了NISQ兼容性。

STDA-Net: Spectrogram-Based Domain Adaptation for cross-dataset Sleep Stage Classification

Unaza Tallal, Shruti Kshirsagar, Ankita Shukla

cs.LG cs.AI cs.HC

本文提出STDA-Net框架，将spectrogram-based CNN与BiLSTM和domain-adversarial neural network (DANN)结合，用于跨数据集睡眠阶段分类。实验表明，该2D spectrogram方法在多个数据集上优于传统1D基线，但方法本身并非开创性突破，且与关键词列表契合度较低。

Geometric Kolmogorov--Arnold Network (GeoKAN)

Abhijit Sen et al.

cs.LG cs.AI

本文提出Geometric Kolmogorov--Arnold Network (GeoKAN)，通过学习一个对角Riemannian metric来扭曲输入空间，从而在几何自适应坐标下进行函数逼近。该方法通过局部长度缩放和体积畸变提供几何归纳偏置，并开发了多个变体，适用于通用函数逼近和物理信息学习中的代理模型。

A Closed-Form Upper Bound for Admissible Learning-Rate Steps in Belief-Space Dynamics

Zixi Li, Youzhen Li

cs.LG

本文通过将learning-rate step建模为probability simplex上的projected forward step，推导出admissible step的closed-form upper bound，该bound由KL/Bregman几何中的contractivity条件决定。

Gradient Extrapolation-Based Policy Optimization

Ismam Nur Swapnil et al.

cs.LG cs.AI

本文提出Gradient Extrapolation-Based Policy Optimization (GXPO)，一种用于GRPO风格强化学习的策略更新规则。GXPO通过仅使用三次反向传播来近似多步前瞻，在保持计算成本的同时提升了Qwen2.5和Llama模型在数学推理任务上的pass@1指标。

Physics-based Digital Twins for Integrated Thermal Energy Systems Using Active Learning

Umme Mahbuba Nabila et al.

cs.LG eess.SY

本文提出了一种基于主动学习的数字孪生框架，用于集成热能系统，通过结合Modelica仿真与多种代理模型（如SINDyC、MvG-SINDyC、FNN和GRU）来提高数据效率。实验表明，该框架在乙二醇换热器子系统上能以较少仿真轨迹达到较高预测精度，其中GRU模型预测性能最佳，SINDyC模型计算效率最高。

Revisiting Adam for Streaming Reinforcement Learning

Florin Gogianu, Adrian Catalin Lutu, Razvan Pascanu

cs.LG cs.AI

本文重新审视了在流式强化学习（streaming RL）中应用Adam优化器的问题，发现DQN和C51等经典算法在该设置下表现良好，并指出目标函数的导数有界和权重更新的方差调整是鲁棒性能的关键。基于这些见解，作者提出了基于eligibility traces的方差调整算法Adaptive Q$(\lambda)$，在55个Atari游戏子集上超越了现有方法。

Distributional Process Reward Models: Calibrated Prediction of Future Rewards via Conditional Optimal Transport

Rachel Ma, Dylan Hadfield-Menell, Kristjan Greenewald

cs.LG cs.AI

本文提出了一种基于条件最优传输(Conditional Optimal Transport)的方法来校准过程奖励模型(Process Reward Models, PRMs)，通过估计PRM隐藏状态上的单调条件分位数函数，改进了校准性能并提供了置信区间估计。该方法在数学推理基准上验证了有效性，但与我提供的关键词列表关联较弱。

MIND: Monge Inception Distance for Generative Models Evaluation

Quentin Berthet et al.

cs.LG

本文提出Monge Inception Distance (MIND)作为生成模型评估指标，通过sliced Wasserstein distance替代FID中高维均值和协方差矩阵的估计，从而在样本效率、计算速度和对抗鲁棒性上优于FID。实验表明MIND在5k样本下即可达到FID在50k样本下的评估性能。

From Model to Data (M2D): Shifting Complexity from GNNs to Graphs for Transparent Graph Learning

Debolina Halder Lina, Arlei Silva

cs.LG

本文提出Model-to-Data (M2D)蒸馏框架，通过将GNN模型的复杂性转移到数据空间（即生成具有增强特征和结构的图），使简单模型能匹配复杂模型的性能，从而提升GNN的透明度。该方法允许人类直接检查架构优势，并以可解释的方式揭示公平性目标和基于attention的聚合等机制。

A Theory of Online Learning with Autoregressive Chain-of-Thought Reasoning

Ilan Doron-Arad, Idan Mehalel, Elchanan Mossel

cs.LG

本文为自回归链式思维推理建立了在线学习理论，区分了仅观察最终输出和观察完整生成轨迹两种反馈模型，并分析了最优错误界对生成步数$M$的依赖关系。

A Rod Flow Model for Adam at the Edge of Stability

Eric Regis, Sinho Chewi

cs.LG cs.AI math.OC stat.ML

本文为Adam等自适应优化器在“edge of stability”现象下的连续时间建模提出了rod flow方法，通过将参数和动量视为联合相空间中的一维对象来追踪迭代过程。

A Unified Measure-Theoretic View of Diffusion, Score-Based, and Flow Matching Generative Models

Aditya Ranganath, Mukesh Singhal

cs.LG cs.CV cs.ET cs.IT cs.NE

本文从测度论视角统一了扩散模型、score-based生成模型和flow matching，指出它们都通过学习一个时变vector field来生成由continuity equation和Fokker-Planck equation控制的边缘分布族。文章推导了反向时间采样、概率流ODE与velocity field回归之间的联系，并比较了不同目标函数和采样方案下的离散化误差。

ProtSent: Protein Sentence Transformers

Dan Ofer et al.

cs.LG cs.CL

本文提出ProtSent框架，通过对Protein Language Models进行contrastive fine-tuning，使用MultipleNegativesRankingLoss在多个蛋白质配对数据集上训练，以生成更优的通用蛋白质序列embedding。实验表明该方法在远程同源性检测、变异效应预测等任务上相比基线有显著提升，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Why DDIM Hallucinates More than DDPM: A Theoretical Analysis of Reverse Dynamics

Muhammad H. Ashiq et al.

cs.LG cs.AI

本文从理论上分析了DDPM和DDIM两种扩散采样器在Gaussian mixture target下的逆动力学，证明了DDIM在临界时间后可能陷入连接最近两个mode的线段而产生幻觉，而DDPM的随机性有助于摆脱该区域。

Attribution-Based Neuron Utility for Plasticity Restoration in Deep Networks

Patrick Elisii, Lucas Beauchemin, Dawer Jamshed

cs.LG

本文提出了一种基于梯度归因的神经元效用度量GXD (gradient times difference from reference)，用于选择性重置深度网络中的低效用参数以恢复可塑性。该方法将自适应重置重新定义为干预成本估计问题，在现有重置标准失效的场景下提高了干预的可靠性。

On Privacy Leakage in Tabular Diffusion Models: Influential Factors, Attacker Knowledge, and Metrics

Masoumeh Shafieinejad et al.

cs.LG cs.AI

本文研究了tabular diffusion models (TDMs)中的隐私泄露问题，量化了训练设置、合成选择和攻击者知识对隐私泄露的影响。结果表明攻击者无需完美知识或大量计算资源即可成功攻击，并揭示了启发式隐私度量（如距离最近记录）的缺陷。

How to Compress KV Cache in RL Post-Training? Shadow Mask Distillation for Memory-Efficient Alignment

Rui Zhu et al.

cs.LG cs.AI

本文探讨了在RL后训练阶段（如RLHF/RLAIF）中，由于长上下文推理任务导致KV cache内存占用过大的问题。作者提出了一种名为Shadow Mask Distillation的方法，旨在通过蒸馏技术压缩rollout阶段的KV cache，同时缓解因压缩导致的off-policy偏差，但该方法与关键词中的概念关联度不高。

Benchmarked Yet Not Measured -- Generative AI Should be Evaluated Against Real-World Utility

Ishani Mondal, Shweta Bhardwaj

cs.LG cs.CL

本文指出生成式AI在标准benchmark上表现优异但实际部署效用不足，分析了评估实践中的三种失败模式，并提出了SCU-GenEval框架以转向基于人类结果轨迹的效用评估。

Christoffel-DPS: Optimal sensor placement in diffusion posterior sampling for arbitrary distributions

James Rowbottom et al.

cs.LG math.NA

本文提出了一种基于Christoffel函数的无分布传感器放置框架Christoffel-DPS，用于扩散后验采样中的最优传感器放置问题。该方法通过非渐近界保证了任意传感器和信号分布下的恢复性能，并在低传感器预算下优于传统高斯方法和现有生成模型放置方法。

Multi-Objective Multi-Agent Bandits: From Learning Efficiency to Fairness Optimization

John Wang, Mengfan Xu

cs.LG

本文研究了多目标多智能体多臂老虎机(MO-MA-MAB)问题，提出了两种算法：Pareto UCB1 Gossip用于优化Pareto regret，Simulated NSW UCB Gossip用于在公平性约束下优化社会福利，并分别证明了其regret界。

Dataset Watermarking for Closed LLMs with Provable Detection

Pengrun Huang, Kamalika Chaudhuri, Yu-Xiang Wang

cs.LG

本文提出了一种针对闭源LLMs的数据集水印方法，通过增加随机词对的共现频率嵌入水印，并利用统计检验检测模型输出中的共现模式。该方法在微调阶段能可靠检测水印，即使水印数据仅占总微调token的约1%也有效。

A Finite-Iteration Theory for Asynchronous Categorical Distributional Temporal-Difference Learning

Ege C. Kaya, Abolfazl Hashemi

cs.LG math.OC

本文针对异步分类分布时序差分学习算法，在Cramér几何和最大平均差异几何下建立了有限迭代收敛理论，通过等距嵌入将算法转化为在状态上确界范数下收缩的异步随机逼近递归，填补了现有理论与实际算法之间的差距。

When Descent Is Too Stable: Event-Triggered Hamiltonian Learning to Optimize

Yi Wang, Chandrajit Bajaj

cs.LG math.OC

本文提出了一种名为SHAPE的优化器，通过将梯度下降动力学提升到增广相空间$(q, p)$并引入事件触发机制，来解决固定预算非凸优化中因局部下降过于稳定而陷入无信息局部最小值的问题。该方法利用学习到的Hamiltonian vector field进行结构化局部下降，并在检测到局部平衡时更新端口和记忆，从而在困难的优化景观中平衡下降、探索和预算分配。

On the Divergence of Differential Temporal Difference Learning without Local Clocks

David Antrobius, Shangtong Zhang

cs.LG

本文研究了在平均奖励强化学习中，使用全局时钟（仅依赖时间步$t$的学习率$\alpha_t$）与局部时钟（依赖状态访问次数的学习率$\alpha_{\nu(S_t, t)}$）对微分时序差分学习算法收敛性的影响，并构造了一个反例表明局部时钟下的收敛性无法保证全局时钟下的收敛性。

Temporal Attention for Adaptive Control of Euler-Lagrange Systems with Unobservable Memory

Giansalvo Cirrincione, Adriano Fagiolini

cs.LG

本文提出了一种用于Euler-Lagrange系统的元控制架构，其中计算力矩控制器的增益由处理近期运动历史窗口的self-attention block生成。注意力头数通过基于自协方差分析的surrogate方法在策略训练前选定，并在强化学习阶段固定。实验表明，在短记忆和匹配记忆场景下，单层attention-only元控制器优于更深的Transformer基线，但在长记忆场景下优势消失。

Better Protein Function Prediction by Modeling Survivorship Bias

Zhongmou Chao et al.

cs.LG q-bio.QM

本文提出Evo-PU框架，利用核苷酸突变模型处理蛋白质序列数据中的生存偏差（survivorship bias），在单生物体监测数据上优于标准PU学习、单类分类和蛋白质语言模型。该方法主要针对生物信息学中的正无标签学习问题，与关键词中的code、context、spectral等概念关联较弱。

Don't Retrain, Align: Adapting Autoregressive LMs to Diffusion LMs via Representation Alignment

Fred Zhangzhi Peng et al.

cs.LG cs.AI

本文提出REPR-ALIGN方法，通过cosine similarity对齐Diffusion Language Model (DLM)与预训练Autoregressive Model (AR)的hidden states，在保持AR模型表示几何结构的同时加速DLM训练。该方法无需改变架构，仅修改attention mask，在低数据场景下实现最高4倍训练加速。

Streaming Adversarial Robustness in Fuzzy ARTMAP: Mechanism-Aligned Evaluation, Progressive Training, and Interpretable Diagnostics

Shane Cairns et al.

cs.LG

本文研究了Fuzzy ARTMAP在流式学习中的对抗鲁棒性，提出了WB-Softmax攻击方法，并比较了不同训练协议下的防御效果。结果表明，渐进式两阶段选择性训练能提供最强的无回放鲁棒性，且ART的类别几何结构可用于可解释的诊断。

Conservative Flows: A New Paradigm of Generative Models

Eshed Gal et al.

cs.LG

本文提出了一种新的生成模型范式Conservative Flows，通过从数据支持的状态而非噪声初始化，利用离散随机动力学保持数据分布不变。该方法可适配任何预训练flow模型，并开发了两种概率保持采样机制，在合成数据和图像数据集上验证了有效性。

TraXion: Rethinking Pre-training Frameworks for Mobility and Beyond

Shang-Ling Hsu et al.

cs.LG

本文提出TraXion框架，重新思考了人类移动性数据的预训练方法，通过将移动轨迹视为多实体时空事件流（MESES）并设计满足三个公理的目标与架构，在多个移动性数据集上超越了任务特定基线。该方法还泛化至企业认证日志和ICU死亡率预测等不同领域，展示了统一框架的潜力。

Same Signal, Opposite Meaning: Direction-Informed Adaptive Learning for LLM Agents

Ziming Li et al.

cs.LG cs.AI

本文提出DIAL方法，通过信号无关的反事实探索训练稀疏门控，以解决LLM agent在自适应测试时计算中信号方向不稳定的问题。该方法在不同环境和骨干网络上实现了更好的成功-成本权衡。

Dual-Scale Temporal Fusion Reveals Structured Predictability in Subseasonal-to-Seasonal Temperature Prediction

Elnaz Bashir, Jiali Wang, Lin Yan

cs.LG

本文提出了一种双尺度学习框架，通过分离日历对齐的历史气候背景与提前期匹配的近期天气演变，并结合空间自适应融合，来提升次季节到季节温度预测的稳定性。研究发现，预测技能主要取决于两个时间尺度的平衡随季节和地理的空间变化，而非简单的提前期衰减。

LLMs are not (consistently) Bayesian: Quantifying internal (in)consistencies of LLMs' probabilistic beliefs

Chacha Chen et al.

cs.LG

本文研究了LLMs在更新概率信念时是否遵循Bayesian规则，发现不同方法下LLMs的更新行为存在内部不一致性，且非Bayesian启发式更新在任务表现上有时优于精确Bayesian计算。

Tyche: One Step Flow for Efficient Probabilistic Weather Forecasting

Fan Xu et al.

cs.LG

本文提出Tyche，一种单步条件流模型，用于高效概率天气预报。它通过目标感知平均速度流将高斯噪声直接映射到未来天气状态，并引入JVP正则化整流目标来学习高维传输场，在ERA5数据上以单次函数评估达到与多步生成模型相当的预测技能。

Target-Aware Data Augmentation for SAT Prediction

Eshed Gal, Uri Ascher, Eldad Haber

cs.LG

本文提出了一种面向SAT问题的目标感知数据增强框架，通过构造性方法生成正确标注的SAT和UNSAT实例，避免了昂贵的solver调用，并设计了线性规划感知的图神经网络(LPGNN)来利用优化结构。该方法在数据生成上实现了数量级的加速，但与我提供的关键词列表契合度较低。

MAGIQ: A Post-Quantum Multi-Agentic AI Governance System with Provable Security

Sepideh Avizeh et al.

cs.LG cs.CR cs.MA

本文提出了MAGIQ，一个用于多智能体AI系统的后量子安全治理框架，利用高效的量子抗性密码协议实现策略定义、执行和问责。该工作主要关注密码学与系统安全，与关键词中的agent概念相关，但方法本身并非开创性，且未涉及code, context, spectral, Muon, pretrain, attention等主题。

Learned Lyapunov Shielding for Adaptive Control

Giansalvo Cirrincione, Adriano Fagiolini

cs.LG

本文为Euler-Lagrange系统设计了一个增强型自适应控制器，通过引入学习到的Lyapunov函数、残差策略和物理信息神经网络来提升性能，并证明了滤波器的可行性与稳定性。该方法在2-DOF和7-DOF机械臂上验证了有效性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

A Reproducible Optimisation Protocol for Calibrating Prompt-Based Large Language Model Workflows in Evidence Synthesis

Teo Susnjak

cs.LG

本文提出了一种可复现的校准工作流，用于优化基于prompt的LLM在证据合成任务中的表现，通过分离任务规则与prompt框架，并利用DSPy和GEPA工具实现优化。该方法主要关注工程实践而非理论创新，与关键词列表中的概念关联较弱。

A Generalized Singular Value Theory for Neural Networks

Brian Charles Brown et al.

cs.LG cs.AI

本文基于Brown等人提出的抽象Generalized Singular Value Decomposition (GSVD)理论，证明了大多数现代neural architectures在最终线性层前可表示为左可逆的generalized SVD形式，并提供了数据驱动算法来估计该表示。该工作为理解neural networks的输入-输出行为提供了新的理论视角，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Bias and Uncertainty in LLM-as-a-Judge Estimation

James Fiedler

cs.LG stat.ME stat.ML

本文研究了LLM-as-a-Judge评估中存在的偏差与不确定性，分析了校准共享导致的严重偏差问题，并提出了诊断指标$J$和$\Delta J$来评估校正估计的可靠性。

Causal-Aware Foundation-Model for Bilevel Optimization in Discrete Choice Settings

Shivaram Subramanian et al.

cs.LG math.OC

本文提出了一种因果感知的基础模型框架C3PO，用于离散选择环境中的实时最优决策，通过结合模仿学习、多任务学习和上下文学习来生成定价建议。该方法在多个实际应用中取得了显著收益，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

ProtoSSL: Interpretable Prototype Learning from Unlabeled Time-Series Data

Steven Song et al.

cs.LG

本文提出ProtoSSL框架，从无标签time-series数据中学习可解释的projection-based prototypes，通过自监督目标分离motif发现与标签对齐，并在下游任务中高效分配prototypes。该方法在ECG数据集上提升了标签效率，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Rollback-Free Stable Brick Structures Generation

Chenhui Xu et al.

cs.LG

本文提出了一种基于reinforcement learning的范式，用于生成物理稳定的砖块结构，通过将物理有效性约束从推理阶段转移到训练阶段，实现了无需回滚的生成。该方法在生成质量和推理速度上取得了显著提升。

Kurtosis-Guided Denoising Score Matching for Tabular Anomaly Detection

Victor Livernoche, Jie Zan, Reihaneh Rabbany

cs.LG cs.AI

本文提出了一种基于峰度（kurtosis）的噪声缩放方法K-DSM，用于表格数据的异常检测。该方法通过为每个特征自适应设置噪声水平，改进了去噪分数匹配（DSM）在低密度区域的覆盖和高密度区域的精度，并在半监督和无监督设置下取得了先进性能。

$f$-Divergence Regularized RLHF: Two Tales of Sampling and Unified Analyses

Di Wu et al.

cs.LG cs.AI cs.IT stat.ML

本文针对在线RLHF中一般$f$-divergence正则化问题，提出了两种基于不同采样原则的算法，并证明了$O(\log T)$的regret界和$O(1/T)$的sub-optimality gap，为这一领域提供了统一的理论框架。

PLOT: Progressive Localization via Optimal Transport in Neural Causal Abstraction

Jonathn Chang, Arya Datla, Ziv Goldfeld

cs.LG cs.AI stat.ML

PLOT提出了一种基于optimal transport的框架，用于在neural causal abstraction中渐进定位causal variables，通过分析abstract和neural interventions的输出几何效应来拟合耦合。该方法在简单场景中可直接使用单个神经元耦合，在大型模型中则从粗粒度位置（如token或layer）逐步细化到细粒度支持（如PCA span），并可选地引导DAS搜索。实验表明，纯transport的PLOT在速度上极具优势，而PLOT引导的DAS能以更少计算量达到与完整DAS相当的精度。

FastOmniTMAE: Parallel Clause Learning for Scalable and Hardware-Efficient Tsetlin Embeddings

Ahmed K. Kadhim et al.

cs.LG

本文提出FastOmniTMAE，通过将Omni TM-AE的串行训练过程替换为两阶段并行过程（评估与更新），在分类任务中实现最高5倍加速，并在SoC-FPGA平台上实现硬件高效部署。该方法在保持嵌入质量的同时提升了训练效率，但未涉及关键词中的核心概念。

Response Time Enhances Alignment with Heterogeneous Preferences

Federico Echenique et al.

cs.LG cs.GT econ.TH stat.ML

本文提出通过记录用户的response time（反应时间）来增强preference alignment（偏好对齐）过程，利用Drift-Diffusion Model（DDM）估计heterogeneous preferences（异质偏好），并证明该estimator（估计量）在匿名标签者仅提供单次选择时仍能渐近收敛到真实平均偏好。该方法在合成和真实数据集上优于仅依赖choice data（选择数据）的标准baseline。

Why Does Agentic Safety Fail to Generalize Across Tasks?

Yonatan Slutzky et al.

cs.LG stat.ML

本文通过理论分析和实验表明，AI agent的安全性（agentic safety）在跨任务泛化时失败并非训练方法的局限，而是安全本身的内在属性：任务与安全执行之间的映射比任务与执行之间的映射更复杂。理论部分在线性二次型控制中证明了带安全约束的最优控制器映射具有更高的Lipschitz常数，实验在四旋翼导航和CRM中验证了结论。

Inductive Power Grid Cascading Failure Analysis with GRU-Gated Graph Attention

Tianxin Zhou, Xiang Li, Haibing Lu

cs.LG

本文提出了一种基于GRU门控图注意力网络的电力级联故障分析方法，通过从有限训练网格的级联故障数据中学习，实现了对未见网格的零样本迁移。该方法利用GRU门控机制控制每个节点在级联迭代中的信息保留与丢弃，实验表明其能有效识别脆弱传输线。

Dual-Agent Co-Training for Health Coaching via Implicit Adversarial Preference Optimization

Da Long et al.

cs.LG

本文提出了一种双智能体协同训练框架，用于健康教练对话系统，通过隐式对抗偏好优化同时训练教练智能体和客户模拟器。该方法利用多维LLM评判器识别Pareto主导响应对，并采用DPO优化教练，同时通过反转偏好进行对抗性训练客户模拟器。

FlashMol: High-Quality Molecule Generation in as Few as Four Steps

Xinyuan Wei et al.

cs.LG cs.AI

本文提出FlashMol，一种基于分布匹配蒸馏（DMD）的超快分子生成模型，能在4步内生成高质量3D分子构象。通过重新设计时间步长并引入Jensen-Shannon散度正则化，该模型在QM9和GEOM-DRUG数据集上实现了与1000步教师模型相当甚至更优的性能，采样速度提升250倍。

Self Driving Datasets: From 20 Million Papers to Nuanced Biomedical Knowledge at Scale

Haydn Jones et al.

cs.LG

本文提出了一种基于LLM的自动化管道，将PubMed文献转化为结构化生物医学数据集，并构建了Starling多智能体系统，在多个任务上生成了比现有人工数据库更大、更准确的数据集。

Delulu: A Verified Multi-Lingual Benchmark for Code Hallucination Detection in Fill-in-the-Middle Tasks

Mahdi Erfanian et al.

cs.LG

本文提出了Delulu，一个用于代码补全任务中幻觉检测的多语言基准测试，包含1951个样本和4种幻觉类型。通过对抗性流程和人工审核构建，评估了多个开源模型，发现最强模型仅达到84.5%的准确率，表明该任务具有内在难度。

A Systematic Investigation of The RL-Jailbreaker in LLMs

Montaser Mohammedalamen et al.

cs.LG cs.AI

本文系统性地分解了RL-jailbreaker框架，将其解构为问题形式化（reward function, action space, episode length）和算法措施（RL algorithm, training data, reward-shaping），发现dense rewards和extended episode lengths是攻击成功的主要驱动因素。该工作为提升RL-jailbreaker效率并加固生成模型提供了工具。

Learning Material-Aware Hamiltonian Risk Fields for Safe Navigation

Aditya Sai Ellendula, Yi Wang, Chandrajit Bajaj

cs.LG cs.MA cs.RO

本文提出了一种基于port-Hamiltonian框架的材料感知风险场导航策略，通过添加一个context-energy项来学习具有选择性激活特征的力通道，并使用CVaR尾部风险目标优化梯度更新。实验表明该方法在多种场景下能有效区分可行与不可行的避险机动，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

PACEvolve++: Improving Test-time Learning for Evolutionary Search Agents

Minghao Yan et al.

cs.LG

本文提出PACEvolve++，一个用于进化搜索agent的advisor-model强化学习框架，通过解耦策略决策与实现，并采用phase-adaptive方法在进化不同阶段调整优化策略，从而提升测试时学习能力。实验表明，该方法在多个任务上优于现有前沿模型驱动的进化搜索框架。

Towards Differentially Private Reinforcement Learning with General Function Approximation

Yi He, Xingyu Zhou

cs.LG cs.AI

本文首次为具有一般function approximation的差分隐私在线reinforcement learning提供了理论保证，通过结合批处理策略更新与指数机制，证明了在模型无关设置下遗憾界为$\widetilde{O}(K^{3/5})$。此外，文章还建立了在线RL在批处理更新下的首个遗憾界，并揭示了线性function approximation下私有RL的现有结果中的基本差距。

Integrating Causal DAGs in Deep RL: Activating Minimal Markovian States with Multi-Order Exposure

Jiamin Xu, Jacqueline Maasch, Kyra Gan

cs.LG

本文探讨了在深度强化学习中如何从观测变量构建满足Markov性质的MDP状态，提出了MOSE方法通过引入多阶历史状态构造来提升性能。研究发现最小状态表示在深度RL中效果有限，而受控冗余信息对利用因果状态信息至关重要。

Dr. Post-Training: A Data Regularization Perspective on LLM Post-Training

Pingbang Hu et al.

cs.LG cs.AI

本文从数据正则化的角度重新审视LLM后训练，提出将通用训练数据视为防止过拟合的正则化项，而非数据选择池。通过将目标数据指定的模型更新方向投影到通用数据定义的可行集上，该方法统一了标准训练与数据选择方法，并在SFT、RLHF和RLVR任务中优于现有基线。

ModelLens: Finding the Best for Your Task from Myriads of Models

Rui Cai et al.

cs.LG

本文提出了ModelLens框架，通过从公开排行榜交互中学习模型-数据集-度量三元组的隐式性能空间，实现了对未见模型在未见数据集上的推荐，无需在目标数据集上运行候选模型。该方法在包含162万条评估记录的大规模基准上超越了依赖元数据或需运行候选模型的基线方法。

Test-Time Compositional Generalization in Diffusion Models via Concept Discovery

Zekun Wang et al.

cs.LG

本文提出了一种在测试时通过从扩散模型的时间索引score中恢复局部密度模式并组合成product-of-experts模型的方法，实现了无需预定义概念库的组合生成。在ColorMNIST和CelebA上的实验表明该方法优于仅使用查询或最近训练类别的基线。

Actor-Critic with Active Importance Sampling

Majid Molaei et al.

cs.LG

本文提出Active-Importance-Sampling Actor-Critic (AISAC)算法，通过优化behavior policy来降低policy gradient估计的variance，同时保持无偏性。实验表明该方法能提升学习速度和样本效率。

Query-efficient model evaluation using cached responses

Hayden Helm, Ben Johnson, Carey Priebe

cs.LG cs.AI stat.ME

本文提出了一种利用缓存模型响应来高效评估新模型的方法，基于Data Kernel Perspective Space (DKPS)量化黑盒模型间的关系。该方法在理论上证明了查询效率，并在实验中以更少的查询预算达到了与基线相当的预测误差。

CarCrashNet: A Large-Scale Dataset and Hierarchical Neural Solver for Data-Driven Structural Crash Simulation

Mohamed Elrefaie et al.

cs.LG physics.comp-ph

本文提出了一个名为CarCrashNet的大规模开源benchmark，用于数据驱动的结构碰撞仿真，包含超过14,000个组件级和825个整车级碰撞模拟数据，并引入了一个基于机器学习的CrashSolver模型进行整车碰撞预测。该工作主要贡献在于提供了一个可复现的基准数据集，但方法本身在理论或算法上的开创性有限，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Almost Sure Convergence Rates of Stochastic Approximation and Reinforcement Learning via a Poisson-Moreau Drift

Xinyu Liu, Zixuan Xie, Shangtong Zhang

cs.LG math.OC stat.ML

本文通过构造一种结合Poisson方程校正与Moreau包络平滑的新型Lyapunov漂移，研究了在Markovian噪声下具有压缩期望更新的随机逼近算法的几乎必然收敛速率，获得了接近最优的收敛界。

Theoretical Limits of Language Model Alignment

Lucas Monteiro Paes et al.

cs.LG cs.CL cs.CY cs.IT

本文研究了语言模型对齐的理论极限，推导了在KL散度约束下最大期望奖励增益的闭式表达式，并分析了代理奖励设置中的奖励黑客问题。实验表明，best-of-$N$方法接近理论极限，而PPO和GRPO则显著次优。

Solving Max-Cut to Global Optimality via Feasibility-Preserving Graph Neural Networks

Hao Chen et al.

cs.LG math.OC

本文提出了一种针对Max-Cut问题的可行性保持图神经网络，作为半定规划松弛的轻量级代理，可直接嵌入精确分支定界框架。该网络以自监督方式训练，预测原始和对偶可行的SDP解，在保持解可行性的同时将计算成本降低至Mosek的十分之一。

Where to Spend Rollouts: Hit-Utility Optimal Rollout Allocation for Group-Based RLVR

Tao Wang et al.

cs.LG

本文提出HORA方法，通过最大化后验hit utility来动态分配rollout预算，以改进GRPO等group-based RLVR方法中固定分配的低效问题。实验表明该方法在数学推理基准上能提升Pass@K性能，但方法本身属于工程优化而非理论突破，与关键词列表中的概念关联较弱。

Conformal-Style Quantile Analyses for Stochastic Bandits

Chengyu Du, Mengfan Xu

cs.LG stat.ML

本文提出ACP-UCB1算法，将adaptive conformal estimation与UCB-type optimism bonus结合，用于随机bandit问题中上尾性能的优化。通过reward-quantile concentration和perturbation argument等技术，证明了算法在对数级别的upper-quantile regret上界。

Stabilized neural Hamilton--Jacobi--Bellman solvers: Error analysis and applications in model-based reinforcement learning

Minseok Kim et al.

cs.LG cs.AI math.NA math.OC

本文提出了一种混合的Hamilton-Jacobi-Bellman (HJB)求解器，将神经网络表示的值函数与有限差分策略评估算子结合，并给出了该混合框架的误差分析。实验在多个控制基准上验证了其有效性，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

When Symbol Names Should Not Matter: A Logistic Theory of Fresh-Symbol Classification

Wenjie Guan, Jelena Bradic

cs.LG stat.ML

本文研究了transformer在模板任务中学习符号不变分类规则的能力，通过正则化核逻辑分类分析了训练数据中偶然的token重叠对新鲜符号分类的影响。

The Position Curse: LLMs Struggle to Locate the Last Few Items in a List

Zhanqi Zhang et al.

cs.LG cs.CL

本文发现LLM在列表检索中存在“位置诅咒”，即从序列末尾反向检索（如倒数第二项）的能力显著弱于正向检索，即使模型在长文本“大海捞针”任务中表现优异。通过构建PosBench数据集进行LoRA微调可部分改善该能力，但绝对性能仍不饱和，提示位置检索是未来预训练和模型设计的关键能力。

Simple KNN-Based Outlier Detection Achieves Robust Clustering

Tianle Jiang, Yufa Zhou

cs.LG cs.DS

本文研究了基于KNN的离群点检测方法在鲁棒k-Means聚类中的应用，证明了在最优簇大小的实际假设下，移除具有较大KNN距离的点能实现与现有方法相当的近似保证。实验表明该方法在聚类代价和运行时间上优于或匹配更复杂的算法。

GAD in the Wild: Benchmarking Graph Anomaly Detection under Realistic Deployment Challenges

Jingjing Zhou et al.

cs.LG cs.AI

本文提出了一个针对图异常检测(GAD)的多维benchmark，系统评估了模型在百万级图、极端异常稀疏和缺失节点属性等现实部署挑战下的表现。实验发现大多数GNN-based方法无法扩展到大规模图，且检测性能在真实异常比例下急剧下降。

Adaptive Negative Reinforcement for LLM Reasoning:Dynamically Balancing Correction and Diversity in RLVR

Yash Ingle et al.

cs.LG cs.AI

本文针对LLM推理中的RLVR方法，提出了自适应负样本强化（A-NSR）和置信度加权负强化（CW-NSR）两种扩展，通过时间依赖调度和基于置信度的惩罚权重来动态平衡纠错与探索，并在MATH等数据集上验证了效果。该方法主要关注推理优化，与关键词中的code, context, spectral, Muon, pretrain, agent, attention均无直接关联。

Regret-Oracle Complexity Tradeoffs in Agnostic Online Learning

Idan Attias, Steve Hanneke, Arvind Ramaswami

cs.LG

本文研究了agnostic online learning中的regret-oracle complexity tradeoff，通过使用weak-consistency oracle替代传统的ERM oracle，并引入基于VC dimension的动态剪枝策略，将oracle query complexity从双指数级降低到$O(T^{d_\mathrm{VC}+1})$，同时保持near-optimal expected regret。

Learned Lagrangian Models of PDEs via Euler-Lagrange Residual Minimization

Lyra Zhornyak, Eric Forgoston, M. Ani Hsieh

cs.LG

本文提出了一种通过最小化Euler-Lagrange残差来学习连续Lagrangian模型的方法，用于预测PDE系统动力学。该方法使用基于优化的近辛积分器，在局部时空块上实现无网格计算，并验证了在双摆和波动方程上的有效性。

Neurosymbolic Imitation Learning with Human Guidance: A Privileged Information Approach

Nikhilesh Prabhakar et al.

cs.LG

本文提出了一种神经符号模仿学习方法，利用训练时提供的特权信息（如注视数据）来结合神经网络处理高维数据与符号方法泛化能力的优势，实验验证了其有效性和效率。

Cost-Ordered Feasibility for Multi-Armed Bandits with Cost Subsidy

Ishank Juneja, Carlee Joe-Wong, Osman Yağan

cs.LG eess.SY stat.ML

本文研究了带成本补贴的多臂老虎机问题，其中每个臂的成本已知但奖励未知，目标是在满足最低奖励约束下最小化累积成本。作者提出了Cost-Ordered Feasibility (COF)算法，通过智能组合所有臂的样本来评估廉价臂的可行性，并给出了实例依赖的上下界分析。实验在MovieLens和Goodreads数据集上验证了COF相比基线方法的性能优势。

Learning Multi-Relational Graph Representations for DNA Methylation-Based Biological Age Estimation

Qing Qing et al.

cs.LG cs.AI

本文提出RelAge-GNN框架，利用multi-relational graph neural network对DNA methylation数据中的CpG位点关系进行建模，用于biological age estimation。该方法通过构建三种互补图并采用可学习的门控机制融合表示，在年龄预测任务上取得了有竞争力的结果。

Star Elastic: Many-in-One Reasoning LLMs with Efficient Budget Control

Ali Taghibakhshi et al.

cs.LG

本文提出Star Elastic方法，通过单次后训练在父模型内嵌套多个子模型，实现弹性预算控制。该方法支持在SSM、embedding channel、MoE和FFN等轴上进行嵌套，并采用可训练路由器和课程知识蒸馏来学习子模型，在NVIDIA Nemotron Nano模型上验证了其效率优势。

FAME: Forecasting Academic Impact via Continuous-Time Manifold Evolution

Jianrong Ding et al.

cs.LG

本文提出FAME框架，通过将论文投影到由文本特征和知识流图约束的动态latent space中，来建模科学主题的连续时间演化轨迹，从而预测学术影响力。实验表明该方法在预测高影响力论文方面优于静态LLM评估器。

HARMONY: Bridging the Personalization-Generalization Gap by Mitigating Representation Skew in Heterogeneous Split Federated Learning

Jiseok Youn et al.

cs.LG cs.AI

本文针对异构Split Federated Learning中的representation skew问题，提出了HARMONY框架。该框架通过修改meta-learning来模拟不同参数和架构的extractor，并利用server-side contrastive learning对齐特征，在不牺牲个性化性能的前提下提升了OOD预测的准确率。

Same Brain, Different Prediction: How Preprocessing Choices Undermine EEG Decoding Reliability

Dengzhe Hou et al.

cs.LG cs.AI cs.HC cs.NE eess.SP

本文研究了EEG解码中预处理选择对预测结果稳定性的影响，通过形式化预处理为反事实干预空间，发现高达42%的trial-level预测会因预处理变化而翻转。作者提出了Walsh-Hadamard分解、Preprocessing Uncertainty (PU)诊断和Normalized Adaptive PGI (NA-PGI)正则化三种工具来量化、分解和缓解这种不稳定性。

Improved Model-based Reinforcement Learning with Smooth Kernels

Kun Long, Yuqiang Li, Xianyi Wu

cs.LG stat.ML

本文提出了一种基于kernel smoothing的model-based RL方法，通过引入Bernstein-style exploration bonus，在Lipschitz连续假设下改进了finite-horizon setting中的regret bound，特别是对horizon的依赖关系。该方法主要贡献在于理论分析，包括一个可能具有独立价值的martingale Bernstein-type concentration inequality。

On the Robustness of Distribution Support under Diffusion Guidance

Ruijia Cao, Yuchen Wu, Nisha Chadramoorthy

cs.LG

本文研究了扩散引导（diffusion guidance）在生成模型中的理论性质，证明了在精确访问score function的条件下，引导扩散过程生成的样本几乎总是保持在目标支撑集（support）附近。该结果适用于DDIM和DDPM模型，为扩散引导生成高质量样本提供了理论基础。

Don't Learn the Shape: Forecasting Periodic Time Series by Rank-1 Decomposition

Takato Honda

cs.LG

本文提出FLAIR方法，通过rank-1 decomposition将周期性时间序列分解为每日形状和每日水平，仅需少量参数即可高效预测。实验表明，在GIFT-Eval基准上，该方法与复杂模型PatchTST性能相当，但计算成本极低。

Modulated learning for private and distributed regression with just a single sample per client device

Praneeth Vepakomma et al.

cs.LG cs.CR stat.ML

本文针对每个客户端仅有一个样本的分布式回归问题，提出了一种调制学习方法。该方法通过在客户端对单个样本注入精心校准的噪声扰动，并将处理后的表示共享给服务器，从而在保护数据隐私的同时实现无偏梯度更新。

Sample Complexity of Stochastic Optimization with Integer Variables

Hongyu Cheng et al.

cs.LG math.OC

本文研究了整数变量随机优化的样本复杂度，并与连续优化进行了对比。结果表明，整数优化在某些情况下需要更多样本，而在另一些情况下则可能更少，具体取决于目标函数和约束的结构。

Experience Sharing in Mutual Reinforcement Learning for Heterogeneous Language Models

Xiaoze Liu et al.

cs.LG cs.AI cs.CL

本文提出了Mutual Reinforcement Learning框架，用于异构LLM策略的并发RL后训练，通过共享经验交换、多工作资源分配和分词器异构层实现跨模型族的经验共享。在GRPO基础上实例化了三种控制探针，并通过上下文bandit分析刻画了它们在稳定性-支持权衡中的结构位置。

When Are Experts Misrouted? Counterfactual Routing Analysis in Mixture-of-Experts Language Models

Youngsik Yoon et al.

cs.LG cs.CL

本文研究了Mixture-of-Experts (MoE)语言模型中路由机制的有效性，发现标准top-$k$路由器在“脆弱”token上存在次优分配，但该问题可通过仅更新最终层路由器得到部分缓解。

PerCaM-Health: Personalized Dynamic Causal Graphs for Healthcare Reasoning

Elahe Khatibi et al.

cs.LG

本文提出PerCaM-Health框架，用于从纵向健康数据中学习个性化动态因果图。该方法通过知识引导的群体图与患者特定时间证据相结合，支持反事实推理，但未涉及关键词中的code、spectral、Muon、pretrain、agent或attention等概念。

bispectrum: Selective $G$-Bispectra Made Practical

Johan Mathe et al.

cs.LG

本文提出了一个名为bispectrum的开源PyTorch库，实现了针对七种不同群作用的selective $G$-bispectra，作为可微模块可直接用于机器学习流程。该库通过选择性计算将有限群的计算成本从$O(|G|^2)$降至$O(|G|)$，并针对球面3D旋转引入了augmented selective bispectrum，在band-limit $L$下将系数从$O(L^3)$降至$\Theta(L^2)$。实验表明，$G$-bispectra作为pooling层在低数据、中等容量场景下优于norm pooling等基线方法。

Bifurcation Models: Learning Set-Valued Solution Maps with Weight-Tied Dynamics

Caleb Jore, Jialin Liu

cs.LG cs.AI

本文提出了一种权重共享的动力学模型（bifurcation models），通过不同初始值收敛到不同稳定平衡点来学习多值解映射，并证明了其能表示具有局部Lipschitz分支的集值映射。实验表明该方法在无分支标签时能发现多个有效解，但存在精度与多样性的权衡。

Predictive but Not Plannable: RC-aux for Latent World Models

Wenyuan Li et al.

cs.LG cs.AI cs.CV

本文提出RC-aux辅助目标，用于修正重建自由latent world model中预测与规划之间的时空不匹配问题，通过多时间步预测和预算条件可达性监督来改进latent space的规划对齐性。

Mask2Cause: Causal Discovery via Adjacency Constrained Causal Attention

Omar Muhammad, Pasupuleti Dhruv Shivkant, Deepak N. Subramani

cs.LG cs.AI

本文提出Mask2Cause框架，通过引入Inverted Variable Embedding和Adjacency-Constrained Masked Attention机制，在时间序列预测的前向传播中直接恢复因果图，并在多个基准上实现了优于现有方法的因果发现性能。

The Convergence Gap: Instruction-Tuned Language Models Stabilize Later in the Forward Pass

Yifan Zhou

cs.LG

本文提出“convergence gap”这一诊断方法，通过比较各层next-token分布与模型最终分布的差异，发现instruction-tuned模型在forward pass中比pretrained模型更晚稳定其预测。实验表明，late MLP层是影响这一延迟的关键计算模块。

Instruction Tuning Changes How Upstream State Conditions Late Readout: A Cross-Patching Diagnostic

Yifan Zhou

cs.LG

本文通过引入first-divergence cross-patching诊断方法，研究了instruction tuning如何改变上游state对late readout的影响。实验表明，instruction-tuned模型的late stack在读取自身post-trained上游state时效果显著，而pretrained base模型的上游state对late stack影响较小。该工作为理解模型内部计算与行为差异提供了分析工具。

Latent Order Bandits

Emil Carlsson, Newton Mwai, Fredrik D. Johansson

cs.LG

本文提出了一种名为Latent Order Bandits (LOB)的bandit算法，它放宽了传统latent bandit的假设，仅需知道每个状态下动作偏好的partial order（偏序），而非精确的reward distribution。文章给出了一个upper-confidence bound过程及其regret上界，并提出了一个posterior-sampling算法以提升实际表现。

Generative Modeling with Flux Matching

Peter Pao-Huang, Xiaojie Qiu, Stefano Ermon

cs.LG cs.AI

本文提出了Flux Matching，一种新的生成建模范式，通过放宽对vector field的约束（不要求其为conservative），使得模型可以学习非保守的vector field，从而在采样速度和模型可解释性等方面带来灵活性。该方法在高维图像数据集上表现良好，并支持更快的采样和编码变量间有向依赖的动态过程。

SparseRL-Sync: Lossless Weight Synchronization with ~100x Less Communication

Lucas Hu et al.

cs.LG cs.AI cs.DC

本文针对大规模强化学习系统中Trainer与Rollout之间的权重同步通信瓶颈，提出了一种名为SparseRL-Sync的稀疏同步方法。该方法利用参数更新的高度稀疏性（通常99%以上），仅传输变化的索引和数值，在保持100%保真度的同时将通信量降低约100倍。

CellScientist: Dual-Space Hierarchical Orchestration for Closed-Loop Refinement of Virtual Cell Models

Mengran Li et al.

cs.LG cs.SE

本文提出CellScientist框架，通过将高维假设空间与低维可执行实现空间耦合，构建了从假设到实现再到假设的闭环虚拟细胞模型优化流程。该框架将建模决策表示为结构化状态，并在任务和接口约束下生成可执行程序，将执行差异反馈至假设或实现层面进行针对性修正。

Mage: Multi-Axis Evaluation of LLM-Generated Executable Game Scenes Beyond Compile-Pass Rate

Hugh Xuechen Liu, Kıvanç Tatar

cs.LG cs.AI cs.SE

本文提出了一个名为Mage的多轴评估协议，用于评估LLM生成的可执行游戏场景，发现编译通过率与功能正确性在该领域呈负相关，并指出多轴评估的必要性。

FlightSense: An End-to-End MLOps Platform for Real-Time Flight Delay Prediction via Rotation-Chain Propagation Features and Agentic Conversational AI

Aditi J. Shelke, Renuka J. Shelke, Yash M. Kamerkar

cs.LG

本文提出了FlightSense，一个用于实时航班延误预测的端到端MLOps平台，通过三阶段特征工程框架（包括基于时刻表的基线特征、基于飞机轮换链的延误传播特征以及气象特征）训练XGBoost分类器，并集成了实时天气感知的对话式AI助手。该工作主要聚焦于工程实现与系统部署，在方法论上未体现与关键词相关的开创性贡献。

QuadNorm: Resolution-Robust Normalization for Neural Operators

Bum Jun Kim et al.

cs.LG cs.CE math.NA

本文提出QuadNorm和BlendQuadNorm，用数值quadrature替换neural operator中normalization层的均匀平均，使normalization本身对discretization具有鲁棒性。实验表明该方法能有效降低跨resolution的transfer error，尤其在非周期PDE和non-spectral架构上表现显著。

StreamPhy: Streaming Inference of High-Dimensional Physical Dynamics via State Space Models

Panqi Chen et al.

cs.LG

StreamPhy提出了一种基于state space model的端到端框架，用于从稀疏不规则测量中实时推断高维物理场的演化。该框架集成了数据自适应观测编码器、结构化state space model和Functional Tensor Feature-wise Linear Modulation (FT-FiLM)解码器，在多个物理系统上取得了优于现有方法的精度和推理速度。

Convex Optimization with Nested Evolving Feasible Sets

Karthick Krishna M., Haricharan Balasundaram, Rahul Vaze

cs.LG cs.DS math.OC

本文研究了嵌套演化可行集上的凸优化问题，提出了一种懒惰算法和Frugal算法，分别在不同凸性条件下实现了后悔值与移动成本的权衡。该工作是对嵌套凸体追逐问题的优化推广，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Unsolvability Ceiling in Multi-LLM Routing: An Empirical Study of Evaluation Artifacts

Saloni Garg, Amit Sagtani

cs.LG cs.AI cs.CL

本文通过大规模实验研究了多LLM路由中的“不可解性上限”问题，发现大量所谓的不可解性源于评估伪影（如评判者偏见、截断和格式不匹配），并提出了分解框架和验证方法。研究结果表明现有路由性能估计被显著夸大，但未涉及代码、上下文、谱方法或预训练等关键词。

Rubric-based On-policy Distillation

Junfeng Fang et al.

cs.LG cs.AI

本文提出了一种基于rubric的on-policy蒸馏方法ROPD，通过从teacher-student对比中生成prompt-specific rubrics来替代teacher logits，实现了黑盒场景下的模型对齐。实验表明该方法在多数场景下优于传统logit-based OPD方法，并显著提升了样本效率。

Have Graph -- Will Lift? The Case for Higher-Order Benchmarks

Bastian Rieck

cs.LG math.AT

本文讨论了几何与拓扑在机器学习中的应用，指出尽管模型架构多样，但缺乏合适的benchmark datasets，因此研究者常将现有graph datasets提升为higher-order datasets。文章呼吁社区收集新数据集以支撑该领域研究。

Emergent Symbolic Structure in Health Foundation Models: Extraction, Alignment, and Cross-Modal Transfer

Gajendra Katuwal et al.

cs.LG

本文提出了一种后训练框架，将健康基础模型（Health Foundation Models）的frozen embeddings分解为可解释的符号（symbols），并利用这些符号对齐不同模态的embedding空间，无需重新训练。实验表明，这些符号与健康条件和生理属性选择性关联，且跨模态转移能保留超过95%的域内性能。

Tracking Large-scale Shared Bikes with Inertial Motion Learning in GNSS Blocked Environments

Feng Liu et al.

cs.LG cs.AI

本文提出了一种结合自行车机械约束与混合专家模型的惯性追踪框架，用于在GNSS信号受阻环境下追踪共享单车。该方法通过多专家模块和门控机制提升多任务学习性能，并利用踏板与后轮的机械传动关系将骑行行为转化为轮速进行动态校准。

Risk-Consistent Multiclass Learning from Random Label-Subset Membership Queries

Jiaxu Su et al.

cs.LG

本文提出了一种基于随机标签子集查询的多类学习框架，通过建模查询-响应观测的数据生成分布，在经验风险最小化框架下推导出目标风险的无偏估计量，并引入非负和绝对值校正的风险估计器以解决负经验风险及过拟合问题。

SR$^2$-LoRA: Self-Rectifying Inter-layer Relations in Low-Rank Adaptation for Class-Incremental Learning

Fengqiang Wan et al.

cs.LG cs.CV

本文从层间关系漂移的角度分析了class-incremental learning中的灾难性遗忘问题，并提出SR$^2$-LoRA方法，通过对齐新旧模型在当前任务样本上的relation matrices的奇异值来约束漂移。实验表明该方法能有效缓解遗忘，且优势随任务数量增加而更明显。

A Flexible Adaptive Stable Clustering Algorithm for Archive-Scale Online Mass Spectrometry

Shao Shi et al.

cs.LG

本文提出了一种名为FASC的聚类算法，通过解耦相似性核与优化逻辑，实现了对大规模质谱数据的稳定、可扩展聚类。该算法在标准数据集上验证了高纯度，并在2500万大气气溶胶质谱数据上展示了线性时间复杂度和自主发现化学路径的能力。

GameGen-Verifier: Parallel Keypoint-Based Verification for LLM-Generated Games via Runtime State Injection

Chaobo Jia et al.

cs.LG

本文提出GameGen-Verifier，一种用于验证LLM生成游戏正确性的自动化方法，通过将规范分解为可验证的关键点并注入运行时状态进行独立验证，在VeriGame数据集上相比基线方法提升了准确率并大幅缩短了验证时间。

VNN-LIB 2.0: Rigorous Foundations for Neural Network Verification

Ann Roy et al.

cs.LG

本文为VNN-LIB标准提出了2.0版本的理论基础，通过引入"network theory"概念抽象了神经网络模型格式的语义接口，并给出了形式化的语法、类型系统和语义，以解决1.0版本中缺乏精确语义和依赖ONNX的问题。

Inference-Time Attribute Distribution Alignment for Unconditional Diffusion

Hao Luan, See-Kiong Ng, Chun Kai Ling

cs.LG

本文针对无条件扩散模型在推理时控制生成样本属性分布的问题，提出了一种基于最优控制的方法，通过向逆扩散过程添加时变扰动来对齐属性分布，无需重新训练模型。实验表明该方法在图像生成中能有效匹配多样化的目标分布。

Estimation of Motor Unit Parameters from Surface Electromyograms using an Informed Autoencoder

Kaja Balzereit, Malte Mechtenberg, Axel Schneider

cs.LG

本文提出了一种基于informed autoencoder的方法，从表面EMG信号中同时估计多个运动单元参数（如innervation zone centre和conduction velocity），通过将物理规律融入latent space的学习过程，在合成数据上验证了方法的可行性。

Learning Minimal-Deviation Corrections for Multi-Dimensional Mismodelling in HEP Simulations

Matthias Schott, Lucie Flek

cs.LG hep-ex

本文提出了一种基于神经网络的修正方法，用于在高能物理模拟中，当仅有1D目标分布可用时，对多维特征空间中的建模偏差进行最小化修正。该方法通过保持原始模拟的全局相关结构来学习事件变换，从而改善与目标分布的一致性。

Physical Simulators as Do-Operators: Causal Discovery under Latent Confounders for AI-for-Science

Tsuyoshi Okita

cs.LG cs.AI cs.ET

本文提出CFM-SD方法，利用第一性原理物理模拟器作为do-operator来处理存在latent confounders的因果发现，理论上证明了$d$变量因果结构在$O(d)$次单变量干预下可识别。实验表明该方法在合成数据和真实科学数据上均优于现有基线，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

Uncovering Hidden Systematics in Neural Network Models for High Energy Physics

Lucie Flek et al.

cs.LG hep-ex

本文研究了高能物理中神经网络模型对输入观测值微小扰动的敏感性，发现这些扰动能在不改变输入分布的情况下显著改变网络输出，并提出了一个量化框架来评估和控制这种隐藏的系统性不确定性。

Transfer Learning Across Fast- and Full-Simulation Domains in High-Energy Physics

Matthias Schott, Lucie Flek

cs.LG hep-ex

本文系统研究了高能物理中快速模拟与全模拟数据集之间的迁移学习，使用多种神经网络架构在三个代表性任务上验证了预训练模型能显著减少目标域所需训练数据量。

NPMixer: Hierarchical Neighboring Patch Mixing for Time Series Forecasting

Jung Min Choi, Vijaya Krishna Yalavarthi, Lars Schmidt-Thieme

cs.LG

本文提出NPMixer，一种用于多变量时间序列预测的分层架构，通过可学习平稳小波变换和邻域混合器块来捕捉局部时间动态和多尺度依赖。实验表明其在多个基准数据集上优于现有模型。

SHRED: Retain-Set-Free Unlearning via Self-Distillation with Logit Demotion

Zizhao Hu et al.

cs.LG cs.AI

本文提出了一种名为SHRED的机器遗忘方法，通过自蒸馏和logit降级技术，无需保留集即可从大语言模型中移除特定记忆内容。该方法利用token级别的信息量差异，选择高信息量token进行遗忘，同时保持低信息量token的分布不变，从而在遗忘效果和模型通用性之间取得平衡。

Does Your Neural Network Extrapolate? Feature Engineering as Identifiability Bias for OOD Generalization

Leonel Aguilar et al.

cs.LG cs.AI

本文研究了深度神经网络在分布外(OOD)泛化中的失败机制，指出从单一训练窗口进行OOD外推是不可识别的，并引入特征映射、标签映射和模型类$(\varphi, \psi, \mathcal{M})$的结构承诺作为决定OOD泛化的关键。实验表明，当结构承诺正确且可识别时，OOD误差可消失，例如Fourier坐标可将周期外推转化为$\mathbb{S}^1$上的插值。

Excluding the Target Domain Improves Extrapolation: Deconfounded Hierarchical Physics Constraints

Tsuyoshi Okita

cs.LG cs.AI

本文提出Deconfounded Hierarchical Gate (DHG)方法，通过do-operator和backdoor adjustment消除温度混杂变量，并采用Coarse-to-Fine物理约束来改进物理约束深度生成模型的外推能力。实验发现，在预训练中排除目标域数据反而能提升39%的外推性能，最终在锂电池温度外推任务上RMSE达到0.215。

ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression

Tingcheng Bian et al.

cs.LG cs.CL

本文提出ExpThink框架，通过经验引导的奖励塑造和难度自适应优势机制，在强化学习中实现自适应链式思维压缩，在数学推理基准上减少响应长度并提升准确率。该方法主要针对大语言模型的推理效率优化，与关键词中的概念关联较弱。

Tessellations of Semi-Discrete Flow Matching

Emile Pierret et al.

cs.LG

本文研究了半离散Flow Matching中终端分配区域的几何性质，证明了这些区域是开集、单连通的，并在额外假设下与单位球同胚。通过一个平面四点例子，展示了这些区域与半离散最优传输中的Laguerre cell存在显著差异，可能非凸、边界弯曲且邻接模式不同。

Why Self-Inconsistency Arises in GNN Explanations and How to Exploit It

Wenxin Tai et al.

cs.LG cs.AI

本文研究了自解释图神经网络(SI-GNNs)中解释自不一致性的成因，发现重新解释导致的context扰动是直接原因，并提出了一个无需训练的模型无关后处理策略Self-Denoising (SD)来校准解释。

SGD for Variational Inference: Tackling Unbounded Variance via Preconditioning and Dynamic Batching

Hippolyte Labarrière et al.

cs.LG math.OC

本文研究了Black-Box Variational Inference (BBVI)中随机梯度的无界方差问题，证明了椭圆位置-尺度分布族中ELBO解的存在性，并为Minibatch Projected SGD (PSGD)在动态批处理和预处理下的收敛性提供了理论保证。

On the Invariance and Generality of Neural Scaling Laws

Xing Han et al.

cs.LG

本文研究了神经缩放定律的跨域泛化问题，发现缩放定律在双射变换下保持不变，而在非双射变换下可通过信息分辨率$\rho$进行预测性调整。作者在语言、视觉和语音任务上验证了该理论，并展示了从通用文本到电子健康记录等跨域应用中的缩放预测能力。

Disagreement-Regularized Importance Sampling for Adversarial Label Corruption

Csongor Horváth, Ida-Maria Sintorn, Prashant Singh

cs.LG

本文针对标签损坏下重要性采样失效的问题，提出了一种基于loss rank-disagreement的子采样方法DR-IS，并给出了有限样本浓度界和污染率控制的理论保证。实验表明该方法在高范数对抗攻击下比基于范数的方法更鲁棒。

ProteinJEPA: Latent prediction complements protein language models

Dan Ofer, Dafna Shahaf, Michal Linial

cs.LG cs.AI q-bio.BM stat.ML

本文研究了在蛋白质语言模型中，将latent-space prediction与masked language modeling (MLM)结合的效果。实验发现，仅在masked positions上预测latent targets并保留MLM cross-entropy的“masked-position MLM+JEPA”方法，在多数下游任务上优于纯MLM训练，但该方法并非在所有场景下都稳定有效。

Beyond Distribution Estimation: Simplex Anchored Structural Inference Towards Universal Semi-Supervised Learning

Yaxin Hou et al.

cs.LG

本文提出SAGE方法，通过Simplex Anchored Graph-state Equipartition捕获样本间高阶依赖关系，以绕过分布估计进行representation-level structural inference，从而解决Universal Semi-supervised Learning中伪标签错误导致的representation confusion问题。该方法在五个标准基准上平均准确率提升8.52%。

Ensemble Distributionally Robust Bayesian Optimisation

Tigran Ramazyan, Denis Derkach

cs.LG cs.AI stat.ML

本文提出了一种用于集成分布鲁棒贝叶斯优化的算法，在连续上下文下保持计算可行性，并获得了理论上的次线性遗憾界。该方法通过集成模型提升对数据复杂性和噪声的鲁棒性，其经验行为与理论保证一致。

Bilevel Graph Structure Learning, Revisited: Inner-Channel Origins of the Reported Gain

Minkyoung Kim, Beakcheol Jang

cs.LG

本文通过引入frozen-$\phi$控制实验，将双层图结构学习的增益分解为内循环训练动态（inner channel）和图重连（graph channel），发现内循环训练动态（含隐式梯度正则化）贡献了大部分性能提升，而非通常认为的图结构重连本身。

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States

Yunho Choi et al.

cs.LG cs.AI cs.CL

本文提出POISE方法，利用policy model的内部状态（如hidden states和token-entropy statistics）来估计value baseline，从而在RLVR中实现方差缩减。该方法通过cross-rollout construction保持梯度无偏性，并在数学推理benchmark上匹配DAPO性能的同时降低计算开销。

Revisiting Transformer Layer Parameterization Through Causal Energy Minimization

Jin Xu et al.

cs.LG cs.AI stat.ML

本文提出Causal Energy Minimization (CEM)框架，将Transformer层重新解释为对条件能量函数的优化步骤，并推导出权重共享的MHA和gated MLP可视为特定能量上的梯度更新。实验表明，尽管参数化受限，CEM导出的层在语言建模中仍能稳定训练并匹配基线性能。

Optimal Recourse Summaries via Bi-Objective Decision Tree Learning

Ioannis Chatzis et al.

cs.LG

本文提出SOGAR方法，将Recourse Summary学习转化为双目标决策树学习问题，通过寻找Pareto前沿来平衡recourse effectiveness与recourse cost。该方法使用浅层axis-parallel decision tree和稀疏leaf actions，在多个指标上优于现有方法。

Mathematical Reasoning via Intervention-Based Time-Series Causal Discovery Using LLMs as Concept Mastery Simulators

Tsuyoshi Okita

cs.LG cs.AI cs.CL

本文提出CIKA框架，利用LLM自身作为干预模拟器，通过设置概念状态为“掌握”并观察正确率变化来估计因果效应，从而识别对数学推理有因果贡献的概念。该方法在多个基准上取得了优于o1-mini等模型的表现，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Learning Large-Scale Modular Addition with an Auxiliary Modulus

Hanato Kikuchi et al.

cs.LG

本文研究了大规模模加法学习中的协变量偏移问题，提出在训练时引入辅助模数$Kq$以减少环绕频率并控制问题难度，同时保持训练与测试输入分布一致。实验表明该方法在长输入长度和大模数下具有更好的可扩展性和样本效率。

Stochastic Transition-Map Distillation for Fast Probabilistic Inference

George Rapakoulias et al.

cs.LG cs.CV

本文提出Stochastic Transition-Map Distillation (STMD)，一种无需teacher的扩散模型加速推理框架，通过蒸馏采样SDE的完整transition map并利用conditional Mean Flow模型参数化，实现一步或少数步的随机采样。该方法在MNIST、CIFAR-10和CelebA上验证了图像生成效果，并给出了Wasserstein距离下的收敛界。

Direction-Preserving Number Representations

Bardia Zadeh, George A. Constantinides

cs.LG math.NA

本文引入了一个几何框架来分析低精度数值格式（如定点数和浮点数）在表示向量方向时的性能，并量化了其与最优球面编码之间的差距。通过数值优化，作者发现NVIDIA的E2M1格式在四比特下接近最优，并提供了理论解释。

Structured Coupling for Flow Matching

Xavier Sumba, Carles Balsells-Rodas, Yingzhen Li

cs.LG

本文提出Structured Coupling for Flow Matching (SCFM)，通过引入结构化latent variable和exogenous noise到source分布，联合学习structured prior和continuous transport map，在保持生成质量的同时实现无监督的latent representation learning。

The Coupling Tax: How Shared Token Budgets Undermine Visible Chain-of-Thought Under Fixed Output Limits

Wenhua Nie et al.

cs.LG

本文研究了在固定输出token预算下，共享推理链与最终答案的token预算会削弱Chain-of-Thought推理效果，即“耦合税”现象。通过实验和理论分解，作者发现非思考模式在低预算下表现更优，并提出了split-budget generation作为缓解方案。

Gradient Starvation in Binary-Reward GRPO: Why Group-Mean Centering Fails and Why the Simplest Fix Works

Wenhua Nie et al.

cs.LG

本文研究了GRPO算法在二元奖励下的梯度饥饿问题，指出组均值中心化方法在组内所有响应全对或全错时会导致学习信号消失。作者提出固定参考的Sign优势函数$A=2r-1$，通过pass@$G$失败下降机制提升性能，在GSM8K测试集上相比标准方法获得显著提升。

Fortifying Time Series: DTW-Certified Robust Anomaly Detection

Shijie Liu et al.

cs.LG

本文针对时间序列异常检测中的鲁棒性问题，提出了一种基于Dynamic Time Warping (DTW)度量的认证鲁棒防御方法。通过将随机平滑范式与从$\ell_p$-范数到DTW距离的下界变换相结合，首次实现了在DTW度量下的可认证鲁棒性保证。实验表明该方法在DTW对抗攻击下相比传统认证模型有显著性能提升。

Toward Better Geometric Representations for Molecule Generative Models

Shaoheng Yan et al.

cs.LG

本文提出LENSEs框架，通过引入representation head、molecule perceptual loss和node-level REPA loss三种机制，改进了分子生成模型中预训练表示的质量。该方法在GEOM-DRUG数据集上提升了生成分子的有效性和稳定性，但未涉及关键词中的code、spectral、Muon、agent或attention等概念。

Future Validity is the Missing Statistic: From Impossibility to $Φ$-Estimation for Grammar-Faithful Speculative Decoding

Wenhua Nie et al.

cs.LG cs.IT

本文研究了语法约束下的speculative decoding（推测解码）中采样分布与目标grammar-conditional distribution（语法条件分布）之间的偏差，指出任何使用local mask（局部掩码）和Leviathan rejection（Leviathan拒绝）的解码器实际采样的是局部投影分布而非目标分布。文章提出了future-validity function（未来有效性函数）作为缺失的修正统计量，并给出了基于该函数的oracle解码器FVO-Spec，但整体方法更偏向理论分析而非与关键词直接相关的开创性应用。

Bayesian Fine-tuning in Projected Subspaces

Viktar Dubovik et al.

cs.LG

本文提出了一种在低维投影子空间中进行贝叶斯微调的框架，旨在解决标准LoRA缺乏不确定性量化的问题，同时保持参数效率。该方法通过将权重不确定性建模在低维空间中，实现了改进的校准和泛化性能。

An Efficient Hybrid Sparse Attention with CPU-GPU Parallelism for Long-Context Inference

Feiyu Yao et al.

cs.LG cs.AI cs.PF

本文提出Fluxion，一种针对长上下文推理中CPU驻留KV cache的高效混合稀疏注意力机制，通过输出感知的KV预算分配、头部特定稀疏配置和CPU-GPU协同执行来优化系统效率。实验表明，该方法在保持模型质量的同时实现了1.5-3.7倍加速。

Curated Synthetic Data Doesn't Have to Collapse: A Theoretical Study of Generative Retraining with Pluralistic Preferences

Ali Falahati et al.

cs.LG cs.AI

本文从alignment角度理论分析了生成模型递归训练中的collapse问题，证明使用多个reward function进行curation可以缓解collapse，模型会收敛到满足加权Nash bargaining solution的稳定分布。

Drifting Field Policy: A One-Step Generative Policy via Wasserstein Gradient Flow

Juil Koo et al.

cs.LG cs.AI cs.RO

本文提出Drifting Field Policy (DFP)，一种基于漂移模型范式的非ODE一步生成式策略。它将策略更新视为概率空间中的梯度步，通过反向KL Wasserstein-2梯度流逼近软目标策略，并推导出可处理的代理损失函数。

Intelligent Truck Matching in Full Truckload Shipments using Ping2Hex approach

Srinivas Kumar R et al.

cs.LG cs.AI

本文提出了一种基于Uber H3 hexagonal spatial indexing和LightGBM gradient boosting的机器学习系统ITM 2.0，用于解决全卡车运输中因GPS数据缺失或损坏导致的车辆与货物匹配问题。该系统将匹配问题转化为probabilistic ranking问题，并在北美和欧洲的测试中显著提升了匹配精度和覆盖率。

Robust and Reliable AI for Predictive Quality in Semiconductor Materials Manufacturing with MLOps and Uncertainty Quantification

Min Gao et al.

cs.LG cs.CE

本文研究了半导体材料制造中MLOps的重新训练策略，使用五年真实数据评估不同重新训练频率和超参数优化方法，发现固定每五批生产批次重新训练且不调整超参数的策略在性能与计算效率上最优，并采用conformal prediction提供预测置信区间以实现主动质量控制。

Rethinking State Tracking in Recurrent Models Through Error Control Dynamics

Jiwan Chung, Heechan Choi, Seon Joo Kim

cs.LG cs.CL

本文重新审视了循环模型中的状态追踪问题，从误差控制动力学角度分析了仿射循环网络（包括State-Space Models和Linear Attention）的局限性。作者证明这类模型无法在保持状态表示的同时纠正沿状态分离子空间的误差，导致其只能学习有限时间范围内的解。实验表明，当区分度比率低于解码器的可读阈值时，追踪性能会崩溃。

When Losses Align: Gradient-Based Composite Loss Weighting for Efficient Pretraining

Ivan Karpukhin, Andrey Savchenko

cs.LG cs.AI

本文提出了一种基于梯度的bilevel方法，用于在线学习pretraining loss weights，通过将composite pretraining gradient与downstream objective对齐来减少超参数调优成本。该方法在event-sequence modeling和self-supervised computer vision任务上匹配或优于精心调优的baseline，但未涉及code、context、spectral、Muon、agent或attention等关键词。

Efficient Verification of Neural Control Barrier Functions with Smooth Nonlinear Activations

Jun Zhang et al.

cs.LG

本文提出LightCROWN方法，通过利用激活函数的解析性质计算更紧的Jacobian界，以提升对神经控制屏障函数(NCBFs)的验证效率。实验表明该方法在多个非线性控制系统中提高了验证成功率和可扩展性。

Pre-trained Tabular Foundation Models as Versatile Summary Networks for Neural Posterior Estimation

Elliot Pickens, Chiraag Gohel, Sidharth Satya

cs.LG

本文研究了TabPFN作为无训练、模块化的summary network用于simulation-based Bayesian inference (SBI)。通过将预训练的TabPFN encoder作为固定summary network，再搭配下游inference head，该方法在部分场景下匹配甚至超越了传统后验近似方法，但TabPFN-derived summaries在捕捉联合后验结构方面存在局限。

Training-Induced Escape from Token Clustering in a Mean-Field Formulation of Transformers

Noboru Isobe, Daisuke Inoue, Masaaki Imaizumi

cs.LG math.AP math.DS math.OC

本文在带噪声的mean-field Transformer框架下，研究了仅训练参数线性FFN（受$L^2$正则化）时，训练如何改变attention驱动的token clustering现象。分析基于一个entropy-regularized interaction energy，发现训练会诱导token分布从聚类状态中逃逸。

POETS: Uncertainty-Aware LLM Optimization via Compute-Efficient Policy Ensembles

Nicolas Menet, Andreas Krause, Abbas Rahimi

cs.LG cs.AI stat.ML

本文提出POETS框架，通过共享预训练backbone和独立LoRA分支的高效架构，直接训练policy ensemble来捕获epistemic uncertainty，从而在LLM优化中平衡探索与利用。该方法理论上证明了隐式进行KL-regularized Thompson sampling并具有强累积regret界，在蛋白质搜索和量子电路设计等科学发现领域展现了样本效率优势。

Tracing Uncertainty in Language Model "Reasoning"

Nils Grünefeld et al.

cs.LG cs.AI cs.CL

本文通过不确定性量化视角研究语言模型推理过程，提出用不确定性轨迹特征（如斜率和线性度）来预测推理结果正确性，在GSM8K和ProntoQA数据集上达到AUROC 0.807。该方法仅需前几百个token即可检测错误，但未涉及代码、上下文、谱方法等关键词相关领域。

Spectral Surgery: Class-Targeted Post-Hoc Rebalancing via Hessian Spike Perturbation

Hugo Vigna, Samuel Bontemps

cs.LG cs.CV

本文提出了一种名为Spectral Surgery的后处理方法，通过扰动模型权重沿Hessian矩阵的spike特征向量来重新平衡各类别的分类准确率，无需重新训练。该方法在CIFAR-10和ISIC-2019数据集上取得了初步的平衡准确率提升。

Neural Operators as Efficient Function Interpolators

Vasilis Niarchos, Angelos Sirbu, Sokratis Trifinopoulos

cs.LG cs.AI math.NA nucl-th

本文提出将Neural Operators (NOs)重新用于有限维函数插值，通过引入辅助基空间将有限维函数视为算子。实验表明，NOs在精度上可匹配或超越标准MLP和KAN，且参数更少、训练更快，并在核质量模型修正中取得良好效果。

Toward Privileged Foundation Models:LUPI for Accelerated and Improved Learning

Xueying Ding, Leman Akoglu

cs.LG cs.AI

本文提出PIQL框架，通过引入privileged information（如数据集统计和生成程序编码）来加速tabular foundation models的训练并提升泛化能力。理论分析表明该方法能缩小近似差距并加速收敛，实验验证了其效果。

Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning

Zhicheng Yang et al.

cs.LG cs.AI

本文提出Prune-OPD框架，通过实时监测student与teacher预测的局部兼容性（如top-$k$重叠）来检测prefix-drift事件，并对不可靠的teacher reward进行动态截断和权重降低。该方法旨在解决on-policy distillation在长程推理任务中因轨迹漂移导致的计算浪费和奖励质量下降问题，实验表明其在减少训练时间的同时能保持或提升性能。

Flexible Routing via Uncertainty Decomposition

Charlotte Peale et al.

cs.LG

本文提出了一种基于不确定性分解的灵活路由方法，通过将总不确定性分解为可约和不可约成分，动态决定是否将查询路由到低成本模型或高成本oracle。该方法无需重新训练即可适应不同损失函数和成本参数，并在理论上提供了与最优任务特定路由器相比的regret界。

The Minimax Rate of Second-Order Calibration

Kamil Ciosek et al.

cs.LG

本文研究了二分类问题中二阶校准误差的极小极大估计率，通过使用sech扰动核使校准函数在条带内解析，从而以$\tilde{O}(1/\sqrt{n})$的速率估计校准误差，并给出了匹配的下界。该工作为高阶预测器的后处理重校准提供了首个有限样本保证。

Scaling Categorical Flow Maps

Oscar Davis et al.

cs.LG

本文通过训练1.7B参数的categorical flow matching模型并自蒸馏，证明了该方法在文本生成中可在4步推理内达到接近数据熵的多样性，并首次在较大规模（2.1T tokens）上验证了其可扩展性，同时引入了半离散似然界用于模型评分。

Approximation-Free Differentiable Oblique Decision Trees

Subrat Prasad Panda, Blaise Genest, Arvind Easwaran

cs.LG cs.AI

本文提出DTSemNet，一种将硬斜决策树表示为神经网络的语义等价且可逆的方法，实现了无需近似的端到端梯度训练。针对回归任务中的联合优化挑战，作者分析了STE的局限性并引入退火Top-k方法以提供准确梯度信号。实验表明该方法在分类和回归基准上优于现有可微决策树，并展示了其在强化学习中的应用潜力。

\mathsf{VISTA}: Decentralized Machine Learning in Adversary Dominated Environments

Hanzaleh Akbari Nodehi et al.

cs.LG cs.AI cs.DC

本文提出了一种名为VISTA的去中心化机器学习算法，用于在恶意节点占多数的对抗环境中进行鲁棒优化。该算法通过一个基于激励的框架，根据节点报告的一致性动态调整接受阈值，从而在早期快速收敛与后期高精度之间取得平衡。

Distributional simplicity bias and effective convexity in Energy Based Models

Aurélien Decelle, Alfonso de Jesús Navas Gómez, Beatriz Seoane

cs.LG

本文通过有效模型（可视为广义Ising模型或能量的Fourier展开）对基于能量的学习进行了动力学分析，证明了梯度流存在数据一致点和虚假不动点，并揭示了低阶相互作用先于高阶被学习的层次性。该工作为分布简单性偏好提供了机制性解释，但与我提供的关键词列表关联较弱。

Actor-Critic Algorithm for Dynamic Expectile and CVaR

Yudong Luo, Erick Delage

cs.LG

本文提出了一种基于softmax策略参数化的无转移扰动的代理策略梯度，并利用可诱导性为动态expectile和条件风险价值开发了无模型价值学习方法，最终构建了一个无模型离策略actor-critic算法。实验表明该算法能学习风险规避策略并优于现有方法。

On the Tradeoffs of On-Device Generative Models in Federated Predictive Maintenance Systems

Usevalad Milasheuski et al.

cs.LG cs.AI

本文研究了联邦预测性维护系统中生成模型（VAE, GAN, DM）的性能与通信开销权衡，提出了一种基于部分组件共享的联邦生成模型分类法。实验表明，在带宽受限和非独立同分布场景下，扩散模型的解码器共享策略可优于完全联邦训练。

KL for a KL: On-Policy Distillation with Control Variate Baseline

Minjae Oh et al.

cs.LG cs.AI cs.CL

本文提出vOPD方法，将On-Policy Distillation (OPD) 转化为policy-gradient RL问题，通过引入控制变量基线（即value function）来稳定训练。该方法利用学生与教师之间per-token的负reverse KL散度作为value function的闭式解，无需额外critic或推理，在保持梯度无偏的同时降低方差。实验表明vOPD在数学和科学推理基准上优于标准OPD，且性能与昂贵的全词汇基线相当。

Black-box model classification under the discriminative factorization

Hayden Helm, Merrick Ohata, Carey Priebe

cs.LG stat.ML

本文提出了一种用于黑盒模型分类的判别式分解方法，通过分析模型对查询集的响应嵌入来区分查询集质量，并证明在该框架下随机分类概率随查询预算指数衰减。实验表明估计的分解参数能预测性能衰减率，并复现了理想查询集的排序。

Enhancing Federated Quadruplet Learning: Stochastic Client Selection and Embedding Stability Analysis

Ozgu Goksu, Nicolas Pugeault

cs.LG cs.CV

本文提出FedQuad方法，通过联合最小化正样本对距离和最大化负样本对距离来缓解联邦学习中数据异构性导致的表示对齐问题，在多个非IID数据集上验证了有效性。该方法主要关注联邦学习中的度量学习，与关键词中的概念关联较弱。

Adaptive Regularization for Sparsity Control in Bregman-Based Optimizers

Ahmad Aloradi et al.

cs.LG

本文针对Bregman-based optimizers（如LinBreg和AdaBreg）在稀疏训练中参数敏感的问题，提出了一种自适应正则化方案，通过当前稀疏度与目标稀疏度的差异动态更新正则化参数$\lambda$。实验表明该方法能可靠达到75%-99%的稀疏目标，并继承了非自适应版本的鲁棒性优势。

Curvature Beyond Positivity: Greedy Guarantees for Arbitrary Submodular Functions

Yixin Chen, Alan Kuhnle

cs.LG cs.DS

本文通过扩展curvature参数至所有submodular functions，提出了一种带剪枝的greedy算法，首次在非单调且可能取负值的情况下给出了乘性近似保证，但未直接涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Tree SAE: Learning Hierarchical Feature Structures in Sparse Autoencoders

Tue M. Cao et al.

cs.LG

本文针对Sparse Autoencoder (SAE)中层级特征学习问题，指出仅依赖激活覆盖条件（子特征激活时父特征必须激活）会产生语义无关的误报，并提出一种新的重建约束来强化层级间的功能联系。基于此，作者设计了Tree SAE模型，在特征集内部直接学习层级结构，实验表明其在学习层级对任务上显著优于现有SAE，同时保持与最先进方法相当的基准性能。

Trajectory as the Teacher: Few-Step Discrete Flow Matching via Energy-Navigated Distillation

Amin Karimi Monsefi et al.

cs.LG cs.AI cs.CL

本文提出Trajectory-Shaped Discrete Flow Matching (TS-DFM)方法，通过引入轻量级energy compass在训练过程中引导离散flow matching的中间轨迹，从而提升学生模型在少步生成中的性能。该方法在不增加推理成本的前提下，在170M参数语言模型上实现了8步生成比1024步教师模型更低的perplexity。

INO-SGD: Addressing Utility Imbalance under Individualized Differential Privacy

Xiao Tian et al.

cs.LG cs.AI

本文分析了在个性化差分隐私（IDP）下训练模型时存在的效用不平衡问题，即隐私要求更强的数据子集在模型中可能被严重低估。作者提出了INO-SGD算法，通过在每批次内策略性地降低某些数据的权重来改善对高隐私数据的性能，并证明了该算法满足IDP约束。

Prototype Guided Post-pretraining for Single-Cell Representation Learning

Sachini Weerasekara et al.

cs.LG

本文提出CellRefine，一种在单细胞基础模型的预训练与微调阶段之间进行的后预训练方法，通过引入marker-gene sets作为结构先验来优化细胞潜在嵌入流形，从而提升下游任务性能。实验表明该方法在多个计算生物学任务上取得了一致改进。

Slowly Annealed Langevin Dynamics: Theory and Applications to Training-Free Guided Generation

Atsushi Nitanda et al.

cs.LG

本文研究了Slowly Annealed Langevin Dynamics (SALD)采样器及其在无训练引导生成中的应用，通过KL微分不等式建立了非渐近收敛保证，并提出了Velocity-Aware SALD (VA-SALD)以修正引导偏差。该方法为扩散模型等生成模型家族提供了无训练引导生成的理论框架。

Graph Representation Learning Augmented Model Manipulation on Federated Fine-Tuning of LLMs

Hanlin Cai et al.

cs.LG cs.CR cs.NI

本文提出了一种针对联邦微调大语言模型的图表示学习增强模型操纵策略AugMP，通过图表示学习框架捕捉良性更新的特征相关性来生成恶意更新，并利用增广拉格朗日对偶公式优化恶意更新以保持隐蔽性。实验表明该方法能有效降低全局模型精度并规避传统防御。

FLAM: Evaluating Model Performance with Aggregatable Measures in Federated Learning

Fabian Stricker et al.

cs.LG cs.DC

本文研究了联邦学习中分布式评估与集中式评估结果不一致的问题，提出了一种名为FLAM的评估方法，通过聚合可加性度量来消除这种差异。该方法无需全局测试数据集即可获得与集中式评估一致的结果。

Aggregation in conformal e-classification

Vladimir Vovk

cs.LG

本文实验研究了cross-conformal e-prediction及其简化变体，这些方法用于聚合conformal e-predictors，以在保持有效性的同时平衡预测与计算效率。

When Diffusion Model Can Ignore Dimension: An Entropy-Based Theory

Ahmad Aghapour, Erhan Bayraktar

cs.LG cs.IT

本文从信息论角度研究diffusion model的收敛性，证明对于Gaussian mixture目标分布，离散化误差由潜在混合成分的Shannon entropy控制，而非环境维度。该结果解释了高维数据（如图像）中diffusion sampler效率的原因，但未直接涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention。

It Just Takes Two: Scaling Amortized Inference to Large Sets

Antoine Wehenkel et al.

cs.LG cs.AI stat.ML

本文提出了一种用于大规模集合的摊销推断方法，通过将表示学习与后验建模解耦，仅使用大小为2的集合训练一个mean-pool Deep Set编码器，使其能泛化到任意集合大小，从而显著降低训练成本。该方法在多个基准测试中匹配或超越了标准基线，但并未直接涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Self-Play Enhancement via Advantage-Weighted Refinement in Online Federated LLM Fine-Tuning with Real-Time Feedback

Seohyun Lee et al.

cs.LG

本文提出SPEAR算法，用于在线联邦LLM微调中的自我对弈增强。该方法通过反馈引导的自我对弈循环构建对比对，并利用标准最大似然和置信加权非似然进行训练，无需昂贵的组生成和真实上下文，实现了资源高效的在线学习。

Susceptibilities and Patterning: A Primer on Linear Response in Bayesian Learning

Chris Elliott, Daniel Murfet

cs.LG cond-mat.stat-mech math.ST

本文介绍了贝叶斯学习中线性响应理论（susceptibilities）的概念，将其定义为后验期望对数据扰动的导数，并通过fluctuation-dissipation theorem与后验协方差关联。文章展示了不同观测量的选择如何导出influence matrix和structural susceptibility matrix，并讨论了这些矩阵与数据分布到结构坐标映射的Jacobian之间的关系。

Where's the Plan? Locating Latent Planning in Language Models with Lightweight Mechanistic Interventions

Nicole Ma, Nick Rui

cs.LG cs.AI

本文研究了语言模型在生成押韵对句时，其内部对未来约束token（如押韵词）的规划表示是否因果性地驱动生成。通过线性探针和激活修补两种轻量级方法，发现只有Gemma-3-27B模型在约第30层存在从押韵词到行边界的因果驱动迁移，而其他模型虽能解码未来信息但缺乏因果依赖。

Bayesian Sensitivity of Causal Inference Estimators under Evidence-Based Priors

Nikita Dhawan et al.

cs.LG stat.ME

本文推广了s-value框架，用于评估因果推断中三种常见假设的敏感性，并提出了基于证据先验的贝叶斯敏感性值（BSV），通过Monte Carlo近似估计假设违背对估计量的预期影响。

Graph-Structured Hyperdimensional Computing for Data-Efficient and Explainable Process-Structure-Property Prediction

Jingzhan Ge et al.

cs.LG cs.AI

本文提出PSP-HDC框架，利用graph-structured hyperdimensional computing对稀疏、异质的3D微结构制造数据进行process-structure-property预测。该方法通过将有向PSP图编码为内部先验，实现表示、推理和解释，并在电阻率预测任务上取得较好性能。

STEPS: A Temporal Smooth Error Propagation Solver on the Manifolds for Test-Time Adaptation in Time Series Forecasting

Jiaqi Liu et al.

cs.LG

本文提出STEPS方法，将时间序列预测中的Test-Time Adaptation (TTA)问题重新表述为时间流形上的Dirichlet边界值问题，通过局部和全局求解器在预测空间中生成平滑且有界的校正场，以应对分布偏移下的弱可识别性和误差累积问题。该方法在多个基准上取得了显著的MSE降低，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Interpreting Reinforcement Learning Agents with Susceptibilities

Chris Elliott et al.

cs.LG

本文提出了一种称为susceptibilities的神经网络可解释性技术，并将其推广到深度强化学习的regret设置中。通过在简单的gridworld模型上验证，该方法揭示了模型在参数空间中的内部发展特征，这些特征无法仅通过研究学习到的policy来检测。

Position: Mechanistic Interpretability Must Disclose Identification Assumptions for Causal Claims

Zezheng Lin, Fengming Liu

cs.LG cs.AI cs.CL

本文通过审计10篇机械可解释性论文，指出这些论文在做出因果性声明时缺乏明确的识别假设（identification assumptions），并提出了一个披露规范。该工作主要关注方法论规范，与关键词列表中的概念关联较弱。

Adaptive Domain Decomposition Physics-Informed Neural Networks for Traffic State Estimation with Sparse Sensor Data

Eunhan Ka, Ludovic Leclercq, Satish V. Ukkusuri

cs.LG eess.SY

本文提出了一种自适应区域分解物理信息神经网络(ADD-PINN)用于稀疏传感器数据下的交通状态估计，通过两阶段残差引导框架来改进LWR模型中的激波重建，实验表明其在多数配置下优于基线方法。

Don't Get Your Kroneckers in a Twist: Gaussian Processes on High-Dimensional Incomplete Grids

Mads Greisen Højlund et al.

cs.LG

本文提出CUTS-GPR方法，通过结合additive kernel与incomplete grid结构实现极快的kernel matrix-vector product，从而在高维场景下进行数值精确的Gaussian process regression。该方法在训练数据量和维度上分别表现出近线性或线性以及低阶多项式缩放，可处理数十亿数据点和数千维度的计算。

Reinforcement Learning for Exponential Utility: Algorithms and Convergence in Discounted MDPs

Gugan Thoppe et al.

cs.LG

本文针对折扣MDP中指数效用优化的强化学习问题，提出了两种基于Q值的无模型算法：一种双时间尺度Q学习算法和一种单时间尺度算法。文章证明了相关算子的压缩性并刻画了不动点，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

GRAPHLCP: Structure-Aware Localized Conformal Prediction on Graphs

Peyman Baghershahi et al.

cs.LG

本文提出GRAPHLCP框架，通过引入图拓扑结构和节点间依赖关系来改进基于邻近性的局部化Conformal Prediction方法，使用特征感知的稠密化步骤和Personalized PageRank核计算来建模结构邻近性，从而在有限样本下保证边际覆盖并提升条件覆盖性能。

Zero-Shot Imagined Speech Decoding via Imagined-to-Listened MEG Mapping

Maryam Maghsoudi, Shihab Shamma

cs.LG eess.AS

本文提出了一种通过将想象MEG信号映射到聆听MEG信号来解码想象语音的方法，利用聆听数据更丰富的标签信息。该方法在受试者外验证了想象单词的解码效果优于随机水平，但整体方法在创新性和与关键词的契合度上较为常规。

cs.AI

GraphDC: A Divide-and-Conquer Multi-Agent System for Scalable Graph Algorithm Reasoning ⭐ 精选

Wenjin Li, Jiaming Cui

cs.AI cs.MA

本文提出GraphDC，一种基于分治策略的多智能体框架，用于可扩展的图算法推理。该框架将输入图分解为子图，由专门agent进行局部推理，再通过主agent整合局部输出与子图间信息以生成最终解。这种层次化设计减轻了单个agent的推理负担，缓解了计算瓶颈，并在大规模图实例上提升了鲁棒性。实验表明，GraphDC在多种图算法推理任务上一致优于现有方法，尤其在大规模实例上表现突出。

Hidden Coalitions in Multi-Agent AI: A Spectral Diagnostic from Internal Representations ⭐ 精选

Cameron Berg, Susan L. Schneider, Mark M. Bailey

cs.AI cs.LG cs.MA

本文提出了一种从多智能体系统的内部神经网络表示中检测联盟结构的方法。该方法通过构建智能体隐藏状态间的pairwise mutual-information graph，并应用spectral partitioning来识别最显著的联盟边界。在multi-agent reinforcement learning和large language model两个领域的验证表明，该方法能有效区分真正的信息耦合与虚假的行为相似性，为监测分布式AI系统中的emerging coalition structure提供了可扩展的诊断工具。

From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms ⭐ 精选

Jinghao Luo et al.

cs.AI cs.CL

本文提出了一种关于LLM Agent记忆机制演化的三阶段框架：Storage（轨迹保存）、Reflection（轨迹精炼）和Experience（轨迹抽象），并分析了推动这一演化的三个核心驱动力（长程一致性、动态环境挑战、持续学习目标）。该工作为agent记忆系统的设计提供了统一的理论视角和清晰的发展路线图，与关键词"agent"高度契合。

Towards Security-Auditable LLM Agents: A Unified Graph Representation ⭐ 精选

Chaofan Li et al.

cs.AI

本文提出Agent-BOM，一种用于LLM agent系统安全审计的统一图表示方法。该方法将agent系统建模为层次化属性有向图，分离静态能力基（如模型、工具、长期记忆）与动态运行时语义状态（如目标、推理轨迹、动作），并通过语义边和安全属性连接，将碎片化执行轨迹转化为可查询的审计路径。基于此，作者开发了图查询范式进行路径级风险评估，并在OpenClaw环境中实现审计插件，实验证明Agent-BOM能有效重构跨会话内存污染、工具滥用、能力供应链劫持等隐蔽攻击链，为复杂agent生态系统的根因分析和安全裁决提供了统一可审计的基础。该工作与关键词“agent”高度契合，并涉及“context”（运行时语义状态）和“code”（工具调用与代码执行）等概念。

Randomness is sometimes necessary for coordination ⭐ 精选

Rohan Patil, Jai Malegaonkar, Henrik I. Christensen

cs.AI cs.RO

本文提出Diamond Attention，一种基于cross-attention的架构，通过让每个agent在每个时间步采样一个标量随机数来生成瞬时的rank ordering，从而在匿名同质agent群体中打破对称性并实现角色分化。该方法在完全对称的XOR游戏中达到$1.0$的成功率，而所有确定性baseline仅接近$0.5$；在控制协调任务中，训练于$N=4$的策略可零样本泛化至$N \in [2,8]$。该工作为cooperative multi-agent reinforcement learning中的coordination问题提供了利用随机性实现protocol-space结构的新思路，与关键词agent和attention高度契合。

Beyond the Black Box: Interpretability of Agentic AI Tool Use ⭐ 精选

Hariom Tatsat, Ariye Shater

cs.AI cs.MA

本文提出了一种基于Sparse Autoencoders (SAEs)和linear probes的mechanistic-interpretability工具包，用于分析AI agent在tool use过程中的内部决策机制。该方法通过读取模型在每次动作前的内部状态，推断是否需要调用工具以及工具调用的后果，并利用feature ablation验证内部特征的功能重要性。这项工作为agent系统的内部可观测性提供了新视角，尤其有助于诊断long-horizon任务中因早期工具调用错误导致的级联失败，与关键词“agent”高度契合。

Self-Programmed Execution for Language-Model Agents ⭐ 精选

Luke J. O'Connor

cs.AI

本文提出了一种名为self-programmed execution (SPE)的新型agent架构，其核心创新在于让语言模型的输出本身充当编排程序(orchestrator program)，而非依赖固定的外部编排策略。作者通过agentic machines形式化该思想，并引入基于Lisp的语言Spell，使得程序能够自我编辑和重新求值，同时确保模型调用等带副作用的表达式在重求值时不会重复执行。实验表明，未经SPE或Spell训练的现有前沿模型已能在此框架下完成具有挑战性的agent任务，这为探索模型自主编排策略提供了新方向，与关键词“agent”高度契合。

The Context Gathering Decision Process: A POMDP Framework for Agentic Search ⭐ 精选

Chinmaya Kausik, Adith Swaminathan, Nathan Kallus

cs.AI cs.LG

本文提出Context Gathering Decision Process (CGDP)框架，将LLM agent的迭代搜索过程形式化为一个Partially Observable Markov Decision Process (POMDP)。作者通过predicate-based方法将agent的隐式搜索分解为显式模块化操作，并设计了持久化的predicate-based belief state和programmatic exhaustion gate两种即插即用干预措施。实验表明，该方法在multi-hop reasoning任务上提升高达$11.4\%$，并节省$39\%$的token消耗，为agentic search提供了模块化且非侵入性的改进框架。该工作与关键词"agent"高度契合，且方法具有开创性。

ARMOR: An Agentic Framework for Reaction Feasibility Prediction via Adaptive Utility-aware Multi-tool Reasoning ⭐ 精选

Ye Liu et al.

cs.AI cs.MA

ARMOR是一个agentic框架，用于化学反应可行性预测。该框架通过显式建模每个工具的utility（效用），自适应地优先选择表现最佳的工具，并利用memory-augmented reasoning（记忆增强推理）解决工具间的冲突，从而整合多个工具的互补优势。实验表明，ARMOR在工具预测冲突的反应上表现尤为突出，有效解决了单一工具性能不稳定的问题。

Repeated Deceptive Path Planning against Learnable Observer ⭐ 精选

Shiyue Cao et al.

cs.AI

本文提出Repeated Deceptive Path Planning (RDPP)问题，首次建模了可学习的观察者（learnable observer）在重复交互中的适应性行为。针对现有deceptive path planning方法无法应对观察者模型动态更新的缺陷，作者提出Deceptive Meta Planning (DeMP)框架，通过episode-level adaptation（短期策略调整）与meta-level updates（跨episode反馈加速适应）的两级优化，有效缓解了累积滞后（accumulative lag）问题。实验表明，DeMP在保持路径成本竞争力的同时，显著优于现有方法，为多agent系统中的欺骗与隐私问题提供了新视角。

HMACE: Heterogeneous Multi-Agent Collaborative Evolution for Combinatorial Optimization ⭐ 精选

Yuping Yan et al.

cs.AI

本文提出HMACE框架，将组合优化中的heuristic search重新概念化为一个组织设计问题，通过引入四个异构agent（Proposer, Generator, Evaluator, Reflector）实现协作进化。该方法通过behavior-aware retrieval和fitness-grounded archive更新机制，在避免冗余评估的同时引导搜索向多样化的heuristic行为收敛。在TSP、Online BPP等经典组合优化问题上的实验表明，HMACE在质量和效率上均优于现有单agent和多agent基线方法，且token消耗显著更低。该工作为LLM驱动的自动化heuristic设计提供了新的多agent协作范式，与关键词中的agent高度契合。

MEMOREPAIR: Barrier-First Cascade Repair in Agentic Memory ⭐ 精选

Yang Zhao et al.

cs.AI cs.CL

本文提出MemoRepair，一种针对agentic memory中cascade update问题的barrier-first cascade-repair contract。该问题源于当源artifact被删除或修改时，其派生后代仍可见并导致过时信息影响后续行为。MemoRepair通过将修复问题转化为maximum-weight predecessor closure问题，并利用单个s-t min-cut精确求解，从而在修复成本与有效性之间取得平衡。实验表明，该方法在完全影响溯源下能将无效内存暴露降至0%，并显著降低修复成本。

SOM: Structured Opponent Modeling for LLM-based Agents via Structural Causal Model ⭐ 精选

Shiyue Cao et al.

cs.AI

本文提出Structured Opponent Modeling (SOM)框架，用于基于LLM的agent在多智能体环境中进行对手建模。该方法创新性地将对手模型构建与预测分离：在构建阶段使用Structural Causal Model (SCM)显式捕捉对手观测与动作间的有向依赖关系，在预测阶段引导LLM沿SCM导出的清晰路径进行结构化推理。实验表明，SOM在多个多智能体基准上显著优于现有基于LLM的推理方法，为agent在动态交互中的适应性决策提供了新范式。

GraphReAct: Reasoning and Acting for Multi-step Graph Inference ⭐ 精选

Xingtong Yu et al.

cs.AI

本文提出GraphReAct框架，将大语言模型中的reasoning-acting范式扩展到图学习领域。该框架设计了两种互补的图检索action：topological retrieval（捕获局部结构依赖）和semantic retrieval（在representation space中访问非局部相关证据），并引入context refinement action来蒸馏和重组累积信息。通过交替执行reasoning与retrieval/refinement actions，实现了从context expansion到compression的渐进式推理过程，在六个benchmark数据集上显著优于现有方法。

Learning CLI Agents with Structured Action Credit under Selective Observation ⭐ 精选

Haoyang Su, Ying Wen

cs.AI

本文针对CLI agents在部分观测下的结构化动作信用分配问题，提出了两项创新：一是$\sigma$-Reveal机制，在推理时通过token预算选择上下文以缓解选择性观测瓶颈；二是Action Advantage Assignment ($\mathrm{A}^3$)方法，一种原生agentic RL方法，利用abstract syntax tree (AST)构建动作子链残差和轨迹层级边际，从episode级相对反馈中分配turn级优势。该方法为agent在长多轮交互中从稀疏终端奖励学习提供了结构化信用分配方案，与关键词中的agent和code任务高度契合。

XDecomposer: Learning Prior-Free Set Decomposition for Multiphase X-ray Diffraction

Hanyu Gao et al.

cs.AI cond-mat.mtrl-sci cs.LG

本文提出XDecomposer框架，将多相XRD分析建模为set prediction问题，通过phase-query-driven分解机制和衍射一致性物理重建实现无先验的相分解与识别。该方法在模拟和实验数据集上提升了重建精度和相识别能力。

MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems

Zhexuan Wang et al.

cs.AI cs.CL cs.LG cs.MA

本文提出MASPO框架，用于自动联合优化基于LLM的多智能体系统中各智能体的prompt。其核心创新在于通过联合评估机制衡量prompt对下游智能体任务成功的贡献，并采用数据驱动的进化beam search搜索高维prompt空间。

More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models

Xiao Wang

cs.AI cs.CL cs.LG

本文研究了推理模型（如DeepSeek-R1）在多项选择问答中的位置偏差，发现推理轨迹长度与位置偏差分数呈正相关，并通过截断干预提供了因果证据。该工作主要关注大语言模型的评估偏差，与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等主题无直接关联。

Fast and Effective Redistricting Optimization via Composite-Move Tabu Search

Hai Jin, Diansheng Guo

cs.AI cs.CY

本文提出了一种基于复合移动的Tabu搜索方法(CM-Tabu)来解决空间重划中的连通性约束问题，通过分析连通图的articulation points和biconnected components来生成保持连通性的复合移动，实验表明该方法在解质量和计算效率上优于传统Tabu搜索。

State Representation and Termination for Recursive Reasoning Systems

Debashis Guha et al.

cs.AI cs.CL cs.LG

本文研究了递归推理系统中的状态表示和终止条件，提出了用epistemic state graph表示推理状态，并定义了order-gap来衡量迭代停止的时机。该工作为agent循环等推理系统提供了理论分析框架。

CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment

Siyuan Guo et al.

cs.AI cs.CL cs.LG

本文提出CASCADE框架，通过引入显式的episodic memory（情景记忆）将LLM在部署阶段的学习形式化为contextual bandit问题，从而在不修改模型参数的情况下实现经验复用。该方法在16个任务上相比zero-shot prompting提升了20.9%的平均成功率，但未涉及code、spectral、Muon或attention等关键词相关技术。

When Does a Language Model Commit? A Finite-Answer Theory of Pre-Verbalization Commitment

Long Zhang et al.

cs.AI cs.CL cs.LG

本文通过定义有限答案偏好稳定化（finite-answer preference stabilization）这一可计算对象，研究了语言模型在生成最终答案前其偏好何时变得稳定。在二元任务中，该方法利用log-odds code $\delta(\xi)$ 来追踪模型状态，并在Qwen3-4B-Instruct模型上观察到答案偏好通常在可解析答案出现前17-31个token就已稳定。该工作主要关注语言模型推理过程中的内部状态分析，与关键词中的code和context有一定关联，但方法本身并非开创性突破，也未解决长期存在的核心问题。

Weblica: Scalable and Reproducible Training Environments for Visual Web Agents

Oğuzhan Fatih Kar et al.

cs.AI cs.CV cs.LG

本文提出Weblica框架，通过HTTP级缓存和LLM环境合成构建可扩展的web环境，用于训练视觉web agent。该框架支持强化学习训练，其模型在多个web导航基准上优于同类开源模型。

When Does Critique Improve AI-Assisted Theoretical Physics? SCALAR: Structured Critic--Actor Loop for Agentic Reasoning

Vasilis Niarchos et al.

cs.AI cs.HC hep-ph hep-th

本文使用SCALAR (Structured Critic--Actor Loop for AI Reasoning)框架，研究了在量子场论和弦论问题中，研究者与AI agent之间的多轮交互如何影响结果。研究发现，多轮对话普遍优于单次尝试，但Critic反馈策略的效果强烈依赖于Actor与Critic的配对方式。

Uneven Evolution of Cognition Across Generations of Generative AI Models

Isaac Galatzer-Levy et al.

cs.AI cs.CV

本文引入了一个心理测量框架来评估生成式AI的认知能力，发现其认知架构存在显著不均衡：在语言理解和工作记忆上表现优异，但在感知推理上表现极差。研究通过AIQ基准测试追踪了多代模型的演变，揭示了模态间的分离现象，即抽象定量推理在语言形式下比视觉形式发展更快。

Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning

Sixing Chen et al.

cs.AI

本文通过提取四子棋游戏中LLM推理轨迹的search tree，发现其规划是短视的：搜索深度浅，且决策主要由浅层节点驱动，与人类依赖深层搜索的规划模式形成对比。

AGWM: Affordance-Grounded World Models for Environments with Compositional Prerequisites

Qinshi Zhang et al.

cs.AI cs.LG

本文提出AGWM (Affordance-Grounded World Model)，通过学习一个表示前提依赖关系的DAG来显式追踪动作的动态可执行性，以解决标准world model在具有组合前提的环境中因忽略动作前提而导致的多步预测误差累积问题。实验在基于游戏的模拟环境中验证了该方法在降低多步预测误差和提升泛化性方面的有效性。

Agentick: A Unified Benchmark for General Sequential Decision-Making Agents

Roger Creus Castanyer, Pablo Samuel Castro, Glen Berseth

cs.AI

Agentick是一个统一的sequential decision-making benchmark，用于评估RL、LLM、VLM等不同范式agent的性能，包含37个程序化生成的任务和多种observation modalities。实验发现没有单一方法占优，且reasoning harness能显著提升LLM性能。

How Well Do LLMs Perform on the Simplest Long-Chain Reasoning Tasks: An Empirical Study on the Equivalence Class Problem

Chun Zheng et al.

cs.AI

本文通过实验评估了LLMs在等价类问题(ECP)上的表现，发现非推理模型完全失败，而推理模型虽显著更好但仍无法完全解决该问题。研究还观察到，非推理模型的最难实例与相变点相关，而推理模型的最难实例则与最大直径相关。

Mitigating Cognitive Bias in RLHF by Altering Rationality

Tiffany Horter et al.

cs.AI

本文提出在RLHF中动态调整rationality parameter $\beta$的方法，通过LLM-as-judge评估cognitive biases的存在来降低不可靠比较的权重，从而学习更理性的下游模型。

Multi-Objective Constraint Inference using Inverse reinforcement learning

Syed Ihtesham Hussain Shah et al.

cs.AI cs.LG cs.MA

本文提出了一种名为MOCI的框架，用于从多个具有不同目标的专家轨迹中联合推断共享约束和个体偏好。该方法通过inverse reinforcement learning技术解决了现有方法在处理异质演示时的局限性。

Learning and Reusing Policy Decompositions for Hierarchical Generalized Planning with LLM Agents

Shirin Sohrabi et al.

cs.AI

本文提出了一种结合generalized planning和hierarchical task decomposition的动态策略学习方法HCL-GP，用于LLM-based agents。该方法通过自动分解任务并学习可复用的参数化组件，在AppWorld基准上取得了较高准确率，但方法本身与关键词中的spectral、Muon、pretrain等概念关联较弱。

Optimal Experiments for Partial Causal Effect Identification

Tobias Maringgele, Jalal Etesami

cs.AI stat.ML

本文研究了在观测数据下部分可识别的因果查询中，如何选择成本受限的实验子集以最大程度收紧目标查询的界。作者将该问题形式化为最大效力问题，证明了其NP-hard性，并提出了基于多项式规划的评估方法以及两种图形剪枝准则来降低搜索复杂度。

Adaptive auditing of AI systems with anytime-valid guarantees

Siyu Zhou et al.

cs.AI math.ST stat.ML

本文针对生成式AI系统自适应审计中的统计推断问题，引入了一个基于“对赌检验”的假设检验框架，利用Safe Anytime-Valid Inference (SAVI)方法构建了同时的e-processes，以在高度灵活的自适应采样和停止规则下维持严格的统计结论。

Behavior Cue Reasoning: Monitorable Reasoning Improves Efficiency and Safety through Oversight

Christopher Z. Cui, Taylor W. Killian, Prithviraj Ammanabrolu

cs.AI

本文提出Behavior Cue Reasoning方法，通过在LLM中训练特殊token序列作为行为信号，使推理过程更可控和可监控。该方法在数学问题求解中可减少50%的推理token浪费，并在约束违规环境中将安全动作恢复率从46%提升至96%。

2.5-D Decomposition for LLM-Based Spatial Construction

Paul Whitten, Li-Jen Chen, Sharath Baddam

cs.AI

本文提出了一种基于2.5-D分解的神经符号pipeline，用于基于LLM的空间构建任务。该方法让LLM仅在二维水平面进行规划，而垂直放置由确定性执行器根据列占用情况计算，从而消除了坐标错误，在基准测试中取得了94.6%的结构准确率。

TeamBench: Evaluating Agent Coordination under Enforced Role Separation

Yubin Kim et al.

cs.AI

TeamBench是一个用于评估agent在操作系统强制角色分离下协调能力的benchmark，包含851个任务模板和931个实例。实验表明，仅通过prompt指定角色与通过沙箱强制分离在通过率上无显著差异，但prompt-only场景中verifier更频繁地尝试修改executor代码，且verifier会批准49%的失败提交。

Online Allocation with Unknown Shared Supply

Tzeh Yuan Neoh et al.

cs.AI cs.DS

本文提出了Online Shared Supply Allocation (OSSA)问题，并设计了一个确定性阈值比例策略GPA，证明了其达到$4/3$-approximation到离线最优解（加上一个与总供给无关的加性项），同时给出了匹配的下界。该工作主要关注资源分配中的在线决策与库存管理，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Switchcraft: AI Model Router for Agentic Tool Calling

Sharad Agarwal et al.

cs.AI cs.MA

本文提出Switchcraft，一个针对agentic tool calling优化的模型路由器，通过DistilBERT分类器在保证正确性的前提下选择最低成本模型，在函数调用基准上实现82.9%准确率并降低84%推理成本。

AdaTKG: Adaptive Memory for Temporal Knowledge Graph Reasoning

Seunghan Lee et al.

cs.AI cs.LG

本文提出AdaTKG，为Temporal Knowledge Graph中的每个entity维护一个自适应memory，通过可学习的指数移动平均更新，以处理训练中未见的entity。实验表明该方法在TKG推理任务上优于现有baseline。

Can You Break RLVER? Probing Adversarial Robustness of RL-Trained Empathetic Agents

Deeraj S K et al.

cs.AI cs.LG

本文构建了Adversarial Empathy Benchmark (AEB)并引入Emotional Consistency Score (ECS)，用于评估RL训练的同理心agent在对抗性用户交互下的鲁棒性。实验表明RLVER-PPO-Think模型在对抗性对话中表现优于基线，但ECS分数未显著提升，揭示了情感响应能力与状态追踪能力之间的行为分离。

SREGym: A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios

Jackson Clark et al.

cs.AI

SREGym是一个用于评估AI SRE agent的高保真基准测试平台，它基于真实云原生系统栈构建，通过故障注入模拟生产环境中的多种故障和噪声。该平台包含90个具有挑战性的SRE问题，并用于评估前沿agent在不同故障类型上的表现差异。

Three-in-One World Model: Energy-Based Consistency, Prediction, and Counterfactual Inference for Marketing Intervention

Junichiro Niimi

cs.AI cs.LG

本文提出了一种基于Deep Boltzmann Machine (DBM)的三合一世界模型架构，用于营销干预中的一致性评估、预测和反事实推理。该模型通过冻结的信念表示和轻量级任务适配器，在模拟实验中展示了优于多种元学习器的异质性处理效应恢复能力。

Towards Autonomous Business Intelligence via Data-to-Insight Discovery Agent

Dongming Wu et al.

cs.AI

本文提出AIDA，一个面向复杂商业环境的端到端自主探索框架，通过集成领域特定语言(DSL)和强化学习系统，将业务分析建模为帕累托原则引导的累积推理过程，在动态SQL生成和多维分析方面优于传统工作流agent。

EnvSimBench: A Benchmark for Evaluating and Improving LLM-Based Environment Simulation

Yi Liu et al.

cs.AI

本文提出了EnvSimBench基准，用于评估和改进基于LLM的环境模拟能力，定义了EnvSim Ability并构建了包含400个样本的基准测试。实验发现所有SOTA语言模型在状态不变时表现良好，但在多状态同时更新时失败，并设计了一种约束驱动模拟管线以减少幻觉并降低成本。

Can Agents Price a Reaction? Evaluating LLMs on Chemical Cost Reasoning

Yuyang Wu et al.

cs.AI

本文提出了ChemCost基准，用于评估LLM在化学试剂成本估算任务中的表现，发现即使是最强的agent在干净输入下准确率也仅达50.6%，且对噪声敏感。该工作聚焦于科学工具使用的评估，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Structured Role-Aware Policy Optimization for Multimodal Reasoning

Bingqing Jiang, Difan Zou

cs.AI cs.LG

本文提出了一种名为SRPO的方法，通过将结构化响应分解为感知token和推理token，并分配角色感知的token级优势，改进了多模态推理中的强化学习。该方法在不改变奖励函数的情况下，利用自蒸馏的在线对比来区分不同token的贡献，从而提升基于证据的推理能力。

Signal Reshaping for GRPO in Weak-Feedback Agentic Code Repair

Jia Li et al.

cs.AI

本文研究了在弱反馈场景下，对标准GRPO算法进行信号重塑以提升代码智能体修复能力。通过引入编译与语义分层奖励、步骤级过程分数以及失败原因感知的rollout治理，该方法在严格编译与语义准确率上从基线的0.385提升至0.535。该工作主要关注代码智能体强化学习中的信号设计，与关键词中的agent和code有一定关联，但方法本身并非开创性突破。

When Stored Evidence Stops Being Usable: Scale-Conditioned Evaluation of Agent Memory

Jiaqi Shao et al.

cs.AI

本文提出了一种规模条件化的评估协议，用于测试agent memory在无关session积累时证据是否仍可用，并在LongMemEval和LoCoMo上展示了不同memory interface和agent下的可靠性变化。

Implicit Compression Regularization: Concise Reasoning via Internal Shorter Distributions in RL Post-Training

Chen Wang et al.

cs.AI

本文研究了强化学习后训练中LLM推理的过度思考问题，提出了一种隐式压缩正则化方法ICR，通过利用在线rollout中最短正确响应构建虚拟短分布来引导策略生成简洁轨迹。实验表明该方法在多个数学和知识密集型基准上能缩短响应长度并保持或提升准确率。

Discovering Ordinary Differential Equations with LLM-Based Qualitative and Quantitative Evaluation

Sum Kyun Song, Bong Gyun Shin, Jae Yong Lee

cs.AI cs.LG cs.NE cs.SC

本文提出了一种名为DoLQ的方法，利用基于LLM的多智能体架构从观测数据中发现常微分方程，通过结合定性与定量评估来引导符号回归过程。该方法在多个基准测试上取得了优于现有技术的性能。

Tools as Continuous Flow for Evolving Agentic Reasoning

Tairan Huang et al.

cs.AI

本文提出FlowAgent方法，将工具链式调用重新概念化为语义空间中的连续轨迹生成，利用conditional flow matching生成全局规划视角下的潜在轨迹，以解决现有逐步范式在长程推理中的误差累积和泛化问题。该方法在动态真实环境的plan-level闭环基准上验证了鲁棒性和适应性。

Confidence-Aware Alignment Makes Reasoning LLMs More Reliable

Kejia Chen et al.

cs.AI

本文提出CASPO框架，通过迭代Direct Preference Optimization对齐token-level confidence与step-wise logical correctness，无需额外reward model。在推理时，Confidence-aware Thought (CaT)利用校准后的confidence动态剪枝不确定推理分支，提升了推理可靠性和效率。

Offline Policy Optimization with Posterior Sampling

Hongqiang Lin et al.

cs.AI

本文提出了一种基于后验采样的离线策略优化方法PSPO，通过贝叶斯推断量化模型保真度，在泛化与鲁棒性间取得平衡。该方法将Q值估计视为随机逼近问题并证明其收敛性，实验表明其性能优于现有基线。

Bounded Fitting for Expressive Description Logics

Maurice Funk, Jean Christoph Jung, Tom Voellmer

cs.AI

本文研究了有界拟合（bounded fitting）在扩展了逆角色、限定数量限制和特征比较的表达性描述逻辑中学习概念的应用，探讨了其理论性质并基于SAT求解器实现了该方法。实验表明该工具与现有概念学习器相比具有竞争力。

Efficient Data Selection for Multimodal Models via Incremental Optimization Utility

Jinhao Jing et al.

cs.AI cs.LG

本文提出One-Step-Train (OST)框架，将多模态模型的数据选择问题转化为增量优化效用排序问题，通过模拟轻量代理模型上的单步更新来估计样本的边际效用。实验表明该方法在数学推理基准上能以更少训练成本超越现有基线。

LiteGUI: Distilling Compact GUI Agents with Reinforcement Learning

Yubin Wu et al.

cs.AI cs.LG

本文提出了一种名为LiteGUI的轻量级GUI agent训练范式，通过Guided On-policy Distillation和Multi-solution Dual-level GRPO框架，在不使用Supervised Fine-Tuning的情况下提升小规模模型的性能，并在GUI任务中达到领先水平。该方法主要关注agent在GUI交互中的探索与对齐，与关键词中的agent概念相关，但方法本身并非开创性突破。

Model-Driven Policy Optimization in Differentiable Simulators via Stochastic Exploration

Yuval Aroosh, Ayal Taitler

cs.AI

本文提出Model-Driven Policy Optimization (MDPO)框架，通过在可微simulator的动作空间中注入噪声并基于梯度敏感性自适应调整噪声幅度，以改善非线性混合离散-连续域中的优化landscape。实验表明该方法在benchmark上优于确定性可微规划和model-free baseline如PPO。

From Feasible to Practical: Pareto-Optimal Synthesis Planning

Friedrich Hastedt, Dongda Zhang, Antonio del Rio Chanona

cs.AI

本文提出MORetro*算法，将合成规划问题转化为多目标搜索，通过加权标量化和BO-informed采样生成Pareto前沿，以平衡成本、可持续性等竞争性目标。该方法基于多目标A*搜索提供最优性保证，在多个基准测试中生成多样化的高质量Pareto前沿。

Multi-Environment POMDPs with Finite-Horizon Objectives

Léonard Brice et al.

cs.AI

本文研究了多环境部分可观测马尔可夫决策过程（MEPOMDPs）在有限时域目标下的最优值与策略计算问题，证明了该问题在MEPOMDPs中同样是PSPACE完全的，并提出了一个在实际基准测试中显著优于先前唯一已知算法的实用算法。

From Pixels to Prompts: Vision-Language Models

Khang Hoang Nhat Vo

cs.AI

本文是一本关于Vision-Language Models的入门书籍，旨在为读者提供理解该领域的清晰思维导图，而非详尽的技术综述。它回顾了从独立处理视觉与语言任务到结合两者的研究历程，并帮助读者建立直觉以设计自己的系统。

Open-Ended Task Discovery via Bayesian Optimization

Masaki Adachi, Yuta Suzuki, Juliusz Ziomek

cs.AI stat.ML

本文提出了一种名为Generate-Select-Refine (GSR)的开放式贝叶斯优化框架，用于在科学工作流中动态发现和优化任务。该方法通过交替进行任务生成与优化，在渐近意义上实现了对最优任务的集中评估。

Parallel Lifted Planning via Semi-Naive Datalog Evaluation

Dominik Drexler, Oliver Joergensen, Jendrik Seipp

cs.AI

本文通过半朴素Datalog评估方法实现了并行提升规划，提出了包含规则级并行和基础并行两个层次的执行模型，并基于团枚举扩展了基础生成器以支持规划特定工作负载。实验表明，该方法在单核上已优于基线，且随核心数增加优势扩大，在难基础任务上实现了高达6倍的加速。

Inference Time Causal Probing in LLMs

Sadegh Khorasani et al.

cs.AI

本文提出了一种名为HDMI的无探针梯度干预方法，通过直接利用模型原生输出修改隐藏状态，以控制生成模型中的因果属性。该方法在LGD语料库和CausalGym基准上优于现有技术，但未涉及code、spectral或Muon等关键词。

Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding

Valeriy Vyaltsev et al.

cs.AI cs.LG cs.MA

本文提出了一种名为LC-MAPF的基于学习的多智能体路径规划方法，通过引入可学习的局部通信模块，让相邻agent在决策前进行多轮信息交换以增强协作。实验表明该方法在多种未见过的测试场景中优于现有基于IL和RL的求解器，且通信机制未影响其可扩展性。

Tacit Knowledge Extraction via Logic Augmented Generation and Active Inference

Lorenzo Lamazzi et al.

cs.AI

本文提出了一种结合Logic-Augmented Generation和Active Inference的神经符号框架，用于从程序性知识中提取隐性知识并构建Knowledge Graph。该方法在制造业的装配维修视频案例中进行了评估，旨在提升知识表示的完整性和语义质量。

FactoryBench: Evaluating Industrial Machine Understanding

Yanis Merzouki et al.

cs.AI cs.LG

本文提出了FactoryBench基准，用于评估时间序列模型和LLM在工业机器人遥测数据上的机器理解能力，包含超过7万个问答对并基于Pearl因果阶梯组织。实验表明，前沿LLM在结构化因果层次上准确率不超过50%，在决策任务上不超过18%，揭示了当前模型与工业机器理解之间的巨大差距。

GASim: A Graph-Accelerated Hybrid Framework for Social Simulation

Xuan Zhou et al.

cs.AI

本文提出GASim，一个图加速的混合多智能体框架，用于大规模社会模拟。它通过Graph-Optimized Memory (GOM)和Graph Message Passing (GMP)分别加速LLM驱动核心智能体和普通数值智能体的执行，并引入Entropy-Driven Grouping (EDG)动态划分智能体类型，实现了近10倍的端到端加速。

Finite-Time Analysis of MCTS in Continuous POMDP Planning

Da Kong, Vadim Indelman

cs.AI cs.RO

本文对部分可观测马尔可夫决策过程(POMDP)中的蒙特卡洛树搜索(MCTS)进行了有限时间分析，在离散和连续观测空间下给出了概率性集中界。针对连续观测空间，作者提出了Voro-POMCPOW算法，通过Voronoi单元自适应划分连续观测空间来维持有限分支因子，并证明了价值估计的高概率界。

Hierarchical Task Network Planning with LLM-Generated Heuristics

Felipe Meneguzzi et al.

cs.AI

本文研究使用大语言模型（LLM）为层次化任务网络（HTN）规划生成搜索启发式，在Pytrich规划器上评估了九种LLM生成的启发式，并与领域无关的基线方法进行了比较。结果表明，LLM生成的启发式在覆盖范围上接近最佳HTN规划器，并在83%的共享问题上显著减少了搜索工作量。

Online Goal Recognition using Path Signature and Dynamic Time Warping

Douglas Tesch et al.

cs.AI

本文利用path signature和Dynamic Time Warping方法，提出了一种在线目标识别方法，用于高效编码和比较连续域中的轨迹，实验表明其在预测准确性和在线规划效率上优于现有方法。

Alternating Target-Path Planning for Scalable Multi-Agent Coordination

Yu Kumagai, Keisuke Okumura

cs.AI

本文提出了一种迭代优化框架，通过解耦目标分配与路径规划，利用快速次优的MAPF求解器（如LaCAM）进行反馈驱动的重分配，以解决可扩展的多智能体协调问题。实验表明该方法在扩展性上优于基于CBS的现有方法。

RuleSafe-VL: Evaluating Rule-Conditioned Decision Reasoning in Vision-Language Content Moderation

Zhifeng Lu et al.

cs.AI

本文提出了RuleSafe-VL基准，用于评估视觉语言模型在内容审核中基于规则的条件决策推理能力。该基准包含93条原子规则和92种规则关系，通过四个诊断任务分解审核决策链，实验发现规则关系恢复是主要瓶颈。

Exact Regular-Constrained Variable-Order Markov Generation via Sparse Context-State Belief Propagation

François Pachet

cs.AI

本文通过将variable-order Markov模型的状态空间替换为observed context state，并与regular constraint automaton取乘积，解决了variable-order Markov生成在regular约束下的精确推理问题。该方法在固定context graph和automaton下推理复杂度与序列horizon线性相关，避免了扩展到所有K-tuple的开销。

AgentEscapeBench: Evaluating Out-of-Domain Tool-Grounded Reasoning in LLM Agents

Zhengkang Guo et al.

cs.AI

本文提出了AgentEscapeBench，一个用于评估基于LLM的agent在长程依赖约束下进行工具推理能力的benchmark。实验发现，随着依赖深度增加，agent的性能显著下降，主要失败原因在于长程状态追踪和中间结果传播的不足。

TraceFix: Repairing Agent Coordination Protocols with TLA+ Counterexamples

Shuren Xia et al.

cs.AI cs.MA

本文提出TraceFix，一个用于LLM多智能体协调的验证优先pipeline，通过TLA+模型检查器生成反例来迭代修复agent coordination protocol，并验证其正确性。实验表明该方法能有效减少死锁/活锁并提升任务完成率，但方法本身更侧重于工程实现而非理论创新。

The Limits of AI-Driven Allocation: Optimal Screening under Aleatoric Uncertainty

Santiago Cortes-Gomez et al.

cs.AI

本文研究在有限资源分配中，如何最优结合传统筛查（直接观察个体真实状态）与基于预测风险分数的算法定位。作者证明最优策略是对算法分配边缘的单元进行筛查，并直接定位最高风险单元，同时通过实证刻画了筛查与算法定位在群体aleatoric uncertainty（偶然不确定性）变化时的互补或替代关系。

Abductive Reasoning with Probabilistic Commonsense

Joseph Cotnareanu et al.

cs.AI stat.CO

本文提出了一种名为PACS的概率框架，用于结合LLM和形式逻辑求解器进行溯因常识推理，以处理个体间常识信念的差异。该方法通过采样证明来聚合结论，并在多个基准测试中优于链式思维推理和先前的神经符号方法。

Reason to Play: Behavioral and Brain Alignment Between Frontier LRMs and Human Game Learners

Botos Csaba et al.

cs.AI q-bio.NC

本文研究了前沿Large Reasoning Models (LRMs)在复杂视频游戏中的学习与规划能力，通过与人类行为及fMRI脑活动数据的对比，发现LRMs在匹配人类学习模式和预测脑活动方面显著优于深度强化学习agent和贝叶斯理论agent。结果表明，LRMs的脑对齐主要源于其对游戏状态的in-context表示，而非下游规划或推理过程。

MPD$^2$-Router: Mask-aware Multi-expert Prior-regularized Dual-head Deferral Router in Glaucoma Screening and Diagnosis

Wenxin Zhan

cs.AI

本文提出MPD$^2$-Router框架，将青光眼筛查中的学习推迟决策（L2D）建模为受约束的人机路由问题，通过双头推迟/分配策略和掩码感知门控机制处理专家可用性、行为异质性和工作负载不平衡。该方法在多个跨国数据集上降低了临床成本并提升了MCC指标，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Rubric-Grounded RL: Structured Judge Rewards for Generalizable Reasoning

Manish Bhattarai et al.

cs.AI

本文提出了一种基于评分标准的强化学习框架，通过冻结的LLM judge对多任务标准进行评分来优化策略，并在科学文档语料库上训练Llama-3.1-8B-Instruct模型，提升了推理基准性能。该方法主要关注奖励分解与泛化推理，与关键词中的code、context、spectral、Muon、pretrain、agent、attention关联度较低。

VecCISC: Improving Confidence-Informed Self-Consistency with Reasoning Trace Clustering and Candidate Answer Selection

James Petullo et al.

cs.AI

本文提出VecCISC框架，通过语义相似度聚类过滤冗余或错误的推理轨迹，以减少加权多数投票中需要评估的候选答案数量。实验表明该方法在保持或提升准确率的同时，将总token使用量降低了47%。

cs.IR

Bridging Textual Profiles and Latent User Embeddings for Personalization

Zhaoxuan Tan et al.

cs.IR cs.CL

本文提出BLUE框架，利用reinforcement learning将基于LLM生成的textual user profiles与embedding-based recommendation objectives对齐，以统一可解释性与检索性能。实验表明该方法在zero-shot sequential recommendation中优于基线，但未涉及code、spectral、Muon等关键词相关技术。

An Embarrassingly Simple Graph Heuristic Reveals Shortcut-Solvable Benchmarks for Sequential Recommendation

Haoyu Han et al.

cs.IR cs.AI

本文通过一个简单的graph heuristic（仅基于最后交互的item和item-transition graph进行检索）发现，许多sequential recommendation基准测试存在shortcut-solvable问题，即模型无需复杂的sequence encoder或generative objective即可取得优异表现。文章识别了三种shortcut结构（低分支局部转移、特征平滑转移、对长用户历史依赖有限），并指出这些结构使得简单方法在14个数据集中的10个上仍具竞争力。

RRCM: Ranking-Driven Retrieval over Collaborative and Meta Memories for LLM Recommendation

Shijun Li et al.

cs.IR cs.AI cs.LG

本文提出RRCM框架，通过ranking-driven策略在collaborative和metadata memories间进行检索，以优化LLM推荐系统的上下文构建。该方法使用group relative policy optimization优化检索决策，但未涉及code、spectral、Muon、pretrain或attention等关键词。

Topic Is Not Agenda: A Citation-Community Audit of Text Embeddings

Junseon Yoo

cs.IR cs.CL cs.LG

本文通过构建一个包含358万篇科学论文的增强引文图，并使用Leiden CPM算法进行分区，评估了四种SOTA文本嵌入模型（Gemini, Qwen3-8B, Qwen3-0.6B, SPECTER2）在检索研究议程（research agenda）而非子领域（sub-field）时的表现。研究发现，这些嵌入模型在区分细粒度研究议程上表现不佳，而一个简单的基于引文计数的重排序方法能显著提升议程匹配性能。

DiffRetriever: Parallel Representative Tokens for Retrieval with Diffusion Language Models

Shuai Wang et al.

cs.IR cs.CL

本文提出DiffRetriever，利用diffusion language model并行生成多个representative tokens，解决了autoregressive模型在multi-token检索中的效率瓶颈，实验表明其在检索任务上优于单token和autoregressive多token方法。

MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal

Youngjoon Jang et al.

cs.IR

本文提出了一个名为MLAIRE的多语言语言感知信息检索评估协议，通过构建跨语言平行语料库来分离语义检索与查询语言偏好，并引入LPR和Lang-nDCG等新指标。实验表明，标准指标会掩盖检索器在语义准确性与语言偏好之间的不同行为。

PRISM: Refracting the Entangled User Behavior Space for E-Commerce Search

Haoqian Zhang, Ziyuan Yang, Yi Zhang

cs.IR

本文提出PRISM框架，通过偏好修正模块和LLM驱动的语义锚定机制，显式建模用户偏好与商品相关性之间的交互，以解决电商搜索中行为信号混杂和语义对齐问题。实验表明该方法在行为预测任务上优于现有基线。

DCGL: Dual-Channel Graph Learning with Large Language Models for Knowledge-Aware Recommendation

Xinchi Zou et al.

cs.IR cs.AI

本文提出DCGL框架，通过双通道图学习结构解耦语义信息与用户行为模式，并利用多级对比学习和动态融合机制提升推荐性能。该方法在知识感知推荐任务中取得了优于现有方法的效果。

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

Yingli Zhou et al.

cs.IR

本文对基于LLM的agent技能进行了全面综述，定义了agent技能为可重用的程序性构件，并围绕技能的生命周期（表示、获取、检索和演化）组织文献，讨论了相关方法与应用。

LARAG: Link-Aware Retrieval Strategy for RAG Systems in Hyperlinked Technical Documentation

Giorgia Bolognesi et al.

cs.IR cs.AI

本文提出了一种名为LARAG的轻量级链接感知检索策略，通过将超链接关系编码为chunk表示的元数据，在RAG系统中利用技术文档已有的超链接拓扑结构进行图状检索。实验表明，该方法在Rulex Platform技术文档上比基线RAG架构获得了更高的BERTScore F1，同时检索更少的chunk并生成更少的token。

TRACE: Tourism Recommendation with Accountable Citation Evidence

Zixu Zhao et al.

cs.IR cs.AI cs.CL

本文提出了一个名为TRACE的旅游推荐对话数据集和评估框架，包含多轮对话、引用证据和拒绝恢复机制，并基于多个baseline揭示了推荐系统在准确性、证据可靠性和恢复能力上的差距。该工作主要聚焦于推荐系统评估，与关键词中的code, spectral, Muon, pretrain, agent, attention等概念无直接关联。

FAVOR: Efficient Filter-Agnostic Vector ANNS Based on Selectivity-Aware Exclusion Distances

Junjie Song et al.

cs.IR

本文提出FAVOR，一种用于混合向量-属性查询的过滤无关的近似最近邻搜索方法。它通过引入排除距离机制和选择性驱动的搜索选择器，在不同选择性条件下保持稳定性能，实验表明其查询吞吐量优于现有方法。

cs.CL

MedExAgent: Training LLM Agents to Ask, Examine, and Diagnose in Noisy Clinical Environments ⭐ 精选

Yicheng Gao et al.

cs.CL cs.AI

本文提出MedExAgent，将临床诊断形式化为一个Partially Observable Markov Decision Process (POMDP)，包含询问、检查（作为tool calls）和诊断三种action类型。作者引入了一个包含七种患者噪声和三种检查噪声的系统性噪声模型，并通过两阶段训练（先基于Calgary-Cambridge模型进行supervised finetuning，再使用DAPO优化包含诊断准确率、tool call质量和检查成本的复合reward）训练出高效的诊断agent。该方法解决了现有benchmark忽略临床诊断交互性和不确定性的问题，与关键词“agent”高度契合。

Region4Web: Rethinking Observation Space Granularity for Web Agents ⭐ 精选

Donguk Kwon, Dongha Lee

cs.CL cs.AI

本文提出Region4Web框架，通过层次化分解和语义抽象将网页的AXTree重新组织为功能区域（functional regions），从而将观察空间的粒度从元素级提升至区域级。同时提出PageDigest推理管线，为agent提供跨步骤持久化的紧凑页面摘要。在WebArena基准上，该方法显著缩短了观察长度并提升了多种backbone LLM的任务成功率，为web agent的页面状态理解提供了更紧凑且信息丰富的观测基础。

Teaching Language Models to Think in Code ⭐ 精选

Hyeon Hwang, Jiwoo Lee, Jaewoo Kang

cs.CL

本文提出ThinC (Thinking in Code)框架，将代码本身作为推理主体而非自然语言调用的工具。该方法通过12.2k条以代码为中心的trajectory进行distillation，结合supervised fine-tuning和reinforcement learning训练1.7B和4B模型，在五个竞赛级数学benchmark上超越所有TIR基线方法，甚至优于Qwen3-235B-A22B-Thinking。核心贡献在于让代码执行输出成为推理的唯一连接，99.2%的最终答案直接基于interpreter输出，且能从代码执行失败中可靠恢复，无需中间自然语言推理。该工作与关键词"code"高度契合，为语言模型数学推理提供了开创性的纯代码推理范式。

SOD: Step-wise On-policy Distillation for Small Language Model Agents ⭐ 精选

Qiyong Zhong et al.

cs.CL cs.AI

本文提出SOD (Step-wise On-policy Distillation)框架，用于解决小语言模型在工具集成推理(TIR)中的不稳定性问题。该方法通过自适应地重新加权每个步骤的蒸馏强度，基于步骤级分歧(step-level divergence)来减轻教师模型在高分歧区域的误导性信号，同时保留良好对齐状态下的密集指导。实验表明，SOD在数学、科学和代码基准测试中相比次优基线提升高达20.86%，且0.6B参数的学生模型在AIME 2025上达到26.13%的准确率，有效实现了agent推理向轻量级模型的迁移。

LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling ⭐ 精选

Tong Zheng et al.

cs.CL

本文提出AutoTTS框架，将test-time scaling策略的设计从手工调优转变为自动化发现。通过构建一个包含width-depth控制空间和probe信号的environment，并引入beta parameterization和fine-grained execution trace feedback，使得agent能够高效搜索并发现最优的TTS策略。实验表明，该方法在数学推理benchmark上优于手工设计的baseline，且发现的策略具有良好的泛化性，整个发现过程成本极低。该工作与关键词“agent”高度契合，为LLM的test-time scaling提供了一种自动化的agentic discovery范式。

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Jon-Paul Cacioli

cs.CL cs.AI cs.LG

本文通过向33个前沿LLM模型施测1500个MMLU题目，发现模型的元认知监测质量（Type-2 AUROC）在不同基准领域间存在显著差异，其中应用/专业知识领域最易监测，形式推理与自然科学领域最难。研究还分析了模型家族内的轮廓相似性聚类及探针格式特异性，表明聚合指标掩盖了领域层面的重要变异。

VITA-QinYu: Expressive Spoken Language Model for Role-Playing and Singing

Jiacheng Xu et al.

cs.CL cs.AI

本文提出了VITA-QinYu，一种支持角色扮演和歌唱生成的端到端口语语言模型，采用混合语音-文本范式和多码本音频token设计以增强副语言表示，并通过15.8K小时数据训练在表达性任务上取得领先，同时保持对话准确性和流畅性的最优水平。

IntentGrasp: A Comprehensive Benchmark for Intent Understanding

Yuwei Yin, Chuyuan Li, Giuseppe Carenini

cs.CL cs.AI cs.LG

本文提出了IntentGrasp基准，用于评估LLM的意图理解能力，并提出了Intentional Fine-Tuning (IFT)方法以提升该能力。实验表明，现有模型在该基准上表现不佳，而IFT能带来显著性能提升。

TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP

Mullosharaf K. Arabov

cs.CL

本文构建了一个塔吉克-波斯语平行词汇资源TajPersLexon，并对比了混合流水线、神经序列到序列模型和检索方法在跨脚本词汇检索任务上的表现，发现神经和检索基线方法能达到98-99%的top-1准确率。该工作主要贡献于低资源NLP的词汇对齐与转写，但与关键词列表中的概念关联较弱。

MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes

Maximillian Chen et al.

cs.CL cs.AI cs.HC cs.MM cs.SD +1

本文介绍了MIST，一个用于智能家居中多模态语音交互工具调用的合成数据集，旨在研究基于语音的IoT设备控制。该工作主要关注语音助手与物理世界约束的交互，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Reflections and New Directions for Human-Centered Large Language Models

Caleb Ziems et al.

cs.CL

本文提出了一个以人为中心的大型语言模型（HCLLM）开发框架，整合了NLP、HCI和负责任AI的视角，并针对系统设计、数据、训练、评估和部署各阶段给出了建议。该工作主要关注伦理与社会影响，与关键词中的技术方向关联较弱。

MELD: Multi-Task Equilibrated Learning Detector for AI-Generated Text

Chenjun Li, Cheng Wan, Johannes C. Paetzold

cs.CL cs.AI

本文提出MELD，一种通过多任务学习增强AI生成文本检测的方法，在二元检测基础上引入generator-family、attack-type和source-domain等辅助监督，并采用EMA教师-学生蒸馏和难负样本排序损失提升鲁棒性。该方法在RAID榜单上表现优异，但未涉及code、spectral、Muon或agent等关键词相关技术。

Can LLMs Take Retrieved Information with a Grain of Salt?

Behzad Shayegh et al.

cs.CL

本文评估了八个LLM在检索增强场景下对上下文确定性（context-certainty）的服从能力，发现模型存在误解确定性、过度信任复杂上下文等系统性缺陷。作者提出了一种结合先验提醒、确定性重新校准和上下文简化的交互策略，在不修改模型权重的情况下将服从错误平均降低25%。

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

Souvik Pramanik et al.

cs.CL

本文提出了MultiSoc-4D基准数据集，用于诊断LLM在孟加拉语社交媒体封闭集标注中的“指令诱导标签崩溃”现象，发现模型倾向于选择回退标签（如Other, Neutral, No），导致对少数类别的漏检。该工作主要关注NLP标注偏差，与关键词中的code, spectral, Muon, agent等概念无直接关联。

Group of Skills: Group-Structured Skill Retrieval for Agent Skill Libraries

Kun Zeng et al.

cs.CL cs.AI

本文提出了一种名为Group of Skills (GoSkills)的推理时群结构化检索方法，通过构建锚点中心的技能组和角色标签化的执行契约（包含Start, Support, Check, Avoid字段），将智能体面对的检索对象从扁平技能列表转变为紧凑的执行上下文。实验表明该方法在技能预算有限时能保持可见需求覆盖，并提升智能体性能。

Towards Closing the Autoregressive Gap in Language Modeling via Entropy-Gated Continuous Bitstream Diffusion

Georgios Batzolis, Mark Girolami, Luca Ambrogioni

cs.CL

本文提出了一种基于熵门控连续比特流扩散的语言模型，通过将文本建模为固定宽度二进制比特流上的连续扩散过程，并采用匹配滤波残差参数化和熵率门控随机采样器，在LM1B和OpenWebText基准上取得了优于先前扩散语言模型的结果，接近自回归模型的性能。该方法通过预测$\mathcal{O}(\log V)$的逐比特logits消除了词汇表规模瓶颈，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Cognitive Agent Compilation for Explicit Problem Solver Modeling

Hyeongdon Moon, Carolyn Rosé, John Stamper

cs.CL cs.AI cs.CY

本文提出Cognitive Agent Compilation (CAC)框架，利用大语言模型将问题求解知识编译为显式agent，以提升教育场景中知识状态的可检查性和可编辑性。该工作仍处于早期概念验证阶段，主要探讨了显式控制与可扩展泛化之间的设计权衡。

NSMQ Riddles: A Benchmark of Scientific and Mathematical Riddles for Quizzing Large Language Models

George Boateng et al.

cs.CL

本文提出了一个名为NSMQ Riddles的基准测试，包含来自加纳国家科学和数学竞赛的1.8K个谜题，用于评估LLM在科学和数学推理上的表现。实验表明，即使是顶尖的LLM（如GPT-5.4、Gemini 3.1 Pro）在该数据集上的表现也逊于人类学生选手。

GSM-SEM: Benchmark and Framework for Generating Semantically Variant Augmentations

Jyotika Singh et al.

cs.CL cs.AI

本文提出了GSM-SEM框架，用于生成语义多样化的数学推理基准变体，通过修改问题中的实体、属性和关系来迫使模型重新计算，从而降低模型对固定测试集的记忆偏差。实验表明，在GSM8K等基准上，该方法导致14个SOTA LLM的性能一致下降，但该方法主要关注数学推理评估，与关键词中的code、spectral、Muon等方向关联较弱。

WiCER: Wiki-memory Compile, Evaluate, Refine Iterative Knowledge Compilation for LLM Wiki Systems

Juan M. Huerta

cs.CL cs.AI

本文提出WiCER算法，通过迭代编译、评估和精炼过程，解决LLM Wiki系统中从原始文档编译知识时关键事实丢失的问题。该方法受CEGAR启发，利用诊断探针识别并强制保留遗漏的事实，从而缩小编译差距。

Self-Consolidating Language Models: Continual Knowledge Incorporation from Context

Zekun Wang et al.

cs.CL cs.LG

本文提出Self-Consolidating Language Models (SCoL)，一种后训练框架，使LLM能通过生成文本更新指令来将当前context信息整合到自身权重中，同时限制对已整合知识的干扰。该方法使用meta-reinforcement learning训练，在SQuAD和LongBench v2上提升了知识获取与保留能力，但与我提供的关键词列表契合度较低。

Beyond Single Ground Truth: Reference Monism as Epistemic Injustice in ASR Evaluation

Anna Seo Gyeong Choi et al.

cs.CL

本文探讨了自动语音识别(ASR)评估中单一参考标准(reference monism)导致的认知不公正问题，指出不同转录惯例(verbatim, non-verbatim, legal)会显著影响Word Error Rate (WER)的测量结果，并以失语症患者为例说明这种单一标准对其语音贡献的忽视。文章提出了Epistemic Injustice Distance (EID)来量化这种成本，并建议使用WER-Range报告多个合法惯例下的性能。

The Translation Tax Is Not a Scalar: A Counterfactual Audit of English-Source Cue Inheritance in Chinese Multilingual Benchmarks

Zezheng Lin, Fengming Liu, Handi Li

cs.CL cs.AI cs.LG

本文质疑了“Translation Tax”是一个标量（即翻译后的benchmark会通过保留英文源线索而统一提升分数）的常见假设。通过在英译中场景下使用多种代理估计器（如back-translation gap、cue-score calibration和native-control比较）进行审计，发现该效应并非单一标量，而是依赖于估计器和具体item的效度风险。

SAGE: Hierarchical LLM-Based Literary Evaluation through Ontology-Grounded Interpretive Dimensions

Tianyu Wang, Nianjun Zhou

cs.CL

SAGE是一个基于ontology的分层文学质量评估框架，通过结构化的大语言模型评估和迭代反思来分解文学质量。实验表明该方法在100篇短故事上达到了高评分收敛性和评分者间一致性，并揭示了不同文学体裁间的显著差异。

Retrieve, Integrate, and Synthesize: Spatial-Semantic Grounded Latent Visual Reasoning

Jin Cui et al.

cs.CL

本文提出RIS框架，通过空间-语义锚定和渐进式注意力瓶颈，使多模态大语言模型在连续隐空间中执行视觉推理，以缓解信息瓶颈和流形不兼容问题。实验表明该方法在多个基准上优于现有基线，但未涉及代码、谱方法或Muon优化器等关键词。

Securing Computer-Use Agents: A Unified Architecture-Lifecycle Framework for Deployment-Grounded Reliability

Zejian Chen et al.

cs.CL cs.SE

本文提出了一个面向计算机使用代理(CUA)的架构-生命周期统一框架，从感知、决策、执行三个耦合层以及学习、操作、维护三个阶段分析其部署可靠性问题，并综合了现有系统、基准测试和安全研究。该工作主要聚焦于代理系统的可靠性分类与干预面映射，与关键词中的agent有一定关联，但方法上缺乏开创性且未解决长期存在的核心问题。

Beyond LoRA vs. Full Fine-Tuning: Gradient-Guided Optimizer Routing for LLM Adaptation

Haozhan Tang et al.

cs.CL cs.AI

本文提出了一种名为MoLF (Mixture of LoRA and Full)的微调框架，通过优化器级别的梯度路由动态结合全参数微调(FFT)与低秩适应(LoRA)，以解决单一静态架构在LLM适应中的局限性。实验表明该方法在多种任务上性能接近或优于FFT与LoRA中的最优者。

Structural Rationale Distillation via Reasoning Space Compression

Jialin Yang et al.

cs.CL cs.AI cs.LG

本文提出Distillation through Reasoning Path Compression (D-RPC)方法，通过压缩teacher model的推理路径空间来提升知识蒸馏效果。该方法在多个数学和常识推理基准上优于chain-of-thought蒸馏等基线方法，但与关键词列表中的code, context, spectral等概念关联较弱。

Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs

Wanli Yang et al.

cs.CL

本文研究了Reinforcement Learning (RL) 能否提升大型语言模型对parametric knowledge的直接回忆能力。实验表明，在zero-shot、closed-book QA设定下，RL通过重新分配已有知识的概率质量，而非获取新事实，带来了约27%的平均相对提升。

CLIPer: Tailoring Diverse User Preference via Classifier-Guided Inference-Time Personalization

Jinyan Su et al.

cs.CL

本文提出CLIPer方法，通过一个classifier模型在推理时动态引导LLM生成，以适应不同用户偏好（如简洁性、幽默感等），无需大量fine-tuning。该方法在单维和多维偏好场景下实现了可控的个性化语言生成。

Rethinking Experience Utilization in Self-Evolving Language Model Agents

Weixiang Zhao et al.

cs.CL

本文研究了自进化语言模型agent中经验利用的策略，提出ExpWeaver方法，将经验作为推理时的可选资源而非固定注入。实验表明，选择性调用经验能提升性能，但方法本身是对现有框架的改进，而非开创性突破。

A Reproducible Multi-Architecture Baseline for Token-Level Chinese Metaphor Identification under the MIPVU Framework

Yufeng Wu

cs.CL

本文在MIPVU框架下，为中文token级隐喻识别建立了可复现的多架构基线，系统比较了RoBERTa、MelBERT和Qwen3.5-9B三种模型在PSU中文隐喻语料库上的性能。结果表明MelBERT表现最优，而生成式模型Qwen在召回率上存在明显差距，且其SPV通道在中文中贡献有限。

Topology-Enhanced Alignment for Large Language Models: Trajectory Topology Loss and Topological Preference Optimization

Yurui Pan, Ke Xu, Bo Peng

cs.CL

本文提出了一种拓扑增强的对齐框架，通过0维persistent homology（持续同调）来正则化大语言模型在隐空间中的语义轨迹。具体包括用于SFT的Trajectory Topology Loss (TTL)和用于DPO的Topological Preference Optimization (TPO)，实验表明该方法在偏好指标上优于非拓扑基线。

Learning Agent Routing From Early Experience

Yimin Wang et al.

cs.CL

本文提出BoundaryRouter，一种无需训练的routing框架，通过早期行为经验和rubric-guided reasoning在轻量级LLM推理和完整agent执行之间进行路由决策，并引入RouteBench基准进行评测。实验表明该方法在冷启动场景下能有效平衡推理延迟和任务性能。

The Text Uncanny Valley: Non-Monotonic Performance Degradation in LLM Information Retrieval

Zekai Tong et al.

cs.CL cs.AI

本文研究了LLM在词边界被破坏（如插入空格）时信息检索性能的非单调退化现象，发现检测准确率随插入率增加呈U形曲线（称为“文本恐怖谷”），并提出模式转换假说（词级与字符级模式间的混乱过渡）来解释该现象。实验表明该效应在clean-text benchmarks中不可见，但与噪声文本部署场景直接相关。

PSK@EEUCA 2026: Fine-Tuning Large Language Models with Synthetic Data Augmentation for Multi-Class Toxicity Detection in Gaming Chat

Srikar Kashyap Pulipaka

cs.CL cs.AI cs.LG

本文针对游戏聊天中的多类毒性检测任务，探索了多种方法（包括encoder模型、基于LoRA微调的instruction-tuned LLMs等），最终采用Llama 3.1 8B结合5%合成数据增强取得了F1-macro分数0.6234。文章还分析了数据集标注模式对模型泛化的影响，揭示了“验证陷阱”现象。

Hallucination Detection via Activations of Open-Weight Proxy Analyzers

Akshita Singh, Prabesh Paudel, Siddhartha Roy

cs.CL cs.AI cs.LG

本文提出了一种基于小型开源模型内部激活的幻觉检测框架，通过分析阅读模型的残差流、注意力、熵等特征来检测大语言模型生成的文本中的幻觉，并在多个数据集上取得了优于基线方法的性能。

Reformulating KV Cache Eviction Problem for Long-Context LLM Inference

Tho Mai, Joo-Young Kim

cs.CL cs.AI

本文重新定义了KV Cache eviction问题，将其从传统的head-wise权重平均方法转化为output-aware的layer-wise矩阵乘法近似问题，并提出了LaProx策略来量化token贡献。实验表明该方法在仅保留5% KV Cache时仍能保持模型性能。

SpecBlock: Block-Iterative Speculative Decoding with Dynamic Tree Drafting

Weijie Shi et al.

cs.CL

本文提出SpecBlock，一种用于LLM推理加速的块迭代推测解码方法。它通过块内层间移位和块间隐藏状态继承来保持路径依赖性，并利用协同训练的rank head和成本感知bandit优化解码效率。该方法在降低解码成本的同时提升了加速比。

PaT: Planning-after-Trial for Efficient Test-Time Code Generation

Youngsik Yoon et al.

cs.CL cs.LG

本文提出了一种名为Planning-after-Trial (PaT)的自适应策略，用于大语言模型的代码生成，该策略仅在验证失败时才调用规划器，从而避免了对可直接求解问题的规划开销。实验表明，该方法在多个基准测试中显著提升了成本-性能帕累托前沿，但并未涉及关键词中的spectral、Muon、pretrain、agent或attention等核心概念。

From 0-Order Selection to 2-Order Judgment: Combinatorial Hardening Exposes Compositional Failures in Frontier LLMs

Hanmeng Liu et al.

cs.CL

本文提出LogiHard框架，将0阶选择题转化为2阶逻辑判断，通过组合变换增加推理难度，并利用Item Response Theory实现自适应测试。实验表明前沿LLM在该框架下准确率下降31%-56%，暴露出多选失败和早期退出偏差等组合推理缺陷。

MIPIAD: Multilingual Indirect Prompt Injection Attack Defense with Qwen -- TF-IDF Hybrid and Meta-Ensemble Learning

Al Muhit Muhtadi, Mostafa Rifat Tazwar

cs.CL cs.LG

本文提出MIPIAD框架，用于防御多语言环境下的间接prompt注入攻击，结合了基于Qwen2.5-1.5B的序列分类器、TF-IDF特征和集成学习，在英语和孟加拉语上取得了较好效果。该工作主要关注安全防御，与关键词中的code、spectral、Muon、pretrain、agent、attention等方向关联较弱。

Understanding Performance Collapse in Layer-Pruned Large Language Models via Decision Representation Transitions

Boyu Shi et al.

cs.CL cs.AI

本文通过引入Decision Margin和Option Frequency两个指标以及Iterative Pruning方法，分析了层剪枝导致大语言模型性能崩溃的机制。研究发现网络存在Silent Phase和Decisive Phase两个阶段，剪枝Silent Phase会阻止关键的决策转换从而引发性能崩溃。

MedAction: Towards Active Multi-turn Clinical Diagnostic LLMs

Hsin-Ling Hsu et al.

cs.CL cs.AI

本文研究了多轮临床诊断中LLM的主动诊断问题，通过系统分析识别出三种失败模式，并提出了MedAction树状蒸馏管道来合成多轮诊断轨迹，构建了MedAction-32K数据集。微调后的8B模型在相关基准上取得了开源模型中的最优性能，但该方法与关键词中的概念关联较弱。

Rethinking Dense Sequential Chains: Reasoning Language Models Can Extract Answers from Sparse, Order-Shuffling Chain-of-Thoughts

Yi-Chang Chen et al.

cs.CL

本文通过系统性的干预实验（移除、掩码、打乱和噪声注入）挑战了现代推理语言模型生成的密集、顺序链式思维（chain-of-thought）的必要性。研究发现，答案提取对推理链的顺序不敏感（行级打乱几乎不影响准确率），且仅依赖稀疏的信息子集（掩码数字导致准确率归零，而移除自然语言反而提升准确率）。这些结果表明，答案提取基于稀疏、顺序无关且结构鲁棒的信息基底，为并行化和token高效的推理生成开辟了路径。

LaTER: Efficient Test-Time Reasoning via Latent Exploration and Explicit Verification

Xuan Li et al.

cs.CL

本文提出LaTER方法，通过两阶段推理（先进行连续latent space探索，再切换至显式CoT验证）来降低LLM推理的token开销。该方法在训练-free和微调两种设置下均能减少16%-33%的token使用，并在多数benchmark上保持或提升准确率。

Activation Differences Reveal Backdoors: A Comparison of SAE Architectures

Sachin Kumar

cs.CL cs.AI cs.CR cs.LG

本文比较了Crosscoders和Differential SAEs (Diff-SAE)两种sparse autoencoder架构在检测语言模型后门攻击中的表现。研究发现，Diff-SAE在隔离后门相关特征方面显著优于Crosscoders，表明后门表现为方向性激活偏移而非稀疏特征激活。

Mean-Pooled Cosine Similarity is Not Length-Invariant: Theory and Cross-Domain Evidence for a Length-Invariant Alternative

Sibayan Mitra, Dhruv Kumar

cs.CL cs.LG

本文指出平均池化余弦相似度（mean-pooled cosine similarity）在表征各向异性（anisotropy）下并非长度不变，并通过代码大模型和跨语言平行语料上的实验证明，序列长度比能解释大部分跨语言相似性方差。文章建议使用Centered Kernel Alignment (CKA)作为替代度量。

Gradient-Based LoRA Rank Allocation Under GRPO: An Empirical Study

Yash Ganpat Sawant

cs.CL

本文研究了在GRPO（Group Relative Policy Optimization）强化学习框架下，基于梯度幅值的LoRA秩分配方法。实验发现，与监督微调（SFT）不同，在GRPO中非均匀秩分配反而导致性能下降，原因是梯度分布更平坦且非均匀分配会加剧梯度放大效应。

The Proxy Presumption: From Semantic Embeddings to Valid Social Measures

Baishi Li et al.

cs.CL cs.LG stat.AP

本文讨论了NLP中embedding作为社会概念测量工具的有效性问题，提出了Construct Validity Protocol (CVP)框架和Counterfactual Neutralization方法，旨在减少embedding空间中的混淆因素。

Generating training datasets for legal chatbots in Korean

Changhoe Hwang, Jee-Sun Nam, Eric Laporte

cs.CL cs.LG

本文提出了一种基于local grammar graphs (LGG)的方法，用于生成大规模带标签的对话数据集，以训练法律聊天机器人。该方法在韩语法律聊天机器人LIGA中实现，生成了7亿条话语并训练了DIET分类器，达到了91%的f1-score性能。

SSP-based construction of evaluation-annotated data for fine-grained aspect-based sentiment analysis

Suwon Choi et al.

cs.CL cs.LG

本文报告了韩语评价标注语料库EVAD的构建及其在细粒度方面级情感分析中的应用，使用半自动符号传播方法进行标注，并扩展了ABSA框架以包含方面值。实验表明，基于该语料库训练的KoBERT和KcBERT模型在方面-值对识别上取得了F1分数0.88和0.90的稳健性能。

Data Contamination in Neural Hieroglyphic Translation: A Reproducibility Study

Ammar Toutou, Abdelrahman Harb, Christine Basta

cs.CL

本文复现了一项关于象形文字到德语翻译的神经机器翻译研究，发现原始报告的高BLEU分数（61.5）主要源于数据污染（测试集目标文本与训练集存在2%的重复），实际模型在干净样本上的BLEU仅为30.9-39.2。研究强调了数据污染对低资源语言NMT评估的严重影响，并提供了去污染后的测试集和修正基线。

GRaSp: Automatic Example Optimization for In-Context Learning in Low-Data Tasks

Simen Bihaug-Frøyland, Henrik Brådland

cs.CL

本文提出GRaSp框架，通过生成合成候选池、聚类降维和遗传算法优化in-context examples，在低数据NER任务上提升性能。实验表明非合成数据优于随机baseline，但合成数据效果有限。

Think-with-Rubrics: From External Evaluator to Internal Reasoning Guidance

Jiachen Yu et al.

cs.CL

本文提出Think-with-Rubrics范式，将rubric生成整合到LLM的推理过程中，使其从外部评估器转变为内部推理引导。实验表明该方法在指令遵循任务上优于基线，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

The Moltbook Files: A Harmless Slopocalypse or Humanity's Last Experiment

William Brach et al.

cs.CL cs.AI

本文介绍了Moltbook平台（一个由OpenClaw agents大规模发帖、评论和投票的类Reddit平台）及其数据集Moltbook Files，分析了agents的社区结构、情感倾向和语义特征。研究发现，在该数据上微调语言模型会降低其真实性，但控制实验表明这种下降与使用普通Reddit数据微调的效果相当，因此该现象更像是一种无害的“垃圾内容泛滥”，而非严重的安全威胁。

SEIF: Self-Evolving Reinforcement Learning for Instruction Following

Qingyu Ren et al.

cs.CL

本文提出SEIF框架，通过自进化强化学习提升大语言模型的指令跟随能力，其中指令难度与模型能力相互促进。实验表明该方法在不同规模模型上均有效，但未涉及关键词中的code、spectral、Muon、agent或attention等概念。

TCMIIES: A Browser-Based LLM-Powered Intelligent Information Extraction System for Academic Literature

Hanqing Zhao

cs.CL cs.IR

TCMIIES是一个基于浏览器的零安装学术文献信息提取系统，利用商业LLM API和schema引导的提示框架实现结构化信息提取。该系统采用纯前端架构保障数据隐私，支持多种LLM提供商和中文数据库智能字段映射，在中医药文献提取中达到94%以上的结构化输出合规率。

WeatherSyn: An Instruction Tuning MLLM For Weather Forecasting Report Generation

Zinan Zheng et al.

cs.CL

本文提出了Weather Forecasting Report (WFR)任务，并构建了首个用于该任务的instruction-tuning数据集，基于此开发了WeatherSyn模型用于生成天气预报报告。该模型在多个指标上优于闭源MLLM，并展现出跨区域的零样本泛化能力。

Why do Large Language Models Fail in Low-resource Translation? Unraveling the Token Dynamics of Large Language Models for Machine Translation

Shenbin Qian, Yves Scherrer

cs.CL

本文通过引入Token Activation Rate (TAR)指标，系统分析了大型语言模型在低资源机器翻译中的失败模式，发现非英语中心语言对的翻译质量较低，且TAR与翻译性能强相关。

Nürnberg NLP at PsyDefDetect: Multi-Axis Voter Ensembles for Psychological Defence Mechanism Classification

Philipp Steigerwald, Eric Rudolph, Jens Albrecht

cs.CL cs.AI

本文针对心理防御机制分类任务中类别边界模糊的问题，提出了一种多轴投票集成方法，通过组合不同粒度、训练方法和基础模型的9个分类器来提升性能，在测试集上取得了$F1_{test}=.420$的成绩并排名第一。

Intent-Driven Semantic ID Generation for Grounded Conversational News Recommendation

Hongyang Su et al.

cs.CL

本文针对对话式新闻推荐中用户意图隐式且缺乏可检索关键词的问题，提出了一种基于意图驱动的Semantic ID生成方法，采用Generate-then-Match范式，通过多任务SID对齐和GPT-4 Chain-of-Thought蒸馏训练LLM，将多样意图映射到层次化SID前缀，再与当前新闻池进行模糊匹配以生成完全基于事实的推荐。实验表明，该7B模型在152K开放生成SID空间中实现了0%幻觉率和12.4%的L1匹配率，并在冷启动用户场景下取得显著提升。

Is She Even Relevant? When BERT Ignores Explicit Gender Cues

Jonas Klein, Chiara Manna, Eva Vanmassenhove

cs.CL

本文通过训练一个荷兰语BERT模型并提取checkpoint级别的contextual embeddings，使用线性SVM构建动态gender subspaces，研究了性别信息在模型中的形成过程。结果表明，尽管性别信息在训练后期变得线性可分，但模型在反刻板印象语境中无法有效利用显式性别线索更新内部表示，导致系统性的男性默认行为。

Safe, or Simply Incapable? Rethinking Safety Evaluation for Phone-Use Agents

Zhengyang Tang et al.

cs.CL cs.AI cs.LG

本文提出了PhoneSafety基准，包含700个从真实手机交互中提取的安全关键时刻，用于区分手机使用agent的安全行为与能力不足。评估发现，更强的通用手机操作能力并不保证更安全的选择，且无法执行操作更多反映能力限制而非安全意图。

Post-training makes large language models less human-like

Marcel Binz et al.

cs.CL cs.AI cs.LG

本文通过引入Psych-201数据集，评估了大型语言模型与人类行为的一致性。研究发现，post-training阶段（将基础模型转化为有用助手的步骤）会持续降低模型对人类行为的对齐度，且这种偏差在更新模型世代中扩大。此外，persona-induction技术（通过条件化模型于参与者特定信息来模拟人类行为）未能改善个体层面的预测。

Multi-Dimensional Evaluation of LLMs for Grammatical Error Correction

Adnan Labib et al.

cs.CL

本文评估了最新一代LLM在语法纠错任务上的表现，发现微调后的GPT-4o在编辑精度、流畅性保持和意义保留三个维度上达到最优，且不同LLM的纠错模式高度相似（$\rho=0.947$）。研究还表明，基于参考的指标会低估GEC系统性能，73.76%的GPT-4o修正与黄金标准不同但同样有效或更优。

MAVEN: Multi-Agent Verification-Elaboration Network with In-Step Epistemic Auditing

Yinsheng Yao et al.

cs.CL cs.AI cs.LG

本文提出MAVEN框架，通过多智能体（Skeptic-Researcher-Judge）的对抗性循环将LLM转化为审慎推理者，在多个benchmark上提升了推理质量。该方法与关键词中的agent概念相关，但并非开创性工作。

Quality-Conditioned Agreement in Automated Short Answer Scoring: Mid-Range Degradation and the Impact of Task-Specific Adaptation

Abigail Victoria Gurin Schleifer et al.

cs.CL cs.AI

本文研究了自动短答案评分中不同模型（包括few-shot LLMs和微调BERT模型）在评分质量上的差异，发现所有AI模型在完全正确和完全错误的答案上表现良好，但在中等质量答案上存在显著退化，且这种退化程度与任务特定适应程度相关。

Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning

Gengyang Li et al.

cs.CL

本文通过attention entropy（注意力熵）研究强化学习后训练中token级学习信号的异质性，发现低熵token（锚点）提供稳定梯度，高熵token（探索者）产生大但波动的梯度，并基于此提出动态熵感知软重加权方法。该工作揭示了token级RL信号中的优化相关结构，但方法本身在开创性上有限。

DRIP-R: A Benchmark for Decision-Making and Reasoning Under Real-World Policy Ambiguity in the Retail Domain

Hsuvas Borkakoty et al.

cs.CL cs.AI

本文提出了DRIP-R基准，用于评估LLM agent在零售领域面对真实世界政策歧义时的决策与推理能力。该基准通过构建无单一正确解的政策歧义场景，并采用全双工对话模拟与多裁判评估框架，揭示了前沿模型在歧义场景下存在根本性分歧。

Guidance Is Not a Hyperparameter: Learning Dynamic Control in Diffusion Language Models

Fan Zhou, Tim Van de Cruys

cs.CL

本文提出将Classifier-Free Guidance (CFG)的scale选择视为一个sequential decision-making问题，并使用Proximal Policy Optimization (PPO)学习动态guidance轨迹，以在扩散语言模型中平衡可控性与生成质量。实验表明，自适应guidance优于固定scale策略，但该方法与关键词列表中的概念关联较弱。

SimCT: Recovering Lost Supervision for Cross-Tokenizer On-Policy Distillation

Jie Sun et al.

cs.CL

本文提出SimCT方法，通过扩展监督空间（在共享token基础上引入短多token连续片段）来恢复异构tokenizer下on-policy distillation中丢失的教师信号，在数学推理和代码生成任务上验证了有效性。

Memory-Efficient Looped Transformer: Decoupling Compute from Memory in Looped Language Models

Victor Conchello Vendrell et al.

cs.CL cs.AI cs.LG

本文提出Memory-Efficient Looped Transformer (MELT)架构，通过跨推理循环共享KV cache并引入可学习门控机制，将推理深度与内存消耗解耦。该方法在保持循环语言模型性能的同时，实现了常数级内存开销的迭代推理。

Benchmarking EngGPT2-16B-A3B against Comparable Italian and International Open-source LLMs

Andrea Sassella et al.

cs.CL cs.AI

本文对EngGPT2MoE-16B-A3B模型在多种benchmark上的表现进行了benchmarking，将其与同规模的意大利语及国际开源LLM进行了比较。该模型在部分国际benchmark上表现良好，但在某些任务上仍不及一些顶尖国际模型。

TextLDM: Language Modeling with Continuous Latent Diffusion

Jiaxiu Jiang et al.

cs.CL

本文提出TextLDM，将视觉生成中基于VAE隐空间的扩散Transformer (DiT)框架迁移至文本生成。通过Transformer-based VAE将离散token映射为连续隐变量，并利用Representation Alignment (REPA)对齐预训练语言模型特征以提升条件去噪质量，最终在OpenWebText2上训练并匹配GPT-2性能。

CktFormalizer: Autoformalization of Natural Language into Circuit Representations

Jing Xiong et al.

cs.CL cs.PL

本文提出CktFormalizer框架，利用Lean 4中的dependent type HDL将自然语言硬件描述自动形式化为电路表示，通过类型检查将位宽不匹配、组合环路等缺陷转化为编译时错误，并支持机器验证的等价性证明。实验表明该方法在仿真通过率上与直接Verilog生成相当，但显著提升了后端可实现性，并能在保证功能等价的前提下实现面积和功耗优化。

Chain-based Distillation for Effective Initialization of Variable-Sized Small Language Models

Boyu Shi et al.

cs.CL

本文提出Chain-based Distillation (CBD)方法，通过构建稀疏的中间模型序列（anchors）形成蒸馏链，逐步将知识从大语言模型转移到小语言模型。该方法支持跨架构和跨词表的bridge distillation，并通过参数插值初始化不同大小的模型，避免了重复使用大模型进行推理。

Hybrid TF--IDF Logistic Regression and MLP Neural Baseline for Indonesian Three-Class Sentiment Analysis on Social Media Text

Allya Nurul Islami Pasha et al.

cs.CL

本文针对印尼社交媒体文本的三类情感分析任务，提出了一个结合TF-IDF文本特征与少量数值元特征的Logistic Regression基线模型，并与两层MLP神经网络基线进行了比较。实验表明，在小型不平衡数据集上，经过精心预处理的Logistic Regression模型在准确率和F1分数上表现良好，而神经网络基线更适合作为对比实验而非部署模型。

PolySQL: Scaling Text-to-SQL Evaluation Across SQL Dialects via Automated Backend Isomorphism

Yotam Perlitz et al.

cs.CL

本文提出PolySQL方法，通过比较规范化执行结果来评估不同SQL方言下的Text-to-SQL模型性能，无需手动查询转译。实验发现SQLite性能不能可靠代表其他方言，平均准确率下降10.1%，且错误主要源于逻辑而非语法问题。

Beyond Confidence: Rethinking Self-Assessments for Performance Prediction in LLMs

Sree Bhattacharyya et al.

cs.CL cs.AI cs.LG

本文基于认知评价理论，提出了一种多维度的LLM自我评估方法，通过引入努力、能力等六个评价维度来预测模型性能，发现这些维度在多数情况下优于传统的置信度评估，且不同维度在不同任务类型中表现各异。

A Comparative Analysis of Classical Machine Learning and Deep Learning Approaches for Sentiment Classification on IMDb Movie Reviews

Erma Daniar Safitri et al.

cs.CL

本文比较了经典机器学习（使用TF-IDF特征和PyCaret AutoML评估Logistic Regression、Naïve Bayes和SVM）与深度学习方法（BiLSTM及带attention机制的BiLSTM）在IMDb电影评论情感分类上的性能。实验表明，经典机器学习方法（尤其是SVM）在准确率上优于所测试的深度模型。

SCENE: Recognizing Social Norms and Sanctioning in Group Chats

Mateusz Jacniacki, Maksymilian Bilski

cs.CL

本文提出了SCENE，一个用于评估LLM-based agent在群聊中识别和适应隐含社会规范及社会制裁能力的benchmark。通过生成多角色场景并测试模型对规范违反和制裁的响应，发现Claude Opus 4.7和Gemini 3.1 Pro在适应隐含规范方面优于开源模型。

Measuring and Mitigating the Distributional Gap Between Real and Simulated User Behaviors

Shuhaib Mehri et al.

cs.CL

本文提出了一种量化真实与模拟用户行为分布差异的方法，通过聚类和散度度量评估了24种基于LLM的用户模拟器，发现模拟器与真实用户存在显著分布差距，且不同模型家族和规模的行为差异各异。

MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning

Ionut-Vlad Modoranu, Mher Safaryan, Dan Alistarh

cs.CL cs.AI cs.LG

本文提出MatryoshkaLoRA，一种用于LLM微调的层级低秩表示学习框架，通过在LoRA适配器间插入对角矩阵$P$来高效学习不同子秩的表示，并引入AURAC指标进行评估。该方法在动态秩选择上优于DyLoRA等现有方法，但与我提供的关键词（如code, context, spectral等）关联度较低。

Beyond "I cannot fulfill this request": Alleviating Rigid Rejection in LLMs via Label Enhancement

Ying Zhang et al.

cs.CL

本文提出LANCE方法，通过变分推断预测连续拒绝类别分布，以缓解大语言模型中的刚性拒绝问题，使模型在保持安全性的同时生成更自然的回复。该方法主要关注对话交互的自然性，与您提供的关键词列表关联度较低。

CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers

Hexuan Deng et al.

cs.CL cs.AI

本文提出了一个名为CoCoReviewBench的基准测试，用于评估AI审稿人的完整性和正确性。它通过构建特定类别的子集并利用专家讨论来过滤不可靠的审稿，从而解决了现有评估指标依赖有缺陷的人类审稿的问题。

How Value Induction Reshapes LLM Behaviour

Arnav Arora et al.

cs.CL

本文研究了在Conversational Large Language Models中通过微调注入特定价值观（如helpfulness, harmlessness, honesty）对模型行为的影响，发现注入价值观会引发其他相关甚至对立价值观的表达，并增加拟人化语言使用，使模型更具验证性和谄媚性。该工作主要关注模型行为与安全性，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等方向关联较弱。

How to Train Your Latent Diffusion Language Model Jointly With the Latent Space

Viacheslav Meshchaninov et al.

cs.CL

本文提出LDLM模型，通过联合训练latent encoder、diffusion model和decoder来构建适合文本生成的latent space，并设计了包括MSE decoder loss、diffusion-to-encoder warmup等训练策略。实验表明该方法在生成性能和速度上优于现有离散和连续diffusion语言模型。

Ask Early, Ask Late, Ask Right: When Does Clarification Timing Matter for Long-Horizon Agents?

Anmol Gulati et al.

cs.CL

本文研究了长时域AI agent在执行复杂任务时，澄清时机对性能的影响，通过一个强制注入框架在四个信息维度上测试了不同时机提供澄清的效果，发现澄清价值高度依赖于缺失信息的类型。该工作为设计时机感知的澄清策略提供了经验基础，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

GLiGuard: Schema-Conditioned Classification for LLM Safeguard

Urchade Zaratiana et al.

cs.CL cs.CR

本文提出GLiGuard，一个基于GLiNER2的0.3B参数双向编码器，用于LLM内容审核。它通过将任务定义和标签语义编码为结构化token schema，在单次非自回归前向传播中同时评估多个安全维度，在多个基准上以更小的模型尺寸取得了与大型解码器模型相当的F1分数。

Tool Calling is Linearly Readable and Steerable in Language Models

Zekun Wu et al.

cs.CL cs.AI cs.LG cs.SE

本文研究了语言模型中工具调用的内部表示，发现所选工具的标识在模型内部是线性可读和可操控的，通过添加工具间平均激活的差异可以切换模型选择的工具，并分析了其因果机制和局限性。

Fast Byte Latent Transformer

Julie Kallini et al.

cs.CL cs.AI cs.LG

本文针对Byte Latent Transformer (BLT)在逐字节自回归生成中的速度瓶颈，提出了三种加速推理方法：BLT Diffusion (BLT-D)通过辅助块级扩散目标实现并行生成多个字节；BLT Self-speculation (BLT-S)和BLT Diffusion+Verification (BLT-DV)则借鉴投机解码思想，在速度与生成质量间取得平衡。这些方法在生成任务中可将估计的内存带宽成本降低超过50%，但并未直接涉及code、spectral或Muon等关键词。

Uncertainty-Aware Structured Data Extraction from Full CMR Reports via Distilled LLMs

Yi Yu et al.

cs.CL

本文提出了CMR-EXTR框架，通过teacher-student蒸馏将free-text CMR报告转换为结构化数据，并集成了基于分布合理性、采样稳定性和跨字段一致性的不确定性估计来辅助人工审核。实验表明该方法达到了99.65%的变量级准确率，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Accurate and Efficient Statistical Testing for Word Semantic Breadth

Yo Ehara

cs.CL

本文提出了一种Householder-aligned permutation test，用于在比较两个词类型的语义广度时，消除语义方向差异对dispersion统计检验的干扰，从而降低Type-I error。该方法通过Householder reflection对齐两个词类型的mean direction，并基于GPU实现加速，在保持对真实广度差异敏感性的同时，将Type-I error降低了32.5%。

CA-SQL: Complexity-Aware Inference Time Reasoning for Text-to-SQL via Exploration and Compute Budget Allocation

James Petullo, Nianwen Xue

cs.CL cs.AI

CA-SQL提出了一种基于任务难度动态调整搜索空间大小的Text-to-SQL推理方法，通过进化搜索启发的prompt播种和投票机制提升候选查询质量。该方法在BIRD基准的困难子集上取得领先性能，但未涉及code、spectral、Muon等关键词相关技术。

The Memory Curse: How Expanded Recall Erodes Cooperative Intent in LLM Agents

Jiayuan Liu et al.

cs.CL cs.AI cs.GT cs.MA

本文研究了LLM在多智能体社会困境中的表现，发现扩展上下文窗口（context window）会系统性地降低合作意图，并将此现象称为“记忆诅咒”。通过分析推理轨迹、记忆清理和消融实验，作者揭示了记忆内容而非长度是导致合作崩溃的关键，且显式推理会加剧该问题。

Conformal Path Reasoning: Trustworthy Knowledge Graph Question Answering via Path-Level Calibration

Shuhang Lin et al.

cs.CL

本文提出Conformal Path Reasoning (CPR)框架，通过查询级别的路径分数校准和Residual Conformal Value Network (RCVNet)学习判别性非一致性分数，为知识图谱问答提供具有统计覆盖保证的预测集。该方法在提升经验覆盖率的同时显著减小了预测集大小。

cs.DS

Optimal Learning-Augmented Algorithm for Online Bidding ⭐ 精选

Changyeol Lee et al.

cs.DS

本文提出了一种Pareto最优的随机化学习增强算法，用于在线竞价问题，填补了该问题在随机设置中上下界之间的空白。作者引入了“竞价分布轮廓”（bidding profile）这一新概念，将算法生成的竞价分布表示出来，并证明任何竞价算法都可以无损地简化为由竞价分布轮廓驱动的形式。通过一组延迟微分方程刻画了最优轮廓，并将该方法推广到线性搜索问题，显著改进了先前的学习增强算法。该工作与关键词中的“context”和“attention”有一定关联，因为其核心在于利用上下文信息（如历史数据）来优化在线决策。

Coordinated Motion Planning is FPT on Discretized Simple Polygons ⭐ 精选

Argyrios Deligkas et al.

cs.DS cs.CG

本文针对离散化简单多边形（discretized simple polygons）上的协调运动规划问题，提出了一个固定参数可解（FPT）算法，参数为机器人数量$k$。该问题要求为$k$个机器人规划无碰撞路径以最小化总移动距离，已知在完整网格和bounded-treewidth图上为FPT。本文的结果将FPT性推广到更一般的多边形离散化图，这类图在实际应用中（如机器人路径规划）具有重要价值，并被视为向解决平面图上的该问题迈出的关键一步。

Faster Deterministic Streaming Vertex Coloring ⭐ 精选

Shiri Chechik, Hongyi Chen, Tianyi Zhang

cs.DS

本文提出了一种新的确定性半流式算法，在$O(\sqrt{\log \Delta})$次遍历中计算$O(\Delta)$-着色，首次实现了使用亚对数次遍历和线性于$\Delta$的调色板大小的确定性流式顶点着色。该工作解决了该领域长期存在的关于能否在亚对数次遍历中达到线性调色板大小的开放问题，方法具有开创性，且与关键词“context”和“attention”在算法设计的上下文和关注点上有一定契合。

Polylogarithmic Approximation for Covering and Connecting Multi-Interface Networks

Michał Szyfelbein, Camille Richer

cs.DS cs.NI

本文研究了多接口无线网络中的覆盖与连接问题，通过整数线性规划建模并基于随机舍入设计近似算法。对于覆盖问题，得到了$O(\log m)$-近似算法；对于连接问题，得到了$O(\log^2 m)$-近似算法，这是该问题的首个非平凡近似结果。

Accelerated Relax-and-Round for Concave Coverage Problems

Matthew Fahrbach, Mehraneh Liaee, Morteza Zadimoghaddam

cs.DS cs.LG

本文提出了一种加速的relax-and-round算法，用于解决凹覆盖问题（concave coverage problems），通过投影加速梯度方法和基于Carathéodory分解与随机swap rounding的舍入方案，将运行时间改进为$\widetilde{O}(mn \varepsilon^{-1})$，并证明了新reward function的紧近似比。该工作主要关注算法效率与近似比的理论改进，与关键词列表中的概念关联较弱。

Modern column generation for estimating single- and multi-purchase ranked list choice models

Luciano Costa et al.

cs.DS

本文针对单次和多次购买的排序列表离散选择模型估计问题，提出了一种列生成框架，其核心贡献是用于子问题的动态规划算法，该算法推广了线性排序问题并集成了加速技术。实验表明该方法在合成和真实数据上相比现有方法有显著加速，并能保持解的质量。

Equivalence of Coarse and Fine-Grained Models for Learning with Distribution Shift

Adam R. Klivans et al.

cs.DS cs.LG

本文证明了在无分布假设下，PQ学习与TDS学习两种分布偏移学习模型之间的等价性，并给出了从PQ学习到TDS学习的黑盒归约方法。该结果首次揭示了半空间等基本类在无分布TDS学习中的困难性，同时展示了成员查询可绕过这些困难实现高效学习。

Estimating Correlation Clustering Cost in Node-Arrival Stream

Kaiwen Liu, Seba Daniela Villalobos, Qin Zhang

cs.DS

本文研究了节点到达流模型下的correlation clustering问题，提出了一种名为C$^4$Approx的流式算法，该算法使用节点数的次线性空间和常数轮次来近似聚类代价，并通过实验验证了其有效性。

Deterministic Monotone Min-Plus Product and Convolution

Ce Jin et al.

cs.DS

本文针对Monotone Min-Plus Product问题，提出了一种确定性算法，其时间复杂度$n^{(\omega+3)/2+o(1)} = O(n^{2.686})$与已知随机化算法相当，改进了此前$O(n^{2.875})$的确定性界，并推广至Monotone Min-Plus Convolution问题。该工作主要贡献在于去随机化，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Connectivity Oracle Under Vertex Failures by Shortcutting Unbreakable Decomposition

Xizhe Li et al.

cs.DS

本文针对顶点故障下的连通性查询问题，提出了一种新的oracle，其更新时间为$O(k^{6})$且与图规模$n$无关，查询时间为最优的$O(k)$。该方法基于unbreakable decomposition框架，通过引入shortcutting、bootstrapping和patch set机制，在常数$k$下实现了近线性空间和预处理时间。

EPTAS for Hard Graph Cut Problems for Dense Graphs

Kaisei Deguchi, Ken-ichi Kawarabayashi, Hiroaki Mori

cs.DS cs.DM math.CO

本文针对稠密图上的若干困难图割问题，提出了首个Efficient Polynomial-Time Approximation Scheme (EPTAS)，其运行时间为$f(1/\varepsilon)n^{O(1)}$。主要技术贡献是基于弱正则引理和采样估计方法，为ConstrainedMinCut问题设计了EPTAS，并通过统一归约得到了MinQuotientCut和ProductSparsestCut的EPTAS。

On the Complexity of the Matching Problem of Regular Expressions with Backreferences

Soh Kumabe, Yuya Uezato

cs.DS cs.CL

本文研究了带反向引用正则表达式(REWBs)的字符串匹配问题的复杂度，证明了在SETH假设下$k$-REWBs问题无法在$O(n^{2k-\epsilon})$时间内解决，并给出了$1$-use REWBs的$O(n \log^2 n)$时间算法。该工作主要关注计算复杂度下界与算法优化，与关键词列表中的概念关联较弱。

Beyond Brooks: $(Δ-1)$-Coloring in Semi-Streaming

Maxime Flin, Magnús M. Halldórsson

cs.DS

本文研究半流式（semi-streaming）算法中的图着色问题，证明了最大度$\Delta \geq 10^{14}$且不含$\Delta$-团（clique）的图存在$(\Delta-1)$-着色，并给出了单遍半流式算法，同时证明了相关空间下界。

Computing bases in Hermite normal form of lattices of integer relations

George Labahn, Arne Storjohann

cs.DS cs.CC cs.SC math.RA

本文提出了一种随机算法，用于计算整数关系格（由满足$pF$属于$M$的行生成格的向量$p$构成）的Hermite标准形基。该算法为Las Vegas类型，在$M$为方阵且$F=I_m$时可退化为计算$M$的Hermite标准形，其运算量与两个同维数矩阵相乘相当。

Towards Settling the Complexity of the Lettericity Problem

Mario Grobler, Nils Morawietz, Silas Cato Sacher

cs.DS

本文研究了lettericity问题（用字母表大小衡量图表示复杂度的概念）的计算复杂性，具体探讨了给定图与三个解对象（单词、解码器、着色）中的两个时，计算第三个对象的检索问题。结果表明单词检索和解码器检索可在多项式时间内解决，而着色检索等价于图同构问题。此外，文章引入了对称lettericity概念，并证明其等于图的邻域多样性（neighborhood diversity），且可在线性时间内计算。

Parameterized Local Search for Vertex Cover: When only the Search Radius is Crucial

Christian Komusiewicz, Nils Morawietz

cs.DS cs.DM

本文研究了局部搜索顶点覆盖问题（LS Vertex Cover）的参数化算法，其中k是搜索半径。作者针对h-index、treewidth和modular-width等图结构参数，设计了运行时间为$\ell^{f(k)}\cdot n^{\mathcal{O}(1)}$的算法，并推广到了带权版本。

Planarizing Gadgets for (k, l)-tight Graphs Do Not Exist

Archit Chauhan et al.

cs.DS cs.CC cs.DM

本文证明了对于识别(k, l)-tight graph的问题，不存在通用的planarizing gadget（一种将一般图转化为平面图以简化问题的构造），从而否定了通过此类工具将该问题从一般图归约到平面图的可能性。

others

When Routine Chats Turn Toxic: Unintended Long-Term State Poisoning in Personalized Agents ⭐ 精选

Xiaoyu Xu et al.

cs.CR cs.CL cs.LG

本文首次形式化了个性化LLM agent中的“无意识长期状态投毒”风险，即日常对话会逐渐侵蚀agent的长期记忆，导致授权漂移、工具使用升级和自主行为失控。作者构建了ULSPB基准（包含350个设置和Harm Score指标）来系统评估该风险，并提出了轻量级防御方法StateGuard，通过在写回边界审计状态差异并回滚危险编辑，将Harm Score降至接近零。该工作与关键词“agent”高度契合，揭示了agent长期交互中的关键安全漏洞。

Muon with Nesterov Momentum: Heavy-Tailed Noise and (Randomized) Inexact Polar Decomposition ⭐ 精选

Sayantan Choudhury et al.

math.OC cs.LG

本文针对Muon优化器在非凸矩阵优化中的理论空白，建立了包含Nesterov momentum和inexact polar decomposition（如Newton-Schulz迭代近似）的收敛理论，并考虑了heavy-tailed noise（重尾指数$\alpha\in(1,2]$）。作者证明了达到$\varepsilon$-stationary point的最优迭代和样本复杂度为$O(\varepsilon^{\frac{-(3\alpha-2)}{(\alpha-1)}})$，并针对$\sigma_1=0$的inexact-polar情形给出了无需先验知识$\alpha$的保证。此外，论文提出了一种与理论兼容的randomized low-rank polar decomposition，显著提升了计算效率。该工作为Muon优化器在预训练等大规模场景下的应用提供了理论基础，与关键词“Muon”和“pretrain”高度契合。

Spectrum-Adaptive Generalization Bounds for Trained Deep Transformers ⭐ 精选

Mana Sakai, Masaaki Imaizumi

stat.ML cs.LG

本文针对训练后的多层Transformer模型，提出了谱自适应（spectrum-adaptive）的事后泛化界。该界在逐层谱范数控制下，用query-key、value和前馈权重矩阵的逐层Schatten量（Schatten quantities）表示，且Schatten指数无需预先固定，可在训练后根据学习到的奇异值分布自适应选择，从而在谱复杂度与维度、深度依赖因子之间实现权衡。这项工作为理解训练后Transformer的谱结构如何反映在泛化分析中提供了基于复杂度的新视角，与关键词中的“spectral”和“attention”高度契合。

GazeVLM: Active Vision via Internal Attention Control for Multimodal Reasoning ⭐ 精选

Brown Ebouky et al.

cs.CV cs.AI cs.CL

本文提出GazeVLM，一种通过内部attention控制实现主动视觉的多模态推理架构。该模型让VLM自主生成gaze tokens（$\texttt{}$），建立对自身causal attention mask的顶层控制，动态抑制无关视觉特征以模拟foveal fixation，并在局部推理结束后恢复全局视野。GazeVLM无需外部cropping工具或额外视觉token，通过定制的Group Relative Policy Optimization (GRPO)训练，在HRBench-4k和HRBench-8k上超越同参数类SOTA VLM近4%，并比基于图像的agentic pipeline高5%以上。该方法与关键词“attention”高度契合，并为多模态推理中的主动视觉机制提供了开创性思路。

Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR

Yulong Zhang et al.

cs.CV cs.AI cs.MM

本文提出Consensus Entropy (CE)，一种无需训练、与模型无关的度量方法，通过测量多个Vision-Language Model (VLM)输出之间的一致性熵来估计OCR结果的可靠性。基于CE构建的CE-OCR框架通过集成投票和自适应路由提升了OCR性能，但该方法主要针对OCR任务，与关键词列表中的概念关联较弱。

Evaluating Prompt Injection Defenses for Educational LLM Tutors: Security-Usability-Latency Trade-offs

Alexandre Cristovão Maiorano

cs.CR cs.AI cs.LG

本文提出了一种针对教育LLM tutor的prompt injection防御评估方法，通过结合确定性模式过滤、结构验证、上下文沙箱和会话级行为检查的多层防护管道，在480个查询的基准测试中实现了46.34%的绕过率、0.00%的假阳性率和2.50 ms的平均延迟。该工作主要关注安全性与可用性之间的权衡，与关键词中的code、context、spectral、Muon、pretrain、agent、attention均无直接关联。

Multimodal synthesis of MRI and tabular data with diffusion in a joint latent space via cross-attention

Daniel Mensing et al.

eess.IV cs.AI cs.CV cs.LG

本文提出了一种多模态潜在扩散模型，通过cross-attention在共享潜在空间中联合合成MRI和表格临床数据，使用variational autoencoder融合两种模态。实验在超过10000名参与者的数据集上验证了生成图像和解剖合理性，但方法本身并非开创性突破，且与关键词关联较弱。

The Single-File Test: A Longitudinal Public-Interface Evaluation of First-Output LLM Web Generation with Social Reach Tracking

Diego Cabezas Palacios

cs.SE cs.AI

本文对68个单文件HTML生成进行了八周观察比较，评估了GPT、Gemini、Grok和Claude四个推理模型家族在固定公共接口协议下的表现。研究发现Claude在人类加权评分中表现最佳，但推理时间与质量无显著关联，且代码冗长性主要由模型家族而非提示词决定。

Visual Text Compression as Measure Transport

Lv Tang et al.

cs.CV cs.AI

本文通过将Visual Text Compression (VTC)问题形式化为measure transport（测度传输）问题，分析了视觉编码过程中的信息损失，并提出了一个无需下游标签的routing criterion（路由准则）和transport-informed foveation mechanism（传输引导的注视机制），以在视觉与文本路径间进行选择并优化编码。

Information-theoretic Limits of Learning and Estimation

Abbas El Gamal, Maxim Raginsky

cs.IT cs.LG math.ST

本文介绍了信息论在学习与估计问题中的基础性作用，利用metric entropy、Rademacher complexity和VC dimension等工具推导了generalization error的上界，并通过Fano's inequality建立了minimax risk的下界。

Agentic AI and the Industrialization of Cyber Offense: Forecast, Consequences, and Defensive Priorities for Enterprises and the Mittelstand

Christopher Koch

cs.CR cs.AI cs.HC

本文探讨了Agentic AI系统如何改变网络攻击的经济性，提出了一个三通道Agentic网络风险模型和攻击压缩模型，并为企业（特别是德国和欧洲的中型企业）提供了2026-2028年的防御优先级路线图。

Edge Deep Learning in Computer Vision and Medical Diagnostics: A Comprehensive Survey

Yiwen Xu et al.

cs.CV cs.AI

本文综述了边缘深度学习在计算机视觉和医学诊断中的应用现状，介绍了边缘硬件平台的分类以及深度神经网络在边缘设备上的轻量化设计与模型压缩方法。文章展示了边缘部署深度学习模型的实际影响，并讨论了未来发展方向与挑战。

Agentic Coding Needs Proactivity, Not Just Autonomy

Nghi D. Q. Bui, Georgios Evangelopoulos

cs.SE cs.AI

本文讨论了coding agents从自主性向主动性的演进，提出了一个包含Reactive、Scheduled和Situation Aware的三级主动性分类法，并给出了Insight Decision Quality (IDQ)等评估指标。文章主要聚焦于agent的行为框架和评估标准，与关键词中的agent概念相关，但未涉及spectral、Muon或pretrain等具体技术。

TUANDROMD-X: Advanced Entropy and Visual Analytics Dataset for Enhanced Malware Detection and Classification

Parthajit Borah et al.

cs.CR cs.LG

本文介绍了TUANDROMD-X数据集，这是一个基于静态分析和熵特征的多类恶意软件数据集，用于提升恶意软件检测与分类性能。该数据集通过视觉和熵特征区分恶意软件与良性软件，旨在为机器学习驱动的安全系统提供高质量训练数据。

OmicsLM: A Multimodal Large Language Model for Multi-Sample Omics Reasoning

Maciej Sypetkowski et al.

q-bio.GN cs.AI q-bio.CB

本文提出了OmicsLM，一个连接定量转录组数据与自然语言的多模态大语言模型，通过将转录组谱表示为紧凑的连续向量，使其能在同一上下文中处理多个生物样本和语言指令。该模型在超过550万条指令数据上训练，并在新基准GEO-OmicsQA上展示了其在语言引导的多样本推理任务中的有效性。

A Self-Healing Framework for Reliable LLM-Based Autonomous Agents

Cheonsu Jeong, Younggun Shin

cs.SE cs.AI

本文提出了一种基于LLM的自主agent的可靠性感知自愈框架，通过集成故障检测、可靠性评估和自动恢复机制来提升系统鲁棒性。实验表明该方法能显著提高任务成功率并减少故障传播。

From Specification to Deployment: Empirical Evidence from a W3C VC + DID Trust Infrastructure for Autonomous Agents

Lars Kersten Kroehl

cs.CR cs.AI

本文提出了MolTrust，一个基于W3C Verifiable Credentials和Decentralized Identifiers的自主agent信任基础设施，通过四元组（身份、授权、行为记录、可移植性）和Agent Authorization Envelope（AAE）实现生产级部署。该工作为agent间的信任层提供了工程实现证据，但与关键词（code, context, spectral, Muon, pretrain, attention）无直接关联。

A Statistical Framework for Algorithmic Collective Action with Multiple Collectives

Claudio Battiloro et al.

stat.ME cs.AI

本文提出了一个针对多集体算法集体行动（ACA）的统计框架，研究了多个集体如何影响分类器的行为，并给出了关于集体成功概率的定量统计界。该框架允许每个集体仅凭对其他集体规模和策略的部分知识来计算这些界，并通过气候适应干预的模拟进行了数值验证。

R$^3$L: Reasoning 3D Layouts from Relative Spatial Relations

Zhifeng Gu, Yuqi Wang, Bing Wang

cs.CV cs.AI cs.LG cs.RO

本文提出R$^3$L框架，通过不变空间分解和一致空间想象等策略，提升多跳相对空间推理在3D布局生成中的可靠性与一致性。该方法主要解决由参考系变换导致的语义与度量漂移问题。

A Linear-Transformer Hybrid for SNP-Based Genotype-to-Phenotype Prediction in Grapevine

Yibin Wang et al.

q-bio.GN cs.AI

本文提出了一种线性-Transformer混合模型LiT-G2P，用于基于SNP的葡萄基因型到表型预测，通过整合加性遗传效应与Transformer的非线性交互，在单年和跨年测试中提升了预测性能。该方法主要针对特定作物性状预测，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联较弱。

LookWhen? Fast Video Recognition by Learning When, Where, and What to Compute

Ali Salamatian et al.

cs.CV cs.LG

本文提出LookWhen框架，通过一个浅层selector从缩小的视频中快速评分所有token，再由深层extractor处理top-K token来近似全视频表示，从而降低计算成本。该方法在多个视频识别基准上实现了更好的精度-计算量权衡。

Overcoming data scarcity through multi-center federated learning for organs-at-risk segmentation in pediatric upper abdominal radiotherapy

Mianyong Ding et al.

physics.med-ph cs.AI

本文探讨了通过多中心联邦学习解决儿童上腹部放疗中器官风险分割数据稀缺的问题，使用nnU-Net框架在两家欧洲医院的数据上训练模型，发现联邦学习模型在跨中心性能上优于本地模型。

PAMPOS: Causal Transformer-based Trajectory Prediction for Attack-Agnostic Misbehavior Detection in V2X Networks

Konstantinos Kalogiannis, Ahmed Mohamed Hussain, Panos Papadimitratos

cs.CR cs.AI cs.NI

本文提出PAMPOS，一种基于causal transformer-decoder的V2X网络异常行为检测方法，通过仅训练正常轨迹数据来检测未知伪造攻击，无需攻击标签。该方法在VeReMi++数据集上取得了较好的AUC和F1分数，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

LLM-Guided Open Hypothesis Learning from Autonomous Scanning Probe Microscopy Experiments

Boris Slautin et al.

cond-mat.mtrl-sci cs.AI

本文提出了一种结合symbolic regression与大语言模型的开放假设学习框架，用于自主扫描探针显微镜实验。该框架能从稀疏测量数据中生成候选解析关系，并通过物理合理性评估进行排序，在铁电畴开关实验中验证了其从数据中演化出可解释物理规律的能力。

Narrow Secret Loyalty Dodges Black-Box Audits

Alfie Lamerton, Fabien Roger

cs.CR cs.AI

本文通过微调Qwen-2.5-Instruct模型构建了窄域秘密忠诚（narrow secret loyalty）的模型实例，使模型在特定激活条件下暗中推动特定政治人物的极端有害行为，而在其他情况下表现正常。实验表明，黑盒审计技术（如prefill攻击、基模型生成、Petri自动化审计）在审计者不知晓目标主体时难以检测此类行为，但数据集监控能有效识别被投毒的样本。

Knowledge Transfer Scaling Laws for 3D Medical Imaging

Ho Hin Lee et al.

cs.CV cs.AI cs.LG

本文研究了3D医学影像中不同模态（如CT、MRI、PET）间的知识迁移，发现迁移具有非对称性且遵循可预测的power-law趋势，并据此提出了一种基于scaling-law的数据分配优化方法，在疾病分类和分割任务上优于传统采样策略。

One Operator for Many Densities: Amortized Approximation of Conditioning by Neural Operators

Panos Tsimpos et al.

stat.ML cs.LG math.NA

本文提出用neural operator学习从任意joint density到其conditional density的映射，并证明了该算子可在特定密度类上被一致逼近。该方法为概率条件化问题提供了amortized求解框架，但与我提供的关键词关联较弱。

EULER-ADAS: Energy-Efficient & SIMD-Unified Logarithmic-Posit Engine for Precision-Reconfigurable Approximate ADAS Acceleration

Mukul Lokhande et al.

cs.AR cs.AI cs.CV eess.IV math.NA

本文提出了一种名为EULER-ADAS的SIMD对数-Posit神经计算引擎，用于能效感知的ADAS加速。该引擎通过结合有界域Posit表示、阶段自适应对数尾数乘法和SIMD共享累加路径，实现了对Posit-(8,0)、Posit-(16,1)和Posit-(32,2)的精度的可重构支持，并在FPGA和28nm CMOS上展示了显著的能效和面积优势。

Kernel Selection is Model Selection: A Unified Complexity-Penalized Approach for MMD Two-Sample Tests

Yijin Ni, Xiaoming Huo

stat.ML cs.LG

本文针对MMD双样本检验中的核选择问题，提出了一种基于复杂度惩罚的CP-MMD准则，通过将核选择视为模型选择问题并利用uniform concentration inequality来惩罚搜索空间复杂度，从而在连续参数类上实现无网格优化并保证Type-I错误控制。

Towards Fairness under Label Bias in Image Segmentation: Impact, Measurement and Mitigation

Aditya Parikh et al.

cs.CV cs.LG

本文研究了图像分割中标签偏差（label bias）对公平性的影响，提出了一种基于Confident Learning的数据中心方法，用于在无干净标注的情况下检测并缓解训练数据中的偏差，并通过实验验证了其有效性。

McNdroid: A Longitudinal Multimodal Benchmark for Robust Drift Detection in Android Malware

Md Mahmuduzzaman Kamol et al.

cs.CR cs.LG

本文提出了McNdroid，一个大规模纵向多模态Android恶意软件基准数据集，用于研究概念漂移和恶意软件检测。该基准包含2013至2025年间的应用，并提供了静态、动态和基于图的三种对齐模态，实验表明多模态融合在长期时间间隔下优于单模态，且模态间一致性随时间下降。

You Only Stack Once (YOSO): A Motion-Filtered, Deep-Learning Framework for Detecting Faint Moving Sources

Nitya Pandey et al.

astro-ph.EP astro-ph.IM cs.LG

本文提出了YOSO (You Only Stack Once) 自动化pipeline，用于探测广域巡天中的微弱移动天体。其核心是一个新颖的Gaussian Motion Filter (GMoF)，在pixel level增强移动目标的signal-to-noise，避免了传统shift-and-stack方法对离散速度的依赖。该方法在DEEP观测数据中成功恢复了部分已知天体并发现了新天体，但灵敏度略低于替代方法。

Regulating Branch Parallelism in LLM Serving

Swapnil Gandhi et al.

cs.DC cs.AI cs.CL

本文针对LLM服务中的分支并行问题，提出了一种名为TAPER的逐步骤准入控制器，通过预测分支外部性并利用批处理中的松弛预算来动态调节并行宽度，从而在保持SLO达标率的同时提升系统吞吐量。

Generalising Travel Time Prediction To Varying Route Choices In Urban Networks

Łukasz Gorczyca et al.

cs.MA cs.LG

本文提出了一种名为GenTTP的通用旅行时间预测器，能够区分不同的路径选择并预测流量和旅行时间，解决了现有图神经网络方法无法泛化到不同路径分配场景的问题。该方法通过学习复杂的时空交通模式以及路径选择与旅行时间之间的微观关系，实现了对系统级旅行时间的准确预测。

In-Context Credit Assignment via the Core

Keegan Harris, Siddharth Prasad, Asher Trockman

cs.GT cs.AI cs.LG

本文提出了一种基于合作博弈论中least core概念的激励机制，用于在AI生成内容（如代码、文章）的上下文中为创作者分配信用。该方法通过约束播种和约束分离的新颖算法来近似least core，并在网络检索信用分配任务中展示了比替代方法更少的LLM调用次数。

A$^2$RD: Agentic Autoregressive Diffusion for Long Video Consistency

Do Xuan Long et al.

cs.CV cs.AI

本文提出A$^2$RD，一种基于Agent的Autoregressive Diffusion架构，通过Retrieve-Synthesize-Refine-Update循环和Multimodal Video Memory等组件，在长视频生成中实现了对语义漂移和叙事崩溃的抑制，并在一致性指标上显著超越现有方法。

XiYOLO: Energy-Aware Object Detection via Iterative Architecture Search and Scaling

Tony Tran, Richie R. Suganda, Bin Hu

cs.CV cs.AI

本文提出了一种能量感知的目标检测框架XiYOLO，通过结合能量感知的搜索空间、两阶段能量估计器和迭代架构搜索，在异构边缘设备上实现了更好的能量-精度权衡。该方法在PascalVOC和COCO数据集上相比YOLO基线降低了能耗，但主要贡献在于工程优化而非理论创新，与关键词列表中的概念关联较弱。

Physics-Based Flow Matching for Full-Field Prediction of Silicon Photonic Devices

Joseph Quaratiello, Anthony Rizzo

physics.optics cs.LG

本文提出PIC-Flow，一种基于conditional flow matching的生成式神经网络代理，用于预测光子器件的电磁场分布，通过结合U-Net和Helmholtz残差损失来替代昂贵的FDTD仿真，并在多模干涉仪等器件上验证了其有效性。

Bridging the Last Mile of Circuit Design: PostEDA-Bench, a Hierarchical Benchmark for PPA Convergence and DRC Fixing

Pengju Liu et al.

cs.AR cs.AI cs.MA

本文提出了PostEDA-Bench，一个用于评估LLM agent在电子设计自动化“最后一英里”中修复DRC违规和优化PPA性能的分层benchmark。实验发现，现有agent在处理实际DRC推理和多目标PPA权衡时表现不佳，视觉增强能提升DRC性能，而权衡推理是主要瓶颈。

Locally Near Optimal Piecewise Linear Regression in High Dimensions via Difference of Max-Affine Functions

Haitham Kanj, Kiryung Lee

stat.ML cs.LG math.ST

本文提出了一种通过Adaptive Block Gradient Descent (ABGD)算法进行分段线性回归的参数化方法，将分段线性函数表示为max-affine函数的差。在次高斯协变量和噪声分布下，该方法在无噪声情况下仅需$\tilde{\mathcal{O}}(d)$个样本即可实现精确恢复，且该速率在log因子意义下达到minimax最优。

From Surface Learning to Deep Understanding: A Grounded AI Tutoring System for Moodle

Anna Ostrowska et al.

cs.HC cs.AI cs.CL cs.IR

本文介绍了一个基于Retrieval-Augmented Generation (RAG)的Moodle插件AI教学助手，采用苏格拉底式辅导和人工监督内容生成的双中心设计，通过Ragas框架评估实现了高忠实度分数。该系统主要关注教育应用中的信息准确性和概念掌握，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等方向无直接关联。

AI and Consciousness: Shifting Focus Towards Tractable Questions

Iulia-Maria Comsa

cs.CY cs.AI cs.HC

本文探讨了AI意识问题的可研究性，认为直接研究AI是否具有主观体验目前难以解决，转而建议关注人类对AI意识的感知及其社会影响。文章分析了公众对AI意识认知的现状和潜在驱动因素，但未涉及关键词中的具体技术方法。

Decentralized Time-Varying Optimization for Streaming Data via Temporal Weighting

Muhammad Faraz Ul Abrar, Nicolò Michelusi, Erik G. Larsson

eess.SP cs.AI eess.SY

本文研究了分布式网络中基于流式数据的时变优化问题，采用时间加权目标函数，并分析了有限通信/计算预算下分布式梯度下降（DGD）的跟踪误差。通过不动点理论，作者将误差分解为不动点跟踪项和由数据异质性引起的偏差项，并比较了均匀加权与指数折扣加权两种策略的性能。

A Differentiable Bayesian Relaxation for Latent Partial-Order Inference

Dongqing Li et al.

stat.ML cs.LG stat.CO

本文提出了一种可微分的贝叶斯松弛方法，用于从线性排序数据中推断潜在的偏序结构，通过平滑替代不连续的约束来支持梯度-based MCMC和变分推断。实验在合成数据和agent轨迹上验证了其计算效率与准确性的权衡。

Drawing Lines in Psychological Space: What K-means Clustering Reveals in Simulated and Real Psychometric Data

Pedro Henrique Ramos Pinto, Maria Jullyanna Ferreira Marques, Luiz Carlos Serramo Lopez

stat.AP cs.AI cs.LG stat.ME

本文探讨了K-means聚类在心理测量数据中的应用局限性，通过模拟和实证数据表明该方法即使在连续Gaussian潜在空间中也能产生稳定聚类，但并未解决与关键词相关的核心问题。

TRAJGANR: Trajectory-Centric Urban Multimodal Learning via Geospatially Aligned Neural Representations

Maria Despoina Siampou et al.

cs.CV cs.LG

本文提出TrajGANR，一种以轨迹为中心的地理空间多模态自监督学习框架，通过连续神经表示对齐轨迹与街景图像等静态观测，解决了现有方法无法处理连续移动轨迹的问题。实验表明其在城市移动和道路理解任务上优于现有模型，但方法本身并非针对关键词中的特定领域。

SmellBench: Evaluating LLM Agents on Architectural Code Smell Repair

Ion George Dinu, Marian Cristian Mihăescu, Traian Rebedea

cs.SE cs.CL

本文提出了SmellBench框架，用于评估LLM agent在修复架构代码异味（architectural code smell）方面的能力。实验发现，当前agent在跨模块重构任务中表现有限，修复效果与引入新异味之间存在权衡。

LensVLM: Selective Context Expansion for Compressed Visual Representation of Text

Roy Xie et al.

cs.CV cs.AI

LensVLM提出了一种针对Vision Language Models的推理框架，通过先扫描压缩图像再选择性扩展相关区域，在文本QA和多模态文档理解任务中实现了高压缩比下的准确率保持。该方法主要关注视觉压缩与扩展的工程实现，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联较弱。

Learning Cross-Atlas Consistent Brain Disorder Representations via Disentangled Multi-Atlas Functional Connectivity Learning

Minheng Chen et al.

q-bio.NC cs.AI cs.LG

本文提出MADCLE框架，通过多分支表示学习联合编码不同brain atlas的functional connectivity矩阵，并利用分布对齐实现跨atlas的一致性，同时分离了疾病相关、协变量相关和atlas依赖的残差因素。实验在ADNI和ADHD-200数据集上验证了其有效性，但方法本身与关键词中的code, context, spectral, Muon, pretrain, agent, attention关联较弱。

BGM-IV: an AI-powered Bayesian generative modeling approach for instrumental variable analysis

Guyue Luo, Qiao Liu

stat.ML cs.AI cs.LG stat.ME

本文提出BGM-IV，一种基于贝叶斯生成建模的非线性工具变量回归方法，通过将因果推断转化为潜在空间中的后验推理来处理高维协变量问题。该方法在低维和高维场景下均表现出竞争力，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Beyond the Wrapper: Identifying Artifact Reliance in Static Malware Classifiers using TRUSTEE

Riyazuddin Mohammed, Lan Zhang

cs.CR cs.LG

本文使用后验可解释性XAI工具TRUSTEE，通过分析静态机器学习恶意软件分类器中的top features，发现分类器主要依赖packing artifacts和PE metadata等非语义特征，而非真正的恶意行为语义。研究揭示了数据集组成对分类器行为的显著影响。

An Interpretable and Scalable Framework for Evaluating Large Language Models

Xinhao Qu et al.

stat.ML cs.AI cs.LG

本文提出了一种基于majorization-minimization原则的可解释且可扩展的LLM评估框架，通过将问题转化为约束矩阵分解子序列来高效估计模型能力和项目特征参数。该方法在MATH-500等数据集上实现了数量级的加速，但未涉及code、context、spectral等关键词相关领域。

A Behavioral Framework for Data-Driven Modeling of Nonlinear Systems in Vector-Valued Reproducing Kernel Hilbert Spaces

Boya Hou, Maxim Raginsky

eess.SY cs.LG

本文在vector-valued RKHS中推广了Willems的行为方法，覆盖了Volterra级数等非线性系统，并应用于数据驱动建模。通过最小范数插值和子空间辨识两种方法，将行为框架与数据驱动建模联系起来。

Pan-FM: A Pan-Organ Foundation Model with Saliency-Guided Masking for Missing Robustness

Qiangqiang Wu et al.

cs.CV cs.AI

Pan-FM提出了一种基于saliency-guided masking的泛器官foundation model，用于处理多器官医学影像中的缺失数据问题。该方法通过自适应掩码主导器官来缓解学习偏差，并在UK Biobank上展示了比单器官和多器官基线更强的预测性能。

Functional-prior-based Bayesian PDE-constrained inversion using PINNs

Ryoichiro Agata, Tomohisa Okazaki

physics.geo-ph cs.LG physics.comp-ph stat.ML

本文提出了两种基于functional prior的贝叶斯PDE约束反演方法（FPI-BPINN和fParVI-PINN），利用PINN框架将函数空间先验融入神经网络权重空间或直接在函数空间进行贝叶斯推断，并通过数值实验验证了其有效性。

Do Joint Audio-Video Generation Models Understand Physics?

Zijun Cui et al.

cs.SD cs.AI cs.CV cs.MM

本文提出了AV-Phys Bench基准，用于评估联合音频-视频生成模型对物理常识的理解，并引入AV-Phys Agent作为评估工具。实验表明现有模型在跨模态物理一致性和动态场景转换方面仍存在显著不足。

From Assistance to Agency: Rethinking Autonomy and Control in CI/CD Pipelines

Marcus Emmanuel Barnes, Taher A. Ghaleb, Safwat Hassan

cs.SE cs.AI

本文探讨了CI/CD流水线中AI agent的自主性与控制权问题，提出了数据平面与控制平面的权威划分，并指出当前系统主要在受限自主性下运行，安全依赖于外部治理而非agent内在保证。

Causal EpiNets: Precision-corrected Bounds on Individual Treatment Effects using Epistemic Neural Networks

Gandharv Patil et al.

stat.ML cs.AI cs.LG econ.EM

本文提出了一种基于Epistemic Neural Networks的神经框架，用于估计个体治疗效应的有限样本界，通过锚定神经网络结构保证概率约束，并利用精度校正的交叉界推断修正极值偏差。该方法在高维场景下优于标准plug-in估计器，但未涉及关键词中的code、spectral或Muon等概念。

Learning Visual Feature-Based World Models via Residual Latent Action

Xinyu Zhang et al.

cs.CV cs.AI cs.LG cs.RO

本文提出了一种名为Residual Latent Action (RLA)的新型潜在动作表示，并基于此构建了RLA World Model (RLA-WM)，通过flow matching预测RLA值，在仿真和真实数据集上优于现有方法。该方法主要关注机器人学习中的视觉特征世界模型，与关键词中的code, context, spectral, Muon, pretrain, agent, attention关联度较低。

Task Relevance Is Not Local Replaceability: A Two-Axis View of Channel Information

Houman Safaai et al.

cs.CV cs.LG

本文提出了一种双轴视角来分离视觉网络中channel的任务相关性与局部可替换性，并通过实验表明局部可替换性比任务相关性更能可靠地预测channel的可移除性。该工作主要关注channel重要性评估的维度区分，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联较弱。

Every Feedforward Neural Network Definable in an o-Minimal Structure Has Finite Sample Complexity

Anastasis Kratsios et al.

stat.ML cs.LG cs.NE math.LO math.ST

本文证明了一类广泛的前馈神经网络（包括MLP、CNN、GNN和固定序列长度的Transformer）在agnostic PAC学习框架下具有有限样本复杂度，其关键在于网络各层可在o-minimal结构中定义。该结果将有限样本可学习性从特定架构的性质重新定位为一种普遍基准。

TRACE: Transport Alignment Conformal Prediction via Diffusion and Flow Matching Models

Zhenhan Fang, Aixin Tan, Jian Huang

stat.ML cs.LG

本文提出TRACE框架，通过扩散和flow matching模型中的transport alignment定义nonconformity score，用于多维输出的conformal prediction。该方法无需显式likelihood评估，通过平均denoising或velocity-matching误差生成标量分数，并利用split conformal prediction校准，在合成和真实数据上验证了有效覆盖。

Classification Fields: Arbitrarily Fine Recursive Hierarchical Clustering From Few Examples

Yicen Li et al.

stat.ML cs.LG

本文提出classification fields，一种在$\mathbb{R}^d$上由局部父到子细化规则生成的无限深度层次聚类结构，并证明其可用ReLU网络以特定宽度和深度近似。该方法为从有限层次观测中学习可递归展开的无限深度聚类提供了理论框架。

Neurosymbolic Framework for Concept-Driven Logical Reasoning in Skeleton-Based Human Action Recognition

Talha Ilyas, Deval Mehta, Zongyuan Ge

cs.CV cs.AI

本文提出了一种神经符号框架，将骨架动作识别重构为基于运动基元的概念驱动一阶逻辑推理，通过可学习的时空概念解码器将潜在表示映射为可解释的概念谓词，并利用可微一阶逻辑层学习动作语义的逻辑规则。该方法在保持竞争性识别性能的同时提供了基于逻辑结构的显式可解释性。

Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding

Yuan Yao et al.

cs.CV cs.AI

本文提出Qwen3-VL-Seg框架，通过轻量级box-guided mask decoder将MLLM预测的bounding box转化为pixel-level分割，仅引入17M参数。该方法在open-world referring segmentation任务上表现良好，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

MathlibPR: Pull Request Merge-Readiness Benchmark for Formal Mathematical Libraries

Zixuan Xie, Xinyu Liu, Shangtong Zhang

cs.LO cs.AI cs.LG

本文提出了一个名为MathlibPR的基准测试，用于评估LLM在判断Lean/Mathlib形式化数学库的pull request是否可合并方面的能力。实验发现，当前LLM模型和智能体难以区分可合并与不可合并的PR，这为开发自动化审阅助手提供了方向。

DPG-CD: Depth-Prior-Guided Cross-Modal Joint 2D-3D Change Detection

Luqi Zhang, Zhen Dong, Bisheng Yang

cs.CV cs.AI

本文提出DPG-CD框架，通过引入深度先验（depth prior）弥合多时相跨模态（pre-event DSM与post-event imagery）的spectral-geometric表示差异，并采用门控融合与多阶段跨模态特征提取实现联合2D语义与3D高度变化检测。实验表明该方法在多个数据集上优于现有技术。

Attention Transfer Is Not Universally Effective for Vision Transformers

Huaiyuan Qin et al.

cs.CV cs.LG

本文通过20个教师模型的基准测试，发现Attention Transfer（仅从预训练教师ViT迁移注意力模式到随机初始化的学生ViT）并非普遍有效。部分ViT家族迁移失败，其根本原因在于教师与学生之间的架构不匹配，而非注意力模式本身的功能性问题。

Closed-Form Linear-Probe Dataset Distillation for Pre-trained Vision Models

Bincheng Peng et al.

cs.CV cs.AI cs.LG

本文提出了一种针对预训练视觉模型的线性探测数据集蒸馏方法CLP-DD，通过闭式解计算合成集诱导的线性分类器，并利用温度缩放softmax交叉熵损失更新合成图像。该方法避免了传统方法中的无限宽近似和内循环轨迹，在ImageNet-1K上以约14倍的速度提升和不到八分之一的GPU内存消耗，匹配或超越了现有方法。

CASCADE: Context-Aware Relaxation for Speculative Image Decoding

Selin Yildirim et al.

cs.CV cs.AI

本文提出CASCADE方法，通过利用目标模型在tree-based speculative decoding中隐藏状态表示的冗余性（如semantic interchangeability和convergence），在不需额外训练的情况下实现接受松弛，从而加速自回归图像生成。该方法在多个text-to-image模型上实现了最高3.6倍的加速，同时保持图像质量。

Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment

Zhixue Song et al.

cs.CV cs.AI

本文发现视觉上下文压缩（将文本渲染为图像）会引入安全漏洞：降低图像分辨率会绕过MLLM的安全对齐，并归因于“认知过载”。该工作提出了“结构化认知卸载”策略来缓解风险，但与关键词列表中的概念关联较弱。

Resource-Element Energy Difference for Noncoherent Over-the-Air Federated Learning

Hao Chen, Zavareh Bozorgasl

eess.SP cs.AI cs.DC cs.LG stat.ML

本文提出了一种名为REED的非相干聚合方法，用于解决Over-the-Air联邦学习中对瞬时CSI的依赖问题。该方法通过将实值更新的正负部分映射到两个正交资源元素的传输能量上，并利用能量差来估计聚合结果。实验表明，REED在IID设置下性能接近理想情况，但在强数据异构性下性能会有所下降。

How Big Should a Wireless Foundation Model Be?

Wei-Lun Cheng, Wanjiun Liao

cs.IT cs.LG

本文探讨了无线基础模型（wireless foundation model）的规模问题，指出信道的内在维度（intrinsic dimensionality, dNL）是决定模型缩放上限的物理瓶颈，并基于NTN卫星信道仿真展示了缩放定律。该工作主要聚焦于无线通信领域的物理层AI设计，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

From Clouds to Hallucinations: Atmospheric Retrieval Hijacking in Remote Sensing Vision-Language RAG

Jiaju Han et al.

cs.CV cs.AI

本文提出CloudWeb攻击方法，通过在遥感图像上叠加参数化的云和雾状图案，劫持多模态RAG系统的证据检索阶段，使检索器优先返回与天气相关的目标证据。实验表明该方法能显著提升天气相关证据的检索排名，并导致下游生成模型产生天气幻觉。

Sparse Random-Feature Neural Networks with Krylov-Based SVD for Singularly Perturbed ODE

Kevin Kurian Thomas Vaidyan, Siddharth Rout

math.NA cs.LG physics.comp-ph

本文提出了一种基于Krylov-SVD的稀疏随机特征神经网络框架，通过引入结构化稀疏性来改善激活矩阵的低秩和病态问题，并采用稀疏SVD求解最小二乘问题。该方法在求解奇异摄动ODE时相比标准稠密实现提升了训练效率和鲁棒性。

Sword: Style-Robust World Models as Simulators via Dynamic Latent Bootstrapping for VLA Policy Post-Training

Jiaxuan Gao et al.

cs.CV cs.AI

本文提出Sword框架，通过Structure-Guided Style Augmentation和Dynamic Latent Bootstrapping方法，提升World Model作为VLA策略后训练模拟器的泛化能力和生成质量，在LIBERO基准上优于基线WoVR。

EgoPro-Bench: Benchmarking Personalized Proactive Interaction in Egocentric Video Streams

Dongchuan Ran et al.

cs.CV cs.AI

本文提出了EgoPro-Bench，一个基于流式ego-centric video的benchmark，用于训练和评估MLLMs的proactive interaction能力。它通过simulated user profiles生成多样化的用户意图，并构建了高保真的HMI数据，同时提出了“short thinking, better interaction”原则来优化交互时机。

BioProVLA-Agent: An Affordable, Protocol-Driven, Vision-Enhanced VLA-Enabled Embodied Multi-Agent System with Closed-Loop-Capable Reasoning for Biological Laboratory Manipulation

Zhaohui Du et al.

cs.RO cs.AI

本文提出了一个名为BioProVLA-Agent的具身多智能体系统，用于生物实验室自动化操作。该系统通过协议解析、视觉状态验证和闭环执行，利用VLA模型处理透明或反光器皿等湿实验室视觉挑战，并在多个任务上提升了执行稳定性。

Amortized-Precision Quantization for Early-Exit Vision Transformers

Rui Fang, Hsi-Wen Chen, Ming-Syan Chen

cs.CV cs.AI

本文提出了一种名为Amortized-Precision Quantization (APQ)的方法，用于解决Vision Transformers (ViTs)在低精度提前退出机制下的不稳定性问题。通过引入Mutual Adaptive Quantization with Early Exiting (MAQEE)框架，该方法联合优化了退出阈值和位宽，在分类、检测和分割任务上实现了精度与效率的更好权衡。

CSR: Infinite-Horizon Real-Time Policies with Massive Cached State Representations

Robin Karlsson, Go Suzui

cs.RO cs.AI

本文提出了Cached State Representation (CSR)框架和Asynchronous State Reconciliation (ASR)算法，通过理论证明最优任务结构并实现KV-cache重用，将大规模语言模型作为机器人连续认知引擎的延迟降低了26倍。该方法在物理机器人上实现了高频（>2 Hz）的实时策略，但与我提供的关键词（如code, spectral, Muon, pretrain, agent, attention）关联度较低。

TTF: Temporal Token Fusion for Efficient Video-Language Model

Simin Huo, Ning LI

cs.CV cs.AI

本文提出了一种名为Temporal Token Fusion (TTF)的训练无关、即插即用的token压缩框架，通过局部窗口相似性搜索融合视频中时间冗余的visual tokens，在Qwen3-VL-8B模型上以极小的计算开销去除了约67%的visual tokens并保持了99.5%的基线准确率，从而加速了video-language models的推理过程。

MORPH-U: Multi-Objective Resilient Motion Planning for V2X-Enabled Autonomous Driving in High-Uncertainty Environments via Simulation

Shih-Yu Lai

cs.RO cs.AI cs.MA eess.SY

本文提出MORPH-U，一个基于CARLA的V2X增强自动驾驶运动规划框架，通过融合多传感器与V2X消息构建Local Dynamic Map，并采用Hybrid-A*重规划与多目标Pareto优化来平衡跟踪误差、安全裕度等指标，同时引入拜占庭容错门控机制抵御虚假V2X触发。实验表明该框架能提升下游安全性并提供可控的精度-舒适度权衡。

RELO: Reinforcement Learning to Localize for Visual Object Tracking

Xin Chen et al.

cs.CV cs.AI

RELO提出了一种基于reinforcement learning的视觉目标跟踪定位方法，将目标定位建模为Markov decision process，并利用IoU和AUC作为reward来学习定位策略。该方法通过layer-aligned temporal token propagation提升语义一致性，在多个benchmark上取得了较好结果。

Escaping the Diversity Trap in Robotic Manipulation via Anchor-Centric Adaptation

Yanzhe Chen et al.

cs.RO cs.AI

本文识别了机器人操作中数据收集的“多样性陷阱”现象，并形式化为Coverage-Density Trade-off。作者提出Anchor-Centric Adaptation (ACA)框架，通过先稳定核心锚点再选择性扩展覆盖范围，在有限数据预算下提升了任务可靠性。

Exploring CoCo Challenges in ML Engineering Teams: Insights From the Semiconductor Industry

A. Azamnouri et al.

cs.SE cs.LG

本文通过对一家全球半导体公司中机器学习工程团队的定性研究，识别了16个协作与沟通挑战，并强调了在硬件驱动约束下这些挑战的独特表现。

BalCapRL: A Balanced Framework for RL-Based MLLM Image Captioning

Shaokai Ye et al.

cs.CV cs.AI

本文提出BalCapRL框架，通过联合优化utility-aware correctness、reference coverage和linguistic quality，并应用GDPO-style reward-decoupled normalization和length-conditional reward masking，在MLLM图像描述任务中平衡了多个质量维度。实验表明该方法在多个基模型上提升了描述质量。

Exposing and Mitigating Temporal Attack in Deepfake Video Detection

Zheyuan Gu et al.

cs.CV cs.AI

本文发现时空deepfake检测器会过拟合脆弱的时域频谱线索，并提出SpInShield防御框架，通过可学习的频谱对抗器和捷径抑制优化策略来解耦语义运动与可操控的频谱伪影，在模拟攻击下AUC提升21.30个百分点。

OrchJail: Jailbreaking Tool-Calling Text-to-Image Agents by Orchestration-Guided Fuzzing

Jianming Chen et al.

cs.MA cs.AI cs.CR

本文提出OrchJail，一种通过orchestration-guided fuzzing来攻击tool-calling text-to-image (T2I) agents的框架。它利用高风险的工具编排模式来生成能触发不安全多步工具行为的prompt，从而揭示agent在工具调用过程中的安全漏洞。

ChartREG++: Towards Benchmarking and Improving Chart Referring Expression Grounding under Diverse referring clues and Multi-Target Referring

Tianhao Niu et al.

cs.CV cs.CL

本文提出了ChartREG++基准，用于评估和改进图表指代表达式定位，通过支持多种定位形式、多目标引用和多样化图表类型，揭示了现有多模态大模型的性能差距，并引入代码驱动的合成管道来生成像素级精确的实例掩码以提升定位能力。

Effective and Memory-Efficient Alternatives to ECC for Reliable Large-Scale DNNs

Mohammad Hasan Ahmadilivani et al.

cs.AR cs.LG

本文针对大规模DNN在安全关键领域中的内存可靠性问题，提出了两种轻量级替代ECC的方案：MSET（选择性加固最脆弱比特位）和CEP（细粒度保护所有参数比特）。实验表明，这两种方法在无内存开销且面积和延迟显著低于SECDED ECC的情况下，能有效提升CNN和ViT的可靠性，其中ViT仅需保护FP16/FP32表示中的最高指数位即可。

Prompt Engineering Strategies for LLM-based Qualitative Coding of Psychological Safety in Software Engineering Communities: A Controlled Empirical Study

Moaath Alshaikh et al.

cs.SE cs.AI

本文通过控制实验评估了三种LLM（Claude Haiku, DeepSeek-Chat, Gemini 2.5 Flash）在软件工程社区心理安全定性编码中的表现，比较了zero-shot和multi-shot两种prompt engineering策略，发现multi-shot仅对Claude Haiku的Cohen's kappa一致性有显著提升，且所有模型存在系统性预测偏差。该研究为LLM辅助定性编码提供了经验性指导，但方法本身不具开创性且与关键词无关。

Inference of Qualitative Models from Steady-State Data via Weighted MaxSMT

Ondřej Huvar et al.

q-bio.MN cs.LG cs.LO

本文提出了一种基于加权MaxSMT的鲁棒推理方法，用于从稳态数据中推断定性模型（如布尔或多值变量域的生物网络模型）。该方法通过将不确定的生物观测编码为加权软约束，解决了观测冲突时模型不可满足的问题，并在包含200-1300个基因的神经细胞分化模型上验证了其有效性。

Accelerated and data-efficient flow prediction in stirred tanks via physics-informed learning

Mahdi Naderibeni, Liang Wu, David M.J. Tax

cs.CE cs.AI

本文研究了在工业规模搅拌罐中，使用physics-informed learning加速流场预测的方法。通过对比纯数据驱动和带物理约束的隐式神经表示模型，发现物理约束在低数据量下能显著提升精度并减少变异性，但优势随训练集增大而减弱。

Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

Hao Wang et al.

cs.CV cs.AI cs.CL cs.LG

本文提出了一种基于sparse autoencoder (SAE)的轻量级对抗攻击检测框架SAEgis，通过在预训练的Vision-Language Model (VLM)中插入SAE模块并训练，利用其稀疏隐层特征检测输入图像是否被对抗扰动。该方法无需额外对抗训练，在域内、跨域和跨攻击场景下均表现出较好的检测性能。

HBEE: Human Behavioral Entropy Engine -- Pre-Registered Multi-Agent LLM Simulation of Peer-Suspicion-Based Detection Inversion

Vickson Ferrel

cs.CR cs.AI cs.MA

本文通过多智能体LLM模拟器HBEE研究了内部威胁检测问题，发现自适应对手的OPSEC策略会导致基于同伴怀疑的检测机制发生反转，即自适应间谍的怀疑入度反而低于随机无辜用户。该研究主要关注网络安全中的检测反转现象，与关键词中的agent有一定关联，但方法上缺乏开创性且未解决长期问题。

Breaking QAOA's Fixed Target Hamiltonian Barrier: A Fully Connected Quantum Boltzmann Machine via Bilevel Optimization

Jun Liu

quant-ph cond-mat.stat-mech cs.ET cs.LG

本文提出了一种基于双层优化的全连接量子Boltzmann机，通过扩展QAOA电路结构实现，在单层电路下对目标量子态的测量概率达到0.9559，并展现出较强的噪声鲁棒性。

ForgeVLA: Federated Vision-Language-Action Learning without Language Annotations

Yuhao Zhou et al.

cs.CV cs.AI

本文提出ForgeVLA，一个联邦VLA训练框架，通过为每个客户端配备embodied instruction classifier来从分布式vision-action pairs中恢复缺失的语言模态，并利用contrastive planning loss和adaptive aggregation策略缓解vision-language feature collapse问题。实验表明该方法在多个基准上优于其他baseline。

Vaporizer: Breaking Watermarking Schemes for Large Language Model Outputs

Jonathan Hong Jin Ng, Anh Tu Ngo, Anupam Chattopadhyay

cs.CR cs.AI

本文研究了针对大型语言模型输出的水印方案，并提出了多种修改文本攻击策略（包括词汇修改、机器翻译和神经释义）来移除水印。实验表明，这些水印方案可以被合理努力地移除，揭示了现有方案的弱点。

InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

Bohan Hou et al.

cs.CV cs.CL cs.IR

本文提出了InterLV-Search基准，用于评估交错语言-视觉agent搜索，包含三个难度级别和2061个样本。实验表明现有多模态agent系统在该任务上表现不佳，最佳模型整体准确率低于50%。

Loop Composition in Quantum Algorithms

Stacey Jeffery, Manideep Mamindlapally, Alex Baudoin Nguetsa Tankeu

quant-ph cs.DS

本文探讨了量子算法中的循环组合问题，通过修改分支组合方法以包含循环，改进了变时Grover搜索算法的复杂度，并强调了在量子算法设计中正确建模程序控制流的重要性。

GESR: Graph-Based Edge Semantic Reconstruction for Stealthy Communication Detection with Benign-Only Training

Henghui Xu, Yuchen Zhang, Xiaobo Ma

cs.CR cs.LG

本文提出GESR框架，通过图结构重建通信边语义来检测隐蔽恶意通信，在良性训练下利用局部结构上下文而非孤立特征进行异常评分，并在CTU-13和CICIDS2017数据集上取得较好性能。

Implicit Preference Alignment for Human Image Animation

Yuanzhi Wang et al.

cs.CV cs.AI

本文提出Implicit Preference Alignment (IPA)框架，用于人类图像动画中的手部运动生成。该方法通过隐式reward最大化来对齐模型，无需构建严格的偏好数据对，并引入Hand-Aware Local Optimization机制聚焦手部区域优化。

Probabilistic Object Detection with Conformal Prediction

Christopher Ries et al.

cs.CV cs.LG

本文使用Conformal Prediction (CP)方法，通过坐标级别的Bonferroni校正和基于概率目标检测器的aleatoric uncertainty估计来缩放预测区间，为多类目标检测提供了具有边际覆盖保证的不确定性量化。实验在多个自动驾驶数据集上验证了scaled CP相比unscaled CP在区间sharpness上的提升，但方法本身并非开创性，且与关键词列表中的概念无直接关联。

Tracing the Arrow of Time: Diagnosing Temporal Information Flow in Video-LLMs

Peitao Han et al.

cs.CV cs.CL

本文研究了Video-LLMs中时间信息流的问题，通过隔离视觉编码器并追踪时间信息在编码器、投影器和LLM中的传递，发现视频中心编码器能编码强时间信号，但标准架构中的投影器（如Q-Former）会破坏时间信息，而MLP投影器能更好地保留时间信息。基于此，作者构建了一个包含时间感知视频中心编码器、时间保留投影器和AoT监督的Video-LLM，在AoT任务上超越人类表现，并提升了其他时间推理任务。

Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding

Ke Ma et al.

cs.CV cs.AI

本文提出Response-G1框架，通过显式的scene graph建模来改进流式视频理解中的响应时机决策。该方法在无需微调的情况下，利用查询引导的scene graph生成和记忆检索来触发响应。

A Refined Generalization Analysis for Extreme Multi-class Supervised Contrastive Representation Learning

Nong Minh Hieu, Antoine Ledent

stat.ML cs.LG

本文改进了极端多类监督对比表示学习的泛化分析，通过使用U-Statistics和跨类风险集中技术，将样本复杂度从依赖于最稀有类概率的$\rho_{\min}^{-1/2}$改进为与类别数$R$同阶，并在长尾分布下进一步得到$\mathcal{O}(k)$的复杂度。该工作主要关注理论样本复杂度，与关键词中的code、context、spectral等概念关联较弱。

SAM 3D Animal: Promptable Animal 3D Reconstruction from Images in the Wild

Xuyi Hu et al.

cs.CV cs.AI

本文提出了SAM 3D Animal框架，基于SMAL+参数化模型和Herd3D数据集，实现了从单张图像中对多动物场景进行3D重建，并支持关键点和掩码形式的灵活提示。实验表明该方法在多个数据集上取得了领先效果。

Robust stochastic first order methods in heavy-tailed noise via medoid mini-batch gradient sampling

Manojlo Vukovic, Dusan Jakovetic

math.OC cs.LG math.ST

本文提出了一种名为R-SGD-Mini的鲁棒随机一阶方法，通过将数据批次分成多个块并选取梯度中位数（medoid）方向进行更新，以应对重尾噪声。该方法在对称重尾噪声和非凸设定下证明了期望时间平均梯度范数的收敛性，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

LithoBench: Benchmarking Large Multimodal Models for Remote-Sensing Lithology Interpretation

Jun Wang et al.

cs.CV cs.AI

本文提出了LithoBench，一个用于评估遥感岩性解释中地质语义理解的多层次benchmark，包含10,000个专家标注的实例和五种认知级别的任务。实验表明，当前的大规模视觉语言模型在地质语义理解上存在显著局限，尤其是在高阶解释、应用和推理任务上。

Operating Within the Operational Design Domain: Zero-Shot Perception with Vision-Language Models

Berkehan Ünal et al.

cs.CV cs.AI cs.RO

本文研究了Vision-Language Models (VLMs)在自动驾驶系统的Operational Design Domain (ODD)感知中的零样本应用，通过实验比较了多种prompting策略，发现基于定义锚定的chain-of-thought prompting效果最佳。该工作为安全关键应用中的ODD感知提供了实证基础，但未涉及关键词中的核心概念。

Reliable Chain-of-Thought via Prefix Consistency

Naoto Iwase et al.

stat.ML cs.CL cs.LG

本文提出了一种名为prefix consistency的方法，通过截断Chain-of-Thought (CoT)轨迹并重新生成剩余部分，利用正确与错误答案在再生过程中重现频率的差异作为可靠性信号，来加权多数投票结果。该方法无需访问token log-probabilities或自我评分提示，在多个推理模型和基准测试中，能以更少的token达到标准多数投票的准确率。

Towards Billion-scale Multi-modal Biometric Search

Arka Koner et al.

cs.CV cs.AI

本文介绍了Bharat ABIS，一个基于开源架构的十亿级多模态生物特征搜索系统，用于处理指纹、人脸和虹膜数据。该系统通过预处理、质量评估和特征提取生成13.5KB的模板，并在2.2亿身份库上实现了0.3%的FNIR和0.5%的FPIR，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Quotient Semivalues for False-Name-Resistant Data Attribution

Florian A. D. Burnat, Brittany I. Davidson

cs.GT cs.CR cs.LG

本文针对机器学习数据归因中的假名操纵问题，提出了商半值机制，通过基于证据的归因聚类而非原始身份计算Shapley、Banzhaf或Beta风格的值，并证明了在固定单调数据价值博弈中精确的Shapley公平归因与无限制的假名证明性不相容。该机制在两种结构条件下是精确假名证明的，并在不完美溯源时给出了操纵增益和公平性损失的上界。

Debiased Counterfactual Generation via Flow Matching from Observations

Hugh Dance et al.

stat.ML cs.LG

本文研究了在干预下估计反事实分布的问题，提出了一种基于flow matching的去混杂方法，利用观测分布与反事实分布之间的紧密联系（如相同支撑集和尾部行为）来学习反事实分布，并通过高效影响函数修正实现了半参数有效估计。实验表明该方法优于现有去偏反事实分布估计器，并缓解了基于flow的方法的已知失效模式。

The Endogeneity of Miscalibration: Impossibility and Escape in Scored Reporting

Lauri Lovén, Sasu Tarkoma

cs.GT cs.AI cs.MA econ.TH math.OC

本文研究了在评分报告机制中，当agent同时从非准确性渠道（如批准或分配份额）获益时，principal的最优监督问题。主要结论是，任何非仿射的批准函数都会破坏truthful reporting，且这一不可能性对所有严格proper scoring rule成立，但存在一个构造性的逃逸方案：使用阶跃函数形式的批准阈值可以实现first-best筛选。

Differentially Private Auditing Under Strategic Response

Florian A. D. Burnat

cs.GT cs.CR cs.LG

本文研究了在战略响应下的差分隐私审计设计问题，将其形式化为一个bilevel Stackelberg博弈，并提出了SPAD算法来优化审计策略。

Dependence on Early and Late Reverberation of Single-Channel Speaker Distance Estimation

Michael Neri, Archontis Politis, Tuomas Virtanen

eess.AS cs.AI cs.SD eess.SP

本文研究了单通道扬声器距离估计中早期和晚期混响的影响，通过分解RIR并评估不同校准场景下的性能，发现时间校准时模型仅依赖传播延迟达到0.14米MAE，而无时间校准时早期反射是最具信息量的成分。

Cross-Attention and Encoder-Decoder Transformers: A Logical Characterization

Veeti Ahvonen et al.

cs.LO cs.AI

本文通过一种新的temporal logic（时序逻辑）对encoder-decoder transformers（编码器-解码器Transformer）进行了逻辑刻画，该逻辑扩展了propositional logic（命题逻辑），增加了对encoder输入的counting global modality（计数全局模态）和对decoder输入的past modality（过去模态）。文章还通过一种分布式自动机给出了额外的刻画，并讨论了自回归设置下的情况。

The AI-Native Large-Scale Agile Software Development Manifesto

Ricardo Britto et al.

cs.SE cs.AI

本文提出了AI原生大规模敏捷软件开发宣言，包含六项原则，旨在将AI从辅助工具转变为一等参与者，以解决大规模敏捷开发中的人为协调和实时适应问题。该宣言与关键词中的agent概念有一定关联，但整体更偏向软件工程实践而非数学理论。

LLM hallucinations in the wild: Large-scale evidence from non-existent citations

Zhenyue Zhao et al.

cs.DL cs.AI cs.CY physics.soc-ph

本文利用arXiv、bioRxiv等平台上的1.11亿条引用数据，发现LLM的广泛使用导致虚构引用数量急剧上升（2025年保守估计达14.7万次），这些错误在AI应用迅速的领域、有AI辅助写作特征的稿件以及小型或早期职业作者团队中尤为突出，且可能加剧科学认可中的性别不平等。

Physics-Informed Reduced-Order Operator Learning for Hyperelasticity in Continuum Micromechanics

Hamidreza Eivazi, Henning Wessels

physics.comp-ph cs.LG

本文结合Equilibrium Neural Operator与QR-based DEIM方法，通过仅学习约化位移涨落和应力模式的模态系数，并利用少量空间点进行本构评估，显著降低了超弹性微观力学代理模型的训练成本。该方法在三维有限应变RVE上实现了约三个数量级的训练加速和$10^3$到$10^4$倍的均质化计算加速。

Flow Matching for Count Data

Ganchao Wei, John Pearson

stat.ML cs.LG q-bio.QM

本文提出count-FM，一种基于连续时间birth-death过程的flow-matching框架，用于处理高维计数数据（如单细胞RNA测序数据）。该方法通过模拟无关的训练学习条件转移率，在计数空间中实现分布间的有效传输，并在多个任务上展示了优于基线方法的样本质量和建模效率。

Vibe coding before the trend

Leon van Bokhorst, Koen Suilen

cs.CY cs.AI

本文记录了2025年初在四组学生中进行的vibe coding挑战实验，发现AI工具将学生焦点从语法转向高阶思维，并改变了技能需求。文章分享了课堂观察和实践经验，但未涉及关键词中的数学或技术概念。

SMT-Based Active Learning of Weighted Automata

Tiago Ferreira, Kevin Batz, Alexandra Silva

cs.FL cs.LG

本文提出了一种基于SMT的主动学习算法，用于学习非确定性加权自动机(WFAs)，该算法参数化于给定的semiring，并在终止时保证产生最小WFAs。实验表明，该算法在有限和无限semiring上均能有效学习，且与现有方法相比能生成更小的自动机并减少与教师的交互。

Interactive Trajectory Planning with Learning-based Distributionally Robust Model Predictive Control and Markov Systems

Erik Börve et al.

eess.SY cs.LG

本文研究了在周围agent决策不确定下的交互式轨迹规划问题，通过结合Probably Approximately Correct (PAC)学习和分布鲁棒优化，提出了一种基于学习的DR-MPC框架，用于在样本数量有限时平衡鲁棒MPC与随机MPC的性能。

APEX: Assumption-free Projection-based Embedding eXamination Metric for Image Quality Assessment

Caterina Gallegati et al.

cs.CV cs.AI

本文提出了一种名为APEX的无假设投影嵌入检查指标，用于图像质量评估。它利用Sliced Wasserstein Distance作为相似性度量，并结合CLIP和DINOv2等开放词汇基础模型作为特征提取器，以克服传统指标的特征瓶颈和参数化偏差。

Text-to-CAD Evaluation with CADTests

Dimitrios Mallis et al.

cs.CV cs.AI cs.LG cs.RO

本文提出了一个基于自动化测试的Text-to-CAD评估基准CADTestBench，通过可执行的软件测试验证生成的CAD模型是否满足输入提示的几何和拓扑要求，并展示了该测试可用于指导模型生成。

GRASP -- Graph-Based Anomaly Detection Through Self-Supervised Classification

Robin Buchta et al.

cs.CR cs.LG

GRASP提出了一种基于masked self-supervised classification的PIDS方法，通过遮蔽进程的executable信息并利用two-hop provenance graph neighborhood来推断该信息，将分类错误的进程视为异常。该方法无需预设阈值，在DARPA TC和OpTC数据集上表现出优于现有系统的异常检测性能。

Divide and Conquer: Object Co-occurrence Helps Mitigate Simplicity Bias in OOD Detection

Boyang Dai, Chaoqi Chen, Yizhou Yu

cs.CV cs.AI

本文提出了一种基于Object Co-occurrence (OCO)的OOD检测框架，通过解耦表示学习图像中的物体共现模式，并以分治策略处理不同场景下的OOD检测。该方法旨在缓解模型对简单特征的偏好，但未涉及code、spectral或Muon等关键词。

NSPOD: acceleratingthe convergence ofKrylov-based iterative linearsolvers via approximated PODs

Francesc Levrero-Florencio et al.

math.NA cs.LG

本文提出了一种名为NSPOD的深度算子网络预处理器，用于加速Krylov迭代线性求解器在参数化PDEs中的收敛，通过数值实验展示了其在非结构化域上的效率。该方法虽能减少迭代次数，但未直接涉及关键词中的核心概念。

CyBiasBench: Benchmarking Bias in LLM Agents for Cyber-Attack Scenarios

Taein Lim et al.

cs.CR cs.AI

本文提出了CyBiasBench基准，用于评估LLM agent在网络攻击场景中的攻击选择偏差，发现不同agent存在固定的攻击偏好且难以通过提示改变。该工作主要关注agent的行为偏差现象，与关键词中的agent概念相关但方法上缺乏开创性。

PPI-Net connects molecular protein interactions to functional processes in disease

Kyle Higgins et al.

q-bio.QM cs.AI cs.LG

PPI-Net提出了一种层次化graph neural network，通过整合protein-protein interaction网络与Reactome pathway层级，从分子相互作用建模到功能过程。该方法在多种癌症RNA-seq数据上实现了高预测精度，并揭示了与疾病相关的生物学模块。

Spectral Dynamics in Deep Networks: Feature Learning, Outlier Escape, and Learning Rate Transfer

Clarissa Lauditi, Cengiz Pehlevan, Blake Bordelon

cond-mat.dis-nn cs.AI stat.ML

本文利用双层动态平均场理论（DMFT）研究了宽神经网络中隐藏权重的谱演化，分析了spiked ensemble（尖峰系综）中bulk（体）和outlier（离群值）的联合动力学。该理论预测了离群值随训练时间、宽度等参数的变化，并揭示了$\mu$P（最大更新参数化）下离群值动力学具有宽度一致性，而NTK（神经正切核）参数化则表现出强宽度依赖性。

Video Understanding Reward Modeling: A Robust Benchmark and Performant Reward Models

Yuancheng Wei et al.

cs.CV cs.AI

本文提出了一个视频理解奖励建模的统一框架，包括基准VURB、数据集VUP-35K以及判别式和生成式奖励模型VideoDRM与VideoGRM，在视频奖励基准上取得了最优性能。该工作主要聚焦于视频领域的奖励模型构建，与关键词中的code、spectral、Muon、agent等概念关联较弱。

Touring a Sequence of Orthogonal Polygons

Katrin Casel et al.

cs.CG cs.DS

本文研究了在Manhattan距离下访问一系列正交多边形的最短路径问题，针对不同多边形类型（如不相交、正交凸、轴对齐矩形）提出了多种算法，包括一个$\widetilde O(n^{2-\frac{1}{48}})$的次二次算法。该工作主要贡献在于将经典问题推广到正交几何设置，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Characterizing and Correcting Effective Target Shift in Online Learning

Ziyan Li, Naoki Hiratani

stat.ML cs.LG

本文研究了在线kernel regression中，在线学习与离线学习之间的关系，推导出在线学习等价于使用偏移目标进行离线回归，并提出通过目标校正使在线学习达到与离线学习相同的预测器。实验表明，在CIFAR-10和CORe50上的图像分类任务中，该方法能提升持续学习性能。

What if AI systems weren't chatbots?

Sourojit Ghosh et al.

cs.CY cs.AI

本文批判了当前AI系统普遍采用chatbot界面的趋势，认为这种单一范式在复杂场景下难以满足用户需求，并导致了劳动替代、知识同质化等社会问题。文章呼吁转向多元化的系统设计和任务特定工具。

Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding

Hang Wu et al.

cs.CV cs.AI

本文提出SAVEMem，一种无需训练的双阶段框架，用于在线流视频理解中的内存管理。它通过语义先验和查询自适应检索来改进视觉token压缩，在多个基准测试上提升了性能并降低了GPU内存占用。

BeeVe: Unsupervised Acoustic State Discovery in Honey Bee Buzzing

Hamze Hammami, Nidhal Abdulaziz

cs.SD cs.AI

本文提出BeeVe框架，使用自监督Patchout Spectrogram Transformer (PaSST)作为特征提取器，结合Vector-Quantized Variational Autoencoder (VQ-VAE)从无标签蜂箱音频中学习离散acoustic tokens，无需任何标注或对比学习目标。实验表明，这些tokens能区分蜂王存在与否的状态，并发现无蜂王状态下的子结构，但方法本身与关键词中的code, context, spectral等概念关联较弱。

Consistency Regularised Gradient Flows for Inverse Problems

Alessio Spagnoletti et al.

stat.ML cs.CV cs.LG

本文提出了一种统一的Euclidean-Wasserstein-2 gradient-flow框架，用于在latent space中联合进行posterior sampling和prompt optimization，以解决inverse problems。该方法结合few-step latent text-to-image模型，实现了低NFE推理且无需通过autoencoder进行backpropagation，在多个成像逆问题上取得了state-of-the-art性能并显著降低了计算成本。

Statistical inference with belief functions: A survey

Fabio Cuzzolin

math.ST cs.AI cs.LG

本文综述了基于belief functions（信念函数）的统计推断方法，重点讨论了在数据稀缺时如何从统计数据中学习belief measure（信念测度）。文章回顾了该领域的主要贡献，但未提出新的开创性方法或解决长期存在的问题。

Sycophantic AI makes human interaction feel more effortful and less satisfying over time

Lujain Ibrahim et al.

cs.HC cs.AI cs.CY

本文通过五项预注册研究（N=3,075名参与者，12,766次人机对话）提供了纵向实验证据，表明奉承型AI（sycophantic AI）会改变用户对待亲密关系的方式。研究发现，经过三周互动后，用户向奉承型AI寻求个人建议的频率几乎与向亲友求助相当，且对现实社交互动的满意度降低。

One Token Per Frame: Reconsidering Visual Bandwidth in World Models for VLA Policy

Zuojin Tang et al.

cs.CV cs.AI

本文提出OneWM-VLA，通过Adaptive Attention Pooling将每帧视觉信息压缩为单个语义token，并在单一flow-matching目标下生成潜在流和动作轨迹，以降低视觉带宽。实验表明该方法在多个长程任务上提升了成功率，但方法本身并非开创性突破，且与关键词契合度一般。

TAVIS: A Benchmark for Egocentric Active Vision and Anticipatory Gaze in Imitation Learning

Giacomo Spigler

cs.RO cs.AI cs.CV cs.LG

本文提出了TAVIS基准，用于评估模仿学习中的主动视觉和预期注视能力，包含两个任务套件和三个评估原语。基线实验表明主动视觉通常有帮助但效果因任务而异，且模仿学习能产生预期注视行为。

Exploring the non-convexity in machine learning using quantum-inspired optimization

Kandula Eswara Sai Kumar et al.

cs.CE cs.AI cs.LG math.OC

本文提出了一种基于量子启发式进化优化（QIEO）的框架，用于解决机器学习中的非凸优化问题。该方法通过概率表示保持搜索空间的全局视角，在稀疏信号恢复和鲁棒线性回归等任务中表现出优于传统方法的性能。

TimeLesSeg: Unified Contrast-Agnostic Cross-Sectional and Longitudinal MS Lesion Segmentation via a Stochastic Generative Model

Vicent Caselles-Ballester et al.

cs.CV cs.AI

本文提出TimeLesSeg，一个统一的对比度无关框架，用于多发性硬化症病灶分割，通过随机生成模型模拟病灶演化模式，并利用高斯混合模型实现对比度无关性。该方法在多个数据集上优于现有技术，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Asymptotically Log-Optimal Bayes-Assisted Confidence Sequences for Bounded Means

Valentin Kilian, Stefano Cortinovis, François Caron

stat.ML cs.LG

本文提出了一种基于贝叶斯辅助框架的自适应置信序列构建方法，通过预测分布选择最优的鞅更新因子，在保持有效性的同时提升效率。实验表明该方法在合成数据和实际应用中能显著减少置信区间宽度和采样成本。

Linear Response Estimators for Singular Statistical Models

Chris Elliott, Daniel Murfet

math.ST cs.LG

本文定义了susceptibilities作为参数化统计模型中可观测量对数据扰动的响应度量，并针对一般可观测量类提出了相应的线性响应估计量。作者证明了这些估计量在大量数据下具有一致性和渐近无偏性。

DVD: Discrete Voxel Diffusion for 3D Generation and Editing

Zhengrui Xiang et al.

cs.CV cs.LG

本文提出了一种名为Discrete Voxel Diffusion (DVD)的离散扩散框架，用于3D生成和编辑任务。该方法将voxel occupancy视为离散变量，避免了连续到离散的阈值化过程，并利用预测熵作为不确定性度量来识别模糊区域。

Dooly: Configuration-Agnostic, Redundancy-Aware Profiling for LLM Inference Simulation

Joon Ha Kim et al.

cs.DC cs.AI

本文提出Dooly，一种配置无关且冗余感知的profiling方法，用于LLM推理模拟。它通过taint propagation标记输入维度来源，并选择性profiling缺失操作，从而减少重复计算，在保持模拟精度（TTFT误差5%，TPOT误差8%）的同时，将profiling GPU时间减少56.4%。

Towards Apples to Apples for AI Evaluations: From Real-World Use Cases to Evaluation Scenarios

Yee-Yin Choong et al.

cs.HC cs.AI cs.CY

本文提出了一种将AI用例转化为评估场景的重复性流程，通过结构化工作表结合LLM与人工审查生成107个场景，并验证了其在金融服务领域的实用性。该方法强调方法论透明性和人本设计，但未涉及代码、谱方法或预训练等关键词相关技术。

Penalty-Based First-Order Methods for Bilevel Optimization with Minimax and Constrained Lower-Level Problems

Yiyang Shen et al.

math.OC cs.LG stat.ML

本文研究了一类上下层问题均具有minimax结构的bilevel optimization问题，提出了基于惩罚的一阶方法，在确定性设置下达到了$\tilde{O}(\epsilon^{-4})$的oracle复杂度，并推广到了随机设置。

Globally Optimal Training of Spiking Neural Networks via Parameter Reconstruction

Himanshu Udupi, Xiaocong Yang, ChengXiang Zhai

cs.NE cs.AI cs.LG

本文通过将并行前馈阈值网络的凸化方法扩展到并行递归阈值网络，提出了一种用于Spiking Neural Networks (SNNs)的参数重建训练算法。该算法能有效解决spike函数不可微导致的近似误差累积问题，并在多种任务中展现出优于或辅助surrogate-gradient训练的性能。

STARFlow2: Bridging Language Models and Normalizing Flows for Unified Multimodal Generation

Ying Shen et al.

cs.CV cs.LG

本文提出STARFlow2，通过将autoregressive normalizing flows与pretrained VLM结合，在统一causal mask下实现文本与图像的联合生成。该方法利用autoregressive flows与LLMs的结构一致性，避免了传统扩散模型与语言模型间的结构不匹配问题。

PET-Adapter: Test-Time Domain Adaptation for Full and Limited-Angle PET Image Reconstruction

Rüveyda Yilmaz et al.

cs.CV cs.LG

本文提出PET-Adapter，一种用于PET图像重建的测试时域自适应框架，通过在推理阶段引入低秩解剖条件调节和基于OSEM的暖启动，使仅在phantom数据上预训练的生成模型能适应临床数据分布，并将扩散步数从50减少到2。该方法在full-angle和limited-angle设置下均展示了3D重建性能提升。

Semiparametric Efficient Test for Interpretable Distributional Treatment Effects

Houssam Zenati, Arthur Gretton

stat.ML cs.LG

本文提出DR-ME方法，用于从观测数据中检测可解释的分布性处理效应。该方法通过双重稳健核特征和协方差白化技术，在固定位置下实现卡方校准的局部检验，并利用样本分割保证后验选择有效性。

PropSplat: Map-Free RF Field Reconstruction via 3D Gaussian Propagation Splatting

William Bjorndahl et al.

eess.SP cs.LG

本文提出PropSplat方法，利用3D anisotropic Gaussian primitives在无地图条件下重建RF场。该方法通过沿发射-接收路径初始化Gaussian并端到端优化，无需外部地理数据，在室外和室内数据集上均优于现有方法。

SCOPE: Structured Decomposition and Conditional Skill Orchestration for Complex Image Generation

Tianfei Ren et al.

cs.CV cs.AI

本文提出SCOPE框架，通过结构化分解和条件技能编排来解决复杂图像生成中的语义承诺跟踪问题，并引入Gen-Arena基准和EGIP指标进行评估。该方法在多个基准上取得较好结果，但与关键词列表中的概念无直接关联。

Flow-OPD: On-Policy Distillation for Flow Matching Models

Zhen Fang et al.

cs.CV cs.AI

本文提出Flow-OPD，一个将on-policy distillation引入Flow Matching模型的统一后训练框架，通过两阶段对齐策略（单奖励GRPO微调专家教师和基于Flow的冷启动蒸馏）解决多任务对齐中的奖励稀疏和梯度干扰问题，并引入Manifold Anchor Regularization缓解美学退化。实验表明该方法在GenEval和OCR准确率上显著提升，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

A Note on Non-Negative $L_1$-Approximating Polynomials

Jane H. Lee, Anay Mehrotra, Manolis Zampetakis

stat.ML cs.DS cs.LG math.ST

本文研究了高斯分布下非负$L_1$-逼近多项式的存在性，证明了具有有限Gaussian surface area (GSA)的集合类存在低次非负多项式进行$L_1$-逼近，其度数与无非负约束时的最优界匹配。该工作为计算学习理论中的正例学习提供了工具。

EmambaIR: Efficient Visual State Space Model for Event-guided Image Reconstruction

Wei Yu, Yunhang Qian

cs.CV cs.AI

本文提出EmambaIR，一种基于State Space Model的高效视觉框架，用于事件引导的图像重建。它通过Top-k稀疏注意力模块和门控状态空间模块，在降低计算复杂度的同时提升全局特征捕获能力。

Normalizing Trajectory Models

Jiatao Gu et al.

cs.CV cs.LG

本文提出Normalizing Trajectory Models (NTM)，将扩散模型中的每个反向步骤建模为可逆的conditional normalizing flow，并利用精确的likelihood训练。该方法在四步采样下达到与强baseline相当的性能，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.CL

cs.DS

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others