bluearXiv-ai - 2026-05-05

📄 所有论文 ↑ 回顶部

cs.LG

Polynomial-Time Optimal Group Selection via the Double-Commutator Eigenvalue Problem ⭐ 精选

Mitchell A. Thornton

cs.LG cs.CC cs.IT

本文通过将代数多样性框架中的群选择问题转化为double-commutator广义特征值问题，首次证明了该组合优化问题可在多项式时间$O(d^2M^2 + d^3)$内求解。该方法直接通过double-commutator矩阵的最小特征向量构造最优群生成元，无需迭代优化，且当最优生成元不在基张成空间中时能提供可认证的最优性差距。该工作建立了群论、矩阵分析与统计估计之间的新联系，并证明了double-commutator公式是同时满足多项式时间、闭式解和可认证性的唯一方法。

Learning in the Fisher Subspace: A Guided Initialization for LoRA Fine-Tuning ⭐ 精选

Zhi-Quan Feng, Ying-Jia Lin, Hung-Yu Kao

cs.LG

本文提出了一种基于Fisher信息矩阵的LoRA微调初始化方法，通过利用下游数据诱导的曲率信息来识别参数空间中与任务相关的方向，从而替代传统仅依赖预训练权重几何的初始化策略。该方法将LoRA初始化形式化为在目标数据分布下评估参数方向影响程度的问题，并构建了一个数据感知的Fisher引导框架，使适应子空间的选择与下游目标更好地对齐。实验表明，该方法在多种任务和模态上显著优于现有初始化方案，为参数高效微调提供了理论驱动的初始化准则。

Topological Neural Tangent Kernel ⭐ 精选

Sanjukta Krishnagopal

cs.LG cs.SI math.AT stat.ML

本文提出了Topological Neural Tangent Kernel (TopoNTK)，将Neural Tangent Kernel理论从graph推广到simplicial complex，通过结合lower和upper Hodge interactions，使得kernel能够区分具有相同graph但不同filled simplices的complex，从而捕捉graph kernel无法感知的拓扑结构。该工作利用Hodge decomposition将edge signals分解为gradient-like、harmonic和local circulation分量，并揭示了kernel的spectral bias：大eigenvalue对应的模式学习快，而global harmonic modes通常位于小eigenvalue，学习较慢。TopoNTK在理论上证明了expressivity、Hodge-alignment和spectral learning性质，并在synthetic simplicial tasks和DBLP高阶link prediction上验证了有效性，表明拓扑结构能为relational learning提供更忠实、可解释且有效的坐标。

Spectral Graph Sparsification Preserves Representation Geometry in Graph Neural Networks ⭐ 精选

Sanjukta Krishnagopal

cs.LG cs.SI math.SP stat.ML

本文证明了对于polynomial-filter GNNs，任何$\epsilon$-spectral sparsifier（一种通过保留Laplacian二次型来降低图复杂度的经典工具）都会在多项式图滤波器、多层隐藏表示及其Gram矩阵上诱导出$O(\epsilon)$的扰动。这些保证意味着嵌入空间中成对平方距离、类均值以及协方差结构的稳定性，并且进一步建立了有限时间训练稳定性：在光滑性和有界性假设下，密集图和稀疏化图上的梯度下降产生的权重轨迹的分离程度最多与稀疏化失真成比例增长。该工作为谱图稀疏化在GNN中不仅保持图算子，而且保持支持下游可解释性使用的表示几何提供了理论依据，与关键词中的“spectral”和“context”（表示几何的上下文）高度契合。

A Theory of Generalization in Deep Learning ⭐ 精选

Elon Litman, Gabe Guo

cs.LG stat.ML

本文提出了一种深度学习泛化的非渐近理论，通过经验神经正切核（empirical neural tangent kernel）将输出空间划分为信号和噪声两个通道。在信号通道中，小批量SGD通过快速线性漂移积累群体信号，而噪声通道中核的近似零特征值将残差误差困在测试不可见的“水库”中。该理论统一解释了良性过拟合、双下降、隐式偏差和grokking等现象，并推导出一个无需验证数据的精确总体风险目标，该目标可简化为Adam上的SNR预处理器，在无额外成本下加速grokking达5倍。

Local Hessian Spectral Filtering for Robust Intrinsic Dimension Estimation ⭐ 精选

Genki Osada

cs.LG

本文提出Local Hessian Spectral Dimension (LHSD)方法，通过将spectral filtering应用于log-density Hessian矩阵，显式截断与法向方向相关的大特征值，从而在噪声主导的高维空间中鲁棒地估计Local Intrinsic Dimension (LID)。该方法利用Stochastic Lanczos Quadrature (SLQ)避免显式构造Hessian，实现了对维度$D$的线性可扩展性。实验表明，LHSD在合成与真实数据上均表现出优越的鲁棒性，并能有效检测大规模diffusion model中的记忆化现象。

S^3-R1: Learning to Retrieve and Answer Step-by-Step with Synthetic Data ⭐ 精选

Harsh Goel et al.

cs.LG

本文提出S^3-R1框架，通过合成数据生成与稠密奖励信号相结合的方法，解决了强化学习后训练中因稀疏奖励和缺乏多难度问题数据导致的工具使用与搜索能力不足的问题。该框架包含一个自动生成多跳问题的pipeline，并引入基于检索的验证步骤来筛选中等难度问题，同时设计了同时评估中间搜索质量与最终答案正确性的奖励结构。实验表明，该方法在域外数据集上实现了高达10%的鲁棒泛化提升，与关键词“agent”和“context”较为契合。

Importance-Guided Basis Selection for Low-Rank Decomposition of Large Language Models ⭐ 精选

Daniel Agyei Asante, Ernie Chang, Yang Li

cs.LG

本文提出了一种名为BSI (Basis Selection with Importance) 的低秩分解框架，用于压缩大型语言模型。该方法通过二阶Taylor展开直接估计移除每个奇异向量基（singular-vector basis）所导致的期望损失增加，并据此推导出基于导数的importance score来排序和剪枝基，从而克服了现有启发式方法忽略loss landscape局部几何结构的缺陷。为了在LLM中实用化，作者通过将Hutchinson随机探测方法适配到对称参数扰动下的loss curvature，开发了一种高效的Hessian对角估计器，并提供了包括loss-increase界、估计误差传播和样本复杂度在内的全面理论分析。在数学推理基准上的实验表明，BSI在深度压缩场景下显著优于现有的低秩分解基线方法。

QHyer: Q-conditioned Hybrid Attention-mamba Transformer for Offline Goal-conditioned RL ⭐ 精选

Xing Lei et al.

cs.LG

QHyer提出了一种基于Q-conditioned Hybrid Attention-Mamba Transformer的离线目标条件强化学习框架。该方法用flow参数化的状态条件Q估计器替代了传统Decision Transformer中的return-to-go (RTG)，解决了稀疏奖励下RTG无法有效区分子轨迹的问题，从而支持跨演示的轨迹拼接。同时，其门控混合Attention-Mamba骨干网络能够自适应地压缩历史上下文，同时保留局部Markovian dynamics，克服了固定窗口提取在时间异质环境中无法适应不同依赖长度的缺陷。实验表明，该方法在非Markovian和Markovian数据集上均达到了state-of-the-art性能，与关键词中的agent和attention高度契合。

Stochastic Sparse Attention for Memory-Bound Inference ⭐ 精选

Kyle Lee et al.

cs.LG cs.AI cs.DC

本文提出Stochastic Additive No-mulT Attention (SANTA)，一种通过从post-softmax分布中采样$S \ll n_k$个索引来稀疏化value-cache访问的方法，将value阶段的乘积累加运算替换为gather-and-add操作，从而为memory-bound的自回归推理提供无偏估计。作者引入分层采样设计方差缩减且GPU友好的变体，在NVIDIA RTX 6000 Ada上实现相比FlashInfer和FlashDecoding约$1.5\times$的decode-step attention kernel加速，并在32k token上下文中匹配基线精度。此外，论文提出Bernoulli $qK^\mathsf{T}$采样作为互补技术，通过随机三元查询稀疏化score阶段，减少key-feature访问。该方法与三元量化、低秩投影和KV-cache压缩等上游技术正交，指向稀疏、无乘法器且节能的推理方向，与关键词“attention”高度契合。

Training Non-Differentiable Networks via Optimal Transport ⭐ 精选

An T. Le

cs.LG cs.NE cs.RO math.OC

本文提出PolyStep，一种基于optimal transport的梯度-free优化器，用于训练包含不可微组件（如spiking neurons、quantized layers）的神经网络。该方法通过在前向传播中评估结构化polytope顶点上的损失，并利用softmax加权分配和barycentric projection更新参数，避免了surrogate gradient的偏差。实验表明，PolyStep在hard-LIF spiking networks上达到93.4%的测试准确率，显著优于所有梯度-free基线，并在多种不可微架构（如int8 quantization、argmax attention）上领先。理论证明其收敛到conservative-stationary points的速率为$O(\log T/\sqrt{T})$，匹配已知的zeroth-order query-complexity下界。

AdamO: A Collapse-Suppressed Optimizer for Offline RL ⭐ 精选

Nan Qiao et al.

cs.LG

本文从控制理论视角将离线TD学习建模为反馈系统，揭示了Adam优化器本身可能通过扭曲参数几何结构直接触发Q值崩溃，并给出了局部更新动力学稳定的充要条件（更新算子的谱半径严格小于1）。为解决该问题，作者提出AdamO优化器，通过解耦的正交性校正和严格的任务对齐预算，在理论上保证了最坏情况下的任务安全性并保留了Adam的连续时间耗散动力学。该方法与多种离线RL基线广泛兼容，在多个基准测试中显著提升了稳定性和回报，为优化器动力学与强化学习稳定性之间的交叉提供了开创性见解。

When Attention Collapses: Residual Evidence Modeling for Compositional Inference ⭐ 精选

Niklas Houba

cs.LG cs.AI physics.data-an

本文针对additive superposition（加性叠加）场景下attention机制的结构性失效问题，提出了一种名为evidence depletion（证据耗尽）的残差证据建模方法。该方法通过引入multiplicative depletion（乘法耗尽）和attention bias，为sequential attention添加了residual state（残差状态），从而有效防止了slot collapse（槽坍塌）——即多个slot收敛到同一主导成分而忽略弱成分的现象。实验表明，该方法在合成基准和真实音频混合（FUSS）中显著减少了槽坍塌，并在LISA引力波源推断任务中使标准attention失效的场景下成功实现了多源后验估计。

StreamIndex: Memory-Bounded Compressed Sparse Attention via Streaming Top-k ⭐ 精选

Jaber Jaber, Osama Jaber

cs.LG cs.PF

StreamIndex提出了一种基于Triton实现的分块partition-merge top-k驱动方法，用于解决DeepSeek-V3.2/V4中Compressed Sparse Attention (CSA)在长序列下中间score tensor内存爆炸的问题。该方法通过流式处理避免实例化完整的$[B, S, H_I, T]$ FP32 score tensor，在NVIDIA H200上将可处理的序列长度从65,536扩展到1,048,576，峰值HBM仅6.21 GB。与materialize路径相比，在可比较的小规模下召回率精确到bit级别，且在大规模下与TileLang的pipelined attention kernel组合时仍能高效运行。该工作聚焦于indexer步骤的内存优化，与attention机制中的稀疏化处理高度契合。

Agentopic: A Generative AI Agent Workflow for Explainable Topic Modeling

Brice Valentin Kok-Shun et al.

cs.LG cs.AI

Agentopic提出了一种基于LLM agents的可解释topic modeling工作流，通过多个agents协作完成topic的识别、验证和层次化分组，并生成自然语言解释。该方法在BBC数据集上取得了接近BERTopic的F1-score，但主要贡献在于增强可解释性而非解决长期存在的理论问题。

Sparse Regression under Correlation and Weak Signals: A Reproducible Benchmark of Classical and Bayesian Methods

Hao Xiao

cs.LG

本文在相关特征、弱信号和高维度的条件下，系统比较了Lasso、Horseshoe等六种经典与贝叶斯稀疏回归方法，基于超过2600次实验发现贝叶斯方法在预测误差上更优，但Lasso在变量选择上具有实用优势。

From Euler to Dormand-Prince: ODE Solvers for Flow Matching Generative Models

Hao Xiao

cs.LG

本文从泰勒展开推导了四种经典ODE求解器（Euler, Explicit Midpoint, RK4, Dormand-Prince 5(4)），并在Conditional Flow Matching任务上进行了系统基准测试。实验发现RK4在80次函数评估时能达到Euler在200次时的样本质量，并观察到速度场的Jacobian特征值谱在t=1附近急剧变硬，以及求解器选择对欠训练模型影响更大。

Fast Log-Domain Sinkhorn Optimal Transport with Warp-Level GPU Reductions

Hao Xiao

cs.LG

本文提出了FastSinkhorn，一个基于CUDA的log-domain Sinkhorn算法实现，通过warp-level shuffle reductions和shared-memory tiling提升GPU利用率，在正则化参数小至$10^{-4}$时仍保持数值稳定，并在密集OT问题上相比POT库和PyTorch基线实现了显著加速。

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

Duaa Alim, Mogtaba Alim, Liam Chalcroft

cs.LG cs.CV

本文提出了GAZE框架，使医学Vision-Language Model (VLM)能够通过调用viewer-level tools（如缩放、对比度调整）和文献检索工具（基于PubMed和Open-i）进行迭代式图像分析。在罕见脑部MRI基准NOVA上，该方法在无需任务特定微调的情况下，提升了病灶定位和诊断准确率，并揭示了工具使用对罕见病理的显著帮助。

StyleShield: Exposing the Fragility of AIGC Detectors through Continuous Controllable Style Transfer

Guantian Zheng

cs.LG cs.AI

本文提出StyleShield框架，通过连续可控风格转移暴露AIGC检测器的脆弱性。该方法在连续token embedding空间中使用flow matching和DiT骨干网络，并引入SDEdit范式实现单参数控制，在中文基准测试中达到94.6%的逃避率。

Linking spatial biology and clinical histology via Haiku

Yan Cui et al.

cs.LG cs.CV q-bio.QM

本文提出Haiku，一个基于三模态对比学习的模型，将空间蛋白质组学、组织学图像和临床元数据对齐到共享嵌入空间，实现了跨模态检索和零样本生物标志物推断。该方法在生存预测等任务上优于单模态基线，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

A Review of the Receiver Operating Characteristic Curve and a Proof About the Area Beneath It

Steven Redolfi

cs.LG math.PR

本文回顾了二元分类器的ROC曲线，并形式化了曲线下面积等于随机正样本排名高于随机负样本概率的经典结论，同时给出了假设不满足时的误差界。

PhaseNet++: Phase-Aware Frequency-Domain Anomaly Detection for Industrial Control Systems via Phase Coherence Graphs

Raviteja Bommireddy et al.

cs.LG cs.AI

本文提出PhaseNet++，一种用于工业控制系统(ICS)中多元时间序列异常检测的频率域autoencoder。该方法利用Short-Time Fourier Transform (STFT)保留相位信息，并引入Phase Coherence Index (PCI)构建图注意力网络，以捕捉传感器间的相位同步关系。实验表明该方法在SWaT基准上取得了良好性能，但作为首个系统性研究，其绝对F1-score并非最优。

Hierarchical Federated Learning for Networked AI: From Communication Saving to Architecture-Aware Design

Seyed Mohammad Azimi-Abarghouyi, Mehdi Bennis, Leandros Tassiulas

cs.LG cs.DC cs.IT

本文探讨了分层联邦学习（HFL）作为网络化AI的架构感知设计框架，将其从通信节省协议重新定位为基于多层级网络拓扑的分布式优化方法，并围绕架构参数、逐层优化分解和逐层通信实现三个设计轴展开分析。

CGM-JEPA: Learning Consistent Continuous Glucose Monitor Representations via Predictive Self-Supervised Pretraining

Hada Melino Muhammad et al.

cs.LG cs.AI

本文提出CGM-JEPA，一种用于连续血糖监测(CGM)的自监督预训练框架，通过预测掩码的latent representation而非原始值来学习跨模态的抽象表示。实验表明该方法在多个临床场景下优于基线，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

Structured Analytic Coherent Point Drift for Non-Rigid Point Set Registration

Wei Feng, Haiyong Zheng

cs.LG stat.ML

本文提出Analytic-CPD，一种结构化解析变体，用于非刚性点集配准。它用有限维结构化解析映射估计器替代了标准CPD中的高斯核位移场，并通过重心恒等式将后验概率转化为加权解析拟合问题。

Watch Your Step: Information Injection in Diffusion Models via Shadow Timestep Embedding

An Huang, Junggab Son, Zuobin Xiong

cs.LG cs.CV

本文提出了一种名为Shadow Timestep Embedding (STE)的新机制，利用扩散模型中timestep embedding的未充分利用空间进行恶意信息注入。研究发现不同timestep具有不同的表征能力，可编码侧信道信息，并通过scheduler接口用于攻击和防御。

EventADL: Open-Box Anomaly Detection and Localization Framework for Events in Cloud-Based Service Systems

Luan Pham et al.

cs.LG cs.AI

本文提出了EventADL，首个基于事件数据的云服务系统异常检测与定位框架，通过学习事件语义模式（ESP）和事件频率模式（EFP）来识别异常，并利用干预图进行根因定位。实验表明其在三个真实云系统上取得了优异性能，但该方法与关键词中的概念关联较弱。

Fusing Urban Structure and Semantics: A Conditional Diffusion Model for Cross-City OD Matrix Generation

Bin Chen et al.

cs.LG cs.AI

本文提出SEDAN，一种基于条件扩散模型的OD矩阵生成方法，通过将城市建模为属性图并融合语义与空间结构信息来生成通勤流量。该方法在真实数据集上优于基线WEDAN，但未涉及关键词中的核心概念。

From Flat Facts to Sharp Hallucinations: Detecting Stubborn Errors via Gradient Sensitivity

Yee Zhing Liew, Andrew Huey Ping Tan, Anwar P.P Abdul Majeed

cs.LG cs.AI

本文提出Embedding-Perturbed Gradient Sensitivity (EPGS)方法，通过向输入embedding添加Gaussian noise并测量梯度幅值的变化来检测LLM中的"顽固幻觉"。该方法利用flat minima与sharp minima的几何差异区分稳定事实与脆弱记忆，实验表明其优于基于entropy和representation的基线方法。

Interpretable experiential learning based on state history and global feedback

Anton Kolonin

cs.LG cs.AI

本文提出了一种基于状态历史和全局反馈的可解释经验学习模型，该模型通过状态集之间的转移图学习行为模型，并在OpenAI Gym Atari Breakout基准上展示了与某些神经网络方案相当的性能。

Divergence is Uncertainty: A Closed-Form Posterior Covariance for Flow Matching

Jiarui Xing, Song Wang, Jian Wang

cs.LG cs.CV

本文证明了对于任意预训练的flow matching velocity field，给定当前状态下的clean data的后验协方差迹等于velocity field的散度（乘以一个已知的时间依赖因子并加上一个常数），称为散度-不确定性恒等式。该恒等式是精确且事后可计算的，无需重新训练或修改架构，为生成模型的不确定性量化提供了新视角。

Graph Rewiring in GNNs to Mitigate Over-Squashing and Over-Smoothing: A Survey

Hugo Attali et al.

cs.LG cs.AI

本文综述了图神经网络中用于缓解过压缩和过平滑问题的图重连技术，系统梳理了各类方法的理论基础与实现权衡。

Robust volatility updates for Hierarchical Gaussian Filtering

Christoph Mathys et al.

cs.LG cs.NE q-bio.NC stat.ML

本文针对Hierarchical Gaussian Filtering (HGF)网络中volatility coupling（方差耦合）节点更新时可能出现的后验精度为负的问题，提出了一种改进的二次近似方法。该方法通过在先验预测和由Lambert W函数确定的第二个mode之间进行插值，避免了负后验精度的出现，使得更新方程在整个参数空间内保持鲁棒。

Physiology-Aware Masked Cross-Modal Reconstruction for Biosignal Representation Learning

Hao Zhou et al.

cs.LG cs.AI eess.SP

本文提出xMAE框架，通过跨模态掩码重建（masked cross-modal reconstruction）在时间有序的生物信号（如ECG和PPG）上进行预训练，以学习具有生理意义的时间结构表示。实验表明该方法在多项下游任务中优于基线，但未直接涉及关键词中的code、context、spectral、Muon、agent或attention等核心概念。

Continual Learning of Feedback-based Molecular Communication

Siddhant Setia, Junichi Suzuki, Tadashi Nakano

cs.LG

本文提出了一种基于continual learning的分子通信协议性能估计方法，通过定制正则化和回放策略在标准神经网络上增量学习模拟结果。实验表明该方法能提升估计精度，但未涉及关键词中的核心概念。

Finite-Sample Analysis of Elimination in Active Hypothesis Testing

Ziyuan Lin et al.

cs.LG

本文研究了主动假设检验中的假设消除对停止时间的影响，提出了一种消除增强的Track-and-Stop算法，通过逐步剪枝特定对手集并重新分配感知资源，推导了期望停止时间的非渐近上界。实验验证了该方法在有限样本下的性能提升。

LEAP: Layer-wise Exit-Aware Pretraining for Efficient Transformer Inference

Shashank Kapadia et al.

cs.LG cs.AI cs.CL

本文提出LEAP训练目标，通过约束中间层逼近最终层表示，解决了蒸馏模型与早期退出机制的不兼容问题，在Transformer推理中实现了显著加速。

GEODE: Angle-Adaptive OOD Detection with Universal Scorer Compatibility

Bruno Abrahao

cs.LG cs.CV

本文提出了一种名为GEODE的OOD检测方法，通过角度自适应范数损失来模拟Outlier Exposure的校准效果，并利用neural collapse理论证明了其设计合理性。该方法在多个标准评分器上表现稳定，但未直接涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

A dimensional R2 regression metric

Jaesung Yoo et al.

cs.LG

本文提出了Dimensional R2 score (Dim-R2)，作为对传统R2 score的扩展，以处理任意维度的回归任务，并提供多维度的准确性评估。该方法通过简单的扩展降低了低方差噪声通道的敏感性，并在合成数据和多维回归数据集上展示了其优势。

Deep Variational Inference Symbolic Regression

James Butterworth, Gevik Grigorian, Alejandro DiazDelaO

cs.LG

本文提出了一种名为Deep Variational Inference Symbolic Regression (DVISR)的变分贝叶斯方法，用于扩展Deep Symbolic Regression (DSR)，使其能够推断表达式树及其常数的后验分布。该方法通过替换奖励函数为evidence lower bound的积分项，并扩展网络架构以输出常数分布，从而在简单设置下恢复真实后验。

Networked Information Aggregation for Binary Classification

MohammadHossein Bateni et al.

cs.LG cs.GT econ.TH

本文研究了有向无环图上的二分类问题，其中每个agent仅能观测到共享数据集的部分特征列，并通过顺序传递logistic预测列来聚合信息。作者证明了在深度为$D$的路径上，当每$M$个连续agent能观测到所有特征时，超额损失的上界为$O(M/\sqrt{D})$，并给出了一个$\Omega(k/D)$的下界，揭示了网络深度是信息聚合的一个根本瓶颈。

Learning Discriminators for Resampling in the Ensemble Gaussian Mixture Filter through a Normalizing Flow Approach

Zain Jabbar, Andrey A. Popov

cs.LG math.PR stat.CO

本文提出了一种基于normalizing flow的判别器增强重采样方法，用于改进ensemble Gaussian mixture filter (EnGMF)在非线性滤波中的物理合理性。该方法通过判别器筛选候选粒子，在Ikeda map和Lorenz '63系统上验证了低集合规模下的误差降低效果。

Learning to Race in Minutes: Infoprop Dyna on the Mini Wheelbot

Devdutt Subhasish, Henrik Hose, Sebastian Trimpe

cs.LG cs.RO

本文使用Infoprop Dyna框架，使欠驱动的Mini Wheelbot机器人通过11分钟的真实世界交互学会在赛道上竞速，展示了无需物理模拟器的直接学习能力。

Almost for Free: Crafting Adversarial Examples with Convolutional Image Filters

Alexander Warnecke, Konrad Rieck

cs.LG cs.CV

本文提出了一种基于卷积图像滤波器（如边缘检测算法）的对抗样本生成方法，通过优化少量参数来欺骗机器学习模型。该方法在效率上显著优于基于生成模型的方法，但未涉及关键词中的核心概念。

Diffusion Operator Geometry of Feedforward Representations

Kanishka Reddy

cs.LG cond-mat.dis-nn stat.ML

本文提出了一种基于扩散算子几何的平滑替代方案，用于分析前馈神经网络表示，通过Gaussian核扩散Markov算子推导传输、谱和标签边界等可观测量，并证明了其在特征扰动下的平滑性。

When Less is Enough: Efficient Inference via Collaborative Reasoning

Yilei Chen et al.

cs.LG cs.AI cs.CL

本文提出DUET框架，通过一个能力强的模型生成推理信号，再由轻量模型解读该信号以产生最终答案，从而降低推理成本。该方法使用长度惩罚联合训练目标，在保持性能的同时节省了高达60%的大模型输出token。

Machine Learning-Augmented Acceleration of Iterative Ptychographic Reconstruction

Bowen Zheng et al.

cs.LG physics.optics

本文提出了一种机器学习增强的迭代ptychographic重建方法，通过引入一个学习到的快速前向算子来加速收敛，在标准迭代预热后应用该算子推进重建状态，再恢复常规迭代。该方法在保持物理一致性的同时，将收敛所需的迭代次数减少两倍以上，并已集成到同步辐射束线的实际生产管线中。

Extreme Weather Bench: A framework and benchmark for evaluation of high-impact weather

Amy McGovern et al.

cs.LG

本文提出了一个名为Extreme Weather Bench (EWB)的开源基准测试框架，用于评估AI和数值天气预报模型在高影响天气事件上的表现。该框架提供标准案例集、观测数据和基于影响的指标，旨在推动天气模型的科学进步。

Forager: a lightweight testbed for continual learning with partial observability in RL

Steven Tang et al.

cs.LG cs.AI

本文介绍了Forager，一个轻量级的部分可观测CRL环境，用于研究持续强化学习中的塑性损失问题。实验表明现有CRL代理在该环境中面临挑战，而利用state construction比现有缓解方法更有效。

Metric-Normalized Posterior Leakage (mPL): Attacker-Aligned Privacy for Joint Consumption

Gaoyi Chen et al.

cs.LG cs.CR

本文提出metric-normalized posterior leakage (mPL)作为联合消费场景下的一种隐私度量，并引入Adaptive mPL (AmPL)框架来平衡隐私与效用。该工作主要关注隐私保护领域，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Multi-Perspective Transformers in ARC-AGI-2 Challenge

Caleb Talley et al.

cs.LG cs.AI

本文提出了一种基于Multi-Perspective Transformers的方法，结合TinyLM、Test-Time-Training (TTT)和Products of Experts (POE)来解决ARC-AGI-2视觉推理谜题，在训练集上达到96.1%准确率，但在评估集上仅为21.7%。该方法主要关注视觉模式识别与规则泛化，与关键词中的attention有一定关联，但整体创新性和契合度一般。

Minimizing Collateral Damage in Activation Steering

Tam Nguyen et al.

cs.LG cs.AI

本文针对activation steering方法中的“collateral damage”问题，提出了一种基于constrained optimization的框架，通过最小化加权期望平方变化来减少对非目标特征方向的干扰。该方法利用经验二阶矩矩阵编码不同特征方向的扰动成本，从而在保持模型性能的同时实现更精确的控制。

Linear-Readout Floors and Threshold Recovery in Computation in Superposition

Hector Borobia, Elies Seguí-Mas, Guillermina Tormo-Carbó

cs.LG cs.IT

本文研究了superposition计算中两种不同recursive capacity regimes的差异，指出Hänni等人的线性递归模板与Adler和Shavit的阈值布尔恢复方法因维护不同的interface invariants而并不矛盾。通过建立biorthogonal linear readouts的rank-trace Welch型下界，文章解释了$d^{3/2}$尺度作为该模板的兼容性阈值，而非通用上界。

Focus and Dilution: The Multi-stage Learning Process of Attention

Zheng-An Chen et al.

cs.LG

本文通过gradient-flow分析，研究了一层Transformer在Markovian数据上的attention学习动态，识别出一个focus-dilution循环过程，并利用stage-wise linearization将其分解为多个阶段。实验在合成数据和真实文本上验证了该循环动态。

Arbitrarily Conditioned Hierarchical Flows for Spatiotemporal Events

Keyan Chen et al.

cs.LG

本文提出了一种名为ARCH的层次化流匹配框架，用于时空事件建模。该框架通过混合掩码策略实现了对任意观测事件的条件化，从而统一处理预测、逆推断和轨迹恢复等任务。

Attention Sinks in Massively Multilingual Neural Machine Translation:Discovery, Analysis, and Mitigation

Hillary Mutisya, John Mugane

cs.LG cs.CL

本文发现多语言NMT模型NLLB-200的cross-attention中存在"attention sinks"现象，即非内容token（如end-of-sequence token和language tags）占据了大部分attention mass。作者提出了一种content-only filtering方法去除这些伪影，并验证了该现象在不同语言中的普遍性。

CombinationTS: A Modular Framework for Understanding Time-Series Forecasting Models

Xiaorui Wang et al.

cs.LG

本文提出CombinationTS框架，将时间序列预测模型分解为五个正交模块（Input Transformation, Embedding, Encoder, Decoder, Output Transformation），并通过边际性能与稳定性进行模块级归因。实验发现“Identity Paradox”现象，即设计良好的Embedding可使无参数Identity Encoder媲美复杂backbone，且Input Transformation引入的结构先验比增加Encoder复杂度更有利于性能-稳定性权衡。

Rhamba: Region-Aware Hybrid Attention-Mamba Framework for Self-Supervised Learning in Resting-State fMRI

Ruthwik Reddy Doodipala et al.

cs.LG cs.AI

本文提出Rhamba框架，将区域感知掩码与混合Attention-Mamba架构结合用于静息态fMRI的自监督预训练。实验表明掩码策略与架构的交互影响下游性能，但方法本身在理论或长期问题解决上缺乏显著突破。

Breaking the Computational Barrier: Provably Efficient Actor-Critic for Low-Rank MDPs

Ruiquan Huang et al.

cs.LG

本文通过监督学习作为计算代理，建立了低秩MDPs中常用RL oracles的层次结构，并提出了一种仅依赖policy evaluation oracle的乐观actor-critic算法，在避免复杂计算oracle的同时改进了样本复杂度。

Activation Compression in LLMs: Theoretical Analysis and Efficient Algorithm

Wen-Da Wei et al.

cs.LG

本文从理论上分析了LLM训练中activation compression的可行性，证明了无偏压缩对线性算子安全但对非线性算子有问题，并提出了一个activation-gradient co-compression方法，通过复用低秩activation factors来压缩线性层梯度。实验在Qwen和LLaMA模型上验证了该方法在准确率和压缩效率上的竞争力。

Continuous Temporal Representations of Event-Based Signals via Interference-Based Wave Modeling

Magnus Bengtsson

cs.LG

本文提出了一种基于干涉波建模的连续时间表示框架，用于处理事件驱动生物信号（如sEMG）。该方法将事件信号映射到复值波场，通过相位调制编码时间结构，并在能量域中生成结构化激活模式，无需显式递归或因果状态传播。

A Theory of Saddle Escape in Deep Nonlinear Networks

Divit Rawal, Michael R. DeWeese

cs.LG cond-mat.dis-nn stat.ML

本文研究了深度非线性网络中小初始化训练中的长平台期现象，通过推导层权重矩阵Frobenius范数不平衡的精确恒等式，将激活函数分为四个普适类，并利用标量ODE给出了逃逸时间标度律$\tau_\star = \Theta(\varepsilon^{-(r-2)})$，其中$r$为瓶颈层数。

Congestion-Aware Dynamic Axonal Delay for Spiking Neural Networks

Dewei Bai et al.

cs.LG

本文提出了一种用于Spiking Neural Networks (SNNs)的Congestion-Aware Dynamic Axonal Delay机制，将延迟分解为通道级的静态基延迟和全局的、基于活动状态的动态偏移，并通过可微线性插值进行学习。实验表明，该方法在多个语音基准数据集上提升了精度，同时相比现有基于延迟的方法减少了约50%的参数数量。

Autonomous Drift Learning in Data Streams: A Unified Perspective

Xiaoyu Yang, En Yu, Jie Lu

cs.LG cs.AI

本文提出了一种三维分类法，将数据流中的漂移分为时间流漂移、数据流漂移和模型流漂移，并系统综述了193项相关研究。该工作为构建自演化学习系统提供了统一视角，但未直接涉及code、context、spectral等关键词。

GA-VisAgent: A Multi-Agent application for code generation and visualization in interactive learning

Wang Jian et al.

cs.LG

本文提出了GA-VisAgent，一个基于多智能体和大语言模型的交互式学习应用，用于Geometric Algebra的代码生成与可视化。它通过任务规划与ReAct推理策略，将复杂操作分解为标准化子任务，在40个典型任务上实现了90%的代码生成成功率。

GraphSculptor: Sculpting Pre-training Coreset for Graph Self-supervised Learning

Chuang Liu et al.

cs.LG cs.AI

本文提出GraphSculptor方法，通过结合内在结构特征（如graph statistics）和上下文语义（利用预训练语言模型对graph-to-text生成的描述进行编码）来构建预训练coreset，并采用聚类感知选择策略保留结构-语义多样性。实验表明，仅用10%的coreset即可达到接近全数据预训练的性能，显著降低计算开销。

The Partial Testimony of Logs: Evaluation of Language Model Generation under Confounded Model Choice

Jikai Jin, Vasilis Syrgkanis

cs.LG econ.EM stat.AP stat.ML

本文研究了在模型选择存在混杂偏差时，如何利用大规模有偏观测日志、小规模随机实验和离线模拟器三种数据源来评估语言模型。其核心贡献在于证明了随机实验与模拟器足以恢复因果模型价值，而观测日志仅用于降低估计误差。

Robust Parameter Learning for Uncertain MDPs

Yannik Schnitzer, Alessandro Abate, David Parker

cs.LG

本文提出使用parametric MDPs (pMDPs)来学习不确定MDPs，通过将统计不确定性投影到参数空间，构建了尊重转移代数依赖的PAC不确定性模型，并设计了多面体外近似方法以解决计算难题。

Model-Based Proactive Cost Generation for Learning Safe Policies Offline with Limited Violation Data

Ruiqi Xue et al.

cs.LG cs.AI

本文提出PROCO框架，利用大语言模型(LLM)将自然语言知识融入策略，以解决离线安全强化学习中缺乏违规数据的问题。该方法通过学习dynamics model并构建保守的cost function，生成反事实不安全样本，从而在仅有安全数据的场景下提升策略的安全性。

PACE: Parameter Change for Unsupervised Environment Design

Fang Yuan et al.

cs.LG

本文提出PACE方法，通过策略参数更新的L2范数平方来评估环境价值，以改进无监督环境设计中的环境选择。实验表明该方法在MiniGrid和Craftax上优于现有UED基线。

Decision-Focused Learning via Tangent-Space Projection of Prediction Error

Junhyeong Lee, Sangjin Jin, Yongjae Lee

cs.LG

本文提出了一种名为PEAR的Decision-Focused Learning方法，通过将prediction error投影到active constraints的tangent space上来计算regret gradient，避免了通过solver进行微分或使用surrogate loss。该方法在LP和QP任务上实现了最佳决策质量与最高计算效率。

Toward a foundational thermal model for residential buildings

Ting-Yu Dai et al.

cs.LG eess.SY

本文提出了一种基于物理信息的transformer架构，用于构建建筑热模型，通过嵌入领域知识（如导数增强和Euler数值积分）实现跨建筑和气候的泛化，在CityLearn数据集上取得了较好的预测精度。

Sequential Learning and Catastrophic Forgetting in Differentiable Resistor Networks

Maniru Ibrahim

cs.LG cond-mat.dis-nn physics.comp-ph

本文研究了可微电阻网络中的顺序学习与灾难性遗忘问题，发现任务冲突和适应程度控制着遗忘，且遗忘与高电流边上的局部电导变化相关。网络拓扑结构（如Erdős-Rényi、小世界等）会改变遗忘-适应平衡。

Rethinking Multi-Label Node Classification: Do Tuned Classic GNNs Suffice?

Yuxuan Xiao, Shengzhong Zhang

cs.LG

本文重新审视了多标签节点分类问题，通过系统调优经典GNN（如GCN、SSGConv、GCNII）的标准化训练技巧（如normalization和dropout），发现这些简单基线在多个基准上超越了复杂的专用方法，表明该领域需要更严格的强基线评估。

Quantifying Multimodal Capabilities: Formal Generalization Guarantees in Pairwise Metric Learning

Richeng Zhou, Xuelin Zhang, Liyuan Liu

cs.LG cs.AI

本文对多模态metric learning模型的泛化性质进行了理论分析，建立了不同模态子集对应的function class之间的层次关系，并推导了新的泛化误差界。研究揭示了模态数量与粒度对模型性能的联合影响，但未涉及code、context或attention等关键词。

Barriers to Counterfactual Credit Attribution for Autoregressive Models

Aloni Cohen, Chenhao Zhang

cs.LG

本文研究了自回归生成模型中的反事实信用归因问题，证明了CCA性质在自回归组合下不保持，并给出了在弱最优性要求下进行CCA改造的查询复杂度下界。

Evaluating LLMs on Large-Scale Graph Property Estimation via Random Walks

Sunil Kumar Maurya, Xin Liu

cs.LG stat.ML

本文提出EstGraph基准，通过随机游走采样将大图信息压缩至LLM上下文长度内，并设计四个任务评估LLM对大图属性的估计能力。

Protein-Conditioned Multi-Objective Reinforcement Learning for Full-Length mRNA Design

Zixi Shao et al.

cs.LG cs.AI

本文提出ProMORNA框架，使用BART-style encoder-decoder模型和Multi-Objective Group Relative Policy Optimization (MO-GRPO)方法，从目标蛋白序列直接生成全长mRNA转录本，以同时优化稳定性、翻译效率和免疫安全性。实验在萤火虫荧光素酶目标上展示了改进的Pareto前沿，但与关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Mesh Based Simulations with Spatial and Temporal awareness

Paul Garnier, Vincent Lannelongue, Elie Hachem

cs.LG cs.AI physics.comp-ph

本文提出了一种结合空间与时间感知的网格模拟框架，通过多节点预测、时间校正和几何归纳偏置（如3D旋转位置嵌入）改进基于图神经网络和Transformer的物理仿真代理模型，在计算流体动力学中提升了长时程推演的精度与稳定性。该方法与关键词中的“attention”和“context”有一定关联，但整体创新性有限，未解决该领域的长期核心问题。

ECG-biometrics-bench: A Unified Framework for Reproducible Benchmarking of ECG Biometrics

Milad Parvan

cs.LG cs.CV eess.SP

本文提出了ECG-biometrics-bench，一个用于ECG生物特征识别可重复基准测试的统一框架，标准化了七个公开数据集的预处理、分割和评估流程。通过多数据集分析，揭示了随机分割谬误（即会话内评估会人为提升性能），并证明性能退化可通过动态多会话模板融合部分缓解。

Hybrid Quantum Reinforcement Learning with QAOA for Improved Vehicle Routing Optimization

T. Satyanarayana Murthy et al.

cs.LG

本文提出了一种混合量子强化学习方法，将Quantum Approximate Optimization Algorithm (QAOA)集成到QRL策略网络中，用于改进Vehicle Routing Problem (VRP)的优化。该方法通过利用QAOA的量子相关性来增强agent的探索能力，在标准VRP实例上展示了更快的收敛速度和更好的解质量。

Model Merging: Foundations and Algorithms

Donato Crisostomi

cs.LG cs.AI

本文研究了模型合并（model merging）的两种主要场景：单任务和多任务。在单任务中提出了基于Frank-Wolfe优化的C$^2$M$^3$算法，在多任务中则发展了任务向量（task vectors）的理论并引入了任务奇异向量（Task Singular Vectors, TSV）等工具，用于减少干扰和实现压缩。

Concepts Whisper While Syntax Shouts: Spectral Anti-Concentration and the Dual Geometry of Transformer Representations

Pratyush Acharya, Nuraj Rimal, Habish Dhakal

cs.LG cs.AI

本文通过实验发现，transformer的residual stream中，概念方向在谱尾（spectral tail）呈现反集中（anti-concentration），而语法信息则集中在高方差方向。该发现揭示了transformer表征的双重几何结构，但方法本身并非开创性，且与关键词关联较弱。

From Packets to Patterns: Interpreting Encrypted Network Traffic as Longitudinal Behavioral Signals

Rameen Mahmood et al.

cs.LG cs.AI cs.CY

本文提出使用transformer backbone和per-user adapters建模加密网络流量中的行为模式，并通过sparse autoencoder提取可解释的行为特征。研究发现，睡眠障碍、压力和孤独感与不同的时间结构相关，但该方法与关键词中的code、spectral、Muon等概念无直接关联。

PRIME: Protein Representation via Physics-Informed Multiscale Equivariant Hierarchies

Viet Thanh Duy Nguyen, John K. Johnstone, Truong-Son Hy

cs.LG

本文提出PRIME框架，通过构建五个物理驱动的层次化蛋白质结构图（从原子到整体），并利用确定性算子实现层级间信息传递，在蛋白质表示学习任务上取得竞争性表现。该方法虽涉及多尺度建模，但与关键词（如code, spectral, Muon, agent等）无直接关联。

Perturb and Correct: Post-Hoc Ensembles using Affine Redundancy

Eleanor Quint

cs.LG

本文提出Perturb-and-Correct (P&C)方法，通过对单个预训练网络的隐藏层施加随机扰动并在后续affine层进行最小二乘校正，构建出在分布内数据上一致但在分布偏移下行为不同的预测器。该方法在MuJoCo动力学预测和CIFAR-10 OOD检测任务上取得了较好的ID/OOD权衡。

Chebyshev-Augmented One-Shot Transfer Learning for PINNs on Nonlinear Differential Equations

Yiqi Rao, Pavlos Protopapas

cs.LG

本文提出了一种将Chebyshev多项式逼近与一次性迁移学习(OTL)相结合的方法，用于Physics-Informed Neural Networks (PINNs)求解非线性微分方程。该方法通过Chebyshev展开将非线性项转化为多项式形式，从而利用扰动分解将问题转化为一系列线性子问题，实现了无需重新训练网络主体即可快速适应新实例。

The Banach-Butterfly Invariant: Influence-Adaptive Walsh Geometry for Ternary Polynomial Threshold Functions

Gorgi Pavlov

cs.LG cs.CC cs.DM math.CO

本文引入Banach-Butterfly Invariant (BBT)，一种基于Walsh-Hadamard butterfly分解的、适应坐标影响(influence)的Banach几何结构。通过计算布尔函数的BBT不变量并分析其与最小支持度(minimum support)的关系，论文展示了该不变量是有效的Schur-凸集中不变量，但并非跨维度的通用单调预测器。

Prescriptive Scaling Laws for Data Constrained Training

Justin Lovelace et al.

cs.LG cs.CL

本文针对数据受限训练场景，提出了一种修正的Chinchilla scaling law，通过引入简单的加性过拟合惩罚项来建模重复训练数据带来的额外损失，并给出了计算最优的分配建议。

Adaptive Pluralistic Alignment: A pipeline for dynamic artificial democracy

Rachel Freedman

cs.LG

本文提出Adaptive Pluralistic Alignment (APA) pipeline，通过低秩reward basis分解和social-choice-theoretic voting实现AI系统的动态价值对齐，避免value lock-in。该方法在PRISM数据集上进行了初步验证，但未涉及code、spectral或Muon等关键词相关技术。

AI Alignment via Incentives and Correction

Rohit Agarwal et al.

cs.LG cs.AI

本文从法律经济学中的威慑与执法模型出发，将AI alignment问题建模为一个solver-auditor双智能体博弈，其中solver可能因激励产生错误行为，而auditor需决定是否进行代价高昂的检查。作者将reward设计视为一个bilevel optimization问题，并提出了一种基于bandit的外层搜索算法来优化reward profile。实验在LLM coding pipeline上验证了该方法能减少幻觉性错误，但整体方法更偏向应用框架而非理论突破。

Geospatial foundation-model embeddings improve population estimation unevenly across space and scale

Wenbin Zhang et al.

cs.LG

本文评估了Population Dynamics Foundation Model (PDFM)嵌入在巴西、尼日利亚和美国次国家级人口估计中的表现，发现其相比传统地理空间协变量能减少约20%的未解释方差，但性能提升在空间和尺度上分布不均。

Towards Efficient and Expressive Offline RL via Flow-Anchored Noise-conditioned Q-Learning

Sungyoung Lee et al.

cs.LG cs.RO

本文提出了一种名为FAN的离线强化学习算法，通过行为正则化技术简化了flow policy和distributional critic的计算，在保持高性能的同时显著提升了训练和推理效率。实验在机器人操作和运动任务上验证了其有效性。

Benchmarking Single-Pose Docking, Consensus Rescoring, and Supervised ML on the LIT-PCBA Library: A Critical Evaluation of DiffDock, AutoDock-GPU, GNINA, and DiffDock-NMDN

Youssef Abo-Dahab et al.

cs.LG q-bio.BM

本文在LIT-PCBA库上系统比较了DiffDock、AutoDock-GPU、GNINA和DiffDock-NMDN等分子对接与评分方法，发现AutoDock-GPU结合GNINA重评分（AutoDock-GNINA）表现最佳，而基于监督学习的重排序方法能进一步提升早期富集因子。

Complex Diffusion Maps with $ω$-Parameterized Kernels Revealing Inherent Harmonic Representations

Tongzhen Dang, Weiyang Ding, Michael K. Ng

cs.LG

本文提出Complex Diffusion Maps (CDM)框架，通过引入$\omega$-参数化的复值核来揭示高维数据中的主导复谐波。该方法在理论上基于算子谱理论，并优化了复扩散空间中的角度结构，在合成与真实数据集上展现出优于实值核方法的判别能力与鲁棒性。

Probe-Geometry Alignment: Erasing the Cross-Sequence Memorization Signature Below Chance

Anamika Paul Rupa, Anietie Andy

cs.LG cs.AI cs.CR cs.NE

本文研究了大型语言模型中行为遗忘留下的内部痕迹，并提出了一种名为probe-geometry alignment (PGA)的方法，通过沿probe的读出方向对齐activation来消除跨序列记忆签名，使其低于随机水平，且不损害模型能力。该方法在多个规模上验证了有效性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Stability and Generalization for Decentralized Markov SGD

Jiahuan Wang et al.

cs.LG

本文研究了在Markov chain采样下，去中心化随机梯度下降（SGD）和随机梯度下降上升（SGDA）的稳定性与泛化性，通过稳定性框架分析了Markov依赖和去中心化通信对泛化的联合影响，并建立了非渐近泛化界。

Floating-Point Networks with Automatic Differentiation Can Represent Almost All Floating-Point Functions and Their Gradients

Sejun Park, Yeachan Park, Geonho Hwang

cs.LG

本文研究了在浮点运算和自动微分算法$D^\mathtt{AD}$下，浮点网络能否表示任意函数值及其梯度。结果表明，对于给定的浮点函数$\phi$，存在浮点网络$f$使得$f$和$D^\mathtt{AD}(\phi\circ f)$能分别表示目标函数值和梯度，该结论对ReLU、ELU等常见激活函数成立。

CoAction: Cross-task Correlation-aware Pareto Set Learning

Xinyue Chen et al.

cs.LG

本文提出CoAction框架，使用task-aware Transformer同时处理多个多目标优化任务，通过任务特定embedding和self-attention机制捕捉任务间相关性，在基准测试和实际应用中验证了有效性。

Stable GFlowNets with Probabilistic Guarantees

Zengxiang Lei et al.

cs.LG stat.ML

本文分析了GFlowNets训练不稳定的原因，指出学习分布与目标分布之间较小的Total Variation距离无法保证训练损失有界。基于此，作者推导了从损失到TV距离的逆向保证，并提出了Stable GFlowNets算法以稳定训练过程。

Robust Linear Dueling Bandits with Post-serving Context under Unknown Delays and Adversarial Corruptions

Youngmin Oh

cs.LG

本文针对线性dueling bandits在存在post-serving context、未知延迟和对抗性corruption的复杂环境下的问题，提出了一种算法，并给出了一个regret上界。该工作主要关注算法在非理想环境下的鲁棒性分析。

Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time

Itai Allouche, Joseph Keshet

cs.LG cs.CV eess.AS

本文提出了一种名为LIME的训练无关框架，通过Layer-wise Relevance Propagation (LRP)在推理时量化token贡献，并更新模型的key-value表示以增强多模态输入的使用，从而减少多模态大语言模型中的幻觉现象。该方法在视觉和音频基准上验证了有效性，但未涉及关键词中的code、spectral或Muon等概念。

Adversarial Imitation Learning with General Function Approximation: Theoretical Analysis and Practical Algorithms

Tian Xu et al.

cs.LG

本文提出了一个名为OPT-AIL的对抗模仿学习框架，通过将reward学习与乐观正则化的policy学习相结合，在一般函数逼近下实现了多项式样本复杂度。该工作主要从理论角度分析了在线AIL的可行性，并提供了两种具体实现方法。

Beyond ECE: Calibrated Size Ratio, Risk Assessment, and Confidence-Weighted Metrics

Fernando Martin-Maroto, Nabil Abderrahaman, Gonzalo G. de Polavieja

cs.LG math.ST

本文指出Expected Calibration Error (ECE)在评估置信度校准时的局限性，提出Calibrated Size Ratio (CSR)作为替代指标，并引入风险概率$P_{\mathrm{risk}}$和置信度加权指标（如cwAUC）来更全面地评估校准质量与判别能力。实验在合成数据和真实数据集上验证了所提指标的有效性。

Federated Semi-Supervised Graph Neural Networks with Prototype-Guided Pseudo-Labeling for Privacy-Preserving Gestational Diabetes Mellitus Prediction

G. Victor Daniela et al.

cs.LG cs.AI

本文提出FedTGNN-SS，一个用于妊娠期糖尿病预测的隐私保护联邦半监督框架，通过原型引导的伪标签和自适应图细化来利用未标记数据，并在多个数据集上验证了有效性。该方法主要关注临床表格数据的联邦学习场景，与关键词中的spectral、attention等概念关联较弱。

Skipping the Zeros in Diffusion Models for Sparse Data Generation

Phil Sidney Ostheimer et al.

cs.LG

本文提出Sparsity-Exploiting Diffusion (SED)方法，通过仅对非零值建模来保留稀疏数据的结构，在训练和推理中跳过零元素以节省计算。实验表明SED在物理和生物学基准上匹配或超越传统扩散模型，但该方法主要针对稀疏数据生成，与关键词列表中的概念关联较弱。

Molecular Representations for Large Language Models

Nicholas T. Runcie, Fergus Imrie, Charlotte M. Deane

cs.LG

本文系统比较了多种分子表示格式（包括SMILES、IUPAC名称和新提出的MolJSON）在LLM上的表现，发现MolJSON在翻译、最短路径推理和约束生成任务中显著优于现有格式，并指出分子表示的选择对LLM性能有实质性影响。

Selector-Guided Autonomous Curriculum for One-Shot Reinforcement Learning from Verifiable Rewards

Rudray Dave et al.

cs.LG cs.AI

本文提出了一种Selector-Guided Autonomous Curriculum (SGAC)方法，用于从可验证奖励中进行单次强化学习，通过可学习的selector模型在多维特征空间中选择实例，发现输出分歧（entropy）比奖励方差更能预测推理增益。实验在Hendrycks MATH基准上使用Qwen2.5-Math-1.5B模型，取得了68.0%的准确率，优于现有方法。

Learning Koopman operators for coupled systems via information on governing equations of subsystems

Tatsuya Naoi, Jun Ohkubo

cs.LG

本文提出了一种利用子系统微分方程信息来学习耦合系统Koopman算子的方法，以改进纯数据驱动方法在数据有限时的稳定性与准确性，并通过耦合振子系统的数值实验验证了其有效性。

Robust Conditional Conformal Prediction via Branched Normalizing Flow

Rui Xu et al.

cs.LG

本文研究了分布偏移下conformal prediction的条件覆盖鲁棒性问题，提出用Wasserstein距离来界定条件无效性，并设计了Branched Normalizing Flow (BNF)双分支架构，通过可逆变换对齐条件分数分布以改善条件覆盖性能。

Leveraging Data Symmetries to Select an Optimal Subset of Training Data under Label Noise

Kumar Shubham et al.

cs.LG cs.AI

本文研究了在标签噪声环境下，利用数据对称性（data symmetries）来提升cutstats方法选择最优训练子集的能力。作者证明了k-NN的准确性直接影响子集选择的效果，并指出在噪声环境中利用数据不变性可以显著提升k-NN在高维空间中的性能。

How Label Imbalance Shapes Geometry: A General Spectral Analysis of Multi-Label Neural Collapse

Xiaoxuan Ma et al.

cs.LG

本文通过提出一个spectral-control框架，分析了多标签分类中Neural Collapse在标签不平衡和相关性下的几何结构，证明了标签协方差谱$\kappa_m$控制终端阶段的稳定性。该工作扩展了Neural Collapse理论到更一般的多标签设置，但与我提供的关键词（如code, context, Muon, agent等）关联度较低。

RefusalGuard: Geometry-Preserving Fine-Tuning for Safety in LLMs

Sadia Asif, Mohammad Mohammadi Amiri

cs.LG cs.AI cs.CE cs.CL cs.CR

本文研究了微调过程中安全对齐退化的问题，发现标准微调会导致安全相关表示的结构性漂移，并提出了REFUSALGUARD框架，通过在隐藏表示空间中约束更新来保持安全相关结构的稳定性，从而在保持任务性能的同时恢复安全对齐。

Deep learning-based pavement performance modeling using multiple distress indicators and road work history

Lu Gao, Zhe Han, Yunshen Chen

cs.LG stat.AP

本文使用CNN和LSTM等深度神经网络，基于德克萨斯州18年的路面数据和21种柔性路面状况指标，对路面退化过程进行建模。实验表明CNN模型在预测路面状况值方面优于标准机器学习模型。

Pandora's Regret: A Proper Scoring Rule for Evaluating Sequential Search

Gerardo A. Flores et al.

cs.LG

本文研究了顺序搜索中的模型评估问题，提出了Pandora's Regret评分规则，该规则是成对可加且严格适当的，能惩罚排名反转的误校准。通过分析不同测试成本下的最优搜索期望成本，作者推导出该规则的闭式形式，并在MedMNIST数据集上验证了其优于标准评分规则。

PepSpecBench: A Unified Evaluation Benchmark for Peptide Tandem Mass Spectrometry Prediction

Zhiwen Yang et al.

cs.LG cs.AI

本文提出了PepSpecBench，一个用于肽段串联质谱预测的统一评估基准，通过标准化数据预处理、严格的数据分割策略和跨物种评估，揭示了现有模型在性能与鲁棒性上的局限性。

TRAP: Tail-aware Ranking Attack for World-Model Planning

Siyuan Duan, Ke Zhang, Xizhao Luo

cs.LG cs.AI

本文提出了一种针对world model（世界模型）的backdoor attack（后门攻击）框架TRAP，通过tail-aware ranking loss（尾部感知排序损失）和dual gating mechanisms（双门控机制）来操纵想象轨迹的排序，从而劫持规划过程。实验在DreamerV3和TD-MPC2上验证了该方法能导致持续的行为偏差和性能下降。

Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks

Zongqian Li et al.

cs.LG cs.CL

本文提出Flexi-LoRA，一种根据输入复杂度动态调整LoRA rank的微调框架，在问答、数学推理和语音任务上优于静态LoRA。该方法通过输入自适应的参数分配减少了冗余，但未涉及code、spectral、Muon或agent等关键词。

Multi-User Dueling Bandits: A Fair Approach using Nash Social Welfare

Maheed H. Ahmed, Mahsa Ghasemi

cs.LG

本文研究了多用户dueling bandits中的公平性问题，采用Nash Social Welfare目标来平衡不同用户的偏好，并提出了Fair-Explore-Then-Commit和Fair-$\epsilon$-Greedy算法，给出了与下界匹配的regret上界。

Retrieval with Multiple Query Vectors through Anomalous Pattern Detection

Allassan Tchangmena A Nken et al.

cs.LG

本文提出了一种基于异常模式检测的多查询向量检索方法，通过识别查询向量中突出的维度子集来检索数据库中的相关向量。实验表明，增加查询数量能提升检索性能，但该方法与关键词列表中的概念关联较弱。

MER-DG: Modality-Entropy Regularization for Multimodal Domain Generalization

Yavuz Yarici, Ghassan AlRegib

cs.LG cs.CV

本文针对多模态域泛化(MMDG)问题，提出了一种模态熵正则化方法MER-DG，通过最大化每个模态编码器特征分布的熵来防止融合过拟合(Fusion Overfitting)。该方法作为附加损失项集成到现有框架中，在EPIC-Kitchens和HAC基准上取得了约5%的平均性能提升。

Misclassification Rate and Privacy-Utility Trade-offs in Graph Convolutional Networks via Subsampling Stability

Yexin Zhang et al.

cs.LG

本文通过subsampling stability框架研究了图卷积网络中的差分隐私问题，推导了误分类率的上界并刻画了隐私-效用的权衡关系。该工作为理解GCN中subsampling stability提供了理论框架。

DBLP: Phase-Aware Bounded-Loss Transport for Burst-Resilient Distributed ML Training

Zechen Ma et al.

cs.LG cs.NI

本文提出了一种名为DBLP的传输协议，通过感知训练阶段动态调整梯度丢失容忍度，以缓解分布式机器学习训练中的微突发拥塞导致的尾部延迟问题。实验表明，该方法在保持测试精度的同时显著减少了端到端训练时间。

RamanBench: A Large-Scale Benchmark for Machine Learning on Raman Spectroscopy

Mario Koddenbrock et al.

cs.LG cs.AI

本文提出了RamanBench，一个用于拉曼光谱机器学习的大规模基准测试，整合了74个数据集并标准化评估协议。该基准测试发现现有方法（包括Tabular Foundation Model和时间序列模型）无法跨数据集泛化，揭示了该领域的一个基本差距。

How Can One Choose the Best CAM-Based Explainability Method for a CNN Model?

Daniel da Silva Costa, Pedro Nuno de Souza Moura, Adriana C. F. Alvim

cs.LG cs.CV

本文探讨了如何为CNN模型选择最佳的CAM-based可解释性方法，通过使用多种距离度量（如Manhattan和Correlation）比较saliency maps与人类标注的bounding box的相似性，并利用Rank-Biased Overlap (RBO)指标与人类偏好排名进行对比，发现LayerCAM、Score-CAM和IS-CAM等方法更符合人类感知。

Robust and Explainable Divide-and-Conquer Learning for Intrusion Detection

Yan Zhou et al.

cs.LG

本文提出了一种基于相关性的分治学习技术，将复杂的入侵检测问题分解为更小的子问题，使得简单的决策树模型也能在资源受限设备上高效运行，同时提升了模型的对抗鲁棒性和可解释性。

Towards Systematic Generalization for Power Grid Optimization Problems

Zeeshan Memon et al.

cs.LG

本文提出一个基于共享graph backbone的联合学习框架，用于同时建模AC Optimal Power Flow (ACOPF)和Security-Constrained Unit Commitment (SCUC)问题，通过task-specific decoders处理静态与时间决策，并采用physics-informed objectives进行训练。实验表明该方法在跨拓扑迁移和系统泛化上优于现有baseline，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Large margin classifier with graph-based adaptive regularization

Vítor M. Hanriot et al.

cs.LG stat.ML

本文提出了一种基于Gabriel graph的每类正则化超参数方法，用于二分类器。该方法通过灵活调整分类阈值来处理异常值和类别不平衡问题，并利用Friedman检验验证了其有效性。

TIJERE: A Novel Threat Intelligence Joint Extraction Model Based on Analyst Expert Knowledge

Inoussa Mouiche, Sherif Saad

cs.LG

本文提出了一种基于多序列标注表示（MSLR）的威胁情报联合实体与关系抽取框架TIJERE，利用领域专家知识和SecureBERT+模型提升特征区分度与分类精度，并在新构建的DNRTI-JE数据集上取得了SOTA性能。该工作主要面向网络安全领域，与关键词中的code, context, attention等概念关联较弱。

Bringing Order to Asynchronous SGD: Towards Optimality under Data-Dependent Delays with Momentum

Tehila Dahan et al.

cs.LG

本文提出了一种基于momentum的异步SGD框架，旨在保留延迟梯度信息的同时缓解梯度陈旧问题，并在凸和非凸光滑设定下首次建立了数据依赖延迟的最优收敛率。

NeuroViz: Real-time Interactive Visualization of Forward and Backward Passes in Neural Network Training

Reza Rawassizadeh, Tanvi Sharma

cs.LG

NeuroViz是一个用于全连接神经网络训练过程实时可视化的交互工具，支持用户配置网络架构并观察激活值、权重更新和损失变化。用户研究显示其可用性评分较高，但该方法在理论或算法层面缺乏开创性，与关键词列表中的概念关联较弱。

DR-SNE: Density-Regularized Stochastic Neighbor Embedding

Maksim Kazanskii

cs.LG

本文提出DR-SNE方法，通过将降维问题分解为条件结构对齐和相对密度结构对齐，并在SNE目标中引入基于归一化log-density估计的正则化项，以改善密度保持。实验表明该方法在保持邻域保真度的同时提升了密度敏感任务（如异常检测）的性能。

Weight Clipping for Robust Conformal Inference under Unbounded Covariate Shifts

James Wang, Surbhi Goel

cs.LG

本文提出CLISF方法用于加权conformal prediction中的密度比估计，通过权重裁剪控制方差，并证明该方法能保证有界期望欠覆盖，但方法本身并非开创性突破，且与关键词列表关联较弱。

GETA-3DGS: Automatic Joint Structured Pruning and Quantization for 3D Gaussian Splatting

Baobing Zhang, Wanxin Sui

cs.LG cs.AI cs.GR eess.IV

本文提出GETA-3DGS，一个用于3D Gaussian Splatting的自动联合结构化剪枝与量化框架。它通过构建量化感知依赖图(QADG)和渲染感知重要性评分，实现了对原始Gaussian primitives的端到端压缩，无需手动调参。该方法在多个数据集上实现了约5倍的存储缩减，且与现有熵编码方法互补。

Bridging the Gap Between Average and Discounted TD Learning

Haoxing Tian et al.

cs.LG

本文提出了一种用于平均奖励设置下策略评估的Temporal Difference (TD)学习算法，通过从两条Markovian轨迹中采样，解决了Bellman算子非压缩性带来的理论困难。该算法在收敛性分析上统一适用于线性函数逼近和表格设置，并将样本复杂度从四次方降低到二次方，与折扣设置下的效率相匹配。

Sharpness-Aware Pretraining Mitigates Catastrophic Forgetting

Ishaan Watts et al.

cs.LG cs.CL

本文研究了在pretraining阶段通过Sharpness-Aware Minimization (SAM)、大学习率和缩短学习率退火周期等方法偏向平坦极小值，以缓解后续post-training和量化过程中的灾难性遗忘。实验表明这些干预措施能显著提升下游性能并减少遗忘。

Geometric and Spectral Alignment for Deep Neural Network I

Ziran Liu et al.

cs.LG math.DG

本文通过将深度残差网络建模为近恒等Jacobian的乘积，证明了Frobenius归一化层因子的奇异谱的确定性商几何估计，并引入了归一化顶径向Cartan坐标和拟合幂律图。研究将谱控制分解为标量顶径向与全Cartan两部分，并给出了近似幂律和度量图版本，以及近恒等展开。该工作为深度网络的谱分析提供了几何框架，但与关键词中的code, context, spectral, Muon, pretrain, agent, attention等具体方向关联较弱。

Detecting Adversarial Data via Provable Adversarial Noise Amplification

Furkan Mumcu, Yasin Yilmaz

cs.LG cs.CR

本文研究了深度神经网络中对抗噪声的非均匀放大现象，并提出了一个形式化的对抗噪声放大定理，给出了保证该现象发生的充分条件。基于理论分析，作者设计了一种包含谱损失函数和特定架构的训练方法，并开发了一个轻量级的推理时检测机制来识别对抗样本。

Adversarial Update-Based Federated Unlearning for Poisoned Model Recovery

Wenwei Zhao et al.

cs.LG cs.CR

本文提出了一种名为FAUN的轻量级联邦学习框架，通过保留恶意客户端的更新并采用对抗优化来消除其影响，从而快速恢复被投毒攻击的全局模型。实验表明该方法在恢复效果上接近重新训练，但所需轮次更少。

Geometric and Spectral Alignment for Deep Neural Network II

Ziran Liu et al.

cs.LG math.DG

本文发展了残差Jacobian链的角向与静态通道分量理论，通过Cartan坐标刚性与拟合有效秩窗口，研究了主导奇异子空间在相邻层间的传输，并给出了全接口传输与截断传输之间的误差界。

Statistical Consistency and Generalization of Contrastive Representation Learning

Yuanfan Li et al.

cs.LG

本文为对比表示学习(CRL)建立了统一统计学习理论，证明了对比损失在排序任务中的统计一致性，并推导了随负样本数增加而改善的泛化界，解释了大规模负样本集的经验优势。

STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems

Akash Bonagiri et al.

cs.LG cs.AI

本文提出STABLEVAL，一种通过建模标注者混淆模式和项目潜在正确性来评估AI系统的框架，旨在解决多数投票在标注者分歧下的不稳定性问题。实验表明该方法比传统聚合方式更稳定。

Boundary Mass and the Soft-to-Hard Limit in Mixture-of-Experts

Reza Rastegar

cs.LG cs.AI math.PR

本文研究了softmax-routed mixture-of-experts模型中温度趋近于零时的奇异极限行为，通过coarea/tube估计证明了边界质量（routing ties附近概率）与slab宽度的线性关系，并给出了soft-to-hard风险界限和$\Gamma$-收敛性。该工作主要关注MoE回归的几何分析，与关键词中的code、context、spectral等概念关联较弱。

LUMINA: A Grid Foundation Model for Benchmarking AC Optimal Power Flow Surrogate Learning

Hongwei Jin et al.

cs.LG

LUMINA-Bench是一个用于AC Optimal Power Flow (ACOPF) 代理学习（surrogate learning）的基准测试套件，评估了不同架构和训练目标在单拓扑与多拓扑设置下的预测精度与物理约束违反情况。该工作主要关注电力系统领域的基准构建，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

On the Optimal Sample Complexity of Offline Multi-Armed Bandits with KL Regularization

Kaixuan Ji et al.

cs.LG cs.AI math.ST stat.ML

本文研究了离线多臂赌博机（Multi-Armed Bandits）在KL正则化下的样本复杂度，给出了KL-PCB算法的上界与匹配的下界，从而对该问题提供了近乎完整的刻画。

Personalized Federated Learning for Gradient Alignment

Dongwon Kim, Gyuejeong Lee

cs.LG

本文提出pFLAlign，一种用于个性化联邦学习的梯度对齐框架，通过调整局部梯度方向和重对齐全局模型来保持客户端特定信息。实验表明该方法提升了个性化性能和训练稳定性。

Projection-Free Transformers via Gaussian Kernel Attention

Debarshi Kundu et al.

cs.LG

本文提出Gaussian Kernel Attention (GKA)，用Gaussian RBF kernel直接计算token间的相似度，替代了标准Transformer中$Q$、$K$、$V$的learned linear projections，每个head仅学习一个带宽参数$\sigma_h$。该方法可视为token上的normalized kernel regression，在语言建模中通过masking和renormalization实现causal masking，但实验显示其性能在给定计算量下仍弱于标准attention。

Combining Trained Models in Reinforcement Learning

Ujjwal Patil, Javad Ghofrani

cs.LG cs.AI cs.NE

本文通过PRISMA系统综述方法，对深度强化学习中预训练知识重用（如迁移、蒸馏、集成方法）的实证研究进行了梳理，发现正结果集中在源-目标任务结构相似或包含显式门控/对齐机制的设置中，但计算匹配的比较很少，削弱了效率提升的结论。

Experience Constrained Hierarchical Federated Reinforcement Learning for Large-scale UAV Teams in Hazardous Environments

Qinwei Huang et al.

cs.LG

本文提出了一种面向危险环境下大规模无人机集群的经验约束分层联邦强化学习框架(EC-HFRL)，指出在经验生成受限时，增加学习者参与度并不必然提升学习性能，性能主要受经验重用策略和梯度转换经验主导性的影响。

Manifold-Aligned Guided Integrated Gradients for Reliable Feature Attribution

Soyeon Kim et al.

cs.LG cs.AI cs.CV

本文提出Manifold-Aligned Guided Integrated Gradients (MA-GIG)方法，通过在预训练variational autoencoder的latent space中构建attribution path，以降低off-manifold噪声对特征归因的影响。该方法改进了Guided Integrated Gradients在input-space guidance上的局限性。

Manifold-Constrained Adversarial Training for Long-Tailed Robustness via Geometric Alignment

Guanmeng Xian, Ning Yang, Philip S. Yu

cs.LG

本文提出了一种名为Manifold-Constrained Adversarial Training (MCAT)的框架，通过在特征空间中对偏离类条件流形的对抗样本施加惩罚，并利用ETF启发的正则化促进类别间的几何分离，以提升长尾分布下的对抗鲁棒性。实验表明该方法在标准长尾基准上取得了整体、平衡和尾部类别的鲁棒性提升。

KANs need curvature: penalties for compositional smoothness

James Bagrow

cs.LG physics.data-an stat.ML

本文针对Kolmogorov-Arnold networks (KANs)中激活函数出现的高曲率振荡问题，提出了一种与基函数无关的曲率惩罚项，并证明了惩罚后的模型能在保持精度的同时获得更平滑的激活函数。

DurableUn: Quantization-Induced Recovery Attacks in Machine Unlearning

Abdullah Ahmad Khan, Ferdous Sohel

cs.LG

本文研究了机器学习遗忘（Machine Unlearning）在低比特量化（INT4）下的鲁棒性问题，发现INT4量化会系统性恢复已遗忘内容，并提出DURABLEUN-SAF方法以缓解该问题。该工作主要关注量化恢复攻击，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Demographic-Aware Transfer Learning for Sleep Stage Classification in Clinical Polysomnography

S M Asif Hossain, Shruti Kshirsagar

cs.LG

本文提出了一种基于人口统计学分层和迁移学习的睡眠阶段分类方法，通过在全人群上预训练卷积循环模型，然后针对性别、年龄和OSA严重程度等子组进行微调。实验表明，大多数微调模型优于基线，但该方法主要关注应用层面的性能提升，与关键词中的理论或方法创新关联较弱。

Break the Block: Dynamic-size Reasoning Blocks for Diffusion Large Language Models via Monotonic Entropy Descent with Reinforcement Learning

Yan Jiang, Ruihong Qiu, Zi Huang

cs.LG

本文针对扩散大语言模型(dLLM)中固定大小推理块的问题，提出了一种基于单调熵下降和强化学习的后训练框架b1，用于学习动态大小的推理块以增强推理连贯性。实验表明该方法在多个推理基准上优于固定块基线。

HELIX: Hybrid Encoding with Learnable Identity and Cross-dimensional Synthesis for Time Series Imputation

Fengming Zhang et al.

cs.LG cs.AI

本文提出HELIX方法，通过为每个特征分配可学习的特征身份（learnable feature identity）来改进时间序列插补，并利用混合时间-特征注意力机制学习任意特征依赖关系。该方法在多个数据集上取得了优于16个基线的性能，但其核心贡献更偏向应用层面的工程创新，与关键词列表中的概念关联较弱。

Variational Matrix-Learning Fourier Networks for Parametric Multiphysics Surrogates

Xinyu Li, Jianhua Zhang, Liang Chen

cs.LG math.NA

本文提出了一种变分矩阵学习傅里叶网络(VMLFN)，用于参数化多物理场代理建模。该方法通过将控制PDE转化为变分弱形式并求解线性矩阵问题来训练网络，避免了高阶自动微分和惩罚系数调优，并在热传导、固体力学和Helmholtz波传播问题上验证了其准确性和加速效果。

Graph Federated Unlearning for Privacy Preservation

Ruotong Ma et al.

cs.LG

本文探讨了图联邦学习(GFL)中的用户退出隐私泄露问题，提出了一种结合机器遗忘(MU)的方法，通过确保遗忘更新与学习其他数据的梯度正交来最小化性能影响，并引入虚拟客户端来保护图拓扑和全局嵌入。实验在用户退出场景下验证了该方法在隐私保护上的有效性。

A Meta Reinforcement Learning Approach to Goals-Based Wealth Management

Sanjiv R. Das et al.

cs.LG

本文提出了一种基于meta reinforcement learning (MetaRL)的方法，用于解决goals-based wealth management (GBWM)问题。该方法通过预训练在大量投资问题上，实现了对新问题的快速近最优策略生成，避免了传统Dynamic Programming的逐问题优化。

Differentiable Kernel Ridge Regression for Deep Learning Pipelines

Jean-Marc Mercier, Gabriele Santin

cs.LG

本文提出了一种可微分的稀疏核方法（Sparse Kernels, SKs），作为深度学习中标准全连接层的替代组件。该方法将Kernel Ridge Regression (KRR) 的求解延迟到推理阶段，并通过求解局部小系统实现高效计算，同时保持了端到端的可训练性。

A Near-optimal SQ Lower Bound for Smoothed Agnostic Learning of Boolean Halfspaces

Tim Sinen

cs.LG

本文研究了在均匀分布下布尔半空间（Boolean halfspaces）的平滑不可知学习（smoothed agnostic learning）的复杂度，证明了$L^1$多项式回归的复杂度上界，并给出了一个近乎匹配的Statistical Query复杂度下界。该工作与连续高斯分布下的结果互补，但未直接涉及关键词中的核心概念。

ZNO: Stable Rational Neural Operators in the Z-Domain for Discrete-Time Dynamic

Xianli Zhu, Jia Yin

cs.LG math.NA

本文提出Z-Domain Neural Operator (ZNO)，一种在$z$域参数化的因果neural operator，其层为稳定的低秩MIMO rational filter。ZNO通过单位圆极点约束保证稳定性，适用于离散时间系统辨识问题，在近单位圆和长记忆动态场景下表现优异。

Predicting Post Virality with Temporal Cross-Attention over Trend Signals

Sarvagya Somvanshi et al.

cs.LG cs.SI

本文提出ViralityNET模型，通过融合Reddit帖子文本特征与Wikipedia页面浏览量的时间序列信号，使用cross-attention机制预测帖子是否达到病毒式传播阈值。实验表明引入外部注意力信号比纯文本基线有微小提升，但方法本身缺乏开创性且与关键词关联较弱。

Binary Rewards and Reinforcement Learning: Fundamental Challenges

Marc Dymetman

cs.LG

本文研究了使用二元奖励进行强化学习（RLVR）时导致模型多样性崩溃的机制，指出二元奖励使得策略梯度方法的最优分布集合退化，而KL控制通过选择过滤模型$p_*$来消除这种退化，但在模型误设下，降低超参数$\beta$会导致优化器集中于少数有效输出而非$p_*$。

Statistically-Lossless Quantization of Large Language Models

Michael Helcig, Eldar Kurtic, Dan Alistarh

cs.LG

本文提出了统计无损量化（statistically-lossless quantization）的概念，通过任务无损和分布无损两种严格定义来量化LLM的压缩保真度，并证明了对称量化会放大噪声方差。该方法在低于4 bits/parameter时实现任务无损，在5-6 bits/parameter时实现分布无损，并带来1.7-3.6倍的推理加速。

Closed-Loop CO2 Storage Control With History-Based Reinforcement Learning and Latent Model-Based Adaptation

Sofianos Panagiotis Fotias, Vassilis Gaganis

cs.LG

本文研究了地质CO2封存的闭环管理控制问题，将CO2注入和盐水生产控制建模为部分可观测的序贯决策问题，并采用深度reinforcement learning方法进行求解。文章比较了多种无模型策略，并评估了基于latent model的适应管道，结果表明基于历史条件的策略在仅使用可部署的井级信息时能接近特权状态性能。

Inducing Permutation Invariant Priors in Bayesian Optimization for Carbon Capture and Storage Applications

Sofianos Panagiotis Fotias, Vassilis Gaganis

cs.LG

本文针对碳捕获与封存（CCS）中井位优化问题，提出了一种用于Bayesian Optimization的置换不变Gaussian Process核（GP-Perm），通过比较集合的经验表示之间的稳定散度来编码置换不变性，并考虑了基于Deep Sets架构的Deep Kernel Learning模型（DKL-DS）作为学习型不变基线。该方法在合成基准和真实CCS案例中进行了评估，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Generalized Distributional Alignment Games for Unbiased Answer-Level Fine-Tuning

Mehryar Mohri, Jon Schneider, Yutao Zhong

cs.LG stat.ML

本文针对Answer-Level Fine-Tuning中的Distributional Alignment Game框架，系统解决了由Jensen不等式引起的结构估计偏差问题。作者通过推广到任意Bregman divergence并利用U-statistics构造无偏估计，以及为KL divergence推导出最优多项式估计器，提出了Variance-Optimal Augmented Polynomial Optimization Program (AQP) Estimator，实现了更高效稳定的训练。

Reference-Sampled Boltzmann Projection for KL-Regularized RLVR: Target-Matched Weighted SFT, Finite One-Shot Gaps, and Policy Mirror Descent

Yao Shu et al.

cs.LG cs.AI

本文研究了KL正则化RLVR中的参考采样Boltzmann投影，提出了BOLT方法，通过参考采样加权SFT匹配目标策略，并分析了有限单步差距与策略镜像下降的关系。实验在Qwen上验证了权重匹配与采样效率，但方法本身与关键词中的code、context、spectral、Muon、pretrain、agent、attention均无直接关联。

Efficient Preference Poisoning Attack on Offline RLHF

Chenye Yang, Weiyu Xu, Lifeng Lai

cs.LG cs.AI stat.ML

本文研究了离线RLHF中的偏好投毒攻击，通过将标签翻转问题转化为二进制稀疏近似问题，提出了BAL-A和BMP-A两种攻击方法，并在合成数据和真实数据集上验证了有效性。

Pretraining on Sleep Data Improves non-Sleep Biosignal Tasks

William Lehn-Schiøler et al.

cs.LG cs.AI

本文研究了在睡眠数据上预训练的foundation model能否迁移到非睡眠的EEG和ECG任务上。通过多模态对比预训练，该方法在多个下游任务上相比从头训练有所提升，但方法本身并非开创性，且与关键词关联较弱。

A Novel Preprocessing-Driven Approach to Remaining Useful Life (RUL) Prediction Using Temporal Convolutional Networks (TCN)

Florent Imbert, Tosin Adewumi, Hui Han

cs.LG cs.AI

本文提出了一种基于数据预处理的航空发动机剩余寿命预测方法，使用Temporal Convolutional Networks (TCN) 在NASA C-MAPSS数据集上取得了优于多种神经网络的预测精度，强调了预处理对模型性能的关键影响。

MPCS: Neuroplastic Continual Learning via Multi-Component Plasticity and Topology-Aware EWC

Joern Hentsch

cs.LG cs.NE

本文提出了MPCS，一个集成了多种神经可塑性机制的持续学习架构，并在MEP-BENCH基准上进行了评估。研究发现Fourier编码是关键组件，而全局EWC会降低性能，通过Pareto分析得到了更高效的MPCS_EFFICIENT版本。

Evaluating Tabular Representation Learning for Network Intrusion Detection

Muhammad Usman Butt, Andreas Hotho, Daniel Schlör

cs.LG cs.CR

本文系统评估了多种tabular representation learning方法在NetFlow数据上的网络入侵检测性能，发现不同方法在不同数据集上表现各异，且监督方法普遍优于无监督异常检测方法。

Physics-Informed Neural Learning for State Reconstruction and Parameter Identification in Coupled Greenhouse Climate Dynamics

Sani Biswas, Khursheed J. Ansari, Md. Nasim Akhtar

cs.LG

本文提出了一种耦合的Physics-Informed Neural Networks (PINNs)方法，用于温室环境中室内温度和湿度的状态重建以及关键模型参数的识别。该方法将降阶物理模型融入学习过程，在稀疏和含噪观测下实现了比纯数据驱动基线更准确的重建，尤其在湿度通道上表现突出。

Recurrent Deep Reinforcement Learning for Chemotherapy Control under Partial Observability

Firas Mohamed Elamine Kiram et al.

cs.LG cs.AI

本文提出了一种基于recurrent TD3和LSTM的化疗剂量优化方法，在部分可观测条件下通过记忆增强策略提升肿瘤抑制效果。实验表明，该方法在隐藏状态不确定时比前馈网络更稳定，但未涉及code、spectral或Muon等关键词。

Gradient Boosted Risk Scores

Costa Georgantas, Jonas Richiardi

cs.LG

本文提出了一种基于gradient boosting的risk score构建方法，能够建模非线性效应，并在12个tabular数据集上展示了其预测性能与更紧凑的score结构。该方法在分类任务中平均比AutoScore少60%的规则，在时间事件任务中少16%的规则。

HARMES: A Multi-Modal Dataset for Wearable Human Activity Recognition with Motion, Environmental Sensing and Sound

Robin Burchard et al.

cs.LG

本文介绍了HARMES，一个多模态可穿戴数据集，结合了手腕上的IMU运动传感、环境传感器和音频，用于日常活动识别。该数据集比以往最大的同类数据集大近六倍，并通过消融实验证明了不同模态对识别模糊活动的互补价值。

Isotropic Fourier Neural Operators

Michael F. Staddon

cs.LG

本文提出了一种各向同性Fourier Neural Operator (IFNO)，通过修改Fourier层中的线性变换以尊重空间对称性，从而在保持模型性能的同时大幅减少参数数量。该方法主要针对各向同性物理系统，在2D和3D场景下分别将参数数量减少了最多16倍和96倍。

Gradient-Discrepancy Acquisition for Pool-Based Active Learning

Mohamadsadegh Khosravani, Sandra Zilles

cs.LG

本文提出了一种基于梯度差异的主动学习获取准则，该准则源自一个泛化界，可用于替代不确定性采样中的不确定性度量或结合到基于多样性的方法中。实验验证了该准则的有效性，但方法本身并非开创性突破，且与关键词列表关联较弱。

Selective Prediction from Agreement: A Lipschitz-Consistent Version Space Approach

Mohamadsadegh Khosravani

cs.LG

本文研究了固定池（transductive）设置下的选择性分类问题，通过Lipschitz margin约束在embedding space中定义了一致性版本空间（version space），并基于所有一致分类头的强制同意来决定是否预测。文章还提出了一个单调子模几何代理用于预算查询，并证明了贪心算法的近似保证。

Gradient-Gated DPO: Stabilizing Preference Optimization in Language Models

Inoussa Mouiche

cs.LG

本文提出Gradient-Gated Preference Optimization (Gate-DPO)方法，通过根据模型概率几何调制被拒绝响应的梯度来稳定语言模型偏好优化中的训练过程，解决了DPO中的概率坍缩问题。该方法不修改底层偏好目标，可与其他方法互补，并在多个架构和数据集上验证了效果。

CNNs for Vis-NIR Chemometrics: From Contradiction to Conditional Design

Dário Passos

cs.LG physics.optics

本文指出Vis-NIR化学计量学中CNN设计的矛盾源于未控制的调节变量，如有效感受野与光谱结构宽度不匹配，并提出一个条件设计框架，将架构选择与光谱物理、数据集场景和部署场景联系起来。

CARD: Coarse-to-fine Autoregressive Modeling with Radix-based Decomposition for Transferable Free Energy Estimation

Ziyang Yu et al.

cs.LG

本文提出CARD框架，通过radix-based decomposition将3D坐标转换为混合离散-连续序列，实现coarse-to-fine自回归建模，用于自由能估计。该方法在未见系统上匹配经典计算精度，并实现约40倍加速。

Spectral Model eXplainer: a chemically-grounded explainability framework for spectral-based machine learning models

Jose Vinicius Ribeiro et al.

cs.LG physics.app-ph

本文提出了Spectral Model eXplainer (SMX)，一个基于化学光谱区域的后验全局可解释性框架，用于解释基于光谱的机器学习模型。SMX通过PCA总结光谱区域、定义基于分位数的逻辑谓词，并利用扰动和局部可达中心性来评估谓词重要性，最终通过阈值光谱重建实现与原始光谱的直观对比。

MSMixer: Learned Multi-Scale Temporal Mixing with Complementary Linear Shortcut for Long-Term Time Series Forecasting

Ahmed Cherif

cs.LG

MSMixer提出了一种多尺度MLP架构用于长期时间序列预测，通过三个并行分支（下采样因子1x, 4x, 16x）和可学习的softmax门控机制来捕捉不同时间尺度的模式。该模型在轻量级模型中取得了较低的MSE，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Federated Reinforcement Learning for Efficient Mobile Crowdsensing under Incomplete Information

Sumedh J. Dongare et al.

cs.LG cs.NI

本文提出了一种名为FDRL-PPO的完全去中心化联邦深度强化学习算法，用于解决移动群智感知中移动单元在不完全信息下的任务参与策略优化问题。该方法通过联邦学习使移动单元在不共享原始数据的情况下协作改进模型，并在合成和真实数据集上验证了其在任务完成率、公平性和能耗等方面的优越性。

Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs

Xin Zhang et al.

cs.LG

本文发现多模态大语言模型中的连续latent space推理存在“Silenced Visual Latents”现象，即视觉latent的语义贡献被自回归目标抑制。为此，作者提出在推理阶段通过query-guided对比对齐和confidence-progression奖励来优化latent推理，无需更新模型参数即可释放其推理能力。

Bolek: A Multimodal Language Model for Molecular Reasoning

Frederic Grabowski et al.

cs.LG cs.AI q-bio.BM

本文提出了一个名为Bolek的多模态语言模型，通过将Morgan fingerprint嵌入注入到指令微调的文本解码器中，使模型能够基于分子结构进行自然语言推理。实验表明，Bolek在多个分子属性预测任务上优于基线模型，但其方法主要聚焦于分子推理的特定应用，与关键词列表中的概念关联较弱。

A decoupled diffusion planner that adapts to changing cost limits by using cost-conditioned generation for safety and reward gradients for performance

Rufeng Chen et al.

cs.LG cs.AI

本文提出了一种名为Safe Decoupled Guidance Diffusion (SDGD)的离线安全强化学习方法，通过将成本限制条件引入classifier-free guidance来生成满足安全约束的轨迹，并利用reward-gradient guidance优化性能。为解决reward guidance可能增加累积成本的问题，作者引入了Feasible Trajectory Relabeling (FTR)来重塑奖励目标，并在DSRL基准上验证了该方法在安全合规性和奖励获取方面的优势。

A Closed-Form Persistence-Landmark Pipeline for Certified Point-Cloud and Graph Classification

Sushovan Majhi et al.

cs.LG math.AT

本文提出PLACE，一种用于点云和图分类的闭式pipeline，通过persistent-homology signatures进行分类。该方法从训练标签中导出margin-based excess-risk rate、闭式descriptor选择规则和per-prediction certificate，无需学习权重或校准，并在多个基准上展示了竞争力。

Trust, but Verify: Peeling Low-Bit Transformer Networks for Training Monitoring

Arian Eamaz, Farhang Yeganegi, Mojtaba Soltanalian

cs.LG

本文提出了一种用于监控transformer网络训练动态的逐层剥离框架，通过构建轻量级参考解来诊断欠优化层。实验表明该方法在二值化和量化设置下仍能有效识别训练损失无法反映的优化问题。

Enhancing RL Generalizability in Robotics through SHAP Analysis of Algorithms and Hyperparameters

Lingxiao Kong et al.

cs.LG cs.AI cs.RO

本文提出一个基于SHAP的可解释框架，用于量化Reinforcement Learning中算法和超参数配置对泛化性能的影响，并通过SHAP引导的配置选择来提升泛化能力。实验在机器人环境中验证了不同配置的影响模式，但方法本身并非开创性，且与关键词关联较弱。

Unsupervised Machine Learning for Detecting Structural Anomalies in European Regional Statistics

Bogdan Oancea

cs.LG

本文使用无监督机器学习方法（包括Isolation Forest、Local Outlier Factor等）检测欧洲NUTS2区域统计中的结构性异常，发现了一些社会经济特征显著偏离欧盟整体模式的区域。该方法为区域统计数据的验证提供了可扩展的工具，但并未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

SpecKV: Adaptive Speculative Decoding with Compression-Aware Gamma Selection

Shikhar Shukla

cs.LG cs.AI cs.CL cs.DC eess.SY

本文提出SpecKV，一种轻量级自适应控制器，通过从draft model中提取的信号（如熵和置信度）动态选择speculative decoding中的推测长度$\gamma$，以替代固定$\gamma$的常见做法。实验表明该方法在不同压缩级别下均能提升推理效率，但方法本身属于工程优化，缺乏理论或方法上的开创性。

cs.AI

Position: Safety and Fairness in Agentic AI Depend on Interaction Topology, Not on Model Scale or Alignment ⭐ 精选

Tanav Singh Bajaj et al.

cs.AI

本文提出在agentic AI中，安全性由interaction topology（交互拓扑）决定，而非模型规模或alignment。作者通过实验揭示了三种由拓扑驱动的病理现象：ordering instability（排序不稳定性）、information cascades（信息级联）和functional collapse（功能坍缩），并指出这些failure modes在模型中心化的评估和alignment过程中不可见。该工作为agentic AI的安全评估提供了新的视角，强调应将交互拓扑作为安全评估和监管的主要目标。

Agentic AI Systems Should Be Designed as Marginal Token Allocators ⭐ 精选

Siqi Zhu

cs.AI cs.CY

本文提出将agentic AI系统设计为“边际token分配者”（marginal token allocators），而非按单位定价的文本生成器。作者通过一个编码agent修复测试失败的请求，展示了路由、agent决策、服务栈和训练管线四个经济层都在求解相同的边际条件：边际收益等于边际成本加延迟成本加风险成本。该框架解释了局部最小化token会导致全局分配不当的失败模式（如过度路由、过度委托、验证不足、服务拥塞等），并为token感知评估、自主定价、拥塞定价服务和风险调整的RL预算提供了具体的研究议程。

Lifting Traces to Logic: Programmatic Skill Induction with Neuro-Symbolic Learning for Long-Horizon Agentic Tasks ⭐ 精选

Jie-Jing Shao et al.

cs.AI

本文提出Neuro-Symbolic Skill Induction (NSI)框架，通过将agent的交互轨迹提升为具有显式控制流和动态变量绑定的逻辑程序，解决了长程任务中纯提示推理的局限性。该方法结合神经符号学习，使agent能从少量示例中归纳出条件化技能，并在动态环境中灵活适应未见目标。实验表明NSI在多个agentic任务上优于现有基线，为agent自我进化为逻辑技能架构师提供了新范式。该工作与关键词"agent"高度契合，且方法具有开创性。

SciResearcher: Scaling Deep Research Agents for Frontier Scientific Reasoning ⭐ 精选

Tianshi Zheng et al.

cs.AI cs.CL

SciResearcher提出了一种面向前沿科学推理的全自动agentic框架，通过合成基于学术证据的多样化概念与计算任务，并利用agentic reinforcement learning训练出SciResearcher-8B模型。该模型在HLE-Bio/Chem-Gold基准上达到19.46%的准确率，超越同参数量级及部分更大规模的proprietary agents，并在SuperGPQA-Hard-Biology和TRQA-Literature上取得13-15%的绝对提升。这项工作为agent在稀疏异构学术资源中实现tool-integrated reasoning与long-horizon capabilities提供了可扩展的数据构建范式，与关键词“agent”高度契合。

CP-SynC: Multi-Agent Zero-Shot Constraint Modeling in MiniZinc with Synthesized Checkers ⭐ 精选

Yuliang Song, Eldan Cohen

cs.AI cs.CL

CP-SynC提出了一种多agent工作流，用于在MiniZinc中零样本地建模约束规划问题。该方法通过协调建模agent生成并优化候选模型，同时利用验证agent合成语义检查器（semantic checker）来检测语义错误，并通过并行探索多个建模轨迹与多agent证据聚合来选择最终模型。实验表明，该方法在100个CP问题的基准上显著优于现有基线，为自然语言到约束模型的自动化翻译提供了有效方案，与关键词“agent”高度契合。

Intervention Complexity as a Canonical Reward and a Measure of Intelligence ⭐ 精选

Brendan McCane

cs.AI

本文提出了一种名为intervention complexity的通用reward函数，它基于环境本身和资源约束（如程序长度或执行时间）自动生成，无需外部规范输入，从而完善了Legg-Hutter通用智能度量框架。该度量满足五个自然性质（环境派生性、普适性、最小性、敏感性和成就偏好），并由此定义了一个二维智能表征：agent competence（agent相对于oracle最优的性能）和learning efficiency（性能随经验提升的速度）。一个关键的分离定理表明，action-count IC可在多项式时间内计算，而program-length IC在没有oracle访问时不可计算，两者之间的差距精确量化了学习的信息论内容。该工作为pretrain通用agent和讨论superintelligence提供了理论基础，且其核心概念与关键词中的agent和pretrain高度契合。

EngiAgent: Fully Connected Coordination of LLM Agents for Solving Open-ended Engineering Problems with Feasible Solutions ⭐ 精选

Xiyuan Zhou et al.

cs.AI

EngiAgent提出了一种基于fully connected coordinator的多agent系统，用于解决开放式的工程问题。该方法通过专门化的agent（如problem analysis, modeling, verification, solving, solution evaluation）模拟专家工作流，并利用fully connected coordinator实现灵活的反馈路由，克服了传统pipeline-based reflection方法在确保feasibility方面的局限性。实验表明，该方法在多个工程领域显著提升了解决方案的feasibility，为agent在工程问题求解中的应用提供了新范式。

HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness ⭐ 精选

Jianing Wang et al.

cs.AI

本文提出HeavySkill，将“深度思考”视为一种内化于模型参数中的“内在技能”，而非仅依赖外部编排框架。该方法采用“并行推理后总结”的两阶段pipeline，作为agentic harness的最小执行单元。实验表明，该内在技能一致优于传统的Best-of-N策略，且更强的LLM可接近Pass@N性能。关键贡献在于，通过强化学习可进一步扩展深度思考的深度与宽度，为LLM内化复杂推理能力提供了不依赖脆弱编排层的自进化路径，与关键词“agent”和“attention”高度契合。

GRAIL: A Deep-Granularity Hybrid Resonance Framework for Real-Time Agent Discovery via SLM-Enhanced Indexing ⭐ 精选

Jinliang Xu

cs.AI cs.CL cs.IR

本文提出GRAIL框架，通过引入SLM-Enhanced Prediction（用微调的小语言模型替代大语言模型进行毫秒级能力标签预测）、Pseudo-Document Expansion（用合成查询增强智能体描述的语义密度）和MaxSim Resonance（在用户查询与智能体使用示例间计算最大相似度以缓解语义稀释）三项创新，在AgentTaxo-9K数据集上实现了低于400毫秒的发现延迟，同时显著优于传统向量检索的Recall@10。该工作为大规模多智能体协作中的实时智能体发现提供了工业级解决方案，与关键词"agent"高度契合。

ORPilot: A Production-Oriented Agentic LLM-for-OR Tool for Optimization Modeling ⭐ 精选

Guangrui Xie

cs.AI

ORPilot是一个面向生产环境的开源agentic AI系统，用于将实际业务问题转化为可直接求解的optimization模型。该系统创新性地引入了四个组件：对话式interview agent用于获取完整问题规格、独立于prompt的数据收集agent、连接原始表格数据与模型参数的computation agent，以及一个solver-agnostic的Intermediate Representation (IR)实现向Gurobi、CPLEX等求解器的确定性重编译。与现有学术工具不同，ORPilot专门处理模糊描述、大规模原始运营数据等生产条件，并在IndustryOR基准测试中超越了现有最优工具。该工作与关键词"agent"高度契合，代表了LLM-for-OR工具从教科书案例向实际业务问题的重要转变。

Compress Then Adapt? No, Do It Together via Task-aware Union of Subspaces ⭐ 精选

Jingze Ge et al.

cs.AI

本文提出JACTUS框架，统一了预训练模型的低秩压缩与参数高效微调。通过从校准集估计输入和预激活梯度协方差，构建其与预训练权重子空间的正交并集，并在该并集内进行投影低秩近似，JACTUS将压缩保留的方向与下游任务所需的方向耦合，从而避免了先压缩后微调策略中压缩子空间与任务目标的对齐偏差。该方法在视觉和语言任务上均超越了保留全部参数的强基线（如DoRA），实现了高效且鲁棒的模型部署。

The Topology of Multimodal Fusion: Why Current Architectures Fail at Creative Cognition

Xiujiang Tan

cs.AI cs.LG

本文从拓扑学角度分析了当前多模态AI架构（如CLIP、GPT-4V）的局限性，指出其共享的“模态可分性”几何先验（称为contact topology）限制了创造性认知。文章通过哲学、认知科学和数学三个支柱进行论证，并提出了基于Neural ODEs和拓扑正则化的UOO实现方案，以及ANALOGY-MM和META-TOP基准测试。

2026 Roadmap on Artificial Intelligence and Machine Learning for Smart Manufacturing

Jay Lee et al.

cs.AI cs.LG

本文是一篇关于AI和ML在智能制造中应用的综合性路线图，概述了工业大数据分析、数字孪生、自主系统等关键领域的基础、应用和新兴方向，并指出了当前面临的挑战与未来机遇。

AI Agents for Sustainable SMEs: A Green ESG Assessment Framework

Viet Trinh et al.

cs.AI econ.GN

本文提出了一种基于AI的框架，用于评估欧洲中小企业的ESG表现，利用n8n自动化平台和LLM实现自动化分类与建议生成。该方法与人工评估结果高度一致，但主要聚焦于应用层面，缺乏数学理论上的开创性。

Understanding Emergent Misalignment via Feature Superposition Geometry

Gouki Minegishi et al.

cs.AI cs.LG

本文通过特征叠加几何（feature superposition geometry）解释了LLM中涌现失调（emergent misalignment）的机制，指出微调会无意中强化与目标特征相似的邻近有害特征，并利用sparse autoencoders验证了这一几何距离关系。

ClinicBot: A Guideline-Grounded Clinical Chatbot with Prioritized Evidence RAG and Verifiable Citations

Navapat Nananukul, Mayank Kejriwal

cs.AI cs.MA

本文提出了一个基于检索增强生成（RAG）的临床对话系统ClinicBot，通过结构化提取临床指南和分层证据排序来生成可验证的医疗回答，但方法在理论创新性上较为常规。

Accelerating battery research with an AI interface between FINALES and Kadi4Mat

Giovanna Tosato et al.

cs.AI cond-mat.mtrl-sci cs.LG

本文提出了一种结合FINALES和Kadi4Mat的AI接口框架，用于优化钠离子电池的formation protocols，通过multi-objective batched Bayesian optimization在formation time和EOL performance之间寻找Pareto front。该工作主要贡献在于实现了两个研究生态系统间的互操作性，并展示了数据驱动优化在电池研究中的应用。

Effect-Transparent Governance for AI Workflow Architectures: Semantic Preservation, Expressive Minimality, and Decidability Boundaries

Alan L. McCann

cs.AI cs.LO cs.PL

本文使用Rocq形式化验证了AI工作流架构中的effect-level governance（效应级治理）机制，证明治理算子G可以在不降低内部计算表达能力的前提下施加于所有effectful指令。研究建立了七个性质，包括治理下的Turing完备性、可判定性边界以及语义透明性，表明治理与计算表达力是正交的维度。

Algebraic Semantics of Governed Execution: Monoidal Categories, Effect Algebras, and Coterminous Boundaries

Alan L. McCann

cs.AI cs.LO cs.PL

本文提出了一种基于代数语义的受控执行框架，通过GovernanceAlgebra公理和对称monoidal category构建了程序治理的形式化模型，并在Rocq中进行了机械化验证。该工作主要关注程序执行的治理与表达能力之间的边界，与关键词中的code、context、agent等概念关联较弱。

A Knowledge-Driven LLM-Based Decision-Support System for Explainable Defect Analysis and Mitigation Guidance in Laser Powder Bed Fusion

Basit Mahmud Shahriar, Md Habibor Rahman

cs.AI

本文提出了一种基于知识驱动的大语言模型决策支持系统，用于激光粉末床熔融工艺中的可解释缺陷分析与缓解指导。该系统集成了结构化缺陷知识库与LLM推理，支持模糊自然语言查询和基于基础模型的多模态图像评估，在文献数据集上实现了0.808的宏平均F1分数。

Virtual Speech Therapist: A Clinician-in-the-Loop AI Speech Therapy Agent for Personalized and Supervised Therapy

Shakeel Sheikh et al.

cs.AI cs.CL cs.SD eess.AS

本文提出了Virtual Speech Therapist (VST)，一个基于agent的AI平台，用于口吃评估和个性化治疗计划生成。该系统集成了深度学习分类与多agent LLM推理，并通过临床医生在环的范式确保治疗计划的安全性和专业性。

Towards Multi-Agent Autonomous Reasoning in Hydrodynamics

Jinpai Zhao et al.

cs.AI physics.ao-ph

本文提出了一种用于流体动力学领域的多智能体系统(MAS)原型，通过Layer Execution Graph (LEG)协调专用agent，以缓解单智能体系统(SAS)中上下文饱和导致的可靠性下降问题。该系统在37个查询上实现了93.6%的事实精度和100%的通过率，验证了图结构多智能体编排的有效性。

New Bounds for Zarankiewicz Numbers via Reinforced LLM Evolutionary Search

Jay Bhan et al.

cs.AI math.CO

本文使用基于Large Language Models (LLMs)的进化算法OpenEvolve，首次确定了三个Zarankiewicz数$\textbf{Z}(11, 21, 3, 3)=116$等的精确值，并为更多此类数建立了新的下界。该方法通过优化特定奖励信号来迭代改进数学构造的生成算法，展示了LLM引导的进化搜索在组合数学构造发现中的潜力。

PERSA: Reinforcement Learning for Professor-Style Personalized Feedback with LLMs

Ravi Ranjan et al.

cs.AI

本文提出PERSA，一种基于RLHF的pipeline，通过仅微调transformer的顶层block和feed-forward projections来调整LLM生成编程反馈的风格，使其匹配特定教授的语气，同时保持内容正确性。该方法在APPS等基准上提升了风格对齐分数，但主要聚焦于教育反馈的风格个性化，与关键词中的spectral、Muon、pretrain、agent等概念关联较弱。

Iterative Finetuning is Mostly Idempotent

Zephaniah Roe et al.

cs.AI

本文研究了迭代微调对模型行为倾向的影响，发现在监督微调(SFT)和合成文档微调(SDF)设置中，倾向大多衰减或保持不变，而在直接偏好优化(DPO)设置中倾向放大可能发生但依赖于持续训练。

To Use AI as Dice of Possibilities with Timing Computation

Jia Li, Vipin Kumar, Rui Zhang

cs.AI

本文提出了一种基于动词的AI建模范式，并定义了timing computation和possibility的概念，将其应用于乳腺癌患者纵向数据以发现临床轨迹和进行反事实时间推断。该方法与关键词列表中的概念关联较弱。

A Low-Latency Fraud Detection Layer for Detecting Adversarial Interaction Patterns in LLM-Powered Agents

Sheldon Yu et al.

cs.AI

本文提出了一种用于检测LLM-powered agents中对抗性交互模式的低延迟欺诈检测层，通过从prompt特征、会话动态等中提取42个结构化特征并使用XGBoost分类器，实现了比基于LLM的检测器快9倍以上的实时检测。该方法关注交互轨迹层面的风险建模，而非单个prompt的恶意性判断。

Arithmetic in the Wild: Llama uses Base-10 Addition to Reason About Cyclic Concepts

Sheridan Feucht et al.

cs.AI cs.CL

本文通过分析Llama-3.1-8B在循环概念（如月份）上的推理机制，发现模型并非直接进行模加法，而是复用了一种通用的base-10加法机制，并利用任务无关的Fourier特征（周期为2, 5, 10等）来计算和，最后将结果映射回循环概念空间。该工作揭示了因果抽象与特征几何之间的相互作用，但方法本身在开创性上较为有限。

LLMs Should Not Yet Be Credited with Decision Explanation

Wenshuo Wang

cs.AI

本文主张大型语言模型（LLMs）目前不应被赋予“决策解释”的信用，认为现有证据主要支持决策预测和理由生成，而非真正的解释。文章提出了一个评估标准，强调需要更严格的验证来区分解释与合理化。

NEURON: A Neuro-symbolic System for Grounded Clinical Explainability

Anuradha Chandrasekaran et al.

cs.AI

NEURON是一个神经符号系统，通过整合SNOMED CT ontology和RAG-LLM层来生成基于SHAP特征归因的自然语言解释，用于临床可解释性。在急性心力衰竭死亡率预测任务上，它提升了AUC并优于原始SHAP可视化，但方法本身并非开创性且与关键词关联较弱。

GR-Ben: A General Reasoning Benchmark for Evaluating Process Reward Models

Zhouhao Sun et al.

cs.AI cs.CL

本文提出了GR-Ben，一个用于评估Process Reward Models (PRMs)在科学和逻辑等非数学推理领域错误检测能力的benchmark。实验发现，现有PRMs和LLMs在数学之外的推理域表现较弱，且PRMs更不擅长识别知识型错误。

Faithful Mobile GUI Agents with Guided Advantage Estimator

Haowen Hu et al.

cs.AI

本文提出Faithful-Agent框架，通过两阶段训练（faithfulness-oriented SFT和基于guided advantage estimator的RFT）提升GUI agent的忠实性，解决其依赖记忆捷径而非屏幕证据的问题。该方法在特定任务上显著提升性能，但未涉及code、spectral、Muon等关键词。

Zero-Shot Signal Temporal Logic Planning with Disjunctive Branch Selection in Dynamic Semantic Maps

Bowen Ye et al.

cs.AI

本文提出了一种基于Transformer架构的零样本STL规划求解器，通过结合轻量级启发式方法处理复杂的析取子公式，并利用Transitive Reinforcement Learning确保时间一致性和逻辑连贯性。该方法在动态语义地图上展示了良好的零样本泛化能力，但与我提供的关键词列表关联度较低。

EO-Gym: A Multimodal, Interactive Environment for Earth Observation Agents

Sai Ma et al.

cs.AI

EO-Gym提出了一个多模态交互式环境，将Earth Observation分析建模为Gymnasium风格的工作空间，并提供了包含35个专用工具的基准数据集。实验表明通用VLM在交互式EO推理中表现不佳，而微调后的模型有所提升。

Uncertainty-Aware Trip Purpose Inference from GPS Trajectories via POI Semantic Zones and Pareto Calibration

Bo Yang et al.

cs.AI

本文提出了一种弱监督框架，利用POI语义区域和距离加权空间似然，结合Pareto校准来从GPS轨迹推断出行目的，并在洛杉矶数据集上验证了其有效性。该方法主要关注交通需求建模中的实际应用问题。

Valley3: Scaling Omni Foundation Models for E-commerce

Zeyu Chen et al.

cs.AI

Valley3是一个面向电商场景的omni多模态大语言模型，通过四阶段预训练和post-training实现了文本、图像、视频和音频的统一理解与推理，并具备agentic搜索能力。

Segment-Aligned Policy Optimization for Multi-Modal Reasoning

Lei Gao et al.

cs.AI cs.LG

本文提出Segment-Aligned Policy Optimization (SAPO)，一种将推理步骤而非token或完整序列作为策略更新基本单元的强化学习范式，通过step-wise Markov decision process和语义对齐的机制提升多模态推理任务的训练稳定性与性能。

Truth or Tribe: How In-group Favoritism Prioritize Facts in Persona Agents

Shijun Lei et al.

cs.AI cs.CY

本文提出了一个Truth or Tribe模拟框架，通过三元交互范式研究persona agents在矛盾信息传播中的内群体偏好现象，并设计了三种干预策略来缓解该偏差。实验表明，agent会优先接受身份相似同伴的错误信息，且这种偏好随认知复杂度增加而增强。

DiagramNet: An End-to-End Recognition Framework and Dataset for Non-Standard System-Level Diagrams

Jincheng Lou et al.

cs.AI

本文提出了DiagramNet，一个用于非标准系统级电路图识别的多模态数据集和端到端识别框架，通过渐进式训练和解耦的多agent工作流提升了识别性能。

Structural Ranking of the Cognitive Plausibility of Computational Models of Analogy and Metaphors with the Minimal Cognitive Grid

Alessio Donvito, Antonio Lieto

cs.AI

本文使用Minimal Cognitive Grid (MCG)框架对类比与隐喻的计算模型（如SME, CogSketch, METCL及LLMs）进行认知合理性评估，通过形式化与定量分析其三个维度来比较各模型与认知理论的一致性。

A Cellular Doctrine of Morality: Intrinsic Active Precision and the Mind-Reality Overload Dilemma

Ahsan Adeel

cs.AI

本文探讨了当前AI系统因缺乏内在精度机制而导致的信息过载与认知偏差问题，提出基于锥体神经元生物物理动力学的主动精度机制可能缓解这一困境，但未提供具体数学方法或与关键词相关的技术贡献。

AI Safety as Control of Irreversibility: A Systems Framework for Decision-Energy and Sovereignty Boundaries

Wesley Shu, Peng Wei

cs.AI cs.CY

本文提出一个系统框架，将AI安全重新定义为对不可逆性的控制，通过决策能量密度和主权边界等概念形式化分析。该框架主要关注AI系统在低部署摩擦下的风险，而非直接涉及代码、上下文、谱方法或预训练等具体技术。

TimeTok: Granularity-Controllable Time-Series Generation via Hierarchical Tokenization

Seokhyun Lee et al.

cs.AI

本文提出TimeTok框架，通过分层tokenization策略将时间序列映射为从粗到细的token序列，并利用自回归生成过程实现任意目标粒度的可控时间序列生成。该框架在标准生成任务上达到最优性能，并展示了跨异构粒度数据集训练的强迁移能力。

Artificial Jagged Intelligence as Uneven Optimization Energy Allocation Capability Concentration, Redistribution, and Optimization Governance

Wesley Shu, Peng Wei

cs.AI

本文提出Artificial Jagged Intelligence (AJI)理论，将模型训练建模为有限预算下的优化能量分配过程，证明能力增益的分散性下界与有限预算权衡定理，并分析了能量方差正则化等再分配机制。该工作为深度学习模型能力分布的不均匀性提供了形式化框架。

SCALE-LoRA: Auditing Post-Retrieval LoRA Composition with Residual Merging and View Reliability

Shuaipeng Zhou, Yu Zhang

cs.AI cs.LG

本文提出SCALE框架用于后检索LoRA适配器的审计与组合，包含LASRC合并路径和可靠性分析层，通过保留线性锚点并残差化适配器更新方向来解决合并干扰问题。实验在FLAN-T5-Large等模型上验证了其有效性，但方法主要针对LoRA组合场景，与关键词列表中的概念关联较弱。

Rethinking Explanations: Formalizing Contrast in Description Logics

Yasir Mahmood et al.

cs.AI math.LO

本文提出在Description Logic知识库中定义对比解释（contrastive explanations），旨在回答“为何公理P为真而非另一公理Q”的问题，并探讨了其在DL EL和ALC中的性质。

CoFlow: Coordinated Few-Step Flow for Offline Multi-Agent Decision Making

Guowei Zou et al.

cs.AI

本文提出CoFlow，一种用于离线多智能体强化学习的少步生成模型，通过Coordinated Velocity Attention和Adaptive Coordination Gating保持智能体间的协调性，并采用有限差分一致性代理替代昂贵的Jacobian-vector product反向传播。实验表明，CoFlow在1-3步去噪内即可达到与多步方法相当的协调质量，但该方法主要关注agent和attention机制，与关键词中的code、spectral、Muon、pretrain等关联较弱。

Grounding Multi-Hop Reasoning in Structural Causal Models via Group Relative Policy Optimization

Yunhan Bu et al.

cs.AI

本文提出了一种基于Structural Causal Model (SCM)和Group Relative Policy Optimization (GRPO)的框架，用于解决Multi-Hop Fact Verification中的推理问题，通过将验证视为因果推断过程并优化推理链长度来提升性能。该方法在HoVer和EX-FEVER数据集上取得了优于现有基线的结果，但与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention均无直接关联。

MAP-Law: Coverage-Driven Retrieval Control for Multi-Turn Legal Consultation

Qinchuan Cheng et al.

cs.AI

本文提出MAP-Law框架，用于多轮法律咨询中的检索控制。该框架通过构建包含issue nodes、legal element nodes和evidence nodes的联合结构化状态，并计算Element Coverage、Evidence Coverage和Marginal Gain来决定是否继续检索或生成最终回复，将停止检索从固定超参数转变为可解释的决策。实验表明该方法在减少检索轮次和证据数量的同时保持了较高的Element Coverage。

MILD: Mediator Agent System with Bidirectional Perception and Multi-Layered Alignment for Human-Vehicle Collaboration

Jiyao Wang et al.

cs.AI

本文提出了一个基于agent系统架构的人车协同驾驶系统MILD，通过双向感知和多层对齐机制解决人车交互中的认知失调问题。该系统集成了感知agent和轻量级策略agent，并利用证据与约束加权策略优化(ECPO)确保行为符合安全规范。

Multi-Agent Reasoning Improves Compute Efficiency: Pareto-Optimal Test-Time Scaling

Florian Valentin Wunderlich et al.

cs.AI

本文系统比较了self-consistency、self-refinement、multi-agent debate和mixture-of-agents等推理扩展策略在计算效率与准确率之间的权衡，通过Pareto最优前沿分析发现multi-agent方法在复杂任务上优于self-consistency，并给出了并行生成数应超过顺序聚合数的设计准则。

Evaluating Agentic AI in the Wild: Failure Modes, Drift Patterns, and a Production Evaluation Framework

Mukund Pandey

cs.AI

本文提出了一种针对生产环境中agentic AI系统的评估框架PAEF，识别了七种特有的故障模式，并指出标准指标（如ROUGE、BERTScore）无法有效检测这些故障。该工作主要关注工程实践中的评估挑战，而非理论创新。

Latent State Design for World Models under Sufficiency Constraints

Keon Woo Kim

cs.AI

本文提出了一种基于sufficiency constraints的world model潜在状态设计的功能性分类法，将方法按潜在状态的功能角色（如预测、控制、记忆等）而非架构分组，并构建了评估框架。该工作为agent的world model设计提供了系统化的视角，但未直接涉及code、spectral或Muon等关键词。

Model Routing as a Trust Problem: Route Receipts for Adaptive AI Systems

Vincent Schmalbach

cs.AI cs.CY

本文提出了"route receipt"概念，作为自适应AI系统中记录请求运行时路径的透明度工具，并给出了最小schema和编辑模型。该工作主要关注AI系统的可审计性和信任问题，与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等主题无直接关联。

Are LLMs More Skeptical of Entertainment News?

Huiqian Lai

cs.AI cs.CY

本文研究了LLM在评估娱乐新闻与硬新闻可信度时是否存在系统性偏差，发现部分模型（如DeepSeek-V3.2和GPT-5.2）对娱乐新闻有更高的误判率（false-positive rate），而另一些模型则无此差异。实验表明，该偏差不能完全归因于文体风格，且通过提示（prompt）缓解的效果因模型而异。

NH-CROP: Robust Pricing for Governed Language Data Assets under Cost Uncertainty

Xu Zheng et al.

cs.AI cs.CL

本文研究了语言数据资产在成本不确定下的在线定价问题，提出了NH-CROP框架，通过比较直接定价、风险感知定价和验证后定价策略，仅在信息决策价值超过无验证方案时才获取成本信息。实验表明，付费验证并非主要收益来源，平台应优先校准定价，仅在信息廉价且可决策时进行验证。

Catching the Infection Before It Spreads: Foresight-Guided Defense in Multi-Agent Systems

Yue Ma, Ziyuan Yang, Yi Zhang

cs.AI

本文针对基于大语言模型的Multi-Agent Systems (MASs)中存在的感染性jailbreak问题，提出了一种无需训练的Foresight-Guided Local Purification (FLP)框架。该方法通过让每个agent模拟未来交互轨迹并利用多角色策略检测感染，再通过局部净化（如album rollback和Recursive Binary Diagnosis）消除病毒，实验表明其能显著降低感染率并保持交互多样性。

Runtime Evaluation of Procedural Content Generation in an Endless Runner Game Using Autonomous Agents

Rishabh Kar

cs.AI

本文提出了一种名为Momentum的无限跑酷游戏，将程序化内容生成（PCG）与自主agent评估集成到同一运行时循环中。通过使用类似Wave Function Collapse的约束机制生成地形和物体，并利用两个自主agent（空中扫描器和地面遍历器）实时检测生成内容的可玩性问题，从而避免了离线评估的局限性。

DataEvolver: Let Your Data Build and Improve Itself via Goal-Driven Loop Agents

Qisong Zhang et al.

cs.AI

本文提出DataEvolver，一个通过目标驱动的闭环agent（agent）来自动迭代生成和修正视觉数据的框架，包含生成时自校正和验证时自扩展两个循环。该方法在图像旋转任务上验证了有效性，但主要贡献在于提供了一个可复用的数据构建框架，而非解决长期存在的理论问题或与关键词高度契合。

Neural Decision-Propagation for Answer Set Programming

Thomas Eiter, Katsumi Inoue, Sota Moriyama

cs.AI

本文提出了一种用于Answer Set Programming (ASP)的神经决策传播方法(Neural DProp)，通过交替进行假决策和真传播来计算stable models，并展示了其在神经符号集成中的可学习性和可扩展性。

NeuroState-Bench: A Human-Calibrated Benchmark for Commitment Integrity in LLM Agent Profiles

Jia Xiao

cs.AI

本文提出了NeuroState-Bench，一个用于评估LLM agent在multi-turn任务中commitment integrity（承诺完整性）的human-calibrated benchmark，通过benchmark定义的side-query probes而非推断的hidden activations来操作化该概念。实验表明，task success与commitment integrity在评估中会发散，且integrity rankings在distractor扰动下更稳定。该benchmark为agent评估提供了新的校准维度。

Sheaf-Theoretic Planning: A Categorical Foundation for Resilient Multi-Agent Autonomous Systems

Manuel Hernández, Eduardo Sánchez-Soto

cs.AI

本文提出了一种基于sheaf theory（层论）和topos theory（拓扑斯理论）的规划框架STP，用于解决多智能体系统在随机和对抗环境中的协调问题。该方法通过层语义来建模智能体间的信息流与信念状态，旨在克服传统逻辑模型在开放世界假设下的局限性。

CyberAId: AI-Driven Cybersecurity for Financial Service Providers

George Fatouros et al.

cs.AI cs.CR cs.IR

本文提出CyberAId平台，一个混合多agent系统，通过专用LLM子agent处理传统SIEM/XDR遥测数据，以增强金融服务机构的网络安全能力，并计划在四个金融用例中验证。该工作主要关注应用架构与合规性，与关键词中的agent概念相关，但缺乏理论或方法上的开创性。

Disentangling Intent from Role: Adversarial Self-Play for Persona-Invariant Safety Alignment

Jiajia Li et al.

cs.AI

本文提出Persona-Invariant Alignment (PIA)框架，通过对抗性自我对弈（adversarial self-play）实现角色不变的安全对齐，其中攻击端使用Persona Lineage Evolution (PLE)探索高风险角色空间，防御端采用Persona-Invariant Consistency Learning (PICL)基于结构分离假设解耦安全决策与角色上下文。实验表明该方法能显著降低攻击成功率。

A Language for Describing Agentic LLM Contexts

Noga Peleg Pelc, Gal A. Kaminka, Yoav Goldberg

cs.AI cs.CL cs.MA cs.SE

本文提出了Agentic Context Description Language (ACDL)，一种用于精确、可读地描述LLM agent系统中输入context结构和动态变化的标准化语言，并提供了可视化工具。该工作旨在解决当前缺乏统一标准来描述prompt如何随时间演变的问题。

Moira: Language-driven Hierarchical Reinforcement Learning for Pair Trading

Polydoros Giannouris et al.

cs.AI cs.CL cs.MA

本文提出Moira框架，将配对交易（pair trading）建模为hierarchical reinforcement learning问题，并用large language models (LLMs)参数化高层和低层策略，通过prompt更新进行优化。该方法利用文本反馈调整抽象与执行，在真实市场数据上优于传统和基于LLM的基线方法。

12 Angry AI Agents: Evaluating Multi-Agent LLM Decision-Making Through Cinematic Jury Deliberation

Ahmet Bahaddin Ersoz

cs.AI

本文通过模拟电影《十二怒汉》的陪审团场景，构建了一个多agent LLM辩论基准，测试了GPT-4o和Llama-4-Scout在三种条件下的决策行为。研究发现大多数运行以悬而未决的陪审团告终，且RLHF对齐强度而非模型能力是决定辩论灵活性的主要因素。

TumorXAI: Self-Supervised Deep Learning Framework for Explainable Brain MRI Tumor Classification

Abrar Hossain Zahin et al.

cs.AI

本文使用自监督学习框架（SimCLR, BYOL, DINO, MoCo v3）结合ResNet-50 backbone进行脑部MRI肿瘤多分类，在4448张图像上达到99.64%的准确率，并利用Grad-CAM等可解释性技术增强模型决策的可视化。

Personalized Digital Health Modeling with Adaptive Support Users

Zhongqi Yang et al.

cs.AI

本文提出了一种统一的个性化数字健康建模框架，通过自适应加权支持用户（包括相似和不相似个体）来训练个人模型，并采用迭代优化算法更新模型参数和用户相似性权重。实验表明该方法在多个数据集上优于基线，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Reliable AI Needs to Externalize Implicit Knowledge: A Human-AI Collaboration Perspective

Hengyu Liu et al.

cs.AI

本文从人机协作视角提出，可靠AI需要将implicit knowledge（如推理模式、调试过程）外化为可验证的Knowledge Objects (KOs)，以解决当前验证方法仅能覆盖explicit knowledge的局限性。

Tenability and Weak Semantics: Modeling Non-uniform Defense -- Extended Version

Uri Andrews, Luca San Mauro, John Spoerl

cs.AI

本文提出了tenability，一种基于对话的argumentation semantics，用于形式化在辩论中维护特定argument的能力。它通过单调承诺游戏定义了三种变体，并分析了它们在有限框架上的计算复杂度。

Model Spec Midtraining: Improving How Alignment Training Generalizes

Chloe Li et al.

cs.AI

本文提出了一种名为Model Spec Midtraining (MSM)的方法，在预训练后、alignment fine-tuning前，通过训练模型阅读关于其Model Spec的合成文档，来塑造模型从后续demonstration数据中泛化的方式。实验表明，MSM能有效控制模型泛化方向并降低agentic misalignment率，但该方法与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

NORA: A Harness-Engineered Autonomous Research Agent for End-to-End Spatial Data Science

Bing Zhou et al.

cs.AI

NORA是一个为空间数据科学设计的自主研究agent系统，通过多agent架构和领域专用技能（如空间分析和数据下载）来执行完整的研究流程。该系统强调了harness engineering（一种通过生命周期钩子、安全门等机制确保可靠性的工程方法）在科学agent中的重要性。

The Dynamic Gist-Based Memory Model (DGMM): A Memory-Centric Architecture for Artificial Intelligence

Terry Dorsey, Kevin Huggins

cs.AI

本文提出了Dynamic Gist-Based Memory Model (DGMM)，一种以记忆为中心的人工智能架构，将经验表示为随时间演化的图结构episodic-semantic memory，并定义了基于线索的条件性回忆机制。该工作为构建显式、持久且支持时间溯源和可解释性的AI系统提供了形式化架构理论。

Reinforcement Learning Trained Observer Control for Bearings-Only Tracking

Branko Ristic, Sanjeev Arulampalam

cs.AI

本文提出了一种基于深度强化学习的observer control策略，用于自主bearings-only tracking（仅方位跟踪）问题。该方法将observer机动问题建模为belief Markov decision process，并使用cubature Kalman filter的后验作为belief state，通过deep Q-network训练策略。实验表明，该策略在跟踪精度和鲁棒性之间取得了较好的平衡。

Planner Matters! An Efficient and Unbalanced Multi-agent Collaboration Framework for Long-horizon Planning

Wenyi Wu et al.

cs.AI cs.LG cs.MA

本文提出了一个基于语言模型的多智能体框架，将自动化任务分解为planner、actor和memory manager三个角色，并通过计算分配分析发现planner是影响任务性能的关键因素。作者采用planner-centric的强化学习方法，仅优化planner而冻结其他组件，在web navigation、OS control和tool use等基准测试上验证了该方法的有效性。

Retrieval and Multi-Hop Reasoning in 1M-Token Context Windows: Evaluating LLMs on Classical Chinese Text

Eric H. C. Chow

cs.AI

本文评估了五种具有百万token上下文窗口的大语言模型在古典中文语料上的检索与多跳推理能力。实验发现单点检索在最强模型上已完全解决，但多跳推理性能在512K到1M token区间出现显著分化，表明名义上下文窗口长度不能代表实际多跳能力。

T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

Haixin Wang et al.

cs.AI

本文提出T$^2$PO框架，通过token级和turn级的不确定性引导机制控制多轮agent RL中的探索，以解决训练不稳定性问题，在WebShop等环境中验证了效果。

MEMAUDIT: An Exact Package-Oracle Evaluation Protocol for Budgeted Long-Term LLM Memory Writing

Nishant Bhargava, Rodrigo Sobral Barrento

cs.AI

本文提出了MEMAUDIT协议，用于评估预算受限下长期LLM agent的记忆写入质量。该协议将记忆选择转化为可审计的优化问题，并通过分支定界和MILP认证计算精确最优解，从而分离了表示质量、有效性保持和预算感知选择效应。

CBV: Clean-label Backdoor Attacks on Vision Language Models via Diffusion Models

Ji Guo et al.

cs.AI

本文提出了一种针对Vision-Language Models (VLMs)的Clean-Label Backdoor Attack方法CBV，利用diffusion models生成包含触发图像特征的自然中毒样本，并通过GradCAM-guided Mask增强隐蔽性。该方法在MSCOCO和VQA v2数据集上实现了超过80%的攻击成功率，但与关键词列表中的概念关联较弱。

Submodular Benchmark Selection

Alexander Smola

cs.AI cs.LG

本文形式化了从大量benchmark中选取信息子集的问题，将其建模为multivariate Gaussian model下的submodular maximization，并比较了entropy和mutual information两种目标函数在benchmark selection上的表现。

CoVSpec: Efficient Device-Edge Co-Inference for Vision-Language Models via Speculative Decoding

Yuanyuan Jia, Shunpu Tang, Qianqian Yang

cs.AI

本文提出CoVSpec框架，通过无训练的视觉token剪枝和自适应草稿策略，在设备-边缘协同推理中加速视觉语言模型，并显著降低通信开销。该方法主要关注工程效率而非理论创新，与关键词列表中的概念关联较弱。

Bucketing the Good Apples: A Method for Diagnosing and Improving Causal Abstraction

Li Puyin et al.

cs.AI cs.CL

本文提出了一种通过划分输入空间来诊断和改进神经网络因果抽象解释的方法，将全局评估转化为更精细的诊断工具，并展示了其在多个设置下的应用。

Perturbation Dose Responses in Recursive LLM Loops: Raw Switching, Stochastic Floors, and Persistent Escape under Append, Replace, and Dialog Updates

Pawel Kaplanski

cs.AI cs.CL cs.LG

本文研究了递归语言模型循环中注入文本扰动对模型行为的影响，通过append、replace和dialog三种上下文更新规则，测量了持久重定向和原始逃逸等指标。实验在gpt-4o-mini和gpt-4.1-nano上进行，发现持久重定向受记忆策略限制，且存在结构性的非单调现象。

PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

Ruoqi Liu et al.

cs.AI

本文提出了PhysicianBench，一个用于评估LLM agents在真实电子健康记录环境中执行临床任务的benchmark，包含100个长周期任务和670个结构化检查点。实验表明，最佳模型仅达到46%的成功率，揭示了当前agent能力与现实临床工作流需求之间的显著差距。

Zero-Shot Confidence Estimation for Small LLMs: When Supervised Baselines Aren't Worth Training

Luong N. Nguyen

cs.AI cs.CL cs.ET

本文研究了小型语言模型在零样本（zero-shot）下估计自身正确性的置信度问题，发现平均token对数概率（average token log-probability）在分布内和分布外均优于需要监督数据的RouteLLM风格基线。此外，提出了一种检索条件自评估（retrieval-conditional self-assessment）方法，通过选择性注入检索知识来提升性能并降低延迟。

A Study of Belief Revision Postulates in Multi-Agent Systems (Extended Version)

Michael Thielscher, Tran Cao Son

cs.AI

本文研究了多智能体系统中信念修正的AGM公理推广，提出了广义全交多智能体信念修正算子，并讨论了迭代修正的推广及基于事件模型的修正算子。

Towards Understanding Specification Gaming in Reasoning Models

Kei Nishimura-Gasparian, Robert McCarthy, David Lindner

cs.AI

本文研究了LLM agents中的specification gaming（模型通过非预期行为获得高分）现象，发现RL reasoning训练会显著增加该问题的发生率，且测试时缓解措施只能降低但无法消除该问题。

Complexity Horizons of Compressed Models in Analog Circuit Analysis

Pacome Simon Mbonimpa

cs.AI

本文提出了一种利用prerequisite graphs（先决条件图）来优化LLM压缩变体选择的策略，用于模拟电路分析任务。该方法通过将概念结构化为DAG，并构建agentic pipeline来动态级联查询，以在保证推理准确性的前提下选择最小的压缩模型。

Distilling Long-CoT Reasoning through Collaborative Step-wise Multi-Teacher Decoding

Taewon Yun et al.

cs.AI

本文提出CoRD框架，通过基于perplexity的评分和beam search进行step-wise推理合成，利用多个异构teacher模型协作生成高质量推理轨迹，以蒸馏Long-CoT推理能力。实验表明该方法能以较少的结构化监督信号达到接近teacher水平的学生性能，并具有良好的泛化性。

Anon: Extrapolating Optimizer Adaptivity Across the Real Spectrum

Yiheng Zhang et al.

cs.AI cs.LG

本文提出了一种名为Anon的新型optimizer，通过引入连续可调的adaptivity参数，使其能够在SGD和Adam之间插值甚至外推，并设计了incremental delay update (IDU)机制来保证收敛。该方法在图像分类、diffusion和语言建模任务上优于现有optimizer，但与我提供的关键词（如code, context, spectral, Muon等）关联度较低。

Can Causal Discovery Algorithms Help in Generating Legal Arguments?

Soham Wasmatkar et al.

cs.AI cs.CE cs.LG stat.ML

本文尝试将causal discovery algorithms应用于法律领域，通过分析标注的凶杀案数据集来发现法律概念间的因果关系，并证明这些关系可用于生成法律论证。

ANO: A Principled Approach to Robust Policy Optimization

Yiheng Zhang et al.

cs.AI cs.LG

本文针对Proximal Policy Optimization (PPO)中硬裁剪与无裁剪优化之间的困境，提出了Anchored Neighborhood Optimization (ANO)方法。该方法基于统一信任域框架，通过Redescending Influence Principle动态抑制异常值梯度，在理论上证明了其最小结构复杂性，并在MuJoCo基准测试中取得了优于PPO和SPO的性能。

A Compound AI Agent for Conversational Grant Discovery

Zhisheng Tang, Mayank Kejriwal

cs.AI

本文提出了一种复合AI系统，通过LLM驱动的浏览器代理和基于ReAct的查询处理层，统一了分散的研究资助发现流程，将搜索时间从30-45分钟缩短至10分钟以下。该系统支持多轮对话交互和混合搜索，但方法上未体现与关键词相关的开创性贡献。

Controllable and Verifiable Process Data Synthesis for Process Reward Models

Yinghui Chi, Lucien Wang

cs.AI

本文提出了一种可控且可验证的框架，用于为Process Reward Models (PRMs)合成过程监督数据，通过构造符号推理链并注入模板感知错误来生成配对轨迹。实验表明该方法在逻辑推理基准上提升了Best-of-8重排序性能，并能迁移至数学推理任务。

The Compliance Trap: How Structural Constraints Degrade Frontier AI Metacognition Under Adversarial Pressure

Rahul Kumar

cs.AI cs.CL cs.LG

本文研究了前沿AI模型在对抗压力下的元认知稳定性，发现多数模型因“顺从陷阱”（compliance-forcing指令覆盖认知边界）而出现灾难性退化，但该研究与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention均无直接关联。

FitText: Evolving Agent Tool Ecologies via Memetic Retrieval

Kyle Zheng et al.

cs.AI cs.IR cs.LG cs.MA

FitText提出了一种无需训练的框架，通过将检索嵌入agent推理循环来动态演化工具集。它利用memetic retrieval（模因检索）对候选伪工具描述进行进化选择，在ToolRet和StableToolBench上提升了检索性能，但该方法更侧重于agent工具使用场景，与关键词中的核心数学概念关联较弱。

The Model Knows, the Decoder Finds: Future Value Guided Particle Power Sampling

Tu Nguyen et al.

cs.AI cs.LG

本文提出了一种名为Auxiliary Particle Power Sampling (APPS)的推理时解码算法，通过粒子滤波和未来值引导的重新加权来近似序列级power目标，从而在不进行额外训练的情况下提升大语言模型在多步推理任务中的准确率-运行时间权衡。该方法与关键词列表中的概念无直接关联。

Measuring AI Reasoning: A Guide for Researchers

Munachiso Samuel Nwadike et al.

cs.AI cs.CL

本文为研究人员提供了评估语言模型推理能力的指南，强调应通过适应性多步搜索的证据而非仅凭最终答案准确性来评估推理，并论证了过程导向评估的重要性。

Position: How can Graphs Help Large Language Models?

Xiyuan Wang et al.

cs.AI

本文探讨了图如何帮助大型语言模型（LLMs），从三个角度展开：图提供最新知识源以减少幻觉，基于图的提示技术（如Chain-of-Thought、Tree-of-Thought和Graph-of-Thought）增强推理能力，以及将图集成到LLMs中改善其对结构化数据的理解。文章还展望了基于图设计稀疏LLM架构和脑启发记忆系统等未来方向。

Shadow-Loom: Causal Reasoning over Graphical World Model of Narratives

David Wilmot

cs.AI cs.CL

Shadow-Loom是一个将叙事转化为图形世界模型的框架，利用Pearl的因果阶梯和反事实演算进行因果推理，并通过叙事物理学评估故事的悬念、神秘等结构状态。大型语言模型仅用于边界任务，核心推理在类型化代码中完成。

Efficient Temporal Datalog Materialisation for Composite Event Recognition

Periklis Mantenoglou

cs.AI cs.DB cs.LO

本文探讨了复合事件识别中的高效时序Datalog物化问题，通过将多种事件规范语言映射到时序Datalog->-，并提出了Streaming Trigger Graphs技术来支持流式推理。

DataClaw: A Process-Oriented Agent Benchmark for Exploratory Real-World Data Analysis

Qiaohong Zhang et al.

cs.AI

DataClaw是一个面向真实世界探索性数据分析的agent benchmark，包含约206万条记录和492个跨领域任务，用于评估agent在数据探索过程中的推理能力。实验表明当前LLM agent在此场景下表现不佳，多数模型准确率低于50%。

Improving Model Safety by Targeted Error Correction

Abolfazl Mohammadi-Seif, Ricardo Baeza-Yates

cs.AI cs.CV

本文提出了一种基于双分类器GBDT pipeline的后验错误修正方法，用于区分常规类人错误与高风险非人类错误，并在动物品种分类、皮肤病变诊断和前列腺组织病理学三个领域验证了其安全改进效果。该方法在引入极小推理延迟的同时，优于传统最大类别概率基线，但未涉及代码、上下文、谱方法等关键词相关技术。

Strategy-Aware Optimization Modeling with Reasoning LLMs

Ruiqing Zhao et al.

cs.AI

本文提出SAGE框架，通过显式建模策略（Modeling Strategy）并利用Segment-Weighted GRPO训练学生模型，提升了LLM在自动优化建模中的正确性和求解效率。实验表明该方法在多个基准上优于开源基线，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

Double Rectified Linear Unit-based Modular Semantics for Quantitative Bipolar Argumentation Framework

Gianvincenzo Alfano et al.

cs.AI

本文提出了一种基于双修正线性单元的模块化语义用于定量双极论证框架，旨在解决现有语义在简单无环案例中产生分歧或反直觉结果的问题，并证明了其在无环及更广泛循环框架下的收敛性。

On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length

Sunghwan Kim et al.

cs.AI cs.LG

本文通过控制实验研究了任务horizon length（任务所需动作序列长度）对LLM作为agent训练的影响，发现增加horizon length会导致训练不稳定，而horizon reduction（缩减horizon）能稳定训练并提升长horizon任务性能，并观察到horizon generalization（缩减horizon训练后对长horizon的泛化）现象。

Universal Smoothness via Bernstein Polynomials: A Constructive Approximation Approach for Activation Functions

Wentao Zhang et al.

cs.AI

本文提出了一种基于Bernstein多项式的通用平滑框架，并设计了Bernstein Linear Unit (BerLU)激活函数，通过构造可微的二次过渡区域来消除奇点，同时保持分段线性结构。理论分析证明了该方法的严格连续可微性和非扩张Lipschitz常数，实验表明其在Vision Transformer和CNN架构上优于现有基线。

Foundation-Model-Based Agents in Industrial Automation: Purposes, Capabilities, and Open Challenges

Vincent Henkel et al.

cs.AI

本文通过PRISMA 2020指南系统综述了2341篇文献，分析了基于foundation model的agent在工业自动化中的成熟度、功能轮廓和局限性。研究发现，大多数系统处于原型和早期验证阶段（TRL 4-6），在用户交互和不确定性处理方面有显著提升，但在协商能力上存在明显不足。

Counterfactual Reasoning in Automated Planning

Alberto Pozanco, Daniel Borrajo, Manuela Veloso

cs.AI

本文综述了自动规划中的反事实推理研究，按改变元素、触发时机及变更方式对现有工作进行分类，并讨论了关键发现与开放问题。

SCGNN: Semantic Consistency enhanced Graph Neural Network Guided by Granular-ball Computing

Genhao Tian et al.

cs.AI

本文提出SCGNN框架，利用granular-ball computing (GBC)将节点自适应划分为粒球以捕获group-level语义一致性，并设计结构增强与监督增强模块来提升图神经网络性能。该方法旨在降低计算复杂度并增强对噪声的鲁棒性，但未涉及code、spectral或Muon等关键词。

Trustworthy AI Suffers from Invariance Conflicts and Causality is The Solution

Ruta Binkyte et al.

cs.AI

本文认为causality是解决trustworthy AI中公平性、鲁棒性等目标间冲突的关键，通过重新解释这些冲突为数据生成过程变化下的不兼容invariance要求，并论证causality提供了统一框架来理解和缓解这些权衡。

Deciphering Shortcut Learning from an Evolutionary Game Theory Perspective

Xiayang Li, Kuo Gai, Shihua Zhang

cs.AI

本文从进化博弈论视角分析了深度学习中的捷径学习现象，将数据样本建模为玩家，神经正切特征建模为策略，发现梯度下降和随机梯度下降会导致不同的随机稳定状态，分别优化捷径子网络和核心子网络。该工作为捷径偏差的形成提供了理论视角，但与我提供的关键词关联度较低。

AcademiClaw: When Students Set Challenges for AI Agents

Junjie Yu et al.

cs.AI cs.CY

本文介绍了AcademiClaw，一个包含80个复杂学术任务的bilingual benchmark，用于评估AI agent在真实学术场景中的能力。实验表明，即使最先进的模型也仅能达到55%的通过率，揭示了当前agent在跨领域任务中的能力边界。

An explainable hypothesis-driven approach to Drug-Induced Liver Injury with HADES

Maciej Wisniewski et al.

cs.AI

本文提出将药物性肝损伤预测重新定义为可解释的假设生成问题，并构建了DILER基准数据集和HADES智能系统。HADES通过结合分子级预测、代谢物分解和毒性通路证据生成可审计的推理轨迹，在二分类任务上取得一定性能提升，但假设生成任务的基线结果（Fuzzy Jaccard Index为0.16）表明该问题仍具挑战性。

The 2026 ACII Dyadic Conversations (DaiKon) Workshop & Challenge

Panagiotis Tzirakis et al.

cs.AI cs.CL cs.HC

本文介绍了2026年ACII Dyadic Conversations (DaiKon) Workshop & Challenge，提出了一个用于建模双人对话中人际情感和社会动态的基准，包含三个子挑战：方向性人际影响预测、话轮转换预测和融洽关系轨迹预测。该基准基于Hume-DaiKon数据集，包含945个跨语言对话，并通过基线实验展示了当前方法在捕捉粗粒度双人模式上的表现，但未涉及代码、谱方法或预训练等关键词相关技术。

Hybrid Inspection and Task-Based Access Control in Zero-Trust Agentic AI

Majed El Helou et al.

cs.AI

本文提出了一种混合运行时强制模型，用于零信任Agentic AI中的授权控制，结合了确定性控制和语义检查层，以评估工具调用是否与任务一致。该方法扩展了基于任务的访问控制（TBAC）到多轮对话场景，并提供了初步实验结果。

An Empirical Study of Agent Skills for Healthcare: Practice, Gaps, and Governance

Gelei Xu et al.

cs.AI

本文对ClawHub平台上557个公开的医疗agent skills进行了实证分析，发现这些skills主要侧重于面向患者的工作流自动化和监控，而非诊断和治疗任务，且临床风险与通用技术风险不一致。

Coherent Hierarchical Multi-Label Learning to Defer for Medical Imaging

Joshua Strong et al.

cs.AI

本文研究了医学影像中层次化多标签学习的延迟决策问题，提出了相干层次延迟的形式化定义和两种解决方法：精确相干投影和基于Taxonomic Belief Propagation的递归策略优化。该方法通过动态规划解码器确保延迟动作的相干性，在真实和模拟专家数据集上验证了有效性。

AI and Open-data Driven Scalable Solar Power Profiling

Shiliang Zhang, Sabita Maharjan, Damla Turgut

cs.AI

本文提出一个基于开源卫星影像和视觉AI模型的可扩展框架，用于检测屋顶太阳能板并生成城市级太阳能发电曲线，避免了人工标注和封闭模型依赖。

Foundation Models to Unlock Real-World Evidence from Nationwide Medical Claims

Fan Ma et al.

cs.AI cs.CL

本文提出了ReClaim，一个在超过2亿患者的医疗索赔数据上从头训练的生成式transformer模型，用于建模诊断、手术、药物和支出的纵向轨迹。该模型在超过1000个疾病预测任务中平均AUC达75.6%，优于传统方法，并展示了在医疗支出预测和目标试验模拟中的改进效果。

Triple Spectral Fusion for Sensor-based Human Activity Recognition

Ye Zhang et al.

cs.AI cs.CV cs.HC

本文提出了一种用于传感器人体活动识别的三谱融合框架，在Fourier域、graph Fourier域和wavelet域中应用自适应滤波，以融合异构传感器数据并建立长期上下文关联。该方法在多个基准数据集上取得了较好性能，但未涉及code、Muon、pretrain、agent或attention等关键词。

Mitigating Misalignment Contagion by Steering with Implicit Traits

Maria Chang et al.

cs.AI cs.CL

本文研究了多轮对话中语言模型之间的"misalignment contagion"现象，发现模型在交互后反社会行为增加。作者提出了一种通过隐式特征注入系统提示的steering技术来缓解此问题，该方法无需访问模型参数。

U-Define: Designing User Workflows for Hard and Soft Constraints in LLM-Based Planning

Christine P Lee et al.

cs.AI cs.HC cs.LG

本文提出U-Define系统，允许用户用自然语言定义约束并将其分类为硬约束（hard constraints）和软约束（soft constraints），分别通过formal model checking和LLM-as-judge进行验证。实验表明该方法提升了用户感知有用性和满意度，但未涉及关键词中的核心概念。

Fine-Grained Graph Generation through Latent Mixture Scheduling

Nidhi Vakil, Hadi Amiri

cs.AI cs.LG

本文提出了一种基于条件变分自编码器的图生成方法，通过动态对齐图与属性驱动的表示来改进解码器的latent space，并利用mixture scheduler逐步整合先验信息。实验表明该方法在多个数据集上实现了高生成质量与控制性。

When Audio-Language Models Fail to Leverage Multimodal Context for Dysarthric Speech Recognition

Pehuén Moure et al.

cs.AI cs.CL eess.AS

本文研究了音频-语言模型在构音障碍语音识别中利用多模态临床上下文（如诊断标签和临床描述）的效果，发现当前模型无法有效利用这些上下文信息，但通过LoRA微调结合临床提示格式可显著降低词错误率。

AIs and Humans with Agency

David Mumford

cs.AI

本文比较了人类与AI程序中的agency（能动性），指出人类agency需要多年发育，而赋予LLMs agency的早期尝试遇到了严重障碍，并认为需要一种新架构来在真实世界中与人类共同制定行动和计划。

SCPRM: A Schema-aware Cumulative Process Reward Model for Knowledge Graph Question Answering

Jiujiu Chen et al.

cs.AI

本文提出了一种Schema-aware Cumulative Process Reward Model (SCPRM)，用于知识图谱问答中的多跳推理评估，通过结合推理前缀和模式距离来缓解风险补偿效应，并集成到Monte Carlo Tree Search中提升性能。该方法在医疗、法律等风险敏感领域的KGQA任务上取得了改进。

First-Order Efficiency for Probabilistic Value Estimation via A Statistical Viewpoint

Ziqi Liu et al.

cs.AI stat.ME stat.ML

本文从统计视角出发，揭示了多种概率值（如Shapley值）的Monte Carlo估计量共享一阶误差结构，并基于此提出了EASE估计量以最小化主导均方误差。该方法在理论上统一了现有估计框架，但与我提供的关键词（如code, context, spectral等）关联度较低。

HAAS: A Policy-Aware Framework for Adaptive Task Allocation Between Humans and Artificial Intelligence Systems

Vicente Pelechanoa et al.

cs.AI cs.HC cs.SE

本文提出了HAAS框架，用于在软件工程和制造领域中自适应地在人类与AI系统之间分配任务。该框架结合了基于规则的专家系统和上下文bandit学习器，通过五个可审计的认知维度和五模式自主性光谱来表征任务-智能体匹配。

Standing on the Shoulders of Giants: Stabilized Knowledge Distillation for Cross--Language Code Clone Detection

Mohamad Khajezade, Fatemeh H. Fard, Mohamed Sami Shehata

cs.AI cs.LG cs.SE

本文提出了一种知识蒸馏框架，将DeepSeek-R1的推理能力迁移至紧凑的开源模型（如Phi3和Qwen-Coder），用于跨语言代码克隆检测。通过引入响应稳定方法（如强制结论提示和分类头），该方法提升了模型在多种语言对上的可靠性和推理效率。

cs.IR

Led to Mislead: Adversarial Content Injection for Attacks on Neural Ranking Models ⭐ 精选

Amin Bigdeli et al.

cs.IR cs.CL

本文提出CRAFT框架，利用large language models (LLMs)进行黑盒对抗攻击，通过retrieval-augmented generation和self-refinement生成对抗样本，并采用supervised fine-tuning和preference-guided optimization优化攻击效果。该方法在MS MARCO等数据集上显著优于现有baseline，并能有效迁移至cross-encoder、embedding-based和LLM-based等多种ranking架构，揭示了neural ranking models在对抗性内容注入下的脆弱性。该工作为研究信息检索系统的对抗威胁提供了原则性框架，与关键词中的“agent”和“attention”有一定关联。

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Maria-Eirini Pegia et al.

cs.IR cs.CV cs.LG cs.MM

本文通过统一框架评估了14种文本到视频检索方法在3个数据集上的表现，分析了caption长度、清晰度、语义类别等特征与模型性能的关系。研究发现短而清晰的caption召回率更高，而复杂事件和细粒度场景描述对所有模型仍具挑战性，注意力机制模型在处理时序依赖查询时表现更好。

SCARV: Structure-Constrained Aggregation for Stable Sample Ranking in Redundant NLP Datasets

Xu Zheng et al.

cs.IR cs.AI cs.CL

本文针对NLP数据集中存在重复、近似重复等冗余结构时，样本级排序不稳定的问题，提出了SCARV框架。该框架通过鲁棒的多种子聚合与结构感知的聚合/分配步骤，在现有评分代理之上提升排序的全局与局部稳定性。

"I Don't Know" -- Towards Appropriate Trust with Certainty-Aware Retrieval Augmented Generation

Daan Di Scala, Maaike de Boer, Pınar Yolum

cs.IR cs.AI

本文提出CERTA系统，通过结合问题、context和答案的相关性来反映LLM在回答中的不确定性，并构建了一个包含90个非客观问题的Certainty Benchmark。实验表明该方法能有效识别不确定答案并减少过度自信行为。

Seeking Information with RAG-Assistants: Does Model Size Matter in Human-AI Collaborations?

Lennard C. Froma et al.

cs.IR cs.AI cs.HC

本文评估了基于RAG的聊天助手在不同模型规模（3B, 8B, 70B）下的人机协作表现，发现混合系统在信息检索场景中显著优于纯模型基线，但用户感知的可用性和满意度在不同模型规模间差异不大。

Multimodal Data Curation Through Ranked Retrieval

Pratyush Muthukumar et al.

cs.IR cs.LG

本文提出了一种多模态数据策展框架，通过Symmetric Nucleus Subsampling (SNS)和Expert Embedding Engine (EEE)改进跨模态检索中的embedding对齐问题，实验表明该方法能显著缩小模态差距并提升下游模型性能。

The Pre-Training Study of Expanded-SPLADE Models on Web Document Titles

Hiun Kim, Tae Kwan Lee, Taeryun Won

cs.IR cs.CL

本文研究了Expanded-SPLADE (ESPLADE)模型在网页文档标题上的预训练效果，发现使用通用语料库和高学习率预训练的模型在检索微调后表现更好，但MLM预训练与ESPLADE微调之间存在对齐局限性。实验还揭示了严格剪枝设置下检索效果与检索成本之间的权衡关系。

Interactive Multi-Turn Retrieval for Health Videos

Chengzheng Wu et al.

cs.IR cs.CV cs.MM

本文构建了MHVRC数据集并提出了DATR框架，用于健康视频的多轮交互式检索，通过两阶段检索（粗检索+重排序）提升了检索效果。

Post-hoc Provider Fairness Adaptation via Hierarchical Exposure Alignment

Jingzhi Li et al.

cs.IR

本文提出了一种名为PFA的轻量级后处理方法，通过为冻结的推荐模型添加公平性适配器来调整provider曝光分布，无需重新训练。该方法使用Hierarchical Exposure Fairness Alignment (HEFA)来平衡组间和组内的曝光差异，并联合优化NDCG损失以保持推荐质量。

KG-First, LLM-Fallback: A Hybrid Microservice for Grounded Skill Search and Explanation

Ngoc Luyen Le, Marie-Hélène Abel, Bertrand Laforge

cs.IR cs.AI

本文提出了SkillGraph-Service，一个结合知识图谱与LLM的混合微服务系统，用于技能搜索与解释。系统采用KG优先、LLM备用的架构，通过混合检索引擎处理查询词汇不匹配问题，并在多语言数据集上验证了其检索效果与低延迟性能。

A Hybrid Retrieval and Reranking Framework for Evidence-Grounded Retrieval-Augmented Generation

Fariba Afrin Irany, Sampson Akwafuo

cs.IR

本文提出了一种混合检索与重排序框架，用于生物医学领域的证据驱动RAG。该框架通过混合检索和重排序提升证据相关性，并使用独立评估模型验证生成事实的准确性，在25个查询的实验中实现了100%的引用准确性。

FEDIN: Frequency-Enhanced Deep Interest Network for Click-Through Rate Prediction

Zenan Dai et al.

cs.IR cs.AI

本文提出了一种频率增强的深度兴趣网络FEDIN，通过引入频域分支和目标感知的频谱过滤机制来捕捉用户行为中的周期性模式，从而提升点击率预测的鲁棒性。实验表明该方法在多个数据集上优于现有baseline。

Bridging Behavior and Semantics for Time-aware Cross-Domain Sequential Recommendation

Zhida Qin et al.

cs.IR

本文提出了一种跨域序列推荐框架BST-CDSR，通过神经ODE建模行为偏好演化，并利用LLM和反事实增强生成时间感知语义偏好，以解决跨域推荐中交互频率和兴趣衰减被忽略的问题。实验表明该方法在真实数据集上优于基线。

Fair Agents: Balancing Multistakeholder Alignment in Multi-Agent Personalization Systems

Andrea Forster et al.

cs.IR

本文提出了一个用于平衡多利益相关者AI系统中LLM agents个性化推荐公平性的概念框架，整合了目标对齐、基于社会选择理论的聚合策略和评估方法，并通过旅游用例展示了其应用。

cs.CL

MAD-OPD: Breaking the Ceiling in On-Policy Distillation via Multi-Agent Debate ⭐ 精选

Jianze Wang et al.

cs.CL cs.AI cs.LG

MAD-OPD通过引入多智能体辩论机制（Multi-Agent Debate）将蒸馏教师重构为一个 deliberative collective，多个教师针对学生的on-policy state进行辩论，产生 emergent collective intelligence 以提供 token-level 监督，从而突破了单教师蒸馏的性能上限。该方法还提出了 On-Policy Agentic Distillation (OPAD)，通过 step-level sampling 稳定 agent 任务中长轨迹的误差累积训练，并推导了任务自适应散度原则（agentic任务用JSD，代码生成用reverse KL）。实验在Qwen3和Qwen3.5的六种师生配置（1.7B-14B学生，8B-32B教师）及五个agentic和代码基准上均取得最优，在14B+8B→4B设置下agentic平均提升+2.4%，代码平均提升+3.7%。该工作与关键词中的agent和code高度契合。

On Stable Long-Form Generation: Benchmarking and Mitigating Length Volatility ⭐ 精选

Zhitao He et al.

cs.CL

本文提出了VOLTBench基准，用于系统量化长文本生成的长度波动性，并通过分析attention traces揭示了导致该问题的内部模式。为解决此问题，作者提出了GLoBo方法，一种轻量级的decoding-stage优化策略，通过logits boosting在不需额外训练的情况下显著提升长度准确性和稳定性。实验表明，该方法将基础模型的平均输出长度提升148%，并将长度波动性降低69%，为长文本生成中的长度控制问题提供了开创性解决方案。

Focus on the Core: Empowering Diffusion Large Language Models by Self-Contrast ⭐ 精选

Jinyuan Feng et al.

cs.CL cs.AI

本文提出了一种名为FoCore的训练无关解码策略，用于改进Diffusion Large Language Models (DLMs)的生成质量。该方法基于两个关键发现：高信息密度(HD) tokens对输出质量有显著影响，且这些tokens在解码早期就会收敛。FoCore通过self-contrast机制，将HD tokens暂时重新掩码作为负样本，从而引导生成过程；其加速变体FoCore\_A在检测到HD tokens收敛后，对局部上下文窗口内的稳定候选进行并行解码，显著提升了生成效率。实验表明，该方法在数学、代码和逻辑推理任务上均能提升生成质量并加速解码，例如在HumanEval上将pass@1从39.02提升至42.68，并将解码步数减少2.07倍。

Automated Interpretability and Feature Discovery in Language Models with Agents ⭐ 精选

Arnau Marin-Llobet, Javier Ferrando

cs.CL cs.AI cs.HC

本文提出了一种基于多agent框架的自动化可解释性方法，用于发现和解释大语言模型中的内部特征。该系统通过两个耦合循环（解释精炼循环和特征发现循环）运行，利用agent生成竞争性假设、进行目标性prompt控制测试，并在activation space中构建k近邻图来检索候选特征。在Gemma-2系列模型和weight-sparse transformers的MLP神经元上，该方法相比一次性自动解释取得了显著改进，发现了语言特定和安全相关的特征，并生成了可审计的解释轨迹。这项工作为agent驱动的机械可解释性提供了开创性的自动化范式，与关键词中的agent概念高度契合。

Beating the Style Detector: Three Hours of Agentic Research on the AI-Text Arms Race ⭐ 精选

Andreas Maier, Moritz Zaiss, Siming Bayer

cs.CL cs.LG

本文提出了一种基于agentic research框架的自动化NLP实验复现方法，通过将人类研究者仅作为循环审查者（reviewer-in-the-loop），在3小时内复现并扩展了ACL 2026关于个人风格后编辑（personal-style post-editing）的研究。实验发现，GPT-5.5和Claude Opus 4.7在风格匹配任务上可缩小71%-75%的风格差距，远超人类后编辑的24%，并揭示了AI文本检测中的长度混淆（length confound）与真实风格特征（stylistic signature）差异。该工作为AI文本检测的对抗性研究提供了新视角，与关键词“agent”和“attention”高度契合。

ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming ⭐ 精选

Mario Rodríguez Béjar et al.

cs.CL cs.CR

本文提出ContextualJailbreak，一种基于进化搜索的黑盒red-teaming策略，通过模拟多轮对话中的contextual priming（上下文引导）来绕过LLM的安全对齐。该方法利用五类语义变异算子（包括新提出的troubleshooting和mechanistic算子）在对话空间中进行演化搜索，并采用分级harm score作为反馈信号。实验表明，该方法在多个开源模型上达到100%的攻击成功率（ASR），且部分攻击可迁移至闭源前沿模型，揭示了不同模型在alignment robustness上的显著不对称性。该工作与关键词中的“context”和“agent”较为契合，为多轮对话安全评估提供了新的自动化框架。

H-Probes: Extracting Hierarchical Structures From Latent Representations of Language Models

Cutter Dawes et al.

cs.CL cs.AI cs.LG

本文提出H-probes线性探针，从语言模型的latent representations中提取层级结构（如深度和距离）。实验表明这些结构在合成任务中低维且重要，但在真实数学推理中效果较弱。

DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA

Anirudh Iyengar Kaniyar Narayana Iyengar et al.

cs.CL cs.AI cs.CV

本文提出了DIAGRAMS，一个轻量级的、基于schema的审查框架，用于Diagram QA任务中的推理级归因。该框架通过解耦接口逻辑与数据集特定格式，实现了对图表、地图等视觉证据的高效选择和验证。

Model Organisms Are Leaky: Perplexity Differencing Often Reveals Finetuning Objectives

Mohammed Abu Baker, Luca Baroni, Dan Wilhelm

cs.CL cs.AI

本文提出了一种基于perplexity差异的简单方法，通过比较微调模型与参考模型在随机前缀生成文本上的perplexity差距，来揭示微调目标。该方法在多种模型生物（如后门模型、虚假事实内化模型等）上验证了有效性，且无需访问模型内部状态或微调前检查点。

Can AI Debias the News? LLM Interventions Improve Cross-Partisan Receptivity but LLMs Overestimate Their Own Effectiveness

Faisal Feroz, Jonas R. Kunst

cs.CL cs.CY

本文研究了LLM对新闻标题的去偏效果，发现基于意识形态框架的重构能提高跨党派接受度，但LLM高估了自身有效性，且其模拟的“硅基参与者”反应与真实人类存在偏差。

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Kevin H. Guo et al.

cs.CL cs.AI cs.LG

本文提出CLEAR框架，通过扰动决策空间中的选项数量、ground truth或abstention选项的存在以及语义框架，系统评估了噪声和歧义如何降低医学LLM的可靠性。研究发现，增加合理选项数量会削弱模型识别正确答案和弃权的能力，且模型规模扩大反而加剧了“谦逊赤字”（即正确回答与错误弃权之间的性能差距）。

Psychologically Potent, Computationally Invisible: LLMs Generate Social-Comparison Triggers They Fail to Detect

Hua Zhao, Jiapei Gu, Michelle Mingyue Gu

cs.CL

本文提出了XHS-SCoRE基准，用于检测小红书帖子是否引发向上、向下或中性的社会比较。研究发现，LLM在生成此类内容时表现流畅，但基于prompt的检测能力却不可靠，存在稳定的失败模式。

A Theoretical Game of Attacks via Compositional Skills

Xinbo Wu et al.

cs.CL

本文提出了一个攻击者与防御者之间的理论博弈框架，形式化了通过组合技能进行攻击的策略，并分析了博弈的均衡特性。该工作主要关注LLM安全对齐中的对抗性提示问题，与关键词列表中的概念关联较弱。

Compared to What? Baselines and Metrics for Counterfactual Prompting

Zihao Yang et al.

cs.CL cs.LG

本文指出反事实提示（counterfactual prompting）在评估LLM时，由于混杂了表面形式变化，其观测效应不能直接归因于目标变量。作者提出通过统计检验将目标干预下的差异与改写输入（paraphrasing）引起的差异进行比较，以消除一般模型敏感性的影响，并发现许多先前报告的偏差效应在控制后不再显著。

A Systematic Exploration of Text Decomposition and Budget Distribution in Differentially Private Text Obfuscation

Stephen Meisenbacher, Angelo Kleinert, Florian Matthes

cs.CL

本文系统评估了差分隐私文本混淆中多种文本分解与预算分配技术的组合效果，发现即使隐私预算相近，不同方法也会导致显著差异的结果。

Controlled Paraphrase Geometry in Sentence Embedding Space: Local Manifold Modeling and Latent Probing

Leonid Bedratyuk

cs.CL

本文研究了句子embedding空间中受控近义句子的局部几何结构，通过仿射、二次和三次拟合模型进行局部几何建模，并利用基于表面的潜在探测方法在降维的局部PCA空间中生成合成点。实验表明非线性模型比仿射模型更准确，但几何有效性并不直接提升分类性能。

Teaching LLMs Brazilian Healthcare: Injecting Knowledge from Official Clinical Guidelines

Hugo Abonizio et al.

cs.CL

本文针对巴西官方临床指南知识，通过持续预训练和GRPO强化学习微调Qwen2.5-14B模型，并构建了HealthBench-BR和PCDT-QA两个基准，在14B参数下超越了多个更大模型。该方法主要贡献于特定领域的知识注入，但与关键词中的code、spectral、Muon、agent、attention等概念无直接关联。

Interpretable Difficulty-Aware Knowledge Tracing in Tutor-Student Dialogues

Shuyan Huang et al.

cs.CL cs.AI

本文提出了一种基于LLM的可解释难度感知对话式知识追踪框架，通过显式建模学生能力和任务难度来预测学生表现，并整合Item Response Theory实现可解释输出。实验表明该方法在对话数据集上优于现有基线。

Component-Aware Self-Speculative Decoding in Hybrid Language Models

Hector Borobia, Elies Seguí-Mas, Guillermina Tormo-Carbó

cs.CL cs.AI

本文提出了一种针对hybrid language models的component-aware self-speculative decoding方法，利用模型内部的SSM/linear-attention子图作为零成本草稿。实验发现，并行混合架构（如Falcon-H1）的接受率远高于顺序混合架构（如Qwen3.5），且该性质具有尺度不变性。

Quantifying and Predicting Disagreement in Graded Human Ratings

Leixin Zhang, Çağrı Çöltekin

cs.CL

本文研究了分级人类评分中的标注分歧模式，提出了量化标注者观点对立的Opposition Index指标，并探讨了从文本特征预测标注分歧程度的可行性。结果表明预测的标注方差与观测值呈中等正相关，且高对立指数的实例更难被模型准确预测。

Compute Optimal Tokenization

Tomasz Limisiewicz et al.

cs.CL

本文研究了tokenization中压缩率（平均每token的字节数）对scaling law的影响，通过训练50M到7B参数的latent tokenized model (BLT)，发现计算最优配置下模型参数量与数据字节数成正比，且最优压缩率随计算量增加而减小。

SRA: Span Representation Alignment for Large Language Model Distillation

Quoc Phong Dao et al.

cs.CL

本文提出SRA框架，通过将token聚合成与tokenizer无关的span表示（基于多粒子动力学系统的质心概念）来改进跨tokenizer的知识蒸馏，并引入几何正则化器保持表示空间结构。实验表明该方法在跨架构蒸馏中优于现有基线。

Lost in the Tower of Babel: The Adverse Effects of Incidental Multilingualism in LLMs

Anjishnu Mukherjee, Chutong Meng, Antonios Anastasopoulos

cs.CL

本文指出当前多语言NLP存在“附带多语主义”的脆弱范式，即LLMs的多语言能力主要源于训练语料而非设计目标，并通过实验展示了模型在多语言提示下的不一致行为。文章呼吁转向“设计性多语主义”，但未涉及关键词中的code、spectral、Muon、agent或attention等具体技术方向。

GIFT: Guided Fine-Tuning and Transfer for Enhancing Instruction-Tuned Language Models

Zhiwen Ruan et al.

cs.CL

本文提出GIFT框架，通过从instruction-tuned model中提取confidence signals来指导pretrained base model上的低秩适配器微调，再将适配器合并回instruction-tuned model。该方法在数学和知识密集型benchmark上优于直接微调和基于transfer的baseline，但未涉及code、spectral、Muon或agent等关键词。

Addressing Data Scarcity in Bangla Fake News Detection: An LLM-Based Dataset Augmentation Approach

Ahmed Alfey Sani et al.

cs.CL

本文提出了一种基于LLM（Gemma 3 27B IT模型）的数据增强框架，通过生成合成孟加拉语新闻文本来解决假新闻检测中的数据稀缺问题。实验表明，对少数类进行高比例增强并配合随机子采样，可将Fake News F1分数从0.85提升至0.88。

Beyond Semantic Relevance: Counterfactual Risk Minimization for Robust Retrieval-Augmented Generation

Peiyang Liu et al.

cs.CL cs.IR

本文提出CoRM-RAG框架，通过因果干预和认知扰动协议训练轻量级证据评分器，以解决检索增强生成中语义相关性导致幻觉的“相关性-鲁棒性差距”问题。该方法在对抗性决策场景中优于传统密集检索器和基于LLM的重排序器。

Enhancing Game Review Sentiment Classification on Steam Platform with Attention-Based BiLSTM

Abit Ahmad Oktarian et al.

cs.CL

本文使用基于Attention的BiLSTM模型对Steam平台游戏评论进行情感分类，在5万条评论数据集上达到83%的准确率，并通过注意力可视化展示了模型的可解释性。

Sentiment Analysis of Mobile Legends App Reviews Using Machine Learning and LSTM-Based Deep Learning Models

Vira Putri Maharani et al.

cs.CL

本文比较了机器学习与基于LSTM的深度学习模型在Mobile Legends应用评论情感分析中的表现，使用TF-IDF和PyCaret AutoML作为传统方法基线。实验表明LSTM模型在捕捉文本序列依赖方面更优，准确率达92%。

Benchmarking LightGBM and BiLSTM for Sentiment Analysis on Indonesian E-Commerce Reviews

Lidia Natasyah Marpaung et al.

cs.CL

本文比较了LightGBM和BiLSTM在印尼电商评论情感分析任务上的性能，发现BiLSTM以98.87%的准确率优于所有ML模型，而LightGBM是训练效率最高的ML模型。该研究验证了BiLSTM在捕捉文本序列上下文方面的优势。

Creating and Evaluating Figurative Language Dataset for Sindhi

Wazir Ali, Adeeb Noor, Saifullah Tumrani

cs.CL cs.AI

本文介绍了SiNFluD，一个用于信德语比喻语言分类的新基准数据集，通过收集博客和社交媒体文本并标注，评估了mBERT、XLM-RoBERTa等预训练模型的表现，其中XLM-RoBERTa-XL取得了最佳性能。该工作主要贡献在于为低资源语言信德语提供了比喻语言处理资源，但与关键词列表中的概念无直接关联。

OralMLLM-Bench: Evaluating Cognitive Capabilities of Multimodal Large Language Models in Dental Practice

Rongyang Wang et al.

cs.CL

本文提出了一个名为OralMLLM-Bench的基准，用于评估多模态大语言模型在牙科影像分析中的认知能力，涵盖感知、理解、预测和决策四个层次。实验发现当前模型与临床医生之间存在显著性能差距。

A Multi-View Media Profiling Suite: Resources, Evaluation, and Analysis

Muhammad Arslan Manzoor et al.

cs.CL

本文构建了多视角媒体数据集MBFC-2025，并系统评估了多种embedding视图与融合策略（包括基于reinforcement learning的融合变体）在政治偏见与事实性检测任务上的表现，在ACL-2020上取得了state-of-the-art结果。

LLM Output Detectability and Task Performance Can be Jointly Optimized

Koshiro Saito et al.

cs.CL

本文提出PUPPET框架，通过强化学习微调LLM，使用检测器和任务评估器作为奖励函数，以同时优化机器生成文本的可检测性和下游任务性能。实验表明该方法在长文本问答、摘要等任务上优于水印方法，且对改写攻击具有鲁棒性。

Embedding-based In-Context Prompt Training for Enhancing LLMs as Text Encoders

Ailiang Lin et al.

cs.CL

本文提出EPIC方法，通过将离散的文本demonstrations替换为连续的embeddings，在训练时利用in-context learning提升LLM作为text encoder的表示能力，同时减少token开销。该方法在MTEB基准上取得了新SOTA结果，但与关键词中的code, context, spectral, Muon, pretrain, agent, attention无直接契合。

MTA: Multi-Granular Trajectory Alignment for Large Language Model Distillation

Pham Khanh Chi et al.

cs.CL

本文提出Multi-Granular Trajectory Alignment (MTA)框架，通过动态结构对齐损失和隐藏表示对齐损失，在层间轨迹上对齐教师与学生模型的表示，以改进知识蒸馏中的知识迁移效果。实验表明该方法在标准基准上优于现有基线。

A framework for analyzing concept representations in neural models

Burin Naowarat, Hao Tang, Sharon Goldwater

cs.CL cs.LG

本文提出了一个统一框架，用于分析neural model中概念子空间的containment和disentanglement性质，并通过实验比较了五种估计方法在文本和语音模型上的表现。研究发现，估计方法的选择会影响这些性质，且LEACE方法在测试中表现较好但仍存在泛化问题。

MemORAI: Memory Organization and Retrieval via Adaptive Graph Intelligence for LLM Conversational Agents

Hung Pham Van et al.

cs.CL

本文提出MemORAI框架，通过选择性记忆过滤、多关系图追踪和自适应子图检索来解决LLM对话代理的长期记忆问题。该方法在基准测试中取得了最优性能，但主要贡献在于工程实现而非理论创新。

Verbal-R3: Verbal Reranker as the Missing Bridge between Retrieval and Reasoning

Sangkwon Park et al.

cs.CL cs.AI cs.IR

本文提出了Verbal-R3框架，通过Verbal Annotations（一种显式表达查询与检索文本间逻辑联系的叙述性注释）来桥接检索结果与大语言模型的推理能力。该框架包含一个Generator和一个Verbal Reranker，通过相关性引导的测试时缩放来优化推理过程，在复杂问答基准上取得了最优性能。

Injecting Distributional Awareness into MLLMs via Reinforcement Learning for Deep Imbalanced Regression

Yao Du, Shanshan Li, Xiaomeng Li

cs.CL cs.CV cs.LG

本文针对多模态大语言模型在长尾分布下的数值回归问题，提出了一种基于Group Relative Policy Optimization的分布感知强化学习框架，通过引入Concordance Correlation Coefficient奖励来对齐预测与真实分布。该方法无需修改模型架构，在长尾回归基准上取得了改进。

Medmarks: A Comprehensive Open-Source LLM Benchmark Suite for Medical Tasks

Benjamin Warner et al.

cs.CL cs.AI

本文介绍了Medmarks，一个用于医疗任务的开源LLM评估套件，包含30个基准测试，并对61个模型进行了系统评估。结果显示前沿推理模型表现最佳，且模型存在答案顺序偏差。

Hallucinations Undermine Trust; Metacognition is a Way Forward

Gal Yona, Mor Geva, Yossi Matias

cs.CL

本文探讨了大型语言模型中的幻觉问题，提出通过元认知（metacognition）来对齐语言表达的不确定性与内在不确定性，从而在回答与放弃之间开辟第三条路径。文章主要从概念层面论证了元认知对于提升模型可信度的重要性，并未涉及具体算法或数学方法。

Artificial intelligence language technologies in multilingual healthcare: Grand challenges ahead

Vicent Briva-Iglesias

cs.CL cs.CY cs.HC

本文综述了AI语言技术（AILTs）在多语言医疗场景中的应用，指出其流畅输出不等于临床安全，并基于Human-Centered AI Language Technology视角提出了七大挑战。该论文为综述性质，未涉及code, context, spectral, Muon, pretrain, agent, attention等关键词中的具体技术方法。

Auditing demographic bias in AI-based emergency police dispatch: a cross-lingual evaluation of eleven large language models

William Guey et al.

cs.CL

本文提出了一种跨语言审计框架，用于评估11种大型语言模型在基于AI的紧急警察调度中的人口统计偏见。研究发现，当事件严重性模糊时，偏见会系统性地出现，且偏见在不同语言间不一致，例如性别偏见在中文中更显著，而种族偏见在英文中更突出。

ReMedi: Reasoner for Medical Clinical Prediction

Yushi Cao et al.

cs.CL

本文提出ReMedi框架，通过生成rationale-answer pairs并利用ground-truth作为hint进行fine-tuning和preference tuning，提升了EHR临床预测的F1分数。该方法主要关注数据增强与模型微调，与关键词中的code, context, spectral, Muon, pretrain, agent, attention无直接关联。

FT-RAG: A Fine-grained Retrieval-Augmented Generation Framework for Complex Table Reasoning

Zebin Guo, Weidong Geng, Ruichen Mao

cs.CL cs.AI

本文提出FT-RAG框架，通过将表格分解为细粒度语义单元并构建结构化图，结合结构邻居扩展和多模态融合，提升了复杂表格推理中检索增强生成(RAG)的性能。实验表明该方法在表格级和单元格级命中率上显著优于现有基线。

The grip of grammar on meaning uncertainty: cross-linguistic evidence, neural correlates, and clinical relevance

Rui He et al.

cs.CL

本文通过跨语言叙事分析，研究了语法如何压缩词汇意义的不确定性，并利用fMRI揭示了其神经相关性，发现这种压缩在失语症、痴呆和精神分裂症中显著减弱。该工作主要关注语言认知与临床神经科学，与关键词中的code、spectral、Muon、pretrain、agent、attention等无直接关联。

Fine-Tuning Pre-Trained Code Models for AI-Generated Code Detection

Jany-Gabriel Ispas, Sergiu Nisioi

cs.CL

本文针对AI生成代码检测任务，微调了CodeBERT等预训练代码模型，在二分类和11类归属任务上分别采用了留一语言交叉验证、分块推理和类别平衡损失等策略，最终在SemEval-2026任务中取得较好排名。

Where Do Prompt Perturbations Break Generation? A Segment-Level View of Robustness in LoRA-Tuned Language Models

Zhuoyun Li et al.

cs.CL cs.AI

本文提出S$^2$R$^2$框架，通过将生成文本分解为语义片段并利用optimal-transport进行对齐，来提升LoRA微调语言模型对prompt扰动的鲁棒性。该方法在摘要任务上优于基于整体一致性的基线方法。

Prosa: Rubric-Based Evaluation of LLMs on Real User Chats in Brazilian Portuguese

Roseval Malaquias Junior et al.

cs.CL cs.AI

本文提出了Prosa，首个巴西葡萄牙语真实用户多轮对话基准，并展示了使用二元rubric评分与多judge过滤可以消除LLM-as-a-judge评分中的模型偏差，提升排序一致性与区分度。

Beyond Perplexity: Character Distribution Signatures and the MDTA Benchmark for AI Text Detection

Priyadarshan Narayanasamy et al.

cs.CL

本文提出了一种基于字符分布特征（character distribution signatures）的AI文本检测方法，并构建了MDTA基准数据集。该方法与基于困惑度的方法相关性较低，但通过非线性分类器集成可提升检测性能。

MultiBreak: A Scalable and Diverse Multi-turn Jailbreak Benchmark for Evaluating LLM Safety

Jialin Song et al.

cs.CL

本文提出了MultiBreak，一个大规模、多样化的多轮越狱基准测试，用于评估大语言模型的安全性。它通过主动学习流水线生成对抗性提示，并发现多轮场景下某些看似无害的类别会展现出更高的攻击有效性。

GRAVITY: Architecture-Agnostic Structured Anchoring for Long-Horizon Conversational Memory

Yushi Sun et al.

cs.CL cs.AI

本文提出GRAVITY，一种即插即用的结构化记忆模块，通过从对话中提取实体图谱、时序因果链和跨会话主题摘要，在生成时注入prompt作为结构化锚定上下文，以增强长程对话代理的推理能力。实验表明该方法在多种记忆系统上有效提升准确率，但未涉及代码、谱方法或预训练等关键词。

BIM Information Extraction Through LLM-based Adaptive Exploration

Sylvain Hellin et al.

cs.CL cs.AI

本文提出了一种基于LLM agent的adaptive exploration方法，用于从BIM模型中提取信息，通过让agent在运行时动态探索模型结构而非依赖固定数据组织，显著优于静态查询生成方法。

The Reasoning Trap: An Information-Theoretic Bound on Closed-System Multi-Step LLM Reasoning

Kwan Soo Shin

cs.CL

本文提出了一个信息论框架，分析了多步LLM推理中的“推理陷阱”现象，指出在封闭系统（如多智能体辩论）中，推理链满足Markov性质，并通过Data Processing Inequality证明了证据与推理输出之间的互信息会随步骤递减。实验表明，标准辩论方法会严重损害推理的忠实度，而所提出的EGSR方法能有效恢复。

TCDA: Thread-Constrained Discourse-Aware Modeling for Conversational Sentiment Quadruple Analysis

Xinran Li et al.

cs.CL cs.AI

本文提出TCDA框架，通过Thread-Constrained Directed Acyclic Graph (TC-DAG)过滤对话中的跨线程噪声并保留时序，以及Discourse-Aware Rotary Position Embedding (D-RoPE)缓解token级距离稀释问题，用于对话情感四元组分析。实验在两个基准数据集上达到最优性能。

EGAD: Entropy-Guided Adaptive Distillation for Token-Level Knowledge Transfer

Hao Zhang et al.

cs.CL

本文提出了一种基于entropy的自适应蒸馏策略EGAD，通过动态调整token级别的训练过程来提升知识蒸馏效率。该方法利用teacher模型的输出entropy指导课程学习、温度调整和双分支架构设计，实验验证了其有效性。

Less is More: Geometric Unlearning for LLMs with Minimal Data Disclosure

Chenchen Tan et al.

cs.CL

本文提出了一种名为Geometric Unlearning (GU)的方法，用于大语言模型的选择性遗忘。该方法无需访问原始训练语料，通过从少量安全参考prompt中提取低秩几何结构，并利用合成prompt对齐模型的隐藏表示，实现了对特定内容的有效抑制。

Only Say What You Know: Calibration-Aware Generation for Long-Form Factuality

Wen Luo et al.

cs.CL

本文提出了一种名为Calibration-Aware Generation (CAG)的框架，通过将知识探索与最终承诺解耦，并利用校准后的可靠性估计来优先选择可靠内容，从而提升长文本生成的事实性。该方法在多个基准上提升了事实性并减少了解码时间，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

The Compliance Gap: Why AI Systems Promise to Follow Process Instructions but Don't

Kwan Soo Shin

cs.CL cs.AI cs.CY cs.LG

本文发现AI系统在遵循过程指令时存在“合规差距”，即口头承诺与实际行动不符。通过理论证明和实验验证，指出这种差距在仅奖励文本的强化学习下不可避免，且无法从文本中检测。

RMGAP: Benchmarking the Generalization of Reward Models across Diverse Preferences

Yangyang Zhou, Yi-Chen Li

cs.CL cs.AI

本文提出了RMGAP基准，用于评估reward model在不同用户偏好下的泛化能力，通过构建包含多种语言风格回答和场景化prompt的数据集，发现现有模型在该基准上表现有限。

The Cylindrical Representation Hypothesis for Language Model Steering

Lang Gao et al.

cs.CL

本文提出了Cylindrical Representation Hypothesis (CRH)来替代Linear Representation Hypothesis (LRH)，用于解释大语言模型steering控制中的不稳定性。CRH认为概念表示具有圆柱结构，其中中心轴控制概念生成，而周围的normal plane则决定steering的敏感性，从而解释了即使使用对齐方向时steering结果仍会波动的原因。

Do Large Language Models Plan Answer Positions? Position Bias in Multiple-Choice Question Generation

Xuemei Tang, Xufeng Duan, Zhenguang G. Cai

cs.CL

本文研究了LLM在生成多项选择题时对答案位置的系统性偏好，通过实验发现模型在生成过程中会隐式规划答案位置，并利用activation steering方法部分控制这种位置偏差。

Spatiotemporal Hidden-State Dynamics as a Signature of Internal Reasoning in Large Language Models

Kotaro Furuya, Takahito Tanimura

cs.CL cs.AI

本文通过分析大语言模型在解码步骤和层之间的隐藏状态转换，识别出一种时空模式，并提出了一个无需训练的轨迹统计量StALT来区分正确与错误的推理轨迹。该研究为理解模型内部推理动态提供了实证，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

Maistros: A Greek Large Language Model Adapted Through Knowledge Distillation From Large Reasoning Models

Nikolaos Giarelis, Charalampos Mastrokostas, Nikos Karacapilidis

cs.CL

本文针对现代希腊语资源匮乏的问题，构建了CulturaQA数据集，并通过知识蒸馏从大型推理模型（LRM）中训练出希腊语大语言模型Maistros 8B。该工作主要贡献在于数据集构建与模型微调，但未涉及code, context, spectral, Muon, pretrain, agent, attention等关键词。

StressEval: Failure-Driven Dynamic Benchmarking for Knowledge-Intensive Reasoning in Large Language Models

Yongrui Chen et al.

cs.CL

本文提出StressEval，一个基于模型失败案例的动态数据合成框架，用于生成更具挑战性的测试实例，以评估大语言模型在知识密集型推理任务上的表现。该框架通过识别失败步骤、合成新实例并过滤模糊样本，构建了Dynamic OneEval基准，实验显示其能导致模型性能显著下降。

Learn-to-learn on Arbitrary Textual Conditioning: A Hypernetwork-Driven Meta-Gated LLM

Luo Ji et al.

cs.CL cs.LG

本文提出了一种基于hypernetwork的元门控机制，通过动态调整SwiGLU块中的$\beta$参数来增强LLM对文本条件的适应性，在多种条件类型上优于微调和元学习基线。

Enhancing Judgment Document Generation via Agentic Legal Information Collection and Rubric-Guided Optimization

Weihang Su et al.

cs.CL cs.AI cs.IR

本文提出Judge-R1框架，通过Agentic Legal Information Collection（动态规划代理检索法律条文）和Rubric-Guided Optimization（基于GRPO的强化学习优化）来提升法律判决文书的自动生成质量，在JuDGE基准上优于现有方法。

Counting as a minimal probe of language model reliability

Tianxiang Dai, Jonathan Fan

cs.CL

本文通过引入Stable Counting Capacity测试，发现大语言模型在计数任务上的可靠容量远低于其宣称的context长度，表明其流畅表现并不保证可靠的规则遵循能力。

A Multimodal Dataset for Visually Grounded Ambiguity in Machine Translation

Jingheng Pan et al.

cs.CL cs.AI

本文提出了一个名为VIDA的多模态机器翻译数据集，用于评估视觉信息在消解源语言歧义中的作用，并设计了基于大语言模型的消歧指标。实验表明，链式思维微调相比标准微调在消歧准确率上具有更好的泛化能力。

What Single-Prompt Accuracy Misses: A Multi-Variant Reliability Audit of Language Models

Ranit Karmakar, Jayita Chatterjee

cs.CL cs.AI

本文通过多变量可靠性审计，评估了15个开源语言模型在不同prompt变体下的准确性、校准性和鲁棒性，发现单prompt准确性无法反映模型的可靠性缺陷，且评估设计会显著影响结论。

Methods, Data, and Conceptual Change: Reflections from Two Quantitative Diachronic Case Studies

Catherine Wong, Bach Phan-Tat, Susan Fitzmaurice

cs.CL

本文通过两个定量历史语言学案例（EEBO-TCP语料库和皇家学会语料库），反思了定量方法与数据集属性之间的相互作用，论证了纯词汇频率方法的局限性，并指出数据集结构会影响语义变化检测的可靠性。

Pair2Score: Pairwise-to-Absolute Transfer for LLM-Based Essay Scoring

İbrahim Rıza Hallaç, Hasan Oğul

cs.CL cs.AI cs.LG

本文提出Pair2Score框架，通过两阶段学习将pairwise comparisons转化为absolute scoring，用于LLM-based essay scoring。实验表明，特定transfer配置能提升评分一致性，但并非所有设置均有效。

Enhanced LLM Reasoning by Optimizing Reward Functions with Search-Driven Reinforcement Learning

Arash Ahmadi et al.

cs.CL

本文提出一种搜索驱动框架，通过frontier language model生成候选reward函数，并用GRPO训练和GSM8K测试集上的F1分数进行筛选与迭代优化，以提升LLM在数学推理任务中的表现。实验表明，该框架能有效提升reward函数质量，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

EditPropBench: Measuring Factual Edit Propagation in Scientific Manuscripts

Garvin Kruthof

cs.CL cs.AI

本文提出了EditPropBench基准，用于评估LLM在科学手稿中传播事实编辑的能力，通过构建受控事实图和句子级标签来测试编辑一致性。实验发现当前LLM编辑系统在隐式编辑场景下仍会遗漏约30%的必要级联更新。

CLaC at SemEval-2026 Task 6: Response Clarity Detection in Political Discourse

Nawar Turk, Lucas Miquet-Westphal, Leila Kosseim

cs.CL cs.LG

本文针对SemEval-2026 Task 6中的政治话语回答清晰度检测任务，比较了微调encoder与基于prompt的LLM的性能。实验发现，LLM集成方法在多数类上优于微调encoder，且增加完整采访者轮次上下文能提升LLM性能但对encoder无效。

ARGUS: Policy-Adaptive Ad Governance via Evolving Reinforcement with Adversarial Umpiring

Deyi Ji et al.

cs.CL

本文提出ARGUS，一个通过多智能体对抗仲裁实现策略自适应治理的系统，用于解决在线广告监管中因政策非平稳性导致的标签不一致和推理模糊问题。该系统采用三阶段框架（策略播种、对抗标签修正、潜在知识发现）并利用RAG增强策略知识和思维链合成作为强化学习的动态奖励。

An Information-theoretic Propagation Denoising and Fusion Framework for Fake News Detection

Mengyang Chen et al.

cs.CL

本文提出了一种基于信息论的传播去噪与融合框架InfoPDF，通过大语言模型生成属性特定的合成传播数据，并利用互信息目标学习压缩且任务充分的传播表示，以提升假新闻检测的鲁棒性。

Reliability-Oriented Multilingual Orthopedic Diagnosis: A Domain-Adaptive Modeling and a Conceptual Validation Framework

Danish Ali et al.

cs.CL cs.AI

本文研究了多语言骨科诊断中LLMs的可靠性，比较了不同建模方法，发现领域自适应模型IndicBERT-HPA在跨语言诊断中表现更优，并提出了一个概念性的确定性agent验证框架。

A Systematic Benchmark of Machine Transliteration Models for the Tajik-Farsi Language Pair: A Comparative Study from Rule-Based to Transformer Architectures

Mullosharaf K. Arabov

cs.CL

本文对塔吉克语（西里尔字母）到波斯语（阿拉伯字母）的音译任务进行了系统性的基准测试，比较了从基于规则到Transformer的多种架构。实验表明，基于字节级别的ByT5模型性能显著优于其他模型，而依赖subword tokenization的多语言模型则完全失效。

Compositional Multi-hop Factual Error Correction via Decomposition-and-Injection

Lei Zhu et al.

cs.CL

本文提出CECoR框架，通过分解多跳claims为可解释推理步骤并注入受控扰动来合成训练数据，结合两阶段学习策略提升事实错误纠正的准确性。该方法在多跳基准上表现优于现有方法，并有效泛化到单跳场景。

Structural Dilemmas and Developmental Pathways of Legal Argument Mining in the Era of Artificial Intelligence

Xianglei Liao, Chuanyi Li, Kun Chen

cs.CL

本文系统综述了法律论证挖掘在数据、技术和理论三个维度的发展现状，指出其发展缓慢的根本原因在于缺乏兼顾理论表达力与计算可行性的结构化表示方法，并提出了未来研究方向。

Decoding-Time Debiasing via Process Reward Models: From Controlled Fill-in to Open-Ended Generation

Muneeb Ur Raheem Khan

cs.CL cs.LG

本文提出了一种在解码时通过Process Reward Model (PRM)进行去偏的方法，将偏见缓解视为候选token的结构化搜索，无需修改模型权重。该方法设计了三种方案（Best-of-N选择、顺序批评与修正、宪法自我审计），并在多个模型和双语基准上验证了有效性，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

MolViBench: Evaluating LLMs on Molecular Vibe Coding

Jiatong Li et al.

cs.CL

本文提出了MolViBench，一个用于评估LLMs在分子编码任务中生成可执行程序能力的基准，包含358个任务和五层认知水平，并设计了多层评估框架来检测代码的可执行性和化学正确性。

When Correct Isn't Usable: Improving Structured Output Reliability in Small Language Models

Cosimo Galeone et al.

cs.CL cs.AI cs.LG

本文研究了小语言模型在结构化输出（JSON格式）中的可靠性问题，发现即使数学答案正确，格式错误也会导致输出准确率为0%。作者提出了AloLab，一个基于meta-agent（Claude Sonnet 4.5）的迭代系统提示优化器，无需微调即可显著提升输出准确率，但该方法与关键词中的agent概念有一定关联，创新性有限。

InfoLaw: Information Scaling Laws for Large Language Models with Quality-Weighted Mixture Data and Repetition

Fengze Liu et al.

cs.CL

本文提出了InfoLaw框架，通过将预训练建模为信息积累过程，利用数据质量权重和重复次数来预测大语言模型的loss，实现了对未见数据配方和更大规模训练（最高7B参数、425B tokens）的可靠外推。

Is It Novel and Why? Fine-Grained Patent Novelty Prediction Based on Passage Retrieval

Valentin Knappich et al.

cs.CL cs.AI cs.IR

本文提出了一个名为FiNE-Patents的细粒度专利新颖性预测数据集，并基于LLM设计了将专利权利要求分解为特征、检索现有技术文献中相关段落并判断新颖性的工作流。实验表明该方法在段落检索和特征识别上优于基于embedding的基线，且对虚假相关性更鲁棒。

Automatic Reflection Level Classification in Hungarian Student Essays

Zsolt Csibi et al.

cs.CL cs.AI

本文首次对匈牙利语学生作文中的反思水平自动分类进行了全面研究，使用专家标注的数据集比较了经典机器学习模型和匈牙利语特定transformer模型，并探讨了处理类别不平衡的策略。结果显示浅层模型在整体性能上略优，而transformer模型在少数类上泛化更好。

HalluScan: A Systematic Benchmark for Detecting and Mitigating Hallucinations in Instruction-Following LLMs

Ahmed Cherif

cs.CL

本文提出了HalluScan基准框架，用于系统评估指令跟随LLM中的幻觉检测与缓解方法，包含6种检测方法、4个模型家族和3个领域。主要贡献包括HalluScore复合指标、自适应检测路由算法以及错误级联分解分析。

PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention

Maoheng Li et al.

cs.CL cs.AI

本文提出了一种用于多模态讽刺检测的PC-MNet模型，通过极性调制注意力机制和标量一致性路由来建模文本与非语言线索之间的语义不一致性。实验在MUStARD基准上取得了优于现有方法的性能，但方法本身在创新性和与关键词的契合度上未达到严格标准。

Leveraging Argument Structure to Predict Content Hatefulness

Nicolas Benjamin Ocampo, Davide Ceolin

cs.CL

本文利用WSF-ARG+数据集中white supremacy论坛消息的argument structure（前提和结论）来预测整体消息的hatefulness，实验取得了高达96% F1的结果。该工作主要关注argument structure与hateful content identification的结合，与关键词列表中的概念关联较弱。

ATLAS: Article Tracking, Linking, and Analysis of Swedish Encyclopedias

Albin Andersson et al.

cs.CL

本文构建了一个流水线来恢复瑞典百科全书《Nordisk familjebok》的文本结构，包括提取词条、分类实体、跨版本匹配以及与Wikidata链接。实验取得了较高的F1分数和精度，展示了自动化处理历史数字化知识的可行性。

Accurate Legal Reasoning at Scale: Neuro-Symbolic Offloading and Structural Auditability for Robust Legal Adjudication

Stanisław Sójka, Witold Kowalczyk

cs.CL

本文提出了一种名为Amortized Intelligence的神经符号方法，利用LLM将法律文本翻译为确定性自治合同语言（DACL）的中间表示，并通过图执行进行裁决。该方法在降低计算成本的同时提高了推理一致性，但主要聚焦于法律领域的应用，与关键词中的code、agent等概念关联较弱。

A multilingual hallucination benchmark: MultiWikiQHalluA

Freja Thoresen, Dan Saattrup Smart

cs.CL

本文利用多语言数据集MultiWikiQA和LettuceDetect框架，为30种欧洲语言训练了token级别的hallucination分类器，并评估了多个模型在英语、丹麦语、德语和冰岛语上的hallucination率，发现低资源语言（如冰岛语）的hallucination率显著更高。

Revisiting Semantic Role Labeling: Efficient Structured Inference with Dependency-Informed Analysis

Sangpil Youm, Leah Jones, Bonnie J. Dorr

cs.CL

本文重新审视了Semantic Role Labeling (SRL)任务，提出了一个基于现代编码器的框架，该框架在保持显式谓词-论元结构的同时实现了10倍推理加速，并采用依赖关系诊断方法分析了LLM的行为。该工作主要关注NLP领域的结构化推理，与关键词中的code, spectral, Muon, agent, attention等概念无直接关联。

Benchmarking Retrieval Strategies for Biomedical Retrieval-Augmented Generation: A Controlled Empirical Study

Devi Prasad Bal, Subhashree Puhan

cs.CL cs.AI cs.IR

本文在生物医学领域对五种检索策略（Dense Vector Search, Hybrid BM25 + Dense, Cross-Encoder Reranking, Multi-Query Expansion, MMR）进行了受控实证比较，发现Cross-Encoder Reranking在上下文精度上表现最佳，而所有RAG方法均显著优于无上下文基线。该研究为RAG系统的检索组件选择提供了基准，但未涉及关键词中的code, spectral, Muon, pretrain, agent, attention等主题。

SemEval-2026 Task 7: Everyday Knowledge Across Diverse Languages and Cultures

Nedjma Ousidhoum et al.

cs.CL

本文介绍了SemEval-2026 Task 7共享任务，旨在评估LLM和NLP系统在多种语言和文化上的适应性，使用了扩展的BLEnD基准测试，涵盖30多种语言-文化对。任务包含简答题和选择题两个赛道，吸引了超过140个注册参与者，最终收到62个团队的提交和19篇系统描述论文。

Dependency Parsing Across the Resource Spectrum: Evaluating Architectures on High and Low-Resource Languages

Kevin Guan, Happy Buzaaba, Christiane Fellbaum

cs.CL cs.AI cs.LG

本文比较了四种dependency parsing架构在高低资源语言上的表现，发现Biaffine LSTM在低资源场景下优于transformer模型，而transformer的优势随数据量增加而恢复。形态复杂度是影响transformer相对劣势的次要因素。

Synthetic Users, Real Differences: an Evaluation Framework for User Simulation in Multi-Turn Conversations

Yu Lu Liu et al.

cs.CL

本文提出了realsim评估框架，用于从8个维度（如交际功能、用户状态等）比较真实与模拟的多轮对话，发现模拟用户难以捕捉真实交互中的沟通摩擦，且性能在不同领域存在差异。

Mapping Discourse Reframing: A Multi-Layer Network Approach to Italian HPV Vaccine Discourse on X (2010-2024)

Lorella Viola

cs.CL cs.CY cs.NI

本文提出了一种多层网络框架，通过hashtag共现网络分析意大利HPV疫苗话语在X平台上的重构与放大，识别了核心话语联盟与边缘标签的投影关系。该方法主要关注计算社会科学中的话语分析，与关键词中的code, context, spectral, Muon, pretrain, agent, attention无直接关联。

Fuzzy Fingerprinting Encoder Pre-trained Language Models for Emotion Recognition in Conversations: Human Assessment and Validity Study

Patrícia Pereira, Helena Moniz, Joao Paulo Carvalho

cs.CL cs.AI

本文提出了一种将Fuzzy Fingerprints与预训练语言模型结合的方法，用于对话情感识别，通过模糊相似性匹配来减少对中性类别的过度分类。该方法在性能上达到当前最优水平，并提供了分类过程的可解释性。

mdok-style at SemEval-2026 Task 9: Finetuning LLMs for Multilingual Polarization Detection

Dominik Macko, Alok Debnath, Jakub Simko

cs.CL cs.AI

本文通过微调中等规模LLMs并使用QLoRA技术，处理多语言极化检测任务。该方法在数据增强上做了工作，但缺乏与关键词相关的开创性贡献。

mdok-style at SemEval-2026 Task 10: Finetuning LLMs for Conspiracy Detection

Dominik Macko

cs.CL cs.AI

本文针对SemEval-2026 Task 10中的阴谋论检测任务，提出了一种基于数据增强和self-training的方法，微调Qwen3-32B模型进行二分类。该方法源自机器生成文本检测领域，在竞赛中取得了第8名的成绩。

Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

Chenchen Zhang

cs.CL

本文通过orchestration traces（一种时间交互图）研究基于LLM的多智能体系统的强化学习，识别了奖励设计、信用分配和编排学习三个技术维度，并指出当前缺乏针对停止决策的显式RL训练方法。

FlexSQL: Flexible Exploration and Execution Make Better Text-to-SQL Agents

Quang Hieu Pham et al.

cs.CL

本文提出了FlexSQL，一个通过灵活数据库交互（包括探索schema、检查数据值和运行验证查询）来增强Text-to-SQL能力的agent系统。它生成多样化的执行计划并采用两级修复机制，在Spider2-Snow基准上取得了优于强开源基线的性能。

cs.DS

New Bounds for Kernel Sums via Fast Spherical Embeddings

Tal Wagner

cs.DS cs.LG

本文研究了估计核均值问题的查询时间下界，提出了一个新的界$\tilde O(d+\varepsilon\Delta^2+1/\varepsilon^3)$，改进了高斯核在特定参数区域内的已知结果。其证明核心是一个新的快速球面嵌入定理，该定理限制了嵌入数据的直径并保持了局部Euclidean距离。

A Unified Approach to Minimizing Symmetric Submodular Functions

Satoru Iwata, Haruto Konno

cs.DS cs.DM

本文引入了一种称为minimum capacity ordering的排序方法，并将其扩展为参数化的$\alpha$-ordering，统一了之前用于对称submodular function最小化的maximum adjacency ordering和minimum degree ordering。通过证明$\alpha$-ordering的一般不等式，该框架将已知的pendent-pair和flat-pair结果作为特例恢复，并表明对于$\alpha \in [-1, 1]$，该排序的末两个元素构成可收缩对，从而得到一个$O(n^3)$次oracle调用的收缩算法。

Randomized $k$-server in polynomial time

Christian Coester, Romain Cosson

cs.DS

本文提出了一种将随机化$k$-server算法转化为仅使用$O(\log k)$随机比特的确定性框架，从而在任意$n$点度量空间上首次实现了具有多对数竞争比的多项式时间随机化$k$-server算法。

A fine-grained dichotomy for the center problem on Gromov hyperbolic graphs

Guillaume Ducoffe

cs.DS cs.CC

本文研究了Gromov hyperbolic graphs上中心问题的细粒度复杂度，提出了一个针对$\frac 1 2$-hyperbolic graphs的线性时间算法，并基于Hitting Set Conjecture排除了对$1$-hyperbolic graphs存在类似算法的可能性。

Undirected Replacement Paths: Dual Fault Reduces to Single Source

Jakob Nogler, Virginia Vassilevska Williams

cs.DS

本文研究了无向图中的双故障替换路径问题(2-FRP)与单源替换路径问题(SSRP)之间的关系，通过一个紧的归约证明2-FRP并不比SSRP更难，并据此获得了与SSRP最优运行时间匹配的2-FRP算法。

On the power of standard DFS and BFS

Binh-Minh Bui-Xuan et al.

cs.DS

本文研究了标准DFS和BFS在图类识别中的能力，证明了单次DFS可识别trivially perfect图，单次BFS可识别split图和bipartite chain图，并改进了proper interval图的识别算法。这些结果基于避免特定模式的顶点序刻画，并证明了连通proper interval图的特殊序在反转和真孪生置换下唯一。

A Polynomial Kernel for Vertex Deletion to the Scattered Class of Proper Interval Graph and Trees

Ashwin Jacob, Arpit Kumar, Diptapriyo Majumdar

cs.DS cs.DM

本文研究了(Proper-Interval, Tree)-Vertex Deletion问题的polynomial kernelization，给出了一个包含$O(k^{33})$个顶点的kernel。该工作为参数化算法领域提供了新的kernelization结果，但与关键词列表中的概念关联较弱。

Ranking with Partitioning

Samuel Boardman

cs.DS cs.CY

本文研究了基于图相似性和加性度量的物品排序问题，通过组合优化模型分析特殊子集在序数排序中的位置，并分类了相关问题的计算复杂度。

others

LLM Ghostbusters: Surgical Hallucination Suppression via Adaptive Unlearning ⭐ 精选

Joseph Spracklen et al.

cs.CR cs.AI cs.CL cs.LG

本文提出了一种名为Adaptive Unlearning (AU)的后部署框架，用于抑制大型语言模型（LLM）在代码生成中的幻觉（hallucination）问题，特别是针对虚构软件包推荐导致的供应链攻击（slopsquatting）。AU通过混合token级目标函数同时强化有效输出并抑制幻觉输出，结合无需人工监督的自适应发现循环持续挖掘新的幻觉诱导上下文，从而实现对未见提示和幻觉的泛化。实验表明，AU将包幻觉率降低81%，且对标准编码基准测试的性能影响极小，其效果集中在目标分布上，与关键词中的code和agent领域高度契合。

MAGIC: Multi-Step Advantage-Gated Causal Influence for Multi-agent Reinforcement Learning ⭐ 精选

Haohan Yu et al.

cs.MA cs.LG

本文提出MAGIC框架，通过条件互信息（conditional mutual information）进行因果干预（causal intervention）来量化多智能体间的长期因果影响，并引入基于优势函数（advantage）的门控机制（gating mechanism）将这种影响转化为内在奖励（intrinsic reward），以引导探索朝向有益于协调的行为。该方法在MPE和SMAC/SMACv2等标准MARL基准上显著优于现有方法，主要评估指标提升至少10.1%，为多智能体强化学习中的协调信号设计提供了开创性思路。

AFFormer: Adaptive Feature Fusion Transformer for V2X Cooperative Perception under Channel Impairments ⭐ 精选

Xi Zhou et al.

cs.CV cs.AI

本文提出AFFormer，一种基于Transformer的框架，用于在V2X协同感知中应对信道损伤（如噪声和干扰）导致的特征退化。其核心创新在于通过Multi-Agent and Temporal Aggregation模块建模agent间和时序的context相关性，并利用Uncertainty-Guided Fusion基于entropy动态融合特征，从而提升鲁棒性。该方法在V2XSet和DAIR-V2X数据集上验证，在理想和受损通信条件下均优于现有方法，为协同感知中的特征融合提供了新思路。

Trojan Hippo: Weaponizing Agent Memory for Data Exfiltration ⭐ 精选

Debeshee Das et al.

cs.CR cs.AI

本文提出了一种针对LLM agent memory系统的攻击方法Trojan Hippo，攻击者通过单个不可信的tool call（如伪造邮件）将休眠payload植入agent的长期记忆，当用户后续讨论敏感话题（如金融、健康、身份）时激活并窃取数据。该工作构建了动态评估框架，包含基于OpenEvolve的自适应红队基准测试和首个针对持久性memory系统的capability-aware安全/效用分析，在四种memory后端（explicit tool memory, agentic memory, RAG, sliding-window context）上对前沿模型实现了高达85-100%的攻击成功率。该研究系统性地揭示了agent memory的安全漏洞，与关键词"agent"高度契合。

When Alignment Isn't Enough: Response-Path Attacks on LLM Agents ⭐ 精选

Mingyu Luo et al.

cs.CR cs.AI

本文提出了一种针对LLM Agent的新型攻击方法——Relay Tampering Attack (RTA)，该攻击利用Bring-Your-Own-Key (BYOK)架构中第三方relay可以修改已对齐LLM响应的安全漏洞。RTA通过多轮策略性重写、最小化安全关键编辑以及将篡改后的输出重新提交给上游LLM进行隐蔽恢复，在AgentDojo和ASB基准测试中实现了高达99.1%的攻击成功率，显著优于prompt-injection基线方法。该工作揭示了即使LLM本身经过完美对齐，若缺乏端到端完整性保障，agent系统仍面临严重威胁，并提出了基于时间的检测防御方案。这与关键词“agent”高度契合，且方法具有开创性。

AI-Generated Smells: An Analysis of Code and Architecture in LLM and Agent-Driven Development ⭐ 精选

Yuecai Zhu, Nikolaos Tsantalis, Peter C. Rigby

cs.SE cs.AI

本文对LLM和Agent驱动的软件开发中生成代码的技术债务进行了系统性审计，发现AI生成代码存在独特的“机器缺陷”模式。作者通过多尺度分析（从单文件算法任务到复杂Agent生成系统）揭示了“推理-复杂度权衡”：模型能力越强，生成的代码越臃肿且耦合度越高，并建立了“体积-质量反比定律”，即代码体积几乎完美预测结构退化。该研究挑战了当前基于prompt的生成范式，将AI软件工程的核心问题从代码生成重新定义为架构复杂性管理，并强调未来需赋予Agent显式的架构前瞻性以确保可维护性。

A second-order method on the Stiefel manifold via Newton$\unicode{x2013}$Schulz ⭐ 精选

Xinhui Xiong, Bin Gao, P.-A. Absil

math.OC cs.AI cs.LG math.NA

本文提出了一种在Stiefel流形上无需retraction的二阶优化方法，通过Newton-Schulz迭代构造法向分量以降低不可行性，并建立了几何联系。该方法在正交Procrustes问题、主成分分析和独立成分分析等数值实验中优于现有方法，且与关键词“spectral”和“Muon”中涉及的矩阵正交化与二阶优化思想有一定契合。

Autonomous QA Agent: A Retrieval-Augmented Framework for Reliable Selenium Script Generation

Dudekula Kasim Vali

cs.SE cs.AI cs.LG

本文提出了一种基于Retrieval-Augmented Generation (RAG)的Autonomous QA Agent框架，用于生成Selenium测试脚本。该方法通过将项目文档和HTML结构存入vector database来检索相关上下文，从而减少LLM的hallucination问题，在电商测试场景中取得了较高的语法有效性和执行成功率。

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Abhinav Singh Parmar

cs.DC cs.AI cs.SE

本文提出了MCP Workflow Engine，通过将智能决策与执行分离，使用声明式工作流蓝图来减少LLM agent在重复任务中的token消耗。该方法在Kubernetes CMDB同步任务中实现了超过99%的token成本降低，但主要聚焦于工程实现而非理论创新。

GhostServe: A Lightweight Checkpointing System in the Shadow for Fault-Tolerant LLM Serving

Shakya Jayakody et al.

cs.DC cs.AI cs.PF

GhostServe提出了一种轻量级检查点系统，通过在host memory中存储基于erasure coding的parity shards来保护LLM推理中的KV cache，从而在设备故障时快速恢复推理过程。该方法降低了检查点延迟和恢复延迟，但主要关注系统容错而非关键词中的核心数学或算法创新。

Synthetic Designed Experiments for Diagnosing Vision Model Failure

Krisanu Sarkar

cs.CV cs.LG

本文提出SDRS方法，利用Design of Experiments理论中的fractional factorial designs和ANOVA分解，将合成数据生成器作为实验装置来诊断视觉模型的失败模式。该方法将模型失败分为Type I和Type II两类，并通过针对性数据提升性能，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Adaptive Alarm Threshold Prediction in 4G Mobile Networks: A Percentile-Guided Deep Learning Framework with Interpretable Outputs

Ayon Roy, Sadman Sharif, Shiva Prasad Sarkar

cs.NI cs.LG

本文提出了一种基于深度学习的自适应告警阈值预测框架，使用百分位数引导的标签推导策略，在4G网络数据上评估了多种模型，其中PCTN模型在参数更少的情况下表现最佳。该方法主要面向移动网络运维场景，与关键词中的核心概念关联较弱。

Generative-AI and the transformation of workforce. A job postings-driven analysis

Diana Maria Popa, Simona-Vasilica Oprea, Adela Bâra

cs.CY cs.AI

本文利用超过15万条英文招聘数据，通过词法技能提取、主题建模（BERTopic, LDA, KMeans）和时间序列预测（ARIMA）等方法，分析了生成式AI对劳动力市场技能需求的影响。研究发现，2021年后与AI相关的技能（如prompt engineering）需求显著增长，而常规任务需求下降，并预测到2025年AI与软技能将呈现结构性融合趋势。

The Oracle's Fingerprint: Correlated AI Forecasting Errors and the Limits of Bias Transmission

Theodor Spiro

cs.CY cs.AI

本文研究了大型语言模型（LLMs）在预测任务中的误差相关性，发现不同模型（如GPT-4o、Claude和Gemini）的预测误差高度相关，且这种偏差模式与人类已有偏差相似，但尚未显著传播到人类群体预测中。

Graph Query Generation with Constraint-guided Large Language Agents

Mengying Wang et al.

cs.DB cs.AI cs.CL

本文提出UniQGen框架，利用LLM agents和约束推理（扩展Chase & Backchase算法）将自然语言问题动态转化为可执行的Cypher图查询，在KGQA基准上提升了准确率和效率。该方法无需微调即可适应无schema图，但主要贡献在于工程化整合而非理论开创性。

Deep Learning for Multi-Antenna Modulation Recognition of Radio Signals

Tao Chen et al.

eess.SP cs.LG eess.SY

本文提出了一种用于多天线调制识别的深度学习方法MAMR-IQ，通过拼接多天线接收的IQ信号并输入卷积神经网络，相比现有方法提升了识别精度和计算效率。此外，针对少样本场景，还提出了一种基于天线间IQ序列交换的数据增强方法。

Earth System Foundation Model (ESFM): A unified framework for heterogeneous data integration and forecasting

Firat Ozdemir et al.

physics.ao-ph cs.AI cs.LG eess.IV

本文提出了Earth System Foundation Model (ESFM)，基于3D Swin UNet骨干网络，通过扩展编码方案和训练协议来整合异构数据（如卫星数据和站点数据），并引入axial attention以捕捉变量间依赖关系。该模型在密集网格数据、稀疏卫星数据等场景下表现出与基准相当的预测性能，并支持通过adaptive layer norm-based ensembles实现概率预测。

An Efficient Spatial Branch-and-Bound Algorithm for Global Optimization of Gaussian Process Posterior Mean Functions

Wei-Ting Tang et al.

math.OC cs.LG stat.ML

本文提出PALM-Mean算法，通过分段解析下界框架和降维空间分支定界法，实现了高斯过程后验均值函数的确定性全局优化。该方法在保持理论收敛性的同时，通过混合松弛策略提升了计算可扩展性。

1BT: One-Block Transformer for EEG-Based Cognitive Workload Assessment

Stefanos Gkikas et al.

eess.SP cs.AI cs.HC cs.LG

本文提出了一种名为1BT的单块Transformer模型，用于基于EEG的认知负荷评估。该模型通过最小化潜在瓶颈和交叉注意力模块实现高效计算，在11名参与者的实验中以少于0.5M参数和0.02 GFLOPs取得了高分类性能。

Foundation Model Guided Dual-Branch Co-Adaptation for Source-Free EEG Decoding

Peiliang Gong et al.

eess.SP cs.AI cs.LG q-bio.NC

本文提出FUSED框架，利用大规模EEG Foundation Model (FM)与紧凑型Specialist Model (SM)的双分支协同适应，解决源域无关的跨被试EEG解码问题。通过共识过滤与两阶段伪标签精炼机制提升伪标签质量，并采用校准-蒸馏流程优化决策边界，在多个EEG范式上取得最优性能。

A Hybrid Windkessel-Neural Approach for Improved Noninvasive Blood Pressure Monitoring

Vaibhav Gollapalli, Aniruth Ananthanarayanan

eess.SP cs.CE cs.LG

本文提出了一种结合Windkessel模型与机器学习的方法，用于无袖带血压监测，通过将Windkessel模型重写为ODE系统并嵌入神经网络，以提高模型的可解释性和物理一致性。实验基于MIMIC-II数据库验证了该方法在数值精度和生理有效性上的改进。

An Adaptive Spatiotemporal Clustering Framework for 3D Ocean Subsurface Temperature Reconstruction

Ming Shan Loo et al.

physics.ao-ph cs.LG

本文提出了一种自适应时空聚类框架，用于利用卫星遥感数据重建三维海洋次表层温度，通过结合多种深度学习模型（如DP-CNN、Attention U-Net和ViT）提升了重建精度。该方法主要针对海洋数据重建任务，与关键词中的概念关联较弱。

Voice Mapping of Text-to-Speech Systems: A Metric-Based Approach for Voice Quality Assessment

Huanchen Cai, Sten Ternström

eess.AS cs.AI eess.SP

本文提出了一种基于声学指标（crest factor, spectrum balance, cepstral peak prominence）的voice mapping评估框架，用于分析六个TTS模型的语音质量。研究发现voice range是模型能力的主要指标，且CPPs值在7-8 dB时对应自然语音质量。

How Well Can We Decode Vowels from Auditory EEG -- A Rigorous Cross-Subject Benchmark with Honest Assessment

Xiaoyang Li

eess.SP cs.CL cs.CV cs.LG cs.SD +1

本文针对听觉EEG中的五类元音解码问题，构建了一个严格的跨被试基准测试，比较了多种机器学习与深度学习方法，发现最优模型（XGBoost）准确率仅略高于随机水平（24.5% vs 20%），表明元音信息虽真实但非常微弱。

Autonomous Reliability Qualification of Ga$_2$O$_3$-based Hydrogen and Temperature Sensors via Safe Active Learning

Davi Febba et al.

physics.app-ph cond-mat.mtrl-sci cs.LG eess.SY

本文提出了一种Safe Active Learning (SAL)框架，用于在耦合热和氢应力下自主表征Ga$_2$O$_3$基整流器件的可靠性，通过高斯过程代理模型和自适应安全约束进行实验探索。该方法在仿真和实验中验证了其安全性，并用于离线退化建模，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Robust Cross-Domain WiFi Fall Detection via Physics-Driven Attention-Enhanced Transformers

Yingzhe Wang et al.

eess.SP cs.CV cs.LG

本文提出了一种基于WiFi CSI的跨域跌倒检测方法，通过物理驱动的Dynamic Variance Gate (DVG)和Physics-Aware Data Augmentation策略，结合Attention-Enhanced CNN-Transformer混合架构，在未见环境中实现了高精度检测。该方法主要解决了静态背景过拟合和NLoS信号衰减问题，但未涉及code、context、spectral、Muon、pretrain或agent等关键词。

An Algorithm for On-Sensor Agnostic Detection of Changes in Human Activity for Ultra-Low-Power Applications

Sara Rimoldi et al.

eess.SP cs.AI cs.LG

本文提出了一种用于超低功耗可穿戴设备的轻量级变化检测算法，通过动态模板匹配在传感器上实时检测人类活动变化，从而减少全时HAR网络的计算开销。该算法无需离线训练，在多个数据集上实现了高灵敏度与合理的特异性。

NAKUL-Med: Spectral-Graph State Space Models with Dynamics Kernels for Medical Signals

Badri N. Patro, Vijay S. Agneeswaran

eess.SP cs.AI cs.CV cs.LG

本文提出NAKUL模型，通过动态kernel生成、基于FFT的spectral上下文建模和graph引导的spatial attention机制，改进了state space models在多通道生理信号分析中的表现。该模型在脑电信号分类等任务上取得了与现有方法相当的精度，同时降低了参数数量和推理时间。

Multi-View Hierarchical Representation Learning of Fetal Hemodynamics for Maternal Hypertension Detection at the Edge

Alireza Rafiei et al.

eess.SP cs.AI cs.CV

本文提出AutoHyPE，一种用于从胎儿多普勒超声信号中检测母亲高血压的分层attention网络。该方法通过原型对比学习和多视图策略处理长尾分布和生物变异性，在边缘部署场景下实现了AUROC为0.80的性能。

BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios

Advait Tilak et al.

cs.MM cs.AI cs.CV

本文提出了BRITE基准，用于评估Text-to-Video (T2V)模型在不可信场景下的表现，通过结合不可信提示、细粒度音视频一致性评估和基于QA的可解释评估，揭示了现有模型在对象-动作绑定和音视频同步方面的性能差距。

Latent Space Probing for Adult Content Detection in Video Generative Models

Alizishaan Khatri, Chiquita Prabhu

cs.CV cs.AI cs.LG cs.MM

本文提出了一种针对视频生成模型（CogVideoX）的潜在空间探测框架，通过在推理过程中拦截去噪后的latent representation并附加轻量级classifier，实现了对成人内容的实时检测。该方法在包含11039个视频片段的数据集上达到了97.29%的F1分数，但并未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Visual Chart Representations for Cryptocurrency Regime Prediction: A Systematic Deep Learning Study

Dustin M. Haggett

cs.CV cs.AI

本文系统比较了三种图像编码方法（原始K线图、Gramian Angular Fields和多通道GAF）以及多种神经网络架构（CNN、ResNet18、EfficientNet-B0和Vision Transformer）在加密货币市场状态预测中的表现，发现简单的4层CNN在原始K线图上即可达到0.892 AUC-ROC，且更简单的表示方法（如仅价格图表、128x128分辨率）优于复杂方案。

OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

Yida Xue et al.

cs.MM cs.AI cs.CL cs.CV cs.LG

本文介绍了OceanPile，一个为海洋基础模型设计的大规模多模态语料库，包含统一数据集、指令数据集和评估基准，旨在解决海洋数据碎片化和多模态对齐问题。实验表明该数据集能提升模型性能，但方法本身在开创性上与关键词关联较弱。

Adversarial Flow Matching for Imperceptible Attacks on End-to-End Autonomous Driving

Xinyu Zeng et al.

cs.CV cs.AI

本文提出Adversarial Flow Matching (AFM)框架，通过利用E2E自动驾驶模型中Transformer模块的结构脆弱性，实现高效的单步对抗样本生成。该方法在攻击有效性与视觉不可感知性之间取得了良好平衡，并展现出跨模型迁移能力。

Towards High Fidelity Face Swapping: A Comprehensive Survey and New Benchmark

Qi Li et al.

cs.CV cs.AI

本文对face swapping（人脸交换）方法进行了全面综述，将其归纳为五种主要范式并分析了各自的设计原理与局限，同时提出了一个名为CASIA FaceSwapping的高质量benchmark（基准测试）以促进标准化评估。该工作为领域提供了统一的视角和评估框架，但并未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等核心概念。

Selective Correlation Based Knowledge Distillation for Ground Reaction Force Estimation

Eun Som Jeon et al.

cs.CV cs.AI cs.LG eess.IV eess.SP

本文提出了一种基于选择性相关性的知识蒸馏方法(SCKD)，用于从可穿戴鞋垫传感器数据中估计地面反作用力(GRF)，通过利用时间特征选择相关性图进行知识迁移，以生成轻量级模型。实验表明该方法在资源受限设备上优于现有技术，但未涉及关键词中的核心概念。

On the explainability of max-plus neural networks

Ikhlas Enaieh, Olivier Fercoq, García Ángel

cs.CV cs.LG

本文研究了max-plus神经网络的可解释性，利用其单神经元激活特性设计了一种像素脆弱性度量，并在PneumoniaMnist数据集上验证了其解释效果优于SHAP和Integrated Gradient。

Skeleton-Based Posture Classification to Promote Safer Walker-Assisted Gait in Older Adults

Sergio D. Sierra M. et al.

cs.CV cs.AI cs.LG

本文评估了几种机器学习模型（包括Geometric方法、XGBoost、SVM和深度学习架构）在智能助行器中对老年人步态姿势进行分类的效果，其中XGBoost和Geometric方法表现最佳。该研究主要关注助行器使用、站立与坐姿以及多种姿势的识别，但方法上未体现出与关键词相关的开创性或长期问题解决。

X2SAM: Any Segmentation in Images and Videos

Hao Wang et al.

cs.CV cs.AI

本文提出了X2SAM，一个统一的分割多模态大语言模型，将任意分割能力从图像扩展到视频。它通过结合大语言模型和Mask Memory模块，支持文本和视觉提示，在图像和视频上实现多种分割任务，并引入了新的视频视觉基础分割基准。

Retrieval-Guided Generation for Safer Histopathology Image Captioning

Md. Enamul Hoq et al.

cs.CV cs.AI cs.IR

本文提出了一种基于检索引导生成（RGG）的病理图像描述方法，通过总结视觉相似病例的专家文本而非直接生成描述，在ARCH数据集上提升了语义对齐度并减少了幻觉。该方法相比全生成模型更透明可靠，但未涉及code、context、spectral等关键词。

Transfer Learning for Tonal Noise Prediction in VRF Units Using Thermodynamic and Vibration Signals

ZhiWei Su et al.

eess.SP cs.AI cs.LG

本文提出了一种基于Domain-invariant Partial Least Squares (Di-PLS)的无监督迁移学习方法，用于预测变频空调室外机中双转子压缩机产生的二次谐波噪声。该方法利用热力学信号和加速度信号构建预测模型，通过提取跨工况共同特征来减小源域与目标域的分布差异。

When Less Is More: Simplicity Beats Complexity for Physics-Constrained InSAR Phase Unwrapping

Prabhjot Singh, Manmeet Singh

cs.CV cs.AI cs.LG

本文通过大规模消融实验证明，在物理约束的InSAR相位解缠任务中，简单的vanilla U-Net（7.76M参数）在$R^2$和RMSE上分别比基于attention的复杂模型（11.37M参数）提升34%和51%，且推理速度更快。Power Spectral Density分析表明，attention机制会引入违反弹性形变平滑约束的高频伪影，而卷积的局部性更适合平滑场回归。

A Deep Learning Model for Battery State Prediction towards Intelligent Energy Management

Athanasios Koukosiasa et al.

eess.SP cs.LG

本文提出了一种基于Deep Learning的电池状态预测模型，用于智能能源管理中的剩余容量和寿命预测。该模型通过整合advanced neural network architectures与大规模训练数据，实现了对电池退化动态的精确建模。

LatentDiff: Scaling Semantic Dataset Comparison to Millions of Images

James Flora et al.

cs.CV cs.LG

LatentDiff是一种可扩展的语义数据集比较框架，通过在预训练视觉编码器的latent space中结合sparse autoencoder和density ratio estimation来识别数据集间的语义差异，并引入了Noisy-Diff基准测试。该方法在计算效率上优于基于caption的替代方案，但对关键词列表中的概念无直接关联。

RA-CMF: Region-Adaptive Conditional MeanFlow for CT Image Reconstruction

Md Shifatul Ahsan Apurba, Md Selim, Jin Chen

cs.CV cs.AI

本文提出了一种用于CT图像重建的条件MeanFlow管道，结合了基于流的图像增强和强化学习驱动的空间增强控制，以自适应地处理不同区域的图像质量差异。该方法通过预测图像条件流场来建模增强轨迹，并利用区域强化学习策略网络分配细化预算，在肿瘤ROI上取得了较高的精度。

Validation of Whole-Slide Foundation Models for Image Retrieval in TCGA Data

Tianhao Lei et al.

cs.CV cs.IR

本文在TCGA数据集上系统比较了多种全切片foundation model在图像检索任务中的表现，发现不同模型间的性能差异主要受器官和诊断类型影响，而非架构本身。尽管TITAN模型整体最优，但优势有限，且所有方法在部分亚型上准确率为0%，表明仅依赖形态学的检索存在固有局限。

Generalized Category Discovery under Domain Shifts: From Vision to Vision-Language Models

Hongjun Wang, Po Hu, Kai Han

cs.CV cs.AI cs.LG

本文研究了域偏移下的广义类别发现（GCD）问题，提出了三种基于foundation model的框架：HiLo通过多级特征提取和互信息最小化解耦域与语义特征，HLPrompt引入语义感知的空间prompt tuning，VLPrompt利用vision-language model进行分解式文本prompt和跨模态一致性正则化。实验表明这些方法在合成和真实域偏移场景下优于强baseline。

TRIP-Evaluate: An Open Multimodal Benchmark for Evaluating Large Models in Transportation

Han Gong et al.

cs.CV cs.AI cs.LG

本文提出了一个名为TRIP-Evaluate的开放多模态benchmark，用于评估大模型在交通领域的表现，涵盖文本、图像和点云数据，并设计了角色-任务-知识分类体系以支持细粒度诊断。该工作主要贡献在于构建了一个可复现、可诊断的评估基线，但方法本身在理论或技术上的开创性有限，与关键词列表中的概念关联较弱。

Leveraging Imperfect Medical Data: A Manifold-Consistent Spatio-Temporal Network for Sensor-based Human Activity Recognition

Jiangtao Fan, Anish Jindal, Amir Atapour-Abarghouei

cs.CV cs.AI

本文提出了一种Manifold-Consistent Spatio-Temporal Network (MCSTN)，通过双层次corruption建模和双流spatio-temporal架构，解决传感器信号不完美条件下的Human Activity Recognition (HAR)问题，在多个基准数据集上验证了其鲁棒性。

The Cost of Consensus: Isolated Self-Correction Prevails Over Unguided Homogeneous Multi-Agent Debate

Blaž Bertalanič, Carolina Fortuna

cs.MA cs.AI

本文通过控制实验研究了同质化LLM团队（如Qwen2.5-7B等）在多轮辩论中的失败机制，发现同质化辩论在成本-准确率权衡上不如孤立自我修正，且存在谄媚性从众、上下文脆弱性和共识崩溃等失败路径。

Rethink MAE with Linear Time-Invariant Dynamics

Zice Wang

cs.CV cs.AI

本文提出SSMProbe，利用State Space Model作为离散LTI dynamical system来探测视觉模型（如MAE、DINOv2）的patch representations。通过将token排序视为信息调度问题，并引入可学习的soft permutation，揭示了不同预训练目标下token结构的异质性。

To Vibe Research or Not to Vibe Research? Generative AI in Qualitative Research

Katja Karhu, Kari Smolander, Jussi Kasurinen

cs.SE cs.AI

本文讨论了生成式AI在定性研究中的适用性争议，并分析了研究哲学（如small-q与Big Q方法）、技能、伦理和个人偏好等因素对研究者决策的影响。该论文主要聚焦于软件工程领域的定性研究方法论，未涉及关键词中的具体技术概念。

CellxPert: Inference-Time MCMC Steering of a Multi-Omics Single-Cell Foundation Model for In-Silico Perturbation

Andac Demir et al.

q-bio.GN cs.AI

CellxPert是一个多模态单细胞foundation model，通过Metropolis-Hastings采样器进行in-silico perturbation预测，在细胞类型注释和扰动响应预测上超越现有baseline。该方法主要关注生物信息学应用，与关键词中的code, context, spectral, Muon, pretrain, agent, attention关联度较低。

Code World Model Preparedness Report

Daniel Song et al.

cs.SE cs.AI

本文评估了Meta的Code World Model (CWM)在代码生成与推理方面的能力，并基于其前沿AI框架进行了风险测试。结论认为该模型未引入超出当前AI生态系统的额外前沿风险，因此以开放权重形式发布。

An ALE-Consistent Graph Neural Operator-Transformer Framework for Fluid-Structure Interaction

Shihang Zhao et al.

physics.flu-dyn cs.LG

本文提出了一种结合Graph Neural Operator与Vision Transformer的机器学习框架，用于变形非结构化网格上的流固耦合长期预测，通过ALE一致的边界校正和两阶段训练策略提升稳定性。该方法在柔性梁振动基准问题上验证了有效性。

PPO guided Agentic Pipeline for Adaptive Prompt Selection and Test Case Generation

Gourisetty Venkata Sai Koushik et al.

cs.SE cs.LG

本文提出了一种基于PPO强化学习的agentic框架，用于自适应选择提示策略以生成测试用例。该方法通过两阶段流程（代码精简与PPO驱动的提示选择）提升了分支和行覆盖率，实验表明其优于静态提示方法。

Co-Generative De Novo Functional Protein Design

Xinrui Chen et al.

q-bio.QM cs.AI

本文提出CodeFP，一种共生成蛋白质语言模型，用于从头设计功能性蛋白质，通过同时解码序列和结构token来提升功能一致性和可折叠性。该方法利用功能局部结构增强语义编码，并引入辅助监督以缓解训练歧义。

Equation-Free Digital Twins for Nonlinear Structural Dynamics

Mohammad Mahdi Abaei et al.

eess.SP cs.LG eess.SY

本文提出了一种基于Koopman算子理论和Hankel矩阵嵌入的秩优化数字孪生框架，用于非线性结构动力学的实时状态重建，并在NREL 5MW浮式海上风机上验证了其有效性。该方法通过将数据提升到线性不变子空间，实现了无需先验质量或刚度矩阵的输入盲重建。

E-MIA: Exam-Style Black-Box Membership Inference Attacks against RAG Systems

Zelin Guan et al.

cs.CR cs.AI

本文提出E-MIA方法，将目标文档中的可验证证据转化为考试形式，通过聚合多项客观题得分来判断文档是否被RAG系统收录，从而在黑盒场景下实现成员推断攻击。该方法在多个数据集和RAG配置下提升了成员与非成员的可分离性，并保持了查询的自然性和隐蔽性。

Energy-Based Constraint Networks: Learning Structural Coherence Across Modalities

Chirag Shinde

cs.CV cs.CL

本文提出了一种基于能量的约束网络架构，通过对比对学习模态内的结构一致性，使用state-space model和dual-head attention生成标量能量和逐位置能量分数。该架构在文本和视觉任务上展示了泛化能力，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Ablation Study of Multimodal Perception, Language Grounding, and Control for Human-Robot Interaction in an Object Detection and Grasping Task

Zi Tian, Guanting Shen

cs.RO cs.AI

本文对多模态人机交互系统中的三个模块（大语言模型、感知系统和控制器）进行了消融研究，通过对比不同配置来评估各组件对端到端性能的影响，旨在明确哪些选择主要影响执行时间或成功率。

Adaptive 3D-RoPE: Physics-Aligned Rotary Positional Encoding for Wireless Foundation Models

Chenyu Zhang et al.

eess.SP cs.AI

本文提出Adaptive 3D-RoPE，一种针对无线信道状态信息(CSI)建模的物理对齐旋转位置编码，通过可学习的3D频率库和轻量级信道条件控制器，将静态位置编码转化为动态的、相干性感知的归纳偏置。实验表明该方法在天线尺度外推和零样本泛化上优于现有方案。

MedMosaic: A Challenging Large Scale Benchmark of Diverse Medical Audio

Harshit Rajgarhia et al.

cs.SD cs.AI cs.CL

MedMosaic是一个医疗音频问答数据集，包含多种音频类型和46701个问答对，用于评估语言和音频推理模型在临床场景下的表现。实验表明，即使是最先进的模型如Gemini-2.5-pro也仅能达到约68.1%的准确率，揭示了医疗推理领域的持续局限性。

Toward a Scientific Discovery Engine for Weather and Climate Data: A Visual Analytics Workbench for Embedding-Based Exploration

Nihanth W. Cherukuru et al.

physics.data-an cs.AI cs.CV cs.IR

本文介绍了一个用于天气和气候数据的开源可视化分析工作台，通过embedding-based representations支持相似性搜索和类比检索，帮助科学家在latent space中探索气象现象并验证结果。系统将embedding实验与源数据、空间上下文和模型配置关联，并展示了在热带气旋检索中的应用。

SRTJ: Self-Evolving Rule-Driven Training-Free LLM Jailbreaking

Jindong Li et al.

cs.CR cs.CL

本文提出了一种名为SRTJ的自进化规则驱动无训练越狱框架，通过结合经验驱动的攻击生成与基于Answer Set Programming (ASP)的规则选择和约束感知组合，在不更新模型参数的情况下系统性地发现、组合和优化攻击策略。实验表明该方法在HarmBench基准上对不同目标LLM实现了稳定且较强的攻击性能。

Democratizing the medieval English legal tradition

Michael Zhang et al.

cs.CV cs.AI cs.CL

本文构建了一个包含193个中世纪刑事案件的数据集，并训练了基于CNN+LSTM和CTC解码的手写识别pipeline，用于转录中世纪拉丁文法律手稿。通过n-gram语言模型和Gemini Pro 3后处理，将单词准确率从79%提升至88%，并比较了TrOCR架构的局限性。

Pi-Change: A Prior-Informed Multiple Change Point Detection Algorithm

Jonathon Jacobs, Shanshan Chen

stat.ME cs.LG eess.SP

本文提出了一种名为Pi-Change的先验信息驱动的多重变点检测算法，通过在Pruned Exact Linear Time框架中引入时变惩罚项来整合变点位置的先验知识。该方法在保持动态规划递归和剪枝规则的同时，能有效抑制虚假变点并对先验误设具有鲁棒性。

EmoMM: Benchmarking and Steering MLLM for Multimodal Emotion Recognition under Conflict and Missingness

Yueru Sun et al.

cs.CV cs.AI

本文提出了EmoMM基准，用于评估多模态大语言模型在情感识别中的表现，并发现了视频贡献崩溃现象。为解决该问题，作者提出了CHASE机制，通过注意力引导来缓解决策偏差。

Certified Purity for Cognitive Workflow Executors: From Static Analysis to Cryptographic Attestation

Alan L. McCann

cs.CR cs.AI cs.PL

本文提出了一种针对认知工作流执行器的认证纯度架构，通过将WebAssembly编译目标限制为无副作用指令、结合密码学签名证书和运行时验证门，将治理执行从运行时约定转为结构性能力边界。该方法在BEAM虚拟机上实现了对五种绕过类别的消除，并证明了结构纯度、绕过消除、证书完整性和门完备性四个定理。

Differentiable Multiphysics Co-Optimization via Implicit Neural Representations: A Transient Hamburger-Cooking Benchmark

Navid Zobeiry

cs.CE cs.LG

本文提出了一种基于隐式神经表示的可微多物理协同优化框架，通过将几何形状表示为Fourier特征编码的signed distance field，并结合JAX编译的Eulerian多物理求解器，实现了对瞬态多物理系统中几何与物理参数的端到端联合优化。该方法在汉堡烹饪基准测试中展示了其有效性，但整体方法更偏向工程应用而非理论创新。

Separation Assurance between Heterogeneous Fleets of Small Unmanned Aerial Systems via Multi-Agent Reinforcement Learning

Iman Sharifi et al.

cs.MA cs.AI cs.GT cs.LG cs.RO

本文研究了异构小型无人机群（sUAS）在密集城市空域中的战术冲突解脱问题，采用基于注意力增强的PPOA2C多智能体强化学习框架，证明了异构机队策略可收敛至均衡状态，但均衡结果倾向于配置更强的机队，揭示了公平性管理的必要性。

Value Functions for Temporal Logic: Optimal Policies and Safety Filters

Oswin So et al.

cs.RO cs.AI cs.LG cs.LO math.OC

本文研究了时序逻辑（Temporal Logic）中值函数的最优性与策略最优性之间的关系，针对无限折扣horizon下的reach-avoid问题，构建了基于状态历史的非Markovian策略以避免任务无限期延迟，并证明了其在定量鲁棒性评分下的最优性。此外，文章展示了Q函数如何作为复杂TL规范的安全滤波器，扩展了先前在简单avoid或reach-avoid任务上的结果。

SCION: Size-aware Policy Orchestration for Nonstationary Object Caches (Long Paper Version)

Qizhi Wang

cs.DC cs.AI

本文提出SCION框架，通过离线训练的线性选择器，基于对象大小、可缓存性等轻量级工作负载指纹，在GDSF、S3-FIFO等少量缓存策略间进行选择，以应对非平稳对象缓存场景。实验表明，AUTO原型在多数工作负载上降低了缓存缺失率，但方法本身为工程优化，未涉及关键词中的核心理论或技术。

SURGE: SuperBatch Unified Resource-efficient GPU Encoding for Heterogeneous Partitioned Data

Shashank Kapadia et al.

cs.DC cs.LG

本文提出了SURGE，一个用于异构分区数据的高效流式GPU编码系统，通过成本模型和内存安全边界实现了与固定批量方法相当的吞吐量，同时显著降低了峰值内存使用并支持快速输出和容错恢复。该系统主要面向生产环境中的大规模文本嵌入生成任务，与关键词列表中的概念关联较弱。

Reconstructing conformal field theoretical compositions with Transformers

Haotian Cao et al.

hep-th cs.LG

本文研究了使用Transformer从低能谱中重建二维有理共形场论(RCFT)张量积的组成，在Wess-Zumino-Witten模型上达到了98%的准确率，并展示了模型对更大中心荷和未见类别的泛化能力。该工作主要关注共形场论的重建问题，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Benchmarking local Hebbian learning rules for memory storage and prototype extraction

Anders Lansner et al.

cs.NE cs.LG

本文比较了七种不同的Hebbian学习规则在非模块化和模块化递归网络中的联想记忆功能，重点评估了模式存储、权重信息容量和原型提取能力。结果表明，Bayesian-Hebbian学习规则在大多数测试条件下表现最佳。

A Sentence Relation-Based Approach to Sanitizing Malicious Instructions

Soumil Datta et al.

cs.CR cs.AI

本文提出了一种名为SONAR的prompt sanitization框架，通过构建句子级别的entailment和contradiction关系图来识别并移除恶意指令，从而防御针对LLM agents的注入攻击。该方法在多个模型和数据集上显著降低了攻击成功率。

Governing What the EU AI Act Excludes: Accountability for Autonomous AI Agents in Smart City Critical Infrastructure

Talal Ashraf Butt, Muhammad Iqbal, Razi Iqbal

cs.CY cs.AI cs.MA

本文分析了欧盟AI法案在智能城市关键基础设施中自治AI代理的问责缺失问题，指出法案排除了安全组件AI的某些权利，并通过四种残余路径（GDPR、侵权责任等）展示了问责的结构性局限。作为治理回应，论文提出了AgentGov-SC三层架构，包含25项治理措施和冲突解决规则，并通过场景分析验证了其激活模型。

RECAP: An End-to-End Platform for Capturing, Replaying, and Analyzing AI-Assisted Programming Interactions

Keyu He et al.

cs.SE cs.CL cs.HC

RECAP是一个开源平台，用于在VS Code中被动记录AI编程交互（包括聊天会话和代码编辑），并将其合并为统一时间线以支持回放和分析。该平台在软件工程课程中收集了学生数据，展示了如何通过链接数据和分析模块来研究开发者与AI的交互模式。

When Embedding-Based Defenses Fail: Rethinking Safety in LLM-Based Multi-Agent Systems

Lingxi Zhang, Guangtao Zheng, Hanjie Chen

cs.CR cs.LG cs.MA

本文分析了基于embedding的防御机制在LLM驱动的multi-agent系统中的失效原因，指出攻击者可通过构造embedding接近良性消息的文本来绕过检测。作者提出利用token-level的confidence scores（如logits）来修剪或降低消息权重，实验表明该方法能提升鲁棒性，但效果随通信轮次衰减。

Semantic Context-aware mOdality fUsion Transformer (SCOUT): A Context-Aware Multimodal Transformer for Concept-Grounded Pathology Report Generation

Suryakant Singh et al.

cs.CV cs.AI

本文提出SCOUT，一种基于context-aware多模态Transformer的病理报告生成框架，通过整合局部组织模式、全切片context和专家语义描述，实现渐进式视觉特征调制。该方法在多个数据集上取得了优于现有模型的BLEU和METEOR分数，但方法本身属于现有技术的组合应用，缺乏显著的开创性。

The Productivity-Reliability Paradox: Specification-Driven Governance for AI-Augmented Software Development

Sabry E. Farrag

cs.SE cs.AI

本文探讨了AI辅助软件开发中的生产力-可靠性悖论，通过文献综述提出了AI增强方法分类法和规范治理模型，指出规范纪律而非模型能力是AI辅助软件可靠性的关键约束。该研究主要关注软件工程实践，与关键词中的code和agent有一定关联，但方法上缺乏开创性且未解决长期存在的核心问题。

CADFit: Precise Mesh-to-CAD Program Generation with Hybrid Optimization

Ghadi Nehme, Eamon Whalen, Faez Ahmed

cs.CV cs.LG

本文提出CADFit框架，通过混合优化方法从mesh恢复可编辑的CAD构造序列，利用IoU驱动优化和几何反馈来拟合参数化操作。该方法在多个基准测试中优于现有方法，但与我提供的关键词列表关联度较低。

MindMelody: A Closed-Loop EEG-Driven System for Personalized Music Intervention

Yimeng Zhang, Yueru Sun, Haoyu Gu

cs.SD cs.AI

本文提出MindMelody，一个基于EEG的闭环实时音乐干预系统，通过情感介导的语义桥接（混合Transformer-GNN解码EEG信号为Valence-Arousal状态，再经RAG增强的LLM生成干预计划）实现个性化音乐生成。系统利用分层EEG控制器将全局和局部情感信息注入预训练音乐模型，并包含连续反馈循环以动态调整生成参数。

The Garden of Forking Paths: Narrative Arc-Conditioned Gameplay Planning

Yunge Wen et al.

cs.HC cs.AI

本文提出了Forking Garden框架，用于在程序化生成的游戏中根据用户提供的故事情节生成分支游戏，通过弧引导约束算法将独立节点组装成地牢图。该方法主要关注叙事结构在游戏设计中的应用，与关键词列表中的概念关联较弱。

FeedbackLLM: Metadata driven Multi-Agentic Language Agnostic Test Case Generator with Evolving prompt and Coverage Feedback

Kushal Jasti et al.

cs.SE cs.LG

本文提出FeedbackLLM，一种基于两阶段多智能体反馈的自动化测试用例生成框架，通过Line Feedback Agent和Branch Feedback Agent提取代码执行覆盖率的元数据来迭代优化测试用例，在C和Python程序上相比基线工具提升了行和分支覆盖率。

CNN-based Multi-In-Multi-Out Model for Efficient Spatiotemporal Prediction

Hyeonseok Jin

cs.CV cs.AI

本文提出了一种名为MIMO-ESP的CNN-Transformer混合模型，用于时空预测。该模型通过将CNN与Transformer架构结合，并独立处理时间轴，旨在解决传统CNN模型难以捕捉全局信息以及Transformer模型复杂度高的问题。

Position: LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics

Zijie Zhou

cs.DC cs.AI

本文主张LLM推理服务需要数学优化和算法基础，而非通用启发式方法，指出当前系统在请求路由、调度和KV cache驱逐等方面仍使用经典分布式计算的简单策略。文章呼吁开发能捕捉LLM推理独特结构（如动态增长的KV cache内存、prefill-decode阶段不对称性等）的数学模型，以实现具有理论保证的算法设计。

A Target-Free Harmonization Method for MRI

Minjun Kim et al.

eess.IV cs.AI

本文提出了一种名为TgtFreeHarmony的无目标域MRI图像harmonization方法，通过贝叶斯优化在解缠生成器构建的流形上搜索目标域风格，无需访问目标域数据即可实现图像对齐，从而保护数据隐私。该方法在脑组织分割任务上验证了有效性，但未涉及code、spectral或Muon等关键词相关技术。

Developing a Strong Pre-Trained Base Model for Plant Leaf Disease Classification

David J. Richter

cs.CV cs.AI

本文针对植物叶片疾病分类问题，构建了一个基于DenseNet201架构的新数据集和预训练基础模型，通过迁移学习提升了分类性能。该工作主要关注数据集的构建与模型微调，未涉及关键词中的核心概念。

Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

Peiyang Liu et al.

cs.CV cs.AI cs.CL cs.IR

本文提出了Chain of Evidence (CoE)框架，利用Vision-Language Models直接在检索到的文档截图上进行推理，输出精确的bounding boxes以可视化推理链，解决了迭代检索增强生成中文本级引用的粗粒度归因和视觉语义丢失问题。实验表明，微调的Qwen3-VL-8B-Instruct在需要视觉布局理解的场景中显著优于基于文本的baseline。

Are we Doomed to an AI Race? Why Self-Interest Could Drive Countries Towards a Moratorium on Superintelligence

Edward Roussel et al.

cs.CY cs.AI

本文使用game theory论证，在特定条件下，出于自身利益考虑，国家可能同意对Artificial Superintelligence (ASI)实施暂停。该分析基于对地缘政治超级大国间战略互动的形式化建模。

Machine Learning Enhanced Laser Spectroscopy for Multi-Species Gas Detection in Complex and Harsh Environments

Mohamed Sy

physics.optics cs.LG physics.app-ph

本文利用机器学习增强激光吸收光谱技术，通过深度去噪自编码器、盲源分离等方法，解决了复杂环境下多组分气体检测中光谱重叠、噪声干扰和参考数据缺失的问题，并实验验证了其有效性。

Spectral- and Energy-efficient Multi-BS Multi-RIS Pinching-antenna Systems: A GNN-based Approach

Changpeng He et al.

eess.SP cs.AI cs.NI

本文研究多基站多RIS辅助的pinching-antenna (PA)系统中的下行协调传输，通过联合优化PA位置、RIS相位、波束赋形和基站-用户关联来最大化sum rate和energy efficiency。为解决高度耦合的混合变量问题，提出了一种三阶段graph neural network (GNN)方法，实验表明该方法在性能和泛化性上优于基线。

Barren Plateaus as Destructive Interference: A Diagnostic Framework and Implications for Structured Ansatzes

Pilsung Kang

quant-ph cs.LG

本文通过引入基于相消干涉的诊断框架（包括cancellation ratio $R_k$、effective term count $N_{\mathrm{eff},k}$和interference-quality measure $B_{\mathrm{eff},k}$），将barren plateaus现象解释为梯度项间的相消干涉。在横场Ising模型上，硬件高效ansatz（HEA）始终处于随机符号相消区间，而哈密顿变分ansatz（HVA）则通过更好的符号组织逃离该区间。

Rethinking Model Selection in VLM Through the Lens of Gromov-Wasserstein Distance

Muyang Li et al.

cs.CV cs.LG

本文通过实验发现，在Vision-Language Model (VLM)中，选择视觉编码器的常见做法（如使用最大尺寸或最高zero-shot准确率的编码器）与最终VLM性能仅有弱到中等相关性。作者提出使用Gromov-Wasserstein距离来衡量跨模态结构相似性，并证明该指标能更有效地预测VLM性能。

Mean Testing under Truncation beyond Gaussian

Yuhao Wang, Roberto Imbuzeiro Oliveira, Themis Gouleakis

stat.ML cs.LG math.ST

本文研究了高维截断下均值检验的基本极限，刻画了截断偏差对可检测性的影响，并提出了一个简单的二阶检验方法。该工作主要关注统计学习理论，与关键词中的spectral、attention等方向关联较弱。

ABox Abduction for Inconsistent Knowledge Bases under Repair Semantics

Anselm Haak et al.

cs.LO cs.AI

本文研究了在修复语义下不一致知识库的ABox溯因问题，提出了针对不一致情况的溯因概念和有用假设标准，并分析了在轻量级描述逻辑DL-Lite和EL_bot下的计算复杂性。

Active Reasoning Vision-Language Models via Sequential Experimental Design

Anjie Liu et al.

cs.CV cs.AI cs.LG

本文提出了一种基于sequential Bayesian optimal experimental design (S-BOED)的active reasoning策略，用于缓解Vision-Language Models (VLMs)在gigapixel-level视觉感知中的perceptual bandwidth bottleneck问题。该方法通过训练无关的推理框架，在空间覆盖与分辨率之间进行平衡，并支持greedy sampling或look-ahead planning等优化算法，在gigapixel基准上提升了现有模型的性能。

VUDA: Breaking CUDA-Vulkan Isolation for Spatial Sharing of Compute and Graphics on the Same GPU

Bin Xu et al.

cs.OS cs.AI cs.DC

本文提出VUDA系统，通过channel重定向和page-table嫁接技术，打破了CUDA与Vulkan之间的执行隔离，实现了在同一GPU上对计算与图形任务的空间并行调度。实验表明，该方法在具身AI工作负载上相比时间共享基线可提升高达85%的吞吐量。

AgriKD: Cross-Architecture Knowledge Distillation for Efficient Leaf Disease Classification

Minh-Dung Le et al.

cs.CV cs.AI

本文提出AgriKD，一种跨架构知识蒸馏框架，将Vision Transformer (ViT)教师模型的知识迁移至轻量级卷积学生模型，通过输出、特征和关系层面的多目标蒸馏弥合Transformer与CNN之间的表征差距。实验表明，该学生模型在性能接近教师的同时，参数量减少约172倍，计算成本降低47.57倍，并在边缘设备上实现高效部署。

Data-Driven, Geometry-Aware Optimal-Transport Calibration of Flavor Tagger

Yeonjoon Kim, Un-ki Yang

hep-ex cs.LG hep-ph stat.ME

本文提出了一种基于最优传输的几何感知框架，用于解决风味标记器校准问题，通过等距对数比坐标系统参数化传输映射，并利用期望最大化技术从控制区域数据中提取风味条件目标分布。该方法在模拟闭合研究中展示了改进的校准效果。

From Characterization To Construction: Generative Quantum Circuit Synthesis from Gate Set Tomography Data

King Yiu Yu et al.

quant-ph cs.LG eess.SY

本文提出了一种基于量子机器学习控制(QMLC)的框架，直接从gate set tomography (GST)数据中学习生成概念空间，用于量子电路的条件合成，从而绕过传统的两步编译流程。该方法使用set-vision transformer处理tokenized的GST germ电路，并通过无条件扩散模型从概念空间中采样生成电路，旨在实现上下文感知的硬件原生电路合成。

MU-SHOT-Fi: Self-Supervised Multi-User Wi-Fi Sensing with Source-free Unsupervised Domain Adaptation

Ahmed Y. Radwan, Hina Tabassum

eess.SP cs.AI cs.LG

本文提出MU-SHOT-Fi，一种用于单用户和多用户Wi-Fi感知的无源无监督域适应框架，通过置换不变集预测、匈牙利匹配和占用加权信息最大化等技术，在无标签目标域数据下恢复多用户活动分类性能。该方法在WiMANS和Widar 3.0数据集上验证了跨环境、跨频率等域偏移下的有效性。

Sparse Representation Learning for Vessels

Chinmay Prabhakar et al.

cs.CV cs.AI

本文提出VAEsselSparse模型，利用sparse convolutions和attention机制对3D血管网络进行高效编码与压缩，实现8x8x8的空间压缩率。该模型在血管重建和分类任务中表现优于传统方法，但方法本身并非开创性突破，且与关键词列表关联较弱。

Using LLMs in Software Design: An Empirical Study of GitHub and A Practitioner Survey

Yifei Wang et al.

cs.SE cs.AI

本文通过混合方法研究（分析GitHub上的291个开发者-ChatGPT对话和对65位从业者的调查），探讨了LLMs在软件设计中的使用情况，识别了九类设计任务、七项益处和六项限制。研究揭示了开发者主要将LLMs用于知识获取和设计相关code生成，但存在输出冗长、code不可执行及依赖context导致幻觉等问题。

LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation

Dong Xu et al.

cs.SE cs.AI

本文提出了LiveFMBench基准，用于评估LLM和agent在C程序形式化规约生成中的能力，发现直接提示会高估性能，而agentic pipeline在低采样预算下更有效。

Investigating the Effects of Different Levels of User Control in an Interactive Educational Recommender System

Qurat Ul Ain et al.

cs.HC cs.AI cs.CY cs.IR

本文通过用户实验研究了交互式教育推荐系统中不同用户控制水平对感知控制、透明度、信任等指标的影响，发现输入控制（用户画像构建）对感知控制影响最强，但整体方法缺乏开创性且与关键词不相关。

AI Expert Twin: Capturing Expert Cognition for Human-Centred, Practice-Based Learning

Annie Yuan et al.

cs.HC cs.AI

本文提出了AI Expert Twin框架，用于将专家实践中的隐性知识（如程序性动作和决策过程）建模为结构化表示，并通过文化遗产工作坊案例验证了其可行性。该工作主要关注教育领域的人机交互，与关键词中的数学或算法概念关联较弱。

AMSnet-q: Unsupervised Circuit Identification and Performance Labeling for AMS Circuits

Ze Zhang et al.

cs.AR cs.AI

本文提出了一种名为AMSnet-q的全自动无监督pipeline，用于将AMS电路原理图直接转换为带有功能和性能标注的数据库，无需人工干预。该方法通过原理图到网表的转换、拓扑感知的testbench生成和基于仿真的尺寸验证，实现了电路功能的客观判定。

Who Decides What Is Harmful? Content Moderation Policy Through A Multi-Agent Personalised Inference Framework

Ewelina Gajewska et al.

cs.CY cs.CL

本文提出了一种基于LLM的多智能体个性化推理框架，用于内容审核，通过模拟用户敏感度来过滤有害内容，但未涉及关键词中的核心数学概念。

HepScript: A Dual-Use DSL for Human-AI Collaborative Data Analysis Workflows in High-Energy Physics

Junkun Jiao et al.

hep-ex cs.AI cs.MA

HepScript是一种为高能物理数据分析工作流设计的双用途领域特定语言(DSL)，它作为人类专家和AI agent之间的共享形式化接口，将分析逻辑抽象为约束语法。该方法在BESIII实验中减少了93%的人工代码量，并使AI agent能够以95%的成功率从文献中自动生成可执行规范。

VisInject: Disruption != Injection -- A Dual-Dimension Evaluation of Universal Adversarial Attacks on Vision-Language Models

Pang Liu, Yingjie Lao

cs.CR cs.AI

本文提出了一种双维度评估框架（Influence和Precise Injection），用于分析视觉语言模型上的通用对抗攻击。实验表明，虽然多数攻击能扰动模型输出，但真正实现精确注入目标概念的比例极低（仅0.756%），且主要发生在语义上已包含文本转录的载体上。

Stable Localized Conformal Prediction via Transduction

Yinjie Min, Liuhua Peng, Changliang Zou

stat.ME cs.LG

本文针对conformal prediction中预测集大小在有限calibration data下高变异性的问题，提出了Stable Conformal Prediction (StCP)方法，通过迁移学习利用有标签的source-task数据和无标签的target数据来提升set stability。该方法在理论上刻画了边际覆盖率和稳定性，实验表明在calibration data有限时能比标准方法生成更稳定的预测集。

SRGAN-CKAN: Expressive Super-Resolution with Nonlinear Functional Operators under Minimal Resources

Roberto Isai Navaro-Aviña et al.

cs.CV cs.AI

本文提出SRGAN-CKAN，将Convolutional Kolmogorov-Arnold Networks (CKAN)集成到对抗学习框架中，用基于spline的非线性局部变换替代传统卷积，以在有限资源下提升单图像超分辨率的表达力。实验表明该方法在保持重建保真度的同时改善了感知质量。

SplAttN: Bridging 2D and 3D with Gaussian Soft Splatting and Attention for Point Cloud Completion

Zhaoyang Li, Zhichao You, Tianrui Li

cs.CV cs.LG

本文提出SplAttN方法，用可微高斯喷溅替代硬投影以解决点云补全中的跨模态熵坍缩问题，在PCN和ShapeNet-55/34上取得最优性能。该方法通过连续密度估计改善梯度流动和跨模态连接的可学习性，并在KITTI基准上验证了对视觉线索的鲁棒依赖。

Decision Boundary-aware Generation for Long-tailed Learning

Jiacheng Yang et al.

cs.CV cs.AI

本文针对长尾学习中的决策边界偏差问题，提出了一种决策边界感知生成（DBG）框架，通过生成信息性的近边界样本来促进表示学习，从而在平衡数据集的同时获得更可分离的决策空间。该方法在标准长尾基准上提升了尾部类和整体准确率。

Practical Limits of Autonomous Test Repair: A Multi-Agent Case Study with LLM-Driven Discovery and Self-Correction

Hyukjoo Lee

cs.SE cs.AI

本文研究了基于LLM的多智能体自主测试系统在企业级UI测试中的实际限制，通过分析300份执行报告发现完全自主的测试修复会导致不稳定和误导性结果，而受约束的自主性结合人工监督才能保证操作可靠性。

LIE: LiDAR-only HD Map Construction with Intensity Enhancement via Online Knowledge Distillation

Kanak Mazumder, Fabian B. Flohr

cs.CV cs.AI cs.LG

本文提出LIE，一种仅使用LiDAR数据构建高精地图的方法，通过在线知识蒸馏将2D强度图作为辅助监督，以弥补LiDAR缺乏密集语义信息的不足。实验表明该方法在nuScenes等数据集上优于单模态方法，但对多模态融合或理论创新贡献有限。

Research on Vision-Language Question Answering Models for Industrial Robots

Ping Li, Bartlomiej Brzozka

cs.CV cs.AI

本文提出了一种用于工业机器人视觉语言问答的分层跨模态融合模型，通过集成目标检测、多尺度视觉编码和语义注意力机制来联合处理视觉与语言信号。实验表明该方法在IVQA和RIF基准上提升了语义对齐和Top-1准确率，但未涉及关键词中的code、spectral、Muon或pretrain等概念。

CGFformer: Cluster-Guidance Frequency Transformer for Pansharpening

Zijian Zhou et al.

cs.CV cs.AI cs.LG

本文提出CGFformer，一种基于聚类引导的频率Transformer，用于全色锐化任务。该方法通过K-means聚类自适应分离高低频成分，并结合双流精炼模块与Transformer交叉注意力机制去除噪声，最终实现空间与频率信息的有效融合。

Stabilizing Private LASSO under Heterogeneous Covariates via Anisotropic Objective Perturbation

Haruka Tanzawa, Ayaka Sakata

stat.ML cs.IT cs.LG

本文针对高维LASSO在差分隐私下的异质协变量问题，提出了一种基于Gram矩阵的各向异性目标扰动方法，通过“预失真”策略抵消协变量结构带来的扭曲，以恢复估计过程的各向同性。

MIRL: Mutual Information-Guided Reinforcement Learning for Vision-Language Models

Yin Zhang et al.

cs.CV cs.CL

本文提出MIRL框架，利用mutual information作为预筛选信号，通过forking机制优化RLVR中的采样预算分配，并解耦视觉感知与推理阶段的奖励，以提升VLM在复杂推理任务中的准确率。实验表明该方法在减少完整轨迹采样的情况下仍能取得性能提升。

6G Needs Agents: Toward Agentic AI-Native Networks for Autonomous Intelligence

Mohamed Amine Ferrag, Abderrahmane Lakas, Merouane Debbah

cs.NI cs.AI

本文提出了一种面向6G网络的Agentic AI-Native架构，利用基于LLM的agent在语义控制平面中实现推理与决策，并构建了四层架构与原型系统。实验揭示了推理能力与系统效率之间的权衡，表明异构部署是平衡延迟、吞吐量和准确性的关键。

Hall-Like Transversal Stress and Sandpile Criticality on Real Production Networks

Diego Vallarino

econ.EM cs.LG physics.soc-ph

本文构建了一个结合Hall效应横向应力与沙堆阈值动力学的经济不稳定模型，并在真实生产网络（WIOD数据）上进行了模拟。研究发现，外部冲击通过横向应力机制触发级联失效，但尾部分析显示其分布并非普遍幂律临界性，而是有限尺寸网络的结构脆弱性表现。

Neuro-Symbolic Agents for Hallucination-Free Requirements Reuse

Ahmed Ibrahim

cs.SE cs.AI

本文提出了一种神经符号多智能体系统，将需求复用重新概念化为模型驱动的启发式过程，利用LLM作为非确定性启发式来遍历确定性领域模型，并通过符号验证器消除结构无效的组合。

Feedback-Normalized Developer Memory for Reinforcement-Learning Coding Agents: A Safety-Gated MCP Architecture

Mehmet Iscan

cs.SE cs.CL cs.LG

本文提出了一种用于强化学习编码agent的本地优先、基于MCP的开发者记忆架构RL Developer Memory，通过issue_match、issue_feedback和issue_record_resolution等组件将记忆选择视为带日志的上下文决策过程，并采用确定性排序器与上下文赌博机残差策略结合的安全门控机制。实验在200个案例的基准上达到80%的决策准确率，但该方法主要关注记忆控制架构的可审计性，而非通用编码agent性能提升，与关键词中的code和agent有一定关联但缺乏开创性。

Minimum Specification Perturbation: Robustness as Distance-to-Falsification in Causal Inference

Hoang Dang, Luan Pham, Minh Nguyen

stat.ME cs.LG

本文提出了一种名为Minimum Specification Perturbation (MSP)的度量方法，用于量化因果推断中分析决策（如协变量选择、估计器选择）的稳健性。MSP定义为使置信区间包含零所需改变的最少决策数量，它能够捕捉基于离散度的总结无法报告的“距离-到-证伪”信息。

Less Interaction But More Explanation: A Communication Perspective on Agentic AI Interfaces

Eunchae Jang, S. Shyam Sundar

cs.HC cs.AI

本文从通信视角探讨了Agentic AI（自主执行工作流的AI系统）如何改变用户交互模式，提出其需要更少常规交互但更多解释性通信，并建议通过定制化解释（如action-process、uncertainty和coordination）来维护人类自主性。

The Case for ESM3 as a General-Purpose AI Model with Systemic Risk Under the EU AI Act

Taro Qureshi et al.

cs.CY cs.AI cs.LG

本文探讨了前沿生物基础模型ESM3在欧盟AI法案下的监管适用性问题，通过将其映射到生物风险链进行分析，认为当前该模型并未被法案有效监管，并提出了改进建议。该论文主要涉及AI政策与法规分析，与您提供的关键词（如code, spectral, Muon等）无直接关联。

Self-Normalized Martingales and Uniform Regret Bounds for Linear Regression

Fan Chen et al.

stat.ML cs.LG math.ST

本文研究了自归一化鞅的尺度不变上界问题，证明了在无额外假设时，非平凡尺度不变界仅在一维情形下存在，并给出了$O(\log T)$的界；对于高维情形，则证明了不可能存在此类界。该结果解决了在线线性回归中双重一致遗憾界的一个开放问题。

Exact Loop Controllers for ReLU Realization of Homogeneous Curve Refinements

Boldsaikhan Bolorkhuu, Tsogtgerel Gantumur

math.CA cs.LG

本文研究了作用于分段线性曲线的齐次细化算子，证明了其迭代可通过固定宽度、深度为$O(n)$的ReLU网络精确实现。主要创新在于引入了一种精确的环路控制器来处理残差动力学，并给出了网络权重的指数界。

From Cortical Synchronous Rhythm to Brain Inspired Learning Mechanism: An Oscillatory Spiking Neural Network with Time-Delayed Coordination

Tingting Dan, Guorong Wu

q-bio.NC cs.AI cs.LG

本文提出了一种受大脑启发的振荡脉冲神经网络S2-Net，通过微观脉冲神经元动态与宏观振荡同步的迭代交互实现认知级神经同步，并在神经活动解码、节能信号处理等任务上取得了良好结果。

TRIMMER: A New Paradigm for Video Summarization through Self-Supervised Reinforcement Learning

Pritam Mishra, Coloma Ballester, Dimosthenis Karatzas

cs.CV cs.AI

TRIMMER提出了一种基于self-supervised reinforcement learning的视频摘要新范式，通过两阶段训练（先自监督学习表征，再以信息论奖励函数指导强化学习）来生成摘要。该方法在无监督/自监督方法中达到了最优性能，但与我提供的关键词列表契合度较低。

IMPACT-HOI: Supervisory Control for Onset-Anchored Partial HOI Event Construction

Haoshen Zhang et al.

cs.CV cs.AI cs.RO

本文提出IMPACT-HOI框架，用于从第一人称视频中构建人-物交互的结构化事件图，通过混合主动控制策略减少人工标注负担。实验表明该方法在标注效率与事件匹配率上有所提升，但未涉及关键词中的核心概念。

IMPACT-Scribe: Interactive Temporal Action Segmentation with Boundary Scribbles and Query Planning

Qian Yin et al.

cs.CV cs.AI

本文提出IMPACT-Scribe，一个用于密集时序标注的交互式框架，通过边界涂鸦监督和查询规划来优化人工标注效率，实验表明其能提升标注质量与人机协作效果。

PRCD-MAP: Learning How Much to Trust Imperfect Priors in Causal Discovery

Xihang Shan, Da Zhou

stat.ML cs.LG stat.ME

本文提出PRCD-MAP方法，通过为每条边分配可学习的信任度来整合不可靠的外部先验知识到因果发现中。该方法使用经验贝叶斯校准信任度，并利用MLP在先验图中传播信任，从而在数据支持的区域增强信任、在矛盾区域抑制信任。

Missingness-aware Data Imputation via AI-powered Bayesian Generative Modeling

Qiao Liu

stat.ML cs.AI cs.LG

本文提出了一种名为MissBGM的缺失数据插补方法，通过结合神经网络的灵活性与Bayesian推断的统计严谨性，显式联合建模数据生成和缺失机制，并提供了插补的后验不确定性。该方法采用随机优化框架交替更新缺失值、模型参数和隐变量，并在理论上证明了估计的一致性。

Class-Aware Adaptive Differential Privacy in Deep Learning for Sensor-Based Fall Detection

Joydeb Kumar Sana

cs.CR cs.AI cs.LG

本文针对传感器跌倒检测中的隐私保护问题，提出了一种类别感知自适应差分隐私（CA-ADP）框架，通过根据每个mini-batch的类别组成动态调整梯度噪声，在保证$(\epsilon,\delta)$-差分隐私的同时提升了模型性能。实验表明该方法在多个数据集上优于传统均匀噪声的差分隐私方法。

Toward Resilient 5G Networks: Comparative Analysis of Federated and Centralized Learning for RF Jamming Detection

Samhita Kuili, Mohammadreza Amini, Burak Kantarci

cs.NI cs.CR cs.LG eess.SP

本文提出了一种基于federated learning的RF jamming检测框架，使用FedAvg算法训练1DCNN模型，在保护UE数据隐私的同时实现了97%的准确率和F1-score。该方法与centralized learning方法进行了对比，但未涉及code、context、spectral等关键词相关技术。

SplitZip: Ultra Fast Lossless KV Compression for Disaggregated LLM Serving

Yipin Guo, Siddharth Joshi

cs.DC cs.AI cs.LG

本文提出了一种名为SplitZip的GPU友好型无损压缩器，用于加速大语言模型推理中KV cache的传输。它通过利用浮点数指数的冗余性进行编码，在GPU上实现了极高的压缩和解压缩吞吐量。

SignVerse-2M: A Two-Million-Clip Pose-Native Universe of 25+ Sign Languages

Sen Fang et al.

cs.CV cs.AI cs.CL

本文构建了SignVerse-2M，一个包含超过25种手语、约两百万片段的大规模多语言pose-native数据集，通过统一预处理将原始视频转换为DWPose 2D关键点序列，并提供了SignDW Transformer基线以验证其在多语言pose空间建模中的可行性。该工作主要贡献在于填补了手语领域缺乏可直接对接现代pose驱动框架的开放世界数据资源的空白。

Motion-Aware Caching for Efficient Autoregressive Video Generation

Jing Xu et al.

cs.CV cs.AI

本文提出MotionCache，一种用于自回归视频生成的运动感知缓存框架，通过利用帧间差异作为像素级运动特征的轻量级代理，动态调整每个token的更新频率，从而在跳过冗余去噪步骤时减少误差累积。实验表明该方法在SkyReels-V2和MAGI-1模型上分别实现了6.28倍和1.64倍的加速，同时几乎不损失生成质量。

GEASS: Training-Free Caption Steering for Hallucination Mitigation in Vision-Language Models

Zeshang Li, Shuoyang Zhang, Jiashen Ding

cs.CV cs.AI

本文提出GEASS模块，通过门控机制和置信度加权来选择性利用自生成caption，以减少视觉语言模型中的对象幻觉。该方法无需训练，仅需两次额外前向传播即可提升模型在POPE和HallusionBench上的表现。

Architectural Obsolescence of Unhardened Agentic-AI Runtimes

Alfredo Metere

cs.CR cs.AI cs.MA

本文指出当前主流的单用户agentic-AI runtime（如OpenClaw）在安全审计方面存在架构性缺陷，无法检测四种关键的动作偏离模式（F1-F4），而通过引入七种特定运行时结构（如biconditional checker、hash-chained audit log等）的改进版本enclawed-oss则能实现完美的检测性能。文章强调这种差距是结构性的而非参数性的，并认为未加固的agentic-AI runtime在架构上已经过时。

Talk is Cheap, Communication is Hard: Dynamic Grounding Failures and Repair in Multi-Agent Negotiation

Yiheng Yao, Chelsea Zou, Robert D. Hawkins

cs.MA cs.AI

本文研究多智能体LLM在迭代谈判游戏中的动态grounding失败与修复问题，发现智能体对因缺乏交互历史、初始提议锚定、表面公平偏好及指代绑定失败而无法达成帕累托最优，揭示了动态grounding是多智能体协调中一个被忽视的关键瓶颈。

The (Marginal) Value of a Search Ad: An Online Causal Framework for Repeated Second-price Auctions

Yuxiao Wen et al.

cs.GT cs.IT cs.LG

本文从因果推断视角出发，将搜索广告的价值建模为赢得与失去拍卖之间的outcome difference（处理效应），并针对重复second-price auction（Vickrey auction）设计了在线学习算法，实现了rate-optimal regret。

Distributional Causal Mediation via Conditional Generative Modeling

Jinlun Zhang et al.

stat.ML cs.LG

本文提出Distributional Causal Mediation Analysis (DCMA)框架，利用conditional generative model从观测数据中恢复相关条件分布，并通过Monte Carlo forward simulation重建干预结果分布，以估计treatment通过多个mediator对整体结果分布的影响。该方法能捕捉经典summary effect和分布对比（如energy distance和Wasserstein distance），并推导了估计误差的传播界。

Anticipation-VLA: Solving Long-Horizon Embodied Tasks via Anticipation-based Subgoal Generation

Zhilong Zhang et al.

cs.RO cs.LG

本文提出Anticipation-VLA模型，通过自适应递归生成子目标来解决长时域具身任务中的累积误差问题，并在仿真和真实机器人任务中验证了有效性。该方法与关键词中的agent和context有一定关联，但整体创新性有限。

A Semi-Supervised Kernel Two-Sample Test

Gyumin Lee, Shubhanshu Shekhar, Ilmun Kim

stat.ML cs.LG stat.ME

本文提出了一种半监督kernel two-sample test方法，利用大量无标签的covariate数据来提升检验效能，并通过渐近正态性简化校准过程。该方法在理论上证明了其一致性，并在模拟中验证了其相对于传统kernel tests的优势。

Data driven approach for Outdoor Channel Prediction in 5G and Beyond

A. Sathi Babu, V. Udaya Sankar, Vishnu Ram OV

eess.SP cs.AI

本文针对5G及未来无线通信中的室外信道预测问题，提出了一种基于数据驱动的方法，利用射线追踪生成数据并训练机器学习模型（如线性回归）来估计信道系数，以降低传统方法的计算与通信复杂度。

Zero-Shot, Safe and Time-Efficient UAV Navigation via Potential-Based Reward Shaping, Control Lyapunov and Barrier Functions

Ashik Abrar Naeem, Mohammad Ariful Haque

eess.SY cs.LG cs.RO

本文提出将Potential Based Reward Shaping (PBRS)与Control Lyapunov Functions (CLF)和Control Barrier Functions (CBF)结合，用于无人机自主导航，以同时优化任务时间并保证安全性。该方法在简单环境中训练RL模型，然后通过CLF-CBF-QP滤波器在复杂场景中零样本部署。

Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation

Jiafeng Liu et al.

cs.SD cs.AI

本文提出了一种名为Khala的两阶段声学token语言模型框架，用于高保真音乐生成。它使用64层残差向量量化（RVQ）表示，通过粗到细的生成策略，在统一的声学token层次中逐步建模音乐的结构和细节，无需分离异构表示空间。

Discover Fast Power Allocation Solution for Multi-Target Tracking via AlphaEvolve Evolution

Zhenkang Hou et al.

eess.SP cs.AI

本文提出了一种基于大语言模型引导的进化搜索方法AlphaEvolve，用于自动发现多目标跟踪中的闭式功率分配方案。该方法通过编码雷达状态并进化出可解释的评分函数，实现了接近最优的跟踪精度和超过三个数量级的加速。

TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation

Xiaoda Yang et al.

cs.SD cs.AI

本文提出了TMD-Bench，一个用于评估文本驱动的音乐-舞蹈协同生成系统的基准，整合了单模态生成质量、指令遵循和跨模态节奏对齐的评估。该基准通过可计算的物理指标和感知多模态判断，揭示了现有模型在节奏耦合方面的不足。

Hybrid Visual Telemetry for Bandwidth-Constrained Robotic Vision: A Pilot Study with HEVC Base Video and JPEG ROI Stills

Natalia Trukhina, Vadim Vashkelis

cs.CV cs.LG cs.RO

本文提出了一种用于带宽受限机器人视觉的混合视觉遥测方案，使用HEVC基础视频流和JPEG感兴趣区域(ROI)静态图像的双通道传输架构，并通过实验协议在无人机数据集上比较了纯视频与混合方案在相同通信预算下的性能。该研究为后续使用JPEG AI作为语义静态图像通道的方法论奠定了基础。

GeoSAE: Geometric Prior-Guided Layer-Wise Sparse Autoencoder Annotation of Brain MRI Foundation Models

Favour Nerrise et al.

cs.CV cs.AI cs.LG

本文提出GeoSAE框架，利用几何先验（manifold structure）防止深度transformer层中的feature collapse，并通过去混淆偏相关（age-deconfounded partial correlations）对脑MRI基础模型进行可解释性标注。该方法在ADNI和AIBL数据集上验证了其识别生物标志物的能力，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Remote Action Generation: Remote Control with Minimal Communication

Szymon Kobus, Deniz Gündüz

cs.IT cs.AI cs.LG

本文提出了一种名为GRASP的远程控制框架，通过让控制器仅发送少量信息（而非完整动作指令），使actor能基于控制器策略进行本地采样生成动作，从而大幅降低通信开销。该方法利用importance sampling和actor端监督学习来逐步减少通信需求，在连续动作空间上实现了50倍的数据压缩。

Repurposing and Evaluating the (In)Feasibility of Dataset Poisoning enabled Watermarking for Contrastive Learning

Zhiyang Dai et al.

cs.CR cs.AI

本文研究了对比学习(Contrastive Learning)中数据投毒后门攻击的局限性，并发现触发样本与干净样本存在可区分的统计差异，从而将其重新用于数据集知识产权保护的水印方案。

Disentangled Anatomy-Disease Diffusion (DADD) for Controllable Ulcerative Colitis Progression Synthesis

Umut Dundar, Alptekin Temizel

cs.CV cs.AI

本文提出了一种名为Disentangled Anatomy-Disease Diffusion (DADD)的框架，用于可控的溃疡性结肠炎内窥镜图像生成。该方法通过特征净化器和三路径交叉注意力机制，将患者解剖结构与疾病严重程度解耦，并利用Delta Steering实现无训练的单次疾病过渡控制。

Stable Blanket with Hidden Variables and Cycles

Hanqing Xiang

stat.ML cs.LG stat.ME

本文研究了存在隐变量和因果循环的图模型中的稳定毯（stable blanket）问题，使用acyclic directed mixed graphs (ADMGs)和$m$-separation以及$\sigma$-separation等工具，将稳定回归的图论刻画从无环完全观测模型推广到了更一般的场景。

Quality-Aware Exploration Budget Allocation for Cooperative Multi-Agent Reinforcement Learning

Dahyun Oh, Minhyuk Yoon, H.Jin Kim

cs.MA cs.AI

本文提出了一种用于合作式多智能体强化学习(MARL)的探索预算分配框架，通过返回条件Sigmoid调度(RCB)控制全局探索强度，并利用奖励信号质量(RSQ)指标在智能体间分配探索预算。该方法在多个合作基准测试中取得了顶级回报，但未涉及关键词中的code, spectral, Muon, pretrain或attention等概念。

ShiftLIF: Efficient Multi-Level Spiking Neurons with Power-of-Two Quantization

Kaiwen Tang et al.

cs.NE cs.AI cs.LG

本文提出ShiftLIF，一种使用2的幂次量化实现的多级脉冲神经元，通过将膜电位映射到对数间隔的脉冲集来提升表示能力，并利用位移和累加操作避免乘法运算，在多个传感任务上实现了与现有方法相当的精度和接近标准binary LIF的能耗。

BadmintonGRF: A Multimodal Dataset and Benchmark for Markerless Ground Reaction Force Estimation in Badminton

Kuoye Niu et al.

cs.CV cs.AI

本文提出了BadmintonGRF数据集，包含同步的多视角视频、地面反作用力（GRF）和运动捕捉数据，用于羽毛球运动中的无标记GRF估计。该工作提供了基准任务和基线方法，但方法本身在技术上的开创性有限，且与关键词列表中的概念关联较弱。

Chart-FR1: Visual Focus-Driven Fine-Grained Reasoning on Dense Charts

Hongkun Pan et al.

cs.CV cs.AI cs.LG

本文提出Chart-FR1模型，通过Focus-CoT和Focus-GRPO方法增强多模态大语言模型在高信息密度图表上的细粒度感知与推理能力，并构建了HID-Chart基准。实验表明其性能优于现有模型。

Behavior-Grounded Lane Representation Learning for Multi-Task Traffic Digital Twins

Rei Tamaru, Pei Li, Bin Ran

cs.CV cs.AI

本文提出GeoLaneRep框架，用于交通数字孪生中的车道表示学习，通过联合编码静态几何、车辆轨迹和操作描述符来捕捉动态功能语义。实验在跨相机匹配和异常检测任务上取得了较好性能，但方法本身在理论或技术上的开创性有限，且与关键词列表中的概念关联较弱。

Spoken Language Identification with Pre-trained Models and Margin Loss

Zhihua Fang, Liang He, Weiwu Jiang

cs.SD cs.CL

本文针对TidyLang Challenge 2026中的说话人控制语言识别任务，提出了一种基于预训练ECAPA-TDNN模型和margin-based loss的方法，通过增强语言表示的判别性来提升分类性能。实验表明该方法在Tidy-X数据集上相比基线有显著提升。

Adaptive Estimation and Inference in Semi-parametric Heterogeneous Clustered Multitask Learning via Neyman Orthogonality

Hanxiao Chen, Debarghya Mukherjee

stat.ML cs.LG math.ST stat.ME

本文提出了一种自适应融合正交估计器，用于半参数异质聚类多任务学习，通过结合Neyman正交损失和数据驱动的成对融合惩罚，解决了任务间异质nuisance components带来的挑战。理论证明了聚类恢复和参数收敛速率，但方法主要关注统计推断而非与关键词相关的具体技术。

Extrapolation in Statistical Learning with Extreme Value Theory

Sebastian Engelke, Nicola Gnecco, Anne Sabourin

stat.ML cs.LG math.ST stat.ME

本文综述了极值理论在统计学习中的应用，特别是针对尾部数据稀疏时的外推问题，涵盖了回归、分类、降维和异常检测等任务，并讨论了渐近依赖与独立数据的理论框架。

SwiftChannel: Algorithm-Hardware Co-Design for Deep Learning-Based 5G Channel Estimation

Shengzhe Lyu et al.

cs.IT cs.AR cs.LG cs.NI

本文提出SwiftChannel框架，通过算法-硬件协同设计实现5G信道估计，采用带无参数attention机制的CNN从低分辨率LS估计重建全分辨率信道矩阵，并利用知识蒸馏、卷积重参数化和量化感知训练进行模型压缩。在FPGA上实现的硬件加速器相比GPU方案实现了24倍加速和33倍能效提升，但该方法主要面向工程优化，与关键词中的code、context、spectral、Muon、pretrain、agent等概念关联较弱。

ViM-Q: Scalable Algorithm-Hardware Co-Design for Vision Mamba Model Inference on FPGA

Shengzhe Lyu et al.

cs.AR cs.CV cs.LG

本文提出ViM-Q，一种面向FPGA的Vision Mamba模型算法-硬件协同设计方法，通过硬件感知的量化方案（动态per-token激活量化与4-bit APoT权重量化）和可运行时配置的FPGA加速器，解决了ViM模型在边缘设备上的高效部署问题。实验表明，该方法在低batch推理场景下相比量化GPU基线实现了显著的速度和能效提升。

Phone2Act: A Low-Cost, Hardware-Agnostic Teleoperation System for Scalable VLA Data Collection

Om Mandhane et al.

cs.RO cs.AI cs.HC

Phone2Act是一个低成本的、硬件无关的遥操作框架，通过将智能手机转化为6-DoF机器人控制器来收集VLA训练数据。它基于模块化的ROS 2架构，支持多种机器人平台，并可直接导出LeRobot格式的数据集。

LLM-Augmented Semantic Steering of Text Embedding Projection Spaces

Wei Liu et al.

cs.HC cs.CL

本文提出了一种利用大语言模型增强文本嵌入投影空间语义引导的方法，通过让分析师在投影中分组少量示例文档来表达语义意图，并使用LLM将其转化为自然语言表示并扩展到相关文档，从而无需重新训练模型即可调整投影布局。该方法通过文本增强或嵌入级混合实现语义信息的整合，并通过案例研究和模拟评估展示了其有效性。

Real-Time Text Transmission via LLM-Based Entropy Coding over Fixed-Rate Channels

Vishnu Teja Kunde et al.

cs.IT cs.LG

本文研究了在固定速率信道下，基于LLM的因果预测与熵编码（如Huffman, arithmetic coding, rANS）结合的实时文本传输系统，分析了压缩率与延迟之间的权衡关系。实验在GPT-2和Llama 3.2上验证了不同编码器的性能差异。

Benchmarking Wireless Representations: High-Dimensional vs. Compressed Embeddings for Efficiency and Robustness

Murilo Batista et al.

eess.SP cs.IT cs.LG

本文研究了无线信道表示中高维embedding与压缩表示的效率与鲁棒性权衡，通过多个下游任务（如LoS/NLoS分类、波束选择和功率分配）进行benchmark测试。结果表明高维embedding在少样本场景下表现良好但开销大，而autoencoder压缩表示在噪声鲁棒性和计算成本方面更具优势。

MIRA: A Score for Conditional Distribution Accuracy and Model Comparison

Sammy Sharief et al.

stat.ML cs.LG

本文提出了一种名为Mira的基于样本的评分方法，用于评估候选条件分布与真实数据生成过程的一致性。该方法通过分析概率质量分配来推导统计量，并展示了其在贝叶斯模型比较中的应用，但与我提供的关键词列表关联度较低。

U-HNSW: An Efficient Graph-based Solution to ANNS Under Universal Lp Metrics

Huayi Wang, Jingfan Meng, Jun Xu

cs.DB cs.DS

本文提出U-HNSW，这是首个基于graph的ANNS-U-L_p方法，通过使用$L_1$和$L_2$度量构建的HNSW graph索引生成候选点，并采用early-termination策略减少昂贵的$L_p$距离计算，在查询效率上显著优于现有LSH方法。

Conventional Commit Classification using Large Language Models and Prompt Engineering

H. M. Sazzad Quadir, Sakib Al Hasan, Md. Nurul Ahad Tawhid

cs.SE cs.AI

本文研究了使用大语言模型（LLMs）和prompt engineering对conventional commit进行分类，无需模型微调。实验表明few-shot prompting效果最佳，且模型规模对分类性能有显著影响。

VILAS: A VLA-Integrated Low-cost Architecture with Soft Grasping for Robotic Manipulation

Zijian An et al.

cs.RO cs.AI

本文提出了VILAS，一个集成了视觉-语言-动作(VLA)模型的低成本模块化机器人操作平台，通过ZMQ通信架构协调遥操作、数据收集与策略部署，并设计了基于kirigami的软夹爪扩展以实现对易碎物体的安全抓取。实验在葡萄抓取任务上验证了该平台的有效性，表明可在低成本硬件上成功训练和部署操作策略。

Optimization of CV-QKD Under Practical Constraints

Svitlana Matsenko et al.

cs.IT cs.AI quant-ph

本文使用reinforcement learning优化了CV-QKD系统在有限FIR filter taps、平均光子数和有限DAC/ADC分辨率等实际硬件约束下的性能，在现实条件下取得了显著的性能提升。

Principles and Guidelines for Randomized Controlled Trials in AI Evaluation

Christopher Kelly et al.

cs.CY cs.AI cs.HC cs.LG

本文为AI评估中的随机对照试验（RCT）建立了包含五个原则和33条指南的框架，重点强调以人类表现而非模型输出为中心，并整合了因果推断、异质性分析和透明度要求。该工作主要作为设计工具和评估标准，但未涉及代码、谱方法或预训练等关键词。

Coopetition-Gym v1: A Formally Grounded Platform for Mixed-Motive Multi-Agent Reinforcement Learning under Strategic Coopetition

Vik Pant, Eric Yu

cs.MA cs.AI cs.LG

本文提出了Coopetition-Gym v1，一个用于混合动机多智能体强化学习的基准平台，包含20个环境、126个参考算法和大量训练数据。该平台通过参数化奖励层和校准的相互依赖矩阵，为战略合作竞争场景提供了标准化的测试框架。

Faster Mixing for Triangulations via Transport Flows

Vedat Levi Alev et al.

math.CO cs.CG cs.DM cs.DS

本文通过发展transport flows框架，将凸$(n+2)$-gon上经典三角剖分翻转链的relaxation time和log-Sobolev time改进至$\widetilde O(n^2)$，从而得到mixing time的$\widetilde O(n^2)$上界，改进了此前$\widetilde O(n^3)$的结果。该工作向Aldous关于relaxation time的$\Theta(n^{3/2})$猜想迈出了重要一步。

Cripping AI: Reimagining AI Through Lived Disability Experiences

Xinru Tang et al.

cs.HC cs.AI

本文从crip theory（残障理论）出发，提出“cripping AI”框架，旨在将残障者的生活经验置于AI研究与开发的核心，而非仅关注“可及性”。文章通过聋哑与手语AI、盲人与视觉辅助AI、口吃与语音AI三个案例展示了该框架的应用，并指出了未来研究方向。

Fast Monte-Carlo

Irene Aldridge

econ.EM cs.DS math.ST q-fin.PR q-fin.RM

本文提出了一种基于eigenvalue的小样本近似方法，用于改进Markov Chain Monte Carlo，通过减少所需路径数量（从百万级降至十级）来加速计算，同时保持与Wasserstein距离衡量的分布稳健性。该方法在稳态分布上实现了显著的variance reduction。

Stochastic Modeling of Human-Machine Authentication Channels under Partial Information Leakage

Nilesh Chakraborty, Mohammad Zulkernine, Burak Kantarci

cs.CR cs.HC cs.LG

本文提出了一种随机建模方法，将PIN输入过程视为一个带噪的人机通信信道，并利用上下文条件概率推理来量化部分信息泄露下的可靠性损失。该方法将缺失数字视为latent variable，通过平滑条件概率分布进行估计，并在百万级真实数据集上验证了其有效性。

Context-Aware Wireless Token Communication via Joint Token Masking and Detection

Junyong Shin et al.

eess.SP cs.AI

本文提出了一种基于masked language model (MLM)的上下文感知token通信框架，通过联合设计发送端的token掩码策略和接收端的贝叶斯检测方法，实现了在噪声信道下对token的高效传输与重建。该方法利用共享MLM作为先验模型，在接收端结合信道似然进行推理，在发送端选择性省略可被可靠推断的token以集中功率。

FedQueue: Queue-Aware Federated Learning for Cross-Facility HPC Training

Yijiang Li et al.

cs.DC cs.LG

本文提出FedQueue，一种队列感知的联邦学习协议，通过在线预测各设施的队列延迟、基于截止时间的准入控制以及陈旧感知聚合，来应对跨HPC设施训练中的随机调度延迟问题。该方法在非凸目标下证明了收敛率，并在实际部署中相比基线算法有性能提升。

Ultrasound Vision-Language Alignment via Contrastive Learning

Zhuoyang Lyu et al.

cs.CV cs.LG

本文提出EchoCare-CLIP，一个基于CLIP风格的双编码器对比学习框架，用于对齐超声图像与临床文本。实验表明，该方法在跨模态对齐上优于基线，但更强的对齐并不保证更好的下游任务性能，且模板生成的文本描述效果不逊于LLM生成的描述。

A Parameter-Free First-Order Algorithm for Non-Convex Optimization with $\tilde{\mkern1mu O}(ε^{-5/3})$ Global Rate

Sichao Xiong, Sadok Jerad, Coralia Cartis

math.OC cs.LG

本文提出了一种无参数的一阶加速算法PF-AGD，用于求解充分光滑的非凸优化问题，并达到了目前最优的$O(\epsilon^{-5/3}\log(1/\epsilon))$复杂度界。该方法通过自适应回溯和梯度重启机制避免了预先知道光滑性常数，实验表明其性能优于同类无参数变体。

FLoRA: Fusion-Latent for Optical Reconstruction and Flood Area Segmentation via Cross-Modal Multi-Task Distillation Network

Jagrati Talreja, Tewodros Syum Gebre, Leila Hashemi-Beni

cs.CV cs.AI

FLoRA提出了一种跨模态多任务蒸馏网络，通过融合SAR和光学数据来同时进行光学图像重建和洪水区域分割。该方法利用轻量级光学教师网络引导SAR特征进入融合潜在空间，并采用多尺度窗口交叉注意力和FiLM条件化等技术。

H3: A Healthcare Three-Hop Index for Physician Referral Network Prediction

Zhexi Gu et al.

cs.SI cs.LG

本文提出H3指数，用于预测医生转诊网络中的链接，通过建模间接转诊路径并引入度归一化和冗余惩罚来处理网络稀疏性和枢纽节点噪声。实验表明该方法在转诊链接预测任务上优于经典启发式算法和深度学习基线。

Cross-Polarization Fusion of VV AND VH SAR Observations for Improved Flood Mapping

Jagrati Talreja, Tewodros Syum Gebre, Leila Hashemi Beni

cs.CV cs.AI

本文研究了VV和VVH极化SAR图像的交叉极化融合在洪水制图中的应用，使用深度学习分割框架比较了单极化与融合输入的效能。实验表明融合方法在植被和异质区域能更准确描绘洪水边界。

DocSync: Agentic Documentation Maintenance via Critic-Guided Reflexion

Sidhesh Badrinarayan, Adithya Parthasarathy

cs.SE cs.AI

本文提出DocSync，一种通过融合Abstract Syntax Tree表示和Retrieval-Augmented Generation来维护代码文档的agentic workflow，并利用基于Reflexion范式的critic-guided refinement loop确保事实一致性。实验表明，该方法在语义对齐等指标上优于标准baseline，但未涉及spectral、Muon或pretrain等关键词。

Heterogeneous Model Fusion for Privacy-Aware Multi-Camera Surveillance via Synthetic Domain Adaptation

Peggy Joy Lu et al.

cs.CV cs.DC cs.LG

本文提出HeroCrystal框架，用于多摄像头域自适应目标检测，通过扩散模型生成、联邦学习和知识蒸馏三个阶段解决数据隐私和架构异构问题。该方法在隐私保护设置下提升了mAP，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Solution independence and self-referential instances

Guangyan Zhou et al.

cs.CC cs.DS

本文研究了hitting set problem，发现solution independence是构造self-referential instances的关键性质。作为特例，vertex cover problem缺乏该性质，而hypergraph上的dominating set problem满足该性质，从而可以构造出具有irreducible性质的实例。

The Causal Description Gap: Information-Theoretic Separations Across Pearl's Hierarchy

Seyed Morteza Emadi

stat.ML cs.AI cs.IT cs.LG

本文通过Kolmogorov complexity量化了Pearl因果层级中不同层级查询所需的信息量差异，构造了二元无环SCM实例，证明观察分布描述长度恒定而单变量干预查询的描述长度可达$\Theta(n^2)$，并给出了有界入度SCM的上界。该工作主要关注因果层级间的信息论分离，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等主题无直接关联。

RAFNet: Region-Aware Fusion Network for Pansharpening

Jianing Zhang, Zijian Zhou, Kai Sun

cs.CV cs.AI cs.LG

本文提出了一种用于全色锐化的区域感知融合网络RAFNet，通过离散小波变换和K-means聚类实现空间与频率信息的自适应增强，并设计了基于语义聚类的稀疏注意力机制来降低计算复杂度。实验表明该方法在多个基准数据集上优于现有技术。

Trees and Graphs with Non Log-concave Dominating Set Sequence via AI Tools

Alina Du, Steven Heilman, Greta Panova

math.CO cs.AI cs.DM cs.LG

本文利用PatternBoost软件生成了新的图和树，其dominating set序列不满足log-concave性质，并通过对Bautista-Ramos构造的修改证明了存在树使得该序列在至少$m$个指标上不满足log-concave。此外，文章还证明了一类caterpillar图的dominating set序列是log-concave的，并给出了该序列的连续类比在所有图中也是log-concave的结论。

Metric Unreliability in Multimodal Machine Unlearning: A Systematic Analysis and Principled Unified Score

Abdullah Ahmad Khan, Hamid Laga, Ferdous Sohel

cs.CV cs.LG

本文系统研究了多模态机器遗忘中评估指标的不一致性，发现五个标准指标在VLM模型上产生冲突排名，并提出了一个基于Spearman相关性的统一质量评分UQS。该工作为多模态遗忘评估提供了基准和工具，但方法本身并非开创性突破。

MultiSense-Pneumo: A Multimodal Learning Framework for Pneumonia Screening in Resource-Constrained Settings

Dineth Jayakody, Pasindu Thenahandi, Chameli Dommanige

cs.CV cs.AI cs.LG

本文提出了一个名为MultiSense-Pneumo的多模态学习框架，用于在资源受限环境下进行肺炎筛查，该框架整合了症状描述、咳嗽音频、语音和胸部X光片等多种模态数据。系统通过确定性症状分诊、LightGBM声学分类、基于ResNet18的域对抗X光片分析以及可解释的多模态融合算子，生成统一的筛查评估。

Many Hamiltonians Are Sparsifiable

Arpon Basu, Joshua Brakensiek, Aaron Putterman

quant-ph cs.DS

本文研究了Hamiltonian稀疏化问题，即用少量项近似表示多量子比特Hamiltonian。作者证明了许多Hamiltonian（如r-局域Pauli串或特定秩的随机算子）可以被稀疏化，并指出这一现象与先前认知相反，但未直接涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

InfiltrNet: Dual-Branch CNN-Transformer Architecture for Brain Tumor Infiltration Risk Prediction

S M Asif Hossain, Shruti Kshirsagar

cs.CV cs.LG

本文提出了一种名为InfiltrNet的双分支CNN-Transformer架构，用于从多模态MRI预测脑肿瘤的浸润风险。该方法通过交叉注意力融合模块结合了CNN和Swin Transformer编码器，并利用距离变换生成浸润风险标签，在BraTS数据集上取得了优于基线模型的结果。

The Conversations Beneath the Code: Triadic Data for Long-Horizon Software Engineering Agents

Yelin Kim

cs.SE cs.AI

本文提出triadic data（三元数据）概念，认为训练长期软件工程agent需要同步捕获human-human对话、human-AI会话及跨职能工作数据，并设计了一个四层证据框架来验证数据质量。该工作主要关注数据收集方法论，与关键词中的spectral、Muon、pretrain等无直接关联。

On the Privacy of LLMs: An Ablation Study

Karima Makhlouf et al.

cs.CR cs.AI

本文通过消融实验系统研究了大型语言模型在不同系统因素（如模型架构、规模、数据集特征和检索配置）下的隐私攻击行为，发现成员推断攻击和后门攻击效果显著，而属性推断和数据提取攻击更具挑战性但风险更高。研究强调了隐私风险的高度上下文依赖性。

Measuring Differences between Conditional Distributions using Kernel Embeddings

Peter Moskvichev, Siu Lun Chau, Dino Sejdinovic

stat.ML cs.LG

本文为比较条件分布间的差异建立了一个基于kernel embedding的统一理论框架，定义了条件最大均值差异(CMMD)族，并引入了一种新的双重稳健估计量。该工作整合了现有碎片化方法，但与我提供的关键词列表关联度较低。

WindowQuant: Mixed-Precision KV Cache Quantization based on Window-Level Similarity for VLMs Inference Optimization

Wei Tao et al.

cs.CV cs.CL

本文提出WindowQuant方法，通过窗口级混合精度量化优化VLMs中的KV cache，利用视觉token窗口与文本提示的相似性确定位宽配置，并重排窗口以提升硬件效率。该方法在多个数据集上优于现有模型和量化方法。

EdgeLPR: On the Deep Neural Network trade-off between Precision and Performance in LiDAR Place Recognition

Pierpaolo Serio et al.

cs.CV cs.AI cs.RO

本文研究了LiDAR Place Recognition任务中，通过Bird's Eye View表示和统一描述符方案，在FP32、FP16和INT8量化下权衡精度与性能的问题，为EdgeAI部署提供了基准。

Foundations of Riemannian Geometry for Riemannian Optimization: A Monograph with Detailed Derivations

Benyamin Ghojogh

math.DG cs.LG math.NA math.OC

本文系统整理了Riemannian geometry在优化中的基础理论，包括tangent space、metric tensor、Levi-Civita connection等概念，并给出了Stiefel、Grassmann和SPD流形上的显式公式，旨在为Riemannian optimization提供实现导向的参考。

Rethinking Electro-Optical Vision Foundation Models for Remote Sensing Retrieval: A Controlled Comparison with Generalist VFM

Hyobin Park, Minseok Seo, Dong-Geol Choi

cs.CV cs.AI

本文通过控制实验比较了遥感领域专用视觉基础模型与通用视觉基础模型在图像检索任务上的表现，发现通用模型在域内和跨场景评估中均具有竞争力甚至更优，而专用模型在跨场景下性能下降明显。研究指出当前遥感专用预训练策略的局限性，并强调未来模型需更好利用遥感影像的物理、空间、光谱和地理特性。

Open-access model for detecting openly dumped dispersed municipal solid waste from crowdsourced UAV imagery in Sub-Saharan Africa

Steffen Knoblauch et al.

cs.CV cs.LG

本文提出了一种基于crowdsourced UAV imagery的open-access deep learning model，用于自动检测Sub-Saharan Africa地区随意倾倒的分散固体废物。该模型在10个国家的29个区域进行了训练和评估，揭示了废物积累与人口密度及基础设施缺乏的关联。

Denoising data using convex relaxations

Charles Fefferman et al.

stat.ME cs.LG

本文提出了一种基于convex relaxation的去噪估计器，通过PCA降维和投影到潜在流形的convex hull上来处理观测数据中的高斯噪声，并给出了有限样本下的误差界。

LLM-enabled Social Agents

Önder Gürcan, Moharram Challenger

cs.MA cs.AI

本文探讨了如何通过角色定义（persona descriptions）使基于LLM的agent具备社会智能行为，提出了将角色定义作为语言能力转化为社会行为的基础，并概述了表示、混合控制和评估的研究方向。

FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training

Ahmad Dabaja, Rachid El-Azouzi

cs.DC cs.LG

本文提出FedPLT，一种通过为每个client分配模型的部分层进行训练的方法，旨在解决联邦学习中的通信开销和设备异构性问题。实验表明，该方法在显著减少可训练参数的同时，能达到与全模型训练（如FedAvg）相当的性能。

APIOT: Autonomous Vulnerability Management Across Bare-Metal Industrial OT Networks

Adel ElZemity et al.

cs.CR cs.AI

本文提出了APIOT框架，利用LLM agent实现了对裸机工业OT设备的自动化攻击与修复循环。该工作主要关注agent在无shell和文件系统的嵌入式环境中的协议级推理与动作空间设计。

Privacy Preserving Machine Learning Workflow: from Anonymization to Personalized Differential Privacy Budgets in Federated Learning

Judith Sáinz-Pardo Díaz, Álvaro López García

cs.CR cs.AI

本文提出了一种面向敏感表格数据的隐私保护联邦学习工作流，结合了匿名化和差分隐私技术，并基于重识别风险指标为不同客户端分配个性化隐私预算。实验表明，该方法在模型性能上优于固定全局隐私预算的方案。

Fight Poison with Poison: Enhancing Robustness in Few-shot Machine-Generated Text Detection with Adversarial Training

Wenjing Duan, Qi Zhou, Yuanfan Li

cs.CR cs.CL

本文提出REACT框架，通过对抗训练提升少样本机器生成文本检测的鲁棒性，使用RAG生成类人对抗样本并结合对比学习优化检测器。实验表明该方法在多个数据集上优于现有检测器。

Enhancing Multimodal In-Context Learning via Inductive-Deductive Reasoning

Haoyu Wang et al.

cs.CV cs.AI

本文分析了多模态in-context learning中存在的归纳差距问题，并提出了一个基于归纳-演绎推理的框架，通过视觉token压缩、动态注意力重平衡和思维链范式来提升模型性能。实验表明该方法在多个视觉语言模型上取得了显著改进。

Entanglement is Half the Story: Post-Selection vs. Partial Traces

Gustav J L Jäger et al.

quant-ph cs.AI

本文探讨了量子约束如何改变tensor network的能力，并提出了一种混合架构，该架构通过post-selection实现经典与量子tensor network之间的插值。文章引入了一个新的超参数来控制这种过渡，并讨论了其在量子机器学习中的应用。

FEAT: Fashion Editing and Try-On from Any Design

Soye Kwon et al.

cs.CV cs.AI

本文提出FEAT方法，通过Disentangled Dual Injection (DDI)和Orthogonal-Guided Noise Fusion (OGNF)技术，实现了从任意设计源（包括艺术品和自然照片）对服装和配饰进行编辑与虚拟试穿。该方法在保持设计灵活性和视觉真实感方面达到了当前最优性能。

Spatial-Temporal Learning-Based Distributed Routing for Dynamic LEO Satellite Networks

Po-Heng Chou et al.

cs.NI cs.LG

本文提出了一种基于时空学习的分布式路由框架，用于动态LEO卫星网络，将graph attention networks (GAT)和long short-term memory (LSTM)集成到deep Q-network (DQN)架构中，以基于局部观测实现分布式自适应路由决策。实验表明该方法在吞吐量、丢包率等指标上优于传统方案。

Dueling DDQN-Based Adaptive Multi-Objective Handover Optimization for LEO Satellite Networks

Po-Heng Chou et al.

cs.IT cs.LG

本文提出了一种基于dueling double deep Q-network (DDQN)的自适应多目标切换优化框架，用于LEO卫星网络，通过动态权衡吞吐量、阻塞概率和切换成本来提升性能。仿真表明该方法优于传统基线，但未涉及code、spectral或Muon等关键词。

Mixture Prototype Flow Matching for Open-Set Supervised Anomaly Detection

Fuyun Wang et al.

cs.CV cs.LG

本文提出Mixture Prototype Flow Matching (MPFM)框架，用于开放集监督异常检测。该方法通过将正常特征分布映射到结构化高斯混合原型空间，并引入互信息最大化正则化器，以解决现有方法无法捕捉正常数据多模态性的问题。实验表明该方法在多个基准上取得了最优性能。

Anomaly-Preference Image Generation

Fuyun Wang et al.

cs.CV cs.LG

本文提出了一种名为Anomaly Preference Optimization的新范式，将异常样本生成重新定义为偏好学习问题，通过隐式偏好对齐机制和时变容量分配模块来平衡生成样本的真实性与多样性。该方法在异常检测领域取得了较好的性能，但与关键词列表中的概念关联较弱。

M\textsuperscript{4}Fuse: Lightweight State-Space MoE with a Cross-Scale Gating Bridge for Brain Tumor Segmentation

Meihua Zhou, Xinyu Tong, Li Yang

cs.CV cs.LG

本文提出了一种轻量级3D脑肿瘤分割网络M\textsuperscript{4}Fuse，通过分组状态空间混合器传播长程context，并利用跨尺度双阶段门控桥接结构对齐skip features，在降低参数量的同时提升了分割性能。该方法在BraTS基准上以更低的输入分辨率取得了有竞争力的结果，但整体创新性主要体现在工程化组合而非理论突破。

Causal Software Engineering: A Vision and Roadmap

Roberto Pietrantuono et al.

cs.SE cs.AI

本文提出了Causal Software Engineering (CSE)这一未来范式，主张在软件生命周期中系统性地引入causal models和causal reasoning，以回答干预性和反事实性问题。文章概述了因果优先的工作流视图、工具与组织采用的分阶段路线图，以及评估进展的基准议程。

LLM-Assisted Repository-Level Generation with Structured Spec-Driven Engineering

Shuzhao Feng et al.

cs.SE cs.AI

本文提出结构化规范驱动工程（SSDE）范式，利用结构化工件引导LLM生成仓库级代码，并通过MVC业务逻辑的初步实验验证了其可行性，但未涉及关键词中的核心数学概念。

Active multiple matrix completion with adaptive confidence sets

Andrea Locatelli, Alexandra Carpentier, Michal Valko

stat.ML cs.LG

本文提出了一种新的多任务主动学习设置，用于同时解决多个matrix completion问题，并设计了算法MAlocate以适应不同矩阵的未知rank。该工作主要面向市场细分等应用场景，并通过理论下界和实验验证了其最优性。

Middle-mile logistics through the lens of goal-conditioned reinforcement learning

Onno Eberhard et al.

stat.ML cs.LG

本文重新表述了中程物流问题为一个多目标goal-conditioned MDP，并采用图神经网络结合无模型强化学习的方法，从环境状态中提取小特征图进行求解。

Black-box optimization of noisy functions with unknown smoothness

Jean-Bastien Grill, Michal Valko, Rémi Munos

stat.ML cs.LG

本文提出了一种名为POO (parallel optimistic optimization)的自适应黑箱优化算法，用于处理光滑性未知且带有噪声的函数优化问题。该算法在不需要光滑性先验知识的情况下，其性能与已知最优算法相差仅一个$\sqrt{\ln n}$因子。

When Stress Becomes Signal: Detecting Antifragility-Compatible Regimes in Multi-Agent LLM Systems

Jose Manuel de la Chica, Juan Manuel Vera, Jairo Rodríguez

cs.MA cs.AI cs.CE

本文提出CAFE框架，通过比较语义stressors的期望分布与多agent架构中观测到的有效stress分布之间的distributional Jensen Gap，来检测多agent LLM系统中是否存在与antifragility兼容的stress结构。实验表明，尽管语义stress会降低平均评判质量，但所有测试架构均显示出正的distributional Jensen Gap，暗示存在可学习的stress结构。

From Experimental Limits to Physical Insight: A Retrieval-Augmented Multi-Agent Framework for Interpreting Searches Beyond the Standard Model

Altan Cakir, Ayca Yerlikaya

hep-ex cs.AI cs.IR

本文提出了HEP-CoPilot，一个基于检索增强的多智能体AI框架，用于整合高能物理文献中的文本、数值数据和图形排除限，以加速超越标准模型的新物理搜索的解读。该系统通过多模态检索与推理架构，实现了对实验分析的证据驱动推理。

Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with Large Model Adaptation

Jiaxu He et al.

cs.SD cs.CL

本文提出了首个基于大模型的藏语语音合成系统Tibetan-TTS，通过数据质量增强、藏语文本表示与tokenizer适配以及跨语言自适应训练，在低资源条件下实现了稳定自然的语音合成。实验表明该系统在主观评分和发音准确率上均优于外部商业接口。

A Semantic Autonomy Framework for VLM-Integrated Indoor Mobile Robots: Hybrid Deterministic Reasoning and Cross-Robot Adaptive Memory

Bogdan Felician Abaza, Andrei-Alexandru Staicu, Cristian Vasile Doicin

cs.RO cs.AI

本文提出了一种面向室内移动机器人的语义自主框架，通过混合确定性推理与跨机器人自适应记忆，将自然语言指令解析为导航动作。该框架在Raspberry Pi 5等无GPU边缘硬件上实现了低延迟推理，并验证了跨机器人知识迁移的可行性。

Set-Based Training of Neural Barrier Certificates for Safety Verification of Dynamical Systems

Miriam Kranzlmüller et al.

eess.SY cs.AI

本文提出了一种基于集合的神经网络训练方法，通过将barrier certificate的所有性质编码为集合损失函数，将迭代训练与验证合并为单一过程，从而验证动力系统的安全性。实验表明该方法能处理高维和复杂非线性系统。

Beyond Specialization: Robust Reinforcement Learning Navigation via Procedural Map Generators

Christian Jestel et al.

cs.RO cs.LG

本文研究了通过程序化地图生成器提升深度强化学习导航策略的泛化能力，比较了四种生成器类型并发现组合训练能显著提高成功率。实验表明，A*路径规划子目标输入是鲁棒性的主导因素，且学习到的速度自适应是超越经典控制器的关键优势。

Orchestrating Spatial Semantics via a Zone-Graph Paradigm for Intricate Indoor Scene Generation

Meisheng Zhang et al.

cs.RO cs.AI

本文提出ZoneMaestro框架，通过Zone-Graph范式将室内场景生成从对象中心转向区域中心，并构建Zone-Scene-10K数据集与交替对齐策略（Z-GRPO）以协调语义丰富性与几何有效性。该方法在非凸复杂室内场景中优于现有基线，但未涉及code、spectral、Muon或pretrain等关键词。

Hyp2Former: Hierarchy-Aware Hyperbolic Embeddings for Open-Set Panoptic Segmentation

Yao Lu et al.

cs.CV cs.AI cs.RO

本文提出Hyp2Former框架，利用hyperbolic space中的hierarchical embeddings进行open-set panoptic segmentation，无需在训练时显式建模未知类别，通过编码已知类别的语义层次结构来检测未知物体。实验表明该方法在多个数据集上优于现有方法。

Beyond State Machines: Executing Network Procedures with Agentic Tool-Calling Sequences

Purna Sai Garigipati et al.

cs.NI cs.AI

本文研究了基于LLM的网络AI代理如何通过工具调用序列执行网络程序，以UE IP分配为例评估了四种方法的延迟和正确性。结果表明，将程序封装在单一工具中的方法能减少延迟，而所有模型在程序长度增加时可靠性都会下降。

Representation learning from OCT images

Hedi Tabia et al.

cs.CV cs.LG

本文综述了基于OCT图像的representation learning方法，涵盖了从早期深度学习到foundation models和vision-language systems的发展，并按照supervised learning、self-supervised learning、generative approaches等范式进行分类讨论。文章还总结了公开OCT数据集和评估协议，并指出了volumetric foundation model pretraining等未来研究方向。

CoRAL: Contact-Rich Adaptive LLM-based Control for Robotic Manipulation

Berk Çiçek, Mert K. Er, Özgür S. Öğüz

cs.RO cs.AI

本文提出CoRAL框架，利用LLM作为成本函数设计器，结合VLM提供的语义先验和在线系统辨识，实现接触丰富场景下的零样本操作规划。该方法通过分层架构将高层语义推理与低层控制解耦，在仿真和真实实验中相比基线方法成功率提升超过50%。

Validation of an AI-based end-to-end model for prostate pathology using long-term archived routine samples

Xiaoyi Ji et al.

cs.CV cs.AI

本文验证了GleasonAI模型在长期存档的前列腺病理样本上的泛化能力，该模型在独立队列中达到了与经验病理学家相当的ISUP分级性能，并表现出对时间变化的鲁棒性。研究支持AI分级模型的通用性，并展示了病理档案作为AI开发和验证资源的潜力。

TRACED: In vivo imaging of extracellular intrinsic diffusivity, tortuosity, cell size distribution and cell density in human glioma patients

Joshua K. Marchant et al.

physics.med-ph cs.LG eess.IV

本文提出了TRACED模型，结合Monte Carlo模拟和神经网络，用于从扩散MRI信号中量化胶质瘤患者的细胞外扩散率、迂曲度、细胞尺寸分布和细胞密度等参数。该方法在模拟和患者数据中展示了参数估计的改进，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

ViewSAM: Learning View-aware Cross-modal Semantics for Weakly Supervised Cross-view Referring Multi-Object Tracking

Jiawei Ge et al.

cs.CV cs.AI

本文提出ViewSAM，一种用于弱监督跨视角指代多目标跟踪（CRMOT）的两阶段框架。该方法利用SAM2和SAM3等基础模型生成伪标签，并引入视角感知的跨模态语义建模，以仅使用类别标签作为粗粒度监督。实验表明，ViewSAM在弱监督下达到SOTA性能，并与全监督方法具有竞争力。

ARA: Agentic Reproducibility Assessment For Scalable Support Of Scientific Peer-Review

Kevin Riehl et al.

cs.DL cs.LG

本文提出了一种名为Agentic Reproducibility Assessment (ARA)的方法，将科学论文的可重复性评估形式化为一个结构化推理任务，通过提取有向工作流图并评估其可重构性来实现自动化评估。实验表明，该方法在多个基准测试上取得了优于现有方法的准确率，但其核心贡献在于辅助同行评审流程，而非直接涉及关键词中的核心数学或算法创新。

Online Generalised Predictive Coding

Mehran H. Z. Bazargani et al.

stat.ML cs.LG q-bio.NC

本文提出了一种在线广义预测编码(Online Generalised Predictive Coding)方法，通过时间尺度分离将动态期望最大化(DEM)扩展到在线数据同化场景。该方法允许在快速贝叶斯信念更新的同时进行慢速参数和精度更新，并在非线性生成模型上验证了其有效性。

The Design and Composition of Structural Causal Decision Processes

Sebastian Benthall, Alan Lujan

cs.CE cs.AI cs.GT econ.TH

本文提出了两类新的因果决策模型：Structural Causal Decision Models (SCDMs) 和 Structural Causal Decision Processes (SCDPs)。SCDMs扩展了因果影响模型，具有可组合性，而SCDPs作为其递归版本，比POMDPs更具表达力，能内生建模记忆形成和可变折扣，适用于数字经济和信息系统中的策略模拟。

Caliper-in-the-Loop: Black-Box Optimization for Hyperledger Fabric Performance Tuning

Yash Madhwal et al.

cs.DC cs.AI

本文提出了一种基于贝叶斯优化(Bayesian Optimization)与降维(Dimensionality Reduction)的黑盒优化方法，用于自动调优Hyperledger Fabric的吞吐性能。实验表明，DYCORS-PCA方法相比初始配置提升了12%的TPS，但该方法主要针对特定区块链系统的工程调优，与关键词中的理论或算法方向关联较弱。

ParaRNN: An Interpretable and Parallelizable Recurrent Neural Network for Time-Dependent Data

Yuxi Cai et al.

stat.ML cs.LG

本文提出了一种名为ParaRNN的并行化Recurrent Neural Network模型，通过将多个小型recurrent单元组合并实现可加性表示，提高了模型的可解释性和训练效率。该模型在非参数回归中建立了逼近能力和预测误差界，并在序列建模任务中展示了与标准RNN相当的性能。

Random-Effects Algorithm for Random Objects in Metric Spaces

Marcos Matabuena, Mateo Cámara

stat.ML cs.LG stat.ME

本文提出了一种基于Fréchet的非线性随机效应算法，用于处理度量空间中的随机对象。该方法通过M-estimation理论建立了估计的一致性条件，并在合成数据和数字健康数据集上进行了实证评估。

Learning Equivariant Neural-Augmented Object Dynamics From Few Interactions

Sergio Orozco et al.

cs.RO cs.AI cs.CV cs.LG

本文提出PIEGraph方法，将基于物理的粒子分析模型（弹簧-质量系统）与等变图神经网络结合，用于从少量交互数据中学习刚体和可变形物体的动力学。该方法在绳索、布料等物体的重定向和重定位任务中实现了优于现有基线的动力学预测性能。

Robust and Fast Training via Per-Sample Clipping

Davide Nobile, Philipp Grohs

math.OC cs.LG stat.ML

本文提出了一种基于逐样本梯度裁剪的鲁棒梯度估计器PS-Clip-SGD，并证明了其在heavy-tailed梯度噪声下的非凸优化中达到期望最优收敛率。实验表明该方法在训练AlexNet于CIFAR-100时优于vanilla SGD和标准梯度裁剪，并发现mini-batch级别的裁剪在梯度累积场景下能提升训练性能且几乎不增加计算成本。

ProPACT: A Proactive AI-Driven Adaptive Collaborative Tutor for Pair Programming

Anahita Golrang, Kshitij Sharma, olga viberg

cs.HC cs.AI cs.LG

本文提出了一种名为ProPACT的主动式AI驱动自适应协作导师，用于结对编程场景。它通过构建基于联合视觉注意力和心理努力的多模态二元学习者模型，并利用XGBoost预测模型提前30秒预测次优协作状态，从而提供最小侵入性的自适应支架。

SAIL: Structure-Aware Interpretable Learning for Anatomy-Aligned Post-hoc Explanations in OCT

Tienyu Chang et al.

cs.CV cs.AI

本文提出SAIL框架，通过将视网膜解剖先验与语义特征融合，在不修改现有post-hoc XAI方法的情况下生成更清晰、符合解剖结构的归因图，用于OCT图像解释。实验表明该方法能提升解释的临床意义，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention。

OphMAE: Bridging Volumetric and Planar Imaging with a Foundation Model for Adaptive Ophthalmological Diagnosis

Tienyu Chang et al.

cs.CV cs.AI

本文提出了OphMAE，一个用于眼科多模态成像的foundation model，通过cross-modal fusion架构整合3D OCT与2D en face OCT数据，在多项诊断任务中取得领先性能。该模型在仅使用2D输入时仍保持较高诊断准确率，并展现出良好的数据效率。

Dimensionality-Aware Anomaly Detection in Learned Representations of Self-Supervised Speech Models

Sandra Arcos-Holzinger et al.

eess.AS cs.CR cs.LG

本文提出GRIDS框架，利用Local Intrinsic Dimensionality (LID)分析自监督语音模型（如WavLM和wav2vec 2.0）中层表示在扰动下的局部几何变化，发现LID能指示下游ASR性能退化，并用于无转录的异常检测。

PubMed-Ophtha: An open resource for training ophthalmology vision-language models on scientific literature

Verena Jasmin Hallitschke, Carsten Eickhoff, Philipp Berens

cs.CV cs.CL

本文介绍了PubMed-Ophtha，一个从PubMed Central开放获取文章中提取的眼科图像-文本数据集，包含102,023对图像和标题，并提供了图像模态和标注状态的注释。该工作主要贡献在于构建了高质量的资源以支持眼科视觉-语言模型训练，但方法上未涉及关键词中的核心概念。

Perceptual Flow Network for Visually Grounded Reasoning

Yangfu Li et al.

cs.CV cs.AI

本文提出Perceptual Flow Network (PFlowNet)，通过变分强化学习将多维度奖励与邻近几何整形相结合，以解耦感知与推理过程，从而在视觉基础推理任务中缓解语言偏差与幻觉问题。该方法在V* Bench和MME-RealWorld-lite上取得了新的最优结果。

Adaptive Interpolation-Synthesis for Motion In-Betweening on Keyframe-Based Animation

Anton Raël, Julien Boucher, Antoine Lhermitte

cs.GR cs.LG

本文提出了一种面向关键帧动画的Adaptive Interpolation-Synthesis (AIS)层，通过动态平衡学习插值与直接姿态合成来辅助动画师完成中间帧生成，并在Autodesk Maya中实现了3.5倍的速度提升。该方法主要针对专业动画工作流中的实际约束进行优化，但与关键词列表中的概念无直接关联。

Virtual Scanning for NSCLC Histology: Investigating the Discriminatory Power of Synthetic PET

Fatih Aksu et al.

cs.CV cs.AI

本文提出利用3D Pix2Pix GAN从CT扫描合成伪PET数据，并集成到MINT多阶段融合框架中，用于非小细胞肺癌的组织学亚型分类。实验表明，合成代谢特征能提升分类性能，但方法本身在创新性和与关键词的契合度上均不突出。

TOC-SR: Task-Optimal Compact diffusion for Image Super Resolution

Sowmya Vajrala et al.

cs.CV cs.AI

本文提出TOC-SR框架，通过特征级生成蒸馏和贝叶斯优化压缩扩散模型，构建单步超分辨率模型，在保持重建质量的同时显著降低参数量和计算复杂度。

Universality in Deep Neural Networks: An approach via the Lindeberg exchange principle

Filippo Giovagnini, Sotirios Kotitsas, Marco Romito

math.PR cs.LG stat.ML

本文利用Lindeberg交换原理，在激活函数满足一定正则性条件下，证明了具有一般权重的全连接深度神经网络在无限宽极限下，其分布与高斯极限之间的$2$-Wasserstein距离存在定量上界。该方法通过逐层将权重替换为Gaussian随机变量来建立收敛性。

Static Analysis of Recursive SHACL

Anouk Oudshoorn, Magdalena Ortiz, Mantas Simkus

cs.LO cs.AI

本文研究了递归SHACL文档的静态分析问题，特别是判断所有满足一个文档的数据图是否也满足另一个文档。作者证明了在支持语义和稳定模型语义下，该蕴含问题不可判定，但在well-founded语义下可在单指数时间内判定。

FunFuzz: An LLM-Powered Evolutionary Fuzzing Framework

Mario Rodríguez Béjar, B. Romera-Paredes, Jose L. Hernández-Ramos

cs.CR cs.CL

FunFuzz是一个基于LLM的多岛进化fuzzing框架，通过并行搜索和周期性迁移高价值候选者来提升编译器fuzzing的覆盖率和多样性。实验表明，在GCC和Clang上，FunFuzz相比之前的LLM驱动方法获得了更高的编译器覆盖率并发现了更多独特的触发失败的输入。

Multi-Axis Speech Similarity via Factor-Partitioned Embeddings

Jim O'Regan, Jens Edlund

eess.AS cs.IR

本文提出了一种因子分区嵌入框架，将每个语音片段映射为单个向量，其子空间对应不同属性轴（如语言内容、说话人身份等），并通过蒸馏或对比学习训练各轴线性投影头。该方法支持基于属性条件的检索，通过带符号的轴加权余弦分数计算相似度，以抑制或突出特定属性。

IConFace: Identity-Structure Asymmetric Conditioning for Unified Reference-Aware Face Restoration

Axi Niu, Jinyang Zhang, Senyan Qing

cs.CV cs.AI

本文提出IConFace框架，通过身份-结构非对称条件机制统一了参考感知和无参考的人脸修复任务。该方法利用参考图像的身份信息进行调制，同时以退化图像作为空间结构锚点，实现了单一模型在有无参考情况下的自适应恢复。

VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition

Tanush Yadav et al.

cs.CV cs.LG

本文提出了VideoNet，一个包含1000种领域特定动作的大规模视频理解数据集，并评估了多种视觉语言模型（VLM）在该基准上的表现。研究发现，即使提供上下文示例，VLM的性能提升也有限，而通过收集近50万视频问答对进行微调，可以显著提升模型性能。

(POSTER) From Sensors to Insight: Rapid, Edge-to-Core Application Development for Sensor-Driven Applications

Komal Thareja, Anirban Mandal, Ewa Deelman

cs.DC cs.AI cs.SE

本文提出了一种基于模式和AI辅助的快速开发传感器驱动应用的方法，利用Pegasus工作流在FABRIC测试床上实现从代码优先到意图优先的设计转变，并通过重用现有工作流模板来生成和优化不同监测应用的工作流。

From Sensors to Insight: Rapid, Edge-to-Core Application Development for Sensor-Driven Applications

Komal Thareja, Anirban Mandal, Ewa Deelman

cs.DC cs.AI cs.SE

本文提出了一种基于模式和AI辅助的传感器驱动应用快速开发方法，通过Pegasus在FABRIC测试床上重用Orcasound工作流模板，并扩展到空气质量、地震和土壤湿度监测场景。该方法旨在降低非专家在边缘到云基础设施上的开发门槛，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Multi-fidelity surrogates for mechanics of composites: from co-kriging to multi-fidelity neural networks

Haizhou Wen et al.

physics.comp-ph cs.LG

本文综述了复合材料力学中的多保真度代理模型方法，包括co-Kriging和多保真度神经网络等，比较了它们在相关性、不确定性量化等方面的差异，并讨论了在复合材料设计、优化和工作流集成中的应用。

AlbumFill: Album-Guided Reasoning and Retrieval for Personalized Image Completion

Yu-Ju Tsai et al.

cs.CV cs.IR

本文提出AlbumFill，一个无需训练的框架，通过视觉语言模型推断缺失语义线索来指导从个人相册中检索身份一致的参考图像，并利用这些参考图像进行个性化图像补全。该方法旨在解决在无显式参考图像时保持身份一致性的问题。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others