bluearXiv-ai - 2026-05-07

📄 所有论文 ↑ 回顶部

cs.LG

Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning ⭐ 精选

Bryan Cheng, Jasper Zhang

cs.LG cs.CL

本文通过因果干预实验揭示了In-Context Learning (ICL)中任务编码的分布式本质。作者发现，在Llama-3.2-3B等模型中，单位置激活干预完全无法实现任务迁移（0%），而同时干预所有demonstration output tokens的多位置干预在约30%网络深度处实现了高达96%的迁移，从而首次精确定位了ICL任务身份的因果位点。该工作提出了分布式模板假说（distributed template hypothesis），即ICL任务身份被编码为分布在demonstration tokens上的输出格式模板，而非集中于特定位置，这为理解大语言模型如何从少量示例中提取任务信息提供了新的理论框架。

Gradient Flow Structure and Quantitative Dynamics of Multi-Head Self-Attention ⭐ 精选

Ayan Pendharkar

cs.LG

本文为multi-head self-attention dynamics建立了gradient flow理论框架，揭示了heads间几何干扰的核心机制。作者识别出阻碍per-head monotonicity的关键障碍是radial shadow terms（各head输出在token方向上的投影），并引入确保单调性的充分条件及对近似正交性的鲁棒性分析。在简化scalar-head regime中，推导出控制clustering行为的critical inverse temperature的闭式表达式，并证明heterogeneous heads具有super-additive clustering rates。该工作统一了multi-head attention的动力学视角，阐明了transformer模型中clustering与稳定性的底层机制。

Beyond Rigid Geometries: The Spline-Pullback Metric for Universal Diffeomorphic SPD Representation Learning ⭐ 精选

Tushar Das et al.

cs.LG

本文提出了一种名为Spline-Pullback Metric (SPM)的新型Riemannian metric，用于对称正定(SPD)矩阵的深度学习。该方法通过参数化一个秩不变、单调约束的B-spline来逼近全局微分同胚，从而替代了传统固定的代数Riemannian metric，实现了对严格递增$C^1$微分同胚的通用近似。SPM在理论上统一了现有的pullback metrics，并避免了秩交换不连续性和梯度不稳定性，在多个数据集上使用Linear Probes、SPDNets和深度Riemannian ResNets达到了最先进的性能。该工作与关键词中的“spectral”和“context”高度相关，因为它通过B-spline实现了对谱空间的局部非线性建模，并为SPD流形上的几何学习提供了更灵活的上下文。

Demystifying Manifold Constraints in LLM Pre-training ⭐ 精选

Kang An et al.

cs.LG cs.AI math.OC

本文通过引入Msign-Aligned Constrained Riemannian Optimizer (MACRO)框架，系统揭示了在LLM预训练中显式流形约束（manifold constraints）的作用机制。理论分析表明，流形约束能独立地限制前向激活尺度并维持稳定的旋转平衡，从而取代了RMS归一化和解耦权重衰减等启发式稳定技术的作用。在大规模LLM架构上的实验验证了MACRO在保持精确Riemannian优化理论保证的同时，达到了极具竞争力的性能。该工作为理解预训练中的约束优化提供了新的理论视角，与关键词中的pretrain和optimization概念高度契合。

Quadrature-TreeSHAP: Depth-Independent TreeSHAP and Shapley Interactions ⭐ 精选

Ron Wettenstein, Rory Mitchell, Peng Yu

cs.LG

本文提出Quadrature-TreeSHAP，一种基于Gauss-Legendre quadrature的Path-Dependent TreeSHAP重表述。该方法通过将Shapley值和任意阶Shapley interaction values表示为关于特征参与概率$p$的weighted-Banzhaf interaction polynomial的积分，并用固定8个quadrature points精确计算，从而消除了对树深度的依赖并实现了数值稳定性。该方法在CPU和GPU上均比现有方法（如TreeSHAP和GPUTreeSHAP）有显著加速，且支持高阶interactions，与关键词“code”和“context”有一定契合（涉及高效实现与模型解释的上下文）。

ELVIS: Ensemble-Calibrated Latent Imagination for Long-Horizon Visual MPC ⭐ 精选

Yurui Du et al.

cs.LG cs.RO eess.SY

ELVIS提出了一种基于ensemble-calibrated latent imagination的模型预测控制方法，用于解决视觉模型强化学习中长时域规划的不确定性累积问题。该方法在Dreamer-style的recurrent state space model (RSSM)中引入Gaussian-mixture MPPI，通过维持多个相干假设避免分支轨迹下的mode averaging；同时利用ensemble of latent critics定义uncertainty-aware lambda-return，以UCB score自适应调节bootstrap与look-ahead的权衡，从而抑制规划中的复合误差。在14个DeepMind Control Suite视觉任务上达到state-of-the-art性能，并零样本迁移至真实世界的严重遮挡喷涂任务，展现了鲁棒性。该方法与关键词中的agent和attention（通过ensemble机制隐式关注不确定性）有一定契合。

SPHERE: Mitigating the Loss of Spectral Plasticity in Mixture-of-Experts for Deep Reinforcement Learning ⭐ 精选

Lirui Luo et al.

cs.LG

本文针对深度强化学习中MoE策略的plasticity loss问题，基于Neural Tangent Kernel理论将其形式化为spectral plasticity的损失，并推导出一个可计算的代理量。作者提出SPHERE方法，通过引入针对MoE的Parseval penalty来缓解spectral plasticity的退化。在MetaWorld和HumanoidBench上的实验表明，该方法在持续强化学习场景下显著提升了平均成功率，并维持了更高的spectral plasticity。

Quantile-Free Uncertainty Quantification in Graph Neural Networks ⭐ 精选

Soyoung park, Hwanjun Song, Sungsu Lim

cs.LG cs.AI

本文提出Quantile-free Prediction Interval GNN (QpiGNN)框架，用于图神经网络中的不确定性量化。该方法通过双头架构解耦预测与不确定性，并采用分位数回归思想直接优化预测区间的覆盖率和宽度，无需分位数输入或后处理校准。QpiGNN在温和假设下提供了渐近覆盖率和近最优宽度的理论保证，实验表明其在19个基准上平均覆盖率提升22%、区间宽度缩减50%。该工作为图神经网络中的可靠不确定性估计提供了高效且鲁棒的新范式。

Self-Attention as Transport: Limits of Symmetric Spectral Diagnostics ⭐ 精选

Dominik Dahlem, Diego Maniloff, Mac Misiura

cs.LG cs.CL stat.ML

本文提出将self-attention视为一种transport过程，并证明所有基于对称谱的诊断方法都无法检测信息流方向，而不对称系数$G$是唯一的方向控制参数。通过为因果架构建立闭式bipartite-Cheeger landscape，作者发现均匀因果attention满足与$n$无关的下界$\phi \ge 1/5$，而窗口attention的下界为$O(w/n)$，从而揭示了不同失败模式在形状上的差异。该工作为attention的容量和方向提供了双轴诊断框架，并在8B参数模型上验证了其可解释性，与关键词中的attention和spectral高度契合。

EP-GRPO: Entropy-Progress Aligned Group Relative Policy Optimization with Implicit Process Guidance ⭐ 精选

Song Yu et al.

cs.LG cs.AI

本文提出EP-GRPO框架，针对Group Relative Policy Optimization (GRPO)在LLM推理中存在的三种信用分配失败（token粒度不均匀、极性错位、零方差崩溃）进行改进。该方法通过熵门控调制优先处理高熵决策点，利用策略分歧隐式过程信号结合结果优势提供token级反馈，并引入累积熵映射实现与进度对齐的优势归一化，从而在不依赖外部reward model的情况下提供密集自监督信号。实验表明，EP-GRPO在数学推理基准上显著优于GRPO及其变体，其核心思想与关键词中的“attention”机制（通过熵度量动态关注关键决策点）高度契合。

Graph-SND: Sparse Aggregation for Behavioral Diversity in Multi-Agent Reinforcement Learning ⭐ 精选

Shawn Ray

cs.LG cs.MA

本文提出Graph-SND，将System Neural Diversity (SND)中基于完全图$K_n$的pairwise距离平均替换为任意图$G$上的加权平均，从而将计算复杂度从$O(n^2)$降至$O(|E|)$。对于固定稀疏图（如expander），作者证明了forwarding-index distortion界；对于随机$d$-regular图，给出了无条件的概率界$\widetilde{\mathcal{O}}(D_{\max}/\sqrt{n})$。实验表明，在$n=100$的PPO训练中，Bernoulli-0.1采样的Graph-SND在保持SND语义的同时实现了约10倍加速，且随机$d$-regular expander在$\Theta(n\log n)$边数下达到$\mathrm{SND}_{G}^{\mathrm{u}}/\mathrm{SND} \in [0.9987, 1.0013]$的高精度。该方法为多智能体强化学习中的行为多样性度量提供了可扩展的稀疏化替代方案，并支持闭环多样性控制。

CuBridge: An LLM-Based Framework for Understanding and Reconstructing High-Performance Attention Kernels ⭐ 精选

Xing Ma et al.

cs.LG

CuBridge提出了一种基于LLM的框架，通过“提升-转移-降低”工作流来理解和重构高性能attention kernel。该方法首先将专家编写的CUDA attention kernel提升为可执行的中间表示(IR)，显式化执行编排并抽象底层CUDA语法；然后根据用户提供的PyTorch规范生成并验证目标IR程序，最后通过参考引导的降低过程重构优化后的CUDA代码。该框架在多种attention变体和GPU平台上均能生成正确的kernel，并在性能上显著优于通用框架、基于编译器的方法以及先前的LLM方法。这项工作为利用大语言模型自动生成和优化复杂GPU算子（如attention）提供了结构化的新思路。

Unified Framework of Distributional Regret in Multi-Armed Bandits and Reinforcement Learning ⭐ 精选

Harin Lee, Min-hwan Oh

cs.LG stat.ML

本文提出了一个统一的框架来研究随机multi-armed bandits和episodic reinforcement learning中的regret分布。作者设计了一个带有探索bonus $\min\{c_{1,k}/N, c_{2,k}/\sqrt{N}\}$的UCBVI-style算法，并推导了与参数序列相关的gap-independent和gap-dependent分布regret界，首次证实了Lattimore & Szepesvári (2020)关于multi-armed bandits的分布regret界为$\mathcal{O}(\sqrt{AT}\log(1/\delta))$的猜想。该工作为理解期望性能、尾部风险与实例依赖行为之间的权衡提供了原则性刻画。

Rollout Pass-Rate Control: Steering Binary-Reward RL Toward Its Most Informative Regime ⭐ 精选

Tianshu Zhu et al.

cs.LG

本文针对SWE-bench风格agentic RL中binary reward信号在偏斜pass rate下对比度弱的问题，提出将pass rate控制到50%作为最信息丰富的操作点，并设计Prefix Sampling (PS)方法：通过重放成功或失败的trajectory prefix来引导偏斜组向该区域靠拢，同时将重放token排除在loss之外以限制优化到当前policy生成的continuation。实验表明，PS在Qwen3-14B和32B上分别实现2.01x和1.55x的端到端加速，并提升SWE-bench Verified峰值性能，与关键词“agent”和“code”高度契合。

Understanding In-Context Learning for Nonlinear Regression with Transformers: Attention as Featurizer ⭐ 精选

Alexander Hsu et al.

cs.LG math.NA

本文通过显式构造transformer网络中的attention机制，实现了非线性特征（如polynomial或spline基）的提取，从而将in-context learning (ICL)推广到非线性回归场景。作者建立了端到端的理论框架，给出了关于context length和训练集大小的有限样本泛化误差界。该工作为理解attention作为特征提取器（featurizer）在非线性回归中的ICL机制提供了开创性的理论分析，与关键词“attention”高度契合。

A large language model-type architecture for high-dimensional molecular potential energy surfaces

Xiao Zhu, Srinivasan S. Iyengar

cs.LG cs.AI physics.atm-clus physics.chem-ph physics.comp-ph

本文提出了一种类似大语言模型的算法，通过将分子系统表示为图并利用图论得到的子系统的神经网络族，来构建高维分子势能面，并在51核和186核维度系统上验证了其准确性。

Learning Reconstructive Embeddings in Reproducing Kernel Hilbert Spaces via the Representer Theorem

Enrique Feito-Casares, Francisco M. Melgarejo-Meseguer, José-Luis Rojo-Álvarez

cs.LG cs.AI

本文在Reproducing Kernel Hilbert Spaces (RKHS)中提出了一种基于重构的流形学习算法，通过优化Representer Theorem的向量形式实现样本的自表示，并利用可分离算子值核处理向量值数据。该方法通过核对齐将高维重构几何转移到低维嵌入空间，实验验证了其在模拟和真实数据集上的有效性。

Endogenous Regime Switching Driven by Scalar-Irreducible Learning Dynamics

Sheng Ran

cs.LG

本文提出了一种将动力学分为scalar-reducible和scalar-irreducible的分类方法，并论证了后者可通过快慢变量反馈实现内生的regime switching。该工作为自主智能系统的自适应行为提供了新的动力学视角。

A Self-Attentive Meta-Optimizer with Group-Adaptive Learning Rates and Weight Decay

JiangBo Zhao, ZhaoXin Liu

cs.LG

本文提出MetaAdamW优化器，通过自注意力机制动态调整各参数组的学习率和权重衰减，并引入带任务优先级的同方差不确定性加权来平衡损失。实验表明其在多种任务上优于AdamW基线，但方法本质是优化器改进，与关键词中的核心概念关联较弱。

Transformation Categorization Based on Group Decomposition Theory Using Parameter Division

Takayuki Komatsu, Yoshiyuki Ohmura, Yasuo Kuniyoshi

cs.LG cs.AI

本文提出了一种基于参数划分的变换分类方法，利用group decomposition theory将单个变换的参数分解为多个分量，并通过homomorphism约束将完整变换映射到其中一个分量，从而识别出normal subgroup。该方法去除了先前工作中对运动或等距等辅助假设的依赖，并在旋转、平移和缩放等图像变换对上进行评估，验证了group decomposition约束的有效性。

Structured Progressive Knowledge Activation for LLM-Driven Neural Architecture Search

Zhen Liu, Yuhan Liu, Jingwen Fu

cs.LG cs.AI

本文提出了一种名为SPARK的方法，用于在大语言模型驱动的神经架构搜索中激活结构化先验知识，通过显式选择功能因子进行条件化编辑来减少功能纠缠效应。该方法在CLRS-DFS任务上实现了样本效率提升和OOD准确率改进。

MP-ISMoE: Mixed-Precision Interactive Side Mixture-of-Experts for Efficient Transfer Learning

Yutong Zhang et al.

cs.LG cs.AI

本文提出MP-ISMoE框架，通过Gaussian Noise Perturbed Iterative Quantization (GNP-IQ)方案降低权重量化误差，并利用节省的内存扩展Interactive Side Mixture-of-Experts (ISMoE)网络，以在保持内存效率的同时提升迁移学习性能。实验表明该方法在视觉-语言和纯语言任务上优于现有memory-efficient transfer learning方法。

Continual Distillation of Teachers from Different Domains

Nicolas Michel et al.

cs.LG cs.CV

本文提出Continual Distillation (CD)范式，使student model从无访问权限的teacher model序列中顺序学习，并针对Unseen Knowledge Transfer (UKT)与Unseen Knowledge Forgetting (UKF)问题，设计了Self External Data Distillation (SE2D)方法，通过外部数据上的logits保留来稳定跨异构teacher的学习过程。

Lookahead Drifting Model

Guoqiang Zhang, Kenta Niwa, W. Bastiaan Kleijn

cs.LG cs.AI cs.CV

本文提出了一种lookahead drifting model，通过在每个训练迭代中顺序计算多个drifting terms并加权求和来优化模型输出，从而捕获更高阶的梯度信息。在toy examples和CIFAR10上的实验表明，该方法优于原始的drifting model基线。

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Shu-Hao Zhang et al.

cs.LG cs.AI

本文提出EdgeRazor框架，通过混合精度量化感知蒸馏和自适应特征蒸馏等技术，在极低比特下压缩大语言模型，并引入熵感知KL散度来平衡前向与反向蒸馏。实验表明该方法在1.88-bit精度下优于3-bit方法，但未涉及code、spectral、Muon或agent等关键词。

Investigating Trustworthiness of Nonparametric Deep Survival Models for Alzheimer's Disease Progression Analysis

Jacob Thrasher et al.

cs.LG cs.AI cs.CY

本文研究了非参数深度生存模型在阿尔茨海默病进展分析中的可信度，提出了两个新的公平性度量指标（Time-Dependent Concordance Impurity和Kaplan-Meier Fairness），并发现这些模型在性别、种族等敏感属性上存在显著偏差。

Improving Medical VQA through Trajectory-Aware Process Supervision

Halil Ibrahim Gulluk, Olivier Gevaert

cs.LG cs.CV

本文针对医学VQA任务，利用COMCTS算法生成推理轨迹，并提出一个两阶段训练框架（SFT后接GRPO）。其核心创新在于引入基于Dynamic Time Warping (DTW)距离的轨迹感知奖励，以衡量生成推理过程与真实推理过程的相似性，从而提升模型性能。

Designing a double deep reinforcement learning selection tool for resilient demand prediction

Bilel Abderrahmane Benziane et al.

cs.LG cs.AI

本文提出了一种基于double deep reinforcement learning的架构，用于自动选择供应链需求预测模型，并引入了一种基于平均奖励收敛的early-stopping方法以加速训练。实验在杂货和零食销售数据集上验证了该方法的鲁棒性。

LAWS: Learning from Actual Workloads Symbolically -- A Self-Certifying Parametrized Cache Architecture for Neural Inference, Robotics, and Edge Deployment

Gregory Magarshak

cs.LG cs.AI cs.IT cs.NE

本文提出了一种名为LAWS的自验证推理缓存架构，通过构建基于Probabilistic Language Trie (PLT)的专家函数库来近似模型输出，并给出了形式化的误差界。该工作主要关注推理加速与边缘部署，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

FlatASCEND: Autoregressive Clinical Sequence Generation with Continuous Time Prediction and Association-Based Pharmacological Testing

Chris Sainsbury, Feng Dong, Andreas Karwath

cs.LG cs.AI q-bio.QM

本文提出FlatASCEND，一个14.5M参数的autoregressive临床序列生成模型，使用flat composite tokens和zero-inflated log-normal时间预测头。模型在MIMIC-IV上评估了条件生成与已知药理关联的一致性，但未能可靠区分因果与混杂关联，且直接偏好优化会破坏所有正确关联。

Sparse Autoencoder Decomposition of Clinical Sequence Model Representations: Feature Complexity, Task Specialisation, and Mortality Prediction

Chris Sainsbury, Feng Dong, Andreas Karwath

cs.LG cs.AI cs.CL

本文使用TopK Sparse Autoencoder (SAE) 对临床序列模型FlatASCEND的表示进行分解，发现不同层特征在token类型覆盖度上存在显著差异（从浅层的单token检测到深层的多类别覆盖）。在死亡率预测任务中，SAE特征在完整序列上优于dense表示，但在临床相关的泄漏安全窗口设置下，dense表示表现更优。

Confronting Label Indeterminacy in Automated Bail Decisions

Cor Steging, Tadeusz Zbiegień

cs.LG cs.AI

本文探讨了保释决策中因反事实结果缺失导致的标签不确定性问题，评估了五种处理该问题的方法对机器学习模型预测行为的影响。研究发现，这些方法对模型的影响甚至超过模型本身的选择，并从法律角度分析了其合法性。

A Physics-Aware Framework for Short-Term GPU Power Forecasting of AI Data Centers

Mohammad AlShaikh Saleh et al.

cs.LG cs.AI cs.CE cs.DC cs.ET +1

本文提出了一种基于物理信息的DLinear时间序列模型(PI-DLinear)，用于预测AI数据中心的GPU短期功耗。该模型通过多节点集总热阻-电容网络和ODE建模功耗与GPU计算、内存利用率和温度的关系，在真实数据集上相比SOTA模型提升了预测精度。

RetentiveKV: State-Space Memory for Uncertainty-Aware Multimodal KV Cache Eviction

Sihao Liu et al.

cs.LG cs.AI cs.CL

本文提出RetentiveKV，一种基于entropy的KV cache压缩方法，通过State Space Models将视觉token的eviction从离散截断转化为连续记忆演化，以解决多模态大模型中视觉token的“延迟重要性”问题。实验表明该方法在压缩5倍的同时实现1.5倍解码加速。

A Regulatory Governance Framework for AI-Driven Financial Fraud Detection in U.S. Banking: Integrating OCC, SR 11-7, CFPB, and FinCEN Compliance Requirements for Model Development, Validation, and Monitoring Lifecycles

Mohammad Nasir Uddin

cs.LG cs.AI cs.CY

本文提出了一种针对美国银行业AI欺诈检测的监管治理框架RGF-AFFD，整合了OCC、SR 11-7、CFPB和FinCEN四项合规要求。该框架基于IEEE-CIS和ULB数据集对多种模型进行基准测试，其中LSTM+XGBoost集成模型取得了ROC-AUC为0.9289的性能，并引入了监管数字孪生元模型用于持续合规监控。

Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Zhiyuan Zeng et al.

cs.LG cs.AI cs.CL

本文研究了GRPO风格RLVR训练中token-level policy gradient的聚合方式，发现序列聚合与token聚合存在不同的优化偏差。作者提出Balanced Aggregation (BA)方法，通过在正负子集内分别计算token均值再组合，以平衡偏差。实验表明BA能提升训练稳定性和最终性能。

Validity-Calibrated Reasoning Distillation

Khouloud Saadi, Di Wang

cs.LG cs.AI

本文提出了一种名为validity-calibrated reasoning distillation的框架，将推理蒸馏视为局部学习信号分配问题而非路径对齐，通过比较学生与教师在同一前缀下的下一步动作的相对局部有效性来动态调整蒸馏更新强度。实验表明该方法在数学推理、代码生成等任务上优于强蒸馏基线。

Efficient Handwriting-Based Alzheimer,s Disease Diagnosis Using a Low-Rank Mixture of Experts Deep Learning Framework

Wu Wang et al.

cs.LG cs.AI

本文提出了一种基于低秩混合专家（LoRA-MoE）的深度学习框架，用于通过手写分析诊断阿尔茨海默病。该框架通过轻量级低秩适配器减少可训练参数，并在DARWIN数据集上验证了其诊断性能。

Time series causal discovery with variable lags

Bruno Petrungaro, Anthony C. Constantinou

cs.LG cs.AI

本文提出了一种基于Tabu搜索的时间序列因果发现算法，允许每条边具有独立的时滞，并使用BIC评分和时滞惩罚项来优化结构。该方法在模拟数据和英国COVID-19政策数据上验证了有效性，但未涉及code、spectral或Muon等关键词相关技术。

Enhancing the interpretability of spatially variable N2O model predictions with soft sensors during wastewater treatment

Mohammad Raeisi Gahrouei et al.

cs.LG

本文使用四种机器学习模型预测污水处理厂中N2O排放，发现模型精度高但特征重要性依赖于测量位置和数据集，限制了模型的可解释性。

AsymmetryZero: A Framework for Operationalizing Human Expert Preferences as Semantic Evals

Tadhg Looram et al.

cs.LG cs.AI

本文提出了AsymmetryZero框架，用于将人类专家偏好转化为语义评估。该框架通过稳定的评估合约明确评分标准，并支持模型评估和智能体评估两种模式，通过实验比较了不同陪审团配置在评估一致性、内部分歧和成本效率上的表现。

FASQ: Flexible Accelerated Subspace Quantization for Calibration-Free LLM Compression

Ye Qiao et al.

cs.LG cs.AI cs.AR

FASQ提出了一种无需校准数据的灵活加速子空间量化框架，通过乘积量化（product quantization）和自定义CUDA内核实现了LLM权重压缩，在连续压缩比范围内（27-49%原始FP16大小）取得了优于GPTQ和AWQ的精度-速度权衡。该方法主要关注量化压缩效率，与关键词中的code、context、spectral等概念关联较弱。

HERCULES: Hardware-Efficient, Robust, Continual Learning Neural Architecture Search

Matteo Gambella, Fabrizio Pittorino, Manuel Roveri

cs.LG cs.AR cs.CL cs.CV cs.NE

本文提出了一种名为HERCULES的分类框架，将Neural Architecture Search (NAS)方法从效率、鲁棒性和持续学习三个维度进行划分，并指出了当前研究在这三个目标上的孤立性。该工作主要是一个综述性研究，旨在为可部署的终身学习AI系统提供路线图，但并未提出具体的新算法或解决长期存在的核心问题。

Learning reveals invisible structure in low-rank RNNs

Yoav Ger, Omri Barak

cs.LG cs.AI q-bio.NC

本文通过将低秩RNN的学习动力学简化为一个低维的overlap空间，推导了梯度下降的封闭形式ODE，并区分了loss-visible和loss-invisible两类overlap。该工作揭示了学习过程中隐藏的结构变化，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

Simultaneous CNN Approximation on Manifolds with Applications to Boundary Value Problems

Hanfei Zhou, Lei Shi

cs.LG math.NA

本文研究了在紧致Riemannian流形上使用CNN进行同时逼近和求解椭圆边值问题的方法，建立了Sobolev逼近结果，并提出了基于谱边界损失的物理信息CNN框架以解决边界范数不匹配问题。

Position: the Stochastic Parrot in the Coal Mine. Model Collapse is a Threat to Low-Resource Communities

Devon Jarvis et al.

cs.LG cs.CL cs.CY

本文探讨了模型崩溃（model collapse）对低资源社区的影响，指出生成模型在先前模型输出上训练会导致性能退化，并加剧文化偏见和资源浪费。文章呼吁关注这一现象对AI民主化努力的威胁，但未提出具体的新方法或解决长期问题。

Constrained Extreme Gradient Boosting for Adapting Reduced-Order Models

Melika Baghi, Xiao Liu, Kamran Paynabar

cs.LG

本文提出了一种名为cXGBoost的约束集成学习框架，用于预测参数化系统的Proper Orthogonal Decomposition (POD)基。该方法在Grassmann流形上表示子空间，并通过梯度提升树进行回归，同时施加范数约束以保证几何结构的有效性。

Model synthesis and identifiability analysis of stiff chemical reaction systems with inVAErt networks

Sreejata Dey et al.

cs.LG

本文针对化学动力学中刚性常微分方程系统的数据驱动建模问题，使用conditional residual networks或LSTM训练emulators，并应用inVAErt networks框架解决从物种浓度推断反应速率等参数的逆问题。该方法在2到20个微分方程的系统上验证，相对均方根误差在$10^{-5}$到$10^{-3}$之间。

Enabling Real-Time Training of a Wildfire-to-Smoke Map with Multilinear Operators

Zachary Morrow et al.

cs.LG physics.ao-ph physics.comp-ph

本文使用数据驱动的multilinear operators，从点火时间信息预测野火产生的smoke concentration field，在Upper Rio Grande Watershed上实现了快速训练和预测，但方法本身并非开创性，且与关键词列表关联较弱。

A Provably Convergent and Practical Algorithm for Gromov--Wasserstein Optimal Transport

Ling Liang, Lei Yang

cs.LG math.OC

本文针对Gromov-Wasserstein最优传输问题，提出了一种基于不精确投影梯度的算法框架，并给出了可验证的可行性残差条件。该算法在保证收敛性的同时，保持了投影梯度方法的简洁性和稀疏性，为大规模GWOT问题提供了理论可靠的实用方案。

Constraint-Enhanced Reinforcement Learning Based on Dynamic Decoupled Spherical Radial Squashing

Qijun Liao, Zhaoxin Yu, Jue Yang

cs.LG cs.RO

本文提出Dynamic Decoupled Spherical Radial Squashing (DD-SRad)方法，通过为每个actuator独立计算位置自适应半径，解决了强化学习中执行器速率约束与现有球状约束方法之间的几何不匹配问题。该方法在MuJoCo和IsaacLab仿真中实现了零约束违反下的最高任务回报。

Deep Wave Network for Modeling Multi-Scale Physical Dynamics

Alexander I. Khrabry et al.

cs.LG cs.AI physics.comp-ph physics.flu-dyn physics.plasm-ph

本文提出了一种名为Deep Wave Network (DW-Net)的架构，通过串联多个编码器-解码器“波”来增加有效深度，并在波内和波间引入skip connections，以改进多尺度物理动力学建模中的精度-成本权衡。实验表明，在多个2D和3D流动基准测试中，DW-Net在相同计算成本下比传统U-Net实现了更高的精度。

Sequential Strategic Classification with Multi-Stage Selective Classifiers

Ziyuan Huang, Lina Alkarmi, Mingyan Liu

cs.LG

本文提出了一种多阶段随机战略分类模型，其中agent通过改进和博弈行为适应不同级别的选择性分类器。研究分析了agent在短视策略下的长期行为，并探讨了如何设计分类器序列以激励真实努力。

Climate-based Pre-screening of Self-sustaining Regreening Opportunities in Drylands: A Case Study for Saudi Arabia

Katja Froehlich et al.

cs.LG

本文提出了一种基于气候和遥感数据的预筛选框架，用于在干旱地区识别无需长期灌溉即可自我维持的植被恢复地点，并以沙特阿拉伯为案例生成了国家尺度的预测图。该方法通过机器学习模型计算气候适宜性得分，并结合植被指数筛选出十三个优先区域，为水资源有限地区的生态恢复规划提供了成本效益高的工具。

Predict-then-Diffuse: Adaptive Response Length for Compute-Budgeted Inference in Diffusion LLMs

Michael Rottoli, Subhankar Roy, Stefano Paraboschi

cs.LG cs.AI

本文提出Predict-then-Diffuse框架，通过一个辅助的Adaptive Response Length Predictor (AdaRLP)为Diffusion LLM (D-LLM)预测最优响应长度，以解决其固定长度生成带来的计算浪费或截断问题。该方法通过数据驱动的安全机制避免欠预测，在多个数据集上验证了其能有效降低计算成本（FLOP）。

Jordan-RoPE: Non-Semisimple Relative Positional Encoding via Complex Jordan Blocks

Yaobo Zhang

cs.LG cs.CL

本文提出Jordan-RoPE，一种基于非半单复Jordan块的相对位置编码方法，通过将旋转特征与幂零响应耦合在同一个Jordan块中，生成距离调制的振荡多项式特征。该方法在理论上构建了非半单的单参数表示，但在WikiText-103语言模型实验中，其性能未超越RoPE+ALiBi基线，且与关键词中的attention概念有一定关联但缺乏开创性突破。

Capabilities of Auto-encoders and Principal Component Analysis of the Reduction of Microstructural Images; Application on the Acceleration of Phase-Field Simulations

Seifallah Fetni et al.

cs.LG cond-mat.mtrl-sci

本文提出了一种基于Phase-Field模拟数据的数据驱动框架，利用auto-encoder神经网络和principal component analysis对微观结构图像进行降维（压缩比达1/196且准确率超过80%），并应用LSTM和GRU进行时间序列预测以加速模拟。该工作主要关注图像降维与时间序列预测的工程应用，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联较弱。

Layerwise LQR for Geometry-Aware Optimization of Deep Networks

Simon Dufort-Labbé et al.

cs.LG cs.AI

本文提出Layerwise LQR (LLQR)框架，将深度网络中的几何感知优化（如Newton和natural gradient方法）等价为有限时域的Linear Quadratic Regulator (LQR)问题，并据此学习结构化的逆preconditioner。该方法通过最小化LQR目标来近似全局曲率矩阵，避免了显式构造和求逆，在ResNets和Transformers上验证了优化效果。

Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals

Roberto Medina

cs.LG

本文提出了一种名为DASE的自适应停止策略，用于大型语言模型集成中的迭代协商，通过检测早期共识来动态决定何时停止推理，以避免过度思考导致的性能下降。该方法在AIME和GPQA基准测试上验证了自适应停止比注入带宽更能提升准确性，并自动识别最优预算。

Road Risk Monitor: A Deployable U.S. Road Incident Forecasting System with Live Weather and Road-Level Tiles

Anton Ivchenko

cs.LG

本文介绍了Road Risk Monitor系统，一个结合历史事故数据、实时天气和道路几何信息的美国全国道路事故预测系统，通过多种API和Web应用提供服务。

Hierarchical Support Vector State Partitioning for Distilling Black Box Reinforcement Learning Policies

Senne Deproost, Mehrdad Asadi, Ann Nowé

cs.LG cs.HC

本文提出了一种名为State Vector Space Partitioning (SVSP)的方法，通过线性Support Vector Machine (SVM)分割将黑盒强化学习策略蒸馏为一组可解释的子策略。该方法在性能上优于先前基于Voronoi State Partitioning (VSP)的蒸馏方法，并显著减少了所需子策略的数量。

HUGO-CS: A Hybrid-Labeled, Uncertainty-Aware, General-Purpose, Observational Dataset for Cold Spray

Stephen Price et al.

cs.LG

本文构建了一个名为HUGO-CS的冷喷涂实验数据集，包含4383个实验和144个特征，并提出了一个结合LLM自动标注与人工精炼的混合标注框架HUGO，用于从科学文献中提取实验结果。该工作主要贡献在于提供了一个大规模、机器可读的数据集，但与关键词列表中的概念关联较弱。

Explaining and Preventing Alignment Collapse in Iterative RLHF

Etienne Gauthier, Francis Bach, Michael I. Jordan

cs.LG stat.ML

本文研究了迭代RLHF中的对齐崩溃问题，通过Stackelberg博弈框架分析了策略对奖励模型参数的影响，并提出了FPO方法通过正则化策略的引导效应来缓解该问题。该方法在受控环境和Llama-3.2-1B的LLM对齐流程中验证了有效性。

QUIVER: Cost-Aware Adaptive Preference Querying in Surrogate-Assisted Evolutionary Multi-Objective Optimization

Florian A. D. Burnat

cs.LG

本文提出了一种名为QUIVER的成本感知自适应偏好查询方法，用于代理辅助的进化多目标优化。该方法通过自适应选择目标评估和异构偏好查询（如成对偏好陈述和等值调整）来优化预算分配，并在基准测试中取得了较低的效用遗憾。

A Mean Curvature Approach to Boundary Detection: Geometric Insights for Unsupervised Learning

Alexandre L. M. Levada

cs.LG cs.AI stat.ML

本文提出了一种基于平均曲率的无监督边界检测方法MCBP，通过局部k近邻估计shape operator来近似数据流形的平均曲率，从而识别高曲率区域作为聚类边界。该方法无需显式流形参数化，并引入自适应阈值实现多尺度边界提取。

Hardware-Aware Neural Feature Extraction for Resource-Constrained Devices

Francesco Tosini et al.

cs.LG

本文提出Gideon，一种面向资源受限设备的硬件感知神经网络特征提取器，通过结合知识蒸馏与可微神经架构搜索(DNAS)来优化内存和量化约束。实验表明，在STM32N6上实现了9.003ms推理时间，INT8量化几乎无性能损失。

Probabilistic Classification and Uncertainty Quantification of Sahara Desert Climate Using Feedforward Neural Networks

Stephen Tivenan, Indranil Sahoo, Yanjun Qian

cs.LG stat.AP stat.CO

本文使用前馈神经网络对撒哈拉沙漠气候进行概率分类，并与传统的Köppen-Trewartha确定性分类进行比较，通过波动分析揭示了气候区的时空演变。该方法为气候分类提供了不确定性量化，但未涉及关键词中的code、spectral、Muon、pretrain、agent或attention等概念。

Leveraging Pretrained Language Models as Energy Functions for Glauber Dynamics Text Diffusion

Tarun Kathuria, Sachin Kumar

cs.LG

本文提出了一种基于Glauber dynamics的离散扩散语言模型，利用预训练语言模型作为能量函数来改进文本生成质量。该方法在文本生成任务上优于先前的扩散模型，并与自回归模型性能相当。

LLMs Uncertainty Quantification via Adaptive Conformal Semantic Entropy

Hamed Karimi, Vaishali Meyappan, Reza Samavi

cs.LG cs.AI

本文提出了一种名为Adaptive Conformal Semantic Entropy (ACSE)的方法，用于量化LLM输出的不确定性，通过聚类语义熵并应用conformal calibration来提供统计保证。该方法在多个数据集上优于现有baseline，但与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

Memory as a Markov Matrix: Sample Efficient Knowledge Expansion via Token-to-Dictionary Mapping

Kaustubh Pethkar et al.

cs.LG cs.AI

本文提出将自回归语言生成建模为token上的Markov过程，其中模型记忆由Markov transition matrix表示。通过token-to-dictionary映射策略扩展状态空间以融入新知识，并证明了样本复杂度界，但方法主要针对增量学习场景，与关键词契合度较低。

LUCAS-MEGA: A Large-Scale Multimodal Dataset for Representation Learning in Soil-Environment Systems

Kuangdai Leng et al.

cs.LG cs.DB

本文构建了LUCAS-MEGA大规模多模态土壤数据集，并开发了SoilFuser数据融合pipeline，通过标准化异构数据格式和解决不一致性问题，将超过70,000个样本和1,000个特征整合为统一的机器学习可用特征空间。

DeFed-GMM-DaDiL: A Decentralized Federated Framework for Domain Adaptation

Rebecca Clain, Eduardo Fernandes Montesuma, Fred Ngole Mboula

cs.LG

本文提出了一种去中心化的联邦域适应框架DeFed-GMM-DaDiL，通过将每个客户端的数据建模为Gaussian Mixture Model (GMM)并利用Wasserstein barycenter进行联合近似，实现了无中心服务器的域适应。实验表明该方法在目标域缺失类别时仍能保持稳定的共享表示。

On the Architectural Complexity of Neural Networks

Nicholas J. Cooper et al.

cs.LG cs.DM math.CO

本文提出了一个用于深度神经网络(DNN)结构分析与构建的统一理论框架，通过显式建模tensor operations来填补现有理论的空白。该框架可用于分析深度学习历史中架构复杂性的演变，并自动构建基于新型tensor operations的架构。

Learning-based Statistical Refinement for Denoising

Rihuan Ke

cs.LG cs.CV eess.IV

本文提出了一种基于学习的统计精炼方法，用于改进给定denoiser的去噪结果，无需精确的噪声分布或干净图像。该方法通过贝叶斯公式利用噪声数据中的统计信息，在假设噪声条件独立于干净信号的前提下，提升去噪结果与噪声统计的一致性。

Budgeted LoRA: Distillation as Structured Compute Allocation for Efficient Inference

Mohammed Sabry, Anya Belz

cs.LG cs.AI cs.CL

本文提出Budgeted LoRA框架，将模型压缩视为结构化计算分配问题，通过全局计算预算控制稠密与低秩路径的容量分配，实现推理加速。实验表明该方法在中等预算下匹配标准LoRA的perplexity并获得1.74倍加速，在激进预算下实现4.05倍加速但perplexity略有退化。

Structural Equivalence and Learning Dynamics in Delayed MARL

Jules Sintes, Ana Bušić, Jiamin Zhu

cs.LG

本文证明了在部分可观测多智能体系统中，Observation Delay (OD) 与 Action Delay (AD) 在结构上等价，即两者生成相同的 admissible joint-policy 集且轨迹分布相同，从而可将任意混合延迟系统简化为纯 OD 系统。然而，数值实验表明，尽管最优解空间同构，实际学习动态存在根本差异，且该等价性在 Transition-Independent MDPs (TI-MDPs) 之外不再成立。

Covariance-Aware Goodness for Scalable Forward-Forward Learning

Xiaoyi Jiang, Bashir M. Al-Hashimi, Kai Xu

cs.LG cs.CV

本文针对Forward-Forward算法在卷积网络中的性能瓶颈，提出了一种协方差感知的goodness函数（BiCovG）以及Logistic Fusion和Feature Alignment Layer等组件，以提升无反向传播学习的性能。该方法在ImageNet-100和Tiny-ImageNet上取得了显著改进，但与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Probing Structural Mathematical Reasoning in Language Models with Algebraic Trapdoors

Igor Rivin

cs.LG math.GR

本文构建了一个基于SL(3, Z)中子群构造问题的benchmark，用于评估语言模型的结构化数学推理能力。该benchmark通过引入密码学风格的验证者-证明者不对称性，测试模型能否利用代数先验知识（如Aschbacher分类、McLaughlin定理等）来求解指数、素数满射或成员关系等算术不变量。

Efficiently Aligning Language Models with Online Natural Language Feedback

Christine Ye, Joe Benton

cs.LG cs.AI

本文提出了一种利用在线自然语言反馈来对齐语言模型的方法，通过迭代优化proxy reward signals并收集专家监督，在“模糊”领域（如创意写作）中提高了数据效率。实验表明，该方法在Qwen3-8B和Haiku 4.5上能以更少的专家样本恢复大部分性能。

Mitigating Label Shift in Tabular In-Context Learning via Test-Time Posterior Adjustment

Seunghan Lee et al.

cs.LG cs.AI

本文发现TabPFN在tabular in-context learning中易受label shift影响，并提出DistPFN方法，通过test-time posterior adjustment重新缩放预测概率以减轻训练先验的影响，无需修改架构或额外训练。该方法在250多个OpenML数据集上提升了分类性能。

Online Nonstochastic Prediction: Logarithmic Regret via Predictive Online Least Squares

Chih-Fan Pai, Yang Zheng

cs.LG eess.SY math.OC

本文研究非随机扰动下边际稳定部分观测线性动力系统的在线预测问题，提出一种通过预测性提示稳定学习过程的在线最小二乘法，实现了对数遗憾界。

Extending Differential Temporal Difference Methods for Episodic Problems

Kris De Asis, Mohamed Elsayed, Jiamin He

cs.LG cs.AI

本文针对episodic reinforcement learning问题，提出了一种对differential temporal difference (TD)方法的推广，通过证明该推广在任务终止时保持策略排序，从而将reward centering技术扩展到episodic场景。文章还展示了该方法与线性TD的等价性，并基于此将多种streaming RL算法转化为其differential形式，实验验证了reward centering能提升样本效率。

$p$-adic Manifold Learning and Benchmark Tasks from Impartial Games

Tomoki Mihara

cs.LG math.NT

本文介绍了$p$-adic manifold learning的概念，并提出了一种求解算法，同时从impartial games中设计了基准测试任务。

GraphPI: Efficient Protein Inference with Graph Neural Networks

Zheng Ma et al.

cs.LG

本文提出GraphPI框架，将蛋白质推断转化为node classification问题，利用Graph Neural Network处理protein-peptide-PSM图结构，并通过伪标签和self-training解决标签稀缺问题。该模型无需数据集特定微调即可通用，在多个测试集上表现良好且计算效率显著提升。

Critical Windows of Complexity Control: When Transformers Decide to Reason or Memorize

Sarwan Ali

cs.LG cs.AI

本文研究了Transformer在训练过程中决定采用推理还是记忆策略的关键时间窗口，发现权重衰减在训练中期（约25%的步骤）施加时对OOD准确率影响最大，且该窗口位置依赖于初始化尺度。然而，该工作主要关注训练动态中的超参数调度，与您提供的关键词（如code, spectral, Muon等）关联度较低。

Counterfactual identifiability beyond global monotonicity: non-monotone triangular structural causal models

Pengcheng Tan, Jiang Chen, Dehui Du

cs.LG stat.ME

本文提出非单调三角结构因果模型(NM-TM-SCM)，通过机制可逆性和上下文无关逆传输条件替代全局单调性，证明了反事实可识别性。在合成数据和MuJoCo Door任务中验证了模型在非单调场景下的反事实恢复优势，但方法本身与关键词中的code、spectral、Muon等概念无直接关联。

FLUID: Continuous-Time Hyperconnected Sparse Transformer for Sink-Free Learning

Waleed Razzaq, Yun-Bo Zhao

cs.LG cs.AI

本文提出FLUID，一种将连续时间动力学引入attention计算的CT Transformer，通过Liquid Attention Network (LAN)将attention logits重新解释为线性ODE的解，并引入attention-sink gate以消除对无信息节点的过度关注。该方法在多个任务上匹配或超越基线，但并未直接涉及code、context、spectral、Muon、pretrain或agent等关键词。

Discovering Sparse Counterfactual Factors via Latent Adjustment for Survey-based Community Intervention

Fatima Ashraf et al.

cs.LG

本文提出了一种基于调查数据的稀疏反事实社区干预框架，通过固定基非负潜在表示和Shapley归因识别关键因素，并利用熵正则化最优传输和加权$\ell_{2,1}$惩罚学习可行的群体级调整策略。该方法在交通调查数据集上验证了其生成紧凑、可解释干预策略的能力。

Stabilizing LLM Supervised Fine-Tuning via Explicit Distributional Control

Xinyu Wang et al.

cs.LG cs.AI cs.CL

本文提出Anchored Learning框架，通过在distribution space中引入动态moving anchor来插值当前模型与冻结参考模型，从而将fine-tuning转化为一系列local trust-region更新。实验表明该方法在iGSM、MedCalc和IFEval上能显著缓解catastrophic forgetting，同时保持接近最优的性能提升。

CRAFT: Counterfactual-to-Interactive Reinforcement Fine-Tuning for Driving Policies

Keyu Chen et al.

cs.LG cs.RO

本文提出CRAFT框架，通过将counterfactual优势作为dense proxy并与closed-loop residual correction结合，优化自动驾驶策略的post-training过程。该方法在Bench2Drive上取得了最强的closed-loop性能提升。

Automated Formal Proofs of Combinatorial Identities via Wilf-Zeilberger Guidance and LLMs

Beibei Xiong et al.

cs.LG

本文提出WZ-LLM框架，结合Wilf-Zeilberger符号方法与LLM，在Lean 4中自动证明组合恒等式。该方法通过WZ方法生成证明草图，并用LLM完成子目标，在多个基准测试上提升了证明成功率。

Geometry-Aware Neural Optimizer for Shape Optimization and Inversion

Guoze Sun et al.

cs.LG

本文提出了一种几何感知神经优化器(GANO)，通过自解码器编码形状并利用去噪机制稳定潜在空间更新，为PDE控制系统的形状优化与反演提供了端到端的可微框架。该方法在2D/3D基准测试中取得了优于现有技术的精度和可控性。

Data-dependent Exploration for Online Reinforcement Learning from Human Feedback

Zhen-Yu Zhang et al.

cs.LG

本文提出了一种数据依赖的探索方法DEPO，用于在线RLHF中通过历史偏好数据构建不确定性奖励来鼓励探索，并在理论上给出了数据依赖的regret bound。该方法在实验中展示了比强基线更好的样本效率。

Towards General Preference Alignment: Diffusion Models at Nash Equilibrium

Jiaming Hu et al.

cs.LG cs.CV

本文从博弈论角度出发，提出了Diffusion Nash Preference Optimization (Diff.-NPO)框架，用于对齐text-to-image扩散模型与人类偏好。该方法通过让当前策略与自身博弈来实现自我改进，在文本到图像生成任务上优于现有基于偏好的对齐方法。

Gradient Scaling Effects in Adaptive Spectral PINNs for Stiff Nonlinear ODEs

Isabela M. Yepes, Pavlos Protopapas

cs.LG

本文研究了自适应谱PINNs中初始条件嵌入对梯度缩放的影响，发现指数门控和线性门控在不同刚度下表现各异，但未提出突破性方法或解决长期问题，与关键词契合度较低。

FL-Sailer: Efficient and Privacy-Preserving Federated Learning for Scalable Single-Cell Epigenetic Data Analysis via Adaptive Sampling

Guangyi Zhang et al.

cs.LG stat.ML

本文提出FL-Sailer，一个针对scATAC-seq数据设计的联邦学习框架，通过adaptive leverage score sampling和invariant VAE架构解决高维稀疏和异质性挑战，并提供了收敛性保证。实验表明其在多机构协作中优于集中式方法。

YOTOnet: Zero-Shot Cross-Domain Fault Diagnosis via Domain-Conditioned Mixture of Experts

Zesen Wang et al.

cs.LG cs.MA

本文提出YOTOnet，一种用于机械设备跨域故障诊断的零样本架构，包含物理感知不变特征提取器、域条件稀疏专家混合和双头分类系统。在五个公开轴承数据集上的实验表明其优于现有方法，并观察到随训练数据量增加的性能提升。

From Video-to-PDE: Data-Driven Discovery of Nonlinear Dye Plume Dynamics

Cesar Acosta-Minoli, Sayantan Sarkar

cs.LG math.NA physics.comp-ph stat.AP stat.ML

本文提出了一种从视频数据中自动发现非线性染料羽流动力学偏微分方程(PDE)的pipeline，通过将未校准的灰度视频转换为归一化标量场，并利用弱形式稀疏回归和逆物理信息网络来识别有效输运律。该方法在保持模型可解释性的同时，优于传统的advection-diffusion基线模型。

Power Distribution Bridges Sampling, Self-Reward RL, and Self-Distillation

Akiyoshi Tomihari, Issei Sato

cs.LG

本文聚焦于power distribution在sampling、self-reward KL-regularized RL和self-distillation之间的桥梁作用，证明了power distribution是KL-regularized RL的闭式优化器，并提出了power self-distillation方法。实验表明该方法在推理任务中能以更低成本匹配或超越power sampling的性能，但与关键词列表中的概念关联较弱。

Event-Based Early Warning of Vineyard Disease Risk from Environmental Time Series

Ivica Dimitrovski et al.

cs.LG

本文提出了一种基于事件的葡萄园病害风险早期预警方法，将传统每日分类任务重新定义为预测未来3-7天内进入标注风险期的转换，并使用XGBoost、LSTM和TCN等模型进行评估。实验表明，该事件驱动公式能有效支持短期预警，但方法本身在理论或算法上缺乏显著开创性，且与关键词列表中的概念关联较弱。

Counter-Dyna: Data-Efficient RL-Based HVAC Control using Counterfactual Building Models

Jan Marco Ruiz de Vargas et al.

cs.LG eess.SY

本文提出Counter-Dyna方法，通过构建反事实替代模型（CSM）来提升Dyna框架在建筑HVAC控制中的数据效率。该方法利用状态空间中的不变性，将所需环境交互数据从6-12个月减少至5周，并在BOPTEST框架下验证了5.3%-17.0%的成本节约潜力。

Dream-MPC: Gradient-Based Model Predictive Control with Latent Imagination

Jonathan Spieler, Sven Behnke

cs.LG cs.AI cs.RO

本文提出Dream-MPC方法，通过从roll-out策略生成少量候选轨迹，并利用学习的世界模型进行梯度上升优化，结合不确定性正则化和跨时间步的优化迭代摊销，来改进基于梯度的Model Predictive Control在连续控制任务中的性能。实验表明该方法能显著提升底层策略表现，并优于无梯度MPC和现有基线方法。

HeterSEED: Semantics-Structure Decoupling for Heterogeneous Graph Learning under Heterophily

Xinyi Li et al.

cs.LG cs.AI

本文提出HeterSEED框架，通过解耦语义与结构信息来处理异质图中的异配性（heterophily）问题。该方法利用伪标签引导的邻域划分和基于metapath的结构权重，分别捕获局部语义和同配/异配邻域信息，并通过节点级自适应融合机制生成表示。实验表明其在强异配场景下优于现有方法。

A Queueing-Theoretic Framework for Stability Analysis of LLM Inference with KV Cache Memory Constraints

Chengyi Nie, Nian Si, Zijie Zhou

cs.LG cs.AI math.OC

本文首次引入了一个排队论框架，用于分析LLM推理中同时受计算和KV缓存内存约束的稳定性问题，推导了服务稳定与不稳定的条件，并通过实验验证了其高精度。

Library learning with e-graphs on jazz harmony

Zeng Ren et al.

cs.LG cs.AI cs.SC

本文提出了一种基于library learning的计算模型，用于学习爵士和声模式。该模型通过e-graphs上的演绎解析来高效搜索程序与库的联合空间，以发现语料库的简洁生成解释。

FAAST: Forward-Only Associative Learning via Closed-Form Fast Weights for Test-Time Supervised Adaptation

Guangsheng Bao et al.

cs.LG cs.CL

本文提出FAAST方法，一种仅前向传播的关联适应方法，通过闭式快速权重在单次前向中编译标注样本，实现常数时间推理并解耦任务适应与预训练表示。实验表明其在图像分类和语言建模中匹配或超越基于反向传播的适应方法，同时显著降低适应时间和内存使用。

Threshold-Guided Optimization for Visual Generative Models

Jinbin Bai et al.

cs.LG

本文提出了一种阈值引导的对齐框架，将视觉生成模型与人类反馈的对齐问题转化为基于标量评分的二元决策任务，通过从经验评分统计中估计全局阈值替代难以处理的实例级baseline，并引入置信度加权项提升样本效率。实验表明该方法在扩散和掩码生成范式下均优于依赖成对偏好的传统方法。

Evidence-based anomaly detection in clinical domains

Milos Hauskrecht et al.

cs.LG

本文探讨了基于概率模型（如Bayesian networks）的异常检测方法，用于识别临床领域中不寻常的患者管理决策。该方法从历史病例数据库中学习模型，并应用于术后心脏患者的决策异常识别。

Feature importance analysis for patient management decisions

Michal Valko, Milos Hauskrecht

cs.LG

本文分析了临床数据特征对医生决策（如实验室检查或药物处方）的影响，基于4486名心脏术后患者的电子健康记录数据，发现许多决策可由少量特征有效预测。

ITBoost: Information-Theoretic Trust for Robust Boosting

Ye Su et al.

cs.LG

本文提出ITBoost方法，通过Minimum Description Length原则衡量样本残差轨迹的复杂度来评估样本可靠性，从而提升Gradient Boosting在标签噪声下的鲁棒性。该方法在表格数据基准测试中展现了优于现有Boosting和深度模型的性能。

HEXST: Hexagonal Shifted-Window Transformer for Spatial Transcriptomics Gene Expression Prediction

Keunho Byeon, Jin Tae Kwak

cs.LG cs.CV

本文提出HEXST，一种基于六边形移位窗口Transformer的方法，用于从组织学图像预测空间基因表达。该方法通过六边形坐标和旋转位置编码建模局部到全局的上下文，并引入对比敏感损失和单细胞预训练先验来增强基因表达的空间异质性。

Learning Time-Inhomogeneous Markov Dynamics in Financial Time Series via Neural Parameterization

Jan Rovirosa, Jesse Schmolze

cs.LG q-fin.MF

本文提出了一种利用神经网络参数化生成显式时变Markov转移矩阵的框架，以克服金融时间序列中非平稳随机系统建模时经验估计的数据稀疏性问题。该方法通过约束网络输出为形式化随机算子来保持结构可解释性，并利用Chapman-Kolmogorov方程作为局部诊断工具检测一阶记忆假设的失效窗口。

Differentiable Chemistry in PINNs for Solving Parameterized and Stiff Reaction Systems

Miloš Babić, Franz M. Rohrhofer, Stefan Posch

cs.LG

本文提出了一种将可微化学求解器集成到修改后的物理信息神经网络(PINNs)中的框架，用于求解参数化的刚性反应系统。该方法通过引入可微求解器、参数化解的网络架构和针对刚性反应的残差加权，克服了标准PINNs的局限性，并在氢燃烧相关的微分方程上验证了其有效性。

Exact Dual Geometry of SOC-ICNN Value Functions

Kang Liu, Jianchen Hu, Wei Peng

cs.LG cs.AI math.OC

本文从对偶视角研究了SOC-ICNN（二阶锥输入凸神经网络）的精确一阶和局部二阶几何性质，证明了支撑斜率、次微分、方向导数和局部Hessian矩阵可直接从最优对偶变量恢复。这些结果为白盒SOC-ICNN推理提供了几何基础，超越了黑盒自动微分方法。

Ensuring Reliability in Programming Knowledge Tracing: A Re-evaluation of Attention-augmented Models and Experimental Protocols

Jaewook Kim, Hyeoncheol Kim

cs.LG cs.SE

本文重新评估了编程知识追踪（PKT）中的注意力增强模型，指出模型配置和序列构建方式会显著影响性能估计，并提出了更可靠的评估协议。实验表明，在受控条件下，注意力增强模型与标准DKT的性能差距大幅缩小，增加架构复杂度并不总能带来性能提升。

Using Common Random Numbers for Simulation-based Planning with Rollouts

Sandarbh Yadav et al.

cs.LG

本文研究了在基于rollout的仿真规划中使用公共随机数(common random numbers)的效果，提出了一种在rollout策略超过一定深度时减少相对效用估计方差的简单方法。实验表明该方法能提升任务性能，并在养老金发放任务和Ludo游戏的UCT算法部署中验证了其实际意义。

OSAQ: Outlier Self-Absorption for Accurate Low-bit LLM Quantization

Zhikai Li et al.

cs.LG

OSAQ提出了一种基于Hessian矩阵低秩特性的权重异常值抑制方法，通过构造可吸收的加性变换实现低比特量化，无需额外推理开销。该方法在2-bit量化中与GPTQ结合可降低困惑度超过40%。

MixINN: Accelerating Plant Breeding by Combining Mixed Models and Deep Learning for Interaction Prediction

Aike Potze, Fred van Eeuwijk, Ioannis N. Athanasiadis

cs.LG

本文提出MixINN方法，结合mixed models与deep neural network预测作物基因型与环境互作效应，在玉米多环境试验中提升了基因型排序预测精度。该方法为植物育种中基因型-环境互作预测这一开放挑战提供了AI解决方案。

Knowledge-Free Correlated Agreement for Incentivizing Federated Learning

Leon Witt et al.

cs.LG cs.AI cs.GT

本文提出了一种名为Knowledge-Free Correlated Agreement (KFCA)的方法，用于在联邦学习中奖励客户端贡献，无需依赖ground truth或公共测试集。该方法在分类报告和诚实多数假设下是严格真实的，并解决了标签翻转攻击的漏洞。

AxMoE: Characterizing the Impact of Approximate Multipliers on Mixture-of-Experts DNN Architectures

Omkar B Shende, Marcello Traiola, Gayathri Ananthanarayanan

cs.LG cs.AR

本文首次研究了近似乘法器对Mixture-of-Experts (MoE) DNN架构的影响，在多种CNN和Vision Transformer架构上评估了Hard MoE、Soft MoE和Cluster MoE变体，发现不同架构和拓扑对近似计算的鲁棒性差异显著。

Cognitive Twins: Investigating Personalized Thinking Model Building and Its Performance Enhancement with Human-in-the-Loop

Wu-Yuin Hwang et al.

cs.LG cs.AI cs.HC

本文提出了一种名为Personalized Thinking Model (PTM)的分层可解释学习者表征，用于AI辅助教育。该模型通过结合大语言模型推理、sentence embeddings和consensus clustering等技术的pipeline，将学习者日志中的证据组织成五层结构，旨在构建学习者的认知孪生。实验通过自动评估、用户评估和语义对齐验证了PTM的保真度，但该方法与所提供的关键词（如code, spectral, Muon, pretrain, agent, attention）关联度较低。

Bilinear Mamba-Koopman Neural MPC for Varying Dynamics

Matan Pagi, Zohar Sorek

cs.LG math.OC

本文提出Bilinear Mamba-Koopman Neural MPC，通过在latent dynamics中引入控制依赖的耦合项，扩展了标准的线性条件独立Koopman模型。该方法在CartPole和RSCP基准测试中，在时变场景下提升了预测精度和闭环控制的鲁棒性。

A Biased Nonnegative Block Term Tensor Decomposition Model for Dynamic QoS Prediction

Wenjing Liu, Yujia Lei, Qu Wang

cs.LG

本文提出了一种基于有偏非负块项张量分解模型（BNBT）的动态QoS预测框架，通过引入block term tensor decomposition和线性偏置项来增强表示能力，并设计了SLF-NMUT算法进行参数估计。实验表明该方法在预测精度上优于现有方法。

Unsat Core Prediction through Polarity-Aware Representation Learning over Clause-Literal Hypergraphs

Zhenchao Sun et al.

cs.LG

本文提出了一种基于clause-literal hypergraph的极性感知表示学习框架，用于预测SAT公式的unsat core。该方法通过超图结构捕获高阶交互，并引入极性分解机制显式建模正负文字关系，在多个SAT数据集上验证了有效性。

Improving FMQA via Initial Training Data Design Considering Marginal Bit Coverage in One-Hot Encoding

Taiga Hayashi et al.

cs.LG cond-mat.stat-mech

本文针对FMQA方法中one-hot编码导致的初始训练数据覆盖不全问题，提出通过Latin hypercube sampling和Sobol' sequence设计初始数据以实现完全的marginal bit coverage，并在机翼形状优化基准上验证了改进效果。

Trustworthy Federated Label Distribution Learning under Annotation Quality Disparity

Junxiang Wu et al.

cs.LG

本文针对联邦标签分布学习（Fed-LDL）中客户端标注质量异质性问题，提出FedQual框架，包含质量自适应客户端训练和可靠性感知服务器聚合两个机制，并构建了四个新基准数据集。实验表明该方法在标注质量差异场景下优于传统聚合策略。

Concurrence of Symmetry Breaking and Nonlocality Phase Transitions in Diffusion Models

Yifan F. Zhang et al.

cs.LG

本文研究了扩散模型中对称性破缺与非局域性相变是否同时发生，通过评估生成轨迹的动态和结果，观察到两者临界时间近乎同时出现。该工作首次在实践中统一了这两种相变概念，为评估模型效率和指导架构设计提供了依据。

Replay-Based Continual Learning for Physics-Informed Neural Operators

Yizheng Wang et al.

cs.LG

本文针对物理信息神经算子（Physics-Informed Neural Operators）在遇到分布外（OOD）数据时性能下降的问题，提出了一种基于回放（replay）的持续学习策略，通过结合蒸馏约束和迁移学习LoRA来缓解灾难性遗忘，并在多个物理问题上验证了其有效性。

Bridging Input Feature Spaces Towards Graph Foundation Models

Moshe Eliasof et al.

cs.LG

本文提出ALL-IN方法，通过将node features投影到共享随机空间并利用covariance-based statistics构建表示，使graph model能在不同输入特征的数据集间迁移。该方法在多种未见过的数据集上取得良好性能，无需修改架构或重新训练。

Hybrid Iterative Neural Low-Regularity Integrator for Nonlinear Dispersive Equations

Zhangyong Liang

cs.LG

本文提出HIN-LRI，一种混合框架，通过训练一个neural operator来修正经典数值求解器的截断误差，从而改进对非线性色散PDE的求解。该方法在低正则性条件下提供了稳定的近似，并在多个基准测试中展示了优于传统方法和神经PDE代理的精度。

Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models

Huatian Zhang et al.

cs.LG cs.CL cs.CV

本文提出了一种不确定性感知的探索性直接偏好优化方法(UE-DPO)，用于缓解多模态大语言模型(MLLMs)中的幻觉问题。该方法通过量化token级别的认知不确定性，在偏好学习中动态调整对视觉相关token的训练强度，从而提升模型对视觉细节的感知能力。

A Harmonic Mean Formulation of Average Reward Reinforcement Learning in SMDPs

Erel Shtossel et al.

cs.LG cs.AI

本文针对无限时域非回合制任务中的平均奖励强化学习问题，提出了一种改进的调和平均算子，用于在Semi-Markov决策过程中正确计算奖励率，并证明了其理论性质。实验表明该方法对非平稳奖励和持续时间分布具有鲁棒性。

Regime-Conditioned Evaluation in Multi-Context Bayesian Optimization

Noel Thomas

cs.LG stat.ML

本文研究了多上下文贝叶斯优化中不同acquisition function在不同预算和先验质量下的表现反转现象，提出了Portable Regime Score (PRS)来预测这种条件效应，并设计了RegimePlanner算法根据在线估计的rho动态切换acquisition策略。

A geometric relation of the error introduced by sampling a language model's output distribution to its internal state

Albert F. Modenbach

cs.LG

本文从几何角度研究了GPT-style语言模型在生成时对单token变化的敏感性，推导出一个仅依赖于token embedding几何结构的$\mathfrak{so}(n)$-valued 1-form，并发现其曲率在象棋推理任务中与模型的世界模型存在语义关联。

Delta-Based Neural Architecture Search: LLM Fine-Tuning via Code Diffs

Santosh Premi Adhikari, Radu Timofte, Dmitry Ignatov

cs.LG cs.AI cs.CV

本文提出Delta-Code Generation方法，通过微调LLM生成代码差异（deltas）而非完整模型代码，以迭代优化神经网络架构。实验表明该方法在多个数据集上显著提升了有效率和准确率，并大幅减少了输出代码长度。

Cross-Model Consistency of Feature Importance in Electrospinning: Separating Robust from Model-Dependent Features

Mehrab Mahdian, Ferenc Ender, Tamas Pardy

cs.LG cs.DB

本文研究了静电纺丝过程中不同机器学习模型对特征重要性排序的一致性，发现模型预测性能与解释可靠性是不同属性，单一模型得出的特征重要性可能不可靠。

Breaking the Quality-Privacy Tradeoff in Tabular Data Generation via In-Context Learning

Xinyan Han et al.

cs.LG

本文提出DiffICL方法，将表格数据生成视为in-context learning问题，利用预训练的结构先验从有限上下文中推断数据分布，从而在少量数据场景下打破数据质量与隐私保护之间的权衡。实验表明该方法在多个真实数据集上同时提升了数据质量和隐私保护效果。

Koopman Identification of Nonlinear Systems via Reservoir Liftings

Weibin Gu, Chen Yang, Lu Shi

cs.LG cs.RO

本文受Reservoir Computing启发，提出了RC-Koopman框架，将reservoir解释为一种有状态的、有限维的Koopman dictionary，其时间深度由spectral radius显式控制。该框架利用Echo State Property保证了lifted Koopman近似的适定性和良好的数值条件，并通过基于correlation的spectral radius选择算法将reservoir记忆与系统主导时间尺度对齐。

Reinforcement Learning for Compositional Generalization with Outcome-Level Optimization

Xiyan Fu, Wei Liu

cs.LG cs.CL

本文探讨了使用outcome-level reinforcement learning（特别是Group Relative Policy Optimization）来提升compositional generalization（组合泛化）能力，实验表明该方法优于传统的supervised fine-tuning，并通过重塑输出分布改善了模型对复杂组合的泛化。

When Does Gene Regulatory Network Inference Break? A Controlled Diagnostic Study of Causal and Correlational Methods on Single-Cell Data

Miguel Fernandez-de-Retana et al.

cs.LG cs.AI q-bio.GN q-bio.QM stat.ML

本文通过一个受控的诊断框架，系统研究了七种生物病理学因素（如dropout和latent confounders）如何影响六种基因调控网络推断方法的表现，发现因果方法在干净条件下占优但会被特定病理因素削弱其优势。该工作为方法选择提供了实用指导，但与关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Training-Time Batch Normalization Reshapes Local Partition Geometry in Piecewise-Affine Networks

Xuan Qi et al.

cs.LG stat.ML

本文研究了训练时Batch Normalization (BN)在连续分段仿射网络中对切换超平面几何结构的影响，证明了BN通过批次质心定义参考超平面，并分析了其对局部区域划分的细化作用。该工作为BN在训练过程中的函数级几何效应提供了理论解释，但与所给关键词列表中的概念关联较弱。

Adaptive Inverted-Index Routing for Granular Mixtures-of-Experts

Klaus-Rudolf Kladny et al.

cs.LG

本文提出AIR-MoE，一种基于vector quantization (VQ)的两阶段路由架构，用于granular Mixture-of-Experts (MoE)模型。该方法通过粗选和精筛两步近似top-k路由，降低了计算开销，并在实验中取得了优于现有路由方法的性能。

Order-based Rehearsal Learning

Yu-Xuan Tao, Tian-Zuo Wang, Zhi-Hua Zhou

cs.LG

本文提出了一种基于order structure（序结构）的rehearsal learning（排练学习）方法，用于解决avoiding undesired future（避免不良未来）问题。该方法通过信息论方法学习序结构，并构建序采样器来近似决策影响，从而将问题转化为可微优化问题。

KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

Han Wang et al.

cs.LG cs.PF

本文提出了KernelBench-X基准，用于评估LLM生成的GPU kernel的正确性和硬件效率，发现任务结构比方法设计更能决定正确性，且正确性不保证效率。

Delving into Non-Exchangeability for Conformal Prediction in Graph-Structured Multivariate Time Series

Ruichao Guo et al.

cs.LG

本文针对图结构多元时间序列的预测不确定性量化问题，提出了一种基于谱图理论的条件可交换性概念SGCE，并设计了基于图小波变换的共形预测方法SCALE，通过在高频残差上应用共形预测来提供有效的覆盖保证。

Reliable Modeling of Distribution Shifts via Displacement-Reshaped Optimal Transport

Philip Naumann et al.

cs.LG cs.AI

本文提出了一种名为Displacement-Reshaped Optimal Transport (ReshapeOT)的方法，通过利用观测到的样本位移来重塑ground metric，从而更可靠地建模分布转移。该方法计算轻量，可集成到任何基于cost matrix的OT求解器中。

Skill Neologisms: Towards Skill-based Continual Learning

Antonin Berthon, Nicolas Astorga, Mihaela van der Schaar

cs.LG cs.AI

本文提出skill neologisms（在模型词汇表中集成soft tokens以提升特定技能能力）作为无需权重更新即可扩展模型能力的方法，并展示了其在预训练LLM中的存在性和可组合性。该方法为基于技能的continual learning提供了潜在的可扩展路径。

Why Geometric Continuity Emerges in Deep Neural Networks: Residual Connections and Rotational Symmetry Breaking

Kyungwon Jeong, Won-Gi Paeng, Honggyo Suh

cs.LG cs.AI cs.CL

本文通过实验探究了深度神经网络中权重矩阵几何连续性（相邻层主奇异向量方向相似）的成因，发现残差连接和对称性破缺非线性是核心机制，并区分了激活函数与归一化的不同作用。该工作主要关注现象解释而非提出新方法，与关键词列表中的概念关联较弱。

Conceptors for Semantic Steering

Ilias Triantafyllopoulos et al.

cs.LG cs.CL

本文提出使用conceptors（一种从双极概念激活中估计的软投影矩阵）替代单一方向向量进行语义引导，通过保留概念的多维子空间来改进LLM行为控制，并展示了其在层选择诊断和布尔代数组合性上的优势。

Self-Induced Outcome Potential: Turn-Level Credit Assignment for Agents without Verifiers

Senkang Hu et al.

cs.LG cs.CL

本文提出Self-Induced Outcome Potential (SIOP)方法，通过将最终答案的语义聚类视为潜在未来状态，为LLM agent的中间turn提供无需验证器的credit assignment。该方法在多个search-augmented agentic reasoning benchmark上提升了平均性能，但未涉及code、spectral、Muon或pretrain等关键词。

Federated Learning for Early Prediction of EV Charging Demand

Vasilis Perifanis et al.

cs.LG cs.AI

本文研究了电动汽车充电需求的早期预测问题，使用联邦学习（Federated Learning）框架在充电会话初期预测总能量，并基于ACN数据集构建了表格特征。实验表明联邦模型能在保持数据本地化的同时接近集中式预测性能，但方法本身在理论或算法上缺乏显著开创性，且与关键词列表中的概念无直接关联。

Adaptivity Under Realizability Constraints: Comparing In-Context and Agentic Learning

Anastasis Kratsios, A. Martina Neuman, Philipp Petersen

cs.LG math.ST stat.ML

本文比较了固定查询的in-context learning与自适应查询的agentic learning在任务族一致逼近中的表现，考虑了无限制和ReLU神经网络可实现两种设置。研究发现，自适应性的优势在可实现约束下可能消失、出现或保持不变，揭示了表示约束与自适应性之间的深刻相互作用。

DualTCN: A Physics-Constrained Temporal Convolutional Network for 2 Time-Domain Marine CSEM Inversion

Khaled Ahmed, Ghada Omar

cs.LG

DualTCN提出了一种物理约束的时间卷积网络用于时域海洋CSEM反演，通过回归四个地球模型参数并利用可微软阶梯解码器重建电导率-深度剖面。该方法在反演速度和噪声鲁棒性上优于传统优化方法，但未涉及代码、上下文、谱方法、Muon、预训练、智能体或注意力机制等关键词。

Learned Neighbor Trust for Collaborative Deployment in Model-Agnostic Decentralized Learning

Michael Lanier et al.

cs.LG

本文提出了一种名为Learned Neighbor Trust (LNTrust)的分布式蒸馏方法，用于解决异构设备在部署时的协作问题。该方法通过让每个节点学习一个紧凑的信任函数来筛选邻居的预测，从而在训练和推理阶段实现有效的模型协作。

The Predictive-Causal Gap: An Impossibility Theorem and Large-Scale Neural Evidence

Kejun Liu

cs.LG

本文通过理论证明和大量实验表明，在预测线性-高斯动力学时，最优的predictive representation learning会倾向于编码环境模式而非系统模式，导致causal fidelity低下。该现象被证明是预测目标函数的结构性属性，而非优化问题，并在非线性系统中得到验证。

Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization

Xin Yu et al.

cs.LG cs.AI

本文提出了一种名为PBSD的偏好自蒸馏方法，通过奖励正则化优化teacher和student样本间的偏好差距，以替代传统的KL匹配。实验表明该方法在数学推理等任务上提升了训练稳定性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Adaptive Learning Strategies for AoA-Based Outdoor Localization: A Comprehensive Framework

Bac Trinh-Nguyen et al.

cs.LG cs.AI eess.SP

本文针对5G/6G网络中的AoA（到达角）定位问题，提出了一个包含离线学习和在线学习的自适应框架。当拥有大规模训练数据集时，采用分层离线学习先区分LoS/NLoS区域再进行细粒度定位；当仅有小规模数据集时，则使用在线增量学习与few-shot学习模型。实验基于真实mMIMO-OFDM室外CSI数据集验证了该框架的有效性。

Full-chip CMP modelling based on Fully Convolutional Network leveraging White Light Interferometry

Jules Exbrayat et al.

cs.LG

本文提出了一种基于Fully Convolutional Network的full-chip CMP建模方法，结合White Light Interferometry和Atomic Force Microscopy两种表面分析技术训练深度学习模型，以预测post-CMP纳米形貌。该方法采用两步pipeline，分别用两种技术的数据训练模型，旨在提高预测精度和效率。

Provable imitation learning for control of instability in partially-observed Vlasov--Poisson equations

Xiaofan Xia, Qin Li, Wenlong Mou

cs.LG math.AP math.OC physics.plasm-ph

本文研究了部分观测Vlasov-Poisson方程中不稳定性的模仿学习控制问题，证明了学习策略的稳定性保证，误差界取决于观测约束下的最小行为克隆损失。该工作为从宏观观测学习稳定反馈策略提供了理论可行性。

Order Matters: Improving Domain Adaptation by Reordering Data

Andrea Napoli, Paul White

cs.LG

本文提出ORDERED方法，通过优化训练数据的采样顺序来降低domain adaptation中discrepancy估计的方差。该方法针对correlation alignment和maximum mean discrepancy两种损失函数，设计了实用的优化算法，并在图像分类任务上验证了有效性。

Gated Multimodal Learning for Interpretable Property Energy Performance Prediction and Retrofit Scenario Analysis

Yunfei Bai et al.

cs.LG physics.soc-ph

本文提出了一种门控多模态模型，通过整合EPC表格变量、评估者自由文本和GIS空间特征来预测建筑能效评分，并在伦敦威斯敏斯特案例中验证了其有效性。该模型通过样本级门控学习特定模态权重，并利用辅助分类头稳定训练，但方法本身在理论创新上较为常规。

Continual Knowledge Updating in LLM Systems: Learning Through Multi-Timescale Memory Dynamics

Andreas Pattichis, Constantine Dovrolis

cs.LG cs.AI cs.CL

本文提出了一种名为Memini的LLM外部记忆系统，通过模拟生物记忆的多时间尺度动力学（Benna-Fusi模型）来组织知识为有向图，使记忆能够自主进行关联、巩固和遗忘。该方法将外部记忆视为一个自适应的学习基质，而非显式管理的存储库。

How Long Does Infinite Width Last? Signal Propagation in Long-Range Linear Recurrences

Mariia Seleznova

cs.LG

本文研究了线性递归模型在有限宽度下的信号传播问题，推导了隐藏状态信号能量的精确有限宽度公式，并识别了控制信号传播的深度-宽度联合缩放区域。结果表明，当递归深度$t$与宽度$n$满足$t\gg \sqrt n$时，有限宽度效应占主导，导致无限宽度理论失效。

Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior

Daniel Wurgaft et al.

cs.LG

本文提出了一种名为manifold steering的方法，通过拟合激活流形和行为流形来干预神经网络内部表示，发现沿着流形几何的干预能产生更自然的输出行为，而线性干预则会导致异常。该工作揭示了表示几何与行为之间的双向因果关系，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

On the Hardness of Junking LLMs

Marco Rando, Samuel Vaiter

cs.LG

本文研究了大型语言模型中的"junking problem"（寻找自然后门token序列以触发有害输出），将其形式化为优化问题，并提出了一种贪心随机搜索方法。实验表明该问题比标准jailbreak攻击更难，但简单策略仍能以高成功率解决，且发现的token序列位于模型分布的低概率区域。

On the Wasserstein Gradient Flow Interpretation of Drifting Models

Arthur Gretton et al.

cs.LG cs.AI stat.ML

本文通过Wasserstein Gradient Flow (WGF)的视角分析了Generative Modeling via Drifting (GMD)框架，指出其算法对应于KL散度或Sinkhorn散度下WGF的极限点，并可将该思想扩展到MMD、sliced Wasserstein距离等其它WGF。该工作主要提供了理论解释，但与我提供的关键词列表关联较弱。

Physiologically Grounded Driver Behavior Classification: SHAP-Driven Elite Feature Selection and Hybrid Gradient Boosting for Multimodal Physiological Signals

Sahar Askari et al.

cs.LG eess.SP

本文提出了一种基于多模态生理信号（EEG, EMG, GSR）的驾驶员行为分类框架，通过SHAP特征选择与混合梯度提升集成模型（XGBoost和LightGBM）实现，最终测试准确率为80.91%。该方法主要关注特征工程与模型集成，未涉及关键词中的code, context, spectral, Muon, pretrain, agent, attention等核心概念。

Adaptive Policy Selection and Fine-Tuning under Interaction Budgets for Offline-to-Online Reinforcement Learning

Alper Kamil Bozkurt et al.

cs.LG cs.AI

本文针对离线到在线强化学习（O2O-RL）中的策略选择与微调问题，提出了一种基于交互预算的自适应方法。该方法通过上置信界（upper-confidence-bound）策略，在有限在线交互中高效选择并微调候选策略，以改进传统O2O-RL流程中依赖单一策略部署的局限性。

Conditional outlier detection for clinical alerting

Milos Hauskrecht et al.

cs.LG cs.CY

本文提出了一种基于电子健康记录数据的条件异常检测方法，用于识别患者管理中的异常行为并触发警报。该方法利用历史病例数据评估异常程度，并通过专家意见验证了其较低的误报率。

Joint Treatment Effect Estimation from Incomplete Healthcare Data: Temporal Causal Normalizing Flows with LLM-driven Evolutionary MNAR Imputation

Olivia Jullian Parra et al.

cs.LG cs.AI

本文提出一个两阶段pipeline用于从不完整纵向EHR数据中估计treatment effect，包括一个DAG约束的normalizing flow（CausalFlow-T）进行精确反事实推断，以及一个LLM驱动的进化插补器处理MNAR缺失。实验表明该方法在合成和半合成基准上表现良好，并在真实糖尿病EHR数据上得到与随机对照试验一致的估计结果。

Transformed Latent Variable Multi-Output Gaussian Processes

Xiaoyu Jiang et al.

cs.LG

本文提出了一种名为T-LVMOGP的多输出高斯过程框架，通过Lipschitz正则化神经网络将输入和输出特定的latent variable映射到embedding space，并结合stochastic variational inference来扩展到高维输出场景。该方法在气候建模和空间转录组学等基准上展示了预测精度和计算效率的提升，但与关键词列表中的概念关联较弱。

Low-Cost Black-Box Detection of LLM Hallucinations via Dynamical System Prediction

Dan Wilson, Mohamed Akrout

cs.LG math.DS

本文提出了一种将LLM视为black-box dynamical system的幻觉检测方法，通过Koopman operator theory拟合事实与幻觉状态的transition operators并计算残差分数。该方法在单样本推理中实现低成本检测，无需二次采样或外部知识检索。

Human-AI Co-Mentorship in Project-Based Learning: A Case Study in Financial Forecasting

Freyaa Chawla et al.

cs.LG cs.CY

本文介绍了一个高中生与本科生团队在研究生指导下，利用AI工具进行金融预测项目式学习的案例。文章主要描述了AI工具如何加速了学习过程，使学生能专注于高阶问题定义与解决方案，但并未提出新的数学方法或解决长期存在的理论问题。

Superposition Is Not Necessary: A Mechanistic Interpretability Analysis of Transformer Representations for Time Series Forecasting

Alper Yıldırım

cs.LG cs.AI

本文使用sparse autoencoders (SAEs)分析PatchTST在时间序列预测中的内部表示，发现其FFN表示不依赖strong superposition，且表示稀疏、对字典扩展不敏感，这解释了简单线性模型在该任务中持续具有竞争力的原因。

Estimating the expected output of wide random MLPs more efficiently than sampling

Wilson Wu et al.

cs.LG cond-mat.dis-nn stat.ML

本文提出了一种估计随机初始化MLP在Gaussian输入下期望输出的方法，利用cumulants和Hermite展开近似每层激活值的分布，从而避免直接采样。该方法在宽网络下比Monte Carlo采样更高效，尤其适用于估计罕见事件概率，并可用于模型训练。

cs.AI

LCM: Lossless Context Management ⭐ 精选

Clint Ehrlich, Theodore Blackman

cs.AI cs.PL cs.SE

本文提出Lossless Context Management (LCM)，一种用于LLM记忆的确定性架构，通过递归上下文压缩（构建层次化摘要DAG并保留无损指针）和递归任务划分（用引擎管理的并行原语如LLM-Map替代模型编写的循环）来管理长上下文。该方法在OOLONG长上下文评测中，基于Opus 4.6的LCM增强编码智能体Volt在所有32K到1M token的上下文长度上均优于Claude Code。LCM可视为对Recursive Language Models (RLMs)递归范式的验证与扩展，通过牺牲部分灵活性换取终止保证、短任务上的零成本连续性以及所有先前状态的无损可检索性，类似于编程语言设计中从GOTO到结构化控制流的转变。

ANDRE: An Attention-based Neuro-symbolic Differentiable Rule Extractor ⭐ 精选

Iman Sharifi, Peng Wei, Saber Fallah

cs.AI cs.LG cs.LO

ANDRE提出了一种基于attention的可微ILP框架，通过设计attention驱动的逻辑算子（attention-based conjunction/disjunction operators）来近似逻辑min-max语义，从而在连续规则空间中学习一阶逻辑程序。该方法无需预定义规则模板，支持谓词的软选择、否定和排除，在保持符号结构的同时实现了对概率数据的稳定推理。实验表明，ANDRE在噪声标签和概率谓词场景下显著优于现有可微ILP方法，在规则提取质量和稳定性上具有开创性。该工作与关键词"attention"高度契合，通过attention机制解决了可微逻辑推理中梯度消失和逻辑结构近似不准确的问题。

SensingAgents: A Multi-Agent Collaborative Framework for Robust IMU Activity Recognition ⭐ 精选

Naiyu Zheng et al.

cs.AI

SensingAgents提出了一种基于多agent协作框架的IMU人体活动识别方法，通过将LLM驱动的agent组织为专门角色（Analyst Agents进行位置特定传感器分析，Advocate Agents通过动态和静态辩证辩论解决传感器冲突，Decision Agent确保传感器漂移或故障下的可靠性），在Shoaib数据集上实现了79.5%的零样本准确率，比现有单agent和多agent LLM模型高29%，比深度学习基线高9.4%。该方法通过agent间的协作推理增强了系统的鲁棒性和可解释性，与关键词"agent"高度契合。

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents ⭐ 精选

Zhaorun Chen et al.

cs.AI

本文提出了DecodingTrust-Agent Platform (DTap)，这是首个可控且可交互的AI agent红队测试平台，覆盖14个真实世界领域和超过50个模拟环境（如Google Workspace、Paypal、Slack）。为解决agent风险评估的规模化问题，作者进一步设计了DTap-Red，这是首个能自主探索多种injection vectors（如prompt、tool、skill、environment及其组合）并发现有效攻击策略的自动化红队agent。通过该平台，作者构建了大规模数据集DTap-Bench，并对基于不同backbone models的流行AI agent进行了系统性评估，揭示了agent在安全策略、风险类别和攻击策略方面的系统性漏洞模式。该工作与关键词"agent"高度契合，为agent安全评估提供了开创性的可控环境与自动化方法。

Strat-Reasoner: Reinforcing Strategic Reasoning of LLMs in Multi-Agent Games ⭐ 精选

Yidong He et al.

cs.AI

本文提出Strat-Reasoner，一个基于reinforcement learning (RL)的框架，用于提升Large Language Models (LLMs)在多智能体博弈中的strategic reasoning能力。其核心创新在于引入递归推理范式，使agent的推理过程能够整合其他agent的推理，并采用centralized Chain-of-Thought (CoT)比较模块对中间推理序列进行质量评估。通过计算混合优势函数并开发group-relative RL方法优化LLM策略，该方法在多种多智能体博弈中实现了平均22.1%的性能提升，有效解决了多智能体环境中非平稳性带来的推理评估与credit assignment难题。

A Foundation Model for Zero-Shot Logical Rule Induction ⭐ 精选

Yin Jun Phua

cs.AI cs.LG cs.SC

本文提出Neural Rule Inducer (NRI)，一种用于零样本逻辑规则归纳的预训练模型。不同于传统归纳逻辑编程方法，NRI通过统计编码器将文字（literal）表示为与具体谓词无关的统计属性（如类条件概率、熵、共现率），从而无需针对新任务重新训练。模型采用基于slot的并行解码器，利用Product T-norm松弛使规则执行可微，实现了端到端的预测准确性训练。该工作为符号推理的基础模型开辟了可能性，与关键词中的pretrain高度契合。

LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents ⭐ 精选

Yijun Lu et al.

cs.AI

本文提出了一种名为Context-ReAct的通用agent范式，用于弹性上下文编排，其核心思想是agent应根据当前任务相关性动态调整工作上下文（working context）的细节层次。该范式定义了五种原子操作：Skip、Compress、Rollback、Snippet和Delete，并证明了Compress操作在表达上是完备的，而其他操作则提供了效率和保真度保证。基于此范式，作者微调了Qwen3-30B-A3B模型，构建了LongSeeker agent，在多个长程搜索基准（如BrowseComp）上显著超越了现有方法（如Tongyi DeepResearch），展示了自适应上下文管理在提升长程推理可靠性与效率方面的潜力。该工作与关键词“agent”和“context”高度契合。

Regularized Centered Emphatic Temporal Difference Learning

Xingguo Chen et al.

cs.AI

本文针对off-policy TD learning中的稳定性、投影几何与方差控制之间的权衡问题，提出了Regularized Emphatic Temporal-Difference Learning (RETD)方法。该方法通过正则化辅助centering递归来保持ETD的follow-on trace，并证明了在保守充分正则化条件下的收敛性。实验表明RETD避免了naive centered emphatic learning的不稳定性，并保持了良好的emphatic几何性质。

Actionable Real-Time Modeling of Surgical Team Dynamics via Time-Expanded Interaction Graphs

Vincenzo Marco De Luca et al.

cs.AI cs.LG

本文提出了一种基于时间扩展交互图（time-expanded interaction graphs）的实时手术团队动态建模方法，将团队成员建模为时间索引节点，通信关系定义为有向边，并使用静态图神经网络进行高效推理。模型预测手术效率偏差，并通过反事实分析识别可改善沟通结构的最小变化。

Pro$^2$Assist: Continuous Step-Aware Proactive Assistance with Multimodal Egocentric Perception for Long-Horizon Procedural Tasks

Lilin Xu et al.

cs.AI cs.HC

本文提出Pro$^2$Assist，一个利用多模态AR眼镜数据实现连续、步骤感知的主动辅助系统，用于长时程程序性任务。该系统通过提取多尺度时间动态和任务专家知识来推理用户需求，并在AR眼镜上提供及时辅助。

Temporal Reasoning Is Not the Bottleneck: A Probabilistic Inconsistency Framework for Neuro-Symbolic QA

Tran Quang Liem

cs.AI

本文提出一个名为Probabilistic Inconsistency Signal (PIS)的神经符号问答框架，通过将非结构化文本显式提升为event graphs和interval constraints，并利用Evidential Deep Learning提取epistemic neural uncertainty来检测结构断裂，从而将感知错误与推理失败分离。实验表明，当提供正确的结构表示时，系统在时间算术基准上达到完美准确率，但该方法主要聚焦于时间推理中的表示瓶颈，与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Parallel Prefix Verification for Speculative Generation

Yuncheng Yao et al.

cs.AI

本文提出PARSE框架，通过自定义attention mask在单次前向传播中并行验证多个语义级前缀，以加速大语言模型推理。该方法与token级推测解码正交，可组合使用，在多个模型和基准上实现了1.25倍到4.5倍的吞吐量提升。

Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games

Connacher Murphy

cs.AI cs.MA

本文提出了一个名为Agent Island的多智能体模拟环境，用于评估语言模型agent在合作、冲突和说服游戏中的表现，旨在缓解静态基准测试的饱和与污染问题。通过贝叶斯Plackett-Luce模型对玩家进行排名，并分析了同提供商偏好等行为模式。

The Scaling Properties of Implicit Deductive Reasoning in Transformers

Enrico Vompa, Tanel Tammet

cs.AI cs.CC cs.LO cs.SC

本文研究了深度有界Transformer在Horn子句上的隐式演绎推理的缩放性质，发现足够深的双向前缀掩码模型能使隐式推理接近显式思维链（CoT）性能，但CoT对深度外推仍不可或缺。

When Context Hurts: The Crossover Effect of Knowledge Transfer on Multi-Agent Design Exploration

Saranyan Vigraham

cs.AI cs.SE

本文研究了多智能体软件设计中上下文注入对设计探索的影响，发现存在交叉效应：同一类型的知识工件在某些任务上能提升探索效果，在另一些任务上则会降低性能。通过实验揭示了基线探索水平与上下文效果之间的强相关性，并区分了两种收敛机制。

Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone

Varad Vishwarupe et al.

cs.AI cs.HC cs.LG cs.SE

本文通过结构化审计和跨模型压力测试，论证了部署相关的alignment（对齐）无法仅从模型级评估中推断，并提出了系统级评估议程，包括alignment profiles和固定scaffolding协议。

How Does Thinking Mode Change LLM Moral Judgments? A Controlled Instant-vs-Thinking Comparison Across Five Frontier Models

Sai Sourabh Madur

cs.AI

本文研究了五种前沿LLM在即时与思考两种模式下对100个道德判断场景的响应差异，发现总体一致性高但存在分歧，思考模式能缩小模型间的判断差异并减少部分模型的人口统计不一致性。

From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning

Xiao Wang et al.

cs.AI cs.LG

本文通过分析LLM微调过程中的参数动态演化，揭示了良性微调导致参数向危险方向累积漂移的安全退化机制，并提出了SQSD方法，通过计算样本诱导的参数更新在危险与安全方向上的投影差异来量化每个训练样本对安全退化的影响。实验表明该方法能有效量化样本级微调风险并具有良好的跨模型迁移性。

AuditRepairBench: A Paired-Execution Trace Corpus for Evaluator-Channel Ranking Instability in Agent Repair

Yuelin Hu et al.

cs.AI cs.SE

本文提出了AuditRepairBench，一个用于评估agent修复中评估器通道排名不稳定性的配对执行轨迹语料库，包含576,000个注册单元。通过模块化筛选架构和多种实现，该工作量化了评估器重新配置导致的排名变化，并展示了筛选引导的补丁可将排名位移减少55-74%。

Budget-aware Auto Optimizer Configurator

Kang Liu, Wei Peng, Jianchen Hu

cs.AI cs.LG math.OC

本文提出Budget-Aware Optimizer Configurator (BAOC)，通过为不同网络块分配合适的optimizer配置（如低精度或移除momentum）来降低大模型训练中的GPU内存占用。该方法采样gradient streams并求解约束分配问题，在给定内存和时间预算下最小化性能风险。

Reward-Decomposed Reinforcement Learning for Immersive Video Role-Playing

Miao Wang et al.

cs.AI

本文提出EBM-RL框架，将视频角色扮演对话中的感知、推理和回答过程解耦，并引入多种reward（如CLIP场景文本对齐和感知-认知奖励）来提升沉浸感。实验表明该方法在角色扮演和VideoQA任务上优于基线，但未涉及code、spectral、Muon或pretrain等关键词。

AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use

Chenglin Yang

cs.AI cs.CR

本文提出了AgentTrust，一个在AI agent执行工具调用前进行运行时安全评估与拦截的框架，通过结合shell反混淆、安全修复建议、多步攻击链检测和LLM裁判机制来生成结构化裁决。该方法主要关注agent工具使用的安全性，与关键词中的agent相关，但方法本身并非开创性，且未涉及code、spectral、Muon、pretrain、attention等关键词。

Curated AI beats frontier LLMs at pharma asset discovery

Łukasz Kidziński, Kevin Thomas

cs.AI q-bio.QM

本文介绍了一个名为Gosset的AI平台，该平台通过使用经过策划的药物资产注释数据库，在药物发现任务中超越了通用大语言模型。实验表明，Gosset在特定靶点查询中能返回更多经过验证的药物，且精度和召回率更高。

On-line Learning in Tree MDPs by Treating Policies as Bandit Arms

Anvay Shah et al.

cs.AI cs.LG

本文研究了Tree MDP中的在线学习问题，通过将每个policy视为bandit arm，并设计基于共享数据的置信区间，使得bandit算法能以多项式复杂度实现。

Uno-Orchestra: Parsimonious Agent Routing via Selective Delegation

Zhiqing Cui et al.

cs.AI

本文提出Uno-Orchestra，一种用于大语言模型多智能体系统的统一编排策略，通过强化学习联合学习任务分解与子任务分配，在13个基准测试上以更低成本提升了准确率。该方法主要关注agent路由与选择性委托，与关键词"agent"有一定关联。

Position: Embodied AI Requires a Privacy-Utility Trade-off

Xiaoliang Fan et al.

cs.AI cs.RO

本文指出Embodied AI系统在隐私保护方面存在系统性危机，并提出了SPINE框架，将隐私视为贯穿整个生命周期的动态控制信号，通过多准则隐私分类矩阵来协调跨阶段耦合。

Executable World Models for ARC-AGI-3 in the Era of Coding Agents

Sergey Rodionov

cs.AI

本文评估了一个用于ARC-AGI-3的初始coding-agent系统，该系统维护一个可执行的Python world model，并通过verifier程序进行验证和重构。实验在25个公开游戏上取得了初步结果，表明verifier-driven executable world models是一种有前景的方法。

cs.IR

Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation

Ruijun Chen et al.

cs.IR

本文针对LLM推荐系统中的列表级优化问题，提出了一种名为BLADE的贝叶斯列表级对齐方法。该方法通过动态更新目标分布来克服静态Best-of-N方法中监督信号失效和梯度衰减的局限，在多个数据集上提升了排序准确性和列表级指标。

Rethinking Convolutional Networks for Attribute-Aware Sequential Recommendation

Shereen Elsayed et al.

cs.IR cs.LG

本文提出ConvRec，一种基于卷积层的序列推荐模型，以线性复杂度替代自注意力机制，通过分层下采样生成紧凑的序列表示，并在四个数据集上超越现有方法。

RecGPT-Mobile: On-Device Large Language Models for User Intent Understanding in Taobao Feed Recommendation

Bin Zhang et al.

cs.IR

本文提出RecGPT-Mobile框架，将轻量级Large Language Model (LLM)部署在移动设备上，用于实时理解用户意图并改进推荐系统。该方法通过捕捉用户快速变化的兴趣来提升推荐准确性，但主要贡献在于工程部署而非理论创新。

Beyond Seeing Is Believing: On Crowdsourced Detection of Audiovisual Deepfakes

Michael Soprano, Andrea Cioci, Stefano Mizzaro

cs.IR cs.AI

本文通过众包实验研究了人类对音视频deepfake的检测能力，发现众包工人很少误判真实视频，但会漏掉许多篡改，且对篡改类型的识别（尤其是音视频联合篡改）噪声较大。研究为众包在音视频真实性筛查中的可扩展性提供了证据，但指出可靠的模态归因仍是开放挑战。

AllSERP: Exhaustive Per-Element Enrichment of the Versatile AdSERP Dataset

K. Andrew Edmonds

cs.IR

本文发布了AllSERP数据集，通过对AdSERP语料库进行逐元素的行为富集，添加了像素级精确的organic和widget边界框、语义类型以及点击归因，使得对广告和非广告元素的细粒度分析成为可能。该工作主要是一个数据集的扩展和发布，并未直接涉及我提供的关键词。

CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation

Wenzhuo Cheng et al.

cs.IR

本文提出了一种名为CapsID的生成式推荐方法，通过用capsule routing替代hard residual quantization来生成变长Semantic IDs，并引入SEMANTICBPE将相邻SID tokens组合成可复用的subwords。该方法在多个数据集上提升了检索性能并降低了推理延迟，但主要聚焦于推荐系统中的tokenizer改进，与我提供的关键词（如code, spectral, Muon等）关联度较低。

Interests Burn-down Diffusion Process for Personalized Collaborative Filtering

Yifang Qin et al.

cs.IR

本文提出了一种名为interests burn-down process的扩散方案，用于协同过滤推荐任务，并基于此设计了StageCF方法。该方法通过模拟用户兴趣的衰减与恢复过程来生成个性化推荐，实验表明其优于现有生成式和基于扩散的基线方法。

cs.CL

Every Step Counts: Step-Level Credit Assignment for Tool-Integrated Text-to-SQL ⭐ 精选

Yaxun Dai et al.

cs.CL

本文提出FineStep框架，针对工具集成Text-to-SQL任务中的credit assignment问题，引入step-level process rewards来替代传统的outcome supervision，从而精确量化每个推理步骤的贡献。该方法通过step-level advantage进行policy optimization，在BIRD基准上达到state-of-the-art性能，并显著减少了冗余工具交互。该工作与关键词"agent"高度契合，因为其将SQL生成建模为agent的sequential decision-making过程，并解决了该领域长期存在的稀疏奖励信号问题。

Detecting Hallucinations in Large Language Models via Internal Attention Divergence Signals ⭐ 精选

Gijs van Dijk

cs.CL

本文提出了一种轻量级的单次不确定性量化方法，通过分析Large Language Models内部attention矩阵的Kullback-Leibler divergence（即每个attention head的分布与均匀参考分布之间的KL散度）来检测幻觉。该方法无需重复采样或外部模型，仅利用attention divergence特征作为logistic regression probe的输入，即可预测答案的正确性。实验表明，该信号在模型中间层以及对事实性token（如命名实体和数字）上尤为集中，为模型不确定性提供了一种高效且可解释的white-box信号。该方法与关键词“attention”高度契合，且具有开创性。

The Reasoning Trap: An Information-Theoretic Bound on Closed-System Multi-Step LLM Reasoning

Kwan Soo Shin

cs.CL cs.AI cs.LG

本文提出了“推理陷阱”概念，通过信息论中的Data Processing Inequality证明了在多步闭环推理（如多智能体辩论）中，模型输出与证据之间的互信息期望值会随推理步数递减，导致推理质量下降。实验在SciFact和FEVER数据集上验证了该现象，并提出了基于证据的Socratic推理方法（EGSR）作为改进方案。

Reproducing Complex Set-Compositional Information Retrieval

Vincent Degenhart et al.

cs.CL cs.IR

本文复现了集合组合信息检索（set-compositional retrieval）任务，在QUEST和LIMIT+基准上评估了多种检索方法，发现神经检索器在简单任务上优于BM25，但在复杂组合约束下性能急剧下降，而经典词法检索表现更稳定。

Free Energy-Driven Reinforcement Learning with Adaptive Advantage Shaping for Unsupervised Reasoning in LLMs

Yiming Huang et al.

cs.CL cs.ET cs.LG

本文提出了一种名为FREIA的无监督强化学习算法，通过自由能驱动奖励和自适应优势塑形来提升大语言模型的推理能力。实验表明该方法在数学推理任务上优于其他基线方法，但未涉及代码、谱方法或预训练等关键词相关领域。

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Yiming Huang et al.

cs.CL cs.ET cs.LG

本文提出了一种名为APMPO的强化学习方法，通过引入Power-Mean Policy Optimization和Feedback-Adaptive Clipping来改进大语言模型的推理能力。该方法在数学推理等任务上取得了优于现有RLVR基线的性能。

Connecting online criminal behavior with machine learning: Using authorship attribution to analyze and link potential online traffickers

Vageesh Kumar Saxena

cs.CL cs.AI cs.CV cs.CY cs.LG +1

本文利用authorship attribution方法分析在线广告的写作和图像模式，以关联潜在的人口贩卖等非法活动，并提出了负责任使用的伦理指南。

FMI_SU_Yotkova_Kastreva at SemEval-2026 Task 13: Lightweight Detection of LLM-Generated Code via Stylometric Signals

Elitsa Yotkova et al.

cs.CL

本文针对SemEval-2026 Task 13中的机器生成代码检测任务，提出了一种轻量级方法。该方法通过设计对代码片段长度不敏感的ratio-based features，并结合解析引擎和编程语言分类器提取描述性信号，最终使用浅层decision tree与启发式规则进行预测。该方法计算高效，仅需CPU即可训练，但未涉及关键词中的spectral、Muon或attention等概念。

Not All That Is Fluent Is Factual: Investigating Hallucinations of Large Language Models in Academic Writing

Humam Khan et al.

cs.CL

本文研究了ChatGPT、Grok、Gemini和Copilot四种LLM在学术写作中的幻觉现象，通过设计80个prompt并引入新的加权指标Hallucination Index (HI)进行评估。研究发现，不同模型在不同任务类型上的幻觉表现存在差异，且幻觉行为不仅取决于模型架构，还与任务类型和prompt条件有关。

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

Hoffmann Muki, Olukunle Owolabi

cs.CL cs.LG

本文评估了多种LLM在西非冲突事件分类中的表现，发现开源模型存在虚假非法化偏差，而领域适应模型虽能实现方向中立性，但仍存在基于行动者的选择偏差，且输出易受地理特定词汇框架影响。总体而言，当前模型不适合在冲突监测中无监督部署。

MedFabric and EtHER: A Data-Centric Framework for Word-Level Fabrication Generation and Detection in Medical LLMs

Tung Sum Thomas Kwok et al.

cs.CL cs.AI

本文提出了一个数据驱动的框架MedFabric和检测器ETHER，用于在医疗LLM中生成和检测词级别的虚构内容。该方法通过保留句法和风格保真度同时引入细微事实偏差，在词级虚构检测基准上比现有方法提升超过15%。

The Impact of Vocabulary Overlaps on Knowledge Transfer in Multilingual Machine Translation

Oona Itkonen, Jörg Tiedemann

cs.CL

本文研究了多语言神经机器翻译中词汇重叠对知识迁移的影响，通过对比联合词汇与分离词汇的实验发现，领域匹配和语言相关性比词汇重叠更为重要。

Nsanku: Evaluating Zero-Shot Translation Performance of LLMs for Ghanaian Languages

Stephen E. Moore et al.

cs.CL

本文提出了Nsanku基准，用于评估19个LLM在43种加纳语言上的零样本翻译性能，使用BLEU和chrF指标。结果显示gemini-2.5-flash表现最佳，但所有模型均未达到高表现与高一致性并存的水平，表明当前LLM尚不可靠用于加纳语言的大规模翻译。

Self-Prompting Small Language Models for Privacy-Sensitive Clinical Information Extraction

Yao-Shun Chuang et al.

cs.CL cs.AI

本文提出了一种用于牙科记录中隐私敏感型临床信息提取的本地部署框架，通过让小型语言模型自我生成和优化prompt，并结合多prompt集成推理与QLoRA微调来提升性能。实验表明，Qwen2.5-14B-Instruct在DPO后取得了最佳F1分数，但方法本身在理论或算法上缺乏显著开创性，且与关键词列表中的概念无直接关联。

Material Database Agent: A Multimodal Agentic Framework for Scientific Literature Mining

Achuth Chandrasekhar et al.

cs.CL

本文提出了Material Database Agent (MDA)，一个用于将科学文献（PDF）自动转化为结构化数据库的多模态多智能体系统架构。该系统通过并行处理文本和图表，利用多个子agent构建子数据库并最终合并，旨在解决材料科学领域数据提取的自动化问题。

Towards Self-Referential Analytic Assessment: A Profile-Based Approach to L2 Writing Evaluation with LLMs

Stefano Bannò, Kate Knill, Mark Gales

cs.CL

本文提出了一种基于profile的自我参照评估框架，用于分析L2写作评估中LLMs的analytic scoring表现，发现LLMs在识别相对弱点方面优于人类评分者，而人类在识别相对优势方面更强。该研究主要关注评估方法而非关键词中的code、context、spectral、Muon、pretrain、agent或attention等方向。

SWAN: Semantic Watermarking with Abstract Meaning Representation

Ziping Ye et al.

cs.CL cs.AI cs.CR cs.CY

本文提出SWAN框架，利用Abstract Meaning Representation (AMR)将水印签名嵌入句子的语义结构，而非调整token选择。该方法无需训练，通过prompt引导LLM生成符合特定AMR模板的句子，并使用AMR解析器与z检验进行检测，在RealNews基准上对改写攻击的鲁棒性有显著提升。

NoisyCausal: A Benchmark for Evaluating Causal Reasoning Under Structured Noise

Zhi Xu, Yun Fu

cs.CL cs.AI

本文提出了NoisyCausal基准，用于评估大语言模型在结构化噪声下的因果推理能力，并设计了一个结合显式因果图的模块化推理框架。实验表明该方法在NoisyCausal和外部基准上优于标准提示方法，但未涉及关键词中的code、spectral、Muon、pretrain、agent或attention等主题。

Telegraph English: Semantic Prompt Compression via Structured Symbolic Rewriting

Mikhail L. Arbuzov et al.

cs.CL

本文提出Telegraph English (TE)，一种通过结构化符号重写将自然语言压缩为富含符号的正式方言的提示压缩协议。TE将输入分解为原子事实行，并用约40个逻辑和关系符号替换冗长短语，使压缩比适应信息密度，在约50%令牌缩减下保持99.1%的关键事实准确率。

GEM: Graph-Enhanced Mixture-of-Experts with ReAct Agents for Dialogue State Tracking

Ziqi Zhu et al.

cs.CL cs.AI

本文提出GEM框架，将Graph Neural Network与Mixture-of-Experts架构结合，并引入ReAct agent进行推理，用于Dialogue State Tracking任务。该方法通过动态路由选择专家模型，在MultiWOZ 2.2数据集上取得了优于现有方法的Joint Goal Accuracy。

DoGMaTiQ: Automated Generation of Question-and-Answer Nuggets for Report Evaluation

Bryan Li et al.

cs.CL cs.IR

本文提出了DoGMaTiQ流水线，用于自动生成基于问答的nugget集合，以评估长文本报告。该方法通过文档级nugget生成、释义聚类和基于质量标准的子选择三个阶段，实现了跨语言场景下的自动评估，并与现有框架集成。

CAR: Query-Guided Confidence-Aware Reranking for Retrieval-Augmented Generation

Zhipeng Song et al.

cs.CL cs.AI

本文提出了一种名为CAR的查询引导、无需训练、即插即用的重排序框架，通过生成器在有无文档条件下的置信度变化来评估文档对生成的有用性，并据此调整文档排序。实验表明该方法能有效提升检索增强生成中的排序质量，并与下游生成性能高度相关。

SCOUT: Active Information Foraging for Long-Text Understanding with Decoupled Epistemic States

Zhenliang Zhang et al.

cs.CL

本文提出SCOUT，一种将长文本理解视为主动信息搜寻的新范式，通过交替进行从粗到细的探索和锚定状态更新，在保持推理质量的同时大幅降低token消耗。该方法利用状态级差距诊断来指导信息获取，但并未直接涉及代码、谱方法或预训练等关键词。

Harnessing Linguistic Dissimilarity for Language Generalization on Unseen Low-Resource Varieties

Jinju Kim et al.

cs.CL cs.AI

本文提出一个两阶段语言泛化框架，通过TOPPing源选择方法和VACAI-Bowl架构，在低资源语言变体的结构预测任务上取得显著提升，但未涉及关键词中的核心概念。

Distilling Bayesian Belief States into Language Models for Auditable Negotiation

Zongqi Cui, Baihan Lin

cs.CL

本文提出BOND框架，通过LLM贝叶斯教师模型更新对手优先级后验，并蒸馏到8B学生语言模型中，在CaSiNo数据集上优于现有方法。该工作主要关注谈判智能体的信念推断与可审计性，与关键词中的agent相关但未涉及code、spectral、Muon、pretrain或attention等核心概念。

RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

Ivan Bondarenko et al.

cs.CL cs.AI cs.LG

本文提出了一种基于七个LLM的异构集成系统，用于SemEval-2026 Task 8中的忠实多轮对话生成任务，其中GPT-4o-mini作为裁判选择最佳候选回答。系统在比赛中获得第一名，并引入了Meno-Lite-0.1这一7B领域自适应模型。

RLearner-LLM: Balancing Logical Grounding and Fluency in Large Language Models via Hybrid Direct Preference Optimization

Qiming Bao et al.

cs.CL cs.AI

本文提出RLearner-LLM与Hybrid-DPO方法，通过融合DeBERTa-v3的NLI信号和验证器LLM评分，自动生成偏好数据以平衡大语言模型在知识密集型生成中的逻辑正确性与流畅性。实验表明该方法在多个学术领域和基座模型上显著提升了NLI指标，但未涉及关键词中的code、spectral、Muon、pretrain、agent或attention等概念。

UniVer: A Unified Perspective for Multi-step and Multi-draft Speculative Decoding

Yepeng Weng, Qiao Hu, Takehisa Yairi

cs.CL cs.LG

本文提出UniVer，一种用于多步多草稿推测解码的统一验证算法。它将树形验证视为条件Optimal Transport问题，通过前缀接受概率抽象垂直依赖关系，以指导水平草稿选择，并证明该方法在保持无损失的同时实现了最优接受率。

The Newsworthiness of Brazilian Distress: A Peak Analysis on Time Series of International Media Attention to Disasters in Brazil

Brielen Madureira et al.

cs.CL

本文对2000-2024年间德国报纸中关于巴西火灾和滑坡的2000篇新闻报道进行了峰值分析，通过时间序列分割检测新闻事件峰值，并考察其与国家和全球灾害数据库中观测数据的时间对齐程度。该研究主要关注媒体关注度的驱动因素，与关键词列表中的概念关联较弱。

Benchmarking POS Tagging for the Tajik Language: A Comparative Study of Neural Architectures on the TajPersParallel Corpus

Mullosharaf K. Arabov

cs.CL

本文首次为塔吉克语的自动POS tagging任务建立了基准，在TajPersParallel语料库上比较了BiLSTM-CRF和多种多语言transformer模型（如mBERT、XLM-RoBERTa等）。实验表明，在缺乏syntactic context的孤立词分类场景下，所有模型均面临严重的形态歧义问题，其中mBERT + LoRA模型表现最佳，但整体F1分数较低。

TajikNLP: An Open-Source Toolkit for Comprehensive Text Processing of Tajik (Cyrillic Script)

Mullosharaf K. Arabov

cs.CL

本文介绍了TajikNLP，一个用于处理西里尔字母塔吉克语的开源Python工具包，提供了包括清洗、分词、词性标注等在内的完整处理流程，并发布了四个相关数据集。该工作主要面向低资源语言的自然语言处理应用，与关键词列表中的概念关联度较低。

Gradients with Respect to Semantics Preserving Embeddings Tell the Uncertainty of Large Language Models

Mingda Li et al.

cs.CL cs.AI

本文提出了一种基于梯度的不确定性量化方法SemGrad，用于评估大语言模型在自由文本生成中的置信度。该方法通过计算语义空间中的梯度来替代传统的高成本采样方法，并引入语义保持分数(SPS)来识别最能捕捉语义的嵌入。

Graph-Augmented LLMs for Swiss MP Ideology Prediction

Yifei Yuan et al.

cs.CL

本文提出PG-RAG框架，通过检索政治知识图谱并整合图结构信息到LLM上下文中，用于预测瑞士议员的意识形态立场。实验表明，引入实体关系信息能提升预测性能，但方法本身在理论或技术上的开创性有限，且与关键词列表中的概念关联较弱。

CHE-TKG: Collaborative Historical Evidence and Evolutionary Dynamics Learning for Temporal Knowledge Graph Reasoning

Shuai-long Lei et al.

cs.CL

本文提出CHE-TKG框架，通过构建历史证据图和演化动态图分别捕捉TKG中的长期结构规律与近期变化，并利用关系分解和对比对齐目标融合两视图的互补预测信号，在多个基准上取得最优性能。该方法主要聚焦于时序知识图谱推理，与关键词中的概念关联较弱。

Paraphrase-Induced Output-Mode Collapse: When LLMs Break Character Under Semantically Equivalent Inputs

Aofan Liu, Jingxiang Meng

cs.CL

本文研究了大型语言模型在语义等价输入下输出格式崩溃的现象，发现即使温度为零，改写后的提示词也会导致模型从封闭式回答转向对话式散文，从而破坏精确匹配评估。作者发布了PARACONSIST基准和语义一致性评分来量化这一现象，并指出任务结构是崩溃的主要预测因素。

Gyan: An Explainable Neuro-Symbolic Language Model

Venkat Srinivasan et al.

cs.CL cs.AI cs.ET cs.LG

本文提出了一种名为Gyan的可解释语言模型，基于非Transformer架构，通过解耦语言模型与知识获取，利用修辞结构理论和语义角色理论来捕捉完整的compositional context。该模型在多个数据集上达到SOTA性能，但并未直接涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Elicitation Matters: How Prompts and Query Protocols Shape LLM Surrogates under Sparse Observations

Ge Lei, Samuel J. Cooper

cs.CL

本文研究了在稀疏观测下，提示文本和查询协议如何影响作为代理模型（surrogate model）的大型语言模型（LLM）的信念与不确定性，发现结构化的提示和不同的查询方式会显著改变模型预测和下游优化决策。

StoryAlign: Evaluating and Training Reward Models for Story Generation

Haotian Xia et al.

cs.CL cs.AI

本文提出了StoryRMB基准和StoryReward奖励模型，用于评估和改进故事生成中的人类偏好建模，发现现有模型在偏好对齐上表现有限。

Assessing Cognitive Effort in L2 Idiomatic Processing: An Eye-Tracking Dataset

Eduardo Santos, Juliana Carvalho, César Rennó-Costa

cs.CL cs.AI cs.CV

本文构建了一个眼动追踪数据集，用于研究第二语言学习者处理习语时的认知负荷，并验证了语言熟练度与回视眼动之间的负相关关系。该工作主要服务于语言处理模型评估，与关键词中的数学或算法主题关联较弱。

Measuring Psychological States Through Semantic Projection: A Theory-Driven Approach to Language-Based Assessment

Maria Luongo, Davide Marocco, Nicola Milano

cs.CL

本文提出了一种基于语义投影的无监督框架，通过将心理构念（如抑郁、焦虑）映射到由词汇锚点和临床量表项目定义的语义轴上，直接从自然语言中测量心理状态。该方法使用Sentence-BERT嵌入文本，并通过投影生成连续心理评分，在结构化响应格式（如选词、短语）中与临床测量结果高度相关，但在自由文本上表现较弱。

Anticipating Innovation Using Large Language Models

Enrico Maria Fenoaltea et al.

cs.CL cs.AI cs.CY

本文使用基于transformer的模型TechToken，将专利分类代码视为词汇学习技术语言，通过代码嵌入的context similarity预测首次技术组合的出现，并提升了专利相关任务的表示质量。

A Comparative Study of PyCaret AutoML and CNN-BiLSTM for Binary Hate Speech Detection in Indonesian Twitter

Tanty Widiyastuti et al.

cs.CL

本文比较了PyCaret AutoML和CNN-BiLSTM在印尼Twitter二值仇恨言论检测任务上的性能。实验表明，CNN-BiLSTM在准确率和F1分数上优于传统机器学习方法，但该工作主要聚焦于特定语言和任务的应用对比，缺乏方法上的开创性或与关键词的紧密关联。

BenCSSmark: Making the Social Sciences Count in LLM Research

Arnault Chatelain et al.

cs.CL

本文指出社会科学任务在LLM基准测试中代表性不足，并提出了BenCSSmark基准，该基准由计算社会科学家标注的数据集组成，旨在促进更稳健、透明且具有社会相关性的AI系统。

Sentiment Analysis and Customer Satisfaction Prediction on E-Commerce Platforms Based on YouTube Comments Using the XGBoost Algorithm

Ridho Benedictus Togi Manik et al.

cs.CL

本文利用XGBoost算法和TF-IDF向量化技术，基于YouTube评论构建了电商平台客户满意度预测模型。研究发现电商评论中混杂了大量社会政治术语，影响了情感极性分析。

A Comparative Analysis of Machine Learning and Deep Learning Models for Tweet Sentiment Classification: A Case Study on the Sentiment140 Dataset

Vita Anggraini et al.

cs.CL

本文比较了基于TF-IDF特征的Logistic Regression与BiLSTM在Sentiment140数据集子集上的情感分类性能，发现传统机器学习方法以73.5%的准确率优于深度学习的69.17%，并部署了交互式Web应用。该工作为中等规模非正式文本的情感分析提供了实践对比。

Storage Is Not Memory: A Retrieval-Centered Architecture for Agent Recall

Joshua Adler, Guy Zehavi

cs.CL cs.AI cs.IR

本文提出了一种名为True Memory的六层检索架构，用于agent记忆系统，通过将事件原样保留并在查询时进行多阶段检索，替代了传统的预提取存储方法。该系统在多个基准测试上取得了优于现有方法的准确率，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Rethinking Local Learning: A Cheaper and Faster Recipe for LLM Post-Training

Hengyu Shi et al.

cs.CL cs.LG

本文提出了一种名为LoPT的LLM后训练策略，通过在transformer中点设置梯度边界，使后半部分学习任务目标而前半部分通过特征重建目标更新，从而缩短反向传播路径并降低内存成本。实验表明该方法在保持性能的同时提升了训练效率。

Unintended Negative Impacts of Promotional Language in Patent Evaluation

Bingkun Zhao, Chenwei Zhang, Hao Peng

cs.CL

本文研究了专利评估中促销性语言的使用，发现其与专利授权、转让和上诉成功率呈负相关，且这种“促销惩罚”在不同技术领域普遍存在。研究还表明，促销性语言并非技术薄弱的掩饰，而是客观反映了组合新颖性和未来引用影响。

UFAL-CUNI at SemEval-2026 Task 11: An Efficient Modular Neuro-symbolic Method for Syllogistic Reasoning

Ivan Kartáč et al.

cs.CL

本文提出了一种模块化的神经符号方法，用于解决三段论推理任务。该方法结合了基于LLM的parser（将自然语言转换为first-order logic表示）与一个automated theorem prover，在参数规模较小的LLM上取得了有竞争力的准确率。

Adapting Large Language Models to a Low-Resource Agglutinative Language: A Comparative Study of LoRA and QLoRA for Bashkir

Mullosharaf K. Arabov, Svetlana S. Khaybullina

cs.CL

本文比较了LoRA和QLoRA在低资源黏着语（Bashkir语）上的大语言模型微调效果，发现全微调GPT-2 medium的perplexity最低（3.34），而QLoRA在7B级模型上能以极少的可训练参数达到相近质量，但部分架构（如DeepSeek-7B）会出现严重性能退化。

TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

Minjie Qiang et al.

cs.CL cs.IR

本文提出了TabBench基准测试和TabEmbed模型，旨在为表格数据学习统一的嵌入表示。TabEmbed通过对比学习将分类和检索任务统一到共享嵌入空间，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Why Expert Alignment Is Hard: Evidence from Subjective Evaluation

Tzu-Mi Lin et al.

cs.CL

本文通过专家评估和问卷，研究了在主观评估任务中使大语言模型与专家判断对齐的困难，发现对齐难度因专家而异，且显式标准和推理并不总能改善对齐。

Misaligned by Reward: Socially Undesirable Preferences in LLMs

Gayane Ghazaryan, Esra Dönmez

cs.CL cs.AI cs.CY

本文研究了reward model在social alignment方面的不足，发现现有reward model在bias、safety等社会领域常偏好不良选项，且不同模型表现差异显著，揭示了标准benchmark无法充分评估social alignment的问题。

The Impossibility Triangle of Long-Context Modeling

Yan Zhou

cs.CL cs.AI cs.LG

本文提出了一个长序列建模中的"不可能三角"理论，证明任何模型无法同时满足Efficiency（计算与序列长度无关）、Compactness（状态大小与序列长度无关）和Recall（能回忆与序列长度成比例的历史事实）这三个性质。通过信息论不等式，作者给出了在满足前两个性质时Recall能力的信息论上界，并在合成任务上验证了该理论。

The Pinocchio Dimension: Phenomenality of Experience as the Primary Axis of LLM Psychometric Differences

Hubert Plisiecki et al.

cs.CL

本文通过向50个LLM施测45个心理测量问卷，发现模型间差异的主轴（Pinocchio轴）区分了描述现象经验（如具身感觉、情感、内心独白）与刺激驱动行为反应的条目，并引入Pinocchio分数作为无标注的体验需求度量。该研究主要关注LLM的心理测量差异，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Automatically Finding and Validating Unexpected Side-Effects of Interventions on Language Models

Quintin Pope et al.

cs.CL cs.AI

本文提出了一种自动化对比评估流程，用于审计对large language models进行干预后的行为影响。该方法通过比较基础模型$M_1$与干预模型$M_2$在自由文本生成上的差异，生成可读且统计验证的自然语言假设，以描述模型行为变化。

Text Corpora as Concept Fields: Black-Box Hallucination and Novelty Measurement

Nicholas S. Kersting et al.

cs.CL cs.AI cs.CY

本文提出了一种名为Concept Field的方法，通过计算句子嵌入空间中连续句子间的delta来估计文本语料库的局部漂移场，并利用$\zeta$分数评估句子过渡与场的匹配度，用于黑盒幻觉检测和新颖性检测。该方法无需模型内部信息，计算轻量且可解释，在多个大规模数据集上展示了良好的分类性能。

Beyond Semantics: An Evidential Reasoning-Aware Multi-View Learning Framework for Trustworthy Mental Health Prediction

Yucheng Ruan et al.

cs.CL

本文提出了一种基于多视角学习的心理健康预测框架，通过整合encoder-only模型的语义信息和decoder-only模型的推理信息，并采用基于Subjective Logic的证据学习框架进行不确定性建模与融合。实验表明该方法在三个数据集上提升了预测性能，并提供了可靠的置信度估计。

PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation

Srikar Kashyap Pulipaka

cs.CL cs.AI cs.LG

本文针对SemEval-2026 Task 9的多语言极化检测任务，提出了一种基于LoRA微调Gemma~3模型并利用GPT-4o-mini进行合成数据增强的集成方法，在22种语言上取得了平均macro-F1为0.811的成绩。该方法通过逐语言阈值调整和加权集成策略提升了性能，但未涉及code, context, spectral, Muon, pretrain, agent, attention等关键词。

The First Token Knows: Single-Decode Confidence for Hallucination Detection

Mina Gabriel

cs.CL cs.AI

本文提出了一种基于单次贪婪解码的首个token置信度（phi_first）来检测幻觉的方法，通过计算首个内容token的top-K logits归一化熵实现。实验表明该方法在闭卷短答案问答任务上性能与语义自一致性相当，但计算成本更低。

Implicit Representations of Grammaticality in Language Models

Yingshan Susan Wang et al.

cs.CL

本文通过在预训练语言模型的隐藏层上训练线性探针，研究模型是否隐式地习得了语法性（grammaticality）与字符串概率（string probability）不同的表征。该探针在语法性判断基准上优于基于概率的方法，但在语义合理性任务上表现较差，且与字符串概率的相关性较弱。

cs.DS

Nearly-Tight Bounds for Zonotope Containment and Beyond

Friedrich Eisenbrand et al.

cs.DS math.MG

本文研究了zonotope包含问题，提出了一个基于采样的$O(\sqrt{d})$-近似算法，并证明了在oracle模型下该问题的下界为$\Omega(\sqrt{d/\log d})$。此外，论文还证明了Talagrand猜想在$\Delta$-modular zonotope上的成立，并讨论了更一般凸体包含问题的近似复杂度。

Faster Iterative $ϕ$ Queries on the Positional BWT

Paola Bonizzoni, Travis Gagie, Younan Gao

cs.DS

本文针对Positional Burrows-Wheeler Transform (PBWT)中的迭代$\phi$查询问题，提出了一种基于refined segments的分解方案，将单倍型行分解为子区间，并利用该分解实现了两种空间-时间权衡的数据结构，分别支持$O(\log\log_w \min(m,h) + k)$和$O(k \log\log_w h)$的查询时间，改进了现有$O(k \cdot \log\log_w m)$的时间复杂度。

Constructing Suffixient Arrays Revisited

Paola Bonizzoni, Younan Gao, Brian Riccardi

cs.DS

本文提出了一种新的单遍算法，用于在标准RAM模型下以线性时间构建suffixient array（后缀数组的一个子集，支持模式匹配和最大精确匹配查找），改进了现有算法在单遍扫描场景下的时间复杂度。

Submodular Ground-Set Pruning: Monotone Tightness and a Non-Monotone Separation

Alan Kuhnle

cs.DS

本文研究了子模函数最大化中的ground-set剪枝问题，证明了单调子模目标下贪心算法能达到$1-1/e$的包含因子且该界是紧的，并首次为非单调子模目标在基数约束和背包约束下给出了$1/2-\varepsilon$的包含算法。实验表明剪枝可大幅加速精确求解器，并在LLM上下文选择中展示了非单调子模代理的实用性。

Robust Inverse Quadratic Error Decay with Meshing and Beam Search for Random Subset Sum

Edwin Chen, Christof Teuscher

cs.DS

本文针对Random Subset Sum Problem (RSSP)提出了一种结合网格划分与beam search的算法，能在高概率下以$O(w\log w)$时间构建网格，并实现期望误差$O(B/(nw^2))$的衰减。该算法对多种输入分布具有鲁棒性，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Online Orthogonal Vectors Revisited

Karthik Gajulapalli et al.

cs.DS cs.CC

本文研究了Online Orthogonal Vectors Problem ($\mathsf{OnlineOV}_{n,d}$)，提出了新的确定性数据结构，在低维与中等维度下改进了已知结果，并基于非均匀强指数时间假设证明了空间下界。该工作主要关注计算复杂性与数据结构设计，与所提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Faster Algorithms for Shortest Unique or Absent Substrings

Panagiotis Charalampopoulos et al.

cs.DS

本文提出了在word RAM模型下计算字符串$S$的最短唯一子串(SUS)和最短缺失子串(SAS)的更快算法，时间复杂度为$\mathcal{O}(n \log \sigma/\sqrt{\log n})$，改进了已知的$\mathcal{O}(n)$时间解。该算法通过分解问题并利用同步集、run分析和wavelet tree等工具，将SUS计算简化为几何问题，并进一步结合de Bruijn序列构造得到SAS算法。

others

TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments ⭐ 精选

Furkan Sakizli

cs.SE cs.AI cs.CL

本文提出TSCG，一种确定性的工具模式编译器，用于解决生产级agent框架中JSON格式与语言模型（尤其是小模型）之间的协议不匹配问题。TSCG通过将JSON schemas转换为token高效的structured text，在不访问模型、微调或运行时搜索的情况下，实现了显著的压缩（>=51%）和准确率提升（例如Phi-4 14B在20个工具上从0%提升至84.4%）。该方法通过格式与压缩的分解分析（$R^2=0.88 \to 0.03$）揭示了representation change是主导机制，并在不同模型上识别出三种不同的operator-response profiles，为agent部署提供了指导。

ARMATA: Auto-Regressive Multi-Agent Task Assignment ⭐ 精选

Yazan Youssef, Aboelmagd Noureldin, Sidney Givigi

cs.MA cs.AI cs.RO

本文提出了一种名为ARMATA的集中式端到端auto-regressive框架，用于解决多agent任务分配问题。该框架通过一个multi-stage decoding机制，在单个auto-regressive pass中统一生成高层的区域分配决策和低层的路径规划序列，从而隐式地平衡了workload分布与routing效率。实验表明，该方法在解质量上比Google OR-Tools、IBM CPLEX和LKH-3等工业求解器提升高达20%，同时将计算时间从小时级缩短到秒级，为多agent系统在空间分布任务中的协调提供了开创性的解决方案。

SpecPL: Disentangling Spectral Granularity for Prompt Learning ⭐ 精选

Jingtao Zhou et al.

cs.CV cs.AI cs.CL cs.LG

本文提出SpecPL方法，从spectral视角解决视觉语言模型（VLM）中prompt learning的模态不对称问题。通过冻结的VAE将视觉信号分解为语义低频带和粒度高频细节，并利用反事实粒度训练（通过置换高频信号迫使模型区分视觉粒度与语义不变性）来增强细粒度判别能力。该方法作为即插即用的增强器，可提升CoOp和MaPLe等文本导向baseline的性能，在11个基准上达到81.51%的调和平均准确率，验证了spectral解耦与反事实监督在稳定性-泛化权衡中的有效性。

Evolving Idea Graphs with Learnable Edits-and-Commits for Multi-Agent Scientific Ideation ⭐ 精选

Jiangwen Dong, Bo Li, Wanyu Lin

cs.MA cs.AI

本文提出Evolving Idea Graphs (EIG)，一种基于graph的多智能体科学构思框架。EIG将部分成型的提案表示为可演化的idea graph，其中nodes捕捉科学主张，edges编码关系（如支持与冲突），使得未解决的弱点在构思演化过程中保持可识别。通过一个learned two-head controller在graph上操作来指导构思：一个head选择graph edits供智能体执行，另一个head决定何时将graph commit为最终提案。该方法在AI Idea Bench 2025和LiveIdeaBench上超越了所有对比系统，消融实验表明显式的graph state提供了主要性能提升，而learned edit-and-commit控制带来了一致的改进。

Block Permutation Routing on Ramanujan Hypergraphs for Fault-Tolerant Quantum Computing ⭐ 精选

Joshua M. Courtney

quant-ph cs.DS

本文针对容错量子计算中的块排列路由问题，在Ramanujan超图上进行了分析。作者证明了对于由表面码补丁（surface code patches）构成的刚性块，其路由数$\mathrm{rt}_B(H, s, g) = \Theta(d_C \log N_L)$，其中$d_C$为码距。该结果通过商图（quotient graph）的谱分析（spectral analysis）得出，并利用负关联性（negative association）和拥塞界（congestion bounds）建立了随机中间配置下的路由复杂度。文章还结合了纠错协议与lattice surgery编译，将综合征提取开销从$O(d_C)$降至$O(1)$，使得路由成为主导贡献，其深度为$O(d_C \log N_L)$。该工作为容错量子计算中的路由问题提供了谱方法（spectral method）的理论基础，与关键词“spectral”和“code”高度契合。

Design Conductor 2.0: An agent builds a TurboQuant inference accelerator in 80 hours ⭐ 精选

Verkor Team et al.

cs.AR cs.AI

本文提出了一种名为Design Conductor 2.0的多agent系统，该系统利用前沿LLM agent，能够全自动地在80小时内构建出TurboQuant推理加速器VerTQ。VerTQ是一个硬编码支持TurboQuant的240周期pipeline，包含5129个FP16/32计算单元，并在FPGA上以125 MHz运行。该工作展示了agent在自动化硬件设计中的巨大潜力，与关键词“agent”高度契合，并体现了从论文到硬件实现的端到端自动化能力。

Analogy between Boltzmann machines and Feynman path integrals

Srinivasan S. Iyengar, Sabre Kais

quant-ph cs.AI cs.LG

本文通过Feynman路径积分形式揭示了Boltzmann机与量子统计力学之间的类比关系，指出神经网络中的隐藏层可视为路径积分的离散版本，并提出了适用于两者的通用量子电路模型。

Interpreting Manifolds and Graph Neural Embeddings from Internet of Things Traffic Flows

Enrique Feito-Casares et al.

cs.CR cs.AI cs.LG cs.NI

本文提出了一种可解释的pipeline，通过将高维Graph Neural Network (GNN)嵌入映射到latent manifold上，生成可直接可视化的低维表示，用于监控IoT网络流量并实现入侵检测（F1-score为0.830）。该方法结合了特征归因技术以解释manifold结构，但整体上更侧重于应用层面的可解释性，而非在code、spectral或pretrain等关键词对应的理论或方法上具有开创性。

Modeling Subjective Urban Perception with Human Gaze

Lin Che et al.

cs.CV cs.AI cs.HC

本文提出了Place Pulse-Gaze数据集，并基于此构建了一个Gaze-Guided Urban Perception Framework，通过融合人类注视行为与场景表示来建模主观城市感知。实验表明注视信号对感知预测有贡献，但方法本身在关键词领域内缺乏开创性。

Permutation Routing on Ramanujan Hypergraphs with Applications to Neutral Atom Quantum Architectures

Joshua M. Courtney

quant-ph cs.DS math-ph

本文研究了中性原子在可重构晶格上的路由问题，通过超图变换证明了Ramanujan $(d,r)$-正则超图的路由数为$\Theta(\log N)$，并探讨了其在声光透镜架构和纠缠辅助路由中的应用。

A Consistency-Centric Approach to Set-Based Optimization with Multiple Models of Unranked Fidelity

Danielle F. Morey et al.

stat.ML cs.LG math.OC

本文提出了一种名为S-BOMM的基于集合的优化方法，用于处理多个不同保真度的模型，其核心思想是利用模型间的一致性而非依赖单一高保真模型来寻找优质解。该方法通过概率分析给出了结果正确性的界限，并在测试问题上验证了有效性。

Constraint-Aware Execution Planning for Hybrid Space-Ground Compute Workloads

Subhadip Mitra

cs.DC cs.CV cs.LG

本文提出了一种名为Constraint-Aware Execution (CAE)的规划系统，用于混合星地计算工作负载，通过轨道传播、计算放置、传输插入和调度四个阶段生成可行的执行计划。该系统在数秒内为不同轨道的卫星生成计划，并优化了星上数据处理与下行传输的权衡。

SemiConLens: Visual Analytics for 2D Semiconductor Discovery

Kavinda Athapaththu et al.

cs.HC cond-mat.mtrl-sci cs.LG

本文提出SemiConLens，一种结合人类专家知识与机器学习（ML）的视觉分析方法，用于解决二维半导体发现中的数据稀疏和可靠性问题。该方法通过开发CAMI方法和自编码器等ML模型进行预测，并设计了包含圆形符号和聚类感知布局的可视化模块，以支持材料研究人员交互式地筛选和比较候选材料。

Toward Human-AI Complementarity Across Diverse Tasks

Yuzheng Xu et al.

cs.HC cs.AI cs.LG

本文通过混合方法和两种AI辅助策略（top-2辅助和子任务委派）在多领域数据集上评估人机互补性，发现仅获得微弱的性能提升（混合方法仅比纯AI高0.4个百分点），主要瓶颈在于难以识别AI错误并设计有效的辅助方法。

Evaluating Patient Safety Risks in Generative AI: Development and Validation of a FMECA Framework for Generated Clinical Content

Lydie Bednarczyk et al.

cs.CY cs.AI cs.CL stat.ME

本文提出并验证了一种基于FMECA的框架，用于评估大语言模型生成的临床摘要中的患者安全风险，通过专家小组对14种故障模式进行分类和评分，并展示了良好的评估者间一致性和可用性。该工作主要关注临床安全评估方法，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念无直接关联。

BOOOM: Loss-Function-Agnostic Black-Box Optimization over Orthonormal Manifolds for Machine Learning and Statistical Inference

Beomchang Kim, Subhrajyoty Roy, Priyam Das

math.OC cs.LG stat.CO stat.ML

本文提出了一种名为BOOOM的通用框架，用于在Stiefel流形（列正交矩阵集合）上进行无梯度黑箱优化。该方法通过全局Givens旋转参数化将流形映射到无约束欧几里得角空间，并采用递归修正模式搜索进行并行化无导数优化，证明了在温和条件下的全局收敛性。

CTM-AI: A Blueprint for General AI Inspired by a Model of Consciousness

Haofei Yu et al.

q-bio.NC cs.AI

本文提出了一种名为CTM-AI的通用AI蓝图，它结合了意识图灵机（Conscious Turing Machine）与当前的基础模型，通过集成大量专用和通用处理器来解决任务。该方法在MUStARD和UR-FUNNY等数据集上取得了不错的结果，但并未直接涉及code、spectral、Muon或attention等关键词。

Are Multimodal LLMs Ready for Clinical Dermatology? A Real-World Evaluation in Dermatology

Roy Jiang et al.

cs.CV cs.AI cs.CY

本文评估了多模态大语言模型在真实临床皮肤科场景中的表现，发现其在公开基准上的诊断准确率远高于真实医院咨询队列（如GPT-4.1的top-3准确率从42.25%降至24.65%），且模型输出对临床上下文（context）的完整性和准确性高度敏感。研究揭示了当前模型在临床部署中可靠性不足的问题。

Meta-LegNet: A Transferable and Interpretable Framework for Surface Adsorption Prediction via Self-Defined Adsorption-Environment Learning

Yifan Li et al.

cond-mat.mtrl-sci cs.AI cs.LG

本文提出Meta-LegNet框架，通过SE(3)-等变图学习与跨域meta-learning预测表面吸附构型，避免了传统枚举方法的计算开销。该方法利用voxel pooling和gated feature fusion实现可解释的局部吸附环境编码，但未涉及code、spectral或Muon等关键词。

Resource Utilization of Differentiable Logic Gate Networks Deployed on FPGAs

Stephen Wormald et al.

cs.AR cs.AI

本文研究了可微Logic Gate Networks (LGN)在FPGA上部署时的资源利用权衡，发现LGN的最后一层对时序和资源使用至关重要，通过缩小该层可显著降低逻辑大小。这为ML工程师在FPGA上选择LGN架构提供了基线指导。

Membership Inference Attacks for Retrieval Based In-Context Learning for Document Question Answering

Tejas Kulkarni, Antti Koskela, Laith Zumot

cs.CR cs.LG

本文研究了基于检索的in-context learning在文档问答中的membership inference攻击，提出了两种黑盒攻击方法，并验证了其在查询文本前缀下的有效性。

ProtDBench: A Unified Benchmark of Protein Binder Design and Evaluation

Cong Liu et al.

q-bio.QM cs.AI

本文提出了ProtDBench，一个用于蛋白质结合体设计的标准化评估框架，通过统一基准任务和评估协议，揭示了不同评估设计对性能观测的系统性影响。该工作主要关注评估标准化而非提出新方法，与关键词关联较弱。

Tree-Conditioned Edit Flows for Ancestral Sequence Reconstruction

Emil Sharafutdinov, Ingemar André

q-bio.QM cs.LG q-bio.PE

本文提出了一种树条件编辑流模型用于祖先序列重建，通过配对双向编辑轨迹重建祖先序列，在包含插入和缺失的自然序列基准测试中表现良好，但未涉及关键词中的核心概念。

Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation

Lin Song et al.

cs.GR cs.AI cs.CL cs.CV cs.LG

JoyAI-Image是一个统一的多模态基础模型，通过结合空间增强的MLLM与MMDiT，实现了视觉理解、文本到图像生成和指令引导编辑。该模型在多个基准上取得了先进性能，并展现出向空间智能发展的潜力。

A Dialogue-Based Framework for Correcting Multimodal Errors in AI-Assisted STEM Education

Akshay Syal et al.

physics.ed-ph cs.AI cs.CY

本文评估了多个LLM在多模态物理问题上的表现，发现其性能显著低于纯文本问题，并识别出视觉处理错误等失败模式。通过结构化对话干预，成功纠正了大部分错误，为提升AI在STEM教育中的可靠性提供了即时可用的方法。

Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation

David Gringras, Misha Salahshoor

cs.CY cs.AI cs.CL

本文通过文献计量审计，分析了AI能力评估论文中模型配置信息缺失和评估滞后的问题，发现论文中测试的模型平均落后于同期前沿模型约10.85 ECI，且差距逐年扩大。作者提出了VERSIO-AI检查表以改进报告标准，但未涉及code、spectral、Muon等关键词相关方法。

Heterogeneous Ordinal Structure Learning with Bayesian Nonparametric Complexity Discovery

Amir Rafe, Subasish Das

stat.ML cs.CY cs.LG

本文提出了一种异构序数结构学习框架，结合单调高斯分数嵌入和贝叶斯非参数复杂性发现，用于从序数调查数据中估计多个有向无环图。该方法通过发现到确认的工作流程，在Pew调查数据上降低了预测误差，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Undetectable Backdoors in Model Parameters: Hiding Sparse Secrets in High Dimensions

Sarthak Choudhary et al.

cs.CR cs.AI cs.LG

本文提出了一种名为Sparse Backdoor的供应链攻击方法，通过在预训练图像分类器的全连接层中注入结构化稀疏扰动并添加高斯抖动，实现了参数级别的后门植入。该攻击在理论上被证明与一个干净参考分布不可区分，其安全性基于Sparse PCA检测的计算困难性假设。

Globally Solving Unbalanced Optimal Transport and Density Control for Gaussian Distributions

Haruto Nakashima, Siddhartha Ganguly, Kenji Kashima

math.OC cs.LG cs.RO eess.SY

本文研究了Gaussian分布下的unbalanced optimal transport (UOT)问题及其控制论扩展，通过证明变分问题存在精确的Gaussian约化，将无限维优化转化为关于质量、均值和协方差的有限维优化，并给出了最优传输质量的闭式解。对于离散时间线性系统的unbalanced density control (UDC)问题，文章证明了最优解可由Gaussian初始测度和affine-Gaussian控制策略实现，从而导出基于SDP的全局最优求解方法。

Entropic Riemannian Neural Optimal Transport

Alessandro Micheli et al.

stat.ML cs.LG stat.ME

本文提出Entropic Riemannian Neural Optimal Transport (Entropic RNOT)框架，将熵正则化最优传输与黎曼流形上的摊销样本外映射相结合。该方法通过神经拉回参数化学习Schrödinger势，并构建内蕴传输替代量，在多个流形基准上匹配或优于欧几里得基线。

Laundering AI Authority with Adversarial Examples

Jie Zhang et al.

cs.CR cs.LG

本文研究了针对Vision-Language Models (VLMs)的对抗性攻击，展示了攻击者可以通过微调图像使模型对错误内容产生自信且权威的回应，从而实施“AI权威洗白”。攻击在感知层面运作，无需破坏模型对齐，且对GPT-5.4、Claude Opus 4.6等商业模型有效，成功率在22%到100%之间。该工作强调了视觉对抗鲁棒性作为实际安全问题的紧迫性。

Imagery Dataset for Remaining Useful Life Estimation of Synthetic Fibre Ropes

Anju Rani, Daniel Ortiz-Arroyo, Petar Durdevic

cs.CV cs.LG

本文介绍了一个用于合成纤维绳索剩余使用寿命估计的图像数据集，包含约34,700张高分辨率图像，记录了绳索在循环疲劳下的完整退化过程，旨在支持基于视觉的机器学习任务。

Adapt or Forget: Provable Tradeoffs Between Adam and SGD in Nonstationary Optimization

Sharan Sahu et al.

stat.ML cs.LG

本文对Adam优化器在非平稳随机目标下的理论分析，区分了自适应强单调性下的Euclidean tracking和一般光滑目标下的高概率投影平稳性保证，揭示了噪声与漂移之间的权衡关系。

Hierarchical Visual Agent: Managing Contexts in Joint Image-Text Space for Advanced Chart Reasoning

Qihua Dong et al.

cs.CV cs.CL

本文提出HierVA，一种用于图表推理的分层视觉agent框架，通过在高层的joint image-text space中迭代构建和更新working context，并利用zoom-in工具限制visual context，以解决多子图多步推理问题。实验在CharXiv数据集上验证了其有效性。

A foundation model of vision, audition, and language for in-silico neuroscience

Stéphane d'Ascoli et al.

q-bio.NC cs.LG

本文介绍了TRIBE v2，一个三模态（视频、音频和语言）基础模型，用于预测人类大脑活动。该模型在超过1000小时的fMRI数据上训练，能准确预测新刺激下的脑响应，并恢复已知的神经科学实验结果。

Resilient AI Supercomputer Networking using MRC and SRv6

Joao Araujo et al.

cs.NI cs.AI cs.DC

本文提出了一种结合MRC（一种新的基于RDMA的传输协议）和SRv6（静态源路由）的三管齐下的方法，用于构建弹性AI超级计算机网络，以解决大规模同步预训练任务中的尾延迟问题。该方法通过多路径负载均衡和多平面Clos拓扑来提升网络冗余和容错能力。

Perturbation is All You Need for Extrapolating Language Models

Zetai Cen et al.

stat.ML cs.LG math.ST

本文提出了一种基于扰动的语言模型训练框架，通过将前缀转换为语义邻居再进行下一个token预测，构建了具有前后加性噪声结构的分层模型。该方法在理论上分析了模型的外推能力，实验表明其能提升训练语料支持范围外的预测性能。

Coral: Cost-Efficient Multi-LLM Serving over Heterogeneous Cloud GPUs

Yixuan Mei et al.

cs.DC cs.AI cs.CL cs.LG

本文提出了一个名为Coral的多LLM服务系统，旨在通过联合优化资源分配和服务策略，在异构云GPU上高效地服务多个大语言模型。该系统采用无损的两阶段分解方法，在保持联合最优性的同时将在线求解时间从数小时缩短至数十秒。

Intermediate Representations are Strong AI-Generated Image Detectors

Zhenhan Huang et al.

cs.CV cs.LG

本文提出了一种基于搜索的AI生成图像检测方法，通过分析中间层表示中数据嵌入的敏感性来区分真实与生成图像。该方法在GenImage和Forensics Small基准上取得了优于现有训练基和免训练方法的性能。

Conditional Flow-VAE for Safety-Critical Traffic Scenario Generation

Zimu Gong et al.

cs.RO cs.LG

本文提出了一种基于conditional latent flow matching的方法，用于生成自动驾驶中的安全关键场景。该方法通过分布匹配将常规场景转换为安全关键场景，并利用仿真和真实数据生成多样化的场景。

Worst-Case Discovery and Runtime Protection for RL-Based Network Controllers

Hongyu Hè, Minhao Jin, Maria Apostolaki

cs.NI cs.AI eess.SY

本文提出ReGuard框架，通过将最坏情况发现建模为bilevel regret-maximization问题，为基于RL的网络控制器（如Pensieve、Sage和Park）提供运行时保护，在不重训练的情况下缩小性能差距。

Experiment-as-Code Labs: A Declarative Stack for AI-Driven Scientific Discovery

Zhenning Yang et al.

eess.SY cs.AI

本文提出"Experiment-as-Code (EaC) Labs"范式，将实验编码为声明式配置并编译为设备级API，通过系统层进行程序分析、安全检查与任务编排，实现AI agent对物理实验室的自主控制。该工作主要关注AI驱动的科学发现中的系统架构设计，与关键词中的agent概念有一定关联。

Causal discovery under mean independence and linearity

Geert Mesters et al.

stat.ME cs.LG math.ST stat.ML

本文提出Linear Mean-Independent Acyclic Model (LiMIAM)模型，用更弱的一侧mean-independence条件替代传统因果发现方法中的独立扰动假设，并设计了DirectLiMIAM算法递归恢复因果顺序。实验表明该方法在扰动存在依赖时优于LiNGAM，但与我提供的关键词列表关联度较低。

Contextual Memory-Enhanced Source Coding for Low-SNR Communications

Ziqiong Wang, Rongpeng Li

cs.IT cs.LG

本文提出了一种Memory-Augmented Source Coding (MASC)方案，通过共享的Parameterized Contextual Memory (PCM)和Mixture-of-Memory-Experts Router (MMER)来改进低信噪比下的文本传输。该方法在源编码中内化contextual patterns，以缓解autoregressive source decoding对残余信道错误的敏感性。

Detecting Deepfakes via Hamiltonian Dynamics

Harry Cheng et al.

cs.CV cs.AI

本文从物理启发的稳定性先验出发，提出了一种新的deepfake检测视角，将静态模式识别转为动态稳定性分析。通过将图像latent manifold建模为势能面，并利用Hamiltonian动力学作为稳定性探针，该方法在跨数据集迁移基准上优于现有基线。

Evaluation Cards for XAI Metrics

Rokas Gipiškis, Olga Kurasova

cs.CV cs.AI cs.CY cs.LG

本文提出了XAI Evaluation Card，一种用于记录XAI评估指标信息的文档模板，旨在解决XAI评估中缺乏标准化和透明度的问题。该模板要求明确声明指标的目标属性、假设、验证证据和已知失败案例，以促进社区规范。

Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning

Lingzhe Zhang et al.

cs.SE cs.AI

本文针对强化微调（RFT）训练过程的脆弱性问题，构建了首个细粒度故障基准RFT-FaultBench，并提出了自动故障管理框架RFT-FM，实现了异常检测、故障诊断与自动修复的闭环。实验表明该框架能有效检测和缓解RFT训练中的各类故障。

Joint Optimization of Trajectory Control, Resource Allocation, and Task Offloading for Multi-UAV-Assisted IoV

Maoxin Ji et al.

cs.NI cs.AI

本文研究多无人机辅助车联网中的任务卸载问题，提出一种分层优化框架，结合SOCP优化无人机3D轨迹，并利用DRL与LLM协同进行资源调度，通过奖励解耦机制保证策略收敛，最终用线性规划确定卸载比例。

Dissociating spatial frequency reliance from adversarial robustness advantages in neurally guided deep convolutional neural networks

Zhenan Shao et al.

q-bio.NC cs.AI

本文研究了神经对齐的深度卷积神经网络中，空间频率依赖性与对抗鲁棒性优势之间的关系。结果表明，偏向人类中频通道并不能提升鲁棒性，而偏向低频虽有一定增益但效果有限，说明空间频率依赖性的改变可能是学习类人表征的附带现象，而非对抗鲁棒性的主要机制。

One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving

Wenjun Yu, Shuguang Han, Amelie Chi Zhou

cs.DC cs.IR cs.LG

本文提出HELM系统，通过自适应HBM分配和请求路由优化生成式推荐推理中的EMB和KV缓存竞争，使用PPO控制器实现微秒级决策，在32节点A100集群上降低P99延迟24-38%。

StableI2I: Spotting Unintended Changes in Image-to-Image Transition

Jiayang Li et al.

cs.CV cs.AI

本文提出了StableI2I，一个用于评估图像到图像转换中内容保真度和前后一致性的统一框架，并构建了相应的基准测试StableI2I-Bench。实验表明该框架能提供与人类主观判断高度相关的细粒度评估。

CCL-D: A High-Precision Diagnostic System for Slow and Hang Anomalies in Large-Scale Model Training

Yida Gu et al.

cs.DC cs.AI

本文提出了CCL-D，一个用于大规模分布式训练中检测和定位慢速/挂起异常的高精度诊断系统。该系统通过集成rank级实时探针和智能决策分析器，在4000 GPU集群上实现了对已知异常的近乎完全覆盖，并在6分钟内定位故障GPU rank。

A Hybrid Method for Low-Resource Named Entity Recognition

Do Minh Duc et al.

cs.CE cs.AI cs.CL

本文提出了一种混合神经符号框架，用于低资源越南语NER，通过规则预处理和LLM数据增强提升性能，在多个领域数据集上取得显著改进。

Pen-Strategist: A Reasoning Framework for Penetration Testing Strategy Formation and Analysis

Yasod Ginige et al.

cs.CR cs.AI

本文提出了Pen-Strategist框架，通过微调Qwen-3-14B模型进行渗透测试策略生成，并训练了一个基于语义的CNN分类器将策略转化为可执行步骤。实验表明该方法在策略推导和子任务完成率上优于GPT-5等基线模型。

Example-Based Object Detection

ZhiXin Sun

cs.CV cs.AI

本文提出EBOD框架，通过将prompt-based detector (SAM3)与robust feature matching modules (DINOv3和LightGlue)结合，利用已有的false positive和false negative样本抑制错误重复出现，无需额外模型重训练。该方法主要解决实际工程中检测错误难以低成本修正的问题。

DiffCap-Bench: A Comprehensive, Challenging, Robust Benchmark for Image Difference Captioning

Yuancheng Wei et al.

cs.CV cs.AI

本文提出了DiffCap-Bench，一个用于图像差异描述（IDC）的综合性基准，包含十种差异类别，并采用基于大语言模型（LLM）的评估协议，以解决现有基准多样性不足和评估指标不鲁棒的问题。实验揭示了不同多模态大模型在IDC任务上的性能差距，并验证了该基准与下游图像编辑数据构建质量的相关性。

JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions

Leying Zhang et al.

eess.AS cs.AI cs.SD

JASTIN提出了一种基于指令的零样本音频评估框架，通过可训练的audio adapter将冻结的音频编码器与大语言模型连接，并利用多源多任务数据提升泛化能力。该方法在语音、声音和音乐评估任务上优于通用多模态大模型，但未涉及code、spectral或Muon等关键词相关技术。

Ilov3Splat: Instance-Level Open-Vocabulary 3D Scene Understanding in Gaussian Splatting

Binh Long Nguyen et al.

cs.CV cs.AI

本文提出Ilov3Splat框架，基于3D Gaussian Splatting实现实例级开放词汇3D场景理解。它通过多分辨率哈希嵌入编码CLIP特征，并利用SAM掩码的对比学习训练实例特征场，从而在3D空间中实现语言驱动的对象识别与分割。

Predictive and Prescriptive AI toward Optimizing Wildfire Suppression

Leonard Boussioux et al.

math.OC cs.AI cs.LG

本文针对野火抑制中的资源分配问题，提出了一个结合预测与决策的整数优化模型，并设计了基于列生成与分支定价切割的算法。该方法通过数据驱动的双重机器学习估计野火蔓延，旨在优化灭火团队调度以减小过火面积。

DALight-3D: A Lightweight 3D U-Net for Brain Tumor Segmentation from Multi-Modal MRI

Nand Kumar Mishra, Dhruv Mishra, Dr Manu Pratap Singh

cs.CV cs.LG cs.NE

本文提出了一种轻量级3D U-Net变体DALight-3D，通过结合depthwise separable convolution、cross-slice attention等模块，在脑肿瘤分割任务上以更少参数实现了与标准模型相当的Dice分数。该方法主要关注模型效率与精度的平衡，但未涉及关键词中的code、spectral、Muon、pretrain或agent等概念。

DAO-enabled decentralized physical AI: A new paradigm for human-machine collaboration

Mark C. Ballandies et al.

cs.MA cs.AI cs.CY econ.GN

本文提出了一种基于DAO的去中心化物理AI架构(DePAI)，用于协调人类与自主机器在物理-数字系统中的运作与治理，并分析了其安全、激励等风险。该工作主要关注区块链与去中心化自治组织的应用，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联较弱。

SADE: Symptom-Aware Diagnostic Escalation for LLM-Based Network Troubleshooting

Kuan-Hao Tseng et al.

cs.NI cs.AI

SADE提出了一种基于症状感知的诊断升级策略，将经典网络故障排查方法编码为显式策略，通过分阶段工作流分离证据收集与假设验证，从而提升LLM agent在故障定位中的性能。该方法在NIKA基准测试上显著提升了root-cause F1分数，但未涉及code、spectral或Muon等关键词相关技术。

Accountable Agents in Software Engineering: An Analysis of Terms of Service and a Research Roadmap

Christoph Treude

cs.SE cs.AI

本文分析了AI编码助手和自主agent的服务条款，指出这些条款倾向于将责任转移给用户，并提出了一个关于软件工程中可问责agent的研究路线图。

Stage-adaptive audio diffusion modeling

Xuanhao Zhang, Chang Li

cs.SD cs.AI

本文提出了一种阶段自适应的音频扩散建模方法，通过引入基于SSL空间差异的训练进度变量，动态调整语义引导、时间步采样和结构正则化策略，以提升文本条件音频生成和音频超分辨率任务的训练效率与性能。

Neural-Guided Domain Restriction to Accelerate Pseudospectra Computation for Structured Non-normal Banded Matrices

Amit Punia, Rakesh Kumar, Madan Lal

math.NA cs.LG

本文提出了一种基于神经网络的方法，通过从矩阵特征直接预测敏感区域来加速非正规带状矩阵的pseudospectra计算，避免了在整个复平面上进行穷举计算。该方法在验证数据上校准预测阈值以确保覆盖可靠性，并在数值实验中实现了显著加速。

Benchmarking LLMs on the Massive Sound Embedding Benchmark (MSEB)

Cyril Allauzen et al.

cs.SD cs.LG

本文评估了Gemini和GPT等大型语言模型在MSEB基准上的音频理解能力，发现尽管存在模态差距，但“音频原生”与级联架构的选择仍取决于具体应用需求。

Efficient Geometry-Controlled High-Resolution Satellite Image Synthesis

Vlad Vasilescu, Daniela Faur, Teodor Costachioiu

cs.CV cs.AI

本文提出了一种通过窗口化cross-attention模块利用skip connection特征来控制预训练扩散模型的方法，用于高效生成几何控制的高分辨率卫星图像。该方法在保持与几何控制图更好对齐的同时，实现了与现有控制技术相当的性能。

Open-Source Image Editing Models Are Zero-Shot Vision Learners

Wei Liu, Jiaxin Lin, Rui Chen

cs.CV cs.CL

本文系统评估了三种开源图像编辑模型在密集视觉预测任务上的零样本能力，发现它们无需微调即可在深度估计、表面法线估计和语义分割上取得有竞争力的结果，表明图像编辑预训练可能涌现出通用的视觉理解能力。

Multiscale Euclidean Network Trajectories: Second-Moment Geometry, Attribution, and Change Points

Haruka Ezoe, Ryohei Hisano

stat.ML cs.LG math.ST

本文提出Multiscale Euclidean Network Trajectories (MENT)框架，通过二阶矩几何（second-moment geometry）和各向同性归一化（isotropic normalization）处理动态网络中的轨迹表示问题，并证明了嵌入与轨迹的一致性。该方法主要关注网络轨迹的几何解释与变化点检测，与关键词中的spectral有一定关联，但整体创新性和与关键词的契合度未达到严格标准。

From Diffusion to Rectified Flow: Rethinking Text-Based Segmentation

Zishen Qu et al.

cs.CV cs.AI

本文提出RLFSeg框架，利用Rectified Flow在latent space中学习从图像到分割mask的直接映射，避免了扩散模型的噪声-去噪过程和时间步优化，从而在zero-shot场景下提升性能。该方法将预训练生成模型重定向至判别式分割任务，无需修改模型结构。

Generative Quantum-inspired Kolmogorov-Arnold Eigensolver

Yu-Cheng Lin et al.

quant-ph cs.LG

本文提出了一种生成式量子启发Kolmogorov-Arnold特征求解器(GQKAE)，通过用量子启发Kolmogorov-Arnold网络模块替代GPT风格生成式特征求解器中的参数密集型前馈网络，在保持化学精度的同时减少了约66%的可训练参数和内存消耗。该方法主要面向量子化学计算中的高性能计算场景，与关键词列表中的概念关联较弱。

Reference-based Category Discovery: Unsupervised Object Detection with Category Awareness

Yichen Li, Qiankun Liu, Ying Fu

cs.CV cs.AI

本文提出了一种基于参考的无监督目标检测方法RefCD，通过计算预测目标与未标注参考图像之间的特征相似性来实现类别感知检测，无需任何人工标注。该方法引入特征相似性损失来引导潜在类别特定特征的学习，并支持在无参考图像时进行类别无关检测。

VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models

Yukun Chen et al.

cs.SD cs.AI

本文提出VocalParse，一个基于Large Audio Language Model (LALM)的统一歌唱声音转录模型，通过interleaved prompting formulation联合建模歌词、旋律和词-音符对应关系，并采用Chain-of-Thought (CoT)策略先解码歌词以缓解上下文中断问题。实验表明其在多个歌唱数据集上达到最优性能，但方法主要针对特定歌唱转录任务，与关键词中的code、spectral、Muon、agent等概念关联较弱。

Beyond Retrieval: A Multitask Benchmark and Model for Code Search

Siqiao Xue et al.

cs.SE cs.AI

本文提出了一个名为CoREB的多任务代码检索与重排序基准，并微调了一个代码重排序器CoREB-Reranker，旨在覆盖完整的代码搜索流程。实验发现，现有模型在短关键词查询下性能极差，且没有单一模型能在所有任务上获胜，而CoREB-Reranker首次在所有任务上取得了一致性提升。

Guidelines for Designing AI Technologies to Support Adult Learning

Jennifer M. Reddig et al.

cs.CY cs.AI

本文基于对美国成人学习研究机构中多个人工智能教育系统的纵向部署数据分析，识别出成人学习场景下的常见挑战，并提炼出19条设计指南，旨在为未来AI支持的成人学习技术提供参考。

Temporal Structure Matters for Efficient Test-Time Adaptation in Wearable Human Activity Recognition

Zishu Zhou, Zaipeng Xie, Xuanyao Jie

cs.CV cs.HC cs.LG

本文针对可穿戴人体活动识别中的测试时自适应问题，提出了一种轻量级且无需反向传播的SIGHT框架，通过利用时间连续性特征偏差来指导模型更新与预测路由。该方法在真实数据集上优于现有基线，但未涉及代码、谱方法或预训练等关键词。

CodeEvolve: LLM-Driven Evolutionary Optimization with Runtime-Enriched Target Selection for Multi-Language Code Enhancement

Ajay Krishna Borra et al.

cs.SE cs.AI

本文提出了CodeEvolve，一个利用大语言模型（LLM）和运行时信息（如Java Flight Recorder）来优化多语言代码性能的进化框架。它通过蒙特卡洛树搜索（MCTS）和自动化代码精炼，在保持功能正确性的前提下提升了代码质量。

Multi-Level Bidirectional Biomimetic Learning for EEG-Based Visual Decoding

Jingtao Liu et al.

cs.CV cs.AI

本文提出了一种基于EEG的视觉神经解码框架MB2L，通过引入自适应模糊和仿生视觉特征提取来缓解视觉感知与数字图像之间的不匹配，并使用多级双向对比学习对齐EEG与视觉特征。该方法在零样本EEG到图像检索任务上取得了显著性能提升。

Average Attention Transformers and Arithmetic Circuits

Lena Ehrmuth, Laura Strieker

cs.CC cs.AI cs.LG

本文分析了平均注意力Transformer作为序列到序列函数的计算能力，证明了平均硬注意力可以模拟算术电路，且这些Transformer计算的函数与特定电路族等价。

Gray-Box Poisoning of Continuous Malware Ingestion Pipelines

Jan Dolejš, Martin Jureček, Róbert Lórencz

cs.CR cs.LG

本文研究了针对连续恶意软件摄取管道的灰盒投毒攻击，使用secml_malware框架生成功能保持的对抗性二进制文件，并评估了其对LightGBM检测模型的影响。实验表明基于IAT的扰动能有效降低检测召回率，同时提出了一种基于同质集成的防御机制。

Sparse Tokens Suffice: Jailbreaking Audio Language Models via Token-Aware Gradient Optimization

Zheng Fang et al.

cs.CR cs.AI cs.CL cs.LG cs.SD

本文研究了音频语言模型（ALM）的越狱攻击，发现梯度能量在音频token上分布不均匀，并提出Token-Aware Gradient Optimization (TAGO)方法，通过仅保留高梯度能量的token对应波形梯度实现稀疏优化。实验表明，即使保留少量token，攻击成功率仍接近全token优化，证明了密集波形更新的冗余性。

FaithfulFaces: Pose-Faithful Facial Identity Preservation for Text-to-Video Generation

Yuanzhi Wang et al.

cs.CV cs.AI

本文提出FaithfulFaces框架，通过pose-shared identity aligner和Euler angle embeddings解决文本到视频生成中面部身份在姿态变化下的失真问题，在复杂动态场景中提升了身份一致性。

Vol-Mark: A Watermark for 3D Medical Volume Data Via Cubic Difference Expansion and Contrastive Learning

Jiangnan Zhu et al.

cs.CR cs.LG

本文提出了一种名为Vol-Mark的可逆零水印方法，用于保护3D医学体数据在远程医疗中的所有权和真实性。该方法利用contrastive learning提取稳定的体数据特征，并通过cubic difference expansion (c-DE)技术在低频系数中嵌入水印，支持无损恢复和完整性验证。

From Beats to Breaches:How Offensive AI Infers Sensitive User Information from Playlists

Stefano Cecconello et al.

cs.CR cs.AI

本文研究了如何利用深度学习从用户公开的音乐播放列表中推断敏感个人信息(PII)，提出了musicPIIrate工具和JamShield防御框架。该工作主要关注AI安全领域的攻击与防御，与您提供的关键词(code, context, spectral, Muon, pretrain, agent, attention)关联度较低。

AISSA: Implementation and Deployment of an AI-based Student Slides Analysis tool for Academic Presentations

Alvaro Becerra, Diego Gomez, Ruth Cobos

cs.HC cs.AI cs.SE

本文介绍了一个基于AI的学术演示幻灯片分析工具AISSA，它结合了LLM和学习分析仪表板，为学生提供基于评分标准的自动反馈。该系统在46名本科生的试点部署中验证了技术可靠性和经济可行性，但方法本身在AI或数学领域缺乏开创性。

AICoFe: Implementation and Deployment of an AI-Based Collaborative Feedback System for Higher Education

Alvaro Becerra, Alejandra Palma, Ruth Cobos

cs.HC cs.AI cs.SE

本文介绍了AICoFe系统的实现与部署，该系统通过多LLM管道和“教师参与”工作流，为高等教育中的同伴反馈提供AI辅助生成与优化。系统采用模块化架构和混合SQL/MongoDB数据基础设施，以提升反馈质量与可追溯性。

Hybrid Congestion Classification Framework Using Flow-Guided Attention and Empirical Mode Decomposition

Eugene Kofi Okrah Denteh et al.

cs.CV cs.AI

本文提出FLO-EMD混合框架，利用光流引导的attention机制和Empirical Mode Decomposition (EMD)来联合建模交通场景的空间上下文与动态时序特征，在交通拥堵分类任务上取得97.5%的准确率。该方法通过attention聚焦运动相关区域，并用EMD提取非平稳运动的内在时序成分，但整体创新性有限，属于现有技术的组合应用。

Gaze4HRI: Zero-shot Benchmarking Gaze Estimation Neural-Networks for Human-Robot Interaction

Berk Sezer et al.

cs.CV cs.HC cs.LG cs.RO

本文提出了Gaze4HRI数据集和基准测试，用于评估零样本3D gaze estimation在Human-Robot Interaction场景中的鲁棒性，发现所有方法在至少一种条件下失败，并指出数据多样性比复杂模型架构更重要。

PAIR-CI: Calibrated Conditional Independence Testing for Causal Discovery with Incomplete Data

Thomas S. Robinson, Ranjit Lall

stat.ME cs.LG stat.ML

本文提出PAIR-CI，一种通过配对置换设计将多重插补直接整合到推断过程中的非参数条件独立性检验方法，以解决缺失数据下因果发现中先插补后检验范式导致的校准问题。该方法通过交叉验证模型比较和一致性方差估计器，在非线性设置和大型因果图上显著降低了假阳性率。

To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition

Yangchen Yu et al.

cs.MM cs.HC cs.LG

本文提出了一种双路径冲突消解框架DCR，用于多模态情感识别中的模态冲突问题。该方法通过情感融合蒸馏器（AFD）进行跨模态校准，以及情感判别代理（ADA）基于上下文bandit机制在不可调和冲突时选择丢弃模态，从而在多个基准上取得优异性能。

FairEnc: A Fair Vision-Language Model with Fair Vision and Text Encoders for Glaucoma Detection

Mohamed Elhabebe, Ayman El-Baz, Qing Liu

cs.CV cs.AI cs.LG eess.IV q-bio.QM

本文提出FairEnc，一种用于青光眼检测的公平视觉语言模型预训练方法，通过文本编码器的对比对齐和视觉编码器的互信息正则化与多判别器对抗去偏，在多个敏感属性上同时减少偏差。实验表明该方法在保持诊断性能的同时降低了人口统计差异。

On the (In-)Security of the Shuffling Defense in the Transformer Secure Inference

Zhengyi Li et al.

cs.CR cs.AI

本文研究了Transformer安全推理中shuffling防御机制的安全性，提出了一种攻击方法，通过对齐不同随机排列的activations来提取模型权重。实验表明该攻击能以较低成本恢复模型权重，揭示了该防御机制并不如先前声称的那样鲁棒。

Neural Discovery of Strichartz Extremizers

Nicolás Valenzuela, Ricardo Freire, Claudio Muñoz

math.AP cs.LG math.NA

本文提出了一种基于神经网络的pipeline，用于搜索Strichartz不等式的极值函数。该方法在已知的Schrödinger群情形下以高精度恢复了Gaussian极值函数，并在多个猜想情形下支持Gaussian为通用极值函数的假设；对于临界Airy-Strichartz不等式，优化过程未收敛到$L^2$函数，而是趋向于mKdV breather族，并逼近Frank-Sabin下界。

Jacobian-Velocity Bounds for Deployment Risk Under Covariate Drift

Jonathan R. Landers

stat.ML cs.LG

本文研究了在动态covariate shift下冻结预测器的长期部署问题，提出了Jacobian-Velocity定理来量化部署路径上的风险波动，并设计了drift-aligned tangent regularization (DTR)方法。实验表明DTR在低秩漂移场景下能有效降低风险波动，但方法本身与关键词列表中的概念关联较弱。

Modular Reinforcement Learning For Cooperative Swarms

Erel Shtossel, Gal A. Kaminka

cs.RO cs.AI

本文提出了一种用于协同机器人集群的模块化强化学习方法，通过将空间交互状态分解为多个独立特征并分别学习，以解决计算资源受限机器人的状态表示问题。实验在模拟集群觅食任务中验证了该方法的有效性。

DART: A Vision-Language Foundation Model for Comprehensive Rope Condition Monitoring

Anju Rani, Daniel Ortiz-Arroyo, Petar Durdevic

cs.CV cs.AI

本文提出DART，一个基于vision-language foundation model的绳索损伤监测系统，通过扩展JEPA架构并引入HD-MASK、severity gates和CDD loss等创新，在单一模型上同时实现损伤分类、严重程度回归和少样本识别等多项任务。该方法在绳索监测领域具有实用性，但与关键词列表中的概念关联较弱。

On the Influence of the Feature Computation Budget on Per-Instance Algorithm Selection for Black-Box Optimization

Koen van der Blom, Diederick Vermetten

cs.NE cs.LG

本文研究了黑箱优化中每实例算法选择(PIAS)的特征计算预算影响，通过实验比较不同采样预算下的PIAS与单一最优算法性能，发现PIAS在多数场景下可行，但特征预算占比对性能的权衡高度依赖于具体场景。

Architectural Constraints Alignment in AI-assisted, Platform-based Service Development

Julius Irion et al.

cs.SE cs.AI

本文提出了一种检索增强的scaffolding方法，结合基于平台的代码生成与agentic澄清循环，以暴露和解决AI辅助服务开发中的架构约束歧义。评估表明该方法相比通用AI代码生成工作流，在架构一致性和可部署性上有所提升。

Empirical Study of Pop and Jazz Mix Ratios for Genre-Adaptive Chord Generation

Jinju Lee

cs.SD cs.IR cs.LG

本文研究了流行音乐与爵士乐混合比例对和弦生成模型微调的影响，使用Music Transformer在流行音乐预训练基础上进行爵士乐微调，发现混合约2.5K流行音乐样本可恢复流行音乐准确率，但感知偏好上极端混合比例更受青睐。

Agentic Vulnerability Reasoning on Windows COM Binaries

Hwiwon Lee, Jongseong Kim, Lingming Zhang

cs.CR cs.LG

本文提出了SLYP，一个端到端的agentic pipeline，用于在Windows COM二进制文件中发现race condition漏洞并生成调试器验证的PoC代码。它通过将二进制探索、COM检查和动态调试作为可重用工具接口，使agent能够从漏洞发现到验证PoC生成，在基准测试中取得了优于现有方法的性能。

Scalable inference of spatial regions and temporal signatures from time series

Jiayu Weng, Alec Kirkley

stat.ML cs.LG cs.SI physics.soc-ph

本文提出了一种基于最小描述长度原则的非参数化框架，用于对空间时间序列进行区域划分，能够同时推断空间分区和代表性时间序列原型，且计算复杂度与时间序列数量呈对数线性关系。该方法在合成数据和真实空气质量、植被指数数据上验证了有效性。

Hypergraph Generation via Structured Stochastic Diffusion

Christopher Nemeth

stat.ML cs.LG stat.CO stat.ME

本文提出了一种名为HEDGE的超图生成模型，通过在松弛关联矩阵上应用结构化随机扩散过程来生成超图。该方法利用超图特定的双面热算子和Ornstein-Uhlenbeck过程，并学习一个置换等变的逆向漂移场，以生成高质量的超图样本。

Local Intrinsic Dimension Unveils Hallucinations in Diffusion Models

Bartlomiej Sobieski et al.

cs.CV cs.AI

本文从模型诱导流形的不稳定性角度研究diffusion models中的结构幻觉，提出基于local intrinsic dimension (LID)的Intrinsic Quenching (IQ)机制来缓解该问题，并在多个基准上优于现有方法。

When Relations Break: Analyzing Relation Hallucination in Vision-Language Model Under Rotation and Noise

Philip Wootaek Shin et al.

cs.CV cs.CL

本文研究了视觉语言模型在旋转和噪声等视觉扰动下关系幻觉（relation hallucination）的退化现象，发现即使轻微失真也会显著影响模型对物体间交互的推理能力。实验表明，基于提示的增强和预处理策略仅能部分缓解问题，揭示了感知鲁棒性与关系理解之间的差距。

Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism

Sajal Dash, Feiyi Wang

cs.DC cs.AI cs.LG

本文通过数学建模量化了MoE模型在HPC平台上的内存、计算和通信需求，并提出了Piper框架，利用资源建模和流水线并行优化训练策略，在MFU上比现有框架提升2-3.5倍。

Kinematic Discriminants of Deceleration Behavior Modes in Car-Following: Evidence from NGSIM Trajectory Data

Eni Solomon Laughter

eess.SY cs.LG

本文基于NGSIM轨迹数据，通过两阶段分析框架区分了信息可用性与信息利用性，发现减速度阈值选择会影响行为模式推断，且急刹车时gap-closing rate的判别力更强，而中等刹车时visual looming更显著，间距车头时距的判别力可忽略。

Direct Product Flow Matching: Decoupling Radial and Angular Dynamics for Few-Shot Adaptation

Hongxu Chen et al.

cs.CV cs.AI cs.LG

本文从极分解视角分析了现有flow matching方法在视觉-语言模型少样本适应中的几何局限性，并提出了warped product flow matching (WP-FM)框架。通过引入constant-warping metric得到direct product flow matching (DP-FM)，该方法解耦了径向与角向动力学，实现了独立径向演化与恒定角速度测地传输，并在11个基准上取得了新最优结果。

SoK: Robustness in Large Language Models against Jailbreak Attacks

Feiyue Xu et al.

cs.CR cs.AI

本文系统性地分类了针对大型语言模型的jailbreak攻击与防御方法，并提出了一个多维评估框架Security Cube。通过对13种攻击和5种防御的基准研究，总结了当前领域的挑战与未来方向。

Look Once, Beam Twice: Camera-Primed Real-Time Double-Directional mmWave Beam Management for Vehicular Connectivity

Avhishek Biswas et al.

cs.NI cs.AI cs.CE cs.CV eess.SY

本文提出VIsion-based BEamforming (VIBE)架构，利用相机感知来加速毫米波车联网中的双方向波束管理，通过融合机器学习、模型推理和闭环RF反馈来降低训练开销并提升链路质量。实验表明该方法在实时测试中具有较低的outage率，但整体方法更偏向工程应用，与关键词列表中的概念关联较弱。

Think-Aloud Reshapes Automated Cognitive Model Discovery Beyond Behavior

Hanbo Xie et al.

q-bio.NC cs.AI

本文利用Think-Aloud语言数据作为额外约束，在自动化认知模型发现中改进了对风险决策行为的预测性能，并发现模型结构从Explicit comparator转向Integrated utility，表明过程级语言数据能系统性地重塑模型结构。

Driver-WM: A Driver-Centric Traffic-Conditioned Latent World Model for In-Cabin Dynamics Rollout

Haozhuang Chi et al.

cs.RO cs.AI cs.CV

Driver-WM提出了一种以驾驶员为中心的潜在世界模型，用于在共享控制过渡中预测车内动态，其核心是使用门控因果注入机制将外部交通上下文与内部驾驶员状态进行方向性耦合。该方法在冻结的视觉-语言特征构成的紧凑潜在空间中运行，并采用双流架构分别编码外部和内部信息。

Proximal Projection for Doubly Sparse Regularized Models

Jia Wei He, R. Ayesha Ali, Gerarda Darlington

stat.ML cs.LG stat.CO stat.ME

本文提出了一种用于高维回归的双稀疏正则化模型，通过将系数向量分解为潜在变量并利用预测变量的图结构进行正则化，同时引入了一种新的近端投影算子来优化计算。该方法在模拟和真实数据上表现出稳定的性能，但未涉及代码、上下文、谱方法或预训练等关键词相关领域。

A Bayesian Approach for Task-Specific Next-Best-View Selection with Uncertain Geometry

Jingsen Zhu, Silvia Sellán, Alexander Terenin

cs.GR cs.CV cs.LG stat.ML

本文提出了一种基于Bayesian decision theory的任务导向型主动视角选择框架，用于点云3D重建。该方法通过为隐式曲面空间设置先验分布，并利用随机曲面重建方法计算后验分布，从而优化后续扫描视角的选择，以直接服务于特定下游任务（如语义分类、分割和物理仿真），而非均匀减少全局不确定性。

Building informative materials datasets beyond targeted objectives

Rafael Espinosa Castañeda et al.

cond-mat.mtrl-sci cs.AI cs.DB cs.LG stat.AP

本文提出了一种用于材料科学数据集构建的框架，通过引入多样性感知的选择策略，在保证目标属性预测性能的同时，提升了对非目标属性的信息保留能力。实验表明，该框架能有效缓解因忽略部分属性而导致的数据集偏差问题。

LineRides: Line-Guided Reinforcement Learning for Bicycle Robot Stunts

Seungeun Rho et al.

cs.RO cs.AI

LineRides提出了一种基于空间引导线的强化学习框架，使自行车机器人无需演示或显式时序即可学习特技行为。该方法通过跟踪裕度处理物理不可行的引导线，并利用沿引导线的行进距离解决时序模糊性。

What Matters in Practical Learned Image Compression

Kedar Tatwawadi et al.

cs.CV cs.AI cs.LG

本文系统研究了实用化学习图像编解码器的关键设计选择，联合优化感知质量与运行速度，并通过神经架构搜索在移动设备上实现了速度与压缩性能的平衡。该编解码器在主观测试中相比传统标准节省2.3-3倍码率，并在iPhone上实现快速编解码。

Aes3D: Aesthetic Assessment in 3D Gaussian Splatting

Chuanzhi Xu et al.

cs.CV cs.AI

本文提出了Aes3D，首个针对3D神经渲染场景的美学评估框架，包含Aesthetic3D数据集和轻量级模型Aes3DGSNet，该模型直接从3D Gaussian Splatting表示预测场景级美学分数，无需渲染多视角图像。实验表明该方法在保持轻量设计的同时实现了强性能，为3D场景美学评估建立了新基准。

Geometry-Aware State Space Model: A New Paradigm for Whole-Slide Image Representation

Enhui Chai et al.

cs.CV cs.AI

本文提出了一种用于全切片病理图像（WSI）分析的框架BatMIL，通过混合双曲-欧几里得空间嵌入来建模组织层次结构与局部形态细节，并采用状态空间模型（S4）处理长距离依赖。该方法在多个癌症数据集上取得了优于现有MIL方法的结果，但与关键词中的概念关联较弱。

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning

Lakshita Dodeja et al.

cs.RO cs.AI

本文提出Q2RL算法，通过从Behavior Cloning (BC)策略中提取Q-function并引入Q-Gating机制，在离线到在线强化学习场景中实现高效策略切换，在机器人操作任务上取得优于现有基准的性能。

MRI-Eval: A Tiered Benchmark for Evaluating LLM Performance on MRI Physics and GE Scanner Operations Knowledge

Perry E. Radau

eess.IV cs.CL physics.med-ph

本文提出了MRI-Eval，一个用于评估LLM在MRI物理和GE扫描仪操作知识上的分层基准测试，包含1365道多选题。实验发现，模型在多选题上表现优异（93.2%-97.1%），但在无选项的自由回忆测试中准确率大幅下降，尤其是针对特定厂商的操作知识。

Sharp Capacity Thresholds in Linear Associative Memory: From Winner-Take-All to Listwise Retrieval

Nicholas Barnfield et al.

stat.ML cs.IT cs.LG

本文研究了线性联想记忆中不同检索准则下的存储容量阈值，证明了在top-1检索下容量为$d^2\asymp n\log n$，而在列表检索下容量为$d^2\asymp n$，并通过变分原理给出了精确渐近理论。该工作主要关注记忆容量与检索准则的关系，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

Almost-Orthogonality in Lp Spaces: A Case Study with Grok

Ziang Chen et al.

math.CA cs.AI math.CO math.PR

本文研究了$L^p$空间中函数列的几乎正交性不等式，构造了反例否定了Carbery提出的一个猜想，并给出了一个最优的三函数界不等式。文中部分引理借助大语言模型Grok探索得到，但整体方法未体现与关键词的显著关联。

Grokability in five inequalities

Paata Ivanisvili, Xinyuan Xie

math.PR cs.AI math.AP math.CA math.FA

本文报告了与Grok合作发现的五个数学结果，包括对凸集最大Gaussian perimeter下界的改进、Hamming cube上更优的$L_2$-$L_1$矩比较不等式、一个加强的自卷积不等式、最大$g$-Sidon集大小的渐近界改进，以及一个最优的平衡Szarek不等式。这些结果均已被作者验证，但方法上未体现显著的开创性，且与关键词列表中的概念关联较弱。

Taming Outlier Tokens in Diffusion Transformers

Xiaoyu Wu et al.

cs.CV cs.AI cs.LG

本文研究了Diffusion Transformers (DiTs)中的outlier tokens现象，发现其在编码器和去噪器中均存在，并指出简单掩码无效。作者提出Dual-Stage Registers (DSR)干预方法，通过寄存器机制减少outlier artifacts并提升生成质量。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.CL

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others