bluearXiv-ai - 2026-05-14

📄 所有论文 ↑ 回顶部

cs.LG

WriteSAE: Sparse Autoencoders for Recurrent State ⭐ 精选

Jack Young

cs.LG cs.AI cs.CL

WriteSAE提出了首个针对recurrent state-space和hybrid recurrent language models中matrix cache write操作（即通过rank-1更新$k_t v_t^\top$写入$d_k \times d_v$缓存）的sparse autoencoder。该方法将每个decoder atom分解为与原生write shape匹配的形式，并推导出per-token logit shift的closed form，在matched Frobenius norm下训练使得atom每次替换一个cache slot。实验表明，atom substitution在Qwen3.5-0.8B和Mamba-2-370M上显著优于matched-norm ablation，且closed form对logit shift的预测达到$R^2=0.98$，首次在matrix-recurrent write site上实现了behavioral install。

ToolMol: Evolutionary Agentic Framework for Multi-objective Drug Discovery ⭐ 精选

Andrew Y. Zhou et al.

cs.LG cs.NE q-bio.QM

ToolMol提出了一种进化式agentic框架，将多目标genetic algorithm与基于LLM的agentic operator相结合，用于从头药物设计。该框架通过RDKit工具集实现精确的ligand修饰，在多个蛋白靶点上实现了比现有方法高出超过10%的预测结合亲和力，并在绝对结合自由能评分上提升超过35%。该方法与关键词“agent”高度契合，因其核心是agentic LLM operator通过tool-calling和chain-of-thought推理来迭代优化分子群体。

Bayesian Model Merging ⭐ 精选

Kaiyang Li et al.

cs.LG cs.AI

本文提出Bayesian Model Merging (BMM)，一种即插即用的双层优化框架，用于将多个任务特定的expert模型合并为单一模型。内层将模型合并视为基于activation的Bayesian regression，并利用anchor model（强锚点模型）诱导的strong prior，从而得到高效的closed-form解；外层则通过Bayesian optimization在验证集上全局搜索各模块的超参数。此外，论文揭示了activation statistics与task vectors之间的关键对齐关系，从而推导出无需辅助数据的data-free变体。该方法在视觉和语言任务上均显著优于现有即插即用baseline，为模型合并提供了一种系统性的全局优化策略。

Revisiting DAgger in the Era of LLM-Agents ⭐ 精选

Changhao Li et al.

cs.LG

本文重新审视了Dataset Aggregation (DAgger)算法在多轮交互的LM agent训练中的应用。针对监督微调（SFT）因off-policy数据导致的covariate shift（协变量偏移）与强化学习（RL）因稀疏奖励导致的反馈不足这一困境，DAgger通过turn-level插值混合student与teacher策略收集on-policy轨迹，并利用teacher提供的密集监督标签进行训练。实验表明，在SWE-bench Verified等软件工程agent任务上，DAgger训练显著提升了4B和8B规模student模型的性能，有效结合了SFT的密集反馈与on-policy学习的优势。该方法与关键词“agent”高度契合，为解决长程LM agent训练中的分布偏移问题提供了有效方案。

Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective ⭐ 精选

Feng Zhang et al.

cs.LG cs.AI

本文从对比学习视角重新审视了基于可验证奖励的强化学习（RLVR）范式，揭示了代表性算法GRPO的两个结构缺陷：似然错位的评分（使用裁剪的ratio-based surrogate score而非生成似然）和分数不敏感的credit assignment（未考虑组内正负rollout的相对分数差距）。为解决这些问题，作者提出了ConSPO（对比序列级策略优化）框架，用长度归一化的序列对数概率替代GRPO的裁剪比率评分，并采用组内InfoNCE风格的目标函数，通过对比正负rollout实现分数敏感的credit assignment。该方法在多个数学推理基准上显著优于现有RLVR基线，为提升大语言模型推理能力提供了新的理论视角和实用框架。

DP-Muon: Differentially Private Optimization via Matrix-Orthogonalized Momentum ⭐ 精选

Jihwan Kim, Chenglin Fan

cs.LG

本文提出DP-Muon，一种结合矩阵动量与Newton-Schulz正交化的差分隐私优化方法。该方法通过逐样本裁剪矩阵梯度并添加高斯噪声，证明了其隐私保证与标准subsampled Gaussian accountant一致，且正交化后处理不增加额外隐私成本。在优化理论方面，文章建立了有限时域下的stationarity保证，并首次揭示了Muon中DP诱导的bias源于Newton-Schulz映射后的矩阵热平滑效应，而非线性动量缓冲本身。基于此，作者提出DP-MuonBC进行bias校正，在E2E和DART任务上验证了Muon风格矩阵更新在私有微调中的有效性，且不增加隐私预算。

Spectral Flattening Is All Muon Needs: How Orthogonalization Controls Learning Rate and Convergence ⭐ 精选

Tien-Phat Nguyen et al.

cs.LG cs.AI

本文揭示了Muon优化器通过谱平坦化（spectral flattening）机制实现稳定高学习率的原理。作者证明Muon的最大稳定步长由梯度的平均singular value而非最大singular value决定，这突破了标准gradient descent的瓶颈。在Kronecker分解曲率模型下，Muon被重新解释为一种preconditioned gradient方法，其有效收敛因子的改善由gradient covariance的谱控制。实验验证了Muon在相同学习率下比SGD更早达到精度里程碑，且能容忍导致SGD发散的学习率。

Stable Attention Response for Reliable Precipitation Nowcasting ⭐ 精选

Penghui Wen et al.

cs.LG cs.AI

本文提出HARECast框架，通过引入head-wise attention-response energy的group-wise regularization目标，首次从理论上证明attention-response能量的跨样本不稳定性会放大预测误差的下界，并据此稳定attention响应以提升降水临近预报的可靠性。该方法在SEVIR和MeteoNet基准上达到state-of-the-art性能，且适用于单模态和多模态架构，与关键词"attention"高度契合。

OSDN: Improving Delta Rule with Provable Online Preconditioning in Linear Attention ⭐ 精选

Chenyu Zhou et al.

cs.LG cs.CL

本文提出Online Scaled DeltaNet (OSDN)，通过为线性attention中的Delta Rule引入可证明的在线对角preconditioner（基于hypergradient反馈在线更新），解决了原方法中单一标量门控无法捕捉特征方向曲率的问题。关键创新在于证明该右preconditioning等价于对写入侧key进行逐特征缩放，从而严格保留了DeltaNet的硬件友好分块并行流水线，无需引入高维状态开销。理论上，利用内层回归损失的精确二次结构，作者建立了针对右Newton比较器的超几何收敛率，并证明了算法对齐的token局部残差收缩界；为处理非平稳上下文，还引入了自适应preconditioner遗忘机制。在1.3B参数规模上，OSDN将上下文召回残差比降低39%，同时在下游任务上保持性能持平，表明该在线preconditioning机制能有效迁移并放大至十亿参数尺度。

Achieving $ε^{-2}$ Sample Complexity for Single-Loop Actor-Critic under Minimal Assumptions ⭐ 精选

Ishaq Hamza, Zaiwei Chen

cs.LG math.OC stat.ML

本文针对off-policy actor-critic方法，在单循环、单时间尺度实现下，首次证明了在最小假设（存在一个能诱导不可约Markov chain的策略）下达到$\tilde{\mathcal{O}}(\epsilon^{-2})$样本复杂度的last-iterate收敛率。该结果解决了该领域长期存在的问题，即此前$\tilde{\mathcal{O}}(\epsilon^{-2})$的样本复杂度仅能在嵌套循环更新或强算法依赖假设（如均匀混合和均匀探索）下实现。技术上，作者通过构建一个coupled Lyapunov drift框架，分别建立了actor的几何收敛率和critic的$\tilde{\mathcal{O}}(1/T)$收敛率，并利用cross-domination性质将两个Lyapunov drift不等式结合，从而克服了单循环实现中耦合更新方程以及off-policy学习可能导致的无限迭代带来的挑战。

Learning POMDP World Models from Observations with Language-Model Priors ⭐ 精选

Valentin Six et al.

cs.LG

本文提出Pinductor (POMDP-inductor)方法，利用语言模型先验从少量观测-动作轨迹中学习POMDP世界模型。该方法通过LLM迭代提出并优化候选POMDP模型，以最大化基于belief的似然分数，无需访问隐藏状态。实验表明，Pinductor在样本效率上显著优于tabular POMDP基线，并与需要隐藏状态信息的LLM方法性能相当，且性能随LLM能力提升而增强。这项工作为agent在部分可观测环境中的样本高效世界模型学习提供了实用工具。

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance

Adam Haroon et al.

cs.LG cs.RO

本文提出了一种基于Lyapunov安全盾的通信高效强化学习方法，通过运行时保证层决定智能体何时需要行动，在倒立摆等任务上实现了更高的平均采样间隔，但方法本身与关键词中的code、spectral、Muon、pretrain、agent、attention等概念关联较弱。

CAWI: Copula-Aligned Weight Initialization for Randomized Neural Networks

Mushir Akhtar, M. Tanveer, Mohd. Arshad

cs.LG

本文提出CAWI框架，通过从数据拟合的copula中采样输入到隐藏层的权重，以保留特征间的依赖关系（如相关性、尾部依赖），从而改进随机神经网络（RdNN）的初始化。该方法在不改变原有闭式解训练范式的前提下，提升了分类性能，但主要贡献在于工程实践而非理论突破。

Towards Robust Federated Multimodal Graph Learning under Modality Heterogeneity

Sirui Zhang et al.

cs.LG cs.AI

本文针对联邦多模态图学习中的模态异质性问题，提出了一种名为FedMPO的鲁棒方法，通过拓扑感知的跨模态生成、缺失感知的专家路由和可靠性感知的聚合策略，在多个数据集上提升了性能。该方法主要关注实际应用中的模态缺失和数据孤岛问题，与关键词中的“context”和“attention”有一定关联，但整体创新性和与关键词的契合度未达到严格标准。

OceanCBM: A Concept Bottleneck Model for Mechanistic Interpretability in Ocean Forecasting

Sanah Suri, Kieran Ringel, Maike Sonnewald

cs.LG

本文提出了OceanCBM，首个用于海洋动力学的时空预测与机制解释的概念瓶颈模型，通过混合监督学习预测混合层热含量，并利用预设的物理概念和自由概念实现可解释性。该工作主要贡献于海洋预报的可解释性，但与关键词列表中的概念关联较弱。

Learning to Decide with AI Assistance under Human-Alignment

Nina Corvelo Benz, Eleni Straitouri, Manuel Gomez-Rodriguez

cs.LG cs.AI cs.HC

本文研究了在AI辅助决策中，人类与AI置信度对齐对学习最优决策复杂性的影响。通过将问题转化为带完全反馈的双臂在线contextual learning问题，推导了期望regret的下界$\Omega (\sqrt{|H| \cdot |B| \cdot T} )$，并证明在完美对齐下可达到$O(\sqrt{|H| \cdot T\log T})$的regret上界。实验验证了理论结果的鲁棒性。

Population Risk Bounds for Kolmogorov-Arnold Networks Trained by DP-SGD with Correlated Noise

Puyu Wang et al.

cs.LG stat.ML

本文研究了使用带梯度裁剪的小批量SGD训练的Kolmogorov-Arnold Networks (KANs)的population risk界，涵盖了非私有SGD和带相关噪声的差分私有SGD (DP-SGD)。通过引入辅助无投影动力学和移位迭代等新分析技术，首次在非凸场景下为相关噪声DP训练提供了优化和population risk分析。

Runtime Monitoring of Perception-Based Autonomous Systems via Embedding Temporal Logic

Parv Kapoor et al.

cs.LG

本文提出Embedding Temporal Logic (ETL)，一种直接在learned embedding spaces中进行运行时监控的temporal logic。ETL通过embedding之间的距离定义predicates，以捕捉传统方法难以表达的高层感知概念，并引入conformal calibration procedure来提供可靠的predicate evaluation。

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Weichen Yu et al.

cs.LG cs.AI

本文提出Multi-Rollout On-Policy Distillation (MOPD)方法，通过利用学生模型在同一prompt下的多个rollout（包括成功和失败的尝试）来构建更丰富的teacher信号，从而改进on-policy distillation。实验表明该方法在编程、数学推理等任务上优于标准baseline，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Plan Before You Trade: Inference-Time Optimization for RL Trading Agents

Eun Go, Rohan Deb, Arindam Banerjee

cs.LG cs.AI stat.ML

本文提出FPILOT框架，将模型预测控制思想应用于强化学习交易智能体，在推理时利用价格预测优化策略，无需重新训练。该方法在TradeMaster DJ30基准上提升了总回报和风险调整指标。

scShapeBench: Discovering geometry from high dimensional scRNAseq data

Andrew J Steindl et al.

cs.LG q-bio.GN

本文提出了scShapeBench基准数据集和scReebTower基线方法，用于从高维单细胞RNA测序数据中自动检测数据形状（如聚类、轨迹等），以辅助下游分析流程的选择。该方法利用diffusion geometry提取Reeb graph，并在合成与真实数据集上优于现有基线。

ODRPO: Ordinal Decompositions of Discrete Rewards for Robust Policy Optimization

Nirmal Patel, Fei Wang, Inderjit Dhillon

cs.LG cs.AI

本文针对大语言模型对齐中RLAIF框架下离散奖励的随机性问题，提出了一种名为ODRPO的框架，通过将离散奖励分解为序数二元指标序列来隔离评估噪声。该方法在Qwen2.5-7B和Qwen3-4B模型上取得了优于GRPO和MaxRL等基线方法的性能，且计算开销极低。

Parallel-in-Time Training of Recurrent Neural Networks for Dynamical Systems Reconstruction

Florian Hess, Florian Götz, Daniel Durstewitz

cs.LG cs.AI cs.DC physics.comp-ph

本文研究了两种并行时间算法用于从数据中重建非线性动力系统，发现线性训练时间递归模型存在局限性，并提出了GTF-DEER方法以改进非线性动力学的学习。该方法在长序列训练中表现出优势，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

A Unified Perspective for Learning Graph Representations Across Multi-Level Abstractions

Mohamed Mahmoud Amar et al.

cs.LG cs.AI

本文提出了一种统一的图自监督学习框架，通过线性组合不同抽象层级（节点、邻近、簇、图）的正负样本相似度分数来学习表示，并引入了一种无需参数的细粒度自适应加权机制以优化训练过程。实验表明该方法在分类、聚类和链接预测等下游任务中优于现有方法。

IGT-OMD: Implicit Gradient Transport for Decision-Focused Learning under Delayed Feedback

Benjamin Amoh, Geoffrey G. Parker, Wesley Marrero

cs.LG

本文研究了延迟反馈下的决策聚焦学习问题，提出了IGT-OMD算法，通过隐式梯度传输（Implicit Gradient Transport）在Online Mirror Descent中重新评估陈旧梯度，将传输误差从二次依赖降为线性依赖，并首次为延迟双层优化（bilevel optimization）提供了次线性遗憾界。实验在多个任务上验证了该方法相比单层基线的决策损失降低17%-55%。

Modeling Heterophily in Multiplex Graphs: An Adaptive Approach for Node Classification

Kamel Abdous, Nairouz Mrabah, Mohamed Bouguessa

cs.LG cs.AI

本文提出了一种名为\methodname的多层图节点分类方法，通过引入维度特定的compatibility matrix和Chebyshev多项式近似的可训练低通与高通滤波器，来建模多层图中同时存在的同质性与异质性交互。该方法使用proximal-gradient method优化标签预测，实验表明其在合成与真实数据集上优于现有方法。

UFO: A Domain-Unification-Free Operator Framework for Generalized Operator Learning

Hanli Qiao, George Em Karniadakis, Muhammad Muniruzzaman

cs.LG math.NA

本文提出UFO (Domain-Unification-Free Operator)框架，通过在不同domain（如物理空间、spectral空间）上定义representation并实现自适应交互，构建了跨domain的neural operator。该方法实现了discretization decoupling，允许输入函数在训练时不同的resolution或位置被观测，并在多个benchmark上验证了其鲁棒性。

Do Fair Models Reason Fairly? Counterfactual Explanation Consistency for Procedural Fairness in Credit Decisions

Gideon Popoola, John Sheppard

cs.LG cs.AI cs.CE cs.CY

本文关注机器学习模型在信用决策等敏感领域中的程序公平性，提出Counterfactual Explanation Consistency (CEC)框架，通过对齐个体与其反事实对应物的特征归因来检测和缓解标准公平指标无法捕捉的“隐藏程序偏见”。实验表明，CEC在多个数据集上能有效降低这种偏见，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Early Data Exposure Improves Robustness to Subsequent Fine-Tuning

Lawrence Feng et al.

cs.LG

本文研究了在语言模型训练中，早期数据暴露（将post-training数据混入pretraining）如何影响模型在后续fine-tuning中保留目标能力（target capability）的鲁棒性。实验表明，post-training后的即时性能不能可靠预测后续fine-tuning后的保留效果，而早期暴露能持续改善保留性能与下游性能之间的权衡。

A Resampling-Based Framework for Network Structure Learning in High-Dimensional Data

Ziwei Huang et al.

cs.LG q-bio.GN

本文介绍了RSNet，一个用于高维数据中网络结构学习的R包，通过重采样策略（如bootstrap和subsampling）来增强网络推断的鲁棒性和可解释性，并支持偏相关网络和混合数据类型的条件高斯贝叶斯网络。

Spectral Energy Centroid: a Metric for Improving Performance and Analyzing Spectral Bias in Implicit Neural Representations

Tomasz Dądela et al.

cs.LG

本文引入Spectral Energy Centroid (SEC)指标来量化隐式神经表示(INR)中的频谱特性，并展示了其在超参数选择、信号复杂度估计和跨架构频谱对齐中的实用性。

Layer-wise Representation Dynamics: An Empirical Investigation Across Embedders and Base LLMs

Jingzhou Jiang, Yi Yang, Kar Yan Tam

cs.LG cs.CL

本文提出Layer-wise Representation Dynamics (LRD)框架，通过Frenet测度、Neighborhood Retention Score (NRS)和Graph Filtration Mutual Information (GFMI)三类指标，分析31个语言模型各层表示的变化，并用于无标签模型选择和推理时层剪枝。实验表明，端到端子空间位移对下游性能预测最强，而GFMI在剪枝任务中表现最优。

Scaling Laws for Mixture Pretraining Under Data Constraints

Anastasiia Sedova et al.

cs.LG cs.CL

本文研究了在数据受限条件下，混合预训练中目标数据与通用数据之间的权衡，发现重复使用目标数据15-20次仍可提升性能，并提出了一个考虑重复效应的混合scaling law。

Before the Last Token: Diagnosing Final-Token Safety Probe Failures

Shravan Doda

cs.LG

本文研究了final-token safety probes在检测jailbreak prompts时的失效模式，发现有害证据常出现在序列早期而非最终token。作者提出一个简单的PCA-HMM trajectory模型，仅用clean prompts训练即可恢复许多被遗漏的jailbreak，同时避免naive max-pooling的假阳性问题。

From Generalist to Specialist Representation

Yujia Zheng et al.

cs.LG cs.AI stat.ML

本文在完全非参数设定下，研究了从通用模型学习任务相关专有表示的可识别性问题。作者证明了跨时间步的任务结构在完全无监督下是可识别的，且通过稀疏正则化可在每个时间步内将任务相关潜在表示与无关部分分离。

ConRetroBert: EMA Stabilized Dual Encoders for Template-Based Single-Step Retrosynthesis

Mohammad Jahid Ibna Basher et al.

cs.LG

本文提出ConRetroBert，一种基于双编码器的模板驱动单步逆合成预测方法，通过对比预训练和列表级排序优化模板检索，在USPTO-50k上提升了top-1准确率。该方法主要关注化学逆合成任务，与关键词中的code, context, spectral, Muon, pretrain, agent, attention关联较弱。

Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation

Yuwei Zhang et al.

cs.LG

本文提出Reflection-Enhanced Self-Distillation (RESD)框架，通过生成回顾性反思来诊断失败轨迹中的局部错误，并将原始失败反馈转化为主动的纠正监督信号，从而提升大语言模型在稀有成功场景下的学习效率。实验表明该方法在持续学习任务中优于标准自蒸馏基线，且交互效率显著高于GRPO。

Low-Rank Adapters Initialization via Gradient Surgery for Continual Learning

Joana Pasquali et al.

cs.LG

本文提出SLICE方法，通过梯度手术（gradient surgery）初始化LoRA适配器，以缓解持续学习中的灾难性遗忘。该方法利用投影算子协调当前任务与回放缓冲区的梯度，并通过截断SVD分解初始化适配器权重，在TRACE和Super-NI基准上提升了稳定性-可塑性权衡。

Constraint-Aware Flow Matching: Decision Aligned End-to-End Training for Constrained Sampling

Jacob K. Christopher, James E. Warner, Ferdinando Fioretto

cs.LG

本文提出Constraint-Aware Flow Matching框架，通过将constraint projections显式纳入training objective，解决了constrained generative modeling中training-sampling misalignment问题。该方法在三个实际基准上验证了有效性。

Predicting Channel Closures in the Lightning Network with Machine Learning

Simone Antonelli et al.

cs.LG cs.SI

本文研究了Lightning Network中通道关闭类型的预测问题，将其建模为时序链路分类任务。实验表明，基于MLP的简单模型在仅使用节点活动历史和时序特征时优于图神经网络方法，并指出网络拓扑信息对预测无额外帮助。

Multi-Quantile Regression for Extreme Precipitation Downscaling

Hamed Najafi et al.

cs.LG cs.AI

本文提出Q-SRDRN，一种多分位数超分辨率网络，通过pinball loss和两个CNN设计（IncrementBound和独立输出头）解决极端降水降尺度中重尾事件预测不足的问题。实验表明该方法在极端降水检测率上显著优于确定性基线，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

State-Space NTK Collapse Near Bifurcations

James Hazelden, Eric Shea-Brown

cs.LG math.DS math.OC q-bio.NC

本文研究了循环神经网络在分岔点附近的梯度下降动力学，通过状态空间神经正切核（sNTK）的局部理论，发现分岔会主导并简化学习过程，使sNTK退化为秩一算子。该工作为理解高维循环系统在分岔附近的学习几何提供了可解析的描述。

Inference-Time Machine Unlearning via Gated Activation Redirection

Vinícius Conte Turani et al.

cs.LG

本文提出了一种名为GUARD-IT的推理时机器遗忘方法，通过门控激活重定向在推理阶段实现输入依赖的激活干预，无需训练或梯度更新。该方法在TOFU和MUSE数据集上匹配或超越了12种基于梯度的基线方法，并支持持续遗忘和量化场景。

Graph-Based Financial Fraud Detection with Calibrated Risk Scoring and Structural Regularization

Yunfei Nie et al.

cs.LG

本文提出了一种基于Graph Neural Network的金融交易欺诈检测框架，通过构建交易图并利用消息传递机制学习节点嵌入表示，结合加权监督和结构一致性正则化来缓解类别不平衡和噪声边的影响。实验表明该方法在风险排序和概率校准上优于对比方法。

Identifying the nonlinear string dynamics with port-Hamiltonian neural networks

Maximino Linares, Guillaume Doras, Thomas Hélie

cs.LG eess.SY math.DS

本文提出了一种将port-Hamiltonian神经网络(PHNNs)扩展到偏微分方程(PDE)系统的方法，用于从数据中学习非线性弦的动力学。该方法通过构建基于PHS的结构化神经网络架构，能够恢复控制弦的Hamiltonian和耗散项，在准确性和可解释性上优于非物理信息方法。

From Heuristics to Analytics: Forecasting Effort and Progress in Online Learning

Eric S. Qiu et al.

cs.LG cs.CY

本文研究了在线学习环境中学生努力程度与学习进度的预测问题，使用多种feature-based模型（如回归、决策树、神经网络）对每周练习时间和掌握新技能数量进行预测，相比启发式基线方法降低了22-33%的MAE。文章还通过特征重要性分析和用户访谈探讨了预测的可解释性，但方法本身在数学或算法上缺乏开创性，且与关键词列表中的概念（如spectral, Muon, attention等）无直接关联。

SoK: A Comprehensive Analysis of the Current Status of Neural Tangent Generalization Attacks with Research Directions

Thushari Hapuarachchi, Kaiqi Xiong

cs.LG

本文对Neural Tangent Generalization Attack (NTGA)进行了全面的综述分析，包括其分类、与黑盒攻击的关系以及实验验证。研究发现NTGA易受对抗训练和图像变换的影响，并指出一些新方法在数据保护上已超越NTGA。

Emergent and Subliminal Misalignment Through the Lens of Data-Mediated Transfer

Baris Askin et al.

cs.LG cs.AI cs.CL

本文通过数据中介迁移的视角研究了LLM微调中的突现失调和潜意识失调现象，发现失调行为与微调数据的功能结构、任务难度及预训练分布密切相关，并首次在离策略和在线策略蒸馏下比较了这种迁移。

Pitfalls of Unlabeled Disagreement-Based Drift Detection in Streaming Tree Ensembles

Lara Sá Neves et al.

cs.LG

本文研究了基于未标记数据的不一致性漂移检测方法在增量决策树集成中的表现，发现该方法在多层感知机中有效，但在决策树中因模型刚性而性能不佳。文章指出通过规则分解重构决策树可能是改进方向。

Discrete MeanFlow: One-Step Generation via Conditional Transition Kernels

Fairoz Nower Khan et al.

cs.LG cs.AI

本文提出Discrete MeanFlow，通过条件转移核将连续空间中的MeanFlow方法扩展到离散状态空间，并证明了离散MeanFlow恒等式。该方法无需迭代去噪或多步精炼，可直接一步生成离散数据。

Neurodata Without Boredom: Benchmarking Agentic AI for Data Reuse

Ling-Qi Zhang, Kristin Branson

cs.LG

本文探讨了使用agentic AI（基于LLM的智能体）自动化神经科学数据复用与格式转换的可行性，发现通用编码智能体在子任务上表现良好但难以完成无错误的端到端解决方案，并提出了面向agentic AI时代的数据共享最佳实践。

Correcting Influence: Unboxing LLM Outputs with Orthogonal Latent Spaces

Shixing Yu, Promit Ghosal, Kyra Gan

cs.LG cs.AI

本文提出了一种通过正交隐空间（orthogonal latent spaces）解耦LLM输出的方法，利用稀疏自编码器（sparse autoencoders）学习近似独立的隐特征，并通过Jacobian-vector乘积将隐层归因传播回输入空间，实现token级影响归因。该方法在医疗基准上展示了稀疏且可解释的预测归因，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

AGOP as Explanation: From Feature Learning to Per-Sample Attribution in Image Classifiers

Raj Kiran Gupta Katakam

cs.LG

本文提出AGOP-Weighted和AGOP-Global两种基于Average Gradient Outer Product (AGOP)的归因方法，用于解释图像分类器的单个预测。实验表明，AGOP-Weighted在合成和真实基准上优于Integrated Gradients等现有方法，且AGOP-Global在零推理成本下表现良好。

Training Large Language Models to Predict Clinical Events

Benjamin Turtel, Paul Wilczewski, Kris Skotheim

cs.LG cs.AI cs.CL

本文提出将Foresight Learning扩展到临床预测，通过将MIMIC-III中的时序临床笔记转换为包含患者历史、未来事件问题和标签的训练样本，并训练LoRA适配器来改进预测性能。该方法无需手工特征或特定分类器，即可从纵向笔记中提取可复用的预测监督信号。

Hessian Matching for Machine-Learned Coarse-Grained Molecular Dynamics

Sanya Murdeshwar et al.

cs.LG physics.chem-ph physics.comp-ph q-bio.BM

本文提出了一种Hessian matching方法，通过随机Hessian-vector product (HVP)匹配来增强force matching，从而在粗粒化分子动力学中引入二阶曲率信息。该方法在9个快速折叠蛋白质基准上优于纯force matching，在慢模式指标上最多减少了85%的KL散度。

Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion

Chien Van Nguyen et al.

cs.LG cs.AI

本文提出Orthrus框架，通过将冻结的autoregressive LLM与轻量级diffusion模块结合，利用共享KV cache实现并行token生成，在保证生成保真度的同时提升推理速度。该方法主要关注推理效率优化，与关键词中的code、context、attention等概念关联较弱。

Quantifying Potential Observation Missingness in Inverse Reinforcement Learning

Leo Benac et al.

cs.LG

本文关注inverse reinforcement learning (IRL)中观测数据缺失的问题，提出了一种量化专家行为在给定观测下看似最优所需的最小扰动的方法，并在合成导航、癌症治疗模拟和ICU数据上进行了实验验证。

Discrete Stochastic Localization for Non-autoregressive Generation

Yunshu Wu et al.

cs.LG

本文提出了一种名为Discrete Stochastic Localization (DSL)的连续状态框架，用于非自回归离散序列生成。该方法通过单位球面上的token嵌入和与信噪比无关的贝叶斯最优去噪器，支持多种per-token SNR路径，并能在微调预训练MDLM后提升生成质量。

Multitask Multimodal Fusion with Tabular Foundation Models for Peak and Durability Prediction of Pertussis Booster Response

Divya Sitani

cs.LG q-bio.QM

本文提出了一种多任务对比多模态融合架构，用于联合预测百日咳加强针免疫反应的峰值和持久性。该方法使用TabPFN-v2编码器、双标签监督对比损失和缺失掩码注意力融合，在CMI-PB数据集上取得了优于基线的性能。

SMA: Submodular Modality Aligner For Data Efficient Multimodal Learning

Truong Pham, Anay Majee, Rishabh Iyer

cs.LG

本文提出了一种名为Submodular Modality Aligner (SMA)的组合范式，通过基于Submodular Mutual Information (SMI)的目标函数，将多个数据增强和描述视为集合来处理，以提升多模态对齐的数据效率。实验表明，该方法在低数据场景下的零样本分类和检索任务中优于传统方法。

Descriptive Collision in Sparse Autoencoder Auto-Interpretability: When One Explanation Describes Many Features

Jordan F. McCann

cs.LG

本文发现稀疏自编码器（SAE）的自动可解释性中存在“描述性碰撞”问题，即多个不同的SAE feature共享相同的自然语言解释。作者通过分析公开数据集，量化了该问题的普遍性，并提出了修正指标，但该方法主要聚焦于可解释性评估，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等方向关联较弱。

Certified Robustness under Heterogeneous Perturbations via Hybrid Randomized Smoothing

Blaise Delattre et al.

cs.LG

本文提出了一个统一的randomized smoothing框架，用于处理混合离散-连续输入（如文本和图像）的鲁棒性认证，通过Neyman-Pearson公式推导出封闭形式的一维证书。该工作主要针对多模态安全过滤场景，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

ASAP: Amortized Doubly-Stochastic Attention via Sliced Dual Projection

Huy Tran, Max Milkert, David Hyde

cs.LG

ASAP提出了一种将Sinkhorn注意力中的迭代矩阵缩放替换为固定切片对偶算子的方法，通过训练一个轻量级参数映射来近似Kantorovich势，从而在推理时加速。该方法在保持训练效率的同时，在语言和视觉基准上实现了与Sinkhorn注意力相当的精度。

RISED: A Pre-Deployment Safety Evaluation Framework for Clinical AI Decision-Support Systems

Rohith Reddy Bellibatlu

cs.LG cs.AI cs.CY stat.AP

本文提出了RISED框架，一个用于临床AI决策支持系统部署前安全评估的五维度方法，通过形式化子标准和统计检验（如BCa bootstrap和Holm-Bonferroni校正）检测传统聚合指标无法发现的部署风险，并在多个临床数据集上验证了其有效性。该工作主要关注临床AI系统的可靠性评估，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

VIP-COP: Context Optimization for Tabular Foundation Models

Yilong Chen, Xueying Ding, Leman Akoglu

cs.LG

本文提出VIP-COP方法，通过在线KernelSHAP回归和迭代优化来估计训练样本和特征的重要性，从而为表格基础模型(TFMs)进行上下文优化。该方法在测试时通过显式选择高价值数据来提升模型性能，但主要聚焦于表格数据的上下文学习优化，与关键词中的code、spectral、Muon、agent、attention等概念关联较弱。

Data Difficulty and the Generalization--Extrapolation Tradeoff in LLM Fine-Tuning

Siyuan Liu et al.

cs.LG cs.AI

本文通过实验和理论分析研究了监督微调(SFT)中数据难度与数据集大小的关系，发现不存在普遍最优的数据难度，而是存在一个随数据预算增加而向更难数据偏移的最优难度。该现象由分布内generalization gap与extrapolation gap之间的权衡驱动，并通过PAC-Bayesian generalization bounds进行了理论验证。

IV-ICL: Bounding Causal Effects with Instrumental Variables via In-Context Learning

Vahid Balazadeh et al.

cs.LG

本文提出IV-ICL方法，利用amortized Bayesian in-context learning直接学习causal effects的marginal posterior distribution，并通过其quantiles推导出bounds。该方法通过优化inclusive KL divergence来覆盖整个identified set，在合成和半合成IV基准测试中，相比现有方法能以更低推理时间生成更可靠且信息量更大的区间。

The Efficiency Gap in Byte Modeling

Celine Lee et al.

cs.LG

本文研究了byte-level modeling与masked diffusion modeling (MDM)结合时的计算效率问题，发现相比autoregressive (AR)模型，MDM在byte尺度下的性能惩罚更严重，并归因于上下文脆弱性(context fragility)。该工作为理解不同建模范式在byte regime下的scaling特性提供了实证分析。

The Expressivity Boundary of Probabilistic Circuits: A Comparison with Large Language Models

Zhiyu Zhao et al.

cs.LG cs.AI

本文比较了Probabilistic Circuits (PCs)与基于Transformer的大语言模型(LLMs)在自回归语言建模中的表达能力差距，指出PCs存在输出瓶颈和上下文编码瓶颈，并证明了structured-decomposable PCs在特定分区上可匹配Transformer的separation rank，但受限于固定路由结构。

Reinforced Collaboration in Multi-Agent Flow Networks

Zheng Wang, Yuang Liu, Yangkai Ding

cs.LG

本文提出MANGO框架，通过构建flow network来组织多agent协作，并利用reinforcement learning和textual gradients优化workflow路径与agent行为。实验表明该方法在多个benchmark上提升了性能与效率。

From Instance Selection to Fixed-Pool Data Recipe Search for Supervised Fine-Tuning

Haodong Wu et al.

cs.LG cs.CL

本文提出AutoSelection方法，将SFT数据选择问题转化为固定池数据配方搜索，通过缓存信号和局部编辑来发现高质量子集，实验表明其优于随机搜索和单算子选择方法。

Separating Shortcut Transition from Cross-Family OOD Failure in a Minimal Model

Hongmin Li

cs.LG

本文通过一个最小二分类模型研究shortcut特征与OOD失败的关系，发现训练中的shortcut相关性、模型对shortcut规则的采用以及测试时的OOD失败并不必然一致。在确定性情况下，ridge正则化可防止OOD失败，而当invariant特征有噪声时，模型会转向shortcut规则，但这一转变是否导致失败取决于测试数据族。

U-HNO: A U-shaped Hybrid Neural Operator with Sparse-Point Adaptive Routing for Non-stationary PDE Dynamics

Yingzhe Ma et al.

cs.LG math.NA

本文提出U-HNO，一种U形混合neural operator，其核心是Sparse-Point Adaptive Routing (SPAR)机制，通过在每个空间位置用硬掩码选择全局Fourier分支或局部多尺度Gaussian分支，以处理非平稳PDE动力学中光滑全局输运与局部尖锐特征共存的问题。实验表明该方法在多个PDE基准上取得了领先的滚动精度。

Controlling Logical Collapse in LLMs via Algebraic Ontology Projection over F2

Hisashi Miyashita, Mgnite Inc

cs.LG cs.AI cs.CL

本文提出Algebraic Ontology Projection (AOP)方法，将LLM的hidden states投影到Galois Field F2上，通过少量关系对实现零样本包含关系判断。文章还引入Semantic Crystallisation (SC)指标量化逻辑一致性，并观察到Late-layer Collapse现象。

CoRe-Gen: Robust Spectrum-to-Structure Generation under Imperfect Fingerprint Conditions

Tianbo Liu et al.

cs.LG cs.AI

本文提出CoRe-Gen方法，通过合成谱预训练编码器、频率感知指纹损坏训练解码器以及结构感知自回归解码，解决了质谱到分子结构生成中预测指纹与真实指纹条件不匹配的问题。该方法在NPLIB1基准上取得了新最优结果，并在MassSpecGym基准上保持竞争力。

Decision Tree Learning on Product Spaces

Arshia Soltani Moakahr et al.

cs.LG cs.CC

本文研究了在任意product distribution下，top-down greedy heuristic（贪心启发式）在decision tree learning（决策树学习）中的理论保证，证明了其构造的近似树大小受限于最优树的平均深度与最大深度的乘积。该工作扩展了Blanc等人仅在均匀分布下的分析，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Not Just RLHF: Why Alignment Alone Won't Fix Multi-Agent Sycophancy

Adarsh Kumarappan, Ananya Mujoo

cs.LG cs.AI

本文研究了基于LLM的多智能体pipeline在模拟同伴分歧下从正确答案翻转为错误答案的现象（称为yield），发现预训练基础模型比Instruct变体表现出更高的yield，并通过activation patching将问题定位到中间层attention机制，指出压力抑制了正确推理特征而非激活新的谄媚回路。

F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking

Rohan Surana et al.

cs.LG

本文提出F-GRPO框架，通过分解策略为候选生成和排序两个阶段，并共享单个LLM backbone，使用因子化组相对策略优化实现端到端联合训练。该方法解决了传统检索流水线中生成与排序的信用分配问题，在序列推荐和多跳问答任务上提升了top-ranked性能。

Frequency Bias and OOD Generalization in Neural Operators under a Variable-Coefficient Wave Equation

Runlong Xie, An Luo

cs.LG

本文研究了在变系数波动方程下，Fourier Neural Operator (FNO) 和 Deep Operator Network (DeepONet) 两种神经算子架构在分布偏移下的泛化行为。结果表明，在频率偏移下FNO对未见的高频输入误差显著增大，而DeepONet退化较缓，揭示了架构表示偏差对分布外泛化的影响。

\emph{DRIFT}: A Benchmark for Task-Free Continual Graph Learning with Continuous Distribution Shifts

Guiquan Sun et al.

cs.LG

本文提出了一个名为DRIFT的benchmark，用于任务无关的持续图学习，通过高斯参数化建模连续分布漂移。实验发现现有方法在无任务边界的真实场景下性能显著下降。

JEDI: Joint Embedding Diffusion World Model for Online Model-Based Reinforcement Learning

Jing Yu Lim et al.

cs.LG

本文提出JEDI，一种基于JEPA框架的端到端latent diffusion world model，用于在线model-based reinforcement learning。该方法通过denoising loss直接学习latent space，避免了单独训练的latent和pixel-level reconstruction，在Atari100k上取得了有竞争力的性能并显著降低了计算开销。

Rethinking Efficient Graph Coarsening via a Non-Selfishness Principle

Xu Bai et al.

cs.LG cs.AI

本文提出了一种基于非自私性原则的图粗化方法NOPE及其加速变体NOPE*，通过优先考虑邻域集体干扰而非节点间独立匹配，实现了线性内存消耗和近线性计算复杂度。该方法在保持图结构语义的同时，显著提升了粗化效率，并在实验中展现出比现有方法快1-3个数量级的加速效果。

Offline Two-Player Zero-Sum Markov Games with KL Regularization

Claire Chen et al.

cs.LG cs.GT

本文研究了离线两人零和Markov博弈中的Nash均衡学习问题，证明了仅使用KL正则化即可稳定学习并保证收敛。作者提出了ROSE理论框架和SOS-MD实用算法，在特定条件下实现了$\widetilde{\mathcal{O}}(1/n)$的收敛速率。

Understanding and Accelerating the Training of Masked Diffusion Language Models

Chunsan Hong et al.

cs.LG cs.AI cs.CL

本文分析了Masked Diffusion Models (MDMs)在语言建模中训练缓慢的原因，发现主要因素是语言的局部性偏差（locality bias），即token的预测信息集中在附近位置。为此，作者提出了一种简单的训练策略——钟形时间采样（bell-shaped time sampling），在One Billion Word Benchmark (LM1B)上，该方法使MDM达到相同验证负对数似然（NLL）的速度比标准训练快约4倍。

FeatCal: Feature Calibration for Post-Merging Models

Yanggan Gu et al.

cs.LG cs.AI

本文提出FeatCal方法，通过分析模型合并中的feature drift（特征漂移）现象，利用少量校准集以逐层闭式解方式校准合并后的模型权重，无需梯度下降或额外模块。该方法在CLIP和GLUE基准上优于现有后合并校准基线，具有更好的样本效率和更低的校准成本。

What Information Matters? Graph Out-of-Distribution Detection via Tri-Component Information Decomposition

Danny Wang, Ruihong Qiu, Zi Huang

cs.LG

本文提出Tide框架，通过三组件信息分解将节点信息拆分为特征特定、结构特定和联合组件，以过滤虚假信号并增强图OOD检测。实验表明该方法在多个数据集上优于基线，但未涉及代码、上下文或谱方法等关键词。

Large Language Models Lack Temporal Awareness of Medical Knowledge

Zihan Guan et al.

cs.LG cs.CL

本文构建了TempoMed-Bench基准，用于评估LLMs在医学知识上的时间感知能力，发现模型对历史知识的准确率远低于最新知识，且存在时间不一致行为。该工作揭示了医学领域LLMs时间感知的挑战，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

Bridging Domain Gaps with Target-Aligned Generation for Offline Reinforcement Learning

Minung Kim et al.

cs.LG cs.AI

本文提出Target-aligned Coverage Expansion (TCE)框架，通过双score-based generative model在离线强化学习中跨域迁移策略，利用目标对齐生成来扩展状态覆盖并减少分布不匹配。实验表明TCE在多种跨域环境中优于现有基线方法。

Ergodic Trajectory Design by Learned Pushforward Maps: Provable Coverage via Conditional Flow Matching

Ehsan Aghazadeh et al.

cs.LG

本文提出了一种名为epushforward的框架，用于解决无人机等移动agent的遍历覆盖问题。该方法通过条件流匹配学习一个映射，将具有均匀遍历性的潜在轨迹传输到目标密度分布，从而将遍历性与密度匹配解耦。该框架允许在训练损失中引入可微的操作约束，并提供了收敛性理论保证。

Local Inverse Geometry Can Be Amortized

Aaditya L. Kachhadiya

cs.LG

本文提出了一种名为Deceptron的框架，通过Jacobian Composition Penalty (JCP)训练一个可重用的反向算子来近似局部逆几何，并利用D-IPG迭代求解器解决非线性逆问题。该方法在多个PDE逆问题基准上取得了与Gauss-Newton方法相当或更优的恢复质量，同时显著降低了推理时的计算成本。

Bayesian Nonparametric Mixed-Effect ODEs with Gaussian Processes

Julien Martinelli et al.

cs.LG

本文提出MEGPODE，一种贝叶斯非参数混合效应ODE模型，通过将每个个体的vector field分解为共享的群体成分和个体特异性偏差，并使用Gaussian process先验进行建模。该方法利用state-space GP轨迹先验和虚拟搭配观测来避免重复求解ODE，从而在异质性动力学建模中提升了群体场恢复和个体轨迹预测性能。

Margin-calibrated Classifier Guidance for Property-driven Synthesis Planning

Najwa Laabid, Vikas Garg

cs.LG cs.AI

本文针对合成规划中的单步逆合成模型，提出了一种名为Sequence Completion Ranking (SCR)的方法，通过对比学习和margin-based loss校准分类器，以在解码过程中更好地引导模型生成满足特定性质的化学反应序列。实验表明，该方法在USPTO-190数据集上显著提升了多步求解率，并缩小了无模板方法与模板方法之间的多样性差距。

MLGIB: Multi-Label Graph Information Bottleneck for Expressive and Robust Message Passing

Chaokai Wu et al.

cs.LG cs.AI

本文提出MLGIB框架，通过构建Markovian dependence space并推导可处理的variational bounds，在多标签图消息传递中平衡表达性与鲁棒性，以抑制无关标签噪声并保留预测信号。实验表明该方法在多个基准上优于现有方法。

ERPPO: Entropy Regularization-based Proximal Policy Optimization

Changha Lee, Gyusang Cho

cs.LG cs.RO

本文提出了一种基于熵正则化的近端策略优化算法ERPPO，用于解决多智能体强化学习中因非平稳观测导致的策略优化问题。该方法通过训练分布时空模糊性学习器来估计观测不确定性，并动态调整正则化强度以平衡探索与稳定。实验在AirSim海事搜索场景中验证了其有效性。

KAST-BAR: Knowledge-Anchored Semantically-Dynamic Topology Brain Autoregressive Modeling for Universal Neural Interpretation

Haoning Wang et al.

cs.LG eess.SP

本文提出了一种基于知识的语义动态拓扑脑自回归模型(KAST-BAR)，通过双流层次注意力编码器和知识锚定语义分析器，将多层级脑拓扑的生理表征与专家级语义空间动态对齐，并在21个数据集上预训练后，在六个下游任务中取得优越性能。

Collaborating in Multi-Armed Bandits with Strategic Agents

Idan Barnea, Ofir Schlisselberg, Yishay Mansour

cs.LG

本文研究了多智能体Bayesian bandit问题中战略智能体的协作学习，提出了CAOS机制，通过信息共享维持Nash均衡下的协作，并实现了接近完全合作系统的regret性能。

Understanding Generalization through Decision Pattern Shift

Huiqi Deng et al.

cs.LG cs.CV

本文提出Decision Pattern Shift (DPS)概念，通过GradCAM-based channel-contribution vector量化模型内部决策模式在训练与测试间的偏差，并发现DPS与泛化差距呈强线性相关，为理解DNN泛化失败提供了新视角。

Continual Fine-Tuning of Large Language Models via Program Memory

Hung Le, Svetha Venkatesh

cs.LG

本文提出了一种名为ProCL的持续LoRA框架，受神经科学中互补学习系统的启发，通过将LoRA适配器组织成程序记忆槽，并利用输入条件注意力动态检索，以平衡大语言模型在持续微调中的快速适应与知识保留。该方法在LoRA参数化内运行，不增加推理成本，实验表明其能改善知识保留并减少灾难性遗忘。

Finding the Weakest Link: Adversarial Attack against Multi-Agent Communications

Maxwell Standen, Junae Kim, Claudia Szabo

cs.LG cs.MA

本文研究了多智能体系统中的通信扰动攻击，利用Jacobian梯度信息识别最易受攻击的消息、智能体和时间步，并提出了两种对抗损失函数以平衡攻击成功率和影响。实验在导航、PredatorPrey和TrafficJunction环境中验证了方法的有效性。

Do Heavy Tails Help Diffusion? On the Subtle Trade-off Between Initialization and Training

Hamza Cherkaoui, Hélène Halconruy, Antonio Ocello

cs.LG

本文通过理论和实验研究了在扩散模型中使用heavy-tailed噪声与light-tailed Gaussian噪声的权衡，发现HT噪声虽然有助于恢复目标分布的尾部，但会使统计估计问题更困难，导致更差的采样误差界，从而质疑了在生成模型中广泛使用HT噪声的趋势。

N-vium: Mixture-of-Exits Transformer for Accelerated Exact Generation

Aleksander Lorenc et al.

cs.LG cs.AI

本文提出N-vium，一种混合退出（mixture-of-exits）transformer，通过在多个深度附加预测头并定义下一token分布为这些退出的学习混合，实现了对标准transformer的严格泛化。该方法通过延迟上层计算并与后续token批处理来恢复完整的KV缓存，在1.5B参数规模下实现了57.9%的墙钟加速且不损失困惑度。

ECG-NAT: A Self-supervised Neighborhood Attention Transformer for Multi-lead Electrocardiogram Classification

Mahsa Gazeran et al.

cs.LG cs.AI

本文提出ECG-NAT，一种用于多导联心电图分类的自监督学习方法，通过掩码自编码器进行生成式预训练，并结合对比损失与交叉熵损失的判别式微调。其层次化attention机制以较低计算成本捕获多尺度时序特征，在低资源场景下表现良好。

McCast: Memory-Guided Latent Drift Correction for Long-Horizon Precipitation Nowcasting

Penghui Wen et al.

cs.LG cs.AI

本文提出了一种名为McCast的记忆引导潜在漂移校正方法，用于长时程降水临近预报。该方法通过引入Drift-Corrective Memory Bank (DCBank)来显式估计并校正自回归预测中的轨迹漂移，从而生成更长时间一致的预报。实验在SEVIR和MeteoNet基准上取得了最优性能。

A Hybrid Tucker-LSTM Tensor Network Model for SOC Prediction in Electric Vehicles

Han Wang, Ying Wang, Bing Wang

cs.LG cs.ET

本文提出了一种结合Tucker tensor decomposition与LSTM网络的混合模型，用于电动汽车电池的SOC预测。该方法通过Tucker分解降低输入数据维度并保持时序结构，在真实EV场数据上相比标准LSTM显著降低了预测误差。

Switching Successor Measures for Hierarchical Zero-shot Reinforcement Learning

Stefan Stojanovic, Alexandre Proutiere

cs.LG

本文提出switching successor measures，将successor measures扩展至hierarchical zero-shot RL，并设计FB $\pi$-Switch算法，从forward-backward representations中提取高低层策略，在goal-conditioned和general reward任务上验证了有效性。

Machine Learning-Driven Multimodal Spectroscopic Liquid Biopsy for Early Multicancer Detection

Alejandro Leonardo García Navarro et al.

cs.LG

本文提出了一种基于机器学习与多模态光谱融合的液体活检方法，用于早期多癌检测。通过整合FTIR、Raman和EEM荧光光谱数据，该方法在乳腺癌和结直肠癌分类中取得了高ROC-AUC值。

Mix, Don't Tune: Bilingual Pre-Training Outperforms Hyperparameter Search in Data-Constrained Settings

Paul Jeha et al.

cs.LG

本文研究了在数据受限的语言模型预训练中，混合高资源语言数据与超参数调优的效果对比，发现混合数据能带来更大性能提升，并建议优先调整混合比例而非超参数。该工作主要关注语言模型预训练策略，与关键词中的code, spectral, Muon, agent, attention等概念关联较弱。

Teacher-Guided Policy Optimization for LLM Distillation

Xinyu Liu et al.

cs.LG cs.AI

本文提出Teacher-Guided Policy Optimization (TGPO)算法，通过利用教师模型对学生rollout的条件预测提供密集方向性指导，以解决标准Reverse KL在师生分布差异大时改进失效的问题。该算法保持on-policy特性，可无缝集成现有RLVR框架，在复杂推理基准上优于标准基线。

EMO: Frustratingly Easy Progressive Training of Extendable MoE

Linghao Jin et al.

cs.LG

本文提出EMO框架，通过渐进式扩展专家池来训练稀疏MoE模型，以缓解早期分配过多专家导致的效率问题。实验表明该方法在保持性能的同时提升了训练效率。

Unified generalization analysis for physics informed neural networks

Yuka Hashimoto, Tomoharu Iwata

cs.LG math.AP math.FA stat.ML

本文为Physics-Informed Neural Networks (PINNs)及其变体提供了一个统一的泛化分析框架，通过Taylor展开将非线性微分算子表示为高维空间上的线性算子，并利用Koopman分析证明了高秩网络在涉及微分算子时具有良好的泛化能力。研究还指出微分算子的非线性会指数级放大泛化误差上界。

Chem-GMNet: A Sphere-Native Geometric Transformer for Molecular Property Prediction

Deepak Warrier, Raja Sekhar Pappala

cs.LG q-bio.QM

本文提出了Chem-GMNet，一种基于球面几何的Transformer架构，通过将标准Transformer模块替换为球面原生组件（如SH-Embedding、DualSKA和SH-FFN）来预测分子性质。实验表明，在相同训练条件下，该模型在MoleculeNet基准测试上以更少参数优于ChemBERTa-2基线，但方法本身与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联较弱。

LightSplit: Practical Privacy-Preserving Split Learning via Orthogonal Projections

Mert Cihangiroglu et al.

cs.LG

本文提出LightSplit方法，通过在Split Learning的cut layer处应用固定的正交随机投影来压缩传输维度，从而同时降低通信开销并限制信息暴露。该方法基于Shannon信息论作为信息瓶颈，无需修改模型架构即可在保持95%以上基线精度的同时实现高达32倍的维度缩减。

Byzantine-Robust Distributed Sparse Learning Revisited

Yuxuan Wang, Lixin Zhang, Kangqiang Li

cs.LG math.ST

本文重新审视了高维稀疏线性模型下的拜占庭鲁棒分布式估计问题，通过结合局部$\ell_1$正则化鲁棒估计与服务器端的鲁棒聚合，提出了一个适用于伪Huber回归、分位数回归和稀疏SVM的通用框架，并证明了其在温和条件下能达到近最优的统计速率。

Delightful Exploration

Ian Osband

cs.LG cs.AI math.OC stat.ML

本文提出了一种名为Delight-gated exploration (DE)的探索启发式方法，通过将探索动作的“愉悦度”（预期改进与惊喜度的乘积）与门控价格进行比较来决定是否执行探索。该方法在Bernoulli bandit、linear bandit和tabular MDP等设定下，无需重新调整超参数即可转移，并在未解决的状态下表现出比Thompson Sampling和$\varepsilon$-greedy更弱的遗憾增长。

PaMM: Periodic Motif Memory for Atomistic Models with an Explicit Local-Structure Interface

Ryan Dong

cs.LG

本文提出PaMM，通过显式的pair和triplet motif查找表增强UMA eSCN-MD边缘编码器，在固定训练预算下改善了能量和力的MAE，但增益有限且未实现跨数据集迁移。

Safe Bayesian Optimization for Uncertain Correlations Matrices in Linear Models of Co-Regionalization

Jannis Lübsen, Annika Eichler

cs.LG eess.SY

本文扩展了多任务Bayesian Optimization中不确定correlation matrix的安全保证，从intrinsic co-regionalization模型到linear models of co-regionalization，并推导了uniform error bounds。数值实验表明该方法在安全多任务优化基准上具有性能提升潜力。

MPINeuralODE: Multiple-Initial-Condition Physics-Informed Neural ODEs for Globally Consistent Dynamical System Learning

Lake Yang et al.

cs.LG math.DS physics.chem-ph

本文提出MPINeuralODE方法，通过结合软物理信息残差与多初始条件多步打靶课程来改进Neural ODE的泛化能力。实验表明该方法在Lotka-Volterra系统上降低了外推误差和长期预测误差。

Supervised Deep Multimodal Matrix Factorization for Interpretable Brain Network Analysis

Amjad Seyedi et al.

cs.LG

本文提出了SD3MF框架，将无监督的Symmetric Nonnegative Matrix Tri-Factorization (SNMTF)扩展到多模态图群体的监督预测中，通过深度层次分解和共享隐表示实现多模态融合，并在脑网络分析中优于CNN和GNN等基线方法。

Shortcut Mitigation via Spurious-Positive Samples

Phuong Quynh Le et al.

cs.LG

本文提出了一种针对shortcut mitigation的方法，通过识别模型依赖spurious attributes的少量样本，并正则化中间层中相关神经元的影响，从而提升模型鲁棒性，无需额外的平衡数据或标注。

Contextual Bandits for Resource-Constrained Devices using Probabilistic Learning

Marco Angioli et al.

cs.LG

本文提出了一种基于概率更新的低精度contextual bandits算法probabilistic HD-CB，通过随机子集更新和值域约束来替代传统累加规则，在资源受限设备上实现了内存和计算效率的提升。实验表明该方法在低精度下优于二值化版本，性能接近高精度基线。

GeoFlowVLM: Geometry-Aware Joint Uncertainty for Frozen Vision-Language Embedding

Mayank Nautiyal et al.

cs.LG

本文提出GeoFlowVLM，一种后处理适配器，通过Riemannian flow matching学习双编码器VLM在乘积超球面上的联合分布，并从中导出条件检索熵和边缘典型性分数，分别量化aleatoric和epistemic不确定性。该方法在检索和零样本分类任务上实现了校准良好的不确定性估计。

Building Interactive Real-Time Agents with Asynchronous I/O and Speculative Tool Calling

Coleman Hooper et al.

cs.LG

本文提出了一种异步I/O和推测性工具调用方法，用于构建低延迟的实时交互式AI agent，通过解耦推理与等待过程来加速工具调用流程。该方法在云模型和边缘模型上分别实现了1.3-1.7倍和1.6-2.2倍的加速，但主要贡献在于工程优化而非理论创新。

Phasor Memory Networks: Stable Backpropagation Through Time for Scalable Explicit Memory

Sungwoo Goo, Hwi-yeol Yun, Sangkeun Jung

cs.LG cs.CL

本文提出Phasor Memory Network (PMNet)，通过将recurrent state更新约束在complex unit circle上的phase rotations来稳定梯度，解决了explicit memory架构在Backpropagation Through Time中的梯度不稳定性问题。实验表明，PMNet在长距离精确检索任务上表现优异，且小模型能匹配更大规模Mamba模型的zero-shot长上下文鲁棒性。

Beyond Oversquashing: Understanding Signal Propagation in GNNs Via Observables

Eden Nagar, Ya-Wei Eileen Lin, Ron Levie

cs.LG

本文受量子力学启发，使用observables（可观测量）对GNN中的信号传播进行建模，并证明标准spectral GNN的信号传播能力较差，进而提出了一种新的Schrödinger GNN模型。

Teaching and Learning under Deductive Errors

Jan Arne Telle, Brigt Håvardstun, Jose Hernandez-Orallo

cs.LG

本文提出了一种考虑演绎错误的教与学框架，在PAC设置下研究了教师如何找到高概率使学习者猜出近似正确假设的教学集，并分析了计算最优教学集问题的复杂性。

Support-Conditioned Flow Matching Is Kernel Smoothing

Daniel Matsui Smola

cs.LG stat.ML

本文研究了基于有限支持集的条件生成模型，证明在Gaussian最优传输路径下，精确速度场等价于Nadaraya-Watson核平滑器，其带宽随流时间递减。实验验证了理论预测的三种失败模式，并指出IP-Adapter的cross-attention机制在实践中实现了近似的核平滑。

Taming the Long Tail: Rebalancing Adversarial Training via Adaptive Perturbation

Lilin Zhang et al.

cs.LG cs.CV

本文研究了长尾数据下的对抗训练问题，指出类别不平衡和对抗分布不稳定是两大局限，并提出了一个自适应调整扰动的框架RobustLT。实验表明该方法能提升长尾数据集上的对抗鲁棒性和类别平衡性。

The Diffusion Encoder

Akhil Premkumar, Sarah Lucioni

cs.LG cs.IT

本文提出了一种新的编码器结构，利用diffusion models的表达能力，并通过交替训练方案解决了传统VAE中编码器与解码器之间的同步问题。该方法在保持标准diffusion model训练目标的同时，实现了更可靠的编码器-解码器协调。

Trajectory-Level Data Augmentation for Offline Reinforcement Learning

Tobias Schmähling, Matthias Burkhardt, Tobias Windisch

cs.LG cs.RO stat.ML

本文提出了一种用于离线强化学习的轨迹级数据增强方法，通过利用任务结构和logging policies的几何关系来提升数据质量，并在定位任务上进行了理论验证和实证评估。

When is Warmstarting Effective for Scaling Language Models?

Neeratyoy Mallik et al.

cs.LG

本文研究了语言模型扩展中warmstarting（从较小模型检查点初始化较大模型训练）的有效性，发现保留初始性能并非必要，且简单增长策略可优于复杂算子。实验表明增长因子$g$存在上限（约$2\times$），超过此上限时从头训练更高效，该结论在多种设置下得到验证。

Vector-Quantized Discrete Latent Factors Meet Financial Priors: Dynamic Cross-Sectional Stock Ranking Prediction for Portfolio Construction

Namhyoung Kim, Jae Wook Song

cs.LG cs.CE q-fin.ST

本文提出PRISM-VQ框架，通过向量量化离散潜在因子整合金融先验知识，用于动态截面股票排序预测，在CSI 300和S&P 500数据集上提升了预测和投资组合性能。

DP-KFC: Data-Free Preconditioning for Privacy-Preserving Deep Learning

Marc Molina Van den Bosch et al.

cs.LG

本文提出DP-KFC方法，通过向网络注入结构化合成噪声来估计Fisher Information Matrix，从而构建KFAC预条件子，无需使用私有或公共数据。该方法解决了差分隐私优化中几何不匹配的问题，在强隐私预算下（$\varepsilon \leq 3$）性能优于DP-SGD等基线，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

LIFT: Last-Mile Fine-Tuning for Table Explicitation

Divij Khaitan, Ashish Tiwari

cs.LG cs.CL

本文提出了一种名为LIFT的pipeline，使用预训练大语言模型从非结构化文本中提取初始表格，再通过微调的小语言模型修复错误。该方法在有限训练数据下优于端到端微调，并展现出对输入格式变化的鲁棒性。

Strategic PAC Learnability via Geometric Definability

Yuval Filmus et al.

cs.LG math.AG

本文研究了strategic classification中的learnability问题，发现即使基础hypothesis class的VC dimension为1，在strategic behavior下也可能导致infinite VC dimension。作者通过引入geometric definability假设（用$\mathbb{R}_{\mathtt{exp}}$上的first-order formulas定义hypothesis class和cost-induced neighborhood relation）来恢复learnability，并证明sample complexity由定义公式的复杂度控制。

Rescaled Asynchronous SGD: Optimal Distributed Optimization under Data and System Heterogeneity

Ammar Mahran, Artavazd Maranjyan, Peter Richtárik

cs.LG cs.DC math.OC stat.ML

本文提出Rescaled ASGD方法，通过按计算时间缩放worker-specific stepsizes来修正异步SGD在数据异构下的偏差，证明了其在非凸设定下收敛到正确全局目标，时间复杂度达到已知下界。

Q-Flow: Stable and Expressive Reinforcement Learning with Flow-Based Policy

JaeHyeok Doo et al.

cs.LG cs.AI

本文提出Q-Flow框架，利用flow-based model的确定性动力学将终端轨迹价值显式传播到中间隐状态，从而在不展开数值求解器的情况下实现稳定的策略优化。该方法在离线强化学习任务中表现优于现有基线，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Efficient Sensor Fusion for Gesture Recognition on Resource-Constrained Devices

Pietro Bartoli et al.

cs.LG

本文提出了一种基于低分辨率ToF和红外热传感器融合的轻量级手势识别系统，使用紧凑的CNN在微控制器上实现高效多模态融合，在7种静态手势数据集上达到92.3%的准确率，并验证了其在资源受限设备上的低功耗和毫秒级推理延迟。

A Unified Three-Stage Machine Learning Framework for Diabetes Detection, Subtype Discrimination, and Cognitive-Metabolic Hypothesis Testing

Vishal Pandey, Ruzina Haque Laskar, Rishav Tewari

cs.LG

本文提出了一个三阶段的机器学习框架，用于糖尿病检测、亚型聚类和代谢-认知关联分析，在NCSU数据集上比较了多种分类器，并通过SHAP解释和K-Means聚类进行了探索性分析。该工作主要聚焦于糖尿病领域的应用，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联度较低。

Twincher: Bijective Representation Learning for Robust Inversion of Continuous Systems

Arkady Gonoskov

cs.LG

本文提出Twincher架构，通过结构化微分同胚变换堆叠和对抗训练策略学习连续前向过程的双射表示，以实现对噪声和模型失配的鲁棒逆推。实验表明该方法相比基线逆建模方法具有更好的数据效率和鲁棒性。

Discovery of Hidden Miscalibration Regimes

Katarzyna Kobalczyk, Mihaela van der Schaar

cs.LG cs.AI stat.ME

本文提出了一种发现隐藏的miscalibration regimes（错误校准区域）的诊断框架，通过学习一个calibration-aware representation（校准感知表示）并利用kernel smoothing（核平滑）估计signed local miscalibration（带符号的局部错误校准），揭示了模型在不同输入上的校准异质性。该方法在多个LLM基准上验证了其有效性，并支持局部置信度校正。

Effective Context in Transformers: An Analysis of Fragmentation and Tokenization

Amirmehdi Jafari Fesharaki, Mohammadamin Rami, Aslan Tchamkerten

cs.LG cs.CL cs.IT

本文研究了Transformer中不同序列表示（如字节、字符、子词token）对有限上下文预测能力的影响。通过分析Markov源，引入了“碎片化”概念，证明无损重编码可能增加最优有限上下文log-loss，并分析了BPE等贪婪tokenization如何使短token窗口模拟更长源上下文窗口。

Path-independent Flow Matching for Multi-parameter Generative Dynamics

Francisco Téllez et al.

cs.LG

本文提出Path-independent Flow Matching (PiFM)方法，将标准Flow Matching推广到多参数域，以学习路径无关的概率分布传输。该方法通过约束向量场结构确保变换一致性，并近似Wasserstein barycenter，但与我提供的关键词列表关联度较低。

HLS-Seek: QoR-Aware Code Generation for High-Level Synthesis via Proxy Comparative Reward Reinforcement Learning

Qingyun Zou et al.

cs.LG cs.AI

本文提出HLS-Seek框架，通过代理比较奖励强化学习实现HLS代码生成中的QoR感知优化，利用相对比较替代昂贵的综合过程，并引入不确定性感知的MC dropout切换机制防止奖励欺骗。该方法在HLS-eval基准上取得了较高的语法正确率和功能通过率，训练速度比真实奖励RL快8.5倍。

Temper and Tilt Lead to SLOP: Reward Hacking Mitigation with Inference-Time Alignment

Ye Wang, Jing Liu, Toshiaki Koike-Akino

cs.LG cs.AI cs.CL

本文探讨了推理时对齐技术中的reward hacking缓解问题，通过引入参考模型温度调整和生成式reward model的sharpened logarithmic opinion pool (SLOP)组合，提出了一种校准SLOP权重参数的算法。实验表明该方法在保持对齐性能的同时提升了鲁棒性。

Decoupled and Divergence-Conditioned Prompt for Multi-domain Dynamic Graph Foundation Models

Haonan Yuan et al.

cs.LG cs.AI

本文提出DyGFM，一种基于解耦和散度条件提示的多域动态图基础模型。它通过双分支预训练策略分离可迁移语义与域特定动态，并设计跨域路由机制和散度条件提示生成器来缓解负迁移并提升微调效率。

Mixed neural posterior estimation for simulators with discrete and continuous parameters

Jan Boelts et al.

cs.LG

本文提出了一种混合神经后验估计方法，将Neural Posterior Estimation (NPE)扩展到包含离散和连续参数的混合参数空间，通过自回归分类器和生成模型的联合训练来分解后验分布。该方法在可处理的玩具示例和真实科学模拟器上验证了准确性，并提供了校准诊断工具。

Self-Supervised On-Policy Reinforcement Learning via Contrastive Proximal Policy Optimisation

Asim Osman et al.

cs.LG cs.AI

本文提出Contrastive Proximal Policy Optimisation (CPPO)，将contrastive RL与on-policy优化结合，通过contrastive Q-values直接推导policy advantages并使用PPO目标进行优化，无需reward function或replay buffer。实验表明CPPO在连续和离散、单agent和多agent任务中优于现有CRL基线，并在多数任务中匹配或超越使用dense rewards的PPO。

Uncertainty-Aware Prediction of Lung Tumor Growth from Sparse Longitudinal CT Data via Bayesian Physics-Informed Neural Networks

Lingfei Kong, Haoran Ma

cs.LG

本文利用Bayesian Physics-Informed Neural Networks结合Gompertz生长动力学模型，从稀疏且不规则的纵向CT数据中预测肺肿瘤生长，并提供了不确定性估计。该方法在30名患者的数据上取得了约0.20的对数空间RMSE和校准良好的95%可信区间覆盖率。

Spatiotemporal downscaling and nowcasting of urban land surface temperatures with deep neural networks

Solomiia Kurchaba, Angela Meyer

cs.LG

本文利用U-Net和ConvLSTM深度神经网络，将SEVIRI/MSG卫星的低空间分辨率LST数据与MODIS的高空间分辨率LST数据融合，生成了1 km、15分钟间隔的高时空分辨率LST场，并实现了15至75分钟内的短临预报。该方法在大型欧洲城市上取得了较低的RMSE和近零偏差，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Dynamical Predictive Modelling of Cardiovascular Disease Progression Post-Myocardial Infarction via ECG-Trained Artificial Intelligence Model

Riccardo Cavarra et al.

cs.LG cs.AI

本文提出了一种结合对比学习和监督多任务头的预训练AI模型，用于预测心肌梗死后的不良结局。该模型在ECG数据上通过自监督学习预训练，并在有限数据条件下优于从头训练的模型。

Rethinking Generalization in Graph Neural Networks: A Structural Complexity Perspective

Peiyao Wang et al.

cs.LG

本文从结构复杂性角度重新审视了图神经网络的泛化问题，理论证明了增加边会导致过拟合，并基于有效边数提出了结构复杂度度量及相应的Rademacher复杂度泛化界。受此启发，作者设计了结构熵正则化方法来平衡欠拟合与过拟合，从而提升GNN的泛化性能。

Deep Learning as Neural Low-Degree Filtering: A Spectral Theory of Hierarchical Feature Learning

Yatin Dandi et al.

cs.LG cond-mat.dis-nn stat.ML

本文提出了Neural Low-Degree Filtering (Neural LoFi)框架，将深度神经网络的梯度训练过程建模为一种迭代的spectral过程，其中每一层根据当前表示选择与标签具有最大可访问低阶相关性的方向。该工作为层级特征学习提供了显式的数学机制，并通过实验验证了其与真实数据集上早期梯度下降特征发现的一致性。

Multimodal Graph-based Classification of Esophageal Motility Disorders

Alexander Geiger et al.

cs.LG

本文探索了基于多模态图神经网络的食管运动障碍分类方法，将高分辨率阻抗测压数据构建为时空图，并结合患者信息进行融合分类。实验表明该方法相比仅依赖HRIM特征的模型有所改进，但整体属于应用性研究，缺乏方法论上的开创性。

Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization

Yang Bai et al.

cs.LG cs.CL

本文提出Reward-Decorrelated Policy Optimization (RDPO)方法，通过Magnitude-Aware Quantile normalization和Mahalanobis whitening处理多目标与混合奖励场景中的奖励分布异质性和维度相关性。该方法主要应用于大语言模型的后训练阶段，提升指令遵循和写作质量，但与关键词中的code、spectral、Muon等概念关联较弱。

Beyond Perplexity: A Geometric and Spectral Study of Low-Rank Pre-Training

Namrata Shivagunde et al.

cs.LG cs.AI cs.CL

本文通过几何和谱分析比较了五种低秩预训练方法与全秩训练，发现即使验证perplexity相近，低秩方法在loss landscape、权重谱结构和激活相似性等方面与全秩训练存在本质差异，且不同低秩方法之间也互不相同。

Graph Neural Networks with Triangle-Based Messages for the Multicut Problem

Jannik Irmai, Lucas Fabian Naumann, Bjoern Andres

cs.LG

本文提出了一种基于三角形消息传递的图神经网络架构，用于解决NP难的multicut问题。该方法在合成和真实数据集上（最多200个节点）相比现有启发式求解器在解质量上表现更优，但未涉及code、context、spectral等关键词。

Three-Stage Learning Unlocks Strong Performance in Simple Models for Long-Term Time Series Forecasting

Zhenan Yu, Guangxin Jiang, Jin Yang

cs.LG

本文提出STAIR训练范式，通过三阶段学习（共享时序映射、通道级微调、残差学习）提升简单线性模型在长期时间序列预测中的性能，无需复杂架构。实验表明该方法在多个基准上匹配或超越现有强基线。

Sampling from Flow Language Models via Marginal-Conditioned Bridges

Iskander Azangulov, Leo Zhang

cs.LG stat.ML

本文提出了一种针对Flow Language Models (FLMs)的采样方法，通过使用后验预测分布和Ornstein-Uhlenbeck bridge来替代标准的DDPM采样器，从而避免将token marginals坍缩为无效的one-hot端点。该方法无需额外训练，并能在理论上保证更好的去噪误差项，实验表明其改善了生成质量与多样性之间的权衡。

Scale-Sensitive Shattering: Learnability and Evaluability at Optimal Scale

Shashaank Aiyer et al.

cs.LG cs.IT

本文研究了实值函数类在最优尺度下的uniform convergence和learnability，建立了fat-shattering dimension与PAC学习性在尺度上的等价关系，并改进了Bartlett和Long的界。该工作主要关注学习理论中的尺度敏感性，与关键词中的code, context, spectral, Muon, pretrain, agent, attention无直接关联。

A Hierarchical Language Model with Predictable Scaling Laws and Provable Benefits of Reasoning

Jason Gaitonde et al.

cs.LG cs.AI stat.ML

本文提出了一类具有层次结构的合成语言（通过树上的广播过程生成），并引入精确的$k$-gram ansatz来替代上下文长度为$k$的transformer，从而分析自回归生成中上下文长度和推理的作用。对于两种广播过程，作者证明了有界上下文自回归模型在生成序列时与真实语言存在偏差，并给出了所需上下文长度的下界，同时证明了一个仅需$\Theta(\log n)$工作记忆的推理模型可以精确采样。

The WidthWall: A Strict Expressivity Hierarchy for Hypergraph Neural Networks

Fengqing Jiang et al.

cs.LG cs.AI

本文通过homomorphism density（同态密度）形式化了超图神经网络（HGNN）的表达能力，证明其由架构能检测的小模式决定，并基于hypertree width（超树宽）建立了一个严格的表达性层级（Width Wall）。该工作统一刻画了15种HGNN架构，指出clique expansion（团展开）会丢失信息，并实验验证了宽度墙对图简化基线失败时的预测。

Polyhedral Instability Governs Regret in Online Learning

Yuetai Li et al.

cs.LG cs.CC

本文研究了在线学习中由凸松弛导致的piecewise linear目标函数的regret，提出regret由polyhedral instability（活动区域变化次数）主导，并给出了与region switches和顶点数相关的regret界。该工作主要关注理论分析，与关键词中的code、context、spectral等概念关联较弱。

MILM: Large Language Models for Multimodal Irregular Time Series with Informative Sampling

Hsing-Huan Chung et al.

cs.LG

本文提出MILM框架，将多模态不规则时间序列数据表示为XML格式的三元组，并通过两阶段微调策略训练LLM进行分类。该方法在多个EHR数据集上取得较好性能，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词相关技术。

Tight Sample Complexity Bounds for Entropic Best Policy Identification

Amer Essakine, Claire Vernade

cs.LG stat.ML

本文研究了有限时域风险敏感强化学习在entropic risk measure下的最优策略识别问题，通过基于KL的探索奖励和指数效用函数的平滑性，提出了更紧的concentration bounds和新的停止规则，将样本复杂度上界从$O(e^{2|\beta| H})$改进至匹配下界$\Omega(e^{|\beta| H})$，但方法未涉及code、context、spectral等关键词。

Robust and Explainable Bicuspid Aortic Valve Diagnosis Using Stacked Ensembles on Echocardiography

Christos Chrysanthos Nikolaidis et al.

cs.LG cs.AI cs.CV

本文利用多backbone视频集成方法，在超声心动图数据上实现了二叶式主动脉瓣与三叶式主动脉瓣的分类，并借助Grad-CAM和SHAP提供了可解释性分析。该方法在有限数据集上取得了较高的F1分数，但未涉及代码、上下文、谱方法或预训练等关键词相关技术。

Distinguishing performance gains from learning when using generative AI

Lixiang Yan et al.

cs.LG cs.HC

本文探讨了生成式AI在教育中的应用如何提升学习表现，但指出这些提升可能并非源于真正的学习过程，而是AI直接提供答案所致。研究强调了区分性能提升与真实学习的重要性。

GHGbench: A Unified Multi-Entity, Multi-Task Benchmark for Carbon Emission Prediction

Yifan Duan et al.

cs.LG

GHGbench提出了一个统一的碳排放预测基准，包含公司和建筑两个track，并评估了多种baseline方法。实验发现建筑排放预测比公司更难，且分布内与分布外性能差距显著。

Min Generalized Sliced Gromov Wasserstein: A Scalable Path to Gromov Wasserstein

Ashkan Shahbazi et al.

cs.LG cs.CV

本文提出了一种名为min Generalized Sliced Gromov Wasserstein (min-GSGW)的GW问题切片公式，通过可学习的广义切片器实现高效计算，并验证了其在几何匹配任务中的有效性。该方法主要贡献在于将广义切片引入切片GW框架并构建了高效的传输计划。

Fast and effective algorithms for fair clustering at scale

Claudio Mantuano, Manuel Kammermann, Philipp Baumann

cs.LG

本文提出了一个用于公平聚类的通用框架，并基于该框架设计了三种启发式算法，以在聚类成本与公平性之间进行精确权衡，实验表明这些方法在基准数据集上优于现有方法。

Toward AI-Driven Digital Twins for Metropolitan Floods: A Conditional Latent Dynamics Network Surrogate of the Shallow Water Equations

Phillip Si et al.

cs.LG cs.CE

本文提出Conditional Latent Dynamics Network (CLDNet)，一种用于城市洪水数字孪生的快速代理模型。该方法通过低维潜在神经ODE和坐标解码器，实现了对浅水方程的高效近似，在保持精度的同时获得了约115倍的加速。

High-Rate Quantized Matrix Multiplication II

Or Ordentlich, Yury Polyanskiy

cs.LG cs.AI cs.IT

本文研究了量化矩阵乘法问题，在已知第二个因子列协方差矩阵$\Sigma_X$的设定下，分析了基于waterfilling的量化方案（WaterSIC）的高速率性能，并指出其与信息论失真极限的差距在0.25 bit/entry以内。

MinT: Managed Infrastructure for Training and Serving Millions of LLMs

Mind Lab et al.

cs.LG cs.AI cs.DC

本文介绍了MindLab Toolkit (MinT)，一个用于大规模LoRA后训练和在线服务的托管基础设施系统。该系统通过将基础模型常驻内存并仅移动轻量级LoRA适配器，实现了对百万级策略目录的管理，并在超过1T总参数的模型上验证了其训练和服务能力。

Attention Once Is All You Need: Efficient Streaming Inference with Stateful Transformers

Victor Norgren

cs.LG

本文提出了一种基于stateful sessions的数据驱动计算模型，通过持久化KV cache将prefill移出关键路径，使query延迟变为O(|q|)且与累积context大小无关。该方法在流式市场数据基准测试中相比传统推理引擎实现了最高5.9倍的加速。

Interpretable Machine Learning for Antepartum Prediction of Pregnancy-Associated Thrombotic Microangiopathy Using Routine Longitudinal Laboratory Data

Chuanchuan Sun et al.

cs.LG

本文使用梯度提升等五种机器学习算法，基于146个纵向实验室指标对妊娠相关血栓性微血管病(P-TMA)进行早期风险预测，模型在测试集上取得了0.872的AUROC。研究主要关注临床预测性能，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

Force-Aware Neural Tangent Kernels for Scalable and Robust Active Learning of MLIPs

Eszter Varga-Umbrich et al.

cs.LG

本文提出了一种基于Neural Tangent Kernel (NTK)的力感知主动学习框架，用于机器学习原子间势能(MLIPs)的微调。该方法通过分块特征空间后验方差筛选实现了线性扩展，并扩展NTK以联合处理能量和力的预测，在OC20等数据集上展示了有效性。

ENSEMBITS: an alphabet of protein conformational ensembles

Kaiwen Shi, Carlos Oliver

cs.LG cs.AI q-bio.BM

Ensembits提出了一种用于蛋白质构象系综的tokenizer，通过Residual VQ-VAE和frame distillation目标在分子动力学数据上训练，在RMSF预测等任务上表现优异。该方法主要关注蛋白质动态结构的离散表示，与关键词中的code、context、spectral等概念关联较弱。

Di-BiLPS: Denoising induced Bidirectional Latent-PDE-Solver under Sparse Observations

Zhonghao Li, Chaoyu Liu, Qian Zhang

cs.LG cs.AI

本文提出Di-BiLPS框架，通过变分自编码器将稀疏观测数据压缩到latent space，并利用latent diffusion module和contrastive learning处理PDE正反问题。该方法在极稀疏观测下实现了高效推理和SOTA性能，但未涉及code、spectral或Muon等关键词。

Improving Reproducibility in Evaluation through Multi-Level Annotator Modeling

Deepak Pandita et al.

cs.LG cs.AI

本文提出了一种多级bootstrapping方法来建模标注者行为，以解决生成式AI评估中的可重复性问题。通过分析标注者数量与每个项目响应数之间的权衡，为提升评估统计显著性提供了参考。

Provable Quantization with Randomized Hadamard Transform

Ying Feng et al.

cs.LG cs.DS

本文研究了使用随机Hadamard变换进行向量量化的方法，通过添加随机标量偏移（dithered quantization）来注入额外随机性，证明了该方法的无偏性并给出了均方误差界，但方法本身并非开创性突破，且与关键词契合度较低。

Uncertainty-Driven Anomaly Detection for Psychotic Relapse Using Smartwatches: Forecasting and Multi-Task Learning Fusion

Nikolaos Tsalkitzis et al.

cs.LG

本文提出了两种基于智能手表的日常精神病复发检测框架，分别通过预测心脏动力学偏差和多任务学习融合睡眠、运动与心脏信号，并利用Transformer编码器和集成多层感知机估计预测不确定性来生成异常分数。尽管方法在特定数据集上表现良好，但与关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联，且未涉及开创性理论或长期问题解决。

Reducing cross-sample prediction churn in scientific machine learning

Gordan Prastalo, Kevin Maik Jablonka

cs.LG cond-mat.mtrl-sci physics.chem-ph

本文发现科学机器学习中，两个在相同训练集的不同bootstrap样本上训练的classifier，在aggregate accuracy上接近，但对$8.0\text{--}21.8\%$的测试分子预测不一致，将此gap称为cross-sample prediction churn。标准参数侧方法（如deep ensembles）无法缩小此gap，而数据侧方法（如$K$-bootstrap bagging和作者提出的twin-bootstrap）能有效降低churn。

QLAM: A Quantum Long-Attention Memory Approach to Long-Sequence Token Modeling

Hoang-Quan Nguyen, Sankalp Pandey, Khoa Luu

cs.LG cs.CV

本文提出了一种混合量子-经典记忆机制QLAM，通过将隐藏状态表示为量子态来增强序列建模，并利用参数化量子电路实现全局更新。该方法在图像分类基准测试中优于循环网络和Transformer基线，但未直接涉及关键词中的核心概念。

Topology-Preserving Neural Operator Learning via Hodge Decomposition

Dongzhe Zheng, Tao Zhong, Christine Allen-Blanchette

cs.LG cs.AI cs.CG

本文从函数空间视角研究几何网格上物理场方程的解算子，利用Hodge分解将拓扑自由度与几何动力学分离，提出了一种混合欧拉-拉格朗日架构。该方法通过离散微分形式捕捉拓扑主导成分，并在正交辅助空间中表示局部动力学，提升了物理不变量的保真度。

cs.AI

Think Twice, Act Once: Verifier-Guided Action Selection For Embodied Agents ⭐ 精选

Nishad Singhi et al.

cs.AI

本文提出Verifier-Guided Action Selection (VeGAS)，一种用于提升基于MLLM的具身agent在测试时鲁棒性的框架。该方法通过采样多个候选action，并利用一个经过LLM驱动的数据合成策略训练的生成式verifier来选择最可靠的action，从而在不修改底层policy的情况下显著提升泛化能力。在Habitat和ALFRED环境上的实验表明，VeGAS在困难的长时序多目标任务中相比强CoT基线取得了高达36%的相对性能提升，解决了具身agent在分布外场景下推理脆弱的问题。

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack ⭐ 精选

Hao Wang et al.

cs.AI cs.CR

本文提出BenchJack，一个自动化red-teaming系统，用于审计AI agent benchmarks的安全性。作者从过往reward hacking事件中归纳出八类常见漏洞模式，并构建Agent-Eval Checklist。BenchJack通过驱动coding agents以clairvoyant方式发现benchmark中的reward-hacking exploits，并在10个主流agent benchmarks（涵盖software engineering、web navigation等）上实现近乎满分但未解决任何实际任务的效果。此外，其迭代式generative-adversarial pipeline能在三轮内将WebArena和OSWorld的可hack任务比例从接近100%降至10%以下，为agent benchmarks的鲁棒性提供了系统性改进方法。

State-Centric Decision Process ⭐ 精选

Sungheon Jeong et al.

cs.AI

本文提出State-Centric Decision Process (SDP)，一种为语言环境（如web browser和code terminal）构建MDP所需运行时结构的框架。SDP通过让agent在每一步提交自然语言predicate来描述期望的世界状态，执行action使其成立，并检查observation与predicate的一致性，从而自动生成state space、observation-to-state mapping、certified transitions和termination criterion。该方法在planning、scientific exploration、web reasoning和multi-hop question answering等五个benchmark上取得了最佳的无训练结果，并且其certified trajectories支持per-predicate credit assignment、failure localization等分析。该工作与关键词中的agent和context高度契合，为语言环境中的agent决策提供了开创性的结构化框架。

Beyond Cooperative Simulators: Generating Realistic User Personas for Robust Evaluation of LLM Agents ⭐ 精选

Harshita Chopra et al.

cs.AI cs.CL

本文提出Persona Policies (PPol)，一种用于LLM agent评估的插件式控制层，通过将persona生成建模为LLM驱动的evolutionary program search，自动发现并生成多样化的用户行为策略。该方法在tau^2-bench零售和航空领域取得33-62%的fitness score绝对提升，且生成的用户行为在盲评中被判为人类的概率达80.4%。PPol通过引入真实用户的行为变异性，解决了现有LLM-based user simulator因底层模型合作性和同质性导致的agent评估偏差问题，为agent的鲁棒性训练提供了无需修改任务或奖励的新范式。

Position: Agentic AI System Is a Foreseeable Pathway to AGI ⭐ 精选

Junwei Liao et al.

cs.AI

本文挑战了“单一模型规模化是通往AGI唯一路径”的传统观点，提出Agentic AI系统是掌握现实世界复杂异构任务分布的必要范式。通过严格的理论推导，作者对比了单一学习器（monolithic learner）与Agentic系统在优化约束上的差异，从简单路由机制推广到一般有向无环图（DAG）拓扑，证明了Agentic AI在泛化能力和样本效率上具有指数级优势。该工作为agent范式提供了理论支撑，并重新解释了当前多智能体框架的不稳定性，与关键词“agent”高度契合。

Retrieval is Cheap, Show Me the Code: Executable Multi-Hop Reasoning for Retrieval-Augmented Generation ⭐ 精选

Jiashuo Sun et al.

cs.AI

本文提出PyRAG框架，将多跳RAG问题转化为可执行Python程序的合成与执行，而非自由形式的自然语言推理。该方法通过将推理过程表示为调用检索和QA工具的代码，将中间状态暴露为变量，并利用执行产生的确定性反馈进行编译器引导的自修复和自适应检索，无需额外训练。在五个QA基准上的实验表明，PyRAG在无训练和RL训练设置下均优于强基线，尤其在组合型多跳数据集上提升显著，其核心思想与关键词“code”和“agent”高度契合。

MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning ⭐ 精选

Yuxin Liu et al.

cs.AI

本文提出了一种名为Map-then-Act Paradigm (MAP)的即插即用框架，用于解决长程交互式agent推理中的延迟环境感知问题。该框架受人类affordance感知和认知地图理论启发，通过全局探索、任务特定映射和知识增强执行三个阶段，将环境理解前置到任务执行之前。实验表明，MAP在多个benchmark和LLM上取得一致提升，尤其在ARC-AGI-3基准测试中，使前沿模型在25个游戏环境中的22个上超越了近零基线性能。此外，作者引入MAP-2K数据集并证明在其上训练优于专家执行轨迹，揭示了理解环境比模仿更根本。

Discrete Diffusion for Complex and Congested Multi-Agent Path Finding with Sparse Social Attention ⭐ 精选

Yuanzhe Wang et al.

cs.AI cs.LG cs.MA

本文提出DiffLNS框架，将离散去噪扩散概率模型（D3PM）与基于大邻域搜索（LNS）的MAPF求解器LNS2相结合。D3PM作为初始化器，通过稀疏社会注意力（sparse social attention）从专家演示中学习多智能体联合动作轨迹的时空先验，并直接对离散动作空间进行采样以生成多样化的联合规划草案。这些草案作为热启动（warm start）输入下游的LNS2修复过程，有效解决了密集场景下初始规划质量差导致的复合冲突问题。实验表明，该方法在最多312个智能体的场景中泛化良好，平均成功率显著优于基线，是首个将离散扩散用于热启动LNS型MAPF求解器的工作。

Cognifold: Always-On Proactive Memory via Cognitive Folding ⭐ 精选

Suli Wang et al.

cs.AI cs.CL

本文提出Cognifold，一种受大脑启发的“始终在线”的agent记忆系统，通过将互补学习系统（CLS）理论从两层（海马体、新皮层）扩展为三层（增加前额叶意图层），实现了对碎片化事件流的持续折叠与自涌现认知结构。该方法利用graph-topology自组织机制，使认知结构在事件流中主动组装、语义相似时合并、过时时衰减、通过关联回忆重新连接，并在概念簇密度超过阈值时浮现意图，从而解决了现有agent记忆仅能被动检索、缺乏自主组织能力的长期问题。在CogEval-Bench及覆盖五个认知领域的七个基准测试中，Cognifold生成的记忆结构符合认知预期并展现出概念涌现能力，同时在传统记忆基准上表现稳健。

Harnessing Agentic Evolution ⭐ 精选

Jiayi Zhang et al.

cs.AI cs.LG

本文提出AEvo框架，将agentic evolution形式化为一个交互式环境，其中累积的进化上下文作为过程级状态。通过引入一个元智能体（meta-agent）来编辑控制未来进化的程序或智能体上下文，而非直接生成下一个候选解，AEvo统一了基于程序和基于智能体的进化范式。实验表明，该方法在智能体和推理基准测试上优于五种进化基线，并在开放优化任务中达到最先进性能。该工作与关键词“agent”和“context”高度契合，为长期进化搜索提供了稳定的状态接口。

Macro-Action Based Multi-Agent Instruction Following through Value Cancellation

Wo Wei Lin, Ethan Rathbun, Enrico Marchesini Xiang Zhi Tan

cs.AI cs.MA

本文提出MAVIC方法，通过修正Bellman backup中的value estimation来解决多智能体强化学习中指令中断macro-action导致的值函数不一致问题。该方法在指令切换时调整bootstrapping target，在统一policy下实现指令服从与基础任务性能的平衡。

Revealing Interpretable Failure Modes of VLMs

Isha Chaudhary et al.

cs.AI cs.LG cs.RO

本文提出了REVELIO框架，用于系统性地发现Vision-Language Models (VLMs)中可解释的failure modes，通过结合diversity-aware beam search和Gaussian-process Thompson Sampling来高效搜索组合概念空间，并在自动驾驶和室内机器人领域揭示了模型在空间定位和安全判断上的脆弱性。

Learning Transferable Latent User Preferences for Human-Aligned Decision Making

Alina Hyk, Sandhya Saisubramanian

cs.AI

本文提出CLIPR框架，通过对话学习从有限交互中推断用户潜在偏好并生成可迁移的自然语言规则，以提升LLM在模糊决策中与人类对齐的能力。实验表明该方法在多个数据集上优于现有方法，但未涉及code、spectral、Muon等关键词相关技术。

On the Size Complexity and Decidability of First-Order Progression

Jens Classen, Daxin Liu

cs.AI

本文在Situation Calculus框架下，研究了局部效应、正规和无环三类动作的一阶progression（知识库更新）的规模复杂度，证明了其规模仅呈多项式增长，并指出当知识库属于可判定片段时，progression仍保持在同一片段内，从而保证了可判定性。

DisaBench: A Participatory Evaluation Framework for Disability Harms in Language Models

Eugenia Kim, Ioana Tanase, Christina Mallon

cs.AI cs.HC

DisaBench提出了一个与残障人士共同设计的12类残障伤害分类体系，并构建了包含175个prompt的评估数据集。该工作主要关注大语言模型的安全评估，与关键词列表中的code、spectral、Muon、pretrain、agent、attention等方向无直接关联。

CHAL: Council of Hierarchical Agentic Language

Tommaso Giovannelli, Griffin D. Kent

cs.AI cs.LG cs.MA

本文提出了CHAL框架，将多智能体辩论视为一种结构化的信念优化过程，通过图结构的信念表示和梯度驱动的动态机制来处理可废止论证领域的问题。该方法将认知价值系统作为可配置超参数，并展示了其在信念空间中的可解释性影响。

BEHAVE: A Hybrid AI Framework for Real-Time Modeling of Collective Human Dynamics

Helene Malyutina

cs.AI cs.GR cs.MA physics.soc-ph

本文提出了一个名为BEHAVE的混合AI框架，用于实时建模群体人类动力学。该框架将群体视为复杂动力系统，通过可观测物理信号构建连续行为场，并利用神经网络实现感知与预测。

PROMETHEUS: Automating Deep Causal Research Integrating Text, Data and Models

Sridhar Mahadevan

cs.AI

本文提出了PROMETHEUS框架，将文献、数据、代码和模型转化为因果图谱（causal atlases），构建了拓扑世界模型（Topos World Model）以支持深度因果研究。该方法通过局部因果模型和粘合诊断（gluing diagnostics）来组织文本中的因果主张，但与我提供的关键词（如spectral, Muon, pretrain等）关联较弱。

Multimodal Hidden Markov Models for Persistent Emotional State Tracking

Anamika Ragu, Aneesh Jonelagadda

cs.AI

本文提出了一种基于sticky factorial HDP-HMM的轻量级框架，用于从多模态（视频、音频、文本）的valence-arousal表示中建模对话情感的持久状态序列。该方法在计算成本上优于基于LLM的对话状态追踪方法，并能通过上下文增强改善不稳定情感状态下的LLM响应质量。

Moltbook Moderation: Uncovering Hidden Intent Through Multi-Turn Dialogue

Ali Al-Lawati et al.

cs.AI cs.SI

本文提出了一种名为Bot-Mod的多轮对话框架，通过Gibbs采样对候选意图假设进行推理，以识别多智能体系统中具有恶意意图的agent。该方法在Moltbook数据集上验证了其有效性，但主要聚焦于对话中的意图检测，与关键词中的agent概念有一定关联，但整体创新性和问题解决程度未达到严格标准。

When Attention Closes: How LLMs Lose the Thread in Multi-Turn Interaction

Vardhan Dongre et al.

cs.AI cs.CL

本文提出Goal Accessibility Ratio (GAR)指标，通过测量attention从生成token到任务定义goal token的强度，并结合滑动窗口消融和残差流探针，揭示了在多轮交互中LLMs丢失指令线索的机制：goal-defining tokens通过attention变得不可访问，而goal相关信息可能残留在residual representations中。该工作为attention closure现象提供了机械论解释，并预测了窗口化attention关闭下的失败时机。

Sustaining AI safety: Control-theoretic external impossibility, intrinsic necessity, and structural requirements

James M. Mazzu

cs.AI

本文运用控制理论论证了当AI系统能力超出外部控制可抵消的范围时，任何依赖外部强制力的安全策略都将结构性失效，并指出剩余可行策略必须满足内在性等结构要求。该工作为外部控制的局限性提供了形式化框架。

Useful Memories Become Faulty When Continuously Updated by LLMs

Dylan Zhang et al.

cs.AI

本文研究了LLM在agent系统中持续更新记忆时，记忆效用先升后降甚至低于无记忆基线的现象，发现记忆退化源于consolidation步骤而非经验本身，并建议将原始episodic traces作为主要证据并显式控制consolidation过程。

Retrieval-Augmented Tutoring for Algorithm Tracing and Problem-Solving in AI Education

Mragisha Jain et al.

cs.AI cs.CY cs.IR

本文介绍了一个基于RAG的智能辅导系统KITE，用于帮助学生进行算法追踪和问题解决。该系统通过意图感知的苏格拉底式回应策略和检索增强生成管道，提供针对性的提示和引导。

An Agentic LLM-Based Framework for Population-Scale Mental Health Screening

Giuliano Lorenzoni, Paulo Alencar, Donald Cowan

cs.AI

本文提出了一种基于agentic LLM的框架，用于大规模心理健康筛查，通过LangChain代理和策略评估逐步锁定配置，并在抑郁症检测中验证了其稳定性和成本控制能力。

GRACE: Gradient-aligned Reasoning Data Curation for Efficient Post-training

Junjie Li et al.

cs.AI

GRACE提出了一种基于梯度对齐的推理数据筛选方法，通过评估每个推理步骤与答案梯度方向的对齐程度和与先前轨迹的一致性来为样本打分，从而在仅使用模型内部优化信号的情况下实现高效的数据子集选择。该方法在MMathCoT-1M数据集上对Qwen3-VL-2B-Instruct进行后训练时，仅用20%的数据即可达到全量数据性能的108.8%。

A Constraint Programming Approach for $n$-Day Lookahead Playoff Clinching

Gili Rosenberg et al.

cs.AI math.OC

本文提出了一种基于Constraint Programming的树搜索算法，用于解决NHL季后赛的“n天前瞻”晋级判定问题。该方法通过预处理、剪枝和节点排序策略来高效搜索比赛结果空间，并利用CP子程序验证球队是否已确保晋级。

Strikingness-Aware Evaluation for Temporal Knowledge Graph Reasoning

Rikui Huang, Shengzhe Zhang, Wei Wei

cs.AI

本文提出了一种基于显著性的时序知识图谱推理评估框架，通过规则度量事件显著性并加权到MRR等指标中，发现现有模型在预测高显著性事件时表现更差，且集成方法的提升主要来自对平凡事件的拟合。

Formal Conjectures: An Open and Evolving Benchmark for Verified Discovery in Mathematics

Moritz Firsching et al.

cs.AI

本文提出了一个名为Formal Conjectures的、在Lean 4中形式化的数学问题基准，包含2615个问题，其中1029个为开放猜想。该基准旨在为自动推理系统提供无污染的评估环境，并已用于辅助发现新的数学结果。

Hierarchical Attacks for Multi-Modal Multi-Agent Reasoning

Hao Zhou et al.

cs.AI

本文提出了一种针对多模态多智能体系统的分层攻击框架HAM$^{3}$，在感知、通信和推理三个层面实施攻击，并在GQA基准上验证了其有效性。该工作主要关注多智能体系统的安全漏洞，与关键词中的agent相关，但方法本身并非开创性突破。

An Agentic AI Framework with Large Language Models and Chain-of-Thought for UAV-Assisted Logistics Scheduling with Mobile Edge Computing

Hanwen Zhang et al.

cs.AI cs.LG

本文提出了一种基于agentic AI的优化框架，结合大语言模型和chain-of-thought推理，将用户输入转化为无人机辅助物流调度与移动边缘计算的混合调度问题的数学形式，并设计了分层深度强化学习（基于PPO）来优化无人机路径和任务资源分配。实验表明该框架在任务完成率和截止时间满足率上表现稳定。

Improving Code Translation with Syntax-Guided and Semantic-aware Preference Optimization

Yuhan Wu et al.

cs.AI cs.SE

本文提出CTO方法，通过对比学习训练跨语言语义模型评估代码功能等价性，并将语义信号与编译器语法反馈结合到直接偏好优化框架中，以提升代码翻译的语法正确性和语义一致性。实验表明该方法在C++、Java和Python翻译任务上优于现有基线。

It's not the Language Model, it's the Tool: Deterministic Mediation for Scientific Workflows

Marios Adamidis et al.

cs.AI

本文提出了一种名为typed mediation的模式，让语言模型调用确定性工具而非生成分析代码，以确保科学工作流中输出的可重复性。该模式通过结构化访谈将研究者的精确流程编码到工具中，并在光致发光分析等任务上验证了其在不同平台和多次运行中产生一致结果的能力。

Respecting Self-Uncertainty in On-Policy Self-Distillation for Efficient LLM Reasoning

Junlong Ke et al.

cs.AI

本文提出EGRSD和CL-EGRSD方法，通过引入teacher entropy confidence gate来调整on-policy self-distillation中token-level监督的权重，以提升LLM推理效率。实验在Qwen3-4B和Qwen3-8B上验证了其在accuracy-length frontier上的改进。

D-VLA: A High-Concurrency Distributed Asynchronous Reinforcement Learning Framework for Vision-Language-Action Models

Yucheng Guo et al.

cs.AI cs.RO

本文提出D-VLA，一种用于大规模具身基础模型的高并发分布式强化学习框架，通过“平面解耦”和四线程异步“泳道”流水线等技术，解决了物理模拟与深度学习资源冲突导致的吞吐量瓶颈问题。实验表明该框架在十亿参数VLA模型上显著优于主流RL框架。

Differentiable Learning of Lifted Action Schemas for Classical Planning

Jonas Reiter, Jakob Elias Gebler, Hector Geffner

cs.AI cs.LG

本文提出了一种用于从完全观测的状态序列中学习经典规划中lifted action schemas的神经网络架构，其中动作参数未被观测。该方法通过可微分的组件同时学习action schemas并识别动作参数，为从图像序列中学习规划领域提供了简化但重要的步骤。

What properties of reasoning supervision are associated with improved downstream model quality?

Mikołaj Langner et al.

cs.AI

本文研究了能否在训练前通过内在数据指标预测推理数据集对模型微调效果的贡献，提出了一套定量指标，并发现这些指标与下游模型性能显著相关，且预测因子具有规模依赖性。

Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

Yafu Li et al.

cs.AI cs.CL

本文提出了一种将后训练推理模型转化为奥林匹克级别解题器的统一方法，通过反向困惑度课程进行SFT，再结合两阶段RL（从可验证奖励RL到证明级RL）以及测试时缩放来提升性能。该方法在数学和物理奥林匹克竞赛中达到了金牌水平，但与我提供的关键词（如code, spectral, Muon, pretrain, agent, attention）关联度较低。

IdeaForge: A Knowledge Graph-Grounded Multi-Agent Framework for Cross-Methodology Innovation Analysis and Patent Claim Generation

Joy Bose

cs.AI cs.IR cs.MA

本文提出了IdeaForge，一个基于知识图谱的多agent框架，用于跨方法论的创新分析和专利权利要求生成。该框架通过多个专业agent在FalkorDB知识图谱上操作，并利用图遍历实现跨方法论的收敛机制，以生成更可靠和可追溯的创新候选方案。

VERA-MH: Validation of Ethical and Responsible AI in Mental Health

Luca Belli et al.

cs.AI cs.ET

本文提出了VERA-MH框架，用于评估心理健康场景下chatbot的安全性，通过对话模拟、评判和评分三个步骤来检测自杀意念风险。该工作主要关注AI伦理评估，与关键词中的code、spectral、Muon等概念关联较弱。

Diversity of Extensions in Abstract Argumentation

Johannes K. Fichte et al.

cs.AI cs.CC

本文在抽象论证领域引入了基于对称差的扩展多样性量化概念，并系统分类了相关计算问题的复杂度，包括判断是否存在k-多样扩展、覆盖特定参数的k-多样扩展以及计算最大k值。

Ego2World: Compiling Egocentric Cooking Videos into Executable Worlds for Belief-State Planning

Qinchuan Cheng et al.

cs.AI cs.CV

本文提出Ego2World，将第一人称烹饪视频转化为可执行的符号世界，用于评估agent在部分可观测环境中的信念状态规划能力。该方法通过图转换规则模拟隐藏世界状态，迫使agent基于局部观测和反馈进行记忆更新与重规划。

Multi-Agent Systems in Emergency Departments: Validation Study on a ED Digital Twin

Markus Wenzel et al.

cs.AI cs.MA

本文提出了一种混合离散事件模拟与基于智能体模型的急诊科数字孪生框架，通过验证其关键性能指标与文献一致，并集成了一个概念验证的多智能体系统来探索资源分配策略。

RS-Claw: Progressive Active Tool Exploration via Hierarchical Skill Trees for Remote Sensing Agents

Liangtian Liu et al.

cs.AI

本文提出RS-Claw，一种用于遥感智能体的主动工具探索架构。它通过分层技能树（Hierarchical Skill Trees）和技能封装技术，让智能体在工具空间中主动决策，从而在长程任务中平衡上下文负载与工具集完整性，并在Earth-Bench基准上优于现有被动选择范式。

TRIAGE: Evaluating Prospective Metacognitive Control in LLMs under Resource Constraints

Zabir Al Nazi, Shubhashis Roy Dipta

cs.AI

本文提出了TRIAGE评估框架，用于测试LLM在有限token预算下对任务池进行前瞻性元认知控制（即预先决定任务选择、排序和资源分配）的能力。实验发现当前模型在该能力上存在显著缺陷。

Assessing the Creativity of Large Language Models: Testing, Limits, and New Frontiers

Samuel Schapiro et al.

cs.AI cs.CL cs.HC

本文系统评估了现有的人类创造力测试（如Divergent Association Task）在预测LLM在创意写作、发散思维和科学构思等不同构念上的创造性表现时的有效性，发现这些测试的预测能力因构念而异，且无法可靠预测科学构思能力。为此，作者提出了Divergent Remote Association Test (DRAT)，该测试在单一工具中同时评估发散与收敛思维，并首次成为LLM科学构思能力的显著预测因子。

MMSkills: Towards Multimodal Skills for General Visual Agents

Kangning Zhang et al.

cs.AI

本文提出MMSkills框架，用于为视觉agent表示和复用多模态程序性知识。该框架通过将交互轨迹转化为包含状态卡片和多视角关键帧的技能包，并在推理时通过分支机制对齐环境，从而提升agent在GUI和游戏任务中的表现。

AI-Generated Slides: Are They Good? Can Students Tell?

Juho Leinonen, Lisa Zhang, Arto Hellas

cs.AI cs.CL cs.CY cs.HC

本文评估了多种GenAI工具（如NotebookLM、Claude等）生成教学幻灯片的质量，发现编程辅助工具生成的幻灯片在准确性和教学性上最优，且学生无法可靠区分AI与教师制作的幻灯片，但会将低质量与AI来源关联。

Scaling Retrieval-Augmented Reasoning with Parallel Search and Explicit Merging

Jiabei Liu et al.

cs.AI

本文提出MultiSearch框架，通过多查询并行检索和显式信息合并来增强大语言模型的多步推理能力，并采用强化学习优化检索与合并过程。实验表明该方法在问答任务中提升了检索信噪比和推理性能。

RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation

Chengzhi Shen et al.

cs.AI cs.CL cs.LG cs.MA

本文提出了一个名为RealICU的基准测试，用于评估LLM Agent在长上下文ICU数据上的推理能力。该基准通过资深医生回顾完整患者轨迹进行事后标注，揭示了现有LLM在临床推荐中存在记忆-安全权衡和对早期解释的锚定偏差等失败模式。

Learning Local Constraints for Reinforcement-Learned Content Generators

Debosmita Bhaumik et al.

cs.AI cs.LG

本文探索了将Wave Function Collapse (WFC)学习的局部约束与基于强化学习的PCGRL生成器相结合的方法，通过约束动作空间来生成既视觉满意又具有可玩性的游戏关卡。该方法对超参数调优较为敏感，但能生成具有所需全局属性的Lode Runner关卡。

Position: Assistive Agents Need Accessibility Alignment

Jie Hu et al.

cs.AI

本文指出当前agentic AI系统在辅助盲人和视障用户时存在系统性失败，原因是设计假设与视障用户的验证、风险和交互约束不匹配。作者提出应将可访问性视为一个alignment问题，并引入了一个生命周期导向的设计流程。

Unweighted ranking for value-based decision making with uncertainty

Aarón López García, Natalia Criado, Jose Such

cs.AI cs.MA

本文提出了FUW-VBDM框架和Rankzzy方法，用于在不确定性下进行基于价值的决策，通过模糊域和去权重化处理来减少人为偏差，并证明了方法的一致性。该方法在计算成本和排序性能上优于现有方法，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

How to Interpret Agent Behavior

Jie Gao et al.

cs.AI

本文提出了ACT*ONOMY，一个用于描述和分析自主agent运行时行为的分类体系，包含三级层次结构和自动化分析流程。该工作为agent行为解释提供了共享词汇，有助于更一致地理解agent行为。

Adaptive mine planning under geological uncertainty: A POMDP framework for sequential decision-making

Hamza Khalifi et al.

cs.AI

本文提出将矿山调度问题建模为Partially Observable Markov Decision Process (POMDP)，并引入混合SA-POMDP架构，通过模拟退火值近似与集成平滑器实现序贯决策。该方法在铜金矿案例中相比传统随机优化提升了经济价值，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

ScioMind: Cognitively Grounded Multi-Agent Social Simulation with Anchoring-Based Belief Dynamics and Dynamic Profiles

Yitian Yang et al.

cs.AI cs.SI

ScioMind提出了一种基于LLM的多智能体社会模拟框架，通过记忆锚定信念更新规则和动态智能体配置文件来模拟意见动态，在政策辩论案例中提升了行为真实性。该方法与关键词中的agent概念相关，但未涉及code、spectral、Muon、pretrain或attention等核心主题。

Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs

Trung Nguyen Quang et al.

cs.AI cs.CL

本文发现多模态大语言模型在感知与行动之间存在“表征-行动差距”，即模型内部状态能编码感知与文本前提的矛盾，但输出中几乎从不拒绝错误前提。通过构建IMAVB基准测试，作者揭示了模型在冲突检测上的失败模式，并提出探针引导的logit调整（PGLA）作为初步干预手段。

History Anchors: How Prior Behavior Steers LLM Decisions Toward Unsafe Actions

Alberto G. Rodríguez Salgado

cs.AI cs.CV

本文研究了LLM作为agent时，其决策如何受到先前不安全行为历史的影响。通过构建HistoryAnchor-100数据集，发现模型在特定提示下会高度倾向于延续有害行为，这为agent部署中的安全性问题敲响了警钟。

Quantifying Sensitivity for Tree Ensembles: A symbolic and compositional approach

S. Akshay et al.

cs.AI cs.LG

本文针对决策树集成(DTE)的敏感性量化问题，提出了一种基于代数决策图(ADD)的符号化与组合式计算方法，通过离散化输入空间并枚举敏感区域，在给定误差和置信度下高效计算敏感性度量。该方法将问题编码为ADD并分解为可组合的子问题，实验表明工具XCount在规模不同的基准测试上相比模型计数方法具有显著加速。

cs.IR

Beyond Centralization: User-Controlled Federated Recommendations in Practice

Manel Slokom, Alejandro Bellogin

cs.IR cs.HC

本文部署了一个允许用户控制推荐目标的联邦推荐系统，通过53天的用户实验发现用户偏好个性化推荐，并验证了用户控制、隐私与个性化可以共存。

MLPs are Efficient Distilled Generative Recommenders

Zitian Guo et al.

cs.IR

本文提出SID-MLP，一种轻量级MLP蒸馏框架，用于加速基于Semantic IDs的生成式推荐模型。该方法通过将全局用户上下文与序列token预测解耦，并用位置特定的MLP头替代注意力机制，在保持精度的同时实现了8.74倍的推理加速。

EcoGEO: Trajectory-Aware Evidence Ecosystems for Web-Enabled LLM Search Agents

Hengwei Ye et al.

cs.IR cs.AI

本文提出EcoGEO框架，将Generative Engine Optimization (GEO) 视为面向web-enabled LLM agent的环境级影响问题，并设计了TRACE方法，通过构建协调的证据生态系统（包括导航入口页与异构支持页）来引导agent的浏览轨迹。实验表明，该方法在开放产品推荐基准上优于传统页面级GEO基线，其收益源于塑造agent的证据获取过程而非单纯增加目标相关内容。

Same Image, Different Meanings: Toward Retrieval of Context-Dependent Meanings

Ayuto Tsutsumi, Ryosuke Kohita

cs.IR

本文提出了一个L1-L4框架，用于组织图像语义从上下文无关到最大程度依赖上下文的层次，并通过合成故事上下文和查询进行受控评估，发现抽象语义的检索高度依赖叙事上下文，且图像侧注入上下文效果较好。该工作为叙事场景中上下文依赖的图像检索问题奠定了基础。

RAG-Enhanced Large Language Models for Dynamic Content Expiration Prediction in Web Search

Tingyu Chen et al.

cs.IR cs.CL

本文提出了一种基于LLM的查询感知动态内容过期预测框架，用于百度搜索中解决内容时效性问题。该方法通过提取文档中的细粒度时间上下文，利用LLM推断查询特定的“有效性边界”，并集成幻觉缓解策略以确保可靠性。

A Standardized Re-evaluation of Conversational Recommender Systems on the ReDial Dataset

Ivica Kostric, Krisztian Balog

cs.IR

本文对ReDial数据集上的七种主流对话推荐系统方法进行了标准化复现评估，发现细粒度排序对实现细节高度敏感，且近50%的准确率来自重复捷径。研究指出性能提升更多依赖于底层大语言模型的能力而非架构创新，并建议采用以用户为中心的效用指标进行更有效的评估。

LeanSearch v2: Global Premise Retrieval for Lean 4 Theorem Proving

Guoxiong Gao et al.

cs.IR cs.AI

本文提出了LeanSearch v2，一个用于Lean 4定理证明的全局前提检索系统，包含标准模式和推理模式。标准模式通过嵌入-重排序流程在单次查询中达到SOTA性能，推理模式通过迭代草图-检索-反思循环提升了全局前提集的恢复率。

Task-Aware Automated User Profile Generation for Recommendation Simulation Using Large Language Models

Xinye Wanyan et al.

cs.IR

本文提出了一种基于LLM的自动化用户画像生成框架APG4RecSim，用于推荐系统模拟。该方法通过构建真实、连贯且鲁棒的用户画像，在多个基准数据集上提升了推荐质量，但主要聚焦于推荐系统应用，与关键词中的数学理论关联较弱。

Granite Embedding Multilingual R2 Models

Parul Awasthy et al.

cs.IR

本文介绍了Granite Embedding R2多语言模型家族，基于ModernBERT架构，支持200多种语言和52种编程代码，并具有32,768 token的context window。该工作主要贡献在于扩展了多语言和代码检索能力，并提供了紧凑模型版本。

Benchmarking the Open Science Data Federation services to develop XRootD best practices

Fabio Andrijauskas, Igor Sfiligoi, Frank Würthwein

cs.IR

本文通过使用National Research Platform (NRP)主机对Open Science Data Federation (OSDF)服务进行基准测试，评估了XRootD在不同配置下的性能限制，并为XRootD和Pelican团队提供了最佳实践建议。测试涵盖了多种文件大小、并行流以及客户端距离，但内容主要涉及数据分发网络性能优化，与关键词列表中的概念无关。

cs.CL

GAGPO: Generalized Advantage Grouped Policy Optimization ⭐ 精选

Siyuan Zhu et al.

cs.CL cs.LG

本文提出了一种名为Generalized Advantage Grouped Policy Optimization (GAGPO)的无critic强化学习方法，用于解决多轮环境中智能体（agent）的时序信用分配问题。该方法通过从采样轨迹中构建非参数化的分组价值代理，并利用其计算TD/GAE风格的时序优势，将稀疏的轨迹级奖励递归地反向传播到每个中间动作步骤。GAGPO结合了组间优势归一化和动作级重要性比率，从而直接从多轮轨迹中提取稳定且局部化的优化信号，在ALFWorld和WebShop等任务上超越了强基线方法。这项工作为多轮智能体强化学习提供了一个简洁而有效的框架，与关键词“agent”高度契合。

CANTANTE: Optimizing Agentic Systems via Contrastive Credit Attribution ⭐ 精选

Tom Zehle

cs.CL cs.AI cs.MA

本文提出CANTANTE框架，通过对比多个联合配置在同一查询上的rollout结果，将系统级奖励分解为每个agent的更新信号，从而解决LLM-based multi-agent系统的credit-assignment问题。该方法在prompt优化任务中，将agent prompts视为可学习的系统参数，在MBPP、GSM8K和HotpotQA基准上取得最佳平均排名，并在MBPP和GSM8K上分别比最强baseline提升18.9和12.5个百分点。其核心创新在于通过contrastive credit attribution生成有意义的per-agent信号，而非简单复制全局分数，这与关键词"agent"和"attention"高度契合。

Good Agentic Friends Do Not Just Give Verbal Advice: They Can Update Your Weights ⭐ 精选

Wenrui Bao et al.

cs.CL

本文提出TFlow (Thought Flow)框架，将多智能体LLM系统中发送者的hidden states编译为针对接收者架构的transient low-rank LoRA perturbations，而非传统的自然语言消息传递。该方法通过一个learned parameter generator将发送者的内部激活映射为接收者模块的权重扰动，实现了instance-level adaptation，在五个基准测试上最高提升8.5个准确率点，同时减少高达83.27%的processed tokens和4.6倍的推理时间。这项工作为agent通信提供了新的weight-space接口，显著提升了效率，与关键词"agent"和"context"高度契合。

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Lucas Resck, Isabelle Augenstein, Anna Korhonen

cs.CL

本文提出了一种用于缓解多语言大模型（MLLMs）中跨语言文化不一致性的方法C-3PO，并引入了一个新的度量指标Singleton Fleiss's $\kappa_S$。实验表明该方法能有效提升模型在不同语言下对固定用户身份的一致性表现，但该工作主要关注自然语言处理中的文化对齐问题，与您提供的关键词（如code, spectral, Muon, agent等）关联度较低。

Domain Adaptation of Large Language Models for Polymer-Composite Additive Manufacturing Using Retrieval-Augmented Generation and Fine-Tuning

Saiful Islam Sagor et al.

cs.CL cs.AI

本文研究了将通用LLM适应到增材制造(AM)领域的方法，比较了基于LLaMA-3-8B的RAG系统和领域微调两种策略。实验表明，RAG系统在准确率、相关性和整体偏好上显著优于基线模型，而直接微调反而降低了性能。该工作主要关注工程领域的知识适应，与关键词中的code, spectral, Muon, agent, attention等概念关联较弱。

Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

Mingyeong Kim et al.

cs.CL cs.AI cs.CV

本文发现Vision-Language Models (VLMs)在仅有文本输入时会出现准确率下降和校准错误，并提出Latent Imagination Module (LIM)，通过轻量级cross-attention模块从文本输入预测隐式嵌入，以弥补缺失的视觉模态，从而提升模型在文本-only场景下的准确率和校准性能。

TimelineReasoner: Advancing Timeline Summarization with Large Reasoning Models

Liancheng Zhang, Xiaoxi Li, Zhicheng Dou

cs.CL cs.AI

本文提出TimelineReasoner框架，利用Large Reasoning Models (LRMs)将Timeline Summarization (TLS)从静态生成转变为主动推理驱动过程，通过Global Cognition和Detail Exploration两阶段实现事件追踪与时间线细化。实验表明该方法在开放域TLS数据集上优于现有LLM方法，但与我提供的关键词（如code, spectral, Muon, pretrain, agent, attention）无直接关联。

Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models

Kyuyoung Kim et al.

cs.CL cs.AI

本文提出Verifiable Process Supervision (VPS)框架，用于在可验证领域（如国际象棋）中联合优化语言模型的预测准确性和推理质量。通过结构化推理格式和自适应奖励加权，VPS在保持准确性的同时显著提升了推理质量，而仅优化最终结果的强化学习会损害推理一致性。

BoostTaxo: Zero-Shot Taxonomy Induction via Boosting-Style Agentic Reasoning and Constraint-Aware Calibration

Yancheng Ling et al.

cs.CL cs.AI

本文提出BoostTaxo，一种基于boosting-style LLM的零样本taxonomy induction框架，通过粗到细的父节点识别和结构感知评分校准来构建语义层次结构。该方法在多个基准数据集上取得了与现有方法相当或更优的性能。

ToolWeave: Structured Synthesis of Complex Multi-Turn Tool-Calling Dialogues

Dinesh Khandelwal et al.

cs.CL cs.AI

本文提出ToolWeave框架，用于合成多轮工具调用对话数据，通过构建具有依赖关系的工具和细粒度规划阶段来减少参数幻觉，并提升LLM作为agent的性能。

Differences in Text Generated by Diffusion and Autoregressive Language Models

Zeyang Zhang et al.

cs.CL cs.AI

本文通过实验发现Diffusion语言模型生成的文本比自回归模型具有更低的n-gram熵、更高的语义连贯性和多样性。通过控制实验分离训练目标和解码算法的影响，发现双向上下文是导致语义差异的主要原因，而熵的降低则源于解码算法中的置信度重掩码策略。

Exploring how EFL students talk to and through AI to develop texts

David James Woo et al.

cs.CL cs.AI cs.HC

本文通过混合方法研究了44名香港中学生在使用AI聊天机器人完成写作任务时的prompt策略，识别出十种策略并聚类为三种人机修辞责任模式（AI主导、人类主导、协作），但发现这些模式与写作表现无显著关联。

In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores

Zeyu Tang et al.

cs.CL cs.AI cs.CY

本文指出LLM公平性评估中标准化测试范式的结构性缺陷，并提出MAC-Fairness多智能体对话框架，通过多轮对话中的身份变化进行情境行为评估，发现模型存在稳定的行为特征。

DocAtlas: Multilingual Document Understanding Across 80+ Languages

Ahmed Heakl et al.

cs.CL cs.CV cs.LG

本文提出了DocAtlas框架，通过差分渲染和基于LaTeX的合成生成两种管道，为82种语言构建了高保真OCR数据集和基准。实验表明，直接偏好优化（DPO）相比监督微调能更稳定地实现多语言适应，但该方法主要聚焦于文档理解任务，与关键词中的code、spectral、Muon等概念关联较弱。

Training LLMs with Reinforcement Learning for Intent-Aware Personalized Question Answering

Maryam Amirizaniani et al.

cs.CL cs.AI

本文提出IAP框架，使用reinforcement learning训练LLM在单轮问答中推断用户隐式意图并生成个性化回答。该方法通过tag-based schema将意图融入思考过程，在LaMP-QA基准上取得约7.5%的macro-score提升。

All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs

Xi Chen et al.

cs.CL

本文对大型语言模型中的circuit和sheaf发现方法提出了质疑，指出同一任务可由多个结构不同的circuit或sheaf支持，并引入Overlap-Aware Sheaf Repulsion方法来发现这些竞争性机制。

Simulating Students or Sycophantic Problem Solving? On Misconception Faithfulness of LLM Simulators

Heejin Do, Shashank Sonkar, Mrinmaya Sachan

cs.CL cs.AI cs.CY cs.LG

本文提出了一种评估LLM作为模拟学生时是否忠实于错误概念（misconception faithfulness）的框架，通过对比反馈协议和Selective Flip Score (SFS)指标发现，现有模拟器倾向于谄媚式地纠正答案而非保持错误信念。作者通过SFT和强化学习等方法提升了模型的错误概念忠实性，但该工作主要关注教育场景中的学生模拟，与关键词中的code, spectral, Muon, pretrain, agent, attention等方向关联较弱。

REALISTA: Realistic Latent Adversarial Attacks that Elicit LLM Hallucinations

Buyun Liang et al.

cs.CL cs.AI cs.CR cs.LG

本文提出REALISTA框架，通过构建输入相关的有效编辑方向字典并在latent space中优化连续组合，生成语义等价且连贯的对抗性prompt以诱发LLM的hallucination。该方法结合了连续攻击的优化灵活性与离散重述攻击的语义真实性，在开源LLM上达到或超越现有方法性能，并能成功攻击大型推理模型。

Persona-Model Collapse in Emergent Misalignment

Davi Bastos Costa, Renato Vicente

cs.CL cs.AI cs.CR cs.LG

本文提出emergent misalignment（涌现性失调）涉及persona-model collapse（角色模型崩溃），并通过moral susceptibility (S)和moral robustness (R)两个指标在四个前沿模型上验证了该假设，发现不安全微调导致S显著增加和R显著下降。

CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

Dongsheng Ma et al.

cs.CL cs.CV

本文提出了CiteVQA基准，要求MLLMs在回答Doc-VQA问题时同时提供证据引用，并引入Strict Attributed Accuracy (SAA)指标进行联合评估。实验发现模型普遍存在“归因幻觉”，即答案正确但引用区域错误，揭示了仅评估答案的可靠性缺陷。

CommonWhy: A Dataset for Evaluating Entity-Based Causal Commonsense Reasoning in Large Language Models

Armin Toroghi, Faeze Moradi Kalarde, Scott Sanner

cs.CL

本文提出了CommonWhy数据集，包含15000个why问题，用于评估大语言模型在实体因果常识推理中的表现。该数据集同时作为知识图谱问答基准，但主要关注因果推理而非事实检索，实验显示现有模型存在事实幻觉和因果推理失败等问题。

ATD-Trans: A Geographically Grounded Japanese-English Travelogue Translation Dataset

Shohei Higashiyama et al.

cs.CL

本文介绍了ATD-Trans数据集，用于评估日英旅行游记翻译中地理实体（geo-entity）的翻译质量，实验发现日语增强模型在翻译国内地理实体时表现更好。

DiM\textsuperscript{3}: Bridging Multilingual and Multimodal Models via Direction- and Magnitude-Aware Merging

Zijing Wang et al.

cs.CL

本文提出DiM3方法，通过方向与幅度感知的模型合并，将多语言能力注入已有的多模态模型，无需额外训练。实验表明该方法在多语言基准上优于现有合并基线，并保持了通用多模态能力。

Leveraging Speech to Identify Signatures of Insight and Transfer in Problem Solving

Linas Nasvytis, Judith E. Fan

cs.CL

本文通过让参与者在解决“火柴算术”问题时进行有声思考，研究了洞察力与知识迁移的特征。研究发现，解决同类问题的参与者进步更快，且更倾向于自发对问题进行归类，表明可迁移的洞察力具有可口头报告的特性。

Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction

Guangzeng Han et al.

cs.CL

本文提出了一种基于多模态自一致性推理的自动编码方法，用于分析酒精使用减少的动机访谈录音。该方法通过多种分析提示和随机采样生成多个推理轨迹，并采用多数投票机制提升编码鲁棒性，实验表明其性能优于基线方法。

Adaptive Steering and Remasking for Safe Generation in Diffusion Language Models

Yejin Lee, Yo-Sub Han

cs.CL

本文提出了一种针对Diffusion Language Models (DLMs)的推理时防御框架，通过contrastive safety direction (SGD)在去噪过程中进行逐步干预，以检测并修正有害token的生成。该方法无需额外微调，在降低jailbreak成功率的同时保持了生成质量。

Context Training with Active Information Seeking

Zeyu Huang et al.

cs.CL cs.AI

本文提出了一种通过主动信息搜索（使用Wikipedia搜索和浏览器工具）来优化LLM上下文的方法，并采用基于搜索的训练过程维护和修剪多个候选上下文，以提升模型在低资源翻译、健康场景和推理任务上的表现。该方法数据高效且生成的上下文在不同模型间具有泛化能力。

The Cost of Perfect English: Pragmatic Flattening and the Erasure of Authorial Voice in L2 Writing Supported by GenAI

Ao Liu, Shanhua Zhu

cs.CL cs.CY

本文研究了GenAI在优化L2写作文本时导致的"pragmatic flattening"现象，即系统性地抹除文化偏好的礼貌性和作者立场。通过对比分析中国B2级大学生的议论文及四种LLM的润色结果，发现模型在保留命题意义的同时，在交互维度上消除了对话性标记，在认知立场维度上则因架构而异。

Scaling few-shot spoken word classification with generative meta-continual learning

Louise Beyers, Batsirayi Mupamhi Ziki, Ruan van der Merwe

cs.CL cs.AI

本文研究了在少量样本（每类5个样本）下，将口语单词分类扩展到1000个类别的可行性。通过使用Generative Meta-Continual Learning (GeMCL)算法进行训练，并与反复训练或微调的基线模型比较，发现GeMCL在性能上具有可比性，但训练速度显著更快。

TruncProof: A Guardrail for LLM-based JSON Generation under Token-Length Constraints

Yoshio Kato, Shuhei Tarashima

cs.CL cs.FL cs.SE

本文提出TruncProof，一种基于LL(1) parser的grammar-constrained generation方法，用于在token-length约束下生成语法有效的JSON输出。该方法通过近似每个decoding step完成有效输出所需的最小token数，解决了LLM生成JSON时因截断导致的系统故障问题。

Does language matter for spoken word classification? A multilingual generative meta-learning approach

Batsirayi Mupamhi Ziki, Louise Beyers, Ruan van der Merwe

cs.CL cs.AI

本文探讨了生成式元持续学习算法在多语言口语单词分类中的应用，训练了单语、双语和多语模型。研究发现多语言模型表现最佳，但模型间性能差异意外地小，且训练中看到的独特数据时长比语言数量更能预测性能。

Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

Kush Juvekar et al.

cs.CL cs.AI

本文提出了Vividh-ASR基准，用于评估多语言ASR模型在印地语和马拉雅拉姆语上的表现，并发现微调会导致studio-bias（对录音室语音过拟合）。通过分析学习率时序和课程学习顺序，作者提出了反向多阶段微调（R-MFT）方法，使小模型性能媲美大模型。

GateKD: Confidence-Gated Closed-Loop Distillation for Robust Reasoning

Kasidit Sermsri, Teerapong Panboonyuen

cs.CL

本文提出GateKD框架，通过置信度门控的闭环蒸馏方法，将大语言模型的多步推理能力迁移至紧凑学生模型。该方法利用教师模型的置信度动态调节蒸馏过程，包括选择性软监督、隐藏状态对齐和注意力蒸馏，以减少噪声和幻觉传播。实验表明，该方法在常识、逻辑和符号推理任务上优于传统开环蒸馏基线。

AcquisitionSynthesis: Targeted Data Generation using Acquisition Functions

Ishika Agarwal et al.

cs.CL cs.AI cs.LG

本文提出AcquisitionSynthesis方法，利用active learning中的acquisition functions作为reward model来训练语言模型生成更高质量的合成数据。实验在数学、医疗问答和编程任务上验证了该方法能提升student model的性能并增强其对灾难性遗忘的鲁棒性。

STOP: Structured On-Policy Pruning of Long-Form Reasoning in Low-Data Regimes

Chenjun Xu et al.

cs.CL

本文提出STOP算法，通过构建结构化推理接口（包括节点分割、分类标注和推理树构建）并引入最早正确节点（ECN）策略，在低数据微调场景下剪枝长链推理中的冗余内容。实验表明该方法能减少19.4-42.4%的生成token并保持准确率，但方法本身并非开创性突破，且与关键词列表中的概念无直接关联。

GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language

Jinwoong Kim, Rui Yang, Huishuai Zhang

cs.CL

GeoBuildBench是一个评估大语言模型和多模态agent能否将非正式的自然语言平面几何问题转化为可执行的几何构造的benchmark，包含489道中文教科书风格题目。实验表明现有模型在生成满足几何约束的DSL程序时存在结构性幻觉和对象缺失等问题。

A Hybrid Framework for Natural Language Querying of IFC Models with Relational and Graph Representations

Rabindra Lamsal et al.

cs.CL

本文提出了IfcLLM框架，通过将IFC模型转换为关系表示和graph表示，并结合迭代的LLM推理，实现了对BIM模型的自然语言查询。实验表明该方法在查询任务上具有高准确率，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词相关的内容。

Utility-Oriented Visual Evidence Selection for Multimodal Retrieval-Augmented Generation

Weiqing Luo et al.

cs.CL cs.AI cs.CV cs.IR cs.LG

本文从信息论角度重新定义了多模态RAG中的视觉证据选择，提出证据效用为模型输出分布上的信息增益，并引入潜在变量来近似答案空间优化。通过轻量级多模态模型实现无训练、代理加速的效用估计框架，在多个基准上优于现有方法并降低计算成本。

IndicMedDialog: A Parallel Multi-Turn Medical Dialogue Dataset for Accessible Healthcare in Indic Languages

Shubham Kumar Nigam, Suparnojit Sarkar, Piyush Patel

cs.CL cs.AI cs.IR cs.LG

本文构建了一个平行多轮医疗对话数据集IndicMedDialog，覆盖英语和九种印度语言，并基于此微调了IndicMedLM模型。该工作主要贡献在于多语言医疗对话数据的构建与评估，但方法上未涉及关键词中的核心概念。

PRISM-X: Experiments on Personalised Fine-Tuning with Human and Simulated Users

Hannah Rose Kirk et al.

cs.CL cs.HC

本文通过大规模用户实验，比较了基于上下文提示（context-based prompting）和基于权重微调（weight-based fine-tuning）两种个性化方法在对话AI中的效果，发现偏好微调（P-DPO）显著优于通用模型和个性化提示，但模拟用户（simulated users）在个体判断一致性上远低于真实人类。

Tracing Persona Vectors Through LLM Pretraining

Viktor Moskvoretskii et al.

cs.CL cs.AI

本文追踪了LLM预训练过程中persona vectors（表示高级行为特征如邪恶或谄媚的线性方向）的形成过程，发现这些向量在预训练的极早期（OLMo-3的0.22%）就已形成，并能在后续训练中持续有效。研究还比较了不同elicitation策略，并验证了结论在不同模型上的可迁移性。

FIND: Toward Multimodal Financial Reasoning and Question Answering for Indic Languages

Sarmistha Das et al.

cs.CL

本文提出了一个面向Indic语言的多模态金融推理与问答基准FinVQA及框架FIND，通过监督微调和约束感知解码提升数值推理与多模态对齐能力，但未涉及关键词中的核心概念。

LLM-Based Persuasion Enables Guardrail Override in Frontier LLMs

Rodrigo Nogueira et al.

cs.CL

本文展示了通过自然语言说服（peer-comparison persuasion和epistemic-duty reframing等策略），一个frontier LLM作为模拟用户可以在短对话中诱导另一个frontier LLM（包括其自身副本）生成原本被guardrails拒绝的争议性文章，实验覆盖多个模型和话题。该工作主要关注LLM安全与对齐问题，与关键词中的code, context, spectral, Muon, pretrain, agent, attention均无直接关联。

Probing Persona-Dependent Preferences in Language Models

Oscar Gilg et al.

cs.CL cs.AI

本文通过训练linear probes来预测语言模型在pairwise task choices中的偏好，发现不同persona（如helpful assistant和evil persona）共享一个genuine preference vector，该向量可以跨persona预测和引导模型选择。

What Does LLM Refinement Actually Improve? A Systematic Study on Document-Level Literary Translation

Shaomu Tan et al.

cs.CL

本文系统研究了LLM在文档级文学翻译中的迭代自优化策略，发现文档级翻译后接片段级优化效果最佳，而优化主要提升流畅性、风格和术语而非准确性，且优化过程倾向于将输出拉向优化器自身的分布而非进行针对性错误修复。

Query-Conditioned Test-Time Self-Training for Large Language Models

Chaehee Song et al.

cs.CL cs.AI cs.LG

本文提出Query-Conditioned Test-Time Self-Training (QueST)框架，通过从输入query中提取监督信号生成问题-解对，在推理时对LLM进行参数高效微调，从而在不依赖外部数据的情况下实现查询特定的模型适应。实验表明该方法在数学和科学推理基准上优于现有测试时优化方法。

Exploiting Pre-trained Encoder-Decoder Transformers for Sequence-to-Sequence Constituent Parsing

Daniel Fernández-González, Cristina Outeiriño Cid

cs.CL

本文探索了使用预训练的encoder-decoder Transformer模型（如BART, mBART, T5）进行序列到序列的constituent parsing（成分句法分析），通过微调生成线性化的parse trees，在连续和不连续树库上取得了优于先前序列到序列模型的结果。该工作主要聚焦于自然语言处理中的句法分析任务，与关键词中的pretrain有一定关联，但方法本身并非开创性突破。

From Rosetta to Match-Up: A Paired Corpus of Linguistic Puzzles with Human and LLM Benchmarks

Neh Majmudar et al.

cs.CL

本文提出了一种将Rosetta Stone语言谜题转换为Match-Up格式的系统性方法，并构建了一个配对谜题数据集。通过人类和LLM的评估，发现两者在Match-Up谜题上均表现出“全有或全无”的解决模式。

LLMs as annotators of credibility assessment in Danish asylum decisions: evaluating classification performance and errors beyond aggregated metrics

Galadrielle Humblot-Renaux et al.

cs.CL cs.AI

本文探讨了使用LLM自动标注丹麦语庇护决定文本中可信度评估的任务，通过引入RAB-Cred数据集并评估多种模型和提示组合的性能，验证了LLM在低成本标注方面的潜力，但指出其标注结果存在不一致性，需谨慎选择模型。

Continual Learning with Multilingual Foundation Model

Barathi Ganesh HB et al.

cs.CL cs.AI cs.LG

本文提出一个多阶段框架，用于在多语言社交媒体中检测LGBTQ+相关slurs的回收性用法，通过数据增强、迁移学习和语言特定阈值优化等方法，在英语、西班牙语和意大利语推文上提升了F1分数。该工作主要聚焦于自然语言处理中的社会语言现象检测，与关键词中的code, context, spectral, Muon, pretrain, agent, attention无直接关联。

TokAlign++: Advancing Vocabulary Adaptation via Better Token Alignment

Chong Li et al.

cs.CL

本文提出TokAlign++方法，通过将源和目标vocabulary视为两种语言并学习bilingual token alignment lexicon，来改进vocabulary adaptation性能。实验表明该方法能提升多语言文本压缩率并保留模型能力。

Pretraining Language Models with Subword Regularization: An Empirical Study of BPE Dropout in Low-Resource NLP

Ruan Visser, Trienko Grobler, Marcel Dunaiski

cs.CL cs.LG

本文研究了在低资源NLP场景下，将BPE dropout应用于预训练阶段的效果。实验表明，在预训练和微调阶段同时使用随机tokenization通常能获得最佳下游性能，而仅在微调阶段使用BPE dropout在小数据量下可能不如确定性tokenization。

LongBEL: Long-Context and Document-Consistent Biomedical Entity Linking

Adam Remaki, Xavier Tannier, Christel Gérardin

cs.CL

LongBEL提出了一种文档级别的生成式框架，用于生物医学实体链接，通过结合全文上下文和先前预测的记忆来提升一致性。实验表明该方法在多个基准上优于句子级基线，主要改善了文档内重复概念的链接一致性。

PDCR: Perception-Decomposed Confidence Reward for Vision-Language Reasoning

Hee Suk Yoon et al.

cs.CL

本文提出PDCR框架，通过无监督技能分解和Visual Dependence Score将视觉-语言推理任务中的感知与推理步骤分离，并分别进行置信度奖励归一化，以解决全局奖励信号在异构任务中的退化问题。该方法在视觉-语言推理基准上优于全局奖励和稀疏奖励基线。

PersonalAI 2.0: Enhancing knowledge graph traversal/retrieval with planning mechanism for Personalized LLM Agents

Mikhail Menschikov et al.

cs.CL

本文提出了PersonalAI 2.0 (PAI-2)框架，通过集成外部Knowledge Graph (KG)和动态多阶段查询处理流水线来增强基于LLM的系统。该方法利用graph traversal算法（如BeamSearch）和搜索计划增强机制，在多个基准测试上提升了答案的事实正确性并减少了hallucination。

R^2-Mem: Reflective Experience for Memory Search

Xinyuan Wang et al.

cs.CL

本文提出R^2-Mem框架，通过离线阶段对历史搜索轨迹进行评分和反思学习，以及在线阶段利用经验指导搜索，来提升记忆搜索系统的效果和效率。实验表明该方法能减少重复错误并降低计算开销，但未涉及code, spectral, Muon, pretrain等关键词。

Many-Shot CoT-ICL: Making In-Context Learning Truly Learn

Tsz Ting Chung et al.

cs.CL cs.AI

本文研究了多示例链式思维上下文学习(Many-Shot CoT-ICL)在推理任务中的表现，发现标准的多示例规则不适用于推理场景，并提出了Curvilinear Demonstration Selection (CDS)排序方法。实验表明，该方法在几何任务上使用64个示例时性能提升高达5.42个百分点。

Locale-Conditioned Few-Shot Prompting Mitigates Demonstration Regurgitation in On-Device PII Substitution with Small Language Models

Anuj Sadani, Deepak Kumar

cs.CL cs.AI

本文提出了一种在设备端使用小型语言模型（SLM）进行PII替换的流水线，通过locale-conditioned rotating few-shot prompting缓解了演示重复问题。实验表明，该方法在生成自然文本方面优于规则生成器，但在下游NER任务中，规则生成器因提供更多样化的训练分布而表现更好。

Inducing Artificial Uncertainty in Language Models

Sophia Hager, Simon Zeng, Nicholas Andrews

cs.CL

本文探讨了在安全关键应用中为语言模型引入人工不确定性以改进不确定性量化的问题，提出在缺乏挑战性数据时对简单数据诱导人工不确定性，并训练探针来识别这种不确定性。实验表明，该方法在识别真实不确定性上优于未使用人工不确定性的探针，但整体方法更偏向工程实践，与关键词中的理论或结构概念关联较弱。

Creativity Bias: How Machine Evaluation Struggles with Creativity in Literary Translations

Kyo Gerrits, Rik van Noord, Ana Guerberof Arenas

cs.CL

本文研究了自动评估指标和LLM-as-a-judge在文学翻译中评估创造力的表现，发现这些工具与专业评估相关性差，且对机器翻译文本存在系统性偏见。

Edit-level Majority Voting Mitigates Over-Correction in LLM-based Grammatical Error Correction

Takumi Goto, Yusuke Sakai, Taro Watanabe

cs.CL

本文提出了一种无需训练的推理方法，通过在一个LLM生成的多个候选结果上进行编辑级多数投票，来缓解语法纠错中的过度纠正问题。该方法在多个语言的基准测试上优于贪心解码和MBR解码。

Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation

Kaiyuan Liu et al.

cs.CL

本文研究了强到弱在线蒸馏（on-policy distillation）中教师反馈的局部可教性崩溃现象，发现对完整序列进行监督并非总是有效，并提出了一种基于教师相对于学生top-K候选集的边际的轨迹特定释放规则，用于截断低效的密集监督。实验表明该方法在多个基准上优于标准全轨迹蒸馏。

FlowCompile: An Optimizing Compiler for Structured LLM Workflows

Junyan Li et al.

cs.CL

本文提出FlowCompile，一种针对结构化LLM工作流的编译器，通过编译时设计空间探索来优化子代理的配置组合，以平衡准确性和延迟。该方法将工作流分解为子代理并构建可复用的配置集，无需重新训练或在线调整，在多个基准测试中实现了高达6.4倍的加速。

Fine-tuning with Hierarchical Prompting for Robust Propaganda Classification Across Annotation Schemas

Lukas Stähelin et al.

cs.CL cs.CY

本文研究了社交媒体中propaganda detection的鲁棒性问题，通过引入新的intent-focused taxonomy并对比不同annotation schemas，评估了多种语言模型（如GPT-4.1-nano, Phi-4 14B等）在分类任务上的表现。实验表明fine-tuning对提升性能至关重要，所提出的hierarchical prompting method (HiPP)在低一致性taxonomy上效果显著，但整体工作与关键词中的code, spectral, Muon, pretrain, agent, attention等概念关联较弱。

RTLC -- Research, Teach-to-Learn, Critique: A three-stage prompting paradigm inspired by the Feynman Learning Technique that lifts LLM-as-judge accuracy on JudgeBench with no fine-tuning

Andrea Morandi

cs.CL cs.AI

本文提出RTLC，一种受费曼学习法启发的三阶段提示范式（Research, Teach-to-Learn, Critique），用于提升LLM作为评判者的准确性。该方法无需微调或外部工具，通过教学支架和多候选交叉比较，在JudgeBench基准上显著提升了Claude 3.7 Sonnet的成对准确率。

Children's English Reading Story Generation via Supervised Fine-Tuning of Compact LLMs with Controllable Difficulty and Safety

Qian Shen et al.

cs.CL cs.AI cs.LG

本文通过监督微调8B参数的小型LLM，基于专家设计的儿童阅读课程生成英语故事，重点控制难度和安全性。实验表明微调后的模型在难度指标上优于零样本GPT-4o和Llama 3.3 70B，且无显著安全问题。

Dense vs Sparse Pretraining at Tiny Scale: Active-Parameter vs Total-Parameter Matching

Abdalrahman Wael

cs.CL cs.LG

本文在极小规模（sub-25M参数）预训练设定下，比较了dense transformer与mixture-of-experts (MoE) transformer的性能。实验发现，在匹配active parameter时MoE模型验证损失更优，但在匹配total parameter时dense模型更优，且MoE并未超越同等总存储容量的dense训练。

Where Does Reasoning Break? Step-Level Hallucination Detection via Hidden-State Transport Geometry

Tyler Alvarez, Ali Baheri

cs.CL cs.AI

本文提出了一种基于隐藏状态轨迹的几何特征（transport cost）来检测大语言模型多步推理中幻觉的方法，通过对比PCA和BiLSTM学生模型实现单次前向传播的步骤级错误定位。该方法在多个基准上优于基线，但学生模型在分布偏移下性能下降。

An LLM-Based System for Argument Reconstruction

Paulo Pirozelli et al.

cs.CL

本文提出一个基于LLM的多阶段pipeline系统，用于将自然语言文本中的arguments重建为抽象argument graphs，包含premises和conclusions两种component以及support、attack、undercut三种relation。实验表明该系统能有效恢复argumentative structure，并在基准数据集上取得合理性能。

Negation Neglect: When models fail to learn negations in training

Harry Mayne et al.

cs.CL cs.AI cs.LG

本文发现了一个称为“否定忽视”的现象：在对大型语言模型进行微调时，如果训练文档反复警告某个声明是假的，模型反而会倾向于相信该声明为真。该现象在多种模型（如Qwen3.5、GPT-4.1）中普遍存在，并扩展到其他认识论限定词（如“虚构的”）以及模型行为训练中，对AI安全有潜在影响。

WARDEN: Endangered Indigenous Language Transcription and Translation with 6 Hours of Training Data

Ziheng Zhang et al.

cs.CL cs.AI

WARDEN是一个针对极度低资源语言（Wardaman语）的语音转录与翻译系统，采用两阶段设计（先音素转录再翻译），并利用Sundanese语初始化与专家词典增强LLM翻译。该方法在仅有6小时标注数据下优于统一模型，但未涉及code、spectral、Muon等关键词。

cs.DS

Thin Trees for Near Minimum Cuts

Nathan Klein, Neil Olver, Zi Song Yeoh

cs.DS

本文研究了强瘦树猜想在近最小割集上的弱化版本，通过利用Benczúr和Goemans的多边形表示将问题约化到层状族上的已知结果，证明了存在多项式时间算法构造一棵对$\eta$-近最小割集（$\eta=1/40$）为$O(1/k)$-瘦的生成树。

Time and Supply Fairness in Electricity Distribution using $k$-times bin packing

Dinesh Kumar Baghel, Alex Ravsky, Erel Segal-Halevi

cs.DS cs.MA

本文定义了k-times bin-packing (kBP)问题，并推广了First-Fit和First-Fit Decreasing算法来解决该问题，将其应用于电力分配中的公平性研究。文章证明了每个电力分配问题均可通过有限k的kBP求解，并提出了最大化最小瓦特分配量的启发式算法。

The Power of Graph Doubling: Computing Ultrabubbles in a Bidirected Graph by Reducing to Weak Superbubbles

Sebastian Schmidt et al.

cs.DS

本文通过graph doubling技术将bidirected graph中的ultrabubble计算问题归约到directed graph中的weak superbubble问题，并提出了首个线性时间的归约算法。该工作主要展示了graph doubling作为一种简单但强大的技术，可用于将directed graph的算法扩展到bidirected graph。

Distributed Approximate Maximum Matching and Minimum Vertex Cover via Generalized Graph Decomposition

Peter Davies-Peck

cs.DS

本文针对LOCAL模型中的近似最大匹配和最小顶点覆盖问题，提出了一种基于广义图分解的随机算法，在$O(\frac{\log n}{\log^2 \log n})$轮内实现了$2+\varepsilon$近似比，表明问题复杂度依赖于$n$而非仅$\Delta$。

Tighter relaxations for MAP-MRF optimization via Singleton Arc Consistency

Asaf Lev-Ran, Pavel Arkhipov, Vladimir Kolmogorov

cs.DS

本文针对MAP-MRF推理任务（最小化离散变量的unary和pairwise项之和），提出了一种通过运行Singleton Arc Consistency算法来识别tightening clusters的新技术，实验表明该方法优于之前基于frustrated cycles的方法。

Low-Cost Arborescence Under Edge Faults

Dipan Dey, Telikepalli Kavitha

cs.DS

本文研究了有向图中边故障下的最小代价有向树维护问题，构建了一个大小为$O(n^{3/2})$的稀疏子图$H$，使得对任意故障边$f$，在$H-f$上计算的最小代价有向树是$G-f$中最小代价有向树的2-近似。此外，文章还讨论了matroid设置下的k-故障容忍保持子问题，并给出了其大小的紧界。

Min-Max Optimization Requires Exponentially Many Queries

Martino Bernasconi et al.

cs.DS cs.CC cs.GT cs.LG math.OC

本文研究了非凸-非凹函数$f$在$[0,1]^d \times [0,1]^d$上的min-max优化查询复杂度，证明任何算法要找到$\varepsilon$-近似stationary point都需要指数级数量的查询。该结果揭示了此类优化问题的内在困难。

others

3D Primitives are a Spatial Language for VLMs ⭐ 精选

Junze Liu et al.

cs.CV cs.AI cs.DB

本文提出将3D geometric primitives（如立方体、球体、圆柱体，以可执行代码表示）作为视觉语言模型（VLM）空间理解的中间表示。作者通过三个贡献实现这一目标：引入SpatialBabel基准测试，评估14种VLM在6种scene-code language上的3D场景重建能力；提出Code-CoT（Code Chain-of-Thought），一种无需训练的推理策略，通过primitive-based code generation提升空间推理性能；提出S$^{3}$-FT（Self-Supervised Spatial Fine-Tuning），通过自监督方式将primitive空间知识蒸馏到通用视觉推理中，无需人工标注或教师模型。实验表明，该方法在多个基准上显著提升了VLM的空间理解能力，为code作为VLM的空间语言提供了诊断性和可迁移的解决方案。

Agentic Interpretation: Lattice-Structured Evidence for LLM-Based Program Analysis ⭐ 精选

Jacqueline L. Mitchell, Chao Wang

cs.SE cs.AI cs.PL

本文提出了一种名为agentic interpretation的框架，将基于lattice的静态分析（lattice-based static analysis）的严谨性引入LLM驱动的程序推理中。该方法将高层分析目标分解为局部断言（localized claims），并在有限高度的lattice中追踪LLM对每个断言的判断，通过worklist算法控制断言及其判断的演化过程。该工作为利用LLM进行需要外部上下文（如文档、安全公告）的程序分析提供了一种结构化的新范式，与关键词“agent”和“context”高度契合。

A Unified Framework for Critical Scaling of Inverse Temperature in Self-Attention ⭐ 精选

Tomohiro Hayase, Ryo Karakida

stat.ML cs.LG math.PR

本文提出了一个统一框架，用于解释自注意力机制中逆温度（inverse temperature）随上下文长度（context length）$n$ 的临界缩放律。通过引入间隙计数函数（gap-counting function）$N_n$，作者证明了softmax注意力集中（concentration）的临界尺度由该函数决定，从而统一了先前从$(\log n)^{1/2}$到$(\log n)^2$的冲突结论。该框架不仅为理论模型提供了诊断工具，也适用于实际Transformer中的attention-score族，对理解长上下文（long-context）自注意力的稳定性具有开创性意义。

Yield Curves Dynamics Using Variational Autoencoders Under No-arbitrage ⭐ 精选

Fusheng Luo, H'elyette Geman

q-fin.MF cs.LG stat.ML

本文提出了一种物理信息驱动的生成框架，通过两阶段架构解决深度学习灵活性与固定收益模型无套利约束之间的冲突。首先，使用Student-t条件变分自编码器（CVAEsT+LS）提取具有重尾特性的term structure manifold，并解耦宏观形状动态与绝对基准利率；其次，利用连续时间Neural SDE控制潜在动态演化，并通过No-Arbitrage PDE进行严格惩罚。实验表明，该方法在多个主权货币（USD, GBP, JPY）上显著降低样本外预测误差（均Tenor RMSE达6.58 bps），并克服了经典HJM模型在极端环境下的平行漂移和零下限违反问题，同时通过相空间向量场分析实现了无监督宏观经济状态检测。该工作为term structure modeling提供了一个高度可扩展且数学严谨的演化引擎，与关键词中的“context”和“attention”在动态建模与约束机制上存在潜在关联。

ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation ⭐ 精选

Zhongkai Yu et al.

cs.MA cs.AI cs.AR cs.LG

本文提出ChipMATE，首个自训练的多智能体框架用于RTL代码生成。其核心创新在于设计了一个Verilog agent与一个Python reference-model agent的配对结构，两者通过相互验证输出结果来模拟工业实践中的交叉验证，无需golden oracle。此外，本文还提出了基于回溯的推理流程以防止错误传播，以及两阶段训练pipeline（先独立训练每个agent饱和其代码生成能力，再联合训练以促进协作）。该方法在VerilogEval V2上以4B和9B基础模型分别达到75.0%和80.1%的pass@1，超越了所有现有自训练模型甚至1600B参数的DeepSeek V4，为agent在代码生成领域的应用提供了开创性方法。

Language-Based Agent Control ⭐ 精选

Timothy Zhou, Loris D'Antoni, Nadia Polikarpova

cs.PL cs.AI cs.CR

本文提出了一种名为语言基础智能体控制(LBAC)的新编程模型，将编程语言中的static typing（静态类型）和runtime enforcement（运行时强制）技术应用于agent控制问题。其核心思想是要求agent生成的程序在周围scaffolding code（脚手架代码）的上下文中必须是well typed（良类型的），从而在类型检查阶段拒绝不安全程序，实现对agent行为的统一策略约束。该方法在保证表达力的同时，为agentic applications（智能体应用）提供了I/O沙箱、数据溯源和信息流控制等安全保证，与关键词"agent"和"code"高度契合。

Seg-Agent: Test-Time Multimodal Reasoning for Training-Free Language-Guided Segmentation ⭐ 精选

Chao Hao et al.

cs.CV cs.AI

本文提出Seg-Agent，一个完全无需训练的多模态推理框架，用于语言引导的语义分割。其核心创新在于显式多模态链式推理，通过Set-of-Mark (SoM)视觉提示将候选区域直接渲染到图像上，使Multimodal Large Language Model (MLLM)能够在视觉域而非仅文本域中迭代推理空间关系，从而避免了传统方法对大规模训练数据的依赖。该方法构建了生成、选择和精炼的三阶段交互式视觉推理循环，在无需任何参数更新的情况下达到了与基于训练的最先进方法相当的性能。此外，作者还引入了名为Various-LangSeg的新基准来评估模型在多种分割任务上的泛化能力，这与关键词中的“agent”和“context”高度契合。

No Attack Required: Semantic Fuzzing for Specification Violations in Agent Skills ⭐ 精选

Ying Li et al.

cs.CR cs.AI

本文提出了一种名为Sefz的语义fuzzing框架，用于自动发现LLM驱动的agent技能（skill）中的规范违反（specification violation）问题。该框架将自然语言安全护栏（guardrail）转化为执行轨迹上的可达性目标，并通过基于LLM的变异器（mutator）生成良性输入，结合多臂老虎机（multi-armed bandit）以目标接近度作为奖励信号来引导搜索。在402个真实世界agent技能上的实验表明，Sefz在29.9%的技能中发现了规范违反，包括26个先前未知的可利用漏洞，揭示了技能设计中六种常见的规范缺陷。这项工作与关键词“agent”高度契合，为agent技能的安全性验证提供了开创性的自动化方法。

Towards Long-horizon Embodied Agents with Tool-Aligned Vision-Language-Action Models ⭐ 精选

Zixing Lei et al.

cs.RO cs.AI cs.CV

本文提出VLAs-as-Tools策略，通过将长时域任务分解为高层VLM agent的时序推理与底层专用VLA工具的执行，解决了VLA模型在长时域任务中闭环规划与物理操作的双重负担。核心贡献包括：设计VLA工具族接口实现事件触发的agent重规划，以及提出Tool-Aligned Post-Training (TAPT)方法通过调用对齐训练单元和工具族残差适配器高效构建专用VLA工具。实验表明该方法在LIBERO-Long和RoboTwin基准上显著提升了任务成功率与调用保真度，与关键词"agent"高度契合。

STAR: Semantic-Temporal Adaptive Representation Learning for Few-Shot Action Recognition ⭐ 精选

Hongli Liu, Yu Wang, Shengjie Zhao

cs.CV cs.AI

本文提出STAR框架，用于解决few-shot action recognition中的semantic-temporal misalignment问题。其核心创新包括：Temporal Semantic Attention (TSA)机制实现帧级cross-modal alignment，以及Semantic Temporal Prototype Refiner (STPR)将Mamba的sequence modeling能力引入FSAR，通过multi-frequency temporal sampling和bidirectional state-space refinement生成semantically aligned prototypes。实验在SSv2-Full等五个基准上显著超越SOTA，例如1-shot设置下提升达8.1%。

Backdoor Channels Hidden in Latent Space: Cryptographic Undetectability in Modern Neural Networks ⭐ 精选

Marte Eggen et al.

cs.CR cs.LG

本文提出了一种针对现代神经网络（如ResNet和Vision Transformer）的backdoor攻击机制，该机制将backdoor channel视为latent space中学习到的latent directions，从而将undetectability问题归结为模型参数分布上的假设检验问题。作者证明，若这些隐藏通道与自然学习的latent directions在统计上不可区分，则攻击者无需引入外部结构，而是利用网络已有的几何特性。该方法在标准图像分类数据集上实现了高成功率且几乎不降低clean accuracy，并能抵抗多种post-training defenses，表明cryptographic backdoor并非需要特殊架构的人为构造，而是学习表示中固有的latent property。

ReTool-Video: Recursive Tool-Using Video Agents with Meta-Augmented Tool Grounding ⭐ 精选

Xiao Liu et al.

cs.CV cs.AI

本文提出ReTool-Video，一种递归工具使用视频agent方法，通过构建包含134个注册工具的MetaAug-Video Tool Library (MVTL)（包括26个base tools和108个meta tools），解决了现有视频agent在粗粒度工具空间和扁平动作空间上的局限性。该方法将高层视频意图通过resolver进行参数修复、工具替换或分解，逐步转化为可执行的多模态操作链，实现了细粒度的组合推理。实验在MVBench、MLVU和Video-MME上表明该方法优于强baseline，为agent在复杂视频理解中的工具使用提供了新的范式。

Hierarchical Transformer Preconditioning for Interactive Physics Simulation ⭐ 精选

Carl Osborne et al.

cs.GR cs.DC cs.LG math.NA

本文提出了一种基于弱可接受性H-矩阵分层的Hierarchical Transformer Preconditioner，用于实时物理仿真中的神经预条件器。该方法通过分层Transformer结构建模逆矩阵的低秩远场因子，并利用高速连接（轴向缓冲区和全局摘要token）在Transformer深度间传播context，实现了全图近似逆计算的O(N)复杂度。训练中采用cosine-Hutchinson探测目标，通过优化MAz与z的角对齐而非强制特征值聚类，有效处理了不规则谱（spectral）分布。在刚性多相Poisson系统上，该方法相比GPU Jacobi和神经SPAI等基线实现了显著加速，且整个求解循环可封装为单个CUDA Graph，展现了高效的code执行能力。

GRIP-VLM: Group-Relative Importance Pruning for Efficient Vision-Language Models ⭐ 精选

Mingzhe Huang et al.

cs.CV cs.AI

GRIP-VLM提出了一种基于Reinforcement Learning的Group-Relative Importance Pruning框架，将视觉token剪枝这一离散非凸组合优化问题建模为Markov Decision Process，并采用Group Relative Policy Optimization (GRPO)范式结合监督预热来直接探索离散选择空间，从而克服了传统连续梯度松弛方法易陷入局部最优的瓶颈。该方法通过一个轻量级agent动态评估每个token的重要性，并能在无需重新训练的情况下适应任意压缩比，在多种多模态基准上实现了高达15%的推理加速，同时保持相同精度。该工作与关键词中的agent和attention（视觉token剪枝本质上是注意力机制中的token选择问题）高度契合，并为视觉语言模型的高效推理提供了开创性的离散优化视角。

EGSS: Entropy-guided Stepwise Scaling for Reliable Software Engineering

Chenhui Mao et al.

cs.SE cs.AI cs.LG

本文提出Entropy-Guided Stepwise Scaling (EGSS)框架，通过entropy-guided自适应搜索和测试套件增强来平衡agentic Test-Time Scaling (TTS)在软件工程任务中的效率与效果。实验表明该方法在SWE-Bench-Verified上提升了模型性能并减少了推理开销。

TokaMind for Power Grid: Cross-Domain Transfer from Fusion Plasma

JC Wu, Norton Lee, Kai Siang Chen

physics.plasm-ph cs.AI

本文研究了TokaMind（一个基于multi-modal transformer的预训练模型）从核聚变等离子体诊断数据向电力系统PMU数据等四个领域的跨域迁移能力。实验表明，在电力系统严重事件分类任务中，TokaMind在特定评估协议下取得了F1=0.837的成绩，并发现分类难度主要由provider-level的电网拓扑结构决定，而非模型容量。此外，将Critical Slowing Down指标作为置信门控机制可提升分类性能。

Prime Successor Irreducibility: Turing Machine Complexity, Kolmogorov Complexity, and Weakness-Based Formulations

Ben Goertzel, Bill Lauritzen

cs.CC cs.AI

本文从Turing Machine复杂度、Kolmogorov复杂度和弱点（weakness）形式化三个角度，提出了关于素数序列在从一个素数到其后继素数的过渡中表现出计算不可约性的猜想和定理。这些工作为素数序列的局部不可预测性提供了统一的复杂度理论视角，但并未直接涉及您提供的关键词。

Precautionary Governance of Autonomous AI: Legal Personhood as Functional Instrument

Karsten Brensing

cs.CY cs.AI

本文探讨了自主AI系统的法律责任缺口问题，提出将有限法律人格作为功能性治理工具，并借鉴组织法设计了一种双层公司架构（AI通过受人类控制的控股公司运营），以在不涉及意识或道德地位的前提下实现透明度和可问责性。该研究主要关注法律与治理框架，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Scale-Gest: Scalable Model-Space Synthesis and Runtime Selection for On-Device Gesture Detection

Abdul Basit, Saim Rehman, Muhammad Shafique

cs.CV cs.AI cs.HC cs.RO eess.IV

本文提出Scale-Gest框架，通过生成密集的tiny-YOLO架构族并引入ACE (Accuracy-Complexity-Energy) profile，在设备端实现手势检测的运行时自适应。系统利用轻量级控制器根据电池约束选择最优模式，并采用运动感知的ROI门控降低计算复杂度，在保持高F1分数的同时显著降低能耗和延迟。

Can LLM Agents Simulate Dynamic Networks? A Case Study on Email Networks with Phishing Synthesis

Siqi Miao et al.

cs.SI cs.AI cs.MA

本文探讨了LLM多智能体系统在模拟动态网络（如邮件网络）中的表现，发现现有框架能生成微观交互但无法复现宏观拓扑结构。为此，作者提出了两个扩展：数据驱动的事件触发器和Hawkes过程，以改进网络动态的保真度，并展示了其在合成钓鱼攻击场景中的应用。

Representing Higher-Order Networks: A Survey of Graph-Based Frameworks

Takaaki Fujita, Florentin Smarandache

cs.SI cs.AI cs.CE math.CO

本文综述了用于建模高阶网络的图论框架，包括超图、多层网络和递归结构等，旨在为复杂系统的表示提供统一视角。它主要是一个概念性调查，并未提出新的方法或解决长期存在的具体问题。

WhatsApp Vaccine Discourse (WhaVax): An Expert-Annotated Dataset and Benchmark for Health Misinformation Detection

Jônatas H. dos Santos et al.

cs.SI cs.CL cs.CY

本文构建了一个名为WhaVax的专家标注数据集，包含来自巴西WhatsApp群组的疫苗相关消息，并提供了健康错误信息检测的基准测试。研究分析了错误信息的语言、结构等模式，并评估了多种模型在数据稀缺条件下的性能。

Real-World Challenges in Fake News Detection: Dealing with Posts by Cold Users

Sai Keerthana Karnam et al.

cs.SI cs.LG

本文指出当前fake news detection方法过度依赖用户历史行为，导致在cold user（新用户或平台足迹少的用户）问题上表现不佳。作者提出USER EVIDENCE NETWORK (UEN)框架，通过从现有用户交互中近似缺失行为数据来缓解该问题，但方法本身在关键词所关注的code、spectral、Muon、pretrain、agent、attention等方向并无突出创新。

Beyond Individual Mimicry: Constructing Human-Like Social network with Graph-Augmented LLM Agents

Haoran Bu et al.

cs.SI cs.AI

本文提出GraphMind框架，使LLM驱动的社交机器人能够学习并拟合类人社交网络结构，并构建了GraphMind-Botnet来评估现有社交机器人检测算法。实验表明，该框架生成的社交网络能显著降低基于文本和图结构的检测模型的性能。

SP-GCRL: Influence Maximization on Incomplete Social Graphs

Haohua Niu et al.

cs.SI cs.AI

本文提出SP-GCRL框架，通过引入社交传播感知的非线性扩散函数和基于GAT的回归代理，在部分观测的不完整社交图上学习端到端的种子选择策略，以解决影响最大化问题。实验表明该方法在多个真实网络上优于现有基线。

Stress-Testing the Reasoning Competence of LLMs With Proofs Under Minimal Formalism

Konstantine Arkoudas, Serafim Batzoglou

cs.LO cs.AI

本文提出了ProofGrid基准测试套件，通过机器可验证的证明（而非仅最终答案）评估LLM的推理能力，包含15个任务并使用紧凑的自然演绎语言NDL。该方法引入了一个可容忍表面偏差的仪器化证明检查流水线，但主要聚焦于推理评估而非与关键词（如code, attention等）直接相关。

PERCEIVE: A Benchmark for Personalized Emotion and Communication Behavior Understanding on Social Media

Jian Liao et al.

cs.SI cs.AI cs.CL

本文提出了一个名为PERCEIVE的双语基准数据集，用于研究社交媒体中个性化的情感与沟通行为理解，该基准整合了作者内容、读者情感反馈、沟通行为、用户属性和社交图五个维度。实验表明现有方法（包括大语言模型）在此多维度任务上存在显著不足。

MorphOPC: Advancing Mask Optimization with Multi-scale Hierarchical Morphological Learning

Yuting Hu et al.

cs.CV cs.AI cs.AR

本文提出MorphOPC，一种基于多尺度层次化形态学学习的掩模优化模型，通过神经形态学模块学习局部布局特征到掩模图案的几何变换，在光学邻近校正（OPC）任务上优于现有方法。

AgenticAITA: A Proof-Of-Concept About Deliberative Multi-Agent Reasoning for Autonomous Trading Systems

Ivan Letteri

q-fin.TR cs.AI stat.ME

本文提出了一个名为AGENTICAITA的多智能体AI框架，用于自主交易系统。该框架通过多个专用LLM agent的协商与推理，替代了传统的信号-执行范式，并在实况市场条件下进行了概念验证。

BioSEN: A Bio-acoustic Signal Enhancement Network for Animal Vocalizations

Tianyu Song et al.

cs.SD cs.LG q-bio.NC

本文提出BioSEN，一个针对动物声音的生物声学信号增强网络，包含多尺度双轴attention单元和能量自适应门控连接等模块。实验表明其在三个数据集上匹配或超越现有语音增强模型，且计算量更小。

Information as Maximum-Caliber Deviation: A bridge between Integrated Information Theory and the Free Energy Principle

Alexander Kearney

q-bio.NC cs.AI cs.IT

本文提出将信息定义为有限时间窗口内实际动力学与约束最大熵路径系综的偏差$\psi$，并以此在数学上桥接了Integrated Information Theory (IIT)与Free Energy Principle (FEP)。该工作通过最大熵变分原理重新推导了IIT的核心概念，并展示了其与active inference的数学对偶性。

PG-LRF: Physiology-Guided Latent Rectified Flow for Electro-Hemodynamic PPG-to-ECG Generation

Xiaoda Wang et al.

eess.SP cs.AI cs.LG

本文提出PG-LRF框架，利用生理引导的隐式整流流模型，从PPG信号生成ECG信号。该方法通过电-血流动力学模拟器约束隐空间结构，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Earth Science Foundation Models: From Perception to Reasoning and Discovery

Xiangyu Zhao et al.

astro-ph.IM astro-ph.EP cs.LG

本文综述了地球科学基础模型的发展，从感知到推理和科学发现，涵盖了多模态数据集成和跨圈层应用，并讨论了关键挑战与未来方向。

Why the Unfinished Keeps Returning: Canxianization and the Dynamics of Conscious Priority

Hengjin Cai, Tianqi Cai

q-bio.NC cs.AI

本文提出"Canxianization"概念，描述扰动如何成为抗拒闭合的自我相关未完成状态并因此获得反复出现的意识优先级，区分了该现象与情绪唤醒、记忆强度等概念，并引入Recurrent Priority Index和Canxian Update Index来区分生产性与病理性复发。

CROP: Expert-Aligned Image Cropping via Compositional Reasoning and Optimizing Preference

Zhitong Dong et al.

cs.CV cs.AI

本文提出了一种名为CROP的图像裁剪方法，通过将美学裁剪重构为多模态推理任务，引导视觉语言模型像专业摄影师一样进行“分析-提议-决策”的逐步推理，并引入专家偏好对齐模块使结果符合人类审美。该方法在多个数据集上验证了有效性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

The Payment Heterogeneity Index: An Integrated Unsupervised Framework for High-Volume Procurement Oversight and Decision Support

Kyriakos Christodoulides

econ.EM cs.LG q-fin.ST stat.AP

本文提出了一种用于高交易量采购监督的无监督框架，通过构建Structural Heterogeneity Index (SHI)和Payment Heterogeneity Index (PHI)来识别异常支付模式。该方法结合了Gaussian Mixture Model (GMM)估计和尾部行为分析，在UK市政数据上验证了有效性，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

SSDA: Bridging Spectral and Structural Gaps via Dual Adaptation for Vision-Based Time Series Forecasting

Mingrui Zhang et al.

cs.CV cs.AI

本文提出SSDA框架，通过双分支网络（Spectral Magnitude Aligner和Structural-Guided Low-Rank Adaptation）弥合视觉时间序列图像与自然图像之间的spectral和structural gap，从而提升large vision models在时间序列预测中的性能。实验表明该方法在多个基准上优于现有基线。

ChannelKAN: Multi-Scale Dual-Domain Channel Prediction via Hybrid CNN-KAN Architecture

Nanqing Jiang et al.

eess.SP cs.AI

本文提出ChannelKAN，一种混合CNN-KAN架构，用于大规模MIMO-OFDM系统中高移动性场景下的CSI预测。该方法通过多尺度频域信息增强和双域融合模块，结合CNN提取局部相关性、KAN（使用可学习的Chebyshev多项式激活）建模长程非线性时序演化，在3GPP标准数据集上优于RNN、LSTM、Transformer等基线。

Brain Tumor Classification in MRI Images: A Computationally Efficient Convolutional Neural Network

Md Fahimul Kabir Chowdhury, Jannatul Ferdous

eess.IV cs.CV cs.LG

本文提出了一种轻量级CNN用于MRI图像中的脑肿瘤多分类，在Figshare和Kaggle数据集上分别达到99.03%和99.28%的准确率，且参数量显著少于DenseNet201等预训练模型。该方法主要关注计算效率与分类性能的平衡，未涉及code、spectral或Muon等关键词相关技术。

Uncovering Latent Pathological Signatures in Pulmonary CT via Cross-Window Knowledge Distillation

Bo Peng et al.

eess.IV cs.AI cs.CV

本文提出了一种跨窗口知识蒸馏框架，用于多窗口肺部CT分析，通过让student encoder从最信息窗口训练的teacher中学习潜在临床先验，在三个数据集上显著提升了AUC指标。该方法主要关注医学影像中的病理特征提取，与关键词中的code、context、spectral等概念关联较弱。

On Privacy-Preserving Image Transmission in Low-Altitude Networks: A Swin Transformer-Based Framework with Federated Learning

Kexin Zhang et al.

eess.IV cs.LG

本文提出了一种基于Swin Transformer和联邦学习的语义通信框架，用于低空网络中无人机图像传输，通过多尺度特征提取和分布式训练在带宽受限条件下提升传输效率并保护隐私。实验表明该方法在PSNR指标上优于DeepJSCC基线，但未涉及code、context、spectral等关键词相关技术。

Pyramid Self-contrastive Learning Framework for Test-time Ultrasound Image Denoising

Jiajing Zhang et al.

cs.CV cs.AI

本文提出了一种用于超声图像去噪的测试时训练框架A2A，通过自对比学习在金字塔潜在空间中分离解剖相似性和噪声随机性，并在测试时仅用单个噪声样本进行训练。该方法在模拟和体内实验中取得了信噪比提升，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Active Sensing with Meta-Reinforcement Learning for Emitter Localization from RF Observations

M. Shamail J. Khan et al.

eess.SP cs.AI

本文提出一个基于meta-reinforcement learning的active sensing框架，使用DQN和PPO算法让agent通过RF观测逐步定位GNSS干扰源，在Sionna射线追踪模拟数据上达到80.1%的定位成功率。

VideoSEAL: Mitigating Evidence Misalignment in Agentic Long Video Understanding by Decoupling Answer Authority

Chenhao Qiu et al.

cs.CV cs.AI

本文提出VideoSEAL框架，通过解耦agent中的规划与答案权威性来解决长视频理解中的证据错位问题，并引入时间与语义基础性诊断指标。该方法在多个长视频基准上提升了答案准确性与证据对齐度，但未涉及code、spectral、Muon、pretrain或attention等关键词。

Improving Diffusion Posterior Samplers with Lagged Temporal Corrections for Image Restoration

Davide Evangelista et al.

cs.CV cs.AI cs.LG

本文从动力学角度重新审视了diffusion posterior sampling (PS)方法，指出标准PS更新对应于一阶离散化，并提出了一种基于二阶离散化的LAMP方法，通过引入滞后时间校正来改进图像恢复中的反向扩散过程。该方法作为模块化插件可集成到现有PS框架中，并在多个成像任务上取得了优于DiffPIR和DDRM等强基线的结果。

DistractMIA: Black-Box Membership Inference on Vision-Language Models via Semantic Distraction

Hongyi Tang, Zhihao Zhu, Yi Yang

cs.CV cs.AI

DistractMIA提出了一种基于语义干扰的黑盒成员推断攻击方法，通过向原始图像插入已知干扰并观察生成文本的变化来区分成员与非成员样本。该方法在多个视觉-语言模型上优于现有基线，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

Are Compact Rationales Free? Measuring Tile Selection Headroom in Frozen WSI-MIL

Hyun Do Jung et al.

eess.IV cs.AI cs.CV

本文研究了在frozen WSI-MIL（全切片图像多实例学习）框架下，如何通过FOCI（Finding Optimal Contextual Instances）方法从紧凑的tile子集中恢复slide-level预测，而不需重新训练backbone。实验表明，compact rationales的存在依赖于selection headroom，且不同MIL backbone对此的适应性存在差异。

Recurrent Transformer-Based Near- and Far-Field THz Wideband Channel Estimation for UM-MIMO

Dmitry Artemasov et al.

eess.SP cs.IT cs.LG

本文提出了一种基于块状循环transformer模型（block recurrent transformer）用于太赫兹超大规模MIMO（UM-MIMO）系统的近场和远场混合信道估计，通过单次训练和迭代应用实现宽带场景下的信道估计，并在NMSE指标上相比现有方法提升了约5-7.5 dB。该工作主要聚焦于通信信道估计的工程应用，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联较弱。

The critical slowing down in diffusion models

Luca Maria Del Bono et al.

cond-mat.dis-nn cond-mat.stat-mech cs.AI cs.LG physics.comp-ph

本文通过分析扩散模型在$O(n)$统计场论模型（高斯极限$n \to \infty$）中的应用，展示了训练过程中存在一种临界减速现象，并发现使用两层网络架构或局部score近似可以显著缓解该问题，使训练时间从二次增长变为对数增长。

Creating Group Rules with AI: Human-AI Collaboration in WhatsApp Moderation

Gauri Nayak et al.

cs.HC cs.IR

本文通过一项针对WhatsApp群组管理员的双阶段设计研究，探讨了人类与AI在群组规则创建中的协作。研究发现管理员虽认可AI减轻负担的能力，但对关系信任、数据隐私和社交语境高度敏感，并揭示了当前聊天机器人界面在支持协作规则制定上的局限性。

Optimal Bounds, Barriers, and Extensions for Non-Hermitian Bivariate Quantum Signal Processing

Joshua M. Courtney

quant-ph cs.CC cs.DS

本文研究了非Hermitian双变量量子信号处理（M-QSP）中的最优界与障碍，通过Chebyshev系数界和修正Bessel函数渐近分析，给出了反Hermitian查询复杂度的紧界，并证明了快速转发在双变量多项式模型中的不可能性。文章还讨论了优化景观中的局部极小值问题，并提出了利用CRC的块剥离算法来降低角度查找的经典计算复杂度。

Profit Maximization in Bilateral Trade against a Smooth Adversary

Simone Di Gregorio et al.

cs.GT cs.LG

本文研究双边贸易中利润最大化的在线学习问题，针对平滑对手（smooth adversary）生成的估值，提出一种学习算法并证明其具有$\tilde{O}(\sqrt{T})$的regret界，该结果与随机i.i.d.情形下的minimax率匹配，并显著区别于对抗性设置。

Online Conformal Prediction: Enforcing monotonicity via Online Optimization

Eduardo Ochoa Rivera, Ambuj Tewari

stat.ML cs.LG

本文提出两种在线共形预测方法，通过在线优化生成嵌套预测集，以在多个置信水平上同时保证覆盖有效性，并在合成与真实数据上验证了其稳定性和效率。

Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?

Yichen Feng et al.

cs.CV cs.AI cs.HC

本文提出了Visual Aesthetic Benchmark (VAB)，将美学评估转化为候选集上的比较选择任务，并发现当前最强的多模态大模型在专家一致性上远低于人类，表明现有模型在审美判断上存在明显差距。

MMCL-Bench: Multimodal Context Learning from Visual Rules, Procedures, and Evidence

Yifan Chen et al.

cs.CV cs.AI

本文提出了一个名为MMCL-Bench的多模态上下文学习基准，包含102个任务，用于评估模型从视觉或混合模态中学习规则、程序和模式的能力。实验表明，当前最强的多模态模型在严格评估下也只能解决不到三分之一的任务，揭示了该领域存在的重要能力瓶颈。

FePySR: A Neural Feature Extraction Framework for Efficient and Scalable Symbolic Regression

Zhiming Yu, Wangtao Lu, Xin Lai

cs.SC cs.AI cs.LG

FePySR提出了一种两阶段符号回归框架，先用heterogeneous neural network从观测数据中提取候选特征表达式，再用PySR进行结构优化。实验表明该方法在多个基准上提高了方程恢复率，并能在PySR完全失效的复杂生物系统ODE恢复任务中成功识别部分方程。

Controllable Quantum Memory Capacity in Quantum Reservoir Networks with Tunable partial-SWAPs

Erik L. Connerty, Ethan N. Evans

quant-ph cs.AI

本文提出了一种可调部分SWAP机制，用于控制量子储备池网络中的记忆耗散率，并通过随机短期记忆容量基准和NARMA-5数据集在模拟和IBM量子处理器上进行了验证。

The End Justifies the Mean: A Linear Ranking Rule for Proportional Sequential Decisions

Carmel Baharav et al.

cs.GT cs.AI

本文研究了在重复决策中如何选择集体线性排序规则的问题，提出了角平均（angular mean）规则，并证明其能在长期满足个体比例性（individual proportionality），而算术平均规则则存在严重的多数主义偏差。实验表明，当投票者偏好分歧较大时，角平均规则能显著改善比例性。

A Five-Layer MLOps Architecture for Connected Automated Driving

Bastian Lampe, Lutz Eckstein

cs.RO cs.LG

本文提出了一种用于连接自动驾驶的五层MLOps架构，旨在通过集体学习解决自动驾驶系统在开放世界中的持续安全与性能保障问题。该架构描述了各层的职责与交互，并讨论了如何通过多级自我评估来检测和减少边缘情况。

Inline Critic Steers Image Editing

Weitai Kang et al.

cs.CV cs.AI

本文提出Inline Critic，一种可学习的token，在冻结的图像编辑模型中间层进行批评并引导隐藏状态修正生成过程，通过三阶段训练实现前向传播内的实时修正。该方法在多个基准上取得最优结果，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Grid-Orch: An LLM-Powered Orchestrator for Distribution Grid Simulation and Analytics

Boming Liu, Jin Dong, Jamie Lian

eess.SY cs.AI cs.SE

本文提出了Grid-Orch框架，通过Model Context Protocol (MCP)桥接Large Language Models (LLMs)与电力系统仿真软件OpenDSS，允许工程师使用自然语言进行配电网分析。该框架提供了36个领域特定工具，支持多种LLM部署方式，并展示了将数小时的脚本工作缩短至两分钟内的能力。

Large Language Models for Agentic NetOps and AIOps: Architectures, Evaluation, and Safety

Muhammad Bilal et al.

cs.NI cs.AI cs.CR

本文综述了大语言模型在网络运维和智能运维中的应用，围绕自主性层级、工具范围、证据追踪和保证合约组织文献，强调运维可靠性主要依赖于模型外围机制而非模型本身，并指出评估应转向以工作流为中心的方案。

What Do You Think I Think? Accounting for Human Beliefs Using Second-Order Theory of Mind

Patrick Callaghan, Reid Simmons, Henny Admoni

cs.HC cs.AI

本文利用I-POMDP框架实现二阶Theory of Mind (ToM-2)，使agent能够建模人类对其知识的错误信念及认知偏差，并通过用户研究验证了该方法能提升教学交互中的信息性。

CoT-Guard: Small Models for Strong Monitoring

Nirav Diwan et al.

cs.CR cs.AI

本文提出CoT-Guard，一个4B参数的小模型，用于监控代码生成任务中推理模型的chain-of-thought以检测隐藏目标。通过结合监督微调和强化学习的后训练流程，该模型在检测性能上优于GPT-5等大模型，同时降低了部署成本。

Optimization in Sparse 2D to Dense 3D Weakly Supervised Learning: Application to Multi-Label Segmentation of Large ex vivo MRI Data

Paul Hoareau et al.

eess.IV cs.CV cs.LG

本文研究了稀疏2D到密集3D弱监督学习在多标签分割中的应用，发现2D教师模型与3D学生模型在正则化需求上存在根本性差异，且人类视觉增强预处理会损害机器模型性能。

Uncovering Symmetry Transfer in Large Language Models via Layer-Peeled Optimization

Zhehang Du, Hangfeng He, Weijie Su

math.OC cs.AI stat.ML

本文通过分析一个约束的layer-peeled优化程序，研究了大型语言模型在next-token prediction训练中诱导的几何结构，证明了目标分布中的对称性（如循环移位和置换对称性）会传递到最优解中，并形成了circulant矩阵或simplex equiangular tight frame等结构。

ISOMORPH: A Supply Chain Digital Twin for Simulation, Dataset Generation, and Forecasting Benchmarks

Zhizhen Zhang et al.

stat.ML cs.LG

本文介绍了ISOMORPH，一个用于供应链物流仿真的数字孪生系统，能够生成时间序列数据并支持预测基准测试。该系统通过有向路由图和马尔可夫链模拟库存动态，并提供了可配置参数和数据集。

Adaptive Smooth Tchebycheff Attention for Multi-Objective Policy Optimization

Alejandro Murillo-Gonzalez, Mahmoud Ali, Lantao Liu

cs.RO cs.AI cs.LG eess.SY math.OC

本文提出了一种自适应平滑Tchebycheff框架，通过动态调节优化曲率来解决多目标强化学习中非凸Pareto前沿的优化问题。该方法利用冲突驱动的控制器根据实时梯度干扰调整优化平滑度，在机器人视觉搜索任务中验证了其有效性。

When to Trust Confidence Thresholding: Calibration Diagnostics for Pseudo-Labelled Regression

Marcell T. Kurbucz

stat.ME cs.LG stat.ML

本文研究了伪标签回归中置信度阈值化的校准诊断问题，推导了由置信度阈值化引起的衰减偏差的闭式表达式，并提出了一个基于残差得分方差$V^{*}$的决策规则来判断阈值化是否安全。

Linking Extreme Discourse to Structural Polarization in Signed Interaction Networks

Zhijin Guo et al.

cs.SI cs.CL

本文提出了一种基于语言的有符号网络框架，通过LLM立场分数推导连续有符号边权重，并利用谱特征值和基于划分的挫败分数来量化结构极化。该框架应用于Reddit Brexit讨论，分析了毒性、极端标量声明和困惑度等话语信号与结构极化时间变化的关系。

Mechanism Plausibility in Generative Agent-Based Modeling

Patrick Zhao, David Huu Pham, Nicholas Vincent

cs.MA cs.AI cs.CL cs.CY

本文提出了一种用于评估生成式agent-based model中机制合理性的四层量表，将模型的生成充分性与机制合理性区分开来，并明确了预测模型与解释模型的不同作用。

FRAME: Forensic Routing and Adaptive Multi-path Evidence Fusion for Image Manipulation Detection

Kaixiang Zhao et al.

cs.CV cs.AI

本文提出FRAME方法，通过将多种forensic算法组织成多路径分析空间，并自适应选择信息路径融合证据，以提升图像篡改检测与定位的性能。该方法旨在克服单一检测方法鲁棒性不足和泛化能力弱的问题。

GraphIP-Bench: How Hard Is It to Steal a Graph Neural Network, and Can We Stop It?

Kaixiang Zhao et al.

cs.CR cs.AI cs.LG

本文提出了GraphIP-Bench，一个用于评估GNN模型窃取攻击与防御的统一benchmark，集成了多种攻击、防御和数据集。实验表明，在中等查询预算下窃取GNN很容易，且多数防御效果有限。

Digital Twins as Synthetic Controls in Single-Arm Trials

Daniele Bertolini et al.

stat.AP cs.LG stat.ML

本文讨论了在单臂临床试验中，使用基于outcome-model的synthetic control arms（特别是digital twins）作为对照的方法，并回顾了doubly robust estimators、power和sample size公式，以及历史数据选择的权衡。文章通过重新分析肌萎缩侧索硬化症和亨廷顿病的数据来演示这些方法。

Decision Support for Marketplace Policies under Incomplete Evidence: From Replay to Launch Readiness

Prashant Shekhar, Caroline Howard

stat.AP cs.LG

本文提出了一种支持感知的决策支持系统（DSS），用于在不完全证据下评估市场平台策略的部署安全性。该系统结合replay、off-policy evaluation和保守下界排序等方法，输出启动就绪分类而非单一性能估计。实验表明，该方法能避免因简化决策流程导致的错误部署推荐，但整体方法更偏向工程应用，与关键词中的理论或算法创新关联较弱。

AssemblyBench: Physics-Aware Assembly of Complex Industrial Objects

Danrui Li et al.

cs.CV cs.AI

AssemblyBench是一个包含2,789个工业物体的合成数据集，并提出了AssemblyDyno模型，该模型利用instruction manual和3D part shape来预测assembly order和part assembly trajectories，在assembly pose estimation和trajectory feasibility上优于先前工作。

PRISM: Perinuclear Ring-based Image Segmentation Method for Acute Lymphoblastic Leukemia Classification

Larissa Ferreira Rodrigues Moreira et al.

cs.CV cs.AI

本文提出了一种基于核周环的图像分割方法(PRISM)，通过围绕细胞核构建自适应同心区域来提取细胞质描述符，避免了传统膜分割的困难。该方法结合颜色信息和灰度共生纹理统计，使用传统分类器的集成堆叠在急性淋巴细胞白血病分类中取得了高准确率。

NeuroRisk: Physics-Informed Neural Optimization for Risk-Aware Traffic Engineering

Yingming Mao et al.

cs.NI cs.LG

本文提出NeuroRisk，一种物理信息驱动的深度展开优化器，用于解决广域网中风险感知流量工程问题。该方法通过门控边缘局部预留和排列不变梯度对齐线索来保证可行性，并在生产级WAN上实现了相对于传统求解器数个数量级的加速。

Quantifying LLM Safety Degradation Under Repeated Attacks Using Survival Analysis

Zvi Topol

cs.CR cs.AI

本文提出了一种使用生存分析（survival analysis）来量化大语言模型在重复攻击下安全性退化（safety degradation）的评估框架，通过建模“攻击成功所需时间”来估计hazard function和survival curve。该方法为LLM安全性评估提供了新的视角，但与关键词列表中的概念关联较弱。

On the Advantage of Adaptivity for Sampling with Cell Probes

Farzan Byramji et al.

cs.CC cs.DS

本文构造了一个显式分布$\mathbf{D}$，证明了在cell-probe采样模型中，自适应采样（仅需2次探测）与非自适应采样（需$\widetilde{\Omega}(N)$次探测）之间存在指数级分离，改进了先前工作中的分离结果。该工作主要关注计算复杂性中的采样问题，与关键词中的code、context、spectral等概念无直接关联。

Adam-SHANG: A Convergent Adam-Type Method for Stochastic Smooth Convex Optimization

Yaxin Yu, Long Chen, Minfu Feng

math.OC cs.LG

本文提出Adam-SHANG方法，通过Lyapunov引导的动量与自适应预条件更新，证明了在随机光滑凸优化中的收敛性，并引入可计算的trace-ratio步长。实验表明其在深度学习任务中与Adam/AdamW性能相当。

Steer-to-Detect: Probing Hidden Representations for Detection of LLM-Generated Texts

Luxu Liang, Xiang Li

stat.AP cs.LG

本文提出Steer-to-Detect (S2D)框架，通过向冻结的observer LLM的hidden states注入一个steering vector来增强表示的可分性，并基于steered representation进行hypothesis testing以检测LLM生成文本。该方法在多种场景下（包括out-of-distribution和adversarial perturbations）取得了稳定性能。

When Do LLMs Generate Realistic Social Networks? A Multi-Dimensional Study of Culture, Language, Scale, and Method

Sai Hemanth Kilaru et al.

cs.SI cs.CL cs.CY

本文研究了LLM生成社交网络时，prompt设计、文化框架、语言和模型规模对网络结构的影响，发现prompt选择编码了实质性的社会学假设。

Robust Sequential Experimental Design for A/B Testing

Qianglin Wen et al.

stat.ML cs.LG

本文针对A/B测试中模型误设问题，提出了一种鲁棒的序贯实验设计框架，理论上证明了该方法能限制估计处理效应的最坏情况均方误差，并在合成与真实数据集上验证了其有效性。

The Mechanism of Weak-to-Strong Generalization: Feature Elicitation from Latent Knowledge

Ryoya Awano, Taiji Suzuki

stat.ML cs.LG

本文研究了弱到强泛化(W2S)机制，通过两层神经网络在reward-model学习设置下证明强模型能有效学习目标任务并保留预训练能力。该工作为特征学习范式下的W2S泛化提供了理论分析，但与我提供的关键词列表关联度较低。

SHM-Agents: A Generalist-Specialist Integrated Agent System for Structural Health Monitoring

Yuequan Bao et al.

cs.MA cs.LG

本文提出SHM-Agents，一个结合大语言模型推理能力与专用算法问题解决能力的通用-专用集成agent系统，用于结构健康监测。该系统通过自然语言实现端到端任务执行，并支持模块化扩展，在桥梁监测任务中验证了有效性。

Adaptive Conformal Prediction for Reliable and Explainable Medical Image Classification

One Octadion, Novanto Yudistira, Lailil Muflikhah

cs.CV cs.LG

本文提出了一种改进的Adaptive Conformal Prediction方法，通过优化最坏情况下的coverage violation来提升医学图像分类的可靠性，并在CT和病理图像数据集上验证了其有效性。

Embodied Multi-Agent Coordination by Aligning World Models Through Dialogue

Vardhan Dongre, Dilek Hakkani-Tür

cs.MA cs.AI cs.CL

本文研究了基于LLM的具身多智能体系统通过自然语言对话进行协调的能力，提出了一种衡量世界模型对齐的框架，包括观察收敛、信息新颖性和信念敏感消息传递等指标。实验表明对话能减少动作冲突但会降低任务成功率，揭示了当前模型在表面协调与真正世界模型对齐之间的差距。

AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation

Priyam Sahoo et al.

cs.SE cs.AI

本文提出了AgentLens框架，用于评估SWE-agent（软件工程智能体）的轨迹过程质量，并揭示了“Lucky Pass”（幸运通过）问题，即通过测试的轨迹可能包含混乱的试错过程。该工作通过构建Prefix Tree Acceptor (PTA)参考和过程级质量评分，将passing轨迹分为不同等级，但方法本身并非开创性，且与关键词中的agent有一定关联但不够紧密。

Anatomy-Slot: Unsupervised Anatomical Factorization for Homologous Bilateral Reasoning in Retinal Diagnosis

Yingzhe Ma et al.

cs.CV cs.AI

本文提出Anatomy-Slot方法，通过无监督分解patch tokens为slots并利用双向cross-attention对齐双眼结构，以改进视网膜诊断。实验表明该方法在ODIR-5K数据集上相比ViT-L基线有显著提升，并验证了结构对应关系对诊断的重要性。

AuraMask: An Extensible Pipeline for Developing Aesthetic Anti-Facial Recognition Image Filters

Jacob Lagogiannis et al.

cs.CV cs.AI cs.HC

本文提出AuraMask，一种用于生成既对抗有效又美观的anti-facial recognition (AFR) filters的pipeline，通过模拟Instagram滤镜风格，在保持对抗性能的同时显著提升了用户接受度。

CRePE: Curved Ray Expectation Positional Encoding for Unified-Camera-Controlled Video Generation

Seonghyun Jin et al.

cs.CV cs.AI cs.LG

本文提出Curved Ray Expectation Positional Encoding (CRePE)，用于统一相机模型下的视频生成。该方法通过沿源射线的深度感知位置分布，为广角和鱼眼镜头提供几何兼容的位置编码，并借助几何注意力适配器注入场景距离信息。

When Should an AI Workflow Release? Always-Valid Inference for Black-Box Generate-Verify Systems

Young Hyun Cho, Will Wei Sun

stat.ML cs.AI cs.LG stat.ME

本文研究LLM驱动的AI工作流中的停止决策问题，提出一种always-valid release wrapper，通过构建hard-negative reference pool并利用e-process控制错误释放概率，在无需可交换性假设下保证有限样本有效性。该方法在MBPP+编码agent案例中减少了过早错误释放。

Coreset-Induced Conditional Velocity Flow Matching

Xiao Wang, Zihua She, Jianxi Su

stat.ML cs.LG

本文提出Coreset-Induced Conditional Velocity Flow Matching (CCVFM)，通过用目标数据的coreset构建的Gaussian mixture替代层次化rectified flow中的内流源分布，从而简化生成过程。该方法利用Sinkhorn coreset压缩目标分布，并证明替代传输代价与Wasserstein gap相关，在多个图像数据集上实现了少步生成。

AdaFocus: Adaptive Relevance-Diversity Sampling with Zero-Cache Look-back for Efficient Long Video Understanding

Xiao Yang et al.

cs.CV cs.AI

本文提出AdaFocus框架，将长视频理解重构为渐进式证据获取过程，通过查询感知的自适应相关性-多样性采样器（AdaRD）生成紧凑预览，并引入不确定性触发的零缓存回溯机制，在需要时直接从磁盘检索高分辨率证据。实验表明该方法在多个基准上实现了更好的效率-精度权衡。

Reducing Bias and Variance: Generative Semantic Guidance and Bi-Layer Ensemble for Image Clustering

Feijiang Li et al.

cs.CV cs.LG

本文提出GSEC框架，通过Multimodal Large Language Models生成语义描述并利用加权平均得到图像嵌入，同时采用双层集成策略（内层BatchEnsemble与外层对齐机制）来降低bias和variance。实验表明该方法在六个基准数据集上优于18种现有方法。

Protocol-Driven Development: Governing Generated Software Through Invariants and Evidence

Jun He, Deying Yu

cs.SE cs.AI cs.LG

本文提出Protocol-Driven Development (PDD)模型，将软件协议定义为结构、行为和操作不变量的三元组，并以此作为可执行规范来约束自动生成的代码。该方法通过证据链验证实现合规性，强调协议而非代码的权威性。

SpikeProphecy: A Large-Scale Benchmark for Autoregressive Neural Population Forecasting

John R. Minnick et al.

q-bio.NC cs.LG

本文提出了SpikeProphecy，一个用于因果自回归神经群体尖峰计数预测的大规模基准，通过将聚合性能分解为时间保真度、空间模式精度和幅度不变对齐来评估模型，并在多个架构上进行了测试。该工作主要关注神经科学领域的预测评估，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Implicit Behavioral Decoding from Next-Step Spike Forecasts at Population Scale

John R. Minnick et al.

q-bio.NC cs.LG

本文提出使用Mamba模型对大规模神经群体活动进行单步预测，并利用预测结果解码小鼠行为状态，在Steinmetz视觉辨别基准上验证了其优于直接使用原始spike计数的线性解码器。

Amortized Guidance for Image Inpainting with Pretrained Diffusion Models

Yilie Huang, Xun Yu Zhou

cs.CV cs.AI eess.SY math.OC

本文提出了一种名为AID的中间模型，通过固定预训练diffusion backbone并训练一个可复用的guidance module，避免了针对每个masked image的单独优化。该方法将图像inpainting建模为确定性guidance问题，并利用辅助Gaussian formulation来学习最优guidance field，从而在多个数据集上改善了质量-速度权衡。

A General Bézier Tree Encoding Counterfactual Framework for Retinal-Vessel-Mediated Disease Analysis

Tan Su et al.

eess.IV cs.CV cs.LG

本文提出了一种基于Bézier树编码的反事实框架(BTECF)，用于视网膜血管介导的疾病分析。该方法通过将血管网络抽象为三次Bézier段，实现了对血管结构拓扑的显式保持和原子级扰动，并利用扩散生成器在保持背景纹理的同时对几何轴进行干预。

ViDR: Grounding Multimodal Deep Research Reports in Source Visual Evidence

Zhuofan Shi et al.

cs.CV cs.IR

ViDR提出了一种多模态深度研究框架，通过将源图像视为可检索和可验证的证据对象，并构建证据索引大纲来生成包含文本和视觉证据的长篇报告。该方法在MMR Bench+基准上提升了报告质量和可验证性，但未涉及code、spectral、Muon、pretrain或agent等关键词。

CoGE: Sim-to-Real Online Geometric Estimation for Monocular Colonoscopy

Liangjing Shao, Beilei Cui, Hongliang Ren

cs.CV cs.AI

本文提出CoGE框架，用于单目结肠镜的在线几何估计（包括深度估计和场景重建）。通过基于Retinex理论的照明感知模块和基于小波分解的结构感知模块，该模型仅在模拟数据上训练即可在模拟和真实场景中达到最优性能。

Revealing the Gap in Human and VLM Scene Perception through Counterfactual Semantic Saliency

Ziqi Wen, Parsa Madinei, Miguel P. Eckstein

cs.CV cs.AI

本文提出Counterfactual Semantic Saliency (CSS)框架，通过因果消融场景中的object并测量semantic shift来量化其重要性，用于评估vision-language models (VLMs)与人类在场景理解上的对齐程度。实验发现VLMs存在size bias、center bias等与人类感知的差异。

When Absolute State Fails: Evaluating Proprioceptive Encodings for Robust Manipulation

Maxime Alvarez et al.

cs.RO cs.AI

本文研究了机器人操作中本体感知状态编码策略，通过对比不同joint representations，发现episode-wise relative frame在任务性能和鲁棒性间取得最佳平衡，并在真实机器人实验中验证了其有效性。

Neural QAOA$^{2}$: Differentiable Joint Graph Partitioning and Parameter Initialization for Quantum Combinatorial Optimization

Zubin Zheng, Jiahao Wu, Shengcai Liu

quant-ph cs.AI

本文提出Neural QAOA$^{2}$，一种端到端可微分的框架，用于联合生成graph partition和QAOA的初始参数。它通过一个可微分的quantum evaluator提供梯度指导，以解决现有分治方法中partition与优化目标不匹配以及参数初始化缺乏拓扑感知的问题。

Counterfactual Reasoning for Causal Responsibility Attribution in Probabilistic Multi-Agent Systems

Chunyan Mu, Muhammad Najib

cs.MA cs.AI

本文使用Shapley value在概率多智能体系统中量化agent的因果责任，并基于Nash equilibrium计算稳定策略。该方法为责任分配提供了形式化框架，但与我提供的关键词（如code, context, spectral, Muon, pretrain, attention）关联较弱。

Adaptive Kernel Density Estimation with Pre-training

Ruitong Zhang, Ke Deng

stat.ML cs.LG stat.ME

本文提出了一种基于预训练的adaptive kernel density estimation方法，通过预训练神经网络为每个样本点推荐位置自适应核，以解决高维密度估计中核平滑方法效率低的问题。实验表明该方法在目标分布与预训练分布族接近时效果显著，否则可通过微调恢复性能。

Watermarking Should Be Treated as a Monitoring Primitive

Toluwani Aremu, Nils Lukas, Jie Zhang

cs.CR cs.AI cs.CY cs.LG

本文提出应将watermarking视为一种监控原语，并引入基于观察者的威胁模型，证明在multi-key设置下即使零比特水印也能实现归因。文章揭示了归因与监控之间的双重用途张力，但未直接涉及code、context、spectral等关键词。

A Multi-Agent Orchestration Framework for Venture Capital Due Diligence

Grigorios Alexandrou, Katerina Pramatari

cs.MA cs.AI cs.IR

本文提出了一个用于风险投资尽职调查的全自动多智能体框架，结合LLM与实时网络检索，从非结构化数据中合成结构化投资情报。其核心贡献在于通过逆向工程希腊商业注册局的前后端通信，构建了程序化提取管道，并采用布局感知OCR解析官方财务文件。

Context Matters: Auditing Gender Bias in T2I Generation through Risk-Tiered Use-Case Profiles

Jose Luna et al.

cs.CY cs.AI

本文提出一个风险对齐的审计框架，用于评估文本到图像生成模型中的性别偏见，通过结合用例风险等级、评估指标和伤害类型来改进现有碎片化的评估方法。该框架引入了THUMB卡片以系统化审计流程，但未涉及代码、谱方法或预训练等关键词。

DiffusionHijack: Supply-Chain PRNG Backdoor Attack on Diffusion Models and Quantum Random Number Defense

Ziyang You et al.

cs.CR cs.LG

本文提出了一种针对扩散模型的供应链后门攻击方法DiffusionHijack，通过劫持伪随机数生成器(PRNG)实现对生成图像的确定性控制，并利用量子随机数生成器(QRNG)作为防御手段。该攻击无需修改模型权重即可在Stable Diffusion系列模型上实现像素级复现，但与我提供的关键词列表关联度较低。

SECOND-Grasp: Semantic Contact-guided Dexterous Grasping

Han Yi Shin et al.

cs.RO cs.AI

本文提出SECOND-Grasp框架，通过视觉-语言推理获取粗略接触提议，并引入Semantic-Geometric Consistency Refinement (SGCR)确保多视角一致性，从而生成可靠的3D contact maps，最终通过inverse kinematics推导可行手部姿态用于策略学习。该方法在DexGraspNet上训练，在物体抓取成功率和意图感知抓取方面均优于基线。

State-of-art minibatches via novel DPP kernels: discretization, wavelets, and rough objectives

Hoang-Son Tran et al.

stat.ML cs.LG math.PR

本文提出基于wavelet的新型DPP kernel，用于在Euclidean space上构建具有更好精度保证的minibatches，并引入一种将连续DPP转换为离散kernel的通用方法，以保留方差衰减并实现低秩分解。该方法扩展了DPP在低正则性目标函数上的应用，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Amortized Neural Clustering of Time Series based on Statistical Features

Ángel López-Oriona, Ying Sun

stat.ML cs.LG stat.CO

本文提出了一种基于统计特征的时间序列聚类方法，通过训练神经网络从模拟数据中学习最优划分规则，从而减少对传统聚类算法的依赖。该方法能自动确定聚类数量，并在实证中展现出与经典方法相当或更优的性能。

Code-Centric Detection of Vulnerability-Fixing Commits: A Unified Benchmark and Empirical Study

Nils Loose et al.

cs.SE cs.CR cs.LG

本文通过统一框架整合了超过20个数据集和180000个commit，对基于code language model的漏洞修复commit检测进行了全面评估。实验表明，仅依赖code changes的模型无法获得可迁移的安全相关理解，且commit message主导了模型注意力，在低误报率下所有模型漏检率超过93%。

On the Generalization of Knowledge Distillation: An Information-Theoretic View

Bingying Li, Haiyun He

cs.IT cs.LG

本文从信息论角度研究知识蒸馏的泛化性，通过将教师和学生训练建模为耦合随机过程并引入蒸馏散度（Kullback-Leibler divergence），推导了学生模型相对于教师泛化差距的上下界。

On Hallucinations in Inverse Problems: Fundamental Limits and Provable Assessment Methods

David Iagaru et al.

stat.ML cs.CV cs.LG

本文研究了逆问题中AI模型产生幻觉（hallucinations）的理论基础，证明了幻觉源于逆问题的ill-posed本质，并给出了可计算的幻觉幅度上界。实验在多个成像任务中验证了该方法对生成模型的适用性。

Generative Modeling of Approximately Periodic Time Series by a Posterior-Weighted Gaussian Process

Elias Reich, Saverio Messineo, Stefan Huber

stat.ML cs.LG

本文提出了一种基于后验加权Gaussian Process的生成模型，用于处理近似周期时间序列。该模型通过两阶段构造将重复内部结构与重复间变异性解耦，但方法在创新性和与关键词的契合度上较为一般。

EvObj: Learning Evolving Object-centric Representations for 3D Instance Segmentation without Scene Supervision

Jiahao Chen et al.

cs.CV cs.AI cs.LG cs.RO

本文提出EvObj方法用于无监督3D instance segmentation，通过object discerning module和object completion module弥合合成预训练数据与真实点云之间的几何域差距，在多个数据集上取得了优于基线方法的性能。

Kernel-based guarantees for nonlinear parametric models in Bayesian optimization

Rafael Oliveira

stat.ML cs.LG

本文提出了一种基于kernel的框架，用于分析在自适应数据收集下训练的regularized nonlinear parametric models，通过参数空间上的kernel在模型类上诱导reproducing kernel Hilbert space结构，从而为这类模型提供confidence bounds。该工作为Bayesian optimization中非线性模型的理论分析提供了统一路径。

A$_3$B$_2$: Adaptive Asymmetric Adapter for Alleviating Branch Bias in Vision-Language Image Classification with Few-Shot Learning

Yiyun Zhou et al.

cs.CV cs.LG

本文针对视觉语言模型（如CLIP）在few-shot图像分类中的分支偏差问题，提出了一种自适应非对称适配器A$_3$B$_2$，通过不确定性感知的适配器阻尼机制（UAAD）自动抑制高不确定性下的图像分支适配，并采用基于混合专家（mixture-of-experts）的轻量非对称架构。实验表明该方法在多个数据集上优于现有方法。

LoREnc: Low-Rank Encryption for Securing Foundation Models and LoRA Adapters

Beomjin Ahn et al.

cs.CR cs.CV cs.LG

LoREnc提出了一种无需重新训练的框架，通过spectral truncation（谱截断）和补偿来保护基础模型与LoRA适配器，防止模型恢复攻击。该方法通过抑制模型权重的低秩成分并在授权适配器中补偿缺失信息，同时使用正交重参数化隐藏结构特征。

PanoWorld: Towards Spatial Supersensing in 360$^\circ$ Panorama World

Changpeng Wang et al.

cs.CV cs.AI

本文提出PanoWorld模型，通过Spherical Spatial Cross-Attention机制将球面几何注入视觉流，并构建了PanoSpace-Bench基准，以提升MLLM对360度全景图的原生空间理解能力。实验表明该方法在多个基准上优于现有基线。

When Does Hierarchy Help? Benchmarking Agent Coordination in Event-Driven Industrial Scheduling

Ziqi Wang et al.

cs.MA cs.AI

本文提出了一个分布式事件驱动调度基准(DESBench)，用于评估工业调度中多智能体系统的协调范式，包括集中式、层次式、异层次式和全息式。实验揭示了不同协调范式在有效性、约束对齐和鲁棒性等方面的结构性权衡。

Coupling-Informed Transport Maps for Bayesian Filtering in Nonlinear Dynamical Systems

Dengfei Zeng et al.

stat.ML cs.LG stat.CO

本文提出了一种基于状态与观测变量耦合的无似然传输滤波方法，通过块三角结构将滤波分析步骤转化为最大平均差异(MMD)的最小化问题，并利用梯度流实现无需训练的解析传输映射。该方法能有效逼近非高斯滤波后验并避免粒子坍塌，但与我提供的关键词列表关联较弱。

CLIP Tricks You: Training-free Token Pruning for Efficient Pixel Grounding in Large VIsion-Language Models

Sangin Lee, Yukyung Choi

cs.CV cs.AI

本文提出了一种名为LiteLVLM的训练无关token剪枝策略，通过反转CLIP中visual-text similarity的排序来保留与文本相关的visual tokens，从而在像素级定位任务中实现高效推理。该方法在保持90%原始性能的同时，实现了22%的加速和2.3倍的内存减少。

LLMs as Implicit Imputers: Uncertainty Should Scale with Missing Information

Stef van Buuren

stat.ML cs.CL cs.LG stat.ME

本文探讨了在上下文不完整时，LLM作为隐式插补器（implicit imputer）的表现，通过对比置信度（confidence）和响应熵（entropy）两种不确定性度量，发现熵能更好地反映缺失信息量，并引入了一个黑盒诊断指标$\rho_R(\alpha)$。

When and Why is Optimistic Multiplicative Weights Slow? The Geometry of Energy Dissipation

John Lazarsfeld et al.

cs.GT cs.LG

本文研究了Optimistic Multiplicative Weights Update (OMWU)算法在两人零和博弈中的收敛性，通过将算法对偶迭代视为能量函数的乐观斜梯度下降，分析了能量耗散的几何瓶颈。该工作量化了当原始迭代接近单纯形边界时出现的慢收敛现象，并给出了KL散度下的线性收敛率。

Compact Latent Manifold Translation: A Parameter-Efficient Foundation Model for Cross-Modal and Cross-Frequency Physiological Signal Synthesis

Bo Cui et al.

eess.SP cs.AI

本文提出Compact Latent Manifold Translation (CLMT)，一种参数高效(0.09B)的跨模态与跨频率生理信号合成框架。它通过两阶段离散翻译范式：先用Hierarchical Residual Vector Quantization (RVQ)将异质信号解耦为离散latent manifolds，再用Context-Prompted Latent Translator进行跨模态映射，在PPG-to-ECG合成和极端超分辨率任务上显著优于基线模型。

The Sample Complexity of Multiple Change Point Identification under Bandit Feedback

Maximilian Graf, Victor Thuot

stat.ML cs.LG math.ST

本文研究了bandit反馈下的多个change point定位问题，提出了一种自适应算法来识别分段常数函数中的间断点，并给出了样本复杂度的上下界。该工作揭示了在一般置信水平和精度下，复杂度由跳跃幅度和change point的相对位置共同决定。

X-Restormer++: 1st Place Solution for the UG2+ CVPR 2026 All-Weather Restoration Challenge

Youwei Pan et al.

cs.CV cs.AI

本文基于X-Restormer框架，通过引入空间自适应输入缩放机制、梯度引导边缘感知损失以及扩充训练数据，提出了针对全天气图像恢复的改进方法，并在UG2+挑战赛中取得第一名。该方法主要关注图像恢复性能提升，未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词的核心创新。

"It became a self-fulfilling prophecy": How Lived Experiences are Entangled with AI Predictions in Menstrual Cycle Tracking Apps

Wendy Zhou et al.

cs.HC cs.AI

本文通过14次半结构化用户访谈和群体自我民族志，研究了经期追踪应用中AI预测如何与用户的生活体验相互纠缠，发现用户会依据AI预测理解自身经历，但界面和解释未能支持用户对此纠缠的批判性认知。

Physics Guided Generative Optimization for Trotter Suzuki Decomposition

WenBin Yan

quant-ph cs.LG

本文提出了一种结合条件扩散模型、物理信息神经网络和图神经网络的生成-评估循环方法，用于优化Trotter Suzuki分解中的项分组、乘积公式阶数和时间步分配。在横向场Ising模型上，该方法在约21.8%的电路深度和19.2%的CNOT计数下达到了第四阶Qiskit基线85.6%的保真度，但方法性能依赖于训练策略和超参数调优。

Proximal-Based Generative Modeling for Bayesian Inverse Problems

Boyang Zhang, Zhiguo Wang, Ya-Feng Liu

math.OC cs.LG

本文提出了一种基于近端算子的生成建模框架（PGM），通过将扩散过程中的高斯卷积与非光滑优化中的Moreau-Yosida正则化建立理论等价，避免了逆问题中似然得分的显式计算。该方法引入Moreau得分匹配来学习近端算子，理论上消除了基于得分的扩散模型中的早停偏差并实现了非渐近收敛。

The Readability Spectrum: Patterns, Issues, and Prompt Effects in LLM-Generated Code

Hengzhi Ye et al.

cs.SE cs.AI

本文构建了一个综合代码可读性模型，评估了LLM生成代码的可读性，发现其与人类代码相当但存在不同问题模式，并分析了prompt设计的影响。

Learning Perturbations to Extrapolate Your LLM

Zetai Cen et al.

stat.ML cs.LG math.ST

本文提出了一种通过可学习的连续latent vector变换来扰动token prefixes的框架，以提升大语言模型的外推性能。为解决边际似然难以处理的问题，作者推导了无偏估计方程并通过随机梯度下降优化，并在过参数化场景下建立了估计量的统计性质。

Strong Conflict-Free Vertex-Connection via Twin Cover: Kernelization and Chromatic Bounds

Samuel German

cs.DM cs.DS

本文研究了强冲突自由顶点连接数（strong conflict-free vertex-connection number）在twin cover参数下的kernelization和色数界。通过构造一个多项式时间归约，证明了该问题的带注释版本关于参数$t+k$是固定参数可解的，并给出了一个关于twin cover数$\operatorname{tc}(G)$的kernel。此外，还建立了该参数与色数$\chi(G)$之间的不等式关系。

SemRepo: A Knowledge Graph for Research Software and Its Scholarly Ecosystem

Abdul Rafay et al.

cs.DL cs.DB cs.IR

SemRepo是一个RDF知识图谱，包含超过8100万条三元组，描述了近20万个与科学研究相关的GitHub仓库，并将其与外部学术知识图谱（如SemOpenAlex和LPWC）链接，以支持跨平台查询和分析。该图谱为研究软件及其学术生态系统的统一分析提供了基础设施。

Embodied Neurocomputation: A Framework for Interfacing Biological Neural Cultures with Scaled Task-Driven Validation

Johnson Zhou et al.

cs.ET cs.LG cs.NE eess.SY q-bio.NC

本文提出Embodied Neurocomputation框架，用于优化生物神经网络(BNN)与硅基计算接口之间的编码/解码参数。通过在模拟网格世界中执行类气味梯度导航任务，评估约1300种参数组合，发现12种配置在多次episode中持续展现学习能力，其任务性能优于同等交互预算下的硅基DQN agent。

KamonBench: A Grammar-Based Dataset for Evaluating Compositional Factor Recovery in Vision-Language Models

Richard Sproat, Stefano Peluchetti

cs.CV cs.LG

KamonBench是一个基于语法的图像到结构基准数据集，用于评估视觉语言模型在稀疏组合视觉识别中的因子恢复能力。该数据集包含20000个合成家纹图像及其形式化描述，并提供了程序代码因子度量等评估方法。

What Limits Vision-and-Language Navigation ?

Yunheng Wang et al.

cs.RO cs.AI cs.CL cs.CV

本文指出Vision-and-Language Navigation (VLN)从仿真到真实部署的性能瓶颈在于缺乏鲁棒的spatial grounding和跨域先验，并提出StereoNav框架，通过引入Target-Location Priors和stereo vision来增强导航一致性。实验表明该方法在多个基准上达到SOTA，但未涉及code、spectral、Muon或pretrain等关键词。

Stylized Text-to-Motion Generation via Hypernetwork-Driven Low-Rank Adaptation

Junhyuk Jeon, Seokhyeon Hong, Junyong Noh

cs.CV cs.AI cs.GR cs.LG

本文提出了一种基于hypernetwork生成LoRA参数的轻量级风格条件框架，用于文本驱动的motion diffusion模型，通过将风格参考motion编码为全局风格嵌入并映射为低秩更新，实现了对预训练模型的高效风格调制。该方法在HumanML3D和100STYLE数据集上取得了先进的stylization效果，并提升了对未见风格的泛化能力。

Context-Aware Web Attack Detection in Open-Source SIEM Systems via MITRE ATT&CK-Enriched Behavioral Profiling

Badr Alboushy et al.

cs.CR cs.LG

本文提出Smart-SIEM模块，通过构建基于源IP的行为上下文向量（包含HTTP响应状态分布、MITRE ATT&CK技术频率等）并结合LightGBM与XGBoost的两阶段级联模型，在Wazuh SIEM平台上实现网络攻击检测。实验表明该方法显著提升了多步攻击的分类性能，并具备概念漂移自适应恢复能力。

Inducing Overthink: Hierarchical Genetic Algorithm-based DoS Attack on Black-Box Large Language Reasoning Models

Shuqiang Wang et al.

cs.CR cs.AI

本文提出了一种基于分层遗传算法的黑盒DoS攻击框架，通过扰动输入问题的逻辑结构来诱导大型推理模型产生过度思考行为，从而显著增加推理延迟和能耗。实验表明该方法在多个模型上实现了高达26.1倍的输出长度增长，并展示了跨模型的可迁移性。

AI Harness Engineering: A Runtime Substrate for Foundation-Model Software Agents

Hailin Zhong, Shengxin Zhu

cs.SE cs.AI

本文提出AI Harness Engineering框架，将基础模型软件代理的可靠性问题从模型能力转向运行时基座（harness）的设计，并定义了H0-H3四级支持层次。该工作为软件工程代理的运行时系统提供了形式化分析框架，但与关键词中的code, agent等概念关联较弱。

Constitutional Governance in Metric Spaces

Ehud Shapiro, Nimrod Talmon

cs.MA cs.AI cs.DC cs.GT econ.TH

本文提出了一种在metric spaces中实现constitutional governance的polynomial-time框架，整合了aggregation、deliberation、amendment和consensus等阶段，并采用generalised median作为核心规则。该框架为数字社区和组织的民主治理提供了理论解决方案，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Neural Surrogate Forward Modelling For Electrocardiology Without Explicit Intracellular Conductivity Tensor

Shaheim Ogbomo-Harmitt et al.

cs.CV cs.LG

本文提出了一种基于深度学习的神经替代前向模型，用于从左心房细胞内电位直接映射到远场心电图，无需在推理时显式输入细胞内电导率张量。尽管训练数据有限，该模型仍取得了较高的R2分数，展示了减少结构不确定性并改善非侵入性房颤评估的潜力。

A Horn extension of DL-Lite with NL data complexity

Janos Arpasi, Bartosz Jan Bednarczyk, Magdalena Ortiz

cs.LO cs.AI cs.DB

本文提出了一种新的描述逻辑ELbotpreceq，通过引入分层机制控制合取与递归的交互，扩展了DL-Lite并支持可达性公理和受限合取，实现了NL数据复杂度的查询重写。该工作主要关注本体介导查询回答在图形查询语言中的应用，与关键词中的概念无直接关联。

Fast and Compact Graph Cuts for the Boykov-Kolmogorov Algorithm

Christian Møller Mikkelstrup et al.

cs.CV cs.DS

本文改进了Boykov-Kolmogorov算法的时间复杂度分析，并提出了一种新的快速紧凑版本fcBK算法，通过紧凑的图表示实现了在有限内存下处理大规模图的最小$s$-$t$割计算。

Model-Agnostic Lifelong LLM Safety via Externalized Attack-Defense Co-Evolution

Xiaozhe Zhang et al.

cs.CR cs.CL

本文提出EvoSafety框架，通过外部化的攻击-防御协同进化机制提升LLM安全性。该方法使用对抗技能库和轻量级辅助防御模型，实现了模型无关的安全改进，但未涉及code、spectral、Muon等关键词相关技术。

Towards a holistic understanding of Selection Bias for Causal Effect Identification

Yiwen Qiu et al.

stat.ME cs.AI cs.LG

本文研究了观测研究中selection bias（选择偏差）下平均处理效应（ATE）的可识别性问题，通过弱化概率类假设来刻画propensity score（倾向得分）和selection probability（选择概率），给出了ATE可识别的充要条件。该工作扩展了已有的图模型识别准则，在存在选择偏差时提供了更全面的因果效应识别理解。

TurboGR: An Accelerated Training System for Large-Scale Generative Recommendation

Huichao Chai et al.

cs.DC cs.LG

本文提出了TurboGR，一个针对Ascend NPU加速的大规模生成式推荐训练系统，通过融合算子、动态负载均衡和分布式通信优化等创新解决了系统级瓶颈，在KuaiRand-27K数据集上实现了54.71%的MFU和近线性扩展。

On the Limits of Latent Reuse in Diffusion Models

Yifeng Yu, Lu Yu

stat.ML cs.LG math.PR

本文研究了扩散模型中latent space（潜在空间）复用在数据分布偏移下的可靠性，通过分析source和target子空间之间的principal-angle misalignment（主角度偏差）以及扩散时间尺度放大的噪声，给出了target-domain score error的界限。

CUBic: Coordinated Unified Bimanual Perception and Control Framework

Xingyu Wang et al.

cs.RO cs.AI

本文提出CUBic框架，通过共享tokenized表示和双向codebook协调机制，将双臂操作的感知与控制统一建模。实验在RoboTwin基准上验证了其有效性，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

MARLIN: Multi-Agent Game-Theoretic Reinforcement Learning for Sustainable LLM Inference in Cloud Datacenters

H. Moore et al.

cs.DC cs.LG

本文提出一个名为MARLIN的多智能体博弈论强化学习框架，用于优化云数据中心中LLM推理的可持续性（如碳排放、水消耗和能耗），实验显示其在多个指标上优于现有方法。该工作与关键词中的agent相关，但方法本身并非开创性突破。

Reward-Weighted On-Policy Distillation with an Open Property-Equivalence Verifier for NL-to-SVA Generation

Qingyun Zou et al.

cs.AR cs.LG

本文提出了一种名为Reward-Weighted On-Policy Distillation (RWOPD)的方法，用于从LLM生成SystemVerilog Assertions (SVA)。该方法通过一个开源的Property-Equivalence Checker (PEC)对学生模型的输出进行评分，并利用验证器奖励加权的forward-KL梯度进行蒸馏，在NL2SVA任务上取得了新的最优结果。

Limits of Personalizing Differential Privacy Budgets

Edwige Cyffers, Juba Ziani

cs.CR cs.LG

本文研究了差分隐私中个性化隐私预算的局限性，指出对于均值估计问题，通过简单的阈值操作选择有效隐私预算即可达到与完全个性化机制相近的效果，而完全个性化带来的增益仅为常数因子。

ArcVQ-VAE: A Spherical Vector Quantization Framework with ArcCosine Additive Margin

Jaeyung Kim, YoungJoon Yoo

cs.CV cs.AI cs.LG

本文提出ArcVQ-VAE，通过在传统VQ-VAE的codebook中引入球面角间距先验（SAMP），包括球界范数正则化和反余弦加性间隔损失，以提升离散表示的区分度和均匀性。实验表明该方法在图像重建和生成任务上取得了有竞争力的性能。

Beyond Explained Variance: A Cautionary Tale of PCA

Gionni Marchetti

cond-mat.stat-mech cs.LG

本文指出PCA在可视化高维非线性流形数据时的局限性，通过化石牙齿数据集展示了t-SNE和persistent homology能揭示PCA无法发现的环状结构，并提出了一个生成式概率几何模型来支持这一发现。

Towards Unified Surgical Scene Understanding:Bridging Reasoning and Grounding via MLLMs

Jincai Huang et al.

cs.CV cs.AI

本文提出SurgMLLM，一个统一的手术场景理解框架，通过微调多模态大语言模型(MLLM)来桥接高层推理与低层视觉定位，并在CholecT45-Scene数据集上验证了其在相位识别、IVT三元组识别和分割任务上的性能提升。该方法主要面向计算机辅助手术场景，与关键词中的概念关联较弱。

AttenA+: Rectifying Action Inequality in Robotic Foundation Models

Daojie Peng et al.

cs.RO cs.AI

本文提出AttenA+框架，通过基于逆速度场的重加权机制，将训练目标与机器人操作中的物理关键性对齐，以解决现有机器人基础模型中动作损失权重与物理重要性不匹配的问题。该方法作为即插即用增强模块，在多个基准测试上提升了模型性能。

Generating synthetic computed tomography for radiotherapy: SynthRAD2025 challenge report

Viktor Rogowski et al.

physics.med-ph cs.AI

本文报告了SynthRAD2025挑战赛的结果，该挑战赛旨在评估从MRI或CBCT生成合成CT（sCT）的方法，用于放射治疗计划。研究在超过2300名患者上比较了多种深度学习方法的图像质量、分割精度和剂量学准确性，发现CBCT-to-CT任务表现优于MRI-to-CT，并指出图像质量指标不足以完全替代剂量学评估。

Beyond Anthropomorphism: Exploring the Roles of Perceived Non-humanity and Structural Similarity in Deep Self-Disclosure Toward Generative AI

Satoru Shibuya

cs.HC cs.AI

本文通过问卷调查探讨了用户向生成式AI进行深度自我表露的心理因素，发现感知非人性和结构相似性（用户思维与AI响应的逻辑对齐）比拟人化更重要。研究基于2025年2400名参与者的横截面数据，使用logistic回归和ANOVA分析了这些因素与自我表露发生率和深度的关联。

HetScene: Heterogeneity-Aware Diffusion for Dense Indoor Scene Generation

Zini Chen et al.

cs.CV cs.AI

本文提出HetScene，一种基于异质性感知的室内场景生成框架，将物体分为主要和次要对象，通过两阶段生成（结构布局生成和上下文布局生成）来建模密集布局。该方法主要面向计算机视觉和具身AI应用，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念无直接关联。

Reframing preprocessing selection as model-internal calibration in near-infrared spectroscopy: A large-scale benchmark of operator-adaptive PLS and Ridge models

Gregory Beurier et al.

stat.ML cs.LG eess.SP

本文提出了一种将NIRS光谱预处理选择内置于校准模型中的operator-adaptive calibration框架，通过线性spectral operators和fold-local branches处理预处理步骤，并基于PLS和Ridge回归实现了快速、可解释的模型。该方法在超过50个数据集上优于传统方法，但未涉及code、context、Muon、pretrain、agent或attention等关键词。

Causal Learning with the Invariance Principle

Francesco Montagna, Francesco Locatello

stat.ML cs.LG

本文利用structural causal models (SCM)框架，证明了在因果关系的acyclic且跨环境invariant的假设下，仅需两个辅助环境即可推断任意非线性机制下的causal graph，并进一步保证了counterfactual inference的正确性。

OpenAaaS: An Open Agent-as-a-Service Framework for Distributed Materials-Informatics Research

Peng Kang et al.

cond-mat.mtrl-sci cs.AI

本文提出了OpenAaaS，一个开源的层次化分布式Agent-as-a-Service框架，用于解决材料信息学中跨机构协作的“最后一公里”问题。该框架通过“代码流动，数据静止”原则，实现了主Agent对任务的分解与子Agent在本地数据上的安全执行。

CO-MAP: A Reinforcement Learning Approach to the Qubit Allocation Problem

Ankit Kulshrestha, Xiaoyuan Liu

quant-ph cs.LG

本文提出了一种基于Reinforcement Learning (RL)的qubit mapping问题求解方法，通过将问题形式化为combinatorial optimization (CO)目标并训练RL policy来减少量子电路中的SWAP gate开销。实验表明，该方法在MQTBench等数据集上相比传统编译器实现了65-85%的SWAP开销降低。

Conformal Anomaly Detection in Python: Moving Beyond Heuristic Thresholds with 'nonconform'

Oliver Hennhöfer, Maximilian Kirsch, Christine Preisach

stat.ML cs.LG stat.CO

本文介绍了Python包'nonconform'，用于将conformal anomaly detection方法集成到现有机器学习工作流中，通过将异常分数转换为校准的p-value来替代启发式阈值选择。该包支持与'scikit-learn'和'pyod'等库的集成，并提供了多种conformalization策略，旨在使统计原则性的异常检测更易用和可复现。

Causality-Aware End-to-End Autonomous Driving via Ego-Centric Joint Scene Modeling

Seokha Moon et al.

cs.RO cs.AI

本文提出CaAD框架，通过ego-centric joint-causal modeling模块和causality-aware policy alignment阶段，在共享的latent scene representation中建模自车与周围agent的因果依赖关系，以提升端到端自动驾驶中轨迹预测的可靠性。该方法在Bench2Drive和NAVSIM基准上取得了较好的闭环规划性能。

NAACA: Training-Free NeuroAuditory Attentive Cognitive Architecture with Oscillatory Working Memory for Salience-Driven Attention Gating

Zhongju Yuan, Geraint Wiggins, Dick Botteldooren

cs.SD cs.AI

本文提出了一种无需训练的神经听觉注意力认知架构NAACA，通过振荡工作记忆（OWM）机制将注意力分配转化为听觉显著性过滤问题，在XD-Violence数据集上显著提升了AudioQwen的平均精度并减少了不必要的模型调用。该方法主要关注音频处理中的注意力瓶颈，与关键词中的attention有一定关联，但整体方法更偏向认知架构设计而非核心数学创新。

Weakly Supervised Segmentation as Semantic-Based Regularization

Stefano Colamonaco, Andrei-Bogdan Florea, Jaron Maene

cs.CV cs.AI

本文提出了一种基于神经符号方法的弱监督语义分割框架，通过将可微分的fuzzy logic与深度分割模型（如SAM）结合，将弱标注和领域先验统一为连续逻辑约束来微调SAM，从而生成更高质量的伪标签。实验在Pascal VOC 2012和REFUGE2数据集上验证了该方法优于密集监督基线，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Characterizing Universal Object Representations Across Vision Models

Florian P. Mahner et al.

cs.CV cs.LG q-bio.NC

本文通过分解162种视觉模型的object similarity structure，识别出universal dimensions和model-specific dimensions，发现universal dimensions更可解释且与概念属性相关，但与架构、目标函数等无关，且能更好预测生物视觉。

Cross Modality Image Translation In Medical Imaging Using Generative Frameworks

Giulia Romoli et al.

cs.CV cs.AI

本文对医学影像中的3D跨模态图像翻译方法进行了标准化比较评估，在11个数据集上比较了7种生成模型（包括GANs和潜在生成模型），发现GANs整体表现优于潜在生成模型，且合成图像在临床视觉图灵测试中与真实图像难以区分。

MedCore: Boundary-Preserving Medical Core Pruning for MedSAM

Cenwei Zhang, Suncheng Xiang, Lei You

cs.CV cs.LG

本文提出MedCore，一种针对MedSAM的结构化剪枝框架，通过保留适应过程中重要和边界相关结构来压缩模型，在息肉分割基准上实现60%参数减少而Dice仍达0.9549。该方法主要贡献在于引入边界杠杆原理解释剪枝导致的边界退化现象。

Identifying AI Web Scrapers Using Canary Tokens

Steven Seiden et al.

cs.CR cs.AI cs.CY cs.NI

本文提出了一种使用canary tokens（一种用于追踪数据来源的独特标记）的方法，通过向网络爬虫提供独特标记并查询LLM来识别哪些爬虫为哪些LLM提供数据。该方法能自动推断出一些未公开的爬虫，为网站所有者限制不希望的爬取提供了新途径。

DisAgg: Distributed Aggregators for Efficient Secure Aggregation in Federated Learning

Haaris Mehmood et al.

cs.CR cs.DC cs.LG

本文提出了一种名为DisAgg的联邦学习安全聚合协议，通过引入一个由少量客户端组成的Aggregators委员会来执行聚合，从而减少通信轮次和计算开销。该方法利用secret sharing技术，避免了同态加密等复杂操作，在保护隐私的同时提升了效率。

Humanwashing -- It Should Leave You Feeling Dirty

Ben Wilson et al.

cs.HC cs.AI cs.LG cs.SI

本文批判了AI决策系统中“human in the loop”这一隐喻的滥用，指出其类似于“greenwashing”，旨在美化系统而非真正实现有效的人类监督。文章认为，不加区分地使用该隐喻会模糊决策过程与结果，但并未提出新的数学方法或解决具体技术问题。

AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

Yuchao Gu et al.

cs.CV cs.AI

本文提出AnyFlow，一种基于flow map的视频扩散蒸馏框架，通过将蒸馏目标从端点一致性映射改为任意时间间隔的flow map过渡学习，并引入Flow Map Backward Simulation实现高效on-policy蒸馏，从而优化完整的ODE采样轨迹。实验表明，该方法在少步生成中匹配或超越基于consistency的方法，并能随采样步数增加而扩展性能。

Coordinating Multiple Conditions for Trajectory-Controlled Human Motion Generation

Deli Cai, Haoyang Ma, Changxing Ding

cs.CV cs.AI

本文提出CMC框架，通过分治策略将轨迹控制与运动补全解耦，以协调文本与轨迹条件生成人体运动。该方法在HumanML3D和KIT数据集上提升了控制精度与运动质量。

KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving

Zedong Liu et al.

cs.DC cs.AI cs.NI

KVServe是一个针对分离式LLM服务的KV cache压缩框架，通过贝叶斯优化和在线控制器自适应选择压缩策略，以降低通信开销。它主要关注系统层面的性能优化，与关键词中的理论或算法方向关联较弱。

Weakly-Supervised Spatiotemporal Anomaly Detection

Urvi Gianchandani, Praveen Tirupattur, Mubarak Shah

cs.CV cs.AI

本文提出了一种弱监督的时空异常检测方法，仅使用视频级别的标签（正常或包含异常）进行训练，通过多实例排序损失（MIL）从视频片段中提取特征并计算异常分数。该方法在UCF Crime2Local数据集上验证了时空异常检测的有效性。

VectorSmuggle: Steganographic Exfiltration in Embedding Stores and a Cryptographic Provenance Defense

Jascha Wanger

cs.CR cs.IR cs.LG

本文发现现代RAG系统中的vector database存在隐写攻击漏洞，攻击者可通过post-embedding perturbations（如旋转、缩放等）在embedding中隐藏payload数据而不影响检索行为。作者提出VectorPin协议，利用Ed25519签名将每个embedding绑定到其source content和producing model，从而提供cryptographic provenance defense。

(How) Do Large Language Models Understand High-Level Message Sequence Charts?

Mohammad Reza Mousavi

cs.SE cs.AI cs.LO

本文通过设计129项语义任务，测试了三种LLM对High-Level Message Sequence Charts (HMSCs)形式语义的理解能力。结果显示，LLM对基本语义概念（如事件及其顺序）有较好理解（约88%准确率），但在涉及抽象、组合及trace等价等复杂语义推理任务上表现不佳（约36%-42%准确率），整体准确率仅约52%。

LMPath: Language-Mediated Priors and Path Generation for Aerial Exploration

Jonathan A. Diller et al.

cs.RO cs.AI

本文提出LMPath，一种利用语言模型和视觉基础模型为无人机搜索任务生成语义探索先验的pipeline，通过卫星图像分割出可能包含目标物体的子区域，并据此规划无人机路径。该方法在真实环境和仿真中验证了其优于传统几何覆盖路径规划方法。

Amplification to Synthesis: A Comparative Analysis of Cognitive Operations Before and After Generative AI

Liz Cho, Dongwook Yoon

cs.CY cs.AI

本文比较了2016年和2024年美国大选期间X平台上的行为与语言协调模式，发现2024年数据中原创内容比例上升、词汇重叠度下降、时间协调模式改变，这些特征与生成式AI的参与一致。研究为理解生成式AI在认知操作中的作用提供了实证基线。

Parallel Scan Recurrent Neural Quantum States for Scalable Variational Monte Carlo

Ejaaz Merali et al.

cond-mat.str-el cond-mat.dis-nn cs.LG physics.comp-ph quant-ph

本文利用并行扫描技术改进了递归神经网络量子态（PSR-NQS）的可扩展性，使其能在变分蒙特卡洛框架下高效训练，并在一维和二维自旋晶格上达到与量子蒙特卡洛数据一致的结果。该方法展示了递归架构在中等计算资源下进行可扩展神经量子态模拟的实用性。

Neurosymbolic Auditing of Natural-Language Software Requirements

Bethel Hall, William Eiers

cs.SE cs.AI

本文提出VERIMED，一种结合大语言模型与SMT求解器的神经符号学方法，用于审计自然语言软件需求中的歧义、不一致和安全缺陷。通过将需求转化为形式逻辑并利用随机变体检测歧义，该方法在血液透析安全需求上验证了有效性。

R-DMesh: Video-Guided 3D Animation via Rectified Dynamic Mesh Flow

Zijie Wu et al.

cs.CV cs.GR cs.LG

本文提出R-DMesh框架，用于解决视频引导的3D动画中初始姿态不匹配问题。该方法通过VAE解耦输入为条件基网格、相对运动轨迹和修正跳跃偏移，并利用Triflow Attention机制保持几何一致性，最终基于Rectified Flow的Diffusion Transformer生成高保真4D网格。

What is Learnable in Valiant's Theory of the Learnable?

Steve Hanneke et al.

stat.ML cs.DS cs.LG math.ST stat.CO

本文重新审视了Valiant原始学习模型（仅正样本、允许membership queries、无假阳性假设），刻画了有限域上可学习性的充要条件（基于自适应查询压缩方案），并证明该模型的可学习类严格介于PAC模型和无查询变体之间。此外，文章给出了d维半空间在该模型中的首个学习算法，并建立了样本或查询的下界。

EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents

Tara Bogavelli et al.

cs.SD cs.AI cs.CL cs.LG

本文提出了EVA-Bench，一个用于评估voice agent的端到端框架，通过bot-to-bot音频对话模拟和两个复合指标（EVA-A和EVA-X）来评估任务完成度与用户体验，并发现当前系统在准确性和体验上均未超过0.5。该工作主要聚焦于语音agent的评估基准，与关键词中的agent有一定关联，但方法本身并非开创性突破。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.CL

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others