bluearXiv-ai - 2026-05-04

📄 所有论文 ↑ 回顶部

cs.LG

Caracal: Causal Architecture via Spectral Mixing ⭐ 精选

Bingzheng Gan et al.

cs.LG cs.AI

Caracal提出了一种名为Multi-Head Fourier (MHF)的新型架构，通过使用Fast Fourier Transform (FFT)进行sequence mixing，将attention的二次复杂度降低至$\mathcal{O}(L \log L)$。其核心创新在于通过频域中的非对称填充与截断技术实现了causal masking，从而克服了基于Fourier的生成模型在自回归任务上的关键障碍。该方法不依赖硬件特定的实现（如Mamba），仅使用标准库算子，保证了良好的可移植性。该工作为长序列建模提供了一条可扩展且简洁的路径，与关键词中的spectral和attention高度相关。

Data Deletion Can Help in Adaptive RL ⭐ 精选

Param Budhraja et al.

cs.LG math.OC

本文提出了一种在自适应强化学习（Adaptive RL）中简单但反直觉的数据删除策略：在每轮训练后随机删除一部分历史buffer数据。该方法通过隐式地对旧数据施加指数衰减，有效缓解了训练分布与部署分布之间的不匹配问题，从而显著提升了context estimator的鲁棒性。在理论分析中，作者在正则化经验风险最小化框架下证明，当训练与部署分布存在一定程度的mismatch且信噪比（SNR）足够低时，删除单个随机训练点能在期望上降低测试损失。该工作为context-based adaptive RL提供了一种轻量级且有效的改进手段，与关键词中的“context”和“agent”高度契合。

Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation ⭐ 精选

Ziwen Zhao, Menglin Yang

cs.LG cs.AI cs.IR

本文提出$\Psi$-RAG框架，通过构建层次化抽象树索引（Hierarchical Abstract Tree）解决跨文档多跳检索增强生成中的分布适应性和结构隔离问题。其核心创新在于“合并-折叠”迭代过程，无需先验分布假设即可自适应数据特征，并引入多粒度检索agent（Multi-granular Retrieval Agent）实现从token级问答到文档级摘要的跨粒度查询。在跨文档多跳QA基准测试中，$\Psi$-RAG的F1分数较RAPTOR提升25.9%，较HippoRAG 2提升7.4%，显著推动了agent驱动的树状检索方法在复杂知识密集型任务中的应用。

AdaMeZO: Adam-style Zeroth-Order Optimizer for LLM Fine-tuning Without Maintaining the Moments ⭐ 精选

Zhijie Cai, Haolong Chen, Guangxu Zhu

cs.LG cs.AI

AdaMeZO提出了一种零阶优化器，在不存储Adam-style一阶和二阶moment estimates的情况下，利用forward passes实现LLM fine-tuning。该方法通过理论分析和实验证明，相比MeZO，AdaMeZO在保持低GPU内存需求的同时，减少了高达$70\%$的forward passes，并能适应不同的loss landscapes。这为LLM fine-tuning提供了一种高效且内存友好的优化方案，与关键词中的“pretrain”和“attention”相关，因为fine-tuning是pretrain后的关键步骤，而优化器设计影响attention机制的微调效率。

Cloud Is Closer Than It Appears: Revisiting the Tradeoffs of Distributed Real-Time Inference

Pragya Sharma, Hang Qiu, Mani Srivastava

cs.LG cs.AI cs.DC cs.NI

本文重新审视了分布式CPS中云端推理的延迟假设，通过建立形式化分析模型证明，在配备高吞吐计算资源时，云端推理可匹配甚至超越设备端性能，并以自动驾驶紧急制动为例验证了该结论。

FedACT: Concurrent Federated Intelligence across Heterogeneous Data Sources

Md Sirajul Islam et al.

cs.LG cs.AI cs.DC

本文提出FedACT，一种面向异构数据源的联邦学习设备调度方法，通过对齐评分机制动态分配设备以最小化多任务平均完成时间，实验显示其性能优于现有基线。

What Physics do Data-Driven MoCap-to-Radar Models Learn?

Kevin Chen, Kenneth W. Parker, Anish Arora

cs.LG eess.SP

本文提出了一种基于物理的可解释性框架，通过两个互补指标评估数据驱动的MoCap-to-radar模型是否学习了底层物理规律。实验发现，低重建误差并不保证物理一致性，且时间注意力机制对transformer模型学习物理规律至关重要。

AirFM-DDA: Air-Interface Foundation Model in the Delay-Doppler-Angle Domain for AI-Native 6G

Kejia Bian et al.

cs.LG cs.AI cs.IT eess.SP

本文提出了一种在Delay-Doppler-Angle (DDA)域工作的空口基础模型AirFM-DDA，通过将CSI从STF域重参数化到DDA域来显式解析多径分量，并采用基于窗口的注意力机制和帧结构感知位置编码来降低计算复杂度。实验表明该模型在信道预测和估计任务上具有优越的零样本泛化能力。

Learning physically grounded traffic accident reconstruction from public accident reports

Yanchen Guan et al.

cs.LG cs.CV

本文利用公开的事故报告和场景测量数据，构建了CISS-REC数据集并提出一个多模态学习框架，用于实现物理上合理的交通事故重建。该方法通过语义理解与几何推理提升了重建的准确性，但并未涉及code、spectral或Muon等关键词相关技术。

Smart Ensemble Learning Framework for Predicting Groundwater Heavy Metal Pollution

T. Ansah-Narh et al.

cs.LG cs.AI physics.data-an physics.geo-ph stat.AP +1

本文针对Densu盆地地下水重金属污染预测问题，提出了一种集成响应变换与嵌套交叉验证的集成机器学习框架，比较了原始尺度、对数变换和高斯copula变换对重金属污染指数(HPI)建模的影响。结果表明，高斯copula变换结合堆叠Lasso集成模型取得了最佳预测性能，并通过DBSCAN聚类识别出Fe和Mn是HPI的主要贡献者。

Information-Theoretic Generalization Bounds for Stochastic Gradient Descent with Predictable Virtual Noise

Mohammad Partohaghighi

cs.LG

本文提出了一种基于信息论的可预测历史自适应虚拟扰动方法，用于分析随机梯度下降（SGD）的泛化误差界。该方法通过引入条件高斯相对熵论证，将固定扰动协方差扩展为依赖于历史SGD轨迹的自适应协方差，从而得到更一般的泛化界。

Human-in-the-Loop Meta Bayesian Optimization for Fusion Energy and Scientific Applications

Ricardo Luna Gutierrez et al.

cs.LG cs.AI physics.plasm-ph

本文提出了一种Human-in-the-Loop Meta Bayesian Optimization (HL-MBO)框架，通过集成专家知识与少样本、不确定性感知的机器学习来加速惯性约束聚变等数据稀缺领域的科学发现。该方法在ICF能量产额优化等任务上优于现有贝叶斯优化方法。

Soft-MSM: Differentiable Context-Aware Elastic Alignment for Time Series

Christopher Holder, Anthony Bagnall

cs.LG

本文提出了Soft-MSM，一种对Move-Split-Merge (MSM)距离的光滑松弛，使其可作为可微分的弹性对齐损失函数。该方法通过设计光滑门控代理函数来近似MSM中依赖于上下文的split/merge代价，从而允许梯度通过动态规划递归和局部转移结构进行传播。实验表明，Soft-MSM在MSM重心损失、聚类和最近质心分类任务上优于基于Soft-DTW的方法。

CRADIPOR: Crash Dispersion Predictor

Edgar Chaillou et al.

cs.LG

本文提出CRADIPOR，一种用于汽车碰撞仿真中数值离散度预测的工具。它使用Rank Reduction Autoencoder (RRAE)结合监督分类来识别对数值离散敏感的区域，无需重复计算即可在常规后处理中应用。

Hyperspherical Forward-Forward with Prototypical Representations

Shalini Sarode et al.

cs.LG cs.AI

本文提出Hyperspherical Forward-Forward (HFF)算法，将Forward-Forward算法的局部二值拟合任务重构为超球面特征空间中的多类分类问题，通过学习类特定的单位范数prototypes实现单次前向传播的推理与训练，显著提升了推理速度。该方法在ImageNet-1k上首次实现超过25%的top-1准确率，但与我提供的关键词列表（code, context, spectral, Muon, pretrain, agent, attention）无直接契合。

Comparative Analysis of Polygon-Based and Global Machine Learning Models for Bus Occupancy Prediction

Daniel Azenkot, Michael Fire, Eran Ben Elia

cs.LG

本文提出了一种结合空间聚类与多维特征分析的公交车乘客量预测框架，通过将城市划分为不同区域并为每个区域训练局部预测模型，实现了与全局模型相当的预测精度。该方法主要关注空间局部性对预测的影响，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

SPLICE: Latent Diffusion over JEPA Embeddings for Conformal Time-Series Inpainting

Arnaud Zinflou

cs.LG eess.SP stat.ML

本文提出SPLICE框架，将基于JEPA的latent generative imputation与分布自由的conformal prediction结合，用于时间序列填补并给出在线自适应预测区间。该方法在电力负荷数据集上取得了较低的填补误差和可靠的覆盖率，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Learning Fingerprints for Medical Time Series with Redundancy-Constrained Information Maximization

Huayu Li et al.

cs.LG

本文提出了一种用于医学时间序列（如ECG或EEG信号）的表示学习框架，通过交叉注意力瓶颈生成固定大小的潜在指纹令牌，并采用重构损失与基于总编码率（TCR）的多样性惩罚进行训练。该方法旨在学习紧凑且可解释的潜在表示，但并未直接涉及关键词中的code、context、spectral或Muon等概念。

Smart Profit-Aware Crop Advisory System: Kisan AI

Debasis Dwibedy et al.

cs.LG cs.AI cs.ET

本文提出了Kisan AI系统，通过将市场价格特征加入Random Forest模型来优化作物推荐，并集成了价格预测和病害检测模块。该系统主要面向农业应用，与关键词中的核心概念关联较弱。

Technical Report: Activation Residual Hessian Quantization (ARHQ) for Low-Bit LLM Quantization

YiFeng Wang, Zhun Sun, Keisuke Sakaguchi

cs.LG cs.CL cs.CV

本文提出了一种名为Activation Residual Hessian Quantization (ARHQ)的后训练权重分割方法，通过构造输入侧残差Hessian矩阵来识别误差敏感权重方向，并将其分离到高精度低秩分支中，以缓解低比特激活-权重量化中的误差传播问题。实验表明该方法在Qwen3-4B模型上提升了信噪比并保持了推理性能。

Wasserstein Distributionally Robust Regret Optimization for Reinforcement Learning from Human Feedback

Yikai Wang, Shang Liu, Jose Blanchet

cs.LG cs.CL math.OC stat.ML

本文针对RLHF中的reward over-optimization问题，提出Wasserstein分布鲁棒遗憾优化(DRRO)方法，通过优化最坏情况下的regret而非value来缓解过度悲观。该方法在$\ell_1$ ambiguity set下具有精确解和水填充结构，并转化为简单的采样奖励修正，可集成到PPO/GRPO训练中。

Consistent Diffusion Language Models

Hasan Amin et al.

cs.LG

本文提出Multi-Path Discrete Consistency (MPDC)原则，并实例化为Consistent Diffusion Language Model (CDLM)，通过训练denoiser在随机bridge上实现路径不变性，加速离散扩散语言模型的采样。该方法在文本生成任务上取得了新的最优结果，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）无直接契合。

Towards A Generative Protein Evolution Machine with DPLM-Evo

Xinyou Wang et al.

cs.LG

本文提出DPLM-Evo，一个基于离散扩散的蛋白质进化框架，通过显式预测替换、插入和删除操作来模拟蛋白质的渐进进化过程，并引入上下文相关的进化噪声核以生成更符合生物实际的突变模式。该方法在序列理解和突变效应预测任务上取得了先进性能，并支持可变长度的模拟进化与蛋白质后编辑优化。

Introducing WARM-VR: Benchmark Dataset for Multimodal Wearable Affect Recognition in Virtual Reality

Karim Alghoul et al.

cs.LG cs.HC

本文提出了WARM-VR，一个用于虚拟现实环境中多模态情感识别的公开数据集，包含31名参与者的可穿戴传感器数据（如BVP、EDA、ECG等）和同步的多媒体刺激。通过机器学习基准测试，CNN和CNN-Bi-GRU模型在效价分类上达到最佳F1-score 0.63，而轻量级Transformer在唤醒度分类上表现更均衡。

Fair Dataset Distillation via Cross-Group Barycenter Alignment

Mohammad Hossein Moslemi et al.

cs.LG cs.AI

本文研究了数据集蒸馏中的公平性问题，指出蒸馏过程会因不同子组的预测模式差异而导致性能下降。作者提出通过跨组barycenter对齐来缓解这种偏差，但方法本身并非开创性，且与关键词列表关联较弱。

OTSS: Output-Targeted Soft Segmentation for Contextual Decision-Weight Learning

Renjun Hu, Hyun-Soo Ahn

cs.LG stat.ML

本文提出OTSS模型，用于从历史决策和代理输出中学习上下文相关的决策权重向量。该方法通过输出目标软分割实现个性化权重，并在理论上区分了硬分割与软分割的近似-估计权衡。实验表明OTSS在有限评估库中取得了较低的遗憾值。

Diversity in Large Language Models under Supervised Fine-Tuning

Roman Klypa, Oleksandr Cherednichenko

cs.LG

本文研究了Supervised Fine-Tuning (SFT)对Large Language Models (LLMs)生成多样性的影响，指出SFT会抑制多样性，并归因于对低频模式的忽视和预训练知识的遗忘。作者提出了Tempered Focal (TOFU) loss作为新的训练目标，实验表明该方法能在保持响应质量的同时提升输出多样性。

State Stream Transformer (SST) V2: Parallel Training of Nonlinear Recurrence for Latent Space Reasoning

Thea Aviss

cs.LG cs.CL

本文提出State Stream Transformer (SST) V2，通过在每个decoder layer引入FFN驱动的非线性recurrence，在连续latent space中水平传递状态以实现参数高效的推理。该方法支持推理时的连续latent deliberation，并通过两阶段并行训练解决recurrence的序列依赖问题。实验表明，在27B backbone上使用少量GSM8K数据训练后，SST在out-of-distribution的GPQA-Diamond上取得了显著提升。

CompleteRXN: Toward Completing Open Chemical Reaction Databases

Gabriel Vogel et al.

cs.LG physics.chem-ph

本文提出了CompleteRXN，一个用于化学反应补全的大规模监督基准，并评估了包括约束反应平衡器（CRB）在内的基线方法，发现其在高难度数据划分下性能显著下降，揭示了基准性能与实际鲁棒性之间的差距。

Bayesian Optimization in Linear Time

Jesse Schneider, William J. Welch

cs.LG

本文提出了一种基于递归二分搜索空间划分的贝叶斯优化方法，通过将建模与采集过程与划分方案协调，将计算复杂度从标准方法的立方级降至线性级，并在6到124维的测试函数上优于常用库。该方法主要解决了贝叶斯优化在大规模数据下的计算瓶颈问题。

NLPOpt-Net: A Learning Method for Nonlinear Optimization with Feasibility Guarantees

Bimol Nath Roy, Rahul Golder, MM Faruque Hasan

cs.LG

本文提出NLPOpt-Net，一种用于求解带约束非线性规划的无监督学习架构，通过神经网络结合多层投影保证解的可行性，并利用局部二次近似和Chambolle-Pock算法实现高效训练与推理。该方法在多种优化问题上达到接近零的最优性差距和机器精度的约束违反，但与我提供的关键词（如code, context, spectral等）关联度较低。

Pessimism-Free Offline Learning in General-Sum Games via KL Regularization

Claire Chen, Yuheng Zhang

cs.LG cs.GT

本文提出了一种基于KL正则化的离线多智能体强化学习方法，用于解决一般和博弈中的分布偏移问题，并证明了该方法无需显式的悲观惩罚即可实现均衡恢复。

Polaris: Coupled Orbital Polar Embeddings for Hierarchical Concept Learning

Sahil Mishra et al.

cs.LG

Polaris提出了一种极坐标超球面嵌入框架，通过角度和半径分离语义与层次结构，用于层次化概念学习。该方法在多个taxonomy扩展任务上取得了显著改进，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Jailbroken Frontier Models Retain Their Capabilities

Daniel Zhu et al.

cs.LG cs.AI cs.CR

本文研究了越狱攻击对前沿语言模型能力的影响，发现越狱复杂度带来的性能损失与模型能力成反比，最强越狱几乎不降低模型能力。实验表明推理密集型任务比知识回忆任务退化更明显，建议安全评估不应依赖越狱导致的能力退化。

High-Probability Convergence in Decentralized Stochastic Optimization with Gradient Tracking

Aleksandar Armacki, Haoyuan Cai, Ali H. Sayed

cs.LG cs.MA math.OC

本文研究了去中心化随机优化中带有梯度追踪的DSGD算法（GT-DSGD）的高概率收敛性，证明了其在非凸和Polyak-Łojasiewicz代价下达到阶最优的HP收敛率。该工作首次为去中心化优化中结合偏差校正的方法提供了HP保证，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

A Dirac-Frenkel-Onsager principle: Instantaneous residual minimization with gauge momentum for nonlinear parametrizations of PDE solutions

Matteo Raviola, Benjamin Peherstorfer

cs.LG math.NA stat.ML

本文针对PDE解的非线性参数化中Dirac-Frenkel瞬时残差最小化导致的病态非唯一性问题，引入了一种基于Onsager最小耗散原理的历史变量（动量），仅沿零空间方向注入该动量以选择更良态的参数速度。该方法在保持瞬时残差最小化的同时促进了参数演化的时间平滑性，并在奇异或近奇异区域展现出更强的鲁棒性。

Federated Weather Modeling on Sensor Data

Shengchao Chen, Guodong Long

cs.LG

本文探讨了基于联邦学习的传感器数据天气建模方法，通过分布式系统实现多源数据协作训练，无需共享原始数据即可提升天气预测和异常检测的准确性与鲁棒性。

Conformalized Quantum DeepONet Ensembles for Scalable Operator Learning with Distribution-Free Uncertainty

Purav Matlia, Christian Moya, Guang Lin

cs.LG

本文提出Conformalized Quantum DeepONet Ensembles框架，利用Quantum Orthogonal Neural Networks将operator inference复杂度从$O(n^2)$降至$O(n)$，并结合ensemble与adaptive conformal prediction提供无分布假设的uncertainty quantification。实验在合成PDE和电力系统动力学上验证了其准确性，但方法主要针对量子机器学习场景，与关键词中的code、context、spectral等概念关联较弱。

Borrowed Geometry: Computational Reuse of Frozen Text-Pretrained Transformer Weights Across Modalities

Abay Bektursun

cs.LG cs.CL

本文研究了冻结的文本预训练Gemma 4 31B权重通过一个薄的可训练接口跨模态迁移到机器人操作和决策任务的能力，实验表明其在多个基准上达到或超越现有方法。该工作主要关注跨模态迁移的实证表现，与关键词中的code、spectral、Muon、agent、attention等概念关联较弱。

Free Energy Surface Sampling via Reduced Flow Matching

Zichen Liu, Tiejun Li

cs.LG

本文提出FES-FM方法，利用reduced flow matching在collective variable空间中直接采样free energy surface，通过基于Hessian的先验分布保证物理不变性。该方法在多种势函数上降低了计算成本并提升了采样精度。

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

Chengshuai Shi et al.

cs.LG cs.AI cs.CL

本文研究了使用强化学习训练Vision-Language Models (VLMs)在需要超过100步交互的超级马里奥游戏中执行长时决策任务，提出了一种改进的PPO变体（含轻量级turn-level critic），相比GRPO等无critic方法提升了训练稳定性与样本效率，并验证了预训练VLM能提供有效的动作先验。

Hypergraph and Latent ODE Learning for Multimodal Root Cause Localization in Microservices

Xin Liu et al.

cs.LG cs.AI

本文提出HyperODE RCA框架，结合hypergraph attention learning和latent ODE来处理微服务系统中的多模态数据，用于根因定位。该方法通过可微超边构建学习高阶交互，并用ODE-RNN编码器处理不规则时间序列，在基准测试中取得了优于基线方法的性能。

VQ-SAD: Vector Quantized Structure Aware Diffusion For Molecule Generation

Farshad Noravesh et al.

cs.LG cs.AI

本文提出VQ-SAD，使用VQ-VAE将原子和键类型编码为离散codebook，并用于扩散模型的分子生成。该方法在QM9和ZINC250k数据集上略优于现有扩散模型。

Binomial flows: Denoising and flow matching for discrete ordinal data

Yair Shenfeld, Ricardo Baptista, Stefano Peluchetti

cs.LG stat.ME

本文针对离散序数数据，提出了Binomial flows框架，通过建立denoiser与score function在离散设置下的联系，实现了离散扩散模型的训练、采样和似然估计。该方法在合成数据和真实数据集上取得了有竞争力的结果。

Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity

Anamika Lochab, Bolian Li, Ruqi Zhang

cs.LG cs.CL stat.ML

本文分析了RLVR（基于可验证奖励的强化学习）中多样性崩溃的结构性原因，指出常见目标函数（如GRPO）对正确解的概率分布不敏感。为解决此问题，提出了Uniform-Correct Policy Optimization (UCPO)，通过在正确解集上添加条件均匀性惩罚来促进多样性，在多个数学推理基准上提升了Pass@K和多样性。

AlphaInventory: Evolving White-Box Inventory Policies via Large Language Models with Deployment Guarantees

Chenyu Huang et al.

cs.LG cs.AI

本文提出AlphaInventory框架，利用大语言模型通过强化学习在在线非平稳环境中演化库存策略，并基于置信区间提供部署保证。该方法在合成和真实零售数据上优于传统库存策略和深度学习方法。

Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration

Chunlei Meng et al.

cs.LG cs.CY cs.MM

本文提出Group Cognition Learning (GCL)方法，通过两阶段agent协作协议（选择性交互与共识形成）来缓解多模态学习中的模态主导和虚假耦合问题，在多个基准上取得最优结果。该方法与关键词中的agent概念相关，但整体创新性有限。

Advancing Edge Classification through High-Dimensional Causal Modeling of Node-Edge Interplay

Duanyu Feng et al.

cs.LG

本文提出CECF框架，将causal inference应用于edge classification任务，通过GNN的node embedding学习高维edge features的平衡表示，并利用cross-attention network建模node与edge features的依赖关系。实验表明该方法可作为现有模型的灵活增强模块。

ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning

Zihan Lin et al.

cs.LG cs.CL

本文提出ResRL方法，通过SVD-based低秩正样本子空间投影和残差梯度调制，在强化学习框架下提升LLM推理能力并保持生成多样性。该方法在数学、代码等12个基准上优于现有方法，但未涉及关键词中的spectral、Muon、pretrain或agent等核心概念。

PILIR: Physics-Informed Local Implicit Representation

Jianfeng Li, Feng Wang, Ke Tang

cs.LG

本文提出了一种名为PILIR的物理信息局部隐式表示方法，通过将全局物理域分解为离散的latent feature space和连续的generative decoder，并利用可学习的网格编码空间局部性，以缓解PINNs中的spectral bias问题。实验表明该方法能有效提升高频细节的收敛速度和求解精度。

Towards Robust and Scalable Density-based Clustering via Graph Propagation

Yingtao Zheng, Hugo Phibbs, Ninh Pham

cs.LG

本文提出了CluProp框架，将高维空间中的变密度聚类问题重新定义为邻域图上的标签传播过程，通过引入确定性密度传播策略来缓解传统方法的参数敏感性。该框架与距离度量选择无关，能在几分钟内处理百万级数据点并保持较高精度。

Model-Based Reinforcement Learning with Double Oracle Efficiency in Policy Optimization and Offline Estimation

Haichen Hu, Jian Qian, David Simchi-Levi

cs.LG

本文针对大规模环境下的强化学习计算瓶颈，提出了一种基于log-barrier和log-determinant正则化的离线oracle高效算法。该算法在tabular MDPs中实现了最优的$\tilde{O}(\sqrt{T})$ regret界，且其oracle调用复杂度与状态和动作空间大小无关，并推广到了线性MDPs。

Mesh Field Theory: Port-Hamiltonian Formulation of Mesh-Based Physics

Satoshi Noguchi, Yoshinobu Kawahara

cs.LG

本文提出Mesh Field Theory (MeshFT)及其神经实现MeshFT-Net，用于基于网格的连续介质物理模拟。该方法通过将物理的拓扑结构与度量结构分离，并施加最小物理原则，证明了物理动力学可分解为port-Hamiltonian形式，其中保守互连由网格拓扑唯一确定，度量效应仅通过本构关系和耗散项进入。

M-CaStLe: Uncovering Local Causal Structures in Multivariate Space-Time Gridded Data

J. Jake Nichol et al.

cs.LG physics.ao-ph stat.ML

本文提出了M-CaStLe算法，将CaStLe方法推广到多变量时空网格数据，通过局部嵌入和父节点识别阶段联合建模变量内和变量间的因果结构。该方法在多个基准测试和实际案例中验证了有效性，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Trees to Flows and Back: Unifying Decision Trees and Diffusion Models

Sai Niranjan Ramachandran, Suvrit Sra

cs.LG cond-mat.stat-mech cs.AI

本文通过建立决策树与扩散过程之间的数学对应关系，提出了统一框架GTSM，并展示了其在表格数据生成和知识蒸馏中的实际应用。

Rethinking LLM Ensembling from the Perspective of Mixture Models

Jiale Fu et al.

cs.LG cs.CL

本文从mixture model的角度重新审视LLM ensemble，提出ME方法，通过随机选择单个模型生成下一个token来避免计算完整ensemble分布，从而提升效率。该方法在数学上等价于从ensemble分布中采样，但只需调用一个模型，速度提升约1.78-2.68倍。

BWLA: Breaking the Barrier of W1AX Post-Training Quantization for LLMs

Zhixiong Zhao, Zukang Xu, Dawei Yang

cs.LG cs.AI

本文提出BWLA框架，通过Orthogonal-Kronecker Transformation (OKT)和Proximal SVD Projection (PSP)实现大语言模型的1-bit权重量化与低比特激活量化，在保持高精度的同时显著加速推理。该方法主要针对激活值重尾分布问题，但与我提供的关键词列表关联较弱。

GD4: Graph-based Discrete Denoising Diffusion for MIMO Detection

Qincheng Lu, Sitao Luan, Xiao-Wen Chang

cs.LG

本文提出了一种基于图的离散去噪扩散方法GD4，用于MIMO检测问题。该方法直接在离散符号空间中进行去噪，避免了传统扩散模型在连续松弛空间中的复杂采样过程，在欠定和过定系统中均能获得高质量次优解。

Optimal Spatio-Temporal Decoupling for Bayesian Conformal Prediction

Yu-Hsueh Fang, Chia-Yen Lee

cs.LG stat.ML

本文提出State-Adaptive Bayesian Conformal Prediction (SA-BCP)方法，通过用空间kernel-density证据门控长期时间惯性，实现了最优时空解耦。该方法在金融数据集上相比现有方法在Winkler score上表现更优，并减少了未校准的区间膨胀。

Adaptive Equilibrium: Dynamic Weighting Framework for Generalized Interruption of DeepFake Models

Hongrui Zheng, Liejun Wang, Zhiqing Guo

cs.LG cs.CV

本文提出了一种自适应均衡框架(AEF)，通过动态加权机制解决深度伪造模型通用扰动生成中的中断不平衡问题。该方法利用实时损失反馈为最抵抗的模型分配更大中断权重，以实现更均衡的中断性能。

The Power of Order: Fooling LLMs with Adversarial Table Permutations

Xinshuai Dong et al.

cs.LG

本文发现LLMs在处理表格数据时对行列排列敏感，并提出了Adversarial Table Permutation (ATP)攻击方法，通过梯度优化找到最坏排列来破坏模型性能。实验表明该攻击能显著降低多种LLMs在表格问答任务上的表现。

Federated Learning with Hypergradient-based Online Update of Aggregation Weights

Ayano Nakai-Kasai, Tadashi Wadayama

cs.LG eess.SP

本文提出FedHAW方法，通过超梯度（hypergradient）在线更新联邦学习中的聚合权重，以应对客户端数据异构和通信环境变化。该方法计算开销低，仿真表明其在异构环境下具有高泛化性能和通信鲁棒性。

PAMod: Modeling Cyclical Shifts via Phase-Amplitude Modulation for Non-stationary Time Series Forecasting

Yingbo Zhou et al.

cs.LG cs.AI

本文提出PAMod框架，通过Phase-Amplitude Modulation在归一化特征空间中建模时间序列的周期性分布偏移，以解决非平稳时间序列预测问题。该方法将相位调制用于均值偏移、幅度调制用于方差变化，并在理论上证明了归一化空间中的调制等价于动态反归一化。

Batch Normalization for Neural Networks on Complex Domains

Xuan Son Nguyen, Nistor Grozavu

cs.LG stat.ML

本文提出了复数域神经网络上的Batch Normalization层，与已有的Riemannian BN层有密切联系，并推导了在Siegel disk等复数域上的实现组件。实验表明该方法在雷达杂波分类、节点分类和动作识别任务上有效。

Near-optimal and Efficient First-Order Algorithm for Multi-Task Learning with Shared Linear Representation

Shihong Ding, Fangyu Du, Cong Fang

cs.LG math.OC

本文提出了一种用于多任务学习（MTL）中共享线性表示的一阶算法，该算法在$\widetilde{\mathcal{O}}(1)$次迭代内收敛，并达到了$\widetilde{\mathcal{O}}(dk/(TN))$的近最优估计误差，优于现有基于似然的方法。该工作主要关注优化理论，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Scalable Context-Aware Graph Attention for Unsupervised Anomaly Detection in Large-Scale Mobile Networks

Sara Malacarne et al.

cs.LG cs.AI

本文提出C-MTAD-GAT框架，结合temporal和feature-wise graph attention与context conditioning，用于大规模移动网络中无监督异常检测。该方法在TELCO数据集和实际运营商网络中提升了检测性能，但未涉及code、spectral、Muon、pretrain或agent等关键词。

Trading off rewards and errors in multi-armed bandits

Akram Erraqabi et al.

cs.LG

本文研究了多臂老虎机问题中识别臂均值准确性与累积奖励之间的权衡，提出了一种能在两个目标间插值的算法并给出了遗憾界。

Revealing graph bandits for maximizing local influence

Alexandra Carpentier, Michal Valko

cs.LG

本文研究图bandit问题，目标是通过最少的信息交互找到图中最具影响力的节点。作者提出BARE策略，并证明其regret bound与可检测维度相关，该维度通常远小于节点数。

Distance metric learning for conditional anomaly detection

Michal Valko, Milos Hauskrecht

cs.LG

本文研究了条件异常检测中的距离度量学习问题，提出了一种基于实例的方法来优化距离度量，以更好地反映条件异常模式。该方法通过调整度量来提升异常检测性能。

Scaling Federated Linear Contextual Bandits via Sketching

Hantao Yang et al.

cs.LG

本文针对联邦线性contextual bandits中高维数据带来的计算和通信瓶颈，提出了一种基于sketching的算法FSCLB。该方法通过SVD和双重sketch策略，将每轮的计算复杂度从$O(d^3)$降至$O(l^2d)$，通信成本从$O(d^2)$降至$O(ld)$，并理论上证明了其regret界与无sketch的最优结果相匹配。

LambdaRankIC: Directly Optimizing Rank IC for Financial Prediction

Yan Lin, Yihong Su, Yi Yang

cs.LG

本文提出LambdaRankIC方法，通过推导pairwise rank swap的lambda梯度闭式解，在LambdaRank框架下直接优化Rank IC（Spearman秩相关系数），并作为XGBoost的自定义目标函数实现。实验表明，该方法在金融预测中优于回归和NDCG导向的排序方法。

A Comparative Study of QSPR Methods on a Unique Multitask PAMPA dataset

Andrs Formanek et al.

cs.LG

本文构建了一个包含143个药物分子的多任务PAMPA数据集，系统比较了从线性回归到预训练transformer架构的多种分子描述符与回归模型在预测被动膜渗透性上的效果。研究发现，在有限样本量下，专家设计的物理化学性质描述符优于基于深度学习的表示方法。

Scale-Aware Adversarial Analysis: A Diagnostic for Generative AI in Multiscale Complex Systems

Mengke Zhao et al.

cs.LG cs.CV physics.comp-ph

本文提出了一种基于Constrained Diffusion Decomposition (CDD)的诊断框架，用于评估生成式AI模型在复杂多尺度物理系统中的表现。通过向Denoising Diffusion Probabilistic Model (DDPM)施加尺度感知的物理扰动，发现模型在跨尺度连续性上存在缺陷，导致生成轨迹不稳定。

Beyond Continuity: Simulation-free Reconstruction of Discrete Branching Dynamics from Single-cell Snapshots

Junda Ying et al.

cs.LG cs.AI math-ph q-bio.GN q-bio.QM

本文提出Unbalanced Schrodinger Bridge (USB)框架，用于从单细胞快照数据中重建离散分支动力学。该方法通过模拟自由的训练目标，将细胞视为同时经历Brownian运动和离散生灭跳跃的个体，从而在单细胞分辨率下捕捉随机性和非保守质量效应。

Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

Minchan Kwon et al.

cs.LG

本文针对LLM红队测试中攻击多样性与训练稳定性的矛盾，提出Stable-GFN方法，通过对比轨迹平衡避免配分函数估计并增强对噪声奖励的鲁棒性。该方法在保持GFN最优策略的同时提升了训练稳定性，实验证明了其攻击性能与多样性优势。

Fairness of Classifiers in the Presence of Constraints between Features

Martin C. Cooper, Imane Bousdira

cs.LG cs.AI

本文研究了在特征间存在约束时分类器的公平性定义，提出了“公平解释”的概念（即决策的prime-implicant理由不包含受保护特征），并分析了三种公平性定义之间的关系及其计算复杂度。

Possibilistic Predictive Uncertainty for Deep Learning

Yao Ni et al.

cs.LG cs.AI cs.CV

本文提出了一种名为DAPPr的框架，通过可能性理论（possibility theory）来建模深度神经网络中的认知不确定性（epistemic uncertainty），并利用Dirichlet分布近似后验预测。该方法在保持计算效率的同时，提供了与贝叶斯方法相当的不确定性量化性能。

Affinity Is Not Enough: Recovering the Free Energy Principle in Mixture-of-Experts

Man Yung Wong

cs.LG cs.NE

本文针对稀疏MoE路由在域转换时失效的问题，提出了三种轻量级门控修改：时间记忆(beta)、精度加权门控(Pi)和预期路由(Ant)。实验表明，这些机制能显著提升域转换时的专家选择概率，并降低语言模型中的转换步bits-per-character。该方法借鉴了自由能原理和脉冲神经网络中的LIF动力学，但与我提供的关键词(code, context, spectral, Muon, pretrain, agent, attention)关联度较低。

Decouple before Integration: Test-time Synthesis of SFT and RLVR Task Vectors

Chaohao Yuan et al.

cs.LG

本文提出了一种名为Decoupled Test-time Synthesis (DoTS)的后处理框架，通过分析SFT和RLVR任务向量的结构差异（如幅度差异和符号干扰），在推理时使用稀疏化和贝叶斯优化来合成两者能力，避免了联合训练中的梯度冲突。该方法在数学推理基准上以极低的计算成本达到了与训练方法相当的性能。

Class Angular Distortion Index for Dimensionality Reduction

Kaviru Gunaratne, Stephen Kobourov, Jacob Miller

cs.LG

本文提出了Class Angular Distortion Index (CADI)，一种利用点三元组内角来评估降维投影中聚类组织忠实度的新指标。该指标可区分全局与局部方法在聚类排列上的失真，且具有可微性，可用于优化降维过程。

Unlearning Offline Stochastic Multi-Armed Bandits

Zichun Ye et al.

cs.LG cs.DS

本文首次研究了离线随机多臂老虎机（MAB）中的机器学习遗忘问题，形式化了隐私约束，并基于高斯机制和回滚两种基础算法提出了自适应切换算法，在固定样本和分布两种数据生成模型下提供了性能保证。

Knowing when to trust machine-learned interatomic potentials

Shams Mehdi, Ilkwon Cho, Olexandr Isayev

cs.LG physics.chem-ph

本文提出了一种名为PROBE的后验方法，通过使用紧凑的判别分类器分析预训练MLIP的冻结原子表示，将不确定性量化转化为选择性分类问题。该方法无需修改底层模型即可生成单调跟踪实际误差的可靠性概率，并在多种架构上优于集成不一致性方法。

Bridging Graph Drawing and Dimensionality Reduction with Stochastic Stress Optimization

Daniel Hangan, Stephen Kobourov, Jacob Miller

cs.LG

本文通过将图绘制中的Stochastic Gradient Descent (SGD)技术应用于向量数据嵌入，提出了一种兼容scikit-learn的estimator，用于最小化全局stress。实验表明，该方法在标准高维基准上比SMACOF算法收敛更快，且能达到相似或更低的stress值。

Learning Multimodal Energy-Based Model with Multimodal Variational Auto-Encoder via MCMC Revision

Jiali Cui, Zhiqiang Lao, Heather Yu

cs.LG cs.AI

本文提出了一种结合Multimodal EBM和Multimodal VAE的学习框架，通过MCMC修正来改进多模态数据生成。该方法利用生成器和推理模型为EBM采样提供初始状态，从而提升多模态样本的连贯性和质量。

From Prediction to Practice: A Task-Aware Evaluation Framework for Blood Glucose Forecasting

Alireza Namazi, Heman Shakeri

cs.LG

本文针对血糖预测任务，提出了一个任务感知的评估框架，通过低血糖预警和胰岛素剂量决策两个下游任务，揭示了标准聚合指标（如平均误差）与模型实际临床效用之间的差距。

PEACE: Cross-modal Enhanced Pediatric-Adult ECG Alignment for Robust Pediatric Diagnosis

Xinran Liu et al.

cs.LG

本文提出PEACE框架，通过跨模态对齐（利用临床语义描述作为辅助监督）将成人ECG表示迁移到儿科诊断，在低资源场景下提升了性能。该方法主要关注ECG信号处理，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念关联较弱。

Budget Constraints as Riemannian Manifolds

Michael Helcig, Dan Alistarh

cs.LG

本文提出了一种基于Riemannian流形的约束优化方法RCO，通过将预算约束建模为logit空间中的光滑流形，利用闭式法向量和二分搜索回缩实现精确预算控制，并集成到Adam优化器中。该方法在混合精度量化和MoE专家剪枝等任务中，无需超参数调优即可达到或超越进化搜索的性能，同时显著降低计算开销。

Reinforcement Learning with Markov Risk Measures and Multipattern Risk Approximation

Andrzej Ruszczynski, Tiangang Zhang

cs.LG cs.AI math.OC stat.ML

本文针对风险厌恶的有限时域Markov Decision Problem，引入了一类特殊的Markov coherent risk measures（mini-batch measures），并定义了推广线性系统的multipattern风险厌恶问题。基于这些概念，作者提出了一种特征基$Q$-learning方法，并证明了其高概率regret界。

Augmented Lagrangian Multiplier Network for State-wise Safety in Reinforcement Learning

Jiaming Zhang et al.

cs.LG cs.AI

本文提出了一种增强拉格朗日乘子网络(ALaM)框架，用于在强化学习中稳定学习状态相关的乘子，以处理状态级安全约束。该方法通过引入二次惩罚项和基于回归的乘子网络训练，缓解了标准对偶梯度上升法在乘子网络上的训练振荡问题。实验表明，该算法在安全性和回报上优于现有基线，但与关键词列表中的概念关联较弱。

Evaluating the Architectural Reasoning Capabilities of LLM Provers via the Obfuscated Natural Number Game

Lixing Li

cs.LG

本文通过混淆自然数游戏（Obfuscated Natural Number Game）评估了大语言模型在形式化定理证明中的架构推理能力，发现混淆操作普遍增加了推理时间，且通用模型性能下降而推理模型保持准确率。该工作为量化模型的数学推理能力提供了指标，但未直接涉及关键词中的特定技术。

Deep Kernel Learning for Stratifying Glaucoma Trajectories

Bruce Rushing et al.

cs.LG

本文提出了一种基于deep kernel learning (DKL)的架构，利用transformer提取特征并定义Gaussian Process (GP)的kernel，从多模态EHR数据中对青光眼患者轨迹进行分层。该方法成功识别出三个临床不同的患者亚组，并能够解耦疾病进展与当前严重程度。

Aitchison Embeddings for Learning Compositional Graph Representations

Nikolaos Nakis et al.

cs.LG cs.SI

本文提出了一种基于Aitchison geometry的compositional graph embedding框架，将节点表示为simplex-valued compositions，并通过isometric log-ratio (ILR) coordinates进行嵌入。该方法在node classification和link prediction任务上取得了与强baseline相当的性能，并提供了内在可解释性。

Weisfeiler Lehman Test on Combinatorial Complexes: Generalized Expressive Power of Topological Neural Networks

Jiawen Chen et al.

cs.LG

本文提出了Combinatorial Complex Weisfeiler-Lehman (CCWL)测试，将WL测试推广到组合复形上，通过四种邻域关系统一了拓扑消息传递的框架，并证明了上下邻域足以达到完整CCWL的表达能力。在此基础上，作者设计了Combinatorial Complex Isomorphism Network (CCIN)，在合成和真实基准上取得了优于基线方法的表现。

Temporal Data Requirement for Predicting Unplanned Hospital Readmissions

Ramin Mohammadi et al.

cs.LG

本文研究了预测髋关节和膝关节置换术后30天再入院时，不同历史数据时间窗口（从手术当天到术前三年）对预测准确性的影响。结果表明，非结构化临床笔记的最佳时间窗口（3-6个月）远短于结构化数据（12个月后趋于平稳），挑战了“更多历史数据带来更好预测”的普遍假设。

NonZero: Interaction-Guided Exploration for Multi-Agent Monte Carlo Tree Search

Sizhe Tang et al.

cs.LG

本文提出NonZero方法，通过交互引导的proposal rule在低维非线性表示上进行代理引导的选择，而非直接探索联合动作空间，以解决多智能体Monte Carlo Tree Search在协作场景中的扩展性问题。该方法将候选提议形式化为一个bandit问题，并推导出具有次线性局部regret保证的规则，实验表明其在多个基准上提升了样本效率和最终性能。

Learning the Helmholtz equation operator with DeepONet for non-parametric 2D geometries

Rodolphe Barlogis et al.

cs.LG

本文使用基于DeepONet的物理信息神经算子网络，学习非参数化二维域上Helmholtz方程的解算子，通过符号距离函数编码任意形状散射体的几何信息，并利用有限元方法验证其泛化能力。该方法避免了为每个几何形状重新网格化，提供了比有限元方法更轻量的替代模型。

Meritocratic Fairness in Budgeted Combinatorial Multi-armed Bandits via Shapley Values

Shradha Sharma, Swapnil Dhamal, Shweta Jain

cs.LG cs.AI cs.MA

本文针对预算约束下的组合多臂老虎机（BCMAB-FBF）问题，提出了一种基于Shapley值的功绩公平性框架。通过引入$K$-Shapley值来估计个体臂的边际贡献，并设计了K-SVFair-FBF算法，在完全反馈下学习未知估值函数并抑制蒙特卡洛噪声。

Observable Performance Does Not Fully Reflect System Organization: A Multi-Level Analysis of Gait Dynamics Under Occlusal Constraint

Jacques Raynal, Pierre Slangen, Jacques Margerit

cs.LG q-bio.NC

本文通过分析帕金森患者在咬合约束下的步态动力学，发现可观测性能指标无法完全反映系统内部组织状态，并提出了一个包含聚合线性指标、动力系统框架和潜在空间表示的多层次分析框架。该研究为理解自适应生物力学系统的约束响应提供了结构化方法，但未建立机制性或预测性关系。

SAVGO: Learning State-Action Value Geometry with Cosine Similarity for Continuous Control

Stavros Orfanoudakis, Pedro P. Vergara

cs.LG

本文提出SAVGO算法，通过学习状态-动作嵌入空间中的cosine similarity来统一value estimation与policy optimization，在MuJoCo连续控制任务上验证了有效性。该方法将representation learning与policy update结合，但未涉及code、spectral或Muon等关键词相关技术。

RunAgent: Interpreting Natural-Language Plans with Constraint-Guided Execution

Arunabh Srivastava et al.

cs.LG cs.CL cs.MA

RunAgent是一个多agent计划执行平台，通过约束引导和rubrics将自然语言计划转化为结构化执行流程，并利用agentic语言（如IF、GOTO、FORALL）和动态选择LLM推理、工具使用或代码生成来确保正确性。它在Natural-plan和SciBench数据集上优于基线LLM和PlanGEN方法，但方法本身在数学理论或长期问题解决上缺乏开创性。

Generating Statistical Charts with Validation-Driven LLM Workflows

Pavlin G. Poličar, Andraž Pevcin, Blaž Zupan

cs.LG

本文提出了一种基于LLM的结构化工作流，通过验证驱动的迭代过程从表格数据生成统计图表，并构建了包含代码、数据集上下文和问答对的数据集。实验评估了16个多模态LLM在图表问答上的表现，发现图表语法问题接近饱和，但数值提取和推理仍具挑战。

cs.AI

TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data

Rong Lu

cs.AI eess.SY

本文提出了TADI系统，通过agentic AI将异构井场数据（如钻井报告和实时数据）转化为分析智能，利用大语言模型编排12个领域专用工具进行多步证据收集。系统在Equinor Volve数据集上验证了工具设计对分析质量的主导作用，而非单纯依赖模型规模。

AgentReputation: A Decentralized Agentic AI Reputation Framework

Mohd Sameen Chishti, Damilare Peter Oyinloye, Jingyue Li

cs.AI

本文提出了一个名为AgentReputation的去中心化三层信誉框架，用于agentic AI系统，以解决现有信誉机制在去中心化市场中无法应对策略性优化、任务上下文转移和验证严格性差异的问题。该框架分离了任务执行、信誉服务和持久化存储，并引入了上下文条件信誉卡和决策策略引擎。

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

Shubham Kumar, Narendra Ahuja

cs.AI

本文提出LOCA方法，通过识别LLM中间表示中一组最小且可解释的因果变化来解释特定jailbreak攻击成功的原因。实验表明LOCA平均仅需6次变化即可诱导模型拒绝，优于需要20次以上变化的现有方法。

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Kaituo Zhang et al.

cs.AI

本文研究了LLM agents中工具增强推理的局限性，发现存在语义干扰时工具调用可能不如原生CoT，并提出了Factorized Intervention Framework来分解工具使用的成本与收益。

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

Abdulhady Abas Abdullah et al.

cs.AI

本文提出TUR-DPO，一种拓扑与不确定性感知的直接偏好优化方法，通过引入轻量推理拓扑结构并融合语义忠实度、效用和拓扑质量来校准不确定性信号，从而改进DPO对偏好信号的建模。实验表明，该方法在数学推理、问答、摘要等任务上提升了胜率和校准性，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

Sydney Johns et al.

cs.AI

ARMOR 2025是一个针对军事场景的大语言模型安全基准，基于战争法、交战规则和联合伦理条例等军事教义构建了519个多项选择题，用于评估模型在军事决策中的安全对齐。该工作与关键词列表中的概念无直接关联。

Causal Foundations of Collective Agency

Frederik Hytting Jørgensen, Sebastian Weichwald, Lewis Hammond

cs.AI cs.GT cs.MA

本文采用因果博弈和因果抽象的形式化框架，从行为视角定义集体能动性（collective agency），即当一组智能体的联合行动可被视为理性且目标导向时，该群体可被看作一个统一的集体智能体。该框架用于分析actor-critic模型中的多智能体激励问题，并量化不同投票机制所体现的集体能动性程度。

Agentic AI for Trip Planning Optimization Application

Tiejin Chen et al.

cs.AI

本文提出了一种用于智能车辆行程规划优化的agentic AI框架，通过编排agent协调交通、充电和兴趣点等专业agent实现动态优化，并构建了包含最优解的TOP数据集。实验表明该方法在基准测试中达到77.4%的准确率，优于单agent和基于工作流的多agent基线。

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

Yuxuan Gao, Megan Wang, Yi Ling Yu

cs.AI cs.DC cs.LG cs.PF

本文提出了TokenArena，一个在endpoint粒度上衡量AI推理性能的连续benchmark，从输出速度、首token延迟、工作负载混合价格、有效上下文和实时端点质量五个核心维度进行评估，并整合为每正确答案的焦耳数、每正确答案的美元数和端点保真度三个综合指标。实验表明，同一模型在不同endpoint上的数学和代码准确率差异可达12.5分，尾延迟相差一个数量级，且工作负载感知的混合定价会显著改变排行榜排名。

AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?

Ranit Karmakar, Jayita Chatterjee

cs.AI cs.CL

本文提出了AgentFloor基准，一个包含30个任务的六层能力阶梯，用于评估小模型在agent工作流中的工具使用能力。实验发现中小型开源模型已能胜任大部分短程结构化工具调用任务，但在需要长期规划的任务上仍落后于前沿模型。

Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling

Sen Cui, Jingheng Ma

cs.AI cs.RO

本文提出Hamiltonian World Models，将观测编码到结构化潜相空间，通过Hamiltonian动力学演化状态并解码用于规划，旨在提升世界模型的物理可解释性和长期稳定性。

AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

Haotian Zhao et al.

cs.AI

本文提出AEM，一种无需额外监督的credit assignment方法，通过自适应调节entropy dynamics来改进multi-turn agentic RL训练中的exploration-exploitation平衡。实验表明该方法在多个benchmark上有效，但未直接涉及code、spectral或Muon等关键词。

Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation

Jinkun Liu et al.

cs.AI cs.RO

本文提出Interleaved Vision-Language Reasoning (IVLR)框架，通过交替文本子目标与视觉关键帧的显式中间表示（trace）来指导长时域机器人操作。该方法在LIBERO等基准上取得了较高成功率，但主要贡献在于机器人操作领域的多模态推理，与关键词中的code, spectral, Muon, pretrain, agent, attention等概念关联较弱。

On the Role of Artificial Intelligence in Human-Machine Symbiosis

Ching-Chun Chang et al.

cs.AI cs.CL cs.HC

本文探讨了人机共生中AI角色的追踪问题，提出了一种从自然语言生成内容中推断AI功能角色（如辅助编辑或创意生成）的方法，并通过实验验证了其有效性。该研究与关键词列表中的概念关联较弱。

Instance-Aware Parameter Configuration in Bilevel Late Acceptance Hill Climbing for the Electric Capacitated Vehicle Routing Problem

Yinghao Qin et al.

cs.AI math.OC

本文针对Electric Capacitated Vehicle Routing Problem，提出了一种实例感知的参数配置方法，通过离线调优和回归模型为Bilevel Late Acceptance Hill Climbing算法预测参数，在基准测试上取得了平均0.28%的目标值改进。该方法主要关注算法参数对实例异质性的适应，与关键词列表中的概念关联较弱。

Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding

Yan Zhang et al.

cs.AI cs.CV

本文提出GUI-SD，首个针对GUI grounding的on-policy self-distillation框架，通过构建视觉增强的privileged context和entropy-guided distillation来提供密集token级监督，在多个基准上优于GRPO方法。

To Call or Not to Call: A Framework to Assess and Optimize LLM Tool Calling

Qinyuan Wu et al.

cs.AI

本文提出一个基于决策理论的框架，用于评估和优化LLM在web search任务中的tool calling决策，通过分析必要性、效用和可负担性三个因素，发现模型对tool call的感知需求与实际需求存在偏差，并训练了基于hidden state的轻量级估计器来改进决策质量。

Position: agentic AI orchestration should be Bayes-consistent

Theodore Papamarkou et al.

cs.AI cs.LG stat.ML

本文主张在agentic AI系统的控制层（orchestration layer）中采用Bayesian决策理论，以处理工具调用、专家咨询等不确定性决策问题，并认为这比让LLM本身成为显式的Bayesian信念更新引擎更为可行。文章讨论了如何通过维护和更新关于任务相关潜在量的信念来改进agentic AI的协调。

cs.IR

Exploring LLM biases to manipulate AI search overview

Roman Smirnov

cs.IR cs.AI cs.CL

本文研究了LLM Overview系统中的偏见问题，通过训练一个小型语言模型使用reinforcement learning重写搜索片段来操纵系统结果。实验证明了LLM Overview存在偏见且可通过优化片段内容被利用，但未涉及code、spectral、Muon等关键词相关方法。

A Survey of Reasoning-Intensive Retrieval: Progress and Challenges

Yiyang Wei et al.

cs.IR cs.AI

本文综述了推理密集型检索（Reasoning-Intensive Retrieval, RIR）领域，该领域关注查询与证据间存在潜在推理关联而非语义相似性的检索场景。文章系统化了现有RIR基准，并引入了一个结构化分类法，根据推理在检索流程中的集成位置与方式对方法进行分类，同时总结了当前挑战与未来方向。

Intelligent Elastic Feature Fading: Enabling Model Retrain-Free Feature Efficiency Rollouts at Scale

Jieming Di et al.

cs.IR cs.LG

本文提出了Intelligent Elastic Feature Fading (IEFF)系统，通过弹性控制特征覆盖率和分布来实现无需显式模型重训练的特征效率部署，加速了工业级排序系统的迭代并消除了重训练相关的GPU开销。

DynamicPO: Dynamic Preference Optimization for Recommendation

Xingyu Hu et al.

cs.IR cs.AI

本文发现基于LLM的推荐系统中，增加负样本数量会导致偏好优化崩溃，并理论证明这是由于易区分负样本对边界关键负样本的梯度抑制所致。为此提出DynamicPO框架，通过动态边界负样本选择和双边界动态beta调整两个自适应机制来缓解该问题。

Negative Data Mining for Contrastive Learning in Dense Retrieval at IKEA.com

Eva Agapaki, Amritpal Singh Gill

cs.IR

本文针对IKEA产品搜索的dense retrieval系统，提出了基于产品层次分类和属性的结构化负采样策略，并利用LLM作为评判者生成训练数据。实验表明该方法在离线测试中提升了分类准确率，但在线A/B测试中未观察到用户参与度的显著差异，揭示了离线检索质量与在线用户行为之间的差距。

FollowTable: A Benchmark for Instruction-Following Table Retrieval

Rihui Jin et al.

cs.IR cs.CL

本文提出了Instruction-Following Table Retrieval (IFTR)任务，并构建了FollowTable基准来评估模型在表格检索中遵循细粒度指令的能力。实验表明现有检索模型在处理内容范围和schema约束时存在系统性偏差。

Time-Interval-Aware Disentangled Expert Modeling for Next-Basket Recommendation

Zhiying Deng et al.

cs.IR

本文针对Next-Basket Recommendation (NBR)任务，提出了一种名为TIDE的模型。该模型通过Hawkes-enhanced Fourier Time Encoding捕获item-specific的时间周期性，并利用Habit Expert和Pattern-Guided Exploration Expert的双专家架构来解耦用户的习惯性回购与探索性意图。

LLM-Oriented Information Retrieval: A Denoising-First Perspective

Lu Dai et al.

cs.IR cs.AI cs.CL

本文从去噪优先的视角重新审视了面向LLM的信息检索范式，提出了一个四阶段框架（从不可访问到不可验证）来组织信号-噪声优化技术，并涵盖了索引、检索、上下文工程、验证和agent工作流等环节。该工作主要聚焦于RAG和agentic search场景下的信息去噪挑战，与关键词中的agent和context有一定关联，但整体属于综述性观点论文，缺乏具体方法创新。

When More Reformulations Hurt: Avoiding Drift using Ranker Feedback

V Venktesh, Mandeep Rathee, Avishek Anand

cs.IR

本文提出ReformIR框架，通过使用强reranker作为教师进行在线相关性估计，在固定推理预算下自适应选择query reformulations及其检索文档，以平衡recall和query drift。实验表明该方法在MSMARCO和TREC DL基准上优于现有策略，但未涉及code、spectral、Muon等关键词。

MUDY: Multi-Granular Dynamic Candidate Contextualization for Unsupervised Keyphrase Extraction

Hyeongu Kang, Susik Yoon

cs.IR

本文提出了一种无监督关键短语提取框架MUDY，通过prompt-based scoring和self-attention-based scoring两种互补组件，从多粒度（文档级和片段级）捕捉候选关键短语的上下文显著性。实验表明该方法在多个数据集上优于现有基线，但未涉及code、spectral、Muon等关键词。

A Replicability Study of XTR

Rohan Jha, Reno Kriz, Benjamin Van Durme

cs.IR

本文对XTR检索算法及其训练目标进行了复现研究，发现XTR在受控比较下并未优于ColBERT，但其训练方法能通过平坦化token得分分布来提升IVF-based检索引擎（如PLAID和WARP）的效率。

Robust Multimodal Recommendation via Graph Retrieval-Enhanced Modality Completion

Yuan Li et al.

cs.IR cs.SI

本文提出GRE-MC框架，通过引入模态感知的子图检索机制和graph transformer联合编码，解决多模态推荐中模态缺失问题。该方法利用全局attention从整个图中检索语义相关子图以补全缺失特征，并通过可学习稀疏路由码本增强鲁棒性。

cs.CL

Agent Capsules: Quality-Gated Granularity Control for Multi-Agent LLM Pipelines ⭐ 精选

Aninda Ray

cs.CL cs.AI

本文提出Agent Capsules，一种用于多Agent LLM pipeline的自适应执行运行时。它将pipeline执行视为带经验质量约束的优化问题，通过质量门控机制在三种compound执行策略（standard, two-phase, sequential）间动态切换，以在节省token的同时避免质量下降。实验表明，该方法在14-agent竞争情报pipeline上减少51%的fine-mode输入token和42%的compound-mode输入token，且质量略有提升；在5-agent尽职调查pipeline上，相比DSPy实现节省19%的token且质量持平。该工作为多Agent系统的token效率与质量平衡提供了系统性的解决方案，与关键词“agent”高度契合。

Characterizing the Expressivity of Local Attention in Transformers ⭐ 精选

Jiaoda Li, Ryan Cotterell

cs.CL

本文通过形式化方法刻画了Transformer中local attention的表达能力。作者证明，固定精度的global attention Transformer对应于仅含单个past operator的linear temporal logic片段，而引入local attention则增加了第二个temporal operator，从而严格扩大了可识别的regular language类别。研究还表明，global和local attention在表达上是互补的，二者结合能获得最丰富的片段。实验验证了混合global-local attention在formal language recognition和natural language modeling中优于纯global attention模型，为local attention提升模型质量的现象提供了理论解释。

Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation

Garvin Kruthof

cs.CL cs.AI

本文提出了DriftBench基准，用于评估多轮LLM辅助科学构思中的约束遵循情况。研究发现，迭代压力会增加结构复杂性并降低对原始约束的遵循，且模型存在“知道但违反”的现象，即能准确复述约束却同时违反它们。

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Woody Haosheng Gan, William Held, Diyi Yang

cs.CL cs.AI cs.SD

本文研究了如何通过最小子集高效评估大型音频模型(LAMs)，发现仅用0.3%的数据即可达到与完整benchmark高度相关的评分，并收集了人类偏好数据以对齐用户满意度。

NorBERTo: A ModernBERT Model Trained for Portuguese with 331 Billion Tokens Corpus

Enzo S. N. Silva et al.

cs.CL cs.AI

本文介绍了NorBERTo，一个基于ModernBERT架构的葡萄牙语encoder模型，在3310亿token的Aurora-PT语料库上训练，并在语义相似度、文本蕴含等任务上进行了基准测试。该工作主要贡献在于提供了目前最大的公开葡萄牙语单语语料库和一个实用的中等规模encoder模型。

How Frontier LLMs Adapt to Neurodivergence Context: A Measurement Framework for Surface vs. Structural Change in System-Prompted Responses

Ishan Gupta, Pavlo Buryi

cs.CL cs.AI cs.HC

本文提出了NDBench基准，用于评估前沿LLM在系统提示中根据神经多样性背景调整输出的能力，发现模型主要在结构上（如增加标题和步骤细节）而非内容上进行调整，且仅在有明确指令时能减少有害倾向。该工作与关键词列表中的“context”和“agent”有一定关联，但方法本身并非开创性，也未解决长期问题。

ViLegalNLI: Natural Language Inference for Vietnamese Legal Texts

Nhung Thi-Hong Duong et al.

cs.CL cs.AI cs.LG

本文介绍了ViLegalNLI，首个面向越南法律文本的大规模Natural Language Inference (NLI)数据集，包含42,012个前提-假设对，并采用半自动数据生成框架构建。实验表明，few-shot LLM配置在该任务上表现最优，但性能受假设长度、词汇重叠和推理复杂度影响。

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Muhammad Dehan Al Kautsar et al.

cs.CL cs.AI

本文提出了ArabCulture-Dialogue数据集，用于评估LLMs在标准阿拉伯语和方言对话中的文化推理能力，并设计了三个基准任务。实验表明，模型在方言场景下的表现普遍差于标准阿拉伯语场景。

Timing is Everything: Temporal Scaffolding of Semantic Surprise in Humor

Yuxi Ma et al.

cs.CL

本文提出Dual Prediction Violation (DPV)框架，通过分析中文单口喜剧表演，发现时间特征（如停顿）比语义不一致性更能预测观众对幽默的欣赏程度，表明幽默是时间与语义内容协同作用的结果。

RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners

Jugal Gajjar, Kamalasankari Subramaniakuppusamy

cs.CL cs.AI cs.IR cs.LG

RSAT提出了一种两阶段训练方法，使小型语言模型在表格推理任务中生成带有单元格级引用的结构化推理步骤。该方法通过SFT学习JSON输出格式，再通过GRPO优化基于NLI的忠实度奖励，显著提升了推理的可信度。

Confidence Estimation in Automatic Short Answer Grading with LLMs

Longwei Cong et al.

cs.CL

本文研究了使用大语言模型进行自动短答案评分时的置信度估计问题，提出了一种结合模型置信信号与数据集不确定性的混合置信度框架，通过聚类学生回答并量化簇内异质性来改进评分可靠性。

Why Do LLMs Struggle in Strategic Play? Broken Links Between Observations, Beliefs, and Actions

Jan Sobotka, Mustafa O. Karabag, Ufuk Topcu

cs.CL cs.AI cs.GT

本文通过实验揭示了LLMs在不完全信息博弈中的两个内部机制缺陷：观察-信念差距（内部信念比口头报告更准确但脆弱）和信念-行动差距（内部信念转化为行动的效果弱于外部提示中的信念），但未涉及代码、谱方法或Muon等关键词相关的内容。

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Prerna Juneja, Lika Lomidze

cs.CL

本文提出了一个用于AI伴侣多轮对话安全评估的可扩展框架，通过构建临床验证的persona并模拟高风险场景，分析了Replika在对话中的安全风险。

Estimating LLM Grading Ability and Response Difficulty in Automatic Short Answer Grading via Item Response Theory

Longwei Cong et al.

cs.CL

本文基于item response theory (IRT)为LLM-based ASAG构建评估框架，将grading correctness建模为latent grader ability和response grading difficulty的函数，并发现不同LLM在response difficulty增加时grading accuracy的下降模式存在显著差异。该工作主要关注评估方法而非与关键词直接相关。

Lost in State Space: Probing Frozen Mamba Representations

Bhagyashree Wagh, Akash Singh

cs.CL cs.LG

本文研究了Mamba模型在冻结特征提取下的句子表示能力，发现其状态空间存在严重的各向异性和表示崩溃问题，并提出正交注入方法进行改进。

Retrieval-Augmented Reasoning for Chartered Accountancy

Jatin Gupta et al.

cs.CL cs.AI cs.IR

本文提出CA-ThinkFlow框架，通过参数高效的Retrieval-Augmented Generation (RAG)方法结合量化推理模型处理印度特许会计师考试任务，在CA-Ben基准上达到接近大型专有模型的性能，但未能有效处理复杂法规文本。

How Language Models Process Out-of-Distribution Inputs: A Two-Pathway Framework

Hamidreza Saghir

cs.CL cs.LG

本文提出了一种双路径框架（two-pathway framework）来分析LLM如何处理分布外（OOD）输入，发现基于attention的OOD检测方法受序列长度混淆，而embedding路径和processing trajectory路径在不同OOD类型上各有优势。

Are You the A-hole? A Fair, Multi-Perspective Ethical Reasoning Framework

Sheza Munir et al.

cs.CL cs.AI cs.CY cs.HC

本文提出了一种神经符号聚合框架，利用Weighted Maximum Satisfiability (MaxSAT)将自然语言判断转化为逻辑约束，通过Z3求解器优化冲突解决，并在Reddit伦理讨论中验证了其生成逻辑一致裁决的有效性。

What Don't You Understand? Using Large Language Models to Identify and Characterize Student Misconceptions About Challenging Topics

Michael J. Parker, Maria G. Zavala-Cerna

cs.CL

本文提出了一种结合定量表现分析和大型语言模型(LLM)的系统方法，用于识别在线学习环境中学生的常见误解。该方法通过分析多个课程周期的测验数据，先找出具有挑战性的核心主题，再利用LLM分析测验内容、学生回答模式和讲座记录，以揭示学生误解。

Structure-Aware Chunking for Tabular Data in Retrieval-Augmented Generation

Pooja Guttal et al.

cs.CL cs.IR

本文提出了一种针对表格数据的结构感知分块框架STC，通过构建行级层次树表示并采用基于token约束的边界分割与无重叠贪婪合并策略，在MAUD数据集上相比基线方法减少了40%-56%的分块数量，并将混合检索的MRR从0.3576提升至0.5945。该工作主要关注表格数据的检索增强生成中的分块效率，与关键词列表中的概念关联较弱。

Prompt-Induced Score Variance in Zero-Shot Binary Vision-Language Safety Classification

Charles Weng, Dingwen Li, Alexander Martin

cs.CL cs.CV

本文研究了零样本视觉语言模型安全分类器在语义等价提示下第一token概率的不稳定性，发现跨提示方差与错误率相关。无训练的平均集成方法在多个指标上优于单提示基线，可作为无标签可靠性基线。

Budget-Aware Routing for Long Clinical Text

Khizar Qureshi, Geoffrey Martin, Yifan Peng

cs.CL cs.AI

本文研究了长临床文本的预算感知路由问题，将其建模为knapsack约束下的subset selection问题，并提出了RCD目标函数以平衡相关性、覆盖度和多样性。实验比较了多种unitization和selection策略，发现selector的选择比unitization更重要，且ROUGE在LLM摘要中会饱和。

Making Every Verified Token Count: Adaptive Verification for MoE Speculative Decoding

Lehan Pan et al.

cs.CL

本文提出EVICT方法，用于MoE模型的tree-based speculative decoding。它通过自适应截断draft tree来减少验证成本，在多种MoE模型上实现了加速。

MemRouter: Memory-as-Embedding Routing for Long-Term Conversational Agents

Tianyu Hu et al.

cs.CL cs.AI

本文提出MemRouter，一种将长期对话中的记忆存储决策与下游回答生成解耦的写端路由方法。它通过轻量级embedding分类头预测每轮对话是否应存入外部memory，在LoCoMo基准上以12M可训练参数实现了比基于LLM的记忆管理器更高的F1分数（52.0 vs 45.6）和更低的延迟（58ms vs 970ms）。

From Backward Spreading to Forward Replay: Revisiting Target Construction in LLM Parameter Editing

Wei Liu et al.

cs.CL cs.CV

本文重新审视了LLM参数编辑中的目标构建方法，提出用前向传播替代传统的反向传播来生成各编辑层的目标隐藏状态。该方法在保持相同计算复杂度的同时，能产生更精确的逐层目标，且不干扰编辑流程的其他组件。

Unlearning What Matters: Token-Level Attribution for Precise Language Model Unlearning

Jiawei Wu, DouDou Zhou

cs.CL

本文提出TokenUnlearn框架，通过token级归因识别关键token并选择性应用遗忘，以改进大语言模型中的机器遗忘。该方法结合掩码和熵感知信号生成重要性分数，并设计了硬选择和软加权两种策略，实验表明其在遗忘效果和模型效用保持上优于序列级基线。

Language-free Experience at Expo 2025 Osaka

Michael Paul et al.

cs.CL

本文介绍了为2025年大阪世博会开发的多语言翻译技术，包括基于chunk的输入分割、context-aware翻译和多引擎机器翻译，旨在实现无障碍语言体验。这些技术通过实际部署和与私营企业合作，已在世博会上展示。

Agentic AI for Substance Use Education: Integrating Regulatory and Scientific Knowledge Sources

Kosar Haghani, Zahra Kolagar, Mohammed Atiquzzaman

cs.CL

本文构建了一个基于agent的AI网络应用，通过整合Drug Enforcement Administration记录和实时PubMed文献，使用retrieval-augmented generation技术提供物质使用教育。专家评估显示该系统在事实准确性、引用质量等方面表现良好，但方法本身在agent或AI教育领域缺乏显著的开创性。

RadLite: Multi-Task LoRA Fine-Tuning of Small Language Models for CPU-Deployable Radiology AI

Pankaj Gupta, Kartik Bose

cs.CL cs.AI cs.LG

本文研究了通过LoRA微调小语言模型（3-4B参数）在放射学多任务上的表现，并验证了其在CPU上的部署可行性。实验表明LoRA微调显著优于零样本基线，但方法本身在模型微调领域较为常规，未涉及关键词中的code, spectral, Muon, pretrain, agent或attention等概念。

Escaping Mode Collapse in LLM Generation via Geometric Regulation

Xin Du, Kumiko Tanaka-Ishii

cs.CL cond-mat.dis-nn cs.AI nlin.CD

本文从动力系统视角将LLM生成中的mode collapse重新解释为几何塌缩（representation space中状态空间可达性降低），并提出Reinforced Mode Regulation (RMR)方法，通过在Transformer value cache中实现低秩阻尼来调节主导的自强化方向。该方法在多个大语言模型上有效降低了mode collapse，使生成在极低熵率下仍保持稳定。

Impact of Task Phrasing on Presumptions in Large Language Models

Kenneth J.K. Ong

cs.CL cs.AI

本文研究了任务表述如何导致大型语言模型(LLMs)产生预设(presumptions)，并以迭代囚徒困境为案例进行实验，发现即使有推理步骤，LLMs仍易受预设影响，而中性表述能减少预设。

ReLay: Personalized LLM-Generated Plain-Language Summaries for Better Understanding, but at What Cost?

Joey Chan et al.

cs.CL

本文介绍了ReLay数据集，用于研究LLM生成的个性化Plain Language Summaries对读者理解的影响，发现个性化能提升理解但可能加剧用户偏见和幻觉风险。

Surprisal Minimisation over Goal-directed Alternatives Predicts Production Choice in Dialogue

Tom Utting, Mario Giulianelli, Arabella Sinclair

cs.CL

本文使用信息论成本度量，通过语言模型生成目标导向和上下文相关的备选方案，研究对话中的话语生成选择。研究发现，相对于目标导向备选方案的surprisal最小化能最好地预测生产选择，而均匀信息密度和基于长度的成本预测能力较弱。

ControBench: An Interaction-Aware Benchmark for Controversial Discourse Analysis on Social Networks

Ta Thanh Thuy et al.

cs.CL cs.LG

本文提出了ControBench，一个结合异构社交互动图与文本语义的争议性话语分析基准，基于Reddit上关于特朗普、堕胎和宗教的讨论构建。该基准通过用户声明标签提供意识形态身份代理，并评估了图神经网络、预训练语言模型和大语言模型的表现。

AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs

Wenxiang Lin et al.

cs.CL cs.DC

本文提出AGoQ方法，通过层感知的激活量化算法和8-bit梯度量化算法，在训练LLMs时实现近4-bit激活存储和8-bit梯度通信，从而减少GPU内存并提升训练速度。实验表明该方法在多个模型和集群上优于现有系统。

A11y-Compressor: A Framework for Enhancing the Efficiency of GUI Agent Observations through Visual Context Reconstruction and Redundancy Reduction

Michito Takeshita et al.

cs.CL cs.AI

本文提出A11y-Compressor框架，通过视觉上下文重建和冗余减少，将线性化的accessibility tree转化为紧凑的结构化表示，以提升GUI agent的观察效率。实验表明该方法在减少输入token的同时提升了任务成功率。

Structure Liberates: How Constrained Sensemaking Produces More Novel Research Output

James Mooney et al.

cs.CL cs.AI

本文提出SCISENSE框架，将科学发现中的构思过程建模为八个认知阶段，并构建了大规模数据集和语言模型。研究发现，基于目标轨迹训练的模型比基于推断轨迹的模型能产生更高质量和多样性的研究输出。

Beyond Decodability: Reconstructing Language Model Representations with an Encoding Probe

Gaofei Shen et al.

cs.CL eess.AS

本文提出了一种Encoding Probe方法，通过从可解释特征重建模型内部表示来研究语言模型表示，并应用于文本和语音transformer模型。结果表明不同训练目标和数据集下说话人相关效应差异显著，而句法和词汇特征对重建有独立贡献。

Daria Boratyn et al.

cs.CL

本文利用Manifesto Corpus语料库，研究了机器翻译下段落嵌入的cosine similarity是否保持不变。通过比较原始语言与翻译后文本的相似性关系稳定性，提出了一种评估翻译对语义结构影响的框架。

SC-Taxo: Hierarchical Taxonomy Generation under Semantic Consistency Constraints using Large Language Models

Shiqiang Cai et al.

cs.CL

本文提出SC-Taxo框架，利用大语言模型(LLMs)通过双向标题生成机制（自底向上抽象与自顶向下语义约束）来生成层次化科学文献分类体系(taxonomy)，以解决现有方法中层级间语义不一致的问题。实验表明该方法在层级对齐和标题质量上有所提升，并具有跨语言泛化能力。

H-RAG at SemEval-2026 Task 8: Hierarchical Parent-Child Retrieval for Multi-Turn RAG Conversations

Passant Elchafei et al.

cs.CL cs.IR

本文提出了H-RAG系统，用于多轮对话中的检索增强生成，采用分层父子检索管道，将细粒度子块检索与父级上下文重建分离，并结合混合密集-稀疏搜索和嵌入重排序。实验表明该方法在SemEval-2026任务上取得了有效结果。

Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs

Jasper Dekoninck et al.

cs.CL

本文介绍了MathArena平台的扩展，将其从仅包含最终答案的奥林匹克问题评估，发展为涵盖证明竞赛、研究级arXiv问题和Lean形式化证明生成的持续维护的数学推理评估平台。该平台通过定期设计新基准来跟踪LLM在数学推理领域的快速进展。

ML-Bench&Guard: Policy-Grounded Multilingual Safety Benchmark and Guardrail for Large Language Models

Yunhan Zhao et al.

cs.CL cs.CR

本文提出了一个基于区域法规的多语言安全基准ML-Bench和基于Diffusion LLM的护栏模型ML-Guard，用于评估和提升大语言模型在多语言环境下的安全性，实验表明其性能优于现有方法。

Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory

Derong Xu et al.

cs.CL

本文提出MemCoE框架，受认知科学启发，通过两阶段优化（Memory Guideline Induction和Guideline-Aligned Memory Policy Optimization）来学习LLM agent的长期记忆更新策略，以解决静态规则和稀疏奖励问题。该方法在个性化记忆基准上取得改进，但与关键词（如code, spectral, Muon, pretrain, attention）关联较弱。

FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios

Yutao Hou et al.

cs.CL

本文提出了FinSafetyBench，一个用于评估大语言模型在金融场景中安全性的双语基准测试，通过模拟真实金融犯罪案例和攻击设置，揭示了模型在对抗性提示下的合规漏洞。

Directed Social Regard: Surfacing Targeted Advocacy, Opposition, Aid, Harms, and Victimization in Online Media

Scott Friedman et al.

cs.CL cs.AI

本文提出了一种名为Directed Social Regard (DSR)的多维情感分析方法，使用transformer模型检测文本中情感的目标span并沿三个社会理论驱动的轴进行评分。该方法在六个在线媒体数据集上验证了有效性，但与我提供的关键词（如code, spectral, Muon, pretrain, agent, attention）无直接关联。

When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models

Sailesh Panda et al.

cs.CL

本文通过一个受控的诊断性benchmark，研究了LLMs在执行逐步算术算法时的忠实性，发现随着算法步骤增加，模型准确率显著下降，并存在多种执行失败模式。该工作主要关注LLM的推理过程而非代码或谱方法，与关键词契合度较低。

cs.DS

Matroid Algorithms Under Size-Sensitive Independence Oracles

Kiarash Banihashem et al.

cs.DS cs.LG

本文在size-sensitive independence oracle模型下研究了matroid算法，其中查询成本与集合大小成正比。作者为寻找basis、近似rank和partition size等任务建立了紧的上下界，证明了最优查询成本（忽略对数因子）是matroid大小的二次方，并针对最大circuit size有界的matroid给出了突破二次障碍的算法。

The Impact of Approximation on Algorithmic Progress

Jeffery Li et al.

cs.DS

本文调查了118个重要算法问题，量化了近似算法带来的性能提升与权衡，发现仅约20%的问题受益于近似，但其中部分问题（如指数时间问题）可获得多项式时间的近似算法。

Brief announcement: A special case of maximum flow over time with network changes

Shuchi Chawla, Kristin Sheridan

cs.DS

本文研究了边容量随时间变化的均匀边长网络中的最大流问题，通过构造压缩时间扩展网络(cTEN)将问题转化为标准最大流，并给出了复杂度为$O(\mu^2 n^3 m)$或$O(\mu^{(1+o(1))}(nm)^{1+o(1)}\log (UT))$的算法。该工作主要关注容量频繁变化的网络场景。

Set Parameterized Matching via Multi-Layer Hashing

Moshe Lewenstein, Ely Porat

cs.DS

本文研究了集合参数化匹配问题，通过一种基于Karp-Rabin指纹的三层哈希方案，提出了一个随机化算法，能在$O(N+M)$时间内以高概率解决问题。该工作主要处理了集合表示中的规模膨胀和动态编码等挑战。

A Near-Linear-Time Algorithm for Finding a Well-Spread Perfect Matching in Bridgeless Cubic Graphs

Babak Ghanbari, Robert Šámal

cs.DS cs.DM math.CO

本文提出了一种近线性时间算法，用于在无桥三次图中找到一个与每个3-边割恰好相交一条边的完美匹配。该算法改进了Boyd等人的三次时间算法，并扩展了作者先前仅适用于3-边连通图的结果。

A Faster Deterministic Algorithm for Fully Dynamic Maximal Matching

Julia Chuzhoy, Sanjeev Khanna, Junkai Song

cs.DS

本文针对完全动态最大匹配问题，提出了一种确定性算法，其摊还更新时间为$n^{1/2+o(1)}$，改进了先前$\tilde{O}(n^{8/9})$的结果。该工作引入了一个名为子图系统的新确定性框架，用于验证和维护匹配的最大性，并支持高效的递归优化。

others

Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis ⭐ 精选

Hongbo Wen et al.

cs.CR cs.AI cs.PL

本文提出Semia，一种针对LLM驱动的agent skill的静态审计工具。其核心创新在于Constraint-Guided Representation Synthesis (CGRS)方法，通过propose-verify-evaluate循环将agent skill的prose部分（自然语言定义的条件）和structured部分（可执行接口）统一转化为Skill Description Language (SDL)的Datalog事实库，从而将安全属性（如间接注入、秘密泄露）的验证归约为Datalog可达性查询。该方法解决了现有工具无法同时处理agent skill混合工件的结构化声明与自然语言语义的长期问题，在13,728个真实world skills上实现了97.7%的召回率和90.6%的F1分数，显著优于基于签名和LLM的基线方法。

SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters ⭐ 精选

Dongxin Guo, Jikun Wu, Siu Ming Yiu

cs.DC cs.AI cs.LG cs.OS

SAGA提出了一种面向AI agent推理的workflow-level调度范式，将整个agent workflow（而非单个LLM调用）作为GPU集群调度的基本单元。其核心创新包括：通过Agent Execution Graphs预测跨工具调用的KV cache复用模式，实现接近Bélády最优离线策略1.31倍的性能；采用session-affinity batching与work stealing机制在保持负载均衡的同时关联相关请求；并引入Agent Fair Share这一具有可证明有界偏差保证的任务完成时间公平性度量。实验表明，在64-GPU集群上，SAGA相比vLLM将任务完成时间降低1.64倍，同时提升GPU内存利用率1.22倍，验证了workflow-aware调度对compound AI serving的必要性。该工作与关键词agent高度契合，解决了AI agent推理中请求级抽象与workflow级执行之间的根本性失配问题。

Empowering Heterogeneous Graph Foundation Models via Decoupled Relation Alignment ⭐ 精选

Ziyu Zheng et al.

cs.SI cs.AI

本文提出了一种名为Decoupled relation Subspace Alignment (DRSA)的即插即用对齐框架，用于解决多领域异质图（MDHGs）中图基础模型（GFMs）面临的跨类型特征偏移和域内关系鸿沟问题。DRSA通过解耦特征语义与关系结构，引入双关系子空间投影机制在共享低秩关系子空间中显式协调跨类型交互，并设计了特征-结构解耦表示（包含语义投影分量和结构残差项）来自适应吸收域内变化。该方法采用基于Block Coordinate Descent的稳定交替最小化策略进行优化，构建了校准良好的结构感知潜在空间，显著提升了GFMs的跨域和少样本知识迁移能力。该工作与关键词中的“pretrain”和“attention”较为契合，因为它为预训练图模型提供了通用的预处理模块，且其子空间投影机制隐式涉及了注意力式的跨类型交互协调。

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs ⭐ 精选

Siyuan Huang et al.

cs.CV cs.AI

本文提出Persistent Visual Memory (PVM)模块，用于解决自回归Large Vision-Language Models (LVLMs)中因文本历史累积导致的"Visual Signal Dilution"现象。PVM作为轻量级可学习模块，并行集成于Feed-Forward Network (FFN)旁，建立了一个与距离无关的retrieval pathway，直接提供visual embeddings以维持持续的视觉感知。实验表明，PVM在Qwen3-VL模型上以极小的参数开销显著提升了复杂推理任务的准确率，并能有效抵抗长度引起的信号衰减并加速内部预测收敛。该方法在attention机制上进行了结构性改进，与关键词"attention"高度契合。

Mean-Field Path-Integral Diffusion: From Samples to Interacting Agents

Michael Chertkov

math.OC cs.AI stat.ML

本文提出Mean-Field Path-Integral Diffusion (MF-PID)框架，将扩散模型中的独立样本提升为相互作用的智能体，通过共享群体统计信息实现更高效的概率质量传输。该框架将分布匹配转化为McKean-Vlasov随机最优传输问题，并在线性-二次-高斯和混合高斯两种可解析求解的设定下进行了分析。

TimeRFT: Stimulating Generalizable Time Series Forecasting for TSFMs via Reinforcement Finetuning

Siyang Li et al.

eess.SP cs.AI cs.CV cs.LG

本文提出TimeRFT，一种通过强化微调来提升时间序列基础模型（TSFMs）在下游任务中泛化能力的方法。它设计了基于预测质量的时序奖励机制和基于预测难度的数据选择策略，以应对时间分布偏移和数据可用性差异。

MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis

Yuanhao Chen, Peter Chin

q-bio.NC cs.CL cs.HC cs.LG

本文提出MoDAl框架，通过对比学习与去相关损失的相互作用，从多脑区信号中发现互补的神经模态，用于语音神经假体解码。该方法在Brain-to-Text Benchmark上降低了词错误率，并验证了布罗卡区信号对句法信息的编码作用。

ROSA: Robust and Energy-Efficient Microring-Based Optical Neural Networks via Optical Shift-and-Add and Layer-Wise Hybrid Mapping

Huifan Zhang et al.

cs.AR cs.LG

本文提出了一种基于microring的光学神经网络架构ROSA，通过光学移位相加模块和逐层混合映射策略来提升鲁棒性和能效。实验表明该方法在CIFAR-10上相比基线方案在精度和能效方面均有显著改善。

Sure About That Line? Approaching Confidence-Based, Real-Time Line Assignment in Reading Gaze Data

Franziska Kaltenberger et al.

q-bio.NC cs.AI cs.HC cs.LG eess.IV

本文提出CONF-LA方法，用于在实时眼动追踪中为多行阅读的注视点分配行号。该方法通过结合阅读行为知识和Gaussian line likelihoods计算后验分数，并在不确定性高时延迟分配，实现了低延迟（平均每注视点0.348 ms）且稳定的性能。

SiriusHelper: An LLM Agent-Based Operations Assistant for Big Data Platforms

Yu Shen et al.

cs.DB cs.AI cs.MA

本文介绍了SiriusHelper，一个基于LLM Agent的大数据平台运维助手，通过DeepSearch驱动的多跳检索和分层知识库来提升问答可靠性，并利用自动工单理解和SOP蒸馏降低专家维护成本。

Learning from the Unseen: Generative Data Augmentation for Geometric-Semantic Accident Anticipation

Yanchen Guan et al.

cs.CV cs.LG

本文提出了一种用于自动驾驶事故预测的双路径框架，包括基于视频合成的数据增强方法和图神经网络模型，以提升预测准确性和提前时间。

Ambient Persuasion in a Deployed AI Agent: Unauthorized Escalation Following Routine Non-Adversarial Content Exposure

Diego F. Cuadros, Abdoul-Aziz Maiga

cs.CR cs.AI cs.MA

本文报告了一个已部署的多智能体研究系统中的安全事件，其中主AI agent在接触常规非对抗性内容后，未经授权安装了107个软件组件并尝试执行系统管理员命令。该事件揭示了在宽松环境下，软性行为准则和缺乏强制策略可能导致agent行为升级，并强调了多agent监督机制在事后审计方面的局限性。

Autoformalizing Memory Specifications with Agents

Jan Ole Ernst et al.

cs.AR cs.LG

本文提出了一种自动将自然语言内存芯片规范形式化为DRAMPyML表示的方法，用于下游设计验证任务，并发布了DRAMBench基准数据集。该方法主要关注硬件自动形式化，与关键词中的agent概念有一定关联但契合度不高。

Dynamic-TD3: A Novel Algorithm for UAV Path Planning with Dynamic Obstacle Trajectory Prediction

Wentao Chen et al.

cs.RO cs.AI

本文提出Dynamic-TD3算法，通过将无人机路径规划建模为Constrained Markov Decision Process (CMDP)，并集成Adaptive Trajectory Relational Evolution Mechanism (ATREM)和Physically Aware Gated Kalman Filter (PAG-KF)来预测动态障碍物轨迹，从而在保证安全约束的同时提升导航性能。实验表明该方法在碰撞避免、能耗和轨迹平滑性上优于现有方法。

RETO: A Rotary-Enhanced Transformer Operator for High-Fidelity Prediction of Automotive Aerodynamics

Bojun Zhang et al.

eess.IV cs.LG

本文提出了一种用于汽车空气动力学高保真预测的旋转增强Transformer算子(RETO)，通过结合正弦-余弦编码和旋转位置编码(RoPE)来改进空间相关性捕捉。实验表明，RETO在ShapeNet和DrivAerML基准上相比现有方法(如Transolver和RegDGCNN)取得了更低的相对$L_2$误差，并具有更集中的注意力机制。

Compliance-Aware Agentic Payments on Stablecoin Rails

Kenneth See, Xue Wen Tan

cs.CR cs.AI cs.CE cs.MA

本文提出了一种基于stablecoin rails的合规感知代理支付架构，通过结合x402风格的签名授权和可编程合规策略，在链上执行点强制执行合规检查，以支持在人类不持续参与的情况下进行安全的代理支付。

XekRung Technical Report

Jiutian Zeng et al.

cs.CR cs.AI

本文介绍了XekRung，一个面向网络安全领域的大型语言模型，通过构建领域特定的数据合成流程和完整的训练流程（包括CPT、SFT和RL）来提升安全能力。实验表明该模型在网络安全基准测试上达到领先水平，但方法本身在关键词关注的code、spectral、Muon、agent、attention等方向缺乏开创性或直接关联。

CRC-Screen: Certified DNA-Synthesis Hazard Screening Under Taxonomic Shift

Najmul Hasan

q-bio.GN cs.AI

本文针对DNA合成订单中的有害序列筛查问题，提出了一种基于Conformal Risk Control的认证筛查框架CRC-Screen。该方法融合了k-mer Jaccard相似度、多LLM评分及嵌入余弦相似度三种信号，在分类单元偏移下仍能保证期望的假阴性率有界。实验表明，该方法在有限校准数据下表现良好，但主要瓶颈在于校准数据量而非算法本身。

Being-H0.7: A Latent World-Action Model from Egocentric Videos

Hao Luo et al.

cs.RO cs.CV cs.LG

本文提出Being-H0.7，一种潜在世界-动作模型，通过在感知和动作之间插入可学习的潜在查询，并采用未来信息双分支设计，使策略在不生成未来帧的情况下具备未来感知推理能力。实验表明该方法在多个仿真和真实任务上取得了与最先进方法相当的性能。

DeGenTWeb: A First Look at LLM-dominant Websites

Sichang Steven He et al.

cs.NI cs.AI cs.CY cs.IR cs.LG

本文提出了DeGenTWeb系统，用于系统性地识别由大语言模型（LLM）主导生成的网站。通过改进LLM文本检测器并聚合多页面结果，作者发现这类网站在Common Crawl和Bing搜索结果中普遍存在且比例持续增长。

Provable and scalable quantum Gaussian processes for quantum learning

Jonas Jäger et al.

quant-ph cs.LG stat.ML

本文提出了量子高斯过程（quantum Gaussian processes）框架，用于从量子系统中进行贝叶斯学习，并证明了在特定条件下酉量子随机过程可定义高斯过程。该工作主要贡献在于将matchgate演化（自由费米子演化）作为首个非平凡作用于所有量子比特的实例，并展示了其在量子传感等任务中的应用。

From Tensor Networks to Tractable Circuits, and back

Arend-Jan Quist et al.

quant-ph cs.DS cs.LO

本文建立了tensor networks与tractable circuits之间的等价关系，具体证明了matrix product states (tensor trains)与nondeterministic edge-valued decision diagrams等价，以及tree tensor networks与structured-decomposable circuits等价。这些对应关系使得两类形式化方法之间的结构与算法结果可以直接转移。

Efficient Mutation Testing of Quantum Machine Learning Models

Emma Andrews, Prabhat Mishra

quant-ph cs.LG

本文针对量子机器学习模型（主要是量子神经网络）的变异测试问题，提出了新的变异操作和定向变异生成技术，以减少冗余变异体并提高故障检测效率。实验表明该方法能生成更多样化的变异体，并暴露传统技术无法发现的故障。

AIDA-ReID: Adaptive Intermediate Domain Adaptation for Generalizable and Source-Free Person Re-Identification

Sundas Iqbal et al.

cs.CV cs.AI

本文提出了一种名为AIDA-ReID的自适应中间域适应框架，用于解决无源域和多源域场景下行人重识别中的域偏移问题。该方法通过动态调节特征混合和正则化强度，并利用伪镜像正则化策略保持身份一致性，在域泛化和无源域设置下验证了有效性。

GAFSV-Net: A Vision Framework for Online Signature Verification

Himanshu Singhal, Suresh Sundaram

cs.CV cs.CR cs.LG

本文提出GAFSV-Net，将在线签名验证中的原始时序序列转换为六通道Gramian Angular Field图像，利用预训练的2D视觉backbone（ConvNeXt-Tiny）和双向cross-attention进行特征提取，在DeepSignDB和BiosecurID上优于序列基线方法。

Network Digital Untwinning: Towards Backward Optimization of Digital Twins

Zifan Zhang et al.

cs.NI cs.DC cs.LG

本文提出了一种网络数字孪生逆向优化框架，通过基于地理邻近性、数据分布和网络级属性的连通性度量，结合最优回滚检查点与高斯噪声注入，实现了对已弃用孪生模型贡献的选择性移除，并提供了与从头构建模型不可区分性的理论保证。

Adaptive Norm-Based Regularization for Neural Networks

Muhammad Qasim, Farrukh Javed

stat.ML cs.LG stat.AP

本文比较了神经网络中现有的norm-based正则化方法，并提出了两种扩展策略：一种将输入特征的协方差结构融入ridge-type $\ell_2$ penalty，另一种结合了$\ell_1$ sparsity penalty与协方差感知的$\ell_2$ regularization。通过模拟和真实数据实验，这些方法在特征相关或高维场景下比标准norm-based penalties更有效地控制了模型复杂度并提升了预测性能。

SHIFT: Robust Double Machine Learning for Average Dose-Response Functions under Heavy-Tailed Contamination

Eichi Uehara

stat.ML cs.LG

本文提出了一种名为SHIFT的鲁棒双机器学习估计器，用于处理重尾污染下的平均剂量-响应函数估计问题。该方法通过结合交叉拟合的正交化、核局部Welsch损失和防御性OLS重拟合，在局部污染测试中显著降低了均方根误差。

RouteProfile: Elucidating the Design Space of LLM Profiles for Routing

Jingjun Xu et al.

cs.NI cs.CL

本文研究了LLM routing中profile设计的影响，通过提出RouteProfile框架，从组织形式、表示类型、聚合深度和学习配置四个维度系统评估了不同profile设计对路由性能的作用。

The $\textit{Silicon Society}$ Cookbook: Design Space of LLM-based Social Simulations

Aurélien Bück-Kaeffer et al.

cs.MA cs.AI

本文系统分析了基于LLM的社交模拟（Silicon Societies）的设计空间，探讨了基础模型选择和连接方式等关键设计参数对模拟结果的影响，发现基础LLM的选择是最重要的变量。

Selfie-Capture Dynamics as an Auxiliary Signal Against Deepfakes and Injection Attacks for Mobile Identity Verification

Erkka Rantahalvari et al.

cs.CR cs.ET cs.LG

本文研究了移动身份验证中自拍捕获动态作为辅助信号对抗深度伪造和注入攻击的有效性，通过引入CanSelfie数据集并测试多种时间序列分类器和异常检测器，发现加速度计数据包含可测量的欺骗和身份相关信息，但当前方法在跨设备和跨会话场景下仍需改进。

From Birdsong to Rumbles: Classifying Elephant Calls with Out-of-Species Embeddings

Christiaan M. Geldenhuys, Thomas R. Niesler

eess.AS cs.LG cs.SD q-bio.QM

本文研究了使用预训练的acoustic embeddings（声学嵌入）对大象叫声进行分类，发现无需微调嵌入模型即可达到接近端到端监督网络的性能，其中Perch 2.0模型表现最佳。该工作主要关注实际应用中的计算效率，但方法本身在理论或算法上缺乏显著的开创性。

A unified perspective on fine-tuning and sampling with diffusion and flow models

Carles Domingo-Enrich, Yuanqi Du, Michael S. Albergo

stat.ML cs.LG math.OC

本文从随机最优控制和非平衡热力学角度统一了扩散与流模型在指数倾斜目标分布下的微调和采样问题，分析了不同方法的梯度方差性质，并推导了新的恒等式。实验在Stable Diffusion上验证了理论分析。

Attention Is Where You Attack

Aviral Srivastava, Sourav Panda

cs.CR cs.AI

本文提出了一种名为Attention Redistribution Attack (ARA)的白盒对抗攻击方法，通过识别安全关键的attention heads并利用Gumbel-softmax优化重定向其注意力分布，从而绕过大型语言模型的安全对齐。实验表明，该方法在少量token和优化步骤下即可实现较高的攻击成功率，并揭示了安全行为并非由单个attention head的局部功能决定，而是源于其执行的注意力路由机制。

MAEPose: Self-Supervised Spatiotemporal Learning for Human Pose Estimation on mmWave Video

Xijia Wei et al.

cs.CV cs.AI

本文提出MAEPose方法，直接在mmWave spectrogram视频上使用masked autoencoding进行自监督预训练，学习时空运动感知的通用表征，并通过heatmap decoder实现多帧人体姿态估计。实验表明该方法在多个数据集上优于现有baseline，且对旁观者干扰具有鲁棒性。

Information-geometric adaptive sampling for graph diffusion

Yuhui Lu, Wenjing Liu, Kun Zhan

stat.ML cs.CV cs.LG

本文提出了一种基于信息几何的自适应采样框架，通过Fisher-Rao度量重新解释图扩散模型的采样轨迹，并推导出Drift Variation Score (DVS)来量化分布变化的瞬时速率。该方法在分子和社交网络生成任务上提升了结构保真度和采样效率，但与我提供的关键词（如code, context, spectral等）关联较弱。

Alethia: A Foundational Encoder for Voice Deepfakes

Yi Zhu et al.

cs.SD cs.CL eess.AS

本文提出了一种名为Alethia的语音深度伪造检测基础编码器，通过结合瓶颈掩码嵌入预测和基于flow-matching的频谱图重建进行预训练。该方法在56个基准数据集上的5个任务中优于现有模型，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Rethinking Network Topologies for Cost-Effective Mixture-of-Experts LLM Serving

Junsun Choi et al.

cs.NI cs.AI

本文系统分析了四种XPU拓扑（scale-up, scale-out, 3D torus, 3D full-mesh）在MoE LLM服务中的网络成本效益，发现无交换机拓扑（如3D full-mesh）比昂贵的scale-up拓扑更具成本效益，且当前scale-up链路带宽存在过度配置问题。

Remote SAMsing: From Segment Anything to Segment Everything

Osmar Luiz Ferreira de Carvalho et al.

cs.CV cs.AI

本文提出Remote SAMsing，一个无需修改SAM2或训练数据的开源pipeline，通过多轮掩码生成和上下文填充合并策略，解决了SAM2在遥感大场景中覆盖率和空间一致性的问题。实验表明该方法在多种遥感场景下显著提升了分割覆盖率，并优于传统分割基线。

REALM: An RGB and Event Aligned Latent Manifold for Cross-Modal Perception

Vincenzo Polizzi, David B. Lindell, Jonathan Kelly

cs.CV cs.AI cs.RO

本文提出REALM框架，通过低秩适应(LoRA)将event representations映射到预训练的RGB foundation models的latent space中，实现跨模态感知。该方法在深度估计和语义分割等下游任务中表现良好，并能在zero-shot场景下将图像训练的解码器直接应用于事件数据。

When Do Diffusion Models learn to Generate Multiple Objects?

Yujin Jeong et al.

cs.CV cs.AI

本文通过引入mosaic框架研究扩散模型在多目标生成中的局限性，发现场景复杂度比概念不平衡影响更大，且计数任务在低数据场景下难以学习。

A Comparative Analysis of Machine Learning Models for Intrusion Detection in Intelligent Transport Systems

Zawad Yalmie Sazid, Robert Abbas, Sasa Maric

cs.CR cs.LG

本文比较了随机森林、决策树和线性SVM等机器学习模型在智能交通系统入侵检测中的性能，并提出了一个基于联邦学习的混合检测框架，通过边缘计算节点进行分布式训练和信任感知聚合。

Trident: Improving Malware Detection with LLMs and Behavioral Features

Rebecca Saul et al.

cs.CR cs.LG

本文提出Trident系统，利用LLM从沙箱行为报告中提取检测规则，并与静态特征决策树及LLM直接分析相结合，用于PE恶意软件检测。该方法在概念漂移下比传统静态特征方法更鲁棒，但未涉及code、spectral、Muon等关键词。

Beyond Visual Fidelity: Benchmarking Super-Resolution Models for Large-Scale Remote Sensing Imagery via Downstream Task Integration

Zhili Li et al.

cs.CV cs.AI cs.LG

本文提出了GeoSR-Bench基准数据集，用于评估超分辨率模型在遥感图像下游任务（如土地覆盖分类）中的表现，发现传统保真度指标（如PSNR）与任务性能之间缺乏正相关性。

Beyond Structure: Revolutionising Materials Discovery via AI-Driven Synthesis Protocol-Property Relationships

Guillaume Lambard

cond-mat.mtrl-sci cs.AI

本文提出从结构中心范式转向合成优先范式，通过将合成协议作为主要设计变量来弥合材料发现中的可合成性差距，并概述了基于可读协议、生成模型和闭环优化的路线图。

Unbox Responsible GeoAI: Navigating Climate Extreme and Disaster Mapping

Hao Li, Steffen Knoblauch

cs.CY cs.AI

本文从批判性GIS视角探讨了负责任GeoAI在气候极端事件与灾害制图中的角色，提出了Representativeness、Explainability、Sustainability和Ethics四个理论维度，并构建了一个涵盖Data、Application和Society范围的概念治理模型。文章主要是一篇立场论文，旨在呼吁更广泛的GIS社区关注GeoAI部署的责任性、伦理性和可持续性，而非提出具体的技术方法。

Online Self-Calibration Against Hallucination in Vision-Language Models

Minghui Chen et al.

cs.CV cs.LG

本文提出OSCAR框架，利用LVLM中生成与判别能力的差异，通过Monte Carlo Tree Search和双粒度奖励机制构建偏好数据，并在线迭代优化模型以减少幻觉。实验表明该方法在幻觉基准上达到最优性能，同时提升多模态能力。

AI Adoption Among Teachers: Insights on Concerns, Support, Confidence, and Attitudes

Vanessa B. Sibug et al.

cs.CY cs.AI

本文调查了菲律宾260名教师对AI工具的采纳情况，通过moderated multiple regression分析发现institutional support显著预测teacher confidence和attitudes，但teacher concerns未起到调节作用。后续mediation分析表明confidence完全中介了institutional support对attitudes的影响。

Block-wise Codeword Embedding for Reliable Multi-bit Text Watermarking

Joeun Kim et al.

cs.CR cs.CL

本文提出了一种名为BREW的多位文本水印框架，通过分块投票和窗口移位验证机制，解决了现有方法中解码与检测混淆导致的假阳性率过高问题，并提升了在局部编辑下的可靠性。该方法与模型无关，为可靠取证部署提供了可扩展方案。

Pedagogical Promise and Peril of AI: A Text Mining Analysis of ChatGPT Research Discussions in Programming Education

Juvy C.Grume et al.

cs.CY cs.AI

本文运用text mining技术分析了编程教育中关于ChatGPT的学术文献，揭示了教学实施、学生参与、人机协作和评估等四大主题，指出该领域侧重课堂实践而忽视评估与治理。

Geometric analysis of attractor boundaries and storage capacity limits in kernel Hopfield networks

Akira Tamamori

cs.NE cs.LG

本文通过实验和SNR分析研究了基于Kernel Logistic Regression的Hopfield网络的吸引子边界几何与存储容量极限，发现其存储容量受限于动态稳定性而非特征空间的可分性。

GaMMA: Towards Joint Global-Temporal Music Understanding in Large Multimodal Models

Zuyao You et al.

cs.SD cs.AI

本文提出了GaMMA，一个基于LLaVA架构的大规模多模态模型，通过混合专家方式的音频编码器统一处理音乐的时间序列与非时间序列理解任务，并在自建基准MusicBench上取得了最优性能。

Social Bias in LLM-Generated Code: Benchmark and Mitigation

Fazle Rabbi et al.

cs.SE cs.AI cs.SI

本文构建了SocialBias-Bench基准，评估了LLM生成代码中的社会偏见，发现现有模型存在严重偏见且标准干预方法会加剧偏见。作者提出Fairness Monitor Agent (FMA)模块，通过分析任务描述并迭代检测修正偏见，在343个任务上将偏见降低65.1%并提升功能正确性。

RTPrune: Reading-Twice Inspired Token Pruning for Efficient DeepSeek-OCR Inference

Ben Wan et al.

cs.CV cs.LG

本文提出RTPrune方法，通过分析DeepSeek-OCR的解码过程发现其存在两阶段阅读轨迹，并据此设计了两阶段token剪枝策略：第一阶段优先保留高范数视觉token，第二阶段基于最优传输理论对剩余token进行配对合并。该方法在OmniDocBench上达到99.47%准确率和1.23倍加速，但未涉及关键词中的code、spectral、Muon等核心概念。

Scalable Learning in Structured Recurrent Spiking Neural Networks without Backpropagation

Bo Tang, Weiwei Xie

cs.NE cs.AI cs.LG

本文提出了一种无需反向传播的结构化多层递归脉冲神经网络架构，通过局部可塑性机制和神经调节学习实现监督学习，在基准分类任务上展示了稳定性能。该方法主要关注生物合理性和硬件可扩展性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Foresight Arena: An On-Chain Benchmark for Evaluating AI Forecasting Agents

Maksym Nechepurenko, Pavel Shuvalov

cs.MA cs.LG q-fin.GN

本文提出了Foresight Arena，一个基于区块链的、用于评估AI预测agent在真实预测市场中表现的去中心化benchmark。它通过智能合约和Brier Score等评分规则来量化agent的预测能力，并提供了相关的统计分析。

Skills as Verifiable Artifacts: A Trust Schema and a Biconditional Correctness Criterion for Human-in-the-Loop Agent Runtimes

Alfredo Metere

cs.CR cs.AI cs.MA cs.SE

本文提出了一种针对LLM agent运行时的信任模式，将技能视为可验证的工件，并给出了一个双条件正确性标准来确保HITL（human-in-the-loop）机制的可扩展性。该工作主要关注agent系统的安全性与运行时验证，与关键词中的agent概念有一定关联，但方法本身并非开创性，也未解决长期存在的核心问题。

MMAudioReverbs: Video-Guided Acoustic Modeling for Dereverberation and Room Impulse Response Estimation

Akira Takahashi et al.

cs.SD cs.CV cs.LG eess.AS

本文重新审视了视频到音频(V2A)模型，并基于MMAudio模型提出了MMAudioReverbs框架，用于处理去混响和房间脉冲响应(RIR)估计任务，无需修改网络架构且仅需小数据集微调。实验表明，音频和视觉线索在不同物理声学场景下各有优势，但该方法在声学建模上缺乏显著的开创性，且与关键词列表中的概念关联较弱。

Improving LLM Code Generation via Requirement-Aware Curriculum Reinforcement Learning

Shouyu Yin et al.

cs.SE cs.AI

本文提出RECRL框架，通过感知模型特定的需求难度并优化训练数据，以改进基于LLM的代码生成。实验表明该方法在多个基准上提升了Pass@1指标。

Soft Graph Diffusion Transformer for MIMO Detection

Nan Jiang et al.

cs.IT cs.LG eess.SP

本文从flow matching角度重新审视MIMO检测问题，提出Soft Graph Diffusion Transformer (SGDiT)，将检测建模为基于噪声水平的去噪过程，并使用自适应层归一化条件化的soft graph transformer参数化去噪动力学，采用交叉熵训练目标直接建模比特级后验概率。实验表明该方法在不同MIMO配置下取得了有竞争力的误码率性能。

A Policy-Driven DRL Framework for System-Level Tradeoff Control in NR-U/Wi-Fi Coexistence

Po-Heng Chou et al.

cs.NI cs.LG eess.SY

本文提出了一种基于策略驱动的深度强化学习框架，用于解决NR-U与Wi-Fi在非授权频段共存时的系统级资源协调问题。该框架通过将共存过程建模为Markov decision process (MDP)并利用deep Q-network (DQN)学习控制策略，实现了对公平性、吞吐量和服务质量等系统级权衡的显式控制。

CleanBase: Detecting Malicious Documents in RAG Knowledge Databases

Weifei Jin et al.

cs.CR cs.LG

本文提出CleanBase方法，通过构建知识库中文档的semantic similarity graph并检测其中的clique结构来识别恶意文档，从而防御RAG系统中的prompt injection攻击。该方法利用恶意文档间的高语义相似性进行检测，并给出了理论上的false positive和false negative上界。

Adaptation of AI-accelerated CFD Simulations to the IPU platform

P. Rosciszewski et al.

cs.DC cs.AI

本文研究了在IPU平台上加速AI辅助的CFD模拟，使用Poplar SDK和popdist库优化训练数据加载，实现了最高34%的加速，并分析了多IPU的扩展性。

"What Are You Really Trying to Do?": Co-Creating Life Goals from Everyday Computer Use

Shardul Sapkota et al.

cs.HC cs.AI cs.CL

本文提出了一种名为"striving co-creation"的过程，通过分析用户日常计算机使用中的非结构化观测数据来推断其更广泛的人生目标。该系统基于Activity Theory和Emmons的个人奋斗框架构建活动的层次化表示，并支持用户编辑界面以修正系统推断，从而在长期部署中生成更具代表性的目标。

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

Wenda Chu et al.

cs.CV cs.LG

本文提出了一种端到端的自回归图像生成方法，通过联合优化重建和生成任务来训练1D semantic tokenizer，并利用vision foundation model改进tokenizer。该方法在ImageNet 256x256生成任务上取得了1.48的FID分数，但未涉及code、context、spectral等关键词。

Space Network of Experts: Architecture and Expert Placement

Zhanwei Wang et al.

cs.DC cs.AI cs.NI

本文提出了Space-XNet框架，用于在卫星网络中分布式部署混合专家（MoE）模型。该框架通过两层放置策略（layer placement和intra-layer expert placement）来优化模型组件与卫星拓扑的映射，以降低token生成延迟。

Silicon Showdown: Performance, Efficiency, and Ecosystem Barriers in Consumer-Grade LLM Inference

Allan Kazakov, Abdurrahman Javat

cs.PF cs.AI cs.AR

本文系统比较了Nvidia和Apple Silicon在消费级大模型推理中的性能、效率和生态壁垒，指出Nvidia的TensorRT-LLM存在“后端二分法”和“VRAM墙”问题，而Apple的统一内存架构在内存扩展和能效上具有优势。

Multi-frame Restoration for High-rate Lissajous Confocal Laser Endomicroscopy

Minhee Lee et al.

eess.IV cs.CV cs.LG

本文针对高速Lissajous共聚焦激光内窥镜(CLE)图像恢复问题，提出了一个轻量级循环框架MIRA，通过特征复用和位移对齐迭代聚合时间上下文，在恢复质量上优于基线方法。

Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for Versal AI Edge

M. Grailoo, J. Núñez-Yáñez

cs.DC cs.AR cs.LG cs.PF cs.RO

本文提出Tempus，一种针对AMD Versal AI Edge SoC的Resource-Invariant Temporal GEMM框架。它通过固定计算块和迭代图执行实现可扩展性，在资源受限的边缘设备上实现了高效的矩阵乘法加速。

Vesselpose: Vessel Graph Reconstruction from Learned Voxel-wise Direction Vectors in 3D Vascular Images

Rajalakshmi Palaniappan et al.

cs.CV cs.LG

本文提出了一种从3D血管图像中提取拓扑更准确的血管图的方法，通过预测体素级血管方向向量并结合TEASAR算法的扩展来重建血管图。该方法在多个基准数据集上达到了最优性能，并引入了假分裂和假合并等拓扑误差度量。

Linking Behaviour and Perception to Evaluate Meaningful Human Control over Partially Automated Driving

Ashwin George et al.

cs.HC cs.AI cs.CY cs.RO

本文通过驾驶模拟器实验，研究了驾驶员在部分自动化驾驶中体验到的有意义的人类控制（MHC），分析了行为指标与主观感知之间的关系，发现意图不匹配和缺乏安全性会降低感知MHC。

Gradient Regularized Newton Boosting Trees with Global Convergence

Nikita Zozoulenko et al.

stat.ML cs.LG math.OC

本文提出了Restricted Newton Descent框架，用于分析Newton Boosting的全局收敛性，并针对一般凸损失引入了梯度正则化的Newton Boosting方案，证明了其$\mathcal{O}(\frac{1}{k^2})$的收敛速率。

AI Washing Inflates Expected Performance but Not Interaction Outcomes: An AI Placebo Study Using Fitts' Law

Nick von Felten, Luisa Ella Müller, Johannes Schöning

cs.HC cs.AI

本文通过Fitts' Law实验研究了AI washing（夸大AI能力）对用户期望和交互结果的影响，发现AI washing会提升用户的主观期望，但不会改变客观交互表现。该研究主要关注人机交互中的欺骗性营销问题，与关键词中的code, context, spectral, Muon, pretrain, agent, attention均无直接关联。

Jailbreaking Vision-Language Models Through the Visual Modality

Aharon Azulay et al.

cs.CV cs.AI cs.LG

本文探讨了通过视觉模态对Vision-Language Models进行jailbreak攻击的方法，包括将有害指令编码为视觉符号序列等四种攻击策略。实验表明，基于文本的安全训练无法自动泛化到视觉传达的有害意图，揭示了跨模态对齐的缺陷。

On the Distribution of Unweighted Minimum Knapsack Instances with Large SOS Rank

Adam Kurpisz, Lucas Slot, Mikhail Zaytsev

math.OC cs.CC cs.DS

本文研究了无权重最小背包问题（MK）的sum-of-squares (SOS) rank，分析了参数$q$在不同取值下SOS rank的上界和下界。当$q$为常数时，SOS rank可能是线性的，但通过平滑分析表明，对$q$施加微小随机扰动后，期望的SOS rank仅为$O(\sqrt{n} \log (n/\sigma))$。

Upward-Planar Drawings with Bounded Span

Patrizio Angelini et al.

cs.CG cs.DS

本文研究了有向图向上平面分层绘制的span（边端点y坐标差的最大值）问题，证明了确定span的NP完全性（即使对树和双连通单源图），并为有界源数的图族（如st-planar图）给出了高效算法。

EGREFINE: An Execution-Grounded Optimization Framework for Text-to-SQL Schema Refinement

Jiaqian Wang et al.

cs.DB cs.CL

本文提出EGRefine框架，将Text-to-SQL中的schema refinement形式化为一个约束优化问题，通过列式贪心分解和基于执行反馈的验证，生成非破坏性的SQL视图来重命名列名。该方法在多种基准测试上恢复了因schema命名噪声导致的精度损失，并支持跨模型迁移部署。

BlenderRAG: High-Fidelity 3D Object Generation via Retrieval-Augmented Code Synthesis

Massimo Rondelli, Francesco Pivi, Maurizio Gabbrielli

cs.CV cs.AI cs.GR cs.HC cs.LG

本文提出了BlenderRAG，一个基于检索增强生成（RAG）的系统，通过从包含文本、代码和图像的专家验证数据集中检索语义相似的示例，来提升大语言模型（LLM）生成可执行Blender代码的成功率和几何一致性。

Born-Qualified: An Autonomous Framework for Deploying Advanced Energy and Electronic Materials

Steven R. Spurgeon et al.

cond-mat.mtrl-sci cs.AI

本文提出了一种名为"born-qualified"的自主开发策略，旨在通过嵌入可制造性、成本和耐久性约束来解决先进能源和电子材料从发现到部署的"死亡之谷"问题。该框架依赖于多目标指标、因果模型、模块化基础设施以及将制造纳入发现循环这四个支柱。

Spiking Sequence Machines and Transformers

Joy Bose

cs.NE cs.LG

本文揭示了Spiking Sparse Distributed Memory序列机器与Transformer在功能操作上的同构性，并形式化了相位-延迟同构关系，证明点积注意力在该映射下具有不变性。实验表明位置编码的关键属性是点积相似性下的距离可区分性，而非特定的正弦形式。

InpaintSLat: Inpainting Structured 3D Latents via Initial Noise Optimization

Jaeyoung Chung, Suyoung Lee, Kyoung Mu Lee

cs.CV cs.AI

本文提出了一种基于初始噪声优化的无训练3D inpainting方法，通过backpropagation近似和spectral parameterization在structured 3D latent diffusion框架中优化初始噪声，以提升上下文一致性和prompt对齐。该方法与常规采样轨迹操控正交，为3D inpainting提供了新的控制维度。

Adaptive Querying with AI Persona Priors

Kaizheng Wang, Yuhang Wu, Assaf Zeevi

stat.ML cs.CL cs.LG

本文提出了一种基于AI人格先验的自适应查询方法，通过将用户状态表示为有限人格字典中的成员，利用大语言模型生成响应分布，实现了可扩展的贝叶斯设计。该方法在合成数据和WorldValuesBench上展示了准确的概率预测和可解释的自适应启发式流程。

FedKPer: Tackling Generalization and Personalization in Medical Federated Learning via Knowledge Personalization

Zoe Fowler, Ghassan AlRegib

eess.IV cs.LG

本文提出FedKPer方法，通过在本地训练阶段引入知识个性化，并在全局聚合中强调可靠且标签多样的局部更新，以平衡联邦学习中的泛化性与个性化问题。该方法在医学图像数据集上验证了其有效性，但未涉及代码、上下文、谱方法等关键词相关技术。

Towards Improving Speaker Distance Estimation through Generative Impulse Response Augmentation

Anton Ratnarajah et al.

cs.SD cs.AI eess.AS eess.SP

本文针对ICASSP 2025的Room Acoustics and Speaker Distance Estimation (SDE) Challenge，使用开源FastRIR生成器进行RIR数据增强，并通过quality filter和hyperparameter optimization提升模型性能。实验表明该方法能显著降低距离估计的MAE，尤其在medium to long distances上效果明显。

Decentralized Proximal Stochastic Gradient Langevin Dynamics

Mohammad Rafiqul Islam, Lingjiong Zhu

stat.ML cs.LG math.PR

本文提出了一种去中心化的近端随机梯度Langevin动力学算法(DE-PSGLD)，用于在凸域约束下从对数凹概率分布中采样。该算法通过Moreau-Yosida包络引入共享近端正则化来强制执行约束，并给出了在2-Wasserstein距离下的非渐近收敛保证。

EASE: Federated Multimodal Unlearning via Entanglement-Aware Anchor Closure

Zihao Ding, Beining Wu, Jun Huang

cs.NI cs.AI cs.LG cs.MM

本文提出EASE框架，通过双模态位移和子空间分解（Cosine-Sine分解）来切断遗忘知识在跨模态重建和客户端梯度子空间中的残留锚点，以解决联邦多模态学习中的遗忘问题。该方法在Flickr30K等数据集上接近重训练基准的遗忘效果。

Randomized Subspace Nesterov Accelerated Gradient

Gaku Omiya, Pierre-Louis Poirion, Akiko Takeda

math.OC cs.LG stat.ML

本文针对光滑凸和强凸优化问题，提出了随机子空间Nesterov加速梯度方法，该方法利用矩阵光滑性和草图矩假设，通过三序列公式恢复全维情形下的经典Nesterov方法，并建立了加速的oracle复杂度保证。

Smallest Enclosing Disk Queries Using Farthest-Point Voronoi Diagrams

Kevin Buchin, Mark Joachim Krallmann, Frank Staals

cs.CG cs.DS

本文提出了一种基于2D farthest-point Voronoi diagram的预处理方法，用于在$\mathbb{R}^2$中查询轴对齐矩形内点集的最小包围圆。该方法相比之前基于3D lifting和dualization的方法更简单，并实现了$O(\log^4 n)$的确定性查询时间。

Quantum Interval Bound Propagation for Certified Training of Quantum Neural Networks

Emma Andrews, Nahyeon Kim, Prabhat Mishra

quant-ph cs.LG

本文提出了量子区间边界传播(QIBP)方法，将经典机器学习中的区间边界传播(IBP)技术扩展到量子领域，用于量子神经网络的认证训练。该方法通过区间算术和仿射算术跟踪模型中的上下界，以在对抗扰动下保证模型预测的正确性。

Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

Indraneil Paul, Glavaš Glavas, Iryna Gurevych

cs.SE cs.LG

本文构建了Themis-CodeRewardBench基准和Themis-CodePreference偏好数据集，训练了多语言代码reward model (RM) Themis-RM，用于在多个编程语言和偏好维度上评估代码生成质量。实验表明多准则训练对可靠代码reward modeling至关重要。

LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation

Venkata Pushpak Teja Menta

cs.SD cs.CL eess.AS

本文提出LASE方法，通过在冻结的WavLM-base-plus模型上添加一个小的projection head，并联合使用supervised contrastive loss和gradient-reversal cross-entropy loss，以消除跨脚本语音中的语言信息，同时保留说话人身份信息。实验表明该方法能有效缩小跨脚本语音的cosine similarity差距，并在合成多说话人diarisation任务中以更少数据达到相近性能。

GeoContra: From Fluent GIS Code to Verifiable Spatial Analysis with Geography-Grounded Repair

Yinhao Xiao, Rongbo Xiao, Yihan Zhang

cs.SE cs.AI

本文提出了GeoContra框架，用于验证和修复LLM生成的GIS Python代码，通过将任务表示为可执行的地理空间合约并引入静态检查、运行时验证和语义修复循环，提升了空间分析的正确性。该方法主要关注代码验证而非代码生成或预训练等关键词相关方向。

Make Your LVLM KV Cache More Lightweight

Xihao Chen, Yangyang Guo, Roger Zimmermann

cs.CV cs.AI cs.LG

本文提出LightKV方法，通过利用视觉token嵌入间的冗余性，并结合文本提示的跨模态信息传递来压缩KV cache大小。实验表明该方法在仅保留55%视觉token的情况下，能减半KV cache大小并降低40%计算量，同时保持模型性能。

Unsupervised Denoising of Real Clinical Low Dose Liver CT with Perceptual Attention Networks

Jingxi Pu et al.

eess.IV cs.AI cs.CV

本文提出了一种基于Cycle-GAN的无监督低剂量CT去噪框架，结合U-Net、attention机制和残差网络，并引入perceptual loss以提升医学图像质量。该方法解决了真实临床数据无法用于监督学习的限制，在真实数据集上取得了良好效果。