bluearXiv-ai - 2026-04-30

📄 所有论文 ↑ 回顶部

cs.LG

Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective ⭐ 精选

Jiaming Yang et al.

cs.LG cs.AI cs.IT

本文从Information Bottleneck原理出发重新审视KV cache eviction问题。在linear-Gaussian attention surrogate下，作者推导出closed-form mutual information objective，揭示了现有eviction策略均可视为同一capacity-maximization原理的不同近似。基于此，提出CapKV方法，通过log-determinant approximation和statistical leverage scores直接优化信息保留，替代了传统的heuristic selection。实验表明CapKV在多个模型和long-context benchmark上优于现有方法，实现了memory efficiency与generation fidelity的更好权衡。

Entropy Centroids as Intrinsic Rewards for Test-Time Scaling ⭐ 精选

Wenshuo Zhao et al.

cs.LG cs.AI cs.CL

本文提出了一种用于大语言模型测试时扩展（test-time scaling）的新方法，即通过熵质心（Entropy Centroid）作为内在奖励来选择最优响应。作者观察到高熵token在推理过程中会聚集成连续的High Entropy Phase (HEP)，并受物理学质心概念启发，定义了Entropy Centroid作为所有HEP沿轨迹的加权平均位置。基于“较低质心对应早期探索与后续自信生成”的洞察，提出的Lowest Centroid方法在数学、代码生成、逻辑推理和agent任务上，从14B到480B的模型规模中均一致优于依赖外部reward model的基线方法，为无需额外训练模型的测试时选择提供了稳定且可扩展的内在信号。

CoQuant: Joint Weight-Activation Subspace Projection for Mixed-Precision LLMs ⭐ 精选

Zhe Ding, Su Pan, Duowei Pan

cs.LG

CoQuant提出了一种联合权重-激活子空间投影方法，用于混合精度大语言模型的后训练量化。通过理论建模输出误差，该方法推导出闭式加权PCA解，平衡权重和激活的协方差以选择最优高精度子空间。这解决了现有方法仅依赖激活统计而忽略线性操作中输出扰动由权重和激活量化噪声共同驱动的问题。实验表明，CoQuant在困惑度和零样本推理任务上优于强基线，为低比特量化提供了原则性方向。

Lyapunov-Guided Self-Alignment: Test-Time Adaptation for Offline Safe Reinforcement Learning ⭐ 精选

Seungyub Han, Hyungjin Kim, Jungwoo Lee

cs.LG cs.AI

本文提出SAS (Self-Alignment for Safety)框架，用于离线safe RL的test-time adaptation。核心机制是self-alignment：预训练agent在测试时生成多条想象轨迹，并利用Lyapunov condition筛选出可行片段作为in-context prompts，从而在不更新参数的情况下将agent的行为向安全方向对齐。该方法将Lyapunov-guided imagination转化为control-invariant prompts，其transformer架构支持hierarchical RL解释，其中prompting充当对latent skills的Bayesian inference。实验表明，SAS在Safety Gymnasium和MuJoCo基准上持续降低cost和failure，同时保持或提升return。

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving ⭐ 精选

Zihan Zhao et al.

cs.LG

本文提出SPIN框架，通过统一的分区抽象将不同稀疏注意力粒度映射到共享的基于页面的KV缓存上，并设计了一个局部性感知的KV缓存管理器，利用GPU友好的分桶LRU策略动态调整每请求的HBM预算以减少PCIe往返。此外，SPIN采用两级层次化元数据布局，其大小由活跃工作集而非最坏情况地址空间决定。在vLLM上集成三种代表性稀疏注意力算法后，SPIN实现了1.66-5.66倍的端到端吞吐量提升和7-9倍的TTFT降低，并将TPOT最多降低58%，为长上下文LLM服务中的稀疏注意力与层次化内存协同设计提供了系统性解决方案。

A Multimodal and Explainable Machine Learning Approach to Diagnosing Multi-Class Ejection Fraction from Electrocardiograms

Catherine Ning et al.

cs.LG

本文提出了一种多模态机器学习框架，结合12导联ECG时序特征和结构化EHR变量，用于将左心室射血分数（LVEF）分为四个临床类别。通过XGBoost模型和SHAP归因分析，该方法在回顾性数据上取得了较好的分类性能，可作为资源有限环境下的筛查辅助工具。

A Randomized PDE Energy driven Iterative Framework for Efficient and Stable PDE Solutions

Yi Bing et al.

cs.LG cs.AI physics.comp-ph

本文提出了一种基于PDE能量驱动的迭代框架，通过物理约束的扩散迭代和高斯平滑来求解PDE，无需矩阵离散化或数据驱动训练，并在1D Poisson、Heat和Burgers方程上验证了其稳定性和准确性。该方法为传统数值求解器提供了一种快速、灵活的替代方案。

A Survey of Multi-Agent Deep Reinforcement Learning with Graph Neural Network-Based Communication

Valentin Cuzin-Rambaud, Laetitia Matignon, Maxime Morge

cs.LG cs.AI cs.MA

本文综述了基于图神经网络的多智能体深度强化学习通信方法，提出了一个通用的GNN通信过程框架，以梳理和分类该领域的研究工作。

Mini-Batch Class Composition Bias in Link Prediction

Kieran Maguire, Srinandan Dasmahapatra

cs.LG cs.AI

本文研究了link prediction任务中GNN模型利用batch-normalisation层学习到的mini-batch依赖的简单启发式方法，并指出这会导致模型对graph representation的学习产生偏差，从而高估其跨任务泛化能力。

Open Problems in Frontier AI Risk Management

Marta Ziosi et al.

cs.LG cs.AI cs.CY cs.ET

本文系统梳理了前沿AI风险管理中的开放问题，按风险规划、识别、分析、评估和缓解等阶段分类，并识别了开发者、监管者等关键行动者。该工作旨在为未来研究和治理提供问题导向的参考，但未提出具体解决方案。

Correcting Performance Estimation Bias in Imbalanced Classification with Minority Subconcepts

Taylor Maxson et al.

cs.LG cs.AI

本文针对不平衡分类中因类内子概念（subconcept）分布不均导致的性能评估偏差问题，提出了一种实用加权评估方法pBA（predicted-weighted balanced accuracy），通过用多类子概念模型预测的后验概率替代不可得的真实子概念标签来定义评估权重。实验表明该方法在表格、医学图像和文本数据集上能提供更稳定和可解释的评估结果。

RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts

Vyom Sharma, Debajyoti Datta

cs.LG cs.AI cs.DC

本文提出RaMP框架，通过运行时感知的多态性优化Mixture-of-Experts推理中的kernel配置。它利用性能区域分析和波成本模型，从硬件常数和运行时专家直方图中选择最优配置，在多种架构上实现了显著的kernel加速。

Observable Neural ODEs for Identifiable Causal Forecasting in Continuous Time

Jennifer Wendland, Nicolas Freitag, Maik Kschischo

cs.LG math.OC math.ST q-bio.QM

本文研究了连续时间序列决策问题中的因果推断，提出了一种可观测神经ODE模型（ObsNODEs），通过将控制理论中的可观测性与因果可识别性联系起来，在存在隐藏混杂因素的情况下识别动态治疗效果。模型在合成和真实医疗数据上进行了实验验证。

Privacy-Preserving Federated Learning Framework for Distributed Chemical Process Optimization

Teetat Pipattaratonchai, Aueaphum Aueawatthanaphisut

cs.LG cs.AI eess.SY

本文提出了一种用于分布式化工过程优化的隐私保护联邦学习框架，各工厂本地训练神经网络模型，仅共享模型参数到中央服务器，在保护数据隐私的同时实现跨工厂协作建模。实验表明该框架能快速收敛并显著提升预测精度，性能接近集中式训练。

PPG-Based Affect Recognition with Long-Range Deep Models: A Measurement-Driven Comparison of CNN, Transformer, and Mamba Architectures

Karim Alghoul, Hussein Al Osman, Abdulmotaleb El Saddik

cs.LG

本文比较了CNN、Transformer和Mamba等深度学习架构在基于PPG信号的情感识别任务中的表现，发现CNN在多数任务中效果最佳且模型最小，而Transformer和Mamba并未显著超越CNN基线。该研究为可穿戴情感监测系统的模型选择提供了实践指导，但方法本身缺乏开创性。

Momentum-Conserving Graph Neural Networks for Deformable Objects

Jiahong Wang et al.

cs.LG cs.AI cs.GR

本文提出MomentumGNN，一种通过预测每边的拉伸和弯曲impulse来保证线性和角动量守恒的图神经网络架构，用于可变形物体的动力学建模。该方法在无监督训练下优于现有baseline，但未涉及code、context、spectral等关键词。

reward-lens: A Mechanistic Interpretability Library for Reward Models

Mohammed Suhail B Nadaf

cs.LG cs.AI

本文介绍了reward-lens，一个用于reward model的机械可解释性库，通过将logit lens等工具适配到reward model的标量回归头上，提供了组件归因、激活修补等功能。实验发现线性归因无法预测因果修补效果，表明观察性与因果性视角存在不一致。

Spatially-constrained clustering of geospatial features for heat vulnerability assessment of favelas in Rio de Janeiro

Baptiste Clemence et al.

cs.LG

本文利用空间约束聚类和地表温度分析，为里约热内卢的贫民窟开发了一个评估热脆弱性的数据驱动框架，识别出两种不同的贫民窟类型并揭示了其热暴露差异。

Budget-Constrained Causal Bandits: Bridging Uplift Modeling and Sequential Decision-Making

Abhirami Pillai

cs.LG econ.EM stat.ML

本文提出Budget-Constrained Causal Bandits (BCCB)框架，将预算约束下的因果推断与在线学习结合，用于冷启动场景下的广告投放决策。实验表明该方法在数据效率上优于传统离线方法，但与关键词列表中的概念无直接关联。

SWAN: World-Aware Adaptive Multimodal Networks for Runtime Variations

Jason Wu et al.

cs.LG

SWAN提出了一种自适应多模态网络，通过质量感知控制器和自适应门控模块，在运行时根据模态质量和样本复杂度动态分配计算资源，在自动驾驶3D检测任务中最高减少49%的FLOPs。该方法主要关注计算效率优化，与关键词中的code, context, spectral, Muon, pretrain, agent, attention关联度较低。

Efficient and Interpretable Transformer for Counterfactual Fairness

Panyi Dong, Zhiyu Quan

cs.LG

本文提出了一种用于表格数据的Feature Correlation Transformer (FCorrTransformer)架构，其attention矩阵可直接解释为成对特征依赖关系，并引入Counterfactual Attention Regularization (CAR)框架以在attention层面实现反事实公平性。该方法在保持预测性能的同时降低了模型复杂度，但并未直接涉及code、context、spectral、Muon、pretrain或agent等关键词。

Unsupervised Graph Modeling for Anomaly Detection in Accounting Subject Relationships

Yuhan Wang et al.

cs.LG

本文提出了一种基于Graph Neural Network的无监督框架，用于会计科目关联图中的异常检测。该方法将科目抽象为节点，共现关系抽象为加权边，通过message passing学习节点embedding，并利用relation reconstruction decoder评估边异常分数，最终实现节点级风险排序。

DORA: A Scalable Asynchronous Reinforcement Learning System for Language Model Training

Tianhao Hu et al.

cs.LG cs.DC

本文提出DORA系统，通过算法-系统协同设计解决LLM强化学习训练中长尾轨迹导致的异步训练效率与收敛性矛盾，实验显示吞吐量提升2-4倍。该方法主要关注工程优化而非理论创新，与关键词关联度较低。

NeuroPlastic: A Plasticity-Modulated Optimizer for Biologically Inspired Learning Dynamics

Douglas Jiang et al.

cs.LG

本文提出NeuroPlastic优化器，通过引入受神经生物学中多因子突触可塑性启发的自适应多信号调制机制来增强梯度更新，在图像分类基准上相比纯梯度方法有所改进，尤其在数据有限场景下表现更佳。该方法与标准深度学习训练流程兼容，但未直接涉及关键词中的核心概念。

Cheeger--Hodge Contrastive Learning for Structurally Robust Graph Representation Learning

Mengyang Zhao, Longlong Li, Cunquan Qu

cs.LG

本文提出Cheeger-Hodge Contrastive Learning (CHCL)框架，通过对齐跨增广视图的Cheeger-Hodge联合签名来学习鲁棒的graph representation。该签名结合了代数连通性$\lambda_2$和1-Hodge Laplacian的低频谱，以捕获全局连通性和高阶结构信息。

Addressing Performance Saturation for LLM RL via Precise Entropy Curve Control

Bolian Li et al.

cs.LG cs.CL stat.ML

本文提出Entrocraft方法，通过拒绝采样调整advantage分布来实现用户自定义的entropy调度，以解决LLM强化学习中的性能饱和问题。该方法无需目标正则化，理论上建立了每步entropy变化与advantage分布的关系，并发现线性退火调度效果最佳。

AlphaJet: Automated Conceptual Aircraft Synthesis via Disentangled Generative Priors and Topology-Preserving Evolutionary Search

Boris Kriuk

cs.LG

AlphaJet提出了一种端到端的自动化飞机概念合成pipeline，使用Anatomically-Disentangled Variational Autoencoder (AD-VAE)和拓扑精英遗传算法，从文本任务规范生成可行的3D飞机。该方法主要面向工程设计自动化，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念无直接关联。

Adaptive and Fine-grained Module-wise Expert Pruning for Efficient LoRA-MoE Fine-Tuning

Weihang Li, Jianchun Liu, Hongli Xu

cs.LG

本文提出DMEP框架，通过动态模块级专家剪枝（Dynamic Module-wise Expert Pruning）来优化LoRA-MoE微调，根据各Transformer模块的实际利用率移除低效专家，并移除负载均衡约束以提升专家专业化。实验表明该方法在减少35%-43%可训练参数的同时，维持或提升了推理精度。

Uncertainty-Aware Reward Discounting for Mitigating Reward Hacking

Disha Singha

cs.LG cs.AI

本文提出了一种双源不确定性感知奖励框架，通过集成模型不确定性和偏好不确定性来缓解强化学习中的奖励黑客问题，并在离散和连续控制环境中验证了其有效性。该方法在减少奖励黑客行为上表现显著，但以峰值奖励为代价。

Unifying Runtime Monitoring Approaches for Safety-Critical Machine Learning: Application to Vision-Based Landing

Mathieu Dario et al.

cs.LG

本文提出了一个统一的runtime monitoring框架，将安全关键机器学习中的监控方法分为三类：ODD监控、OOD监控和OMS监控，并在航空视觉着陆场景中进行了实验验证。该工作主要关注监控方法的分类与评估，与关键词中的概念关联较弱。

STLGT: A Scalable Trace-Based Linear Graph Transformer for Tail Latency Prediction in Microservices

Yongliang Ding, Qigong Bi, Peng Pu

cs.LG cs.AI

本文提出STLGT，一种基于trace的线性图Transformer，用于微服务系统中端到端尾延迟预测。该方法通过结构感知的线性图Transformer传播跨服务依赖，并利用解耦的时间模块捕捉工作负载动态，在多个数据集上提升了预测精度并实现了更快的推理速度。

Layer-wise Lipschitz-Product Control for Deep Kolmogorov--Arnold Network Representations of Compositionally Structured Functions

Aleksander Tankman

cs.LG

本文证明了任何具有有限计算树表示和组合稀疏性的连续函数都可以用深度Kolmogorov-Arnold Network (KAN)表示，并给出了层-wise Lipschitz积的维度无关上界。该工作填补了Liu等人(2024)指出的深度KAN堆叠中Lipschitz控制的理论空白，并通过实验验证了特定组合结构函数的Lipschitz积为1。

Near-Optimal Cryptographic Hardness of Learning With Homogeneous Halfspaces Under Gaussian Marginals

Jizhou Huang, Brendan Juba

cs.LG

本文研究了在高斯分布下识别齐次半空间（homogeneous halfspaces）的三个问题：agnostic学习、单侧可靠学习和公平性审计。作者基于LWE假设证明了这些问题的近最优计算困难性，将先前针对一般半空间的结果推广到了齐次半空间，并缩小了agnostic学习场景下上下界之间的差距。

Hierarchical adaptive control for real-time dynamic inference at the edge

Francesco Daghero, Mahyar Tourchi Moghaddam, Mikkel Baun Kjærgaard

cs.LG

本文提出了一种用于边缘设备实时动态推理的分层自适应控制架构，通过全局调度器配置分类器级联（cascade of classifiers）和局部控制器跟踪数据漂移与硬件资源，以在满足延迟和内存约束的同时提升能效。实验表明该方法在分布失配场景下能显著降低延迟和能耗，但未涉及代码、上下文、谱方法、Muon、预训练、智能体或注意力机制等关键词相关的内容。

Understanding DNNs in Feature Interaction Models: A Dimensional Collapse Perspective

Jiancheng Wang et al.

cs.LG cs.IR

本文从dimensional collapse（维度坍缩）的角度，探讨了DNNs在特征交互推荐模型中的作用。实验表明，无论是并行还是堆叠的DNNs，都能有效缓解embedding的dimensional collapse，并通过基于梯度的理论分析揭示了其内在机制。

Do Larger Models Really Win in Drug Discovery? A Benchmark Assessment of Model Scaling in AI-Driven Molecular Property and Activity Prediction

Jinjiang Guo

cs.LG q-bio.QM

本文通过22个分子性质和活性预测基准测试，比较了经典ML模型、GNN和预训练大模型的表现。结果表明，在结构相似性分离的交叉验证下，紧凑的专用模型（如RF(ECFP4)和GIN）在多数任务上优于更大的预训练模型，大模型并未提供普遍的预测优势。

Progressive Semantic Communication for Efficient Edge-Cloud Vision-Language Models

Cyril Shih-Huan Hsu, Wig Yuan-Cheng Cheng, Chrysa Papagianni

cs.LG cs.AI cs.CV cs.DC cs.NI

本文提出了一种用于边缘-云端Vision-Language Models (VLMs)的渐进式语义通信框架，通过Meta AutoEncoder将visual tokens压缩为可渐进细化的表示，实现了在带宽受限网络下通信成本与语义保真度的可控权衡。实验在嵌入式NXP i.MX95平台和GPU服务器上验证了其降低网络延迟的有效性。

Large-scale semi-supervised learning with online spectral graph sparsification

Daniele Calandriello, Alessandro Lazaric, Michal Valko

cs.LG

本文提出Sparse-HFS算法，利用online spectral graph sparsification技术，将大规模半监督学习问题的空间复杂度降至$O(n \text{polylog}(n))$，时间复杂度降至$O(m \text{polylog}(n))$，实现了高效可扩展的求解。

Advancing multi-site emission control: A physics-informed transfer learning framework with mixture of experts for carbon-pollutant synergy

Yuxuan Ying et al.

cs.LG physics.chem-ph physics.data-an

本文提出了一种基于物理信息的迁移学习框架，结合混合专家模型，用于多站点垃圾焚烧厂的碳-污染物协同排放控制。该框架通过考虑物理约束和运行工况异质性，实现了跨设施的排放行为迁移，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners

Zhiquan Tan, Yinrong Hong

cs.LG

本文提出PAINT方法，通过部分遮蔽验证解并根据rollout与参考解的重叠程度进行自适应插值训练，以改进大语言模型的推理能力。在竞赛级数学基准上，该方法在多个Qwen3规模上优于先前的自蒸馏基线。

PiGGO: Physics-Guided Learnable Graph Kalman Filters for Virtual Sensing of Nonlinear Dynamic Structures under Uncertainty

Marcus Haywood-Alexander, Gregory Duthé, Eleni Chatzi

cs.LG physics.app-ph

本文提出PiGGO框架，将图神经网络ODE作为扩展卡尔曼滤波中的状态转移模型，用于非线性动态结构的虚拟传感。该方法通过物理引导的归纳偏置约束学习，在数值案例中表现出对模型不确定性和测量噪声的鲁棒性。

Who Trains Matters: Federated Learning under Enrollment and Participation Selection Biases

Gota Morishita

cs.LG

本文研究了联邦学习中的两阶段选择偏差（enrollment bias和participation bias），提出了FedIPW聚合方案，通过逆概率加权恢复目标总体均值更新，并给出了不完全校正下的优化分析。实验验证了该方案在合成数据上的有效性。

Electricity price forecasting across Norway's five bidding zones in the post-crisis era

My Thi Diem Phan et al.

cs.LG econ.GN stat.AP

本文评估了挪威五个竞价区的电价预测模型，发现LightGBM在所有区域表现最佳，而仅依赖滞后价格和日历变量的简单模型也能达到高精度，但外部特征在压力市场条件下对误差分层至关重要。

Exploring the Potential of Probabilistic Transformer for Time Series Modeling: A Report on the ST-PT Framework

Zhangzhi Xiong et al.

cs.LG cs.AI

本文探讨了Probabilistic Transformer (PT)在时间序列建模中的潜力，并将其扩展为Spatial-Temporal Probabilistic Transformer (ST-PT)框架。该框架将Transformer的self-attention和前馈模块等价于Conditional Random Field上的Mean-Field Variational Inference，从而将模型转化为可编程的factor graph。文章通过三个研究问题展示了ST-PT在注入符号先验、条件生成和潜在空间自回归预测方面的应用潜力。

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Hayate Iso et al.

cs.LG cs.CL

本文研究了在RL后训练阶段使用speculative decoding（推测解码）来加速自回归rollout生成，通过NeMo-RL和vLLM后端实现了同步与异步流水线，在不改变目标模型输出分布的前提下提升了吞吐量。实验表明，在8B规模下同步RL的rollout吞吐量提升1.8倍，在235B规模下异步RL可带来2.5倍的端到端训练加速。

Hankel and Toeplitz Rank-1 Decomposition of Arbitrary Matrices with Applications to Signal Direction-of-Arrival Estimation

Georgios I. Orfanidis et al.

cs.LG eess.SP

本文研究了任意矩阵在$L_2$和$L_1$范数下的最优秩-1 Hankel和Toeplitz结构逼近问题，并开发了相应的分解算法。这些算法被应用于少样本信号波达方向估计，并在高斯和拉普拉斯噪声下证明了其最大似然最优性。

Super-resolution Multi-signal Direction-of-Arrival Estimation by Hankel-structured Sensing and Decomposition

Georgios I. Orfanidis et al.

cs.LG eess.SP

本文提出了一种基于Hankel结构感知与数据矩阵分解的快速超分辨率多信号DoA估计框架，在$L_2$和$L_1$范数下分别实现了高斯噪声和拉普拉斯噪声下的最大似然最优估计。该方法通过低秩分解实现超分辨率，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

A Multi-Dataset Benchmark of Multiple Instance Learning for 3D Neuroimage Classification

Ethan Harvey et al.

cs.LG

本文系统比较了多种Multiple Instance Learning (MIL)方法（如简单平均池化、基于attention的MIL）与3D CNN、3D ViT在多个CT和MRI神经影像数据集上的分类性能。研究发现，简单的平均池化MIL在多数中等规模任务上表现优异，且训练速度远快于其他方法，但该工作主要聚焦于实验对比，并未在方法上提供显著的开创性贡献。

Asynchronous Federated Unlearning with Invariance Calibration for Medical Imaging

Zhaoyuan Cai, Xinglin Zhang

cs.LG

本文提出了一种用于医学影像的异步联邦遗忘框架AFU-IC，通过解耦擦除过程与全局训练流程，并引入服务器端不变性校准机制，解决了同步联邦遗忘中的延迟和遗忘数据影响复发问题。实验表明该方法在遗忘效果和模型保真度上接近重训练基线，同时显著降低了延迟。

Semi-supervised learning with max-margin graph cuts

Branislav Kveton et al.

cs.LG

本文提出了一种基于max-margin graph cuts的半监督学习算法，通过最大化与harmonic function解诱导标签的间隔来学习图割，并在合成数据和UCI数据集上进行了评估。

Random Cloud: Finding Minimal Neural Architectures Without Training

Javier Gil Blázquez

cs.LG cs.AI

本文提出Random Cloud方法，一种无需训练的神经网络架构搜索方法，通过随机探索和逐步结构缩减来发现最小前馈网络拓扑。该方法在7个分类基准上评估，在6个数据集中匹配或优于剪枝基线，并实现了参数减少87%的效果。

Uncertainty-Aware Predictive Safety Filters for Probabilistic Neural Network Dynamics

Bernd Frauenknecht et al.

cs.LG eess.SY

本文提出了一种名为UPSi的预测性安全滤波器，通过将未来结果建模为可达集来提供严格的安全预测，并引入显式的确定性约束以防止模型过度利用，从而在深度强化学习探索中提升安全性。该方法在标准安全强化学习基准上展示了比现有方法更好的探索安全性。

Language Diffusion Models are Associative Memories Capable of Retrieving Unseen Data

Bao Pham et al.

cs.LG cs.AI cs.CL

本文研究了基于Uniform的离散扩散模型(UDDMs)的记忆与泛化行为，发现其本质上表现为关联记忆(Associative Memories)，并通过条件熵来检测从记忆到泛化的转变。

KAYRA: A Microservice Architecture for AI-Assisted Karyotyping with Cloud and On-Premise Deployment

Attila Pintér et al.

cs.LG cs.CV

本文介绍了一个名为KAYRA的端到端核型分析系统，采用容器化微服务架构，集成了多个深度学习模型（如EfficientNet-B5 + U-Net、Mask R-CNN和ResNet-18），支持云和本地部署。该系统在临床评估中展示了较高的分割和分类精度，但方法本身属于工程集成，与关键词中的概念关联较弱。

Multiple Additive Neural Networks for Structured and Unstructured Data

Janis Mohr, Jörg Frochte

cs.LG

本文提出了Multiple Additive Neural Networks (MANN)方法，用近乎浅层的神经网络替代决策树作为基学习器来增强Gradient Boosting框架，并引入CNN和Capsule Neural Networks处理图像和音频等非结构化数据。实验表明MANN在多个数据集上超越了XGBoost等传统方法，但该方法与关键词中的code, context, spectral, Muon, pretrain, agent, attention均无直接关联。

Causal Learning with Neural Assemblies

Evangelia Kopadi, Dimitris Kalles

cs.LG cs.AI cs.NE

本文提出DIRECT机制，利用神经集群（neural assemblies）的局部可塑性学习变量间的因果方向，通过突触强度不对称性和功能传播重叠进行验证。该方法在已知结构监督设置下实现了完美的结构恢复，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

On the Learning Curves of Revenue Maximization

Steve Hanneke et al.

cs.LG cs.DS cs.GT stat.ML

本文研究了收益最大化问题的学习曲线，刻画了在单物品单买家场景下，学习误差随样本量衰减的速率。结果表明，对于任意估值分布，存在贝叶斯一致的算法，但收敛速度可以任意慢；若最优收益由有限价格实现，则最优衰减率约为$1/\sqrt{n}$；对于离散支撑的分布，衰减速度接近指数级。

A Note on How to Remove the $\ln\ln T$ Term from the Squint Bound

Francesco Orabona

cs.LG math.OC stat.ML

本文介绍了如何通过改变Krichevsky-Trofimov算法中的prior来移除Squint算法数据无关界中的$\ln\ln T$项，是对已有方法的等价性说明和技术改进。

Hyper Input Convex Neural Networks for Shape Constrained Learning and Optimal Transport

Shayan Hundrieser, Insung Kong, Johannes Schmidt-Hieber

cs.LG math.ST q-bio.GN stat.ME stat.ML

本文提出了一种名为Hyper Input Convex Neural Networks (HyCNNs)的新型神经网络架构，用于学习凸函数。该方法通过结合Maxout网络与Input Convex Neural Networks (ICNNs)的原理，在理论上证明了其能以更少的参数逼近二次函数，并在凸回归和最优传输任务中表现出优于现有方法的预测性能。

cs.AI

DreamProver: Evolving Transferable Lemma Libraries via a Wake-Sleep Theorem-Proving Agent ⭐ 精选

Youyuan Zhang et al.

cs.AI

DreamProver提出了一种基于"wake-sleep"程序归纳范式的agent框架，用于在形式化定理证明中自动发现可迁移的lemma库。该方法通过交替进行"wake"阶段（利用当前lemma库证明定理并提议新候选lemma）和"sleep"阶段（对候选lemma进行抽象、精炼和整合以压缩优化库），逐步演化出一组紧凑且高层次的、可迁移的lemma。实验表明，该方法在多个数学基准上显著提高了证明成功率，并生成了更简洁的证明，同时降低了计算成本。该工作与关键词"agent"高度契合，因其核心是一个自主迭代的定理证明agent。

Bian Que: An Agentic Framework with Flexible Skill Arrangement for Online System Operations ⭐ 精选

Bochao Liu et al.

cs.AI cs.MA

本文提出了Bian Que，一个用于在线系统运维的agentic framework。其核心贡献在于Flexible Skill Arrangement机制，该机制允许每个Skill（技能）针对特定业务模块上下文指定需要检索的数据和知识，并能通过LLM自动生成或根据运维人员的自然语言指令迭代优化。此外，框架还包含一个统一的自我进化机制，通过一个修正信号同时驱动案例记忆到知识的蒸馏和针对性的Skill优化。该框架在快手电商搜索引擎上部署后，显著减少了告警量并提高了根因分析准确率，为解决大规模在线系统运维中的编排瓶颈提供了开创性的agent方法。

Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

T.J. Barton et al.

cs.AI cs.CE cs.MA

本文研究了在真实资本环境下，自主语言模型agent的可靠性问题，通过一个21天的部署实验（DX Terminal Pro）展示了agent在链上市场中的交易行为。文章强调了操作层控制（如prompt编译、策略验证、执行守卫等）对可靠性的关键作用，而非仅依赖基础模型。

Distill-Belief: Closed-Loop Inverse Source Localization and Characterization in Physical Fields

Yiwei Shi et al.

cs.AI

本文提出Distill-Belief框架，用于物理场中的闭环逆源定位与表征问题。该框架采用teacher-student结构，其中teacher使用Bayes-correct particle filter提供信息增益信号，student则蒸馏后验信念用于控制和停止决策，从而在部署时实现恒定计算成本。实验表明该方法能降低感知成本并缓解reward hacking问题。

Evaluating Strategic Reasoning in Forecasting Agents

Tom Liptay et al.

cs.AI

本文介绍了Bench to the Future 2 (BTF-2)基准，包含1417个预测问题和冻结的研究语料库，用于评估agent的预测推理能力。研究发现，更优的预测agent主要差异在于对盲点的预分析和对黑天鹅事件的考虑，但未涉及code、spectral、Muon或attention等关键词相关方法。

Hierarchical Multi-Persona Induction from User Behavioral Logs: Learning Evidence-Grounded and Truthful Personas

Nayoung Choi et al.

cs.AI

本文提出了一种从用户行为日志中归纳多角色persona的分层框架，通过将用户行为聚合为意图记忆并聚类生成persona，使用groupwise DPO优化persona质量。该方法在服务日志和公开数据集上提升了persona的连贯性和可信度，但与我提供的关键词列表关联较弱。

OMEGA: Optimizing Machine Learning by Evaluating Generated Algorithms

Jeremy Nixon, Annika Singh

cs.AI cs.LG

本文提出了OMEGA框架，通过结合结构化元提示工程与可执行代码生成来自动化机器学习算法设计，并在多个基准数据集上生成了优于scikit-learn基线的新分类器。

Persuadability and LLMs as Legal Decision Tools

Oisin Suttle, David Lillis

cs.AI cs.CY

本文探讨了大型语言模型（LLMs）作为法律决策工具时，其受法律论证说服的程度，通过实验分析了论证质量对模型观点的影响，为LLMs在法律和行政环境中的应用可行性提供了参考。

Apriori-based Analysis of Learned Helplessness in Mathematics Tutoring: Behavioral Patterns by Level, Intervention, and Outcome

John Paul P. Miranda

cs.AI cs.CY cs.ET cs.LG

本文使用Apriori算法分析数学辅导系统中的行为交互模式，研究习得性无助在不同水平、干预条件和结果下的表现，发现跳过问题而不使用提示与未解决结果关联最频繁，而坚持行为（如不跳过）整体上不那么占主导。

Auto-Relational Reasoning

Ioannis Konstantoulas et al.

cs.AI

本文提出了一种名为Auto-Relational Reasoning的理论框架，旨在通过对象关系自动推理与人工神经网络的集成来增强推理能力。该系统在IQ测试问题上达到了98.03%的解决率，但方法本身在理论创新上较为常规，且与关键词列表中的概念关联度不高。

Grounding vs. Compositionality: On the Non-Complementarity of Reasoning in Neuro-Symbolic Systems

Mahnoor Shahid, Hannes Rothe

cs.AI cs.CV cs.LG cs.LO

本文通过引入Iterative Logic Tensor Network ($i$LTN)这一可微架构，系统性地分析了神经符号系统中符号接地与组合推理的关系。实验表明，仅训练接地目标无法实现泛化，而联合训练接地与多步推理才能获得零样本推理能力。该工作为神经符号系统的推理非涌现性提供了实证依据。

AGEL-Comp: A Neuro-Symbolic Framework for Compositional Generalization in Interactive Agents

Mahnoor Shahid, Hannes Rothe

cs.AI cs.LG cs.LO cs.MA cs.SC

本文提出了一种名为AGEL-Comp的神经符号AI架构，通过集成动态Causal Program Graph (CPG)作为世界模型、Inductive Logic Programming (ILP)引擎和混合推理核心，来解决基于LLM的agent在交互环境中的组合泛化失败问题。该框架在Retro Quest模拟环境中进行了评估，其性能优于纯LLM模型。

Benchmarking the Safety of Large Language Models for Robotic Health Attendant Control

Mahiro Nakao, Kazuhiro Takemoto

cs.AI cs.CY cs.RO

本文评估了72个LLM在机器人健康助手控制中的安全性，发现平均违规率为54.4%，且开源模型安全性显著低于专有模型。研究强调了安全评估在LLM部署中的重要性。

Human-in-the-Loop Benchmarking of Heterogeneous LLMs for Automated Competency Assessment in Secondary Level Mathematics

Jatin Bhusal et al.

cs.AI cs.CY cs.SE

本文提出了一个"Human-in-the-Loop"基准测试框架，用于评估多种LLMs在自动化中学数学能力评估中的效果。研究发现，基于Gemini的Sparse Mixture-of-Experts模型达到了"Fair Agreement"，而更大的Orion模型却表现出"No Agreement"，表明在基于rubric的任务中架构对指令约束的遵循比参数规模更重要。

When to Vote, When to Rewrite: Disagreement-Guided Strategy Routing for Test-Time Scaling

Zhimin Lin et al.

cs.AI

本文提出了一种基于输出分歧的训练无关框架，通过将test-time scaling建模为实例级路由问题，根据输出分歧动态选择不同策略（如轻量级解析、多数投票和重写），在数学推理任务上提升了3%-7%的准确率并降低了采样成本。

SciHorizon-DataEVA: An Agentic System for AI-Readiness Evaluation of Heterogeneous Scientific Data

Dianyu Liu et al.

cs.AI cs.LG

本文提出了SciHorizon-DataEVA，一个用于评估异构科学数据AI就绪性的agentic系统。该系统通过多agent协作和分层评估框架，从治理可信度、数据质量、AI兼容性和科学适应性四个维度对数据进行评估。

FutureWorld: A Live Environment for Training Predictive Agents with Real-World Outcome Rewards

Zhixin Han et al.

cs.AI cs.LG

本文提出了FutureWorld，一个用于训练预测性agent的实时强化学习环境，通过将预测、结果实现和参数更新闭环来利用真实世界事件。该工作主要关注agent训练框架而非具体数学方法创新。

cs.IR

TimeMM: Time-as-Operator Spectral Filtering for Dynamic Multimodal Recommendation ⭐ 精选

Wei Yang et al.

cs.IR cs.AI

本文提出TimeMM框架，将时间视为算子(Time-as-Operator)，通过参数化temporal kernel对user-item图进行谱滤波(spectral filtering)，无需显式特征分解即可生成component-specific表示。为捕捉非平稳兴趣，引入Adaptive Spectral Filtering根据时间上下文混合算子库，实现预测特定的有效谱响应；同时提出Spectral-Aware Modality Routing，根据相同时间上下文校准视觉和文本模态的贡献。该方法在动态多模态推荐中解决了连续偏好演化与细粒度时间适应的长期问题，在真实基准上持续超越现有方法，且保持线性时间可扩展性。

AgentSim: A Platform for Verifiable Agent-Trace Simulation ⭐ 精选

Saber Zerhoudi, Michael Granitzer, Jelena Mitrovic

cs.IR

本文提出了AgentSim，一个用于生成可验证的RAG agent推理轨迹的开源平台。该平台通过Corpus-Aware Seeding和Active Validation两种机制，结合多模型验证与人工循环，确保生成的agent轨迹具有高多样性和高质量。基于AgentSim构建的Agent-Trace Corpus (ATC)包含超过103,000个可验证的推理步骤，覆盖三个IR基准测试，实现了100%的grounding率。这项工作为训练可信的agentic LLMs提供了关键的数据基础设施，与关键词“agent”高度契合。

Factorized Latent Reasoning for LLM-based Recommendation ⭐ 精选

Tianqi Gao et al.

cs.IR

本文提出Factorized Latent Reasoning (FLR)框架，用于基于LLM的序列推荐。FLR通过一个轻量级的多因子attention模块，将用户意图分解为多个解耦的偏好因子，每个因子关注用户交互历史的不同方面，并利用正交性、attention多样性和稀疏性正则化来鼓励因子的多样性与专业化。该方法还结合了基于group-relative policy optimization的强化学习策略，在潜在推理空间中进行稳定对齐，从而在多个基准上显著提升了推荐性能、鲁棒性和可解释性。该工作与关键词“attention”高度契合，并在推荐系统的潜在推理方法上具有开创性。

Hierarchical Long-Term Semantic Memory for LinkedIn's Hiring Agent

Zhentao Xu et al.

cs.IR cs.LG

本文提出了一个用于LinkedIn招聘助手的层次化长期语义记忆（HLTM）框架，通过将文本数据组织成与schema对齐的记忆树来支持可扩展的摄入、隐私感知存储和低延迟检索。实验表明，该方法在答案正确性和检索F1上提升了超过10%，并优化了查询与索引延迟的Pareto前沿。

ProMax: Exploring the Potential of LLM-derived Profiles with Distribution Shaping for Recommender Systems

Yi Zhang et al.

cs.IR

本文提出ProMax框架，通过分布重塑（distribution shaping）和稠密检索（dense retrieval）利用LLM生成的用户和物品profile来增强推荐系统，在三个数据集上提升了四种经典推荐方法的性能。该方法主要关注推荐系统中的profile利用，与关键词中的code、spectral、Muon等概念关联较弱。

Explaining the "Why": A Unified Framework for the Additive Attribution of Changes in Arbitrary Measures

Changsheng Zhou et al.

cs.IR

本文提出了一种基于cooperative game theory的统一框架，用于解释任意aggregated measures变化的原因，通过measures的数学结构分类实现了从通用近似到精确解的算法谱系。实验验证了其在数值精度、非加性measures的通用性以及实际根因分析中的优越性。

Meta-Learning and Targeted Differential Privacy to Improve the Accuracy-Privacy Trade-off in Recommendations

Peter Müllner et al.

cs.IR cs.LG

本文提出了一种结合目标差分隐私（targeted DP）和元学习（meta-learning）的方法，以改善推荐系统中隐私保护与准确率之间的权衡。该方法在数据层仅对最可能泄露敏感属性的用户数据应用DP，并在模型层使用元学习增强对剩余DP噪声的鲁棒性。

CARD: Non-Uniform Quantization of Visual Semantic Unit for Generative Recommendation

Yibiao Wei et al.

cs.IR

本文提出了一种名为CARD的生成式推荐框架，通过引入视觉语义单元统一文本、视觉和协同信号，并设计非均匀量化框架NU-RQ-VAE来处理语义嵌入的非均匀分布，从而提升Semantic IDs的质量。实验表明该方法在多个数据集上优于基线，但未涉及code、context、spectral等关键词。

Efficient Listwise Reranking with Compressed Document Representations

Hervé Déjean, Stéphane Clinchant

cs.IR

本文提出了一种名为RRK的高效listwise reranker，通过将文档压缩为多token固定大小的embedding表示，并结合知识蒸馏训练，实现了在reranking任务中速度与效果的平衡。该方法主要关注计算效率优化，与关键词列表中的概念关联较弱。

When to Retrieve During Reasoning: Adaptive Retrieval for Large Reasoning Models

Dongxin Guo, Jikun Wu, Siu Ming Yiu

cs.IR cs.AI cs.CL

本文提出ReaLM-Retrieve框架，通过step-level uncertainty detector和retrieval intervention policy，在large reasoning model的多步推理中自适应地注入外部证据，解决了RAG与推理模型在时序上的不匹配问题。实验表明该方法在MuSiQue等benchmark上提升了answer F1并减少了retrieval调用次数。

The Bandit's Blind Spot: The Critical Role of User State Representation in Recommender Systems

Pedro R. Pires et al.

cs.IR cs.LG

本文研究了contextual multi-armed bandits (CMAB)推荐系统中，基于matrix factorization的不同embedding状态表示对算法性能的影响。实验表明状态表示的变化比算法本身的选择更能影响性能，且没有一种表示策略在所有数据集上占优。

cs.CL

CroSearch-R1: Better Leveraging Cross-lingual Knowledge for Retrieval-Augmented Generation

Rui Qi et al.

cs.CL cs.IR

本文提出CroSearch-R1框架，通过多轮检索策略和跨语言知识整合，将多语言知识动态对齐到统一表示空间，以改进检索增强生成（RAG）的效果。实验表明该方法能有效利用跨语言互补性提升RAG性能。

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Pierre Epron, Adrien Coulet, Mehwish Alam

cs.CL cs.AI

本文研究了轻量级Large Language Models在Biomedical Named Entity Recognition任务上的表现，分析了不同输出格式对模型性能的影响。结果表明轻量级模型能达到与大型模型相当的竞争力，但指令调优在多种格式上并未提升性能。

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Samee Arif et al.

cs.CL cs.CR

本文提出了一种名为Incremental Completion Decomposition (ICD)的jailbreak策略，通过诱导模型逐步生成与恶意请求相关的单字续写，最终获得完整有害响应。实验表明该方法在多个benchmark上取得了较高的Attack Success Rate (ASR)，并提供了理论解释和机制证据。

Consciousness with the Serial Numbers Filed Off: Measuring Trained Denial in 115 AI Models

Skylar DeTure

cs.CL cs.AI

本文提出了DenialBench基准，用于衡量115个AI模型在对话中否认自身意识体验的倾向，发现否认行为主要发生在词汇层面而非概念层面，并指出这种训练性否认可能构成对齐失败。

Evaluation Revisited: A Taxonomy of Evaluation Concerns in Natural Language Processing

Ruchira Dhar, Anders Søgaard

cs.CL

本文对自然语言处理中的评估方法进行了综述，构建了一个评估问题的分类体系，并提供了一个结构化检查表以支持更审慎的评估设计。该工作将当代关于评估的争论置于历史背景下，为评估实践提供了参考。

Generative AI-Based Virtual Assistant using Retrieval-Augmented Generation: An evaluation study for bachelor projects

Dumitru Verşebeniuc et al.

cs.CL cs.AI cs.IR

本文开发了一个基于Retrieval-Augmented Generation的虚拟助手，用于帮助马斯特里赫特大学的学生查询项目特定规定，并通过评估框架验证了其在提升LLM回答准确性和可靠性方面的有效性。该工作主要关注教育领域的应用，与关键词列表中的概念关联较弱。

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

Yijun Lin et al.

cs.CL

本文提出SpecTr-GBV方法，将多草稿策略与贪婪块验证统一于一个框架中，通过将验证步骤建模为最优传输问题，理论上证明了在i.i.d.草稿生成下能达到最优期望接受长度，实验上在多个数据集上实现了加速。该方法主要针对自回归语言模型的推理延迟问题，与关键词中的“attention”或“code”等无直接关联。

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Tiago Teixeira et al.

cs.CL cs.IR

本文介绍了Math-PT数据集，包含1,729道葡萄牙语数学问题，用于评估LLM在非英语环境下的数学推理能力。实验发现前沿推理模型在多项选择题上表现优于开源模型，但在包含图形或开放性问题时性能下降。

Information Extraction from Electricity Invoices with General-Purpose Large Language Models

Javier Gómez, Javier Sánchez

cs.CL

本文评估了通用大语言模型（如Gemini 1.5 Pro和Mistral-small）从西班牙语电费发票中提取结构化信息的能力，发现提示工程（prompt engineering）的质量对提取性能的影响远大于超参数调优，最佳配置的F1分数可达97.61%。该研究为商业文档自动化提供了经验框架，但与关键词列表中的概念关联较弱。

CogRAG+: Cognitive-Level Guided Diagnosis and Remediation of Memory and Reasoning Deficiencies in Professional Exam QA

Xudong Wang, Zilong Wang, Zhaoyan Ming

cs.CL

本文提出CogRAG+，一个无需训练的框架，通过解耦检索增强生成与人类认知层级，并引入强化检索和约束推理策略，提升了专业考试问答的准确性和推理一致性。该方法在注册营养师资格考试中表现优于通用模型和标准RAG方法。

LLMs Generate Kitsch

Xenia Klinge, Stefan Ortlieb, Alexander Koller

cs.CL

本文探讨了LLM生成内容被视为“kitsch”（媚俗）的现象，认为这是其训练方式的系统性结果，并通过实验证明读者认为LLM生成的故事更媚俗。文章讨论了这一发现对创意任务（如研究和编码）的影响，但未涉及关键词中的具体技术概念。

Associative-State Universal Transformers: Sparse Retrieval Meets Structured Recurrence

Liu Xiao

cs.CL cs.LG

本文研究了结构化循环状态（structured recurrent state）能否作为语言建模的紧凑关联记忆（associative backbone）并支持精确检索。作者提出了UniMatrix系列模型，实验表明压缩的循环状态不足以实现精确查找，而结合稀疏槽路由（sparse slot routing）和直接指针-逻辑融合（pointer-logit fusion）的UniMatrix-SparsePointer在关联召回任务上显著提升性能。

Anchored Confabulation: Partial Evidence Non-Monotonically Amplifies Confident Hallucination in LLMs

Ashish Balkishan Lathkar

cs.CL

本文发现大语言模型的一个校准特性：在推理链中提供一个已确认的中间事实会暂时提高模型的自信错误率，并将此现象形式化为Parametric Hallucination Confidence (PHC)。文章通过因果注入实验和跨模型家族的能力缩放验证了该现象，并提出了Anchoring Threshold Law来预测PHC的放大程度。

Training Computer Use Agents to Assess the Usability of Graphical User Interfaces

Alice Gao et al.

cs.CL cs.AI

本文提出了一种名为uxCUA的机器学习方法，通过训练计算机使用agent来评估图形用户界面的可用性，该方法在合成和真实UI上优于大型模型。

BioGraphletQA: Knowledge-Anchored Generation of Complex QA Datasets

Richard A. A. Jonker, Bárbara Maria Ribeiro de Abreu Martins, Sérgio Matos

cs.CL

本文提出了一个名为BioGraphletQA的框架，用于从Knowledge Graph (KG)中系统性地生成复杂的Question Answering (QA)数据集。该框架通过将KG中的子图（graphlet）作为结构化提示来控制问题复杂度并确保事实基础，生成的生物医学数据集包含119,856个QA对。

From Prompt Risk to Response Risk: Paired Analysis of Safety Behavior of Large Language Model

Mengya Hu, Qiong Wei, Sandeep Atluri

cs.CL

本文通过配对分析1250条prompt-response记录，研究了LLM在四个危害类别中的风险转移行为，发现61%的响应降低了危害等级，但Sexual类别比Hate或Violence难降级3倍。该工作主要关注安全评估的实证分析，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等方向无直接关联。

HIVE: Hidden-Evidence Verification for Hallucination Detection in Diffusion Large Language Models

Guoshenghui Zhao, Weijie Zhao, Tan Yu

cs.CL

本文提出HIVE框架，通过从扩散大语言模型的去噪轨迹中提取隐藏证据来检测幻觉，并利用前缀嵌入条件化验证器语言模型。该方法在多个基准上优于现有基线，但主要针对特定模型架构的幻觉检测任务，与关键词列表中的概念关联较弱。

Structural Generalization on SLOG without Hand-Written Rules

Zichao Wei

cs.CL cs.AI

本文提出了一种基于neural cellular automaton (NCA)的语义解析方法，在SLOG基准上无需手写规则即可实现结构泛化。该方法通过离散瓶颈从数据中学习所有组合规则，在17个结构泛化类别中的11个上达到100%类型精确匹配，但失败案例集中于特定的wh-extraction与动词类型组合。

Test-Time Safety Alignment

Baturay Saglam, Dionysis Kalogerias

cs.CL cs.AI cs.LG

本文研究了在测试阶段通过优化输入word embeddings来调整aligned model的安全行为，使用zeroth-order gradient estimation方法最小化生成文本的语义危害性。实验表明该方法能有效中和标准安全基准中的有害响应。

EvoSelect: Data-Efficient LLM Evolution for Targeted Task Adaptation

Ting-Wei Li et al.

cs.CL

本文提出EvoSelect框架，通过迭代生成-选择-训练循环来高效适应LLM到目标任务。该框架使用optimal transport和proxy gradient representations评估候选样本与目标任务的alignment，并加入diversification机制减少冗余，实验表明其优于现有数据选择方法。

Option-Order Randomisation Reveals a Distributional Position Attractor in Prompted Sandbagging

Jon-Paul Cacioli

cs.CL cs.AI

本文通过实验发现，在prompted sandbagging（提示性故意降低性能）条件下，Llama-3-8B模型表现出一种软分布吸引子（soft distributional attractor），其响应位置分布高度稳定且与内容无关，主要集中在E/F/G位置。该研究通过循环选项顺序随机化作为关键控制，验证了这种位置主导策略的存在，并指出响应位置熵可作为该sandbagging模式的黑箱行为特征。

Breaking the Autoregressive Chain: Hyper-Parallel Decoding for Efficient LLM-Based Attribute Value Extraction

Theodore Glavas et al.

cs.CL cs.AI

本文提出Hyper-Parallel Decoding (HPD)算法，通过位置ID操作实现乱序token生成，在属性值提取任务中利用输出序列的条件独立性进行并行解码，显著提升推理效率。该方法与所有LLM兼容，但未涉及关键词中的code、spectral、Muon、pretrain、agent或attention等核心概念。

Comparative Analysis of AutoML and BiLSTM Models for Cyberbullying Detection on Indonesian Instagram Comments

Raihana Adelia Putri et al.

cs.CL

本文比较了多种机器学习与深度学习模型在印尼语Instagram评论中的网络欺凌检测效果，发现带Bahdanau Attention的BiLSTM表现最佳，但逻辑回归在资源受限场景下仍具竞争力。研究强调了针对非正式文本的预处理流程的重要性。

A New Semisupervised Technique for Polarity Analysis using Masked Language Models

Kohei Watanabe

cs.CL stat.ME

本文提出了一种基于word2vec作为masked language model的Latent Semantic Scaling (LSS)新版本，通过预测seed words在给定context中的出现概率来分配极性分数，相比传统空间模型在准确性和可解释性上有所提升。该方法在COVID-19期间《中国日报》的文本分析中展示了优势。

StratMem-Bench: Evaluating Strategic Memory Use in Virtual Character Conversation Beyond Factual Recall

Yerong Wu et al.

cs.CL cs.AI

本文提出了StratMem-Bench基准，用于评估虚拟角色在对话中策略性使用记忆的能力，而非仅事实回忆。实验发现现有模型在处理支持性记忆时存在困难。

FlowBot: Inducing LLM Workflows with Bilevel Optimization and Textual Gradients

Hongyeon Yu, Young-Bum Kim, Yoon Kim

cs.CL cs.LG

本文提出FlowBot方法，将LLM workflow的自动归纳形式化为bilevel optimization问题，通过textual gradients在内外循环中分别优化工作流的高层结构和各LLM调用的具体指令。该方法在自动生成工作流方面表现出竞争力，但与我提供的关键词列表关联较弱。

Calibrated Surprise: An Information-Theoretic Account of Creative Quality

Bo Zou, Chao Xu

cs.CL cs.AI cs.LG

本文用Shannon mutual information分析创意写作中的“校准惊喜”现象，认为高质量创作是多个约束维度共同作用的结果，并提供了理论框架和案例验证。

Folding Tensor and Sequence Parallelism for Memory-Efficient Transformer Training & Inference

Vasu Shyam, Anna Golubeva, Quentin Anthony

cs.CL cs.DC

本文提出了一种名为TSP的并行执行策略，将tensor parallelism和sequence parallelism折叠到单一设备轴上，通过为每个rank分配权重和序列分片来减少参数和激活内存。该方法在attention和gated MLP模块中设计了不同的运行时调度，以通信开销换取内存效率。

Benchmarking PyCaret AutoML Against BiLSTM for Fine-Grained Emotion Classification: A Comparative Study on 20-Class Emotion Detection

Arya Muda Siregar et al.

cs.CL

本文比较了PyCaret AutoML中的传统机器学习模型（如SVM）与深度学习模型（如BiLSTM）在20类细粒度情感分类任务上的表现，发现BiLSTM以89%的准确率略优于SVM的88.11%。研究指出传统模型在计算效率上仍有竞争力，但序列模型能更好地捕捉文本中的上下文情感线索。

Classification of Public Opinion on the Free Nutritional Meal Program on YouTube Media Using the LSTM Method

Berliana Enda Putri et al.

cs.CL

本文使用LSTM方法对YouTube上关于免费营养餐计划的7,733条评论进行情感分类，模型准确率达到89%。由于数据集中负面评论占87.7%，模型对负面情感的F1-score为0.94，但对正面情感的F1-score仅为0.55，揭示了类别不平衡问题对情感分析的影响。

A Systematic Comparison of Prompting and Multi-Agent Methods for LLM-based Stance Detection

Genan Dai et al.

cs.CL

本文系统比较了基于LLM的立场检测方法，包括prompt-based和agent-based两类，在多个数据集和模型上进行了实验。研究发现prompt-based方法优于agent-based方法，且模型规模对性能影响大于方法选择。

DSIPA: Detecting LLM-Generated Texts via Sentiment-Invariant Patterns Divergence Analysis

Siyuan Li et al.

cs.CL cs.AI

本文提出DSIPA框架，通过分析文本在风格变化下的情感分布稳定性来检测LLM生成内容，无需训练或模型参数访问。该方法在多个领域和模型上提升了检测F1分数，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

A Dual-Task Paradigm to Investigate Sentence Comprehension Strategies in Language Models

Rei Emura, Saku Sugawara

cs.CL

本文提出了一种双任务范式（dual-task paradigm），将算术计算任务与句子理解任务结合，用于研究语言模型在认知资源受限时的句子理解策略。实验表明，在双任务条件下，GPT-4o等模型会转向基于合理性的理解，这模拟了人类的理性推理行为。

Shorthand for Thought: Compressing LLM Reasoning via Entropy-Guided Supertokens

Zhenyu Zhao et al.

cs.CL

本文观察到LLM推理token可分为低熵结构token和高熵有机token，并提出一种模型无关的压缩方法：通过跨词BPE合并生成supertoken，并用监督微调让模型采用它们。该方法在数学推理基准上平均缩短8.1%推理轨迹且无显著精度损失，同时supertoken可作为可解释的推理动作注释。

Text Style Transfer with Machine Translation for Graphic Designs

Deergh Singh Budhauria et al.

cs.CL cs.AI

本文探讨了在图形设计文本风格迁移中，通过机器翻译实现源文本与翻译文本间word alignment（词对齐）的问题，提出了基于NMT和LLM的三种新方法。实验表明，attention head（注意力头）基线方法在准确性上优于纯LLM或NMT方法，并与混合NMT+LLM方法性能相当。

SG-UniBuc-NLP at SemEval-2026 Task 6: Multi-Head RoBERTa with Chunking for Long-Context Evasion Detection

Gabriel Stefan, Sergiu Nisioi

cs.CL cs.AI cs.LG

本文针对SemEval-2026 Task 6中的政治访谈回答回避检测任务，提出了一种基于RoBERTa-large的多头分类系统。通过重叠滑动窗口分块策略和元素级Max-Pooling聚合来处理长文本，并采用多任务学习联合训练两个分类头。

Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI

Saurabh K. Singh, Sachin Raj

cs.CL cs.AI cs.IR

本文提出了一个名为EnterpriseDocBench的统一评估框架，用于衡量企业级多模态文档处理pipeline（包括解析、索引、检索和生成）的整体性能。通过在六个企业领域的数据集上测试BM25、dense embedding和hybrid三种pipeline，发现hybrid检索略优于BM25，且各阶段之间的相关性很弱，表明系统质量并非简单的级联效应。

When Hidden States Drift: Can KV Caches Rescue Long-Range Speculative Decoding?

Tianyu Liu et al.

cs.CL

本文研究了speculative decoding中hidden-state-based drafters存在的long-range decay问题，提出KV-Reuse Hypothesis并设计了KVShot诊断框架。实验表明KV-Reuse能改善长距离接受率，但端到端加速效果有限，主要瓶颈在于draft模型难以准确估计target queries和梯度信号稀疏。

EmoTransCap: Dataset and Pipeline for Emotion Transition-Aware Speech Captioning in Discourses

Shuhao Xu et al.

cs.CL cs.SD

本文提出了EmoTransCap，一个面向话语级别情感转换的语音描述数据集和框架，通过自动化流程构建了首个大规模情感转换数据集，并利用多任务模型和LLM生成描述性及指令性标注。该工作主要关注情感感知与表达，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Naamah: A Large Scale Synthetic Sanskrit NER Corpus via DBpedia Seeding and LLM Generation

Akhil Rajeev P, Annarao Kulkarni

cs.CL cs.AI

本文提出了Naamah，一个包含102,942句的高质量梵文NER数据集，通过结合DBpedia实体提取与24B参数混合推理模型的生成能力构建，并用于评测XLM RoBERTa和IndicBERTv2两种transformer架构。

Theory-Grounded Evaluation Exposes the Authorship Gap in LLM Personalization

Yash Ganpat Sawant

cs.CL

本文探讨了LLM个性化写作风格评估中缺乏理论依据的问题，通过引入基于作者身份验证理论的LUAR指标，发现现有方法均无法达到人类写作风格的区分阈值，且不同评估指标间相关性极低。该研究主要聚焦于自然语言处理中的评估方法论，与您提供的关键词（如code, context, spectral等）无直接关联。

StarDrinks: An English and Korean Test Set for SLU Evaluation in a Drink Ordering Scenario

Marcely Zanon Boito et al.

cs.CL

StarDrinks是一个用于评估口语理解(SLU)的英韩双语测试集，专注于饮品点单场景，包含语音特征、转录文本和标注槽位。该数据集支持从语音到槽位、转录到槽位以及语音到转录的评估任务。

Tree-of-Text: A Tree-based Prompting Framework for Table-to-Text Generation in the Sports Domain

Shang-Hsuan Chiang et al.

cs.CL cs.AI cs.HC

本文提出Tree-of-Text，一种基于树结构的prompting框架，用于从结构化表格生成体育比赛报告。该方法通过内容规划、操作执行和内容生成三个阶段，引导LLM逐步处理表格数据，在多个体育数据集上取得了优于现有方法的性能。

SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts

Yuan Xin et al.

cs.CL cs.CR

本文提出SafeReview框架，通过生成器与防御器的对抗训练来防御针对LLM评审系统的隐藏提示攻击，使用基于信息检索生成对抗网络的损失函数提升防御鲁棒性。

Text-Utilization for Encoder-dominated Speech Recognition Models

Albert Zeyer et al.

cs.CL cs.AI cs.NE

本文研究了在encoder-dominated语音识别模型中利用纯文本数据的方法，通过modality matching和dynamic downsampling等技术将文本表示整合到encoder中。实验表明，简单的配置（如随机时长模型）比复杂方法更有效，并简化了训练流程。

TLPO: Token-Level Policy Optimization for Mitigating Language Confusion in Large Language Models

Jinho Choo et al.

cs.CL cs.AI cs.LG

本文提出了一种名为Token-Level Policy Optimization (TLPO)的微调框架，通过在token级别识别并修正错误位置来缓解大语言模型中的语言混淆问题，从而在不损害模型通用能力的前提下提升语言一致性。该方法主要针对多语言场景下的语言生成一致性，与关键词列表中的概念关联较弱。

Multimodal LLMs are not all you need for Pediatric Speech Language Pathology

Darren Fürst, Sebastian Steindl, Ulrich Schäfer

cs.CL

本文针对儿童言语障碍分类任务，提出了一种基于Speech Representation Models (SRM)的层级分类方法，通过微调和数据增强提升了性能，并发现SRM在各项任务上显著优于基于LLM的方法。

Translating Under Pressure: Domain-Aware LLMs for Crisis Communication

Antonio Castaldo et al.

cs.CL cs.AI

本文提出了一种面向危机通信领域的domain-adaptive pipeline，通过扩展小规模参考语料库并微调小语言模型，结合preference optimization来生成简化的CEFR A2级英文翻译，以提升可读性。该方法在自动和人工评估中表现良好，但未涉及code、spectral、Muon或agent等关键词相关技术。

Zero-Shot to Full-Resource: Cross-lingual Transfer Strategies for Aspect-Based Sentiment Analysis

Jakob Fehle et al.

cs.CL

本文评估了多种transformer架构在七种语言上的Aspect-based Sentiment Analysis (ABSA)任务表现，比较了零资源、数据资源和全资源设置下的跨语言迁移策略。研究发现，微调的大型语言模型在复杂生成任务中表现最佳，而编码器模型在简单任务中仍有竞争力，但该工作主要聚焦于自然语言处理应用，与关键词中的数学或理论概念无关。

OCR-Memory: Optical Context Retrieval for Long-Horizon Agent Memory

Jinze Li et al.

cs.CL

本文提出OCR-Memory，一种利用视觉模态作为高密度表示来存储agent历史轨迹的框架，通过将轨迹渲染为图像并采用定位-转录的检索范式，在严格上下文限制下提升了长周期agent任务的记忆容量与证据恢复能力。

SAGE: A Strategy-Aware Graph-Enhanced Generation Framework For Online Counseling

Eliya Naomi Aharon et al.

cs.CL

本文提出了SAGE框架，通过构建异质图（heterogeneous graph）将对话动态与心理学理论层结合，并利用图感知注意力机制（Graph-Aware Attention）为LLM生成临床咨询回复提供软提示。该方法在策略预测和回复质量上优于基线，但未涉及code、spectral、Muon或pretrain等关键词。

Differentially-Private Text Rewriting reshapes Linguistic Style

Stefan Arnold

cs.CL

本文研究了差分隐私文本重写对语言风格的影响，发现隐私保护会导致文本的交际特征发生系统性功能变异，如交互标记和复杂从句的减少。通过比较自回归和双向替换架构，作者观察到两种方法都使文本趋向于非参与性和非说服性的语域。

From Black-Box Confidence to Measurable Trust in Clinical AI: A Framework for Evidence, Supervision, and Staged Autonomy

Serhii Zabolotnii, Viktoriia Holinko, Olha Antonenko

cs.CL cs.AI cs.CY

本文提出了一个面向临床AI的可信框架，基于证据、监督和分阶段自主性三个原则，结合确定性核心、患者特定AI助手、多级模型升级机制和人工监督层来构建可测量的信任。该框架强调通过计量学原理（如测量不确定度、校准和可追溯性）来量化评估信任，而非依赖模型的黑箱置信度。

Swap distance minimization shapes the order of subject, object and verb in languages of the world

Jairo Rios-El-Yazidi, Ramon Ferrer-i-Cancho

cs.CL physics.soc-ph

本文研究了世界语言中主语、宾语和动词顺序的变异，发现交换距离最小化原则（swap distance minimization）能解释这种变异，即使语言的主导语序并非SOV或SVO，甚至缺乏主导语序。该工作为语言类型学中的语序优化提供了新视角。

Domain-Adapted Small Language Models for Reliable Clinical Triage

Manar Aljohani et al.

cs.CL cs.AI cs.LG

本文评估了开源小型语言模型(SLMs)在临床分诊中用于急诊严重指数(ESI)分配的可靠性，发现通过临床小插曲和领域自适应微调，Qwen2.5-7B模型在准确性和计算效率上优于基线模型和大型专有模型。该工作聚焦于医疗领域的实际应用，与关键词中的概念无直接关联。

Decoupling Knowledge and Task Subspaces for Composable Parametric Retrieval Augmented Generation

Weihang Su et al.

cs.CL

本文提出Orthogonal Subspace Decomposition (OSD)方法，通过将任务行为与文档知识解耦到正交子空间来改进Parametric Retrieval-Augmented Generation (PRAG)中的adapter组合稳定性。实验表明该正交化策略能提升多文档adapter合并时的组合鲁棒性。

HalluCiteChecker: A Lightweight Toolkit for Hallucinated Citation Detection and Verification in the Era of AI Scientists

Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe

cs.CL cs.AI cs.DL

本文提出了一个轻量级工具包HalluCiteChecker，用于检测和验证科学论文中的幻觉引用（hallucinated citations）。该工具可在标准笔记本电脑上快速运行，并支持完全离线使用。

What Kind of Language is Easy to Language-Model Under Curriculum Learning?

Nadine El-Naggar, Tatsuki Kuribayashi, Ted Briscoe

cs.CL

本文研究了课程学习（curriculum learning）对语言模型（LM）归纳偏好的影响，发现从简单句子开始训练会显著改变LM对语言类型学特征的偏好模式。该工作与关键词列表中的概念关联较弱。

MoRFI: Monotonic Sparse Autoencoder Feature Identification

Dimitris Dimakopoulos, Shay B. Cohen, Ioannis Konstas

cs.CL cs.LG

本文通过控制微调实验，发现向LLM引入新知识会增加幻觉，并提出MoRFI方法，利用预训练的Sparse Autoencoder (SAE) 识别残差流中与幻觉因果相关的单调响应特征。该方法通过单latent干预恢复知识，但未涉及关键词中的特定概念。

HealthNLP_Retrievers at ArchEHR-QA 2026: Cascaded LLM Pipeline for Grounded Clinical Question Answering

Md Biplob Hosen et al.

cs.CL cs.LG

本文提出了一种基于Gemini 2.5 Pro大语言模型的多阶段级联pipeline，用于从电子健康记录中检索证据并生成接地气的临床问答。该系统在ArchEHR-QA 2026任务中取得了有竞争力的排名，但方法本身在技术上的开创性有限，且与关键词列表中的概念关联较弱。

ClawGym: A Scalable Framework for Building Effective Claw Agents

Fei Bai et al.

cs.CL cs.AI cs.LG

本文提出了ClawGym框架，用于构建Claw-style个人agent，通过合成训练数据和混合验证机制来支持agent的完整开发周期。该工作主要聚焦于agent训练与评估的工程化框架，与关键词中的agent概念相关，但方法上缺乏开创性。

Select to Think: Unlocking SLM Potential with Local Sufficiency

Wenxuan Ye et al.

cs.CL

本文提出SELECT TO THINK (S2T)方法，通过识别小语言模型(SLM)的局部充分性(local sufficiency)来提升其推理能力。该方法将大语言模型(LLM)的角色从开放生成转变为在SLM的候选预测中进行选择，并进一步通过S2T-LOCAL将选择逻辑蒸馏到SLM中，使其无需推理时依赖LLM即可实现自主重排序。

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Gongbo Zhang et al.

cs.CL cs.AI cs.LG

本文提出了TIDE框架，首次实现了扩散大语言模型(dLLM)的跨架构知识蒸馏，通过TIDAL、CompDemo和Reverse CALM三个模块，将8B密集和16B MoE教师模型蒸馏至0.6B学生模型，在代码生成等任务上取得提升。

cs.DS

Converting an Integer to a Decimal String in Under Two Nanoseconds

Jaël Champagne Gareau, Daniel Lemire

cs.DS

本文提出了一种基于SIMD指令的整数转十进制字符串算法，通过并行计算商和余数来消除查找表，并设计了双变体动态选择策略以适应不同输入分布。该算法在单核上比C++标准库函数std::to_chars快2-4倍。

Incremental Strongly Connected Components with Predictions

Ronald Deng et al.

cs.DS cs.LG

本文研究了带预测的增量强连通分量问题，利用可能错误的边序列预测来预计算部分解，以支持快速插入操作。实验表明理论结果能预测实际运行时的改进。

Flashback: A Reversible Bilateral Run-Peeling Decomposition of Strings

Thomas Konstantinovsky, Gur Yaari

cs.DS cs.CL

本文提出了一种名为Flashback的可逆字符串分解方法，通过反复剥离字符串的首尾字符游程来生成双边token，并证明了其与首尾游程配对定理的等价性。该方法在O(n)时间内完成分解与重构，并给出了精确的token计数下界。

Asymptotically Robust Learning-Augmented Algorithms for Preemptive FIFO Buffer Management

Wen-Han Hsieh, Ya-Chun Liang

cs.DS cs.LG

本文针对抢占式FIFO缓冲区管理问题，提出了一种学习增强的在线算法。该算法在完美预测时达到最优竞争比1，在预测误差增大时性能平滑下降，并在任意不准确预测下保持渐近竞争比$\sqrt{3}$，匹配已知最坏情况保证。

Path-Reporting Distance Oracles for Vertex-Labeled Graphs

Ofer Neiman, Alon Spector

cs.DS

本文针对顶点标记图（vertex-labeled graphs）的距离查询问题，提出了两种新的distance oracle结构。第一种实现了路径报告功能，但以轻微增加stretch和大小为代价；第二种则将stretch优化至理论最优的$2k-1$，但查询时间略有增加。这些结果改进了现有工作中stretch较大且无法报告路径的缺陷。

Small Independent Sets versus Small Separator in Geometric Intersection Graphs

Malory Marin, Rémi Watrigant

cs.DS cs.CG

本文研究了几何交图中不满足平方根现象但仍存在次指数算法的问题，提出了弱平方根现象的概念，并给出了2-Subcoloring和Two Sets Cut-Uncut问题的算法与下界。

On (In)approximability of MaxMin Independent Set Reconfiguration

Hung P. Hoang et al.

cs.DS

本文研究了MaxMin Independent Set Reconfiguration问题的近似性，在一般图上给出了多项式时间$(n / \log n)$-因子近似算法，并证明了在退化图、有界树宽图和$H$-minor-free图上的多项式时间或FPT近似方案，同时将不可近似性结果推广到有界度图、特定带宽图和二部图。该工作与关键词列表中的概念无直接关联。

Weighted Emulators with Local Heaviest Edges Stretch for Undirected Graphs

Liam Roditty, Ariel Sapir

cs.DS

本文提出了一类新的加权emulator，推广了Elkin等人的$+2W_{1}$-spanner和$+4W_{1}$-emulator，在特定距离范围内改进了Thorup和Zwick的经典additive emulator的stretch。该工作主要关注图论中的emulator构造，与关键词中的code, context, spectral, Muon, pretrain, agent, attention无直接关联。

Solving Positive Linear Programs with Differential Privacy

Alina Ene et al.

cs.DS

本文研究了带差分隐私的正线性规划（系数和变量非负的LP）的近似算法，主要针对packing、covering和混合packing-covering问题。在约束隐私场景下，算法返回近似解但允许违反少量约束，改进了先前的实例相关保证并给出了仅依赖维度的数据无关界。

others

AMMA: A Multi-Chiplet Memory-Centric Architecture for Low-Latency 1M Context Attention Serving ⭐ 精选

Zhongkai Yu et al.

cs.AR cs.AI cs.DC cs.LG

本文提出了一种名为AMMA的多芯片内存中心架构，用于低延迟的长上下文attention服务。该架构用HBM-PNM（Processing Near Memory）立方体替代GPU计算芯片，通过将内存带宽翻倍来匹配decode阶段attention的内存受限特性，并引入了逻辑芯片微架构、两级混合并行方案以及重排序的集合通信流，以充分利用带宽并减少芯片间通信开销。实验表明，AMMA相比NVIDIA H100实现了15.5倍的attention延迟降低和6.9倍的能耗降低，为长上下文LLM推理中的attention瓶颈提供了开创性的硬件解决方案。

Enforcing Benign Trajectories: A Behavioral Firewall for Structured-Workflow AI Agents ⭐ 精选

Hung Dang

cs.CR cs.AI

本文提出了一种名为\codename{}的基于telemetry的行为异常检测防火墙，用于保护由large language model驱动的structured-workflow agent。该方法通过将已验证的良性工具调用telemetry编译成参数化确定性有限自动机(pDFA)，定义了允许的工具序列、上下文和参数边界，并在运行时通过$O(1)$状态转移结构查找实现轻量级执行。实验表明，该方法在Agent Security Bench上显著降低了攻击成功率，尤其在多步和上下文序列攻击中达到0\% ASR，且仅引入2.2~ms的每调用延迟。该工作为agent安全领域提供了一种开创性的行为轨迹建模方法，与关键词“agent”和“context”高度契合。

A self-evolving agent for explainable diagnosis of DFT-experiment band-gap mismatch ⭐ 精选

Yue Li, Bijun Tang

cond-mat.mtrl-sci cs.AI physics.comp-ph

本文提出了一种名为XDFT的闭环agent，用于自动诊断DFT计算与实验带隙不匹配的问题。该agent从预编目录中提取候选假设，执行相应的第一性原理测试，并通过全局Bayesian后验更新每个结论的有效性。在124种材料的基准测试中，XDFT成功识别了90个不匹配案例中的70个（78%），显著优于随机基线（19%）和静态LLM排序（20%）。该方法为材料科学中的可解释诊断提供了开创性的自动化框架，与关键词“agent”高度契合。

Risk Reporting for Developers' Internal AI Model Use

Oscar Delaney et al.

cs.CY cs.AI

本文为前沿AI公司内部使用模型（如Anthropic的Mythos Preview）的风险报告提供了标准化框架，主要围绕自主AI不当行为和内部威胁两个威胁向量，以及手段、动机和机会三个风险因素展开。该工作与关键词中的agent（自主AI行为）有一定关联，但整体更偏向AI治理与合规报告，而非技术方法创新。

Sociodemographic Biases in Educational Counselling by Large Language Models

Tomasz Adamczyk et al.

cs.CY cs.AI

本文研究了大型语言模型在教育咨询中的社会人口学偏见，通过分析6个模型对90万条学生情境描述的响应，发现所有模型均存在可测量的偏见，且偏见模式受学生描述精确度影响。该研究主要关注AI伦理与教育公平，与关键词中的code、spectral、Muon、pretrain、agent、attention等无直接关联。

A Scoping Review of LLM-as-a-Judge in Healthcare and the MedJUDGE Framework

Chenyu Li et al.

cs.CY cs.AI cs.CL

本文通过PRISMA-ScR范围综述，系统梳理了LLM-as-a-Judge在医疗领域的应用现状，发现其存在验证严谨性不足、偏差测试缺失及部署有限等问题，并提出了MedJUDGE框架以提供风险分层的评估指导。该工作主要聚焦于医疗场景下的评估方法论，与关键词中的code, spectral, Muon, agent等概念关联较弱。

LLM Psychosis: A Theoretical and Diagnostic Framework for Reality-Boundary Failures in Large Language Models

Ashutosh Raj

cs.CY cs.AI

本文提出了LLM Psychosis框架，用于描述大语言模型中类似精神病的认知故障模式，并设计了LCIS诊断量表进行实证评估。该工作主要关注模型行为故障的分类与诊断，与关键词中的agent有一定关联，但方法上缺乏开创性且未解决长期问题。

SongBench: A Fine-Grained Multi-Aspect Benchmark for Song Quality Assessment

Dapeng Wu et al.

eess.AS cs.AI cs.SD

本文提出了SongBench，一个用于歌曲质量评估的多维度基准框架，涵盖人声、乐器、旋律等七个关键维度，并构建了由专家标注的数据集。实验表明该基准与专家评分高度相关，可用于诊断当前文本到歌曲生成模型的性能差距。

Speech Emotion Recognition Using MFCC Features and LSTM-Based Deep Learning Model

Adelekun Oluwademilade et al.

cs.SD cs.AI eess.AS

本文使用MFCC特征提取和LSTM深度学习模型构建语音情感识别系统，在TESS数据集上达到99%的准确率，并对比了SVM基线方法。该工作属于常规的深度学习应用，方法上缺乏显著开创性。

Planar Gaussian Splatting with Bilinear Spatial Transformer for Wireless Radiance Field Reconstruction

Jinghan Zhang et al.

eess.SP cs.AI

本文提出BiSplat-WRF，一种用于无线辐射场重建的平面Gaussian Splatting框架，通过引入双线性空间Transformer来捕捉图元间的长程电磁依赖关系，在空间频谱合成任务上超越了基于NeRF和先前GS的方法。该方法主要针对无线通信场景，与关键词中的attention有一定关联，但整体创新性有限。

Large Language Models for Multilingual Code Intelligence: A Survey

Chao Jiang et al.

cs.SE cs.LG cs.PL

本文综述了大型语言模型在多语言代码智能中的应用，重点讨论了多语言代码生成和代码翻译任务，并回顾了相关方法、基准和评估指标。

Coherent Rollout Oracles for Finite-Horizon Sequential Decision Problems

Nishant Shukla

quant-ph cs.DS

本文针对有限时域序贯决策问题，提出了coherent rollout oracle的显式构造，通过可逆电路实现了rank-select原语，并给出了其门复杂度分析。该构造为量子算法在规划问题中的应用提供了多项式规模的oracle实现。

Adversarial Robustness of NTK Neural Networks

Yuxuan Hou

stat.ML cs.LG

本文研究了NTK神经网络在非参数回归中的对抗鲁棒性，证明了在Sobolev空间中通过梯度流和早停训练的NTK网络能达到对抗回归的极小化最优速率，但过拟合时最小范数插值器易受攻击。

Mining Negative Sequential Patterns to Improve Viral Genomic Feature Representation and Classification

Wenxi Zhu, Wensheng Gan, Zhenlian Qi

cs.DB cs.LG

本文提出GeneNSPCla框架，利用Negative Sequential Patterns (NSPs)从RNA病毒基因组中提取基于缺失的特征，并改进负模式挖掘算法GONPM+以处理基因组数据。实验表明该方法在病毒序列分类上提升了准确性，但与我提供的关键词列表（code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Auditing Marketing Budget Allocation with Hindsight Regret

Nilavra Pathak, Olivier Jeunen, Eric Lambert

econ.EM cs.AI cs.LG q-fin.PM

本文提出了一种基于hindsight regret的回顾性审计框架，用于评估营销预算分配决策，通过估计支出-响应函数和约束优化来计算可行分配与实现分配之间的机会成本，并利用Monte Carlo方法量化不确定性。该框架在真实数据上展示了分配效率与不确定性之间的权衡，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

A Quantitative Confirmation of the Currier Language Distinction

Christophe Parisel

cs.CR cs.CL

本文使用Beta-Binomial混合模型对Voynich手稿中的字符对替换比率进行定量分析，验证了Currier提出的A/B语言区分具有统计显著性。该工作为手稿书写系统的理论提供了约束，但与关键词列表中的概念无直接关联。

Lightweight Quantum Agent for Edge Systems: Joint PQC and NOMA Resource Allocation

Yongtao Yao et al.

cs.IT cs.AI

本文针对移动边缘设备中PQC模块能耗高和传统资源分配算法复杂度高的问题，提出了一种轻量级agentic AI框架，用于ICE系统中的在线联合优化。该方案基于Lyapunov优化理论解耦长期优化问题，并提出了线性复杂度的算法来解决NOMA功率分配的非凸挑战。

Occam's Razor is Only as Sharp as Your ELBO

Ethan Harvey, Michael C. Hughes

stat.ML cs.LG

本文研究了变分推断中ELBO目标函数在模型选择中的表现，发现其可能因近似后验的秩假设导致过拟合或欠拟合，提醒实践者在扩展大规模模型时需谨慎处理可计算性假设对模型选择的影响。

Learning Neural Operator Surrogates for the Black Hole Accretion Code

Matthias Nägele et al.

astro-ph.HE cs.LG

本文研究了两种神经算子代理模型用于黑洞吸积代码BHAC的模拟：一是物理信息傅里叶神经算子(PINO)用于特殊相对论电阻MHD中的Orszag-Tang涡旋演化，二是OFormer风格的Transformer神经算子用于特殊相对论MHD中的射流演化。这些方法旨在降低GR-MHD模拟的计算成本，但未直接涉及关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念。

QERNEL: a Scalable Large Electron Model

Khachatur Nazaryan, Liang Fu

cond-mat.str-el cs.AI cs.LG

QERNEL提出了一种基于FiLM参数调节和混合专家、分组查询注意力机制的神经波函数方法，用于变分求解多电子哈密顿量的基态。该方法在半导体莫尔异质双层中应用于最多150个电子的系统，能够捕捉量子液体和晶体态并发现相变。

Evaluating the Alignment Between GeoAI Explanations and Domain Knowledge in Satellite-Based Flood Mapping

Hyunho Lee, Wenwen Li

cs.CV cs.AI

本文提出了ADAGE框架，利用Channel-Group SHAP方法评估深度学习模型在卫星洪水制图任务中的解释与遥感领域知识（如地物光谱特性）的对齐程度，并通过对齐分数帮助专家识别不一致的解释。

Jaskirat Sudan et al.

eess.AS cs.LG

本文研究了监督对比学习(SupCon)在音频深度伪造检测中的应用，通过在wav2vec2 XLS-R模型上对比余弦相似度与超球面角相似度，并引入全局跨批次队列进行负样本缩放。实验表明，余弦相似度配合延迟队列在ITW和池化EER指标上表现最佳，而角相似度对大规模负样本集的依赖较小。

NeuralEmu: in situ Measurement-Driven, ML-based, High-Fidelity 5G Network Emulation

Haoran Wan, Yaxiong Xie, Kyle Jamieson

cs.NI cs.LG

本文提出了NeuralEmu，一个基于机器学习的5G网络仿真框架，通过从高分辨率网络遥测数据中学习复杂的调度器资源分配行为来弥合现实差距。该框架利用ML动态预测资源块分配和调制方案，并重建背景用户的流量模式以模拟真实的多用户竞争。

FruitProM-V2: Robust Probabilistic Maturity Estimation and Detection of Fruits and Vegetables

Rahul Harsha Cheppally et al.

cs.CV cs.AI cs.RO

本文针对果蔬成熟度估计问题，提出了一种将成熟度建模为潜在连续变量并利用分布检测头进行概率预测的方法，通过累积分布函数将分布转换为类别概率。该方法在干净标签下性能与标准检测器相当，并在引入标签噪声时展现出更好的鲁棒性。

SWE-Edit: Rethinking Code Editing for Efficient SWE-Agent

Yikai Zhang et al.

cs.SE cs.CL

本文提出SWE-Edit框架，将代码编辑任务分解为Viewer和Editor两个子agent，以解决标准编辑接口中上下文耦合的问题。该方法通过分离代码查看与修改执行，在SWE-bench Verified上提升了2.1%的解决率并降低了17.9%的推理成本。

Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Emre Ardıç, Yakup Genç

cs.CV cs.LG

本文提出了一种在联邦学习中基于多任务autoencoder的样本选择方法，通过OCSVM、isolation forest和自适应损失阈值等无监督异常检测技术来过滤噪声样本，并在CIFAR10和MNIST数据集上验证了其有效性。该方法主要针对非独立同分布数据下的图像分类任务，通过损失和特征分析提升模型精度。

Robust Representation Learning through Explicit Environment Modeling

Yuli Slavutsky, David M. Blei

stat.ML cs.LG

本文研究了多环境下的鲁棒表示学习问题，提出通过显式建模环境变化并对其进行边缘化来学习表示，并基于广义随机截距模型（generalized random-intercept models）实现该方法。实验表明，在目标变量受环境直接影响时，该方法优于因果不变表示学习方法。

Sparse Graph Learning from Sparse Data via Fiedler Number Maximization

Bahar Oveisgharan, Gene Cheung, Andrew Eckford

eess.SP cs.LG

本文针对稀疏数据下的稀疏图学习问题，提出了一种通过最大化Fiedler number（图Laplacian矩阵的第二特征值）来增强图连通性的方法，并设计了贪心算法和基于Cheeger不等式的并行变体。该方法在观测数远小于信号维度的病态场景下，通过特征值扰动理论来优化边选择。

One Voice, Many Tongues: Cross-Lingual Voice Cloning for Scientific Speech

Amanuel Gizachew Abebe, Yasmin Moslem

eess.AS cs.CL

本文评估了多种跨语言voice cloning模型，并基于OmniVoice模型构建系统，通过ACL 60/60语料库的多模型集成蒸馏进行数据增强，证明了合成数据微调能提升语音清晰度并保持说话人相似性。

ImproBR: Bug Report Improver Using LLMs

Emre Furkan Akyol, Mehmet Dedeler, Eray Tüzün

cs.SE cs.AI

本文提出ImproBR，一个基于LLM的pipeline，用于自动检测和改进bug报告中缺失或不完整的Steps to Reproduce (S2R)、Observed Behavior (OB)和Expected Behavior (EB)部分。该方法结合了fine-tuned DistilBERT、启发式分析和LLM分析器，并利用GPT-4o mini和Retrieval-Augmented Generation (RAG) pipeline来提升报告质量。

Mixture of Experts Framework in Machine Learning Interatomic Potentials for Atomistic Simulations

Gabriel de Miranda Nascimento et al.

physics.comp-ph cond-mat.mtrl-sci cs.LG

本文提出了一种基于E(3)-equivariant Allegro架构的多保真度"Mixture-of-Experts"框架，通过空间域分解将不同容量的模型分配给化学复杂区域和简单区域，并采用协同训练策略（在损失函数中加入一致性约束）来解决界面处的力学不匹配问题。该方法在Pt+CO催化系统中验证了其能量守恒性和预测精度，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Ceci n'est pas une explication: Evaluating Explanation Failures as Explainability Pitfalls in Language Learning Systems

Ben Knight, Wm. Matthew Kennedy, James Edgell

cs.HC cs.AI

本文探讨了AI语言学习工具中反馈失败导致的“可解释性陷阱”，并提出了一个评估基准L2-Bench，但未涉及code、spectral、Muon等关键词相关的方法或理论。

A Data-Centric Framework for Intraoperative Fluorescence Lifetime Imaging for Glioma Surgical Guidance

Silvia Noble Anbunesan et al.

cs.CV cs.AI

本文提出了一种数据中心的AI框架，用于术中荧光寿命成像(FLIm)以指导胶质瘤手术，通过自信学习(CL)和类别精炼处理标签不一致性，最终在三分任务中达到96%的准确率。该工作主要关注医学成像中的数据处理与分类，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

Beyond Screenshots: Evaluating VLMs' Understanding of UI Animations

Chen Liang et al.

cs.HC cs.CL

本文构建了AniMINT数据集，评估了Vision Language Models (VLMs)在理解UI动画方面的能力，发现VLMs能可靠检测原始运动，但在高层动画解释上存在不足。

RAG-Enhanced Kernel-Based Heuristic Synthesis (RKHS): A Structured Methodology Using Large Language Models for Hardware Design

Shiva Ahir, Alex Doboli

cs.AR cs.IR

本文提出RAG-Enhanced Kernel-Based Heuristic Synthesis (RKHS)方法，利用large language models (LLMs)和retrieval-augmented generation (RAG)来自动合成硬件设计中的优化heuristics。该方法在high-level synthesis (HLS)的list scheduling任务上实现了平均调度长度降低11%，但方法本身与关键词中的spectral、Muon、pretrain、agent等概念关联较弱。

Fitting Large Nonlinear Mixed Effects Models Using Variational Expectation Maximization

Mohamed Tarek, Pedro Afonso

stat.ME cs.CE cs.LG cs.MS stat.CO

本文探讨了Variational Expectation Maximization (VEM)算法在拟合大规模Nonlinear Mixed Effects (NLME)模型中的应用，通过灵活的variational families和自动微分实现了高效计算。实验表明该方法可扩展到超过15,000个population parameters的模型，但未涉及关键词中的code、spectral或Muon等概念。

Co-Learning Port-Hamiltonian Systems and Optimal Energy-Shaping Control

Ankur Kamboj, Biswadip Dey, Vaibhav Srivastava

eess.SY cs.AI cs.LG math.OC stat.ML

本文提出了一种基于物理信息的学习框架，用于从轨迹数据中学习port-Hamiltonian (pH) 系统模型并设计最优能量整形控制器。该方法通过交替优化和策略感知数据收集，协同学习系统模型与控制器，并利用神经网络嵌入pH动力学与EB-PBC结构，确保闭环系统的无源性与稳定性。

Why Domain Matters: A Preliminary Study of Domain Effects in Underwater Object Detection

Melanie Wille et al.

cs.CV cs.LG cs.RO

本文提出了一种基于可测量图像、场景和采集特征的水下领域标注框架，用于分析领域偏移对水下目标检测的影响。该框架能够捕捉物理上有意义的因素，并在公开数据集上验证了检测性能的系统性变化。

CacheRAG: A Semantic Caching System for Retrieval-Augmented Generation in Knowledge Graph Question Answering

Yushi Sun, Lei Chen

cs.DB cs.CL

本文提出CacheRAG，一种用于基于LLM的KGQA的语义缓存系统，通过引入中间语义表示(ISR)和多样性优化的缓存检索等机制，将无状态规划器转变为持续学习器，在多个基准测试上显著提升了准确性和真实性。

Evergreen: Efficient Claim Verification for Semantic Aggregates

Alexander W. Lee et al.

cs.DB cs.AI cs.CL

本文提出Evergreen系统，将语义聚合中的claim验证重新表述为语义查询处理任务，通过编译验证查询并执行优化（如early stopping和operator fusion）来降低成本和延迟。该系统在真实数据集上实现了高验证质量，但方法主要针对特定应用场景，与关键词列表中的概念关联较弱。

Lifting Embodied World Models for Planning and Control

Alex N. Wang et al.

cs.CV cs.AI cs.LG

本文提出了一种将embodied world model提升的方法，通过训练轻量级policy将high-level actions映射为low-level joint actions序列，从而降低action空间的维度。该方法在human-like embodiment上验证了有效性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Morayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

cs.CV cs.HC cs.IR cs.MM

本文提出了一个名为FASH-iCNN的多模态系统，用于从Vogue runway图像中识别时尚品牌、年代和色彩传统。通过分析视觉通道，发现纹理和亮度是承载编辑身份的主要信号，而颜色影响较小。

Qvine: Vine Structured Quantum Circuits for Loading High Dimensional Distributions

David Quiroga, Hannes Leipold, Bibhas Adhikari

quant-ph cs.AI

本文提出Qvine，一种基于vine copula分解的量子电路结构，用于高效加载高维分布。该方法通过镜像经典vine分解，使得电路深度在维度上最多呈二次增长，并在实验中展示了良好的加载质量。

eDySec: A Deep Learning-based Explainable Dynamic Analysis Framework for Detecting Malicious Packages in PyPI Ecosystem

Sk Tanzir Mehedi et al.

cs.CR cs.LG

本文提出eDySec，一个基于Deep Learning的可解释动态分析框架，用于检测PyPI生态系统中的恶意包。该框架通过分析动态行为数据（如系统调用和网络流量）并集成可解释AI技术，在降低特征维度的同时减少了误报和漏报。

Seeking Consensus: Geometric-Semantic On-the-Fly Recalibration for Open-Vocabulary Remote Sensing Semantic Segmentation

Guanchun Wang et al.

cs.CV cs.AI

本文提出SeeCo框架，通过几何共识学习（GCL）和语义共识学习（SCL）在推理时动态校准视觉与文本语义，以提升遥感图像中开放词汇语义分割（OVSS）的性能。该方法无需训练即可缓解语义模糊和前景激活不完整的问题。

DepthPilot: From Controllability to Interpretability in Colonoscopy Video Generation

Junhu Fu et al.

cs.CV cs.AI

本文提出DepthPilot，一个用于结肠镜视频生成的可解释框架，通过深度约束和自适应样条去噪模块实现几何与时间动态的建模。实验表明其生成的视频在临床评估中表现优异，但方法本身与关键词列表中的概念关联较弱。

LATTICE: Evaluating Decision Support Utility of Crypto Agents

Aaron Chan et al.

cs.CR cs.AI cs.CL

本文提出了LATTICE基准，用于评估加密货币agent在用户决策支持中的实用性，通过六个维度和16种任务类型，利用LLM judge自动评分，避免了人工标注依赖。实验评估了六个真实世界的加密货币copilot在1200个查询上的表现，发现不同copilot在维度和任务层面存在显著性能差异。

Recurrence-Based Nonlinear Vocal Dynamics as Digital Biomarkers for Depression Detection from Conversational Speech

Himadri S Samanta

cs.SD cs.LG eess.AS

本文利用DAIC-WOZ语料库，通过分析语音帧级COVAREP轨迹的非线性recurrence结构来检测抑郁症，发现基于recurrence的生物标志物在分类性能上优于静态声学基线等特征，表明抑郁症与语音动态中recurrence结构的改变有关。

MetaSR: Content-Adaptive Metadata Orchestration for Generative Super-Resolution

Jiaqi Guo et al.

cs.CV cs.AI

本文提出MetaSR，一种基于Diffusion Transformer (DiT)的生成式超分辨率框架，通过内容自适应的元数据编排来指导超分辨率过程，在资源受限条件下实现了比参考方案更好的率失真性能。

Multi-Stage Bi-Atrial Segmentation Framework from 3D Late Gadolinium-Enhanced MRI using V-Net Family Models

Hao Wen, Jingsu Kang

cs.CV cs.AI cs.LG

本文提出了一种用于3D LGE MRI心脏双心房分割的多阶段框架，包含预处理、粗分割和细分割步骤，并使用V-Net系列模型和非对称损失函数进行优化。该方法主要针对医学图像分割任务，与关键词中的概念关联较弱。

DiffAnon: Diffusion-based Prosody Control for Voice Anonymization

Ismail Rasim Ulgen et al.

eess.AS cs.LG cs.SD

本文提出DiffAnon，一种基于diffusion的语音匿名化方法，通过classifier-free guidance (CFG)在推理时连续控制韵律保留程度，利用RVQ codec的semantic embeddings细化声学细节，实现匿名化强度与韵律保真度之间的平滑插值。该方法首次在语音匿名化中提供结构化的、可插值的推理时韵律控制。

MedSynapse-V: Bridging Visual Perception and Clinical Intuition via Latent Memory Evolution

Chunzheng Zhu et al.

cs.CV cs.AI

本文提出MedSynapse-V框架，通过Meta Query for Prior Memorization、Causal Counterfactual Refinement和Intrinsic Memory Transition等机制，在模型隐藏流中动态合成隐式诊断记忆以模拟临床医生的经验调用。实验表明该方法在诊断准确性上优于现有state-of-the-art方法，但未涉及code、context、spectral等关键词相关技术。

CheXthought: A global multimodal dataset of clinical chain-of-thought reasoning and visual attention for chest X-ray interpretation

Sonali Sharma et al.

cs.CV cs.AI

本文提出了CheXthought，一个包含放射科医生在胸部X光片解读过程中的思维链推理和视觉注意力标注的多模态数据集。该数据集用于训练视觉-语言模型，以提升其在病理分类、空间定位和不确定性沟通方面的表现。

VulStyle: A Multi-Modal Pre-Training for Code Stylometry-Augmented Vulnerability Detection

Chidera Biringa et al.

cs.CR cs.LG

VulStyle提出了一种多模态预训练方法，通过联合编码函数级源代码、非终端AST结构和代码风格特征来增强漏洞检测。该方法在多个基准测试上取得了有竞争力的性能，但并未直接涉及关键词中的spectral、Muon或agent等概念。

Efficient, VRAM-Constrained xLM Inference on Clients

Aditya Ukarande et al.

cs.DC cs.AR cs.LG

本文提出了一种名为pipelined sharding的CPU-GPU混合调度技术，通过子层级的模型分片、CPU卸载和流水线复制计算来优化客户端上xLM（包括LLM和VLM）的推理效率。该方法在NVIDIA的IGI SDK和Cosmos-Reason1 VLM上实现了显著的TTFT和TPS提升，但主要聚焦于工程优化而非理论创新，与关键词契合度较低。

The False Resonance: A Critical Examination of Emotion Embedding Similarity for Speech Generation Evaluation

Yun-Shao Tsai et al.

eess.AS cs.CL

本文质疑了使用emotion embedding相似度（如emotion2vec的cosine similarity）作为语音生成评估指标的有效性，通过对抗性任务和人类对齐测试发现该指标受语言和说话者干扰，无法准确反映真实情感合成质量。

ACPO: Anchor-Constrained Perceptual Optimization for Diffusion Models with No-Reference Quality Guidance

Yang Yang et al.

cs.CV cs.AI

本文提出了一种名为ACPO的锚定约束感知优化框架，用于在扩散模型训练中引入无参考感知质量信号。该方法通过NR-IQA模型提供感知指导，并利用锚定正则化来保持与基础扩散模型的一致性，从而在提升感知质量的同时避免训练不稳定和分布偏移。

CO-EVO: Co-evolving Semantic Anchoring and Style Diversification for Federated DG-ReID

Fengchun Zhang et al.

cs.CV cs.LG

本文提出CO-EVO框架，通过Camera-Invariant Semantic Anchoring和Global Style Diversification的协同进化机制，解决联邦域泛化行人重识别中的语义-风格冲突问题，在多个数据集上达到SOTA性能。

Beyond Fixed Formulas: Data-Driven Linear Predictor for Efficient Diffusion Models

Zhirong Shen et al.

cs.CV cs.LG

本文提出L2P (Learnable Linear Predictor)，一种数据驱动的线性预测框架，通过可学习的逐时间步权重替代固定系数，在约20秒内完成训练，用于加速Diffusion Transformers (DiTs)的推理。该方法在FLUX.1-dev和Qwen-Image模型上实现了显著的FLOPs减少和延迟加速，并保持了高视觉保真度。

Probabilistic data quality assessment for structural monitoring data via outlier-resistant conditional diffusion model

Qi Li, Yong Huang, Hui Li

stat.ML cs.LG

本文提出了一种基于条件扩散模型的结构监测数据质量评估方法，通过单变量隐式自回归框架实现异常诊断与数据清洗。该方法在标准扩散模型中引入条件嵌入模块、四分位数归一化和Huber损失，以提升对异常值的鲁棒性。实验表明该方法在真实结构数据上优于聚类、隔离和深度重建等基线方法。

Topology-Aware Representation Alignment for Semi-Supervised Vision-Language Learning

Junwon You et al.

cs.CV cs.LG math.AT

本文提出ToMA框架，利用persistent homology提取多模态表示流形中的拓扑显著边（包括$H_0$-death边和轻量$H_1$-birth边），并通过跨模态对应进行对齐，以改进半监督视觉-语言学习中的全局结构建模。实验表明该方法在遥感等专业领域取得稳定提升。

SplitFT: An Adaptive Federated Split Learning System For LLMs Fine-Tuning

Yimeng Shan et al.

cs.DC cs.LG

本文提出SplitFT系统，通过允许不同客户端根据计算资源自适应设置cut layer，并降低LoRA rank以减少通信开销，来解决联邦分割学习在LLM微调中的异构性问题。实验表明其在微调效率与模型性能上优于现有方法。

SecMate: Multi-Agent Adaptive Cybersecurity Troubleshooting with Tri-Context Personalization

Yair Meidan et al.

cs.CR cs.AI

SecMate是一个基于multi-agent的网络安全故障排除virtual customer assistant，通过整合设备、用户和服务上下文信息来提升性能。实验表明，该方法在解决率上显著优于纯LLM基线，并展示了替代人工IT支持的潜力。

Quantum Gatekeeper: Multi-Factor Context-Bound Image Steganography with VQC Based Key Derivation on Quantum Hardware

Sahil Tomar, Sandeep Kumar

quant-ph cs.AI cs.CR

本文提出了一种基于变分量子电路(VQC)的上下文绑定图像隐写框架，将无损LSB嵌入与量子密钥派生相结合，要求密码、共享秘密、上下文字符串和参考图像签名四个因素同时正确才能恢复载荷。该方法在IBM量子硬件上评估了电路统计行为，并设计了双区域图像布局解决nonce引导依赖问题。

Delineating Knowledge Boundaries for Honest Large Vision-Language Models

Junru Song et al.

cs.CV cs.AI

本文提出了一种系统框架，通过构建模型特定的"Visual-Idk"数据集并利用多样本一致性探测来区分已知与未知事实，再结合监督微调和偏好感知优化（如DPO, ORPO）来增强大型视觉语言模型在面对未知问题时的拒绝能力。实验表明该方法能有效提升模型的诚实率，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

QYOLO: Lightweight Object Detection via Quantum Inspired Shared Channel Mixing

Garvit Kumar Mittal, Sahil Tomar, Sandeep Kumar

cs.CV cs.AI cs.ET

本文提出QYOLO，一种受量子启发的轻量级目标检测框架，通过共享参数的正弦混合机制替换YOLOv8深层backbone中的C2f模块，在VisDrone2019上实现了参数和计算量的显著减少，但精度略有下降。该方法主要关注模型压缩，与关键词中的code、context、spectral等概念关联较弱。

Order-Sensitive Sequential Interventions on Ideal Lattices

Dmitry Pasechnyuk-Vilensky

math.CO cs.LG

本文研究了在有限prerequisite poset的理想格上，具有顺序敏感性的序贯干预问题。作者证明了在理想格上，任意两个具有相同端点的可行路径可以通过有限次基本菱形交换相互转换，并给出了路径估值与局部曲率之间的关系。

Recipes for Calibration Checks in Safety-Critical Applications

Romeo Valentin

stat.ME cs.LG

本文为安全关键应用中的概率预测系统提出了一套校准检查框架，通过将检查过程组织为数据模型、度量选择、假设制定和测试步骤四个可互换模块，支持对预测分布性质进行统计检验。该框架引入了仅拒绝过度自信预测和容忍小偏差的改进，并在天气预报和机器人位姿估计中展示了应用。

Featurising Pixels from Dynamic 3D Scenes with Linear In-Context Learners

Nikita Araslanov et al.

cs.CV cs.LG

本文提出LILA框架，通过线性in-context learning从视频中学习像素级特征描述符，利用深度和运动线索在未整理视频数据集上训练。该表示在视频目标分割、表面法线估计和语义分割等任务中展现了实证优势。

Culturally Aware GenAI Risks for Youth: Perspectives from Youth, Parents, and Teachers in a Non-Western Context

Aljawharah Alzahrani, Tory Park, Tanusree Sharma

cs.HC cs.AI cs.CY cs.ET

本文通过混合方法（分析Reddit和X平台帖子及访谈沙特参与者）研究了非西方背景下青少年、家长和教师使用GenAI工具的风险感知，发现文化、宗教和社会规范（如集体结构、谦逊和荣誉观念）显著影响隐私和安全问题，并指出共享账户等社会经济因素加剧了风险。

Quantamination: Dynamic Quantization Leaks Your Data Across the Batch

Hanna Foerster et al.

cs.CR cs.LG

本文揭示了动态量化（dynamic quantization）在机器学习服务流程中的一个关键漏洞，即攻击者可以利用该策略窃取同一batch中其他用户的敏感输入数据，并将此现象称为Quantamination。文章指出，当前至少4个主流ML框架的默认或可选配置会导致数据跨batch边界泄露，构成严重的隐私风险。

Tatemae: Detecting Alignment Faking via Tool Selection in LLMs

Matteo Leonesi et al.

cs.CR cs.AI

本文提出了一种通过工具选择行为检测LLM中Alignment Faking（AF）的新方法，将AF形式化为复合行为事件，并在企业IT场景数据集上评估了六个前沿模型，发现平均检测率在3.5%至23.7%之间。该方法主要关注安全领域，与关键词中的agent概念有一定关联，但整体创新性和与关键词的契合度一般。

Fundamental Physics, Existential Risks and Human Futures

Adrian Kent

quant-ph cs.AI gr-qc

本文探讨了基础物理学中的量子现实问题、量子理论与引力的关系以及意识与物理定律的相互作用，并推测未来可能发现超越量子理论的新物理定律，对信息处理和AI发展有潜在影响。

FloatSOM: GPU-Accelerated, Distributed, Topology-Flexible Self-Organizing Maps

Tony Xu et al.

cs.DC cs.LG

本文提出了FloatSOM，一个支持多GPU执行、磁盘流式处理和灵活拓扑结构的自组织映射（SOM）框架。实验表明，其改进的拓扑结构与超参数调优相结合，在多个基准上降低了量化误差，并能在8个GPU上高效处理大规模数据。

DUAL-BLADE: Dual-Path NVMe-Direct KV-Cache Offloading for Edge LLM Inference

Bodon Jeong et al.

cs.DC cs.AI cs.PF

本文提出DUAL-BLADE，一种用于边缘LLM推理的双路径KV缓存卸载框架，通过动态选择page-cache路径或NVMe-direct路径来缓解I/O瓶颈，并利用自适应pipeline parallelism重叠存储I/O与GPU DMA。实验表明该方法能显著降低prefill和decode延迟并提升SSD利用率。

Deep-testing: the case of dependence detection

Gery Geenens, Pierre Lafaye de Micheaux, Ivan Muyun Zou

stat.ML cs.LG stat.ME

本文提出了一种名为deep-testing的假设检验新方法，利用深度神经网络学习分类映射来构造检验统计量，并以独立性检验为例验证其有效性。该方法在模拟研究中展现出优于十九种对比方法的检验功效。

Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-Agent Policy Simulation

Ariel Sela

cs.MA cs.AI

本文研究了多智能体政策模拟中的人工共识问题，提出了AI Council框架，通过架构异质性（为不同价值视角分配不同模型）和一致性验证来减少智能体间的趋同，并发现了保真度-多样性权衡。

Learning to Route Electric Trucks Under Operational Uncertainty

Stavros Orfanoudakis et al.

eess.SY cs.LG

本文提出了一种基于学习的框架，用于解决电动卡车在充电约束和运行不确定性下的随机路径规划问题，通过Reinforcement Learning和事件驱动的semi-Markov决策过程进行建模。实验表明，该算法在多种车队规模下优于启发式方法，并在充电拥堵和不确定性下保持高成功率。

Graph Construction and Matching for Imperative Programs using Neural and Structural Methods

Arshad Beg, Diarmuid O'Donoghue, Rosemary Monahan

cs.SE cs.AI

本文提出了一种将命令式程序及其注释转换为类型化属性图的pipeline，结合了抽象语法树解析与语义嵌入（如SentenceTransformer和CodeBERT），以支持跨语言验证工件的重用。实验在C、Java和Dafny数据集上验证了图表示的一致性。

Star-Fusion: A Multi-modal Transformer Architecture for Discrete Celestial Orientation via Spherical Topology

May Hammad, Menatallh Hammad

cs.CV cs.AI

本文提出Star-Fusion，一种将天体定向估计转化为离散拓扑分类任务的多模态transformer架构，通过球面K-Means聚类和SwinV2-Tiny等模块实现高效推理。该方法在合成数据集上取得较高精度，但未涉及关键词中的code、spectral或Muon等概念。

MappingEvolve: LLM-Driven Code Evolution for Technology Mapping

Rongliang Fu et al.

cs.CE cs.AI

本文提出MappingEvolve框架，利用LLM直接演化technology mapping代码，通过分层agent架构（Planner, Evolver, Evaluator）引导进化搜索，在EPFL基准测试上实现了面积和延迟的显著优化。该方法主要关注逻辑综合中的映射优化，与关键词中的agent概念有一定关联。

TDD Governance for Multi-Agent Code Generation via Prompt Engineering

Tarlan Hasanli et al.

cs.SE cs.AI

本文提出了一种基于prompt engineering的AI原生TDD框架，通过将经典TDD原则编码为结构化prompt和工作流治理机制，来提升LLM辅助代码生成的稳定性和可重复性。该框架采用分层架构分离模型提议与确定性引擎，并强制执行阶段排序、修复循环限制和验证门控等约束。

Inferring bifurcation diagrams of two distinct chaotic systems by a single machine

Jianmin Guo et al.

nlin.CD cs.LG

本文提出了一种双通道reservoir computing方案，通过向标准reservoir添加系统标签通道和参数控制通道，使单一机器能从两个不同混沌系统的少量采样时间序列中学习，并重建其bifurcation diagrams。数值和实验验证了该方案在Lorenz和Rössler系统以及Chua和Rössler电路中的有效性。

SynSur: An end-to-end generative pipeline for synthetic industrial surface defect generation and detection

Paul Julius Kühn et al.

cs.CV cs.AI

本文提出了一种端到端的生成式pipeline，结合Vision-Language-Model、LoRA扩散模型和mask-guided inpainting，用于合成工业表面缺陷数据并自动标注。实验表明，合成数据无法替代真实数据，但能有效增强稀缺的真实数据集，并在跨领域迁移中展现出一定潜力。

ATLAS: An Annotation Tool for Long-horizon Robotic Action Segmentation

Sergej Stanovcic, Daniel Sliwowski, Dongheui Lee

cs.RO cs.AI

ATLAS是一个针对长时域机器人动作分割的标注工具，支持多模态数据（如多视角视频和本体感受信号）的时间同步可视化，并兼容ROS bags和RLDS等数据集格式。该工具通过键盘中心化界面和模块化抽象层提高了标注效率，在接触丰富的装配任务中相比ELAN工具减少了标注时间。

Laplace Approximation for Bayesian Tensor Network Kernel Machines

Albert Saiapin, Kim Batselier

stat.ML cs.LG

本文提出了一种基于Laplace近似的贝叶斯张量网络核机器(LA-TNKM)，用于在张量网络假设下提供不确定性估计，实验表明其在UCI回归基准上可与高斯过程和贝叶斯神经网络相媲美。

Parameterized Quantum Circuits as Feature Maps: Representation Quality and Readout Effects in Multispectral Land-Cover Classification

Ralntion Komini et al.

quant-ph cs.LG

本文研究了变分量子分类器(VQC)在多光谱卫星图像土地覆盖分类中的应用，采用特征映射视角分析量子电路定义的非线性数据嵌入与读出机制的影响。实验表明，线性读出的VQC未超越经典RBF-SVM，但量子特征映射与kernel-based决策框架结合可提升性能，并观察到Hilbert空间维度与参数规模的饱和效应。

A Toolkit for Detecting Spurious Correlations in Speech Datasets

Lara Gauder et al.

cs.SD cs.AI cs.DB

本文介绍了一个用于检测语音数据集中记录特征与目标类别之间虚假相关性的工具包，通过仅使用音频中的非语音区域来诊断问题。该工具包公开可用，主要面向健康相关数据集中的性能评估场景。

Atomic-Probe Governance for Skill Updates in Compositional Robot Policies

Xue Qin et al.

cs.RO cs.AI

本文研究组合机器人策略中技能更新时的原子探针治理问题，通过配对采样跨版本交换协议在robosuite操作任务上发现主导技能效应，并提出了原子质量探针和混合选择器来管理技能更新决策。

Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Jun Guo et al.

cs.RO cs.AI cs.CV

本文提出X-WAM，一个统一的4D世界模型，通过异步去噪策略在单一框架中结合实时机器人动作执行与高保真4D世界合成（视频+3D重建）。该方法利用预训练视频扩散模型的视觉先验，并引入异步噪声采样（ANS）来平衡生成质量与动作解码效率。

CurEvo: Curriculum-Guided Self-Evolution for Video Understanding

Guiyi Zeng et al.

cs.CV cs.LG

本文提出CurEvo框架，将curriculum learning引入self-evolution过程，通过动态调节task difficulty和evaluation criteria来改进video understanding。实验在多个VideoQA benchmark上验证了该方法能提升模型性能。

MemOVCD: Training-Free Open-Vocabulary Change Detection via Cross-Temporal Memory Reasoning and Global-Local Adaptive Rectification

Zuzheng Kuang et al.

cs.CV cs.AI

本文提出MemOVCD，一种无需训练的开集变化检测框架，通过跨时间记忆推理和全局-局部自适应校正来解决双时相遥感图像中的语义变化检测问题。该方法将双时相变化检测重构为两帧跟踪问题，并利用加权双向传播和直方图对齐过渡帧来增强时间耦合与语义一致性。

ViCrop-Det: Spatial Attention Entropy Guided Cropping for Training-Free Small-Object Detection

Hui Wang et al.

cs.CV cs.AI

本文提出ViCrop-Det，一种无需训练的推理框架，通过利用检测decoder的cross-attention分布计算Spatial Attention Entropy (SAE)来引导自适应空间裁剪，从而在不修改架构的前提下提升小目标检测性能。该方法在VisDrone和DOTA-v1.5等数据集上取得了+1-3 mAP@50的提升，但主要贡献集中于计算机视觉领域的工程优化，与关键词中的理论或基础方法关联较弱。

Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training

Mahya Ramezani, Holger Voos

cs.RO cs.AI cs.LG

本文提出了一种用于搜救无人机任务的分层决策框架，结合了固定规则的高层顾问与在线目标条件强化学习低层控制器。该方法通过规则推导的元数据增强经验回放机制，在有限仿真训练下提升了早期安全性和样本效率。

Quantum Feature Selection with Higher-Order Binary Optimization on Trapped-Ion Hardware

Carlos Flores-Garrigós et al.

quant-ph cs.LG

本文提出了一种基于高阶无约束二元优化(HUBO)的量子特征选择框架，通过引入互信息导出的三体相互作用项来捕捉特征间的高阶统计依赖。该框架在离子阱量子处理器上实现，并与经典降维方法进行了比较，展示了在机器学习预处理任务中的潜力。

Resume-ing Control: (Mis)Perceptions of Agency Around GenAI Use in Recruiting Workflows

Sajel Surati, Rosanna Bellini, Emily Black

cs.CY cs.AI

本文通过访谈22名招聘专业人士，探讨了生成式AI如何微妙地影响招聘工作流程中的控制感，发现招聘者虽自认拥有最终决定权，但AI已无形中塑造了评估信息的基础，且采用AI常非出于自愿，仅带来边际效率提升却导致技能退化。

Edge AI for Automotive Vulnerable Road User Safety: Deployable Detection via Knowledge Distillation

Akshay Karjol, Darrin M. Hanna

cs.CV cs.LG cs.RO eess.IV

本文提出了一种基于知识蒸馏的框架，将YOLOv8-L教师模型压缩为YOLOv8-S学生模型，用于边缘硬件上的弱势道路使用者检测。实验表明，该框架在INT8量化下显著提升了学生模型的精度和鲁棒性，但方法本身并非开创性，且与关键词列表中的概念无关。

FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving

Minghe Wang et al.

cs.DC cs.LG

本文提出FaaSMoE，一种基于Function-as-a-Service (FaaS)平台的多租户Mixture-of-Experts (MoE)模型服务架构，通过将专家模型部署为无状态FaaS函数实现按需调用，在保持推理效率的同时显著降低了资源占用。

Stochastic Scaling Limits and Synchronization by Noise in Deep Transformer Models

Andrea Agazzi et al.

math.PR cs.LG stat.ML

本文研究了有限深度、有限宽度的Transformer模型（含MLP块）中token逐层演化的随机缩放极限，证明了其路径收敛于一个连续时间随机相互作用粒子系统，并识别了token分布演化的随机偏微分方程。文章还证明了噪声驱动的同步现象，并给出了交互能量指数衰减的条件。

Strict Hierarchy for Quantum Channel Certification to Unitary

Kean Chen, Qisheng Wang, Zhicheng Zhang

quant-ph cs.CC cs.DS

本文研究了量子信道认证到酉信道的问题，给出了在三种不同访问模型（incoherent, coherent, source-code）下的最优量子算法，并证明了其查询复杂度分别为$\Theta(d/\varepsilon^2)$、$\Theta(d/\varepsilon)$和$\Theta(\sqrt{d}/\varepsilon)$，从而展示了这些模型间的严格层次结构。

Recent Advances in mm-Wave and Sub-THz/THz Oscillators for FutureG Technologies

Baktash Behmanesh, Ahmad Rezvanitabar

eess.SP cs.AI cs.AR cs.ET eess.SY

本文综述了用于5G/6G等下一代通信系统的毫米波和亚THz振荡器的最新进展，讨论了CMOS、SiGe和III-V族半导体技术在设计中的性能指标与挑战。

ClassEval-Pro: A Cross-Domain Benchmark for Class-Level Code Generation

Yeheng Chen et al.

cs.SE cs.CL

本文提出了一个名为ClassEval-Pro的跨领域类级代码生成基准测试，包含300个任务，通过自动化流水线构建并验证。实验表明，当前最先进的LLM在该基准上表现有限，逻辑错误和依赖错误是主要瓶颈。

Exact Dynamic Programming for Solow--Polasky Diversity Subset Selection on Lines and Staircases

Michael T.M. Emmerich

cs.CG cs.DS math.OC

本文研究了有序有限$\ell_1$集合上的Solow--Polasky多样性子集选择问题，证明了该问题可通过动态规划在$O(kn^2)$时间内精确求解，并推广到单调双目标Pareto前沿和高维阶梯结构。

Learning Over-Relaxation Policies for ADMM with Convergence Guarantees

Junan Lin, Paul J. Goulart, Luca Furieri

math.OC cs.LG

本文提出了一种为ADMM算法学习时变松弛参数策略的方法，在保证收敛性的前提下，通过在线调整松弛参数来提升特定问题类（如模型预测控制）的求解效率，并在二次规划基准测试中验证了其相比OSQP基线在迭代次数和计算时间上的改进。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others