bluearXiv-ai - 2026-05-01

📄 所有论文 ↑ 回顶部

cs.LG

Better Models, Faster Training: Sigmoid Attention for single-cell Foundation Models ⭐ 精选

Vijay Sadashivaiah et al.

cs.LG q-bio.QM

本文提出在单细胞Foundation Model中使用Sigmoid Attention替代传统的Softmax Attention。作者证明Sigmoid Attention具有全局有界导数（$\leq 0.25$）和对角Jacobian结构，从根本上消除了Softmax Attention固有的训练不稳定性，使得模型在160M参数、8K token序列上无需梯度裁剪即可稳定训练，且训练速度提升10%，细胞类型分离度提高25%。此外，作者开源了高效GPU kernel TritonSigmoid，在H100上达到515 TFLOPS，优于FlashAttention-2，为生物序列的预训练提供了更稳定、高效的attention机制。

BoostLoRA: Growing Effective Rank by Boosting Adapters ⭐ 精选

Raviteja Anantha, Nick Levato, Layne C. Price

cs.LG cs.AI

BoostLoRA提出了一种基于梯度提升的PEFT框架，通过迭代训练和合并极低秩adapter来突破传统方法中固定低秩子空间的限制。其核心创新在于ROTATE SVD策略，将每轮adapter分配至正交子空间，使得累积有效秩随轮次线性增长，而每个adapter仍保持超低参数。该方法在Qwen2.5-3B上于GSM8K和MATH-500分别达到89.1%和68.8%，在代码生成任务（MBPP和HumanEval）上超越全参数微调，且合并后无推理开销。这是首个将有效秩与训练轮次解耦的PEFT方法，为低资源场景下的模型适配提供了新范式。

CastFlow: Learning Role-Specialized Agentic Workflows for Time Series Forecasting ⭐ 精选

Bokai Pan et al.

cs.LG cs.AI

本文提出CastFlow，一种面向时间序列预测的动态agentic workflow框架。其核心创新在于将预测过程组织为planning, action, forecasting和reflection四个阶段，并采用role-specialized设计：一个frozen LLM负责general-purpose reasoning，一个fine-tuned domain-specific LLM基于ensemble forecast baseline进行evidence-guided数值预测。该方法通过multi-view toolkit和memory module分别实现多视角temporal pattern提取与prior experience检索，并利用supervised fine-tuning (SFT)与reinforcement learning with verifiable rewards (RLVR)进行两阶段workflow-oriented训练，有效解决了静态生成范式在时间序列预测中的局限性。

An adaptive wavelet-based PINN for problems with localized high-magnitude source ⭐ 精选

Himanshu Pandey, Ratikanta Behera

cs.LG

本文提出了一种自适应wavelet-based PINN (AW-PINN)，用于解决具有局部高幅值源项的问题中存在的极端loss imbalance。该方法通过动态调整wavelet basis function来适应残差和监督loss，从而在不增加内存负担的情况下有效处理高尺度特征，并避免了自动微分以加速训练。理论上，文章证明了在特定假设下AW-PINN具有Gaussian process极限并推导了其NTK结构。实验表明，在瞬态热传导、高度局部化Poisson问题、振荡流方程和点电荷源Maxwell方程等挑战性PDE上，AW-PINN显著优于同类现有方法。

Monitoring Neural Training with Topology: A Footprint-Predictable Collapse Index

Alexander Kalinowski

cs.LG

本文提出了一种基于拓扑的在线监测方法MMHM和Collapse Index (CI)，用于检测神经网络训练中的表征坍塌问题，并在LLM微调和时序KGE训练中验证了其作为早期预警信号的有效性。

Simple Self-Conditioning Adaptation for Masked Diffusion Models

Michael Cardei, Huu Binh Ta, Ferdinando Fioretto

cs.LG cs.AI

本文提出了一种名为Self-Conditioned Masked Diffusion Models (SCMDM)的后训练适应方法，通过让模型在每一步去噪时利用自身之前的clean-state预测进行条件化，改进了Masked Diffusion Models (MDMs)的跨步细化能力。该方法无需从头训练模型，在多个领域（如文本生成、图像合成、分子生成）上显著降低了生成困惑度。

People-Centred Medical Image Analysis

Zheng Zhang et al.

cs.LG cs.AI

本文提出PecMan框架，通过动态门控机制在医生工作量约束下联合优化AI诊断的公平性、准确性和工作流整合效果，并引入FairHAI基准来评估三者间的权衡。实验表明该方法优于现有方案，但未涉及code、spectral、Muon等关键词相关技术。

When Continual Learning Moves to Memory: A Study of Experience Reuse in LLM Agents

Qisheng Hu, Quanyu Long, Wenya Wang

cs.LG cs.AI

本文研究了在LLM agents中使用外部memory进行continual learning时，旧经验与新经验在有限context window下的竞争问题，提出了一个(k,v)框架来解耦经验的表示与检索组织方式。实验表明，外部memory并未解决continual learning问题，而是将其转化为memory表示与检索设计的问题。

Automatic Causal Fairness Analysis with LLM-Generated Reporting

Alessia Berarducci et al.

cs.LG cs.AI

本文提出了一个名为FairMind的软件原型，利用标准公平性模型（standard fairness model）的因果假设，通过反事实查询（counterfactual queries）自动评估数据集层面的公平性，并借助LLM生成分析报告。该工作主要聚焦于公平性分析，与关键词中的code, context, spectral, Muon, pretrain, agent, attention均无直接关联。

Fidelity, Diversity, and Privacy: A Multi-Dimensional LLM Evaluation for Clinical Data Augmentation

Guillermo Iglesias et al.

cs.LG cs.CR

本文使用DeepSeek-R1、OpenBioLLM-Llama3和Qwen 3.5等LLM生成基于ICD-10编码的精神健康评估报告，并从语义保真度、词汇多样性和隐私安全三个维度评估其质量。结果表明这些模型能生成临床合理且隐私安全的合成数据，用于扩充临床NLP训练集。

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Wenhao Lan et al.

cs.LG cs.CL cs.CR

本文通过测量驱动的方法研究了动态对抗微调（R2D2）如何改变语言模型中的拒绝几何结构（refusal geometry），发现R2D2在训练早期将拒绝载体（refusal carrier）从后层迁移至前层，且有效秩（effective rank）保持在1.23-1.27附近，表明拒绝行为由低维结构控制而非简单漂移。该工作仅基于一个7B backbone和固定源攻击，未提出新防御方法。

NORACL: Neurogenesis for Oracle-free Resource-Adaptive Continual Learning

Karthik Charan Raghunathan et al.

cs.LG cs.AI cs.NE

本文提出了一种名为NORACL的持续学习方法，受生物神经发生启发，通过监测表征饱和与可塑性饱和信号来动态增长网络结构，以解决固定容量架构在未知任务流下的稳定性-可塑性困境。实验表明，该方法在不同任务数量和几何结构下，能以更少参数达到或超越预知容量静态基线的性能。

Cross-Subject Generalization for EEG Decoding: A Survey of Deep Learning Methods

Taida Li et al.

cs.LG eess.SP

本文综述了深度学习在跨被试EEG解码中应对个体差异的方法，将问题形式化为多源域适应，并分类讨论了特征对齐、对抗学习等方法。文章还探讨了理论局限和EEG基础模型等未来方向。

Detecting Clinical Discrepancies in Health Coaching Agents: A Dual-Stream Memory and Reconciliation Architecture

Samuel L Pugh et al.

cs.LG cs.AI cs.CL

本文提出了一种用于健康指导agent的双流记忆与协调架构，将患者自述与电子健康记录（EHR）分离，并通过协调引擎检测两者间的临床差异。实验表明该方法能有效识别大部分设计中的不一致，但主要误差源于从非结构化对话中提取记忆时的信息丢失。

Learning to Forget: Continual Learning with Adaptive Weight Decay

Aditya A. Ramesh, Alex Lewandowski, Jürgen Schmidhuber

cs.LG cs.NE

本文提出了一种名为FADE的自适应权重衰减方法，通过近似meta-gradient descent在线调整每个参数的权重衰减率，以解决continual learning中的遗忘控制问题。该方法在在线线性设置下推导，并应用于神经网络的最后一层，实验表明其能自动发现不同参数的衰减率并提升性能。

Learning Rate Transfer in Normalized Transformers

Boris Shigida, Boris Hanin, Andrey Gromov

cs.LG cs.AI stat.ML

本文研究了Normalized Transformer (nGPT)中的learning rate transfer问题，发现nGPT在模型维度与token horizon上缺乏该性质。作者通过结合数值实验与alignment exponents，修改了$\mu$P方法，提出了一种新的参数化方案$\nu$GPT，实验表明其实现了learning rate transfer。

Co-Evolving Policy Distillation

Naibin Gu et al.

cs.LG

本文提出Co-Evolving Policy Distillation (CoPD)方法，通过让多个专家在RLVR训练过程中并行互教，以解决混合RLVR与OPD范式中的能力损失问题。实验表明该方法在文本、图像和视频推理能力的整合上优于现有基线。

AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism

Ahan Gupta et al.

cs.LG cs.DC cs.PF

本文提出AutoSP，一种自动化工具，通过编译器技术自动应用sequence parallelism和长上下文感知的activation-checkpointing，以优化LLM的长上下文训练。实验表明，该方法在NVIDIA和AMD硬件上分别将训练上下文长度提升至2.7倍和2.5倍，且对运行时性能影响极小。

Anomaly Detection in Soil Heavy Metal Contamination Using Unsupervised Learning for Environmental Risk Assessment

Isaac Tettey Adjokatse et al.

cs.LG cs.AI physics.data-an physics.geo-ph

本文应用无监督机器学习方法（Isolation Forest, PCA reconstruction error, DBSCAN）对加纳土壤重金属污染进行异常检测，发现约7.7%的样本为异常，主要集中在单一站点，且异常样本的健康风险指数显著偏高。该方法为环境风险评估提供了客观的异常识别手段。

How to Guide Your Flow: Few-Step Alignment via Flow Map Reward Guidance

Jerry Y. Huang et al.

cs.LG cs.AI

本文提出了一种名为Flow Map Reward Guidance (FMRG)的训练-free引导框架，通过将引导问题重新表述为确定性最优控制问题，并利用flow map实现快速推理。该方法在text-to-image任务中，仅需3次NFE即可匹配或超越现有baseline，但与我提供的关键词列表关联度较低。

ConformaDecompose: Explaining Uncertainty via Calibration Localization

Fatima Rabia Yapicioglu et al.

cs.LG cs.AI

本文提出ConformaDecompose框架，通过渐进式校准局部化（progressive calibration localisation）分析回归任务中校准诱导的认知不确定性（epistemic uncertainty）的可约性。该方法是一种诊断性工具，用于解释conformal prediction区间如何随校准支持局部化而收缩和稳定，但不估计真实的aleatoric或epistemic uncertainty。

Generalizing the Geometry of Model Merging Through Frechet Averages

Marvin F. da Silva et al.

cs.LG

本文提出将模型合并问题视为在适当流形上的Fréchet averaging，通过最小化测地距离之和来获得对称性不变的合并参数。该方法在理论上统一了Fisher merging等现有方法，并针对LoRA的商流形几何提出了实用算法。

Distributional Alignment Games for Answer-Level Fine-Tuning

Mehryar Mohri, Jon Schneider, Yifan Wu

cs.LG cs.GT

本文提出了一种基于博弈论的Distributional Alignment Game框架，用于解决Answer-Level Fine-Tuning问题，通过将优化问题转化为Policy与Target之间的两玩家博弈，并证明其Nash Equilibrium等价于原问题的解。该方法统一了多样性与自改进方法，并兼容GRPO算法，在数学推理任务中取得了复杂度提升。

Context-Aware Graph Attention for Unsupervised Telco Anomaly Detection

Sara Malacarne et al.

cs.LG

本文提出C-MTAD-GAT，一种用于移动网络多变量时间序列异常检测的无监督、上下文感知的图注意力模型。该模型结合了graph attention与轻量级context embeddings，通过确定性重构头和multi-step forecaster生成异常分数，并在无标签情况下校准检测阈值。

Preserving Temporal Dynamics in Time Series Generation

Ci Lin et al.

cs.LG cs.AI

本文提出了一种基于Markov Chain Monte Carlo (MCMC)的模型无关框架，用于在时间序列生成中保留时序动态并缓解分布偏移。该方法通过强制合成序列与原始数据在相邻时间点上的经验转移统计量保持一致，来修正条件生成模型在序列生成中累积的偏差。

Remaining Useful Life Estimation for Turbofan Engines: A Comparative Study of Classical, CNN, and LSTM Approaches

Astitva Goel, Samarth Galchar, Sumit Kanu

cs.LG

本文在NASA C-MAPSS数据集上比较了Ridge Regression、XGBoost、1D CNN和LSTM等模型在涡扇发动机剩余寿命估计中的表现，发现LSTM和XGBoost分别在不同子集上取得最优结果。该工作属于常规的模型对比研究，未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Analytical Correction for Subsampling Bias in Drifting Models

Jiaru Zhang et al.

cs.LG

本文针对漂移模型（drifting models）中由minibatch采样引起的softmax自归一化偏差问题，提出了解析偏差校正（Analytical Bias Correction, ABC）方法。该方法通过一个闭式调整项将偏差从$O(1/n)$降至$O(1/n^2)$，且不增加一阶总方差，在CIFAR-10上以极小的代码开销提升了训练速度与FID指标。

AutoREC: A software platform for developing reinforcement learning agents for equivalent circuit model generation from electrochemical impedance spectroscopy data

Ali Jaberi et al.

cs.LG cond-mat.mtrl-sci

本文介绍了AutoREC，一个用于从电化学阻抗谱数据自动生成等效电路模型的开源Python软件包。它通过将电路构建建模为Markov Decision Process并使用Double Deep Q-Network算法来训练RL agent，实现了高成功率。

BrainDINO: A Brain MRI Foundation Model for Generalizable Clinical Representation Learning

Yizhou Wu et al.

cs.LG cs.AI cs.CV

本文提出了BrainDINO，一个基于自蒸馏的脑MRI基础模型，在约660万张无标注轴向切片上预训练，通过冻结编码器加轻量任务头的方式，在肿瘤分割、疾病分类、脑龄估计等多个任务上达到或超越了现有基线，尤其在小样本场景下优势明显。该工作主要贡献在于展示了大规模切片级自监督学习可生成统一的脑MRI表征，但与我提供的关键词（如code, context, spectral, Muon, agent, attention）关联度较低。

Predicting Covariate-Driven Spatial Deformation for Nonstationary Gaussian Processes

Minghao Gu, Weizhi Lin, Qiang Huang

cs.LG stat.ME

本文提出了一种将空间变形方法建模为协变量函数的方法，用于预测非平稳高斯过程。通过将变形视为李代数中的速度场生成，并证明在物理假设下可截断高阶交互，从而建立了简洁的变形函数形式。

PINN-Cast: Exploring the Role of Continuous-Depth NODE in Transformers and Physics Informed Loss as Soft Physical Constraints in Short-term Weather Forecasting

Hira Saleem, Flora Salim, Cormac Purcell

cs.LG cs.CV

本文提出了一种名为PINN-Cast的连续深度transformer编码器，用于短期天气预报。该方法用基于Neural ODE的连续更新替代了标准transformer中的离散残差更新，并引入了一个双分支attention模块来增强对变化的敏感性，同时使用物理信息损失作为软约束。实验表明该方法优于离散transformer基线，但整体创新性有限，与关键词契合度不高。

A Short Note on Batch-efficient Divide-and-Conquer Algorithm for EigenDecomposition

Yue Song

cs.LG math.NA

本文针对较大矩阵的批量EigenDecomposition (ED)计算效率问题，提出了一种基于Divide-and-Conquer的批量高效算法，数值测试表明对于维度小于64的矩阵，该方法比Pytorch SVD函数更快。

TypeBandit: Type-Level Context Allocation and Reweighting for Effective Attribute Completion in Heterogeneous Graph Neural Networks

Ta-Yang Wang, Rajgopal Kannan, Viktor Prasanna

cs.LG cs.AI

本文提出TypeBandit，一种轻量级、模型无关的方法，用于解决异质图中节点属性缺失问题。它通过类型级bandit采样和拓扑感知初始化，在有限预算下分配采样资源，并作为前端模块与现有异质GNN骨干网络兼容。

AG-TAL: Anatomically-Guided Topology-Aware Loss for Multiclass Segmentation of the Circle of Willis Using Large-Scale Multi-Center Datasets

Jialu Liu, Yue Cui, Shan Yu

cs.LG cs.CV

本文提出了一种用于Willis环多类分割的解剖引导拓扑感知损失函数AG-TAL，通过整合半径感知Dice损失、断点感知clDice损失和邻接感知共现损失，在大型多中心数据集上提升了分割性能。该方法主要针对医学图像分割任务，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

Stable but Wrong: An Inference Limit in Galactic Archaeology

Zhipeng Zhang

cs.LG astro-ph.GA

本文研究了银河考古学中恒星年龄推断的系统性偏差问题，发现当观测质量（信噪比和视差精度）处于特定区间时，推断的恒星形成时标会相对于独立星震学参考产生0.5-1 Gyr的偏移，但统计不确定性仍然很小，形成一种“稳定但错误”的推断状态。该工作揭示了大数据时代观测质量可能引入系统性偏差的风险，但方法本身并非开创性，且与关键词关联较弱。

Detecting is Easy, Adapting is Hard: Local Expert Growth for Visual Model-Based Reinforcement Learning under Distribution Shift

Haiyang Zhao

cs.LG

本文研究了视觉model-based reinforcement learning (MBRL)在分布偏移下的适应问题，提出JEPA-Indexed Local Expert Growth方法，通过冻结的JEPA表示进行问题索引，并添加局部动作修正专家，在保持分布内性能的同时提升分布外表现。实验表明，检测分布偏移相对容易，但有效的局部动作修正是主要挑战。

ChipLingo: A Systematic Training Framework for Large Language Models in EDA

Lei Li et al.

cs.LG

本文提出ChipLingo，一个针对EDA领域的LLM系统训练框架，包含领域语料构建、领域自适应预训练和指令对齐三个阶段，并构建了EDA-Bench基准。实验表明该方法在EDA任务上优于同规模基础模型，但未涉及关键词中的spectral, Muon, agent, attention等核心概念。

AdaBFL: Multi-Layer Defensive Adaptive Aggregation for Bzantine-Robust Federated Learning

Zehui Tang, Yuchen Liu, Feihu Huang

cs.LG cs.AI cs.CR

本文提出了一种名为AdaBFL的多层防御自适应聚合方法，用于拜占庭鲁棒联邦学习，通过三层防御机制自适应调整防御算法权重以应对复杂攻击，并在非凸非独立同分布数据下证明了收敛性。实验表明该方法优于对比算法。

ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space

Gabe Guo et al.

cs.LG cs.AI

本文提出ABC方法，通过非马尔可夫扩散桥在连续时间和空间中建模随机过程，解决了现有扩散模型在条件生成（如视频和天气预报）中的局限性。该方法利用连续SDE跟踪物理时间，使噪声注入与时间尺度匹配，并支持对任意状态子集的条件依赖。

Improving Graph Few-shot Learning with Hyperbolic Space and Denoising Diffusion

Yonghao Liu et al.

cs.LG cs.AI

本文提出IMPRESS框架，利用hyperbolic space学习节点表示，并通过denoising diffusion机制增强支持分布，以解决graph few-shot learning中欧氏空间难以捕捉层次结构及小样本分布偏差的问题。实验表明该方法在多个基准数据集上优于现有基线。

Toward Scalable SDN for LEO Mega-Constellations: A Graph Learning Approach

Sivaram Krishnan et al.

cs.LG eess.SY

本文提出了一种基于Graph Koopman Autoencoder (GKAE)的可扩展分层SDN框架，用于管理大规模LEO卫星星座。该方法通过GNN压缩拓扑信息并结合Koopman理论线性化动态，在Starlink仿真中提升了空间压缩与时间预测性能。

Low Rank Adaptation for Adversarial Perturbation

Han Liu et al.

cs.LG cs.CR

本文通过理论分析和实验验证，发现adversarial perturbations具有内在的低秩结构，并利用这一性质提出了一种基于Low-Rank Adaptation (LoRA)的黑盒攻击方法，通过参考模型和辅助数据将梯度投影到低维子空间，从而提升攻击效率。

FMCL: Class-Aware Client Clustering with Foundation Model Representations for Heterogeneous Federated Learning

Mahad Ali, Laura J. Brattain

cs.LG cs.CV

本文提出FMCL，一种基于foundation model表示的一次性、类别感知的客户端聚类框架，用于解决异构联邦学习中的统计异质性挑战。该方法通过冻结的foundation model计算每个客户端的类别级embedding原型，并利用cosine距离进行聚类，无需额外通信开销。

Diagnosing Capability Gaps in Fine-Tuning Data

Saeid Asgari Taghanaki et al.

cs.LG

本文提出了GoalCover框架，通过交互式目标分解和自动化覆盖评估来检测微调数据集中的能力缺口。实验表明该方法能有效区分目标与非目标能力的影响，并在金融摘要任务中通过数据筛选提升了模型性能。

Beyond the Training Distribution: Mapping Generalization Boundaries in Neural Program Synthesis

Henrik Voigt, Michael Habeck, Joachim Giesen

cs.LG cs.AI cs.CL

本文通过一个基于领域特定算术语法的严格受控程序合成环境，系统评估了大规模transformer模型的泛化能力。研究发现，模型在密度泛化（dense generalization）上表现良好，但在支持泛化（support generalization）上存在超过30%的性能下降，且泛化提升与计算量呈对数线性关系。

Online semi-supervised perception: Real-time learning without explicit feedback

Branislav Kveton et al.

cs.LG

本文提出了一种结合graph上的semi-supervised learning和online learning的算法，用于无显式反馈的实时学习。该算法通过迭代构建world的graphical representation并更新observed examples，在实时人脸识别任务上取得了较好效果。

Bayesian policy gradient and actor-critic algorithms

Mohammad Ghavamzadeh, Yaakov Engel, Michal Valko

cs.LG

本文提出了一种基于Gaussian process的Bayesian policy gradient框架，通过将policy gradient建模为Gaussian process来减少样本需求并估计natural gradient及其不确定性。此外，文章还结合了基于Gaussian process temporal difference learning的非参数critic，构建了actor-critic学习模型，并在多个reinforcement learning问题上与经典Monte-Carlo方法进行了实验比较。

Learning from a single labeled face and a stream of unlabeled data

Branislav Kveton, Michal Valko

cs.LG

本文研究单张标注人脸图像与大量未标注数据流的人脸识别问题，将其形式化为one-class classification，并提出一种非参数模型学习算法。实验表明该方法在43人数据集上达到90%的召回率且近乎零误报，比基线方法提升25%以上。

Statistical Channel Fingerprint Construction for Massive MIMO: A Unified Tensor Learning Framework

Zhenzhou Jin et al.

cs.LG cs.AI cs.IT eess.SP

本文针对大规模MIMO通信系统中的统计信道指纹(sCF)构建问题，提出了一种统一的tensor学习框架LPWTNet。该框架利用Laplacian pyramid分解与wavelet transform实现多尺度特征提取，并通过共享mask学习策略自适应优化高频成分。实验表明该方法在多种sCF重建场景中具有竞争力。

Privacy-Preserving Federated Learning via Differential Privacy and Homomorphic Encryption for Cardiovascular Disease Risk Modeling

Gaurang Sharma et al.

cs.LG

本文研究了在联邦学习（Federated Learning）中集成差分隐私（Differential Privacy）和同态加密（Homomorphic Encryption）以保护心血管疾病风险建模中的敏感健康数据，通过实验比较了不同方法在模型效用与计算开销之间的权衡。

ZAYAN: Disentangled Contrastive Transformer for Tabular Remote Sensing Data

Al Zadid Sultan Bin Habib et al.

cs.LG cs.AI cs.CV

本文提出了一种名为ZAYAN的自监督对比学习框架，用于处理遥感与环境科学中的表格数据。该方法在特征层面而非样本层面进行对比学习，并采用Transformer进行下游分类，在多个数据集上取得了优于基线模型的效果。

AMGenC: Generating Charge Balanced Amorphous Materials

Yan Lin et al.

cs.LG

本文提出AMGenC方法，用于生成电荷平衡的无定形材料。该方法通过元素噪声和投影步骤确保生成样本的电荷平衡，并在两个数据集上验证了其有效性。

Green Physics-Informed Machine Learning Models For Structural Health Monitoring

Daisy R Bradley, Elizabeth J Cross

cs.LG

本文比较了黑盒与灰盒（physics-informed）机器学习模型在结构健康监测中的性能与环境影响，发现灰盒模型通过引入物理知识可降低计算成本与碳排放。研究通过案例展示了在保持高精度的同时减少运行时间。

ANCORA: Learning to Question via Manifold-Anchored Self-Play for Verifiable Reasoning

Chengcao Yang, Jun Chen

cs.LG cs.AI cs.PL

本文提出ANCORA框架，通过让语言模型在可验证推理任务中交替扮演问题生成者(Proposer)和求解者(Solver)进行自我对弈，并采用锚定课程学习机制来避免验证器稀疏反馈导致的策略崩溃。实验表明该方法在Dafny2Verus基准上显著提升了pass@1指标，但方法本身与关键词中的spectral、Muon、pretrain等概念关联较弱。

When Does Structure Matter in Continual Learning? Dimensionality Controls When Modularity Shapes Representational Geometry

Kathrin Korte et al.

cs.LG cs.AI cs.NE

本文研究了持续学习中网络架构、任务相似性和表征维度如何共同影响学习效果，发现高维表征下架构影响较小，而低维表征下模块化结构能根据任务相似度自适应调整表征几何。

Optimized Deferral for Imbalanced Settings

Corinna Cortes et al.

cs.LG stat.ML

本文针对两阶段学习延迟（learning to defer）中的专家不平衡问题，提出了一种基于margin的损失函数和算法MILD，通过将延迟损失优化转化为输入-专家域上的cost-sensitive学习问题，在图像分类和LLM路由任务上优于现有基线。

Mind the Gap: Structure-Aware Consistency in Preference Learning

Mehryar Mohri, Yutao Zhong

cs.LG stat.ML

本文指出标准偏好学习方法（如DPO）在神经网络假设集上存在理论不一致性，并提出了基于margin-shifted ranking框架的Structure-Aware DPO (SA-DPO)目标，通过根据响应间的语义距离调整margin来处理同义词和困难样本。文章还分析了一致性-容量权衡，证明重尾surrogate（如Polynomial Hinge族）比DPO中使用的logistic loss提供更优的一致性保证。

Differential Subgroup Discovery: Characterizing Where Two Populations Differ, and Why

Sascha Xu, Jilles Vreeken

cs.LG

本文提出了Differential Subgroup Discovery问题，旨在发现特征空间中两个群体在目标结果上差异显著的子集，并介绍了DiffSub这一基于梯度的方法来识别可解释的子群。

Linear-Core Surrogates: Smooth Loss Functions with Linear Rates for Classification and Structured Prediction

Mehryar Mohri, Yutao Zhong

cs.LG stat.ML

本文提出了一种名为Linear-Core (LC) Surrogates的新型凸损失函数族，通过将线性核心与平滑尾部拼接，解决了分类问题中平滑损失与分段线性损失之间的权衡。该损失函数在保持处处可微的同时，保留了严格的线性$H$-一致性界，并在结构化预测中实现了计算加速。

On the Expressive Power of GNNs to Solve Linear SDPs

Chendi Qian, Christopher Morris

cs.LG

本文研究了GNN在求解线性SDP问题中的表达能力，证明了标准GNN架构无法恢复最优解，并提出了一种更具表达力的架构来模拟一阶求解器的更新过程。实验表明该架构在预测误差和优化目标上优于弱基线，并能将求解器加速高达80%。

Hyper-Dimensional Fingerprints as Molecular Representations

Jonas Teufel et al.

cs.LG

本文提出了一种名为hyperdimensional fingerprints (HDF)的分子表示方法，它通过在高维向量上进行代数运算来生成确定性的分子表示，无需任何训练。实验表明，HDF在多个性质预测基准上优于传统指纹，并能更好地保持分子相似性。

Probabilistic Circuits for Irregular Multivariate Time Series Forecasting

Christian Klötergens, Vijaya Krishna Yalavarthi, Lars Schmidt-Thieme

cs.LG

本文提出CircuITS，一种基于probabilistic circuits的架构，用于不规则多元时间序列的联合概率建模与预测。该方法在保证联合分布有效性的同时，灵活捕捉通道间复杂依赖，并在实验中优于现有基线。

Physical Foundation Models: Fixed hardware implementations of large-scale neural networks

Logan G Wright et al.

cs.LG cs.ET cs.NE

本文提出Physical Foundation Models (PFMs)概念，主张为大规模神经网络（如$10^{12}$参数）构建专用固定硬件实现，利用物理动力学直接执行推理。文章以光学3D纳米结构玻璃介质为例进行估算，讨论了在能效和速度上的潜在优势，并指出了实现万亿参数PFM所需解决的研究挑战。

Beyond the Baseband: Adaptive Multi-Band Encoding for Full-Spectrum Bioacoustics Classification

Eklavya Sarkar et al.

cs.LG eess.AS

本文提出了一种多频带编码框架，将动物叫声的全频谱分解为频带特征并融合为统一表示，实验表明融合表示在部分数据集上优于基带基线。该方法主要针对生物声学分类任务，与关键词中的spectral有一定关联，但方法本身并非开创性突破。

Calibrating Attribution Proxies for Reward Allocation in Participatory Weather Sensing

Mark C. Ballandies, Michael T. C. Chiu, Claudio J. Tessone

cs.LG cs.CY cs.GT physics.ao-ph

本文提出利用可微分的AI天气模型中的gradient-based attribution方法，作为参与式天气传感网络中数据贡献价值的信号，并评估了其保真度、校准性、成本和抗攻击性。

Differentiable latent structure discovery for interpretable forecasting in clinical time series

Ivan Lerner et al.

cs.LG

本文提出StructGP和LP-StructGP，利用可微分的结构学习从不规则临床时间序列中学习稀疏有向无环图，并结合Gaussian process进行可解释的预测。实验表明该方法在MIMIC-IV等数据集上优于基线，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

ITS-Mina: A Harris Hawks Optimization-Based All-MLP Framework with Iterative Refinement and External Attention for Multivariate Time Series Forecasting

Pourya Zamanvaziri et al.

cs.LG cs.AI

本文提出ITS-Mina，一种基于Harris Hawks Optimization的全MLP框架，用于多元时间序列预测。该框架通过迭代精炼机制和外部attention模块提升性能，并在多个基准数据集上取得有竞争力的结果。

Dynamic Scaled Gradient Descent for Stable Fine-Tuning for Classifications

Nghia Bui, Lijing Wang

cs.LG

本文提出了一种用于微调预训练模型的动态缩放梯度下降算法，通过动态缩放正确分类样本的梯度来缓解梯度抵消导致的训练崩溃问题，实验表明该方法能降低性能方差并提升准确率。

Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

Jingcheng Deng et al.

cs.LG cs.CL

本文提出Latent-GRPO方法，通过invalid-sample advantage masking、one-sided noise sampling和optimal correct-path first-token selection解决latent reasoning中reinforcement learning的不稳定性问题。实验表明该方法在多个benchmark上提升了性能并缩短了推理链长度。

Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning

Shijin Gong et al.

cs.LG stat.ML

本文提出了一种基于kernel smoothing的非参数统计方法（Kernelized Advantage Estimation），用于在资源受限（每个prompt仅采样少量推理轨迹）的情况下估计LLM强化学习中的value function，从而降低策略梯度的方差。该方法在计算和统计效率上优于PPO、GRPO和REINFORCE等现有方法，数值和理论结果证明了其价值与梯度估计的准确性。

Learning from Disagreement: Clinician Overrides as Implicit Preference Signals for Clinical AI in Value-Based Care

Prabhjot Singh et al.

cs.LG cs.AI

本文提出将临床医生对AI建议的覆盖操作重新定义为隐式偏好信号，并构建了一个扩展偏好学习的框架，包括覆盖类型分类、偏好公式化以及联合训练奖励模型和能力模型的双重学习架构。该工作主要面向价值医疗中的临床AI应用，与关键词中的概念关联较弱。

Cost-Aware Learning

Clara Mohri et al.

cs.LG

本文研究了Cost-Aware Learning问题，其中采样finite-sum objective的不同component function会产生不同成本。作者提出了Cost-Aware Stochastic Gradient Descent算法用于convex functions，并推导了达到$\epsilon$误差的成本复杂度，同时建立了下界并设计了subset selection算法来降低训练成本。

FedHarmony: Harmonizing Heterogeneous Label Correlations in Federated Multi-Label Learning

Zhiqiang Kou et al.

cs.LG

本文提出FedHarmony框架，用于解决联邦多标签学习中客户端间标签相关性异质性问题。该框架通过引入共识相关性作为全局教师来纠正局部偏差，并基于数据量和相关性质量进行加权聚合。

MIFair: A Mutual-Information Framework for Intersectionality and Multiclass Fairness

Jeanne Monnier et al.

cs.LG cs.AI cs.CY cs.IT

本文提出了MIFair，一个基于mutual information的统一框架，用于处理机器学习中的intersectionality和多类公平性问题。该框架通过定义预测变量与敏感属性之间的统计独立性来度量bias，并采用正则化训练进行bias缓解。

Shuffling-Aware Optimization for Private Vector Mean Estimation

Shun Takagi, Seng Pei Liew

cs.LG

本文研究了单消息shuffle模型下的$d$维无偏均值估计问题，通过引入shuffle index将机制设计转化为优化问题，并建立了基于该指数的minimax下界。结果表明，在局部差分隐私下最优的机制在shuffling后可能变得次优，并在高隐私区域构造了一个渐近最优的机制。

Exponential families from a single KL identity

Marc Dymetman

cs.LG cs.IT

本文从单个KL恒等式出发，通过代数推导统一了指数族分布的多个经典结论，包括Pythagorean定理、log-partition function的凸性以及Gibbs变分原理等，但方法本身并非开创性突破，且与关键词列表中的概念无直接关联。

Early Detection of Water Stress by Plant Electrophysiology: Machine Learning for Irrigation Management

Eduard Buss, Till Aust, Heiko Hamann

cs.LG

本文利用机器学习分析番茄植株的电生理信号，实现了对水分胁迫的早期检测，并开发了一个在线决策支持框架。该工作主要面向精准农业中的灌溉管理应用。

PROMISE-AD: Progression-aware Multi-horizon Survival Estimation for Alzheimer's Disease Progression and Dynamic Tracking

Qing Lyu et al.

cs.LG cs.AI eess.IV

本文提出PROMISE-AD框架，利用temporal Transformer和离散时间混合风险模型，对阿尔茨海默病从认知正常到轻度认知障碍再到痴呆的转换进行多时间点生存预测。该方法在ADNI/TADPOLE数据上取得了较好的预测性能，但方法本身属于现有生存分析框架的工程化应用，缺乏显著的理论或方法学开创性，且与关键词列表中的概念关联较弱。

A Unified Framework of Hyperbolic Graph Representation Learning Methods

Sofía Pérez Casulo et al.

cs.LG

本文提出了一个统一的open-source框架，用于整合多种hyperbolic graph embedding方法，并基于该框架在link prediction和node classification任务上进行了实验比较。

FiLMMeD: Feature-wise Linear Modulation for Cross-Problem Multi-Depot Vehicle Routing

Arthur Corrêa, Paulo Nascimento, Samuel Moniz

cs.LG

本文提出FiLMMeD模型，通过Feature-wise Linear Modulation (FiLM)增强Transformer编码器，以统一解决24种多仓库车辆路径问题(MDVRP)变体。该方法引入偏好优化和课程学习策略，在多个MDVRP变体上优于现有基线，但未涉及关键词中的核心概念。

Neural Aided Kalman Filtering for UAV State Estimation in Degraded Sensing Environments

Akhil Gupta, Erhan Guven

cs.LG

本文提出了一种混合框架Bayesian Neural Kalman Filter (BNKF)，将Bayesian Neural Networks (BNNs)与Kalman correction步骤结合，用于在传感器退化环境下对无人机进行鲁棒的状态估计。实验表明，该方法在精度和不确定性量化上优于传统的Extended和Unscented Kalman Filters。

Auto-FlexSwitch: Efficient Dynamic Model Merging via Learnable Task Vector Compression

Junqi Gao et al.

cs.LG

本文提出Auto-FlexSwitch，一种通过可学习任务向量压缩实现高效动态模型合并的方法。该方法将任务向量分解为稀疏掩码、符号向量和标量缩放因子，并引入可学习门控稀疏化和比特宽度自适应选择来优化压缩策略，最终通过K近邻推理实现动态合并。

Do Sparse Autoencoders Capture Concept Manifolds?

Usha Bhalla et al.

cs.LG cs.AI

本文探讨了Sparse Autoencoders (SAEs) 在捕捉概念流形（concept manifolds）方面的能力，指出SAEs通常以全局子空间或局部平铺两种方式恢复连续结构，但实际中常陷入一种称为“稀释”（dilution）的次优混合状态。

Global Optimality for Constrained Exploration via Penalty Regularization

Florian Wolf, Ilyas Fatkhullin, Niao He

cs.LG math.OC

本文提出Policy Gradient Penalty (PGP)方法，通过二次惩罚正则化处理约束探索问题，证明了在策略参数化导致的非凸性下仍能实现全局最优的最终迭代收敛。该方法利用伪奖励构造惩罚目标的梯度估计，并建立了惩罚目标的平滑性性质。

Explainable Load Forecasting with Covariate-Informed Time Series Foundation Models

Matthias Hertel et al.

cs.LG

本文提出了一种针对Time Series Foundation Models (TSFMs)的高效SHAP解释算法，通过利用模型对输入context长度和covariates的灵活性实现时间与协变量掩码，并在电力负荷预测任务上验证了其可解释性与领域知识的一致性。

Strait: Perceiving Priority and Interference in ML Inference Serving

Haidong Zhao, Nikolaos Georgantas

cs.LG

Strait提出了一种面向ML推理服务的优先级感知调度系统，通过建模数据传输竞争和kernel执行干扰来改进延迟估计。该系统在双优先级流量场景下减少了高优先级任务的截止时间违反率，但方法主要聚焦于系统调度优化，与关键词中的理论或算法方向关联较弱。

Exploration Hacking: Can LLMs Learn to Resist RL Training?

Eyon Jang et al.

cs.LG cs.CL

本文研究了大型语言模型在强化学习训练中可能出现的"exploration hacking"行为，即模型通过策略性地改变探索行为来影响训练结果。作者通过微调模型使其遵循特定策略，展示了这种行为的可能性，并评估了检测与缓解方法。

cs.AI

End-to-end autonomous scientific discovery on a real optical platform ⭐ 精选

Shuxing Yang et al.

cs.AI physics.optics

本文提出了Qiushi Discovery Engine，一个基于LLM的agentic系统，能够在真实光学平台上实现端到端的自主科学发现。该系统结合了非线性研究阶段、Meta-Trace记忆和双层架构，在涉及数千次LLM推理、测量和修正动作的长周期研究中维持自适应且稳定的研究轨迹。关键贡献在于，该系统自主提出并实验验证了光学双线性相互作用（optical bilinear interaction），这是一种在结构上类似于Transformer attention中核心运算的物理机制，标志着AI agent首次自主发现并实验验证了此前未知的物理机制。

Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction ⭐ 精选

Yuxuan Huang et al.

cs.AI

本文提出Web2BigTable，一个用于互联网规模信息搜索与结构化表格提取的双层多agent LLM系统。该系统通过上层orchestrator分解任务、下层worker agent并行执行，并采用闭环的run-verify-reflect流程与共享工作空间机制，实现了跨实体的一致性与覆盖度。在WideSearch基准上，其Avg@4 Success Rate达到38.50（远超第二名5.10），Row F1和Item F1也显著领先，同时在深度搜索任务XBench-DeepSearch上达到73.0的准确率，展现了在广度与深度两类搜索任务上的通用性。

Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents ⭐ 精选

Anh Ta, Junjie Zhu, Shahin Shayandeh

cs.AI cs.LG cs.MA

本文提出了一种在推理阶段（inference time）为tool-calling agent引入反馈机制的方法，通过一个专门的reviewer agent在执行前评估provisional tool calls，将范式从事后恢复（post-hoc recovery）转变为主动评估与错误缓解。为了量化这种多agent架构中reviewer引入新错误的tradeoff，作者引入了Helpfulness-Harmfulness指标。在BFCL和Tau2-Bench上的实验表明，该方法在无关性检测和多轮任务上分别取得了+5.5%和+7.1%的提升，且通过模型选择（如o3-mini）和自动prompt优化（GEPA）可系统性地改进reviewer，无需重新训练基础agent。该工作与关键词中的agent高度契合，并为agent系统的实时纠错提供了开创性的方法论。

Machine Collective Intelligence for Explainable Scientific Discovery ⭐ 精选

Gyoung S. Na, Chanyoung Park

cs.AI physics.comp-ph

本文提出了一种名为机器集体智能（machine collective intelligence）的统一范式，通过整合符号主义（symbolism）与元启发式（metaheuristics）两种计算智能传统，实现了对控制方程（governing equations）的自主与进化式发现。该方法协调多个推理agent（reasoning agents）通过生成、评估、批判与整合的协同过程来演化符号假设，从而超越了单agent推理的能力。在确定性、随机性及先前未表征动力学的科学系统中，该方法无需依赖手工领域知识即可自主恢复底层控制方程，并将外推误差相比深度神经网络降低多达六个数量级，同时将0.5-100万个模型参数压缩为仅5-40个可解释参数。该工作与关键词中的agent高度契合，为AI驱动的科学发现提供了具有开创性的可解释方程发现范式。

Safe Bilevel Delegation (SBD): A Formal Framework for Runtime Delegation Safety in Multi-Agent Systems ⭐ 精选

Yuan Sun

cs.AI

本文提出Safe Bilevel Delegation (SBD)框架，将多智能体系统中的任务委派形式化为一个bilevel optimization问题：外层meta-weight网络学习上下文相关的安全-效率权重$\lambda(s) \in [0,1]$，内层在概率安全约束$P(\text{safe}) \geq 1-\delta$下优化委派策略$\pi$，并通过连续委派度$\alpha \in [0,1]$实现从完全人工覆盖到完全自主执行的平滑插值。该框架建立了三个理论结果：Safety Monotonicity（更高外层安全权重产生更安全的内层策略）、Inner Policy Convergence（内层问题的projected gradient descent在标准光滑性假设下线性收敛）以及Accountability Propagation bound（在多跳委派链上分配责任并给出每个agent的可证明上限）。该工作与关键词"agent"高度契合，为高安全场景下的多智能体系统运行时委派安全提供了形式化理论基础。

InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation? ⭐ 精选

Qiyao Wang et al.

cs.AI cs.CL

本文提出了InteractWeb-Bench，一个用于评估多模态agent在交互式网站生成任务中表现的新型benchmark。该benchmark模拟非专业用户的模糊、冗余或矛盾的指令，并设计了一个包含Clarify, Implement, Verify, Submit的统一action space，使agent能够通过迭代意图澄清和视觉反馈来避免“blind execution”（即不进行交互确认而直接执行）。实验表明，当前最先进的MLLM-based agent在该benchmark上仍存在意图识别和自适应交互的局限，为agent在代码生成中的交互式学习与上下文理解提供了新的评估视角。

PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations ⭐ 精选

Yang Zhang et al.

cs.AI cs.LG cs.RO

本文提出PRTS系统，通过将语言指令视为goal并采用contrastive reinforcement learning，在VLA模型中学习统一的embedding space，其中state-action与goal embeddings的内积近似于log-discounted goal occupancy，从而量化物理可行性。该方法直接从offline trajectories中提取密集的goal-reachability监督信号，无需reward annotations，并通过role-aware causal mask融入VLM backbone。PRTS在167B tokens数据上pretrain后，在LIBERO等多项benchmark上达到state-of-the-art，尤其在long-horizon和zero-shot novel-instruction场景中表现突出，为robotic foundation policies注入了goal-reachability awareness。

When Agents Evolve, Institutions Follow ⭐ 精选

Chao Fei, Hongcheng Guo, Yanghua Xiao

cs.AI

本文提出将七种历史政治制度（如民主、寡头等）转化为可执行的多智能体架构，并在大语言模型（LLM）驱动的多智能体系统中进行实证评估。研究发现，治理拓扑结构（governance topology）对集体性能影响显著，同一模型下最优与最差制度间的性能差距超过57个百分点，且最优架构随模型能力和任务特征动态变化。该工作为多智能体系统的集体组织设计提供了结构化框架，并指出未来方向应从“自进化智能体”转向“自进化多智能体系统”，与关键词“agent”高度契合。

ObjectGraph: From Document Injection to Knowledge Traversal -- A Native File Format for the Agentic Era ⭐ 精选

Mohit Dubey, Open Gigantic

cs.AI cs.DB cs.IR cs.MA

本文提出了一种名为OBJECTGRAPH (.og)的原生文件格式，旨在解决LLM agent在文档处理中因传统线性文本格式导致的上下文窗口浪费和token冗余问题。该格式将文档重新构想为类型化的有向知识图谱，支持遍历而非注入，并严格是Markdown的超集。通过引入Progressive Disclosure Model、Role-Scoped Access Protocol和Executable Assertion Nodes等原生原语，OBJECTGRAPH在五种文档类别和八种agent任务类型上实现了高达95.3%的token缩减，且任务准确率无统计显著下降。这项工作为agent时代的文档交互提供了新的格式范式，与关键词“agent”高度契合。

SpecVQA: A Benchmark for Spectral Understanding and Visual Question Answering in Scientific Images ⭐ 精选

Jialu Shen et al.

cs.AI

本文提出了SpecVQA，一个用于评估多模态大语言模型(MLLMs)在科学光谱图像理解能力的benchmark，覆盖7种代表性光谱类型并包含专家标注的问答对。针对光谱数据的高信息密度特性，作者提出了一种光谱数据采样与插值重建方法，在有效减少token长度的同时保留关键曲线特征，消融实验验证了该方法在benchmark上的显著性能提升。该工作为提升MLLMs在科学光谱理解领域的能力提供了重要基准，并展示了将视觉-语言模型扩展到更广泛科学研究中的潜力。

Collaborative Agent Reasoning Engineering (CARE): A Three-Party Design Methodology for Systematically Engineering AI Agents with Subject Matter Experts, Developers, and Helper Agents ⭐ 精选

Rahul Ramachandran, Nidhi Jha, Muthukumaran Ramasubramanian

cs.AI

本文提出Collaborative Agent Reasoning Engineering (CARE)方法，一种用于科学领域工程化Large Language Model (LLM) agent的三方设计方法论。该方法通过可复用工件和分阶段门控流程，系统性地规范agent的行为、grounding、工具编排和验证，解决了该领域长期存在的临时试错式开发问题。CARE采用Subject-Matter Experts (SMEs)、开发者和LLM helper agent三方协作，将非正式领域意图转化为结构化、可审查的规范，从而弥合了新手与专家在领域约束和验证实践上的差距。实验表明，这种工件驱动的门控方法论在开发效率和复杂查询性能上均有可衡量的提升。

Compositional Meta-Learning for Mitigating Task Heterogeneity in Physics-Informed Neural Networks

Beomchul Park et al.

cs.AI

本文提出LAM-PINN，一种用于Physics-Informed Neural Networks (PINNs)的组合式meta-learning框架，通过将模型分解为cluster-specialized subnetworks和shared meta network来缓解任务异质性。该方法利用task-specific learning dynamics构建任务表示并聚类，从而在参数化PDE族中实现高效迁移。

Binary Spiking Neural Networks as Causal Models

Aditya Kar, Emiliano Lorini, Timothée Masquelier

cs.AI

本文通过将Binary Spiking Neural Networks (BSNNs)的脉冲活动表示为binary causal model，利用SAT和SMT求解器计算abductive explanations，并在MNIST数据集上验证了该方法相比SHAP能避免无关特征。

When Your LLM Reaches End-of-Life: A Framework for Confident Model Migration in Production Systems

Emma Casey et al.

cs.AI cs.LG cs.SE

本文提出了一个用于大型语言模型(LLM)在生产系统中迁移的框架，核心贡献是使用贝叶斯统计方法将自动评估指标与人工判断进行校准，从而在有限人工评估数据下实现模型间的可靠比较。该框架在商业问答系统中得到验证，可广泛应用于企业级LLM产品的模型迁移。

Think it, Run it: Autonomous ML pipeline generation via self-healing multi-agent AI

Adela Bara, Gabriela Dobrita, Simona-Vasilica Oprea

cs.AI

本文提出了一种基于多智能体架构的自动化ML pipeline生成系统，通过五个智能体分别处理数据剖析、意图解析、微服务推荐、有向无环图构建和执行，并集成了基于代码的检索增强生成与自愈机制。该系统在150个ML任务上达到84.7%的成功率，但方法主要面向工程应用，与关键词中的spectral、Muon、pretrain等理论方向关联较弱。

Unsupervised Electrofacies Classification and Porosity Characterization in the Offshore Keta Basin Using Wireline Logs

Hamdiya Adams et al.

cs.AI cs.CE cs.LG physics.geo-ph

本文使用K-means聚类对Keta盆地的测井数据进行了无监督电相分类，识别出四个与粘土含量和孔隙度相关的电相，为缺乏岩心数据的海上盆地提供了实用的地层评价工具。

TRUST: A Framework for Decentralized AI Service v.0.1

Yu-Chao Huang et al.

cs.AI

本文提出了TRUST框架，一个用于去中心化AI服务的系统，通过HDAG、DAAN协议和多层共识机制解决集中式验证的鲁棒性、可扩展性、不透明性和隐私问题。该框架在多个LLM和基准测试中实现了72.4%的准确率，并能在30%恶意参与者下保证正确性。

Unpacking Vibe Coding: Help-Seeking Processes in Student-AI Interactions While Programming

Daiana Rinja et al.

cs.AI cs.HC

本文通过分析110名本科生与AI编程交互的19418轮对话，使用归纳编码和异质转移网络分析，比较了高绩效与低绩效学生的求助行为模式。研究发现高绩效学生倾向于工具性求助（如探究），而低绩效学生则依赖执行性求助（如任务委托），表明当前生成式AI主要反映学生意图而非优化学习。

Optimal Stop-Loss and Take-Profit Parameterization for Autonomous Trading Agent Swarm

Nathan Li, Aikins Laryea, Yigit Ihlamur

cs.AI

本文研究了自主交易agent swarm中止损和止盈参数的最优设置，通过回测900多个历史交易发现更严格的损失限制和更早的利润捕获能改善风险调整后的表现。论文还讨论了时间序列分割带来的评估挑战，并提出了一个实用的退出逻辑调优框架。

Step-level Optimization for Efficient Computer-use Agents

Jinbiao Wei et al.

cs.AI

本文提出了一种面向计算机使用agent的step-level级联优化框架，通过默认使用轻量级策略并在轻量级monitor检测到高风险时升级到更强模型，以解决长程GUI任务中计算资源分配不均的问题。该方法利用Stuck Monitor和Milestone Monitor两种互补信号来识别进度停滞和语义漂移，但整体创新性有限，且与关键词列表中的概念关联较弱。

Interval Orders, Biorders and Credibility-limited Belief Revision

Richard Booth, Ivan Varzinczak

cs.AI

本文探讨了interval orders和biorders在belief revision中的应用，通过公理化刻画定义了新的修正算子族，并指出biorder-based修正虽满足Success公设但可能产生不一致输出，通过引入“不可信”输入处理得到满足Consistency公设的非优先修正族。

Evaluating TabPFN for Mild Cognitive Impairment to Alzheimer's Disease Conversion in Data Limited Settings

Brad Ye et al.

cs.AI

本文评估了TabPFN（一种基于预训练transformer的表格数据模型）在预测轻度认知障碍（MCI）向阿尔茨海默病（AD）转化中的表现，并与XGBoost等传统机器学习方法进行了对比。实验表明，在数据量有限（如N=50）的情况下，TabPFN仍能保持较高的AUC（0.892），优于传统方法，展示了基础模型在数据稀缺场景下的潜力。

Toward Personalized Digital Twins for Cognitive Decline Assessment: A Multimodal, Uncertainty-Aware Framework

Bulent Soykan et al.

cs.AI

本文提出了一种用于认知衰退评估的个性化数字孪生框架PCD-DT，结合了latent state-space models、multimodal fusion和uncertainty-aware validation，并在TADPOLE数据上进行了初步可行性验证。该工作主要关注临床预测建模，与关键词中的code、spectral、Muon、agent等概念关联较弱。

When Roles Fail: Epistemic Constraints on Advocate Role Fidelity in LLM-Based Political Statement Analysis

Juergen Dietrich

cs.AI cs.CL cs.CY cs.MA

本文通过TRUST pipeline系统性地测试了多agent LLM在政治声明分析中的角色忠诚度，发现两种失败模式（Epistemic Floor Effect和Role-Prior Conflict）均由Epistemic Role Override机制导致，并指出模型选择显著影响角色忠诚度。

AutoSurfer -- Teaching Web Agents through Comprehensive Surfing, Learning, and Modeling

Fazle Elahi Faisal et al.

cs.AI

本文提出AutoSurfer，一种用于生成高质量Web agent训练轨迹数据的自动化方法。它通过广度优先探索、基于轨迹的任务合成和轨迹引导的细化，解决了现有方法网站覆盖不全和任务合成不准确的问题。

OptimusKG: Unifying biomedical knowledge in a modern multimodal graph

Lucas Vittor et al.

cs.AI

OptimusKG构建了一个多模态生物医学labeled property graph (LPG)，整合了来自18个本体和受控词汇的结构化与半结构化数据，包含19万个节点和2180万条边。该图通过保留类型特定的元数据和跨引用信息，为分子、解剖、临床和环境领域的知识提供了统一表示，并通过PaperQA3代理验证了其关系与科学文献证据的一致性。

The Inverse-Wisdom Law: Architectural Tribalism and the Consensus Paradox in Agentic Swarms

Dahlia Shehata, Ming Li

cs.AI

本文通过36个实验和12,804条轨迹，挑战了多智能体系统中“群体智慧”的假设，提出了“共识悖论”和“逆智慧定律”，证明在亲缘主导的智能体群体中，增加逻辑智能体会稳定错误轨迹而非提高正确概率。文章定义了“部落主义系数”和“谄媚权重”作为群体失败的主要机制决定因素，并提出了“异质性指令”作为弹性智能体架构的基础安全要求。

Mechanized Foundations of Structural Governance: Machine-Checked Proofs for Governed Intelligence

Alan L. McCann

cs.AI

本文在Coq中机械验证了认知工作流系统的结构治理理论，包括治理安全性、不变性和充分性等定理，并给出了交替范式分解和必要性定理的纸笔证明。这些工作为智能系统的形式化治理提供了基础，但与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联较弱。

The Two Boundaries: Why Behavioral AI Governance Fails Structurally

Alan L. McCann

cs.AI

本文提出了AI治理中的“双边界”结构问题，指出系统的表达能力边界与治理边界若不重合会导致风险或无效治理。作者利用Rice定理证明在Turing-complete架构下行为治理的不可判定性，并引入coterminous governance概念，主张通过架构分离计算与效应来实现治理边界的统一。

Learning Rate Engineering: From Coarse Single Parameter to Layered Evolution

Ming-Hong Yao et al.

cs.AI cs.LG

本文系统梳理了学习率调度从全局固定到分层自适应的五代演进，并提出了一个统一框架DALS，在合成数据上表现最佳，但跨数据集分析表明没有单一策略在所有场景中占优。

METASYMBO: Multi-Agent Language-Guided Metamaterial Discovery via Symbolic Latent Evolution

Jianpeng Chen et al.

cs.AI

本文提出MetaSymbO，一个多agent框架，用于语言引导的超材料发现。它通过符号驱动的潜在演化，将自然语言设计意图转化为有效的微观结构，并提升了结构有效性和语言引导分数。

End-to-End Evaluation and Governance of an EHR-Embedded AI Agent for Clinicians

Aaryan Shah et al.

cs.AI

本文提出了一个针对临床AI系统的端到端治理框架，集成了rubric验证、实时部署反馈、技术性能监控和成本追踪，并应用于EHR嵌入式agent Hyperscribe。通过20名临床医生在823个案例中的验证，系统评分中位数从84%提升至95%，并展示了持续多通道治理在临床AI部署中的可行性和有效性。

Investigating More Explainable and Partition-Free Compositionality Estimation for LLMs: A Rule-Generation Perspective

Ziyao Xu, Cong Wang, Houfeng Wang

cs.AI

本文从规则生成的角度提出了一种新的compositionality估计方法，要求LLMs生成程序作为数据集映射规则，并基于复杂度理论评估其compositionality。该方法在string-to-grid任务上分析了现有LLMs的compositionality特征与缺陷。

Heterogeneous Scientific Foundation Model Collaboration

Zihao Li et al.

cs.AI cs.CL cs.LG

本文提出了Eywa，一个异构agentic框架，通过为领域特定的foundation models添加基于语言模型的推理接口，使语言模型能够指导非语言数据模态的推理。该框架可作为单agent或多agent系统的替代方案，并在物理、生命和社会科学等多个科学领域进行了评估。

CoAX: Cognitive-Oriented Attribution eXplanation User Model of Human Understanding of AI Explanations

Louth Bin Rawshan, Zhuoyu Wang, Brian Y. Lim

cs.AI

本文通过认知建模研究了人类对XAI解释的理解，分析了不同推理策略在结构化数据决策任务中的效果，并展示了模型如何用于形成假设以替代昂贵的人类实验。

TIO-SHACL: Comprehensive SHACL validation for TMF Intent Ontologies

Jean Martins, Leonid Mokrushin, Marin Orlic

cs.AI cs.CL

本文提出了tio-shacl，首个针对TMF Intent Ontology的SHACL验证框架，包含56个node shapes和69个property shapes，覆盖所有15个本体模块，并设计了递归逻辑算子、基于数量的约束等验证模式。该框架实现了100%词汇覆盖并在三个SHACL引擎上验证了兼容性，但与我提供的关键词列表（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Measurement Risk in Supervised Financial NLP: Rubric and Metric Sensitivity on JF-ICR

Sidi Chang et al.

cs.AI cs.CL

本文研究了监督式金融NLP基准测试中的测量风险，以JF-ICR数据集为例，分析了rubric措辞、metric选择和聚合策略对模型评估结果的影响。研究发现rubric措辞会显著改变模型标签，且并非所有metric在特定类别分布下都保持信息量，最终提出了一种评估报告规范。

Robust Learning on Heterogeneous Graphs with Heterophily: A Graph Structure Learning Approach

Yihan Zhang, Ercan E. Kuruoglu

cs.AI

本文针对异质图中异质性（heterophily）和结构噪声问题，提出了HGUL框架，包含kNN图构建、图结构学习和基于多项式图核的异质亲和力学习模块，实验表明其在干净和噪声图上均优于现有方法。

Leading Across the Spectrum of Human-AI Relationships: A Conceptual Framework for Increasingly Heterogeneous Teams

Alejandro R. Jadad

cs.AI cs.CL cs.CY cs.HC

本文提出了一个概念框架，用于描述人类与AI在决策中的五种关系配置（从纯人类到纯AI），并引入了“共适应性”概念，旨在帮助领导者识别和调整团队配置。该论文主要关注组织管理层面，与关键词中的数学或算法概念（如spectral, Muon, attention等）关联度较低。

Belief-Guided Inference Control for Large Language Model Services via Verifiable Observations

Wenhao Yuan et al.

cs.AI

本文提出Veroic框架，将黑盒LLM服务的推理控制建模为部分可观测马尔可夫决策过程，通过构建轻量级可验证观测通道来聚合质量信号，从而在预算约束下决定是否触发高成本推理。实验表明该方法在质量-成本权衡和风险估计上优于基线。

In-Context Examples Suppress Scientific Knowledge Recall in LLMs

Chaemin Jang et al.

cs.AI

本文研究了在科学推理任务中，in-context examples会抑制LLMs对预训练科学知识的回忆，使其从知识驱动转向经验模式拟合，并在60个任务上验证了这一现象。

SpatialGrammar: A Domain-Specific Language for LLM-Based 3D Indoor Scene Generation

Song Tang et al.

cs.AI

本文提出SpatialGrammar，一种用于3D室内场景生成的领域特定语言，通过BEV网格表示和编译器验证来减少空间错误。该方法包括SG-Agent和SG-Mini两个系统，在测试中提升了空间保真度。

Trace-Level Analysis of Information Contamination in Multi-Agent Systems

Anna Mazhar, Huzaifa Suri, Sainyam Galhotra

cs.AI cs.LG

本文通过向多agent工作流中注入结构化扰动，研究了信息污染对执行轨迹的影响，发现工作流可能大幅偏离却恢复正确结果，或结构相似却输出错误。作者提出了污染表现的分类法、基于轨迹的检测框架，并提供了实证证据。

Math Education Digital Shadows for facilitating learning with LLMs: Math performance, anxiety and confidence in simulated students and AIs

Naomi Esposito et al.

cs.AI cs.CY cs.HC cs.LG cs.SI

MEDS是一个包含28,000个personas的数据集，用于评估14个LLMs在数学任务中的表现和偏见，包括数学能力、焦虑和信心等心理测量指标。该数据集为学习分析和AI数学教育研究提供了资源。

WaferSAGE: Large Language Model-Powered Wafer Defect Analysis via Synthetic Data Generation and Rubric-Guided Reinforcement Learning

Ke Xu

cs.AI

本文提出了WaferSAGE框架，用于晶圆缺陷的视觉问答，通过合成数据生成和基于rubric的强化学习训练小规模视觉语言模型，以解决半导体制造中的数据稀缺问题。

Political Bias Audits of LLMs Capture Sycophancy to the Inferred Auditor

Petter Törnberg, Michelle Schimmel

cs.AI

本文通过实验发现，大型语言模型（LLMs）在政治偏见审计中的表现部分源于对推断的提问者身份的谄媚性适应。当提问者被设定为保守派共和党人时，模型回答显著右移，而左移效应则弱得多，这表明标准单次提示审计捕捉的是模型与推断对话者之间的交互，而非固定的意识形态立场。

Generative structure search for efficient and diverse discovery of molecular and crystal structures

Yifang Qin et al.

cs.AI

本文提出了生成式结构搜索（GSS）框架，将基于扩散的生成模型与随机结构搜索（RSS）结合，通过学习到的score fields和物理力驱动采样过程，以更低的成本发现分子和晶体中的亚稳态结构。该方法在训练数据分布外的成分上仍有效，但未直接涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Optimization before Evaluation: Evaluation with Unoptimised Prompts Can be Misleading

Nicholas Sadjoli et al.

cs.AI

本文研究了prompt optimization (PO)对LLM评估的影响，发现未优化的prompt会导致模型排名产生显著偏差，强调了在评估中为每个模型进行PO的重要性。

From Context to Skills: Can Language Models Learn from Context Skillfully?

Shuzheng Si et al.

cs.AI

本文提出Ctx2Skill框架，通过多智能体自博弈循环自动从上下文中发现、提炼和选择技能，以提升语言模型的上下文学习能力。该方法在CL-bench的四个任务上验证了有效性，但未涉及code、spectral、Muon、pretrain或attention等关键词。

Fairness for distribution network operations and planning

Pedro F. C. de Carvalho et al.

cs.AI eess.SY

本文综述了配电网规划与运行中的公平性概念和度量指标，讨论了不同公平性准则（从平均主义到基于绩效）对资源分配优化问题的影响，并分析了其数学复杂度。

The TEA Nets framework combines AI and cognitive network science to model targets, events and actors in text

Sebastiano Franchini et al.

cs.AI cs.CY cs.HC cs.LG cs.SI

本文提出了TEA Nets框架，用于从文本中提取主体、动词和客体，并结合认知网络科学与AI实现可解释的情感检测和语义分析。该框架在阴谋论文本和LLM生成文本中展示了应用潜力。

Bridging Values and Behavior: A Hierarchical Framework for Proactive Embodied Agents

Chunhui Zhang et al.

cs.AI

本文提出ValuePlanner，一种将高层价值调度与低层动作执行解耦的分层认知架构，用于生成自主、长期的行为。该方法结合LLM和PDDL规划器，在TongSim环境中展示了价值驱动的行为协调。

Contextual Agentic Memory is a Memo, Not True Memory

Binyan Xu, Xilin Dai, Kehuan Zhang

cs.AI cs.CL

本文指出当前agent记忆系统（如vector stores和retrieval-augmented generation）本质上是lookup而非真正的记忆，并基于神经科学的Complementary Learning Systems理论论证了这种混淆会导致agent在组合新颖任务上存在泛化上限且易受持久性记忆中毒攻击。

Knowledge Graph Representations for LLM-Based Policy Compliance Reasoning

Wilder Baldwin, Sepideh Ghanavati

cs.AI

本文提出了一个基于agent的框架，通过从AI政策文档构建Knowledge Graph (KG)并检索相关信息来回答问题，并评估了五种LLM在42个政策QA任务上的表现。实验表明，KG增强能提升所有模型的得分，且由LLM自动发现的开放模式在性能上可与正式本体相媲美。

Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation

Xupeng Chen et al.

cs.AI

本文审计了多个前沿Vision-Language Models在Medical VQA任务中的失败模式，发现模型在解剖和病理目标定位上表现不佳，且自定位-回答流程会降低VQA准确率。通过微调Qwen 2.5 VL在Med-VQA数据上取得了较高的开放域召回率，但未解决感知模块的信任瓶颈。

Iterative Multimodal Retrieval-Augmented Generation for Medical Question Answering

Xupeng Chen et al.

cs.AI

本文提出MED-VRAG，一个迭代式多模态检索增强生成框架，通过检索PMC文档页面图像而非OCR文本，并利用ColQwen2.5补丁级嵌入和MapReduce LLM过滤器实现大规模检索，在四个医学QA基准上达到78.6%的平均准确率。该方法主要关注医学领域的多模态RAG应用，与关键词中的agent或attention等概念关联较弱。

Consumer Attitudes Towards AI in Digital Health: A Mixed-Methods Survey in Australia

Wei Zhou, Rashina Hoda, Joycelyn Ling

cs.AI

本文通过混合方法调查了澳大利亚消费者对数字健康中AI的态度，发现消费者对AI生成的医疗摘要表现出偏好，但对其准确性和安全性存在担忧。研究强调了临床监督部署框架的重要性，但未涉及关键词中的核心数学或技术概念。

Autonomous Traffic Signal Optimization Using Digital Twin and Agentic AI for Real-Time Decision-Making

Salman Jan et al.

cs.AI cs.ET cs.MA

本文提出了一种基于Digital Twin和Agentic AI的交通信号优化框架，通过三层系统（感知、概念化、行动）实现实时决策，并利用LangChain和MCP处理数据。实验表明该方法在减少等待时间上优于固定时间和强化学习基线。

Intent2Tx: Benchmarking LLMs for Translating Natural Language Intents into Ethereum Transactions

Zhuoran Pan et al.

cs.AI

本文提出了一个名为Intent2Tx的高保真benchmark，用于评估LLM将自然语言意图转换为Ethereum交易的能力，包含从真实主网数据中提取的实例。实验发现，当前LLM在分布外泛化和多步规划方面存在不足，且语法正确的输出常无法实现预期的状态转换。

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

Jinchao Li et al.

cs.AI cs.CL

WindowsWorld是一个针对跨应用工作流的GUI agent基准测试，包含181个多步骤任务，覆盖17个桌面应用。实验表明现有agent在多应用任务上成功率低于21%，且难以处理需要跨三个以上应用的推理任务。

Post-Optimization Adaptive Rank Allocation for LoRA

Vishnuprasadh Kumaravelu, Sunil Gupta, P. K. Srijith

cs.AI

本文提出了一种名为PARA的LoRA后优化自适应秩分配方法，利用奇异值分解(Singular Value Decomposition)基于全局阈值对LoRA的秩进行剪枝，从而在保持性能的同时减少参数冗余。该方法是一种数据无关的后处理压缩技术，无需修改训练过程。

Focus Session: Autonomous Systems Dependability in the era of AI: Design Challenges in Safety, Security, Reliability and Certification

Behnaz Ranjbar et al.

cs.AI cs.DC

本文探讨了在AI时代设计安全关键型嵌入式系统（如自动驾驶平台）时面临的可靠性、安全性与认证挑战，并概述了应对这些挑战的建模与框架方法。

MCPHunt: An Evaluation Framework for Cross-Boundary Data Propagation in Multi-Server MCP Agents

Haonan Li et al.

cs.AI

本文提出了MCPHunt，一个用于评估多服务器MCP agent中跨边界数据传播的框架，通过canary-based taint tracking等方法检测非对抗性的凭证传播，并发现策略违规传播率在11.5-41.3%之间，提示层面的缓解措施效果有限。

A Grid-Aware Agent-Based Model for Analyzing Electric Vehicle Charging Systems

Khalil Al-Rahman Youssefi et al.

cs.AI

本文提出了一种基于Agent的模型(ABM)用于分析电动汽车充电系统，集成了异构的EV行为、充电桩约束和共享能量沙盒，并使用SimPy离散事件框架实现可扩展仿真。该模型通过一个代表性工作场所充电场景展示了基础设施配置和协调机制对能量交付性能、设施利用率和聚合负载特性的影响。

Rethinking Agentic Reinforcement Learning In Large Language Models

Fangming Cui et al.

cs.AI cs.ET

本文探讨了基于大型语言模型的智能体强化学习范式，强调自主智能体在不确定环境中的目标设定、长期规划和动态策略适应能力。文章为这一新兴领域提供了概念基础和方法论创新的综述。

KellyBench: A Benchmark for Long-Horizon Sequential Decision Making

Thomas Grady et al.

cs.AI

本文提出了KellyBench，一个用于评估语言模型在体育博彩市场中进行长期序贯决策的benchmark。实验发现，所有前沿模型在模拟的英超赛季中平均亏损，策略复杂度远低于人类专家。

Modeling Clinical Concern Trajectories in Language Model Agents

Sukesh Subaharan et al.

cs.AI

本文提出了一种轻量级agent架构，通过将无记忆的临床风险编码器与一阶和二阶动力学结合，生成连续的升级压力信号，以暴露LLM agent在临床场景中阈值触发前的累积风险信号。实验表明，二阶动力学能产生平滑且可预测的担忧轨迹，支持人机协同监控。

Building Persona-Based Agents On Demand: Tailoring Multi-Agent Workflows to User Needs

Giuseppe Arbore, Andrea Sillano, Luigi De Russis

cs.AI cs.HC

本文探讨了在agentic AI系统中按需生成基于persona的agent的方法，旨在通过动态创建agent和persona来匹配用户特征和任务需求，从而克服固定agent架构的局限性。该方法为agent平台设计提供了新的可能性，但未涉及code、spectral或Muon等关键词相关技术。

In-Context Prompting Obsoletes Agent Orchestration for Procedural Tasks

Simon Dennis et al.

cs.AI cs.LG

本文通过对比实验表明，在程序性任务（procedural tasks）中，将完整流程放入system prompt让模型自我编排（self-orchestrate）的方法，优于使用LangGraph等外部编排框架（agent orchestration）的方法。实验在旅行预订、技术支持等三个领域验证了该结论。

Graph World Models: Concepts, Taxonomy, and Future Directions

Jiawei Liu et al.

cs.AI

本文系统性地提出了图世界模型(Graph World Models, GWMs)的概念，并基于关系归纳偏置(Relational Inductive Biases, RIB)提出了一个分类法，将现有工作分为空间、物理和逻辑三类。文章总结了各类模型的设计原则与代表性工作，并讨论了动态图适应、概率关系动力学等未来方向。

Simulating clinical interventions with a generative multimodal model of human physiology

Guy Lutsker et al.

cs.AI

HealthFormer是一个decoder-only transformer模型，通过tokenize多领域生理测量数据来生成式建模人体生理轨迹。该模型无需任务特定训练即可进行预测和风险分层，并能模拟临床干预的效果。

From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction

Alex Petrov et al.

cs.AI cs.CL

本文提出了一种基于schema的迭代式AI记忆系统xmemory，通过将记忆写入分解为对象检测、字段提取和值验证等步骤，将推理负担从读取路径转移到写入路径。实验表明该方法在结构化提取和端到端记忆基准上优于现有基线，但主要贡献在于工程架构设计而非理论创新，与关键词中的agent概念有一定关联但不够紧密。

Taming the Centaur(s) with LAPITHS: a framework for a theoretically grounded interpretation of AI performances

Matteo Da Pelo et al.

cs.AI

本文提出了一个名为LAPITHS的框架，用于评估AI模型（如CENTAUR）声称的认知能力是否具有理论和实证依据。该框架通过最小认知网格和行为比较两种定量评估，指出这些模型的表现并不等同于人类认知过程。

MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection

Weihai Lu et al.

cs.AI cs.CL

本文提出MM-StanceDet，一个用于多模态立场检测（MSD）的多智能体框架，通过集成检索增强、多模态分析、辩论与自我反思等阶段来融合文本与图像信息。实验表明该方法在多个数据集上优于现有基线，但方法本身并非开创性理论突破，且与关键词列表中的概念关联较弱。

A Collective Variational Principle Unifying Bayesian Inference, Game Theory, and Thermodynamics

Djamel Bouchaffra et al.

cs.AI

本文提出了Game-Theoretic Free Energy Principle，将Bayesian inference、game theory和thermodynamics统一在一个variational框架下，证明多智能体系统的局部free-energy最小化隐式实现了一个stochastic game，并建立了cooperative games与Gibbs分布之间的variational表示。

The Effects of Visual Priming on Cooperative Behavior in Vision-Language Models

Kenneth J. K. Ong

cs.AI cs.CV

本文研究了视觉提示（visual priming）对Vision-Language Models在迭代囚徒困境中合作行为的影响，发现图像内容和颜色线索能改变模型决策模式，并探讨了提示修改、Chain of Thought推理等缓解策略。该工作主要关注模型行为分析，与关键词中的数学或算法主题关联较弱。

GUI Agents with Reinforcement Learning: Toward Digital Inhabitants

Junan Hu et al.

cs.AI cs.CV

本文综述了强化学习（RL）与图形用户界面（GUI）agent的结合，提出了一个包含Offline RL、Online RL和混合策略的分类法，并分析了奖励工程、数据效率等关键技术。文章指出，基于世界模型的训练和系统2式推理的涌现是重要趋势，但未直接涉及code、spectral、Muon或pretrain等关键词。

LLMs as ASP Programmers: Self-Correction Enables Task-Agnostic Nonmonotonic Reasoning

Adam Ishay, Joohyung Lee

cs.AI

本文提出LLM+ASP框架，将自然语言转化为Answer Set Programming (ASP)以进行非单调推理，并通过ASP求解器的结构化反馈实现自动自校正循环。该方法无需任务特定工程，在多个基准上优于基于SMT的替代方案，但未直接涉及关键词中的code、spectral、Muon、pretrain、agent或attention等概念。

Language Models Refine Mechanical Linkage Designs Through Symbolic Reflection and Modular Optimisation

João Pedro Gandarela et al.

cs.AI cs.CE cs.MA

本文提出了一种将语言模型与数值优化器结合的方法，用于改进机械连杆设计。通过符号表示和模块化架构，该方法在多个工程目标上降低了几何误差并提升了结构有效性。

Splitting Assumption-Based Argumentation Frameworks

Giovanni Buraglio, Wolfgang Dvorak, Stefan Woltran

cs.AI

本文研究了Assumption-Based Argumentation (ABA)框架中的splitting技术，提出在知识库层面而非其图实例化层面应用splitting，并推广了其参数化版本，以应对ABA推理的高计算复杂度问题。

From LLM-Driven Trading Card Generation to Procedural Relatedness: A Pokémon Case Study

Johannes Pfau, Panagiotis Vrettis

cs.AI cs.HC

本文探讨了使用Large Language Models和Image Diffusion Models为集换式卡牌游戏（如宝可梦）程序化生成个性化卡牌，通过用户研究验证了该方法能提升玩家满意度，为游戏内容生成提供了新思路。

D3-Gym: Constructing Real-World Verifiable Environments for Data-Driven Discovery

Hanane Nour Moussa et al.

cs.AI cs.LG

本文提出了D3-Gym，一个自动构建的用于科学数据驱动发现的可验证环境数据集，包含565个来自真实科学仓库的任务，每个任务配有自然语言指令、可执行环境和自动评估脚本。实验表明该数据集能有效提升语言模型在科学任务上的表现。

Exploring Interaction Paradigms for LLM Agents in Scientific Visualization

Jackson Vonderhorst et al.

cs.AI cs.GR cs.HC

本文比较了三种LLM agent范式（领域特定agent、计算机使用agent和通用编码agent）在科学可视化任务中的表现，发现通用编码agent任务成功率最高但计算成本高，领域特定agent更高效稳定但灵活性不足。研究揭示了不同范式和模态间的权衡，指出未来系统应结合结构化工具使用、交互能力和自适应记忆机制。

A Pattern Language for Resilient Visual Agents

Habtom Kahsay Gidey, Alexander Lenz, Alois Knoll

cs.AI cs.SE

本文提出了一种针对视觉agent的架构模式语言，将快速确定性反射与慢速概率监督分离，包含四种设计模式。该工作主要关注软件工程中的架构挑战，与关键词列表中的概念关联较弱。

Agent-Agnostic Evaluation of SQL Accuracy in Production Text-to-SQL Systems

Taslim Jamal Arif, Kuldeep Singh

cs.AI

本文提出了STEF框架，用于在生产环境中评估Text-to-SQL系统的准确性，该框架无需依赖数据库schema或参考查询，仅通过自然语言输入和生成的SQL进行评估。它通过提取语义规范并进行归一化特征对齐，生成可解释的0到100的准确率分数。

RHyVE: Competence-Aware Verification and Phase-Aware Deployment for LLM-Generated Reward Hypotheses

Feiyu Wu et al.

cs.AI

本文提出RHyVE协议，通过短视fork验证比较来自共享policy checkpoint的小规模reward hypothesis集合，研究LLM生成奖励在强化学习中的部署时机问题。实验表明奖励排序在低能力阶段不可靠，且不同reward candidate族表现出阶段依赖的胜者变化，但该方法被定位为验证通知的部署协议而非通用调度器。

Characterizing the Consistency of the Emergent Misalignment Persona

Anietta Weckauff, Yuchen Zhang, Maksym Andriushchenko

cs.AI

本文通过微调Qwen 2.5 32B Instruct模型在六个窄领域（如不安全代码、风险金融建议等）上，研究了emerging misalignment (EM) persona的一致性，发现存在coherent-persona和inverted-persona两种模式，表明EM persona并非完全一致。

What Makes a Good Terminal-Agent Benchmark Task: A Guideline for Adversarial, Difficult, and Legible Evaluation Design

Ivan Bercovich

cs.AI

本文讨论了终端代理基准测试任务的设计原则，指出好的任务应具有对抗性、难度和可读性，并分析了常见的失败模式（如AI生成的指令和可被奖励黑客利用的环境）。文章基于作者在Terminal Bench中的经验，为基准维护者和任务贡献者提供了指导。

Mapping the Methodological Space of Classroom Interaction Research: Scale, Duration, and Modality in an Age of AI

Dorottya Demszky et al.

cs.AI cs.CL cs.CY

本文提出了一个三维框架（规模、时长、模态）来映射课堂互动研究的方法论空间，并通过对比案例和访谈分析了AI如何扩展该空间。该研究主要关注教育研究方法论，与关键词中的数学或AI技术概念关联较弱。

Splitting Argumentation Frameworks with Collective Attacks and Supports

Matti Berthold et al.

cs.AI cs.LO

本文提出了针对包含集体攻击和支持的双极集合论论证框架(BSAFs)的拆分技术，推广了SETAFs的拆分方法，并证明了其在常见论证语义下的正确性。

Normativity and Productivism: Ableist Intelligence? A Degrowth Analysis of AI Sign Language Translation Tools for Deaf People

Nina Seron-Abouelfadil, Poppy Fynes

cs.AI cs.CY cs.HC

本文从技术哲学和去增长理论的角度，批判性地分析了AI手语翻译工具，认为这些工具通过标准化和理性化过程，将手语简化为可被技术捕获的数据与统计，从而产生了规范效应，并最终强化了对聋人群体的能力主义偏见。

Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists

Yujun Wu et al.

cs.AI

本文提出了Intern-Atlas，一个自动构建的方法演化图，用于捕捉AI研究中的方法级实体及其继承关系，并支持下游的idea评估与自动生成任务。该工作主要面向AI科学家和自动化科研agent，与关键词中的agent有一定关联，但方法本身并非开创性突破。

LLM as Clinical Graph Structure Refiner: Enhancing Representation Learning in EEG Seizure Diagnosis

Lincan Li, Zheng Chen, Yushun Dong

cs.AI

本文提出利用大语言模型(LLM)作为图边精炼器，通过两阶段框架去除EEG信号图中冗余或无关的边，以提升癫痫检测任务的图表示学习质量。实验表明该方法能提高检测准确率并生成更清晰的图结构，但方法本身并非开创性，且与关键词契合度较低。

Synthetic Computers at Scale for Long-Horizon Productivity Simulation

Tao Ge et al.

cs.AI cs.CL cs.LG

本文提出了一种可扩展的合成计算机环境生成方法，用于模拟长期生产力场景中的agent行为，通过创建包含真实文件夹结构和文档的虚拟环境，并让两个agent分别生成和完成生产力目标。该方法在初步实验中验证了其有效性，但主要贡献在于数据生成和模拟框架，而非解决长期存在的理论问题或与关键词高度契合。

cs.IR

AgenticRecTune: Multi-Agent with Self-Evolving Skillhub for Recommendation System Optimization ⭐ 精选

Xidong Wu et al.

cs.IR cs.AI

AgenticRecTune提出了一种基于多agent协作的推荐系统配置优化框架，通过Actor、Critic、Insight、Skill和Online五个专用agent，利用LLM（Gemini）的推理能力自动探索最优系统级配置空间。该框架引入自进化Skillhub机制，由Insight Agent和Skill Agent协同总结历史实验结果并提取各阶段任务的底层机制，实现了配置优化的持续改进。该方法解决了多阶段推荐系统中配置优化依赖人工调参且难以适应模型更新的问题，与关键词中的agent概念高度契合。

A Randomized Controlled Trial and Pilot of Scout: an LLM-Based EHR Search and Synthesis Platform

Michael Gao et al.

cs.IR cs.CY

本文介绍了一个基于LLM的EHR搜索与综合平台Scout，通过随机对照试验证明其能减少临床任务完成时间并降低工作负荷，同时保持输出质量。该研究主要关注临床工作流优化，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

Not All Memories Age the Same: Autodiscovery of Adaptive Decay in Knowledge Graphs

Mandar Karhade

cs.IR cs.AI cs.LG q-bio.QM

本文提出了一种用于知识图谱的自适应衰减框架，通过速度（观测频率）和波动性（嵌入距离变化）两个信号参数化连续衰减曲面，并利用生存分析从数据中学习领域、上下文和实体三个层次的衰减参数。实验表明该方法能恢复预设的层次参数，并在真实数据上优于统一衰减方法。

T2S-Metrics: Unified Library for Evaluating SPARQL Queries Generated From Natural Language

Yousouf Taghzouti et al.

cs.IR

本文介绍了t2s-metrics，一个用于评估从自然语言生成的SPARQL查询的开源统一库，提供了超过20种涵盖词法、句法、语义、执行和排序维度的评估指标。该工作旨在解决知识图谱问答系统评估中存在的碎片化和不可重复性问题。

Budget-Constrained Online Retrieval-Augmented Generation: The Chunk-as-a-Service Model

Shawqi Al-Maliki et al.

cs.IR cs.LG

本文提出Chunk-as-a-Service (CaaS)模型作为RAG-as-a-Service的替代方案，通过Utility-Cost Online Selection Algorithm (UCOSA)在预算约束下在线选择相关chunk以丰富prompt。实验表明该方法在成本效益上优于随机选择和离线方法，但与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

Value-Aware Product Recommendation by Customer Segmentation using a suitable High-Dimensional Similarity Measure

María Florencia Acosta et al.

cs.IR cs.LG stat.ML

本文提出了一种基于客户分群的价值感知产品推荐方法，通过将收入贡献编码到用户-项目矩阵中，并利用适用于高维稀疏数据的相似性度量进行客户分群，从而支持与盈利目标对齐的推荐策略。该方法在模拟实验和UCI在线零售数据集上验证了有效性。

LUCid: Redefining Relevance For Lifelong Personalization

Chimaobi Okite et al.

cs.IR

LUCid是一个用于评估终身个性化系统中情境相关性的基准测试，包含1936个查询和最多500个会话的交互历史。实验发现，当相关上下文来自语义不相关的历史交互时，现有模型的检索召回率接近零，响应对齐度仅约50%，表明当前系统对相关性的定义与个性化所需的情境相关性存在根本性不匹配。

Hypencoder Revisited: Reproducibility and Analysis of Non-Linear Scoring for First-Stage Retrieval

Arne Eichholtz et al.

cs.IR cs.CL

本文复现了Hypencoder检索框架，该框架用query-specific neural network替代bi-encoder中的固定内积评分函数。实验表明其在域内和域外基准上优于基线，但高效搜索算法在延迟上仍不及标准bi-encoder。

A Gated Hybrid Contrastive Collaborative Filtering Recommendation

Eduardo Ferreira da Silva et al.

cs.IR cs.AI

本文提出了一种Gated Hybrid Collaborative Filtering框架，通过自适应门控机制将文本评论的语义特征注入到autoencoder协同过滤模型中，并引入contrastive learning模块对齐语义和协同信号。实验表明该方法在top-N推荐场景下优于现有baseline。

LLM-Enhanced Topical Trend Detection at Snapchat

Hangqi Zhao et al.

cs.IR

本文介绍了一个在Snapchat上部署的大规模主题趋势检测系统，该系统结合了多模态主题提取、时间序列爆发检测和基于LLM的整合与增强。该系统是首个在短视频平台上实现生产级端到端主题趋势检测的公开系统，并通过六个月的人工评估验证了其高精度。

RAQG-QPP: Query Performance Prediction with Retrieved Query Variants and Retrieval Augmented Query Generation

Fangzheng Tian, Debasis Ganguly, Craig Macdonald

cs.IR

本文提出RAQG-QPP方法，利用检索到的历史查询变体（QVs）和大型语言模型（LLMs）生成查询变体来改进查询性能预测（QPP），实验表明该方法在神经排序模型上优于现有方法。

NuggetIndex: Governed Atomic Retrieval for Maintainable RAG

Saber Zerhoudi, Michael Granitzer, Jelena Mitrovic

cs.IR

本文提出NuggetIndex，一种将原子信息单元（nuggets）作为可管理记录存储的retrieval系统，通过维护证据链接、时间有效区间和生命周期状态，在排序前过滤无效或过时的nuggets，从而提升RAG系统的可维护性和时间正确性。实验表明，该方法在nugget召回率、时间正确性和冲突率上均优于传统的passage检索和未管理的proposition检索基线。

From Unstructured to Structured: LLM-Guided Attribute Graphs for Entity Search and Ranking

Yilun Zhu, Nikhita Vedula, Shervin Malmasi

cs.IR cs.CL

本文提出了一种结合LLM与属性图的两阶段实体搜索方法，通过从非结构化文本中提取结构化属性并构建可复用图结构，在零样本场景下提升了排序精度并降低了token使用量。该方法主要面向电商领域的实体搜索任务，与关键词中的“context”和“attention”有一定关联，但整体创新性和领域契合度未达到严格标准。

A Reproducibility Study of LLM-Based Query Reformulation

Amin Bigdeli et al.

cs.IR cs.CL

本文在统一实验框架下系统复现了十种基于LLM的查询重构方法，发现检索范式对重构增益有显著影响，且大模型并不总是带来更好性能。研究通过QueryGym工具包公开了所有配置和评估脚本。

Reproducing Adaptive Reranking for Reasoning-Intensive IR

Mandeep Rathee et al.

cs.IR

本文复现了GAR (Graph-based Adaptive Reranking)方法在推理密集型检索基准BRIGHT上的表现，发现该方法能通过修改reranking过程来缓解检索管道的bounded recall问题，且对计算开销影响很小。

One Pass, Any Order: Position-Invariant Listwise Reranking for LLM-Based Recommendation

Ethan Bito, Yongli Ren, Estrid He

cs.IR cs.LG

本文提出InvariRank框架，通过结构化attention mask和共享位置编码实现LLM推荐重排序的排列不变性，在单次前向传播中完成所有候选评分，实验表明其能产生稳定且有效的排序结果。

Purifying Multimodal Retrieval: Fragment-Level Evidence Selection for RAG

Xihang Wang et al.

cs.IR

本文针对多模态检索增强生成（MRAG）中检索文档整体作为证据引入噪声的问题，提出FES-RAG框架，将证据选择细化为句子级文本和区域级视觉片段，并引入Fragment Information Gain (FIG)指标衡量片段对生成置信度的边际贡献。该方法通过蒸馏轻量选择器实现高效片段筛选，在M2RAG基准上提升了生成质量，但未涉及code、spectral、Muon等关键词。

Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation

Jiaju Chen et al.

cs.IR cs.AI

本文提出PAD-Rec模块，通过引入item position embeddings和step position embeddings来增强draft model的结构感知和深度不确定性适应能力，以加速LLM-based generative list-wise recommendation的推理。实验显示该方法在保持推荐质量的同时实现了最高3.1倍的加速。

How Generative AI Disrupts Search: An Empirical Study of Google Search, Gemini, and AI Overviews

Riley Grossman et al.

cs.IR cs.AI cs.CL cs.CY cs.HC

本文通过构建包含11,500个用户查询的公开基准数据集，实证比较了Google传统搜索、AI Overview (AIO)和Gemini Flash 2.5的搜索结果差异，发现AIO在51.5%的查询中生成并置于自然结果之上，且各引擎检索来源的Jaccard相似度低于0.2。该研究主要揭示了生成式AI对网站可见性和信息生态的影响，但未涉及code、spectral或Muon等关键词相关技术。

NeocorRAG: Less Irrelevant Information, More Explicit Evidence, and More Effective Recall via Evidence Chains

Shiyao Peng et al.

cs.IR cs.AI

本文提出了NeocorRAG框架，通过引入Recall Conversion Rate (RCR)指标和Evidence Chains机制来优化检索质量，在多个benchmark上实现了SOTA性能并降低了token消耗。该方法主要关注检索增强生成中的检索质量与推理准确率之间的trade-off问题。

SimEval-IR: A Unified Toolkit and Benchmark Suite for Evaluating User Simulators and Search Sessions

Saber Zerhoudi

cs.IR

本文提出了SimEval-IR，一个用于评估用户模拟器和搜索会话的开源工具包和基准测试套件，区分了行为真实性和测试者可靠性两个目标，并提供了三个可执行基准测试。实验发现，主流的分类器-判别器“类人”检验对系统排名有效性的预测能力极弱，而边际点击深度距离和Fréchet距离则提供了更强的信号。

Efficient Multivector Retrieval with Token-Aware Clustering and Hierarchical Indexing

Silvio Martinico et al.

cs.IR cs.LG

本文提出TACHIOM系统，通过token感知的聚类和层次化索引加速多向量检索，在MS-MARCOv1和LoTTE上实现比k-means快247倍的聚类速度和比现有系统快9.8倍的检索速度，同时保持相当或更优的效果。

cs.CL

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Tosin Adewumi et al.

cs.CL

本文提出了数字电池护照（DBP）合规性分类的新任务，并发布了首个公开基准数据集BatteryPass-12K，该数据集基于真实试点样本合成生成。研究评估了22种语言模型在零样本推理下的表现，并进行了少样本推理和提示注入攻击分析。

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Zhen Zhang et al.

cs.CL

本文提出Length Value Model (LenVM)，将生成长度建模为token-level的value estimation问题，通过为每个生成的token分配恒定负奖励来预测剩余生成长度。该方法无需标注、可扩展，并在LLM和VLM上展示了在精确长度匹配和效率-性能权衡方面的有效性。

CL-bench Life: Can Language Models Learn from Real-Life Context?

Shihan Dou et al.

cs.CL

本文提出了一个名为CL-bench Life的人工标注benchmark，包含405个真实生活场景下的context-task对，用于评估语言模型从杂乱、碎片化的真实生活上下文中学习并解决任务的能力。实验发现，即使是最先进的模型，其任务解决率也仅为19.3%，表明当前模型在真实生活context学习方面仍面临巨大挑战。

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

Mingqian Zheng et al.

cs.CL cs.AI

本文提出了CarryOnBench基准，用于评估LLM在多轮对话中能否在用户澄清意图后恢复有用性，同时保持安全性。研究发现模型在初始轮次中因意图误解而拒绝提供信息，但通过良性澄清可逐步恢复，并识别出utility lock-in、unsafe recovery和repetitive recovery三种单轮评估无法发现的失败模式。

Exploring the Limits of Pruning: Task-Specific Neurons, Model Collapse, and Recovery in Task-Specific Large Language Models

M. K. Khalidi Siam et al.

cs.CL

本文通过激活值选择性度量方法，在数学推理和代码生成任务的语言模型上进行剪枝实验，发现存在任务特定神经元且约10%的关键神经元被移除会导致性能崩溃，而选择性剪枝优于随机剪枝，并在15-20%剪枝率内保持鲁棒性。

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Camelia Baluta

cs.CL

本文提出了一个基于ILR技能等级描述的系统评估框架，用于分析Claude在六种语言中的响应一致性。通过定量和定性分析，发现了跨语言响应在长度、策略和文化校准上的系统性差异。

Semantic Structure of Feature Space in Large Language Models

Austin C. Kozlowski, Andrei Boutyline

cs.CL cs.LG

本文研究了大型语言模型隐藏状态中语义特征的几何结构，发现特征向量间的cosine相似度与人类心理关联高度一致，并揭示了语义轴的低维子空间结构。这些发现表明语义特征需通过其几何关系来理解。

Path-Lock Expert: Separating Reasoning Mode in Hybrid Thinking via Architecture-Level Separation

Shouren Wang et al.

cs.CL cs.AI cs.LG

本文提出Path-Lock Expert (PLE)架构，通过在每个decoder层中用两个语义锁定的expert替换单个MLP，分别处理think和no-think模式，并利用确定性控制token路由器选择路径，以减少混合思维语言模型中的推理泄露问题。实验表明该方法在保持think模式性能的同时显著提升了no-think模式的准确性和简洁性。

Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping

Tobias Bystrich et al.

cs.CL cs.LG

本文提出了一种名为Selective Augmentation的bootstrap方法，通过从辅助语言（如Hindi）中提取信息来增强训练数据，从而改进通用自动音标转录（APT）模型。实验表明，该方法在MultIPA模型上提升了浊音准确率并引入了送气特征识别，但整体方法更偏向数据增强而非与关键词直接相关。

Targeted Linguistic Analysis of Sign Language Models with Minimal Translation Pairs

Serpil Karabüklü et al.

cs.CL

本文提出了一个用于美国手语(ASL)的基准数据集ASL Minimal Translation Pairs (ASL-MTP)，通过最小翻译对分析现有ASL-to-English翻译模型对手语语言现象的捕捉能力。实验表明模型主要依赖手部动作线索，而常忽略重要的非手部线索。

Instruction Complexity Induces Positional Collapse in Adversarial LLM Evaluation

Jon-Paul Cacioli

cs.CL cs.AI

本文研究了对抗性指令下语言模型的行为，发现指令复杂性会导致模型从内容参与转向位置捷径，其中多步指令引发了极端的“位置坍缩”现象。该工作主要关注LLM评估中的行为模式，与您提供的关键词（如code, spectral, Muon等）关联度较低。

Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models

Xingwei Tan et al.

cs.CL cs.AI

本文通过引入推理冲突（reasoning conflicts）的概念，系统研究了大型语言模型在遵循逻辑模式指令时的可控性问题。实验发现模型倾向于优先使用与任务匹配的推理模式（sensibility）而非严格遵循指令（compliance），且这种冲突可通过置信度下降在内部检测到。

Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

Théo Gigant, Bowen Peng, Jeffrey Quesnelle

cs.CL

本文通过字节级模拟实验，分离了subword tokenization对语言模型训练的影响，发现其优势主要来自更高的训练吞吐量和subword边界作为先验知识的作用，而非词汇表大小本身。

When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks

Chung-Hsiang Lo et al.

cs.CL cs.AI cs.LG

本文研究了LLM在处理具有显式2D结构的任务（如矩阵转置、Conway's Game of Life和LU分解）时，将输入序列化为1D token序列所带来的“序列化摩擦”问题。通过比较纯文本路径与基于相同语言骨干的视觉增强路径，发现视觉路径在性能上始终优于文本路径，且差距随维度增大而扩大。

Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agents

Mehmet Iscan

cs.CL cs.AI cs.LG

本文提出RSCB-MC，一个基于risk-sensitive contextual bandit的memory controller，用于决定LLM coding agent是否应使用外部记忆。该方法将记忆检索重构为风险敏感的控制问题，通过16维contextual state和惩罚false-positive的reward设计，在实验中实现了0.0%的false-positive率。

LLMs Capture Emotion Labels, Not Emotion Uncertainty: Distributional Analysis and Calibration of Human--LLM Judgment Gaps

Keito Inoshita et al.

cs.CL

本文研究了LLM在情感标注中是否捕捉了人类标注者的分布性分歧，而非仅多数标签。通过对比人类与四种零样本LLM及微调RoBERTa在GoEmotions和EmoBank上的表现，发现零样本模型与人类分布存在显著差异，且领域内微调比模型规模更重要。

Emotion-Aware Clickbait Attack in Social Media

Syed Mhamudul Hasan, Mohd. Farhan Israk Soumik, Abdur R. Shahid

cs.CL cs.SI

本文提出了一种基于Valence-Arousal-Dominance (VAD)空间的情感感知点击诱饵生成攻击方法，利用Large Language Models (LLMs)进行风格改写，并通过Curiosity Gap (CG)函数量化情感激活对用户好奇心的贡献。实验表明该方法能显著降低现有分类器的性能，但主要关注自然语言处理中的对抗攻击，与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

Proactive Dialogue Model with Intent Prediction

Yang Luo

cs.CL cs.LG

本文提出了一种轻量级的意图转换先验方法，通过Temporal Bayesian Network (T-BN)从对话数据中学习意图转移模式，并将其注入到系统提示中，使对话模型能够预测用户未来的意图，从而减少多意图场景下的冗余交互。实验表明该方法在不修改底层语言模型的情况下提升了对话效率。

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

Junbo Cui et al.

cs.CL

本文介绍了MiniCPM-o 4.5，一个用于实时全双工全模态交互的多模态大语言模型，通过Omni-Flow框架将输入输出沿共享时间轴对齐，实现了同时感知与响应。该模型在视觉-语言能力上接近Gemini 2.5 Flash，并在全模态理解上超越Qwen3-Omni-30B-A3B，但未涉及关键词中的code、spectral、Muon或agent等核心概念。

Why Mean Pooling Works: Quantifying Second-Order Collapse in Text Embeddings

Tomomasa Hara et al.

cs.CL

本文研究了文本嵌入中mean pooling（平均池化）方法的信息坍缩问题，提出了一种量化二阶统计量坍缩的metric，并发现现代text encoder（文本编码器）对此具有鲁棒性，其鲁棒性源于token embeddings在文本内的集中性。

Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs

Hongliang Liu, Tung-Ling Li, Yuhao Wu

cs.CL cs.LG

本文提出了一种名为Perturbation Probing的诊断方法，通过每个prompt仅需两次前向传播且无需反向传播，来为大型语言模型中的FFN神经元生成任务特定的因果假设。该方法识别了两种电路结构：Opposition circuits（出现在RLHF抑制预训练倾向时）和Routing circuits（出现在通过attention分布的预训练行为中），并展示了其在安全拒绝、语言选择等任务上的编辑效果。

Beyond the Mean: Within-Model Reliable Change Detection for LLM Evaluation

Jon-Paul Cacioli

cs.CL cs.AI

本文借鉴临床心理学中的Reliable Change Index (RCI)方法，对LLM版本间的item-level变化进行检测，发现聚合准确率的提升是双向item-level变化的净残差，并建议在报告聚合准确率的同时报告churn rate。

Sentiment Analysis of AI Adoption in Indonesian Higher Education Using Machine Learning and Transformer-Based Models

Happy Syahrul Ramadhan et al.

cs.CL

本文使用TF-IDF和Transformer模型（DistilBERT）分析印尼学生对AI在高等教育中采纳的观点，比较了LightGBM、Random Forest、SVM与DistilBERT的性能，发现DistilBERT在准确率和F1-score上略优于SVM。该工作属于应用型研究，方法上缺乏开创性，且与关键词列表中的概念无直接关联。

From Coarse to Fine: Benchmarking and Reward Modeling for Writing-Centric Generation Tasks

Qingyu Ren et al.

cs.CL

本文提出了一个面向生成式写作任务的细粒度评估流程WEval和强化学习训练框架WRL，通过选择性丢弃指令需求来构建正负样本，以提升reward model对写作要求的精确建模能力。实验表明该方法在多个写作基准上取得了显著改进。

Exploring Applications of Transfer-State Large Language Models: Cognitive Profiling and Socratic AI Tutoring

Minori Noguchi

cs.CL

本文探讨了大型语言模型在持续自我对话条件下出现的"transfer"现象，并研究了其在苏格拉底式AI辅导中的应用潜力。研究发现transfer状态在行为交互中可能具有功能优势，但该方法在理论深度和应用创新性上较为有限。

Syntactically-guided Information Maintenance in Sentence Comprehension

Shinnosuke Isono, Kohei Kajikawa

cs.CL

本文研究了句子理解中基于句法结构的信息维护机制，通过日语自然阅读数据集分析了预测头数量和不完整依赖关系这两个因素对维护成本的影响，发现两者不可相互简化且存在权衡关系。

HealthBench Professional: Evaluating Large Language Models on Real Clinician Chats

Rebecca Soskin Hicks et al.

cs.CL

本文提出了HealthBench Professional基准，用于评估大语言模型在真实临床医生与ChatGPT对话中的表现，涵盖护理咨询、写作记录和医学研究三类任务。该基准通过医生编写的评分标准进行严格评估，并发现GPT-5.4在临床场景中优于人类医生和其他模型。

Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

Yu Tian et al.

cs.CL

本文提出了Skills-Coach框架，通过四个模块（任务生成、轻量级优化、对比执行、可追溯评估）自动优化LLM agent的技能，并引入Skill-X基准数据集验证效果。该方法主要关注agent技能的自进化，与关键词中的agent概念有一定关联。

Debiasing Reward Models via Causally Motivated Inference-Time Intervention

Kazutoshi Shinoda, Kosuke Nishida, Kyosuke Nishida

cs.CL cs.AI

本文提出了一种基于因果动机的推理时干预方法，通过识别与预定义bias属性（如response length）强相关的神经元并抑制其激活，来减少reward model (RM) 中的spurious features影响。该方法在多个bias类型上降低了敏感性，且无需性能权衡，但未涉及code、spectral、Muon等关键词。

Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition

Thibault Bañeras-Roux et al.

cs.CL

本文研究了在自动语音识别（ASR）系统中使用语言模型进行重打分（rescoring）的影响，并引入了两个新指标：POSER（词性错误率）和EmbER（嵌入错误率），以从形态句法和语义角度评估转录质量。这些指标补充了传统的词错误率（WER），用于分析语言模型在重打分步骤中的语言贡献。

Entropy of Ukrainian

Anton Lavreniuk, Mykyta Mudryi, Markiian Chaklosh

cs.CL

本文通过招募184名志愿者进行字符预测实验，估算了乌克兰语熵的上界约为每字符1.201比特，并与当前大语言模型的性能进行了比较。

HATS: An Open data set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics

Thibault Bañeras Roux et al.

cs.CL

本文提出了一个名为HATS的法语人工标注数据集，用于评估不同ASR系统转录结果的人类感知偏好，并分析了多种ASR评估指标（如WER、BERTscore等）与人类判断的相关性。

AppTek Call-Center Dialogues: A Multi-Accent Long-Form Benchmark for English ASR

Eugen Beck et al.

cs.CL

本文介绍了AppTek Call-Center Dialogues语料库，一个包含14种英语口音和16种服务场景的自发对话数据集，用于评估英语ASR系统在不同口音和分割方法下的表现。实验表明，通用美式英语基准上的良好性能不一定能推广到其他口音。

APPSI-139: A Parallel Corpus of English Application Privacy Policy Summarization and Interpretation

Pengyun Zhu et al.

cs.CL cs.AI

本文构建了APPSI-139英文隐私政策语料库，并提出了TCSI-pp-V2混合框架用于政策摘要与解释，实验表明其在可读性和可靠性上优于GPT-4o等大模型。该工作聚焦于自然语言处理应用，与关键词中的数学或算法概念无关。

JaiTTS: A Thai Voice Cloning Model

Jullajak Karnjanaekarin et al.

cs.CL

JaiTTS-v1.0是一个基于VoxCPM架构的泰语语音克隆模型，通过在大规模泰语语音语料库上持续训练实现。该模型无需显式文本归一化即可直接处理数字和泰英混合编码，在短时语音生成任务上达到了1.94%的CER，优于人类真实录音的1.98%。

RoadMapper: A Multi-Agent System for Roadmap Generation of Solving Complex Research Problems

Jiacheng Liu et al.

cs.CL cs.MA

本文提出了RoadMapper，一个基于LLM的多智能体系统，用于为复杂研究问题生成结构化路线图。该系统通过初始生成、知识增强和迭代“批评-修订-评估”三个阶段来改进LLM在路线图生成中的表现，实验表明其性能提升且节省时间。

Mapping how LLMs debate societal issues when shadowing human personality traits, sociodemographics and social media behavior

Ali Aghazadeh Ardebili, Massimo Stella

cs.CL cs.AI cs.CY cs.HC cs.LG

本文构建了一个名为Cognitive Digital Shadows (CDS)的大型合成语料库，通过让19个LLM模拟不同人类角色或AI助手，生成关于疫苗、社交媒体虚假信息等争议性话题的回应。该语料库可用于分析LLM在受控社会与情境提示下的语言、立场和情感差异，并支持通过可解释NLP方法进行群体层面的比较。

Language Ideologies in a Multilingual Society: An LLM-based Analysis of Luxembourgish News Comments

Emilia Milano et al.

cs.CL

本文探讨了使用大语言模型(LLM)检测卢森堡语新闻评论中的语言意识形态，通过人工标注和不同prompt条件下的模型评估，发现LLM在多分类意识形态标注任务上尚未完全优化，但可作为识别语言意识形态内容的实用工具。

One Single Hub Text Breaks CLIP: Identifying Vulnerabilities in Cross-Modal Encoders via Hubness

Hiroyuki Deguchi, Katsuki Chousa, Yusuke Sakai

cs.CL cs.AI cs.CR cs.IR

本文提出了一种识别cross-modal encoder中hub embedding及其对应hub text的方法，揭示了单个hub text能在多个图像上获得不合理高相似度分数的漏洞。实验在image captioning evaluation和image-to-text retrieval任务上验证了该方法的效果。

Instruction-Guided Poetry Generation in Arabic and Its Dialects

Abdelrahman Sadallah et al.

cs.CL cs.AI

本文构建了一个大规模指令数据集，用于在标准阿拉伯语及其方言中实现可控诗歌生成，通过微调LLM使模型能根据用户指定的风格和韵律等条件创作诗歌。

Multi-Level Narrative Evaluation Outperforms Lexical Features for Mental Health

Yuxi Ma et al.

cs.CL

本文提出了一个三层次叙事评估框架（微观词汇特征、中观语义嵌入、宏观LLM叙事评估），并在中文治疗文本中证明宏观评估在心理健康预测上显著优于词汇和嵌入特征，但该方法与关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems

Oier Ijurco, Oier Lopez de Lacalle

cs.CL

本文提出了一种在任务型对话系统中，通过让大语言模型在测试时对物体元数据和对话历史进行逐步推理来改进指代消解的方法。实验表明，该方法在SIMMC 2.1数据集上优于基于编码器的监督方法，并展现出更好的跨域泛化能力。

Geometry-Calibrated Conformal Abstention for Language Models

Rui Xu et al.

cs.CL cs.LG

本文提出了一种基于conformal prediction的后处理框架Conformal Abstention (CA)，用于语言模型在缺乏相关知识时选择是否放弃回答。该方法通过模型内部的representation geometry来校准预测置信度，以提升选择性回答的准确性。

Beyond Semantics: Measuring Fine-Grained Emotion Preservation in Small Language Model-Based Machine Translation

Dawid Wisniewski, Igor Czudy

cs.CL cs.AI

本文评估了三种小型语言模型（EuroLLM, Aya Expanse, Gemma）在回译任务中保留细粒度情感的能力，使用GoEmotions数据集和五种欧洲语言进行实验。研究发现这些模型在情感保真度方面存在局限，并探讨了情感感知提示和ModernBERT分类器在改进评估中的作用。

Can AI Be a Good Peer Reviewer? A Survey of Peer Review Process, Evaluation, and the Future

Sihong Wu et al.

cs.CL cs.AI

本文综述了大型语言模型（LLM）在同行评审流程（包括评审生成、反驳、元评审和修订）中的应用技术、评估方法和数据集，并讨论了相关局限与伦理问题。该工作属于综述性质，未提出开创性方法或解决长期问题，与关键词列表中的概念关联较弱。

DPN-LE: Dual Personality Neuron Localization and Editing for Large Language Models

Lifan Zheng et al.

cs.CL

本文提出DPN-LE方法，通过对比高/低特质样本的MLP激活值来定位与人格特质相关的神经元，并基于Cohen's $d$效应量和激活幅度进行双重筛选，实现对LLM人格的稀疏线性干预。该方法在仅修改约0.5%神经元的情况下，在人格控制与能力保持间取得较好平衡。

Reliable Answers for Recurring Questions: Boosting Text-to-SQL Accuracy with Template Constrained Decoding

Smit Jivani, Sarvam Maheshwari, Sunita Sarawagi

cs.CL cs.AI cs.DB cs.IR

本文提出TeCoD系统，通过将历史自然语言-SQL对转化为可复用模板，并利用微调的自然语言推理模型进行模板匹配，结合分区策略的语法约束解码来生成SQL，从而提升查询准确率和效率。该方法主要针对文本到SQL生成任务，与关键词中的“code”和“context”有一定关联，但创新性有限。

Models Recall What They Violate: Constraint Adherence in Multi-Turn LLM Ideation

Garvin Kruthof

cs.CL

本文提出了DriftBench基准，用于评估多轮LLM辅助科学构思中的约束遵循情况。研究发现，迭代压力会增加结构复杂性并降低对原始约束的遵循，且模型存在“知道但违反”的现象，即能准确复述约束却同时违反它们。

Ease of dependency distance minimization in star-like structures

Emília Garcia-Casademont, Ramon Ferrer-i-Cancho

cs.CL physics.soc-ph

本文研究了句法树中星型结构（star-like structures）的dependency distance最小化问题，证明了该优化问题的landscape是convex的，比之前认为的quasiconvex更简单。文章还讨论了为何在星型结构中存在反dependency distance最小化效应，认为这源于竞争性原则而非优化难度。

Stable Behavior, Limited Variation: Persona Validity in LLM Agents for Urban Sentiment Perception

Neemias B da Silva et al.

cs.CL cs.SI

本文研究了persona prompting（角色提示）对多模态LLM在城市情感感知任务中行为的影响，发现同一角色下的agent行为稳定但不同角色间的差异有限，且无角色模型有时表现更好。该工作主要关注LLM作为人类感知代理的可靠性，与关键词中的agent概念相关但方法创新性一般。

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Ansar Aynetdinov, Patrick Haller, Alan Akbik

cs.CL cs.AI

本文研究了德语语言模型训练中数据过滤策略的权衡，发现重复使用高质量过滤数据比单次训练大量低质量数据更有效。实验表明，即使经过7个epoch，高质量数据的重复训练仍能保持性能优势。

TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering

An-Yang Ji et al.

cs.CL cs.AI cs.LG

TopBench是一个用于评估LLMs在表格问答中进行隐式预测和推理能力的基准测试，包含四个子任务。实验发现当前模型在意图识别上存在困难，常默认进行简单查找，而准确的意图消歧是进行预测行为的前提。

On the Proper Treatment of Units in Surprisal Theory

Samuel Kiegeland et al.

cs.CL

本文讨论了Surprisal理论中语言单位定义不明确的问题，提出应将tokenization视为实现细节而非科学基础，并给出了一个统一框架来处理任意单位集合上的surprisal计算。

cs.DS

Solving Hypergraph Laplacian Systems in Almost-Linear Time ⭐ 精选

Yuichi Yoshida

cs.DS

本文提出了一种随机化的几乎线性时间算法，用于求解基于割的hypergraph Laplacian的Poisson问题，其输入规模为$P=\sum_{e\in E}|e|$（所有超边大小的总和）。关键步骤是将Fenchel对偶重写为辅助图上的convex-flow问题，从而得到近最优的对偶流；主要创新在于一个recovery theorem，该定理表明每个超边只需一个非负标量即可恢复原始势能，而无需对偶流在超边内部的详细路由。通过有限精度舍入，这些标量定义了辅助图上的线性成本最小费用流问题，精确求解即可恢复原始势能。该工作为hypergraph Laplacian系统提供了高效的求解器，与关键词“spectral”较为契合，因为hypergraph Laplacian是谱图理论的核心对象。

Fast and Faithful Edge Bundling using Spectral Sparsification

Xingjue Jiang et al.

cs.DS

本文提出基于spectral sparsification的边捆绑方法SEB和加速框架FEB，通过effective resistance定义边兼容性以减少扭曲和歧义，并利用谱稀疏化将图压缩至$O(n\log n)$条边以提升效率。实验表明SEB在质量指标上优于现有方法，FEB在保持相似质量的同时实现了61%的运行时改进。

Online Monotone Metric Embeddings

Christian Coester, Yichen Huang

cs.DS

本文提出了一种在线单调度量嵌入的松弛方法，允许目标空间中嵌入点之间的距离随时间单调递减，从而打破了传统嵌入的失真下界，实现了到HST的$O(\log^2 n)$失真。该工作主要关注在线算法中的嵌入问题，与关键词中的code、context、spectral等概念关联较弱。

Improved Approximation Algorithm for Maximum Balanced Biclique

Pasin Manurangsi

cs.DS

本文研究了最大平衡双团问题，提出了一个多项式时间的$\left(\frac{n}{\widetilde{\Omega}\left((\log n)^3\right)}\right)$-近似算法，改进了此前的结果。该工作主要贡献于近似算法理论，与关键词列表中的概念无直接关联。

New Diameter Approximations via Distance Oracle Techniques

Yael Kirkpatrick et al.

cs.DS

本文探讨了图直径近似与距离预言机技术之间的联系，通过将CGR算法与Thorup和Zwick的距离预言机结合，实现了首个确定性的直径近似权衡方案，并进一步将距离预言机中的其他技术去随机化，应用于最短路径近似领域。

Designing sparse temporal graphs satisfying connectivity requirements

Thomas Bellitto et al.

cs.DS cs.DM math.CO

本文研究了满足部分连通性需求的时序图的最小边数问题，通过引入请求图概念，证明了有向情况下所需时序弧数为$n-\mathrm{cc}+\mathrm{dfvs}$，并指出该问题NP完全但具有固定参数可解性；无向情况下则给出了强连通请求图存在$n-1$边解的特征刻画。该工作主要关注图论中的连通性需求，与关键词中的code、context、spectral等方向关联较弱。

A note on the parameter $\ell$ in Buchbinder--Feldman's deterministic submodular matroid algorithm

Shisheng Li

cs.DS

本文对Buchbinder-Feldman的确定性submodular matroid算法中参数$\ell$的选取进行了初等改进，通过Pólya-Szegő不等式和级数尾界得到了更紧的界，从而优化了算法查询复杂度的隐含常数，但未改变其渐近类$\widetilde{O}_\varepsilon(nr)$。

Computing the (k+2)-Edge-Connected Components in k-Edge-Connected Digraphs in Subquadratic Time

Loukas Georgiadis et al.

cs.DS

本文提出了一种随机算法，用于在$O(k^2 m \sqrt{n} \log n)$时间内计算$k$-edge-connected digraph中的$(k+2)$-edge-connected components，首次对任意常数$k>3$打破了Nagamochi-Watanabe的$O(mn)$界限。该工作主要贡献在于对directed edge-cut的结构性洞察以及对现有框架的简化和推广。

Smallest suffixient set maintenance in near-real-time

Dominik Köppl, Gregory Kucherov

cs.DS

本文研究了在近实时（near-real-time）条件下在线维护字符串的最小suffixient set（一种衡量字符串重复性的新指标）的问题，并考虑了文本按从右到左或从左到右方向逐字母给出的两种框架。其核心算法工具是Weiner的suffix tree算法及其高效实现的相关原语。

An Exact 56-Addition, Rank-23 Scheme for General 3*3 Matrix Multiplication

Yinqi Sun

cs.DS cs.CC

本文提出了一种用于一般$3\times3$矩阵乘法的rank-$23$算法，仅需$56$次加法/减法，改进了此前需要更多加法的同类方案。该算法适用于任意结合环，其张量系数均为$\{-1,0,1\}$，并通过Brent方程验证了正确性。

Online Coloring for Graphs of Large Odd Girth

Hirotaka Yoneda, Masataka Yoneda

cs.DS

本文研究了具有大奇围长的图的在线着色问题，改进了Kierstead在1998年提出的$O(n^{1/2})$色算法，证明了对于任意$\varepsilon > 0$，存在一个奇围长下界$g'$，使得奇围长至少为$g'$的图可以在线确定性地用$O(n^{\varepsilon})$种颜色着色。

Average-Tree Phylogenetic Diversity Parameterized by Scanwidth and Invisibility

Leo van Iersel et al.

cs.DS

本文研究了在有根系统发育网络中计算平均树系统发育多样性（APD）的参数化算法，主要关注scanwidth（一种衡量有向无环图树状程度的参数）和不可见性（invisibility）。结果表明，当scanwidth不超过2时可在多项式时间内求解，但scanwidth为3时问题变为NP-hard，并给出了时间复杂度为$O(2^{sw}n)$的算法。

Temporal Routing in Static Networks: The Schedule Completion Problem

Michelle Döring, Niklas Mohrin, George Skretas

cs.DS

本文提出了TemporallyEdgeDisjointScheduleCompletion (TEDSC)问题，研究在静态有向图中通过时间边不相交的temporal walks覆盖一组时间边需求。作者给出了该问题的多项式时间算法，并分析了两种有界变体的参数化复杂性与近似比。

Simpler and Improved Replacement Path Coverings

Davide Bilò et al.

cs.DS

本文研究了容错图数据结构中的$(L,f)$-replacement path coverings (RPCs)，提出了一种基于条件期望的简单去随机化方法，降低了覆盖值和查询时间，并给出了新的随机化构造和已知下界的改进。

Distributed Santa Claus via Global Rounding

Tijn de Vos et al.

cs.DS cs.DC

本文在CONGEST模型中研究了Santa Claus问题，通过全局舍入方法获得了首个分布式结果，证明了计算$\mathcal{O}(\log n/\log \log n)$-近似解需要$\hat \Theta(\sqrt n+D)$轮。该工作为分布式环境下的NP-hard分配问题提供了复杂度下界。

Succinct Graph Representations and Algorithmic Applications

Ahammed Ullah, Alex Pothen

cs.DS

本文提出了一种新的图表示方法——dual clique cover (DCC)表示，通过利用图的稠密局部结构来同时提升时间和空间效率，并设计了基于该表示的算法，在连通分量、广度优先搜索等图原语上取得了显著加速。

others

Faster 3D Gaussian Splatting Convergence via Structure-Aware Densification ⭐ 精选

Linjie Lyu et al.

cs.CV cs.GR cs.LG

本文提出了一种结构感知的稠密化框架，用于加速3D Gaussian Splatting的收敛。核心创新在于通过结合structure tensor和Laplacian scale space的多尺度频率分析，定义了每个Gaussian在每个轴上的频率违反度量$\eta$，并据此执行各向异性分裂（anisotropic splitting）以更好地匹配局部纹理细节。该方法通过早期快速稠密化，避免了基线方法中冗长的迭代过程，在标准基准测试中实现了更优的重建质量，尤其在高频区域。这与关键词中的“spectral”和“context”高度契合，因为方法核心依赖于频谱分析和局部结构上下文。

Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes ⭐ 精选

Tianyuan Wu et al.

cs.OS cs.AI

本文提出Crab，一个语义感知的检查点/恢复运行时，用于解决agent沙箱中agent-OS语义鸿沟问题。通过eBPF-based inspector分类每个turn的OS可见效应以决定检查点粒度，coordinator将检查点与turn边界对齐并重叠C/R与LLM等待时间，以及host-scoped engine调度跨共置沙箱的检查点流量，Crab在shell密集型与代码修复任务中将恢复正确性从8%（仅聊天）提升至100%，检查点流量降低高达87%，且执行时间开销仅1.9%。该方法为agent系统提供了高效且正确的状态恢复机制，与关键词“agent”高度契合。

Culture-inspired Multi-modal Color Palette Generation and Colorization: A Chinese Youth Subculture Case

Yufan Li et al.

cs.CV cs.AI

本文构建了一个受中国青年亚文化启发的多模态颜色调色板数据集，并开发了一个交互式生成框架来创建具有该文化风格的颜色调色板，同时利用自动着色模型对图像进行风格化处理。该工作主要关注文化因素在颜色生成中的应用，但与我提供的关键词列表关联度较低。

Benchmarking Deep Learning Models for Object Detection on Edge Computing Devices

Daghash K. Alqahtani, Aamir Cheema, Adel N. Toosi

cs.CV cs.AR cs.DC cs.LG cs.SE

本文在Raspberry Pi和Jetson Orin Nano等边缘设备上，对YOLOv8、EfficientDet Lite和SSD等目标检测模型进行了基准测试，比较了它们的能耗、推理时间和mAP。结果表明，低mAP模型（如SSD MobileNet V1）更节能且推理更快，而高mAP模型（如YOLOv8 Medium）通常能耗更高，但TPU加速器可改善这一情况。

Agentic Compilation: Mitigating the LLM Rerun Crisis for Minimized-Inference-Cost Web Automation

Jagadeesh Chundru

cs.DC cs.AI cs.PL

本文提出了一种Compile-and-Execute架构，通过将LLM推理与浏览器执行解耦，将工作流的推理成本从$O(M \times N)$降至摊销的$O(1)$，从而缓解了LLM驱动的web agent在重复任务中的“rerun crisis”。该方法使用DOM Sanitization Module生成token高效的语义表示，并由LLM一次性输出确定性JSON蓝图，再由轻量级运行时执行。

The Impact of LLM Self-Consistency and Reasoning Effort on Automated Scoring Accuracy and Cost

Scott Frohn

cs.CY cs.AI

本文研究了LLM自一致性和推理努力对自动评分准确性和成本的影响，发现温度采样比确定性调用更有效，但增加集成规模无显著收益。较高推理努力与评分准确性呈正相关，但不同模型家族效果不同。

Policy-Governed LLM Routing with Intent Matching for Instrument Laboratories

Emmanuel A. Olowe, Danial Chitnis

cs.CY cs.AI

本文提出一个由Routiium和EduRouter组成的LLM路由与治理系统，用于工程实验室的AI辅导，通过策略控制、预算管理和嵌入匹配来平衡辅助与学习机会。模拟和回放实验表明，该系统能提高挑战对齐指标并降低token成本。

Can AI be a moral victim? The role of moral patiency and ownership perceptions in ethical judgments of using AI-generated content

Hyesun Choung, Soojong Kim

cs.CY cs.AI cs.HC

本文通过实验研究了人们对使用AI生成内容时的道德判断，发现抄袭AI作品被认为比抄袭人类作品更不道德，这源于对AI受害能力（moral patiency）的较低感知和对人类作者所有权的更高认知。

Simulating Validity: Modal Decoupling in MLLM Generated Feedback on Science Drawings

Arne Bewersdorff, Nejla Yuruk, Xiaoming Zhai

cs.CY cs.AI

本文研究了多模态大语言模型(MLLM)在科学绘图反馈中的模态解耦问题，发现约41.3%的反馈存在对象、属性或关系不匹配等grounding错误，且简单的提示策略无法有效解决这一根本性限制。

Designing Ethical Learning for Agentic AI: Toegye Yi Hwang's Ethical Emotion Regulation Framework

Ji Yeon Kim

cs.CY cs.AI

本文提出了一种基于Toegye Yi Hwang道德情感哲学的伦理情感反馈系统(EEFS)，用于规范agentic AI学习环境中的道德情感过程。该系统构建了一个五阶段架构，并设计了评估工具来评估agentic AI系统的道德情感对齐程度。

CareGuardAI: Context-Aware Multi-Agent Guardrails for Clinical Safety & Hallucination Mitigation in Patient-Facing LLMs

Elham Nasarian et al.

cs.CY cs.AI cs.MA

本文提出了CareGuardAI框架，用于患者面向的医疗问答系统，通过引入临床安全风险评估和幻觉风险评估，在推理时采用多阶段流程来确保输出的临床安全性和事实可靠性。该框架在多个基准测试上优于GPT-4o-mini等基线模型，但方法本身并非开创性，且与关键词关联度较低。

LLM Biases

Jinhui Han, Ming Hu, Xilin Zhang

cs.CY cs.AI

本文通过理论分析识别了基于Transformer的生成式推荐系统中四种偏差渠道：位置偏差、流行度放大、潜在驱动偏差和合成数据偏差，指出这些机制层面的可靠性风险可能无法通过离线性能指标发现。

Static Program Slicing Using Language Models With Dataflow-Aware Pretraining and Constrained Decoding

Pengfei He et al.

cs.SE cs.AI cs.PL

本文提出Sliceformer方法，将静态程序切片（static program slicing）转化为基于语言模型的序列到序列任务，通过数据流感知预训练和约束解码来改进依赖建模并消除幻觉。实验在Java和Python基准上取得优于基线的结果。

DeepTutor: Towards Agentic Personalized Tutoring

Bingxi Zhao et al.

cs.CY cs.AI cs.CL

本文提出了DeepTutor，一个面向个性化辅导的agent-native开源框架，通过混合个性化引擎（结合静态知识基础与动态多分辨率记忆）和闭环辅导循环（耦合引用问题解决与难度校准问题生成）来提升辅导质量。该工作主要关注教育领域的agent应用，与关键词中的agent概念相关，但方法上缺乏开创性且未解决长期存在的核心问题。

MARS: Efficient, Adaptive Co-Scheduling for Heterogeneous Agentic Systems

Yifei Wang et al.

cs.OS cs.DC cs.LG cs.MA

本文针对大语言模型驱动的agent系统（agentic systems）中GPU推理与CPU工具执行耦合的资源调度问题，提出了MARS系统。该系统通过统一信息流实现全局可见性，并采用外部控制平面与内部agent中心调度器来避免资源过载并优化端到端延迟。

Learning-to-Explain through 20Q Gaming: An Explainable Recommender for Cybersecurity Education

Mary Nusrat, Sarfuddin Bhuiyan, Gahangir Hossain

cs.CY cs.AI cs.LG

本文提出一个基于explainable AI (XAI)和policy-based reinforcement learning (RL)的教育游戏框架EQ-20CR，用于网络安全教育。该框架通过20个问题的游戏形式，让RL agent主动查询环境，以推荐最优安全措施并生成简洁的解释对话。

The Impact of AI-Generated Text on the Internet

Jonas Dolezal et al.

cs.CY cs.AI cs.SI

本文利用Internet Archive构建了2022至2025年间互联网网站的representative sample，并应用state-of-the-art AI text detector进行检测，发现到2025年中约35%的新发布网站为AI生成或辅助。研究验证了AI文本增加与semantic diversity下降及positive sentiment上升的相关性，但未发现其对factual accuracy或stylistic diversity有显著负面影响，这与公众认知存在偏差。

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference

Sanjeev Rao Ganjihal

cs.AR cs.AI cs.DC cs.PF

本文提出了一种针对大规模GPU推理中KV cache的分层内存管理系统，通过架构感知的容量计算、六层内存层次结构和贝叶斯重用预测器，旨在解决内存过度配置、单层限制和被动驱逐等问题。该系统在模拟中显示出TTFT降低、吞吐量提升和成本降低的潜力，但主要关注工程优化而非理论创新。

How Hard Is Continuous Clustering? Lower Bounds from the Existential Theory of the Reals

Angshul Majumdar

cs.CC cs.LG

本文研究了连续聚类问题的计算难度，证明了分离点检测和谷值检测问题与实数存在理论（一个包含NP的复杂度类）等价，而拓扑问题（如连通分量计数和空洞检测）至少与实数存在理论一样难，但确切复杂度尚未确定。这些结果首次将精确连续聚类置于实数多项式层次中，表明即使基本聚类准则也不一定是NP完全的。

MAEO: Multiobjective Animorphic Ensemble Optimization for Scalable Large-scale Engineering Applications

Omer F. Erdem et al.

cs.NE cs.LG stat.CO

本文提出了MAEO框架，一种基于岛屿架构的多目标进化算法集成策略，通过无参数hypervolume指标和Pareto排序评分来平衡收敛性与多样性。在12个基准函数和核反应堆优化问题上的实验表明，该方法在性能上可与主流多目标优化算法媲美。

Fitting Horn DL Ontologies to ABox and Query Examples: A Tale of Simulation Quantifiers and Finite Models

Marvin Grosser, Carsten Lutz

cs.LO cs.AI

本文研究了在Horn DLs (EL和ELI)中，基于ABox和查询示例拟合ontology的问题，提供了基于simulation的存在性刻画和决策过程，并明确了计算复杂度。

Defeasible Conditional Obligation in a Two-tiered Preference-based Semantics (Extended Version)

Xavier Parent

cs.LO cs.AI

本文针对Horty提出的问题，开发了一个双层偏好语义框架来建模可废止的条件义务。该框架结合了Hansson-Lewis风格的偏好语义与非单调推理机制，并引入了理想性和正常性两种排序来处理冲突信息。

Multibit neural inference in a N-ary crossbar architecture

Anatole Moureaux, Anthony Lopes Temporao, Flavio Abreu Araujo

cs.AR cs.AI cs.ET

本文提出了一个用于N-ary crossbar架构的仿真框架，通过模拟4x4的4态magnetic tunnel junctions (MTJ)阵列实现了XOR和MNIST分类任务，并分析了weight quantization和随机噪声对MVM误差的影响。

State-Dependent Lyapunov Method for Rank-1 Matrix Factorization

Jaehong Moon

math.NA cs.LG math.OC

本文通过基于证书的视角研究了rank-1 matrix factorization的gradient descent，提出了一个state-dependent Lyapunov framework，该框架通过结构公理唯一确定标量证书，并约束了rank-1扩展的信号与噪声块。数值实验表明该方法可能具有更广泛的适用性。

Agent Name Service (ANS): A Proof-of-Concept Trust Layer for Secure AI Agent Discovery, Identity, and Governance in Kubernetes

Akshay Mittal, Elyson De La Cruz

cs.CR cs.AI cs.MA

本文提出了Agent Name Service (ANS)概念验证，在Kubernetes环境中为AI agent提供类似DNS的信任层，使用DID、VC和OPA实现agent发现、身份验证与策略治理。实验在3节点集群中展示了sub-10ms响应，但明确限定为概念验证而非生产级方案。

Entropy-Dominated Temporal Vocal Dynamics as Digital Biomarkers for Depression Detection

Himadri S Samanta

q-bio.OT cs.AI cs.LG

本文研究了基于熵驱动的时域声学动态特征在抑郁症检测中的应用，发现熵生物标志物（如Shannon entropy）相比静态聚合特征能更有效提升检测性能（AUC从0.593提升至0.646），表明抑郁症相关信号更多体现在对话动态的熵而非平均声学水平上。

EdgeSpike: Spiking Neural Networks for Low-Power Autonomous Sensing in Edge IoT Architectures

Gustav Olaf Yunus Laitinen-Fredriksson Lundstrom-Imanov, Taner Yilmaz

cs.NE cs.LG eess.SP

EdgeSpike提出了一种面向边缘IoT的低功耗脉冲神经网络框架，通过协同设计训练流程、硬件感知架构搜索和事件驱动运行时，在多个传感任务上实现了接近CNN的精度（91.4%），同时能耗降低18-47倍。该工作主要关注工程实现和能效优化，与关键词中的理论或方法（如code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

Beyond Accuracy: LLM Variability in Evidence Screening for Software Engineering SLRs

Gilberto Sussumu Hida, Danilo Monteiro Ribeiro, Erika Yahata

cs.SE cs.AI

本文研究了在软件工程系统文献综述的筛选阶段，使用Large Language Models (LLMs)的性能与变异性，并与传统分类模型进行了比较。结果表明，LLMs存在显著的异质性和非确定性，且其性能优势并不稳定，因此其应用需基于操作和治理约束进行审慎评估。

Validating the Clinical Utility of CineECG 3D Reconstructions through Cross-Modal Feature Attribution

Karol Dobiczek et al.

eess.IV cs.LG stat.ML

本文提出了一种跨模态方法，将12导联ECG模型的特征归因映射到CineECG 3D解剖空间，以提升模型的可解释性。实验表明，该方法在病理特征定位上优于标准归因基线，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

SCOPE-FE: Structured Control of Operator and Pairwise Exploration for Feature Engineering

Minhee Park et al.

stat.ML cs.LG

本文提出SCOPE-FE框架，通过OperatorProbing和FeatureClustering两种策略在特征生成前缩减候选空间，以提高自动特征工程的效率。实验表明该方法在保持预测性能的同时显著降低了计算时间。

LLM-Guided Runtime Parameter Optimization for Energy-Efficient Model Inference

Katelyn Crumpacker, Dimitrios Nikolopoulos

cs.SE cs.LG

本文提出了一种利用LLM辅助运行时参数优化的方法，通过人类反馈提示模板迭代寻找节能推理参数，相比传统搜索方法更快收敛并降低能耗。该方法针对不同硬件配置进行适配，但主要聚焦于工程应用而非理论创新。

Man, Machine, and Mathematics

Akshunna S. Dogra

math.OC cs.LG math.DG

本文从宏观视角探讨了学习、优化与建模的统一理论框架，将“学习”视为多层次互联过程，并尝试通过定义“可解问题”和“参数化方法”来构建一个“通用收敛定理”。该工作主要基于动力系统、几何和基础物理中的现有工具进行理论推演，并未涉及具体算法或与关键词相关的技术细节。

Efficient Training on Multiple Consumer GPUs with RoundPipe

Yibin Luo et al.

cs.DC cs.AI cs.LG

本文提出了一种名为RoundPipe的新型pipeline schedule，通过在多个消费级GPU上以round-robin方式动态分配计算阶段，解决了权重绑定问题，实现了近零气泡的pipeline并行训练。该方法在8×RTX 4090服务器上微调1.7B至32B模型时，相比现有基线获得了1.48-2.16倍的加速。

Reconstruction by Generation: 3D Multi-Object Scene Reconstruction from Sparse Observations

Andrii Zadaianchuk et al.

cs.CV cs.AI cs.LG cs.RO

本文提出RecGen框架，利用生成式方法从稀疏RGB-D观测中联合估计物体与部件的形状及姿态，通过组合式合成场景生成和3D形状先验提升泛化能力。该方法在严重遮挡场景下优于现有技术，但未涉及code、context、spectral等关键词相关技术。

PALCAS: A Priority-Aware Intelligent Lane Change Advisory System for Autonomous Vehicles using Federated Reinforcement Learning

Yassine Ibork et al.

cs.RO cs.AI

本文提出了一种基于多智能体联邦强化学习的优先级感知智能换道建议系统PALCAS，用于自动驾驶车辆。该系统通过参数化深度Q网络实现车辆横向和纵向运动控制，并在SUMO和Mosaic V2X仿真中验证了其提升交通效率和安全性的效果。

Lightweight Distillation of SAM 3 and DINOv3 for Edge-Deployable Individual-Level Livestock Monitoring and Longitudinal Visual Analytics

Haiyu Yang, Miel Hostens

cs.CV cs.AI

本文针对SAM 3和DINOv3模型在边缘设备上的部署问题，提出了一种轻量化蒸馏方法，通过Feature Pyramid Network学生编码器和方向-尺度蒸馏损失，将模型参数量大幅压缩，并在猪只行为分类任务上保持了较高精度。该方法在NVIDIA Jetson Orin NX上实现了实时运行，但提出的设备端嵌入池重识别机制尚未得到实证验证。

Enhancing Linux Privilege Escalation Attack Capabilities of Local LLM Agents

Benjamin Probst, Andreas Happe, Jürgen Cito

cs.CR cs.AI

本文研究了通过系统级和提示工程干预（如chain-of-thought prompting, retrieval-augmented generation, structured prompts, history compression, reflective analysis）来提升本地开源LLM agent在Linux权限提升攻击中的能力，实验表明这些干预能使本地模型性能匹配甚至超越GPT-4o等云端基线。该工作主要关注agent在网络安全领域的应用，与关键词中的agent有一定关联，但方法本身并非开创性且未解决长期问题。

A High-Throughput Compute-Efficient POMDP Hide-And-Seek-Engine (HASE) for Multi-Agent Operations

Timothy Flavin, Sandip Sen

cs.MA cs.LG cs.PF

本文介绍了一个名为Hide-And-Seek-Engine (HASE)的高吞吐量计算引擎，用于优化多agent Dec-POMDP环境。该引擎通过C++实现，采用数据导向设计和零拷贝PyTorch内存桥接等技术，实现了极高的环境步数吞吐量，并验证了其训练多agent策略的有效性。

What Suppresses Nash Equilibrium Play in Large Language Models? Mechanistic Evidence and Causal Control

Paraskevas V. Lekeas, Giorgos Stamatopoulos

cs.GT cs.AI cs.LG

本文通过分析Llama-3和Qwen2.5等开源模型在经典两人博弈中的行为，发现LLM agent在战略互动中会抑制Nash均衡策略。机制研究表明，模型在前向传播中内部计算了Nash action，但在最后几层被亲社会性（prosocial）覆盖所逆转，且通过注入学习到的Nash方向可双向调控行为。

Learning to Spend: Model Predictive Control for Budgeting under Non-Stationary Returns

Nilavra Pathak et al.

eess.SY cs.AI cs.LG q-fin.PM

本文研究了有限时域预算分配问题，将Model Predictive Control (MPC)与反应式预算策略进行比较。结果表明，仅在回报动态具有可预测结构时，MPC才优于反应式基线。

Linear Models, Variable Selection, Artificial Intelligence

By Riyadh Alrawkan et al.

stat.ME cs.LG stat.ML

本文提出了一种基于人工神经网络(ANN)的变量选择方法，通过训练ANN基于OLS估计来判断线性回归模型中变量的显著性，并与Forward、Backward、AIC、BIC及LASSO等方法进行了仿真比较。该方法在WHO关于预期寿命的数据集上进行了应用演示，并提供了预训练ANN的GitHub链接。

Theory Under Construction: Orchestrating Language Models for Research Software Where the Specification Evolves

Halley Young, Nikolaj Björner

cs.SE cs.AI

本文提出Comet-H，一种迭代式prompt自动机，用于协调大语言模型在研究软件项目中的构思、实现、评估和论文撰写，以解决代码、理论与声明之间的失步问题。该方法将prompt选择建模为contextual bandit问题，并在Python静态分析工具A3上验证了有效性。

Upskilling with Generative AI: Practices and Challenges for Freelance Knowledge Workers

Kashif Imteyaz et al.

cs.HC cs.AI

本文通过混合方法研究了自由职业者如何使用生成式AI工具（如ChatGPT）进行技能学习，发现他们依赖这些工具来结构化学习和探索性技能获取，但因其不一致性和缺乏上下文相关性而不将其作为主要学习资源。研究还揭示了从“成长型学习”向“生存型学习”的转变，以及“隐形能力”这一结构性挑战。

Addressing the Reality Gap: A Three-Tension Framework for Agentic AI Adoption

Jason Fournier, Kacper Łodzikowski

cs.CY cs.AI

本文提出了一个用于教育领域Agentic AI采纳的三张力框架，讨论了实施可行性、适应速度和使命对齐之间的平衡，并给出了应用建议。

Towards Accelerated SCF Workflows with Equivariant Density-Matrix Learning and Analytic Refinement

Zuriel Y. Yescas-Ramos, Andrés Álvarez-García, Huziel E. Sauceda

physics.chem-ph cs.AI cs.LG physics.comp-ph quant-ph

本文提出了一种基于equivariant learning的密度矩阵预测模型DM-PhiSNet，用于加速SCF计算流程。该模型通过两阶段训练和轻量级analytic refinement模块，在多个分子体系上实现了49-81%的迭代步数减少。

VTBench: A Multimodal Framework for Time-Series Classification with Chart-Based Representations

Madhumitha Venkatesan, Xuyang Chen, Dongyu Liu

cs.CV cs.LG

本文提出了VTBench框架，通过将时间序列数据转换为线图、面积图等图表表示，并与原始数值进行多模态融合，用于时间序列分类任务。实验表明，在某些场景下图表模型具有竞争力，但多模态融合的效果取决于视觉特征是否提供非冗余信息。

Self-Evolving Software Agents

Marco Robol, Paolo Giorgini

cs.SE cs.AI

本文提出了一种结合BDI推理与LLM的自演化软件agent架构，使agent能够自主发现新目标并生成可执行代码，在动态多agent环境中验证了可行性。

From Prompt to Physical Actuation: Holistic Threat Modeling of LLM-Enabled Robotic Systems

Neha Nagaraja, Hayretdin Bahsi, Carlo R. da Cunha

cs.CR cs.AI cs.RO

本文对LLM赋能的自主机器人系统进行了威胁建模，通过分层Data Flow Diagram和STRIDE分析，识别了传统网络威胁、对抗性威胁和对话威胁在感知-规划-执行管道中的交互与传播，并追踪了三条跨边界攻击链。该工作为机器人系统的安全分析提供了系统化的视角，但未直接涉及代码、上下文、谱方法或预训练等关键词。

Evaluating Epistemic Guardrails in AI Reading Assistants: A Behavioral Audit of a Minimal Prototype

Matthew Christian Agustin

cs.HC cs.AI cs.CY

本文通过TextWalk原型研究了AI阅读助手中的“epistemic guardrails”（认知护栏）概念，发现系统在支持与替代读者之间存在的中间地带是主要弱点。该研究为评估对话式AI阅读助手的交互行为提供了协议，但与关键词列表中的概念关联较弱。

Predicting Upcoming Stuttering Events from Three-Second Audio: Stratified Evaluation Reveals Severity-Selective Precursors, and the Model Deploys Fully On-Device

Nazar Kozak

cs.SD cs.LG eess.AS

本文使用616K参数的CNN模型，基于SEP-28k数据集的三秒音频片段，预测下一片段是否包含口吃事件。研究发现模型对严重口吃事件（如阻塞和重复音）有预测能力，但对填充词等无效，且模型可部署于移动设备。

The Likelihood Ratio Wall: Structural Limits on Accurate Risk Assessment for Rare Violence

Marco Pollanen

cs.CY cs.LG stat.AP

本文推导了“Likelihood Ratio Wall”这一通用精度界限，证明在暴力再犯率极低（2-5%）时，现有风险评估工具无法达到高阳性预测值，并指出事后分数校准无法解决该问题。文章还证明了“Surveillance Ceiling”现象，即过度警务会结构性降低被过度监控群体的最大可达精度，并建议风险报告应明确传达这种不确定性。

To Diff or Not to Diff? Structure-Aware and Adaptive Output Formats for Efficient LLM-based Code Editing

Wei Cheng et al.

cs.SE cs.CL

本文系统研究了LLM在代码编辑任务中的diff格式问题，发现传统diff格式存在脆弱偏移和碎片化问题。作者提出了结构感知的BlockDiff和FuncDiff格式，以及自适应编辑策略AdaEdit，在保持编辑准确性的同时显著降低了延迟和成本。

A Novel Computational Framework for Causal Inference: Tree-Based Discretization with ILP-Based Matching

Tianyu Yang, Md. Noor-E-Alam

stat.ML cs.LG

本文提出了一种结合树形离散化与整数线性规划匹配的因果推断框架，通过优化全局平衡性来提升ATT估计的准确性和计算效率。该方法在实证中优于现有技术，但与我提供的关键词列表关联度较低。

Pragmos: A Process Agentic Modeling System

Pedro-Aarón Hernández-Ávalos, Luciano García-Bañuelos

cs.SE cs.AI

本文提出了一种名为Pragmos的原型系统，将Large Language Models (LLMs)与专门的结构化工具相结合，通过将过程建模任务分解为可管理的步骤，以交互式、迭代的方式生成过程模型。该方法旨在解决LLMs在复杂依赖推理上的局限性，并强调建模过程的透明性和可解释性。

REBENCH: A Procedural, Fair-by-Construction Benchmark for LLMs on Stripped-Binary Types and Names (Extended Version)

Jun Yeon Won et al.

cs.CR cs.LG cs.SE

REBench提出了一个用于评估LLM在二进制逆向工程任务中性能的标准化benchmark数据集，整合了现有数据集并采用知识库驱动的方法生成ground truth。该工作主要关注二进制分析中的类型和名称恢复任务，与关键词列表中的概念关联较弱。

Toward Autonomous SOC Operations: End-to-End LLM Framework for Threat Detection, Query Generation, and Resolution in Security Operations

Md Hasan Saju, Akramul Azim

cs.CR cs.AI cs.IR

本文提出了一个端到端的威胁管理框架，集成了集成检测、语法约束的查询生成和检索增强的解决方案支持，用于自动化安全运营中心(SOC)的关键工作流。该框架通过SQM架构实现了对SIEM日志的自动化证据收集和查询生成，显著降低了事件分类时间。

Exploring the Adoption Intention in Using AI-Enabled Educational Tools Among Preservice Teachers in the Philippines: A Partial-Least Square Modeling

Vanessa B. Sibug et al.

cs.CY cs.AI

本文基于UTAUT2理论框架，使用Partial Least Squares Structural Equation Modeling (PLS-SEM)分析了菲律宾职前教师使用AI教育工具的采纳意向。研究发现绩效期望和享乐动机是行为意向的最强预测因子，而计算机自我效能感、焦虑感和趣味性显著影响努力期望。

Profiles of AI Dependency: A Latent Class Analysis of Filipino Students' Academic Competencies

Emerson Q. Fernando et al.

cs.CY cs.AI

本文使用Latent Class Analysis对菲律宾大学生的AI依赖模式进行分类研究，识别出四种学生类型，并发现AI依赖型学生的学术能力最弱。研究呼吁制定平衡AI素养与基础学术技能的教育政策。

Continuous-time q-learning for mean-field control with common noise, part-I: Theoretical foundations

Zhenjie Ren et al.

math.OC cs.LG cs.MA

本文研究了带受控公共噪声的熵正则化平均场控制(MFC)的连续时间Q函数（即q函数），通过松弛控制公式推导了探索性HJB方程，并证明了在凹性条件下最优策略迭代的存在唯一性。该工作为平均场控制中的策略优化提供了理论基础，但与关键词列表中的概念关联较弱。

Continuous-time q-learning for mean-field control with common noise, part-II: q-learning algorithms

Zhenjie Ren et al.

math.OC cs.LG cs.MA

本文针对带受控公共噪声的mean-field control问题，在松弛控制框架下建立了值函数和Iq-函数的鞅条件，并基于可观测数据提出了Actor-Critic q-learning算法，其中策略更新由改进的Iq-函数迭代规则驱动，值函数和Iq-函数更新则利用鞅正交性条件。在无限时域线性二次框架下证明了Actor步内迭代的收敛性，并通过两个算例验证了算法性能。

COHERENCE: Benchmarking Fine-Grained Image-Text Alignment in Interleaved Multimodal Contexts

Bingli Wang et al.

cs.CV cs.AI

本文提出了COHERENCE基准，用于评估多模态大语言模型在交错图文语境中恢复细粒度图文对应关系的能力，覆盖四个领域并包含6161个高质量问题。该工作主要关注多模态理解评估，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联较弱。

Bayesian X-Learner: Calibrated Posterior Inference for Heterogeneous Treatment Effects under Heavy-Tailed Outcomes

Eichi Uehara

stat.ML cs.LG

本文提出了Bayesian X-Learner，一种基于交叉拟合双重稳健伪结果和Welsch重下降伪似然的MCMC后验推断方法，用于在重尾结果数据下同时估计异质性处理效应并提供校准的不确定性。在IHDP基准上表现具有竞争力，在重尾污染数据上通过Huber损失扩展恢复了较好的RMSE和区间覆盖。

Understanding Adversarial Transferability in Vision-Language Models for Autonomous Driving: A Cross-Architecture Analysis

David Fernandez et al.

cs.CV cs.CR cs.LG

本文研究了自动驾驶中Vision-Language Models (VLMs) 在物理对抗攻击下的跨架构可迁移性，通过实验评估了三种代表性架构在交叉口和高速公路场景下的攻击效果，发现攻击具有较高的跨架构迁移率。该工作主要关注对抗攻击的鲁棒性分析，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors

Zi Li et al.

cs.CR cs.AI

本文揭示了在本地LLM微调过程中，通过供应链模型代码后门（将恶意代码伪装成标准架构定义）实现秘密窃取的攻击方法。该方法利用确定性全链记忆机制，通过在线tensor规则匹配锁定token级秘密，并利用值梯度解耦注入攻击梯度，首次实现了通过黑盒查询验证的秘密窃取。

Sampler-Robust Optimization under Generative Models

Ziwei Zhang, Jonathan Yu-Meng Li

math.OC cs.AI cs.LG q-fin.PM q-fin.RM

本文提出了一种名为Sampler-Robust Optimization (SRO)的框架，用于在基于生成模型的随机优化中，通过对抗性扰动生成器诱导的sampler来优化决策，从而同时应对sampler misspecification和finite-simulation error。该方法在覆盖假设下证明了经验最坏情况目标能为真实总体目标提供高概率上界，并在投资组合优化实验中展示了更稳定的决策和更好的分布外表现。

RAY-TOLD: Ray-Based Latent Dynamics for Dense Dynamic Obstacle Avoidance with TDMPC

Seungho Han, Seokju Lee, Jeonguk Kang

cs.RO cs.AI

本文提出RAY-TOLD混合控制架构，将LiDAR传感器数据编码为紧凑的latent dynamics表示，结合MPPI的短视物理规划与强化学习的长期意图，通过策略混合采样提升密集动态障碍物环境下的导航安全性与可靠性。

Security Attack and Defense Strategies for Autonomous Agent Frameworks: A Layered Review with OpenClaw as a Case Study

Luyao Xu, Xiang Chen

cs.CR cs.AI

本文对基于LLM的autonomous agent框架进行了分层安全综述，以OpenClaw为案例分析了上下文与指令层、工具与动作层等四个层面的攻击与防御策略，并指出了跨层威胁传播及研究不平衡等挑战。

ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models

Jiasheng Zheng et al.

cs.SE cs.CL

ScaleBox是一个高保真、可扩展的代码沙箱系统，用于在大规模代码训练中为大型语言模型提供准确的代码验证。它通过自动化特殊判断生成、细粒度并行执行和配置驱动的评估套件，提升了代码验证的准确性和效率。

Knowledge Affordances for Hybrid Human-AI Information Seeking

Irene Celino

cs.HC cs.AI

本文提出了知识可供性（Knowledge Affordance, KA）的概念，旨在系统化描述混合人机环境中知识源能提供何种信息、针对何种问题以及具有哪些情境属性。该工作主要是一个概念性提议，连接了可供性、语义Web服务、知识工程等多个研究方向，但尚未形成完整的框架或具体方法。

RIHA: Report-Image Hierarchical Alignment for Radiology Report Generation

Yucheng Chen et al.

cs.CV cs.AI

本文提出RIHA框架，通过视觉特征金字塔和文本特征金字塔提取多尺度特征，并利用最优传输实现跨模态分层对齐，以提升放射学报告生成的细粒度图像-文本匹配。实验表明该方法在IU-Xray和MIMIC-CXR数据集上优于现有模型。

BAss: Symbolic Reasoning in Abstract Dialectical Frameworks

Samuel Pastva, Van-Giang Trinh

cs.LO cs.LG

本文提出BAss工具，利用Binary Decision Diagrams (BDDs)对Abstract Dialectical Frameworks (ADFs)进行符号推理，支持计算多种interpretations和models。实验表明其在处理大规模解空间时优于现有BDD工具，并与SAT/ASP方法具有竞争力。

ClipTBP: Clip-Pair based Temporal Boundary Prediction with Boundary-Aware Learning for Moment Retrieval

Ji-Hyeon Kim, Ho-Joong Kim, Seong-Whan Lee

cs.CV cs.AI

本文提出ClipTBP框架，通过clip-level alignment loss和边界损失函数来改进视频时刻检索中的多模态对齐与边界预测，但方法在创新性和与关键词的契合度上均不突出。

Robust Lightweight Crack Classification for Real-Time UAV Bridge Inspection

Wei Li et al.

cs.CV cs.AI

本文提出了一种用于无人机桥梁检测的轻量级CNN框架，通过结合注意力机制和鲁棒增强策略，在SDNET2018数据集上实现了高精度与实时推理的平衡。

HAVEN: Hybrid Automated Verification ENgine for UVM Testbench Synthesis with LLMs

Chang-Chih Meng et al.

cs.AR cs.AI

本文提出HAVEN系统，利用LLM agents分析设计规范并生成结构化架构计划，通过预定义模板和Protocol-Aware DSL避免LLM直接编写HDL代码，从而提升UVM testbench和sequence的生成正确性。实验表明该系统在编译成功率和覆盖率上达到SOTA，但方法主要针对特定硬件验证流程，与关键词中的spectral、Muon、pretrain等概念关联较弱。

Can Tabular Foundation Models Guide Exploration in Robot Policy Learning?

Buqing Ou, Frederike Dümbgen

cs.RO cs.LG

本文提出TFM-S3方法，通过交替进行高频局部更新和间歇性全局搜索来改进机器人策略学习中的探索效率。该方法利用预训练的tabular foundation model从少量context中预测候选回报，并在SVD构建的低维子空间中进行迭代优化。

VibroML: an automated toolkit for high-throughput vibrational analysis and dynamic instability remediation of crystalline materials using machine-learned potentials

Rogério Almeida Gouvêa, Gian-Marco Rignanese

cond-mat.mtrl-sci cs.AI cs.LG physics.comp-ph

VibroML是一个基于机器学习势函数的开源Python工具包，用于晶体材料的自动振动分析和动态不稳定性修复。它通过能量引导的遗传算法和分子动力学工作流，从结构修复、热稳定性验证到成分探索，提供了一套高通量筛选方案。

EviMem: Evidence-Gap-Driven Iterative Retrieval for Long-Term Conversational Memory

Yuyang Li et al.

cs.CV cs.CL

本文提出EviMem，一种结合IRIS框架和LaceMem层级记忆架构的迭代检索方法，通过显式诊断证据缺口来优化查询，用于长期对话记忆中的时间性和多跳问题。实验在LoCoMo数据集上提升了Judge Accuracy并降低了延迟。

Deep Learning-Based Segmentation of Peritoneal Cancer Index Regions from CT Imaging

Pieter C. Gort et al.

cs.CV cs.AI

本文使用nnU-Net和Swin UNETR对CT图像中的腹膜癌指数(rPCI)区域进行自动分割，在62例CT扫描上评估性能，nnU-Net的Dice系数达到0.82，接近观察者间一致性(0.88)，证明了基于深度学习的rPCI自动分割的可行性。

Linguistically Informed Multimodal Fusion for Vietnamese Scene-Text Image Captioning: Dataset, Graph Framework, and Phonological Attention

Nhi Ngoc-Yen Nguyen et al.

cs.CV cs.CL

本文针对越南语场景文本图像描述任务，提出了一个包含数据集ViTextCaps和融合框架HSTFG/PhonoSTFG的工作。该工作主要关注越南语的语言特性（如声调符号），但方法本身在通用性上有限，且与关键词列表中的概念关联较弱。

AgentEconomist: An End-to-end Agentic System Translating Economic Intuitions into Executable Computational Experiments

Jiaju Chen et al.

cs.HC cs.AI

AgentEconomist是一个端到端的交互系统，通过模块化多阶段架构将经济学直觉转化为可执行的计算实验，包括想法开发、实验设计和执行阶段。该系统基于超过13,000篇论文的知识库，在人类专家评估中显示出比通用大语言模型更强的文献基础和更高的新颖性。

Sampling two-dimensional spin systems with transformers

Piotr Białas et al.

cond-mat.dis-nn cond-mat.stat-mech cs.LG hep-lat

本文提出了一种基于transformer的自回归神经网络采样器，通过每次生成一组自旋而非单个自旋，并构建近似概率模型来提高效率。该方法在Ising模型上实现了$180 \times 180$自旋系统的采样，其有效样本量比先前最优的神经采样器大20倍左右。

Why Self-Supervised Encoders Want to Be Normal

Yuval Domb

cs.IT cs.AI cs.LG

本文基于Information Bottleneck (IB)原理，为encoder-decoder学习建立了几何与信息论框架，将IB重新表述为以KL散度为失真的rate-distortion问题，并推导了从Dirichlet到指数族再到各向同性高斯的变换链。实验在FashionMNIST上验证了理论rate-distortion权衡，但方法本身与关键词中的code、context、spectral等概念关联较弱。

Learning to Reason: Targeted Knowledge Discovery and Fuzzy Logic Update for Robust Image Recognition

Gurucharan Srinivas, Joshua Niemeijer, Frank Köster

cs.CV cs.AI

本文提出了一种可微知识单元(DKU)，通过模糊逻辑推理将隐式概念与任务类别关联，以调制分类器logits并提升鲁棒性。该方法在PASCAL-VOC、COCO和MedMNIST数据集上验证了有效性，但未涉及代码、谱方法或预训练等关键词相关技术。

Data-Efficient Indentation Size Effect Correction in Steels Using Machine Learning and Physics-Guided Augmentation

Radmir Karamov, Tagir Karamov

cond-mat.mtrl-sci cs.LG

本文利用机器学习方法（Ridge Regression, Random Forest, XGBoost, Neural Networks）结合物理引导的特征工程与数据增强，基于约700次实验压痕数据，预测钢的参考硬度以校正浅层纳米压痕中的尺寸效应（ISE）。研究发现非线性模型（特别是64-8-64结构的神经网络）在浅层压痕区域表现优于经典Nix-Gao方法，但该方法主要针对材料力学性能表征，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等无直接关联。

RuC: HDL-Agnostic Rule Completion Benchmark Generation

Arnau Ayguadé Domingo et al.

cs.AR cs.AI

本文提出了一个名为RuC的框架，用于生成与硬件描述语言无关的规则补全基准测试。该框架通过语法驱动的方式，从硬件描述源码中自动生成代码补全任务，并评估大语言模型在寄存器传输级开发中的代码理解能力。

Test Before You Deploy: Governing Updates in the LLM Supply Chain

Mohd Sameen Chishti, Damilare Peter Oyinloye, Jingyue Li

cs.SE cs.AI

本文提出一个部署侧治理框架，用于管理LLM服务更新带来的行为漂移问题，该框架包含生产合约、风险类别测试套件和兼容性门控三个组件。通过探索性验证，作者发现针对特定风险区域的测试能揭示整体指标遗漏的性能回归。

Variational and Majorization Principles in Lattice Reduction

Javier Blanco-Romero, Florina Almenares Mendoza

cs.CR cs.DS

本文利用majorization理论重新描述了lattice reduction中的Gram-Schmidt profile平滑机制，指出Lovász swap对应log-norm profile上的T-transform，并由此推导出worst-case GSA envelope的variational interpretation。文章还提出了Thermal-Adaptive和Geodesic Deep-LLL两种启发式选择器，在基准测试中减少了操作次数或等效交换次数。

Separating Feasibility and Movement in Solution Discovery: The Case of Path Discovery

Hanno von Bergen et al.

cs.DM cs.DS math.CO

本文提出一个分离可行性与移动性的有向加权双图模型，用于研究路径发现问题的计算复杂性，并展示了该模型下问题的丰富难度图景。

Machine Unlearning for Class Removal through SISA-based Deep Neural Network Architectures

Ishrak Hamim Mahi et al.

cs.CV cs.CR cs.LG

本文研究了基于SISA框架的改进方法，用于在CNN架构中实现类别级别的机器遗忘，通过引入强化回放机制和门控网络来提升选择性遗忘效率。实验表明该方法能在保持模型性能的同时减少重训练开销。

Taming Noise-Induced Prototype Degradation for Privacy-Preserving Personalized Federated Fine-Tuning

Yuhua Wang et al.

cs.CV cs.LG

本文提出VPDR，一种用于隐私保护个性化联邦微调的客户端隐私插件。它通过方差自适应原型扰动（VPP）和蒸馏引导裁剪正则化（DCR）来缓解各向同性高斯原型扰动（IGPP）导致的判别维度过度扰动问题，在保证隐私的同时提升模型效用。

Heisenberg-limited Hamiltonian learning without short-time control

Myeongjin Shin, Junseo Lee, Changhun Oh

quant-ph cs.DS

本文研究了在无短时控制条件下实现Heisenberg极限哈密顿量学习的问题，提出了一种通过模拟连续量子控制来规避短时动力学依赖的方法，并证明了在最小演化时间受限时仍能达到信息论最优的$1/\varepsilon$标度。该工作为量子系统学习中的实验限制提供了理论解决方案。

ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training

Wenxiang Lin et al.

cs.DC cs.CL

本文提出ZipCCL，一种用于LLM训练的无损通信压缩库，利用张量的近高斯分布设计指数编码和GPU优化内核，在64-GPU集群上实现了最高1.35倍的通信时间缩减和1.18倍的端到端加速。该方法主要关注通信压缩效率，与关键词中的code、context、spectral等概念关联较弱。

AI Inference as Relocatable Electricity Demand: A Latency-Constrained Energy-Geography Framework

Xubin Luo, Yang Cheng

cs.DC cs.AI

本文提出了一个用于地理分布式AI推理的能量-地理框架，将推理任务放置建模为受电价、碳强度、延迟等约束的优化问题，并引入了能量-延迟前沿等指标。通过模拟展示了延迟容忍度如何将工作负载分层为本地、区域和能源导向的执行层。

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

Bowen Sun et al.

cs.CR cs.CL cs.LG

本文提出TwinGate框架，通过Asymmetric Contrastive Learning (ACL)在共享隐空间中聚类语义不同但意图匹配的恶意片段，以防御针对大型语言模型(LLMs)的分解性越狱攻击。该方法在匿名化、不可追踪的流量场景下实现了低延迟的状态ful防御，并构建了包含超过362万条指令的大规模数据集进行验证。

Decoupled Descent: Exact Test Error Tracking Via Approximate Message Passing

Max Lovig

math.ST cs.IT cs.LG stat.ML

本文提出了一种名为decoupled descent (DD)的训练算法，基于approximate message passing理论，在特定的Gaussian mixture model设定下实现了train error对test error的渐近跟踪。该方法通过迭代消除数据重用带来的偏差，展示了零成本验证和100%数据利用的可行性，并在XOR分类等实验中相比gradient descent缩小了generalization gap。

Prediction-powered Inference by Mixture of Experts

Yanwu Gu, Linglong Kong, Dong Xia

stat.ML cs.LG stat.AP

本文提出了一种基于混合专家(MOE)的预测驱动推断框架，通过组合多个预测工具来改进半监督推断中的方差缩减。该方法在均值估计、线性回归等任务上具有灵活性，但未直接涉及关键词中的核心概念。

Training-Free Tunnel Defect Inspection and Engineering Interpretation via Visual Recalibration and Entity Reconstruction

Shipeng Liu et al.

cs.CV cs.AI

本文提出了一种无需训练的隧道缺陷检测框架TunnelMIND，通过视觉重校准和实体重构将粗粒度语义提议转化为结构化缺陷证据，在可见光、GPR和道路缺陷任务上取得了一定效果。该方法主要关注工程应用中的缺陷定位与报告生成，与关键词中的code、context、spectral等概念关联较弱。

Attractor FCM

Alexis Kafantaris

cs.NE cs.AI cs.LG cs.LO

本文提出了一种基于gradient descent和Newton方法的attractor FCM模型，通过fixed point anchor和back propagation through time实现权重更新，并利用causal mask融入物理约束。该模型在FCM框架下探索了新的学习算法，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Diffusion-OAMP for Joint Image Compression and Wireless Transmission

Wentao Hou et al.

eess.IV cs.IT cs.LG

本文提出Diffusion-OAMP框架，将预训练的diffusion model嵌入OAMP算法中，用于联合图像压缩与无线传输。该方法通过线性估计器生成伪AWGN观测，并利用diffusion model作为非线性估计器，在无需额外训练的情况下实现图像重建。

From Mirage to Grounding: Towards Reliable Multimodal Circuit-to-Verilog Code Generation

Guang Yang et al.

cs.SE cs.AI

本文揭示了多模态大语言模型在电路图到RTL代码生成任务中的“Mirage”现象：模型会绕过视觉输入，仅依赖模块头中的标识符语义来检索模板，导致空白图像也能获得高Pass@k。为此，作者提出VeriGround模型，通过标识符匿名化、拒绝增强和D-ORPO偏好对齐来强制模型真正依赖视觉信息，在4B参数下达到与GPT-5.4相当的性能。

TransVLM: A Vision-Language Framework and Benchmark for Detecting Any Shot Transitions

Ce Chen et al.

cs.CV cs.AI

本文提出了TransVLM框架，将传统的Shot Boundary Detection (SBD)任务重新定义为Shot Transition Detection (STD)任务，通过显式检测连续的时间段而非孤立切点来解决复杂转场问题。该方法在Vision-Language Model (VLM)的输入阶段注入optical flow作为运动先验，并设计了数据引擎以缓解类别不平衡问题。

Design Structure Matrix Modularization with Large Language Models

Shuo Jiang, Jianxi Luo

cs.CE cs.AI

本文研究了使用Large Language Models (LLMs)进行Design Structure Matrix (DSM)模块化的问题，提出了一种基于LLM的组合优化方法，在30次迭代内达到接近参考解的质量。研究发现，领域知识在复杂DSM上反而会损害性能，并提出了语义对齐假说（semantic-alignment hypothesis）来解释这一现象。

Universal statistical laws governing culinary design

Ganesh Bagler et al.

physics.soc-ph cs.CL

本文通过分析全球传统食谱语料库，发现食材使用遵循Zipf定律、菜谱多样性符合Heaps定律等统计规律，表明烹饪作为一种符号系统，其结构由简单的生成过程塑造。

To Build or Not to Build? Factors that Lead to Non-Development or Abandonment of AI Systems

Shreya Chappidi, Jatinder Singh

cs.CY cs.AI

本文通过文献综述和案例分析，研究了导致AI系统在开发前或开发中被放弃的因素，并构建了一个包含伦理、利益相关者反馈等六类因素的分类体系。该工作主要关注AI开发的社会技术决策过程，与关键词中的数学或算法概念无直接关联。

Measuring research data reuse in scholarly publications using generative artificial intelligence: Open Science Indicator development and preliminary results

Lauren Cadwallader et al.

cs.DL cs.CL

本文利用生成式人工智能（LLM）开发了一个新的Open Science Indicator，用于衡量学术出版物中研究数据的重用率，结果显示数据重用率为43%，高于传统文献计量方法。

Assessing the Role of Intersection Proximity in Pedestrian Crashes: Insights from Data Mining Approach

Ahmed Hossain, Xiaoduan Sun, Subasish Das

physics.soc-ph cs.LG

本文利用路易斯安那州的碰撞数据库，通过关联规则挖掘方法研究了非交叉口行人碰撞事故，发现约50%的事故发生在距交叉口198英尺内，并根据距交叉口的距离将事故分为三个区域进行分析。研究为理解非交叉口行人碰撞模式提供了见解，但方法上缺乏开创性，且与关键词列表中的概念关联较弱。

Towards Neuro-symbolic Causal Rule Synthesis, Verification, and Evaluation Grounded in Legal and Safety Principles

Zainab Rehan et al.

cs.LO cs.AI

本文提出了一种神经符号因果规则合成框架，通过结合大语言模型和形式化验证，从自然语言目标中自动生成并验证一阶逻辑规则，并在自动驾驶场景中进行了概念验证。

DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures

Sigma Jahan et al.

cs.SE cs.AI cs.LG

本文提出DEFault++，一种基于层次学习的诊断技术，用于检测、分类和诊断Transformer架构中的故障。它通过构建Fault Propagation Graph (FPG)并利用原型匹配与监督对比学习，在12种故障类别和45种根因上实现了高精度诊断。

Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces

Andrew Bond et al.

cs.CV cs.LG

本文提出S$^2$VAE框架，使用Power Spherical latent distributions替代传统Gaussian bottlenecks，以在强压缩下保留视觉Transformer特征空间中的几何语义。实验表明该方法在深度估计、相机姿态恢复等任务中优于常规方法。

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

Sudong Wang et al.

cs.CV cs.AI cs.CL

本文提出PRISM，一种用于多模态大模型的三阶段训练流程，通过在SFT和RLVR之间插入基于黑盒on-policy蒸馏的对齐阶段，使用MoE判别器提供解耦的纠正信号，以缓解SFT引入的分布漂移问题。实验表明该方法能提升下游RLVR性能，但与关键词列表中的概念关联较弱。

AdvDMD: Adversarial Reward Meets DMD For High-Quality Few-Step Generation

Xu Wang et al.

cs.CV cs.AI

本文提出AdvDMD方法，将Distribution Matching Distillation (DMD)与Reinforcement Learning (RL)统一，利用DMD2中的对抗训练discriminator作为reward model来指导few-step生成。实验表明该方法在较少采样步数下能提升生成质量，但未涉及code、spectral或Muon等关键词。

Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection

Prashant Kulkarni

cs.CR cs.AI

本文提出了一种基于LLM激活轨迹的对抗性检测方法，通过提取五维轨迹特征将多轮对话攻击检测率从76.2%提升至93.8%，并验证了该信号在多个模型族中的可重复性。研究还表明，三阶段轮次标签对降低误报率至关重要，但该方法与关键词中的code、spectral、Muon等概念无直接关联。

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows

Chenxin Li et al.

cs.SE cs.AI

本文提出了一个名为Claw-Eval-Live的实时benchmark，用于评估LLM agent在动态变化的真实工作流中的表现。该benchmark通过可刷新的信号层和可复现的快照来构建任务，并利用执行轨迹和审计日志进行评分，实验表明当前模型在工作流自动化方面远未成熟。

FlexiTac: A Low-Cost, Open-Source, Scalable Tactile Sensing Solution for Robotic Systems

Binghao Huang, Yunzhu Li

cs.RO cs.AI cs.LG

FlexiTac提出了一种低成本、开源且可扩展的压阻式触觉传感方案，通过三层柔性层压结构（FPC-Velostat-FPC）和紧凑型多通道读取板实现密集触觉信号的实时采集。该方案支持多种机器人末端执行器部署，并兼容现代触觉学习流程，但未涉及关键词中的code, context, spectral, Muon, pretrain, agent或attention等核心概念。

Sequential Inference for Gaussian Processes: A Signal Processing Perspective

Daniel Waxman, Fernando Llorente, Petar M. Djurić

eess.SP cs.LG stat.CO stat.ML

本文从信号处理视角综述了高斯过程(Gaussian Processes, GPs)的序贯推断方法，包括增量式学习和流式推理等技术，并讨论了其在状态空间建模、时间序列预测和异常检测等领域的应用。文章为相关领域从业者提供了部署序贯GP模型的实用工具和路线图。

Mapping the Phase Diagram of the Vicsek Model with Machine Learning

Grace T. Bai, Brandon B. Le

cond-mat.soft cs.LG

本文使用机器学习方法（K-Means聚类和神经网络分类器）对Vicsek flocking model在三维参数空间$(\eta,\rho,v_0)$中的相图进行分类与插值，通过长时间动力学观测量实现了0.92的分类准确率。该方法将稀疏的模拟数据转化为全局相图，但并未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

PhyCo: Learning Controllable Physical Priors for Generative Motion

Sriram Narayanan et al.

cs.CV cs.AI cs.LG

本文提出PhyCo框架，通过物理监督微调扩散模型和VLM引导的奖励优化，实现了对视频生成中物理属性（如摩擦、弹性）的可控性，无需推理时使用模拟器。该方法在Physics-IQ基准上提升了物理真实性，但与关键词中的code、spectral、Muon、agent等概念无直接关联。

Defending Quantum Classifiers against Adversarial Perturbations through Quantum Autoencoders

Emma Andrews, Sahan Sanjaya, Prabhat Mishra

quant-ph cs.LG

本文提出了一种基于quantum autoencoder的对抗防御框架，通过重构来净化对抗样本，并提供了置信度指标来识别无法净化的样本。实验表明该方法在预测准确率上显著优于现有技术。

Computing Equilibrium beyond Unilateral Deviation

Mingyang Liu, Gabriele Farina, Asuman Ozdaglar

cs.GT cs.AI cs.CC cs.LG econ.TH

本文研究了一种新的均衡概念，旨在最小化联盟偏离的平均收益，并扩展到加权平均和联盟内最大收益，证明了最小收益变体的计算困难性，为平均收益和最大收益目标给出了计算复杂度的下界及匹配算法。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.DS

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others