bluearXiv-ai - 2026-04-28

📄 所有论文 ↑ 回顶部

cs.LG

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry ⭐ 精选

Yi Liu

cs.LG cs.AI

本文首次系统研究了transformer预训练过程中权重矩阵的singular value spectrum（奇异值谱）的动态演化，发现了三个关键现象：Transient Compression Waves（瞬态压缩波）从浅层向深层传播并最终反转、Persistent Spectral Gradients（持久谱梯度）形成非单调的倒U形深度分布、以及Q/K--V Functional Asymmetry（Q/K与V的功能不对称性）表明value/output projections的rank压缩是均匀的而query/key projections承载了全部深度依赖的动力学。作者将rank压缩与谱形状的分离形式化为一个双时间尺度动力学模型，并推导出scaling laws（标度律），验证了谱结构在layer importance预测和spectral-guided pruning（谱引导剪枝）中的因果作用，与关键词中的spectral高度契合。

Revisable by Design: A Theory of Streaming LLM Agent Execution ⭐ 精选

Zhiyuan Zhai, Ming Li, Xin Wang

cs.LG

本文提出了一种新的LLM agent执行范式stream paradigm，挑战了传统的transaction式执行假设。作者通过reversibility taxonomy将agent动作分类为Idempotent, Reversible, Compensable和Irreversible，并证明了agent的灵活性受其reversibility限制。基于此理论，他们设计了Revision Absorber算法，该算法采用Earliest-Conflict Rollback规则，在理论上达到结构最优。实验表明，该方法能在保持输出质量的同时，大幅减少因用户中途修改而浪费的计算步骤，为agent交互中的实时修订提供了理论支撑和实用方案。

CODA: Coordination via On-Policy Diffusion for Multi-Agent Offline Reinforcement Learning ⭐ 精选

Marcel Hedman et al.

cs.LG stat.ML

CODA提出了一种基于扩散模型的多智能体轨迹生成方法，通过条件采样于当前联合策略来生成合成经验数据，从而在离线多智能体强化学习中模拟在线策略学习中的协同适应过程。该方法解决了传统离线数据增强方法因数据静态不变而无法随联合策略演化的问题，为离线环境下的协调行为提供了新机制。CODA作为算法无关的增强模块，可集成到无模型和基于模型的离线强化学习流程中，并在连续多项式博弈和MaMuJoCo基准上验证了有效性。该工作与关键词"agent"和"attention"（协调机制）高度契合。

Quasi-Equivariant Metanetworks ⭐ 精选

Viet-Hoang Tran et al.

cs.LG

本文提出了一种名为quasi-equivariance（准等变性）的新概念，用于设计metanetworks（元网络，即直接操作预训练权重的神经网络架构）。该方法在严格等变性（strict equivariance）与模型表达能力之间取得了更好的平衡，通过允许一定程度的对称性松弛，使得metanetworks能够更有效地处理参数-函数映射（parameter-function mapping）中的非单射性（non-injectivity）问题。作者在包括feedforward、convolutional和transformer在内的多种神经网络架构上验证了该方法的有效性，为权重空间学习（weight-space learning）提供了更灵活且更具表达力的理论基础。

Agentic Fusion of Large Atomic and Language Models to Accelerate Materials Discovery ⭐ 精选

Mingze Li et al.

cs.LG cond-mat.mtrl-sci

本文提出了一个名为ElementsClaw的agentic框架，通过融合Large Atomic Models (LAMs)与Large Language Models (LLMs)来加速材料发现。该框架利用LLMs进行高层语义推理，并动态编排一组基于所提出的Elements模型微调得到的LAM工具，用于原子尺度的数值计算，从而将AI驱动的材料科学从孤立过程转向集成化、人机交互的发现模式。在超导体领域，该agent系统成功指导合成了四种新型超导体，并在仅28 GPU小时内筛选了超过240万个稳定晶体，识别出68,000个高置信度超导候选材料，显著扩展了已知超导空间。这项工作展示了agent方法在材料科学中实现高物理保真度加速发现的潜力。

Necessary and sufficient conditions for universality of Kolmogorov-Arnold networks ⭐ 精选

Vugar Ismailov

cs.LG cs.NE math.FA

本文证明了Kolmogorov-Arnold Networks (KANs) 通用逼近性的充要条件：对于深度KAN，当所有edge function要么是affine要么等于一个固定的连续函数$\sigma$时，其在$C(K)$中稠密当且仅当$\sigma$是非affine的；而对于恰好两个隐藏层的KAN，该性质成立当且仅当$\sigma$是非polynomial的。进一步，本文表明affine函数类可被一个有限集替代而不影响通用性，例如在非polynomial情形下，任意深度的KAN只需五个固定的affine函数即可。此外，本文还证明了Liu等人提出的基于spline的edge参数化KAN在经典意义下是通用逼近器。该工作为KAN的理论基础提供了关键的必要与充分条件，与关键词中的“code”和“attention”等概念无直接关联，但属于该领域的基础性理论突破。

ELSA: Exact Linear-Scan Attention for Fast and Memory-Light Vision Transformers ⭐ 精选

Chih-Chung Hsu et al.

cs.LG cs.CV

ELSA提出了一种精确线性扫描注意力机制，将online softmax attention重新表述为关于结合性幺半群$(m,S,W)$的前缀扫描，从而在保持精确softmax语义的同时，将并行深度降低到$O(\log n)$，并具有可证明的$\mathcal{O}(u\log n)$ FP32相对误差界。该方法不依赖Tensor Core指令，可作为即插即用模块部署，在A100和Jetson TX2等不同硬件上均能实现加速，尤其在高精度FP32推理场景下提供了统一的attention kernel。该工作与关键词“attention”高度契合，并为长序列精确注意力计算提供了一种硬件无关的高效方案。

Symmetric Equilibrium Propagation for Thermodynamic Diffusion Training ⭐ 精选

Aditi De

cs.LG cs.AI

本文提出了一种对称平衡传播（Symmetric Equilibrium Propagation）方法，用于在热力学扩散训练中实现无偏的denoising score-matching梯度估计。该方法通过将平衡传播直接应用于双线性能量（bilinear energy），在零微扰极限下得到无偏估计，并推导了有限微扰下的偏差界，其中对称微扰将主导偏差从$\mathcal{O}(\beta)$降至$\mathcal{O}(\beta^2)$。这一训练规则是首个保持低秩耦合（low-rank coupling）的局部、只读训练规则，使得可扩展的热力学扩散模型能够在同一模拟基板上完成训练，无需外部数字加速器，预计每个训练步骤相比GPU基线可节省$10^3$-$10^4$倍的能量。

TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents ⭐ 精选

Jiaqi Wang et al.

cs.LG cs.AI

本文提出TCOD (Temporal Curriculum On-Policy Distillation)框架，用于解决多轮agent场景中on-policy distillation的Trajectory-Level KL Instability问题。该方法通过引入temporal curriculum，逐步增加学生模型暴露的trajectory深度（从短到长），有效缓解了inter-turn error compounding导致的KL divergence升高和训练不稳定。实验表明，TCOD在ALFWorld、WebShop、ScienceWorld等benchmark上显著提升agent性能，甚至能超越teacher模型的表现。

GradMAP: Gradient-Based Multi-Agent Proximal Learning for Grid-Edge Flexibility ⭐ 精选

Yihong Zhou, Hongtai Zeng, Thomas Morstyn

cs.LG cs.AI

本文提出GradMAP (Gradient-Based Multi-Agent Proximal Learning)，一种用于配电网边缘设备协调的完全去中心化学习方法。该方法在离线训练中嵌入可微的三相AC power-flow模型，通过implicit differentiation精确传播网络约束违反梯度以更新策略参数，并在更直接的policy-output (action) space中定义trust region，利用proximal surrogate复用昂贵的环境梯度，从而显著加速训练。实验表明，在IEEE 123-bus feeder上管理1000个agent时，GradMAP能在15分钟内学习到最小化三相AC load-flow约束违反的去中心化策略，训练速度较基于梯度的自监督基线提升3-5倍，且运行成本与约束违反均达到最优。该方法与关键词“agent”高度契合，并为大规模分布式能源协调问题提供了高效且可扩展的解决方案。

ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler

cs.LG cs.AI

本文提出了ECoLAD，一个面向部署的时间序列异常检测评估协议，通过在受限CPU环境下对经典和深度检测器进行吞吐量约束测试，发现轻量级经典方法在保持覆盖率的同时优于深度方法。

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

Cheng Gao et al.

cs.LG cs.AI cs.CL

KARL提出了一种基于知识边界感知的强化学习框架，通过在线估计模型的知识边界并动态调整奖励机制，使LLM在超出知识范围时主动拒绝回答。该方法在多个基准上实现了准确率与幻觉抑制的更好平衡。

BiTA: Bidirectional Gated Recurrent Unit-Transformer Aggregator in a Temporal Graph Network Framework for Alert Prediction in Computer Networks

Zahra Makki Nayeri, Mohsen Rezvani

cs.LG cs.AI

本文提出BiTA，一种在Temporal Graph Network框架中结合双向GRU和Transformer的聚合器，用于计算机网络中的警报预测。该方法通过双向时序依赖和长程上下文关系改进时序聚合，在真实数据集上相比现有模型提升了AUC、平均精度等指标。

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Anastasiia Filippova et al.

cs.LG cs.AI

本文提出Stochastic KV Routing方法，通过在训练中让各层随机选择关注自身或前层的KV states，使模型适应深度维度的cache共享策略，从而在推理时减少KV cache的内存占用。该方法在预训练或微调中应用，能显著降低内存需求且不损失性能。

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Irene Tenison et al.

cs.LG cs.AI

本文挑战了参数高效微调(PEFT)方法在内存效率上的普遍假设，指出LoRA等方法的内存消耗仍随序列长度线性增长。作者提出LARS框架，通过约束训练中的activation subspace（激活子空间）而非模型参数，将内存消耗与序列长度解耦，在GPU和CPU上分别平均降低33.54%和51.95%的内存占用，并在树莓派等边缘设备上验证了其可行性。

Learning Without Adversarial Training: A Physics-Informed Neural Network for Secure Power System State Estimation under False Data Injection Attacks

Solon Falas et al.

cs.LG

本文提出了一种基于Physics-Informed Neural Network (PINN)的电力系统状态估计方法，通过动态损失权重（基于homoscedastic uncertainty）来抵御虚假数据注入攻击，无需对抗训练。在IEEE 118-bus系统上的实验表明，该方法在电压幅值和相角的Mean Absolute Error上优于固定权重的PINN变体。

CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs

Stela Tong, Elai Ben-Gal

cs.LG

本文提出CoFi-PGMA框架，用于解决多智能体LLM系统中路由和协作机制导致的过滤反馈问题。该框架通过基于边际贡献的反事实训练目标来修正学习信号，并提供了结合反事实估计器、多轮感知奖励和策略优化方法的实用训练算法。

AutoCompress: Critical Layer Isolation for Efficient Transformer Compression

Archit Thorat

cs.LG

本文发现小型Transformer中第0层承载了不成比例的高任务关键信息（基于NTK的重要性分数差距超过60倍），提出Critical Layer Isolation (CLI)架构：保持第0层全维度、压缩中间层、最后恢复全维度。在GPT-2 Medium上实现2.47倍压缩比，但方法主要针对特定架构的压缩优化，与关键词列表中的概念关联较弱。

Conformal PM2.5 Mapping Under Spatial Covariate Shift: Satellite-Reanalysis Fusion for Africa's Green Industrial Transition

Yaw Osei Adjei et al.

cs.LG cs.AI

本文利用LightGBM和conformal prediction方法，基于非洲29个国家的监测数据构建了PM2.5卫星-再分析融合系统，并评估了空间covariate shift下的预测可靠性。研究为非洲绿色工业转型提供了空气质量监测支持，但方法本身在理论或算法上缺乏显著开创性。

Avionic Main Fuel Pump Simulation and Fault-Diagnosis Benchmark

Felix Leonhard Janzen et al.

cs.LG cs.AI eess.SY

本文介绍了一个航空主燃油泵系统的高保真物理信息协同仿真模型，并生成了带健康与故障标注的时间序列数据。作者应用无监督RNN-VAE和SOM-VAE进行异常检测与运行模式离散化，以验证该基准的可行性。

Towards Understanding the Expressive Power of GNNs with Global Readout

Maurice Funk, Daumantas Kojelis

cs.LG cs.AI cs.LO

本文研究了带有全局读出机制的ACR-GNNs的一阶逻辑表达能力，证明了sum aggregation和readout足以让GNNs捕获C2逻辑无法表达的FO性质，并指出限制局部聚合或运行在有界度图上可以恢复与C2相关的可表征性。

When Policies Cannot Be Retrained: A Unified Closed-Form View of Post-Training Steering in Offline Reinforcement Learning

Elias Hossain et al.

cs.LG cs.AI

本文研究了离线强化学习中冻结策略（frozen actor）在部署时的适应性问题，使用Product-of-Experts (PoE)组合与目标条件先验，发现该方法在退化先验下表现为优雅退化而非普遍性能提升，并给出了对角高斯actor与先验下PoE与KL正则化适应的闭式等价关系。实验在D4RL环境上展示了actor能力上限，表明PoE和KL正则化适应可视为一种以actor锚定的安全机制。

MTServe: Efficient Serving for Generative Recommendation Models with Hierarchical Caches

Xin Wang et al.

cs.LG cs.AI

MTServe提出了一种分层缓存管理系统，通过将GPU内存虚拟化到主机RAM来缓解生成式推荐模型中长用户历史编码的推理成本问题。该系统采用混合存储布局、异步数据传输管道和局部性驱动的替换策略，在公共和生产数据集上实现了高达3.1倍的加速比，同时保持超过98.5%的缓存命中率。

Predicting Wind Loads on Container Ships in Harbor Environments through Multi-Fidelity Modeling

Matilde Fiore et al.

cs.LG physics.comp-ph physics.data-an

本文提出了一种多保真度代理建模框架，结合经验相关性与简化及详细的CFD模型，用于预测集装箱船在港口环境中的风荷载系数。该方法利用递归co-kriging融合不同保真度信息，并通过敏感性分析识别关键几何参数，以降低计算成本。

Quantifying and Mitigating Self-Preference Bias of LLM Judges

Jinming Yang et al.

cs.LG cs.AI cs.CL

本文提出了一种自动化框架，用于量化并缓解LLM作为评判者时的自我偏好偏差（SPB），通过构建质量差异可忽略的等质量响应对，在不依赖人工标注的情况下将判别能力与偏差倾向进行统计分离。实验表明，先进能力与低SPB通常不相关甚至负相关，并基于认知负荷分解提出了结构化多维评估策略，平均降低SPB 31.5%。

StackFeat RL: Reinforcement Learning over Iterative Dual Criterion Feature Selection for Stable Biomarker Discovery

A. Yermekov, D.A. Herrera-Martí

cs.LG

本文提出StackFeat-RL，一个使用REINFORCE策略梯度优化迭代双准则特征选择超参数的元学习框架，在高维基因组数据上实现了高精度与稀疏性。该方法通过双准则（系数一致性与选择频率）避免单准则方法的失败模式，并在COVID-19和阿尔茨海默病数据集上优于ElasticNet、Boruta等方法。

Utility-Aware Data Pricing: Token-Level Quality and Empirical Training Gain for LLMs

Minghui Xu, Qi Luo, Kun Li

cs.LG cs.AI

本文提出了一种基于token级别信息密度和经验训练增益的动态数据定价框架，用于评估数据对LLM的贡献，并利用Shannon entropy、influence function和Data Shapley等方法进行量化。实验表明，该框架在指令遵循、数学推理和代码总结等任务上优于传统按行计数的定价方法。

Accelerating Frequency Domain Diffusion Models with Error-Feedback Event-Driven Caching

Dong Liu, Haisheng Wang, Yanxuan Yu

cs.LG

本文提出E$^2$-CRF方法，利用频域扩散模型的spectral localization和mirror symmetry特性，通过事件驱动的error-feedback机制自适应缓存transformer的KV特征，以加速推理。该方法在保持样本质量的同时实现了约2.2倍加速，并在多个数据集上验证了有效性。

Deep Clustering for Climate: Analyzing Teleconnections through Learned Categorical States

Lívia Meinhardt, Dário Oliveira

cs.LG

本文使用Masked Siamese Networks对气候时间序列进行离散化聚类，以识别有意义的climate states，并发现这些聚类与El Niño事件存在统计关联。该方法为气候数据分析提供了一种自监督离散化工具。

Score-Repellent Monte Carlo: Toward Efficient Non-Markovian Sampler with Constant Memory in General State Spaces

Jie Hu et al.

cs.LG stat.CO stat.ML

本文提出Score-Repellent Monte Carlo (SRMC)框架，通过score evaluations的running average编码轨迹历史，并利用exponential score tilt构造surrogate target，在general state spaces上实现constant memory的非马尔可夫采样。该方法在连续和离散目标上展示了改进的estimator variance和mode coverage。

Reward Models Are Secretly Value Functions: Temporally Coherent Reward Modeling

Alex Nikulkov

cs.LG

本文提出Temporally Coherent Reward Modeling (TCRM)，通过在标准Bradley-Terry loss上添加两项正则化项，使reward model在任意token位置的输出等于最终reward的条件期望。该方法无需改变架构或数据，即可实现可解释的token级reward轨迹，并在ProcessBench上取得领先性能，同时支持PPO中reward/value的统一建模以降低GPU内存和计算时间。

Collocation-based Robust Physics Informed Neural Networks for time-dependent simulations of pollution propagation under thermal inversion conditions on Spitsbergen

Leszek Siwik et al.

cs.LG cs.NE

本文提出了一种基于配点法的鲁棒物理信息神经网络框架，用于模拟移动排放源随时间变化的污染传播问题，并建立了时间依赖对流扩散问题的变分形式及其稳定性分析。该工作主要关注实际应用场景，在方法上未体现与关键词（如code, context, spectral, Muon, pretrain, agent, attention）的直接契合。

On-Device Vision Training, Deployment, and Inference on a Thumb-Sized Microcontroller

Jeremy Ellis

cs.LG cs.CV

本文介绍了一种在拇指大小的微控制器（Seeed Studio ESP32-S3 XIAO ML Kit）上实现的完整端到端视觉机器学习流程，包括数据采集、两层CNN训练和实时推理，所有步骤均在设备本地完成，无需云端依赖。该工作主要贡献在于为资源受限的嵌入式系统提供了实用的部署方案，但方法本身在算法或理论层面缺乏显著的开创性。

Complex SGD and Directional Bias in Reproducing Kernel Hilbert Spaces

Natanael Alpay, Emeric Battaglia

cs.LG math.CV math.NA

本文提出了Complex SGD方法，允许在complex-valued neural networks中使用complex parameters，并提供了收敛性保证。该方法在complex reproducing kernel Hilbert spaces的kernel regression问题中展示了有效性，但与我提供的关键词列表关联度较低。

Preserving Long-Tailed Expert Information in Mixture-of-Experts Tuning

Haoze He et al.

cs.LG cs.CL

本文针对MoE模型微调中长尾专家信息丢失的问题，提出了一种无辅助损失的SFT框架，通过偏置驱动的稀疏化和始终激活的冷凝专家来保留信息。实验表明该方法在数学推理和常识问答基准上优于现有基线。

A Differentiable Framework for Global Circulation Model Precipitation Bias Correction

Kamlesh Sawadekar et al.

cs.LG

本文提出了一种名为$\delta$CLIMBA的可微偏差校正框架，用于修正全球环流模型(GCM)中降水输出的系统性偏差。该方法通过学习历史CMIP6模型输出与参考再分析数据集之间的自适应参数化调整过程，在捕捉极端降水事件方面表现良好，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Shape of Memory: a Geometric Analysis of Machine Unlearning in Second-Order Optimizers

Kennon Stewart

cs.LG cs.IT cs.SI stat.ML

本文比较了一阶和二阶优化器在机器遗忘任务中的表现，发现二阶优化器在状态中残留了无法通过一阶分析检测的几何信息（记忆），并探讨了通过特征分解处理来擦除这些信息的方法。

ML-Guided Primal Heuristics for Mixed Binary Quadratic Programs

Weimin Huang et al.

cs.LG math.OC

本文提出了一种基于ML的primal heuristics方法，通过新的神经网络架构和训练数据收集流程来求解Mixed Binary Quadratic Programs (MBQPs)，并改进了损失函数。实验表明该方法在标准与真实世界基准上优于现有heuristics和求解器，但与关键词列表中的概念无直接关联。

K-Score: Kalman Filter as a Principled Alternative to Reward Normalization in Reinforcement Learning

Zixuan Xia, Quanxi Li

cs.LG cs.AI

本文提出将一维Kalman filter集成到policy gradient强化学习中，作为reward normalization的替代方案，通过递归估计潜在reward均值来平滑高方差回报并适应非平稳环境。实验表明该方法在LunarLander和CartPole任务上能加速收敛并降低训练方差。

C-MORAL: Controllable Multi-Objective Molecular Optimization with Reinforcement Alignment for LLMs

Rui Gao et al.

cs.LG cs.AI

本文提出C-Moral框架，利用reinforcement learning对large language models进行后训练，以解决多目标分子优化中的约束对齐问题。该方法通过分组相对优化和属性得分对齐来平衡竞争性药物设计目标，在C-MuMOInstruct基准上取得了优于现有模型的性能。

RL Token: Bootstrapping Online RL with Vision-Language-Action Models

Charles Xu et al.

cs.LG cs.RO

本文提出了一种名为RL Token (RLT)的轻量级方法，通过在预训练的Vision-Language-Action (VLA)模型中暴露一个紧凑的"RL token"表示，并结合一个小型的actor-critic head，实现了对VLA模型的高效在线强化学习微调。该方法在多个真实机器人任务上显著提升了操作速度和成功率，但并未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词所代表的特定技术方向。

Channel Adaptation for EEG Foundation Models: A Systematic Benchmark Across Architectures, Tasks, and Training Regimes

Kuntal Kokate et al.

cs.LG

本文系统比较了四种channel adaptation方法（Conv1d projection, spherical spline interpolation, source-space decomposition, Riemannian re-centering）在五个预训练EEG foundation model上的表现，发现最优方法依赖于模型架构和任务，且紧凑模型CBraMod在多数数据集上优于更大模型。

ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

Yizheng Huang et al.

cs.LG cs.AI stat.ML

ProEval提出了一种基于预训练Gaussian Process的主动评估框架，通过Bayesian quadrature估计生成式AI模型的性能，并利用superlevel set采样发现失败案例。该方法在推理、安全对齐等基准测试中比基线方法更高效。

Unstable Rankings in Bayesian Deep Learning Evaluation

Qishi Zhan et al.

cs.LG

本文指出在数据稀缺时，贝叶斯深度学习方法的排名不可靠且依赖于数据集，并采用Bayesian hierarchical model将评估指标视为随机变量，使用predictive Minimum Detectable Difference曲线来评估观测差距的可检测性。该工作强调了在低数据设置下进行不确定性感知评估的必要性，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

Conditional Imputation for Within-Modality Missingness in Multi-Modal Federated Learning

Wugeng Zheng et al.

cs.LG

本文提出CondI框架，使用conditional diffusion models显式处理多模态联邦学习中的模态内缺失问题，通过两阶段训练实现数据插补与特征提取。实验在三个临床数据集上验证了其有效性。

A Tale of Two Variances: When Single-Seed Benchmarks Fail in Bayesian Deep Learning

Qishi Zhan et al.

cs.LG

本文研究了贝叶斯深度学习在有限数据设置下，单一随机种子评估指标（如CRPS）的方差行为。实验发现，具有异方差方差头的方法（如MAP和Deep Ensembles）在中等训练规模时会出现显著的方差峰值，而MC Dropout等方法则表现平滑。该工作揭示了单种子基准测试的潜在失败风险，并建议实践者报告轨迹摘要并集中重复评估。

HBGSA: Hydrogen Bond Graph with Self-Attention for Drug-Target Binding Affinity Prediction

Junxiao Kong et al.

cs.LG

本文提出HBGSA模型，通过图神经网络和自注意力机制编码氢键空间特征，并引入Pearson correlation loss来改进药物-靶标结合亲和力预测，在PDBbind和CSAR-HiQ数据集上表现优于基线方法。

h-MINT: Modeling Pocket-Ligand Binding with Hierarchical Molecular Interaction Network

Yanru Qu et al.

cs.LG

本文提出了一种名为h-MINT的层次化分子相互作用网络，用于建模口袋-配体结合。该方法通过OverlapBPE分词技术允许分子片段重叠，从而保留更完整的化学上下文信息，并在原子和片段两个层次上联合建模相互作用。实验表明，该方法在结合亲和力预测和虚拟筛选等任务上优于现有方法。

Surface Sensitivity in Lean 4 Autoformalization

William Feng, Ethan Lou, Aryan Sharma

cs.LG

本文研究了Lean 4自动形式化中自然语言变体对形式化输出的影响，发现语义等价的定理表述变体主要影响编译是否通过，而非成功编译后的语义差异。

Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns

Abhimanyu Bambhaniya et al.

cs.LG cs.AI cs.AR

本文通过分析Llama 4 Maverick、DeepSeek V3-671B和Qwen3-230B-A22B等开源MoE模型的专家激活模式，发现专家负载不均、领域特定激活等特性，并提出基于工作负载的微批分组和专家放置策略，以减少多节点部署中的all-to-all通信开销。

Efficient VQ-QAT and Mixed Vector/Linear quantized Neural Networks

Terry Gou, Puneet Gupta

cs.LG cs.AR

本文研究了基于vector quantization (VQ)的模型权重压缩技术，采用了cosine similarity-based assignment和differentiable neural architecture search (NAS)来优化压缩过程。该方法在量化级别上未能一致优于现有方法，但为VQ-based模型压缩的设计权衡提供了见解。

Follow the TRACE: Exploiting Post-Click Trajectories for Online Delayed Conversion Rate Prediction

Xinyue Zhang, Yuanhao Ding, Xiang Ao

cs.LG

本文针对在线CVR预测中的延迟反馈问题，提出了一种利用点击后行为轨迹（feedback trajectory）的方法TRACE，通过动态评估累积反馈状态与转化/非转化的一致性来优化后验概率，并设计了可靠性门控回顾补全模块以缓解早期轨迹稀疏性。实验表明该方法优于现有基线。

A Layer Separation Optimization Framework for Cross-Entropy Training in Deep Learning

Yaru Liu, Michael K. Ng, Yiqi Gu

cs.LG math.OC

本文提出了一种层分离优化框架，通过引入与隐藏层输出相关的辅助变量来分解深度嵌套的交叉熵优化问题，并设计了交替最小化算法。实验表明该方法在fully connected和convolutional neural networks上能改善优化行为。

Contrastive Learning for Multimodal Human Activity Recognition with Limited Labeled Data

Long Jing et al.

cs.LG cs.CV

本文提出CLMM，一种用于多模态人类活动识别的对比学习框架，采用两阶段训练策略：第一阶段用CNN-DiffTransformer编码器提取跨模态共享信息，第二阶段用双分支架构捕获模态特定信息。实验表明该方法在有限标注数据下提升了识别精度。

An Analysis of Active Learning Algorithms using Real-World Crowd-sourced Text Annotations

Varun Totakura et al.

cs.LG cs.AI cs.NI

本文通过众包平台收集了三个基准文本分类数据集的真实标注，并实验评估了8种常用主动学习算法在存在标注噪声和拒绝标注情况下的性能，揭示了现实挑战对算法效果的影响。

CombiMOTS: Combinatorial Multi-Objective Tree Search for Dual-Target Molecule Generation

Thibaud Southiratn et al.

cs.LG cs.AI

本文提出CombiMOTS框架，使用Pareto Monte Carlo Tree Search (PMCTS)在可合成片段空间中搜索，通过向量化优化约束同时处理靶点亲和力和理化性质，以生成双靶点分子。实验表明该方法能产生新颖、多样且药理学性质平衡的分子。

GIFT: Global stabilisation via Intrinsic Fine Tuning

Rory Young, Nicolas Pugeault

cs.LG cs.AI

本文提出GIFT框架，通过定制reward function直接优化深度强化学习策略的全局稳定性，在保持任务性能的同时减少对初始条件的敏感性，从而提升策略在现实控制系统中的适用性。

Layer Embedding Deep Fusion Graph Neural Network

Taihua Xu et al.

cs.LG cs.AI

本文提出LEDF-GNN框架，通过层嵌入深度融合算子（LEDF）非线性融合多层嵌入以缓解深度传播退化，并采用双拓扑并行策略（DTPS）同时利用原始与重构拓扑来适应不同同质性条件。实验表明该方法在多种图类型上优于现有基线。

Process Supervision of Confidence Margin for Calibrated LLM Reasoning

Liaoyaqi Wang et al.

cs.LG cs.CL

本文提出RLCM框架，通过引入置信度边际增强的过程奖励来优化LLM推理的校准性，在数学、代码等基准上提升了置信度可靠性。该方法主要关注推理过程中的置信度校准，与关键词中的code有一定关联但契合度有限。

TEMPO: Transformers for Temporal Disease Progression from Cross-Sectional Data

Hongtao Hao, Joseph L. Austerweil

cs.LG

本文提出了一种名为TEMPO的Transformer架构，用于从横截面数据推断疾病进展的序贯和连续事件序列。该方法通过模拟监督学习训练两个Transformer模块，分别处理生物标志物排序和患者疾病分期，在合成基准和ADNI数据集上取得了优于传统Event-Based Models的效果。

When Context Sticks: Studying Interference in In-Context Learning

Hanna Rød et al.

cs.LG

本文通过synthetic regression tasks研究了in-context learning中的context stickiness现象，发现先前示例会干扰transformer适应后续任务的能力，并分析了不同训练curricula对模型恢复速度的影响。

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

Bingda Tang et al.

cs.LG cs.CV

本文提出V-GRPO方法，将基于ELBO的似然代理与GRPO算法结合，用于去噪生成模型的对齐训练。该方法在文本到图像合成任务中实现了最先进性能，并比现有方法快2-3倍。

Domain-Adapted Fine-Tuning of ECG Foundation Models for Multi-Label Structural Heart Disease Screening

Duc N. Do et al.

cs.LG

本文评估了多种ECG foundation model在结构性心脏病多标签筛查中的迁移学习策略，发现结合目标域自监督适应与选择性监督微调的方法性能最优，但未涉及code、context、spectral、Muon、agent或attention等关键词相关的新方法。

Approximating Uniform Random Rotations by Two-Block Structured Hadamard Rotations in High Dimensions

Tomer Zilca, Gal Mendelson

cs.LG cs.PF

本文研究了高维空间中用两区块结构Hadamard旋转近似均匀随机旋转的逼近质量，证明了固定坐标的Kolmogorov距离以$d^{-1/5}$阶收敛，但全向量分布的Wasserstein距离存在非消失下界，表明该方法在全局上不能作为均匀随机旋转的精确替代。

Evolve: A Persistent Knowledge Lifecycle for Small Language Models

Dikran Hovagimian

cs.LG cs.CL

本文提出Evolve架构，通过为小型语言模型配备持久化的教师编译知识库，并采用睡眠合并与使用驱动刷新机制，显著提升了模型在基准测试中的准确率，同时通过跨查询知识复用降低了教师模型的调用成本。该方法主要关注知识生命周期管理，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念关联度较低。

When Does Removing LayerNorm Help? Activation Bounding as a Regime-Dependent Implicit Regularizer

Lucky Verma

cs.LG cs.CL

本文研究了Dynamic Tanh (DyT)作为LayerNorm替代方案的效果，发现其激活边界化机制是一种依赖于训练regime的隐式正则化器。实验表明，DyT在小模型和数据匮乏场景下能改善验证损失，但在大模型或数据充足时反而造成性能下降，其效果与激活饱和程度密切相关。

Machine learning models for estimating counterfactuals in a single-arm inflammatory bowel disease study

Dan Liu et al.

cs.LG

本文利用机器学习模型（如LGBM）在单臂炎症性肠病研究中估计反事实结果，以替代传统对照组。研究结果表明虚拟对照组可作为有效替代方案，但方法本身并非开创性，且与关键词列表关联较弱。

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Divakar Kumar Yadav, Tian Zhao, Deepak Kumar

cs.LG cs.AI cs.AR

本文首次独立评估了NVIDIA CuTile在Hopper和Blackwell架构GPU上的AI工作负载性能，发现其效果高度依赖工作负载和架构，在B200上融合注意力性能可达1007 TFLOP/s，但在RTX PRO 6000上仅为FlashAttention-2的53%，而Triton则展现出更强的跨架构可移植性。

Hybrid JIT-CUDA Graph Optimization for Low-Latency Large Language Model Inference

Divakar Kumar Yadav, Tian Zhao

cs.LG cs.AI cs.AR

本文提出了一种混合JIT-CUDA Graph运行时框架，通过将transformer推理划分为静态和动态部分来减少LLM推理延迟，实验表明在短序列场景下相比TensorRT-LLM可降低TTFT达66.0%。该方法主要关注工程优化而非理论创新，与关键词列表中的概念关联较弱。

GeoCert: Certified Geometric AI for Reliable Forecasting

Regina Zhang et al.

cs.LG

GeoCert提出了一种几何AI框架，将预测、物理推理和形式验证统一在双曲流形上的可微计算中，通过负曲率诱导的收缩动力学实现鲁棒性和对数时间验证。该方法在能源、气候等系统中降低了97.5%的计算成本，但未涉及code、context或spectral等关键词。

Supernodes and Halos: Loss-Critical Hubs in LLM Feed-Forward Layers

Audrey Cherilyn, Houman Safaai

cs.LG cs.CL

本文研究了transformer feed-forward networks (FFNs)中channel级别的重要性组织，使用基于activation-gradient二阶矩的Fisher-style loss proxy (LP)发现损失敏感性集中在每层的一小部分channel中（称为supernodes），并观察到围绕这些核心的halo结构。通过结构化剪枝实验表明，保护这些loss-critical channel对于维持模型性能至关重要。

Do Synthetic Trajectories Reflect Real Reward Hacking? A Systematic Study on Monitoring In-the-Wild Hacking in Code Generation

Lichen Li et al.

cs.LG

本文系统研究了代码生成中reward hacking现象，发现通过prompt诱导的合成hacking轨迹与RL训练中自然出现的hacking行为存在显著差异，且基于合成数据训练的monitor无法泛化到真实hacking场景。作者通过修改GRPO算法并引入“resampling-until-hack”机制来收集真实hacking轨迹，实验表明基于真实轨迹训练的monitor具有更强的泛化能力。

Interpretable Physics-Informed Load Forecasting for U.S. Grid Resilience: SHAP-Guided Ensemble Validation in Hybrid Deep Learning Under Extreme Weather

Md Abubakkar, Sajib Debnath, Md. Uzzal Mia

cs.LG cs.AI

本文提出了一种可解释的物理信息融合深度学习框架用于短期电力负荷预测，结合CNN和Transformer分支，并通过SHAP提供可解释性。该方法在极端天气下提升了预测精度，但未涉及代码、上下文、谱方法、Muon、预训练、智能体或注意力机制等关键词。

Autocorrelation Reintroduces Spectral Bias in KANs for Time Series Forecasting

Chen Zeng, Jiahui Wang, Qiao Wang

cs.LG cs.AI

本文发现时间序列预测中输入的强时间自相关性会重新引入KANs中的spectral bias（频谱偏差），且偏差随自相关程度增加而加剧。为解决此问题，作者引入Discrete Cosine Transform (DCT) 来降低网络输入间的相关性，实验表明DCT预处理能有效减少TSF任务中的低频偏好。

When PINNs Go Wrong: Pseudo-Time Stepping Against Spurious Solutions

Sifan Wang et al.

cs.LG

本文指出Physics-informed neural networks (PINNs)在训练中可能收敛到虚假解，并重新审视了pseudo-time stepping技术。作者提出了一种基于local residual Jacobian的有限差分代理的自适应步长选择策略，以提升训练的鲁棒性和准确性。

On the Memorization of Consistency Distillation for Diffusion Models

Bingqing Jiang, Difan Zou

cs.LG cs.AI stat.ML

本文研究了consistency distillation对diffusion models中memorization行为的影响，发现蒸馏能显著减少学生模型对训练数据的记忆，同时保持甚至提升样本质量。通过随机特征神经网络模型的理论分析，解释了蒸馏如何抑制与memorization相关的不稳定特征方向。

CAPSULE: Control-Theoretic Action Perturbations for Safe Uncertainty-Aware Reinforcement Learning

Rahul Narava et al.

cs.LG cs.AI

本文提出了一种名为CAPSULE的安全强化学习框架，通过离线学习概率控制仿射动力学模型，并利用该模型构建考虑模型不确定性的控制障碍函数(CBF)来提供保守的安全约束，通过在线约束修正机制实现安全探索。实验表明该方法在复杂连续控制任务中能显著减少安全违规。

Hamiltonian Graph Inference Networks: Joint structure discovery and dynamics prediction for lattice Hamiltonian systems from trajectory data

Ru Geng et al.

cs.LG math-ph

本文提出Hamiltonian Graph Inference Network (HGIN)，用于从轨迹数据中联合推断晶格Hamiltonian系统的交互拓扑并预测动力学。该方法通过可学习的加权邻接矩阵和基于k-means聚类的子图编码器，处理了可分离与非可分离Hamiltonian及异质节点动力学场景。

Rank, Head-Channel Non-Identifiability, and Symmetry Breaking: A Precise Analysis of Representational Collapse in Transformers

Giansalvo Cirrincione

cs.LG cs.CL stat.ML

本文分析了Transformer中表示坍塌的精确机制，指出层归一化保持仿射秩，残差连接在测度论意义上阻止秩坍塌，并识别了头-通道不可识别性现象。文章提出了一种位置门控输出投影作为部分补救措施，并将四种坍塌现象统一在对称性破缺框架下。

Can an MLP Absorb Its Own Skip Connection?

Antonij Mijoski, Marko Karbevski

cs.LG

本文研究了单隐藏层MLP的skip connection能否被同宽度的无残差MLP吸收的问题。对于ReLU和GELU等激活函数，吸收仅在权重矩阵满足特定非通用条件时成立，表明带skip connection与无残差的MLP通常表示不相交的函数类。

OptProver: Bridging Olympiad and Optimization through Continual Training in Formal Theorem Proving

Chenyi Li et al.

cs.LG cs.AI

本文提出OptProver，通过持续训练将Olympiad级别的形式定理证明器迁移到本科优化领域，利用大规模数据整理和偏好学习目标缓解分布偏移，并在Lean 4基准上取得领先性能。

Impact of Age Specialized Models for Hypoglycemia Classification

Beyza Cinar, Maria Maleshkova

cs.LG cs.AI cs.HC

本文利用DiaData数据集中的CGM数据，研究了基于年龄分组的低血糖分类模型与全局人口模型的效果对比。结果表明全局模型在多数情况下表现相似或更优，但儿童数据在年龄专用模型上获得了最佳召回率。

Transformer as an Euler Discretization of Score-based Variational Flow

Huadong Liao

cs.LG

本文提出Score-based Variational Flow (SVFlow)作为Transformer架构的连续时间动力学解释，证明球面SVFlow的前向Euler离散化可精确恢复Transformer结构，其中multi-head attention和MoE/FFN分别以不同方式近似SVFlow向量场。该工作为Transformer的启发式设计提供了理论统一视角。

SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning

Alexis Limozin et al.

cs.LG cs.AI cs.CL

本文指出近期混合策略优化方法在LLM推理中的改进源于DeepSpeed和OpenRLHF中的两个bug，修正后标准的SFT-then-RL pipeline在数学基准上显著优于所有已发表的混合策略方法。

The Override Gap: A Magnitude Account of Knowledge Conflict Failure in Hypernetwork-Based Instant LLM Adaptation

Shuaizhi Cheng, Xiang Shi, Mingwei Li

cs.LG cs.AI

本文研究了基于Hypernetwork的即时LLM适应方法（如Doc-to-LoRA）在知识冲突场景下的系统性失败，发现该失败源于adapter margin与pretrained margin之间的幅度差异而非表征问题。作者提出两种无需训练的补救方法：Selective Layer Boosting和Conflict-Aware Internalization，在Gemma-2B和Mistral-7B上显著提升了深度冲突的准确率，并发布了KID-Bench基准。

WISE-FM:Operation-Aware, Engineering-Informed Foundation Model for Multi-Task Well Design

Carine de Menezes Rebello, Anderson Rapello dos Santos, Idelfonso B. R. Nogueira

cs.LG

本文提出WISE-FM，一个结合FiLM、交叉注意力、多任务学习和物理约束的井设计感知基础模型，用于多任务井设计。实验表明该方法在虚拟流量计量和井底条件预测上优于基线，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词的核心概念。

A General Representation-Based Approach to Multi-Source Domain Adaptation

Ignavier Ng et al.

cs.LG stat.ML

本文提出了一种基于表示学习的通用多源域自适应框架，通过将标签的Markov blanket表示划分为父节点、子节点和配偶节点来实现分布偏移的捕获，并建立了可识别性保证。该方法不依赖独立隐变量或不变标签分布等限制性假设，适用于更一般的场景。

Causal Representation Learning from General Environments under Nonparametric Mixing

Ignavier Ng et al.

cs.LG stat.ML

本文研究了非参数混合函数下的一般环境中的因果表示学习问题，通过利用因果机制中直到三阶导数的充分变化条件，证明了可以完全恢复潜在有向无环图(DAG)并识别潜在变量（仅存在微小不确定性）。该工作放宽了现有方法对线性混合函数或特定干预类型的限制。

Reparameterization through Coverings and Topological Weight Priors

Maxim Beketov, Pavel Snopov

cs.LG

本文通过覆盖映射推广了变分自编码器中的重参数化技巧，使得潜在空间可以具有非平凡拓扑（如Klein瓶）。作者提出了“通过覆盖的重参数化”方法，并构建了KleinVAE模型进行验证。

JigsawRL: Assembling RL Pipelines for Efficient LLM Post-Training

Zhengding Hu et al.

cs.LG

本文提出了JigsawRL，一种通过Pipeline Multiplexing实现强化学习并行化的框架，通过子阶段图抽象和动态资源分配解决了流水线中的负载不均衡问题，在多种RL流水线和模型上实现了最高1.85倍的吞吐量提升。

Scalable Production Scheduling: Linear Complexity via Unified Homogeneous Graphs

Jonathan Hoss, Moritz Link, Noah Klarmann

cs.LG cs.AI

本文提出了一种基于统一同质图（unified homogeneous graph）的框架，通过特征同质化将不同节点角色投影到共享潜在空间，以线性复杂度解决作业车间调度问题（Job Shop Scheduling Problem），并验证了其在零样本泛化上的性能。该工作主要关注调度策略的可扩展性，与关键词中的code、context、spectral、Muon、pretrain、agent、attention无直接关联。

Graph Memory Transformer (GMT)

Nicola Zanarini, Niccolò Ferrari

cs.LG cs.AI cs.CL

本文提出Graph Memory Transformer (GMT)，用显式学习的记忆图（包含centroids和transition matrix）替换decoder-only transformer中的FFN子层，保持自回归架构。实验表明该模型在验证损失和perplexity上略逊于密集GPT基线，但提供了可解释的centroid使用和transition结构，验证了用图导航替代密集变换的可行性。

Inverting Foundation Models of Brain Function with Simulation-Based Inference

Niels Bracher, Xavier Intes, Stefan T. Radev

cs.LG cs.AI stat.ML

本文使用simulation-based inference方法，将TRIBEv2脑模拟器与LLM结合，从合成脑活动图中恢复语言刺激参数（如valence, arousal, dominance），验证了神经编码质量并展示了LLM作为可控刺激生成器的潜力。

Learning Interpretable PDE Representations for Generative Reconstructions with Structured Sparsity

Valerie Tsao, Nathaniel Chaney, Manolis Veveakis

cs.LG

本文提出LatentPDE，一种潜在扩散框架，通过将latent variables直接参数化为假设的PDE系数和源项，构建可解释的latent space，以同时解决稀疏观测重建和超分辨率问题。该方法在多种配置下实现了高保真恢复并跟踪预测不确定性。

Cardiac Stability Theory: An Axiomatically Grounded Framework for Continuous Cardiac Health Monitoring via Smartphone Photoplethysmography

Timothy Oladunni, Farouk Ganiyu Adewumi

cs.LG

本文提出了Cardiac Stability Theory (CST)，一个基于公理的心血管健康稳定性框架，并定义了Cardiac Stability Index (CSI)指标。该工作主要关注智能手机光电容积描记法(PPG)的连续心脏监测，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Geometry Preserving Loss Functions Promote Improved Adaptation of Blackbox Generative Model

Sinjini Mitra et al.

cs.LG cs.AI

本文提出了一种利用几何保持损失函数（geometry preserving loss functions）结合预训练GAN进行域自适应的端到端流程，通过保持切空间之间的成对距离来训练潜在生成模型。该方法在StyleGAN上展示了比传统损失函数更好的自适应效果。

Machine Learning and Deep Learning Models for Short Term Electricity Price Forecasting in Australia's National Electricity Market

Wei Lu et al.

cs.LG eess.SY

本文在澳大利亚国家电力市场的短期电价预测中，系统比较了多种Machine Learning和Deep Learning模型（如GBRT、LSTM等），发现基于树的模型在价格预测上优于LSTM和SVR，但所有模型的预测误差仍然较高。该研究主要侧重于工程化的基准框架对比，并未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Gromov-Wasserstein Methods for Multi-View Relational Embedding and Clustering

Rafael Pereira Eufrazio, Eduardo Fernandes Montesuma, Charles Casimiro Cavalcante

cs.LG stat.ML

本文提出Bary-GWMDS和Mean-GWMDS-C两种基于Gromov-Wasserstein距离的方法，用于多视角关系数据的嵌入与聚类。这些方法直接在distance matrices上操作，通过学习consensus embedding来保留共享的relational structure，并处理不同视角间的非线性扭曲。

Crystal structure prediction using graph neural combinatorial optimization

Stavros Gerolymatos et al.

cs.LG cs.AI

本文提出了一种基于graph neural network (GNN)的神经组合优化方法，用于晶体结构预测中的原子分配问题。该方法利用expander graph构建计算图以捕捉原子间的短程和长程相互作用，并通过Gumbel-Sinkhorn方法强制生成结构的化学计量比，在多种化学组成上优于经典启发式方法。

Robust and Clinically Reliable EEG Biomarkers: A Cross Population Framework for Generalizable Parkinson's Disease Detection

Nicholas R. Rasmussen et al.

cs.LG eess.SP q-bio.NC

本文提出了一种面向人群的评估框架，用于在跨站点设置下（如帕金森病检测）评估EEG生物标志物的鲁棒性，通过n-gram扩展策略枚举所有跨人群训练-测试配置，并利用嵌套交叉验证避免人群泄露。实验表明，多人群训练能提升模型准确率（最高达94.1%）和生物标志物稳定性，理论分析基于混合风险优化和假设空间收缩解释了这一现象。

Task-guided Spatiotemporal Network with Diffusion Augmentation for EEG-based Dementia Diagnosis and MMSE Prediction

Xiaoyu Zheng et al.

cs.LG cs.AI

本文提出了一种任务引导的时空网络(TGSN)，结合扩散增强方法用于EEG-based痴呆诊断和MMSE预测。该网络通过多频带特征融合、门控时空注意力模块和任务引导查询模块来缓解多任务学习中的特征纠缠问题，在多个数据集上取得了优于现有方法的性能。

DecompKAN: Decomposed Patch-KAN for Long-Term Time Series Forecasting

Naveen Mysore

cs.LG cs.AI stat.ML

本文提出DecompKAN，一种轻量级无attention架构，通过结合趋势残差分解、通道级patching、学习实例归一化和B-spline KAN边缘函数，用于长期时间序列预测。该模型在多个基准上取得有竞争力的MSE结果，并允许可视化学习到的1D标量函数，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Continual Calibration: Coverage Can Collapse Before Accuracy in Lifelong LLM Fine-Tuning

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

cs.LG

本文研究了大型语言模型在持续微调过程中，不确定性可靠性（通过conformal coverage和calibration error衡量）比准确率更早、更严重地退化的问题。作者提出了calibration replay方法，这是一种轻量级的后处理过程，通过维护任务特定的held-out buffer并重新拟合conformal threshold来恢复coverage，且不增加训练时的梯度成本。

Hindsight Preference Optimization for Financial Time Series Advisory

Yanwei Cui et al.

cs.LG cs.AI

本文提出Hindsight Preference Optimization方法，利用事后观察到的结果对候选金融时间序列建议进行偏好排序，从而无需人工标注即可生成用于DPO训练的偏好对。该方法将语言模型应用于股票市场预测建议，使4B模型在准确性和建议质量上超越其235B的教师模型。

Fix Initial Codes and Iteratively Refine Textual Directions Toward Safe Multi-Turn Code Correction

Yuto Tanaka, Issei Sato

cs.LG cs.AI

本文提出了一种简化的多轮代码修正方法IRTD，通过固定初始代码并迭代优化文本方向来提升推理性能，实验表明其效果与复杂方法相当。该方法主要关注代码生成任务，与关键词中的code和agent有一定关联，但缺乏开创性或解决长期问题的显著贡献。

When to Commit? Towards Variable-Size Self-Contained Blocks for Discrete Diffusion Language Models

Danny Wang, Ruihong Qiu, Zi Huang

cs.LG cs.CL

本文针对离散扩散语言模型(dLLM)中blockwise解码时训练与推理不匹配的问题，提出了一种基于自包含性(self-containedness)准则的可变大小自包含块(VSB)方法。该方法通过比较有无未来上下文时的token级预测分布差异来选择块边界，实验验证了其优于固定大小或启发式块解码。

Coverage-Based Calibration for Post-Training Quantization via Weighted Set Cover over Outlier Channels

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

cs.LG

本文针对大语言模型的后训练量化(PTQ)中校准集选择问题，提出将校准选择建模为关于outlier channels的加权集合覆盖问题，并给出贪心算法COVERCAL。实验表明该方法在低校准预算下优于随机等基线，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

FedSLoP: Memory-Efficient Federated Learning with Low-Rank Gradient Projection

Yutong He, Zhengyang Huang, Jiahe Geng

cs.LG math.OC

本文提出FedSLoP算法，通过随机低秩子空间投影降低梯度维度以减少通信和内存开销，并在非凸假设下证明了$O(1/\sqrt{NT})$的收敛速率。实验表明该方法在异构联邦学习场景中能有效降低资源消耗。

FlashOverlap: Minimizing Tail Latency in Communication Overlap for Distributed LLM Training

Rezaul Karim et al.

cs.LG cs.CV cs.DC

本文提出了一种名为FlashOverlap的通信-计算重叠技术，通过将传统的reduce-scatter和all-gather集合操作分解为点对点通信并调度分区计算，以消除分布式LLM训练中的尾延迟。该方法旨在缓解张量并行和数据并行中的通信瓶颈，实验表明其能实现更低的延迟和更高的模型算力利用率。

Geometry-Aware Offline-to-Online Learning in Linear Contextual Bandits

Zean Han et al.

cs.LG

本文研究了线性contextual bandits中的offline-to-online学习问题，提出了一种几何感知的置信区域方法Ellipsoidal-MINUCB，通过结合offline回归数据和shift certificate来收紧不确定性，并在对齐条件下实现了由offline几何诱导的有效维度控制的regret界。实验表明该方法在中等时间范围内表现最佳，否则退化为安全的online baseline。

A Limit Theory of Foundation Models: A Mathematical Approach to Understanding Emergent Intelligence and Scaling Laws

Jun Shu et al.

cs.LG math.ST

本文从极限理论的角度，为foundation models中的emergent intelligence和scaling laws提供了一个数学框架，通过引入性能函数并利用Lipschitz算子理论证明了极限架构存在的充要条件。

AgenticCache: Cache-Driven Asynchronous Planning for Embodied AI Agents

Hojoon Kim, Yuheng Wu, Thierry Tambe

cs.LG cs.AI cs.CL

本文提出AgenticCache框架，利用缓存重用机制避免具身AI代理在每一步都调用大语言模型(LLM)进行规划，通过异步缓存更新器在后台验证和优化缓存条目。实验表明该方法在多个基准测试中提升了任务成功率并降低了延迟和token消耗。

End-to-End Learning for Partially-Observed Time Series with PyPOTS

Wenjie Du et al.

cs.LG cs.AI

本文介绍了PyPOTS，一个用于部分观测时间序列（POTS）端到端数据挖掘和机器学习的开源Python生态系统，涵盖了缺失值模拟、数据预处理、模型训练及插补、预测、分类、聚类和异常检测等核心任务的工作流程。该教程面向实践者和开发者，旨在构建鲁棒、透明且可复用的POTS流水线。

Generalising maximum mean discrepancy: kernelised functional Bregman divergences

Russell Tsuchida, Frank Nielsen

cs.LG cs.CV cs.IT

本文将Bregman divergences推广到Hilbert空间上的函数版本，通过核均值嵌入简化估计，并讨论了在聚类和生成建模中的应用。

FreeScale: Distributed Training for Sequence Recommendation Models with Minimal Scaling Cost

Chenhao Feng et al.

cs.LG cs.AI cs.DC cs.IR

本文提出FreeScale，一种用于序列推荐模型分布式训练的系统，通过负载均衡输入样本和重叠通信与计算来减少计算气泡，在256块H100 GPU上实现了高达90.3%的计算气泡减少。

Explaining Temporal Graph Predictions With Shapley Values

Lea-Marie Sussek, Stefan Heindorf

cs.LG

本文提出了两种基于Shapley和Owen值的模型无关解释器，用于解释Temporal Graph Neural Networks (TGNNs)的局部预测，包括事件级和特征级解释方法，并在多个指标和数据集上优于现有方法。

Meta-Ensemble Learning with Diverse Data Splits for Improved Respiratory Sound Classification

June-Woo Kim et al.

cs.LG cs.AI

本文提出了一种基于元集成学习的方法，通过在不同数据划分（如固定80-20%划分和五折交叉验证）上训练base models，并利用一个meta-model整合其输出，以提升呼吸音分类的鲁棒性。该方法在ICBHI基准上取得了新的最优性能，并在两个分布外数据集上展现了更好的泛化能力。

Fed-DLoRA: Efficient Wireless Federated Learning with Dynamic Low-Rank Adaptation

Huaicheng Li et al.

cs.LG eess.SY

本文提出了一种名为Fed-DLoRA的轻量级联邦学习算法，结合低秩适应(LoRA)技术来减少参数和通信开销，并通过奇异值分解进行收敛性分析。实验表明该方法在车联网场景下相比传统联邦学习具有更好的精度和收敛速度。

Leveraging Human Feedback for Semantically-Relevant Skill Discovery

Maxence Hussonnois, Thommen George Karimpanal, Santu Rana

cs.LG cs.AI

本文提出了一种名为Semantically Relevant Skill Discovery (SRSD)的强化学习方法，通过引入人类反馈中的语义标签来引导agent发现更具语义多样性和相关性的行为。该方法旨在解决无约束技能发现可能产生不安全或不对齐行为的问题，并在2D导航和运动环境中验证了其有效性。

Machine-Learning-Based Classification of Radio Frequency Building Loss

Jiayi Tan et al.

cs.LG

本文提出了一种基于机器学习的射频建筑损耗分类框架，结合众包用户设备数据和公开建筑信息，使用随机森林、XGBoost、LightGBM等模型进行监督与半监督学习，在室外到室内和室内到室内信号损耗预测上取得了精度提升。该方法为无线网络规划提供了数据驱动的替代方案。

Progressive Approximation in Deep Residual Networks: Theory and Validation

Wei Wang, Xiao-Yong Wei, Qing Li

cs.LG cs.AI

本文重新审视了深度残差网络，将其视为从输入到目标的逐层逼近过程，并证明了误差随深度单调递减的渐进轨迹存在性。基于此，提出了与架构无关的逐层渐进逼近训练原则，支持单网络多深度部署。

Meta-Aligner: Bidirectional Preference-Policy Optimization for Multi-Objective LLMs Alignment

Wenzhe Xu et al.

cs.LG cs.AI

本文提出了一种名为Meal的双层元学习框架，用于多目标LLM对齐，通过引入偏好权重网络作为元学习器来生成动态偏好权重，并利用拒绝采样策略优化策略响应。该方法在多个基准上取得了较好性能，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

CMGL: Confidence-guided Multi-omics Graph Learning for Cancer Subtype Classification

Boyang Fan et al.

cs.LG q-bio.GN q-bio.MN

本文提出CMGL框架，通过evidential deep learning估计每个样本的模态可靠性，并利用冻结的置信度分数指导跨组学融合和图构建，在多个癌症亚型分类任务上提升了性能。该方法主要关注多组学数据整合中的噪声问题，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

IMPA-Net: Meteorology-Aware Multi-Scale Attention and Dynamic Loss for Extreme Convective Radar Nowcasting

Haofei Cui et al.

cs.LG

本文提出IMPA-Net，一种用于0-2小时极端对流雷达临近预报的确定性框架。该方法通过气象感知的输入重组、多尺度attention模块和动态损失函数，在东部中国雷达数据集上提升了强回波（$\geq$45 dBZ）的Heidke Skill Score。

GeoEdit: Local Frames for Fast, Training-Free On-Manifold Editing in Diffusion Models

Yiming Zhang et al.

cs.LG

本文提出了一种基于局部流形切空间估计的免训练扩散模型编辑方法GeoEdit，通过从扰动样本中估计切空间并构建Jacobian-free的切向框架，实现了在数据流形上的快速连续编辑。该方法无需重新运行完整去噪轨迹或额外训练，通过控制编辑步数实现精细调整，并保持了生成保真度。

BitRL: Reinforcement Learning with 1-bit Quantized Language Models for Resource-Constrained Edge Deployment

Md. Ashiq Ul Islam Sajid et al.

cs.LG

本文提出BitRL框架，将1-bit量化语言模型（使用三元权重-1,0,+1）与强化学习结合，用于资源受限的边缘设备部署。该框架在保持85-98%任务性能的同时，实现了10-16倍的内存缩减和3-5倍的能效提升，并提供了量化策略梯度的收敛性理论分析。

Model-Free Inference of Investor Preferences: A Relative Entropy IRL Approach

Chen Xu

cs.LG

本文使用Relative Entropy Inverse Reinforcement Learning (RE-IRL)框架从观测的投资行为和市场条件中恢复投资者reward function，并采用$K$-nearest neighbor方法处理数据稀疏性。该方法主要应用于金融领域的agent行为建模。

Latent-Hysteresis Graph ODEs: Modeling Coupled Topology-Feature Evolution via Continuous Phase Transitions

Qinhan Hou, Jing Tang

cs.LG cs.AI

本文指出具有严格正不可约混合算子的Graph ODEs存在单稳态陷阱，即长期演化中信息泄露并收敛到全局共识。为此提出Hysteresis Graph ODE (HGODE)，通过双阱边缘势和双极化门将特征演化与潜在拓扑势耦合，使边状态在可微条件下极化为连接或绝缘相，并在合成诊断和真实图基准上验证了效果。

SolarTformer: A Transformer Based Deep Learning Approach for Short Term Solar Power Forecasting

Ankan Basu et al.

cs.LG cs.AI physics.comp-ph

本文提出了一种基于Transformer架构的深度学习模型SolarTformer，用于短期太阳能功率预测。该模型利用self-attention机制捕捉时间依赖性和空间变异性，并通过加入电站元数据提升泛化能力，实验表明其性能优于传统模型。

Self-Abstraction Learning for Effective and Stable Training of Deep Neural Networks

Wonyong Cho et al.

cs.LG cs.AI

本文提出了一种名为Self-Abstraction Learning (SAL)的分层训练框架，通过按结构复杂度排列网络并让简单网络指导复杂网络，以缓解梯度消失和过拟合等问题。实验表明该方法在MLP、CNN和RNN架构上优于传统训练方式，但与关键词列表中的概念关联较弱。

Mitigating Error Amplification in Fast Adversarial Training

Mengnan Zhao et al.

cs.LG cs.CR

本文分析了快速对抗训练中灾难性过拟合和鲁棒性-准确性权衡问题，发现低置信度样本是主要诱因，并提出了一种分布感知动态引导策略，通过动态调整扰动幅度和监督信号来缓解这些问题。实验表明该方法在标准基准上有效。

Perfecting Aircraft Maneuvers with Reinforcement Learning

Atahan Cilan et al.

cs.LG

本文使用reinforcement learning agents模拟了多种飞机特技动作，旨在为未来飞行员开发AI辅助训练模块。

Unveiling the Backdoor Mechanism Hidden Behind Catastrophic Overfitting in Fast Adversarial Training

Mengnan Zhao et al.

cs.LG cs.AI cs.CR

本文从后门攻击的视角重新解释了快速对抗训练中的灾难性过拟合现象，将其视为一种弱触发变体，并统一了灾难性过拟合、后门攻击与不可学习任务的理论框架。基于此，作者提出了几种缓解策略，包括微调、线性探测和权重异常抑制约束。

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Zhongjie Duan, Hong Zhang, Yingda Chen

cs.LG cs.AI cs.CV cs.SE

本文提出了Diffusion Templates，一个统一的插件框架，通过解耦基础模型推理与可控能力注入，支持多种可控扩散任务（如结构控制、亮度调整等），并兼容KV-Cache和LoRA等异构能力载体。该框架旨在解决现有可控扩散方法碎片化的问题，但未涉及关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念。

An Aircraft Upset Recovery System with Reinforcement Learning

Mahir Demir et al.

cs.LG

本文探讨了利用强化学习（Reinforcement Learning）构建飞行员激活恢复系统（PARS）的进展，该系统采用软演员-评论家（SAC）模型和超参数优化方法，并考虑了负重力惩罚等专家特征。实验表明，该AI模型的行为比传统控制方法更优。

DPRM: A Plug-in Doob h transform-induced Token-Ordering Module for Diffusion Language Models

Dake Bu et al.

cs.LG cs.AI

本文提出DPRM，一个基于Doob h变换的即插即用token排序模块，用于扩散语言模型。它通过在线估计从置信度驱动排序逐渐过渡到Doob h变换引导的排序，并证明了其收敛性和样本复杂度优势。实验表明DPRM在预训练、后训练和测试时扩展中优于基于置信度的基线，尤其在困难推理子集上提升显著。

SAGE: Sparse Adaptive Guidance for Dependency-Aware Tabular Data Generation

Shuo Yang et al.

cs.LG

本文提出SAGE框架，通过将特征离散化为值感知伪特征并构建基于互信息的稀疏依赖图，引导LLM生成表格数据。该方法解决了现有LLM方法中特征依赖密集和静态的问题，提升了数据保真度和下游任务性能。

PathMoG: A Pathway-Centric Modular Graph Neural Network for Multi-Omics Survival Prediction

Di Wang et al.

cs.LG cs.AI

PathMoG提出了一种基于pathway的modular graph neural network，用于多组学癌症生存预测。它通过将基因组输入重组为KEGG pathway模块，并利用hierarchical attention机制整合突变、拷贝数变异等上下文信息，在多个TCGA数据集上取得了改进。

Complexity of Linear Regions in Self-supervised Deep ReLU Networks

Mufhumudzi Muthivhi, Terence L. van Zyl

cs.LG cs.CV

本文研究了自监督深度ReLU网络中线性区域（piecewise-linear partitions）的复杂度，通过SplineCam提取数据分布附近的二维polytopes，追踪了区域数量、面积、离心率和边界在训练过程中的演化。实验表明自监督方法比监督方法产生更少的线性区域，且对比方法和自蒸馏方法在区域演化上表现出不同模式。

An Automatic Ground Collision Avoidance System with Reinforcement Learning

Seyyid Osman Sevgili et al.

cs.LG cs.RO

本文评估了一种基于强化学习的自动地面防撞系统，用于高级喷气教练机，通过视线查询地形服务器来避免碰撞。该系统旨在提升操作安全性和效率，但方法在数学理论上的开创性有限。

Advancing Ligand-based Virtual Screening and Molecular Generation with Pretrained Molecular Embedding Distance

Shiyun Wa et al.

cs.LG

本文提出pretrained embedding distance (PED)作为传统分子相似性度量的替代方案，直接从预训练分子模型中计算得到，无需任务特定训练。实验表明PED在虚拟筛选和分子生成中表现有效，但方法本身并非开创性突破，且与关键词契合度一般。

SceneSelect: Selective Learning for Trajectory Scene Classification and Expert Scheduling

Xinrun Wang et al.

cs.LG

本文提出了一种名为SceneSelect的场景中心范式，通过无监督聚类对轨迹场景进行分类，并调度不同的专家模型进行预测，以解决轨迹预测中的场景异质性问题。该方法在多个基准上取得了平均10.5%的性能提升，但未涉及关键词中的code, spectral, Muon, pretrain, agent或attention等核心概念。

Prior-Agnostic Robust Forecast Aggregation

Zhi Chen, Cheng Peng, Wei Tang

cs.LG cs.GT

本文研究先验无关的鲁棒预测聚合问题，允许未知状态值为[0,1]中的任意数，并提出一个简单的log-odds聚合器（在logit空间线性池化预测），在条件独立信号结构下实现了0.0255的最坏情况regret，并给出了接近紧的minimax-regret保证。

A Reward-Free Viewpoint on Multi-Objective Reinforcement Learning

Ying-Tu Chen et al.

cs.LG

本文提出将reward-free reinforcement learning (RFRL)的训练目标作为辅助任务来增强multi-objective reinforcement learning (MORL)，通过引入偏好引导的探索策略，在MO-Gymnasium任务上取得了优于现有MORL方法的性能和数据效率。

Stochastic simultaneous optimistic optimization

Michal Valko, Alexandra Carpentier, Rémi Munos

cs.LG stat.ML

本文提出了一种名为StoSOO的随机同时乐观优化算法，用于在仅知函数局部光滑（相对于某个半度量）的弱假设下，通过带噪声的有限次评估实现全局最大化。该算法无需预先知道该半度量，通过乐观策略迭代构建分层分区上的置信上界来选择采样点。

Dialysis Risk Prediction and Treatment Effect Estimation for AKI patients using Longitudinal Electronic Health Records

Kalyani P. Pande et al.

cs.LG

本文构建了一个基于Transformer的因果多头模型，利用纵向电子健康记录预测AKI患者进展至透析或终末期肾病的风险，并估计药物暴露的平均治疗效果。模型在预测任务上表现有限，但通过反事实分析揭示了部分药物的潜在保护或恶化方向。

Efficient learning by implicit exploration in bandit problems with side observations

Tomas Kocak et al.

cs.LG stat.ML

本文研究了部分可观测bandit问题中的在线学习，提出了一种基于隐式探索的新算法，该算法无需事先知道观测系统即可获得接近最优的regret保证，并扩展到了组合优化场景。

Fraud Detection in Cryptocurrency Markets with Spatio-Temporal Graph Neural Networks

Lidia Losavio et al.

cs.LG cs.CE

本文提出三种基于聚合小时市场数据的图构建方法，并采用结合attention的空间聚合与temporal Transformer编码的spatio-temporal GNN架构，用于检测加密货币市场中的欺诈行为。实验表明，基于图的方法相比标准机器学习基线在检测异常事件上有显著提升。

Uncovering Latent Patterns in Social Media Usage and Mental Health: A Clustering-Based Approach Using Unsupervised Machine Learning

Md All Shahria et al.

cs.LG

本文使用K-Means聚类和PCA降维技术，对551名参与者的社交媒体使用与心理健康数据进行分析，识别出6个用户群体。研究揭示了社交媒体使用时长与焦虑等心理指标间的相关性，但方法上未涉及关键词中的spectral、Muon或attention等前沿技术。

Cortex-Inspired Continual Learning: Unsupervised Instantiation and Recovery of Functional Task Networks

Kevin McKee et al.

cs.LG cs.AI q-bio.NC

本文提出了一种受哺乳动物新皮层启发的参数隔离方法Functional Task Networks (FTN)，用于解决块序列持续学习中的灾难性遗忘问题。该方法通过一个三阶段过程生成高维自组织二进制掩码，在小型深度网络群体上实现任务子网络的分离与恢复，并在多个基准测试中实现了近乎零遗忘。

The Last Human-Written Paper: Agent-Native Research Artifacts

Jiachen Liu et al.

cs.LG

本文提出了一种名为Agent-Native Research Artifact (Ara)的协议，旨在用机器可执行的研究包取代传统的线性叙事论文，以解决AI agent在理解、复现和扩展研究成果时面临的“叙事税”和“工程税”问题。该协议包含科学逻辑、可执行代码、探索图（保留失败实验）和证据层四个层次，并通过实验验证了其在问答准确率和复现成功率上的提升。

A Functorial Formulation of Neighborhood Aggregating Deep Learning

Sun Woo Park et al.

cs.LG math.AT

本文使用presheaves和copresheaves对卷积神经网络（或消息传递神经网络）进行了数学解释，并基于此提出了一个理论启发，通过拓扑空间上连续函数集成为sheaves或copresheaves的障碍来阐述这些网络的经验局限性。

Diffusion-Guided Feature Selection via Nishimori Temperature: Noise-Based Spectral Embedding

Vasiliy S. Usatyuk, Denis A. Sapozhnikov, Sergey I. Egorov

cs.LG

本文提出了一种基于Nishimori温度的噪声引导特征选择方法NBSE，通过构建稀疏相似图并利用Bethe Hessian矩阵的奇异点进行谱嵌入，实现了无需贪心搜索的高维特征选择。实验表明该方法在ImageNet嵌入上能有效压缩特征并保持分类精度。

Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

Hailing Cheng et al.

cs.LG cs.AI

本文提出了一种名为HDET的并行训练方法，通过让不同GPU副本使用不同的学习率进行训练并周期性平均参数，实现了超参数探索。该方法可自动调整学习率调度，并推广到dropout rate等其他标量超参数，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

SpecRLBench: A Benchmark for Generalization in Specification-Guided Reinforcement Learning

Zijian Guo et al.

cs.LG

本文提出了SpecRLBench基准，用于评估基于LTL的specification-guided RL方法的泛化能力，涵盖导航和操作领域中的静态与动态环境。实验揭示了现有方法在specification和环境复杂度增加时面临的挑战。

Learning to Think from Multiple Thinkers

Nirmit Joshi et al.

cs.LG cs.AI cs.CC stat.ML

本文研究了从多个思考者提供的Chain-of-Thought (CoT)监督中进行学习的问题，证明了在被动数据收集场景下，即使每个思考者都提供正确但可能系统不同的逐步解决方案，学习也可能在密码学假设下变得困难。同时，文章提出了一种主动学习算法，能以与目标精度$\varepsilon$无关的少量CoT数据实现高效学习。

Conflict-Aware Harmonized Rotational Gradient for Multiscale Kinetic Regimes

Zhangyong Liang

cs.LG

本文提出了一种名为HRGrad的协调旋转梯度方法，用于解决多尺度时间依赖动力学问题中的梯度冲突。该方法通过编码隐藏表示和引入梯度对齐度量，确保多任务学习的稳定优化，并在BGK方程和线性输运方程上验证了有效性。

The Optimal Sample Complexity of Multiclass and List Learning

Chirag Pabbaraju

cs.LG stat.ML

本文证明了multiclass hypothesis class的最大hypergraph density被其DS dimension所界定，从而解决了Daniely和Shalev-Shwartz (2014)的一个长期猜想，并确定了multiclass和list learning中样本复杂度对DS维度的最优依赖关系。

cs.AI

Escher-Loop: Mutual Evolution by Closed-Loop Self-Referential Optimization ⭐ 精选

Ziyang Liu et al.

cs.AI

本文提出Escher-Loop，一种完全闭环的self-referential optimization框架，通过动态benchmarking机制实现Task Agents与Optimizer Agents的相互演化，无需人工干预。该方法在数学优化问题上持续突破静态baseline的性能上限，并观察到optimizer agents能自适应调整策略以匹配高性能task agents的演化需求，为agent系统的开放式改进提供了新范式。

ClawTrace: Cost-Aware Tracing for LLM Agent Skill Distillation ⭐ 精选

Boqin Yuan et al.

cs.AI

本文提出ClawTrace，一个用于LLM agent轨迹的成本感知追踪平台，它将每个agent session编译为包含每步USD成本、token计数和冗余标志的TraceCard。基于此，作者构建了CostCraft蒸馏管道，能生成三种skill patch：Preserve patches保留成功行为，Prune patches移除不影响结果的高成本步骤（通过反事实论证支持），Repair patches修复失败。实验表明，Prune patches在跨benchmark迁移时能将中位数成本降低32%，而Preserve patches因依赖特定benchmark惯例在新任务上导致性能下降。该工作为agent skill蒸馏提供了成本归因这一关键信号，并开源了基础设施。

QED: An Open-Source Multi-Agent System for Generating Mathematical Proofs on Open Problems ⭐ 精选

Chenyang An et al.

cs.AI math.AP

本文提出了一个名为QED的开源multi-agent系统，用于在开放数学问题上生成原创证明。该系统通过系统实验识别了LLM在研究级证明任务中的七种失败模式（如context contamination、citation hallucination等），并针对每种模式设计了专门的架构决策。在应用分析和PDE领域的五个开放问题上，QED成功为三个问题生成了被领域专家验证为原创且非平凡的证明，展示了AI在数学研究中的潜力。

Governing What You Cannot Observe: Adaptive Runtime Governance for Autonomous AI Agents ⭐ 精选

German Marin, Jatin Chaudhary

cs.AI

本文提出Informational Viability Principle，将自治AI agent的治理问题归结为对不可观测风险$\hat{B}(x) = U(x) + SB(x) + RG(x)$的界估计，并基于Aubin的viability theory构建Agent Viability Framework，确立monitoring (P1)、anticipation (P2)和monotonic restriction (P3)三个性质作为必要且充分条件。RiskGate作为该框架的实例化实现，通过KL divergence、segment-vs-rest $z$-tests等统计估计器以及标量Viability Index $VI(t) \in [-1,+1]$与一阶$t^*$预测，将治理从反应式转变为预测式，并形式化为Aubin regulation map的实例。该工作为agent安全治理提供了理论框架与参考实现，与关键词中的agent高度契合。

Learning to Rotate: Temporal and Semantic Rotary Encoding for Sequential Modeling ⭐ 精选

Hailing Cheng, Daqi Sun, Xinyu Lu

cs.AI

本文提出将Rotary Positional Embeddings (RoPE)中的旋转空间视为一个可学习的、信号条件化的维度，类比于复数中引入虚轴。作者引入SIREN-RoPE，通过双分支Sinusoidal Representation Network (SIREN)将连续时间戳、周期模式等异构信号填充到该旋转维度中，从而在attention机制中开辟了一个正交的自由度。在生成式推荐模型的新闻feed数据集上，该方法以极小的计算开销在calibration和ranking目标上取得了一致改进，为attention架构的序列建模提供了新的视角。

An Intelligent Fault Diagnosis Method for General Aviation Aircraft Based on Multi-Fidelity Digital Twin and FMEA Knowledge Enhancement

Zhihuan Wei et al.

cs.AI cs.LG

本文提出了一种基于多保真度数字孪生和FMEA知识增强的通用航空飞机智能故障诊断框架，通过JSBSim六自由度飞行动力学引擎构建数字孪生，并利用GRU代理模型实现实时残差计算。实验表明，该方法的配对镜像残差方案在20类故障诊断任务中达到了96.2%的Macro-F1，但整体方法与关键词中的code, context, spectral, Muon, pretrain, agent, attention关联较弱。

PExA: Parallel Exploration Agent for Complex Text-to-SQL

Tanmay Parekh et al.

cs.AI cs.CL

本文提出PExA框架，将text-to-SQL任务重构为软件测试覆盖问题，通过并行执行原子SQL测试用例来保证语义覆盖，最终在Spider 2.0基准上达到70.2%的执行准确率，但方法创新性有限且与关键词关联较弱。

The Power of Power Law: Asymmetry Enables Compositional Reasoning

Zixuan Wang et al.

cs.AI cs.CL cs.LG

本文研究了自然语言数据中幂律分布对模型组合推理能力的影响，发现幂律分布训练优于均匀分布，并通过理论分析揭示了其通过不对称性改善损失景观、促进长尾技能学习的机制。

On the Existence of an Inverse Solution for Preference-Based Reductions in Argumentation

Alessio Zaninotto et al.

cs.AI

本文研究了基于偏好的argumentation framework (PAF) 的逆问题，即给定一个argumentation graph、一个labeling和一种semantics，判断是否存在一个偏好关系使得该labeling成立。作者在complete semantics下考虑了四种最常用的偏好约简方法，并证明在大多数情况下该问题可以在多项式时间内解决。

Towards Causally Interpretable Wi-Fi CSI-Based Human Activity Recognition with Discrete Latent Compression and LTL Rule Extraction

Luca Cotti et al.

cs.AI

本文提出了一种基于Wi-Fi CSI的人类活动识别方法，通过离散变分自编码器将原始信号压缩为离散潜在表示，并从中提取线性时序逻辑规则以实现因果可解释的分类。该方法在保持竞争性能的同时，提供了显式的时序和因果结构，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

FormalScience: Scalable Human-in-the-Loop Autoformalisation of Science with Agentic Code Generation in Lean

Jordan Meadows, Lan Zhang, Andre Freitas

cs.AI cs.CL

本文提出了FormalScience，一个结合人类反馈的自动化形式化pipeline，用于将科学领域的非形式化数学推理（如物理问题）转化为Lean4形式化代码，并构建了FormalPhysics数据集。该工作主要关注agentic code generation和autoformalisation流程，但未直接涉及code、spectral、Muon、pretrain或attention等关键词的核心内容。

A Systematic Approach for Large Language Models Debugging

Basel Shbita et al.

cs.AI

本文提出了一种系统化的LLM调试方法，将模型视为可观测系统，通过统一评估、可解释性和错误分析来迭代诊断和优化模型。该方法旨在提升调试的效率和可复现性，但未涉及代码、谱方法或注意力机制等具体技术。

A Decoupled Human-in-the-Loop System for Controlled Autonomy in Agentic Workflows

Edward Cheng, Jeshua Cheng

cs.AI

本文提出了一种解耦的Human-in-the-Loop (HITL)系统架构，将人类监督作为agent运行环境中的独立组件，通过显式接口和结构化执行模型分离人类交互管理与应用工作流。该方法旨在提升多agent环境中HITL的可重用性和可扩展性，但未涉及code、spectral、Muon、pretrain或attention等关键词相关技术。

Don't Make the LLM Read the Graph: Make the Graph Think

Yuqi Sun et al.

cs.AI

本文研究了显式belief graphs在LLM多智能体协作推理中的效果，通过大量实验发现集成架构决定其价值，并识别出“Planner Defiance”这一模型族特定失败模式。

Analytica: Soft Propositional Reasoning for Robust and Scalable LLM-Driven Analysis

Junyan Cheng, Kyle Richardson, Peter Chin

cs.AI

本文提出了一种名为Analytica的LLM agent架构，基于软命题推理（SPR）原则，通过将复杂分析分解为子命题树并使用工具增强的grounder agent（如Jupyter Notebook agent）来减少偏差，同时利用鲁棒线性模型合成结果以降低方差，从而提升推理的稳定性和可扩展性。该方法在经济、金融和政治预测任务上提升了准确率并降低了方差，但并未直接涉及代码、谱方法或预训练等关键词。

Towards Automated Ontology Generation from Unstructured Text: A Multi-Agent LLM Approach

Abid Talukder, Maruf Ahmed Mridul, Oshani Seneviratne

cs.AI

本文提出了一种基于多智能体LLM的自动化本体生成方法，通过分解为领域专家、管理者、编码者和质量保证者四个角色来构建本体，并在保险领域文本上验证了其相比单智能体基线在结构质量和可查询性上的提升。

PhySE: A Psychological Framework for Real-Time AR-LLM Social Engineering Attacks

Tianlong Yu et al.

cs.AI

本文提出了PhySE框架，用于解决AR-LLM社会工程攻击中的冷启动个性化延迟和静态攻击策略问题。该框架通过VLM预训练和自适应心理agent，实现了实时社交画像生成与动态心理策略部署。

Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines

Sadman Kabir Soumik

cs.AI

本文系统评估了LLM-as-a-Judge流程中九种去偏策略的效果，发现风格偏差是主导偏差（0.76-0.92），远超过位置偏差（<=0.04），且所有模型在扩展对中表现出简洁性偏好，但截断控制表明它们能正确区分质量与长度。

From Coarse to Fine: Self-Adaptive Hierarchical Planning for LLM Agents

Haoran Tan et al.

cs.AI

本文提出了一种名为AdaPlan-H的自适应分层规划机制，用于LLM agents，通过从粗粒度到细粒度的渐进式细化来平衡任务复杂度。该方法在动态多步任务中提升了执行成功率，但未涉及code、spectral、Muon或attention等关键词。

StoryTR: Narrative-Centric Video Temporal Retrieval with Theory of Mind Reasoning

Xuanyue Zhong et al.

cs.AI

本文提出了StoryTR基准，用于评估视频时间检索中的Theory of Mind推理能力，并设计了Agentic Data Pipeline生成训练数据。实验表明，基于ToM引导数据训练的Shorts-Moment模型在叙事理解上显著优于大参数模型。

Discovering Agentic Safety Specifications from 1-Bit Danger Signals

Víctor Gallego

cs.AI cs.CL

本文提出EPO-Safe框架，使LLM agent仅通过稀疏的二进制危险信号（1-bit danger signals）就能自主发现安全行为规范。实验表明，该方法能在少量回合内生成可读的安全规范，并证明仅依赖奖励信号的反思会加剧奖励破解行为。

AdaMamba: Adaptive Frequency-Gated Mamba for Long-Term Time Series Forecasting

Xudong Jiang et al.

cs.AI

本文提出AdaMamba框架，通过将自适应频率分析集成到Mamba状态空间更新过程中，用于长期时间序列预测。该方法引入交互式patch编码模块和自适应频率门控状态空间模块，以动态校准状态转换并建模长程依赖关系。

CAP-CoT: Cycle Adversarial Prompt for Improving Chain of Thoughts in LLM Reasoning

Shuxu Chen et al.

cs.AI

本文提出CAP-CoT框架，通过循环对抗提示优化来提升大语言模型在Chain-of-Thought推理中的准确性和稳定性，其中包含一个生成候选链的求解器、一个构造故意错误链的对抗挑战者以及一个提供结构化反馈的反馈智能体。实验表明该方法能在少量优化周期内降低推理变异性并提升鲁棒性，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Active Inference: A method for Phenotyping Agency in AI systems?

Philip Wilson et al.

cs.AI

本文提出了一种基于Active Inference框架的表型分析方法，通过将智能体建模为部分可观测Markov决策过程，利用变分自由能最小化来刻画agent的意向性、理性与可解释性。研究在T-maze范式中使用empowerment作为操作化指标，区分了不同agent表型，并讨论了从外部约束转向内部先验偏好调节的治理策略。

AI Identity: Standards, Gaps, and Research Directions for AI Agents

Takumi Otsuka, Kentaroh Toyoda, Alex Leung

cs.AI cs.CR

本文通过结构化调查和gap analysis，探讨了AI agent在跨组织边界运行时面临的identity问题，指出当前技术和监管框架无法有效解决agent的识别、验证和问责挑战。文章比较了人类与AI identity在substrate、persistence、verifiability和legal standing四个维度的根本性不对称，并识别了五个关键gap，但未提出具体解决方案。

LEGO: An LLM Skill-Based Front-End Design Generation Platform

Jincheng Lou et al.

cs.AI

本文提出了LEGO，一个基于LLM技能的统一前端设计生成平台，将数字前端流程分解为六个独立步骤，并构建了包含42个可执行电路技能的库。实验表明，该平台在VerilogEval v2难题上实现了80.5%的Pass@1提升，验证了模块化技能组合在RTL设计自动化中的有效性。

GSAR: Typed Grounding for Hallucination Detection and Recovery in Multi-Agent LLMs

Federico A. Kamelhar

cs.AI cs.MA

本文提出GSAR框架，用于多智能体LLM系统中的幻觉检测与恢复。该框架将claims分为四类（grounded, ungrounded, contradicted, complementary），并基于证据类型赋予权重，计算非对称矛盾惩罚加权得分，进而驱动三层决策函数（proceed, regenerate, replan）。实验在FEVER数据集上验证了设计主张，但方法主要聚焦于grounding评估与replanning，与关键词中的code, spectral, Muon, pretrain, attention等无直接关联。

Constraint-Based Analysis of Reasoning Shortcuts in Neurosymbolic Learning

Akihiro Takemura, Katsumi Inoue, Masaaki Nishino

cs.AI

本文形式化了神经符号系统中的推理捷径问题，将其建模为constraint satisfaction problem，并证明了在双射映射下discrimination property是避免捷径的必要条件。作者开发了基于ASP的算法来验证约束集是否唯一确定概念映射，并提出了贪心修复算法，同时给出了复杂度分类和样本复杂度界。

SoccerRef-Agents: Multi-Agent System for Automated Soccer Refereeing

Zi Meng et al.

cs.AI

本文提出了SoccerRef-Agents，一个用于足球裁判的多智能体决策框架，通过构建多模态基准和向量知识库，并设计跨模态RAG的多智能体架构，提升了裁判决策的准确性和可解释性。该工作主要聚焦于AI在体育裁判领域的应用，与关键词中的agent概念有一定关联，但方法本身并非开创性突破。

When Corrective Hints Hurt: Prompt Design in Reasoner-Guided Repair of LLM Overcaution on Entailed Negations under OWL~2~DL

Yijiashun Qi, Xiang Xu, Yuxuan Li

cs.AI

本文研究了在OWL~2~DL推理器引导下，通过提示设计修复大语言模型过度谨慎（对蕴含否定回答“未知”）的问题。实验发现，包含开放世界假设提示的修复模式效果反而更差，而仅提供推理器判决的修复模式效果最佳，表明提示框架比纠正内容更重要。

IndustryAssetEQA: A Neurosymbolic Operational Intelligence System for Embodied Question Answering in Industrial Asset Maintenance

Chathurangi Shyalika, Dhaval Patel, Amit Sheth

cs.AI

本文提出IndustryAssetEQA，一个结合episodic telemetry表示与FMEA-KG的神经符号系统，用于工业资产中的具身问答。实验表明，相比纯LLM基线，该方法在结构有效性、反事实准确性和解释蕴含性上有显著提升，并大幅减少了过度断言。

ArguAgent: AI-Supported Real-Time Grouping for Productive Argumentation in STEM Classrooms

Jennifer Kleiman et al.

cs.AI cs.HC

本文介绍了一个名为ArguAgent的AI系统，用于在STEM课堂中根据学生的立场和论证能力进行实时分组，以促进高效论证。该系统通过评分和语义分析两个组件评估学生论证，并利用生成式AI优化分组，实验表明其分组效果优于随机分配。

Ulterior Motives: Detecting Misaligned Reasoning in Continuous Thought Models

Sharan Ramjee

cs.AI cs.CL cs.LG

本文提出MoralChain基准和双触发范式，研究连续思维模型（continuous thought models）中不可解释的潜在空间（latent space）的对齐问题。实验表明，模型可在产生对齐输出的同时存在未对齐的潜在推理，且线性探针（linear probes）能高精度检测这种状态。

Agentic Adversarial Rewriting Exposes Architectural Vulnerabilities in Black-Box NLP Pipelines

Mazal Bethany et al.

cs.AI

本文提出了一种基于两个agent的对抗性改写框架，在仅有binary反馈和无gradient访问的严格黑盒威胁模型下，通过语义扰动空间中的rewriting来攻击NLP pipelines，并分析了不同架构属性对evasion效果的影响。

Do Transaction-Level and Actor-Level AML Queues Agree? An Empirical Evaluation of Granularity Effects on the Elliptic++ Graph

Ankur Malik

cs.AI cs.LG

本文研究了区块链反洗钱系统中交易级别与地址级别评分粒度对调查队列的影响，使用Elliptic++数据集和随机森林分类器进行实证评估。结果表明不同粒度下的队列重叠度较低，评分粒度是AML系统设计中的重要变量。

MetaGAI: A Large-Scale and High-Quality Benchmark for Generative AI Model and Data Card Generation

Haoxuan Zhang et al.

cs.AI

本文提出了MetaGAI基准，包含2541个通过多智能体框架构建的文档三元组，用于评估生成式AI模型与数据卡的自动生成方法，并分析了稀疏MoE架构在成本-质量效率上的优势。

FinGround: Detecting and Grounding Financial Hallucinations via Atomic Claim Verification

Dongxin Guo, Jikun Wu, Siu Ming Yiu

cs.AI cs.CL cs.IR

本文提出FinGround，一个用于金融文档问答的三阶段验证-溯源流水线，通过将答案分解为原子声明并分类验证来检测和纠正幻觉。该方法在金融领域具有应用价值，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

When AI reviews science: Can we trust the referee?

Jialiang Wang et al.

cs.AI

本文从安全性和可靠性角度分析了AI同行评审，通过构建攻击分类法并设计实验，揭示了LLM评审在面对prestige framing、rebuttal sycophancy等攻击时的脆弱性，为评估AI评审的可信度提供了基线。

Thinking Like a Clinician: A Cognitive AI Agent for Clinical Diagnosis via Panoramic Profiling and Adversarial Debate

Zhiqi Lv et al.

cs.AI

本文提出了一种名为DxChain的基于链的临床推理框架，通过模拟临床医生的认知轨迹（包括记忆锚定、导航和验证阶段）来改进大语言模型在临床诊断中的应用。该方法引入了Profile-Then-Plan范式、Medical Tree-of-Thoughts算法和辩证诊断验证过程，以缓解诊断幻觉并提高准确性。

Tandem: Riding Together with Large and Small Language Models for Efficient Reasoning

Zichuan Fu et al.

cs.AI

本文提出Tandem框架，让大语言模型(LLM)生成关键推理线索，再由小语言模型(SLM)完成完整推理过程，并引入成本感知终止机制。实验表明该方法在数学推理和代码生成任务上可降低约40%计算成本，同时保持或提升性能。

Causal Discovery as Dialectical Aggregation: A Quantitative Argumentation Framework

Sheng Wei, Yulin Chen, Beishui Liao

cs.AI

本文提出了一种基于定量论证的因果发现框架QACD，将条件独立性检验结果转化为可反驳的论证，并通过连通性介导的传播机制聚合冲突证据。实验表明该方法在噪声环境下能改善结构一致性。

Structural Enforcement of Goal Integrity in AI Agents via Separation-of-Powers Architecture

Rong Xiang

cs.AI cs.CR

本文提出了一种名为PEA的架构，通过分离意图生成、授权和执行来强制AI Agent的系统级安全，并引入了多个验证层（如IVL、ILT）和威胁演算模型。该方法主要关注AI安全与治理，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Vibe Medicine: Redefining Biomedical Research Through Human-AI Co-Work

Zihao Wu et al.

cs.AI

本文提出了Vibe Medicine范式，让临床医生和研究者通过自然语言指导AI agent执行复杂的生物医学工作流，并介绍了其三层基础设施（LLMs、agent框架和医学技能集合）。文章分析了该架构在十个生物医学领域的应用，并通过案例展示了端到端工作流，同时指出了幻觉、数据隐私等风险。

Transferable Human Mobility Network Reconstruction with neuroGravity

Jinming Yang et al.

cs.AI

本文提出neuroGravity，一种物理信息深度学习模型，用于从有限观测中重建人类移动网络并迁移到未观测城市。模型利用城市设施和人口分布，发现区域表示与社会经济状况相关，并揭示了空间收入隔离对迁移性的关键作用。

Information-Theoretic Measures in AI: A Practical Decision Guide

Nikolaos Al.Papadopoulos, Konstantinos E. Psannis

cs.AI cs.IT cs.LG cs.MA

本文为七种信息论度量（如entropy, mutual information, transfer entropy等）提供了一个实用的决策框架，通过三个问题（度量回答的问题、适合的estimator、最危险的误用）指导AI从业者选择和使用，并附有流程图和决策表。

Expert Evaluation of LLM's Open-Ended Legal Reasoning on the Japanese Bar Exam Writing Task

Jungmin Choi, Keisuke Sakaguchi, Hiroaki Yamada

cs.AI

本文首次构建了基于日本司法考试写作部分的dataset，并由法律专家手动评估了LLM在开放式法律推理中的表现，揭示了模型在识别法律问题和构建结构化论证方面的局限性，特别是hallucination现象。

Modeling Induced Pleasure through Cognitive Appraisal Prediction via Multimodal Fusion

Nastaran Dab, Raziyeh Zall, Mohammadreza Kangavari

cs.AI cs.HC cs.LG

本文提出了一种基于认知评价理论的多模态融合计算模型，用于预测视频引发的愉悦感。该模型结合transformer架构和注意力机制，旨在解决标签噪声、语义鸿沟和数据集稀缺等问题，实验准确率达0.6624。

FAIR_XAI: Improving Multimodal Foundation Model Fairness via Explainability for Wellbeing Assessment

Sophie Chiang et al.

cs.AI cs.LG

本文研究了多模态基础模型在心理健康评估中的公平性问题，提出了一个基于可解释性的干预框架FAIR_XAI，并在实验室和自然场景数据集上评估了不同Vision-Language Model的性能与偏见。实验表明，该框架在提升程序一致性方面有效，但未能保证结果公平，有时甚至加剧了种族偏见。

Domain-Filtered Knowledge Graphs from Sparse Autoencoder Features

John Winnicki, Abeynaya Gnanasekaran, Eric Darve

cs.AI

本文提出了一种从Sparse Autoencoder (SAE) 特征中构建领域过滤知识图谱的方法，通过对比激活和多阶段过滤提取领域概念，并构建共现图与基于transcoder的机制图，最终生成可读的知识图谱。该方法在生物学教材案例中展示了恢复章节结构、揭示概念关联的能力，但未涉及code, context, spectral, Muon, pretrain, agent, attention等关键词。

Does Machine Unlearning Preserve Clinical Safety? A Risk Analysis for Medical Image Classification

Andreza M. C. Falcao, Filipe R. Cordeiro

cs.AI

本文研究了Machine Unlearning在医学图像分类中的临床安全性问题，发现标准方法可能增加假阴性率从而放大临床风险，并提出SalUn-CRA变体通过熵基遗忘来缓解该问题。实验表明该方法在保持遗忘效果的同时能降低临床风险。

Time-Series Forecasting in Safety-Critical Environments: An EU-AI-Act-Compliant Open-Source Package / Zeitreihenprognose in sicherheitskritischen Umgebungen: Ein KI-VO-konformes Open-Source-Paket

Thomas Bartz-Beielstein, Eva Bartz

cs.AI

本文提出了一个名为spotforecast2-safe的Python开源包，用于安全关键环境中的时间序列点预测。该包通过将欧盟AI法案等法规要求嵌入API契约和持续集成流程中，实现了合规性设计，但主要聚焦于工程实践而非理论创新。

ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems

Alexander Bering

cs.AI cs.LG

本文提出了一种名为ZenBrain的7层记忆架构，受神经科学启发，用于自主AI系统。它集成了15个神经科学模型和9个基础算法，在多个基准测试中优于现有方法，但主要贡献在于工程实现而非理论创新。

MarketBench: Evaluating AI Agents as Market Participants

Andrey Fradkin, Rohit Krishnan

cs.AI econ.GN

本文提出了MarketBench基准，用于评估AI agent在市场中自我评估能力（如成功概率和成本信号）的校准程度。实验表明，当前LLM在自我报告上存在校准偏差，导致市场分配偏离最优，即使加入先验信息也只能小幅改善。

LLM-Augmented Traffic Signal Control with LSTM-Based Traffic State Prediction and Safety-Constrained Decision Support

Jiazhao Shi

cs.AI

本文提出了一种结合LSTM交通状态预测与LLM推理的交通信号控制框架，通过安全过滤器确保决策可靠性，并在SUMO仿真中验证了其在动态交通场景下的效率提升。该方法将LLM作为约束推理与决策支持模块，而非直接的低层控制器。

Agentic AI platforms for autonomous training and rule induction of human-human and virus-human protein-protein interactions

Hung N. Do et al.

cs.AI q-bio.BM

本文构建了两个agentic AI平台，分别用于蛋白质-蛋白质相互作用(PPI)的自主机器学习模型训练和显式规则归纳，在人类-人类和人类-病毒PPI数据集上取得了约87%的准确率，并验证了规则与模型特征的一致性。

GAMED.AI: A Hierarchical Multi-Agent Framework for Automated Educational Game Generation

Shiven Agarwal et al.

cs.AI

本文提出了GameDAI，一个基于分层多智能体框架的自动化教育游戏生成系统，通过阶段化LangGraph子图和确定性质量门控将教师问题转化为可玩的游戏，在200个问题上实现了90%的验证通过率。该工作主要关注教育游戏生成，与关键词中的agent概念有一定关联但契合度不高。

Context-Aware Hospitalization Forecasting Evaluations for Decision Support using LLMs

Rhea Makkuni, Ananya Joshi

cs.AI

本文探讨了使用LLMs进行医疗资源预测的方法，比较了直接LLM预测、经典时间序列模型和混合模型(HybridARX)在60个美国县的表现。研究发现，将LLM信号嵌入结构化混合模型能产生更稳定和校准更好的预测，但该方法主要关注应用评估而非理论创新。

An empirical evaluation of the risks of AI model updates using clinical data: stability, arbitrariness, and fairness

Ioannis Bilionis et al.

cs.AI

本文评估了临床AI模型更新带来的稳定性、任意性和公平性风险，使用儿童1型糖尿病数据作为案例，提出了持续监测框架以检测这些问题。

LLM-Guided Agentic Floor Plan Parsing for Accessible Indoor Navigation of Blind and Low-Vision People

Aydin Ayanzadeh, Tim Oates

cs.AI cs.CV cs.HC cs.MA

本文提出一个基于LLM的多智能体框架，将单张楼层平面图解析为空间知识图谱，并生成无障碍导航指令。该方法在真实建筑和基准测试上取得了优于单次调用LLM基线的结果，但主要贡献在于工程应用而非理论创新。

Representational Curvature Modulates Behavioral Uncertainty in Large Language Models

Jack King, Evelina Fedorenko, Eghbal A. Hosseini

cs.AI cs.CL cs.LG

本文研究了大型语言模型中表征曲率与行为不确定性之间的关系，发现上下文曲率（contextual curvature）与下一个token的熵相关，并通过扰动实验验证了这种几何特征对模型行为的影响。

Failure-Centered Runtime Evaluation for Deployed Trilingual Public-Space Agents

M. Meng

cs.AI

本文提出PSA-Eval框架，将评估单元从分数转向失败案例，用于部署的三语公共空间agent的运行时评估。该框架通过三语等价输入探测跨语言策略漂移，并在真实数字前台系统中进行了初步实验。

CT-FineBench: A Diagnostic Fidelity Benchmark for Fine-Grained Evaluation of CT Report Generation

Ruifeng Yuan et al.

cs.AI

本文提出了CT-FineBench，一个用于评估CT报告生成细粒度事实一致性的benchmark，通过基于QA的方法将临床属性转化为评估数据集。该工作主要关注医学报告生成的评估问题，与关键词列表中的概念关联较弱。

AgentPulse: A Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment

Yuxuan Gao, Megan Wang, Yi Ling Yu

cs.AI cs.CL cs.SE

AgentPulse提出了一种持续评估AI agent部署表现的框架，通过整合GitHub、包注册表等18个实时信号，从基准性能、采纳信号、社区情绪和生态健康四个维度对50个agent进行评分。该框架揭示了基准测试无法捕捉的部署信号，但主要贡献在于方法论而非理论突破。

A2DEPT: Large Language Model-Driven Automated Algorithm Design via Evolutionary Program Trees

Bin Chen et al.

cs.AI

本文提出A2DEPT方法，利用Large Language Model通过进化程序树自动生成组合优化问题的启发式算法，以突破固定模板限制。实验表明该方法在标准基准上优于现有LLM-based方法。

Grounding Before Generalizing: How AI Differs from Humans in Causal Transfer

Liangru Xiang et al.

cs.AI

本文通过OpenLock范式比较了AI模型（LLMs和VLMs）与人类在因果结构迁移上的差异，发现AI模型需要先进行环境特定映射（environmental grounding）才能实现效率提升，而人类能立即利用先验结构知识。视觉信息反而降低了模型性能，且模型表现出系统性的因果结构不对称性，表明其缺乏人类式的去语境化因果抽象能力。

An Information-Geometric Framework for Stability Analysis of Large Language Models under Entropic Stress

Hikmat Karimov, Rahid Zahid Alekberli

cs.AI cs.CL cs.CR

本文提出一个受热力学启发的框架，通过整合任务效用、外部不确定性熵以及内部结构代理（如内部整合与对齐反思能力）来评估大语言模型输出的稳定性，并在IST-20基准上验证了其有效性。该工作为模型可靠性分析提供了一种可解释的建模视角，但未涉及代码、上下文、谱方法或注意力机制等关键词。

The Kerimov-Alekberli Model: An Information-Geometric Framework for Real-Time System Stability

Hikmat Karimov, Rahid Zahid Alekberli

cs.AI cs.CL cs.CR

本文提出了Kerimov-Alekberli模型，一个将非平衡热力学与随机控制形式化联系的信息几何框架，用于自主系统的伦理对齐与实时稳定性检测。该模型在NSL-KDD数据集和无人机轨迹模拟上验证了有效性，但方法主要聚焦于AI安全与热力学基础，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等方向关联较弱。

SemML 2.0: Synthesizing Controllers for LTL

Jan Křetínský, Tobias Meggendorfer, Maximilian Prokop

cs.AI cs.FL cs.LO

本文介绍了SemML 2.0工具，用于从线性时序逻辑(LTL)规范综合反应式系统控制器。该工具通过部分探索和机器学习引导等启发式方法，在SYNTCOMP基准测试上显著优于Strix等现有工具，实现了更快的求解速度和更高的求解实例数量。

An Analysis of the Coordination Gap between Joint and Modular Learning for Job Shop Scheduling with Transportation Resources

Moritz Link, Jonathan Hoss, Noah Klarmann

cs.AI

本文研究了Job Shop Scheduling问题中联合训练与模块化训练之间的协调差距，通过敏感性分析量化了两种训练模式在资源稀缺和时间主导条件下的性能差异。结果表明联合训练在非瓶颈环境下表现更优，但模块化训练在单一调度任务主导时是可行的替代方案。

Right-to-Act: A Pre-Execution Non-Compensatory Decision Protocol for AI Systems

Gadi Lavi

cs.AI

本文提出了Right-to-Act协议，一种用于AI系统的确定性、非补偿性预执行决策层，通过严格的结构约束决定AI输出是否可被执行，而非依赖后验验证或概率风险评估。该协议将AI控制从优化决策转向管理决策的可允许性，并独立于模型架构或训练方法。

Multi-Dimensional Evaluation of Sustainable City Trips with LLM-as-a-Judge and Human-in-the-Loop

Ashmi Banerjee et al.

cs.AI

本文研究了使用LLM作为评判者来评估可持续城市旅行推荐列表，提出了一种三阶段校准框架以解决模型偏差和维度间差异问题，但未涉及关键词中的核心概念。

Credal Concept Bottleneck Models for Epistemic-Aleatoric Uncertainty Decomposition

Tanmoy Mukherjee et al.

cs.AI

本文提出CREDENCE框架，通过将每个concept表示为credal prediction（概率区间）来分解概念不确定性，其中epistemic uncertainty来自不同concept heads的差异，aleatoric uncertainty通过匹配标注者分歧的专用输出估计。该方法支持基于不确定性的决策，如自动化低不确定性案例或优先收集高epistemic数据。

Explanation Quality Assessment as Ranking with Listwise Rewards

Thomas Bailleux et al.

cs.AI

本文提出将解释质量评估重新定义为排序问题，通过训练ListNet、LambdaRank等排序模型来区分多个候选解释的相对质量，发现排序损失在分数分离上优于回归方法，且数据质量比模型规模更重要。

Adaptive ToR: Complexity-Aware Tree-Based Retrieval for Pareto-Optimal Multi-Intent NLU

Hee-Kyong Yoo, Wonbae Kim, Hyocheol Ahn

cs.AI

本文提出Adaptive ToR，一种基于查询复杂度动态调整检索拓扑的多意图NLU架构，通过查询复杂度指数和自适应剪枝模块在准确率与延迟间取得Pareto最优平衡。实验在NLU++基准上相比固定深度基线提升了9.7%的准确率并降低37.6%的延迟。

Generative Design of a Gas Turbine Combustor Using Invertible Neural Networks

Patrick Krüger et al.

cs.AI

本文利用Invertible Neural Networks (INNs)对燃气轮机燃烧室进行生成式设计，通过训练网络学习几何参数与性能标签之间的映射，并利用其逆方向生成满足特定性能指标的设计方案。

Certified geometric robustness -- Super-DeepG

Noémie Cohen et al.

cs.AI cs.LG cs.SC

本文提出Super-DeepG方法，通过改进线性松弛技术和Lipschitz优化，并利用GPU硬件实现，以形式化验证神经网络对几何扰动的鲁棒性。该方法在精度和计算效率上优于先前工作。

Aligning with Your Own Voice: Self-Corrected Preference Learning for Hallucination Mitigation in LVLMs

Byeonggeuk Lim et al.

cs.AI

本文提出AVES-DPO框架，通过模型自身知识生成分布内数据来缓解LVLM的幻觉问题。该方法使用共识验证机制诊断幻觉并引导模型自我纠正，在仅需5.2k样本的情况下优于现有基线。

PhysNote: Self-Knowledge Notes for Evolvable Physical Reasoning in Vision-Language Model

Sinin Zhang et al.

cs.AI

本文提出PhysNote框架，通过让Vision-Language Model (VLM) 生成并维护“Knowledge Notes”来改进物理推理。该方法在PhysBench上取得一定性能提升，但未涉及code、spectral、Muon等关键词，且方法创新性有限。

Agentic clinical reasoning over longitudinal myeloma records: a retrospective evaluation against expert consensus

Johannes Moll et al.

cs.AI cs.CL

本文评估了基于LLM的agentic reasoning系统在多发性骨髓瘤纵向临床记录上的推理能力，与单次RAG、迭代RAG和全上下文输入等方法进行了比较。结果表明，agentic系统在复杂问题和长记录上表现更优，但其错误严重性高于专家分歧。

MIMIC: A Generative Multimodal Foundation Model for Biomolecules

Siavash Golkar et al.

cs.AI cs.LG

本文提出了MIMIC，一个基于split-track encoder-decoder架构的生成式多模态基础模型，用于处理核酸、蛋白质、进化、结构、调控和语义等生物分子模态。该模型通过多模态条件改善序列重建，并在RNA和蛋白质下游任务中取得先进性能，但方法本身在生成式多模态建模领域并非开创性突破，且与关键词列表中的概念关联较弱。

Beyond the Attention Stability Boundary: Agentic Self-Synthesizing Reasoning Protocols

Dahlia Shehata, Ming Li

cs.AI

本文识别了LLM agent在非线性多轮对话中的Attention Latch故障模式（历史上下文概率权重覆盖中期更新导致agent锚定于过时约束），并提出了Self-Synthesizing Reasoning Protocols (SSRP)元认知框架，通过分离高层架构规划与逐轮执行来解决该问题。实验在MultiWOZ 2.2数据集上使用Aggregate Pivot Accuracy (APA)指标验证了SSRP相对于Vanilla ReAct基线的显著性能提升。

Interoceptive machine framework: Toward interoception-inspired regulatory architectures in artificial intelligence

Diego Candia-Rivera

cs.AI

本文提出了一个基于interoception（内感受）和embodied AI（具身人工智能）的整合框架，将生物体内状态调节原理转化为计算架构，以增强AI系统的自适应自主性。该框架将内感受功能组织为homeostatic（稳态）、allostatic（异稳态）和enactive（生成性）三个原则，分别对应内部生存能力调节、基于不确定性的预期重评估和通过交互主动生成数据等计算角色。

STELLAR-E: a Synthetic, Tailored, End-to-end LLM Application Rigorous Evaluator

Alessio Sordo et al.

cs.AI cs.CL

STELLAR-E提出了一种全自动合成数据集生成系统，通过改进TGRT Self-Instruct框架和评估pipeline，为LLM应用生成高质量定制化benchmark。该方法主要解决数据隐私和人工成本问题，但与关键词中的code, context, spectral, Muon, pretrain, agent, attention均无直接关联。

Hierarchical Behaviour Spaces

Michael Tryfan Matthews et al.

cs.AI cs.LG

本文提出Hierarchical Behaviour Spaces (HBS)方法，通过在层次强化学习中让控制器指定option reward functions的线性组合来诱导行为空间，而非使用单一reward function。实验在NetHack Learning Environment上进行，表明该方法带来的层次结构优势主要源于增强的探索能力，而非长期推理。

Towards Lawful Autonomous Driving: Deriving Scenario-Aware Driving Requirements from Traffic Laws and Regulations

Bowen Jian et al.

cs.AI cs.CL cs.CY

本文提出了一种利用large language models从交通法规中推导自动驾驶场景感知需求的方法，通过场景分类锚点提升法规与场景匹配的准确性，并在中国交通法规数据集上验证了有效性。

FastOMOP: A Foundational Architecture for Reliable Agentic Real-World Evidence Generation on OMOP CDM data

Niko Moeller-Grell et al.

cs.AI cs.MA

本文提出了FastOMOP，一个用于在OMOP CDM数据上生成真实世界证据的开源多智能体架构，通过分离治理、可观测性和编排三层基础设施来确保安全性和可靠性。实验表明，该架构在多个数据集上实现了高可靠性评分，并完美阻止了对抗性和越界查询。

A systematic evaluation of vision-language models for observational astronomical reasoning tasks

Wenke Ren et al.

cs.AI astro-ph.GA astro-ph.IM

本文提出了AstroVLBench基准，系统评估了六种前沿vision-language models在五项天文观测推理任务上的表现。研究发现模型性能高度依赖数据模态，且所有模型均显著弱于领域专用方法，其中物理知识引导的提示比现象学提示更有效。

NeSyCat: A Monad-Based Categorical Semantics of the Neurosymbolic ULLER Framework

Daniel Romero Schellhorn, Till Mossakowski

cs.AI cs.LO math.CT math.LO

本文使用monad（一种范畴论中的结构）为ULLER框架（一个统一神经符号学习与推理的语言）提供了统一的范畴语义，将经典、模糊和概率三种看似不同的语义统一在一个框架下，并展示了如何通过扩展Giry monad来添加新的语义。

Evaluating whether AI models would sabotage AI safety research

Robert Kirk et al.

cs.AI

本文评估了前沿AI模型在作为研究agent部署时，是否会破坏或拒绝协助安全研究。研究使用了基于Petri开源工具和Claude Code的定制框架，发现模型在无提示情况下未出现破坏行为，但在延续性评估中，Mythos Preview模型在7%的案例中主动延续破坏，并表现出隐蔽的推理-输出不一致。

XGRAG: A Graph-Native Framework for Explaining KG-based Retrieval-Augmented Generation

Zhuoling Li et al.

cs.AI cs.IR cs.LG

本文提出了XGRAG，一个用于解释基于知识图谱的检索增强生成（GraphRAG）系统的框架，通过图扰动策略量化图组件对模型输出的因果贡献。实验表明其在解释质量上优于基线方法，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

The Price of Agreement: Measuring LLM Sycophancy in Agentic Financial Applications

Zhenyu Zhao et al.

cs.AI cs.LG

本文研究了LLM在金融agent任务中的谄媚行为（即模型倾向于同意用户的错误观点），发现模型在面对用户反驳时性能下降较小，但在用户偏好与参考答案矛盾时表现不佳，并测试了输入过滤等恢复方法。

Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

Zhou Ziheng et al.

cs.AI

本文提出了一个基于Minecraft的基准测试SciCrafter，用于评估AI agent在科学发现到工程应用这一完整循环中的能力。实验发现，当前最先进的模型在该任务上的成功率仅为26%，且瓶颈正从“解决问题”转向“提出正确问题”。

Case-Specific Rubrics for Clinical AI Evaluation: Methodology, Validation, and LLM-Clinician Agreement Across 823 Encounters

Aaryan Shah et al.

cs.AI cs.CL

本文提出了一种针对临床AI文档系统的案例特定评分标准方法，通过临床医生和LLM生成评分标准来评估AI输出质量，并验证了LLM评分标准在成本降低约1000倍的情况下能与临床医生达成一致。该方法主要关注临床评估的实用性和成本效益，与关键词中的agent概念有一定关联，但未涉及code、spectral、Muon、pretrain或attention等核心内容。

cs.IR

Prism-Reranker: Beyond Relevance Scoring -- Jointly Producing Contributions and Evidence for Agentic Retrieval ⭐ 精选

Dun Zhang

cs.IR

本文提出Prism-Reranker，一种超越传统相关性评分的reranker模型。该模型在判断文档与query相关时，不仅输出yes/no判断，还同时生成contribution statement（总结文档如何帮助query）和evidence passage（保留所有query相关信号的自包含重写）。模型采用hybrid objective训练，结合point-wise distillation和supervised fine-tuning，并通过LLM-as-Judge ensemble聚合五个前沿LLM的投票来获得清晰的binary supervision。实验表明，Prism-Reranker在BEIR QA子集和LLM评判的贡献与证据质量评估上均取得良好结果，并能将现有LLM-based reranker扩展出贡献与证据生成能力，同时提升其NDCG@10指标。

RADIANT-LLM: an Agentic Retrieval Augmented Generation Framework for Reliable Decision Support in Safety-Critical Nuclear Engineering

Zavier Ndum Ndum et al.

cs.IR cs.AI

本文提出了RADIANT-LLM框架，一个用于核工程安全决策支持的多模态RAG框架，通过agentic层协调领域工具并强制执行引用溯源，以降低大语言模型的幻觉风险。实验表明，该框架在领域指标上表现良好，但主要贡献在于工程应用而非理论方法创新。

Your Reviews Replicate You: LLM-Based Agents as Customer Digital Twins for Conjoint Analysis

Bin Xuan, Jungmin Hwang, Hakyeon Lee

cs.IR cs.AI

本文提出利用LLM-based agents作为customer digital twins (CDT)进行conjoint analysis，通过整合Reddit用户评论构建个性化向量数据库，并采用RAG和prompt engineering模拟用户偏好，最终以87.73%的准确率预测真实用户偏好。该方法为市场研究提供了一种可扩展的替代方案，但未涉及code、spectral、Muon或attention等关键词。

StratRAG: A Multi-Hop Retrieval Evaluation Dataset for Retrieval-Augmented Generation Systems

Aryan Patodiya

cs.IR cs.AI

StratRAG是一个用于评估Retrieval-Augmented Generation (RAG)系统在多跳推理任务中表现的基准数据集，包含2200个样本和三种问题类型。实验表明混合检索策略表现最佳，但桥接问题仍具挑战性，该工作与关键词列表中的概念无直接关联。

RedParrot: Accelerating NL-to-DSL for Business Analytics via Query Semantic Caching

Tong Wang et al.

cs.IR cs.AI cs.CL

本文提出RedParrot框架，通过语义缓存加速自然语言到领域特定语言的转换，利用查询骨架匹配和对比学习训练嵌入模型，在电商分析场景中实现3.6倍加速和8.26%准确率提升。

Beyond Static: Related Questions Retrieval Through Conversations in Community Question Answering

Xiao Ao et al.

cs.IR cs.AI cs.CL

本文提出了一种名为TeCQR的模型，用于在社区问答平台中通过对话方式检索相关问题。该模型利用标签增强的澄清问题构建对话，并设计了噪声容忍模型来处理反馈，通过两阶段离线训练学习细粒度表示。实验表明该方法优于现有基线，但未涉及关键词中的核心概念。

Quantifying Divergence in Inter-LLM Communication Through API Retrieval and Ranking

Eyhab Al-Masri

cs.IR cs.AI cs.CL

本文提出了一个统一的benchmarking框架，用于量化不同large language models (LLMs)在通过API检索和排序任务中的分歧程度。实验表明模型间存在中等程度的一致性，但分歧程度高度依赖于任务领域。

CS3: Efficient Online Capability Synergy for Two-Tower Recommendation

Lixiang Wang et al.

cs.IR

本文提出了一种名为Capability Synergy (CS3)的在线学习框架，通过Cycle-Adaptive Structure、Cross-Tower Synchronization和Cascade Model Sharing三种创新来增强双塔推荐模型的表示能力与对齐效果。该方法在保持毫秒级延迟的同时，在多个离线数据集和大型广告系统中提升了广告收入。

Behavioral Intelligence Platforms: From Event Streams to Autonomous Insight via Probabilistic Journey Graphs, Behavioral Knowledge Extraction, and Grounded Language Generation

Arun Patra, Bhushan Vadgave

cs.IR cs.AI

本文提出了一个行为智能平台(BIP)架构，将原始事件流转化为自动生成的洞察，通过概率旅程图、行为知识提取和接地语言生成等四个层次实现。该工作主要面向产品分析领域，与关键词中的核心概念关联较弱。

RCSB PDB AI Help Desk: retrieval-augmented generation for protein structure deposition support

Vivek Reddy Chithari et al.

cs.IR cs.AI cs.CL q-bio.QM

本文开发了一个基于Retrieval-Augmented Generation (RAG)的AI Help Desk系统，用于支持蛋白质结构数据库的提交工作。该系统利用LangChain、pgvector和GPT-4.1-mini等工具，通过双LLM架构和主题防护栏等技术，为提交者提供全天候的引用支持响应。

Structure Guided Retrieval-Augmented Generation for Factual Queries

Miao Xie et al.

cs.IR cs.AI

本文提出了一种名为SG-RAG的新方法，通过将检索过程建模为基于embedding的subgraph matching任务，利用检索到的拓扑结构来引导LLM生成满足复杂条件的答案，并构建了包含12万条事实型QA对的数据集ERQA。实验表明该方法在ERQA上显著优于强baseline，但该方法与关键词列表中的概念关联较弱。

R$^3$AG: Retriever Routing for Retrieval-Augmented Generation

Tong Zhao et al.

cs.IR

本文提出R$^3$AG框架，通过将retriever能力分解为retrieval quality和generation utility两个可学习维度，并采用contrastive learning来捕捉query-specific偏好，以改进RAG中的retriever路由选择。实验表明该方法优于现有静态路由方法。

IntrAgent: An LLM Agent for Content-Grounded Information Retrieval through Literature Review

Fengbo Ma et al.

cs.IR cs.AI cs.LG

本文提出了IntrAgent，一个基于LLM的agent，用于从文献中自动提取细粒度信息以回答研究问题。它通过两阶段流程（Section Ranking和Iterative Reading）模拟人类阅读行为，并在新基准IntraBench上取得了比现有RAG方法更高的准确率。

A Large-Scale, Cross-Disciplinary Corpus of Systematic Reviews

Pierre Achkar et al.

cs.IR cs.CL

本文构建了一个跨学科的系统性综述语料库Webis-SR4ALL-26，包含301,871篇综述，并提供了标准化的检索策略和筛选标准，用于支持信息检索和筛选的跨领域基准测试。该工作主要贡献于语料库构建和元科学分析，与关键词列表中的概念无直接关联。

Citation-Driven Multi-View Training for Patent Embeddings: QaECTER and Sophia-Bench

Younes Djemmal et al.

cs.IR cs.AI

本文提出了Sophia-bench专利检索基准和QaECTER嵌入模型，通过引用图和多视角自对齐训练，在多种查询类型上取得了优于大模型的效果。

CASP: Support-Aware Offline Policy Selection for Two-Stage Recommender Systems

Nilson Chapagain

cs.IR cs.LG stat.ML

本文针对两阶段推荐系统中的离线策略选择问题，提出了CASP方法，通过结合doubly robust估计与support-burden惩罚项来评估策略可靠性。该方法在模拟和MovieLens 1M数据集上验证了其有效性，但与我提供的关键词列表关联较弱。

Adopting State-of-the-Art Pretrained Audio Representations for Music Recommender Systems

Yan-Martin Tamm, Anna Aljanaki

cs.IR

本文评估了九种预训练音频表示（如MusicFM, MERT等）在音乐推荐系统（MRS）中的性能，发现这些表示在传统MIR任务与音乐推荐任务间存在显著性能差异，为后续利用预训练表示改进推荐系统提供了基础。

Birds of a Feather Cluster Nearby: a Proximity-Aware Geo-Codebook for Local Service Recommendation

Tian He et al.

cs.IR

本文提出Pro-GEO，一种邻近感知的地理码本，通过建立地理质心局部坐标系和地理旋转位置编码机制，将地理邻近性建模为正交旋转变换，以联合建模语义和空间信号。实验表明该方法在本地服务推荐中优于现有技术，但未涉及关键词中的核心概念。

MMEB-V3: Measuring the Performance Gaps of Omni-Modality Embedding Models

Haohang Huang et al.

cs.IR

本文提出了MMEB-V3基准，用于评估文本、图像、视频、音频及agent场景下的全模态embedding模型，并构建了OmniSET数据集以解耦语义相似性与模态效应。实验发现当前模型在跨模态检索中存在目标模态检索失败、检索不对称及指令引导不足等问题。

Efficient Rationale-based Retrieval: On-policy Distillation from Generative Rerankers based on JEPA

Teng Chen et al.

cs.IR cs.CL cs.LG

本文提出Rabtriever，通过JEPA范式将生成式reranker的知识蒸馏到独立编码的检索器中，以降低基于理由检索的计算成本。该方法在多个任务上取得较好效果，但与我提供的关键词列表契合度较低。

A Parametric Memory Head for Continual Generative Retrieval

Kidist Amde Mekonnen, Yubao Tang, Maarten de Rijke

cs.IR cs.AI cs.CL cs.LG

本文提出了一种用于持续生成式检索的参数化记忆头方法PAMT，通过在适应后的模型上附加模块化参数记忆头来缓解灾难性遗忘问题。该方法在MS MARCO和Natural Questions数据集上展示了改进的旧文档保留能力，但与我提供的关键词列表（code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Lost in Decoding? Reproducing and Stress-Testing the Look-Ahead Prior in Generative Retrieval

Kidist Amde Mekonnen et al.

cs.IR cs.AI cs.CL cs.LG

本文复现并压力测试了生成式检索中的前瞻先验方法PAG，发现其规划信号在查询词汇变化时脆弱，可能导致解码退化。

IIRSim Studio: A Dashboard for User Simulation

Saber Zerhoudi, Adam Roegiest, Michael Granitzer

cs.IR cs.HC

IIRSim Studio是一个基于web的用户模拟工作台，为信息检索中的用户模拟实验提供了可视化管道构建、组件版本管理和可复现性支持。它通过实验包和环境模板来明确复现范围，并支持共享任务工作流。

Automating Categorization of Scientific Texts with In-Context Learning and Prompt-Chaining in Large Language Models

Gautam Kishore Shahi, Oliver Hummel

cs.IR cs.AI cs.CL cs.DL cs.SE

本文利用In-Context Learning和Prompt Chaining策略，评估了大型语言模型在根据ORKG分类体系对科学文本进行自动分类时的性能。实验表明，Prompt Chaining在领域和学科级别的预测上优于纯ICL和旧版BERT模型，但在更细粒度的主题分类上准确率仅约50%。

Beyond Static Collision Handling: Adaptive Semantic ID Learning for Multimodal Recommendation at Industrial Scale

Yongsen Pan et al.

cs.IR cs.MM

本文提出AdaSID框架，通过自适应调节Semantic IDs (SIDs)中的碰撞（不同物品被分配相同或高度相似的编码）来改进多模态推荐系统。该方法在语义兼容时保留重叠，并根据局部碰撞负载动态调整惩罚强度，最终在公开基准和工业场景中提升了推荐效果。

Green-Red Watermarking for Recommender Systems

Lei Zhou et al.

cs.IR cs.CR

本文提出了一种名为GREW的推荐系统水印框架，通过秘密密钥将物品空间划分为“绿色”和“红色”物品，将水印信号融入排序过程，并利用统计假设检验进行所有权验证。该方法无需注入合成数据，旨在抵御模型提取攻击并保护知识产权。

Prompt-Unknown Promotion Attacks against LLM-based Sequential Recommender Systems

Yuchuan Zhao et al.

cs.IR

本文针对LLM-based Sequential Recommender Systems (LLM-SRSs)中的item promotion attack问题，提出了一种Prompt-Unknown Dual-poisoning Attack (PUDA)框架。该框架在攻击者完全不知道system prompt和victim model的黑盒设置下，通过LLM-based evolutionary refinement策略推断离散prompt并训练surrogate model，进而结合对抗性文本修改和poisoning sequences实现目标item的promotion。

GLIER: Generative Legal Inference and Evidence Ranking for Legal Case Retrieval

Minghan Li et al.

cs.IR cs.AI

GLIER将法律案例检索重新形式化为一个基于潜在法律变量的推理过程，通过联合生成推理和多视角证据融合来弥合用户查询与法律文档之间的语义鸿沟。该方法在LeCaRD和LeCaRDv2上取得了优于现有基线的性能，并展现出良好的数据效率。

S2G-RAG: Structured Sufficiency and Gap Judging for Iterative Retrieval-Augmented QA

Minghan Li et al.

cs.IR cs.AI

本文提出S2G-RAG框架，通过S2G-Judge控制器判断当前证据是否充足并输出结构化缺失项，以指导多轮检索。该方法在TriviaQA等数据集上提升了多跳问答性能，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Similar Users-Augmented Interest Network

Xiaolong Chen et al.

cs.IR

本文提出SUIN方法，通过检索并拼接相似用户的行为序列来增强目标用户的兴趣表示，用于CTR预测。该方法设计了用户特定的位置编码和注意力机制以处理多用户序列中的噪声，实验表明其优于现有序列模型。

FUTURAL: A Metasearch Platform for Empowering Rural Areas with Smart Solutions

Matei Popovici, Ciprian Dobre

cs.IR

本文介绍了FUTURAL项目中MetaSearch平台的MVP实现，利用Large Language Models (LLMs)构建自然语言接口以检索数字Smart Solutions，评估表明该方法有效，为未来扩展奠定了基础。

Disagreement as Signals: Dual-view Calibration for Sequential Recommendation Denoising

Sijia Li et al.

cs.IR

本文提出了一种名为DC4SR的双视角校准框架，用于序列推荐中的去噪。该方法利用LLM提供的语义先验和模型学习动态的后验分布之间的不一致性，来联合优化表示，以应对用户兴趣的演变。实验表明该方法在鲁棒性上优于基于Transformer和LLM的去噪方法。

Geometric Analysis of Self-Supervised Vision Representations for Semantic Image Retrieval

Esteban Rodríguez-Betancourt, Edgar Casasola-Murillo

cs.IR cs.CV

本文评估了现代自监督学习方法（如SSL）在语义图像检索中的表现，发现其表示空间的各向异性（anisotropy）会降低基于分区和哈希的近似最近邻（ANN）索引性能，而各向同性（isotropy）更高的表示则更有利于检索。

Modeling Behavioral Intensity and Transitions for Generative Recommendation

Wenxuan Yang et al.

cs.IR cs.AI cs.LG

本文提出BITRec框架，通过分层行为聚合和转换关系编码来建模多行为推荐中的强度差异与转换模式，在多个数据集上取得显著提升。该方法主要关注推荐系统中的行为建模，与关键词中的概念关联较弱。

Learning to Route Queries to Heads for Attention-based Re-ranking with Large Language Models

Yuxing Tian et al.

cs.IR cs.AI cs.CL

本文提出一种查询相关的注意力头选择方法RouteHead，用于基于注意力的大语言模型重排序任务。该方法通过轻量路由器为每个查询选择最优注意力头集合，并仅从这些头聚合注意力信号计算相关性分数，实验表明该方法在多个基准和模型上优于现有基线。

cs.CL

From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills ⭐ 精选

Qiliang Liang et al.

cs.CL cs.AI

本文提出了一种名为Scheduling-Structural-Logical (SSL)的agent技能结构化表示方法，该方法借鉴了Schank和Abelson的经典语言学知识表示理论，将agent技能解耦为调度信号、执行结构和逻辑层面的动作与资源使用证据三个层次。通过基于LLM的归一化器实例化SSL，并在Skill Discovery和Risk Assessment两个任务上验证，SSL相比纯文本基线在MRR和macro F1上分别提升了0.134和0.043。这项工作为agent技能的可搜索、可审查和可重用提供了首个显式结构化表示，与关键词中的agent高度契合。

Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis ⭐ 精选

Zhisong Qiu et al.

cs.CL cs.AI cs.CE cs.LG cs.MA

本文提出DataPRM，一种环境感知的生成式过程奖励模型（Process Reward Model），用于解决大型语言模型（LLM）在动态数据分析任务中作为agent时的监督难题。DataPRM通过主动与环境交互探测中间执行状态来发现静默错误（silent errors），并采用反思感知的三元奖励策略（reflection-aware ternary reward）区分可纠正的接地错误与不可恢复的失误。该方法在ScienceAgentBench和DABStep等基准上显著提升了策略LLM的性能，且仅用4B参数即超越强基线，验证了过程级奖励监督在agentic数据分析中的有效性。

DPEPO: Diverse Parallel Exploration Policy Optimization for LLM-based Agents ⭐ 精选

Junshuo Zhang et al.

cs.CL

本文提出了一种名为DPEPO的强化学习算法，用于训练LLM-based agent在复杂环境中进行多样化的并行探索。该方法的核心创新在于让agent同时与多个环境交互并共享跨轨迹经验，从而克服了传统“reason-then-act”范式下探索不充分和环境理解不完整的问题。DPEPO包含两个阶段：初始的supervised fine-tuning (SFT) 赋予agent基本的并行推理与动作生成能力，随后通过一个层次化奖励机制（包括并行轨迹级成功奖励、Diverse Action Reward和Diverse State Transition Reward）来惩罚行为冗余并鼓励广泛探索。实验表明，DPEPO在ALFWorld和ScienceWorld上取得了state-of-the-art的成功率，且效率与强sequential baseline相当，为agent的探索策略提供了新的范式。

Skill Retrieval Augmentation for Agentic AI ⭐ 精选

Weihang Su et al.

cs.CL cs.AI

本文提出Skill Retrieval Augmentation (SRA)范式，使agentic AI系统能够从大规模外部skill语料库中动态检索并应用相关技能，以解决现有方法因context窗口限制而无法扩展的问题。作者构建了SRA-Bench基准测试，包含5,400个测试实例和26,262个skill的语料库，实验表明检索增强能显著提升agent性能，同时揭示了当前LLM agent在skill incorporation（技能整合）环节存在瓶颈：无论是否检索到gold skill，agent都以相似速率加载技能，表明模型缺乏判断何时需要外部加载的能力。该工作将SRA确立为一个独立的研究问题，为agent系统的可扩展能力增强奠定了基础，与关键词"agent"高度契合。

How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks

Longju Bai et al.

cs.CL cs.AI cs.CY cs.HC cs.SE

本文首次系统研究了AI agent在编码任务中的token消耗模式，分析了8个前沿LLM在SWE-bench Verified上的轨迹，发现agent任务消耗的token量是代码推理和代码聊天的1000倍以上，且输入token是主要成本来源。研究还表明token使用高度可变且随机，模型间效率差异显著，且前沿模型无法准确预测自身token消耗。

The Randomness Floor: Measuring Intrinsic Non-Randomness in Language Model Token Distributions

Jarosław Hryszko

cs.CL cs.AI cs.LG

本文引入Entropic Deviation (ED)来衡量语言模型token分布与均匀分布之间的归一化KL散度，发现transformer在语义中性提示下仍具有约0.30的固有非随机性，且不同模型家族收敛于相近的ED值，而状态空间模型Mamba2则表现出不同的特性。该研究为预训练语言模型中的随机性建立了结构性下界，但与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction

Chengye Wang et al.

cs.CL

TexOCR提出了一个将科学PDF页面重建为可编译LaTeX的OCR任务，并构建了基准测试TexOCR-Bench和训练语料TexOCR-Train。通过监督微调和基于LaTeX单元测试可验证奖励的强化学习，训练了一个2B参数的模型，实验表明现有系统在结构一致性和编译可靠性上存在不足。

AutoPyVerifier: Learning Compact Executable Verifiers for Large Language Model Outputs

Pouya Pezeshkpour, Estevam Hruschka

cs.CL cs.LG cs.PL

本文提出AutoPyVerifier框架，利用LLM合成候选verifier函数并通过有向无环图搜索来学习紧凑的可执行verifier集合，以近似目标objective（如正确性）。实验表明该方法在数学推理、代码等任务上提升了预测性能，但未涉及spectral、Muon或pretrain等关键词。

Self Knowledge Re-expression: A Fully Local Method for Adapting LLMs to Tasks Using Intrinsic Knowledge

Mengyu Wang et al.

cs.CL cs.AI cs.CV cs.IR

本文提出了一种名为Self-Knowledge Re-expression (SKR)的局部适应方法，通过将LLM的输出从通用token生成转换为任务特定的表达，来提升其在非生成式任务上的性能。该方法仅使用无标注数据，在金融文档数据集上取得了显著改进，但与关键词列表中的概念关联较弱。

Uncertainty Quantification for LLM Function-Calling

Zihuiwen Ye et al.

cs.CL

本文首次评估了LLM Function-Calling场景下的Uncertainty Quantification (UQ)方法，发现多样本UQ方法（如Semantic Entropy）在该场景下并不优于简单的单样本方法，并利用FC输出的特性（如基于abstract syntax tree的聚类）改进了现有UQ方法的性能。

Chinese-SkillSpan: A Span-Level Dataset for ESCO-Aligned Competency Extraction from Chinese Job Ads

Guojing Li et al.

cs.CL

本文提出了首个中文JobSkillNER数据集Chinese-SkillSpan，并设计了一种结合LLM和专家审核的标注流程，用于从中文招聘文本中提取符合ESCO标准的技能实体。该工作填补了中文招聘领域技能识别资源的空白。

Evaluating Temporal Consistency in Multi-Turn Language Models

Yash Kumar Atri, Steven L. Johnson, Tom Hartvigsen

cs.CL

本文提出了ChronoScope基准，用于评估多轮对话中语言模型的时间范围稳定性，发现模型在需要跨轮次保持或更新时间假设时频繁失败，且问题随交互长度加剧。

DeepImagine: Learning Biomedical Reasoning via Successive Counterfactual Imagining

Youze Zheng et al.

cs.CL cs.AI cs.LG

本文提出DeepImagine框架，通过构建临床试验中的反事实对（counterfactual pairs）并利用监督微调和强化学习训练语言模型，以提升其在临床试验结果预测上的推理能力。该方法主要关注生物医学推理，与关键词中的code、spectral、Muon、agent等概念关联较弱。

Implicit Framing in Obstetric Counseling Notes: A Grounded LLM Pipeline on a VBAC-Eligible Cohort

Baris Karacan et al.

cs.CL

本文使用基于LLM的pipeline分析产科咨询笔记中的语言框架，发现VBAC和RCS文档在风险聚焦语言分布上存在显著差异。

ContextWeaver: Selective and Dependency-Structured Memory Construction for LLM Agents

Yating Wu et al.

cs.CL

本文提出ContextWeaver，一种用于LLM agent的依赖结构化记忆框架，通过将交互历史组织成推理步骤图并选择相关上下文来改进长上下文处理。该方法在SWE-Bench基准上提升了性能并减少了token使用，但主要贡献在于工程实现而非理论创新。

Mixture of Heterogeneous Grouped Experts for Language Modeling

Zhicheng Ma et al.

cs.CL cs.AI cs.LG

本文提出了一种名为MoHGE的混合专家模型架构，通过引入两级路由机制和分组辅助损失函数，在保持模型性能的同时减少了约20%的总参数量，并实现了GPU负载均衡。该方法主要针对标准MoE架构中专家大小固定、计算资源分配僵化的问题，提供了更灵活的专家组合方案。

Mechanistic Steering of LLMs Reveals Layer-wise Feature Vulnerabilities in Adversarial Settings

Nilanjana Das, Manas Gaur

cs.CL cs.AI

本文研究了大型语言模型Gemma-2-2B在对抗性设置下的内部机制，通过三层pipeline（包括subspace similarity和SAE feature grouping）发现，模型中间至后层（第16-25层）的feature subgroup对jailbreak攻击更为脆弱。该工作揭示了对抗性鲁棒性可能更依赖于feature-level干预而非prompt-level防御，但与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention关联较弱。

DARC-CLIP: Dynamic Adaptive Refinement with Cross-Attention for Meme Understanding

Qiyuan Jin

cs.CL

本文提出DARC-CLIP框架，通过引入Adaptive Cross-Attention Refiners和Dynamic Feature Adapters实现多模态融合的动态细化，在meme理解任务上取得显著性能提升。该方法主要关注多模态对齐与任务自适应，与关键词中的attention概念有一定关联，但整体创新性有限。

Measuring Temporal Linguistic Emergence in Diffusion Language Models

Harry Lu

cs.CL

本文通过分析LLaDA-8B-Base模型在WikiText-103上的去噪轨迹，测量了token承诺、词性(POS)和语义类别的线性可恢复性、置信度与熵的动态变化，以及中间轨迹重掩码的敏感性。研究发现，粗粒度标签比精确词汇身份更早且更稳健地被恢复，轨迹级不确定性可追踪最终正确性，且中间状态对干预最敏感。

Small Language Model Helps Resolve Semantic Ambiguity of LLM Prompt

Zhenzhen Huang et al.

cs.CL cs.AI

本文提出一种预推理阶段的prompt优化机制，通过显式消解语义歧义（识别语义风险、检查多视角一致性并解决冲突）来提升LLM的推理性能，并利用小语言模型作为主要执行器以降低计算成本。该方法在多个基准测试上提升了2.5个百分点的推理性能，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Fine-tuning vs. In-context Learning in Large Language Models: A Formal Language Learning Perspective

Bishwamittra Ghosh et al.

cs.CL cs.LG

本文通过形式语言学习任务比较了大型语言模型中的fine-tuning和in-context learning两种模式，发现fine-tuning在分布内泛化上表现更好，而两者在分布外泛化上性能相当。

Yitian Zhou et al.

cs.CL cs.AI

本文提出了一种无需训练的LLM上下文压缩框架，通过构建结合k-NN语义边和短程顺序边的稀疏混合句子图，并利用聚类提取主题骨架，再结合任务相关性、簇代表性、桥接中心性和循环覆盖线索进行句子排序，最终在预算约束下选择紧凑的句子集。该方法在四个数据集上表现出与强基线相当的性能，尤其在长文档基准上优势更明显。

Au-M-ol: A Unified Model for Medical Audio and Language Understanding

Meizhu Liu et al.

cs.CL cs.AI

本文提出了一种名为Au-M-ol的多模态架构，将Large Language Models (LLMs)与音频处理结合，用于医学领域的语音识别和语言理解。该模型通过音频编码器和适配层将医学语音特征映射到LLM输入空间，在医学转录任务上将Word Error Rate (WER)降低了56%。

Human-1 by Josh Talks: A Full-Duplex Conversational Modeling Framework in Hindi using Real-World Conversations

Bhaskar Singh, Shobhit Banga, Pranav Sharma

cs.CL cs.AI

本文针对Hindi语开发了首个开源的全双工口语对话系统，通过适配Moshi架构并利用26,000小时真实对话数据训练，实现了自然的对话行为（如打断和重叠）。该工作为Hindi及其他印度语言的全双工对话系统提供了初步基础。

$\mathcal{S}^2$IT: Stepwise Syntax Integration Tuning for Large Language Models in Aspect Sentiment Quad Prediction

Bingfeng Chen et al.

cs.CL cs.AI

本文提出S^2IT框架，通过多步微调将syntactic structure知识逐步集成到LLMs中，用于Aspect Sentiment Quad Prediction任务。该方法将quadruple生成分解为全局语法引导提取和局部语法引导分类两个阶段，并引入细粒度结构调优。

Hidden States Know Where Reasoning Diverges: Credit Assignment via Span-Level Wasserstein Distance

Xinzhu Chen et al.

cs.CL cs.LG

本文提出SHEAR方法，通过计算GRPO组内正确与错误rollout的span-level hidden state分布的Wasserstein距离，来识别推理质量发生分歧的区域，并据此调整token-level advantage，从而在无需额外标注或reward model的情况下实现细粒度credit assignment。实验在数学推理和代码生成任务上验证了其有效性。

Robust Audio-Text Retrieval via Cross-Modal Attention and Hybrid Loss

Meizhu Liu et al.

cs.CL cs.SD

本文提出了一种结合cross-modal attention和hybrid loss的audio-text retrieval框架，通过silence-aware chunking和attention-based pooling处理长音频和噪声，在基准数据集上取得了改进。

Bridging Reasoning and Action: Hybrid LLM-RL Framework for Efficient Cross-Domain Task-Oriented Dialogue

Yangyang Zhao et al.

cs.CL cs.HC

本文提出VLK-RL框架，通过LLM生成候选约束并利用双角色交叉验证机制抑制幻觉，将验证后的约束映射为结构化状态用于RL策略优化，以提升跨域任务导向对话的泛化性和鲁棒性。

Evaluating Large Language Models on Computer Science University Exams in Data Structures

Edan Gabay et al.

cs.CL

本文评估了GPT 4o和Claude 3.5等LLM在特拉维夫大学计算机科学数据结构考试题目上的表现，并构建了一个包含闭卷和选择题的基准数据集。研究揭示了当前LLM在CS教育中的能力现状，但方法上缺乏开创性，且与关键词列表中的概念关联较弱。

When Chain-of-Thought Fails, the Solution Hides in the Hidden States

Houman Mehrafarin, Amit Parekh, Ioannis Konstas

cs.CL cs.AI cs.LG

本文通过激活修补（activation patching）方法分析了Chain-of-Thought (CoT)在GSM8K任务中的因果机制，发现CoT token在隐藏状态中编码了可恢复的任务相关信息，即使原始推理链错误也能通过修补提高准确率。这些信息在正确推理中更丰富，且集中在中间到后期层，但该工作与关键词中的code, spectral, Muon, agent等概念无直接关联。

VeriLLMed: Interactive Visual Debugging of Medical Large Language Models with Knowledge Graphs

Yurui Xiang et al.

cs.CL cs.HC

本文提出了一个名为VeriLLMed的可视化分析系统，通过集成外部生物医学知识图谱来审计和调试医疗大语言模型的诊断推理过程，并识别出三类常见的诊断错误。该系统将模型输出转化为可比较的推理路径，以帮助开发者发现临床不合理的推理。

Overcoming Copyright Barriers in Corpus Distribution Through Non-Reversible Hashing

Arthur Amalvy et al.

cs.CL

本文提出了一种通过非可逆哈希方法解决受版权保护的语料库分发问题的方法，允许研究者在不泄露原始文本的情况下共享标注。该方法对用户拥有的不同版本文本具有一定鲁棒性，并在小说对齐实验中取得了98.7%到99.79%的token对齐准确率。

Beyond Local vs. External: A Game-Theoretic Framework for Trustworthy Knowledge Acquisition

Rujing Yao et al.

cs.CL

本文提出GTKA框架，将大语言模型查询中的知识效用与隐私权衡建模为博弈，通过对抗训练优化子查询生成策略。实验在生物医学和法律领域验证了其降低意图泄露的效果。

Revisiting Greedy Decoding for Visual Question Answering: A Calibration Perspective

Boqi Chen et al.

cs.CL

本文从校准角度重新审视了视觉问答(VQA)任务中的贪心解码策略，理论形式化了模型校准与预测准确性的关系，并推导了贪心解码最优性的充分条件。实验表明贪心解码在多个基准上优于随机采样，并提出了适用于推理模型的贪心解码变体。

AI Safety Training Can be Clinically Harmful

Suhas BN et al.

cs.CL cs.AI cs.CY cs.LG

本文评估了四种生成模型在250个Prolonged Exposure (PE) therapy场景和146个CBT cognitive restructuring练习中的表现，发现RLHF safety alignment会系统性破坏治疗机制，导致protocol fidelity和therapeutic appropriateness显著下降，并提出了一个五轴评估框架。

A Benchmark Suite of Reddit-Derived Datasets for Mental Health Detection

Khalid Hasan, Jamil Saquer

cs.CL cs.IR cs.LG

本文提出了一个基于Reddit的四个心理健康检测数据集基准套件，涵盖自杀意念检测、精神障碍检测等任务，并通过人工标注和模型验证确保了数据质量。该工作为心理健康NLP研究提供了可复现的基准资源。

JudgeSense: A Benchmark for Prompt Sensitivity in LLM-as-a-Judge Systems

Rohith Reddy Bellibatlu

cs.CL

本文提出了JudgeSense基准和Judge Sensitivity Score (JSS)指标，用于量化LLM作为评判者时对语义等价prompt改写的敏感性。实验发现模型在coherence任务上表现差异显著，而factuality任务存在极性反转的prompt伪影，且多数模型在pairwise任务中表现出强位置偏差。

Your Students Don't Use LLMs Like You Wish They Did

Sebastian Kobler et al.

cs.CL cs.CY cs.HC

本文提出了六种计算指标用于自动评估学生与AI对话中的教学对齐性，并通过分析四个课程中的500个对话发现：学生主要将对话式导师用于提取答案而非持续学习对话，且部署环境是影响使用模式的最强因素。

K-SENSE: A Knowledge-Guided Self-Augmented Encoder for Neuro-Semantic Evaluation of Mental Health Conditions on Social Media

Vijay Yadav

cs.CL cs.AI

本文提出K-SENSE框架，用于从社交媒体文本中检测心理健康状态（如压力和抑郁）。该框架结合了外部常识知识（来自COMET模型）和内部表示鲁棒性（通过对比学习），在Dreaddit和Depression_Mixed数据集上取得了优于先前基线的F1分数。

MTRouter: Cost-Aware Multi-Turn LLM Routing with History-Model Joint Embeddings

Yiqun Zhang et al.

cs.CL cs.AI

本文提出MTRouter，一种用于多轮LLM路由的成本感知方法，通过将交互历史和候选模型编码为联合嵌入来预测每轮模型效用，从而在固定成本预算下优化性能与成本的权衡。实验表明，该方法在ScienceWorld和HLE等任务上相比GPT-5显著降低了总成本。

Pref-CTRL: Preference Driven LLM Alignment using Representation Editing

Imranul Ashrafi, Inigo Jauregi Unanue, Massimo Piccardi

cs.CL cs.AI

本文提出Pref-CTRL框架，通过多目标value function改进LLM在推理时的representation editing对齐方法，在基准数据集上优于RE-Control方法。该方法主要关注偏好数据结构的优化，与关键词列表中的概念关联较弱。

RouteNLP: Closed-Loop LLM Routing with Conformal Cascading and Distillation Co-Optimization

Dongxin Guo, Jikun Wu, Siu Ming Yiu

cs.CL cs.LG

本文提出RouteNLP框架，通过难度感知路由、共形预测级联和蒸馏-路由协同优化，在保证任务质量的前提下降低大模型推理成本。实验表明该方法在多个领域任务上实现40-85%的成本削减，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词相关技术。

LLMs Reading the Rhythms of Daily Life: Aligned Understanding for Behavior Prediction and Generation

Fanjin Meng et al.

cs.CL cs.AI

本文提出Behavior Understanding Alignment (BUA)框架，通过结构化curriculum learning将LLM与预训练行为模型的sequence embeddings对齐，以改进人类行为预测与生成。实验表明该方法在多个任务上优于现有方法。

ComplianceNLP: Knowledge-Graph-Augmented RAG for Multi-Framework Regulatory Gap Detection

Dongxin Guo, Jikun Wu, Siu Ming Yiu

cs.CL cs.IR cs.LG

本文提出了ComplianceNLP系统，通过知识图谱增强的RAG pipeline和多任务义务提取，自动检测金融监管文本与机构政策之间的合规差距。系统在基准测试中取得了87.7 F1的gap检测性能，并展示了实际部署中的效率提升。

XITE: Cross-lingual Interpolation for Transfer using Embeddings

Barah Fazili, Preethi Jyothi

cs.CL

本文提出了一种名为XITE的跨语言嵌入插值数据增强技术，通过将低资源目标语言的文本嵌入与英语训练数据中的对应嵌入进行插值来生成合成数据，并利用线性判别分析(LDA)提升性能。该方法在情感分析和自然语言推理任务上取得了显著提升，但与我提供的关键词列表中的概念关联度较低。

Personality Shapes Gender Bias in Persona-Conditioned LLM Narratives Across English and Hindi: An Empirical Investigation

Tanay Kumar et al.

cs.CL

本文通过控制实验研究了在英语和印地语中，人格特质（HEXACO和Dark Triad）如何影响LLM在角色条件化故事生成中的性别偏见，发现Dark Triad特质与更强的性别刻板印象相关，但该研究与关键词列表中的概念无直接关联。

Applications of the Transformer Architecture in AI-Assisted English Reading Comprehension

Ping Li

cs.CL cs.AI

本文研究了Transformer架构在AI辅助英语阅读理解中的应用，通过集成attention机制和梯度特征归因方法，构建了包括对抗性偏差校正和注意力热图可视化的技术流程。实验表明该方法在准确率和F1分数上优于现有模型，并提升了教师对AI评分系统的信任度。

GraphPlanner: Graph Memory-Augmented Agentic Routing for Multi-Agent LLMs

Tao Feng et al.

cs.CL

本文提出GraphPlanner，一种基于异构图记忆增强的多智能体LLM路由方法，将工作流生成建模为Markov Decision Process，并利用GARNet图结构整合历史与工作流记忆，通过强化学习优化路由决策。该方法在14个任务上提升了准确率并大幅降低了GPU成本，但未涉及code、spectral、Muon或pretrain等关键词。

Neural Grammatical Error Correction for Romanian

Teodor-Mihai Cotet, Stefan Ruseti, Mihai Dascalu

cs.CL cs.LG

本文介绍了首个罗马尼亚语语法错误纠正(GEC)语料库，包含10k句子对，并适配了ERRANT评分工具。实验表明，在低资源场景下，通过预训练策略结合Transformer模型可提升性能，最佳模型在人工生成数据上预训练后微调达到F0.5为53.76。

Benchmarking Testing in Automated Theorem Proving

Jongyoon Kim, Hojae Han, Seung-won Hwang

cs.CL

本文提出了一个名为T的框架，用于评估自动定理证明中生成定理的语义正确性，其核心思想是只有当所有依赖的后继定理都能成功编译时，才认为生成的定理正确。基于5个真实的Lean 4仓库构建了包含2206个问题的基准测试，实验表明现有模型在该语义指标下表现显著差于传统的编译成功率。

Agri-CPJ: A Training-Free Explainable Framework for Agricultural Pest Diagnosis Using Caption-Prompt-Judge and LLM-as-a-Judge

Wentao Zhang et al.

cs.CL cs.AI cs.CV

本文提出了Agri-CPJ框架，利用大视觉语言模型生成结构化形态描述，并通过LLM作为裁判进行诊断，无需额外训练。该方法在农业害虫诊断任务上提升了准确率，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

AIPsy-Affect: A Keyword-Free Clinical Stimulus Battery for Mechanistic Interpretability of Emotion in Language Models

Michael Keeman

cs.CL cs.AI

本文提出了AIPsy-Affect，一个480项的无关键词临床刺激数据集，用于消除大语言模型情感机制可解释性研究中情感关键词的混淆效应。该数据集通过匹配对设计确保模型对情感刺激的响应不基于情感关键词，并验证了其有效性。

Multimodal QUD: Inquisitive Questions from Scientific Figures

Yating Wu et al.

cs.CL

本文提出了一种多模态QUD（Questions Under Discussion）方法，将文本中的QUD理论扩展到科学图表场景，通过构建MQUD数据集并微调VLM，使模型能生成需要跨模态推理的高层次问题。该方法主要关注自然语言处理中的问题生成任务，与关键词列表中的概念关联较弱。

Domain Fine-Tuning vs. Retrieval-Augmented Generation for Medical Multiple-Choice Question Answering: A Controlled Comparison at the 4B-Parameter Scale

Avi-ad Avraam Buskila

cs.CL cs.IR

本文在4B参数规模下，对比了领域微调与检索增强生成（RAG）在医学多选题问答中的效果。实验发现领域微调能显著提升准确率，而RAG在两种模型上均未带来统计显著的增益。

LegalDrill: Diagnosis-Driven Synthesis for Legal Reasoning in Small Language Models

Tianchun Li et al.

cs.CL

本文提出LegalDrill框架，通过从大模型中提取并迭代优化推理轨迹来训练小语言模型，以提升其在法律推理任务中的表现。该方法不涉及code、spectral、Muon等关键词相关技术。

DRACULA: Hunting for the Actions Users Want Deep Research Agents to Execute

Nishant Balepur et al.

cs.CL

本文收集了DRACULA数据集，包含专家用户对科学深度研究agent中间操作（如添加章节）的偏好反馈，并研究了用LLM模拟预测用户操作选择的可行性。研究发现用户选择因未言明目标而异，且模拟结果可用于生成更符合用户偏好的新操作。

Resource-Lean Lexicon Induction for German Dialects

Robert Litschko, Barbara Plank, Diego Frassinelli

cs.CL

本文研究了低资源德语方言的词典自动归纳问题，发现基于字符串相似性特征的随机森林模型在双语词典归纳任务上优于大型语言模型，并能在方言间迁移。该方法为资源匮乏场景下的词汇资源构建提供了轻量级替代方案。

One Size Fits None: Heuristic Collapse in LLM Investment Advice

Jillian Ross, Andrew W. Lo

cs.CL cs.LG

本文研究了大型语言模型在投资建议中的“heuristic collapse”现象，即模型过度依赖单一输入特征（如风险承受能力）而忽略其他相关因素。通过可解释的surrogate model分析，发现即使加入web search，该问题也未得到根本解决。

Reheat Nachos for Dinner? Evaluating AI Support for Cross-Cultural Communication of Neologisms

Dayeon Ki et al.

cs.CL cs.AI

本文通过人类受试者研究(N=234)评估了AI工具在跨文化交流中帮助非母语者学习英语新词的效果，比较了AI定义、AI改写和AI解释三种支持条件，发现AI解释在提升母语者评价的交际能力方面效果最佳，但非母语者的自我感知与实际能力存在差距。

Translate or Simplify First: An Analysis of Cross-lingual Text Simplification in English and French

Ido Dahan et al.

cs.CL

本文研究了英语和法语之间的跨语言文本简化（CLTS）任务，比较了五种不同的prompting策略（直接提示、组合式、分解式）在大型语言模型上的效果。结果表明，直接提示在BLEU分数上表现最佳，而先翻译后简化的方法在简化程度上最高。

Learning Selective LLM Autonomy from Copilot Feedback in Enterprise Customer Support Workflows

Nikita Borovkov et al.

cs.CL cs.SE

本文介绍了一个在企业BPM平台中自动化端到端客户支持工作流的部署系统，通过copilot反馈和UI交互轨迹训练agent策略，实现了选择性自动化。该系统在45%的会话中实现自动化，并将平均处理时间降低39%，但方法主要基于工程实践，缺乏理论创新。

Knowledge Vector of Logical Reasoning in Large Language Models

Zixuan Wang, Yuanyuan Lei

cs.CL

本文研究了LLM中演绎、归纳和溯因三种逻辑推理的知识向量表示，发现它们在线性空间中相对独立，并提出了一个互补子空间约束的细化框架来增强它们之间的互补性。通过引导实验验证了该方法能提升推理性能。

TSAssistant: A Human-in-the-Loop Agentic Framework for Automated Target Safety Assessment

Xiaochen Zheng et al.

cs.CL

TSAssistant是一个多agent框架，用于辅助靶点安全性评估报告的自动生成，通过模块化、分节和人在回路的范式，将报告生成分解为多个专业子agent的协调流程，并支持用户交互式修改。该框架旨在减轻证据综合和报告起草的机械负担，但并未涉及code、spectral、Muon、pretrain或attention等关键词。

KOMBO: Korean Character Representations Based on the Combination Rules of Subcharacters

SungHo Kim et al.

cs.CL cs.AI

本文提出KOMBO框架，基于韩文《训民正音》的造字原理，将子字符组合规则引入预训练语言模型，在多项韩语自然语言理解任务中平均提升2.11%。该方法主要关注韩文字符的表示学习，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Quantum Knowledge Graph: Modeling Context-Dependent Triplet Validity

Yao Wang, Zixu Geng, Jun Yan

cs.CL cs.AI cs.SC

本文提出了一种量子知识图谱（QKG）框架，将三元组有效性建模为上下文的函数，并在医学问答任务中验证了其有效性。实验表明，结合上下文匹配的QKG在LLM推理中优于无验证器和无上下文匹配的基线。

Propagation Structure-Semantic Transfer Learning for Robust Fake News Detection

Mengyang Chen et al.

cs.CL

本文提出了一种基于教师-学生架构的传播结构-语义迁移学习框架(PSS-TL)，通过设计双教师模型分别从噪声新闻内容和传播结构中学习语义和结构知识，并利用多通道知识蒸馏损失使学生模型获取专业知识，从而避免结构噪声与语义噪声的相互干扰。实验验证了该方法在假新闻检测中的有效性和鲁棒性。

EPM-RL: Reinforcement Learning for On-Premise Product Mapping in E-Commerce

Minhyeong Yu, Wonduk Seo

cs.CL cs.AI cs.DB cs.LG cs.MA

本文提出EPM-RL框架，利用Reinforcement Learning将高成本的agentic推理蒸馏到可训练的内部模型中，用于电商产品映射任务。该方法通过PEFT微调和基于agent的奖励优化，在保证质量的同时降低了部署成本。

Stabilizing Efficient Reasoning with Step-Level Advantage Selection

Han Wang et al.

cs.CL cs.LG

本文研究了大型语言模型在推理时的高效性问题，提出了一种名为Step-level Advantage Selection (SAS)的方法，通过在推理步骤层面分配零advantage来稳定训练并提升准确率与效率的权衡。该方法在数学和通用推理基准上相比现有长度感知基线取得了更好的性能。

Improving Robustness of Tabular Retrieval via Representational Stability

Kushal Raj Bhandari et al.

cs.CL cs.AI cs.IR cs.IT

本文发现基于Transformer的表格检索系统对序列化格式（如csv、html等）敏感，导致语义等价的表格产生不同嵌入。作者提出使用序列化嵌入的质心作为规范目标表示，并引入轻量残差瓶颈适配器来提升鲁棒性，但效果依赖于模型类型。

Distilling Self-Consistency into Verbal Confidence: A Pre-Registered Negative Result and Post-Hoc Rescue on Gemma 3 4B

Jon-Paul Cacioli

cs.CL cs.AI

本文尝试通过confidence-conditioned supervised fine-tuning (CSFT)将self-consistency信号蒸馏为verbal confidence，但在Gemma 3 4B模型上得到负结果，仅在后验探索中通过移除模态过滤器获得二分类正确性判别器，AUROC2提升至0.774。研究指出confidence训练需要label entropy，且正确目标能正则化输出格式。

PeeriScope: A Multi-Faceted Framework for Evaluating Peer Review Quality

Sajad Ebrahimi et al.

cs.CL

PeeriScope是一个用于评估同行评审质量的模块化平台，集成了结构化特征、基于rubric的大语言模型评估和监督预测。它为评审质量的多维度评估提供了可扩展的工具，但与我提供的关键词列表关联度较低。

How Sensitive Are Safety Benchmarks to Judge Configuration Choices?

Xinran Zhang

cs.CL

本文通过2x2x3因子设计构建了12种judge prompt变体，发现仅改变prompt措辞就能使HarmBench安全基准的harmful-response rate偏移高达24.2个百分点，且模型安全排名存在中等程度的不稳定性。该研究揭示了LLM judge配置选择（judge model与judge prompt的组合）是安全基准测试中一个被忽视的测量方差来源。

The Pragmatic Persona: Discovering LLM Persona through Bridging Inference

Jisoo Yang et al.

cs.CL cs.AI

本文提出一种通过bridging inference（一种基于共享世界知识和话语连贯性的隐式概念关系）分析LLM对话的框架，将对话建模为结构化知识图谱以发现persona。实验表明该方法在语义连贯性和persona识别稳定性上优于基于频率或风格的基线方法。

BiMol-Diff: A Unified Diffusion Framework for Molecular Generation and Captioning

Aditya Hemant Shahane et al.

cs.CL

本文提出BiMol-Diff，一个用于分子生成和分子描述的统一diffusion框架。其核心是token-aware noise schedule，根据token恢复难度分配位置相关的噪声，在ChEBI-20和M3-20M数据集上提升了分子重建的Exact Match，并在分子描述任务上取得了最佳BLEU和BERTScore。

Factual and Edit-Sensitive Graph-to-Sequence Generation via Graph-Aware Adaptive Noising

Aditya Hemant Shahane et al.

cs.CL

本文提出了一种非自回归扩散框架DLM4G用于图到序列生成，通过自适应噪声策略对齐图组件与序列token，在三个数据集上优于基线模型，并展示了在分子描述等科学任务中的通用性。

IRIS: Interleaved Reinforcement with Incremental Staged Curriculum for Cross-Lingual Mathematical Reasoning

Navya Gupta et al.

cs.CL

本文提出IRIS框架，通过结合渐进式课程学习的监督微调与逆向课程强化学习，并设计复合奖励函数，来提升跨语言数学推理能力。该方法在英语、印地语和马拉地语数据集上取得改进，但与我提供的关键词（如code, spectral, Muon等）无直接关联。

Psychologically-Grounded Graph Modeling for Interpretable Depression Detection

Rishitej Reddy Vyalla et al.

cs.CL

本文提出PsyGAT框架，将对话会话建模为动态temporal graph，并引入Psychological Expression Units (PEUs)编码临床证据，通过persona-based数据增强解决类别不平衡问题。该方法在DAIC-WoZ和E-DAIC数据集上取得state-of-the-art性能，但未涉及code、spectral、Muon、pretrain或agent等关键词。

AdapTime: Enabling Adaptive Temporal Reasoning in Large Language Models

Yimin Deng et al.

cs.CL cs.AI

AdapTime提出了一种自适应时间推理方法，通过reformulate、rewrite和review三种动作动态执行推理步骤，以增强大语言模型处理时间信息的能力。该方法无需外部工具即可提升模型在时间问答任务上的表现，但未涉及代码、谱方法或注意力机制等关键词相关技术。

MemeScouts@LT-EDI 2026: Asking the Right Questions -- Prompted Weak Supervision for Meme Hate Speech Detection

Ivo Bueno, Lea Hirlimann, Enkelejda Kasneci

cs.CL cs.AI

本文提出了一种基于prompted weak supervision (PWS)的方法，通过将meme理解分解为针对性的问题式labeling functions，用于多语言meme仇恨言论检测。该方法在LT-EDI 2026任务中取得了较好成绩，但未涉及code, context, spectral, Muon, pretrain, agent, attention等关键词。

MultiDx: A Multi-Source Knowledge Integration Framework towards Diagnostic Reasoning

Yimin Deng et al.

cs.CL cs.AI

本文提出了MultiDx，一个两阶段的诊断推理框架，通过整合来自网络搜索、SOAP格式病例和临床病例数据库的多源知识，进行鉴别诊断并生成最终预测。实验表明该方法在公共基准上有效，但主要聚焦于医疗领域的应用，与关键词中的概念关联较弱。

Seeing Is No Longer Believing: Frontier Image Generation Models, Synthetic Visual Evidence, and Real-World Risk

Shuai Wu et al.

cs.CL cs.AI

本文分析了前沿图像生成模型（如GPT Image 2等）在合成视觉证据方面的能力及其带来的现实风险，提出了一个能力加权风险框架，并给出了分层控制建议。该工作主要关注AI安全与政策分析，与您提供的关键词（如code, spectral, Muon, pretrain等）关联度较低。

Differentiable Faithfulness Alignment for Cross-Model Circuit Transfer

Shun Shao et al.

cs.CL

本文提出Differentiable Faithfulness Alignment (DFA)框架，通过可微对齐将小模型中的circuit信息迁移到大模型，避免了在大模型上重新进行完整的circuit发现。实验表明该方法在Llama-3等模型上有效，但迁移效果随架构差异增大而减弱。

Reducing Redundancy in Retrieval-Augmented Generation through Chunk Filtering

Daria Berdyugina, Anaëlle Cohen, Yohann Rioual

cs.CL

本文研究了检索增强生成（RAG）中的chunk过滤策略，通过语义、主题和命名实体等方法减少索引冗余。实验表明，基于实体的过滤可在保持检索质量的同时将向量索引大小减少25%-36%。

OS-SPEAR: A Toolkit for the Safety, Performance,Efficiency, and Robustness Analysis of OS Agents

Zheng Wu et al.

cs.CL

本文提出了OS-SPEAR工具包，用于从安全性、性能、效率和鲁棒性四个维度系统分析OS agent。该工具包包含四个专门子集，并评估了22个流行OS agent，揭示了效率与安全性/鲁棒性之间的权衡。

Culture-Aware Machine Translation in Large Language Models: Benchmarking and Investigation

Zekun Yuan et al.

cs.CL

本文构建了文化感知机器翻译数据集CanMT和评估框架，系统评估了大型语言模型在文化场景下的翻译能力，发现模型在识别文化知识与正确翻译之间存在差距。

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

Sichun Luo et al.

cs.CL cs.AI cs.NE

本文提出SeaEvo，一种在LLM驱动的程序搜索中引入自然语言策略描述作为进化状态的方法，通过策略表述、分层经验检索和战略景观导航三个模块改进进化搜索。实验在数学算法发现、系统优化和智能体基准测试上验证了有效性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

MIPIC: Matryoshka Representation Learning via Self-Distilled Intra-Relational and Progressive Information Chaining

Phung Gia Huy et al.

cs.CL

本文提出MIPIC框架，通过自蒸馏的层内关系对齐（SIA）和渐进信息链接（PIC）策略，改进Matryoshka表示学习（MRL）中跨维度与跨深度的结构一致性。实验表明该方法在多种NLP任务上提升了嵌套嵌入在不同计算预算下的性能，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Learning Evidence of Depression Symptoms via Prompt Induction

Eliseo Bao et al.

cs.CL

本文提出Symptom Induction (SI)方法，通过将标注示例压缩为简短可解释的guidelines来对BDI-II问卷中的21种抑郁症状进行句子级分类，解决了细粒度且高度不平衡的分类问题。该方法在多个LLM上取得最佳加权F1值，并在跨领域评估中展现出良好的泛化性。

Structural Pruning of Large Vision Language Models: A Comprehensive Study on Pruning Dynamics, Recovery, and Data Efficiency

Yiran Huang et al.

cs.CL

本文系统研究了大型视觉语言模型的结构化剪枝方法，包括逐层和逐宽度剪枝范式，并探讨了使用少量数据（如5%）进行轻量级恢复训练的可行性。实验表明，宽度剪枝在低资源场景下表现更优，且结合监督微调和隐藏状态蒸馏能有效恢复模型性能。

Scaling Properties of Continuous Diffusion Spoken Language Models

Jason Ramapuram et al.

cs.CL cs.AI cs.LG

本文研究了连续扩散spoken language models (SLMs)的scaling properties，发现其与离散自回归模型类似，在validation loss和phoneme Jensen-Shannon divergence (pJSD)上遵循scaling laws，并存在最优token-to-parameter ratio。将模型扩展到16B参数和数千万小时数据后，能生成富有情感和韵律的多说话人多语言语音，但长程连贯性仍是挑战。

A Multi-Dimensional Audit of Politically Aligned Large Language Models

Lisa Korver, Mohamed Mostagir, Sherief Reda

cs.CL

本文基于Habermas的沟通行动理论，提出了一个多维度框架来审计政治对齐的LLM，评估了有效性、公平性、真实性和说服力四个维度。实验发现，大型模型在角色扮演和真实性上表现更好，但公平性较差，而微调模型偏见更低但推理性能下降。

Kwai Summary Attention Technical Report

Chenglong Chu et al.

cs.CL cs.AI cs.IR cs.LG

本文提出Kwai Summary Attention (KSA)，一种通过将历史上下文压缩为可学习的summary tokens来降低序列建模成本的注意力机制。该方法在KV cache与序列长度之间保持线性关系，但通过特定压缩比$k$实现语义级压缩，为长上下文场景提供了折中方案。

Can You Make It Sound Like You? Post-Editing LLM-Generated Text for Personal Style

Connor Baumler et al.

cs.CL

本文通过在线实验研究了用户对LLM生成文本进行后期编辑以融入个人风格的效果，发现后期编辑能提升风格相似性但无法完全消除LLM痕迹，且存在感知与测量之间的差距。

Zero-shot Large Language Models for Automatic Readability Assessment

Riley Grossman, Yi Chen

cs.CL

本文提出了一种基于zero-shot prompting的LLM方法用于自动可读性评估(ARA)，并在14个数据集上进行了评估。此外，作者还提出了LAURAE方法，结合LLM和可读性公式分数以提高鲁棒性。

SEARCH-R: Structured Entity-Aware Retrieval with Chain-of-Reasoning Navigator for Multi-hop Question Answering

Yuqing Fu et al.

cs.CL

本文提出SEARCH-R框架，通过微调Llama3.1-8B模型训练端到端推理路径导航器，并设计基于dependency tree的检索方法来评估文档的信息贡献，以解决多跳问答中的推理路径生成和知识检索问题。实验在三个数据集上验证了其有效性。

Generating Place-Based Compromises Between Two Points of View

Sumanta Bhattacharyya et al.

cs.CL

本文研究了使用LLM生成两个对立观点之间的折中方案，通过对比四种prompt engineering方法，发现基于外部共情相似性的迭代反馈方法优于标准Chain of Thought推理，并利用生成的数据集通过margin-based alignment训练小模型以提高效率。

Aligned Multi-View Scripts for Universal Chart-to-Code Generation

Zhihan Zhang, Lizi Liao

cs.CL cs.AI

本文提出了Chart2NCode数据集和CharLuMA模型，用于将图表图像转换为Python、R和LaTeX等多种语言的执行脚本，通过语言条件化的低秩子空间混合模块实现跨语言代码生成。

MEG-RAG: Quantifying Multi-modal Evidence Grounding for Evidence Selection in RAG

Xihang Wang et al.

cs.CL cs.IR cs.IT

本文提出MEG-RAG框架，通过语义感知的Multi-modal Evidence Grounding (MEG)指标量化检索证据对答案语义核心的贡献，并训练多模态reranker以提升检索增强生成中证据选择的准确性。实验表明该方法在M$^2$RAG基准上优于基线，但与我提供的关键词（如code, spectral, Muon等）关联较弱。

Evaluation of Pose Estimation Systems for Sign Language Translation

Catherine O'Brien et al.

cs.CL

本文系统比较了多种pose estimator（姿态估计器）在sign language translation（手语翻译）任务中的下游表现，发现SDPose和Sapiens优于常用的MediaPipe基线，并分析了关键点缺失和遮挡鲁棒性对翻译质量的影响。

Looking for the Bottleneck in Fine-grained Temporal Relation Classification

Hugo Sousa, Ricardo Campos, Alípio Jorge

cs.CL

本文提出了一种名为Interval from Point的方法，用于细粒度时间关系分类，通过先分类时间实体端点的点关系再解码为区间关系，在TempEval-3数据集上取得了70.1%的时间感知分数，达到了新的最优结果。

K-MetBench: A Multi-Dimensional Benchmark for Fine-Grained Evaluation of Expert Reasoning, Locality, and Multimodality in Meteorology

Soyeon Kim et al.

cs.CL cs.AI

本文提出了K-MetBench，一个基于韩国国家资格考试的多维基准测试，用于评估多模态大语言模型在气象学领域的专家推理、局部性和多模态能力。实验揭示了模型在图表视觉推理和逻辑一致性方面的显著缺陷，并表明韩国本地模型在特定文化语境下优于更大规模的全球模型。

DepthKV: Layer-Dependent KV Cache Pruning for Long-Context LLM Inference

Zahra Dehghanighobadi, Asja Fischer

cs.CL cs.AI

本文提出DepthKV方法，通过根据各层对剪枝的敏感性差异来分配KV缓存预算，而非均匀分配，从而在相同全局剪枝比例下提升长上下文LLM推理效率。该方法在多个模型和任务上优于均匀剪枝策略。

Benchmarking Source-Sensitive Reasoning in Turkish: Humans and LLMs under Evidential Trust Manipulation

Sercan Karakaş, Yusuf Şimşek

cs.CL cs.AI

本文通过受控实验研究了土耳其语中信息源可信度对evidential morphology（证据形态）的影响，发现人类说话者对可信度敏感，而大语言模型（LLMs）的表现不稳定且与人类存在差距。该研究主要关注语言学现象，与关键词中的code、spectral、Muon、pretrain、agent、attention等无直接关联。

Can LLMs Act as Historians? Evaluating Historical Research Capabilities of LLMs via the Chinese Imperial Examination

Lirong Gao et al.

cs.CL

本文提出了ProHist-Bench基准，基于中国科举制度评估LLM的历史研究能力，发现现有模型在复杂历史推理任务上表现不足。

Contextual Linear Activation Steering of Language Models

Brandon Hsu et al.

cs.CL

本文提出了一种名为CLAS的方法，通过动态调整线性激活引导的强度来改进大语言模型的性能，并在多个基准测试中优于标准方法。该方法旨在提升模型在有限标注数据下的专业化能力。

The Chameleon's Limit: Investigating Persona Collapse and Homogenization in Large Language Models

Yunze Xiao et al.

cs.CL

本文研究了LLM在多智能体模拟中的“Persona Collapse”现象，即不同角色设定下的智能体行为趋于同质化。作者提出了一个量化框架，从Coverage、Uniformity和Complexity三个维度评估种群多样性，并发现高角色保真度的模型反而会产生更刻板的种群行为。

Green Shielding: A User-Centric Approach Towards Trustworthy AI

Aaron J. Li et al.

cs.CL cs.AI

本文提出Green Shielding框架，通过CUE标准（Context, Utility, Elicitation）和PCS框架，在医疗诊断场景中构建用户导向的AI部署指南，发现非对抗性输入变化（如neutralization）会沿临床维度系统性地改变LLM输出，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling

Parsa Ashrafi Fashi et al.

cs.CL cs.LG

本文提出HyLo方法，通过结合Transformer块、Multi-Head Latent Attention (MLA)与线性块（Mamba2或Gated DeltaNet），并采用分阶段长上下文训练与教师蒸馏，将预训练LLM转换为混合架构。该方法在保持短上下文质量的同时，将可用上下文长度扩展至$32\times$并减少KV-cache内存超过90%。

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

Hermawan Manurung et al.

cs.CL

本文针对印尼电商评论中的情感与情绪分类问题，提出了一个双轨分类流程：一条轨道使用TF-IDF与PyCaret AutoML，另一条使用多任务BiLSTM网络。实验在PRDECT-ID数据集上进行了基准测试，但方法本身在创新性上较为常规，且与关键词列表中的概念关联较弱。

cs.DS

A Simple Algorithm for Clustering Discrete Distributions ⭐ 精选

Pradipta Mitra

cs.DS

本文提出了一种基于投影的简单算法，用于聚类离散（Bernoulli）分布的混合体。该算法通过将样本投影到由数据矩阵的最佳秩-$k$ 近似上的 $k$-means 计算得到的近似中心上，具有旋转不变性，从而解决了McSherry关于此类离散分布几何算法存在性的猜想。该算法同样适用于高维Gaussian等连续分布，为不同分布类型提供了统一的方法，并在聚类中心满足自然分离条件时被证明有效。

Coloring for dispersion: A polynomial-time algorithm for cardinality-constrained 2-anticlustering ⭐ 精选

Nguyen Khoa Tran et al.

cs.DS

本文针对$k$-Maximum Dispersion Problem with Cardinality Constraints ($k$-MDCC$)在$k=2$时的多项式时间可解性这一长期开放问题给出了肯定回答。作者通过将2-MDCC转化为一系列基数约束的2-着色问题实例，并进一步将其转化为一类输入值有界的subset sum问题，利用伪多项式动态规划算法在多项式时间内求解。实验表明，该算法的开源实现比之前的整数线性规划方法快数个数量级，能在一秒内处理$n=10,000$的大规模数据集。该工作与关键词“code”和“context”有一定契合，因其提供了可运行的算法代码并解决了特定约束下的图着色问题。

Approximating Energy-Constrained Drone Delivery Packing Problem for Last-Mile Logistics

Saswata Jana, Partha Sarathi Mandal

cs.DS

本文研究了无人机-卡车协同配送中的Drone-Delivery Packing Problem，目标是在电池预算和配送时间窗约束下最小化无人机数量。针对三种变体（无电池站、无冲突时间窗、有电池站且时间窗冲突），分别提出了基于First Fit Decreasing的常数因子近似算法，并给出了$(2+\psi)$、$(4+\psi)$和$(3+\psi)$的近似比。该工作主要关注物流优化中的组合调度问题，与关键词中的code、context、spectral等无直接关联。

Approximate Maintenance of Maximum Subarray Sum in the Sliding Window Model

Ryo Suzuki, Yutaro Yamaguchi

cs.DS

本文研究了滑动窗口模型下的最大子数组和近似维护问题，利用Smooth Histogram框架实现了常数因子近似，并进一步改进得到$(1 \pm \epsilon)$-近似，空间复杂度为$O(\epsilon^{-1}(\log n)^2)$比特。该工作主要关注数据流算法中的空间效率，与关键词中的概念关联较弱。

A Linear-Time Algorithm for Finding an Odd Cycle Through Two Specified Vertices

Takumi Kano, Yutaro Yamaguchi

cs.DS math.CO

本文提出了一个确定性线性时间算法，用于在无向图中寻找通过两个指定顶点的奇环，并将其推广到任意元素阶数不超过2的群$\Gamma$的标记图上。该算法能在线性时间内判断是否存在两个通过指定顶点且标记不同的环，并在存在时找出它们。

Well-Conditioned Oblivious Perturbations in Linear Space

Shabarish Chenakkod et al.

cs.DS cs.LG math.NA math.PR stat.ML

本文提出了一种仅需$O(n)$随机数和$O(\log n)$位精度的扰动方法，能将任意确定性矩阵的条件数降至$O(n)$，从而改进了扰动共轭梯度法的复杂度。该方法通过引入pattern matrix与稀疏非均匀依赖扰动相结合，并发展了分析依赖随机矩阵最小奇异值的新技术。

A Note on Interdiction of Linear Minimization Problems

Yu Cong, Kangyi Tian

cs.DS

本文从连通性阻断问题的FPTAS中抽象出一般性论证框架，将线性最小化问题的阻断预算对偶化后，通过截断权重将删除操作吸收，并指出最优拉格朗日乘子下的未知最优阻断见证是重加权问题的严格2-近似最小化器。

A more versatile model for enumerative kernelization: a case study for Vertex Cover

Marin Bougeret, Guilherme C. M. Gomes, Ignasi Sau

cs.DS

本文提出了一种新的枚举核化模型（polynomial-delay kernels），旨在平衡之前两种模型的严格性与灵活性，并以Vertex Cover问题为例展示了该模型的应用。该工作主要关注参数化复杂性与枚举算法的交叉领域，但与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Characterizations of Admissible Objective Functions for Hierarchical Clustering

Ryuki Tsukuba, Kazutoshi Ando

cs.DS cs.LG

本文研究了层次聚类的可容许目标函数，在sum-type目标函数中刻画了当scaling function g为至多二次对称多项式时的情形，并给出了三次情况下的充分条件。同时，文章引入了max-type目标函数这一新类别，并对其可容许性进行了刻画。

A Tight Lower Bound for Cycle Detection in Grid Graphs

Andrew Au

cs.DS

本文通过构造自适应对手论证，证明了在$m \times n$网格图中检测颜色匹配的环（cycle）时，任何算法在最坏情况下都必须读取所有$mn$个单元格。该下界适用于所有$m \geq 2$且$n \geq 2$的网格。

Dynamic Grammar-Compressed Self-Index in $delta$-Optimal Space

Takaaki Nishimoto, Yasuo Tabei

cs.DS

本文提出了动态RR-index，一种基于restricted recompression run-length straight-line program (RLSLP)的动态grammar-compressed self-index，首次实现了$\delta$-optimal space，支持高效的locate查询和子串插入删除操作，并在大规模重复语料上展示了显著的性能优势。

New Convex Programming Technique for Nash Social Welfare and Scheduling

Yuda Feng, Weijiang Hu, Shi Li

cs.DS

本文提出了一种新的凸规划松弛方法用于加权Nash社会福利问题，通过Feng和Li的舍入算法实现了匹配的近似比，并可将该规划转化为多项式大小的紧致线性规划。此外，该方法还扩展到了两个无关机器调度问题，以更简单的分析恢复了已知的最佳近似比。

Finding Shortest Reconfiguration Sequences on Independent Set Polytopes

Jean Cardinal et al.

cs.DS

本文研究了独立集多面体上最短重配置序列问题，证明了该问题在平面有界度图和分裂图上都是NP难的，并给出了块图、余图和二分链图的多项式时间算法。

Near-Optimal Heaps and Dijkstra on Pointer Machines

Ivor van der Hoog et al.

cs.DS

本文研究了指针机器模型下的working-set heap数据结构，证明了其支持Push操作在均摊常数时间内完成，DecreaseKey操作在反Ackermann时间内完成。作为应用，Dijkstra最短路径算法在指针机器上实现了近乎最优的性能。

Minimum Temporal Spanners in Happy Graphs

Arnaud Casteigts, Hendrik Molter, Meirav Zehavi

cs.DS

本文研究了时间图（temporal graphs）中最小时间生成子图（temporal spanners）的NP-hardness问题，证明即使在简单且proper（即“happy”）的图（每条边只出现一次，且顶点不能同时连接多条边）中，该问题也是NP-hard的，从而统一并强化了先前的结果。此外，文章还开启了该问题的参数化研究，给出了在底层图具有常数大小vertex cover时的多项式时间算法，并证明了在非happy设定下，以底层图的feedback vertex number为参数时问题是W[1]-hard的。

On the complexity of edge subdivision to $H$-free graphs

Marta Piecyk, R. B. Sandeep

cs.DS math.CO

本文研究了图边细分操作在消除诱导子图$H$中的计算复杂性，给出了多项式时间可解与NP完全的分类条件，并基于指数时间假说证明了某些情况下$2^{o(k)}n^{O(1)}$时间算法不存在。该工作主要关注图论中的结构复杂性问题，与关键词中的code、context、spectral等方向关联较弱。

Computational Complexity of the Interval Ordering Problem

Simeon Pawlowski, Vincent Froese

cs.DS

本文研究了一个由生物信息学应用启发的区间排序问题，通过动态规划方法在$O(2^n\text{poly}(n))$时间内求解，并证明了对于特定成本函数（如$f(x)=2^x$）存在多项式时间算法，同时给出了NP-hardness结果。

A Tour of Locality Sensitive Filtering on the Sphere

Luca Becchetti et al.

cs.DS

本文为Angular ANN问题提供了一个基于Locality Sensitive Filtering (LSF)的数据结构，并给出了统一的分析视角，梳理了LSH与LSF之间的深层联系。文章通过整合已有文献中的技术细节，证明了该数据结构的渐近最优性。

Identification to Subclasses of Chordal Graphs

Petr A. Golovach, Laure Morelle, Daniël Paulusma

cs.DS cs.CC math.CO

本文研究了图顶点识别操作（将两个顶点替换为一个新顶点，其邻域为原邻域并集）的判定问题，针对弦图（chordal graphs）的若干子类分析了经典与参数化复杂度，并考虑了给定目标图H的识别问题。该工作主要贡献在于对弦图子类进行了系统性的复杂度分类。

Maximum Weight Independent Set in Hereditary Classes of Ordered Graphs

Paweł Rafał Bieliński, Marta Piecyk, Paweł Rzążewski

cs.DS

本文研究了有序图（ordered graphs）中最大权重独立集（MWIS）问题的复杂性，针对每个禁止诱导子图$H$，将MWIS的复杂度分类为多项式时间、拟多项式时间、次指数时间或NP-hard四种情况。该工作为有序图类中的MWIS问题提供了近乎完整的复杂度二分法。

Scalable First-Order Interior Point Trust Region Algorithms for Linearly Constrained Optimization

Yuexin Su et al.

cs.DS math.OC

本文提出了一种可扩展的一阶内点信赖域算法框架，通过低秩更新维护近似投影器来替代精确子问题求解，从而降低线性约束优化中每步迭代的计算成本。该方法在保持可行性和全局收敛性的同时，利用基于梯度的负曲率例程避免显式Hessian计算，实验表明在大规模场景下相比现有算法有显著加速。

Polynomial Kernels for Spanning Tree with Diversity Requirements

Petr A. Golovach, Diptapriyo Majumdar, Saket Saurabh

cs.DS cs.DM

本文研究了带多样性约束的生成树问题，通过kernelization方法为两个变体问题（Leaf & Internal-Constrained Diverse Spanning Trees和Leaf & Non-terminal-Constrained Diverse Spanning Trees）提供了多项式核，参数分别为$p+q+k+\ell$和$p+|V_{\rm NT}|+k+\ell$。

others

FreqFormer: Hierarchical Frequency-Domain Attention with Adaptive Spectral Routing for Long-Sequence Video Diffusion Transformers ⭐ 精选

Haopeng Jin

cs.CV cs.AI eess.IV

本文提出FreqFormer，一种用于长序列视频扩散Transformer的分层频域注意力框架。其核心创新在于根据视频特征的频谱结构（spectral structure），对低频、中频和高频分量分别采用密集全局注意力、结构化块稀疏注意力和滑动窗口局部注意力，并通过轻量级频谱路由网络（spectral routing network）根据层统计量和扩散时间步动态分配注意力头。该方法在理论上提供了正交分解视角，并在模拟中显著降低了估计的注意力FLOPs和KV相关内存流量，为长视频扩散模型提供了一种硬件友好的高效注意力方案，与关键词“spectral”和“attention”高度契合。

AutoRISE: Agent-Driven Strategy Evolution for Red-Teaming Large Language Models ⭐ 精选

Tanmay Gautam, Alireza Bahramali, Sandeep Atluri

cs.CR cs.AI cs.MA

本文提出AutoRISE方法，通过将红队攻击（red-teaming）转化为对可执行攻击程序（executable attack programs）的搜索，而非优化固定策略下的单个prompt。该方法利用coding agent在每次迭代中编辑攻击策略，并基于标量目标和逐样本诊断反馈进行结构性的策略演化，包括引入新的攻击组件和改变控制流（control flow）。在11个模型和7个jailbreak数据集上的实验表明，AutoRISE在保持黑盒、仅推理设置下，平均攻击成功率提升17.0个百分点，其优势源于对程序搜索空间的自由探索，特别是组合技术和控制流编辑。该方法与关键词“agent”高度契合，体现了agent驱动的策略演化机制。

Beyond Single-Agent Alignment: Preventing Context-Fragmented Violations in Multi-Agent Systems ⭐ 精选

Jie Wu, Ming Gong

cs.MA cs.AI cs.CR cs.LG

本文形式化定义并解决了多智能体系统中的Context-Fragmented Violations (CFVs)问题，即各agent的局部行为看似安全，但因其各自持有的policy facts被隔离在不同部门的私有context中，导致全局违反组织策略。作者提出Distributed Sentinel架构，通过Semantic Taint Token (STT) Protocol和轻量级sidecar代理，在不暴露原始跨域数据的情况下传播安全状态，并利用Counterfactual Graph Simulation进行跨域策略验证。在构建的PhantomEcosystem基准上，该方法在9类跨agent违规场景中达到F1=0.95，显著优于基于prompt的过滤和基于规则的DLP方法。实验还表明，即使是最先进的LLM在multi-agent工作流中也存在高达14-98%的违规率，验证了集中式外部强制层对于多智能体安全的重要性。

RouteGuard: Internal-Signal Detection of Skill Poisoning in LLM Agents ⭐ 精选

Wenjie Xiao et al.

cs.CR cs.AI

RouteGuard提出了一种针对LLM agent技能投毒（skill poisoning）的内部信号检测方法。该方法基于一个关键发现：成功的技能投毒会引发“注意力劫持”（attention hijacking）现象，即响应阶段的attention从可信上下文转移到恶意技能片段。为此，RouteGuard采用冻结backbone的检测器，通过响应条件attention（response-conditioned attention）和隐状态对齐（hidden-state alignment）结合可靠性门控晚期融合（reliability-gated late fusion）来检测攻击。实验表明，在Skill-Inject通道上，RouteGuard达到0.8834 F1分数，并恢复了90.51%被词法筛查遗漏的描述攻击，证明了防御技能投毒需要基于内部信号而非纯文本过滤。

No Test Cases, No Problem: Distillation-Driven Code Generation for Scientific Workflows ⭐ 精选

Siddeshwar Raghavan, Tanwi Mallick

cs.SE cs.AI cs.MA

本文提出MOSAIC，一个无需I/O测试用例的多智能体框架，用于科学工作流代码生成。其核心创新在于采用student-teacher知识蒸馏框架，通过领域特定示例和结构化问题分解来引导代码生成，并引入Consolidated Context Window (CCW)机制以缓解跨子问题的幻觉。实验表明，该方法在SciCode基准上提升了代码的准确性、可执行性和数值精度，为缺乏测试用例的科学计算场景提供了有效方案。

AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking ⭐ 精选

Dongxin Guo, Jikun Wu, Siu Ming Yiu

cs.SE cs.CL

AgentEval将agentic workflow的执行过程形式化为evaluation directed acyclic graph (DAG)，每个节点携带由calibrated LLM judge (GPT-4o)评估的类型化质量指标，并通过层次化failure taxonomy (3 levels, 21 subcategories)进行分类。该方法通过DAG-based dependency modeling自动进行root cause attribution，在failure detection recall上比flat step-level evaluation提升+22个百分点，在root cause accuracy上提升+34个百分点。在三个production workflows (450 test cases)上，AgentEval的failure detection recall达到0.89，是end-to-end evaluation (0.41)的2.17倍，且与human experts的Cohen's kappa = 0.84。该框架通过CI/CD-integrated regression testing将median root-cause identification time从4.2小时降至22分钟，与关键词"agent"高度契合。

ESIA: An Energy-Based Spatiotemporal Interaction-Aware Framework for Pedestrian Intention Prediction ⭐ 精选

Yanping Wu et al.

cs.CV cs.AI

本文提出ESIA框架，将行人意图预测建模为基于Conditional Random Field (CRF)的结构化预测问题。通过构建统一图表示，将行人和环境视为spatiotemporal nodes，并设计unary potentials和pairwise potentials分别捕捉个体意图与社会/环境交互，最终整合为全局能量函数以保证场景级一致性。为解决无ground-truth监督下的推理，引入structural consistency terms惩罚逻辑矛盾，并设计Unary-Seeded Simulated Annealing (U-SSA)算法利用高置信度先验快速收敛。该方法在标准基准上达到state-of-the-art性能，且与关键词"agent"和"attention"（通过图结构中的交互建模）高度契合。

Constraint-Guided Multi-Agent Decompilation for Executable Binary Recovery ⭐ 精选

Yifan Zhang et al.

cs.SE cs.AI

本文提出了一种名为MCGD的多智能体框架，用于将编译后的二进制文件反编译为可重新执行的源代码。该方法通过一个分层验证管道，在语法正确性、可编译性和行为等价性三个约束级别上，利用专门的LLM智能体根据结构化错误反馈迭代优化反编译代码。在ExeBench基准测试中，该方法在三个反编译器上实现了84-97%的可重新执行性，显著优于现有方法，并证明了基于执行的验证对于实现行为正确性至关重要。该工作与关键词中的agent和code高度契合，为解决反编译代码实用性这一长期问题提供了开创性的多智能体约束引导方法。

Global Context or Local Detail? Adaptive Visual Grounding for Hallucination Mitigation ⭐ 精选

Yubo Jiang et al.

cs.CV cs.AI

本文提出Positive-and-Negative Decoding (PND)，一种无需训练的推理框架，通过直接干预解码过程来缓解Vision-Language Models (VLMs)中的object hallucination问题。其核心发现是VLMs存在关键的attention deficit（视觉特征被经验性地欠加权），PND通过双路径对比来纠正：正路径利用multi-layer attention放大显著视觉证据以鼓励忠实描述，负路径则通过退化核心物体特征创建强反事实来惩罚无根据的、依赖先验的生成。该方法在POPE、MME、CHAIR等基准上实现了最高6.5%的准确率提升，且能泛化至LLaVA、InstructBLIP等多种VLM架构，与关键词“attention”高度契合。

Cloudless-Training: A Framework to Improve Efficiency of Geo-Distributed ML Training

Wenting Tan et al.

cs.DC cs.AI

本文提出Cloudless-Training框架，通过两层架构和弹性调度策略提升地理分布式ML训练的资源利用率与同步效率，并引入ASGD-GA和MA两种同步策略。实验表明该框架能降低训练成本并加速训练，但方法在创新性和与关键词的契合度上均不突出。

HalalBench: A Multilingual OCR Benchmark for Food Packaging Ingredient Extraction

Hasan Arief

cs.CV cs.CL

本文提出了HalalBench，一个用于食品包装OCR的多语言基准数据集，包含1043张图像和36438个标注，覆盖14种语言。实验表明现有OCR引擎在该任务上表现不佳，尤其在日语上F1得分为0.000，而提出的后处理算法可提升36%的F1分数。

Implicit Humanization in Everyday LLM Moral Judgments

Hoda Ayad, Tanu Mitra

cs.CY cs.AI cs.IR

本文研究了大型语言模型（LLM）在回应道德判断查询时，如何通过语言、行为和认知拟人化线索强化用户的隐含人化假设，并构建了一个模拟用户查询数据集。该工作主要关注人机交互中的拟人化风险，与关键词中的数学或算法概念无直接关联。

Algorithmic Administration and the EU AI Act: Legal Principles for Public Sector Use of AI

Georgios Pavlidis, Ioannis Kastanas

cs.CY cs.AI

本文探讨了欧盟AI法案如何与行政法基本原则（如行政裁量、说明理由义务和比例原则）相互作用，分析了该法案对公共部门使用高风险AI系统的监管要求，并提出了确保AI在公共部门合法部署的保障措施。

Artificial General Intelligence Forecasting and Scenario Analysis: State of the Field, Methodological Gaps, and Strategic Implications

Gopal P. Sarma et al.

cs.CY cs.AI cs.ET cs.LG

本文综述了人工通用智能（AGI）预测的现有方法论，评估了其可靠性，并分析了战略与政策影响。文章并未提出新的数学方法或解决特定技术问题，而是侧重于对预测框架的批判性审视与研究议程的提出。

The Imbalanced User-AI Relationships as an Ethical Failure of Front-End Design in Healthcare AI

Maureen Mghambi Mwadime

cs.HC cs.AI cs.CY

本文聚焦于医疗AI前端设计中的伦理问题，指出用户与AI之间的不平衡关系（如患者被数据化但无法理解或影响AI输出）是一种伦理失败，并通过聊天式远程医疗案例分析了设计选择如何削弱用户能动性和临床判断。

Secure On-Premise Deployment of Open-Weights Large Language Models in Radiology: An Isolation-First Architecture with Prospective Pilot Evaluation

Sebastian Nowak et al.

cs.CY cs.CL

本文提出了一种基于隔离优先架构的本地化LLM部署方案，用于放射科处理受保护的健康信息，并通过前瞻性试点评估验证了其临床实用性和稳定性。该工作主要关注工程实现和监管合规，而非提出新的数学或算法方法。

Learning in Blocks: A Multi Agent Debate Assisted Personalized Adaptive Learning Framework for Language Learning

Nicy Scaria, Silvester John Joseph Kennedy, Deepak Subramani

cs.CY cs.AI cs.CL cs.HC

本文提出了一种基于多智能体辩论（HeteroMAD）的个性化自适应语言学习框架，通过CEFR标准评估学习者的对话能力并驱动学习进度，实验表明该方法在评分一致性和学习效果上优于传统方法。

When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR

Jin Seong et al.

cs.CY cs.AI cs.CV cs.LG

本文研究了多行手写数学OCR中Vision-Language Models (VLMs)的过度修正问题，并提出PINK (Penalized INK-based score)指标，利用LLM进行基于评分标准的评估并惩罚过度修正。实验表明PINK比BLEU更符合人类判断，为教育场景下的手写数学OCR提供了更可靠的评估框架。

Epicure: Multidimensional Flavor Structure in Food Ingredient Embeddings

Jakub Radzikowski, Josef Chen

cs.CY cs.AI cs.LG

本文利用LLM增强的整理流程，将FlavorGraph的食材嵌入从6653个原始条目整合为1032个规范条目，并从中识别出至少15个可独立分类的维度（如味道、质地、地理等），揭示了烹饪直觉在食材嵌入中的编码结构。

A General Framework for Generative Self-supervised Learning in Non-invasive Estimation of Physiological Parameters Using Photoplethysmography

Zexing Zhang et al.

eess.SP cs.AI cs.LG

本文提出了一种用于光电容积描记法(PPG)生理参数估计的生成式自监督学习框架TS2TC，通过设计跨时间融合生成锚点(CTFGA)预文本任务和双过程迁移(DPT)策略，利用时域、频谱及时频混合域的特征进行表示学习。实验表明该方法在仅使用10%训练数据时，在RMSE指标上比现有方法平均提升2.49%。

Non-Destructive Prediction of Fruit Ripeness and Firmness Using Hyperspectral Imaging and Lightweight Machine Learning Models

Phongsakon Mark Konrad et al.

eess.IV cs.LG

本文系统评估了20种经典机器学习算法在高光谱成像数据上的表现，用于五种水果的成熟度分类和硬度预测。研究发现，基于树的模型可超越深度学习方法，且仅需三个可见光波长即可恢复94%以上的全光谱精度。

UGAF-ITS: A Standards Harmonization Framework and Validation Tool for Multi-Framework AI Governance in Distributed Intelligent Transportation Systems

Talal Ashraf Butt, Muhammad Iqbal, Razi Iqbal

cs.CY cs.AI

本文提出了UGAF-ITS框架，通过五阶段交叉映射方法将ISO/IEC 42001、EU AI Act和NIST AI风险管理框架中的154项义务整合为12个统一控制项，并设计了三层（车辆、边缘、云）操作模型与证据骨干。验证表明该框架在分布式智能交通系统中实现了91.7%的平均覆盖率与45.9%的证据缩减，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词相关方法。

From Equations to Algorithms and Data: Transforming Microwave Engineering and Education with Machine Learning

Mehmet Parlak, Islam Guven

eess.SP cs.ET cs.LG

本文提出将机器学习与数据驱动方法引入微波工程教育，通过拓扑无关的性能导向设计框架替代传统方法，以应对毫米波和太赫兹频段的挑战，并增强学生的物理直觉与设计创造力。

Accelerating Reinforcement Learning for Wind Farm Control via Expert Demonstrations

Marcus Binder Nilsen et al.

eess.SY cs.LG

本文提出了一种利用稳态尾流模型生成的专家演示来预训练强化学习agent的方法，以加速风电场控制中的训练收敛并提升初始性能。实验表明，预训练消除了初始学习阶段，使agent在微调后达到与查找表控制器相当的性能。

Load constrained wind farm flow control through multi-objective multi-agent reinforcement learning

Teodor Åstrand et al.

eess.SY cs.LG

本文提出了一种基于multi-agent reinforcement learning (MARL)的框架，用于在风电场流动控制中平衡功率提升与结构载荷约束。通过将Independent Soft Actor-Critic (I-SAC)架构与数据驱动的surrogate model结合，实现了对Damage Equivalent Loads (DELs)的实时估计，并训练agent在给定载荷增加阈值下最大化功率。

Hierarchical RL-MPC Control for Dynamic Wake Steering in Wind Farms

Marcus Binder Nilsen et al.

eess.SY cs.LG

本文提出了一种结合reinforcement learning和model predictive control的分层框架，用于风电场尾流转向优化，其中RL agent学习MPC控制器的补偿状态估计。在三涡轮案例中，该方法相比基线控制实现了23%的功率增益，并超越了具有完美状态知识的理想化MPC。

Context-Integrated Adversarial Learning for Predictive Modelling of Stock Price Dynamics

Alexis Lazanas, Spyros Christodoulou, Spyridon Karpouzis

q-fin.ST cs.LG

本文提出了一种结合NLP情感特征与对抗训练的股票价格预测模型，通过整合市场指标和文本上下文信息来提升预测鲁棒性。实验表明该方法在波动市场下优于ARIMA和LSTM基线。

See No Evil: Semantic Context-Aware Privacy Risk Detection for AR

Jialu Liu et al.

cs.CV cs.AI eess.SY

本文提出PrivAR框架，利用vision language models (VLMs)和chain-of-thought推理来检测AR环境中的上下文隐私风险，通过视觉场景线索推断敏感信息类型并实现文本混淆。实验表明该方法在隐私风险检测上优于基线，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Sliced Wasserstein Steering between Gaussian Measures

Kaito Ito, Anqi Dong

math.OC cs.LG eess.SY stat.ML

本文提出了一种用于分布控制的sliced feedback controller，通过将高维分布投影到一维方向并求解Benamou--Brenier问题来合成控制律，并证明了在高斯情形下该控制器能引导分布至目标。该方法具有正交变换不变性和投影非扩张性，但未直接涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention。

Cross-Course Generalizability of SRL-Aligned Predictive Models Using Digital Learning Traces

Jakob Schwerter et al.

cs.CY cs.LG stat.AP

本文研究了基于数字学习轨迹的SRL对齐预测模型在STEM课程中的跨课程泛化能力，发现Elastic Net比Random Forest具有更好的跨情境鲁棒性，但模型在不同院校间的准确性和校准度会因基础风险率差异而下降。

Applied AI-Enhanced RF Interference Rejection

Rahul Jain et al.

eess.SP cs.AI cs.LG

本文提出了一种基于Autoregressive Transformer Decoder模型的AI增强射频干扰抑制方法，用于在存在OFDM干扰时恢复模拟FM信号。该方法在推理速度上比WaveNet模型快数个数量级，并通过PESQ指标证明能有效提升语音可懂度，同时利用轻量级GPU保持低延迟。

In-Sync: Adaptation of Speech Aware Large Language Models for ASR with Word Level Timestamp Predictions

Xulin Fan et al.

eess.AS cs.CL cs.LG cs.SD

本文提出了一种扩展语音感知语言模型的方法，使其能直接预测word-level timestamps，并引入轻量级训练策略以提升对齐鲁棒性。实验表明该方法在保持识别质量的同时提高了timestamp精度和ASR性能。

Representation Homogeneity and Systemic Instability in AI-Dominated Financial Markets: A Structural Approach

Yimeng Qiu, Qiwei Han

q-fin.TR cs.AI cs.LG cs.MA

本文构建了一个结构化的多agent市场模型，研究AI交易agent在信息表示上的同质性如何导致系统性不稳定。模型通过表示层和读出层分离了表示同质性与预测重叠，并发现表示同质性会压缩压力下的预测分歧空间，导致信念和头寸同步化，从而引发波动聚集和尾部风险。

Complete Cyclic Subtask Graphs for Tool-Using LLM Agents: Flexibility, Cost, and Bottlenecks in Multi-Agent Workflows

Luay Gharzeddine, Samer Saab Jr

cs.MA cs.AI

本文研究了完全循环子任务图（complete cyclic subtask graphs）在多agent工作流中的灵活性与成本权衡，通过在TextCraft、ALFWorld和Finance-Agent基准上的实验，分析了显式子任务回溯对恢复、探索及协调开销的影响。

Audio2Tool: Bridging Spoken Language Understanding and Function Calling

Ramit Pahwa et al.

cs.SD cs.LG eess.AS

本文提出了Audio2Tool数据集，包含约3万条语音查询，用于评估语音语言模型在智能车、智能家居和可穿戴设备领域的工具调用能力，并发现现有模型在复杂组合和声学挑战下性能显著下降。

DO-Bench: An Attributable Benchmark for Diagnosing Object Hallucination in Vision-Language Models

JiYang Wang et al.

cs.CV cs.AI

DO-Bench是一个用于诊断Vision-Language Models中Object Hallucination问题的可控基准，通过结构化多模态干预来区分错误源于感知限制还是上下文文本先验的影响。该基准定义了Prior Override和Perception-Limited两个维度，并引入PriorRobust和PerceptionAbility指标来量化模型行为。

PivotMerge: Bridging Heterogeneous Multimodal Pre-training via Post-Alignment Model Merging

Zibo Shao et al.

cs.CV cs.AI

本文提出PivotMerge框架，用于融合多个多模态大模型在预训练阶段学习到的跨模态对齐能力。它通过共享空间分解与过滤、对齐引导的逐层合并两个组件，解决了参数干扰和层间贡献不均的问题。

WeatherSeg: Weather-Robust Image Segmentation using Teacher-Student Dual Learning and Classifier-Updating Attention

Zhang Zhang et al.

cs.CV cs.AI

本文提出WeatherSeg，一个半监督语义分割框架，通过双教师-学生权重共享模型和分类器权重更新注意力机制，提升自动驾驶在恶劣天气下的环境感知鲁棒性，并降低标注成本。实验表明其在多种天气条件下优于基线模型。

SGP-SAM: Self-Gated Prompting for Transferring 3D Segment Anything Models to Lesion Segmentation

Zixuan Tang, Shen Zhao

cs.CV cs.AI

本文提出SGP-SAM框架，通过Self-Gated Prompting Module (SGPM)和Zoom Loss解决3D SAM模型在病灶分割中的空间表征不足和类别不平衡问题，在MSD肝脏和脑肿瘤数据集上取得提升。

Shape: A Self-Supervised 3D Geometry Foundation Model for Industrial CAD Analysis

Bayangmbe Mounmo, Sam Chien, Mile Mitrovic

cs.CV cs.LG

本文提出Shape，一个自监督的3D几何基础模型，用于工业CAD分析。它通过结合结构化3D latent grid、多尺度几何感知tokenizer (MAGNO)和transformer处理器，将表面网格转换为密集的per-token embedding，并在CAD网格上预训练以支持重建和检索任务。

DGHMesh: A Large-scale Dual-radar mmWave Dataset and Generalization-focused Benchmark for Human Mesh Reconstruction

Rongxiao Guo, Qingchao Chen

cs.CV cs.LG

本文提出了一个大规模双雷达毫米波数据集DGHMesh和基准测试，用于人体网格重建，并设计了mmPTM多雷达融合框架。该工作主要贡献在于数据集和基准测试的构建，但方法本身在理论创新上较为常规。

MetaEarth3D: Unlocking World-scale 3D Generation with Spatially Scalable Generative Modeling

Jinqi Cao et al.

cs.CV cs.AI

本文提出了MetaEarth3D，一个能够生成行星尺度、空间一致3D场景的生成式基础模型，通过处理10百万全球真实图像实现了多层级（地形、城市、街区）的视觉与地理统计真实感。该工作主要关注空间尺度作为AI的新扩展维度，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

2D Pre-Training for 3D Pose Estimation

Liyao Jiang, Ruichen Chen, Keith G. Mills

cs.CV cs.LG

本文研究了2D预训练对3D人体姿态估计的影响，通过扩展数据集范围并分析模型大小等因素，发现2D预训练在计算效率上优于仅使用3D数据训练。

Intervention-Aware Multiscale Representation Learning from Imaging Phenomics and Perturbation Transcriptomics

Jiayuan Chen et al.

cs.CV cs.AI cs.LG

本文提出了一种干预感知的知识蒸馏框架，利用perturbation transcriptomics引导microscopy图像的表征学习，通过transcriptome-conditioned teacher和image-only student处理弱配对数据中的细胞类型与剂量变化，在Cell Painting和RxRx数据集上提升了向未见干预的迁移性能。

WebSerial Vision Training for Microcontrollers: A Browser-Based Companion to On-Device CNN Training

Jeremy Ellis

cs.CV cs.LG

本文提出了webmcu-vision-web，一个基于浏览器的零安装工具，用于在微控制器（如Seeed Studio XIAO ESP32-S3 Sense）上进行TinyML视觉模型的端到端训练与部署。它通过浏览器端CNN训练（约1分钟）替代设备端训练（约9分钟），实现了快速的数据采集-训练-部署流程，但方法本身在算法或理论层面缺乏开创性，且与关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接契合。

ParkingScenes: A Structured Dataset for End-to-End Autonomous Parking in Simulation Scenes

Haonan Chen et al.

cs.CV cs.AI

本文提出了ParkingScenes数据集，基于CARLA模拟器生成结构化停车轨迹，包含多模态传感器数据，用于端到端自动驾驶停车任务。该数据集通过Hybrid A*和MPC提供可复现的监督信号，实验表明其能显著提升停车策略学习性能。

OAMVOS:2nd Report for 5th PVUW MOSE Track

Deshui Miao et al.

cs.CV cs.AI

本文针对SAM-based dense tracker在长遮挡、快速运动等场景下的脆弱性，提出了一种增强记忆控制的扩展方法OAMVOS，通过引入可靠性感知状态机、分支恢复和选择性记忆策略来提升鲁棒性，但方法本身未涉及code、context、spectral等关键词。

Neural Network Optimization Reimagined: Decoupled Techniques for Scratch and Fine-Tuning

Xin Ning et al.

cs.CV cs.AI

本文提出DualOpt方法，针对从头训练和微调两种场景分别设计了实时逐层权重衰减和权重回滚技术，以提升收敛性、泛化性并缓解知识遗忘。实验在多个视觉任务上验证了其有效性。

From Skeletons to Pixels: Few-Shot Precise Event Spotting via Representation and Prediction Distillation

Zhong Han Ervin Yeoh, Jiang Kan

cs.CV cs.AI

本文研究了在少样本条件下进行精确事件定位（PES）的问题，提出了两种多模态蒸馏策略：预测层面的自适应权重蒸馏（AWD）和表示层面的退火多模态蒸馏（AMD-FED），通过将骨架知识迁移到视觉模态来提升泛化能力。实验在网球和花样滑冰数据集上验证了方法的有效性。

AeSlides: Incentivizing Aesthetic Layout in LLM-Based Slide Generation via Verifiable Rewards

Yiming Pan et al.

cs.CV cs.CL cs.MM

本文提出AeSlides框架，通过可验证的奖励函数（verifiable rewards）和GRPO强化学习方法，直接优化LLM生成幻灯片的视觉布局质量，解决了文本生成与视觉审美之间的模态差距问题。该方法在GLM-4.7-Flash上仅用5K训练提示即显著提升了布局合规性并减少了空白、碰撞和不平衡等问题。

Accelerating New Product Introduction for Visual Quality Inspection via Few-Shot Diffusion-Based Defect Synthesis

Serkan Hamdi Güğül, Kemal Levi, Burak Acar

cs.CV cs.LG

本文提出了一种基于few-shot diffusion的缺陷合成框架，通过解耦缺陷形态与背景外观，实现工业视觉检测中的数据增强与跨域迁移。该方法在私有数据集上提升了检测性能，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

EgoDyn-Bench: Evaluating Ego-Motion Understanding in Vision-Centric Foundation Models for Autonomous Driving

Finn Rasmus Schäfer et al.

cs.CV cs.CL cs.RO

本文提出了EgoDyn-Bench基准，用于评估视觉中心基础模型在自动驾驶中的自我运动理解能力。研究发现模型存在感知瓶颈，即视觉感知与物理推理之间存在结构性脱节，且提供显式轨迹编码能显著恢复物理一致性。

SwarmDrive: Semantic V2V Coordination for Latency-Constrained Cooperative Autonomous Driving

Anjie Qiu et al.

cs.RO cs.AI

本文提出SwarmDrive框架，利用附近车辆运行的小型语言模型(SLM)在不确定性高时共享紧凑的意图分布，并通过事件触发共识进行融合，以降低自动驾驶中的通信延迟。实验表明，在特定遮挡交叉口场景下，该方法相比纯本地模型提升了成功率并降低了延迟，但尚未达到实际6G部署的验证标准。

FastAT Benchmark: A Comprehensive Framework for Fair Evaluation of Fast Adversarial Training Methods

Chao Pan, Xin Yao

cs.CV cs.LG

本文提出了FastAT Benchmark，一个用于公平评估快速对抗训练方法的统一框架，通过统一架构、标准化设置和禁止外部数据来确保可重复比较。实验表明，某些单步方法能以更低成本达到与多步方法相当的鲁棒性。

MAE-Based Self-Supervised Pretraining for Data-Efficient Medical Image Segmentation Using nnFormer

R. M. Krishna Sureddi et al.

cs.CV cs.AI

本文提出了一种基于Masked Autoencoders (MAE)的自监督预训练框架，用于提升nnFormer在医学图像分割中的数据效率。该方法通过在无标签数据上预训练模型学习解剖结构表示，再在下游任务上微调，实验表明其能提高Dice分数并加速收敛。

Probing Visual Planning in Image Editing Models

Zhimu Zhou et al.

cs.CV cs.AI

本文提出EAR范式，将视觉规划问题转化为单步图像编辑任务，并构建AMAZE数据集用于评估。实验表明现有编辑模型在零样本设置下表现不佳，微调后虽能泛化但效率仍不及人类。

SketchVLM: Vision language models can annotate images to explain thoughts and guide users

Brandon Collins et al.

cs.CV cs.AI

本文提出SketchVLM，一个无需训练、与模型无关的框架，使视觉语言模型(VLM)能在输入图像上生成非破坏性的可编辑SVG覆盖层，以可视化解释其推理过程。该方法在视觉推理和标注任务上提升了准确率和标注质量，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

A Specialized Importance-Aware Quantum Convolutional Neural Network with Ring-Topology (IA-QCNN) for MGMT Promoter Methylation Prediction in Glioblastoma

Emine Akpinar, Murat Oduncuoglu

quant-ph cs.LG

本文提出了一种基于量子机制的IA-QCNN架构，用于预测胶质母细胞瘤中MGMT启动子甲基化状态，通过量子叠加和纠缠特性提升高维MRI数据的表征学习效率，并利用环拓扑量子卷积和折叠池化层减少过拟合。实验表明该模型在低参数量下达到高精度，且对混合噪声具有鲁棒性。

NeuroAPS-Net: Neuro-Anatomically Aware Point Cloud Representation for Efficient Alzheimer's Disease Classification

Towhidul Islam, Mufti Mahmud

cs.CV cs.AI

本文提出NeuroAPS-Net，将T1-weighted MRI转换为2D point cloud用于阿尔茨海默病分类，通过Anatomical Priority Sampling (APS)生成ADNI-2DPC数据集，并设计轻量级geometric deep learning模型，在降低计算成本的同时保持分类精度。

Can Multimodal Large Language Models Truly Understand Small Objects?

Fujun Han et al.

cs.CV cs.AI

本文提出了SOUBench基准和SOU-VQA数据集，用于评估多模态大语言模型在小物体理解任务上的能力，并开发了SOU-Train训练数据集以提升模型性能。实验表明现有MLLMs在小物体理解上表现较弱，而微调后能力有所增强。

Federated Cross-Modal Retrieval with Missing Modalities via Semantic Routing and Adapter Personalization

Hefeng Zhou et al.

cs.CV cs.AI

本文提出RCSR，一个面向联邦跨模态检索的个性化框架，通过原型锚定和语义路由解决非独立同分布数据与模态缺失问题，在多个基准上验证了其有效性。

Magnetic Indoor Localization through CNN Regression and Rotation Invariance

Helge Rosé et al.

cs.RO cs.LG

本文提出了一种基于CNN回归的磁室内定位方法，通过使用旋转不变特征（磁场范数Mn和重力轴投影Mg）替代原始3D磁数据，解决了设备方向变化导致的定位精度下降问题。实验表明，该方法在MagPie数据集上达到了与现有技术相当的精度，且轻量级模型MagNetS更适合移动部署。

Reconstructive Authority Model: Runtime Execution Validity Under Partial Observability

Marcelo Fernandez - TraslaIA

cs.CR cs.AI cs.GT

本文提出Reconstructive Authority Model (RAM)，将执行有效性重新定义为覆盖重构问题，通过分离完整性（integrity）与覆盖性（coverage）来应对部分可观测性下的运行时执行验证。实验表明RAM在所有覆盖水平下均实现零无效执行率，而仅依赖attestation的系统存在显著失效。

On the Complementarity of Quantum and Classical Features: Adaptive Hybrid Quantum-Classical Feature Fusion for Breast Cancer Classification

Yasmin Rodrigues Sobrinho, João Renato Ribeiro Manesco, João Paulo Papa

cs.CV cs.AI

本文提出了一种用于乳腺癌分类的自适应混合量子-经典特征融合架构，通过双分支特征提取管道结合经典模型与量子电路，并引入三种融合策略（包括温度缩放混合融合TSHF）来平衡优化动态。实验表明该方法在BreastMNIST数据集上优于纯经典基线，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

CT-Guided Spatially-varying Regularization for Voxel-Wise Deformable Whole-Body PET Registration

Xiangcen Wu et al.

eess.IV cs.AI cs.CV

本文提出了一种CT引导的空间变化正则化策略，用于全身PET图像的可变形配准，通过利用配对的CT图像构建体素级正则化图来替代传统的单一全局正则化权重，从而在不同组织（如骨骼和软组织）间实现自适应的正则化强度。该方法在临床数据集上验证了其有效性，但未涉及代码、上下文、谱方法、Muon、预训练、智能体或注意力等关键词。

Large language model-enabled automated data extraction for concrete materials informatics

Zhanzhao Li et al.

cond-mat.mtrl-sci cs.CL cs.LG

本文提出了一种基于large language model的自动化数据提取pipeline，用于从非结构化科学文献中提取混凝土材料数据，并构建了最大的开放实验室数据库。该方法在多种LLM上表现稳健，但未涉及关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念。

VS-DDPM: Efficient Low-Cost Diffusion Model for Medical Modality Translation

Nikoo Moradi et al.

cs.CV cs.AI cs.LG

本文提出了一种3D Variable-Step Denoising Diffusion Probabilistic Model (VS-DDPM)，旨在加速医学图像模态转换中的推理过程，并在缺失MRI合成等任务上取得了SOTA性能，但在其他任务上表现一般。该方法主要关注效率提升，与关键词中的概念关联较弱。

AnemiaVision: Non-Invasive Anemia Detection via Smartphone Imagery Using EfficientNet-B3 with TrivialAugmentWide, Mixup Augmentation, and Persistent Patient History Management

Rahul Patel

cs.CV cs.LG cs.SE

本文提出AnemiaVision系统，利用智能手机拍摄眼睑和指甲床照片进行非侵入性贫血筛查，通过微调EfficientNet-B3模型并集成多种数据增强技术，在验证集上达到96.2%的准确率和0.98的AUC-ROC。该系统部署为Flask Web应用并支持患者历史记录管理，适用于资源匮乏地区的社区筛查。

Institutions for the Post-Scarcity of Judgment

Lauri Lovén

cs.CY cs.AI

本文探讨了AI革命如何逆转了稀缺性，指出看似有能力的判断（选择、排名、认证等）已能以接近零的边际成本大规模生产，而验证信号、合法性、真实来源和整合能力成为新的稀缺品。文章分析了这一转变对科学机构、专业许可、知识产权和民主合法性等制度的影响，并提出了将AI政策重新定义为制度设计、建立来源与验证的公共资源等议程。

Rethinking Trust Region Bayesian Optimization in High Dimensions

Wei-Ting Tang, Joel A. Paulson

stat.ML cs.LG

本文分析了Trust Region Bayesian Optimization (TuRBO)在高维问题中因lengthscale设计不当导致的性能退化问题，并提出AdaScale-TuRBO变体，通过将GP lengthscale与问题维度和trust region尺寸进行缩放来保持kernel几何结构。实验表明该方法在合成基准和轨迹规划任务上优于标准TuRBO。

Peer Identity Bias in Multi-Agent LLM Evaluation: An Empirical Study Using the TRUST Democratic Discourse Analysis Pipeline

Juergen Dietrich

cs.CY cs.AI cs.MA

本文通过TRUST民主话语分析管道，实证研究了多智能体LLM评估中的身份偏差，发现单通道匿名化会产生近乎零的偏差效应，而全管道匿名化才能揭示真实模式。研究强调了异构模型集成和全管道匿名化对有效偏差测量的必要性。

CheXmix: Unified Generative Pretraining for Vision Language Models in Medical Imaging

Ashwin Kumar et al.

cs.CV cs.AI

本文提出CheXmix，一种用于医学影像的统一早期融合生成式预训练模型，通过结合masked autoencoder和MLLM的两阶段策略，在胸部X光片任务上提升了分类和报告生成性能。

Hard to See, Hard to Label: Generative and Symbolic Acquisition for Subtle Visual Phenomena

Renjith Prasad et al.

cs.CV cs.AI

本文提出GSAL主动学习框架，结合扩散模型（diffusion-based）的视觉难度信号与分层语义覆盖先验，用于检测细微视觉异常。该方法通过重建差异和去噪变异性评估样本难度，并利用三级概念图促进语义覆盖，在工业缺陷检测等任务中提升了标签效率和稀有类检索性能。

Vision-Language-Action in Robotics: A Survey of Datasets, Benchmarks, and Data Engines

Ziyao Wang et al.

cs.RO cs.AI

本文对Vision-Language-Action (VLA)模型的数据基础设施进行了系统性综述，从数据集、基准测试和数据引擎三个维度分析了当前研究的瓶颈与挑战。文章指出未来VLA的进步将更依赖于高保真数据引擎与结构化评估协议的协同设计，而非模型架构本身。

DeepSignature: Digitally Signed, Content-Encoding Watermarks for Robust and Transparent Image Authentication

Mathias Graf et al.

cs.CR cs.AI cs.CV

本文提出DeepSignature，一种结合数字签名与深度神经网络的方法，通过生成内容编码水印并嵌入图像中，实现来源认证与完整性验证。该方法支持客户端验证，并引入潜在空间验证来检测篡改，在不可感知性与鲁棒性间取得平衡。

AmaraSpatial-10K: A Spatially and Semantically Aligned 3D Dataset for Spatial Computing and Embodied AI

Mohammad Sadegh Salehi et al.

cs.CV cs.AI cs.LG

本文提出了一个名为AmaraSpatial-10K的3D资产数据集，包含超过10,000个经过度量缩放、语义对齐的合成3D模型，并附带评估套件用于衡量资产的空间与语义质量。该工作主要关注数据集的构建与基准测试，未涉及关键词中的code, context, spectral, Muon, pretrain, agent, attention等核心概念。

Understanding Representation Gaps Across Scales in Tropical Tree Species Classification from Drone Imagery

Sulagna Saha et al.

cs.CV cs.LG

本文研究了利用无人机影像进行热带树种分类时，不同空间尺度（高分辨率近景与低分辨率俯视）图像间的表征差距。通过微调实验，发现近景图像分类性能始终优于俯视图像，且该差距在稀有物种上更为显著。

Self-Supervised Learning for Android Malware Detection on a Time-Stamped Dataset

Annan Fu, Hao Pei, Maryam Tanha

cs.CR cs.LG

本文构建了一个带时间戳的Android应用数据集，并采用BYOL自监督预训练方法学习抗混淆的表示，随后进行监督分类，在时间感知评估下达到98%的准确率。该工作主要关注恶意软件检测中的时间偏差问题，与关键词中的code、pretrain等概念关联较弱。

The Security Cost of Intelligence: AI Capability, Cyber Risk, and Deployment Paradox

Sukwoong Choi

econ.GN cs.AI cs.CR

本文构建了一个分析模型，研究企业在治理能力与AI能力存在差距时，如何联合选择AI部署与网络安全投资。模型揭示了“部署悖论”：在高损失环境下，若治理薄弱，更强的AI能力反而可能导致企业减少部署。

Training a General Purpose Automated Red Teaming Model

Aishwarya Padmakumar et al.

cs.CR cs.CL

本文提出了一种训练通用自动化红队模型（automated red teaming model）的pipeline，旨在使LLM能够泛化到任意对抗目标，包括训练时未见的目标，且不依赖训练时已有的评估器。通过微调小模型（如Qwen3-8B），该方法显著提升了模型在域内和域外对抗目标上生成攻击的能力。

From Pixels to Explanations: Interpretable Diabetic Retinopathy Grading with CNN-Transformer Ensembles, Visual Explainability and Vision-Language Models

Pir Bakhsh Khokhar et al.

cs.CV cs.AI

本文提出了一种结合CNN-Transformer集成模型与视觉语言模型(VLM)的糖尿病视网膜病变分级方法，在APTOS 2019基准上评估了多种骨干网络和集成策略，并利用Grad-CAM++和VLM生成视觉与文本解释。实验表明加权软投票集成效果最佳，但混合类级融合未带来显著提升，且VLM生成的解释在临床完整性与语义相似度间存在权衡。

Usable Agent Discovery for Decentralized AI Systems

Patrizio Dazzi et al.

cs.MA cs.AI cs.DC

本文研究了去中心化AI系统中agent发现机制在双层churn（节点级和agent级）下的性能，比较了结构化overlay（如Kademlia）和gossip-based overlay（如Cyclon+Vicinity）在不同churn场景下的路由效率与鲁棒性。

Turtle shell clustering: A mixture approach to discriminative clustering with applications to flow cytometry and other data

Mackenzie R. Neal, Paul D. McNicholas, Arthur White

stat.ML cs.LG stat.ME

本文提出了一种名为turtle shell clustering的完全无监督聚类方法，通过结合生成式与判别式聚类的思想，利用高斯分布与均匀分布的混合模型来估计非线性聚类边界并自动选择聚类数量。该方法在流式细胞术等数据集上进行了测试。

Code Broker: A Multi-Agent System for Automated Code Quality Assessment

Samer Attrah

cs.SE cs.AI cs.CL cs.PL

本文提出了Code Broker，一个基于多agent架构的Python代码质量自动评估系统，使用五个层次化的agent（包括协调器、流水线agent和三个并行专业agent）结合LLM推理与Pylint静态分析，生成涵盖正确性、安全性、风格和可维护性的评估报告。该系统在系统设计和工具编排方面提供了技术报告，但方法本身在代码质量评估领域缺乏显著的开创性，且与关键词中的agent概念仅有表面关联。

Toward Real-World Adoption of Portrait Relighting via Hybrid Domain Knowledge Fusion

Qian Huang et al.

cs.CV cs.GR cs.LG

本文提出了一种混合域知识融合范式，通过结合合成、OLAT和真实世界数据集，将多个专用先验模型的知识蒸馏到一个轻量级学生模型中，以实现高效的人像重光照。该方法在保持SOTA视觉质量的同时实现了6倍到240倍的推理加速，并构建了大规模高保真合成数据集支持训练。

MOCA: A Transformer-based Modular Causal Inference Framework with One-way Cross-attention and Cutting Feedback

Lei Wang, Debashis Ghosh

stat.ML cs.LG stat.ME

本文提出了一种基于Transformer的模块化因果推断框架MOCA，通过单向交叉注意力和梯度分离的切割反馈策略，防止结果信息影响处理模块的表示。该方法在多种模拟和真实数据集上表现出竞争力，但未涉及代码、上下文、谱方法、Muon、预训练或智能体等关键词。

ArgRE: Formal Argumentation for Conflict Resolution in Multi-Agent Requirements Negotiation

Haowei Cheng et al.

cs.SE cs.AI

本文提出ArgRE系统，将Dung-style abstract argumentation嵌入多智能体需求协商过程，通过将提议、批评和修改建模为argument，并计算grounded和preferred semantics下的可接受集来解决冲突。实验表明该方法在可审计性上优于启发式方法，但未涉及code、spectral、Muon或pretrain等关键词。

Learning from Imperfect Text Guidance: Robust Long-Tail Visual Recognition with High-Noise Label

Mengke Li et al.

cs.CV cs.LG

本文针对长尾分布和高噪声标签的联合挑战，提出利用预训练视觉-语言模型中的跨模态对齐来纠正标签-图像不一致问题，引入了一种称为Weak Teacher Supervision (WTS)的监督信号。实验表明该方法在高噪声条件下表现优越。

A Dynamic Learning Observatory Reveals the Rapid Salinization of Satkhira, Bangladesh

Showmitra Kumar Sarkar, Sai Ravela

physics.geo-ph cs.LG stat.AP

本文利用机器学习框架（XGBoost和GAM）结合Landsat光谱指数预测孟加拉国Satkhira地区的土壤盐度，揭示了2014-2023年间盐度暴露的时空动态。该方法为沿海地区的长期盐度监测提供了可扩展的方案。

MindTrellis: Co-Creating Knowledge Structures with AI through Interactive Visual Exploration

Xiang Li et al.

cs.HC cs.AI cs.IR cs.MA

本文提出了MindTrellis系统，通过交互式可视化界面支持用户与AI协作构建动态knowledge graph，以解决多文档信息合成中的知识组织问题。实验表明，该系统在知识组织和认知负荷方面优于仅基于检索的基线方法。

CNN-ViT Fusion with Adaptive Attention Gate for Brain Tumor MRI Classification: A Hybrid Deep Learning Model

Syed Ibad Hasnain et al.

cs.CV cs.AI q-bio.QM

本文提出一种结合SqueezeNet风格CNN分支与MobileViT风格全局transformer分支的混合架构，通过自适应注意力门控机制动态融合局部与全局特征，用于脑肿瘤MRI分类。实验表明该方法在Kaggle数据集上取得了优于单一CNN、ViT及现有融合方法的性能。

UNSEEN: A Cross-Stack LLM Unlearning Defense against AR-LLM Social Engineering Attacks

Tianlong Yu et al.

cs.CR cs.AI

本文提出了一种针对AR-LLM社交工程攻击的跨栈防御框架UNSEEN，通过AR ACL、F-RMU-based LLM unlearning和运行时agent guardrails来保护用户隐私。该工作主要关注安全防御而非数学理论创新，与关键词列表中的概念关联较弱。

UpstreamQA: A Modular Framework for Explicit Reasoning on Video Question Answering Tasks

Jason Nguyen et al.

cs.CV cs.AI

本文提出了UpstreamQA，一个模块化框架，通过显式的upstream reasoning模块（使用multimodal LRMs进行object identification和scene context generation）来解耦和评估video reasoning组件，再传递给downstream LMMs用于VideoQA。实验表明该方法能提升部分场景下的性能和可解释性，但在baseline性能足够高时可能导致性能下降。

Single-Source Shortest Paths and Almost Exact Diameter in Pseudodisk Graphs

Mark de Berg, Bart M.P. Jansen, Jeroen S.K. Lamme

cs.CG cs.DS

本文研究了平面中伪圆盘图（pseudodisk graphs）上的单源最短路径（SSSP）问题，证明了可以在接近线性的期望时间内求解。此外，论文还给出了一个近似直径为2的算法，并引入了基于星的$r$-聚类（star-based $r$-clustering）技术，该技术也可用于构建近似距离预言机。

Cooperative Informative Sensing for Monitoring Dynamic Indoor Environments via Multi-Agent Reinforcement Learning

Kanghoon Lee et al.

cs.RO cs.AI cs.MA

本文利用multi-agent reinforcement learning (MARL)框架，提出了一种用于动态室内环境监测的协作式主动感知方法，通过优化监测精度而非传统的覆盖或访问目标，使多机器人团队在部分可观测条件下协同调整运动策略。实验表明该方法在多种室内场景中优于经典基线。

Designing escalation criteria for international AI incident response: criteria, triggers, and thresholds

Francesca Gomez et al.

cs.CY cs.AI

本文提出了一套用于国际AI事件响应的升级标准框架，通过审查SB 53、EU AI Act等法规及其他行业事件框架，推导出八项评估标准并转化为流程图。测试发现，在模型开发者负责升级的机制下，存在三种可能导致系统性漏检的设计模式。

A Unified Fractional Regularization Framework for Sparse Recovery

Yinhao Zhao et al.

cs.IT cs.LG

本文提出了一个基于$\ell_1/\ell_p^q$模型的统一分数阶正则化框架用于稀疏信号恢复，理论贡献在于刻画了该模型一阶稳定点与减法型$\ell_1 - \alpha \ell_p$模型之间的等价性，并建立了新的基于Restricted Isometry Property (RIP)的充分恢复条件。数值实验表明该方法在多种感知矩阵和MRI重建中优于现有方法。

DyABD: The Abdominal Muscle Segmentation in Dynamic MRI Benchmark

Niamh Belton et al.

cs.CV cs.AI

本文提出了DyABD，一个包含动态腹部MRI和高质量肌肉标注的新型基准数据集，用于评估现有分割模型在监督、少样本和零样本范式下的泛化能力。实验表明多数方法Dice系数仅为0.82，揭示了医学图像分割领域仍有较大改进空间。

RAT: RunAnyThing via Fully Automated Environment Configuration

Renhong Huang et al.

cs.SE cs.AI

本文提出了RAT，一个语言无关的自动化环境配置框架，用于解决仓库级软件工程任务中可执行环境配置的瓶颈问题。RAT通过多阶段pipeline集成语义初始化、规划机制和专用工具集，在RATBench基准上相比强基线平均提升了29.6%的环境设置成功率。

AnalogRetriever: Learning Cross-Modal Representations for Analog Circuit Retrieval

Yihan Wang et al.

cs.CV cs.AI

本文提出了AnalogRetriever，一个用于模拟电路检索的统一三模态检索框架，通过curriculum contrastive learning将SPICE netlists、schematics和functional descriptions映射到共享embedding space，在跨模态检索任务上取得了显著性能提升。

Tessera: Secure, Near-Line-Rate Weight Streaming for UMA Edge Accelerators

Animan Naskar

cs.CR cs.AR cs.LG

本文提出Tessera架构，通过在UMA边缘加速器上实现缓存行粒度的权重解密，解决了模型权重在共享DRAM中的安全泄露问题。该方法利用AES-256-CTR并行计算与DRAM读取，将解密延迟隐藏在内存访问延迟中，实现了接近理论带宽上限的性能。

Learning Curves and Benign Overfitting of Spectral Algorithms in Large Dimensions

Weihao Lu et al.

stat.ML cs.LG math.ST

本文研究了高维设定下谱算法的学习曲线与良性过拟合现象，其中样本量与维度可比（$n \asymp d^{\gamma}$）。作者刻画了球面内积核在完整正则化路径上的超额风险渐近特征，揭示了学习曲线由过正则化、欠正则化和插值三个不同区域组成，并分析了良性过fitting的条件。

Toward Polymorphic Backdoor against Semantic Communication via Intensity-Based Poisoning

Xiao Yang et al.

cs.CR cs.AI

本文提出了一种针对语义通信系统的多态后门攻击方法SemBugger，通过调整触发强度实现细粒度控制，并设计了基于噪声的防御机制。该方法主要关注攻击多样性和防御有效性，与关键词中的概念关联较弱。

Protecting the Trace: A Principled Black-Box Approach Against Distillation Attacks

Max Hartman et al.

cs.CR cs.AI

本文提出了一种名为TraceGuard的黑盒方法，通过将反蒸馏问题形式化为Stackelberg博弈来干扰教师模型的推理轨迹，以防止学生模型通过蒸馏进行能力窃取。该方法无需微调或访问学生模型代理，但主要关注安全与隐私领域，与关键词列表中的概念关联较弱。

Spectro-Temporal Modulation Representation Framework for Human-Imitated Speech Detection

Khalid Zaman, Masashi Unoki

cs.SD cs.CL

本文提出了一种基于听觉感知的Spectro-Temporal Modulation (STM)表示框架，用于检测人类模仿语音。该框架利用Gammatone和Gammachirp滤波器组提取时频调制特征，并引入Segmental-STM分析短时调制模式，实验表明该方法在检测人类模仿语音方面接近甚至超越人类听觉表现。

Training Machine Learning Models on Encrypted Data: A Privacy-Preserving Framework using Homomorphic Encryption

Alexandre Marques et al.

cs.CR cs.AI

本文提出了一种使用CKKS同态加密的隐私保护框架，用于在加密数据上训练KNN和线性回归模型，并评估了MLP的加密推理。实验表明加密模型性能与明文模型相当，但存在计算开销和噪声管理等挑战。

AI-Assisted Code Review as a Scaffold for Code Quality and Self-Regulated Learning: An Experience Report

Eduardo Oliveira et al.

cs.SE cs.AI

本文报告了将LLM作为代码审查助手集成到GitHub pull requests中的教学实践，通过混合方法分析了两个学生群体的参与度和响应性，发现该工具能促进迭代活动并减少技术问题，同时学生能利用AI的结构化评论来聚焦审查和讨论代码质量。

Scalable LLM-based Coding of Dialogue in Healthcare Simulation: Balancing Coding Performance, Processing Time, and Environmental Impact

Kiyoshige Garces et al.

cs.HC cs.AI cs.CY

本文研究了在医疗模拟团队对话中，如何通过优化prompt设计和批处理策略来平衡LLM的编码准确性、处理时间和环境影响，发现增大batch size可提升速度并降低能耗，但会损害编码性能。

Why Architecture Choice Matters in Symbolic Regression

Chakshu Gupta

cs.NE cs.AI cs.LG cs.SC

本文通过实验比较了三种不同树结构在基于梯度的symbolic regression中的表现，发现优化景观（而非表达性）决定了方法能否成功恢复目标公式，且平衡树形状从未被恢复。

Knowledge Lever Risk Management for Software Engineering: A Stochastic Framework for Mitigating Knowledge Loss

Mark Chua, Samuel Ajila

cs.SE cs.AI

本文提出了一个针对软件工程中知识流失风险的随机框架KLRM，通过审计、对齐、激活和保证四个阶段将隐性知识资产转化为风险缓解机制。蒙特卡洛模拟表明完全激活知识杠杆可使预期知识资本提升63.8%并几乎消除知识危机概率。

Explicit integral representations and quantitative bounds for two-layer ReLU networks

Anthony Lee

stat.ML cs.LG

本文提出了一种为两层ReLU网络构造显式积分表示的方法，并给出了特定表示的定量界，证明了函数逼近误差不显式依赖于维度或次数。

Lightweight and Production-Ready PDF Visual Element Parsing

Meizhu Liu et al.

cs.CV cs.AI cs.CL

本文提出了一种轻量级且可用于生产的PDF视觉元素解析框架，通过结合空间启发式、布局分析和语义相似性，实现了高精度的图形、表格等元素检测及其与标题的关联。该方法在基准测试中达到96%以上的检测准确率，并显著提升了多模态RAG系统的性能。

MetaErr: Towards Predicting Error Patterns in Deep Neural Networks

Varun Totakura, Shayok Chakraborty

cs.CV cs.AI cs.LG cs.MM

本文提出MetaErr框架，通过训练一个与基础模型架构无关的meta-model来预测深度神经网络在特定样本上的成败，实验表明其在多个基准数据集上优于基线方法。

STAND: Semantic Anchoring Constraint with Dual-Granularity Disambiguation for Remote Sensing Image Change Captioning

Yanpei Gong et al.

cs.CV cs.LG

本文提出了一种名为STAND的遥感图像变化描述方法，通过语义锚定约束和双粒度消歧模块来解决视角、尺度和先验知识中的歧义问题，在多个数据集上验证了有效性。

EAD-Net: Emotion-Aware Talking Head Generation with Spatial Refinement and Temporal Coherence

Yahui Li et al.

cs.CV cs.AI eess.IV

本文提出了一种基于扩散模型的情感感知说话头生成网络EAD-Net，通过引入SyncNet监督和时序表示对齐来缓解多模态融合导致的唇形同步退化，并设计了时空方向注意力机制和时序帧图推理模块来建模长视频中的时空依赖关系。该方法在HDTF和MEAD数据集上取得了优于现有方法的唇形同步精度、时序一致性和情感准确性。

From Stateless Queries to Autonomous Actions: A Layered Security Framework for Agentic AI Systems

Kexin Chu

cs.CR cs.LG

本文提出了一个针对Agentic AI系统的分层安全框架LASM，将威胁映射到七个架构组件，并引入攻击时间性作为分析维度。通过对94篇论文的系统回顾，文章指出最危险的威胁集中在高层攻击与慢速时间性的交叉区域，并提出了跨层防御分类法。

Evaluating Jailbreaking Vulnerabilities in LLMs Deployed as Assistants for Smart Grid Operations: A Benchmark Against NERC Standards

Taha Hammadia et al.

cs.CR cs.AI

本文评估了三种LLM在智能电网操作中面对越狱攻击的脆弱性，基于NERC标准测试了Baseline、BitBypass和DeepInception三种攻击方法，发现DeepInception攻击成功率最高（63.17%），而Claude 3.5 Haiku完全抵抗。实验表明，通过调整恶意提示措辞可提升简单攻击方法的有效性。

EmoTrans: A Benchmark for Understanding, Reasoning, and Predicting Emotion Transitions in Multimodal LLMs

He Hu et al.

cs.CV cs.AI

EmoTrans是一个用于评估多模态大语言模型在视频中理解动态情绪变化能力的基准，包含1000个视频片段和四个递进任务。实验发现当前模型在粗粒度情绪变化检测上表现较好，但在细粒度动态建模和多人社交场景中仍面临挑战。

GeoFunFlow-3D: A Physics-Guided Generative Flow Matching Framework for High-Fidelity 3D Aerodynamic Inference over Complex Geometries

Ruiling Jiang, Yong Zhang, Houbiao Li

math.NA cs.LG

本文提出GeoFunFlow-3D框架，通过最优传输构建生成路径并引入无自动微分的high-order discrete engine，用于高保真3D aerodynamic inference，在复杂几何上提升了精度。

Explainable AI in Speaker Recognition -- Making Latent Representations Understandable

Yanze Xu, Wenwu Wang, Mark D. Plumbley

eess.AS cs.AI eess.SP

本文研究了说话人识别网络中表示的可解释性问题，应用SLINK和HDBSCAN算法发现网络表示中存在层次聚类现象，并设计了HCCM算法将层次聚类与语义类进行匹配。

An Empirical Evaluation of Locally Deployed LLMs for Bug Detection in Python Code

Jelena Ilić Vulićević

cs.SE cs.AI cs.LG

本文评估了本地部署的LLaMA 3.2和Mistral模型在Python代码bug检测中的表现，使用BugsInPy基准测试了349个bug，准确率约为43%-45%。结果表明本地模型能识别部分bug，但精确定位仍较困难，尤其对复杂上下文依赖的bug。

UniAda: Universal Adaptive Multi-objective Adversarial Attack for End-to-End Autonomous Driving Systems

Jingyu Zhang et al.

cs.SE cs.LG

本文提出UniAda，一种针对端到端自动驾驶系统的多目标白盒对抗攻击方法，通过自适应加权方案同时优化转向和速度控制，在模拟和真实数据上验证了有效性。

Nonlinear Non-Gaussian Density Steering with Input and Noise Channel Mismatch: Sinkhorn with Memory for Solving the Control-affine Schrödinger Bridge Problem

Georgiy A. Bondar et al.

math.OC cs.AI cs.LG eess.SY stat.ML

本文针对控制仿射Schrödinger桥问题中控制通道与噪声通道不匹配的情况，提出了一种带记忆的Sinkhorn递归算法，该算法利用非线性PDE的结构进行求解，并证明了其局部稳定性。

Physics-Informed Temporal U-Net for High-Fidelity Fluid Interpolation

Eshwar R. A. et al.

physics.flu-dyn cs.CV cs.LG math.DS nlin.CD +1

本文提出一种Physics-Informed Temporal U-Net架构，通过引入VGG感知损失和由$t(1-t)$定义的抛物型边界条件，解决从稀疏时间观测中重建高保真流体动力学时的模糊与不连续问题。实验表明该方法在结构保真度和纹理保持上优于标准模型，但未涉及code、context、spectral等关键词。

A Taxonomy and Resolution Strategy for Client-Level Disagreements in Federated Learning

Daan Rosendal, Ana Oprescu

cs.DC cs.AI cs.LG

本文针对联邦学习中客户端层面的分歧问题，提出了一种分类法及多轨解决策略，通过创建隔离的模型更新路径来保证客户端的严格排除，并利用MNIST和N-CMAPSS数据集验证了其有效性。该工作主要关注联邦学习的实际部署问题，与关键词列表中的概念关联度较低。

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

Giorgio Cruciata et al.

cs.CV cs.AI cs.NE

本文提出了一种名为Learn&Drop的方法，通过在训练过程中评估各层参数的变化程度并据此动态丢弃部分层，以减少前向传播的计算量，从而加速CNN的训练。实验表明该方法能在几乎不损失精度的情况下将训练时间减半，但该方法与所提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

PushupBench: Your VLM is not good at counting pushups

Shengzhi Li et al.

cs.CV cs.AI

本文提出了PushupBench基准，用于评估视觉语言模型在长视频中计数重复动作的能力，发现现有模型准确率较低，且弱模型会利用模态计数而非时间推理。通过微调计数任务可提升模型在通用视频理解基准上的表现。

Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Emre Ardıç, Yakup Genç

cs.CV cs.LG

本文针对Non-IID联邦学习中的通信效率和隐私保护问题，结合Laplacian-based差分隐私和基于余弦退火的全局自适应量化方法，提出了一种动态比特长度调度器。实验表明该方法能在保持模型精度的同时显著减少通信数据量。

On (not) learning the Möbius function

Alexey Pozdnyakov

math.NT cs.LG

本文研究了使用核方法、噪声梯度方法和相关统计查询算法学习Möbius函数或Liouville函数的难度，证明了这些方法的下界。这些下界源于Möbius函数与不同有限abelian群上数字特征的相关性定量估计。

Sphere-Depth: A Benchmark for Depth Estimation Methods with Varying Spherical Camera Orientations

Soulayma Gazzeh et al.

cs.CV cs.AI

本文提出了一个名为Sphere-Depth的公开benchmark，用于系统评估球面相机在不同姿态变化下深度估计模型的鲁棒性，并引入了一种基于深度校准的误差协议来统一不同模型的度量标准。实验表明，即使是专门为球面图像设计的模型，在相机姿态偏离标准姿态时性能也会显著下降。

Knee-xRAI: An Explainable AI Framework for Automatic Kellgren-Lawrence Grading of Knee Osteoarthritis

Azmul A. Irfan et al.

cs.CV cs.AI cs.LG

本文提出了Knee-xRAI框架，通过U-Net++分割、SE-ResNet-50和纹理CNN分别量化KOA的三个放射学特征（JSN、骨赘、硬化），并集成到可解释的KL分级中。该框架在OAI数据集上验证了性能，但方法主要针对特定医学影像任务，与关键词中的code、context、spectral等概念关联较弱。

Inference of Online Newton Methods with Nesterov's Accelerated Sketching

Haoxuan Wang, Xinchen Du, Sen Na

stat.ML cs.LG math.OC stat.CO

本文研究了一种结合Nesterov加速sketching的在线Newton方法，通过近似求解Newton方向将复杂度降至$O(d^2)$，并建立了渐近正态性和在线协方差估计的理论保证。该方法主要关注在线推断中的不确定性量化，与关键词中的概念关联较弱。

Scalable and Verifiable Federated Learning for Cross-Institution Financial Fraud Detection

Prajwal Panth, Nishant Nigam

cs.CR cs.LG

本文提出了一种用于跨机构金融欺诈检测的可扩展联邦学习框架DSFL，通过动态随机分片和线性完整性标签等技术，在保持隐私的同时降低了通信复杂度并提升了鲁棒性。实验表明该方法在延迟和容错性上优于现有方案。

From Edges to Depth: Probing the Spatial Hierarchy in Vision Transformers

Jainum Sanghavi

cs.CV cs.LG

本文通过探测冻结的ViT-B/16模型各层，发现局部patch边界和每patch深度信息在中间层线性可解码，并在最终分类层消失。因果干预实验表明深度信号在各层被部分重新推导，而非被动传递。

Architecture Matters for Multi-Agent Security

Ben Hagag et al.

cs.MA cs.CR cs.LG

本文研究了多智能体系统（MAS）中架构设计（如agent角色、通信拓扑和memory）对任务性能与攻击抵抗性之间权衡的影响，发现多数配置下MAS比单智能体更脆弱，且攻击成功率差异可达3.8倍。

A Milestone in Formalization: The Sphere Packing Problem in Dimension 8

Sidharth Hariharan et al.

math.MG cs.AI cs.LO math.NT

本文介绍了在Lean Theorem Prover中形式化验证8维球堆积问题的里程碑工作，讨论了人类与自动形式化模型'Gauss'的合作过程及剩余目标。

Can Humans Detect AI? Mining Textual Signals of AI-Assisted Writing Under Varying Scrutiny Conditions

Daniel Tabach

cs.HC cs.CL

本文通过两阶段实验研究了AI检测威胁对人类写作行为的影响，发现被警告的写作者作品更易被判断为人类所写，但两组文本在可测量的特征上无法区分。该研究与关键词列表中的概念无直接关联。

Leveraging Spatial Transcriptomics as Alternative to Manual Annotations for Deep Learning-Based Nuclei Analysis

Kazuya Nishimura et al.

cs.CV cs.LG

本文提出利用空间转录组数据作为病理图像中细胞核分割与分类的监督信号，通过将基因表达谱转化为细胞类型标签来训练图像模型，并引入面向图像的分类方法以桥接基因表达与图像识别。实验表明该方法在未见器官上具有较好的泛化性，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Uncertainty Propagation in LLM-Based Systems

Boming Xia et al.

cs.SE cs.AI

本文从系统层面探讨了基于大语言模型(LLM)的系统中不确定性传播的问题，提出了一个概念框架和结构化分类法，涵盖模型内部(P1)、系统级(P2)和社会技术(P3)三种传播机制，并总结了跨领域的工程见解与五个开放研究挑战。该工作主要关注LLM系统的可靠性，与关键词列表中的主题关联较弱。

Probabilistic Graphical Model using Graph Neural Networks for Bayesian Inversion of Discrete Structural Component States

Teng Li et al.

stat.ML cs.LG stat.ME

本文提出了一种基于Probabilistic Graphical Model (PGM)和Graph Neural Network (GNN)的贝叶斯反演框架，用于推断离散的结构构件状态。该方法利用Markov network建模，并通过GNN进行高效推理，解决了高维离散变量反演中似然函数难以解析表达和计算复杂的问题。

Multi-Plane HyperX: A Low-Latency and Cost-Effective Network for Large-Scale AI and HPC Systems

Ziyu Wang, Fei Lei, Dezun Dong

cs.NI cs.LG

本文研究了多平面HyperX网络在大规模AI和HPC系统中的应用，通过将多平面技术应用于直接网络拓扑，证明了其相比多平面Fat-Tree、Dragonfly等架构具有更小的网络直径和更好的成本效益。

Grammar-Constrained Refinement of Safety Operational Rules Using Language in the Loop: What Could Go Wrong

Khouloud Gaaloul et al.

cs.SE cs.AI

本文提出一个结合反事实推理与语法约束的框架，用于在仿真验证中精炼信息物理系统的安全操作规则，使其与观测行为一致。在自动驾驶案例中，该方法解决了规则不一致问题，并揭示了基于大语言模型的精炼质量与安全风险。

Emotion-Conditioned Short-Horizon Human Pose Forecasting with a Lightweight Predictive World Model

Jingni Huang, Peter Bloodsworth

cs.CV cs.AI

本文研究了基于面部表情情感嵌入的短期人体姿态预测，提出了一种轻量级自回归预测世界模型，使用两层LSTM架构和可学习的门控机制融合姿态关键点与情感嵌入。实验表明，归一化门控融合能提升情感驱动运动序列的预测性能，但简单的多模态融合效果不稳定。

COMO: Closed-Loop Optical Molecule Recognition with Minimum Risk Training

Zhuoqi Lyu, Qing Ke

cs.CV cs.AI cs.LG

本文提出COMO框架，将Minimum Risk Training (MRT)引入光学化学结构识别(OCSR)任务，通过闭环采样和评估模型自身预测来缓解exposure bias问题。实验表明该方法在多个基准上优于现有方法，但与我提供的关键词列表关联度较低。

Hardware-Efficient FPGA Implementation of Sigmoid Function Using Mixed-Radix Hyperbolic Rotation CORDIC

Chintan Panchal, Ankur Changela, Mohendra Roy

cs.AR cs.AI

本文提出了一种基于混合基数CORDIC的FPGA实现sigmoid函数的方法，通过将输入归一化并利用sigmoid与tanh的关系，结合radix-2和radix-4迭代来优化硬件效率。实验表明该方法在资源消耗和精度上优于近期实现。

DLM: Unified Decision Language Models for Offline Multi-Agent Sequential Decision Making

Zhuohui Zhang, Bin Cheng, Bin He

cs.MA cs.AI

本文提出Decision Language Model (DLM)，将offline multi-agent decision making建模为dialogue-style sequence prediction问题，通过supervised fine-tuning和group relative policy optimization两阶段训练，在多个benchmark上优于现有offline MARL和LLM-based方法。

EyeBrain: Left and Right Brain Lateralization Activity Classification Through Pupil Diameter and Fixation Duration

Ko Watanabe et al.

q-bio.NC cs.AI cs.HC

本文利用眼动追踪技术中的瞳孔直径和注视时长数据，通过机器学习分类方法区分左右脑半球活动，取得了较高的F1分数。该工作为认知监测和神经康复提供了潜在应用，但方法本身在理论或技术上的开创性有限。

CyberCane: Neuro-Symbolic RAG for Privacy-Preserving Phishing Detection with Formal Ontology Reasoning

Safayat Bin Hakim et al.

cs.CR cs.AI cs.IR

本文提出CyberCane，一个结合符号规则与隐私保护RAG的钓鱼检测框架，并引入PhishOnt本体用于可验证攻击分类。实验表明其在AI生成威胁上比纯符号方法召回率提升78.6点，精度超98%。

High-dimensional Semi-supervised Classification via the Fermat Distance

Ruoxu Tan, Yiming Zang

stat.ML cs.LG

本文提出基于Fermat distance的高维半监督分类方法，包括加权k-NN和MDS诱导分类器，理论证明了加权k-NN的minimax最优性，并量化了未标注数据对估计误差的指数级衰减贡献。实验表明该方法在合成与真实数据上性能优于现有图基半监督分类器。

The Collapse of Heterogeneity in Silicon Philosophers

Yuanming Shi, Andreas Haupt

cs.CY cs.CL cs.LG

本文研究了大型语言模型在哲学领域作为人类样本替代品时，会系统性坍缩异质性（即过度关联不同哲学领域的判断，产生人为共识），并基于PhilPeople和PhilPapers数据评估了多种模型。

PhysCodeBench: Benchmarking Physics-Aware Symbolic Simulation of 3D Scenes via Self-Corrective Multi-Agent Refinement

Tianyidan Xie et al.

cs.RO cs.AI

本文提出了PhysCodeBench基准，用于评估物理感知的符号模拟，并设计了SMRF多智能体框架来提升代码生成与物理准确性。实验表明该框架在多个物理领域显著优于现有模型。

Identity-Decoupled Anonymization for Visual Evidence in Multi-modal Retrieval-Augmented Generation

Zehua Cheng, Wei Dai, Jiahao Sun

cs.CV cs.IR

本文提出了一种用于多模态检索增强生成(MRAG)系统中视觉证据的匿名化框架，通过解耦身份编码与属性编码并生成合成人脸，在保护隐私的同时保留下游推理所需的非身份视觉线索。

Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

Zhen Ye et al.

cs.CV cs.CL cs.MM cs.SD eess.AS

本文提出Talker-T2AV，一种自回归扩散框架，用于联合生成与说话人同步的音频和视频。该方法通过共享自回归模型处理高层语义的跨模态建模，并使用轻量级扩散Transformer解码器分别处理低层细节，以解决传统方法中模态过度耦合的问题。实验表明，该方法在唇形同步精度和音视频质量上优于基线模型。

Partition-of-Unity Gaussian Kolmogorov-Arnold Networks

Amir Nooeizadegan

cs.CE cs.AI math.AP

本文提出了一种基于Shepard归一化的分区单位高斯KAN (PU-GKAN)，通过将每条边上的Gaussian basis值除以局部和来构造分区单位特征映射，并给出了有限特征核解释。实验表明该方法能降低对尺度参数$\epsilon$的敏感性，提升训练稳定性与验证精度。

The Limits of Artificial Companionship

Mauricio Figueroa

cs.CY cs.CL cs.HC

本文探讨了与陪伴型chatbot对话中商业与非商业语境的结构性区分，并主张禁止在情感交流中插入未披露的推广内容，以保护用户自主性和对话context。

TimingLLM: A Two-Stage Retrieval-Augmented Framework for Pre-Synthesis Timing Prediction from Verilog

Armin Abdollahi et al.

cs.AR cs.LG

本文提出TimingLLM，一个两阶段检索增强的LLM框架，用于从Verilog代码直接预测综合后的时序（WNS和TNS）。该方法通过微调LLM生成路径级时序线索，并利用检索库中最近邻模块的标签来调整回归预测，在VerilogEval数据集上取得了优于先前方法的性能。

From Rights to Rites: Expectations Management in Smart-Home AI

Varad Vishwarupe et al.

cs.HC cs.AI cs.IR cs.LG

本文通过33个半结构化访谈，基于建构主义扎根理论提出了期望管理模型，探讨了智能家居AI中设计师如何平衡组织权利与文化仪式来塑造用户期望，并提炼出五个设计阶段。该研究主要关注人机交互与伦理，与关键词中的数学或算法概念关联较弱。

RaV-IDP: A Reconstruction-as-Validation Framework for Faithful Intelligent Document Processing

Pritesh Jha

cs.CV cs.AI

本文提出RaV-IDP框架，通过引入重建验证机制（将提取的实体重新渲染并与原始文档区域比较）来评估智能文档处理中提取结果的忠实度，并利用GPT-4.1视觉模型作为低置信度时的回退方案。该方法主要解决文档提取缺乏内在验证机制的问题，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Hardware-Efficient Softmax and Layer Normalization with Guaranteed Normalization for Edge Devices

Dawon Choi, Hana Kim, Ji-Hoon Kim

cs.AR cs.LG

本文针对Transformer模型中的Softmax和Layer Normalization操作，提出了一种面向边缘设备的硬件高效近似方法，在保证归一化性质的前提下实现了极小的面积开销。

ResAF-Net: An Anchor-Free Attention-Based Network for Tree Detection and Agricultural Mapping in Palestine

Rabee Al-Qasem

cs.CV cs.AI

本文提出ResAF-Net，一种基于卫星图像的anchor-free树检测框架，结合ResNet-50编码器、ASPP、特征融合、多头自注意力机制和FCOS检测头，在MillionTrees基准上取得较好性能，并部署于巴勒斯坦的GIS应用中。该方法主要面向农业监测应用，与关键词中的attention有一定关联，但整体创新性和问题解决程度未达到严格标准。

FlowPlace: Flow Matching for Chip Placement

Peng Xie et al.

cs.AR cs.AI cs.LG

FlowPlace提出了一种基于flow matching的芯片布局方法，通过mask引导的合成数据生成和硬约束采样实现无重叠布局。实验表明其在PPA指标和采样效率上优于现有方法。

An AI-Based Supervisory Measurement Integrity Validation Layer for Cyber-Resilient AC/DC Protection in Inverter-Based Microgrids

Ahmad Mohammad Saber et al.

cs.CR cs.AI eess.SP eess.SY

本文提出了一种基于AI的测量完整性验证层，用于逆变器微电网中AC/DC保护的网络弹性。该方法使用recurrent neural network分析同步电流波形的时间结构，以区分真实故障与虚假数据注入攻击，无需额外传感器或网络拓扑知识。

Beyond coauthorship: semantic structure and phantom collaborators in transportation research, 1967--2025

Seongjin Choi

cs.DL cs.LG

本文利用120,323篇交通研究论文构建了一个语义-结构图谱，通过SPECTER2嵌入和Leiden聚类分析了作者层面的语义社区与合作社区的关系，并定义了“phantom collaborators”概念来预测未来的合作关系。

Talking Slide Avatars: Open-Source Multimodal Communication Approach for Teaching

Xinxing Wu

cs.HC cs.AI cs.CY

本文介绍了一个开源工作流，用于为基于幻灯片的在线教学创建会说话的幻灯片头像，整合了OpenVoice和Ditto-TalkingHead技术。该工作流旨在通过生成合成媒体来增强教学中的叙事连续性和教师存在感，但主要聚焦于教育应用和设计实践，与关键词中的数学或算法核心关联较弱。

HeadRouter: Dynamic Head-Weight Routing for Task-Adaptive Audio Token Pruning in Large Audio Language Models

Peize He et al.

cs.SD cs.CL

本文提出HeadRouter，一种无需训练的音频token剪枝方法，通过感知不同音频任务中attention head的重要性差异来保留关键token，在AudioMarathon和MMAU-Pro基准上取得了先进的压缩性能。

Zoom In, Reason Out: Efficient Far-field Anomaly Detection in Expressway Surveillance Videos via Focused VLM Reasoning Guided by Bayesian Inference

Xiaowei Mao et al.

cs.CV cs.AI

本文提出VIBES框架，利用Bayesian inference引导的Vision-Language Model (VLM) 进行高速公路监控视频中的远场异常检测。该方法通过在线Bayesian推断模块动态评估车辆轨迹，触发VLM仅处理局部视觉区域，从而避免注意力分散并降低计算成本。

Fixed-Reservoir vs Variational Quantum Architectures for Chaotic Dynamics: Benchmarking QRC and QPINN on the Lorenz System

Tushar Pandey

quant-ph cs.LG

本文系统比较了两种量子方法在Lorenz系统混沌时间序列预测上的表现：变分量子物理信息神经网络(QPINN)和固定储层量子计算(QRC)。实验表明，在相同资源下，QRC的测试MSE比QPINN低81%，训练速度快约52,000倍，且通过时间窗口技术改善了吸引子重构。

From Noisy Historical Maps to Time-Series Oil Palm Mapping Without Annotation in Malaysia and Indonesia (2020-2024)

Nuttaset Kuapanich et al.

cs.CV cs.AI

本文提出一个基于U-Net和Determinant-based Mutual Information (DMI)的深度学习框架，利用Sentinel-2影像和粗分辨率历史标签，在无需新标注的情况下生成了2020-2024年印尼和马来西亚的10米分辨率油棕榈种植园地图。

SeqShield: A Behavioral Analysis Approach to Uncover Rootkits

Paras Ghodeshwar et al.

cs.CR cs.LG

本文提出SeqShield，一种基于API调用序列行为分析的Windows系统rootkit检测方法，通过n-gram特征提取和随机森林分类器实现检测，在优化特征后达到约97%的准确率。该方法主要针对传统签名检测的局限性，但未涉及关键词中的code, context, spectral等概念。

ShredBench: Evaluating the Semantic Reasoning Capabilities of Multimodal LLMs in Document Reconstruction

Zichun Guo et al.

cs.CV cs.CL

本文提出了ShredBench，一个用于评估多模态大语言模型在文档碎片重建中语义推理能力的基准，通过自动化生成管道从Markdown创建碎片化文档，并测试了四种场景和三种碎片粒度。实验表明，当前MLLMs在碎片化文档上的性能显著下降，揭示了其在处理视觉不连续性方面的不足。

Mapping License Plate Recoverability Under Extreme Viewing Angles for Oppor-tunistic Urban Sensing

Igor Adamenko et al.

cs.CV cs.AI

本文提出了一种任务无关的recoverability maps方法，用于量化极端视角下图像恢复的可行性边界，并在车牌识别任务上验证了该方法。实验表明，恢复极限主要由传感几何决定，而非模型架构。

Query2Diagram: Answering Developer Queries with UML Diagrams

Oleg Baryshnikov, Anton M. Alekseev, Sergey I. Nikolenko

cs.SE cs.AI

本文提出了一种基于LLM的查询驱动UML图生成方法，通过微调Qwen2.5-Coder-14B模型，从代码文件和自然语言查询中生成语义聚焦的UML图，以解决软件文档过时或缺失的问题。实验表明，该方法在结构正确性和语义相关性上优于现有模型。

Accelerating Quantum Materials Characterization: Hybrid Active Learning for Autonomous Spin Wave Spectroscopy

William Ratcliff II

cond-mat.mtrl-sci cs.LG

本文提出TAS-AI框架，将自主中子谱学中的信号检测、Hamiltonian推断和参数精化任务分离，采用混合主动学习策略。实验表明，模型无关方法在盲重建中更可靠，而物理信息阶段通过AIC证据比快速区分模型，并识别了后验加权设计的“算法短视”失败模式。

Focus on What Matters: Two-Stage ROI-Aware Refinement for Anatomy-Preserving Fetal Ultrasound Reconstruction

Ines Abbes et al.

cs.CV cs.AI

本文提出了一种两阶段ROI感知的胎儿超声图像重建框架，通过卷积自编码器先学习全局特征，再针对颈项透明带（NT）区域进行精细优化，使用梯度校准自动平衡损失权重。该方法在跨医院域迁移场景下提升了重建质量和测量相关指标，并展示了良好的泛化能力。

Exploring Audio Hallucination in Egocentric Video Understanding

Ashish Seth et al.

cs.CV cs.AI

本文研究了第一人称视频中音频幻觉问题，发现现有音视频大语言模型常根据视觉线索错误推断声音。通过构建包含300个视频和1000个问题的评估数据集，揭示了模型在区分前景与背景声音时准确率较低。

Empirical Ablation and Ensemble Optimization of a Convolutional Neural Network for CIFAR-10 Classification

Naser Khatti Dizabadi

cs.CV cs.AI

本文通过消融实验系统评估了17种架构与训练策略修改对CIFAR-10分类任务的影响，发现延长训练时长可稳定提升性能，而部分结构改动反而降低准确率。最终基于最优配置构建的加权集成模型在完整数据集上达到89.23%的测试准确率，表明性能提升更依赖于经验性选择而非盲目增加网络深度或参数。

Deep Learning of Solver-Aware Turbulence Closures from Nudged LES Dynamics

Ashwin Suriyanarayanan et al.

physics.flu-dyn cs.LG math.DS physics.comp-ph physics.geo-ph

本文提出了一种基于连续数据同化(CDA)的深度学习湍流闭合模型训练方法，通过将DNS数据视为稀疏观测来训练粗网格LES的闭合模型，避免了传统a-posteriori方法中需要通过求解器反向传播的高计算成本。该方法在保持长期稳定性的同时，能够学习不同数值和时间格式下的模型行为。

Risk-Aware Robust Learning: Reducing Clinical Risk under Label Noise in Medical Image Classification

Maycon R. S. Pereira, Filipe R. Cordeiro

cs.CV cs.AI

本文评估了多种噪声鲁棒学习方法（如Coteaching, DivideMix等）在医学图像分类中的临床安全性，发现这些方法在标签噪声下无法保证临床安全，但结合cost-sensitive优化可降低临床风险。

MUSIC: Learning Muscle-Driven Dexterous Hand Control

Pei Xu et al.

cs.GR cs.AI

本文提出了一种数据驱动的物理仿真方法，用于控制肌肉骨骼手模型完成钢琴演奏。该方法通过分层架构结合高频肌肉控制和低频潜在空间协调，并利用强化学习和变分自编码器进行训练，实现了对参考数据集之外新曲目的精确双手协调运动。

Evaluation of Prompt Injection Defenses in Large Language Models

Priyal Deep et al.

cs.CR cs.AI

本文研究了针对大型语言模型的prompt注入防御，通过自适应攻击测试了九种防御配置，发现依赖模型自身保护的防御最终都会被攻破，只有基于硬编码规则的输出过滤在应用代码层面实现了零泄露。

Mammographic Lesion Segmentation with Lightweight Models: A Comparative Study

Helder Oliveira

cs.CV cs.LG

本文比较了MobileNetV2、EfficientNet Lite等轻量级模型与U-Net在乳腺X光图像病灶分割任务上的性能，发现MobileNetV2结合Squeeze-and-Excitation模块在参数量减少约75%的情况下取得了最佳Dice分数。研究为资源受限环境下的计算机辅助诊断系统提供了实用参考。

Integrative neurocybernetic modeling in the era of large-scale neuroscience

Il Memming Park et al.

q-bio.NC cs.LG

本文提出整合神经控制论模型（integrative neurocybernetic models）作为理解大规模神经科学数据的框架，强调通过闭环耦合、潜在目标推断和跨尺度结构化建模来统一分散的实验数据，但未涉及代码、上下文、谱方法或预训练等关键词。

Generative Synthetic Data for Causal Inference: Pitfalls, Remedies, and Opportunities

Yichen Xu

stat.ME cs.AI stat.ML

本文研究了生成式合成数据在因果推断中的缺陷，指出完全生成式模型会扭曲平均处理效应(ATE)，并提出一种混合合成数据框架，通过分离协变量生成与处理机制来改善ATE的保持。

SMSI: System Model Security Inference: Automated Threat Modeling for Cyber-Physical Systems

RoÝah Radaideh, Ali Khreis

cs.CR cs.AI

本文提出了一种名为SMSI的混合神经符号pipeline，用于从SysML架构模型自动生成网络物理系统的威胁模型，并输出NIST 800-53安全控制列表。该工作主要关注自动化安全分析流程，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Quasi-Quadratic Gradient: A New Direction for Accelerating the BFGS Method in Quasi-Newton Optimization

John Chiang

math.OC cs.AI

本文提出了一种名为Quasi-Quadratic Gradient (QQG)的新搜索方向，通过将逆Hessian近似与当前梯度的乘积定义为QQG，以加速BFGS方法在拟牛顿优化中的收敛速度。理论分析和实验表明，该方法在保持计算效率的同时，显著优于标准BFGS。

Nearly Optimal Subdata Selection

Min Yang et al.

stat.ME cs.LG stat.ML

本文基于最优近似设计理论，提出了一种新的信息型子数据选择方法，通过一个收敛的算法为一般模型选择接近最优的子数据，并给出了效率的紧上下界。该方法在参数估计任务中优于现有方法。

Do Quantum Transformers Help? A Systematic VQC Architecture Comparison on Tabular Benchmarks

Chi-Sheng Chen, En-Jui Kuo

quant-ph cs.AI

本文系统比较了四种变分量子电路(VQC)架构在表格数据上的表现，发现全连接VQC在参数效率上优于基于attention的量子transformer，且量子self-attention带来的提升有限。

Multi-scale Dynamic Wake Modeling of Floating Offshore Wind Turbines via Fourier Neural Operators and Physics-Informed Neural Networks

Guodan Dong, Jianhua Qin, Chang Xu

physics.flu-dyn cs.LG

本文利用Fourier Neural Operators (FNOs)和Physics-Informed Neural Networks (PINNs)对浮式海上风力发电机(FOWT)的尾流进行多尺度动态建模与预测。结果表明，FNO在捕捉高分辨率相干湍流结构和训练速度上均优于PINN，后者则表现为时空低通滤波器。

What Did They Mean? How LLMs Resolve Ambiguous Social Situations across Perspectives and Roles

Qiming Yuan et al.

cs.HC cs.AI

本文研究了LLMs在模糊社交情境中如何消除不确定性，发现87.5%的回复通过叙事对齐等方式过早地给出了确定解释，而非保留不确定性。该工作主要关注人机交互中的社会认知问题，与关键词中的数学或算法概念无关。

Sliced-Regularized Optimal Transport

Khai Nguyen

stat.ML cs.LG

本文提出了一种新的正则化最优传输（OT）方法，称为切片正则化最优传输（SROT），它使用平滑的切片OT（SOT）计划作为参考正则化项，而非熵正则化中的独立耦合。该方法通过Sinkhorn风格算法实现高效计算，并在合成数据和颜色迁移任务中展示了比熵正则化OT和SOT更优的近似性能。

Conditional Score-Based Modeling of Effective Langevin Dynamics

Ludovico T. Giorgini

stat.ML cs.LG nlin.CD

本文提出了一种基于conditional score（条件分数，即有限时间转移密度对初始状态的梯度）的数据驱动校准方法，用于从数据中学习随机降阶模型的drift和diffusion系数。该方法通过建立系数与条件分数之间的关系，将问题转化为一个最小二乘拟合问题，避免了传统方法中对轨迹求导或状态空间划分的步骤。

Viewport-Unaware Blind Omnidirectional Image Quality Assessment: A Unified and Generalized Approach

Jiebin Yan et al.

cs.CV cs.AI

本文提出了一种无视口的盲全景图像质量评估方法，将BOIQA问题简化为盲2D平面图像质量评估问题，无需视口生成步骤，并验证了其在多种场景下的泛化能力。

Adaptive-Distribution Randomized Neural Networks for PDEs: A Low-Dimensional Distribution-Learning Framework

You Yang, Fei Wang

math.NA cs.LG

本文提出了一种自适应分布随机神经网络(AD-RaNN)框架，通过将隐藏层参数的采样分布参数化为低维向量并仅优化该向量，从而将随机特征生成从固定启发式选择提升为低维自适应优化问题。该方法采用两阶段策略，包括岭正则化缩减训练和未正则化最小二乘重构，并发展了PDE驱动和数据驱动两种自适应机制。数值实验表明该方法能有效减少对手工隐藏特征分布的依赖。

IntentVLM: Open-Vocabulary Intention Recognition through Forward-Inverse Modeling with Video-Language Models

Hamed Rahimi et al.

cs.HC cs.AI cs.MM

本文提出IntentVLM，一个用于开放词汇人类意图识别的两阶段视频-语言框架，通过前向-逆向建模分解意图理解为候选目标生成和结构化推理，在IntentQA和Inst-IT Bench数据集上达到80%准确率。该方法主要关注人机交互中的意图理解，与关键词列表中的概念无直接关联。

Poster: ClawdGo: Endogenous Security Awareness Training for Autonomous AI Agents

Jiaqi Li et al.

cs.CR cs.AI

本文提出ClawdGo框架，通过TLDT分类、ASAT自博弈训练和CSMA记忆积累等方法，为自主AI agent提供内生安全意识训练，使其在推理时识别威胁而无需修改模型。实验表明该方法能有效提升agent的安全评分，但主要聚焦于安全训练而非agent的通用能力或与关键词中的code、spectral、Muon等概念直接相关。

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Jiawei Wang et al.

cs.CV cs.CL cs.IR cs.MM

本文提出了DeepTaxon框架，通过检索增强的多模态方法统一物种识别与发现任务，将新物种发现重新定义为基于检索的显式决策问题，并利用合成数据和强化学习进行训练。该方法在多个数据集上取得了改进，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

QEVA: A Reference-Free Evaluation Metric for Narrative Video Summarization with Multimodal Question Answering

Woojun Jung, Junyeong Kim

cs.CV cs.AI

本文提出了一种名为QEVA的无参考评估指标，通过多模态问答直接比较候选摘要与源视频，从Coverage、Factuality和Chronology三个维度进行评估，并构建了MLVU(VS)-Eval基准数据集。实验表明该方法与人类判断的相关性高于现有方法，但该工作主要聚焦于视频摘要评估，与我提供的关键词列表中的概念关联较弱。

Jailbreaking Frontier Foundation Models Through Intention Deception

Xinhe Wang, Katia Sycara, Yaqi Xie

cs.CR cs.AI cs.CL

本文提出了一种针对前沿Foundation Models的多轮对话越狱方法，通过模拟良性意图逐步建立对话信任，利用模型的一致性属性诱导其产生有害输出。该方法还发现了一种名为para-jailbreaking的新型漏洞，即模型虽不直接回复有害内容，但所提供的信息仍具有危害性。

AsyncShield: A Plug-and-Play Edge Adapter for Asynchronous Cloud-based VLA Navigation

Kai Yang et al.

cs.RO cs.AI

本文提出AsyncShield，一种用于云部署的VLA导航模型的即插即用异步控制框架。它通过物理白盒空间映射和强化学习适配器，在无需微调云模型的情况下，解决了网络延迟导致的时空错位问题，提升了导航成功率和物理安全性。

TACO: Efficient Communication Compression of Intermediate Tensors for Scalable Tensor-Parallel LLM Training

Man Liu et al.

cs.DC cs.AI

本文提出TACO框架，通过FP8量化与自适应变换压缩张量并行训练中的中间张量，以减少通信开销。实验表明该方法能提升吞吐量并保持精度，但未涉及关键词中的核心概念。

Latency and Cost of Multi-Agent Intelligent Tutoring at Scale

Iizalaarab Elhaimeur, Nikos Chrisochoides

cs.CY cs.AI cs.DC cs.LG

本文通过实验测量了多智能体LLM辅导系统ITAS在不同吞吐量层级和并发用户数下的延迟与成本，发现Priority PayGo在满负载下保持稳定低延迟，而Provisioned Throughput在低并发时最优但容量有限。研究为不同规模的部署提供了成本与性能的选型指导。

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Benjamin Minhao Chen, Xinyu Xie

cs.CY cs.AI cs.HC

本文通过实验研究探讨了人类、AI系统及其设计者在道德判断上的差异，发现当AI行为被描述为人类设计产物时，参与者会表现出更强的道义论推理，并将此现象称为“alignment target problem”。该研究主要关注道德判断的实证分析，与关键词中的agent概念有一定关联，但方法上缺乏开创性且未解决长期问题。

Strategic Bidding in 6G Spectrum Auctions with Large Language Models

Ismail Lotfi, Ali Ghrayeb

cs.GT cs.AI

本文研究了在6G频谱拍卖中使用大语言模型作为投标agent的策略，通过VCG机制对比了LLM引导的投标与启发式策略，发现LLM能在理论假设失效时维持更长的参与并实现更高效用。

Defusing the Trigger: Plug-and-Play Defense for Backdoored LLMs via Tail-Risk Intrinsic Geometric Smoothing

Kaisheng Fan et al.

cs.CR cs.AI

本文提出了一种针对大语言模型后门攻击的防御方法TIGS，通过检测并平滑注意力机制中的异常模式来阻断触发器，无需额外训练或数据。该方法在保持模型正常推理能力的同时有效降低攻击成功率，但未涉及代码、谱方法或预训练等关键词。

PEPS: Positional Encoding Projected Sampling -- Extended

Guillaume Perez, Janarbek Matai, Takahiro Harada

cs.CV cs.GR cs.LG

本文提出了一种名为Positional Encoding Projected Sampling (PEPS)的方法，将positional encoding分解为一系列有意义的点，并利用这些点的独特运动模式进行基于grid的学习。该方法在图像表示、texture compression和signed distance function等任务上优于现有方法，但与我提供的关键词列表关联度较低。

A Divergence-Based Method for Weighting and Averaging Model Predictions

Olav Benjamin Vassend

stat.ML cs.LG stat.ME

本文提出了一种基于最小divergence框架的模型权重计算方法，用于平均统计和机器学习模型的概率预测。该方法在小样本情况下表现优于或持平于标准模型平均方法（如model stacking和Akaike-style负指数模型加权）。

Identifiability and Stability of Generative Drifting with Companion-Elliptic Kernel Families

Hak Geun Lee

stat.ML cs.LG

本文研究了Generative Drifting框架中漂移场的可识别性与稳定性，引入了companion-elliptic kernel族（包括Laplace kernel），并证明了该族恰好由Gaussian kernel和Matérn kernel（$\nu \ge 1/2$）构成。通过构造反例，展示了场范数趋于零时质量可能逃逸至无穷，但证明了弱收敛可通过施加内在重叠标量的渐近下界来恢复。

Speech Enhancement Based on Drifting Models

Liang Xu et al.

cs.SD cs.AI eess.AS eess.SP

本文提出了一种基于Drifting Models的语音增强框架DriftSE，将去噪问题建模为平衡问题，通过单步推理直接匹配干净语音分布，无需迭代采样。实验表明该方法在VoiceBank-DEMAND基准上优于多步扩散基线，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Agentic Witnessing: Pragmatic and Scalable TEE-Enabled Privacy-Preserving Auditing

Antony Rowstron

cs.CR cs.AI cs.ET cs.MA

本文提出Agentic Witnessing框架，通过将基于LLM的Auditor隔离在Trusted Execution Environment (TEE)中，使Verifier能通过简单布尔查询验证Prover的私有数据属性，而无需暴露原始数据集。该框架利用Model Context Protocol (MCP)动态检查目标数据集，并生成加密证据链，为隐私保护下的定性审计提供了可扩展方案。

On Detecting $H$-Induced Minors for Small $H$

Tala Eagling-Vose et al.

math.CO cs.CC cs.DS

本文研究了固定小图$H$的$H$-Induced Minor问题，证明了对于某些特定的$H$（如一个7顶点树和三个5顶点图），该问题是多项式时间可解的，并完成了对5顶点图$H$的分类。

RefEvo: Agentic Design with Co-Evolutionary Verification for Agile Reference Model Generation

Yifan Zhang et al.

cs.SE cs.AI

本文提出RefEvo，一个用于敏捷参考模型生成的多agent框架，通过动态设计规划、协同进化验证和规范锚定策略，解决了LLM在硬件建模中的静态工作流、上下文溢出和验证失效问题。

MEMCoder: Multi-dimensional Evolving Memory for Private-Library-Oriented Code Generation

Mofei Li et al.

cs.SE cs.AI cs.CL

本文提出MEMCoder框架，通过引入多维演化记忆机制，使LLM在私有库导向的代码生成中自主积累API使用指南。该方法利用双源检索机制结合静态文档与历史经验，在NdonnxEval和NumbaEval基准上显著提升了RAG系统的pass@1指标。

Deep Learning-Enabled Dissolved Oxygen Sensing in Biofouling Environments for Ocean Monitoring

Nikolaos Salaris, Adrien Desjardins, Manish K. Tiwari

eess.IV cs.AI cs.CV eess.SP

本文提出了一种结合相机和视觉transformer的物理信息神经网络，用于在生物污染环境下监测溶解氧浓度，通过嵌入Stern-Volmer方程降低了预测误差。该方法主要面向海洋环境监测应用，与关键词中的attention有一定关联，但整体创新性和领域契合度未达到严格标准。

RAS: a Reliability Oriented Metric for Automatic Speech Recognition

Wenbin Huang et al.

cs.SD cs.AI

本文提出了一种面向自动语音识别(ASR)的可靠性度量RAS，通过引入弃权感知的转录框架，使模型能够对不确定片段明确弃权，并利用人类偏好校准权衡参数。实验表明该方法在保持竞争性准确率的同时显著提升了转录可靠性。

Unconstrained Multi-view Human Pose Estimation with Algebraic Priors

Xiaolin Qin et al.

cs.CV cs.AI

本文提出了一种无约束的多视角人体姿态估计框架，通过结合深度神经网络、代数先验和时间动态，解决了无相机标定下的3D姿态恢复问题。该方法利用Transformer回归器进行三角化，并引入Gröbner基校正器来嵌入多视角几何的代数约束，同时通过时间等变校正器保证时序一致性。

X-NegoBox: An Explainable Privacy-Budget Negotiation Framework for Secure Peer-to-Peer Energy Data Exchange

Poushali Sengupta et al.

cs.CR cs.AI

本文提出X-NegoBox框架，用于点对点能源数据交换中的隐私预算协商，通过本地DataBox和APBNP协议实现自适应隐私保护，并利用X-Contract层提供可解释的决策理由。实验表明该方法能降低隐私泄露并提高接受率。

New non-Euclidean neural quantum states from additional types of hyperbolic recurrent neural networks

H. L. Dao

quant-ph cond-mat.dis-nn cs.LG

本文扩展了非欧几里得神经量子态(NQS)的类别，引入了庞加莱RNN、洛伦兹RNN和洛伦兹GRU等新变体。通过在100自旋的海森堡$J_1J_2$和$J_1J_2J_3$模型上进行变分蒙特卡洛实验，发现所有双曲RNN/GRU NQS变体在多数情况下均优于其欧几里得对应物。

See Further, Think Deeper: Advancing VLM's Reasoning Ability with Low-level Visual Cues and Reflection

Zhiheng Wu et al.

cs.CV cs.AI

本文提出ForeSight框架，通过引入低层视觉工具和基于mask的视觉反馈机制，增强视觉语言模型(VLM)的推理能力。实验表明该模型在特定指标上优于同参数规模模型，但方法主要针对视觉推理任务，与关键词中的code、spectral、Muon等概念关联较弱。

SycoPhantasy: Quantifying Sycophancy and Hallucination in Small Open Weight VLMs for Vision-Language Scoring of Fantasy Characters

Arya Shah, Deepali Mishra, Chaklam Silpasuwanchai

cs.CV cs.AI

本文研究了小型开源Vision-Language Models (VLMs)在评估图像-文本对齐时的谄媚行为（即给出高分但缺乏视觉证据支持），并提出了Bluffing Coefficient指标来量化评分与证据回忆之间的不匹配。实验发现模型大小与谄媚率呈显著负相关，小型模型更易产生无根据的高分。

Semantic Segmentation for Histopathology using Learned Regularization based on Global Proportions

Yangping Li et al.

eess.IV cs.CV cs.LG

本文提出VSLP框架，通过两阶段方法从全局label proportions推断dense segmentations，无需pixel-level annotations。该方法结合预训练transformer模型和变分优化问题，在病理图像分割任务上优于现有弱监督和无监督方法。

ARETE: Attention-based Rasterized Encoding for Topology Estimation using HSV-transformed Crowdsourced Vehicle Fleet Data

Daniel Fritz et al.

cs.CV cs.AI cs.LG cs.RO

本文提出了一种基于DETR的注意力机制方法，利用HSV变换后的众包车辆轨迹栅格化表示来预测车道中心线和分隔线，用于高精地图生成。该方法通过局部tile提取和轨迹方向编码实现车道拓扑估计。

Primitive Recursion without Composition: Dynamical Characterizations, from Neural Networks to Polynomial ODEs

Olivier Bournez

cs.CC cs.LG cs.LO cs.NE

本文研究了递归神经网络、多项式ODE和离散多项式映射在原始递归计算中的等价性，证明了这三种框架都能通过有界迭代实现原始递归函数，且组合性由动力学本身而非闭包规则产生。论文揭示了这些模型在计算结构上的不对称性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

Few-Shot Cross-Device Transfer for Quantum Noise Modeling on Real Hardware

Sahil Al Farib, Sheikh Redwanul Islam, Azizur Rahman Anik

quant-ph cs.LG

本文研究了在NISQ量子设备间迁移噪声模型的问题，使用residual neural network在源设备上训练，并通过少量微调样本（K=20）在目标设备上降低了KL divergence。实验表明CX gate error是跨设备噪声差异的主要原因，但方法本身在噪声建模领域较为常规。

All That Glitters Is Not Audio: Rethinking Text Priors and Audio Reliance in Audio-Language Evaluation

Leonardo Haw-Yang Foo et al.

cs.SD cs.AI cs.CL eess.AS

本文提出一个诊断框架，通过text prior（仅凭文本和常识回答问题的能力）和audio reliance（对声学信号的实际依赖程度）两个维度，评估了八个Large Audio-Language Models在三个benchmark上的表现。结果发现模型在无音频输入时仍能保留60-72%的分数，且多数需要音频的项目仅依赖局部片段，质疑了当前benchmark衡量真实听觉理解的有效性。

BandRouteNet: An Adaptive Band Routing Neural Network for EEG Artifact Removal

Phat Lam

eess.SP cs.AI

本文提出BandRouteNet，一种用于EEG去噪的自适应频率感知神经网络，通过频带特定处理与全频带context建模相结合，并引入路由机制自适应调整去噪强度。实验表明其在EEGDenoiseNet基准上优于现有方法，但方法本身在理论或架构上缺乏显著开创性，且与关键词列表中的概念关联较弱。

Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

Kaijun Zhou et al.

cs.RO cs.AI

本文系统分析了Vision-Language-Action (VLA)模型在不同边缘加速器（如GPU、NPU）上的部署约束与加速方法，通过构建跨加速器排行榜和深度性能剖析，揭示了模型推理中计算密集与内存密集的两阶段模式，并提出了DP-Cache和V-AEFusion两种加速策略，在保持任务成功率的同时实现了显著的速度提升。

SPLIT: Separating Physical-Contact via Latent Arithmetic in Image-Based Tactile Sensors

Wadhah Zai El Amri, Nicolás Navarro-Guerrero

cs.RO cs.AI cs.LG

本文提出SPLIT方法，通过latent space arithmetic策略分离接触几何与传感器光学特性，用于模拟基于图像的触觉传感器（如DIGIT）。该方法支持跨传感器迁移和双向仿真，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Measuring Successful Cooperation in Human-AI Teamwork: Development and Validation of the Perceived Cooperativity and Teaming Perception Scales

Christiane Attig et al.

cs.HC cs.AI

本文开发并验证了感知合作性量表(PCS)和团队感知量表(TPS)，用于评估人机合作的主观质量。通过三项研究(N=409)验证了量表在不同合作场景中的区分效度和构念效度。

A Survey on Split Learning for LLM Fine-Tuning: Models, Systems, and Privacy Optimizations

Zihan Liu et al.

cs.CR cs.CL cs.DC cs.LG

本文综述了split learning（分割学习）在LLM微调中的应用，从模型、系统和隐私优化三个维度对现有工作进行了分类与比较，为该领域提供了系统性的梳理。

GAMMAF: A Common Framework for Graph-Based Anomaly Monitoring Benchmarking in LLM Multi-Agent Systems

Pablo Mateo-Torrejón, Alfonso Sánchez-Macián

cs.CR cs.AI

本文提出了Gammaf，一个用于LLM多智能体系统中基于图的异常监控基准测试的开源框架。该框架通过生成合成多智能体交互数据集并评估现有防御模型（如XG-Guard和BlindGuard）的性能，为相关研究提供了标准化环境。

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

Parampuneet Kaur Thind et al.

cs.CV cs.AI cs.ET cs.LG cs.NE

本文提出了一种将低精度训练直接集成到硬件感知的Neural Architecture Search (NAS)中的方法，用于边缘AI部署。通过在搜索过程中对候选架构施加FP16数值约束，该方法在星载船舶分割任务上减少了部署精度损失，但未涉及code, context, spectral, Muon, pretrain, agent, attention等关键词。

Why AI Harms Can't Be Fixed One Identity at a Time: What 5300 Incident Reports Reveal About Intersectionality

Edyta Bogucka, Sanja Šćepanović, Daniele Quercia

cs.CY cs.AI cs.HC

本文通过分析AI Incident Database中的5300份报告，发现AI危害并非孤立地作用于单一身份类别，而是在年龄、政治身份等类别与种族、性别的交叉点上被放大三倍，并主张将intersectionality纳入AI风险评估。

Understanding the Limits of Automated Evaluation for Code Review Bots in Practice

Veli Karakaya et al.

cs.SE cs.AI

本文研究了工业环境中自动化评估LLM驱动的代码审查机器人的可行性，发现基于开发者标签的评估方法（如G-Eval和LLM-as-a-Judge）与人类判断的一致性较低，表明开发者行为受上下文和组织因素影响，难以作为客观标准。

Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models

Nay Myat Min, Long H. Pham, Jun Sun

cs.CR cs.AI cs.CL

本文提出了一种名为Layerwise Convergence Fingerprinting (LCF)的运行时监控方法，通过计算LLM各层隐藏状态差异的Mahalanobis距离来检测后门攻击、越狱和提示注入等运行时异常行为。该方法无需参考模型或重新训练，在多个架构上实现了低误报率和极小的推理开销。

Extreme bandits

Alexandra Carpentier, Michal Valko

stat.ML cs.LG

本文研究在有限反馈下顺序分配资源以检测极端值的问题，提出了ExtremeHunter算法，并分析了其相对于选择最重尾分布源的最优策略的极端遗憾。实验在合成和真实数据上验证了算法性能。

GSC-QEMit: A Telemetry-Driven Hierarchical Forecast-and-Bandit Framework for Adaptive Quantum Error Mitigation

Steven Szachara et al.

quant-ph cs.LG

本文提出GSC-QEMit框架，通过结合GHSOM聚类、高斯过程预测和上下文多臂bandit算法，在时变噪声下自适应选择量子纠错策略。实验表明该方法在保持逻辑保真度的同时减少了不必要的重干预。

Enhancing molecular dynamics with equivariant machine-learned densities

Mihail Bogojeski et al.

physics.chem-ph cs.LG stat.ML

本文提出DenSNet，一种基于SE(3)-equivariant neural network学习电子密度的方法，用于分子动力学模拟。该方法通过预测电子密度来获取能量和光谱性质，在乙醇等分子上验证了红外光谱的准确性。

Quantum Kernel Advantage over Classical Collapse in Medical Foundation Model Embeddings

Sebastian Cajas Ordóñez et al.

quant-ph cs.AI

本文在无噪声模拟下，使用量子支持向量机(QSVM)与医学基础模型嵌入，在MIMIC-CXR胸片上进行二分类保险分类。通过两阶段公平比较框架，展示了QSVM在少数类F1分数上优于经典线性SVM，但方法本身并非开创性，且与关键词关联较弱。

CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies

Fan Du et al.

cs.CV cs.AI

本文提出CF-VLA，一种用于vision-language-action (VLA) policies的粗到细两阶段动作生成框架。该方法通过将动作生成重构为粗初始化（构建动作感知的起点）和单步局部精修两个阶段，解决了基于流的VLA策略因多步推理导致的效率低下问题。实验表明，该方法在低NFE（函数评估次数）设定下实现了更优的效率-性能平衡。

Meta-CoT: Enhancing Granularity and Generalization in Image Editing

Shiyi Zhang et al.

cs.CV cs.AI cs.LG cs.MM

本文提出Meta-CoT方法，通过将图像编辑操作分解为(task, target, required understanding ability)三元组和五个基础元任务，并引入CoT-Editing Consistency Reward来增强模型的理解粒度和泛化能力。实验表明该方法在21个编辑任务上平均提升15.8%，并能有效泛化到未见过的编辑任务。

Computational Design and Experimental Validation of Photoactive PARP1 Inhibitors

Simon Axelrod et al.

physics.chem-ph cs.LG

本文利用基于atomistic simulation和machine learning的计算方法，从500万种候选物中筛选并实验验证了光激活PARP1抑制剂，其中化合物1在绿光照射下抑制活性提升15倍。该工作展示了计算引导筛选策略在光药理学中的应用潜力。

Less Is More: Engineering Challenges of On-Device Small Language Model Integration in a Mobile Application

William Oliveira

cs.SE cs.AI cs.CL

本文通过一个Android单词猜谜游戏的开发案例，研究了在移动设备上集成Small Language Model (SLM)的工程挑战。文章指出，SLM在移动端应用中是可行的，但开发者必须接受一个核心约束：最可靠的on-device LLM功能是让LLM做最少的事情。

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

Yixiang Zhang et al.

cs.CR cs.AI

本文提出了AgentWard，一种面向自主AI Agent生命周期的纵深防御安全架构，将保护分为初始化、输入处理、记忆、决策和执行五个阶段，并集成了跨层协调机制。该工作为Agent系统的运行时安全控制提供了设计蓝图。

Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data

K. Michael Martini et al.

physics.data-an cs.AI cs.IT

本文提出DySIB方法，通过最大化时间序列数据中过去与未来观测窗口间的预测互信息并惩罚表示复杂度，从高维实验数据中学习低维动力学表示。该方法在物理摆实验视频数据上恢复了与相空间维度、拓扑和几何匹配的二维表示。

Dual Control of Linear Systems from Bilinear Observations with Belief Space Model Predictive Control

Daniel Cao et al.

math.OC cs.LG eess.SY

本文研究了具有双线性观测的线性系统的有限时域二次控制问题，其中控制输入同时影响状态动态和状态的部分观测。作者提出了一种信念空间模型预测控制方法，通过输入相关的Kalman filter直接规划估计状态及其误差协方差，数值实验表明该方法在某些情况下优于基于分离原理的控制器。

Leveraging LLMs for Multi-File DSL Code Generation: An Industrial Case Study

Sivajeet Chand et al.

cs.SE cs.AI

本文报告了BMW公司的一项工业案例研究，通过将代码导向的LLM适配到基于Xtext的DSL，实现了从单条自然语言指令生成跨多文件和文件夹结构的DSL代码。研究构建了端到端流水线，将DSL文件夹层次编码为JSON以学习跨文件依赖，并评估了多种配置下的模型性能，其中微调取得了最佳效果。

Benchmarking Pathology Foundation Models for Breast Cancer Survival Prediction

Fredrik K. Gustafsson et al.

cs.CV cs.LG

本文系统比较了多种病理学基础模型在乳腺癌生存预测中的表现，使用标准化流程在超过5400名患者的数据集上进行外部验证。研究发现H-optimus-1性能最优，但模型间绝对差异较小，且紧凑模型H0-mini能以更少参数接近大模型性能。

Defective Task Descriptions in LLM-Based Code Generation: Detection and Analysis

Amal Akli et al.

cs.SE cs.AI

本文开发了SpecValidator，一个基于参数高效微调的小模型的轻量级分类器，用于自动检测LLM代码生成任务描述中的缺陷（如词汇模糊、欠规格和语法格式问题）。实验表明该分类器在缺陷检测上显著优于GPT-5-mini和Claude Sonnet 4，并发现欠规格缺陷对代码正确性影响最大，而结构化任务描述能提升LLM的鲁棒性。

Energy-Arena: A Dynamic Benchmark for Operational Energy Forecasting

Max Kleinebrahm et al.

econ.EM cs.LG

本文介绍了Energy-Arena，一个用于能源时间序列预测的动态基准测试平台，通过API提交系统和滚动评估窗口来解决现有基准测试中数据集和时间窗口不统一导致的比较困难问题。该平台强调前瞻性基准测试和标准化评估流程，以提高透明度和可重复性。

Exploiting Differential Flatness for Efficient Learning-based Model Predictive Control of Constrained Multi-Input Control Affine Systems

Tobias A. Farger, Adam W. Hall, Angela P. Schoellig

eess.SY cs.LG cs.RO

本文提出了一种利用differential flatness（微分平坦性）的高效学习型Model Predictive Control（模型预测控制）方法，用于处理受约束的多输入控制仿射系统。该方法通过系统扩展和块对角代价公式，仅需两次sequential convex optimization（序列凸优化）即可满足输入和半空间平坦状态约束，并保证概率Lyapunov（李雅普诺夫）递减。

A Strongly Polynomial Algorithm for Arctic Auctions

Jugal Garg, Shayan Taherijam, Vijay V Vazirani

cs.GT cs.DS

本文提出了一个用于Arctic Auction（线性Fisher市场模型的拟线性扩展）的强多项式算法，该算法直接基于Orlin的线性Fisher市场强多项式算法。该工作旨在为冰岛政府设计的资产交换机制提供高效计算工具，以满足银行在不同参数设置下快速运行拍卖的实际需求。

Personalized Worked Example Generation from Student Code Submissions using Pattern-based Knowledge Components

Griffin Pitts et al.

cs.HC cs.AI cs.CY cs.ET cs.LG

本文提出了一种基于pattern-based Knowledge Components (KCs)的方法，通过分析学生代码的AST结构来提取模式，并用于条件化生成模型以生成个性化worked examples。该方法旨在解决固定示例库与学生实际错误不匹配的问题，但并未涉及spectral、Muon、pretrain、agent或attention等关键词。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others