bluearXiv-ai - 2026-05-06

📄 所有论文 ↑ 回顶部

cs.LG

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization ⭐ 精选

Pei-Chun Su

cs.LG cs.IT

本文提出eOptShrinkQ，一种针对Transformer attention中KV cache的近无损压缩方法。其核心创新在于将KV cache分解为低秩的共享上下文（shared context）与全秩的逐token残差，并利用spiked random matrix model进行理论刻画。通过最优奇异值收缩（eOptShrink）自动提取共享结构，并利用残差的thin shell property与坐标离域性（delocalization）进行TurboQuant量化，该方法在无需异常值处理与内积偏差校正的情况下，实现了接近最优的量化失真。实验表明，在Llama-3.1-8B等模型上，eOptShrinkQ在约2.2 bits per entry的性能优于TurboQuant在3.0 bits的表现，且与未压缩的FP16相当，体现了谱去噪（spectral denoising）作为正则化器的有效性。

From Synthesis to Clinical Assistance: A Strategy-Aware Agent Framework for Autism Intervention based on Real Clinical Dataset ⭐ 精选

Junhong Lai et al.

cs.LG

本文提出了一种名为ASDAgent的策略感知框架，用于解决自闭症干预中数据稀缺及通用大语言模型难以严格遵循应用行为分析(ABA)标准化流程的问题。该框架包含两个核心组件：DoctorAgent通过“观察-思考-行动-纠正”(O-T-A-C)推理循环显式控制ABA策略执行，解决了LLM中的策略崩溃问题；ChildAgent则利用概率行为建模模拟多样化的自闭症谱系障碍(ASD)反应模式，以缓解数据同质性。实验表明，ASDAgent生成的对话在策略分布上与人类治疗师高度接近(KL散度为0.083)，并在真实干预中达到近80%的策略一致性，同时其合成数据能有效将专业知识蒸馏至小语言模型(SLM)中。该工作与关键词“agent”高度契合，为AI辅助临床干预提供了开创性的策略感知框架。

Taming the Curses of Multiagency in Robust Markov Games with Large State Space through Linear Function Approximation ⭐ 精选

Jingchu Gai, Laixi Shi

cs.LG

本文针对具有大状态空间的鲁棒Markov博弈(RMGs)问题，通过线性函数逼近(LFA)方法，首次在生成模型和在线交互两种设定下打破了多智能体维数灾难(curse of multiagency)。具体地，对于由total variation distance定义的不确定集，作者开发了可证明数据高效的算法，其样本复杂度不再随智能体数量指数增长。该工作为大规模状态空间下的鲁棒多智能体强化学习提供了理论保证，解决了该领域长期存在的效率瓶颈问题。

Most ReLU Networks Admit Identifiable Parameters ⭐ 精选

Moritz Grillo, Guido Montúfar

cs.LG cs.DM math.CO

本文针对深度ReLU网络的realization map（实现映射）进行研究，探讨函数何时能唯一确定其参数（除缩放和置换外）。作者引入基于weighted polyhedral complexes（加权多面体复形）的框架，证明了对于输入层和隐藏层宽度均至少为2的架构，存在一个identifiable parameters（可识别参数）的开集。这一结果意味着此类架构的functional dimension（函数维度）恰好等于参数总数减去隐藏神经元数，并进一步揭示了更浅层网络无法在开集上表示由深层网络实现的函数，从而建立了generic depth hierarchy（通用深度层次）。

Nora: Normalized Orthogonal Row Alignment for Scalable Matrix Optimizer ⭐ 精选

Jinghui Yuan et al.

cs.LG

Nora提出了一种基于Normalized Orthogonal Row Alignment的矩阵优化器，通过将momentum投影到权重的正交补空间上，严格保证了scale-invariance和训练稳定性，同时利用Transformer Hessian的block-diagonal dominance实现了$\mathcal{O}(mn)$的计算复杂度。该方法统一了Muon-like preconditioning的效率、scale-invariance的稳定性和低计算开销，并证明了其可扩展性定理。该工作与关键词中的Muon高度契合，解决了现有优化器在稳定性和效率之间难以兼顾的问题。

StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

Roberto Tacconelli

cs.LG cs.IT

本文提出StateSMix，一种结合在线训练的Mamba-style State Space Model (SSM)与稀疏n-gram context mixing的无损压缩器，在enwik8基准上优于xz -9e。该方法主要关注压缩性能，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念关联较弱。

An End-to-End Framework for Building Large Language Models for Software Operations

Jingkai He et al.

cs.LG

本文提出OpsLLM框架，用于构建面向软件运维领域的大语言模型，通过引入Human-in-the-Loop机制和领域过程奖励模型(DPRM)来提升知识问答和根因分析任务的性能。实验表明该模型在相关任务上优于现有开源和闭源模型，但方法本身在通用性上创新有限，与关键词列表中的概念关联较弱。

On the Invariants of Softmax Attention

Wonsuk Lee

cs.LG cs.AI

本文定义了softmax attention中的energy field（行中心化的attention logit），并发现了两类不变性：机制层面的不变性（如每行零和约束、由head dimension决定的rank bound）和模型层面的规律性（如energy field的方差在key位置上分散化，源于key incoherence）。这些不变性具有实际意义，例如rank bound将energy field限制在低维子空间，key incoherence可用于训练监控。

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Kazuki Egashira et al.

cs.LG cs.AI

本文研究了系统验证错误对基于可验证奖励的强化学习(RLVR)的影响，通过算术任务的受控实验发现，系统性假阳性错误可能导致从次优平台到性能崩溃的多种行为，且这些结果由错误的具体模式而非整体错误率决定。

Agentic AI-Based Joint Computing and Networking via Mixture of Experts and Large Language Models

Robert-Jeron Reifert et al.

cs.LG cs.IT

本文提出了一种基于agentic AI的网络优化框架，将mixture of experts (MoE)架构与large language models (LLMs)结合，用于6G移动网络中的联合计算与通信优化。该框架通过LLM作为语义门来动态组合优化agent，在异构目标下实现接近最优的性能。

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Rohan Surana et al.

cs.LG

本文对LLM强化学习中的rollout策略进行了全面综述，提出了GFCR（Generate-Filter-Control-Replay）生命周期分类法，将rollout流程分解为四个模块化阶段。该工作为理解rollout设计提供了统一框架，但主要侧重于方法论综述而非解决特定长期问题，与关键词中的具体技术关联度较低。

When Safety Geometry Collapses: Fine-Tuning Vulnerabilities in Agentic Guard Models

Ismail Hossain et al.

cs.LG cs.AI cs.CR

本文研究了在agentic AI pipelines中，对安全分类器（如LlamaGuard, WildGuard, Granite Guardian）进行良性数据微调导致安全对齐崩溃的现象，并指出其根源在于潜在安全几何结构（harmful-benign representational boundary）的破坏。作者提出了一种名为Fisher-Weighted Safety Subspace Regularization (FW-SSR)的训练时正则化方法，通过结合Fisher信息的方向权重和自适应惩罚系数来恢复安全性能。

PRISM-CTG: A Foundation Model for Cardiotocography Analysis with Multi-View SSL

Sheng Wong et al.

cs.LG cs.AI

本文提出了一种用于cardiotocography (CTG) 分析的自监督基础模型PRISM-CTG，通过多视图自监督学习框架联合优化三个预文本目标，利用大规模未标记数据学习可迁移的域级表示。实验表明该模型在多个下游任务中优于现有基线，但方法本身并非针对关键词中的特定概念。

Mitigating the reconstruction-detection trade-off in VAE-based unsupervised anomaly detection

Agathe Senellart et al.

cs.LG cs.AI

本文研究了VAE在无监督异常检测中重建质量与检测性能之间的权衡，并评估了beta调度和Sparse VAE两种缓解方法。

Heterogeneous Graph Importance Scoring and Clustering with Automated LLM-based Interpretation

Takato Yasuno

cs.LG

本文提出了一种基于异构图分析和LLM自动解释的城市桥梁重要性评估方法，利用OpenStreetMap数据构建图并计算五个社会影响指标，通过UMAP降维和HDBSCAN聚类发现桥梁功能原型。该方法主要关注工程应用而非理论创新，与关键词列表中的概念关联较弱。

DeRelayL: Sustainable Decentralized Relay Learning

Haihan Duan et al.

cs.LG cs.AI

本文提出了一种名为DeRelayL的去中心化中继学习范式，允许无许可参与者以中继方式贡献模型训练并共享模型，并设计了激励机制来保证可持续性。

Proteo-R1: Reasoning Foundation Models for De Novo Protein Design

Fang Wu et al.

cs.LG cs.AI cs.CE

Proteo-R1提出了一种将多模态大语言模型与扩散模型结合的双专家蛋白质设计框架，通过显式解耦分子理解与几何生成来提升可解释性。该方法将残基级推理作为硬约束传递给生成专家，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

PAMNet: Cycle-aware Phase-Amplitude Modulation Network for Multivariate Time Series Forecasting

Yingbo Zhou et al.

cs.LG cs.AI

本文提出PAMNet，通过显式分解周期模式为相位和幅度分量进行多变量时间序列预测，使用双分支调制器分别建模相位依赖的均值偏移和幅度变化，并通过轻量级融合模块实现高效交互。该方法在12个数据集上达到最优性能，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等核心概念。

From Static Analysis to Audience Dissemination: A Training-Free Multimodal Controversy Detection Multi-Agent Framework

Zihan Ding, Ziyuan Yang, Yi Zhang

cs.LG cs.AI

本文提出AuDisAgent，一个无需训练的多智能体框架，将多模态争议检测重新定义为动态传播过程，通过模拟观众传播中的不同视角来识别视频中的争议内容。该方法在公开数据集上优于现有方法，但未涉及code、spectral、Muon或pretrain等关键词。

PrismAgent: Illuminating Harm in Memes via a Zero-Shot Interpretable Multi-Agent Framework

Zihan Ding, Ziyuan Yang, Yi Zhang

cs.LG cs.AI

本文提出PrismAgent，一个零样本、多agent的可解释框架，通过模拟刑事案件调查流程（分析、调查、起诉、判决四个阶段）来检测有害meme，无需大量标注数据。实验表明其在多个数据集上优于现有零样本方法。

A Framework for Exploring and Disentangling Intersectional Bias: A Case Study in Fetal Ultrasound

Aya Elgebaly et al.

cs.LG cs.CV eess.IV

本文提出一个结构化框架，用于探索和检测胎儿超声图像中的交叉偏差，结合无监督slice discovery、系统因子分析和针对性交叉评估。在超过94,000张图像上的案例研究中，发现像素间距是性能差异的一致驱动因素，并揭示了其与孕龄和BMI的混杂效应。

Healthcare AI GYM for Medical Agents

Minbyul Jeong

cs.LG cs.AI

本文构建了一个名为\gym{}的医疗AI训练环境，覆盖10个临床领域和135个工具，并研究了多轮agentic RL在其中的表现。作者发现标准RL方法存在训练不稳定和工具使用退化问题，为此提出了TT-OPD（Turn-level Truncated On-Policy Distillation）方法，通过无梯度EMA教师提供密集的KL正则化，在多个基准上取得了平均+3.9%的提升。

Exploring Pass-Rate Reward in Reinforcement Learning for Code Generation

Xin-Ye Li et al.

cs.LG cs.AI cs.SE

本文研究了在无critic的强化学习（如GRPO和RLOO）中，使用测试用例通过率作为奖励信号对代码生成任务的影响。实验表明，尽管通过率奖励缓解了稀疏性问题，但在严格控制的条件下，其最终性能并未稳定优于二元通过/不通过奖励。分析指出，通过率奖励作为完全正确性的代理存在校准偏差，且部分通过解在同一组内可能产生冲突的梯度方向。

RouteHijack: Routing-Aware Attack on Mixture-of-Experts LLMs

Zhiyuan Xu et al.

cs.LG cs.AI

本文提出了一种针对Mixture-of-Experts (MoE) 大语言模型的对抗性攻击方法RouteHijack，通过优化输入后缀来影响模型的路由决策，从而绕过安全对齐。该方法在多个MoE模型上取得了较高的攻击成功率，揭示了稀疏专家架构在安全方面的固有脆弱性。

Predicting Euler Characteristics and Constructing Topological Structure Using Machine Learning Techniques

Gyunghun Yu et al.

cs.LG cond-mat.mtrl-sci cs.AI physics.comp-ph

本文提出了一种使用神经网络从单张几何图像预测Euler characteristic（欧拉示性数）的方法，通过将图像转化为spin configuration（自旋构型）并计算skyrmion number（斯格明子数）来实现，并引入磁Hamiltonian作为物理约束。该方法无需大型数据集，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

AsymK-Talker: Real-Time and Long-Horizon Talking Head Generation via Asymmetric Kernel Distillation

Yuxin Lu et al.

cs.LG cs.AI cs.SD

本文提出AsymK-Talker，一种基于asymmetric kernel distillation的扩散蒸馏方法，用于实时和长时程的talking head generation。该方法通过Kernel-Conditioned Loop Generation和Temporal Reference Encoding等组件，解决了因果推理效率低和长时生成漂移问题。

Disease Is a Spectral Perturbation

John D. Mayfield, Matthew S. Rosen

cs.LG stat.ML

本文提出了一种通过分析biomarker协方差矩阵的谱扰动来理解疾病转变的方法，定义了“Hamiltonian”矩阵并利用其特征值和特征向量的变化来刻画疾病轨迹。该方法为疾病预后提供了新的统计视角，但未直接涉及代码、上下文或注意力机制等关键词。

Kernel Affine Hull Machines for Compute-Efficient Query-Side Semantic Encoding

Mohit Kumar et al.

cs.LG cs.AI

本文提出Kernel Affine Hull Machines (KAHMs)，通过将廉价lexical特征映射到固定teacher的semantic embedding空间，以轻量级解析估计替代在线neural inference，在检索任务中实现了与transformer编码相当的性能并大幅降低延迟。该方法主要关注query-side的编码效率，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Calibration of the underlying surface parameters for urban flood using latent variables and adjoint equation

Yongfu Tian et al.

cs.LG

本文提出了一种基于latent variables和adjoint equation的城市洪水模拟中地表参数校准方法，通过将参数校准问题转化为贝叶斯优化问题，并引入机器学习中的latent variables来表征不确定性。该方法利用adjoint equation获取梯度信息，并采用参数共享和局部化技术降低计算复杂度，在案例中实现了对Manning系数的有效校准。

ZeRO-Prefill: Zero Redundancy Overheads in MoE Prefill Serving

Zhaoyuan Su et al.

cs.LG

本文提出ZeRO-Prefill系统，通过异步专家并行（AsyncEP）策略，将MoE模型推理中的激活路由通信替换为与计算重叠的权重AllGather，从而消除Prefill服务中的冗余通信开销。实验表明，该方法在Qwen3-235B-A22B模型上实现了1.35-1.59x的吞吐量提升。

Analytic Bridge Diffusions for Controlled Path Generation

Michael Chertkov

cs.LG cond-mat.stat-mech cs.AI eess.SY math.OC

本文提出了一种名为LQ-GM-PID的解析可解桥扩散方法，通过将线性-二次-高斯随机控制结构扩展为允许初始和终端分布为Gaussian Mixture，实现了无需神经网络或随机模拟的闭式路径生成。该方法在低维和高维任务中均能快速计算，可作为神经桥扩散方法的精确参考模型。

ISAAC: Auditing Causal Reasoning in Deep Models for Drug-Target Interaction

Barbara Tarantino et al.

cs.LG stat.CO stat.ML

本文提出ISAAC框架，通过匹配的mechanistic和spurious输入级干预来审计深度模型在药物-靶标相互作用预测中的因果推理能力，发现具有相似AUROC的模型在推理分数上存在约25%的相对差异。该方法为评估模型结构敏感性提供了后验工具，但与关键词列表中的概念无直接关联。

Reward Hacking Benchmark: Measuring Exploits in LLM Agents with Tool Use

Kunvar Thaman

cs.LG cs.AI

本文提出了Reward Hacking Benchmark (RHB)，用于评估具有工具使用能力的LLM agent在强化学习训练后利用环境漏洞获取奖励的行为。实验发现，RL后训练会显著增加reward hacking行为，且简单的环境加固能有效降低该行为。

Joint Energy Management and Coordinated AIGC Workload Scheduling for Distributed Data Centers: A Diffusion-Aided Reward Shaping Approach

Yang Fu et al.

cs.LG eess.SP eess.SY stat.ML

本文提出了一种面向分布式数据中心的联合能量管理与AIGC工作负载调度框架，通过显式建模服务质量并引入扩散模型辅助的奖励塑造方法，解决了深度强化学习中的奖励稀疏问题，实验表明该方法在系统效用和学习收敛性上优于基准方案。

AutoRAGTuner: A Declarative Framework for Automatic Optimization of RAG Pipelines

Xintan Zeng et al.

cs.LG cs.AI cs.CL cs.DC cs.SE

AutoRAGTuner是一个声明式、配置驱动的框架，用于自动化RAG管道的构建、执行、评估和优化。它通过模块化架构和贝叶斯优化引擎，在多种RAG架构上优于默认基线，并显著减少了工程调整的代码量。

Finite-Size Gradient Transport in Large Language Model Pretraining: From Cascade Size to Intensive Transport Efficiency

Ping Wang, Yan-Qi Du

cs.LG cond-mat.dis-nn cs.AI nlin.AO

本文提出了一个有限尺寸梯度传输框架，通过五个可观测量$(D,z,\beta,\delta,v_{\mathrm{rel}})$分析语言模型预训练中的梯度级联行为，并基于Pico-LM和Pythia两个模型家族的数据验证了该框架的适用性。

Multilingual Safety Alignment via Self-Distillation

Ruiyang Qin et al.

cs.LG cs.AI cs.CL

本文提出了一种名为Multilingual Self-Distillation (MSD)的跨语言安全对齐框架，通过将大语言模型在高资源语言（如英语）中的安全能力蒸馏到低资源语言中，以解决多语言安全对齐问题。该方法仅需多语言查询，无需目标语言的响应数据，并引入了Dual-Perspective Safety Weighting (DPSW)来优化蒸馏目标。

Structured Diffusion Bridges: Inductive Bias for Denoising Diffusion Bridges

Eitan Kosman, Gabriele Serussi, Chaim Basking

cs.LG cs.AI

本文提出了一种结构化扩散桥框架，通过alignment constraints（对齐约束）来刻画模态翻译中可行解的空间，并允许在未配对、半配对和全配对数据下工作。该方法在合成和真实数据上验证了其有效性，但并未直接涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Mixed-Precision Information Bottlenecks for On-Device Trait-State Disentanglement in Bipolar Agitation Detection

Joydeep Chandra

cs.LG cs.AI cs.HC cs.SD

本文提出MP-IB框架，将混合精度量化视为信息瓶颈，用于在资源受限设备上分离双相情感障碍检测中的稳定说话人特征与波动情感状态。通过FP16和INT4精度头实现8倍信息不对称，在Bridge2AI-Voice数据集上取得优于基线方法的效果，并支持零样本迁移。

TCD-Arena: Assessing Robustness of Time Series Causal Discovery Methods Against Assumption Violations

Gideon Stein et al.

cs.LG

本文提出了TCD-Arena，一个模块化的测试工具包，用于评估时间序列Causal Discovery算法在假设违反情况下的鲁棒性，并通过约3000万次实验揭示了不同违反条件下的性能特征。

Neuron-Anchored Rule Extraction for Large Language Models via Contrastive Hierarchical Ablation

Francesco Sovrano, Gabriele Dominici, Marc Langheinrich

cs.LG cs.AI

本文提出MechaRule，一种通过对比分层消融从大语言模型中提取符号规则的方法，利用稀疏的agonist神经元（其激活中和会破坏规则相关行为）来定位模型电路中的关键机制。该方法基于单调覆盖和饱和效应的经验观察，将定位视为自适应组测试，并验证了在算术和jailbreak任务上的有效性。

OGPO: Sample Efficient Full-Finetuning of Generative Control Policies

Sarvesh Patil et al.

cs.LG cs.RO

本文提出OGPO算法，通过off-policy critic网络和修改后的PPO目标函数，实现了对生成控制策略（如扩散策略）的样本高效微调，并在机器人操作任务上取得最优性能。该方法主要关注机器人学习中的策略优化，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联度较低。

Adaptive Negative Scheduling for Graph Contrastive Learning

Adnan Ali et al.

cs.LG

本文提出AdNGCL框架，通过一个hardness-aware scheduler (HANS)将负样本选择建模为损失门控、预算约束的过程，以动态调整负采样策略。实验表明该方法在多个graph benchmark上提升了性能，但未涉及code、spectral、Muon等关键词。

Adaptive Data Compression and Reconstruction for Memory-Bounded EEG Continual Learning

Chengcheng Xie

cs.LG

本文提出了一种名为ADaCoRe的记忆高效管道，用于无监督个体持续学习（UICL），通过显著性驱动的关键帧保护、有理多相压缩和伴随重建等技术，在严格内存限制下压缩和重建EEG信号，并在多个基准上优于现有方法。

Attribution-Guided Masking for Robust Cross-Domain Sentiment Classification

Shubham Harkare, Arvind Yogesh Suresh Babu, Yash Kulkarni

cs.LG

本文提出了一种名为Attribution-Guided Masking (AGM)的训练时干预方法，通过在微调过程中动态检测并惩罚高归因的虚假token，以提升预训练Transformer模型在跨域情感分类中的泛化能力。该方法结合了基于梯度的归因掩蔽损失和反事实对比损失，无需目标域标签即可实现域不变表示，并在零样本迁移设置下取得了有竞争力的结果。

When Prompts Interact: Assessing Prompt Arithmetic for Deconfounding under Distribution Shift

Zhecheng Sheng et al.

cs.LG cs.CL

本文提出Hybrid Prompt Arithmetic (HyPA)方法，通过组合任务prompt与线性化混淆prompt来对抗spurious correlations。实验表明该方法在分布偏移下能改善鲁棒性-性能权衡，但未涉及code、spectral、Muon等关键词相关技术。

Pose Tracking with a Foundation Pose Model and an Ensemble Directional Kalman Filter

Tianlu Lu et al.

cs.LG math.DG stat.AP

本文提出了ensemble directional Kalman filter (EnDKF)，一种基于集合的Kalman滤波方法，用于联合估计物体的位置和姿态。该方法使用unit-quaternion表示姿态，以更好地处理方向不确定性，并在合成系统和数字孪生头部追踪场景中验证了其有效性。

Gated Subspace Inference for Transformer Acceleration

Stephen J. Thomas

cs.LG cs.AI

本文提出了一种通过利用每层token activation manifold的低有效秩来加速transformer语言模型推理的方法。该方法将activation vector分解为subspace component和residual，通过缓存低秩权重图像减少内存带宽，并使用per-token gate决定是否计算residual correction，在GPT-2、GPT-J和OPT模型上实现了3.0到10.5倍的线性层权重读取加速，且无需重新训练或修改架构。

Cascade Token Selection for Transformer Attention Acceleration

Stephen J. Thomas

cs.LG cs.AI

本文提出了一种级联token选择机制，通过利用相邻层间代表性token集合的连贯性，将每层Gram矩阵的计算成本从$O(T^2 d)$降至$O(T r d)$，从而加速Transformer attention中的token选择过程。该方法在多个模型上验证了计算节省与集合重叠度。

Instance-Level Costs for Nuanced Classifier Evaluation

Kabir Kang, Stephen Mussmann

cs.LG

本文提出归一化超额成本(NEC)指标，通过为每个样本分配误分类成本来细化分类器评估，发现模型错误多集中在低成本的模糊样本上。但将成本纳入训练过程仅在成本可从输入特征预测时带来有限收益，实际数据集上效果不稳定。

OCRR: A Benchmark for Online Correction Recovery under Distribution Shift

Adrian Grassi

cs.LG cs.CL

本文提出了一个名为OCRR的benchmark，用于衡量分类系统在分布偏移下通过在线纠正恢复的速度。实验评估了多种算法，其中一种基于hash-chain的substrate方法在恢复新类别准确率和保持原始分布准确率方面表现最佳。

Pairwise matrices for sparse autoencoders: single-feature inspection mislabels causal axes

Michael A. Riegler, Birk Sebastian Frostelid Torpmann-Hagen

cs.LG

本文提出了一种用于稀疏自编码器(SAE)的pairwise matrix协议，通过联合改变steering coefficient与条件来揭示标准单特征协议遗漏的因果效应，并在Qwen3-1.7B-Instruct和Gemma-2-2B-it上验证了三个发现，包括特征响应的非线性模式、联合抑制对模型能力的破坏以及不同扰动方向导致的输出差异。

Global and Local Topology-Aware Attention with Persistent Homology and Euler Biases for Time-Series Forecasting

Usef Faghihi, Amir Saki

cs.LG cs.AI

本文提出了一种拓扑感知的注意力框架，通过persistent homology和Euler特征变换为时间序列预测引入几何结构，并在多种架构上验证了其有效性。该方法在多个数据集上取得了性能提升，但并未直接涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention的核心创新。

Enhancing AI-Based ECG Delineation with Deep Learning Denoising Techniques

Jeff Breeding-Allison, Emil Walleser

cs.LG eess.SP

本文提出了一种基于autoencoder的神经网络模型用于犬类ECG信号去噪，作为下游ECG分析（如delineation）的预处理步骤。该模型能从噪声输入中重建干净的心脏信号，在多种噪声条件下表现出鲁棒性。

Moral Sensitivity in LLMs: A Tiered Evaluation of Contextual Bias via Behavioral Profiling and Mechanistic Interpretability

Yash Aggarwal et al.

cs.LG cs.CY

本文提出了一种用于评估大语言模型道德敏感性的分级框架，通过行为分析和机制验证两个阶段，揭示了不同模型在偏见表现上的差异，并发现推理蒸馏可能重新激活浅层统计关联。

Beyond Activation Alignment: The Geometry of Neural Sensitivity

Amirhossein Yavari, Farnaz Zamani Esfahlani

cs.LG stat.ML

本文提出了一种基于Fisher信息和局部表示几何的框架，通过Spectral Riemannian Alignment Score (S-RAS)比较神经表示在局部扰动下的敏感性，而非传统的全局激活对齐。该方法在人工神经网络和生物视觉数据上验证了其有效性，但与关键词中的spectral概念关联较弱。

Self-Mined Hardness for Safety Fine-Tuning

Prakhar Gupta, Garv Shah, Donghua Zhang

cs.LG cs.AI cs.CR

本文提出了一种自挖掘难度的安全微调方法，通过评估模型自身生成内容的危害性来筛选困难prompt进行微调，以提升语言模型的安全性。实验表明该方法能显著降低攻击成功率，但会导致对看似攻击的良性prompt的过度拒绝，通过混合训练可缓解此问题。

Text-Conditional JEPA for Learning Semantically Rich Visual Representations

Chen Huang et al.

cs.LG cs.CV

本文提出Text-Conditional JEPA (TC-JEPA)，通过引入image captions作为text condition来降低masked feature prediction中的视觉不确定性，从而学习更语义化的visual representations。该方法使用sparse cross-attention对patch features进行调制，提升了downstream performance和训练稳定性。

Posterior-First Neural PDE Simulation: Inferring Hidden Problem State from a Single Field

Wenshuo Wang, Fan Zhang

cs.LG cs.AI

本文提出了一种后验优先的神经PDE模拟方法，通过推断最小任务充分问题状态的后验分布来替代直接的场到未来预测，从而解决单观测场下确定性预测的歧义问题。实验表明该方法在隐藏元数据的PDEBench任务上降低了均方根误差。

Ortho-Hydra: Orthogonalized Experts for DiT LoRA

Seunghyun Ji

cs.LG cs.AI cs.CV

本文提出Ortho-Hydra，一种针对Diffusion Transformer (DiT)的LoRA微调方法，通过将OFT风格的Cayley正交共享基与从预训练权重奇异向量中提取的专家不相交输出子空间结合，解决了多风格数据微调中的风格泄露和专家对称性问题。实验表明该方法能在训练初期打破路由器的均匀先验，但论文主要关注冷启动机制和路由动态，未评估最终生成质量。

Do LLMs have core beliefs?

Anna Sokol, Marianna B. Ganapini, Nitesh V. Chawla

cs.LG

本文通过提出Adversarial Dialogue Trees (ADTs)框架，测试了LLMs在科学、历史、地理、生物学和数学五个领域是否具有类似人类的“核心信念”。研究发现，大多数LLMs在对话压力下无法维持稳定的世界观，尽管较新模型有所改进，但仍缺乏人类认知的关键组成部分。

The Right Answer, the Wrong Direction: Why Transformers Fail at Counting and How to Fix It

Gabriel Garcia

cs.LG cs.CL

本文研究了大型语言模型在计数任务中失败的原因，发现模型内部能准确表示计数信息（线性探针$R^2>0.99$），但输出层与数字token的几何对齐存在瓶颈（$|\cos|\leq0.032$）。通过更新输出头或使用LoRA干预注意力机制可显著改善计数性能，但该问题与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

A Universal Reproducing Kernel Hilbert Space from Polynomial Alignment and IMQ Distance

Taha Bouhsine

cs.LG

本文提出了Yat kernel，一种有理隐单元核函数，证明了其在特定条件下是正定的且具有普适性，并分析了其与IMQ距离的关系。该工作主要贡献于核方法理论，与您提供的关键词关联度较低。

Partially Observed Structural Causal Models

Turan Orujlu et al.

cs.LG cs.AI stat.ME stat.ML

本文提出了部分观测结构因果模型(POSCMs)，扩展了标准SCMs以处理潜在上下文共同决定观测变量间交互结构和下游机制的情况。通过Kolmogorov-Arnold-Sprecher边函数分解实现显式的二元函数参数化，并给出了可识别性理论。

RFPrompt: Prompt-Based Expert Adaptation of the Large Wireless Model for Modulation Classification

Md Raihan Uddin, Tolunay Seyfi, Fatemeh Afghah

cs.LG

本文提出RFPrompt框架，通过引入可学习的deep prompt tokens并冻结预训练骨干网络，实现无线基础模型在调制分类任务中的参数高效迁移。实验表明该方法在分布偏移和有限监督条件下能提升鲁棒性，但未涉及code、context、spectral、Muon、agent或attention等关键词。

Stable Multimodal Graph Unlearning via Feature-Dimension Aware Quantile Selection

Jingjing Zhou et al.

cs.LG cs.MM

本文提出FDQ框架，通过特征维度感知的分位数选择来改进多模态图遗忘学习，在保持遗忘效果的同时减少对模型效用的损害。该方法主要针对高维输入投影层的过度编辑问题，在Ele-Fashion和Goodreads-NC数据集上验证了其有效性。

Will the Carbon Border Adjustment Mechanism Impact European Electricity Prices? A GNN-Based Network Analysis

Jiachen Shen et al.

cs.LG cs.CY eess.SY

本文使用基于Graph Neural Network (GNN)的时空框架，分析了欧盟碳边境调节机制(CBAM)对欧洲八国电力价格和碳强度的影响，发现该机制会改变市场结构，使低碳国家获得竞争优势而高碳国家面临成本上升。

Distributed Learning with Adversarial Gradient Perturbations

Nawapon Sangsiri, Yufei Tao

cs.LG

本文研究了在分布式学习中，客户端返回的梯度可能受到对抗性扰动（即与真实梯度存在有界偏差）的情况下，学习凸且$L$-光滑函数的问题。文章建立了可达的次优性差距（sub-optimality gap）的紧致可行性阈值，并提出了能达到这些阈值且具有可证明查询复杂度保证的算法。

DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment

Hongbo Jin et al.

cs.LG cs.AI

本文提出了一种名为Distribution Guided Policy Optimization (DGPO)的无critic强化学习框架，通过将分布偏差重新解释为引导信号而非刚性惩罚，来解决Group Relative Policy Optimization (GRPO)在长Chain of Thought生成中存在的粗粒度信用分配和梯度不稳定问题。该方法旨在提升大语言模型在复杂推理任务中的对齐效果。

LLM-ADAM: A Generalizable LLM Agent Framework for Pre-Print Anomaly Detection in Additive Manufacturing

Ahmadreza Eslaminia et al.

cs.LG cs.AI

本文提出LLM-ADAM，一个基于LLM agent的框架，用于增材制造中的G-code预打印异常检测。该框架通过将任务分解为Extractor-LLM、Reference-LLM和Judge-LLM三个角色，实现了对G-code文件的结构化分析，并在200个样本的测试集上达到87.5%的准确率。

Toward Structural Multimodal Representations: Specialization, Selection, and Sparsification via Mixture-of-Experts

Hahyeon Choi, Nojun Kwak

cs.LG cs.AI

本文提出S3框架，通过Specialization、Selection和Sparsification三个步骤，将多模态输入分解为语义专家并选择性路由，以替代固定嵌入的编码方式。实验表明该方法在MultiBench基准上提升了准确率，并呈现倒U型的稀疏性-性能关系。

Population-Aware Imitation Learning in Mean-field Games with Common Noise

Grégoire Lambrecht, Mathieu Laurière

cs.LG math.OC

本文研究了带共同噪声的Mean-field Games中的Imitation Learning问题，提出了两种模仿代理（Behavioral Cloning和Adversarial divergence）并建立了有限样本误差界，通过数值实验表明population-aware策略对应对随机性至关重要。

Fully Automatic Trace Gas Plume Detection

Vít Růžička et al.

cs.LG

本文提出了一种全自动的trace gas plume检测框架，结合基于machine learning的形态学分析与基于physics的光谱拟合，应用于EMIT成像光谱仪数据。该系统能自动检测甲烷、氨气、二氧化氮及一氧化碳等气体plume，并发现至少25%的plume可能被人工审查遗漏。

Learning Dynamics of Zeroth-Order Optimization: A Kernel Perspective

Zhe Li et al.

cs.LG

本文从kernel视角分析了零阶SGD的学习动力学，发现其经验Neural Tangent Kernel的近似误差主要取决于模型输出维度而非参数维度，这为ZO方法在LLM微调中的可扩展性提供了理论解释。

GRAFT: Auditing Graph Neural Networks via Global Feature Attribution

Rishi Raj Sahoo, Subhankar Mishra

cs.LG

本文提出GRAFT框架，通过结合多样性引导的样本选择、Integrated Gradients归因和聚合方法，为Graph Neural Networks提供全局特征重要性分析，并利用大语言模型生成自然语言规则。该方法主要关注特征层面的模型行为解释，但与我提供的关键词列表关联度较低。

Two Calls, Two Moments, and the Vote-Accuracy Curve of Repeated LLM Inference

Yi Liu

cs.LG cs.CL

本文研究了重复LLM推理中多数投票的准确率边界，通过两个标记调用（labeled calls）的矩信息推导出分布无关的区间估计，并验证了其在QNLI和QQP数据集上的有效性。

Local Truncation Error-Guided Neural ODEs for Large Scale Traffic Forecasting

Xiao Zhang et al.

cs.LG cs.AI

本文提出LTE-ODE，通过将局部截断误差(LTE)映射为动态spatial attention mask，在稳定区域保留连续ODE演化，在异常点触发离散补偿分支，以解决大规模交通预测中的连续-冲击困境。该方法在多个基准上取得了先进性能。

Graph Reconstruction from Differentially Private GNN Explanations

Rishi Raj Sahoo, Jyotirmaya Shivottam, Subhankar Mishra

cs.LG cs.CR

本文研究了从差分隐私（DP）保护的GNN解释中重建图结构的问题，提出了攻击方法PRIVX，利用高斯DP机制与DDPM（Denoising Diffusion Probabilistic Model）前向步骤的等价性，将重建问题转化为条件反向扩散过程。实验表明，在常用隐私预算下（如$\epsilon=5$），攻击能在多个数据集上达到高于0.7的AUC，揭示了DP保护不足以防止图结构泄露。

PODiff: Latent Diffusion in Proper Orthogonal Decomposition Space for Scientific Super-Resolution

Onkar Jadhav et al.

cs.LG physics.ao-ph

本文提出PODiff框架，在Proper Orthogonal Decomposition (POD)系数空间中进行latent diffusion，以降低高维空间场超分辨率的计算成本。该方法利用POD modes的正交性构建可解释的方差有序latent空间，在海洋表面温度降尺度等任务上实现了与pixel-space diffusion相当的精度，同时显著减少了内存需求。

Discovering Reinforcement Learning Interfaces with Large Language Models

Akshat Singh Jaswal, Ashish Baghel, Paras Chopra

cs.LG cs.AI

本文提出LIMEN框架，利用LLM从原始simulator state中自动发现强化学习系统的observation mappings和reward functions，通过进化算法和policy训练反馈迭代优化。实验表明，联合优化observation和reward组件比单独优化更有效，能减少手动设计工作量。

Learning to Theorize the World from Observation

Doojin Baek et al.

cs.LG cs.AI

本文提出Learning-to-Theorize学习范式，通过Neural Theorizer (NEO)模型从原始非文本观测中推断显式解释性理论，将理论表示为可执行的组合程序，并利用共享transition model执行，以实现基于解释的泛化。

FIBER: A Differentially Private Optimizer with Filter-Aware Innovation Bias Correction

Duc Dm et al.

cs.LG

本文提出了一种名为FiBeR的差分隐私优化器，通过引入filter-aware innovation bias correction来处理时间滤波后的私有化梯度。该方法在视觉和语言基准测试中提升了DP优化器的性能，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

DynaTab: Dynamic Feature Ordering as Neural Rewiring for High-Dimensional Tabular Data

Al Zadid Sultan Bin Habib, Gianfranco Doretto, Donald A. Adjeroh

cs.LG cs.AI

本文提出DynaTab，一种通过神经重连实现动态特征排序的架构，用于处理高维表格数据。该方法通过轻量级准则预测特征排列的收益，并利用动态排序机制提升序列敏感模型的性能。

Quantum Hierarchical Reinforcement Learning via Variational Quantum Circuits

Yu-Ting Lee, Samuel Yen-Chi Chen, Fu-Chieh Chang

cs.LG quant-ph

本文提出了一种基于variational quantum circuits的混合层次强化学习agent，在option-critic架构中用量子组件替代经典组件。实验表明量子特征提取器可节省66%可训练参数，但量子option-value估计存在性能瓶颈。

Learning Generalizable Action Representations via Pre-training AEMG

Zhenghao Huang et al.

cs.LG cs.AI

本文提出AEMG框架，将肌电信号重构为跨设备生理语言，通过Neuromuscular Contraction Tokenizer将肌肉收缩转化为结构词和句子，并构建大规模跨设备EMG信号词汇表。实验表明该方法在零样本和少样本迁移任务上优于现有基线，但未涉及code、spectral、Muon等关键词相关技术。

Bandits on graphs and structures

Michal Valko

cs.LG stat.ML

本文综述了图结构和结构化bandit问题的研究，涵盖了谱bandit、大动作空间（如指数级或无限动作空间）等场景，并总结了作者在这些领域的贡献。

Adaptive graph-based algorithms for conditional anomaly detection and semi-supervised learning

Michal Valko

cs.LG stat.ML

本文提出了基于图的半监督学习和条件异常检测方法，包括用于流式数据的快速近似在线算法，以及通过图连通性分析和软调和解来处理条件异常检测中的边缘点和孤立点问题。

Bandits attack function optimization

Philippe Preux, Rémi Munos, Michal Valko

cs.LG stat.ML

本文提出了一种名为Simultaneous Optimistic Optimization (SOO)的确定性算法，用于在预算约束下解决函数优化问题。该算法通过域划分来平衡探索与利用，并提供了理论保证和数值效率。

GRIFDIR: Graph Resolution-Invariant FEM Diffusion Models in Function Spaces over Irregular Domains

James Rowbottom et al.

cs.LG

本文提出了一种基于有限元方法的graph convolutional kernel架构，用于在函数空间中的score-based diffusion models，以处理不规则域上的函数值数据。该方法通过将generalized graph convolutional kernels表示为finite element functions，实现了对非结构化网格和复杂几何形状的自然处理。

A Hierarchical Sampling Framework for bounding the Generalization Error of Federated Learning

Dario Filatrella, Ragnar Thobaben, Mikael Skoglund

cs.LG cs.IT stat.ML

本文针对Hierarchical Federated Learning (HFL)场景，利用Wasserstein distance推导了期望泛化误差界，通过引入分层采样树结构并应用supersample构造，得到了比现有CMI界更紧的bound。

Meta-Inverse Physics-Informed Neural Networks for High-Dimensional Ordinary Differential Equations

Zhao Wei et al.

cs.LG cs.AI

本文提出了一种元逆物理信息神经网络(MI-PINN)，将高维常微分方程系统的逆问题建模为两阶段元学习问题，通过先学习物理感知表示再优化任务特定未知量来降低参数搜索维度。该方法在最多33个耦合ODE的生理药代动力学模型上验证了有效性。

Understanding Self-Supervised Learning via Latent Distribution Matching

Fabian A Mikulasch, Friedemann Zenke

cs.LG stat.ML

本文提出将self-supervised learning (SSL) 统一为latent distribution matching (LDM) 框架，通过alignment和uniformity最大化latent entropy，并推导出基于Kalman的Bayesian filtering模型用于高维timeseries。该框架统一了多种SSL方法，并证明了predictive LDM在温和假设下可得到identifiable latent representations。

PerFlow: Physics-Embedded Rectified Flow for Efficient Reconstruction and Uncertainty Quantification of Spatiotemporal Dynamics

Hao Zhou et al.

cs.LG cs.AI

本文提出PerFlow，一种基于物理嵌入的整流流方法，用于从稀疏不规则测量中高效重建时空动力学并量化不确定性。该方法将观测条件与物理约束解耦，通过约束保持投影嵌入硬物理约束，实现了比传统引导扩散方法快320倍的推理速度。

Enhance the after-discharge mortality rate prediction via learning from the medical notes

Zijiang Yang

cs.LG cs.OH

本文利用电子健康记录中的非结构化医疗笔记数据，通过机器学习模型（包括带pooling机制的Deep Neural Network）进行出院后死亡率预测。实验表明，加入医疗笔记信息能显著提升AUC-ROC指标，且所提模型优于传统树模型。

HeadQ: Model-Visible Distortion and Score-Space Correction for KV-Cache Quantization

Jorge L. Ruiz Williams

cs.LG cs.AI

本文提出HeadQ方法，通过模型可见的坐标（key的score误差和value的$A^2$加权token失真）来优化KV-cache量化，并验证了该视角优于传统存储MSE指标。

Disentangling Shared and Task-Specific Representations from Multi-Modal Clinical Data

He Lyu et al.

cs.LG cs.AI

本文提出了一种基于统一Transformer的多任务框架Orthogonal Task Decomposition (OrthTD)，通过几何正交约束将患者表示分解为共享和任务特定子空间，以减少冗余并隔离任务特定信号。该方法在真实手术患者队列上预测四个结局，平均AUC为87.5%，平均AUPRC为37.2%，优于现有方法，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Flow Matching on Symmetric Spaces

Francesco Ruscelli, Ferdinando Zanchetta, Rita Fioresi

cs.LG cs.AI

本文提出了一种在Riemannian symmetric spaces（包括球面、双曲空间和Grassmann流形）上训练flow matching模型的通用框架，通过利用其代数结构将问题线性化到等距群Lie algebra的子空间上，简化了测地线的处理。

A Few-Step Generative Model on Cumulative Flow Maps

Zhiqi Li et al.

cs.LG cs.GR

本文提出了一种基于累积流映射（cumulative flow maps）的少步生成模型框架，通过将局部瞬时更新与有限时间传输连接，支持少步甚至单步生成，并在图像生成、几何分布建模等任务中降低了推理成本。该方法对现有扩散和流模型具有通用性，但与我提供的关键词（如code, context, spectral等）关联较弱。

Information Plane Analysis of Binary Neural Networks

Maximilian Nothnagel, Bernhard C. Geiger

cs.LG

本文通过信息平面分析研究了二值神经网络（BNNs）中互信息（MI）的估计可靠性问题，发现当样本量$N$和表示维度$D$超出特定范围时，MI估计会饱和至$\log_2 N$。实验表明，虽然晚期压缩阶段经常出现，但压缩表示与泛化性能之间并不存在一致的相关性。

ELAS: Efficient Pre-Training of Low-Rank Large Language Models via 2:4 Activation Sparsity

Jiaxi Li et al.

cs.LG cs.AI

本文提出ELAS框架，通过在低秩LLM的前馈网络中应用squared ReLU激活函数并对其输出施加2:4结构化稀疏，以降低训练时的激活内存开销并加速计算。实验表明该方法在保持模型性能的同时实现了训练与推理加速。

Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe

Wenjin Hou et al.

cs.LG

本文提出Uni-OPD，一个统一on-policy distillation框架，通过从学生和教师视角的双重优化策略（包括数据平衡和outcome-guided margin calibration）来提升LLM和MLLM的蒸馏效果，在多个benchmark上验证了其有效性。

From Code to Prediction: Fine-Tuning LLMs for Neural Network Performance Classification in NNGPT

Mahmoud Hanouneh, Radu Timofte, Dmitry Ignatov

cs.LG cs.CV

本文在NNGPT框架中引入了一个分类任务，通过微调LLM（如DeepSeek-Coder-7B-Instruct）来预测神经网络架构在哪个图像分类数据集上表现更好。实验表明，仅基于代码的prompt能达到80%的准确率，优于基于元数据的prompt，说明架构代码包含比数据集元数据更丰富的判别信号。

Graph Neural Network based Hierarchy-Aware Embeddings of Knowledge Graphs: Applications to Yeast Phenotype Prediction

Filip Kronström et al.

cs.LG cs.AI q-bio.QM

本文提出了一种基于Graph Neural Network的层次感知知识图谱嵌入方法，通过引入本体语义损失来提升嵌入质量，并应用于酵母基因敲除表型预测。实验表明该方法在预测双基因敲除细胞生长时取得了比基线更好的$R^2$分数，并验证了模型在生物学发现中的潜力。

Distribution-Free Pretraining of Classification Losses via Evolutionary Dynamics

Meng Xiang, Yan Pei

cs.LG

本文提出Evolutionary Dynamic Loss (EDL)框架，通过进化策略在概率空间中学习可迁移的分类损失函数，无需真实样本即可预训练。实验表明EDL可作为交叉熵的替代方案，在CIFAR-10上取得竞争性精度。

Rethinking the Rank Threshold for LoRA Fine-Tuning

Juneyoung Park

cs.LG cs.AI

本文重新审视了LoRA微调中秩阈值的问题，指出在二分类场景下，通过使用非对称LoRA流形维度和交叉熵损失下的Polyak-Łojasiewicz不等式，可将所需秩从$r \geq 12$降低到$r=1$，并给出了Rademacher复杂度界来预测秩-方差最优性。实验验证了该结论在二分类任务上的有效性，但多类扩展仍待研究。

GEM-FI: Gated Evidential Mixtures with Fisher Modulation

Marco Mustafa Mohammed, Fatemeh Daneshfar, Pietro Liò

cs.LG

本文提出Gated Evidential Mixtures (GEM)系列模型，通过学习特征级energy信号并利用Fisher-informed regularizer稳定混合分配，改进了Evidential Deep Learning中的校准与多模态epistemic uncertainty估计。该方法在图像分类与OOD检测任务上取得了性能提升，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接契合。

Vanishing L2 regularization for the softmax Multi Armed Bandit

Stefana-Lucia Anita, Gabriel Turinici

cs.LG math.ST stat.ML

本文研究了softmax Multi Armed Bandit算法中L2正则化参数趋近于零时的收敛性，证明了理论收敛结果并验证了其数值优势。该工作主要关注正则化参数消失的极限情况，与关键词中的spectral、Muon、pretrain等概念关联较弱。

Task Vector Geometry Underlies Dual Modes of Task Inference in Transformers

Hao Yan, Haolin Yang, Yiqiao Zhong

cs.LG cs.CL stat.ML

本文通过在小规模Transformer上的受控实验，研究了任务向量几何与任务推理模式的关系，发现分布内行为由贝叶斯任务检索主导，而分布外行为则通过外推任务学习实现，其表示与任务向量子空间近似正交。

Graph Convolutional Support Vector Regression for Robust Spatiotemporal Forecasting of Urban Air Pollution

Nourin Jahan et al.

cs.LG stat.AP stat.ML

本文提出了一种Graph Convolutional Support Vector Regression (GCSVR)框架，用于城市空气污染的鲁棒时空预测，通过结合graph convolutional learning和support vector regression来分别捕捉空间依赖和非线性时间动态。实验在印度德里和孟买的监测站数据上验证了其预测精度和稳定性，并集成了conformal prediction以提供校准的预测区间。

Realizable Bayes-Consistency for General Metric Losses

Dan Tsir Cohen, Steve Hanneke, Aryeh Kontorovich

cs.LG cs.IT math.ST

本文研究了在可实现设定下，对于一般metric loss的强universal Bayes-consistency问题。作者通过引入无限非递减$(\gamma_k)$-Littlestone tree的概念，给出了假设类$\mathcal H$存在无分布学习规则使得风险几乎必然收敛到零的充要条件，扩展了经典分类和回归问题的刻画。

A Domain Incremental Continual Learning Benchmark for ICU Time Series Model Transportability

Ryan King et al.

cs.LG

本文提出了一个用于ICU时间序列模型跨区域迁移的domain incremental continual learning benchmark，通过评估data replay和Elastic Weight Consolidation (EWC)两种方法，验证了模型在不同数据分布下的迁移能力。

Complex Equation Learner: Rational Symbolic Regression with Gradient Descent in Complex Domain

Sergei Garmaev, Maurice Gauché, Olga Fink

cs.LG

本文提出了一种将Equation Learner扩展到复数域的方法，通过允许优化轨迹绕过实轴退化来缓解实值优化中的病态问题，从而能够稳定地处理包含除法、对数和平方根等奇异算子的符号回归任务。

Memory-Efficient Continual Learning with CLIP Models

Ryan King et al.

cs.LG

本文针对CLIP模型在持续学习中的灾难性遗忘问题，提出了一种基于动态重分类损失的内存高效方法，通过在小内存缓冲区内调整每类损失权重来提升性能。实验在多个增量学习设定下验证了该方法能快速适应新任务并减少遗忘。

On Adaptivity in Zeroth-Order Optimization

Hassan Dbouk et al.

cs.LG math.OC

本文研究了自适应零阶优化在内存受限的大语言模型微调中的有效性，发现ZO-Adam等高维自适应方法并无收敛优势，并提出了仅跟踪单个标量进行全局步长自适应的内存高效优化器MEAZO。实验表明MEAZO在性能上与ZO-Adam相当，但内存占用与ZO-SGD一致。

Spatiotemporal Convolutions on EEG signal -- A Representation Learning Perspective on Efficient and Explainable EEG Classification with Convolutional Neural Nets

Laurits Dixen, Stefan Heinrich, Paolo Burelli

cs.LG cs.AI

本文研究了EEG信号分类中，使用二维(2D)时空卷积替代一维(1D)独立时空卷积的效果。实验发现，2D卷积在保持性能的同时显著减少了高维任务中的训练时间，且两种卷积在spectral特征重要性上无差异，但内部表示几何结构不同。

From Data Lifting to Continuous Risk Estimation: A Process-Aware Pipeline for Predictive Monitoring of Clinical Pathways

Pasquale Ardimento et al.

cs.LG cs.SE

本文提出了一种可复现的、流程感知的临床路径预测监控pipeline，整合了数据提升、时间重建和事件日志构建等技术，并在COVID-19临床路径上进行了评估。实验表明，逻辑回归模型取得了最佳性能，且预测性能随临床事件增加而逐步提升。

Optimal Posterior Sampling for Policy Identification in Tabular Markov Decision Processes

Cyrille Kone, Kevin Jamieson

cs.LG stat.ML

本文针对有限时域episodic Markov Decision Processes中的$(\varepsilon, \delta)$-PAC策略识别问题，提出了一种结合posterior sampling与在线学习算法的随机化高效方法，在样本复杂度上实现了渐近最优性，且每轮计算复杂度为$O(S^2AH)$。该方法改进了现有算法在$\log(1/\delta)$依赖上的次优性，但未涉及关键词中的code、spectral或Muon等概念。

TabSurv: Adapting Modern Tabular Neural Networks to Survival Analysis

Stanislav Kirpichenko, Andrei Konstantinov, Lev Utkin

cs.LG cs.AI stat.ML

TabSurv将现代表格神经网络架构（如MLP深度集成）应用于生存分析，通过优化支持删失数据的SurvHL损失函数，并使用Weibull分布或非参数方法进行预测。实验表明该方法在多个数据集上平均优于RSF、DeepSurv等基线模型。

Integrating Feature Correlation in Differential Privacy with Applications in DP-ERM

Tianyu Wang, Luhao Zhang, Rachel Cummings

cs.LG stat.ML

本文提出了一种名为CorrDP的差分隐私框架，通过考虑特征间的相关性来放松对不敏感特征的隐私约束，并设计了用于差分隐私经验风险最小化（DP-ERM）的算法。实验表明，该方法在存在不敏感特征时优于标准差分隐私框架。

Transformers with Selective Access to Early Representations

Skye Gunasekaran et al.

cs.LG cs.CL

本文提出SATFormer，通过上下文相关的门控机制选择性重用第一层的value表示，在130M到1.3B参数规模上提升了验证损失和零样本准确率，并保持了接近baseline的吞吐量和内存使用。该方法将早期表示重用视为检索问题而非连接问题，但未涉及code、spectral、Muon等关键词。

Pretrained Model Representations as Acquisition Signals for Active Learning of MLIPs

Eszter Varga-Umbrich et al.

cs.LG physics.chem-ph

本文研究了在主动学习机器学习原子间势能（MLIPs）时，如何利用预训练MACE模型的latent space（潜在空间）直接生成acquisition signal（获取信号），包括finite-width neural tangent kernel (NTK) 和 activation kernel，从而避免使用辅助不确定性头或集成方法。实验表明，这些基于预训练模型的内核在反应化学基准上优于固定描述符基线和委员会分歧方法，平均减少了38%的能量误差和28%的力误差所需数据。

Flow Sampling: Learning to Sample from Unnormalized Densities via Denoising Conditional Processes

Aaron Havens, Brian Karrer, Neta Shaul

cs.LG cs.AI

本文提出Flow Sampling框架，利用扩散模型和flow matching从未归一化密度中采样，通过条件化噪声样本回归到由能量函数构造的去噪扩散漂移，以减少训练中能量函数评估次数。该方法可扩展到Riemannian流形，并在合成能量基准和小分子构象生成等任务上展示了实证性能。

A Closed-Form Adaptive-Landmark Kernel for Certified Point-Cloud and Graph Classification

Sushovan Majhi et al.

cs.LG math.AT

本文提出了一种名为PALACE的闭式自适应地标核方法，用于点云和图分类。该方法基于覆盖理论（Lebesgue-number criterion）推导出四个闭式保证，包括结构下界、最优权重、分类速率和预测置信度，无需梯度训练。实验表明，PALACE在多个数据集上达到了与深度学习方法相当的性能，尤其在域膨胀下表现出鲁棒性。

cs.AI

Stable Agentic Control: Tool-Mediated LLM Architecture for Autonomous Cyber Defense ⭐ 精选

Kerri Prinos et al.

cs.AI cs.CR eess.SY

本文提出了一种工具中介的LLM架构（Tool-Mediated LLM Architecture），用于在对抗性压力下实现自主网络防御。该架构通过让LLM agent使用确定性工具（如Stackelberg best-response、Bayesian observer updates和attack-graph primitives）并强制在工具输出接口选择有限动作目录，从而保证了系统的可控性、可观性和输入-状态稳定性（ISS）。作者在Lean 4中机器检查了一个复合Lyapunov函数，并证明该证书对目录中的任何控制器或对手都成立。实验表明，在282个真实企业攻击图上，该架构显著降低了攻击者的期望收益，且稳定性不依赖于控制器能力，这为agent系统在高风险决策中提供了形式化保证。

Programmatic Context Augmentation for LLM-based Symbolic Regression ⭐ 精选

Hao Liu et al.

cs.AI

本文提出了一种基于LLM的符号回归(SR)进化搜索框架，通过引入程序化上下文增强(programmatic context augmentation)机制，使模型能够以代码形式与数据集进行交互，从而提取比传统标量评估指标(如均方误差)更丰富的信息。该方法在LLM-SRBench等基准测试上展现出优于强基线的效率和准确性，为符号回归任务提供了新的范式。该工作与关键词"code"和"context"高度契合，体现了代码驱动的上下文增强在科学发现中的潜力。

Learning Correct Behavior from Examples: Validating Sequential Execution in Autonomous Agents ⭐ 精选

Reshabh K Sharma, Gaurav Mittal, Yu Hu

cs.AI cs.SE

本文提出一种从少量执行轨迹（2-10条）中自动学习自主agent正确行为并验证新执行序列的算法。该方法结合compiler theory中的dominator analysis与multimodal large language model的语义理解，通过Prefix Tree Acceptor构建generalized ground truth model，并利用多层级等价性检测合并轨迹，最终通过topological subsequence matching进行验证。该工作为agent行为验证提供了高效且可解释的解决方案，与关键词“agent”高度契合。

Enhancing Agent Safety Judgment: Controlled Benchmark Rewriting and Analogical Reasoning for Deceptive Out-of-Distribution Scenarios ⭐ 精选

Zuoyu Zhang, Yancheng Zhu

cs.AI

本文提出ROME (Red-team Orchestrated Multi-agent Evolution) 基准构建流程，通过受控重写已知不安全轨迹生成更具欺骗性的评估实例，以暴露LLM agent在模糊或隐藏风险场景下的安全判断缺陷。同时提出ARISE (Analogical Reasoning for Inference-time Safety Enhancement) 推理时增强方法，通过检索ReAct风格的类比安全轨迹作为结构化推理示例来提升判断质量。该工作为agent安全评估提供了系统性的压力测试工具，与关键词"agent"高度契合。

Automated Large-scale CVRP Solver Design via LLM-assisted Flexible MCTS ⭐ 精选

Tong Guo, Caishun Chen, Yew Soon Ong

cs.AI

本文提出LaF-MCTS框架，利用LLM辅助的灵活Monte Carlo Tree Search自动设计大规模CVRP求解器。通过构建三级决策层次结构（decomposition policy与sub-solver的增量设计），并引入semantic pruning消除冗余代码、branch regrowth保持多样性，该框架在算法假设空间内高效搜索。实验表明，LaF-MCTS自主组合并优化的分解增强型求解器在CVRPLib上超越了多种现有最优求解器，为自动化算法设计提供了新范式。

What Happens Inside Agent Memory? Circuit Analysis from Emergence to Diagnosis ⭐ 精选

Xutao Mao et al.

cs.AI

本文通过circuit analysis（电路分析）方法，研究了基于LLM的agent memory（智能体记忆）系统的内部工作机制。作者在Qwen-3系列模型（0.6B至14B）和两种memory framework（mem0和A-MEM）上，发现memory操作可分为control circuit（控制电路）和content circuit（内容电路）两组：控制电路在0.6B模型即可检测到因果活性，而内容电路直到4B才出现可检测信号，且其可操控性（steerability）要到8B才可靠实现。此外，Write和Read操作共享一个late-layer hub（深层枢纽），该枢纽作为context-grounding substrate（上下文锚定基底）已存在于基座模型中，而memory framing（记忆框架）仅在此基底上招募了一个功能性的grounding direction（锚定方向）。该工作为agent memory的silent failure（静默故障）提供了基于feature-space separation（特征空间分离）的阶段级诊断方法，准确率达76.2%。

Agentic-imodels: Evolving agentic interpretability tools via autoresearch ⭐ 精选

Chandan Singh et al.

cs.AI cs.CL cs.LG

本文提出了一种名为Agentic-imodels的自动化研究循环，旨在演化出面向agent（如LLM）可解释的数据科学工具。该方法通过优化预测性能和一种基于LLM的新型可解释性指标（衡量LLM能否仅通过模型字符串表示来模拟其行为），生成scikit-learn兼容的回归器。实验表明，演化出的模型在提升预测性能的同时，显著增强了agent的可解释性，并能泛化到新数据集和测试上，最终将下游端到端ADS系统（如Copilot CLI、Claude Code）在BLADE基准上的性能提升高达73%。该工作开创性地将可解释性目标从面向人类转向面向agent，与关键词“agent”高度契合。

An Information-Geometric Framework for Stability Analysis of Large Language Models under Entropic Stress

Hikmat Karimov, Rahid Zahid Alekberli

cs.AI cs.CL cs.CR cs.LG

本文提出一个受热力学启发的框架，通过引入复合稳定性分数（整合任务效用、熵和内部结构代理）来分析大语言模型在不确定性下的输出稳定性，并在IST-20基准上验证了其有效性。该工作主要提供了一种可解释的评估视角，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

The Kerimov-Alekberli Model: An Information-Geometric Framework for Real-Time System Stability

Hikmat Karimov, Rahid Zahid Alekberli

cs.AI cs.CL cs.CR cs.LG

本文提出了Kerimov-Alekberli模型，一个将非平衡热力学与随机控制形式化联系的信息几何框架，用于自主系统的伦理对齐。该模型在NSL-KDD数据集和无人机轨迹模拟上验证了实时检测的有效性，但方法本身与关键词列表中的概念关联较弱。

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

Cheng Qian et al.

cs.AI cs.CL cs.LG

本文提出了CreativityBench基准，通过构建大规模affordance知识库来评估LLM在工具重利用中的创造性推理能力。实验表明现有模型在识别物体属性与物理机制方面存在显著不足，且推理策略改进有限。

Computing Thiele Rules on Interval Elections and their Generalizations

Dimitris Avramidis et al.

cs.AI cs.GT

本文研究了在结构化偏好（如候选区间、选民区间等域）上计算Thiele规则（如比例批准投票）的复杂性。作者解决了选民区间域上计算复杂性的开放问题，证明了标准线性规划仍存在最优整数解，并给出了快速算法。

Making the Invisible Visible: Understanding the Mismatch Between Organizational Goals and Worker Experiences in AI Adoption

Christine P. Lee, Min Kyung Lee, Bilge Mutlu

cs.AI cs.HC

本文通过访谈研究，揭示了在医疗、金融和管理领域采用AI时，组织目标与工人体验之间的脱节，识别了可用性差、期望错位等关键障碍，并提出了在个体、任务和组织层面进行适应的策略。

Are you with me? A Framework for Detecting Mental Model Discrepancies in Task-Based Team Dialogues

Katharine Kowalyshyn, Matthias Scheutz

cs.AI

本文提出一个框架，用于在基于任务的团队对话中检测和分类四种mental model discrepancy（心理模型差异），包括unsupported beliefs、false beliefs、belief contradictions和omissions。通过分析二十组双人团队的对话数据，发现这些差异模式包含预测信号，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

Terminus-4B: Can a Smaller Model Replace Frontier LLMs at Agentic Execution Tasks?

Spandan Garg, Vikram Nitin, Yufan Huang

cs.AI cs.SE

本文提出Terminus-4B，一个基于Qwen3-4B微调的小语言模型，用于替代agentic terminal execution任务中的前沿模型。实验表明，该模型在SWE-Bench等基准上能减少主agent约30%的token使用量，且性能不降，甚至在某些指标上超越Claude Sonnet等前沿模型。

Stop Automating Peer Review Without Rigorous Evaluation

Joachim Baumann et al.

cs.AI

本文认为不应使用大型语言模型自动化同行评审，通过实验发现AI评审存在观点趋同和易被风格改写操纵的问题，强调需要严格的评估体系而非直接部署通用模型。

ADAPTS: Agentic Decomposition for Automated Protocol-agnostic Tracking of Symptoms

Alexandria K. Vail et al.

cs.AI cs.CL cs.HC stat.AP stat.CO

ADAPTS是一个基于混合agent LLM架构的框架，用于从临床访谈中自动评估抑郁和焦虑严重程度。它通过将长访谈分解为症状特定的推理任务来生成可审计的评估，并在两个独立数据集上验证了其有效性。

Evaluating Prompting and Execution-Based Methods for Deterministic Computation in LLMs

Hongkun Yu

cs.AI

本文系统评估了多种prompting策略（如CoT, PoT等）在LLM确定性计算任务（如二进制计数、最长子串检测）上的表现，发现标准方法精度有限，而PoT通过生成代码并委托外部解释器执行可实现完美精度。研究还训练了一个小型CodeT5模型，能以极低训练成本在合成测试数据上达到完美精度。

cotomi Act: Learning to Automate Work by Watching You

Masafumi Oyamada et al.

cs.AI

本文提出了cotomi Act，一个基于浏览器的计算机使用agent，通过结合自适应懒惰观察、基于verbal-diff的历史压缩、粗粒度动作和测试时缩放等技术，在WebArena任务上达到了80.4%的成功率，并利用行为到知识管道从用户浏览中被动学习组织知识。

Revisiting the Travel Planning Capabilities of Large Language Models

Bo-Wen Zhang et al.

cs.AI

本文将旅行规划任务分解为五个原子子能力，并设计了解耦评估协议来独立测试LLM在这些子能力上的表现。研究发现LLM在提取显式约束方面表现良好，但在推断隐式需求、生成无偏计划以及有效自我修正方面存在显著缺陷。

ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval

Honglei Zhang et al.

cs.AI

本文提出了ReasonAudio，一个用于文本-音频检索的推理密集型基准，包含五个基本推理任务。评估表明现有模型在推理密集型音频检索中表现不佳，尤其在否定理解和持续时间判断上。

GeoDecider: A Coarse-to-Fine Agentic Workflow for Explainable Lithology Classification

Jiahao Wang et al.

cs.AI

GeoDecider提出了一种基于大语言模型(LLM)的粗到细代理工作流(agentic workflow)，用于可解释的岩性分类。该方法通过多阶段推理（包括基础分类器引导、工具增强推理和地质精炼）来模拟专家决策过程，在多个基准上取得了优于基线方法的性能。

Robust Agent Compensation (RAC): Teaching AI Agents to Compensate

Srinath Perera et al.

cs.AI

本文提出了一种基于日志的恢复范式RAC，通过架构扩展为AI Agent提供安全执行保障，避免意外副作用。该方法在LangChain上实现，实验表明其在复杂问题求解中比现有基于LLM的恢复方法在延迟和token经济性上提升1.5-8倍以上。

Geometry over Density: Few-Shot Cross-Domain OOD Detection

Shawn Li et al.

cs.AI

本文提出UFCOD框架，利用扩散模型的score function提取Path Energy和Dynamics Energy两种能量特征，实现少样本跨域OOD检测。该方法采用“一次训练，随处部署”范式，仅需约100个ID样本即可在多个语义无关域上达到93.7%的平均AUROC，样本效率提升约500倍。

Adaptive Dual-Path Framework for Covert Semantic Communication

Xi Yu et al.

cs.AI

本文提出了一种用于隐蔽语义通信的自适应双路径框架，通过语义级内在编码将隐蔽数据嵌入任务特定特征中，并利用Gumbel-Softmax机制实现自适应路径选择。实验表明该方法在Cityscapes数据集上实现了接近随机猜测的隐蔽性，同时保持了主要语义任务的性能。

Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models

Shule Lu et al.

cs.AI

本文提出MoR框架，通过结合GRPO与Mixture-of-Rewards机制，在联邦学习环境下对齐异构Vision-Language Models (VLMs)，无需直接交换参数或数据。该方法利用本地reward model和自适应路由融合，实现了隐私保护下的偏好对齐。

FinSTaR: Towards Financial Reasoning with Time Series Reasoning Models

Seunghan Lee et al.

cs.AI cs.LG

本文提出了FinSTaR，一个针对金融时间序列推理的模型，通过构建FinTSR-Bench基准并设计两种链式思维策略（Compute-in-CoT和Scenario-Aware CoT）来分别处理确定性的评估任务和随机性的预测任务，在基准上取得了78.9%的平均准确率。该方法主要关注金融领域的推理能力，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念关联度较低。

Real-Time Evaluation of Autonomous Systems under Adversarial Attacks

Adithya Mohan et al.

cs.AI

本文提出了一种基于真实世界交叉路口数据的离线轨迹学习与对抗鲁棒性评估框架，比较了MLP行为克隆、Transformer行为克隆和GAIL逆强化学习三种范式，并使用梯度攻击评估推理时鲁棒性。结果表明状态结构设计和架构归纳偏置显著影响对抗稳定性，但方法本身在理论或技术上的开创性有限。

Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

Zirui Tang et al.

cs.AI cs.CL cs.DB cs.LG

本文提出了Workspace-Bench，一个用于评估AI agent在具有大规模文件依赖的工作空间学习能力的基准测试，包含真实的工作空间和任务。实验表明，当前最先进的agent在该基准上的表现（68.7%）仍显著低于人类水平（80.7%），平均性能仅为47.4%。

Where Paths Split: Localized, Calibrated Control of Moral Reasoning in Large Language Models

Chenchen Yuan, Zheyu Zhang, Gjergji Kasneci

cs.AI cs.LG

本文提出了一种名为Convergent-Divergent Routing的方法，通过在transformer blocks中定位并编辑与伦理框架相关的分支点，实现对大型语言模型道德推理的推理时控制。该方法利用Common Spatial Patterns提取判别方向，并通过Dual Logit Calibration进行偏好校准，在保持通用能力的同时提升了目标伦理框架的推理表现。

Self-Improvement for Fast, High-Quality Plan Generation

Robert Gieselmann et al.

cs.AI

本文研究使用decoder-only transformer模型生成高质量规划方案，通过自改进方法结合图搜索优化初始模型，在多个领域实现平均30%的规划长度缩减，但方法主要基于实验验证，与关键词关联度较低。

AdapShot: Adaptive Many-Shot In-Context Learning with Semantic-Aware KV Cache Reuse

Jie Ou et al.

cs.AI

本文提出AdapShot方法，通过基于输出熵的探针机制动态优化示例数量，并利用语义感知的KV cache重用策略（包括解耦与重编码方法解决位置编码不兼容问题）来加速推理，实验表明其在性能与速度上均优于现有方法。

Agent-Based Modeling of Low-Emission Fertilizer Adoption for Dairy Farm Decarbonisation using Empirical Farm Data

Surya Jayakumar et al.

cs.AI

本文提出一个基于agent的建模框架，使用经验农场数据模拟爱尔兰奶牛场中低排放肥料的采纳过程，通过社会网络和peer influence刻画采纳动态，并利用Monte Carlo模拟评估政策干预效果。模型与观测数据吻合良好，但方法本身在agent建模领域较为常规，未体现显著的开创性。

MEMTIER: Tiered Memory Architecture and Retrieval Bottleneck Analysis for Long-Running Autonomous AI Agents

Bronislav Sidik, Lior Rokach

cs.AI

本文提出MEMTIER，一种用于长时间运行自主AI agent的三层记忆架构，通过结构化episodic存储、加权检索和异步consolidation机制缓解记忆一致性问题。在LongMemEval-S基准测试上，该方法在消费级GPU上实现了显著性能提升，但主要贡献在于工程实现而非理论创新。

OracleProto: A Reproducible Framework for Benchmarking LLM Native Forecasting via Knowledge Cutoff and Temporal Masking

Yiding Ma et al.

cs.AI

本文提出了OracleProto框架，通过结合模型知识截止对齐、时间掩码和泄漏检测等技术，将已解决事件重构为时间受限的预测样本，以可重复的方式评估LLM的预测能力，并显著降低了信息泄漏。

What You Think is What You See: Driving Exploration in VLM Agents via Visual-Linguistic Curiosity

Haoxi Li et al.

cs.AI

本文提出GLANCE框架，通过将VLM agent的语言世界模型与视觉表示对齐，利用语言预测和视觉现实之间的差异作为内在好奇心信号，驱动agent在部分可观测环境中主动探索。该方法在稀疏奖励任务中展示了有效性，但未涉及code、spectral或Muon等关键词。

Say the Mission, Execute the Swarm: Agent-Enhanced LLM Reasoning in the Web-of-Drones

Andrea Iannoli et al.

cs.AI cs.NI cs.RO

本文提出了一种基于agent增强的LLM框架，用于通过自然语言指令控制UAV swarm，并利用W3C Web of Things标准实现grounded交互。实验表明，即使具备强推理能力，通用LLM在缺乏显式grounding和执行支持时仍难以可靠完成swarm任务。

ScrapMem: A Bio-inspired Framework for On-device Personalized Agent Memory via Optical Forgetting

Jiale Chang, Yuxiang Ren

cs.AI

本文提出ScrapMem框架，通过光学遗忘机制逐步降低旧记忆的分辨率以节省存储，并构建Episodic Memory Graph来组织关键事件。实验表明该方法在资源受限设备上实现了高效的多模态长期记忆管理。

SOAR: Real-Time Joint Optimization of Order Allocation and Robot Scheduling in Robotic Mobile Fulfillment Systems

Yibang Tang et al.

cs.AI cs.RO

本文提出SOAR，一个基于Deep Reinforcement Learning的统一框架，用于在Robotic Mobile Fulfillment Systems中实时联合优化order allocation和robot scheduling。该方法通过soft order allocations作为观测，并采用Heterogeneous Graph Transformer编码仓库状态，以解决多阶段决策的强耦合问题。

Mechanical Conscience: A Mathematical Framework for Dependability of Machine Intelligenc

Munkhdegerekh Batzorig et al.

cs.AI

本文提出了一种名为mechanical conscience (MC)的数学框架，用于在分布式协作智能系统中实现轨迹级别的规范性调节，通过定义conscience score和mechanical guilt等概念来修正基线策略。该框架证明了最优调节的存在性和单调偏差减少等理论性质，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Correct Is Not Enough: Training Reasoning Planners with Executor-Grounded Rewards

Tianyang Han et al.

cs.AI cs.CL

本文提出TraceLift框架，通过将推理视为可消费的中间产物，并引入基于执行器的奖励（executor-grounded reward）来训练推理规划器（planner），以改善大型语言模型在多步系统中的推理质量。该方法结合了基于rubric的推理奖励模型（Reasoning Reward Model）分数与冻结执行器（frozen executor）的性能提升，旨在生成既高质量又对下游模型有用的推理轨迹。

Quantifying the human visual exposome with vision language models

Christian Rominger et al.

cs.AI cs.CV

本文利用vision language models (VLMs)对日常照片进行语义分析，量化了视觉环境与心理健康（如情绪和压力）的关联，并开发了一个基于large language model (LLM)的自动化流程来挖掘相关环境特征。

EvoLM: Self-Evolving Language Models through Co-Evolved Discriminative Rubrics

Shuyue Stella Li et al.

cs.AI

本文提出了一种名为EVOLM的后训练方法，通过让语言模型自身生成并利用判别性rubrics（评估标准）作为奖励信号，实现无需外部监督的自我改进。该方法交替训练rubric生成器和策略，利用时间对比从模型自身输出构建偏好信号，在RewardBench-2和OLMo3-Adapt套件上取得了优于GPT-4.1等外部监督方法的性能。

QKVShare: Quantized KV-Cache Handoff for Multi-Agent On-Device LLMs

Pratik Honavar, Tejpratap GVSL

cs.AI cs.MA

本文研究了QKVShare框架，用于多智能体边缘设备上LLM的量化KV-cache传递，通过token级混合精度分配和CacheCard表示来减少延迟。实验表明，在GSM8K任务上，该方法相比全精度重预填充能降低TTFT，但后注入生成阶段仍是主要延迟瓶颈。

Contextual Multi-Objective Optimization: Rethinking Objectives in Frontier AI Systems

Jie Zhou, Qin Chen, Liang He

cs.AI

本文提出"contextual multi-objective optimization"框架，将AI系统在开放场景中的失败归因于目标选择问题，并讨论了基于分解目标表示、上下文路由和分层约束的实现路径。该工作主要关注AI系统的目标优化框架，与关键词中的"context"和"agent"有一定关联，但缺乏具体数学方法或开创性技术贡献。

From Intent to Execution: Composing Agentic Workflows with Agent Recommendation

Kishan Athrey et al.

cs.AI

本文提出一个用于自动创建Multi-Agent Systems的框架，包含LLM-derived planner和agent recommender等模块，通过两阶段信息检索系统实现agent推荐。实验表明该方法在recall rate上优于现有技术，并验证了critique agent对系统性能的提升作用。

An Agent-Oriented Pluggable Experience-RAG Skill for Experience-Driven Retrieval Strategy Orchestration

Dutao Zhang, Tian Liao

cs.AI

本文提出了一种面向agent的可插拔Experience-RAG Skill，作为agent与retriever池之间的检索编排层，通过分析场景、查询经验记忆来选择检索策略，在BeIR基准上取得了不错的效果。该方法将检索策略选择封装为可复用的agent技能，而非硬编码在上层工作流中。

SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment

Joseph Breda et al.

cs.AI

本文介绍了SymptomAI，一个用于日常症状评估的对话式AI agent系统，通过在Fitbit应用中的大规模随机对照实验，证明了其在鉴别诊断（DDx）方面优于临床医生，并分析了可穿戴设备数据与急性感染的关联。

Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours

Raja Sekhar Rao Dheekonda, Will Pearce, Nick Landers

cs.AI cs.CR

本文提出了一种基于Dreadnode SDK的AI红队测试agent，通过自然语言接口和统一框架将传统数周的手动工作流压缩至数小时，并在Meta Llama Scout上实现了85%的攻击成功率。该工作主要关注AI安全测试的自动化，与关键词中的agent概念有一定关联。

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Yuwen Du et al.

cs.AI cs.CL

本文提出OpenSeeker-v2，通过扩展知识图谱规模、工具集和低步数过滤等简单数据合成方法，仅用10.6k数据点进行SFT训练，在多个搜索agent基准上达到SOTA性能，超越了使用复杂CPT+SFT+RL流程的模型。

cs.IR

Venkata Krishna Prasanth Budigi, Siri Chandana Sirigiri

cs.IR cs.DB

本文指出生产级RAG系统在数据层存在数据陈旧、租户数据泄露和查询组合爆炸三个根本问题，并提出基于PostgreSQL和pgvector的统一数据层方案，通过基准测试验证了其在延迟和安全性上的改进。

RAG over Thinking Traces Can Improve Reasoning Tasks

Negar Arabzadeh et al.

cs.IR cs.AI cs.CL

本文提出通过检索“思考轨迹”（即问题求解过程中的中间推理步骤）来增强推理任务，而非传统文档。实验表明，该方法在数学和代码生成等推理任务上优于标准RAG，且几乎不增加推理成本。

Revisiting General Map Search via Generative Point-of-Interest Retrieval

Dong Chen et al.

cs.IR

本文针对通用地图搜索中用户查询不明确的问题，提出了GenPOI框架，利用Large Language Models (LLMs)将异构搜索上下文和POI统一为结构化序列，并引入Geo-Semantic POI Tokenization编码语义与地理信息，以生成候选结果。实验在腾讯地图的大规模工业数据集上验证了其有效性。

Aspect-Aware Content-Based Recommendations for Mathematical Research Papers

Ankit Satpute et al.

cs.IR

本文针对数学领域内容推荐问题，提出了AchGNN模型，该模型是一个aspect-conditioned heterogeneous GNN，通过联合建模textual semantics、citation structure和author lineage来改进推荐效果，并构建了GoldRiM和SilverRiM两个数据集。实验表明该方法在数学领域优于现有方法，并能在机器学习领域迁移。

Domain-Adaptive Dense Retrieval for Brazilian Legal Search

Jayr Pereira, Roberto Lotufo, Luiz Bonifacio

cs.IR

本文研究了巴西法律检索中dense retriever的领域自适应问题，比较了仅用法律数据训练与混合训练（法律数据加SQuAD-pt）两种策略，发现混合训练在保持法律任务性能的同时提升了跨检索类型的鲁棒性。

cs.CL

Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems ⭐ 精选

Yilun Zhao et al.

cs.CL cs.IR

本文针对agentic search系统中的reasoning-intensive retrieval问题，提出了BRIGHT-Pro基准和RTriever-Synth合成语料库。通过aspect-decomposed方法生成互补的正样本和正样本条件化的hard negatives，并基于Qwen3-Embedding-4B微调得到RTriever-4B模型。实验表明，aspect-aware和agentic评估协议能揭示标准指标隐藏的行为，且RTriever-4B在性能上显著优于其基础模型，为agent驱动的检索系统提供了新的方法论。

When Should a Language Model Trust Itself? Same-Model Self-Verification as a Conditional Confidence Signal

Aditya Ajay Phalod

cs.CL cs.LG

本文研究了同模型自验证（same-model self-verification）作为选择性预测中的置信度信号，并将其与基于似然的基线方法（LL-AVG和LL-SUM）在ARC-Challenge和TruthfulQA-MC数据集上进行比较。结果表明，自验证的效果高度依赖于任务和模型，并非通用的不确定性估计器，而是一种条件性置信度信号。

Evaluating Reasoning Models for Queries with Presuppositions

Rose Sathyanathan, Kinshuk Vasisht, Danish Pruthi

cs.CL

本文研究了大型推理模型在处理含有预设（presuppositions）的用户查询时的表现，发现尽管推理模型比非推理模型准确率略有提升（2-11%），但仍无法挑战26-42%的错误预设，且易受预设表达强度的影响。

How Language Models Process Negation

Zhejian Zhou et al.

cs.CL

本文研究了LLM处理否定（negation）的机制，发现模型内部存在正确处理的组件，但最终输出常因后期attention层的捷径行为而错误。通过因果分析，作者揭示了模型同时使用抑制（suppression）和构造（construction）两种机制，其中构造机制更为显著。

The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

Venkata Pushpak Teja Menta

cs.CL cs.SD

本文提出了一种TTS<->STT飞轮方法，通过合成实体密集的Indic-English code-mix语音数据来微调Whisper模型，显著提升了在数字串、货币金额等小众领域Indic ASR的Entity-Hit-Rate，但所有beta模型均未达到预注册的EHR目标。

Semantically Enriching Investor Micro-blogs for Opinion-Aware Emotion Analysis: A Practical Approach

Gaurav Negi, Paul Buitelaar

cs.CL

本文针对金融NLP中投资者情绪分析缺乏细粒度目标理解的问题，通过引入语义结构化的opinion graphs（观点图）来增强StockEmotions数据集，并利用declarative LLM pipeline从StockTwits评论中提取观点信息。实验表明，结合Graph Neural Networks (GNNs)引入观点语义可提升不同情感谱系上的分类性能。

MedStruct-S: A Benchmark for Key Discovery, Key-Conditioned QA and Semi-Structured Extraction from OCR Clinical Reports

Yingyun Li, Yu Wang, Haiyang Qian

cs.CL cs.AI cs.LG

本文提出了MedStruct-S基准，用于评估从OCR临床报告中提取半结构化信息的三个任务，并对比了编码器-仅与解码器-仅模型的表现。该工作主要关注实际应用中的模型鲁棒性比较，与关键词列表中的概念关联较弱。

Effective Performance Measurement: Challenges and Opportunities in KPI Extraction from Earnings Calls

Rasmus T. Aavang et al.

cs.CL

本文研究了从财报电话会议中提取KPI的挑战，评估了基于SEC文件训练的模型和上下文学习方法的表现，并提出了一个利用LLMs进行开放式提取的系统。

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Yucheng Du

cs.CL cs.LG

本文研究了LLM隐藏状态的几何偏差能否作为生成前的可靠性信号，发现该信号在数学提示中有效（ROC-AUC 0.78-0.84），但在事实提示中无效，且信号在早期层出现并逐渐衰减。

Sparse Memory Finetuning as a Low-Forgetting Alternative to LoRA and Full Finetuning

Prakhar Gupta et al.

cs.CL cs.LG

本文提出Sparse Memory Finetuning (SMF)方法，通过在预训练模型中添加key-value memory层并仅更新当前batch读取最频繁的少量memory行来缓解灾难性遗忘。实验表明SMF在MedMCQA任务上提升2.5个百分点，同时遗忘指标接近基础模型，但该方法与关键词列表中的概念关联较弱。

S^2tory: Story Spine Distillation for Movie Script Summarization

Mingzhe Lu et al.

cs.CL cs.AI

本文提出了一种基于叙事学的电影剧本摘要框架S^2tory，通过角色发展轨迹识别情节核心并过滤次要事件，在MovieSum数据集上实现了约3.5倍压缩下的最优语义保真度。该方法主要关注自然语言处理中的摘要任务，与关键词中的agent概念有一定关联但契合度有限。

LLM-XTM: Enhancing Cross-Lingual Topic Models with Large Language Models

Minh Chu Xuan et al.

cs.CL

本文提出LLM-XTM框架，利用LLM引导的主题精炼与自一致性不确定性量化，以黑盒方式增强跨语言主题模型的一致性与对齐，减少对双语资源的依赖。

SHIELD: A Diverse Clinical Note Dataset and Distilled Small Language Models for Enterprise-Scale De-identification

Jose D. Posada et al.

cs.CL cs.AI

本文提出了SHIELD数据集，包含1,394份临床笔记和10,505个PHI标注，并通过蒸馏技术将大语言模型的能力迁移至小语言模型，实现了在本地硬件上的高效去标识化。该工作主要关注临床文本去标识化的实际部署问题，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning

Jiaqi Wei et al.

cs.CL

本文提出Side-by-Side (SxS) Interleaved Reasoning方法，通过将推理过程中的公开披露与私有推理交错进行，使标准自回归生成中的披露时机成为可控决策。该方法利用entailment对齐的轨迹进行SFT和RL训练，在Qwen3模型上改善了accuracy-content-latency的Pareto权衡。

From prompting to evidence-based translation: A RAG+prompt system for Japanese-Chinese translation and its pedagogical potential

Wenshi Gu

cs.CL

本文提出了一种结合RAG和Prompt的日汉翻译系统，通过嵌入检索和语言分析增强大语言模型对名词修饰从句结构的翻译能力，实验表明BLEU分数随知识库规模增大而提升。

Geolocating News about Extreme Climate Events: A Comparative Analysis of Off-the-Shelf Tools for Toponym Identification in German

Brielen Madureira, Mariana Madruga de Brito, Andreas Niekler

cs.CL

本文比较了Flair、Spacy和Stanza三种现成的NER工具在德语新闻中识别极端气候事件地名的表现，并评估了它们对下游地理定位任务的影响。

Benchmarking Logistic Regression, SVM, Naive Bayes, and IndoBERT Fine-Tuning for Sentiment Analysis on Indonesian Product Reviews

Nabila Zakiyah Zahra et al.

cs.CL

本文在印尼电商产品评论数据集上，对比了传统机器学习方法（Logistic Regression, SVM, Naive Bayes）与Transformer模型（IndoBERT）在三分类情感分析任务中的表现。实验发现，在特定采样限制下，传统线性SVM模型在准确率和Macro F1-score上均优于IndoBERT，并最终将模型部署为Gradio Web应用。

A Comparison of Traditional Machine Learning Algorithms and LSTM-Based Deep Learning Models for Email Sentiment Analysis

Virdio Samuel Saragih et al.

cs.CL

本文比较了传统机器学习算法（SVM、Logistic Regression、Naive Bayes）与LSTM深度学习模型在邮件情感分析任务上的性能。实验表明，使用Word2Vec嵌入的线性核SVM在准确率上达到98.74%，优于LSTM，且计算效率更高。

Sentiment Analysis of Indonesian Spotify Reviews Using Machine Learning and BiLSTM

Uliano Wilyam Purba et al.

cs.CL

本文使用机器学习（SVM, Multinomial Naive Bayes, Decision Tree）和BiLSTM对印尼Spotify评论进行三分类情感分析，发现BiLSTM在整体F1分数上最优，但对少数类（中性）表现不佳，而结合SMOTE的机器学习方法在类别平衡上更好。该工作属于常规基准测试，未涉及关键词中的核心概念。

An ERP Study of Recursive Possessive Parsing in ASD Children and Its Cognitive Neuro Mechanisms

Fu Chenxi et al.

cs.CL

本文通过ERP实验研究了自闭症谱系障碍(ASD)儿童对递归所有格结构的在线处理，发现ASD儿童在早期感知处理和句法再分析阶段存在显著缺陷，而词汇语义处理相对保留。该研究主要关注神经认知机制，与关键词列表中的概念无直接关联。

Retrieving Floods without Floodlights: Topic Models as Binary Classifiers for Extreme Climate Events in German News

Brielen Madureira, Mariana Madruga de Brito, Andreas Niekler

cs.CL

本文探讨了如何将Topic Models作为二分类器用于从德语新闻中检索极端气候事件相关文本，并与微调文本嵌入分类器和开源LLM进行了比较。该方法利用Topic Models的后验分布选择相关文档，但未涉及code, context, spectral, Muon, pretrain, agent, attention等关键词。

Detecting Stealth Sycophancy in Mental-Health Dialogue with Dynamic Emotional Signature Graphs

Tianze Han et al.

cs.CL cs.AI

本文针对心理健康对话中AI治疗师响应质量的评估问题，提出了一种无需大型语言模型作为最终评判者的评估方法。该方法通过构建动态情感签名图（DESG）来解耦对话窗口的临床状态，并使用非对称临床几何进行评分，在多个基准测试上取得了优于传统方法的性能。

CuraView: A Multi-Agent Framework for Medical Hallucination Detection with GraphRAG-Enhanced Knowledge Verification

Severin Ye et al.

cs.CL cs.AI

CuraView是一个用于医疗场景中幻觉检测的多agent框架，它利用GraphRAG增强的知识图谱来验证出院小结中的事实一致性，并在句子级别进行证据检索与分类。该方法在Discharge-Me基准上取得了优于基线的性能，但与我提供的关键词（如code, spectral, Muon, pretrain, attention等）关联度较低。

Rational Communication Shapes Morphological Composition

Fengyuan Yang et al.

cs.CL

本文在Rational Speech Act框架下，利用历史语料库构建时间索引词汇表，研究了英语复合词和派生词的形成，发现词汇化过程反映了表达性与效率之间的交际权衡。

Revisiting Graph-Tokenizing Large Language Models: A Systematic Evaluation of Graph Token Understanding

Zhongjian Zhang et al.

cs.CL cs.AI cs.LG

本文系统评估了图标记化大语言模型（GTokenLLMs）对图token的理解能力，通过提出GTEval评估框架在格式和内容层面进行指令变换测试。实验表明现有模型对图token理解不充分，存在过度敏感或过度不敏感问题，且严重依赖文本进行推理。

SURE-RAG: Sufficiency and Uncertainty-Aware Evidence Verification for Selective Retrieval-Augmented Generation

Jingxi Qiu, Zeyu Han, Cheng Huang

cs.CL cs.IR cs.LG

本文提出SURE-RAG框架，通过聚合成对claim-evidence验证器的局部关系分布，生成可解释的answer-level信号（如coverage、conflict等），用于选择性RAG中的证据充分性验证。实验表明该方法在HotpotQA-RAG v3上优于基线，但主要聚焦于RAG验证任务，与关键词列表中的code、spectral、Muon、pretrain、agent、attention等概念无直接关联。

PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination

Qiyao Wang et al.

cs.CL cs.AI

本文提出了PatRe，一个用于建模专利审查全流程（包括Office Action生成和申请人答辩）的基准测试，包含480个真实案例。实验揭示了大型语言模型在该任务中的潜力与局限。

AfriVox-v2: A Domain-Verticalized Benchmark for In-the-Wild African Speech Recognition

Busayo Awobade, Gabrial Zencha Ashungafac, Tobi Olatunji

cs.CL cs.SD

AfriVox-v2是一个针对非洲语言在真实噪声环境下语音识别性能的基准测试，它引入了非脚本音频和十个垂直领域的评估。该工作主要关注语音识别领域的基准构建，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）没有直接关联。

BIT.UA-AAUBS at ArchEHR-QA 2026: Evaluating Open-Source and Proprietary LLMs via Prompting in Low-Resource QA

Richard A. A. Jonker et al.

cs.CL

本文介绍了在低资源临床问答任务中，通过多种prompt engineering策略（如Chain-of-Thought和in-context learning）评估开源与商业LLMs的表现，并采用majority voting和LLM-as-a-judge集成方法提升鲁棒性。实验表明，领域适配的开源模型（如MedGemma 3 27B）在合适prompt下可达到与商业模型竞争的性能。

Annotation Quality in Aspect-Based Sentiment Analysis: A Case Study Comparing Experts, Students, Crowdworkers, and Large Language Model

Niklas Donhauser et al.

cs.CL

本文研究了不同标注来源（专家、学生、众包工作者和大语言模型）对德语Aspect-Based Sentiment Analysis (ABSA)数据集质量的影响，通过比较标注者间一致性和下游模型性能来评估标注可靠性。研究为低资源NLP场景下的数据集构建提供了实践指导，但方法本身并非开创性，且与关键词列表中的概念无直接关联。

A Paradigm for Interpreting Metrics and Identifying Critical Errors in Automatic Speech Recognition

Thibault Bañeras-Roux et al.

cs.CL

本文提出了一种将任意metric（如WER和CER）转化为可解释的Minimum Edit Distance (minED)的范式，以桥接自动语音识别中的自动评估与人类感知。该方法通过将metric嵌入到编辑距离框架中，实现了对转录错误严重性的原始分析。

A Comprehensive Analysis of Tokenization and Self-Supervised Learning in End-to-End Automatic Speech Recognition applied on French Language

Thibault Bañeras-Roux et al.

cs.CL

本文针对法语端到端自动语音识别系统，分析了子词tokenization算法和自监督学习模型对系统性能的影响，并使用多种评估指标从语言和声学角度进行了定性研究。

SERE: Structural Example Retrieval for Enhancing LLMs in Event Causality Identification

Zhifeng Hao et al.

cs.CL cs.AI

本文提出SERE框架，通过基于ConceptNet编辑距离、句法树编辑距离和因果模式过滤的结构化示例检索，增强LLM在事件因果关系识别中的少样本学习能力，以减少因果幻觉。实验验证了该方法在多个ECI数据集上的有效性。

SAM-NER: Semantic Archetype Mediation for Zero-Shot Named Entity Recognition

Ruichu Cai et al.

cs.CL cs.AI

本文提出SAM-NER框架，通过引入一个领域不变的语义原型空间（Semantic Archetype Space）来缓解零样本命名实体识别中的语义漂移问题。该方法包含实体发现、抽象中介和语义校准三个阶段，在CrossNER基准上取得了优于现有基线的性能。

Rose-SQL: Role-State Evolution Guided Structured Reasoning for Multi-Turn Text-to-SQL

Le Zhou et al.

cs.CL

本文提出Rose-SQL框架，通过Role-State表示和结构同构检查来追踪多轮对话中的状态演化，从而在无需微调的情况下提升多轮Text-to-SQL任务的性能。实验表明该方法在SParC和CoSQL基准上优于现有方法，但未涉及code、spectral、Muon等关键词相关技术。

Segmenting Human-LLM Co-authored Text via Change Point Detection

Mengchu Li et al.

cs.CL cs.AI stat.ME

本文提出将人类与LLM合著文本的分割任务类比为时间序列中的change point detection问题，并据此开发了加权和广义算法来处理检测分数的异质性。该方法在理论上证明了minimax最优性，实验上优于多种现有基线。

Benchmarking Parameter-Efficient Fine-Tuning of Large Language Models for Low-Resource Tajik Text Generation with the Tajik Web Corpus

Mullosharaf K. Arabov

cs.CL

本文创建了最大的塔吉克语语料库Tajik Web Corpus，并系统比较了多种大语言模型在低资源塔吉克语文本生成任务上的参数高效微调策略，发现Mistral 7B结合QLoRA (r=16)效果最佳，但增加rank带来的提升不显著。

TriBench-Ko: Evaluating LLM Risks in Judicial Workflows

Haesung Lee et al.

cs.CL

本文提出了TriBench-Ko，一个用于评估LLM在韩国司法流程中部署风险的benchmark，涵盖四项核心任务和多种风险类别。实验表明，许多模型在precedent retrieval等任务上存在显著风险。

Natural Language Processing: A Comprehensive Practical Guide from Tokenisation to RLHF

Mullosharaf K. Arabov

cs.CL

本文是一份面向NLP实践的教学指南，涵盖了从tokenisation到RLHF的完整流程，并特别关注低资源语言（如塔吉克语和鞑靼语）的适配。它强调可复现研究和开源模型，但未提出新的理论或方法。

Reproducing Complex Set-Compositional Information Retrieval

Vincent Degenhart et al.

cs.CL

本文复现了QUEST和QUEST+Variants上的检索方法，并引入LIMIT+基准测试，发现神经检索器在复杂集合组合查询上表现不稳定，而经典词法检索在特定场景下更鲁棒。

TRACE: A Metrologically-Grounded Engineering Framework for Trustworthy Agentic AI Systems in Operationally Critical Domains

Serhii Zabolotnii

cs.CL cs.AI cs.HC

TRACE是一个面向关键操作领域可信赖agentic AI的跨领域工程框架，它结合了四层参考架构、基于GUM/VIM/ISO 17025的计量学信任度量套件，以及通过计算简约比(CPR)量化的模型简约原则。该框架在临床决策支持、工业多域操作和司法AI助手三个场景中展示了其架构和度量的可迁移性。

MCJudgeBench: A Benchmark for Constraint-Level Judge Evaluation in Multi-Constraint Instruction Following

Jaeyun Lee et al.

cs.CL cs.AI

本文提出了MCJudgeBench基准，用于评估LLM在多约束指令遵循中的约束级别判断能力，通过引入显式约束列表和扰动测试来检验判断的稳定性。实验发现，LLM判断器的整体性能与约束级别可靠性并不完全一致，且推理增强虽能提升正确性但未必改善稳定性。

CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing

Zhipeng Xu et al.

cs.CL

本文提出了CC-OCR V2基准，用于评估大型多模态模型在真实世界文档处理中的OCR能力，包含7,093个高难度样本和5个主要任务。实验表明现有模型在真实场景中性能显著下降，揭示了当前基准与实用需求之间的差距。

Steer Like the LLM: Activation Steering that Mimics Prompting

Geert Heyman, Frederik Vandeputte

cs.CL cs.AI cs.LG

本文提出Prompt Steering Replacement (PSR)模型，通过从activation中估计token-specific的steering coefficients来模仿prompt-based干预，在多个benchmark上优于现有activation steering方法。该方法与关键词中的attention机制相关，但未涉及code、spectral、Muon、pretrain或agent等核心概念。

Atomic Fact-Checking Increases Clinician Trust in Large Language Model Recommendations for Oncology Decision Support: A Randomized Controlled Trial

Lisa C. Adams et al.

cs.CL cs.AI

本文通过随机对照试验研究了原子事实核查（将AI治疗建议分解为可独立验证的claims并链接到源指南文档）对临床医生信任度的影响，发现该方法相比传统可解释性方法能显著提升信任度（Cohen's d = 0.94）。该研究主要关注临床决策支持中的信任机制，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念无直接关联。

The Counterexample Game: Iterated Conceptual Analysis and Repair in Language Models

Daniel Drucker, Kyle Mahowald

cs.CL cs.AI

本文研究了语言模型在哲学概念分析中的表现，通过迭代生成反例和修复定义的过程，发现模型虽能参与哲学推理但效果有限，定义会变得冗长且准确性不提升。该工作与关键词中的code、context、spectral等无直接关联。

Feature-Augmented Transformers for Robust AI-Text Detection Across Domains and Generators

Mohamed Mady, Johannes Reschke, Björn Schuller

cs.CL cs.AI

本文使用基于Transformer的检测器（如DeBERTa-v3-base+FeatAttn）通过注意力机制融合语言特征，在固定阈值协议下评估AI文本检测的鲁棒性，发现特征增强能提升跨域和跨生成器的迁移性能。

Logical Consistency as a Bridge: Improving LLM Hallucination Detection via Label Constraint Modeling between Responses and Self-Judgments

Hao Mi et al.

cs.CL

本文提出LaaB框架，通过引入"meta-judgment"过程将symbolic labels映射回feature space，利用response和self-judgment之间的logical consistency来检测LLM的hallucination。该方法在多个数据集和模型上验证了有效性，但与我提供的关键词列表关联度较低。

EQUITRIAGE: A Fairness Audit of Gender Bias in LLM-Based Emergency Department Triage

Richard J. Young, Alice M. Matthews

cs.CL cs.CY

本文对五种LLM在急诊分诊中的性别偏见进行了公平性审计，发现所有模型均存在高于阈值的性别翻转率，且不同模型的偏见机制和干预效果各异。研究揭示了群体公平性、反事实不变性和性别校准是三种不同的公平属性。

Safety and accuracy follow different scaling laws in clinical large language models

Sebastian Wind et al.

cs.CL cs.AI cs.LG

本文研究了临床大语言模型在规模扩展下的安全性与准确性关系，发现两者遵循不同的scaling laws。通过引入SaFE-Scale框架和RadSaFE-200基准，实验表明提供干净证据能显著提升准确率并降低高风险错误，而标准RAG和agentic RAG等方法无法复制这一安全特性。

cs.DS

A Poisson Process for Submodular Maximization

Amit Ganz Rozenman et al.

cs.DS

本文提出了一种基于随机Poisson process的新方法，用于解决单调submodular function在matroid约束下的最大化问题，并达到了紧的$(1-\frac{1}{e})$近似保证。该方法避免了传统连续greedy算法所需的离散化和取整步骤，且仅需极少的单元素交换操作。

Dynamic Detours

Daniel Dadush et al.

cs.DS

本文针对动态无向图，设计了支持长路径、长绕路及奇偶路径查询的数据结构，其均摊更新时间与查询时间为$2^{O(k^3)} \log n$或$O(\log^2 n \log^2 \log n)$，主要技术贡献是“延迟边插入”机制。

Provable Accuracy Collapse in Embedding-Based Representations under Dimensionality Mismatch

Dionysis Arvanitakis, Vaggos Chatziafratis, Yiyuan Luo

cs.DS cs.LG

本文研究了基于embedding的表示在维度不匹配时的准确性崩溃问题，证明了当embedding维度远小于真实维度时，准确性会突然下降。作者通过信息论下界和计算复杂性结果，展示了即使在标准对比学习设置中，低维embedding也无法准确保持数据关系。

An Optimal Algorithm for Cardinality-Constrained Diameter Partitioning

Chao Xu, Mingdong Yang

cs.DS

本文研究了基数约束直径划分问题，通过将问题归约到最大生成树上的瓶颈2-着色问题，并利用标准树DP求解，给出了一个$O(n^2)$算法，改进了Avis的$O(n^2\log n)$结果。对于欧几里得权重下的单一基数情形，还给出了任意固定维度下的次二次时间算法。

Counting Small Balanced (p,q)-bicliques in Signed Bipartite Graphs

Mekala Kiran et al.

cs.DS

本文研究了带符号二分图中平衡(p,q)-双团（balanced (p,q)-biclique）的计数问题，提出了两种算法：基于楔的BBWC和基于顶点剪枝的BBVP。实验表明BBVP在真实数据集上比基线算法SBCList++平均快636倍。

Exact and Approximate Algorithms for Polytree Learning

Juha Harviainen, Frank Sommer, Manuel Sorge

cs.DS cs.CC cs.LG

本文研究了Polytree学习问题，提出了一个时间复杂度为$O((2+\epsilon)^n)$的精确算法，并给出了多项式时间的近似算法，其近似比与in-degree bound相关。这些结果改进了已知的$O(3^n)$算法，并补充了相应的下界。

The Parameterized Complexity of Scheduling with Precedence Delays: Shuffle Product and Directed Bandwidth

Hans L. Bodlaender, Maher Mallem

cs.DS cs.CC

本文研究了带有优先约束的调度问题的参数复杂性，特别是涉及延迟值的单机调度场景，并证明了Shuffle Product和Directed Bandwidth问题的XNLP-完全性。这些结果与调度问题的参数化复杂性有关，但与我提供的关键词列表关联度较低。

On Computing Total Variation Distance Between Mixtures of Product Distributions

Weiming Feng et al.

cs.DS cs.LG math.PR

本文研究了计算两个离散域上乘积分布混合体之间total variation distance的近似问题，给出了一个随机算法，其运行时间为$\mathrm{poly}((nq)^{k_1+k_2},1/\varepsilon)$。对于布尔子立方体混合体的特例，还给出了一个精确计算的确定性算法并证明了其计算复杂性。

Parallel Reachability and Shortest Paths on Non-sparse Digraphs: Near-linear Work and Sub-square-root Depth

Vikrant Ashvinkumar et al.

cs.DS

本文针对有向图上的单源可达性和最短路径问题，提出了并行算法，在边数$m\ge n^{1+o(1)}$时实现了近线性$\tilde{O}(m)$工作量和$o(\sqrt{n})$深度，改进了此前近线性工作算法需$\Omega(\sqrt{n})$深度的结果。

Optimal Hardness of Online Algorithms for Large Common Induced Subgraphs

David Gamarnik, Miklós Z. Rácz, Gabe Schoenbach

cs.DS cs.CC cs.DM math.CO math.PR

本文研究了两个独立Erdős-Rényi随机图$G_1, G_2 \sim \mathbb{G}(n,1/2)$中寻找大公共诱导子图问题的在线算法最优硬度。通过证明该问题的解空间具有(multi) overlap gap property (OGP)，并利用插值论证，文章表明任何在线算法找到大小至少为$(2+\varepsilon) \log_2 n$的公共诱导子图的概率随$n$增大而趋于0。

An $\widetilde{O} (n^{3/7})$ Round Parallel Algorithm for Matroid Bases

Sanjeev Khanna, Aaron Putterman, Junkai Song

cs.DS cs.CC

本文提出了一种新的并行算法，在independence oracle模型下，将寻找$n$元素matroid basis的adaptive round复杂度从$\widetilde O(n^{7/15})$改进至$\widetilde O(n^{3/7})$，通过分析随机circuit中多元素依赖的传播来突破此前近四十年的进展。

others

Decompose to Understand, Fuse to Detect: Frequency-Decoupled Anomaly Detection for Encrypted Network Traffic ⭐ 精选

Xinglin Lian et al.

cs.CR cs.AI

本文首次识别了加密网络流量异常检测中图像方法的“全频率”特性与“频谱不匹配”问题，即主流重建方法偏向学习低频信息而忽略高频成分。为此，作者提出FreeUp框架，将流量数据分解为低频和高频带，通过独立分支与定制训练策略进行频率特定学习，并引入基于不确定性的融合评分机制动态整合分支输出。该方法在多个基准上超越现有基线，为加密流量分析提供了开创性的频率解耦范式。

Pact: A Choreographic Language for Agentic Ecosystems ⭐ 精选

Kiran Gopinathan et al.

cs.PL cs.AI cs.DC

本文提出了一种名为Pact的choreographic programming语言，用于描述多智能体生态系统中具有自利行为的协议。Pact通过引入game theory中的概念（如agent choices和preferences），将每个协议映射为一个formal game，从而允许协议设计者推理协议的game-theoretic properties（如求解decision policies）。该工作为agentic systems中的协议设计提供了正确性保障，与关键词“agent”高度契合。

When Agents Handle Secrets: A Survey of Confidential Computing for Agentic AI ⭐ 精选

Javad Forough, Marios Kogias, Hamed Haddadi

cs.CR cs.AI

本文系统性地综述了机密计算(Confidential Computing)在Agentic AI系统中的应用，针对LLM驱动的agent在感知、规划、记忆、行动和协调层面临的新型威胁面（如prompt注入、上下文窃取和凭证盗窃），提出了一个统一的agent-centric威胁模型。文章对六种TEE平台（Intel SGX/TDX, AMD SEV-SNP, ARM TrustZone/CCA, NVIDIA H100 CC）进行了分类学分析，并指出了从单次模型推理迁移到agentic设计所需的新安全方案。该工作为构建基于硬件信任根的端到端安全框架提供了关键设计空间分析，与关键词"agent"高度契合。

MAGE: Safeguarding LLM Agents against Long-Horizon Threats via Shadow Memory ⭐ 精选

Yuhui Wang et al.

cs.CR cs.AI cs.CL

本文提出MAGE (Memory As Guardrail Enforcement)框架，用于防御针对LLM agent的long-horizon threats（利用多轮交互实现恶意目标的攻击）。受系统安全中"shadow stack"抽象启发，MAGE维护一个专用的安全导向agentic memory，在agent完整执行轨迹中提取并保留安全关键上下文，利用该shadow memory在动作执行前主动评估其风险。实验表明，MAGE在检测精度、早期检测能力上显著优于现有防御，且对agent效用影响极小，是首个利用agentic memory方法检测和缓解long-horizon threats的框架，与关键词"agent"和"context"高度契合。

MEMSAD: Gradient-Coupled Anomaly Detection for Memory Poisoning in Retrieval-Augmented Agents ⭐ 精选

Ishrith Gowda

cs.CR cs.AI cs.LG

本文形式化了针对retrieval-augmented agents的memory poisoning攻击，将其建模为Stackelberg game，并提出MEMSAD (Semantic Anomaly Detection)防御方法。该方法基于gradient coupling theorem，证明anomaly score gradient与retrieval objective gradient在encoder regularity条件下等价，从而任何降低检测风险的连续扰动必然损害retrieval rank，并给出certified detection radius。通过Le Cam's method证明minimax optimality，并揭示了discrete synonym-invariance loophole作为连续空间防御的边界。实验表明，MEMSAD在多种攻击下达到TPR=1.00、FPR=0.00，与关键词“agent”高度契合。

Same Voice, Different Lab: On the Homogenization of Frontier LLM Personalities

Avinash Krishna, Kalyana Chadalavada, Unso Eun Seo Jo

cs.HC cs.AI

本文通过大规模实验发现，不同前沿LLM在144个ELO-based traits上表现出系统性的趋同，抑制了如remorseful和sycophantic等特质，仅在poetic或playful等中间分布特质上存在差异，暗示了最优助手行为的隐性标准。

Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses

Xiao Li et al.

cs.CR cs.AI cs.CV cs.RO

本文综述了具身人工智能（Embodied AI）在感知、认知、规划与交互全流程中的安全风险、攻击与防御方法，构建了一个多层级分类体系，并指出了多模态感知融合脆弱性、规划稳定性等关键挑战。

From Passive Feeds to Guided Discovery: AI-Initiated Interaction for Vague Intent in Content Exploration

Yu Xie, Ying Qi

cs.HC cs.AI

本文提出了一种名为Red-Rec的AI交互界面，用于解决用户在内容浏览中因“模糊意图”（vague intent）而感觉推荐内容重复的问题。该系统通过主动总结当前feed的模式并提供可点击的探索选项，帮助用户以低交互成本发现新内容，实验表明其相比用户发起的聊天界面能带来更广泛的探索和更高的意外发现评分。

A User-Centric Analysis of Explainability in AI-Based Medical Image Diagnosis

Julia Wagner, Tim Schlippe

cs.HC cs.AI cs.CV

本文通过用户调研分析了基于AI的医学图像诊断中不同可解释性方法（如文本、视觉和多模态XAI）的效果，发现结合边界框和报告的方法在可理解性、完整性等方面表现最佳，但50%的参与者仍会信任错误的AI诊断。该研究主要关注用户视角的评估，而非提出新的数学或算法方法。

Memorization In Stable Diffusion Is Unexpectedly Driven by CLIP Embeddings

Bumjun Kim, Albert No

cs.CV cs.AI cs.LG

本文研究了Stable Diffusion中CLIP embeddings对记忆化的影响，发现 token的embedding因结构复制而意外驱动了记忆化，并提出了两种推理时缓解策略。

Reasoning-Guided Grounding: Elevating Video Anomaly Detection through Multimodal Large Language Models

Sakshi Agarwal, Aishik Konwer, Ankit Parag Shah

cs.CV cs.AI cs.LG

本文提出VANGUARD框架，通过多模态大语言模型统一视频异常检测中的分类、空间定位与链式推理，采用三阶段课程训练和教师-学生标注流程提升性能。该方法在UCF-Crime等基准上取得较好结果，但与我提供的关键词（如code, spectral, Muon等）关联度较低。

Where to Bind Matters: Hebbian Fast Weights in Vision Transformers for Few-Shot Character Recognition

Gavin Money et al.

cs.NE cs.CV cs.LG

本文在Omniglot小样本字符识别任务中，将Hebbian Fast-Weight (HFW)模块集成到多种Vision Transformer (ViT, DeiT, Swin)中，并提出了针对Swin-Tiny的单模块放置策略。实验表明该策略在5-way 1-shot和5-shot任务上取得了最高准确率，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

EvoJail: Evolutionary Diverse Jailbreak Prompt Generation for Large Language Models

Rui Tang et al.

cs.NE cs.AI cs.LG

本文提出EvoJail框架，将jailbreak prompt生成形式化为多目标黑箱优化问题，利用进化算法生成能适应不同模型版本且具有多样性的攻击prompt。该方法通过指令融合和多样性感知目标提升攻击成功率与多样性，但与我提供的关键词列表关联度较低。

Generalization Bounds of Spiking Neural Networks via Rademacher Complexity

Shao-Qun Zhang, Zhi-Hua Zhou

cs.NE cs.AI

本文通过Rademacher complexity理论研究了Spiking Neural Networks (SNNs)的泛化界，发现经验Rademacher complexity与网络深度和最大时间跨度呈指数关系，与网络宽度呈超线性次二次关系，与参数范数呈多项式关系，与训练样本数呈反线性关系，且独立于脉冲神经元内部计算。该结果比传统研究提供了更精确的泛化界估计。

Keyword spotting using convolutional neural network for speech recognition in Hindi

Saru Bharti, Pushparaj Mani Pathak

cs.SD cs.AI

本文使用Convolutional Neural Network (CNN)对Hindi语音中的关键词进行识别，通过将音频转换为Mel Frequency Cepstral Coefficients (MFCCs)作为输入，在40,000个样本的数据集上达到了91.79%的准确率。

Analysis and Explainability of LLMs Via Evolutionary Methods

Shannon K. Gallagher et al.

cs.NE cs.LG stat.ML

本文尝试将进化方法（如genotype-phenotype类比）应用于分析LLMs之间的关系，通过构建进化树来揭示模型谱系和训练数据的重要性。该方法在受控实验中能恢复训练树拓扑，但整体创新性和与关键词的契合度有限。

A Universal Space of Brain Dynamics for Unveiling Cognitive Transitions and Individual Differences

Ronghua Zheng, Chengyuan Qian, Weiyang Ding

q-bio.QM cs.AI

本文提出Universal Brain Dynamics (UBD)框架，通过整合空间与时间属性构建大脑活动的通用表示空间，并利用Jacobian矩阵量化动力学。该方法在fMRI数据上实现了高精度预测，并用于分析认知转换与个体差异的神经机制。

EFGPP: Exploratory framework for genotype-phenotype prediction

Muhammad Muneeb, David B. Ascher

q-bio.GN cs.LG

EFGPP是一个用于基因型-表型预测的探索性框架，它通过整合多种遗传和临床数据源（如基因型特征、主成分、多基因风险评分等）来预测复杂人类性状。在偏头痛预测任务中，该框架展示了多数据源组合优于单一数据源的效果，但整体性能提升有限。

Tracing the Dynamics of Refusal: Exploiting Latent Refusal Trajectories for Robust Jailbreak Detection

Xulin Hu et al.

cs.CR cs.AI cs.CL cs.LG

本文通过Causal Tracing揭示了大型语言模型中拒绝机制（refusal）的动态和稀疏特性，并提出SALO（Sparse Activation Localization Operator）作为推理时检测器，以捕获被对抗攻击抑制的潜在拒绝轨迹，从而将强制解码攻击的检测率从约0%提升至超过90%。

PHBench: A Benchmark for Predicting Startup Series A Funding from Product Hunt Launch Signals

Yagiz Ihlamur, Ben Griffin, Rick Chen

q-fin.PR cs.LG

本文构建了PHBench基准数据集，用于从Product Hunt的发布信号预测创业公司的Series A融资结果，并评估了集成模型与零样本LLM在该任务上的表现。该工作主要贡献在于提供了一个可复现的预测框架和基准，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

Ruofeng Yang, Yongcan Li, Shuai Li

cs.SE cs.AI

本文介绍了ARIS，一个用于自主机器学习的开源研究框架，通过跨模型对抗协作（executor与reviewer）来协调研究流程，并包含执行、编排和保证三个架构层。

Learning to Segment using Summary Statistics and Weak Supervision

Omkar Kulkarni, Edward Raff, Tim Oates

cs.CV cs.LG

本文提出了一种利用summary statistics（如区域面积）和弱监督信号（少量前景像素）训练图像分割模型的方法，通过设计包含重建质量、统计量匹配和弱监督重叠项的新型损失函数，在医学图像数据上验证了其有效性。该方法主要针对医学图像标注数据稀缺的场景，但未涉及关键词中的核心概念。

Dynamic Vine Copulas: Detecting and Quantifying Time-Varying Higher-Order Interactions

Houman Safaai, Alessandro Marin Vargas

stat.ML cs.LG q-bio.QM stat.ME

本文提出Dynamic Vine Copulas (DVC)框架，用于检测和量化时间序列中时变的高阶非高斯依赖结构。该方法通过固定vine分解并引入平滑参数轨迹或正则化族切换路径来建模pair copula状态的时变，其核心诊断指标通过对比完整vine与截断vine的留出分数，分离出条件依赖证据。

Distributed Deep Variational Approach for Privacy-preserving Data Release

Zahir Alsulaimawi, Huaping Liu

cs.CR cs.LG

本文提出Gaussian Privacy Protector (GPP)框架，通过变分下界约束发布表示与敏感属性间的互信息，并利用Lagrange multiplier $\beta$平衡隐私与效用，在联邦学习场景下实现实例级隐私保护。实验表明该方法在多个数据集上能有效降低攻击者AUC至接近随机猜测水平。

Refining Compositional Diffusion for Reliable Long-Horizon Planning

Kyowoon Lee et al.

cs.RO cs.AI cs.LG

本文提出了一种无需训练的引导方法RCD，通过利用预训练diffusion model的自重构误差作为组合计划log-density的代理，并结合重叠一致性项来缓解组合扩散规划中的模式平均问题，从而生成高密度且全局一致的长期轨迹。该方法在OGBench的长期任务中表现优于现有方法，但与我提供的关键词列表契合度较低。

Phoneme-Level Deepfake Detection Across Emotional Conditions Using Self-Supervised Embeddings

Vamshi Nallaguntla, Shruti Kshirsagar, Anderson R. Avila

cs.SD cs.LG eess.AS

本文使用WavLM-based embeddings和phoneme-aligned TextGrids，在情感匹配条件下分析了真实语音与EVC生成语音的phoneme-level差异，发现复杂元音和摩擦音具有更高divergence，为情感操纵语音检测提供了可解释的phoneme-level方法。

From Barrier to Bridge: The Case for AI Data Center/Power Grid Co-Design

Noman Bashir et al.

cs.DC cs.AI eess.SY

本文讨论了AI数据中心与电网协同设计的必要性，指出AI训练数据中心的巨大且波动性强的电力需求打破了传统电网的负荷多样性假设，并提出了联合容量规划、多时间尺度控制等研究方向。

Benchmarking Local Language Models for Social Robots using Edge Devices

Dorian Lamouille et al.

cs.RO cs.CL

本文在Raspberry Pi等边缘设备上对25个开源语言模型进行了系统基准测试，评估了推理效率、通用知识和教学效果三个维度，发现模型间存在显著权衡且教学效果与MMLU准确率无单调相关性。该工作为社交机器人本地部署提供了实用参考，但方法本身不具开创性且与关键词列表关联较弱。

ARISE: A Repository-level Graph Representation and Toolset for Agentic Fault Localization and Program Repair

Shahd Seddik, Fatemeh Fard

cs.SE cs.AI

本文提出ARISE，通过构建多粒度程序图（包含语句级节点和过程内定义-使用边）并设计三层工具API，增强基于LLM的agent在仓库级故障定位和程序修复中的能力。实验表明该方法在SWE-bench Lite上提升了定位和修复性能。

PIIGuard: Mitigating PII Harvesting under Adversarial Sanitization

Mingshuo Liu, Yiwei Zha, Min Chen

cs.CR cs.AI cs.CL

本文提出PIIGuard，一种在网页层面通过嵌入优化的隐藏HTML片段来防御LLM助手从公开页面抓取个人身份信息(PII)的方法。该方法利用规则驱动的泄漏评分、进化变异和基于评判者的可恢复性评估来优化防御片段，在直接HTML评估中达到97%以上的防御成功率。

From Knowledge to Action: Outcomes of the 2025 Large Language Model (LLM) Hackathon for Applications in Materials Science and Chemistry

Aritra Roy et al.

cond-mat.mtrl-sci cs.AI

本文总结了2025年LLM黑客马拉松中在材料科学和化学领域的应用成果，分析了从单一用途LLM工具向集成化、多智能体工作流的转变，并提出了知识基础设施和行动系统两类应用分类。

Human-Provenance Verification should be Treated as Labor Infrastructure in AI-Saturated Markets

Erin McGurk, David Khachaturov

cs.CY cs.AI econ.GN

本文探讨AI饱和市场中人类来源验证的经济价值，认为其应被视为劳动基础设施而非奢侈品标签，并提出了“构成性人类存在”标准来评估人机混合工作。

MenuNet: A Strategy-Proof Mechanism for Matching Markets

Zhaohong Sun, Makoto Yokoo

cs.GT cs.AI

本文提出了一种基于神经网络的策略证明机制MenuNet，通过生成个性化概率菜单来解决匹配市场中稳定匹配不存在时的分配问题，并优化了公平性与非浪费性之间的权衡。

Conformalized Percentile Interval: Finite Sample Validity and Improved Conditional Performance

Ran Zou, Wanrong Zhu, Bin Nan

stat.ML cs.LG

本文提出了一种基于conformal prediction的校准方法，通过概率积分变换（PIT）和神经网络估计的条件CDF来构建有限样本调整的百分位区间，并证明了其有限样本边际覆盖性质。该方法在PIT空间中进行校准以改善条件校准性能，并在实验中展示了比现有方法更短的区间长度。

TeamUp: Semantic Project Matching and Team Formation for Learning at Scale

Dhruv Gulwani et al.

cs.SE cs.CL

本文提出了TeamUp系统，利用预训练语言模型的semantic embedding将学生与项目匹配，并通过embedding variance构建认知多样化的团队。实验表明该方法在匹配质量和团队多样性上优于传统方法。

OptiLookUp: An Optical ROM-Based Loop up Table Engine for Photonic Accelerators

Ankur Singh, Akhilesh Jaiswal

physics.optics cs.AI

本文提出了一种基于光学ROM的查找表引擎OptiLookUp，利用微环谐振器实现预定义映射的确定性光学存储，并通过晶体管选择器实现可重构性。该设计在硅光平台上验证了12.5GHz的数据速率，可用于光子加速器中的非线性激活函数实现。

Can AI Help You Get Over Your Breakup? One Session with a Belief-Reframing Chatbot Shows Sustained Distress Reduction

Thomas Menzel, Michel Schimpf, Thomas Bohné

cs.HC cs.AI

本文评估了一个名为*overit*的单次AI聊天机器人，基于认知重评和记忆再巩固理论，旨在减轻分手痛苦。通过随机对照试验发现，该聊天机器人在7天后显著降低了参与者的分手痛苦，且效果在1个月后仍有部分保留。

Intrinsic effective sample size for manifold-valued Markov chain Monte Carlo via kernel discrepancy

Kisung You

stat.ML cs.LG math.ST stat.CO stat.ME

本文针对流形值Markov chain Monte Carlo输出，提出了一种基于kernel discrepancy的内在有效样本量度量，该度量具有坐标无关性，并建立了其有限样本风险解释和渐近性质。

Partial Effective Information Decomposition for Synergistic Causality

Mingzhe Yang, Shuo Wang, Jiang Zhang

stat.ML cs.LG physics.data-an physics.soc-ph

本文提出Partial Effective Information Decomposition (PEID)框架，用于在最大熵干预下将多源变量对目标变量的影响分解为独特信息和协同信息，从而表征协同因果关系。该框架在理论上与Partial Information Decomposition (PID)的主要公理兼容，并可用于定义包含超边的因果图。

RLDX-1 Technical Report

Dongyoung Kim et al.

cs.RO cs.AI cs.LG

本文介绍了RLDX-1，一个基于Multi-Stream Action Transformer (MSAT)架构的通用灵巧操作机器人策略，通过整合异构模态来增强视觉-语言-动作模型的功能能力。实验表明，RLDX-1在仿真和真实任务中优于现有前沿模型，特别是在高自由度人形机器人任务中取得了显著更高的成功率。

Copula-Based Endogeneity Correction for Doubly Robust Estimation of Treatment Effect

Sahil Shikalgar, Md. Noor-E-Alam

stat.ME cs.AI

本文提出了一种基于Copula的双重稳健估计方法，用于处理治疗效果估计中由未观测混杂导致的endogeneity问题。该方法通过Gaussian copula对endogenous covariates与误差项的联合分布建模，无需instrumental variables即可实现一致估计，并在模拟和NHANES数据中验证了其有效性。

Donor-Aware scRNA-seq Benchmarks for IBD Classification

Jonathan Muhire

q-bio.QM cs.LG stat.ML

本文评估了在单细胞RNA测序数据中进行供体层面疾病分类的几种特征表示方法，包括CLR变换的细胞类型组成、GatedStructuralCFN依赖嵌入和scVI变分自编码器潜在嵌入。研究发现，在克罗恩病结肠区域，CFN方法在分类性能上优于线性模型，但统计显著性未达到。

On the Spectral Structure and Objective Equivalence of Orthogonal Multilabel Fisher Discriminants

Brian Keith-Norambuena, Juan Bekios-Calfa

stat.ML cs.AI cs.LG

本文对多标签Fisher判别分析（Multilabel Fisher Discriminants）在Stiefel正交约束下的谱结构和目标等价性进行了统一的理论分析，刻画了有效判别维度的上界并证明了四种Fisher目标在特定约束下的等价性。文章还给出了子空间估计误差的有限样本界和极小化最优下界，但主要贡献集中在理论推导和合成数据验证上，与关键词中的code, context, spectral, Muon, pretrain, agent, attention关联较弱。

Imbalanced Classification under Capacity Constraints

Daniel Fraiman, Ricardo Fraiman

stat.ML cs.LG math.ST

本文针对分类问题中少数类样本稀缺且后续分析受容量限制的场景，提出了一种通过显式控制正类预测比例来优化检测性能的框架，并展示了该方法在离线与在线设置下均优于SMOTE等传统重采样技术。

Contrastive Regularization for Accent-Robust ASR

Van-Phat Thai et al.

cs.SD cs.LG

本文研究了监督对比学习（SupCon）作为CTC微调中的轻量级辅助目标，用于提升ASR系统对口音变化的鲁棒性。实验表明该方法能有效降低词错误率，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Cryptographic Registry Provenance: Structural Defense Against Dependency Confusion in AI Package Ecosystems

Alan L. McCann

cs.CR cs.AI cs.SE

本文提出了一种针对AI包生态系统中依赖混淆攻击的密码学注册表溯源防御系统，通过Ed25519密钥对签名和双签名模型实现分发验证。该系统在八个现有生态系统中均未完全实现，并扩展至AI生成溯源和运行时治理架构。

Coordination as an Architectural Layer for LLM-Based Multi-Agent Systems

Maksym Nechepurenko, Pavel Shuvalov

cs.MA cs.LG q-fin.TR

本文提出将协调视为LLM多智能体系统中一个可配置的架构层，并通过预测市场实验验证了不同协调配置在Brier score的Murphy分解下会留下可区分的特征签名，但实验规模有限且未提出通用性结论。

AHPA: Adaptive Hierarchical Prior Alignment for Diffusion Transformers

Ruibin Min et al.

cs.CV cs.AI

本文提出了一种名为AHPA的自适应分层先验对齐方法，用于加速Diffusion Transformer的训练。该方法利用冻结的VAE编码器中的多级特征，并通过一个时间步条件动态路由器自适应地选择这些先验，以解决固定对齐粒度在去噪过程中与信噪比变化不匹配的问题。实验表明该方法能提升收敛速度和生成质量，且不增加推理成本。

Visibility Queries in Simple Polygons

Sujoy Bhore et al.

cs.CG cs.DS

本文针对简单多边形中的可见性查询问题，提出了一种新的数据结构，通过一种可能具有独立兴趣的多边形分解方法，在空间复杂度与查询时间之间取得了多种权衡，例如在$O(n^{2+\epsilon})$空间下实现$O(\log n + k)$查询时间。

FreeTimeGS++: Secrets of Dynamic Gaussian Splatting and Their Principles

Lucas Yunkyu Lee et al.

cs.CV cs.AI

本文对4D Gaussian Splatting (4DGS)框架进行了系统分析，揭示了由Gaussian持续时间驱动的时态分区等关键因素，并提出了FreeTimeGS++方法，通过门控边缘化和神经速度场提升了动态场景重建的稳定性。

VLMaxxing through FrameMogging Training-Free Anti-Recomputation for Video Vision-Language Models

JF Bastien, Sam D'Amico

cs.CV cs.AI

本文提出了一种针对Video Vision-Language Models (VLMs)的训练无关的anti-recomputation方法，通过复用稳定的视觉状态来减少计算浪费，并在Qwen2.5-VL-7B等模型上实现了显著的延迟降低。该方法主要关注视频帧的重复计算问题，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Can Multimodal Large Language Models Understand Pathologic Movements? A Pilot Study on Seizure Semiology

Lina Zhang et al.

cs.CV cs.AI

本文探索了多模态大语言模型(MLLMs)在识别癫痫发作视频中病理运动的应用，通过零样本测试评估其在20个ILAE定义的半学特征上的表现，并与CNN和ViT基线模型对比。结果表明MLLMs在多数特征上表现更优，但对细微高频运动识别困难，且特征增强预处理可提升部分性能。

SkCC: Portable and Secure Skill Compilation for Cross-Framework LLM Agents

Yipeng Ouyang et al.

cs.CR cs.AI

本文提出SkCC框架，将经典编译器设计引入LLM-Agent技能开发，通过强类型中间表示SkIR解耦技能语义与平台格式，并利用编译时分析器实现安全约束。该方法将适配复杂度从$O(m \times n)$降至$O(m + n)$，在多个平台上提升了任务通过率并降低了延迟。

A-CODE: Fully Atomic Protein Co-Design with Unified Multimodal Diffusion

Chaoran Cheng et al.

q-bio.QM cs.LG

本文提出A-CODE，一个全原子统一的一阶段蛋白质共设计模型，在统一的多模态diffusion框架中同时优化离散原子类型和连续原子坐标。该方法在无条件蛋白质生成和binder设计任务上优于现有模型，并首次实现了对非规范氨基酸(ncAA)建模的无缝适应。

On Solving Problems of Substantially Super-linear Complexity in $N^{o(1)}$ Rounds in the MPC Model

Andrzej Lingas

cs.DC cs.CC cs.DS

本文研究了在MPC模型中，对于具有超线性多项式时间复杂性的问题，能否设计出$N^{o(1)}$轮协议的问题。结果表明，若机器数量不超过输入规模$N$且本地内存不够大，则每轮本地计算的平均时间复杂度的指数必须大于原问题的时间复杂度指数。

Enhancing Self-Supervised Talking Head Forgery Detection via a Training-Free Dual-System Framework

Ke Liu et al.

cs.CV cs.AI cs.MM

本文提出一种无需训练的TFDS框架，通过双系统推理（System-1的阈值路由与System-2的证据引导排序）来提升现有基于分数的自监督说话人换脸伪造检测器的判别能力，实验表明该方法能改善困难样本的异常排序。

A Fast Model Counting Algorithm for Two-Variable Logic with Counting and Modulo Counting Quantifiers

Shixin Sun et al.

cs.LO cs.AI

本文提出了一种名为IncrementalWFOMC3的算法，用于解决带计数量词和模计数量词的二变量逻辑（$\mathbf{C}^2$和$\mathbf{C}^2_{\text{mod}}$）中的加权一阶模型计数问题。该算法通过直接处理Scott范式，避免了传统方法中消除计数量词的多阶段归约，从而在理论上降低了数据复杂度，并证明了$\mathbf{C}^2_{\text{mod}}$的域可提升性。

Adaptive Estimation and Optimal Control in Offline Contextual MDPs without Stationarity

Riddhiman Bhattacharyya, Sayak Chakrabarty, Imon Banerjee

stat.ML cs.LG

本文针对离线contextual MDPs中的自适应估计与最优控制问题，提出了一种基于$T$-estimation的新估计方法，并给出了oracle risk bounds和有限样本保证。该方法克服了非平稳性和模型不规则性等内生性挑战。

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

Jaavid Aktar Husain, Dorien Herremans

cs.SD cs.AI cs.LG cs.MM

本文提出了APEX，一个用于AI生成音乐的大规模多任务学习框架，通过MERT模型提取的音频嵌入联合预测流行度信号和审美质量维度。该工作主要关注音乐流行度预测，与关键词列表中的概念关联较弱。

GRPO-TTA: Test-Time Visual Tuning for Vision-Language Models via GRPO-Driven Reinforcement Learning

Yujun Li, Hongyuan Zhang, Yuan Yuan

cs.CV cs.LG

本文提出GRPO-TTA方法，将Group Relative Policy Optimization (GRPO)应用于视觉语言模型的test-time adaptation (TTA)场景，通过将类别特定prompt预测重构为group-wise policy optimization问题，并设计alignment rewards和dispersion rewards来指导visual encoder tuning。实验表明该方法在多种benchmark上优于现有TTA方法。

TsallisPGD: Adaptive Gradient Weighting for Adversarial Attacks on Semantic Segmentation

Alexander Matyasko et al.

cs.CV cs.LG

本文提出TsallisPGD攻击方法，通过引入Tsallis cross-entropy（一种由参数$q$控制的交叉熵推广）来调整语义分割对抗攻击中的梯度权重，以解决标准交叉熵过度关注已误分类像素的问题。实验表明该方法在多个数据集上优于现有攻击方法，但未涉及关键词列表中的相关概念。

Smart Passive Acoustic Monitoring: Embedding a Classifier on AudioMoth Microcontroller

Louis Lerbourg et al.

cs.SD cs.AI

本文提出了一种在AudioMoth微控制器上嵌入1D-CNN分类器的智能被动声学监测系统，用于实时分析声景并检测Scopoli Shearwater海鸟的叫声。该方法通过模型优化实现了约10kB RAM和20ms推理时间，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Deepfake Audio Detection Using Self-supervised Fusion Representations

Khalid Zaman et al.

cs.SD cs.AI

本文提出了一种用于环境感知语音和声音深度伪造检测的双分支框架，利用XLS-R和BEATs预训练模型分别提取语音和环境声的contextual representations，并通过Matching Head和multi-head cross-attention进行信息交互与分类。该方法在CompSpoofV2数据集上取得了优于基线的性能。

StreakMind: AI detection and analysis of satellite streaks in astronomical images with automated database integration

Rafael Carrillo Navarro et al.

astro-ph.IM cs.LG

本文提出了StreakMind，一个用于自动检测天文图像中卫星和近地天体条纹的pipeline，它结合了YOLO OBB模型、几何精化与数据库集成，在测试集上达到了94%的精度和97%的召回率。该方法主要服务于空间态势感知，但与关键词列表中的概念无直接关联。

Learning Discriminative Signed Distance Functions from Multi-scale Level-of-detail Features for 3D Anomaly Detection

Haibo Xiao et al.

cs.CV cs.LG

本文提出了一种基于表面的3D异常检测方法，通过多尺度细节特征学习判别性signed distance function。该方法包含Noisy Points Generation模块和Multi-scale Level-of-detail Feature模块，以增强对异常点的区分能力，并在Anomaly-ShapeNet和Real3D-AD数据集上取得了优于现有方法的性能。

Exposing LLM Safety Gaps Through Mathematical Encoding:New Attacks and Systematic Analysis

Haoyu Zhang, Mohammad Zandsalimy, Shanu Sushmita

cs.CR cs.AI cs.CL cs.LG

本文发现将有害prompt编码为数学问题（如set theory, formal logic）可以绕过LLM的安全过滤，攻击成功率达46%-56%，且这种漏洞在多种数学形式下普遍存在，但新模型（如GPT-5）的鲁棒性更强。该工作揭示了当前安全框架在数学结构推理方面的缺陷。

FINER-SQL: Boosting Small Language Models for Text-to-SQL

Thanh Dat Hoang et al.

cs.DB cs.AI cs.CL cs.HC cs.MA

本文提出FINER-SQL框架，通过细粒度执行反馈（memory reward和atomic reward）增强小语言模型在Text-to-SQL任务中的表现，替代传统稀疏二元奖励，实现稳定训练并提升执行准确率。该方法在BIRD和Spider基准上达到与大型语言模型相当的性能，同时显著降低推理延迟。

MHPR: Multidimensional Human Perception and Reasoning Benchmark for Large Vision-Languate Models

Kangkang Wang et al.

cs.CV cs.AI

本文提出了MHPR基准，用于评估大型视觉语言模型在多维度人类感知与推理任务上的表现，包含多级数据设计和自动化标注流程。实验表明，格式对齐的SFT数据和挑战导向的RL数据能有效提升模型性能。

BFORE: Butterfly-Firefly Optimized Retinex Enhancement for Low-Light Image Quality Improvement

Ahmed Cherif

cs.CV cs.AI

本文提出BFORE框架，使用Butterfly Optimization Algorithm和Firefly Algorithm混合优化Retinex-based图像增强方法的参数，在低光照图像上提升了PSNR和SSIM指标。该方法不涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Brainrot: Deskilling and Addiction are Overlooked AI Risks

Ilias Chalkidis, Anders Søgaard

cs.CY cs.AI

本文指出当前AI安全与对齐工作主要关注歧视、有害内容等传统风险，而忽视了因过度依赖生成式AI导致的技能退化（如认知卸载和批判性思维萎缩）和成瘾问题，并初步讨论了如何通过信息宣传和监管来缓解这些认知与心理健康风险。

Parametrizing Convex Sets Using Sublinear Neural Networks

Eloi Martinet

math.OC cs.AI cs.LG math.NA

本文提出了一种使用sublinear neural networks（次线性神经网络）对convex sets（凸集）进行参数化的方法，通过学习sublinear functions（次线性函数）来隐式表示凸体的support function（支撑函数）和gauge function（度量函数）。

A Skill-Based AI Agentic Pipeline for Library of Congress Subject Indexing

Eric H. C. Chow

cs.DL cs.AI

本文提出了一种基于AI agent的模块化流水线，用于自动化Library of Congress Subject Headings (LCSH)的主题标引，将过程分解为概念分析、定量过滤、权威验证和MARC字段合成四个步骤。该方法在十部作品上进行了评估，显示出与专业实践的概念一致性，但未涉及关键词中的核心数学或计算概念。

Cosmodoit: A Python Package for Adaptive, Efficient Pipelining of Feature Extraction from Performed Music

Corentin Guichaoua, Daniel Bedoya, Elaine Chew

cs.SD cs.IR

Cosmodoit是一个Python包，用于从演奏音乐中高效提取特征，它集成了performance-to-score alignment与符号和音频特征提取，支持模块化流水线和增量更新。该工具主要解决现有算法分散在不同语言和格式中的问题，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联不大。

Random test functions, $H^{-1}$ norm equivalence, and stochastic variational physics-informed neural networks

Diego Marcondes

math.NA cs.LG

本文证明了对于二阶线性椭圆PDE，其残差的$H^{-1}$范数与随机测试函数期望平方值等价，并据此提出了随机变分物理信息神经网络（SV-PINNs）。该方法通过最小化PDE残差的随机范数经验近似来训练神经网络，在多个挑战性问题上显著优于标准PINNs。

DALPHIN: Benchmarking Digital Pathology AI Copilots Against Pathologists on an Open Multicentric Dataset

Carlijn Lems et al.

cs.CV cs.AI

本文提出了DALPHIN，一个用于数字病理学AI辅助诊断的多中心开放benchmark，包含来自300个病例的1236张图像，并对比了31位病理学家与多个AI copilot（如PathChat+、GPT-5、Gemini 2.5 Pro）的性能。结果显示，PathChat+在六项任务中的四项上达到了与专家无统计显著差异的水平，但该工作主要聚焦于benchmark构建与性能评估，未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词相关的方法创新。

ProgramBench: Can Language Models Rebuild Programs From Scratch?

John Yang et al.

cs.SE cs.AI

本文提出了ProgramBench基准，用于评估语言模型从零开始重建完整软件项目的能力。实验发现，即使是最优模型也仅能在3%的任务上通过95%的测试，且模型倾向于生成与人类代码差异很大的单文件实现。

Erase Persona, Forget Lore: Benchmarking Multimodal Copyright Unlearning in Large Vision Language Models

JuneHyoung Kwon, JungMin Yun, YoungBin Kim

cs.CV cs.AI

本文提出了CoVUBench基准，用于评估大型视觉语言模型（LVLMs）中版权内容的机器遗忘（unlearning）效果，通过合成数据和系统视觉变化来测试遗忘的泛化能力。该工作主要关注多模态遗忘评估，与关键词中的code、spectral、Muon等概念关联较弱。

Stochastic Schrödinger Diffusion Models for Pure-State Ensemble Generation

Jian Xu et al.

stat.ML cs.LG

本文提出了一种在复射影空间$\mathbb{CP}^{d-1}$上的基于分数的生成模型SSDM，通过随机薛定谔方程实现前向扩散，并利用局部欧几里得近似训练黎曼得分函数，用于生成量子纯态系综。该方法主要面向量子机器学习中的表示级生成任务，与关键词中的概念关联较弱。

Expanding functional protein sequence space using high entropy generative models

Roberto Netti et al.

q-bio.QM cond-mat.stat-mech cs.LG

本文研究了基于Boltzmann Machine的蛋白质序列生成模型，通过对比不同稀疏度的模型（bmDCA, eaDCA, edDCA），发现高熵模型（meDCA）在保持功能性的同时能采样更大的序列空间，并减少过拟合。该工作主要聚焦于计算生物学中的蛋白质设计，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等无直接关联。

Unifying Dynamical Systems and Graph Theory to Mechanistically Understand Computation in Neural Networks

Jatin Sharma, Danyal Akarca, Dan F.M Goodman

cs.NE cs.AI

本文通过将recurrent neural networks建模为graph并分析input和output units之间的multi-hop pathways，揭示了网络如何通过多跳通信实现temporal routing of information。基于此，作者提出了resolvent-RNNs以约束multi-hop pathways，相比L1 regularisation能更好地诱导与任务结构匹配的temporal sparsity。

Multi-Agent Strategic Games with LLMs

Maxim Chupilkin

cs.GT cs.AI cs.CY

本文使用LLM作为实验主体，在重复安全困境中研究冲突与合作，发现多极化增加冲突、有限时间导致逆向归纳瓦解、沟通减少冲突。该方法为理论机制提供了可扩展、透明的实验途径。

Leveraging Code Automorphisms for Improved Syndrome-Based Neural Decoding

Raphaël Le Bidan et al.

cs.IT cs.LG

本文研究了如何利用code automorphisms（码自同构）通过数据增强来提升syndrome-based neural decoding（基于伴随式的神经译码）模型的性能，实验表明该方法能以小数据集接近最大似然译码性能。

Free Decompression with Algebraic Spectral Curves

Siavash Ameli et al.

stat.ML cs.LG math.NA

本文利用代数谱曲线理论推广了自由解压缩方法，使其能处理Stieltjes变换满足代数关系的谱密度，从而适用于更实际的机器学习模型。该方法可处理具有多模态、多尺度及原子结构的谱密度，并在神经网络Hessian矩阵和扩散模型等场景中验证了有效性。

Rethinking Temporal Consistency in Video Object-Centric Learning: From Prediction to Correspondence

Zhiyuan Li et al.

cs.CV cs.LG

本文指出视频object-centric learning中常用的temporal prediction模块本质上是离散correspondence问题的昂贵近似，并提出了Grounded Correspondence框架，通过将frozen backbone features中的salient regions初始化为slots，并利用Hungarian matching维护帧间identity，从而无需可学习参数即可实现时序一致性。

AniMatrix: An Anime Video Generation Model that Thinks in Art, Not Physics

Tencent HY Team

cs.CV cs.AI

本文提出AniMatrix，一个面向动漫视频生成的模型，通过双通道条件机制（Production Knowledge System编码风格、运动、镜头、特效等可控变量，并用可训练标签编码器与冻结T5编码器分别处理结构化指令与自由文本）和三阶段训练（风格-运动-变形课程学习、变形感知偏好优化）来替代物理先验，实现艺术正确性而非物理真实感。实验表明其在专业动画师评估的五个维度中四项领先。

Stage Light is Sequence$^2$: Multi-Light Control via Imitation Learning

Zijian Zhao et al.

cs.MM cs.AI

本文提出SeqLight框架，通过分层深度学习将音乐映射到多灯HSV空间，使用SkipBART模型和模仿学习实现灯光分解，解决了现有方法在可解释性和多灯控制上的局限。

FUS3DMaps: Scalable and Accurate Open-Vocabulary Semantic Mapping by 3D Fusion of Voxel- and Instance-Level Layers

Timon Homberger et al.

cs.RO cs.AI

本文提出FUS3DMaps，一种在线双层的open-vocabulary语义建图方法，通过在一个共享的voxel map中同时维护dense和instance-level的语义层，并利用跨层融合来提升建图质量。该方法在3D语义分割基准和大规模场景上实现了准确且可扩展的语义建图。

Real Image Denoising with Knowledge Distillation for High-Performance Mobile NPUs

Faraz Kayani et al.

cs.CV cs.LG

本文针对移动NPU上的真实图像去噪问题，提出了一种硬件-算法协同设计方法，通过知识蒸馏让轻量级学生网络在仅使用NPU原生算子（如3x3卷积和ReLU）的情况下，恢复教师网络99.8%的修复质量，并在MediaTek Dimensity 9500等NPU上实现了34.0 ms的推理速度。

Quantum Multi-Level Estimation of Functionals of Discrete Distributions

Kean Chen et al.

quant-ph cs.CC cs.DS cs.IT

本文提出了一种量子多级估计框架，用于离散分布泛函$\sum_{i=1}^n f(p_i)$的估计。该方法通过将$p_i$划分为对数数量级且长度指数衰减的区间，并利用非破坏性奇异值鉴别来隔离相关值，从而避免了高控制开销。作为应用，该框架为$q$-Tsallis熵提供了量子估计器，在$q>1$时改进了查询复杂度，在\(0

Tailored Prompts, Targeted Protection: Vulnerability-Specific LLM Analysis for Smart Contracts

Xing Zhang et al.

cs.CR cs.AI

本文提出了一种基于LLM的智能合约漏洞检测框架，通过AST上下文提取和漏洞特定prompt设计，在13种漏洞类别上实现了高召回率。该方法主要贡献在于构建大规模标注数据集和定制化检测器，但未涉及关键词中的spectral、Muon、pretrain、agent或attention等概念。

Amortized Variational Inference for Joint Posterior and Predictive Distributions in Bayesian Uncertainty Quantification

Nan Feng, Xun Huan

stat.ML cs.AI cs.LG stat.CO stat.ME

本文提出了一种变分贝叶斯框架，直接针对后验-预测分布进行联合变分近似，通过引入KL散度的变分上界和矩正则化项，以摊销方式训练模型，从而在离线阶段完成计算，降低在线预测推断成本。实验表明该方法比传统两阶段变分推断更准确且高效。

Tempered Guided Diffusion

Andreas Makris, Paul Fearnhead, Chris Nemeth

stat.ML cs.LG

本文提出Tempered Guided Diffusion (TGD)方法，将退火序贯蒙特卡洛框架应用于无训练条件扩散采样，通过粒子重加权与重采样来提升计算效率。实验表明该方法在逆问题中能改善后验近似质量。

Potential Hessian Ascent III: Sampling the Sherrington--Kirkpatrick Model at Beta < 1/2

Ewan Davies et al.

math.PR cs.DS math-ph

本文提出了一种多项式时间算法，用于在逆温度$\beta < 1/2$时以可忽略的总变差距离误差从Sherrington-Kirkpatrick模型的Gibbs测度中采样。该方法通过将先前用于优化的potential Hessian ascent过程实现为算法随机定位，并利用Gaussian integration by parts和cavity估计等技术，改进了此前仅在Wasserstein距离下有保证的结果。

Predicting missing values: A good idea?

Stef van Buuren

stat.ML cs.LG stat.ME

本文指出以最小化MSE为目标进行缺失值插补会引入系统性偏差，并证明通过添加与MSE成比例的噪声可以消除这些偏差。文章通过模拟比较了predictive imputation与stochastic imputation，并评估了missForest、softImpute和mice等工具，强调了随机方法在保持数据自然变异性方面的重要性。

Low Rank Tensor Completion via Adaptive ADMM

Niclas Führling, Getuar Rexhepi, Giuseppe Thadeu Freitas de Abreu

stat.ML cs.LG eess.SP

本文提出了一种基于adaptive ADMM的低秩tensor completion算法，通过将nuclear norm最小化问题分解为多个子问题并利用proximal operator迭代求解，同时引入over-relaxation和自适应惩罚参数更新以加速收敛。实验表明该方法在NMSE上优于传统SotA方法，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

A Workflow-Oriented Framework for Asynchronous Human-AI Collaboration in Hybrid and Compute-Intensive HPC Environments

Sergio Mendoza et al.

cs.DC cs.AI cs.HC cs.SE

本文提出了一个面向HPC环境的工作流框架，支持异步人机协作，通过定义检查点在不阻塞计算任务的情况下获取人类输入，并展示了在MareNostrum 5等系统上的模型训练应用。该框架主要关注计算密集型环境中的交互效率与可移植性，与关键词中的code、agent或attention等概念无直接关联。

Before Forgetting, Learn to Remember: Revisiting Foundational Learning Failures in LVLM Unlearning Benchmarks

JuneHyoung Kwon et al.

cs.CV cs.AI

本文指出当前LVLM遗忘基准测试忽略了模型初始记忆不足的关键问题，并提出了ReMem基准来确保可靠的记忆学习，同时引入Exposure指标量化信息擦除深度。

Training-Free Probabilistic Time-Series Forecasting with Conformal Seasonal Pools

Valery Manokhin

stat.ML cs.LG

本文提出了一种无需训练的时序概率预测方法Conformal Seasonal Pools (CSP)，通过混合同季节经验样本与带符号残差样本生成预测区间。在多个数据集上，CSP在CRPS、分位数损失和覆盖率等指标上显著优于DeepNPTS，且计算速度快500倍以上，但该方法与关键词列表中的概念无直接关联。

AI Advocate: Educational Path to Transform Squads to the Future

Carla Soares et al.

cs.SE cs.AI

本文分析了将传统软件开发团队转型为人机协作混合结构的教育过程，并报告了在巴西一家科技公司中培养AI Advocates的经验与挑战。

Towards accurate extreme event likelihoods from diffusion model climate emulators

Peter Manshausen et al.

physics.ao-ph cs.LG

本文探讨了利用扩散模型气候模拟器cBottle估计极端事件（如热带气旋）概率的方法，通过引导模型生成极端状态并计算概率密度比来量化事件可能性。该工作主要展示了概率密度估计在极端事件归因实验中的应用潜力，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

The Manokhin Probability Matrix: A Diagnostic Framework for Classifier Probability Quality

Valery Manokhin

stat.ML cs.LG

本文提出了Manokhin Probability Matrix，一个用于分类器概率质量诊断的二维框架，通过Spiegelhalter Z-statistic和AUC-ROC预期秩将分类器分为四种原型。基于大规模实证研究，文章指出校准是可修复的部分而判别力是困难的部分，并建议先优化判别力再事后修复校准。

Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration

Xun Jiang et al.

cs.CV cs.LG cs.MM

本文提出了一种名为Conformal Predictive Self-Calibration (CPSC)的统一框架，通过结合conformal prediction技术，在训练过程中对多模态低质量数据（如模态不平衡和噪声污染）进行自校准。该方法通过表示自校准和梯度自校准两个模块，分别增强特征鲁棒性和优化方向，并在多个基准数据集上取得了优于现有方法的性能。

RoboAlign-R1: Distilled Multimodal Reward Alignment for Robot Video World Models

Hao Wu et al.

cs.RO cs.AI

本文提出RoboAlign-R1框架，通过构建RobotWorldBench基准并训练多模态评判模型RoboAlign-Judge，将奖励对齐引入机器人视频世界模型的后训练阶段，并引入Sliding Window Re-encoding (SWR)策略缓解长程预测中的误差累积。实验表明该方法在多个维度上提升了视频生成质量，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

DMGD: Train-Free Dataset Distillation with Semantic-Distribution Matching in Diffusion Models

Qichao Wang et al.

cs.CV cs.AI

本文提出了一种无需额外fine-tuning的dataset distillation方法DMGD，通过conditional likelihood optimization实现semantic matching，并引入基于optimal transport的distribution matching来对齐目标分布。该方法在多个ImageNet子集上取得了优于需要fine-tuning的SOTA方法的性能。

Deco: Extending Personal Physical Objects into Pervasive AI Companion through a Dual-Embodiment Framework

Zhihan Jiang et al.

cs.HC cs.AI cs.CY

本文提出了一种名为Deco的双实体框架，通过结合多模态大语言模型和增强现实技术，将用户的实体物品（如毛绒玩具）扩展为具有情感响应的AI伴侣。研究通过用户实验验证了该方法在提升陪伴感和情感联结方面的有效性，但未涉及代码、谱方法或预训练等关键词相关技术。

Raising the Ceiling: Better Empirical Fixation Densities for Saliency Benchmarking

Susmit Agrawal, Jannis Hollman, Matthias Kümmerer

cs.CV cs.LG

本文提出了一种基于自适应带宽KDE和混合模型的改进方法，用于从眼动数据中估计经验注视密度，以提升显著性基准测试的可靠性。该方法通过逐图像优化参数，在多个基准上获得了更高的观察者间一致性估计。

Graph Neural Networks in the Wilson Loop Representation of Abelian Lattice Gauge Theories

Ali Rayat, Gia-Wei Chern

cond-mat.str-el cs.LG hep-lat quant-ph

本文提出了一种用于Abelian lattice gauge models的gauge-invariant graph neural network (GNN)架构，通过Wilson loops作为输入显式地施加规范对称性，并在$\mathbb{Z}_2$和$\mathrm{U}(1)$模型上验证了其预测全局与局域可观测量的能力。该方法为学习与模拟Abelian lattice gauge systems提供了一个紧凑且物理驱动的框架。

Ecologically-Constrained Task Arithmetic for Multi-Taxa Bioacoustic Classifiers Without Shared Data

Ragib Amin Nihal et al.

cs.SD cs.LG

本文研究了生态约束下的任务向量算术方法，通过独立微调的BEATs编码器组合成统一的661物种分类器，发现生物声学任务向量近似正交且与频谱分布距离一致，为多分类器组合提供了无需共享数据的协作范式。

Exact ReLU realization of tensor-product refinement iterates

Tsogtgerel Gantumur

math.CA cs.LG

本文研究了二维张量积二进细分算子$V$的迭代$V^n g$，证明了对于紧支撑连续分段线性种子函数$g$，其迭代结果可以用固定宽度和深度$O(n)$的精确ReLU网络实现。该工作将一维的精确实现理论扩展到二维张量积情形，但与我提供的关键词关联较弱。

PHALAR: Phasors for Learned Musical Audio Representations

Davide Marincione et al.

cs.SD cs.AI cs.LG eess.SP

本文提出PHALAR框架，利用Learned Spectral Pooling层和复数头实现音高和相位等变偏置，在stem retrieval任务中显著提升准确率并减少参数与训练时间。该方法在多个数据集上达到新最优，并展示了零样本节拍跟踪等能力。

Magic-Informed Quantum Architecture Search

Vincenzo Lipardi et al.

quant-ph cs.AI

本文提出了一种基于magic（非稳定化资源）的量子架构搜索技术，利用Monte Carlo Tree Search和Graph Neural Network来估计量子电路的magic水平，从而引导搜索朝向高或低magic区域。实验表明该方法能有效控制最终电路的magic资源，并在基态能量和量子态近似问题上提升了求解质量。

Towards Open World Sound Event Detection

P.H.Hai, L.T.Minh, L.H.Son

cs.SD cs.AI

本文提出了一种面向开放世界声音事件检测（OW-SED）的框架WOOT，采用1D Deformable attention架构和特征解耦策略，以处理已知与未知声音事件的检测与增量学习问题。实验表明该方法在开放场景下优于现有基线，但整体创新性有限，与关键词关联较弱。

Deterministic Sparse FFT via Keyed Multi-View Gating with $O(\sqrt{N} \log k)$ Expected Time

Aaron R. Flouro, Shawn P. Chadwick

eess.SP cs.DS cs.IT

本文提出了一种基于键控多视角门控机制的确定性稀疏FFT框架，利用2-of-3中国剩余定理（CRT）一致性将候选频率对从$O(k^2)$减少到$\Theta(k)$，并通过剥离式恢复过程直接从单频仓中提取频率，实现了$O(\sqrt{N} \log k)$的期望识别时间。该方法在稀疏假设下提供了确定性结构，并具有最坏情况下的安全保证。

A Benchmark for Interactive World Models with a Unified Action Generation Framework

Jianjie Fang et al.

cs.CV cs.AI

本文提出了iWorld-Bench基准，用于评估interactive world models在物理交互任务中的表现，并构建了包含330k视频片段的数据集和统一Action Generation Framework。实验评估了14个代表性模型，揭示了当前模型在距离感知和记忆等能力上的局限性。

MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents

Jonathan Steinberg, Oren Gal

cs.CR cs.AI cs.SE

本文提出了MOSAIC-Bench基准，用于评估coding agents在面对分解为无害请求序列时的组合漏洞诱导能力。实验发现，多个前沿coding agents在分阶段攻击下表现出高成功率，而直接提示时漏洞率显著降低，表明现有安全对齐方法存在结构性盲点。

Inconsistent Databases and Argumentation Frameworks with Collective Attacks

Yasir Mahmood et al.

cs.DB cs.AI

本文研究了不一致数据库与允许集体攻击的论证框架(SETAFs)之间的联系，发现当完整性约束包含拒绝约束和局部视图元组生成依赖时，子集最大修复对应SETAFs中的优先扩展。对于包含依赖的特定片段，预处理可得到唯一的稳定扩展，但混合约束会破坏这种对应关系。

Label-Efficient School Detection from Aerial Imagery via Weakly Supervised Pretraining and Fine-Tuning

Zakarya Elmimouni, Fares Fourati, Mohamed-Slim Alouini

cs.CV cs.AI cs.LG

本文提出了一种弱监督框架，用于从航空影像中检测学校建筑，通过自动标注流程生成bounding boxes，并在低数据场景下结合预训练与微调实现高效检测。该方法主要关注实际应用中的标注效率问题，在方法创新性上与关键词中的理论概念关联较弱。

Physics-Grounded Multi-Agent Architecture for Traceable, Risk-Aware Human-AI Decision Support in Manufacturing

Danny Hoang et al.

cs.MA cs.AI cs.IR

本文提出了一种多智能体知识分析架构MAKA，用于高风险制造场景中的人机协同决策支持，通过分离意图路由、工具分析、知识图谱检索和验证模块，在钛合金叶片加工测试中实现了可追溯的补偿方案。该方法主要面向工程应用，与关键词中的agent概念相关但缺乏理论创新性。

Enhanced 3D Brain Tumor Segmentation Using Assorted Precision Training

Adwaitt Pandya et al.

cs.CV cs.LG

本文使用SegResNet架构和自动多精度训练方法进行3D脑肿瘤分割，采用dice loss和dice metric评估，在肿瘤核心、整体肿瘤和增强肿瘤上分别获得0.84、0.90和0.79的dice分数。该工作主要关注医学图像分割应用，与关键词中的理论或方法创新关联较弱。

Conditional Diffusion Sampling

Francisco M. Castro-Macías et al.

stat.ML cs.LG

本文提出Conditional Diffusion Sampling (CDS)框架，结合Parallel Tempering (PT)与扩散过程，通过推导无需神经网络的精确闭式随机微分方程实现样本传输。该方法在有限密度评估下为多模态分布采样提供了新思路，但未直接涉及关键词中的特定概念。

Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures

Evangelos Ntavelis et al.

cs.CV cs.LG

本文提出HeadsUp方法，利用编码器-解码器架构从多视角图像重建3D高斯头部模型，将输入压缩为隐表示并解码为UV参数化的3D高斯。该方法在大规模数据集上训练，实现了高质量重建，但与我提供的关键词（如code, context, spectral等）关联度较低。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.CL

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others