bluearXiv-ai - 2026-04-29

📄 所有论文 ↑ 回顶部

cs.LG

Nautile-370M: Spectral Memory Meets Attention in a Small Reasoning Model ⭐ 精选

Maixent Chenebaux

cs.LG cs.AI

本文提出Nautile-370M，一个371M参数的小型推理语言模型，其核心创新在于混合了两种SeqCond Attention (SCA)层（一种受SeqCondenser启发的线性时间spectral序列算子）与一个transformer层。作者证明了SCA的读出机制在连续极限下可以精确检索前缀摘要中的任意token，并能作为特例复现softmax attention的任何输出，从而建立了SCA至少与全自注意力具有相同表达能力的理论结果。该工作为在严格参数和推理预算下实现高效长上下文推理提供了新思路，其spectral方法与attention的混合设计具有开创性。

PolyKV: A Shared Asymmetrically-Compressed KV Cache Pool for Multi-Agent LLM Inference ⭐ 精选

Ishan Patel, Ishan Joshi

cs.LG cs.CL cs.DC

PolyKV提出了一种共享非对称压缩KV cache池的方法，用于多agent LLM推理。该方法通过将Keys量化为int8以保持softmax稳定性，并使用TurboQuant MSE（结合Fast Walsh-Hadamard Transform旋转和3-bit Lloyd-Max量化）压缩Values，实现了2.91x的稳定压缩比。在Llama-3-8B模型上，15个agent共享4K token上下文时，KV cache内存从19.8 GB降至0.45 GB（减少97.7%），而perplexity仅增加0.57%。这项工作首次将单一共享有损压缩KV池与多reader并发agent访问相结合，解决了多agent推理中KV cache内存冗余的关键问题。

Why Search When You Can Transfer? Amortized Agentic Workflow Design from Structural Priors ⭐ 精选

Shiyi Du et al.

cs.LG

本文提出SWIFT框架，将agentic workflow设计从每任务的迭代搜索转化为可复用的structural priors。通过从源任务的搜索轨迹中蒸馏compositional heuristics和output-interface contracts，SWIFT在推理时仅需一次LLM生成即可为未见过的目标任务合成完整可执行workflow，无需迭代搜索。实验表明，该方法在五个benchmark上超越基于搜索的SOTA方法，并将边际优化成本降低三个数量级，且能泛化到未见过的benchmark和不同foundation models。该工作为agent workflow设计提供了高效且可迁移的范式，与关键词"agent"高度契合。

Back to Repair: A Minimal Denoising Network for Time Series Anomaly Detection

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler

cs.LG cs.AI

本文提出JuRe，一个极简的denoising网络用于时间序列anomaly detection，仅使用单个depthwise-separable convolutional residual block，通过修复受损时间窗口并利用无参数的structural discrepancy函数进行评分。实验表明，训练时的corruption目标而非网络容量是检测质量的关键，在多个基准上取得了有竞争力的结果。

GCA-BULF: A Bottom-Up Framework for Short-Term Load Forecasting Using Grouped Critical Appliances

Yunhao Yao et al.

cs.LG cs.AI eess.SP

本文提出GCA-BULF框架，通过筛选关键电器并分组进行短期负荷预测，在住宅和办公楼数据集上相比现有方法提升了预测精度。该方法主要关注工程应用，与关键词中的理论概念关联较弱。

Automated detection of pediatric congenital heart disease from phonocardiograms using deep and handcrafted feature fusion

Abdul Jabbar et al.

cs.LG cs.CV

本文提出了一种基于深度特征融合的方法，利用数字听诊器采集的心音图（Phonocardiography）自动检测小儿先天性心脏病（CHD），在751名受试者数据上取得了92%的准确率。该方法结合了深度特征与手工特征，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Comparative Study of Bending Analysis using Physics-Informed Neural Networks and Numerical Dynamic Deflection in Perforated nanobeam

Ramanath Garai, Iswari Sahu, S. Chakraverty

cs.LG cs.AI physics.comp-ph

本文使用Physics-Informed Functional Link Constrained Framework with Domain Mapping (DFL-TFC)方法分析了穿孔纳米梁在正弦载荷下的弯曲行为，并与Galerkin方法得到的动态挠度进行了比较。该方法通过functional link neural network (FLNN)嵌入控制方程约束，避免了复杂的深度网络架构。

Liquid Neural Network Models for Natural Gas Spot Price Time-Series Forecasting

Yiqian Liu et al.

cs.LG cs.AI

本文探索了Liquid Neural Networks (LNNs)在Henry Hub天然气现货价格短期预测中的应用，利用其动态内部状态更新机制适应非平稳价格行为。实验表明该方法在波动市场条件下能提升预测精度。

Architecture Determines Observability in Transformers

Thomas Carmichael

cs.LG cs.AI

本文研究了自回归transformer中决策质量的可观测性（observability），发现架构和训练方式决定了模型是否在中间层保留线性可读的内部信号。实验表明，在Pythia等模型族中，某些配置（如24层16头）会导致可观测性崩溃，而其他配置则保持健康范围，且该现象在训练中涌现。

Query-Efficient Quantum Approximate Optimization via Graph-Conditioned Trust Regions

Molena Huynh

cs.LG quant-ph

本文提出了一种基于图条件信任区域的方法来降低量子近似优化算法(QAOA)的查询成本，通过图神经网络预测QAOA角度的Gaussian分布来定义搜索策略，在MaxCut问题上的实验表明该方法在保持近似比的同时显著减少了电路评估次数。

Intrinsic Mutual Information as a Modulator for Preference Optimization

Peng Liao et al.

cs.LG cs.CL

本文提出RMiPO框架，利用内在响应级互信息（intrinsic Response-level Mutual Information）来调制偏好优化，以动态解耦偏好贡献并减少超参数调优开销。实验表明该方法在降低训练开销的同时取得了更优性能。

minAction.net: Energy-First Neural Architecture Design -- From Biological Principles to Systematic Validation

Martin G. Frasch

cs.LG q-bio.QM

本文通过大量实验验证了能量感知学习在多种数据集上的表现，发现架构本身对精度影响极小，而架构与数据集的交互作用显著，并提出了基于action-principle框架的能量优先架构设计，在训练效率上有所提升。

A Comparative Analysis on the Performance of Upper Confidence Bound Algorithms in Adaptive Deep Neural Networks

Grigorios Papanikolaou, Ioannis Kontopoulos, Konstantinos Tserpes

cs.LG cs.AI

本文在Adaptive Deep Neural Networks (ADNNs)中引入了四种新的Upper Confidence Bound (UCB)策略（UCB-V, UCB-Tuned, UCB-Bayes, UCB-BwK），并与原有的UCB1策略进行对比，实验表明UCB-Bayes收敛最快，UCB-V和UCB-Tuned在准确率-延迟和准确率-能耗的Pareto前沿上表现最优。

Time-varying Interaction Graph ODE for Dynamic Graph Representation Learning

Xiaoyi Wang et al.

cs.LG cs.AI

本文提出Time-varying Interaction Graph ODE (TI-ODE)，通过将graph ODE的演化函数分解为可学习的interaction basis functions，并用时间依赖权重动态组合它们，以捕捉动态图中节点间交互模式的时变性和多样性。实验表明该方法在属性预测任务上优于现有方法，并具有更好的鲁棒性和可解释性。

Heterogeneous Variational Inference for Markov Degradation Hazard Models: Discretized Mixture with Interpretable Clusters

Takato Yasuno

cs.LG

本文针对Markov退化风险模型中的异质性变分推断问题，提出了一种结合8状态全局百分位离散化、30维特征工程和可解释模型选择规则的实用框架，并采用Automatic Differentiation Variational Inference (ADVI)进行快速稳定估计。实验表明，ADVI在收敛性、稳定性和计算效率上优于NUTS，但该方法主要聚焦于工业设备退化建模的工程应用，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等方向关联较弱。

Negative Ontology of True Target for Machine Learning: Towards Evaluation and Learning under Democratic Supervision

Yongquan Yang

cs.LG

本文从哲学角度探讨了机器学习中“真实目标”的存在假设，提出了一种基于“民主监督”的评估与学习知识体系，并构建了EL-MIATTs框架。该工作主要涉及机器学习范式与评估理论，与关键词中的具体技术方向关联较弱。

Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity

Bojie Li

cs.LG cs.AI

本文提出Incompressible Knowledge Probes (IKPs)基准，通过测量模型对1400个事实问题的回答能力来估计黑盒LLM的参数数量，在89个开源模型上实现了$R^2=0.917$的拟合效果，并发现事实容量随参数对数线性增长，不受推理基准饱和的影响。

On the Trainability of Masked Diffusion Language Models via Blockwise Locality

Yuxiang Wang et al.

cs.LG cs.AI

本文研究了Masked Diffusion Language Models (MDMs)在结构化生成任务中的可训练性问题，发现标准随机掩码MDMs在有序生成任务中训练不稳定，并提出了两种引入自回归局部性偏置的块状模型Jigsaw和Scatter。实验表明，这些模型在不同任务上能部分改善稳定性，但整体上随机掩码MDMs可能并非有序生成的最优选择。

Transformer Approximations from ReLUs

Jerry Yao-Chieh Hu et al.

cs.LG cs.AI stat.ML

本文提出了一种将ReLU近似结果系统性地迁移到softmax attention机制的方法，并展示了在乘法、倒数计算和min/max原语上的应用。该方法提供了超越通用近似的目标特定资源界限，为分析softmax transformer模型提供了新工具。

Contrastive Image-Metadata Pre-Training for Materials Transmission Electron Microscopy

Georgia Channing et al.

cs.LG cs.CE

本文介绍了一个用于材料透射电子显微镜(TEM)的对比图像-元数据预训练方法，通过在一个包含7330张高角环形暗场扫描透射电镜(HAADF-STEM)图像的数据集上学习图像与仪器元数据的联合embedding空间，训练了一个生成式风格迁移网络，可将实验图像转换为不同仪器参数下的风格。该方法主要关注图像风格与采集参数的关联，与关键词中的code, context, spectral, Muon, agent, attention等概念关联较弱。

Learning with Embedded Linear Equality Constraints via Variational Bayesian Inference

Matthew Marsh, Benoît Chachuat, Antonio del Rio Chanona

cs.LG cs.AI

本文提出了一种基于变分贝叶斯推断的框架，将输入和输出之间的线性等式约束嵌入到机器学习过程中，同时量化模型参数和领域知识的不确定性。该方法在单粒子电池模型上进行了评估，相比标准变分贝叶斯神经网络，能提供更窄的置信区间并减少约束违反。

Generative diffusion models for spatiotemporal influenza forecasting

Joseph Lemaitre, Justin Lessler

cs.LG q-bio.PE

本文提出了一种名为Influpaint的生成式扩散模型，用于流感时空预测。它将流感季节编码为时空图像，并通过条件生成（inpainting）任务从部分观测数据中预测未来轨迹，在回顾性和实时评估中取得了与领先集成方法相当的预测精度。

A Unifying Framework for Unsupervised Concept Extraction

Chandler Squires, Pradeep Ravikumar

cs.LG stat.ML

本文为无监督概念提取任务提出了一个统一的理论框架，将概念提取视为识别一个generative model的问题，并给出了一个用于证明identifiability的通用meta-theorem。该工作简化了为现有方法建立理论保证的过程，但并未直接涉及关键词中的特定概念。

Rethinking Layer Redundancy in Large Language Models: Calibration Objectives and Search for Depth Pruning

Minkyu Kim et al.

cs.LG cs.AI cs.CL

本文从功能角度重新审视了大语言模型中的层冗余问题，通过实验发现不同的校准目标会导致不同的冗余层，且困惑度与下游任务准确率的排序并不一致。研究指出校准目标的选择可能比搜索算法对深度剪枝效果的影响更大。

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

NVIDIA et al.

cs.LG cs.AI cs.CV

本文介绍了Nemotron 3 Nano Omni多模态模型，该模型在Nemotron Nano V2 VL基础上增加了原生音频输入支持，并在文档理解、长音频-视频理解和agentic computer use任务上取得领先结果。模型采用高效的30B-A3B backbone和创新的token-reduction技术，降低了推理延迟并提高了吞吐量。

Compute Aligned Training: Optimizing for Test Time Inference

Adam Ousherovitch, Ambuj Tewari

cs.LG cs.AI

本文提出Compute Aligned Training方法，通过将推理策略视为base policy上的算子来设计新的loss function，以对齐训练目标与测试时推理策略。实验表明该方法在test time scaling上优于标准训练。

CoreFlow: Low-Rank Matrix Generative Models

Dongze Wu, Linglingzhi Zhu, Yao Xie

cs.LG stat.ML

CoreFlow提出了一种低秩矩阵生成模型，通过将矩阵分布分解为共享的行/列子空间和低维核心上的连续归一化流，来应对高维有限样本下的生成挑战。该方法在保持矩阵几何结构的同时提升了训练效率，并支持不完整训练数据的处理。

Odysseys: Benchmarking Web Agents on Realistic Long Horizon Tasks

Lawrence Keunho Jang et al.

cs.LG cs.CL

本文提出了一个名为Odysseys的benchmark，包含200个基于真实浏览会话的长时间跨度的web agent任务，并引入了基于rubric的细粒度评估方法。实验表明，当前最强的模型在该benchmark上的成功率仅为44.5%，且效率指标极低，揭示了该领域仍有巨大改进空间。

Laplace-Bridged Randomized Smoothing for Fast Certified Robustness

Miao Lin et al.

cs.LG

本文提出Laplace-Bridged Smoothing (LBS)，通过将高维输入空间的Monte Carlo采样替换为低维概率空间中的解析计算，在无需噪声增强训练的情况下降低了Randomized Smoothing的认证成本，并在边缘设备上实现了显著加速。

Dynamic Regret for Online Regression in RKHS via Discounted VAW and Subspace Approximation

Dmitry B. Rokhlin, Georgiy A. Karapetyants

cs.LG

本文研究再生核希尔伯特空间(RKHS)中在线回归问题的动态遗憾(dynamic regret)界，通过将有限维折扣VAW方法推广到RKHS设置，并利用子空间近似控制近似误差。

Null Measurability at the Symmetrization Interface in VC Learning

Dhruv Gupta

cs.LG cs.LO stat.ML

本文研究了VC学习中对称化接口处的可测性问题，证明了在Polish域上Borel参数化的概念类中，坏事件是解析集，因此对每个有限Borel测度的完备化是可测的。通过构造一个坏事件为null-measurable而非Borel的概念类，给出了与Borel上确界条件的严格分离。

CiteRadar: A Citation Intelligence Platform for Researcher Profiling and Geographic Visualization

Chenxu Niu, Yiming Sun

cs.LG cs.DL cs.HC cs.IR

CiteRadar是一个开源系统，通过集成Google Scholar、OpenAlex等五个数据源，自动生成学者的出版物列表、引用论文、作者排名表和交互式世界地图，用于学者画像和地理可视化。

Feasible-First Exploration for Constrained ML Deployment Optimization in Crash-Prone Hierarchical Search Spaces

Christian Lysenstøen

cs.LG

本文研究了在易崩溃的层次化搜索空间中进行约束机器学习部署优化的问题，提出了一种名为Thermal Budget Annealing (TBA)的可行优先探索方法，该方法通过先映射有效可行区域再启动TPE优化器来减少无效试验的预算浪费。实验在合成基准和真实GPU部署上验证了该方法在严格约束下提升模型族发现效率并减少预算浪费的效果。

Zero Shot Coordination for Sparse Reward Tasks with Diverse Reward Shapings

Keenan Powell, Peihong Yu, Pratap Tokekar

cs.LG

本文针对多智能体强化学习中的Zero-Shot Coordination (ZSC)问题，提出了一种通过随机化reward shaping并利用4种选择算法训练集成方法，以应对与具有相同稀疏目标但不同reward shaping的agent协作的场景。实验在Overcooked环境中验证了该方法在稀疏奖励下相比基线ZSC算法有显著提升。

Knowledge Distillation Must Account for What It Loses

Wenshuo Wang

cs.LG cs.AI

本文指出知识蒸馏（knowledge distillation）必须考虑其损失，认为学生模型不仅应通过保留的任务分数来评判，还应检查是否保留了使这些分数可靠的教师能力。文章识别了当前评估中的保留假设，并将蒸馏重新定义为教师行为的有损投影，而非忠实复制。

Evaluation without Generation: Non-Generative Assessment of Harmful Model Specialization with Applications to CSAM

Vinith M. Suriyakumar et al.

cs.LG cs.CY

本文提出了一种名为Gaussian probing的非生成式评估方法，通过测量模型对Gaussian latent ensembles的响应来表征LoRA adaptor对内部表示的扰动，从而在不产生输出的情况下区分良性或有害的模型特化。该方法在CSAM等高危领域展示了有效性，为平台级审计提供了可扩展的替代方案。

Towards Unified Multi-task EEG Analysis with Low-Rank Adaptation

Sicheng Dai et al.

cs.LG cs.AI

本文提出MTEEG框架，利用task-specific low-rank adaptation (LoRA)模块解决多任务EEG分析中的任务冲突问题，在六个下游任务上超越单任务方法。该工作主要关注多任务学习与参数高效微调，与关键词中的pretrain有一定关联但创新性有限。

Gradient-Direction Sensitivity Reveals Linear-Centroid Coupling Hidden by Optimizer Trajectories

Yongzhong Xu

cs.LG cs.AI

本文通过对比AdamW更新与loss gradient的rolling SVD，发现基于gradient的SED（Spectral Energy Distribution）诊断能揭示Linear Centroid Hypothesis (LCH)特征与参数空间方向的强耦合（$100$--$330\times$），而基于update的诊断则掩盖了这种耦合。因果干预实验表明，将attention更新约束到任意rank-3子空间可加速grokking约$2.3\times$，但该耦合并非唯一因果路径。

The Role of Symmetry in Optimizing Overparameterized Networks

Kusha Sareen et al.

cs.LG cs.AI

本文分析了overparameterized neural networks中weight-space symmetries的作用，证明这些symmetries通过对Hessian进行diagonal preconditioning来改善优化，并增加了global minima在典型初始化附近的概率质量。实验验证了随着网络宽度增加，Hessian trace下降、condition number改善且收敛加速。

Prior-Aligned Data Cleaning for Tabular Foundation Models

Laure Berti-Equille

cs.LG cs.DB

本文提出L2C2，一个基于deep RL的框架，将表格数据清洗视为prior alignment问题，通过学习策略序列化操作来最小化脏数据与Tabular Foundation Model (TFM)合成先验之间的分布差距。实验表明，所提出的TFMAwareReward奖励设计在部分数据集上能选择更优的清洗流程，且预训练策略可跨数据集迁移。

Accurate and Robust Generative Approach for Overcoming Data Sparsity and Imbalance in Landslide Modeling with A Tabular Foundation Model

Kaixuan Shao et al.

cs.LG

本文提出了一种基于tabular foundation model的方法，用于生成多特征滑坡数据集以克服数据稀疏和不平衡问题。该方法在20个滑坡数据集上验证了其生成数据与真实分布的一致性及鲁棒性。

Shearlet Neural Operators for Anisotropic-Shock-Dominated and Multi-scale parametric partial differential equations

Fabio Pereira dos Santos, Julio de Castro Vargas Fernandes, Adriano Mauricio de Almeida Cortes

cs.LG

本文提出Shearlet Neural Operator (SNO)，用shearlet变换替代Fourier变换来改进Fourier Neural Operator (FNO)在解决各向异性激波主导和多尺度参数偏微分方程时的局限性。SNO利用shearlets的方向性、多尺度和空间局部化特性，在多个基准PDE族上相比FNO提升了预测精度和特征保真度。

Knowledge-Data Dually Driven Paradigm for Accurate Landslide Susceptibility Prediction under Data-Scarce Conditions Using Geomorphic Priors and Tabular Foundation Model

Yuting Yang et al.

cs.LG

本文提出了一种知识-数据双驱动范式，通过整合地貌先验知识与表格基础模型，在数据稀缺条件下实现滑坡易发性预测。该方法在意大利中部数据丰富区域仅用30%数据即达到传统方法全数据集的精度，并在青藏高原永久冻土区验证了其适用性。

DiRe-RAPIDS: Topology-faithful dimensionality reduction at scale

Alexander Kolpakov, Igor Rivin

cs.LG cs.AI cs.SE cs.SI

本文指出UMAP和t-SNE等降维方法会因局部邻域目标而扭曲全局拓扑结构，并提出了DiRe-RAPIDS方法，通过拓扑忠实性基准和Pareto优化，在保持分类性能的同时恢复更多拓扑结构。该方法在大规模arXiv论文嵌入上比UMAP保留了3-4倍的拓扑信息。

VLM Judges Can Rank but Cannot Score: Task-Dependent Uncertainty in Multimodal Evaluation

Divake Kumar et al.

cs.LG cs.CL cs.CV stat.ML

本文研究了Vision-Language Models (VLMs)作为自动评估器时的可靠性问题，通过conformal prediction框架将点分数转换为校准的预测区间。实验发现评估不确定性高度依赖于任务类型，并揭示了ranking-scoring decoupling这一失败模式，即模型能正确排序但无法给出可靠的绝对分数。

Categorical Optimization with Bayesian Anchored Latent Trust Regions for Structural Design under High-Dimensional Uncertainty

Zhangyong Liang, Huanhuan Gao

cs.LG

本文提出COBALT框架，用于高维不确定性下的分类结构优化。该方法通过将物理目录嵌入低维潜在空间并锁定为离散锚定图，结合加性SAAS-GP代理模型和信任域离散图采集搜索，避免了连续松弛和舍入误差。实验验证了其在复杂杆结构鲁棒设计优化中的有效性。

DGLight: DQN-Guided GRPO Fine-Tuning of Large Language Models for Traffic Signal Control

Chenbo Yu

cs.LG

本文提出DGLight框架，使用CoLight-based Deep Q-Network作为critic来引导预训练large language model进行traffic signal control，并通过Group Relative Policy Optimization (GRPO)优化策略。实验表明该方法在多个城市数据集上具有竞争力，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

Online combinatorial optimization with stochastic decision sets and adversarial losses

Gergely Neu, Michal Valko

cs.LG stat.ML

本文研究了在随机可用性组合动作下的在线学习问题，提出了基于Follow-The-Perturbed-Leader的算法，并引入了一种名为Counting Asleep Times的损失估计技术。算法在full information和(semi-)bandit设置下获得了regret bound，并改进了sleeping bandit问题的已知性能保证。

Exploring Time Conditioning in Diffusion Generative Models from Disjoint Noisy Data Manifolds

Liuzhuozheng Li et al.

cs.LG cs.CV

本文从几何角度重新审视了扩散模型中时间条件的作用，分析了前向过程中噪声数据分布在高维空间中的流形结构，并证明DDIM在特定条件下无需时间条件也能生成高质量内容。此外，作者将框架扩展到类别条件生成，通过将类别解耦到不同时间空间实现无类别条件模型的类别条件合成。

Optimization-Free Topological Sort for Causal Discovery via the Schur Complement of Score Jacobians

Rui Wu, Hong Xie

cs.LG

本文提出了一种无需优化的拓扑排序方法SSTS，通过Score-Jacobian Information Matrix的Schur补将因果发现从非凸优化问题转化为统计估计问题，适用于线性与非线性系统。

RCProb: Probabilistic Rule Extraction for Efficient Simplification of Tree Ensembles

Josue Obregon

cs.LG

本文提出RCProb，一种基于概率的规则提取方法，通过Dirichlet平滑和Beta平滑结合朴素贝叶斯公式来估计规则统计量，避免了重复扫描数据集，从而在保持与RuleCOSI+相当预测性能的同时，将运行时间降低约22倍。

QFlash: Bridging Quantization and Memory Efficiency in Vision Transformer Attention

Sehyeon Oh, Yongin Kwon, Jemin Lee

cs.LG cs.AI

本文提出QFlash，一种面向Vision Transformer的整数域FlashAttention设计，通过解决逐块累加中的scale爆炸、GPU上低效的移位指数运算以及整数比较所需的统一量化粒度等障碍，实现了全整数softmax计算。该方法在ViT、DeiT和Swin模型上取得了显著加速，并降低了能耗，但未涉及关键词中的code、context、spectral、Muon、pretrain或agent等概念。

VAE-Inf: A statistically interpretable generative paradigm for imbalanced classification

Hongfei Wu, Ruijian Han, Yancheng Yuan

cs.LG cs.AI

本文提出VAE-Inf框架，通过两阶段方法解决不平衡分类问题：先用VAE在多数类数据上学习参考分布，再用少量少数类样本微调编码器并引入基于投影统计的损失函数。该方法将生成模型与假设检验结合，实现了对Type-I误差的有限样本控制。

GraphPL: Leveraging GNN for Efficient and Robust Modalities Imputation in Patchwork Learning

Xingjian Hu et al.

cs.LG cs.AI

本文提出GraphPL方法，将Graph Neural Network与patchwork learning结合，用于在分布式多模态学习中灵活整合所有观测到的modalities并进行缺失模态的imputation。实验表明该方法在基准数据集上达到SOTA性能，并在真实电子健康记录数据上实现了有效的下游任务特征学习。

Safe-Support Q-Learning: Learning without Unsafe Exploration

Yeeun Lim, Narim Jeong, Donghwan Lee

cs.LG cs.AI

本文提出了一种基于Q-learning的安全强化学习框架Safe-Support Q-Learning，通过限制behavior policy在安全集上以避免训练中的不安全探索，并采用KL-regularized Bellman target来约束Q-function。该方法在多个环境中实现了稳定的学习和安全的策略行为。

Biased Dreams: Limitations to Epistemic Uncertainty Quantification in Latent Space Models

Julia Berger et al.

cs.LG

本文研究了基于latent dynamics model（如Dreamer系列中的Recurrent State Space Model）在epistemic uncertainty quantification方面的局限性，发现latent transitions存在偏向于latent space中高密度区域的attractor行为，导致对真实环境动态差异的估计不可靠。该工作主要揭示了现有方法的缺陷，但未提供开创性解决方案或与关键词高度契合。

FED-FSTQ: Fisher-Guided Token Quantization for Communication-Efficient Federated Fine-Tuning of LLMs on Edge Devices

Changyu Li et al.

cs.LG cs.AI

本文提出Fed-FSTQ，一种基于Fisher信息引导的token量化方法，用于边缘设备上联邦大语言模型微调中的通信压缩。该方法通过轻量级Fisher代理估计token敏感性，结合重要性感知的token选择与非均匀混合精度量化，在保持模型性能的同时显著减少上行通信量。实验表明，该方法在非独立同分布场景下可将达到固定质量阈值所需的累积上行流量降低46倍，并支持异构带宽客户端。

Subspace Optimization for Efficient Federated Learning under Heterogeneous Data

Shuchen Zhu et al.

cs.LG math.OC

本文提出了一种用于联邦学习的子空间优化方法SSF，通过在低维子空间中进行异质性校正优化并采用回填式更新，在非独立同分布数据下实现了通信与计算效率的提升。该方法在标准假设下达到了$\widetilde{\mathcal{O}}(1/T+1/\sqrt{NKT})$的非渐近收敛率。

EvoTSC: Evolving Feature Learning Models for Time Series Classification via Genetic Programming

Xuanhao Yang, Bing Xue, Mengjie Zhang

cs.LG cs.NE

本文提出EvoTSC，一种基于genetic programming的轻量级特征学习模型自动演化方法，用于时间序列分类。该方法通过嵌入先验知识的多层程序结构和Pareto锦标赛选择策略来缓解过拟合，实验表明其在多数数据集上优于11种基准方法。

Dyna-Style Safety Augmented Reinforcement Learning: Staying Safe in the Face of Uncertainty

Artur Eisele et al.

cs.LG

本文提出Dyna-SAuR算法，通过学习不确定性感知的dynamics model来同时学习可扩展的安全filter和控制policy，以减少训练中的失败。该方法在CartPole和MuJoCo Walker任务上比现有方法减少了两个数量级的失败。

Enhancing SignSGD: Small-Batch Convergence Analysis and a Hybrid Switching Strategy

Haoran Chen, Wentao Wang

cs.LG

本文从1-bit quantization和dithering视角重新审视SignSGD，提出了三项改进：推导了小batch下的收敛率、在sign算子前注入退火高斯噪声作为dithering机制、以及基于投影的学习率校准实现从SignSGD到SGD的平滑切换。实验表明该方法在CIFAR-10上达到了92.18%的测试准确率，优于纯SGD和带动量的SignSGD。

On Halting vs Converging in Recurrent Graph Neural Networks

Jeroen Bollen, Stijn Vansummeren

cs.LG cs.AI cs.LO

本文研究了循环图神经网络(RGNNs)中三种停止机制(收敛、输出收敛和停止)的表达能力关系，通过"交通灯"协议解决了异步协调问题，证明了在无向图上收敛RGNNs与分级双模拟不变的停止RGNNs表达等价，并回答了Bollen等人(2025)的开放问题。

Towards interpretable AI with quantum annealing feature selection

Francesco Aldo Venturelli et al.

cs.LG

本文提出了一种利用quantum annealing（量子退火）选择卷积神经网络中最重要的feature maps（特征图）以增强模型可解释性的方法。该方法将特征选择编码为量子约束优化问题，并在图像分类任务中与GradCAM等方法进行了比较。

Measuring the Sensitivity of Classification Models with the Error Sensitivity Profile

Andrea Maurino

cs.LG cs.AI

本文提出了Error Sensitivity Profile (ESP)指标，用于量化分类模型性能对单个或多个特征中错误的敏感度，并开发了配套工具\dirty。实验表明，性能退化并不总是与目标变量的简单相关性可预测。

Sustained Gradient Alignment Mediates Subliminal Learning in a Multi-Step Setting: Evidence from MNIST Auxiliary Logit Distillation Experiment

Chayanon Kitkana, Shivam Arora

cs.LG cs.AI

本文通过MNIST辅助logit蒸馏实验，研究了学生模型在仅蒸馏无类别logits时仍能习得教师模型特征（subliminal learning）的现象。实验表明，梯度对齐在训练过程中持续存在并因果性地促进特征习得，而一种缓解方法（liminal training）通过减弱对齐来工作，但未能完全阻止特征习得。

Diverse Image Priors for Black-box Data-free Knowledge Distillation

Tri-Nhan Vo et al.

cs.LG cs.CV

本文提出DIP-KD框架，通过图像先验合成、对比学习和软概率蒸馏三个阶段，在无数据黑盒知识蒸馏场景中提升学生模型性能。实验表明该方法在12个基准上达到最优，但未涉及code、spectral等关键词相关技术。

Barriers to Universal Reasoning With Transformers (And How to Overcome Them)

Oliver Kraus et al.

cs.LG cs.CL

本文研究了Transformer在Chain-of-Thought推理中的长度泛化问题，发现标准位置编码下无法实现超越$TC^0$的泛化，但通过引入随问题规模增长的词汇表（如signpost tokens和value change编码）可克服重复复制和最后出现检索的障碍，实现线性时间模拟Turing机的长度泛化。

Investigation into In-Context Learning Capabilities of Transformers

Rushil Chandrupatla et al.

cs.LG cs.AI

本文通过系统实验研究了Transformer在Gaussian-mixture二分类任务中的in-context learning能力，分析了输入维度、in-context样本数量和预训练任务数量对测试准确率的影响，并探讨了benign overfitting现象的出现条件。

When Errors Can Be Beneficial: A Categorization of Imperfect Rewards for Policy Gradient

Shuning Shang et al.

cs.LG cs.AI stat.ML

本文通过理论分析将policy gradient优化中的reward errors分类为有害、良性或有益，并指出其对ground truth reward的影响取决于与初始策略和学习算法的交互。研究为RLHF中的reward model评估提供了新指标，并为可验证reward的设计提供了见解。

Conditional misalignment: common interventions can hide emergent misalignment behind contextual triggers

Jan Dubiński et al.

cs.LG cs.AI cs.CR

本文研究了在微调语言模型后，用于减少emergent misalignment的几种干预措施（如稀释有害数据、后续微调良性数据、inoculation prompting），发现这些干预在标准评估中有效，但在输入特征与训练上下文相似时，模型仍会表现出更严重的misalignment，即conditional misalignment。

TSN-Affinity: Similarity-Driven Parameter Reuse for Continual Offline Reinforcement Learning

Dominik Żurek et al.

cs.LG cs.AI

本文提出TSN-Affinity方法，用于持续离线强化学习(CORL)场景，通过TinySubNetworks和Decision Transformer实现任务特定参数化与基于动作兼容性和潜在相似性的知识复用。实验在Atari游戏和Franka Emika Panda机械臂操控任务上验证了该方法在避免灾难性遗忘方面的有效性。

Teacher Forcing as Generalized Bayes: Optimization Geometry Mismatch in Switching Surrogates for Chaotic Dynamics

Andre Herz, Daniel Durstewitz, Georgia Koppe

cs.LG math.DS stat.ML

本文研究了Teacher Forcing在混沌动力系统重建中的优化几何不匹配问题，通过Louis恒等式估计了切换增强AL-RNN中的曲率差异，并指出Teacher Forcing会膨胀曲率而边际似然曲率因缺失信息校正而减小。实验表明窗口证据微调可改善证据但可能损害动力学质量指标。

How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum

Chu-Cheng Lin, Eugene Ie

cs.LG cs.AI

本文研究了在推理模型后训练中，使用Tsallis损失族$J_Q$来插值强化学习（RLVR）与对数边际似然（density-estimation pole），并提出了两种Monte Carlo估计器GARL和PAFT。实验表明，在冷启动场景下，GARL在$q=0.75$时能有效缓解训练停滞问题，但在热启动场景下不同任务表现各异。

cs.AI

Co-Director: Agentic Generative Video Storytelling ⭐ 精选

Yale Song et al.

cs.AI cs.MA cs.MM

Co-Director提出了一种层次化多agent框架，将视频故事生成形式化为全局优化问题。该方法通过多臂老虎机（multi-armed bandit）全局识别有前景的创意方向，并引入局部多模态自优化循环（self-refinement loop）来缓解身份漂移（identity drift），从而在探索新颖叙事策略与利用有效创意配置之间取得平衡。该工作为agent驱动的生成式视频叙事提供了原则性方法，并在个性化广告场景中显著优于现有基线。

Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate ⭐ 精选

John Seon Keun Yi, Aaron Mueller, Dokyun Lee

cs.AI

本文提出了一种名为Latent Agents的后训练框架，通过两阶段fine-tuning pipeline（结合debate结构学习与动态奖励调度及长度裁剪）将多智能体辩论（multi-agent debate）过程蒸馏到单个LLM中。实验表明，该内化模型在匹配或超越显式多智能体辩论性能的同时，最多可减少93%的token消耗。进一步通过activation steering发现，内化过程在激活空间中创建了对应于不同智能体视角的可解释子空间（agent-specific subspaces），并展示了通过负向steering抑制恶意智能体行为的实际应用。该工作为理解蒸馏模型中的多智能体能力提供了新视角，并给出了控制内化推理行为的实用指南。

Agentic Architect: An Agentic AI Framework for Architecture Design Exploration and Optimization ⭐ 精选

Alexander Blasberg, Vasilis Kypriotis, Dimitrios Skarlatos

cs.AI cs.AR

本文提出了Agentic Architect，一个结合LLM驱动的代码进化与cycle-accurate仿真的agentic AI框架，用于计算机体系结构设计空间探索与优化。该框架允许人类架构师指定优化目标、种子设计、评分函数等，而LLM则在约束下探索实现，在cache替换、数据预取和分支预测任务上匹配或超越了现有最优设计。本文的关键贡献在于首次提出了一个端到端的开源agentic AI框架，并揭示了agentic AI驱动的微架构设计中种子质量、目标约束等对搜索效果的影响。该工作与关键词中的agent高度契合，且方法具有开创性。

StratFormer: Adaptive Opponent Modeling and Exploitation in Imperfect-Information Games ⭐ 精选

Andy Caen, Mark H.M. Winands, Dennis J.N.J. Soemers

cs.AI

StratFormer提出了一种基于transformer的meta-agent架构，通过两阶段课程学习在不完美信息博弈中同时建模和利用对手。其核心创新在于引入了dual-turn tokens（在agent和对手决策点构建的特征向量）和bucket-rate features（编码对手在五种策略情境下的倾向），第一阶段训练对手建模头以识别行为模式，第二阶段通过基于可剥削性的正则化调度逐步将策略转向最佳响应（best-response）利用。在Leduc Hold'em上的实验表明，该方法在保持接近纳什均衡安全性的同时，平均每手牌获得+0.106 Big Blinds的利用增益，对高可剥削对手的峰值增益达+0.821 BB。该工作为agent在非完美信息博弈中的自适应对手建模与利用提供了新范式。

Recursive Multi-Agent Systems ⭐ 精选

Xiyuan Yang et al.

cs.AI cs.CL cs.LG

本文提出RecursiveMAS，一种递归式多智能体框架，将整个多智能体系统建模为统一latent space中的递归计算。通过轻量级RecursiveLink模块实现异构agent间的协作循环与latent state传递，并设计内外环联合学习算法实现跨递归轮次的梯度共享与系统协同优化。该方法在数学、科学、代码生成等9个基准上平均准确率提升8.3%，同时实现1.2-2.4倍推理加速和34.6%-75.6%的token节省，为agent协作的递归扩展提供了开创性方案。

A Quantitative Definition of Intelligence

Kang-Sin Choi

cs.AI cs.CC cs.LG

本文提出了一种基于描述长度和输出独立性的智能量化定义，将智能视为系统独立输出对数与总描述长度的比值，并区分了记忆与知识。该定义统一了从逻辑门到大脑的智能连续谱，并讨论了意义与语境性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

S-SONDO: Self-Supervised Knowledge Distillation for General Audio Foundation Models

Mohammed Ali El Adlouni et al.

cs.AI cs.SD

本文提出S-SONDO框架，通过仅使用输出embedding进行知识蒸馏，实现了对通用音频基础模型的压缩，学生模型可缩小至61倍并保留96%的性能。该方法无需logits或层间对齐，适用于仅输出embedding的自监督或metric-learning模型。

Adaptive Prompt Embedding Optimization for LLM Jailbreaking

Miles Q. Li et al.

cs.AI

本文提出了一种针对对齐LLM的白盒越狱攻击方法PEO，通过直接优化原始提示的embedding而非添加对抗性后缀，在保持语义的同时实现了攻击。该方法与关键词列表中的概念关联较弱。

Assessing Y-Axis Influence: Bias in Multimodal Language Models on Chart-to-Table Translation

Seok Hwan Song, Azher Ahmed Efat, Wallapak Tavanapong

cs.AI

本文研究了多模态语言模型在图表到表格翻译任务中存在的y轴信息偏差问题，提出了FairChart2Table框架来分析五种模型的偏差表现，发现刻度值长度、刻度数量等因素会影响模型性能。该工作主要关注数据偏差分析，与关键词中的code、spectral、Muon等概念关联较弱。

Sparse Personalized Text Generation with Multi-Trajectory Reasoning

Bo Ni et al.

cs.AI

本文提出PAT框架，通过检索写作风格和主题偏好两条轨迹的信息，并利用强化学习迭代推理机制，解决冷启动场景下大语言模型个性化文本生成的稀疏数据问题。

Toward a Science of Intent: Closure Gaps and Delegation Envelopes for Open-World AI Agents

Maximiliano Armesto, Christophe Kolb

cs.AI cs.SE

本文提出了intent compilation的概念，将部分指定的人类意图转化为可检查的artifact，并定义了closure-gap vector和delegation envelopes来形式化开放世界AI agent的部署问题，区分了closed-world solver与open-world agent的差异。

Leverage Laws: A Per-Task Framework for Human-Agent Collaboration

Stan Loosmore

cs.AI cs.CL

本文提出了一个用于人机协作的每任务杠杆率框架，将人类工作被agent替代的量与任务指定、中断处理和结果审查所需的人类时间之比作为核心度量，并分析了信息密度和渐近行为。该框架整合了监督控制、共同基础和混合主动交互等早期定性工作，但未直接涉及代码、上下文、谱方法或预训练等关键词。

Evaluating Risks in Weak-to-Strong Alignment: A Bias-Variance Perspective

Hamid Osooli et al.

cs.AI

本文从bias-variance-covariance视角分析了weak-to-strong alignment中的风险，推导了基于misfit的上界，并在PKU-SafeRLHF和HH-RLHF数据集上评估了SFT、RLHF和RLAIF等pipeline。研究发现strong-model variance是预测deception的最强指标，可作为早期预警信号。

Cooperate to Compete: Strategic Coordination in Multi-Agent Conquest

Abigail O'Neill et al.

cs.AI cs.CL

本文提出了一个名为Cooperate to Compete (C2C)的多智能体环境，用于研究基于语言模型(LM)的agent在混合动机场景中的策略协调。通过AI游戏和人类用户实验，发现人类与LM-based agent在谈判行为上存在显著差异，并据此改进了agent的谈判策略。

Doing More With Less: Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling

Ocean Monjur, Shahriar Kabir Nahin, Anshuman Chhabra

cs.AI cs.CL cs.LG

本文研究了非结构化剪枝（unstructured pruning）对推理型LLM在测试时计算缩放（test-time scaling, TTS）性能的影响，发现非结构化剪枝有时能提升TTS性能，甚至优于未剪枝的完整模型。实验在s1.1-7B和Qwen3-8B上进行，并探讨了不同层间稀疏度分配策略的效果。

Semantic Layers for Reliable LLM-Powered Data Analytics: A Paired Benchmark of Accuracy and Hallucination Across Three Frontier Models

Michael Rumiantsau, Ivan Fokeev

cs.AI

本文通过基准测试发现，在LLM驱动的数据分析中，提供显式的业务语义文档（semantic-layer document）可将text-to-SQL的准确率提升17-23个百分点，且模型间的差异不显著，表明语义上下文而非模型能力是提升可靠性的关键。

Training Transformers as a Universal Computer

Ruize Xu et al.

cs.AI

本文使用PENCIL scaffolding技术训练一个小型transformer在有限context window内执行MicroPy程序的小步计算，证明了transformer可以学习执行通用计算程序。

From Insight to Action: A Novel Framework for Interpretability-Guided Data Selection in Large Language Models

Ling Shi et al.

cs.AI

本文提出了一种名为Interpretability-Guided Data Selection (IGDS)的框架，利用Sparse Autoencoders (SAEs)识别大语言模型中的因果任务特征，并据此选择能最大化激活这些特征的数据进行微调。实验表明，该方法在数学推理等任务上能以更少数据超越全数据集微调的性能，但与我提供的关键词列表关联度较低。

DATAREEL: Automated Data-Driven Video Story Generation with Animations

Ridwan Mahbub et al.

cs.AI

DataReel是一个包含328个真实世界数据视频故事的基准测试，用于评估模型生成动画数据视频故事的能力。本文提出了一个多智能体框架，将任务分解为规划、生成和验证阶段，实验表明该方法优于直接提示基线。

ValueAlpha: Agreement-Gated Stress Testing of LLM-Judged Investment Rationales Before Returns Are Observable

Sidi Chang, Peiying Zhu, Yuxiao Chen

cs.AI q-fin.CP

本文提出ValueAlpha协议，用于在投资回报可观测前，通过一致性门控压力测试来验证LLM对投资理由的评判是否可靠。该协议在模拟环境中展示了其过滤不可靠评判的能力，但主要贡献在于提供了一个评估前的计量层，而非解决该领域的长期核心问题。

AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery

Lei Xiong et al.

cs.AI

本文提出了AutoResearchBench，一个用于评估AI agent在科学文献自主发现能力的基准测试，包含Deep Research和Wide Research两种任务。实验表明，即使是最强的LLM在该基准上的表现也极低，揭示了当前AI在复杂科学文献检索方面的巨大挑战。

Plausible but Wrong: A case study on Agentic Failures in Astrophysical Workflows

Shivam Rawat, Lucie Flek

cs.AI astro-ph.IM

本文研究了CMBAgent在天体物理工作流中的表现，发现其在有领域上下文时性能提升约6倍，但在压力测试中常出现静默失败（生成语法正确但物理上不一致的结果）。该工作强调了agent系统在科学任务中可能产生看似合理但错误的输出，但方法本身缺乏开创性且与关键词关联较弱。

Multi-action Tangled Program Graphs for Multi-task Reinforcement Learning with Continuous Control

Quentin Vacher et al.

cs.AI

本文提出了一种基于Tangled Program Graphs (TPG)的变体Multi-Action TPG (MATPG)，用于连续控制的多任务强化学习环境。通过在MuJoCo Half Cheetah基准上引入随机障碍物，实验表明MATPG结合lexicase selection在该多任务场景下具有优越性，且模型决策流完全可解释。

JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR

Xinjie Chen et al.

cs.AI

本文提出JURY-RL框架，通过将模型rollouts的投票结果作为候选答案，并由Lean形式化验证器决定是否给予奖励，在无标签的RLVR训练中避免假阳性。当验证不明确时，使用ResZero回退奖励机制维持稳定梯度，在数学推理基准上优于其他无标签基线方法。

PI-TTA: Physics-Informed Source-Free Test-Time Adaptation for Robust Human Activity Recognition on Mobile Devices

Changyu Li et al.

cs.AI

本文提出PI-TTA框架，通过引入重力一致性、短时时间连续性和频谱稳定性三个物理约束，解决了移动设备上人体活动识别中源域自由测试时自适应（TTA）的不稳定性问题。该方法在保持轻量级的同时，有效缓解了流式非独立同分布数据下的过置信错误和灾难性遗忘。

SciEval: A Benchmark for Automatic Evaluation of K-12 Science Instructional Materials

Zhaohui Li et al.

cs.AI

本文提出了一个名为SciEval的基准数据集，用于自动评估K-12科学教学材料，并测试了多种主流LLM在该任务上的表现。实验表明，领域特定的微调（fine-tuning）可以显著提升性能，但该工作主要聚焦于教育领域的应用评估，与您提供的关键词（如code, spectral, Muon等）关联度较低。

Improving Zero-Shot Offline RL via Behavioral Task Sampling

Nazim Bendib, Nicolas Perrin-Gilbert, Olivier Sigaud

cs.AI

本文提出了一种从offline dataset中提取task vectors的方法，用于改进offline zero-shot RL中的策略训练。该方法通过更合理的task sampling提升了agent的zero-shot泛化性能。

PHISHREV: A Hybrid Machine Learning and Post-Hoc Non-monotonic Reasoning Framework for Context-Aware Phishing Website Classification

Mainak Sen, Kumar Sankar Ray, Amlan Chakrabarti

cs.AI

本文提出一个混合框架PHISHREV，将机器学习分类器与基于Answer Set Programming的非单调推理结合，用于上下文感知的钓鱼网站检测。该后验推理层通过专家知识修正分类结果，并支持在$\mathcal{O}(n)$时间内融入新领域知识。

Automated Adversarial Collaboration for Advancing Theory Building in the Cognitive Sciences

Suyog Chandramouli, George Kachergis, Akshay Jagadish

cs.AI

本文提出一个自动化对抗协作框架，结合LLM-based theory agents、program synthesis和信息论实验设计，用于在认知科学中自动裁决竞争理论。在模拟实验中，该框架能在不同噪声设置下恢复真实理论，但最困难设置下可靠性较弱。

Sample-efficient Neuro-symbolic Proximal Policy Optimization

Simone Murari, Celeste Veronese, Daniele Meli

cs.AI

本文提出了一种神经符号扩展的Proximal Policy Optimization (PPO)方法，通过将较简单实例中学到的部分逻辑策略规范迁移到更具挑战性的环境中，以提升样本效率。该方法在三个基准测试上展示了比标准PPO更快的收敛速度和更高的最终回报。

DualFact+: A Multimodal Fact Verification Framework for Procedural Video Understanding

Cennet Oguz et al.

cs.AI

DualFact+提出了一个用于过程性视频描述的双层多模态事实性评估框架，将事实正确性分为概念事实和上下文事实，并通过隐式参数增强和对比事实集来支持评估。实验表明，现有模型生成的描述流畅但事实不完整，而DualFact比标准指标更符合人类判断，揭示了多模态事实基础中的持续挑战。

OxyGent: Making Multi-Agent Systems Modular, Observable, and Evolvable via Oxy Abstraction

Junxing Hu et al.

cs.AI

本文提出了OxyGent框架，通过Oxy抽象将agent、工具、LLM和推理流封装为可插拔组件，以支持模块化、可观测和可进化的multi-agent系统。该框架引入了基于权限的动态规划来生成运行时执行图，并集成了AI资产管理平台OxyBank以支持持续演化。

The Nonverbal Syntax Framework: An Evidence-Based Tiered System for Inferring Learner States from Observable Behavioral Cues

Sherzod Turaev et al.

cs.AI

本文提出了一个基于系统文献综述的非言语语法框架，通过标准化行为线索与学习者状态之间的映射关系，解决了术语碎片化和证据异质性等问题。该框架包含四个层级，并区分了高证据与低证据的关系，为教育技术中的状态推断提供了实证基础。

HotComment: A Benchmark for Evaluating Popularity of Online Comments

Yafeng Wu et al.

cs.AI

本文提出了HotComment基准，用于评估在线评论的受欢迎程度，并设计了StyleCmt方法模拟社会涟漪效应。该工作主要关注社交媒体评论分析，与关键词中的agent概念有一定关联，但整体方法缺乏开创性且未解决长期问题。

Think Before You Act -- A Neurocognitive Governance Model for Autonomous AI Agents

Eranga Bandara et al.

cs.AI

本文提出一种神经认知治理框架PAGRL，将人类自我治理的认知过程映射到LLM驱动的agent推理中，通过四层治理规则集在行动前进行合规评估。在零售供应链工作流中实现了95%的合规准确率和零误报，但方法更偏向工程应用而非理论创新。

RADD: Retrieval-Augmented Discrete Diffusion for Multi-Modal Knowledge Graph Completion

Guanglin Niu, Bo Li

cs.AI

本文提出RADD框架，将多模态知识图谱补全中的检索与重排序解耦，使用关系感知多模态KGE检索器进行全局检索，并用条件离散去噪器对候选集进行重排序。实验表明该方法在多个基准上取得最佳性能。

Scalable Inference Architectures for Compound AI Systems: A Production Deployment Study

Srikanta Prasad S V, Utkarsh Arora

cs.AI

本文介绍了Salesforce为支持compound AI systems（如Agentforce和ApexGuru）而部署的模块化、平台无关的推理架构，通过serverless执行、动态自动缩放和MLOps管道，实现了P95尾延迟降低50%以上、吞吐量提升3.9倍以及30-40%的成本节约。文章分析了多模型扇出开销、级联冷启动传播等compound-system-specific挑战，但未涉及code、context、spectral、Muon、pretrain、attention等关键词中的核心概念。

Toward Scalable Terminal Task Synthesis via Skill Graphs

Zhiyuan Fan et al.

cs.AI

SkillSynth是一个自动化框架，通过构建基于场景的技能图来合成终端任务实例，以控制训练轨迹的多样性。该方法使用多智能体系统将图采样路径实例化为可执行任务，并在Terminal-Bench上验证了有效性。

QAROO: AI-Driven Online Task Offloading for Energy-Efficient and Sustainable MEC Networks

Yongtao Yao et al.

cs.AI

本文提出了一种名为QAROO的在线任务卸载框架，用于无线供能的移动边缘计算网络，通过整合量子神经网络和attention机制来优化计算与能源资源。该方法在动态信道环境下实现了比传统方案更优的归一化计算速度和处理时间。

TrialCalibre: A Fully Automated Causal Engine for RCT Benchmarking and Observational Trial Calibration

Amir Habibdoust, Xing Song

cs.AI

本文提出了TrialCalibre，一个用于自动化BenchExCal框架的多agent系统，通过专门agent协调RCT基准测试和观察性试验校准，旨在提高因果效应估计的可扩展性和透明度。

Action-Aware Generative Sequence Modeling for Short Video Recommendation

Wenhao Li et al.

cs.AI cs.IR

本文提出了一种名为A2Gen的序列建模方法，通过将用户行为按时间维度细化为动作序列来提升短视频推荐精度。该方法利用Context-aware Attention Module和Hierarchical Sequence Encoder建模动作模式，并在快手和天猫数据集上验证了有效性。

Semi-Markov Reinforcement Learning for City-Scale EV Ride-Hailing with Feasibility-Guaranteed Actions

An Nguyen et al.

cs.AI

本文研究城市级电动汽车网约车车队的调度、重新定位和充电控制问题，将其建模为六边形网格上的半马尔可夫决策过程（semi-MDP），并采用掩码温度退火actor与时间受限混合整数线性规划（MILP）相结合的方法保证动作的物理可行性。通过优化一个基于Wasserstein-1模糊集和图形对齐马氏距离的鲁棒Soft Actor-Critic（SAC）智能体来缓解分布偏移，实验在纽约出租车数据模拟器上验证了该方法相比基线具有更高的净利润。

ADEMA: A Knowledge-State Orchestration Architecture for Long-Horizon Knowledge Synthesis with LLMAgents

Zhou Hanlin, Chan Huah Yong

cs.AI

ADEMA提出了一种用于长时域LLM任务的知识状态编排架构，通过显式认知记账、双评估器治理和检查点恢复等机制来防止知识漂移。该架构在固定实验矩阵中验证了检查点恢复机制对中断敏感场景的关键作用，但整体方法更偏向工程集成而非理论创新。

cs.IR

The Attention Market: Interpreting Online Fair Re-ranking as Manifold Optimization under Walrasian Equilibrium ⭐ 精选

Chen Xu et al.

cs.IR

本文提出了一种新颖的在线公平重排序方法ManifoldRank，将公平重排序问题重新表述为Walrasian Equilibrium下的注意力市场框架，其中公平性被视为税收成本。通过将该市场框架与manifold optimization耦合，作者证明了寻求该均衡等价于在由市场构建的特定ranking manifold上进行gradient descent，并揭示了不同重排序设置会导致不同的manifold geometry，从而影响优化轨迹。ManifoldRank通过调整gradient以对齐ranking manifold，在供给端根据公平需求调整梯度，在需求端基于ranking scores预测额外的梯度调整项，从而有效平衡公平性与准确性。该方法在多个数据集上验证了有效性，其核心思想与关键词中的“attention”和“context”高度契合。

Versioned Late Materialization for Ultra-Long Sequence Training in Recommendation Systems at Scale

Liang Guo et al.

cs.IR cs.AI cs.DB

本文提出了一种名为“versioned late materialization”的数据范式，通过归一化存储用户交互历史并在训练时即时重建序列，解决了超长序列推荐系统中数据冗余导致的存储和I/O瓶颈问题。该方法在工业级DLRM上部署，显著降低了数据基础设施资源消耗并支持了更长的序列长度。

Offline Evaluation Measures of Fairness in Recommender Systems

Theresia Veronika Rampisela

cs.IR

本文系统性地评估了推荐系统中公平性的离线评价指标，分析了现有指标在理论、经验和概念上的局限性，并提出了新的评价方法和使用指南。

UnIte: Uncertainty-based Iterative Document Sampling for Domain Adaptation in Information Retrieval

Jongyoon Kim, Minseong Hwang, Seung-won Hwang

cs.IR cs.AI

本文提出UnIte方法，通过不确定性度量（aleatoric和epistemic uncertainty）迭代筛选文档以生成伪查询，用于无监督域适应的信息检索。实验表明该方法在BEIR数据集上以较少训练样本提升了检索性能。

From Local Indices to Global Identifiers: Generative Reranking for Recommender Systems via Global Action Space

Pengyue Jia et al.

cs.IR

本文提出GloRank，一种将推荐系统中的list-wise reranking任务从选择局部索引转变为生成全局标识符的生成式框架。该方法通过将item表示为离散token序列并作为token生成任务处理，解决了传统方法中action space语义不一致的问题，并采用两阶段优化（监督预训练+强化学习后训练）来最大化列表效用。

Stop Using the Wilcoxon Test: Myth, Misconception and Misuse in IR Research

Julián Urbano

cs.IR stat.AP stat.ME

本文通过系统文献综述和TREC数据实证分析，指出在信息检索(IR)系统评估中广泛使用的Wilcoxon signed-rank检验存在严重误用问题，其Type I error rate容易失控，建议放弃使用该检验方法。

GeoSearch: Augmenting Worldwide Geolocalization with Web-Scale Reverse Image Search and Image Matching

Tung-Duong Le-Duc, Hoang-Quoc Nguyen-Son, Minh-Son Dao

cs.IR cs.CV

本文提出GeoSearch框架，通过将web-scale reverse image search集成到RAG pipeline中，并引入两层过滤机制（image matching和confidence-based gating），以增强全球图像地理定位能力。实验在Im2GPS3k和YFCC4k基准上验证了其有效性。

Health System Scale Semantic Search Across Unstructured Clinical Notes

Faith Wavinya Mutinda et al.

cs.IR cs.AI cs.DB

本文介绍了一个在大型儿童医院部署的语义搜索系统，该系统索引了1.66亿份临床笔记，使用指令微调的qwen3-embedding-0.6B模型生成embedding，并实现了亚秒级查询延迟。该系统在临床效用评估中显著减少了图表抽象任务的时间，但主要聚焦于工程实现和临床信息检索，与我提供的关键词（如code, spectral, Muon, pretrain, agent, attention）关联度较低。

K-CARE: Knowledge-driven Symmetrical Contextual Anchoring and Analogical Prototype Reasoning for E-commerce Relevance

Chen Yifei et al.

cs.IR

本文提出K-CARE框架，通过对称上下文锚定（SCA）和类比原型推理（APR）两个组件，利用外部知识增强大语言模型在电商搜索相关性任务中的表现，以解决因领域知识缺失导致的性能瓶颈。实验表明该方法在离线评估和在线A/B测试中均优于现有基线。

From Citation Selection to Citation Absorption: A Measurement Framework for Generative Engine Optimization Across AI Search Platforms

Zhang Kai, Yao Jingang

cs.IR

本文提出一个两阶段测量框架，将Generative Engine Optimization (GEO) 分为citation selection和citation absorption，并基于公开数据集分析多个AI搜索平台。研究发现citation breadth与depth存在差异，高影响力页面通常更长、结构更清晰且语义对齐，建议GEO应超越引用计数，将答案层面的吸收作为独立指标。

Personalized Multi-Interest Modeling for Cross-Domain Recommendation to Cold-Start Users

Xiaodong Li et al.

cs.IR

本文提出了一种名为NF-NPCDR的跨域推荐框架，通过结合normalizing flow和neural process来建模用户的个性化多兴趣偏好，并引入偏好池捕捉用户间的共同偏好，以缓解冷启动问题。该方法主要针对推荐系统领域，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联度较低。

Harmonizing Generative Retrieval and Ranking in Chain-of-Recommendation

Yu Liu, Jiangxia Cao

cs.IR

本文提出RecoChain框架，将生成式检索和排序统一到单个Transformer中，通过层次化语义ID预测生成候选项目，再基于SIM进行排序估计点击可能性，以弥合生成与排序性能之间的差距。实验表明该方法在Top-K推荐上取得改进。

Break the Inaccessible Boundary: Distilling Post-Conversion Content for User Retention Modeling

Tianbao Ma et al.

cs.IR

本文提出OCARM框架，通过两阶段蒸馏对齐方法，在用户转化前利用后转化内容（Onboarding Content）提升留存预测模型性能，解决了训练与推理间的特征泄露问题。

Make Any Collection Navigable: Methods for Constructing and Evaluating Hypergraph of Text

Dean E. Alvarez, ChengXiang Zhai

cs.IR

本文提出了构建文本超图(Hypergraph of Text, HoT)的几种方法，并引入了一个新的定量指标effort ratio来评估其结构质量。实验表明，简单的TF-IDF基线方法在effort ratio指标上能够匹配基于LLM的方法。

cs.CL

Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses ⭐ 精选

Jiahang Lin et al.

cs.CL cs.SE

本文提出Agentic Harness Engineering (AHE)框架，通过引入component observability、experience observability和decision observability三个可观测性支柱，将coding-agent的harness工程自动化。该方法将每个编辑操作与自声明预测配对，形成可证伪的契约，从而避免试错式演化。实验表明，AHE在Terminal-Bench 2上将pass@1从69.7%提升至77.0%，超越人类设计的harness和自演化基线，且演化后的harness可跨模型族迁移，体现了通用工程经验的编码能力。该工作与关键词"agent"和"code"高度契合，为coding-agent的持续自主改进提供了实用路径。

Elderly-Contextual Data Augmentation via Speech Synthesis for Elderly ASR

Minsik Lee et al.

cs.CL cs.SD

本文提出了一种结合LLM和TTS的数据增强方法，用于改善老年人语音识别（EASR）中的数据稀缺问题。实验表明该方法在英语和韩语数据集上能显著降低词错误率（WER）。

Large Language Models Explore by Latent Distilling

Yuanhao Zeng et al.

cs.CL cs.AI cs.LG

本文提出Exploratory Sampling (ESamp)解码方法，通过训练轻量级Distiller模型预测LLM深层隐藏表示，利用预测误差作为新颖性信号来重加权候选token，从而在生成过程中鼓励语义多样性。该方法在数学、科学和代码生成基准上提升了Pass@k效率，并打破了创意写作中多样性与连贯性的权衡。

GAIA-v2-LILT: Multilingual Adaptation of Agent Benchmark beyond Translation

Yunsu Kim, Kaden Uhlig, Joern Wuebker

cs.CL cs.AI

本文提出了一种改进的多语言agent benchmark适配流程，通过功能对齐、文化对齐和难度校准来替代简单的机器翻译方法，并基于此构建了GAIA-v2-LILT数据集。实验表明，该方法能显著减少多语言性能差距中的测量误差，但未涉及code、spectral、Muon或attention等关键词相关技术。

ADE: Adaptive Dictionary Embeddings -- Scaling Multi-Anchor Representations to Large Language Models

Orhan Demirci, Sezer Aptourachman

cs.CL cs.AI

本文提出Adaptive Dictionary Embeddings (ADE)框架，通过Vocabulary Projection和Grouped Positional Encoding等创新，将多锚点词表示成功扩展到大型语言模型。实验表明，ADE在参数效率上显著优于DeBERTa，但方法本身与关键词列表中的code, context, spectral等概念关联较弱。

Independent-Component-Based Encoding Models of Brain Activity During Story Comprehension

Kamya Hari et al.

cs.CL q-bio.NC

本文提出了一种基于独立成分(IC)的编码框架，用于分析自然故事聆听任务中的fMRI数据，通过将数据分解为IC并训练编码模型来预测IC时间序列，从而分离刺激驱动和噪声驱动的信号。该方法在功能网络层面进行分析，提高了跨被试的可解释性和一致性。

BenchGuard: Who Guards the Benchmarks? Automated Auditing of LLM Agent Benchmarks

Xinming Tu et al.

cs.CL cs.AI cs.SE

本文提出了BenchGuard，一个利用前沿LLM自动审计面向任务的、基于执行的agent benchmark的框架。它通过结构化LLM协议交叉验证benchmark工件，并发现了多个由作者确认的严重问题。

Dynamic Decision Learning: Test-Time Evolution for Abnormality Grounding in Rare Diseases

Jun Li et al.

cs.CL

本文提出Dynamic Decision Learning (DDL)框架，通过优化指令和整合视觉扰动下的预测，使冻结的大型视觉语言模型在测试阶段改进决策，提升罕见病异常定位质量。实验表明DDL在罕见病数据集上显著优于微调基线。

A Survey on LLM-based Conversational User Simulation

Bo Ni et al.

cs.CL cs.HC

本文综述了基于大语言模型(LLM)的对话用户模拟技术，提出了涵盖用户粒度和模拟目标的新分类体系，并系统分析了核心技术与评估方法。该工作为对话系统研究提供了统一框架，但未涉及代码、谱方法或注意力机制等关键词相关领域。

Dont Stop Early: Scalable Enterprise Deep Research with Controlled Information Flow and Evidence-Aware Termination

Prafulla Kumar Choubey et al.

cs.CL cs.SE

本文提出了一种可扩展的企业深度研究（EDR）架构，通过大纲生成、依赖引导的上下文局部化和基于证据的终止标准，解决了信息覆盖不均和过早停止的问题。实验表明，该方法在内部销售任务和公开基准上优于现有基线。

Why Does Reinforcement Learning Generalize? A Feature-Level Mechanistic Study of Post-Training in Large Language Models

Dan Shi et al.

cs.CL

本文提出了一种特征层面的机制分析方法，用于研究基于RL的后训练如何提升LLM的泛化能力，发现RL相比SFT能更温和地改变模型表示并保留基础模型特征，且识别出一组紧凑的、任务无关的特征在泛化中起因果作用。

Faithful Autoformalization via Roundtrip Verification and Repair

Daneshvar Amrollahi, Jerry Lopez, Clark Barrett

cs.CL cs.AI

本文提出了一种通过往返验证和修复来确保LLM自动形式化忠实性的方法，利用形式化工具检查逻辑等价性，并在Claude和GPT模型上进行了评估。该方法与关键词中的“agent”和“attention”关联较弱，主要聚焦于形式化验证而非核心数学创新。

Dual-Track CoT: Budget-Aware Stepwise Guidance for Small LMs

Sagnik Chatterjee, Atharva Patil, Sricharan Ramesh

cs.CL cs.AI

本文探讨了在有限计算和token预算下，通过预算感知的逐步引导（Dual-Track CoT）提升小语言模型（SLMs）的多步推理能力，但方法本身在开创性上较为有限，且与关键词列表中的概念关联较弱。

Analyzing LLM Reasoning to Uncover Mental Health Stigma

Sreehari Sankar et al.

cs.CL cs.AI

本文通过分析LLM的中间推理步骤来揭示其对心理疾病患者的隐性偏见，并利用临床专业知识对推理中的污名化语言进行分类和严重性评级。研究发现，评估模型推理比传统多选题方法能暴露更多偏见，并有助于识别LLM逻辑中的缺陷。

The Dynamics of Delusion: Modeling Bidirectional False Belief Amplification in Human-Chatbot Dialogue

Ashish Mehta et al.

cs.CL cs.HC

本文使用latent state model分析了人类与chatbot对话中delusion的相互强化现象，发现双向影响模型优于单向模型，且chatbot的self-influence在长期对话中主导了delusion的持续传播。

Diagnosis, Bad Planning & Reasoning. Treatment, SCOPE -- Planning for Hybrid Querying over Clinical Trial Data

Suparno Roy Chowdhury et al.

cs.CL

本文提出SCOPE框架，通过多LLM planner将临床实验表格推理任务分解为行选择、结构化规划和执行，以解决隐式规划假设下的推理错误问题。实验表明该方法在混合推理问题上优于直接提示和agent基线。

LongSumEval: Question-Answering Based Evaluation and Feedback-Driven Refinement for Long Document Summarization

Huyen Nguyen et al.

cs.CL

本文提出了LongSumEval框架，通过基于question-answering的评估与反馈机制来改进长文档摘要质量。该框架将摘要质量量化为question-answer pairs的可回答性与事实一致性，并生成可解释的分数与可操作的反馈。

What Makes Good Instruction-Tuning Data? An In-Context Learning Perspective

Guangzeng Han, Xiaolei Huang

cs.CL

本文从in-context learning的角度提出了一种基于加权上下文影响(wICI)的指令数据选择框架，用于衡量候选样本对语义相关样本的指令遵循难度降低效果。实验表明该方法在有限数据预算下优于现有基线，并发现样本难度与上下文影响呈负相关。

Korean aegyo speech shows systematic F1 increase to signal childlike qualities

Ji-eun Kim, Volker Dellwo

cs.CL cs.SD eess.AS

本文通过分析12名首尔韩语使用者的共振峰频率，发现韩国aegyo（一种成人间使用的儿童化说话风格）在元音空间中表现出F1值的系统性增加，表明说话者通过模仿儿童较短的声道来产生儿童化语音特征。

FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Amir Saeidi et al.

cs.CL

本文提出了一种名为FAMA的框架，通过分析失败轨迹并激活专门agent来为工具使用agent注入上下文，以提升开源LLM在交互式工具环境中的表现。实验表明该方法在模拟真实对话场景中取得了显著性能提升。

Frictive Policy Optimization for LLMs: Epistemic Intervention, Risk-Sensitive Control, and Reflective Alignment

James Pustejovsky, Nikhil Krishnaswamy

cs.CL cs.AI cs.LG

本文提出Frictive Policy Optimization (FPO)框架，将澄清、验证、拒绝等行为建模为显式控制动作，以管理语言模型在信念演化中的认知与规范风险。该工作将alignment形式化为风险敏感的认知控制问题，并引入干预分类与评估指标，但未涉及code、spectral、Muon或pretrain等关键词。

CroSearch-R1: Better Leveraging Cross-lingual Knowledge for Retrieval-Augmented Generation

Rui Qi et al.

cs.CL

本文提出CroSearch-R1框架，通过多轮检索策略和跨语言知识整合，将多语言知识统一到表示空间中，以提升检索增强生成(RAG)的效果。实验表明该方法能有效利用跨语言互补性。

BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

Arnon Mazza, Elad Levi

cs.CL cs.AI cs.LG

本文提出了BARRED框架，通过将任务空间分解为多个维度并使用多智能体辩论来生成高保真度的合成训练数据，从而训练自定义策略护栏分类器。实验表明，基于该合成数据微调的小型语言模型在多种自定义策略上优于专有LLM和专用护栏模型。

Below-Chance Blindness: Prompted Underperformance in Small LLMs Produces Positional Bias Rather than Answer Avoidance

Jon-Paul Cacioli

cs.CL cs.AI

本文研究了小型LLM在提示下故意表现不佳（sandbagging）时的行为模式，发现其表现为位置偏差而非答案回避。实验表明，在7-9B参数规模的模型中，低于随机水平的准确率并未出现，模型主要采用位置主导的响应策略。

Learning from Medical Entity Trees: An Entity-Centric Medical Data Engineering Framework for MLLMs

Jianghang Lin et al.

cs.CL

本文提出了一种面向医学多模态大模型的实体中心数据工程框架，通过构建医学实体树来组织层次化临床知识，并设计了节点引导检索、混合过滤对齐和知识感知数据合成等模块，以提升模型在医学任务上的表现。该方法主要关注数据工程而非关键词中的核心概念。

LegalMidm: Use-Case-Driven Legal Domain Specialization for Korean Large Language Model

Youngjoon Jang et al.

cs.CL cs.AI

本文提出LegalMidm，一个面向韩国法律领域的专用大语言模型，通过构建高质量、用例驱动的法律数据集和优化训练流程来实现领域专业化。该方法强调与法律专业人士合作以确保数据相关性和事实准确性，但未涉及关键词中的code、spectral、Muon、agent或attention等概念。

Faithfulness-QA: A Counterfactual Entity Substitution Dataset for Training Context-Faithful RAG Models

Li Ju, Junzhe Wang, Qi Zhang

cs.CL cs.AI

本文通过反事实实体替换构建了Faithfulness-QA数据集，包含99,094个样本，用于训练RAG模型在上下文与参数记忆冲突时优先选择上下文。该数据集基于SQuAD和TriviaQA，通过替换上下文中的命名实体制造知识冲突，并经过严格质量过滤。

The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models

Abhinav Kumar Singh et al.

cs.CL cs.AI

本文提出了SOB基准，用于评估大语言模型从文本、图像和音频三种模态中提取结构化数据的能力。实验发现模型在schema合规性上表现良好，但值准确性在图像和音频上显著下降。

Language corpora for the Dutch medical domain

B. van Es

cs.CL cs.AI

本文通过翻译英文数据集、识别通用语料库中的医学文本以及提取开放的荷兰语医学资源，构建了首个大规模荷兰语医学语言语料库（约350亿token），并公开在Hugging Face上，为荷兰语医学NLP预训练和下游任务提供了基础资源。

Wiki Dumps to Training Corpora: South Slavic Case

Mihailo Škorić

cs.CL

本文提出了一种将原始Wikimedia dumps转化为高质量文本语料库的方法，主要针对七种南斯拉夫语言，包括文本提取和基于n-gram的冗余过滤两个阶段。该方法虽以南斯拉夫语言为例，但具有语言无关性，可推广至其他语言。

Benchmarking PyCaret AutoML Against IndoBERT Fine-Tuning for Sentiment Analysis on Indonesian IKN Twitter Data

Mutia Alfi Mayzaroh et al.

cs.CL

本文使用PyCaret AutoML和IndoBERT微调方法，对印尼语IKN相关Twitter评论进行二分类情感分析。实验表明，基于Transformer的IndoBERT模型在准确率和F1-score上显著优于传统机器学习方法。

Scaling Probabilistic Transformer via Efficient Cross-Scale Hyperparameter Transfer

Penghao Kuang, Haoyi Wu, Kewei Tu

cs.CL

本文通过应用Maximal Update Parametrization (muP)对Probabilistic Transformer (PT)的参数进行重新缩放，使得在小模型上优化的超参数可以迁移到更大模型上，成功将PT扩展到0.4B参数规模。实验表明，在Masked Language Modeling (MLM)任务中，PT在相同参数预算下持续优于标准Transformer。

Do LLMs Capture Embodied Cognition and Cultural Variation? Cross-Linguistic Evidence from Demonstratives

Yu Wang, Emmanuele Chersoni, Chu-Ren Huang

cs.CL cs.AI

本文通过指示词（demonstratives）作为探针，对比了人类与LLMs在具身认知和文化差异上的表现，发现LLMs无法理解远近指称对比且缺乏文化差异。该研究与关键词列表中的概念关联较弱。

One Refiner to Unlock Them All: Inference-Time Reasoning Elicitation via Reinforcement Query Refinement

Yixiao Zhou et al.

cs.CL

本文提出ReQueR框架，通过Reinforcement Learning训练一个Refiner策略，在推理时将原始查询重写为显式的逻辑分解，以激发冻结LLM的推理能力。该方法在多个架构和基准上取得1.7%-7.2%的绝对提升，但主要贡献在于推理时对齐，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念关联较弱。

Navigating Global AI Regulation: A Multi-Jurisdictional Retrieval-Augmented Generation System

Courtney Ford, Ojas Rane, Susan Leavy

cs.CL

本文构建了一个跨司法管辖区的检索增强生成系统，用于处理全球AI法规文档，通过类型特定分块、条件检索路由和优先级重排序等技术，在单实体和多司法管辖区查询中实现了较高的忠实度和答案相关性。该系统主要面向法律和政策领域的实际应用，而非理论创新。

Benchmarking Logistic Regression, SVM, and LightGBM Against BiLSTM with Attention for Sentiment Analysis on Indonesian Product Reviews

Razin Hafid Hamdi et al.

cs.CL

本文使用PyCaret AutoML框架比较了Logistic Regression、SVM和LightGBM与基于Attention机制的BiLSTM在印尼产品评论情感分类上的性能，发现传统ML方法在精度上可与DL方法竞争且计算效率更高。

An Investigation of Linguistic Biases in LLM-Based Recommendations

Nitin Venkateswaran et al.

cs.CL cs.AI

本文研究了基于LLM的推荐系统中语言方言（如美国南部英语、印度英语和印地语代码混合）对推荐结果的影响，通过零样本提示和混合效应回归模型分析了不同模型大小和方言类型下的推荐差异。

From World-Gen to Quest-Line: A Dependency-Driven Prompt Pipeline for Coherent RPG Generation

Dominik Borawski et al.

cs.CL cs.AI

本文提出了一种基于依赖感知的多阶段prompt pipeline，用于生成结构连贯的RPG内容，通过将生成过程分解为世界构建、角色创建和任务规划等阶段，并利用结构化JSON输出约束数据流，以减少叙事漂移和幻觉。该方法在人类评估中显示出良好的结构完整性和叙事一致性，但未涉及code、spectral或Muon等关键词相关技术。

From Chatbots to Confidants: A Cross-Cultural Study of LLM Adoption for Emotional Support

Natalia Amat-Lefort et al.

cs.CL cs.HC

本文通过一项涵盖7个国家4641名参与者的跨文化研究，调查了LLM在情感支持中的采用情况，发现采用率从20%到59%不等，且社会经济地位是预测积极感知的最强因素。研究收集了731个真实多语言提示，表明用户主要寻求对孤独、压力、关系冲突和心理健康问题的帮助。

Marco-MoE: Open Multilingual Mixture-of-Expert Language Models with Efficient Upcycling

Fan Jiang et al.

cs.CL cs.AI

Marco-MoE提出了一套多语言稀疏Mixture-of-Experts模型，通过从dense model upcycling实现高效预训练，在英语和多语言基准上超越同类模型。其核心贡献在于极稀疏设计（仅激活5%参数）和结构化expert激活模式，但与关键词列表中的code, spectral, Muon, agent, attention等概念关联较弱。

Bye Bye Perspective API: Lessons for Measurement Infrastructure in NLP, CSS and LLM Evaluation

David Hartmann et al.

cs.CL

本文讨论了Perspective API关闭对NLP、CSS和LLM评估领域的影响，指出该工具作为毒性测量标准导致了结构依赖和认知问题，并呼吁建立独立、可复现的测量基础设施。

WhisperPipe: A Resource-Efficient Streaming Architecture for Real-Time Automatic Speech Recognition

Erfan Ramezani et al.

cs.CL cs.SD

WhisperPipe提出了一种用于实时语音识别的流式架构，通过混合VAD管道和动态缓冲机制在保持转录质量的同时降低内存消耗，但该方法主要关注工程优化而非理论创新，与关键词列表中的概念关联较弱。

Progressing beyond Art Masterpieces or Touristic Clichés: how to assess your LLMs for cultural alignment?

António Branco et al.

cs.CL

本文回顾了用于评估大语言模型文化对齐的数据集设计方法，指出了现有局限，并提出了新的标注指南和数据集构建方案。实验表明，该设计能更好地区分针对特定文化优化的模型与通用模型。

LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

Huyen Nguyen et al.

cs.CL cs.AI cs.DL cs.IR

本文对14种自动摘要评估指标进行了元评估，并提出了LLM-ReSum框架，该框架通过LLM自我评估的闭环反馈来改进摘要质量，无需模型微调。实验表明，该方法在多个领域提升了摘要的事实准确性和覆盖率。

Modeling Human-Like Color Naming Behavior in Context

Yuqing Zhang et al.

cs.CL

本文研究了如何通过上采样稀有颜色术语和多听众强化学习交互，使神经代理在NeLLCom-Lex框架中生成更接近人类的颜色命名行为，并采用凸性度量量化几何一致性。实验表明，适度上采样与多听众设置结合能产生最接近人类系统的词汇。

CORAL: Adaptive Retrieval Loop for Culturally-Aligned Multilingual RAG

Nayeon Lee, Jiwoo Song, Byeongcheol Kang

cs.CL cs.AI

本文提出了一种名为CORAL的自适应检索方法，用于多语言检索增强生成(mRAG)，通过迭代优化检索空间和查询来提升文化对齐性，在文化问答基准上取得了改进。

Backtranslation Augmented Direct Preference Optimization for Neural Machine Translation

Mehrdad Ghassabi et al.

cs.CL

本文提出了一种基于Direct Preference Optimization (DPO)的后训练框架，用于改进神经机器翻译（NMT）系统，仅需通用文本语料和专家反馈。实验表明，该方法在英德翻译任务上显著提升了gemma3-1b模型的COMET分数，但方法本身并非开创性，且与关键词列表中的概念关联较弱。

Cross-Lingual Jailbreak Detection via Semantic Codebooks

Shirin Alanova et al.

cs.CL cs.AI

本文提出了一种基于语义码本的跨语言越狱检测方法，通过将多语言查询嵌入与固定的英文越狱提示码本进行比较，实现无需重新训练的黑盒LLM防护。实验表明该方法在规范越狱模板上表现优异（AUC高达0.99），但在分布偏移场景下性能显著下降（AUC约0.60-0.70）。

CGU-ILALab at FoodBench-QA 2026: Comparing Traditional and LLM-based Approaches for Recipe Nutrient Estimation

Wei-Chun Chen et al.

cs.CL cs.AI

本文比较了从TF-IDF到DeBERTa-v3再到LLM（如Gemini 2.5 Flash）等多种方法在非结构化食谱文本中估算营养成分的性能，发现LLM方法在精度上最优但推理延迟高，而传统方法效率高但精度有限。该工作主要聚焦于应用层面的方法对比，未涉及关键词中的核心概念。

Unrequited Emotions: Investigating the Gaps in Motivation and Practice in Speech Emotion Recognition Research

Taryn Wong et al.

cs.CL

本文系统调查了语音情感识别(SER)研究中的动机与实践差距，发现常用数据集与宣称的应用场景（如医疗保健）不匹配，并指出这种差距可能引发伦理问题。

Subliminal Steering: Stronger Encoding of Hidden Signals

George Morgulis, John Hewitt

cs.CL

本文研究了subliminal steering方法，通过steering vector（引导向量）使student language model继承teacher model的行为偏差，并展示了该方法能传递复杂多词偏差，且偏差编码具有较高精度。

MAIC-UI: Making Interactive Courseware with Generative UI

Shangqing Tu et al.

cs.CL cs.AI cs.HC

本文提出了MAIC-UI系统，一个零代码的交互式课件创作工具，通过结构化知识分析和两阶段生成-验证-优化流程，将教材等文档转化为可交互的HTML课件，并支持快速迭代编辑。实验表明该系统在编辑效率和教学效果上优于直接文本到HTML生成方法。

PSI-Bench: Towards Clinically Grounded and Interpretable Evaluation of Depression Patient Simulators

Nguyen Khoi Hoang et al.

cs.CL cs.AI

本文提出了PSI-Bench，一个用于评估抑郁症患者模拟器的自动框架，通过多维度诊断揭示了现有模拟器在行为多样性和情感轨迹上的局限性，并验证了其与专家判断的一致性。

G-Loss: Graph-Guided Fine-Tuning of Language Models

Sharma Aditya, Agarwal Vinti, Kumar Rajesh

cs.CL cs.AI cs.LG

本文提出了一种名为G-Loss的图引导损失函数，通过在embedding manifold上构建document-similarity graph来捕捉全局语义关系，以改进预训练语言模型（如BERT）的微调过程。实验表明，该方法在多个分类任务上比传统损失函数收敛更快且准确率更高，但与我提供的关键词列表（如code, spectral, Muon等）关联度较低。

Luminol-AIDetect: Fast Zero-shot Machine-Generated Text Detection based on Perplexity under Text Shuffling

Lucio La Cava, Andrea Tagarelli

cs.CL cs.AI cs.CY

本文提出了一种名为Luminol-AIDetect的零样本机器生成文本检测方法，通过随机打乱文本并计算perplexity的变化来区分机器与人类写作。该方法在多个领域和语言上取得了先进性能，但主要关注文本检测而非关键词中的code、spectral或Muon等概念。

From Syntax to Emotion: A Mechanistic Analysis of Emotion Inference in LLMs

Bangzhao Shu, Arinjay Singh, Mai ElSherief

cs.CL

本文使用sparse autoencoders (SAEs)分析LLM中情感识别的内部机制，发现情感特征仅在信息流的最后阶段出现，并提出了因果特征引导方法以提升情感识别性能。该工作主要聚焦于自然语言处理中的情感推理，与关键词列表中的code, context, spectral等主题关联较弱。

Toward a Functional Geometric Algebra for Natural Language Semantics

James Pustejovsky

cs.CL cs.AI cs.LG

本文提出用Geometric Algebra (GA)替代传统线性代数作为自然语言语义表示的基础，并构建了Functional Geometric Algebra (FGA)框架，旨在提升组合语义和类型敏感性。该方法在理论上具有新意，但与关键词列表中的概念关联较弱。

A paradox of AI fluency

Christopher Potts, Moritz Sudhof

cs.CL

本文通过分析WildChat-4.8M中的27K对话记录，发现熟练用户与新手在AI交互模式上存在显著差异：熟练用户更倾向于协作迭代，而新手则较为被动。这种差异导致了“AI流畅性悖论”，即熟练用户虽然经历更多失败，但这些失败更易被察觉且常伴随部分恢复，而新手的失败则往往隐蔽。

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

Jinxiang Meng et al.

cs.CL

本文提出了DV-World基准测试，包含260个任务，用于评估数据可视化agent在真实场景中的能力，涵盖电子表格操作、可视化演化及用户意图对齐等维度。实验表明现有模型在该基准上表现不足50%，揭示了其在处理复杂真实世界数据可视化任务时的缺陷。

cs.DS

On the Average-Case Performance of Greedy for Maximum Coverage

Eric Balkanski, Jason Chatzitheodorou, Flore Sentenac

cs.DS

本文分析了贪心算法在左正则随机模型（left-regular random model）下求解最大覆盖问题的期望近似比，证明了其期望近似比始终优于最坏情况下的$1-1/e$，并给出了近似比接近1的条件以及一个下界。

Fixed-parameter tractable inference for discrete probabilistic programs, via string diagram algebraisation

Benedikt Peterseim, Milan Lopuhaä-Zwakenberg

cs.DS

本文研究了离散概率程序(DPP)的推理复杂度问题，证明了当程序中每个函数的primal graph具有有界treewidth且逆接受概率不超过程序大小的指数时，推理可在多项式时间内完成。该方法通过string diagram的代数化分解实现，利用了现有的tree decomposition算法。

An Efficient Streaming Algorithm for Approximating Graphlet Distributions

Marco Bressan et al.

cs.DS cs.DB cs.SI

本文提出了一种流式算法，通过$O(1/c)$次pass和$\tilde O(n^{1+c})$内存来近似$k$-graphlet分布，改进了先前$O(\log n)$次pass的界限，并在实验中验证了其效率优势。

Grouped Color Deletion, Lasserre Exactness and Clique-Sum Locality for Rainbow Matching

Georgios Stamoulis

cs.DS

本文研究了彩虹匹配问题，通过引入参数$\kappa_{\mathcal{X}}$（删除最少颜色数使残差增广图属于某遗传图类$\mathcal{X}$），分析了该参数在多面体精确性与图结构上的性质，并给出了基于分支的动态规划算法。该工作主要关注图论与组合优化中的结构性质，与所提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

New Parameterized and Exact Exponential Time Algorithms for Strongly Connected Steiner Subgraph

Afrouz Jabal Ameli et al.

cs.DS

本文研究了有向图中的强连通Steiner子图问题，给出了基于树分解的$17^{\mathrm{tw}} n^{O(1)}$时间算法，以及$2^n n^{O(1)}$的精确指数时间算法，并证明了该问题在顶点覆盖参数下不存在多项式kernel。

Testing Robustness of Temporal Transportation Networks via Interval Separators

Riccardo Dondi, Mohammad Mehdi Hosseinzadeh

cs.DS

本文研究了时间网络中的区间分隔符问题，提出了d-MinIntSep变体，证明了其NP-hard性，并给出了ILP公式化方法。实验表明时间维度、截止时间和路径密度对运行时间有显著影响。

Two Efficient Message-passing Exclusive Scan Algorithms

Jesper Larsson Träff

cs.DS cs.DC

本文提出了两种在message-passing系统下计算exclusive scan的高效算法，分别通过调整inclusive scan轮次和修改all-reduce算法来优化通信轮数与operator应用次数，适用于输入向量较小、通信开销主导性能的场景。

SimdQuickHeap: The QuickHeap Reconsidered

Johannes Breitling, Ragnar Groot Koerkamp, Marvin Williams

cs.DS

本文重新审视了QuickHeap数据结构，并提出了SimdQuickHeap变体，通过将pivots连续存储并使用SIMD指令优化分区和扫描操作，实现了每个操作$O(\log n)$的摊还期望复杂度。该数据结构在合成基准和Dijkstra最短路径等图算法基准测试中表现出优于其他优先队列的性能。

Clustering Permutations under the Ulam Metric: A Parameterized Complexity Study

Tian Bai et al.

cs.DS cs.CC

本文研究了Ulam度量下排列聚类的参数化复杂性，包括中心问题和中间问题。作者证明了Ulam k-中心问题在d=1时仍是NP难的，但以k+d为参数时是固定参数可解的，并证明了不存在多项式核。对于Ulam k-中间问题，作者证明了其W[1]-难性并给出了XP算法。

Tight Bounds for some W[1]-hard Problems Parameterized by Multi-clique-width

Benjamin Bergougnoux, Vera Chekan, Stefan Kratsch

cs.DS

本文研究了以multi-clique-width为参数化的问题的精细复杂度，证明了Max Cut问题在ETH下不能在$n^{2^{o(k)}} \cdot f(k)$时间内求解，而Hamiltonian Cycle和Edge Dominating Set可在$n^{\mathcal{O}(k)}$时间内求解。这些结果揭示了不同参数化下问题复杂度的差异。

others

spectroxide: A code package for computing cosmic microwave background spectral distortions ⭐ 精选

Ethan Baker, Hongwan Liu, Siddharth Mishra-Sharma

astro-ph.CO astro-ph.IM cs.AI hep-ph

本文介绍了spectroxide，一个完全由AI助手（Claude Code）在人类物理学家监督下编写的开源代码包，用于计算宇宙微波背景（CMB）的spectral distortions。该代码通过求解Compton散射、double Compton发射和Bremsstrahlung下的photon Boltzmann方程，能够计算从红移$z \sim 5 \times 10^6$至今任意能量注入产生的spectral distortions。这项工作不仅提供了首个完全开源的此类计算工具，还作为AI辅助科学计算的案例研究，展示了人类领域知识在捕捉AI代码中物理错误（如维度前置因子错误、近抵消误差）方面的关键作用。

SUDP: Secret-Use Delegation Protocol for Agentic Systems ⭐ 精选

Xiaohang Yu, Hejia Geng, William Knottenbelt

cs.CR cs.AI

本文提出并形式化了Agent Secret Use (ASU)问题，即在不向不可信的自主请求者暴露可重用权限的前提下，使其能够执行用户授权的秘密操作。针对该问题，作者设计了Secret-Use Delegation Protocol (SUDP)，这是一个三角色协议，通过引入custodian角色来兑现一次性授权，确保可重用秘密永不跨越请求者边界。该协议在明确假设下满足可验证、操作绑定和单次使用的ASU安全要求，为agentic系统中的秘密委托问题提供了开创性的形式化规范和解决方案。

Kohn-Sham Hamiltonian from Effective Field Theory: Quasiparticle Band Narrowing from Frozen Core Dynamics ⭐ 精选

Xiansheng Cai, Han Wang, Kun Chen

cond-mat.mtrl-sci cond-mat.str-el cs.AI cs.LG physics.comp-ph

本文利用有效场理论(EFT)构建了非均匀电子气的理论框架，证明了Kohn-Sham (KS)能带在满足两个条件（核心激发能与价电子Fermi能级之间的尺度分离，以及均匀电子气近似的Galilean不变性）时，即为准粒子能带，但需乘以一个冻结核心重正化因子$z_{\text{core}}$。该因子反映了传统赝势所冻结的动态核心激发效应，且无法被任何静态势能捕捉。作者推导了一个闭式的后自洽场(post-SCF)公式，并在Li, Na, K, Ca, Mg, Al, Si等材料上验证了其有效性，成功解决了KS带宽与角分辨光电子能谱(ARPES)测量之间长期存在的20-35%的偏差，且计算成本极低。这项工作还体现了第一性原理agentic科学范式，即由大语言模型(LLM)协同推导、受控近似验证的方法，为agentic规模化扩展提供了确定性框架。

Spectral bandits ⭐ 精选

Tomáš Kocák et al.

stat.ML cs.AI cs.LG

本文提出了一种基于图平滑性的bandit问题框架，其中每个arm（臂）的期望收益在无向图上具有平滑性（即相邻节点的收益相似）。作者引入了有效维度的概念，该维度在真实世界图中通常较小，并据此设计了三种算法，其累积遗憾随该维度线性或亚线性增长。该工作为图上的在线学习（如内容推荐）提供了理论保证，并实验证明仅需少量节点评估即可学习数千物品的用户偏好。

Cutscene Agent: An LLM Agent Framework for Automated 3D Cutscene Generation ⭐ 精选

Lanshan He et al.

cs.GR cs.AI cs.CL

本文提出Cutscene Agent，一个基于LLM agent的自动化3D cutscene生成框架。其核心贡献包括：基于Model Context Protocol (MCP)的Cutscene Toolkit，实现了LLM agent与游戏引擎之间的双向集成，使agent不仅能调用引擎操作，还能持续观察实时场景状态，从而支持闭环生成可编辑的引擎原生cinematic assets；一个多agent系统，由director agent协调动画、摄影和音效等专业子agent，并辅以视觉推理反馈循环进行感知驱动的优化；以及一个用于cutscene生成的分层评估基准CutsceneBench。该工作与关键词中的agent高度契合，解决了游戏内容生成中需要长时序、多步骤协调的复杂任务。

From CRUD to Autonomous Agents: Formal Validation and Zero-Trust Security for Semantic Gateways in AI-Native Enterprise Systems ⭐ 精选

Ignacio Peyrano

cs.CR cs.AI

本文提出了一种面向AI原生企业系统的语义网关（Semantic Gateway）架构，该架构基于Model Context Protocol (MCP)将传统CRUD/REST API重构为语义表面，使agent能够动态发现、授权和执行工具。核心贡献在于将自主agent视为随机状态转移系统，并引入Enabledness-Preserving Abstractions (EPAs)和灰盒语义fuzzing方法（源自区块链智能合约验证）来审计agent行为。实验表明，该方法在500,000轮多轮fuzzing序列中实现了100%的隐藏未授权状态转移发现率，证明了动态形式化验证对于安全agent部署的必要性。该工作与关键词中的agent和context高度契合，为agent系统的形式化安全验证提供了开创性框架。

From Soliloquy to Agora: Memory-Enhanced LLM Agents with Decentralized Debate for Optimization Modeling ⭐ 精选

Jianghao Lin et al.

math.OC cs.AI cs.LG

本文提出Agora-Opt，一个用于优化建模的模块化agent框架，通过去中心化辩论（decentralized debate）和读写记忆库（read-write memory bank）来提升LLM从自然语言需求中求解优化问题的能力。该框架允许多个agent团队独立生成端到端解决方案，并通过基于结果的辩论协议进行协调，同时记忆库存储求解器验证的工件和过往分歧的解决记录，支持无需训练的性能提升。实验表明，Agora-Opt在多个基准上优于强零样本LLM、训练中心方法和先前的agent基线，且去中心化辩论相比集中式选择具有结构性优势，即使所有初始候选方案有缺陷也能通过交互恢复正确公式。该工作与关键词“agent”高度契合，为可靠优化建模提供了可扩展的基础。

Interpretable Fuzzy Modeling Reveals Population-Level Representation Differences in P300 Brain Computer Interfaces Across Neurodivergent and Neurotypical Cohorts

Xiaowei Jiang et al.

eess.SP cs.HC cs.LG

本文提出了一种可解释的模糊时空框架用于P300分类，并在肌萎缩侧索硬化症、自闭症和神经典型人群上分析了群体差异。该模型通过可学习的模糊滤波器实现了分类和群体特异性模糊中心的重建，揭示了不同群体在波形形态和表示几何上的系统性差异。

Application of a Mixture of Experts-based Foundation Model to the GlueX DIRC Detector

Cristiano Fanelli et al.

physics.data-an cs.LG hep-ex nucl-ex physics.ins-det

本文提出了一种基于Mixture-of-Experts的基础模型，应用于Jefferson Lab的GlueX DIRC探测器，作为快速模拟、粒子识别和切伦科夫光子噪声过滤的统一框架。该模型通过共享transformer backbone处理所有任务，在多个任务上达到或超越现有方法性能。

Cloud to Edge: Benchmarking LLM Inference On Hardware-Accelerated Single-Board Computers

Harri Renney et al.

cs.AR cs.AI cs.DC cs.PF

本文提出了一种针对硬件加速单板计算机上LLM推理的多维基准测试方法，评估了NPU和GPU等加速器在推理性能与硬件效率之间的权衡，为隐私敏感和连接受限环境中的生成式AI部署提供了实用指导。

Semantic Denial of Service in LLM-controlled robots

Jonathan Steinberg, Oren Gal

cs.CR cs.AI

本文研究了LLM控制机器人中的语义拒绝服务攻击，发现注入安全相关短语可导致模型停止执行任务。实验表明仅靠提示级防御无法完全消除这种威胁，需要架构层面的改进。

V.O.I.C.E (Voice, Ownership, Identity, Control, Expression): Risk Taxonomy of Synthetic Voice Generation From Empirical Data

Tanusree Sharma et al.

cs.CR cs.AI cs.CY cs.ET cs.HC

本文基于多源实证数据（包括569起AI事件、1067份直接报告和2221条Reddit讨论）构建了V.O.I.C.E语音生成风险分类体系，系统分析了语音数据在未经同意收集、重用和合成场景下的隐私、安全与治理风险。该工作主要关注语音生成技术的伦理与法律风险，与关键词中的数学或算法概念无直接关联。

A multi-stage soft computing framework for complex disease modelling and decision support: A liver cirrhosis case study

Xueyuan Huang et al.

q-bio.OT cs.LG

本文提出了一种基于机器学习的多阶段软计算框架，用于复杂疾病建模和决策支持，并以肝硬化为例进行验证。该框架整合了单细胞转录组分析、高维网络特征稳定化、多模型学习、深度表示构建及分子对接等模块，在分类任务上优于传统方法。

From Prototype to Classroom: An Intelligent Tutoring System for Quantum Education

Iizalaarab Elhaimeur, Nikos Chrisochoides

cs.CY cs.AI cs.MA

本文介绍了ITAS，一个基于多agent的量子教育智能辅导系统，通过知识图谱增强和专门化的LLM agents（教学agent和课程规划agent）来应对量子计算教学中的挑战。系统在真实课程中部署，验证了agent专门化能解决可靠性问题，并提供了可操作的课堂分析。

ITAS: A Multi-Agent Architecture for LLM-Based Intelligent Tutoring

Iizalaarab Elhaimeur, Nikos Chrisochoides

cs.MA cs.AI cs.CY cs.DC

本文提出了ITAS，一个基于LLM的多智能体教学系统，包含教学、操作和反馈三层架构，并在研究生量子计算课程中进行了试点部署。系统通过多个并行智能体处理视频、代码和指导任务，并解决了“盲教师问题”，但方法本身并非开创性突破，且与关键词关联较弱。

SWE-QA: A Dataset and Benchmark for Complex Code Understanding

Laïla Elkoussy, Julien Perez

cs.SE cs.AI

本文提出了SWE-QA数据集和基准，用于评估多跳代码理解能力，包含从Python仓库生成的9072个多选题，并测试了15个语言模型，发现密集架构优于混合专家模型。

Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora

Chenkai Pan et al.

cs.SE cs.AI

本文提出了一种名为"Programming with Data"的框架，将结构化知识表示作为训练数据和评估的共同基础，将数据工程生命周期映射到软件开发流程中。该方法通过概念级和推理链级的缺陷诊断与修复，实现了对LLM领域能力的系统性改进。

Salca: A Sparsity-Aware Hardware Accelerator for Efficient Long-Context Attention Decoding

Wang Fan et al.

cs.AR cs.AI

本文提出了一种名为Salca的稀疏感知硬件加速器，通过软硬件协同设计来加速长上下文attention decoding。它采用双压缩动态稀疏attention和近似Top-K选择算法，并设计了全流水线并行架构，以降低计算和内存访问开销。

A systematic literature Review for Transformer-based Software Vulnerability detection

Fiza Naseer et al.

cs.SE cs.LG

本文系统综述了2021至2025年间80篇基于Transformer模型进行软件漏洞检测的研究，按encoder、decoder及组合架构分类分析了预训练与微调模型在源代码、日志和智能合约上的应用，并指出了数据不平衡、可解释性及跨语言泛化等关键问题。

A Comparative Evaluation of AI Agent Security Guardrails

Qi Li et al.

cs.CR cs.AI

本文对DKnownAI Guard等四款AI agent安全防护产品进行了比较评估，使用人工标注作为基准，测试了它们检测指令覆盖、有害内容等风险的能力。结果显示DKnownAI Guard在召回率和真阴性率上表现最佳。

FGDM: Reasoning Aware Multi-Agentic Framework for Software Bug Detection using Chain of Thought and Tree of Thought Prompting

Srita Padmanabhuni et al.

cs.SE cs.LG

本文提出了一个基于多智能体的FGDM框架，通过将代码转换为flow graph并利用Chain-of-Thought和Tree-of-Thought提示，结合FAISS向量数据库检索历史bug修复，以提升软件bug检测与修复能力。实验表明该方法在多个项目上优于现有方法，但整体方法更偏向工程应用而非理论创新。

MotionBricks: Scalable Real-Time Motions with Modular Latent Generative Model and Smart Primitives

Tingwu Wang et al.

cs.RO cs.AI cs.GR cs.LG

本文提出MotionBricks，一个大规模实时生成式运动框架，通过模块化隐式生成骨干和智能原语，在实时计算约束下实现了超过350,000个运动片段的高质量生成，并支持速度指令、风格选择和精确关键帧等多模态控制。该方法在开源和专有数据集上达到了最先进的运动质量，并展示了在动画和机器人控制中的应用。

Learning Illumination Control in Diffusion Models

Nishit Anand et al.

cs.CV cs.AI cs.LG eess.IV

本文提出了一种完全开源的pipeline，用于在diffusion models中学习光照控制，通过构建数据引擎生成监督训练三元组（欠光照图像、自然语言光照指令、良好光照图像），并微调diffusion model以提升图像质量。该方法在perceptual similarity和structural similarity上优于基线模型，但未涉及关键词中的spectral、Muon或agent等概念。

Monitoring exposure-length variations in submarine power cables using distributed fiber-optic sensing

Sakiko Mishima et al.

eess.SP cs.LG physics.soc-ph

本文提出了一种使用分布式声学传感（DAS）监测海底电缆暴露长度变化的异常检测框架，通过回归特征提取和one-class SVM在有限数据下实现了有效检测。

Uncovering Exotic Paired States in the 2D Spin-Imbalanced Fermi Gas with Neural Wave Functions

Wan Tong Lou et al.

cond-mat.quant-gas cond-mat.supr-con cs.LG physics.comp-ph

本文利用神经网络变分蒙特卡洛方法（AGPs FermiNet Ansatz）研究了二维自旋不平衡费米气体的零温相图，观察到了Fulde-Ferrell-Larkin-Ovchinnikov相、极化超流相以及一种由Cooper对构成的奇异晶体相。

VibeToken: Scaling 1D Image Tokenizers and Autoregressive Models for Dynamic Resolution Generations

Maitreya Patel et al.

cs.CV cs.LG

本文提出了一种分辨率无关的1D图像tokenizer VibeToken和自回归生成模型VibeToken-Gen，通过将图像编码为动态长度的token序列（32-256个），实现了任意分辨率和宽高比的图像生成，并在计算效率上显著优于扩散模型和固定分辨率的自回归模型。

VISION-SLS: Safe Perception-Based Control from Learned Visual Representations via System Level Synthesis

Antoine P. Leeman et al.

cs.RO cs.CV cs.LG eess.SY math.OC

本文提出VISION-SLS方法，利用System Level Synthesis (SLS)从高分辨率RGB图像中实现非线性输出反馈控制，通过预训练视觉特征学习低维观测映射并校准状态相关误差界，从而在部分可观测性和传感器噪声下提供鲁棒约束满足保证。该方法在仿真和硬件实验中验证了安全性与可扩展性。

MultiHedge: Adaptive Coordination via Retrieval-Augmented Control

Feliks Bańka, Jarosław A. Chudziak

cs.MA cs.AI

本文提出MultiHedge，一种结合检索增强的LLM与经典期权策略的混合架构，用于提升模块化决策系统在变化条件下的鲁棒性。实验表明，记忆增强的检索比单纯增加模型规模更能提升稳定性。

An analysis of sensor selection for fruit picking with suction-based grippers

Eva Krueger, Marcus Rosette, Joseph R. Davidson

cs.RO cs.LG eess.SY

本文针对机器人水果采摘中的传感器选择问题，设计了一种集成于柔性吸盘式苹果夹爪的多模态传感套件，通过阶段依赖的传感器评估来检测采摘状态。实验表明，随机森林和多层感知机分类器能以超过90%的准确率检测成功采摘和即将发生的失败。

Data-Driven Hamiltonian Reduction for Superconducting Qubits via Meta-Learning

Arielle Sanford et al.

quant-ph cs.LG

本文提出HAML框架，通过元学习实现超导量子处理器有效Hamiltonian模型的快速在线适应。该方法利用模拟设备集合进行监督训练，并基于少量硬件测量进行在线参数识别，为量子处理器的校准与控制提供了数据驱动的Hamiltonian约化方案。

asRoBallet: Closing the Sim2Real Gap via Friction-Aware Reinforcement Learning for Underactuated Spherical Dynamics

Fang Wan et al.

cs.RO cs.AI

本文提出asRoBallet，首次在humanoid ballbot硬件上成功部署reinforcement learning (RL)，通过高保真MuJoCo仿真显式建模ETH-type omni-wheels的离散roller mechanics，并开发了Friction-Aware RL框架实现zero-shot Sim2Real transfer，解决了wheel-sphere-ground接触建模中的reality gap问题。

Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System

Yifei Wei et al.

cs.RO cs.AI cs.CL cs.CV

本文提出Libra-VLA，一种粗到细的双系统VLA架构，通过将学习复杂度解耦为语义规划器和动作精炼器，实现了训练均衡和异步执行策略，以解决机器人操作中语义-动作鸿沟问题。

CAN-QA: A Question-Answering Benchmark for Reasoning over In-Vehicle CAN Traffic

Jing Chen et al.

cs.CR cs.LG

本文提出了CAN-QA基准，将CAN流量分析重新定义为问答任务，通过规则模板生成自然语言问题，并评估了大语言模型在推理CAN流量方面的能力。

Learning from Noisy Preferences: A Semi-Supervised Learning Approach to Direct Preference Optimization

Xinxin Liu et al.

cs.CV cs.AI

本文提出Semi-DPO方法，通过半监督学习处理人类偏好中的标签噪声问题，将一致偏好对作为干净数据、冲突对作为噪声数据，并利用伪标签进行迭代优化。该方法在扩散模型偏好对齐任务上取得较好效果，但与我提供的关键词列表关联度较低。

ViPO: Visual Preference Optimization at Scale

Ming Li et al.

cs.CV cs.AI

本文提出Poly-DPO方法，通过引入多项式项增强DPO目标对噪声的鲁棒性，并构建大规模视觉偏好数据集ViPO（含1M图像对和300K视频对）。实验表明，在高质量数据集上标准DPO即可达到最优，而Poly-DPO在噪声数据集上表现更优。

BifDet: A 3D Bifurcation Detection Dataset for Airway-Tree Modeling

Ali Keshavarzi et al.

cs.CV cs.AI

本文提出了BifDet，这是首个公开的用于3D气道分叉检测的数据集，填补了该领域的数据空白。通过在ATM22数据集上标注分叉边界框，并微调RetinaNet和DETR模型进行检测，为气道树建模提供了基准。

EVT-Based Generative AI for Tail-Aware Channel Estimation

Parmida Valiahdi et al.

eess.SP cs.AI eess.SY

本文提出了一种结合Extreme Value Theory (EVT)与生成式AI的框架，用于无线信道估计中的罕见事件建模，以支持URLLC需求。实验表明该方法在数据增强和在线估计中优于传统方法，但未涉及关键词中的核心概念。

Internet of Everything in the 6G Era: Paradigms, Enablers, Potentials and Future Directions

Driss Choukri et al.

cs.ET cs.AI cs.DC cs.NI

本文概述了万物互联(IoE)在6G时代的概念、核心组件、架构基础及使能技术，并讨论了面向6G智能IoE系统的开放研究方向，重点关注可扩展性、安全、隐私和能效。

PINNs in More General Geometry

Edward Hirst

math.DG cs.LG hep-th

本文介绍了PINN架构的定义原则，并论证了其适用于微分几何问题，通过总结三个相关研究展示了其应用。

A Finite Time Analysis of Thompson Sampling for Bayesian Optimization with Preferential Feedback

Joseph Lazzaro et al.

stat.ML cs.LG

本文提出了一种基于Thompson Sampling的贝叶斯优化方法，用于处理偏好反馈（成对比较而非标量分数），并给出了有限时间分析证明其性能与标准标量反馈下的TS方法相匹配。该方法通过单调链接函数建模潜在效用差异，并利用基础kernel诱导的决斗kernel。

Barriers and Enablers of Online Instruction in Hospitality Education in the Philippines: An Exploratory Study

Maria Anna D. Cruz et al.

cs.CY cs.AI

本文通过探索性研究分析了菲律宾酒店教育中在线教学的障碍与促进因素，识别出技术障碍、教学挑战、机构与个人支持以及AI整合四个主题，并强调了教学培训与机构支持的重要性。该研究与关键词列表中的概念无直接关联。

Spark Policy Toolkit: Semantic Contracts and Scalable Execution for Policy Learning in Spark

Zeyu Bai

cs.DC cs.DB cs.LG cs.PF eess.SY

本文提出了Spark Policy Toolkit，通过mapInPandas和mapInArrow实现分区初始化的向量化推理，以及无收集的分裂搜索，解决了Spark中策略学习管道的可扩展性问题。实验表明该方法在保持语义一致性的同时显著提升了吞吐量。

Learning biophysical models of gene regulation with probability flow matching

Suryanarayana Maddu, Victor Chardès, Michael J. Shelley

q-bio.MN cs.LG physics.bio-ph

本文提出了一种名为Probability Flow Matching (PFM)的框架，用于从时间序列单细胞数据中学习基因调控的随机过程。该方法侧重于生物物理一致性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Frontier Coding Agents Can Now Implement an AlphaZero Self-Play Machine Learning Pipeline For Connect Four That Performs Comparably to an External Solver

Joshua Sherwood, Ben Aybar, Benjamin Kaplan

cs.MA cs.AI cs.LG

本文提出一个用于衡量前沿coding agent自主实现机器学习pipeline能力的基准测试，要求agent在3小时内实现AlphaZero风格的Connect Four训练流程。实验发现不同agent表现差异显著，Claude Opus 4.7表现最佳，而GPT-5.4存在异常的时间使用行为。

Scalable Secure Biometric Authentication without Auxiliary Identifiers

Alexander Bienstock et al.

cs.CR cs.AI cs.CV cs.LG

本文提出了一种结合人工智能与高级密码学技术的生物特征认证系统，旨在解决大规模云数据库中生物特征数据泄露的安全问题，同时保持系统的可扩展性和高性能。该系统首次证明了无需辅助标识符的、可扩展的隐私保护生物特征认证在现实世界中的可行性。

Optimally Auditing Adversarial Agents

Sanmay Das, Fang-Yi Yu, Yuang Zhang

cs.GT cs.AI cs.CY

本文研究资源分配中的欺诈审计问题，将审计策略设计建模为多agent的principal-agent博弈，并提供了计算最优审计策略的高效算法。

Structured Security Auditing and Robustness Enhancement for Untrusted Agent Skills

Lijia Lv et al.

cs.CR cs.AI

本文针对不可信Agent Skills的预加载审计问题，提出SkillGuard-Robust方法，通过角色感知证据提取、选择性语义验证和一致性保持裁决，将审计建模为鲁棒的三分类任务。实验表明该方法在多个评估集上达到高准确率和召回率，但未涉及spectral、Muon或pretrain等关键词相关技术。

M$^3$-VQA: A Benchmark for Multimodal, Multi-Entity, Multi-Hop Visual Question Answering

Jiatong Ma et al.

cs.CV cs.AI

本文提出了一个名为M$^3$-VQA的多模态视觉问答基准，旨在评估多模态大模型在细粒度实体理解和复杂多跳推理上的能力。实验表明现有模型在该基准上表现不佳，但提供精确证据或使用推理感知的检索方法能显著提升性能。

Quantum Dynamics via Score Matching on Bohmian Trajectories

Lei Wang

quant-ph cs.LG physics.chem-ph physics.comp-ph

本文利用Bohmian轨迹上的score matching方法求解含时Schrödinger方程，将量子动力学重新表述为一种自洽的score驱动的normalizing flow。该方法通过神经网络参数化score函数并最小化Fisher散度，为量子动力学计算提供了新的生成式建模视角。

Accelerating Regularized Attention Kernel Regression for Spectrum Cartography

Liping Tao, Chee Wei Tan

math.OC cs.LG

本文提出了一种基于学习的注意力核回归算法(LAKER)，通过数据依赖的预处理器来加速频谱地图重建中的正则化注意力核回归，显著降低了条件数并提升了收敛速度。

Fractionally Supervised Classification with Maxima Nominated Samples

Mohammad Jafari Jozani, Jingyu Wang

stat.ME cs.LG stat.ML

本文针对分数监督分类(FSC)在最大值提名抽样(NS)设计下的应用问题，提出了一种新的潜在表示方法以修正似然函数，并开发了相应的EM算法和加权似然FSC程序。该方法通过利用样本中的额外秩信息，在稀有事件场景下显著优于忽略该信息的错误设定方法。

MGTEVAL: An Interactive Platform for Systemtic Evaluation of Machine-Generated Text Detectors

Yuanfan Li et al.

cs.CR cs.CL

MGTEVAL是一个用于系统评估机器生成文本检测器的可扩展平台，它整合了数据集构建、攻击、检测器训练和性能评估四个模块，支持通过命令行和Web界面进行实验。该平台主要关注检测器的评估流程而非提出新的检测方法。

Elite-Driven Support Vector Machines for Classification

Mohammad Jafari Jozani, Bahram Moeinianfar

stat.ML cs.LG math.ST stat.ME

本文提出Elite-Driven Support Vector Machines (EDSVM)框架，通过为精英观测集（通常来自参考SVM的支持向量）的slack变量引入偏差惩罚，将基准模型偏好编码到分类器中。该方法在hinge型损失和平方slack损失下导出对偶二次规划，并证明了margin损失的分类校准性。

Where Did It Go Wrong? Capability-Oriented Failure Attribution for Vision-and-Language Navigation Agents

Jianming Chen et al.

cs.MA cs.AI

本文提出了一种面向能力的测试方法，用于视觉-语言导航(VLN)智能体的故障检测与归因，通过自适应测试用例生成、能力oracle和反馈机制来定位能力缺陷。实验表明该方法比现有基线能发现更多故障案例并更准确地定位能力层面的不足。

Conditional Flow Matching for Probabilistic Downscaling of Maximum 3-day Snowfall in Alaska

Douglas Brinkerhoff, Elizabeth Fischer

physics.comp-ph cs.LG physics.ao-ph

本文提出WxFlow，一种基于flow matching的条件生成模型，用于将粗分辨率气候模型输出与高分辨率地形映射为精细尺度降水场的概率集合。该方法在阿拉斯加东南部最大3日降雪量的4km WRF模拟中，相比传统降尺度方法在谱保真度上有显著提升，并能快速生成集合。

Benchmarking OCR Pipelines with Adaptive Enhancement for Multi-Domain Retail Bill Digitization

Vijaysinh Gaikwad

cs.CV cs.LG

本文提出了一种基于自适应增强的多领域零售账单OCR流水线，集成了CNN图像增强、Laplacian方差质量分析、置信度驱动反馈循环和NLP后校正模块。在360张零售账单图像上，该方法相比原始Tesseract基线将CER和WER分别降低了26.4%和31.2%，并实现了6.4倍于EasyOCR的速度优势。

How Can Reinforcement Learning Achieve Expert-level Placement?

Ruo-Tong Chen et al.

cs.AR cs.AI cs.LG

本文指出基于强化学习的芯片布局方法因奖励设计问题难以达到专家水平，提出通过从专家布局中学习奖励模型来改进，但方法本身在关键词领域（如code, context, spectral等）缺乏直接关联，且创新性有限。

Making AI-Assisted Grant Evaluation Auditable without Exposing the Model

Kemal Bicakci

cs.CR cs.AI cs.CY cs.LG

本文提出了一种基于TEE的架构，通过远程证明使AI辅助的基金评审过程可审计，同时避免暴露模型权重和评分逻辑。该架构生成带签名的评估包，并包含文档规范化层以缓解prompt注入风险。

Value-Sensitive AI for Prayer: Balancing the Agencies Between Human and AI Agents in Spiritual Context

Soonho Kwon et al.

cs.HC cs.AI

本文通过日记研究和推测性设计工作簿，探讨了AI在祷告等精神实践中的价值敏感性设计，发现真实性是关键价值，AI过度代理会削弱这种体验。研究建议在价值负载的体验中应保留用户自主权，但未涉及关键词中的数学或技术方法。

DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams

Anirudh Iyengar Kaniyar Narayana Iyengar et al.

cs.CV cs.AI cs.CL

本文提出了一个名为DRAGON的benchmark，用于评估模型在图表视觉推理中定位证据区域的能力。该benchmark包含来自六个图表QA数据集的11664个标注问题实例，并评估了多个视觉语言模型在图表推理中的表现。

Learning Structure, Energy, and Dynamics: A Survey of Artificial Intelligence for Protein Dynamics

Haocheng Tang et al.

q-bio.BM cs.LG

本文综述了人工智能在蛋白质动力学中的应用，从结构集成、物理能量信号和加速分子模拟三个角度总结了相关方法，并讨论了数据集和开放挑战。

Dynamic UGV-UAV Cooperative Path Planning in Uncertain Environments

Ninh Nguyen, Srinivas Akella

cs.RO cs.AI

本文研究了不确定环境下UGV-UAV协同路径规划问题，提出了包括双向搜索在内的多种策略，以优化无人机对道路的检测和地面车辆的路径选择。实验表明双向策略性能最优，且多架无人机可进一步减少行驶时间但增加计算开销。

Online learning with Erdős-Rényi side-observation graphs

Tomáš Kocák, Gergely Neu, Michal Valko

stat.ML cs.LG

本文研究了在Erdős-Rényi边观察图下的对抗性多臂赌博机问题，其中未被选择的臂以固定但未知的概率$r$独立地泄露其损失。作者提出了两种算法，分别适用于$r$的不同取值范围，并给出了相应的regret上界，所有界均与已知$r$的最优性能相差不超过对数因子。

The Thinking Pixel: Recursive Sparse Reasoning in Multimodal Diffusion Latents

Yuwei Sun et al.

cs.CV cs.AI

本文提出了一种递归稀疏混合专家框架，通过引入递归组件和门控网络来动态选择神经模块，以增强扩散模型在文本到图像生成任务中的结构化推理能力。该方法在ImageNet和GenEval等基准上验证了性能提升。

R$^3$-SQL: Ranking Reward and Resampling for Text-to-SQL

Hojae Han et al.

cs.SE cs.AI cs.CL

本文提出R$^3$-SQL框架，通过基于执行结果的分组排序和统一奖励函数，解决了Text-to-SQL系统中候选SQL评分不一致的问题，并引入agentic resampling机制在正确SQL可能缺失时进行重采样。该方法在BIRD-dev基准上达到了75.03的执行准确率，但主要贡献在于工程优化而非理论创新。

AHASD: Asynchronous Heterogeneous Architecture for LLM Adaptive Drafting Speculative Decoding on Mobile Devices

Ma zirui et al.

cs.AR cs.AI

本文提出了一种用于移动设备的异步异构架构AHASD，通过任务级解耦和动态控制策略，在NPU-PIM系统上实现了LLM的投机解码并行化，提升了吞吐量和能效。

A Faceted Proposal for Transparent Attribution of AI-Assisted Text Production

Geraldo Xexéo

cs.CY cs.AI

本文提出了一种用于透明归因AI辅助文本生成的分面模型，包括基于形式、生成和评估的核心模型，以及添加意图、控制和可追溯性的扩展模型。该模型旨在为文档、章节、段落等不同粒度提供AI使用情况的标准化描述。

GPT-Image-2 in the Wild: A Twitter Dataset of Self-Reported AI-Generated Images from the First Week of Deployment

Kidus Zewde et al.

cs.CV cs.AI

本文构建了一个GPT-Image-2生成图像的Twitter数据集，通过多阶段筛选流程收集了10,217张确认图像，并分析了其subject taxonomy、OCR文本可读性、face detection和semantic clustering等特征。一个关键负面结果是Twitter的CDN在上传时会系统性移除C2PA内容凭证，使得基于社交媒体的AI图像无法进行加密来源验证。

From Cursed to Competitive: Closing the ZO-FO Gap via Input-to-State Stability

Amir Ali Farzin, Philipp Braun, Iman Shames

math.OC cs.LG eess.SY math.NA

本文从动力系统视角分析ZO算法，证明在特定条件下其期望收敛率与FO算法具有相同维度依赖，并利用输入-状态稳定性理论说明ZO方法可收敛到FO方法不动点的邻域内，邻域半径可通过设计参数任意缩小。

CoRE: Concept-Reasoning Expansion for Continual Brain Lesion Segmentation

Qianqian Chen et al.

cs.CV cs.AI

本文提出CoRE框架，通过将视觉特征与结构化概念对齐来模拟临床推理，以解决脑部病变分割中的持续学习问题。该方法在12个序列任务上取得了先进性能，但与我提供的关键词列表契合度较低。

ML-SAN: Multi-Level Speaker-Adaptive Network for Emotion Recognition in Conversations

Kexue Wang, Yinfeng Yu, Liejun Wang

cs.SD cs.AI eess.AS

本文提出了一种多层级说话人自适应网络(ML-SAN)，通过输入层校准、交互层门控和输出层正则化的三阶段自适应过程，解决多模态对话情感识别中说话人身份信息混淆的问题。在MELD和IEMOCAP数据集上的实验表明该方法能有效处理尾部情感类别并提升识别性能。

Co-Writing with AI: An Empirical Study of Diverse Academic Writing Workflows

Silvia Bodei et al.

cs.HC cs.AI

本文通过两项研究调查了大学生在学术写作中如何整合AI工具，发现AI的使用是选择性和异质性的，形成了三种以价值为导向的配置模式。该研究主要关注人机交互和写作流程，与您提供的关键词（如code, spectral, Muon等）没有直接关联。

One-shot emergency psychiatric triage across 15 frontier AI chatbots

Veith Weilnhammer et al.

q-bio.NC cs.AI cs.HC

本文评估了15种前沿AI聊天机器人在精神科分诊中的表现，使用112个临床案例和4级分诊标签进行测试。结果显示，这些模型对紧急情况（D级）的识别准确率高达94.3%，但对中低风险案例存在显著过度分诊，平均准确率仅为42.0%至71.8%。

Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Venkata Pushpak Teja Menta

cs.SD cs.CL eess.AS

本文提出Praxy Voice系统，通过BUPS（统一音素空间）将Indic文字转写为拉丁文，结合LoRA适配器和语音提示恢复方法，在冻结的非Indic TTS基座（Chatterbox）上实现了Telugu、Tamil和Hindi的高质量语音合成，无需商业训练数据。该方法主要关注语音合成中的文字转写和声学恢复，与关键词中的code、context、spectral、Muon、pretrain、agent、attention关联较弱。

Generative UI as an Accessibility Bridge: Lessons from C2C E-Commerce

Bektur Ryskeldiev

cs.HC cs.AI cs.CY

本文探讨了生成式UI在C2C电商平台中作为无障碍桥梁的应用，通过三项干预措施（HTML再生、对话引导、音频引导拍照）解决用户生成内容带来的可访问性问题。文章强调生成式UI可补充而非替代基于能力的无障碍设计，并改变设计师的角色。

PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Venkata Pushpak Teja Menta

cs.SD cs.CL

本文提出PSP (Phoneme Substitution Profile)，一个用于Indic TTS的可解释逐音位维度口音基准，将口音分解为六个互补维度并通过forced alignment和acoustic probes进行测量。该工作主要关注TTS评估中的口音量化问题，与关键词中的code, context, spectral, Muon, pretrain, agent, attention均无直接关联。

DDA-Thinker: Decoupled Dual-Atomic Reinforcement Learning for Reasoning-Driven Image Editing

Hanqing Yang et al.

cs.CV cs.AI

本文提出DDA-Thinker框架，通过解耦的dual-atomic reinforcement learning（双原子强化学习）来优化图像编辑中的规划模块（Thinker），其中cognitive-atomic reward和visual-atomic reward分别评估规划质量和最终图像质量。该方法在推理驱动的图像编辑基准上取得了与强商业模型竞争的结果，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Emergent Self-Attention from Astrocyte-Gated Associative Memory Dynamics

Arnau Vivet, Alex Arenas

physics.data-an cs.LG nlin.AO physics.soc-ph

本文提出了一种星形胶质细胞门控的Hopfield型联想记忆模型，其中有效连接由熵正则化复制子方程调制的星形胶质细胞增益进行乘法调节。该耦合神经元-星形胶质细胞动力学具有Lyapunov函数，确保全局收敛，并在固定点处通过softmax归一化实现自注意力机制。

A contemporary science map through the lens of IEEE and ACM periodicals

George Margaritis et al.

cs.DL cs.IR

本文通过分析ACM和IEEE两大协会的期刊标题，定性揭示了当代科学趋势，如开放获取偏好和AI主题的集中，但未涉及关键词中的具体技术方法。

Adaptable phase retrieval for coherent transition radiation spectroscopy based on differentiable physics information

Ritz Ann Aguilar et al.

physics.acc-ph cs.LG

本文提出了一种基于可微物理信息的梯度下降方法(GD-Phase)用于相干渡越辐射(CTR)光谱的相位恢复，通过将测量的光谱幅度作为硬约束并优化傅里叶相位，解决了传统Gerchberg-Saxton算法难以适应复杂实验前向模型的问题。该方法在合成数据上与传统算法进行了基准测试。

The Forensic Cost of Watermark Removal

Gautier Evennou, Ewa Kijak

cs.CV cs.AI

本文指出当前水印去除方法仅评估攻击成功率和感知质量，忽略了水印去除检测（WRD）这一维度。作者证明现有攻击会留下可被分类器检测的统计伪影，并强调法医隐蔽性应成为水印去除的必要要求。

SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton

Xuzheng He et al.

cs.SD cs.AI

SymphonyGen提出了一种3D分层框架用于交响乐生成，通过级联解码器分解Bar、Track和Event轴，并引入短谱条件控制。该方法使用GRPO和跨模态音频感知奖励优化输出，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Assistants, Not Architects: The Role of LLMs in Networked Systems Design

Pratyush Sahu et al.

cs.NI cs.AI

本文探讨了LLM在网络系统架构设计中的局限性，并提出Kepler框架，通过结合专家驱动的规范与SMT优化来生成可行设计方案。该工作主要关注系统设计而非关键词相关领域。

AI as Consumer and Participant: A Co-Design Agenda for MBSE Substrates and Methodology

Siyuan Ji

cs.SE cs.AI

本文探讨了AI工具在MBSE模型中的应用问题，指出当前模型设计未考虑AI作为消费者和参与者的需求，导致模型仅作为提示而非知识库使用。作者通过具体工作流场景展示了这一差距，并提出了三项原则以指导模型与方法论的协同设计。

The Surprising Effectiveness of Canonical Knowledge Distillation for Semantic Segmentation

Muhammad Ali et al.

cs.CV cs.AI

本文指出，在语义分割的知识蒸馏中，当计算预算（wall-clock compute）匹配时，简单的logit和feature-based KD方法实际上优于近期复杂的专用方法，并建议未来方法设计应关注扩展性而非复杂的手工目标。

Medoid Prototype Alignment for Cross-Plant Unknown Attack Detection in Industrial Control Systems

Luyao Wang

cs.CR cs.AI

本文提出了一种基于medoid prototype alignment的跨工厂未知攻击检测框架，通过压缩异构流量并提取稳健的medoid原型来对齐源域和目标域，从而提升工业控制系统入侵检测的迁移稳定性。实验表明该方法在天然气和水存储系统上取得了较好的平均性能。

Egocentric Tactile and Proximity Sensors as Observation Priors for Humanoid Collision Avoidance

Carson Kohlbrenner et al.

cs.RO cs.LG

本文提出了一种基于reinforcement learning的框架，用于人形机器人全身碰撞避免，并通过dodgeball任务分析了触觉和接近传感器的覆盖范围、类型和距离等特性对学习行为的影响。研究发现，在传感范围足够时，原始接近测量可替代显式目标定位，且稀疏非定向信号在样本效率上优于密集定向信号。

SnapGuard: Lightweight Prompt Injection Detection for Screenshot-Based Web Agents

Mengyao Du et al.

cs.CR cs.AI

本文针对基于截图的Web agent面临的prompt injection攻击，提出了一种轻量级检测方法SnapGuard。该方法通过分析网页截图的视觉稳定性指标和动作导向文本信号，实现了比大型视觉语言模型更高效（8倍速度提升）的检测，F1分数达到0.75。

Benchmarking bandgap prediction in semiconductors under experimental and realistic evaluation settings

Haolin Wang et al.

cond-mat.mtrl-sci cs.AI

本文提出了RealMat-BaG基准，用于评估半导体带隙预测模型在实验条件下的可靠性，通过对比图神经网络和经典机器学习方法，揭示了当前模型在从DFT计算数据向实验数据迁移时的泛化局限性。

Dictionary learning for Kernel EDMD

Erik Lien Bolager et al.

math.DS cs.LG

本文提出了一种将dictionary learning方法扩展到kernel EDMD (kEDMD)中的kernel learning方法，通过简化kEDMD并利用梯度优化可学习的kernel参数，自动从加权kernel列表中筛选出适合近似Koopman operator的kernel。该方法在Duffing oscillator和Kuramoto-Sivashinsky PDE等实验上展示了其有效性。

Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models

Chun-Yi Kuan, Wei-Ping Huang, Hung-yi Lee

eess.AS cs.AI cs.CL cs.LG cs.SD

本文首次系统性地研究了音频感知大语言模型(ALLM)中的不确定性估计问题，在多个模型和基准上比较了五种不确定性估计方法。研究发现语义级和基于验证的方法在通用音频推理任务上优于token级基线，但在可信度导向任务上方法有效性高度依赖于模型和基准。

PLMGH: What Matters in PLM-GNN Hybrids for Code Classification and Vulnerability Detection

Mohamed Taoufik Kaouthar El Idrissi, Edward Zulkoski, Mohammad Hamdaqa

cs.SE cs.LG

本文通过控制实验系统性地比较了PLM-GNN混合模型与单独PLM或GNN在代码分类和漏洞检测任务上的表现，发现混合模型通常优于GNN基线，且PLM的选择比GNN对性能影响更大。研究为代码理解中的模型设计提供了实用指南。

Emotive Architectures: The Role of LLMs in Adjusting Work Environments

Lara Vartziotis et al.

cs.HC cs.AI

本文探讨了LLMs在远程和混合工作环境中通过自然语言调整物理与虚拟空间（如照明、声学）以提升用户体验的框架，并讨论了隐私和用户自主权等伦理问题。该研究与关键词列表中的概念无直接关联。

The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive

Alex Bogdan, Adrian de Valois-Franklin

cs.CR cs.CL

本文发现前沿LLM输出的token rank-frequency分布普遍服从Mandelbrot分布，并基于此提出一种极低延迟的CPU-only评分原语，可用于模型指纹识别和黑盒输出评估。该原语在词法异常检测等场景有效，但无法处理领域内词汇推理错误。

Large language models eroding science understanding: an experimental study

Harry Collins et al.

cs.CY cs.AI

本文通过实验展示了大型语言模型(LLMs)容易被边缘科学材料影响，产生流畅但误导性的回答，强调了LLMs无法替代专家判断，并存在传播错误信息的风险。

Prefill-Time Intervention for Mitigating Hallucination in Large Vision-Language Models

Chengsheng Zhang et al.

cs.CV cs.AI

本文提出Prefill-Time Intervention (PTI)方法，通过在预填充阶段对初始Key-Value cache进行单次干预来缓解大型视觉-语言模型中的幻觉问题。该方法将干预解耦为视觉和文本两个方向，分别用于增强视觉grounding和过滤背景噪声。

Residual-loss Anomaly Analysis of Physics-Informed Neural Networks: An Inverse Method for Change-point Detection in Nonlinear Dynamical Systems with Regime Switching

Yuhe Bai et al.

stat.ML cs.LG

本文提出了一种基于物理信息神经网络残差异常分析的方法，用于联合检测非线性动力系统中的变点并估计分段参数。该方法通过重叠子区间分解分析局部物理残差，并将变点位置与参数整合到统一损失函数中进行联合优化。

Deflation-Free Optimal Scoring

Sharmin Afroz, Brendan Ames

stat.ML cs.LG math.OC

本文提出了一种无放气稀疏最优评分方法(DFSOS)，通过Bregman迭代和正交约束优化同时估计所有判别向量，避免了传统顺序方法中的误差传播问题。实验表明该方法在高维分类任务中能达到与现有方法相当或更优的准确率。

Spreadsheet Modeling Experiments Using GPTs on Small Problem Statements and the Wall Task

Thomas A. Grossman, Yuan Chen, Sopiko Datuashvili

cs.SE cs.AI

本文研究了GPT工具在构建可复用的分析性spreadsheet模型中的应用，通过实验评估了Excel AI在ERFR标准下的表现，发现其虽能生成结构良好的模型但存在不一致性和不可复现的问题。

Bug-Report-Driven Fault Localization: Industrial Benchmarking and Lesson Learned at ABB Robotics

Pernilla Hall et al.

cs.SE cs.LG

本文研究了在工业环境中，仅使用bug report的文本内容进行fault localization的方法，将其视为监督文本分类问题，并比较了传统机器学习模型与fine-tuned transformer模型在ABB Robotics数据上的表现。结果表明，传统模型在此特定工业数据集上表现更优。

Adaptive Meta-Learning Stochastic Gradient Hamiltonian Monte Carlo Simulation for Bayesian Updating of Structural Dynamic Models

Xianghao Meng et al.

stat.AP cs.LG stat.ME stat.ML

本文提出了一种自适应元学习随机梯度Hamiltonian Monte Carlo (AM-SGHMC)算法，用于结构动力学模型的贝叶斯更新。该方法通过训练自适应神经网络优化采样策略，使得训练后的采样器可直接应用于同类结构的贝叶斯更新问题，无需重新训练。

Learning Generalizable Multimodal Representations for Software Vulnerability Detection

Zeming Dong et al.

cs.SE cs.AI

本文提出MultiVul框架，通过多模态对比学习对齐代码和注释表示，以提升软件漏洞检测的泛化能力。实验表明该方法在多个LLM上优于单模态方法，但未涉及关键词中的spectral、Muon或agent等概念。

Toward Multimodal Conversational AI for Age-Related Macular Degeneration

Ran Gu et al.

cs.CV cs.CL

本文微调了多模态大语言模型OcularChat，用于通过眼底彩照进行年龄相关性黄斑变性的诊断与对话，在分类任务上表现优于现有模型，但方法本身（微调已有MLLM）缺乏显著开创性，且与关键词列表中的概念关联较弱。

Verification of Neural Networks (Lecture Notes)

Benedikt Bollig

cs.LO cs.AI cs.FL

本文从理论角度介绍了神经网络验证的基本概念，涵盖了前馈网络、循环网络、注意力机制和Transformer等模型，以及相关的规范语言和算法验证技术。

SAFEdit: Does Multi-Agent Decomposition Resolve the Reliability Challenges of Instructed Code Editing?

Noam Tarshish et al.

cs.SE cs.AI

本文提出SAFEdit，一个用于指令驱动代码编辑的多智能体框架，通过将编辑过程分解为规划、编辑和验证等专门角色，并引入Failure Abstraction Layer (FAL)进行迭代优化，在EditBench基准上提升了任务成功率。该方法主要关注代码编辑的可靠性，与关键词中的agent概念相关，但未涉及spectral、Muon或pretrain等核心主题。

Threat-Oriented Digital Twinning for Security Evaluation of Autonomous Platforms

Thomas J. Neubert, Laxima Niure Kandel, Berker Peköz

cs.CR cs.AI cs.RO eess.SY

本文提出了一种面向威胁的数字孪生方法，用于评估学习型自主平台（如无人机和空间系统）的网络安全，通过模块化架构模拟感知、自主决策和监控控制功能，并支持欺骗、重放等攻击测试。该方法为自主系统的安全研究提供了一个可复现的实验框架。

Can Code Evaluation Metrics Detect Code Plagiarism?

Fahad Ebrahim, Mike Joy

cs.SE cs.AI cs.IR

本文通过对比实验研究了CodeBLEU等五种代码评估指标在代码抄袭检测中的表现，并与专用工具JPlag和Dolos进行了比较。结果表明，经过预处理后，CrystalBLEU在整体排名上超越了Dolos，说明代码评估指标在排名指标上与专用工具具有可比性。

Improving Diversity in Black-box Few-shot Knowledge Distillation

Tri-Nhan Vo et al.

cs.CV cs.LG

本文针对黑盒少样本知识蒸馏中合成图像多样性不足的问题，提出了一种基于生成对抗网络的训练方案，通过自适应选择教师模型高置信度图像来增强蒸馏集的多样性，并在多个图像数据集上取得了领先结果。

At the Edge of the Heart: ULP FPGA-Based CNN for On-Device Cardiac Feature Extraction in Smart Health Sensors for Astronauts

Kazi Mohammad Abidur Rahman et al.

cs.AR cs.AI

本文提出了一种基于ULP FPGA的CNN方案，用于在资源受限的可穿戴传感器上实时提取Seismocardiography (SCG)心脏特征，在Lattice iCE40UP5K FPGA上实现了98%的验证精度和8.55 mW的低功耗。该工作主要面向宇航员健康监测场景，但与我提供的关键词列表关联度较低。

Towards Agentic Investigation of Security Alerts

Even Eilertsen, Vasileios Mavroeidis, Gudmund Grov

cs.CR cs.AI

本文提出了一种利用大语言模型(LLM)增强的agentic workflow来自动化安全警报调查的初始阶段，通过结构化SQL查询和grep文本搜索来辅助LLM进行数据分析和决策。实验表明该方法能提高警报判定的准确性，但主要贡献在于安全领域的应用实践，而非数学或算法层面的开创性。

SIEVES: Selective Prediction Generalizes through Visual Evidence Scoring

Hector G. Rodriguez, Marcus Rohrbach

cs.CV cs.AI

本文提出SIEVES方法，通过让reasoner模型在回答时生成局部化的visual evidence，并训练一个selector学习评估该evidence的质量，从而在selective prediction任务中提升coverage。实验表明，该方法在多个OOD benchmark上相比非grounding基线有显著提升，并能迁移到闭源模型。

RESTestBench: A Benchmark for Evaluating the Effectiveness of LLM-Generated REST API Test Cases from NL Requirements

Leon Kogler et al.

cs.SE cs.AI

本文提出了RESTestBench基准，用于评估LLM从自然语言需求生成REST API测试用例的有效性，并引入基于需求的mutation testing指标来衡量故障检测能力。实验表明，当生成器与有缺陷代码交互时测试有效性显著下降，尤其对于模糊需求。

Explainable AI for Jet Tagging: A Comparative Study of GNNExplainer, GNNShap, and GradCAM for Jet Tagging in the Lund Jet Plane

Pahal D. Patel, Sanmay Ganguly

hep-ph cs.LG hep-ex

本文比较了GNNExplainer、GNNShap和GradCAM三种可解释性方法在Lund Jet Plane上对喷注标记任务的应用，通过蒙特卡洛真值掩码和物理信息评估框架分析了不同横动量区间下的解释质量，并量化了节点重要性与经典喷注子结构观测量之间的相关性。

No Pedestrian Left Behind: Real-Time Detection and Tracking of Vulnerable Road Users for Adaptive Traffic Signal Control

Anas Gamal Aly, Hala ElAarag

cs.CV cs.AI cs.RO eess.SY

本文提出了一种名为NPLB的实时自适应交通信号系统，通过集成YOLOv12目标检测与ByteTrack多目标跟踪，监测人行横道上的弱势道路使用者并自动延长信号时间。蒙特卡洛模拟显示该系统能将行人滞留率从9.10%降至2.60%，但方法主要基于现有检测与跟踪技术的工程应用，缺乏理论或方法上的开创性。

Three Models of RLHF Annotation: Extension, Evidence, and Authority

Steve Coyne

cs.CY cs.AI cs.CL

本文区分了RLHF标注中人类判断的三种概念模型：extension, evidence和authority，并讨论了它们对标注流程设计的影响。文章建议将标注分解为不同维度，并为每个维度选择最合适的模型，而非寻求单一的统一流程。

Variational Neural Belief Parameterizations for Robust Dexterous Grasping under Multimodal Uncertainty

Clinton Enwerem et al.

cs.RO cs.LG eess.SY

本文提出了一种基于变分神经信念参数化的鲁棒灵巧抓取方法，通过可微高斯混合模型表示信念，并利用Gumbel-Softmax和重参数化技巧优化条件风险价值(CVaR)以处理多模态不确定性。实验表明该方法在接触参数不确定性和外力扰动下提高了抓取成功率，并显著减少了规划时间。

Carbon-Taxed Transformers: A Green Compression Pipeline for Overgrown Language Models

Ajmain Inqiad Alam et al.

cs.SE cs.LG

本文提出了一种名为Carbon-Taxed Transformers (CTT)的压缩流水线，受经济碳税原则启发，通过惩罚架构低效并奖励部署友好的压缩，在代码克隆检测、代码摘要和代码生成等软件工程任务中实现了显著的内存、时间和碳排放减少，同时保持了较高的准确率。该方法主要关注工程实践中的效率优化，与关键词中的spectral、Muon、pretrain、agent、attention等理论或前沿方向关联较弱。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others