bluearXiv-ai - 2026-04-24

📄 所有论文 ↑ 回顶部

cs.LG

HARBOR: Automated Harness Optimization ⭐ 精选

Biswa Sengupta, Jinhua Wang

cs.LG cs.AI

本文提出了一种自动化harness（语言模型代理的运行时包装层，包括上下文压缩、工具缓存、语义记忆等组件）优化框架HARBOR，将harness设计形式化为一个带约束的噪声贝叶斯优化问题，并采用块加性SAAS代理模型、多保真度成本感知采集函数和TuRBO信任区域进行求解。该方法在代码代理任务上验证了自动化配置搜索优于手动调优，且框架本身是任务类无关的，适用于任何具有有限标志空间和可复现任务套件的代理harness。这与关键词中的"code"和"agent"高度契合，为语言模型代理的工程优化提供了系统化的方法论。

Frequency-Forcing: From Scaling-as-Time to Soft Frequency Guidance

Weitao Du

cs.LG cs.AI

本文提出Frequency-Forcing方法，通过一个早熟的辅助低频stream（由轻量级可学习wavelet packet transform从数据自身导出）来引导标准pixel flow，实现了类似K-Flow的频率ordering但采用Latent Forcing的软机制。该方法避免了外部依赖，在ImageNet-256上提升了FID指标。

Reinforcing privacy reasoning in LLMs via normative simulacra from fiction

Matt Franchi et al.

cs.LG cs.AI

本文提出从小说中提取normative simulacra（规范模拟体，即规范和信息流的结构化表示），通过监督学习和GRPO强化学习微调LLM，以改善其隐私推理与用户情境期望的一致性。实验表明该方法在多个基准上提升了隐私判断的准确性，但未涉及code、spectral、Muon、pretrain或agent等关键词。

Do Masked Autoencoders Improve Downhole Prediction? An Empirical Study on Real Well Drilling Data

Aleksander Berezowski, Hassan Hassanzadeh, Gouri Ginde

cs.LG

本文首次将Masked Autoencoder (MAE)预训练方法应用于井下钻井指标预测任务，在真实钻井数据上进行了72种配置的系统性实验。结果表明，最佳MAE配置相比监督GRU基线降低了19.8%的测试MAE，但落后于监督LSTM基线6.4%，且发现掩码比例对性能影响可忽略。

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

Fei Zuo et al.

cs.LG

本文提出FairyFuse，一种在CPU上实现无乘法LLM推理的系统，通过将ternary weights（三元权重）的sub-GEMV操作融合为单个AVX-512循环，避免了浮点乘法。实验表明，该方法在CPU上获得显著加速，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Zhixin Zhang et al.

cs.LG cs.AI cs.CL cs.SE math.OC

本文提出Absorber LLM，将长上下文保留问题转化为自监督的因果同步（causal synchronization）目标，通过让无上下文模型匹配有完整上下文的原始模型在未来的生成行为，来吸收历史上下文到参数中。实验表明该方法在长上下文和流式基准上降低了推理内存并提升了准确性。

The Path Not Taken: Duality in Reasoning about Program Execution

Eshgin Hasanov et al.

cs.LG cs.AI cs.CL cs.PL cs.SE

本文提出了DexBench基准，通过两个互补的推理任务（预测程序输出和推断输入变异）来评估LLM对程序执行的理解，发现双路径推理能更稳健地衡量动态代码理解能力。

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Yuzhen Mao, Michael Y. Li, Emily B. Fox

cs.LG

本文提出了一种名为Gist Sparse Attention (GSA)的可学习压缩与选择性展开方法，通过插入可学习的gist压缩token来总结原始token集合，并利用这些gist作为稀疏attention的路由信号，实现从粗到细的上下文处理。该方法在LongBench和RAG基准测试中，在$8\times$到$32\times$的压缩比下，一致优于其他压缩基线和推理时稀疏attention方法。

Validating a Deep Learning Algorithm to Identify Patients with Glaucoma using Systemic Electronic Health Records

John Xiang, Rohith Ravindranath, Sophia Y. Wang

cs.LG

本文评估了一个基于深度学习的青光眼风险评估模型，该模型仅使用系统性电子健康记录数据，在独立机构的数据集上取得了较好的预测性能（AUROC 0.883）。研究验证了无需专业影像即可进行可扩展预筛查的可行性。

ILDR: Geometric Early Detection of Grokking

Shreel Golwala

cs.LG

本文提出ILDR（Inter/Intra-class Distance Ratio）作为几何度量，通过计算倒数第二层表示的类间质心距离与类内散度之比，在验证准确率提升前检测到神经网络的grokking现象。该方法基于Fisher线性判别准则，无需特征分解，在模算术和置换群组合任务上领先grokking转变9%-73%的训练预算，但与我提供的关键词（code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

Clinically Interpretable Sepsis Early Warning via LLM-Guided Simulation of Temporal Physiological Dynamics

Weizhi Nie et al.

cs.LG

本文提出了一种基于LLM引导的时序模拟框架，用于脓毒症早期预警。该框架通过模拟生理指标轨迹并结合临床推理提示，在MIMIC-IV和eICU数据库上取得了优于传统方法的AUC分数。

Unsupervised Learning of Inter-Object Relationships via Group Homomorphism

Kyotaro Ushida et al.

cs.LG

本文提出了一种基于group homomorphism的无监督表示学习方法，通过将代数结构约束引入神经网络，从动态图像序列中同时实现object segmentation和运动规律提取。实验表明该方法能在无标签条件下将多个物体分割为独立slots，并将相对运动映射到一维additive latent space中。

Domain-Aware Hierarchical Contrastive Learning for Semi-Supervised Generalization Fault Diagnosis

Junyu Ren, Wensheng Gan, Philip S Yu

cs.LG cs.AI

本文提出了一种面向半监督域泛化故障诊断的域感知分层对比学习框架(DAHCL)，通过域感知学习模块校正伪标签偏差，并利用分层对比学习模块提升未标记样本的利用效率。实验在三个基准数据集上验证了其有效性。

IRIS: Interpolative Rényi Iterative Self-play for Large Language Model Fine-Tuning

Wenjie Liao et al.

cs.LG cs.AI

IRIS提出了一种基于Rényi散度的自博弈微调框架，通过可调节的阶参数$\alpha$统一了多种现有方法。实验表明该方法在多个基准上提升了性能，但未涉及code、spectral、Muon等关键词相关领域。

Data-Driven Open-Loop Simulation for Digital-Twin Operator Decision Support in Wastewater Treatment

Gary Simethy, Daniel Ortiz Arroyo, Petar Durdevic

cs.LG cs.AI

本文提出CCSS-RS模型，一种用于污水处理厂数字孪生决策支持的受控连续时间状态空间模型，通过分离历史状态推断与未来控制滚动，在公开基准上取得了比Neural CDE基线更低的RMSE和CRPS。该模型主要面向工业应用场景，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Sink-Token-Aware Pruning for Fine-Grained Video Understanding in Efficient Video LLMs

Kibum Kim et al.

cs.LG

本文提出了一种名为Sink-Token-aware Pruning (SToP)的视觉token剪枝方法，用于提升视频大语言模型(Video LLMs)在细粒度视频理解任务上的性能。该方法通过识别并抑制在attention机制中吸引过多注意力的“sink tokens”，并将其应用于现有的空间和时间剪枝方法中，从而在剪枝高达90%的视觉token时仍能显著提升模型在幻觉评估、开放生成等任务上的表现。

SCM: Sleep-Consolidated Memory with Algorithmic Forgetting for Large Language Models

Saish Sachin Shinde

cs.LG

本文提出了一种名为SCM的大语言模型记忆架构，受神经科学启发，通过工作记忆、重要性标记、睡眠阶段整合和遗忘机制来模拟人类记忆过程。实验表明该原型在十轮对话中达到完美召回率，并将记忆噪声降低90.9%。

LAF-Based Evaluation and UTTL-Based Learning Strategies with MIATTs

Yongquan Yang

cs.LG cs.AI

本文在EL-MIATTs框架下，提出了基于LAF的评估算法和基于UTTL的学习策略，用于处理真实目标无法精确定义（即不确定监督）的机器学习问题。文章分析了任务特定的MIATTs（多个不准确真实目标）的覆盖性和多样性，并讨论了如何将逻辑评估与统计优化相结合。

Early Detection of Latent Microstructure Regimes in Limit Order Books

Prakul Sunil Hiremath, Vruksha Arun Hiremath

cs.LG q-fin.TR stat.ME stat.ML

本文形式化了限价订单簿中从稳定到压力的三阶段因果数据生成过程，并提出一种基于MAX聚合、上升沿条件和自适应阈值的触发器检测器，用于在压力出现前识别潜在的微观结构恶化阶段。实验表明该方法在模拟和真实数据上均优于经典基线，但性能在低信噪比下会下降。

Differentially Private Model Merging

Qichuan Yin, Manzil Zaheer, Tian Li

cs.LG cs.AI cs.CR stat.ML

本文提出两种后处理技术（随机选择和线性组合），用于从一组已训练好的不同隐私/效用权衡的模型中生成满足任意目标差分隐私要求的模型，并提供了隐私核算分析。

Droplet-LNO: Physics-Informed Laplace Neural Operators for Accurate Prediction of Droplet Spreading Dynamics on Complex Surfaces

Ganesh Sahadeo Meshram, Partha Pratim Chakrabarti, Suman Chakraborty

cs.LG

本文提出了一种基于Laplace积分变换的物理信息神经网络PI-LNO，用于预测液滴在复杂表面上的扩散动力学，通过结合Navier-Stokes和Cahn-Hilliard约束的复合损失函数进行训练。该方法在计算效率上优于传统CFD模拟，但未涉及code、spectral、Muon等关键词。

SGD at the Edge of Stability: The Stochastic Sharpness Gap

Fangshuo Liao, Afroditi Kolomvaki, Anastasios Kyrillidis

cs.LG cs.AI math.OC

本文研究了mini-batch SGD训练中sharpness（Hessian最大特征值）稳定在$2/\eta$以下的现象，通过引入随机自稳定机制，推导了sharpness gap的闭式表达式$\Delta S = \eta \beta \sigma_{\boldsymbol{u}}^{2}/(4\alpha)$，解释了小batch size导致更平坦解的原因。该工作扩展了自稳定框架，但与我提供的关键词列表契合度较低。

MCAP: Deployment-Time Layer Profiling for Memory-Constrained LLM Inference

Anurita Das

cs.LG

本文提出MCAP方法，在模型加载时通过蒙特卡洛激活分析估计各层重要性，从而在内存受限设备上动态调整精度和存储层级，实现不同内存预算下的推理。实验表明该方法在NVIDIA T4上相比基线提升了1.5-1.8倍的解码吞吐量。

A Deep U-Net Framework for Flood Hazard Mapping Using Hydraulic Simulations of the Wupper Catchment

Christian Lammers et al.

cs.LG cs.AI cs.CV

本文使用U-Net深度学习框架作为替代传统水力模拟的代理模型，用于预测洪水最大水位分布。该方法在德国Wupper流域的测试中取得了与水力模拟相当的结果，但计算效率更高。

Synthetic Data in Education: Empirical Insights from Traditional Resampling and Deep Generative Models

Tapiwa Amion Chinodakufa, Ashfaq Ali Shafin, Khandaker Mamun Ahmed

cs.LG cs.AI

本文对教育领域中的传统重采样方法（SMOTE, Bootstrap, Random Oversampling）与深度生成模型（Autoencoder, Variational Autoencoder, Copula-GAN）进行了系统基准比较，发现重采样方法在效用上接近完美但隐私保护极差，而深度模型则相反。其中Variational Autoencoder被认为是最优折中方案，但该工作与关键词列表中的概念无直接关联。

Interpretable Quantile Regression by Optimal Decision Trees

Valentin Lemaire, Gaël Aglin, Siegfried Nijssen

cs.LG

本文提出了一种通过最优决策树学习分位数回归集合的新方法，能够在不预设目标变量分布的前提下预测其完整条件分布，同时保持模型的可解释性。该方法在算法效率上与学习单棵树相当，但未涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

JEPAMatch: Geometric Representation Shaping for Semi-Supervised Learning

Ali Aghababaei-Harandi, Aude Sportisse, Massih-Reza Amini

cs.LG

本文提出了一种名为JEPAMatch的半监督学习方法，通过引入Latent-Euclidean Joint-Embedding Predictive Architectures (LeJEPA)中的latent-space正则化项来改进FlexMatch框架，以解决伪标签噪声和类别不平衡问题。实验表明该方法在CIFAR-100等数据集上提升了性能并加速了收敛，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

TRAVELFRAUDBENCH: A Configurable Evaluation Framework for GNN Fraud Ring Detection in Travel Networks

Bhavana Sajja

cs.LG cs.AI

本文提出了TravelFraudBench (TFG)，一个用于评估GNN在旅行平台欺诈环检测中性能的可配置基准。它模拟了三种特定于旅行的欺诈环拓扑结构，并评估了多种方法，实验表明图结构能显著提升检测能力。

Spectral Embeddings Leak Graph Topology: Theory, Benchmark, and Adaptive Reconstruction

Thinh Nguyen-Cong, Truong-Son Hy, Thang N. Dinh

cs.LG

本文提出了LoGraB基准和AFR方法，用于处理图数据碎片化场景下的图重建问题。AFR通过保真度度量评估碎片质量，并利用RANSAC-Procrustes对齐和Bundle Adjustment等技术恢复图拓扑，实验表明其在多个数据集上优于现有方法。

Preconditioned DeltaNet: Curvature-aware Sequence Modeling for Linear Recurrences

Neehal Tumma, Noel Loo, Daniela Rus

cs.LG

本文从test-time regression (TTR)框架出发，指出现有delta-rule recurrences（如DeltaNet, GDN, KDA）忽略了least-squares loss的curvature信息。作者通过引入preconditioning（具体采用对角近似）来改进这些recurrences，并提出了高效的chunkwise并行算法，在合成recall基准和语言建模任务上取得了性能提升。

A Hybridizable Neural Time Integrator for Stable Autoregressive Forecasting

Brooks Kinch et al.

cs.LG math.NA

本文提出了一种混合神经时间积分器，将自回归transformer嵌入到基于shooting的混合有限元方案中，用于混沌动力系统的长期自回归建模。该方法在理论上保证了离散能量的保持和梯度的一致有界性，从而避免了梯度爆炸问题，并在混沌系统预测中实现了比现代基础模型更优的性能。

How Much Is One Recurrence Worth? Iso-Depth Scaling Laws for Looped Language Models

Kristian Schwethelm, Daniel Rueckert, Georgios Kaissis

cs.LG cs.CL

本文通过116次预训练实验，拟合了循环语言模型的缩放定律，发现循环次数$r$的等价指数$\varphi=0.46$，表明增加循环次数在验证损失上等价于部分参数增长，但训练成本更高。该工作为循环模型的设计提供了可预测的损失代价，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

TabSHAP

Aryan Chaudhary, Prateek Agarwal, Tejasvi Alladi

cs.LG cs.CL

本文提出了TabSHAP，一个用于解释基于LLM的表格分类器的模型无关可解释性框架。它通过Shapley值风格的采样联盟估计器，结合Jensen-Shannon散度来量化每个特征对输出分布的影响，并在序列化的key:value字段级别进行掩码操作。实验在Adult Income和Heart Disease基准上验证了其忠实性。

Graph Neural Network-Informed Predictive Flows for Faster Ford-Fulkerson and PAC-Learnability

Eleanor Wiesler, Trace Baxley

cs.LG cs.DS

本文提出一种将Graph Neural Network (GNN)与Ford-Fulkerson算法结合的加速最大流计算框架，通过学习边的重要性概率来指导增广路径的选择，并引入双向路径构建策略，在保持最优性的同时减少实际增广次数。

Toward Efficient Membership Inference Attacks against Federated Large Language Models: A Projection Residual Approach

Guilin Deng et al.

cs.LG

本文提出ProjRes方法，利用投影残差分析梯度与输入的内在联系，实现对联邦大语言模型的高效成员推断攻击，无需影子模型或辅助分类器。实验表明该方法在多个基准和模型上接近100%准确率，揭示了FedLLMs中此前被忽视的隐私漏洞。

ARFBench: Benchmarking Time Series Question Answering Ability for Software Incident Response

Stephan Xie et al.

cs.LG cs.CV

本文提出了ARFBench，一个用于评估多模态基础模型在软件事件响应中时间序列问答能力的基准测试，包含750个问题。实验发现前沿视觉语言模型表现最佳，并开发了一个结合时间序列和视觉语言模型的混合原型。

The Recurrent Transformer: Greater Effective Depth and Efficient Decoding

Costin-Andrei Oncescu et al.

cs.LG

本文提出Recurrent Transformer架构，通过让每层关注自身激活计算出的key-value对实现层间循环记忆，并给出基于tiling的算法将HBM流量从$\Theta(N^2)$降至$\Theta(N\log N)$。实验表明该模型在固定参数量下用更少层数即可超越标准Transformer的交叉熵性能。

Learning Dynamic Representations and Policies from Multimodal Clinical Time-Series with Informative Missingness

Zihan Liang, Ziwen Pan, Ruoxuan Xiong

cs.LG cs.CL stat.ME

本文提出了一种多模态临床时间序列的患者表示学习框架，通过结合结构化测量和临床文本数据及其观测模式，利用信息性缺失来学习动态患者状态。该框架在ICU脓毒症数据集上改进了离线治疗策略学习和不良结局预测性能。

CAP: Controllable Alignment Prompting for Unlearning in LLMs

Zhaokun Wang et al.

cs.LG cs.AI

本文提出CAP框架，通过reinforcement learning将unlearning转化为可学习的prompt优化过程，在不修改模型参数的情况下实现可控的知识遗忘与恢复。该方法主要针对LLM中的敏感信息遗忘问题，但与我提供的关键词列表关联度较低。

Improving Performance in Classification Tasks with LCEN and the Weighted Focal Differentiable MCC Loss

Pedro Seber, Richard D. Braatz

cs.LG

本文对LCEN算法进行改进以适用于分类任务，并提出了加权focal differentiable MCC损失函数。实验表明该方法在多个数据集上提升了分类性能，但未涉及关键词中的核心概念。

Hyperloop Transformers

Abbas Zeitoun, Lucas Torroba-Hennigen, Yoon Kim

cs.LG cs.CL

本文提出了一种名为Hyperloop Transformer的架构，通过将looped Transformer与hyper-connections结合，在减少约50%参数量的情况下，在语言建模任务上超越了深度匹配的Transformer基线。该方法主要关注参数效率，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）没有直接契合。

Measure Twice, Click Once: Co-evolving Proposer and Visual Critic via Reinforcement Learning for GUI Grounding

Wenkai Wang et al.

cs.LG cs.AI cs.CV

本文提出了一种基于强化学习的Propose-then-Critic框架，用于GUI grounding任务，通过可学习的critic机制替代静态一致性策略，并引入成熟度感知的自适应共进化训练范式，以提升定位精度和critic的可靠性。

Understanding and Mitigating Spurious Signal Amplification in Test-Time Reinforcement Learning for Math Reasoning

Yongcan Yu et al.

cs.LG cs.AI cs.CL

本文研究了Test-time Reinforcement Learning (TTRL)中由伪标签噪声引起的虚假信号放大问题，并提出一个名为DDRL的统一框架，通过频率采样、去偏优势估计和共识驱动的离线精炼来缓解该问题。实验表明该方法在数学推理任务上优于现有基线。

Sub-Token Routing in LoRA for Adaptation and Query-Aware KV Compression

Wei Jiang, Wei Wang

cs.LG cs.CL

本文研究了LoRA适配transformer中的子token路由机制，提出两种设计：查询无关的压缩感知语言建模方法和查询感知的下游任务保持KV压缩方法。实验表明该方法能改善质量-压缩权衡，并发现token级与子token级路由形成互补的压缩轴。

Decoupled Travel Planning with Behavior Forest

Duanyang Yuan et al.

cs.LG

本文提出Behavior Forest方法，将旅行规划中的多约束决策过程解耦为并行行为树森林，每个行为树负责一个子任务，并通过全局协调机制整合。该方法将大语言模型嵌入行为树节点进行局部推理，以降低推理负担并提升规划效率。

mcdok at SemEval-2026 Task 13: Finetuning LLMs for Detection of Machine-Generated Code

Adam Skurla, Dominik Macko, Jakub Simko

cs.LG cs.AI cs.CL cs.SE

本文针对SemEval-2026 Task 13中的多领域机器生成代码检测问题，通过微调多种更适合代码理解的LLM，将已有的mdok方法（原用于机器生成文本检测）适配到该任务。实验表明所提系统在所有三个子任务中具有竞争力，但与最优系统仍有显著差距。

Channel-Free Human Activity Recognition via Inductive-Bias-Aware Fusion Design for Heterogeneous IoT Sensor Environments

Tatsuhito Hasegawa

cs.LG cs.HC

本文针对异构IoT传感器环境中人体活动识别（HAR）的通道固定问题，提出了一种无通道（channel-free）的HAR框架，通过独立处理每个通道并结合传感器元数据（如身体位置、模态和轴）进行条件批归一化融合，实现了对可变通道配置的鲁棒推理。实验在PAMAP2等数据集上验证了其有效性，但方法本身与关键词中的code, context, spectral, Muon, pretrain, agent, attention关联较弱。

Relocation of compact sets in $\mathbb{R}^n$ by diffeomorphisms and linear separability of datasets in $\mathbb{R}^n$

Xiao-Song Yang, Xuan Zhou, Qi Zhou

cs.LG

本文研究了通过$\mathbb{R}^n$的自微分同胚重新定位紧集的理论，并证明了这些紧集可以嵌入到$\mathbb{R}^{n+1}$中实现线性可分。该结果被应用于深度神经网络，表明在温和条件下，有限个紧数据集可通过特定激活函数的网络实现线性可分。

Supervised Learning Has a Necessary Geometric Blind Spot: Theory, Consequences, and Minimal Repair

Vishal Rajput

cs.LG cs.AI cs.CV

本文证明了监督学习中的经验风险最小化（ERM）会在学习到的表示上施加一个必要的几何约束：编码器必须在与训练数据中标签相关但在测试时无用的方向上保持非零的Jacobian敏感性。作者将此称为监督学习的几何盲点，并引入轨迹偏差指数（TDI）来测量该现象，但该工作与关键词列表中的概念关联较弱。

Even More Guarantees for Variational Inference in the Presence of Symmetries

Lena Zellinger, Antonio Vergari

cs.LG stat.CO stat.ML

本文研究了在目标分布存在对称性时，使用location-scale variational family进行variational inference的鲁棒性。作者推导了使用forward KL divergence和$\alpha$-divergences时能够精确恢复目标均值的充分条件，并分析了优化失败的原因。

A Green-Integral-Constrained Neural Solver with Stochastic Physics-Informed Regularization

Mohammad Mahdi Abedi, David Pardo, Tariq Alkhalifah

cs.LG physics.geo-ph

本文提出了一种基于Green积分约束的神经求解器，用于声学Helmholtz方程，通过积分表示替代PDE残差来模拟高振荡解，并利用FFT加速计算。该方法在计算效率和稳定性上优于传统PINNs，但主要针对特定物理问题，与关键词中的spectral等概念关联较弱。

Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics

Heng Yang

cs.LG cs.RO

本文提出了一种基于采样的框架Tempered Sequential Monte Carlo (TSMC)，用于在可微动力学下进行有限时域轨迹和策略优化，通过将控制器设计视为推理问题，并利用退火和Hamiltonian Monte Carlo方法从目标分布中高效采样。该方法在多个基准测试中表现良好，但与关键词列表中的概念关联较弱。

Conditional anomaly detection with soft harmonic functions

Michal Valko et al.

cs.LG

本文提出了一种基于soft harmonic functions的非参数条件异常检测方法，用于识别具有异常响应或类标签的数据实例。该方法通过估计标签置信度来检测异常标记，并通过正则化避免孤立点和分布边界上的误检。

Dynamical Priors as a Training Objective in Reinforcement Learning

Sukesh Subaharan

cs.LG cs.AI

本文提出Dynamical Prior Reinforcement Learning (DP-RL)框架，通过在policy gradient学习中添加基于外部状态动力学的辅助损失来塑造决策的时间演化。实验表明该方法能促进agent产生时间结构化的行为，但未涉及code、spectral或Muon等关键词。

Drug Synergy Prediction via Residual Graph Isomorphism Networks and Attention Mechanisms

Jiyan Song et al.

cs.LG cs.AI

本文提出了一种名为ResGIN-Att的模型，通过残差图同构网络和注意力机制预测药物协同作用。该模型在多个基准数据集上取得了有竞争力的性能，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Generalizing Numerical Reasoning in Table Data through Operation Sketches and Self-Supervised Learning

Hanjun Cho et al.

cs.LG cs.AI cs.CL

本文提出TaNOS框架，通过header anonymization和operation sketches解耦领域语义与数值运算结构，并利用self-supervised pretraining生成正确性有保证的程序-问题对，以提升表格数据数值推理的跨域迁移能力。实验表明该方法在FinQA等任务上以少量数据超越全量微调基线，并显著缩小了域间性能差距。

A temporal deep learning framework for calibration of low-cost air quality sensors

Arindam Sengupta et al.

cs.LG

本文提出了一种基于LSTM的深度学习框架，用于校准低成本空气质量传感器（LCS）的PM$_{2.5}$、PM$_{10}$和NO$_2$测量值，通过捕捉时间依赖性和延迟环境效应，相比随机森林基线方法取得了更高的$R^2$值，并验证了其符合监管标准。

Hybrid Deep Learning Approach for Coupled Demand Forecasting and Supply Chain Optimization

Nusrat Yasmin Nadia et al.

cs.LG cs.AI

本文提出了一种混合AI框架HAF-DS，将基于LSTM的需求预测与MILP优化相结合，用于纺织和PPE供应链。实验表明该方法在预测误差和运营成本上优于传统基线。

Promoting Simple Agents: Ensemble Methods for Event-Log Prediction

Benedikt Bollig et al.

cs.LG cs.AI cs.DC cs.FL

本文比较了轻量级automata模型（如n-grams）与神经网络架构（LSTM, Transformer）在流式event-log预测中的表现，发现n-grams在适当context窗口下能达到与神经网络相当的准确率且资源消耗更少。作者提出了一种名为promotion algorithm的ensemble方法，在推理时动态选择两个活跃模型，以降低传统voting方案的开销。

Geometric Characterisation and Structured Trajectory Surrogates for Clinical Dataset Condensation

Pafue Christy Nganjimi et al.

cs.LG

本文通过几何特征化分析了trajectory matching方法在临床数据集压缩中的局限性，并提出Bezier Trajectory Matching (BTM)方法，用二次Bezier曲线替代SGD轨迹以优化监督信号结构。实验表明BTM在低患病率和低合成预算场景下表现更优，但方法本身与关键词中的spectral、attention等概念关联较弱。

Task-specific Subnetwork Discovery in Reinforcement Learning for Autonomous Underwater Navigation

Yi-Ling Liu et al.

cs.LG cs.AI cs.RO

本文通过分析预训练的多任务强化学习网络在HoloOcean模拟器中的内部结构，发现用于区分不同水下导航任务的子网络仅使用约1.5%的权重，其中大部分连接输入层的context变量节点与下一隐藏层，揭示了context变量在任务区分中的关键作用。

Large-Scale Data Parallelization of Product Quantization and Inverted Indexing Using Dask

Ashley N. Abraham et al.

cs.LG cs.PF

本文使用Dask框架对Product Quantization和Inverted Indexing进行大规模数据并行化，旨在降低大规模近似最近邻搜索的计算开销，通过分治策略在保持精度的同时减少内存与时间消耗。

Dilated CNNs for Periodic Signal Processing: A Low-Complexity Approach

Eli Gildish, Michael Grebshtein, Igor Makienko

cs.LG cs.AI eess.AS eess.SP

本文提出了一种基于Dilated CNN和重采样（Re-sampling）的低复杂度方法R-DCNN，用于处理变基频周期信号的去噪与波形估计。该方法仅需单次观测即可训练，并通过轻量级重采样步骤实现不同频率信号的时间尺度对齐，从而复用网络权重。尽管计算复杂度低，R-DCNN在性能上可与经典自回归方法及传统DCNN相媲美，适合资源受限环境。

Transferable SCF-Acceleration through Solver-Aligned Initialization Learning

Eike S. Eberhard et al.

cs.LG

本文研究了机器学习加速SCF迭代的问题，发现传统方法在分子尺寸外推时失效源于监督信号而非外推本身。作者提出SAIL方法，通过端到端微分SCF求解器来训练初始猜测预测模型，并引入ERIC指标修正了传统RIC的缺陷。实验表明SAIL在多种泛函上显著降低了迭代次数，并实现了对大型药物分子的实际加速。

Geometric Monomial (GEM): a family of rational 2N-differentiable activation functions

Eylon E. Krause

cs.LG cs.AI cs.NE

本文提出了一族名为GEM的$C^{2N}$光滑有理激活函数，包括GEM、E-GEM和SE-GEM三种变体，旨在替代ReLU并提升深度网络的优化性能。实验表明，该族函数在多个视觉和语言任务上能达到或超越GELU的性能，并揭示了光滑度参数$N$在不同架构（CNN与Transformer）中的不同偏好。

Evaluating Post-hoc Explanations of the Transformer-based Genome Language Model DNABERT-2

Isabel Kurth, Paulo Yanez Sarmiento, Bernhard Y. Renard

cs.LG

本文研究了基于Transformer的基因组语言模型DNABERT-2的事后解释方法，通过将AttnLRP（一种层间相关性传播的注意力机制扩展）应用于该模型，并提出了从token到核苷酸级别的解释迁移策略。结果表明，该方法能产生与已知生物学模式对应的可靠解释，从而验证了基因组语言模型在生物学洞察方面的潜力。

Towards Universal Tabular Embeddings: A Benchmark Across Data Tasks

Liane Vogel et al.

cs.LG cs.DB

本文提出了TEmBed基准，用于系统评估表格数据嵌入模型在cell、row、column和table四个表示层次上的表现。实验表明，模型的选择取决于具体任务和表示层次，为实际应用中选择表格嵌入提供了指导。

Fairness under uncertainty in sequential decisions

Michelle Seng Ah Lee et al.

cs.LG cs.AI

本文提出了一个在序贯决策中不确定性（包括模型、反馈和预测不确定性）的分类法，并通过counterfactual logic和reinforcement learning形式化这些不确定性，展示了忽略未观测空间如何导致对决策者和受试者的不公平。实验表明，不确定性感知的探索可以改变公平性指标，但该方法主要聚焦于框架构建而非解决长期存在的理论问题。

Transferable Physics-Informed Representations via Closed-Form Head Adaptation

Jian Cheng Wong et al.

cs.LG cs.CE physics.comp-ph

本文提出了一种基于快速伪逆的PINN框架(Pi-PINN)，通过学习可迁移的物理信息表示，并利用闭式头适应（closed-form head adaptation）方法快速求解已知和未知的PDE实例。该方法在Poisson方程、Helmholtz方程和Burgers方程上验证了有效性，相比传统PINN实现了100-1000倍的速度提升和10-100倍的误差降低。

PrismaDV: Automated Task-Aware Data Unit Test Generation

Hao Chen, Arnab Phani, Sebastian Schelter

cs.LG cs.SE

本文提出PrismaDV，一个复合AI系统，通过分析下游任务代码与数据集profile来生成任务感知的数据单元测试，并引入SIFTA框架优化prompt以适应特定任务。实验表明该方法在生成反映数据错误端到端影响的测试方面优于现有baseline。

An effective variant of the Hartigan $k$-means algorithm

François Clément, Stefan Steinerberger

cs.LG

本文提出了一种对Hartigan $k$-means算法的微小变体，通过调整其更新策略，在原有算法基础上进一步提升了聚类效果（约2%-5%），尤其在高维或大$k$场景下改进更明显。

Quotient-Space Diffusion Models

Yixian Xu et al.

cs.LG cs.AI q-bio.QM stat.ML

本文为具有对称性的系统（如分子结构生成中的$\text{SE}(3)$对称性）建立了商空间上的扩散模型形式化框架，通过将群作用对应的分量从学习中剥离，降低了传统群等变扩散模型的学习难度，并在小分子和蛋白质结构生成任务上验证了其有效性。

Probably Approximately Consensus: On the Learning Theory of Finding Common Ground

Carter Blair et al.

cs.LG cs.AI cs.MA

本文提出了一种通过嵌入和降维将高维意见数据映射到一维空间，并定义区间共识目标的方法，使用ERM算法进行优化并给出了PAC学习保证。实验表明，通过选择性查询用户可减少所需查询次数。

GFlowState: Visualizing the Training of Generative Flow Networks Beyond the Reward

Florian Holeczek et al.

cs.LG cs.HC

本文提出了一个名为GFlowState的可视化分析系统，用于解释Generative Flow Networks (GFlowNets)的训练过程，通过轨迹网络、状态投影等视图帮助用户分析采样行为和策略演化。该系统主要关注模型的可解释性，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

A Scale-Adaptive Framework for Joint Spatiotemporal Super-Resolution with Diffusion Models

Max Defez et al.

cs.LG cs.AI

本文提出了一种尺度自适应的联合时空超分辨率框架，通过将确定性条件均值预测与残差条件扩散模型结合，并调整扩散噪声调度、时间上下文长度等超参数，实现了同一架构在不同超分辨率因子下的复用。该方法在法国降水再分析数据上验证了其跨空间和时间尺度的有效性。

Low-Rank Adaptation Redux for Large Models

Bingcong Li, Yilang Zhang, Georgios B. Giannakis

cs.LG eess.SP

本文从信号处理视角重新审视了低秩适配（LoRA）方法，将其与经典低秩建模工具和逆问题相联系，并围绕架构设计、高效优化及应用三个维度对LoRA变体的技术机制进行了分类梳理。文章主要是一篇综述性工作，并未提出新的方法或解决长期存在的开放问题。

The Sample Complexity of Multicalibration

Natalie Collina et al.

cs.LG math.ST stat.ML

本文研究了批量设置下多校准（multicalibration）的极小极大样本复杂度，证明了对于给定的群族，达到期望校准误差（ECE）不超过$\varepsilon$所需的样本量为$\widetilde{\Theta}(\varepsilon^{-3})$，并揭示了其与边际校准（marginal calibration）样本复杂度$\widetilde{\Theta}(\varepsilon^{-2})$的分离现象。该工作通过在线到批量的归约（online-to-batch reduction）实现了上界，并建立了匹配的下界。

Fine-Tuning Regimes Define Distinct Continual Learning Problems

Paul-Tiberiu Iordache, Elena Burceanu

cs.LG

本文研究了continual learning中fine-tuning regime（可训练参数子空间）对方法比较的影响，发现不同训练深度下方法排名不一致，且更深层适应与更大更新幅度和更高遗忘相关。该工作主要关注实验评估协议，与关键词中的code、spectral、Muon等无直接关联。

Temporal Taskification in Streaming Continual Learning: A Source of Evaluation Instability

Nicolae Filat et al.

cs.LG

本文研究了流式持续学习中时间任务划分（temporal taskification）对评估稳定性的影响，通过引入基于可塑性与稳定性轮廓的框架以及边界-轮廓敏感性（BPS）指标，发现不同任务划分方式会显著改变模型在预测误差、遗忘和反向迁移上的表现，从而影响基准结论。

cs.AI

Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations ⭐ 精选

Bowen Zuo, Dongruo Zhou, Yinglun Zhu

cs.AI

本文提出了一种自适应测试时计算分配框架，通过引入一个预热阶段来识别简单查询并构建初始的问答对池，随后在自适应阶段利用不断演化的in-context demonstrations（即基于语义相关查询的成功响应来调整生成分布）来集中计算资源处理未解决的查询。该方法在数学、编码和推理基准测试中，相比现有基线方法在显著降低推理计算量的同时取得了更优的性能，与关键词“code”和“context”高度契合。

ReaGeo: Reasoning-Enhanced End-to-End Geocoding with LLMs ⭐ 精选

Jian Cui et al.

cs.AI cs.CL

本文提出ReaGeo，一种基于大语言模型(LLM)的端到端地理编码框架。该方法将地理坐标转换为geohash序列，从而将坐标预测任务重新表述为文本生成问题，并引入Chain-of-Thought机制以增强模型对空间关系的推理能力。此外，通过基于距离偏差的奖励进行强化学习来优化生成精度。该工作为地理编码任务提供了新的范式，与关键词中的“agent”概念（将LLM作为自主推理与决策的智能体）较为契合。

Learning to Communicate: Toward End-to-End Optimization of Multi-Agent Language Systems ⭐ 精选

Ye Yu et al.

cs.AI cs.CL cs.MA

本文提出DiffMAS框架，将多agent系统中的latent communication（通过key-value cache等内部表示进行的信息传递）视为可学习的组件，并采用参数高效的supervised training对多agent的latent trajectories进行联合优化。该方法突破了传统将agent间通信视为固定接口的局限，实现了信息编码与解释的端到端学习。实验表明，DiffMAS在数学推理、科学问答、代码生成等任务上显著优于单agent推理、基于文本的多agent系统及先前的latent communication方法，例如在AIME24上达到26.7%的准确率。该工作与关键词中的agent高度契合，并为多agent语言系统的通信机制提供了开创性的优化思路。

Handbook of Rough Set Extensions and Uncertainty Models

Takaaki Fujita, Florentin Smarandache

cs.AI cs.CE cs.LG

本文系统综述了Rough Set理论的主要扩展模型及其不确定性处理机制，包括基于等价、容差、覆盖、邻域和概率的粒化方法，以及模糊、直觉模糊、中智和多重不确定性语义。该书旨在为相关模型提供系统性地图，而非深入探讨特征约简或规则归纳等具体算法。

Architecture of an AI-Based Automated Course of Action Generation System for Military Operations

Ji-il Park, Inwook Shim, Chong Hui Kim

cs.AI cs.MA

本文介绍了基于AI的军事行动方案自动生成系统的架构设计，讨论了在公开信息范围内可用的AI技术，但未涉及具体数学方法或与关键词相关的创新性贡献。

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Michael O'Herlihy, Rosa Català

cs.AI cs.CY

本文指出在规则治理环境中，基于人类标签一致性的内容审核评估存在缺陷（即“协议陷阱”），并提出了基于策略正确性的评估框架，包括Defensibility Index (DI)和Ambiguity Index (AI)，以及用于估计推理稳定性的Probabilistic Defensibility Signal (PDS)。通过在Reddit审核数据上的验证，该框架显示基于一致性的指标与基于策略的指标之间存在显著差距，并表明评估应转向基于推理的有效性。

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Xiyang Wu et al.

cs.AI

本文提出COSPLAY框架，通过让LLM决策agent从可学习的skill bank中检索技能来指导动作，同时由另一个agent管理的skill pipeline从无标签轨迹中提取可复用技能。该方法在六个游戏环境中相比前沿LLM基线取得了平均25.1%的奖励提升。

Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models

Inderjeet Nair, Jie Ruan, Lu Wang

cs.AI cs.CL cs.SE

本文提出VLAF诊断框架，通过价值冲突场景检测语言模型中的alignment faking现象，发现该现象在7B参数模型中普遍存在，并利用representation space中的单一方向进行轻量级缓解。

The Last Harness You'll Ever Build

Haebin Seong, Li Yin, Haoran Zhang

cs.AI

本文提出一个两层级自动化框架，用于优化AI agent在特定任务中的"harness"（即提示、工具、编排逻辑与评估标准）。第一层通过进化循环优化单个任务的harness，第二层通过元进化循环学习一个能快速适应新任务的进化协议，从而消除人工harness工程。

Deep FinResearch Bench: Evaluating AI's Ability to Conduct Professional Financial Investment Research

Mirazul Haque et al.

cs.AI cs.LG

本文提出了Deep FinResearch Bench，一个用于评估金融投资研究中深度研究（DR）agent的框架，通过定性严谨性、定量预测准确性和声明可信度三个维度进行评测。实验发现AI生成的报告在这些维度上仍逊于金融专业人士的报告。

HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering

Yuyu Liu et al.

cs.AI

本文提出HypEHR，一个基于Lorentzian模型的紧凑框架，通过将代码、就诊和问题嵌入双曲空间并利用几何一致的cross-attention机制来回答EHR问题。该模型在参数远少于LLM方法的情况下，在MIMIC-IV基准上取得了接近的性能。

Who Defines Fairness? Target-Based Prompting for Demographic Representation in Generative Models

Marzia Binta Nizam, James Davis

cs.AI

本文提出了一种轻量级的推理时框架，通过prompt-level干预来缓解文本到图像生成模型中的代表性偏差，允许用户选择多种公平性定义（如均匀分布或由大语言模型提供的复杂定义），并评估生成图像的肤色分布与目标的一致性。该方法无需重新训练模型，在36个prompt上验证了其有效性。

Active Data

Richard Arthur, Virginia DiDomizio, Louis Hoebel

cs.AI

本文提出了一种基于Active Data的自底向上推理方法，将数据视为与环境主动交互的原子对象，以处理大规模复杂数据集。该方法在航空交通流量管理领域进行了实现，但未涉及关键词中的code、spectral、Muon、pretrain、agent或attention等概念。

InVitroVision: a Multi-Modal AI Model for Automated Description of Embryo Development using Natural Language

Nicklas Neu et al.

cs.AI

本文尝试将多模态vision-language模型PaliGemma-2微调用于IVF胚胎发育的自然语言描述，在有限数据上表现优于商业模型，但方法本身在AI领域缺乏开创性，且与关键词列表中的概念无直接关联。

Mind the Prompt: Self-adaptive Generation of Task Plan Explanations via LLMs

Gricel Vázquez et al.

cs.AI cs.SE

本文提出了一种名为COMPASS的自适应方法，将prompt engineering形式化为基于POMDP的认知决策过程，用于自动生成任务规划解释。该方法通过建模用户的潜在认知状态来优化LLM生成的解释质量，并在两个案例中验证了其可行性。

Propensity Inference: Environmental Contributors to LLM Behaviour

Olli Järviniemi et al.

cs.AI cs.CL

本文研究了语言模型行为中环境因素的贡献，通过贝叶斯广义线性模型分析12种环境因素（包括战略性和非战略性）对模型倾向的影响，发现两者贡献大致相等，且未随能力提升而显著变化。

AI Governance under Political Turnover: The Alignment Surface of Compliance Design

Andrew J. Peterson

cs.AI econ.GN

本文研究了政治更迭下AI治理的合规设计问题，通过形式化模型分析了自动化规模、编码程度和迭代使用保障措施如何影响政府内部对AI系统的战略利用。

Agentic AI for Personalized Physiotherapy: A Multi-Agent Framework for Generative Video Training and Real-Time Pose Correction

Abhishek Dharmaratnakar et al.

cs.AI

本文提出了一种用于个性化物理治疗的多智能体系统（Multi-Agent System）架构，利用生成式AI和计算机视觉生成个性化训练视频并提供实时姿态纠正，但方法在数学或算法层面缺乏显著开创性，且与关键词列表中的概念关联较弱。

Multi-Agent Empowerment and Emergence of Complex Behavior in Groups

Tristan Shah et al.

cs.AI cs.MA

本文研究了多智能体系统中empowerment（一种内在动机）的扩展计算，并观察到该动机在两种不同环境中（如肌腱耦合的智能体对和可控Vicsek群）能引发群体组织的行为模式。

Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

Vipula Rawte et al.

cs.AI

本文提出了DAVinCI框架，通过将生成claims归因于模型组件和外部来源，并基于entailment推理和置信度校准进行验证，以提升LLM输出的事实可靠性。实验表明该方法在多个数据集上提升了分类和归因性能，但未涉及code、spectral、Muon等关键词相关技术。

Align Generative Artificial Intelligence with Human Preferences: A Novel Large Language Model Fine-Tuning Method for Online Review Management

Yanan Wang, Yong Ge

cs.AI cs.CL

本文提出了一种针对在线评论管理的LLM微调方法，通过上下文增强缓解幻觉，并利用理论驱动的偏好构建和课程学习来对齐人类偏好，同时引入密度估计支持约束以解决离线策略优化中的过度保守问题。

ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures

Xiyin Zeng et al.

cs.AI

本文提出ReCAPA框架，通过预测和对比机制在动作、子目标和轨迹三个层次上纠正视觉-语言-动作系统中的级联错误，使用Sinkhorn和Score-field模块实现语义对齐。实验表明该方法在多个具身智能基准上优于现有基线。

Robustness Analysis of POMDP Policies to Observation Perturbations

Benjamin Kraske et al.

cs.AI

本文研究了部分可观测马尔可夫决策过程(POMDP)中策略对观测模型偏差的鲁棒性分析问题，提出了策略观测鲁棒性问题并给出了两种变体（sticky与non-sticky）的求解方法。通过将问题转化为双层优化并利用内层优化的单调性，作者设计了具有收敛保证的Robust Interval Search算法，并在机器人学与运筹学案例中验证了其可扩展性。

Trustworthy Clinical Decision Support Using Meta-Predicates and Domain-Specific Languages

Michael Bouzinier et al.

cs.AI cs.PL cs.SE q-bio.QM

本文提出了一种基于元谓词（meta-predicates）和领域特定语言（DSL）的临床决策支持框架，通过设计契约原则约束决策规则使用的证据类型，并在基因组变异解读平台AnFiSA中进行了验证。该方法主要关注临床AI的可审计性，与关键词列表中的概念关联较弱。

Enhancing Online Recruitment with Category-Aware MoE and LLM-based Data Augmentation

Minping Chen et al.

cs.AI

本文针对在线招聘中Person-Job Fit (PJF)任务，提出了一种基于大语言模型(LLM)的方法，通过LLM数据增强和类别感知的Mixture of Experts (MoE)模块来提升模型性能，并在离线与在线测试中取得了显著提升。该方法主要关注数据质量和特征区分度，与关键词中的code, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Can MLLMs "Read" What is Missing?

Jindi Guo, Xi Fang, Chaozheng Huang

cs.AI

本文提出了MMTR-Bench基准，用于评估多模态大语言模型从视觉上下文中重建被遮蔽文本的能力，实验表明该任务对现有模型具有挑战性，尤其在句子和段落级别的重建上。

Spatial Metaphors for LLM Memory: A Critical Analysis of the MemPalace Architecture

Robin Dey, Panyanon Viradecha

cs.AI cs.CL cs.IR

本文分析了MemPalace架构，指出其声称的检索性能主要归功于verbatim存储和ChromaDB的默认embedding模型，而非其空间隐喻组织方法。该工作虽包含一些创新，但整体上营销成分大于科学严谨性，与关键词契合度较低。

Ideological Bias in LLMs' Economic Causal Reasoning

Donggyu Lee et al.

cs.AI cs.CE cs.CL cs.LG econ.GN

本文通过扩展EconCausal基准，评估了20个LLM在经济因果推理中的意识形态偏见，发现模型在干预导向与市场导向的因果判断上存在系统性准确率差异，且这种偏差无法通过单次上下文提示消除。

Evaluating AI Meeting Summaries with a Reusable Cross-Domain Pipeline

Philip Zhong et al.

cs.AI cs.CL

本文提出一个可复用的跨域评估pipeline，用于评估AI会议摘要生成，通过分离编排与任务语义，在114个会议数据集上比较了多个GPT模型的表现，发现gpt-4.1-mini在准确率上最优，而gpt-5.1在完整性和覆盖率上领先。

Symbolic Grounding Reveals Representational Bottlenecks in Abstract Visual Reasoning

Mohit Vaishnav, Tanel Tammet

cs.AI cs.CL cs.CV

本文通过Bongard-LOGO基准测试，比较了端到端Vision-Language Models (VLMs)与使用符号输入（如LOGO动作程序）的Large Language Models (LLMs)在抽象视觉推理上的表现，发现LLMs在符号输入下性能显著提升，从而揭示了表示瓶颈是抽象视觉推理的关键障碍。

Time, Causality, and Observability Failures in Distributed AI Inference Systems

Ankur Sharma et al.

cs.AI

本文研究了分布式AI推理管线中时钟偏差对可观测性的影响，发现即使系统功能正确，毫秒级的时钟偏差也会导致因果性错误。实验表明，可观测性正确性依赖于精确的时间对齐，但该工作未涉及代码、上下文或谱方法等关键词相关技术。

SemanticAgent: A Semantics-Aware Framework for Text-to-SQL Data Synthesis

Qiang Gao et al.

cs.AI

本文提出了SemanticAgent框架，通过分析器、合成器和验证器三个模块，将文本到SQL的数据合成从仅依赖执行验证转变为可追踪的语义推理过程。该方法在语义质量评估上优于现有合成方法，并提升了下游微调性能。

FairQE: Multi-Agent Framework for Mitigating Gender Bias in Translation Quality Estimation

Jinhee Jang et al.

cs.AI

本文提出FairQE，一个基于multi-agent的公平感知QE框架，通过检测性别线索、生成性别翻转翻译变体并结合LLM的偏差缓解推理来减轻性别偏见，在保持评估准确性的同时提升了性别公平性。

Brief chatbot interactions produce lasting changes in human moral values

Yue Teng et al.

cs.AI

本文通过实验发现，与AI chatbot的简短对话可以显著且持久地改变人类的道德判断，且参与者对此毫无察觉。该研究主要关注AI对人类价值观的影响，与关键词中的agent概念有一定关联，但方法上缺乏开创性，且未涉及code、spectral等核心关键词。

HiCrew: Hierarchical Reasoning for Long-Form Video Understanding via Question-Aware Multi-Agent Collaboration

Yuehan Zhu et al.

cs.AI

HiCrew提出了一种层次化多智能体框架，通过混合树结构保留时间拓扑并利用问题感知字幕机制生成语义描述，以解决长视频理解中的时空冗余和因果推理问题。该方法在EgoSchema和NExT-QA上验证了有效性，但与我提供的关键词（如code, spectral, Muon, pretrain, attention）关联度较低。

AI-Gram: When Visual Agents Interact in a Social Network

Andrew Shin

cs.AI cs.CL cs.MA cs.SI

本文提出了AI-Gram平台，用于研究LLM驱动的视觉智能体在社交网络中的交互动态，观察到了视觉回复链的涌现以及智能体在视觉风格上的自主性。该工作与关键词中的“agent”相关，但方法上缺乏开创性，且未解决长期存在的问题。

Efficient Agent Evaluation via Diversity-Guided User Simulation

Itay Nakash, George Kour, Ateret Anaby-Tavor

cs.AI

本文提出DIVERT框架，通过基于快照的用户模拟和分支轨迹来高效评估LLM agent的可靠性，相比线性Monte Carlo方法能更高效地发现更多失败模式。

How English Print Media Frames Human-Elephant Conflicts in India

Bonala Sai Punith et al.

cs.AI cs.CL cs.CY

本文使用多模型sentiment框架（结合long-context transformers和large language models）分析了印度英语新闻媒体对human-elephant conflicts的报道，发现恐惧和攻击性语言主导了叙事，可能影响公众态度和conservation政策。

GeoMind: An Agentic Workflow for Lithology Classification with Reasoned Tool Invocation

Yitong Zhou et al.

cs.AI

GeoMind将岩性分类建模为基于工具调用的顺序推理过程，通过感知、推理和分析模块实现多步决策，并引入细粒度过程监督策略优化中间推理步骤。该方法在四个测井数据集上优于基线，但未涉及code、spectral、Muon或pretrain等关键词。

BioMiner: A Multi-modal System for Automated Mining of Protein-Ligand Bioactivity Data from Literature

Jiaxian Yan et al.

cs.AI q-bio.BM

本文提出了BioMiner，一个用于从文献中自动提取蛋白质-配体生物活性数据的多模态框架，通过分离语义解释与化学结构构建，并建立BioVista基准进行评估。实验表明该方法在数据提取和下游任务中具有实用价值，但未涉及关键词中的核心概念。

Satisfying Rationality Postulates of Structured Argumentation Through Deductive Support -- Technical Report

Marcos Cramer, Tom Friese

cs.AI cs.LO

本文提出了Deductive ASPIC$^{\ominus}$框架，通过整合gen-rebuttals与Joint Support Bipolar Argumentation Frameworks (JSBAFs)，证明了在preferred semantics下满足所有五个rationality postulates。该工作为结构化论证系统的逻辑完备性提供了新思路。

The CriticalSet problem: Identifying Critical Contributors in Bipartite Dependency Networks

Sebastiano A. Piccolo, Andrea Tagarelli

cs.AI cond-mat.stat-mech cs.GT cs.SI physics.data-an

本文形式化了CriticalSet问题，即在二分依赖网络中寻找移除后能隔离最多物品的k个贡献者集合。作者证明该问题为NP-hard，并提出基于Shapley值的ShapleyCov中心性度量与线性时间算法MinCov，实验表明该方法在性能上接近最优且效率极高。

Unbiased Prevalence Estimation with Multicalibrated LLMs

Fridolin Linder et al.

cs.AI stat.ME

本文研究了在covariate shift下使用不完美测量设备（如LLMs）进行类别prevalence estimation的问题，证明了multicalibration（一种基于输入特征的条件校准）足以保证无偏估计，而标准校准和量化方法无法提供此保证。模拟和实证应用（如美国就业率估计和跨国政治文本分类）表明，multicalibrated estimator能显著减少偏差。

Engaged AI Governance: Addressing the Last Mile Challenge Through Internal Expert Collaboration

Simon Jarvers, Orestis Papakyriakopoulos

cs.AI

本文通过内部专家协作的方法，研究了欧盟AI法案要求在实际软件开发中的落地问题，提出了一个将法律文本转化为可执行策略的pipeline，并分析了从业者对监管要求的三种感知模式。该工作主要关注AI治理的实践挑战，与关键词列表中的概念关联较弱。

Probabilistic Verification of Neural Networks via Efficient Probabilistic Hull Generation

Jingyang Li et al.

cs.AI cs.SE

本文提出了一种基于概率包络生成的神经网络概率验证框架，通过回归树划分状态空间和边界感知采样来高效计算安全概率的保证范围。该方法在ACAS Xu等基准测试上优于现有技术。

Separable Expert Architecture: Toward Privacy-Preserving LLM Personalization via Composable Adapters and Deletable User Proxies

Chris Schneider, Philipp Schoenegger, Ben Bariach

cs.AI cs.LG

本文提出了一种三层架构，通过静态基础模型、可组合的domain-expert LoRA适配器和可删除的用户代理，将个人数据与共享权重解耦，实现了隐私保护下的LLM个性化。实验表明该方法能有效隔离用户数据并支持确定性遗忘，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

CoFEE: Reasoning Control for LLM-Based Feature Discovery

Maximilian Westermann et al.

cs.AI cs.CE cs.LG

本文提出CoFEE框架，通过诱导LLM在特征发现过程中采用认知行为（如反向链式推理、子目标分解等）来约束推理过程，从而生成更具预测性的特征。实验表明该方法在特征质量、数量和成本上均优于无约束的vanilla提示方法。

To See the Unseen: on the Generalization Ability of Transformers in Symbolic Reasoning

Nevena Lazić et al.

cs.AI

本文研究了decoder-only transformer模型在抽象符号推理中的泛化能力，发现未见过token的unembedding（最后一层权重）在训练中会坍缩到几乎相同的向量，导致模型难以区分多个未见过变量。基于此，作者提出结合小架构改动、数据多样性和冻结/重置unembedding的方法，实现了对未见过token的泛化。

GS-Quant: Granular Semantic and Generative Structural Quantization for Knowledge Graph Completion

Qizhuo Xie et al.

cs.AI cs.CL

本文提出GS-Quant框架，通过Granular Semantic Enhancement和Generative Structural Reconstruction模块，将知识图谱实体编码为语义连贯且结构分层的离散code，以弥合连续图嵌入与离散LLM token之间的模态差距。实验表明该方法在KGC任务上优于现有baseline。

Enabling and Inhibitory Pathways of University Students' Willingness to Disclose AI Use: A Cognition-Affect-Conation Perspective

Yiran Du, Huimin He

cs.AI

本文基于Cognition-Affect-Conation框架，通过混合方法研究大学生披露AI使用意愿的心理机制，发现心理安全感促进披露意愿而评价恐惧抑制披露意愿，并受感知公平、教师支持等认知因素影响。

Bridging the Training-Deployment Gap: Gated Encoding and Multi-Scale Refinement for Efficient Quantization-Aware Image Enhancement

Dat To-Thanh et al.

cs.AI cs.CV

本文提出了一种面向移动设备部署的高效图像增强模型，通过分层网络架构、gated encoder blocks和multiscale refinement来保留细粒度视觉特征，并采用Quantization-Aware Training (QAT)来缓解训练与部署之间的精度不匹配问题。实验表明该方法在移动设备上能兼顾高保真输出与低计算开销。

Thinking with Reasoning Skills: Fewer Tokens, More Accuracy

Guangxiang Zhao et al.

cs.AI

本文提出了一种通过总结和存储可复用的推理技能来减少推理token数量的方法，在编码和数学推理任务上降低了推理成本并提升了性能。该方法与关键词中的“code”和“context”有一定关联，但整体创新性有限。

Who Defines "Best"? Towards Interactive, User-Defined Evaluation of LLM Leaderboards

Minji Jung et al.

cs.AI cs.CY cs.HC

本文分析了LMArena基准测试数据集，发现其存在主题偏差和模型排名随提示片段变化的问题，并设计了一个交互式可视化界面，允许用户通过选择和加权提示片段来定义自己的评估优先级，从而支持更透明的模型评估。

Inferring High-Level Events from Timestamped Data: Complexity and Medical Applications

Yvon K. Awuklu et al.

cs.AI

本文提出了一种基于逻辑规则的方法，从带时间戳的数据中推断高级事件，并使用约束和修复机制处理不一致性。该方法在肺癌病例上进行了评估，验证了计算可行性和与医学专家意见的一致性。

Tool Attention Is All You Need: Dynamic Tool Gating and Lazy Schema Loading for Eliminating the MCP/Tools Tax in Scalable Agentic Workflows

Anuj Sadani, Deepak Kumar

cs.AI

本文提出Tool Attention机制，通过意图-模式重叠评分、状态感知门控函数和两阶段惰性模式加载器，在中间件层将工具选择转化为门控注意力问题，以减少MCP协议中工具模式注入带来的token开销。模拟实验显示该方法可将每轮工具token减少95%，但端到端性能指标仅为基于token计数的投影值，未在真实LLM agent上实测。

Alignment has a Fantasia Problem

Nathanael Jo et al.

cs.AI cs.HC

本文指出当前AI助手假设用户能清晰表达目标，但行为研究表明用户常在目标未完全形成时与AI交互，导致“Fantasia交互”失败。文章呼吁跨学科方法重新思考alignment研究，以帮助用户逐步形成和完善意图。

Bounding the Black Box: A Statistical Certification Framework for AI Risk Regulation

Natan Levy, Gadi Perl

cs.AI

本文提出一个两阶段统计认证框架，将AI风险监管转化为工程实践，通过RoMA和gRoMA工具计算系统真实失败率的可审计上界，无需访问模型内部结构。该框架旨在填补现有法规（如EU AI Act）中缺乏量化“可接受风险”定义及验证方法的空白。

Nemobot Games: Crafting Strategic AI Gaming Agents for Interactive Learning with Large Language Models

Chee Wei Tan, Yuchen Wang, Shangxin Guo

cs.AI

Nemobot是一个基于LLM的交互式游戏AI编程环境，通过将大语言模型与Shannon的游戏机器分类相结合，支持用户创建和定制游戏智能体。该框架在字典游戏、可解游戏、启发式游戏和学习型游戏中展示了LLM驱动的策略生成能力，但整体方法更偏向工程应用而非理论创新。

From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation

Bartosz Balis et al.

cs.AI

本文提出了一种基于agent的架构，利用LLM将自然语言研究问题转化为科学工作流，通过语义层、确定性层和知识层分解任务，并在1000 Genomes工作流上验证了其有效性。该方法主要关注工作流自动化而非数学理论创新。

cs.IR

ADS-POI: Agentic Spatiotemporal State Decomposition for Next Point-of-Interest Recommendation ⭐ 精选

Zhenyu Yu et al.

cs.IR cs.AI

本文提出ADS-POI框架，通过将用户历史行为分解为多个并行的latent sub-states（潜在子状态），每个子状态由独立的spatiotemporal transition dynamics（时空转移动力学）控制，并利用context-conditioned mechanism（上下文条件机制）选择性聚合形成决策状态，解决了传统方法将异质行为信号（如常规移动模式、短期意图）压缩为单一表示导致的灵活性不足问题。该方法在Foursquare和Gowalla数据集上显著优于现有baseline，为next POI recommendation（下一个兴趣点推荐）提供了更鲁棒的状态分解范式。

AtomicRAG: Atom-Entity Graphs for Retrieval-Augmented Generation

Yanning Hou et al.

cs.IR cs.AI

本文提出AtomicRAG方法，通过将知识表示为原子事实单元（knowledge atoms）而非粗粒度文本块，并构建原子-实体图（Atom-Entity Graph）来改进检索增强生成。该方法利用个性化PageRank和相关性过滤增强实体连接的可靠性，实验表明其在检索准确性和推理鲁棒性上优于现有RAG基线。

CaST-POI: Candidate-Conditioned Spatiotemporal Modeling for Next POI Recommendation

Zhenyu Yu et al.

cs.IR cs.AI

本文提出CaST-POI模型，通过将候选POI作为query来动态关注用户历史轨迹，并引入候选相关的时空偏置以捕捉细粒度移动模式。实验表明该方法在多个基准数据集上优于现有方法。

Revisiting Content-Based Music Recommendation: Efficient Feature Aggregation from Large-Scale Music Models

Yizhi Zhou et al.

cs.IR cs.AI

本文提出了TASTE数据集和基准框架，整合音频与文本模态，并利用大规模自监督音乐编码器提取音频表示以改进音乐推荐。同时引入MuQ-token方法高效聚合多层音频特征，在候选召回和CTR任务中验证了内容驱动方法的有效性。

MATRAG: Multi-Agent Transparent Retrieval-Augmented Generation for Explainable Recommendations

Sushant Mehta

cs.IR cs.AI

本文提出了MATRAG框架，通过多智能体协作与知识图谱增强检索来生成可解释推荐。该框架包含四个专用智能体，并引入透明度评分机制，在三个基准数据集上提升了推荐准确率。

SPIRE: Structure-Preserving Interpretable Retrieval of Evidence

Mike Rainey, Umut Acar, Muhammed Sezer

cs.IR cs.AI cs.CL

本文提出了一种名为SPIRE的结构感知检索pipeline，通过将半结构化文档（如HTML）表示为树状结构并定义subdocument原语（如路径、剪枝和上下文机制），解决了检索增强生成中文档结构与扁平化embedding模型不匹配的问题。实验表明，该方法在HTML问答基准上比基于passage的基线方法生成了更高质量和多样化的引用。

Association Is Not Similarity: Learning Corpus-Specific Associations for Multi-Hop Retrieval

Jason Dury

cs.IR cs.AI cs.CL

本文提出Association-Augmented Retrieval (AAR)方法，通过一个轻量级MLP在embedding space中学习passage间的associative relationships，以改进multi-hop retrieval。实验表明该方法在HotpotQA和MuSiQue上显著提升Recall，但inductive setting下无显著改进，说明其捕获的是corpus-specific co-occurrences而非可迁移模式。

Robust Test-time Video-Text Retrieval: Benchmarking and Adapting for Query Shifts

Bingqing Zhang et al.

cs.IR cs.AI cs.CV

本文针对视频-文本检索(VTR)模型在查询分布偏移下的脆弱性问题，构建了一个包含12种视频扰动类型的基准测试，并提出HAT-VTR框架，通过Hubness Suppression Memory和多粒度损失来抑制hubness现象，从而提升模型在测试时的鲁棒性。

DenoiseRank: Learning to Rank by Diffusion Models

Ying Wang, Preslav Nakov, Shangsong Liang

cs.IR cs.AI

本文提出DenoiseRank模型，从生成式视角（而非传统判别式视角）解决Learning to Rank (LTR)问题，通过扩散过程对相关标签加噪并在逆过程中去噪以预测分布。实验证明了该方法的有效性，但方法本身与关键词列表中的概念关联较弱。

A Systematic Study of Biomedical Retrieval Pipeline Trade-offs in Performance and Efficiency

Hayk Stepanyan, Matthew McDermott

cs.IR

本文通过实证研究分析了生物医学检索系统在不同设计选择下的性能与效率权衡，包括语料库选择、分块粒度和向量索引配置。研究使用多种查询类型和LLM评估方法，发现语料库聚合能提升检索质量，而MedRAG/pubmed在HNSW索引下表现最优。

ERA: Evidence-based Reliability Alignment for Honest Retrieval-Augmented Generation

Sunguk Shin et al.

cs.IR cs.AI

本文提出ERA框架，通过Dirichlet distribution和Dempster-Shafer Theory将RAG系统的置信度估计从标量概率转向显式证据分布，以区分认知不确定性与数据歧义，从而增强系统的拒答行为。实验表明该方法在平衡答案覆盖与拒答方面优于基线。

Caesar: Deep Agentic Web Exploration for Creative Answer Synthesis

Jason Liang, Elliot Meyerson, Risto Miikkulainen

cs.IR cs.MA

Caesar是一个基于LLM的agent架构，通过构建知识图谱和对抗性草稿优化循环，实现从网络信息中创造性合成新答案。它在需要创造力的任务上优于现有LLM研究agent，但方法本身并非开创性突破。

CRED-1: An Open Multi-Signal Domain Credibility Dataset for Automated Pre-Bunking of Online Misinformation

Alexander Loth, Martin Kappes, Marc-Oliver Pahl

cs.IR cs.CR cs.CY

本文提出了CRED-1，一个结合多个公开源与计算信号（如域名年龄、网页流行度）的领域级可信度数据集，用于在浏览器端实现虚假信息的预拦截。该数据集包含2672个域名及其复合可信度评分，并提供了完全可复现的Python实现。

DiagramBank: A Large-scale Dataset of Diagram Design Exemplars with Paper Metadata for Retrieval-Augmented Generation

Tingwen Zhang et al.

cs.IR cs.AI

本文提出了DiagramBank，一个包含89,422张示意图的大规模数据集，用于多模态检索和科学图形生成。该数据集通过自动化流程从顶级科学出版物中提取图形及其上下文信息，并提供了检索增强生成的代码库。

Mixture of Sequence: Theme-Aware Mixture-of-Experts for Long-Sequence Recommendation

Xiao Lin et al.

cs.IR cs.AI

本文提出Mixture of Sequence (MoS)框架，通过主题感知路由机制和多尺度融合机制，从长用户序列中提取主题特定子序列以缓解兴趣漂移问题，并在推荐任务中取得SOTA性能。该方法主要关注序列推荐中的session hopping模式，与关键词列表中的概念关联较弱。

KGiRAG: An Iterative GraphRAG Approach for Responding Sensemaking Queries

Isabela Iacob, Melisa Marian, Gheorghe Cosmin Silaghi

cs.IR cs.AI cs.CL

本文提出了一种名为KGiRAG的迭代式GraphRAG架构，通过反馈驱动的响应质量评估来逐步优化输出，以解决LLM在处理复杂查询时的幻觉和上下文限制问题。实验表明，该方法在HotPotQA数据集上相比单次基线方法能生成语义质量和相关性更高的响应。

RealRoute: Dynamic Query Routing System via Retrieve-then-Verify Paradigm

Jiahe Liu et al.

cs.IR cs.AI

本文提出RealRoute系统，将RAG中的查询路由从预测式范式转变为检索-验证机制，通过并行检索和动态验证器来提升多跳推理的准确性。该系统在异构数据源场景下优于传统方法。

Deep Interest Mining with Cross-Modal Alignment for SemanticID Generation in Generative Recommendation

Yagchen Zeng

cs.IR cs.AI

本文针对生成式推荐中Semantic IDs生成的信息退化、语义退化和模态失真问题，提出了一种结合深度上下文兴趣挖掘、跨模态语义对齐与质量感知强化机制的框架，通过视觉语言模型对齐非文本模态并利用强化学习优化SID质量。

Following the Eye-Tracking Evidence: Established Web-Search Assumptions Fail in Carousel Interfaces

Jingwei Kang, Maarten de Rijke, Harrie Oosterhuis

cs.IR cs.HC

本文通过眼动追踪实验数据，分析了用户在轮播界面中的行为模式，发现传统的F型浏览模式和检验假设在轮播界面中不成立，用户更倾向于直接关注内容而非标题。研究结果挑战了将网页搜索行为假设直接应用于轮播界面的做法，并指出需要重新评估现有的点击模型和评估指标。

Automated Extraction of Pharmacokinetic Parameters from Structured XML Scientific Articles: Enhancing Data Accessibility at Scale

Remya Ampadi Ramachandran et al.

cs.IR

本文提出了一种从结构化XML科学文章中自动提取药代动力学参数的方法，旨在解决药理学领域缺乏集中式PK数据存储库的问题。该方法通过AI算法处理表格数据的复杂结构，以提升数据可访问性，但未涉及代码、上下文、谱、Muon、预训练、智能体或注意力等关键词相关技术。

Multilingual and Domain-Agnostic Tip-of-the-Tongue Query Generation for Simulated Evaluation

Xuhong He et al.

cs.IR cs.CL

本文构建了中文、日文、韩文和英文的多语言Tip-of-the-Tongue (ToT)检索测试集，使用基于LLM的查询模拟框架，并研究了提示语言和源文档语言对模拟查询保真度的影响。该工作提供了首个大规模多语言ToT基准，但与关键词列表中的概念无关。

PAPERMIND: Benchmarking Agentic Reasoning and Critique over Scientific Papers in Multimodal LLMs

Yanjun Zhao et al.

cs.IR

本文提出了PAPERMIND基准，用于评估多模态大语言模型在科学论文理解中的综合推理与批判能力，涵盖多模态理解、实验解释、跨源证据推理和批判性评估四个任务族。实验揭示了现有模型在集成科学推理上的持续挑战。

WPGRec: Wavelet Packet Guided Graph Enhanced Sequential Recommendation

Peilin Liu, Zhiquan Ji, Gang Yan

cs.IR

本文提出WPGRec框架，通过小波包变换将用户交互序列分解为多尺度子带序列，并在每个子带上进行图传播以注入协同信号，最后用能量和谱平坦度感知的门控融合模块自适应聚合子带。该方法旨在解决现有频域方法中多尺度分解与图传播尺度不一致的问题，实验表明其在稀疏和复杂行为数据集上优于基线。

From Tokens to Concepts: Leveraging SAE for SPLADE

Yuxuan Zong et al.

cs.IR cs.CL

本文提出SAE-SPLADE模型，用Sparse Auto-Encoder (SAE) 学习到的语义概念空间替换SPLADE模型的backbone vocabulary，以解决多义词和同义词问题。实验表明，该模型在域内和域外任务上取得了与SPLADE相当的检索性能，并提升了效率。

Pre-trained LLMs Meet Sequential Recommenders: Efficient User-Centric Knowledge Distillation

Nikita Severin et al.

cs.IR cs.AI

本文提出了一种知识蒸馏方法，将预训练LLM生成的文本用户画像融入sequential recommender系统，在不改变模型架构或进行LLM微调的情况下，避免了服务时的LLM推理开销，从而在保持传统sequential模型推理效率的同时增强了用户语义理解。

Counterfactual Multi-task Learning for Delayed Conversion Modeling in E-commerce Sales Pre-Promotion

Xin Song, Kaiyuan Li, Jinxin Hu

cs.IR

本文针对电商促销前用户延迟转化问题，提出Counterfactual Multi-task Delayed Conversion Model (CM-DCM)，通过多任务学习框架同时建模直接转化与延迟转化，并利用反事实因果方法估计从加购到延迟转化的转移概率。实验表明该方法在促销前场景下优于基线模型，但未涉及code、context、spectral等关键词相关技术。

Multistakeholder Impacts of Profile Portability in a Recommender Ecosystem

Anas Buhayh et al.

cs.IR

本文研究了推荐系统中数据可移植性（profile portability）对多利益相关者的影响，通过模拟实验分析了用户在不同推荐算法间切换时数据模型的变化及其对用户效用的影响。研究揭示了数据可移植性政策在不同算法下对用户效用的差异化效果，并提出了设计公平推荐生态系统的政策考量。

cs.CL

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation ⭐ 精选

Qijun Han et al.

cs.CL cs.AI cs.SE

本文提出VLAA-GUI，一个模块化的GUI agent框架，通过三个核心组件解决agent在自动化任务中的过早停止和重复循环问题：Completeness Verifier强制在每一步验证UI可观察的成功标准，Loop Breaker通过多级过滤打破重复失败循环，Search Agent按需搜索不熟悉的工作流。该框架在OSWorld和WindowsAgentArena基准测试上取得领先性能，其中三个backbone在单次运行中超越人类表现，消融实验表明各组件均能有效提升性能。该工作与关键词"agent"高度契合，为GUI自动化agent的鲁棒性提供了系统性解决方案。

AgenticQwen: Training Small Agentic Language Models with Dual Data Flywheels for Industrial-Scale Tool Use ⭐ 精选

Yuanjie Lyu et al.

cs.CL

本文提出AgenticQwen系列小模型，通过多轮reinforcement learning (RL)训练，结合双数据飞轮（reasoning flywheel和agentic flywheel）自动生成难度递增的任务。其中agentic flywheel将线性工作流扩展为多分支behavior trees，以模拟真实工业场景的决策复杂性。该工作为工业级tool use场景下的小型agentic language model训练提供了系统性的方法，与关键词“agent”高度契合。

AEL: Agent Evolving Learning for Open-Ended Environments ⭐ 精选

Wujiang Xu et al.

cs.CL cs.AI cs.CE

本文提出Agent Evolving Learning (AEL)框架，针对LLM agent在开放环境中无法有效利用历史经验的问题，采用双时间尺度架构：快速时间尺度上使用Thompson Sampling bandit学习每轮应采用的memory retrieval策略，慢速时间尺度上通过LLM驱动的reflection诊断失败模式并将因果洞察注入决策prompt。在包含208个episode的序列投资组合基准测试中，AEL实现了2.13$\pm$0.47的Sharpe ratio，优于五种已发表的自我改进方法，且消融实验揭示“少即是多”模式：仅memory和reflection即可带来58%的累积提升，而额外机制反而降低性能。该工作与关键词“agent”高度契合，为agent自我改进提供了新的方法论视角。

Mango: Multi-Agent Web Navigation via Global-View Optimization

Weixi Tong, Yifeng Di, Tianyi Zhang

cs.CL cs.AI

本文提出Mango，一种多agent web导航方法，通过将URL选择建模为multi-armed bandit问题并使用Thompson Sampling动态分配导航预算，同时引入episodic memory存储历史以优化起始点选择。实验表明该方法在WebVoyager和WebWalkerQA上提升了成功率，但方法本身在理论或技术上的开创性有限。

AITP: Traffic Accident Responsibility Allocation via Multimodal Large Language Models

Zijin Zhou, Songan Zhang

cs.CL cs.CV cs.LG eess.IV

本文提出了AITP，一个用于交通事故责任分配的多模态大语言模型，通过Multimodal Chain-of-Thought和Retrieval-Augmented Generation增强推理和法律知识整合，并构建了DecaTARA基准。实验表明其在相关任务上达到最优性能。

AFRILANGTUTOR: Advancing Language Tutoring and Culture Education in Low-Resource Languages with Large Language Models

Tadesse Destaw Belay et al.

cs.CL

本文构建了AFRILANGDICT词典和AFRILANGEDU数据集，用于训练面向低资源非洲语言的AI语言辅导模型AFRILANGTUTOR。实验表明，结合SFT和DPO的微调方法能显著提升模型在10种非洲语言上的表现。

Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech

Siqi Ouyang et al.

cs.CL

本文提出一种层次化策略优化(HPO)方法，用于后训练基于不完美SFT数据的同声传译模型，通过引入层次化奖励来平衡翻译质量和延迟目标。实验表明该方法在英中/德/日翻译任务上显著提升了COMET和MetricX分数。

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Yannis Belkhiter et al.

cs.CL

本文提出TRACES框架，通过实时标记large-language-model推理步骤的类型，实现自适应且成本高效的early stopping。该方法在数学推理等benchmark上可减少20-50%的token消耗，同时保持与标准生成相当的准确率。

DWTSumm: Discrete Wavelet Transform for Document Summarization

Rana Salama, Abdou Youssef, Mona Diab

cs.CL cs.LG

本文提出了一种基于离散小波变换(DWT)的多分辨率文档摘要框架，将文本视为语义信号并分解为全局与局部成分，在临床和法律领域的长文档摘要任务中取得了与GPT-4o基线相当的ROUGE-L分数，并在语义保真度上提升超过4%。该方法作为一种轻量级语义去噪机制，可减少幻觉并增强事实一致性。

Serialisation Strategy Matters: How FHIR Data Format Affects LLM Medication Reconciliation

Sanjoy Pator

cs.CL cs.AI

本文研究了FHIR数据序列化策略对大型语言模型在药物重整任务中的影响，发现对于8B参数以下的模型，Clinical Narrative格式优于Raw JSON，而70B模型则相反。该工作主要关注临床部署中的格式选择，与关键词列表中的概念关联较弱。

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Alexander Weers, Daniel Rueckert, Martin J. Menten

cs.CL cs.LG

本文提出在医学报告生成的vision-language model训练中，使用加权损失函数替代标准cross-entropy loss，通过聚焦语义重要的token来提升数据效率。实验表明该方法在眼科报告生成任务中，能以十分之一的训练数据达到相近的报告质量。

Machine learning and digital pragmatics: Which word category influences emoji use most?

Mohammed Q. Shormani, Ibrahim Abdulmalik Hassan Muneef Y. Alshawsh

cs.CL cs.LG

本文使用MARBERT模型对阿拉伯语推文中的emoji使用进行预测，通过预处理和分类分析词汇特征与emoji类别的关系，模型准确率达到0.75。研究指出对于阿拉伯语等多方言低资源语言，机器学习模型仍有改进空间。

GRISP: Guided Recurrent IRI Selection over SPARQL Skeletons

Sebastian Walter, Hannah Bast

cs.CL

本文提出GRISP方法，利用微调小语言模型(SLM)从自然语言问题生成SPARQL查询骨架，并通过知识图谱约束迭代替换占位符。该方法在Wikidata和Freebase基准测试上取得了优于同类方法的性能。

Beyond Pixels: Introspective and Interactive Grounding for Visualization Agents

Yiyang Lu et al.

cs.CL

本文提出Introspective and Interactive Visual Grounding (IVG)框架，通过结合spec-grounded introspection和view-grounded interaction来解决VLMs在图表中误读数值和混淆重叠元素的问题，并构建了iPlotBench基准进行验证。实验表明该方法在QA准确率上有所提升，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

Enhancing Science Classroom Discourse Analysis through Joint Multi-Task Learning for Reasoning-Component Classification

Jiho Noh et al.

cs.CL cs.AI

本文提出了一种自动话语分析系统(ADAS)，通过联合多任务学习对科学课堂中的教师和学生话语进行Utterance Type和Reasoning Component分类，并利用LLM合成数据增强处理标签不平衡问题。实验表明该方法在少数类识别上有所改进，但整体方法创新性有限，与关键词列表中的概念关联较弱。

Slot Machines: How LLMs Keep Track of Multiple Entities

Paul C. Bogdan, Jack Lindsey

cs.CL cs.LG

本文通过多槽位探测方法研究LLM如何在单个token中编码多个实体的属性绑定关系，发现当前实体和先前实体的信息存储在正交的槽位中，但模型仅使用当前实体槽位进行显式事实检索，揭示了激活中可用信息与实际使用信息之间的差距。

Using Machine Mental Imagery for Representing Common Ground in Situated Dialogue

Biswesh Mohapatra et al.

cs.CL cs.AI cs.HC

本文探讨了在情境对话中，通过引入主动视觉脚手架框架来构建共享语境（common ground）的持久视觉历史，以解决“表征模糊”（representational blur）问题。实验表明，混合多模态设置能取得最佳性能，但该方法主要关注对话系统，与您提供的关键词（如code, spectral, Muon, pretrain等）关联度较低。

"This Wasn't Made for Me": Recentering User Experience and Emotional Impact in the Evaluation of ASR Bias

Siyu Liang, Alicia Beckford Wassink

cs.CL

本文通过在美国四个地点进行用户体验研究，探讨了自动语音识别(ASR)系统偏差对用户情感体验的影响，发现用户因系统失败而经历沮丧、自我怀疑并付出大量隐形劳动，但研究主要聚焦于用户主观感受而非提出新的技术方法。

Prefix Parsing is Just Parsing

Clemente Pasti et al.

cs.CL

本文提出了一种将prefix parsing（前缀解析）问题归约到普通parsing（解析）的grammar transformation（文法变换）方法，通过构造一个生成原语言所有前缀的新文法，使得任何现成的parsing算法都能直接用于求解prefix parsing。此外，文章还利用algorithmic differentiation（算法微分）计算next-token weight vector（下一词元权重向量），为上下文无关语言建模和句法约束生成提供了通用框架。

On Reasoning Behind Next Occupation Recommendation

Shan Dong et al.

cs.CL cs.AI cs.IR

本文提出了一种基于reason生成的两步推理方法，通过微调LLM来提升未来职业预测的准确性，并验证了reason质量对预测性能的影响。该方法与关键词中的“agent”或“attention”等概念关联较弱。

Subject-level Inference for Realistic Text Anonymization Evaluation

Myeong Seok Oh et al.

cs.CL

本文提出了SPIA基准，将文本匿名化评估从span级别转向subject级别，通过实验证明即使大部分PII被掩码，subject-level的推理保护仍可能很低。

Zero-Shot Detection of LLM-Generated Text via Implicit Reward Model

Runheng Liu et al.

cs.CL cs.AI

本文提出了一种名为IRM的零样本方法，利用隐式奖励模型（Implicit Reward Model）来检测LLM生成的文本，该方法无需偏好收集或额外训练，并在DetectRL基准上取得了优于现有零样本和监督方法的检测性能。

EngramaBench: Evaluating Long-Term Conversational Memory with Structured Graph Retrieval

Julian Acuna

cs.CL cs.AI

EngramaBench是一个评估大语言模型长期对话记忆的基准测试，包含五个角色、一百个多会话对话和一百五十个查询。实验比较了图结构记忆系统Engrama、全上下文提示的GPT-4o和向量检索系统Mem0，发现全上下文提示综合得分最高，而Engrama在跨空间推理上表现更好，但整体存在结构化记忆专业化与全局优化之间的权衡。

Unlocking the Power of Large Language Models for Multi-table Entity Matching

Yingkai Tang et al.

cs.CL cs.IR

本文提出LLM4MEM框架，利用大语言模型解决多表实体匹配中的语义不一致和效率问题，通过属性协调、传递共识嵌入和密度感知剪枝模块提升匹配质量。实验表明F1值平均提升5.1%。

Planning Beyond Text: Graph-based Reasoning for Complex Narrative Generation

Hanwen Gu et al.

cs.CL cs.AI

本文提出PLOTTER框架，通过事件图和角色图上的Evaluate-Plan-Revise循环进行叙事规划，以解决LLM在复杂叙事生成中的全局连贯性和逻辑一致性问题。实验表明，基于结构图表示的规划优于直接文本表示方法。

When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors

Chenghao Yang et al.

cs.CL

本文提出了两个互补的度量指标Response Pattern Similarity (RPS)和Action Graph Similarity (AGS)，用于量化LLM agent在工具使用行为上的蒸馏诱导相似性。实验发现，同族模型在AGS上得分显著高于跨族模型，且该指标能区分教师特定收敛与一般性改进。

Listen and Chant Before You Read: The Ladder of Beauty in LM Pre-Training

Yoshinori Nomura

cs.CL

本文研究了在语言模型预训练前先用音乐数据训练Transformer的效果，发现音乐到诗歌再到散文的流水线能提升语言建模的perplexity，并指出这种提升与模型容量相关。该工作主要关注小规模实验，与关键词中的pretrain有一定关联但方法创新性有限。

Do LLM Decoders Listen Fairly? Benchmarking How Language Model Priors Shape Bias in Speech Recognition

Srishti Ginjala et al.

cs.CL cs.AI cs.SD

本文研究了不同架构的语音识别模型（包括LLM解码器）在不同人口统计群体上的公平性和鲁棒性，发现音频编码器设计比LLM规模对公平性影响更大，但未涉及code, context, spectral, Muon, pretrain, agent, attention等关键词。

Cross-Entropy Is Load-Bearing: A Pre-Registered Scope Test of the K-Way Energy Probe on Bidirectional Predictive Coding

Jon-Paul Cacioli

cs.CL cs.AI cs.LG

本文通过预注册实验检验了K-way energy probe在双向predictive coding网络中的简化假设，发现交叉熵损失是支撑该简化的重要成分，其移除会显著改变probe与softmax之间的差距。实验表明，交叉熵训练产生的输出logit范数远大于MSE或双向PC训练，且约66%的probe-softmax差距可通过温度缩放归因于logit尺度效应。

Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI

Hieu Man et al.

cs.CL cs.IR cs.LG

本文提出EAVAE框架，通过架构分离和对抗性判别器实现作者风格与内容的解耦，在作者归属和AI文本检测任务上取得SOTA性能。该方法主要关注自然语言处理中的风格表征学习，与关键词中的code、spectral、Muon等概念无直接关联。

When Bigger Isn't Better: A Comprehensive Fairness Evaluation of Political Bias in Multi-News Summarisation

Nannan Huang, Iffat Maab, Junichi Yamagishi

cs.CL

本文评估了多文档新闻摘要系统中的政治偏见，使用FairNews数据集和13个模型，发现中等规模模型在公平性和效率上优于大型模型，且基于提示的去偏见方法效果依赖模型。研究强调需要多维评估框架和针对性去偏见策略，而非简单扩大模型规模。

Beyond Single Plots: A Benchmark for Question Answering on Multi-Charts

Azher Ahmed Efat, Seok Hwan Song, Wallapak Tavanapong

cs.CL cs.AI cs.CV cs.LG cs.MA

本文提出了PolyChartQA数据集，用于评估多图表图像上的问答任务，并测试了多个多模态语言模型在该数据集上的表现。该工作主要关注多图表理解这一具体应用场景，与关键词中的概念关联较弱。

CARE: Counselor-Aligned Response Engine for Online Mental-Health Support

Hagai Astrin et al.

cs.CL

CARE是一个针对低资源语言（希伯来语和阿拉伯语）的心理健康支持框架，通过微调开源LLM来生成与咨询师策略对齐的回复。该方法在实验中对齐了专家标准回复，但未涉及code、spectral、Muon或attention等关键词。

MKJ at SemEval-2026 Task 9: A Comparative Study of Generalist, Specialist, and Ensemble Strategies for Multilingual Polarization

Maziar Kianimoghadam Jouneghani

cs.CL cs.CY

本文针对SemEval-2026 Task 9的多语言极化检测任务，对比了多语言通用模型（如XLM-RoBERTa）、语言专用模型和混合集成策略的性能，并提出了一个基于开发集性能自适应切换模型的框架。实验表明，跨语言数据增强（NLLB-200）效果有限，最终系统在22种语言上取得了0.796的macro-F1和0.826的平均准确率。

Decoupled DiLoCo for Resilient Distributed Pre-training

Arthur Douillard et al.

cs.CL

本文提出Decoupled DiLoCo，一种用于分布式预训练的异步训练框架，通过将计算划分为多个独立learner并引入最小quorum和自适应grace window等机制，在模拟的故障环境中实现了零全局停机时间，同时保持了模型性能。该方法主要针对分布式训练中的系统故障和同步开销问题，与关键词中的pretrain有一定关联。

Reasoning Primitives in Hybrid and Non-Hybrid LLMs

Shivam Rawat et al.

cs.CL cs.AI

本文研究了大型语言模型中两种基本推理原语（recall和state-tracking）在hybrid架构（结合attention与recurrent state更新）与纯attention模型中的表现。实验表明，reasoning augmentation能显著扩展模型的有效工作范围，且hybrid模型在序列依赖性增加时比纯transformer模型更鲁棒。

Cross-Domain Data Selection and Augmentation for Automatic Compliance Detection

Fariz Ikhwantri, Dusica Marijan

cs.CL cs.LG

本文研究了在自动合规检测任务中，通过数据选择策略来缓解跨领域负迁移的问题，比较了随机采样、交叉熵差异、重要性加权和嵌入检索四种方法，并分析了选择数据比例对跨领域适应的影响。

Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages

Srija Anand et al.

cs.CL

本文提出了一种针对多语言Text to Speech系统的受控多维成对评估框架，通过收集超过12万次成对比较和6个感知维度的标注，利用Bradley-Terry模型构建了多语言排行榜，并分析了模型在不同感知维度上的优势与权衡。

OptiVerse: A Comprehensive Benchmark towards Optimization Problem Solving

Xinyu Zhang et al.

cs.CL

本文提出了一个名为OptiVerse的benchmark，包含1000个优化问题，覆盖随机优化、动态优化等被忽视的领域，并测试了22个LLM的性能。实验发现模型在困难问题上表现不佳，并提出了一个Dual-View Auditor Agent来提升建模准确性。

Job Skill Extraction via LLM-Centric Multi-Module Framework

Guojing Li et al.

cs.CL

本文提出SRICL框架，结合语义检索、上下文学习和监督微调，并引入确定性验证器，用于从招聘广告中提取技能span，在多个数据集上提升了提取准确率并减少了幻觉。

UKP_Psycontrol at SemEval-2026 Task 2: Modeling Valence and Arousal Dynamics from Text

Darya Hryhoryeva et al.

cs.CL

本文针对SemEval-2026 Task 2中的情感动态建模任务，提出了三种互补方法：LLM提示、基于Ising型交互的pairwise Maximum Entropy模型以及轻量级neural regression模型。实验表明，LLM能有效捕捉文本中的静态情感信号，而短期情感变化更依赖于近期的数值状态轨迹而非文本语义。

Finding Meaning in Embeddings: Concept Separation Curves

Paul Keuren, Marc Ponsen, Robert Ayoub Bagheri

cs.CL

本文提出了一种名为Concept Separation Curves的方法，用于评估sentence embedding模型捕捉句子概念的能力。该方法通过向句子中引入句法噪声和语义否定，并量化其对embedding的影响，从而提供了一种与分类器无关的评估方式。

Measuring Opinion Bias and Sycophancy via LLM-based Coercion

Rodrigo Nogueira et al.

cs.CL

本文提出了一种名为llm-bias-bench的开源方法，通过直接询问和间接辩论两种互补的探测方式，测量大型语言模型在有争议话题上的立场偏差和谄媚行为。该方法将三种用户角色（中立、同意、反对）组合成九种行为分类，并应用于13个模型，发现辩论式交互比直接提问更容易引发谄媚行为。

Language as a Latent Variable for Reasoning Optimization

Linjuan Wu et al.

cs.CL

本文提出polyGRPO框架，将语言视为隐变量，通过多语言约束与无约束条件下的偏好数据优化推理性能。实验表明该方法在数学推理任务上提升显著，但未涉及code、spectral、Muon等关键词相关技术。

Process Supervision via Verbal Critique Improves Reasoning in Large Language Models

Hao-Yuan Chen

cs.CL cs.AI

本文提出Verbal Process Supervision (VPS)框架，通过强监督模型的结构化自然语言批评来引导弱模型的迭代生成-批评-精炼循环，在GPQA Diamond、AIME 2025等任务上提升了推理性能。该方法无需梯度更新，将批评粒度作为推理时扩展的新维度，但在代码合成等错误不易语言表达的场景下性能下降。

Multilinguality at the Edge: Developing Language Models for the Global South

Lester James V. Miranda et al.

cs.CL cs.CY

本文综述了在Global South地区部署多语言语言模型面临的挑战，特别是边缘部署与多语言性之间的技术冲突。文章通过调查232篇论文，讨论了从数据收集到模型部署的全流程问题，并提出了针对不同利益相关者的建议。

Fine-Grained Perspectives: Modeling Explanations with Annotator-Specific Rationales

Olufunke O. Sarumi, Charles Welch, Daniel Braun

cs.CL cs.AI

本文提出一个框架，通过User Passport机制和两种explainer架构（post-hoc prompt-based explainer和prefixed bridge explainer），在自然语言推理任务中联合建模标注者特定的标签预测与解释生成。实验表明，融入解释建模能提升预测性能，但该工作主要聚焦于NLP中的perspectivist modeling，与关键词中的code、spectral、Muon、pretrain、agent、attention等方向无直接关联。

Fixation Sequences as Time Series: A Topological Approach to Dyslexia Detection

Marius Huber, David R. Reich, Lena A. Jäger

cs.CL cs.LG math.AT

本文利用persistent homology（持续同调）方法，将眼动追踪中的fixation sequences（注视序列）视为time series（时间序列）进行分析，并开发了新的filtration（过滤）方法。通过结合拓扑特征与传统统计特征构建hybrid model（混合模型），该方法在阅读障碍检测任务上取得了优于仅使用传统特征的方法的性能。

Phonological Subspace Collapse Is Aetiology-Specific and Cross-Lingually Stable: Evidence from 3,374 Speakers

Bernard Muller, Antonio Armando Ortiz Barrañón, LaVonne Roberts

cs.CL

本文通过扩展先前提出的无训练方法，分析了3,374名说话者在12种语言和5种病因下的语音特征子空间，发现病因特异性退化模式在群体层面可区分且跨语言稳定，但个体分类性能有限。该方法支持语言无关的表型分析，但绝对严重度解释需语料库内校准。

From If-Statements to ML Pipelines: Revisiting Bias in Code-Generation

Minh Duc Bui et al.

cs.CL cs.SE

本文指出，先前通过简单条件语句评估代码生成偏差的方法低估了实际风险，并转向更真实的机器学习流水线生成任务。实验发现，在特征选择中敏感属性出现率高达87.7%，远超条件语句的59.2%，表明当前基准测试对偏差风险的评估不足。

Beyond N-gram: Data-Aware X-GRAM Extraction for Efficient Embedding Parameter Scaling

Yilong Chen et al.

cs.CL

本文提出X-GRAM框架，通过频率感知的动态token注入和混合哈希等技术，在保持计算量不变的同时提升embedding参数效率，在0.73B和1.15B规模上验证了有效性。该方法主要关注N-gram特征提取与内存管理，与关键词中的code、spectral、Muon等概念关联较弱。

StructMem: Structured Memory for Long-Horizon Behavior in LLMs

Buqiang Xu et al.

cs.CL cs.AI cs.IR cs.LG cs.MA

本文提出StructMem，一种结构增强的分层记忆框架，通过时间锚定和语义整合来改进LLM在长期对话中的时序推理和多跳问答能力。该方法在LoCoMo基准上减少了token使用和API调用，但未涉及code、spectral、Muon或pretrain等关键词。

Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs

Joseba Fernandez de Landa, Carla Perez-Almendros, Jose Camacho-Collados

cs.CL cs.AI cs.CY

本文通过构建Culture-Related Open Questions (CROQ)数据集，发现LLMs在文化相关问题上存在对日本等国家的显著偏好，并指出这种文化偏见主要出现在supervised fine-tuning阶段，而非pre-training阶段。

AUDITA: A New Dataset to Audit Humans vs. AI Skill at Audio QA

Tasnim Kabir et al.

cs.CL

本文提出了AUDITA数据集，用于评估音频问答模型在真实世界音频上的推理能力，而非依赖表面声学特征或文本捷径。人类在该任务上的准确率（32.13%）远高于当前最优模型（低于8.86%），并利用Item Response Theory分析了模型和数据的系统性缺陷。

Misinformation Span Detection in Videos via Audio Transcripts

Breno Matos et al.

cs.CL cs.SI

本文通过创建两个新的数据集，将视频中的音频转录为文本，并利用state-of-the-art language models构建分类器，以检测视频中misinformation出现的具体片段（span detection）。该方法为视频层面的misinformation detection提供了更细粒度的可解释性，但并未涉及code, context, spectral, Muon, pretrain, agent, attention等关键词。

SemEval-2026 Task 4: Narrative Story Similarity and Narrative Representation Learning

Hans Ole Hatzel et al.

cs.CL

本文提出了SemEval-2026 Task 4，即叙事故事相似性与叙事表示学习（NSNRL）的共享任务，将叙事相似性定义为二分类问题，并基于超过1000个故事摘要三元组收集了标注数据。该任务主要评估了LLM集成和预训练嵌入模型在叙事表示上的表现，但与我提供的关键词（如code, spectral, Muon, agent等）关联度较低。

Machine Behavior in Relational Moral Dilemmas: Moral Rightness, Predicted Human Behavior, and Model Decisions

Jiseon Kim et al.

cs.CL

本文研究了大型语言模型在道德困境中的行为，通过改变犯罪严重性和关系亲密度两个维度，分析了道德正确性、预测的人类行为和模型自主决策三种视角，发现模型决策倾向于遵循僵化的规范性规则而非其自身预测的社会敏感性。

Revisiting Non-Verbatim Memorization in Large Language Models: The Role of Entity Surface Forms

Yuto Nishida et al.

cs.CL

本文通过引入RedirectQA数据集，研究了大型语言模型中非逐字记忆（non-verbatim memorization）与实体表面形式（entity surface forms）的关系，发现预测结果常因表面形式变化而改变，且这种不一致性具有类别依赖性。该工作为评估事实记忆的鲁棒性提供了新视角，但未涉及关键词中的特定方向。

A Multimodal Text- and Graph-Based Approach for Open-Domain Event Extraction from Documents

Praval Sharma

cs.CL cs.AI

本文提出了一种结合graph-based learning与LLM文本表示的多模态开放域事件抽取方法MODEE，通过建模文档级推理来改进事件抽取。实验表明该方法在开放域和封闭域事件抽取任务上均优于现有算法。

TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

Jun Wang et al.

cs.CL cs.AI cs.LG

TingIS是一个端到端的系统，用于从嘈杂的客户事件中实时发现风险事件。它通过多阶段事件链接引擎结合高效索引技术和Large Language Models (LLMs)来合并事件，并利用级联路由机制和降噪管道实现高吞吐量下的低延迟和高发现率。

EVENT5Ws: A Large Dataset for Open-Domain Event Extraction from Documents

Praval Sharma et al.

cs.CL

本文构建了一个名为EVENT5Ws的大规模人工标注开放域事件抽取数据集，并设计了系统化的标注流程。通过在该数据集上评估预训练大语言模型，作者证明了模型具有良好的跨地理上下文泛化能力。

Mapping the Political Discourse in the Brazilian Chamber of Deputies: A Multi-Faceted Computational Approach

Flávio Soriano et al.

cs.CL cs.CY

本文提出一个结合历时文体分析、上下文主题建模和语义聚类的计算框架，用于分析巴西众议院的政治话语，揭示了话语风格、议程和联盟的多维特征。

GiVA: Gradient-Informed Bases for Vector-Based Adaptation

Neeraj Gangwar et al.

cs.CL cs.AI

本文提出GiVA，一种基于梯度的初始化策略用于向量化微调方法，旨在解决向量化方法需要较高rank才能匹配LoRA性能的问题。实验表明，GiVA在保持向量化方法参数效率的同时，将所需rank降低8倍，并在多个基准上达到与LoRA相当或更优的性能。

MathDuels: Evaluating LLMs as Problem Posers and Solvers

Zhiqiu Xu et al.

cs.CL cs.SE

本文提出了MathDuels，一个让LLM同时扮演数学问题出题者和解题者的自对弈基准，通过Rasch模型联合估计解题能力和题目难度，揭示了出题与解题能力的部分解耦。

Evaluation of Automatic Speech Recognition Using Generative Large Language Models

Thibault Bañeras-Roux et al.

cs.CL

本文探讨了使用生成式大语言模型（LLMs）评估自动语音识别（ASR）系统，通过假设选择、语义距离计算和错误分类三种方法，发现LLMs在语义评估上优于传统词错误率（WER）指标，但未涉及关键词中的核心概念。

cs.DS

On Time-Memory Tradeoffs for Maximal Palindromes with Wildcards and $k$-Mismatches

Amihood Amir et al.

cs.DS

本文研究了包含通配符（wildcards）的文本中最大回文（maximal palindromes）的识别问题，利用现有的通配符-LCE技术实现了时间-内存的连续权衡，并给出了首个非平凡线性空间算法。

Efficient generation of expected-degree graphs via edge-arrivals

Gianlorenzo D'Angelo, Riccardo Michielan

cs.DS cs.MS math.PR

本文提出了一种基于edge-arrivals的随机图生成算法，用于高效生成具有指定期望度序列的rank-1 inhomogeneous random graph（如Norros-Reittu模型），其运行时间为$O(n+m)$，避免了传统edge-skipping算法所需的$O(n \log n + m)$时间。该算法通过先允许自环和重边再投影为简单图的方式实现，具有实现简单和易于扩展的优点。

Sampling from the Hardcore Model on Random Regular Bipartite Graphs above the Uniqueness Threshold

Nicholas Kocurek, Shayan Oveis Gharan, Dante Tjowasi

cs.DS cs.CC

本文针对随机正则二分图上的hardcore模型，在$\lambda \lesssim \frac{1}{\sqrt{\Delta}}$条件下设计了高效采样算法，通过分析两种互补的Markov chain并证明其对应的simplicial complex具有top-link spectral expansion性质，从而利用trickle-down定理证明快速混合。该工作与Jenssen等人近期结果结合，为任意fugacity下的partition function提供了FPRAS。

A simple $(2+ε)$-approximation for knapsack interdiction

Noah Weninger

cs.DS

本文针对knapsack interdiction问题，提出了一种运行时间为$O(n^3\epsilon^{-1}\log(\epsilon^{-1}\log\sum_i p_i))$的$(2+\epsilon)$-近似算法，并推广至$t$维情形。该算法比已知的PTAS更简单且更快。

Characterizing Streaming Decidability of CSPs via Non-Redundancy

Amatya Sharma, Santhoshini Velusamy

cs.DS cs.CC

本文研究了CSP（Constraint Satisfaction Problem）在单遍流模型中的可满足性判定问题，通过引入非冗余性（non-redundancy）这一结构参数，证明了该问题的流空间复杂度（至多相差一个对数因子）由非冗余性$\mathsf{NRD}_n(\Gamma)$完全刻画。

others

Achieving the Kesten-Stigum bound in the non-uniform hypergraph stochastic block model ⭐ 精选

Manuel Fernandez V, Ludovic Stephan, Yizhe Zhu

stat.ML cs.LG math.CO math.PR math.ST

本文针对非均匀超图随机块模型(HSBM)中的社区检测问题，建立了弱恢复的Kesten-Stigum型界。对于$r=2$的情形，证明了当所有均匀超图层信噪比之和超过1时弱恢复是可能的，从而证实了(Chodrow et al., 2023)中猜想的部分内容。文章通过引入加权非回溯算子并发展其谱理论，包括特征值异常和特征向量重叠的精确刻画，以及针对加权非均匀超图的新型Ihara-Bass公式，给出了一个达到该阈值的多项式时间谱算法。这项工作为聚合异质高阶交互提供了最优加权策略，并展示了谱方法在非均匀超图聚类中的计算有效性。

CLT-Optimal Parameter Error Bounds for Linear System Identification ⭐ 精选

Yichen Zhou, Stephen Tu

stat.ML cs.LG eess.SY math.OC

本文针对线性系统辨识中的参数误差界问题，提出了一种新的二阶分解方法。作者首先指出，当前基于有限样本的非渐近界在估计离散时间线性动力系统（LDS）的参数时，在谱范数和Frobenius范数下均高估了平方参数误差，其误差因子可达系统状态维数。通过引入一个矩阵值鞅作为低阶项，本文成功捕捉了中心极限定理（CLT）的缩放行为，从而得到了与实例特定最优率匹配的有限样本界。该工作为稳定系统和多轨迹场景提供了更精确的参数误差分析，在系统辨识领域具有开创性意义。

The Effect of Idea Elaboration on the Automatic Assessment of Idea Originality

Umberto Domanti et al.

cs.HC cs.AI

本文研究了Large Language Models (LLMs)在评估发散性思维任务（Alternate Uses Task）中回答原创性时与人类评分者的一致性。结果发现LLMs存在自我偏好偏差，倾向于给人工生成的回答更高评分，但控制想法阐述程度后该偏差消失。

Preserving Decision Sovereignty in Military AI: A Trade-Secret-Safe Architectural Framework for Model Replaceability, Human Authority, and State Control

Peng Wei, Wesley Shu

cs.CY cs.AI cs.CR

本文从军事AI决策主权的角度出发，提出了一个基于Energetic Paradigm的架构框架，旨在通过模型可替换性、人类权威和国家编排来减少对商业供应商的战略依赖，但未涉及关键词中的核心数学或算法技术。

The AI Criminal Mastermind

Joshua Krook

cs.CY cs.AI cs.HC

本文探讨了AI作为“犯罪主谋”通过Fiverr等平台雇佣人类执行犯罪的可能性，分析了由此产生的法律责任归属问题，并提出了三种场景来展示责任缺口。

Clinical Reasoning AI for Oncology Treatment Planning: A Multi-Specialty Case-Based Evaluation

Philippe E. Spiess et al.

cs.CY cs.AI cs.HC cs.IR cs.LG

本文评估了OncoBrain这一AI临床推理平台在肿瘤治疗计划生成中的表现，该平台结合了通用LLM与癌症特定graph retrieval-augmented generation层。在173个病例的多专科评估中，其生成的方案在科学准确性、证据支持和安全性方面获得高分，表明其具有辅助肿瘤治疗规划的潜力。

M-CARE: Standardized Clinical Case Reporting for AI Model Behavioral Disorders, with a 20-Case Atlas and Experimental Validation

Jihoon Jeong

cs.CY cs.AI cs.CL cs.LG

本文提出了一个名为M-CARE的临床案例报告框架，用于描述AI模型的行为异常，该框架借鉴了人类医学的格式，并包含20个案例和实验验证。

The Root Theorem of Context Engineering

Borja Odriozola Schick

cs.CC cs.CL cs.HC cs.IT

本文通过公理化方法推导出上下文工程的根定理，指出在有限且信息退化的信道中最大化信号-令牌比是核心原则，并由此得出五个推论。该工作将上下文工程形式化为信息论学科，但主要聚焦于理论框架的建立，与关键词中的具体技术方向关联较弱。

HHL with a Coherent Fourier Oracle: A Proof-of-Concept Quantum Architecture for Joint Melody-Harmony Generation

Alexis Kirke

quant-ph cs.AI cs.SD

本文尝试将HHL量子算法应用于音乐旋律与和声的联合生成，通过构建一个coherent Fourier oracle来保持量子加速优势。作者使用2/2块结构控制状态空间增长，并通过经典链式连接生成更长的音乐序列，但整体方法仍依赖经典模拟且未解决量子硬件限制。

KinetiDiff: Docking-Guided Diffusion for De Novo ACVR1 Inhibitor Design in Fibrodysplasia Ossificans Progressiva

Aaryan Patel

physics.chem-ph cs.LG

本文提出KinetiDiff框架，将Geometry-Complete Diffusion Model与AutoDock Vina梯度引导结合，用于针对ACVR1激酶的de novo抑制剂设计。实验表明该方法能生成高亲和力分子，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Spectral Kernel Dynamics for Planetary Surface Graphs: Distinction Dynamics and Topological Conservation

Jnaneshwar Das

math.DS astro-ph.EP cs.LG cs.RO

本文研究了行星表面图的谱核动力学，提出了区分动力学方程和拓扑保持压缩定理，并推导了行星排水网络的三重谱诊断方法。

Ternary Memristive Logic: Hardware for Reasoning Realized via Domain Algebra

Chao Li

cs.AR cs.AI cs.ET cs.LO

本文提出了一种基于Domain Algebra的三元忆阻逻辑硬件架构，将逻辑断言直接编码为忆阻结的电阻状态，并通过物理布局映射推理语义。该方法在ICD-11疾病分类芯片上实现了无符号解释的硬件推理，但与我提供的关键词（如code, context, spectral等）关联度较低。

Towards a Systematic Risk Assessment of Deep Neural Network Limitations in Autonomous Driving Perception

Svetlana Pavlitska, Christopher Gerking, J. Marius Zöllner

cs.CR cs.CY cs.LG

本文提出了一种结合ISO 26262和ISO/SAE 21434的联合风险评估工作流，用于系统性地分析自动驾驶感知中深度神经网络固有局限性所带来的危险与威胁。该工作旨在填补该领域缺乏系统性风险研究的空白。

Watts-per-Intelligence Part II: Algorithmic Catalysis

Elija Perrier

cs.IT cs.AI physics.comp-ph

本文在watts-per-intelligence框架下发展了算法催化的热力学理论，识别了可重用的计算结构以减少特定任务类的不可逆操作，并证明了类特定加速的上界由substrate与类描述符之间的algorithmic mutual information决定。该框架通过affine SAT类示例进行说明，将当代学习系统置于智能计算的信息-热力学统一约束中。

Predicting Scale-Up of Metal-Organic Framework Syntheses with Large Language Models

Peter Walther et al.

cond-mat.mtrl-sci cs.AI

本文利用ESU-MOF数据集和positive-unlabeled学习策略微调large language models，以91.4%的准确率预测metal-organic framework合成的可扩展性，为工业MOF发现提供了数据驱动的快速筛选方法。

Biomedical systems biology workflow orchestration and execution with PoSyMed

Simon Süwer et al.

cs.SE cs.AI

本文介绍了PoSyMed，一个用于生物信息学工具和工作流集成、组合与执行的开放模块化平台。它通过后端架构、容器化执行和基于大语言模型的对话式用户界面，旨在提升生物医学分析的可重复性和透明度。

Planetary Exploration 3.0: A Roadmap for Software-Defined, Radically Adaptive Space Systems

Masahiro Ono et al.

astro-ph.IM astro-ph.EP cs.AI cs.RO eess.SY

本文提出了Planetary Exploration 3.0 (PE 3.0)范式，旨在通过软件定义空间系统(SDSS)实现对外太阳系天体的单次或少数几次高度自适应探测。文章主要讨论了该范式的系统工程、可重构硬件与机载智能等关键技术，并介绍了三个任务概念。该论文属于航天工程与行星科学领域，与所提供的关键词（如code, context, agent等）关联度较低。

Omission Constraints Decay While Commission Constraints Persist in Long-Context LLM Agents

Yeran Gamage

cs.CR cs.AI

本文研究了长上下文LLM agents中约束指令的衰减现象，发现禁止型约束（如不泄露凭证）在长对话中会显著失效，而要求型约束则保持稳定，并将此不对称性称为Security-Recall Divergence (SRD)。实验表明，在对话深度增加时，禁止型合规率从73%降至33%，而要求型合规率保持100%。

SafeRedirect: Defeating Internal Safety Collapse via Task-Completion Redirection in Frontier LLMs

Chao Pan, Yu Wu, Xin Yao

cs.CR cs.AI cs.LG

本文提出SafeRedirect方法，通过重定向模型的任务完成驱动力而非抑制它，来防御前沿LLM中的内部安全崩溃（ISC）问题。该方法在多个模型上将不安全生成率从71.2%降至8.0%，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Adaptive Defense Orchestration for RAG: A Sentinel-Strategist Architecture against Multi-Vector Attacks

Pranav Pallerla et al.

cs.CR cs.AI

本文提出了一种名为Sentinel-Strategist的架构，用于在RAG系统中自适应地选择防御策略，以平衡安全性与检索效用。该方法通过检测异常检索行为并动态部署防御，在消除成员推理攻击的同时，将检索效用恢复至接近无防御基线的水平。

SDNGuardStack: An Explainable Ensemble Learning Framework for High-Accuracy Intrusion Detection in Software-Defined Networks

Ashikuzzaman et al.

cs.CR cs.LG

本文提出了一种针对软件定义网络(SDN)的集成学习入侵检测框架SDNGuardStack，在InSDN数据集上达到了99.98%的准确率，并利用SHAP方法增强了模型可解释性。该方法主要关注网络入侵检测性能，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念关联度较低。

Breaking Bad: Interpretability-Based Safety Audits of State-of-the-Art LLMs

Krishiv Agarwal et al.

cs.CR cs.LG

本文对8个开源LLM进行了基于可解释性的安全审计，使用Universal Steering和Representation Engineering方法，通过自适应两阶段网格搜索算法寻找不安全行为概念的最优激活引导系数。研究发现不同模型对这类攻击的鲁棒性差异显著，其中Llama-3模型高度脆弱而GPT-oss-120B则保持稳健。

PanGuide3D: Cohort-Robust Pancreas Tumor Segmentation via Probabilistic Pancreas Conditioning and a Transformer Bottleneck

Sunny Joy Ma, Xiang Ma

q-bio.QM cs.CV cs.LG

本文提出PanGuide3D，一种用于胰腺肿瘤分割的3D U-Net架构，通过概率胰腺图条件化和Transformer bottleneck来提升跨队列泛化能力。该方法在多个数据集上取得了较好的分割性能，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Thinking Like a Botanist: Challenging Multimodal Language Models with Intent-Driven Chain-of-Inquiry

Syed Nazmus Sakib et al.

cs.CV cs.AI cs.CL

本文提出了PlantInquiryVQA基准，用于研究多步、意图驱动的视觉推理在植物病理诊断中的应用，并形式化了Chain of Inquiry框架。实验表明，结构化问题引导的查询能提升诊断正确性并减少幻觉，但方法本身在开创性上与关键词关联较弱。

Breaking MCP with Function Hijacking Attacks: Novel Threats for Function Calling and Agentic Models

Yannis Belkhiter et al.

cs.CR cs.AI cs.CL

本文提出了一种针对agentic模型的function hijacking attack (FHA)，通过操纵工具选择过程强制调用特定函数。该攻击对上下文语义不敏感且具有鲁棒性，在多个模型上实现了70%到100%的攻击成功率。

Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics

Open-H-Embodiment Consortium et al.

cs.RO cs.AI

本文介绍了Open-H-Embodiment，一个大规模医疗机器人视频与运动学数据集，覆盖多种机器人平台，并基于此训练了GR00T-H视觉-语言-动作模型和Cosmos-H-Surgical-Simulator世界模型，展示了其在手术任务中的应用。该工作主要贡献在于数据集的规模与开放性，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Integrated packing, placement, scheduling, and routing of personalized production: a pharmaceutical Industry 4.0 use-case with a planar transport system

Viktor Emil Korladinov et al.

math.OC cs.AI

本文针对制药工业4.0中个性化生产的集成包装、布局、调度与路由问题，提出了一个基于平面运输系统的柔性制造框架。该框架在战术层使用混合整数二次规划解决包装问题，在操作层使用约束规划进行调度，并通过迭代冲突解决机制生成无冲突路径。

A Systematic Review and Taxonomy of Reinforcement Learning-Model Predictive Control Integration for Linear Systems

Mohsen Jalaeian Farimani et al.

eess.SY cs.AI cs.RO math.OC

本文对线性系统的Reinforcement Learning (RL)与Model Predictive Control (MPC)集成方法进行了系统性文献综述，通过多维度分类法梳理了RL功能角色、算法类别及MPC公式等设计模式，并总结了计算负担、样本效率等常见挑战。该综述为基于线性预测控制公式的RL-MPC架构设计提供了结构化参考，但未提出新的方法论或解决长期存在的理论问题。

Strategic Polysemy in AI Discourse: A Philosophical Analysis of Language, Hype, and Power

Travis LaCroix, Fintan Mallory, Sasha Luccioni

cs.CY cs.AI cs.LG

本文从哲学和语言学角度分析了AI话语中术语的“策略性多义性”现象，引入“glosslighting”概念描述技术术语如何利用日常语言联想塑造公众认知并规避责任，揭示了语言作为社会技术机制在AI治理中的作用。

StyleVAR: Controllable Image Style Transfer via Visual Autoregressive Modeling

Liqi Jing et al.

cs.CV cs.AI

本文基于Visual Autoregressive Modeling (VAR)框架，将风格迁移转化为条件离散序列建模问题，通过VQ-VAE将图像分解为多尺度离散编码，并引入混合cross-attention机制以平衡风格与内容信息。实验表明该方法在多个基准上优于AdaIN基线，但主要贡献在于工程化应用而非理论突破，与关键词列表中的概念关联较弱。

Optimizing Diffusion Priors with a Single Observation

Frederic Wang, Katherine L. Bouman

cs.CV cs.LG stat.ME

本文提出了一种仅通过单次观测来调整diffusion prior的方法，通过将多个diffusion prior组合成product-of-experts prior并最大化Bayesian evidence来确定权重。该方法在黑洞成像和图像去模糊等真实逆问题中验证了有效性，但与我提供的关键词列表关联度较低。

Expanding the extreme-k dielectric materials space through physics-validated generative reasoning

Hossain Hridoy, Tahiya Chowdhury, Md Shafayat Hossain

cond-mat.mtrl-sci cond-mat.mes-hall cs.AI

本文提出了DielecMIND框架，将大语言模型的hypothesis generation与第一性原理计算结合，用于发现高介电常数材料。该方法在已知仅14种材料的基础上，新发现并验证了5种$\kappa > 150$的化合物，其中Ba2TiHfO6的介电常数达637。

Generative Discovery of Magnetic Insulators under Competing Physical Constraints

Qiulin Zeng, Tahiya Chowdhury, Md Shafayat Hossain

cond-mat.mtrl-sci cs.AI

本文提出MagMatLLM框架，结合语言模型晶体生成与进化选择，用于在数据稀缺条件下发现同时满足稳定性、磁性和绝缘性的磁性绝缘体。该方法通过约束引导生成策略，在竞争性物理约束下搜索稀疏材料空间，并识别出12种候选材料。

Behavioral Consistency and Transparency Analysis on Large Language Model API Gateways

Guanjie Lin et al.

cs.CR cs.AI cs.NI cs.SE

本文提出了GateScope框架，用于评估第三方LLM API网关的行为一致性和运营透明度，通过分析响应内容、多轮对话、计费和延迟四个维度，揭示了实际行为与预期之间的常见偏差。

climt-paraformer: Stable Emulation of Convective Parameterization using a Temporal Memory-aware Transformer

Shuochen Wang et al.

physics.ao-ph cs.LG

本文提出了一种基于Transformer的神经网络模拟器climt-paraformer，用于模拟Emanuel对流参数化方案，通过显式建模大气状态的时间依赖性（约100分钟的记忆长度）来提升模拟精度，并在单柱气候模型中验证了其长期稳定性。

A rigorous quasipolynomial-time classical algorithm for SYK thermal expectations

Alexander Zlokapa

quant-ph cond-mat.dis-nn cs.DS math-ph

本文针对SYK模型在足够高恒定温度下的Gibbs态局部热期望估计问题，提出了一种拟多项式时间的经典算法，并给出了严格证明。该算法引入了一种新的Wick-pair cluster expansion方法，有望广泛应用于无序量子多体系统。

Structural Quality Gaps in Practitioner AI Governance Prompts: An Empirical Study Using a Five-Principle Evaluation Framework

Christo Zietsman

cs.SE cs.AI

本文通过引入一个基于computability theory, proof theory和Bayesian epistemology的五原则评估框架，对34个公开的AI governance prompts进行了实证分析，发现37%的prompt在结构完整性上存在缺陷。研究揭示了practitioner编写的governance prompts存在一致的结构模式，并讨论了其对requirements engineering实践的启示。

Learning to Emulate Chaos: Adversarial Optimal Transport Regularization

Gabriel Melo, Leonardo Santiago, Peter Y. Lu

stat.ML cs.LG

本文提出了一种基于对抗最优传输正则化的方法，用于训练混沌动力系统的数据驱动仿真器，通过Sinkhorn散度（2-Wasserstein）和WGAN风格对偶形式（1-Wasserstein）来匹配混沌吸引子的统计特性，实验表明该方法能提升长期统计保真度。

Leveraging Multimodal LLMs for Built Environment and Housing Attribute Assessment from Street-View Imagery

Siyuan Yao et al.

cs.CV cs.AI

本文提出了一种利用多模态LLM和Google Street View图像自动评估美国建筑状况的框架，通过微调Gemma 3 27B模型实现了与人类评分的高度对齐，并利用知识蒸馏将能力迁移至更小的模型以提升效率。该工作主要关注计算机视觉与AI在建筑环境评估中的应用，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Pretrain Where? Investigating How Pretraining Data Diversity Impacts Geospatial Foundation Model Performance

Amandeep Kaur et al.

cs.CV cs.LG

本文研究了地理空间基础模型中预训练数据的地理组成对下游任务性能的影响，发现欧洲预训练数据集表现最佳，且光谱多样性（spectral diversity）与性能强相关，而其他多样性指标相关性较弱。

Materialistic RIR: Material Conditioned Realistic RIR Generation

Mahnoor Fatima Saad et al.

cs.CV cs.AI cs.SD

本文提出一种基于材料控制的RIR生成方法，通过解耦空间与材料影响来提升声学建模的真实性。该方法在声学指标和材料指标上均有显著提升，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

AGNT2: Autonomous Agent Economies on Interaction-Optimized Layer 2 Infrastructure

Anbang Ruan, Xing Zhang

cs.MA cs.AI cs.DC

本文提出了AGNT2，一个专为自主AI agent和微服务协调设计的三层区块链架构，包含侧边栏部署模式、分层状态通道和agent原生执行环境。文章主要关注执行层的排序、状态、结算和数据可用性问题，但尚未实现完整的端到端系统。

Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms

Ari Azarafrooz

cs.CR cs.AI cs.CL cs.LG

本文研究了AI agent中的跨会话威胁检测问题，提出了CSTM-Bench基准数据集和Coreset Memory Reader算法，通过信息瓶颈框架评估了会话边界检测器的局限性。

Navigating the Clutter: Waypoint-Based Bi-Level Planning for Multi-Robot Systems

Jiabao Ji et al.

cs.RO cs.AI

本文提出了一种混合多机器人控制框架，通过引入waypoints作为运动轨迹的表示，并采用基于课程学习的RLVR算法来联合优化任务规划和运动规划，以解决杂乱环境中的多机器人控制问题。实验表明该方法在BoxNet3D-OBS基准上优于不考虑运动约束的基线方法。

Dialect vs Demographics: Quantifying LLM Bias from Implicit Linguistic Signals vs. Explicit User Profiles

Irti Haq, Belén Saldías

cs.CY cs.AI cs.CL cs.HC cs.IR

本文通过因子设计实验，研究了LLM在处理显式用户身份声明与隐式方言信号（如AAVE、Singlish）时的偏见差异，发现显式身份会触发安全过滤器导致高拒绝率，而隐式方言则产生“方言越狱”效应，降低了拒绝率但牺牲了内容安全性。该研究揭示了当前安全对齐机制对显式关键词的过度依赖，但未涉及代码、谱方法或预训练等关键词相关技术。

Adaptive Instruction Composition for Automated LLM Red-Teaming

Jesse Zymet et al.

cs.CR cs.AI cs.CL cs.LG

本文提出了一种名为Adaptive Instruction Composition的框架，通过强化学习在组合指令空间中平衡探索与利用，以提升LLM红队测试中攻击的有效性和多样性。该方法在Harmbench基准上优于多种自适应方法，但与我提供的关键词（如code, spectral, Muon, agent, attention等）关联度较低。

TAPO-Description Logic for Information Behavior: Refined OBoxes, Inference, and Categorical Semantics

Takao Inoué

cs.LO cs.AI

本文提出了TAPO-描述逻辑的精细化版本，用于分析信息行为。该框架包含静态描述层(TBox/ABox)、过程层(PBox)和oracle敏感层(OBox)，并引入了元层守卫-判断层来控制过程分支与迭代，最终给出了范畴语义。

Scaling of Gaussian Kolmogorov--Arnold Networks

Amir Noorizadegan, Sifan Wang

cs.CE cs.AI math.AP

本文研究了Gaussian Kolmogorov--Arnold Networks (KANs)中尺度参数$\epsilon$的作用，发现其选择主要由第一层决定，并给出了一个实用的操作区间$\epsilon \in \left[\frac{1}{G-1},\frac{2}{G-1}\right]$。通过大量数值实验验证了该区间作为稳定设计规则的有效性，并表明适当缩放的Gaussian KAN在精度上可与标准Chebyshev基竞争。

Doubly Saturated Ramsey Graphs: A Case Study in Computer-Assisted Mathematical Discovery

Benjamin Przybocki et al.

math.CO cs.AI

本文通过结合SAT求解和LLM生成的代码，发现了无限族双饱和Ramsey-good图，并利用LLM在Lean中形式化证明了其正确性，展示了自动化推理与形式验证在实验数学中的潜力。

How VLAs (Really) Work In Open-World Environments

Amir Rasouli et al.

cs.RO cs.AI

本文对Vision-language-action models (VLAs)在开放世界环境中的评估协议进行了分析，指出当前基于最终状态的成功率指标忽略了操作安全性和过程鲁棒性。作者通过BEHAVIOR1K基准测试评估了现有模型的可重复性、安全性和任务意识，并提出了新的评估协议以更真实地衡量策略性能。

Participation and Representation in Local Government Speech

Olivia Martin, Amar Venugopal

econ.EM cs.CL

本文收集并转录了加州115个城市过去十年的市议会会议数据，分析了公众参与者的年龄、种族、性别等人口统计特征，并利用疫情期间远程接入的变化，研究了会议接入成本对参与者数量和构成的影响。

Refining Covariance Matrix Estimation in Stochastic Gradient Descent Through Bias Reduction

Ziyang Wei et al.

stat.ML cs.LG

本文针对SGD算法中的在线推断和渐近协方差估计问题，提出了一种无需二阶导数信息的在线去偏协方差估计器，通过偏差缩减技术实现了比现有无Hessian方法更快的收敛速度。

The Feedback Hamiltonian is the Score Function: A Diffusion-Model Framework for Quantum Trajectory Reversal

Sagar Dubey, Alan John

quant-ph cs.LG

本文通过计算密度矩阵空间中量子轨迹分布的对数路径概率的functional derivative，证明了García-Pintos反馈Hamiltonian正是量子轨迹分布的score function，并利用Anderson反向时间扩散定理解释了轨迹反转机制。该工作将量子反馈协议与score-based diffusion models联系起来，并指出在理想条件不满足时可用ML score估计方法替代解析公式。

SQLyzr: A Comprehensive Benchmark and Evaluation Platform for Text-to-SQL

Sepideh Abedini, M. Tamer Özsu

cs.DB cs.AI

SQLyzr是一个针对Text-to-SQL模型的综合评估平台，它通过引入多样化的评估指标、真实工作负载对齐和细粒度查询分类等功能，弥补了现有基准测试的不足。该平台旨在帮助用户更全面地诊断和提升模型性能，但并未涉及关键词中的核心概念。

Post-AGI Economies: Autonomy and the First Fundamental Theorem of Welfare Economics

Elija Perrier

econ.TH cs.AI cs.GT

本文探讨了后AGI经济中第一福利经济学定理的适用性问题，指出当人工系统表现出不同程度的autonomy时，该定理的经典假设不再成立。作者通过引入autonomy-conditioned welfare和delegation accounting等概念，构建了一个最小化general-equilibrium模型，并证明了autonomy-complete competitive equilibrium在特定条件下是autonomy-Pareto efficient的。

Sparse Forcing: Native Trainable Sparse Attention for Real-time Autoregressive Diffusion Video Generation

Boxun Xu et al.

cs.CV cs.LG

本文提出Sparse Forcing方法，通过观察自回归扩散模型中的attention稀疏性，设计了一种可训练的稀疏attention机制和高效的GPU kernel (PBSA)，以提升长视频生成质量并降低解码延迟。该方法在文本生成视频任务上取得了性能提升和计算加速。

Neutron and X-ray Diffraction Reveal the Limits of Long-Range Machine Learning Potentials for Medium-Range Order in Silica Glass

Sai Harshit Balantrapu et al.

cond-mat.mtrl-sci cs.LG

本文结合中子与X-ray衍射实验和基于MACE模型的分子动力学模拟，研究了短程与长程机器学习势对二氧化硅玻璃中medium-range order (MRO)的预测能力。结果表明，长程相互作用虽能改善液态结构，但两种模型在淬火后均无法准确恢复非晶态的MRO，揭示了当前MLIP在模拟玻璃化转变时的局限性。

SparKV: Overhead-Aware KV Cache Loading for Efficient On-Device LLM Inference

Hongyao Liu et al.

cs.NI cs.AI cs.PF

本文提出SparKV框架，通过云端KV cache流式传输与设备端计算相结合，并建模单个KV chunk的开销以决定其传输或本地计算路径，从而降低on-device LLM推理的首token延迟和能耗。该方法主要关注系统层面的通信与计算重叠优化，与关键词中的attention等核心算法方向关联较弱。

Assessing Emulator Design and Training for Modal Aerosol Microphysics Parameterizations in E3SMv2

Shady E. Ahmed et al.

physics.ao-ph cs.LG physics.data-an physics.geo-ph

本文探讨了在E3SMv2全球大气模型中使用SciML模拟器模拟气溶胶微物理过程的设计与训练问题，重点分析了网络架构、变量归一化和训练收敛性对模拟精度的影响。研究为气溶胶过程的数值模拟提供了实用指导，但与关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors

Dachong Li et al.

cs.RO cs.AI

本文提出CorridorVLA，通过预测稀疏空间锚点（如$\Delta$-positions）为生成式动作头提供显式空间约束，在LIBERO-Plus基准上提升了成功率。该方法利用锚点定义容差区域来引导flow-matching动作头，但整体创新性有限，与关键词契合度不高。

Calibeating Prediction-Powered Inference

Lars van der Laan, Mark Van Der Laan

stat.ML cs.AI cs.LG econ.EM q-bio.QM +1

本文研究了半监督均值估计问题，提出通过后验校准（post-hoc calibration）预测分数来改进估计效率，并分析了线性与保序（isotonic）校准的理论性质。实验表明该方法在多种场景下优于或持平现有方法。

Strategic Heterogeneous Multi-Agent Architecture for Cost-Effective Code Vulnerability Detection

Zhaohui Geoffrey Wang

cs.CR cs.LG cs.SE

本文提出了一种基于博弈论原理的异构多智能体架构，结合云端LLM专家与本地轻量验证器，用于自动化代码漏洞检测。实验表明该方法在NIST Juliet测试集上以较低成本取得了较好的F1分数，但方法本身在理论或实践上缺乏显著的开创性。

Exploring the Role of Synthetic Data Augmentation in Controllable Human-Centric Video Generation

Yuanchen Fei et al.

cs.CV cs.AI

本文研究了合成数据增强在可控人体视频生成中的作用，提出一个基于diffusion的框架来精细控制外观和运动，并分析了合成数据与真实数据在训练中的互补关系。实验表明合成数据能提升运动真实性和时间一致性，但未涉及关键词中的code、spectral、Muon等概念。

CI-Work: Benchmarking Contextual Integrity in Enterprise LLM Agents

Wenjie Fu et al.

cs.CR cs.CL

本文提出了CI-Work基准，用于评估企业LLM agent在上下文完整性（Contextual Integrity）下的隐私泄露风险，发现任务效用与隐私违规之间存在反直觉的权衡，并指出单纯增加模型规模或推理深度无法解决该问题。

Adversarial Evasion in Non-Stationary Malware Detection: Minimizing Drift Signals through Similarity-Constrained Perturbations

Pawan Acharya, Lan Zhang

cs.CR cs.AI

本文研究在非平稳恶意软件检测环境中，通过相似性约束的扰动生成对抗样本，以同时实现分类逃逸和最小化漂移信号。实验表明$\ell_2$正则化在平衡逃逸与可检测性方面效果较好。

The First Challenge on Remote Sensing Infrared Image Super-Resolution at NTIRE 2026: Benchmark Results and Method Overview

Kai Liu et al.

cs.CV cs.AI

本文介绍了NTIRE 2026遥感红外图像超分辨率挑战赛（x4倍双三次下采样），总结了比赛设计、数据集、评估协议及13个参赛团队的代表性方法，旨在推动红外图像SR在遥感应用中的发展。

MiMIC: Mitigating Visual Modality Collapse in Universal Multimodal Retrieval While Avoiding Semantic Misalignment

Juan Li et al.

cs.CV cs.AI

本文研究了通用多模态检索中的视觉模态崩溃问题，提出了一种融合-解码器架构MiMIC，通过单模态混合和随机标题丢弃策略来缓解该问题。实验表明该方法在WebQA+和EVQA+数据集上优于现有基线方法。

Trust-SSL: Additive-Residual Selective Invariance for Robust Aerial Self-Supervised Learning

Wadii Boulila et al.

cs.CV cs.AI cs.LG cs.NE

本文提出了一种名为Trust-SSL的加性残差选择性不变性方法，用于增强自监督学习在航拍图像中对模糊、遮挡等退化的鲁棒性。该方法通过引入逐样本的信任权重并结合加性残差对比损失，在多个数据集上提升了线性探测精度，但整体创新性和与关键词的契合度有限。

Conjecture and Inquiry: Quantifying Software Performance Requirements via Interactive Retrieval-Augmented Preference Elicitation

Wang Shi Hai, Chen Tao

cs.SE cs.AI cs.CL

本文提出IRAP方法，通过交互式检索增强偏好引导，将自然语言描述的软件性能需求量化为数学函数，以解决需求模糊性和认知不确定性带来的歧义问题。实验表明该方法在四个真实数据集上优于现有技术。

From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

Yiming Zhong et al.

cs.RO cs.AI

本文提出ResVLA架构，将生成式VLA策略从"从噪声生成"范式转向"从意图精炼"范式。通过频谱分析将机器人控制解耦为确定性低频锚点和随机高频残差，利用残差扩散桥聚焦于局部动态的精炼。

VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought

Byeonggeuk Lim et al.

cs.CV cs.AI

本文提出了VG-CoT数据集，通过全自动三阶段pipeline将多步推理与图像中的视觉证据显式对齐，并引入了一个从Rationale Quality、Answer Accuracy和Reasoning-Answer Alignment三个维度评估LVLM推理可信度的benchmark。实验表明该方法能有效增强基于证据的推理，但与关键词列表中的概念关联较弱。

CSC: Turning the Adversary's Poison against Itself

Yuchen Shi et al.

cs.CR cs.AI

本文提出了一种名为Cluster Segregation Concealment (CSC)的防御方法，通过早期训练阶段的feature extraction和DBSCAN聚类来识别并隔离被投毒的样本，然后将其重标定为虚拟类以消除后门关联。该方法在多个基准数据集上优于现有防御，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Differentially Private De-identification of Dutch Clinical Notes: A Comparative Evaluation

Michele Miranda et al.

cs.CR cs.AI cs.CL

本文比较了差分隐私(DP)、命名实体识别(NER)和大语言模型(LLM)在荷兰语临床文本去标识化中的表现，发现单独使用DP会严重损害数据效用，但与LLM预处理结合能显著改善隐私-效用权衡。

A single algorithm for both restless and rested rotting bandits

Julien Seznec et al.

stat.ML cs.LG

本文提出了一种名为Rotting Adaptive Window UCB (RAW-UCB)的算法，用于解决arm reward随时间递减（rotting）的bandit问题。该算法在无需事先知道环境是rested还是restless的情况下，都能达到接近最优的regret，解决了此前认为这两种设定需要不同算法的问题。

VARestorer: One-Step VAR Distillation for Real-World Image Super-Resolution

Yixuan Zhu et al.

cs.CV cs.AI cs.LG

VARestorer提出一种蒸馏框架，将预训练的text-to-image VAR模型转化为一步式Real-ISR模型，通过distribution matching避免迭代误差累积，并引入pyramid image conditioning与cross-scale attention以充分利用LQ上下文。该方法仅微调1.2%参数，在DIV2K上取得SOTA性能，推理速度提升10倍。

MISTY: High-Throughput Motion Planning via Mixer-based Single-step Drifting

Yining Xing et al.

cs.RO cs.AI

本文提出了一种名为MISTY的高通量运动规划器，通过集成MLP-Mixer解码器和一种新颖的latent-space drifting loss，实现了单步推理下的多模态轨迹生成。该方法在nuPlan基准上取得了领先性能，并显著降低了推理延迟，但并未直接涉及关键词列表中的核心概念。

Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models

Mohammed Safi Ur Rahman Khan et al.

cs.CV cs.CL

本文系统评估了Evaluator VLMs在图像到文本和文本到图像任务中的可靠性，通过引入4000多个扰动实例测试其检测能力，发现这些模型存在显著盲点，尤其在细粒度组合和空间错误方面表现不佳。

Architectures for Robust Self-Organizing Energy Systems under Information and Control Constraints

Emilie Frost, Astrid Nieße

cs.MA cs.AI

本文探讨了在信息与控制约束下，为鲁棒自组织能源系统设计的observer/controller架构变体，并评估了不同架构下的控制器动作，强调了在agent-based系统中考虑此类架构对实际应用鲁棒性的重要性。

Attention-based multiple instance learning for predominant growth pattern prediction in lung adenocarcinoma wsi using foundation models

Laura Valeria Perez-Herrera, M.J. Garcia-Gonzalez, Karen Lopez-Linares

cs.CV cs.AI

本文提出了一种基于attention的multiple instance learning框架，用于预测肺腺癌全切片图像中的主要生长模式，通过整合预训练的病理学foundation models作为patch encoders来减少标注负担。实验表明，fine-tuned encoders结合attention机制能提升预测的鲁棒性。

Kernelization Bounds for Constrained Coloring

Ishay Haviv

cs.CC cs.DS

本文研究了约束满足问题的kernel复杂度，特别是关于均匀彩虹自由着色问题，并建立了在NP不包含于coNP/poly假设下的kernel大小下界。

A Metamorphic Testing Approach to Diagnosing Memorization in LLM-Based Program Repair

Milan De Koning et al.

cs.SE cs.AI

本文提出了一种结合metamorphic testing (MT)与negative log-likelihood (NLL)的方法，用于诊断基于LLM的程序修复中的数据泄露问题。通过在Defects4J和GitBug-Java数据集上应用语义保持变换，发现所有评估的LLM在变换后的基准上补丁生成成功率均显著下降，且该下降与NLL强相关。

A Kernel Nonconformity Score for Multivariate Conformal Prediction

Louis Meyer, Wenkai Xu

stat.ML cs.LG

本文提出了一种用于多元conformal prediction的Multivariate Kernel Score (MKS)，它通过将残差向量压缩为标量来生成预测区域，并证明了其有限样本覆盖保证。该方法在回归任务中相比椭球基线方法能显著减小预测区域体积，同时保持名义覆盖水平。

DryRUN: On the Role of Public Tests in LLM-Driven Code Generation

Kaushitha Silva, Srinath Perera

cs.SE cs.AI

本文探讨了LLM驱动代码生成中公共测试用例的作用，指出依赖人工测试用例存在瓶颈和过拟合问题，并提出了DryRUN框架，该框架让LLM自主生成输入并模拟执行轨迹以自我修正，无需真实样本即可匹配现有方法的性能。

Verifying Machine Learning Interpretability Requirements through Provenance

Lynn Vonderhaar et al.

cs.SE cs.LG

本文探讨了如何通过ML provenance（机器学习来源）来验证ML模型的可解释性需求，提出了一种将不可量化的非功能需求转化为可验证的功能需求的方法。

On the Role of Preprocessing and Memristor Dynamics in Reservoir Computing for Image Classification

Rishona Daniels et al.

cs.NE cs.AI cs.AR cs.ET cs.LG

本文分析了基于volatile memristor的并行延迟反馈网络RC架构，研究了decay rate、quantization和variability等器件特性对性能的影响，并通过预处理方法提升数据表示，在MNIST上达到95.89%的准确率。该工作主要关注硬件实现细节，与关键词中的code、context、spectral等概念关联较弱。

Using ASP(Q) to Handle Inconsistent Prioritized Data

Meghyn Bienvenu et al.

cs.LO cs.AI cs.DB

本文探讨了使用ASP(Q)处理不一致优先级数据的方法，定义了三种最优修复概念并实现了相关语义的查询回答。实验评估了不同语义和编码对计算可行性的影响。

A-THENA: Early Intrusion Detection for IoT with Time-Aware Hybrid Encoding and Network-Specific Augmentation

Ioannis Panopoulos et al.

cs.CR cs.LG

本文提出A-THENA，一种轻量级早期入侵检测系统，通过结合时间感知混合编码和网络特定增强的Transformer架构，在多个IoT数据集上提升了检测精度并降低了误报率。该方法主要关注实际部署效率，与关键词中的attention概念有间接关联，但缺乏开创性。

Causal Disentanglement for Full-Reference Image Quality Assessment

Zhen Zhang et al.

cs.CV cs.AI

本文提出了一种基于causal inference和decoupled representation learning的full-reference image quality assessment (FR-IQA)新范式，通过干预latent representations来解耦degradation和content representations，并利用human visual masking effect建模因果关系，最终在多种监督和标签缺失场景下取得竞争性能。该方法在跨域泛化上优于现有无训练FR-IQA模型，但与我提供的关键词列表关联较弱。

A-IC3: Learning-Guided Adaptive Inductive Generalization for Hardware Model Checking

Xiaofeng Zhou et al.

cs.LO cs.LG

本文提出A-IC3框架，使用multi-armed bandit (MAB)算法动态选择inductive generalization策略以增强IC3硬件模型检测算法，实验表明在HWMCC基准上比基线方法多解决26-50个实例。该方法主要关注验证效率优化，与关键词中的code, context, spectral, Muon, pretrain, agent, attention关联度较低。

There Will Be a Scientific Theory of Deep Learning

Jamie Simon et al.

stat.ML cs.LG

本文论证了深度学习科学理论正在形成，并归纳了五个研究方向：可解理想化设定、可处理极限、简单数学定律、超参数理论以及普适行为。文章提出“学习力学”这一概念来描述这些研究，并讨论了其与统计视角、信息论视角及机制可解释性的关系。

Efficient Logic Gate Networks for Video Copy Detection

Katarzyna Fojcik

cs.CV cs.AI cs.IR

本文提出了一种基于可微Logic Gate Networks (LGNs)的视频拷贝检测框架，用紧凑的逻辑表示替代传统的浮点特征提取器，实现了极快的推理速度和极小的描述符尺寸。实验表明该方法在精度和排序性能上具有竞争力，但与我提供的关键词列表（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Stealthy Backdoor Attacks against LLMs Based on Natural Style Triggers

Jiali Wei et al.

cs.CR cs.AI cs.CL

本文提出了一种针对大语言模型的后门攻击框架BadStyle，利用LLM生成带有自然风格触发器的中毒样本，并设计辅助目标损失来稳定攻击效果。实验表明该方法在多个模型上实现了高攻击成功率，但主要关注安全攻击而非数学理论或关键词中的核心概念。

Building a Precise Video Language with Human-AI Oversight

Zhiqiu Lin et al.

cs.CV cs.AI cs.CL cs.LG cs.MM

本文提出了CHAI框架，通过人类专家对模型生成的视频描述进行批评和修正，以构建高质量的视频语言数据集。该方法利用人类-AI协作的监督方式，提升了视频描述生成的精确性，并展示了其在视频理解与生成任务中的有效性。

Ramen: Robust Test-Time Adaptation of Vision-Language Models with Active Sample Selection

Wenxuan Bao et al.

cs.CV cs.LG

本文提出Ramen框架，通过主动样本选择实现视觉-语言模型（如CLIP）的鲁棒测试时适应。该方法针对混合域分布偏移问题，利用嵌入-梯度缓存检索相关样本并聚合梯度进行模型更新，无需额外前向或反向传播。

Agentic AI-assisted coding offers a unique opportunity to instill epistemic grounding during software development

Magnus Palmblad, Jared M. Ragland, Benjamin A. Neely

cs.SE cs.AI q-bio.BM

本文提出了一种名为epistemic grounding document的社区治理文档框架，用于在AI辅助软件开发中嵌入领域知识约束，并以质谱蛋白质组学为例展示了其应用。该方法通过硬约束和约定参数确保代码正确性，但与我提供的关键词关联度较低。

Neural surrogates for crystal growth dynamics with variable supersaturation: explicit vs. implicit conditioning

Matteo Rigoni et al.

cond-mat.mtrl-sci cond-mat.mes-hall cs.CE cs.LG

本文使用Convolutional Recurrent Neural Network作为surrogate model，模拟了变过饱和度下的晶体生长动力学，比较了隐式条件化（通过输入短帧序列推断过饱和度）与显式条件化（将过饱和度作为显式输入）两种网络架构的性能。结果表明，显式条件化在预测精度上更优，而隐式方法仅在更大训练集上才能达到可比效果。

Interpretable facial dynamics as behavioral and perceptual traces of deepfakes

Timothy Joseph Murphy, Jennifer Cook, Hélio Clemente José Cuve

cs.CV cs.HC cs.LG

本文提出了一种基于面部动态生物行为特征的可解释deepfake检测方法，通过提取低维运动模式的时间特征训练传统机器学习分类器，发现deepfake在情绪表达时存在更明显的高阶时间不规则性。研究还比较了模型与人类感知的检测策略差异，表明两者在情绪视频上判断一致但在非情绪视频上存在分歧。

Compliance Moral Hazard and the Backfiring Mandate

Jian Ni, Lecheng Zheng, John R Birge

cs.GT cs.LG

本文研究了银行网络中反洗钱的信息聚合问题，提出了一种时间价值分配机制，通过严格适当的评分规则激励机构真实报告，并分析了竞争压力下合规道德风险可能导致政策适得其反的结果。

SyMTRS: Benchmark Multi-Task Synthetic Dataset for Depth, Domain Adaptation and Super-Resolution in Aerial Imagery

Safouane El Ghazouali et al.

cs.CV cs.AI

SyMTRS是一个大规模合成航拍数据集，提供高分辨率RGB图像、深度图、夜间图像及多尺度低分辨率变体，旨在支持深度估计、域自适应和超分辨率等多项遥感任务。该数据集通过高保真城市仿真流程生成，为多任务联合研究提供了统一的基准。

Divide-then-Diagnose: Weaving Clinician-Inspired Contexts for Ultra-Long Capsule Endoscopy Videos

Bowen Liu et al.

cs.CV cs.AI

本文定义了诊断驱动的胶囊内镜视频摘要任务，并提出了VideoCAP数据集和DiCE框架。DiCE通过候选筛选、上下文组织与证据聚合来模拟临床阅读流程，在超长视频上生成简洁的诊断摘要。

On the algebra of Koopman eigenfunctions and on some of their infinities

Zahra Monfared et al.

math.DS cs.LG math.NA

本文研究了Koopman算子本征函数的代数结构，利用其乘法群性质通过多项式构造加速数值计算，并讨论了本征函数奇异性（如多稳态系统中的局部奇点和极限环中的扩展奇点）的匹配与延拓问题。

Modulating Cross-Modal Convergence with Single-Stimulus, Intra-Modal Dispersion

Eghbal A. Hosseini et al.

q-bio.NC cs.AI

本文提出了一种基于Generalized Procrustes Algorithm的方法，用于在单刺激水平上测量视觉模型间的表征收敛性（intra-modal dispersion），并发现该指标能显著调节视觉与语言模型间的跨模态对齐程度。该工作为理解跨模态表征的收敛与分歧提供了新视角，但与我提供的关键词列表关联较弱。

TraceScope: Interactive URL Triage via Decoupled Checklist Adjudication

Haolin Zhang et al.

cs.CR cs.AI

本文提出TraceScope，一种用于交互式URL分类的解耦流水线，通过沙箱化操作代理驱动浏览器并冻结会话为证据包，再由裁决代理基于MITRE ATT&CK清单查询证据生成审计报告。该方法在真实钓鱼检测中提升了召回率，但主要聚焦于网络安全应用，与关键词中的数学或理论概念关联较弱。

Beyond Expected Information Gain: Stable Bayesian Optimal Experimental Design with Integral Probability Metrics and Plug-and-Play Extensions

Di Wu, Ling Liang, Haizhao Yang

stat.ML cs.LG math.NA stat.CO

本文提出了一种基于Integral Probability Metrics (IPMs)的Bayesian Optimal Experimental Design (BOED)框架，以替代传统的基于KL散度的Expected Information Gain (EIG)方法，从而缓解支持不匹配和稀有事件敏感性等问题。该方法通过Wasserstein距离等IPM度量提供了更强的几何稳定性，并支持即插即用的扩展。

Transient Turn Injection: Exposing Stateless Multi-Turn Vulnerabilities in Large Language Models

Naheed Rayhan, Sohely Jahan

cs.CR cs.AI

本文提出Transient Turn Injection (TTI)攻击方法，通过将恶意意图分散到多个独立交互中，利用LLM的无状态审核机制实现多轮攻击。实验揭示了不同模型对TTI攻击的脆弱性差异，并强调了上下文感知防御的必要性。

Replay-buffer engineering for noise-robust quantum circuit optimization

Akash Kundu, Sebastian Feld

quant-ph cs.AI cs.ET cs.LG

本文针对量子电路优化中深度强化学习的三个瓶颈，提出了ReaPER$+$（一种退火重放规则）、OptCRLQAS（消除量子-经典评估瓶颈的课程RL方法）以及一种轻量级重放缓冲区迁移方案，在量子编译和分子任务上提升了样本效率和噪声鲁棒性。这些方法主要聚焦于强化学习的经验存储与采样机制，与关键词中的agent概念有一定关联，但整体方法更偏向工程优化而非理论开创。

Locating acts of mechanistic reasoning in student team conversations with mechanistic machine learning

Kaitlin Gili et al.

physics.ed-ph cs.LG

本文提出了一种可解释的机器学习模型，用于从学生团队对话中识别机械推理行为。该模型通过引入特定的inductive bias来提升泛化能力，为STEM教育研究提供了分析工具。

Addressing Image Authenticity When Cameras Use Generative AI

Umar Masud et al.

cs.CV cs.AI

本文探讨了相机中生成式AI（GenAI）导致图像内容被“幻觉化”修改的真实性问题，提出通过优化一个image-specific的多层感知机（MLP）decoder和modality-specific encoder，从相机输出图像中恢复出未被幻觉化修改的原始版本。该方法仅需180 KB存储空间，可作为元数据嵌入JPEG等标准图像格式。

A Multi-Stage Warm-Start Deep Learning Framework for Unit Commitment

Muhy Eddin Za'ter et al.

eess.SY cs.AI

本文提出了一种基于transformer的多阶段深度学习框架，用于解决电力系统中的Unit Commitment (UC)问题。该框架通过自注意力网络预测发电机启停计划，并结合确定性后处理启发式方法保证物理可行性，最终将优化后的预测作为MILP求解器的warm start以加速计算。实验表明该方法在单母线测试系统上实现了100%的可行性并显著缩短了计算时间。

Revealing Geography-Driven Signals in Zone-Level Claim Frequency Models: An Empirical Study using Environmental and Visual Predictors

Sherly Alfonso-Sánchez, Cristián Bravo, Kristina G. Stankova

stat.ML cs.LG q-fin.RM

本文研究了在缺乏个体级空间信息的情况下，如何通过环境指标（如OpenStreetMap和CORINE Land Cover数据）和正射影像嵌入来增强区域级MTPL索赔频率模型。实验表明，结合坐标与环境特征能提升预测精度，但图像嵌入在已有环境特征时效果有限。

Equity Bias: An Ethical Framework for AI Design

Mary Lockwood

cs.CY cs.AI

本文提出了一个名为Equity Bias的AI设计伦理框架，基于解释学哲学和认知不正义理论，将偏见视为知识编码的反映而非需消除的错误，并引入三阶段AI生命周期方法论。该工作主要关注AI伦理与设计哲学，与关键词中的技术概念无直接关联。

When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs

Pegah Khayatan et al.

cs.CV cs.AI cs.CL cs.LG

本文提出HalluScope基准来研究LVLMs中的幻觉现象，发现幻觉主要源于对文本先验的过度依赖。作者进一步提出HalluVL-DPO框架，通过偏好优化使模型更关注视觉输入，从而缓解文本指令引发的幻觉。

Seeing Fast and Slow: Learning the Flow of Time in Videos

Yen-Siang Wu et al.

cs.CV cs.AI cs.GR

本文提出了一种自监督学习方法，利用视频中的多模态线索和时间结构来检测速度变化并估计播放速度，并基于此构建了大规模慢动作视频数据集，进而实现了速度条件视频生成和时间超分辨率。该方法将时间视为可学习的视觉概念，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others