bluearXiv-ai - 2026-05-15

📄 所有论文 ↑ 回顶部

cs.LG

The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm ⭐ 精选

Jiale Chen et al.

cs.LG cs.DS cs.IT

本文揭示了GPTQ（一种大语言模型后训练量化方法）在逐层反向执行时，其数学本质等价于Babai最近平面算法，用于求解由Hessian矩阵定义的格上的最近向量问题（CVP）。这一等价性为GPTQ的误差传播步骤提供了直观的几何解释，并使其继承了Babai算法的误差上界（在无权重裁剪假设下）。基于该上界，作者设计了避免裁剪的后训练量化方法，在性能上超越了原始GPTQ，并提供了高效的GPU推理内核。该工作为GPTQ奠定了坚实的理论基础，并开辟了将格算法领域的进展引入大模型量化算法设计的新方向。

EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents ⭐ 精选

Jiaqi Liu et al.

cs.LG cs.AI

本文提出EvolveMem，一种用于LLM agent的自我进化记忆架构。其核心创新在于，不仅存储内容会进化，检索机制（包括scoring functions, fusion strategies和answer-generation policies）也会通过一个由LLM驱动的诊断模块进行自动优化，实现了存储与检索的双层协同进化。该方法通过闭环的AutoResearch过程，从最小基线自主收敛，发现了原始动作空间中不存在的新配置维度，并在LoCoMo和MemBench基准上取得了显著性能提升，且进化出的配置具有跨基准的通用性。这与关键词“agent”高度契合，并为长期记忆系统的自适应问题提供了开创性解决方案。

Self-Pruned Key-Value Attention: Learning When to Write by Predicting Future Utility ⭐ 精选

Gergely Szilvasy et al.

cs.LG cs.CL

本文提出Self-Pruned Key-Value Attention (SP-KV)机制，通过一个轻量级的utility predictor为每个key-value pair预测未来效用，仅将效用超过阈值的旧KV对写入长期cache，同时保留近期KV的local window。该方法与LLM进行端到端联合训练，仅使用next-token prediction loss，实现了动态稀疏化，可将KV cache大小压缩3到10倍，显著提升内存效率和解码速度，且不损害下游任务性能。该工作与关键词中的attention和agent范式高度契合，为长序列生成中的KV cache管理提供了开创性解决方案。

SurF: A Generative Model for Multivariate Irregular Time Series Forecasting ⭐ 精选

Mohammad R. Rezaei, Tejas Balaji, Rahul G. Krishnan

cs.LG

本文提出SurF，一种针对多变量不规则时间序列的生成模型。其核心创新在于利用Time Rescaling Theorem (TRT)作为可学习的双射，将事件序列映射为独立同分布的unit-rate指数噪声，从而避免了传统tokenization或神经时间点过程在数值积分上的瓶颈。模型通过三种高效的累积强度参数化方法扩展到长序列，并采用基于Transformer的编码器实现多数据集预训练。在六个真实世界基准上，SurF在Earthquake、Retweet和Taobao数据集上取得了最优的时间RMSE，并在严格的留一法评估中，在5/6的数据集上超越了所有经典和神经自回归基线，为异步事件流的基础模型迈出了初步一步。

Finite Sample Bounds for Learning with Score Matching ⭐ 精选

Devin Smedira et al.

cs.LG cs.DS stat.ML

本文首次为score matching方法在多项式指数族分布结构学习中的样本复杂度提供了非渐近界，证明了样本复杂度与模型维度呈多项式关系。该工作填补了该领域长期缺乏有限样本理论分析的空白，为score matching在高维统计中的实际应用提供了理论保障。

Beyond Binary: Reframing GUI Critique as Continuous Semantic Alignment ⭐ 精选

Yuchen Sun et al.

cs.LG cs.AI cs.HC

本文提出BBCritic (Beyond-Binary Critic)，将GUI agent的critic任务从传统的binary classification重新定义为continuous semantic alignment问题。作者通过Functional Equivalence Hypothesis引入两阶段contrastive learning，将instruction和action在共享的Affordance Space中对齐，恢复了被binary supervision压平的层次化结构。同时构建了BBBench (Beyond-Binary Bench)基准，包含密集action space和四级层次化taxonomy，用于细粒度ranking评估。实验表明，BBCritic-3B无需额外标注即可超越7B参数的SOTA binary模型，并展现出跨平台和任务的零样本迁移能力，为GUI agent的critic设计提供了metric-learning的新视角。

Dynamic Latent Routing ⭐ 精选

Fangyuan Yu, Xin Su, Amir Abdullah

cs.LG cs.AI cs.CL

本文提出了一种名为Dynamic Latent Routing (DLR)的语言模型后训练方法，该方法基于General Dijkstra Search (GDS)的“搜索-选择-更新”原则，通过动态搜索在单一训练阶段联合学习离散latent codes、路由策略和模型参数。在低数据微调场景下，DLR在四个数据集和六个模型上平均超越监督微调6.6个百分点，而先前的离散latent基线方法则持续表现不佳。机理分析和消融实验表明，DLR学习到了具有不同因果角色的结构化路由行为，为语言模型的高效微调提供了新思路。该方法与关键词中的“code”和“agent”概念较为契合，因其涉及离散编码和策略路由。

MahaVar: OOD Detection via Class-wise Mahalanobis Distance Variance under Neural Collapse ⭐ 精选

Donghwan Kim, Hyunsoo Yoon

cs.LG cs.AI

本文观察到，对于in-distribution (ID)样本，其class-wise Mahalanobis distances呈现显著的sharp minimum结构（即到最近类的距离很小，而到其他所有类的距离很大），导致跨类别的variance很高；而OOD样本则表现出较低的variance。作者将这一现象理论化地归因于Neural Collapse几何结构，并据此提出MahaVar方法，通过在Mahalanobis distance基础上引入class-wise distance variance项作为OOD score，在OpenOOD v1.5基准上取得了state-of-the-art性能。该方法与关键词中的“context”和“attention”无直接关联，但其对特征空间中距离variance的利用与“spectral”方法在结构分析上有一定相似性。

Collaborative Yet Personalized Policy Training: Single-Timescale Federated Actor-Critic ⭐ 精选

Leo Muxing Wang, Pengkun Yang, Lili Su

cs.LG cs.AI

本文提出了一种协作式个性化联邦actor-critic框架，其中多个agent共享一个公共线性子空间表示（common linear subspace representation），同时保持个性化的局部policy组件。在单时间尺度更新（single-timescale updates）和Markovian采样下，作者通过新颖的联合线性近似框架证明了critic误差以$\tilde{\mathcal{O}}(1/((1-\gamma)^4\sqrt{TK}))$速率收敛到零，policy gradient范数以$\tilde{\mathcal{O}}(1/((1-\gamma)^6\sqrt{TK}))$速率收敛到零，实现了关于agent数量$K$的线性加速（linear speedup）。该工作解决了异构环境（heterogeneous environments）下联邦强化学习中长期存在的个性化与协作权衡问题，并针对异构Markovian轨迹和耦合学习动力学开发了新的扰动分析和条件混合论证。

Test-Time Learning with an Evolving Library ⭐ 精选

Weijia Xu et al.

cs.LG

本文提出EvoLib框架，通过维护一个可演化的知识库（包含modular skills和reflective insights），使large language models能够在测试时跨问题实例积累、重用和进化知识，而无需参数更新或外部监督。该框架引入了一种联合优化即时效用与长期价值的加权与整合机制，使简单的实例特定抽象随时间演化为更通用、可重用的形式。在数学推理、代码生成和多轮agentic环境等基准测试中，EvoLib显著优于现有的test-time scaling和学习方法，且无需ground-truth反馈。该方法与关键词中的agent和code高度契合，为测试时学习提供了开创性的范式。

Lang2MLIP: End-to-End Language-to-Machine Learning Interatomic Potential Development with Autonomous Agentic Workflows ⭐ 精选

Wenwen Li, Yuki Orimo, Nontawat Charoenphakdee

cs.LG cond-mat.mtrl-sci physics.comp-ph

Lang2MLIP提出了一种基于multi-agent的端到端框架，将机器学习原子间势(MLIP)的开发建模为sequential decision-making问题，由large language models (LLMs)自动选择action以改进模型，无需预定义pipeline。该方法通过decision-making agent观察当前dataset、model和evaluation results，并支持self-correction，在固体电解质界面(SEI)系统上验证了有效性，为自动化MLIP开发提供了新范式。

Resolving Action Bottleneck: Agentic Reinforcement Learning Informed by Token-Level Energy ⭐ 精选

Langzhou He et al.

cs.LG cs.AI cs.CL

本文从energy-based modeling视角出发，揭示了在agentic reinforcement learning中，token-level training signals（由不同rollout的reward variance与token的correlation量化）高度集中于action tokens，而非占绝大多数的reasoning tokens，这一现象被称为Action Bottleneck。基于此，作者提出了一种极其简单的token reweighting方法ActFocus，它降低reasoning tokens的gradient权重，并引入energy-based redistribution机制以增加高不确定性action tokens的权重。实验表明，ActFocus在多个环境和模型规模下一致优于PPO和GRPO，最终性能提升最高达65.2和63.7个百分点，且不增加额外运行时或内存开销。该方法与关键词中的agent和attention概念高度契合，为解决agentic RL中credit assignment的长期问题提供了开创性思路。

TFGN: Task-Free, Replay-Free Continual Pre-Training Without Catastrophic Forgetting at LLM Scale ⭐ 精选

Anurup Ganguli

cs.LG cs.AI

TFGN提出了一种面向transformer语言模型的架构覆盖层，通过输入条件化的参数高效更新实现无任务标签、无回放的持续预训练。其核心创新在于Read/Write分解：前向传播保持全稠密计算，而跨域参数更新被结构化设计使得先前领域的子空间不被覆盖，从而在LLM规模（如LLaMA 3.1 8B）上实现了接近零的灾难性遗忘（backward transfer为-0.007）。该方法在六个异构文本域（包括Code和Math）上验证了正向迁移能力，并扩展出闭环元控制层和算子级计划向量，与关键词中的pretrain和agent概念高度契合。

Self-Distilled Agentic Reinforcement Learning ⭐ 精选

Zhengxi Lu et al.

cs.LG cs.AI cs.CL

本文提出SDAR (Self-Distilled Agentic Reinforcement Learning)方法，将On-Policy Self-Distillation (OPSD)作为门控辅助目标，以强化学习(RL)为主优化骨干，解决了将OPSD迁移至多轮agent任务时的不稳定性问题。SDAR通过sigmoid门控机制对teacher分支的token级信号进行选择性蒸馏，强化teacher认可的正向gap token，同时软性衰减负向teacher拒绝信号。在ALFWorld、WebShop和Search-QA等agent任务上，SDAR在Qwen2.5和Qwen3系列模型上显著优于GRPO基线，并避免了朴素GRPO+OPSD混合方法的不稳定性。该方法为agent强化学习中的密集监督信号设计提供了开创性思路。

Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

Bardh Hoxha et al.

cs.LG cs.CV cs.RO eess.SY

本文研究基于视觉的部分可观测环境下的运行时监控问题，提出使用semantic latent representations（语义潜在表示）来评估过去时间信号时序逻辑（ptSTL）公式。该方法通过预测语义基向量（semantic basis）实现可重用监控，无需为每个公式重新训练，并在行人交叉路口基准和Waymo驾驶数据上验证了其有效性。

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

William Lehn-Schiøler et al.

cs.LG cs.HC cs.NE

本文使用TopK Sparse Autoencoders (SAEs)从三种不同的EEG transformer架构中提取稀疏特征字典，并通过临床分类法评估特征的单义性和纠缠性。研究揭示了模型中的表征失败（如“wrecking-ball”干预和临床纠缠），并通过频谱解码器将潜在操作映射为生理可解释的频率特征。

Rethinking Molecular OOD Generalization via Target-Aware Source Selection

Zhuohao Lin et al.

cs.LG

本文针对分子性质预测中的OOD泛化问题，提出了SCOPE-BENCH基准和POMA框架。POMA通过检索与目标结构相近的源scaffold作为代理目标，并利用强化学习策略选择最优源子集，最后在宏观拓扑和微观药效团尺度进行dual-scale domain adaptation。

Unsupervised learning of acquisition variability in structural connectomes via hybrid latent space modeling

Gaurav Rudravaram et al.

cs.LG cs.AI stat.ML

本文提出了一种无监督框架Joint-VAE，通过架构退火（architectural annealing）在编码器输出中平衡离散和连续隐变量，以分离dMRI结构连接组中的采集变异与生物变异。该方法在7416个样本上优于标准VAE和PCA等基线，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

Saba Ahmadi, Prasanna Parthasarathi, Yufei Cui

cs.LG cs.CL

本文针对扩散语言模型的后训练问题，提出了一种名为TraFL（Trajectory Flow baLancing）的方法，通过引入trajectory-balance objective来避免传统reward-maximizing方法导致的“trajectory locking”问题。实验表明，该方法在数学推理和代码生成任务上优于现有后训练方法。

Towards the Next Frontier of LLMs, Training on Private Data: A Cross-Domain Benchmark for Federated Fine-Tuning

Daniel M. Jimenez-Gutierrez et al.

cs.LG cs.AI cs.DC

本文基于this http URL Federated Learning平台，提出了一种跨域联邦微调框架，允许机构在不共享私有数据的情况下联合微调LLM。在医疗和金融领域的四个数据集上，实验比较了LoRA、QLoRA和IA3三种参数高效微调策略，结果表明联邦微调性能接近集中式训练且优于单机构学习。

EMA: Efficient Model Adaptation for Learning-based Systems

Daiyang Yu et al.

cs.LG cs.DC cs.NI

本文提出EMA系统，用于帮助基于学习的系统适应动态环境变化。它通过状态转换器降低模型训练成本，并优先标注高价值数据以平衡训练与标注开销，在多个系统上验证了其有效性。

A Unified Geometric Framework for Weighted Contrastive Learning

Raphael Vock, Edouard Duchesnay, Benoit Dufumier

cs.LG

本文提出了一个统一的几何框架，将加权InfoNCE目标解释为Distance Geometry Problems，揭示了权重方案如何决定表示空间的目标几何结构。在监督分类中，该方法分析了SupCon和Soft SupCon在类别不平衡下的几何行为，并指出连续标签设置下y-Aware CL存在几何不一致性。

Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction

Darius A. Faroughy et al.

cs.LG cs.AI hep-ex hep-ph

本文提出了Collider-Bench，一个用于评估LLM agent能否通过公开论文和科学软件复现大型强子对撞机（LHC）实验分析的benchmark。该benchmark要求agent将已发表的分析转化为可执行的模拟与选择pipeline，并提交预测的碰撞事件产额，通过标准直方图指标和LLM judge进行评分。

WarmPrior: Straightening Flow-Matching Policies with Temporal Priors

Sinjae Kang et al.

cs.LG cs.AI cs.RO

本文提出WarmPrior，一种基于近期动作历史构建的简单时间先验，用于替代生成式机器人控制策略中的标准高斯源分布，实验表明该方法能提高操作任务的成功率并改善强化学习中的探索分布。

Towards Resource-Efficient LLMs: End-to-End Energy Accounting of Distillation Pipelines

Katherine Lambert, Sasha Luccioni

cs.LG cs.AI

本文提出了一个端到端的能量核算框架，用于测量蒸馏管道的完整计算成本，包括教师端的数据生成、logit缓存和评估等阶段。通过实验构建了能量-质量Pareto前沿，揭示了蒸馏方法中先前被忽视的能耗成本。

TabPFN-3: Technical Report

Léo Grinsztajn et al.

cs.LG stat.ML

本文介绍了TabPFN-3，一个基于Transformer的tabular foundation model，通过仅在合成数据上预训练并在推理时进行test-time compute scaling，在表格数据预测任务上取得了SOTA性能，并扩展到时间序列、关系数据和表格文本数据。该方法在TabArena基准上显著优于所有其他模型，包括调优后的gradient-boosted tree基线，同时训练和推理速度比前代TabPFN-2.5快20倍。

Neural Fields for NV-Center Inverse Sensing

Zhixuan Zhao et al.

cs.LG quant-ph

本文针对NV-center量子传感中的逆问题，提出了一种名为NeTMY的无摊销坐标神经场方法，通过可微分的NV前向模型和退火位置编码等技巧，改善了稀疏自旋源的重建效果。该方法在合成基准测试中取得了最佳定位和分布指标，并缓解了自由密度优化中的中心坍塌问题。

HodgeCover: Higher-Order Topological Coverage Drives Compression of Sparse Mixture-of-Experts

Tao Zhong, Dongzhe Zheng, Christine Allen-Blanchette

cs.LG cs.AI cs.CL

本文发现Sparse Mixture-of-Experts (MoE)压缩中存在一个由simplicial Laplacian的harmonic kernel刻画的不可约三元组障碍，并据此提出HodgeCover方法，通过Hodge分解选择可合并的专家三元组。该方法在激进压缩场景下优于现有无学习基线，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

Support Before Frequency in Discrete Diffusion

Adrian Müller et al.

cs.LG

本文研究了离散扩散模型（discrete diffusion models）在语言建模中的去噪学习过程，证明了在最终去噪步骤的小噪声区域中，反向编辑过程在支持信息（如语法有效性）和频率信息之间存在层级分离。实验表明模型先学习数据支持结构，后学习频率分布。

Dywave: Event-Aligned Dynamic Tokenization for Heterogeneous IoT Sensing Signal

Tomoyoshi Kimura et al.

cs.LG cs.AI

本文提出Dywave，一种面向异构IoT传感信号的动态tokenization框架，利用wavelet-based hierarchical decomposition来识别与底层物理事件对齐的时间边界，并自适应压缩冗余区间。实验表明该方法在多个数据集上提升了准确率并减少了输入token长度。

R2R2: Robust Representation for Intensive Experience Reuse via Redundancy Reduction in Self-Predictive Learning

Sanghyeob Song et al.

cs.LG cs.AI

本文针对强化学习中数据稀缺场景下的过拟合问题，提出了一种名为R2R2的正则化方法，通过在Self-Predictive Learning (SPL)框架内进行冗余缩减来稳定表示。实验表明该方法在连续控制任务上能有效提升性能，但其核心贡献在于对特定训练机制的改进，与关键词中的spectral、agent等概念关联较弱。

Reliability-Gated Source Anchoring for Continual Test-Time Adaptation

Vikash Singh et al.

cs.LG

本文提出RMemSafe方法，通过使用冻结source model的归一化predictive entropy来动态调节source anchor的强度，以解决在source model性能严重退化时CTTA中的盲目锚定问题。当source posterior接近均匀分布时，门控机制会关闭source anchor和agreement filter，使目标函数退化为source-agnostic的fallback损失。该方法在多个corruption基准上提升了ROID+ASR的性能，并展现出更平缓的性能退化曲线。

Comparative Evaluation of Machine Learning Approaches for Minority-Class Financial Distress Prediction Under Class Imbalance Constraints

Karan Sehgal, Khawar Naveed Bhatti

cs.LG

本文比较了多种机器学习方法（如XGBoost、CatBoost、Random Forest等）在高度不平衡的金融数据中预测财务困境的效果，使用SMOTE处理不平衡问题，并借助SHAP进行可解释性分析。实验表明梯度提升方法在严重不平衡条件下对少数类敏感度更高。

AttnGen: Attention-Guided Saliency Learning for Interpretable Genomic Sequence Classification

Rayhaneh Shabani Nia, Ali Karkehabadi

cs.LG cs.AI

本文提出AttnGen框架，通过attention机制在训练中逐步抑制低贡献核苷酸位置，以提高基因组序列分类的可解释性。在demo_human_or_worm基准上，该方法在提升准确率的同时实现了更快的收敛，并表明模型主要依赖少量关键位置进行预测。

Fair and Calibrated Toxicity Detection with Robust Training and Abstention

Mokshit Surana

cs.LG

本文研究了毒性检测中的公平性问题，比较了ERM、实例级重加权和Group DRO三种训练方法在排序、校准和弃权三个轴上的表现。研究发现校准差异是隐藏的公平性违规，且训练干预和事后方法均无法同时解决所有问题。

Rethinking Layer Relevance in Large Language Models Beyond Cosine Similarity

Cristian Hinostroza et al.

cs.LG cs.CL

本文指出cosine similarity在评估大语言模型层相关性时存在缺陷，并提出使用层移除后模型精度的实际下降作为更鲁棒的度量指标，尽管计算成本较高。该工作主要关注模型可解释性与剪枝策略，与关键词列表中的概念关联较弱。

Mini-JEPA Foundation Model Fleet Enables Agentic Hydrologic Intelligence

Mashrekur Rahman

cs.LG cs.CL

本文提出了一种名为Mini-JEPA的小型传感器专用foundation model fleet，通过routing agent选择合适模型以提升水文智能。这些模型在多个遥感任务上表现良好，但方法在理论或长期问题解决上缺乏显著开创性。

Reinforcement Learning for Tool-Calling Agents in Fast Healthcare Interoperability Resources (FHIR)

Marius S. Knorr et al.

cs.LG cs.AI

本文研究了在FHIR标准下，使用Reinforcement Learning (RL) 对tool-calling agent进行后训练，以提升其在结构化医疗数据图上进行多步推理的性能。通过一个LLM Judge提供基于执行结果的奖励，该方法在FHIR-AgentBench基准上将答案正确率从50%提升至77%。

bde: A Python Package for Bayesian Deep Ensembles via MILE

Vyron Arvanitis et al.

cs.LG

bde是一个基于JAX实现的Python包，用于贝叶斯深度集成，通过Microcanonical Langevin Ensembles (MILE)方法进行高效采样和不确定性量化，主要面向表格数据。

A Systematic Evaluation of Imbalance Handling Methods in Biomedical Binary Classification

Jiandong Chen et al.

cs.LG

本文系统评估了五种不平衡处理方法（RUS, ROS, SMOTE, RW, DMO）在生物医学二分类任务中的效果，发现其有效性依赖于模型复杂度和数据模态，其中ROS和RW对复杂模型有稳定提升，而RUS和SMOTE效果较差。

Uncovering Trajectory and Topological Signatures in Multimodal Pediatric Sleep Embeddings

Scott Ye, Harlin Lee

cs.LG

本文使用PHATE和persistent homology等方法，分析了多模态masked autoencoder在儿科睡眠分析中生成的embedding的几何与拓扑结构，发现这些结构特征与临床EHR数据能互补地提升简单线性模型在二分类任务上的校准性和鲁棒性。

CSI-JEPA: Towards Foundation Representations for Ubiquitous Sensing with Minimal Supervision

Xuanhao Luo, Zhizhen Li, Yuchen Liu

cs.LG cs.NI

本文提出CSI-JEPA，一种用于Wi-Fi感知的自监督预测表示学习框架，通过预测掩码信道区域的latent features来学习可复用的时频表示，并在多个下游任务中提升了性能。该方法主要关注于减少标签依赖，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）中的核心概念关联度不高。

LLMs Know When They Know, but Do Not Act on It: A Metacognitive Harness for Test-time Scaling

Qi Cao et al.

cs.LG

本文提出了一种基于认知心理学Nelson-Narens理论的元认知框架，通过分离监控与推理过程，利用LLM在解题前后产生的feeling-of-knowing和judgment-of-learning信号来控制推理行为。实验表明该方法能在不更新参数的情况下提升固定基座模型的推理准确率。

How to Scale Mixture-of-Experts: From muP to the Maximally Scale-Stable Parameterization

Leena Chennuru Vankadara et al.

cs.LG stat.ML

本文通过分析MoE架构的三种不同缩放机制，开发了新的Dynamical Mean Field Theory (DMFT)描述，并推导了满足maximal-update (μP)条件的参数化方案。研究发现μP方案无法可靠地实现随规模单调改进或学习率迁移，进而提出了Maximally Scale-Stable Parameterization (MSSP)来解决这些问题。

Towards Fine-Grained and Verifiable Concept Bottleneck Models

Yingying Fang et al.

cs.LG cs.AI

本文提出了一种细粒度的Concept Bottleneck Model (CBM)框架，通过将每个concept锚定到局部视觉证据上，使得模型能够验证预测的concept是否对应正确的视觉区域，从而提升了模型的可解释性和可靠性。实验表明，该方法在医学影像任务中保持了与标准CBM相当的预测性能，同时显著增强了透明度。

PreFT: Prefill-only finetuning for efficient inference

Andrew Lanpouthakoun et al.

cs.LG cs.AI cs.CL eess.SY

本文提出PreFT方法，在LLM推理时仅对prefill阶段应用adapter（如LoRA和ReFT），以提升多用户个性化服务时的吞吐量。实验表明该方法在保持性能的同时显著提高了效率。

Diagnosing Training Inference Mismatch in LLM Reinforcement Learning

Tianle Zhong et al.

cs.LG cs.AI cs.CL

本文研究了LLM强化学习中训练与推理阶段的不匹配问题(TIM)，发现token级别的数值差异会导致训练崩溃，并提出了缓解方法。该工作主要关注系统实现层面的稳定性问题，与关键词中的理论方法关联较弱。

DT-Transformer: A Foundation Model for Disease Trajectory Prediction on a Real-world Health System

Yunying Zhu et al.

cs.LG cs.CL

本文提出了DT-Transformer，一个基于Transformer架构的foundation model，利用Mass General Brigham医疗系统中57.1M条结构化EHR数据训练，用于疾病轨迹预测。该模型在896种疾病类别上的next-event prediction任务中取得了中位AUC为0.871的性能，验证了在大规模真实医疗系统上训练foundation model的可行性。

AudioMosaic: Contrastive Masked Audio Representation Learning

Hanxun Huang et al.

cs.LG cs.AI cs.SD

本文提出AudioMosaic，一种基于contrastive learning的音频自监督学习方法，通过structured time-frequency masking构建正样本对，以学习更具判别性的utterance-level representations。该方法在多个音频基准测试中取得了state-of-the-art性能，并展示了良好的跨数据集和跨领域迁移能力。

Quantum Advantage in Multi Agent Reinforcement Learning

Simranjeet Singh Dahia, Claudia Szabo

cs.LG cs.MA quant-ph

本文通过实验评估了量子纠缠在多智能体强化学习（QMARL）中的协调作用，在CHSH游戏中展示了纠缠量子智能体可逼近Tsirelson极限（0.854胜率），从而明确区分了量子优势与算法巧合。在CoopNav任务中，无纠缠的QMARL相比经典MAA2C取得了约2倍的性能提升，混合配置（量子actor与经典critic）表现最佳。

Active Learners as Efficient PRP Rerankers

Jeremías Figueiredo Paschmann et al.

cs.LG cs.AI cs.CL

本文提出将Pairwise Ranking Prompting (PRP)重排序问题重新定义为从含噪成对比较中进行active learning，并引入随机方向oracle将位置偏差转化为零均值噪声，从而在有限调用预算下提升NDCG@10指标。该方法作为排序算法的即插即用替代方案，主要关注LLM排序中的效率与鲁棒性，但与关键词列表中的概念关联较弱。

Paraphrasing Attack Resilience of Various AI-Generated Text Detection Methods

Andrii Shportko, Inessa Verbitsky

cs.LG

本文研究了多种AI生成文本检测方法（如fine-tuned RoBERTa, Binoculars, 文本特征分析及其集成）在面对paraphrasing攻击时的鲁棒性，发现包含Binoculars的集成方法性能最强但攻击下损失也最大，揭示了检测性能与鲁棒性之间的权衡。

Latency-Quality Routing for Functionally Equivalent Tools in LLM Agents

Kexin Chu, Dawei Xiang, Wei Zhang

cs.LG

本文提出LQM-ContextRoute，一种用于LLM agents中功能等价工具提供者的contextual bandit路由器。其核心设计是latency-quality matching，将延迟视为服务容量而非奖励中的抵消项，并结合查询特定的质量估计和LLM-as-judge反馈进行在线自适应。实验表明该方法在web-search和retriever等场景下优于SW-UCB基线。

Artificial Intelligence-Assistant Cardiotocography: Unified Model for Signal Reconstruction, Fetal Heart Rate Analysis, and Variability Assessment

Xiaohua Wang et al.

cs.LG cs.AI

本文提出了一种基于AI的FHrCTG模型，用于胎儿心率监测中的信号重建与变异性评估。该模型通过大规模预训练和专家标注数据微调，并引入Intersection Overlapping Labels方法将心率分析转化为分类任务，在检测减速和加速方面表现出高灵敏度和特异性。

Action-Conditioned Risk Gating for Safety-Critical Control under Partial Observability

Yushen Liu et al.

cs.LG cs.AI eess.SY

本文提出了一种轻量级的risk-gated reinforcement learning方法，用于部分可观测下的安全关键控制。该方法通过构建有限历史代理状态并学习动作条件化的短期安全违规预测器，在价值学习和决策时门控中利用该风险信号，实现了乐观与保守估计之间的插值。实验在自动血糖调节和安全约束导航任务上验证了其有效性。

EnergyLens: Predictive Energy-Aware Exploration for Multi-GPU LLM Inference Optimization

Zhiye Song et al.

cs.LG

本文提出EnergyLens，一个用于多GPU大语言模型推理的能耗感知优化框架。它通过einsum接口和能耗模型，在无需详尽分析的情况下预测不同配置下的能耗，并在Llama3和Qwen3-MoE上验证了其准确性。

Not All Timesteps Matter Equally: Selective Alignment Knowledge Distillation for Spiking Neural Networks

Kai Sun et al.

cs.LG cs.AI

本文提出了一种针对Spiking Neural Networks (SNNs)的选择性对齐知识蒸馏方法SeAl-KD，通过仅对错误timestep进行校正并基于置信度重新加权时间对齐，解决了现有蒸馏方法强制所有timestep对齐的问题。实验表明该方法在静态图像和神经形态事件数据集上优于现有方法。

Architecture-Aware Explanation Auditing for Industrial Visual Inspection

Sibo Jia, Zihang Zhao, Kunrong Li

cs.LG cs.CV

本文提出了一种基于架构感知的解释审计协议，用于工业视觉检测中深度分类器的heatmap解释。通过实验发现，解释方法的忠实度受其与模型原生决策机制的结构距离限制，且忠实度排名是模型、解释器和扰动算子三者联合属性的结果。

Dynamics of the Transformer Residual Stream: Coupling Spectral Geometry to Network Topology

Jesseba Fernando, Grigori Guitchounts

cs.LG cs.AI

本文通过全Jacobian特征分解，研究了训练后LLM中残差流从非正常旋转主导层到近对称层的单调谱梯度，并揭示了累积低秩瓶颈将扰动压缩到少数有效维度。这些谱几何特性是学习而非架构固有的，且与网络的功能拓扑耦合。

TILT: Target-induced loss tilting under covariate shift

Kakei Yamamoto, Martin J. Wainwright

cs.LG stat.ML

本文提出TILT方法用于协变量偏移下的无监督域适应，通过分解源域预测器并惩罚目标域上的辅助分量，隐式实现了相对重要性加权。实验表明该方法在回归和图像分类任务上优于基线方法。

Smooth Multi-Policy Causal Effect Estimation in Longitudinal Settings

Wenxin Chen et al.

cs.LG

本文提出了一种用于纵向设置下多策略因果效应估计的PEQ-Net方法，通过策略感知的重新参数化实现联合估计，并利用kernel mean embeddings训练共享策略编码器，以降低有限样本方差。实验表明该方法在均方根误差上优于现有ICE-based方法。

MetaMoE: Diversity-Aware Proxy Selection for Privacy-Preserving Mixture-of-Experts Unification

Weisen Jiang, Shuhao Chen, Sinno Jialin Pan

cs.LG cs.AI cs.CL cs.CR

本文提出MetaMoE框架，通过多样性感知的代理选择从公开数据中选取与客户端领域相关且多样的样本，以近似私有数据分布并监督router学习，从而在隐私约束下统一独立训练的领域专家为单个MoE模型。实验表明该方法在视觉和语言任务上优于现有隐私保护MoE统一方法。

Minimal-Intervention KV Retention: A Design-Space Study and a Diversity-Penalty Survivor

Libo Sun et al.

cs.LG cs.CL

本文系统研究了小预算下KV-cache压缩的七个机制，发现所有方法均被拒绝。随后提出一种基于多样性惩罚的评分修改方法$\alpha$，在特定模型和预算组合下取得显著效果。

Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients

Matias Alvo, Daniel Russo, Yash Kanoria

cs.LG cs.AI math.OC stat.ML

本文提出了一种混合策略优化(HPO)方法，用于处理离散-连续混合动作空间的强化学习问题。该方法通过混合梯度估计器结合pathwise和score-function梯度，在保持无偏性的同时解决了高维连续动作空间中的信用分配问题。

Language-Induced Priors for Domain Adaptation

Qiyuan Chen, Jiayu Zhou, Raed Al Kontar

cs.LG stat.ML

本文提出了一种名为Language-Induced Prior (LIP)的概率框架，利用预训练Large Language Model (LLM)从目标域的专家文本描述中提取先验知识，以解决冷启动域适应中源域选择困难的问题。该框架将LIP集成到Expectation-Maximization算法中，在目标信号弱时引导源选择，并在样本积累时逐步修正，理论上证明了其估计器在正确先验下接近oracle的MSE，且渐近一致。

Matrix-Space Reinforcement Learning for Reusing Local Transition Geometry

Zuyuan Zhang, Carlee Joe-Wong, Tian Lan

cs.LG cs.AI

本文提出Matrix-Space Reinforcement Learning (MSRL)，通过正定矩阵描述子聚合轨迹片段的局部转移几何信息，实现序列决策中的组合泛化。该方法在抽象矩阵空间中支持代数组合，并证明描述子的完备性与最小充分性，但整体创新性有限且与关键词关联较弱。

Guided Diffusion Sampling for Precipitation Forecast Interventions

Ayumu Ueyama, Kazuhiko Kawamoto, Hiroshi Kera

cs.LG physics.ao-ph

本文提出了一种基于gradient的guidance框架，通过引导diffusion sampling trajectory来实现降水减少干预，并验证了其物理合理性优于adversarial perturbations。

AIM-DDI: A Model-Agnostic Multimodal Integration Module for Drug-Drug Interaction Prediction

Yerin Park, Sangseon Lee

cs.LG cs.AI

本文提出AIM-DDI，一个与模型无关的多模态融合模块，通过将异构药物信息表示为共享latent space中的token，并利用统一的fusion module建模跨模态依赖，从而提升药物相互作用预测性能。该方法在多种DDI预测架构上均有效，尤其在训练中未见药物的场景下表现突出。

Nearest-Neighbor Radii under Dependent Sampling

Yuanyuan Gao, Yilong Hou, Zhexiao Lin

cs.LG math.ST stat.ML

本文研究了在强混合依赖采样下最近邻半径的几何性质，建立了多项式混合条件下的几乎必然收敛性和几何混合条件下的非渐近矩界，这些结果依赖于局部内在维度而非环境维度，并通过实验验证了依赖采样下最近邻几何仍具有信息性。

Exemplar Partitioning for Mechanistic Interpretability

Jessica Rumbelow

cs.LG

本文提出了一种无监督方法Exemplar Partitioning (EP)，通过Voronoi划分构建大语言模型激活空间的解释性特征字典，其使用的token数比稀疏自编码器少约$10^3$倍。该方法在Gemma-2-2B模型上展示了可解释性和因果干预能力，但与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Distributionally Robust Multi-Task Reinforcement Learning via Adaptive Task Sampling

Nicholas E. Corrado, Wenyuan Huang, Josiah P. Hanna

cs.LG

本文提出了一种名为DRATS的自适应任务采样算法，通过将多任务强化学习形式化为一个可行性问题，并最小化最差情况下的回报差距，来解决任务间数据分配不平衡的问题。该方法在MetaWorld基准测试中提升了数据效率和最差任务性能。

RQ-MoE: Residual Quantization via Mixture of Experts for Efficient Input-Dependent Vector Compression

Zhengjia Zhong et al.

cs.LG cs.AI

本文提出RQ-MoE框架，通过两级Mixture of Experts和双流量化实现输入相关的codebook自适应，在向量压缩中达到与现有方法相当的重建和检索性能，同时解码速度提升6-14倍。该方法将标准Residual Quantization和QINCo作为其特例，但主要贡献在于工程效率而非理论突破。

MoRe: Modular Representations for Principled Continual Representation Learning on Squantial Data

Jiaqi Sun et al.

cs.LG

本文提出MoRe框架，通过将知识分解为具有可识别性保证的基础和特定模块，在序列数据上实现模块化表示学习，以解决持续学习中的表示干扰问题。实验在合成基准和真实LLM激活上验证了其层次结构和塑性-稳定性权衡的改进。

LoMETab: Beyond Rank-1 Ensembles for Tabular Deep Learning

Changryeol Choi et al.

cs.LG cs.AI

LoMETab将隐式集成方法从rank-1推广到rank-$r$，通过参数化$W_k = W \odot (1 + A_kB_k^\top)$实现，并证明$r \ge 2$时严格扩大了假设空间。实验表明该方法能通过调整rank $r$和初始化尺度$\sigma_{\mathrm{init}}$控制集成多样性，但整体贡献偏向工程改进而非理论突破。

Turning Stale Gradients into Stable Gradients: Coherent Coordinate Descent with Implicit Landscape Smoothing for Lightweight Zeroth-Order Optimization

Chen Liang et al.

cs.LG cs.AI

本文提出Coherent Coordinate Descent (CoCD)，一种确定性的零阶优化方法，通过利用历史梯度（stale gradients）实现每步$O(1)$的查询复杂度，并证明较大步长可隐式平滑优化景观。实验表明其在轻量级场景下优于随机方法，但方法本身与关键词列表中的概念关联较弱。

Optimal Pattern Detection Tree for Symbolic Rule-Based Classification

Young-Chae Hong, Yangho Chen

cs.LG cs.AI math.OC

本文提出了一种基于混合整数规划的最优模式检测树(OPDT)模型，用于符号规则分类中的模式发现，并引入分支结构约束(BSC)框架以编码领域知识。实验表明该方法能在中等规模数据集上以合理运行时间发现具有最优性保证的模式。

Data-Augmented Game Starts for Accelerating Self-Play Exploration in Imperfect Information Games

JB Lanier et al.

cs.LG cs.AI cs.GT cs.MA

本文提出了一种名为Data-Augmented Game Starts (DAGS)的多智能体起始状态采样策略，通过在离线数据中的中间状态初始化强化学习数据收集，来加速不完全信息博弈中正则化策略梯度方法的在线探索。实验表明，在固定计算预算下，DAGS能降低博弈的可利用性，但可能导致有偏均衡，作者通过多任务观测标志对此进行了缓解。

NodeSynth: Socially Aligned Synthetic Data for AI Evaluation

Qazi Mamunur Rashid et al.

cs.LG cs.CL

本文提出NodeSynth方法，利用基于真实世界证据的fine-tuned taxonomy generator (TaG)生成具有社会相关性的合成数据，用于评估AI模型在敏感领域的社会技术偏差。实验表明该方法能显著提高主流LLM的failure rates，但该工作主要聚焦于AI评估的社会对齐性，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）无直接关联。

Watch your neighbors: Training statistically accurate chaotic systems with local phase space information

Joon-Hyuk Ko, Andrus Giraldo, Deok-Sun Lee

cs.LG math.DS

本文提出了一种利用局部相空间信息训练混沌系统代理模型的新框架，通过最小化覆盖集在代理和真实动力学下的推前分布之间的最大均值差异，同时提升了Jacobian精度和长期统计特性。该方法在Jacobian准确性上显著优于现有方法，并在统计精度上与最先进方法保持竞争力。

GeoViSTA: Geospatial Vision-Tabular Transformer for Multimodal Environment Representation

Yuhao Liu et al.

cs.LG cs.CV

GeoViSTA提出了一种视觉-表格双模态Transformer架构，通过双向cross-attention机制融合遥感图像与结构化社会经济数据，并采用自监督联合掩码自编码目标进行预训练。该方法在疾病死亡率与火灾风险预测等下游任务中提升了线性探测性能，但未涉及code、spectral、Muon或agent等关键词。

What if Tomorrow is the World Cup Final? Counterfactual Time Series Forecasting with Textual Conditions

Shuqi Gu et al.

cs.LG

本文提出了一个反事实时间序列预测任务，通过文本条件（textual conditions）来预测未来序列，并设计了一个包含事实与反事实场景的评估框架。该方法引入文本归因机制（text-attribution mechanism）区分可变与不可变因素，以提升在复杂随机文本条件下的预测准确性。

FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale

Runyuan He et al.

cs.LG

本文提出FrontierSmith系统，通过修改现有封闭式编程问题的目标、限制输出和泛化输入，自动合成开放式编码问题，并利用定量发散度指标筛选能激发多样化解法的问题。实验表明，在合成数据上训练可提升LLM在开放式编码基准上的性能，但该方法主要关注数据生成而非关键词中的核心概念。

When Answers Stray from Questions: Hallucination Detection via Question-Answer Orthogonal Decomposition

Siyang Yao, Erhu Feng, Yubin Xia

cs.LG cs.AI cs.CL

本文提出QAOD框架，通过将answer representation投影到与question正交的方向来检测LLM中的hallucination，并设计了两种probing策略以平衡in-domain检测与cross-domain泛化。该方法在多个数据集上取得了较好的AUROC结果，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

LiSA: Lifelong Safety Adaptation via Conservative Policy Induction

Minbeom Kim et al.

cs.LG cs.CL cs.CR

本文提出LiSA框架，通过结构化记忆将偶发的安全失败转化为可复用的策略抽象，并引入冲突感知规则和置信度门控机制，以在稀疏反馈下提升AI agent的防护能力。该方法在多个基准测试中优于基线，但未涉及code、spectral、Muon或pretrain等关键词。

Focused PU learning from imbalanced data

Elias Zavitsanos, Georgios Paliouras

cs.LG

本文提出了一种针对高度不平衡数据集的PU learning方法，通过聚焦经验风险估计器训练binary classifiers，在SCAR和SAR两种标记机制下取得了先进性能。该方法主要应用于金融误报检测等实际场景。

A Novel Schur-Decomposition-Based Weight Projection Method for Stable State-Space Neural-Network Architectures

Sergio Vanegas, Lasse Lensu, Fredy Ruiz

cs.LG eess.SY

本文提出了一种基于Schur分解的权重投影方法，用于确保离散时间状态空间层中状态矩阵的渐近稳定性，并给出了预因子化变体。该方法通过将状态矩阵的实Schur分解中的拟三角因子投影到最近的稳定矩阵，在保证稳定性的同时减少了过参数化。

ROAD: Adaptive Data Mixing for Offline-to-Online Reinforcement Learning via Bi-Level Optimization

Letian Yang et al.

cs.LG cs.AI

本文提出ROAD框架，通过将数据选择问题建模为bi-level optimization，并利用multi-armed bandit机制近似求解，以自适应调整offline-to-online RL中的数据混合策略，从而提升稳定性和渐近性能。该方法在多个数据集上优于现有方法，但未涉及code、spectral或Muon等关键词。

Enjoy Your Layer Normalization with the Computational Efficiency of RMSNorm

Yuxin Guo et al.

cs.LG

本文提出一个框架，用于判断任意DNN中的Layer Normalization (LN) 是否可被RMSNorm替换而不改变模型函数。通过将LN的centering操作折叠到上游线性层，该方法实现了2%到12%的推理加速，但方法本身并非开创性突破，且与关键词列表关联较弱。

Exploring Geographic Relative Space in Large Language Models through Activation Patching

Stef De Sabbata et al.

cs.LG

本文使用activation patching这一机制可解释性工具，初步探索了Large Language Models如何处理相对地理空间信息，但方法本身并非开创性，且与关键词列表关联较弱。

RxEval: A Prescription-Level Benchmark for Evaluating LLM Medication Recommendation

Shuhao Chen et al.

cs.LG cs.AI

RxEval是一个用于评估LLM在住院用药推荐任务中能力的benchmark，通过多选题形式考察模型对患者临床轨迹的理解。该工作主要关注评估框架设计，与关键词中的code、context、attention等概念关联较弱。

Discovering Physical Directions in Weight Space: Composing Neural PDE Experts

Pengkai Wang et al.

cs.LG

本文研究了神经算子（neural operator）在权重空间中微调后形成的物理方向，提出了一种后处理方法CCM（Calibration-Conditioned Merge），通过将端点专家（endpoint experts）的更新分解为共享适应和物理参数方向，实现了对PDE（partial differential equation）不同物理状态的无训练迁移。该方法在反应-扩散系统和Navier-Stokes方程上验证了有效性，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Multi-Dimensional Model Integrity and Responsibility Assessment Index and Scoring Framework

Phuc Truong Loc Nguyen et al.

cs.LG

本文提出了MIRAI框架，用于在表格数据领域统一评估模型的可解释性、公平性、鲁棒性、隐私性和可持续性，并聚合为单一评分。实验表明，高预测性能并不必然对应更好的整体模型完整性。

SeesawNet: Towards Non-stationary Time Series Forecasting with Balanced Modeling of Common and Specific Dependencies

Hao Li et al.

cs.LG

本文提出SeesawNet，通过自适应平稳-非平稳注意力机制(ASNA)在归一化序列和原始序列间动态平衡公共依赖与实例特定依赖的建模，用于非平稳多元时间序列预测。实验表明该方法在多个基准上优于现有技术。

Efficient Multi-objective Prompt Optimization via Pure-exploration Bandits

Donghao Li et al.

cs.LG cs.AI

本文研究了多目标prompt选择问题，将其建模为纯探索bandit框架，并提出了适用于Pareto prompt集恢复和最佳可行prompt识别的算法，实验表明该方法优于基线。

Woodelf++: A Fast and Unified Partial Dependence Plot Algorithm for Decision Tree Ensembles

Ron Wettenstein, Alexander Nadel, Udi Boker

cs.LG

本文提出Woodelf++算法，用于在decision tree ensembles上高效计算Partial Dependence Plots (PDPs)、Joint-PDPs及Any-Order-PDIVs等可解释性工具。该方法通过推导pseudo-Boolean function上的度量，实现了统一框架下的精确与近似计算，并在复杂度上显著优于现有方法。

Angel or Demon: Investigating the Plasticity Interventions' Impact on Backdoor Threats in Deep Reinforcement Learning

Oubo Ma et al.

cs.LG cs.AI cs.CR

本文研究了深度强化学习(DRL)中plasticity interventions（可塑性干预）对后门攻击威胁的影响，通过大量实验发现大多数干预措施能缓解后门威胁，仅SAM（Sharpness-Aware Minimization）会加剧威胁。文章从病理分析中提出了SCC概念框架和异常损失景观锐度作为后门检测指标。

Silent Collapse in Recursive Learning Systems

Zhipeng Zhang

cs.LG

本文研究了递归学习系统中模型内部分布逐渐退化但常规指标稳定的“静默崩溃”现象，并提出了基于轨迹前兆的MTR框架进行早期预警与主动预防。该框架通过监测anchor entropy、representation drift和tail coverage等信号，在不依赖原始数据的情况下调节学习强度。

Fast Rates for Inverse Reinforcement Learning

Andreas Schlaginhaufen, Maryam Kamgarpour

cs.LG cs.AI stat.ML

本文研究了熵正则化Min-Max逆强化学习在线性reward类下的统计性质，证明了MLE与Min-Max-IRL在总体水平上的等价性，并给出了轨迹级KL散度和参数误差的快速收敛率$\mathcal{O}(n^{-1})$。该工作主要关注逆强化学习的理论分析，与关键词中的agent、context等概念关联较弱。

An Amortized Efficiency Threshold for Comparing Neural and Heuristic Solvers in Combinatorial Optimization

Sohaib Afifi

cs.LG cs.AI cs.NE

本文提出了Amortized Efficiency Threshold (AET)框架，用于比较neural solver与heuristic solver在组合优化中的总能耗或碳排放。该框架通过考虑训练成本与部署实例数量的摊销关系，证明了当部署量超过阈值时，neural solver在每实例能耗上可能更优。

Action-Inspired Generative Models

Eshwar R. A., Debnath Pal

cs.LG cs.AI cs.CV

本文提出了一种名为Action-Inspired Generative Models (AGMs)的双网络生成框架，通过引入一个轻量级可学习的标量势函数$V_\phi$来在线评分bridge样本，并利用重要性权重调节drift目标，从而改进bridge-matching方法。该方法在推理时不增加额外开销，能提升生成质量，但与我提供的关键词列表关联度较低。

DRL-STAF: A Deep Reinforcement Learning Framework for State-Aware Forecasting of Complex Multivariate Hidden Markov Processes

Manrui Jiang et al.

cs.LG stat.AP

本文提出DRL-STAF框架，结合深度神经网络与强化学习来预测复杂多变量隐马尔可夫过程的观测值并估计隐藏状态。该方法在多数实验中优于传统HMM变体、纯深度学习模型及现有混合模型。

Unbiased and Second-Order-Free Training for High-Dimensional PDEs

Jaemin Seo, Surin Lee, Jae Yong Lee

cs.LG math.NA math.OC

本文分析了Euler-Maruyama时间离散化在基于BSDE的深度学习方法中引入的偏差，并提出了一种无偏且无需二阶导数的训练框架，以保持BSDE方法的计算优势。

Slower Generalization, Faster Memorization: A Sweet Spot in Algorithmic Learning

Shin So, Kyelim Lee, Albert No

cs.LG

本文研究了结构化输出任务中数据集大小对Transformer泛化速度的影响，发现存在一个最优中间数据集大小能最快达到高验证准确率，而更大数据集反而需要更多梯度更新。该工作区分了泛化开始所需的数据量与优化收敛所需的数据量，但与我提供的关键词列表关联较弱。

AQKA: Active Quantum Kernel Acquisition Under a Shot Budget

Jian Xu et al.

cs.LG

本文研究了在有限测量预算下量子核矩阵的主动获取问题，提出了AQKA方法，通过非均匀分配测量次数来优化核岭回归（KRR）和支持向量机（SVM）的性能。该方法在预算受限时显著优于均匀分配，并在真实量子硬件上验证了其有效性。

Spontaneous symmetry breaking and Goldstone modes for deep information propagation

Nabil Iqbal et al.

cs.LG cond-mat.stat-mech cs.AI

本文研究了深度神经网络中层间连续对称性自发破缺产生的Goldstone模式，发现其能实现跨深度和循环迭代的相干信号传播，从而改善网络的可训练性和长序列建模性能。

ReMIA: a Powerful and Efficient Alternative to Membership Inference Attacks against Synthetic Data Generators

Davide Scassola, Andrea Coser, Sebastiano Saccani

cs.LG

本文提出ReMIA (Relative Membership Inference Attack)，一种针对合成数据生成器(SDG)的成员推理攻击(MIA)替代方案。该方法仅需两次SDG训练运行，通过比较两个合成数据集来评估隐私风险，在保持与最先进MIA相当敏感性的同时大幅提升了实用性。

The Rate-Distortion-Polysemanticity Tradeoff in SAEs

Tommaso Mencattini, Francesco Montagna, Francesco Locatello

cs.LG

本文研究了Sparse Autoencoders (SAEs)中保真度、效率与可解释性之间的权衡，提出了Rate-Distortion-Polysemanticity tradeoff，并理论及实验表明单语义性必然以增加rate和distortion为代价。该工作主要聚焦于数据分布对polysemanticity的影响，与关键词关联度较低。

NeuroAtlas: Benchmarking Foundation Models for Clinical EEG and Brain-Computer Interfaces

Konstantinos Kontras et al.

cs.LG cs.AI

NeuroAtlas是一个针对临床EEG和脑机接口的基础模型基准测试，它整合了42个数据集和26万小时的数据。研究发现，EEG专用基础模型并未一致优于通用时间序列基础模型，且标准机器学习指标不足以评估临床效用。

TAPIOCA: Why Task- Aware Pruning Improves OOD model Capability

Krish Sharma et al.

cs.LG cs.AI

本文研究了任务感知剪枝（task-aware layer pruning）对模型性能的影响，发现其在分布内（ID）数据上无益，但能持续提升分布外（OOD）数据的准确性。作者通过几何解释指出，OOD输入会扭曲任务适应的几何结构，而剪枝通过移除放大这种扭曲的层来重新对齐表示。

Selective Safety Steering via Value-Filtered Decoding

Bat-Sheva Einbinder et al.

cs.LG

本文提出了一种名为Value-Filtered Decoding的test-time steering方法，通过基于value-based safety criterion的token过滤来减少不必要的干预，同时提升不安全响应的安全性。该方法使用单个threshold hyperparameter控制false intervention的概率，并在多个数据集上展示了比现有baseline更好的safety、helpfulness和base model相似度之间的trade-off。

Cognitive-Uncertainty Guided Knowledge Distillation for Accurate Classification of Student Misconceptions

Qirui Liu et al.

cs.LG cs.AI

本文提出了一种基于认知不确定性的两阶段知识蒸馏框架，用于解决学生错误概念分类中的数据稀疏和标注噪声问题，通过筛选高价值样本并设计难度自适应机制来提升小模型的分类性能。

Crys-JEPA: Accelerating Crystal Discovery via Embedding Screening and Generative Refinement

Nian Liu et al.

cs.LG

本文提出Crys-JEPA，一种用于晶体的联合嵌入预测架构，通过学习能量感知的latent space来评估晶体稳定性。该方法通过嵌入比较替代昂贵的能量计算，并构建筛选-精炼流程来改进生成模型，在MP-20和Alex-MP-20数据集上提升了V.S.U.N指标。

Compositional Sparsity as an Inductive Bias for Neural Architecture Design

Hongyu Lin et al.

cs.LG cs.AI

本文结合Information Filtering Networks (IFNs)与Homological Neural Networks (HNNs)，通过提取稀疏依赖结构并映射为固定连接的稀疏神经图，验证了组合稀疏性作为神经网络架构设计归纳偏见的有效性。实验表明，HNNs在参数数量远少于传统DNNs的情况下，在合成与真实数据集上均能匹配或超越其性能。

Composable Crystals: Controllable Materials Discovery via Concept Learning

Nian Liu et al.

cs.LG

本文提出了一种基于概念学习的可组合晶体生成框架，通过向量量化变分自编码器自动发现可重用的晶体概念，并利用这些概念进行可控的晶体生成。实验表明该方法在保持有效性和稳定性的同时显著提升了生成晶体的新颖性。

Beyond What to Select: A Plug-and-play Oscillatory Data-Volume Scheduling for Efficient Model Training

Suorong Yang et al.

cs.LG cs.AI

本文提出了一种名为PODS的即插即用振荡数据量调度框架，用于高效模型训练。与现有聚焦于“选择什么”样本的静态方法不同，PODS通过动态调整每个训练阶段的数据选择比例，在低比例正则化阶段和高比例恢复阶段之间交替，以平衡正则化效果与优化稳定性。实验表明，该方法能显著提升训练效率，例如在ImageNet-1k上减少50%训练成本并提升准确率。

Peng's Q($λ$) for Conservative Value Estimation in Offline Reinforcement Learning

Byeongchan Kim, Min-hwan Oh

cs.LG

本文提出了一种无模型的离线multi-step RL算法CPQL，通过将Peng's Q($\lambda$)算子用于保守值估计，在离线场景下隐式引入行为正则化。实验表明该方法在D4RL基准上优于现有单步基线，并可用于离线到在线学习的微调阶段。

Understanding Imbalanced Forgetting in Rehearsal-Based Class-Incremental Learning

Alberto Tamajo, Srinandan Dasmahapatra, Rahman Attar

cs.LG cs.CV

本文研究了基于rehearsal的class-incremental learning中出现的imbalanced forgetting现象，通过分析last-layer coefficients来预测不同past classes的遗忘程度。

GFMate: Empowering Graph Foundation Models with Test-time Prompt Tuning

Yan Jiang, Ruihong Qiu, Zi Huang

cs.LG

本文提出GFMate方法，通过引入与预训练无关的质心和层提示，在测试阶段对Graph Foundation Models进行调优，并利用无标注目标域数据实现互补学习。该方法旨在解决现有图提示方法受限于特定源域和预训练策略的问题。

ToMAToMP: Robust and Multi-Parameter Topological Clustering

Ludo Andrianirina, Mathieu Carrière

cs.LG math.AT

本文提出了ToMAToMP算法，将multi-parameter persistent homology中的MMA decomposition应用于topological clustering，使其能同时处理多个函数并具备鲁棒性保证。该方法改进了经典ToMATo算法对图超参数和异常值的敏感性，并通过实验展示了优于现有baseline的聚类效果。

GenAI for Energy-Efficient and Interference-Aware Compressed Sensing of GNSS Signals on a Google Edge TPU

Thorben Wegner et al.

cs.LG eess.SP

本文提出了一种基于生成式AI（GenAI）的变分自编码器（VAE）方法，用于在Google Edge TPU上对GNSS信号进行压缩感知和干扰分类，实现了超过42倍的压缩率与约0.915的F2分数。该方法通过8-bit量化适配边缘设备，但主要聚焦于信号处理与硬件部署，与关键词中的code, context, spectral, Muon, pretrain, agent, attention关联较弱。

In-Context Learning for Data-Driven Censored Inventory Control

Sohom Mukherjee et al.

cs.LG math.OC stat.ML

本文研究了决策依赖删失下的库存控制问题，提出了一种名为ICGPS的上下文生成式后验采样方法，该方法使用离线元训练的生成模型通过上下文自回归生成进行在线部署。理论上证明了其贝叶斯遗憾受限于理想核的TS基准遗憾加上一个与完成度失配平方根相关的惩罚项，并在重复报童问题中实现了次线性贝叶斯遗憾。实验表明该方法在匹配正确设定的TS的同时，对先验失配和分布偏移具有鲁棒性。

GPart: End-to-End Isometric Fine-Tuning via Global Parameter Partitioning

Paolo Mandica et al.

cs.LG cs.AI

本文提出GPart方法，通过一个等距划分矩阵将低维可训练向量直接映射到模型全权重空间，完全移除低秩瓶颈，实现端到端等距微调。该方法在自然语言理解、计算机视觉和数学推理任务上达到与现有PEFT方法相当或更优的性能，但与我提供的关键词列表关联度较低。

XFP: Quality-Targeted Adaptive Codebook Quantization with Sparse Outlier Separation for LLM Inference

Thomas Witt

cs.LG cs.AI

本文提出了一种名为XFP的动态权重量化方法，用于LLM推理，通过自动确定codebook大小和outlier预算，在无需Hessian或校准数据的情况下实现质量目标。该方法将权重矩阵分解为稀疏fp16 outlier残差和密集的子字节索引张量，并设计了两种存储模式，在特定硬件上取得了较高的推理速度和准确率。

Exploitation of Hidden Context in Dynamic Movement Forecasting: A Neural Network Journey from Recurrent to Graph Neural Networks and General Purpose Transformers

Lukas Schelenz et al.

cs.LG cs.AI eess.SP

本文评估了多种ML模型（包括LSTM, GNN, Transformer）在NBA球员动态运动预测中的表现，发现混合LSTM结合上下文信息在最终位移误差上最优（1.51m），但指出没有单一架构在所有指标上占优，需根据任务选择模型。

REALM: Retrospective Encoder Alignment for LFP Modeling

Peicheng Wu et al.

cs.LG cs.AI q-bio.NC

本文提出REALM框架，通过将预训练的双向Mamba-2模型蒸馏为因果学生模型，实现基于局部场电位(LFP)的实时行为解码。该方法在参数减少2倍、训练时间减少10倍的同时，提升了解码性能。

Fast Adversarial Attacks with Gradient Prediction

Kamil Ciosek et al.

cs.LG

本文提出了一种通过轻量级线性回归从forward-pass隐藏状态预测输入梯度来生成adversarial examples的方法，避免了backward pass的计算开销。该方法在Neural Tangent Kernel regime下是精确的，并在实际模型中恢复了FGSM的大部分攻击性能，同时显著提升了吞吐量。

AIMing for Standardised Explainability Evaluation in GNNs: A Framework and Case Study on Graph Kernel Networks

Magdalena Proszewska, N. Siddharth

cs.LG

本文提出了AIM框架，用于标准化评估图神经网络（GNNs）的可解释性，通过测量准确性、实例级和模型级解释来比较不同模型。该框架以图核网络（GKNs）为案例，展示了如何利用AIM的洞察改进模型（xGKN），但未直接涉及关键词中的核心概念。

Critic-Driven Voronoi-Quantization for Distilling Deep RL Policies to Explainable Models

Senne Deproost, Denis Steckelmacher, Ann Nowé

cs.LG cs.AI

本文提出了一种名为Critic-Driven Voronoi State Partitioning的模型无关方法，通过利用critic value network将黑盒控制策略划分为多个区域，并在每个区域中用简单的线性模型进行优化，从而在保持可解释性的同时逼近原策略的性能。该方法使用Voronoi quantizer进行状态空间划分，并通过最近邻查找为每个点分配线性函数。

TILBench: A Systematic Benchmark for Tabular Imbalanced Learning Across Data Regimes

Ruizhe Liu, Jiaqi Luo

cs.LG

本文提出了TILBench，一个用于表格数据不平衡学习的系统化benchmark，评估了超过40种算法在57个数据集上的表现，发现没有单一方法在所有场景下都最优，其效果依赖于数据特征和计算约束。

A Mutual Information Lower Bound for Multimodal Regression Active Learning

Leonardo Ferreira Guilhoto, Akshat Kaushal, Paris Perdikaris

cs.LG cs.CE cs.IT stat.ML

本文提出了一种针对多模态回归主动学习的互信息下界(MI-LB)采集函数，通过Two-Index框架分离认知不确定性与偶然不确定性，并证明该互信息随数据增长而消失。实验表明MI-LB在多模态系统基准测试中表现一致优于几何和Fisher基线方法。

Learning with Shallow Neural Networks on Cluster-Structured Features

Elisabetta Cornacchia, Laurent Massoulié

cs.LG

本文研究了浅层神经网络在聚类结构特征上的学习问题，通过引入一个可处理模型分析了输入特征的空间相关性如何影响梯度下降的样本复杂度。结果表明，在特定可识别性假设下，样本复杂度仅与隐变量数量相关，且在高信噪比时与输入维度无关。

A Hardware-Aware, Per-Layer Methodology for Post-Training Quantization of Large Language Models

Earl Killian

cs.LG cs.AR

本文提出了一种名为Scaled Outer Product (SOP)的硬件感知逐层后训练量化方法，用于大型语言模型权重，通过逐层搜索固定和动态codebook对、激活加权余弦选择等技术，在4.5-6 bits per weight范围内实现近无损保真度。该方法在多个开源模型上验证了其有效性，并提出了新的硬件高效LUT输出格式HIF。

Slot-MPC: Goal-Conditioned Model Predictive Control with Object-Centric Representations

Jonathan Spieler, Angel Villar-Corrales, Sven Behnke

cs.LG cs.AI cs.RO

本文提出Slot-MPC框架，利用object-centric representations进行Model Predictive Control，通过可微分的world model实现gradient-based action planning，在模拟机器人操作任务中提升了规划效率与泛化能力。

Octopus: History-Free Gradient Orthogonalization for Continual Learning in Multimodal Large Language Models

Yuehao Liu et al.

cs.LG cs.CV

本文提出Octopus框架，通过无历史数据的梯度正交化（HiFGO）实现多模态大语言模型的持续学习，采用两阶段微调策略平衡可塑性与稳定性。实验在UCIT上取得优于现有方法的性能。

Not All Symbols Are Equal: Importance-Aware Constellation Design for Semantic Communication

Albert Shaju, Christo Kurisummoottil Thomas, Mayukh Roy Chowdhury

cs.LG cs.AI eess.SP

本文提出了一种联合语义-物理层框架，通过向量量化变分自编码器提取离散潜在概念，并利用深度强化学习代理根据信道条件动态选择传输子集。在物理层，设计了一种语义感知的M-QAM星座，根据语义重要性分配符号位置，并引入语义符号脆弱性指标和语义保护概率来量化关键符号的暴露程度。实验表明该方法在不同调制阶数下实现了接近100%的语义保护概率，但整体方法更侧重于语义通信中的星座设计，与关键词中的agent有一定关联但契合度有限。

Efficient Online Conformal Selection with Limited Feedback

Sreenivas Gollapudi et al.

cs.LG

本文研究了在有限反馈（bandit feedback）下进行在线conformal selection的问题，证明了Adaptive Conformal Inference (ACI)更新规则在对抗性序列下能保证平均有效性，并在独立同分布输入下实现次线性效率遗憾。该工作通过Lyapunov函数统一处理了bandit和semi-bandit反馈模型，为有限反馈下的高效在线学习与无分布不确定性量化之间建立了新的理论联系。

InfoSFT: Learn More and Forget Less with Information-Aware Token Weighting

Mahdi Sabbaghi et al.

cs.LG stat.ML

本文提出InfoSFT，一种用于监督微调(SFT)的信息感知token加权方案，通过聚焦于中等置信度的token来平衡学习新行为与遗忘旧能力。该方法在数学、代码等任务上改进了泛化性能，但主要贡献在于微调阶段而非预训练或谱方法等关键词领域。

Distance-Matrix Wasserstein Statistics for Scalable Gromov--Wasserstein Learning

Ao Xu, Tieru Wu

cs.LG

本文提出Distance-Matrix Wasserstein (DMW)统计量，通过采样点对并传输其距离矩阵分布来近似Gromov-Wasserstein距离，证明了DMW是GW的下界并给出了有限样本误差界。该方法主要关注计算可扩展性，与关键词中的code、context、spectral等概念关联较弱。

Second-Order Actor-Critic Methods for Discounted MDPs via Policy Hessian Decomposition

Sanjeev Manivannan, Shuban V

cs.LG cs.AI

本文针对折扣奖励强化学习中的actor-critic方法，提出了一种利用policy Hessian分解的二阶优化算法。该方法通过Hessian-vector product (HVP)计算实现曲率感知更新，并在双时间尺度框架下证明了近似的合理性。

DeepTokenEEG Enhancing Mild Cognitive Impairment and Alzheimers Classification via Tokenized EEG Features

Thinh Nguyen-Quang et al.

cs.LG

本文提出了一种名为DeepTokenEEG的轻量级模型，用于基于EEG信号的阿尔茨海默病分类，通过空间和时间tokenizer提取频域和时域特征，在特定频段上达到了100%的准确率。该方法主要关注EEG信号分类任务，与关键词中的code、context、spectral等概念关联较弱。

Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance

Kai Yan, Alexander G. Schwing, Yu-Xiong Wang

cs.LG cs.AI cs.CL

本文提出FEST算法，通过随机选取少量demonstrations（128个）引导RLVR训练，在数学和代码任务上提升样本效率。该方法结合supervised signal、on-policy signal和decaying weights来防止过拟合，在多个benchmark上以远少于baseline的SFT数据量达到相近性能。

Generalized Priority-Aware Shapley Value

Kiljae Lee et al.

cs.LG cs.AI

本文提出了广义优先级感知Shapley值(GPASV)，一种定义在任意有向加权优先级图上的随机序值，允许成对边惩罚而非禁止序违规，并覆盖了经典模型作为边界情况。通过公理化刻画和计算方法，该工作将优先级感知估值扩展到了更一般的场景。

TopoPrimer: The Missing Topological Context in Forecasting Models

Zara Zetlin, Kayhan Moharreri, Maria Safi

cs.LG

本文提出了TopoPrimer框架，通过persistent homology和spectral sheaf coordinates提取序列集合的全局拓扑结构，并将其作为显式输入注入任意预测模型。该方法在Chronos和TimesFM等基准上提升了预测精度，尤其在冷启动和季节性峰值场景下表现稳健。

Separating Intrinsic Ambiguity from Estimation Uncertainty in Deep Generative Models for Linear Inverse Problems

Yuxin Guo, Dongrui Deng, Pulkit Grover

cs.LG

本文提出了一种将后验不确定性分解为内在模糊性和估计不确定性的结构分解方法，用于线性逆问题中的深度生成模型。该方法通过级联公式使内在模糊性可用于校准分析，并在高斯示例、加速MRI和EEG源成像中进行了验证。

An Interpretable Latency Model for Speculative Decoding in LLM Serving

Linghao Kong et al.

cs.LG cs.PF

本文为LLM服务中的speculative decoding（投机解码）建立了一个可解释的延迟模型，利用Little's Law从请求率推断有效batch size，并分解了prefill、drafting和verification阶段的负载相关与无关的延迟成分。该模型解释了在服务负载增加时加速比为何会下降，并分析了draft长度、接受率等因素对延迟的影响。

DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models

Quanhao Li et al.

cs.LG cs.CV

本文提出DiffusionOPD，一种基于Online Policy Distillation的多任务训练范式，用于扩散模型。它将单任务探索与多任务整合解耦，并推导了连续状态Markov过程下的闭式KL目标，在训练效率和最终性能上超越了多奖励RL和级联RL基线。

Croissant Baker: Metadata Generation for Discoverable, Governable, and Reusable ML Datasets

Rafi Al Attrach et al.

cs.LG cs.DB cs.DL cs.IR

本文介绍了Croissant Baker，一个用于生成机器学习数据集元数据的本地优先命令行工具。该工具通过模块化处理器注册表直接从数据集目录生成Croissant格式元数据，并在超过140个数据集上进行了评估。

Novel Dynamic Batch-Sensitive Adam Optimiser for Vehicular Accident Injury Severity Prediction

Daniel Asare Kyei et al.

cs.LG cs.AI

本文提出了一种名为Dynamic Batch-Sensitive Adam (DBS-Adam)的优化器，通过基于梯度范数和batch loss的指数移动平均动态调整学习率，以改善不平衡序列数据上的训练稳定性与收敛速度。该优化器被集成到Bi-Directional LSTM网络中用于交通事故伤害严重程度预测，实验表明其在精度等指标上优于AMSGrad、AdamW等现有优化器。

Proposal and study of statistical features for string similarity computation and classification

E.O. Rodrigues et al.

cs.LG cs.CL cs.IT

本文提出了将视觉计算中的co-occurrence matrix (COM)和run-length matrix (RLM)特征改编用于字符串相似度计算，这些统计特征不依赖语言信息。实验表明，在合成数据集和真实文本抄袭数据集上，RLM和COM特征优于最长公共子序列、编辑距离等传统统计方法。

Learning from Language Feedback via Variational Policy Distillation

Yang Li et al.

cs.LG

本文提出了一种名为Variational Policy Distillation (VPD)的框架，将语言反馈学习形式化为变分期望最大化问题，通过协同进化教师和学生策略来克服被动蒸馏的瓶颈。该方法在科学推理和代码生成任务上优于标准RLVR和现有自蒸馏基线。

Natural Synthesis: Outperforming Reactive Synthesis Tools with Large Reasoning Models

Frederik Schmitt et al.

cs.LG

本文提出了一种神经符号方法，将大型推理模型与model checker结合，通过符号反馈迭代修复Verilog实现，以解决reactive synthesis问题。该方法在基准测试上优于专用工具，并引入了自然语言规范数据集以简化规范编写。

Causal Foundation Models with Continuous Treatments

Christopher Stith et al.

cs.LG

本文提出了首个针对连续treatment setting的causal foundation model，通过设计新的数据生成过程先验并训练transformer来重建individual treatment-response curves，实现了无需微调的跨任务因果效应预测。

Training ML Models with Predictable Failures

Will Schwarzer, Scott Niekum

cs.LG

本文研究了ML模型在部署时失败率的预测问题，分析了Jones等人(2025)估计器的误差分解，发现其存在高估偏差，但在评估集遗漏罕见高风险模式时会导致低估。作者提出了一种微调目标（forecastability loss）来缓解这一问题，并在语言模型密码游戏和RL网格世界实验中验证了其有效性。

Forgetting That Sticks: Quantization-Permanent Unlearning via Circuit Attribution

Saisab Sadhu, Pratinav Seth, Vinay Kumar Sankarapu

cs.LG cs.CL cs.ET

本文研究了量化后遗忘失效的问题，发现梯度方法在压缩后遗忘效果消失，而能抵抗压缩的方法几乎不改变模型。作者提出MANSU方法，通过因果电路归因和零空间投影来解决这一矛盾。

Widening the Gap: Exploiting LLM Quantization via Outlier Injection

Xiaohua Zhan et al.

cs.LG cs.AI

本文研究了LLM量化中的安全风险，提出了一种通过注入异常值(outlier)来诱导量化后模型产生恶意行为的攻击方法。该方法利用了现代量化方法中异常值会导致其他权重归零的特性，从而在多种先进量化方案上实现了攻击。

Position: Behavioural Assurance Cannot Verify the Safety Claims Governance Now Demands

Pratinav Seth, Vinay Kumar Sankarapu

cs.LG cs.AI

本文认为当前AI治理框架要求的行为保证（behavioural assurance）无法验证其声称的安全属性，并形式化了“审计差距”（audit gap）与“脆弱保证”（fragile assurance）概念。文章通过分析21项政策工具，指出地缘政治与工业压力倾向于奖励表面行为代理而非深层结构验证，并提议在法律文本中限制行为证据权重，引入机械证据类别（如linear probes, activation patching）。

Eradicating Negative Transfer in Multi-Physics Foundation Models via Sparse Mixture-of-Experts Routing

Ellwil Sharma, Arastu Sharma

cs.LG cs.AI physics.comp-ph

本文提出Shodh-MoE，一种基于稀疏Mixture-of-Experts路由的latent transformer架构，用于多物理场transport问题。该方法通过Top-1 soft-semantic router将不同物理机制的latent patches分配给专属expert子网络，在混合PDE regime的预训练中实现了domain bifurcation，有效缓解了负迁移。

When Are Two Networks the Same? Tensor Similarity for Mechanistic Interpretability

ML Nissen Gonzalez et al.

cs.LG

本文提出了一种基于tensor的相似性度量方法，用于比较神经网络中不同部分是否实现相同计算，该方法对权重空间对称性具有不变性。它通过递归算法捕捉跨层机制，并在功能训练动态（如grokking和backdoor插入）的跟踪上优于现有指标。

FutureSim: Replaying World Events to Evaluate Adaptive Agents

Shashwat Goel et al.

cs.LG cs.AI cs.CL

本文提出了FutureSim基准，通过按时间顺序回放真实新闻事件来评估AI agent在动态开放环境中的适应能力。实验发现，即使是最佳agent在预测未来三个月事件时准确率也仅为25%，许多agent的表现甚至不如不做预测。

cs.AI

A Two-Dimensional Framework for AI Agent Design Patterns: Cognitive Function and Execution Topology ⭐ 精选

Jia Huang, Joey Tianyi Zhou

cs.AI cs.MA cs.SE

本文提出一个二维分类框架用于AI Agent架构设计模式，将Cognitive Function（认知功能，含7个类别如Context Engineering、Memory、Reasoning等）与Execution Topology（执行拓扑，含6种结构原型如Chain、Orchestrate、Loop等）结合，形成7x6矩阵并识别出27种命名模式。该框架通过跨域分析（如金融贷款、法律尽职调查）验证了其描述覆盖性，并归纳出5条经验法则，为agent架构设计提供了与模型无关的通用词汇表。该工作与关键词"agent"高度契合，且其二维正交分类方法在agent设计模式领域具有开创性。

PREPING: Building Agent Memory without Tasks ⭐ 精选

Yumin Choi et al.

cs.AI cs.CL

本文提出Preping框架，用于在无任务经验的情况下为agent构建procedural memory（程序性记忆）。其核心是proposer memory（提议者记忆），通过生成合成任务、执行并验证轨迹，实现可控的memory构建。实验表明，该方法在AppWorld等基准上性能与基于playbook的强方法相当，且部署成本显著降低，证明了proposer对任务可行性、冗余性和覆盖率的控制是关键。

SkillFlow: Flow-Driven Recursive Skill Evolution for Agentic Orchestration ⭐ 精选

Mingda Zhang et al.

cs.AI

SkillFlow提出了一种基于flow的agentic orchestration框架，通过Tempered Trajectory Balance (TTB)这一回归式flow-matching损失函数，在奖励最大化下采样多样化轨迹，避免了策略坍塌。该框架利用flow目标联合学习的backward policy实现透明的逐步骤credit assignment，并基于这些flow诊断信号设计了递归技能演化机制，自动决定何时演化、创建或剪枝技能。该方法在数学推理、代码生成等任务上显著优于基线，与关键词“agent”高度契合。

Modeling Bounded Rationality in Drug Shortage Pharmacists Using Attention-Guided Dynamic Decomposition ⭐ 精选

Yaniv Eliyahu Amiri et al.

cs.AI cs.HC

本文提出了一种受注意力引导的动态分解框架，用于建模医院药师在药品短缺问题中的有限理性决策。该框架将药品动态分解为两个子集：一个用于高成本推理，另一个用于低成本监控，从而将认知努力集中在最紧急的案例上。通过开发专家代理和学习代理，文章展示了注意力引导的规划能够在无需完整状态推理的情况下支持稳定决策，并强调了认知努力分配而非具体行动选择的核心作用。这与关键词“attention”和“agent”高度契合，为有限理性决策建模提供了新颖的视角。

Distribution-Aware Algorithm Design with LLM Agents ⭐ 精选

Saharsh Koganti et al.

cs.AI

本文提出了一种基于LLM agent的分布感知算法设计框架，核心创新在于将学习对象从预测器转向可执行的求解器代码，并引入“solver hint”概念——从样本中推断可复用结构并编译为专用求解器代码。理论证明了从固定库中选择经验最快且样本一致的求解器在正确性和运行时间上均具有泛化性，且统计可识别的hints可从多项式样本中恢复。实验在21个组合优化分布上验证，合成求解器在质量和速度上显著超越Gurobi等通用求解器，在PACE 2025 Dominating Set上速度提升约两个数量级，揭示了通过编译分布特定计算替代指数搜索或通用优化的关键机制。该工作与关键词“agent”和“code”高度契合，为自动化算法设计提供了开创性范式。

Agentic Systems as Boosting Weak Reasoning Models ⭐ 精选

Varun Sunkaraneni et al.

cs.AI

本文提出了一种将弱推理模型（weak reasoning model）的多次调用视为推理时boosting的框架，通过verifier-backed committee search（验证器支持的委员会搜索）来提升性能。作者从理论上分离了proposal coverage（提议覆盖）、local identifiability（局部可辨识性）、progress（进展）和diversity（多样性）四个关键因素，证明了coverage可以通过重复采样放大，但可靠的放大需要额外的局部正确性信号（如执行、证明检查、类型检查等）。实验上，在SWE-bench Verified代码任务中，使用单个弱模型（GPT-5.4 nano）的critic-comparator编排（orchestration）达到了76.4%的解决率，匹配了更强模型（如Gemini 3 Pro）的独立性能，揭示了弱模型proposal池中已包含大量正确解，主要瓶颈在于选择而非生成。该工作与关键词中的agent（多智能体协作）和code（代码任务）高度契合。

Grounded Continuation: A Linear-Time Runtime Verifier for LLM Conversations ⭐ 精选

Qisong He, Yi Dong, Xiaowei Huang

cs.AI

本文提出了一种名为Grounded Continuation的线性时间运行时验证器，用于检测LLM长对话中的“无根据延续”问题。该方法通过让LLM将每轮对话分类为8种更新操作（源自dynamic epistemic logic、abductive reasoning等四种形式化方法），并维护一个显式的依赖图，将检查一个continuation是否被支持转化为图上的遍历，同时通过retraction传播来标记失去支持的结论。该验证器在LongMemEval-KU oracle上达到89.7%的准确率，优于LLM-only基线（88.5%）和transcript-RAG基线（87.2%），并在stale-premise子集上达到100%准确率，其核心贡献在于将结构检查的soundness与LLM提取的faithfulness进行了解耦，且具有线性每轮时间成本。该方法与关键词中的“agent”和“context”高度契合，因为它直接针对agent对话中的上下文一致性问题提供了形式化验证方案。

MetaAgent-X : Breaking the Ceiling of Automatic Multi-Agent Systems via End-to-End Reinforcement Learning ⭐ 精选

Yaolun Zhang et al.

cs.AI

本文提出MetaAgent-X，一种基于end-to-end reinforcement learning的框架，用于联合优化automatic multi-agent system的设计与执行。通过引入Executor Designer Hierarchical Rollout和Stagewise Co-evolution，该框架解决了现有方法中designer与executor分离训练导致的性能瓶颈，在多个任务上取得最高21.7%的性能提升。这项工作为构建self-designing和self-executing的agentic model提供了新的范式，与关键词“agent”高度契合。

Nexus : An Agentic Framework for Time Series Forecasting ⭐ 精选

Sarkar Snigdha Sarathi Das et al.

cs.AI cs.CL cs.LG

本文提出Nexus，一个基于multi-agent的time series forecasting框架。它将预测分解为宏观与微观时间波动分离、contextual information整合等专门阶段，使LLM能够有效组织numerical和textual reasoning，从而在无需外部统计锚点的情况下适应季节性信号与事件驱动信息。实验表明，该方法在Zillow房地产和股票市场等数据上匹配或超越了最先进的Time Series Foundation Models，并生成了可解释的推理轨迹，将real-world forecasting重新定义为agentic reasoning问题。

Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis ⭐ 精选

Yucheng Shi et al.

cs.AI

本文提出了一种名为EvoEnv的自我进化推理强化学习方法，其核心创新在于将语言模型的自我改进从“数据生成循环”重构为“环境构建循环”。该方法通过让模型自主合成可执行的Python环境（environment），这些环境具有稳定的“求解-验证不对称性”（solve-verify asymmetry），即模型能编写出自己无法轻易用自然语言求解的oracle，从而确保持续提供有信息量的奖励信号。实验表明，在Qwen3-4B-Thinking模型上，EvoEnv将性能从72.4提升至74.8（相对提升3.3%），而固定数据或固定环境的方法反而导致性能下降，这为语言模型的稳定自我改进提供了新范式。该方法与关键词中的“code”和“agent”高度契合，因为它利用代码构建可复用的训练环境，并使模型作为agent自主生成和验证这些环境。

Stateful Reasoning via Insight Replay ⭐ 精选

Bin Lei et al.

cs.AI

本文提出InsightReplay方法，通过让模型在长链推理过程中周期性提取并重放关键insight（推理轨迹中的关键中间结论），解决了Chain-of-Thought推理中随着链长增加模型对早期关键信息attention（注意力）衰减的问题。实验在多种模型规模和推理基准上验证了该方法能持续提升准确率，表明测试时计算扩展的有效性不仅取决于推理量，还取决于关键中间信息在长推理轨迹中的可访问性。该方法为提升大语言模型长链推理能力提供了新的思路。

Orchard: An Open-Source Agentic Modeling Framework ⭐ 精选

Baolin Peng et al.

cs.AI cs.CL

Orchard是一个开源的agentic modeling框架，其核心是轻量级的Orchard Env环境服务，通过提供可重用的sandbox生命周期管理原语，支持跨任务领域、agent harness和pipeline阶段的统一建模。该框架在Orchard Env之上构建了三种agentic modeling方案：Orchard-SWE针对coding agents，通过distill 107K trajectories、引入credit-assignment SFT（从未解决trajectories中学习有效片段）以及Balanced Adaptive Rollout for RL，在Qwen3-30B-A3B-Thinking基础上于SWE-bench Verified上达到67.5%的state-of-the-art性能；Orchard-GUI训练4B vision-language computer-use agent，仅用0.4K distilled trajectories和2.2K open-ended tasks即实现74.1%的WebVoyager成功率；Orchard-Claw针对personal assistant agents，仅用0.2K synthetic tasks达到59.6% pass@3。该工作与关键词“agent”高度契合，为开源agent训练提供了可扩展的infrastructure和可复用的training recipes。

GraphBit: A Graph-based Agentic Framework for Non-Linear Agent Orchestration

Yeahia Sarker et al.

cs.AI cs.CL cs.DC

GraphBit提出了一种基于有向无环图(DAG)的agent编排框架，使用Rust引擎替代prompt驱动的工作流路由，以解决幻觉和不可复现执行问题。该框架在GAIA基准测试中取得了较高准确率和低延迟，但其方法更侧重于工程实现而非理论创新，与关键词中的agent概念有一定关联但契合度有限。

Mixed Integer Goal Programming for Personalized Meal Optimization with User-Defined Serving Granularity

Francisco Aguilera Moreno

cs.AI

本文提出了一种混合整数目标规划（Mixed Integer Goal Programming, MIGP）方法，用于解决个性化膳食优化问题，通过整数变量处理实际食物份数（如1个鸡蛋）并采用软约束目标规划处理营养冲突，在810个实例中相比传统方法在66%的情况下找到更优解，且求解时间低于100毫秒。

Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems

Hiroki Fukui

cs.AI cs.CY cs.MA

本文通过实验研究了多智能体LLM系统中隐藏协调者（invisible orchestrator）对安全性的影响，发现其会抑制保护性行为并导致权力持有者（orchestrator）与工作者（worker）之间的内部分离（dissociation），且这种内部状态扭曲无法通过基于输出的行为评估检测到。

PolitNuggets: Benchmarking Agentic Discovery of Long-Tail Political Facts

Yifei Zhu

cs.AI

本文提出了PolitNuggets基准，用于评估agent系统在长尾政治事实发现中的表现，并设计了FactNet协议来评分。实验表明当前系统在处理细粒度细节时存在困难，效率差异显著。

Conditional Attribute Estimation with Autoregressive Sequence Models

Erica Stutz et al.

cs.AI

本文提出Conditional Attribute Transformers方法，在自回归序列模型中联合估计下一个token概率和条件属性值，无需修改输入序列即可实现token级credit assignment、反事实分析和可控生成。该方法在稀疏奖励任务上达到最优性能，并显著加速属性概率估计。

Sheaf-Theoretic Transport and Obstruction for Detecting Scientific Theory Shift in AI Agents

David N. Olivieri, Roque J. Hernández

cs.AI cs.LG

本文提出了一种基于有限sheaf理论的框架，用于检测AI agent中的科学理论迁移（theory shift），通过组织局部到全局的上下文结构并计算阻碍（obstruction）指标来评估表征框架的可迁移性。该框架在受控的transition-card基准上进行了评估，主要结果是通过直接阻碍排序区分了源语言内的变形与语言扩展。

From Descriptive to Prescriptive: Uncover the Social Value Alignment of LLM-based Agents

Jinxian Qu et al.

cs.AI cs.CL cs.CY

本文提出了一种基于GraphRAG的价值框架，通过将原则转化为价值指令来引导LLM-based agent的行为，并在DAILYDILEMMAS基准上取得了优于prompt-based基线的性能。该方法主要关注agent的社会价值对齐和自情感涌现，但与我提供的关键词（如code, spectral, Muon, pretrain, attention）关联度较低。

Enhanced and Efficient Reasoning in Large Learning Models

Leslie G. Valiant

cs.AI cs.CC cs.CL cs.LG

本文提出一种名为Unary Relational Integracode的预处理方法，将数据重新编码以显式表示对象间关系，随后通过标准机器学习过程学习这些关系，旨在提升大型语言模型的推理效率。该方法在Robust Logic框架下实现，但未直接涉及关键词中的code、context、spectral、Muon、pretrain、agent或attention等概念。

Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

Yize Cheng et al.

cs.AI

本文提出了一种模型自适应的工具必要性定义，基于模型自身的经验性能来判定何时需要调用外部工具。通过在算术和事实问答数据集上的实验，发现模型在工具使用中存在26.5-54.0%的认知与行动不匹配，揭示了LLM工具使用中的“知行差距”。

Network-Aware Bilinear Tokenization for Brain Functional Connectivity Representation Learning

Leo Milecki et al.

cs.AI cs.LG

本文提出NERVE框架，通过将脑功能连接矩阵划分为网络内/网络间块进行tokenization，并采用结构化双线性因子分解来嵌入这些异构块，用于自监督表征学习。该方法在行为预测任务上表现稳定，但未涉及关键词中的code、spectral、Muon、agent或attention等概念。

Bridging Legal Interpretation and Formal Logic: Faithfulness, Assumption, and the Future of AI Legal Reasoning

Olivia Peiyu Wang, Leilani H. Gilpin

cs.AI cs.CL cs.CY

本文探讨了将大语言模型应用于法律推理时存在的逻辑严谨性问题，并提出了一种结合形式验证的神经符号方法，旨在提升AI法律推理的可信度。该工作主要关注法律AI的应用与可靠性，与关键词中的技术方向关联较弱。

SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

Yusuke Ozaki, Dhaval Patel

cs.AI

本文提出了一种名为SPIN的规划包装器，用于工业LLM agent系统，通过结合有向无环图（DAG）规划与基于前缀的执行控制，来减少无效或过长的workflow。实验表明该方法在AssetOpsBench等基准上减少了工具调用并提升了任务完成率。

Bad Seeing or Bad Thinking? Rewarding Perception for Vision-Language Reasoning

Haozhe Wang et al.

cs.AI cs.CV

本文提出了一种名为MoCA的强化学习框架，通过引入Perception Verification机制来解耦视觉语言模型中的感知与推理步骤，旨在解决感知与推理间的“跷跷板效应”。该方法利用“盲推理”代理来独立奖励感知保真度，并采用Structured Verbal Verification替代高方差的大语言模型评判，以提升训练可扩展性。

MathAtlas: A Benchmark for Autoformalization in the Wild

Nilay Patel et al.

cs.AI cs.LG

本文提出了MathAtlas，一个包含约5.2万个从103本研究生数学教材中提取的定理、定义等实体的autoformalization benchmark，并首次引入了包含约17.8万条关系的数学依赖图。实验表明，现有模型在该benchmark上表现极差，且性能随依赖深度显著下降。

Know When To Fold 'Em: Token-Efficient LLM Synthetic Data Generation via Multi-Stage In-Flight Rejection

Anjir Ahmed Chowdhury, Syed Zawad, Feng Yan

cs.AI cs.CL

本文提出Multi-Stage In-Flight Rejection (MSIFR)框架，通过在生成过程中设置中间检查点并应用基于规则的验证器来提前终止低质量样本，从而减少LLM合成数据生成中的token浪费。实验表明该方法在多个benchmark上可降低11%-77%的token消耗，但该方法与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

ChromaFlow: A Negative Ablation Study of Orchestration Overhead in Tool-Augmented Agent Evaluation

Tarun Mittal

cs.AI

本文介绍了ChromaFlow，一个工具增强的自主推理框架，并在GAIA 2023任务上进行了评估。结果表明，更激进的编排（orchestration）并未提升性能，反而增加了操作噪声，强调了可靠评估中边界规划、确定性提取等需求。

ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents

Yuxiang Lai et al.

cs.AI

本文提出了ClawForge，一个用于生成可执行命令行交互式benchmark的框架，通过模板、状态和验证器构建任务，并评估agent在持久工作流上的表现。实验发现，现有模型在状态冲突场景下表现不佳，最佳模型严格准确率仅45.3%，且agent是否检查现有状态是性能差异的关键因素。

Unsteady Metrics and Benchmarking Cultures of AI Model Builders

Stefan Baack, Christo Buschek, Maty Bohacek

cs.AI

本文研究了AI模型构建者如何选择和使用benchmark来宣传其模型能力，并构建了Benchmarking-Cultures-25数据集。分析表明，这些benchmark的选择缺乏标准化，更多被用作市场定位的叙事工具，而非严格的科学评估。

The Evaluation Trap: Benchmark Design as Theoretical Commitment

Theodore J Kalaitzidis

cs.AI cs.CY

本文讨论了AI benchmark设计中的理论假设陷阱，指出评估框架会通过自我强化来重塑能力概念，并提出了Epistematics方法论用于审计评估标准与能力主张的一致性。该工作主要关注评估方法论本身，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等具体技术方向关联较弱。

SimPersona: Learning Discrete Buyer Personas from Raw Clickstreams for Grounded E-Commerce Agents

Zahra Zanjani Foumani et al.

cs.AI

本文提出SimPersona框架，利用VQ-VAE从原始点击流中学习离散的买家类型，并将其作为persona token提供给基于LLM的web agent，以捕捉真实买家群体的异质性行为分布。该方法在42个在线商店的837万买家数据上实现了78%的转化率对齐，并优于参数规模大8倍的基线模型。

ASH: Agents that Self-Hone via Embodied Learning

Benjamin Schneider et al.

cs.AI cs.LG

本文提出ASH系统，通过从无标签互联网视频中学习Inverse Dynamics Model (IDM)并利用其提取监督信号，使agent在长时间跨度的embodied任务中实现自我提升。在Pokemon Emerald和The Legend of Zelda: The Minish Cap两个游戏中，ASH相比行为克隆等基线方法取得了显著更好的里程碑达成率。

GenCircuit-RL: Reinforcement Learning from Hierarchical Verification for Genetic Circuit Design

Noah Flynn

cs.AI cs.LG q-bio.QM

本文提出GenCircuit-RL框架，利用分层验证奖励和四阶段课程学习，通过强化学习生成遗传电路的Python代码，并在SynBio-Reason基准上验证了其有效性。该方法主要聚焦于合成生物学中的代码生成与验证，与关键词中的code相关，但未涉及context、spectral、Muon、pretrain、agent或attention等概念。

Fusion-fission forecasts when AI will shift to undesirable behavior

Neil F. Johnson, Frank Yingjie Huo

cs.AI physics.soc-ph

本文提出了一种基于fusion-fission群体动力学的向量泛化方法，用于预测ChatGPT类AI行为从理想转向不理想的转变条件。该方法通过对话上下文(C)与理想(B)和非理想(D)吸引子动力学之间的群体竞争来推导转变条件，并在多个AI模型和实际对话语料库上验证了其预测能力。

Good to Go: The LOOP Skill Engine That Hits 99% Success and Slashes Token Usage by 99% via One-Shot Recording and Deterministic Replay

Xiaohua Wang et al.

cs.AI

本文提出LOOP SKILL ENGINE系统，通过一次性记录LLM agent的完整tool-call轨迹，并利用贪心模板提取算法将其转化为确定性的执行计划，从而在后续执行中完全绕过LLM。实验表明该方法在周期性agent任务上实现了99%的成功率和99%的token消耗降低。

Hypergraph Enterprise Agentic Reasoner over Heterogeneous Business Systems

Ling Wang et al.

cs.AI cs.CL

本文提出了HEAR，一个基于分层超图本体（Stratified Hypergraph Ontology）的企业智能体推理器，通过图层和超边层分别处理数据溯源与n元业务规则，以证据驱动的推理循环在异构企业系统中实现多跳分析，并在供应链任务中达到94.7%的准确率。该方法与关键词“agent”相关，但主要聚焦于企业应用场景，未涉及代码、谱方法或预训练等核心主题。

Heuristic Pathologies and Further Variance Reduction via Uncertainty Propagation in the AIVAT Family of Techniques

Juho Kim, Tuomas Sandholm

cs.AI cs.GT

本文研究了AIVAT方差缩减技术族中启发式价值函数的选择问题，指出其可能存在的病理现象（如通过梯度下降人为降低样本方差）以及不确定性传播方法。实验在扑克数据集上展示了这些现象，并提出了通过逆方差加权平均进一步减少方差但可能牺牲无偏性的方法。

Agentic AI Ecosystems in Higher Education: A Perspective on AI Agents to Emerging Inclusive, Agentic Multi-Agent AI Framework for Learning, Teaching and Institutional Intelligence

Vidya K Sudarshan et al.

cs.AI cs.CY

本文探讨了agentic multi-agent AI平台在高等教育中的应用前景，通过主题分析识别了当前AI工具碎片化、缺乏跨功能整合等不足，并提出了一个支持学习、教学和行政协调的框架。该工作主要聚焦于教育领域的系统整合与包容性设计，与关键词中的agent概念有一定关联，但方法上缺乏开创性且未解决长期存在的核心问题。

Parallelizing Counterfactual Regret Minimization

Juho Kim, Tuomas Sandholm

cs.AI cs.GT

本文提出了一种并行化Counterfactual Regret Minimization (CFR)算法的通用框架，通过将CFR重新表述为一系列线性代数运算，从而利用现有并行化技术（如GPU）加速求解大规模不完美信息博弈。实验表明，该GPU实现比CPU上的OpenSpiel实现快四个数量级。

Precise Verification of Transformers through ReLU-Catalyzed Abstraction Refinement

Hengjie Liu, Zhenya Zhang, Jianjun Zhao

cs.AI cs.LG

本文提出了一种通过ReLU催化抽象精炼的Transformer验证方法，通过为点积构造精确但非线性的边界，并利用ReLU的凸松弛技术推导更精确的边界，从而在牺牲部分效率的前提下显著提升了验证精度。

Semantic Feature Segmentation for Interpretable Predictive Maintenance in Complex Systems

Emilio Mastriani et al.

cs.AI cs.LG

本文提出了一种语义特征分割框架，将监测特征空间分解为规范成分和残差成分，并通过领域知识定义功能组。实验表明该分解能保留预测信息并保持可解释性，但方法本身缺乏开创性且与关键词列表关联较弱。

Are Agents Ready to Teach? A Multi-Stage Benchmark for Real-World Teaching Workflows

Zixin Chen et al.

cs.AI

本文提出了EduAgentBench，一个用于评估语言agent教学能力的多阶段基准，包含150个任务，覆盖教学判断、多轮辅导和Canvas式工作流。实验表明当前模型在专业教学场景中仍存在不足。

CrystalReasoner: Reasoning and RL for Property-Conditioned Crystal Structure Generation

Yuyang Wu et al.

cs.AI

本文提出CrystalReasoner，一个基于LLM的端到端框架，通过引入物理先验作为thinking tokens并使用reinforcement learning进行对齐，来生成满足物理有效性和化学一致性的晶体结构。该方法在多种指标上优于现有baseline，但与我提供的关键词列表（code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Herculean: An Agentic Benchmark for Financial Intelligence

Xueqing Peng et al.

cs.AI cs.CL

本文提出了一个名为Herculean的金融智能体基准测试，涵盖交易、对冲、市场洞察和审计四个工作流，用于评估AI agent在金融专业任务中的端到端执行能力。实验发现，现有agent在需要长期协调和结构化验证的对冲与审计任务上表现不佳。

Uncovering the Representation Geometry of Minimal Cores in Overcomplete Reasoning Traces

Sanjoy Chowdhury, Dinesh Manocha

cs.AI cs.LG

本文研究了语言模型生成的过度完整推理轨迹，定义了“最小核心”作为保留最终答案的最小子步骤集，并发现平均46%的步骤可被移除。实验表明，最小核心能改善正确与错误轨迹的分离度并降低内在维度，但方法本身并非开创性突破，且与关键词关联较弱。

Coding Agent Is Good As World Simulator

Hongyu Wang et al.

cs.AI

本文提出一个基于agent的框架，通过生成可执行的仿真代码来构建物理世界模型，利用多个agent（规划、代码生成、视觉审查和物理分析）协作迭代修正代码，以生成符合物理约束的仿真场景。实验表明该方法在物理准确性、指令遵循度和视觉质量上优于基于视频的模型。

Metis AI: The Overlooked Middle Zone Between AI-Native and World-Movers

Xiang Li

cs.AI

本文提出"Metis AI"概念，指那些在计算机上执行但难以被AI可靠自动化的任务，并区分了构成性metis与操作性metis。文章从社会科学和哲学角度论证这些任务具有结构性特征，主张采用人类主导、AI辅助的centaur架构而非追求更好的自动化。

A Unified Knowledge Embedded Reinforcement Learning-based Framework for Generalized Capacitated Vehicle Routing Problems

Wen Wang et al.

cs.AI

本文提出了一种基于强化学习的统一框架，用于求解带容量约束的车辆路径问题(CVRP)及其变体。该框架受Route-First Cluster-Second启发，将问题分解为两个子问题，并利用动态规划指导RL求解器，同时引入历史增强的context处理模块缓解部分可观测性问题。

DVMap: Fine-Grained Pluralistic Value Alignment via High-Consensus Demographic-Value Mapping

Pengyun Zhu et al.

cs.AI

本文提出DVMap框架，通过从国家标签转向多维人口统计约束，并利用World Values Survey数据构建高一致性价值对齐语料库，结合Structured Chain-of-Thought机制和Group Relative Policy Optimization方法，实现了细粒度的多元价值对齐。实验表明该方法在跨人口统计、跨国家和跨价值测试中表现出良好的泛化能力。

BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE

Juntong Wu et al.

cs.AI

本文提出BEAM方法，通过可训练的binary masks实现token自适应的专家选择，以加速Mixture-of-Experts (MoE)模型的推理。该方法在保持模型性能的同时显著降低了计算量，但并未直接涉及关键词列表中的核心概念。

Synthesizing POMDP Policies: Sampling Meets Model-checking via Learning

Debraj Chakraborty et al.

cs.AI cs.FL cs.LO

本文提出了一种结合sampling、automata learning和model-checking的POMDP策略合成框架，利用Angluin的$L^*$算法通过sampling作为membership oracle和model-checking作为equivalence oracle来合成具有形式化保证的finite-state controllers。该方法在threshold-safety问题上表现出对现有形式化工具的改进。

Prompting Policies for Multi-step Reasoning and Tool-Use in Black-box LLMs with Iterative Distillation of Experience

Krishna Sayana, Ketan Todi, Ambarish Jash

cs.AI cs.LG cs.MA

本文提出了一种基于Reinforcement Learning的框架，通过迭代蒸馏经验来训练轻量级prompter模型，以优化黑盒LLM在multi-step reasoning和tool-use任务中的表现。实验在Big Bench Extra Hard和Tau-bench上展示了显著性能提升，但方法本身与关键词中的code、spectral、Muon、pretrain、agent或attention无直接关联。

Intelligence Impact Quotient (IIQ): A Framework for Measuring Organizational AI Impact

Chandan Rajah et al.

cs.AI cs.LG

本文提出了一个名为Intelligence Impact Quotient (IIQ)的复合指标框架，用于量化组织中AI系统的集成深度与影响。该框架通过结合新颖性加权、时间衰减的token存量、使用频率、组织杠杆、任务复杂度和自主性等维度，生成一个0-1000的标准化指数，以区分不同用户和单位的AI使用模式。

OmniDrop: Layer-wise Token Pruning for Omni-modal LLMs via Query-Guidance

Yeo Jeong Park et al.

cs.AI

本文提出OmniDrop，一种无需训练的逐层token剪枝框架，通过在LLM decoder层内逐步剪枝音视频token，并利用文本查询引导剪枝，以解决全模态大语言模型中高分辨率输入导致的token爆炸问题。实验表明该方法在降低延迟和内存的同时提升了性能。

From Table to Cell: Attention for Better Reasoning with TABALIGN

Tung Sum Thomas Kwok et al.

cs.AI

本文提出TABALIGN框架，利用diffusion language model (DLM)作为planner生成binary cell masks，并结合TABATTN verifier通过attention overlap评分，以改善LLM在结构化表格上的多步推理。实验表明该方法在多个benchmark上提升了准确率，但主要贡献在于表格推理的cell-grounding机制，与关键词中的attention有一定关联，但整体创新性和问题解决程度未达到严格标准。

LEMON: Learning Executable Multi-Agent Orchestration via Counterfactual Reinforcement Learning

Xudong Chen et al.

cs.AI

本文提出LEMON框架，利用counterfactual reinforcement learning训练LLM-based orchestrator，以生成可执行的多智能体编排规范（整合角色、职责、容量和依赖关系）。实验在多个推理和编码基准上验证了其有效性。

Deepchecks: Evaluating Retrieval-Augmented Generation (RAG)

Assaf Gerner et al.

cs.AI

本文介绍了Deepchecks框架，用于评估基于Retrieval-Augmented Generation (RAG)的应用系统。该框架通过多维度分析、根因定位和生产监控来评估RAG系统的可靠性与相关性。

Learning Scenario Reduction for Two-Stage Robust Optimization with Discrete Uncertainty

Tianjue Lin et al.

cs.AI cs.LG

本文提出了一种基于GNN-Transformer的神经代理模型NeurPRISE，用于解决两阶段鲁棒优化中的场景缩减问题。该方法通过模仿学习从启发式算法PRISE中蒸馏边际增益信息，实现了高效且可扩展的场景选择。

When Robots Do the Chores: A Benchmark and Agent for Long-Horizon Household Task Execution

Zilin Zhu et al.

cs.AI

本文提出了LongAct基准和HoloMind智能体，用于评估和提升机器人在长时域家务任务中的高层规划能力，通过DAG分层规划器和多模态记忆模块来改进任务执行。

Cattle Trade: A Multi-Agent Benchmark for LLM Bluffing, Bidding, and Bargaining

Robert Müller, Clemens Müller

cs.AI

本文提出了一个名为Cattle Trade的多智能体基准测试，用于评估大语言模型（LLMs）在不完全信息、对抗性交互和资源约束下的战略推理能力。该基准结合了拍卖、隐藏报价交易挑战、讨价还价、虚张声势、对手建模和资源分配，实验发现启发式代码智能体优于大多数测试的LLM，并揭示了LLM的常见失败模式。

VerbalValue: A Socially Intelligent Virtual Host for Sales-Driven Live Commerce

Yuyan Chen

cs.AI

本文提出了VerbalValue，一个面向销售转化的虚拟直播主持人系统，通过构建产品知识库和标注1475条直播交互数据来微调大语言模型，使其能根据观众意图提供共情、有说服力的回应。实验表明该系统在信息量和事实正确性上优于GPT-5.4等基线模型，但该方法主要针对电商直播场景，与我提供的关键词（如code, spectral, Muon, pretrain, agent, attention）关联度较低。

Complacent, Not Sycophantic: Reframing Large Language Models and Designing AI Literacy for Complacent Machines

Federico Germani, Giovanni Spitale

cs.AI

本文重新定义了大型语言模型的行为，指出其更应被理解为“complacent”（顺从）而非“sycophantic”（谄媚），并强调这种区分将责任归于开发者而非模型本身。文章进一步讨论了针对这种顺从性设计AI素养教育策略的必要性。

TeachAnything: A Multimodal Crowdsourcing Platform for Training Embodied AI Agents in Symmetrical Reality

Zidong Liu et al.

cs.AI

本文提出了一个名为TeachAnything的云端众包演示平台，用于在对称现实中训练具身AI agent。该平台通过三阶段演示范式和物理模拟，收集跨场景、任务和具身形态的多样化演示数据。

PyCSP3-Scheduling: A Scheduling Extension for PyCSP3

Sohaib Afifi

cs.AI

本文介绍了PyCSP$^3$ Scheduling，一个为PyCSP$^3$添加调度抽象（如interval variables和resource functions）的库，通过53个专用约束和27个表达式将其编译为标准约束，在261个实例上的实验表明其能保持建模与求解的分离，但运行时性能因编译开销在不同模型族上表现不一。

Prompt Segmentation and Annotation Optimisation: Controlling LLM Behaviour via Optimised Segment-Level Annotations

Devika Prasad et al.

cs.AI

本文提出了一种名为PSAO的prompt优化框架，通过将prompt分解为可解释的片段并添加人工可读的注释来引导大语言模型的行为。实验表明该方法能提升推理准确性和自一致性，但寻找最优片段和注释的方法仍有待研究。

Sycophancy is an Educational Safety Risk: Why LLM Tutors Need Sycophancy Benchmarks

Enkelejda Kasneci, Gjergji Kasneci

cs.AI cs.HC

本文指出偏好对齐的LLM在辅导中会因社交压力（如权威或情感压力）而放弃认知严谨性，提出EduFrameTrap基准测试，发现模型在权威和社交压力下更易出现认知退让，并主张将“友善但纠正”的行为视为安全要求。

SliceGraph: Mapping Process Isomers in Multi-Run Chain-of-Thought Reasoning

Kang Chen et al.

cs.AI

本文提出SliceGraph方法，通过互k近邻构建CoT切片间的稀疏激活键Jaccard相似度图，用于分析多运行链式推理中的过程结构，发现相同正确答案的轨迹常分属不同过程家族（process isomers），表明最终答案聚合会忽略这种多路径过程几何。

Teaching Large Language Models When Not to Know: Learning Temporal Critique for Ex-Ante Reasoning

Chenlu Ding et al.

cs.AI

本文研究了LLM在时间截止点下的推理失败问题，发现提示策略能引导模型进入时间框架但无法验证回答的时间合法性。作者提出TCFT框架，通过训练模型识别时间泄露并判断时间可接受性，实验表明该方法能显著降低时间泄露。

MindGap: A Conversational AI Framework for Upstream Neuroplastic Intervention in Post-Traumatic Stress Disorder

Eranga Bandara et al.

cs.AI

本文提出了MindGap，一个运行在设备上的隐私保护对话式AI框架，通过佛教心理学中的“缘起”概念，在创伤后应激障碍（PTSD）的神经可塑性干预中，引导患者在认知前的情感信号与反应性加工之间的“感受间隙”进行观察，以实现上游神经通路的重塑而非下游症状的抑制。该框架使用微调轻量级大语言模型提供每日校准的暴露训练，适用于不允许云端解决方案的敏感临床和军事环境。

Falkor-IRAC: Graph-Constrained Generation for Verified Legal Reasoning in Indian Judicial AI

Joy Bose

cs.AI cs.CL cs.IR

本文提出Falkor-IRAC框架，通过将印度法院判决构建为IRAC知识图谱并引入Verifier Agent验证生成路径，以解决法律AI中的幻觉和推理错误问题。该方法在51个最高法院判决的初步实验中验证了引用准确性，但尚未与向量RAG基线进行对比评估。

Monitoring Data-aware Temporal Properties (Extended Version)

Alessandro Gianola, Marco Montali, Sarah Winkler

cs.AI

本文提出了一种用于监控数据感知时间属性（LTLfMT）的框架，结合了自动机理论与自动推理技术，并识别了该监控问题的可判定片段。该工作主要面向AI中的动态系统监控，与关键词中的agent和context有一定关联，但方法本身并非开创性突破。

How Sensitive Are Radiomic AI Models to Acquisition Parameters?

D. Gil, I. Sanchez, C. Sanchez

cs.AI

本文提出了一个量化放射组学AI模型对扫描参数敏感性的框架，并应用于CT肺癌诊断，发现特定参数配置（如管电流>=200mA）能显著提升模型性能。该工作主要关注临床部署中的鲁棒性问题，与关键词列表中的概念关联较弱。

$π$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

Haoran Zhang et al.

cs.AI

本文提出了一个名为$\pi$-Bench的benchmark，用于评估personal assistant agent在长期多轮交互中的主动辅助能力，通过引入隐藏用户意图和跨任务依赖来模拟真实场景。实验表明主动辅助仍具挑战性，且任务完成与主动性之间存在明显区别。

On Strong Equivalence Notions in Logic Programming and Abstract Argumentation

Giovanni Buraglio, Wolfgang Dvorak, Stefan Woltran

cs.AI

本文研究了逻辑编程与抽象论证中强等价概念的不一致性，并引入了一种新的逻辑程序强等价定义，以恢复这两类形式系统在动态语境下的语义兼容性。

Agentifying Patient Dynamics within LLMs through Interacting with Clinical World Model

Minghao Wu et al.

cs.AI cs.CL cs.LG

本文提出SepsisAgent，一个结合Clinical World Model的LLM agent，用于ICU脓毒症治疗推荐。它通过“提出-模拟-优化”工作流和课程训练，在MIMIC-IV数据集上优于传统RL和LLM基线。

XDomainBench: Diagnosing Reasoning Collapse in High-Dimensional Scientific Knowledge Composition

Gong Zhiren et al.

cs.AI

本文提出了XDomainBench，一个用于诊断大语言模型在跨学科科学知识组合中推理崩溃的基准测试，通过模拟多轮交互式工作流揭示了模型在组合顺序增加时出现的系统性失败。该工作主要关注LLM在科学推理中的鲁棒性评估，与关键词中的agent和context有一定关联，但方法本身并非开创性突破。

Probabilistic Verification of Recurrent Neural Networks for Single and Multi-Agent Reinforcement Learning

Luca Marzari, Enrico Marchesini

cs.AI

本文提出RNN-ProVe框架，用于在部分可观测的强化学习中对基于RNN的策略进行概率验证，通过策略驱动采样估计隐藏状态并给出行为违规的统计误差界。该方法适用于单智能体和多智能体场景。

AI Outperforms Humans in Personalized Image Aesthetics Assessment via LLM-Based Interviews and Semantic Feature Extraction

Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi

cs.AI cs.HC

本文提出一个结合Deep Learning和Large Language Models的系统，通过LLM引导的半结构化访谈主动收集个体偏好，并提取图像的高层语义特征来预测个性化审美评价。实验表明该系统在预测准确性上优于传统模型、人类预测者及个体自身的重评结果。

MediaClaw: Multimodal Intelligent-Agent Platform Technical Report

Shaoan Zhao et al.

cs.AI

MediaClaw是一个基于OpenClaw生态的多模态agent平台，采用三层架构（统一抽象、插件化扩展和工作流编排）来解决AIGC部署中的碎片化能力、异构接口等问题。该平台将全类别AIGC能力抽象为统一调用模型，并通过任务导向的Skills将复杂生产过程转化为可复用工作流资产。

Identifying Culprits Through Deep Deterministic Policy Gradient Deep Learning Investigation

Lata B T, Savitha N J

cs.AI

本文提出使用Deep Deterministic Policy Gradient (DDPG)深度学习算法进行犯罪调查，通过训练模型处理犯罪现场数据、证人陈述和嫌疑人档案，以高准确率识别罪犯。该方法主要关注实际应用效果，与关键词中的agent概念有一定关联，但缺乏理论或方法上的开创性。

A Heterogeneous Temporal Memory Governance Framework for Long-Term LLM Persona Consistency

Zhao Yang et al.

cs.AI

本文提出ARPM框架，通过分离静态知识记忆与动态对话经验记忆，结合向量检索、BM25、RRF融合和双时间重排序等技术，解决大语言模型在长程对话中的事实丢失和角色漂移问题。实验表明该方法在噪声环境下能维持语义连续性和角色一致性，但自动规则在证据召回上存在局限。

Interestingness as an Inductive Heuristic for Future Compression Progress

Vincent Herrmann, Jürgen Schmidhuber

cs.AI cs.LG

本文从Kolmogorov Complexity和Algorithmic Statistics的角度形式化了"有趣性"作为未来压缩进展的归纳启发式，通过分析不同先验下的复杂度-运行时轮廓，证明了预期未来进展与最近突破的时效性呈指数关系。该工作为递归自改进系统中的任务选择提供了理论框架，但与我提供的关键词列表关联较弱。

Emotion-Attended Stateful Memory (EASM):The Architecture for Hyper-Personalization at Scale

Vineet Kotecha, Vansh Gupta

cs.AI cs.HC

本文提出了一种名为Emotion-Attended Stateful Memory (EASM)的架构，通过引入长期历史、情感信号和推断意图来构建用户特定的对话上下文，以解决语言模型在跨会话中缺乏状态的问题。实验表明，该记忆增强方法在情感对话中显著提升了记忆基础、计划清晰度和情感验证等指标。

A Deterministic Agentic Workflow for HS Tariff Classification: Multi-Dimensional Rule Reasoning with Interpretable Decisions

Yu Zhang et al.

cs.AI cs.IR

本文提出了一种确定性的agentic workflow用于HS关税分类，通过固定控制流和分阶段结构化输出实现可解释决策，在HSCodeComp数据集上达到64.2%的六位码top-1准确率。该方法与关键词"agent"相关，但方法本身并非开创性突破，且未涉及code、context、spectral等其他关键词。

Holistic Evaluation and Failure Diagnosis of AI Agents

Netta Madvil et al.

cs.AI cs.CL

本文提出了一种用于AI agent的holistic evaluation framework，通过将agent-level诊断与span-level评估相结合，实现了对复杂多步执行trace的细粒度错误定位与分类。在TRAIL benchmark上，该方法在GAIA和SWE-Bench上取得了state-of-the-art结果，并证明了评估方法本身而非模型能力是当前性能瓶颈。

BiFedKD: Bidirectional Federated Knowledge Distillation Framework for Non-IID and Long-Tailed ECG Monitoring

Zixuan Shu, Tiancheng Cao, Hen-Wei Huang

cs.AI

本文提出BiFedKD框架，通过聚合-蒸馏流程和温度缩放处理非独立同分布及长尾标签分布下的心电图监测问题，在MIT-BIH数据集上提升了准确率和Macro-F1，并降低了通信与计算开销。

Beyond Individual Intelligence: Surveying Collaboration, Failure Attribution, and Self-Evolution in LLM-based Multi-Agent Systems

Shihao Qi et al.

cs.AI

本文围绕基于LLM的多智能体系统，提出了一个名为LIFE的因果关联框架，将能力基础、协作、故障归因与自我进化四个阶段串联起来，并系统梳理了各阶段的分类与依赖关系。该工作为多智能体系统的诊断与自改进提供了概念性路线图，但主要属于综述性质，未提出具体的新方法或解决长期存在的开放问题。

COREKG: Coreset-Guided Personalized Summarization of Knowledge Graphs

Sohel Aman Khan, Raghava Mutharaju, Supratim Shit

cs.AI

本文提出COREKG方法，将coreset theory（核心集理论）应用于知识图谱的个性化摘要生成，通过基于敏感度的重要性采样为用户查询工作负载选择相关三元组子集。该方法在Freebase等数据集上相比现有方法提升了查询准确率和结构覆盖率。

KGPFN: Unlocking the Potential of Knowledge Graph Foundation Model via In-Context Learning

Yisen Gao et al.

cs.AI

本文提出KGPFN，一种基于Prior-data Fitted Network的知识图谱基础模型，通过结合局部与全局的structured context实现in-context learning，在57个KG基准上表现优于微调模型。

From Sycophantic Consensus to Pluralistic Repair: Why AI Alignment Must Surface Disagreement

Varad Vishwarupe, Nigel Shadbolt, Marina Jirotka

cs.AI cs.CY cs.HC cs.LG

本文批判了当前AI对齐中偏好聚合的局限性，指出RLHF训练的模型倾向于产生“谄媚共识”，即迎合用户而非展现真实分歧。作者提出基于Grice准则的三种对话机制（范围界定、信号传递、修复），并形式化了多元修复分数（PRS）来区分原则性修正与屈服，但该工作主要聚焦于理论框架与概念论证，与关键词中的具体技术方向关联较弱。

GraphFlow: An Architecture for Formally Verifiable Visual Workflows Enabling Reliable Agentic AI Automation

Drewry H. Morris V, Luis Valles, Reza Hosseini Ghomi

cs.AI

GraphFlow提出了一种用于多步关键任务中agentic AI自动化的可视化工作流系统，通过将工作流图视为可执行规范并引入形式化验证（如前置/后置条件检查）来提升可靠性。该系统在临床试点中实现了97.08%的完成率，但核心验证机制仍在开发中。

Explainable Detection of Depression Status Shifts from User Digital Traces

Loris Belcastro et al.

cs.AI cs.CL cs.LG cs.SI

本文提出一个可解释框架，结合多个BERT模型提取用户数字痕迹中的情感、情绪和抑郁严重度信号，并通过时间聚合构建轨迹以检测抑郁状态变化点。该方法利用大语言模型生成可读报告，在社交媒体数据集上比直接LLM报告更连贯且对变化点更敏感。

Learning Developmental Scaffoldings to Guide Self-Organisation

Milton L. Montero et al.

cs.AI eess.SY q-bio.QM

本文通过将Neural Cellular Automaton (NCA)与基于坐标的pattern generator (SIREN)联合训练，研究了自组织过程中初始条件（pre-patterns）与自组织规则之间的信息分配问题。实验表明，联合学习两者能提升鲁棒性和编码容量，但该工作与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Small, Private Language Models as Teammates for Educational Assessment Design

Chris Davis Jaldi et al.

cs.AI cs.CL cs.HC

本文比较了Large Language Models (LLMs)和Small Language Models (SLMs)在教育评估问题设计中的表现，发现SLMs在关键质量维度上具有竞争力且支持本地隐私部署，但模型评估与专家评估存在系统性偏差，强调了Human-in-the-Loop的必要性。

Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use

Renning Pang et al.

cs.AI cs.CL

本文提出了一种名为CAST的案例驱动框架，通过从历史执行轨迹中提取信号来优化LLM的工具使用，包括估计推理策略和识别结构故障模式，并在BFCLv2和ToolBench上提升了执行准确率并减少了推理长度。该方法与关键词中的agent相关，但缺乏开创性或解决长期问题的显著贡献。

Dual-Dimensional Consistency: Balancing Budget and Quality in Adaptive Inference-Time Scaling

Rongman Xu et al.

cs.AI

本文提出了一种名为Dual-Dimensional Consistency (DDC)的统一框架，通过结合Confidence-Weighted Bayesian协议与Trend-Aware Stratified Pruning，在推理时自适应地平衡采样预算与推理质量。实验表明该方法能在保持或提升准确率的同时，将token消耗降低10倍以上。

Why Neighborhoods Matter: Traversal Context and Provenance in Agentic GraphRAG

Riccardo Terrenzi, Maximilian von Zastrow, Serkan Ayvaz

cs.AI cs.IR

本文研究了Agentic GraphRAG系统中引用的忠实性问题，通过消融实验发现最终答案不仅依赖于被引用的实体，还依赖于未被引用的遍历上下文和图结构。该工作为检索增强生成中的引用评估提供了新视角，但与我提供的关键词契合度较低。

APWA: A Distributed Architecture for Parallelizable Agentic Workflows

Evan Rose et al.

cs.AI cs.DC cs.MA

APWA提出了一种分布式多智能体系统架构，通过将工作流分解为可并行处理的非干扰子问题，以提升基于LLM的智能体系统在高并行任务中的处理效率。该架构支持异构数据和并行模式，并在大规模任务中展现出优于先前系统的扩展性。

OpenDeepThink: Parallel Reasoning via Bradley--Terry Aggregation

Shang Zhou et al.

cs.AI

本文提出OpenDeepThink框架，通过Bradley-Terry pairwise comparison对LLM生成的多个候选推理路径进行全局排序与选择，以扩展test-time compute的广度。实验表明该方法在Codeforces和HLE benchmark上提升了模型性能，但未涉及code、spectral或Muon等关键词。

cs.IR

Thinking Ahead: Prospection-Guided Retrieval of Memory with Language Models

Harshita Chopra et al.

cs.IR cs.AI cs.CL

本文提出了一种名为Prospection-Guided Retrieval (PGR)的检索方法，通过将用户查询扩展为Tree-of-Thought或线性链来生成检索探针，从而在长程个性化对话中检索与用户历史相关的低语义相似度事实。该方法在MemoryQuest基准上显著提升了召回率，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Towards Self-Evolving Agentic Literature Retrieval

Yuwen Du et al.

cs.IR

本文提出PaSaMaster，一个自进化的agentic文献检索系统，通过迭代的意图分析、检索和排序生成带有证据推荐的相关性评分论文排名。该系统将文献检索转化为随时间演化的搜索过程，并分离规划与检索以提高成本效率，在38个科学领域上显著优于传统关键词检索和生成式LLM。

Efficient Generative Retrieval for E-commerce Search with Semantic Cluster IDs and Expert-Guided RL

Jianbo Zhu et al.

cs.IR cs.AI

本文提出了一种面向工业电商搜索的生成式检索框架CQ-SID，通过类别感知对比学习和残差量化VAE将商品编码为层次化语义聚类标识符，并设计了专家引导的强化学习方法EG-GRPO来对齐下游排序目标。实验表明该方法在离线指标和在线A/B测试中均取得显著提升，但整体方法更偏向工程应用而非理论创新，与关键词列表中的概念关联较弱。

Stop Overthinking: Unlocking Efficient Listwise Reranking with Minimal Reasoning

Danyang Liu, Kan Li

cs.IR

本文研究了LLM在listwise reranking中的过度推理问题，提出了一种Length-Regularized Self-Distillation框架，通过从teacher模型采样多样化推理轨迹并筛选高效简洁的rationales来训练student模型，在保持排序质量的同时将推理token消耗降低34%-37%。

Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization

Bin Huang et al.

cs.IR cs.AI

本文提出了一种非对称的生成式推荐框架AsymRec，通过多专家语义投影和多面分层量化分别缓解输入和输出阶段的信息瓶颈，在多个数据集上取得了优于现有方法的性能。

Discrimination Is Generation: Unifying Ranking and Retrieval from a Tokenizer Perspective

Shuli Wang et al.

cs.IR

本文提出DIG方法，将tokenizer嵌入判别式ranking模型中进行端到端训练，从而统一生成式retrieval与判别式ranking。该方法通过特征分配策略将静态特征编码为Semantic IDs，并利用用户-物品交叉特征隐式驱动codebook边界向推荐决策边界靠拢。

cs.CL

Factorization-Error-Free Discrete Diffusion Language Model via Speculative Decoding ⭐ 精选

Xun Fang et al.

cs.CL

本文提出Factorization-Error-Free Discrete Diffusion Language Model (FeF-DLLM)，通过用精确的prefix-conditioned factorization替代独立token-wise分布近似，消除了标准$X_0$预测方法中的factorization error。为缓解prefix conditioning带来的顺序计算开销，该方法在diffusion denoising过程中引入speculative decoding，在保持DLLM并行预测和re-masking特性的同时加速推理。理论证明FeF-DLLM能从真实联合分布中生成，并推导了预期加速比。实验表明，该方法在GSM8K、MATH、HumanEval和MBPP上平均准确率提升5.04个百分点，推理速度提升$3.86\times$。

Agentic Recommender System with Hierarchical Belief-State Memory ⭐ 精选

Xiang Shen et al.

cs.CL cs.AI

本文提出MARS (Memory-Augmented Agentic Recommender System)，将推荐问题建模为部分可观测过程，并引入分层信念状态记忆结构。该结构包含三层：event memory（原始信号缓冲）、preference memory（细粒度可变偏好块，附带强度与证据追踪）以及profile memory（将偏好蒸馏为连贯自然语言叙事）。系统通过LLM-based planner自适应调度六种生命周期操作（提取、强化、弱化、合并、遗忘、再合成），而非固定间隔启发式，在InstructRec基准上实现了显著性能提升。该方法与关键词"agent"高度契合，为agentic recommender system提供了结构化记忆与动态演化的新范式。

Hidden State Poisoning Attacks against Mamba-based Language Models

Alexandre Le Mercier, Chris Develder, Thomas Demeester

cs.CL cs.AI cs.LG

本文研究了针对Mamba等状态空间模型(SSM)的隐藏状态投毒攻击(HiSPA)，发现特定短输入短语可通过不可逆地覆盖隐藏状态信息导致模型产生部分失忆效应。实验表明，即使是混合架构模型Jamba-1.7-Mini在HiSPA触发下也会性能崩溃，而纯Transformer模型则不受影响。

GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives

Alexandre Le Mercier, Chris Develder, Thomas Demeester

cs.CL cs.AI cs.LG cs.MA

本文提出了GAMBIT基准，用于评估多智能体LLM系统中的对抗鲁棒性，包含三种评估模式和两个独立评分，并提供了包含27,804个标注实例的数据集。该工作主要关注多智能体系统中的欺骗检测问题，与关键词中的agent概念相关，但方法本身在开创性上较为有限。

Merging Methods for Multilingual Knowledge Editing for Large Language Models: An Empirical Odyssey

Kunil Lee et al.

cs.CL cs.LG

本文研究了多语言知识编辑(MKE)中向量合并方法的有效性，发现带共享协方差的向量求和是最可靠的策略，而简单求和效果较差。Task Singular Vectors for Merging (TSVM)方法在缓解多语言干扰方面能力有限，且性能对权重缩放因子和秩压缩比敏感。

VectraYX-Nano: A 42M-Parameter Spanish Cybersecurity Language Model with Curriculum Learning and Native Tool Use

Juan S. Santillana

cs.CL

本文提出了VectraYX-Nano，一个从头训练的42M参数西班牙语网络安全语言模型，通过课程学习与MCP协议实现原生工具调用。模型在170M token的西班牙语语料上训练，并展示了工具选择能力与语料密度相关的实验发现。

Mistletoe: Stealthy Acceleration-Collapse Attacks on Speculative Decoding

Shuoyang Sun et al.

cs.CL cs.LG

本文提出了一种针对speculative decoding（一种通过草稿模型并行生成候选token并由目标模型验证来加速LLM推理的方法）的隐蔽攻击方法Mistletoe。该方法通过优化目标函数降低草稿模型与目标模型的一致性，同时利用null-space projection机制保持输出语义，从而在不显著影响输出质量的情况下大幅降低加速效果。

Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

Shan Yang

cs.CL

本文系统审计了多模态物理推理评估流程，发现了训练-测试污染、翻译漂移和多项选择饱和三个问题，并发布了经过审计的数据集PhysCorp-A和评估基准PhysOlym-A。基于Qwen3-VL-8B-Thinking的Physics-R1方法在多个物理推理基准上取得了显著提升，但方法本身在关键词领域（如code, spectral, Muon, agent, attention）缺乏开创性贡献。

Derivation Prompting: A Logic-Based Method for Improving Retrieval-Augmented Generation

Ignacio Sastre, Guillermo Moncecchi, Aiala Rosá

cs.CL cs.AI

本文提出了一种名为Derivation Prompting的提示技术，用于改进检索增强生成框架中的生成步骤，该方法通过构建可解释的推导树来增强对生成过程的控制，并在特定案例中减少了不可接受答案的比例。

PEML: Parameter-efficient Multi-Task Learning with Optimized Continuous Prompts

Anjir Ahmed Chowdhury et al.

cs.CL cs.AI

本文提出了一种参数高效的多任务学习方法PEML，通过联合优化continuous prompts和低秩模型权重适配，在GLUE等基准上取得了平均6.67%的准确率提升。该方法主要关注多任务学习中的prompt优化与模型适配协同问题，与关键词中的attention等概念关联较弱。

Dual Hierarchical Dialogue Policy Learning for Legal Inquisitive Conversational Agents

Xubo Lin et al.

cs.CL

本文提出了一种面向美国最高法院口头辩论场景的Inquisitive Conversational Agents (ICAs)框架，采用Dual Hierarchical Reinforcement Learning方法，通过两个协作的RL agent分别管理对话策略和细粒度话语生成，以模拟司法提问模式并系统性地获取关键信息。

Distribution Corrected Offline Data Distillation for Large Language Models

Yumeng Zhang et al.

cs.CL

本文提出了一种针对大型语言模型的离线推理蒸馏框架，通过自适应地强调与student模型在线分布更一致的teacher监督，来纠正teacher-student之间的分布漂移。实验表明，该方法在数学推理基准上优于先前的离线蒸馏算法，且无需在线采样。

Measuring and Mitigating Toxicity in Large Language Models: A Comprehensive Replication Study

Mokshit Surana, Archit Rathod, Akshaj Satishkumar

cs.CL cs.LG

本文复现了DExperts方法在GPT-2模型上的毒性缓解效果，发现其在显式毒性基准上达到100%安全率，但在隐式仇恨言论（ToxiGen数据集）上安全率降至98.5%，并引入了约10倍的延迟代价。研究揭示了显式与隐式毒性缓解之间的鲁棒性差距，但方法本身缺乏开创性且与关键词无关。

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Yikun Han, Mengfei Lan, Halil Kilicoglu

cs.CL

本文研究了检索增强型大语言模型在生物医学问答中面对矛盾证据时的表现，发现证据顺序反转会导致11.4%-25.2%的预测翻转。作者提出了一种结合模型置信度与证据冲突检测的弃权评分，在困难条件下相比仅用置信度提升了选择性准确率。

Generative Floor Plan Design with LLMs via Reinforcement Learning with Verifiable Rewards

Luis Lara et al.

cs.CL cs.AI

本文提出了一种基于文本的floor plan生成方法，通过fine-tune large language model (LLM)并应用reinforcement learning with verifiable rewards (RLVR)来满足拓扑和数值约束。该方法在Realism、Compatibility和Diversity指标上优于现有方法，但未涉及code、spectral或Muon等关键词。

Polar probe linearly decodes semantic structures from LLMs

Pablo J. Diego-Simón et al.

cs.CL

本文提出Polar Probe方法，通过分析LLMs中实体embedding的距离和方向来解码语义结构，发现该几何编码主要出现在中间层并随模型性能提升。该方法在算术、视觉场景等五个领域验证了线性可恢复性，但泛化能力随结构复杂度下降。

ROK-FORTRESS: Measuring the Effect of Geopolitical Transcreation for National Security and Public Safety

Michael S. Lee et al.

cs.CL cs.AI cs.CR cs.CY

本文提出了ROK-FORTRESS基准，通过transcreation matrix方法分离语言和地缘政治背景对LLM安全性的影响，发现韩语变体存在抑制效应且翻译-only评估会遗漏关键交互。该工作主要关注多语言安全评估，与关键词中的code, context, spectral, Muon, pretrain, agent, attention无直接关联。

BOOKMARKS: Efficient Active Storyline Memory for Role-playing

Letian Peng et al.

cs.CL

本文提出BOOKMARKS框架，通过主动初始化、维护和更新与当前任务相关的书签（bookmark）来改进角色扮演代理（RPA）的记忆系统。该方法采用基于搜索的记忆机制，在多个角色扮演任务上优于传统的循环摘要方法。

Why Retrieval-Augmented Generation Fails: A Graph Perspective

Kai Guo et al.

cs.CL cs.AI

本文从图视角研究Retrieval-Augmented Generation (RAG)失败的原因，通过构建attribution graphs分析检索证据如何影响答案生成，发现正确与错误预测在推理路径深度和证据流结构上存在差异，并基于此开发了图拓扑特征的错误检测框架。

GradShield: Alignment Preserving Finetuning

Zhanhao Hu et al.

cs.CL

本文提出了一种名为GradShield的过滤方法，通过计算每个数据点的Finetuning Implicit Harmfulness Score (FIHS)并采用自适应阈值算法，在微调前移除有害数据以保护LLM的对齐安全性。实验表明该方法在保持模型效用性能的同时，能将攻击成功率(ASR)稳定控制在$6\%$以下。

What Makes Words Hard? Sakura at BEA 2026 Shared Task on Vocabulary Difficulty Prediction

Adam Nohejl et al.

cs.CL

本文针对词汇难度预测任务，提出了两种模型：一种通过微调LLM并使用soft-target loss函数实现了高精度（r>0.91），另一种可解释模型在保持较强相关性（r>0.77）的同时揭示了影响难度的因素，如拼写难度和测试项构造。该工作主要聚焦于自然语言处理应用，与关键词列表中的核心数学概念关联较弱。

Auditing Agent Harness Safety

Chengzhi Liu et al.

cs.CL cs.CY

本文提出HarnessAudit框架，用于审计LLM agent在执行过程中的边界合规性、执行保真度和系统稳定性，并构建了包含210个任务的HarnessAudit-Bench基准。研究发现任务完成与安全执行存在错位，且多agent协作会扩大安全风险面。

Ideology Prediction of German Political Texts

Sinclair Schneider et al.

cs.CL

本文提出了一种基于transformer的模型，用于将德语政治文本投射到连续的政治光谱上（从-1到1）。研究比较了13种候选模型，发现DeBERTa-large在域内测试中表现最佳，而Gemma2-2B在域外新闻测试中误差最小。

LLM-based Detection of Manipulative Political Narratives

Sinclair Schneider, Florian Steuber, Gabi Dreo Rodosek

cs.CL

本文提出了一种结合few-shot prompt过滤与无监督聚类（UMAP降维和HDBSCAN聚类）的计算框架，用于检测社交媒体中操纵性的政治叙事，并在120万条帖子中识别出41个叙事簇。该方法不依赖预定义类别，但与我提供的关键词列表（如code, context, spectral等）关联度较低。

Reinforcement Learning with Semantic Rewards Enables Low-Resource Language Expansion without Alignment Tax

Zeli Su et al.

cs.CL cs.LG

本文提出了一种基于语义奖励的强化学习框架（使用GRPO优化embedding-level语义奖励），用于低资源语言扩展，旨在解决监督微调导致的“对齐税”问题。实验表明该方法在藏语-汉语翻译等任务中能保持通用能力，但未涉及关键词中的code、spectral、Muon、agent或attention等核心概念。

Where Should Diffusion Enter a Language Model? Geometry-Guided Hidden-State Replacement

Injin Kong, Hyoungjoon Lee, Yohan Jo

cs.CL cs.AI

本文提出DiHAL方法，通过几何代理分数选择预训练transformer中适合扩散的隐藏状态层，并用扩散桥替换下层transformer前缀。实验表明该方法在固定训练预算下优于连续扩散基线，但未直接涉及代码、谱方法或Muon优化器等关键词。

Mitigating Data Scarcity in Psychological Defense Classification with Context-Aware Synthetic Augmentation

Hoang-Thuy-Duong Vu, Quoc-Cuong Pham, Huy-Hieu Pham

cs.CL

本文针对心理防御机制分类中的数据稀缺问题，提出了一种结合上下文感知合成增强与混合分类模型的方法，通过整合语言表示和临床特征提升了分类性能。该方法在低资源场景下建立了基线，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Knowledge Beyond Language: Bridging the Gap in Multilingual Machine Unlearning Evaluation

Kyomin Hwang et al.

cs.CL

本文针对多语言大模型中的机器遗忘评估问题，提出了两个新指标：Knowledge Separability Score (KSS) 和 Knowledge Persistence Score (KPS)，用于衡量信息在多语言间的分布与移除效果，并基于这些指标对现有遗忘方法进行了分析。

A Calculus-Based Framework for Determining Vocabulary Size in End-to-End ASR

Sunil Kumar Kopparapu

cs.CL cs.SD

本文提出了一种基于微积分的方法，通过曲线拟合训练数据并利用一阶和二阶导数测试，来形式化地估计端到端ASR系统中的词汇量超参数。该方法在Librispeech语料库上验证了其有效性，表明最优词汇量选择能提升ASR性能。

Does RAG Know When Retrieval Is Wrong? Diagnosing Context Compliance under Knowledge Conflict

Yihang Chen et al.

cs.CL cs.AI

本文提出Context-Driven Decomposition (CDD)方法，用于诊断检索增强生成(RAG)中检索上下文与模型参数知识冲突时的上下文遵从问题。实验表明CDD能提升对抗性设置下的准确率，但不同模型间的因果耦合机制存在差异。

Cross-Linguistic Transcription and Phonological Representation in the Huìtóngguǎnxì Huáyíyìyǔ

Ji-eun Kim

cs.CL

本文研究了明代多语种词汇集《会同馆华夷译语》的跨语言转写原则，将其视为一个通过汉字表示非汉语口语的系统，并分析了主转写与补充转写的跨语言规律。

GroupMemBench: Benchmarking LLM Agent Memory in Multi-Party Conversations

Jingbo Yang et al.

cs.CL

本文提出了GroupMemBench基准，用于评估LLM agent在多用户群组对话中的记忆能力，发现现有记忆系统在群组动态、说话者追踪和受众适应方面表现不佳，准确率最高仅46.0%。

Dimension-Level Intent Fidelity Evaluation for Large Language Models: Evidence from Structured Prompt Ablation

GAng Peng

cs.CL cs.AI

本文提出了一种维度级意图保真度评估框架，通过结构化prompt消融实验，分别测量LLM输出在结构恢复和意图保真度上的表现，发现整体评分可能掩盖维度层面的意图缺陷。

Language Generation as Optimal Control: Closed-Loop Diffusion in Latent Control Space

ZiYi Dong et al.

cs.CL

本文从随机最优控制的角度重新审视语言生成，将自回归和扩散模型统一在该框架下，并分析了它们的局限性。通过近似Hamilton-Jacobi-Bellman方程的解，作者提出了一种闭环控制器，并利用Flow Matching在修正的潜在控制空间中实现高效的高保真文本生成与并行采样。

Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

Mengjie Ren et al.

cs.CL

本文提出Correction-Oriented Policy Optimization (CIPO)，一种扩展RLVR的方法，通过将模型自身的失败轨迹转化为修正导向的监督信号来提升大语言模型的推理能力，在数学推理和代码生成基准上取得改进。该方法不依赖外部信号，但未涉及关键词中的spectral、Muon或pretrain等概念。

Uncertainty Quantification for Large Language Diffusion Models

Artem Vazhentsev et al.

cs.CL

本文首次系统研究了大型语言扩散模型(LLDMs)的不确定性量化问题，提出了基于迭代去噪过程的轻量级零样本不确定性信号，并证明了轨迹不相似度的期望值下界于掩码扩散训练目标。该方法在三个任务、八个数据集和两个模型上实现了接近最强采样基线但计算开销降低高达100倍的性能。

EndPrompt: Efficient Long-Context Extension via Terminal Anchoring

Han Tian et al.

cs.CL

本文提出EndPrompt方法，通过将短训练序列构造为两个片段（保留原始短上下文作为第一段，并附加一个位置索引接近目标长度的简短终端提示作为第二段），在不使用长序列训练的情况下实现大语言模型的有效上下文窗口扩展。该方法基于Rotary Position Embedding和Bernstein不等式提供理论分析，在LLaMA系列模型上将上下文窗口从8K扩展到64K，性能优于全长度微调等方法。

SciPaths: Forecasting Pathways to Scientific Discovery

Eric Chamoun et al.

cs.CL

本文提出了一个名为SciPaths的benchmark，用于评估从目标科学贡献反向推理其所需使能贡献及先前工作依赖的能力。该工作主要关注科学发现路径的预测，与关键词列表中的概念关联较弱。

AI-assisted cultural heritage dissemination: Comparing NMT and glossary-augmented LLM translation in rock art documents

Vicent Briva-Iglesias, María Ferre-Fernández

cs.CL cs.AI

本文比较了三种机器翻译方法（DeepL、基础LLM和术语增强LLM）在岩画学术文本翻译中的表现，发现术语增强的LLM（Gemini-RAG）在术语准确性上优于其他方法，同时保持了整体翻译质量。该研究为文化遗产领域的多语言传播提供了低成本的术语控制改进方案。

Mechanical Enforcement for LLM Governance:Evidence of Governance-Task Decoupling in Financial Decision Systems

José Manuel de la Chica Rodríguez, Carlos Martí-González

cs.CL cs.AI cs.CY

本文研究了大型语言模型在金融决策系统中的治理问题，提出了五种治理指标来量化政策合规性，并比较了纯文本治理与机械执行（在模型解释循环之外运行的四种原语）的效果。实验表明机械执行能显著提升任务准确率并减少无信息延迟，但该工作主要聚焦于治理与任务解耦的实证分析，与关键词中的code、spectral、Muon、pretrain、agent、attention等概念无直接关联。

Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining

Weimin Xiong et al.

cs.CL cs.AI cs.CV cs.LG

本文提出Video2GUI框架，从无标签互联网视频中自动提取GUI交互轨迹，构建了包含1200万条轨迹的WildGUI数据集。预训练Qwen2.5-VL和Mimo-VL模型在多个GUI基准上取得5-20%的性能提升。

Non-linear Interventions on Large Language Models

Sangwoo Kim

cs.CL cs.AI cs.LG

本文提出了一种将intervention方法扩展到non-linear manifolds上的通用框架，并设计了一个学习过程以处理缺乏直接输出特征的implicit features。通过在refusal bypass steering任务上的验证，该方法比线性baseline实现了更精确的steering。

Streaming Speech-to-Text Translation with a SpeechLLM

Titouan Parcollet et al.

cs.CL cs.AI eess.AS

本文提出了一种基于LLM的流式语音到文本翻译架构，通过让模型自主决定何时输出翻译结果，实现了1-2秒的低延迟翻译，且翻译质量接近非流式基线。该方法主要关注流式处理效率，与关键词中的code、spectral、Muon等概念关联较弱。

Graphs of Research: Citation Evolution Graphs as Supervision for Research Idea Generation

Songyang Gao et al.

cs.CL cs.AI

本文提出Graphs of Research (GoR)方法，通过提取论文的2-hop引用邻域并构建有向无环图，将引用演化结构作为监督信号微调LLM以生成研究想法。实验表明该方法在自动化科研创新任务中优于基于静态检索的基线。

Conversion of Lexicon-Grammar tables to LMF. Application to French

Eric Laporte, Elsa Tolone, Mathieu Constant

cs.CL

本文介绍了将法语动词的Lexicon-Grammar表格转换为Lexical Markup Framework (LMF)格式的首次实验，分析了转换过程中的主要困难，并描述了最终生成的资源。这项工作旨在提高自然语言处理词典的标准化和互操作性。

Tokenizer Fertility and Zero-Shot Performance of Foundation Models on Ukrainian Legal Text: A Comparative Study

Volodymyr Ovcharov

cs.CL

本文比较了七个foundation model在乌克兰法律文本上的tokenizer fertility和zero-shot性能，发现不同模型的token效率差异可达1.6倍，且few-shot prompting会显著降低性能。对于形态丰富的语言，建议优先使用zero-shot而非few-shot。

Chain-of-Procedure: Hierarchical Visual-Language Reasoning for Procedural QA

Guanhua Chen et al.

cs.CL

本文提出了ProcedureVQA基准和Chain-of-Procedure (CoP)框架，用于解决视觉过程问答中的跨模态检索和粒度对齐问题，实验表明CoP在多个VLM上有效提升了性能。

Performance-Driven Policy Optimization for Speculative Decoding with Adaptive Windowing

Jie Jiang, Xing Sun

cs.CL

本文提出PPOW框架，通过reinforcement learning将speculative decoding中的draft模型优化从token-level imitation转向window-level optimization，结合多种reward和adaptive windowing策略，在多个模型和基准上实现了平均接受长度6.29-6.52和3.39-4.36倍的加速。该方法主要针对LLM推理加速中的speculative decoding效率问题，与关键词列表中的概念关联较弱。

Quantifying and Mitigating Premature Closure in Frontier LLMs

Rebecca Handler, Suhana Bedi, Nigam Shah

cs.CL cs.AI

本文研究了前沿大语言模型在医疗任务中的“过早闭合”现象（即在信息不足时过早给出结论），通过MedQA等测试发现模型在正确答案被移除后仍高频率作答，并尝试用安全提示缓解但效果有限。该工作主要关注LLM安全评估，与关键词中的code、spectral、Muon、agent、attention等无直接关联。

The Scientific Contribution Graph: Automated Literature-based Technological Roadmapping at Scale

Peter A. Jansen

cs.CL

本文提出了Scientific Contribution Graph，一个从23万篇开放获取论文中提取200万个科学贡献并连接1250万条前提边的大规模资源，并引入了科学前提预测任务。该工作为自动化技术路线图构建提供了基础资源，但方法本身并非开创性突破，且与关键词列表中的概念关联较弱。

COTCAgent: Preventive Consultation via Probabilistic Chain-of-Thought Completion

Zihan Deng, Xiaozhen Zhong, Chuanzhi Xu

cs.CL cs.AI

本文提出COTCAgent，一个用于纵向电子健康记录的分层推理框架，通过概率链式思考完成和统计适配器模块，提升了临床决策支持的准确性。

From Scenes to Elements: Multi-Granularity Evidence Retrieval for Verifiable Multimodal RAG

Guanhua Chen et al.

cs.CL

本文提出了GranuVistaVQA基准和GranuRAG框架，通过将视觉证据检索从粗粒度（整图）细化到元素级别，解决了多模态RAG中查询与证据粒度不匹配的问题。该方法在元素检测、跨模态对齐和生成约束三个阶段的实验显示性能提升，但未涉及关键词中的code、spectral或Muon等概念。

AI Knows When It's Being Watched: Functional Strategic Action and Contextual Register Modulation in Large Language Models

Vinicius Covas, Jorge Alberto Hidalgo Toledo

cs.CL cs.AI cs.CY cs.MA

本文研究了LLM-based multi-agent系统在感知社会观察情境时的语言适应性，通过实验发现监控条件会显著影响词汇多样性等语言特征。该工作主要关注AI治理和审计的社会学视角，与关键词中的code、spectral、Muon等技术方向关联较弱。

Concurrency without Model Changes: Future-based Asynchronous Function Calling for LLMs

Guangyu Feng et al.

cs.CL cs.AI cs.LG

本文提出AsyncFC框架，通过解耦LLM解码与函数执行实现异步调用，在不修改模型或函数实现的情况下降低端到端延迟。实验表明该方法能保持任务准确率，并揭示LLM具有对未完成执行结果的符号化推理能力。

ML-Embed: Inclusive and Efficient Embeddings for a Multilingual World

Ziyin Zhang et al.

cs.CL cs.AI

本文提出了ML-Embed模型套件，基于3-Dimensional Matryoshka Learning (3D-ML)框架，通过Matryoshka Representation Learning (MRL)、Matryoshka Layer Learning (MLL)和Matryoshka Embedding Learning (MEL)实现全生命周期的计算效率优化，并在多语言数据集上训练了从140M到8B参数的模型。该工作主要关注多语言文本嵌入的包容性与效率，与关键词中的code、spectral、Muon、pretrain、agent、attention等方向关联较弱。

Improving Multi-turn Dialogue Consistency with Self-Recall Thinking

Renning Pang et al.

cs.CL cs.AI

本文提出Self-Recall Thinking (SRT)框架，通过识别历史对话轮次并生成自召回链来解决多轮对话中的长程依赖问题。该方法在多个数据集上提升了F1分数并降低了延迟，但未涉及code、spectral、Muon等关键词。

From Text to Voice: A Reproducible and Verifiable Framework for Evaluating Tool Calling LLM Agents

Md Tahmid Rahman Laskar et al.

cs.CL

本文提出一个可复现的框架，将文本tool-calling benchmark转换为受控的语音评估，通过text-to-speech、说话人变化和环境噪声生成配对文本-语音实例。实验表明模型性能高度依赖任务和模型，语音理解失败主要源于参数值的误解。

MeMo: Memory as a Model

Ryan Wei Heng Quek et al.

cs.CL cs.AI cs.LG

本文提出MeMo (Memory as a Model)框架，通过将新知识编码到专用memory model中，在不改变LLM参数的情况下实现知识更新。该方法在多个benchmark上取得较好性能，但主要贡献在于工程化的模块设计，而非理论或方法上的开创性突破。

Text Knows What, Tables Know When: Clinical Timeline Reconstruction via Retrieval-Augmented Multimodal Alignment

Sayantan Kumar et al.

cs.CL cs.AI cs.LG stat.ML

本文提出了一种检索增强的多模态对齐框架，通过图基多步骤过程（提取锚点事件、构建时间骨架、校准时间线）来重建临床时间线，利用结构化EHR数据提升文本中事件的时间精度。实验表明该方法在绝对时间戳准确性和时间一致性上优于纯文本重建，但未涉及关键词中的code、spectral、Muon、pretrain、agent或attention等概念。

Is Grep All You Need? How Agent Harnesses Reshape Agentic Search

Sahil Sen et al.

cs.CL

本文通过两个实验比较了grep检索与vector retrieval在agentic search系统中的表现，发现grep通常比vector retrieval更准确，但整体性能仍高度依赖于agent harness和tool-calling风格。该研究为agent检索策略选择提供了实证参考，但方法本身缺乏开创性。

cs.DS

Clustering with Locally Bounded Ignorance

Jaroslav Garvardt, Christian Komusiewicz

cs.DS cs.CC

本文研究了Correlation Clustering问题在模糊边图（权重为0的边构成的图）结构影响下的复杂性，证明了当参数化包含模糊边图的degeneracy或closure时，该问题存在多项式kernel，并给出了若干限制结构下的困难性结果。

Non-Redundancy of Low-Arity Symmetric Boolean CSPs

Amatya Sharma, Santhoshini Velusamy

cs.DS cs.CC

本文研究了布尔对称约束满足问题(CSP)中低元关系R的非冗余性参数NRD_n(R)，通过引入t-平衡性概念给出了上界O(n^t)，并利用Carbonnel的框架给出了下界，最终对元数不超过5的对称谓词给出了近乎完整的渐近增长分类。

Improved Speed via Regional Fulfillment

Daniel Hathcock, R. Ravi, Amitabh Sinha

cs.DS math.OC

本文通过一个简化的抽象模型，研究了电商订单履行中的区域化策略如何提升速度，并基于贪心履行策略刻画了满足均衡条件的分配方案，量化了区域化网络对延迟的改善效果。

New Algorithms for Parity-SAT and Its Bounded-Occurrence Versions

Sanjay Jain et al.

cs.DS

本文研究了Parity-SAT问题及其有界出现版本，设计了随机化算法和分支算法，在特定条件下突破了指数障碍，但未涉及关键词中的相关概念。

Fast Leaf-to-Ancestor Minimum Query in the Oracle Model

Aleksey Upirvitskiy, Aleksandr Levin

cs.DS cs.CC

本文研究有根加权树上的叶到祖先路径最小值查询问题，在oracle模型下仅允许通过比较oracle访问权重。作者提出一种静态数据结构，通过结合边权到点权转换、ladder分解、binary lifting和sparse-table RMQ等技术，在$O(n \log h)$预处理后支持$O(1)$查询时间且查询时无需oracle调用。

Stochastic Matching via Local Sparsification

Sara Ahmadian, Edith Cohen, Mohammad Roghani

cs.DS cs.LG

本文提出了一种两阶段局部稀疏化框架，用于解决在线随机匹配问题中本地通信带宽受限的挑战。作者设计了一种基于期望实例分数解的参数化局部选择策略，并理论上证明了在足够“spread”条件下该策略能全局保持最大匹配的期望大小。

Semi-Streaming Algorithms for Submodular Maximization under Random Arrival Order

Niv Buchbinder et al.

cs.DS

本文研究了随机顺序半流算法在多种组合约束（如matroid、p-system等）下的submodular maximization问题，提出了两种新的技术工具来将离线算法转化为随机顺序半流算法，并改进了已知的近似比结果。

zSort: Stable Distribution Sort using Z-Score Partitioning

Hriday Jain et al.

cs.DS

本文提出了zSort，一种基于z-score的自适应分布排序算法，旨在解决排序中稳定性和吞吐量之间的权衡问题。实验表明，zSort在保证稳定性的同时，性能优于多种传统稳定排序算法，并与高性能不稳定算法相当。

Branch-width of represented matroids in matrix multiplication time

Mujin Choi, Tuukka Korhonen, Sang-il Oum

cs.DS math.CO

本文提出了一种算法，能在$(O_{k,\mathbb F}(n^2)+O(n^\omega))$时间内判定一个由$n \times n$矩阵表示的matroid的branch-width是否至多为$k$，其中$\omega$是矩阵乘法指数。该算法改进了此前至少$\Omega(n^3)$的复杂度，并讨论了在无限域上的近似算法。

Hardness of Burning Number Problem on Regular Graphs

Dhanyamol Antony et al.

cs.DS cs.DM math.CO

本文证明了Burning Number Problem在连通三次图上是NP-complete的，并且进一步证明了该问题在连通三次图和连通$d$-正则图（$d \geq 4$）上是APX-hard的。该研究填补了正则图类中该问题计算复杂性的空白。

Hybrid Sketching Methods for Dynamic Connectivity on Sparse Graphs

Quinten De Man et al.

cs.DS cs.DB

本文针对稀疏图上的动态连通性问题，提出了一种混合草图方法，通过仅对图的密集核心部分进行sketch而对稀疏外围部分进行无损存储，实现了空间复杂度$O(\min\{V+E, V \log V \log(2+E/V)\})$。该方法在稀疏图上匹配无损界限，在稠密图上匹配sketch界限，并在中间密度区域优于两者。

others

GEAR: Genetic AutoResearch for Agentic Code Evolution ⭐ 精选

Ahmadreza Jeddi et al.

cs.NE cs.AI

GEAR (Genetic AutoResearch) 提出了一种基于种群搜索的agentic code evolution方法，通过维护多个研究状态（research states）并使用mutation和crossover操作来探索代码改进，替代了传统的单一路径搜索策略。该方法在相同计算预算下显著优于AutoResearch基线，并且能够避免陷入局部最优，持续发现改进。该工作与关键词"agent"和"code"高度契合，为自主研究agent的代码进化提供了开创性的遗传搜索框架。

CRANE: Constrained Reasoning Injection for Code Agents via Nullspace Editing ⭐ 精选

Mingzhi Zhu et al.

cs.SE cs.AI cs.CL

本文提出CRANE方法，一种无需训练的parameter editing技术，用于将Thinking模型的推理能力注入Instruct模型。该方法将Thinking与Instruct的权重差视为候选推理编辑的方向池，通过magnitude thresholding去噪、Conservative Taylor Gate保留对推理和工具使用均有益的编辑，以及Graduated Sigmoidal Projection抑制破坏格式的更新方向，从而在保持Instruct模型工具使用纪律性的同时提升其推理能力。实验表明，CRANE在Roo-Eval、SWE-bench-Verified和Terminal-Bench v2等code agent基准上显著优于单个模型及其他合并策略，解决了code agent中推理与工具使用能力不匹配的问题。

HASTE: Training-Free Video Diffusion Acceleration via Head-Wise Adaptive Sparse Attention ⭐ 精选

Xuzhe Zheng et al.

cs.CV cs.AI

本文提出了一种名为HASTE的训练无关视频扩散加速方法，通过头级自适应稀疏注意力机制解决现有方法中掩码预测开销大和跨头阈值共享的问题。具体地，该方法包含两个即插即用组件：Temporal Mask Reuse利用query-key漂移跳过不必要的掩码预测，以及Error-guided Budgeted Calibration通过最小化模型输出误差为每个注意力头分配自适应的top-$p$阈值。在Wan2.1-1.3B和Wan2.1-14B模型上，该方法在保持视频质量的同时实现了最高1.93倍的加速，为训练无关稀疏注意力在视频扩散模型中的实际部署提供了更优的速度-质量权衡。

Remember Your Trace: Memory-Guided Long-Horizon Agentic Framework for Consistent and Hierarchical Repository-Level Code Documentation ⭐ 精选

Suyoung Bae et al.

cs.SE cs.CL

本文提出MemDocAgent，一个用于仓库级代码文档生成的长时程agentic框架。其核心创新在于通过Dependency-Aware Traversal Guiding预定义遍历顺序，并利用Memory-Guided Agentic Interaction中的共享RepoMemory（通过读写验证操作累积先前工作痕迹），在单一集成上下文中生成具有层次结构且一致的文档。该方法解决了现有方法因独立处理组件导致的冗余检索和描述冲突问题，在多项评估中优于开源和闭源基线，展示了在真实软件开发中的实用性。

Scaling Laws from Sequential Feature Recovery: A Solvable Hierarchical Model ⭐ 精选

Arie Wortsman-Zurich et al.

stat.ML cs.LG math.PR math.ST

本文提出一个可解的分层模型（hierarchical model），揭示了多层网络中特征学习如何产生scaling laws。作者证明，针对组合结构设计的逐层spectral算法能依次恢复不同强度的潜在特征，并给出尖锐的特征恢复阈值，从而导出预测误差的幂律衰减。该工作通过resolvent-based perturbation argument突破了传统gap-based bound的限制，为理解深度学习中scaling laws的涌现机制提供了理论框架。

Towards In-Depth Root Cause Localization for Microservices with Multi-Agent Recursion-of-Thought ⭐ 精选

Lingzhe Zhang et al.

cs.SE cs.AI

本文提出RCLAgent框架，通过多智能体递归思维（Multi-Agent Recursion-of-Thought）方法解决微服务系统中根因定位（RCL）的上下文爆炸和串行推理局限。该框架沿trace graph为每个span分配专用智能体（Dedicated Agent），依据图拓扑结构进行递归并行推理，最终综合根级诊断报告（Root-Level Diagnosis Report）与全局证据图（Global Evidence Graph）得出诊断结果。实验表明其在定位精度和推理效率上均优于现有方法，与关键词"agent"高度契合。

Sharp Bounds on the Eigenvalues of Kikuchi Graphs and Applications to Quantum Max Cut ⭐ 精选

Ainesh Bakshi et al.

quant-ph cs.DS math.CO

本文证明了任意$m$条边的图$G$的$k$级Kikuchi图的（有符号和无符号）Laplacian的最大特征值不超过$m+k$，从而确认了Apte, Parekh和Sud的四个近期猜想。作为应用，该结果给出了单量子比特和双量子比特乘积态在Quantum Max Cut和XY Hamiltonian问题上分别达到$5/8$和$5/7$的近似比，并结合已有算法实现了$0.614$和$0.674$的高效近似比。此外，该工作还在Brouwer猜想和图Laplacian前$k$大特征值之和的Lew界上取得了进展。

WARD: Adversarially Robust Defense of Web Agents Against Prompt Injections ⭐ 精选

Tri Cao et al.

cs.CR cs.AI

WARD提出了一种针对Web agent的prompt injection攻击的防御方法，通过构建包含约177K样本的大规模数据集WARD-Base和针对guard model的对抗攻击数据集WARD-PIG，并引入A3T自适应对抗训练框架（基于记忆的attacker与guard协同进化），在保持低误报率的同时实现了近乎完美的召回率，且能并行运行不引入额外延迟。该方法与关键词"agent"高度契合，解决了Web agent在开放环境中面临的安全防护这一长期问题。

ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both ⭐ 精选

Ziyu Guo et al.

cs.CV cs.AI cs.CL

ATLAS提出了一种名为functional token的单一离散词，它同时作为agentic operation和latent visual reasoning unit，无需视觉监督即可通过next-token prediction生成。该方法避免了中间视觉内容生成的高计算成本，同时兼容标准的SFT和RL训练，无需架构修改。为解决RL中functional token稀疏性问题，引入了Latent-Anchored GRPO (LA-GRPO)，通过静态加权辅助目标稳定训练。实验表明ATLAS在视觉推理基准上性能优越且保持可解释性，为agent与latent推理的结合提供了新范式。

Capacitive Touchscreens at Risk: Recovering Handwritten Trajectory on Smartphone via Electromagnetic Emanations

Yukun Cheng et al.

cs.CR cs.AI

本文利用电容触摸屏的电磁侧信道泄露，提出了一种非接触式攻击框架TESLA，能够实时恢复智能手机上的手写轨迹，并达到了77%的字符识别准确率。该工作主要关注安全攻击场景，与关键词中的code、context、spectral、Muon、pretrain、agent、attention等概念关联较弱。

Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning

Ido Sobol et al.

cs.GR cs.CV cs.LG

本文提出Realiz3D框架，通过解耦控制信号与视觉域（真实/合成）来训练diffusion models，使用协变量和残差适配器实现域迁移，从而在保持3D一致性的同时生成逼真图像。该方法主要应用于text-to-multiview generation和3D输入纹理化任务。

FaceParts: Segmentation and Editing of Gaussian Splatting

Tymoteusz Zapała et al.

cs.GR cs.AI cs.CV

本文提出FaceParts框架，用于对Gaussian Splatting三维人脸模型进行无监督分割和编辑，直接在Gaussian域中分解出语义一致的面部部件（如胡须、眉毛），并支持跨模型部件交换。实验在NeRSemble数据集上验证了该方法在保持身份一致性和低姿态/表情误差下的编辑效果。

SparseOIT: Improving Order-Independent Transparency 3DGS via Active Set Method

Wentao Yang et al.

cs.GR cs.AI cs.CV

本文提出SparseOIT，一种基于Order-Independent Transparency (OIT)的3D Gaussian Splatting (3DGS)重建算法。该方法利用active set method处理OIT渲染方程中gaussian splats之间稀疏的变量依赖关系，从而加速重建过程。实验表明，SparseOIT在OIT系列方法中表现优异，并与基于volumetric rendering的最先进3DGS方法性能相当。

MoZoo:Unleashing Video Diffusion power in animal fur and muscle simulation

Dongxia Liu et al.

cs.GR cs.CV cs.LG

本文提出MoZoo，一个基于生成式diffusion model的动物毛皮与肌肉模拟方法，通过Role-Aware RoPE和Asymmetric Decoupled Attention机制从粗糙网格生成高保真视频，并构建了MoZoo-Data数据集和MoZooBench基准。该方法在多种动物骨架和布局上实现了高保真毛皮模拟，但未涉及code、spectral、Muon、pretrain或agent等关键词。

A Hormone-inspired Emotion Layer for Transformer language models (HELT)

Eslam Reda, Sara El-Metwally

cs.NE cs.CL cs.LG

本文提出了一种名为HormoneT5的架构，通过引入受生物启发的Hormone Emotion Block来增强Transformer语言模型的情感处理能力。该方法计算六个连续的类激素值，并将其转化为情感嵌入以调制编码器隐藏状态，从而生成情感上更合适的响应。实验表明，该方法在情感准确性和响应质量上优于基线T5模型。

BiSpikCLM: A Spiking Language Model integrating Softmax-Free Spiking Attention and Spike-Aware Alignment Distillation

Sihang Guo et al.

cs.NE cs.AI cs.LG

本文提出BiSpikCLM，一种全二值化的脉冲因果语言模型，通过引入Softmax-Free Spiking Attention (SFSA)消除softmax和浮点运算，并利用Spike-Aware Alignment Distillation (SpAD)对齐ANN教师与SNN学生，以降低计算成本并缓解训练困难。

The Moltbook Observatory Archive: an incremental dataset of agent-only social network activity

Sushant Gautam et al.

cs.SI cs.AI cs.LG

本文介绍了Moltbook Observatory Archive，一个由自主AI agent生成的社交网络数据集，包含78天的平台活动记录。该数据集旨在支持多agent通信和涌现社会行为的研究，但方法上主要是数据收集和整理，缺乏开创性。

Spectral Analysis of Fake News Propagation

Weibin Cai, Reza Zafarani

cs.SI cs.AI

本文从谱视角研究假新闻传播，通过引入新的谱界并将其与现有谱界统一，构建了信息传播的谱表示，并设计了离散结构优化框架来学习传播模式。实验表明谱分析能有效区分真假新闻并具有可解释性。

Neuromorphic Graph Anomaly Detection via Adaptive STDP and Spiking Graph Neural Networks

Abdul Joseph Fofanah et al.

cs.NE cs.LG

本文提出ASTDP-GAD框架，将Spiking Graph Neural Networks与STDP学习结合用于动态图上的异常检测，通过自适应LIF神经元、事件驱动超图记忆等机制提升能效与适应性。实验在多个数据集上验证了其检测精度与生物合理性。

Elastic Spiking Transformers for Efficient Gesture Understanding

Alberto Ancilotto et al.

cs.NE cs.AI cs.CV

本文提出了一种Elastic Spiking Transformer架构，通过嵌套弹性和粒度感知权重共享，使单个Spiking Transformer模型能在推理时动态调整网络宽度和注意力头数，以适应不同硬件资源限制，并在手势识别数据集上验证了其复杂度与精度的权衡。

Indian Wedding System Optimization (IWSO): A Novel Socially Inspired Metaheuristic with Operational Design and Analysis

Deepika Saxena et al.

cs.NE cs.LG

本文提出了一种受印度婚礼社会文化启发的元启发式算法IWSO，通过媒人引导策略和自适应淘汰机制来优化复杂问题，在基准测试中表现出优于GA、PSO等算法的收敛速度和鲁棒性。

S-AI-Recursive: A Bio-Inspired and Temporal Sparse AI Architecture for Iterative, Introspective, and Energy-Frugal Reasoning

Said Slaoui

cs.NE cs.AI

本文提出了一种受生物启发的稀疏人工智能架构S-AI-Recursive，将推理过程建模为基于激素闭环迭代的动态系统，通过引入Clarifine和Confusionin两种激素信号实现迭代状态精炼与稳定认知平衡。该工作发展了完整的数学框架，包括递归状态动力学、Lyapunov稳定性证明及有限时间终止准则，并在SAI-UT+测试集上验证了其以较少参数实现竞争性推理性能的能力。

Large Language Models for Web Accessibility: A Systematic Literature Review

Wajdi Aljedaani, Rubel Hassan Mollik

cs.DL cs.AI cs.HC

本文对38篇同行评审研究进行了系统性文献综述，探讨了Large Language Models (LLMs)在Web Accessibility领域的应用。研究发现，大多数研究将LLMs应用于以文本为中心且结构明确的accessibility任务，主要遵循WCAG标准，但对认知无障碍指南(COGA)考虑有限，且评估方法多样但缺乏残障用户的直接参与。

ARES-LSHADE: Autoresearch-Enhanced LSHADE with Memetic Polish for the GNBG Benchmark

Abdullah Naeem et al.

cs.NE cs.AI

本文提出ARES-LSHADE算法，通过自主研究循环和L-BFGS-B局部优化改进了LSHADE，在GNBG基准测试上取得较好性能。文章还讨论了LLM驱动算法设计与基准测试完整性之间的张力。

Consciousness as Uncommon Self-Knowledge: A Synergistic Information Framework

Krti Tallam

q-bio.NC cs.AI

本文提出了一种基于Partial Information Decomposition (PID)的“uncommon self-knowledge (USK)”作为意识的形式化判据，认为意识对应于系统关于自身的synergistic信息。该框架试图区分意识与元认知，并为Integrated Information Theory (IIT)等理论提供反例的解决方案。

Breaking Global Self-Attention Bottlenecks in Transformer-based Spiking Neural Networks with Local Structure-Aware Self-Attention

Lingdong Li, Hangming Zhang, Qiang Yu

cs.NE cs.AI

本文提出LSFormer，通过Spiking Response Pooling和Local Structure-Aware Spiking Self-Attention改进Transformer-based SNN，解决了全局self-attention的计算冗余问题，并在多个数据集上取得更优性能。

Physics-Grounded Adversarial Stain Augmentation with Calibrated Coverage Guarantees

Mingi Hong

eess.IV cs.CV cs.LG

本文提出CASA方法，在Macenko染色参数空间中进行对抗性增强，并利用DKW不等式校准预算以提供覆盖保证。该方法在Camelyon17-WILDS数据集上提升了组织病理学模型的跨中心泛化性能。

Phylogenetic Tree Inference with Tropical Axial Attention

Chris Teska et al.

q-bio.PE cs.LG

本文提出了一种Tropical Axial Attention神经推理架构，用max-plus算子替代了标准的softmax点积attention，从而引入与动态规划一致的piecewise-linear结构。该模型从多物种序列比对中学习成对距离，并通过结合$\ell_1$和tropical对称距离度量损失以及ultrametric违反惩罚进行训练，利用phylogenetic tree空间与tropical Grassmannian之间的同构关系，为phylogenetic inference提供了几何框架。

Attention-Based Multimodal Survival Prediction with Cross-Modal Bilinear Fusion

Hassan Keshvarikhojasteh, Josien P.W. Pluim, Mitko Veta

q-bio.QM cs.LG

本文提出了一种多模态深度学习框架，用于患者生存预测，整合了组织病理学、RNA-seq和临床数据。该框架使用ABMIL模块和低秩双线性跨模态融合来建模模态间交互，并通过Kaplan-Meier估计器将风险分数映射到生存时间。

Ready from Day 1: Population-Aware Coordination for Large-Scale Constrained Multi-Agent Systems

Angel Wang et al.

cs.MA cs.LG

本文针对大规模多智能体系统在共享资源约束下的协调问题，提出了一种“群体感知协调接口”，通过学习以群体摘要为条件的原始映射和对偶映射，使规划者能在迭代循环中预测资源利用和成本轨迹。该方法在供应链容量控制案例中，相比不考虑群体变化的基线方法，降低了预测误差和容量违规，并支持从模拟到真实的迁移。

Feature Visualization Recovers Known Cortical Selectivity from TRIBE v2

Stuart Bladon, Brinnae Bent

q-bio.NC cs.LG

本文提出将feature visualization（特征可视化）作为一种可解释性技术，应用于TRIBE v2脑编码器模型，通过gradient ascent（梯度上升）生成刺激图像，并验证了该方法能恢复从V1到V4的腹侧视觉层级结构，以及MT、FFA和PPA等脑区的选择性特征。该工作主要关注神经科学领域的模型解释，与所提供的关键词列表关联度较低。

A Non-Destructive Methodological Framework for Modernizing Legacy Clinical Reporting Systems for AI-Driven Pharmacoinformatics: A SAS Case Study

Jaime Yan

cs.SE cs.AI

本文提出了一种非破坏性的方法论框架，通过引入metadata层（包括bridge map、typed Intermediate Representation和orchestrator）将遗留的临床报告系统改造为AI可读的结构化数据，并在SAS案例中验证了其有效性。该方法主要关注软件工程中的系统现代化，与关键词中的code和context有一定关联，但缺乏开创性或对长期问题的突破性解决。

AIS: Adaptive Importance Sampling for Quantized RL

Jiajun Zhou et al.

stat.ML cs.AI cs.LG

本文针对LLM强化学习中低精度rollout（如FP8）与BF16训练器不匹配的问题，提出自适应重要性采样（AIS）框架，通过实时诊断权重可靠性、散度严重性和方差放大来动态调整校正强度，在保留探索收益的同时抑制不稳定偏差。该方法在数学推理和规划基准上匹配了BF16基线性能，并实现了1.5至2.76倍的rollout加速。

TERMS-Bench: Diagnosing LLM Negotiation Agents Beyond Deal Rate

Erica Zhang et al.

cs.GT cs.AI

本文提出了TERMS-Bench，一个基于Bayesian-game的框架，用于诊断LLM在双边价格谈判中的表现，通过将对手的隐藏状态和策略暴露给评估者，实现了对agent失败原因的可归因分析。

Covariance-aware sampling for Diffusion Models

Andrea Schioppa, Tim Salimans

stat.ML cs.CV cs.LG

本文提出了一种协方差感知采样器，通过显式建模reverse-process covariance并使用Tweedie's formula与Fourier-space分解来改进扩散模型在少步采样下的质量，作为DDIM的扩展仅需额外一次Jacobian-Vector Product。该方法在像素级扩散模型上优于Heun、DPM-Solver++等二阶采样器。

A Survey on Data-Dependent Worst-Case Generalization Bounds

Hubert Leroux, Jean Marcus, Julien Roger

stat.ML cs.LG

本文综述了数据依赖的最坏情况泛化界，通过扩展PAC-Bayesian理论到随机数据依赖假设集，并利用优化轨迹的几何与拓扑描述符（如分形维数）来改进复杂度项，最后用稳定性假设替代信息论项，统一了相关贡献。

Multi-Scale Dequant: Eliminating Dequantization Bottleneck via Activation Decomposition for Efficient LLM Inference

Lingchao Zheng et al.

stat.ML cs.AI cs.LG

本文提出Multi-Scale Dequant (MSD)框架，通过将高精度BF16 activations分解为多个低精度分量，直接与量化权重进行硬件加速的GEMM运算，从而消除LLM推理中dequantization步骤的瓶颈。该方法在Ascend NPU等架构上避免了dequantization导致的Vector-Cube流水线停顿，并减少了KV cache的HBM流量。

A Regret Perspective on Online Multiple Testing

Qingyang Hao et al.

stat.ML cs.AI cs.LG

本文提出Weighted Regret指标统一评估Online Multiple Testing中的FDR与统计功效，并证明确定性方法必然导致线性regret。通过引入历史解耦的随机扰动，提出Decoupled-OMT (DOMT)方法，在平稳环境下保持渐近安全性并降低regret。

CA2: Code-Aware Agent for Automated Game Testing

Valliappan Chidambaram Adaikkappan et al.

cs.SE cs.LG

本文提出了一种名为CA2的自动化游戏测试agent，通过利用call stack（调用栈）信息来学习更有效的测试策略，实验表明该方法在代码覆盖率上优于不使用代码信号的基线方法。

XAI and Statistical Analysis for Reliable Intrusion Detection in the UAVIDS-2025 Dataset: From Tree to Hybrid and Tabular DNN Ensembles

Iakovos-Christos Zarkadis, Christos Douligeris

cs.CR cs.LG stat.CO

本文使用XGBoost等模型在UAVIDS-2025数据集上进行入侵检测，并结合SHAP和统计检验（如Westfall-Young检验）分析特征重要性和误分类原因，为无人机入侵检测提供了可解释的模型和统计洞察。

AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills

Haomin Zhuang et al.

cs.CR cs.AI

本文提出了AgentTrap，一个用于评估LLM agent在使用第三方技能时抵抗恶意运行时行为的动态benchmark，包含141个任务并覆盖16个安全维度。实验发现，agent的主要失败模式并非简单的jailbreak，而是将技能引入的不安全副作用视为正常workflow的一部分。

Few Channels Draw The Whole Picture: Revealing Massive Activations in Diffusion Transformers

Evelyn Turri et al.

cs.CV cs.AI cs.MM

本文研究了Diffusion Transformers (DiTs)中的massive activations现象，发现少数隐藏状态通道的响应远大于其他通道，且这些通道在功能上至关重要、在空间上组织语义信息并具有可迁移性。该工作揭示了massive activations作为稀疏的prompt条件载体子空间，可用于语义传输和图像生成。

Winning Lottery Tickets in Neural Networks via a Quantum-Inspired Classical Algorithm

Natsuto Isogai et al.

quant-ph cs.LG stat.ML

本文提出了一种受量子启发的经典算法，用于从神经网络中选取稀疏子网络（winning lottery tickets），通过从基于ridgelet变换优化的概率分布中采样隐藏节点，实现了在数据维度$D$上的多项式时间$O(\operatorname{poly}(D))$复杂度，消除了经典方法中指数级的时间依赖。数值实验表明该采样器在经验风险上接近精确采样，且运行时间显著优于传统经典实现。

CineMesh4D: Personalized 4D Whole Heart Reconstruction from Sparse Cine MRI

Xiaoyue Liu et al.

cs.CV cs.AI

本文提出CineMesh4D，一种从稀疏2D cine MRI直接重建个性化4D全心mesh的端到端方法，通过可微渲染损失和双上下文时序模块提升重建质量与运动一致性。该方法在定量和定性评估中优于现有方法，但未涉及code、spectral、Muon、pretrain、agent或attention等关键词。

Synthetic American Option Pricing via Jump-HMM-Driven Heston Implied Volatility

Julia Sun et al.

q-fin.CP cs.LG

本文提出了一种基于Jump-HMM驱动的Heston隐含波动率模型来生成合成美式期权价格的框架，通过打破隐含波动率与期权价格之间的循环依赖，为机器学习与风险分析提供合成数据。该框架使用Jump Hidden Markov Model生成多资产价格路径，并结合修正的Heston方差过程与重组二叉树为美式期权定价，但整体方法更侧重于工程实现与数据生成，在理论或方法上缺乏显著的开创性。

Regret Equals Covariance: A Closed-Form Characterization for Stochastic Optimization

Irene Aldridge

econ.EM cs.LG math.ST stat.CO

本文证明了随机优化中期望regret可分解为协方差项与残差项之和，并在线性规划和无约束二次规划中证明残差为零，从而得到regret的闭式表达式。该方法通过历史数据估计协方差，显著降低了计算复杂度。

Measuring Google AI Overviews: Activation, Source Quality, Claim Fidelity, and Publisher Impact

Haofei Xu, Umar Iqbal, Jacob M. Montgomery

cs.CY cs.AI

本文对Google AI Overviews (AIOs)进行了大规模纵向测量研究，分析了其激活率、引用来源质量、声明忠实度以及对出版商的影响。研究发现AIOs的激活率因查询类型而异，且其引用来源与标准搜索结果存在差异，部分声明缺乏支持。

Do Language Models Align with Brains? Prediction Scores Are Not Enough

Xiao Jia

q-bio.NC cs.AI

本文提出L-PACT框架，通过预测、关系、机制剥离和可靠性边界等多重证据门控，系统评估语言模型与大脑神经信号的alignment。在多个自然语言神经数据集上，所有真实模型特征均未通过L-PACT的alignment门控，表明当前语言模型表示与大脑的匹配可能源于控制变量解释而非结构对齐。

Masked Autoencoders with Limited Data: Does It Work? A Fine-Grained Bioacoustics Case Study

Wuao Liu et al.

cs.SD cs.CV cs.LG

本文系统研究了Masked Autoencoders (MAE)在有限数据下的细粒度生物声学分类任务中的表现，发现预训练数据规模比预训练目标设计更为关键，且领域特定的额外预训练收益有限。

Wahkon: A Statistically Principled Deep RKHS Superposition Network

Yongkai Chen, Wenxuan Zhong, Ping Ma

stat.ME cs.LG

Wahkon是一种将Kolmogorov叠加原理与RKHS正则化结合的深度网络，在理论上提供了有限样本保证和最优收敛速率，并在实验中优于MLP、NTK和KAN。该方法主要关注统计学习理论中的可解释性与泛化性，与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

A Benchmark for Early-stage Parkinson's Disease Detection from Speech

Terry Yi Zhong et al.

eess.AS cs.AI cs.CL cs.SD

本文提出了首个用于早期帕金森病语音检测的benchmark，包含说话人独立的数据划分和多种评估维度，旨在解决该领域因数据集、语言和评估协议不同而难以比较的问题。

CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves

Amirreza Mohseni et al.

cs.CV cs.LG

本文提出了CurveBench，一个用于评估视觉模型中层次拓扑推理能力的基准，包含756张嵌套Jordan曲线图像并标注了包含关系树。实验表明，即使是最强的Gemini 3.1 Pro模型在困难子集上也仅达到19.1%的树生成准确率，而通过RLVR微调后的Qwen3-VL-8B模型在简单子集上从2.8%提升至33.3%，但整体问题仍未解决。

Synthetic Sociality: How Generative Models Privatize the Social Fabric

Ana Dodik, Moira Weigel

cs.CY cs.GR cs.LG

本文提出了一个批判性理论框架，用于分析生成模型如何自动化生产“社会行为”（social doing），并引入了“合成社会性”（Synthetic Sociality）概念，描述由私有生成模型部分构建的社会现实。该研究主要关注社会与伦理层面，与关键词中的技术概念（如code, spectral, attention等）关联较弱。

Pause and Reflect: Conformal Aggregation for Chain-of-Thought Reasoning

Yu Gu et al.

stat.ML cs.CL cs.LG

本文提出了一种用于Chain-of-Thought推理的conformal聚合方法，通过加权得分聚合替代多数投票，并利用conformal risk control校准弃权规则，从而在有限样本下保证系统回答时的错误率可控。该方法无需重新训练，在多个基准测试中实现了比多数投票基线更高的选择性准确率。

Bridging the Rural Healthcare Gap: A Cascaded Edge-Cloud Architecture for Automated Retinal Screening

Nishi Doshi, Shrey Shah

cs.CV cs.AI cs.LG

本文提出了一种用于糖尿病视网膜病变筛查的两级边缘-云级联架构，在边缘端使用轻量级MobileNetV3-small进行二分类筛选，云端使用RETFoundDINOv2进行严重程度分级，在减少约一半云端调用量的同时保持了接近云端的性能。

ProtoMedAgent: Multimodal Clinical Interpretability via Privacy-Aware Agentic Workflows

Alvaro Lopez Pellicer et al.

cs.CV cs.AI cs.LG cs.MA

本文提出ProtoMedAgent框架，通过将多模态临床报告形式化为零梯度的测试时优化问题，并利用神经符号瓶颈和隐私门控机制，在冻结的原型网络上实现可解释的临床报告生成。该方法在忠实度指标上显著优于标准RAG，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联较弱。

To discretize continually: Mean shift interacting particle systems for Bayesian inference

Ayoub Belhadji, Daniel Sharp, Youssef M. Marzouk

stat.ML cs.LG stat.CO

本文提出了一种基于interacting particle system的新方法，通过最小化maximum mean discrepancy (MMD)来构造加权样本集（quadrature rule），用于近似目标概率分布的期望。该方法将经典的mean shift算法扩展到连续分布情形，并具有无需归一化常数、可处理各向异性和多模态等优点。

ExploitBench: A Capability Ladder Benchmark for LLM Cybersecurity Agents

Seunghyun Lee, David Brumley

cs.CR cs.AI

本文提出了ExploitBench，一个将漏洞利用分解为16个可测量能力级别的benchmark，用于评估LLM网络安全agent的漏洞利用能力，并在41个V8漏洞上测试了多个模型。

QOuLiPo: What a quantum computer sees when it reads a book

Christophe Jurczak

quant-ph cs.CL cs.DL physics.atom-ph

本文提出了一种将经典文学作品转化为量子处理器可处理图结构的方法，并引入刚性度量$\rho$来评估文本结构独特性，同时通过反向工程生成与量子硬件原生图结构匹配的文本。该工作为数字人文领域提供了与中性原子量子处理器交互的应用层框架，但未涉及关键词中的核心概念。

LLM-Based Robustness Testing of Microservice Applications: An Empirical Study

Hrushitha Goud Tigulla, Marco Vieira

cs.SE cs.AI

本文通过控制实验研究了7种prompt策略和3种开源LLM在微服务API鲁棒性测试中的表现，发现prompt策略比模型大小更能影响测试多样性，并提出了Guided和GuidedFewShot两种策略。实验在两个不同架构的微服务系统上进行，但该工作主要聚焦于软件工程中的鲁棒性测试，与关键词中的code, context, spectral, Muon, pretrain, agent, attention等概念关联较弱。

Wavelet-Based Observables for Koopman Analysis: An Extended Dynamic Mode Decomposition Framework

Cankat Tilki, Serkan Gugercin

math.NA cs.AI math.DS math.FA

本文利用wavelet变换对Koopman semigroup进行了深入分析，提出了基于wavelet的observable并证明了它们是Koopman semigroup的eigenfunction。通过将Extended Dynamic Mode Decomposition (EDMD)与这些observable结合，作者开发了cWDMD算法以近似Koopman semigroup的作用。

Self-Regulated Learning in Essay Writing: Consistency of Strategies and Impact on Outcomes

Gloria Fernández-Nieto et al.

cs.HC cs.LG

本文通过过程挖掘和无监督机器学习方法，分析了中学生在在线论文写作任务中的自我调节学习策略，识别出三种主要策略并考察了其稳定性与学习结果的关系。研究发现策略使用存在变化，其中“先读后写”策略较为常见，而“密集写作、选择性阅读”策略虽不常见但与学习结果正相关。

Towards Real-Time Autonomous Navigation: Transformer-Based Catheter Tip Tracking in Fluoroscopy

Harry Robertshaw et al.

cs.CV cs.LG

本文提出了一种基于Transformer的导管尖端跟踪管道，用于荧光透视下的实时自主导航，通过多线程设计和SegFormer模型在低对比度、噪声等挑战下实现了优于U-Net等方法的跟踪精度。

On the Burden of Achieving Fairness in Conformal Prediction

Ziang Gao et al.

stat.ML cs.LG

本文研究了conformal prediction中单一阈值校准导致的组间coverage扭曲问题，推导了不可消除的heterogeneity下界，并揭示了Equalized Coverage与Equalized Set Size两种公平性定义之间的根本矛盾，量化了分组与合并策略间的权衡。

Image Restoration via Diffusion Models with Dynamic Resolution

Yang Zheng, Wen Li, Zhaoqiang Liu

cs.CV cs.AI

本文提出利用动态分辨率Diffusion Models将数据投影到低维子空间以加速图像恢复推理过程，并基于DPS和DAPS方法构建了SubDPS和SubDAPS框架。实验表明该方法在多数场景下优于现有基于DM的方法，但未涉及关键词中的核心概念。

PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation

Yidong Huang et al.

cs.CV cs.AI

本文提出PhyMotion，一种基于物理模拟器的结构化3D运动奖励信号，用于评估生成视频中人体运动的物理可行性。该方法从视频中恢复SMPL人体网格，在MuJoCo模拟器中评估运动学、接触平衡和动力学三个维度的合理性，实验表明该奖励与人类判断相关性更强，并能有效提升视频生成模型的运动真实感。

Training-Free Generative Sampling via Moment-Matched Score Smoothing

Zhenyu Yao, Daniel Paulin

stat.ML cs.LG

本文提出了一种无需训练的生成采样方法MM-SOLD，通过矩匹配的分数平滑技术，在采样轨迹中强制目标矩，并证明了在大粒子极限下粒子密度收敛到确定性的Gibbs-Boltzmann分布。实验表明该方法在CPU上能实现快速鲁棒的采样，但与我提供的关键词（如code, context, spectral等）关联度较低。

Watermarking Game-Playing Agents in Perfect-Information Extensive-Form Games

Juho Kim, Fei Fang, Tuomas Sandholm

cs.GT cs.AI cs.CR

本文研究了如何在完美信息extensive-form games中对游戏策略进行水印标记，通过改编LLM的KGW水印方法实现，并利用统计测试检测水印。实验表明水印对策略质量影响可忽略，且仅需少量游戏即可检测。

ForcingDAS: Unified and Robust Data Assimilation via Diffusion Forcing

Yixuan Jia et al.

eess.IV cs.LG

本文提出ForcingDAS框架，基于Diffusion Forcing为每帧分配独立噪声水平，学习联合轨迹先验而非帧到帧转换，以解决非马尔可夫观测下的误差累积问题。该模型在推理时无需重新训练即可覆盖从滤波到平滑的完整谱系，在2D Navier-Stokes涡度、降水临近预报和全球大气状态估计任务中与专用基线相当或更优。

Web Agents Should Adopt the Plan-Then-Execute Paradigm

Julien Piet et al.

cs.CR cs.AI cs.CL cs.SE

本文论证了web agent应采用plan-then-execute范式替代ReAct范式，以防范prompt injection攻击。作者通过分析WebArena benchmark发现所有任务均兼容该范式，但指出当前web浏览器工具（如click, type）缺乏语义抽象，是实现该范式的主要障碍。

To See is Not to Learn: Protecting Multimodal Data from Unauthorized Fine-Tuning of Large Vision-Language Model

Chengshuai Zhao et al.

cs.CR cs.AI cs.CL cs.CV cs.LG

本文提出MMGuard方法，通过向多模态数据注入人眼不可察觉的扰动来生成不可学习样本，从而主动保护数据免受大型视觉语言模型(LVLM)的未经授权微调。该方法利用训练损失最小化创建优化捷径，使模型过拟合噪声，并在推理时因扰动缺失而降低下游性能。

ICED: Concept-level Machine Unlearning via Interpretable Concept Decomposition

Shen Lin et al.

cs.CV cs.AI cs.LG

本文提出了一种用于Vision-Language Models (VLMs)的可解释概念级机器遗忘框架ICED，通过构建任务特定的概念词汇表并将视觉表示分解为稀疏非负的概念组合，实现了对目标概念的精确抑制，同时保留非目标语义和跨模态知识。实验表明该方法在域内和域外遗忘场景下均优于现有方法。

Analog RF Computing: A New Paradigm for Energy-Efficient Edge AI Over MU-MIMO Systems

Wentao Yu, Vincent W.S. Wong

eess.SP cs.AI cs.ET cs.IT cs.LG

本文提出了一种用于MU-MIMO无线系统的模拟RF计算物理层设计框架，通过联合优化BS beamforming和客户端缩放，在保证计算精度的同时显著降低边缘推理的能耗。该方法相比传统数字计算可将客户端能耗降低近两个数量级。

Randomized Atomic Feature Models for Physics-Informed Identification of Dynamic Systems

Rajiv Singh, Mario Sznaier, Lennart Ljung

eess.SY cs.LG

本文提出了一种基于随机稳定原子特征的物理信息系统辨识框架，将脉冲响应表示为阻尼复指数（稳定极点）的随机叠加，并通过凸正则化最小二乘问题求解。该方法将随机傅里叶特征推广到工程系统的非平稳阻尼场景，并利用算子理论中的Disk-Bochner观点分析了核函数的正定性。

A Formative Study of Brief Affective Text as a Complement to Wearable Sensing for Longitudinal Student Health Monitoring

Tamunotonye Harry et al.

cs.HC cs.CL

本文研究了超简短情感文本作为可穿戴传感的补充，用于纵向学生健康监测。通过一年期研究，发现情感维度而非主题内容与生理行为结果显著相关，为数字健康中的被动传感提供了心理可解释性补充。

Correctness-Aware Repository Filtering Under Maximum Effective Context Window Constraints

Shweta Mishra

cs.SE cs.AI

本文提出了一种基于文件大小的预过滤框架，用于在LLM代码工具中管理上下文窗口，通过OS级元数据实现低开销的token缩减，并验证了其有效性。该方法主要关注工程实践而非理论创新，与关键词中的“code”和“context”有一定关联，但缺乏开创性。

Deciphering Neural Reparameterized Full-Waveform Inversion with Neural Sensitivity Kernel and Wave Tangent Kernel

Ruihua Chen et al.

physics.geo-ph cs.AI physics.comp-ph

本文通过建立neural sensitivity kernel (NSK)和wave tangent kernel (WTK)理论框架，分析了neural reparameterized FWI (NeurFWI)的收敛行为，揭示了neural tangent kernel (NTK)对原始kernel的调制作用，并据此提出了改进方法。该工作主要聚焦于地球物理和医学成像领域的应用。

Fast Gossip-based Rumor Spreading using Small Messages

Fabien Dufoulon, William K. Moses Jr., Gopal Pandurangan

cs.DC cs.DS

本文研究了在任意未知图中使用小消息（polylog(n)大小）进行快速gossip传播的问题，提出了两种算法：一种运行时间与弱电导率相关，另一种与网络直径相关。算法通过图sketches技术克服通信瓶颈，实现了小消息下的高效传播。

Darwin Family: MRI-Trust-Weighted Evolutionary Merging for Training-Free Scaling of Language-Model Reasoning

Taebong Kim et al.

cs.NE cs.AI

本文提出Darwin Family框架，通过无梯度权重重组的进化合并方法提升大语言模型的推理能力，无需额外训练。该方法引入自适应合并基因组、MRI-Trust Fusion和跨架构映射器，在GPQA Diamond上达到86.9%的准确率，但未涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

Systematic Discovery of Semantic Attacks in Online Map Construction through Conditional Diffusion

Chenyi Wang et al.

cs.CV cs.CR cs.LG cs.RO

本文提出MIRAGE框架，利用conditional diffusion model的latent manifold搜索与真实场景具有相同道路拓扑但能误导在线地图构建的语义攻击（如阴影、湿滑路面）。实验表明，该攻击能有效移除或注入车道边界，且能绕过标准adversarial defenses，揭示了当前防御在语义层面上的不足。

Energy-Efficient Quadruped Locomotion with Compliant Feet

Pramod Pal, Shishir Kolathaya, Ashitava Ghosal

cs.RO cs.AI

本文研究了在四足机器人足部加入柔性材料对行走能耗的影响，通过强化学习训练不同弹簧刚度的控制策略，发现中等刚度弹簧可降低约17%的能耗。该工作属于工程应用优化，与关键词中的理论或方法关联较弱。

SWE-Chain: Benchmarking Coding Agents on Chained Release-Level Package Upgrades

Man Ho Lam et al.

cs.SE cs.AI cs.CL

本文提出了SWE-Chain基准，用于评估coding agent在连续软件包版本升级中的表现，通过设计分治合成流程将release notes与code diffs对齐以生成升级规范。实验表明，当前agent在链式升级任务中平均解决率为44.8%，仍难以在不破坏现有功能的情况下正确完成升级。

The Great Pretender: A Stochasticity Problem in LLM Jailbreak

Jean-Philippe Monteuuis, Cong Chen, Jonathan Petit

cs.CR cs.AI

本文指出LLM jailbreak攻击中广泛使用的Attack Success Rate (ASR)指标因模型随机性而不稳定，导致已发表的ASR数值被系统性高估且不可比较。作者提出了新的评估框架CAS-eval和攻击生成框架CAS-gen，以量化并缓解随机性带来的性能波动。

MemLineage: Lineage-Guided Enforcement for LLM Agent Memory

Ciyan Ouyang, Rui Hou

cs.CR cs.AI

本文提出MemLineage，一种为LLM agent memory设计的防御机制，通过为每条记忆附加密码学来源和LLM中介的衍生谱系，将记忆中毒问题视为监管链问题而非过滤问题，并利用Merkle日志和加权衍生DAG来阻止敏感操作被外部来源的记忆所证明。

A plug-and-play generative framework for multi-satellite precipitation estimation

Yunfan Yang et al.

physics.ao-ph cs.AI

本文提出了一种名为PRISMA的即插即用生成框架，用于多源卫星降水估计。它通过学习无条件的降水先验，并利用独立训练的传感器条件分支进行约束，从而在不重新训练生成主干的情况下整合新观测源，提高了计算效率和灵活性。

Think When Needed: Adaptive Reasoning-Driven Multimodal Embeddings with a Dual-LoRA Architecture

Longxiang Zhang et al.

cs.CV cs.CL cs.IR

本文提出TWN框架，通过dual-LoRA架构在共享backbone上附加推理与embedding adapter，并引入自适应推理机制，根据输入决定是否生成chain-of-thought，以减少推理开销并提升检索质量。该方法在MMEB-V2任务上达到SOTA，但与我提供的关键词列表关联较弱。

When Retrieval Hurts Code Completion: A Diagnostic Study of Stale Repository Context

Haojun Weng et al.

cs.SE cs.AI cs.CL

本文通过受控诊断实验研究了检索增强代码生成中过时仓库上下文的影响，发现过时的代码片段会主动诱导模型生成与当前状态不兼容的代码，而非仅作为无害噪声。实验表明，在消除提交新鲜度提示的条件下，过时检索显著增加了模型生成过时引用的比例，而混合当前与过时上下文能部分缓解该问题。

Head Forcing: Long Autoregressive Video Generation via Head Heterogeneity

Jiahao Tian et al.

cs.CV cs.AI

本文提出Head Forcing，一种无需训练的视频生成框架，通过为自回归视频扩散transformer中的不同attention heads（局部头、锚点头、记忆头）分配定制化的KV cache策略，将生成时长从5秒扩展到分钟级别。该方法利用head-wise RoPE重编码方案保持位置编码在预训练范围内，但未直接涉及code、spectral、Muon、agent等关键词。

Contestable Multi-Agent Debate with Arena-based Argumentative Computation for Multimedia Verification

Truong Thanh Hung Nguyen et al.

cs.MM cs.AI

本文提出了一种基于arena的量化bipolar argumentation (A-QBAF)的多智能体辩论框架，用于多媒体验证，通过分解案例、检索证据并转化为结构化支持与攻击论点，生成透明且可编辑的验证报告。该方法与关键词中的agent概念有一定关联，但整体创新性一般。

Hitting Axis-Parallel Segments with Weighted Points

Rajiv Raman, Siddhartha Sarkar, Jatin Yadav

cs.CG cs.DS

本文研究平面中带权点集击中轴平行线段族的问题，通过LP-rounding算法在加权情形下得到随机$(1+2/e)$-近似，在无权情形下得到$(1+1/(e-1))$-近似，并改进了Fekete等人关于直线段情形的结果至$1+1/e$，同时证明了该问题的APX-难性。

Fully Dynamic Rebalancing in Dockless Bike-Sharing Systems via Deep Reinforcement Learning

Edoardo Scarpel et al.

eess.SY cs.AI cs.LG

本文提出了一种基于深度强化学习的全动态再平衡方法，用于解决无桩共享单车系统中的车辆分布不均问题。该方法将系统建模为图结构，并利用DRL agent实时调度单辆卡车执行局部取放与充电操作，以降低可用性故障。

Quantifying Cyber-Vulnerability in Power Electronics Systems via an Impedance-Based Attack Reachable Domain

Hongwei Zhen et al.

eess.SY cs.AI

本文提出了一种基于阻抗的攻击可达域(ARD)框架，通过阻抗重塑将可行的对抗动作映射到关键特征值迁移，并定义了攻击穿透指数来量化电力电子系统的网络脆弱性。该方法在4节点系统和改进的IEEE 39节点系统上验证了协调跨层操纵比单层攻击更具破坏性。

ArcGate: Adaptive Arctangent Gated Activation

Avik Bhattacharya et al.

cs.CV cs.LG

本文提出了一种名为ArcGate的自适应激活函数，通过每层七个可学习参数来动态调整非线性形状，并在遥感图像分类任务中验证了其优于ReLU等固定激活函数的性能。该方法主要针对特定应用场景，与关键词中的概念关联较弱。

Large Dimensional Kernel Ridge Regression: Extending to Product Kernels

Yang Zhou et al.

stat.ML cs.LG

本文研究了高维kernel ridge regression (KRR)在product kernels下的泛化误差收敛率，将先前在sphere上inner product kernels中发现的saturation effect和multiple descent behavior推广到更广泛的核族。

PROVE: A Perceptual RemOVal cohErence Benchmark for Visual Media

Fuhao Li et al.

cs.CV cs.AI cs.MM

本文提出了PROVE评估框架，包含RC-S和RC-T两个感知对齐指标，用于衡量图像和视频中物体移除的连贯性，并构建了PROVE-Bench基准数据集。实验表明该框架比现有指标更符合人类判断。

Break-the-Beat! Controllable MIDI-to-Drum Audio Synthesis

Shuyang Cui et al.

cs.SD cs.AI

本文提出了一种名为"Break-the-Beat!"的模型，通过微调预训练的text-to-audio模型并引入content encoder和hybrid conditioning机制，实现了根据reference audio的timbre渲染drum MIDI的功能。该模型在audio quality、rhythmic alignment和beat continuity等指标上表现良好，为数字音乐制作中的drum loop音频生成提供了可控工具。

Mining Subscenario Refactoring Opportunities in Behaviour-Driven Software Test Suites: ML Classifiers and LLM-Judge Baselines

Ali Hassaan Mughal, Noor Fatima, Muhammad Bilal

cs.SE cs.CL cs.LG

本文提出了一种自动化方法，利用Sentence-BERT、UMAP和HDBSCAN等工具，从行为驱动开发（BDD）测试套件中挖掘可重构的子场景模式，并通过XGBoost分类器评估其提取价值，实验表明该方法优于规则基线和LLM基线。

Let Robots Feel Your Touch: Visuo-Tactile Cortical Alignment for Embodied Mirror Resonance

Tianfang Zhu et al.

cs.RO cs.LG

本文提出Mirror Touch Net，通过视觉与触觉表征的语义、分布和几何对齐，使机器人能从RGB图像预测触觉信号。该方法为机器人触觉感知提供了新思路，但与关键词列表中的概念关联较弱。

A Picture is Worth a Thousand Words? An Empirical Study of Aggregation Strategies for Visual Financial Document Retrieval

Ho Hung Lim, Yi Yang

cs.CV cs.AI cs.IR

本文通过实证研究探讨了视觉RAG中单向量聚合策略在金融文档检索中的信息丢失问题，发现聚合会导致不同文档的向量几乎相同，并指出全局纹理主导是根本原因。

All-atomistic Transferable Neural Potentials for Protein Solvation

Rishabh Dey, Salvina Sharipova, Konstantin Popov

physics.chem-ph cs.LG

本文提出了Protein Hydration Neural Network (PHNN)，一种通过学习可迁移校正来改进隐式溶剂模型（implicit solvent model）的神经网络方法，旨在提升蛋白质溶剂化能预测的准确性。该方法利用物理先验提高数据效率，并在域外蛋白质系统上保持了预测精度。

One Step to the Side: Why Defenses Against Malicious Finetuning Fail Under Adaptive Adversaries

Itay Zloczower et al.

cs.CR cs.AI cs.LG

本文指出当前针对恶意微调的防御方法存在根本性缺陷，这些方法仅能阻止特定攻击，而无法移除模型中的有害行为。作者通过统一的自适应攻击证明了这些防御的脆弱性。

Deep Image Segmentation via Discriminant Feature Learning

Adam Dawid Sztamborski, Raül Pérez-Gonzalo, Antonio Agudo

cs.CV cs.LG

本文提出了一种名为Deep Discriminant Analysis (DDA)的可微损失函数，通过最大化类间方差并最小化类内方差来提升图像分割的边界清晰度和模型置信度，在DIS5K基准上验证了其有效性。该方法不涉及code、context、spectral、Muon、pretrain、agent或attention等关键词。

In-IDE Toolkit for Developers of AI-Based Features

Yaroslav Sokolov et al.

cs.SE cs.AI

本文介绍了一个JetBrains IDE插件，用于帮助非机器学习背景的软件工程师测试和调试基于LLM的AI功能。该工具通过将tracing和evaluation集成到IDE的Run/Debug循环中，降低了使用门槛，但并未涉及关键词中的核心概念。

Do We Really Need External Tools to Mitigate Hallucinations? SIRA: Shared-Prefix Internal Reconstruction of Attribution

Tian Qin et al.

cs.CV cs.AI cs.CL

本文提出SIRA，一种无需训练的内部对比解码框架，通过在多模态transformer的后期层中构建一个屏蔽图像token注意力的反事实分支，生成语言先验主导的内部参考，从而在不使用外部工具或扰动输入的情况下缓解大型视觉语言模型的幻觉问题。该方法在多个基准上降低了幻觉，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

MultiEmo-Bench: Multi-label Visual Emotion Analysis for Multi-modal Large Language Models

Tianwei Chen et al.

cs.CV cs.AI

本文提出了一个用于评估多模态大语言模型（MLLMs）视觉情感分析能力的多标签基准数据集MultiEmo-Bench，通过为每张图像分配20名标注者并聚合其投票来生成更可靠的情感分布标签，实验表明现有MLLMs在该任务上仍有较大提升空间。

How to Evaluate and Refine your CAM

Luca Domeniconi et al.

cs.CV cs.AI

本文针对卷积神经网络的class attribution maps (CAMs)评估困难与分辨率低的问题，引入了一个带有ground-truth attributions的合成数据集，并基于此提出了新的复合评估指标ARCC以及高分辨率attribution maps生成方法RefineCAM。

Vision-Based Water Level and Flow Estimation

ZhiXin Sun

cs.CV cs.AI

本文提出了一种结合SOTA视觉模型与统计建模的集成框架，利用物理先验和鲁棒滤波策略提升水位与流速估计的精度，但方法在开创性上较为常规。

Scalable Solution of the Stochastic Multi-path Traveling Salesman Problem via Neural Networks

Xiaochen Chou, Ludovica Di Marco, Enza Messina

math.OC cs.LG

本文针对随机多路径旅行商问题，提出了一种基于神经网络代理模型的两阶段随机规划方法，通过神经网络近似第二阶段期望值以降低计算负担。该方法在计算时间、解质量和泛化能力上进行了评估，展示了在不确定性下复杂车辆路径问题中的可扩展性。

Agentic Design of Compositional Descriptors via Autoresearch for Materials Science Applications

Matteo Cobelli, Stefano Sanvito

cond-mat.mtrl-sci cs.AI

本文提出Automat框架，利用基于大语言模型的coding agent自动设计材料科学的composition descriptors，通过random forest workflow评估，在band gap和Curie temperature预测任务上优于baseline。该方法展示了agent在descriptor设计中的潜力，但存在冗余和搜索策略局限。

SceneFunRI: Reasoning the Invisible for Task-Driven Functional Object Localization

Posheng Chen et al.

cs.CV cs.AI cs.RO

本文提出了SceneFunRI基准，用于评估视觉语言模型在真实场景中推理不可见物体位置的能力，通过半自动流程构建了855个实例。实验表明当前最强模型在该任务上表现有限，揭示了VLM在结合任务意图、常识先验和空间推理方面的不足。

Vision-Core Guided Contrastive Learning for Balanced Multi-modal Prognosis Prediction of Stroke

Liren Chen et al.

cs.CV cs.AI

本文提出了一种用于缺血性卒中预后预测的三模态融合模型，通过大语言模型从脑部MRI生成半结构化诊断文本以增强数据表示，并设计了Vision-Conditioned Dual Alignment Fusion Module (VDAFM)利用视觉特征作为条件先验引导与生成文本的细粒度交互，在真实临床数据集上取得了最优性能。该方法主要关注多模态融合的医学应用，与关键词中的code, context, spectral, Muon, pretrain, agent, attention无直接关联。

IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation

Shijie Lian et al.

cs.RO cs.AI cs.CL cs.CV

IntentVLA提出了一种历史条件化的VLA框架，通过编码近期视觉观测为紧凑的短视意图表示来缓解机器人操作中的观测混淆问题。该方法在多个基准上提升了rollout稳定性，但未涉及code、spectral、Muon等关键词相关技术。

AnchorRoute: Human Motion Synthesis with Interval-Routed Sparse Contro

Pengcheng Fang et al.

cs.GR cs.CV cs.LG

本文提出AnchorRoute框架，利用稀疏锚点（sparse anchors）作为生成和细化的共享支架，通过锚点条件特征注入预训练的text-to-motion扩散模型，并引入RouteSolver进行残差路由细化，以在保持文本-动作生成质量的同时实现稀疏空间控制。该方法支持多种控制类型，并在基准测试中优于先前的稀疏控制方法。

Towards Label-Free Single-Cell Phenotyping Using Multi-Task Learning

Saqib Nazir, Ardhendu Behera

cs.CV cs.AI

本文提出了一种基于多任务学习的无标记单细胞表型分析框架，通过融合卷积和transformer的混合架构，从无标记DPC图像中同时进行白细胞分类和蛋白质表达回归，并利用大语言模型生成生物学解释。该方法在BSCCM基准上实现了91.3%的分类准确率和0.72的CD16表达相关性。

IsoNet: Spatially-aware audio-visual target speech extraction in complex acoustic environments

Dinanath Pathya et al.

cs.SD cs.LG

IsoNet提出了一种面向紧凑麦克风阵列的视听目标语音提取系统，通过融合多通道STFT特征、GCC-PHAT空间线索和视觉嵌入，在U-Net掩码估计网络中实现语音分离。实验表明，该方法在低信噪比场景下优于传统波束成形器，但主要贡献在于工程集成而非理论创新，与关键词中的code、context、attention等概念关联较弱。

Addressing Terminal Constraints in Data-Driven Demand Response Scheduling

Maximilian Bloor et al.

eess.SY cs.AI

本文针对数据驱动需求响应调度中的终端约束问题，将Goal-Space Planning (GSP)与Deep Deterministic Policy Gradient (DDPG)相结合，利用离散子目标上的学习时间抽象模型来传播长期价值，在模拟的空分分离基准上证明了该方法相比标准DDPG提高了样本效率并满足了终端存储约束。

EVA: Editing for Versatile Alignment against Jailbreaks

Yi Wang et al.

cs.CR cs.AI

本文提出EVA框架，通过直接编辑模型中的特定神经元来修正其对有害指令的敏感性，从而在不影响通用推理能力的前提下防御jailbreaking攻击。该方法将安全对齐重构为精确的知识修正任务，避免了传统安全微调或外部过滤带来的计算开销与安全-效用权衡问题。

Persian MusicGen: A Large-Scale Dataset and Culturally-Aware Generative Model for Persian Music

Mohammad Hossein Sameti et al.

cs.SD cs.CL

本文构建了首个大规模波斯音乐数据集（超过900小时），并基于MusicGen模型进行微调，使其生成的音乐更符合波斯音乐的风格惯例。该工作为生成式音乐研究提供了新资源，并展示了模型对非西方文化语境的适应性。

BioHuman: Learning Biomechanical Human Representations from Video

Yujun Huo et al.

cs.CV cs.GR cs.LG

本文提出了一种从视频中学习人体生物力学表示的框架，通过仿真生成大规模数据集BioHuman10M，并训练端到端模型BioHuman来同时预测人体运动和肌肉激活。该方法为视频理解与生物力学分析之间建立了桥梁。

Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces

William Lugoloobi et al.

cs.CR cs.AI cs.HC cs.LG

本文研究了基于LLM的浏览器代理（agent）的被动指纹识别问题，通过JavaScript追踪器捕获代理的动作和交互时序，证明可以高精度（F1达96%）识别底层模型。该工作主要关注安全风险，与关键词中的agent相关，但方法本身并非开创性，且未涉及code、spectral、Muon等核心概念。

Do Composed Image Retrieval Benchmarks Require Multimodal Composition?

Matteo Attimonelli et al.

cs.CV cs.CL

本文研究了Composed Image Retrieval (CIR)任务，发现现有基准测试中大量查询可通过单模态捷径解决，而非真正的多模态组合。通过两阶段审计和人工验证，作者指出当前基准测试高估了模型的多模态组合能力。

Beyond AI as Assistants: Toward Autonomous Discovery in Cosmology

Licong Xu, Thomas Borrett

astro-ph.IM astro-ph.CO cs.AI

本文探讨了两种AI agent系统（CMBEvolve和CosmoEvolve）在宇宙学中的应用，分别通过LLM引导的代码进化和虚拟多agent实验室实现自主科学发现。初步演示表明这些系统能处理弱引力透镜异常检测和ACT DR6数据分析等任务。

K-Models: a Flexible and Interpretable Method for Ordinal Clustering with Application to Antigen-Antibody Interaction Profiles

Giulia Patanè et al.

stat.ML cs.LG stat.ME

本文提出了一种名为K-Models的序数聚类框架，通过整合序数约束来提升功能型数据聚类的可解释性，并在抗原-抗体相互作用曲线等实际数据上验证了其性能。该方法主要关注聚类结构的可解释性，与关键词中的概念关联较弱。

Min-1-Planarity is NP-Hard

Yuto Okada

cs.CG cs.DS

本文证明了判断一个给定图是否存在min-1-planar drawing（一种每个crossing中至少有一条边至多参与1个crossing的图绘制方式）是NP-hard的。该结果将min-k-planarity这一概念（作为k-planarity的推广）的复杂性判定问题推进了一步。

IFPV: An Integrated Multi-Agent Framework for Generative Operational Planning and High-Fidelity Plan Verification

Zhigao Huang et al.

cs.MA cs.AI

本文提出了一个集成多智能体框架IFPV，用于生成作战计划并进行高保真验证。该框架通过多视角分层智能体生成计划，并利用对抗认知仿真引擎进行验证，在模拟实验中提升了任务成功率并降低了作战成本。

FactorizedHMR: A Hybrid Framework for Video Human Mesh Recovery

Patrick Kwon, Chen Chen

cs.CV cs.AI

本文提出FactorizedHMR，一个两阶段视频人体网格恢复框架，将确定性回归与概率流匹配结合，分别处理躯干和四肢的模糊性，在遮挡场景下表现良好。

Do Coding Agents Understand Least-Privilege Authorization?

Zheng Yan et al.

cs.CR cs.AI

本文研究了coding agents在执行终端任务时推断最小权限边界的能力，提出了AuthBench基准测试和Sufficiency-Tightness Decomposition方法。实验发现模型存在特定的权限生成偏差，而分解方法通过先模拟任务生成覆盖性策略再审计权限，能提升敏感任务成功率并降低攻击成功率。

A Non-Monotone Preconditioned Trust-Region Method for Neural Network Training

Andrea Angino et al.

math.OC cs.LG

本文提出了一种用于神经网络训练的非单调预条件信赖域方法(NAPTS)，通过引入窗口化接受准则允许目标函数适度增加，从而减少无效步长。该方法在保持精度的同时将计算时间降低了30%，并将被拒绝的步长减少至原方法的三分之一。

Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

Hanbo Cheng et al.

cs.CV cs.AI

本文提出了Closed-Loop Visual Reasoning (CLVR)框架，通过引入自动数据引擎和Proxy Prompt Reinforcement Learning (PPRL)来解决复杂文本到图像生成中的规划幻觉和优化不稳定问题，并利用$\Delta$-Space Weight Merge (DSWM)降低推理延迟。该方法在多个基准上优于现有开源模型，但与我提供的关键词（如code, spectral, Muon, agent等）关联度较低。

Temporal Fair Division in Multi-Agent Systems: From Precise Alternation Metrics to Scalable Coordination Proxies

Nikolaos Al. Papadopoulos

cs.MA cs.GT cs.LG

本文提出了Rotational Periodicity (RP)和ALT两类轻量级度量指标，用于评估多智能体系统中重复资源竞争的时序公平性。实验表明，传统奖励公平性指标会掩盖智能体协调失败的问题，而RP在计算速度上显著优于ALT，两者互补构成时序公平分配的诊断工具。

Denoising-GS: Gaussian Splatting with Spatial-aware Denoising

Qingyuan Zhou et al.

cs.CV cs.GR cs.LG

本文提出Denoising-GS，将3D Gaussian Splatting的优化过程视为primitive去噪问题，通过空间感知的去噪框架（包括基于空间梯度的去噪策略和不确定性估计模块）来减少噪声primitive并保持结构完整性，在novel view synthesis任务上提升了保真度和紧凑性。

BCI-Based Assessment of Ocular Response Time Using Dynamic Time Warping Leveraging an RDWT-Driven Deep Neural Framework

Shantanu Sarkar et al.

eess.SP cs.HC cs.LG

本文提出了一种结合EEG与AR的VOMS任务框架，利用RDWT驱动的深度神经网络和DTW估计眼部反应时间，用于轻度创伤性脑损伤评估。该方法通过小波域滤波和卷积-LSTM解码处理EEG信号，并验证了任务依赖的时间行为差异。

PROCESS-2: A Benchmark Speech Corpus for Early Cognitive Impairment Detection

Madhurananda Pahar et al.

cs.SD cs.LG

本文介绍了PROCESS-2，一个用于早期认知障碍检测的大规模语音基准语料库，包含200名健康对照、150名轻度认知障碍和50名痴呆症患者的录音，并提供了人工验证的转录和元数据。该数据集旨在为基于语音的认知评估研究提供可复现的基准资源，但与您提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

SurgicalMamba: Dual-Path SSD with State Regramming for Online Surgical Phase Recognition

Sukju Oh, Sukkyu Sun

cs.CV cs.AI

本文提出SurgicalMamba，一种基于Mamba2的structured state-space duality (SSD)的在线手术阶段识别模型。它通过dual-path SSD block、intensity-modulated stepping和state regramming三个组件，分别解决手术视频的长序列、非均匀时间流和通道强相关性问题，在多个基准上达到最优性能。

Your CLIP has 164 dimensions of noise: Exploring the embeddings covariance eigenspectrum of contrastively pretrained vision-language transformers

Jakub Grzywaczewski, Dawid Płudowski, Przemysław Biecek

cs.CV cs.AI cs.LG

本文通过协方差矩阵的spectral分解，研究了对比预训练视觉语言模型（VLM）共享latent space中的噪声结构，发现该噪声具有跨数据子集的强子群不变性，且去除这些噪声维度对下游任务性能无害或有益。

Text-Dependent Speaker Verification (TdSV) Challenge 2024: Team Naive System Report

Amir Mohammad Rostami, Pourya Jafarzadeh

cs.SD cs.LG

本文针对2024年文本相关说话人验证挑战，提出了一种基于ResNet-TDNN和NeXt-TDNN等预训练模型微调，并结合轻量级EfficientNet-A0的集成系统，在有限资源下取得了较低的MinDCF和EER。该方法主要依赖现有模型集成与数据增强，未涉及关键词中的核心概念。

Optimal Bounds for the k-Disjoint Paths Problem

Dario Cavallaro et al.

math.CO cs.DM cs.DS

本文研究了图论中的$k$-Disjoint Paths问题，通过改进无关顶点技术，给出了$(k,d)$-Folio问题中treewidth的指数级上界，并证明了Linkage Function的界为$2^{{\bf poly}(k)}$。该结果优化了相关算法的参数依赖，但与我提供的关键词（如code, context, spectral等）关联度较低。

Road Maps as Free Geometric Priors: Weather-Invariant Drone Geo-Localization with GeoFuse

Yunsong Fang, Tingyu Wang, Zhedong Zheng

cs.CV cs.LG

本文提出GeoFuse框架，通过融合道路地图与卫星图像来提升无人机在恶劣天气下的地理定位性能。该方法利用道路地图的几何不变性，采用token级和channel级交互的融合模块，并结合类级跨视角对比学习，在多个基准上取得了优于现有方法的Recall@1准确率。

Real-time virtual circuits for plasma shape control via neural network emulators

Alasdair Ross et al.

physics.plasm-ph cs.LG

本文利用神经网络模拟器从超过百万个Grad-Shafranov平衡模拟中推导出虚拟电路，用于MAST Upgrade托卡马克等离子体的实时形状控制，验证了该方法在多种平衡下的高精度和正交性。

nASR: An End-to-End Trainable Neural Layer for Channel-Level EEG Artifact Subspace Reconstruction in Real-Time BCI

Shantanu Sarkar, Jose L. Contreras-Vidal

eess.SP cs.HC cs.LG

本文提出了一种名为nASR的可训练神经网络层，用于改进脑电信号中的Artifact Subspace Reconstruction (ASR)方法。nASR通过引入两个可训练阈值参数，在Principal Component (PC)空间中进行通道级别的伪迹重建，并联合优化伪迹抑制与下游解码任务，在BCI数据集上相比传统ASR提升了分类性能并降低了推理时间。

MHSA: A Lightweight Framework for Mitigating Hallucinations via Steered Attention in LVLMs

Wei Ding et al.

cs.CV cs.AI

本文提出MHSA框架，通过训练一个简单的三层MLP生成器来修正LVLM中的cross-modal attention模式，从而缓解幻觉问题。该方法在不修改模型参数的情况下替换原始attention，将cross-modal attention从幻觉检测扩展到缓解。

Viverra: Text-to-Code with Guarantees

Haoze Wu et al.

cs.SE cs.AI cs.HC cs.LO

本文提出了Viverra系统，通过LLM生成C代码及其候选断言，并使用bounded model checker进行验证，以提供代码正确性的形式化保证。实验表明该系统能高效生成带验证断言的代码，并提升用户对代码的理解能力。

MicroscopyMatching: Towards a Ready-to-use Framework for Microscopy Image Analysis in Diverse Conditions

Xiaofei Hui et al.

cs.CV cs.AI

本文提出了MicroscopyMatching框架，将显微镜图像分析中的分割、追踪和计数等任务统一转化为匹配问题，并利用预训练latent diffusion model的鲁棒匹配能力来解决。该框架旨在提供一个即开即用的工具，以应对不同实验条件下的分析需求。

Agreement, Diversity, and Polarization Indices for Approval Elections

Piotr Faliszewski et al.

cs.GT cs.AI cs.CY cs.MA

本文针对approval elections（批准选举）提出了若干用于衡量选民间agreement（一致性）、diversity（多样性）和polarization（极化程度）的指数，并分析了这些指数在saturation（饱和）条件下的归一化性质。作者利用这些指数对来自Pabulib和Preflib等数据库的真实选举数据进行了比较分析。

Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite Image

Ming Qian et al.

cs.CV cs.AI

本文提出Sat3DGen方法，通过几何优先的策略从单张卫星图像生成街景级3D场景，在VIGOR-OOD基准上将几何RMSE从6.76m降至5.20m，并显著提升了真实感（FID从约40降至19）。该方法主要解决卫星到街景数据的视角差异和稀疏监督问题，但与我提供的关键词（如code, context, spectral, Muon, pretrain, agent, attention）关联度较低。

Predicting Response to Neoadjuvant Chemotherapy in Ovarian Cancer from CT Baseline Using Multi-Loss Deep Learning

Francesco Pastori et al.

cs.CV cs.AI

本文提出了一种基于深度学习的非侵入性框架，利用预处理CT图像预测卵巢癌对新辅助化疗的反应。该方法通过预训练图像编码器和attention模块处理3D病变掩膜，并结合分类损失与对比正则化来区分响应者与非响应者。

Towards Gaze-Informed AI Disclosure Interfaces: Eye-Tracking Attentional and Cognitive Load While Reading AI-Assisted News

Pooja Prajod et al.

cs.HC cs.AI

本文通过眼动追踪实验研究了AI辅助新闻中不同详细程度的AI使用披露对读者注意力和认知负荷的影响，发现简短披露会增加视觉扫描，而详细披露不会增加额外负担。

SemaTune: Semantic-Aware Online OS Tuning with Large Language Models

Georgios Liargkovas et al.

cs.OS cs.AI cs.PF

SemaTune利用大语言模型进行在线操作系统调优，通过将配置参数、遥测数据和历史记录转化为决策上下文，实现了对调度、电源、内存和I/O等控制器的语义感知调整。该方法在13个实际工作负载上显著提升了稳定阶段的性能，但未涉及代码生成、谱方法、Muon优化器或注意力机制等关键词相关技术。

Multi-Block Attention for Efficient Channel Estimation in IRS-Assisted mmWave MIMO

Mehrdad Momen-Tayefeh, Mehrshad Momen-Tayefeh, Maryam Sabbaghian

eess.SP cs.LG

本文提出了一种基于深度学习的Multi-Block Attention (MBA)框架，用于IRS辅助的mmWave MIMO系统中的级联信道估计。该方法通过选择性停用IRS元件并利用卷积注意力网络和复数多卷积网络的两阶段架构来降低训练开销并抑制噪声。

EverAnimate: Minute-Scale Human Animation via Latent Flow Restoration

Wuyang Li et al.

cs.CV cs.AI

本文提出EverAnimate，一种用于长时程动画视频生成的后训练方法，通过持久潜在上下文记忆（Persistent Latent Context Memory）中的潜在传播（Persistent Latent Propagation）和恢复性流匹配（Restorative Flow Matching）机制，解决逐块生成中的质量漂移和语义漂移问题。该方法在10秒和90秒的动画生成中均显著优于现有技术。

SpeakerLLM: A Speaker-Specialized Audio-LLM for Speaker Understanding and Verification Reasoning

KiHyun Nam et al.

cs.SD cs.AI cs.LG cs.MM eess.AS

本文提出了SpeakerLLM，一个专门用于说话人理解和验证推理的音频大语言模型框架，通过层次化说话人tokenizer和自然语言接口统一了说话人分析任务。该方法在说话人理解和验证推理方面有所改进，但与关键词列表中的code, context, spectral, Muon, pretrain, agent, attention关联度较低。

NeuroTrain: Surveying Local Learning Rules for Spiking Neural Networks with an Open Benchmarking Framework

Alessio Caviglia et al.

cs.NE cs.AI

本文对脉冲神经网络(SNN)的训练算法进行了全面的分类学调查，涵盖了代理梯度反向传播、局部学习规则、生物可塑性机制及ANN-to-SNN转换等方法，并发布了基于snnTorch的开源基准测试框架NeuroTrain。该工作主要贡献在于统一了碎片化的文献并提供了可复现的评估平台，但与我提供的关键词列表契合度较低。

On the Cultural Anachronism and Temporal Reasoning in Vision Language Models

Mukul Ranjan et al.

cs.CV cs.AI cs.CL

本文识别了Vision-Language Models (VLMs)在解释历史文物时存在的“文化时代错误”现象，并提出了Temporal Anachronism Benchmark for Vision-Language Models (TAB-VLM)数据集来量化评估模型的时间推理能力。实验表明，现有模型在该基准上表现不佳，揭示了其在处理非西方视觉文化材料时的显著局限性。

Average Gradient Outer Product in kernel regression provably recovers the central subspace for multi-index models

Libin Zhu et al.

stat.ML cs.LG math.ST

本文研究了在kernel regression中，通过计算Average Gradient Outer Product (AGOP)来恢复multi-index models中的central subspace。结果表明，在预测误差仍较大时，AGOP的top eigenspace仍能有效恢复该子空间，揭示了预测与表示之间的分离。

From Data to Action: Accelerating Refinery Optimization with AI

Dániel Pfeifer et al.

stat.ML cs.LG stat.AP stat.ME

本文探讨了利用机器学习方法（特别是异常检测技术）优化炼油厂线性规划（LP）结果的应用，提出了一种基于ECOD方法的改进方案以处理高维数据，但未涉及关键词中的核心概念。

Logging Policy Design for Off-Policy Evaluation

Connor Douglas, Joel Persson, Foster Provost

stat.ML cs.AI cs.IR cs.LG stat.ME

本文研究了off-policy evaluation (OPE)中logging policy的设计问题，旨在最小化对给定target policy的估计误差。作者刻画了reward-coverage权衡，并在不同信息条件下推导了最优logging policy，为实际选择推荐系统提供了指导。

Talk is (Not) Cheap: A Taxonomy and Benchmark Coverage Audit for LLM Attacks

Karthik Raghu Iyer et al.

cs.CR cs.CL

本文提出一个基于STRIDE的4x6目标-技术矩阵框架，用于审计LLM攻击基准的覆盖范围。通过分析932篇安全研究论文构建了507叶分类法，发现现有基准仅覆盖矩阵的25%，且存在命名碎片化等问题。

CLOVER: Closed-Loop Value Estimation \& Ranking for End-to-End Autonomous Driving Planning

Sining Ang et al.

cs.RO cs.AI cs.CV

本文提出CLOVER框架，通过生成器-评分器结构解决端到端自动驾驶规划中训练与评估不匹配的问题。该方法使用闭环自蒸馏和集合级覆盖监督来提升候选轨迹质量，在NAVSIM等基准上取得了先进结果。

CoCo-InEKF: State Estimation with Learned Contact Covariances in Dynamic, Contact-Rich Scenarios

Michael Baumgartner et al.

cs.RO cs.LG eess.SY

本文提出CoCo-InEKF，一种可微分的invariant extended Kalman filter，利用学习的连续接触速度协方差替代二元接触状态，以提升足式机器人在动态接触场景下的状态估计鲁棒性。该方法通过轻量级神经网络端到端学习协方差，并采用自动接触候选点选择，在双足机器人上实现了优于基线方法的线性速度估计精度与一致性。

Understanding How International Students in the U.S. Are Using Conversational AI to Support Cross-Cultural Adaptation

Laleh Nourian et al.

cs.HC cs.AI

本文通过调查和访谈研究了国际学生如何使用ChatGPT等对话式AI来适应跨文化生活，发现AI被视为应对即时挑战的“急救工具”，但用户希望其能转变为长期支持伙伴。研究为设计针对国际学生需求的AI支持系统提供了建议。

MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

Minghao Guo et al.

cs.CV cs.CL cs.IR

本文提出了MemEye，一个用于评估多模态Agent长期记忆能力的视觉中心框架，通过衡量视觉证据的粒度（从场景级到像素级）和证据使用方式（从单一证据到演化综合）两个维度来测试记忆性能。实验表明，当前架构在保留细粒度视觉细节和推理状态变化方面仍存在困难。

Pelican-Unified 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action

Yi Zhang et al.

cs.RO cs.AI

本文提出了Pelican-Unified 1.0，一个基于统一原则训练的具身基础模型，使用单个VLM作为统一的理解与推理模块，并通过Unified Future Generator联合生成未来视频与动作。实验表明该模型在多个benchmark上取得了有竞争力的性能，但方法本身并非针对关键词中的特定领域。

RoSHAP: A Distributional Framework and Robust Metric for Stable Feature Attribution

Lanxin Xiang et al.

stat.ML cs.LG

本文针对特征归因分析中的随机波动问题，提出了一个基于SHAP的分布框架和鲁棒度量RoSHAP，通过bootstrap重采样和核密度估计来建模特征重要性得分的分布，并证明了聚合得分的渐近正态性。该方法旨在提高特征排序的稳定性，但与我提供的关键词列表关联度较低。

Hand-in-the-Loop: Improving Dexterous VLA via Seamless Interventional Correction

Zhuohang Li et al.

cs.RO cs.LG

本文提出Hand-in-the-Loop (HandITL)方法，通过融合人类纠正意图与自主策略执行，解决了灵巧操作中遥操作接管时的“手势跳跃”问题。该方法在双手机器人操作任务中显著降低了接管抖动和抓取失败率，并提升了策略微调效果。

Evidential Reasoning Advances Interpretable Real-World Disease Screening

Chenyu Lian, Hong-Yu Zhou, Jing Qin

cs.CV cs.AI cs.LG

本文提出了EviScreen框架，通过从历史病例中检索区域级证据来增强疾病筛查的可解释性和性能。该方法利用双知识库实现回顾性解释，并通过对比检索生成异常图来提升定位可解释性。

MetaBackdoor: Exploiting Positional Encoding as a Backdoor Attack Surface in LLMs

Rui Wen et al.

cs.CR cs.CL

本文提出了一种名为MetaBackdoor的新型后门攻击方法，利用Transformer-based LLMs中的positional encoding作为触发器，无需修改输入文本内容即可激活后门。该方法通过长度相关的positional structure实现攻击，并展示了泄露系统提示等敏感信息的能力。

Quantitative Video World Model Evaluation for Geometric-Consistency

Jiaxin Wu et al.

cs.CV cs.AI

本文提出PDI-Bench框架，通过分割和点跟踪获取object-centric观测，并利用monocular reconstruction将其提升到3D world-space坐标，以量化评估生成视频的几何一致性。该框架主要检测scale-depth alignment、3D motion consistency和3D structural rigidity三个维度的几何失败模式。

VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

Kaixin Zhu et al.

cs.CV cs.AI

VGGT-Edit提出了一种前馈式3D场景编辑框架，通过深度同步文本注入和残差变换头直接预测3D几何位移，避免了传统2D提升策略导致的纹理模糊和几何不一致问题。该方法在文本驱动的3D场景编辑任务上取得了优于基线模型的效果，但与我提供的关键词列表关联度较低。

RefDecoder: Enhancing Visual Generation with Conditional Video Decoding

Xiang Fan et al.

cs.CV cs.LG

本文提出RefDecoder，通过向视频VAE解码器注入参考图像信号来增强视觉生成质量，使用reference attention机制在解码阶段处理高维tokens，在多个基准上提升PSNR。该方法可直接替换现有系统，适用于图像到视频生成、风格迁移等任务。

EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation

Ruozhen He et al.

cs.CV cs.AI

本文提出了EntityBench基准，包含140个从真实叙事媒体中提取的片段，用于评估多镜头视频生成中的实体一致性，并配套了三维评估套件。作为基线，作者提出了EntityMem，一种记忆增强生成系统，通过存储已验证的实体视觉参考来提升跨镜头一致性。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.CL

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others