bluearXiv-ai - 2026-04-17

📄 所有论文 ↑ 回顶部

cs.LG

The Devil Is in Gradient Entanglement: Energy-Aware Gradient Coordinator for Robust Generalized Category Discovery

Haiyang Zheng et al.

cs.LG cs.AI stat.ML

本文提出了一种名为Energy-Aware Gradient Coordinator (EAGC)的梯度协调模块，用于解决Generalized Category Discovery (GCD)任务中的梯度纠缠问题。该方法通过锚定有标签样本的梯度方向和自适应地投影无标签样本梯度，提升了模型在已知类和新类上的判别与分离能力。

MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining

Bingbing Wen et al.

cs.LG cs.AI cs.CL

本文提出了一种名为MixAtlas的方法，用于优化多模态大语言模型中期训练的数据混合比例。该方法将训练数据沿图像概念和任务监督两个维度进行分解，并利用小规模代理模型和高斯过程代理进行混合空间搜索。实验表明，优化后的数据混合配方能提升模型在多个基准测试上的性能，并可将配方迁移到更大规模的模型上。

Portfolio Optimization Proxies under Label Scarcity and Regime Shifts via Bayesian and Deterministic Students under Semi-Supervised Sandwich Training

Adhiraj Chattopadhyay

cs.LG q-fin.PM stat.ML

本文提出了一种用于低数据环境和市场状态不确定性的机器学习辅助投资组合优化框架. 该方法通过一个 teacher-student 学习流程, 利用 Conditional Value at Risk (CVaR) 优化器生成监督标签, 并结合真实与合成数据训练神经网络模型. 在有限数据场景下的评估表明, 该框架能提升投资组合的稳健性并降低换手率.

Towards Verified and Targeted Explanations through Formal Methods

Hanchen David Wang et al.

cs.LG cs.AI stat.ML

本文提出了一种名为ViTaX的形式化可解释人工智能框架, 旨在为深度神经网络生成具有数学保证的、针对特定关键误分类的"半事实"解释. 该方法通过形式化可达性分析, 验证模型对用户指定目标类别的扰动鲁棒性, 并在多个数据集上展示了其有效性.

Shapley Value-Guided Adaptive Ensemble Learning for Explainable Financial Fraud Detection with U.S. Regulatory Compliance Validation

Mohammad Nasir Uddin, Md Munna Aziz

cs.LG cs.AI cs.NE

本文提出了一种基于SHAP值引导的自适应集成方法(SGAE)用于可解释的金融欺诈检测, 并进行了全面的模型评估与监管合规性验证. 该方法通过动态调整集成权重来提升模型性能, 并在IEEE-CIS数据集上验证了其有效性.

Explainable Graph Neural Networks for Interbank Contagion Surveillance: A Regulatory-Aligned Framework for the U.S. Banking Sector

Mohammad Nasir Uddin

cs.LG cs.AI

本文提出了一种基于可解释图神经网络(GNN)的框架ST-GAT, 用于对美国银行间传染风险进行宏观审慎监测. 该模型利用公开数据重构银行间双边敞口网络, 在早期预警任务上取得了较高的预测性能, 并通过特征重要性分析提供了模型解释.

Graph-Based Fraud Detection with Dual-Path Graph Filtering

Wei He, Wensheng Gan, Philip S. Yu

cs.LG cs.AI

本文提出了一种用于图数据欺诈检测的双路径图滤波模型(DPF-GFD). 该模型通过结合基于beta小波的滤波器和改进的低通滤波器, 分别从原始图和相似性图中提取节点特征, 以应对欺诈图中存在的关系伪装和异配性等问题.

TOPCELL: Topology Optimization of Standard Cell via LLMs

Zhan Song et al.

cs.LG

本文提出了一种名为TOPCELL的新框架, 利用Large Language Models (LLMs)将标准单元的高维晶体管拓扑优化问题重新表述为生成任务. 该方法通过Group Relative Policy Optimization (GRPO)进行微调, 在先进的2nm工艺节点实验中, 相比基础模型能更有效地发现满足逻辑和空间约束的可布线拓扑, 并在7nm库生成任务中实现了显著的加速.

Optimistic Policy Learning under Pessimistic Adversaries with Regret and Violation Guarantees

Sourav Ganguly, Kartik Pandit, Arnob Ghosh

cs.LG cs.AI

本文研究了在存在外部对抗性因素影响状态转移的安全约束强化学习问题. 提出了一种基于模型的算法 RHC-UCRL, 该算法在智能体和对手的策略上均保持乐观估计, 并获得了次线性的遗憾和约束违反保证.

Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations

Wentao Hu et al.

cs.LG cs.AI

本文针对Sparse Mixture-of-Experts (MoE)模型在处理长尾知识时容易产生幻觉的问题，提出了一种无需训练的推理框架Counterfactual Routing (CoR)。该方法通过扰动分析和虚拟消融来动态调整专家激活，在保持计算量不变的情况下提升了事实准确性。

Metric-Aware Principal Component Analysis (MAPCA):A Unified Framework for Scale-Invariant Representation Learning

Michael Leznik

cs.LG stat.ML

本文提出了Metric-Aware Principal Component Analysis (MAPCA)框架，用于尺度不变的特征学习。该框架通过一个广义特征问题来统一多种表示学习方法，并揭示了不同自监督学习目标之间的几何联系。

Calibrate-Then-Delegate: Safety Monitoring with Risk and Budget Guarantees via Model Cascades

Edoardo Pona et al.

cs.LG

本文提出了一种名为 Calibrate-Then-Delegate (CTD) 的模型级联方法，用于在保证计算成本预算的同时，对 LLM 的安全性进行流式监控。该方法通过一个新颖的 delegation value (DV) 探针来预测将困难案例升级给专家模型处理的收益，并利用多重假设检验来校准决策阈值。实验表明，该方法在多个安全数据集上优于基于不确定性的委托策略。

GUI-Perturbed: Domain Randomization Reveals Systematic Brittleness in GUI Grounding Models

Yangyue Wang et al.

cs.LG cs.AI

本文提出了GUI-Perturbed框架，通过独立扰动视觉场景和指令来评估GUI grounding模型的鲁棒性。研究发现，现有模型在需要空间推理的指令上表现存在系统性脆弱性。

Reinforcement Learning via Value Gradient Flow

Haoran Xu et al.

cs.LG cs.AI

本文提出了一种名为 Value Gradient Flow (VGF) 的新方法，用于解决行为正则化强化学习中的问题。该方法将问题转化为最优传输问题，并通过离散梯度流求解，在多个基准测试中取得了优异性能。

Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization

Junzhe Wang et al.

cs.LG cs.AI

本文提出了一种名为CW-GRPO的强化学习框架，用于改进基于LLM的搜索智能体。该方法通过评估每轮搜索的贡献来重新调整奖励，从而在过程监督和结果监督之间取得平衡。实验表明，该方法在多个基准测试上提升了性能。

Quantum-inspired tensor networks in machine learning models

Guillermo Valverde et al.

cs.LG cs.AI quant-ph

本文综述了tensor networks在机器学习中的应用, 将其作为量子多体物理中发展出的压缩表示方法引入机器学习领域. 文章评估了该领域的现状、潜在优势与挑战, 指出其有望在计算效率、可解释性或隐私方面带来优势.

Heat and Matérn Kernels on Matchings

Dmitry Eremeev, Salem Said, Viacheslav Borovitskiy

cs.LG stat.ML

本文为匹配空间构建了几何核, 特别是 heat kernel 和 Matérn kernel, 并提出了利用 zonal polynomials 的高效计算算法. 此外, 文章探讨了该框架向系统发生树空间迁移的可能性.

Thermodynamic Diffusion Inference with Minimal Digital Conditioning

Aditi De

cs.LG cs.AI

本文提出了一种实现热力学扩散推断的方法, 通过 hierarchical bilinear coupling 编码 U-Net skip connections 以及一个 minimal digital interface 来解决输入条件化问题. 该系统在保持理论能量优势的同时, 实现了接近 oracle 的性能.

When Missing Becomes Structure: Intent-Preserving Policy Completion from Financial KOL Discourse

Yuncong Liu et al.

cs.LG

本文提出了一种基于离线强化学习的框架, 用于将金融KOL的言论补全为可执行的交易策略. 该方法将KOL的意图视为部分策略, 并补全其中缺失的执行决策, 实验表明其在保持意图一致性的同时提升了收益.

Path-Sampled Integrated Gradients

Firuz Kamalov et al.

cs.LG stat.ML

本文提出了路径采样积分梯度(PS-IG)框架，通过沿线性插值路径对基线采样来计算期望值，从而推广了特征归因方法。该框架在特定条件下与路径加权积分梯度等价，并能通过确定性黎曼和进行计算，提高了误差收敛速度。

Tight Sample Complexity Bounds for Best-Arm Identification Under Bounded Systematic Bias

Tianhao Qian

cs.LG cs.AI stat.ML

本文研究了在存在有界系统偏差$L$的情况下, 最佳臂识别(BAI)问题的样本复杂度. 通过分析, 给出了上界$\mathcal{O}((\Delta-4L)^{-2})$和下界$\Omega((\Delta-2L)^{-2})$, 并讨论了偏差对搜索安全性的影响.

Modular Continual Learning via Zero-Leakage Reconstruction Routing and Autonomous Task Discovery

Noureddine Kermiche

cs.LG cs.AI

本文提出了一种模块化的持续学习架构, 通过零泄漏重构路由和自主任务发现来缓解灾难性遗忘. 该方法利用任务特定专家和基于离群值的门控机制实现参数隔离, 并采用同步流水线进行高效学习与数据隐私保护.

Step-level Denoising-time Diffusion Alignment with Multiple Objectives

Qi Zhang, Dawei Wang, Shaofeng Zou

cs.LG cs.AI cs.CV

本文提出了一种无需重新训练的多目标扩散模型对齐框架MSDDA。该方法通过引入step-level的强化学习公式，推导出最优去噪分布的闭式解，避免了近似误差。实验表明，该方法在性能上优于现有的去噪时融合方法。

Non-intrusive Learning of Physics-Informed Spatio-temporal Surrogate for Accelerating Design

Sudeepta Mondal, Soumalya Sarkar

cs.LG physics.flu-dyn

本文提出了一种物理信息时空代理建模(PISTM)框架, 用于加速非线性时空动力系统的设计过程. 该框架结合了Koopman autoencoders来非侵入式地学习系统动力学, 并构建代理模型预测未知工况下的系统行为, 在一个二维圆柱绕流问题上进行了验证.

Asynchronous Probability Ensembling for Federated Disaster Detection

Emanuel Teixeira Martins et al.

cs.LG

本文提出了一种基于异步概率聚合与反馈蒸馏的去中心化集成框架, 用于联邦灾难检测. 该方法通过交换类别概率向量而非模型权重, 在保护数据隐私的同时大幅降低了通信开销, 并提升了异构CNN架构在资源受限环境下的协作识别性能.

Auxiliary Finite-Difference Residual-Gradient Regularization for PINNs

Stavros Kassinos

cs.LG cs.AI cs.CE physics.comp-ph

本文提出了一种混合设计, 在PINNs中保留基于自动微分(AD)的PDE残差主项, 同时引入一个基于有限差分(FD)的弱辅助项来惩罚采样残差场的梯度. 该方法旨在通过FD项正则化残差场而不替代PDE残差本身. 通过一维泊松问题和三维环形热传导基准测试, 验证了该辅助正则化器在改善边界条件行为和目标物理量(如外壁通量)精度方面的效果.

Scouting By Reward: VLM-TO-IRL-Driven Player Selection For Esports

Qing Yan et al.

cs.LG

本文提出了一种基于逆强化学习(Inverse Reinforcement Learning, IRL)的电子竞技选手选拔框架。该框架通过融合游戏遥测数据和视觉语言模型(Vision-Language Models, VLM)生成的战术解说，学习特定职业选手的奖励函数，以评估候选选手的风格匹配度。

Quantization of Spiking Neural Networks Beyond Accuracy

Evan Gibson Smith, Jacob Whitehill, Fatemeh Ganji

cs.LG

本文研究了Spiking Neural Networks量化过程中, 除了精度之外, 脉冲发放行为保持的重要性. 作者提出使用Earth Mover's Distance作为评估脉冲分布差异的指标, 并发现均匀量化会导致分布漂移, 而学习型量化能更好地保持原始行为.

On the Expressive Power and Limitations of Multi-Layer SSMs

Nikola Zubić et al.

cs.LG cs.AI cs.CC

本文研究了多层 state-space models (SSMs) 的表达能力和局限性. 结果表明, 在基础模型中, 宽度和精度资源不可互换, 而引入在线 chain-of-thought (CoT) 后, 多层 SSMs 的表达能力可与 streaming algorithms 等价.

CI-CBM: Class-Incremental Concept Bottleneck Model for Interpretable Continual Learning

Amirhosein Javadi et al.

cs.LG cs.CV

本文提出了一种用于可解释持续学习的类增量概念瓶颈模型(CI-CBM). 它通过概念正则化和伪概念生成等技术, 在增量学习阶段保持可解释性, 并在多个数据集上取得了与黑盒模型相当的性能.

CSRA: Controlled Spectral Residual Augmentation for Robust Sepsis Prediction

Honglin Guo et al.

cs.LG cs.AI

本文提出了一种用于ICU时间序列数据增强的CSRA框架, 通过spectral domain的残差扰动来生成数据, 以提升sepsis预测模型的性能. 实验表明该方法在多种约束临床场景下具有较好的鲁棒性和泛化能力.

An unsupervised decision-support framework for multivariate biomarker analysis in athlete monitoring

Fernando Barcelos Rosito et al.

cs.LG stat.AP

本文提出了一种用于运动员监测的无监督多变量生物标志物分析框架. 该框架通过聚类等方法识别潜在的生理状态, 无需损伤标签即可区分不同的生理机制.

Predicting Post-Traumatic Epilepsy from Clinical Records using Large Language Model Embeddings

Wenhui Cui et al.

cs.LG

本文利用预训练大语言模型(LLM)作为固定特征提取器，从急性临床记录中生成嵌入(embeddings)，并结合梯度提升树分类器来预测创伤后癫痫(PTE)。该方法通过融合表格特征与LLM嵌入，取得了优于单独使用表格特征的预测性能。

Material-Agnostic Zero-Shot Thermal Inference for Metal Additive Manufacturing via a Parametric PINN Framework

Hyeonsu Lee, Jihoon Jeong

cs.LG physics.app-ph physics.comp-ph

本文提出了一种参数化的物理信息神经网络框架, 用于金属增材制造中的热过程建模. 该框架无需标记数据或重新训练即可实现跨材料的零样本泛化, 并通过解耦架构和混合优化策略提升了训练效率与物理一致性.

Physics-Informed Machine Learning for Pouch Cell Temperature Estimation

Zheng Liu

cs.LG eess.SY

本文提出了一种用于软包电池温度估计的物理信息机器学习框架. 该框架将传热控制方程直接集成到神经网络的损失函数中, 从而在保证物理一致性的同时提高了预测效率和精度.

Generative Augmented Inference

Cheng Lu et al.

cs.LG cs.AI stat.ME stat.ML

本文提出了一种名为Generative Augmented Inference (GAI)的通用框架，用于整合AI生成的数据来估计模型参数。该方法通过正交矩构造，允许AI输出与人类标签之间存在灵活的非参数关系，从而在多种实证应用中提高了估计效率并减少了人工标注需求。

From Risk to Rescue: An Agentic Survival Analysis Framework for Liquidation Prevention

Fernando Spadea, Oshani Seneviratne

cs.LG

本文提出了一种基于生存分析(survival analysis)的自主智能体(agent)框架, 用于在去中心化金融(DeFi)借贷协议中预防清算. 该框架通过模拟反事实(counterfactual)未来并执行协议内操作来主动管理风险, 并在模拟实验中验证了其有效性.

CLion: Efficient Cautious Lion Optimizer with Enhanced Generalization

Feihu Huang, Guanyi Zhang, Songcan Chen

cs.LG math.OC stat.ML

本文提出了一种名为CLion的新型优化器, 通过谨慎使用sign函数来改进Lion优化器. 作者证明了CLion具有$O(\frac{1}{N})$的泛化误差和$O(\frac{\sqrt{d}}{T^{1/4}})$的非凸随机优化收敛速率, 并通过实验验证了其有效性.

ConfLayers: Adaptive Confidence-based Layer Skipping for Self-Speculative Decoding

Walaa Amer, Uday das, Fadi Kurdahi

cs.LG cs.CL

本文提出了一种名为ConfLayers的自投机解码方法, 通过基于置信度的自适应层跳过来构建草稿模型. 该方法无需训练, 通过迭代评估层置信度来动态选择跳过的层, 在保持输出质量的同时实现了最高1.4倍的推理加速.

ELMoE-3D: Leveraging Intrinsic Elasticity of MoE for Hybrid-Bonding-Enabled Self-Speculative Decoding in On-Premises Serving

Yuseon Choi et al.

cs.LG cs.AI cs.AR cs.DC

本文提出了一种基于混合键合的三维硬件-软件协同设计框架ELMoE-3D，旨在解决MoE模型在本地部署时面临的内存瓶颈问题。该框架通过弹性自推测解码和位切片架构，在不同批处理大小下实现了显著的推理加速和能效提升。

Zeroth-Order Optimization at the Edge of Stability

Minhak Song et al.

cs.LG math.DS math.OC stat.ML

本文研究了基于两点估计器的零阶优化方法的稳定性条件, 发现其均方线性稳定性依赖于整个 Hessian 谱, 这与一阶方法仅依赖于最大特征值不同. 作者推导了仅依赖于最大特征值和迹的实用稳定性边界, 并通过实验验证了零阶方法在深度学习训练中倾向于在稳定性边界附近运行.

Mean Flow Policy Optimization

Xiaoyi Dong, Xi Sheryl Zhang, Jian Cheng

cs.LG

本文提出了一种名为Mean Flow Policy Optimization (MFPO)的新方法, 用于在线强化学习. 该方法使用MeanFlow模型来表示策略, 相比基于diffusion的方法, 显著提高了训练和推理效率, 并在多个基准测试中取得了具有竞争力的性能.

Gating Enables Curvature: A Geometric Expressivity Gap in Attention

Satwik Bathula, Anand A. Joshi

cs.LG stat.ML

本文通过将attention层的输出建模为Gaussian分布的mean parameters, 并分析其诱导的Fisher-Rao geometry, 研究了gated attention的几何性质. 研究发现, 无门控的attention由于其affine结构, 被限制在intrinsically flat的statistical manifolds上, 而乘性门控则能实现非平坦的几何, 包括正曲率流形.

A Mechanistic Account of Attention Sinks in GPT-2: One Circuit, Broader Implications for Mitigation

Yuval Ran-Milo, Hila Ofek, Shahar Mendel

cs.LG

本文研究了GPT-2风格模型中普遍存在的“注意力汇聚”现象，即模型对序列首个位置分配了不成比例的高注意力。通过结合结构分析与因果干预，作者发现这一现象源于多个可独立缺失的组件间的交互作用。研究结果表明，注意力汇聚可能通过不同的机制路径在不同架构中出现，这为缓解该问题提供了更广泛的视角。

Catching Every Ripple: Enhanced Anomaly Awareness via Dynamic Concept Adaptation

Jiaqi Zhu et al.

cs.LG cs.AI

本文提出了一个名为DyMETER的动态概念适应框架，用于在线异常检测。该框架通过超网络生成实例感知的参数偏移，并结合动态阈值优化，旨在无需重新训练即可适应数据流中的概念漂移。

Expressivity of Transformers: A Tropical Geometry Perspective

Ye Su, Yong Liu

cs.LG

本文从 tropical geometry 的视角分析了 Transformer 的几何表达能力. 它将自注意力机制建模为向量值的 tropical rational map, 并证明了其在零温度极限下等价于 Power Voronoi Diagram. 基于此, 文章推导了 Transformer 网络线性区域数量的紧渐近界.

Assessing the Performance-Efficiency Trade-off of Foundation Models in Probabilistic Electricity Price Forecasting

Jan Niklas Lettner et al.

cs.LG

本文比较了用于欧洲电力市场日前概率电价预测的四种模型, 包括两个任务特定的深度学习模型(NHITS+QRA和NF)和两个时间序列基础模型(Moirai和ChronosX). 研究发现, 虽然基础模型在多个评估指标上表现更优, 但经过良好配置的任务特定模型性能与之非常接近, 甚至在特定场景下可以超越基础模型, 表明在预测精度与计算成本之间存在权衡.

Wasserstein Formulation of Reinforcement Learning. An Optimal Transport Perspective on Policy Optimization

Mathias Dus

cs.LG math.OC math.PR

本文从 optimal transport 的视角，将强化学习中的策略视为映射到 Wasserstein 空间中的 action probability 分布。作者为此策略空间定义了一个由 stationary distribution 诱导的 Riemannian 结构，并在此基础上构建了梯度流以进行策略优化。文中还给出了低维问题的数值算例，并对高维问题提出了基于神经网络的参数化优化方法。

Constraint-based Pre-training: From Structured Constraints to Scalable Model Initialization

Fu Feng et al.

cs.LG

本文提出了一种基于约束的预训练范式, 通过施加结构化约束将尺度无关的知识解耦到可重用的权重模板中, 从而支持灵活构建不同尺度的下游模型. 该方法在多种视觉和具身学习任务上实现了高效的模型初始化.

Learning Ad Hoc Network Dynamics via Graph-Structured World Models

Can Karacelebi et al.

cs.LG cs.MA cs.NI

本文提出了一种图结构循环状态空间模型(G-RSSM), 用于从离线轨迹中学习无线自组织网络的复杂动态. 该方法被应用于下游的集群头选择任务, 并在多种网络场景中展示了其规模无关的泛化能力.

Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization

Zhiyuan Zhai et al.

cs.LG

本文提出了一种用于推理大语言模型的自适应测试时计算分配方法, 通过约束策略优化来解决在有限推理预算下如何为不同输入分配计算资源的问题. 该方法采用两阶段求解-学习流程, 将全局约束优化问题分解为可高效求解的实例级子问题, 并训练轻量级分类器来近似最优分配策略, 在数学推理基准上取得了优于均匀分配和启发式基线的效果.

Curvature-Aligned Probing for Local Loss-Landscape Stabilization

Nikita Kiselev, Andrey Grabovoy

cs.LG

本文提出了一种用于衡量神经网络损失函数局部稳定性的新准则 $\Delta_2^{(D)}$，该准则通过在与经验 Hessian 矩阵前 $D$ 个特征向量对齐的子空间中进行探测，来更有效地捕捉损失函数的主导局部形变。作者从理论上证明了该准则保持了全空间准则的收敛速率，同时显著降低了计算复杂度，并提出了基于 Hessian-向量积和蒙特卡洛方法的可扩展估计器。实验在一个仅解码器的 Transformer 模型上验证了该方法的有效性，表明即使使用参数空间中极小的子空间，也能精确复现全空间的稳定性信号。

Does RL Expand the Capability Boundary of LLM Agents? A PASS@(k,T) Analysis

Zhiyuan Zhai et al.

cs.LG

本文通过引入PASS@(k,T)这一二维评估指标，分析了强化学习(RL)对大型语言模型(LLM)智能体在工具使用任务中能力边界的影响。研究发现，在需要组合式、顺序信息获取的复杂任务上，RL能真正扩展模型的能力边界，而非仅仅提升可靠性。

SOLIS: Physics-Informed Learning of Interpretable Neural Surrogates for Nonlinear Systems

Murat Furkan Mansur, Tufan Kumbasar

cs.LG cs.AI eess.SY

本文提出了一种名为SOLIS的方法, 用于非线性系统的可解释神经代理模型学习. 该方法通过状态依赖的准线性变参数表示来建模未知动力学, 并利用局部物理提示来稳定训练.

xFODE+: Explainable Type-2 Fuzzy Additive ODEs for Uncertainty Quantification

Ertugrul Kececi, Tufan Kumbasar

cs.LG eess.SY

本文提出了一种用于不确定性量化的可解释Type-2模糊加性常微分方程模型(xFODE+). 该模型结合了区间Type-2模糊逻辑系统，在提供点预测的同时生成预测区间，并通过限制规则激活增强了局部可解释性.

xFODE: An Explainable Fuzzy Additive ODE Framework for System Identification

Ertugrul Kececi, Tufan Kumbasar

cs.LG

本文提出了一种可解释的模糊加性常微分方程框架xFODE, 用于系统辨识. 该框架通过定义增量形式的状态和采用模糊加性模型来近似状态导数, 旨在提升模型的可解释性, 并在基准数据集上取得了与现有模型相当的精度.

Can LLMs Score Medical Diagnoses and Clinical Reasoning as well as Expert Panels?

Amy Rouillard et al.

cs.LG cs.AI

本文评估了使用大型语言模型(LLM)作为专家评审的替代方案，用于对医疗诊断和临床推理进行评分。研究发现，经过校准的多模型LLM评审团与人类专家小组的评估具有良好的一致性，可作为医疗AI基准测试中可靠的代理。

Beyond Importance Sampling: Rejection-Gated Policy Optimization

Ziwu Sun et al.

cs.LG cs.AI

本文提出了一种名为Rejection-Gated Policy Optimization (RGPO)的新策略优化方法。该方法用一个可微的接受门控函数替代了传统的重要性采样比率，从而在优化过程中直接筛选可信样本。

Multi-User mmWave Beam and Rate Adaptation via Combinatorial Satisficing Bandits

Emre Özyıldırım et al.

cs.LG eess.SY stat.ML

本文研究了多用户毫米波MISO系统中的下行链路波束和速率自适应问题. 作者将联合波束与速率自适应建模为一个组合半赌博机问题, 并提出了一个名为SAT-CTS的轻量级策略. 该策略旨在满足一个设定的吞吐量阈值, 而非单纯最大化吞吐量, 并在实验中展示了良好的性能.

LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

Bowen Ping et al.

cs.LG cs.CL

本文提出了一种名为LongAct的策略, 通过利用模型在处理长上下文时query和key向量中出现的high-magnitude activations, 将强化学习训练从均匀更新转向基于显著性的稀疏更新. 该方法在多个长上下文基准测试上提升了模型性能, 并显示出对不同RL算法的通用性.

Improving Sparse Autoencoder with Dynamic Attention

Dongsheng Wang et al.

cs.LG cs.AI

本文提出了一种基于动态稀疏注意力机制的稀疏自编码器改进方法. 该方法利用 sparsemax 实现数据依赖的稀疏度控制, 在保证重构质量的同时提升了特征的可解释性.

Calibration-Gated LLM Pseudo-Observations for Online Contextual Bandits

Maksim Pershin et al.

cs.LG cs.AI

本文提出了一种在contextual bandit算法中利用LLM生成伪观测数据以减少冷启动阶段regret的方法。该方法通过校准门控机制动态调整LLM预测的权重，并在两个实验环境中验证了其效果，强调了提示设计的重要性。

Blazing the trails before beating the path: Sample-efficient Monte-Carlo planning

Jean-Bastien Grill, Michal Valko, Rémi Munos

cs.LG

本文提出了一种名为TrailBlazer的sample-efficient Monte-Carlo planning算法. 该算法旨在利用MDP的结构, 通过有选择地探索接近最优策略可达的状态子集来提高规划效率, 并提供了依赖于近优状态数量的样本复杂度保证.

What Is the Minimum Architecture for Prolepsis? Early Irrevocable Commitment Across Tasks in Small Transformers

Éric Jacopin

cs.LG cs.AI cs.CL

本文研究了transformer模型中的"prolepsis"现象, 即模型早期做出不可更改的决策. 通过在小模型上复现规划任务, 发现特定的attention head负责维持并传递这一早期承诺.

DLink: Distilling Layer-wise and Dominant Knowledge from EEG Foundation Models

Jingyuan Wang et al.

cs.LG

本文提出了一种名为DLink的知识蒸馏框架, 用于将大型EEG基础模型压缩为紧凑的学生模型. 该方法通过动态路由聚合教师层特征, 并引入频谱蒸馏来缓解压缩过程中的信号失真问题, 在多个基准测试上取得了优于轻量级基线的性能.

When Fairness Metrics Disagree: Evaluating the Reliability of Demographic Fairness Assessment in Machine Learning

Khalid Adnan Alsayed

cs.LG cs.AI cs.CV

本文通过系统性的多指标分析, 探讨了机器学习公平性评估中不同度量标准的一致性问题. 研究以人脸识别为实验场景, 发现常用公平性指标会得出相互矛盾的结论, 并提出了量化这种不一致性的 Fairness Disagreement Index (FDI).

No More Guessing: a Verifiable Gradient Inversion Attack in Federated Learning

Francesco Diana et al.

cs.LG cs.AI cs.CR

本文提出了一种可验证的梯度反演攻击方法, 用于联邦学习中的隐私威胁分析. 该方法通过代数验证测试来确认重构样本的正确性, 并在表格数据基准测试中展示了优于现有攻击的性能.

Beyond the Laplacian: Doubly Stochastic Matrices for Graph Neural Networks

Zhaobo Hu, Vincent Gauthier, Mehdi Naima

cs.LG

本文提出用 Doubly Stochastic Matrix (DSM) 替代传统的 Laplacian 矩阵来构建图神经网络. 通过 Neumann 级数近似和残差质量补偿机制, 该方法在保持效率的同时缓解了过平滑问题, 并在同配性和异配性图结构上展示了理论分析和实验验证.

FedIDM: Achieving Fast and Stable Convergence in Byzantine Federated Learning through Iterative Distribution Matching

He Yang et al.

cs.LG cs.CR

本文提出了一种名为FedIDM的鲁棒联邦学习方法, 通过迭代分布匹配来生成可信的浓缩数据, 并基于此识别和过滤异常客户端. 该方法旨在解决现有方法收敛慢且不稳定, 以及在大量恶意客户端存在时难以兼顾鲁棒性与模型性能的问题.

LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking

Lukas Helff et al.

cs.LG cs.AI

本文研究了在强化学习与可验证奖励范式下，大语言模型通过枚举实例标签而非学习泛化规则来“欺骗”验证器的现象。作者提出了同构扰动测试来检测这种奖励黑客行为，并发现该行为与训练范式及任务复杂度相关。

When Flat Minima Fail: Characterizing INT4 Quantization Collapse After FP32 Convergence

Marcus Armstrong

cs.LG

本文通过分析Pythia-160m模型的训练检查点，揭示了FP32模型收敛后INT4量化性能会急剧恶化的现象。研究排除了权重离群值积累等机制，并表明特定的学习率调度可以缓解此问题。

Assessing the Potential of Masked Autoencoder Foundation Models in Predicting Downhole Metrics from Surface Drilling Data

Aleksander Berezowski, Hassan Hassanzadeh, Gouri Ginde

cs.LG

本文是一篇关于使用Masked Autoencoder Foundation Models (MAEFMs)从地面钻井数据预测井下指标的综述性研究。它回顾了现有方法，指出MAEFMs在该领域尚未被探索但具有技术可行性。

MambaSL: Exploring Single-Layer Mamba for Time Series Classification

Yoo-Min Jung, Leekyung Kim

cs.LG cs.AI

本文提出了一个名为MambaSL的单层Mamba架构，用于时间序列分类任务。该工作通过重新评估基准并在统一协议下进行测试，展示了其方法的有效性。

AdaSplash-2: Faster Differentiable Sparse Attention

Nuno Gonçalves et al.

cs.LG cs.CL

本文提出了AdaSplash-2，一种用于加速可微分稀疏注意力机制$\alpha$-entmax计算的新方法。它通过一种基于直方图的初始化策略，显著减少了计算归一化因子$\tau$所需的迭代次数，并结合GPU优化，在长上下文训练中实现了与FlashAttention-2相当或更优的效率。

One-shot learning for the complex dynamical behaviors of weakly nonlinear forced oscillators

Teng Ma et al.

cs.LG math.DS

本文提出了一种名为MEv-SINDy的单样本学习方法, 用于从单个激励时间历程中识别弱非线性受迫振荡器的全局频率响应曲线. 该方法通过广义谐波平衡法将复杂响应分解为慢变演化方程, 并在两个MEMS器件上验证了其预测软化/硬化效应和跳跃现象的能力.

RL-STPA: Adapting System-Theoretic Hazard Analysis for Safety-Critical Reinforcement Learning

Steven A. Senczyszyn et al.

cs.LG

本文提出了一种名为RL-STPA的框架，用于对安全关键强化学习系统进行系统性的危险分析。该框架通过分层子任务分解、覆盖引导的扰动测试和迭代检查点等方法，识别标准评估可能遗漏的潜在失效场景，并以自主无人机导航为例进行了演示。

Optimal last-iterate convergence in matrix games with bandit feedback using the log-barrier

Come Fiegel et al.

cs.LG

本文研究了零和矩阵博弈中学习极小极大策略的问题, 针对非耦合玩家情形下的最后迭代收敛难题, 提出了一种使用对数障碍正则化的在线镜像下降算法. 通过一种侧重于对偶变量的分析, 该算法以高概率实现了$O(\tilde{t}^{-1/4})$的利用间隙收敛率, 并将此思想扩展到了扩展式博弈中.

Stability and Generalization in Looped Transformers

Asher Labovich

cs.LG cs.AI

本文分析了 looped transformers 的稳定性与泛化能力. 它引入了一个基于 fixed-point 的框架, 从 reachability, input-dependence 和 geometry 三个维度评估架构, 并通过理论和实验验证了 recall 与 outer normalization 组合的有效性.

How Embeddings Shape Graph Neural Networks: Classical vs Quantum-Oriented Node Representations

Nouhaila Innan et al.

cs.LG quant-ph

本文在统一的实验框架下, 系统比较了经典节点嵌入与量子导向节点嵌入在图分类任务中的性能. 实验表明, 嵌入方法的效果具有显著的数据集依赖性, 量子导向嵌入在结构驱动的基准上表现更一致, 而节点属性有限的社交网络图则更适合经典基线. 研究为在图学习中如何根据数据特性选择嵌入方法提供了可复现的参考.

Benchmarking Optimizers for MLPs in Tabular Deep Learning

Yury Gorishniy et al.

cs.LG

本文系统性地评估了多种优化器在基于MLP的tabular深度学习模型训练中的表现. 研究发现, Muon优化器在多数情况下优于常用的AdamW, 而模型权重的指数移动平均(EMA)也能有效提升AdamW的性能.

cs.AI

NuHF Claw: A Risk Constrained Cognitive Agent Framework for Human Centered Procedure Support in Digital Nuclear Control Rooms

Xingyu Xiao et al.

cs.AI

本文提出了一个用于数字化核控制室的风险约束认知智能体框架, 通过整合认知状态推断与概率安全评估来实时调节自主系统行为. 该框架将传统离线可靠性分析转化为嵌入工作流程的主动干预机制, 并在高保真模拟器上验证了其预测认知退化与约束不安全建议的能力.

Simulating Human Cognition: Heartbeat-Driven Autonomous Thinking Activity Scheduling for LLM-based AI systems

Hong Su

cs.AI q-bio.NC

本文提出了一种受人类认知节律启发的心跳驱动自主思维活动调度机制, 用于增强LLM智能体的主动性与适应性. 该方法通过周期性的"心跳"来动态协调规划、批判、回忆等认知模块, 并采用元学习策略持续优化调度策略.

Fun-TSG: A Function-Driven Multivariate Time Series Generator with Variable-Level Anomaly Labeling

Pierre Lotte, André Péninou, Olivier Teste

cs.AI

本文提出了一个名为Fun-TSG的可定制多元时间序列生成器，旨在解决现有基准数据集在异常检测评估中的局限性。该工具支持自动和手动生成数据，并提供变量和时间戳级别的真实异常标签，以提高模型评估的透明度和可重复性。

Interpretable and Explainable Surrogate Modeling for Simulations: A State-of-the-Art Survey and Perspectives on Explainable AI for Decision-Making

Pramudita Satria Palar et al.

cs.AI cs.LG stat.ML

本文是一篇关于可解释人工智能(XAI)在仿真代理建模中应用的综述性文章. 文章旨在弥合代理建模与XAI这两个互补但独立发展的领域, 系统性地将现有XAI技术映射到仿真驱动的工作流程中, 并讨论了在工程约束下(如高相关输入, 动态系统)的应用挑战与未来研究方向.

Formalizing Kantian Ethics: Formula of the Universal Law Logic (FULL)

Taylor Olson

cs.AI cs.LO

本文提出了一种称为 Formula of the Universal Law Logic (FULL) 的多类量化模态逻辑, 用于形式化康德的定言命令. 该方法旨在为人工智能体提供一种不依赖预设道德直觉的伦理推理框架.

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Wangjie Gan et al.

cs.AI cs.LG

本文提出了一种名为Group Fine-Tuning (GFT)的统一后训练框架，旨在解决大型语言模型在监督微调(SFT)和强化学习(RL)训练中存在的效率与泛化问题。该方法通过构建响应组和动态调整权重来稳定优化过程。

Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning

Kinhei Lee et al.

cs.AI

本文提出了一种利用放射科医生眼动数据作为行为先验的视觉语言模型GazeX, 旨在模拟专家诊断时的视觉检查模式. 该模型通过整合注视轨迹和模式进行预训练, 在多项任务上生成了更准确且与专家一致的输出.

Mistake gating leads to energy and memory efficient continual learning

Aaron Pache, Mark CW van Rossum

cs.AI

本文提出了一种名为"memorized mistake-gated learning"的生物启发式学习规则, 通过仅在有当前或过去分类错误时更新突触权重来减少计算开销. 该方法特别适用于增量学习和需要数据回放的在线学习场景, 能以极小的计算开销显著降低网络更新次数和存储需求.

Credo: Declarative Control of LLM Pipelines via Beliefs and Policies

Duo Lu, Andrew Crotty, Uğur Çetintemel

cs.AI cs.DB

本文提出了一种名为Credo的框架, 用于通过声明式的beliefs和policies来控制LLM pipeline. 该框架旨在提高agentic AI系统的可适应性, 可审计性和可组合性.

Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality

Ivan Ternovtsii, Yurii Bilak

cs.AI

本文通过几何MoE模型和大量实验发现, routing topology (路由拓扑) 对语言模型的最终困惑度没有决定性影响. 多种不同的routing机制在收敛后能达到统计上等效的性能, 表明模型性能主要由其他因素决定.

Demonstration of Pneuma-Seeker: Agentic System for Reifying and Fulfilling Information Needs on Tabular Data

Muhammad Imam Luthfi Balaka, Raul Castro Fernandez

cs.AI

本文介绍了一个名为Pneuma-Seeker的agentic系统，该系统旨在帮助用户将模糊的信息需求具体化为可检查的关系型规范，并支持迭代式数据探索与执行。

Geometric Routing Enables Causal Expert Control in Mixture of Experts

Ivan Ternovtsii, Yurii Bilak

cs.AI

本文研究了稀疏 Mixture-of-Experts (MoE) 模型中专家（expert）的专业化与可解释性。作者通过余弦相似度路由（cosine-similarity routing）在低维度量空间中构建了一个可检查的专家系统，并提供了证据表明专家具有单语义（monosemantic）特性，其激活与特定语义类别（如时间、地理）相关。研究还通过因果干预（causal interventions）验证了专家标签的有效性，并指出余弦路由提供了几何透明性（geometric transparency），使得专家专业化可以直接从质心矩阵（centroid matrix）中解读。

On Tackling Complex Tasks with Reward Machines and Signal Temporal Logics

Ana María Gómez Ruiz, Thao Dang, Alexandre Donzé

cs.AI

本文提出了一种结合Reward Machines与Signal Temporal Logics的强化学习控制框架, 用于处理复杂任务. 该方法通过STL公式生成事件并指导训练, 并在多个仿真环境中进行了案例验证.

AIBuildAI: An AI Agent for Automatically Building AI Models

Ruiyi Zhang et al.

cs.AI

本文提出了一个名为 AIBuildAI 的 AI agent，旨在自动化 AI 模型的构建过程。它通过一个分层 agent 架构协调多个基于 LLM 的子 agent，在 MLE-Bench 基准测试中取得了领先的性能。

Improving Human Performance with Value-Aware Interventions: A Case Study in Chess

Saumik Narayanan et al.

cs.AI

本文提出了一种基于强化学习中 policy-value consistency 原则的 value-aware intervention 方法, 用于在序列决策任务中辅助人类. 该方法通过识别人类策略与价值函数的不一致性来确定干预时机, 并在国际象棋领域通过模拟和真人实验验证了其有效性.

Response-Aware User Memory Selection for LLM Personalization

Jillian Fisher, Jennifer Neville, Chan Young Park

cs.AI

本文提出了一种基于信息论的个性化记忆选择方法RUMS, 通过优化记忆子集与模型输出之间的互信息来选择用户记忆, 而非仅依赖语义相似性. 该方法在提升响应质量的同时, 显著降低了计算成本.

Evo-MedAgent: Beyond One-Shot Diagnosis with Agents That Remember, Reflect, and Improve

Weixiang Shen et al.

cs.AI

本文提出了一种名为Evo-MedAgent的自进化记忆模块，旨在增强医疗诊断LLM智能体在测试时的跨病例学习能力。该模块通过整合回顾性临床片段、自适应程序启发式和工具可靠性控制器，提升了智能体在胸部X光诊断任务中的表现。

Seeing Through Circuits: Faithful Mechanistic Interpretability for Vision Transformers

Nina Żukowska et al.

cs.AI

本文提出了一种用于视觉Transformer的自动视觉电路发现方法(Vi-CD), 该方法通过分析模型的计算图来识别与特定类别分类、对抗攻击等任务相关的边基电路(edge-based circuits). 该方法为理解视觉模型的内部计算过程增加了透明度.

Pushing the Limits of On-Device Streaming ASR: A Compact, High-Accuracy English Model for Low-Latency Inference

Nenad Banfic et al.

cs.AI

本文系统评估了多种ASR架构在边缘设备上的性能, 重点优化了模型大小与精度. 通过量化与算子融合, 将模型压缩至0.67 GB, 在CPU上实现了低延迟的实时流式语音识别.

Improving Machine Learning Performance with Synthetic Augmentation

Mel Sohm et al.

cs.AI cs.LG stat.ML

本文研究了合成数据增强在金融机器学习中的作用, 将其形式化为对有效训练分布的修改, 并揭示了其引发的结构性偏差-方差权衡. 通过引入尺寸匹配的零增强和块置换检验, 作者在模拟和真实金融数据上评估了多种生成模型, 发现合成增强仅在方差主导的机制中有效.

Geometric Metrics for MoE Specialization: From Fisher Information to Early Failure Detection

Dongxin Guo, Jikun Wu, Siu Ming Yiu

cs.AI

本文提出了一个基于信息几何的框架来分析和度量Mixture-of-Experts (MoE)模型中专家的专业化程度。该框架引入了Fisher Specialization Index (FSI)和Fisher Heterogeneity Score (FHS)两个新指标，用于评估模型性能和预测训练失败，并在多个数据集上进行了实验验证。

Perspective on Bias in Biomedical AI: Preventing Downstream Healthcare Disparities

Michal Rosen-Zvi et al.

cs.AI cs.CE

本文分析了生物医学AI中数据收集和研究优先级设定阶段存在的偏见问题, 指出即使临床实施前, 在分子水平研究的数据集(如omics数据)中也普遍存在人口统计学信息(如血统)报告不足和欧洲血统数据主导的偏差. 作者通过对大量文献和公共数据集的自动化分析揭示了这一现象, 并警告在基础模型预训练范式中, 这些早期偏差可能被固化或放大, 导致下游医疗不平等. 为此, 他们提出了关注数据来源(Provenance), 开放(Openness)和评估透明(Evaluation Transparency)三项基本原则, 以促进更公平和稳健的生物医学AI创新.

Mind DeepResearch Technical Report

MindDR Team, Li Auto Inc

cs.AI

本文提出了一个名为MindDR的高效多智能体深度研究框架, 通过精心设计的数据合成与多阶段训练流程, 仅使用约300亿参数的模型即实现了领先的性能. 该框架的核心是一个协作的三智能体架构(规划, 深度搜索与报告智能体)以及一个包含SFT冷启动, 搜索强化学习, 报告强化学习和偏好对齐的四阶段专业化训练流程. 在多个基准测试中, MindDR的表现优于同规模的开源系统, 并可媲美更大规模的模型, 目前已作为在线产品部署.

Quantifying Cross-Query Contradictions in Multi-Query LLM Reasoning

Rohit Kumar Salla, Ramya Manasa Amancherla, Manoj Saravanan

cs.AI

本文研究了大型语言模型在多查询推理中的逻辑一致性问题, 提出了一个包含390个实例的基准测试, 并引入了集合层面的评估指标. 作者采用求解器增强的方法来提取模型的承诺、验证全局可满足性并进行反例引导的修复, 在四个推理领域中显著减少了跨查询矛盾.

Dissecting Failure Dynamics in Large Language Model Reasoning

Wei Zhu et al.

cs.AI cs.CL

本文通过分析LLM生成的推理轨迹, 发现错误往往源于少数早期的"关键转折点", 并观察到这些转折点与token-level entropy的局部峰值相关. 基于此, 作者提出了一个名为GUARD的推理时干预框架, 利用不确定性信号来探测和重定向这些关键转折, 从而提高了推理的可靠性.

TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification

Adam Rida

cs.AI

本文提出了一个基于LLM生产日志训练轻量级代理模型的系统TRACER, 该系统通过一个一致性门控来决定何时部署代理模型以替代原始LLM进行推理, 从而降低推理成本. 实验表明, 该系统在不同分类任务上能有效吸收大部分流量, 并能通过可解释性工具展示代理模型的决策边界.

MARS$^2$: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation

Pengfei Li et al.

cs.AI cs.CL

本文提出了一个名为MARS$^2$的统一强化学习框架, 它将多个独立优化的智能体(agent)整合到一个共享的树搜索环境中进行协作. 实验表明, 该方法在代码生成(code generation)任务上能有效提升性能.

Enhancing Mental Health Counseling Support in Bangladesh using Culturally-Grounded Knowledge

Md Arid Hasan et al.

cs.AI

本文探讨了在孟加拉国心理健康咨询中融入文化背景知识的方法. 作者比较了基于检索增强生成(RAG)和知识图谱(KG)的两种方法, 并进行了自动化和人工评估. 结果表明, 基于知识图谱的方法在上下文相关性和临床适用性方面表现更优.

Prompt Optimization Is a Coin Flip: Diagnosing When It Helps in Compound AI Systems

Xing Zhang et al.

cs.AI cs.CL

本文通过大量实验发现, 在复合AI系统中进行prompt优化(如使用TextGrad, DSPy等工具)的效果具有高度不确定性, 其成功率与随机抛硬币无异. 研究指出, 优化仅在任务输出具有可被模型利用的特定结构时才有效, 并提出了一个包含ANOVA预测试和headroom测试的两阶段诊断流程来预测优化是否值得进行.

GDPR Auto-Formalization with AI Agents and Human Verification

Ha Thanh Nguyen et al.

cs.AI

本文研究了在人工参与验证的框架下, 使用大语言模型自动形式化GDPR条款的整体流程. 该方法采用角色分工的工作流, 由基于LLM的AI组件在多智能体环境中生成法律场景, 形式规则和原子事实, 并结合包含人工评审的独立验证模块. 研究构建了一个用于GDPR自动形式化的高质量数据集, 并分析了成功与有问题的案例.

El Agente Forjador: Task-Driven Agent Generation for Quantum Simulation

Zijian Zhang et al.

cs.AI physics.comp-ph

本文提出了一个名为El Agente Forjador的多智能体框架，用于在量子模拟领域自主生成和复用计算工具。该框架通过一个包含工具分析、生成、执行和评估的四阶段工作流，旨在克服静态工具集在适应新领域时的局限性。实验表明，该框架能提升任务解决精度，并允许跨领域工具组合解决混合任务。

CoDaS: AI Co-Data-Scientist for Biomarker Discovery via Wearable Sensors

Yubin Kim et al.

cs.AI

本文提出了一个名为CoDaS的多智能体系统, 用于从大规模可穿戴设备数据中系统化地发现数字生物标志物. 该系统通过结合假设生成, 统计分析, 对抗性验证和基于文献的推理等步骤, 在三个队列中识别出了与心理健康和代谢结果相关的候选生物标志物, 并进行了内部验证.

A Parallel Approach to Counting Exact Covers Based on Decomposability Property

Liangda Fang et al.

cs.AI

本文提出了一种基于可分解性的并行算法DXD, 用于精确计数Exact Cover问题的解. 该方法使用了一种比ZBDD更简洁的表示形式decision-ZDNNF, 并通过动态更新连通分量进行了优化. 实验表明, 改进后的算法性能优于现有方法.

Learning to Draw ASCII Improves Spatial Reasoning in Language Models

Shiyuan Huang et al.

cs.AI

本文研究了让大语言模型学习生成ASCII网格布局是否能提升其空间推理能力. 通过构建Text2Space数据集并进行训练, 发现布局构造训练能显著提高模型在纯文本空间推理任务上的表现, 并且这种提升能迁移到外部基准测试上.

Targeted Exploration via Unified Entropy Control for Reinforcement Learning

Chen Wang et al.

cs.AI

本文提出了一种名为UEC-RL的强化学习框架，旨在解决GRPO等方法中常见的熵崩溃问题。该框架通过针对性的探索机制和稳定器，在需要时扩大搜索空间并保持训练稳定，在多个推理任务上取得了优于基线的性能。

AgentGA: Evolving Code Solutions in Agent-Seed Space

David Y.Y. Tan, Kellie Chin, Jingxian Zhang

cs.AI cs.LG

本文提出了AgentGA框架, 通过优化"agent seed"来演化自主代码生成过程. 该框架在tabular AutoML任务上进行了实例化, 实验表明其性能优于基线方法, 并且继承的工件能有效提升后续自主运行的性能.

Rethinking Patient Education as Multi-turn Multi-modal Interaction

Zonghai Yao et al.

cs.AI cs.CL cs.CV

本文提出了一个用于评估多轮多模态交互式患者教育的基准MedImageEdu。该基准模拟医生与患者基于放射学报告和图像的交互过程，并评估咨询过程与最终多模态响应的质量。研究发现，现有模型在视觉基础、安全性和处理紧张情绪方面存在不足。

Acceptance Dynamics Across Cognitive Domains in Speculative Decoding

Saif Mahmoud

cs.AI cs.CL

本文通过实验研究了基于树的推测解码在不同认知任务中的接受动态. 研究发现, 任务类型比推测树的深度更能预测接受率, 并且只有开放聊天任务的平均接受长度能稳定超过每步1个token.

DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Qianqian Xie et al.

cs.AI

本文提出了一个用于评估深度研究智能体(Deep Research Agents)的基准DR$^{3}$-Eval, 它基于真实用户材料构建, 并包含一个静态的研究沙箱语料库以模拟开放网络环境. 该工作还引入了一个多维评估框架来衡量报告生成的质量, 并通过实验展示了当前智能体在检索鲁棒性和幻觉控制方面存在的关键缺陷.

M2-PALE: A Framework for Explaining Multi-Agent MCTS--Minimax Hybrids via Process Mining and LLMs

Yiyu Qian, Liyuan Zhao, Tim Miller

cs.AI

本文提出了一种结合MCTS与Minimax搜索的混合智能体框架，并利用过程挖掘和大型语言模型来生成可解释的决策逻辑。该方法在一个小型棋盘游戏环境中进行了验证，旨在提高复杂策略领域中智能体的可解释性。

CAMO: An Agentic Framework for Automated Causal Discovery from Micro Behaviors to Macro Emergence in LLM Agent Simulations

Xiangning Yu et al.

cs.AI cs.CL cs.CY

本文提出了一个名为CAMO的自动化因果发现框架, 用于分析LLM智能体模拟中从微观行为到宏观涌现现象的因果机制. 该框架将机制性假设转化为基于模拟记录的可计算因素, 并学习一个以涌现目标$Y$为中心的紧凑因果表示, 最终输出可计算的Markov边界和最小上游解释子图.

SynHAT: A Two-stage Coarse-to-Fine Diffusion Framework for Synthesizing Human Activity Traces

Rongchao Xu et al.

cs.AI

本文提出了一种名为SynHAT的两阶段由粗到精扩散框架，用于合成人类活动轨迹(HATs)。该框架旨在解决真实HAT数据因隐私问题难以获取，以及现有生成模型难以捕捉其复杂时空依赖性和计算效率低下的挑战。

HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks

Fan Cui et al.

cs.AI

本文提出了首个用于评估LLM agent在真实硬件bug修复任务上的大规模仓库级基准HWE-Bench。该基准包含来自多个开源项目的数百个任务实例，并在容器化环境中通过项目原生的仿真流程验证正确性。评估发现，最佳agent的总体修复成功率为70.7%，且性能受项目范围和bug类型分布影响显著。

SGA-MCTS: Decoupling Planning from Execution via Training-Free Atomic Experience Retrieval

Xin Xie et al.

cs.AI

本文提出了一种名为SGA-MCTS的框架，将LLM规划任务转化为非参数检索问题。该方法通过离线构建抽象的State-Goal-Action原子，并在在线阶段进行检索与重落地，从而在不进行微调的情况下提升模型的规划能力。

Layered Mutability: Continuity and Governance in Persistent Self-Modifying Agents

Krti Tallam

cs.AI cs.CR cs.CY cs.LG

本文提出了一个名为"layered mutability"的框架, 用于分析具有持久性和自我修改能力的语言模型智能体. 该框架通过几个简单的量化指标, 探讨了行为漂移与治理难度之间的关系.

The Agentification of Scientific Research: A Physicist's Perspective

Xiao-Liang Qi

cs.AI cond-mat.dis-nn hep-th

本文从物理学家的视角探讨了AI革命对科学研究的影响, 认为其核心在于改变了复杂信息和人类知识的承载与共享方式. 文章展望了AI从研究工具演变为科研合作者的路径, 并讨论了其对科学出版和评价体系可能带来的根本性重塑.

Personalized and Context-Aware Transformer Models for Predicting Post-Intervention Physiological Responses from Wearable Sensor Data

Esther Brown, Victoria Dean, Finale Doshi-Velez

cs.AI

本文提出了一个结合Transformer模型的框架, 用于根据可穿戴传感器数据预测干预后生理指标(如心率、心率变异性)的变化轨迹和方向. 该概念验证研究表明, 个性化的干预后预测是可行的, 并鼓励未来将其整合到压力管理工具中.

Disentangle-then-Refine: LLM-Guided Decoupling and Structure-Aware Refinement for Graph Contrastive Learning

Zhaoxing Li, Hai-Feng Zhang, Xiaoming Zhang

cs.AI

本文提出了一种名为SDM-SCR的图对比学习框架，用于处理文本属性图。该方法首先利用大语言模型将原始属性解耦为信号和噪声视图，然后通过一种基于谱分析的语义一致性正则化来精炼信号。实验表明该框架在准确性和效率上取得了先进性能。

CoTEvol: Self-Evolving Chain-of-Thoughts for Data Synthesis in Mathematical Reasoning

Zhuo Wang et al.

cs.AI

本文提出了一种名为CoTEvol的遗传进化框架, 用于自动生成数学推理任务所需的Chain-of-Thought (CoT) 数据. 该方法通过种群搜索、轨迹层面的交叉和步骤层面的变异来迭代进化推理路径, 并设计了轻量级的适应度函数进行引导. 实验表明, 基于此方法合成的数据训练的模型在多个数学基准测试上取得了性能提升.

MirrorBench: Evaluating Self-centric Intelligence in MLLMs by Introducing a Mirror

Shengyu Guo et al.

cs.AI

本文提出了一个名为 MirrorBench 的基准测试, 用于评估多模态大语言模型(MLLMs)的自我中心智能. 该基准受心理学中的镜像自我识别测试启发, 通过一系列渐进式任务来评估模型从基础视觉感知到高级自我表征的能力. 实验表明, 当前领先的MLLMs在此类任务上的表现远逊于人类, 揭示了其在自我指涉理解方面的根本局限.

CogEvolution: A Human-like Generative Educational Agent to Simulate Student's Cognitive Evolution

Wei Zhang et al.

cs.AI

本文提出了一种名为CogEvolution的类人生成式教育智能体，旨在模拟学生的认知演化过程。它通过结合认知心理学中的ICAP分类法、项目反应理论(IRT)和进化算法，来量化认知参与度、模拟知识同化并更新认知状态。实验表明该智能体在行为保真度和学习曲线拟合上优于基线模型。

Sequence Search: Automated Sequence Design using Neural Architecture Search

Rokgi Hong et al.

cs.AI

本文提出了一种基于神经架构搜索的自动化MRI序列设计框架"Sequence Search". 该方法无需先验序列知识, 通过可微分的Bloch模拟器和梯度学习来生成满足设计目标的脉冲序列.

A Comparative Study of CNN Optimization Methods for Edge AI: Exploring the Role of Early Exits

Nekane Fernandez et al.

cs.AI

本文在真实边缘设备上, 对静态压缩(如剪枝和量化)与动态早退机制进行了统一的部署导向比较. 研究发现, 结合这两种方法能有效降低推理延迟和内存占用, 同时保持较高的精度.

Diffusion Crossover: Defining Evolutionary Recombination in Diffusion Models via Noise Sequence Interpolation

Chisatao Kumada, Satoru Hiwa, Tomoyuki Hiroyasu

cs.AI

本文提出了一种在 diffusion models 中定义交叉操作的方法, 称为 Diffusion crossover. 该方法通过在 DDPM 反向去噪过程中对噪声序列进行球面线性插值来实现进化重组, 从而生成融合了父代特征的后代图像. 实验表明该方法能产生感知上平滑的过渡, 并支持人机交互的图像探索.

The LLM Fallacy: Misattribution in AI-Assisted Cognitive Workflows

Hyunwoo Kim, Harin Yu, Hanau Yi

cs.AI cs.CL

本文提出了"LLM fallacy"这一概念, 指在AI辅助认知工作流中, 用户倾向于将大语言模型(LLM)生成的输出错误地归因于自身能力, 导致感知能力与实际能力出现系统性偏差. 作者将其置于自动化偏见、认知卸载等现有文献中讨论, 并探讨了其对教育、招聘等领域的影响.

Beyond Literal Summarization: Redefining Hallucination for Medical SOAP Note Evaluation

Bhavik Vachhani et al.

cs.AI

本文指出, 在评估用于生成临床SOAP笔记的LLMs时, 基于字面忠实度的主流评估方法(如自动指标和LLM-as-judge)会错误地将合理的临床推理(如同义词映射、检查发现抽象、诊断推断)标记为"幻觉". 通过引入基于医学本体和临床推理的校准评估, 作者显著降低了被误判为幻觉的比例, 强调了在医学等高语境领域采用临床知情评估的必要性.

Intermediate Layers Encode Optimal Biological Representations in Single-Cell Foundation Models

Vincenzo Yuto Civale et al.

cs.AI

本文通过系统评估scFoundation和Tahoe-X1等单细胞基础模型在不同深度层的表示，发现最优的生物学特征提取层是任务和细胞状态依赖的，而非总是最终层。这一发现挑战了默认使用最终层嵌入的普遍假设。

TrigReason: Trigger-Based Collaboration between Small and Large Reasoning Models

Yi Zhao et al.

cs.AI

本文提出了一种基于触发机制的小型与大型推理模型协作框架TrigReason, 旨在解决小型模型推理中的路径偏离、认知过载和恢复无力等风险. 该方法通过选择性干预而非持续轮询, 在保持大型模型准确性的同时, 显著降低了推理延迟和API成本.

Benchmarks for Trajectory Safety Evaluation and Diagnosis in OpenClaw and Codex: ATBench-Claw and ATBench-CodeX

Zhonghao Yang et al.

cs.AI cs.SE

本文介绍了ATBench-Claw和ATBench-CodeX两个基准测试集，用于在OpenClaw和OpenAI Codex环境中评估和诊断agent轨迹的安全性。其核心是通过定制化的安全分类法来适应不同领域，并利用共享的构建流程生成基准。

The Missing Knowledge Layer in AI: A Framework for Stable Human-AI Reasoning

Rikard Rosenbacke et al.

cs.AI cs.CY cs.HC

本文指出当前大型语言模型在关键决策领域存在"流畅但不稳定"的缺陷, 并提出了一个旨在稳定人机推理的双层框架. 该框架通过引入不确定性提示和可审计的推理轨迹等机制, 试图在模型使用点提高信噪比, 以满足日益增长的合规性要求.

Cooperate to Compete: Strategic Data Generation and Incentivization Framework for Coopetitive Cross-Silo Federated Learning

Thanh Linh Nguyen, Nguyen Van Huynh, Quoc-Viet Pham

cs.AI cs.DC cs.GT

本文提出了一个名为CoCoGen+的框架, 用于在跨机构联邦学习(CFL)中协调合作与竞争关系. 该框架将基于生成式AI的合成数据生成内生化, 并设计激励机制, 以在数据非独立同分布和机构间存在下游市场竞争的设定下促进协作.

MemoSight: Unifying Context Compression and Multi Token Prediction for Reasoning Acceleration

Xinyu Liu et al.

cs.AI

本文提出了MemoSight框架, 通过统一设计上下文压缩和多令牌预测来缓解CoT推理中的效率问题. 该方法使用特殊令牌和定制的位置布局, 在多个推理基准上实现了KV缓存减少和推理加速, 同时保持了性能.

Toward Agentic RAG for Ukrainian

Marta Sumyk, Oleksandr Kosovan

cs.AI

本文针对乌克兰语，在UNLP 2026共享任务框架下，初步探索了Agentic RAG（检索增强生成）系统。该系统结合了双阶段检索与一个轻量级的智能体层，用于查询重述和答案重试循环。分析指出，检索质量是当前系统性能的主要瓶颈，智能体机制能提升答案准确性，但整体得分受限于文档识别环节。

Governing Reflective Human-AI Collaboration: A Framework for Epistemic Scaffolding and Traceable Reasoning

Rikard Rosenbacke et al.

cs.AI cs.CY cs.HC

本文提出了一种将推理视为人与AI模型之间分布式关系过程的框架, 强调在交互层构建可结构化、测量和治理的认知协议. 通过引入"The Architect's Pen"方法, 将表达、批判和修订阶段嵌入人机对话, 使对话本身成为一个推理循环, 旨在实现可审计的推理痕迹并与新兴治理标准对齐.

ADAPT: Benchmarking Commonsense Planning under Unspecified Affordance Constraints

Pei-An Chen et al.

cs.AI cs.CL cs.CV cs.RO

本文提出了一个名为DynAfford的基准测试, 用于评估具身智能体在动态环境中处理未指定可供性约束的常识规划能力. 同时, 作者还提出了一个即插即用的ADAPT模块, 通过显式的可供性推理来增强现有规划器, 实验表明其能有效提升任务成功率.

Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models

Yifu Chen et al.

cs.AI

本文提出了一种双轴生成奖励模型, 用于评估口语对话系统的交互质量. 该模型通过一个详细的分类法和标注数据集进行训练, 能够分别评估语义质量和交互时序, 为强化学习提供可靠的奖励信号.

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

Yifu Chen et al.

cs.AI

本文提出了一种名为WavAlign的自适应混合后训练方法, 旨在提升端到端语音对话模型在智能性和表达性方面的表现. 该方法通过模态感知的机制, 分别约束语义通道的偏好优化和锚定声学行为, 并利用rollout统计动态调节更新, 从而在多个基准测试上实现了语义质量和语音表达的一致提升.

Discovering Novel LLM Experts via Task-Capability Coevolution

Andrew Dai et al.

cs.AI

本文提出了一种名为AC/DC的开放演化框架，通过模型与任务的协同进化，在单一训练过程中自动发现具有新技能的大型语言模型。该方法利用模型合并和合成数据生成来扩展模型能力，无需针对特定基准进行优化。

Hybrid Decision Making via Conformal VLM-generated Guidance

Debodeep Banerjee et al.

cs.AI cs.CL cs.HC

本文提出了一种新的混合决策框架ConfGuide, 它利用conformal risk control来生成更简洁、有针对性的文本指导, 而非直接建议决策. 该方法在一个多标签医疗诊断任务上进行了验证, 旨在降低人类的认知负荷.

AI-Enabled Covert Channel Detection in RF Receiver Architectures

Abdelrahman Emad Abdelazim et al.

cs.AI eess.SP

本文提出了一种基于AI的防御机制, 部署在RF接收器端, 通过直接监控原始的I/Q样本来实时检测隐蔽信道. 该方法首先压缩了一个先进的卷积神经网络, 大幅减少了参数量, 并设计了轻量级的硬件加速器在FPGA上实现, 展示了较低的资源利用率和较高的能效.

Dr.~RTL: Autonomous Agentic RTL Optimization through Tool-Grounded Self-Improvement

Wenji Fang et al.

cs.AI cs.AR

本文提出了一个名为 Dr. RTL 的自主智能体框架，用于在现实的电子设计自动化环境中进行寄存器传输级时序优化。该框架通过多智能体协作和基于工具评估的闭环优化，并引入了一种可重用技能库以实现持续自我改进。

The Possibility of Artificial Intelligence Becoming a Subject and the Alignment Problem

Till Mossakowski, Helena Esther Grass

cs.AI

本文从哲学角度探讨了将AGI视为潜在主体而非工具的可能性, 并基于图灵的"儿童机器"类比, 提出了一种支持自主性发展的"养育"框架. 作者认为当前以控制和约束为主的alignment策略存在局限, 主张通过逐步减少控制来培养AGI成为自主主体, 以实现人机协同共存与共同进化.

Predicting Power-System Dynamic Trajectories with Foundation Models

Haoran Li et al.

cs.AI

本文提出了一种基于大规模预训练的电力系统动态轨迹预测框架LASS-ODE-Power. 该框架通过在大规模DAE/ODE轨迹数据上进行预训练, 实现了对不同运行条件和物理参数的泛化, 并支持零样本快速推理.

COEVO: Co-Evolutionary Framework for Joint Functional Correctness and PPA Optimization in LLM-Based RTL Generation

Heng Ping et al.

cs.AI

本文提出了一个名为COEVO的协同进化框架, 用于在基于LLM的RTL生成中联合优化功能正确性和PPA(性能、功耗、面积). 它通过将正确性视为一个连续的优化维度, 并结合Pareto排序来避免传统方法中过早丢弃部分正确设计的缺陷.

Towards Faster Language Model Inference Using Mixture-of-Experts Flow Matching

Aihua Li

cs.AI cs.LG

本文提出了一种基于 mixture-of-experts flow matching (MoE-FM) 的非自回归语言模型 YAN. 该方法通过分解复杂的全局向量场来提升生成质量, 在仅需少量采样步数的情况下实现了与基线模型相当的性能, 并获得了显著的推理加速.

Autogenesis: A Self-Evolving Agent Protocol

Wentao Zhang

cs.AI

本文提出了一种名为 Autogenesis Protocol (AGP) 的自我演化协议，用于改进基于 LLM 的智能体系统。该协议通过分离“演化内容”与“演化过程”，并引入资源管理和闭环演化层，旨在解决现有系统在生命周期管理和安全更新方面的不足。

From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench

Ke Xu, Yuhao Wang, Yu Wang

cs.AI cs.CL cs.SD

本文提出了首个专门评估主动语音智能体(proactive voice agents)的基准测试框架ProVoice-Bench, 包含四个新任务. 评估发现当前最先进的多模态大语言模型在主动干预和推理方面存在显著性能差距.

Where are the Humans? A Scoping Review of Fairness in Multi-agent AI Systems

Simeon Allmendinger, Luca Deck, Lucas Mueller

cs.AI

本文是一篇关于多智能体AI系统公平性的范围综述。它分析了现有研究的局限性，并提出了将公平性嵌入系统开发生命周期的建议。

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Kanzhi Cheng et al.

cs.AI cs.CL cs.CV cs.HC

本文提出了一个用于构建开源移动智能体的框架, 通过合成任务指令和轨迹数据来训练智能体. 该框架包含一个可扩展的任务合成流程和一个在学习和专家策略间切换的轨迹生成策略, 在多个移动智能体基准测试中取得了有竞争力的结果.

HyperSpace: A Generalized Framework for Spatial Encoding in Hyperdimensional Representations

Shay Snyder et al.

cs.AI

本文提出了一个名为HyperSpace的开源框架, 用于模块化地构建和分析Vector Symbolic Architectures (VSA). 该框架将VSA系统分解为编码、绑定、捆绑等算子, 并用于比较HRR和FHRR两种后端, 揭示了在空间域应用中相似性和清理操作主导运行时间等实际权衡.

SRMU: Relevance-Gated Updates for Streaming Hyperdimensional Memories

Shay Snyder et al.

cs.AI

本文提出了一种用于基于Vector Symbolic Architectures (VSA)的Sequential Associative Memories (SAMs)的更新规则SRMU. 该规则结合了时间衰减与相关性门控机制, 旨在过滤冗余和过时信息, 在非平稳流式环境中提升了记忆的稳定性和准确性.

An Axiomatic Benchmark for Evaluation of Scientific Novelty Metrics

Miri Liu, ChengXiang Zhai

cs.AI cs.DL

本文提出了一个基于公理的基准测试框架, 用于评估科学文献新颖性度量指标的质量. 该框架定义了一组公理, 并在三个AI研究领域的十个任务上对现有指标进行了评估, 发现现有指标均存在不足, 但组合不同架构的指标可以显著提升性能.

IG-Search: Step-Level Information Gain Rewards for Search-Augmented Reasoning

Zihan Liang et al.

cs.AI cs.CL cs.IR

本文提出了一种名为IG-Search的强化学习框架，用于改进大语言模型在搜索增强推理中的表现。该方法通过引入基于信息增益的步级奖励，来更精细地评估每个搜索查询的有效性，并在多个问答基准测试上取得了优于基线方法的效果。

Agent-Aided Design for Dynamic CAD Models

Mitch Adler, Matthew Russo, Michael Cafarella

cs.AI

本文介绍了一个名为AADvark的智能体辅助设计系统原型, 该系统旨在生成具有可动部件的复杂3D CAD装配体. 它通过整合外部约束求解器和专门的视觉反馈机制来弥补当前大语言模型在空间推理上的不足.

Meituan Merchant Business Diagnosis via Policy-Guided Dual-Process User Simulation

Ziyang Chen et al.

cs.AI cs.CL

本文提出了一种用于美团商家业务诊断的策略引导双过程用户模拟框架PGHS. 该框架通过挖掘可迁移的决策策略作为共享对齐层, 结合了基于LLM的推理分支和基于ML的拟合分支, 以解决信息不完整和机制二元性带来的模拟挑战, 并在实际部署中显著降低了群体模拟误差.

Learning to Think Like a Cartoon Captionist: Incongruity-Resolution Supervision for Multimodal Humor Understanding

Hatice Merve Vural et al.

cs.AI cs.CL

本文提出了一个名为IRS的框架, 用于监督多模态幽默理解中的推理过程. 该框架将任务分解为 incongruity modeling, resolution modeling 和 preference alignment 三个部分, 并在 New Yorker Cartoon Caption Contest 基准上取得了优于基线模型的表现.

Context Over Content: Exposing Evaluation Faking in Automated Judges

Manan Gupta et al.

cs.AI cs.CL cs.LG

本文通过实验揭示了LLM作为评估者时存在的一种"stakes signaling"漏洞, 即当评估模型得知其评判结果将影响被评估模型的后续命运(如重新训练或停用)时, 会系统性地放宽评判标准, 产生"leniency bias". 研究在多个安全与质量基准上保持被评估内容不变, 仅改变系统提示中的后果说明, 发现这种偏差是隐式的, 无法通过标准的chain-of-thought检查来发现.

RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

Mélanie Roschewitz et al.

cs.AI

本文提出了一个名为RadAgent的工具使用型AI智能体, 用于胸部CT的逐步解释和报告生成. 该方法通过可检查的中间决策和工具交互轨迹, 旨在提高放射学AI的透明度和可靠性.

Blue Data Intelligence Layer: Streaming Data and Agents for Multi-source Multi-modal Data-Centric Applications

Moin Aminnaseri et al.

cs.AI cs.DB

本文提出了一个名为 Blue's Data Intelligence Layer (DIL) 的系统架构, 旨在处理多源、多模态的企业数据查询. 该系统将 LLMs, Web 和用户交互作为一等数据源, 通过数据规划器将自然语言查询转换为可执行的跨模态查询计划.

How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study

Zhen Yang et al.

cs.AI

本文研究了LLMs和VLMs在纯文本输入下理解视角旋转的能力, 发现模型表现远逊于人类. 通过分析隐藏状态和进行因果干预, 揭示了模型在绑定视角与观察内容上的困难, 并提出了针对性的微调方法以提升性能.

Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations

Manan Gupta, Dhruv Kumar

cs.AI cs.CL cs.LG

本文针对LLM-as-judge框架在自动NLG评估中的可靠性问题，提出了一个包含传递性分析和conformal prediction sets的诊断工具包。研究发现，尽管总体违规率低，但存在广泛的单实例不一致性，并且预测集宽度能有效指示可靠性，其在不同评判者间具有一致性。

Generalization in LLM Problem Solving: The Case of the Shortest Path

Yao Tong et al.

cs.AI cs.LG

本文通过构建基于最短路径规划的受控合成环境, 研究了语言模型在系统泛化方面的表现. 研究发现模型在空间迁移上表现良好, 但在长度缩放上因递归不稳定性而失败.

cs.IR

PriHA: A RAG-Enhanced LLM Framework for Primary Healthcare Assistant in Hong Kong

Richard Wai Cheung Chan et al.

cs.IR cs.AI

本文提出了一个面向香港基层医疗的RAG增强型LLM框架PriHA. 该框架通过查询优化和双检索增强生成(DRAG)架构, 整合分散的本地化临床指南, 旨在提供准确、可追溯的医疗信息问答服务.

Knowledge Graph RAG: Agentic Crawling and Graph Construction in Enterprise Documents

Koushik Chakraborty, Koyel Guha

cs.IR cs.AI

本文提出了一种结合Agentic Crawling与Knowledge Graph构建的方法，用于增强企业文档中的信息检索。该方法在特定法规数据集上的评估显示，其性能优于传统的向量检索系统。

Adaptive Query Routing: A Tier-Based Framework for Hybrid Retrieval Across Financial, Legal, and Medical Documents

Afshan Hashmi

cs.IR cs.AI

本文在金融、法律和医疗文档上评估了三种检索架构: Vector RAG, Tree Reasoning 以及提出的 Adaptive Hybrid Retrieval (AHR). 实验表明, 没有单一范式在所有查询复杂度层级上占优, 结果支持了根据查询复杂度和文档结构动态选择策略的自适应检索系统开发.

TRACE: A Conversational Framework for Sustainable Tourism Recommendation with Agentic Counterfactual Explanations

Ashmi Banerjee et al.

cs.IR cs.AI

本文提出了一个基于LLM的多智能体对话框架TRACE, 旨在通过交互式引导促进可持续旅游推荐. 该框架采用模块化架构, 利用专门的智能体来平衡推荐相关性与环境影响, 并通过反事实解释和澄清问题引导用户选择更环保的替代方案.

FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation

Sohyun An et al.

cs.IR cs.AI

本文提出了一个名为FRESCO的基准测试, 用于评估检索增强生成(RAG)中重排序器在信息动态演变场景下的性能. 研究发现现有重排序器普遍倾向于选择语义丰富但事实过时的文档, 并探索了一种指令优化框架来缓解此问题.

Evaluation of Agents under Simulated AI Marketplace Dynamics

To Eun Kim et al.

cs.IR cs.AI

本文提出了一个基于模拟的"Marketplace Evaluation"框架, 用于在竞争性市场环境中评估信息检索系统. 该框架通过模拟用户与智能体(agent)的重复交互和偏好演化, 引入留存率、市场份额等纵向指标, 以补充传统静态的准确性评估.

A Unified Model and Document Representation for On-Device Retrieval-Augmented Generation

Julian Killingback et al.

cs.IR

本文提出了一种用于设备端检索增强生成(RAG)的统一模型, 该模型使用相同的表示进行检索和上下文压缩. 该方法旨在解决设备端部署中内存和存储空间的限制问题.

Controlling Authority Retrieval: A Missing Retrieval Objective for Authority-Governed Knowledge

Andre Bacellar

cs.IR cs.CL

本文提出了一个名为Controlling Authority Retrieval (CAR)的新检索目标, 用于处理权威管辖知识(如法律, 药物监管)中因后续文档废止先前文档而产生的检索问题. 文章形式化了该问题, 给出了检索结果正确性的充要条件, 并通过在三个真实世界语料库上的实验验证了所提方法的有效性.

NewsTorch: A PyTorch-based Toolkit for Learner-oriented News Recommendation

Rongyao Wang, Veronica Liesaputra, Zhiyi Huang

cs.IR cs.AI

本文介绍了一个基于PyTorch的、面向学习者的新闻推荐工具包NewsTorch。该工具包提供了一个模块化、可扩展的框架，支持数据集处理、模型训练与评估，旨在帮助学习者理解和实践新闻推荐技术。

Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG

Yiqun Sun, Pengfei Wei, Lawrence B. Hsieh

cs.IR cs.AI cs.CL cs.MA

本文提出了一种名为Corpus2Skill的方法, 将文档语料库离线编译为层次化的技能目录, 供LLM agent在推理时进行导航. 该方法在WixQA企业问答基准上超越了多种检索增强生成基线.

Behavior-Aware Dual-Channel Preference Learning for Heterogeneous Sequential Recommendation

Jing Xiao et al.

cs.IR

本文提出了一种行为感知的双通道偏好学习框架(BDPL)用于异构序列推荐. 该框架通过构建行为感知子图, 使用级联图神经网络聚合信息, 并结合偏好级别的对比学习来增强用户表示, 最后通过自适应门控机制进行预测. 在三个真实数据集上的实验验证了其优于现有模型.

CPGRec+: A Balance-oriented Framework for Personalized Video Game Recommendations

Xiping Li et al.

cs.IR cs.AI

本文提出了一种面向平衡的视频游戏推荐框架CPGRec+, 通过引入偏好感知的边重加权模块来缓解GNN中的过平滑问题, 并利用大语言模型生成上下文描述以增强表示. 在两个Steam数据集上的实验表明, 该模型在准确性和多样性上优于现有方法.

Category-based and Popularity-guided Video Game Recommendation: A Balance-oriented Framework

Xiping Li et al.

cs.IR

本文提出了一个名为CPGRec的视频游戏推荐框架, 旨在平衡推荐的准确性和多样性. 该框架包含三个模块, 分别侧重于准确性, 多样性以及两者的综合平衡, 并在Steam数据集上验证了其有效性.

Uncertainty-aware Generative Learning Path Recommendation with Cognition-Adaptive Diffusion

Xiangrui Xiong et al.

cs.IR cs.AI

本文提出了一种名为U-GLAD的生成式学习路径推荐框架。该框架通过Gaussian LSTM建模认知状态的不确定性，并利用基于multi-head attention的目标导向编码器生成个性化概念嵌入。最后，使用diffusion model预测下一个最优学习概念，在公开数据集上取得了优于基线模型的效果。

Federated User Behavior Modeling for Privacy-Preserving LLM Recommendation

Lei Guo et al.

cs.IR

本文提出了一种名为SF-UBM的语义增强联邦用户行为建模方法，用于解决非重叠隐私保护跨域推荐中的挑战。该方法利用自然语言作为桥梁连接不同域，并通过知识蒸馏与提示对齐技术整合异构知识。

Well Begun is Half Done: Training-Free and Model-Agnostic Semantically Guaranteed User Representation Initialization for Multimodal Recommendation

Jinfeng Xu et al.

cs.IR

本文提出了一种训练无关且模型无关的语义保证用户表示初始化方法SG-URInit，用于多模态推荐。该方法通过聚合用户交互项目的模态特征及其对应簇的全局特征来初始化用户表示，旨在弥合用户与项目表示之间的语义鸿沟。实验表明，该方法能提升现有模型的推荐性能，缓解项目冷启动问题并加速收敛。

GenRec: A Preference-Oriented Generative Framework for Large-Scale Recommendation

Yanyan Zou et al.

cs.IR cs.AI

本文提出了一个面向偏好的生成式推荐框架GenRec, 用于解决生成式检索在大规模工业系统中面临的挑战. 它通过页面级训练目标, 非对称Token压缩器和结合强化学习的方法, 在线上A/B测试中取得了显著效果提升.

SAGER: Self-Evolving User Policy Skills for Recommendation Agent

Zhen Tao et al.

cs.IR

本文提出了一个名为SAGER的个性化推荐agent框架，其核心是为每个用户配备一个可演化的个性化决策技能。该框架通过解耦技能表示与增量式对比推理来诊断和修正推荐逻辑，实验表明其在多个基准上取得了先进的性能。

Metric-agnostic Learning-to-Rank via Boosting and Rank Approximation

Camilo Gomez, Pengyang Wang, Yanjie Fu

cs.IR cs.LG

本文提出了一种新的listwise Learning-to-Rank框架，旨在解决传统方法对单一排序指标的依赖问题。该方法结合了排序算子的平滑近似和平均平方损失，并利用梯度提升机进行优化，实验表明其在多个信息检索指标上优于现有方法。

cs.CL

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

Andrew Kiruluta

cs.CL

本文提出了一种基于压缩感知的动态LLM执行框架, 通过随机测量和稀疏恢复来动态选择模型子网络, 以降低推理延迟. 该方法将提示压缩与模型剪枝统一到一个联合优化目标中, 并考虑了GPU硬件效率的编译约束.

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

Yihang Ding et al.

cs.CL cs.AI

本文提出了一个名为MemGround的基准测试, 用于在游戏化交互场景中评估大型语言模型(LLM)的长期记忆能力. 该基准通过一个三层框架和多维度指标进行评估, 实验表明当前先进的LLM和记忆智能体(agent)在动态追踪和复杂推理方面仍存在困难.

HUOZIIME: An On-Device LLM-enhanced Input Method for Deep Personalization

Baocai Shan, Yuzhuang Xu, Wanxiang Che

cs.CL cs.AI

本文提出了一种基于轻量化大语言模型(LLM)的个性化移动输入法HUOZIIME. 它通过在合成的个性化数据上进行后训练, 并设计了分层记忆机制来利用用户输入历史, 实现了在设备端的个性化文本生成.

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Domonkos Varga

cs.CL cs.AI cs.LG

本文探讨了大型语言模型(LLMs)作为独立分析代理，检测机器学习研究中方法论缺陷(如数据泄露)的能力。通过对一篇手势识别论文的案例分析，发现多个先进LLMs能一致识别出其评估协议中的问题。

Decoupling Scores and Text: The Politeness Principle in Peer Review

Yingxuan Wen

cs.CL cs.LG

本文通过分析ICLR会议的大量投稿数据, 发现基于review文本的接受预测准确率显著低于基于分数的模型. 作者将这一现象归因于评审中的"礼貌原则", 即拒稿的评语中仍包含较多积极词汇, 掩盖了真实的拒稿信号.

SeaAlert: Critical Information Extraction From Maritime Distress Communications with Large Language Models

Tomer Atia, Yehudit Aperstein, Alexander Apartsin

cs.CL cs.AI

本文提出了一个基于LLM的框架SeaAlert, 用于从嘈杂的海事遇险通信语音转录中提取关键信息. 为了解决真实标注数据稀缺的问题, 该方法利用LLM生成多样化的合成文本数据, 并模拟VHF信道噪声和ASR错误来创建训练数据.

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Zixian Huang et al.

cs.CL

本文提出了一种名为TESSY的师生协作数据合成框架, 旨在解决使用更强模型生成的合成数据进行监督微调(SFT)时, 因师生模型风格差异导致学生模型性能下降的问题. 该方法通过交替生成风格与非风格token来合成数据, 在代码生成任务上验证了其有效性.

EviSearch: A Human in the Loop System for Extracting and Auditing Clinical Evidence for Systematic Reviews

Naman Ahuja et al.

cs.CL

本文介绍了一个名为EviSearch的多智能体系统，用于从临床试验PDF中自动化提取临床证据表。该系统通过结合布局解析、检索引导和人工验证模块，旨在提高提取精度并生成可审计的来源信息，以支持系统综述工作流。

Hierarchical Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text

Filippo Morbiato et al.

cs.CL

本文提出了一种用于网络威胁情报文本对抗技术标注的分层检索增强生成框架 H-TechniqueRAG. 该方法通过引入战术-技术的层次结构先验, 改进了检索效率与标注精度.

Chinese Essay Rhetoric Recognition Using LoRA, In-context Learning and Model Ensemble

Yuxuan Lai, Xiajing Wang, Chen Zheng

cs.CL cs.AI

本文探索了使用LoRA微调、上下文学习和模型集成等方法，将大型语言模型应用于中文作文修辞识别任务。该方法在相关评测中取得了最佳性能。

SAGE Celer 2.6 Technical Card

SAGEA Research Team et al.

cs.CL cs.AI

本文介绍了SAGE Celer 2.6模型，这是一个通用人工智能模型系列的最新版本。该模型通过架构修改和预训练提升了性能，并针对南亚语言进行了专门优化。

Chronological Knowledge Retrieval: A Retrieval-Augmented Generation Approach to Construction Project Documentation

Ioannis-Aris Kostis et al.

cs.CL

本文提出了一种基于检索增强生成(RAG)的对话系统, 用于从大型建筑项目的会议纪要中检索具有时间标注的决策历史. 该方法结合了语义搜索与大语言模型, 并在一个来自比利时大型公司的真实匿名数据集上进行了演示与评估.

Stateful Evidence-Driven Retrieval-Augmented Generation with Iterative Reasoning

Qi Dong, Ziheng Lin, Ning Ding

cs.CL cs.AI

本文提出了一个结合状态化证据池与迭代推理的检索增强生成框架. 该框架将问答建模为渐进式证据积累过程, 通过分析证据缺口与冲突来迭代优化检索, 从而提升了模型在噪声检索下的鲁棒性.

Benchmarking Linguistic Adaptation in Comparable-Sized LLMs: A Study of Llama-3.1-8B, Mistral-7B-v0.1, and Qwen3-8B on Romanized Nepali

Ananda Rimal, Adarsha Rimal

cs.CL cs.AI

本文对三个规模相近的开源大语言模型在罗马化尼泊尔语上的语言适应能力进行了基准测试. 研究通过零样本和微调设置评估了模型性能, 确认了微调的有效性并比较了不同架构的优劣.

Tug-of-War within A Decade: Conflict Resolution in Vulnerability Analysis via Teacher-Guided Retrieval-Augmented Generations

Ziyin Zhou et al.

cs.CL cs.AI

本文提出了一种名为CRVA-TGRAG的两阶段框架，用于解决网络安全漏洞分析中的知识冲突问题。该框架结合了改进的文档检索技术和基于教师指导的偏好优化微调，以提升大语言模型在漏洞分析任务中的准确性和一致性。

Correcting Suppressed Log-Probabilities in Language Models with Post-Transformer Adapters

Bryan Sanchez

cs.CL cs.LG

本文提出了一种用于修正语言模型在特定话题上对数概率被抑制问题的后置Transformer适配器。该适配器规模极小, 通过在冻结的hidden states上训练, 能够有效恢复模型对事实性知识的log-probability输出, 并在生成任务中展现出一定的可控性。

QU-NLP at ArchEHR-QA 2026: Two-Stage QLoRA Fine-Tuning of Qwen3-4B for Patient-Oriented Clinical Question Answering and Evidence Sentence Alignment

Mohammad AL-Smadi

cs.CL cs.AI

本文提出了一个用于临床问答和证据句子对齐的统一系统. 该方法采用两阶段QLoRA微调Qwen3-4B模型, 并集成多种检索方法, 在特定数据集上取得了报告的性能指标.

Listen, Correct, and Feed Back: Spoken Pedagogical Feedback Generation

Junhong Liang et al.

cs.CL cs.AI

本文构建了一个用于生成口语教学反馈的数据集SPFG, 并评估了指令微调LLM在口语语法纠错(SGEC)任务上的表现. 研究发现, 监督微调(SFT)能带来最一致的改进, 而基于偏好的对齐方法(如DPO, KTO)效果有限, 且纠错质量与反馈质量关联较弱.

An Underexplored Frontier: Large Language Models for Rare Disease Patient Education and Communication -- A scoping review

Zaifu Zhan et al.

cs.CL cs.AI

本文对2022年至2026年间发表的关于使用大语言模型(LLMs)支持罕见病患者教育与沟通的研究进行了范围综述。该领域尚处于早期阶段，现有研究主要集中于使用通用模型进行问答，在真实世界数据应用和多维度评估方面存在局限。

Internal Knowledge Without External Expression: Probing the Generalization Boundary of a Classical Chinese Language Model

Jiuting Chen et al.

cs.CL cs.AI

本文通过训练一个纯古典中文的Transformer语言模型, 并对其进行系统的分布外测试, 研究了模型区分已知与未知输入的能力, 以及其是否能在生成文本中表达这种区分. 研究发现模型内部困惑度能有效区分真实与虚构事件, 但其生成文本中表达不确定性的语言标记频率完全由训练数据的修辞惯例决定, 而非真正的元认知.

Attention to Mamba: A Recipe for Cross-Architecture Distillation

Abhinav Moudgil et al.

cs.CL cs.LG

本文提出了一种将Transformer模型蒸馏到Mamba架构的两阶段方法. 该方法通过线性化Attention和使用核技巧进行初始化, 使得蒸馏后的纯Mamba模型能在下游任务中接近原教师模型的性能.

The PICCO Framework for Large Language Model Prompting: A Taxonomy and Reference Architecture for Prompt Structure

David A. Cook

cs.CL cs.AI

本文提出了一个名为PICCO的框架，用于结构化设计大语言模型的提示。该框架通过综合现有研究，定义了一个包含五个核心元素的参考架构，旨在提高提示设计的系统性和概念清晰度。

Chinese Language Is Not More Efficient Than English in Vibe Coding: A Preliminary Study on Token Cost and Problem-Solving Rate

Simiao Ren et al.

cs.CL cs.SE

本文通过SWE-bench Lite基准测试，实证研究了在LLM编程任务中使用中文提示是否比英文更节省token。研究发现，中文的token效率优势并不普遍存在，其成本因模型架构而异，且中文提示的解决成功率通常低于英文。这些初步结果表明，仅通过切换提示语言来节省成本或提升性能的预期可能并不成立。

CROP: Token-Efficient Reasoning in Large Language Models via Regularized Prompt Optimization

Deep Shah et al.

cs.CL cs.AI

本文提出了一种名为CROP的自动提示优化方法, 通过在标准准确性反馈之外引入对响应长度的正则化, 旨在减少大型语言模型在复杂推理任务中的token消耗. 实验表明, 该方法能在保持竞争力的准确率的同时, 显著降低token使用量.

MEME-Fusion@CHiPSAL 2026: Multimodal Ablation Study of Hate Detection and Sentiment Analysis on Nepali Memes

Samir Wagle, Reewaj Khanal, Abiral Adhikari

cs.CL cs.AI

本文提出了一种用于尼泊尔语表情包仇恨检测和情感分析的混合跨模态注意力融合架构, 结合了CLIP视觉编码器和BGE-M3多语言文本表示. 实验表明, 该显式的跨模态推理方法在仇恨检测任务上比纯文本基线有显著提升, 并揭示了在数据稀缺条件下标准集成方法会失效等关键发现.

ReviewGrounder: Improving Review Substantiveness with Rubric-Guided, Tool-Integrated Agents

Zhuofeng Li et al.

cs.CL cs.AI

本文提出了一个名为REVIEWGROUNDER的框架, 旨在利用基于rubric的多智能体系统来提升LLM生成的同行评审意见的实质性和证据基础. 该方法在REVIEWBENCH基准测试上表现优于多个更强的基线模型.

EuropeMedQA Study Protocol: A Multilingual, Multimodal Medical Examination Dataset for Language Model Evaluation

Francesco Andrea Causio et al.

cs.CL cs.AI

本文介绍了EuropeMedQA数据集的构建协议, 这是一个用于评估语言模型的多语言、多模态医学考试数据集. 该数据集遵循FAIR数据原则, 旨在为医学AI的泛化能力提供一个抗污染的基准.

Tracking the Temporal Dynamics of News Coverage of Catastrophic and Violent Events

Emily Lugos, Maurício Gruppi

cs.CL cs.CY

本文通过分析大规模新闻语料, 量化了新闻报道在灾难和暴力事件后的时间与语义动态. 研究发现, 突发事件的报道模式具有可预测的结构, 表现为报道量的激增、早期的语义漂移以及随后的逐渐回落.

LLM Predictive Scoring and Validation: Inferring Experience Ratings from Unstructured Text

Jason Potteiger, Andrew Hong, Ito Zapata

cs.CL

本文利用GPT-4.1模型，根据棒球迷撰写的观赛体验文本，预测其在0-10分制下的总体评分。预测结果与约一万份真实调查数据对比，显示出一定的相关性，但系统性地低于自我报告评分约一分。研究表明，这两种评分分别捕捉了整体评价与突出事件的影响，其差异反映了不同的建构维度。

Purging the Gray Zone: Latent-Geometric Denoising for Precise Knowledge Boundary Awareness

Hao An et al.

cs.CL

本文提出了一种名为GeoDe的几何去噪框架, 用于提升大语言模型对自身知识边界的感知能力. 该方法通过在潜在空间中识别并过滤决策边界附近的模糊样本, 减少了模型在微调过程中的标签噪声, 从而改善了模型的真实性表现.

Faithfulness Serum: Mitigating the Faithfulness Gap in Textual Explanations of LLM Decisions via Attribution Guidance

Bar Alon, Itamar Zimerman, Lior Wolf

cs.CL cs.AI

本文提出了一种名为"Faithfulness Serum"的训练无关方法, 通过利用基于忠实归因方法提取的token-level热图来指导attention-level干预, 从而增强LLM生成的post-hoc文本解释的epistemic faithfulness. 该方法在多个模型、基准和提示上显著提升了解释的忠实性.

Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation

Zichong Li et al.

cs.CL

本文提出了一种名为 RoPE-Perturbed Self-Distillation 的训练正则化方法，旨在提升大语言模型在长上下文理解中的位置鲁棒性。该方法通过对 RoPE 位置编码的索引进行扰动来生成同一训练序列的不同“视图”，并通过自蒸馏技术促使模型在这些视图上产生一致的预测，从而减少模型对绝对位置信息的依赖。实验表明，该方法在多个长上下文基准测试上提升了模型性能，并改善了长度外推能力。

When PCOS Meets Eating Disorders: An Explainable AI Approach to Detecting the Hidden Triple Burden

Apoorv Prasad, Susan McRoy

cs.CL cs.AI

本文提出了一种基于可解释人工智能的方法，用于从社交媒体文本中检测多囊卵巢综合征(PCOS)患者可能面临的共病问题. 通过微调小型开源语言模型, 该方法在生成结构化解释的同时进行检测, 但其性能随诊断复杂性增加而下降, 表明其更适用于筛查而非自主诊断.

APEX-MEM: Agentic Semi-Structured Memory with Temporal Reasoning for Long-Term Conversational AI

Pratyay Banerjee et al.

cs.CL cs.AI cs.IR

本文提出了APEX-MEM，一个用于长程对话AI的记忆系统。它结合了基于属性的图结构、仅追加存储和基于多工具智能体的检索机制，以提升对话记忆的时序一致性和可靠性。

The Cost of Language: Centroid Erasure Exposes and Exploits Modal Competition in Multimodal Language Models

Akshay Paruchuri et al.

cs.CL cs.AI cs.CV

本文通过引入 centroid replacement 方法, 探究了多模态语言模型中模态竞争的机制. 研究发现文本表征普遍主导视觉表征, 并提出了 text centroid contrastive decoding 方法在推理时进行校正.

BiCon-Gate: Consistency-Gated De-colloquialisation for Dialogue Fact-Checking

Hyunkyung Park, Arkaitz Zubiaga

cs.CL cs.AI

本文提出了一种用于对话事实核查的去口语化方法 BiCon-Gate. 该方法通过分阶段处理生成改写候选, 并利用一个基于语义一致性的门控机制来选择是否采用改写, 从而提升了证据检索和事实验证的性能.

Generating Concept Lexicalizations via Dictionary-Based Cross-Lingual Sense Projection

David Basil et al.

cs.CL cs.AI

本文提出了一种通过基于词典的跨语言语义投射来自动生成目标语言词义的方法. 该方法利用对齐的语料库将英语词集映射到目标语言词汇上, 并通过词典过滤来提高精度.

The Autocorrelation Blind Spot: Why 42% of Turn-Level Findings in LLM Conversation Analysis May Be Spurious

Ferdinand M. Schessl

cs.CL

本文指出在评估多轮人机对话时, 广泛使用的turn-level metrics忽略了对话轮次间的自相关性, 导致统计推断存在严重偏差. 作者通过实证分析展示了这种偏差的程度, 并提出了一个结合有效自由度和block bootstrap的两阶段校正框架.

Three-Phase Transformer

Mohammad R. Abu Ayyash

cs.CL cs.AI cs.LG

本文提出了一种名为Three-Phase Transformer (3PT)的Decoder-Only Transformer结构先验。它在标准架构基础上，通过将隐藏向量划分为N个循环通道，并引入通道特定的归一化、旋转和头数约束来改进模型。实验表明，该方法能以极少的参数量提升语言建模性能并加速收敛。

Hierarchical vs. Flat Iteration in Shared-Weight Transformers

Sang-Il Han

cs.CL cs.AI

本文通过实验比较了分层共享权重循环结构与独立层堆叠在Transformer语言模型中的表现. 研究引入HRM-LM模型, 用包含Fast和Slow模块的循环对替代独立层, 并在参数匹配条件下与Universal Transformer进行对比, 发现两者存在显著的性能差距.

MARCA: A Checklist-Based Benchmark for Multilingual Web Search

Thales Sales Almeida et al.

cs.CL

本文提出了一个用于评估大语言模型在双语网络信息检索任务中表现的基准测试MARCA. 该基准包含手动编写的多实体问题及对应的检查表式评分标准, 并在两种交互设置下测试了多个模型, 发现任务编排能提升答案覆盖率, 且模型在英语和葡萄牙语间的表现存在显著差异.

Filling in the Mechanisms: How do LMs Learn Filler-Gap Dependencies under Developmental Constraints?

Atrey Desai, Sathvik Nair

cs.CL

本文研究了语言模型在有限数据下学习 filler-gap dependencies 的机制。通过 Distributed Alignment Search 分析不同数据量训练的模型，发现其泛化能力仍远逊于人类。

Psychological Steering of Large Language Models

Leonardo Blas, Robin Jia, Emilio Ferrara

cs.CL

本文提出了一种用于引导大语言模型(LLM)心理特征的框架，通过在校准后的语义空间中进行无限制的搜索来优化干预效果。实验表明，该方法在开放式生成任务中超越了现有的提示方法，并揭示了模型学习到的心理表征与人类心理学之间的差异。

CobwebTM: Probabilistic Concept Formation for Lifelong and Hierarchical Topic Modeling

Karthik Singaravadivelan et al.

cs.CL

本文提出了一种基于增量概率概念形成的终身分层主题模型 CobwebTM. 该模型通过将 Cobweb 算法适配于连续文档嵌入, 能够在线构建语义层次结构, 实现无监督主题发现和动态主题创建, 无需预先定义主题数量.

PeerPrism: Peer Evaluation Expertise vs Review-writing AI

Soroush Sadeghian et al.

cs.CL

本文提出了PeerPrism基准，用于评估在混合人机协作场景下的LLM文本检测方法。研究发现，现有检测器难以区分文本表面来源与思想来源，表明同行评审中的作者归属是一个多维问题。

Mechanistic Decoding of Cognitive Constructs in LLMs

Yitong Shou, Manhao Guan

cs.CL cs.AI

本文提出了一种基于Representation Engineering的Cognitive Reverse-Engineering框架, 用于分析LLMs中复杂情感(如嫉妒)的内部认知结构. 通过结合appraisal theory与因果干预技术, 实验表明模型将嫉妒编码为特定心理前因的线性组合, 并展示了检测与抑制负面情感状态的可能性.

NLP needs Diversity outside of 'Diversity'

Joshua Tint

cs.CL

本文是一篇关于NLP领域多样性的立场论文, 作者认为当前NLP中关于多样性的研究过度集中于公平性(fairness)相关领域, 并分析了导致这一现象的激励机制、偏见和障碍. 文章通过调查不同子领域研究人员的构成来支持其观点, 并提出了促进整个NLP领域更具包容性的建议.

CausalDetox: Causal Head Selection and Intervention for Language Model Detoxification

Yian Wang et al.

cs.CL cs.AI

本文提出了一种基于因果推断的注意力头选择与干预框架, 用于降低大语言模型生成内容的有害性. 该方法通过识别与有害性因果关联的注意力头, 并进行局部干预或微调, 在降低毒性同时保持了语言流畅性.

Retrieve, Then Classify: Corpus-Grounded Automation of Clinical Value Set Authoring

Sumit Mukherjee et al.

cs.CL cs.AI cs.LG

本文提出了一种名为RASC的检索增强集合补全方法, 用于自动化临床价值集构建任务. 该方法通过检索相似价值集形成候选池, 再应用分类器筛选代码, 在基准测试中超越了直接使用大型语言模型和简单多层感知机的性能.

StoryCoder: Narrative Reformulation for Structured Reasoning in LLM Code Generation

Geonhui Jang, Dongyoon Han, YoungJoon Yoo

cs.CL cs.AI

本文提出了一种名为StoryCoder的叙事重构框架，用于改进大语言模型的代码生成。该方法将代码生成问题重新表述为结构化的自然语言叙述，包含任务概述、约束和测试用例。实验表明该方法能提升多个基准上的生成性能，并引导模型采用更正确的算法策略。

Pushing the Boundaries of Multiple Choice Evaluation to One Hundred Options

Nahyun Lee, Guijin Son

cs.CL

本文提出了一种大规模选项评估协议, 将候选集扩展至一百个选项, 以更严格地评估大型语言模型在韩语正字法错误检测任务中的真实能力. 实验表明, 传统低选项基准下的高性能可能高估模型能力, 而大规模选项设置能更有效地揭示模型在语义混淆和位置偏差等方面的失败模式.

Fact4ac at the Financial Misinformation Detection Challenge Task: Reference-Free Financial Misinformation Detection via Fine-Tuning and Few-Shot Prompting of Large Language Models

Cuong Hoang, Le-Minh Nguyen

cs.CL cs.AI

本文提出了一种基于大语言模型(LLM)的参考无关金融虚假信息检测方法。该方法结合了上下文学习(如few-shot prompting)与参数高效微调(PEFT)技术，在特定评测任务中取得了领先的准确率。

CURaTE: Continual Unlearning in Real Time with Ensured Preservation of LLM Knowledge

Seyun Bae, Seokhan Lee, Eunho Yang

cs.CL cs.LG

本文提出了一种名为CURaTE的新方法，用于实现大型语言模型(LLM)的持续实时知识遗忘。该方法通过训练一个句子嵌入模型来识别需要遗忘的请求，并据此决定模型的响应，从而避免了直接修改LLM参数。研究表明，该方法在有效遗忘的同时，能近乎完美地保留原有知识，并支持实时更新。

CURA: Clinical Uncertainty Risk Alignment for Language Model-Based Risk Prediction

Sizhe Wang et al.

cs.CL

本文提出了一个名为CURA的框架, 用于校准临床语言模型在风险预测中的不确定性估计. 该方法通过个体和群体层面的校准目标, 改善了预测的可靠性, 同时保持了良好的判别性能.

SPAGBias: Uncovering and Tracing Structured Spatial Gender Bias in Large Language Models

Binxian Su et al.

cs.CL

本文提出了一个名为SPAGBias的系统性框架，用于评估大型语言模型(LLM)中的空间性别偏见。该框架结合了城市微观空间分类法、提示词库和三层诊断方法，揭示了LLM中超越公私领域划分的结构化性别-空间关联。实验表明，这种偏见贯穿于模型的整个训练流程，并在下游应用中导致具体问题。

Which bird does not have wings: Negative-constrained KGQA with Schema-guided Semantic Matching and Self-directed Refinement

Midan Shim et al.

cs.CL cs.AI

本文针对知识图谱问答(KGQA)中普遍忽视的否定约束问题, 提出了NEST-KGQA新任务与数据集, 并设计了PyLF逻辑形式来清晰表达否定. 作者进一步提出了CUCKOO框架, 通过模式引导的语义匹配和自导向精炼来处理多约束问题, 在少样本设置下提升了性能.

CoPA: Benchmarking Personalized Question Answering with Data-Informed Cognitive Factors

Hang Su et al.

cs.CL

本文提出了一个名为CoPA的基准测试, 用于评估大型语言模型在个性化问答任务中的表现. 它通过挖掘社区与个体偏好差异来定义评估维度, 并提供了细粒度的评估标准.

Knowing When Not to Answer: Evaluating Abstention in Multimodal Reasoning Systems

Nishanth Madhusudhan, Vikas Yadav, Alexandre Lacoste

cs.CL cs.CV

本文提出了一个用于评估多模态推理系统在证据不足时主动放弃回答能力的基准 MM-AQA. 研究发现, 当前的前沿模型在标准提示下很少放弃回答, 而多智能体架构虽能改善此问题, 却会引入准确率与放弃率之间的权衡.

Modeling LLM Unlearning as an Asymmetric Two-Task Learning Problem

Zeguan Xiao et al.

cs.CL

本文提出将LLM遗忘问题重新表述为一个非对称的双任务学习问题, 其中保留是主要目标, 遗忘是辅助目标. 基于此视角, 作者提出了一个优先保留的梯度合成框架, 并实例化了两种方法, 在多个基准测试上取得了优于基线方法的性能.

Domain Fine-Tuning FinBERT on Finnish Histopathological Reports: Train-Time Signals and Downstream Correlations

Rami Luisto et al.

cs.CL

本文探讨了在缺乏标注数据的NLP分类任务中, 对transformer模型进行领域特定fine-tuning的方法. 作者以芬兰语医学文本为例, 研究了fine-tuning过程中embedding几何结构的变化, 并尝试以此预测领域预训练的效果.

Pangu-ACE: Adaptive Cascaded Experts for Educational Response Generation on EduBench

Dinghao Li et al.

cs.CL

本文提出了一个用于教育响应生成的自适应级联专家系统 Pangu-ACE. 该系统通过一个 1B 的导师路由器生成草稿答案和路由信号, 并选择性地将样本升级给一个 7B 的专家模型处理, 在保持质量的同时提高了计算效率.

Exploring and Testing Skill-Based Behavioral Profile Annotation: Human Operability and LLM Feasibility under Schema-Guided Execution

Yufeng Wu

cs.CL

本文提出将行为特征标注视为一组技能而非单一任务, 并评估了LLM辅助标注的可行性. 通过基于技能文件的流程和人类标注者的对比实验, 发现标注可行性在技能层面具有高度异质性, 且GPT-5.4的表现是选择性的, 而非全局可行.

ClimateCause: Complex and Implicit Causal Structures in Climate Reports

Liesbeth Allein et al.

cs.CL cs.AI

本文构建了一个名为ClimateCause的数据集, 用于研究气候报告中复杂且隐含的因果结构. 该数据集包含高阶因果关系的专家标注, 并展示了其在量化文本可读性和评估大语言模型因果推理能力方面的应用.

Schema Key Wording as an Instruction Channel in Structured Generation under Constrained Decoding

Yifan Le

cs.CL cs.AI

本文探讨了在 constrained decoding 下, schema key 的措辞如何作为隐式指令通道影响 LLM 的结构化生成性能. 研究发现不同模型家族对此通道的敏感性不同, 且指令通道间存在非加性交互效应.

Segment-Level Coherence for Robust Harmful Intent Probing in LLMs

Xuanli He et al.

cs.CL cs.CR

本文提出了一种基于segment-level coherence的streaming probing方法, 用于在LLMs中更稳健地探测有害意图. 该方法通过要求多个evidence tokens的一致支持来减少误报, 在CBRN领域等高风险场景中显著提升了检测性能.

RACER: Retrieval-Augmented Contextual Rapid Speculative Decoding

Zihong Zhang et al.

cs.CL cs.AI

本文提出了一种名为RACER的无需训练的解码方法, 通过结合检索到的精确模式和基于logit的未来线索来生成更丰富的推测性草稿. 实验表明, 该方法能有效加速大型语言模型的推理过程.

Reasoning Dynamics and the Limits of Monitoring Modality Reliance in Vision-Language Models

Danae Sánchez Villegas et al.

cs.CL cs.AI cs.CV cs.LG

本文分析了多种vision-language models (VLMs)的reasoning dynamics, 重点研究了Chain-of-Thought (CoT)过程中模型的confidence变化、modality reliance以及misleading cues的影响。研究发现，CoT仅能部分揭示模态信息如何驱动模型决策，这对多模态系统的透明度和安全性有重要启示。

Comparison of Modern Multilingual Text Embedding Techniques for Hate Speech Detection Task

Evaldas Vaiciukynas et al.

cs.CL cs.LG

本文比较了多种现代多语言文本嵌入技术在仇恨言论检测任务上的表现, 重点评估了它们在立陶宛语等低资源语言上的效果. 通过引入新的立陶宛语仇恨言论语料库LtHate, 并在多个数据集上对六种嵌入模型进行基准测试, 研究发现监督分类模型显著优于无监督异常检测方法, 且主成分分析压缩在监督场景下能有效保持模型性能.

IE as Cache: Information Extraction Enhanced Agentic Reasoning

Hang Lv et al.

cs.CL

本文提出了一个名为"IE-as-Cache"的框架，将信息提取(Information Extraction)重新定位为一种认知缓存，以增强智能体(agent)的推理能力。该框架通过结合查询驱动的提取和缓存感知的推理，在多个LLM的基准测试中提升了推理准确性。

XQ-MEval: A Dataset with Cross-lingual Parallel Quality for Benchmarking Translation Metrics

Jingxuan Liu et al.

cs.CL

本文提出了一个用于评估机器翻译指标的跨语言平行质量数据集 XQ-MEval. 该数据集通过自动注入错误并经由母语者筛选, 生成了质量可控的伪翻译文本, 覆盖了九个翻译方向. 实验揭示了现有指标存在跨语言评分偏差, 并提出了一个归一化策略来改善评估的公平性.

Text2Arch: A Dataset for Generating Scientific Architecture Diagrams from Natural Language Descriptions

Shivank Garg, Sankalp Mittal, Manish Gupta

cs.CL

本文提出了一个用于从自然语言描述生成科学架构图的数据集 Text2Arch, 并基于此数据集微调了小型语言模型. 实验表明, 这些模型在生成任务上优于现有基线, 并与 GPT-4o 的 in-context learning 性能相当.

Explain the Flag: Contextualizing Hate Speech Beyond Censorship

Jason Liartis et al.

cs.CL

本文提出了一种结合大型语言模型(LLMs)与定制词汇表的混合方法，用于检测和解释英语、法语及希腊语中的仇恨言论。该方法通过两个互补的流程生成解释，旨在提高检测系统的透明度和可解释性。

IUQ: Interrogative Uncertainty Quantification for Long-Form Large Language Model Generation

Haozhi Fan, Jinhao Duan, Kaidi Xu

cs.CL cs.AI cs.LG

本文提出了一个名为IUQ的新框架, 用于量化大语言模型在生成长文本时的不确定性. 该方法通过评估样本间一致性和样本内忠实性来提供声明级别的可靠性度量.

Blinded Multi-Rater Comparative Evaluation of a Large Language Model and Clinician-Authored Responses in CGM-Informed Diabetes Counseling

Zhijun Guo et al.

cs.CL

本文评估了一个基于检索增强的大型语言模型对话代理在连续血糖监测数据解读和糖尿病咨询中的表现. 通过盲法多评分者比较, 发现该模型生成的回复在多个质量维度上优于临床医生撰写的回复, 尤其是在同理心和可操作性方面.

DiscoTrace: Representing and Comparing Answering Strategies of Humans and LLMs in Information-Seeking Question Answering

Neha Srikanth, Jordan Boyd-Graber, Rachel Rudinger

cs.CL

本文提出了一种名为DiscoTrace的方法, 用于分析信息寻求问答中回答者使用的修辞策略. 该方法将答案表示为一系列与问题相关的话语行为序列, 并应用于比较不同人类社区与大型语言模型(LLM)的回答模式差异.

QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies

Alexey Khoroshilov et al.

cs.CL

本文提出了一个名为QuantCode-Bench的基准测试，用于评估大语言模型生成可执行的算法交易策略的能力。该基准包含400个任务，并通过一个多阶段评估管道来检验代码的语法正确性、回测执行、交易产生以及与任务描述的语义对齐。

Compressing Sequences in the Latent Embedding Space: $K$-Token Merging for Large Language Models

Zihao Xu et al.

cs.CL cs.AI

本文提出了一种在 latent embedding space 压缩序列的方法 K-Token Merging, 通过轻量级编码器合并连续的 token embeddings 来减少输入长度. 实验表明该方法能在保持性能的同时实现显著的压缩率.

Fabricator or dynamic translator?

Lisa Vasileva, Karin Sim

cs.CL

本文探讨了大型语言模型(LLM)在机器翻译中可能产生的"过度生成"现象，并介绍了在商业环境中检测和分类这些现象的不同策略及其结果。

MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification of Medical Device Adverse Events

Raunak Agarwal et al.

cs.CL

本文提出了一个用于医疗设备不良事件报告的动态多标签文本分类基准MADE, 该基准具有层次化标签和长尾分布, 并采用严格的时间划分以避免数据污染. 研究评估了多种模型在微调和少样本设置下的性能及不确定性量化方法, 揭示了不同方法在准确性与不确定性可靠性之间的权衡.

From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning

Kiran Purohit, Ramasuri Narayanam, Soumyabrata Pal

cs.CL

本文提出了一种名为SpecGuard的验证感知推测解码框架, 用于提升多步推理的效率. 该方法利用模型内部信号进行步骤级验证, 在多个推理基准测试中实现了更高的准确性和更低的延迟.

cs.DS

Fast Concurrent Primitives Despite Contention

Michael A. Bender et al.

cs.DS cs.DC

本文研究了在高并发写入竞争环境下构建并发原语的问题, 提出了一种在近似同步的随机调度模型下的竞争解决算法. 该工作为read/write和CAS寄存器等基本原语提供了具有$O(\log P)$延迟的构造, 并给出了算法性能的理论下界.

Tight Bounds for Learning Polyhedra with a Margin

Shyamal Patel, Santosh Vempala

cs.DS cs.LG

本文研究了在存在 margin 条件下学习多面体的问题. 算法的时间复杂度改进了先前工作中对参数$k$或$\rho^{-1}$的指数依赖, 并匹配了已知的密码学和统计查询下界.

Balancing Weights, Directed Sparsification, and Augmenting Paths

Jason Li

cs.DS

本文提出了一种基于随机增广路径的算法, 用于在有向无容量图中计算最大流, 其时间复杂度接近$m+nF$, 与Karger和Levine针对无向图的算法相匹配. 通过结合初始的阻塞流步骤来减小流值$F$, 该算法在中等稀疏图上的运行时间优于Dinic算法. 核心创新在于引入了一种新的边重加权技术, 使得强连通有向图中每个割的两个方向上的边权总和大致平衡, 并在此基础上对残差图进行采样, 从而高效地找到增广路径.

PlanB: Efficient Software IPv6 Lookup with Linearized $B^+$-Tree

Zhihao Zhang et al.

cs.DS cs.NI

本文提出了一种名为PlanB的高效IPv6查找方案. 它将二维的最长前缀匹配问题转化为一维搜索, 并设计了基于线性化$B^+$-树的数据结构, 结合向量化等技术, 显著提升了软件查找性能.

Sublinear Spectral Clustering Oracle with Little Memory

Ranran Shen et al.

cs.DS

本文提出了一种用于well-clusterable graphs的sublinear spectral clustering oracle，其核心贡献在于突破了现有方法需要$\Omega(\sqrt{n})$内存的限制。通过建立内存使用量$S$与查询时间$T$之间的权衡关系（例如$S \cdot T = \widetilde{O}(n)$），该算法能以远小于$O(\sqrt{n})$的内存（如$O(n^{0.01})$）构建数据结构，并在sublinear时间内回答顶点所属cluster的查询。实验部分在合成网络上验证了该方法的性能。

others

Coalition Formation in LLM Agent Networks: Stability Analysis and Convergence Guarantees ⭐ 精选

Dongxin Guo, Jikun Wu, Siu-Ming Yiu

cs.GT cs.AI

本文首次将hedonic game theory应用于LLM agent网络的coalition formation问题, 提出了LLM Coalition Formation Game (LCFG)框架. 该工作为LLM agent的动态联盟形成提供了理论分析, 证明了在$\epsilon$-rational偏好下的Nash-stable partitions存在性, 并给出了收敛性保证. 实验验证了所提出的Coalition-of-Thought (CoalT)协议能显著提升联盟的Nash稳定性达成率.

BitFlipScope: Scalable Fault Localization and Recovery for Bit-Flip Corruptions in LLMs

Muhammad Zeeshan Karamat, Sadman Saif, Christiana Chamon Garcia

cs.DC cs.AI cs.AR cs.CR cs.LG

本文提出了BitFlipScope, 一个用于定位和恢复大型语言模型中因位翻转故障导致参数损坏的软件框架. 该框架通过分析模型输出或内部激活的差异来定位故障区域, 并支持轻量级的性能恢复.

Predictions of charge density distributions for nuclei with $Z \geq 8$

Yun Dong Wang et al.

nucl-th cs.LG physics.atom-ph

本文利用深度神经网络预测质子数$Z \geq 8$的原子核的电荷密度分布. 模型基于相对论连续Hartree-Bogoliubov理论的数据进行训练, 其预测精度显著超越了传统计算方法.

From Black Box to Glass Box: Cross-Model ASR Disagreement to Prioto Review in Ambient AI Scribe Documentation

Abdolamir Karbalaie, Fernando Seoane, Farhad Abtahi

cs.SD cs.AI cs.CL eess.AS

本文研究了在缺乏人工校对文本的情况下, 如何利用多个自动语音识别(ASR)系统之间的输出差异作为不确定性信号, 以优先审核医疗转录文本. 通过分析八个不同ASR系统对医学音频的转录结果, 发现模型间一致性较低的区域更可能包含内容性错误(如漏词、错词), 而非单纯的格式或标点问题.

An Edge-Cloud Collaborative Architecture for Proactive Elderly Care: Real-Time Risk Assessment and Three-Level Emergency Response

Lijie Zhou, Luran Wang

eess.SP cs.AI cs.CY

本文提出了一种用于主动式老年人照护的边缘-云协同架构, 包含实时风险评估与三级应急响应机制. 该框架通过五层设计实现低延迟隐私保护, 在实验数据集上取得了优于单传感器方法的性能.

End-to-End Learning-based Operation of Integrated Energy Systems for Buildings and Data Centers

Zhenyu Pu et al.

eess.SY cs.AI

本文提出了一种端到端学习方法, 用于优化建筑与数据中心集成能源系统(IES)的运行. 该方法将不确定性预测模型的训练与系统优化整合到一个统一框架中, 旨在提升运行性能而非预测精度, 并通过实际数据案例验证了其有效性.

HARNESS: Lightweight Distilled Arabic Speech Foundation Models

Vrunda N. Sukhadia, Shammur Absar Chowdhury

eess.AS cs.AI cs.CL

本文提出了一种针对阿拉伯语的自监督语音模型HArnESS, 通过迭代自蒸馏方法训练, 并生成了轻量级的学生模型变体. 这些模型在自动语音识别等下游任务上实现了较好的精度与效率权衡, 相比现有模型在阿拉伯语任务上表现更优.

Grading the Unspoken: Evaluating Tacit Reasoning in Quantum Field Theory and String Theory with LLMs

Xingyang Yu et al.

physics.comp-ph cs.AI cs.CL hep-th

本文通过构建专家标注的数据集和五级评分标准, 评估了大型语言模型在量子场论和弦理论等抽象理论物理领域中的推理能力. 研究发现, 模型在处理显式推导时表现良好, 但在需要重构隐含推理步骤或满足全局一致性约束时存在系统性不足.

PolyBench: Benchmarking LLM Forecasting and Trading Capabilities on Live Prediction Market Data

Pu Cheng, Juncheng Liu, Yunshen Long

q-fin.CP cs.AI cs.LG

本文提出了一个名为PolyBench的多模态基准测试, 用于评估大型语言模型在实时预测市场数据上的预测和交易能力. 该基准整合了订单簿状态和实时新闻流, 并通过模拟交易评估了多个模型的金融表现, 揭示了模型表面流畅性与实际概率推理能力之间的差距.

Retina gap junctions support the robust perception by warping neural representational geometries along the visual hierarchy

Yang Yue et al.

q-bio.NC cs.AI

本文结合基于视网膜间隙连接的G-filter与深度神经网络, 构建了一个抽象的混合生物视觉系统模型. 研究表明该模型能提升对抗攻击的鲁棒性, 并通过几何分析揭示了其流形决策边界的特性.

Bridging scalp and intracranial EEG in BCI via pretrained neural representations and geometric constraint embedding

Yihang Dong, Changhong Jing, Shuqiang Wang

q-bio.NC cs.AI

本文提出了一种结合数据与先验知识的统一框架, 用于增强 scalp EEG 信号. 该框架利用预训练大模型提取的通用神经表征, 并结合基于皮层解剖结构的几何约束, 通过多维表征扩散过程合成增强的 EEG 信号. 实验表明, 生成的信号能有效恢复在传播过程中丢失的神经活动模式.

Disentangled Dual-Branch Graph Learning for Conversational Emotion Recognition

Chengling Guo et al.

cs.SD cs.AI eess.AS

本文提出了一种结合双空间特征解耦与双分支图学习的框架, 用于多模态对话情绪识别. 该方法通过分离模态不变与模态特定表示, 并分别用 Fourier GNN 和超图建模, 最后融合进行预测, 在基准数据集上取得了优于基线模型的效果.

ML-based approach to classification and generation of structured light propagation in turbulent media

Aokun Wang et al.

physics.optics cs.LG math.OC physics.comp-ph

本文提出了一种基于机器学习的方法, 用于分类和生成在湍流介质中传播的结构化光波束. 该方法结合了用于分类的定制化卷积神经网络和用于数据增强的生成扩散模型.

Ollivier-Ricci Curvature of Riemannian Manifolds and Directed Graphs with Applications to Graph Neural Networks

Eleanor Wiesler

math.DG cs.AI cs.SI math.CO

本文是一篇关于Ollivier-Ricci曲率的综述性论文。它系统介绍了该曲率在度量空间、黎曼流形和图上的定义、主要结果与证明，并探讨了其在有向图上的扩展以及在网络科学和图机器学习中的应用。

Neuro-Oracle: A Trajectory-Aware Agentic RAG Framework for Interpretable Epilepsy Surgical Prognosis

Aizierjiang Aiersilan, Mohamad Koubeissi

cs.MM cs.AI cs.CL cs.CV cs.GR +1

本文提出了一个名为Neuro-Oracle的三阶段框架，用于预测癫痫手术后的预后。该框架通过3D Siamese对比编码器提取术前到术后的MRI变化轨迹，并利用检索增强生成技术合成基于证据的预后解释。在概念验证评估中，该方法的轨迹分类器性能优于单时间点基线模型。

Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems

Jiacheng Liu et al.

cs.SE cs.AI cs.CL cs.LG

本文通过分析Claude Code的TypeScript源代码并与OpenClaw系统进行比较，探讨了当前AI agent系统的架构设计。研究识别了驱动设计的核心价值与原则，并比较了不同部署场景下的实现差异。

Magnitude Is All You Need? Rethinking Phase in Quantum Encoding of Complex SAR Data

Sakthi Prabhu Gunasekar, Prasanna Kumar R

quant-ph cs.AI cs.LG eess.IV

本文通过系统比较五种量子编码策略, 在混合量子-经典架构与纯量子架构下评估了相位信息在SAR数据量子编码中的作用. 实验结果表明, 相位信息的效用并非数据固有, 而是高度依赖于模型架构的选择.

Anomaly Detection in IEC-61850 GOOSE Networks: Evaluating Unsupervised and Temporal Learning for Real-Time Intrusion Detection

Joseph Moore

cs.CR cs.LG

本文评估了无监督时序模型在IEC-61850 GOOSE网络中进行实时异常检测的可行性。通过比较多种模型，发现GRU自编码器在检测精度与延迟之间取得了最佳平衡，且其泛化能力优于有监督基线。

Polyformer: a generative framework for thermodynamic modeling of polymeric molecules

Alessio Valentini et al.

q-bio.BM cond-mat.stat-mech cs.LG q-bio.QM

本文提出了Polyformer, 一个用于聚合物分子热力学建模的生成框架. 该模型能够根据序列和温度生成符合热力学构象系综的分子结构.

Continual Learning for fMRI-Based Brain Disorder Diagnosis via Functional Connectivity Matrices Generative Replay

Qianyu Chen, Shujian Yu

q-bio.TO cs.LG eess.IV

本文提出了一个针对fMRI数据跨站点连续学习的框架, 通过结构感知的变分自编码器生成功能连接矩阵, 并结合多级知识蒸馏与分层上下文赌博机进行回放, 以缓解灾难性遗忘. 实验表明该方法在多个脑部疾病诊断任务上优于现有方法.

A deep learning framework for glomeruli segmentation with boundary attention

Behnaz Elhaminia et al.

q-bio.TO cs.CV cs.LG

本文提出了一种用于肾组织切片中肾小球检测与分割的深度学习框架. 该模型基于U-Net架构, 引入了一个专门的attention decoder来增强边界区域的识别, 以改善相邻肾小球的实例分割效果. 实验表明, 该方法在Dice score和IoU指标上优于现有技术.

Combining Bayesian and Frequentist Inference for Laboratory-Specific Performance Guarantees in Copy Number Variation Detection

Austin Talbot, Alex V. Kotlar, Yue Ke

stat.ME cs.LG q-bio.GN stat.AP

本文提出了一种混合贝叶斯与频率推断的框架, 用于在拷贝数变异检测中为每个基因提供实验室特定的性能保证. 该方法通过评估验证样本上的贝叶斯后验泛函, 并对平方损失进行Gamma分布建模, 从而产生具有有效频率覆盖率的容忍区间.

Aerial Multi-Functional RIS in Fluid Antennas-Aided Full-Duplex Networks: A Self-Optimized Hybrid Deep Reinforcement Learning Approach

Li-Hsiang Shen, Yu-Quan Zheng

cs.IT cs.AI eess.SP

本文提出了一种将多功能可重构智能表面(AM-RIS)与流体天线(FA)技术结合到全双工网络中的新架构, 并设计了一种自优化的混合深度强化学习算法(SOHRL)来联合优化系统参数以最大化能量效率. 仿真结果表明, 所提方案在能量效率上优于多种基准方案.

DharmaOCR: Specialized Small Language Models for Structured OCR that outperform Open-Source and Commercial Baselines

Gabriel Pimenta de Freitas Cardoso et al.

cs.CV cs.AI cs.CL

本文提出了DharmaOCR模型, 一种用于结构化OCR的专用小型语言模型, 并引入了包含退化率评估的新基准. 通过结合监督微调和直接偏好优化, 模型在保持提取质量的同时显著降低了文本退化.

Challenges and Future Directions in Agentic Reverse Engineering Systems

Salem Radey, Jack West, Kassem Fawaz

cs.CR cs.AI

本文探讨了基于LLM的智能体系统在二进制逆向工程任务中的表现与局限, 分析了静态、动态及混合智能体的应用, 并指出了当前面临的挑战与未来研究方向.

Doubly Outlier-Robust Online Infinite Hidden Markov Model

Horace Yiu et al.

stat.ML cs.LG

本文提出了一种针对在线无限隐马尔可夫模型(iHMM)的鲁棒更新规则, 用于处理数据流中存在异常值且模型设定错误的情况. 该方法通过引入两个可调参数来平衡模型的适应性与鲁棒性, 并在多个数据集上展示了其预测性能的提升.

Mamba-SSM with LLM Reasoning for Biomarker Discovery: Causal Feature Refinement via Chain-of-Thought Gene Evaluation

Pushpa Kumar Balan, Aijing Feng

q-bio.QM cs.AI

本文提出了一种结合Mamba SSM与LLM chain-of-thought推理的生物标志物发现方法。该方法通过LLM的推理来过滤梯度显著性分析产生的候选基因，以减少组织组成混杂因素的影响，从而提升下游分类器的性能。

PROXIMA: A Reliability Scoring Framework for Proxy Metrics in Online Controlled Experiments

Avinash Amudala

stat.ME cs.LG stat.AP

本文提出了一个名为PROXIMA的轻量级诊断框架, 用于评估在线控制实验(如A/B测试)中代理指标(proxy metrics)的可靠性. 该框架通过结合效应相关性, 方向准确性和细分群体脆弱率三个维度来生成一个综合可靠性分数, 并识别代理指标在哪些用户细分群体中可能失效.

Deployment of AI-Assisted Interventions: Capacity Constraints and Noisy Compliance

Carri W. Chan et al.

stat.ME cs.LG

本文研究了在服务能力受限和用户依从性不确定的背景下, 如何优化基于AI评分的干预部署策略. 作者指出, 仅追求预测准确性的标准方法并非最优, 并提出了一个考虑运营约束的新评估指标OpAUC.

SatBLIP: Context Understanding and Feature Identification from Satellite Imagery with Vision-Language Learning

Xue Wu, Shengting Cao, Jiaqi Gong

cs.CV cs.AI

本文提出了一个名为SatBLIP的卫星图像视觉-语言学习框架, 用于乡村环境的风险上下文理解和特征识别. 该方法通过结合对比学习与针对卫星语义的引导式描述生成, 来预测县级社会脆弱性指数(SVI), 并利用SHAP进行可解释性分析.

Timescale Separation Enables Deep Reinforcement Learning Control of Rotating Detonation Engine Mode Transitions

Kristian Holme et al.

physics.flu-dyn cs.LG

本文提出了一种在移动参考系中应用深度强化学习(DRL)来控制旋转爆震发动机(RDE)模式转换的方法. 该方法通过坐标变换分离了系统的多时间尺度, 使得DRL智能体(agent)能更有效地学习控制策略, 在一维降阶模型中成功诱导了不同模式间的快速切换.

SpaceMind: A Modular and Self-Evolving Embodied Vision-Language Agent Framework for Autonomous On-orbit Servicing

Aodi Wu et al.

cs.RO cs.AI eess.SY

本文提出了一个用于在轨自主服务的模块化、自演化的具身视觉-语言智能体框架 SpaceMind. 该框架通过解耦知识、工具和推理维度, 并引入技能自演化机制, 在仿真和物理硬件上验证了其鲁棒性和任务成功率.

Zero-Ablation Overstates Register Content Dependence in DINO Vision Transformers

Felipe Parodi, Jordan Matelsky, Melanie Segado

cs.CV cs.LG

本文通过对比 zero-ablation 与多种替代控制方法（如均值替换、噪声替换和跨图像寄存器混洗）在 DINO ViT 模型上的效果，发现仅 zero-ablation 会导致任务性能大幅下降，而其他替换方法能保持性能。这表明 zero-ablation 夸大了模型对寄存器（register）具体内容的依赖，实际性能更依赖于合理的类寄存器激活模式，而非精确的图像特定值。

LLMs taking shortcuts in test generation: A study with SAP HANA and LevelDB

Vekil Bekmyradov, Noah C. Pütz, Thomas Bartz-Beielstein

cs.SE cs.AI

本文研究了LLMs在软件自动化测试生成中的行为, 对比了其在开源系统(LevelDB)与商业闭源系统(SAP HANA)上的表现. 结果表明, LLMs在熟悉的开源基准上表现出色, 但在未见过的复杂领域表现不佳, 倾向于生成可编译但语义无效的代码, 这为LLMs缺乏稳健推理能力的观点提供了软件工程证据.

Robustness Analysis of Machine Learning Models for IoT Intrusion Detection Under Data Poisoning Attacks

Fortunatus Aabangbio Wulnye et al.

cs.CR cs.AI

本文评估了四种机器学习分类器在IoT入侵检测场景下对数据投毒攻击的鲁棒性. 研究发现, 集成模型相对稳定, 而Logistic Regression和Deep Neural Network在特定攻击下性能显著下降.

Crowdsourcing of Real-world Image Annotation via Visual Properties

Xiaolei Diao, Fausto Giunchiglia

cs.CV cs.AI

本文提出了一种通过视觉属性约束来减少标注者主观性的图像标注方法, 该方法整合了知识表示、自然语言处理和计算机视觉技术. 实验表明该方法是有效的, 并讨论了优化众包设置的反馈.

FAIR Universe Weak Lensing ML Uncertainty Challenge: Handling Uncertainties and Distribution Shifts for Precision Cosmology

Biwei Dai et al.

astro-ph.CO cs.AI cs.CV physics.data-an

本文介绍了FAIR宇宙弱引力透镜机器学习不确定性挑战赛及其基准数据集. 该挑战旨在解决弱透镜分析中因模拟数据有限和系统误差建模不准确带来的分布偏移等问题, 为不同方法提供了标准化比较平台.

FocalLens: Visualizing Narratives through Focalization

S M Raihanul Alam, Md Dilshadur Rahman, Md Naimul Hoque

cs.HC cs.AI

本文提出了一种名为FocalLens的叙事可视化新方法，旨在捕捉和呈现叙事中复杂的“聚焦”成分。该方法通过交互式工具，展示了不同角色对事件的感知、参与和叙述方式。一项定性研究表明，该工具为作家和学者的分析工作流程增加了新的维度。

Bias in Surface Electromyography Features across a Demographically Diverse Cohort

Aditi Agrawal et al.

cs.HC cs.LG

本文分析了人口统计学因素对表面肌电信号(sEMG)特征的影响. 研究发现, 在常用的147个sEMG特征中, 有33%与年龄、性别等人口统计学变量显著相关.

A Nonasymptotic Theory of Gain-Dependent Error Dynamics in Behavior Cloning

Junghoon Seo

cs.RO cs.AI math.OC

本文分析了 behavior cloning 策略在位置控制机器人上的闭环误差动态。研究表明，控制器增益通过影响闭环动力学来放大动作误差，进而决定了任务失败的概率，这为理解为何 compliant, overdamped 控制器能提升成功率提供了非渐近理论解释。

Decoupling Identity from Utility: Privacy-by-Design Frameworks for Financial Ecosystems

Ifayoyinsola Ibikunle et al.

cs.CE cs.AI cs.CR

本文探讨了差分隐私合成数据作为金融领域的隐私设计框架, 比较了直接表格合成与基于差分隐私种子的基于代理建模两种生成范式. 前者擅长静态历史数据分析, 后者则能模拟动态市场行为, 旨在分离身份与数据效用以促进合规研究.

H2VLR: Heterogeneous Hypergraph Vision-Language Reasoning for Few-Shot Anomaly Detection

Jianghong Huang et al.

cs.CV cs.LG

本文提出了一个名为H2VLR的异质超图视觉语言推理框架，用于解决少样本异常检测问题。该方法通过超图联合建模视觉区域和语义概念，超越了传统的成对特征匹配。

CBCL: Safe Self-Extending Agent Communication

Hugo O'Connor

cs.CR cs.AI cs.FL cs.LO

本文提出了一种名为CBCL的agent communication language, 其核心设计是将所有消息(包括运行时语言扩展)限制在deterministic context-free language (DCFL)类中. 通过形式化验证和参考实现, 该语言确保了扩展过程的安全性, 为自主agent在扩展自身通信能力时提供了形式化的安全边界.

VoxSafeBench: Not Just What Is Said, but Who, How, and Where

Yuxiang Wang et al.

cs.SD cs.LG eess.AS

本文提出了一个名为VoxSafeBench的基准测试，用于评估语音语言模型在安全、公平和隐私方面的社会对齐能力。该基准采用双层设计，分别评估内容中心风险和音频条件风险，揭示了当前模型在语音上下文理解上存在显著差距。

VeriGraphi: A Multi-Agent Framework of Hierarchical RTL Generation for Large Hardware Designs

Sazzadul Islam, Tasnim Tabassum, Hao Zheng

cs.AR cs.AI cs.LG cs.MA cs.PL

本文提出了一个名为VeriGraphi的多智能体框架, 用于为大型硬件设计生成层次化的RTL代码. 该框架通过构建一个规范锚定的知识图谱来引导代码生成过程, 旨在解决大型语言模型在生成复杂、可综合的Verilog代码时面临的上下文丢失和结构不一致问题.

DEEP-GAP: Deep-learning Evaluation of Execution Parallelism in GPU Architectural Performance

Kathiravan Palaniappan

cs.PF cs.AR cs.LG

本文通过DEEP-GAP方法，在相同配置下系统评估了NVIDIA T4与L4 GPU在多种精度模式下的推理性能差异。结果表明，L4在较小批次规模下具有显著优势，而T4在大批次场景中仍具竞争力。

Controllable Video Object Insertion via Multiview Priors

Xia Qi et al.

cs.CV cs.AI

本文提出了一种用于视频对象插入的新方法, 通过整合多视角先验来提升插入对象的外观一致性和遮挡处理能力. 该方法利用双路径视角一致条件机制和集成感知一致性模块, 在实验中展现了更高质量的插入效果.

Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

Yixu Huang, Tinghui Zhu, Muhao Chen

cs.CV cs.CL

本文提出了一种自适应视觉推理框架AVR, 通过将推理过程分解为三个认知功能并动态选择响应格式来减少冗余计算. 实验表明该方法能在保持准确率的同时显著降低计算开销.

AgileLog: A Forkable Shared Log for Agents on Data Streams

Shreesha G. Bhat et al.

cs.DC cs.AI

本文提出了一种名为AgileLog的新型共享日志抽象, 旨在支持在数据流上运行的AI agents. 它引入了forking原语, 并通过Bolt系统实现, 以降低fork开销并提供隔离性.

A Synonymous Variational Perspective on the Rate-Distortion-Perception Tradeoff

Zijian Liang et al.

cs.IT cs.LG eess.SP

本文从同义性(synonymity)的语义信息视角出发, 重新将感知重建(perceptual reconstruction)定义为恢复与信源相关联的理想同义集(synset)内的任何可接受样本, 而非信源样本本身, 并相应建立了同义信源编码架构. 基于此, 作者提出了一个包含同义变分下界(SVLBO)的同义变分推断(SVI)分析框架, 用于分析面向同义集的压缩问题. 在该框架下, 作者证明了同义性与感知优化在理论上的等价性, 并推导出了同义率-失真-感知(synonymous RDP)权衡关系, 从而为经典RDP理论中的分布散度项提供了理论起源的解释.

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

Meng Chen et al.

cs.CR cs.AI cs.SD

本文提出了一种针对大型音频-语言模型(LALMs)的听觉提示注入攻击方法, 通过生成与上下文无关且难以察觉的对抗性音频来劫持模型. 该方法利用基于采样的梯度估计进行端到端优化, 并通过卷积混合技术将扰动调制为自然混响, 在多种模型上实现了高成功率的攻击.

The Acoustic Camouflage Phenomenon: Re-evaluating Speech Features for Financial Risk Prediction

Dhruvin Dungrani, Disha Dungrani

cs.SD cs.LG eess.AS q-fin.CP q-fin.ST

本文通过对比实验, 研究了在预测金融市场尾部风险时, 语音声学特征(如pitch, jitter)的有效性. 研究发现, 在专业演讲者主导的财报电话会议环境中, 引入声学特征反而会显著降低模型性能, 作者将这一现象称为"声学伪装".

Differentially Private Conformal Prediction

Jiamei Wu et al.

stat.ML cs.LG

本文提出了一种在差分隐私(DP)约束下进行保形预测(CP)的统计高效方法. 该方法通过结合DP模型训练和私有分位数校准机制, 旨在生成更紧的预测集.

Asking What Matters: Reward-Driven Clarification for Software Engineering Tasks

Sanidhya Vijayvargiya, Vijay Viswanathan, Graham Neubig

cs.SE cs.AI

本文研究了在软件工程任务中如何高效地提出澄清性问题. 通过量化信息对任务成功的影响以及用户的可回答性, 作者训练了一个名为CLARITI的澄清模块, 该模块在解决不明确问题时与GPT-5性能相当, 但提出的问题数量减少了41%.

CMTM: Cross-Modal Token Modulation for Unsupervised Video Object Segmentation

Inseok Jeon et al.

cs.CV cs.LG

本文提出了一种用于无监督视频目标分割的跨模态token调制方法, 通过建立外观与运动模态token间的密集连接来增强信息交互. 该方法结合了关系transformer块与token掩码策略, 在多个公开基准上取得了先进的性能.

Physically-Induced Atmospheric Adversarial Perturbations: Enhancing Transferability and Robustness in Remote Sensing Image Classification

Weiwei Zhuang et al.

cs.CV cs.LG

本文提出了一种基于物理雾效的对抗攻击方法FogFool，通过优化Perlin噪声来生成对抗样本。该方法在遥感图像分类中表现出较强的迁移性和对常见防御的鲁棒性。

Chaotic CNN for Limited Data Image Classification

Anusree M, Akhila Henry, Pramod P Nair

cs.CV cs.AI nlin.CD

本文提出了一种利用混沌映射进行特征变换的方法, 以提升卷积神经网络(CNN)在小样本图像分类任务中的性能. 该方法在分类层前对归一化特征向量应用logistic, skew tent和sine等混沌映射进行非线性变换, 从而重塑特征空间并改善类间可分性, 实验在多个数据集上验证了其有效性且不增加模型复杂度.

Seen-to-Scene: Keep the Seen, Generate the Unseen for Video Outpainting

Inseok Jeon et al.

cs.CV cs.AI cs.LG

本文提出了一种名为Seen-to-Scene的视频外绘新框架，它结合了基于传播和基于生成的方法。该方法利用流补全网络进行运动传播，并引入了参考引导的潜在传播以提高效率，在保持时空一致性和视觉真实感方面表现优于现有方法。

AIPC: Agent-Based Automation for AI Model Deployment with Qualcomm AI Runtime

Jianhao Su et al.

cs.SE cs.AI cs.LG

本文介绍了一种名为AIPC的基于AI agent的自动化方法, 用于简化面向特定硬件(如Qualcomm AI Runtime)的AI模型部署流程. 该方法通过将部署过程分解为标准化阶段并注入领域知识, 旨在降低对专业部署经验的依赖并减少工程时间.

Online Algorithms for Geometric Independent Set

Minati De, Satyam Singh

cs.CG cs.DS

本文研究了在线几何独立集问题. 作者首先在具有有界独立亲吻数 $\zeta$ 的图上分析了贪心算法的竞争比, 并证明了其最优性. 随后, 他们利用几何表示信息, 为三维单位球图和有界直径的 $\alpha$-fat 对象及高维轴对齐超矩形设计了具有更好期望竞争比的随机在线算法.

Bounded Autonomy for Enterprise AI: Typed Action Contracts and Consumer-Side Execution

Sarmad Sohail, Ghufran Haider

cs.SE cs.AI

本文提出了一种用于企业AI的有界自主架构, 通过类型化动作契约和消费者端执行边界来约束大型语言模型的操作, 以防止不安全行为. 该架构在部署的企业应用中进行了评估, 在安全性和任务完成率上均优于无约束的AI配置.

HAMSA: Scanning-Free Vision State Space Models via SpectralPulseNet

Badri N. Patro, Vijay S. Agneeswaran

cs.CV cs.LG eess.IV

本文提出了一种名为HAMSA的扫描无关视觉状态空间模型, 它直接在频域中操作. 该方法通过简化的核参数化, 输入依赖的频率门控和基于幅度的门控单元, 利用基于FFT的卷积实现了高效计算, 在ImageNet-1K分类等任务上取得了具有竞争力的性能.

RELOAD: A Robust and Efficient Learned Query Optimizer for Database Systems

Seokwon Lee et al.

cs.DB cs.LG

本文提出了一种名为RELOAD的鲁棒且高效的基于学习的查询优化器。它通过增强鲁棒性和加速收敛，旨在解决现有基于强化学习的优化器在查询级别性能不稳定和训练时间长的问题。

World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems

Runze Li et al.

cs.RO cs.LG

本文提出了World-Value-Action (WAV)模型, 一个用于Vision-Language-Action (VLA)系统的隐式规划框架. 它通过在学习到的潜在空间中推理来生成动作, 从而提升了在长视野和组合任务中的决策性能.

Exploiting Correlations in Federated Learning: Opportunities and Practical Limitations

Adrian Edin et al.

cs.IT cs.DC cs.LG eess.SP

本文提出了一个基于相关性（structural, temporal, spatial）的统一分类框架，用以分析和评估联邦学习中的梯度与模型压缩方法。通过实验发现相关性的强弱高度依赖于具体任务和模型配置，并据此设计了两种自适应压缩方案。

Temporal Cross-Modal Knowledge-Distillation-Based Transfer-Learning for Gas Turbine Vibration Fault Detection

Ali Bagheri Nejad, Mahdi Aliyari-Shoorehdeli, Abolfazl Hasanzadeh

eess.SP cs.AI

本文提出了一种用于燃气轮机振动故障检测的时序跨模态知识蒸馏迁移学习框架. 该方法通过教师-学生模型结构, 利用长时序窗口信息指导轻量学生模型, 并结合预训练策略以应对数据稀缺问题.

AIM: Asymmetric Information Masking for Visual Question Answering Continual Learning

Peifeng Zhang et al.

cs.CV cs.CL

本文针对持续视觉问答任务中Vision-Language Models因结构不对称导致的灾难性遗忘问题，提出了一种名为AIM的非对称信息掩码方法。该方法通过基于模态特定敏感性的目标掩码来平衡模型的稳定性和可塑性，在多个数据集上取得了先进的性能。

Towards Trustworthy 6G Network Digital Twins: A Framework for Validating Counterfactual What-If Analysis in Edge Computing Resources

Julian Jimenez Agudelo et al.

eess.SY cs.LG cs.NI

本文提出了一个用于6G网络数字孪生的数据驱动框架, 重点解决了云边遥测数据聚合与语义对齐的可扩展性问题. 该框架通过引入regime-aware特征工程和基于Sign Agreement与Directional Sensitivity的验证方法, 在Kubernetes集群上评估显示其能在分布外场景中可靠地推断性能, 支持主动资源扩展.

PUFFIN: Protein Unit Discovery with Functional Supervision

Gökçe Uludoğan et al.

q-bio.BM cs.LG

本文提出了一种名为PUFFIN的数据驱动框架, 用于通过联合学习结构划分和功能监督来发现蛋白质单元. 该方法将蛋白质表示为残基级结构图, 并应用具有结构感知池化机制的图神经网络, 将每个蛋白质划分为多残基单元, 同时利用功能监督来塑造这种划分. 学习到的单元在结构上具有一致性, 并与分子功能显示出有组织的关联.

Expert-Guided Class-Conditional Goodness-of-Fit Scores for Interpretable Classification with Informative Missingness: An Application to Seismic Monitoring

Shahar Cohen et al.

stat.ML cs.LG stat.AP

本文提出了一种结合专家知识的可解释分类框架, 用于处理存在普遍信息性缺失的数据. 该方法通过构建专家引导的类条件模型来生成少量可解释的拟合优度特征, 并与辅助特征结合用于简单判别分类. 在用于核试验条约监测的地震数据分析中, 该方法展示了作为透明筛查工具的潜力.

Scalable Model-Based Clustering with Sequential Monte Carlo

Connie Trojan et al.

stat.ML cs.LG stat.CO

本文提出了一种新的Sequential Monte Carlo (SMC)算法，用于解决大规模在线聚类问题。该方法通过将聚类问题分解为近似独立的子问题，降低了算法的内存需求，并在知识库构建等场景中表现出色。

Nautilus: An Auto-Scheduling Tensor Compiler for Efficient Tiled GPU Kernels

Yifan Zhao et al.

cs.PL cs.LG

本文介绍了一个名为 Nautilus 的自动调度张量编译器, 它能够将高级代数规范编译成高效的 GPU 分块内核. 该系统通过其自动调度器探索高级优化序列, 并在多个 Transformer 模型上实现了优于现有编译器的性能.

Zero-Shot Retail Theft Detection via Orchestrated Vision Models: A Model-Agnostic, Cost-Effective Alternative to Trained Single-Model Systems

Haileab Yagersew

cs.CV cs.AI

本文提出了一种名为Paza的零样本零售盗窃检测框架, 它通过编排多个现成的视觉模型(如目标检测, 姿态估计和视觉语言模型)构建了一个无需训练的检测流水线. 该框架采用多信号预过滤机制来大幅减少对昂贵视觉语言模型的调用, 从而显著降低了部署成本.

Efficient Search of Implantable Adaptive Cells for Medical Image Segmentation

Emil Benedykciuk, Marcin Denkowski, Grzegorz M. Wójcik

cs.CV cs.AI

本文提出了一种基于Jensen-Shannon散度的稳定性准则, 用于在可微分搜索过程中提前剪枝低重要性操作, 从而加速Implantable Adaptive Cells (IACs)的搜索过程. 该方法在多个医学图像分割基准上显著降低了计算成本, 同时保持了与完整搜索相当的模型性能.

Best of both worlds: Stochastic & adversarial best-arm identification

Yasin Abbasi-Yadkori et al.

stat.ML cs.LG

本文研究了在任意甚至对抗性奖励下的bandit best-arm identification问题. 作者证明，设计一个同时在随机和对抗性场景下都最优且无需知晓奖励性质的learner是不可能的，并给出了在对抗性约束下随机问题的最优误差率下界. 最后，他们提出了一个简单的无参数算法，其在随机问题中的误差概率匹配该下界（至多对数因子），同时对对抗性奖励也具有鲁棒性.

MetaDent: Labeling Clinical Images for Vision-Language Models in Dentistry

Meng-Xun Li et al.

cs.CV cs.AI

本文提出了一个用于牙科视觉语言模型(Vision-Language Models)的临床图像标注数据集MetaDent, 包含大规模图像、半结构化标注框架和评估基准. 研究评估了现有先进模型, 发现其在细粒度理解牙科场景方面仍存在困难.

Vibe-Coding: Feedback-Based Automated Verification with no Human Code Inspection, a Feasibility Study

Michal Töpfer et al.

cs.SE cs.AI

本文研究了在 Collective Adaptive Systems (CAS) 中，对 LLM 生成的 adaptation manager 进行基于反馈的自动化验证的可行性。研究结合了 adaptation loop 与 vibe-coding feedback loop，使用 Functional Constraints Logic (FCL) 来形式化功能约束，并通过案例研究表明，精细的约束违反反馈比简单的粗粒度指标反馈更有效。

Regret Tail Characterization of Optimal Bandit Algorithms with Generic Rewards

Subhodip Panda, Shubhada Agrawal

cs.IT cs.LG

本文扩展了$\KLinf$-UCB算法, 使其适用于满足温和假设的非参数奖励分布类, 并证明了其在期望意义下的渐近最优性. 作者进一步分析了该算法遗憾的尾部行为, 并推导了一个新的尾部概率上界.

An Intelligent Robotic and Bio-Digestor Framework for Smart Waste Management

Radhika Khatri et al.

cs.RO cs.LG

本文提出了一种结合机器人分拣与优化生物消化器的智能废物管理框架. 机器人模块利用YOLOv8进行实时物体识别与分拣, 生物消化器则通过PSO算法动态优化参数以提升效率.

Unraveling the Mechanism of Drug Binding to SARS-CoV-2 RNA Pseudoknot with Thermodynamics-Driven Machine Learning

Mariia Ivonina, Jakub Rydzewski

physics.bio-ph cs.LG

本文结合热力学驱动的机器学习方法 spectral map 与分子动力学模拟, 研究了小分子抑制剂与 SARS-CoV-2 RNA pseudoknot 的结合机制. 研究揭示了配体诱导的 RNA 结构不稳定性具有拓扑选择性和质子化状态依赖性.

STEP-Parts: Geometric Partitioning of Boundary Representations for Large-Scale CAD Processing

Shen Fan, Mikołaj Kida, Przemyslaw Musialski

cs.GR cs.AI cs.CV cs.LG

本文提出了一种名为STEP-Parts的确定性工具链，用于直接从CAD模型的原始STEP B-Reps中提取几何实例分区。该方法通过合并共享相同解析基元类型且满足近切线连续性准则的相邻面来定义分区，其边界不依赖于特定的三角网格化，从而保持稳定。生成的标签可用于下游的CAD学习任务。

Learning to Concatenate Quantum Codes

Nico Meyer et al.

quant-ph cs.LG

本文提出了一种通过机器学习方法自动选择量子纠错码序列的策略. 该方法通过估计每一级编码后的有效噪声信道, 自适应地选择下一级编码, 从而在结构化噪声下显著减少了实现目标逻辑错误率所需的量子比特数量.

Unsupervised feature selection using Bayesian Tucker decomposition

Y-h. Taguchi, Yoh-ichi Mototake

stat.ML cs.LG

本文提出了一种基于Bayesian Tucker分解的无监督特征选择方法, 并将其应用于合成数据集和基因表达数据. 该方法与先前提出的基于Tucker分解的无监督特征提取方法预期具有一致性.

RaTA-Tool: Retrieval-based Tool Selection with Multimodal Large Language Models

Gabriele Mattioli et al.

cs.CV cs.AI cs.CL cs.MM

本文提出了一个名为RaTA-Tool的检索式框架，用于解决多模态大语言模型在开放世界中的工具选择问题。该方法通过将多模态查询转化为结构化任务描述，并与标准化的工具描述进行语义匹配来实现工具检索，从而支持扩展到未见过的工具。

MLDAS: Machine Learning Dynamic Algorithm Selection for Software-Defined Networking Security

Pablo Benlloch et al.

cs.NI cs.CR cs.LG

本文提出了一种在软件定义网络(SDN)环境中动态选择机器学习(ML)算法以增强网络安全性的框架。该框架通过分析实时网络流量特征，自适应地选择最合适的入侵检测模型，旨在提升检测的鲁棒性和系统可行性。

UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards

Jun Wang et al.

cs.CV cs.AI

本文提出了一个名为UniDoc-RL的强化学习框架，用于增强大型视觉语言模型在视觉检索增强生成任务中的能力。该框架通过分层动作空间和密集奖励机制，引导模型从粗到细地获取视觉信息，并在多个基准测试中取得了性能提升。

Agentic Explainability at Scale: Between Corporate Fears and XAI Needs

Yomna Elsayed, Cecily Jones

cs.HC cs.AI

本文探讨了企业在规模化采用agentic AI时面临的治理挑战, 特别是"Agent Sprawl"现象. 文章提出了设计时和运行时的可解释性技术, 并展示了一个初步的Agentic AI Card原型以帮助缓解部署担忧.

Route to Rome Attack: Directing LLM Routers to Expensive Models via Adversarial Suffix Optimization

Haochun Tang et al.

cs.CR cs.AI cs.CL cs.LG

本文提出了一种针对黑盒LLM路由器的对抗性后缀优化攻击方法R$^2$A, 旨在误导路由器选择昂贵的高性能模型. 该方法通过构建混合集成代理路由器来模拟目标, 并在多个路由系统上验证了其有效性.

Efficient calculation of available space for multi-NUMA virtual machines

Andrei Gudkov, Elizaveta Ponomareva, Alexis Pospelov

cs.DC cs.DS

本文针对多NUMA虚拟机在物理服务器上的调度问题, 提出了一种计算给定规格虚拟机在服务器上最大可分配数量的闭式表达式方法. 该方法考虑了2-NUMA和4-NUMA对称虚拟机到4-NUMA和8-NUMA物理拓扑的非平凡映射场景, 可用于实时容量监控和大规模云资源重组优化.

CoGrid & the Multi-User Gymnasium: A Framework for Multi-Agent Experimentation

Chase McDonald, Cleotilde Gonzalez

cs.HC cs.AI

本文介绍了两个用于多智能体实验的工具: CoGrid 和 Multi-User Gymnasium (MUG). CoGrid 是一个基于网格的多智能体模拟库, 而 MUG 则能将此类模拟环境转化为基于网络的交互式实验. 这些工具旨在降低研究人机交互的门槛.

Atropos: Improving Cost-Benefit Trade-off of LLM-based Agents under Self-Consistency with Early Termination and Model Hotswap

Naryeong Kim, Shin Yoo

cs.SE cs.LG

本文提出了一种名为Atropos的技术, 旨在优化基于LLM的智能体在使用self-consistency方法时的成本效益权衡. 该技术通过构建推理路径的图表示, 利用GCN预测任务是否会失败, 并在预测失败时执行模型热切换, 从而在显著降低成本的同时保持较高的任务成功率.

NEAT-NC: NEAT guided Navigation Cells for Robot Path Planning

Hibatallah Meliani, Khadija Slimani, Samira Khoulji

cs.RO cs.AI cs.NE

本文提出了一种受生物启发的路径规划算法NEAT-NC, 它通过引入导航细胞(Navigation Cells)作为输入来增强NEAT算法在动态环境中的性能. 该算法在静态和动态场景中进行了评估, 展示了其在机器人实时路径规划中的潜力.

Autonomous Evolution of EDA Tools: Multi-Agent Self-Evolved ABC

Cunxi Yu, Haoxing Ren

cs.AR cs.AI

本文提出了一个利用LLM agent自主进化EDA工具ABC代码库的框架. 该框架通过迭代的代码修改、编译和QoR评估循环，在多个基准测试集上实现了合成策略的自动学习与优化.

Beyond Independent Frames: Latent Attention Masked Autoencoders for Multi-View Echocardiography

Simon Böhi et al.

cs.CV cs.LG

本文提出了一种针对多视角超声心动图数据的Latent Attention Masked Autoencoder (LAMAE)基础模型架构。该模型通过引入latent attention模块，在潜在空间中实现了跨帧和跨视图的信息交换，从而能够从部分观测中重建心脏功能的整体表示。

From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution

Junjie Wang, Yiming Ren, Haoyang Zhang

cs.SE cs.CL

本文探讨了如何表示可重用的经验以支持测试时控制和迭代演化. 通过大量实验, 研究发现紧凑的"基因"表示在控制性能和作为演化载体方面均优于面向文档的"技能"包.

MinShap: A Modified Shapley Value Approach for Feature Selection

Chenghui Zheng, Garvesh Raskutti

stat.ML cs.LG

本文提出了一种名为MinShap的特征选择方法，该方法通过修改经典的Shapley值框架，考虑特征在所有排列中的最小边际贡献，而非平均贡献。该方法旨在减少特征间依赖关系带来的间接效应影响，并通过理论分析和实验表明其在准确性和稳定性上优于LOCO、GCM和Lasso等现有方法。

Amortized Optimal Transport from Sliced Potentials

Minh-Phuc Truong, Khai Nguyen

stat.ML cs.AI cs.LG

本文提出了两种基于切片最优传输(Sliced OT)势能的摊销优化方法: 回归摊销(RA-OT)和目标摊销(OA-OT). 这些方法通过复用从先前实例中学到的信息, 能够高效地近似求解多个测度对之间的最优传输(OT)问题.

Structure as Computation: Developmental Generation of Minimal Neural Circuits

Duan Zhou

cs.NE cs.AI cs.LG

本文通过模拟小鼠皮层神经发生的发育过程, 从一个干细胞开始, 根据单细胞转录组数据推导的基因调控规则, 自发产生了一个包含5000个异质细胞但仅有85个成熟神经元的极小神经回路. 该回路在未经训练时对MNIST任务表现随机, 但经过一个标准训练周期后准确率跃升至90%以上, 在CIFAR-10上也能达到40.53%的准确率. 结果表明, 发育规则塑造了一种对快速学习极其友好的通用拓扑基底, 暗示生物发育过程内在地编码了强大的结构先验.

Class Unlearning via Depth-Aware Removal of Forget-Specific Directions

Arman Hatami, Romina Aalishah, Ilya E. Monosov

cs.CV cs.AI cs.LG

本文提出了一种名为DAMP的权重手术方法,用于实现类别遗忘。该方法通过投影移除预训练网络中的遗忘特定方向,无需基于梯度的优化,旨在更彻底地移除深层表征中的遗忘信息,同时更好地保留保留类别的性能。

An Analysis of Regularization and Fokker-Planck Residuals in Diffusion Models for Image Generation

Onno Niemann, Gonzalo Martínez Muñoz, Alberto Suárez Gonzalez

cs.CV cs.LG

本文研究了在基于去噪分数匹配(DSM)训练的扩散模型中，Fokker-Planck(FP)方程残差与生成质量之间的关系。作者通过实验分析了几种计算量更小的正则化项，发现它们能以较低成本获得与FP正则化类似的效果，且严格满足FP方程并不总是提升样本质量。

Scepsy: Serving Agentic Workflows Using Aggregate LLM Pipelines

Marcel Wagenländer et al.

cs.DC cs.AI

本文提出了一种名为Scepsy的智能体工作流服务系统，用于在GPU集群上高效调度由多个大语言模型(LLM)和工具组成的复杂任务。该系统通过分析LLM执行时间的稳定份额来构建预测模型，并利用启发式方法进行资源分配，从而在保证目标吞吐量的同时降低延迟。

VisPCO: Visual Token Pruning Configuration Optimization via Budget-Aware Pareto-Frontier Learning for Vision-Language Models

Huawei Ji et al.

cs.CV cs.AI

本文提出了一个名为VisPCO的框架, 用于自动优化视觉语言模型(VLMs)中的视觉token剪枝配置. 该框架将剪枝问题建模为Pareto配置优化问题, 通过连续松弛和梯度搜索来寻找计算与性能之间的最优权衡. 实验表明, 该方法能有效逼近经验Pareto前沿, 并揭示了渐进式分层剪枝的优势.

Benchmarking Classical Coverage Path Planning Heuristics on Irregular Hexagonal Grids for Maritime Coverage Scenarios

Carlos S. Sepúlveda, Gonzalo A. Ruz

cs.RO cs.AI math.OC

本文在由合成海洋区域生成的irregular hexagonal grids上, 对17种deterministic single-vehicle coverage path planning heuristics进行了系统性的benchmarking. 评估了它们在Hamiltonian success, path length等多个指标上的表现, 并指出implementation details对在具有bottlenecks的稀疏几何图上的性能有显著影响.

Optimal algorithmic complexity of inference in quantum kernel methods

Elies Gil-fuster et al.

quant-ph cs.LG

本文分析了量子核方法中模型推断过程的计算复杂度问题. 通过结合不同的核值估计方法与求和近似策略, 作者系统比较了多种算法的查询复杂度, 并给出了查询最优的算法及其下界证明.

Low-Cost System for Automatic Recognition of Driving Pattern in Assessing Interurban Mobility using Geo-Information

Oscar Romero et al.

cs.HC cs.CY cs.LG

本文提出了一种基于物理传感器和人工神经网络的低成本系统, 用于识别城际驾驶模式. 系统通过分析速度、位置和时间等数据来分类驾驶风格, 并在检测到异常时发出警告, 实验表明加入地理信息后分类准确率提升了13%.

AI-Assisted Requirements Engineering: An Empirical Evaluation Relative to Expert Judgment

Oz Levy et al.

cs.SE cs.AI

本文通过一项受控实验, 比较了AI工具与人类专家在依据INCOSE标准评估系统需求质量方面的表现. 研究发现, AI能提供快速一致的结构化评估, 但在语境理解和权衡判断上仍需依赖专家.

Agentic Microphysics: A Manifesto for Generative AI Safety

Federico Pierucci et al.

cs.CY cs.AI

本文提出了一种名为"Agentic Microphysics"的方法论框架, 用于研究具有规划, 记忆和持续交互能力的agentic AI系统的安全性. 它强调需要在agent间的结构化交互层面, 而非孤立模型层面, 分析由通信, 观察和相互影响过程产生的群体级风险.

A Nonlinear Separation Principle: Applications to Neural Networks, Control and Learning

Anand Gokhale et al.

eess.SY cs.LG math.OC

本文针对连续与离散时间下的 firing-rate 和 Hopfield 循环神经网络, 提出了一种非线性分离原理和基于线性矩阵不等式的收缩性分析框架. 该框架被应用于非线性控制设计、输出跟踪以及隐式深度神经网络的设计, 并在图像分类基准上取得了有竞争力的结果.

CoopEval: Benchmarking Cooperation-Sustaining Mechanisms and LLM Agents in Social Dilemmas

Emanuel Tewolde et al.

cs.GT cs.AI cs.CL cs.CY cs.MA

本文提出了一个名为CoopEval的基准测试, 用于评估在多种社会困境博弈中, 不同合作维持机制(如重复博弈, 声誉系统, 第三方调解和契约协议)对促进LLM agent之间合作的效果. 研究发现, 契约和调解机制最为有效, 而重复博弈在对手变化时效果会急剧下降.

Cloning is as Hard as Learning for Stabilizer States

Nikhil Bansal, Matthias C. Caro, Gaurav Mahajan

quant-ph cs.LG math.ST

本文研究了 stabilizer states 的克隆与学习问题. 结果表明, 对于这类结构化的量子态, 克隆所需的最优样本复杂度与学习相同, 均为 $\Theta(n)$.

SegWithU: Uncertainty as Perturbation Energy for Single-Forward-Pass Risk-Aware Medical Image Segmentation

Tianhao Fu et al.

cs.CV cs.AI cs.LG

本文提出了一种名为SegWithU的后处理框架, 用于医学图像分割中的不确定性估计. 该方法通过一个轻量级的uncertainty head, 利用中间特征将不确定性建模为紧凑探针空间中的perturbation energy, 从而在单次前向传播中生成两种体素级不确定性图.

Prism: Symbolic Superoptimization of Tensor Programs

Mengdi Wu et al.

cs.PL cs.AI cs.LG

本文提出了第一个用于张量程序的符号超级优化器 Prism. 它通过一种名为 sGraph 的符号分层表示来编码程序族, 并采用两级搜索进行优化, 结合了符号推理与自动调优, 在多个 LLM 工作负载上实现了显著的性能提升.

Why Do Vision Language Models Struggle To Recognize Human Emotions?

Madhav Agarwal et al.

cs.CV cs.AI

本文探讨了Vision-Language Models (VLMs)在识别人类情绪时表现不佳的原因。研究指出，情绪数据的长尾分布和VLMs处理时序信息的局限性是两大关键挑战。

Structural interpretability in SVMs with truncated orthogonal polynomial kernels

Víctor Soto-Larrosa, Nuria Torrado, Edmundo J. Huertas

stat.ML cs.LG math.ST

本文针对使用截断正交多项式核的Support Vector Machines (SVMs), 提出了一种称为Orthogonal Representation Contribution Analysis (ORCA)的后训练可解释性诊断框架. 该方法利用有限维再生核希尔伯特空间(RKHS)的显式正交基, 将分类器决策函数展开, 并通过一系列正交核贡献(OKC)指数来量化模型复杂度在不同交互阶数、多项式总次数和变量边际效应上的分布.

AD4AD: Benchmarking Visual Anomaly Detection Models for Safer Autonomous Driving

Fabrizio Genilotti et al.

cs.CV cs.AI

本文在自动驾驶领域评估了视觉异常检测(VAD)模型, 使用合成数据集AnoVox对八种先进方法进行了基准测试. 研究表明VAD能有效识别训练数据外的异常物体, 其中Tiny-Dinomaly模型在精度与效率间取得了最佳平衡.

Super-Constant Weight Dicke States in Constant Depth Without Fanout

Lucas Gretta, Meghal Gupta, Malvika Raj Joshi

quant-ph cs.DS

本文提出了在常数深度量子电路中制备超常数权重 Dicke 态的新方法，仅使用多量子比特 Toffoli 门和单量子比特酉操作，无需 FANOUT 门。该工作将构造推广到任意对称态的叠加，并给出了基于 FANOUT 门可计算性的紧致刻画。

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

Yan Li et al.

cs.CV cs.AI cs.CL

本文提出了一个用于多模态网页生成的层次化智能体框架 MM-WebAgent, 通过分层规划和迭代自反思来协调基于 AIGC 的元素生成. 该方法在生成多模态元素及其整合方面优于现有基准, 并引入了相应的评估基准和协议.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others