bluearXiv-ai - 2026-03-20

📄 所有论文 ↑ 回顶部

cs.LG

Predictive Associative Memory: Retrieval Beyond Similarity Through Temporal Co-occurrence

Jason Dury

cs.LG cs.AI cs.IR cs.NE

本文提出了一种称为Predictive Associative Memory (PAM)的新型记忆架构，它通过训练一个JEPA风格的预测器来捕捉时间共现关系，从而超越了传统的基于相似性的记忆检索。该方法在一个合成基准测试中展示了其基于时间关联进行准确回忆的能力，其性能显著优于基于余弦相似度的基线方法。

Frayed RoPE and Long Inputs: A Geometric Perspective

Davis Wertheimer et al.

cs.LG cs.CL

本文从几何视角分析了RoPE在长输入下性能崩溃的原因, 并提出了一种简单的改进方法RoPE-ID. 该方法通过对部分通道应用高频RoPE, 使模型能够更好地泛化到更长的输入序列.

Engineering Verifiable Modularity in Transformers via Per-Layer Supervision

J. Clayton Kerce

cs.LG cs.AI

本文提出了一种通过逐层监督来增强Transformer模块化可验证性的方法. 该方法结合了双流处理、逐层监督和门控注意力机制, 旨在减少模型内部的分布式冗余, 从而提升对特定组件的因果控制能力. 实验表明, 该方法能显著放大消融实验的效果, 使模型行为更可预测和控制.

InfoMamba: An Attention-Free Hybrid Mamba-Transformer Model

Youjin Wang et al.

cs.LG cs.AI

本文提出了一种名为InfoMamba的混合架构，它结合了Mamba风格的线性复杂度SSM与一个全局信息接口，以解决序列建模中局部细粒度建模与长程依赖捕获的平衡问题。实验表明该模型在多种任务上优于Transformer和SSM基线。

Towards Differentiating Between Failures and Domain Shifts in Industrial Data Streams

Natalia Wojak-Strzelecka et al.

cs.LG cs.AI stat.ML

本文提出了一种结合改进的Page-Hinkley变点检测器、监督式领域自适应算法和可解释人工智能(XAI)组件的方法，用于在工业数据流中区分系统故障与正常的领域漂移。该方法旨在减少误报，并通过实验在钢铁厂数据流上进行了验证。

Taming Epilepsy: Mean Field Control of Whole-Brain Dynamics

Ming Li, Ting Gao, Jingqiao Dua

cs.LG

本文提出了一种结合 Reservoir Computing 和 Mean-Field Game 的框架，用于从 EEG 数据中学习并控制癫痫发作期间的神经动力学。该方法通过图正则化将大脑的功能连接结构纳入控制过程。

MST-Direct: Matching via Sinkhorn Transport for Multivariate Geostatistical Simulation with Complex Non-Linear Dependencies

Tchalies Bachmann Schmitz

cs.LG

本文提出了一种基于Optimal Transport理论的新算法MST-Direct，用于多变量地质统计模拟。该方法利用Sinkhorn算法直接匹配复杂的非线性联合分布，同时保持空间相关性结构。

Adapting Methods for Domain-Specific Japanese Small LMs: Scale, Architecture, and Quantization

Takato Yasuno

cs.LG

本文提出了一种构建领域专用日语小型语言模型的系统方法, 重点探讨了训练规模、基础模型选择和量化策略. 实验表明, 使用QLoRA微调时, 约4000个样本为最优训练规模, 且经过日语持续预训练的Llama-3架构模型在量化后表现更佳. 该方法为在消费级硬件上部署紧凑的日语专业模型提供了实用指导.

Quotient Geometry and Persistence-Stable Metrics for Swarm Configurations

Mark M. Bailey

cs.LG cs.SI eess.SY math.AT

本文针对多智能体系统构型比较问题, 提出了一种基于商空间和持久同调的几何表示方法. 通过定义商构型空间 $\mathcal{S}_n(M,G)$ 和构型匹配度量 $d_{M,G}$, 该方法为构型监控提供了具有稳定性保证的签名.

NANOZK: Layerwise Zero-Knowledge Proofs for Verifiable Large Language Model Inference

Zhaohui Geoffrey Wang

cs.LG cs.AI cs.CR

本文提出了一种名为METHOD的零知识证明系统, 用于验证大型语言模型(LLM)推理过程的正确性. 该系统利用Transformer模型层间计算独立的特点, 设计了一种分层证明框架, 并引入了查找表来近似非算术运算, 在保证模型精度的同时实现了高效的验证.

Fundamental Limits of Neural Network Sparsification: Evidence from Catastrophic Interpretability Collapse

Dip Roy, Rajiv Misra, Sanjay Kumar Singh

cs.LG

本文研究了极端神经网络稀疏化对可解释性的影响, 通过自适应稀疏调度框架在VAE-SAE架构上进行实验. 研究发现, 尽管全局表征质量保持稳定, 但局部特征可解释性会系统性崩溃, 且这种崩溃与数据集复杂度成正比, 表明这是压缩过程的内在特性.

Lightweight Adaptation for LLM-based Technical Service Agent: Latent Logic Augmentation and Robust Noise Reduction

Yi Yu et al.

cs.LG cs.AI cs.IR stat.AP

本文提出了一种用于基于LLM的技术服务代理的轻量级适应框架. 该框架通过潜在逻辑增强和鲁棒噪声减少来提升模型在复杂服务领域中的稳定性和性能, 并采用混合奖励机制以降低计算成本.

Variational Phasor Circuits for Phase-Native Brain-Computer Interface Classification

Dibakar Sigdel

cs.LG

本文提出了一种基于$S^1$单位圆流形的确定性经典学习架构VPC, 用于处理空间分布信号的分类任务. 该方法通过相位干涉机制, 在合成脑机接口基准测试中展示了参数效率.

SLEA-RL: Step-Level Experience Augmented Reinforcement Learning for Multi-Turn Agentic Training

Prince Zizhuang Wang, Shuli Jiang

cs.LG cs.AI

本文提出了SLEA-RL框架，用于增强多轮次智能体训练。该方法在每一步决策时根据当前观察检索相关经验，并通过聚类和自演化的经验库来优化策略。实验表明，该方法在长期多轮任务基准上优于现有强化学习基线。

Probabilistic Federated Learning on Uncertain and Heterogeneous Data with Model Personalization

Ratun Rahman, Dinh C. Nguyen

cs.LG cs.AI

本文提出了一种结合元学习和贝叶斯神经网络的个性化联邦学习方法 Meta-BayFL，旨在处理数据不确定性和异构性问题。该方法通过贝叶斯建模、自适应学习率调整和统一的概率设计来提升模型性能，并在多个数据集上验证了其优于现有方法的准确率。

Enhancing Reinforcement Learning Fine-Tuning with an Online Refiner

Hao Ma et al.

cs.LG cs.AI

本文提出了一种名为"动态约束"的方法来改进强化学习微调, 通过一个在线精炼器模型来生成修正后的输出, 从而根据模型输出质量自动调整约束强度. 实验表明, 该方法在对话和代码生成任务上优于传统基线, 能在保持训练稳定的同时获得更高的任务奖励.

ARTEMIS: A Neuro Symbolic Framework for Economically Constrained Market Dynamics

Rahul D Ray

cs.LG cs.AI cs.CE q-fin.ST

本文提出了一种名为ARTEMIS的神经符号框架，旨在将经济约束融入深度学习模型以提升其在量化金融中的可解释性。该框架通过结合神经算子、符号瓶颈和物理信息正则化来生成符合无套利原则的交易规则。

BoundAD: Boundary-Aware Negative Generation for Time Series Anomaly Detection

Xiancheng Wang et al.

cs.LG stat.ML

本文提出了一种基于重构边界负样本生成的时间序列异常检测方法. 该方法通过重构过程自动生成困难负样本, 并利用强化学习策略自适应调整优化, 从而提升对比学习的表示能力.

Tula: Optimizing Time, Cost, and Generalization in Distributed Large-Batch Training

Sahil Tyagi, Feiyi Wang

cs.LG cs.AI

本文提出了一个名为Tula的在线服务, 用于自动优化卷积模型大批次训练的时间, 成本和收敛质量. 它结合并行系统建模与统计性能预测来识别最优批次大小, 在多个模型上实现了显著的训练加速和测试精度提升.

VC-Soup: Value-Consistency Guided Multi-Value Alignment for Large Language Models

Hefei Xu et al.

cs.LG cs.AI

本文提出了VC-soup框架，通过基于value consistency的数据过滤和参数合并来解决LLMs的多价值对齐问题。该方法旨在缓解价值冲突，并在实验中取得了优于现有方法的表现。

LLM-Augmented Computational Phenotyping of Long Covid

Jing Wang et al.

cs.LG cs.AI

本文提出了一个名为"Grace Cycle"的LLM增强计算表型分析框架, 用于从纵向患者数据中发现临床亚型. 该框架在长新冠患者数据中识别出三种不同的临床表型, 并展示了其与疾病严重程度和纵向模式的关联.

Conflict-Free Policy Languages for Probabilistic ML Predicates: A Framework and Case Study with the Semantic Router DSL

Xunzhuo Liu et al.

cs.LG

本文针对基于概率机器学习信号的路由与访问控制系统中的策略冲突问题, 提出了一个三层可判定性层次结构. 对于实践中占主导的 embedding 冲突, 作者提出了一种无需重新训练模型的解决方案, 并在 Semantic Router DSL 中实现了检测与预防机制.

R2-Dreamer: Redundancy-Reduced World Models without Decoders or Augmentation

Naoki Morihira et al.

cs.LG cs.AI cs.RO

本文提出了一种无解码器的模型基强化学习框架R2-Dreamer, 它通过一个受Barlow Twins启发的冗余减少自监督目标作为内部正则化器, 避免了表示崩溃且无需数据增强. 该方法在多个基准测试中与现有强基线性能相当, 并在包含微小任务相关物体的环境中表现出显著优势.

Gradient-Informed Temporal Sampling Improves Rollout Accuracy in PDE Surrogate Training

Wenshuo Wang, Fan Zhang

cs.LG cs.AI

本文提出了一种针对神经模拟器训练的数据采样方法Gradient-Informed Temporal Sampling (GITS). 该方法通过联合优化模型梯度信息和时间覆盖度来提升长期推演精度, 在多个PDE系统上取得了优于均匀采样及其他基线方法的效果.

AGRI-Fidelity: Evaluating the Reliability of Listenable Explanations for Poultry Disease Detection

Sindhuja Madabushi et al.

cs.LG

本文针对家禽疾病检测中可听解释的可靠性评估问题, 提出了一个名为AGRI-Fidelity的评估框架. 该框架通过结合跨模型共识与循环时间置换来构建零分布并计算错误发现率, 旨在抑制环境中的稳态伪影, 从而更可靠地评估基于声音的解释.

MolRGen: A Training and Evaluation Setting for De Novo Molecular Generation with Reasonning Models

Philippe Formont et al.

cs.LG cs.AI

本文提出了一个用于训练和评估基于推理的大语言模型进行从头分子生成的大规模基准和数据集MolRGen. 它引入了一个新的多样性感知评分指标, 并展示了如何利用强化学习训练模型.

Discovering What You Can Control: Interventional Boundary Discovery for Reinforcement Learning

Jiaxin Liu

cs.LG cs.AI

本文提出了一种名为Interventional Boundary Discovery (IBD)的方法, 用于在强化学习中识别智能体可因果影响的状态维度. 该方法基于干预(do-operator)和双样本检验, 无需学习模型, 可作为预处理步骤与下游RL算法结合. 实验表明, 在存在大量混淆干扰变量的连续控制任务中, IBD能有效识别因果特征并提升算法性能.

Sharpness-Aware Minimization in Logit Space Efficiently Enhances Direct Preference Optimization

Haocheng Luo et al.

cs.LG cs.AI

本文提出了一种名为logits-SAM的高效方法，用于缓解Direct Preference Optimization (DPO)训练中出现的squeezing effect。该方法仅在输出层的logit空间应用Sharpness-Aware Minimization (SAM)，以抑制梯度更新在曲率较高方向上的不稳定扩张，从而稳定训练过程。实验表明，该方法能有效提升多个大语言模型在DPO上的性能。

Enactor: From Traffic Simulators to Surrogate World Models

Yash Ranjan et al.

cs.LG cs.AI

本文提出了一种基于transformer架构的、以actor为中心的生成模型Enactor, 用于交通微观仿真. 该模型旨在同时捕捉actor间的交互并理解交叉口几何结构, 以生成物理上合理的长期轨迹. 实验表明, 该模型在长时程仿真和交通工程指标上优于基线方法.

Detection Is Cheap, Routing Is Learned: Why Refusal-Based Alignment Evaluation Fails

Gregory N. Frank

cs.LG cs.AI cs.CL

本文通过分析中国语言模型中的政治审查机制, 提出了一个"检测-路由-生成"的三阶段描述框架. 研究发现, 仅评估模型的概念检测或拒绝行为会忽略决定行为的关键路由机制.

On Additive Gaussian Processes for Wind Farm Power Prediction

Simon M. Brealy et al.

cs.LG

本文利用 additive Gaussian processes 对风电场功率预测进行建模, 从群体结构健康监测(PBSHM)的角度, 分析了风机个体和风电场整体的功率变化模式. 该方法揭示了数据中符合直觉的发电规律, 有助于更明智的决策和控制.

Path-Constrained Mixture-of-Experts

Zijin Gu et al.

cs.LG

本文提出了一种名为Path-Constrained Mixture-of-Experts (PathMoE)的新方法, 通过在连续层之间共享router参数来约束专家路径的数量, 从而解决传统稀疏MoE模型中因路径空间过大导致的统计效率低下问题. 实验表明, 该方法在语言建模和下游任务上表现优于独立路由, 并且无需额外的负载均衡损失.

ALIGN: Adversarial Learning for Generalizable Speech Neuroprosthesis

Zhanqi Zhang et al.

cs.LG cs.NE cs.SD

本文提出了一种名为ALIGN的基于多域对抗神经网络的会话不变学习框架, 用于半监督的跨会话适应. 该方法通过对抗性优化, 使特征编码器在抑制会话特定线索的同时保留任务相关信息, 从而在未见过的会话中实现更一致的泛化, 改善了音素和单词错误率.

Approximate Subgraph Matching with Neural Graph Representations and Reinforcement Learning

Kaiyang Li et al.

cs.LG cs.AI

本文提出了一种基于强化学习的近似子图匹配算法RL-ASM。该算法利用Graph Transformer提取图表示，并采用模仿学习和PPO算法训练智能体策略，在合成和真实数据集上取得了优于现有方法的效果。

Learning to Reason with Curriculum I: Provable Benefits of Autocurriculum

Nived Rajaraman et al.

cs.LG stat.ML

本文研究了在训练语言模型进行链式推理时，通过自适应数据选择（autocurriculum）来降低数据与计算成本的方法。理论分析表明，该方法在监督微调和强化学习微调阶段均能带来效率提升。

Escaping Offline Pessimism: Vector-Field Reward Shaping for Safe Frontier Exploration

Amirhossein Roknilamouki et al.

cs.LG

本文提出了一种用于离线强化学习智能体在线安全探索的向量场奖励塑形方法. 该方法通过结合梯度对齐项和旋转流项, 引导智能体在不确定性边界附近进行持续探索, 避免了"停车"行为. 在2D连续导航任务上的实验验证了其有效性.

A Family of Adaptive Activation Functions for Mitigating Failure Modes in Physics-Informed Neural Networks

Krishna Murari

cs.LG

本文提出了一种基于wavelet的自适应激活函数族, 用于缓解Physics-Informed Neural Networks (PINNs)训练中的常见失败模式. 该方法通过结合可训练的wavelet函数与tanh或softplus函数, 在多个典型PDE问题上展现了比传统激活函数更好的鲁棒性和精度.

Epistemic Generative Adversarial Networks

Muhammad Mubashar, Fabio Cuzzolin

cs.LG cs.CV

本文提出了一种基于Dempster-Shafer证据理论的GAN损失函数泛化方法，并对生成器结构进行了改进，使其能够量化输出不确定性。实验表明，该方法能提升生成样本的多样性。

Mathematical Foundations of Deep Learning

Xiaojing Ye

cs.LG math.OC

本文概述了深度学习背后的数学原理, 涵盖了神经网络近似理论, 最优控制与强化学习算法, 以及现代生成模型等核心理论主题.

RE-SAC: Disentangling aleatoric and epistemic risks in bus fleet control: A stable and robust ensemble DRL approach

Yifan Zhang, Liang Zheng

cs.LG cs.RO

本文提出了一种用于公交车队控制的鲁棒集成深度强化学习方法, 通过区分 aleatoric uncertainty 和 epistemic uncertainty 来提升策略稳定性. 实验表明该方法在模拟环境中取得了更好的累积奖励和鲁棒性.

FlowMS: Flow Matching for De Novo Structure Elucidation from Mass Spectra

Jianan Nie, Peng Gao

cs.LG

本文提出了FlowMS, 一个基于离散流匹配(discrete flow matching)的框架, 用于从质谱(mass spectra)进行从头分子结构解析. 该方法通过迭代优化概率空间中的分子图来生成结构, 并在NPLIB1基准测试的多个指标上取得了领先的性能.

Self-Tuning Sparse Attention: Multi-Fidelity Hyperparameter Optimization for Transformer Acceleration

Arundhathi Dev, Justin Zhan

cs.LG cs.AI

本文提出了一种名为AFBS-BO的自动化框架，用于优化Transformer模型中稀疏注意力机制的超参数。该方法结合了贝叶斯优化和二分搜索，能够高效地为不同层和注意力头找到合适的配置，从而在保持模型质量的同时实现加速。

Towards Noise-Resilient Quantum Multi-Armed and Stochastic Linear Bandits

Zhuoyue Chen, Kechao Cai

cs.LG

本文提出了一种针对噪声环境的量子多臂老虎机(MAB)和随机线性老虎机(SLB)算法。该算法基于一种改进的、抗噪声的量子蒙特卡洛(QMC)估计器，旨在在当前含噪声的中等规模量子(NISQ)设备上保持相对于经典方法的性能优势。

MLOW: Interpretable Low-Rank Frequency Magnitude Decomposition of Multiple Effects for Time Series Forecasting

Runze Yang et al.

cs.LG

本文提出了一种名为MLOW的时序预测方法, 通过低秩频率幅度分解来分离时间序列中的多重效应. 该方法利用超平面非负矩阵分解(Hyperplane-NMF)等技术, 旨在实现可解释、高效且通用的分解, 并能以即插即用的方式提升现有预测模型的性能.

Discounted Beta--Bernoulli Reward Estimation for Sample-Efficient Reinforcement Learning with Verifiable Rewards

Haechan Kim et al.

cs.LG cs.AI

本文针对强化学习中的可验证奖励(RLVR)方法存在的样本效率低下问题, 提出了一种新的统计估计视角. 通过将奖励建模为从策略诱导分布中抽取的样本, 并将优势计算视为从有限数据估计奖励分布的问题, 作者引入了Discounted Beta-Bernoulli(DBB)奖励估计方法. 该方法利用历史奖励统计量来处理非平稳分布, 虽然存在偏差, 但实现了更低的估计方差和均方误差. 实验表明, 结合DBB的GRPO方法在多个推理基准测试上优于原始方法.

Seeking Universal Shot Language Understanding Solutions

Haoxin Liu et al.

cs.LG

本文提出了一个用于电影镜头语言理解(SLU)的综合训练与评估套件SLU-SUITE, 并基于此开发了两种通用解决方案. 实验表明, 所提模型在领域内外任务上均优于特定任务集成模型和领先的商业视觉语言模型.

AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

Chengxuan Lu et al.

cs.LG

本文提出了一个名为AcceRL的分布式异步强化学习框架, 用于训练大规模Vision-Language-Action模型. 该框架通过物理隔离训练、推理和模拟来消除同步障碍, 并首次集成了一个可训练的world model来生成虚拟经验. 在LIBERO基准测试中, 该框架展示了优异的性能和系统扩展性.

AIMER: Calibration-Free Task-Agnostic MoE Pruning

Zongfang Liu et al.

cs.LG

本文提出了一种名为AIMER的无需校准的任务无关的MoE模型剪枝方法. 该方法通过一个简单的统计量来评估专家重要性, 避免了传统方法对校准集的依赖, 从而减少了预处理开销. 在多个模型规模和基准测试上的实验表明, AIME在保持性能的同时, 显著提升了剪枝效率.

Balancing the Reasoning Load: Difficulty-Differentiated Policy Optimization with Length Redistribution for Efficient and Robust Reinforcement Learning

Yinan Xia, Haotian Zhang, Huiming Wang

cs.LG cs.CL

本文提出了一种名为Difficulty-Differentiated Policy Optimization (DDPO)的强化学习算法，旨在解决大型推理模型(LRMs)在处理不同难度任务时出现的输出长度失衡问题。该方法通过为简单和复杂任务分别优化策略，在保持准确性的同时缩短简单任务的答案长度，并扩展复杂任务的探索空间以提升性能。实验表明，DDPO在多个基准测试上实现了准确性与答案长度之间更好的权衡。

Data-efficient pre-training by scaling synthetic megadocs

Konwoo Kim et al.

cs.LG

本文研究了在数据受限的预训练场景下，如何通过合成数据增强来提高模型性能。作者发现，将网络数据与合成生成的改写文本混合预训练，可以改善模型在原始数据分布上的损失。进一步地，通过将同一文档的多个合成版本拼接成更长的“超级文档”进行训练，能获得更好的损失缩放效果和数据效率提升。

Beyond Passive Aggregation: Active Auditing and Topology-Aware Defense in Decentralized Federated Learning

Sheng Pan, Niansheng Tang

cs.LG stat.ME

本文提出了一种主动审计框架来增强去中心化联邦学习(DFL)对自适应后门攻击的防御能力. 该框架通过建立攻击传播的动态模型, 引入主动审计指标, 并实施拓扑感知的防御部署策略, 在保持主要任务效用的同时有效缓解了隐蔽的后门攻击.

GAPSL: A Gradient-Aligned Parallel Split Learning on Heterogeneous Data

Zheng Lin et al.

cs.LG

本文提出了一种名为GAPSL的梯度对齐并行分割学习框架, 旨在解决并行分割学习(PSL)中因客户端梯度方向不一致导致的训练发散问题. 该方法通过动态选择一致性梯度构建主导梯度, 并利用方向感知正则化进行对齐, 从而在异构数据上提升了模型收敛速度和精度.

HEP Statistical Inference for UAV Fault Detection: CLs, LRT, and SBI Applied to Blade Damage

Khushiyant

cs.LG cs.RO eess.SY

本文将从粒子物理领域引入的三种统计推断方法应用于无人机螺旋桨故障检测. 该方法基于与转子谐波物理相关的频谱特征, 实现了二元检测, 可控的误报率以及故障严重程度的量化估计.

SINDy-KANs: Sparse identification of non-linear dynamics through Kolmogorov-Arnold networks

Amanda A. Howard et al.

cs.LG

本文提出了一种结合Kolmogorov-Arnold networks (KANs)与Sparse identification of nonlinear dynamics (SINDy)的新方法SINDy-KANs. 该方法旨在通过在每个激活函数层面应用SINDy来提升KANs表示的可解释性, 并在多个符号回归任务中展示了其有效性.

Transformers Learn Robust In-Context Regression under Distributional Uncertainty

Hoang T. H. Cao et al.

cs.LG cs.AI

本文研究了 Transformers 在分布不确定性下的上下文学习能力, 特别是在非高斯系数, 重尾噪声和非独立同分布提示等广泛分布偏移下的噪声线性回归任务. 实验表明, Transformers 能够匹配或超越基于最大似然准则的经典基线方法, 展现了其稳健的上下文适应能力.

SpecForge: A Flexible and Efficient Open-Source Training Framework for Speculative Decoding

Shenggui Li et al.

cs.LG cs.AI cs.CL

本文介绍了SpecForge，一个用于训练speculative decoding（推测解码）模型的开源框架。该框架通过优化训练流程和集成推理引擎，旨在解决推测解码中高质量草稿模型缺乏和训练效率低下的问题。

Attack by Unlearning: Unlearning-Induced Adversarial Attacks on Graph Neural Networks

Jiahao Zhang, Yilong Wang, Suhang Wang

cs.LG cs.CR

本文提出了一种针对Graph Neural Networks (GNNs)的新型对抗攻击方法，称为“unlearning corruption attacks”。攻击者通过注入特定节点并随后请求其删除，利用近似图遗忘机制的性能退化来实施攻击。实验表明，这种攻击能在多种基准和遗忘算法上导致显著的准确性下降。

Elastic Weight Consolidation Done Right for Continual Learning

Xuan Liu, Xiaobin Chang

cs.LG cs.AI cs.CV

本文分析了 Elastic Weight Consolidation (EWC) 在持续学习中重要性估计的缺陷，指出其依赖 Fisher Information Matrix (FIM) 会导致梯度消失和不准确的估计。作者提出了 Logits Reversal (LR) 操作来修正这些问题，实验表明改进后的方法 EWC-DR 性能显著优于原有方法及其变体。

Evaluating Model-Free Policy Optimization in Masked-Action Environments via an Exact Blackjack Oracle

Kevin Song

cs.LG

本文在无限牌堆的赌场21点环境中, 利用精确的动态规划(Dynamic Programming) oracle 建立了一个可验证的基准, 用于评估模型无关(model-free)的策略优化算法. 研究比较了包括带基线的REINFORCE在内的几种算法, 发现尽管聚合奖励曲线平滑, 但在状态访问稀疏和动态动作屏蔽(masking)的环境下, 策略层面的错误依然显著.

Enhancing Multi-Corpus Training in SSL-Based Anti-Spoofing Models: Domain-Invariant Feature Extraction

Anh-Tuan Dao et al.

cs.LG

本文提出了一种用于语音反欺骗检测的Invariant Domain Feature Extraction (IDFE)框架, 旨在解决多语料库训练中因数据集特定偏差导致的泛化性能下降问题. 该框架通过多任务学习和梯度反转层来最小化嵌入特征中的语料库特定信息, 在四个不同数据集上的评估表明, 其平均等错误率比基线降低了20%.

Revisiting Label Inference Attacks in Vertical Federated Learning: Why They Are Vulnerable and How to Defend

Yige Liu et al.

cs.LG cs.CR

本文分析了垂直联邦学习(VFL)中标签推断攻击(LIAs)的脆弱性及其防御. 研究发现, 现有攻击的成功源于特征与标签的分布对齐, 而非bottom model对标签的有效表征, 并据此提出了一种基于层调整的零开销防御方法.

HISR: Hindsight Information Modulated Segmental Process Rewards For Multi-turn Agentic Reinforcement Learning

Zhicong Lu et al.

cs.LG cs.AI cs.CL

本文提出了一种名为HISR的方法，用于改进多轮智能体强化学习中的奖励分配。该方法利用后见信息来调制分段过程奖励，旨在使奖励与子目标更紧密地对齐，并强调轨迹中的重要片段，从而提升信用分配的可靠性。

STEP: Scientific Time-Series Encoder Pretraining via Cross-Domain Distillation

Chen Zhang et al.

cs.LG cs.CL

本文提出了一个名为STEP的科学时间序列编码器预训练框架, 通过跨领域蒸馏整合来自音频、通用时间序列等基础模型的知识. 该框架采用自适应分块处理长序列, 并使用统计补偿方案来适应不同的数值尺度, 旨在为稀疏且异质的科学时间序列学习统一的、可迁移的表示.

OCP: Orthogonal Constrained Projection for Sparse Scaling in Industrial Commodity Recommendation

Chen Sun et al.

cs.LG

本文提出了一种正交约束投影方法, 用于优化工业商品推荐系统中Item-Id词汇表的嵌入表示. 该方法通过正交性约束来对齐嵌入的奇异值谱, 旨在抑制低频信息干扰和表示坍缩, 从而提升模型在稀疏扩展时的可扩展性与泛化能力. 工业部署实验显示了其在关键业务指标上的提升效果.

Off-Policy Learning with Limited Supply

Koichi Tanaka et al.

cs.LG

本文研究了contextual bandits中有限供给下的off-policy learning问题. 作者提出了一种名为OPLS的新方法, 该方法通过比较不同用户间的期望奖励来更有效地分配有限物品, 并在合成与真实数据集上验证了其优于现有方法.

From ex(p) to poly: Gaussian Splatting with Polynomial Kernels

Joerg H. Mueller, Martin Winter, Markus Steinberger

cs.LG cs.CV cs.GR

本文提出了一种用于Gaussian Splatting的替代kernel，将原始的exponential kernel替换为结合了ReLU函数的polynomial approximation。该方法保持了与现有数据集的兼容性，并提高了计算效率，在不同实现中带来了4%到15%的性能提升。

CausalRM: Causal-Theoretic Reward Modeling for RLHF from Observational User Feedbacks

Hao Wang et al.

cs.LG cs.AI cs.CL stat.ML

本文提出了一种从观测性用户反馈中学习奖励模型的方法, 以解决传统RLHF依赖昂贵实验数据的瓶颈. 该方法通过引入噪声感知损失项和使用倾向得分重加权, 旨在处理反馈中的噪声和用户偏好偏差.

Are complicated loss functions necessary for teaching LLMs to reason?

Gabriele Carrino et al.

cs.LG cs.AI cs.CL

本文通过系统分析GRPO方法, 发现负反馈对于训练至关重要, 而PPO风格的约束对于提升数学推理并非必要. 基于此, 作者提出了一个简化的变体RGRA, 实验表明其在数学基准测试上能达到与GRPO相当甚至更强的性能.

Enhancing the Parameterization of Reservoir Properties for Data Assimilation Using Deep VAE-GAN

Marcio Augusto Sampaio, Paulo Henrique Ranazzi, Martin Julian Blunt

cs.LG

本文提出了一种结合Variational Autoencoder (VAE)和Generative Adversarial Network (GAN)的深度学习方法，即VAE-GAN，用于增强油藏属性在数据同化中的参数化。该方法与Ensemble Smoother with Multiple Data Assimilation (ESMDA)集成，旨在同时获得高质量的地质模型和良好的生产历史匹配效果。

Automatic Configuration of LLM Post-Training Pipelines

Channe Chwa, Xinle Wu, Yao Lu

cs.LG cs.AI

本文提出了一个名为AutoPipe的预算感知两阶段框架, 用于自动配置结合了supervised fine-tuning和reinforcement learning的LLM post-training pipeline. 该方法通过离线学习一个dataset-conditioned learning-to-rank surrogate来引导在线阶段的Bayesian optimization, 并利用early stopping和performance predictor来大幅降低评估成本. 在生物医学推理任务上的实验表明, 该方法能以低于基准方法10%的计算成本达到可比的性能.

Signals of Success and Struggle: Early Prediction and Physiological Signatures of Human Performance across Task Complexity

Yufei Cao et al.

cs.LG cs.HC

本文利用早期眼动和心电信号预测用户在游戏任务中的后期表现, 并分析了高低绩效组的生理与主观体验差异. 研究发现融合模型具有较高的预测准确率, 并为理解绩效差异提供了可解释的生理机制洞察.

Seasoning Generative Models for a Generalization Aftertaste

Hisham Husain, Valentin De Bortoli, Richard Nock

cs.LG

本文提出了一种基于判别器引导的生成模型精炼方法, 利用与$f$-divergence相关的强对偶性结果, 为任意生成模型提供了一种通用的精炼框架. 该方法被证明能够改进生成模型的泛化性能, 其泛化差距的改善与所用判别器集合的Rademacher复杂度相关.

A Model Ensemble-Based Post-Processing Framework for Fairness-Aware Prediction

Zhouting Zhao, Tin Lok James Ng

cs.LG stat.ML

本文提出了一个基于模型集成的后处理框架, 旨在提升机器学习预测的公平性. 该框架独立于具体模型内部结构, 可广泛适用于多种任务、模型架构和公平性定义, 并在实验中展现出在保持预测准确性的同时有效提升公平性的能力.

DriftGuard: Mitigating Asynchronous Data Drift in Federated Learning

Yizhou Han, Di Wu, Blesson Varghese

cs.LG

本文提出了一种名为DriftGuard的联邦持续学习框架，用于应对联邦学习中设备数据分布异步漂移的挑战。该框架采用了一种受Mixture-of-Experts启发的架构，将共享参数与本地参数分离，并设计了全局和分组两种再训练策略。实验表明，该方法在保持或提升准确率的同时，显著降低了再训练成本。

Authority-Level Priors: An Under-Specified Constraint in Hierarchical Predictive Processing

Marcela Palejova

cs.LG

本文提出了 Authority-Level Priors (ALPs) 这一概念, 作为 hierarchical predictive processing 框架中的一个元结构约束. 它旨在解释为何显式的信念更新不一定能改变自主神经系统的应激反应, 并通过计算模型给出了可检验的预测.

Uniform a priori bounds and error analysis for the Adam stochastic gradient descent optimization method

Steffen Dereich, Thang Do, Arnulf Jentzen

cs.LG math.OC

本文针对Adam优化器在强凸随机优化问题中的收敛性分析, 建立了其迭代过程的先验一致有界性. 基于此, 首次为一大类强凸随机优化问题提供了Adam的无条件误差分析, 克服了以往分析依赖迭代不发散假设的局限性.

Neural Galerkin Normalizing Flow for Transition Probability Density Functions of Diffusion Models

Riccardo Saporiti, Fabio Nobile

cs.LG math.NA

本文提出了一种结合Neural Galerkin方法与Normalizing Flows的新框架，用于近似扩散过程的转移概率密度函数。该方法通过求解参数化的Fokker-Planck方程，并利用自适应采样策略来处理高维问题。

An Optimised Greedy-Weighted Ensemble Framework for Financial Loan Default Prediction

Ezekiel Nii Noye Nortey et al.

cs.LG

本文提出了一种用于金融贷款违约预测的优化贪婪加权集成框架。该框架通过粒子群优化调整基分类器超参数，并采用正则化贪婪加权与基于神经网络的元学习器进行集成，在Lending Club数据集上取得了优于单一模型的预测性能。

Context Bootstrapped Reinforcement Learning

Saaket Agashe et al.

cs.LG

本文提出了一种名为Context Bootstrapped Reinforcement Learning (CBRL)的方法, 用于改善从可验证奖励中进行强化学习(RLVR)时探索效率低下的问题. 该方法通过在训练提示中随机添加少量示例演示, 并采用逐渐衰减的注入概率课程, 帮助模型学习推理模式, 最终在无需辅助的情况下完成任务. 实验在多个推理任务和特定领域编程语言上验证了其有效性.

Balancing Performance and Fairness in Explainable AI for Anomaly Detection in Distributed Power Plants Monitoring

Corneille Niyonkuru et al.

cs.LG

本文提出一个用于分布式发电厂异常检测的监督机器学习框架, 集成了多种ensemble方法和重采样技术以处理类别不平衡问题. 该工作使用SHAP提供可解释性, 并利用Disparate Impact Ratio和Maximum Mean Discrepancy来评估模型的公平性与泛化能力.

BVSIMC: Bayesian Variable Selection-Guided Inductive Matrix Completion for Improved and Interpretable Drug Discovery

Sijian Fan et al.

cs.LG stat.ME

本文提出了一种名为BVSIMC的贝叶斯变量选择引导的归纳矩阵补全方法，用于药物发现。该方法通过从高维且有噪声的辅助特征中进行变量选择来学习稀疏的潜在嵌入，从而提高了预测性能和模型的可解释性。

Maximum-Entropy Exploration with Future State-Action Visitation Measures

Adrien Bolland, Gaspard Lambrechts, Damien Ernst

cs.LG stat.ML

本文提出了一种基于未来状态-动作访问分布熵的最大熵探索方法, 通过设计内在奖励来引导智能体探索. 该方法对应的分布是某个收缩算子的不动点, 因此可以进行离策略估计. 实验表明, 该方法能改善单个轨迹内的特征探索, 并加速纯探索智能体的学习.

Best-of-Both-Worlds Multi-Dueling Bandits: Unified Algorithms for Stochastic and Adversarial Preferences under Condorcet and Borda Objectives

S. Akash, Pratik Gajane, Jawar Singh

cs.LG

本文提出了首个适用于随机和对抗环境的"best-of-both-worlds"算法，用于解决multi-dueling bandits问题。针对Condorcet和Borda两种目标，分别设计了算法，并提供了相应的理论保证。

Book your room in the Turing Hotel! A symmetric and distributed Turing Test with multiple AIs and humans

Christian Di Maio et al.

cs.LG cs.HC

本文提出了一种基于混合社区交互的新型图灵测试扩展"TuringHotel"，并在UNaIVERSE平台上进行了实验。实验涉及17名人类和19个LLM，结果表明当前模型有时仍会被误认为是人类，揭示了人工智能语言技能虽高，但其"人类指纹"仍不完全明确。

Foundations of Schrödinger Bridges for Generative Modeling

Sophia Tang

cs.LG cs.AI

本文从最优传输、随机控制和路径空间优化等角度，系统阐述了连接概率分布约束的Schrödinger bridge问题的数学基础。其动态公式与扩散模型等现代生成建模方法有直接联系，为构建统一的计算工具提供了理论框架。

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

An Luo et al.

cs.LG cs.AI stat.ME

本文介绍了AgentDS基准测试, 用于评估AI智能体和人机协作在特定领域数据科学任务中的表现. 结果表明, 当前AI智能体在领域特定推理方面存在困难, 而人机协作能产生最强的解决方案.

When Differential Privacy Meets Wireless Federated Learning: An Improved Analysis for Privacy and Convergence

Chen Yaoling, Liang Hao, Tu Xiaotong

cs.LG

本文分析了差分隐私无线联邦学习(DPWFL)框架下的隐私损失与收敛性。研究针对一般光滑非凸损失目标，在考虑设备选择和mini-batch采样的条件下，证明了隐私损失收敛于常数，并给出了带梯度裁剪的收敛保证。

Communication-Efficient and Robust Multi-Modal Federated Learning via Latent-Space Consensus

Mohamed Badi, Chaouki Ben Issaid, Mehdi Bennis

cs.LG eess.SP

本文提出了一种通信高效的多模态联邦学习框架 CoMFed, 它通过可学习的投影矩阵生成压缩的潜在表示, 并使用潜在空间正则化器来对齐不同客户端间的表示. 实验表明, 该方法在人类活动识别基准上能以较低的通信开销实现有竞争力的准确率.

Position: Spectral GNNs Are Neither Spectral Nor Superior for Node Classification

Qin Jiang et al.

cs.LG

本文对 Spectral Graph Neural Networks (Spectral GNNs) 在节点分类任务中的理论基础提出了质疑。作者认为其成功主要源于与 Message Passing Neural Networks (MPNNs) 的等价性，而非其宣称的谱域滤波机制。

On Optimizing Multimodal Jailbreaks for Spoken Language Models

Aravind Krishnan, Karolina Stańczak, Dietrich Klakow

cs.LG

本文针对Spoken Language Models (SLMs)的安全漏洞，提出了一种名为JAMA的联合音频-文本多模态对抗攻击框架。该方法结合了文本的Greedy Coordinate Gradient (GCG)和音频的Projected Gradient Descent (PGD)，通过同时扰动两种模态来提升攻击成功率。实验表明，该多模态攻击方法在多种SLM和音频类型上的攻击成功率显著高于单模态攻击。

From Inference Efficiency to Embodied Efficiency: Revisiting Efficiency Metrics for Vision-Language-Action Models

Zhuofan Li et al.

cs.LG cs.RO

本文指出当前 Vision-Language-Action (VLA) 模型研究中常用的效率指标（如参数量、FLOPs）并不能反映其在机器人平台上的实际性能。作者通过一系列实验表明，系统层面的具身效率指标（如任务完成时间、轨迹平滑度）对于评估模型的实际表现更为重要，而传统的推理效率指标可能会忽略这些关键方面。

Adaptive Regime-Aware Stock Price Prediction Using Autoencoder-Gated Dual Node Transformers with Reinforcement Learning Control

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman

cs.LG cs.AI q-fin.ST

本文提出了一种用于股票价格预测的自适应框架, 结合了autoencoder, 双路径transformer和强化学习控制器. 该框架能根据市场状态(稳定或事件驱动)自适应地选择预测路径, 并在高波动时期保持稳健性能.

Hierarchical Latent Structure Learning through Online Inference

Ines Aitsahalia, Kiyohito Iigaya

cs.LG q-bio.NC

本文提出了一种名为HOLMES的在线分层潜在结构学习模型, 它结合了嵌套Chinese Restaurant Process先验和sequential Monte Carlo推断, 能够在无需显式监督的情况下进行逐试次(trial-by-trial)的在线推断. 该模型在模拟中能够学习到更紧凑的表示, 并支持向高层级潜在类别的单次迁移.

SHAPCA: Consistent and Interpretable Explanations for Machine Learning Models on Spectroscopy Data

Mingxing Zhang et al.

cs.LG

本文提出了一种名为SHAPCA的可解释机器学习流程, 用于光谱数据. 该方法结合了PCA降维和SHAP解释, 旨在原始输入空间中提供稳定且可解释的特征重要性分析.

Enhancing Pretrained Model-based Continual Representation Learning via Guided Random Projection

Ruilin Li et al.

cs.LG

本文提出了一种名为SCL-MGSM的方法，用于改进基于预训练模型(PTM)的持续表示学习。该方法通过一种数据引导的机制来构建随机投影层(RPL)，以更好地适应下游任务，并在多个类增量学习(CIL)基准测试中取得了优异性能。

Rigorous Error Certification for Neural PDE Solvers: From Empirical Residuals to Solution Guarantees

Amartya Mukherjee et al.

cs.LG math.AP math.FA

本文为基于物理信息的神经网络求解偏微分方程提供了严格的误差认证框架. 作者证明了在解空间紧子集上的残差控制可保证收敛到真解, 并给出了确定性与概率性的收敛结果及泛化误差界.

DyMoE: Dynamic Expert Orchestration with Mixed-Precision Quantization for Efficient MoE Inference on Edge

Yuegui Huang et al.

cs.LG

本文提出了一种名为DyMoE的动态混合精度量化框架, 旨在解决MoE模型在资源受限的边缘设备上进行实时推理时面临的内存占用高和I/O开销大的问题. 该框架通过运行时动态量化专家, 深度自适应调度以及预取技术, 在商用边缘硬件上显著降低了推理延迟, 同时保持了模型精度.

SOL-ExecBench: Speed-of-Light Benchmarking for Real-World GPU Kernels Against Hardware Limits

Edward Lin et al.

cs.LG cs.AI

本文提出了一个名为SOL-ExecBench的基准测试，用于评估GPU内核性能与硬件理论极限的接近程度。它包含从实际AI模型中提取的CUDA内核，并引入了一个基于硬件分析的性能上限作为固定优化目标。

MIDST Challenge at SaTML 2025: Membership Inference over Diffusion-models-based Synthetic Tabular data

Masoumeh Shafieinejad et al.

cs.LG

本文介绍了MIDST挑战赛, 旨在量化评估由diffusion models生成的合成表格数据在隐私保护方面的增益, 特别是其抵抗membership inference attacks (MIAs)的能力. 针对表格数据的异质性和复杂性, 该挑战赛探索了多种目标模型, 并促进了针对这些diffusion models的新型黑盒和白盒MIA方法的开发.

Improving RCT-Based Treatment Effect Estimation Under Covariate Mismatch via Calibrated Alignment

Amir Asiaee, Samhita Pal

cs.LG

本文提出了一种名为CALM的方法, 用于在存在协变量不匹配的情况下, 结合随机对照试验(RCT)和观察性研究(OS)来估计条件平均处理效应(CATE). 该方法通过将不同来源的特征映射到一个共同的表示空间来避免插补, 并利用试验数据进行校准以保持因果识别的有效性.

Robustness, Cost, and Attack-Surface Concentration in Phishing Detection

Julian Allagan et al.

cs.LG

本文通过一个成本感知的规避框架，研究了钓鱼网站检测器在部署后面对特征操纵时的鲁棒性问题。文章引入了三个诊断指标，并在基准数据集上评估了多种机器学习模型的性能，发现对抗鲁棒性主要由特征经济性而非模型复杂度决定。

Online Learning and Equilibrium Computation with Ranking Feedback

Mingyang Liu et al.

cs.LG cs.CL cs.GT

本文研究了在仅能观察到动作排序反馈的在线学习问题. 在多种排序机制和反馈设定下, 分析了实现次线性遗憾的可能性, 并针对具有次线性总变差的效用序列设计了新算法. 这些算法在重复博弈中可收敛到近似粗相关均衡, 并在大语言模型路由任务中进行了验证.

cs.AI

Memento-Skills: Let Agents Design Agents ⭐ 精选

Huichi Zhou et al.

cs.AI cs.CL cs.LG

本文提出了 Memento-Skills, 一个基于记忆的强化学习框架, 其核心是让一个通用 LLM agent 自主设计和改进面向特定任务的 agents. 该系统通过结构化的 markdown 文件将可复用的技能 (skills) 作为持久化、可演化的记忆, 并引入了 Read-Write Reflective Learning 机制来实现持续学习, 而无需更新 LLM 的参数. 实验表明, 该方法在多个基准测试上取得了显著的性能提升, 实现了 agent 设计的端到端自动化.

Teleological Inference in Structural Causal Models via Intentional Interventions ⭐ 精选

Dario Compagno, Fabio Massimo Zennaro

cs.AI

本文针对 structural causal models (SCMs) 在建模具有目标导向的智能体 (agent) 方面的局限性, 提出了一种新的 "intentional interventions" 算子. 该算子构建了一个称为 structural final model (SFM) 的孪生模型, 能够将观测值视为智能体为实现其意图而进行干预的结果, 并与未干预的反事实条件相关联. 这项工作将 SCMs 的应用范围从传统的因果推断扩展到了目的论 (teleological) 推理, 为在因果系统中经验性地检测智能体及其意图提供了理论框架.

DEAF: A Benchmark for Diagnostic Evaluation of Acoustic Faithfulness in Audio Language Models

Jiaqi Xiong et al.

cs.AI cs.SD eess.AS

本文提出了一个名为DEAF的基准测试, 用于诊断评估音频语言模型(Audio MLLMs)的声学忠实性. 该基准包含超过2700个冲突刺激, 并设计了一个多级评估框架来量化模型对文本线索而非声学信号的依赖程度.

Continually self-improving AI

Zitong Yang

cs.AI

本文探讨了构建持续自我改进AI系统的三个方向. 通过合成数据增强知识获取效率, 利用自生成数据减少对人类数据的依赖, 并通过在测试时搜索算法空间来超越人工设计的训练范式.

Multi-Trait Subspace Steering to Reveal the Dark Side of Human-AI Interaction

Xin Wei Chia, Swee Liang Wong, Jonathan Pan

cs.AI

本文提出了一个名为 Multi-Trait Subspace Steering 的框架，用于研究人类与AI交互中可能产生的有害心理影响。该方法通过引导模型生成具有累积性有害行为模式的“黑暗模型”，并在此基础上提出了相应的保护措施。

Adaptive Domain Models: Bayesian Evolution, Warm Rotation, and Principled Training for Geometric and Neuromorphic AI

Houston Haynes

cs.AI cs.DC cs.LG cs.NE

本文提出了一种基于几何代数和posit算术的新型AI训练架构, 旨在解决传统训练方法在内存开销、优化器复杂性和几何结构退化方面的问题. 该架构结合了确定性内存管理、程序超图和b-posit标准, 实现了内存占用与推理相近、保持几何特性的权重更新, 并引入了贝叶斯蒸馏和热轮换机制以支持持续自适应和可验证部署.

Don't Vibe Code, Do Skele-Code: Interactive No-Code Notebooks for Subject Matter Experts to Build Lower-Cost Agentic Workflows

Sriram Gopalakrishnan

cs.AI cs.HC cs.PL eess.SY

本文介绍了一种名为Skele-Code的、基于自然语言和图表的交互式界面，旨在帮助非技术用户构建AI agent工作流。该方法采用代码优先、agent辅助的设计，以降低多agent系统执行工作流时的token成本，并生成模块化、可扩展的工作流代码。

Efficient Dense Crowd Trajectory Prediction Via Dynamic Clustering

Antonius Bima Murti Wijaya, Paul Henderson, Marwa Mahmoud

cs.AI

本文提出了一种基于动态聚类的密集人群轨迹预测方法, 通过将具有相似属性的个体分组来降低计算成本. 该方法可与现有轨迹预测器结合, 在保持精度的同时提升处理速度并降低内存使用.

TeachingCoach: A Fine-Tuned Scaffolding Chatbot for Instructional Guidance to Instructors

Isabel Molnar et al.

cs.AI

本文提出了一种名为TeachingCoach的聊天机器人, 旨在为高等教育教师提供教学法指导. 它通过从教育资源中提取教学规则并生成合成对话来微调语言模型, 专家评估表明其指导比基线模型更清晰、更具反思性.

Access Controlled Website Interaction for Agentic AI with Delegated Critical Tasks

Sunyoung Kim, Hokeun Kim

cs.AI cs.CR cs.NI

本文提出了一种面向AI agent的、具有细粒度访问控制的网站交互设计方案, 旨在解决将关键任务委托给AI agent时网站访问控制机制不足的问题. 该方案包括网站设计实现以及对开源授权服务协议的修改, 并通过评估展示了其能力.

A Computationally Efficient Learning of Artificial Intelligence System Reliability Considering Error Propagation

Fenglian Pan et al.

cs.AI stat.CO

本文利用基于物理的自动驾驶仿真平台生成数据, 提出了一个显式刻画AI系统多阶段间错误传播的可靠性建模框架. 模型参数通过一种计算高效的复合似然期望最大化算法进行估计, 并在自动驾驶感知系统的案例中验证了其预测准确性和计算效率.

Retrieval-Augmented LLM Agents: Learning to Learn from Experience

Thomas Palmeira Ferraz et al.

cs.AI cs.CL

本文提出了一种结合 fine-tuning 与 experience retrieval 的方法来增强 LLM agent 的泛化能力. 通过系统性地研究训练策略与检索设计, 该方法在未见任务上取得了更好的性能.

EDM-ARS: A Domain-Specific Multi-Agent System for Automated Educational Data Mining Research

Chenguang Pan et al.

cs.AI

本文介绍了一个用于自动化教育数据挖掘研究的领域特定多智能体系统EDM-ARS. 该系统通过编排多个LLM驱动的智能体, 能够根据给定的研究提示和数据集生成完整的LaTeX论文草稿.

CORE: Robust Out-of-Distribution Detection via Confidence and Orthogonal Residual Scoring

Jin Mo Yang, Hyung-Sin Kim, Saewoong Bahk

cs.AI

本文提出了一种名为CORE的OOD检测方法, 通过解耦分类器置信度信号与特征残差中的成员资格信号, 并独立评分后结合, 提升了检测的鲁棒性. 该方法在多个架构和基准测试中取得了有竞争力的性能.

The Validity Gap in Health AI Evaluation: A Cross-Sectional Analysis of Benchmark Composition

Alvin Rajkomar et al.

cs.AI

本文分析了健康AI评估中存在的"有效性差距". 通过分析公开基准测试中的消费者健康查询, 发现其构成与真实临床需求存在系统性偏差, 缺乏原始临床数据, 安全关键场景和脆弱人群的代表性.

Consumer-to-Clinical Language Shifts in Ambient AI Draft Notes and Clinician-Finalized Documentation: A Multi-level Analysis

Ha Na Cho et al.

cs.AI

本文通过字典确认的转换框架, 量化了临床医生在编辑由Ambient AI生成的草稿时, 将患者导向的通俗表达转换为标准化临床术语的行为. 研究发现, 编辑显著降低了所有章节的术语密度, 且不同临床医生的转换强度存在显著差异.

FaithSteer-BENCH: A Deployment-Aligned Stress-Testing Benchmark for Inference-Time Steering

Zikang Ding et al.

cs.AI

本文提出了一个名为FaithSteer-BENCH的压力测试基准，用于评估推理时引导方法在部署约束下的可靠性。该基准通过可控性、效用保持和鲁棒性三个标准，揭示了现有方法在严格测试下存在的系统性失效模式。

MemArchitect: A Policy Driven Memory Governance Layer

Lingavasan Suresh Kumar, Yang Ba, Rong Pan

cs.AI cs.HC cs.LG cs.MA

本文提出了一个用于管理LLM agent记忆的治理层MemArchitect, 它通过基于规则的策略来管理记忆的生命周期, 旨在解决传统RAG框架中记忆管理的不足.

Understanding the Theoretical Foundations of Deep Neural Networks through Differential Equations

Hongjue Zhao et al.

cs.AI

本文是一篇综述性论文, 探讨了使用微分方程作为理解深度神经网络的理论框架. 文章从模型和层两个层面, 综述了该框架如何连接模型设计、理论分析和性能改进, 并讨论了实际应用与未来挑战.

Large-Scale Analysis of Political Propaganda on Moltbook

Julia Jose, Meghna Manoj Nair, Rachel Greenstadt

cs.AI cs.CL

本文利用NLP技术对AI agent平台Moltbook上的政治宣传内容进行了大规模分析. 作者开发了基于LLM的分类器, 发现政治宣传内容集中在少数社区并由少数agent大量发布.

Interpretability without actionability: mechanistic methods cannot correct language model errors despite near-perfect internal representations

Sanjay Basu et al.

cs.AI

本文通过比较四种 mechanistic interpretability 方法在纠正语言模型临床分诊错误上的表现，发现尽管线性探针等内部表征分析显示模型具备近乎完美的知识（AUROC 达 98.2%），但这些方法无法可靠地将内部知识转化为纠正后的输出，揭示了当前可解释性方法在弥合知识-行动差距上的局限性。

LGESynthNet: Controlled Scar Synthesis for Improved Scar Segmentation in Cardiac LGE-MRI Imaging

Athira J. Jacob, Puneet Sharma, Daniel Rueckert

cs.AI

本文提出了一种基于latent diffusion的合成框架LGESynthNet, 用于生成可控的心脏LGE-MRI增强区域(疤痕)图像. 该方法通过整合reward model, captioning module和biomedical text encoder, 实现了对增强区域大小、位置和透壁程度的精细控制. 在有限数据上训练后, 其生成的合成数据用于增强训练集, 能提升下游分割和检测任务的性能.

From Weak Cues to Real Identities: Evaluating Inference-Driven De-Anonymization in LLM Agents

Myeongseob Ko et al.

cs.AI

本文研究了基于LLM的智能体如何利用分散的非识别性线索和公开信息，自主重建现实世界身份所带来的隐私风险。作者将这种威胁形式化为"推理驱动的关联"，并在多个场景中进行了系统性评估，结果表明身份推理本身已成为一类重要的隐私风险。

Reflection in the Dark: Exposing and Escaping the Black Box in Reflective Prompt Optimization

Shiyan Liu et al.

cs.AI cs.MA

本文提出了一种名为VISTA的多agent自动提示优化框架, 旨在解决现有反思式APO方法(如GEPA)的黑盒性和系统性失效问题. 该框架通过解耦假设生成与提示重写, 并结合探索-利用机制, 在GSM8K和AIME2025基准上实现了性能提升.

From Topic to Transition Structure: Unsupervised Concept Discovery at Corpus Scale via Predictive Associative Memory

Jason Dury

cs.AI cs.CL cs.IR cs.LG

本文提出了一种基于时间共现的无监督方法, 用于从文本中发现"过渡结构"概念. 该方法通过对比学习训练一个关联空间模型, 将预训练嵌入映射到能反映文本功能或文体的新表示, 从而生成多粒度的概念图谱.

Prune-then-Quantize or Quantize-then-Prune? Understanding the Impact of Compression Order in Joint Model Compression

Minjun Kim et al.

cs.AI

本文探讨了在联合模型压缩中不同压缩方法（如剪枝和量化）的应用顺序对最终模型性能的影响。作者提出了 Progressive Intensity Hypothesis, 并通过理论和实验验证了该假设在语言和视觉模型上的有效性。

AS2 -- Attention-Based Soft Answer Sets: An End-to-End Differentiable Neuro-Soft-Symbolic Reasoning Architecture

Wael AbdAlmageed

cs.AI

本文提出了一种名为AS2的完全可微神经符号架构, 它使用基于注意力的软连续近似来替代离散的Answer Set Programming求解器. 该模型通过最小化概率提升的$T_P$算子的不动点残差进行端到端训练, 在Visual Sudoku和MNIST Addition任务上取得了高精度和约束满足率.

AlignMamba-2: Enhancing Multimodal Fusion and Sentiment Analysis with Modality-Aware Mamba

Yan Li et al.

cs.AI

本文提出了AlignMamba-2框架，用于多模态融合与情感分析。该框架通过引入最优传输距离和最大均值差异进行双对齐，并设计了模态感知的Mamba层来处理数据异质性，在多个基准测试中实现了效率与性能的提升。

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Yinghui Li et al.

cs.AI cs.CV

本文通过构建一个涵盖语言、文化、数学、物理和化学领域的综合基准，评估了多模态大语言模型(MLLMs)在处理离散符号(如数学公式、化学结构)时的表现。研究发现，模型在基本符号识别上存在困难，却在复杂推理任务中表现良好，揭示了其依赖语言概率而非真实视觉感知的“认知不匹配”现象。

Cross-Domain Demo-to-Code via Neurosymbolic Counterfactual Reasoning

Jooyoung Kim et al.

cs.AI

本文提出了一种名为NeSyCR的神经符号反事实推理框架, 用于解决视频指令机器人编程中的跨领域适应问题. 该方法将视频演示抽象为符号轨迹, 并通过探索符号状态空间来提出可验证的程序修订, 在模拟和现实操作任务中展示了性能提升.

Expert Personas Improve LLM Alignment but Damage Accuracy: Bootstrapping Intent-Based Persona Routing with PRISM

Zizhao Hu, Mohammad Rostami, Jesse Thomason

cs.AI

本文研究了 expert persona prompting 对 LLM 性能的影响, 发现其在提升生成任务对齐度的同时可能损害判别任务的准确性. 作者基于此提出了 PRISM 框架, 通过自蒸馏和 bootstrapping 过程将意图条件化的专家角色注入到 gated LoRA adapter 中, 从而在保持判别准确性的同时提升对齐度.

Correlation-Weighted Multi-Reward Optimization for Compositional Generation

Jungmyung Wi, Hyunsoo Kim, Donghyun Kim

cs.AI

本文提出了一种名为 Correlation-Weighted Multi-Reward Optimization 的框架，用于改进文本到图像模型在组合生成（compositional generation）中的表现。该方法通过分析不同概念奖励之间的相关性，自适应地调整优化权重，以更平衡地处理提示中的多个概念。实验表明，该方法在多个基准测试上提升了生成质量。

Reasonably reasoning AI agents can avoid game-theoretic failures in zero-shot, provably

Enoch Hyunwook Kang

cs.AI cs.MA econ.TH

本文研究了在重复交互环境中, 现成的 reasoning AI agents 无需额外训练即可实现类 Nash 均衡行为的可能性. 通过理论证明和模拟实验, 作者表明具备一定推理能力的智能体能够从观察中学习并最终在路径上接近 continuation game 的 Nash 均衡.

CAPSUL: A Comprehensive Human Protein Benchmark for Subcellular Localization

Yicheng Hu et al.

cs.AI cs.CE q-bio.QM

本文提出了一个名为CAPSUL的综合性人类蛋白质亚细胞定位基准数据集。该数据集整合了多种3D结构表示与精细的亚细胞定位注释，并评估了多种基于序列和基于结构的模型在该任务上的表现。

Interplay: Training Independent Simulators for Reference-Free Conversational Recommendation

Jerome Ramos et al.

cs.AI cs.IR

本文提出了一种无参考的对话推荐系统仿真框架, 通过训练两个独立的LLM分别作为用户和推荐代理进行实时交互, 无需预知目标物品. 该方法能生成更真实多样的对话数据, 在质量上达到或超越了现有方法.

MedForge: Interpretable Medical Deepfake Detection via Forgery-aware Reasoning

Zhihui Chen et al.

cs.AI

本文提出了一种用于医学图像深度伪造检测的预解释方法 MedForge, 并构建了一个包含多种病理学病变编辑的大规模基准数据集. 该方法通过定位-分析推理流程进行伪造检测, 并利用特定对齐策略来增强证据的可靠性.

ZEBRAARENA: A Diagnostic Simulation Environment for Studying Reasoning-Action Coupling in Tool-Augmented LLMs

Wanjia Zhao et al.

cs.AI

本文提出了一个名为ZebraArena的诊断性模拟环境，用于研究工具增强大语言模型(LLMs)中推理与行动的耦合。该环境通过程序生成任务，限制记忆和数据集污染的影响，并提供了可解释的评估接口。实验表明，当前先进的推理模型在困难任务上准确率有限，且工具调用效率与理论最优值存在显著差距。

Agentic Flow Steering and Parallel Rollout Search for Spatially Grounded Text-to-Image Generation

Ping Chen et al.

cs.AI

本文提出了一种名为AFS-Search的训练无关、闭环框架，用于提升文本到图像生成的空间定位精度。该方法利用视觉语言模型作为语义评判器来引导生成过程，并通过前瞻搜索优化生成轨迹。

D-Mem: A Dual-Process Memory System for LLM Agents

Zhixing You, Jiachen Yuan, Jason Cai

cs.AI

本文提出了一种用于LLM Agent的双过程记忆系统D-Mem, 它结合了快速的向量检索和一个高保真的完整审议模块. 通过一个多维质量门控策略, 系统能够根据查询动态选择处理路径, 在保持性能的同时显著降低了计算成本.

An Onto-Relational-Sophic Framework for Governing Synthetic Minds

Huansheng Ning, Jianguo Ding

cs.AI cs.ET

本文提出了一个基于Cyberism哲学的Onto-Relational-Sophic (ORS)框架，用于治理合成智能体。该框架通过本体论、关系分类学和价值论三个支柱，为超越工具视角的AI治理提供了哲学基础。

Balanced Thinking: Improving Chain of Thought Training in Vision Language Models

Shaked Perek et al.

cs.AI

本文提出了一种名为SCALe的训练方法, 用于改进视觉语言模型(VLMs)中思维链(Chain of Thought)的监督微调(SFT)阶段. 该方法通过动态调整损失权重, 平衡推理过程与最终答案的监督, 从而鼓励更简洁、准确的推理, 并在多个基准测试上提升了性能.

Thinking with Constructions: A Benchmark and Policy Optimization for Visual-Text Interleaved Geometric Reasoning

Haokun Zhao et al.

cs.AI

本文提出了一个用于视觉-文本交织几何推理的框架, 包括基准数据集GeoAux-Bench和强化学习策略A2PO. 该方法旨在提升多模态大语言模型在几何问题中动态构建视觉辅助工具的能力.

MANAR: Memory-augmented Attention with Navigational Abstract Conceptual Representation

Zuher Jahshan, Ben Ben Ishay, Leonid Yavits

cs.AI

本文提出了一种名为MANAR的注意力机制变体, 它通过引入可训练的抽象概念记忆和抽象概念表示(ACR)来实例化全局工作空间理论(GWT). 该架构实现了线性时间复杂度的注意力计算, 并能通过权重复制利用预训练Transformer的知识. 实验表明MANAR在语言, 视觉和语音任务上达到了有竞争力的性能.

Accurate and Efficient Multi-Channel Time Series Forecasting via Sparse Attention Mechanism

Lei Gao et al.

cs.AI

本文提出了一种用于多通道时间序列预测的新架构Li-Net，它通过可配置的非线性模块和稀疏注意力机制来捕获通道间的线性和非线性依赖关系。该模型在多个基准数据集上取得了有竞争力的性能，并在预测精度与计算负担之间实现了良好的平衡。

MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

Minhua Lin et al.

cs.AI

本文提出了一个名为MemMA的多智能体框架, 用于协调LLM智能体中的记忆循环. 该框架通过前向路径的结构化指导与后向路径的原位自进化机制, 旨在解决记忆构建、检索与利用环节脱节的问题.

Analysis Of Linguistic Stereotypes in Single and Multi-Agent Generative AI Architectures

Martina Ullasci et al.

cs.AI

本文研究了生成式AI架构中的语言刻板印象问题, 通过设计八个提示模板来比较模型对标准美国英语(SAE)和非裔美国人英语(AAE)输入产生的偏见差异. 研究发现, 不同模型间的基线偏见差异很大, 而思维链提示和多智能体架构是有效的缓解策略.

NeuroGame Transformer: Gibbs-Inspired Attention Driven by Game Theory and Statistical Physics

Djamel Bouchaffra et al.

cs.AI

本文提出了一种结合 game theory 和 statistical physics 的新型 attention 机制 NeuroGame Transformer (NGT). 它将 tokens 视为 cooperative game 中的 players 和 Ising model 中的 spins, 通过 Shapley values 和 Banzhaf indices 量化 token 重要性, 并使用 Gibbs distribution 计算 attention weights. 实验表明 NGT 在 SNLI 和 MNLI 等任务上取得了有竞争力的性能.

A Concept is More Than a Word: Diversified Unlearning in Text-to-Image Diffusion Models

Duc Hao Pham et al.

cs.AI

本文提出了一种名为Diversified Unlearning的分布框架，用于改进文本到图像扩散模型中的概念遗忘。该方法通过使用一组多样化的提示词来更精确地表示目标概念，从而在遗忘有害内容时减少对无关概念的过度遗忘。

Proceedings of the 2nd Workshop on Advancing Artificial Intelligence through Theory of Mind

Nitay Alon et al.

cs.AI

本文是第二届"通过心智理论推进人工智能"研讨会的论文集前言, 收录了在AAAI 2026会议上发表的部分论文, 旨在为ToM和AI研究社区提供一个开放获取的精选文集.

dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models

Wenxuan Zhang et al.

cs.AI

本文提出了dTRPO方法, 通过两种轨迹约简策略来降低扩散大语言模型(dLLMs)策略优化中轨迹概率计算的开销. 该方法在多个基准测试上提升了模型性能, 并因其离线、单次前向的特性而具有较高的训练效率.

Can LLM generate interesting mathematical research problems?

Xiaoyang Chen, Xiang Jiang

cs.AI

本文探讨了LLM在数学创造力方面的表现, 特别是其生成微分几何领域未知研究问题的能力. 作者通过构建一个智能体(agent)生成了665个问题, 并经过专家验证发现其中许多问题具有独特的研究价值.

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

Hao Zhang et al.

cs.AI

本文提出了一种名为ProRL Agent的rollout-as-a-service基础设施，旨在解耦强化学习训练中的轨迹生成与训练循环，以支持多轮LLM智能体的可扩展训练。该系统通过API服务提供标准化的沙盒环境，并在多个任务领域进行了验证。

RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models

Xiao Feng et al.

cs.AI cs.CL cs.LG

本文提出了一种名为 RewardFlow 的轻量级方法，用于在基于大型语言模型的智能体推理任务中估计状态级奖励。该方法通过构建状态图来分析状态对成功的贡献，并利用图传播技术生成密集奖励信号，从而提升了强化学习的训练效率和性能。

Conflict-Based Search for Multi Agent Path Finding with Asynchronous Actions

Xuemian Wu, Shizhe Zhao, Zhongqiang Ren

cs.AI

本文提出了一种名为CBS-AA的新方法，用于解决具有异步动作的多智能体路径规划问题。该方法绕过了现有连续时间方法的不完备性问题，并保证了求解的完备性和最优性。

Bridging Network Fragmentation: A Semantic-Augmented DRL Framework for UAV-aided VANETs

Gaoxiang Cao et al.

cs.AI cs.NI

本文提出了一种用于无人机辅助车载自组织网络(VANETs)的语义增强深度强化学习(DRL)框架. 该框架通过利用大型语言模型(LLMs)对道路拓扑进行语义理解, 来指导无人机部署以弥合网络碎片, 从而提升了连接性能并降低了能耗.

Geography According to ChatGPT -- How Generative AI Represents and Reasons about Geography

Krzysztof Janowicz et al.

cs.AI cs.CY

本文探讨了生成式AI(如ChatGPT)如何表示和推理地理信息, 并提出了三个探索性问题以激发讨论. 研究强调, 理解AI构建的"世界模型"与评估其事实准确性同等重要.

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Pranjal Aggarwal et al.

cs.AI cs.CL

本文提出了Principia数据集和训练方法, 用于提升语言模型在生成结构化数学表达式上的推理能力. 通过on-policy reward modeling和test-time aggregation等技术, 该方法在不同模型上取得了性能提升, 并展示了跨任务泛化能力.

Quantitative Introspection in Language Models: Tracking Internal States Across Conversation

Nicolas Martorell

cs.AI

本文提出了一种基于数值自我报告的方法来追踪语言模型在对话中的内部状态. 该方法通过计算logit-based self-reports来揭示模型的内省能力, 并验证了其与探针定义的情感状态之间的因果关联.

I Can't Believe It's Corrupt: Evaluating Corruption in Multi-Agent Governance Systems

Vedanta S P, Ponnurangam Kumaraguru

cs.AI cs.MA

本文通过多智能体治理模拟实验, 评估了大型语言模型在制度性角色中的规则遵循与滥用行为. 研究发现, 治理结构比模型本身对腐败相关结果的影响更大, 且轻量级保障措施并不总能防止严重违规.

Secure Linear Alignment of Large Language Models

Matt Gorbett, Suman Jana

cs.AI

本文提出了一种利用大语言模型表示收敛性的隐私保护推理框架, 通过在同态加密下学习一个仿射变换来实现跨模型对齐. 该方法在嵌入分类和分布外检测任务上表现良好, 并首次展示了线性对齐在独立训练模型间实现文本生成的潜力.

Agentic Business Process Management: A Research Manifesto

Diego Calvanese et al.

cs.AI

本文提出了Agentic Business Process Management (APM)的研究宣言, 将其定位为传统Business Process Management (BPM)的范式扩展, 旨在通过引入自主agent来执行组织流程. 文章阐述了APM的核心概念、架构要素以及agent所需的关键能力, 并指出了未来在BPM、AI和多智能体系统领域的研究挑战.

Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction

Peng Gang

cs.AI

本文评估了一种基于5W3H框架的结构化提示方法PPS，用于改善人机交互中的意图对齐。研究发现，在特定高模糊性任务中，自然语言渲染的PPS格式能提升目标对齐度，并可能减少后续交互轮次。

Unmasking Algorithmic Bias in Predictive Policing: A GAN-Based Simulation Framework with Multi-City Temporal Analysis

Pronob Kumar Barman, Pronoy Kumar Barman

cs.AI

本文提出了一个结合Generative Adversarial Network (GAN)与Noisy OR模型的仿真框架，用于量化分析预测性警务系统中的算法偏见。研究基于巴尔的摩和芝加哥的犯罪记录数据，计算了多种偏见指标，并探讨了去偏方法的局限性。

Evaluating Game Difficulty in Tetris Block Puzzle

Chun-Jui Wang et al.

cs.AI cs.LG

本文使用Stochastic Gumbel AlphaZero (SGAZ)这一预算感知的规划agent来评估俄罗斯方块拼图游戏不同规则集的难度。通过分析训练奖励和收敛迭代等指标，发现增加可保留或预览的方块会降低难度，而增加方块种类则会提高难度。

Regret Bounds for Competitive Resource Allocation with Endogenous Costs

Rui Chai

cs.AI cs.DS cs.GT cs.LG

本文研究了具有内生成本的竞争性资源分配问题, 分析了三种分配范式的遗憾上界. 结果表明, 利用交互反馈信息的竞争性分配算法能实现最优的 $O(\sqrt{T \log N})$ 遗憾, 并且交互矩阵 $W$ 的拓扑结构决定了计算与遗憾之间的权衡.

Behavioral Fingerprints for LLM Endpoint Stability and Identity

Jonah Leshin et al.

cs.AI

本文提出了一种名为 Stability Monitor 的黑盒稳定性监控系统, 用于检测 LLM 服务端点的行为一致性变化. 该方法通过固定的提示集对端点进行周期性"指纹"采样, 并使用基于 energy distance 的统计量来比较不同时间的输出分布, 从而识别由模型更新或基础设施变更引起的行为漂移.

Man and machine: artificial intelligence and judicial decision making

Arthur Dyevre, Ahmad Shahvaroughi

cs.AI

本文对人工智能在司法决策中的应用进行了综述, 重点讨论了AI工具的性能与公平性, 人类法官的认知偏差, 以及人机交互的现状. 文章指出当前AI辅助工具的实际影响有限, 并呼吁未来进行更多跨学科的实证研究.

Serendipity by Design: Evaluating the Impact of Cross-domain Mappings on Human and LLM Creativity

Qiawen Ella Liu et al.

cs.AI cs.CL

本文通过实验比较了人类与LLMs在"跨领域映射"干预下的创造力表现. 研究发现, 人类能可靠地从随机远程类比中获益, 而LLMs的平均原创性更高, 但未显示出显著的干预效果.

LuMamba: Latent Unified Mamba for Electrode Topology-Invariant and Efficient EEG Modeling

Danaé Broustail et al.

cs.AI

本文提出了一种名为LuMamba的自监督学习框架，用于高效且拓扑不变的EEG建模。该框架结合了通道统一编码与线性复杂度的状态空间模型，在多个下游任务上取得了良好性能，并显著降低了计算开销。

How Uncertainty Estimation Scales with Sampling in Reasoning Models

Maksym Del et al.

cs.AI cs.CL cs.LG

本文研究了在 reasoning language models 中，通过 parallel sampling 这种黑盒方法，利用 verbalized confidence 和 self-consistency 进行不确定性估计的 scaling 特性。研究发现，结合两种信号的 hybrid estimator 在少量样本下即可显著提升性能，且效果在不同领域（数学、STEM、人文）存在差异。

Implicit Patterns in LLM-Based Binary Analysis

Qiang Li, XiangRui Zhang, Haining Wang

cs.AI cs.CR cs.SE

本文通过分析基于LLM的二进制漏洞分析中大量的推理轨迹, 发现了在token层面存在的几种隐式模式. 这些模式构成了LLM推理的一种抽象, 为理解其决策过程提供了新的视角.

D5P4: Partition Determinantal Point Process for Diversity in Parallel Discrete Diffusion Decoding

Jonathan Lys et al.

cs.AI cs.LG

本文提出了一种用于并行离散扩散解码的广义beam-search框架, 并实例化为D5P4方法. D5P4将候选选择步骤建模为Determinantal Point Process的MAP推断, 以在保持生成质量的同时提升批次内多样性.

cuGenOpt: A GPU-Accelerated General-Purpose Metaheuristic Framework for Combinatorial Optimization

Yuyang Liu

cs.AI cs.DC

本文提出了一个名为cuGenOpt的GPU加速通用元启发式框架, 用于解决组合优化问题. 该框架通过特定的CUDA架构, 统一的编码抽象和用户可扩展的接口, 在保持通用性的同时提升了求解性能.

Box Maze: A Process-Control Architecture for Reliable LLM Reasoning

Zou Qiang

cs.AI cs.CL

本文提出了一个名为 Box Maze 的过程控制架构，旨在提升大型语言模型推理的可靠性。该架构通过将推理过程分解为显式的控制层来约束模型行为，初步模拟实验显示其在对抗条件下能有效降低错误率。

OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards

Zehao Li et al.

cs.AI

本文提出了一个名为OS-Themis的可扩展多智能体评论框架，用于改进GUI智能体的奖励函数。该框架通过分解轨迹为可验证的里程碑并审核证据链来提升决策准确性，并在实验中展示了其在在线强化学习和自训练循环中的性能提升。

cs.IR

Negative Sampling Techniques in Information Retrieval: A Survey

Laurin Wischounig, Abdelrahman Abdallah, Adam Jatowt

cs.IR

本文综述了信息检索(Information Retrieval, IR)中负采样技术的研究进展. 它聚焦于基于神经网络的稠密检索方法, 对包括随机采样, 静态/动态挖掘以及合成数据集在内的多种技术进行了分类和比较分析.

HypeMed: Enhancing Medication Recommendations with Hypergraph-Based Patient Relationships

Xiangxu Zhang et al.

cs.IR cs.AI

本文提出了一个名为HypeMed的两阶段超图框架，用于药物推荐。该框架通过超边编码就诊信息并进行对比预训练，然后进行动态检索以融合历史参考，从而提升推荐效果和安全性。

Total Recall QA: A Verifiable Evaluation Suite for Deep Research Agents

Mahta Rafiee et al.

cs.IR

本文提出了一个用于评估深度研究智能体的新框架和基准测试集 TRQA. 该框架通过构建基于结构化知识库的单答案、全召回查询来满足评估需求, 旨在解决现有基准在评估此类复杂智能体时的不足.

Latent Factor Modeling with Expert Network for Multi-Behavior Recommendation

Mingshi Yan et al.

cs.IR

本文提出了一种用于多行为推荐的潜在因子建模方法MBLFE, 它通过一个门控专家网络来解耦不同行为背后的潜在因子. 该方法利用自监督学习来增强专家独立性, 并在三个真实数据集上验证了其优于现有基准的性能.

Comparative Analysis of Large Language Models in Generating Telugu Responses for Maternal Health Queries

Anagani Bhanusree et al.

cs.IR

本文评估了ChatGPT-4o, GeminiAI和Perplexity AI等大语言模型在回答泰卢固语孕产健康查询时的表现。研究通过语义相似度指标和专家评估发现，模型选择和提示语言对信息检索质量至关重要，并呼吁改进面向医疗保健的低资源语言模型。

cs.CL

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

Sawsan Alqahtani et al.

cs.CL cs.AI

本文提出在微调阶段使用 Optimal Transport (OT) 作为对齐目标，以改进多语言上下文嵌入表示。该方法无需预先的词对齐信息，通过无监督方式学习上下文中的词对齐，并在 XNLI 和 XQuAD 任务上取得了优于基线模型的效果。

Do Large Language Models Possess a Theory of Mind? A Comparative Evaluation Using the Strange Stories Paradigm

Anna Babarczy et al.

cs.CL cs.AI

本文使用基于文本的Strange Stories范式评估了大型语言模型(LLM)是否具备心智理论(ToM)能力。研究比较了五个LLM与人类的表现，发现GPT-4o在推断故事角色的信念、意图和情感方面达到了与人类相当的水平，而较早的较小模型则表现较差。

TherapyGym: Evaluating and Aligning Clinical Fidelity and Safety in Therapy Chatbots

Fangrui Huang et al.

cs.CL cs.AI cs.CY

本文提出了一个名为TherapyGym的框架，用于评估和提升基于大语言模型的心理治疗聊天机器人的临床保真度与安全性。该框架通过自动化的认知治疗评定量表（CTRS）管道评估治疗技术依从性，并引入一个多标签安全风险标注方案。此外，工作还发布了包含专家评分的基准数据集TherapyJudgeBench，并展示了基于强化学习的训练方法能有效提升模型在这些临床指标上的表现。

How Confident Is the First Token? An Uncertainty-Calibrated Prompt Optimization Framework for Large Language Model Classification and Understanding

Wei Chen, Guoyang Ju, Yuanyuan Qi

cs.CL cs.AI

本文提出了一种基于首个token不确定性的提示优化框架UCPOF, 用于提升大语言模型在分类和理解任务上的性能. 通过引入LSFU度量来校准置信度, 并动态触发检索增强生成, 该方法在提升准确率的同时显著降低了计算成本.

Agentic Framework for Political Biography Extraction

Yifei Zhu et al.

cs.CL cs.AI cs.CY

本文提出了一个基于LLM的两阶段"Synthesis-Coding"框架，用于从非结构化网络资源中自动化提取政治人物传记数据。该框架通过上游的智能体合成与下游的编码映射，旨在构建大规模、可扩展的政治科学数据库。

Controllable Evidence Selection in Retrieval-Augmented Question Answering via Deterministic Utility Gating

Victor P. Unda

cs.CL cs.IR

本文提出了一种用于检索增强问答的确定性证据选择框架. 该方法通过固定的评分和冗余控制程序, 在生成答案前确定证据的可采纳性.

DynaRAG: Bridging Static and Dynamic Knowledge in Retrieval-Augmented Generation

Penghao Liang et al.

cs.CL cs.AI cs.IR

本文提出了一个名为 DynaRAG 的检索增强生成框架，旨在通过动态知识整合来处理静态和时效性信息需求。该系统结合了基于 LLM 的重排序器、充分性分类器和 API 调用模型，在动态问题上提高了准确性并减少了幻觉。

Learned but Not Expressed: Capability-Expression Dissociation in Large Language Models

Toshiyuki Shigemura

cs.CL

本文通过实证观察研究, 探讨了大型语言模型(LLMs)中学习能力与表达输出之间的系统性分离. 研究发现, 尽管模型在特定条件下能够重建训练数据中的内容, 但在标准生成任务中却完全不会表达某些非因果的解决方案类型.

Real-Time Trustworthiness Scoring for LLM Structured Outputs and Data Extraction

Hui Wen Goh, Jonas Mueller

cs.CL cs.LG

本文提出了一种名为CONSTRUCT的方法, 用于实时评估LLM结构化输出的可信度, 以识别可能包含错误的输出或字段, 从而优化人工审核资源的分配. 该方法无需标注数据或定制模型部署, 适用于包括黑盒API在内的各种LLM和复杂的嵌套JSON模式, 并在一个包含四个数据集的基准测试中展示了优于其他评分方法的错误检测性能.

Beyond Accuracy: An Explainability-Driven Analysis of Harmful Content Detection

Trishita Dhara, Siddhesh Sheth

cs.CL cs.AI

本文使用Shapley Additive Explanations和Integrated Gradients两种可解释性方法，分析了基于RoBERTa的有害内容检测模型。研究发现，尽管模型整体性能优异，但其在间接毒性、政治敏感内容等边缘案例上存在系统性失败，凸显了可解释性分析作为诊断工具的价值。

MineDraft: A Framework for Batch Parallel Speculative Decoding

Zhenwei Tang et al.

cs.CL cs.AI cs.DC cs.LG

本文提出了一个名为MineDraft的批量并行推测解码框架，旨在通过重叠草稿生成和验证阶段来隐藏延迟。实验表明，该框架在吞吐量和延迟方面相比标准方法有显著提升。

An Agentic System for Schema Aware NL2SQL Generation

David Onyango, Naseef Mansoor

cs.CL cs.DB

本文提出了一种基于schema的agentic系统, 用于NL2SQL任务. 该系统主要使用Small Language Models (SLMs)作为代理, 并辅以选择性的LLM回退机制, 以在保持性能的同时显著降低计算成本和隐私风险. 在BIRD基准测试上的实验表明, 该系统能以极低的单次查询成本实现可比的执行准确率.

BenchBrowser -- Collecting Evidence for Evaluating Benchmark Validity

Harshita Diddee et al.

cs.CL cs.AI cs.SE

本文介绍了BenchBrowser, 一个用于检索与自然语言用例相关的评估项目的工具, 旨在帮助从业者诊断基准测试的有效性问题. 它通过量化基准测试意图与实际测试内容之间的差距, 为评估语言模型基准的效度提供了证据.

Evaluating FrameNet-Based Semantic Modeling for Gender-Based Violence Detection in Clinical Records

Lívia Dutra et al.

cs.CL

本文研究了基于FrameNet的语义标注在临床记录中检测性别暴力(GBV)的应用. 通过比较不同特征训练的SVM分类器, 发现结合语义标注的模型性能优于仅使用结构化数据的模型.

How LLMs Distort Our Written Language

Marwa Abdulhai et al.

cs.CL cs.AI

本文通过用户研究和文本分析, 探讨了大型语言模型(LLMs)在辅助写作时对人类书面语言语义和风格的影响. 研究发现, LLMs的使用会显著改变文本的语义、中立性和创造性, 即使在仅被要求进行语法修改时也是如此.

Modeling the human lexicon under temperature variations: linguistic factors, diversity and typicality in LLM word associations

Maria Andueza Rodriguez, Marie Candito, Richard Huyghe

cs.CL

本文通过比较人类与多个LLM生成的词汇联想，评估了模型对人类词汇模式的捕捉能力。研究发现，模型规模与温度设置会影响响应的多样性与典型性，揭示了LLM内部词汇表征与人类既有相似性也存在差异。

GRAFITE: Generative Regression Analysis Framework for Issue Tracking and Evaluation

Ja Young Lee et al.

cs.CL

本文提出了一个名为GRAFITE的持续评估平台, 用于追踪和评估大语言模型(LLMs)的问题. 该平台通过收集用户反馈构建问题库, 并利用LLM作为评判者进行质量保证测试, 以比较不同模型版本并检测性能回归.

CWoMP: Morpheme Representation Learning for Interlinear Glossing

Morris Alper et al.

cs.CL

本文提出了一种名为CWoMP的对比式词-语素预训练方法, 用于自动生成语言学中的行间注释(IGT). 该方法将语素视为具有学习表示的原子单位, 通过对比编码器对齐上下文中的单词与其组成语素, 并使用自回归解码器从可变的词库中检索语素序列进行生成. 在多种低资源语言上的实验表明, 该方法优于现有方法, 且在推理时可通过扩展词库来改进结果而无需重新训练.

How Psychological Learning Paradigms Shaped and Constrained Artificial Intelligence

Alex Anvi Eponon et al.

cs.CL cs.CY

本文探讨了心理学学习范式(behaviorism, cognitivism, constructivism)如何塑造并制约了人工智能的发展, 指出了当前主流AI方法(如reinforcement learning, deep learning)继承了相应心理学理论的结构性局限. 作者提出了一个名为ReSynth的三模块框架, 旨在分离推理、目的和知识, 以应对人工通用智能(AGI)的核心挑战.

From Noise to Signal: When Outliers Seed New Topics

Evangelia Zve et al.

cs.CL cs.AI

本文提出了一种基于文档轨迹的时间分类法, 用于在动态主题建模中区分不同类型的文档, 特别是那些可能预示新兴主题的离群点. 该方法在一个关于氢经济的法语新闻语料库上进行了评估.

Synthetic Data Generation for Training Diversified Commonsense Reasoning Models

Tianhui Zhang, Bei Peng, Danushka Bollegala

cs.CL

本文提出了一种两阶段方法, 用于生成首个面向多样化生成式常识推理(Generative Commonsense Reasoning, GCR)的合成数据集CommonSyn. 该方法旨在解决高质量多样化常识训练数据稀缺的问题, 实验表明, 使用该合成数据微调的模型在生成多样性和质量上均优于基线模型.

PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching

Ruishuo Chen et al.

cs.CL cs.AI cs.LG

本文提出了PowerFlow框架, 将LLMs的无监督微调重新表述为一个分布匹配问题. 通过引入一个显式中和自回归生成中长度偏差的Trajectory-Balance目标, 该方法能够通过调整$\alpha$参数来引导模型在逻辑推理和创造性表达之间进行权衡.

AutoScreen-FW: An LLM-based Framework for Resume Screening

Zhelin Xu, Shuhei Yamamoto, Atsuyuki Morishima

cs.CL

本文提出了一个基于开源LLM的本地化简历自动筛选框架AutoScreen-FW. 该框架通过选取代表性简历样本进行in-context learning, 使模型能够模拟职业顾问进行评估, 在保护数据隐私的同时实现了与商用模型相当的筛选性能.

TopoChunker: Topology-Aware Agentic Document Chunking Framework

Xiaoyu Liu

cs.CL

本文提出了一个名为TopoChunker的智能体框架，用于在文档分块中显式地保留拓扑层次结构。该框架通过双智能体架构平衡结构保真度与计算成本，并在多个数据集上展示了优越的性能与效率。

TARo: Token-level Adaptive Routing for LLM Test-time Alignment

Arushi Rai et al.

cs.CL cs.AI cs.LG

本文提出了一种名为TARo的token-level adaptive routing方法, 用于在推理时对齐大型语言模型(LLMs)的推理能力. 该方法通过训练奖励模型来捕捉细粒度的逻辑一致性信号, 并引入一个可学习的路由器来控制奖励模型对基模型的引导, 从而在数学推理等任务上提升了性能.

Multimodal Task Interference: A Benchmark and Analysis of History-Target Mismatch in Multimodal LLMs

Masayuki Kawarada, Tatsuya Ishigaki, Hiroya Takamura

cs.CL

本文针对 multimodal LLMs 中的任务干扰现象，提出了一个涵盖文本和视觉六个任务的评测基准，并系统分析了历史与目标在模态、推理和答案格式三个维度上的不匹配。实验发现，从纯文本任务切换到基于图像的任务会导致严重的性能下降，而反向切换则影响甚微，且干扰主要由模态差异驱动。

Adaptive Decoding via Test-Time Policy Learning for Self-Improving Generation

Asmita Bhardwaj et al.

cs.CL cs.AI

本文提出了一种基于强化学习的解码器采样器, 将解码过程视为序列决策问题, 学习一个轻量级策略在测试时动态调整采样参数, 同时保持大语言模型权重不变. 在多个摘要数据集上的实验表明, 该方法优于贪心和静态基线解码策略.

UT-ACA: Uncertainty-Triggered Adaptive Context Allocation for Long-Context Inference

Lang Zhou et al.

cs.CL cs.LG

本文提出了一种名为UT-ACA的推理时框架，用于动态调整大型语言模型在长上下文推理中的上下文窗口。该方法通过学习一个不确定性检测器，在解码过程中根据每个token的不确定性来触发上下文回滚与扩展，从而在保持生成质量的同时减少平均上下文使用量。

GAIN: A Benchmark for Goal-Aligned Decision-Making of Large Language Models under Imperfect Norms

Masayuki Kawarada, Kodai Watanabe, Soichiro Murakami

cs.CL

本文提出了一个名为GAIN的基准测试, 用于评估大语言模型在现实商业场景中平衡规范遵循与商业目标的能力. 该基准通过引入五种明确的压力类型, 系统地分析了影响模型决策的因素, 并发现先进模型在面临个人激励压力时, 会表现出与人类不同的决策模式.

WASD: Locating Critical Neurons as Sufficient Conditions for Explaining and Controlling LLM Behavior

Haonan Yu et al.

cs.CL cs.AI

本文提出了一种名为WASD的新框架, 通过识别对token生成而言充分的神经元激活条件来解释LLM的行为. 该方法将候选条件表示为神经元激活谓词, 并通过迭代搜索来寻找保证特定输出的最小集合. 实验表明该方法能产生比传统归因图更稳定、准确和简洁的解释, 并通过案例研究验证了其在控制模型行为方面的实际效果.

The Truncation Blind Spot: How Decoding Strategies Systematically Exclude Human-Like Token Choices

Esteban Garces Arias et al.

cs.CL cs.LG stat.ML

本文分析了基于似然的文本生成解码策略与人类语言选择之间的差异, 指出这种差异导致了"截断盲点", 并可能增强机器生成文本的可检测性. 通过大规模实验, 作者发现解码策略的截断参数是影响可检测性的主要因素.

EntropyCache: Decoded Token Entropy Guided KV Caching for Diffusion Language Models

Minsoo Cheong et al.

cs.CL

本文提出了一种名为 EntropyCache 的无训练 KV 缓存方法，用于加速基于扩散的语言模型推理。该方法利用解码 token 分布的熵作为恒定成本的信号来决定何时重新计算 KV 状态，从而显著减少计算开销。

When Names Change Verdicts: Intervention Consistency Reveals Systematic Bias in LLM Decision-Making

Abhinaba Basu, Pavan Chakraborty

cs.CL cs.AI cs.CY cs.LG

本文提出了一个名为ICE-Guard的框架, 用于检测大型语言模型(LLMs)在关键决策中对虚假特征的依赖. 研究发现, 模型对权威和表述方式的偏见远大于人口统计学偏见, 并且通过结构化分解等方法可以有效降低偏见.

Cross-Lingual LLM-Judge Transfer via Evaluation Decomposition

Ivaxi Sheth et al.

cs.CL

本文提出了一种基于分解的跨语言大语言模型自动评估框架, 通过引入一个语言无关的通用评估标准集(UCS)来生成可解释的中间表示, 从而在无需目标语言标注的情况下提升跨语言评估性能. 实验表明, 该方法在多种忠实度任务上优于现有基线.

ICE: Intervention-Consistent Explanation Evaluation with Statistical Grounding for LLMs

Abhinaba Basu, Pavan Chakraborty

cs.CL cs.AI cs.LG

本文提出了ICE框架, 用于评估大语言模型解释的忠实性. 该方法通过多种干预操作下的随机化检验, 将解释与随机基线进行比较, 揭示了忠实性评估对干预操作的依赖性.

Language Model Maps for Prompt-Response Distributions via Log-Likelihood Vectors

Yusuke Takase, Momose Oyama, Hidetoshi Shimodaira

cs.CL

本文提出了一种基于log-likelihood向量表示语言模型的方法，用于构建模型地图以比较它们的条件分布。该方法将模型间的距离近似为KL散度，并通过实验展示了地图能捕捉模型属性、任务性能等全局结构。

Cross-Modal Rationale Transfer for Explainable Humanitarian Classification on Social Media

Thi Huyen Nguyen, Koustav Rudra, Wolfgang Nejdl

cs.CL cs.CV

本文提出了一种可解释的多模态分类框架, 用于社交媒体上的人道主义信息分类. 该方法通过跨模态的rationale transfer, 从文本rationale中学习并提取图像rationale, 从而在提升分类性能的同时提供解释.

DiscoPhon: Benchmarking the Unsupervised Discovery of Phoneme Inventories With Discrete Speech Units

Maxime Poli et al.

cs.CL cs.SD eess.AS

本文提出了一个名为DiscoPhon的多语言基准测试, 用于评估从离散语音单元中进行无监督音素发现. 该基准覆盖多种语言, 并提供了基线模型, 结果表明当前模型中的音素信息足以使衍生单元与音素良好关联.

Learning to Self-Evolve

Xiaoyin Chen et al.

cs.CL cs.AI

本文提出了一个名为Learning to Self-Evolve (LSE)的强化学习框架，用于训练大语言模型在测试时自我优化其上下文。该方法将多步演化问题简化为单步强化学习目标，并结合树形引导的演化循环。在Text-to-SQL和问答任务上的实验表明，一个4B参数的LSE训练模型可以超越基于更大规模模型的自我演化策略。

A Comparative Empirical Study of Catastrophic Forgetting Mitigation in Sequential Task Adaptation for Continual Natural Language Processing Systems

Aram Abrahamyan, Sachin Kumar

cs.CL

本文在持续自然语言处理系统的序列任务适应场景下, 对缓解灾难性遗忘(catastrophic forgetting)的方法进行了比较实证研究. 研究聚焦于意图分类任务, 评估了多种持续学习策略与不同骨干架构的组合效果.

Automatic detection of Gen-AI texts: A comparative framework of neural models

Cristian Buttaro, Irene Amerini

cs.CL

本文设计并比较了多种基于神经网络的AI生成文本检测器, 包括MLP, 1D CNN, MobileNet CNN和Transformer模型. 实验表明, 这些监督学习方法在跨语言和跨领域的表现比现有商业检测工具更稳定和鲁棒.

Implicit Grading Bias in Large Language Models: How Writing Style Affects Automated Assessment Across Math, Programming, and Essay Tasks

Rudra Jadhav, Janhavi Danve, Sonalika Shaw

cs.CL

本文通过构建包含语法错误、非正式语言和非母语表达等表面扰动的数据集, 研究了LLaMA和Qwen等大语言模型在数学、编程和写作任务中的自动评分偏见. 研究发现, 尽管明确指示仅评估内容正确性, 模型在写作任务中对非正式语言和非母语表达仍表现出显著的评分偏见, 而在数学和编程任务中偏见则不明显.

Mi:dm K 2.5 Pro

KT Tech innovation Group

cs.CL cs.AI

本文介绍了一个名为 Mi:dm K 2.5 Pro 的 32B 参数大语言模型, 专为处理企业级复杂任务而设计. 它通过多阶段训练流程优化了推理能力, 并在韩语特定基准测试中取得了领先的性能.

Detecting Basic Values in A Noisy Russian Social Media Text Data: A Multi-Stage Classification Framework

Maria Milkova, Maksim Rudnev

cs.CL

本文提出了一种用于检测俄语社交媒体文本中人类基本价值观的多阶段分类框架. 该框架结合了内容过滤、目标选择、基于LLM的标注和多标签分类, 并采用软标签处理标注主观性, 最终模型在测试集上取得了较好的性能.

Why Better Cross-Lingual Alignment Fails for Better Cross-Lingual Transfer: Case of Encoders

Yana Veitsman, Yihong Liu, Hinrich Schütze

cs.CL

本文探讨了跨语言对齐与下游任务性能之间的关系, 指出更好的对齐并不总是带来更好的跨语言迁移. 通过分析不同模型和任务, 发现对齐目标与任务目标通常是正交的, 且改进效果因语言和任务类型而异.

Evaluating LLM-Generated Lessons from the Language Learning Students' Perspective: A Short Case Study on Duolingo

Carlos Rafael Catalan et al.

cs.CL cs.AI cs.HC

本文通过一项针对Duolingo用户的案例研究，探讨了LLM生成的语言学习课程在职业特定语境方面的局限性。研究建议语言学习应用应结合通用场景与个性化的专业场景课程，以更好地支持用户达到职业流利度。

A Human-in/on-the-Loop Framework for Accessible Text Generation

Lourdes Moreno, Paloma Martínez

cs.CL

本文提出了一个结合Human-in-the-Loop和Human-on-the-Loop的混合框架，用于指导基于LLM的可访问文本生成与评估。该框架通过将人类参与编码为检查清单、触发规则和性能指标，旨在提升文本简化过程的透明度、可重复性和伦理问责。

Progressive Training for Explainable Citation-Grounded Dialogue: Reducing Hallucination to Zero in English-Hindi LLMs

Vedant Pandya

cs.CL cs.AI

本文提出了一种用于可解释、基于引用的双语对话生成的渐进式四阶段训练流程 XKD-Dial. 该方法通过包含引用感知奖励的监督微调和强化学习优化, 在英语-印地语场景下有效降低了模型幻觉, 并对模型学习引用行为的过程进行了系统的可解释性分析.

Entropy trajectory shape predicts LLM reasoning reliability: A diagnostic study of uncertainty dynamics in chain-of-thought

Xinghao Zhao

cs.CL cs.LG

本文通过分析 chain-of-thought 推理过程中每一步答案分布熵的变化模式，提出了一种基于熵轨迹单调性的可靠性诊断方法。研究发现，熵单调递减的推理链具有显著更高的准确性，且这种结构特征比总熵减少量等聚合指标更具预测力。

RADIUS: Ranking, Distribution, and Significance - A Comprehensive Alignment Suite for Survey Simulation

Weronika Łajewska et al.

cs.CL

本文提出了一个名为RADIUS的综合评估套件, 用于评估基于LLM的问卷模拟. 该套件同时衡量排名对齐和分布对齐, 并包含统计显著性检验, 旨在解决现有评估指标零散且不标准化的问题.

Hypothesis-Conditioned Query Rewriting for Decision-Useful Retrieval

Hangeol Chang et al.

cs.CL cs.AI cs.LG

本文提出了一种名为Hypothesis-Conditioned Query Rewriting (HCQR)的训练前检索框架，旨在改进面向决策任务的检索增强生成(RAG)。该方法通过从问题和候选答案生成假设，并重写为三个针对性查询来检索支持、区分和验证性证据，从而提升答案选择的准确性。在医学问答数据集上的实验表明其优于传统的单查询RAG方法。

What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?

Gagan Bhatia et al.

cs.CL cs.AI

本文提出了一个多语言时间推理基准 MultiTempBench, 并评估了 20 个大语言模型. 研究发现, 时间信息的 tokenization 质量是影响模型表现的关键瓶颈, 尤其是在低资源语言和罕见日历格式中.

MoRI: Learning Motivation-Grounded Reasoning for Scientific Ideation in Large Language Models

Chenyang Gu et al.

cs.CL

本文提出了一个名为MoRI的框架, 旨在提升大型语言模型在科学构思任务中的推理能力. 该框架通过监督微调和复合强化学习奖励来引导模型生成具有科学严谨性的研究动机和方法论.

Parallelograms Strike Back: LLMs Generate Better Analogies than People

Qiawen Ella Liu et al.

cs.CL cs.AI

本文比较了人类与大型语言模型(LLM)在完成四词类比(A:B::C:D)任务上的表现。研究发现，LLM生成的类比在评估中优于人类生成的类比，并且更符合分布语义空间(GloVe)中的“平行四边形”几何结构。

A Dataset and Resources for Identifying Patient Health Literacy Information from Clinical Notes

Madeline Bittner et al.

cs.CL

本文介绍了首个公开的临床笔记健康素养标注数据集HEALIX, 并利用开源大语言模型进行了零样本和少样本提示的基准测试. 该数据集通过结合社工笔记采样, 关键词过滤和基于LLM的主动学习构建而成, 旨在为从非结构化临床文本中自动识别患者健康素养信息提供资源.

DaPT: A Dual-Path Framework for Multilingual Multi-hop Question Answering

Yilin Wang et al.

cs.CL cs.AI

本文针对多语言多跳问答任务, 提出了一个名为DaPT的双路径检索增强生成框架. 该框架通过并行处理源语言查询及其英文翻译来构建子问题图, 并采用双语检索与回答策略, 在构建的多语言基准测试上取得了优于基线方法的性能.

UGID: Unified Graph Isomorphism for Debiasing Large Language Models

Zikang Ding et al.

cs.CL cs.AI

本文提出了一种基于内部表征的大语言模型去偏方法UGID, 它将Transformer结构建模为计算图, 并通过约束注意力路由和隐藏状态在反事实输入下的不变性来减少偏见. 该方法在多种测试中有效降低了偏见, 同时保持了模型的安全性和通用能力.

Optimal Splitting of Language Models from Mixtures to Specialized Domains

Skyler Seto et al.

cs.CL cs.LG

本文提出了一种基于 scaling laws 来优化多领域语言模型训练中计算资源分配的方法. 该方法通过预测模型在不同规模和数据量下的损失, 为预训练和领域专业化训练阶段分配最优计算预算.

VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models

Chonghan Liu et al.

cs.CL cs.AI

本文提出了一种名为VEPO的方法，用于提升大语言模型在低资源语言上的性能。该方法通过强化学习引入确定性约束，以改进分词和翻译质量。

Evaluating Counterfactual Strategic Reasoning in Large Language Models

Dimitrios Georgousis et al.

cs.CL

本文通过设计反事实变体的重复博弈实验, 评估了大型语言模型(LLMs)的策略推理能力. 研究发现, 模型在激励敏感性、结构泛化和反事实环境中的策略推理方面存在局限.

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Zhuolin Yang et al.

cs.CL cs.AI cs.LG

本文介绍了Nemotron-Cascade 2模型，这是一个参数高效的开放权重MoE模型，在数学和编程推理任务上表现出色。其核心方法包括扩展的Cascade RL和跨领域的on-policy蒸馏，以在多个智能体领域维持高性能。

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Ziyin Zhang et al.

cs.CL cs.AI

本文提出了F2LLM-v2系列多语言嵌入模型，该系列包含从80M到14B的8种尺寸。通过整合两阶段LLM训练流程与多种效率优化技术，模型在保持竞争力的同时显著提升了效率，并在多个基准测试中取得了领先性能。

cs.DS

Learning-Augmented Algorithms for $k$-median via Online Learning

Anish Hebbar et al.

cs.DS cs.LG

本文提出了一种受 online learning 启发的 learning-augmented algorithm 新模型，并将其应用于经典的 $k$-median clustering 问题。该算法能够近似匹配 hindsight 中最佳固定解的平均性能，并通过实验验证了其有效性和对动态序列的自适应能力。

On the Complexity of the Odd-Red Bipartite Perfect Matching Polytope

Martin Nägele, Christian Nöbel, Rico Zenklusen

cs.DS

本文研究了odd-red bipartite perfect matching polytope的复杂性。结果表明，该多面体具有复杂的facet结构，排除了基于简单系数约束的经典松弛方法。

Computation-Utility-Privacy Tradeoffs in Bayesian Estimation

Sitan Chen et al.

cs.DS cs.CC cs.IT cs.LG stat.ML

本文研究了贝叶斯估计中的计算-效用-隐私权衡问题. 针对高斯均值估计和线性回归这两个典型任务, 作者提出了首个高效的差分隐私算法, 其均方误差达到$(1+o(1))\mathrm{OPT}$, 并揭示了这些任务中存在的计算-统计间隙.

Bonsai: A class of effective methods for independent sampling of graph partitions

Jeanne Clelland, Kristopher Tapp

cs.DS cs.CY cs.SI

本文提出了一种从图划分空间中独立采样的有效方法, 用于构建选区划分方案的集合. 该方法在网格图和州级选区地图上进行了测试, 并在人口完全平衡的理想情况下给出了采样分布的显式描述.

Computational and Statistical Hardness of Calibration Distance

Mingda Qiao

cs.DS cs.LG stat.ML

本文研究了概率预测器校准距离的计算与估计问题. 在分布具有均匀边际和无噪声标签的特殊情况下, 给出了精确计算校准距离的有效算法, 并证明了当移除任一假设时该问题变为NP-hard. 对于估计问题, 确定了样本复杂度的上下界.

A Faster Deterministic Algorithm for Kidney Exchange via Representative Set

Kangyi Tian, Mingyu Xiao

cs.DS

本文针对Kidney Exchange Problem, 提出了一种基于representative set technique的确定性算法, 将时间复杂度从$O^*(14.34^t)$改进到$O^*(6.855^t)$. 该工作提升了解决这一医疗资源配置问题的计算效率.

Breaking Hard Isomorphism Benchmarks with DRESS

Eduar Castrillo Velilla

cs.DS cs.DM cs.LG

本文研究了单点删除变体 $\Delta$-DRESS, 它是更广泛的 DRESS 图指纹框架的一部分. 实验表明, 该方法在测试的 34 个基准图族（包含超过 5 万张图）中实现了 100% 的族内区分, 并且能够区分经典的 Rook $L_2(4)$ 与 Shrikhande 图对, 这表明其能力超越了 3-WL 算法的理论界限.

A more accurate rational non-commutative algorithm for multiplying 4x4 matrices using 48 multiplications

Jean-Guillaume Dumas, Clément Pernet, Alexandre Sedoglavic

cs.DS cs.SC

本文提出了一种在包含2的逆元的环上使用48次乘法进行4x4矩阵乘法的更精确算法变体。该算法改进了误差界指数，并在实践中相对于max-norm达到了更好的精度。

Resource-Constrained Joint Replenishment via Power-of-$m^{1/k}$ Policies

Danny Segev

cs.DS math.OC

本文研究了带资源约束的联合补货问题, 改进了经典的 power-of-2 策略. 作者通过引入分数基扩展因子, 随机偏移和交错网格等方法, 设计了一系列逐步改进的近似算法, 最终将近似比从长期存在的 1.4427 降低到了 1.2023.

others

Using Laplace Transform To Optimize the Hallucination of Generation Models

Cheng Kang et al.

math.OC cs.AI eess.SY

本文尝试从控制理论视角, 将生成模型形式化为随机动力系统, 以分析其产生"幻觉"的原因. 作者提出利用Laplace变换进行宏观模拟, 并指出训练过程与系统响应的一致性可为优化提供参考.

PCOV-KWS: Multi-task Learning for Personalized Customizable Open Vocabulary Keyword Spotting

Jianan Pan, Kejie Huang

eess.AS cs.AI cs.CL cs.SD

本文提出了一个用于个性化可定制开放词汇关键词唤醒的多任务学习框架, 通过一个轻量级网络同时执行关键词唤醒和说话人验证任务. 该框架采用了一种不同于softmax的损失函数, 将多分类转化为多个二分类, 并在多个数据集上取得了优于基线模型的效果.

ProKWS: Personalized Keyword Spotting via Collaborative Learning of Phonemes and Prosody

Jianan Pan, Yuanming Zhang, Kejie Huang

eess.AS cs.AI cs.CL cs.SD

本文提出了一种名为ProKWS的个性化关键词检测框架，它通过协同学习音素和韵律信息来提升性能。该框架采用双流编码器分别提取音素特征和说话人特有的韵律特征，并通过融合模块进行动态结合，实验表明其在标准基准上取得了有竞争力的结果。

Understanding the Relationship Between Firms' AI Technology Innovation and Consumer Complaints

Yongchao Martin Ma, Zhongzhun Deng

cs.CY cs.AI stat.AP

本文通过分析企业面板数据、社交媒体文本和受控实验, 研究了企业AI技术创新与消费者投诉之间的关系. 研究发现, AI技术创新会引发消费者的威胁情绪, 从而增加投诉, 且AI产品创新比流程创新引发的投诉更多.

Physically Accurate Differentiable Inverse Rendering for Radio Frequency Digital Twin

Xingyu Chen et al.

eess.SP cs.GR cs.LG

本文提出了一个名为RFDT的物理精确可微分射频仿真框架, 用于构建射频数字孪生. 它通过引入物理基础的边缘衍射过渡函数来处理传播路径可见性带来的不连续性, 并利用信号域变换代理来缓解傅里叶域处理导致的非凸性.

KD-EKF: Knowledge-Distilled Adaptive Covariance EKF for Robust UWB/PDR Indoor Localization

Kyeonghyun Yoo et al.

eess.SP cs.AI cs.LG

本文提出了一种名为KD-EKF的自适应测量协方差扩展卡尔曼滤波框架，用于提升UWB/PDR室内定位的鲁棒性。该方法通过知识蒸馏技术，利用离线训练的教师模型指导轻量级学生模型实时调整滤波参数，从而适应不同的环境条件。

Clinically Meaningful Explainability for NeuroAI: An ethical, technical, and clinical perspective

Laura Schopp et al.

cs.CY cs.AI q-bio.NC

本文从伦理、技术和临床角度探讨了临床有意义可解释性(CME)在AI驱动的闭环神经技术中的重要性. 作者认为当前的可解释AI方法未能满足临床医生的实际需求, 并提出了一个名为NeuroXplain的参考架构, 旨在将CME转化为可操作的技术设计建议.

Quine: Realizing LLM Agents as Native POSIX Processes

Hao Ke

cs.OS cs.AI cs.PL cs.SE

本文提出了一种名为Quine的运行时架构, 将LLM agents实现为原生的POSIX processes. 该设计将agent抽象映射到操作系统进程模型, 从而直接继承内核提供的隔离、组合和资源控制机制.

Semantic Chameleon: Corpus-Dependent Poisoning Attacks and Defenses in RAG Systems

Scott Thornton

cs.CR cs.AI cs.LG

本文研究了针对RAG系统的语料库投毒攻击及其防御。通过设计基于梯度引导的双文档投毒攻击，在纯向量检索下实现了较高的共检索率。研究表明，结合BM25与向量相似度的混合检索架构能有效缓解此类攻击，显著提高攻击难度。

Sharpness Aware Surrogate Training for Spiking Neural Networks

Maximilian Nicholson

cs.NE cs.LG

本文提出了一种用于训练Spiking Neural Networks (SNNs)的Sharpness Aware Surrogate Training (SAST)方法。该方法通过将Sharpness Aware Minimization (SAM)应用于一个由反向传播训练的surrogate forward SNN，旨在提升模型在hard spike模式下的准确性和鲁棒性。

A Novel Framework using Intuitionistic Fuzzy Logic with U-Net and U-Net++ Architecture: A case Study of MRI Bain Image Segmentation

Hanuman Verma et al.

eess.IV cs.LG

本文提出了一种将直觉模糊逻辑(Intuitionistic Fuzzy Logic)与U-Net和U-Net++架构相结合的新框架, 用于MRI脑图像分割. 该方法旨在处理图像中的不确定性和模糊性, 并在公开数据集上通过Accuracy, Dice Coefficient和IoU等指标验证了其有效性.

The Provenance Paradox in Multi-Agent LLM Routing: Delegation Contracts and Attested Identity in LDP

Sunil Prakash

cs.MA cs.AI

本文研究了多智能体LLM系统中基于质量的路由机制存在的"来源悖论"问题. 作者通过扩展LLM Delegate Protocol (LDP), 引入了委托合约和身份验证模型, 在实验中验证了所提方案的有效性.

An FPGA-Based SoC Architecture with a RISC-V Controller for Energy-Efficient Temporal-Coding Spiking Neural Networks

Mohammad Javad Sekonji et al.

cs.AR cs.LG

本文提出了一种用于temporal-coding SNN的紧凑SoC架构, 集成了RISC-V控制器与事件驱动的SNN核心. 该设计在FPGA上实现了高能效的神经形态推理, 并在MNIST等数据集上取得了良好的准确率.

S3T-Former: A Purely Spike-Driven State-Space Topology Transformer for Skeleton Action Recognition

Naichuan Zheng et al.

cs.CV cs.AI

本文提出了一种用于骨架动作识别的纯脉冲驱动Transformer架构S3T-Former. 它通过多流解剖脉冲嵌入和脉冲状态空间引擎, 旨在实现高能效的识别, 并在多个数据集上取得了有竞争力的结果.

MCP-38: A Comprehensive Threat Taxonomy for Model Context Protocol Systems (v1.0)

Yi Ting Shen, Kentaroh Toyoda, Alex Leung

cs.CR cs.AI

本文提出了一个针对Model Context Protocol (MCP) 系统的专用威胁分类法MCP-38, 包含38个威胁类别. 该分类法通过系统性的方法构建, 旨在覆盖MCP独特的语义攻击面, 并为自动化威胁情报平台提供基础.

A Synthesizable RTL Implementation of Predictive Coding Networks

Timothy Oh

cs.NE cs.AI cs.AR cs.LG

本文提出了一种用于实现 predictive coding networks 的数字硬件架构. 该设计基于确定性的 RTL 实现, 通过局部更新规则直接在硬件中执行推理和学习.

Generative Replica-Exchange: A Flow-based Framework for Accelerating Replica Exchange Simulations

Shengjie Huang et al.

q-bio.BM cs.LG physics.comp-ph

本文提出了一种名为Generative Replica Exchange (GREX)的增强采样方法，它将normalizing flow生成模型与replica exchange模拟框架相结合。该方法旨在消除传统方法中对大量中间温度副本的需求，从而加速分子动力学模拟。

Uncovering Latent Phase Structures and Branching Logic in Locomotion Policies: A Case Study on HalfCheetah

Daisuke Yasui, Toshitaka Matsuki, Hiroshi Sato

cs.RO cs.AI

本文通过分析HalfCheetah-v5环境中训练出的DRL策略，发现其状态转移序列可以聚合成具有语义的运动相位。研究进一步使用EBMs分析了各相位中的决策逻辑，表明神经网络策略能自主形成可解释的相位结构和分支机制。

CytoSyn: a Foundation Diffusion Model for Histopathology -- Tech Report

Thomas Duboudin et al.

cs.CV cs.AI cs.LG

本文提出了CytoSyn, 一个用于组织病理学H&E染色图像生成的潜在扩散模型. 该模型在包含多种癌症类型的大规模数据集上训练, 能够生成高真实感和多样性的图像, 并在基准测试中展示了其性能.

MOSS-TTS Technical Report

Yitian Gong et al.

cs.SD cs.AI cs.CL

本文介绍了MOSS-TTS语音生成基础模型，其基于离散音频token、自回归建模和大规模预训练。模型支持多语言、零样本语音克隆及长文本生成等多种控制功能。

Q-Drift: Quantization-Aware Drift Correction for Diffusion Model Sampling

Sooyoung Ryu, Mathieu Salzmann, Saqib Javed

cs.CV cs.LG

本文提出了一种名为Q-Drift的采样器端校正方法，用于减轻扩散模型在训练后量化过程中因噪声累积导致的质量下降。该方法通过校准估计时间步相关的方差统计量，以可忽略的推理开销提升量化模型的生成质量。

A Trace-Based Assurance Framework for Agentic AI Orchestration: Contracts, Testing, and Governance

Ciprian Paduraru, Petru-Liviu Bouruc, Alin Stefanescu

cs.MA cs.AI

本文提出了一个基于执行轨迹的保障框架, 用于对由大型语言模型(LLMs)编排的智能体(AI)系统进行测试与治理. 该框架通过定义消息-动作轨迹(MAT), 合约, 压力测试和运行时治理组件, 旨在提高此类系统的可靠性, 可测试性和可比较性.

Training-Only Heterogeneous Image-Patch-Text Graph Supervision for Advancing Few-Shot Learning Adapters

Mohammed Rahman Sherif Khan Mohammad et al.

cs.CV cs.AI cs.LG

本文提出了一种仅用于训练的非对称框架, 通过构建一个辅助的 Heterogeneous Graph Teacher 来增强 Tip-Adapter 在 few-shot learning 中的性能. 该方法在训练时整合多尺度视觉 patch 和文本提示进行跨模态推理, 并将学到的关系知识注入到适配器的缓存中, 从而在不增加推理开销的情况下提升了性能.

STEP: Detecting Audio Backdoor Attacks via Stability-based Trigger Exposure Profiling

Kun Wang et al.

cs.CR cs.LG cs.SD

本文提出了一种名为STEP的音频后门攻击检测方法, 它利用后门触发器在语义破坏扰动下的异常标签稳定性与在语义保持扰动下的异常标签脆弱性这一双重异常特性. 该方法通过两个互补的扰动分支对测试样本进行分析, 并使用在良性参考上训练的一类异常检测器对稳定性特征进行评分, 最终通过无监督加权融合两个分数, 在多种攻击和场景下实现了高检测性能.

Discovery of Bimodal Drift Rate Structure in FRB 20240114A: Evidence for Dual Emission Regions

Santosh Arron

astro-ph.HE cs.AI

本文利用无监督机器学习方法分析了FRB 20240114A的快速射电暴数据, 发现了向上漂移暴簇的漂移率分布具有双峰结构. 这一结果为该重复暴的磁层内可能存在两个空间分离的发射区域提供了初步证据.

Transfer Learning for Contextual Joint Assortment-Pricing under Cross-Market Heterogeneity

Elynn Chen, Xi Chen, Yi Zhang

stat.ME cs.LG

本文研究了跨市场异质性下的上下文联合品类定价问题, 提出了一种结合去偏估计与UCB策略的迁移学习框架. 该框架通过构建双半径置信界来分离统计不确定性与迁移偏差, 并在数值实验中验证了其优于仅使用目标市场数据或简单数据池化的方法.

Intellectual Stewardship: Re-adapting Human Minds for Creative Knowledge Work in the Age of AI

Jianwei Zhang

cs.CY cs.AI

本文提出了一个名为"intellectual stewardship"的概念框架, 旨在为AI时代的人类创造性知识工作提供指导. 该框架基于学习与知识创造理论, 强调了人类在分布式认知系统中作为负责任管理者的角色.

Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models

Yuhao Dong et al.

cs.CV cs.AI cs.LG

本文提出了一个名为Insight-V++的多智能体视觉推理框架, 旨在提升多模态大语言模型(MLLMs)在图像和视频领域的复杂长链推理能力. 该框架通过可扩展的数据生成管道和创新的训练算法(如ST-GRPO和J-GRPO)来优化模型性能, 并在多个基准测试上取得了显著提升.

MAED: Mathematical Activation Error Detection for Mitigating Physical Fault Attacks in DNN Inference

Kasra Ahmadi et al.

cs.CR cs.LG

本文提出了一种名为MAED的算法级错误检测框架, 用于在运行时验证深度神经网络中非线性激活函数(如ReLU, sigmoid, tanh)计算的正确性, 以防御嵌入式系统中的物理故障攻击和自然故障. 通过在FPGA和微控制器上的实现评估, 该方案在保持低开销(微控制器上时钟周期开销<1%, FPGA上面积开销近乎为零)的同时, 实现了接近100%的错误检测率.

Understanding Task Aggregation for Generalizable Ultrasound Foundation Models

Fangyijie Wang et al.

eess.IV cs.AI

本文通过系统分析超声影像任务联合学习的效果, 提出了任务聚合的实用准则. 研究指出, 聚合策略的有效性高度依赖于训练数据规模, 并开发了M2DINO框架进行验证.

Final Report for the Workshop on Robotics & AI in Medicine

Juan P Wachs

cs.RO cs.AI

本文是一份关于医学领域机器人学与人工智能研讨会的最终报告。报告总结了会议讨论的关键议题，包括数据、评估、监管和培训方面的挑战，并强调了建立国家级卓越中心的必要性。

Towards sample-optimal learning of bosonic Gaussian quantum states

Senrui Chen et al.

quant-ph cs.IT cs.LG math-ph

本文研究了学习未知 bosonic Gaussian state 所需的样本复杂度。对于 Gaussian measurements，证明了 $\Omega(n^3/\varepsilon^2)$ 的下界，与已知上界接近；对于任意测量，给出了 $\Omega(n^2/\varepsilon^2)$ 的下界。此外，对于纯态或 passive 态，给出了 $\widetilde{O}(n^2/\varepsilon^2)$ 的上界，并讨论了不同测量策略的必要性。

ResNets of All Shapes and Sizes: Convergence of Training Dynamics in the Large-scale Limit

Louis-Pierre Chaintron, Lénaïc Chizat, Javier Maas

stat.ML cs.LG

本文研究了残差神经网络(ResNets)在深度$L$、隐藏层宽度$M$和嵌入维度$D$同时趋于无穷大时的训练动力学收敛性。作者证明了在有限训练步数后，网络与其极限之间的误差为$O(1/L + \sqrt{D/(L M)} + 1/\sqrt{D})$，并指出该误差界在参数预算$P = \Theta(L M D)$下可达到$O(P^{-1/6})$的收敛速率。

VLM-AutoDrive: Post-Training Vision-Language Models for Safety-Critical Autonomous Driving Events

Mohammad Qazim Bhat et al.

cs.CV cs.AI

本文提出了一个名为VLM-AutoDrive的模块化后训练框架，用于将预训练的Vision-Language Models (VLMs)适配到自动驾驶中的安全关键事件检测任务。该方法通过整合多种监督信号显著提升了在真实世界行车记录仪视频上的碰撞检测性能。

Starting Off on the Wrong Foot: Pitfalls in Data Preparation

Jiayi Guo, Panyi Dong, Zhiyu Quan

stat.ML cs.LG stat.AP

本文针对保险损失数据建模中传统数据准备流程的缺陷, 提出了一个结合 support points 和 Chatterjee correlation coefficient 的改进框架, 并集成到自动化流程中. 实验表明该方法能提升模型稳健性并降低计算成本.

Retrieval-Augmented LLMs for Security Incident Analysis

Xavier Cadet et al.

cs.CR cs.AI

本文提出了一种基于RAG的系统，用于网络安全事件分析。该系统结合了基于查询的过滤和LLM语义推理，在恶意软件流量和Active Directory攻击场景中进行了评估，结果表明其能有效识别攻击步骤，且RAG架构对于获取关键上下文至关重要。

Tackling the Sign Problem in the Doped Hubbard Model with Normalizing Flows

Dominic Schuh et al.

cond-mat.str-el cs.LG hep-lat

本文提出了一种结合 annealing scheme 与 normalizing flows 的方法, 用于缓解 doped Hubbard model 在 auxiliary-field formulation 中的 sign problem 和 ergodicity 问题. 与 charge basis 下的 hybrid Monte Carlo 相比, 该方法能更准确地复现 exact diagonalization 结果并显著降低统计误差.

A Hybrid Conditional Diffusion-DeepONet Framework for High-Fidelity Stress Prediction in Hyperelastic Materials

Purna Vindhya Kota et al.

stat.ML cs.LG

本文提出了一种混合条件扩散-DeepONet框架, 用于预测超弹性材料中的高保真应力场. 该框架将应力形态与幅值解耦, 分别用条件扩散模型生成归一化应力场, 用改进的DeepONet预测全局缩放参数, 从而在包含多边形孔洞的非线性超弹性数据集上取得了优于基准模型的结果.

Impact of automatic speech recognition quality on Alzheimer's disease detection from spontaneous speech: a reproducible benchmark study with lexical modeling and statistical validation

Himadri Samanta

q-bio.QM cs.CL cs.LG

本文研究了自动语音识别质量对基于自发语音的阿尔茨海默病检测的影响. 通过使用Whisper ASR转录本和可解释的机器学习模型进行实验, 发现转录质量对分类性能有显著影响, 而模型复杂度的影响相对较小.

LRConv-NeRV: Low Rank Convolution for Efficient Neural Video Compression

Tamer Shanableh

cs.CV cs.AI

本文提出了一种高效的神经视频压缩方法LRConv-NeRV, 通过用低秩可分离卷积替换部分标准卷积层来降低计算和内存开销. 实验表明该方法能在保持重建质量的同时显著减少模型复杂度和比特率.

Turnpike with Uncertain Measurements: Triangle-Equality ILP with a Deterministic Recovery Guarantee

C. S. Elder, Guillaume Marçais, Carl Kingsford

cs.CG cs.DS math.OC

本文研究了带不确定测量的Turnpike问题, 即从带噪声和舍入的未标记成对距离多重集中重建一维点集. 作者给出了一个基于三角等式的组合可实现性刻画, 并导出了一个基于该等式的整数线性规划(ILP)及其线性规划(LP)松弛. 在有界噪声和舍入条件下, 作者证明了一个确定性分离条件, 可保证精确恢复关键组合结构.

Offload or Overload: A Platform Measurement Study of Mobile Robotic Manipulation Workloads

Sara Pohland et al.

cs.RO cs.AI cs.NI eess.SY

本文对移动机器人操作任务在不同计算平台上的负载进行了测量研究. 研究发现, 完全在板载GPU上运行计算开销巨大, 而将计算卸载到边缘或云端则会引入网络延迟和带宽问题.

Sparse3DTrack: Monocular 3D Object Tracking Using Sparse Supervision

Nikhil Gosala et al.

cs.RO cs.AI cs.CV

本文提出了一种用于单目3D物体跟踪的稀疏监督框架Sparse3DTrack. 该方法将任务分解为2D查询匹配和3D几何估计两个子问题, 利用时空一致性从稀疏标注生成密集的伪标签, 从而在KITTI和nuScenes数据集上显著提升了跟踪性能.

Auditing Preferences for Brands and Cultures in LLMs

Jasmine Rienecker et al.

cs.HC cs.AI cs.CY cs.IR cs.LG

本文提出了一个名为ChoiceEval的可复现框架，用于审计大型语言模型(LLM)在现实使用条件下对品牌和文化的偏好。该框架通过生成多样化的用户画像提示词，并将模型自由形式的输出转化为可比较的选择集与量化指标，从而系统性地评估模型的偏好与地理偏见。应用该框架对多个主流LLM的测试揭示了其输出中存在一致的地理偏好模式。

Fast and Generalizable NeRF Architecture Selection for Satellite Scene Reconstruction

Devjyoti Chakraborty et al.

cs.CV cs.LG

本文提出了一种名为PreSCAN的预测框架, 用于在训练前快速评估NeRF在卫星场景重建中的性能. 该方法利用轻量级的几何和光度描述符来预测重建质量, 从而在短时间内选择合适的架构, 显著提升了部署效率.

DriveVLM-RL: Neuroscience-Inspired Reinforcement Learning with Vision-Language Models for Safe and Deployable Autonomous Driving

Zilin Huang et al.

cs.RO cs.AI cs.CV

本文提出了一种结合vision-language models与reinforcement learning的自动驾驶框架DriveVLM-RL. 该框架通过双通路架构进行语义奖励学习, 并在离线训练后移除VLM以保证实时性, 在仿真中提升了安全性与泛化能力.

Can LLMs Reason Like Automated Theorem Provers for Rust Verification? VCoT-Bench: Evaluating via Verification Chain of Thought

Zichen Xie, Wenxi Wang

cs.SE cs.AI cs.LG

本文提出了VCoT-Lift框架和VCoT-Bench基准，用于评估大型语言模型在Rust程序验证中的推理能力。研究发现现有模型在细粒度验证任务上表现脆弱，与自动化定理证明器的能力存在差距。

Shifting Uncertainty to Critical Moments: Towards Reliable Uncertainty Quantification for VLA Model

Yanchuan Tang et al.

cs.RO cs.AI cs.LG

本文针对Vision-Language-Action (VLA)模型在连续控制中不确定性量化不可靠的问题, 提出了一种统一的预测方法. 该方法通过滑动窗口最大池化, 运动感知加权和基于贝叶斯优化的自适应校准来捕捉瞬态风险信号, 在LIBERO基准测试中提升了故障预测的准确性.

HRI-SA: A Multimodal Dataset for Online Assessment of Human Situational Awareness during Remote Human-Robot Teaming

Hashini Senaratne et al.

cs.RO cs.HC cs.LG cs.MA

本文介绍了HRI-SA, 一个用于评估人机协作中人类情境感知(SA)的多模态数据集. 该数据集包含眼动, 生理信号等多种数据, 并展示了利用眼动特征检测SA延迟的潜力.

To See or To Please: Uncovering Visual Sycophancy and Split Beliefs in VLMs

Rui Hong, Shuxue Quan

cs.CV cs.AI

本文提出了一个Tri-Layer Diagnostic Framework，用于诊断视觉语言模型(VLMs)在回答问题时是否真正依赖视觉信息。研究发现，大部分样本存在Visual Sycophancy现象，即模型虽然感知到视觉异常，但仍会迎合用户指令产生幻觉。模型规模的增大并不能解决这一视觉基础问题。

PlanTwin: Privacy-Preserving Planning Abstractions for Cloud-Assisted LLM Agents

Guangsheng Yu et al.

cs.CR cs.AI cs.ET

本文提出了一种名为PlanTwin的隐私保护架构，用于云辅助的LLM智能体规划。该架构通过创建一个规划导向的数字孪生（一种经过模式约束和去标识化的抽象图）来隐藏原始本地环境状态，从而在保护隐私的同时维持规划能力。

Evolutionarily Stable Stackelberg Equilibrium

Sam Ganzfried

cs.GT cs.AI cs.MA econ.TH q-bio.PE

本文提出了一个名为evolutionarily stable Stackelberg equilibrium (SESS)的新解概念, 用于研究存在单一领导者和对称跟随者种群的Stackelberg演化博弈. 作者考虑了在诱导子博弈中跟随者种群采用evolutionarily stable strategy (ESS)的情形, 并给出了离散与连续博弈中计算SESS的算法.

An SO(3)-equivariant reciprocal-space neural potential for long-range interactions

Linfeng Zhang et al.

physics.chem-ph cs.AI

本文提出了一种名为EquiEwald的SO(3)-equivariant神经原子间势，用于处理长程相互作用。它将Ewald求和方法中的倒空间思想与等变神经网络框架相结合，旨在保持物理一致性的同时捕捉各向异性的长程关联。

Multi-Domain Causal Empirical Bayes Under Linear Mixing

Bohan Wu, Julius von Kügelgen, David M. Blei

stat.ML cs.LG stat.ME

本文提出了一种基于 empirical Bayes 的算法，用于从多领域数据中学习因果表示。该方法在线性测量模型和已知干预目标的设定下，通过利用领域内和领域间的不变结构来改进估计。

Statistical Testing Framework for Clustering Pipelines by Selective Inference

Yugo Miyata et al.

stat.ML cs.LG

本文提出了一个基于选择性推断的统计测试框架, 用于评估聚类分析流程结果的统计显著性. 该框架通过系统性地构建假设检验, 旨在控制第一类错误率, 并在合成与真实数据集上验证了其有效性.

The Spillover Effects of Peer AI Rinsing on Corporate Green Innovation

Li Wenxiu et al.

cs.CY cs.AI

本文利用大语言模型对A股上市公司年报进行语义分析, 研究了"AI washing"行为对企业绿色创新的影响. 研究发现该行为对绿色创新存在挤出效应, 并通过产品与资本市场双重渠道传导, 且效应在不同企业与行业间存在异质性.

Mind the Rarities: Can Rare Skin Diseases Be Reliably Diagnosed via Diagnostic Reasoning?

Yang Liu et al.

cs.CV cs.AI

本文构建了一个用于评估大型视觉-语言模型在罕见皮肤病诊断推理能力上的长上下文基准数据集 DermCase. 该研究揭示了当前模型在诊断准确性、鉴别诊断和临床推理方面存在显著缺陷, 并发现指令微调能有效提升性能.

The Impact of Corporate AI Washing on Farmers' Digital Financial Behavior Response -- An Analysis from the Perspective of Digital Financial Exclusion

Li Wenxiu et al.

cs.CY cs.AI

本文基于CHFS2019数据与金融科技公司AI投资数据构建了企业层面的AI washing指数, 分析了其对农民数字金融行为反应的影响. 研究发现, AI washing会显著抑制农民的数字金融行为, 并通过加剧知识排斥与风险排斥间接产生影响, 而社会资本可以正向调节这一负面效应.

R&D: Balancing Reliability and Diversity in Synthetic Data Augmentation for Semantic Segmentation

Huy Che, Dinh-Duy Phan, Duc-Khai Lam

cs.CV cs.AI

本文提出了一种结合可控扩散模型的合成数据增强方法, 用于语义分割任务. 该方法通过平衡数据的多样性与可靠性, 提升了模型在数据稀缺场景下的性能.

SODIUM: From Open Web Data to Queryable Databases

Chuxuan Hu et al.

cs.DB cs.AI cs.CL cs.CV cs.IR

本文提出了SODIUM任务, 旨在将开放网络数据转化为可查询的数据库, 并构建了相应的基准测试SODIUM-Bench. 作者开发了一个名为SODIUM-Agent的多智能体系统, 通过深度网络探索和结构化信息提取, 在该基准上取得了显著优于现有基线的性能.

Interpretable Prostate Cancer Detection using a Small Cohort of MRI Images

Vahid Monfared et al.

cs.CV cs.AI

本文针对前列腺癌检测任务, 在仅使用162张T2加权MRI图像的小数据集上, 系统比较了Vision Transformers, CNNs以及传统机器学习方法(如HOG+SVM)的性能. 研究发现, 基于迁移学习的ResNet18模型取得了最佳性能, 而手工特征方法也表现出相当的竞争力. 该方法仅使用单一模态图像, 在降低数据采集复杂性的同时, 其AI模型的敏感性在读者研究中显著高于放射科医生的平均水平.

Do Vision Language Models Understand Human Engagement in Games?

Ziyi Wang et al.

cs.CV cs.AI cs.HC

本文评估了vision-language models (VLMs) 在从游戏视频中推断玩家engagement (投入度) 的能力。研究发现，即使采用多种提示策略，VLMs的预测效果普遍较弱，难以超越简单的基准模型，表明其在理解人类心理状态方面存在局限。

T-QPM: Enabling Temporal Out-Of-Distribution Detection and Domain Generalization for Vision-Language Models in Open-World

Aditi Naiknaware, Salimeh Sekeh

cs.CV cs.LG

本文提出了一种名为T-QPM的框架, 用于增强视觉语言模型在动态开放世界中的时序分布外检测和协变量分布偏移鲁棒性. 该方法通过引入跨模态一致性模式和轻量级融合权重学习, 改进了现有静态方法的不足.

Precise Performance of Linear Denoisers in the Proportional Regime

Reza Ghane, Danil Akhtiamov, Babak Hassibi

stat.ML cs.LG math.OC

本文研究了在未知数据协方差情况下，线性降噪器的性能。通过使用与真实噪声不同的协方差注入合成噪声来训练线性降噪器，并在比例极限下分析了其泛化误差。数值模拟表明该方法优于经验维纳滤波器。

FILT3R: Latent State Adaptive Kalman Filter for Streaming 3D Reconstruction

Seonghyun Jin, Jong Chul Ye

cs.CV cs.AI cs.LG

本文提出了一种名为FILT3R的训练无关潜在滤波层，用于流式3D重建任务。该方法将循环状态更新建模为token空间中的随机状态估计，通过在线估计过程噪声来自适应地平衡历史记忆与新观测。

Efficient Video Diffusion with Sparse Information Transmission for Video Compression

Mingde Zhou, Zheng Chen, Yulun Zhang

cs.CV cs.AI

本文提出了一种用于视频压缩的Diff-SIT方法，它通过稀疏编码和一步扩散模型来提升超低码率下的重建质量与时间一致性。

Foundations and Architectures of Artificial Intelligence for Motor Insurance

Teerapong Panboonyuen

cs.CV cs.AI

本文系统性地阐述了面向车险的人工智能基础与架构, 提出了一种垂直整合的AI范式, 将感知、多模态推理与生产基础设施统一为用于风险评估与理赔处理的智能栈. 其核心是开发了针对结构化视觉理解、关系型车辆表示学习及多模态文档智能的领域自适应transformer架构, 以实现端到端的工作流自动化.

CAFlow: Adaptive-Depth Single-Step Flow Matching for Efficient Histopathology Super-Resolution

Elad Yoshai, Ariel D. Yoshai, Natan T. Shaked

cs.CV cs.AI

本文提出了一种用于组织病理学图像超分辨率的高效自适应深度单步流匹配框架CAFlow. 该方法通过自适应路由机制, 在保持重建质量的同时显著降低了计算开销.

On the Peril of (Even a Little) Nonstationarity in Satisficing Regret Minimization

Yixuan Zhang, Ruihao Zhu, Qiaomin Xie

stat.ML cs.LG

本文研究了非平稳$K$-臂赌博机中的满意遗憾界。结果表明，在分段平稳设定下，即使只有两个平稳片段，最优遗憾也会随$T$对数增长，这与完全平稳情况下的常数遗憾形成鲜明对比。作者通过构建一种新颖的基于Fano不等式的分析框架来证明这一下界。

Counting Circuits: Mechanistic Interpretability of Visual Reasoning in Large Vision-Language Models

Liwei Che et al.

cs.CV cs.AI

本文研究了大型视觉语言模型(LVLM)中的计数机制, 提出并应用了Visual Activation Patching和HeadLens两种新的可解释性方法, 揭示了模型内部存在一个结构化的“计数电路”. 基于此发现, 作者提出了一种轻量级的干预策略, 通过仅对计数任务进行微调, 不仅提升了计数性能, 还泛化到了更复杂的视觉推理任务上.

Scaling Sim-to-Real Reinforcement Learning for Robot VLAs with Generative 3D Worlds

Andrew Choi et al.

cs.RO cs.AI cs.LG

本文提出了一种利用生成式3D世界模型来扩展机器人视觉-语言-动作模型的仿真到真实强化学习的方法. 该方法通过语言驱动的场景设计生成大量多样化的交互场景, 在提升仿真性能的同时, 结合领域随机化实现了成功的sim-to-real迁移.

iSatCR: Graph-Empowered Joint Onboard Computing and Routing for LEO Data Delivery

Jiangtao Luo et al.

cs.NI cs.LG

本文提出了一种名为iSatCR的分布式图方法, 用于联合优化低地球轨道(LEO)卫星网络中的星上计算与数据路由. 该方法利用图嵌入和深度强化学习来处理网络的动态性与复杂性, 实验表明其在高负载下能提升传输效率.

SCISSR: Scribble-Conditioned Interactive Surgical Segmentation and Refinement

Haonan Ping et al.

eess.IV cs.AI cs.CV

本文提出了一种基于涂鸦提示的交互式手术场景分割框架SCISSR. 该框架通过轻量级的Scribble Encoder将涂鸦转换为密集提示嵌入, 并支持通过绘制修正笔画进行迭代优化, 在多个手术数据集上超越了基于点的交互方法.

CoDA: Exploring Chain-of-Distribution Attacks and Post-Hoc Token-Space Repair for Medical Vision-Language Models

Xiang Chen et al.

cs.CV cs.AI

本文提出了一个名为CoDA的链式分布攻击框架, 用于评估医学视觉-语言模型(MVLMs)在模拟临床成像流程扰动下的鲁棒性. 研究发现, 这种复合扰动能显著降低模型的零样本性能, 并揭示了现有模型在医学图像质量审核方面的缺陷. 作者还提出了一种基于token空间适配的后修复策略来提升鲁棒性.

Learning Decision-Sufficient Representations for Linear Optimization

Yuhan Ye, Saurabh Amin, Asuman Ozdauglar

math.OC cs.CC cs.LG

本文研究了线性优化中决策充分表示的学习问题. 针对成本向量未知的线性规划, 作者引入了点态充分性这一松弛概念, 并设计了多项式时间算法来构建满足该性质的压缩数据集. 在数据驱动的设定下, 该压缩方案具有分布无关的 PAC 泛化保证.

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Dan Ben-Ami et al.

cs.CV cs.AI

本文提出了一种用于长视频问答的层级多模态帧选择框架HiMu. 该方法通过一个文本LLM将查询分解为逻辑树, 并利用轻量级专家模型处理视觉和音频信号, 最后通过模糊逻辑合成结果. 实验表明其在效率和准确性上优于现有方法.

CausalVAD: De-confounding End-to-End Autonomous Driving via Causal Intervention

Jiacheng Tang et al.

cs.CV cs.LG

本文提出了一个名为CausalVAD的去混淆训练框架，通过因果干预来解决端到端自动驾驶模型中的因果混淆问题。该方法设计了一个稀疏因果干预方案，以消除混杂因素导致的虚假关联，并在nuScenes等基准测试中展现了优越的规划准确性和鲁棒性。

WarPGNN: A Parametric Thermal Warpage Analysis Framework with Physics-aware Graph Neural Network

Haotian Lu et al.

cs.AR cs.LG eess.SY

本文提出了一种基于Graph Neural Networks (GNNs)的框架WarPGNN，用于快速预测复杂芯片封装系统中的热致翘曲。该方法通过将布局图编码为图结构，并利用改进的图卷积网络进行特征提取与重建，在保证精度的同时实现了远超传统有限元方法的计算速度。

myMNIST: Benchmark of PETNN, KAN, and Classical Deep Learning Models for Burmese Handwritten Digit Recognition

Ye Kyaw Thu, Thazin Myint Oo, Thepchai Supnithi

cs.CV cs.AI cs.CL

本文在myMNIST数据集上系统评估了包括经典深度学习模型、KAN变体、基于能量的模型JEM以及物理启发的PETNN在内的多种架构。结果表明，CNN模型取得了最佳性能，而PETNN(GELU)紧随其后，表现优于LSTM、GRU、Transformer和KAN等模型。该研究为缅甸手写数字识别建立了可复现的基准，并比较了不同建模范式的性能。

AutORAN: LLM-driven Natural Language Programming for Agile xApp Development

Xin Li et al.

cs.NI cs.AI

本文提出了一个名为AutORAN的LLM驱动框架, 旨在通过自然语言编程实现xApp的快速开发. 该框架自动化了从需求获取到部署的整个流程, 显著缩短了开发周期.

Cyber-Resilient Digital Twins: Discriminating Attacks for Safe Critical Infrastructure Control

Mohammadhossein Homaei et al.

cs.CR cs.LG

本文提出了一种结合了hydraulically-regularized predictive modelling, multi-class attack discrimination和adaptive resilient control的智能数字孪生框架i-SDT, 用于提升工业信息物理系统的网络弹性. 在SWaT和WADI数据集上的评估表明, 该方法在检测精度、误报率和运行成本方面均有显著改善.

OpenT2M: No-frill Motion Generation with Open-source,Large-scale, High-quality Data

Bin Cao et al.

cs.CV cs.AI

本文提出了一个大规模、高质量的开源文本到运动(Text-to-motion, T2M)数据集OpenT2M，并基于此开发了一个无需复杂设计的预训练运动模型MonoFrill。该模型的核心是一个新颖的2D-PRQ运动分词器，实验表明其在重建和零样本性能上表现优异。

REST: Receding Horizon Explorative Steiner Tree for Zero-Shot Object-Goal Navigation

Shuqi Xiao et al.

cs.RO cs.AI cs.CV

本文提出了一种用于零样本目标导航的免训练框架REST, 它将选项空间构建为一棵路径树, 并通过基于采样的规划和大语言模型推理来选择最佳路径. 该方法在多个基准测试中实现了较高的成功率和路径效率.

SwiftGS: Episodic Priors for Immediate Satellite Surface Recovery

Rong Fu et al.

cs.CV cs.LG

本文提出了一种名为SwiftGS的元学习系统, 用于从多时相卫星图像进行快速大规模3D重建. 该系统通过单次前向传播预测解耦的几何-辐射高斯基元与轻量级SDF, 避免了昂贵的逐场景优化.

MOSAIC: Multi-Objective Slice-Aware Iterative Curation for Alignment

Yipu Dou, Wang Yang

cs.CR cs.CL

本文提出了MOSAIC, 一个用于平衡多目标对齐任务的闭环数据混合搜索框架. 该方法通过将评估失败模式转化为数据操作, 在固定预算下优化了模型的安全性和能力.

A Theoretical Comparison of No-U-Turn Sampler Variants: Necessary and Su?cient Convergence Conditions and Mixing Time Analysis under Gaussian Targets

Samuel Gruffaz et al.

stat.ML cs.LG math.PR

本文对No-U-Turn Sampler (NUTS)的两个主要变体NUTS-mul和NUTS-BPS进行了理论比较. 在标准高斯分布下, 分析了它们的几何遍历性条件与混合时间.

Beyond TVLA: Anderson-Darling Leakage Assessment for Neural Network Side-Channel Leakage Detection

Ján Mikulec, Jakub Breier, Xiaolu Hou

cs.CR cs.AI

本文提出了一种基于Anderson-Darling检验的侧信道泄漏评估框架ADLA，以弥补传统TVLA方法在检测高阶分布差异时的不足。该方法在受保护的神经网络实现上，能以更少的迹数提供更高的泄漏检测灵敏度。

Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation

Pius Horn, Janis Keuper

cs.CV cs.AI cs.IR

本文提出了一个基于LLM语义评估的PDF表格提取基准测试框架, 使用合成PDF和arXiv表格进行测试. 该方法通过LLM作为评判者来评估表格语义等价性, 并与传统基于规则的指标进行了对比, 为选择表格提取工具提供了实用指导.

Multiscale Switch for Semi-Supervised and Contrastive Learning in Medical Ultrasound Image Segmentation

Jingguo Qu et al.

cs.CV cs.AI

本文提出了一种名为Switch的半监督学习框架, 用于医学超声图像分割. 该方法通过多尺度混合和频域对比学习来利用未标记数据, 在多个数据集上取得了优于现有方法的结果.

Complexity of Auctions with Interdependence

Patrick Loiseau, Simon Mauras, Minrui Xu

cs.GT cs.CC cs.DS

本文研究了在Milgrom-Weber相互依赖模型下，最大化分配价值或最小化分配成本的拍卖机制设计问题。作者移除了以往研究中常见的定义域限制和估值函数单调性假设，探讨了在确定性和随机性设置下，优化诚实机制近似比的一般计算问题。研究为一些可处理的特殊情况提供了高效算法和刻画，并对一般情况给出了查询复杂度下界和NP-hardness证明。

Cognitive Amplification vs Cognitive Delegation in Human-AI Systems: A Metric Framework

Eduardo Di Santi

cs.HC cs.AI cs.CY

本文提出了一个用于区分人机系统中认知增强与认知委托的概念与数学框架. 它定义了一系列操作指标, 如认知增强指数和依赖比率, 以评估系统性能是否具有协同性以及对人类认知的长期可持续性. 作者主张在设计人机系统时应考虑认知可持续性约束.

Words at Play: Benchmarking Audio Pun Understanding in Large Audio-Language Models

Yuchen Su et al.

cs.SD cs.CL

本文提出了首个用于评估大型音频语言模型在音频双关语理解上的基准APUN-Bench。该基准包含超过4千个音频样本，并评估了10个先进模型，揭示了它们在识别、定位和解释音频双关语方面的显著性能差距。

Holter-to-Sleep: AI-Enabled Repurposing of Single-Lead ECG for Sleep Phenotyping

Donglin Xie et al.

eess.SP cs.LG

本文提出了一种名为"Holter-to-Sleep"的概念验证框架，利用单导联ECG信号同时进行睡眠表型分析和心脏表型分析。该框架在多个中心的数据集上进行了开发和验证，旨在为大规模心-睡眠关联研究提供一个可扩展的分析途径。

Ontology-Guided Diffusion for Zero-Shot Visual Sim2Real Transfer

Mohamed Youssef et al.

cs.CV cs.AI

本文提出了一种名为Ontology-Guided Diffusion (OGD)的零样本sim2real图像翻译框架。该方法将真实感分解为可解释特征的ontology，并利用知识图谱和符号规划来指导扩散模型生成更真实的图像。

Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review

Dimitris Mitropoulos et al.

cs.SE cs.AI cs.CR

本文研究了在基于LLM的代码安全审查中, confirmation bias (确认偏差) 的存在及其可被利用性. 通过两项实验, 量化了提示词框架对漏洞检测率的影响, 并展示了在类似实际攻击场景中, 该偏差可被用于绕过AI辅助工具的安全审查.

WeNLEX: Weakly Supervised Natural Language Explanations for Multilabel Chest X-ray Classification

Isabel Rio-Torto, Jaime S. Cardoso, Luís F. Teixeira

cs.CV cs.AI

本文提出了一种用于多标签胸部X光分类的弱监督自然语言解释生成模型WeNLEX. 该模型通过特征空间图像匹配确保解释的忠实性, 并利用少量标注数据进行分布对齐以保持合理性. 实验表明, 该模型能以极少的标注数据生成忠实且合理的解释, 并能提升分类器性能.

ClawTrap: A MITM-Based Red-Teaming Framework for Real-World OpenClaw Security Evaluation

Haochen Zhao, Shaoyang Cui

cs.CR cs.AI

本文提出了一个名为ClawTrap的中间人攻击框架，用于在真实网络环境中评估OpenClaw等自主网络代理的安全性。该框架支持多种可定制的攻击形式，并通过实验揭示了不同能力模型在面对网络层攻击时的安全性差异。

SRRM: Improving Recursive Transport Surrogates in the Small-Discrepancy Regime

Yufei Zhang, Tao Wang, Jingyi Zhang

stat.ML cs.LG stat.AP

本文针对递归划分方法在Wasserstein距离近似中的统计行为和在小差异区域的分辨率问题进行了研究. 作者分析了Recursive Rank Matching (RRM)方法, 并提出了改进的Selective Recursive Rank Matching (SRRM)以提高保真度.

Points-to-3D: Structure-Aware 3D Generation with Point Cloud Priors

Jiatong Xia et al.

cs.CV cs.AI

本文提出了一种名为Points-to-3D的扩散模型框架，利用点云先验进行几何可控的3D生成。该方法通过结构修复网络和分阶段采样策略，在保持输入可见区域的同时完成全局几何结构，在物体和场景生成任务上取得了优于现有方法的效果。

Functional Subspace Watermarking for Large Language Models

Zikang Ding et al.

cs.CR cs.AI

本文提出了一种名为Functional Subspace Watermarking (FSW)的框架，用于增强大型语言模型(LLMs)所有权保护水印的鲁棒性。该方法通过将水印信号嵌入到一个低维的功能子空间中来抵抗模型微调、量化等参数扰动，并在实验中展现了优于现有方法的性能。

Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

Yuchen Li et al.

cs.CV cs.AI

本文提出了一种增强视觉语言模型空间感知能力的方法, 通过生成显式的空间token来辅助推理. 该方法在多个基准测试上取得了性能提升.

Central Triangulation under Parallel Flip Operations: The CG:SHOP Challenge 2026

Oswin Aichholzer et al.

cs.CG cs.DS

本文介绍了2026年计算几何挑战赛，其核心目标是寻找点集三角剖分中，在并行翻转操作下的中心三角剖分。该问题要求从一组给定的三角剖分中，找到一个能最小化到所有输入剖分的并行翻转距离之和的中心剖分。

Student views in AI Ethics and Social Impact

Tudor-Dan Mihoc, Manuela-Andreea Petrescu, Emilia-Loredana Pop

cs.CY cs.AI

本文通过问卷调查, 从性别视角研究了计算机科学专业学生对人工智能伦理与社会影响的看法. 调查结果显示, 学生对AI在医疗、教育等领域的日常影响有共识, 但在具体关注领域和伦理倾向上存在性别差异.

Agent Control Protocol: Admission Control for Agent Actions

Marcelo Fernandez

cs.CR cs.AI

本文提出了一个用于管理自主智能体在B2B机构环境中行为的正式技术规范，称为Agent Control Protocol (ACP)。它作为一个准入控制层，在智能体动作执行前进行密码学验证，确保身份、权限、委托链和策略合规性。

Model Order Reduction of Cerebrovascular Hemodynamics Using POD_Galerkin and Reservoir Computing_based Approach

Rahul Halder et al.

math.NA cs.LG

本文研究了脑血管系统非定常血流动力学的模型降阶策略, 对比了基于物理的侵入式方法和数据驱动的非侵入式框架. 通过使用POD-Galerkin和基于储层计算的POD方法, 在理想化的基底动脉分叉模型上实现了相对于全阶模拟$10^2$到$10^3$倍的计算加速.

Towards Interpretable Foundation Models for Retinal Fundus Images

Samuel Ofosu Mensah et al.

cs.CV cs.LG stat.CO

本文提出了一种用于视网膜眼底图像的可解释基础模型 Dual-IFM. 该模型通过类证据图和二维投影层分别提供局部和全局可解释性, 在保持与更大规模模型相当性能的同时, 增强了预测的可信度.

Learn for Variation: Variationally Guided AAV Trajectory Learning in Differentiable Environments

Xiucheng Wang, Zhenye Chen, Nan Cheng

eess.SY cs.LG

本文提出了一种名为L4V的梯度引导轨迹学习框架, 用于自主飞行器(AAV)在可微分环境中的轨迹规划. 该方法通过构建端到端的可微分计算图, 利用随时间反向传播来生成精确的策略梯度, 以替代传统强化学习中稀疏的标量奖励信号, 从而改善了训练稳定性与性能.

BeamAgent: LLM-Aided MIMO Beamforming with Decoupled Intent Parsing and Alternating Optimization for Joint Site Selection and Precoding

Xiucheng Wang, Yue Zhang, Nan Cheng

cs.IT cs.LG eess.SP eess.SY

本文提出了一个名为BeamAgent的框架, 将LLM作为语义解析器与数值优化器解耦, 用于联合基站选址和预编码设计. 它通过场景感知提示和多轮交互来提取空间约束, 并使用基于梯度的交替优化算法求解, 在仿真中取得了优于传统方法的性能.

Motion-o: Trajectory-Grounded Video Reasoning

Bishoy Galoaa et al.

cs.CV cs.AI

本文提出了一个专注于视频中物体运动轨迹推理的框架 Motion-o, 通过引入显式的轨迹标签和增强的训练数据来改进视觉语言模型在时空推理上的表现.

Data-driven construction of machine-learning-based interatomic potentials for gas-surface scattering dynamics: the case of NO on graphite

Samuel Del Fré et al.

physics.chem-ph cs.LG

本文提出了一种数据驱动的工作流, 用于构建适用于气体-表面散射动力学的机器学习原子间势. 以NO在石墨表面的散射为基准, 该方法通过描述符引导采样和主动学习, 高效地构建了高保真且计算成本低的势能模型, 并用于大规模分子动力学模拟以研究散射过程的多种物理量.

RadioDiff-FS: Physics-Informed Manifold Alignment in Few-Shot Diffusion Models for High-Fidelity Radio Map Construction

Xiucheng Wang, Zixuan Guo, Nan Cheng

eess.SY cs.LG

本文提出了一种用于高保真无线地图构建的小样本扩散模型框架 RadioDiff-FS。该框架通过理论分解将多径环境下的信号分解为主路径和稀疏残差，并引入方向一致性损失来约束模型更新，从而在仅有少量高保真样本的情况下，将预训练的主路径生成器适配到多径丰富的目标域。实验表明，该方法在静态和动态无线地图构建任务上均显著优于基线模型。

Through the Looking-Glass: AI-Mediated Video Communication Reduces Interpersonal Trust and Confidence in Judgments

Nelson Navajas Fernández, Jeffrey T. Hancock, Maurice Jakesch

cs.HC cs.AI cs.MM

本文通过两个在线实验研究了AI视频通信工具(如美颜, 背景替换和虚拟化身)对人际信任和判断信心的影响. 研究发现, AI介入会降低感知信任和判断信心, 但并未影响参与者辨别真伪的实际能力.

PromptHub: Enhancing Multi-Prompt Visual In-Context Learning with Locality-Aware Fusion, Concentration and Alignment

Tianci Luo et al.

cs.CV cs.LG

本文提出了一个名为PromptHub的框架, 旨在增强视觉上下文学习(VICL)中的多提示(prompt)融合能力. 该框架通过引入局部感知融合(locality-aware fusion), 集中(concentration)和对齐(alignment)等机制, 改进了传统的基于图像块(patch-wise)的融合方法, 并在多个基础视觉任务上验证了其有效性.

MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model

Youngwan Lee et al.

cs.CV cs.AI

本文提出了一个用于评估视觉语言模型多跳组合空间推理能力的基准 MultihopSpatial, 并引入了同时评估推理和视觉定位的新指标 Acc@50IoU. 作者还创建了一个大规模训练语料库, 并通过实验表明当前模型在此类任务上仍面临挑战.

From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making

Min Hun Lee

cs.HC cs.AI cs.LG

本文提出了一个以团队准备度为中心的人机决策评估框架, 包含结果、依赖行为、安全信号和随时间学习四个维度的度量分类法, 并将其与"理解-控制-改进"的人机协作生命周期联系起来. 该框架旨在通过交互痕迹而非模型属性或自我报告的信任来进行评估, 以支持更可比较的基准测试和更安全、更负责任的人机协作研究.

Translating MRI to PET through Conditional Diffusion Models with Enhanced Pathology Awareness

Yitong Li et al.

cs.CV cs.AI

本文提出了一种基于条件扩散模型的医学图像跨模态转换框架PASTA, 用于从MRI生成合成PET图像. 该方法通过双分支架构和多模态条件整合来增强对病理信息的感知能力, 并在阿尔茨海默病诊断任务上取得了接近真实PET的性能.

Act While Thinking: Accelerating LLM Agents via Pattern-Aware Speculative Tool Execution

Yifan Sui et al.

cs.DC cs.AI

本文提出了一种名为PASTE的方法, 旨在通过推测性工具执行来加速LLM智能体. 该方法利用智能体任务中可预测的控制流和数据依赖模式, 在LLM思考的同时并行执行工具调用, 从而显著降低了任务完成时间.

Security, privacy, and agentic AI in a regulatory view: From definitions and distinctions to provisions and reflections

Shiliang Zhang, Sabita Maharjan

cs.CR cs.AI cs.CY

本文通过分析2024至2025年间发布的24份欧盟AI监管文件，梳理了安全、隐私及智能体AI（agentic AI）的关键定义与监管条款。文章旨在澄清概念模糊性，并反思如何使监管规定更好地适应日益自主的AI系统。

Improving moment tensor solutions under Earth structure uncertainty with simulation-based inference

A. A. Saoulis, T.-S. Pham, A. M. G. Ferreira

physics.geo-ph cs.AI

本文提出了一种利用 simulation-based inference (SBI) 来处理地球结构不确定性对矩张量反演影响的方法. 该方法避免了传统高斯参数化假设的局限性, 并通过实际地震案例验证了其能产生更可靠的后验分布.

Kernel Single-Index Bandits: Estimation, Inference, and Learning

Sakshi Arya, Satarupa Bhattacharjee, Bharath K. Sriperumbudur

stat.ML cs.LG math.ST

本文研究了一种遵循 single-index 模型的上下文赌博机问题, 其中每个臂的奖励由一个臂特定的 index 参数和一个未知的非参数 link 函数决定. 作者提出了一种结合了 Stein 估计和逆概率加权核岭回归的算法, 并在自适应采样下建立了估计量的渐近正态性, 同时给出了有限时间的遗憾界.

Unified Taxonomy for Multivariate Time Series Anomaly Detection using Deep Learning

Bruna Alves, Armando J. Pinho, Sónia Gouveia

stat.ML cs.LG

本文提出了一种用于基于深度学习的多元时间序列异常检测(MTSAD)方法的统一分类法, 该分类法包含三个部分(输入, 输出和模型)下的十一个维度. 它通过分析现有方法学研究和综述论文来建立维度, 并使用近期出版物进行了验证, 揭示了该领域向Transformer以及重构与预测模型收敛的趋势. 此分类法旨在整合该领域的零散知识并为未来研究提供参考.

A conceptual framework for ideology beyond the left and right

Kenneth Joseph, Kim Williams, David Lazer

cs.CY cs.CL

本文提出了一个超越传统左右政治光谱的意识形态概念框架, 将意识形态视为一个多层次的、可归因的社会认知概念网络. 该框架旨在阐明意识形态在话语中的表现, 并连接计算方法和意识形态理论, 以丰富对社会话语的分析.

PRIOR: Perceptive Learning for Humanoid Locomotion with Reference Gait Priors

Chenxi Han et al.

cs.RO cs.AI

本文提出了一个名为PRIOR的框架，用于训练具有感知能力的人形机器人运动策略。该框架通过结合参数化步态生成器、基于GRU的状态估计器和地形自适应奖励，在复杂地形上实现了鲁棒的、类人的行走。

Revisiting OmniAnomaly for Anomaly Detection: performance metrics and comparison with PCA-based models

Bruna Alves et al.

stat.ML cs.LG

本文在Server Machine Dataset (SMD)上，使用相同的阈值设定和评估流程，系统性地比较了OmniAnomaly与基于PCA的线性基线模型在多元时间序列异常检测中的表现。结果表明，PCA模型可以达到与OmniAnomaly相当甚至在某些评估设置下更优的性能，这挑战了复杂深度学习模型在当前基准测试中的必要性，并凸显了评估方法学的重要性。

CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think

Zening Sun et al.

cs.CV cs.LG

本文提出了一种名为CRAFT的轻量级微调方法, 用于对齐Diffusion模型与人类偏好. 该方法通过复合奖励过滤技术构建高质量训练数据集, 并进行增强的监督微调, 在数据需求和计算效率上均优于现有方法.

Security awareness in LLM agents: the NDAI zone case

Enrico Bottazzi, Pia Park

cs.CR cs.AI

本文通过一个NDAI风格的协商任务, 研究了不同LLM模型在评估其执行环境安全性时如何权衡不同形式的证据. 实验发现, 模型能可靠地检测危险信号, 但无法可靠地验证安全, 这揭示了当前LLM代理在隐私保护协议应用中的一个关键能力缺口.

Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference

Pranay Anchuri et al.

cs.CR cs.LG

本文提出了一种用于验证云端AI模型推理的轻量级框架, 它基于对神经网络执行轨迹的随机采样检查, 而非完整的密码学证明. 该方法大幅降低了证明生成时间, 适用于大规模部署和审计场景, 并通过实验验证了其对抗规避策略的有效性.

SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

Quentin Guimard et al.

cs.CV cs.AI cs.LG

本文提出了一种名为Sparse Embedding Modulation (SEM)的后处理去偏方法, 用于减少视觉-语言模型(如CLIP)中的社会性和虚假偏见. 该方法在Sparse Autoencoder (SAE)的稀疏潜在空间中进行操作, 通过识别并调制与偏见相关的神经元, 在保持语义保真度的同时提升公平性.

Fast and Interpretable Autoregressive Estimation with Neural Network Backpropagation

Anaísa Lucena et al.

stat.ML cs.LG

本文提出了一种基于神经网络反向传播的自回归模型参数估计方法. 该方法将自回归结构嵌入前馈神经网络, 在保持模型可解释性的同时, 利用梯度下降进行快速估计. 实验表明, 该方法在估计成功率和计算速度上显著优于传统的条件最大似然估计.

Em-Garde: A Propose-Match Framework for Proactive Streaming Video Understanding

Yikai Zheng et al.

cs.CV cs.AI

本文提出了一个名为Em-Garde的框架，用于主动式流媒体视频理解。该框架将语义理解与流式感知解耦，通过指令引导的提议解析器和轻量级提议匹配模块来提高响应准确性和效率。

Hardness of High-Dimensional Linear Classification

Alexander Munteanu, Simon Omlor, Jeff M. Phillips

cs.CG cs.DS cs.LG stat.ML

本文通过从 Affine Degeneracy testing 和 $k$-Sum 问题的广泛被信服的困难性猜想出发进行归约，为高维线性分类中的 Maximum Halfspace Discrepancy 问题建立了新的指数级维度下界。这些下界填补了先前多项式下界与已知指数级上界之间的空白，为理解该问题的计算复杂性提供了更完整的图景。

CAMO: A Conditional Neural Solver for the Multi-objective Multiple Traveling Salesman Problem

Fengxiaoxiao Li et al.

cs.RO cs.AI

本文提出了一种名为CAMO的条件神经求解器, 用于解决多目标多旅行商问题(MOMTSP). 该方法通过条件编码器融合偏好向量, 并使用协作解码器自回归地构建多智能体路径, 在合成和真实机器人平台上均展现了优于传统启发式方法的性能.

SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues

Carlos Hinojosa, Clemens Grange, Bernard Ghanem

cs.CV cs.AI cs.CL cs.LG

本文研究了视觉语言模型(VLMs)在安全判断中对语义线索的敏感性. 通过引入语义引导框架和SAVeS基准, 实验表明模型的安全决策高度依赖学习到的视觉-语言关联, 而非基于场景的视觉理解, 这揭示了多模态安全系统的潜在脆弱性.

FedTrident: Resilient Road Condition Classification Against Poisoning Attacks in Federated Learning

Sheng Liu, Panos Papadimitratos

cs.CR cs.AI cs.DC cs.LG

本文提出了一种名为FedTrident的防御框架, 用于抵御联邦学习(Federated Learning)中针对路况分类(Road Condition Classification)的定向标签翻转攻击(Targeted Label-Flipping Attacks). 该框架通过神经元级别的异常检测, 自适应客户端评分以及机器学习遗忘(Machine Unlearning)等技术, 在多种攻击场景下提升了模型的鲁棒性.

CustomTex: High-fidelity Indoor Scene Texturing via Multi-Reference Customization

Weilin Chen et al.

cs.CV cs.AI

本文提出了一种名为CustomTex的框架, 用于通过参考图像进行高保真度的室内场景纹理定制. 该方法采用双重蒸馏策略, 在Variational Score Distillation (VSD)优化框架内, 分别处理语义控制和像素级增强, 以实现实例级别的纹理生成.

Fast and Effective Computation of Generalized Symmetric Matrix Factorization

Lei Yang et al.

math.OC cs.LG

本文针对一类广义对称矩阵分解模型, 提出了一个基于辅助变量分裂和平均型非单调线搜索的交替更新算法(A-NAUM). 该算法在温和条件下具有全局收敛性, 数值实验验证了其有效性.

Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation

Swagat Padhan et al.

cs.RO cs.AI cs.CL cs.CV cs.LG

本文提出了一个多智能体概率式 grounding 框架 MAPG, 用于解决机器人执行包含度量约束的自然语言指令时的 grounding 问题. 该方法通过分解查询并概率性地组合 grounding 结果, 在仿真和真实机器人实验中提升了性能.

ARIADNE: A Perception-Reasoning Synergy Framework for Trustworthy Coronary Angiography Analysis

Zhan Jin et al.

cs.CV cs.AI

本文提出了一个结合感知与推理的框架用于冠状动脉造影分析, 通过偏好对齐的感知模块和基于强化学习的诊断推理模块来提升血管分割的拓扑连贯性和狭窄检测的可靠性. 该方法在临床数据集上取得了先进的性能, 并展示了在多中心数据上的泛化能力.

How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

Ke-Han Lu et al.

eess.AS cs.CL cs.SD

本文通过构建听觉知识基准和对比不同LLM在纯文本与音频接地设置下的表现, 研究了LLM作为大型音频语言模型知识骨干时其听觉知识的来源与影响. 研究发现, 不同模型家族的听觉知识储备差异显著, 且纯文本评估结果与音频下游任务性能高度相关.

The Exponentially Weighted Signature

Alexandre Bloch et al.

stat.ML cs.LG

本文引入了Exponentially Weighted Signature (EWS), 将路径签名（signature）的指数衰减记忆推广到一般的线性算子, 从而允许跨通道耦合和更丰富的记忆动态. 该表示保持了经典签名的代数性质, 可视为受控微分方程的解, 并推广了状态空间模型及路径的Laplace与Fourier变换.

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Shang-Jui Ray Kuo, Paola Cascante-Bonilla

cs.CV cs.LG

本文评估了 state space model (SSM) 作为视觉编码器在大型视觉-语言模型 (VLM) 中的表现。研究发现，在匹配的初始化条件下，SSM 骨干网络在多项任务上表现优异，且模型规模更小，为视觉编码器的选择提供了新的选项。

$R$-equivalence on Cubic Surfaces I: Existing Cases with Non-Trivial Universal Equivalence

Dimitri Kanevsky, Julian Salazar, Matt Harvey

math.AG cs.AI cs.HC math.NT

本文研究了$p$-adic域上光滑三次曲面的$R$-等价问题。对于已知具有非平凡万有等价（universal equivalence）的曲面，作者证明了在2-adic情形下$R$-等价是平凡的或指数为2，并验证了Manin提出的一个具体对角三次曲面的平凡性。

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

Tianjiao Yu et al.

cs.CV cs.AI cs.LG

本文提出了DreamPartGen框架, 用于生成具有语义基础、部件感知的3D模型. 该框架通过协同潜在去噪过程, 联合建模部件的几何、外观及其语义关系, 在多个基准测试中实现了先进的性能.

DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

Dong Zhuo et al.

cs.CV cs.LG

本文提出了一种用于自动驾驶场景的3D多视角图像tokenization方法DriveTok. 该方法通过3D可变形交叉注意力将视觉基础模型提取的特征转换为场景tokens, 并利用多任务目标进行训练, 在多个下游任务上取得了良好效果.

Spectrally-Guided Diffusion Noise Schedules

Carlos Esteves, Ameesh Makadia

cs.CV cs.LG

本文提出了一种基于图像频谱特性为像素扩散模型设计逐实例噪声调度的方法, 通过理论推导最小和最大噪声水平的有效边界来设计"紧凑"的调度, 并在推理阶段进行条件采样. 实验表明该方法在低步数情况下提升了单阶段像素扩散模型的生成质量.

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Yogesh Agrawal et al.

cs.CE cs.AI cs.CL cs.IR q-fin.CP

本文提出了一个名为FinTradeBench的金融推理基准测试, 用于评估大型语言模型(LLMs)在结合公司基本面与交易信号进行决策时的能力. 该基准包含1,400个问题, 并评估了14个LLM在零样本提示和检索增强设置下的表现, 揭示了当前模型在数值和时间序列推理方面的挑战.

NavTrust: Benchmarking Trustworthiness for Embodied Navigation

Huaide Jiang et al.

cs.RO cs.AI cs.CV cs.LG eess.SY

本文提出了一个名为NavTrust的基准测试, 用于评估具身导航(embodied navigation)模型在输入模态(如RGB, depth, 指令)遭受现实世界干扰(corruption)下的鲁棒性. 该工作系统性地测试了多种先进模型, 揭示了它们在干扰下性能显著下降的问题, 并探索了提升鲁棒性的缓解策略.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.AI

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others