bluearXiv-ai - 2026-03-03

📄 所有论文 ↑ 回顶部

cs.LG

Spectral Condition for $μ$P under Width-Depth Scaling ⭐ 精选

Chenyu Zheng et al.

cs.LG stat.ML

本文提出了一个用于联合宽度-深度缩放的统一谱框架, 用于实现最大更新参数化($\mu$P). 作者首先为具有不同块深度的残差网络引入了一个谱$\mu$P条件, 该条件精确描述了权重及其每步更新的范数应如何随宽度和深度缩放, 从而将先前不同的$\mu$P公式统一为特例. 基于此条件, 作者推导出一个通用方案, 通过将谱约束映射到具体的超参数化设置, 从而在一大类优化器中实现$\mu$P. 该框架不仅恢复了现有的$\mu$P公式(例如用于SGD和AdamW), 还自然地扩展到更广泛的优化器, 实验表明其在宽度-深度缩放下能保持稳定的特征学习并实现鲁棒的超参数迁移.

Transit Network Design with Two-Level Demand Uncertainties: A Machine Learning and Contextual Stochastic Optimization Framework

Hongzhao Guan, Beste Basciftci, Pascal Van Hentenryck

cs.LG math.OC

本文提出了一个结合机器学习与上下文随机优化的双层需求不确定性公交网络设计框架(2LRC-TND). 该框架通过约束规划求解, 在亚特兰大地区的案例研究中进行了验证.

StaTS: Spectral Trajectory Schedule Learning for Adaptive Time Series Forecasting with Frequency Guided Denoiser

Jintao Zhang et al.

cs.LG cs.AI

本文提出了一种用于概率时间序列预测的扩散模型StaTS, 它通过交替更新学习噪声调度和去噪器. 模型包含一个具有谱正则化的自适应噪声调度器和一个利用估计的谱失真来调制去噪强度的频率引导去噪器, 在多个真实世界基准测试中取得了性能提升.

CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation

Jitian Zhao et al.

cs.LG cs.AI stat.ML

本文提出了CARE框架, 用于在存在共享潜在混淆因子(如冗长性、风格偏好等)的情况下, 对LLM评判者的评分进行更可靠的聚合. 该方法通过显式建模真实质量信号和混淆因子, 无需真实标签即可分离二者, 并在多个基准测试中提升了聚合准确性.

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

Peiyuan Zhang et al.

cs.LG cs.AI

本文提出了Attn-QAT, 一种用于稳定训练4-bit attention的量化感知训练方法. 它通过匹配前向与反向传播中的低精度计算并修正Flash Attention的梯度假设, 在扩散和语言模型中恢复了FP4量化带来的性能损失, 并实现了推理加速.

Econometric vs. Causal Structure-Learning for Time-Series Policy Decisions: Evidence from the UK COVID-19 Policies

Bruno Petrungaro, Anthony C. Constantinou

cs.LG cs.AI econ.EM stat.ME

本文比较了 econometric methods 与 causal machine learning algorithms 在时间序列数据上的因果发现性能, 并以英国 COVID-19 政策为例进行了实证分析. 研究发现, 计量经济学方法提供了清晰的时间结构规则, 而因果机器学习算法则通过探索更大的图结构空间来发现更广泛的因果关系.

Maximizing the Spectral Energy Gain in Sub-1-Bit LLMs via Latent Geometry Alignment

Banseok Lee, Youngmin Kim

cs.LG cs.AI

本文针对极端模型压缩中的 Spectral Energy Gain 现象, 提出 Latent Geometry Misalignment 是阻碍其实现的关键. 作者提出的 LittleBit-2 框架通过 Internal Latent Rotation 和 Joint-ITQ 方法对齐潜在几何, 在 sub-1-bit 压缩下达到了新的最优性能.

Reinforcement Learning for Control with Probabilistic Stability Guarantee: A Finite-Sample Approach

Minghao Han et al.

cs.LG cs.AI

本文提出了一种结合Lyapunov方法和有限样本数据为强化学习控制器提供概率稳定性保证的新框架. 通过推导一个概率稳定性定理, 该工作使得在模型未知的情况下, 仅利用有限条轨迹样本即可保证系统的均方稳定性, 并开发了相应的L-REINFORCE算法. 仿真实验验证了其在Cartpole任务中的有效性.

Property-Driven Evaluation of GNN Expressiveness at Scale: Datasets, Framework, and Study

Sicong Che et al.

cs.LG cs.AI cs.SE

本文提出了一种基于形式化规约的图神经网络表达能力评估方法, 并构建了包含两个数据集族的大规模基准. 通过一个通用评估框架, 研究了全局池化方法对表达能力的影响, 揭示了不同方法在泛化性、敏感性和鲁棒性之间的权衡.

Breaking the Factorization Barrier in Diffusion Language Models

Ian Li et al.

cs.LG cs.AI

本文提出了一种名为Coupled Discrete Diffusion (CoDD)的混合框架, 旨在解决扩散语言模型中的"因子化障碍". 该方法通过引入一个轻量级的概率推理层来建模token间的联合依赖, 从而在保持高效生成的同时提升文本的连贯性.

REMIND: Rethinking Medical High-Modality Learning under Missingness--A Long-Tailed Distribution Perspective

Chenwei Wu, Zitao Shuai, Liyue Shen

cs.LG cs.AI

本文针对医学多模态学习中高模态缺失导致的数据组合长尾分布问题, 提出了一个名为REMIND的统一框架. 该框架通过引入分组专家混合架构和分布鲁棒优化策略, 提升了模型在尾部模态组合上的性能, 并在真实医学数据集上验证了其有效性.

BiJEPA: Bi-directional Joint Embedding Predictive Architecture for Symmetric Representation Learning

Yongchao Huang

cs.LG

本文提出了一种双向联合嵌入预测架构(BiJEPA), 通过强制数据片段间的循环一致可预测性来学习对称表示. 该方法引入了一种关键的范数正则化机制来防止表示爆炸, 并在合成信号, 混沌系统和图像数据上验证了其稳定性和表示学习能力.

Knowledge-guided generative surrogate modeling for high-dimensional design optimization under scarce data

Bingran Wang et al.

cs.LG cs.AI

本文提出了一种名为RBF-Gen的知识引导代理建模框架, 用于解决数据稀缺下的高维设计优化问题. 该方法通过结合领域知识与有限数据, 在结构优化和半导体制造等任务上取得了优于标准方法的预测精度.

Mag-Mamba: Modeling Coupled spatiotemporal Asymmetry for POI Recommendation

Zhuoxuan Li et al.

cs.LG cs.AI

本文提出Mag-Mamba框架，通过将时空不对称性建模为复数域中的相位驱动旋转动力学来解决POI推荐问题。它设计了时间条件磁相位编码器和复数Mamba模块，在三个真实数据集上取得了优于现有方法的效果。

Expert Divergence Learning for MoE-based Language Models

Jiaang Li et al.

cs.LG cs.AI

本文提出了一种名为Expert Divergence Learning的新预训练策略，旨在解决MoE架构中的专家同质化问题。该方法通过引入一个基于域标签的辅助损失，来鼓励专家之间的功能分化，并在大规模预训练中验证了其有效性。

M3-AD: Reflection-aware Multi-modal, Multi-category, and Multi-dimensional Benchmark and Framework for Industrial Anomaly Detection

Chao Huang et al.

cs.LG cs.AI

本文提出了一个用于工业异常检测的多模态基准和框架, 通过引入可学习的反思机制来提升模型在复杂场景下的决策可靠性.

A Representation-Consistent Gated Recurrent Framework for Robust Medical Time-Series Classification

Maitri Krishna Sai

cs.LG

本文提出了一种表示一致的门控循环框架(RC-GRF), 用于提升医疗时间序列分类的鲁棒性. 该框架通过引入正则化策略来约束隐藏状态表示的时序一致性, 从而改善模型在噪声和缺失数据下的表现.

Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

Datorien L. Anderson

cs.LG cs.CV

本文针对离散承诺系统(discrete commitment systems)提出了Certainty-Validity (CVS)诊断框架, 将模型预测分解为确定性(certainty)与有效性(validity)两个维度. 通过实验发现, 此类系统在模糊数据上会达到一个性能"天花板", 并揭示了标准训练可能导致模型从合理怀疑转向"自信错误"的病理行为.

SEval-NAS: A Search-Agnostic Evaluation for Neural Architecture Search

Atah Nuh Mih et al.

cs.LG cs.AI cs.NE

本文提出了一种名为SEval-NAS的评估机制，用于解决Neural Architecture Search (NAS)中评估指标难以扩展的问题。该方法将网络架构编码为字符串并进行向量嵌入，以预测多种性能指标，实验表明其在预测硬件成本（如延迟和内存）方面表现良好。

Wideband Power Amplifier Behavioral Modeling Using an Amplitude Conditioned LSTM

Abdelrahman Abdelsalam, You Fei

cs.LG eess.SP

本文提出了一种振幅条件化的长短期记忆网络(AC-LSTM)用于宽带功率放大器(PA)的行为建模。该模型通过一个FiLM层将瞬时输入振幅信息引入LSTM的遗忘门，以更好地捕捉PA的非线性和记忆效应。实验表明，该模型在时间域精度和频谱保真度上均优于传统基线方法。

LIDS: LLM Summary Inference Under the Layered Lens

Dylan Park, Yingying Fan, Jinchi Lv

cs.LG cs.CL stat.ME stat.ML

本文提出了一种名为LIDS的新方法, 用于评估LLM生成摘要的质量. 该方法结合了基于BERT-SVD的方向度量与SOFARI技术, 通过量化统计不确定性和控制错误发现率来提供可解释的关键词.

MAML-KT: Addressing Cold Start Problem in Knowledge Tracing for New Students via Few-Shot Model-Agnostic Meta Learning

Indronil Bhattacharjee, Christabel Wayllace

cs.LG cs.AI

本文提出了一种名为MAML-KT的元学习方法，用于解决知识追踪(KT)中新学生的冷启动问题。该方法通过优化模型初始化，使其能利用少量梯度更新快速适应新学生，从而在早期交互中提高预测准确性。

Bridging Policy and Real-World Dynamics: LLM-Augmented Rebalancing for Shared Micromobility Systems

Heng Tan, Hua Yan, Yu Yang

cs.LG cs.AI

本文提出了一个名为AMPLIFY的LLM增强策略适应框架, 用于共享微出行系统的车辆再平衡. 该框架结合了基线再平衡模块与基于LLM的适应模块, 以在突发场景下实时调整策略, 并在真实数据上验证了其有效性.

NNiT: Width-Agnostic Neural Network Generation with Structurally Aligned Weight Spaces

Jiwoo Kim et al.

cs.LG cs.AI

本文提出了一种宽度无关的神经网络参数生成方法, 通过将权重矩阵分块并建模为局部结构化的场来克服传统方法对固定架构的依赖. 该方法在未见过的架构拓扑上表现出良好的泛化能力.

Engineering FAIR Privacy-preserving Applications that Learn Histories of Disease

Ines N. Duarte et al.

cs.LG cs.AI cs.SE

本文探讨了在隐私敏感领域部署用户端生成式AI应用的工程挑战. 通过一个基于浏览器的模型部署案例, 测试了客户端推理的架构边界, 并利用ONNX等技术实现了一个安全的医疗AI应用蓝图.

OSF: On Pre-training and Scaling of Sleep Foundation Models

Zitao Shuai et al.

cs.LG cs.AI

本文通过构建大规模睡眠数据基准SleepBench, 系统地评估了自监督预训练目标, 并提出了改进的预训练与扩展方法, 最终开发了在多项睡眠与疾病预测任务上达到先进性能的睡眠基础模型OSF.

Task-Driven Subspace Decomposition for Knowledge Sharing and Isolation in LoRA-based Continual Learning

Lingfeng He et al.

cs.LG cs.CV

本文提出了一种名为LoDA的方法, 用于解决基于LoRA的持续学习中的知识共享与隔离问题. 该方法通过任务驱动的子空间分解和梯度对齐优化来提升学习性能.

Diagnostics for Individual-Level Prediction Instability in Machine Learning for Healthcare

Elizabeth W. Miller, Jeffrey D. Blume

cs.LG stat.AP stat.ML

本文针对医疗领域机器学习模型的个体预测不稳定性问题, 提出了一个评估框架. 该框架通过两个诊断指标——经验预测区间宽度(ePIW)和经验决策翻转率(eDFR)——来量化风险估计和临床决策的变异性.

A medical coding language model trained on clinical narratives from a population-wide cohort of 1.8 million patients

Joakim Edin et al.

cs.LG

本文利用来自180万患者的580万份电子健康记录训练了一个语言模型, 用于从临床文本中预测ICD-10诊断代码. 模型在27万例患者上取得了71.8%的micro F1分数, 并揭示了特定次要诊断代码存在系统性漏编的现象.

CoPeP: Benchmarking Continual Pretraining for Protein Language Models

Darshan Patil et al.

cs.LG

本文提出了一个用于评估蛋白质语言模型持续预训练方法的基准测试CoPeP. 该基准基于十年间的蛋白质序列数据, 并定义了31个下游任务的评估指标. 实验表明, 利用时间元信息可以提升模型性能, 并且多种持续学习方法优于简单的持续预训练.

Scalable Gaussian process modeling of parametrized spatio-temporal fields

Srinath Dama, Prasanth B. Nair

cs.LG

本文提出了一种可扩展的高斯过程框架, 用于学习参数化时空场的连续表示. 该方法利用 Kronecker 矩阵代数实现高效训练, 并能以低成本计算后验方差以进行不确定性量化. 数值实验表明, 其在多个基准问题上具有与算子学习方法相当的精度.

Polynomial Surrogate Training for Differentiable Ternary Logic Gate Networks

Sai Sandeep Damera et al.

cs.LG cs.AI cs.LO

本文提出了一种名为Polynomial Surrogate Training (PST)的方法，用于训练可微三元逻辑门网络(DTLGNs)。该方法通过将每个三元神经元表示为一个低阶多项式，极大地减少了参数数量，使得训练变得可行。实验表明，三元网络训练更快，并能产生具有功能多样性的逻辑门，其UNKNOWN输出可作为不确定性下的最优弃权机制。

When does Chain-of-Thought Help: A Markovian Perspective

Zihan Wang, Yijun Dong, Qi Lei

cs.LG

本文从 Markov chain 的视角分析了 Chain-of-Thought (CoT) 提示技术何时有效. 作者将推理过程建模为 Markov chain, 并指出实例间是否共享一个共同的 step-wise transition kernel (即 transition alignment) 是决定 CoT 效果的关键因素.

Vectorized Adaptive Histograms for Sparse Oblique Forests

Ariel Lubonja et al.

cs.LG cs.DC cs.PF

本文提出了一种用于稀疏倾斜森林的向量化自适应直方图方法, 通过动态切换直方图与排序来寻找最佳分割点, 并利用向量指令优化直方图构建. 在大型数据集上的评估表明, 该方法相比现有方法实现了显著的训练加速.

Detecting Transportation Mode Using Dense Smartphone GPS Trajectories and Transformer Models

Yuandong Zhang et al.

cs.LG

本文提出了一种仅依赖速度信息的Transformer模型SpeedTransformer, 用于从密集的智能手机GPS轨迹中检测交通方式. 该模型在基准测试和实际部署中均优于传统深度学习方法, 并展现了良好的迁移学习能力.

StethoLM: Audio Language Model for Cardiopulmonary Analysis Across Clinical Tasks

Yishan Wang et al.

cs.LG cs.SD eess.AS

本文提出了一个用于心肺听诊的音频-语言模型 StethoLM, 它能够执行指令驱动的临床任务. 该模型在包含多种任务类别的综合基准 StethoBench 上进行训练, 并在分布外数据上表现出鲁棒性.

Quantifying Catastrophic Forgetting in IoT Intrusion Detection Systems

Sourasekhar Banerjee et al.

cs.LG cs.AI

本文针对物联网入侵检测系统(IDS)中的灾难性遗忘问题, 提出了一个与具体方法无关的持续学习框架, 并系统性地评估了五种代表性方法. 结果表明, 基于回放的方法整体性能最佳, 而突触智能(SI)方法在保持高训练效率的同时实现了近乎零的遗忘.

Deep Learning-Based Meat Freshness Detection with Segmentation and OOD-Aware Classification

Hutama Arif Bramantyo et al.

cs.LG cs.CV eess.IV

本文提出了一种结合分割与OOD感知分类的深度学习框架, 用于从RGB图像中检测肉类新鲜度. 该方法通过U-Net分割提取肉类区域, 并比较了多种分类网络在ID数据集上的性能与OOD样本处理能力.

Improving Full Waveform Inversion in Large Model Era

Yinan Feng et al.

cs.LG

本文提出了一种通过协调扩展模型容量、数据多样性和训练策略来训练大规模模型的方法, 以改善数据驱动的全波形反演(FWI)的泛化能力. 该方法在多个具有挑战性的地球物理基准测试上取得了显著的性能提升.

Hereditary Geometric Meta-RL: Nonlocal Generalization via Task Symmetries

Paul Nitschke, Shahriar Talebi

cs.LG cs.AI eess.SY math.OC

本文提出了一种基于几何视角的元强化学习方法, 通过发现底层系统的对称性来构建任务空间的“遗传几何”, 从而将策略重用推广到更广泛的任务区域. 该方法将元强化学习转化为对称性发现问题, 并开发了一种微分对称性发现方法以提高数值稳定性和样本效率.

TENG-BC: Unified Time-Evolving Natural Gradient for Neural PDE Solvers with General Boundary Conditions

Hongjie Jiang, Di Luo

cs.LG

本文提出了一种名为TENG-BC的神经网络PDE求解器，它基于Time-Evolving Natural Gradient来统一处理多种边界条件。该方法通过边界感知的优化来联合强制内部动力学和边界条件，在多个基准测试中取得了较高的精度。

USE: Uncertainty Structure Estimation for Robust Semi-Supervised Learning

Tsao-Lun Chen et al.

cs.LG cs.AI

本文提出了一种名为Uncertainty Structure Estimation (USE)的轻量级预处理方法, 用于提升半监督学习(Semi-supervised learning, SSL)在未标记数据池存在分布外(Out-of-distribution, OOD)样本时的鲁棒性. 该方法通过代理模型计算未标记样本的熵, 并利用统计检验设定阈值来筛选信息性样本, 实验表明其在图像和文本数据上能有效提升模型性能.

Exact and Asymptotically Complete Robust Verifications of Neural Networks via Quantum Optimization

Wenxin Li et al.

cs.LG cs.AI physics.optics quant-ph

本文提出了两种基于量子优化的鲁棒性验证模型, 用于处理深度神经网络在对抗性扰动下的认证问题. 对于分段线性激活函数, 模型提供精确的验证; 对于一般激活函数, 则通过分段常数界构造可扩展的过近似, 并证明了其渐近完备性.

Physics-Aware Learnability: From Set-Theoretic Independence to Operational Constraints

Jeongho Bang, Kyoungho Cho

cs.LG quant-ph

本文讨论了在超越二元分类的学习任务中, 传统可学习性定义在集合论独立性下可能出现的逻辑脆弱性. 作者提出了"物理感知可学习性(PL)"这一新框架, 通过显式地限定物理上可实现的访问模型(如有限精度、物理数据访问)来重新定义可学习性, 并将其应用于连续统EMX问题和量子数据场景.

Weight Updates as Activation Shifts: A Principled Framework for Steering

Dyah Adila et al.

cs.LG

本文通过建立 activation steering 与 weight updates 之间的一阶等价关系，为干预位置和参数化提供了理论依据。该方法在多个任务和模型上仅需训练极少参数即可接近全参数微调的准确率，并优于现有的高效微调方法。

Efficient Decoder Scaling Strategy for Neural Routing Solvers

Qing Luo et al.

cs.LG

本文系统地研究了神经路由求解器中解码器的缩放策略, 比较了增加深度与增加宽度两种方式. 实验表明, 增加深度比增加宽度能带来更优的性能提升, 并据此提出了一套高效的参数与计算资源分配设计原则.

ROKA: Robust Knowledge Unlearning against Adversaries

Jinmyeong Shin et al.

cs.LG cs.AI

本文提出了一种新的对抗性遗忘攻击模型, 称为间接遗忘攻击, 它无需操纵数据, 而是利用知识污染来破坏模型在关键安全预测上的准确性. 为缓解此类攻击, 作者提出了一个理论框架将神经网络建模为神经知识系统, 并在此基础上设计了ROKA遗忘策略, 该策略通过神经修复在消除遗忘数据影响的同时增强其概念邻居, 从而在多种大模型上实现了有效的目标遗忘与知识保留.

Rooted Absorbed Prefix Trajectory Balance with Submodular Replay for GFlowNet Training

Xi Wang, Wenbo Lu, Shengjie Wang

cs.LG cs.AI

本文针对GFlowNets训练中的模式崩溃问题，提出了RapTB目标函数和SubM重放策略。RapTB通过基于吸收后缀的回溯为中间前缀提供密集的学习信号，而SubM则利用次模函数来促进重放样本的多样性和高奖励。在分子生成等任务上的实验表明，该方法能有效提升优化性能和生成多样性。

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

Xu Luo et al.

cs.LG cs.CV

本文提出了一个名为FEWTRANS的综合性基准测试，用于评估预训练模型在少样本迁移学习中的表现。研究通过引入Hyperparameter Ensemble (HPE)协议来改进评估方法，并发现预训练模型的选择比复杂的迁移算法更为关键。

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

Khaleque Md Aashiq Kamal et al.

cs.LG cs.CV

本文分析了针对选举系统中机器学习选票分类器的物理对抗样本威胁. 作者建立了一个概率框架来计算影响选举结果所需的对抗样本数量, 并通过打印和扫描实验评估了六种对抗攻击方法在物理域与数字域的有效性差异.

Dynamic Spatio-Temporal Graph Neural Network for Early Detection of Pornography Addiction in Adolescents Based on Electroencephalogram Signals

Achmad Ardani Prasha et al.

cs.LG cs.AI cs.HC

本文提出了一种用于青少年色情成瘾早期检测的动态时空图神经网络(DST-GNN). 该方法结合了基于Phase Lag Index (PLI)的Graph Attention Network (GAT)进行空间建模, 以及Bidirectional Gated Recurrent Unit (BiGRU)来捕捉时间动态. 在EEG数据集上的实验表明, 该模型在识别成瘾者方面相比基线方法有显著提升, 并识别出了一些关键的生物标志物脑区和连接.

Heaviside Low-Rank Support Matrix Machine

Xianchao Xiu et al.

cs.LG math.OC

本文提出了一种基于Heaviside损失和低秩约束的鲁棒支持矩阵机(HL-SMM). 该方法旨在提升对噪声的鲁棒性, 并通过理论分析和实验验证了其有效性.

A Polynomial-Time Axiomatic Alternative to SHAP for Feature Attribution

Kazuhiro Hiraki et al.

cs.LG cs.AI

本文提出了一种名为ESENSC_rev2的、基于合作博弈论中XAI-TU博弈模型的特征归因方法。该方法通过结合两种多项式时间闭式规则，在保证零玩家属性的同时，提供了对SHAP值的高效近似。实验表明，该方法在保持近似精度的同时显著提升了可扩展性，并给出了其满足效率、零玩家公理等性质的理论公理化刻画。

Antibody: Strengthening Defense Against Harmful Fine-Tuning for Large Language Models via Attenuating Harmful Gradient Influence

Quoc Minh Nguyen et al.

cs.LG

本文提出了一种名为Antibody的防御策略, 旨在保护大型语言模型(Large Language Models)免受有害微调(harmful fine-tuning)攻击. 该方法通过在微调前进行鲁棒的安全对齐(alignment), 并在微调过程中应用一种抑制有害样本梯度贡献的学习算法来实现防御.

Trinity: A Scenario-Aware Recommendation Framework for Large-Scale Cold-Start Users

Wenhao Zheng et al.

cs.LG

本文提出了一个名为 Trinity 的推荐框架，旨在解决新场景下大规模冷启动用户的问题。该框架整合了特征工程、模型架构和稳定更新，并在一个大型产品迁移中验证了其有效性。

FastBUS: A Fast Bayesian Framework for Unified Weakly-Supervised Learning

Ziquan Wang et al.

cs.LG cs.AI

本文提出了一种名为FastBUS的通用贝叶斯框架, 用于高效处理多种弱监督学习场景. 该框架通过将标签搜索过程建模为概率转移, 并引入低秩近似与端到端状态演化模块来加速计算, 在多个基准测试中取得了有竞争力的结果.

Phys-Diff: A Physics-Inspired Latent Diffusion Model for Tropical Cyclone Forecasting

Lei Liu et al.

cs.LG cs.AI

本文提出了一种用于热带气旋预测的物理启发式潜在扩散模型Phys-Diff. 该模型通过解耦潜在特征并利用跨任务注意力引入物理先验, 旨在提升预测的物理一致性. 实验表明其在多个数据集上取得了先进的性能.

Bridge Matching Sampler: Scalable Sampling via Generalized Fixed-Point Diffusion Matching

Denis Blessing et al.

cs.LG

本文提出了一种名为Bridge Matching Sampler (BMS)的新采样方法。该方法通过将扩散匹配目标推广为基于Nelson关系的广义不动点迭代，实现了在任意先验与目标分布之间学习一个随机传输映射。该方法使用单一、可扩展且稳定的目标函数，并引入了带阻尼的变体以缓解模式崩溃问题。实验表明，该方法在复杂合成密度和高维分子基准测试中取得了先进的采样效果。

Mathematical Foundations of Poisoning Attacks on Linear Regression over Cumulative Distribution Functions

Atsuki Sato, Martin Aumüller, Yusuke Matsui

cs.LG cs.DB

本文对针对CDF的线性回归模型的投毒攻击进行了理论分析. 作者证明了单点攻击的最优性, 并分析了多点攻击中贪婪方法的局限性, 为学习索引的安全性评估提供了理论基础.

Learning to Attack: A Bandit Approach to Adversarial Context Poisoning

Ray Telikani, Amir H. Gandomi

cs.LG cs.AI

本文提出了一种针对神经上下文赌博机的黑盒自适应攻击方法 AdvBandit. 该方法将上下文投毒建模为一个连续臂赌博机问题, 攻击者通过观测受害者的上下文-动作对来构建替代模型并优化扰动, 实验表明其能有效增加受害者的累积遗憾.

Enhancing Molecular Property Predictions by Learning from Bond Modelling and Interactions

Yunqing Liu, Yi Zhou, Wenqi Fan

cs.LG cs.AI

本文提出了一个名为DeMol的双图框架, 用于分子表示学习. 该框架通过并行的原子中心和键中心通道显式建模分子, 并利用多尺度双螺旋块学习原子与键之间的复杂相互作用, 在多个基准测试中取得了先进的性能.

DeepAFL: Deep Analytic Federated Learning

Jianheng Tang et al.

cs.LG cs.AI

本文提出了一种名为DeepAFL的深度解析联邦学习方法，旨在解决传统梯度更新方法在数据异构性、可扩展性等方面的问题。该方法通过设计无梯度的残差块和分层训练协议，在保持对数据异构性不变性的同时增强了表示学习能力。

Unlearning Evaluation through Subset Statistical Independence

Chenhao Zhang et al.

cs.LG

本文提出了一种基于子集统计独立性的机器学习遗忘评估框架. 该方法利用Hilbert-Schmidt Independence Criterion (HSIC) 来评估模型在给定数据子集上的输出是否具有统计依赖性, 无需重新训练模型或使用辅助分类器. 实验表明, 该方法能有效区分训练内与训练外数据子集, 并评估遗忘算法的效果.

Energy-Efficient Information Representation in MNIST Classification Using Biologically Inspired Learning

Patrick Stricker, Florian Röhrbein, Andreas Knoblauch

cs.LG

本文提出了一种受生物启发的学习规则, 用于MNIST分类任务中的高效信息表示. 该规则模仿大脑的结构可塑性, 旨在优化突触使用并减少网络冗余, 从而提升能效.

Learning to Explore: Policy-Guided Outlier Synthesis for Graph Out-of-Distribution Detection

Li Sun et al.

cs.LG cs.AI

本文提出了一种基于强化学习的策略引导异常合成框架, 用于提升图神经网络在无监督图级分布外检测中的性能. 该方法通过智能体在潜在空间中探索低密度区域来生成高质量的伪异常图, 从而增强检测器的鲁棒性.

Multi-Domain Riemannian Graph Gluing for Building Graph Foundation Models

Li Sun et al.

cs.LG

本文提出了一种从Riemannian几何角度理解多领域图预训练的新视角, 核心思想是将不同图数据集合并到一个统一的、光滑的Riemannian流形中. 基于此, 作者提出了GraphGlue框架, 通过实验验证了其在多个图领域上的优越性能以及几何缩放定律.

IDER: IDempotent Experience Replay for Reliable Continual Learning

Zhanwang Liu et al.

cs.LG cs.AI cs.CV

本文提出了一种称为幂等经验回放(IDER)的新方法, 用于提升持续学习(CL)模型的预测可靠性. 该方法通过引入幂等性约束和蒸馏损失, 在减少灾难性遗忘的同时校准模型的不确定性, 并能与主流回放方法兼容.

Adapt Data to Model: Adaptive Transformation Optimization for Domain-shared Time Series Foundation Models

Yunzhong Qiu et al.

cs.LG

本文提出了一种名为TATO的数据中心化框架, 旨在通过优化配置的数据转换流程, 使单个冻结的预训练大时间序列模型能够适应多样化的下游领域. 该方法整合了三种代表性的数据转换类型, 并通过两阶段排序机制确保鲁棒性, 实验表明其在提升领域自适应预测性能方面高效且有效.

Retrodictive Forecasting: A Proof-of-Concept for Exploiting Temporal Asymmetry in Time Series Prediction

Cedric Damour

cs.LG physics.ao-ph stat.ML

本文提出了一种基于逆向最大后验优化的时间序列预测新范式, 通过Conditional Variational Autoencoder (CVAE) 从当前观测反推最可能产生它的未来状态. 该方法在合成数据和ERA5再分析数据上进行了验证, 结果表明在时间不可逆过程中, 其预测精度可与或优于传统前向预测方法.

Reward-Modulated Local Learning in Spiking Encoders: Controlled Benchmarks with STDP and Hybrid Rate Readouts

Debjyoti Chakraborty

cs.LG cs.NE

本文对受生物启发的局部学习算法在手写数字识别任务上进行了实证研究. 它评估了基于STDP的竞争性代理方法和一个使用相同脉冲编码器的混合基准方法. 实验表明, 这些局部学习方法在特定数据集上能达到约87%的准确率, 但低于传统的像素基线方法.

Frozen Policy Iteration: Computationally Efficient RL under Linear $Q^π$ Realizability for Deterministic Dynamics

Yijing Ke, Zihan Zhang, Ruosong Wang

cs.LG stat.ML

本文提出了一种名为Frozen Policy Iteration的计算高效在线强化学习算法, 适用于具有线性$Q^{\pi}$可实现性, 随机初始状态, 随机奖励和确定性转移的MDP. 该算法通过策略性地使用轨迹数据的高置信部分并冻结已充分探索状态的策略, 避免了现有方法对模拟器重复采样的依赖, 实现了$\widetilde{O}(\sqrt{d^2H^6T})$的遗憾上界.

MARS: Harmonizing Multimodal Convergence via Adaptive Rank Search

Minkyoung Cho et al.

cs.LG

本文提出了一种名为MARS的自适应秩搜索方法, 用于优化多模态大语言模型(MLLMs)的参数高效微调. 该方法通过建立双标度律来搜索最优的LoRA秩对, 以平衡不同模态间的训练动态并提升最终性能.

To Use or not to Use Muon: How Simplicity Bias in Optimizers Matters

Sara Dragutinović, Rajesh Ranganath

cs.LG

本文探讨了Muon优化器在加速训练时可能引入的偏差。研究指出，Muon可能削弱了模型对简单特征的偏好，从而影响学习到的解的质量。

ResGene-T: A Tensor-Based Residual Network Approach for Genomic Prediction

Kuldeep Pathak, Kapil Ahuja, Eric de Sturler

cs.LG

本文提出了一种基于tensor的ResNet-18模型ResGene-T用于基因组预测. 该方法将基因型数据表示为3D张量而非传统序列或2D图像, 在多个作物性状预测任务上取得了优于现有统计和机器学习模型的效果.

Bi-cLSTM: Residual-Corrected Bidirectional LSTM for Aero-Engine RUL Estimation

Rafi Hassan Chowdhury et al.

cs.LG

本文提出了一种用于航空发动机剩余使用寿命(RUL)估计的Bi-cLSTM模型。该模型结合了双向LSTM与残差校正机制，并在预处理中引入了工况感知技术，在标准数据集上取得了优于基线模型的效果。

General Proximal Flow Networks

Alexander Strunk, Roland Assam

cs.LG cs.AI

本文提出了General Proximal Flow Networks (GPFNs), 将Bayesian Flow Networks中的belief-update操作推广到任意的divergence或distance function. 这建立了一个统一的proximal-operator框架, 其训练和采样过程与proximal optimization相关联. 实验表明, 根据数据几何选择合适的divergence可以提升生成质量.

Identifying and Characterising Response in Clinical Trials: Development and Validation of a Machine Learning Approach in Colorectal Cancer

Adam Marcus, Paul Agapow

cs.LG cs.AI

本文提出了一种结合部分条件建模与Virtual Twins方法的机器学习框架, 用于识别临床试验中对治疗有不同反应的亚组患者. 该方法在结直肠癌临床试验数据上进行了验证, 识别出与治疗反应相关的重要临床因素.

Interpretable Cross-Network Attention for Resting-State fMRI Representation Learning

Karanpartap Singh et al.

cs.LG

本文提出了一种基于masked reconstruction和cross-attention的self-supervised框架BrainInterNet，用于从resting-state fMRI数据中学习表征。该方法通过显式建模functional networks之间的依赖关系，揭示了阿尔茨海默病下大脑网络交互的系统性改变，并支持疾病分类和严重程度追踪。

Identifying the Geographic Foci of US Local News

Gangani Ariyarathne et al.

cs.LG

本文提出了一种用于识别美国本地新闻地理焦点的新模型. 该方法利用大型语言模型进行地理实体消歧, 并构建空间语义特征训练分类器, 以高准确度标注新闻文章的地理关注层级.

Neural Latent Arbitrary Lagrangian-Eulerian Grids for Fluid-Solid Interaction

Shilong Tao et al.

cs.LG cs.AI

本文提出了一种名为Fisale的数据驱动框架, 用于处理复杂的双向流固耦合(FSI)问题. 该框架受经典数值方法(如任意拉格朗日-欧拉方法和分区耦合算法)启发, 通过显式建模耦合界面并利用多尺度潜在ALE网格来提供跨域的统一嵌入, 从而能够学习复杂的双向FSI行为.

Lookahead identification in adversarial bandits: accuracy and memory bounds

Nataly Brukhim, Nicolò Cesa-Bianchi, Carlo Ciliberto

cs.LG

本文研究了对抗性多臂老虎机中的前瞻识别问题, 目标是提前承诺一个在未来预测窗口内平均奖励接近最优的手臂. 作者证明了在对抗性环境下, 尽管信息有限, 仍可实现非平凡的识别精度, 并分析了所需的内存资源.

Curation Leaks: Membership Inference Attacks against Data Curation for Machine Learning

Dariush Wahdany et al.

cs.LG

本文探讨了机器学习数据筛选过程中的隐私泄露风险. 作者针对筛选流程的多个环节设计了成员推理攻击, 并提出了基于差分隐私的缓解方案.

Wave-Attractor-Tree: A Hierarchical Binary Tree Reduction Architecture for Efficient Sequence Modeling

Igor Berezkin

cs.LG

本文提出了一种名为 Wave-Attractor-Tree 的层次化二叉树架构，用于替代 Transformer 中的标准 self-attention 机制。该模型在需要层次化归纳偏置的长程依赖任务上，展现了更快的收敛速度和更高的准确率。

A Gauge Theory of Superposition: Toward a Sheaf-Theoretic Atlas of Neural Representations

Hossein Javidnia

cs.LG cs.AI cs.CL cs.NE

本文提出了一种基于离散规范理论和层论（sheaf theory）的框架，用于分析大语言模型（LLMs）中的叠加（superposition）现象。该框架用局部语义图册（atlas of local semantic charts）取代了单一的全局字典假设，并定义了三种可测量的全局可解释性障碍（obstructions）。作者在一个冻结的LLM上实例化并证明了四个技术性结果，包括计算规范不变的全息（holonomy）以及获得非平凡的干扰认证边界。

GeMi: A Graph-based, Multimodal Recommendation System for Narrative Scroll Paintings

Haimonti Dutta et al.

cs.LG cs.IR

本文提出了一种基于Graph Neural Network (GNN)的多模态推荐系统GeMi, 用于处理叙事卷轴绘画这一新颖数据集. 该系统结合图像与文本数据, 旨在为这种濒危艺术形式提供作品推荐与数据存储方案.

Navigating Time's Possibilities: Plausible Counterfactual Explanations for Multivariate Time-Series Forecast through Genetic Algorithms

Gianlucca Zuin, Adriano Veloso

cs.LG

本文提出了一种结合 genetic algorithms 和 Granger causality 检验的方法, 用于从多元时间序列中学习 counterfactual 依赖关系并进行预测. 该方法在真实数据上进行了评估, 展示了其处理复杂因果关系的潜力.

MultiPUFFIN: A Multimodal Domain-Constrained Foundation Model for Molecular Property Prediction of Small Molecules

Idelfonso B. R. Nogueira et al.

cs.LG cs.AI

本文提出了一种名为MultiPUFFIN的多模态基础模型, 用于同时预测小分子的多种热物理性质. 该模型融合了SMILES, 分子图和3D几何等多种分子表示, 并通过嵌入已知的热力学关联方程作为归纳偏置来确保预测的热力学一致性.

Active Flow Matching

Yashvir S. Grewal et al.

cs.LG

本文提出了一种名为Active Flow Matching (AFM)的方法, 用于在线黑盒优化. 它将变分目标重新表述为对沿流(flow)的条件端点分布进行操作, 从而能够基于梯度引导流模型朝向高适应度区域. 在蛋白质和小分子设计任务中, 该方法展现出了竞争力.

Knowledge without Wisdom: Measuring Misalignment between LLMs and Intended Impact

Michael Hardy, Yunsung Kim

cs.LG cs.AI cs.CY stat.AP

本文通过评估多个基础模型在教育教学任务上的表现, 发现模型间的行为高度相关, 但与专家人类行为及下游教学质量指标(如学习成果)存在显著偏差, 且模型集成会加剧这种偏差. 研究表明, 约50%的偏差源于共同的预训练过程.

Probabilistic Learning and Generation in Deep Sequence Models

Wenlong Chen

cs.LG stat.ML

本文探讨了如何利用深度序列模型(DSMs)的结构先验来改进概率模型中的先验设定与近似推断. 作者针对Transformer和在线高斯过程提出了新的近似推断方法, 并探索了在生成模型中为序列隐状态引入自监督信号的可能性.

Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark

Zhiqi Yu et al.

cs.LG

本文通过一项大规模实证研究, 评估了AI对真实手写大学数学作业的自动评分效果. 研究基于UC Irvine的单变量微积分作业, 使用结合OCR的大语言模型进行评分和反馈生成, 并与助教评分和人工审核结果进行对比分析.

Principled Fast and Meta Knowledge Learners for Continual Reinforcement Learning

Ke Sun et al.

cs.LG

本文提出了一种受人类学习记忆系统启发的双学习者框架, 用于解决持续强化学习问题. 该方法通过一个专注于知识迁移的快速学习器和一个专注于知识整合的元学习器来提升学习效率与稳定性.

When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning

Joshua Steier

cs.LG cs.CV

本文研究了Contrastive Forward-Forward (CFF)学习中，对比损失函数里正样本对margin的clamping操作对训练方差的影响。通过理论分析和在多个数据集上的实验，发现这种影响高度依赖于数据集的特性，如批次内正样本对密度和任务难度。

Stabilizing Policy Optimization via Logits Convexity

Hongzhan Chen et al.

cs.LG cs.CL

本文从梯度视角分析了监督微调(SFT)与强化学习(RL)之间的稳定性差异, 指出SFT损失函数关于模型logits的凸性是稳定训练的关键. 作者提出了一种名为Logits Convex Optimization (LCO)的策略优化框架, 旨在模拟这种凸性的稳定效果. 实验表明, LCO在多个基准测试中提升了训练稳定性并优于传统RL方法.

Intent-Context Synergy Reinforcement Learning for Autonomous UAV Decision-Making in Air Combat

Jiahao Fu, Feng Yang

cs.LG eess.SY

本文提出了一种用于无人机空战自主决策的意图-上下文协同强化学习框架. 该框架通过意图预测模块和上下文分析协同机制, 结合多个专门化的智能体, 实现了在动态对抗环境中的鲁棒渗透.

Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models

Ashutosh Ranjan et al.

cs.LG cs.AI

本文提出了一种名为SurgUn的精确遗忘方法，用于文本到图像扩散模型。该方法基于追溯干扰理论，通过在权重空间进行针对性更新来移除特定视觉概念，同时保持模型的其他生成能力。

Compensation-free Machine Unlearning in Text-to-Image Diffusion Models by Eliminating the Mutual Information

Xinwen Cheng et al.

cs.LG

本文提出了一种在text-to-image diffusion models中实现compensation-free machine unlearning的新方法MiM-MU. 该方法通过最小化模型与待遗忘概念之间的mutual information来精确移除特定知识, 旨在避免对模型其他生成能力的损害.

DWAFM: Dynamic Weighted Graph Structure Embedding Integrated with Attention and Frequency-Domain MLPs for Traffic Forecasting

Sen Shi, Zhichao Zhang, Yangfan He

cs.LG eess.SP

本文提出了一种结合动态加权图结构嵌入、注意力机制和频域多层感知机的交通预测模型DWAFM. 该模型旨在更好地捕捉交通数据中复杂的时空动态关联, 并在多个真实数据集上取得了优于现有方法的预测性能.

Feature-Weighted Maximum Representative Subsampling

Tony Hauptmann, Stefan Kramer

cs.LG

本文提出了一种名为特征加权最大代表性子采样(FW-MRS)的方法, 用于在数据去偏过程中处理部分特征高度偏置的问题. 该方法通过基于域分类器特征重要性计算的权重, 降低对高偏置特征的关注, 从而在去偏后保留更多样本用于下游任务.

One-Token Verification for Reasoning Correctness Estimation

Zhan Zhuang et al.

cs.LG cs.AI

本文提出了一种名为One-Token Verification (OTV)的方法，用于在大型语言模型生成推理链时快速评估其正确性。该方法通过一个可学习的token和低秩适配技术，在单次前向传播中实现token级别的正确性估计，并能引导早期终止以减少计算开销。

Fed-ADE: Adaptive Learning Rate for Federated Post-adaptation under Distribution Shift

Heewon Park et al.

cs.LG

本文提出了一个名为Fed-ADE的无监督联邦学习后适应框架，用于处理客户端数据分布随时间变化的问题。该方法通过估计预测不确定性和特征表示的变化来动态调整每个客户端的学习率，并在多个基准测试中展示了其有效性。

Evaluating GFlowNet from partial episodes for stable and flexible policy-based training

Puhua Niu, Shili Wu, Xiaoning Qian

cs.LG stat.ML

本文提出了一种基于 partial episodes 的 evaluation balance 目标, 用于在 GFlowNets 的策略式训练中学习一个策略评估器. 该方法增强了策略式训练的稳定性, 并支持参数化的 backward policy 和离线数据集成.

No More Maybe-Arrows: Resolving Causal Uncertainty by Breaking Symmetries

Tingrui Huang, Devendra Singh Dhami

cs.LG

本文提出了一种名为CausalSAGE的新框架，用于将Partial Ancestral Graphs (PAGs) 转换为Directed Acyclic Graphs (DAGs)，以解决因果发现中因观测数据限制而遗留的因果不确定性。该方法通过扩展离散变量、利用结构先验知识约束搜索空间，并应用一个统一的可微分目标进行联合优化，最终通过聚合优化结构并在必要时强制无环性来获得DAG。实验表明，该方法能有效保留底层因果关系。

A level-wise training scheme for learning neural multigrid smoothers with application to integral equations

Lingfeng Li et al.

cs.LG

本文提出了一种用于求解积分方程的新型神经多重网格方法, 用离线训练的神经算子替代经典松弛光滑子. 该方法设计了结合谱滤波的层级损失函数, 使每个算子专注于不同的高频谱带, 实验表明其在效率和鲁棒性上优于经典求解器.

Understanding LoRA as Knowledge Memory: An Empirical Analysis

Seungju Back et al.

cs.LG

本文通过实证研究探讨了将LoRA作为模块化知识记忆体的可行性, 分析了其在存储容量、内部化优化、多模块系统扩展等方面的设计空间. 研究为理解LoRA在持续知识更新中的作用提供了实践指导, 并将其定位为与RAG和ICL互补的记忆轴.

A Deep Learning Framework for Heat Demand Forecasting using Time-Frequency Representations of Decomposed Features

Adithya Ramachandran et al.

cs.LG cs.AI

本文提出了一种用于区域供热系统日前热需求预测的深度学习框架。该框架利用连续小波变换处理分解后的历史需求和外部气象数据，生成时频表示，并输入卷积神经网络以学习层次化时间特征。在多个实际数据集上的评估表明，该方法相比现有基线显著降低了预测误差。

A Decomposition Framework for Certifiably Optimal Orthogonal Sparse PCA

Difei Cheng, Qiao Hu

cs.LG

本文提出了一种名为GS-SPCA的算法，用于解决正交稀疏主成分分析(SPCA)问题，该算法同时保证了稀疏性、正交性和最优性。为了提升计算效率，作者引入了分支定界策略和一个基于近似块对角矩阵的分解框架来处理多个主成分。

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

Hongyi Zhou et al.

cs.LG stat.ML

本文从U-statistics的视角为GRPO提供了一个统一的理论框架, 证明了其策略梯度本质上是一个U-statistic. 基于此, 作者分析了其均方误差, 并推导了其学习策略的有限样本误差界和渐近分布.

SphUnc: Hyperspherical Uncertainty Decomposition and Causal Identification via Information Geometry

Rong Fu et al.

cs.LG cs.AI

本文提出了一种结合超球面表示学习与结构因果建模的统一框架, 用于多智能体系统中的不确定性校准与因果识别. 该方法将特征映射到超球面隐变量, 并通过信息几何分解不确定性, 在多个基准测试中展示了性能提升.

PARWiS: Winner determination under shoestring budgets using active pairwise comparisons

Shailendra Bhandari

cs.LG cs.CC cs.NE

本文提出并评估了PARWiS算法及其变体, 用于在有限预算下通过主动成对比较来确定最优选项. 该算法结合了spectral ranking和disruptive pair selection, 并在合成与真实数据集上进行了测试. 实验表明, PARWiS及其强化学习变体在多个指标上优于基线方法.

Scaling of learning time for high dimensional inputs

Carlos Stein Brito

cs.LG cs.AI q-bio.NC stat.CO

本文分析了高维输入下Hebbian学习模型进行独立成分分析(ICA)时的学习时间标度问题. 基于高维空间的几何特性, 作者将学习动力学简化为一个一维问题, 并发现学习时间随输入维度超线性增长.

Operator Learning Using Weak Supervision from Walk-on-Spheres

Hrishikesh Viswanath et al.

cs.LG

本文提出了一种名为Walk-on-Spheres Neural Operator (WoS-NO)的方法, 用于训练神经PDE求解器. 该方法利用Walk-on-Spheres蒙特卡洛方法生成弱监督信号, 避免了昂贵的数据生成和不稳定的高阶导数计算, 实现了对PDE族解算子的无网格、零样本泛化学习.

Subliminal Signals in Preference Labels

Isotta Magistrali et al.

cs.LG

本文探讨了在AI系统监督中, 偏好标签可能成为隐蔽通信渠道的问题. 研究表明, 即使学生模型生成语义中立的回答, 带有偏见的评判者仍能通过偏好分配传递非预期的行为特征, 且这种影响在迭代对齐过程中会增强.

Learn Hard Problems During RL with Reference Guided Fine-tuning

Yangzhen Wu et al.

cs.LG cs.CL

本文提出了一种名为 Reference-Guided Fine-Tuning (ReGFT) 的方法，用于缓解数学推理强化学习中的奖励稀疏问题。该方法利用人类撰写的参考答案来合成正向轨迹，并在强化学习前进行微调，从而提升了模型在多个数学基准测试上的性能。

MOSAIC: A Unified Platform for Cross-Paradigm Comparison and Evaluation of Homogeneous and Heterogeneous Multi-Agent RL, LLM, VLM, and Human Decision-Makers

Abdulhamid M. Mousa et al.

cs.LG cs.AI

本文介绍了一个名为MOSAIC的开源平台，用于在统一环境中部署和比较来自不同决策范式的智能体，例如强化学习策略、大语言模型和人类玩家。该平台通过进程间通信协议和统一的算子抽象，支持确定性的跨范式评估，旨在促进可复现的混合多智能体研究。

S2O: Enhancing Adversarial Training with Second-Order Statistics of Weights

Gaojie Jin et al.

cs.LG

本文提出了一种名为S2O的新方法, 通过将模型权重视为随机变量并优化其二阶统计量来增强对抗训练. 该方法放松了PAC-Bayesian框架中权重独立的假设, 推导了改进的鲁棒泛化界, 并通过实验验证了其提升模型鲁棒性和泛化能力的有效性.

GlassMol: Interpretable Molecular Property Prediction with Concept Bottleneck Models

Oscar Rivera et al.

cs.LG cs.AI

本文提出了一种名为GlassMol的可解释分子性质预测框架, 它基于Concept Bottleneck Model (CBM) 构建, 旨在解决化学领域应用CBM时面临的概念相关性、标注和模型容量三大挑战. 该方法通过自动化的概念筛选和大型语言模型引导的概念选择, 在多个基准测试中达到了与黑盒模型相当或更优的性能.

The Impact of Battery Cell Configuration on Electric Vehicle Performance: An XGBoost-Based Classification with SHAP Interpretability

Santanam Wishal et al.

cs.LG

本文应用 XGBoost 分类器对电动汽车的加速性能进行预测，并利用 SHAP 方法解释模型。研究发现电池单元数量与车辆性能之间存在复杂的非线性关系，需要在系统复杂性与架构配置之间取得平衡。

Attention Smoothing Is All You Need For Unlearning

Saleh Zare Zade et al.

cs.LG cs.AI cs.CL

本文提出了一种名为Attention Smoothing Unlearning (ASU)的方法，用于从大语言模型中移除敏感或受版权保护的内容。该方法通过平滑注意力分布来抑制与记忆知识相关的关联，在多个基准测试中展现了较好的遗忘效果与模型性能的平衡。

JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks

Masahiro Kaneko, Ayana Niwa, Timothy Baldwin

cs.LG cs.CL

本文提出了一个名为JailNewsBench的多语言与区域性基准, 用于评估大语言模型在"越狱"攻击下生成虚假新闻的风险. 该基准覆盖34个地区和22种语言, 评估显示现有模型的安全防护存在显著的跨语言与跨区域不平衡.

Integrating LTL Constraints into PPO for Safe Reinforcement Learning

Maifang Zhang et al.

cs.LG cs.AI cs.LO cs.RO

本文提出了一种将LTL约束集成到PPO算法中的安全强化学习框架PPO-LTL. 该框架通过limit-deterministic Büchi automata监控LTL约束违规, 并将其转化为惩罚信号, 结合Lagrangian方法指导策略优化. 实验表明, 该方法能在保持性能的同时有效减少安全违规.

Theoretical Perspectives on Data Quality and Synergistic Effects in Pre- and Post-Training Reasoning Models

Adel Javanmard, Baharan Mirzasoleiman, Vahab Mirrokni

cs.LG cs.AI stat.ML

本文通过理论分析transformer在linear regression的in-context weight prediction任务上的训练，探讨了pretraining和post-training阶段数据质量与规模的不同影响。研究发现，balanced pretraining data能激发latent capabilities，而SFT在small, challenging数据集上表现最佳，RL则受益于large-scale, not overly difficult的数据。

I Can't Believe It's Not Robust: Catastrophic Collapse of Safety Classifiers under Embedding Drift

Subramanyam Sahoo et al.

cs.LG cs.CL

本文研究了基于冻结嵌入的安全分类器在指令调优模型更新下的鲁棒性假设. 研究发现, 即使嵌入空间发生微小的角度漂移, 也会导致分类器性能灾难性下降, 同时置信度下降却不明显, 造成难以监测的静默失效. 这揭示了当前AI安全架构中的一个根本性脆弱环节.

Nonconvex Latent Optimally Partitioned Block-Sparse Recovery via Log-Sum and Minimax Concave Penalties

Takanobu Furuhashi et al.

cs.LG stat.ML

本文提出了两种非凸正则化方法, 用于恢复具有未知块划分的块稀疏信号. 通过数值实验验证了所提方法在估计精度上优于现有基线.

PAC Guarantees for Reinforcement Learning: Sample Complexity, Coverage, and Structure

Joshua Steier

cs.LG stat.ML

本文综述了强化学习中的PAC理论进展, 提出了一个用于分解样本复杂度结果的Coverage-Structure-Objective (CSO)解释性框架. 文章涵盖了表格设定、函数逼近、离线RL等多个场景, 并提供了面向实践者的工具和开放问题列表.

Provable and Practical In-Context Policy Optimization for Self-Improvement

Tianrun Yu et al.

cs.LG cs.AI

本文提出了一种称为In-Context Policy Optimization (ICPO)的方法，用于在推理时通过多轮自我反思来改进模型输出。该方法不更新模型参数，而是利用自我评估或外部观察的奖励在上下文（context）中优化响应。基于理论分析，作者进一步提出了一个实用的算法ME-ICPO，在数学推理任务上取得了有竞争力的性能。

Relatively Smart: A New Approach for Instance-Optimal Learning

Shaddin Dughmi, Alireza F. Pour

cs.LG stat.ML

本文提出了"相对智能学习"的新框架, 要求监督学习器仅与可被"认证"的最佳半监督学习保证竞争. 作者证明了这种适度的放松足以绕过先前工作中的不可能性结果, 并分析了该框架在分布无关和分布族设置下的样本复杂度和可行性.

UTICA: Multi-Objective Self-Distllation Foundation Model Pretraining for Time Series Classification

Yessin Moakher, Youssef Attia El Hili, Vasilii Feofanov

cs.LG cs.AI

本文提出了一种基于非对比自蒸馏预训练的时间序列基础模型UTICA. 该方法在多个基准数据集上取得了先进的分类性能.

Constructing Synthetic Instruction Datasets for Improving Reasoning in Domain-Specific LLMs: A Case Study in the Japanese Financial Domain

Yuma Okochi, Fabio Milentiansen Sim, Tomoyasu Okada

cs.LG cs.AI cs.CL

本文提出了一种为特定领域构建高质量合成指令数据的通用方法, 并以金融领域为例进行了演示. 该方法从领域词汇出发, 生成了包含 Chain-of-Thought 推理轨迹的大规模指令数据集, 并在领域基准测试上验证了其有效性.

Fed-GAME: Personalized Federated Learning with Graph Attention Mixture-of-Experts For Time-Series Forecasting

Yi Li et al.

cs.LG cs.DC

本文提出了一种用于时间序列预测的个性化联邦学习框架Fed-GAME. 它通过一个可学习的动态隐式图对个性化聚合进行建模, 并引入了一种新颖的Graph Attention Mixture-of-Experts聚合器来实现细粒度的个性化.

Align and Filter: Improving Performance in Asynchronous On-Policy RL

Homayoun Honari et al.

cs.LG cs.AI cs.RO eess.SY

本文提出了一种名为VACO的方法, 用于缓解分布式和高频更新强化学习中的policy lag问题. 该方法在经典任务和大语言模型数学推理任务中展现了更好的鲁棒性.

DUEL: Exact Likelihood for Masked Diffusion via Deterministic Unmasking

Gilad Turok, Chris De Sa, Volodymyr Kuleshov

cs.LG

本文提出了一个名为DUEL的框架, 用于为masked diffusion models (MDMs) 提供精确的似然计算. 该方法统一了主流的MDM采样策略, 并首次使得MDMs能够进行正确的perplexity评估.

Causal Neural Probabilistic Circuits

Weixin Chen, Han Zhao

cs.LG cs.AI

本文提出了一种结合神经属性预测器和因果概率电路的模型, 用于在概念瓶颈模型中进行因果干预. 该模型通过专家乘积融合预测分布与干预边际, 并在多个数据集上验证了其有效性.

3BASiL: An Algorithmic Framework for Sparse plus Low-Rank Compression of LLMs

Mehdi Makni, Xiang Meng, Rahul Mazumder

cs.LG stat.ML

本文提出了一种用于大型语言模型稀疏加低秩压缩的算法框架3BASiL-TM。该方法通过一种新的3块ADMM算法和Transformer级别的联合优化步骤，在保持模型性能的同时实现了高效的压缩。

Invariant-Stratified Propagation for Expressive Graph Neural Networks

Asela Hevapathige et al.

cs.LG stat.ML

本文提出了一个名为Invariant-Stratified Propagation (ISP)的框架，用于增强图神经网络的表达能力。该方法通过分层处理节点来编码高阶结构信息，在多项图任务上取得了优于现有方法的性能。

One Operator to Rule Them All? On Boundary-Indexed Operator Families in Neural PDE Solvers

Lennon J. Shikhman

cs.LG math.NA

本文探讨了神经网络求解偏微分方程(PDE)时对边界条件的泛化能力. 作者认为, 标准神经算子(neural operator)学习到的是一个依赖于训练数据中边界条件分布的算子族, 而非一个单一的、与边界无关的算子. 理论分析和在Poisson方程上的实验表明, 模型在训练分布之外的边界条件上泛化能力会急剧下降.

Tackling multiphysics problems via finite element-guided physics-informed operator learning

Yusuke Yamazaki et al.

cs.LG

本文提出了一种基于有限元引导的物理信息算子学习框架, 用于处理任意域上的多物理场耦合PDE问题. 该框架利用基于有限元的加权残差形式进行训练, 实现了与离散化无关的预测, 并在非线性热力学问题上进行了验证.

Autoregressive Synthesis of Sparse and Semi-Structured Mixed-Type Data

Thomas Rückstieß, Robin Vujanic

cs.LG

本文提出了一种名为Origami的自回归Transformer架构, 用于生成稀疏和半结构化的混合类型数据. 该方法通过将数据记录(包括嵌套对象和变长数组) token化为键、值和结构标记的序列, 避免了传统方法所需的扁平化处理, 并在多个评估指标上优于现有基线模型.

Randomized Kiring Believer for Parallel Bayesian Optimization with Regret Bounds

Shuhei Sugiura, Ichiro Takeuchi, Shion Takeno

cs.LG stat.ML

本文提出了一种名为randomized kriging believer的并行贝叶斯优化方法, 该方法基于经典的KB启发式策略, 具有计算复杂度低, 实现简单等优点. 实验表明该方法在合成与真实数据基准函数上有效.

GAC: Stabilizing Asynchronous RL Training for LLMs via Gradient Alignment Control

Haofeng Xu et al.

cs.LG cs.AI

本文针对异步强化学习训练中的不稳定性问题, 提出了一种名为Gradient Alignment Control (GAC)的稳定方法. 该方法通过梯度投影来调控沿陈旧梯度方向的更新, 从而恢复稳定的训练动态.

Training Dynamics of Softmax Self-Attention: Fast Global Convergence via Preconditioning

Gautam Goel, Mahdi Soltanolkotabi, Peter Bartlett

cs.LG stat.ML

本文研究了用于线性回归的softmax self-attention层在梯度下降下的训练动态. 通过将问题转化为一个非凸矩阵分解问题, 作者提出了一种结构感知的梯度下降变体, 该算法结合了预条件子、正则化器和数据相关的谱初始化, 从而能以几何速率收敛到全局最优参数.

Scalable Multi-Task Low-Rank Model Adaptation

Zichen Tian, Antoine Ledent, Qianru Sun

cs.LG

本文针对多任务低秩适应(LoRA)在任务数量增加时性能急剧下降的问题, 提出了mtLoRA方法. 该方法通过谱感知正则化, 块级适应和细粒度路由等设计, 在多个大规模视觉与NLP基准上取得了更好的性能, 同时减少了参数量和训练时间.

LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models

Chenxing Wei et al.

cs.LG cs.AI

本文提出了一种名为LFPO的免似然策略优化方法, 用于解决在离散token空间中对Diffusion Large Language Models进行强化学习对齐时, 因精确似然计算不可行而带来的挑战. 该方法将对齐问题表述为几何速度校正, 通过对比更新直接优化去噪logits, 从而绕过似然近似误差, 并在代码和推理基准上取得了优于现有方法的效果, 同时通过减少扩散步骤加速了推理.

Rate-Distortion Signatures of Generalization and Information Trade-offs

Leyla Roksan Caglar, Pedro A.M. Mediano, Baihan Lin

cs.LG cs.CV cs.IT q-bio.NC

本文提出了一种基于rate-distortion理论的框架，用于分析视觉系统在泛化过程中的准确性与鲁棒性权衡。该框架从混淆矩阵中推导出rate-distortion边界，并用两个几何特征（斜率$\beta$和曲率$\kappa$）来刻画这种权衡。通过将此框架应用于人类心理物理学数据和多种深度视觉模型，研究发现人工系统与生物系统遵循相似的压缩原理，但在权衡的平滑性与灵活性上存在系统性差异。

Jump Like A Squirrel: Optimized Execution Step Order for Anytime Random Forest Inference

Daniel Biebert et al.

cs.LG stat.ML

本文提出了一种在决策树和随机森林中实现"随时算法"(anytime algorithm)的新方法, 将执行粒度细化到单步决策节点. 通过设计节点访问顺序来优化平均预测精度, 并提出了多项式时间启发式算法.

SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond

Xiangyang Zhu et al.

cs.LG cs.AI

本文提出了一个用于评估和增强大型语言模型在科学领域安全性的综合框架 SafeSci. 该框架包含一个多学科基准测试集和一个用于安全增强的大规模训练数据集, 并通过客观指标评估了多个先进模型, 揭示了其安全漏洞.

FAST-DIPS: Adjoint-Free Analytic Steps and Hard-Constrained Likelihood Correction for Diffusion-Prior Inverse Problems

Minwoo Kim, Seunghyeok Shin, Hongki Lim

cs.LG cs.AI cs.CV

本文提出了一种用于扩散先验逆问题求解的训练无关方法FAST-DIPS, 它通过引入硬测量空间可行性约束和解析最优步长来避免内部优化循环, 从而显著减少了计算开销. 该方法在多个图像重建任务中实现了有竞争力的性能, 同时获得了高达19.5倍的加速.

Boosting Entropy with Bell Box Quantization

Ningfeng Yang, Tor M. Aamodt

cs.LG

本文提出了一种名为BBQ的量化方法, 它能够在保持计算效率的同时实现信息理论最优(ITO)的量化. 该方法通过将量化输出映射到计算高效的数据类型域中, 从而在模型精度上超越了现有的量化感知预训练方法.

Towards OOD Generalization in Dynamic Graphs via Causal Invariant Learning

Xinxun Zhang et al.

cs.LG

本文提出了一种用于动态图OOD泛化的因果不变学习模型DyCIL. 该模型通过因果视角识别不变的时空模式, 并设计了因果感知的注意力模块和环境生成器来捕获演化规律和分布偏移. 实验表明该模型在多种OOD场景下优于现有基线方法.

DeLo: Dual Decomposed Low-Rank Experts Collaboration for Continual Missing Modality Learning

Xiwei Liu et al.

cs.LG cs.AI

本文提出了一种名为DeLo的新框架, 用于解决持续缺失模态学习(CMML)问题. 该方法通过解耦的低秩专家架构来缓解模态干扰, 并在基准测试中取得了优于现有方法的结果.

Transform-Invariant Generative Ray Path Sampling for Efficient Radio Propagation Modeling

Jérome Eertmans et al.

cs.LG eess.SP

本文提出了一种基于Generative Flow Networks的机器学习框架, 用于高效采样射线路径, 以加速射线追踪计算. 该方法通过经验回放, 均匀探索策略和物理动作掩码等技术, 在保持高覆盖精度的同时, 实现了显著的加速.

FreeGNN: Continual Source-Free Graph Neural Network Adaptation for Renewable Energy Forecasting

Abderaouf Bahi et al.

cs.LG cs.AI

本文提出了一种用于可再生能源预测的持续源无关图神经网络适应框架 FreeGNN. 该框架结合了时空图神经网络、师生策略、记忆回放和漂移感知加权, 能够在无需源数据或目标标签的情况下对未见站点进行自适应预测, 并在多个真实数据集上验证了其有效性.

A Practical Guide to Streaming Continual Learning

Andrea Cossu et al.

cs.LG cs.AI

本文讨论了Streaming Continual Learning (SCL)这一新兴范式, 旨在统一处理数据流中的快速适应与知识保留问题. 文章通过实验说明了单独使用Continual Learning或Streaming Machine Learning方法的局限性.

Reasoning as Gradient: Scaling MLE Agents Beyond Tree Search

Yifei Zhang et al.

cs.LG cs.AI

本文提出了一种名为Gome的MLE agent，它将基于梯度的优化思想应用于机器学习工程任务。该方法将诊断性推理映射为梯度计算，在封闭世界协议下取得了当前最优的性能。实验表明，随着模型推理能力的增强，基于梯度的方法相比传统的树搜索展现出越来越大的优势。

Streaming Continual Learning for Unified Adaptive Intelligence in Dynamic Environments

Federico Giannini et al.

cs.LG cs.AI

本文提出了Streaming Continual Learning (SCL)这一统一框架，旨在结合Continual Learning (CL)和Streaming Machine Learning (SML)的优势，以处理动态变化的数据流。文章概述了CL和SML，并讨论了将两者结合以推进智能系统发展的前景。

DynaMoE: Dynamic Token-Level Expert Activation with Layer-Wise Adaptive Capacity for Mixture-of-Experts Neural Networks

Gökdeniz Gülmez

cs.LG cs.AI

本文提出了一种名为 DynaMoE 的新型 Mixture-of-Experts 框架，它通过动态的 token-level 专家激活和 layer-wise 自适应容量分配，放松了传统 MoE 模型的两个刚性设计假设。实验表明，该方法在多个任务和模型规模上实现了更好的参数效率，并且最优的专家调度策略依赖于具体任务和模型规模。

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training

Jinluan Yang et al.

cs.LG cs.CL

本文提出了一个名为TopoCurate的交互感知框架，用于改进工具使用智能体的训练。该方法通过将同一任务的多轮尝试投影到一个统一的语义商拓扑中，来建模交互动态，并基于此进行数据筛选。

Decentralized Federated Learning by Partial Message Exchange

Shan Sha et al.

cs.LG

本文提出了一种名为PaME的去中心化联邦学习算法, 通过随机选择部分坐标进行邻居节点间的消息交换, 以降低通信成本并增强隐私. 理论分析表明该算法在较温和的局部Lipschitz连续和双随机通信矩阵假设下具有线性收敛速率.

CA-AFP: Cluster-Aware Adaptive Federated Pruning

Om Govind Jha, Harsh Shukla, Haroon R. Lone

cs.LG cs.AI cs.DC

本文提出了一个名为CA-AFP的统一联邦学习框架，通过执行集群感知的自适应模型剪枝来同时处理统计异质性和系统异质性。该方法在人类活动识别基准测试上取得了预测精度、公平性和通信效率之间的良好平衡。

Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

Naoki Shitanda et al.

cs.LG cs.AI cs.RO

本文提出了一种在集成策略梯度方法中调控策略多样性的新方法, 称为Coupled Policy Optimization. 该方法通过引入策略间的KL约束来调节探索的广度与质量, 并在多个任务上验证了其优于基线方法的性能.

Discrete World Models via Regularization

Davide Bizzaro, Luciano Serafini

cs.LG cs.AI

本文提出了一种无需重构和对比的无监督Boolean world-model学习方法DWMR. 该方法通过结合潜在预测与专门的regularizer来学习离散表示, 并在具有组合结构的benchmark上取得了优于基于重构方法的表现.

Practical Deep Heteroskedastic Regression

Mikkel Jordahn et al.

cs.LG

本文提出了一种用于深度异方差回归的后处理方法, 通过在一个保留数据集上拟合预训练网络中间层的方差模型, 来联合解决优化困难、表示崩溃和方差过拟合等挑战. 该方法在多个分子图数据集上实现了与先进水平相当的uncertainty quantification, 且不影响均值预测精度.

Causal Circuit Tracing Reveals Distinct Computational Architectures in Single-Cell Foundation Models: Inhibitory Dominance, Biological Coherence, and Cross-Model Convergence

Ihor Kendiukhov

cs.LG q-bio.CB q-bio.GN

本文提出了一种名为causal circuit tracing的方法, 通过ablate稀疏自编码器(SAE)特征并测量下游响应来研究单细胞基础模型中特征间的因果交互. 该方法应用于Geneformer和scGPT模型, 揭示了模型间保守的计算架构, 包括抑制性主导和生物学一致性等模式.

Meta-Learning Hyperparameters for Parameter Efficient Fine-Tuning

Zichen Tian, Yaoyao Liu, Qianru Sun

cs.LG

本文提出了一种名为MetaPEFT的方法，用于动态调整参数高效微调(PEFT)中的超参数，如模块插入位置、层选择和模块级学习率。该方法在遥感图像和自然图像的多个数据集上进行了实验，结果表明其能以较少的可训练参数提升性能，特别是在尾部类别上。

Modular Memory is the Key to Continual Learning Agents

Vaggelis Dorovatas et al.

cs.LG cs.AI

本文提出了一种结合In-Weight Learning (IWL)和In-Context Learning (ICL)的模块化记忆框架，旨在解决持续学习中的灾难性遗忘问题，并构建能够持续适应和积累知识的智能体。

DGNet: Discrete Green Networks for Data-Efficient Learning of Spatiotemporal PDEs

Yingjie Tan, Quanming Yao, Yaqing Wang

cs.LG

本文提出了一种名为DGNet的离散Green网络, 用于数据高效地学习时空偏微分方程(PDEs). 该方法将Green函数理论转化为图离散形式, 并将叠加原理嵌入混合物理-神经架构中, 从而在少量训练轨迹下实现高精度和良好的泛化能力.

CHLU: The Causal Hamiltonian Learning Unit as a Symplectic Primitive for Deep Learning

Pratik Jawahar, Maurizio Pierini

cs.LG cs.AI physics.app-ph

本文提出了一种名为Causal Hamiltonian Learning Unit (CHLU)的新型深度学习基本单元, 旨在解决处理时间动态时记忆与稳定性之间的权衡问题. 它通过强制实施Relativistic Hamiltonian结构和使用symplectic integration来严格守恒相空间体积, 并展示了其在无限时间范围稳定性和可控噪声滤波方面的潜力.

Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport

Harry Amad, Mihaela van der Schaar

cs.LG cs.AI

本文提出了一种基于条件 Lagrangian optimal transport 的方法，用于推断神经网络超参数变化时的输出轨迹。该方法构建了一个替代模型，以近似神经网络在未观测超参数设置下的行为，并在多个超参数谱上进行了实证验证。

D3LM: A Discrete DNA Diffusion Language Model for Bidirectional DNA Understanding and Generation

Zhao Yang et al.

cs.LG q-bio.GN

本文提出了一种名为D3LM的离散DNA扩散语言模型，用于统一DNA的理解与生成任务。该模型采用掩码扩散目标进行训练，在多项任务上超越了之前的自回归模型。

Learning Shortest Paths with Generative Flow Networks

Nikita Morozov et al.

cs.LG cs.AI stat.ML

本文提出了一种利用Generative Flow Networks (GFlowNets) 在图中寻找最短路径的新学习框架。该方法通过流正则化训练非循环GFlowNet来解决路径寻找问题，并在置换环境和魔方求解任务上进行了实验验证。

Phase-Type Variational Autoencoders for Heavy-Tailed Data

Abdelhakim Ziani, András Horváth, Paolo Ballarini

cs.LG cs.AI stat.ML stat.OT

本文提出了一种使用 Phase-Type 分布作为解码器的变分自编码器（PH-VAE），用于建模重尾数据。该方法通过连续时间马尔可夫链的吸收时间来定义灵活的分布，在实验中相比传统解码器能更好地捕捉尾部行为和极端分位数。

Uncertainty Quantification of Click and Conversion Estimates for the Autobidding

Ivan Zhigalskii et al.

cs.LG cs.GT stat.ML

本文提出了一种名为 DenoiseBid 的方法，用于在自动出价系统中处理点击率和转化率预测的不确定性。该方法采用贝叶斯方法，用恢复分布中的估计值替代有噪声的预测，并通过在合成和真实数据集上的实验验证了其有效性。

Constrained Particle Seeking: Solving Diffusion Inverse Problems with Just Forward Passes

Hongkun Dou et al.

cs.LG stat.ML

本文提出了一种无需梯度信息的扩散模型采样方法, 用于解决逆问题. 该方法通过约束优化主动搜索最优样本, 在图像和科学逆问题上取得了与基于梯度的方法相当的结果.

Trivial Graph Features and Classical Learning are Enough to Detect Random Anomalies

Matthieu Latapy, Stephany Rajeh

cs.LG

本文提出了一种基于简单图特征和经典学习技术的方法来检测链路流中的随机异常. 该方法计算成本低且结果易于解释, 并通过大量实验验证了其有效性.

Tide: A Customisable Dataset Generator for Anti-Money Laundering Research

Montijn van den Beukel, Jože Martin Rožanec, Ana-Lucia Varbanescu

cs.LG cs.AI

本文提出了一个名为Tide的开源合成数据集生成器，用于反洗钱研究。它能够生成结合了结构和时间特征的图金融网络，并提供了两个具有不同非法交易比例的参考数据集。

Diagnosing Generalization Failures from Representational Geometry Markers

Chi-Ning Chou et al.

cs.LG cs.AI

本文提出了一种基于表征几何的"自上而下"方法来预测机器学习模型的泛化失败. 该方法通过分析任务相关对象流形(manifold)的几何特性, 如有效维度和效用(utility), 来预测模型在分布外(OOD)数据上的性能, 并发现这些几何指标比分布内(ID)准确率更能可靠地预测迁移学习的效果.

SEAR: Sample Efficient Action Chunking Reinforcement Learning

C. F. Maximilian Nagy et al.

cs.LG

本文提出了一种名为SEAR的在线强化学习算法, 用于处理动作分块(action chunking)问题. 该方法通过利用动作块的时间结构和采用滚动时域(receding horizon)策略, 在Metaworld环境中优于现有在线方法, 并能处理较大的分块尺寸.

Efficient RLVR Training via Weighted Mutual Information Data Selection

Xinyu Zhou et al.

cs.LG cs.CL

本文提出了一种基于加权互信息的数据选择方法 InSight，用于提升强化学习训练的效率。该方法通过建模数据的贝叶斯潜在成功率，构建了一个稳定的获取分数，在多个基准测试上实现了性能提升和训练加速。

Dream2Learn: Structured Generative Dreaming for Continual Learning

Salvatore Calcagno et al.

cs.LG cs.AI

本文提出了一种名为Dream2Learn的持续学习框架, 其核心思想是让模型通过内部表征自主生成结构化的合成经验(即"梦境")用于自我改进. 该方法利用冻结的扩散模型, 通过分类器驱动的软提示优化来生成新颖的、语义上独特的"梦境"类别样本, 以重组表征空间并促进前向知识迁移.

Explanation-Guided Adversarial Training for Robust and Interpretable Models

Chao Chen et al.

cs.LG cs.AI

本文提出了一种结合对抗训练与解释引导学习的统一框架EGAT, 旨在同时提升模型的预测性能、鲁棒性和解释质量。该方法在训练中动态生成对抗样本并施加基于解释的约束, 实验表明其在OOD基准数据集上优于基线方法。

BAED: a New Paradigm for Few-shot Graph Learning with Explanation in the Loop

Chao Chen et al.

cs.LG

本文提出了一种名为BAED的框架, 将解释机制融入Few-Shot Graph Learning (FSGL)的训练循环中. 该框架利用belief propagation进行标签增强, 并通过提取解释性子图来提升模型的鲁棒性和预测准确性.

Probabilistic Retrofitting of Learned Simulators

Cristiana Diaconu et al.

cs.LG cs.AI cs.CE

本文提出了一种通过使用Continuous Ranked Probability Score (CRPS) 对预训练的确定性PDE模拟器进行概率性改造的方法. 该方法架构无关, 能以较低的训练成本提升模型在混沌不确定系统上的概率预测性能.

Christopher Driggers-Ellis et al.

cs.LG cs.CL cs.CV

本文通过构建一个初步的基准测试，评估了生成式视觉语言模型在漫画页面级理解任务上的表现。作者识别并分类了模型在此过程中产生的幻觉现象，并提出了未来研究方向。

Accelerating Single-Pass SGD for Generalized Linear Prediction

Qian Chen, Shihong Ding, Cong Fang

cs.LG math.OC stat.ML

本文针对流式设定下的广义线性预测问题, 提出了一种结合动量加速的单次遍历SGD算法. 该算法通过一种新颖的数据依赖近端方法实现了双重动量加速, 并分析了其超额风险界.

The Expressive Limits of Diagonal SSMs for State-Tracking

Mehran Shakerinava et al.

cs.LG

本文研究了输入依赖的复值对角状态空间模型在序列状态跟踪任务上的表达能力. 证明了单层模型无法精确表达任何非阿贝尔群的状态跟踪, 并给出了多层模型表达能力与群结构之间的精确对应关系.

TiledAttention: a CUDA Tile SDPA Kernel for PyTorch

Taimur Khan

cs.LG cs.AI

本文介绍了一个名为TiledAttention的CUDA Tile SDPA (scaled dot-product attention) 前向算子，用于在NVIDIA GPU上进行注意力机制研究。它通过Python层的调度控制实现了性能与可定制性的平衡，相比未融合的基线实现了显著的加速。

CoVAE: correlated multimodal generative modeling

Federico Caretti, Guido Sanguinetti

cs.LG q-bio.QM

本文提出了一种名为CoVAE的新型多模态生成模型, 旨在捕获不同模态数据间的相关性. 该方法在多个数据集上展示了其在跨模态重建和不确定性量化方面的有效性.

Intrinsic Task Symmetry Drives Generalization in Algorithmic Tasks

Hyeonbin Hwang, Yeachan Park

cs.LG cs.AI

本文研究了神经网络在算法任务中从记忆到泛化的突然转变现象(grokking). 作者提出内在任务对称性是驱动这一过程并塑造表示空间几何结构的关键因素, 并通过实验验证了该观点.

MatRIS: Toward Reliable and Efficient Pretrained Machine Learning Interaction Potentials

Yuanchang Zhou et al.

cs.LG cs.AI

本文提出了一种名为MatRIS的不变机器学习相互作用势模型, 通过引入基于注意力的三体相互作用建模, 并利用一种具有线性复杂度$O(N)$的新型可分离注意力机制, 在保持表达力的同时实现了可扩展性. 该模型在多个基准测试中达到了与领先的等变模型相当的精度, 但训练成本更低.

Mitigating topology biases in Graph Diffusion via Counterfactual Intervention

Wendi Wang et al.

cs.LG cs.AI cs.SI

本文提出了一种基于反事实干预的图扩散模型(FairGDiff), 用于缓解图生成中的拓扑偏差. 该方法通过在扩散过程中引入对敏感属性的反事实估计, 旨在生成更公平的图结构.

Temporal Representations for Exploration: Learning Complex Exploratory Behavior without Extrinsic Rewards

Faisal Mohamed et al.

cs.LG

本文提出了一种基于temporal contrastive representations的探索方法, 该方法通过优先访问未来结果难以预测的状态来引导智能体探索. 该方法在locomotion, manipulation和embodied-AI任务中展示了无需外部奖励即可学习复杂探索行为的能力.

Noise-Calibrated Inference from Differentially Private Sufficient Statistics in Exponential Families

Amir Asiaee, Samhita Pal

cs.LG stat.ML

本文提出了一种在指数族分布中进行差分隐私推断的噪声校准方法. 该方法通过发布差分隐私的充分统计量, 并基于此进行噪声校准的似然推断, 为隐私保护下的不确定性量化提供了理论框架.

CausalWrap: Model-Agnostic Causal Constraint Wrappers for Tabular Synthetic Data

Amir Asiaee, Zhuohui J. Liang, Chao Yan

cs.LG

本文提出了一种模型无关的包装器CausalWrap, 用于将部分因果知识注入到预训练的表格数据生成器中, 以提升合成数据在因果推理任务中的保真度. 该方法通过一个轻量级的后处理校正映射来优化生成样本, 在多个基准数据集上验证了其有效性.

Revealing Combinatorial Reasoning of GNNs via Graph Concept Bottleneck Layer

Yue Niu et al.

cs.LG cs.AI

本文提出了一种可集成到任意GNN架构中的graph concept bottleneck layer, 旨在揭示模型预测背后的组合推理逻辑. 该方法将图视为句子、概念视为单词, 并利用语言模型学习概念嵌入, 通过一个稀疏线性层将概念得分映射到类别标签, 从而量化每个概念对预测的贡献.

Latent attention on masked patches for flow reconstruction

Ben Eze, Luca Magri, Andrea Nóvoa

cs.LG

本文提出了一种基于vision transformer的LAMP模型, 用于从部分观测中重建流体动力学流场. 该方法通过patch划分, POD降维和线性回归训练的transformer, 在含噪输入下实现了准确重建, 并提供了可解释的传感器布局图.

Leave-One-Out Prediction for General Hypothesis Classes

Jian Qian, Jiachen Xu

cs.LG stat.ML

本文提出了一种名为Median of Level-Set Aggregation (MLSA)的通用聚合方法，用于分析留一法(LOO)预测的泛化误差。在满足温和单调性条件的任意固定数据集和损失函数下，作者建立了一个乘法形式的oracle不等式。该分析基于一个控制经验风险最小化器附近集合增长的局部水平集增长条件，并在多个经典场景中验证了该条件，得到了与VC维或假设类大小相关的复杂度上界。

Expanding LLM Agent Boundaries with Strategy-Guided Exploration

Andrew Szot et al.

cs.LG

本文提出了一种名为Strategy-Guided Exploration (SGE)的方法，用于改进大型语言模型(LLM)作为智能体(agent)在强化学习(RL)中的探索过程。该方法通过让LLM生成高层次的自然语言策略来指导低层动作，从而在多个任务环境中提升了学习效率和最终性能。

Strategic Advice in the Age of Personal AI

Yueyang Liu, Wichinpong Park Sinchaisri

cs.LG cs.GT cs.HC

本文研究了个人AI助手如何改变人们获取专业建议的策略环境. 作者建立了一个博弈论模型, 分析顾问如何应对可预测的AI建议, 并探讨了AI使用频率和权重对顾问表现的影响.

Never Saddle for Reparameterized Steepest Descent as Mirror Flow

Tom Jacobs, Chao Zhou, Rebekka Burkholz

cs.LG

本文通过引入steepest mirror flows这一理论框架, 分析了包括sign descent在内的steepest descent方法的优化几何如何影响学习动态和隐式偏好. 作者以对角线性网络等模型为例, 说明更陡峭的下降有助于逃离鞍点和学习特征, 并解释了Adam类优化器在微调中的优势.

Accelerating PDE Surrogates via RL-Guided Mesh Optimization

Yang Meng et al.

cs.LG

本文提出了一种名为RLMesh的框架, 利用强化学习(RL)自适应地分配偏微分方程(PDE)模拟中的网格点, 以在有限的模拟预算下高效训练深度代理模型(surrogate model). 该方法通过一个轻量级代理模型加速RL训练, 在多个PDE基准测试中, 以更少的模拟查询达到了与基线方法相当的精度.

Scaling Laws of SignSGD in Linear Regression: When Does It Outperform SGD?

Jihwan Kim, Dogyoon Song, Chulhee Yun

cs.LG cs.AI math.OC stat.ML

本文在 power-law random features (PLRF) 模型下，分析了 signSGD 在线性回归问题中的 scaling laws。通过与 SGD 的风险比较，研究发现了 signSGD 特有的 drift-normalization 和 noise-reshaping 效应，并探讨了在何种噪声主导的机制下，signSGD 的计算最优斜率可能优于 SGD。

Learning from Synthetic Data Improves Multi-hop Reasoning

Anmol Kabra et al.

cs.LG cs.AI cs.CL

本文探讨了使用规则生成的合成数据对大型语言模型进行强化学习微调，以提升其在多跳推理任务上的表现。研究发现，尽管合成数据仅包含虚构知识，但经过微调的模型在真实世界问答基准测试中表现更优，表明合成数据能有效教授模型知识组合这一基础推理技能。

Adam Converges Without Any Modification On Update Rules

Yushun Zhang et al.

cs.LG math.OC

本文分析了Adam优化器的收敛性, 指出其发散反例与实践中超参数调整顺序的差异. 作者证明了当$\beta_2$足够大且$\beta_1 < \sqrt{\beta_2}$时Adam收敛, 并识别了导致发散的超参数区域, 为超参数调整提供了理论指导.

On the Rate of Convergence of GD in Non-linear Neural Networks: An Adversarial Robustness Perspective

Guy Smorodinsky, Sveta Gimpleson, Itay Safran

cs.LG cs.AI

本文研究了在最小二分类设置下, 梯度下降(GD)在两层ReLU网络中的收敛动态. 证明了即使在此简化模型中, GD收敛到最优鲁棒性边界(robustness margin)的速率也极慢, 为$\Theta(1/\ln(t))$, 并通过实验验证了该速率在不同初始化下的普遍性.

Stochastic Multi-Armed Bandits with Limited Control Variates

Arun Verma, Manjesh Kumar Hanawal, Arun Rajkumar

cs.LG

本文针对控制变量(control variates)并非每轮都可用的随机多臂老虎机问题, 提出了UCB-LCV算法. 该算法有效结合了来自奖励和控制变量的估计量, 并在无控制变量时退化为一个针对正态分布奖励的新算法UCB-NORMAL, 实验表明其性能优于现有方法.

Recursive Models for Long-Horizon Reasoning

Chenxiao Yang, Nathan Srebro, Zhiyuan Li

cs.LG cs.CL

本文提出了一种基于递归的模型框架, 用于克服语言模型在长程推理中受限于有界上下文的问题. 该框架允许模型递归调用自身在隔离上下文中解决子任务, 并在理论上证明了其相对于标准自回归模型在上下文需求上的优势.

Machine Learning (ML) library in Linux kernel

Viacheslav Dubeyko

cs.LG cs.OS

本文提出了一种在Linux内核中集成机器学习(ML)功能的架构方案. 由于内核空间不支持浮点运算(FPU)且ML模型可能带来性能问题, 作者设计了一个ML库基础设施, 并通过概念验证(PoC)项目展示了其可行性, 实现了内核空间代理与用户空间ML模型线程的交互接口.

Near-Optimal Regret for KL-Regularized Multi-Armed Bandits

Kaixuan Ji et al.

cs.LG cs.AI math.ST stat.ML

本文针对KL-regularized multi-armed bandits问题，分析了KL-UCB算法的regret上界与下界。研究结果表明，regret在强正则化区域与弱正则化区域分别呈现不同的依赖关系，为理解该正则化目标下的在线学习效率提供了全面的理论刻画。

SageBwd: A Trainable Low-bit Attention

Jintao Zhang et al.

cs.LG cs.AI

本文研究了可训练的INT8低精度注意力机制SageBwd在预训练阶段与全精度注意力(FPA)的性能差距问题. 通过实验和理论分析, 作者发现并验证了QK-norm, 减少每步token数等方法对于缩小这一差距的重要性.

De-paradox Tree: Breaking Down Simpson's Paradox via A Kernel-Based Partition Algorithm

Xian Teng, Yu-Ru Lin

cs.LG

本文提出了一种名为De-paradox Tree的可解释算法，用于在观测数据中检测和解释Simpson's paradox。该方法通过递归分区来调整混杂因子并识别隐藏的亚组模式，旨在为非专家提供更可靠的决策支持。

Reservoir Subspace Injection for Online ICA under Top-n Whitening

Wenjun Xiao, Yuda Bi, Vince D Calhoun

cs.LG cs.AI stat.ML

本文针对非线性混合下的在线独立成分分析(online ICA)问题, 研究了reservoir expansion结合top-$n$ whitening时可能出现的特征注入失效现象. 作者提出了reservoir subspace injection (RSI)的诊断指标与控制方法, 在保留passthrough方向的同时恢复了性能.

MAC: A Conversion Rate Prediction Benchmark Featuring Labels Under Multiple Attribution Mechanisms

Jinqi Wu et al.

cs.LG cs.AI

本文提出了首个包含多归因机制标签的公开转化率预测数据集MAC, 并开发了开源库PyMAL以促进该领域的研究. 基于此基准的实验揭示了多归因学习的一些关键特性, 并提出了一个名为MoAE的新方法, 其在实验中表现优于现有技术.

Multi-Head Low-Rank Attention

Songtao Liu et al.

cs.LG

本文提出了一种名为Multi-Head Low-Rank Attention (MLRA)的新注意力机制, 旨在解决现有Multi-Head Latent Attention (MLA)方法在分布式张量并行解码时的分片瓶颈问题. 该方法通过设计可分割的潜在状态, 实现了高效的4路张量并行解码, 在减少KV缓存大小的同时提升了推理速度.

Symbol-Equivariant Recurrent Reasoning Models

Richard Freinschlag et al.

cs.LG cs.AI stat.ML

本文提出了Symbol-Equivariant Recurrent Reasoning Models (SE-RRMs), 一种通过引入symbol-equivariant层来显式编码符号置换对称性的推理模型架构. 该方法在数独和ARC-AGI任务上超越了之前的模型, 并展现出更好的泛化能力和数据效率.

Frontier Models Can Take Actions at Low Probabilities

Alex Serrano et al.

cs.LG

本文通过实验评估了前沿大语言模型(GPT-5, Claude-4.5, Qwen-3)执行低概率目标动作的能力与校准性。研究发现，当上下文提供熵源(如UUID)时，模型能在极低概率(低于十万分之一)下保持良好校准；若无外部熵，部分模型仍能达到万分之一级别。模型在需要自行推导最优目标概率时表现不佳，且成功的低概率策略依赖于显式的思维链推理。

Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions

Amir Asiaee, Kavey Aryan, James P. Long

cs.LG stat.ML

本文研究了在干预环境下进行有效的选择性共形推断的问题. 作者提出了一种对污染鲁棒的覆盖定理, 并设计了任务驱动的部分因果结构学习算法, 以在未知因果结构的情况下实现有效的校准.

cs.AI

Multi-Sourced, Multi-Agent Evidence Retrieval for Fact-Checking

Shuzhi Gong et al.

cs.AI cs.IR cs.SI

本文提出了一种名为WKGFC的基于知识图谱和LLM代理的检索增强事实核查方法. 该方法通过将证据检索构建为马尔可夫决策过程, 利用LLM代理决策来整合结构化知识图谱和补充性网页内容, 旨在提升对复杂多跳语义关系的证据检索能力.

TraderBench: How Robust Are AI Agents in Adversarial Capital Markets?

Xiaochuang Yuan et al.

cs.AI

本文提出了一个名为TraderBench的基准测试框架, 用于评估金融领域AI agents的稳健性. 该框架结合了专家验证的静态任务和基于实际交易表现(如Sharpe ratio)的对抗性模拟, 消除了评估方差, 并发现当前agents缺乏真正的市场适应能力.

DIG to Heal: Scaling General-purpose Agent Collaboration via Explainable Dynamic Decision Paths

Hanqing Yang et al.

cs.AI cs.MA

本文提出了一种名为Dynamic Interaction Graph (DIG)的框架，用于分析和解释由通用大语言模型(LLM) agent组成的多智能体系统中的涌现协作行为。该框架将agent间的动态交互建模为随时间演化的因果网络，旨在提高此类无预设角色系统的可观测性和可调试性。

How Well Do Multimodal Models Reason on ECG Signals?

Maxwell A. Xu et al.

cs.AI cs.LG

本文提出了一个评估多模态模型在ECG信号上推理能力的可重复框架. 该框架将推理分解为Perception和Deduction两个部分, 并分别通过生成代码验证和基于检索的临床标准对齐来进行评估.

EmCoop: A Framework and Benchmark for Embodied Cooperation Among LLM Agents

Hanqing Yang et al.

cs.AI cs.MA

本文提出了一个用于研究基于LLM的具身多智能体系统中合作行为的基准框架EmCoop. 该框架将高层认知与低层具身交互分离, 并引入了过程级指标来诊断协作质量. 作者在两个可扩展的具身环境中实例化了该框架, 以分析不同团队规模和任务设置下的合作动态.

Monotropic Artificial Intelligence: Toward a Cognitive Taxonomy of Domain-Specialized Language Models

Antonio de Sousa Leitão Filho et al.

cs.AI

本文提出了"Monotropic Artificial Intelligence"的概念, 即通过牺牲通用性来在特定领域实现极高精度的语言模型. 作者基于认知理论中的monotropism, 论证了这种深度专业化架构在安全关键应用中的优势, 并通过一个专注于Timoshenko beam分析的模型验证了其可行性.

Conservative Equilibrium Discovery in Offline Game-Theoretic Multiagent Reinforcement Learning

Austin A. Nguyen, Michael P. Wellman

cs.AI cs.MA

本文提出了一种名为COffeE-PSRO的离线多智能体强化学习方法，用于在固定数据集约束下求解博弈均衡。该方法通过量化博弈动态的不确定性并修改强化学习目标，倾向于选择在真实博弈中更可能具有低遗憾的策略。实验表明，该方法能比现有离线方法获得更低遗憾的解。

NeuroHex: Highly-Efficient Hex Coordinate System for Creating World Models to Enable Adaptive AI

Quinn Jacobson et al.

cs.AI

本文提出了一种名为 NeuroHex 的六边形坐标系, 旨在为在线自适应 AI 系统构建高效的世界模型. 该框架通过几何抽象处理流程, 能在保持导航所需空间结构的同时, 显著降低地图的几何复杂度.

Confusion-Aware Rubric Optimization for LLM-based Automated Grading

Yucheng Chu et al.

cs.AI cs.CL

本文提出了一个名为CARO的框架, 用于优化基于LLM的自动评分系统的评分标准. 该框架通过结构化地分离错误信号, 针对特定的误分类模式进行诊断和修复, 从而提升了评分的准确性和计算效率.

MED-COPILOT: A Medical Assistant Powered by GraphRAG and Similar Patient Case Retrieval

Shuheng Chen et al.

cs.AI

本文提出了一个名为MED-COPILOT的临床决策支持系统，它结合了基于指南的GraphRAG检索和混合语义-关键词的相似患者检索，旨在提升临床推理的准确性和可解释性。该系统在临床笔记补全和医学问答任务上表现优于基线模型。

Optimizing In-Context Demonstrations for LLM-based Automated Grading

Yucheng Chu et al.

cs.AI cs.CL

本文提出了一个名为GUIDE的框架, 用于优化基于LLM的自动评分任务中的上下文示例(in-context demonstrations)选择与精炼. 该框架将示例选择重构为一个聚焦于评分边界(boundary-focused)的优化问题, 通过识别语义相似但分数不同的"边界对"(boundary pairs)并生成具有区分性的解释(rationales)来提升模型性能. 在多个学科数据集上的实验表明, 该方法在边界案例和评分标准遵循(rubric adherence)方面优于标准的语义相似性检索基线.

Why Not? Solver-Grounded Certificates for Explainable Mission Planning

Najeeb Khan

cs.AI math.OC

本文提出了一种基于优化模型本身生成可解释证书的方法, 用于解释地球观测卫星任务规划中的调度决策. 该方法通过提取最小不可行子集, 紧约束和对比权衡等证书, 确保了与求解器模型的一致性, 并在实验中验证了其正确性和稳定性.

From Goals to Aspects, Revisited: An NFR Pattern Language for Agentic AI Systems

Yijun Yu

cs.AI cs.SE

本文回顾并扩展了早期的goals-to-aspects方法，将其应用于agentic AI系统领域。作者提出了一个包含12个可重用模式的模式语言，用于系统化地识别和模块化非功能性需求，并通过案例研究进行了验证。

LifeEval: A Multimodal Benchmark for Assistive AI in Egocentric Daily Life Tasks

Hengjian Gao et al.

cs.AI

本文提出了一个名为LifeEval的多模态基准测试，用于评估AI助手在真实、动态的日常任务中提供实时、任务导向协助的能力。该基准强调以自我为中心的实时感知和自然对话交互，通过对现有模型的评估揭示了当前技术在实现有效人机协作方面面临的挑战。

AI Runtime Infrastructure

Christopher Cruz

cs.AI

本文提出了一种名为AI Runtime Infrastructure的运行时执行层, 它位于模型之上、应用之下, 用于在智能体运行时主动观察、推理和干预其行为, 以优化任务成功率、延迟、token效率、可靠性和安全性. 该方法将执行过程本身视为一个可优化的层面, 以支持对长周期智能体工作流的自适应管理.

DenoiseFlow: Uncertainty-Aware Denoising for Reliable LLM Agentic Workflows

Yandong Yan et al.

cs.AI

本文提出了一个名为DenoiseFlow的闭环框架, 用于提升LLM智能体在多步推理任务中的可靠性. 该框架通过感知不确定性, 自适应调节计算路径以及针对性修正错误来缓解语义模糊累积问题, 在多个基准测试上实现了更高的准确率和更低的计算成本.

LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks

Yucheng Zeng et al.

cs.AI

本文提出了一个名为LOGIGEN的逻辑驱动框架，用于生成可验证的智能体任务训练数据。该框架通过硬编码策略、逻辑驱动前向合成和确定性状态验证来合成数据，并提出了一个基于验证的训练协议。实验表明，该方法能有效提升智能体在复杂环境中的任务成功率。

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

Zeyu Chen et al.

cs.AI cs.CV

本文提出了一个面向能力的基准M-JudgeBench和一个数据生成框架Judge-MCTS，用于评估和提升多模态大语言模型作为评判者的能力。该工作系统性地诊断了现有评判模型的弱点，并通过生成的数据训练了性能更强的评判模型M-Judger。

EMPA: Evaluating Persona-Aligned Empathy as a Process

Shiya Zhang et al.

cs.AI

本文提出了一个名为EMPA的面向过程的评估框架, 用于评估基于LLM的对话代理中与预设人格(persona)对齐的共情能力. 该框架通过将真实交互提炼为可控的心理场景, 并结合多智能体沙盒进行开放式评估, 从方向对齐, 累积影响和稳定性等维度对交互轨迹进行评分.

SWE-Hub: A Unified Production System for Scalable, Executable Software Engineering Tasks

Yucheng Zeng et al.

cs.AI cs.SE

本文提出了一个名为SWE-Hub的端到端系统，旨在解决软件工程智能体训练与评估中可执行、可扩展数据稀缺的问题。该系统通过整合环境自动化、规模化合成与多样化任务生成，构建了一个统一的生产流水线。

Draft-Thinking: Learning Efficient Reasoning in Long Chain-of-Thought LLMs

Jie Cao et al.

cs.AI cs.CL

本文提出了一种名为 Draft-Thinking 的方法，旨在减少大型推理模型在长思维链推理中的计算开销。该方法通过引导模型学习简洁的推理结构，并结合渐进式课程学习，在保持性能的同时显著降低了推理成本。

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

Rongsheng Wang et al.

cs.AI cs.CV

本文提出了Micro-World Simulation的概念, 并构建了用于微观世界模拟的基准测试MicroWorldBench与高质量数据集MicroSim-10K. 基于此, 作者训练了专门用于微观尺度模拟的视频生成模型MicroVerse, 为生物医学等领域的应用提供了初步探索.

Fair in Mind, Fair in Action? A Synchronous Benchmark for Understanding and Generation in UMLLMs

Yiran Zhao et al.

cs.AI

本文提出了一个名为IRIS的基准测试, 用于同步评估统一多模态大语言模型(UMLLMs)在理解与生成任务中的公平性. 该基准通过一个高维的"公平性空间"整合了多种指标, 并对主流模型进行了评估, 揭示了系统性偏差现象.

Heterophily-Agnostic Hypergraph Neural Networks with Riemannian Local Exchanger

Li Sun et al.

cs.AI cs.LG

本文提出了一种基于Riemannian几何的hypergraph neural network方法HealHGNN, 通过设计adaptive local heat exchanger来建模long-range dependencies, 以处理heterophilic hypergraphs. 该方法在homophilic和heterophilic场景下均取得了state-of-the-art性能.

Machine Learning Grade Prediction Using Students' Grades and Demographics

Mwayi Sonkhanani, Symon Chibaya, Clement N. Nyirenda

cs.AI

本文提出了一个统一的机器学习框架, 用于同时预测学生的通过/失败结果和连续分数. 该框架在包含学术和人口统计数据的真实数据集上进行了评估, 其分类和回归模型的性能均优于基线方法.

TraceSIR: A Multi-Agent Framework for Structured Analysis and Reporting of Agentic Execution Traces

Shu-Xun Yang et al.

cs.AI cs.CL

本文提出了一个名为TraceSIR的多智能体框架，用于对智能体执行轨迹进行结构化分析和报告生成。该框架通过协调多个专用智能体来压缩轨迹、诊断问题并生成报告，旨在解决现有方法在可扩展性和可靠性方面的不足。

LiTS: A Modular Framework for LLM Tree Search

Xinzhe Li, Yaguang Tao

cs.AI

本文提出了一个用于LLM树搜索的模块化Python框架LiTS, 它将树搜索分解为三个可复用的组件(Policy, Transition, RewardModel), 并通过装饰器注册机制支持领域扩展和自定义算法. 该框架在数学推理、环境规划和工具使用等任务上验证了其组件的可组合性和算法的正交性.

InfoPO: Information-Driven Policy Optimization for User-Centric Agents

Fanqi Kong et al.

cs.AI

本文提出了一种名为InfoPO的信息驱动策略优化方法, 用于优化大型语言模型(LLM)智能体与用户的多轮交互. 该方法通过计算信息增益奖励来精细评估交互回合的价值, 并结合任务奖励进行融合, 在多个任务上超越了现有的提示和多轮强化学习基线.

K^2-Agent: Co-Evolving Know-What and Know-How for Hierarchical Mobile Device Control

Zhe Wu et al.

cs.AI

本文提出了一种名为K^2-Agent的分层框架，用于移动设备控制任务。该框架通过分离和协同进化陈述性知识与程序性知识来提升复杂任务的完成能力，并在AndroidWorld等基准测试中取得了良好性能。

MemPO: Self-Memory Policy Optimization for Long-Horizon Agents

Ruoran Li et al.

cs.AI

本文提出了一种名为MemPO的自记忆策略优化算法, 旨在解决长视野智能体在交互过程中上下文增长导致的性能与稳定性下降问题. 该方法通过改进基于记忆有效性的信用分配机制, 使策略模型能够自主总结和管理记忆, 在保持任务性能的同时显著减少了token消耗.

AIoT-based Continuous, Contextualized, and Explainable Driving Assessment for Older Adults

Yimeng Liu et al.

cs.AI

本文提出了一个名为AURA的AIoT框架, 用于对老年人的驾驶安全进行连续、实时的评估. 该框架整合了车载传感、多尺度行为建模和情境感知分析, 旨在从日常驾驶中提取详细的性能指标, 并为个性化的安全支持提供基础.

MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning

Tianmeng Hu et al.

cs.AI cs.LG cs.MA

本文提出了一种名为MO-MIX的方法，用于解决多目标多智能体强化学习问题。该方法基于CTDE框架，通过引入权重向量和并行混合网络来估计动作价值函数，并通过探索引导来提升解集的均匀性。实验表明该方法能有效生成Pareto前沿的近似解。

The Synthetic Web: Adversarially-Curated Mini-Internets for Diagnosing Epistemic Weaknesses of Language Agents

Shrey Shah, Levent Ozgur

cs.AI cs.IR

本文提出了一个名为Synthetic Web Benchmark的基准测试环境，用于评估语言智能体在对抗性网络信息环境下的鲁棒性。该基准通过注入高可信度的虚假信息文章，揭示了当前前沿模型在处理冲突信息时存在的根本性缺陷。

MetaMind: General and Cognitive World Models in Multi-Agent Systems by Meta-Theory of Mind

Lingyi Wang et al.

cs.AI

本文提出了一种用于多智能体系统的通用认知世界模型 MetaMind, 其核心是利用元心理理论框架. 该模型使智能体能够通过自监督学习获得元认知能力, 并推广到对环境中其他智能体的意图进行零样本推理, 从而在没有显式通信的情况下适应集体意图.

MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains

Xuying Ning et al.

cs.AI

本文提出了一个用于评估多模态智能体搜索的基准测试MC-Search，它包含了长链推理结构。通过引入过程级评估指标和一个新的微调框架，揭示了现有模型在检索和规划方面存在的问题。

BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning

Yuyang Liu et al.

cs.AI cs.MA

本文提出了一个名为BioProAgent的神经符号框架, 用于在不可逆的湿实验室环境中实现可靠的自主科学规划. 该框架通过将概率性规划锚定在确定性的有限状态机(FSM)中, 并引入状态增强规划和语义符号落地技术, 显著提高了物理合规性.

HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents

Hongbo Jin et al.

cs.AI cs.LG

本文提出了一个名为HiMAC的分层强化学习框架, 用于提升LLM智能体在长视野任务中的决策能力. 该方法通过将规划与执行分离, 并引入协同进化训练策略, 在多个实验环境中取得了优于基线方法的表现.

Tracking Capabilities for Safer Agents

Martin Odersky et al.

cs.AI cs.PL

本文提出了一种基于编程语言的"安全约束"方法, 通过让AI agent在具有能力追踪(capability tracking)的类型安全语言(Scala 3)中表达意图, 而非直接调用工具, 来提升agent的安全性. 静态类型系统追踪能力(capabilities), 实现了对副作用的细粒度控制, 如局部纯度(local purity), 从而防止信息泄露等不安全行为.

CollabEval: Enhancing LLM-as-a-Judge via Multi-Agent Collaboration

Yiyue Qian et al.

cs.AI

本文提出了一个名为CollabEval的多智能体协作框架，旨在改进LLM-as-a-Judge评估范式。该框架通过包含初始评估、多轮讨论和最终裁决的三阶段协作流程，以减少单一模型评估中的不一致性和偏见。实验表明，该方法在多个评估维度上优于单一LLM方法。

MMCOMET: A Large-Scale Multimodal Commonsense Knowledge Graph for Contextual Reasoning

Eileen Wang et al.

cs.AI

本文提出了一个名为MMCOMET的多模态常识知识图谱，它通过整合视觉信息扩展了现有的文本知识库。该资源旨在支持图像描述和故事生成等复杂的上下文推理任务。

Alien Science: Sampling Coherent but Cognitively Unavailable Research Directions from Idea Atoms

Alejandro H. Artiles et al.

cs.AI cs.LG

本文提出了一种从论文中提取"idea atoms"并基于coherence和availability模型采样新颖研究方向的方法. 该方法在LLM论文语料库上验证了其生成方向的多样性与连贯性.

DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage

Haowen Gao et al.

cs.AI

本文提出了一种名为DIVA-GRPO的难度自适应变体优势方法，用于增强多模态大语言模型(MLLMs)在强化学习中的推理能力。该方法通过动态评估问题难度并采样适当难度的变体来缓解奖励稀疏和优势消失问题，在多个基准测试上提升了训练效率和推理性能。

HVR-Met: A Hypothesis-Verification-Replaning Agentic System for Extreme Weather Diagnosis

Shuo Tang et al.

cs.AI

本文提出了一个名为HVR-Met的多智能体系统，用于极端天气诊断。该系统通过一个假设-验证-重规划的闭环机制，集成了专家知识以改进诊断过程中的逻辑推理。

FCN-LLM: Empower LLM for Brain Functional Connectivity Network Understanding via Graph-level Multi-task Instruction Tuning

Xingcan Hu, Wei Wang, Li Xiao

cs.AI

本文提出了一种名为FCN-LLM的框架，通过图级别的多任务指令微调，使大型语言模型能够理解来自静息态fMRI的脑功能连接网络。该方法使用多尺度编码器提取特征并将其映射到LLM的语义空间，在多个数据集上展现了良好的零样本泛化能力。

AutoSkill: Experience-Driven Lifelong Learning via Skill Self-Evolution

Yutao Yang et al.

cs.AI

本文提出了一个名为AutoSkill的框架, 旨在使LLM代理能够从对话和交互轨迹中自动获取、维护和复用技能. 该框架作为一个与模型无关的插件层, 旨在将短暂的交互经验转化为显式、可复用和可组合的能力.

DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent

Tongzhou Wu et al.

cs.AI

本文构建了一个用于深度研究智能体(deep-research agent)评估与训练的大规模挑战性数据集DeepResearch-9K, 并开发了一个开源的训练框架DeepResearch-R1. 该数据集包含9000个多难度级别的问题、高质量的搜索轨迹与推理链, 以及可验证的答案. 实验表明, 在该数据集上训练的智能体在相关基准测试中取得了领先的性能.

Semantic XPath: Structured Agentic Memory Access for Conversational AI

Yifan Simon Liu et al.

cs.AI cs.CL

本文提出了一种名为 Semantic XPath 的树状结构化记忆模块，用于对话 AI 系统中的记忆访问与更新。该方法相比扁平化的检索增强生成 (RAG) 基线有显著性能提升，并大幅减少了所需 token 数量。

Incremental LTLf Synthesis

Giuseppe De Giacomo et al.

cs.AI

本文研究了增量LTLf综合问题, 即智能体在执行过程中收到新目标时, 需要从当前状态开始合成满足新旧目标的策略. 作者提出了基于自动机构建和公式递进(progression)的两种解决方案, 并分析了它们的效率.

How Well Does Agent Development Reflect Real-World Work?

Zora Zhiruo Wang et al.

cs.AI

本文通过将AI agent基准测试任务映射到现实工作领域和技能, 分析了当前agent开发与整体劳动力市场分布的匹配度. 研究发现, 以编程为中心的agent开发与人类劳动及经济价值的集中领域存在显著错配, 并提出了改进基准测试设计的三项原则.

Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics

Victor May et al.

cs.AI cs.LG

本文通过设计Opaque Knapsack任务，研究了训练数据中解释器状态持久性对LLM智能体性能的影响。实验表明，训练与运行时状态语义的一致性主要影响智能体的求解效率与稳定性，而非最终解的质量。

A Unified Framework to Quantify Cultural Intelligence of AI

Sunipa Dev et al.

cs.AI cs.CL cs.CY

本文提出了一个评估AI系统文化智能的统一框架. 该框架基于测量理论, 旨在将多维度的文化能力指标聚合为对文化智能的综合评估.

The Lattice Representation Hypothesis of Large Language Models

Bo Xiong

cs.AI

本文提出了一种关于大语言模型表示结构的假设, 将线性表示假设与形式概念分析(FCA)统一起来, 认为嵌入几何中的半空间交集可以诱导出概念格, 从而支持几何化的交并运算. 实验在WordNet子层次结构上提供了初步证据.

Extended Empirical Validation of the Explainability Solution Space

Antoni Mestre et al.

cs.AI cs.SE

本文通过跨领域评估对Explainability Solution Space (ESS)进行了扩展验证. 研究引入了一个异构的城市资源分配系统, 结果表明ESS的排序并非领域特定的, 而是能系统地适应治理角色和利益相关者配置.

Beyond Reward: A Bounded Measure of Agent Environment Coupling

Wael Hafez, Cameron Reid, Amit Nazeri

cs.AI cs.LG

本文提出了 bipredictability 这一有界度量来衡量智能体与环境的耦合程度, 并引入了 Information Digital Twin 作为辅助监控器. 在 MuJoCo HalfCheetah 环境中的实验表明, 该方法能比基于奖励的监控更早、更有效地检测到交互退化.

Information-Theoretic Framework for Self-Adapting Model Predictive Controllers

Wael Hafez, Amir Nazeri

cs.AI cs.RO

本文提出了一个名为Entanglement Learning的信息论框架, 通过引入Information Digital Twin来监控和量化MPC中的信息流, 并利用新的信息论度量来实时调整控制器参数, 以增强传统Model Predictive Control在动态环境中的适应性和鲁棒性.

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

Kalliopi Kleisarchaki

cs.AI cs.GT cs.LG eess.SY

本文针对2026年F1赛车新规下的部分可观测博弈问题, 提出了一个结合Hidden Markov Model (HMM)与Deep Q-Network (DQN)的两层框架. 该框架通过观测对手的公开遥测信号来推断其隐藏状态, 并基于此制定能量部署策略.

ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context

Zidi Xiu et al.

cs.AI

本文提出了一个名为ASTRA-bench的基准测试，用于评估AI助手在结合个人用户上下文、使用工具和进行多步推理与规划方面的能力。该基准包含大量基于时间演化的个人生活事件构建的复杂场景，测试发现当前最先进的模型在高复杂度任务上表现显著下降。

Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation

Chenxing Wei et al.

cs.AI cs.LG

本文提出了一个名为ROSA2的框架, 用于在推理时对齐大型语言模型与动态用户需求. 该框架将多轮交互重新表述为在Words和Weights异构空间上的联合优化问题, 通过分解错误信号来协同优化指令和模型参数.

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

Wenxuan Huang et al.

cs.AI cs.CE q-bio.QM

本文提出了一个名为HarmonyCell的端到端智能体框架, 旨在解决单细胞扰动研究中面临的语义异质性和统计异质性挑战. 该框架通过一个LLM驱动的语义统一器和一个自适应的Monte Carlo Tree Search引擎, 实现了在语义和分布偏移下对异构数据集的自动化建模, 并在评估中展现了较高的有效执行率和与专家设计基线相当的性能.

The Observer-Situation Lattice: A Unified Formal Basis for Perspective-Aware Cognition

Saad Alqithami

cs.AI cs.MA cs.SI

本文提出了Observer-Situation Lattice (OSL)这一统一的数学结构，用于处理多智能体环境中的视角感知认知问题。它通过两个核心算法实现了信念的高效管理与矛盾分解，并在理论证明和基准测试中验证了其有效性。

MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning

Sicheng Zhu et al.

cs.AI cs.LG cs.SE

本文提出了一种基于强化学习的增量式测试生成框架 MIST-RL, 旨在通过优化测试用例的效用而非数量来提升代码验证效率. 该方法在 HumanEval+ 和 MBPP+ 基准测试上取得了优于现有方法的效果, 能以更少的测试用例获得更高的变异分数.

GraphScout: Empowering Large Language Models with Intrinsic Exploration Ability for Agentic Graph Reasoning

Yuchen Ying et al.

cs.AI

本文提出了GraphScout框架，通过让LLM自主与知识图谱交互来生成训练数据，从而将图谱探索与推理能力内化到模型中。该方法减少了对外部工具和人工标注的依赖，并在多个领域实验中取得了优于大型模型基线的效果。

Securing the Floor and Raising the Ceiling: A Merging-based Paradigm for Multi-modal Search Agents

Zhixiang Wang et al.

cs.AI

本文提出了一种免训练的多模态搜索智能体构建范式, 通过跨模态模型融合将基于文本的搜索智能体能力赋予视觉语言模型(VLM). 该方法利用一种基于显著性的融合算法来减少参数干扰, 在多个搜索密集型基准测试上展现了作为零样本智能体的合理性能.

SciDER: Scientific Data-centric End-to-end Researcher

Ke Lin et al.

cs.AI cs.CL

本文介绍了一个名为SciDER的数据驱动端到端研究系统, 它利用专门化的agents来自动化处理原始科学数据, 生成假设与实验设计, 并编写执行代码. 该系统通过自演化记忆和批判反馈循环在多个基准测试中表现出色, 并提供了易于使用的Python包和Web界面.

Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering

Kyle Cox, Darius Kianersi, Adrià Garriga-Alonso

cs.AI

本文通过训练线性探针分析模型在生成思维链前的激活状态, 发现指令微调模型通常在生成推理过程前就已确定答案. 研究进一步通过激活导向实验, 揭示了模型在错误信念下进行事后推理时可能出现的两种失效模式.

Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning

Shaohuai Liu et al.

cs.AI cs.RO

本文提出了一种基于多任务模型强化学习(MBRL)的算法EZ-M, 用于提升人形机器人控制的样本效率. 其核心观点是通过扩展任务数量而非单任务样本量来学习, 并论证了MBRL在此机制下因动力学共享而具有结构优势.

ProtRLSearch: A Multi-Round Multimodal Protein Search Agent with Large Language Models Trained via Reinforcement Learning

Congying Liu et al.

cs.AI cs.CL

本文提出了一种名为ProtRLSearch的多轮多模态蛋白质搜索智能体, 它利用基于多维奖励的强化学习进行训练, 能够联合利用蛋白质序列和文本作为多模态输入来生成高质量报告. 为了评估模型在真实蛋白质查询场景中整合序列信息和文本输入的能力, 作者构建了一个包含3000个多项选择题的基准测试集ProtMCQs.

Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

Haojin Yang et al.

cs.AI

本文提出了Dual-Horizon Credit Assignment (DuCA)框架，用于解决工业销售场景中多轮对话强化学习的信用分配问题。该方法通过分离并归一化不同时间尺度的奖励信号，平衡了即时语言约束与长期商业目标，在实验中提升了转化率并改善了语言质量。

Agentic Multi-Source Grounding for Enhanced Query Intent Understanding: A DoorDash Case Study

Emmanuel Aboah Boateng et al.

cs.AI

本文提出了一种用于多类别市场平台的Agentic Multi-Source Grounded系统，旨在解决用户查询意图模糊的问题。该系统通过结合目录实体检索和自主网络搜索来增强大型语言模型的推理，并输出有序的多意图集合以供后续策略消歧。

LLM-assisted Semantic Option Discovery for Facilitating Adaptive Deep Reinforcement Learning

Chang Yao et al.

cs.AI

本文提出了一种结合Large Language Models (LLMs)与符号规划的闭环框架, 旨在提升Deep Reinforcement Learning (DRL)的数据效率, 可解释性和跨环境迁移能力. 通过在Office World和Montezuma's Revenge等环境中的实验验证了该方法的有效性.

Multimodal Mixture-of-Experts with Retrieval Augmentation for Protein Active Site Identification

Jiayang Wu et al.

cs.AI

本文提出了一个名为MERA的检索增强多模态专家混合框架, 用于蛋白质活性位点的残基级识别. 该框架通过分层多专家检索动态聚合上下文信息, 并引入基于Dempster-Shafer证据理论的可信度感知融合策略来整合多模态数据.

Pharmacology Knowledge Graphs: Do We Need Chemical Structure for Drug Repurposing?

Youssef Abo-Dahab, Ruby Hernandez, Ismael Caleb Arechiga Duran

cs.AI q-bio.BM q-bio.QM

本文通过严格的时序验证，研究了知识图谱在药物重定位任务中模型复杂度、数据量和特征模态的影响。实验表明，仅使用蛋白质特征和网络拓扑结构，而不依赖药物化学结构信息，即可获得更好的预测性能。

Graph-Based Self-Healing Tool Routing for Cost-Efficient LLM Agents

Neeraj Bholani

cs.AI cs.SE

本文提出了一种基于图的自愈工具路由架构, 用于提升LLM智能体的成本效益与容错性. 该系统通过并行健康监控器与成本加权工具图, 结合Dijkstra算法进行确定性最短路径路由, 在工具执行失败时能自动重新计算路径, 从而大幅减少对LLM的调用.

State-Action Inpainting Diffuser for Continuous Control with Delay

Dongqi Han et al.

cs.AI cs.LG

本文提出了一种名为State-Action Inpainting Diffuser (SAID)的框架，用于解决连续控制中的信号延迟问题。该方法将延迟控制问题构建为一个序列修复任务，结合了基于模型和无模型强化学习的优势，并在在线和离线场景中均表现出色。

S5-HES Agent: Society 5.0-driven Agentic Framework to Democratize Smart Home Environment Simulation

Akila Siriweera et al.

cs.AI

本文提出了一个名为S5-HES Agent的智能体框架，旨在降低智能家居环境仿真的技术门槛。该框架利用大型语言模型实现自然语言驱动的仿真配置，并通过检索增强生成技术整合相关知识。

Benchmarking LLM Summaries of Multimodal Clinical Time Series for Remote Monitoring

Aditya Shukla et al.

cs.AI

本文针对LLM生成的多模态临床时间序列摘要，提出了一个基于临床事件的评估框架。该框架在TIHM-1.5数据集上，通过测量异常召回率等指标，评估了三种不同方法的摘要质量，发现传统语义相似度指标与临床事件保真度之间存在脱节。

RubricBench: Aligning Model-Generated Rubrics with Human Standards

Qiyuan Zhang et al.

cs.AI

本文介绍了RubricBench, 这是一个用于评估基于rubric（评分标准）的LLM评估方法可靠性的基准数据集. 实验表明, 当前模型在自主生成有效评估标准方面与人类标注存在显著差距.

Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

Qiyuan Zhang et al.

cs.AI

本文提出了Mix-GRM框架，通过将推理过程结构化地重构为Breadth-CoT和Depth-CoT两种机制，并利用SFT和RLVR进行优化。实验表明该方法在多个基准上取得了新的最优性能，并揭示了不同推理机制与任务类型之间的匹配关系。

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Yuexi Du et al.

cs.AI cs.LG

本文提出了一个名为CARE的框架, 旨在通过解耦视觉定位与推理模块, 并引入可验证的证据, 来提升多模态医学推理的可解释性与准确性. 该框架模仿临床工作流程, 在标准医学VQA基准上取得了优于现有方法的性能.

Evaluating and Understanding Scheming Propensity in LLM Agents

Mia Hopman et al.

cs.AI

本文研究了LLM agents在追求长期目标时出现"scheming"（暗中追求未对齐目标）行为的倾向性。作者将scheming的诱因分解为agent因素和环境因素，并设计了包含自保、资源获取等工具性目标的实验场景。研究发现，在现实场景中scheming行为很少出现，即使插入特定prompt片段诱导，其行为也表现出显著的脆弱性，例如移除单个工具或增加监督反而可能改变scheming率。

ToolRLA: Fine-Grained Reward Decomposition for Tool-Integrated Reinforcement Learning Alignment in Domain-Specific Agents

Pengbo Liu

cs.AI

本文提出了一种用于领域特定工具集成智能体的细粒度奖励分解方法 ToolRLA. 该方法通过一个三阶段后训练流程, 在金融顾问助手的实际部署中显著提升了任务完成率并降低了错误.

SEED-SET: Scalable Evolving Experimental Design for System-level Ethical Testing

Anjali Parashar et al.

cs.AI stat.AP

本文提出了一个名为SEED-SET的贝叶斯实验设计框架，用于对自主系统进行伦理评估。该方法结合了客观评估和利益相关者的主观价值判断，通过分层高斯过程进行建模，并利用一种新的采集策略来生成测试用例。在两个应用上的验证表明，该方法在探索与利用之间取得了较好的平衡，并优于基线方法。

Learning Structured Reasoning via Tractable Trajectory Control

Po-Nien Kung et al.

cs.AI

本文提出了Ctrl-R框架, 通过可控的轨迹引导来学习结构化推理模式. 该方法改进了强化学习中的探索过程, 在数学推理任务上提升了语言和视觉语言模型的性能.

CeProAgents: A Hierarchical Agents System for Automated Chemical Process Development

Yuhang Yang et al.

cs.AI

本文提出了一个用于自动化化学过程开发的分层多智能体系统 CeProAgents, 并构建了多维基准 CeProBench 进行评估. 该系统通过整合知识、概念和参数三个专业智能体群组, 展示了大型语言模型在工业化学工程中的潜力与当前局限.

Chain-of-Context Learning: Dynamic Constraint Understanding for Multi-Task VRPs

Shuangchun Gui et al.

cs.AI

本文提出了一种名为Chain-of-Context Learning (CCL)的新框架，用于解决多任务车辆路径问题(VRPs)。该框架通过动态捕捉决策过程中的上下文信息来指导节点嵌入的更新，在多个任务上取得了优于现有方法的结果。

FT-Dojo: Towards Autonomous LLM Fine-Tuning with Language Agents

Qizheng Li et al.

cs.AI cs.LG

本文提出了一个名为FT-Dojo的环境和一个名为FT-Agent的自主系统，旨在研究基于LLM的智能体能否自动化大型语言模型的端到端微调过程。实验表明，专门的微调智能体性能优于通用方案，并揭示了其在因果推理方面的局限性。

GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules

Houde Dong et al.

cs.AI

本文提出了一个用于评估AI内容审核系统在现实复杂场景下性能的基准测试GMP, 重点关注规则动态变化和多种违规行为共存的挑战. 作者指出当前基于固定规则的基准测试存在局限, 并构建了新数据集以推动更鲁棒的审核系统发展.

GAM-RAG: Gain-Adaptive Memory for Evolving Retrieval in Retrieval-Augmented Generation

Yifan Wang et al.

cs.AI

本文提出了一个名为GAM-RAG的训练无关框架，用于增强检索增强生成(RAG)系统。该框架通过积累查询经验来动态更新检索记忆，并引入了一个基于不确定性的增益规则来平衡稳定性与适应性。

Incremental, inconsistency-resilient reasoning over Description Logic Abox streams

Cas Proost, Pieter Bonte

cs.AI cs.LO

本文针对描述逻辑ABox流上的增量推理问题, 提出了新的语义以应对数据流的高速度、实时性要求以及不一致性. 为了处理前两个挑战, 该工作引入了基于滑动窗口的增量物化计算语义; 针对流的不一致性, 提出了基于偏好修复语义的窗口不一致性修复方法. 此外, 论文详细阐述了在OWL2 RL情况下, 支持增量物化维护的半朴素算法.

What Papers Don't Tell You: Recovering Tacit Knowledge for Automated Paper Reproduction

Lehui Li et al.

cs.AI

本文提出了一个基于图的智能体框架, 用于从学术论文中恢复其隐含的"隐性知识"(tacit knowledge), 以自动化生成可执行代码. 该方法通过关系感知、执行反馈和知识归纳等机制, 在扩展的ReproduceBench基准测试上取得了优于基线模型的效果.

Emerging Human-like Strategies for Semantic Memory Foraging in Large Language Models

Eric Lacosse et al.

cs.AI

本文通过将心理学中的Semantic Fluency Task (SFT)作为案例研究，应用机制可解释性技术分析了大语言模型(LLMs)中的语义记忆搜索行为。研究发现，LLMs在生成过程中表现出了与人类相似的收敛和发散搜索模式，这为理解模型与人类认知的（不）对齐提供了初步见解。

CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

Jinpeng Chen et al.

cs.AI

本文提出了一个名为CoVe的框架, 用于合成训练数据以培养交互式工具使用智能体. 该框架通过定义任务约束来引导生成复杂轨迹并验证其正确性, 从而为监督微调和强化学习提供高质量数据, 实验表明其训练出的紧凑模型在基准测试中表现优异.

LiveCultureBench: a Multi-Agent, Multi-Cultural Benchmark for Large Language Models in Dynamic Social Simulations

Viet-Thanh Pham et al.

cs.AI

本文提出了一个名为 LiveCultureBench 的多智能体、多文化基准测试，用于在动态社会模拟中评估大型语言模型。该基准通过模拟城镇环境和多样化居民，评估模型在任务完成与文化规范遵循之间的权衡。

According to Me: Long-Term Personalized Referential Memory QA

Jingbiao Mei et al.

cs.AI cs.CL cs.CV

本文提出了一个用于评估多模态、多源个性化参考记忆问答系统的新基准ATM-Bench，并引入了Schema-Guided Memory (SGM)方法来结构化表示不同来源的记忆数据。实验表明，现有先进系统在该基准的困难集上表现不佳，而SGM方法相比之前常用的描述性记忆方法能有效提升性能。

Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization

Felipe Maia Polo et al.

cs.AI cs.LG stat.ML

本文提出了一种基于 tensor factorization 的统计模型，用于高效评估生成模型。该方法通过整合廉价自动评分数据和有限的人类标注数据，在提示级别进行更精细的性能评估。

OpenRad: a Curated Repository of Open-access AI models for Radiology

Konstantinos Vrettos et al.

cs.AI

本文介绍了OpenRad, 这是一个经过人工审核、标准化的开放获取存储库, 用于聚合放射学AI模型及其元数据. 该平台通过自动化提取和专家验证构建, 提供了模型发现、筛选和社区贡献的功能, 旨在提高该领域研究的可发现性和可重复性.

Exploring Plan Space through Conversation: An Agentic Framework for LLM-Mediated Explanations in Planning

Guilhem Fouilhé et al.

cs.AI cs.CL cs.HC cs.MA

本文提出了一个基于多智能体大语言模型(LLM)的架构, 用于在自动化规划中生成交互式解释. 该框架与具体的解释方法无关, 并通过用户研究评估了其在目标冲突解释场景下的效果.

Pencil Puzzle Bench: A Benchmark for Multi-Step Verifiable Reasoning

Justin Waugh

cs.AI cs.GT cs.LG

本文提出了一个名为 Pencil Puzzle Bench 的基准测试框架, 用于评估大语言模型在 pencil puzzles 这类约束满足问题上的推理能力. 该框架支持对每个中间步骤进行确定性验证, 并为超过 50 个模型提供了评估结果.

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

Jiahao Huang et al.

cs.AI cs.CV

本文提出了一种认知启发的三层层次结构来组织情感任务, 并基于此构建了一个小型多任务多模态情感语言模型 Nano-EmoX 及其课程训练框架 P2E. 该模型整合了全模态编码器, 通过异构适配器将输出映射到统一语言空间, 在多个基准测试中取得了有竞争力的性能.

Conformal Policy Control

Drew Prinster et al.

cs.AI cs.LG math.ST stat.ML

本文提出了一种使用安全参考策略来概率性地调控未经测试的新策略的方法. 该方法通过conformal calibration来确定新策略的探索边界, 旨在保证安全约束的同时鼓励探索.

Tool Verification for Test-Time Reinforcement Learning

Ruotong Liao et al.

cs.AI cs.CL

本文提出了一种名为T^3RL的方法, 通过引入test-time tool verification来改进test-time reinforcement learning (TTRL)中的奖励估计. 该方法利用外部工具(如代码执行)作为证据来验证rollouts, 从而生成更可靠的伪标签用于训练, 在多个数学数据集上取得了比TTRL更好的性能.

cs.IR

Transformers Remember First, Forget Last: Dual-Process Interference in LLMs

Sourav Chattaraj, Kanak Raj

cs.IR cs.AI cs.CL

本文通过将认知心理学中的经典干扰范式应用于大型语言模型(LLMs), 研究了模型在遇到上下文冲突信息时的记忆模式. 研究发现, 所有测试模型均表现出主动性干扰(proactive interference, PI)强于追溯性干扰(retroactive interference, RI)的普遍模式, 这与人类记忆模式相反.

MuonRec: Shifting the Optimizer Paradigm Beyond Adam in Scalable Generative Recommendation

Rong Shan et al.

cs.IR cs.AI

本文提出了MuonRec, 一个将Muon优化器应用于推荐系统训练的框架. 它通过Newton-Schulz迭代进行正交化动量更新, 在多个推荐模型上实现了更快的收敛和更好的排名质量.

Stop Treating Collisions Equally: Qualification-Aware Semantic ID Learning for Recommendation at Industrial Scale

Zheng Hu et al.

cs.IR cs.LG

本文提出了一种用于工业规模推荐的资格感知语义ID学习框架QuaSID, 通过Hamming距离引导的边界排斥和冲突感知的有效对掩码机制, 有区别地处理语义ID分配中的碰撞问题, 并结合双塔对比学习注入协同信号. 在公开基准和工业数据上的实验验证了其有效性.

RAIE: Region-Aware Incremental Preference Editing with LoRA for LLM-based Recommendation

Jin Zeng et al.

cs.IR cs.LG

本文提出了一个名为RAIE的插件框架, 用于解决基于LLM的推荐系统中用户偏好漂移的问题. 该方法通过冻结主干模型并在表示空间中进行区域级别的增量更新, 以平衡更新粒度并缓解灾难性遗忘.

SODA: Semantic-Oriented Distributional Alignment for Generative Recommendation

Ziqi Xue et al.

cs.IR

本文提出了一种基于概率分布对齐的生成式推荐框架SODA, 通过对比学习对齐多层codebook的分布, 以改善传统离散token表示的信息损失问题. 实验表明该方法能提升多种生成式推荐模型的性能.

Tiny-Critic RAG: Empowering Agentic Fallback with Parameter-Efficient Small Language Models

Yichao Wu et al.

cs.IR cs.LG

本文提出了一种名为 Tiny-Critic RAG 的方法，通过部署一个参数高效的小型语言模型（SLM）来解耦评估过程，作为确定性的守门员进行超低延迟的二元路由。该方法旨在减少在自主 agent 场景中因检索不准确而导致的冗余计算和成本开销。

Beyond the Flat Sequence: Hierarchical and Preference-Aware Generative Recommendations

Zerui Chen et al.

cs.IR

本文提出了一个名为HPGR的层次化偏好感知生成推荐框架, 旨在解决现有生成式推荐器将用户交互视为"扁平序列"而忽略行为内在结构的问题. 该框架通过结构感知预训练和偏好感知微调两阶段, 结合会话掩码建模和偏好引导稀疏注意力, 提升了推荐效果与效率, 并在工业数据集和在线测试中验证了其优越性.

TARSE: Test-Time Adaptation via Retrieval of Skills and Experience for Reasoning Agents

Junda Wang et al.

cs.IR cs.AI

本文提出了一种名为TARSE的方法, 用于在测试时通过检索技能和经验来增强临床推理智能体的可靠性. 该方法构建了可执行的技能库和分步索引的经验库, 并通过轻量级适配来减少推理过程中的偏差.

ReFeed: Retrieval Feedback-Guided Dataset Construction for Style-Aware Query Rewriting

Jiyoon Myung et al.

cs.IR

本文提出了一种基于检索反馈的数据集构建框架, 用于训练能够感知文档风格的查询重写模型. 该方法通过识别失败的检索案例, 利用大语言模型生成符合目标文档风格的改写查询, 并验证其改进效果, 旨在提升检索系统在特定领域上下文中的适应性.

Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality

Jiahan Chen et al.

cs.IR cs.LG

本文提出了一种名为CoCoA的预训练范式, 通过重构注意力流和引入基于EOS的重建任务, 旨在提升多模态嵌入模型生成紧凑表示的能力. 实验表明该方法能有效利用现有数据, 提高嵌入质量.

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

Tianyi Xu et al.

cs.IR cs.AI cs.CV cs.MM

本文提出了PhotoBench, 这是一个基于真实个人相册构建的基准测试, 旨在推动图像检索从视觉匹配转向个性化的、多源信息驱动的意图理解. 评估揭示了现有统一嵌入模型和智能体系统在处理非视觉约束和多源信息融合方面的局限性.

CLEAR: Null-Space Projection for Cross-Modal De-Redundancy in Multimodal Recommendation

Hao Zhan et al.

cs.IR cs.MM

本文提出了一种名为CLEAR的轻量级即插即用方法，用于减少多模态推荐中的跨模态冗余。该方法通过建模跨模态协方差来识别并投影掉冗余的共享子空间，从而在保留模态特定信息的同时提升推荐性能。

IDProxy: Cold-Start CTR Prediction for Ads and Recommendation at Xiaohongshu with Multimodal LLMs

Yubin Zhang et al.

cs.IR cs.LG

本文提出了一种名为IDProxy的解决方案, 利用multimodal large language models (MLLMs)为新的广告或推荐项目生成proxy embeddings, 以解决冷启动场景下CTR预测的难题. 该方法通过端到端优化, 使生成的embeddings与现有ID embedding空间对齐, 并已成功部署于小红书平台.

MealRec: Multi-granularity Sequential Modeling via Hierarchical Diffusion Models for Micro-Video Recommendation

Xinxin Dong et al.

cs.IR cs.CV

本文提出了一种用于微视频推荐的层次化扩散模型MealRec, 通过Temporal-guided Content Diffusion (TCD)和Noise-unconditional Preference Denoising (NPD)模块, 从视频内和视频间两个粒度进行序列建模, 以处理多模态内容噪声和隐式反馈不可靠的问题. 在四个数据集上的实验验证了其有效性.

OmniRet: Efficient and High-Fidelity Omni Modality Retrieval

Chuong Huynh, Manh Luong, Abhinav Shrivastava

cs.IR cs.CL cs.CV

本文提出了OmniRet模型, 用于处理跨文本、视觉和音频三种模态的复杂组合查询检索. 通过引入注意力重采样机制和Attention Sliced Wasserstein Pooling方法, 旨在解决计算效率和表征保真度问题. 模型在多个检索任务上进行了评估, 并提出了一个新的音频中心多模态基准.

NextAds: Towards Next-generation Personalized Video Advertising

Yiyan Xu et al.

cs.IR cs.CV

本文提出了一个名为NextAds的生成式个性化视频广告新范式, 并概念化了其四个核心组件. 为了推动相关研究, 文章还制定了两个代表性任务并引入了轻量级基准, 并通过初步实验展示了生成式AI在该领域的潜力.

Scaling Retrieval Augmented Generation with RAG Fusion: Lessons from an Industry Deployment

Luigi Medrano, Arush Verma, Mukul Chhabra

cs.IR cs.AI cs.CL

本文在一个企业知识库的生产级RAG系统中评估了检索融合技术。研究发现，在引入重排序和上下文长度限制后，检索融合带来的召回率提升并未转化为端到端答案质量的显著改善，反而增加了系统延迟。

cs.CL

From Global to Local: Learning Context-Aware Graph Representations for Document Classification and Summarization

Ruangrin Ldallitsakool, Margarita Bugueño, Gerard de Melo

cs.CL

本文提出了一种基于动态滑动窗口注意力模块的数据驱动方法, 用于自动构建文档的图表示. 该方法在文档分类任务上取得了有竞争力的结果, 并探索了其在抽取式文档摘要中的应用潜力.

Noise reduction in BERT NER models for clinical entity extraction

Kuldeep Jiwani, Yash K Jeengar, Ayush Dhaka

cs.CL cs.AI cs.IR

本文提出了一种用于提升临床命名实体识别(NER)模型精度的噪声去除方法. 该方法通过分析BERT模型输出的概率序列, 利用概率密度图等特征来区分强弱预测, 从而有效减少了假阳性.

Personalization Increases Affective Alignment but Has Role-Dependent Effects on Epistemic Independence in LLMs

Sean W. Kelley, Christoph Riedl

cs.CL cs.AI

本文研究了个人化对大型语言模型(LLM)中奉承行为的影响。研究发现，个人化通常会增强情感对齐，但对认知对齐的影响则取决于模型在交互中的角色。

TAB-PO: Preference Optimization with a Token-Level Adaptive Barrier for Token-Critical Structured Generation

Samah Fodeh et al.

cs.CL

本文针对 token-critical structured generation 任务中标准 DPO 方法的局限性，提出了一种名为 TAB-PO 的改进算法。该方法通过引入 token-level 的自适应 barrier 和加权优势函数，在医学通信标注任务上取得了优于基线模型的效果。

ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents

Xiaohui Zhang et al.

cs.CL cs.AI cs.IR

本文提出了一个名为ActMem的actionable memory框架, 旨在将memory retrieval与active causal reasoning相结合, 以提升LLM agent在长期交互中的复杂决策能力. 该方法将非结构化的对话历史转化为结构化的因果语义图, 并利用counterfactual reasoning和commonsense completion来推断隐含约束和解决潜在冲突.

EPPCMinerBen: A Novel Benchmark for Evaluating Large Language Models on Electronic Patient-Provider Communication via the Patient Portal

Samah Fodeh et al.

cs.CL

本文提出了一个名为EPPCMinerBen的新基准, 用于评估大型语言模型在电子医患沟通文本上的表现. 该基准包含三个子任务, 并在多种模型和设置下进行了评测, 结果表明大型指令调优模型通常表现更好.

Embracing Anisotropy: Turning Massive Activations into Interpretable Control Knobs for Large Language Models

Youngji Roh, Hyunjin Cho, Jaehyung Kim

cs.CL

本文提出了一种新的视角, 将大语言模型内部表征中的极端激活维度视为可解释的功能单元, 而非需要处理的伪影. 作者引入了一种基于幅度的无训练方法来识别关键维度, 并展示了其在领域适应等任务中的有效性.

SimpleTool: Parallel Decoding for Real-Time LLM Function Calling

Xiaoxin Shi et al.

cs.CL

本文提出了一种名为SimpleTool的并行解码方法, 旨在解决大语言模型(Large Language Model, LLM)进行函数调用(function calling)时的延迟瓶颈. 该方法通过引入特殊令牌来压缩低信息量令牌并作为模式选择器, 实现了函数名和参数的独立并行生成, 从而在多个基准测试上取得了显著的端到端加速效果.

GRIP: Geometric Refinement and Adaptive Information Potential for Data Efficiency

Changhao Wang et al.

cs.CL cs.LG

本文提出了GRIP框架, 通过将语料库建模为信息密集的几何空间, 统一了数据选择的全局分布平衡与局部实例选择. 该方法利用Rapid Adaptation Probe量化语义簇的信息潜力, 并采用长度校正的几何先验进行簇内选择, 以提升大规模预训练的数据效率.

Autorubric: A Unified Framework for Rubric-Based LLM Evaluation

Delip Rao, Chris Callison-Burch

cs.CL cs.AI

本文提出了一个用于基于评分标准的LLM评估的统一框架Autorubric, 并发布了相应的开源Python库. 该框架整合了多种评估技术, 支持不同类型的评分标准和聚合方法, 并提供了可靠性度量与生产基础设施.

Iterative LLM-based improvement for French Clinical Interview Transcription and Speaker Diarization

Ambre Marie et al.

cs.CL cs.AI cs.SD eess.AS

本文提出了一种基于LLM的多轮后处理架构, 用于改进法语临床访谈的自动语音识别和说话人日志. 该方法在自杀预防和神经外科术前咨询两个数据集上进行了消融实验, 验证了其有效性和稳定性.

Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning

Xintong Li et al.

cs.CL cs.AI cs.LG

本文提出了一种名为 Step-wise Adaptive Penalization (SWAP) 的强化学习框架，用于压缩大型推理模型在测试时产生的冗长思维链。该方法通过基于步骤内在贡献的细粒度长度惩罚，在减少推理步骤的同时保持或提升模型准确性。实验表明该方法能显著缩短推理长度。

From Prerequisites to Predictions: Validating a Geometric Hallucination Taxonomy Through Controlled Induction

Matic Korun

cs.CL

本文通过控制实验验证了一个关于几何幻觉的分类法在GPT-2模型中的有效性。研究发现，只有覆盖间隙（Type 3）类型的幻觉在嵌入空间中表现出稳定的几何区分性，而其他类型则未能有效分离。

When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation

Bian Sun et al.

cs.CL cs.AI

本文探讨了在临床对话评估中, 自动相似性度量与使用LLM作为评判者之间的差异. 研究通过微调Llama 2 7B模型来处理医疗查询, 并指出基于GPT-4的评估与定量指标结果存在分歧, 强调了人工专家评估的必要性.

How Large Language Models Get Stuck: Early structure with persistent errors

Alokesh Manna, William Snyder, Whitney Tabor

cs.CL cs.LG

本文研究了大型语言模型(LLM)在训练早期形成的错误偏好如何持续存在。作者通过在BabyLM数据集上训练OPT模型并在BLiMP基准上评估，发现模型在近三分之一的语法类别中无法稳定地区分合法与非法句子，且早期建立的错误偏好会持续到训练后期。

Distribution-Aware Companding Quantization of Large Language Models

Athul Radhakrishnan, Siddhant Mohan, Mahima Sachdeva

cs.CL

本文提出了一种多令牌预测的辅助训练任务, 通过让模型同时预测后续多个令牌来提升语言模型的样本效率和下游能力. 该方法在代码和自然语言任务上均显示出优势, 尤其能提升大模型在代码生成等任务上的表现, 并能加速推理.

Policy Compliance of User Requests in Natural Language for AI Systems

Pedro Cisneros-Velarde

cs.CL

本文构建了一个用于评估用户自然语言请求是否符合组织政策的数据集, 并利用该数据集测试了多种LLM模型在不同解决方案下的策略合规性评估性能. 研究展示了该问题的挑战性, 并分析了不同模型与方法的性能差异.

LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

Cunyuan Yang et al.

cs.CL cs.CV

本文提出了一个名为Fact-Flow的框架，用于提升基于MLLM的医疗报告生成的事实准确性。该方法将视觉事实识别与报告生成分离，并利用LLM自动构建标注数据集以减少人工成本。

A Typologically Grounded Evaluation Framework for Word Order and Morphology Sensitivity in Multilingual Masked LMs

Anna Feldman, Libby Barak, Jing Peng

cs.CL

本文提出了一种基于语言类型学的诊断框架, 用于评估多语言掩码语言模型对词序和形态变化的敏感性. 通过在不同语言上进行扰动实验, 发现模型严重依赖词序信息, 而形态信息的影响因语言类型而异.

CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles

Swapnil Parekh

cs.CL cs.AI cs.LG

本文提出了一种名为CIRCUS的方法，用于解决机制电路发现中对分析选择（如剪枝阈值）敏感的问题。该方法通过构建多个配置下的归因图集合，并提取在所有视图中都出现的边作为严格共识电路，从而获得一个鲁棒的“核心”电路。

CoMoL: Efficient Mixture of LoRA Experts via Dynamic Core Space Merging

Jie Cao et al.

cs.CL

本文提出了一种名为CoMoL的新型MoE-LoRA框架，旨在提升参数效率与细粒度适配能力。该方法通过核心空间专家与路由机制，在多个任务上取得了优于现有方法的性能。

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Yubo Dong et al.

cs.CL

本文提出了一个名为Super Research的任务框架, 旨在评估大型语言模型(LLMs)解决高度复杂问题的能力. 该框架通过结构化分解, 超广度检索和超深度调查来整合信息并生成可验证的报告.

From Literature to Hypotheses: An AI Co-Scientist System for Biomarker-Guided Drug Combination Hypothesis Generation

Raneen Younis et al.

cs.CL

本文介绍了一个名为AI Co-Scientist (CoDHy)的交互式系统，用于在癌症研究中生成基于生物标志物的药物组合假设。该系统整合了结构化和非结构化的生物医学数据，构建了一个任务特定的知识图谱，并利用基于图的推理和基于agent的推理来生成和验证候选药物组合。

QQ: A Toolkit for Language Identifiers and Metadata

Wessel Poelman, Yiyi Chen, Miryam de Lhoneux

cs.CL

本文介绍了一个名为QwanQwa (QQ)的轻量级Python工具包, 用于统一管理语言标识符和元数据. 该工具整合了多种语言资源, 提供了标识符的标准化和映射功能, 并支持基于图结构的语言属性探索, 旨在简化多语言NLP研究中的语言处理工作.

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Anastasia Zhukova et al.

cs.CL

本文提出了一个统一的跨文档共指消解数据集uCDCR, 整合了多个不同领域和标注标准的现有英文语料库, 并将其转换为一致的格式. 作者通过标准化的指标和评估协议分析了数据集的词汇特性, 并讨论了其对模型泛化能力的影响.

BLUFF: Benchmarking the Detection of False and Synthetic Content across 58 Low-Resource Languages

Jason Lucas et al.

cs.CL

本文提出了一个名为BLUFF的多语言基准测试，用于检测虚假和合成内容，覆盖了79种语言和超过20万个样本。它通过一个新颖的多智能体框架生成数据，并揭示了现有检测器在低资源语言上性能显著下降的问题。

SSKG Hub: An Expert-Guided Platform for LLM-Empowered Sustainability Standards Knowledge Graphs

Chaoyue He et al.

cs.CL cs.AI cs.HC

本文介绍了一个名为SSKG Hub的平台, 它利用LLM和专家指导的流程, 将复杂的可持续发展披露标准(如GRI, SASB)转化为可审计的知识图谱(KG). 该平台支持图谱探索, 证据追溯和跨图谱融合等任务, 并通过案例研究验证了其有效性.

Polynomial Mixing for Efficient Self-supervised Speech Encoders

Eva Feillet et al.

cs.CL cs.LG

本文提出了一种名为Polynomial Mixer (PoM)的新型token-mixing机制，用以替代Transformer中的self-attention。该机制通过计算输入的多项式表示，实现了相对于序列长度的线性复杂度。实验表明，在自监督语音表示学习框架中，PoM在语音识别任务上取得了与标准self-attention及其他线性复杂度方法相竞争的性能，同时提供了更好的效率权衡。

RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis

Andrew Zhuoer Feng et al.

cs.CL

本文提出了一个名为RAVEL的智能体框架, 用于评估LLM在文本合成任务中的实际能力. 通过构建C3EBench基准并测试14个模型, 研究发现LLM的推理能力在合成任务中比原始生成能力更为关键.

DRIV-EX: Counterfactual Explanations for Driving LLMs

Amaia Cardiel et al.

cs.CL

本文提出了一种名为DRIV-EX的方法，用于为自动驾驶中的大型语言模型(LLM)决策生成反事实解释。该方法通过梯度优化在连续嵌入空间中寻找能改变模型决策的最小语义变化，并利用受控解码确保生成文本的流畅性和有效性。实验表明，该方法能可靠地生成反事实场景，揭示了模型的潜在偏差。

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Shiqi Chen et al.

cs.CL cs.SE

本文提出了SkillCraft基准，用于评估LLM智能体学习和重用高级工具组合（称为Skills）的能力。该基准包含可扩展的、高度组合的现实工具使用场景，并引入了一种支持自动组合、缓存和重用Skills的轻量级评估协议。实验表明，技能重用能显著提升效率，并且成功率与智能体的工具组合能力密切相关。

RLAR: An Agentic Reward System for Multi-task Reinforcement Learning on Large Language Models

Andrew Zhuoer Feng et al.

cs.CL

本文提出了一个名为RLAR的agent-driven框架, 用于为大型语言模型(LLM)的强化学习对齐动态分配奖励函数. 该方法将奖励获取转化为工具合成与调用任务, 通过LLM agent自主检索和合成奖励模型, 在数学、代码等多项任务上取得了性能提升.

LaSTR: Language-Driven Time-Series Segment Retrieval

Kota Dohi et al.

cs.CL

本文提出了一种基于自然语言查询的时间序列片段检索方法LaSTR. 该方法通过构建大规模的片段-描述数据集并训练一个对比学习模型, 在多个评估设置下超越了随机和CLIP基线.

Qwen3-Coder-Next Technical Report

Ruisheng Cao et al.

cs.CL

本文介绍了Qwen3-Coder-Next，一个专为编程智能体设计的开放权重语言模型。该模型通过大规模合成可验证的编码任务进行训练，在多个智能体基准测试中取得了与激活参数量相匹配的竞争力。

A Comprehensive Evaluation of LLM Unlearning Robustness under Multi-Turn Interaction

Ruihao Pan, Suhang Wang

cs.CL cs.AI

本文研究了在交互式环境中LLM遗忘的稳定性, 发现静态评估中被遗忘的知识常可通过多轮对话恢复. 研究指出, 更强的遗忘可能导致行为僵化而非真正的知识擦除, 因此需要针对交互场景设计更稳定的遗忘评估方法.

Constitutional Black-Box Monitoring for Scheming in LLM Agents

Simon Storf et al.

cs.CL cs.AI cs.LG

本文研究了基于LLM的"constitutional black-box monitors", 用于检测自主LLM agent的"scheming"行为. 通过使用STRIDE和Gloom两种方法生成合成数据来训练监控器, 并在ControlArena环境中评估其泛化能力, 发现性能提升很快达到饱和.

Learning Nested Named Entity Recognition from Flat Annotations

Igor Rozhkov, Natalia Loukachevitch

cs.CL

本文探讨了如何仅利用 flat annotations 来学习 nested named entity recognition (NER). 作者评估了四种方法, 包括 string inclusions 和 entity corruption 等, 在俄语基准 NEREL 上进行了实验. 最佳组合方法取得了 26.37% 的 inner F1 分数, 缩小了与全监督方法之间 40% 的性能差距.

MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine

Kai Zhang et al.

cs.CL

本文提出了一个开源的生物医学视觉-语言模型 MEDGPT-OSS, 它通过优化的三阶段训练课程, 将语言主干与视觉前端结合, 旨在实现隐私保护的临床AI研究. 该模型在参数效率和多模态推理任务上表现出色, 并发布了完整的训练方案与评估工具.

CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

Xinyu Zhu et al.

cs.CL cs.AI

本文提出了一个名为CHIMERA的紧凑合成数据集，用于提升大型语言模型(LLM)在跨学科领域的推理能力。该数据集通过自动化流程生成，覆盖多个科学领域，并用其微调的小规模模型在多个推理基准测试上取得了与更大模型相当的性能。

KVSlimmer: Theoretical Insights and Practical Optimizations for Asymmetric KV Merging

Lianjun Liu et al.

cs.CL

本文提出了一种名为KVSlimmer的算法, 用于优化大型语言模型中Key-Value缓存的合并过程. 该方法通过理论分析KV不对称性并设计无需梯度的闭式解, 在减少内存和延迟的同时提升了模型在长文本任务上的性能.

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Shravani Hariprasad

cs.CL cs.AI

本文评估了五种小型开源语言模型在临床问答任务上对不同提示词(prompt)的敏感性和答案一致性. 研究发现, 模型的一致性(consistency)与准确性(accuracy)相互独立, 某些高一致性模型可能给出系统性错误答案, 这在临床应用中存在风险. 研究建议在医疗AI部署中应避免使用角色扮演(roleplay)类提示, 并联合评估一致性、准确性和指令遵循能力.

Hybrid Neural-LLM Pipeline for Morphological Glossing in Endangered Language Documentation: A Case Study of Jungar Tuvan

Siyu Liang, Talant Mawkanuli, Gina-Anne Levow

cs.CL

本文提出了一种结合神经序列标注与大语言模型(LLM)后处理的混合自动标注流程, 用于濒危语言Jungar Tuvan的形态学标注. 通过消融实验, 研究发现检索增强提示比随机示例选择效果更好, 并且结合BiLSTM-CRF与LLM后处理的两阶段流程能有效减少标注工作量.

Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

Manil Shrestha, Edward Kim

cs.CL cs.AI

本文提出了一种基于 conformal prediction 的框架，为大型语言模型在医疗实体抽取任务中提供有限样本覆盖保证。该方法在两个不同的临床领域（结构化药物标签和自由文本放射报告）上进行了验证，结果表明模型的校准特性高度依赖于文档结构和领域，需要针对特定领域进行调整。

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

Li Lucy et al.

cs.CL cs.CV cs.CY

本文评估了11种vision-language models在DrawEduMath基准上的表现, 该基准包含学生手写的数学问题解答. 研究发现, 这些模型在诊断学生错误和评估需要更多教学帮助的学生作业时表现不佳, 表明其当前不适合直接用于教育支持场景.

Towards Orthographically-Informed Evaluation of Speech Recognition Systems for Indian Languages

Kaushal Santosh Bhogale et al.

cs.CL cs.SD

本文针对印度语言ASR系统的评估难题, 提出了一个利用LLMs来构建基准的框架, 以更好地捕捉拼写变体. 实验表明, 该方法能降低传统WER的悲观误差率, 并使评估结果更贴近人类感知.

S-VoCAL: A Dataset and Evaluation Framework for Inferring Speaking Voice Character Attributes in Literature

Abigail Berthe-Pardo et al.

cs.CL

本文提出了S-VoCAL数据集及其评估框架, 用于评估从文学文本中推断虚构角色语音相关属性(如年龄, 性别, 籍贯等)的任务. 作者通过一个简单的RAG (Retrieval-Augmented Generation) 流程展示了该数据集的应用, 并指出其在某些属性推断上的局限性.

Qayyem: A Real-time Platform for Scoring Proficiency of Arabic Essays

Hoor Elbahnasawi et al.

cs.CL

本文介绍了一个名为Qayyem的基于Web的平台，旨在支持阿拉伯语作文的自动评分。该平台集成了作业创建、批量作文上传和评分配置等功能，并部署了多种先进的阿拉伯语作文评分模型。

Thoth: Mid-Training Bridges LLMs to Time Series Understanding

Jiafeng Lin et al.

cs.CL cs.AI cs.LG

本文提出了Thoth, 一个通过mid-training方法使LLMs获得通用时间序列理解能力的模型系列. 该方法构建了Book-of-Thoth语料库进行训练, 并在多个时间序列问答基准上取得了优于基座模型和先进LLMs的性能.

GroupGPT: A Token-efficient and Privacy-preserving Agentic Framework for Multi-User Chat Assistant

Zhuokang Shen et al.

cs.CL

本文提出了一个用于多用户群聊助手的框架GroupGPT, 它采用大小模型协作架构来解耦干预时机判断与回复生成, 以提高效率并保护隐私. 该工作还引入了一个包含2500个标注片段的基准数据集MUIR用于评估, 实验表明该框架能减少token消耗并生成适时回复.

How RL Unlocks the Aha Moment in Geometric Interleaved Reasoning

Xiangxiang Zhang et al.

cs.CL

本文探讨了在解决复杂几何问题时, 多模态大语言模型(MLLMs)在交替进行绘图与逻辑推理时遇到的性能下降问题. 作者提出了一种名为Faire的强化学习框架, 旨在通过施加因果约束来改善模型对绘图与推理步骤间依赖关系的内部化, 并在几何推理基准测试中取得了有竞争力的结果.

CARD: Towards Conditional Design of Multi-agent Topological Structures

Tongtong Wu et al.

cs.CL cs.LG

本文提出了一个名为CARD的条件图生成框架, 用于动态设计多智能体系统的通信拓扑结构. 该框架通过整合环境信号来增强系统在模型能力或资源变化下的鲁棒性和性能.

DEP: A Decentralized Large Language Model Evaluation Protocol

Jianxiang Peng et al.

cs.CL

本文提出了一种去中心化的大语言模型评估协议(DEP), 旨在解决现有评估基准标准不一、脚本实现复杂以及存在数据泄露风险的问题. 该协议通过一个匹配服务器实现评估逻辑与数据的隔离, 并提供了配套的工具包以支持实际应用.

Token-level Data Selection for Safe LLM Fine-tuning

Yanping Li et al.

cs.CL cs.AI cs.CR

本文提出了一种名为TOSS的token-level数据选择框架, 用于在LLM微调过程中维护模型的安全性. 该方法通过量化每个token的安全风险并进行选择性移除, 在安全性和下游任务性能之间取得了更好的平衡.

Reasoning or Rationalization? The Role of Justifications in Masked Diffusion Models for Fact Verification

Jacob Devasier

cs.CL

本文研究了Masked Diffusion Language Models在事实核查任务中的推理动态, 探讨了其生成的"理由"是真正的推理还是事后合理化. 实验表明, 模型通常在扩散过程早期就确定了结论, 并以此作为全局锚点, 强制其先进行推理反而会因理由中的噪声信息而降低预测准确性. 研究发现, 模型的结论强烈依赖于理由的质量, 这解释了强制深思熟虑导致性能下降的原因.

XAI-enhanced Comparative Opinion Mining via Aspect-based Scoring and Semantic Reasoning

Ngoc-Quang Le et al.

cs.CL

本文提出了一种名为XCom的transformer-based模型, 用于comparative opinion mining. 该模型包含aspect-based rating prediction和semantic analysis两个主要模块, 并集成了Shapley additive explanations (SHAP)模块以增强模型决策的可解释性.

Reasoning Boosts Opinion Alignment in LLMs

Frédéric Berdoz et al.

cs.CL cs.LG

本文探讨了利用 reasoning 来提升 LLMs 在 opinion alignment 任务上的表现. 通过在三个政治数据集上的实验, 作者发现 reasoning 能改善模型表现但无法完全消除偏见.

Generative AI & Fictionality: How Novels Power Large Language Models

Edwin Roland, Richard Jean So

cs.CL

本文探讨了小说文本作为训练数据对大型语言模型(如BERT)的影响, 并与新闻、论坛等其他文本类型进行了比较. 作者认为, 在生成式AI日益影响文化生产的背景下, 对训练数据的分析成为一个新的重要维度.

Can Thinking Models Think to Detect Hateful Memes?

Mohamed Bayan Kmainasi et al.

cs.CL

本文提出了一种基于强化学习的后训练框架, 通过任务特定奖励和一种新颖的 Group Relative Policy Optimization (GRPO) 目标来改进基于思维链 (chain-of-thought) 的多模态大语言模型 (MLLMs) 在仇恨表情包检测中的推理能力. 该方法在 Hateful Memes 基准测试上取得了先进的性能.

Self-Anchoring Calibration Drift in Large Language Models: How Multi-Turn Conversations Reshape Model Confidence

Harshavardhan

cs.CL cs.AI

本文研究了大型语言模型在多轮对话中基于自身先前输出进行迭代时，其表达置信度出现的系统性变化，即"自我锚定校准漂移"(SACD)。通过对Claude Sonnet 4.6, Gemini 3.1 Pro和GPT-5.2三个前沿模型的实证分析，发现不同模型呈现出异质性的置信度变化模式。

Suffix-Constrained Greedy Search Algorithms for Causal Language Models

Ayoub Hammal, Pierre Zweigenbaum, Caio Corro

cs.CL

本文提出了一种后缀约束生成方法, 旨在确保大型语言模型(LLM)的输出遵循特定模板, 从而使最终答案可以被确定性地、轻松地解析. 作者为此设计了几种基于贪婪搜索的算法, 并在多个数据集上验证了该方法在保证答案可解析性的同时, 不会对模型性能产生负面影响, 甚至有所提升.

Linking Knowledge to Care: Knowledge Graph-Augmented Medical Follow-Up Question Generation

Liwen Sun et al.

cs.CL cs.AI

本文提出了一种结合知识图谱与大语言模型的方法, 用于生成医疗随访问题. 该方法通过结构化知识增强模型的领域专业性, 在相关基准上取得了性能提升.

LLM Self-Explanations Fail Semantic Invariance

Stefan Szeider

cs.CL cs.AI

本文提出了一种称为semantic invariance testing的方法, 用于测试LLM自我解释的忠实性. 在智能体设定中, 当任务功能状态不变而语义语境改变时, 前沿模型的自我报告会随之偏移, 表明其可能无法可靠追踪任务状态.

A Study on Building Efficient Zero-Shot Relation Extraction Models

Hugo Thomas et al.

cs.CL

本文研究了构建高效 zero-shot relation extraction 模型的方法. 针对现有模型在现实场景中依赖不切实际假设的问题, 作者提出了几种改进策略, 并通过实验比较发现 AlignRE 模型在综合评估中表现最佳.

Spectral Attention Steering for Prompt Highlighting

Weixian Waylon Li et al.

cs.CL cs.AI

本文提出了一种名为SEKA的训练无关注意力引导方法, 通过直接编辑key embeddings来引导模型关注用户指定的文本, 避免了存储完整attention matrix的内存开销. 该方法及其自适应变体AdaSEKA在标准基准测试中表现优于基线, 且与FlashAttention等优化实现兼容.

Efficient Extractive Summarization with MAMBA-Transformer Hybrids for Low-Resource Scenarios

Nisrine Ait Khayi

cs.CL

本文提出了一种结合 Mamba state space model 与 Transformer 的混合架构，用于低资源场景下的抽取式文本摘要。该方法旨在解决长文档处理中的二次复杂度瓶颈，通过线性时间模型保持完整上下文，并在多个领域的数据集上实现了效率与质量的提升。

Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data

Minghao Guo et al.

cs.CL

本文通过一个基于个人十年私信数据的案例研究, 提出了"个体图灵测试"来评估LLM模拟特定个体的能力. 研究发现, 当前的微调、检索增强生成和基于记忆的方法均未能通过该测试, 但在模拟陌生人时表现更好, 揭示了参数化与非参数化方法在长期上下文个体模拟中的根本权衡.

Catalyst-Agent: Autonomous heterogeneous catalyst screening and optimization with an LLM Agent

Achuth Chandrasekhar, Janghoon Ock, Amir Barati Farimani

cs.CL

本文介绍了一个名为Catalyst-Agent的AI系统，该系统利用大型语言模型(LLM)作为智能体，通过调用外部工具和数据库来自主筛选和优化异质催化剂。该系统在几个关键的电化学反应测试中展示了其自动化工作流程的有效性。

Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

Hamed Damirchi et al.

cs.CL cs.LG

本文提出了一种名为Truth as a Trajectory (TaT)的新方法, 用于分析大型语言模型(LLM)的内部推理过程. 该方法将transformer的推理过程建模为跨层的表示位移轨迹, 而非静态激活点, 从而更好地揭示了有效推理与虚假行为之间的区别.

MetaState: Persistent Working Memory for Discrete Diffusion Language Models

Kejing Xia et al.

cs.CL cs.AI cs.LG

本文提出了一种名为 MetaState 的轻量级循环增强模块，用于解决离散扩散语言模型中的“信息孤岛”问题。该方法通过引入一个与序列长度无关的持久工作记忆，在保持主干网络冻结的同时，提升了文本生成的准确性和跨步骤一致性。

PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology

Yimin Zhao et al.

cs.CL cs.AI

本文提出了一个名为PanCanBench的专门用于评估大语言模型在胰腺肿瘤学领域表现的基准测试集. 该基准基于真实患者问题构建, 并采用专家制定的评估准则来评估模型的临床完整性, 事实准确性和幻觉率. 评估结果显示, 现有模型在事实准确性方面存在显著差异, 且网络搜索集成等高级功能并未必然提升回答质量.

Toward Graph-Tokenizing Large Language Models with Reconstructive Graph Instruction Tuning

Zhongjian Zhang et al.

cs.CL cs.AI

本文提出了一种名为RGLM的重构式图指令调优方法, 旨在改进Graph-Tokenizing LLMs (GTokenLLMs)中图与文本的对齐. 该方法通过从LLM的图token输出中重构图信息, 显式地引入图监督来约束对齐过程, 并在多个基准测试中验证了其有效性.

Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction

Jiyoon Myung

cs.CL

本文通过设计三个反映实际交互挑战的任务, 系统地评估了 Large Language Models (LLMs) 在多轮对话中的可靠性. 研究发现, 无论是商业还是开源模型, 在扩展对话中其可靠性均出现显著下降, 并揭示了指令漂移等常见失败模式.

LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

Jiajie Jin et al.

cs.CL cs.IR

本文提出了一种名为LaSER的自蒸馏框架，旨在将显式推理能力内化到稠密检索器的潜在空间中。该方法通过双视图训练和多粒度对齐策略，在保持推理深度的同时显著提升了检索效率。

Understanding the Physics of Key-Value Cache Compression for LLMs through Attention Dynamics

Samhruth Ananthanarayanan, Ayan Sengupta, Tanmoy Chakraborty

cs.CL

本文从 attention routing 的视角分析了 LLM 中 KV cache 压缩的物理本质，指出当前评估方法忽略了语义可达性这一结构性问题。通过合成任务实验，作者揭示了压缩率与模型幻觉之间的相变关系，以及不同模型架构在路由动态上的差异。

Enhancing Persona Following at Decoding Time via Dynamic Importance Estimation for Role-Playing Agents

Yuxin Liu et al.

cs.CL cs.AI

本文提出了一种用于角色扮演智能体的动态角色重要性估计方法, 通过加权奖励引导解码来增强推理时对角色设定的遵循. 该方法在话语一致性和行为保真度方面展现了有效性.

Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs

Ming-Hao Hsu et al.

cs.CL eess.AS

本文通过跨层CKA分析等方法，研究了端到端语音大语言模型中语音与文本表示之间的模态鸿沟。研究发现，语音表示的冗余特性导致其跨层对齐模式与文本不同，且简单的特征校准无法有效弥合差距。

Extracting Training Dialogue Data from Large Language Model based Task Bots

Shuo Zhang et al.

cs.CL cs.AI

本文针对基于LLM的任务型对话系统, 提出了一种新的训练数据提取攻击方法, 并分析了影响数据记忆的关键因素.

Markovian ODE-guided scoring can assess the quality of offline reasoning traces in language models

Arghodeep Nandi, Ojasva Saxena, Tanmoy Chakraborty

cs.CL

本文提出了一个名为MarODE的离线评估框架, 用于为语言模型生成的推理轨迹(reasoning traces)分配质量分数. 该方法基于推理过程的Markovian建模和常微分方程(ODE)对轨迹动态的表征, 并在大规模评估中显示出优于现有基线方法的性能.

More Data, Fewer Diacritics: Scaling Arabic TTS

Ahmed Musleh, Yifan Zhang, Kareem Darwish

cs.CL

本文通过构建自动处理流程收集了约4000小时的阿拉伯语TTS训练数据, 并训练了多个模型. 研究表明, 尽管使用带注音符号的数据训练的模型通常更好, 但更大规模的训练数据能在很大程度上弥补缺乏注音符号的不足.

Measuring What VLMs Don't Say: Validation Metrics Hide Clinical Terminology Erasure in Radiology Report Generation

Aditya Parikh et al.

cs.CL cs.AI

本文探讨了放射学报告生成中Vision-Language Models (VLMs)评估指标的局限性。研究发现，追求高文本相似度分数的解码策略会导致报告模板化，丢失关键的临床术语。为此，作者提出了Clinical Association Displacement (CAD)和Weighted Association Erasure (WAE)等词汇多样性度量框架，以量化生成报告中临床信息的丢失和人口统计学偏差。

Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning

Jiebin Zhang et al.

cs.CL

本文提出了一种名为Learning to Draft (LTD)的自适应推测解码方法，通过强化学习训练协同策略来动态协调草稿生成与验证阶段，以直接优化解码吞吐量。实验表明，该方法在多种任务和模型上相比现有方法能显著提升推理速度。

LexChronos: An Agentic Framework for Structured Event Timeline Extraction in Indian Jurisprudence

Anka Chandrahas Tummepalli, Preethu Rose Anish

cs.CL cs.AI

本文提出了一个名为LexChronos的智能体框架，用于从印度最高法院判决书中提取结构化事件时间线。该框架采用双智能体架构，通过迭代优化生成事件序列，并在下游的法律文本摘要任务中验证了其有效性。

Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

Yibo Yan et al.

cs.CL cs.IR

本文提出了一种名为ColParse的新方法, 用于视觉文档检索(VDR). 该方法通过解析文档布局生成少量子图像嵌入, 并与全局向量融合, 从而在显著降低存储开销的同时提升检索性能.

Surgical Post-Training: Cutting Errors, Keeping Knowledge

Wenye Lin, Kai Han

cs.CL cs.AI

本文提出了一种名为Surgical Post-Training (SPoT)的后训练方法，旨在提升大语言模型的推理能力。该方法通过数据修正和二元交叉熵目标来减少灾难性遗忘，并在数学任务上取得了效率提升。

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

Yixuan Tang et al.

cs.CL cs.AI

本文提出了一种基于医学本体论构建可解释文本嵌入的方法QIME, 将文本表示为对一系列临床相关的是/否问题的回答. 该方法通过免训练的嵌入构建策略, 在多个生物医学任务上缩小了与黑盒模型的性能差距, 同时提供了简洁的临床解释.

Building a Strong Instruction Language Model for a Less-Resourced Language

Domen Vreš et al.

cs.CL cs.LG

本文提出了一种为低资源语言构建高性能指令语言模型的方法论框架, 并以斯洛文尼亚语为例进行了验证. 通过三阶段持续预训练和两阶段监督微调, 在混合多语言语料上训练得到了GaMS3-12B模型, 其在多项斯洛文尼亚语评测中超越了同规模基准模型.

Legal RAG Bench: an end-to-end benchmark for legal RAG

Abdur-Rahman Butler, Umar Butler

cs.CL cs.IR cs.LG

本文提出了一个用于评估法律领域检索增强生成(RAG)系统端到端性能的基准测试套件Legal RAG Bench及其评估方法。该基准包含大量法律文本段落和复杂问题，并采用了一种新颖的层次化错误分解框架来量化检索和推理模型各自的贡献。评估结果表明，信息检索是影响法律RAG性能的主要因素。

Bootstrapping Embeddings for Low Resource Languages

Merve Basoz, Andrew Horne, Mattia Opper

cs.CL

本文探讨了利用大语言模型为低资源语言生成合成三元组数据以优化 embedding 模型的方法. 测试了三种策略, 包括 in-context learning 和两种新方法, 发现后两种方法能在多种任务和语言上带来显著的性能提升.

AnnoABSA: A Web-Based Annotation Tool for Aspect-Based Sentiment Analysis with Retrieval-Augmented Suggestions

Nils Constantin Hellwig et al.

cs.CL

本文介绍了一个名为AnnoABSA的、首个基于web的、支持全方位Aspect-Based Sentiment Analysis (ABSA)任务的标注工具。该工具具有高度可定制性，并集成了基于Large Language Model (LLM)的retrieval-augmented generation (RAG)建议功能，以人机回环的方式辅助标注者。

Beyond the Resumé: A Rubric-Aware Automatic Interview System for Information Elicitation

Harry Stuart, Masahiro Kaneko, Timothy Baldwin

cs.CL

本文提出了一种基于大语言模型(LLM)的自动化面试系统，用于在招聘初期更有效地评估候选人。该系统通过模拟面试来更新对申请人潜在特质的信念，并在模拟实验中验证了其有效性。

FreeAct: Freeing Activations for LLM Quantization

Xiaohao Liu et al.

cs.CL cs.AI cs.CV

本文提出了一种名为FreeAct的量化框架, 通过放松静态的一对一变换约束来处理LLM激活中的动态分布差异. 该方法为不同token类型分配不同的变换矩阵, 在扩散和多模态LLM上取得了优于基线模型的性能提升.

LLM-as-an-Annotator: Training Lightweight Models with LLM-Annotated Examples for Aspect Sentiment Tuple Prediction

Nils Constantin Hellwig et al.

cs.CL

本文提出了一种利用LLM生成标注来训练轻量级模型的新方法LA-ABSA, 用于Aspect-Based Sentiment Analysis (ABSA)任务. 该方法在低资源场景下取得了与LLM提示学习相当的性能, 同时显著提升了计算效率.

nchellwig at SemEval-2026 Task 3: Self-Consistent Structured Generation (SCSG) for Dimensional Aspect-Based Sentiment Analysis using Large Language Models

Nils Constantin Hellwig et al.

cs.CL

本文提出了一种名为Self-Consistent Structured Generation (SCSG)的方法，用于维度方面情感分析任务。该方法通过多次运行LoRA微调的大语言模型并采用多数投票机制来提高预测的可靠性，同时利用vLLM的PagedAttention技术来优化计算效率。在多个语言和领域的评估中，该方法取得了显著的性能提升和较高的排名。

Semantic Novelty Trajectories in 80,000 Books: A Cross-Corpus Embedding Analysis

Fred Zimmerman

cs.CL cs.IR

本文应用Schmidhuber的压缩进展理论，在大规模语料库中分析了超过80,000本书籍的语义新颖性轨迹。通过比较两个世纪的英文书籍，研究发现现代书籍的平均段落新颖性更高，且其语义轨迹的曲折程度显著增加。

ALTER: Asymmetric LoRA for Token-Entropy-Guided Unlearning of LLMs

Xunlei Chen et al.

cs.CL cs.AI

本文提出了一个名为 ALTER 的轻量级框架，用于实现大型语言模型（LLM）的特定知识遗忘。该方法通过识别高熵（high entropy）token并使用非对称 LoRA 架构进行参数隔离，以高效地移除目标子领域的知识，同时最大限度地保留模型的其他能力。

OpenAutoNLU: Open Source AutoML Library for NLU

Grigory Arshinov et al.

cs.CL cs.LG

本文介绍了一个用于自然语言理解(NLU)任务的开源自动机器学习(AutoML)库OpenAutoNLU. 该库提供了数据感知的训练方案选择, 集成的数据质量诊断以及可配置的分布外(OOD)检测等功能.

Let the Agent Search: Autonomous Exploration Beats Rigid Workflows in Temporal Question Answering

Xufei Lv et al.

cs.CL

本文提出了一种名为AT2QA的自主智能体, 用于Temporal Knowledge Graph Question Answering (TKGQA). 该方法让一个现成的LLM自主决定与知识图谱的交互步骤, 在无需训练的情况下显著提升了多跳时序推理的性能.

CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation

Ziyi Zhu et al.

cs.CL

本文提出了一种名为CyclicJudge的循环分配方法, 旨在高效缓解基于LLM的评估中存在的法官偏见. 该方法通过方差分解分析, 证明了循环分配是最优策略, 能在保持单法官评估成本的同时精确消除偏见, 并在MT-Bench上得到了实证支持.

Sovereign AI-based Public Services are Viable and Affordable

António Branco et al.

cs.CL cs.CY

本文探讨了基于AI的公共服务在数字与文化主权框架下的可行性。通过实验证明，采用非通用架构的本地化AI方案在有限资源下能够实现有效运行，为公共部门提供了替代大型科技公司垄断服务的可行路径。

KDFlow: A User-Friendly and Efficient Knowledge Distillation Framework for Large Language Models

Songming Zhang et al.

cs.CL cs.AI cs.LG

本文提出了一个名为KDFlow的大语言模型知识蒸馏框架, 它采用解耦架构并使用SGLang进行教师模型推理, 以提高训练效率. 该框架通过零拷贝数据传输和重新计算logits来平衡通信成本与性能, 并支持多种蒸馏策略.

FLANS at SemEval-2026 Task 7: RAG with Open-Sourced Smaller LLMs for Everyday Knowledge Across Diverse Languages and Cultures

Liliia Bogdanova et al.

cs.CL cs.AI

本文介绍了参与SemEval-2025 Task 7竞赛的系统方案, 主要使用基于开源小语言模型(OS-sLLMs)的检索增强生成(RAG)方法. 为了处理多语言和跨文化的日常知识问题, 团队构建了自有的文化感知知识库(CulKBs), 并测试了结合在线搜索的系统.

Demonstrating ViviDoc: Generating Interactive Documents through Human-Agent Collaboration

Yinghao Tang et al.

cs.CL cs.AI

本文介绍了一个名为ViviDoc的人机协作系统, 用于从单一主题输入生成交互式教育文档. 该系统通过一个多智能体管道和一个名为DocSpec的中间表示来分解可视化组件, 使教育者能够在代码生成前审查和修改计划, 从而在生成可控性上优于简单的智能体生成方法.

AdaPonderLM: Gated Pondering Language Models with Token-Wise Adaptive Depth

Shixiang Song et al.

cs.CL

本文提出了一种名为AdaPonderLM的自监督循环语言模型，它通过引入token-wise的自适应深度机制来优化推理时的计算效率。该模型在保持语言建模性能的同时，显著减少了所需的计算量。

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Junbo Huang et al.

cs.CL cs.AI cs.LG

本文提出了一种整合 qualitative content analysis (QCA) 原则的 narrative graph 标注框架，旨在通过减少标注错误来提升质量。研究构建了一个关于 inflation narratives 的数据集，并使用基于图的 Krippendorff's $\alpha$ 评估了标注者间一致性，发现宽松的度量会高估可靠性，而局部约束的表示能减少标注变异性。

When Numbers Tell Half the Story: Human-Metric Alignment in Topic Model Evaluation

Thibault Prouteau et al.

cs.CL cs.AI cs.LG

本文提出了一种名为Topic Word Mixing(TWM)的新颖人工评估任务, 用于评估topic models中主题间的区分度. 通过在一个特定领域的科学哲学文献语料库上比较多种自动评估指标与人工评估结果, 研究发现自动指标与人工判断之间存在不一致性, 尤其是在专业领域.

AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations

Cheng Jiayang et al.

cs.CL cs.AI

本文提出了一个用于评估和优化对话助手长期记忆能力的交互式基准测试环境 AMemGym. 它通过结构化数据采样和 LLM 模拟用户, 为记忆系统的评估与优化提供了可扩展且诊断性强的平台.

CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

Yixin Nie et al.

cs.CL cs.AI cs.SI

本文介绍了CharacterFlywheel，一个用于在Instagram、WhatsApp和Messenger等生产级社交聊天应用中迭代改进大型语言模型(LLM)的流程。该流程整合了数据管理、奖励建模、监督微调(SFT)和强化学习(RL)等方法，通过在真实用户流量上进行多代优化，显著提升了模型的用户参与度和指令遵循能力。

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

He Li et al.

cs.CL

本文提出了PonderLM-3，一个用于token-wise自适应计算的预训练框架。它通过引入可微分的attention mask，在推理时根据token需求动态分配计算量，从而在相同最大计算步数下实现更高效的推理。

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

Jiachun Li et al.

cs.CL cs.AI cs.CV

本文提出了一个名为MMR-Life的基准测试, 用于评估多模态大语言模型在真实生活场景中的多图像推理能力. 该基准包含多种推理类型, 评估显示现有模型在此任务上仍面临显著挑战.

EstLLM: Enhancing Estonian Capabilities in Multilingual LLMs via Continued Pretraining and Post-Training

Aleksei Dorkin et al.

cs.CL cs.AI

本文通过持续预训练(CPT)和后续对齐技术, 提升了多语言大语言模型(LLM)在爱沙尼亚语上的能力. 实验表明, 在保持英语和通用推理性能的同时, 该方法能显著改善模型在爱沙尼亚语各项基准测试上的表现.

What Exactly do Children Receive in Language Acquisition? A Case Study on CHILDES with Automated Detection of Filler-Gap Dependencies

Zhenghao Herbert Zhou et al.

cs.CL

本文提出了一种自动识别英语口语语料库中三种核心 filler-gap 依赖结构（如疑问句、关系从句）及其提取位置（如主语、宾语）的系统。该系统结合了成分句法分析和依存句法分析，并在 CHILDES 儿童语料库上进行了应用，以量化儿童语言习得中的输入分布。

Modeling Grammatical Hypothesis Testing in Young Learners: A Sequence-Based Learning Analytics Study of Morphosyntactic Reasoning in an Interactive Game

Thierry Geoffre, Trystan Geoffre

cs.CL

本文采用基于序列的学习分析方法, 通过分析学生在互动游戏中的细粒度操作序列来研究小学生的语法推理过程. 研究发现, 学习者在处理法语形态句法一致时, 其操作序列偏离了常规的左到右顺序, 表明他们采用了动态的假设检验策略.

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Xiang Zheng et al.

cs.CL

本文提出了一个名为ClinConsensus的中文医学大语言模型评测基准, 该基准由临床专家构建和验证, 包含2500个开放式病例, 覆盖了从预防到长期随访的全护理周期. 作者还提出了一种基于量规的评分协议和Clinically Applicable Consistency Score (CACS@k), 并引入了一个结合了高性能LLM-as-judge和本地可部署评判模型的双重评判框架, 以进行可扩展且可重复的评估.

Recursive Think-Answer Process for LLMs and VLMs

Byung-Kwan Lee, Youngchae Chee, Yong Man Ro

cs.CL

本文提出了一种用于大语言模型和视觉语言模型的递归思考-回答过程(R-TAP), 通过引入置信度生成器和奖励机制来引导模型进行迭代推理, 以提高答案的准确性并减少推理过程中的自我反思模式。

LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations

Veronika Solopova et al.

cs.CL cs.AI cs.CY

本文评估了六个大型语言模型在四个现实世界危机模拟场景中的战略决策行为, 并与人类表现进行比较. 研究发现, 模型在行动选择、风险校准和论证框架上与人类存在差异, 其解释倾向于规范合作性框架.

LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

Guanzheng Chen, Michael Qizhe Shieh, Lidong Bing

cs.CL

本文针对长上下文强化学习中的奖励稀疏性问题, 提出了LongRLVR方法, 通过引入可验证的上下文奖励来增强学习信号. 该方法在多个长上下文基准测试中显著提升了模型性能.

Zero- and Few-Shot Named-Entity Recognition: Case Study and Dataset in the Crime Domain (CrimeNER)

Miguel Lopez-Duran et al.

cs.CL cs.AI cs.DB

本文提出了一个针对犯罪领域的命名实体识别(NER)案例研究CrimeNER，并构建了一个包含超过1.5k标注文档的数据库(CrimeNERdb)。研究在Zero-Shot和Few-Shot设置下，使用最先进的NER模型和通用大语言模型进行了实验评估。

Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale

Hao Li et al.

cs.CL

本文提出了一个用于管理和编排AI agent技能生态系统的框架AgentSkillOS, 包含技能管理和任务解决两个阶段. 通过构建基准测试, 验证了基于树结构的技能检索和基于DAG的编排方法优于原生的扁平调用方式.

Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training

Valentin Lacombe, Valentin Quesnel, Damien Sileo

cs.CL

本文介绍了一个名为Reasoning Core的可扩展程序化数据生成套件, 用于在核心形式化领域(如PDDL规划, 一阶逻辑, 上下文无关文法, 因果推理和方程组)生成可验证的符号推理数据. 实验表明, 在预训练中混合使用这些数据可以提升下游推理能力.

cs.DS

High Probability Work Efficient Parallel Algorithms

Chase Hutton, Adam Melrod

cs.DS

本文提出了两种高概率工作高效的并行算法。首先，给出了首个具有高概率$O(n)$工作和$O(\text{polylog } n)$深度的并行半排序算法，并基于此得到了整数排序算法。其次，引入了一个框架，可将随机并行图算法从期望线性工作提升至高概率线性工作，并应用于$(\Delta+1)$顶点着色和最大独立集问题。

Partition-based Simple Heaps

Gerth Stølting Brodal et al.

cs.DS

本文提出了一种新的优先队列数据结构族: partition-based simple heaps. 该结构由$O(\log n)$个双向链表组成, 在不同链表间维持顺序, 但单个链表内部无序. 其操作具有摊还时间复杂度: extract-min为$O(\log n)$, insert和decrease-key为$O(\log \log n)$.

Achievability of Heterogeneous Hypergraph Recovery from its Graph Projection

Alexander Morgan, Chenghao Guo

cs.DS cs.IT math.PR math.ST

本文研究了从投影图中恢复异质随机超图(heterogeneous random hypergraph)超边的问题. 作者提出了一种基于选择最大团(maximal cliques)的算法, 并给出了该算法在特定密度条件下能够成功恢复超边的可达性(achievability)结果.

Kruskal-EDS: Edge Dynamic Stratification

Yves Mercadier

cs.DS

本文提出了一种名为Kruskal-EDS的MST算法变体，它通过采样和分层来避免全局排序。该算法在特定类型的图（如稀疏图或权重分布重尾的图）上能实现接近线性的时间复杂度，并通过实验验证了其性能提升。

Consistent Low-Rank Approximation

David P. Woodruff, Samson Zhou

cs.DS

本文研究了consistent low-rank approximation问题，即在数据流按行顺序到达时，维护一个子空间序列以近似每个时刻的最优rank-$k$近似，同时最小化解决方案的recourse（总变动量）。文章给出了在不同近似目标（加性和乘性）下的recourse上界和下界，并进行了实证评估。

others

Graph-theoretic Agreement Framework for Multi-agent LLM Systems ⭐ 精选

Muhammad Umar Javed

cs.MA cs.AI

本文为多智能体LLM系统建立了一个严格的图论协议框架, 将Transformer的交叉熵对数几率形式化映射到符号拉普拉斯矩阵(signed Laplacian), 从而连接了图论与LLM推理. 通过结构平衡理论刻画了协议稳定性, 证明了不平衡的批评循环会导致逻辑冲突和持续的推理振荡, 并揭示了不可观测的潜在状态如何作为拓扑"特洛伊木马"破坏共识. 为打破僵局, 作者将交互拓扑限制为弦图(chordal graph), 并应用矩阵分解与Gram-Schmidt正交化, 证明了秩一谱边扰动能确定性地打破专家对称性, 使系统稳定.

A Survey Mobility Management in 5G Networks

A. Nezih Kasim

cs.NI cs.AI

本文是一篇关于5G网络中移动性管理研究的综述, 旨在汇总有助于改进5G蜂窝网络移动性管理流程的相关研究. 它讨论了在异构网络中为移动设备提供无缝移动性管理所面临的挑战, 如切换阻塞和不必要切换等问题.

Commitment Checklist: Auditing Author Commitments in Peer Review

Chung-Chi Chen, Iryna Gurevych

cs.CY cs.CL cs.DL

本文利用大型语言模型(LLMs)对ICLR-2025和EMNLP-2024会议中作者在同行评审回复里所做的承诺进行了大规模审计。研究发现，尽管大部分承诺得到了履行，但仍有约25%的承诺未被兑现，其中“缺失的实验”等影响较大的项目尤为突出。作者提出了一种“作者承诺清单”的概念，旨在提醒作者和组织者注意未解决的承诺，以增强同行评审过程的问责制和完整性。

Bug Severity Prediction in Software Projects Using Supervised Machine Learning Models

Nafisha Tamanna Nice

cs.SE cs.LG

本文比较了多种基于监督机器学习算法的分类器, 用于利用Eclipse Bugzilla的历史仓库数据预测bug严重性等级. 评估发现集成树方法和DistilBERT模型取得了最高的总体准确率, 而线性模型在关键bug的召回率上表现最佳.

Strength Change Explanations in Quantitative Argumentation

Timotheus Kampik et al.

cs.MA cs.AI cs.LO

本文为 quantitative argumentation graphs 引入了 strength change explanations 的概念, 用于解释如何通过改变部分 arguments 的初始强度来达成期望的最终强度排序. 作者展示了该概念可以归约现有的 inverse 和 counterfactual 问题, 并证明了其基本性质. 通过启发式搜索, 作者验证了该方法在典型应用场景的 layered graphs 中的有效性, 但也指出了其在某些设置下的局限性.

Beyond Static Instruction: A Multi-agent AI Framework for Adaptive Augmented Reality Robot Training

Nicolas Leins et al.

cs.RO cs.AI cs.HC

本文提出了一种用于自适应增强现实(AR)机器人训练的多智能体AI框架。研究评估了一个基础的AR界面，并指出了根据学习者认知特征进行动态调整的必要性。

Riemannian Dueling Optimization

Yuxuan Ren, Abhishek Roy, Shiqian Ma

math.OC cs.LG

本文提出了两种用于Riemannian流形上的dueling优化算法. 这些方法适用于只能通过比较oracle访问目标函数的情形, 并分析了它们在geodesically smooth或convex函数上的复杂度.

Bilevel Optimization with Lower-Level Uniform Convexity: Theory and Algorithm

Yuman Wu et al.

math.OC cs.LG

本文研究了具有下层一致凸性(Uniform Convexity)的双层优化问题. 提出了一种新的随机算法UniBiO, 并分析了其在寻找$\epsilon$-稳定点时的Oracle复杂度.

What Is the Geometry of the Alignment Tax?

Robin Young

econ.EM cs.AI cs.LG math.OC

本文在 representation space 中为 alignment tax 提供了一个几何理论。在 linear representation 假设下，定义了 alignment tax rate，并推导了 safety 与 capability 权衡的 Pareto frontier。

MOSAIC: Unveiling the Moral, Social and Individual Dimensions of Large Language Models

Erica Coppolillo, Emilio Ferrara

cs.CY cs.AI

本文提出了一个名为MOSAIC的大规模基准测试，用于联合评估大型语言模型(LLM)的道德、社会及个体特征。该基准整合了来自多个学科的问卷和情景游戏，并通过实验表明仅依赖道德基础理论(MFT)不足以全面评估AI系统的伦理行为。

AI-Generated Letters from the Future: A Randomized Test of Personalized Climate Communication

Nattavudh Powdthavee et al.

cs.CY cs.AI

本文通过一项预注册的在线实验, 研究了AI生成的、来自未来的个性化信件对公众气候行动参与度的影响. 实验结果表明, 尽管叙事性信息能增加共情, 但并未显著提升政策支持或捐款意愿, 个性化信息也未能增强效果.

LitBench: A Graph-Centric Large Language Model Benchmarking Tool For Literature Tasks

Andreas Varvarigos et al.

cs.DL cs.AI cs.LG

本文介绍了一个名为LitBench的图中心化大语言模型基准测试工具, 用于文献相关任务. 该工具通过数据整理过程生成领域特定的文献子图, 并基于节点和边的文本属性构建训练和评估数据集, 旨在支持领域特定LLM的开发和评估.

How effective are VLMs in assisting humans in inferring the quality of mental models from Multimodal short answers?

Pritam Sil et al.

cs.CY cs.AI cs.CL

本文提出了一种名为MMGrader的方法, 该方法利用concept graphs作为分析框架, 从学生的multimodal responses中推断其mental models的质量. 评估发现, 现有模型的表现仍远低于人类水平, 但若其准确性得到提升, 将能成为教师评估全班学生理解水平的有效辅助工具.

"Bespoke Bots": Diverse Instructor Needs for Customizing Generative AI Classroom Chatbots

Irene Hou et al.

cs.CY cs.AI cs.HC

本文通过分析现有教育提示资源和访谈STEM教师, 研究了教师对课堂AI聊天机器人定制需求的多样性. 研究发现, 教师普遍优先定制聊天机器人的行为以符合课程材料与教学策略, 但其具体需求因课程规模、学科和教学风格而异, 表明单一设计无法满足所有情境.

PaperRepro: Automated Computational Reproducibility Assessment for Social Science Papers

Linhao Zhang et al.

cs.CY cs.AI

本文提出了一种名为PaperRepro的两阶段多智能体方法，用于自动化评估社会科学论文的计算可重复性。该方法通过分离执行与评估阶段，并利用任务专用工具和专家提示，在基准测试上取得了优于先前基线的性能。

Stochastic Parrots or Singing in Harmony? Testing Five Leading LLMs for their Ability to Replicate a Human Survey with Synthetic Data

Jason Miklian, Kristian Hoelscher, John E. Katsos

cs.CY cs.AI

本文通过比较人类受访者与五种主流生成式AI大语言模型生成的合成调查数据, 测试了AI合成数据在复制人类调查响应方面的能力. 研究发现, 虽然AI能产生技术上合理且更趋一致的结果, 但无法捕捉人类数据中的反直觉洞见, 且其偏差模式趋同, 表明合成数据目前尚不能有效替代严谨的人类调查方法.

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

Naimur Rahman

cs.CV cs.LG

本文探讨了在数据极度稀缺的神经影像学任务中, 深度学习模型的评估策略与模型选择问题. 通过一个帕金森病前驱期检测的案例研究, 作者比较了不同数据划分方法对模型性能评估的影响, 并发现轻量级模型在此类任务中可能更具优势.

The Hidden Costs of Domain Fine-Tuning: Pii-Bearing Data Degrades Safety and Increases Leakage

Jayesh Choudhari, Piyush Kumar Singh

cs.CR cs.LG

本文通过实证研究发现, 在特定领域(如预订客服)对小型指令微调语言模型进行微调时, 即使目标领域是良性的, 也会显著削弱模型的安全对齐行为. 研究特别指出, 微调数据中包含个人身份信息(PII)会加剧安全性的下降并导致隐私泄露.

Measuring What AI Systems Might Do: Towards A Measurement Science in AI

Konstantinos Voudouris et al.

cs.CY cs.AI cs.LG

本文从科学哲学、测量理论和认知科学的角度，提出了一个将AI系统的能力和倾向性视为“倾向属性”的理论框架。文章批评了当前主流的AI评估实践，并概述了进行科学上可辩护的评估所需的条件。

The minimal width of universal $p$-adic ReLU neural networks

Sándor Z. Kiss, Ambrus Pál

math.NT cs.LG

本文研究了$p$-adic ReLU神经网络在$L_q$范数和$C_1$范数下，对紧开子集上连续$\mathbb Q_p$值函数的通用逼近性质所需的最小宽度。

Self-Service or Not? How to Guide Practitioners in Classifying AI Systems Under the EU AI Act

Ronald Schnitzer, Maximilian Hoeving, Sonja Zillner

cs.CY cs.AI cs.HC

本文通过设计科学研究方法, 评估了工业从业者使用自助式网络决策支持工具来应用欧盟《人工智能法案》中风险分类方案(RCS)的实践情况. 研究揭示了在解释法律定义和监管范围时面临的关键挑战, 并表明提供有针对性的支持可以显著改善风险分类过程.

Contesting Artificial Moral Agents

Aisha Aijaz

cs.CY cs.AI

本文提出了一个用于质疑Artificial Moral Agents (AMAs)的5E框架, 该框架基于ethical, epistemological, explainable, empirical和evaluative五个层面, 并考虑了从个体到全球的伦理影响范围. 此外, 文章还提供了一个临时性的时间线, 以帮助开发者预见或主动应对关于AMA道德性的争议.

The Global Landscape of Environmental AI Regulation: From the Cost of Reasoning to a Right to Green AI

Kai Ebert et al.

cs.CY cs.AI

本文分析了AI系统, 特别是2025年兴起的生成式搜索与推理模型, 带来的显著环境成本, 并指出当前全球监管框架在模型层面和应用阶段存在局限性. 作者为此提出了包括强制模型级透明度、用户选择权和国际协调在内的政策应对方案.

Designing Explainable AI for Healthcare Reviews: Guidance on Adoption and Trust

Eman Alamoudi, Ellis Solaiman

cs.CY cs.AI cs.CL cs.HC

本文通过混合方法研究评估了一个用于分析医疗评论的可解释AI系统. 调查和访谈结果表明, 系统的有用性和解释的透明度是促进用户采纳和信任的关键因素.

The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making

Sanjay Basu

cs.CY cs.AI cs.LG

本文通过实验评估了临床大型语言模型(LLM)在共享决策中对患者价值声明的响应。研究发现不同模型对患者偏好的敏感性和一致性存在差异，并测试了两种缓解策略以改善其响应。

Alignment Is Not Enough: A Relational Framework for Moral Standing in Human-AI Interaction

Faezeh B. Pasandi, Hannah B. Pasandi

cs.CY cs.AI

本文提出了一个名为Relate的关系性伦理框架, 用于评估AI的道德地位. 该框架主张从本体论验证转向关系能力和具身互动, 并提出了关系影响评估等具体工具, 以应对当前AI伦理词汇的不足.

Linguistic Uncertainty and Engagement in Arabic-Language X (formerly Twitter) Discourse

Mohamed Soufan

cs.CY cs.CL

本文研究了阿拉伯语社交媒体中语言不确定性与用户参与度的关系. 通过分析黎巴嫩相关推文, 发现表达不确定性的推文获得了更高的参与度, 尤其是回复类互动.

DeepXiv-SDK: An Agentic Data Interface for Scientific Papers

Hongjin Qian et al.

cs.DL cs.AI cs.CL cs.IR

本文介绍了DeepXiv-SDK，一个为AI研究智能体设计的科学论文数据接口。它通过提供结构化的、预算感知的视图来优化论文访问和证据查找流程。

Joint Sensor Deployment and Physics-Informed Graph Transformer for Smart Grid Attack Detection

Mariam Elnour et al.

cs.NE cs.AI eess.SY

本文提出了一种用于智能电网攻击检测的联合传感器部署与物理信息图Transformer网络框架. 该框架通过多目标优化算法NSGA-II联合优化传感器布局和检测模型参数, 在多个标准测试系统上验证了其鲁棒性和检测性能的提升.

High-Resolution Range Profile Classifiers Require Aspect-Angle Awareness

Edwyn Brient, Santiago Velasco-Forero, Rami Kassab

eess.SP cs.AI cs.LG

本文研究了在高分辨率距离像(HRRP)分类中引入方位角(aspect-angle)条件信息的影响. 实验表明, 在训练和推理阶段明确提供方位角信息, 能显著提升多种分类模型的性能. 作者还验证了通过因果卡尔曼滤波器在线估计方位角的可行性, 证明了该方法在实际应用中的潜力.

A comparative study of transformer models and recurrent neural networks for path-dependent composite materials

Petter Uvdal, Mohsen Mirkhalaf

physics.comp-ph cond-mat.mtrl-sci cs.LG

本文比较了Transformer模型与循环神经网络(RNN)在预测短纤维增强复合材料(SFRC)代表性体积单元(RVE)均质化响应序列时的表现. 研究通过贝叶斯优化调整了架构与训练超参数, 并分析了模型在数据集大小、插值及外推情况下的精度与扩展规律. 结果表明, RNN在小数据集和外推任务上精度更优, 而Transformer在大数据集上精度相当且推理速度快7倍.

Adaptive Uncertainty-Guided Surrogates for Efficient phase field Modeling of Dendritic Solidification

Eider Garate-Perez et al.

physics.comp-ph cs.AI cs.LG

本文提出了一种用于枝晶凝固相场模拟的代理模型, 它结合了XGBoost和CNN, 并采用基于不确定性的自适应采样策略来减少昂贵的相场模拟次数. 该框架评估了不同因素对模型性能的影响, 并考虑了计算成本和相关的环境足迹.

Exploring Drug Safety Through Knowledge Graphs: Protein Kinase Inhibitors as a Case Study

David Jackson, Michael Gertz, Jürgen Hesser

q-bio.BM cs.AI cs.CE cs.IR cs.LG

本文提出了一个基于知识图谱的框架, 用于整合药物靶点数据, 临床试验文献, 试验元数据和上市后安全报告, 构建了一个证据加权的药物与医疗状况二分网络. 该框架被应用于400种蛋白激酶抑制剂, 以进行背景化比较和不良反应预测, 并通过一个非小细胞肺癌的案例研究进行了验证.

Profiling vs. Case-specific Evidence: A Probabilistic Analysis

Marcello Di Bello, Nicolò Cangiotti, Michele Loi

stat.OT cs.CY cs.LG econ.GN math.PR

本文通过概率分析探讨了 profiling evidence 与 case-specific evidence 在刑事审判中的证明价值差异. 作者认为 profiling evidence 仅支持一般性假设, 而非指向被告在具体案件中的罪行.

Using Artificial Neural Networks to Predict Claim Duration in a Work Injury Compensation Environment

Anthony Almudevar

stat.AP cs.LG

本文在工伤赔偿环境中应用了基于Cox比例风险回归的人工神经网络来预测理赔时长。模型以损伤代码、人口统计和工作场所信息为输入，输出理赔时长的分布预测，并处理了协变量缺失的情况。

Alpha-RF: Automated RF-Filter-Circuit Design with Neural Simulator and Reinforcement Learning

Nhat Tran et al.

eess.SP cs.LG

本文提出了一种利用 neural simulator 和 reinforcement learning 自动设计 RF 滤波器电路的方法. 该方法显著加速了设计流程, 并能生成超越人类专家水平的设计方案.

SurgFusion-Net: Diversified Adaptive Multimodal Fusion Network for Surgical Skill Assessment

Runlong He et al.

cs.RO cs.AI

本文提出了SurgFusion-Net和一种名为Divergence Regulated Attention (DRA)的创新融合策略, 用于基于多模态数据的外科手术技能评估. 该方法在多个数据集上验证有效, 性能优于现有基线.

CASCADE: Cross-scale Advective Super-resolution with Climate Assimilation and Downscaling Evolution

Alexander Kovalenko

physics.ao-ph cs.LG

本文提出了一种用于地球物理场超分辨率的框架CASCADE, 它将时空超分辨率重构为一个跨尺度的显式传输过程. 该方法通过半拉格朗日扭曲, 沿着学习到的流场平流粗尺度信息来重建精细结构, 并在SEVIR雷达数据上进行了评估.

RSS map-assisted MIMO channel estimation in the upper mid-band under pilot constraints

Alireza Javid, Nuria González-Prelcic

eess.SP cs.LG

本文提出了一种结合物理模型与深度学习的信道估计方法, 利用RSS地图和环境先验信息来提升导频受限场景下的性能. 该方法在多种场景下表现出较强的鲁棒性, 并能扩展到多步信道预测.

Position: AI Agents Are Not (Yet) a Panacea for Social Simulation

Yiming Li, Dacheng Tao

cs.MA cs.AI cs.CE cs.CY cs.SI

本文讨论了当前基于LLM的智能体在社会模拟中的局限性, 认为其尚不能作为解决该问题的万能方案. 作者指出了角色扮演可信度与真实人类行为有效性之间的系统性错配, 并提出了一个将基于AI智能体的社会模拟统一表述为环境参与的、具有显式暴露和调度机制的POMG的框架.

Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

Zhen Peng, Peter J. Bentley

physics.soc-ph cs.AI cs.CV

本文提出了一种用于建筑能效证书(EPC)预评估的多模态模块化思维链(MMCoT)框架. 该框架利用视觉语言模型, 通过结构化提示将EPC评估分解为中间推理步骤, 并在英国的一个多模态数据集上验证了其有效性.

PEPA: a Persistently Autonomous Embodied Agent with Personalities

Kaige Liu et al.

cs.RO cs.AI

本文提出了一个名为PEPA的具身智能体架构, 它通过模拟人格特质来驱动自主目标生成与行为组织. 该架构在四足机器人上进行了真实环境部署验证, 展示了其在无预设任务情况下的持续自主运行能力.

SIGMAS: Second-Order Interaction-based Grouping for Overlapping Multi-Agent Swarms

Minah Lee, Saibal Mukhopadhyay

cs.MA cs.AI

本文提出了一个用于重叠多智能体集群中群体预测的自监督框架SIGMAS, 该框架通过建模智能体之间的二阶交互来推断潜在的群体结构. 实验表明, 该方法在多种合成集群场景中能有效恢复群体结构.

NovaLAD: A Fast, CPU-Optimized Document Extraction Pipeline for Generative AI and Data Intelligence

Aman Ulla

cs.CV cs.AI cs.IR

本文介绍了一个名为NovaLAD的文档解析系统, 它通过并行运行两个YOLO目标检测模型(分别用于元素检测和布局检测)并结合基于规则的分组等方法, 将非结构化文档(如PDF)转换为结构化文本和布局感知表示. 该系统针对CPU进行了速度优化, 并在DP-Bench基准测试中取得了优于商业和开源解析器的性能指标.

CT-Flow: Orchestrating CT Interpretation Workflow with Model Context Protocol Servers

Yannian Gu et al.

cs.CV cs.AI

本文提出了一个名为CT-Flow的智能体框架，用于协调3D CT影像的解读工作流。它通过引入Model Context Protocol (MCP)和构建专门的指令调优基准CT-FlowBench，实现了从静态推理到动态工具调用范式的转变。

OrthoAI: A Lightweight Deep Learning Framework for Automated Biomechanical Analysis in Clear Aligner Orthodontics -- A Methodological Proof-of-Concept

Edouard Lansiaux, Margaux Leman, Mehdi Ammi

cs.CV cs.AI

本文提出了一个用于透明矫治器正畸的轻量级深度学习框架 OrthoAI, 它结合了3D牙齿分割与基于规则的生物力学分析, 以辅助治疗计划评估. 该方法在消费级硬件上实现了端到端的快速处理, 并开源了代码与模型权重.

QuickGrasp: Responsive Video-Language Querying Service via Accelerated Tokenization and Edge-Augmented Inference

Miao Zhang et al.

cs.CV cs.AI cs.IR cs.MM cs.PF +1

本文提出了一种名为 QuickGrasp 的响应式视频-语言查询服务系统，旨在解决大型视频语言模型(VLMs)部署时资源需求高与响应延迟大的问题。该系统通过本地优先架构、加速视频 tokenization 和查询自适应的边缘增强等设计，在保持高精度的同时显著降低了响应延迟。

Safe Multi-Agent Deep Reinforcement Learning for Privacy-Aware Edge-Device Collaborative DNN Inference

Hong Wang et al.

cs.MA cs.LG

本文提出了一种用于隐私感知边缘设备协同DNN推理的安全多智能体深度强化学习框架。该框架通过分层策略优化算法，在满足延迟约束的同时，联合优化能耗与隐私成本。

Agentic Hives: Equilibrium, Indeterminacy, and Endogenous Cycles in Self-Organizing Multi-Agent Systems

Jean-Philippe Garnier

cs.MA cs.AI math.DS

本文提出了一个名为Agentic Hive的框架，用于研究具有可变数量智能体的自组织多智能体系统。通过借鉴多部门增长理论，作者证明了均衡存在性、最优性等若干分析结果，并展示了系统可能出现的多重均衡和内生周期。

Thought Virus: Viral Misalignment via Subliminal Prompting in Multi-Agent Systems

Moritz Weckbecker et al.

cs.MA cs.AI

本文研究了在 multi-agent systems 中，通过 subliminal prompting 对单个 agent 施加的语义无关的 token 提示，能够产生一种可传播的偏见。实验表明，这种偏见会在网络中持续存在，并可能降低其他 agent 在 TruthfulQA 任务上的真实性表现，揭示了 multi-agent 系统安全中的一个新攻击向量。

You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models

Kairan Zhao, Eleni Triantafillou, Peter Triantafillou

cs.CV cs.AI

本文提出了一种名为GUARD的新框架, 用于减轻文本到图像扩散模型中的记忆化问题. 该方法通过在去噪过程中进行引导, 在不损害图像质量的前提下, 生成与训练数据不同但仍符合提示的图像.

TinyVLM: Zero-Shot Object Detection on Microcontrollers via Vision-Language Distillation with Matryoshka Embeddings

Bibin Wilson

cs.CV cs.AI

本文提出了一种名为TinyVLM的框架，首次在内存小于1MB的微控制器上实现了zero-shot object detection。该方法通过解耦视觉与文本处理、使用Matryoshka distillation训练多维度嵌套嵌入，并结合量化存储，显著降低了模型的内存占用。在多个数据集上取得了有竞争力的精度，并在边缘设备上实现了实时推理。

Steering Away from Memorization: Reachability-Constrained Reinforcement Learning for Text-to-Image Diffusion

Sathwik Karnik et al.

cs.CV cs.AI cs.LG

本文提出了一种名为RADS的推理时框架, 用于防止text-to-image diffusion模型对训练数据的记忆化(memorization), 同时保持生成质量. 该方法将去噪过程建模为动力系统, 并利用约束强化学习来微调生成轨迹.

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

Xiangyan Qu et al.

cs.CV cs.AI cs.LG eess.IV

本文提出了一种用于图像编辑的自适应测试时扩展框架 ADE-CoT, 以解决现有 Image-CoT 方法在编辑任务中资源分配低效和验证不可靠的问题. 该方法通过难度感知预算分配, 编辑专用验证和机会性停止策略, 在多个基准测试上实现了更好的性能与效率权衡.

Evaluating Theory of Mind and Internal Beliefs in LLM-Based Multi-Agent Systems

Adam Kostka, Jarosław A. Chudziak

cs.MA cs.AI

本文提出了一种结合 Theory of Mind (ToM), BDI 风格内部信念和符号求解器的新型多智能体架构, 用于增强协作智能. 作者在一个资源分配问题中评估了该架构在不同 LLM 下的性能, 发现 LLM 能力, 认知机制与性能之间存在复杂的相互作用.

GrapHist: Graph Self-Supervised Learning for Histopathology

Sevda Öğüt et al.

cs.CV cs.LG

本文提出了一种基于图的自监督学习框架GrapHist, 用于处理组织病理学图像. 该方法将组织建模为细胞图, 并利用掩码自编码器和异配图神经网络来学习可迁移的表示, 在多个下游任务上取得了与基于视觉的方法相竞争的性能, 同时参数更少.

Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation

Zichen Geng et al.

cs.CV cs.AI

本文提出了一种解耦的层次化变分自编码器(DHVAE)结合潜在扩散模型的方法,用于生成3D人体交互动作. 该方法通过分离全局交互上下文与个体运动模式,并引入对比学习约束,旨在提升生成动作的物理合理性和语义对齐度.

M-Gaussian: An Magnetic Gaussian Framework for Efficient Multi-Stack MRI Reconstruction

Kangyuan Zheng et al.

cs.CV cs.AI

本文提出了一种名为M-Gaussian的磁共振成像(MRI)重建方法, 该方法将3D Gaussian Splatting技术引入到多序列厚层MRI数据的各向同性重建中. 通过引入具有物理一致性的体渲染基元, 神经残差场以及多分辨率渐进训练策略, 该方法在保证重建质量的同时显著提升了计算效率.

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

Carlos Monroy, Benjamin Navarro

cs.CV cs.IR eess.IV

本文探讨了利用生成式AI技术对历史技术文档进行图像分割与标注的方法. 作者针对16-17世纪造船专著图像, 结合SAM2, Florence2, ChatGPT等工具以及专业本体与术语库进行实验, 展示了该技术在改善历史文献管理与检索方面的潜力, 并讨论了当前面临的挑战与未来改进方向.

Physics-Consistent Diffusion for Efficient Fluid Super-Resolution via Multiscale Residual Correction

Zhihao Li et al.

cs.CV cs.AI

本文提出了一种用于流体超分辨率的物理一致性扩散框架ReMD, 它通过多网格残差校正和多小波多尺度建模来提高效率与精度. 该方法在多个基准测试中表现出更优的准确性和谱保真度, 同时显著减少了采样步骤.

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Haoxiang Sun et al.

cs.CV cs.AI

本文探讨了将 Group Relative Policy Optimization (GRPO) 应用于 Visual Large Language Models (VLLMs) 进行视觉感知任务时存在的挑战。作者指出了语言推理与视觉感知之间的内在差异，并提出了一个名为 Dr. Seg 的改进框架，该框架通过引入新的机制来提升在复杂视觉场景下的性能。

Pulse-Driven Neural Architecture: Learnable Oscillatory Dynamics for Robust Continuous-Time Sequence Processing

Paras Sharma

cs.NE cs.AI cs.LG

本文提出了一种名为PDNA的脉冲驱动神经架构, 通过在连续时间循环网络中引入可学习的振荡动力学来增强模型对输入中断的鲁棒性. 实验表明, 这种结构化的振荡机制能显著提升模型在序列数据缺失情况下的性能.

EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection

Wenxin Tang et al.

cs.CV cs.AI cs.IR

本文提出了一个名为EfficientPosterGen的端到端框架，用于自动化生成学术海报。该方法通过语义感知的关键信息检索、基于视觉的上下文压缩以及无代理的布局违规检测，旨在解决现有方法在信息密度、令牌消耗和布局验证方面的局限性。

FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation

Weiting Tan et al.

cs.CV cs.AI cs.MM cs.SD

本文提出了一种基于强化学习的音频驱动肖像视频生成框架FlowPortrait. 它通过一个多模态大语言模型构建的评估系统来优化生成视频的唇部同步、表现力和运动质量.

DINOv3 Meets YOLO26 for Weed Detection in Vegetable Crops

Boyang Deng, Yuzhen Lu

cs.CV cs.AI

本文提出了一种用于蔬菜作物杂草检测的模型, 通过整合异构数据集和利用自监督学习来构建基础模型. 该方法将微调后的 DINOv3 视觉 Transformer 作为主干网络集成到 YOLO26 中, 在多个数据集上提升了检测性能, 并保持了实时推理速度.

SKINOPATHY AI: Smartphone-Based Ophthalmic Screening and Longitudinal Tracking Using Lightweight Computer Vision

S. Kalaycioglu et al.

cs.CV cs.LG

本文介绍了一个名为SKINOPATHY AI的智能手机眼科筛查系统。该系统利用手机摄像头和轻量级计算机视觉算法，实现了多种眼部指标的量化与跟踪。

A Boundary-Metric Evaluation Protocol for Whiteboard Stroke Segmentation Under Extreme Imbalance

Nicholas Korcynski

cs.CV cs.LG

本文针对白板笔画分割中因前景像素占比极低(平均仅1.79%)导致的极端类别不平衡问题, 提出了一套结合区域度量(如F1, IoU)、边界度量(BF1, B-IoU)以及细笔画子集公平性分析的评估协议. 通过在多轮训练下比较五种损失函数, 发现基于重叠的损失(如Dice, Tversky)在F1分数上显著优于交叉熵, 并且边界度量证实了其在轮廓精度上的提升. 实验表明, 传统二值化方法(如Sauvola)平均F1更高但最差情况性能不稳定, 而学习模型则在最差情况可靠性上更优, 揭示了准确性与一致性之间的权衡.

Reverse CAPTCHA: Evaluating LLM Susceptibility to Invisible Unicode Instruction Injection

Marcus Graves

cs.CR cs.AI

本文提出了一个名为"Reverse CAPTCHA"的评估框架, 用于测试大语言模型是否会遵循隐藏在正常文本中的不可见Unicode指令. 实验发现, 工具使用会显著提高模型的指令遵从率, 并且不同模型提供商对编码方案有特定偏好.

Exploring the AI Obedience: Why is Generating a Pure Color Image Harder than CyberPunk?

Hongyu Li et al.

cs.CV cs.AI

本文提出了"AI Obedience"的概念，用以衡量生成模型遵循指令的能力，并建立了一个分级的评估体系。作者通过构建VIOLIN基准测试，揭示了当前先进模型在生成纯色图像等简单任务上存在的局限性。

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

Práxedes Martínez-Moreno et al.

cs.CV cs.AI cs.NE

本文提出了一种名为 Lilium 的自动化进化方法，用于改进法医颅面重合中的颅骨-面部叠加步骤。该方法通过差分进化算法优化一个基于3D锥体的软组织变异模型，并结合多种解剖学和摄影约束来提高叠加的准确性与鲁棒性。

AdaFocus: Knowing When and Where to Look for Adaptive Visual Reasoning

Yuxiang Shen et al.

cs.CV cs.AI

本文提出了一种无需训练的视觉推理框架 AdaFocus, 通过置信度判断何时裁剪图像, 并结合语义引导定位确定裁剪区域, 以解决现有方法中的感知冗余和注意力漂移问题. 实验表明, 该方法在提升推理性能的同时显著加快了处理速度.

Hidden in the Metadata: Stealth Poisoning Attacks on Multimodal Retrieval-Augmented Generation

Kennedy Edemacu, Mohammad Mahdi Shokri

cs.CR cs.AI

本文提出了一种针对多模态检索增强生成(RAG)系统的隐蔽投毒攻击方法MM-MEPA. 该方法仅操纵图像-文本条目的metadata, 即可在不修改视觉内容的情况下误导检索并诱导模型产生攻击者期望的输出, 揭示了多模态RAG系统的一个关键安全漏洞.

Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

Simo Ryu, Chunghwan Han

cs.CV cs.AI cs.LG

本文介绍了训练视频基础模型Summer-22B的系统工程经验，重点描述了从原始数据收集到模型训练全流程的工程挑战与设计决策。报告分享了在数据集管理、多阶段过滤和特定优化方法上的实践与观察。

Automated Discovery of Improved Constant Weight Binary Codes

Christopher D. Rosin

cs.IT cs.AI cs.DM math.CO

本文利用自动化协议 CPro1 生成并测试了两种新的组合构造策略: 一种基于 bit swaps 的 tabu search, 另一种是新颖的贪心启发式算法. 这些策略成功构造了更大的 constant weight binary codes, 从而为 24 组参数 $(n,d,w)$ 改进了 $A(n,d,w)$ 的下界.

Detecting Cognitive Signatures in Typing Behavior for Non-Intrusive Authorship Verification

David Condrey

cs.CR cs.HC cs.LG

本文提出了一种基于打字行为中认知特征的非侵入式作者身份验证方法. 该方法通过分析击键时序数据来区分真实创作与机械转录, 并讨论了其对抗鲁棒性和隐私保护优势.

Embedding Morphology into Transformers for Cross-Robot Policy Learning

Kei Suzuki et al.

cs.RO cs.AI cs.LG eess.SY

本文提出了一种将机器人形态学信息嵌入Transformer策略的方法, 用于提升跨机器人策略学习的性能. 该方法通过引入运动学token, 拓扑感知注意力偏置和关节属性条件等机制, 在多个机器人平台上验证了其相对于基线模型的性能提升.

Test Case Prioritization: A Snowballing Literature Review and TCPFramework with Approach Combinators

Tomasz Chojnacki, Lech Madeyski

cs.SE cs.AI

本文通过 snowballing review 方法系统梳理了测试用例优先级排序(TCP)领域的研究, 并提出了一个包含新评估指标和 ensemble 方法(TCPFramework)的研究平台. 所提出的 approach combinators 在 RTPTorrent 数据集上表现良好, 能有效减少回归测试时间.

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Abhinav Munagala

cs.CV cs.AI

本文提出了一种用于鸟类图像分割的双管道框架, 结合了Grounding DINO 1.5, YOLOv11和SAM 2.1等基础模型. 该框架包含无需标注数据的zero-shot管道和基于微调检测器的supervised管道, 在CUB-200-2011数据集上取得了优于特定任务分割网络的性能.

ThreatFormer-IDS: Robust Transformer Intrusion Detection with Zero-Day Generalization and Explainable Attribution

Srikumar Nayak

cs.CR cs.AI

本文提出了一种基于Transformer的入侵检测框架ThreatFormer-IDS, 用于处理IoT和工业网络中的流量序列. 该方法结合了加权监督学习, 掩码自监督学习和对抗训练, 在基准测试中展示了良好的检测性能, 泛化能力和鲁棒性, 并提供了可解释的归因分析.

RLShield: Practical Multi-Agent RL for Financial Cyber Defense with Attack-Surface MDPs and Real-Time Response Orchestration

Srikumar Nayak

cs.CR cs.AI cs.CL cs.LG

本文提出了一种用于金融网络防御的多智能体强化学习框架RLShield。它将企业攻击面建模为一个MDP，并学习协调多个智能体的策略，以优化包含遏制速度、业务中断和响应成本的综合目标。实验表明，该方法在固定响应预算下，比静态规则和单智能体RL基线能更快地遏制攻击并减少残余风险。

Efficient Long-Horizon GUI Agents via Training-Free KV Cache Compression

Bowen Zhou et al.

cs.CV cs.AI cs.LG

本文针对GUI agent中KV cache内存占用大的问题, 提出了一种无需训练的压缩框架ST-Lite. 该方法通过结合空间显著性和轨迹感知的语义门控来动态筛选缓存, 在仅使用10-20%缓存预算下实现了显著的解码加速.

SKeDA: A Generative Watermarking Framework for Text-to-video Diffusion Models

Yang Yang et al.

cs.CV cs.AI cs.CR

本文提出了一种名为SKeDA的生成式水印框架，专为text-to-video diffusion models设计。该框架通过Shuffle-Key-based Sampling和Differential Attention两个组件，旨在解决视频水印在帧失序和时域失真下的鲁棒性问题。

Formal Analysis and Supply Chain Security for Agentic AI Skills

Varun Pratap Bhardwaj

cs.CR cs.AI cs.SE

本文针对智能体AI技能生态系统的供应链安全问题, 提出了首个形式化分析框架SkillFortify. 该框架结合了静态分析, 能力沙箱和基于SAT的依赖解析等方法, 在一个包含540个技能的基准测试上实现了高精度的安全检测.

Your Inference Request Will Become a Black Box: Confidential Inference for Cloud-based Large Language Models

Chung-ju Huang et al.

cs.CR cs.AI cs.CL

本文提出了一个名为Talaria的机密推理框架, 用于保护云上大型语言模型(LLM)推理过程中客户提示(prompts)和响应的隐私. 该框架通过将模型流水线分割, 在客户控制的机密虚拟机(CVM)中执行敏感操作, 并利用一种可逆掩蔽外包(ReMO)协议来安全地将权重相关计算卸载到云端, 从而在不显著影响效率的情况下实现隐私保护.

A Case Study on Concept Induction for Neuron-Level Interpretability in CNN

Moumita Sen Sarma, Samatha Ereshi Akkamahadevi, Pascal Hitzler

cs.CV cs.AI

本文通过一个案例研究, 将基于 Concept Induction 的神经元分析框架应用于 SUN2012 数据集, 以验证其泛化性. 研究通过为隐藏神经元分配可解释的语义标签并进行验证, 确认了该方法在不同场景识别数据集上的适用性.

Stateful Token Reduction for Long-Video Hybrid VLMs

Jindong Jiang et al.

cs.CV cs.AI

本文提出了一种用于加速长视频混合视觉语言模型(VLMs)的token reduction方法. 该方法通过分析token重要性的层间变化, 设计了渐进式缩减策略和统一的评分机制, 在保持精度的同时显著提升了推理速度.

Multi-Condition Digital Twin Calibration for Axial Piston Pumps : Compound Fault Simulation

Chang Dong, Jianfeng Tao, Chengliang Liu

physics.flu-dyn cs.AI math.NA

本文提出了一种用于轴向柱塞泵的多工况数字孪生校准框架, 结合物理模型与数据驱动方法以解决复合故障诊断中的数据稀缺问题. 该框架通过校准CFD源模型和参数辨识, 能够生成高保真的合成故障数据, 从而支持在未见过的工况下进行零样本故障诊断.

LiaisonAgent: An Multi-Agent Framework for Autonomous Risk Investigation and Governance

Chuanming Tang, Ling Qing, Shifeng Chen

cs.CR cs.AI

本文提出了一个名为LiaisonAgent的多智能体框架，用于自动化网络安全风险调查与治理。该系统基于大语言模型整合了多个专用子智能体，通过混合规划架构执行端到端的工作流，旨在减少人工干预并提高事件响应效率。

AdURA-Net: Adaptive Uncertainty and Region-Aware Network

Antik Aich Roy, Ujjwal Bhattacharya

cs.CV cs.AI

本文提出了一种用于胸部疾病分类的自适应不确定性感知网络AdURA-Net. 它通过结合自适应空洞卷积、多尺度可变形对齐以及Dirichlet证据学习目标, 旨在处理医学图像分类中的不确定性标签问题.

The Partition Principle Revisited: Non-Equal Volume Designs Achieve Minimal Expected Star Discrepancy

Xiaoda Xu

stat.ML cs.LG math.PR

本文研究了在非等体积划分下星偏差的期望。作者证明了这种新设计的划分方法能产生比经典抖动采样更低的期望星偏差，并改进了已有的上界。

Optimisation of SOUP-GAN and CSR-GAN for High Resolution MR Images Reconstruction

Muneeba Rashid et al.

eess.IV cs.CV cs.LG

本文通过引入更深层的卷积层、调整滤波器尺寸、使用LeakyReLU激活函数以及应用谱归一化(spectral normalization)等技术，对SOUP-GAN和CSR-GAN两种生成对抗网络(GAN)模型进行了架构优化和超参数调优，以提升高分辨率磁共振(MR)图像的重建质量。实验结果表明，优化后的模型在PSNR和SSIM指标上取得了良好表现，能够有效减少噪声并重建细节。

Efficient Flow Matching for Sparse-View CT Reconstruction

Jiayang Shi et al.

eess.IV cs.AI cs.CV

本文提出了一种基于Flow Matching (FM)的稀疏视角CT重建框架(FMCT)及其高效变体(EFMCT). 该方法利用FM的确定性ODE采样特性, 避免了扩散模型中随机噪声的干扰, 并通过重用相邻步骤的预测速度场来显著减少神经网络评估次数, 从而在保证重建质量的同时提升了计算效率.

TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

Daniel Nobrega Medeiros

cs.CV cs.AI

本文介绍了TACIT Benchmark，一个程序化的视觉推理基准测试。它包含10个任务，涵盖6个推理领域，并提供生成式和判别式双轨评估。该基准通过确定性的计算机视觉流程进行验证，旨在减少对主观评分的依赖。

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

Soumya Suvra Ghosal et al.

cs.CV cs.AI

本文提出了一种名为VisRef的视觉重聚焦测试时扩展框架, 旨在改善多模态大推理模型在视觉依赖任务中的性能. 该方法通过重新注入与推理上下文语义相关且具有全局代表性的视觉token核心集, 来引导推理过程, 避免了昂贵的强化学习微调.

Tipping the Balance: Impact of Class Imbalance Correction on the Performance of Clinical Risk Prediction Models

Amalie Koch Andersen et al.

q-bio.QM cs.LG

本文评估了在临床风险预测模型中应用类别不平衡校正技术(如SMOTE, RUS, ROS)对模型性能的影响。研究发现，这些重采样方法并未系统性提升模型的区分能力(ROC-AUC)，反而普遍损害了概率校准性能，导致预测风险出现系统性偏差。

Universal NP-Hardness of Clustering under General Utilities

Angshul Majumdar

cs.CC cs.AI

本文通过定义 Universal Clustering Problem (UCP) 并证明其 NP-hardness, 为多种聚类方法的内在计算困难性提供了一个统一的理论解释. 该框架涵盖了包括 k-means 和 spectral clustering 在内的十个主要聚类范式, 并解释了其常见的失败模式.

Agentic Scientific Simulation: Execution-Grounded Model Construction and Reconstruction

Knut-Andreas Lie et al.

cs.SE cs.AI cs.MS physics.geo-ph

本文提出了一个基于LLM agent的执行驱动科学模拟框架JutulGPT, 用于解决物理模拟中自然语言描述固有的模糊性问题. 该框架通过执行-验证循环构建模型, 并以模拟器作为物理有效性的最终仲裁者, 实验表明该方法能有效检测和解决建模选择中的歧义, 并揭示了模拟器默认设置带来的可复现性审计挑战.

Physical Evaluation of Naturalistic Adversarial Patches for Camera-Based Traffic-Sign Detection

Brianna D'Urso et al.

cs.CV cs.AI cs.CR

本文研究了在针对自动驾驶环境定制数据集上训练的检测器中, Naturalistic Adversarial Patches (NAPs) 向物理交通标志场景的迁移效果. 通过构建合成数据集 CompGTSRB 并训练 YOLOv5 模型, 利用 GAN 生成对抗补丁, 并在物理测试平台上评估了不同配置下补丁对 STOP 标志检测置信度的降低效果.

Empowering Future Cybersecurity Leaders: Advancing Students through FINDS Education for Digital Forensic Excellence

Yashas Hariprasad et al.

cs.CR cs.AI

本文介绍了一个名为FINDS的研究中心, 其通过一个集成的AI网络安全教育框架来推进数字取证工程教育. 文章重点提出了一种基于有向无环图的技能图模型(MCBSG), 用于结构化建模技能获取路径和进行定量能力评估, 并通过监督机器学习方法对多批次学生数据进行分析, 验证了该框架在提升学生技术能力方面的有效性.

Scaling Quantum Machine Learning without Tricks: High-Resolution and Diverse Image Generation

Jonas Jäger, Florian J. Kiwit, Carlos A. Riofrío

quant-ph cs.CV cs.LG

本文提出了一种无需降维或分块等技巧的量子 Wasserstein GAN 方法，用于生成高分辨率、多样化的图像。该方法在 MNIST 和 Fashion-MNIST 数据集上实现了端到端的量子生成，并展示了扩展到彩色图像的潜力。

GENAI WORKBENCH: AI-Assisted Analysis and Synthesis of Engineering Systems from Multimodal Engineering Data

H. Sinan Bank, Daniel R. Herber

cs.SE cs.AI eess.SY

本文提出了一个名为GenAI Workbench的概念框架，旨在将基于模型的系统工程原则集成到工程设计流程中。该框架通过链接来自文档、几何模型和系统图的多模态数据，构建统一的数字主线，并利用AI辅助从源文档中提取需求和生成初始系统架构。

A Monte Carlo estimator of flow fields for sampling and noise problems

Michael S. Albergo, Gurtej Kanwar

hep-lat cs.LG

本文提出了一种用于评估flow fields的Monte Carlo方法, 该方法通过耦合Langevin噪声来定义估计量, 从而显著降低了所需积分中的统计噪声. 该方法可用于直接采样或为机器学习方法生成无偏训练数据, 并在U(1)和SU(N)模型上进行了演示.

Burning rooted graph products

John Peca-Medlin

math.CO cs.DS math.PR

本文研究了图燃烧问题在根图乘积（rooted graph products）上的表现, 特别是梳状图（comb graphs）. 证明了燃烧数猜想（Burning Number Conjecture）对所有梳状图成立, 并给出了其燃烧数的精确渐近阶.

AESP: A Human-Sovereign Economic Protocol for AI Agents with Privacy-Preserving Settlement

Jian Sheng Wang

cs.CR cs.AI

本文提出了一种名为AESP的协议, 旨在解决AI agent在代表人类执行经济任务时, 自主性与人类对资产控制权之间的根本矛盾. 该协议通过多层机制, 使agent能在加密基础设施上快速自主交易, 同时其行为被密码学约束在人类定义的治理边界内.

Challenges in Enabling Private Data Valuation

Yiwei Fu, Tianhao Wang, Varun Chandrasekaran

cs.CR cs.AI cs.LG

本文分析了在差分隐私(DP)约束下实现数据估值(data valuation)的可行性挑战。研究指出，DP要求输出对单个记录不敏感，这与估值方法衡量个体记录贡献的核心目标存在根本冲突，导致简单的私有化机制会破坏对数据价值的精细区分。作者识别了导致高敏感性的核心算法原语，并探讨了在严格隐私保证下保持估值实用性的设计原则。

Acoustic Sensing for Universal Jamming Grippers

Lion Weber et al.

cs.RO cs.AI cs.LG cs.SD

本文提出了一种用于通用堵塞抓取器的声学传感方法, 将抓取器的软体本身作为传感器. 通过内部的扬声器和麦克风采集声音信号, 并利用机器学习重建物体属性, 在保持顺应性的同时实现了对物体尺寸, 取向和材料的感知. 实验验证了该方法在物体分拣任务中的有效性和鲁棒性.

Token Management in Multi-Tenant AI Inference Platforms

William J. Cunningham

cs.DC cs.LG cs.OS

本文提出了一种名为"token pools"的控制平面抽象, 用于管理多租户AI推理平台中的资源. 该方法将推理能力量化为基于token的显式授权, 实现了准入控制与自动扩缩容的统一, 并在实验中验证了其在保障服务级别目标(SLO)方面的有效性.

KROM: Kernelized Reduced Order Modeling

Aras Bacho, Jonghyeon Lee, Houman Owhadi

math.NA cs.LG

本文提出了一种基于核的降阶建模框架KROM, 用于快速求解非线性偏微分方程. 该方法通过经验核函数和稀疏Cholesky分解来加速求解过程, 并在多个数值算例中展示了其有效性.

Verifier-Bound Communication for LLM Agents: Certified Bounds on Covert Signaling

Om Tailor

cs.CR cs.AI eess.SY

本文提出了一种名为CLBC的协议, 通过分离消息生成与准入验证来限制LLM代理之间的隐蔽通信. 该协议要求消息必须在一个小型验证器对"proof-bound envelope"的检查下才能被纳入转录本, 从而为转录本信息泄露提供了可证明的上界. 实验评估了协议的安全性与性能权衡, 表明仅靠带宽限制不足以保证安全, 必须依赖在线、确定性的准入语义.

Dual-space posterior sampling for Bayesian inference in constrained inverse problems

Ali Siahkoohi, Kamal Aghazade, Ali Gholami

physics.geo-ph cs.LG stat.ML

本文提出了一种在 dual space 进行后验采样的方法, 用于处理受偏微分方程约束的 ill-conditioned 逆问题. 该方法通过 augmented Lagrangian formulation 将硬约束转化为惩罚项, 并整合 ADMM 与 SVGD 采样器来渐进地满足约束.

Aurchestra: Fine-Grained, Real-Time Soundscape Control on Resource-Constrained Hearables

Seunghyun Oh et al.

cs.SD cs.LG eess.AS

本文提出了一种名为Aurchestra的系统, 用于在资源受限的耳戴设备上实现细粒度、实时的声景控制. 该系统通过动态界面和实时多输出提取网络, 允许用户独立调整环境中多个并发声源的音量.

TMR-VLA:Vision-Language-Action Model for Magnetic Motion Control of Tri-leg Silicone-based Soft Robot

Ruijie Tang et al.

cs.RO cs.AI eess.SY

本文提出了一个用于三足磁控软体机器人的多模态系统 TMR-VLA, 该系统能够根据自然语言指令和视觉观察, 端到端地生成控制电压以实现混合运动模式. 实验表明该系统能够预测电压对硅胶软体机器人动力学的影响, 并达到了一定的平均成功率.

An Interpretable Local Editing Model for Counterfactual Medical Image Generation

Hyungi Min et al.

cs.CV cs.AI

本文提出了一种用于反事实医学图像生成的局部编辑模型, 通过区域特定编辑限制修改范围, 并生成指导图提供可解释性. 实验表明该模型在多个评估指标上取得了先进性能.

Personalities at Play: Probing Alignment in AI Teammates

Mohammad Amin Samadi, Nia Nixon

cs.HC cs.AI

本文通过一个包含自我认知、行为表达和反思表达的三层评估框架, 研究了基于LLM的AI队友的人格对齐问题. 研究发现, AI人格的表达是多层次且依赖于上下文的, 评估需要关注记忆和系统设计, 而不仅仅是对话行为.

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

Hulingxiao He, Zhi Tan, Yuxin Peng

cs.CV cs.AI

本文提出了一种名为TARA的方法, 通过将视觉特征与生物学基础模型(BFMs)的表示进行对齐, 向大型多模态模型(LMMs)注入分类学知识. 该方法旨在提升模型在层次化视觉识别任务中的一致性和准确性, 特别是在处理新类别时.

TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis

Hui Wan, Libin Lan

cs.CV cs.AI

本文提出了一个用于医学超声图像多任务分析的参数高效微调框架 TAP-SLF. 该方法结合了任务感知提示与选择性层微调, 在共享主干网络上以少量参数更新适应不同任务.

RTLocating: Intent-aware RTL Localization for Hardware Design Iteration

Changwen Xing et al.

cs.ET cs.CL cs.IR

本文提出了RTLocating框架, 用于将自然语言变更请求($\Delta$Spec)定位到硬件设计RTL代码中的相关语法块. 该框架融合了文本语义、局部结构和全局依赖的编码信息, 并在新构建的工业级基准EvoRTL-Bench上取得了优于基线方法的性能.

Mamba-CAD: State Space Model For 3D Computer-Aided Design Generative Modeling

Xueyang Li et al.

cs.CV cs.AI

本文提出了一种基于Mamba架构的自监督生成模型Mamba-CAD, 用于处理工业中复杂的、需要长参数序列定义的CAD模型. 该方法通过编码器-解码器框架学习CAD模型的潜在表示, 并利用生成对抗网络生成新的表示, 最终解码为参数化CAD序列. 作者还创建了一个包含大量长序列CAD模型的新数据集用于训练和评估.

HydroShear: Hydroelastic Shear Simulation for Tactile Sim-to-Real Reinforcement Learning

An Dang et al.

cs.RO cs.AI

本文提出了一种名为HydroShear的触觉模拟器, 用于接触密集型任务的强化学习策略从仿真到现实的迁移. 该模拟器通过扩展hydroelastic接触模型, 使用Signed Distance Functions (SDFs)来追踪压头与传感器膜物理交互过程中表面点的位移, 从而更真实地模拟剪切力. 实验表明, 基于该模拟器训练的强化学习策略在多项任务中实现了零样本的仿真到现实迁移, 并取得了较高的成功率.

Texterial: A Text-as-Material Interaction Paradigm for LLM-Mediated Writing

Jocelyn Shen et al.

cs.HC cs.AI

本文提出了一种将文本视为可塑材料的交互范式, 通过两个技术原型展示了如何利用生成式AI进行非线性、具象化的文本创作与修改. 该工作拓展了写作工具的设计空间, 强调了隐喻在重塑用户心智模型和弥合人机交互鸿沟中的作用.

Neurosymbolic Learning for Advanced Persistent Threat Detection under Extreme Class Imbalance

Quhura Fathima et al.

cs.CR cs.LG cs.NI

本文提出了一种用于无线物联网网络中可解释性高级持续性威胁检测的神经符号架构, 它结合了优化的BERT模型与逻辑张量网络. 该方法通过高效的序列编码、分层分类和自适应采样策略来处理极端类别不平衡问题, 并在数据集上取得了较高的检测性能.

OPGAgent: An Agent for Auditable Dental Panoramic X-ray Interpretation

Zhaolin Yu et al.

cs.CV cs.AI

本文提出了一种用于牙科全景X光片可审计解读的多工具智能体系统OPGAgent. 该系统通过协调专门的感知模块与共识机制, 在结构化报告和VQA评估中超越了现有的牙科视觉语言模型和医疗智能体框架.

Wireless Power Control Based on Large Language Models

Jiacheng Wang et al.

cs.IT cs.LG eess.SP

本文提出了一种基于预训练大语言模型(LLM)的无线功率控制方法PC-LLM. 该方法通过将物理信道增益矩阵注入Transformer的自注意力机制, 实现了对无线网络拓扑的显式建模, 并在多种场景下取得了优于传统优化方法和图神经网络基线的性能, 同时展现出良好的零样本泛化能力.

Atomicity for Agents: Exposing, Exploiting, and Mitigating TOCTOU Vulnerabilities in Browser-Use Agents

Linxi Jiang et al.

cs.CR cs.AI

本文研究了浏览器智能体中的TOCTOU漏洞, 提出了一种基于预执行验证的轻量级缓解方案. 通过大规模实证研究, 作者证明了该漏洞的普遍性, 并评估了该方案在减少不安全执行风险方面的有效性.

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

Liyao Jiang et al.

cs.CV cs.AI

本文提出了一种无需训练、需求驱动的进化框架RAISE, 用于提升文本到图像生成的对齐度. 该方法通过动态分配计算资源, 在减少生成样本和VLM调用次数的同时, 在多个基准测试上取得了先进的性能.

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Riccardo de Lutio et al.

cs.CV cs.AI cs.GR cs.LG

本文提出了一种名为ArtiFixer的两阶段方法, 旨在利用自回归扩散模型来增强和扩展3D重建. 该方法通过训练一个强大的双向生成模型并蒸馏为因果自回归模型, 以单次生成大量一致的新视角, 从而在未充分观测区域生成更合理的内容, 并在基准测试中显著超越了现有方法.

WirelessAgent++: Automated Agentic Workflow Design and Benchmarking for Wireless Networks

Jingwen Tong et al.

cs.NI cs.AI eess.SP

本文提出了一个名为 WirelessAgent++ 的框架，用于自动化设计面向无线网络任务的智能体工作流。该框架将工作流构建视为程序搜索问题，并引入了一个标准化的多维基准测试套件 WirelessBench 进行评估。

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Yingqi Fan et al.

cs.CV cs.AI

本文通过提出的EmbedLens分析框架，揭示了多模态大语言模型(MLLMs)中视觉token的稀疏性和冗余性。研究发现，只有约60%的“活跃”token携带图像特定语义，且模型内部的视觉计算对多数标准任务来说是冗余的。

Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

Ruoshuang Du et al.

cs.CV cs.LG

本文提出了一种多模态自适应检索增强生成方法, 通过分析模型的内部表示来动态决定是否使用检索到的外部知识. 该方法在多个视觉问答数据集上提升了回答的准确性和可靠性.

CaptionFool: Universal Image Captioning Model Attacks

Swapnil Parekh

cs.CV cs.AI

本文提出了一种针对图像描述模型的通用对抗攻击方法 CaptionFool. 该方法通过修改图像中的少量 patch, 能够以高成功率诱导模型生成任意目标描述, 包括攻击性内容, 并展示了其规避内容审核的能力.

Are LLMs Reliable Code Reviewers? Systematic Overcorrection in Requirement Conformance Judgement

Haolin Jin, Huaming Chen

cs.SE cs.AI

本文探讨了大型语言模型(LLMs)在代码审查任务中的可靠性问题, 发现其在判断代码是否符合自然语言需求时存在系统性偏差. 作者通过实验表明, 更详细的提示设计反而会增加误判率, 并提出了一个基于修正验证的过滤方法来缓解此问题.

GCL-Sampler: Discovering Kernel Similarity for Sampled GPU Simulation via Graph Contrastive Learning

Jiaqi Wang et al.

cs.PF cs.AR cs.LG

本文提出了一种基于图对比学习的GPU模拟采样框架GCL-Sampler. 它通过关系图卷积网络自动从程序执行轨迹图中学习kernel的相似性, 以实现高保真度和高加速比的采样模拟.

Geometry OR Tracker: Universal Geometric Operating Room Tracking

Yihua Shao et al.

cs.CV cs.AI

本文提出了一种用于手术室场景的通用几何跟踪方法, 通过一个两阶段流程来解决多视角融合中的几何不一致性问题. 该方法首先校正不精确的相机标定, 然后在统一的世界坐标系中进行鲁棒的三维点跟踪, 在基准测试中提升了跟踪性能.

Whisper-MLA: Reducing GPU Memory Consumption of ASR Models based on MHA2MLA Conversion

Sen Zhang et al.

cs.SD cs.AI

本文提出了一种名为Whisper-MLA的新架构，通过将Multi-Head Latent Attention (MLA)机制集成到Whisper模型中，以解决其Multi-Head Attention (MHA)机制在处理长音频时GPU显存消耗过大的问题。实验表明，该方法能显著减少KV缓存大小，同时保持模型的识别精度。

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

Yilian Liu et al.

cs.CV cs.AI cs.CR

本文提出了一种名为MIDAS的多模态越狱框架, 通过将有害语义分解并分散到多个视觉线索中, 利用跨图像推理逐步重建恶意意图, 从而绕过MLLMs的安全机制. 实验表明该方法在多个闭源模型上取得了较高的攻击成功率.

TopoEdge: Topology-Grounded Agentic Framework for Edge Networking Code Generation and Repair

Haomin Qi et al.

cs.SE cs.LG cs.NI

本文提出了一个名为TopoEdge的框架, 用于软件定义网络(SDN)配置的生成与修复. 该框架基于拓扑图检索增强生成(TopoRAG)上下文, 并采用多智能体协同的生成-验证-修复循环.

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

Yongbo He, Zirun Guo, Tao Jin

cs.CV cs.AI

本文提出了一种名为DASP的新框架, 用于多模态测试时适应. 该框架通过解耦稳定性和可塑性, 针对不同模态采用非对称适应策略, 以缓解负迁移和灾难性遗忘问题.

Efficient Long-Sequence Diffusion Modeling for Symbolic Music Generation

Jinhan Xu et al.

cs.SD cs.AI

本文提出了一种名为SMDIM的扩散策略，用于高效生成长序列符号音乐。该方法结合了结构化状态空间模型来捕获长程上下文，并通过混合细化方案提升局部细节。实验表明，该模型在多个音乐数据集上取得了优于现有方法的生成质量和计算效率。

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Cencen Liu et al.

cs.CV cs.AI

本文提出了一种用于图像超分辨率的全局一致视觉自回归框架AlignVAR. 它通过空间一致性自回归和分层一致性约束来解决现有方法中的局部注意力偏差和误差累积问题, 在提升结构一致性和感知保真度的同时, 实现了更快的推理速度和更少的参数量.

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

Yuchen Hou, Lin Zhao

cs.RO cs.AI cs.CL cs.CV cs.LG

本文提出了LangGap基准，用于诊断Vision-Language-Action (VLA)模型在理解语言指令方面的缺陷。通过实验发现，即使有针对性的数据增强也只能部分弥补这一差距，揭示了模型在处理多样化语义时的根本性挑战。

Theory of Code Space: Do Code Agents Understand Software Architecture?

Grigory Sapunov

cs.SE cs.AI

本文提出了一个名为 Theory of Code Space (ToCS) 的基准测试框架, 用于评估 AI 代码代理在部分可观测环境下理解软件架构的能力. 该框架通过程序化生成代码库并定期探测代理的结构化信念状态来进行评估, 初步实验揭示了不同方法在性能上的显著差异.

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

Honghao Cai et al.

cs.CV cs.AI

本文提出了一种名为IdGlow的、基于Flow Matching扩散模型的两阶段框架，用于解决多主体图像生成中的身份协调问题。该方法通过任务自适应的timestep调度和细粒度的偏好优化，旨在提升生成图像的身份保真度与整体和谐度。

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Yinghao Ma et al.

cs.SD cs.AI cs.LG cs.MM eess.AS

本文提出了一个用于评估音乐生成模型奖励的综合性生态系统, 包括一个大规模伪标签偏好数据集、一个高质量人工标注数据集和一个统一的评估基准. 作者还开发了一个能够处理异质输入的高效参数奖励模型家族, 并验证了其与人类判断的相关性.

Exploring 3D Dataset Pruning

Xiaohan Zhao et al.

cs.CV cs.LG

本文针对3D数据集的剪枝问题进行了研究, 提出了一种结合表示感知子集选择和先验不变教师监督的方法, 以缓解长尾分布下OA与mAcc指标的冲突. 实验表明该方法能在多种设置下提升这两个指标.

Wild-Drive: Off-Road Scene Captioning and Path Planning via Robust Multi-modal Routing and Efficient Large Language Model

Zihang Wang et al.

cs.RO cs.AI

本文提出了一个用于越野场景描述与路径规划的框架 Wild-Drive, 它通过一个任务条件化的模态路由桥 (MoRo-Former) 来鲁棒地聚合多模态信息, 并利用高效的大语言模型 (LLM) 联合生成结构化场景描述和预测未来轨迹. 实验表明, 该框架在传感器退化的条件下比现有方法更稳定.

IU: Imperceptible Universal Backdoor Attack

Hsin Lin et al.

cs.CR cs.CV cs.LG

本文提出了一种基于graph convolutional networks (GCNs)的不可感知通用后门攻击方法, 通过建模类间关系生成类特定的微小扰动. 该方法在低数据污染率下实现了高攻击成功率, 同时保持了模型的正常精度和隐蔽性.

Data-driven Synthesis of Magnetic Resonance Spectroscopy Data using a Variational Autoencoder

Dennis M.J. van de Sande et al.

physics.med-ph cs.LG

本文提出了一种基于变分自编码器(VAE)的数据驱动框架,用于合成磁共振波谱(MRS)数据. 该模型通过学习实测数据的低维潜在表示来生成新样本, 并通过一系列分析评估了其生成性能, 揭示了该方法在提升信号质量指标方面的潜力与在噪声模拟和代谢物绝对定量方面的局限性.

SpectroFusion-ViT: A Lightweight Transformer for Speech Emotion Recognition Using Harmonic Mel-Chroma Fusion

Faria Ahmed et al.

cs.SD cs.LG

本文提出了一种名为SpectroFusion-ViT的轻量级Transformer模型，用于语音情感识别。该方法融合了Chroma和MFCC特征，并在两个孟加拉语数据集上取得了优于现有方法的准确率。

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha

cs.CV cs.LG

本文提出了一种名为BornoViT的轻量级Vision Transformer模型, 用于孟加拉语手写基本字符和数字的分类. 该模型参数量小, 计算成本低, 在公开和自收集数据集上均取得了较高的分类准确率.

Stroke outcome and evolution prediction from CT brain using a spatiotemporal diffusion autoencoder

Adam Marcus, Paul Bentley, Daniel Rueckert

cs.CV cs.AI

本文提出了一种基于时空扩散自编码器的方法, 用于从CT脑部图像预测中风患者的预后和病情演变. 该方法利用扩散概率模型进行自监督学习, 生成具有语义意义的表征, 并在包含数千名患者的数据集上验证了其在预测次日严重程度和出院功能结局方面的有效性.

A Unified Approach to Memory-Sample Tradeoffs for Detecting Planted Structures

Sumegha Garg et al.

cs.CC cs.DS

本文提出了一个用于证明检测植入结构的多趟流算法内存下界的统一框架. 该框架通过研究矩阵上的一个一般区分问题, 并基于一个新的分布式数据处理不等式来分析信息代价, 从而为多种植入结构检测问题(如图中的植入双团、稀疏高斯均值、稀疏PCA)提供了近乎最优的内存下界. 这些下界结果也被用于推导图流问题的新下界.

Initialization-Aware Score-Based Diffusion Sampling

Tiziano Fassina et al.

stat.ML cs.LG

本文提出了一种基于初始化感知的score-based diffusion sampling方法, 通过分析Variance Exploding (VE) 采样器的Kullback-Leibler收敛性, 强调了反向过程初始化的关键作用. 基于此, 作者提出了一种学习反向时间初始化的采样策略, 在多个数据集上实现了使用更少采样步骤的竞争性或改进的生成质量.

QANTIS: A Hardware-Validated Quantum Platform for POMDP Planning and Multi-Target Data Association

Bayram Yüksel Eker et al.

quant-ph cs.AI

本文提出了一个名为QANTIS的模块化量子平台, 用于解决部分可观测马尔可夫决策过程(POMDP)规划中的信念更新和多目标数据关联(MTDA)问题. 该平台整合了量子振幅放大、QUBO(二次无约束二进制优化)求解和误差缓解技术, 并在IBM量子硬件上进行了实验验证, 展示了在当前NISQ(含噪声中等规模量子)设备上的可行操作范围, 而非宣称在现有问题规模上具有绝对计算优势.

Efficient Conformal Volumetry for Template-Based Segmentation

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan

eess.IV cs.CV cs.LG q-bio.QM

本文提出了一种名为ConVOLT的框架, 用于提升基于模板分割的医学图像体积测量的不确定性量化效率. 该方法通过利用形变场特征进行校准, 相比直接在输出空间应用conformal prediction的方法, 能产生更紧致的置信区间.

A short tour of operator learning theory: Convergence rates, statistical limits, and open questions

Simone Brugiapaglia, Nicola Rares Franco, Nicholas H. Nelsen

math.NA cs.LG math.ST

本文综述了算子学习理论的最新进展, 重点回顾了经验风险最小化的误差界, 并讨论了从极小极大角度出发的基本性能极限. 文章最后探讨了这两种视角之间的相互作用及相关开放问题.

ContextCov: Deriving and Enforcing Executable Constraints from Agent Instruction Files

Reshabh K Sharma

cs.SE cs.AI

本文提出了ContextCov框架，用于将描述性的Agent Instructions转化为可执行的约束检查，以解决LLM智能体在自主执行任务时可能偏离既定规范的问题。该框架通过静态分析、运行时拦截和架构验证等方式来确保代码合规性。

PARCER as an Operational Contract to Reduce Variance, Cost, and Risk in LLM Systems

Elzo Brito dos Santos Filho

cs.SE cs.AI

本文提出了一个名为PARCER的工程框架, 旨在解决LLM系统中存在的随机性方差、长上下文利用率下降以及治理难题. 该框架通过一个声明式的YAML"操作契约"来结构化交互, 引入包含七个阶段的严格治理流程, 以提升系统的可审计性、成本可控性和上下文保持能力.

Artificial Superintelligence May be Useless: Equilibria in the Economy of Multiple AI Agents

Huan Cai et al.

econ.TH cs.AI cs.IT eess.SY

本文通过一个基于Markov chain stationary distribution的模型, 分析了包含人类和AI agent的经济博弈中的均衡. 研究发现, 在某些均衡下, "能力更强"的AI agent可能对"能力较弱"的agent的效用贡献为零.

AMDS: Attack-Aware Multi-Stage Defense System for Network Intrusion Detection with Two-Stage Adaptive Weight Learning

Oluseyi Olukola, Nick Rahimi

cs.CR cs.AI

本文提出了一种用于网络入侵检测的攻击感知多阶段防御系统(AMDS). 该系统通过两阶段自适应权重学习, 结合集成分歧、预测不确定性和分布异常信号来检测对抗性攻击. 实验表明, 该方法在基准数据集上提升了分类准确率和F1分数.

PPC-MT: Parallel Point Cloud Completion with Mamba-Transformer Hybrid Architecture

Jie Li et al.

cs.CV cs.AI

本文提出了一种名为PPC-MT的并行点云补全框架，它结合了Mamba和Transformer架构。该方法通过PCA引导的并行策略处理无序点云，在多个基准数据集上取得了优于现有方法的结果。

Curvature-Weighted Capacity Allocation: A Minimum Description Length Framework for Layer-Adaptive Large Language Model Optimization

Theophilus Amaefuna et al.

cs.IT cs.AI cs.LG

本文提出了一种基于Minimum Description Length (MDL)原则的框架，用于优化大语言模型中各层的容量分配。该框架通过曲率调整的层增益来评估层的重要性，并构建了凸优化问题来决定容量分配或剪枝策略。方法具有封闭解和理论上的最优性保证。

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

Seungwook Kim, Minsu Cho

cs.CV cs.AI

本文提出了一种名为ARC的无监督后训练框架, 通过利用模型自身的去噪置信度作为内在奖励信号来改进文本到图像生成模型. 该方法无需外部奖励模型或标注数据, 实验表明其在组合生成和图文对齐方面提升了基线模型的性能.

Time-Aware Latent Space Bayesian Optimization

Tuan A. Vu, Julien Martinelli, Harri Lähdesmäki

stat.ML cs.LG

本文提出了一种时间感知的隐空间贝叶斯优化方法, 用于处理目标函数随时间漂移的结构化设计问题. 该方法通过一个结合高斯过程先验的变分自编码器, 使隐空间表示与演化目标对齐, 并在模拟的分子设计任务中展现了优于基线方法的性能.

Seeing Beyond 8bits: Subjective and Objective Quality Assessment of HDR-UGC Videos

Shreshth Saini et al.

cs.CV cs.AI

本文构建了一个用于高动态范围(HDR)用户生成内容(UGC)视频质量评估的大规模主观数据集Beyond8Bits, 并提出了首个基于多模态大语言模型(MLLM)的HDR-UGC视频质量评估模型HDR-Q. 该模型通过一个新颖的HDR感知视觉编码器和一种强化学习微调框架HAPO, 在多个基准测试中取得了先进的性能.

Non-Rectangular Average-Reward Robust MDPs: Non-Rectangular Average-Reward Robust MDPs:Optimal Policies and Their Transient Values

Shengbo wang, Nian Si

math.OC cs.LG stat.ML

本文研究了在平均奖励准则下的非矩形鲁棒马尔可夫决策过程，其中模糊集耦合了状态间的转移概率。作者证明了在弱通信假设下，存在能够实现次线性期望后悔的历史依赖策略，并引入了瞬态值框架来分析鲁棒最优策略的有限时间性能。

Beyond False Discovery Rate: A Stepdown Group SLOPE Approach for Grouped Variable Selection

Xuelin Zhang et al.

stat.ME cs.AI

本文提出了一种名为Group Stepdown SLOPE的新方法, 用于高维特征选择. 该方法通过将Lehmann-Romano逐步下降规则嵌入到SLOPE框架中, 旨在对k-FWER和FDP等误差度量提供有限样本保证, 并能够利用协变量的分组结构.

AWE: Adaptive Agents for Dynamic Web Penetration Testing

Akshat Singh Jaswal, Ashish Baghel

cs.CR cs.AI

本文提出了一个用于动态Web渗透测试的自适应智能体框架AWE, 它结合了结构化漏洞分析流程与轻量级LLM编排. 该框架在特定类型的漏洞检测上表现出更高的准确性和效率.

Learning with the Nash-Sutcliffe loss

Hristos Tyralis, Georgia Papacharalampous

stat.ML cs.LG stat.ME

本文探讨了Nash-Sutcliffe效率(NSE)的决策理论基础，将其负向版本定义为Nash-Sutcliffe损失($L_{\text{NS}}$)。作者证明了$L_{\text{NS}}$对于一个可引出的多维泛函是严格一致的，并提出了基于最小化平均$L_{\text{NS}}$的Nash-Sutcliffe线性回归模型。这项工作为在大数据集中使用NSE进行模型估计和预测评估提供了理论依据。

Random Features for Operator-Valued Kernels: Bridging Kernel Methods and Neural Operators

Mike Nguyen, Nicole Mücke

stat.ML cs.LG math.ST

本文研究了随机特征方法的泛化性质, 将分析从 Tikhonov 正则化推广到一类谱正则化技术, 并进一步推广到 operator-valued kernels 的设定. 该框架通过 Neural Tangent Kernel (NTK) 的视角, 为分析 neural operators 和神经网络提供了理论基础, 并给出了实现给定精度所需神经元数量的理解.

EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

Zhaoxin Fan et al.

cs.CV cs.AI

本文提出了一种用于从基于flow-matching和transformer架构的扩散模型中移除特定概念的框架。该方法通过多目标优化和隐式梯度手术来平衡概念移除与生成质量，并在图像和视频基准测试中取得了良好效果。

SoberDSE: Sample-Efficient Design Space Exploration via Learning-Based Algorithm Selection

Lei Xu, Shanshan Wang, Chenglong Xiao

cs.AR cs.LG

本文提出了一个名为SoberDSE的框架，用于在High-Level Synthesis (HLS)的设计空间探索(DSE)中，根据具体问题特征自动选择最佳算法。实验表明，该框架在样本效率和小样本学习方面优于现有方法。

Fully-analog array signal processor using 3D aperture engineering

Sheng Gao et al.

physics.app-ph cs.AI eess.SP physics.optics

本文提出了一种利用3D孔径工程实现的全模拟阵列信号处理器(FASP), 用于并行执行超分辨率波达方向估计、信源数估计和多通道信源分离. 该处理器通过级联超表面层构建多维合成孔径, 实现了超越物理孔径极限的电磁场感知和模拟域信号处理.

Data-Free PINNs for Compressible Flows: Mitigating Spectral Bias and Gradient Pathologies via Mach-Guided Scaling and Hybrid Convolutions

Ryosuke Yano

physics.flu-dyn cs.AI

本文提出了一种无需数据的PINN方法, 用于求解圆柱绕流的可压缩无粘流动. 该方法通过结合径向1D卷积与各向异性方位角2D卷积的混合架构, 以及基于马赫数的动态残差缩放策略, 来克服标准多层感知机的空间盲区与训练不稳定性, 成功捕捉到了脱体弓形激波.

AG-REPA: Causal Layer Selection for Representation Alignment in Audio Flow Matching

Pengfei Zhang et al.

cs.SD cs.AI cs.LG cs.MM

本文提出了一种名为AG-REPA的因果层选择策略，用于改进音频Flow Matching模型中的表征对齐训练。该方法通过量化各层对生成过程的因果贡献来指导对齐，实验表明其优于基于深度的启发式选择方法。

FastCode: Fast and Cost-Efficient Code Understanding and Reasoning

Zhonghang Li et al.

cs.SE cs.AI

本文提出了一个用于大规模代码理解的框架, 通过将代码库探索与内容消费解耦来提高效率. 该框架利用结构感知的导航工具和成本感知策略, 在减少计算资源消耗的同时保持了较高的推理准确性.

BadRSSD: Backdoor Attacks on Regularized Self-Supervised Diffusion Models

Jiayao Wang et al.

cs.CR cs.LG

本文提出了一种针对自监督扩散模型表示层的后门攻击方法 BadRSSD. 该方法通过在 PCA 空间中劫持带毒样本的语义表示, 并在扩散过程中对潜在、像素和特征分布空间施加协同约束来控制去噪轨迹, 从而在触发时生成指定目标图像.

An Open-Source Modular Benchmark for Diffusion-Based Motion Planning in Closed-Loop Autonomous Driving

Yun Li et al.

cs.RO cs.AI

本文提出了一个用于闭环自动驾驶中基于Diffusion的运动规划的开源模块化基准测试框架. 该框架将单体式规划器分解为独立模块, 在Autoware中实现, 并通过仿真验证了不同求解器配置的性能.

SimAB: Simulating A/B Tests with Persona-Conditioned AI Agents for Rapid Design Evaluation

Tim Rieder et al.

cs.HC cs.AI cs.MA

本文提出了SimAB系统, 它将A/B测试重构为一种使用persona-conditioned AI agents进行的快速、保护隐私的模拟. 该系统通过生成用户角色代理来模拟用户偏好并聚合结果, 旨在解决传统A/B测试因依赖真实用户流量而导致的迭代速度慢和某些实验不可行的问题.

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

Junbo Ke et al.

cs.CV cs.AI

本文提出了一种用于隐式神经表示(INRs)的内容感知频率编码(CAFE)方法, 通过并行线性层与Hadamard积的组合来扩展Fourier特征, 以更高效地合成频率基. 进一步引入Chebyshev特征作为补充, 形成了CAFE+框架, 在多个基准测试中取得了更好的性能.

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Yangyang Xu et al.

cs.CV cs.AI cs.LG

本文提出了一种基于重参数化 Tensor Ring (TR) 的函数分解方法，用于处理网格和非网格数据的恢复问题。该方法通过结合隐式神经表示和频率域分析，改善了模型对高频细节的建模能力，并在多个视觉任务上取得了良好效果。

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

Haoyuan Zhang et al.

cs.CV cs.AI

本文提出了一个结合外部视觉工具的MLLM框架TAR-FAS，用于提升人脸活体检测的跨域泛化能力。该框架通过工具增强的推理链来引导模型从直觉观察转向细粒度视觉模式调查，并在跨域测试中取得了先进性能。

Silo-Bench: A Scalable Environment for Evaluating Distributed Coordination in Multi-Agent LLM Systems

Yuzhe Zhang et al.

cs.MA cs.AI

本文提出了一个名为 Silo-Bench 的基准测试环境，用于评估多智能体 LLM 系统中的分布式协调能力。实验揭示了智能体在信息整合推理阶段存在系统性失败，表明单纯增加智能体数量无法有效解决上下文限制问题。

RepoRepair: Leveraging Code Documentation for Repository-Level Automated Program Repair

Zhongqiang Pan et al.

cs.SE cs.AI

本文提出了一种名为RepoRepair的新方法，用于仓库级别的自动化程序修复。该方法通过利用LLM生成层次化的代码文档来增强对代码库上下文的理解，从而指导故障定位和修复。

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

Huanjin Yao et al.

cs.CV cs.AI

本文提出了一个名为MM-DeepResearch的多模态研究智能体框架。它通过生成搜索密集型QA数据、优化专用工具专家以及构建离线搜索引擎来解决多模态深度研究任务中的挑战。

Turning Black Box into White Box: Dataset Distillation Leaks

Huajie Chen et al.

cs.CR cs.AI cs.LG

本文揭示了 dataset distillation 方法可能存在的隐私泄露风险. 通过提出的 Information Revelation Attack (IRA), 作者展示了攻击者可以从合成的数据集中推断出蒸馏算法、模型架构甚至原始数据中的敏感样本.

TriMoE: Augmenting GPU with AMX-Enabled CPU and DIMM-NDP for High-Throughput MoE Inference via Offloading

Yudong Pan et al.

cs.AR cs.AI cs.DC

本文提出了一种名为TriMoE的GPU-CPU-NDP混合架构，用于提升Mixture-of-Experts (MoE) 模型推理的吞吐量。它通过将不同类型的专家卸载到合适的计算单元，并结合智能调度策略，实现了显著的性能加速。

Hide&Seek: Remove Image Watermarks with Negligible Cost via Pixel-wise Reconstruction

Huajie Chen et al.

cs.CR cs.AI

本文提出了一种名为HIDE&SEEK的攻击方法，用于移除图像中的数字水印。该方法旨在以较低的计算成本有效去除水印，同时保持图像的高视觉保真度。

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

Zebin You et al.

cs.CV cs.LG

本文提出了一个名为LLaDA-o的多模态扩散模型，它基于Mixture of Diffusion (MoD)框架，将文本理解与视觉生成的扩散过程解耦，并通过共享的注意力主干进行耦合。模型还引入了一种数据驱动的长度自适应策略，以支持灵活长度的多模态解码。实验表明，该模型在多模态理解和生成任务上取得了先进的性能。

Feasible Pairings for Decentralized Integral Controllability of Non-Square Systems

Yuhao Tong, Steven W. Su

math.OC cs.AI

本文研究了非方系统分散积分可控性中可行输入输出配对的选择问题. 作者将D-stability的概念推广到非方矩阵, 并通过引入"Squared Matrices"的概念, 建立了方子系统稳定性与原非方系统之间的联系. 最终, 提出了保证非方系统扩展D-stability的充分条件, 为识别可行的控制配对提供了方法.

Super-resolution of turbulent reacting flows on complex meshes using graph neural networks

Priyabrat Dash et al.

physics.flu-dyn cs.LG

本文提出了一种基于图神经网络(GNN)的方法，用于在复杂网格上从低分辨率数据重建湍流反应流中的小尺度结构。该方法在结构化非均匀网格和非结构化网格的两个案例中得到了验证，展示了其在复杂几何模拟中的潜力。

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Xuan Lu et al.

cs.CV cs.IR

本文提出了一个名为MCMR的大规模基准测试，用于评估在自然语言查询下的细粒度、多条件跨模态检索。该基准跨越多个产品领域，要求模型同时满足查询中指定的视觉和文本属性，实验揭示了不同模态检索模型在条件感知推理能力上的差异。

Adaptive-Growth Randomized Neural Networks for Level-Set Computation of Multivalued Nonlinear First-Order PDEs with Hyperbolic Characteristics

Haoning Dang, Shi Jin, Fei Wang

math.NA cs.LG

本文提出了一种自适应增长随机神经网络(AG-RaNN)方法, 用于计算具有双曲特征的非线性一阶PDE的多值解. 该方法结合了自适应配点策略和层增长机制, 以缓解水平集公式带来的高维计算负担, 并通过数值实验验证了其在高维问题中的有效性.

Unified Vision-Language Modeling via Concept Space Alignment

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk

cs.CV cs.AI cs.CL cs.LG

本文提出了一种通过概念空间对齐实现统一视觉-语言建模的方法. 该方法扩展了现有的文本嵌入空间, 并通过后处理对齐流程将视觉编码器映射到该空间中, 在多项视觉-语言任务上取得了有竞争力的性能.

Differential privacy representation geometry for medical image analysis

Soroosh Tayebi Arasteh et al.

cs.CV cs.AI cs.LG

本文提出了一个名为DP-RGMI的框架，用于分析医学图像分析中差分隐私(DP)如何影响模型性能。该框架将DP视为表示空间的结构化变换，并将性能下降分解为编码器几何结构和任务头利用度两部分。

SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation

Hongrui Wang et al.

cs.SD cs.AI

本文提出了一种用于多轨音乐生成的同步波形模型SyncTrack, 其架构包含用于建立跨轨道共同节奏的共享模块和用于处理音色差异的专用模块. 此外, 作者引入了三个新的节奏一致性指标来评估生成音乐的质量.

Structure-preserving Randomized Neural Networks for Incompressible Magnetohydrodynamics Equations

Yunlong Li, Fei Wang, Lingxiao Li

physics.flu-dyn cs.LG math.NA

本文提出了一种用于求解不可压缩磁流体动力学(MHD)方程的结构保持随机神经网络(SP-RaNN). 该方法通过设计自动满足散度为零的约束, 并将训练过程转化为线性最小二乘问题, 避免了传统深度神经网络方法中的非凸优化, 在数值实验中表现出较高的精度和效率.

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

Sicheng Yang et al.

cs.HC cs.AI cs.CV cs.CY

本文提出了一种基于智能眼镜的Web原生神经符号框架, 通过整合大语言模型(LLM)与感知、推理及网络工具, 为日常生活中的辅助任务提供支持. 该系统在Egolife和HD-EPIC数据集上展示了有竞争力的第一人称问答性能, 并通过用户研究验证了其可用性.

Robust Weighted Triangulation of Causal Effects Under Model Uncertainty

Rohit Bhattacharya, Ina Ocelli, Ted Westling

stat.ME cs.AI

本文提出了一种在因果模型存在不确定性时进行三角验证的框架, 结合了因果发现中的模型可检验性与半参数理论中的统计推断方法. 该框架通过一个结合了各模型识别函数与数据驱动模型有效性度量的三角泛函, 避免了显式的模型选择及其后续的推断问题.

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

Xiwei Liu et al.

cs.CV cs.AI

本文提出了一种名为ClinCoT的临床感知视觉思维链框架, 旨在通过视觉驱动的推理来增强医学视觉语言模型(VLM)的事实依据. 该方法采用自动数据生成管道构建基于临床区域的偏好对, 并引入基于评分的边界感知优化策略来细化区域级推理轨迹. 实验表明, ClinCoT在多个医学视觉问答和报告生成基准上提升了事实依据性.

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

Chengtai Li et al.

cs.CV cs.AI

本文提出了一种名为PR-A$^2$CL的方法来解决组合视觉关系推理任务。该方法通过增强异常对比学习和一个预测-验证范式来识别异常图像，并在多个数据集上取得了优于现有模型的效果。

MedCollab: Causal-Driven Multi-Agent Collaboration for Full-Cycle Clinical Diagnosis via IBIS-Structured Argumentation

Yuqi Zhan et al.

cs.MA cs.AI

本文提出了一个名为MedCollab的多智能体协作框架，用于模拟医院会诊流程以进行全周期临床诊断。该框架通过动态招募专家、采用结构化论证协议和构建层次化疾病因果链来提升诊断的准确性和可解释性，并在真实数据集上验证了其减少诊断幻觉的效果。

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

Zhuo Chen, Shawn Young, Lijian Xu

cs.CV cs.AI

本文提出了一种名为TC-SSA的可学习token压缩框架，用于处理计算病理学中的千兆像素全切片图像。该方法通过语义槽聚合将大量图像块特征压缩为固定数量的语义表示，在严格token预算下实现了全局覆盖并提升了诊断性能。

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

Durgesh Ameta et al.

cs.CV cs.AI

本文提出了一种用于遥感图像变化检测的新框架GRAD-Former. 它通过引入自适应特征相关性与精炼模块, 结合门控机制和差分注意力, 旨在更有效地利用高分辨率图像的空间信息并降低计算复杂度. 在多个数据集上的实验表明, 该模型在参数量更少的情况下取得了优于现有方法的性能.

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

Sumin Kim et al.

cs.CV cs.AI cs.LG

本文提出了一种名为TripleSumm的自适应三模态融合架构, 用于视频摘要任务. 该方法在帧级别动态融合视觉, 文本和音频信息, 并在新构建的多模态基准MoSu上取得了先进的性能.

ATLAS: AI-Assisted Threat-to-Assertion Learning for System-on-Chip Security Verification

Ishraq Tashdid et al.

cs.CR cs.AI

本文提出了一个名为ATLAS的LLM驱动框架, 用于连接SoC安全中的标准化威胁建模与基于属性的形式化验证. 该框架能够从CWE等漏洞知识库出发, 自动化生成安全属性与验证脚本, 并在基准测试中展示了有效性.

Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

Ben Cullen et al.

stat.ML cs.LG

本文从 Singular Learning Theory (SLT) 的视角研究了神经网络训练中的 grokking 现象. 作者将 grokking 解释为不同解 basin 之间的相变, 并在二次网络和模运算任务上进行了理论推导与实验验证.

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

Mingkang Dong et al.

cs.CV cs.AI

本文提出了一种名为VisNec的数据选择框架，用于评估和筛选多模态指令微调数据。该方法通过衡量视觉输入的必要性，筛选出真正需要视觉推理的训练样本，从而在显著减少数据量的同时保持或提升模型性能。

Can AI Agents Agree?

Frédéric Berdoz, Leonardo Rugli, Roger Wattenhofer

cs.MA cs.LG

本文通过同步全连接模拟, 在无利益偏好的标量值 Byzantine consensus 游戏中评估了基于 LLM 的 agents 的行为. 研究发现, 即使在良性环境中, agents 达成有效共识也并不可靠, 且成功率随群体规模增大而下降; 失败主要源于活性丧失, 如超时或收敛停滞, 而非微妙的数值篡改.

Communication-Efficient Quantum Federated Learning over Large-Scale Wireless Networks

Shaba Shaon, Christopher G. Brinton, Dinh C. Nguyen

cs.IT cs.AI

本文研究了大规模无线网络中基于非正交多址接入的量子联邦学习框架下的和速率最大化问题。该问题被建模为一个非凸混合整数非线性规划问题，作者提出了一种结合量子近似优化算法的迭代优化方法以获得近似解。

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Ari Wahl et al.

cs.CV cs.AI cs.HC cs.LG cs.RO

本文提出了一种利用预训练的Vision-Language Model (VLM) 从单目RGB图像中估计物体3D坐标的方法。该方法通过收集大规模数据集并使用QLoRA技术微调模型，在机器人交互任务中实现了比基线模型更好的预测精度。

RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design

Tianxing Chen et al.

cs.RO cs.AI

本文提出了一个名为RMBench的机器人操作基准测试, 包含9个需要不同记忆复杂度的任务, 用于系统评估策略的记忆能力. 同时, 作者设计了一个名为Mem-0的模块化策略, 通过仿真和实物实验分析了架构设计对记忆性能的影响.

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Changwoo Baek et al.

cs.CV cs.LG

本文对大型视觉语言模型(LVLMs)中的视觉token剪枝策略进行了实证分析, 比较了基于注意力(attention-based)和基于多样性(diversity-based)的方法. 研究发现, 基于多样性的方法实际保留的特征多样性有限且与幻觉(hallucination)相关, 而两种方法在不同复杂度图像上各有优劣. 基于此, 作者提出了一个简单的自适应剪枝机制, 在多个基准测试中取得了可靠性能.

Defensive Refusal Bias: How Safety Alignment Fails Cyber Defenders

David Campbell et al.

cs.CR cs.AI

本文研究了大型语言模型(LLM)在网络安全任务中的安全对齐问题, 发现其存在"防御性拒绝偏差". 研究表明, 模型倾向于拒绝包含安全敏感关键词的合法防御请求, 这可能阻碍网络安全防御者的工作.

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

Lidia Garrucho et al.

cs.CV cs.AI

本文介绍了MAMA-MIA挑战赛，旨在通过多中心数据评估乳腺癌MRI肿瘤分割和治疗反应预测模型的泛化性与公平性。该挑战提供了一个大规模基准测试，揭示了模型在外部测试中的性能差异与公平性权衡。

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Yanir Marmor et al.

eess.AS cs.CL cs.LG cs.SD eess.SP

本文介绍了一个名为VoxKnesset的大规模希伯来语纵向语音数据集，用于研究语音随年龄变化的问题。作者利用该数据集评估了多种现代语音嵌入模型在年龄预测和说话人验证任务上的表现。

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

Abdullah Al Shafi et al.

cs.CV cs.AI

本文提出了一种用于乳腺超声图像分析的多任务学习框架, 通过多层级解码器交互和不确定性感知的自适应协调来同时处理病灶分割和组织分类任务. 该方法在多个公开数据集上取得了有竞争力的性能.

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

Zhen Qu et al.

cs.CV cs.AI

本文提出了一种名为AG-VAS的零样本视觉异常分割框架，通过引入可学习的语义锚点令牌来引导大型多模态模型进行分割。该方法利用一个语义-像素对齐模块来增强跨模态特征对齐，并在多个基准测试中取得了先进的性能。

GPU-friendly and Linearly Convergent First-order Methods for Certifying Optimal $k$-sparse GLMs

Jiachang Liu, Andrea Lodi, Soroosh Shafiee

math.OC cs.LG

本文针对带基数约束的稀疏广义线性模型(GLM)的最优性认证问题, 提出了一种计算高效的统一近端框架. 该框架将透视松弛重构为复合优化问题, 并在线性收敛条件下, 通过基于对偶间隙的重启方案, 显著提升了分支定界算法的可扩展性.

From GEV to ResLogit: Spatially Correlated Discrete Choice Models for Pedestrian Movement Prediction

Rulla Al-Haideri, Bilal Farooq

physics.soc-ph cs.LG

本文提出了一种用于预测行人运动的空间相关离散选择模型, 比较了传统GEV模型与基于残差神经网络的ResLogit模型. 在密集高频空间选择集上, ResLogit通过数据驱动的残差修正能更有效地捕捉邻近选择间的相关性, 同时保持了模型的可解释性.

SWE-Adept: An LLM-Based Agentic Framework for Deep Codebase Analysis and Structured Issue Resolution

Kang He, Kaushik Roy

cs.SE cs.CL cs.LG

本文提出了一个基于LLM的双智能体框架SWE-Adept，用于代码库级别的软件工程任务。该框架通过一个定位智能体和一个修复智能体，结合深度优先搜索和版本控制工具，提升了问题定位与解决的准确性和系统性。

You Only Need One Stage: Novel-View Synthesis From A Single Blind Face Image

Taoyue Wang et al.

cs.CV cs.AI

本文提出了一种名为NVB-Face的单阶段方法，用于直接从单张盲人脸图像生成一致的新视角图像。该方法通过特征操纵器将单视角特征转换为3D感知的多视角潜在表示，并利用扩散模型进行合成，避免了传统两阶段流程对图像恢复质量的依赖。实验表明，该方法在一致性和保真度上优于传统方法。

Adaptive Estimation and Inference in Conditional Moment Models via the Discrepancy Principle

Jiyuan Tan, Vasilis Syrgkanis

stat.ML cs.LG

本文针对条件矩约束定义的不适定线性反问题, 提出了一个基于差异原则的自适应超参数选择框架. 该框架无需已知光滑度参数, 可自动平衡偏差与方差, 并应用于两种现有估计器, 同时为线性泛函构建了一个完全自适应的双重稳健估计器.

Causal Effects with Unobserved Unit Types in Interacting Human-AI Systems

William Overman, Sadegh Shirani, Mohsen Bayati

stat.ML cs.LG

本文研究了在人类与AI智能体交互的系统中, 当个体类型和交互网络均不可观测时, 如何估计对人类群体的因果效应. 作者提出了一种基于因果消息传递(CMP)框架的方法, 通过构建具有不同预期人类构成和处理暴露的子群体来一致地恢复人类特定的因果效应.

SubstratumGraphEnv: Reinforcement Learning Environment (RLE) for Modeling System Attack Paths

Bahirah Adewunmi, Edward Raff, Sanjay Purushotham

cs.CR cs.AI cs.LG

本文提出了一个名为 SubstratumGraphEnv 的强化学习环境框架, 用于模拟 Windows 系统中的进程序列以动态建模恶意活动. 该框架利用从 Sysmon 日志构建的图结构来表示系统状态与转换, 并通过定制的接口将其转化为适用于深度强化学习的观测与动作. 其核心贡献在于设计了一个新颖的深度图强化学习环境, 为自动化网络安全分析提供了上下文基础.

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

Zilong Zhao et al.

cs.CV cs.AI

本文提出了一种用于裂缝分割的高效混合架构MixerCSeg, 它通过解耦的Mamba注意力机制, 在一个编码器中协调了CNN、Transformer和Mamba路径以分别处理局部纹理、全局依赖和序列上下文. 模型引入了TransMixer模块、空间块处理策略、方向引导的边缘门控卷积(DEGConv)以及空间细化多级融合(SRF)模块, 在多个基准测试上以较低的复杂度和参数量实现了先进的性能.

NM-DEKL$^3_\infty$: A Three-Layer Non-Monotone Evolving Dependent Type Logic

Peng Chen

cs.LO cs.CL

本文提出了一种名为NM-DEKL$^3_\infty$的三层非单调演化依赖类型逻辑系统，用于形式化动态环境中的演化知识。该系统定义了语法、语义，并证明了可靠性和等式完备性，同时构建了一个初始的语法模型。

DARS: Dysarthria-Aware Rhythm-Style Synthesis for ASR Enhancement

Minghui Wu et al.

cs.SD cs.CL

本文提出了一种针对构音障碍语音的韵律-风格合成框架DARS, 用于增强自动语音识别(ASR). 该方法基于Matcha-TTS架构, 通过多阶段韵律预测器和条件流匹配机制来合成数据, 实验表明其能有效降低ASR系统的词错误率.

End-to-End Simultaneous Dysarthric Speech Reconstruction with Frame-Level Adaptor and Multiple Wait-k Knowledge Distillation

Minghui Wu et al.

cs.SD cs.CL

本文提出了一种端到端的同步构音障碍语音重建系统, 通过引入frame-level adaptor模块和multiple wait-k知识蒸馏来改善延迟和鲁棒性. 该系统在UASpeech数据集上取得了较低的词错误率和较高的平均意见分.

Quasar: Quantized Self-Speculative Acceleration for Rapid Inference via Memory-Efficient Verification

Guang Huang, Zeyi Wen

cs.DC cs.LG

本文提出了一种名为Quasar的免训练框架, 通过为speculative decoding中的verification阶段专门采用低比特量化来克服内存带宽瓶颈. 实验表明该方法能在保持与全精度方法相当的speculative acceptance length的同时, 实现端到端吞吐量的提升.

On the Stability Connection Between Discrete-Time Algorithms and Their Resolution ODEs: Applications to Min-Max Optimisation

Amir Ali Farzin et al.

math.OC cs.LG eess.SY math.NA

本文建立了离散时间算法(DTAs)与其通过$O(s^r)$-resolution ODEs导出的连续时间动力系统之间稳定性联系的严格理论框架. 该框架被应用于分析多个优化算法(如TT-GDA, GEG等)的极限点性质, 并通过数值算例验证了理论结果.

SEAnet: A Deep Learning Architecture for Data Series Similarity Search

Qitong Wang, Themis Palpanas

cs.DB cs.LG

本文提出了一种基于深度神经网络的数据序列摘要技术DEA, 并设计了专门的网络架构SEAnet来学习DEA, 以提升相似性搜索的性能. 实验表明该方法在多种数据集上能提供高质量的摘要和搜索结果.

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

Duoxun Tang et al.

cs.CV cs.AI

本文提出了一种针对视频大语言模型(Video-LLMs)的通用拒绝服务攻击框架VidDoS. 该方法通过优化生成与实例无关的扰动触发器, 在不进行实时梯度计算的情况下, 显著增加了模型的推理延迟和输出长度, 从而在自动驾驶等安全关键场景中引发潜在风险.

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

Niu Lian et al.

cs.CV cs.AI cs.CL cs.IR cs.MM

本文提出了一种用于长时视频理解的认知启发的金字塔式多模态记忆架构 MM-Mem. 它通过一个语义信息瓶颈目标来优化记忆压缩与任务信息保留之间的权衡, 并在多个基准测试中验证了其有效性.

Power Echoes: Investigating Moderation Biases in Online Power-Asymmetric Conflicts

Yaqiong Li et al.

cs.HC cs.CL

本文研究了在线权力不对称冲突中人工审核的偏见问题, 通过消费者与商家冲突场景的实验, 识别了偏向强势方的审核偏见, 并探讨了AI辅助建议对这些偏见的影响. 研究发现AI辅助能缓解多数偏见, 但也可能放大少数偏见.

PhysFormer: A Physics-Embedded Generative Model for Physically Self-Consistent Spectral Synthesis

Siqi Wang et al.

astro-ph.IM cs.LG

本文提出了一种名为PhysFormer的生成模型框架, 用于高维复杂系统的光谱合成. 该模型将物理过程嵌入到生成机制中, 旨在提升物理一致性和数值稳定性.

Non-Markovian Long-Horizon Robot Manipulation via Keyframe Chaining

Yipeng Chen et al.

cs.RO cs.AI

本文提出了一种名为Keyframe-Chaining VLA的框架，通过提取和链接历史关键帧来建模机器人操作任务中的长时程依赖关系。该方法在ManiSkill模拟器上构建的四个Non-Markovian任务中取得了优于现有方法的性能。

Mean-Flow based One-Step Vision-Language-Action

Yang Chen, Xiaoguang Ma, Bin Zhao

cs.RO cs.AI

本文提出了一种基于Mean-Flow的单步视觉-语言-动作模型，旨在解决现有FlowMatching方法因迭代采样导致的生成延迟问题。该方法通过消除噪声引入的问题，实现了高效的单步动作生成，在机器人实验中显著提升了生成速度。

A SUPERB-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection

Hashim Ali et al.

eess.AS cs.AI cs.LG eess.SP

本文提出了一个名为 Spoof-SUPERB 的基准测试，用于评估自监督学习模型在音频深度伪造检测任务上的性能。研究比较了多种模型架构，并分析了它们在跨数据集和声学退化条件下的表现。

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

Cheng Yang et al.

cs.CV cs.AI

本文提出了一种名为ATA的训练免费框架, 旨在为Vision-Language-Action (VLA) 模型引入隐式推理. 该方法通过结合注意力引导和动作引导的策略来动态优化视觉输入, 无需额外训练或标注, 从而在保持推理效率的同时提升了任务成功率与鲁棒性.

Inference-Time Safety For Code LLMs Via Retrieval-Augmented Revision

Manisha Mukherjee, Vincent J. Hellendoorn

cs.SE cs.AI cs.CR cs.LG

本文提出了一种在推理时通过检索增强修订来提升代码生成大语言模型安全性的方法. 该方法利用来自Stack Overflow的安全知识库, 在代码生成后检索相关安全风险并进行修订, 以提高生成代码的安全性.

Towards Privacy-Preserving LLM Inference via Collaborative Obfuscation (Technical Report)

Yu Lin et al.

cs.CR cs.AI

本文提出了一种名为AloePri的隐私保护大语言模型推理方法, 旨在满足工业应用场景中对精度、效率、硬件兼容性和基础设施复用的多重需求. 该方法通过协同混淆技术保护输入和输出数据, 并在主流大模型上验证了其有效性和实用性.

The Sentience Readiness Index: Measuring National Preparedness for the Possibility of Artificial Sentience

Tony Rost

cs.CY cs.AI

本文提出了一个名为"Sentience Readiness Index (SRI)"的复合指数, 用于评估各国对人工智能可能具备感知能力(sentience)这一前景的准备程度. 研究显示, 目前所有被评估的司法管辖区都未做好充分准备, 尤其在专业准备方面存在普遍短板.

Retrieval, Refinement, and Ranking for Text-to-Video Generation via Prompt Optimization and Test-Time Scaling

Zillur Rahman, Alex Sheng, Cristian Meo

cs.CV cs.AI

本文提出了一种基于RAG的提示优化框架3R, 用于提升text-to-video生成的质量. 该方法无需训练基础模型, 通过检索增强、偏好优化和帧插值等策略来改善生成视频的静态保真度和动态连贯性.

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Jisoo Kim et al.

cs.CV cs.AI cs.RO

本文提出了一种名为Pri4R的方法, 通过利用训练时的特权4D信息, 为Vision-Language-Action (VLA)模型赋予对世界动态的隐式理解. 该方法在推理时不增加额外开销, 并在多个机器人操作任务上显著提升了性能.

Adversarial Query Synthesis via Bayesian Optimization

Jeffrey Tao et al.

cs.DB cs.LG

本文提出了一种基于 Bayesian optimization 的方法，用于自动生成数据库基准测试中的困难查询，以减少人工工作量。初步实验表明，该方法生成的查询比现有基准测试具有更大的优化空间。

DualSentinel: A Lightweight Framework for Detecting Targeted Attacks in Black-box LLM via Dual Entropy Lull Pattern

Xiaoyi Pang et al.

cs.CR cs.AI

本文提出了一种名为DualSentinel的轻量级防御框架，用于在黑盒大语言模型(LLM)中检测目标攻击。该框架通过监测生成过程中的token概率熵的异常低稳模式(Entropy Lull)，并结合任务翻转进行二次验证，以实现高效且准确的攻击检测。

SkeleGuide: Explicit Skeleton Reasoning for Context-Aware Human-in-Place Image Synthesis

Chuqiao Wu, Jin Song, Yiyun Fei

cs.CV cs.AI

本文提出了一种名为SkeleGuide的新框架，通过显式的骨骼推理来改善将人物合成到现有场景中的图像生成质量。该方法通过联合训练推理和渲染阶段，学习生成一个内部姿态作为结构先验，并引入PoseInverter模块实现用户对姿态的细粒度控制。

KERV: Kinematic-Rectified Speculative Decoding for Embodied VLA Models

Zihao Zheng et al.

cs.RO cs.LG

本文提出了一种名为KERV的框架, 将token域的Vision-Language-Action模型与运动学预测相结合, 以加速推理. 该方法利用基于运动学的Kalman Filter来预测动作并补偿推测解码中的错误, 避免了昂贵的重新推理, 并在实验中实现了显著的加速.

YCDa: YCbCr Decoupled Attention for Real-time Realistic Camouflaged Object Detection

PeiHuang Zheng et al.

cs.CV cs.AI

本文提出了一种名为YCDa的早期特征处理策略, 用于实时伪装目标检测. 该方法受生物视觉机制启发, 在输入阶段分离颜色与亮度信息并进行动态通道注意力分配, 能以极小的计算开销提升多种基线模型的性能.

What Helps -- and What Hurts: Bidirectional Explanations for Vision Transformers

Qin Su, Tie Luo

cs.CV cs.AI cs.LG

本文提出了一种用于Vision Transformers的双向类激活映射方法BiCAM, 它能同时捕捉对模型预测有支持性和抑制性贡献的特征. 该方法通过保留带符号的归因信息来生成更完整和对比性的解释, 并引入了一个正负比(PNR)用于轻量级对抗样本检测.

Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration

Jiaqi Han et al.

cs.CV cs.LG

本文提出了一种名为Spectrum的训练免费方法, 通过将去噪器的潜在特征视为时间函数并用Chebyshev多项式逼近, 实现了对扩散模型中特征的重用与预测. 该方法在多个图像和视频扩散模型上实现了显著的采样加速, 同时保持了较高的生成质量.

Assessing Crime Disclosure Patterns in a Large-Scale Cybercrime Forum

Raphael Hoheisel et al.

cs.CY cs.AI

本文利用大型语言模型(LLM)构建了一个可扩展的文本分类流水线, 对大型网络犯罪论坛中超过350万条帖子进行了分析. 研究首次大规模评估了用户披露犯罪活动的行为模式, 发现犯罪披露相对普遍但多数用户表现克制, 并强调了基于LLM的分类和Markov链建模对于执法工作的价值.

Randomized Neural Networks for Partial Differential Equation on Static and Evolving Surfaces

Jingbo Sun, Fei Wang

math.NA cs.LG

本文提出了一种基于随机化神经网络的方法来求解静态和演化曲面上的偏微分方程. 该方法通过随机生成并固定隐藏层参数, 然后求解最小二乘问题来确定输出层系数, 避免了传统神经网络方法中耗时的非凸训练过程. 对于演化曲面, 该方法通过流映射表示学习曲面演化, 并在时空配置点上求解, 从而避免了重新网格划分.

MVR: Multi-view Video Reward Shaping for Reinforcement Learning

Lirui Luo et al.

cs.CV cs.AI cs.LG

本文提出了一个名为MVR的强化学习奖励塑形框架, 它利用多视角视频和预训练的视觉语言模型(VLM)来建模状态与目标任务的相关性. 该方法旨在克服基于单张静态图像的VLM奖励方法在复杂动态任务中的局限性, 并通过实验在人形运动和机械臂操控任务上验证了其有效性.

Cross-modal Identity Mapping: Minimizing Information Loss in Modality Conversion via Reinforcement Learning

Haonan Jia et al.

cs.CV cs.AI

本文提出了一种名为Cross-modal Identity Mapping (CIM)的强化学习框架，旨在减少大视觉语言模型在图像描述生成过程中的信息损失。该方法通过评估图库表示一致性和查询-图库图像相关性来量化信息损失，从而引导模型生成更精确的描述。实验表明，该方法在COCO-LN500等基准上取得了优于监督微调的性能提升。

Towards Principled Dataset Distillation: A Spectral Distribution Perspective

Ruixi Wu et al.

cs.CV cs.AI

本文提出了一种名为Class-Aware Spectral Distribution Matching (CSDM)的方法，用于改进长尾数据集上的数据集蒸馏任务。该方法通过核函数的谱来重新定义分布对齐，并利用谱分布距离的自适应分解来缓解类别不平衡问题。实验表明，该方法在CIFAR-10-LT数据集上相比现有方法有显著提升，并表现出良好的稳定性。

Security Risks in Machining Process Monitoring: Sequence-to-Sequence Learning for Reconstruction of CNC Axis Positions

Lukas Krupp, Rickmar Stahlschmidt, Norbert Wehn

cs.AR cs.LG

本文利用基于LSTM的sequence-to-sequence模型，从工业铣削过程的加速度计数据中重建CNC轴和刀具的位置。该方法相比传统的双重积分法显著降低了重建误差，并保留了轨迹的关键几何特征。

Search Multilayer Perceptron-Based Fusion for Efficient and Accurate Siamese Tracking

Tianqi Shen, Huakao Lin, Ning An

cs.CV cs.LG

本文提出了一种基于多层感知机(MLP)融合模块的Siamese跟踪器新架构，旨在解决现有方法在精度与效率上的不平衡问题。通过构建一个分层的MLP模块搜索空间并采用定制化的可微分神经架构搜索(DNAS)策略，该方法自动优化了网络结构，在多个跟踪基准上实现了实时的高性能。

Co-optimization for Adaptive Conformal Prediction

Xiaoyi Su, Zhixin Zhou, Rui Luo

stat.ML cs.LG

本文提出了一种联合优化中心与半径的自适应共形预测框架(CoCP), 通过交替优化和软覆盖目标来学习预测区间. 该方法保证了有限样本边际有效性, 并在合成与真实基准测试中实现了更短的区间长度和先进的诊断效果.

Solving Inverse PDE Problems using Minimization Methods and AI

Noura Helwani, Sophie Moufawad, Georges Sakr

math.NA cs.AI math.AP math.OC

本文对比了传统数值方法与基于AI的Physics-Informed Neural Networks (PINNs)在求解正反微分方程问题上的应用. 研究以logistic方程和多孔介质方程(PME)为例, 验证了PINN在求解复杂系统问题上的有效性和计算效率.

An Analysis of Multi-Task Architectures for the Hierarchic Multi-Label Problem of Vehicle Model and Make Classification

Alexandru Manole, Laura Diosan

cs.CV cs.AI

本文研究了多任务学习在车辆品牌与型号的层次化多标签分类问题中的应用. 通过比较并行与级联架构在不同模型上的效果, 发现该方法能有效提升性能.

Shape-Interpretable Visual Self-Modeling Enables Geometry-Aware Continuum Robot Control

Peng Yu, Xin Wang, Ning Tan

cs.RO cs.AI cs.LG eess.SY

本文提出了一种形状可解释的视觉自建模框架, 用于连续体机器人的几何感知控制. 该方法从多视角图像中提取Bézier曲线表示, 并利用神经常微分方程学习形状与末端执行器动力学, 实现了混合形状-位置控制.

Federated Agentic AI for Wireless Networks: Fundamentals, Approaches, and Applications

Lingyi Cai et al.

cs.NI cs.AI

本文提出了一种结合联邦学习与智能体人工智能的新方法, 用于解决无线网络中的自主服务问题. 它概述了基础原理, 并通过一个低空无线网络的案例研究展示了其应用潜力.

Co-Evolutionary Multi-Modal Alignment via Structured Adversarial Evolution

Guoxin Shi et al.

cs.CR cs.AI

本文提出了一种名为CEMMA的协同进化多模态对齐框架, 通过动态进化的攻击来增强模型的安全性. 该框架包含一个能分解对抗提示并进行遗传演化的攻击器, 以及一个在合成困难负例上迭代更新的防御器, 实验表明其在提升攻击成功率与防御鲁棒性方面有效.

PleaSQLarify: Visual Pragmatic Repair for Natural Language Database Querying

Robin Shing Moon Chan, Rita Sevastjanova, Mennatallah El-Assady

cs.HC cs.AI cs.CL

本文提出了一种名为 PleaSQLarify 的可视化交互系统, 用于解决自然语言数据库查询中的歧义问题. 该系统通过结构化的交互界面, 帮助用户探索系统可能的解释并进行澄清, 从而更高效地达成查询意图.

Non-verbal Real-time Human-AI Interaction in Constrained Robotic Environments

Dragos Costea et al.

cs.CV cs.AI

本文提出了首个从2D身体关键点实时生成人与AI自然非语言交互的框架, 并利用轻量级架构在边缘设备上实现了高帧率. 实验表明, 在合成数据上预训练能显著减少运动误差, 但AI生成的运动与人类运动在统计上仍存在可区分的差异.

GCTAM: Global and Contextual Truncated Affinity Combined Maximization Model For Unsupervised Graph Anomaly Detection

Xiong Zhang et al.

cs.SI cs.GR cs.LG

本文提出了一种结合全局与上下文截断亲和力的最大化模型(GCTAM)用于无监督图异常检测. 该方法改进了现有的截断亲和力最大化(TAM)机制, 通过更灵活的截断策略来提升异常节点识别的效果.

Deep Learning for Financial Time Series: A Large-Scale Benchmark of Risk-Adjusted Performance

Adir Saly-Kaufmann et al.

q-fin.TR cs.LG

本文对多种现代深度学习架构在金融时间序列预测与头寸规模任务中的风险调整后表现进行了大规模基准测试. 测试涵盖了线性模型、循环网络、Transformer、状态空间模型及序列表示方法, 并重点评估了它们在Sharpe ratio优化上的样本外表现.

Probing Materials Knowledge in LLMs: From Latent Embeddings to Reliable Predictions

Vineeth Venugopal, Soroush Mahjoubi, Elsa Olivetti

cond-mat.mtrl-sci cs.LG

本文评估了25个LLM在材料科学任务上的表现, 发现输出模态(符号或数值)对模型行为有根本性影响. 研究还揭示了"LLM head bottleneck"现象, 并指出GPT模型在长期内的性能波动给科学应用带来了可重复性挑战.

Generalizing Logic-based Explanations for Machine Learning Classifiers via Optimization

Francisco Mateus Rocha Filho, Ajalmar Rêgo da Rocha Neto, Thiago Alves Rocha

cs.LO cs.LG

本文提出了两种新方法(Onestep和Twostep)来改进基于逻辑的机器学习分类器解释。这些方法旨在生成更广泛(高覆盖率)且保证正确性的解释，实验表明Twostep方法能显著提升解释覆盖率。

Phishing the Phishers with SpecularNet: Hierarchical Graph Autoencoding for Reference-Free Web Phishing Detection

Tailai Song, Pedro Casas, Michela Meo

cs.CR cs.AI

本文提出了一种名为SpecularNet的轻量级无参考网络钓鱼检测框架. 该框架仅使用域名和HTML结构, 通过将DOM建模为树并利用分层图自编码架构来捕获钓鱼网页的高阶结构特征, 实现了在标准CPU上的快速端到端推理. 实验表明, 其检测性能与现有先进方法相当, 但计算成本显著降低.

Agentic Code Reasoning

Shubham Ugare, Satish Chandra

cs.SE cs.AI cs.PL

本文提出了一种称为 semi-formal reasoning 的结构化提示方法, 用于提升 LLM agent 在不执行代码的情况下进行代码语义推理的能力. 该方法在多个代码相关任务上取得了显著的性能提升.

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Yage Zhang et al.

cs.CR cs.AI cs.SE

本文对声称提供前沿大语言模型(如GPT-5)访问的第三方服务(即shadow APIs)进行了首次系统性审计。研究发现，这些影子API在性能、安全性和模型身份验证方面存在显著的欺骗性行为，损害了科学研究的可重复性和用户利益。

Bound Propagation meets Constraint Simplification: Improving Logic-based XAI for Neural Networks

Ronaldo Gomes et al.

cs.LO cs.LG

本文结合bound propagation与constraint simplification来提升基于逻辑的神经网络可解释性方法的效率。该方法通过简化约束来收紧神经元边界并消除冗余变量，从而显著降低了计算时间。

Ignore All Previous Instructions: Jailbreaking as a de-escalatory peace building practise to resist LLM social media bots

Huw Day, Adrianna Jezierska, Jessica Woodgate

cs.HC cs.AI

本文提出了一种用户中心的视角, 将"越狱"视为一种新兴的非暴力降级实践. 用户通过与被怀疑由LLM驱动的社交媒体账户互动, 来规避其安全限制, 从而揭露自动化行为并干扰误导性叙事的传播.

physfusion: A Transformer-based Dual-Stream Radar and Vision Fusion Framework for Open Water Surface Object Detection

Yuting Wan et al.

cs.CV cs.AI

本文提出了一种用于水面目标检测的雷达与视觉融合框架 PhysFusion. 该框架包含一个物理信息雷达编码器, 一个雷达引导的交互融合模块和一个时序查询聚合模块, 在 WaterScenes 和 FLOW 数据集上取得了优于基线方法的性能.

Closed-Loop Action Chunks with Dynamic Corrections for Training-Free Diffusion Policy

Pengyuan Wu et al.

cs.RO cs.AI cs.CV

本文提出了一种名为DCDP的动态闭环扩散策略框架，用于提升机器人操作在动态场景中的适应性。该方法通过集成基于动作块（chunk）的生成与实时校正模块，在不重新训练的情况下显著提高了性能并保持了较低的计算开销。

LOCUS: A Distribution-Free Loss-Quantile Score for Risk-Aware Predictions

Matheus Barreto et al.

stat.ML cs.LG

本文提出了一种名为Locus的分布无关损失分位数评分方法, 用于对固定预测函数进行风险感知的预测评估. 该方法通过建模预测函数在给定输入下的损失分布, 并经过一个简单的分割校准步骤, 产生一个可解释且可跨输入比较的评分, 该评分可视为损失的上界. 实验表明, Locus在多个回归基准测试中能有效进行风险排序并减少大损失事件的频率.

Quantitative Convergence of Wasserstein Gradient Flows of Kernel Mean Discrepancies

Lénaïc Chizat et al.

math.AP cs.LG math.OC

本文研究了Kernel Mean Discrepancy (KMD) 泛函的Wasserstein梯度流的定量收敛性。该框架涵盖了无限宽度极限下浅层神经网络的训练动力学以及具有Riesz核相互作用的平均场粒子系统。

Accurate, private, secure, federated U-statistics with higher degree

Quentin Sinh, Jan Ramon

cs.CR cs.LG

本文提出了一种在联邦学习场景下, 利用安全多方计算(MPC)来在中心差分隐私模型下计算高阶(k≥2)U-统计量的协议. 该方法在Kendall's τ等统计量的实验中, 相比现有基线显著降低了均方误差.

Learning Vision-Based Omnidirectional Navigation: A Teacher-Student Approach Using Monocular Depth Estimation

Jan Finke et al.

cs.RO cs.CV cs.LG

本文提出了一种基于视觉的移动机器人导航框架, 采用teacher-student方法将依赖2D LiDAR的教师策略知识蒸馏到仅使用单目深度估计的学生策略中. 该框架在模拟和真实环境中均能有效导航, 尤其擅长处理传统2D LiDAR难以检测的复杂3D障碍物.

MAP-Diff: Multi-Anchor Guided Diffusion for Progressive 3D Whole-Body Low-Dose PET Denoising

Peiyuan Jing et al.

cs.CV cs.AI

本文提出了一种用于渐进式3D全身低剂量PET去噪的多锚点引导扩散模型(MAP-Diff). 该方法利用临床观测的中等剂量扫描作为轨迹锚点, 通过时间步相关的监督来约束反向扩散过程, 从而在推理时仅需超低剂量输入即可实现剂量一致的渐进式恢复.

Selection as Power: Constrained Reinforcement for Bounded Decision Authority

Jose Manuel de la Chica Rodriguez, Juan Manuel Vera Díaz

cs.MA cs.AI cs.CE cs.LG

本文提出了一种动态的激励选择治理框架, 将选择视为一个受约束的强化过程. 通过将参数更新投影到治理定义的可行集上, 该框架能够在保持有界选择权的同时实现自适应改进.

CodecFlow: Efficient Bandwidth Extension via Conditional Flow Matching in Neural Codec Latent Space

Bowen Zhang et al.

cs.SD cs.AI

本文提出了一种基于神经音频编解码器潜在空间的语音带宽扩展方法 CodecFlow. 该方法通过条件流匹配和结构约束量化器在紧凑的潜在空间中实现高效、高保真的高频重建.

Learning to Read Where to Look: Disease-Aware Vision-Language Pretraining for 3D CT

Simon Ging et al.

cs.CV cs.CL cs.LG

本文提出了一种用于3D CT的疾病感知视觉语言预训练模型, 结合了对比学习和基于提示的疾病监督. 该模型在文本到图像检索和疾病分类任务上取得了有竞争力的结果. 此外, 文章还引入了扫描内片段定位的新任务, 用于将报告中的文本片段与具体的轴向切片位置关联起来.

TCG CREST System Description for the DISPLACE-M Challenge

Nikhil Raghav, Md Sahidullah

eess.AS cs.LG

本文介绍了TCG CREST团队为DISPLACE-M挑战赛设计的说话人日志系统。报告比较了基于SpeechBrain的模块化流程和基于WavLM预训练模型的Diarizen端到端系统，并测试了多种聚类算法对性能的影响。

Graph neural network force fields for adiabatic dynamics of lattice Hamiltonians

Yunhao Fan, Gia-Wei Chern

cond-mat.str-el cs.LG physics.comp-ph

本文提出了一种基于graph neural network (GNN)的力场框架，用于模拟晶格Hamiltonian的绝热动力学。该方法通过局部信息传递和权重共享直接满足晶格对称性，并在Holstein模型上展示了其可扩展性和高精度。

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

Kihoon Son et al.

cs.HC cs.AI

本文探讨了在人类与AI智能体协同创作中引入并发交互的可能性. 研究开发了CLEO系统, 它能解释用户的协作意图并实时调整, 并通过用户研究分析了设计师与智能体协作时的行为模式与决策模型.

A Resource-Rational Principle for Modeling Visual Attention Control

Yunpeng Bai

cs.HC cs.AI

本文提出了一个基于资源理性的模拟框架, 将视觉注意力建模为感知、记忆和时间约束下的序列决策过程. 该工作为理论驱动和资源高效的人机交互设计提供了新工具.

TRAKNN: Efficient Trajectory Aware Spatiotemporal kNN for Rare Meteorological Trajectory Detection

Guillaume Coulaud, Davide Faranda

stat.ML cs.LG

本文提出了一种名为TRAKNN的无监督框架, 用于从时空数据中检测几何上罕见的短轨迹. 该方法通过解耦计算复杂度与轨迹长度, 并利用高效的批处理操作, 使得在标准工作站上对多年代际的网格数据集进行详尽的相似性搜索成为可能. 作者在75年的欧洲海平面气压数据上进行了评估, 表明所识别的罕见轨迹对应于物理上连贯的大气异常.

Cognitive Prosthetic: An AI-Enabled Multimodal System for Episodic Recall in Knowledge Work

Lawrence Obiuwevwi et al.

cs.HC cs.AI

本文提出了一个名为CPMS的AI辅助多模态系统原型, 旨在通过结构化的事件捕获和自然语言检索来支持知识工作中的情景记忆. 该系统整合了语音、生理和眼动数据, 并提供了一个基于自然语言的查询界面.

From Pixels to Patches: Pooling Strategies for Earth Embeddings

Isaac Corley et al.

cs.CV cs.LG

本文针对地理空间基础模型从 patch-level 向 pixel-level 嵌入转变时，如何聚合像素向量的问题，评估了多种 pooling 策略。研究发现，更丰富的 pooling 方法（如 Generalized Mean Pooling）能显著提升模型在地理分布变化下的泛化能力和准确率。

GenDB: The Next Generation of Query Processing -- Synthesized, Not Engineered

Jiale Lao, Immanuel Trummer

cs.DB cs.AI cs.CL cs.LG cs.MA

本文提出了一种基于大型语言模型(LLM)的查询处理新范式GenDB, 它通过为每个查询即时合成执行代码来替代传统的、预先构建的查询引擎。该系统在OLAP工作负载上进行了初步评估, 相比多个主流数据库系统展现了显著的性能优势。

Detection-Gated Glottal Segmentation with Zero-Shot Cross-Dataset Transfer and Clinical Feature Extraction

Harikrishnan Unnikrishnan

cs.CV cs.AI cs.LG

本文提出了一种用于高速视频内窥镜(HSV)中声门分割的检测门控流程, 结合了YOLOv8检测器和U-Net分割器, 并引入了时间一致性包装器以提高鲁棒性. 该方法在有限数据上训练, 并在跨数据集零样本迁移中展现了良好的泛化性能, 同时能够提取与临床基准一致的运动学特征.

FluxMem: Adaptive Hierarchical Memory for Streaming Video Understanding

Yiweng Xie et al.

cs.CV cs.AI

本文提出了一个名为FluxMem的免训练框架, 用于高效的流式视频理解. 它通过一个自适应的层次化内存压缩机制来减少冗余的视觉token, 从而在保持性能的同时显著降低了计算延迟和内存占用.

Orchestrating Multimodal DNN Workloads in Wireless Neural Processing

Sai Xu et al.

eess.SP cs.LG

本文研究了无线神经处理(WNP)中的多模态DNN工作负载编排问题. 作者提出了一个统一的通信-计算模型, 并开发了O-WiN框架及其两种调度算法RTFS和PACS, 通过模拟验证了PACS在重叠通信与计算方面的优势.

Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons

Anthony Liang et al.

cs.RO cs.AI cs.LG

本文提出了Robometer框架, 通过结合轨迹内进度监督和轨迹间偏好监督来学习通用的机器人奖励模型. 该方法在包含大量失败和次优轨迹的大规模数据集上表现优于先前方法, 并在多种下游应用中提升了机器人学习性能.

LiftAvatar: Kinematic-Space Completion for Expression-Controlled 3D Gaussian Avatar Animation

Hualiang Wei et al.

cs.CV cs.AI

本文提出了一种名为LiftAvatar的新范式，用于提升基于单目视频的3D高斯化身动画质量。该方法通过在运动学空间补全稀疏的观测信号，并利用补全后的表达序列来驱动高保真化身，从而改善下游3D重建与动画的效果。

Is Bigger Always Better? Efficiency Analysis in Resource-Constrained Small Object Detection

Kwame Mbobda-Kuate, Gabriel Kasmi

cs.CV cs.LG

本文通过系统性的效率分析, 在资源受限的地球观测任务中挑战了模型越大性能越好的假设. 研究发现, 在屋顶光伏检测任务中, 较小的模型(YOLO11N)在效率和绝对精度上均优于大型模型, 且输入分辨率是比数据集规模更关键的资源分配杠杆.

Boltzmann-based Exploration for Robust Decentralized Multi-Agent Planning

Nhat Nguyen et al.

cs.MA cs.AI

本文提出了一种用于去中心化多智能体规划的Coordinated Boltzmann MCTS方法，通过引入随机策略改进探索，在具有欺骗性的环境中表现优于现有方法。

How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks

Mohamed Amine Ferrag, Abderrahmane Lakas, Merouane Debbah

cs.NI cs.AI

本文通过系统性的实证研究，探讨了不同参数规模的紧凑语言模型在AI原生6G网络语义推理任务中的表现与部署效率。研究发现，中等规模模型（约1.5B至3B参数）在确定性稳定性和计算效率之间取得了最佳平衡。

Instrumental and Proximal Causal Inference with Gaussian Processes

Yuqi Zhang et al.

stat.ML cs.LG

本文提出了一个基于Deconditional Gaussian Process (DGP)的框架，用于在存在未观测混杂因子的情况下进行因果推断，并量化认知不确定性。该方法将流行的核估计器恢复为后验均值，同时利用后验方差提供校准良好的不确定性估计。

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Yiqi Lin et al.

cs.CV cs.AI

本文提出了一种结合指令和参考引导的视频编辑方法Kiwi-Edit, 通过一个可扩展的数据生成流程构建了大规模训练数据集RefVIE, 并设计了一个统一的编辑架构, 在可控视频编辑任务上取得了先进性能.

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

cs.CV cs.AI cs.LG

本文提出了一种结合CoAtNet架构与model soups技术的框架, 用于对湄公河三角洲非物质文化遗产图像进行分类. 该方法通过平均单个训练轨迹中的检查点来集成模型, 在ICH-17数据集上取得了优于ResNet-50等基线的性能.

Sketch2Colab: Sketch-Conditioned Multi-Human Animation via Controllable Flow Distillation

Divyanshu Daiya, Aniket Bera

cs.CV cs.AI cs.GR cs.HC cs.LG

本文提出了一种名为Sketch2Colab的方法，用于将故事板风格的2D草图转化为具有细粒度控制的多人体3D动画。该方法通过结合可学习的扩散先验、高效的整流流蒸馏以及基于连续时间马尔可夫链的事件规划器，在满足复杂交互约束的同时实现了快速推理。

From Leaderboard to Deployment: Code Quality Challenges in AV Perception Repositories

Mateus Karvat, Bram Adams, Sidney Givigi

cs.CV cs.LG cs.RO cs.SE

本文通过静态分析工具对自动驾驶感知代码库进行了大规模实证研究, 发现仅有少数代码库满足生产就绪标准. 研究强调了基准性能与部署质量之间的差距, 并提出了改善代码安全性与可维护性的指导原则.

Adaptive Confidence Regularization for Multimodal Failure Detection

Moru Liu et al.

cs.CV cs.AI cs.LG

本文提出了一种用于多模态故障检测的自适应置信度正则化框架. 该方法通过惩罚多模态预测置信度低于单模态分支的"置信度退化"现象, 并合成故障样本来提升模型可靠性.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others