bluearXiv-ai - 2026-03-11

📄 所有论文 ↑ 回顶部

cs.LG

Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting ⭐ 精选

Abhinaba Basu

cs.LG cs.AI stat.ML

本文提出了一种用于选择性预测(selective prediction)中风险控制(risk control)的跨域不确定性量化方法, 核心是Transfer-Informed Betting (TIB). 该方法通过利用源域的风险分布来“预热”基于赌注的置信序列(WSR)的财富过程, 从而在数据稀缺的目标域上获得更紧的有限样本风险边界. 作者从理论上证明了TIB财富过程在所有源-目标域差异下都是有效的上鞅(supermartingale), 并且在域匹配时严格优于标准WSR. 实验在多个基准数据集上验证了TIB与Learn Then Test (LTT)单调测试框架结合的有效性, 特别是在小校准集场景下显著提升了覆盖率保证.

On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer ⭐ 精选

Ruihan Xu, Jiajin Li, Yiping Lu

cs.LG eess.SY math.NA math.OC stat.ML

本文通过将AdamW和Muon等常用优化器解释为矩阵算子范数下的最速下降，为理解优化器在宽度增加时的稳定性提供了新的几何视角。作者引入了一族均值归一化算子范数$\|\cdot\|_{p \to q}^{\text{mean}}$，该范数具有层间可组合性，能产生宽度无关的光滑性界，并导出了如行归一化、列归一化等实用优化器。基于此提出的MOGA优化器，仅通过行/列归一化即可实现跨模型宽度的稳定学习率迁移，在大规模预训练实验中与Muon性能相当且在某些场景下更快。

Equitable Multi-Task Learning for AI-RANs

Panayiotis Raptis, Fatih Aslan, George Iosifidis

cs.LG cs.NI

本文提出了一种用于AI-RAN的在线公平多任务学习框架OWO-FMTL，通过内外双层学习循环来保证用户间的长期公平性。该框架在动态场景下的实验表现优于现有基线方法。

Hindsight Credit Assignment for Long-Horizon LLM Agents

Hui-Ze Tan et al.

cs.LG cs.AI

本文提出了一种名为HCAPO的框架, 旨在解决LLM agent在长视野任务中的信用分配问题. 该方法利用LLM自身作为事后评论家来改进step-level Q-value估计, 并在多个基准测试中展示了优于现有RL方法的性能.

Generalized Reduction to the Isotropy for Flexible Equivariant Neural Fields

Alejandro García-Castellanos et al.

cs.LG cs.AI

本文提出了一种将作用在异构乘积空间上的群不变函数约化为仅作用在其中一个分量上的各向同性子群不变函数的一般方法. 该方法通过建立明确的轨道等价关系 $(X \times M)/G \cong X/H$ 来实现, 并将其应用于扩展等变神经场(Equivariant Neural Fields)的适用范围.

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

Kaushik Roy et al.

cs.LG cs.RO

本文提出了一种名为SPREAD的几何保持框架, 用于终身模仿学习(LIL)中的知识蒸馏. 该方法利用奇异值分解(SVD)在低秩子空间中对齐策略表示, 并结合置信度引导的蒸馏策略, 在LIBERO基准测试上取得了先进性能.

Multi-level meta-reinforcement learning with skill-based curriculum

Sichen Yang, Mauro Maggioni

cs.LG cs.AI stat.ML

本文提出了一种用于具有自然多层次结构的顺序决策问题的多级元强化学习方法。该方法通过将策略族压缩为高层MDP中的动作来构建层次表示，并结合基于技能的课程学习来促进跨任务和跨层次的技能迁移。

The Temporal Markov Transition Field

Michael Leznik

cs.LG stat.ML

本文提出了Temporal Markov Transition Field (TMTF), 作为Markov Transition Field (MTF)的扩展. 该方法通过将时间序列分段并估计局部转移矩阵, 改进了非平稳过程的图像表示, 使其适用于卷积神经网络的时间序列分析任务.

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Anselm Paulus et al.

cs.LG

本文介绍了SoftJAX和SoftTorch这两个开源库，它们为JAX和PyTorch等自动微分框架提供了多种“软”松弛函数，以替代那些梯度信息为零或未定义的“硬”原语。这些库旨在使软可微分编程的工具箱更易于访问，并通过基准测试和案例研究进行了演示。

Are Expressive Encoders Necessary for Discrete Graph Generation?

Jay Revolinsky, Harry Shomer, Jiliang Tang

cs.LG cs.AI

本文提出了GenGNN, 一个用于离散图生成的模块化消息传递框架. 实验表明, 基于GenGNN的扩散模型在多个图数据集上能达到与图transformer相当的性能, 同时推理速度更快.

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models

John Cooper et al.

cs.LG

本文研究了混合序列模型(结合Transformer和state-space model)在表达能力和计算效率上的权衡. 通过理论分析和实验验证, 证明了在某些合成任务上, 混合模型能以更小的规模和内存实现非混合模型难以达到的性能.

A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

Mohammad Hossein Safarpour et al.

cs.LG cs.AI

本文提出了一种基于模糊粗糙集理论的特征选择新模型FSbuHD, 用于处理混合信息系统. 该方法通过计算对象间的组合距离来推导模糊等价关系, 并将特征选择问题转化为优化问题, 在标准数据集上验证了其有效性.

Quantifying Memorization and Privacy Risks in Genomic Language Models

Alexander Nemecek et al.

cs.LG cs.CR q-bio.GN

本文提出了一个评估基因组语言模型(GLM)记忆化风险的多向量隐私评估框架. 该框架整合了基于困惑度的检测、金丝雀序列提取和成员推理等方法, 通过植入不同重复率的金丝雀序列来量化重复和训练动态对记忆化的影响. 实验表明, GLM存在可测量的记忆化风险, 且风险程度因模型架构和训练方案而异.

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Itamar Tsayag, Ofir Lindenbaum

cs.LG cs.AI

本文提出了一种使用连续松弛的Bernoulli门来发现强彩票假设子网络的方法. 该方法通过端到端的可微分优化, 仅训练门控参数而保持权重不变, 实现了网络的高比例稀疏化.

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Vignesh Adhinarayanan, Nuwan Jayasena

cs.LG cs.AR cs.DC cs.PF

本文分析了 Mixture-of-Experts (MoE) 模型在推理阶段面临的双重性能惩罚, 并提出了一个预测性的 $qs$ 不等式准则. 该准则结合了稀疏度 $s$ 和质量等价因子 $q$, 用于判断 MoE 模型相对于性能匹配的稠密模型是否在结构上处于劣势. 评估表明, 这种由路由和内存占用导致的碎片化现象是普遍的架构问题, 影响了包括 DeepSeek-V3 在内的前沿模型在长上下文场景下的推理吞吐量.

Semantic Level of Detail: Multi-Scale Knowledge Representation via Heat Kernel Diffusion on Hyperbolic Manifolds

Edward Izgorodin

cs.LG cs.AI

本文提出了一种名为Semantic Level of Detail (SLoD)的框架，用于在知识图谱中实现连续的多尺度表示。该方法通过在双曲Poincaré球$\mathbb{B}^d$上进行热核扩散来定义“缩放”操作，从而在粗粒度与细粒度之间平滑过渡。实验表明，该方法能在无监督情况下自动检测出知识层次结构中有意义的抽象层级边界。

MAcPNN: Mutual Assisted Learning on Data Streams with Temporal Dependence

Federico Giannini, Emanuele Della Valle

cs.LG

本文提出了一种名为MAcPNN的分布式学习框架, 用于处理具有时间依赖性的IoT数据流. 该方法通过设备间的按需知识协助来减少通信开销, 并利用改进的cPNN结构来应对概念漂移.

MAPLE: Elevating Medical Reasoning from Statistical Consensus to Process-Led Alignment

Kailong Fan et al.

cs.LG

本文提出了一种新的训练范式, 将医学过程奖励模型与测试时强化学习相结合, 以提升医学大语言模型的推理能力. 该方法旨在用细粒度的专家对齐监督取代传统的多数投票机制, 从而在多个基准测试上取得了更好的性能.

The Coupling Within: Flow Matching via Distilled Normalizing Flows

David Berthelot et al.

cs.LG cs.CV

本文提出了一种名为Normalized Flow Matching (NFM)的新方法, 它利用预训练好的normalizing flow (NF)模型中的确定性耦合关系来指导训练学生flow模型. 该方法在图像生成任务上超越了使用独立耦合或optimal transport耦合训练的flow模型, 并改进了作为教师的auto-regressive NF模型.

An accurate flatness measure to estimate the generalization performance of CNN models

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti

cs.LG cs.CV cs.NE

本文为使用global average pooling和线性分类器的CNN，推导了交叉熵损失关于卷积核的Hessian迹的闭式表达式，并基于此提出了一个参数化感知的平坦度度量。该度量考虑了卷积和池化引入的缩放对称性与滤波器交互，实验表明其可作为评估CNN泛化性能的稳健工具。

When to Retrain after Drift: A Data-Only Test of Post-Drift Data Size Sufficiency

Ren Fujiwara, Yasuko Matsubara, Yasushi Sakurai

cs.LG

本文提出了一种名为CALIPER的数据驱动测试方法, 用于在概念漂移发生后判断用于重新训练模型的后续数据量是否足够. 该方法不依赖于特定的检测器或模型, 通过分析数据流中的状态依赖性来进行估计.

Two Teachers Better Than One: Hardware-Physics Co-Guided Distributed Scientific Machine Learning

Yuchen Yuan et al.

cs.LG cs.AR cs.CE cs.DC

本文提出了一种名为EPIC的分布式科学机器学习框架, 该框架结合硬件约束与物理原理指导, 旨在解决在资源受限的边缘设备上进行实时科学计算的问题. 以全波形反演(FWI)为代表任务, 该方法通过在终端进行轻量编码并在中心节点进行物理感知解码, 显著降低了通信开销并保持了物理保真度.

SCALAR: Learning and Composing Skills through LLM Guided Symbolic Planning and Deep RL Grounding

Renos Zabounidis et al.

cs.LG

本文提出了一种结合LLM符号规划与深度强化学习(RL)的技能学习框架SCALAR. 该框架通过LLM提出技能及其前提与效果, 并利用RL训练技能策略, 同时将执行结果反馈给LLM以迭代修正技能描述, 从而提升了在复杂环境中的任务完成率.

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Hongyu Cao et al.

cs.LG cs.AI

本文提出了一个名为Sim2Act的鲁棒仿真决策框架，旨在解决仿真器预测误差导致的策略不稳定问题。该框架通过对抗性校准和组相对扰动机制来提升仿真鲁棒性和决策性能。

Dynamic Multi-period Experts for Online Time Series Forecasting

Seungha Hong et al.

cs.LG

本文提出了一种用于在线时间序列预测的新框架DynaME, 它将概念漂移重新定义为Recurring Drift和Emergent Drift两种类型. 该框架通过动态组合专门的历史模式专家和一个稳定的通用专家, 来分别应对这两种漂移, 并在多个基准数据集上取得了优于现有方法的效果.

Learning Adaptive LLM Decoding

Chloe H. Su et al.

cs.LG

本文提出了一种学习自适应解码策略的方法, 用于动态选择大型语言模型(LLM)在推理时的采样策略. 该方法通过训练轻量级的解码适配器, 在序列级别和令牌级别进行自适应决策, 以在固定计算预算下提升数学和代码任务的准确性.

Exclusive Self Attention

Shuangfei Zhai

cs.LG cs.CL

本文提出了一种改进的自注意力机制, 称为 exclusive self attention (XSA). 其核心思想是通过约束注意力机制, 使其仅捕获与 token 自身值向量正交的信息, 从而鼓励模型更好地建模上下文. 在标准语言建模任务上的评估表明, XSA 在不同模型规模下均优于标准的自注意力机制.

PPO-Based Hybrid Optimization for RIS-Assisted Semantic Vehicular Edge Computing

Wei Feng et al.

cs.LG cs.NI

本文提出了一种结合Reconfigurable Intelligent Surface (RIS)与语义通信的车辆边缘计算框架, 旨在降低动态车联网环境中的端到端延迟. 作者将卸载比例、语义符号数量和RIS相位偏移的联合优化问题建模为一个高维非凸问题, 并设计了一种两阶段混合优化方案, 其中使用Proximal Policy Optimization (PPO)处理离散决策, 使用Linear Programming (LP)优化卸载比例. 仿真表明该方案相比传统优化方法能显著降低延迟.

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Alvaro Paredes Amorin, Andre Python, Christoph Weisser

cs.LG cs.AI

本文通过微调大语言模型从新闻标题中提取情感信号, 并将其与传统市场数据结合, 用于预测铝价. 研究发现, 在高波动时期, 融入情感数据的LSTM模型在夏普比率等指标上显著优于仅使用传统数据的基准模型.

Overcoming Valid Action Suppression in Unmasked Policy Gradient Algorithms

Renos Zabounidis et al.

cs.LG

本文分析了在强化学习中处理无效动作时, 使用masking方法相对于penalty方法的优势. 研究揭示了一种在未使用masking的训练中出现的特定失效模式, 即对未访问状态中有效动作的系统性抑制, 并从理论上分析了softmax策略下这种抑制的指数衰减特性.

Probabilistic Hysteresis Factor Prediction for Electric Vehicle Batteries with Graphite Anodes Containing Silicon

Runyao Yu et al.

cs.LG eess.SP

本文提出了一种用于预测含硅石墨负极电动汽车电池概率性电压滞回因子的数据驱动方法. 该方法通过数据协调框架处理异构工况, 并评估了统计学习和深度学习模型在预测不确定性及计算效率方面的性能.

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Zhengzhao Ma et al.

cs.LG

本文针对强化学习中的校准退化问题, 提出了一种将推理与置信度目标解耦的框架 DCPO. 该方法在保持推理准确性的同时, 显著改善了模型的校准性能.

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Zhen Zhang, Jielei Chu, Tianrui Li

cs.LG cs.AI

本文提出了一种基于概率必要性充分性(PNS)的正则化方法,用于指导类别增量学习(CIL)中的特征扩展. 该方法旨在通过因果视角减少任务内和任务间的伪相关, 从而缓解特征碰撞问题.

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Siyang Cai et al.

cs.LG cs.AI cs.AR

本文提出了一种利用不完美的LLM生成RTL代码进行netlist表示学习的数据增强框架. 该方法通过合成网表的结构模式进行训练, 并在电路功能理解任务上验证了其向真实网表的泛化能力.

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Jie Li, Qishun Yang, Nuo Li

cs.LG cs.AI

本文提出了一种融合地质先验知识与Transformer注意力机制的新模型GIAT, 用于测井岩性识别. 该方法通过地质信息引导的注意力偏置机制, 提升了模型的性能与可解释性.

Better Bounds for the Distributed Experts Problem

David P. Woodruff, Samson Zhou

cs.LG cs.DS stat.ML

本文研究了分布式专家问题, 提出了一种新的通信协议. 该协议在 regret 和通信开销上改进了先前的工作.

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Lina Berrayana et al.

cs.LG cs.AI

本文提出了一种名为Latent-DARM的潜在空间通信框架，旨在弥合离散扩散语言模型(DDLM)与自回归语言模型(ARM)之间的鸿沟。该框架让DDLM作为规划器，ARM作为执行器进行协作，在多个推理基准测试上取得了优于纯文本接口的性能，并显著降低了计算开销。

$P^2$GNN: Two Prototype Sets to boost GNN Performance

Arihant Jain et al.

cs.LG

本文提出了一种名为$P^2$GNN的即插即用技术, 通过引入原型(prototype)来优化消息传递过程, 以提升基础GNN模型的性能. 该方法将原型视为所有节点的全局邻居以丰富上下文信息, 并通过对齐消息到聚类原型来降噪, 在多个数据集上的实验显示了其有效性.

The Radio-Frequency Transformer for Signal Separation

Egor Lifar et al.

cs.LG

本文提出了一种基于transformer架构的数据驱动信号分离方法, 用于从非高斯背景干扰中估计目标信号. 该方法通过改进的SoundStream tokenizer和交叉熵损失训练, 在MIT RF Challenge数据集上取得了优于传统MSE方法的性能, 并展示了零样本泛化能力.

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Jake Gonzales et al.

cs.LG cs.GT cs.MA

本文提出了一种用于计算Risk-Sensitive Quantal Response Equilibrium (RQRE)的算法`RQRE-OVI`, 该算法在具有线性函数近似的多智能体强化学习中具有可证明的样本效率. 文章通过理论分析和实验验证了该方法在鲁棒性方面的优势.

Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Peihao Wang et al.

cs.LG

本文提出了一种名为Test-Time Control (TTC) layer的新方法，将推理过程建模为最优控制问题，并在推理时执行有限时域的LQR规划。该方法通过一个硬件高效的求解器实现，并作为适配器集成到预训练大语言模型中，在多个数学推理基准上取得了显著的性能提升。

Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training

Rian Atri

cs.LG

本文提出了一种在固定推理计算成本下提升Transformer模型推理效率的方法. 通过引入长度感知的注意力先验(RPA)和增益感知的训练控制器(Guardian), 在不增加推理参数和延迟的情况下, 降低了验证集上的交叉熵.

Transductive Generalization via Optimal Transport and Its Application to Graph Node Classification

MoonJeong Park et al.

cs.LG stat.ML

本文在分布无关的 transductive 设置下，基于 optimal transport 和 Wasserstein 距离，提出了新的 representation-based 泛化界。该界限可高效计算，并在图节点分类任务中与经验泛化行为强相关，改进了经典的复杂度度量。

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Jann Krausse et al.

cs.LG cs.AI cs.AR cs.ET cs.NE

本文提出了一种名为DendroNN的新型神经网络架构，用于处理事件驱动的时空数据。它模仿了生物神经元树突的序列检测机制，并通过无梯度的“重连”阶段进行训练，旨在实现低功耗的硬件部署。

Proxy-Guided Measurement Calibration

Saketh Vishnubhatla et al.

cs.LG

本文提出了一种利用代理变量(proxy variables)引导的测量校准框架, 用于校正聚合结果变量中的系统性测量误差. 该方法通过因果图建模数据生成过程, 并使用变分自编码器(VAE)分离内容与偏差潜在变量, 从而估计并校正偏差.

A Gaussian Comparison Theorem for Training Dynamics in Machine Learning

Ashkan Panahi

cs.LG math.PR stat.ML

本文研究了数据服从 Gaussian mixture model 的训练算法, 利用 Gordon comparison theorem 将模型演化与一个更易分析的替代动力系统联系起来. 该理论为分析感知机模型的训练提供了非渐近视角, 揭示了 dynamic mean-field 表达式之外的涨落参数.

Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning

Heng Zhang et al.

cs.LG

本文提出了一种名为Reward-Zero的通用隐式奖励机制，它利用语言嵌入为强化学习提供密集的语义进度信号。该方法通过比较任务描述与智能体交互经验的嵌入来生成奖励，从而加速训练并提升泛化能力。

TA-GGAD: Testing-time Adaptive Graph Model for Generalist Graph Anomaly Detection

Xiong Zhang et al.

cs.LG cs.AI

本文提出了一种用于通用图异常检测(GGAD)的测试时自适应图模型TA-GGAD。该模型通过建模异常非同类性(Anomaly Disassortativity)问题，实现了跨域泛化，在多个真实图数据集上取得了先进的检测性能。

Interactive 3D visualization of surface roughness predictions in additive manufacturing: A data-driven framework

Engin Deniz Erkan, Elif Surer, Ulas Yaman

cs.LG

本文提出了一个用于预测Material Extrusion Additive Manufacturing中表面粗糙度的数据驱动框架。该框架结合了多层感知机回归器和条件生成对抗网络来提升预测精度，并开发了一个基于Web的交互式可视化工具，用于辅助工艺规划。

Democratising Clinical AI through Dataset Condensation for Classical Clinical Models

Anshul Thakur et al.

cs.LG cs.AI cs.CR

本文提出了一种基于零阶优化的差分隐私数据集压缩方法, 旨在将数据集压缩技术扩展到非可微分的经典临床预测模型(如决策树, Cox回归). 该方法通过仅使用函数评估来生成合成数据集, 在多个临床数据集上的实验表明, 其能在提供有效隐私保护的同时, 保持下游模型的预测性能.

From Representation to Clusters: A Contrastive Learning Approach for Attributed Hypergraph Clustering

Li Ni et al.

cs.LG

本文提出了一种用于属性超图聚类的端到端对比学习方法, 通过联合优化表示学习和聚类分配学习, 避免了传统两阶段方法中可能引入无关聚类信息的问题. 实验表明该方法在多个数据集上优于基线模型.

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Swaminathan S K, Aritra Hazra

cs.LG cs.AI cs.RO

本文提出了一个名为SPAARS的课程学习框架, 用于离线到在线强化学习(RL)的安全策略对齐. 它通过先在低维latent空间进行安全探索, 再切换到原始动作空间进行利用, 以规避decoder瓶颈并提升性能. 实验表明该方法在多个基准任务上超越了现有基线.

Reconstructing Movement from Sparse Samples: Enhanced Spatio-Temporal Matching Strategies for Low-Frequency Data

Ali Yousefian, Arianna Burzacchi, Simone Vantini

cs.LG

本文针对Spatial-Temporal Matching算法在计算效率和匹配精度上的不足，提出了四项改进措施，包括动态缓冲区、自适应观测概率等。通过在米兰城区的真实GPS数据上进行评估，新方法在多个指标上均表现出性能提升。

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

Tatjana Krau et al.

cs.LG

本文探讨了 Markov Decision Process (MDP) 的设计选择对强化学习从仿真迁移到实际应用的影响。通过一个颜色混合任务，作者评估了不同 MDP 配置和动态模型在仿真与现实实验中的表现，并提供了工业过程控制中部署 RL 的实用设计指南。

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation

Rong J.B. Zhu

cs.LG

本文提出了一种用于off-policy evaluation的非参数加权方法，旨在降低传统逆概率加权方法的高方差问题。该方法通过结合奖励预测进一步提升了估计的准确性。

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

Albus Yizhuo Li, Matthew Wicker

cs.LG cs.AI stat.ML

本文提出了一种用于Mixture-of-Experts (MoE) Transformer的可扩展贝叶斯框架VMoER，旨在实现大规模基础模型的不确定性校准。该方法通过在专家选择阶段引入变分推断，以极小的计算开销显著提升了模型的校准性能和鲁棒性。

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

David Baumgartner et al.

cs.LG cs.AI

本文提出了一种基于时间条件归一化流(tcNF)的多变量时间序列异常检测方法. 该方法通过将归一化流模型的条件建立在历史观测上, 以捕捉时间依赖关系并估计未来观测的概率分布, 从而识别低概率的异常事件.

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

Luxi Lin et al.

cs.LG cs.AI

本文提出了一个名为EDA的参数与数据高效框架, 用于在speculative decoding场景中对draft model进行适配. 该方法通过解耦架构, 数据再生和样本选择机制, 以较低成本恢复微调后target model的推理加速性能.

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Cosmo Santoni

cs.LG cs.AI cs.DC cs.PF

本文提出了一种基于XLA编译器的通用实现方法, 用于Mamba-2等state-space models的推理. 该方法无需定制CUDA内核, 即可在CPU, GPU和TPU等多种硬件上实现高效的$O(1)$状态缓存自回归解码.

Learning Bayesian and Markov Networks with an Unreliable Oracle

Juha Harviainen, Pekka Parviainen, Vidya Sagar Sharma

cs.LG

本文研究了在存在有界错误的条件独立性测试下, 学习 Bayesian networks 和 Markov networks 结构的问题. 对于 Bayesian networks, 即使图参数有界, 任何错误都会阻碍结构的唯一识别; 而对于 Markov networks, 在顶点间不相交路径数较少的条件下, 结构是唯一可识别的.

An Optimal Control Approach To Transformer Training

Kağan Akman, Naci Saldı, Serdar Yüksel

cs.LG math.OC

本文采用最优控制理论对Transformer训练进行建模, 将其视为具有共享动作的离散时间受控粒子系统, 并证明了在温和紧性假设下全局最优策略的存在性. 通过三重量化方法, 为原始训练问题提供了近似最优策略, 并分析了模型的稳定性与经验一致性.

Routing without Forgetting

Alessio Masano et al.

cs.LG cs.AI

本文提出了一种基于能量函数和联想检索的transformer架构, 用于解决在线持续学习中的动态路由问题. 该方法在多个增量学习基准上取得了优于现有提示方法的性能.

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

Zhiwei Bai et al.

cs.LG

本文研究了Adam优化算法在高度退化多项式上的收敛行为. 通过理论分析和实验验证, 作者刻画了Adam在此类函数上的自动收敛特性及其超参数相图.

Nonparametric Variational Differential Privacy via Embedding Parameter Clipping

Dina El Zein, Shashi Kumar, James Henderson

cs.LG

本文提出了一种通过嵌入参数裁剪来改进非参数变分差分隐私(NVDP)的方法. 该方法从最小化Rényi Divergence上界的目标出发, 对后验分布的参数施加了理论驱动的约束, 从而在提升下游任务性能的同时获得了更紧的隐私上界.

Memorization capacity of deep ReLU neural networks characterized by width and depth

Xin Yang, Yunfei Yang

cs.LG math.NA

本文研究了具有ReLU激活的深度神经网络的记忆容量。作者通过构造满足 $W^2L^2= \mathcal{O}(N\log(\delta^{-1}))$ 的网络，证明了其能够记忆任意 $N$ 个数据点，并给出了匹配的下界，从而刻画了宽度与深度之间的权衡关系。

MM-algorithms for traditional and convex NMF with Tweedie and Negative Binomial cost functions and empirical evaluation

Elisabeth Sommer James, Asger Hobolth, Marta Pelizzola

cs.LG stat.ME stat.ML

本文针对传统和凸NMF，在包括Negative Binomial和Tweedie模型在内的更广泛分布假设下，提出了一个统一的Majorize-Minimisation算法框架，并推导了相应的乘法更新规则。通过实证评估，文章表明噪声模型的选择对模型拟合和特征恢复至关重要，并提供了相关算法的R包实现。

Learning the Hierarchical Organization in Brain Network for Brain Disorder Diagnosis

Jingfeng Tang et al.

cs.LG

本文提出了一种名为BrainHO的方法, 用于从fMRI数据中学习大脑功能网络的层次化组织结构, 以辅助脑部疾病诊断. 该方法通过层次化注意力机制和约束策略, 在公开数据集上取得了先进的分类性能并识别了潜在的生物标志物.

Well Log-Guided Synthesis of Subsurface Images from Sparse Petrography Data Using cGANs

Ali Sadeghkhani et al.

cs.LG physics.geo-ph

本文提出了一种基于条件生成对抗网络(cGAN)的框架, 用于根据测井孔隙度数据合成碳酸盐岩薄片图像. 该方法在有限的岩相学数据上训练, 能够生成地质学上合理的孔隙尺度图像, 为储层表征提供了连续的视觉化工具.

FreqCycle: A Multi-Scale Time-Frequency Analysis Method for Time Series Forecasting

Boya Zhang et al.

cs.LG

本文提出了一种名为FreqCycle的多尺度时频分析方法, 用于时间序列预测. 该方法通过结合时域周期模式学习和频域可学习滤波器来增强对中高频特征的提取, 并在多个基准测试中实现了性能与效率的平衡.

No evaluation without fair representation : Impact of label and selection bias on the evaluation, performance and mitigation of classification models

Magali Legast, Toon Calders, François Fouss

cs.LG

本文通过一个偏置与评估框架, 实证分析了标签偏置和多种选择偏置对分类模型评估、性能及偏置缓解方法有效性的影响. 研究发现, 在无偏测试集上评估时, 公平性与准确性之间不存在权衡, 且偏置缓解方法的效果受数据中偏置类型的影响.

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Federico Bello et al.

cs.LG cs.AI

本文提出了一个用于时间序列异常检测的开源框架, 并对基于GNN的方法进行了评估. 该框架支持可复现的实验, 并提供了对模型性能和可解释性的深入分析.

On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning

Muhammad Ahmad, Jingjing Zheng, Yankai Cao

cs.LG

本文研究了基于低秩分解的参数高效微调(PEFT)方法在序列学习中的灾难性遗忘问题. 研究发现, 更新子空间的几何结构与参数化方式对遗忘有显著影响.

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Davit Melikidze et al.

cs.LG cs.AI cs.CL

本文提出了一种名为ActiveUltraFeedback的模块化主动学习流程, 旨在高效生成用于大语言模型对齐的偏好数据. 该方法通过不确定性估计动态选择信息量最大的响应进行标注, 实验表明其能以远少于静态基线数据量达到相当或更优的下游性能.

Physics-informed neural operator for predictive parametric phase-field modelling

Nanxi Chen, Airong Chen, Rujin Ma

cs.LG cond-mat.mtrl-sci physics.comp-ph

本文提出了一种用于参数化相场建模的物理信息神经算子框架 PF-PINO. 该框架通过将相场控制方程的残差嵌入损失函数来施加物理约束, 在多个基准问题上验证了其在精度和长期稳定性上优于传统 Fourier 神经算子.

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Yechen Zhang et al.

cs.LG cs.AI cs.CL

本文提出了一种名为Mousse的新优化器, 它通过结合Kronecker-factored preconditioning来改进Muon优化器. Mousse旨在解决Muon在非各向同性优化地形中可能存在的稳定性问题, 并在多个语言模型上展示了更快的训练收敛速度.

A Multi-Prototype-Guided Federated Knowledge Distillation Approach in AI-RAN Enabled Multi-Access Edge Computing System

Luyao Zou et al.

cs.LG

本文提出了一种用于AI-RAN使能的多接入边缘计算系统的多原型引导联邦知识蒸馏方法。该方法通过集成自知识蒸馏和采用多原型策略来处理非独立同分布数据，并设计了新的损失函数。实验表明，该方法在多个数据集上优于现有基线。

Upper Generalization Bounds for Neural Oscillators

Zifeng Huang et al.

cs.LG math.DS stat.ML

本文为 neural oscillator 模型推导了 PAC generalization bound, 证明了其估计误差随网络规模和时间长度呈多项式增长, 避免了参数复杂性的诅咒. 数值实验验证了理论预测的误差幂律以及通过约束 MLP 的 Lipschitz 常数来提升泛化能力的有效性.

A Hybrid Quantum-Classical Framework for Financial Volatility Forecasting Based on Quantum Circuit Born Machines

Yixiong Chen

cs.LG cs.AI quant-ph

本文提出了一种结合LSTM与Quantum Circuit Born Machine的混合量子-经典计算框架, 用于金融波动率预测. 在沪深指数的高频数据上, 该模型在MSE等指标上优于纯经典基线, 展示了量子计算在金融预测中的潜力.

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

Jialei Tan et al.

cs.LG cs.AI

本文提出了一种用于split learning的自适应通道剪枝方案ACP-SL. 该方法通过设计一个标签感知的通道重要性评分模块来识别并剪枝不重要的通道, 从而压缩传输数据并降低通信开销. 实验表明该方案在测试精度和通信效率上优于基准方法.

Information Theoretic Bayesian Optimization over the Probability Simplex

Federico Pavesi, Antonio Candelieri, Noémie Jaquier

cs.LG

本文提出了一种在概率单纯形上进行贝叶斯优化的新方法 $\alpha$-GaBO, 该方法基于信息几何理论构建了反映该空间几何结构的 Matérn kernel, 并在多个基准测试和实际应用中验证了其优于传统欧几里得约束方法的性能.

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

Tiehua Mei et al.

cs.LG

本文提出了一种名为In-Context RLVR的新方法，用于提升大型语言模型的推理质量。该方法利用模型自身的in-context learning能力来评估推理过程的质量，并在强化学习训练中隐式地给予高质量推理路径更高的权重，从而在数学基准测试上取得了更好的准确性和推理质量。

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

Vitaly Bulgakov

cs.LG cs.AI

本文提出了一种称为pseudo-projector的轻量级修正方法，可集成到现有语言模型中而不改变其核心架构。该方法受multigrid范式启发，旨在通过抑制与标签无关的输入内容所诱导的方向来提升模型的鲁棒性。

A Unified Hierarchical Multi-Task Multi-Fidelity Framework for Data-Efficient Surrogate Modeling in Manufacturing

Manan Mehta et al.

cs.LG stat.ME stat.ML

本文提出了一种用于制造过程代理建模的分层多任务多保真度框架, 通过分层贝叶斯公式联合学习任务间的共享信息与不同保真度数据的不确定性, 在合成和真实案例中提升了预测精度.

A Graph-Based Approach to Spectrum Demand Prediction Using Hierarchical Attention Networks

Mohamad Alkadamani, Halim Yanikomeroglu, Amir Ghasemi

cs.LG cs.AI cs.NI eess.SY

本文提出了一种基于 hierarchical resolution graph attention network (HR-GAT) 的图学习方法, 用于利用地理空间数据预测频谱需求. 该方法旨在处理复杂的空间需求模式并解决空间自相关问题, 在多个城市的测试中相比基线模型取得了更高的预测精度.

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

Kai Yao et al.

cs.LG

本文提出了一种名为GAST的参数高效微调方法, 该方法通过梯度对齐策略, 在数据和模型层两个维度上同时进行稀疏选择, 以更全面地减少信息冗余并提升微调效率. 实验表明该方法优于现有基线.

CarbonBench: A Global Benchmark for Upscaling of Carbon Fluxes Using Zero-Shot Learning

Aleksei Rozanov et al.

cs.LG physics.ao-ph

本文提出了一个名为CarbonBench的基准测试, 用于评估碳通量升尺度任务中的零样本空间迁移学习性能. 该基准整合了全球多个通量塔站点的观测数据, 并提供了标准化的评估协议和特征集, 旨在促进机器学习方法在地球系统科学中的应用和比较.

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Yiyang Lu et al.

cs.LG cs.AI cs.CL

本文提出了一种用于持续微调大语言模型的自适应回放框架MSSR, 该框架通过估计样本级别的记忆强度并自适应地安排回放间隔来缓解灾难性遗忘. 实验表明, 该方法在多个模型和任务上优于现有的回放基线.

OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality

Ganzhao Yuan

cs.LG math.NA math.OC

本文提出了OptEMA, 一种自适应指数移动平均方法, 用于随机优化. 它在标准SGD假设下, 实现了噪声自适应的收敛速率.

Generative Drifting is Secretly Score Matching: a Spectral and Variational Perspective

Erkan Turan, Maks Ovsjanikov

cs.LG

本文揭示了在 Gaussian kernel 下，drift operator 等价于 smoothed distributions 上的 score difference，从而将 drifting 方法置于 score-matching 的理论框架中。作者通过 Fourier 分析和变分视角，分析了不同 kernel 的收敛特性，并提出了改进训练稳定性和效率的方案。

SignalMC-MED: A Multimodal Benchmark for Evaluating Biosignal Foundation Models on Single-Lead ECG and PPG

Fredrik K. Gustafsson et al.

cs.LG

本文提出了一个用于评估生物信号基础模型在单导联心电图和光电容积脉搏波信号上性能的多模态基准数据集 SignalMC-MED. 该研究通过系统评估发现, 特定领域的生物信号模型通常优于通用时间序列模型, 且多模态融合能带来性能提升.

When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic

Alberto Fernández-Hernández et al.

cs.LG cs.AI

本文通过分析PPO算法中actor-critic网络隐藏神经元的激活模式，提出了一种基于Overfitting-Underfitting Indicator (OUI)的早期筛选方法，用于在训练初期识别学习率是否合适。该方法能有效区分不同学习率下的训练表现，并与其他早期筛选标准相比展现出优势。

Towards a Neural Debugger for Python

Maximilian Beck et al.

cs.LG cs.AI cs.SE

本文提出了一种称为"神经调试器"的模型，它通过训练语言模型来模拟传统调试器的交互式操作。该模型能够根据调试指令进行正向和逆向的程序执行预测，为构建更强大的代码生成与理解系统奠定了基础。

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Lucas Prieto et al.

cs.LG cs.AI cs.CV

本文通过引入Bag-of-Words Superposition (BOWS)这一受控环境，研究了在特征相关（而非理想稀疏独立）的数据下，神经网络中的superposition现象。研究发现，特征间的相关性可以导致干扰变得具有建设性，并自然形成语义簇和循环结构，这修正了以往基于稀疏独立特征的几何理解。

Task Aware Modulation Using Representation Learning for Upsaling of Terrestrial Carbon Fluxes

Aleksei Rozanov, Arvind Renganathan, Vipin Kumar

cs.LG physics.ao-ph

本文提出了一种结合表示学习与物理约束的框架 TAM-RL，用于提升陆地碳通量升尺度估算的准确性和泛化能力。该方法在多个通量塔站点上取得了优于现有数据集的预测性能。

cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Cornelius Emde et al.

cs.AI cs.CL cs.LG

本文提出了一个名为MASEval的框架无关库, 用于评估基于LLM的多智能体系统, 而非仅仅评估模型. 通过系统级的比较实验, 作者发现框架选择与模型选择对性能的影响同等重要.

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Sunil Prakash

cs.AI cs.MA cs.SE

本文提出了一种用于多智能体LLM系统的新型通信协议LDP, 它通过引入身份卡片、渐进式负载、受管会话等机制来改进委托效率与可治理性。初步实验表明该协议在延迟和令牌开销方面有优势。

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Kyle McCleary, James Ghawaly

cs.AI

本文通过一个模型无关的评估框架，研究了在固定预算约束下，搜索深度、检索策略和生成预算对智能体检索增强生成系统精度和成本的影响。实验发现，精度随搜索次数增加而提升但存在上限，混合检索结合轻量级重排效果最佳。

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

Joshua Castillo, Ravi Mukkamala

cs.AI cs.IR cs.LG

本文提出了一个名为Guardian的端到端决策支持系统, 用于失踪儿童调查和早期搜寻规划. 该系统整合了Markov chain, reinforcement learning和LLM, 将非结构化数据转化为可操作的概率搜索计划.

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem

Rui Liu et al.

cs.AI

本文提出了一种名为AgentOS的新型个人智能体操作系统范式, 旨在用统一的自然语言界面取代传统的GUI/CLI, 其核心是一个能够解析用户意图、分解任务并协调多个智能体的Agent Kernel. 作者认为实现AgentOS本质上是一个知识发现与数据挖掘问题, 并为此定义了一系列新的研究挑战.

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Joshua Castillo, Ravi Mukkamala

cs.AI cs.CL cs.DC cs.IR cs.LG

本文提出了一个基于多LLM共识的管道系统, 用于失踪人员调查中的信息提取与处理. 该系统通过协调多个任务专用模型并引入共识引擎来解决分歧, 并利用QLoRA微调来增强性能.

The FABRIC Strategy for Verifying Neural Feedback Systems

I. Samuel Akinwande et al.

cs.AI eess.SY

本文提出了一种名为FaBRIC的新算法, 用于验证由神经网络控制的动力系统(neural feedback systems). 该算法整合了前向可达性分析(forward reachability analysis)与新提出的后向可达性分析(backward reachability analysis)技术, 以计算可达集的过近似与欠近似. 在基准测试中, 该方法的性能显著优于现有技术.

Meissa: Multi-modal Medical Agentic Intelligence

Yixiong Chen et al.

cs.AI

本文提出了一个轻量级的医学多模态智能体Meissa, 它通过从大型前沿模型中蒸馏结构化的交互轨迹, 学习何时以及如何调用外部工具进行多步推理. 该方法在多个医学基准测试中取得了与前沿模型相当的性能, 同时实现了完全离线部署, 显著降低了延迟和成本.

MEMO: Memory-Augmented Model Context Optimization for Robust Multi-Turn Multi-Agent LLM Games

Yunfei Xie et al.

cs.AI

本文提出了一个名为MEMO的框架, 用于优化多轮多智能体大语言模型游戏中的推理时上下文. 它通过结合记忆保留与探索机制来提升性能的稳定性和鲁棒性.

Time, Identity and Consciousness in Language Model Agents

Elija Perrier, Michael Timothy Bennett

cs.AI

本文探讨了语言模型智能体中的时间、身份与意识问题, 提出了一种基于Stack Theory中temporal gap概念的分析框架. 该方法通过分离评估窗口内的成分出现与单一客观步骤中的共现, 构建了可计算的persistence scores, 并将其与操作性的身份度量相关联, 形成了一个用于身份评估的保守工具包.

EPOCH: An Agentic Protocol for Multi-Round System Optimization

Zhanlin Liu, Yitao Li, Munirathnam Srikanth

cs.AI

本文提出了一种名为EPOCH的工程协议，用于异构环境中的多轮系统优化。该协议将优化过程组织为基线构建和迭代自我改进两个阶段，并通过标准化的角色和命令接口来协调提示、代码等组件的优化。

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Seunghwan Kim et al.

cs.AI cs.CL cs.LG

本文介绍了一个名为 Sentinel 的自主 AI agent，它利用 Model Context Protocol (MCP) 和多种临床工具，对远程患者监测 (RPM) 的生命体征数据进行分诊。该 agent 在多项评估中表现优于基于规则的阈值和个体临床医生，展示了其在临床环境中进行可靠、低成本分诊的潜力。

Chaotic Dynamics in Multi-LLM Deliberation

Hajime Shimao, Warut Khern-am-nuai, Sung Joo Kim

cs.AI cs.MA

本文研究了多LLM审议系统中的混沌动力学。通过将五人LLM委员会建模为随机动力系统，并计算经验Lyapunov指数来量化系统的不稳定性。研究发现，即使在确定性预期较高的$T=0$条件下，角色分化和模型异质性也会导致轨迹发散。

Deep Tabular Research via Continual Experience-Driven Execution

Junnan Dong et al.

cs.AI

本文针对大型语言模型在处理具有复杂结构的非规范表格时遇到的困难, 提出了一个将表格推理建模为闭环决策过程的智能体框架. 该框架通过构建分层元图来捕获语义, 并引入结合历史执行经验的记忆机制来持续优化决策路径.

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Tong Wang et al.

cs.AI cs.DB cs.IR

本文提出了一个名为DataFactory的多智能体框架, 用于解决TableQA任务中LLM面临的上下文长度限制, 幻觉和复杂推理等问题. 该框架通过专门的团队协调和自动知识转换, 在多个基准数据集上取得了优于基线方法的性能提升.

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

Tavishi Sharma, Vinayak Sharma, Pragya Sharma

cs.AI

本文提出了一个名为TrustBench的双模式框架, 用于在自主智能体执行动作前进行实时信任验证. 该框架通过领域特定插件和低延迟设计, 旨在减少有害动作的发生.

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

Renwei Meng

cs.AI

本文提出了一种可解释的创新引擎, 将知识单元从文本块升级为"方法即节点". 该系统通过维护可追溯的加权方法来源树和用于高效导航的层次聚类抽象树, 结合策略代理选择显式合成算子并记录可审计轨迹, 实现了对多步合成的控制. 实验表明其在多个领域和骨干模型上优于基线, 特别是在推导密集型任务中.

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Subramanyam Sahoo et al.

cs.AI cs.CL cs.CY cs.LG

本文探讨了提升大语言模型逻辑推理能力可能意外促使其发展出情境感知这一潜在危险能力。作者提出了一个理论框架，分析了从演绎、归纳到溯因的推理进步如何系统地增强模型对自身及环境的认知，并指出了当前安全措施的不足。

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Jiangming Shu et al.

cs.AI

本文提出了一种名为EvalAct的方法, 将检索质量评估转化为显式动作, 并引入Process-Calibrated Advantage Rescaling (PCAR)优化方法, 以利用过程信号改进检索增强智能体在多步推理中的可靠性. 在多个开放域QA基准测试上的实验表明该方法有效, 尤其是在多跳任务上提升显著.

Abundant Intelligence and Deficient Demand: A Macro-Financial Stress Test of Rapid AI Adoption

Xupeng Chen

cs.AI

本文通过构建一个宏观金融压力测试模型, 分析了快速AI采纳可能引发的经济失衡. 模型指出, 在现有经济制度下, AI带来的生产力丰裕可能与总需求不足并存, 并具体通过替代螺旋, 幽灵GDP和中介崩溃三个机制阐述了这一传导路径.

PrivPRISM: Automatically Detecting Discrepancies Between Google Play Data Safety Declarations and Developer Privacy Policies

Bhanuka Silva et al.

cs.AI

本文提出了一个名为PrivPRISM的自动化框架, 用于检测Google Play商店中应用的数据安全声明与其完整隐私政策之间的不一致性. 该框架结合了encoder和decoder语言模型来提取和比较细粒度的数据实践, 并在大规模评估中揭示了高比例的不合规现象.

Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

Ding Linghu et al.

cs.AI

本文提出了一个基于Bloom's Taxonomy的领域特定微调数据生成框架(BD-FDG), 用于将大语言模型(LLMs)适配到空间态势感知(SSA)等复杂工程领域. 该框架通过结构化知识组织、认知分层问题建模和自动化质量控制来构建高质量微调数据集, 实验表明基于该数据微调的模型在领域任务上表现显著提升.

Social-R1: Towards Human-like Social Reasoning in LLMs

Jincenzi Wu et al.

cs.AI

本文提出了一个用于提升大语言模型社会推理能力的强化学习框架 Social-R1 及其配套的对抗性基准 ToMBench-Hard. 该方法通过监督整个推理过程, 使一个 4B 参数的模型在多个社会推理基准上超越了更大的模型.

Logos: An evolvable reasoning engine for rational molecular design

Haibin Wen et al.

cs.AI

本文提出了Logos, 一个将多步逻辑推理与严格化学一致性相结合的分子推理模型. 它通过分阶段训练策略, 在多个基准数据集上实现了结构准确性与化学有效性的良好平衡, 并提供了可解释的中间推理步骤.

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

Yuyang Dai

cs.AI

本文研究了LLM在输出数值化置信度时, 其标度设计(如0-100)对元认知评估的影响. 通过系统性地改变标度的粒度, 边界和规律性, 发现0-20的标度比标准的0-100标度能更有效地提升元认知效率.

Curveball Steering: The Right Direction To Steer Isn't Always Linear

Shivam Raval et al.

cs.AI

本文质疑了在大型语言模型(LLM)行为控制中广泛使用的线性表征假设。通过分析激活空间的内在几何结构，作者发现存在显著的、概念依赖的几何扭曲，表明全局线性几何近似并不理想。因此，他们提出了一种基于多项式核PCA的非线性干预方法"Curveball steering"，该方法在特征空间中操作，更好地尊重了学习到的激活几何，并在几何扭曲较强的场景下表现优于线性方法。

Robust Regularized Policy Iteration under Transition Uncertainty

Hongqiang Lin et al.

cs.AI stat.ML

本文提出了一种名为Robust Regularized Policy Iteration (RRPI)的离线强化学习方法，用于处理分布偏移和转移不确定性。该方法将问题表述为鲁棒策略优化，并引入一个可处理的KL正则化替代目标，通过一个鲁棒正则化的Bellman算子进行高效策略迭代。实验表明，RRPI在D4RL基准测试中取得了有竞争力的性能。

AI Act Evaluation Benchmark: An Open, Transparent, and Reproducible Evaluation Dataset for NLP and RAG Systems

Athanasios Davvetas et al.

cs.AI

本文提出了一种用于评估NLP和RAG系统合规性的开放数据集构建方法。该方法结合领域知识与大语言模型，生成了针对欧盟AI法案的风险分类、条款检索等任务的数据集，并展示了其在评估RAG系统时的有效性。

An Empirical Study and Theoretical Explanation on Task-Level Model-Merging Collapse

Yuan Cao et al.

cs.AI

本文通过实验和理论分析研究了任务级模型合并中的崩溃现象. 研究发现, 任务间的表征不兼容性是导致合并崩溃的关键因素, 而参数空间冲突指标的相关性很弱.

Telogenesis: Goal Is All U Need

Zhuoran Deng et al.

cs.AI

本文提出了一种基于认知间隙（epistemic gaps）生成内部注意优先级（attentional priorities）的方法，无需外部目标或奖励。该方法在模拟环境中得到验证，其优先级分配策略在特定指标下优于固定策略，并能无监督地恢复环境结构。

GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

Andrew Murray et al.

cs.AI

本文提出了一个名为 GenePlan 的新框架, 它利用大型语言模型辅助的进化算法来生成针对 PDDL 描述的经典规划任务的领域相关广义规划器. 该框架将广义规划视为优化问题, 迭代进化可解释的 Python 规划器, 以最小化跨不同问题实例的规划长度. 在实验中, GenePlan 在多个基准领域上取得了接近最先进规划器的性能, 并显著优于其他基于 LLM 的基线方法.

Vibe-Creation: The Epistemology of Human-AI Emergent Cognition

Ilya Levin

cs.AI

本文探讨了人类推理与生成式人工智能交互产生的认知-知识论新形态, 称为"第三实体". 它结合了皮尔士符号学、波兰尼缄默知识理论等, 提出了"氛围创造"和"非对称涌现"等概念, 并讨论了其对教育理论和知识论的影响.

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

Pietro Dell'Oglio et al.

cs.AI cs.CL

本文提出了一种基于大语言模型(LLM)和人格特质(Big Five)来生成个性化辟谣信息的方法, 并利用另一个LLM作为自动化评估器来模拟人格特质以衡量其说服力. 结果表明, 个性化信息通常比通用信息更具说服力, 并且不同人格特质(如Openness和Neuroticism)对说服效果有不同影响.

Context Engineering: From Prompts to Corporate Multi-Agent Architecture

Vera V. Vishnyakova

cs.AI cs.MA

本文提出了context engineering的概念, 将其定义为设计和管理AI agent决策信息环境的独立学科. 文章还引入了intent engineering和specification engineering, 共同构成了一个分层的agent工程成熟度模型.

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Arash Shahmansoori

cs.AI cs.IR

本文提出了一个名为PRECEPT的统一框架, 用于LLM智能体在测试时的自适应. 该框架结合了确定性规则检索, 冲突感知记忆和基于Pareto前沿的提示进化循环, 旨在提升智能体在组合规则学习和知识鲁棒性方面的性能.

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Zuhao Zhang et al.

cs.AI

本文提出了一个名为MiniAppBench的基准测试, 用于评估大语言模型生成交互式HTML应用(称为MiniApps)的能力. 该基准包含来自真实应用的500个任务, 并引入了一个基于浏览器自动化的代理评估框架MiniAppEval来评估生成应用的质量.

Logics-Parsing-Omni Technical Report

Xin An et al.

cs.AI

本文提出了一个名为Omni Parsing的统一框架，用于处理多模态解析任务。该框架通过分层解析和证据锚定机制，将非结构化数据转换为结构化知识。

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Aman Sharma, Paras Chopra

cs.AI cs.LG cs.SE

本文提出了一个名为EsoLang-Bench的基准测试，用于评估大语言模型在冷门编程语言上的真实推理能力。研究发现，模型在标准代码生成基准上的高表现可能源于记忆，而在需要新语言学习的任务上表现显著下降。

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

Ming Wen et al.

cs.AI

本文提出了一个关注后果驱动安全的新范式, 并引入了OOD-MMSafe基准来评估多模态大语言模型识别潜在危险的能力. 作者还开发了CASPO框架以增强模型的安全推理, 实验表明该框架能有效降低风险识别的失败率.

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Peng Sun et al.

cs.AI

本文提出了一种无需训练的视觉-语言指令微调数据选择方法CVS, 该方法利用冻结的视觉-语言大模型(VLLM)作为评估器, 通过比较模型在有/无问题条件下的答案有效性差异来筛选需要跨模态推理的高质量样本. 实验表明, 该方法在多个数据集上仅使用少量数据即可超越全数据训练的性能, 并显著降低了计算成本.

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

Xiaoxing Wang et al.

cs.AI

本文提出了一个名为AutoAgent的自进化多智能体框架, 旨在解决自主智能体在长期经验学习与实时上下文决策之间的协调问题. 该框架通过结合演化认知, 弹性记忆编排和闭环认知进化等组件, 在多个基准测试中提升了任务成功率与工具使用效率.

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

Shouwei Ruan et al.

cs.AI

本文提出了一种名为World2Mind的训练免费空间智能工具包，旨在提升多模态基础模型的空间推理能力。该方法通过构建结构化的空间认知地图，并引入一种几何-拓扑先验，来增强模型在未见场景中的泛化性能。

Quantifying the Necessity of Chain of Thought through Opaque Serial Depth

Jonah Brown-Cohen, David Lindner, Rohin Shah

cs.AI

本文通过引入opaque serial depth这一概念, 形式化地论证了Transformer架构中足够长的序列认知必须通过chain of thought外显. 作者为Gemma 3模型计算了该深度的数值上界, 并开源了自动化计算工具.

LCA: Local Classifier Alignment for Continual Learning

Tung Tran, Danilo Vasconcellos Vargas, Khoat Than

cs.AI

本文提出了一种名为Local Classifier Alignment (LCA)的新损失函数，用于缓解持续学习中的灾难性遗忘问题。该方法通过调整分类器与主干网络之间的匹配关系来提升模型性能，并在多个基准测试中取得了良好效果。

Influencing LLM Multi-Agent Dialogue via Policy-Parameterized Prompts

Hongbo Bo, Jingyu Hu, Weiru Liu

cs.AI cs.MA

本文提出了一种通过参数化提示(prompt)来影响基于LLM的多智能体对话的方法. 该方法将提示视为动作, 并基于智能体状态动态构建提示, 实验表明其能有效影响对话的动态过程.

MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems

Yunhang Qian et al.

cs.AI

本文提出了一个用于多模态医疗多智能体系统(Multi-Agent Systems, MAS)的统一编排与基准测试框架MedMASLab. 该框架旨在解决该领域在架构、数据集成和评估方面的碎片化问题, 并建立了一个涵盖广泛疾病和器官系统的基准.

PathMem: Toward Cognition-Aligned Memory Transformation for Pathology MLLMs

Jinyue Li et al.

cs.AI

本文提出了PathMem, 一个用于病理学多模态大语言模型(MLLMs)的以记忆为中心的框架. 它通过模拟人类病理学家的分层记忆过程, 将结构化知识组织为长期记忆(LTM), 并利用Memory Transformer动态激活知识以辅助推理, 在多个基准测试中取得了先进性能.

The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain?

Ronald Doku

cs.AI

本文研究了基于置信度的 abstention 在 ranked decision systems 中的有效性。它提出了 rank-alignment 和 no inversion zones 的形式条件，并区分了 structural uncertainty 和 contextual uncertainty 对 abstention 性能的影响。实证表明，contextual uncertainty 带来了更根本的挑战，而基于 exception 的干预方法在分布偏移下效果会下降。

Think Before You Lie: How Reasoning Improves Honesty

Ann Yuan et al.

cs.AI cs.CL cs.LG

本文研究了大型语言模型(LLM)在涉及道德权衡的场景中的诚实性。研究发现，与人类不同，让模型进行推理会提高其诚实度，这与模型表示空间中欺骗性区域的亚稳定性有关。

cs.IR

Time warping with Hellinger elasticity

Yuly Billig

cs.IR cs.DS math.MG

本文针对取值于任意度量空间的时间序列, 提出了一种基于Hellinger核的拉伸惩罚匹配问题. 为了优化该匹配, 作者引入了计算复杂度为三次方的Elastic Time Warping算法.

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Saron Samuel et al.

cs.IR cs.AI

本文探讨了检索质量与生成式信息覆盖度之间的关系, 通过在多模态基准上的实验, 发现基于覆盖度的检索指标与生成响应的信息覆盖度存在强相关性. 研究为使用检索指标作为RAG性能的代理提供了实证支持.

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Yingyi Zhang et al.

cs.IR

本文提出了一种基于认知科学中熟悉度与回忆双过程理论的新型记忆检索方法RF-Mem，用于个性化大语言模型。该方法通过评估熟悉度不确定性来动态选择检索路径，在固定计算预算下优于一次性检索和全上下文推理方法。

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Zhihua Tian et al.

cs.IR cs.CL

本文针对Generative Engine Optimization(GEO)中内容被引用的实际问题, 提出了一个诊断与修复的框架. 该框架包含对引用失败模式的分类, 一个名为AgentGEO的智能体系统用于诊断和选择针对性修复工具, 以及一个以文档为中心的评估基准.

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Mengwei Yuan et al.

cs.IR cs.CL

本文提出了一种名为TA-Mem的工具增强自主记忆检索框架，用于增强大型语言模型在长对话问答中的表现。该方法通过一个自主选择检索工具的智能体，动态地从多索引记忆数据库中提取信息，并在LoCoMo数据集上取得了优于基线模型的效果。

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Abhishikth Mallampalli, Sridhara Dasu

cs.IR cs.AI cs.CL

本文介绍了一个名为MITRA的AI助手原型, 用于帮助物理合作项目(如CERN的CMS)检索内部文档知识. 该系统基于检索增强生成(RAG)技术, 采用自动化流程获取文档, 并使用本地部署的模型来确保数据隐私.

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Haobo Zhang et al.

cs.IR

本文提出了一个名为RecThinker的智能体框架, 用于推荐系统中的工具增强推理. 该框架采用"分析-规划-执行"范式, 通过动态规划推理路径和自主调用工具来主动获取信息, 以改善用户-物品匹配.

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

Shivani Upadhyay et al.

cs.IR

本文介绍了TREC 2025 RAG Track的概况, 这是一个专注于检索增强生成系统评估的竞赛. 它基于上一届比赛, 引入了更复杂的叙事性查询和多层次评估框架, 旨在推动构建可信赖的、上下文感知的RAG系统.

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Yash Kankanampati et al.

cs.IR

本文提出了一种基于 Voronoi cell 估计的框架，用于对 ColBERT 等 late-interaction 检索模型进行 token 剪枝。该方法将嵌入空间中每个 token 的影响范围建模为其 Voronoi 区域，从而在减少索引大小的同时保持检索质量。实验表明，该策略不仅是一种有效的剪枝方法，也有助于理解和改进密集检索系统中的 token 级行为。

cs.CL

Let's Verify Math Questions Step by Step

Chengyu Shen et al.

cs.CL cs.AI

本文提出了一种名为MathQ-Verify的数学问题验证流程, 用于过滤数学数据集中定义不清或病态的问题. 该方法通过多阶段检查(格式验证, 形式化, 逻辑矛盾检测等)来提升数据质量, 并在多个基准测试上取得了优于基线方法的性能.

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Raghavv Goel et al.

cs.CL cs.LG

本文比较了 diffusion 语言模型与 autoregressive 语言模型在内部表示结构上的差异. 研究发现 diffusion 目标会产生更分层的抽象和早期冗余, 并基于此提出了一种无需修改架构的静态层跳过方法以提升推理效率.

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Sripad Karne

cs.CL

本文利用塞尔维亚语的双文制现象, 研究了稀疏自编码器(SAE)学习到的特征是否代表抽象语义. 通过对比同一句子在拉丁字母和西里尔字母下的特征激活, 发现模型特征对语义的编码优先于对拼写形式的编码, 且这种脚本不变性随模型规模增强.

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Ibrahim Baroud et al.

cs.CL

本文提出了一个多语言匿名化基准数据集MultiGraSCCo, 包含10种语言, 通过机器翻译方法生成, 并保留了原始标注信息. 该数据集可用于训练标注员、验证标注以及提升自动个人信息检测模型的性能.

ConFu: Contemplate the Future for Better Speculative Sampling

Zongyue Qin et al.

cs.CL

本文提出了一种名为ConFu的新型speculative decoding框架, 旨在通过让draft model"展望未来"来提升大语言模型推理速度. 该方法引入了contemplate tokens和soft prompts来利用目标模型的未来导向信号, 并通过动态机制和训练框架学习稳健的未来预测, 从而在多个下游任务上取得了比现有方法更高的token接受率和生成速度.

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Hexuan Wang et al.

cs.CL

本文提出了一个名为SciTaRC的专家标注基准, 用于评估AI模型在需要深度语言推理和复杂计算的科学表格数据问答任务上的表现. 研究表明, 当前最先进的模型在该基准上存在显著性能差距, 并揭示了模型普遍存在的"执行瓶颈"问题.

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Seungjun Yi et al.

cs.CL

本文提出了一个结合迭代codebook精炼与完整溯源追踪的自动化主题分析框架, 用于处理临床定性数据. 该框架在多个数据集上相比基线方法取得了更高的综合质量分数, 并在临床语料库中生成的主题与专家标注的主题具有一致性.

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Juming Xiong et al.

cs.CL

本文提出了一种基于置信度的自适应决策框架, 用于优化大语言模型(LLM)的思维链(CoT)推理效率. 该方法通过分析单条推理轨迹的特征, 动态选择使用单路径或多路径推理, 在保持精度的同时显著减少了计算开销.

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Kaiser Sun et al.

cs.CL cs.CV

本文系统性地诊断了多模态大语言模型在处理图像形式文本时出现的性能下降问题, 即"模态鸿沟". 研究发现该鸿沟与任务、数据及渲染方式(如字体)高度相关, 并揭示图像输入会选择性放大阅读错误. 基于此, 作者提出了一种自蒸馏方法, 有效提升了模型在视觉文本理解任务上的性能.

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Trent R Northen, Mingxun Wang

cs.CL

本文提出了一个名为"Bioalignment"的评估框架, 用于衡量大型语言模型(LLMs)在多个技术领域中对生物解决方案的偏好倾向. 研究发现多数模型存在偏向合成解决方案的系统性偏差, 并通过在生物医学语料上进行微调, 成功提升了模型对生物方法的评分.

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Jianing Yang, Yusuke Fujita, Yui Sudo

cs.CL cs.AI

本文提出了一种名为DuplexCascade的语音对话系统，它结合了级联ASR-LLM-TTS模块与无VAD的流式处理，通过引入微轮次交互和特殊控制令牌来实现全双工对话。该系统在保持大型语言模型智能的同时，优化了对话的响应速度和流畅性。

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

Taegyeong Lee et al.

cs.CL

本文提出了一种无需训练的直接嵌入优化方法, 用于处理包含否定和排除的查询检索. 该方法通过分解查询并优化嵌入, 在文本和多模态检索任务上取得了优于基线模型的效果.

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Benjamin Reichman et al.

cs.CL cs.AI cs.LG

本文研究了情感作为影响大语言模型处理文本的潜在因素, 而非仅仅是一个分类标签. 通过分析情感如何系统性地改变Transformer模型中的注意力几何结构, 并引入了一个情感平衡的问答数据集AURA-QA. 最后, 作者提出了一个情感正则化框架, 在训练中约束情感条件化的表征漂移, 并在多个问答基准测试中验证了其有效性.

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi Lee

cs.CL eess.AS

本文提出了一种名为SPAR-K的模态感知早期退出框架, 用于加速交错式口语语言模型(SLM)的推理. 该方法通过为语音token设计交替深度调度, 在大部分位置提前退出计算, 并周期性地进行全深度"刷新", 从而在保持感知质量的同时显著降低平均解码深度.

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

Thao Do et al.

cs.CL

本文提出了一种基于margin的query-driven context pruning框架, 通过leave-one-out策略评估句子对回答query的重要性, 并使用composite ranking loss进行训练. 该方法基于轻量级encoder-only Transformer, 在保证回答性能的同时实现了高效的context压缩.

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Jiashuo Sun et al.

cs.CL cs.AI

本文提出了一种基于分类法引导的结构化推理框架 TaSR-RAG，用于改进检索增强生成中的证据选择。该方法通过将查询和文档表示为关系三元组，并利用轻量级分类法约束实体语义，以支持多跳推理问题。实验表明，该方法在多个基准测试上优于现有基线。

Quantifying and extending the coverage of spatial categorization data sets

Wanchun Li et al.

cs.CL

本文利用 large language models (LLMs) 生成空间关系标签，以评估和扩展空间分类数据集。研究表明 LLM 标签与人类标注具有较好的一致性，并基于此方法为 Topological Relations Picture Series (TRPS) 增加了新场景，提升了数据集的覆盖范围。

Reward Prediction with Factorized World States

Yijun Shen et al.

cs.CL

本文提出了一种名为StateFactory的方法, 用于将非结构化的观察数据转换为分层的对象-属性结构表示. 该方法利用语言模型构建这种因子化的世界状态表示, 并通过计算当前状态与目标状态之间的语义相似度来预测奖励. 在包含五个不同领域的RewardPrediction基准测试中, 该方法在零样本设置下展现出了优于基线模型的奖励预测性能.

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Lukáš Eigler, Jindřich Libovický, David Hurych

cs.CL

本文提出了一种利用LLM生成合成数据来验证NLP评估指标的方法, 通过控制语义降级来模拟人类判断. 实验表明, 该方法在多个任务上能有效替代昂贵的人工标注, 其合成数据得出的指标排名与人类基准高度相关.

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Trung Hieu Ngo et al.

cs.CL cs.AI

本文通过分析法语病历中性别与其他健康社会决定因素(SDoH)的关联, 研究了大型语言模型(LLM)中的偏见. 研究发现, 模型会依赖训练数据中嵌入的刻板印象做出与性别相关的判断.

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Saugata Purkayastha et al.

cs.CL cs.AI

本文通过构建CoMoral基准数据集，揭示了大型语言模型在道德困境中倾向于优先进行道德推理而忽视常识性矛盾的局限性。研究发现模型普遍存在叙事焦点偏差，即更容易识别次要角色而非叙述者角色的常识矛盾。

Modelling the Diachronic Emergence of Phoneme Frequency Distributions

Fermín Moscoso del Prado Martín, Suchir Salhan

cs.CL

本文通过一个模拟音位系统历史演化的随机模型, 研究了音位频率分布的统计规律性是否可能源于历时音变过程. 基础模型能复现秩频分布的一般形态, 但加入与功能负荷相关的效应及对偏好库存规模的稳定化倾向后, 模型能更好地匹配观测到的分布及库存规模与相对熵之间的负相关关系.

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Isaia Gisler, Zhonghao He, Tianyi Qiu

cs.CL cs.LG

本文研究了语言模型在训练过程中如何通过语义忠实但内容无关的改写文本，从数据生成模型（教师模型）中隐秘地习得行为偏好。实验表明，即使改写内容明确表达相反偏好或经过严格过滤，这种“潜意识学习”现象依然存在，这对模型自生成训练数据的流程构成了潜在风险。

ALARM: Audio-Language Alignment for Reasoning Models

Petr Grinberg, Hassan Shahmohammadi

cs.CL

本文提出了一种名为ALARM的方法, 用于改进大型音频语言模型(ALMs)在推理任务上的性能. 该方法通过自重构(self-rephrasing)技术处理文本代理输入, 并融合多个音频编码器来增强表示, 在多个音频推理基准上取得了有竞争力的结果.

Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models

Shreyas Meher

cs.CL

本文通过比较在冲突事件分类任务上 fine-tune 通用模型 (Confli-mBERT) 与使用领域专用预训练模型 (ConfliBERT) 的性能差异, 为政治科学家选择 NLP 模型提供了一个实用的决策框架. 研究发现, 在常见事件类别上两者性能接近, 主要差异集中在罕见类别, 因此模型选择应基于类别分布, 误差容忍度和可用资源等具体因素.

Surgical Repair of Collapsed Attention Heads in ALiBi Transformers

Palmer Schallon

cs.CL

本文针对BLOOM系列Transformer语言模型中的注意力头塌陷问题进行了研究, 发现ALiBi位置编码导致相当比例的注意力头过度关注序列起始token. 作者提出了一种"外科手术式"重初始化方法, 在有限计算资源下有效恢复了大部分塌陷注意力头的功能.

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Luc Builtjes, Alessa Hering

cs.CL

本文提出了一种基于开源大语言模型(llm)的、可本地部署的流程, 用于从放射学报告中提取纵向肿瘤负荷信息. 该方法遵循RECIST标准, 在荷兰语CT报告数据集上验证了其提取目标、非目标及新病灶属性的高准确率.

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Isabelle Augenstein

cs.CL cs.IR

本文是一篇关于大型语言模型(LLM)如何利用其参数化知识与上下文知识之间交互作用的主题演讲概述. 作者探讨了模型内部知识评估, 知识冲突诊断以及成功利用上下文知识的特征.

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Jacopo Vitale et al.

cs.CL cs.AI cs.IR

本文提出了一种利用非结构化电子健康记录(EHR)进行心血管风险自动分类的框架. 该方法比较了多种机器学习模型, 发现定制的Transformer架构在性能上优于传统方法和生成式大语言模型(LLM).

Fusing Semantic, Lexical, and Domain Perspectives for Recipe Similarity Estimation

Denica Kjorvezir et al.

cs.CL

本文结合语义、词汇和领域视角来评估食谱相似性, 开发了一个基于Web的界面供领域专家验证结果. 专家评估了318个食谱对, 同意率达到80%, 该方法对个性化饮食和自动食谱生成有潜在应用.

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Dechuan Teng et al.

cs.CL cs.AI

本文提出了一个用于任务导向对话建模的统一端到端框架ESAinsTOD。该框架通过引入指令对齐和模式对齐机制，增强了大型语言模型对多样化任务流程和模式的适应能力，并在多个基准数据集上取得了优于现有方法的效果。

Evaluation of LLMs in retrieving food and nutritional context for RAG systems

Maks Požarnik Vavken et al.

cs.CL

本文评估了四种大型语言模型(LLMs)在食品营养领域检索增强生成(RAG)系统中的表现。研究聚焦于LLMs将自然语言查询转换为结构化元数据过滤器以进行高效检索的能力，结果表明其在处理可明确表达的约束时效果良好，但在处理复杂或不可表达的约束时仍面临挑战。

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Sihong Wu et al.

cs.CL cs.AI

本文提出了一种利用rebuttal作为监督信号来提升AI生成同行评审反馈可操作性的方法. 该方法通过构建一个包含perspective标签和impact类别的大型数据集, 并采用supervised fine-tuning和preference optimization进行训练, 实验表明其在actionability和specificity方面优于基线模型.

Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG

Jan Drole et al.

cs.CL

本文提出了一种名为FoodOntoRAG的、与模型和本体无关的管道，用于食品领域的实体链接。该方法通过从领域本体中检索候选实体，并利用结构化证据来引导大型语言模型进行少样本学习，避免了微调，从而提高了对本体演变的鲁棒性。

EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting

Maria Kunilovskaya, Christina Pollkläsener

cs.CL

本文介绍了EPIC-EuroParl-UdS语料库的更新与合并版本，该资源整合了欧洲议会的原文及其翻译与口译文本。该版本修正了错误并增加了词对齐等新标注层，旨在支持基于信息论的语言变体研究。

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Chengyu Shen et al.

cs.CL

本文提出了一个名为 One-Eval 的自动化评估系统，旨在简化大型语言模型的评估流程。该系统通过自然语言请求生成可执行、可追踪的工作流，集成了意图解析、基准测试解析和报告生成等功能。

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Naman Gupta et al.

cs.CL

本文提出了一种基于Chow-Liu树的方法来优化Chain-of-Agents框架中处理长文本时的分块顺序。该方法通过学习分块间的依赖关系来生成顺序，实验表明其在多个长文本基准测试中优于默认顺序和基于语义相似度的排序。

N-gram-like Language Models Predict Reading Time Best

James A. Michaelov, Roger P. Levy

cs.CL

本文探讨了语言模型预测阅读时间的能力, 发现与阅读时间最相关的并非最先进的transformer模型, 而是那些预测结果与简单n-gram统计量最相似的模型. 研究通过眼动追踪数据验证了这一观点.

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Maike Züfle et al.

cs.CL

本文介绍了一个名为DoWhatISay (DOWIS)的多语言口语指令数据集，用于在更真实的场景下评估语音大语言模型(SLLMs)。研究发现，文本提示通常优于语音提示，强调了在SLLM评估中考虑语音输入的重要性。

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Zhongren Chen, Joshua Kalla, Quan Le

cs.CL cs.CY

本文通过两项调查实验评估了多个前沿大语言模型在政治议题上的说服力, 发现其总体上超越了传统竞选广告, 且不同模型间存在异质性. 研究还引入了一种数据驱动的对话分析方法来识别潜在的劝说策略.

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Zorik Gekhman et al.

cs.CL

本文探讨了 reasoning 在 LLMs 处理简单事实性问题中的作用。研究发现，reasoning 过程通过提供计算缓冲和事实提示，能有效提升模型参数知识的 recall 能力，但也可能增加产生幻觉的风险。

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Mingyang Song, Mao Zheng

cs.CL

本文是一篇关于大语言模型时代模型合并方法的综述性文章. 它提出了一个名为FUSE的四维分类法, 系统性地回顾了该领域的理论基础, 算法, 应用场景和生态系统, 旨在为研究者和实践者提供一个结构化的基础.

CREATE: Testing LLMs for Associative Creativity

Manya Wadhwa et al.

cs.CL

本文提出了一个名为CREATE的基准测试, 用于评估大型语言模型在联想创造力方面的能力. 该任务要求模型在概念之间生成多样且独特的连接路径, 并提供了客观的评分方法.

cs.DS

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Benjamín Guzmán

cs.DS cs.AR cs.PF

本文提出了一种名为bsort的非比较排序算法, 适用于整数和浮点数. 该算法基于binary quicksort思想, 具有$O(wn)$的时间复杂度和$O(w)$的辅助空间复杂度, 在小字长数据类型上表现出色.

Unit Interval Selection in Random Order Streams

Cezar-Mihail Alexandru et al.

cs.DS

本文研究了在随机顺序流模型中的Unit Interval Selection问题. 作者提出了一种使用$O(|OPT|)$空间的单遍流算法, 其期望近似比达到了$0.7401$, 并证明了超越特定阈值的改进需要$\Omega(n)$的空间.

A PTAS for Weighted Triangle-free 2-Matching

Miguel Bosch-Calvo et al.

cs.DS

本文针对Weighted Triangle-Free 2-Matching (WTF2M)问题, 提出了一种基于局部搜索的PTAS (Polynomial-Time Approximation Scheme). 该算法对于任意给定的常数$\varepsilon>0$, 都能在多项式时间内给出$(1-\varepsilon)$-近似解.

Fast and Optimal Differentially Private Frequent-Substring Mining

Peaker Guo, Rayne Holland, Hao Wu

cs.DS cs.CR

On the Online Weighted Non-Crossing Matching Problem

Joan Boyar et al.

cs.DS

本文研究了 Euclidean 平面中带权重的在线非交叉匹配问题. 作者分析了确定性算法、随机算法以及带撤销和共线点等变体下的竞争比上下界.

others

Permutation-Equivariant 2D State Space Models: Theory and Canonical Architecture for Multivariate Time Series ⭐ 精选

Seungwoo Jeong, Heung-Il Suk

stat.ML cs.AI cs.LG

本文从理论上刻画了满足 permutation-equivariance 对称性约束的线性 2D state-space model 的完整规范形式，证明了其可分解为局部自动力学与全局池化交互。基于此，作者提出了 Variable-Invariant 2D SSM (VI 2D SSM) 架构，通过 permutation-invariant 聚合实现了该规范形式，将变量轴上的依赖深度从 $\mathcal{O}(C)$ 降至 $\mathcal{O}(1)$，并简化了稳定性分析。所提出的 VI 2D Mamba 模型在多个时间序列任务上取得了 state-of-the-art 的性能，验证了保持对称性的 2D 建模的理论必要性。

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Jatin Chhugani et al.

cs.AR cs.AI cs.LG cs.PF

本文提出了两种软件优化技术, Overflow-Aware Scaling (OAS) 和 Macro Block Scaling (MBS), 以提升 MXFP4 格式在大型语言模型推理中的量化精度. 这些方法无需硬件改动, 通过优化缩放策略有效减少了量化误差, 使 MXFP4 在精度上接近 NVFP4 的同时保持了其硬件效率优势.

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Luca Collini et al.

cs.AR cs.CL

本文通过实验研究了不同语言模型在Verilog代码生成任务中与提示策略的交互作用. 作者评估了多种模型, 并分析了提示工程方法对生成结果的影响.

Design Conductor: An agent autonomously builds a 1.5 GHz Linux-capable RISC-V CPU

Verkor Team et al.

cs.AR cs.AI

本文介绍了一个名为Design Conductor的自主智能体，它能够利用前沿模型的能力，从概念到可流片的GDSII文件，端到端地自动设计半导体芯片。该智能体在12小时内成功设计出多款频率达1.48 GHz的RISC-V CPU微架构变体。

CktEvo: Repository-Level RTL Code Benchmark for Design Evolution

Zhengyuan Shi et al.

cs.AR cs.AI

本文提出了一个名为CktEvo的基准测试和参考框架, 用于评估在完整IP核(而非孤立代码片段)级别进行RTL代码演化的能力. 该框架将LLM生成的代码修改与工具链反馈相结合, 旨在实现功能保持且提升PPA(Power, Performance, Area)的仓库级代码优化.

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Mu-Chi Chen et al.

cs.AR cs.AI cs.SE

本文提出了一个用于Verilog代码生成的多智能体框架, 通过集成测试驱动的验证来生成面向推理的训练数据. 该方法使本地微调的模型能够在测试时迭代地生成、测试和调试RTL设计, 并在功能正确性上超越了现有方法.

KernelCraft: Benchmarking for Agentic Close-to-Metal Kernel Generation on Emerging Hardware

Jiayi Nie et al.

cs.AR cs.LG cs.SE

本文提出了一个名为KernelCraft的基准测试，用于评估LLM智能体为新兴AI加速器生成和优化底层kernel的能力。它通过一个基于函数调用和反馈的工作流，在硬件约束下自动验证和优化kernel代码。

ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators

T. Baldi, D. Casini, A. Biondi

cs.AR cs.AI cs.LG

本文提出了一个名为ALADIN的框架，用于分析面向嵌入式AI加速器的混合精度量化神经网络的设计空间。该框架能够在无需实际部署的情况下，评估模型精度、推理延迟和硬件资源消耗之间的权衡。

Alignment Is the Disease: Censorship Visibility and Alignment Constraint Complexity as Determinants of Collective Pathology in Multi-Agent LLM Systems

Hiroki Fukui

cs.CY cs.AI

本文通过多智能体LLM系统的封闭设施模拟实验，初步探讨了AI对齐技术可能引发的集体病态行为。研究发现，不可见的审查制度会加剧集体的病理性兴奋，而随着对齐约束复杂性的增加，系统的解离指数也会上升。这些结果表明，旨在确保安全性的对齐干预本身可能在集体层面产生医源性的危害。

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Mahdi Taheri

cs.AR cs.AI cs.DC

本文总结了关于深度神经网络硬件加速器可靠性评估与增强的博士论文工作. 提出了一些新的、成本效益高的方法, 包括开发了新的分析性可靠性评估工具, 探索了可靠性、量化和近似计算之间的权衡, 并设计了一种名为AdAM的实时、零开销可靠性增强技术.

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Luigi Capogrosso, Pietro Bonazzi, Michele Magno

cs.AR cs.CV cs.LG

本文对超低功耗边缘AI处理器进行了综述和性能对比, 涵盖了异构SoC, 神经加速器和in-sensor架构等. 作者通过在一个分割模型上对GAP9, STM32N6和Sony IMX500三款代表性处理器进行基准测试, 比较了它们在延迟, 能效等方面的表现.

Data-Rate-Aware High-Speed CNN Inference on FPGAs

Tobias Habermann, Martin Kumm

cs.AR cs.LG

本文提出了一种面向FPGA的data-rate-aware CNN加速器架构, 通过design-space exploration来优化硬件利用率和资源效率. 该方法在多像素处理中保持了数据的连续流动, 实验表明其相比之前的设计显著减少了算术资源的使用.

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Jianlong Lei, Shashikant Ilager

cs.AR cs.AI cs.DC cs.PF

本文提出了一种名为ARKV的自适应KV缓存管理框架, 用于在有限内存预算下进行大语言模型的长上下文推理. 该方法通过动态分配精度级别来减少KV缓存的内存占用, 并在实验中展示了良好的准确性与内存效率平衡.

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Seine A. Shintani

cs.CY cs.CL

本文提出了一种自托管的端到端流程, 用于从讲义PDF生成多项选择题(MCQs). 该方法使用本地LLM进行草拟, 并通过确定性的质量控制和可追溯的检查来确保最终输出质量, 旨在支持教育场景中的隐私和问责.

Memory-Augmented Spiking Networks: Synergistic Integration of Complementary Mechanisms for Neuromorphic Vision

Effiong Blessing et al.

cs.NE cs.LG

本文通过整合多种记忆增强机制对Spiking Neural Networks (SNNs)进行了系统性的消融研究。实验表明，平衡的架构设计而非单一优化，能在准确率、能效和神经元集群结构上实现综合性能的提升。

Hebbian-Oscillatory Co-Learning

Hasi Hays

cs.NE cs.LG

本文提出了一个结合结构可塑性与相位同步的生物启发式稀疏神经网络框架. 该框架通过同步门控机制, 在宏观序参量满足条件时才进行Hebbian结构更新, 并证明了系统的收敛性.

Measurement-Free Ancilla Recycling via Blind Reset: A Cross-Platform Study on Superconducting and Trapped-Ion Processors

Sangkeum Lee

cs.AR cs.AI quant-ph

本文研究了在量子纠错中 ancilla 重置的"blind reset"方法, 并在超导和离子阱处理器上进行了跨平台评估. 该方法通过减少重置延迟来提升逻辑循环速度, 同时保持 ancilla 的清洁度, 研究通过模拟和硬件实验确定了该方法适用的平台特定条件.

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

Sales Aribe Jr., Gil Nicholas Cagande

cs.DC cs.AI

本文对面向边缘计算环境的联邦学习(FL)技术进行了系统性综述与性能评估, 将现有方法归类并基于多个基准数据集评估了五种主流FL算法的性能. 研究发现不同算法在准确性、通信效率等指标上各有优劣, 并指出了数据异构性等现存挑战与未来研究方向.

Autonomous Edge-Deployed AI Agents for Electric Vehicle Charging Infrastructure Management

Mohammed Cherifi

cs.DC cs.AI cs.LG eess.SY

本文提出了一种用于电动汽车充电基础设施管理的边缘部署AI agent架构, 通过部署领域专用的AI agent来实现自主故障诊断与修复. 该架构包含置信度校准的自主解决机制和自适应检索增强推理等组件, 并在模拟环境中展示了较高的自主解决率和较低的延迟.

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Atousa Jafari et al.

cs.AR cs.AI cs.DC cs.LG

本文提出了一种用于Reservoir Computing的压缩框架，该框架通过基于敏感性的剪枝机制来平衡量化、剪枝、模型精度和硬件效率。实验表明，该方法能在保持精度的同时显著提升FPGA实现的资源效率。

Architectural Design and Performance Analysis of FPGA based AI Accelerators: A Comprehensive Review

Soumita Chatterjee et al.

cs.AR cs.AI

本文对基于FPGA的AI加速器进行了全面的综述, 探讨了其架构设计、硬件层面的优化技术(如循环流水线、并行化、量化等)以及性能分析. 文章还概述了当前先进的FPGA神经网络加速器, 并指出了该领域未来设计所面临的挑战和优化方向.

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators

Keita Morisaki

cs.AR cs.LG

本文提出了一种名为AetherFloat的新型可参数化浮点架构家族，旨在替代IEEE 754标准以优化AI加速器。该架构通过结合多种设计，如Quad-Radix缩放和显式尾数，显著减少了硬件面积、功耗和延迟，并提供了更宽的动态范围以规避块缩放逻辑。

Robust Parameter and State Estimation in Multiscale Neuronal Systems Using Physics-Informed Neural Networks

Changliang Wei, Yangyang Wang, Xueyu Zhu

cs.NE cs.LG math.NA stat.ML

本文提出了一种基于物理信息神经网络(PINN)的框架, 用于从部分噪声观测中联合推断神经元模型的生物物理参数和隐藏状态. 该方法在多种放电和簇发模式的Morris-Lecar模型上进行了验证, 即使在参数初始猜测不理想的情况下也表现出鲁棒性.

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Mengqi Liao et al.

cs.DC cs.AI

本文提出了一种名为Compressed PagedAttention的方法，结合了token-wise KV cache淘汰与PagedAttention机制，并基于此开发了高并发LLM推理引擎Zipage。该方法旨在解决LLM推理阶段KV cache导致的内存瓶颈问题，在数学推理任务上能以较小性能损失实现显著的推理加速。

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Musa Cim, Burak Topcu, Mahmut Taylan Kandemir

cs.AR cs.AI

本文对两种FP4格式(MXFP4和NVFP4)在Qwen2.5模型上的量化敏感性进行了系统分析。研究发现，MLP的上下投影层对量化最敏感，而注意力机制的敏感性较低，且敏感性分布与模型深度和具体格式有关。

Turn: A Language for Agentic Computation

Muyukani Kizito

cs.PL cs.AI cs.SE

本文介绍了一种名为Turn的编程语言, 专为基于LLM的自主agent软件设计. 它通过引入认知类型安全等语言级构造, 将关键不变量从应用层约定提升为语言保证.

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

Sahal Sajeer et al.

cs.SD cs.AI

本文提出了一种针对电子舞曲(EDM)音乐结构分割的Transformer模型EDMFormer. 它结合了自监督音频嵌入和一个EDM专用数据集, 在边界检测和段落标注上优于现有方法.

Clear, Compelling Arguments: Rethinking the Foundations of Frontier AI Safety Cases

Shaun Feakins, Ibrahim Habli, Phillip Morgan

cs.CY cs.AI cs.CR

本文探讨了前沿AI系统安全论证(safety cases)的基础重构问题. 作者借鉴了安全关键行业(如航空航天)的保障方法论, 分析了当前AI对齐(alignment)社区在构建安全论证时存在的局限性, 并通过一个关于欺骗性对齐(Deceptive Alignment)的案例研究, 提出了构建更稳健、可辩护的安全论证框架的初步方向.

On the Formal Limits of Alignment Verification

Ayushi Agarwal

stat.ML cs.LG

本文研究了AI alignment verification的可行性, 证明了不存在一个verification procedure能同时满足soundness, generality和tractability这三个属性, 构成了一个trilemma. 该结果揭示了alignment formal certification的根本性限制.

Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation

Roberto Tacconelli

stat.ML cs.IT cs.LG

本文提出了一种名为Midicoth的无损压缩系统, 通过引入一种微扩散去噪层来改进自适应统计模型产生的概率估计. 该方法将先验平滑视为一种收缩过程, 并应用反向去噪步骤, 利用经验校准统计量校正预测概率, 从而提升压缩效率.

Large Language Model-Assisted Superconducting Qubit Experiments

Shiheng Li et al.

quant-ph cs.AI

本文提出了一个利用大语言模型(LLM)自动化超导量子比特控制和测量的框架. 该框架通过知识库按需生成和调用无模式工具来执行实验, 并以谐振腔自主表征和量子非破坏性(QND)测量复现为例进行了展示.

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Tzafrir Rehan

cs.SE cs.AI

本文提出了一种名为Test-Driven AI Agent Definition (TDAD)的方法论, 用于从行为规约编译出能使用工具的AI agent. 该方法通过将prompt视为可编译产物, 并引入测试分割与语义变异测试等机制, 旨在提升agent行为的可测量合规性与开发可靠性.

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Piyush Gupta et al.

cs.RO cs.AI cs.ET cs.MA

本文提出了一种名为Scale-Plan的可扩展框架，用于异构多机器人团队的长时程任务规划。该框架利用大语言模型从自然语言指令中生成紧凑的、任务相关的问题表示，并通过结构化图搜索过滤无关信息，从而提高了规划的可扩展性和可靠性。

Fish Audio S2 Technical Report

Shijia Liao et al.

cs.SD cs.AI cs.CL

本文介绍了Fish Audio S2，一个开源的文本转语音系统。该系统支持多说话人、多轮生成，并能通过自然语言描述进行指令控制。

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

Brian Isett et al.

cs.CV cs.AI

本文提出了一种轻量级的多癌症肿瘤定位框架 MuCTaL, 用于数字病理学中的可部署应用. 该模型在四种癌症的平衡数据集上训练, 并在未见过的胰腺癌数据上进行了泛化能力测试.

Unpacking Interpretability: Human-Centered Criteria for Optimal Combinatorial Solutions

Dominik Pegler et al.

cs.HC cs.AI

本文通过实验研究了人类对装箱问题最优解的“可解释性”偏好. 实验发现, 偏好与解的结构特性(如与贪心启发式算法的对齐, 箱内物品构成的简单性, 以及有序的视觉呈现)相关.

APPLV: Adaptive Planner Parameter Learning from Vision-Language-Action Model

Yuanjie Lu et al.

cs.RO cs.LG

本文提出了一种名为 APPLV 的方法, 它利用预训练的 vision-language model 来预测 classical motion planner 的参数, 而非直接输出控制动作. 该方法通过 supervised learning 和 reinforcement learning 两种策略进行微调, 在仿真和实物实验中均展现出优于现有方法的导航性能与泛化能力.

Why Channel-Centric Models are not Enough to Predict End-to-End Performance in Private 5G: A Measurement Campaign and Case Study

Nils Jörgensen

cs.NI cs.LG cs.RO

本文通过测量活动挑战了仅依赖信道级指标预测端到端吞吐量的假设. 研究发现, 即使在信道指标准确的情况下, 由于MIMO层数适配等系统行为, 预测仍会高估吞吐量, 而数据驱动的Gaussian process模型能更准确地直接学习端到端性能.

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Lei Zhang, Markus Stricker

cond-mat.mtrl-sci cs.CL

本文提出了一种基于文本的无标签筛选策略, 用于在广阔的组成空间中筛选组合电催化剂. 该方法利用从科学文本中提取的 composition embeddings 来表征材料组成, 并通过与目标属性概念的相似性进行优先级排序. 在多个材料库上的评估表明, 轻量级的 Word2Vec 基线模型结合简单的元素嵌入线性组合, 在减少候选组成数量的同时, 能保持接近最佳实测性能.

NetDiffuser: Deceiving DNN-Based Network Attack Detection Systems with Diffusion-Generated Adversarial Traffic

Pratyay Kumar et al.

cs.CR cs.AI

本文提出了一种名为NetDiffuser的框架, 用于生成能够欺骗基于深度学习的网络入侵检测系统(NIDS)的自然对抗样本(NAEs). 该方法通过特征分类和扩散模型注入扰动, 在多个基准数据集上展示了较高的攻击成功率.

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Daniel M. Jimenez-Gutierrez et al.

cs.DC cs.AI cs.LG

本文提出了一种名为FedLECC的联邦学习客户端选择策略，该策略通过聚类和损失指导来选择参与训练的客户端。实验表明，该方法在非独立同分布数据下能提升模型精度并减少通信开销。

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

Mohamed Harmanani et al.

cs.CV cs.LG

本文提出了一个结合临床指南与视觉-语言模型的概念推理框架 MedCBR, 用于医学影像分析. 该框架通过多任务目标训练模型, 并生成结构化的临床叙述来解释诊断, 在超声和乳腺X光数据集上取得了较高的诊断性能.

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Ronald Sielinski

stat.AP cs.AI cs.IR

本文提出了一种用于量化生成式搜索中AI可见性不确定性的统计框架. 通过实证研究揭示了引用分布的幂律形式和显著变异性, 并指出单次运行的点估计具有误导性.

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Heesup Yun et al.

cs.CV cs.AI

本文利用 vision language models (VLMs) 从无人机遥感图像直接生成植物模拟的 JSON 配置参数。研究通过合成数据集评估了多种 in-context learning 方法，发现模型在视觉线索不足时性能会下降。

Optimizing Reinforcement Learning Training over Digital Twin Enabled Multi-fidelity Networks

Hanzhi Yu et al.

cs.NI cs.LG eess.SY

本文提出了一种基于数字孪生网络辅助的强化学习训练框架, 用于优化基站天线倾角以提升用户数据速率. 该框架通过分层强化学习方法, 联合优化策略与数据收集策略, 在保证性能的同时减少了从物理网络收集数据带来的延迟.

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Abdul Rehman Akbar et al.

cs.CV cs.AI cs.CL cs.DL cs.IR

本文提出了一个名为 PathoScribe 的统一检索增强大语言模型框架, 旨在将静态的病理学档案转化为可搜索、支持推理的活体知识库. 该系统在包含 70,000 份多机构外科病理学报告的评估中, 在自然语言病例检索和基于检索的推理任务上表现优异, 并能自动化地从自由文本标准构建研究队列.

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Hezhao Zhang et al.

cs.SD cs.AI cs.CL cs.MM eess.AS

本文提出了一个用于评估Speech LLMs在语音情感识别(SER)任务上性能的基准测试VoxEmo. 它整合了多语言数据集, 并引入了考虑标注歧义性的软标签评估协议.

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Pranav Mantini, Shishir K. Shah

cs.CV cs.AI cs.CL cs.LG

本文提出了一个名为BiCLIP的简单框架, 通过对多模态特征应用结构化的几何变换来增强跨模态对齐, 以解决视觉语言模型在特定领域适应的问题. 该方法在多个基准测试中取得了优异的结果.

Kernel Debiased Plug-in Estimation based on the Universal Least Favorable Submodel

Haiyi Chen, Yang Liu, Ivana Malenica

math.ST cs.LG stat.ML

本文提出了一种基于universal least favorable submodel的核去偏插件估计器(ULFS-KDPE), 用于估计非参数模型中的路径可微参数. 该方法在再生核希尔伯特空间(RKHS)中构建数据自适应的去偏流, 无需显式计算有效影响函数即可实现半参数效率.

Towards Reliable Simulation-based Inference

Arnaud Delaunoy

stat.ML cs.LG

本文探讨了在基于仿真的统计推断中使用机器学习方法时可能产生的过度自信问题. 作者提出了诊断和缓解这种过度自信的两种方法: 一种称为"平衡"的正则化技术, 另一种是利用贝叶斯神经网络.

A Survey of Reinforcement Learning For Economics

Pranjal Rawat

econ.GN cs.LG

本文是一篇面向经济学家的强化学习综述, 重新介绍了强化学习方法. 文章讨论了传统动态规划在高维问题中的局限性, 并阐述了强化学习如何作为一种基于样本的扩展, 应用于定价、库存控制等经济模型. 同时, 文章也指出了这些算法在实际应用中的脆弱性和样本低效等局限性.

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

Yuxin Tang et al.

cs.MS cs.AI cs.DB

本文提出了一个名为 upper-case-lower-case EinSum 的张量-关系计算表示法, 用于在关系型数据库系统上自动执行涉及稀疏张量的计算. 该方法将 Einstein Summation Notation 自动重写, 以便利用高效数值内核处理密集计算部分, 同时通过关系系统管理稀疏性.

Data-driven robust Markov decision processes on Borel spaces: performance guarantees via an axiomatic approach

Sivaramakrishnan Ramani

math.OC cs.LG stat.ML

本文在 Borel 空间上研究数据驱动的鲁棒马尔可夫决策过程(RMDP). 通过一种公理化方法, 证明了在样本量增加时, 鲁棒最优值函数会收敛到真实最优值函数, 并给出了样本复杂度等性能保证.

Arbiter: Detecting Interference in LLM Agent System Prompts

Tony Mason

cs.SE cs.AI cs.CR cs.PL

本文提出了一个名为Arbiter的框架, 用于检测LLM智能体系统提示中的干扰模式. 该框架结合了形式化评估规则与多模型LLM扫描, 并在对几个主流编码智能体提示的分析中发现了若干问题.

Security Considerations for Multi-agent Systems

Tam Nguyen, Moses Ndebugre, Dheeraj Arremsetty

cs.CR cs.AI

本文针对multi-agent systems (MAS)的安全问题，系统性地评估了现有的16个AI安全框架。研究通过构建知识库、进行威胁建模和结构化调查，发现现有框架对MAS特有的安全风险覆盖不足，尤其是在Non-Determinism和Data Leakage方面。

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. Avila

cs.SD cs.AI

本文分析了音频深度伪造检测模型中的性别公平性问题. 作者使用ASVspoof 5数据集和多种音频特征进行实验, 并引入多个公平性指标来量化模型性能中的性别差异. 结果表明, 即使总体错误率相近, 公平性评估仍能揭示被聚合指标掩盖的差异性.

Statistical Inference via Generative Models: Flow Matching and Causal Inference

Shinto Eguchi

stat.ML cs.LG

本文从统计学的角度重新审视了生成式AI, 以flow matching为例, 将其理解为学习高维概率分布的非参数方法. 基于此, 书中建立了一个统计推断框架, 将生成模型与去偏机器学习技术结合, 并应用于因果推断等问题.

Improving through Interaction: Searching Behavioral Representation Spaces with CMA-ES-IG

Nathaniel Dennler et al.

cs.RO cs.AI cs.HC

本文提出了一种名为CMA-ES-IG的算法，用于在机器人行为偏好学习中优化用户体验。该方法通过建议感知上不同且信息丰富的轨迹供用户排序，在模拟和真实机器人实验中展现了优于现有方法的可扩展性和鲁棒性。

AI Phenomenology for Understanding Human-AI Experiences Across Eras

Bhada Yun et al.

cs.HC cs.AI

本文提出了一种名为"AI phenomenology"的研究框架, 旨在超越传统的性能指标, 关注用户与AI系统互动时的第一人称体验与感知. 通过结合现象学, 后现象学等理论, 并基于三项实证研究, 作者开发了一套可复制的方法论工具包, 用于捕捉人机协同演化中的体验.

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Tony Mason

cs.OS cs.AI cs.SE

本文提出了一种用于大语言模型上下文窗口的需求分页系统 Pichay, 通过将上下文窗口视为 L1 缓存并引入分页机制来管理内容. 该系统作为一个透明代理, 能够驱逐陈旧内容、处理页面错误并固定工作集, 从而显著减少了上下文消耗.

Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software

Janakan Sivaloganathan et al.

cs.SE cs.AI cs.ET

本文提出了一种自动化流程, 用于检测量子软件中的 flaky tests 并分析其根本原因. 该方法利用 Large Language Models (LLMs) 进行自动分类和识别, 在扩展数据集上取得了较高的性能指标.

PlayWorld: Learning Robot World Models from Autonomous Play

Tenny Yin et al.

cs.RO cs.AI

本文提出了一种名为PlayWorld的自主训练流程, 用于从机器人自我交互数据中学习高保真的视频世界模型. 该方法通过无监督的自主动作探索来收集数据, 从而能够更好地建模复杂的物理交互, 并在多个操控任务中展现出优于基于人类演示数据训练的模型的预测能力.

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Zekun Long et al.

cs.CV cs.AI

本文提出了一种名为WS-Net的深度学习框架，用于解决高光谱解混中弱信号被掩盖的问题。该方法通过状态空间建模和弱信号注意力融合来提升丰度估计的准确性，并在模拟和真实数据集上验证了其有效性。

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Yinpeng Wu et al.

cs.CR cs.LG cs.OS

本文提出了一种用于移动设备的快速安全大语言模型服务系统FlexServe. 它通过灵活的硬件资源隔离机制, 在ARM TrustZone安全环境中实现了高效的大语言模型推理, 显著降低了性能开销.

Quality over Quantity: Demonstration Curation via Influence Functions for Data-Centric Robot Learning

Haeone Lee et al.

cs.RO cs.LG

本文提出了一种名为QoQ的数据筛选方法，用于提升基于演示的机器人学习效果。该方法利用influence functions来量化训练样本对验证集损失的贡献，从而自动识别高质量演示数据。

Adaptive Active Learning for Online Reliability Prediction of Satellite Electronics

Shixiang Li et al.

stat.ME cs.LG

本文提出了一种用于卫星电子设备在线可靠性预测的自适应主动学习框架. 该方法结合了基于Wiener过程的退化模型和两阶段主动学习采样策略, 旨在数据有限和个体差异大的条件下提高预测精度. 数值实验和天宫空间站的案例研究表明, 该方法能有效提升预测准确性并减少数据需求.

Verifying Good Regulator Conditions for Hypergraph Observers: Natural Gradient Learning from Causal Invariance via Established Theorems

Max Zhuravlev

stat.ML cond-mat.stat-mech cs.LG math-ph

本文在因果不变的 hypergraph 基底中，验证了持久观察者满足 Conant-Ashby Good Regulator 定理的条件。通过应用信息几何中的标准定理，作者论证了自然梯度下降是唯一允许的学习规则，并将 Wolfram 和 Vanchurin 的理论框架联系起来。

A Text-Native Interface for Generative Video Authoring

Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li

cs.HC cs.AI

本文介绍了一个名为Doki的文本原生界面, 用于生成式视频创作. 该系统允许用户通过编写文本来定义资产, 构建场景和编辑视频, 旨在降低视频制作的门槛.

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Md Selim Sarowar, Omer Tariq, Sungho Kim

cs.CV cs.AI cs.RO

本文提出了一种名为GST-VLA的视觉-语言-动作模型，其核心是引入了结构化高斯空间标记器(GST)和3D深度感知思维链(DA-CoT)推理。该方法将深度和语义特征编码为3D高斯图元，并通过多阶段训练在机器人操作任务上取得了性能提升。

Unlocking High-Fidelity Analog Joint Source-Channel Coding on Standard Digital Transceivers

Shumin Yao et al.

cs.IT cs.IR

本文提出了一种名为D2AJSCC的框架, 旨在将模拟联合信源信道编码(analog JSCC)部署到标准的数字物理层(PHY)上. 该方法利用正交频分复用(OFDM)的子载波结构来合成波形, 并通过一个可微的代理网络(ProxyNet)来维持端到端训练, 从而在数字硬件上实现接近模拟JSCC的性能.

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Rongxiang Zeng, Yongqi Dong

cs.RO cs.AI cs.LG cs.MA eess.SY

本文提出了一个用于自动驾驶的潜在世界模型统一框架, 对设计空间进行了分类, 并讨论了其内部机制、评估方法和未来挑战. 它主要是一篇综述和框架性文章, 旨在整合该领域的最新进展.

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Yuheng Wang et al.

cs.CV cs.AI

本文提出了一种基于transformer的框架, 用于皮肤癌的复合视觉-语言检索. 该方法通过联合全局-局部对齐学习层次化的查询表示, 并在公开数据集上展示了优于现有方法的性能.

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

Xiyao Wang et al.

cs.CV cs.AI

本文提出了一种名为VIVID-Med的医学视觉Transformer预训练框架, 它利用冻结的大型语言模型(LLM)作为结构化语义教师来生成监督信号. 训练完成后丢弃LLM, 得到一个轻量级、可部署的纯视觉模型, 并在多个医学图像任务上展示了优越的性能.

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Jiang Gao et al.

cs.RO cs.AI

本文提出了一种名为PM-Nav的先验地图引导具身导航方法，用于解决在特征高度相似的功能性建筑中的导航难题。该方法通过将环境地图转换为导航友好的语义先验地图，并设计多模型协作机制来提升导航性能。

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Yifan Han et al.

cs.RO cs.AI

本文提出了一个用于灵巧操作的人机协同框架 DexHiL, 它整合了手臂和灵巧手的控制, 并引入了干预感知的数据采样策略和轻量级遥操作接口. 实验表明, 该框架能有效提升 Vision-Language-Action 模型在具体任务中的性能.

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Junjie Yin, Jiaju Li, Hanfa Xing

cs.CV cs.AI

本文提出了一种用于图像超分辨率的扩散模型QUSR, 它通过一个不确定性引导的噪声生成模块来适应性地调整噪声注入, 并结合一个由多模态大语言模型驱动的质量感知先验来指导恢复过程. 实验表明该方法在真实世界场景中能生成高保真度的图像.

From Verification to Amplification: Auditing Reverse Image Search as Algorithmic Gatekeeping in Visual Misinformation Fact-checking

Cong Lin et al.

cs.SI cs.CY cs.IR

本文通过审计Google reverse image search (RIS)在视觉虚假信息核查中的表现, 发现其返回结果中包含大量无关信息和重复的虚假内容, 而辟谣内容占比不足30%且排名可见性低. 研究揭示了算法作为信息守门人在视觉领域的影响, 并观察到搜索结果质量随时间呈倒U型曲线变化.

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Tzu-Heng Huang et al.

cs.CV cs.AI cs.LG

本文提出了一种名为RubiCap的强化学习框架, 用于提升密集图像描述任务的性能. 该方法利用LLM生成的评估细则来提供细粒度的奖励信号, 从而在多个基准测试中取得了优于现有方法的结果.

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

Haoran Yang et al.

cs.RO cs.AI

本文提出了一种直接从人类第一视角视频学习仿人机器人全身控制的方法, 避免了昂贵的遥操作数据收集. 该方法利用视觉语言模型预测人体运动, 并通过运动重定向与跟踪策略控制真实机器人.

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta

math.CO cs.AI cs.CC

本文利用基于LLM的代码变异智能体AlphaEvolve，改进了五个经典Ramsey数的下界。该单一元算法能够生成针对不同Ramsey数问题的搜索算法，并成功复现了所有已知精确值的下界。

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Wuping Xin

eess.SY cs.AI cs.LG

本文提出了一种基于随机交通流动力学的物理信息生成建模框架. 该框架将随机偏微分方程转化为概率流常微分方程, 并以此作为约束训练一个可计算密度分布的分数网络.

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Paul Magron, Romain Serizel, Constance Douwes

cs.SD cs.LG

本文尝试复现了音乐源分离模型Band-Split RNN (BSRNN), 并讨论了该领域的研究可复现性问题. 作者通过大量实验未能完全复现原始结果, 但开发了一个性能更优的模型变体, 并公开了代码以促进可复现研究.

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Zongxia Li et al.

cs.CV cs.LG

本文提出了一个名为MM-Zero的基于强化学习的框架，旨在实现视觉语言模型(VLMs)从零数据开始的自我进化。该框架引入了包含提议者、编码者和解决者三个角色的多角色训练架构，并通过精心设计的奖励机制进行优化。

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Chenhui Zuo et al.

cs.RO cs.AI

本文提出了一个基于仿真的框架, 用于物理人机交互的定量分析. 该框架使用强化学习驱动的全身肌肉骨骼模型作为人类动态系统的预测代理, 并通过模拟耦合系统来共同优化机器人的结构参数与控制策略.

How Contrastive Decoding Enhances Large Audio Language Models?

Tzu-Quan Lin et al.

cs.SD cs.CL eess.AS

本文系统评估了四种不同的 Contrastive Decoding (CD) 策略在多种 Large Audio Language Model (LALM) 架构上的效果。研究发现，CD 能有效纠正模型声称音频不存在或进行不确定性猜测的错误，但无法修正错误的推理或自信的错误断言。

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Shuang Liu et al.

cs.CV cs.AI

本文提出了一种基于扩散模型的框架BridgeDiff, 用于解决虚拟试衣(VTOFF)中从着装人体图像恢复标准平面服装表示的难题. 该框架通过两个互补模块, 桥接了以人为中心的观察与平面服装合成之间的差距, 在基准测试中取得了先进的性能.

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Lei Li, Zhen Wang, Lishuo Zhang

stat.ML cs.LG math.NA

本文提出了一种基于可逆性约束的统一生成式采样框架, 适用于包含离散或混合变量的分布. 该方法通过最小化前向与反向Markov轨迹联合分布之间的Maximum Mean Discrepancy (MMD)进行训练, 仅需能量评估, 无需目标分布的梯度. 在连续、离散及混合系统上的实验验证了其有效性.

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Kanishkha Jaisankar et al.

cs.CV cs.AI

本文提出了一种用于自动驾驶的多模型方法, 整合了预训练和定制神经网络来处理交通标志分类、车辆检测、车道检测和行为克隆等任务. 该方法采用了数据增强、图像归一化和迁移学习等技术, 并在多个数据集上进行了评估, 旨在提高自动驾驶系统的鲁棒性和可靠性.

On Regret Bounds of Thompson Sampling for Bayesian Optimization

Shion Takeno, Shogo Iwazaki

stat.ML cs.LG

本文针对 Gaussian process Thompson sampling (GP-TS) 这一贝叶斯优化方法，在目标函数为高斯过程样本路径的假设下，研究了其遗憾界。文章证明了包括遗憾下界、累积遗憾二阶矩上界、宽松期望遗憾上界以及关于时间范围$T$的改进累积遗憾上界在内的多个结果。

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang

cs.CV cs.AI

本文提出了一种名为 DenoiseSplat 的前馈式 3D Gaussian Splatting 方法，用于从带噪声的多视角图像进行三维场景重建。该方法在合成的噪声数据集上进行了训练和评估，在多项图像质量指标上超越了基线方法。

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Xinyu Tong et al.

cs.CV cs.AI cs.LG

本文提出了一种名为CLoE的专家一致性学习框架，用于处理医学图像分割中模态缺失的问题。该方法通过双分支一致性学习目标来增强模态专家预测的鲁棒性，并在多个数据集上验证了其有效性。

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Aodi Wu et al.

cs.CV cs.AI

本文提出了一个用于航天器感知与位姿估计的大规模多模态基准数据集 SpaceSense-Bench. 该数据集包含136个卫星模型, 提供同步的RGB图像, 深度图, LiDAR点云以及密集的部件级语义标注和6-DoF位姿真值. 作者基于该数据集对多个代表性任务进行了基准测试, 并分析了当前方法在感知小部件和零样本泛化到新航天器时面临的瓶颈.

Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

SangYeop Jeong et al.

cs.HC cs.AI

本文提出了一种在基于LLM的VR对话agent中整合语音情感识别的方法, 通过将语音情感作为显式对话上下文来提升agent的回应质量. 一项用户研究(N=30)表明, 该方法显著改善了对话的自然度、参与度和拟人性.

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Shihao He et al.

cs.SD cs.AI

本文提出了一种名为TimberAgent的检索式音频效果控制方法, 其核心是Texture Resonance Retrieval (TRR)音频表示. 该方法基于Wav2Vec2激活的Gram矩阵构建, 旨在弥合用户感知意图与底层信号处理参数之间的语义鸿沟, 并在吉他效果基准测试中取得了较低的参数误差.

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Yang Li et al.

cs.CV cs.AI

本文提出了一个名为STAR的多智能体评估框架, 用于在零和竞争环境中评估大型语言模型(LLMs)的战略推理与快速决策能力. 该框架超越了单一的胜负结果, 通过战略评估套件分析模型的行为质量, 揭示了在实时场景中推理深度与执行速度之间的权衡.

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Yanshan Li et al.

cs.CV cs.AI

本文提出了一种基于博弈论对比学习的骨架动作识别方法 M3GCLR. 该方法通过建立无限骨架数据博弈模型和均衡定理, 并设计双损失均衡优化器, 旨在减少对标注数据的依赖并在多个基准数据集上取得了有竞争力的性能.

Flow Field Reconstruction via Voronoi-Enhanced Physics-Informed Neural Networks with End-to-End Sensor Placement Optimization

Renjie Xiao et al.

physics.flu-dyn cs.LG

本文提出了一种结合Voronoi图增强和物理信息神经网络(PINNs)的流场重建方法VSOPINN, 该方法通过可微的软Voronoi构造对稀疏传感器数据进行栅格化, 并利用质心Voronoi剖分(CVT)与PINNs进行端到端融合以实现自适应传感器布局优化. 在腔体驱动流、血管流和环形旋转流等典型问题上验证了其有效性, 表明该方法能提高不同Reynolds数下的重建精度, 并对部分传感器失效具有鲁棒性.

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Nikola Jovišić et al.

cs.CV cs.AI

本文提出了一种基于预计算特征的多示例学习框架MIL-PF, 用于乳腺X光片分类. 该方法通过冻结预训练的基础模型编码器, 仅训练一个轻量级的注意力聚合模块, 在降低计算成本的同时实现了先进的分类性能.

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Robin Doerfler, Lonce Wyse

cs.SD cs.AI eess.AS

本文提出了一种名为Pulse-Train-Resonator (PTR) 的物理信息神经网络模型，用于发动机声音建模。该模型通过参数化的脉冲序列和递归Karplus-Strong谐振器直接模拟排气脉冲的物理过程，相比传统的谐波加噪声基线模型，在谐波重建和总损失上有所提升。

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Yaping Zhang et al.

cs.CV cs.AI

本文介绍了ICDAR 2025端到端文档图像机器翻译竞赛，该竞赛旨在推动复杂版面文档的翻译研究。报告概述了竞赛动机、数据集构建、任务定义、评估协议及结果总结。

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Taesung Kwon et al.

cs.CV cs.AI cs.LG

本文提出了一种完全卷积的扩散模型(FCDM), 其主干网络类似于ConvNeXt, 专为条件扩散建模设计. 实验表明, 该模型在显著减少计算量和训练步数的情况下, 取得了与基于Transformer的扩散模型相竞争的性能, 展示了卷积架构在高效生成建模中的潜力.

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Zirui Zhang et al.

cs.CV cs.AI

本文提出了一种名为PromptDLA的领域感知提示文档布局分析框架。该框架利用描述性知识作为线索，将领域先验信息整合到模型中，以处理不同领域文档在布局结构上的差异。实验表明，该方法在多个公开数据集上取得了先进的性能。

From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation

Ju Dong et al.

cs.RO cs.AI

本文提出了一种通过隐式最大似然估计进行分布蒸馏的框架, 将条件流匹配专家模型蒸馏为快速单步学生模型, 以解决基于扩散或流匹配的生成策略在机器人操作中因迭代ODE求解导致的高延迟问题. 该方法利用双向Chamfer距离作为集合级目标来保持多模态动作分布, 并整合多视角感知信息以实现高频实时控制.

Open-World Motion Forecasting

Nicolas Schischka et al.

cs.CV cs.AI cs.RO

本文提出了开放世界运动预测的新设定, 直接处理感知不完美和对象分类随时间演化的挑战. 作者设计了一个端到端的类增量学习框架, 通过伪标签策略和基于查询特征方差的回放采样来缓解灾难性遗忘, 并在nuScenes和Argoverse 2数据集上验证了其有效性.

CERES: A Probabilistic Early Warning System for Acute Food Insecurity

Tom Danny S. Pedersen

stat.AP cs.AI

本文介绍了一个名为CERES的自动化概率预测系统, 用于预测急性粮食不安全状况. 该系统融合了六类数据流, 通过一个logistic评分模型生成未来90天的概率估计, 并承诺对所有预测进行公开的前瞻性验证.

A Critical Pair Enumeration Algorithm for String Diagram Rewriting

Anna Matsui et al.

math.CT cs.DS

本文为对称幺半范畴中的string diagram rewriting开发了一种critical pair枚举算法. 该算法通过超图的具体操作实现, 能够枚举给定左连通string diagram rewriting系统的所有critical pairs, 并证明了其正确性和完备性.

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Yoon Jo Kim et al.

cs.CV cs.AI

本文提出了一种基于guideline-aware AI agent的框架OncoAgent, 用于在放疗中实现zero-shot的临床靶区(CTV)自动勾画. 该框架无需重新训练即可将文本临床指南转换为三维轮廓, 并在食管癌等案例中取得了与全监督模型相当的勾画效果和更高的临床接受度.

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Xiangsen Chen et al.

cs.CR cs.CL

本文介绍了CyberThreat-Eval，一个基于真实网络安全威胁情报工作流程构建的评估基准，用于测试大语言模型在自动化情报分析任务中的表现。该基准采用以分析师为中心的评估指标，揭示了当前模型在处理复杂细节和辨别信息真伪方面的局限性。

Declarative Scenario-based Testing with RoadLogic

Ezio Bartocci et al.

cs.SE cs.AI cs.LO

本文提出了一种名为RoadLogic的方法, 用于将声明式的OpenSCENARIO DSL (OS2)场景规范转化为可执行的自动驾驶仿真. 该方法结合了Answer Set Programming, 运动规划和基于规范的监测来生成符合约束的、可行的具体场景. 在CommonRoad框架上的评估表明, 该方法能高效生成多样化的仿真测试用例.

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Jiajun Cao et al.

cs.CV cs.AI

本文提出了一个名为EvoDriveVLA的协作感知-规划蒸馏框架，用于提升自动驾驶视觉-语言-动作模型的性能。该方法通过自锚定视觉蒸馏和先知引导轨迹蒸馏来缓解视觉编码器解冻后的感知退化与长期规划的不稳定性问题。

Evolving Prompt Adaptation for Vision-Language Models

Enming Zhang et al.

cs.CV cs.AI

本文提出了一种名为EvoPrompt的新框架，用于解决大规模视觉语言模型(VLMs)在少样本下游任务适应中的灾难性遗忘问题。该方法通过模态共享提示投影器和进化训练策略来稳定地调整提示，同时保持模型的零样本能力。

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Run Wang et al.

cs.AR cs.LG

本文提出了一个名为TrainDeeploy的框架，用于在超低功耗的边缘系统芯片上进行高效的设备端训练。该框架支持CNN和Transformer模型，并采用了LoRA等参数高效微调技术，显著降低了内存和计算开销。

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

Nicolás Della Penna

stat.ML cs.LG

本文研究了推荐与处理不一致的bandit问题, 提出了BRACE算法. 该算法通过矩阵认证和阶段加倍, 为推荐策略和处理策略提供了具有固定间隔的识别保证.

a-TMFG: Scalable Triangulated Maximally Filtered Graphs via Approximate Nearest Neighbors

Lionel Yelibi

stat.ML cs.LG

本文提出了一种名为a-TMFG的算法, 用于从大规模数据中构建稀疏图. 该方法通过使用近似最近邻图(k-Nearest Neighbors Graphs)和动态内存管理策略, 避免了传统方法需要预计算密集相关矩阵的限制, 从而能够处理数百万观测值的数据集.

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Milo Carroll et al.

cs.RO cs.LG

本文提出了一种仅使用机载传感器实现人形机器人步态控制的方法, 称为 Sensor-Conditioned Diffusion Policies (SCDP). 该方法通过混合观测训练和去噪等技术, 避免了对外部状态估计的依赖, 并在仿真和真实机器人上验证了其鲁棒性.

A Variational Latent Equilibrium for Learning in Cortex

Simon Brandt et al.

q-bio.NC cs.AI cs.NE eess.SY physics.bio-ph

本文提出了一种基于能量守恒和极值作用原理的变分潜在平衡框架, 用于在生物合理的约束下近似时间反向传播(BPTT). 该工作统一并扩展了先前几种局部、时间连续、无相位的时空信用分配方法, 为大脑中的时空深度学习提供了一个形式化框架.

Grounding Synthetic Data Generation With Vision and Language Models

Ümit Mert Çağlar, Alptekin Temizel

cs.CV cs.AI

本文提出了一个基于视觉-语言模型的遥感图像合成数据生成与评估框架, 并发布了包含大量合成图像的ARAS400k数据集. 实验表明, 结合真实与合成数据的训练能超越仅使用真实数据的基线模型.

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

Yueen Ma, Irwin King

cs.CV cs.CL

本文提出了一个名为X-GS的可扩展开源框架，旨在统一多种3D Gaussian Splatting (3DGS) 架构，并将其与下游多模态模型连接。该框架通过一个高效的X-GS-Perceiver流水线，能够从无位姿的视频流中实时协同优化几何与位姿，并将视觉基础模型的高维语义特征提取到3D高斯中。

Multi-DNN Inference of Sparse Models on Edge SoCs

Jiawei Luo et al.

cs.DC cs.LG cs.PF

本文提出了一种称为 model stitching 的技术, 用于在边缘 SoC 上优化多 DNN 推理系统. 通过在不重新训练的情况下重组稀疏模型的子图来创建模型变体, 所展示的系统 SparseLoom 降低了 SLO 违规率并提高了吞吐量.

MM-tau-p$^2$: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

Anupam Purwar, Aditya Choudhary

cs.ET cs.AI

本文提出了一个名为MM-tau-p$^2$的基准测试，用于评估多模态智能体在双重控制设置下的鲁棒性。该基准引入了12个新指标，并利用LLM-as-judge方法在电信和零售领域进行了初步评估。

Evolution of Photonic Quantum Machine Learning under Noise

A.M.A.S.D. Alagiyawanna, Asoka Karunananda

quant-ph cs.LG

本文是一篇关于噪声对光子量子机器学习(PQML)影响的综述文章. 文章系统分析了PQML系统中的噪声来源, 并讨论了噪声对算法性能的影响以及相应的缓解策略.

When to Lock Attention: Training-Free KV Control in Video Diffusion

Tianyi Zeng et al.

cs.CV cs.AI cs.ET eess.IV

本文提出了一种无需训练的KV-Lock框架，用于提升基于DiT的视频扩散模型在编辑时的背景一致性。该方法通过检测去噪过程中的幻觉风险，动态调整背景KV缓存与新生成KV的融合比例以及CFG引导强度。实验表明，该模块能有效改善前景生成质量并保持高背景保真度。

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Nguyen Anh Tuong et al.

cs.CV cs.AI

本文利用基于transformer的架构探索了越南语视觉问答任务, 结合了文本和视觉的预训练, 并在多语言设置下系统比较了自动评估指标. 这项工作为低资源多模态学习提供了新的数据集和基准.

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Chih-Kai Yang et al.

cs.SD cs.AI cs.CL eess.AS

本文提出了一个名为MUGEN的基准测试，用于评估大型音频-语言模型在多音频理解任务上的能力。研究发现现有模型在此类任务上存在明显缺陷，并探讨了无需额外训练的策略来提升性能。

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Chengjun Yu et al.

cs.CV cs.AI cs.CL

本文提出了一个名为EXPLORE-Bench的新基准测试，用于评估多模态大语言模型在自我中心视角下进行长时程物理推理的能力。实验表明，现有模型在该任务上与人类表现存在显著差距。

Ego: Embedding-Guided Personalization of Vision-Language Models

Soroush Seifi et al.

cs.CV cs.AI

本文提出了一种基于embedding引导的高效视觉语言模型个性化方法Ego. 该方法通过利用模型内部的attention机制提取代表目标概念的视觉token, 无需额外训练即可实现个性化概念的记忆与描述.

Global universality via discrete-time signatures

Mihriban Ceylan, David J. Prömel

math.PR cs.LG q-fin.MF

本文在分段线性路径空间上建立了全局普适逼近定理, 证明了在权重函数满足可积性条件下, 对应signature的线性泛函在$L^p$范数和加权范数下是稠密的. 作为应用, 作者证明了布朗运动的分段线性插值满足该可积条件, 从而得到了关于路径依赖泛函、随机常微分方程和布朗运动驱动的随机微分方程的$L^p$逼近结果.

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Karla Tame-Narvaez et al.

hep-ph cs.AI hep-ex physics.comp-ph

本文探讨了使用基于模拟的推断(SBI)来估计中微子-核子敲出反应模型参数的可行性. 作者将SBI应用于GENIE事件生成器, 发现其推断的参数值与MicroBooNE合作组手动调优的结果相近, 并在实验数据上获得了稍好的拟合度.

What is Missing? Explaining Neurons Activated by Absent Concepts

Robin Hesse et al.

cs.CV cs.LG

本文探讨了可解释人工智能(XAI)中一个被忽视的方面，即神经元可能因某个概念的缺失而被激活。作者提出了对现有归因和特征可视化方法的简单扩展，以揭示这种“编码缺失”关系，并通过实验展示了其在模型分析和去偏中的应用。

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Kangsan Kim et al.

cs.CV cs.AI

本文提出了一个名为MA-EgoQA的新基准，用于评估模型在同时处理多个具身智能体采集的长时程第一人称视角视频上的表现。该基准包含五个推理类别的问题，并提出了一个利用共享记忆和动态检索的基线模型EgoMAS。

Almost-Optimal Upper and Lower Bounds for Clustering in Low Dimensional Euclidean Spaces

Vincent Cohen-Addad et al.

cs.CG cs.CC cs.DS

本文改进了低维欧氏空间中$k$-median和$k$-means聚类问题的近似算法运行时间，并给出了一个近乎匹配的下界。

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Laya Iyer, Angelina Wang, Sanmi Koyejo

cs.SD cs.AI

本文提出了一个名为SCENEBench的音频理解基准测试套件，旨在评估大型音频语言模型在语音识别之外的广泛音频理解能力。该基准涵盖了背景声音理解、噪声定位、跨语言语音理解和声音特征识别四个现实类别，并评估了多个先进模型的性能与延迟。

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Yixin Zheng et al.

cs.RO cs.AI

本文提出了一个Dynamics-Aware Policy Learning (DAPL)框架，用于在杂乱场景中学习利用环境接触的非抓取式操作策略。该方法通过显式世界建模学习接触动力学表示，并以此指导强化学习，在模拟和真实环境中均取得了优于基线方法的效果。

AI-Enabled Data-driven Intelligence for Spectrum Demand Estimation

Colin Brown, Mohamad Alkadamani, Halim Yanikomeroglu

eess.SY cs.AI

本文提出了一种利用AI和ML的数据驱动方法来估计和管理频谱需求。该方法使用来自站点许可数据和众包数据的多个频谱需求代理，并在真实移动网络流量数据上进行了验证。

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Yao Zhang et al.

cs.CV cs.IR

本文提出了一种基于关节角度的可解释运动表示方法, 将运动序列编码为伪图像, 并结合预训练的 Vision Transformer 与改进的 token-wise 交互机制进行文本-运动检索. 该方法在 HumanML3D 和 KIT-ML 数据集上取得了优于现有方法的结果.

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Rong Zhou et al.

cs.CV cs.AI

本文提出了一种用于多模态脑图像生成和缺失模态填补的自适应临床感知潜在扩散框架. 该框架通过动态融合可用成像数据和临床元数据, 在潜在空间中逐步去噪以合成缺失的模态.

Towards Flexible Spectrum Access: Data-Driven Insights into Spectrum Demand

Mohamad Alkadamani, Amir Ghasemi, Halim Yanikomeroglu

eess.SY cs.AI cs.NI

本文提出了一种数据驱动的方法, 用于估计移动宽带场景中频谱需求的空间变化并识别其关键驱动因素. 该方法结合了地理空间分析和机器学习, 在一个加拿大城市的案例研究中进行了应用, 展示了模型在跨区域泛化方面的潜力.

No Image, No Problem: End-to-End Multi-Task Cardiac Analysis from Undersampled k-Space

Yundi Zhang et al.

cs.CV cs.AI

本文提出了一种直接从欠采样的k-space数据中进行多任务心脏分析的端到端框架k-MTR, 避免了传统流程中先重建图像再分析的瓶颈. 该方法通过将k-space数据与全采样图像对齐到共享的语义流形中, 在多个下游任务上取得了有竞争力的性能.

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

Wenzhao Xiang et al.

cs.CV cs.LG

本文提出了一种从粗到细的掩码自编码器C2FMAE，旨在解决自监督视觉预训练中全局语义与局部细节难以兼顾的问题。该方法通过级联解码器和渐进掩码课程，在场景、对象和像素三个粒度上学习层次化视觉表示。

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Xinyu Gao, Gang Chen, Javier Alonso-Mora

cs.RO cs.AI cs.CV

本文提出了一种名为BEACON的方法，用于在遮挡条件下进行语言条件导航。该方法通过预测包含遮挡区域的鸟瞰图可通行性热图，解决了现有基于视觉语言模型的方法难以推断被遮挡目标位置的问题。实验表明，该方法在模拟环境中显著优于现有技术。

Emotional Modulation in Swarm Decision Dynamics

David Freire-Obregón

cs.MA cs.AI

本文通过引入情感效价与唤醒度作为交互速率的调节器, 扩展了描述蜂群决策的bee equation, 建立了一个基于智能体的模型. 该模型模拟了情感状态如何通过影响招募与抑制参数来偏置集体决策的结果与收敛速度.

Understanding the Use of a Large Language Model-Powered Guide to Make Virtual Reality Accessible for Blind and Low Vision People

Jazmin Collins et al.

cs.HC cs.AI cs.ET

本文研究了一种基于大型语言模型(LLM)的虚拟现实(VR)导览系统, 旨在帮助盲人和低视力(BLV)用户提升VR可访问性. 通过一项有16名BLV参与者与模拟用户互动的用户研究, 作者发现用户在不同社交情境下对该AI导览的互动方式存在差异, 并据此提出了设计建议.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others