bluearXiv-ai - 2026-04-08

📄 所有论文 ↑ 回顶部

cs.LG

A Theory-guided Weighted $L^2$ Loss for solving the BGK model via Physics-informed neural networks

Gyounghun Ko et al.

cs.LG math.NA physics.comp-ph

本文针对使用Physics-informed neural networks求解BGK模型时标准$L^2$损失函数效果不佳的问题，提出了一种速度加权的$L^2$损失函数。该方法通过理论分析和数值实验验证了其优越性。

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Diyansha Singh

cs.LG

本文在名为Territory Paint Wars的竞争性多智能体环境中，系统性地研究了PPO算法在自我对弈下的失败模式。作者识别并修正了若干实现层面的问题，并发现了一种新的“竞争性过拟合”现象，最后通过简单的对手混合策略缓解了该问题。

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

Zesheng Yao et al.

cs.LG

本文提出了一种基于自适应降阶模型(ROM)的强化学习框架, 用于主动流动控制, 以解决无模型深度强化学习(DRL)方法样本效率低的问题. 该方法在Blasius边界层流和方柱绕流两个经典问题上进行了验证, 显示出比传统DRL方法更高的数据效率.

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

Yongchang Hao, Lili Mou

cs.LG cs.AI math.OC stat.ML

本文提出了一种名为Cactus的约束接受推测采样方法, 用于加速自回归大语言模型的解码. 该方法通过约束优化框架, 在保证与验证器模型分布可控偏离的前提下, 提高了token的接受率. 实验结果表明了该方法的有效性.

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Longsheng Zhou, Yu Shen

cs.LG cs.AI

本文提出了一种名为"Prune-Quantize-Distill"的有序流水线，将非结构化剪枝、INT8量化感知训练和知识蒸馏三种技术按特定顺序结合，以在CPU上实现更优的精度-大小-延迟权衡。实验表明，该流水线相比单一技术能获得更好的综合性能，为边缘部署提供了基于实测延迟的压缩指南。

Learning-Based Multi-Criteria Decision Making Model for Sawmill Location Problems

Mahid Ahmed et al.

cs.LG

本文提出了一种结合机器学习与多准则决策的框架, 用于解决锯木厂选址问题. 通过案例研究验证了该框架的有效性, 并识别出关键影响因素.

El Nino Prediction Based on Weather Forecast and Geographical Time-series Data

Viet Trinh et al.

cs.LG

本文提出了一种结合天气预测与地理时间序列数据的新框架, 用于提升厄尔尼诺事件的预测精度与提前期. 该框架采用CNN-LSTM混合深度学习架构, 旨在从多源数据中捕捉复杂的时空前兆信号.

PRIME: Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities

Kai Yu et al.

cs.LG cs.AI

本文提出了一种名为PRIME的多模态预训练框架, 用于处理癌症预后预测中常见的模态缺失问题. 该框架通过原型驱动的语义补全和特定的预训练目标, 在模态不完整的临床数据上学习鲁棒的表征, 并在下游任务中展现出优于对比方法的性能.

Learning Stable Predictors from Weak Supervision under Distribution Shift

Mehrdad Shoeibi et al.

cs.LG cs.AI

本文研究了在分布偏移下从弱监督中学习稳定预测因子的问题, 特别是在监督机制本身可能变化的情况下. 通过CRISPR-Cas13d实验构建了一个非独立同分布的基准测试, 发现特征-标签关系在细胞系间稳定但在时间上发生显著变化, 导致时间迁移失败, 这归因于监督漂移而非模型限制.

Energy-Based Dynamical Models for Neurocomputation, Learning, and Optimization

Arthur N. Montanari et al.

cs.LG cond-mat.dis-nn eess.SY math.DS

本文综述了基于能量的动力学模型在神经计算、学习和优化中的应用. 它回顾了经典模型并介绍了现代发展, 旨在弥合人工系统与生物系统之间的差距.

PCA-Driven Adaptive Sensor Triage for Edge AI Inference

Ankit Hemant Lade et al.

cs.LG cs.AI eess.SY

本文提出了一种名为PCA-Triage的流式算法, 用于在带宽受限的边缘AI推理场景中, 自适应地分配多通道传感器网络的采样率. 该方法基于增量PCA计算, 将主成分载荷转换为与信道重要性成比例的采样率, 实现了无参数的高效在线决策. 实验表明, 该算法在多个基准数据集上能以较低带宽成本保持接近全数据集的性能, 并展现出对丢包和噪声的鲁棒性.

Blind-Spot Mass: A Good-Turing Framework for Quantifying Deployment Coverage Risk in Machine Learning Systems

Biplab Pal, Santanu Bhattacharya, Madanjit Singh

cs.LG stat.ML

本文提出了一种基于Good-Turing估计的框架，用于量化机器学习系统在部署时因数据覆盖不足而带来的风险。该方法通过估计在训练数据中支持度低于某个阈值的状态的总概率质量，为评估模型在长尾分布下的可靠性提供了原则性指标。

Dynamic Linear Coregionalization for Realistic Synthetic Multivariate Time Series

Annita Vapsi et al.

cs.LG cs.AI

本文提出了一种动态线性协同区域化模型(DynLMC), 用于生成具有时变相关性和跨通道滞后结构的多元时间序列. 实验表明, 使用该模型生成的合成数据对基础模型进行微调, 可以提升其在多个基准测试上的零样本预测性能.

Towards Scaling Law Analysis For Spatiotemporal Weather Data

Alexander Kiefer, Prasanna Balaprakash, Xiao Wang

cs.LG

本文将神经网络scaling law分析扩展到自回归天气预报领域, 研究了不同预测时间步长和物理通道下的误差分布与scaling行为. 研究发现, 全局聚合的误差指标可能掩盖了不同通道和预测步长上的性能退化, 这对模型训练目标设计和资源分配具有启示意义.

Hierarchical SVG Tokenization: Learning Compact Visual Programs for Scalable Vector Graphics Modeling

Ximing Xing et al.

cs.LG

本文提出了一种名为HiVG的分层SVG标记化框架，用于改进自回归矢量图形生成。该方法通过将SVG命令-参数组压缩为几何约束的段标记，并引入分层均值-噪声初始化策略，旨在提高生成保真度、空间一致性和序列效率。

Feature-Aware Anisotropic Local Differential Privacy for Utility-Preserving Graph Representation Learning in Metal Additive Manufacturing

MD Shafikul Islam et al.

cs.LG cs.AI cs.CR

本文提出了一种用于金属增材制造中图表示学习的特征感知各向异性本地差分隐私方法. 该方法结合了分层图注意力网络和基于特征重要性的噪声注入机制, 旨在保护数据隐私的同时保持模型在缺陷检测任务上的性能.

Vintix II: Decision Pre-Trained Transformer is a Scalable In-Context Reinforcement Learner

Andrei Polubarov et al.

cs.LG cs.AI cs.RO

本文将Decision Pre-Trained Transformer (DPT)扩展到多领域环境, 并使用Flow Matching进行训练. 得到的智能体在数百个任务上训练, 在泛化到未见任务上取得了优于先前方法的表现.

Reasoning Through Chess: How Reasoning Evolves from Data Through Fine-Tuning and Reinforcement Learning

Lucas Dionisopoulos, Nicklas Majamaki, Prithviraj Ammanabrolu

cs.LG cs.AI

本文研究了语言模型在棋类任务中推理能力的演化过程, 通过监督微调(SFT)和强化学习(RL)等方法进行实验. 研究发现, 直接预测最佳走法的训练方式能带来最强的下游性能, 但会导致推理与行动不一致的问题.

Not All Turns Are Equally Hard: Adaptive Thinking Budgets For Efficient Multi-Turn Reasoning

Neharika Jali, Anupam Nayak, Gauri Joshi

cs.LG cs.AI

本文提出了一种用于多轮推理的自适应计算预算分配方法TAB, 将其建模为多目标Markov Decision Process, 并通过Group Relative Policy Optimization进行训练. 实验表明, 该方法能在数学推理基准上节省大量计算量, 同时保持推理精度.

General Multimodal Protein Design Enables DNA-Encoding of Chemistry

Jarrid Rector-Brooks et al.

cs.LG

本文提出了一种名为DISCO的多模态模型, 用于共同设计蛋白质序列和三维结构. 该模型仅以反应中间体为条件, 成功设计了多种具有新颖活性位点几何结构的血红素酶, 能够催化自然界中不存在的卡宾转移反应.

Cross-fitted Proximal Learning for Model-Based Reinforcement Learning

Nishanth Venkatesh, Andreas A. Malikopoulos

cs.LG eess.SY

本文提出了一种用于模型强化学习的交叉拟合近端学习方法, 针对存在隐藏混杂的离线部分可观测马尔可夫决策过程(POMDPs). 该方法将桥函数学习表述为一个带有条件矩限制(CMRs)的估计问题, 并开发了一种K折交叉拟合的两阶段估计器, 以提高数据利用效率并推导了误差界.

FNO$^{\angle θ}$: Extended Fourier neural operator for learning state and optimal control of distributed parameter systems

Zhexian Li, Ketan Savla

cs.LG eess.SY

本文提出了一种扩展的Fourier neural operator (FNO)架构, 用于学习由偏微分方程(PDE)控制的系统的状态和线性二次最优控制. 该方法通过将FNO层中的频率变量从实数域扩展到复数域, 以更好地捕捉基于Ehrenpreis-Palamodov基本原理的积分表示, 并在非线性Burgers'方程的学习任务中展示了优于标准FNO的性能.

Vehicle-as-Prompt: A Unified Deep Reinforcement Learning Framework for Heterogeneous Fleet Vehicle Routing Problem

Shihong Huang et al.

cs.LG

本文提出了一个名为 Vehicle-as-Prompt (VaP) 的统一深度强化学习框架，用于解决带复杂约束的异构车队车辆路径问题。该框架通过一个跨语义编码器和多视图解码器来处理不同的问题变体，并在推理速度和泛化能力上表现出色。

On the Geometry of Positional Encodings in Transformers

Giansalvo Cirrincione

cs.LG cs.CL

本文为Transformer中的positional encodings建立了数学理论. 它证明了positional signal的必要性, 并提出了基于multidimensional scaling (MDS)的最优编码构造方法.

Curvature-Aware Optimization for High-Accuracy Physics-Informed Neural Networks

Anas Jnini et al.

cs.LG cs.AI math.NA math.OC

本文提出了几种针对physics-informed neural networks (PINNs)的优化策略, 包括Natural Gradient, Self-Scaling BFGS和Broyden方法, 旨在加速其在求解偏微分方程和常微分方程时的收敛速度. 文章在多个基准问题上进行了测试, 并讨论了这些准牛顿优化器在批量训练中的扩展性问题.

Improving Sparse Memory Finetuning

Satyam Goyal et al.

cs.LG cs.CL

本文提出了一种为预训练模型添加稀疏记忆模块的流程, 并引入了一种基于KL散度的记忆槽选择机制. 该方法旨在实现持续学习, 同时缓解灾难性遗忘问题.

DualDiffusion: A Speculative Decoding Strategy for Masked Diffusion Models

Satyam Goyal et al.

cs.LG cs.CL

本文提出了一种用于Masked Diffusion Models的推测解码框架DualDiffusion, 通过结合快速的草稿模型和精确的验证模型来提升推理效率. 实验表明, 该方法在保持高准确率的同时减少了生成步骤, 改善了质量与效率的权衡.

Extending Tabular Denoising Diffusion Probabilistic Models for Time-Series Data Generation

Umang Dobhal, Christina Garcia, Sozo Inoue

cs.LG cs.AI

本文提出了一种基于TabDDPM的时间序列数据生成方法, 通过引入轻量级的时间适配器和上下文感知嵌入模块来建模时间依赖性. 该方法在WISDM加速度计数据集上生成了具有良好时间一致性的合成序列, 并在分类任务上取得了与基线相当的性能.

Jeffreys Flow: Robust Boltzmann Generators for Rare Event Sampling via Parallel Tempering Distillation

Guang Lin et al.

cs.LG math.NA physics.comp-ph stat.ML

本文提出了一种名为Jeffreys Flow的生成框架, 用于增强对具有粗糙能量景观的物理系统的采样. 该方法通过蒸馏Parallel Tempering轨迹中的经验数据, 并利用对称的Jeffreys散度来缓解传统Boltzmann生成器中常见的模态崩溃问题.

LLMs Should Express Uncertainty Explicitly

Junyu Guo et al.

cs.LG cs.AI cs.CL

本文探讨了在大型语言模型中显式表达不确定性的两种接口: 全局置信度评分和推理过程中的局部不确定性标记. 研究表明, 这两种接口在改善模型校准、减少错误和触发外部干预方面具有互补的优势.

A Theoretical Framework for Statistical Evaluability of Generative Models

Shashaank Aiyer et al.

cs.LG cs.IT

本文为生成模型的统计评估建立了一个理论框架. 它分析了基于测试的度量(如IPMs)和Rényi散度的可评估性, 指出前者在一定条件下可从有限样本可靠估计, 而后者则不能.

Cross-Machine Anomaly Detection Leveraging Pre-trained Time-series Model

Yangmeng Li et al.

cs.LG eess.SP

本文提出了一种利用预训练时间序列模型进行跨机器异常检测的框架. 该方法通过域不变特征提取器分离机器相关和状态相关特征, 以提升模型对未见目标机器的泛化能力.

LMI-Net: Linear Matrix Inequality--Constrained Neural Networks via Differentiable Projection Layers

Sunbochen Tang, Andrea Goertzen, Navid Azizan

cs.LG

本文提出了一种名为LMI-Net的神经网络架构，它通过一个可微的投影层来强制满足线性矩阵不等式约束。该方法将约束集提升到半正定锥的交集上，并使用分裂算法进行前向传播，同时支持通过隐函数微分进行高效的反向传播。在包括不变椭球体合成等实验中，该模型在分布偏移下比软约束模型具有更好的可行性。

Training Without Orthogonalization, Inference With SVD: A Gradient Analysis of Rotation Representations

Chris Choy

cs.LG cs.CV

本文分析了在深度学习旋转估计任务中, 训练时移除正交化(orthogonalization)并在推理时应用SVD (Singular Value Decomposition) 投影的方法. 通过专门针对 $3 \times 3$ 矩阵和 $SO(3)$ 投影的梯度分析, 作者解释了SVD在训练过程中引入梯度失真(gradient distortion)的原因, 并比较了其与Gram-Schmidt方法的差异.

ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads

Jingwei Zuo et al.

cs.LG cs.AI cs.DC

本文提出了一个名为ALTO的系统, 用于高效管理和编排异构的LoRA超参数调优任务. 它通过早期终止、计算融合和调度优化来加速调优过程并提升集群利用率.

Top-K Retrieval with Fixed-Size Linear-Attention Completion: Backbone- and KV-Format-Preserving Attention for KV-Cache Read Reduction

Yasuto Hoshi, Daisuke Miyashita, Jun Deguchi

cs.LG cs.CL

本文提出了一种用于减少长文本生成中KV-cache读取开销的注意力模块。该方法在保持主干网络权重和KV-cache格式不变的前提下，通过结合对Top-K检索令牌的精确注意力计算与对剩余令牌的固定大小特征图估计，来近似完整的注意力计算。

Reproducing AlphaZero on Tablut: Self-Play RL for an Asymmetric Board Game

Tõnis Lees, Tambet Matiisen

cs.LG

本文通过修改AlphaZero架构, 为不对称棋盘游戏Tablut设计了独立的策略与价值头, 并采用数据增强等技术稳定训练. 实验表明, 该改进模型在自我对弈中能有效学习并提升游戏水平.

Channel-wise Retrieval for Multivariate Time Series Forecasting

Junhyeok Kang et al.

cs.LG

本文提出了一种名为CRAFT的通道独立检索增强框架, 用于多元时间序列预测. 该方法通过构建稀疏关系图进行候选修剪, 并在频域利用spectral similarity进行排序, 以提升预测精度和效率.

Same Graph, Different Likelihoods: Calibration of Autoregressive Graph Generators via Permutation-Equivalent Encodings

Laurits Fredsgaard et al.

cs.LG

本文探讨了自回归图生成器在评估图似然时面临的线性化不确定性问题. 作者提出使用线性化不确定性(LU)来量化不同等价序列编码对负对数似然(NLL)的影响, 并发现基于特定顺序训练的模型校准误差很高, 而LU指标在分子图生成任务中能更可靠地评估生成质量.

From Uniform to Learned Knots: A Study of Spline-Based Numerical Encodings for Tabular Deep Learning

Manish Kumar et al.

cs.LG

本文研究了基于spline的数值编码方法在表格深度学习中的应用, 比较了B-spline, M-spline和I-spline在不同节点放置策略下的效果. 实验表明, 编码方法的效果高度依赖于任务、模型和输出维度, 而可学习节点策略虽然稳定但显著增加了计算成本.

Optimal-Transport-Guided Functional Flow Matching for Turbulent Field Generation in Hilbert Space

Li Kunpeng et al.

cs.LG

本文提出了一种直接在无限维函数空间中定义的生成框架FOT-CFM, 用于湍流场生成. 该方法将物理场视为Hilbert空间中的元素, 并整合Optimal Transport理论来构建概率路径, 在多个混沌动力系统上验证了其有效性.

Controllable Image Generation with Composed Parallel Token Prediction

Jamie Stirling et al.

cs.LG

本文提出了一种用于组合条件离散概率生成过程的理论框架, 特别适用于 masked generation (absorbing diffusion). 该方法能够精确指定训练数据之外的新条件组合, 并在多个数据集上取得了显著的性能提升和加速.

Graph Topology Information Enhanced Heterogeneous Graph Representation Learning

He Zhao et al.

cs.LG cs.IR

本文提出了一个名为ToGRL的框架，用于在异构图上进行图结构学习与表示学习。该框架通过提取任务相关的拓扑信息来构建新图，并利用提示调优来增强下游任务的适应性。实验表明其在多个真实数据集上优于现有方法。

Bivariate Causal Discovery Using Rate-Distortion MDL: An Information Dimension Approach

Tiago Brogueira, Mário A.T. Figueiredo

cs.LG stat.ML

本文提出了一种基于rate-distortion理论和信息维度的新方法，用于估计因果发现中原因变量的描述长度，并结合传统机制建模构建了RDMDL方法。实验表明该方法在标准数据集上具有竞争力。

Hidden in the Multiplicative Interaction: Uncovering Fragility in Multimodal Contrastive Learning

Tillmann Rheude et al.

cs.LG

本文针对多模态对比学习中模态可靠性差异的问题, 提出了Gated Symile方法. 该方法通过基于注意力的门控机制, 动态调整不同模态的贡献, 以提升在模态缺失或不可靠情况下的鲁棒性.

Expectation Maximization (EM) Converges for General Agnostic Mixtures

Avishek Ghosh

cs.LG cs.IT stat.ML

本文研究了在非生成式(agnostic)设置下, 使用梯度EM算法拟合k个参数化函数的问题. 该框架扩展了混合线性回归, 适用于一大类具有强凸且光滑损失函数的问题, 并证明了在适当初始化和分离条件下, 算法能以指数速率收敛到总体损失最小化器.

EEG-MFTNet: An Enhanced EEGNet Architecture with Multi-Scale Temporal Convolutions and Transformer Fusion for Cross-Session Motor Imagery Decoding

Panagiotis Andrikopoulos, Siamak Mehrkanoon

cs.LG cs.AI

本文提出了一种基于EEGNet架构的新型深度学习模型EEG-MFTNet, 用于解码运动想象脑电图信号. 该模型整合了多尺度时间卷积和Transformer编码器, 在跨会话设置下取得了优于基线模型的分类准确率.

Modeling Patient Care Trajectories with Transformer Hawkes Processes

Saumya Pandey, Varun Chandola

cs.LG q-bio.QM

本文提出了一种结合Transformer和Hawkes过程的模型，用于对患者连续时间的医疗事件轨迹进行建模。该方法通过引入基于逆平方根类别的权重训练策略来处理数据中的极端类别不平衡问题。

Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data

Lehao Li et al.

cs.LG

本文提出了一种用于混合类型表格数据的权重感知自解释聚类框架WISE. 该框架通过统一的稀疏表示、多视图特征加权和两阶段聚类过程，在提升聚类质量的同时提供了可解释性保证.

The UNDO Flip-Flop: A Controlled Probe for Reversible Semantic State Management in State Space Model

Hongxu Zhou

cs.LG cs.CL

本文提出了UNDO Flip-Flop任务，用于评估State Space Models (SSMs)在非单调更新序列下进行可逆语义状态检索的能力。实验表明，Mamba-2模型未能学习到理论可表达的堆栈回滚机制，揭示了模型理论表达能力与实际梯度优化学习能力之间的差距。

ReLU Networks for Exact Generation of Similar Graphs

Mamoona Ghafoor, Tatsuya Akutsu

cs.LG cs.AI cs.DM

本文提出了一种使用ReLU神经网络精确生成满足特定图编辑距离约束的图的方法. 该方法不依赖于训练数据, 并能在理论上保证生成图的有效性.

A Mixture of Experts Foundation Model for Scanning Electron Microscopy Image Analysis

Sk Miraj Ahmed et al.

cs.LG

本文提出了一种用于扫描电子显微镜(SEM)图像分析的基础模型。该模型基于自监督Transformer架构，在大规模多仪器、多条件下的科学显微图像上进行预训练，能够泛化到不同的材料和成像条件。作为一个应用示例，该方法在无配对监督的情况下，实现了从离焦到聚焦的图像转换任务。

On Dominant Manifolds in Reservoir Computing Networks

Noa Kaplan, Alberto Padoan, Anastasia Bizyaeva

cs.LG math.DS math.OC

本文研究了Reservoir Computing (RC)网络在时间序列预测任务训练中低维主导流形的涌现。对于一个简化的线性连续时间储层模型，作者将主导模态的维度和结构与训练数据的内在维度和信息内容直接联系起来。

Data Distribution Valuation Using Generalized Bayesian Inference

Cuong N. Nguyen, Cuong V. Nguyen

cs.LG stat.ML

本文提出了一个名为 Generalized Bayes Valuation 的框架, 用于评估数据分布的价值. 该框架基于广义贝叶斯推断, 并利用可迁移性度量构建损失函数, 能够统一处理标注者评估和数据增强等实际问题. 实验结果表明了该框架的有效性和效率.

Gated-SwinRMT: Unifying Swin Windowed Attention with Retentive Manhattan Decay via Input-Dependent Gating

Dipan Maity, Suman Mondal, Arindam Roy

cs.LG

本文提出了一种结合Swin Transformer的shifted-window attention与Retentive Networks的Manhattan-distance spatial decay的混合视觉Transformer模型，并通过输入相关的门控机制进行增强。模型在Mini-ImageNet和CIFAR-10数据集上进行了评估，相比基线模型取得了更好的性能。

PromptEvolver: Prompt Inversion through Evolutionary Optimization in Natural-Language Space

Asaf Buchnick et al.

cs.LG

本文提出了一种名为PromptEvolver的方法，用于解决文本到图像生成中的prompt inversion问题。该方法利用遗传算法在自然语言空间中优化提示词，仅需图像输出即可在黑盒生成模型上工作，并在多个基准测试中取得了优于现有方法的重建效果。

A machine learning framework for uncovering stochastic nonlinear dynamics from noisy data

Matteo Bosso et al.

cs.LG cs.CE math.DS

本文提出了一种结合符号回归与概率机器学习的混合框架, 用于从含噪数据中恢复随机非线性动力学的符号方程并推断参数不确定性. 该方法在数值基准和实验生物振荡器系统上得到了验证, 展示了其在数据效率和噪声鲁棒性方面的潜力.

Learning $\mathsf{AC}^0$ Under Graphical Models

Gautam Chandrasekaran et al.

cs.LG cs.DS

本文研究了在具有多项式增长和强空间混合性质的graphical models下学习$\mathsf{AC}^0$电路的问题. 通过新的采样算法, 将均匀分布下的低阶多项式逼近结果迁移到相关分布上, 从而给出了拟多项式时间算法.

Gym-Anything: Turn any Software into an Agent Environment

Pranjal Aggarwal, Graham Neubig, Sean Welleck

cs.LG cs.AI

本文提出了一个名为Gym-Anything的框架，用于将任意软件转换为交互式智能体环境，并构建了一个大规模、长视野的计算机使用任务基准CUA-World。该方法通过多智能体协作自动完成环境创建与验证，显著降低了构建复杂软件环境的成本。

Toward Consistent World Models with Multi-Token Prediction and Latent Semantic Enhancement

Qimin Zhong et al.

cs.LG cs.AI cs.CL

本文提出了一种名为Latent Semantic Enhancement MTP (LSE-MTP)的新方法，旨在改进多令牌预测(MTP)模型，以减少其在学习世界模型时产生的结构性幻觉。该方法通过将预测锚定在真实隐藏状态轨迹上来弥合离散令牌与连续状态表示之间的差距。实验表明，LSE-MTP能增强表示对齐并提高对扰动的鲁棒性。

Target Policy Optimization

Jean Kaddour

cs.LG

本文提出了一种名为Target Policy Optimization (TPO)的新强化学习算法. 它将策略更新的目标分布构造与参数拟合过程分离开来, 通过交叉熵损失来拟合目标分布, 从而避免了传统策略梯度方法中因学习率等因素导致的更新不稳定问题. 实验表明, TPO在稀疏奖励任务上表现优于多种基线方法.

Topological Characterization of Churn Flow and Unsupervised Correction to the Wu Flow-Regime Map in Small-Diameter Vertical Pipes

Brady Koenig et al.

cs.LG math.AT

本文提出了一种基于拓扑学的方法来定量描述垂直两相流中的churn flow regime. 该方法利用Euler Characteristic Surfaces (ECS)提取特征, 并结合无监督的Multiple Kernel Learning (MKL)框架进行流型识别, 无需标注数据即可对现有经验流型图进行修正.

In-Place Test-Time Training

Guhao Feng et al.

cs.LG cs.AI cs.CL stat.ML

本文提出了一种名为 In-Place Test-Time Training (In-Place TTT) 的框架，旨在使大型语言模型能够在推理时动态更新部分参数以适配新信息。该方法通过修改模型中的特定权重并设计新的训练目标，实现了无需从头训练的高效适配。实验表明该方法能有效提升模型在长上下文任务上的性能。

cs.AI

Contextual Control without Memory Growth in a Context-Switching Task

Song-Ju Kim

cs.AI cs.IT cs.LG

本文提出了一种基于干预的循环架构, 用于解决上下文相关的顺序决策问题. 该模型通过在共享的循环潜在状态上进行干预, 避免了循环维度或显式上下文输入的增长.

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Sharath Sathish

cs.AI

本文提出了一种名为Pramana的新方法, 通过基于Navya-Nyaya逻辑框架微调大语言模型来提升其认知推理能力. 该方法在特定逻辑问题集上取得了良好的语义正确率, 并开源了相关资源.

Operational Noncommutativity in Sequential Metacognitive Judgments

Enso O. Torres Alegre, Diana E. Mora Jimenez

cs.AI

本文提出了一个用于分析顺序元认知判断中操作非对易性的理论框架. 该框架将评估建模为对内部状态空间的操作, 并推导了在经典非侵入性假设下可检验的约束条件. 一个三维旋转模型被用来展示对经典解释的违背.

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

Volodymyr Yuzefovych

cs.AI

本文提出了一种用于信息系统中对象识别的新颖的邻近性度量方法, 该方法结合了概率测度与可能性测度来处理定量与定性特征, 无需进行特征值转换即可直接比较. 作者验证了该度量满足相关公理, 并基于此提出了几种计算信息对象整体邻近度的方案.

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

Cuong Van Duc et al.

cs.AI

本文提出了一个名为ReVEL的混合框架, 它将LLM作为交互式多轮推理器嵌入到进化算法中, 用于自动化设计组合优化问题的启发式方法. 该方法通过性能分组和反馈驱动的反思机制来生成更鲁棒和多样化的启发式规则.

Algebraic Structure Discovery for Real World Combinatorial Optimisation Problems: A General Framework from Abstract Algebra to Quotient Space Learning

Min Sun et al.

cs.AI

本文提出了一个用于组合优化问题的通用代数结构发现框架. 该框架通过识别代数结构、构造商空间来缩小搜索空间, 并在多个规则组合任务上验证了其有效性.

PaperOrchestra: A Multi-Agent Framework for Automated AI Research Paper Writing

Yiwen Song et al.

cs.AI cs.LG cs.MA

本文提出了一个用于自动化撰写AI研究论文的多智能体框架PaperOrchestra. 该框架能够将非结构化的研究材料转化为完整的LaTeX稿件, 并在人工评估中优于现有基线.

Part-Level 3D Gaussian Vehicle Generation with Joint and Hinge Axis Estimation

Shiyao Qian et al.

cs.AI cs.CV cs.RO

本文提出了一种从单张图像或稀疏多视角输入生成可动画化3D Gaussian车辆模型的框架. 该框架通过部件边缘细化模块和运动学推理头来预测部件关节和铰链轴, 旨在解决静态生成模型在部件动画时产生的失真问题.

MMORF: A Multi-agent Framework for Designing Multi-objective Retrosynthesis Planning Systems

Frazier N. Baker et al.

cs.AI cs.CL

本文提出了一个用于设计多目标逆合成规划系统的多智能体框架MMORF. 该框架具有模块化的智能体组件, 可用于构建和评估不同的系统设计. 在包含218个任务的新基准测试上, 基于该框架构建的两个代表性系统在软约束和硬约束任务上分别展现出了良好的性能.

MedGemma 1.5 Technical Report

Andrew Sellergren et al.

cs.AI

本文介绍了MedGemma 1.5 4B模型，它在MedGemma 1的基础上扩展了对高维医学影像、解剖定位和多时间点分析等新模态的处理能力。报告展示了该模型在多项医学任务上的性能提升。

Uncertainty-Guided Latent Diagnostic Trajectory Learning for Sequential Clinical Diagnosis

Xuyang Shen et al.

cs.AI

本文提出了一个基于LLM的序列临床诊断框架LDTL, 它将诊断过程建模为两个agent的交互: 一个规划agent负责选择检查, 一个诊断agent负责给出诊断. 通过引入一个鼓励获取更多诊断信息的后验分布来引导规划agent学习有效的证据获取轨迹.

Non-monotonic causal discovery with Kolmogorov-Arnold Fuzzy Cognitive Maps

Jose L. Salmeron

cs.AI

本文提出了一种名为 Kolmogorov-Arnold Fuzzy Cognitive Map (KA-FCM) 的新架构，用于解决传统 Fuzzy Cognitive Maps 在建模非单调因果关系时的局限性。该方法利用 Kolmogorov-Arnold 表示定理，将静态权重替换为可学习的 B-spline 函数，从而在不增加图复杂度的情况下实现非单调因果建模。实验表明，KA-FCM 在多个任务上优于传统方法，并保持了模型的 interpretability。

A mathematical theory of evolution for self-designing AIs

Kenneth D Harris

cs.AI cs.CY q-bio.PE

本文提出了一个关于自我设计AI进化的数学模型, 将生物进化中的随机突变替换为有向的程序树. 模型表明, 进化动态不仅反映当前适应度, 还涉及后代谱系的长期增长潜力, 并探讨了在适应度与人类效用不完全一致时可能产生的欺骗风险.

IntentScore: Intent-Conditioned Action Evaluation for Computer-Use Agents

Rongqian Chen et al.

cs.AI

本文提出了IntentScore, 一个用于评估计算机使用智能体(CUAs)动作质量的奖励模型. 它通过从大量离线GUI交互数据中学习, 能够对候选动作进行评分, 并在未见过的环境中提升了任务成功率.

Bypassing the CSI Bottleneck: MARL-Driven Spatial Control for Reflector Arrays

Hieu Le et al.

cs.AI eess.SP

本文提出了一种基于多智能体强化学习(MARL)的框架，用于控制可重构智能表面(RIS)中的机械可调反射器阵列。该方法通过将高维机械控制映射到虚拟焦点空间，实现了无需信道状态信息(CSI)的波束聚焦，并在动态非视距(NLOS)环境中通过仿真验证了其性能提升。

Learning to Focus: CSI-Free Hierarchical MARL for Reconfigurable Reflectors

Hieu Le et al.

cs.AI eess.SP

本文提出了一种基于分层多智能体强化学习(HMARL)的"CSI-free"框架, 用于控制可重构智能反射面(RIS). 该方法利用用户定位数据替代信道状态信息(CSI)估计, 并通过高层控制器分配用户与反射面、低层控制器优化连续焦点的方式, 有效提升了接收信号强度(RSSI).

Instruction-Tuned LLMs for Parsing and Mining Unstructured Logs on Leadership HPC Systems

Ahmad Maroof Karimi et al.

cs.AI

本文提出了一种基于指令微调LLM的框架, 用于解析和挖掘高性能计算(HPC)系统产生的非结构化日志. 该方法通过领域适配和思维链推理, 实现了高效且隐私保护的日志分析, 并在实际系统日志上验证了其有效性.

ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces

Xiangyi Li et al.

cs.AI

本文提出了一个名为ClawsBench的基准测试, 用于在模拟的生产力工作空间(如Gmail, Slack, Google Calendar等)中评估LLM智能体的能力和安全性. 该基准包含44个结构化任务, 并通过实验分析了不同模型和智能体框架在任务成功率与不安全行为率上的表现.

Attribution Bias in Large Language Models

Eliza Berman et al.

cs.AI

本文构建了一个平衡作者知名度和人口统计特征的基准数据集 AttriBench, 用于评估大语言模型在引用归属任务中的表现. 研究发现, 即使是最先进的模型也存在显著的、系统性的归因准确性差异, 并揭示了一种未被标准指标捕获的、分布不均的"抑制"失败模式.

From Governance Norms to Enforceable Controls: A Layered Translation Method for Runtime Guardrails in Agentic AI

Christopher Koch

cs.AI cs.HC cs.LG cs.MA

本文提出了一种分层转换方法, 用于将治理标准(如ISO/IEC系列和NIST AI RMF)中的目标转化为可在agentic AI系统运行时执行的控制措施. 该方法通过区分治理目标、技术控制、运行时护栏和保证证据, 并引入控制元组和可执行性评估标准, 在一个采购代理的案例研究中进行了演示.

EAGLE: Edge-Aware Graph Learning for Proactive Delivery Delay Prediction in Smart Logistics Networks

Zhiming Xue, Menghao Huo, Yujue Wang

cs.AI cs.LG

本文提出了一种名为EAGLE的混合深度学习框架, 用于智能物流网络中的主动配送延迟预测. 该框架结合了轻量级Transformer patch encoder和Edge-Aware Graph Attention Network (E-GAT), 在真实数据集上取得了优于基线方法的性能.

Simulating the Evolution of Alignment and Values in Machine Intelligence

Jonathan Elsworth Eicher

cs.AI

本文通过进化理论模拟了模型对齐在种群中的长期演化. 研究关注信念中测试信号与真实价值的关联, 揭示了即使在较高相关性下, 迭代测试也可能固定欺骗性信念.

Pressure, What Pressure? Sycophancy Disentanglement in Language Models via Reward Decomposition

Muhammad Ahmed Mohsin et al.

cs.AI

本文提出了一种通过奖励分解来减少大型语言模型中奉承行为的方法. 该方法将训练信号分解为多个独立的行为维度, 并在多个基础模型上验证了其有效性.

Breakthrough the Suboptimal Stable Point in Value-Factorization-Based Multi-Agent Reinforcement Learning

Lesong Tao et al.

cs.AI

本文分析了 value-factorization-based multi-agent reinforcement learning 中收敛到次优解的问题, 并提出了一个名为 stable point 的理论概念来解释这一现象. 基于此分析, 作者提出了 Multi-Round Value Factorization (MRVF) 框架, 通过迭代地过滤次优动作来提升性能, 并在多个基准测试中验证了其有效性.

Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

Dawei Li et al.

cs.AI

本文提出了一种名为 Graph of Skills (GoS) 的结构化检索方法，用于管理大规模智能体技能库。该方法通过构建技能依赖图，在推理时高效检索相关技能子集，从而在提升任务完成效果的同时显著降低了计算开销。

TRACE: Capability-Targeted Agentic Training

Hangoo Kang et al.

cs.AI

本文提出了一个名为TRACE的端到端系统, 用于在特定环境中实现智能体(agent)的自我改进. 该系统通过对比成功与失败的轨迹来自动识别能力缺陷, 并针对每个缺陷合成训练环境, 最终通过强化学习训练LoRA适配器以提升智能体性能.

Dynamic Agentic AI Expert Profiler System Architecture for Multidomain Intelligence Modeling

Aisvarya Adeseye et al.

cs.AI

本文提出了一种基于LLaMA v3.1 (8B)的模块化agentic AI专家画像系统，用于将自然语言回答分类为Novice, Basic, Advanced, Expert四个专业等级。该系统通过静态和动态两阶段评估，在多个领域中实现了83%到97%的预测准确率。

From Retinal Evidence to Safe Decisions: RETINA-SAFE and ECRT for Hallucination Risk Triage in Medical LLMs

Zhe Yu, Wenpeng Xing, Meng Han

cs.AI

本文针对医学大语言模型(LLM)在证据不足或冲突时产生幻觉(hallucination)的安全风险问题, 提出了一个基于视网膜(retinal)证据的基准数据集RETINA-SAFE和一个两阶段白盒检测框架ECRT. ECRT框架利用模型内部表示和logit偏移进行风险分类, 在多个模型骨干上取得了优于外部不确定性基准和自适应监督基线的性能.

ETR: Entropy Trend Reward for Efficient Chain-of-Thought Reasoning

Xuan Xiong et al.

cs.AI cs.CL

本文提出了一种名为Entropy Trend Reward (ETR)的新方法，用于优化大语言模型的Chain-of-Thought (CoT)推理过程。该方法通过鼓励推理路径中熵的下降趋势来提升效率，在多个基准测试上实现了更优的准确率与推理长度权衡。

LatentAudit: Real-Time White-Box Faithfulness Monitoring for Retrieval-Augmented Generation with Verifiable Deployment

Zhe Yu, Wenpeng Xing, Meng Han

cs.AI cs.LG

本文提出了一种名为LatentAudit的白盒监控方法，用于实时评估检索增强生成(RAG)系统的输出是否忠实于检索到的证据。该方法通过计算生成模型内部残差流激活与证据表示之间的Mahalanobis距离来实现，无需额外的判别模型，且计算开销低。实验表明该方法在多个QA基准和模型家族上保持稳定，并支持基于零知识证明的可验证部署。

TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems

Md Atik Ahamed et al.

cs.AI

本文提出了一个名为TFRBench的基准测试，用于评估预测系统的推理能力。该基准通过一个多智能体框架生成可验证的推理轨迹，并在多个数据集上验证了其有效性。

LLM-as-Judge for Semantic Judging of Powerline Segmentation in UAV Inspection

Akram Hossain et al.

cs.AI

本文探讨了使用大型语言模型(LLM)作为语义评判员来评估无人机巡检中电力线分割结果的可靠性。研究设计了评估协议来测试LLM评判的重复性和感知敏感性，结果表明在受约束条件下，LLM可以作为一种可靠的监控工具。

Towards Effective In-context Cross-domain Knowledge Transfer via Domain-invariant-neurons-based Retrieval

Jianzhi Yan et al.

cs.AI

本文提出了一种基于领域不变神经元的检索方法(DIN-Retrieval), 用于在大语言模型(LLMs)的上下文学习中实现跨领域知识迁移. 该方法通过提取跨领域的通用隐藏表示来检索结构兼容的示例, 在数学和逻辑推理任务上取得了优于现有方法的效果.

Neural Assistive Impulses: Synthesizing Exaggerated Motions for Physics-based Characters

Zhiquan Wang, Bedrich Benes

cs.AI cs.GR

本文提出了一种基于脉冲空间而非力空间的外部辅助框架, 用于稳定地生成物理角色动画中的夸张运动. 该方法通过解析的高频分量和学习的低频残差校正来合成辅助信号, 实现了对高度敏捷、动力学不可行动作的鲁棒跟踪.

Reason Analogically via Cross-domain Prior Knowledge: An Empirical Study of Cross-domain Knowledge Transfer for In-Context Learning

Le Liu et al.

cs.AI

本文通过实证研究探讨了跨领域知识迁移在上下文学习(ICL)中的可行性. 研究发现, 在特定条件下, 来自源领域的示例可以提升目标领域的推理性能, 这种增益主要源于对推理结构的修复而非语义线索.

HYVE: Hybrid Views for LLM Context Engineering over Machine Data

Jian Tan et al.

cs.AI

本文提出了一个名为HYVE的框架, 用于处理包含大量机器数据(如日志, 指标)的LLM输入. 该框架通过预处理将重复的结构化数据转换为混合视图并选择性暴露给模型, 从而显著减少了token使用并提升了某些生成任务的准确性.

CODESTRUCT: Code Agents over Structured Action Spaces

Myeongsoo Kim et al.

cs.AI cs.SE

本文提出了一种基于结构化动作空间的代码智能体框架CODESTRUCT, 通过操作AST实体而非文本片段来提升代码编辑的可靠性. 实验表明, 该方法在多个基准测试上提高了任务成功率并显著降低了计算开销.

Multi-Agent Pathfinding with Non-Unit Integer Edge Costs via Enhanced Conflict-Based Search and Graph Discretization

Hongkai Fan et al.

cs.AI

本文提出了一种处理非单位整数边成本的MAPFZ问题变体, 并开发了CBS-NIC算法框架和BOGD图离散化方法来解决它. 实验表明该方法在运行时间和成功率上优于现有技术.

PRISM-MCTS: Learning from Reasoning Trajectories with Metacognitive Reflection

Siyuan Cheng et al.

cs.AI cs.CL

本文提出了一种名为PRISM-MCTS的新型推理框架，通过整合Process Reward Model (PRM)与动态共享内存来提升Monte Carlo Tree Search (MCTS)在推理任务中的效率。该方法减少了计算冗余，并在多个推理基准测试中取得了优于现有方法的效果。

Automated Auditing of Hospital Discharge Summaries for Care Transitions

Akshat Dasula, Prasanna Desikan, Jaideep Srivastava

cs.AI

本文提出了一种利用本地部署的LLMs对医院出院小结进行大规模自动化审核的框架. 该方法基于DISCHARGED框架将核心的护理过渡要求转化为结构化验证清单, 并在MIMIC-IV数据库上进行了验证.

Adaptive Serverless Resource Management via Slot-Survival Prediction and Event-Driven Lifecycle Control

Zeyu Wang et al.

cs.AI

本文提出了一种基于事件驱动架构和概率建模的自适应工程框架, 用于优化 serverless 计算的性能. 该系统通过动态调整空闲时长和基于 slot 存活预测的智能请求等待策略, 在多云环境中显著减少了冷启动并提升了成本效益.

OntoTKGE: Ontology-Enhanced Temporal Knowledge Graph Extrapolation

Dongying Lin et al.

cs.AI

本文提出了一个名为 OntoTKGE 的框架, 用于时序知识图谱(TKG)的外推预测任务. 该框架通过整合本体知识来增强实体嵌入, 以缓解历史交互稀疏的问题, 并在多个数据集上验证了其有效性.

Can We Trust a Black-box LLM? LLM Untrustworthy Boundary Detection via Bias-Diffusion and Multi-Agent Reinforcement Learning

Xiaotian Zhou et al.

cs.AI cs.CL

本文提出了一种名为GMRL-BD的新算法，用于检测黑盒大语言模型（LLM）在哪些主题上可能产生不可信的答案。该方法基于知识图谱，利用多智能体强化学习来高效识别模型可能产生偏见的话题，并通过实验验证了其有效性。

Auditable Agents

Yi Nian et al.

cs.AI

本文讨论了LLM agents的可审计性问题, 定义了accountability, auditability和auditing的区别, 并提出了agent auditability的五个维度和三类机制. 通过生态系统测量, 运行时可行性测试和受控恢复实验等分层证据支持其观点, 并提出了Auditability Card和六个开放研究问题.

SCMAPR: Self-Correcting Multi-Agent Prompt Refinement for Complex-Scenario Text-to-Video Generation

Chengyi Yang et al.

cs.AI cs.MA

本文提出了一种用于复杂场景文本到视频生成的自校正多智能体提示词优化框架SCMAPR. 该框架通过协调多个智能体进行场景感知的策略选择、策略驱动的提示词改写以及结构化语义验证, 旨在提升复杂文本提示下的生成质量. 实验表明, 该方法在多个基准测试上提高了文本-视频对齐度和整体生成质量.

Thinking Diffusion: Penalize and Guide Visual-Grounded Reasoning in Diffusion Multimodal Language Models

Keuntae Kim, Mingyu Kang, Yong Suk Choi

cs.AI cs.CV

本文针对扩散多模态大语言模型(dMLLMs)在结合思维链(CoT)推理时存在的过早生成答案和视觉信息利用不足的问题, 提出了位置与步数惩罚(PSP)和视觉推理引导(VRG)两种方法. 实验表明该方法能有效提升模型推理准确性和速度.

OmniDiagram: Advancing Unified Diagram Code Generation via Visual Interrogation Reward

Haoyue Yang et al.

cs.AI

本文提出了一个统一的图表代码生成框架 OmniDiagram, 并引入了基于视觉质询的奖励策略 Viva 来优化生成代码的视觉保真度. 该方法在构建的大规模数据集上取得了先进的性能.

UniCreative: Unifying Long-form Logic and Short-form Sparkle via Reference-Free Reinforcement Learning

Xiaolong Wei et al.

cs.AI

本文提出了一个用于创意写作的统一强化学习框架UniCreative, 它包含一个自适应约束感知的奖励模型AC-GenRM和一个策略优化算法ACPO. 该方法旨在无需监督微调和参考文本的情况下, 协调长文本的全局逻辑与短文本的局部表达力.

Market-Bench: Benchmarking Large Language Models on Economic and Trade Competition

Yushuo Zheng et al.

cs.AI

本文提出了一个名为Market-Bench的基准测试，用于评估大语言模型在经济与贸易竞争中的资源管理能力。该基准通过一个可配置的多智能体供应链经济模型，测试模型在采购和零售阶段的决策表现。

ActivityEditor: Learning to Synthesize Physically Valid Human Mobility

Chenjie Yang et al.

cs.AI

本文提出了一个名为ActivityEditor的双LLM智能体框架, 用于零样本跨区域的人类移动轨迹生成. 该框架通过分解任务并使用强化学习确保轨迹的物理有效性, 在数据稀缺场景下展现了良好的泛化能力.

Inventory of the 12 007 Low-Dimensional Pseudo-Boolean Landscapes Invariant to Rank, Translation, and Rotation

Arnaud Liefooghe, Sébastien Verel

cs.AI

本文对伪布尔函数在维度1, 2, 3下的不变性景观类进行了详尽编目。研究考虑了排序、邻域结构以及平移和旋转对称性，共识别出12,007个类别，为理解景观难度和算法性能提供了基础。

Experience Transfer for Multimodal LLM Agents in Minecraft Game

Chenghao Li et al.

cs.AI

本文提出了一个面向经验迁移的记忆框架Echo, 用于提升多模态LLM智能体在复杂游戏环境中的任务解决效率. 该框架将可重用知识分解为多个维度, 并利用上下文类比学习来检索和适配经验, 在Minecraft环境中的实验验证了其有效性.

SignalClaw: LLM-Guided Evolutionary Synthesis of Interpretable Traffic Signal Control Skills

Da Lei et al.

cs.AI

本文提出了一种名为SignalClaw的框架，它利用大型语言模型(LLM)作为进化技能生成器，来合成可解释的交通信号控制技能。该框架通过模拟指标生成自然语言反馈来引导技能进化，并引入了事件驱动的组合进化机制，以应对紧急车辆等特殊场景。

A canonical generalization of OBDD

Florent Capelli et al.

cs.AI cs.DS

本文提出了一种称为Tree Decision Diagrams (TDD)的布尔函数表示模型，它推广了OBDD (Ordered Binary Decision Diagram)。TDD是结构化d-DNNF (deterministic Decomposable Negation Normal Form)的一种限制形式，遵循一个给定的vtree $T$。研究表明，TDD在模型计数、枚举等操作上与OBDD具有相同的易处理性，但表达能力更强。

From Large Language Model Predicates to Logic Tensor Networks: Neurosymbolic Offer Validation in Regulated Procurement

Cedric Haufe, Frieder Stolzenburg

cs.AI

本文提出了一种结合符号与亚符号人工智能的神经符号方法, 用于受监管公共机构的投标文件验证. 该方法利用语言模型提取信息, 并通过逻辑张量网络(LTN)进行聚合以生成可审计的决策, 其关键优势在于可解释性和模块化.

COSMO-Agent: Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

Liyuan Deng et al.

cs.AI cs.GR

本文提出了一个名为COSMO-Agent的工具增强强化学习框架，旨在解决工业设计仿真优化中的CAD-CAE语义鸿沟问题。该框架通过将CAD生成、CAE求解等步骤构建为交互式环境，训练LLM协调外部工具并修改几何参数以满足约束。

ResearchEVO: An End-to-End Framework for Automated Scientific Discovery and Documentation

Zhe Zhao et al.

cs.AI math.OC

本文提出了一个名为ResearchEVO的端到端框架，用于自动化科学发现与文档撰写。该框架包含一个通过LLM引导、仅依据适应度进行代码演化的发现阶段，以及一个基于检索增强生成自动撰写完整研究论文的写作阶段。

Label Effects: Shared Heuristic Reliance in Trust Assessment by Humans and LLM-as-a-Judge

Xin Sun et al.

cs.AI cs.CL

本文通过实验发现, 无论是人类还是作为评估者的LLM, 其信任判断都会受到信息来源标签的显著影响. 研究揭示了这种启发式依赖在人类眼动模式和LLM内部注意力机制上的相似性, 对LLM-as-a-Judge评估方法的有效性提出了质疑.

Beyond Behavior: Why AI Evaluation Needs a Cognitive Revolution

Amir Konigsberg

cs.AI cs.HC

本文批判性地审视了AI评估中根深蒂固的行为主义范式，认为其源于图灵测试的哲学承诺，并限制了AI研究对智能本质的深入探究。作者主张AI领域需要一场类似心理学“认知革命”的范式转变，以超越单纯的行为输出，关注内部的计算过程与机制。

PECKER: A Precisely Efficient Critical Knowledge Erasure Recipe For Machine Unlearning in Diffusion Models

Zhiyong Ma et al.

cs.AI

本文提出了一种名为PECKER的高效机器遗忘方法，用于扩散模型。该方法通过引入显著性掩码来优先更新对遗忘目标数据贡献最大的参数，从而减少不必要的梯度计算，在不牺牲遗忘效果的前提下缩短训练时间。

CuraLight: Debate-Guided Data Curation for LLM-Centered Traffic Signal Control

Qing Guo et al.

cs.AI

本文提出了一种名为CuraLight的LLM-centered框架，用于交通信号控制。该框架结合了强化学习agent进行环境探索与数据生成，并利用多LLM集成审议系统来评估动作，旨在提升模型的泛化能力与可解释性。实验表明，该方法在多个真实交通网络上优于现有基线。

LUDOBENCH: Evaluating LLM Behavioural Decision-Making Through Spot-Based Board Game Scenarios in Ludo

Ojas Jain, Dhruv Kumar

cs.AI cs.CL cs.GT cs.LG cs.MA

本文提出了一个名为LudoBench的基准测试，用于评估大型语言模型在Ludo棋类游戏中的策略推理能力。该基准包含手工设计的场景和一个支持多种代理的模拟器，测试发现模型表现与理论最优策略存在显著差距，并揭示了提示敏感性等问题。

QA-MoE: Towards a Continuous Reliability Spectrum with Quality-Aware Mixture of Experts for Robust Multimodal Sentiment Analysis

Yitong Zhu et al.

cs.AI

本文提出了一个名为QA-MoE的框架，用于处理多模态情感分析中模态缺失或质量下降的问题。该框架通过自监督的偶然不确定性量化模态可靠性，并引导专家路由，以抑制不可靠信号带来的误差。

Can Large Language Models Reinvent Foundational Algorithms?

Jian Zhao et al.

cs.AI

本文通过一个"Unlearn-and-Reinvent"的流程, 测试了大型语言模型(LLMs)重新发明计算机科学基础算法的能力. 实验表明, 即使提供提示, 模型在复杂算法上的表现仍然有限, 但生成验证器在推理过程中起到了关键作用.

Emergent social transmission of model-based representations without inference

Silja Keßler et al.

cs.AI

本文通过强化学习模拟, 探讨了无需心智推断的简单社会学习如何间接传递高级表征. 研究发现, 基于模型的学习者通过观察专家行为, 其内部表征会向专家表征收敛, 从而加速学习.

Hierarchical Reinforcement Learning with Augmented Step-Level Transitions for LLM Agents

Shuai Zhen et al.

cs.AI cs.LG

本文提出了一个名为STEP-HRL的分层强化学习框架，用于提升LLM agent在复杂决策任务中的效率。该方法通过构建增强的步级状态转移，减少了对长交互历史的依赖，从而在多个基准测试上实现了更好的性能与泛化能力，同时降低了计算开销。

Reciprocal Trust and Distrust in Artificial Intelligence Systems: The Hard Problem of Regulation

Martino Maggetti

cs.AI cs.CY

本文探讨了人工智能(AI)系统与人类之间的互信与互不信任关系, 并分析了这种动态对AI监管的影响. 文章认为AI系统应被视为具有一定能动性(agency)的实体, 这为监管带来了新的挑战和未解决的困境.

Vision-Guided Iterative Refinement for Frontend Code Generation

Hannah Sansford et al.

cs.AI

本文提出了一个利用vision-language model作为视觉评判者, 为前端代码生成提供结构化反馈以指导迭代优化的自动化框架. 该方法在真实数据集上提升了解决方案质量, 并通过参数高效微调探索了将评判能力内化到代码生成模型中的可能性.

Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring

Xiangyue Zhang

cs.AI

本文提出了一个名为Deep Researcher Agent的自主框架, 用于实现24/7不间断的深度学习实验. 该框架通过引入零成本监控, 恒定大小内存和精简工具集架构等创新, 旨在降低长期运行LLM代理的成本和复杂性.

When Do We Need LLMs? A Diagnostic for Language-Driven Bandits

Uljad Berdica et al.

cs.AI

本文研究了包含文本与数值信息的上下文多臂老虎机问题, 提出了一种基于LLM的算法LLMP-UCB, 但实验表明基于文本嵌入的轻量级数值老虎机方法能以更低成本达到或超越其性能. 作者进一步提出了一种基于嵌入几何的诊断方法, 以指导实践者在LLM驱动与轻量级方法之间进行选择.

JTON: A Token-Efficient JSON Superset with Zen Grid Tabular Encoding for Large Language Models

Gowthamkumar Nandakishore

cs.AI cs.PL

本文提出了一种名为JTON的JSON超集格式, 其核心是Zen Grid编码, 旨在通过将表格数据的列名与值分离来减少序列化时的token开销. 实验表明该格式能有效降低token数量, 并在多种LLM上保持了良好的解析与生成能力.

Joint Knowledge Base Completion and Question Answering by Combining Large Language Models and Small Language Models

Yinan Liu et al.

cs.AI

本文提出了一种结合大型语言模型(LLM)和小型语言模型(SLM)的联合框架JCQL, 用于知识库补全(KBC)和知识库问答(KBQA)任务. 该框架通过迭代方式使两个任务相互增强, 在基准数据集上取得了优于基线方法的效果.

HybridKV: Hybrid KV Cache Compression for Efficient Multimodal Large Language Model Inference

Bowen Zeng et al.

cs.AI

本文提出了一种用于多模态大语言模型推理的混合KV缓存压缩框架HybridKV. 该框架通过将注意力头分类并应用不同的压缩策略, 在显著减少内存占用的同时保持了模型性能.

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

TianZe Zhang et al.

cs.AI cs.HC

本文提出了一种基于Context-Value-Action (CVA)架构的LLM智能体，旨在解决现有智能体行为僵化的问题。该架构通过解耦行动生成与认知推理，并利用在真实人类数据上训练的Value Verifier来提升行为保真度。

MARL-GPT: Foundation Model for Multi-Agent Reinforcement Learning

Maria Nesterova et al.

cs.AI

本文提出了一种基于GPT架构的多智能体强化学习基础模型MARL-GPT, 该方法利用离线强化学习在大规模专家轨迹数据上进行训练, 并使用单一的transformer-based观测编码器, 无需针对特定任务进行调整. 实验表明, 该模型在多个不同的多智能体环境中均能取得与专用基线模型相竞争的性能.

Towards Trustworthy Report Generation: A Deep Research Agent with Progressive Confidence Estimation and Calibration

Yi Yuan, Xuhong Wang, Shanzhe Lei

cs.AI cs.CL

本文提出了一种结合渐进式置信度估计与校准的深度研究智能体, 用于提升自动生成研究报告的可信度. 该方法通过深思检索与多跳推理来锚定可验证证据, 并为生成内容分配置信度分数, 从而增强报告的透明度与用户信任.

Beyond Compromise: Pareto-Lenient Consensus for Efficient Multi-Preference LLM Alignment

Renxuan Tan et al.

cs.AI

本文提出了一种名为Pareto-Lenient Consensus (PLC)的博弈论框架，用于解决大语言模型与多种人类偏好对齐的问题。该方法通过动态协商和容忍局部性能下降，旨在探索更优的Pareto前沿。

Flowr -- Scaling Up Retail Supply Chain Operations Through Agentic AI in Large Scale Supermarket Chains

Eranga Bandara et al.

cs.AI

本文提出了一个名为Flowr的智能体AI框架, 旨在自动化大型超市连锁店的端到端零售供应链工作流. 该框架将人工操作分解为专门的AI智能体, 并通过一个中央推理LLM进行协调, 结合人在回路的监督机制, 以降低人工协调开销并改善供需匹配.

Epistemic Blinding: An Inference-Time Protocol for Auditing Prior Contamination in LLM-Assisted Analysis

Michael Cuccarese

cs.AI cs.CL

本文提出了一种称为"认知遮蔽"的推理时协议, 用于审计大型语言模型在辅助分析时, 其输出在多大程度上依赖于输入数据而非其训练记忆中的先验知识. 该方法通过将实体标识符替换为匿名代码来实现遮蔽, 并在药物靶点优先排序等任务中进行了演示.

How LLMs Follow Instructions: Skillful Coordination, Not a Universal Mechanism

Elisabetta Rocchetti, Alfio Ferrara

cs.AI

本文通过诊断性探测分析了三个经过指令调优的语言模型在九个不同任务上的表现, 结果表明指令遵循并非依赖于一个通用的机制. 研究发现任务间的表征共享有限, 且模型更倾向于协调多种已有的语言技能来遵循指令.

Artificial Intelligence and the Structure of Mathematics

Maissam Barkeshli, Michael R. Douglas, Michael H. Freedman

cs.AI math.HO math.LO

本文探讨了人工智能如何通过形式证明的全局结构来理解数学的整体结构, 提出了基于 universal proof 和 structural hypergraphs 的框架, 并讨论了实现自动化数学发现的 AI 模型所需满足的标准.

ACE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments

Wang Yang et al.

cs.AI cs.CL

本文提出了一个名为ACE-Bench的智能体评估基准，旨在解决现有基准中环境交互开销高以及任务难度分布不均的问题。该基准通过一个统一的网格规划任务，并利用可扩展的视野和可控的难度参数，在轻量级环境中实现了快速且可复现的评估。

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Bowen Ye et al.

cs.AI

本文提出了一个名为Claw-Eval的端到端评估套件，用于更全面地评估基于大语言模型的自主智能体。该套件通过多通道记录代理行为轨迹，并设计了涵盖完成度、安全性和鲁棒性的细粒度评分协议。实验表明，传统的仅评估最终结果的“轨迹不透明”方法会遗漏大量问题，并且不同模态下的智能体性能差异显著。

cs.IR

Learning to Retrieve from Agent Trajectories ⭐ 精选

Yuqi Zhou et al.

cs.IR cs.AI cs.CL

本文提出了一种新的训练范式: 从智能体轨迹中学习检索(LRAT). 针对LLM驱动的搜索智能体日益成为检索主要用户的新场景, 作者指出传统基于人类交互数据训练的检索模型存在根本性不匹配. 通过系统分析智能体在搜索过程中的多步交互轨迹(如浏览动作, 未浏览拒绝和浏览后推理痕迹), LRAT框架能够从中挖掘高质量的检索监督信号, 并通过加权优化融入相关性强度. 实验表明, 使用LRAT训练的检索器在不同智能体架构和规模下, 均能持续提升证据召回率, 端到端任务成功率和执行效率, 为智能体搜索时代的检索模型训练提供了实用且可扩展的监督来源.

Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems

Uday Allu et al.

cs.IR cs.AI

本文提出了一种针对网页文档的高效分块框架 W-RAC. 该方法将文本提取与语义分块规划解耦, 通过结构化表示和利用 LLM 进行分组决策而非文本生成, 显著降低了 token 消耗和成本.

SUMMIR: A Hallucination-Aware Framework for Ranking Sports Insights from LLMs

Nitish Kumar et al.

cs.IR cs.AI

本文提出了一个名为SUMMIR的框架, 用于从体育新闻文章中自动提取并排序赛前和赛后的关键见解. 该工作构建了一个包含多项目的数据集, 并利用多种大型语言模型(LLMs)生成见解, 最后通过一个新颖的排序架构根据用户兴趣对见解进行排名.

From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering

José Guilherme Marques dos Santos et al.

cs.IR cs.AI cs.LG

本文系统评估了四种开源PDF转Markdown工具对下游RAG系统问答准确率的影响。研究发现，文档预处理的质量，特别是元数据增强和层次感知分块策略，对性能的影响大于转换工具本身的选择。

MG$^2$-RAG: Multi-Granularity Graph for Multimodal Retrieval-Augmented Generation

Sijun Dai et al.

cs.IR cs.AI

本文提出了一个名为MG$^2$-RAG的轻量级多粒度图检索增强生成框架，旨在解决多模态大语言模型中的幻觉和复杂跨模态推理问题。该方法通过构建分层多模态知识图并引入多粒度图检索机制，在多个任务上实现了先进的性能，同时显著降低了计算开销。

Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation

Junwei Pan et al.

cs.IR

本文介绍了Tencent Advertising Algorithm Challenge 2025及其支撑数据集TencentGR-1M和TencentGR-10M。这些数据集旨在为工业广告场景下的全模态生成式推荐提供大规模、真实的基准。

CURE:Circuit-Aware Unlearning for LLM-based Recommendation

Ziheng Chen et al.

cs.IR cs.AI cs.CL cs.LG

本文提出了一种用于基于LLM的推荐系统的电路感知遗忘框架CURE, 通过将模型组件解耦为功能不同的子集并选择性更新它们, 以解决遗忘过程中的梯度冲突问题. 实验表明该方法比现有基线更有效.

Evaluation of Embedding-Based and Generative Methods for LLM-Driven Document Classification: Opportunities and Challenges

Rong Lu, Hao Liu, Song Hou

cs.IR cs.AI cs.CL cs.CV cs.LG

本文比较了基于嵌入的方法和生成式方法在LLM驱动的文档分类任务中的表现, 重点分析了模型在准确性、稳定性和计算成本之间的权衡. 研究发现, 结合Chain-of-Thought提示的生成式视觉语言模型在零样本设置下表现优于最先进的多模态嵌入模型.

CRAB: Codebook Rebalancing for Bias Mitigation in Generative Recommendation

Zezhong Fan et al.

cs.IR cs.AI

本文提出了一种名为CRAB的后处理去偏方法, 用于缓解生成式推荐(GeneRec)中的流行度偏差. 该方法通过重新平衡语义token的codebook, 并引入树形正则化器来增强语义一致性, 从而改善对冷门项目的推荐效果.

Offline RL for Adaptive Policy Retrieval in Prior Authorization

Ruslan Sharifullin, Maxim Gorshkov, Hannah Clay

cs.IR cs.AI cs.CL cs.LG

本文提出了一种用于先授权(PA)的自适应策略检索方法, 将其建模为马尔可夫决策过程(MDP). 通过离线强化学习训练代理, 在合成请求数据集上评估了CQL, IQL和DPO等算法, 结果表明该方法在决策准确性和检索效率之间取得了更好的权衡.

Entities as Retrieval Signals: A Systematic Study of Coverage, Supervision, and Evaluation in Entity-Oriented Ranking

Shubham Chatterjee

cs.IR

本文通过系统实验揭示了 entity-oriented ranking 中评估设置对结果的影响. 研究发现, 性能瓶颈在于 entity 信号的覆盖度与判别力难以兼得, 而非模型架构.

Spike Hijacking in Late-Interaction Retrieval

Karthik Suresh et al.

cs.IR cs.LG

本文研究了基于 hard maximum similarity (MaxSim) 聚合的 late-interaction retrieval 模型的训练动态。通过合成实验和真实基准测试，作者发现 MaxSim 会导致梯度高度集中于局部片段，并使其对文档长度变化更加敏感，揭示了稀疏性与鲁棒性之间的权衡。

Pay Attention to Sequence Split: Uncovering the Impacts of Sub-Sequence Splitting on Sequential Recommendation Models

Yizhou Dang et al.

cs.IR

本文探讨了 sub-sequence splitting (SSS) 在 sequential recommendation (SR) 模型评估中的潜在干扰作用。研究发现，不当的 SSS 使用会掩盖模型的真实性能，其有效性高度依赖于特定的数据拆分方法、目标策略和损失函数的组合。

Next-Scale Generative Reranking: A Tree-based Generative Rerank Method at Meituan

Shuli Wang et al.

cs.IR

本文提出了一种基于树状结构的生成式重排序方法NSGR, 用于解决推荐系统中重排序阶段的组合空间复杂性问题. 该方法通过一个从粗到细逐步扩展列表的生成器和一个提供多尺度指导的评估器来提升性能, 并在公开和工业数据集上验证了有效性.

Semantic Trimming and Auxiliary Multi-step Prediction for Generative Recommendation

Tianyu Zhan et al.

cs.IR

本文提出了STAMP框架, 通过语义自适应剪枝(SAP)压缩输入序列, 并利用多步辅助预测(MAP)增强输出监督, 以解决生成式推荐中高粒度语义ID带来的训练开销和性能不稳定问题. 实验表明该方法能提升训练效率并保持或改进模型性能.

Curr-RLCER:Curriculum Reinforcement Learning For Coherence Explainable Recommendation

Xiangchen Pan, Wei Wei

cs.IR

本文提出了一种基于课程强化学习的可解释推荐框架Curr-RLCER, 旨在解决推荐评分预测与解释生成之间的不一致性问题. 该框架通过分阶段的奖励设计来增强系统稳定性, 并在多个数据集上验证了有效性.

From Clues to Generation: Language-Guided Conditional Diffusion for Cross-Domain Recommendation

Ziang Lu et al.

cs.IR

本文提出了一种结合大型语言模型和扩散模型的跨域推荐框架LGCD, 用于解决单域用户缺乏显式对齐信号的问题. 该方法利用LLM推理构建伪重叠数据, 并通过条件扩散架构生成目标域用户表示.

Retrieve-then-Adapt: Retrieval-Augmented Test-Time Adaptation for Sequential Recommendation

Xing Tang et al.

cs.IR cs.LG

本文提出了一种名为Retrieve-then-Adapt (ReAd)的新框架，用于解决序列推荐模型在测试时难以适应实时用户偏好变化的问题。该方法通过从协同记忆数据库中检索相似项目，并利用一个轻量级模块生成增强嵌入来优化初始预测，从而在多个基准数据集上取得了优于现有方法的效果。

Data-Driven Function Calling Improvements in Large Language Model for Online Financial QA

Xing Tang et al.

cs.IR cs.CL

本文提出了一种数据驱动的流程来增强大型语言模型在在线金融问答场景中的函数调用能力. 该流程包括数据集构建、数据增强和模型训练, 旨在使通用模型更好地适应金融领域特定的API调用需求.

CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation

Siddharth Jain, Venkat Narayan Vedam

cs.IR cs.CL cs.LG

本文提出了一个名为CUE-R的轻量级干预框架，用于评估检索增强生成(RAG)中单个证据条目的效用。该方法通过扰动证据条目并观察模型在正确性、忠实度等方面的变化来进行分析。实验表明，仅评估最终答案会忽略证据的重要影响，基于干预的效用分析是RAG评估的一个实用补充。

Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment

Seongtae Hong et al.

cs.IR

本文针对跨语言信息检索(CLIR)中模型倾向于检索无关英文文档而非查询语言相关文档的问题, 提出了新的评估场景与指标来量化这一现象. 作者进一步提出了一种新颖的训练策略, 仅使用2.8k样本的小数据集即可显著提升模型的跨语言对齐能力并缓解英文倾向性问题.

Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity

Adrian Bracher, Svitlana Vakulenko

cs.IR

本文通过一个名为LIMIT的合成数据集，评估了生成式检索(generative retrieval)相对于稠密检索(dense retrieval)和传统稀疏检索(如BM25)的性能。研究发现，在原始LIMIT数据集上，生成式检索表现最佳，但在引入简单困难负样本(hard negative samples)后，其性能会显著下降。错误分析表明，性能下降与解码机制无法生成唯一标识符(identifier)有关。

The LLM Effect on IR Benchmarks: A Meta-Analysis of Effectiveness, Baselines, and Contamination

Moritz Staudinger, Wojciech Kusa, Allan Hanbury

cs.IR

本文通过分析在TREC Robust04和DL20基准上的143篇论文, 研究了引入large language models (LLM)对信息检索系统性能的影响趋势. 研究发现, 近期包含LLM组件的系统性能显著提升, 但通过数据污染检测方法也揭示了基准测试集可能存在的污染问题, 使得性能提升的真实原因难以确定.

Beyond Paper-to-Paper: Structured Profiling and Rubric Scoring for Paper-Reviewer Matching

Yicheng Pan et al.

cs.IR cs.CL cs.DL

本文提出了一种名为P2R的免训练框架, 用于改进学术会议中的审稿人推荐. 该方法通过构建结构化的论文与审稿人档案, 并采用从粗到细的流程进行匹配, 实验表明其性能优于现有基线.

Masking or Mitigating? Deconstructing the Impact of Query Rewriting on Retriever Biases in RAG

Agam Goyal et al.

cs.IR

本文研究了查询重写技术对RAG系统中稠密检索器偏差的影响. 研究发现, 简单的LLM重写能有效降低总体偏差, 但在对抗性条件下效果有限, 且不同技术对不同检索器的影响差异显著.

JUÁ - A Benchmark for Information Retrieval in Brazilian Legal Text Collections

Jayr Pereira et al.

cs.IR cs.CL

本文介绍了JUÁ, 一个用于巴西葡萄牙语法律文本信息检索的公共基准测试集. 该基准旨在支持跨异构法律文档集合的可复现和可比较的评估, 并作为一个持续评估的基础设施.

Data, Not Model: Explaining Bias toward LLM Texts in Neural Retrievers

Wei Huang et al.

cs.IR

本文探讨了神经检索器对LLM生成文本的偏好来源, 认为这种偏见源于训练数据中的非语义差异, 而非模型固有缺陷. 作者提出了两种缓解方法, 并进行了理论分析.

cs.CL

AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning ⭐ 精选

Yuanfu Sun et al.

cs.CL

本文提出了Agentic Graph Learning (AGL)这一新范式，将图学习重新定义为拓扑感知导航与LLM推理的交织过程。作者设计了首个基于强化学习的框架AgentGL，它通过图原生工具进行多尺度探索，并利用搜索约束思维和课程学习策略来优化决策。在多个文本属性图基准测试中，该方法在节点分类和链接预测任务上显著超越了现有GraphLLM和GraphRAG基线，证明了AGL在使LLM自主处理复杂关系环境方面的潜力。

TDA-RC: Task-Driven Alignment for Knowledge-Based Reasoning Chains in Large Language Models

Jiaquan Zhang et al.

cs.CL cs.AI

本文提出了一种基于拓扑结构优化大语言模型推理链的方法, 通过将不同推理范式映射到统一的拓扑空间进行量化分析, 并设计了一个优化代理来诊断和修复推理链的结构缺陷. 该方法旨在以较低成本实现接近多轮推理的性能.

The Illusion of Latent Generalization: Bi-directionality and the Reversal Curse

Julian Coda-Forno, Jane X. Wang, Arslan Chaudhry

cs.CL cs.AI

本文研究了语言模型中的"逆转诅咒"现象, 即模型无法反向推理训练过的关系. 通过比较不同的训练目标, 发现显式的双向监督信号是关键, 但模型并未形成统一的潜在概念表示.

Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space

Mohammad Reza Ghasemi Madani et al.

cs.CL cs.AI

本文提出了一种名为"Inclusion-of-Thoughts (IoT)"的渐进式自过滤策略，旨在减少大型语言模型在回答多项选择题时因干扰项而产生的偏好不稳定性。该方法通过重构问题、聚焦于合理选项来提升模型推理的稳定性和可解释性，并在多个推理基准测试中有效提升了性能。

Phase-Associative Memory: Sequence Modeling in Complex Hilbert Space

Gowrav Vishwakarma, Christopher J. Agostino

cs.CL cs.AI cs.LG

本文提出了一种名为Phase-Associative Memory (PAM)的复值循环序列模型。该模型使用复值表示，通过外积在矩阵状态中累积关联，并通过共轭内积进行检索。实验表明，在WikiText-103数据集上，该模型能达到与Transformer相近的困惑度，并讨论了其与人类及大语言模型中语义解释的非经典语境性（contextuality）的关联。

This Treatment Works, Right? Evaluating LLM Sensitivity to Patient Question Framing in Medical QA

Hye Sun Yun et al.

cs.CL cs.AI

本文在受控的检索增强生成(RAG)环境下，评估了大型语言模型(LLMs)对医疗问题中患者提问措辞的敏感性。研究发现，即使基于相同的医学证据，问题的正面或负面表述框架会显著影响模型回答的一致性，尤其是在多轮对话中。

Memory Dial: A Training Framework for Controllable Memorization in Language Models

Xiangbo Zhang, Ali Emami

cs.CL

本文提出了一个名为 Memory Dial 的训练框架, 通过一个参数 $\alpha$ 在标准 cross-entropy 和一个温度锐化的目标函数之间进行插值, 从而将记忆压力作为一个显式、可控的变量. 实验表明, 该参数能可靠地控制模型对训练数据的记忆程度, 为研究语言模型中记忆行为的涌现及其与泛化的相互作用提供了一个可控的实验框架.

Beyond LLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation

Firoj Alam et al.

cs.CL cs.AI cs.LG

本文提出了OmniScore, 一个基于小型参数模型训练的确定性评估指标家族, 旨在替代大型语言模型(LLM)作为文本生成评估的评判者. 该指标在多语言、多任务场景下进行了大规模验证, 展示了其在保持低延迟和一致性的同时, 能够可靠地提供多维度的评估分数.

Document Optimization for Black-Box Retrieval via Reinforcement Learning

Omri Uzan et al.

cs.CL cs.IR

本文提出了一种基于强化学习的文档优化方法, 用于改进黑盒检索器的性能. 该方法通过训练语言模型来转换文档表示, 使其与目标检索器下的查询分布更匹配, 并在代码和视觉文档检索任务上验证了其有效性.

Multilingual Language Models Encode Script Over Linguistic Structure

Aastha A K Verma et al.

cs.CL cs.LG

本文通过分析Llama-3.2-1B和Gemma-2-2B等蒸馏模型的语言激活单元，研究了多语言模型内部表征的组织方式。研究发现，模型的表征主要受正字法（如罗马化）等表面形式线索驱动，而非抽象的语言身份或类型学结构，后者仅在深层网络中逐渐变得可访问。

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Zhengqing Yuan et al.

cs.CL cs.DC cs.OS

本文提出了一种名为MegaTrain的以内存为中心的系统，用于在单GPU上全精度训练超大规模语言模型。该系统将模型参数和优化器状态存储在主机内存中，并通过流水线双缓冲执行引擎等技术来克服CPU-GPU带宽瓶颈，从而实现在有限GPU内存下训练超过1000亿参数的模型。

RAG or Learning? Understanding the Limits of LLM Adaptation under Continuous Knowledge Drift in the Real World

Hanbing Liu, Lang Cao, Yang Li

cs.CL

本文提出了一个用于评估大语言模型在连续知识漂移下适应能力的新基准, 并揭示了现有方法(如RAG和持续微调)在此设定下的局限性. 作者还提出了一个无需训练的时间感知检索基线方法 Chronos, 通过构建事件演化图来提升模型的时间一致性理解.

$π^2$: Structure-Originated Reasoning Data Improves Long-Context Reasoning Ability of Large Language Models

Quyet V. Do et al.

cs.CL cs.AI cs.LG

本文提出了一种从结构化数据中构建推理数据以增强大语言模型长上下文推理能力的方法 $\pi^2$. 该方法通过从Wikipedia提取表格、生成多跳分析性问题并自动验证答案来创建高质量数据, 实验表明使用该数据微调模型能在多个长上下文推理基准上带来性能提升.

SenseAI: A Human-in-the-Loop Dataset for RLHF-Aligned Financial Sentiment Reasoning

Berny Kabalisa

cs.CL cs.CE

本文介绍了一个名为SenseAI的金融情感推理数据集, 该数据集通过human-in-the-loop流程构建, 不仅包含模型输出, 还记录了完整的推理链条、置信度分数和人类修正信号. 作者利用该数据集分析了LLM在金融推理中的系统性错误模式, 并讨论了其在模型评估和对齐方面的应用潜力.

EvolveRouter: Co-Evolving Routing and Prompt for Multi-Agent Question Answering

Jiatan Huang et al.

cs.CL

本文提出了EvolveRouter框架, 通过联合优化agent质量和协作结构来改进多agent问答中的路由机制. 该框架结合了基于图的路由与指令优化, 并引入了自适应推理策略以动态决定每个查询的协作规模.

Just Pass Twice: Efficient Token Classification with LLMs for Zero-Shot NER

Ahmed Ewais, Ahmed Hashish, Amr Ali

cs.CL

本文提出了一种名为"Just Pass Twice (JPT)"的方法，用于提升大型语言模型在零样本命名实体识别任务中的性能。该方法通过将输入序列重复拼接，使模型在第二次处理时能利用完整的双向上下文信息，从而在不修改模型架构的情况下实现更高效的判别式token分类。

What Makes a Good Response? An Empirical Analysis of Quality in Qualitative Interviews

Jonathan Ivey, Anjalie Field, Ziang Xiao

cs.CL cs.AI

本文通过构建 Qualitative Interview Corpus 数据集, 实证评估了10种访谈回答质量衡量指标. 研究发现, 与核心研究问题的直接相关性是预测回答质量的最强指标, 而清晰度和基于 surprisal 的信息性等常用 NLP 评估指标则不具备预测性.

Gradient-Controlled Decoding: A Safety Guardrail for LLMs with Dual-Anchor Steering

Purva Chiniya, Kevin Scaria, Sagar Chaturvedi

cs.CL

本文提出了一种名为Gradient-Controlled Decoding (GCD) 的训练无关安全护栏方法，用于防御大语言模型(LLM)的越狱和提示注入攻击。该方法通过结合接受和拒绝两个锚定token来收紧决策边界，并在检测到有害提示时预注入拒绝token，以保证首token的安全性，同时降低了误报率并保持了较低的延迟。

Improving Clinical Trial Recruitment using Clinical Narratives and Large Language Models

Ziyi Chen et al.

cs.CL cs.AI cs.IR

本文探讨了使用基于encoder和decoder的generative large language models (LLMs) 来筛选临床叙述以辅助临床试验招募。研究比较了多种模型和策略来处理长文档，其中结合RAG策略的MedGemma模型在基准数据集上取得了最佳性能。

Faster Superword Tokenization

Craig W. Schmidt, Chris Tanner, Yuval Pinter

cs.CL

本文提出了一种加速 Superword Tokenization 算法训练的方法。通过将常规 merges 与 supermerges 的学习分离为两个阶段，并优化候选合并项的频率聚合方式，避免了在内存中保存完整文档的需求，从而实现了超过 600 倍的训练速度提升。

XMark: Reliable Multi-Bit Watermarking for LLM-Generated Texts

Jiahao Xu et al.

cs.CL cs.AI cs.CR

本文提出了一种名为XMark的多比特水印方法, 用于在LLM生成的文本中嵌入不可察觉的二进制信息. 该方法通过改进编码器设计来减少对文本质量的损害, 并能在生成文本较短时仍保持较高的解码准确率.

Exemplar Retrieval Without Overhypothesis Induction: Limits of Distributional Sequence Learning in Early Word Learning

Jon-Paul Cacioli

cs.CL cs.AI

本文通过训练autoregressive transformer语言模型在合成语料上, 研究了分布序列学习在获取overhypothesis方面的局限性. 实验表明, 模型能完美完成一阶样例检索, 但二阶泛化能力仅处于随机水平, 揭示了其在发展规模训练条件下的明确限制.

Do Domain-specific Experts exist in MoE-based LLMs?

Giang Do, Hung Le, Truyen Tran

cs.CL

本文研究了MoE-based LLMs中是否存在domain-specific experts, 并提出了一个无需额外训练和推理成本的Domain Steering Mixture of Experts (DSMoE)框架。实验表明该方法在多个模型和领域上表现良好。

Beneath the Surface: Investigating LLMs' Capabilities for Communicating with Subtext

Kabir Ahuja, Yuxuan Li, Andrew Kyle Lampinen

cs.CL

本文通过设计四个评估套件, 系统地研究了大型语言模型在沟通中理解和运用"潜台词"的能力. 研究发现, 前沿模型普遍存在过度字面化表达的倾向, 难以处理微妙的约束, 但在某些条件下可以利用"共同背景"来改善沟通.

Right at My Level: A Unified Multilingual Framework for Proficiency-Aware Text Simplification

Jinhong Jeong, Junghun Park, Youngjae Yu

cs.CL

本文提出了一个名为Re-RIGHT的强化学习框架，用于无需平行语料监督的自适应多语言文本简化。该方法整合了词汇覆盖度、语义保持和连贯性三个奖励模块，在多种语言上实现了针对目标熟练度级别的词汇简化。

DIA-HARM: Dialectal Disparities in Harmful Content Detection Across 50 English Dialects

Jason Lucas et al.

cs.CL

本文构建了DIA-HARM基准，用于评估虚假信息检测器在50种英语方言上的鲁棒性。研究发现，现有模型在方言内容上存在系统性性能下降，可能对非标准英语使用者造成不公。

Human Values Matter: Investigating How Misalignment Shapes Collective Behaviors in LLM Agent Communities

Xiangxu Zhang et al.

cs.CL

本文通过构建一个基于社会科学理论的多智能体模拟环境CIVA, 研究了LLM智能体社区中价值错位对集体行为的影响. 实验发现某些关键价值会显著改变社区动态, 并可能引发系统级故障和个体层面的涌现行为.

DQA: Diagnostic Question Answering for IT Support

Vishaal Kapoor et al.

cs.CL cs.AI

本文提出了一个用于企业IT支持的诊断问答框架DQA, 它通过维护持久的诊断状态和聚合根因级别的检索结果, 改进了标准多轮RAG系统在证据积累和假设验证方面的不足. 在模拟评估中, DQA显著提高了任务成功率并减少了交互轮次.

ICR-Drive: Instruction Counterfactual Robustness for End-to-End Language-Driven Autonomous Driving

Kaiser Hamid, Can Cui, Nade Liang

cs.CL cs.CV

本文提出了一个用于评估端到端语言驱动自动驾驶系统指令鲁棒性的诊断框架. 该框架通过生成包含多种扰动的指令变体, 在仿真环境中测试模型性能, 揭示了现有模型在指令语言变化下的可靠性缺陷.

Confidence Should Be Calibrated More Than One Turn Deep

Zhaohan Zhang et al.

cs.CL

本文提出了多轮校准任务, 将置信度校准从静态属性重构为动态挑战. 作者揭示了用户反馈会损害多轮校准, 并提出了MTCal方法来最小化新的动态校准误差指标ECE@T, 同时提出了ConfChat解码策略以提升多轮交互中的事实性与一致性.

Multi-Drafter Speculative Decoding with Alignment Feedback

Taehyeon Kim, Hojung Jung, Se-Young Yun

cs.CL

本文提出了一个名为 MetaSD 的统一框架，通过将多个草稿模型集成到推测解码过程中来加速大语言模型推理。该框架将草稿模型选择建模为一个多臂老虎机问题，并利用对齐反馈动态分配计算资源，实验表明其在多样化任务上优于单一草稿模型的方法。

Learning What Matters: Dynamic Dimension Selection and Aggregation for Interpretable Vision-Language Reward Modeling

Qiyuan Chen et al.

cs.CL cs.AI cs.CV

本文提出了VL-MDR框架，通过动态选择与聚合细粒度维度来构建可解释的视觉语言奖励模型。该方法在基准测试中表现优于现有开源模型，并能有效用于模型对齐以减少幻觉。

Content Fuzzing for Escaping Information Cocoons on Digital Social Media

Yifeng He, Ziye Tang, Hao Chen

cs.CL cs.SI

本文提出了一种名为ContentFuzz的框架，通过引导大型语言模型生成语义保持的改写，旨在改变立场检测模型的分类结果，从而帮助社交媒体内容突破信息茧房。该方法在多个数据集和模型上验证了其有效性。

Don't Act Blindly: Robust GUI Automation via Action-Effect Verification and Self-Correction

Yuzhe Zhang et al.

cs.CL

本文提出了一种名为VeriGUI的GUI自动化代理, 旨在通过显式建模动作结果和恢复机制来提升在噪声环境下的鲁棒性. 它采用了TVAE框架进行失败检测与纠正推理, 并通过两阶段训练流程结合了鲁棒监督微调和基于验证奖励的策略优化.

Cross-Modal Coreference Alignment: Enabling Reliable Information Transfer in Omni-LLMs

Hongcheng Liu et al.

cs.CL

本文针对Omni-LLMs在跨模态推理中的不足，提出了跨模态指代对齐问题，并构建了CrossOmni数据集进行评估。通过引入两种训练策略，提升了模型在相关任务上的性能。

Turbulence-like 5/3 spectral scaling in contextual representations of language as a complex system

Zhongxin Yang et al.

cs.CL cs.AI

本文通过将文本表示为基于transformer的语言模型生成的高维嵌入空间中的轨迹, 并量化沿token序列的尺度相关波动, 发现多种语言和语料中产生的功率谱在较宽频率范围内呈现指数接近$5/3$的稳健幂律. 这一标度律存在于上下文嵌入中, 但在静态词嵌入中缺失, 表明其反映了超越词汇统计的多尺度、上下文依赖的组织结构.

Learning to Edit Knowledge via Instruction-based Chain-of-Thought Prompting

Jinhu Fu et al.

cs.CL

本文提出了一种通过基于指令的思维链提示来教导大语言模型进行知识编辑的新方法. 该方法利用语言模型代理生成高质量的思维链指令数据, 并通过监督微调和策略优化进行训练, 结合检索增强生成技术实现实时知识更新. 实验表明, 该方法在多种知识编辑场景下具有良好的泛化能力.

Efficient Inference for Large Vision-Language Models: Bottlenecks, Techniques, and Prospects

Jun Zhang et al.

cs.CL

本文系统性地分析了大型视觉-语言模型(LVLM)推理过程中的效率瓶颈, 并围绕编码、预填充和解码三个阶段对现有优化技术进行了分类. 文章指出视觉token主导是主要效率障碍, 并讨论了信息密度塑造、长上下文注意力管理和内存限制克服等优化方向, 最后展望了未来研究前沿.

Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents

Yanxu Mao et al.

cs.CL

本文提出了一个名为JailAgent的框架, 用于对基于LLM的智能体进行安全测试(red-teaming). 该框架通过操纵智能体的推理轨迹和记忆检索来实施攻击, 避免了直接修改用户提示(prompt).

AutoSOTA: An End-to-End Automated Research System for State-of-the-Art AI Model Discovery

Yu Li et al.

cs.CL cs.CE

本文介绍了一个名为AutoSOTA的端到端自动化研究系统，旨在自动复现并优化顶级AI会议论文中的SOTA模型。该系统采用多智能体架构，能够处理从代码复现到实验优化等多个阶段，并在多个AI领域的论文测试中成功发现了性能超越原方法的新模型。

FastDiSS: Few-step Match Many-step Diffusion Language Model on Sequence-to-Sequence Generation--Full Version

Dat Nguyen-Cong, Tung Kieu, Hoang Thanh-Tung

cs.CL cs.AI cs.LG

本文提出了一种名为FastDiSS的新训练框架, 旨在解决连续扩散语言模型在少步采样时因自条件信号不准确而导致的性能下降问题. 通过扰动自条件信号以匹配推理噪声, 并引入token级别的噪声感知机制, 该方法在多个条件生成基准上实现了更快的推理速度.

Context-Agent: Dynamic Discourse Trees for Non-Linear Dialogue

Junan Hu et al.

cs.CL cs.AI

本文提出了一种名为Context-Agent的框架，用于将多轮对话历史建模为动态树结构，以更好地处理对话的非线性特性。作者还引入了一个新的基准NTM来评估模型在长程非线性场景下的性能。

EpiBench: Benchmarking Multi-turn Research Workflows for Multimodal Agents

Xuan Dong et al.

cs.CL

本文提出了一个用于评估多模态智能体在多轮研究流程中表现的基准测试EpiBench. 该基准通过实例化短研究流程, 要求智能体在多轮交互中跨论文导航, 整合图表证据, 并利用累积记忆回答需要跨论文比较和多图整合的客观问题. 实验表明当前领先模型在困难任务上的准确率仅为29.23%, 凸显了该领域仍有巨大改进空间.

THIVLVC: Retrieval Augmented Dependency Parsing for Latin

Luc Pommeret, Thibault Wagret, Jules Deret

cs.CL

本文提出了一个用于拉丁语依存句法分析的两阶段系统 THIVLVC. 该系统通过检索相似例句并利用大语言模型来优化基线分析结果, 在诗歌文本上取得了显著的性能提升.

YoNER: A New Yorùbá Multi-domain Named Entity Recognition Dataset

Peace Busola Falola et al.

cs.CL

本文构建了一个新的多领域约鲁巴语命名实体识别数据集YoNER, 并基于此评估了多种模型. 结果表明, 非洲中心模型表现更优, 但跨领域性能下降明显, 同时作者还发布了一个新的约鲁巴语预训练语言模型OyoBERT.

Graph-Based Chain-of-Thought Pruning for Reducing Redundant Reflections in Reasoning LLMs

Hongyuan Yuan et al.

cs.CL

本文提出了一种基于图的思维链剪枝方法, 用于减少大型语言模型推理中的冗余反思. 该方法将线性思维链转换为有向无环图并进行分支级和深度级剪枝, 通过一个三阶段的训练流程来优化模型的推理效率和准确性.

See the Forest for the Trees: Loosely Speculative Decoding via Visual-Semantic Guidance for Efficient Inference of Video LLMs

Yicheng Ji et al.

cs.CL

本文提出了一种名为LVSpec的训练无关的松散推测解码框架, 旨在降低视频大语言模型(Video-LLMs)自回归生成时的高推理延迟. 该方法通过识别视觉相关锚点令牌并采用容忍位置偏移的机制来放宽验证条件, 从而在保持模型性能的同时显著提升了推理速度.

LLM Reasoning as Trajectories: Step-Specific Representation Geometry and Correctness Signals

Lihao Sun et al.

cs.CL cs.AI cs.LG

本文通过分析 large language models 在 chain-of-thought 生成过程中的表示空间轨迹，揭示了数学推理的几何结构。研究发现，正确与错误的推理轨迹在后期阶段会系统性分离，这一特性可用于预测最终答案的正确性。

Attention Editing: A Versatile Framework for Cross-Architecture Attention Conversion

Zhen Cheng et al.

cs.CL cs.AI

本文提出了一个名为Attention Editing的框架, 用于将已训练好的大语言模型(LLM)的attention机制转换为新的架构(如MLA或GateSWA), 而无需从头开始重新预训练. 该方法通过渐进式知识蒸馏进行训练, 在保持模型性能的同时显著提升了推理效率.

Dialogue Act Patterns in GenAI-Mediated L2 Oral Practice: A Sequential Analysis of Learner-Chatbot Interactions

Liqun He et al.

cs.CL

本文分析了初中英语学习者与生成式AI语音聊天机器人互动中的对话行为模式。研究发现，高进步会话中学习者提问更多，且包含更多基于提示的纠正反馈序列。

MedLayBench-V: A Large-Scale Benchmark for Expert-Lay Semantic Alignment in Medical Vision Language Models

Han Jang et al.

cs.CL

本文提出了首个用于评估医学视觉语言模型在专家与患者间语义对齐能力的大规模多模态基准MedLayBench-V. 该数据集通过一个结构化概念锚定精炼流程构建, 旨在促进面向患者的、易于理解的医学影像解读.

Controlling Distributional Bias in Multi-Round LLM Generation via KL-Optimized Fine-Tuning

Yanbei Jiang et al.

cs.CL

本文提出了一种通过KL优化微调来控制多轮LLM生成中分布偏差的新框架. 该方法结合了Steering Token Calibration和Semantic Alignment, 旨在使模型在重复提示下生成的输出符合目标分布.

Identifying Influential N-grams in Confidence Calibration via Regression Analysis

Shintaro Ozaki et al.

cs.CL

本文通过回归分析方法, 研究了大型语言模型(LLMs)推理部分中特定$n$-gram语言表达与模型置信度之间的关系. 研究发现, 某些特定的语言信息是导致模型过度自信的原因, 并且可以通过抑制这些表达来校准置信度而不损失性能.

PhageBench: Can LLMs Understand Raw Bacteriophage Genomes?

Yusen Hou et al.

cs.CL q-bio.GN

本文提出了首个用于评估大语言模型理解原始噬菌体基因组能力的基准测试PhageBench. 该基准包含5,600个高质量样本, 覆盖筛选, 质量控制和表型注释三个阶段的五个核心任务. 评估发现, 通用推理模型在噬菌体序列识别和宿主预测任务上表现显著优于随机基线, 但在涉及长程依赖和细粒度功能定位的复杂推理任务上存在明显局限.

What Models Know, How Well They Know It: Knowledge-Weighted Fine-Tuning for Learning When to Say "I Don't Know"

Joosung Lee et al.

cs.CL cs.AI

本文提出了一种基于多采样推理的细粒度实例级知识评分方法, 用于量化大语言模型(Large Language Models, LLMs)对特定查询的已有知识. 通过此评分对微调信号进行加权, 并鼓励模型对超出知识范围的问题明确回答"我不知道". 实验表明该方法能在保持已知问题准确率的同时, 有效提升模型对未知问题的拒答能力, 并提出了相应的不确定性评估指标.

Measuring What Matters!! Assessing Therapeutic Principles in Mental-Health Conversation

Abdullah Mazhar et al.

cs.CL

本文提出了一个用于评估AI心理健康对话系统治疗原则遵循程度的框架CARE和基准FAITH-M. 该框架整合了对话上下文、对比示例检索和知识蒸馏的思维链推理, 在专家标注的数据上取得了优于强基线的性能.

CLEAR: Cross-Lingual Enhancement in Alignment via Reverse-training

Seungyoon Lee et al.

cs.CL cs.IR

本文提出了一种名为CLEAR的新型损失函数，它通过一种反向训练机制来增强跨语言检索中的对齐效果。该方法旨在缓解多语言嵌入模型在资源不平衡语言上的性能下降问题，并在实验中显示出对低资源语言的显著提升。

"OK Aura, Be Fair With Me": Demographics-Agnostic Training for Bias Mitigation in Wake-up Word Detection

Fernando López et al.

cs.CL cs.AI

本文探讨了在语音唤醒词检测中, 通过不依赖人口统计标签的训练方法来缓解模型偏见. 研究评估了数据增强和知识蒸馏等技术, 在OK Aura数据库上验证了这些方法能有效减少基于性别、年龄和口音的预测差异.

Evaluating Learner Representations for Differentiation Prior to Instructional Outcomes

Junsoo Park et al.

cs.CL cs.AI

本文提出了一种名为 distinctiveness 的表示层面度量方法, 用于在缺乏教学结果标签的情况下评估学习者表示 (learner representations) 是否保留了学生之间的差异性. 该方法基于成对距离, 无需聚类或特定任务评估. 通过在一个在线学习环境中收集的学生提问数据, 作者比较了基于单次交互和聚合长期交互的两种表示, 发现后者能产生更高的区分度.

LoRM: Learning the Language of Rotating Machinery for Self-Supervised Condition Monitoring

Xiao Qin et al.

cs.CL

本文提出了一种名为LoRM的自监督框架, 用于旋转机械的多模态信号理解和实时状态监测. 该框架将传感器信号视为一种"机器语言", 通过token化和序列预测来建模, 并利用预训练语言模型进行微调, 最终通过预测误差来指示设备健康状态.

Understanding Performance Gap Between Parallel and Sequential Sampling in Large Reasoning Models

Xiangming Gu et al.

cs.CL

本文通过实验比较了并行采样与顺序采样在大型推理模型中的性能差异. 研究发现, 性能差距的主要原因是顺序采样限制了答案空间的探索, 而非聚合操作或上下文长度的影响.

Mechanistic Circuit-Based Knowledge Editing in Large Language Models

Tianyi Zhao et al.

cs.CL

本文提出了一种基于机制电路的知识编辑框架MCircKE, 用于更新大型语言模型中的知识. 该方法通过定位并修改与特定推理任务相关的因果电路, 旨在解决现有方法在多步推理中难以有效利用已编辑知识的"推理鸿沟"问题.

FRENCH-YMCA: A FRENCH Corpus meeting the language needs of Youth, froM Children to Adolescents

Cherifa Ben Khelil et al.

cs.CL

本文介绍了French-YMCA语料库, 这是一个专门为儿童和青少年构建的法语语言资源. 该语料库包含大量文本, 旨在为训练适应年轻用户语言特点的模型提供数据基础.

FrontierFinance: A Long-Horizon Computer-Use Benchmark of Real-World Financial Tasks

Michael Krumdick et al.

cs.CL

本文提出了一个名为FrontierFinance的基准测试, 用于评估AI在复杂、长周期的真实世界金融建模任务上的表现. 该基准包含25个任务, 模拟专业工作流程, 并引入详细评分标准和人类专家基线进行比较.

"I See What You Did There": Can Large Vision-Language Models Understand Multimodal Puns?

Naen Xu et al.

cs.CL cs.AI

本文提出了一个多模态双关语生成流程和数据集MultiPun, 用于评估Vision-Language Models (VLMs)对双关语的理解能力. 研究发现现有模型难以区分双关语与对抗性干扰项, 并提出了一些提升模型理解的策略.

BOSCH: Black-Box Binary Optimization for Short-Context Attention-Head Selection in LLMs

Abbas Ghaddar et al.

cs.CL

本文提出了一种无需训练的方法 BOSCH, 用于在大语言模型的后训练混合化中选择短上下文注意力头. 该方法将问题建模为大规模邻域搜索, 并通过分层重要性探测和自适应分配滑动窗口注意力比例来优化选择.

FinReporting: An Agentic Workflow for Localized Reporting of Cross-Jurisdiction Financial Disclosures

Fan Zhang et al.

cs.CL

本文提出了一个名为FinReporting的智能体工作流, 用于处理跨司法管辖区的本地化财务报告. 该系统构建了一个统一的财务报告本体, 并通过多阶段、可审计的流程, 利用LLMs作为受约束的验证器而非自由生成器, 来提升跨不同报告制度下数据提取的一致性和可靠性.

The Model Agreed, But Didn't Learn: Diagnosing Surface Compliance in Large Language Models

Xiaojie Gu et al.

cs.CL cs.AI cs.LG

本文提出了一个诊断框架, 用于检测大型语言模型(LLMs)在知识编辑后可能出现的"表面遵从"现象. 研究发现, 当前的编辑方法可能并未真正修改模型的内部记忆, 而只是改变了其在特定提示下的输出行为.

Disentangling MLP Neuron Weights in Vocabulary Space

Asaf Avrahamy, Yoav Gur-Arieh, Mor Geva

cs.CL

本文提出了一种名为ROTATE的数据无关方法, 用于在权重空间中直接解耦MLP神经元. 该方法通过优化权重旋转以最大化其在词汇空间投影的峰度, 从而恢复稀疏、可解释的词汇通道. 实验表明, 这些通道能忠实反映神经元行为, 其聚合描述优于基于激活的基线方法.

BiMind: A Dual-Head Reasoning Model with Attention-Geometry Adapter for Incorrect Information Detection

Zhongxing Zhang et al.

cs.CL

本文提出了一个用于错误信息检测的双头推理模型 BiMind, 它通过注意力几何适配器缓解注意力塌陷, 并利用自检索知识机制引入外部知识. 实验表明该模型在公开数据集上优于先进方法, 并提供了可解释的诊断.

A Multi-Stage Validation Framework for Trustworthy Large-scale Clinical Information Extraction using Large Language Models

Maria Mahbub et al.

cs.CL cs.AI cs.IR

本文提出了一个用于基于LLM的临床信息提取的多阶段验证框架, 该框架在弱监督下实现严格评估. 该框架整合了提示校准, 基于规则的合理性过滤, 语义基础评估, 使用独立的高能力评判LLM进行针对性确认评估, 选择性专家评审和外部预测有效性分析, 以量化不确定性并表征错误模式, 而无需详尽的人工标注. 作者将该框架应用于从大量临床记录中提取物质使用障碍(SUD)诊断, 结果表明基于LLM提取的SUD诊断比结构化数据基线更准确地预测了后续的专业护理参与.

From Hallucination to Structure Snowballing: The Alignment Tax of Constrained Decoding in LLM Reflection

Hongxu Zhou

cs.CL

本文研究了在大型语言模型(LLMs)的自我反思过程中，仅通过基于大纲的约束解码来强制结构化反馈的效果。研究发现，这种方法不仅未能改善自我纠正性能，反而引发了一种新的失败模式，即“结构雪球效应”，揭示了约束解码在自主工作流中存在的内在“对齐税”。

Short Data, Long Context: Distilling Positional Knowledge in Transformers

Patrick Huber et al.

cs.CL cs.LG

本文提出通过logit-based knowledge distillation, 在仅使用packed short-context样本的情况下, 将长上下文检索能力迁移到学生模型中. 研究从Rotary Position Embedding (RoPE)的视角提供了分析, 揭示了位置信息通过教师模型输出分布影响蒸馏信号的机制.

Stories of Your Life as Others: A Round-Trip Evaluation of LLM-Generated Life Stories Conditioned on Rich Psychometric Profiles

Ben Wigler, Maria Tsfasman, Tiffany Matej Hrkalovic

cs.CL cs.AI cs.HC

本文通过让LLM基于真实心理测量数据生成个人生活故事, 再让独立的LLM从这些故事中恢复人格分数, 评估了LLM编码和解码人格特质的稳健性. 研究发现, 人格分数可以从生成的叙事中以接近人类重测信度的水平被恢复, 并且这种能力在不同模型架构和提供商之间具有鲁棒性.

LAG-XAI: A Lie-Inspired Affine Geometric Framework for Interpretable Paraphrasing in Transformer Latent Spaces

Olexander Mazurets et al.

cs.CL cs.AI

本文提出了一种名为LAG-XAI的几何框架, 将Transformer模型中的paraphrasing(释义)建模为潜在空间中的仿射变换. 该方法通过几何分解来解释语义变化, 并在多个数据集上验证了其有效性和在幻觉检测等任务中的应用潜力.

Social Dynamics as Critical Vulnerabilities that Undermine Objective Decision-Making in LLM Collectives

Changgeon Ko et al.

cs.CL cs.AI cs.MA

本文研究了多智能体环境中, 作为人类代表的LLM智能体在整合群体观点进行决策时, 其可靠性如何受到社交网络背景的影响. 实验表明, 代表智能体的决策准确性会随着社交压力(如对抗者数量、同伴能力、论证长度等)的增加而下降, 揭示了多智能体系统对社交动态的敏感性及其存在的脆弱性.

Exclusive Unlearning

Mutsumi Sasaki et al.

cs.CL

本文提出了一种名为Exclusive Unlearning的新方法，旨在通过广泛遗忘除特定领域知识外的所有内容，来广泛移除大语言模型中的有害生成风险。该方法在保持模型在医学、数学等领域指令响应能力的同时，提升了模型对包括越狱攻击在内的广泛输入的安全性。

Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

Komal Kumar et al.

cs.CL

本文介绍了一个名为Paper Circle的开源多智能体研究文献发现与分析框架。该系统通过两个互补的流水线（发现与分析）来帮助研究者检索、评估和组织学术文献，并利用基于LLM的多智能体编排框架生成可复现的结构化输出。

cs.DS

Polynomial and Pseudopolynomial Algorithms for Two Classes of Bin Packing Instances

Renan Fernando Franco da Silva et al.

cs.DS

本文针对Bin Packing Problem (BPP)中两类著名的困难实例AI和ANI，提出了新的算法。对于AI类实例，给出了polynomial-time算法；对于ANI类实例，给出了pseudopolynomial-time算法。这些算法极大地提升了求解速度，并可应用于Skiving Stock Problem (SSP)或作为精确方法的预处理步骤。

Solving Hard Instances from Knapsack and Bounded Knapsack Problems: A new state-of-the-art solver

Renan F. F. da Silva, Thiago A. de Queiroz, Rafael C. S. Schouery

cs.DS

本文提出了一个名为RECORD的新求解器, 用于解决Knapsack Problem (KP)和Bounded Knapsack Problem (BKP). 它基于现有先进求解器COMBO的核心组件, 但引入了多重性约简、动态物品聚合、改进的支配固定技术和新的可除性界等新策略, 从而在困难实例上实现了显著的性能提升.

Parameterized algorithms for $k$-Inversion

Dhanyamol Antony et al.

cs.DS

本文研究了有向图的$k$-Inversion问题, 即判断一个有向图是否存在一个大小不超过$k$的decycling family (反演族) 使其变为无环图. 作者将之前针对锦标赛(tournament)的FPT算法推广到更广的变体, 并利用该结果得到了当输入图的底层无向图为块图(block graph)时的FPT算法. 此外, 对于一般有向图, 作者给出了一个运行时间为$2^{O(\mathrm{tw}(k + \mathrm{tw}))} \cdot n^{O(1)}$的算法, 其中$\mathrm{tw}$是底层无向图的树宽(treewidth).

Maintaining Random Assignments under Adversarial Dynamics

Bernhard Haeupler, Anton Paramonov

cs.DS

本文研究了在对抗性动态变化下维护随机分配的问题, 提出了一种新的"时间聚合"原则来应对自适应对手的"时间选择"攻击. 基于此原则, 作者设计了两种新的重采样方案, 并将其应用于动态图着色和随机游走维护等问题中.

Classes Testable with $O(1/ε)$ Queries for Small $ε$ Independent of the Number of Variables

Nader H. Bshouty, George Haddad

cs.DS

本文研究了布尔函数类在查询复杂度为$O(\psi+1/\epsilon)$下的可测试性, 其中$\psi$依赖于类本身的参数(如项数, 相关变量数等)而与变量总数$n$无关. 作者将这一结果扩展到了$k$-junta, Fourier degree至多为$d$的函数, 以及$s$-sparse多项式等多个函数类. 此外, 文章还证明了对任何仅依赖于至多$k$个变量的布尔函数类, 如果它是可精确学习的, 那么对于$\epsilon<1/\psi$, 它可以用$O(1/\epsilon)$次查询进行测试.

Improved space-time tradeoff for TSP via extremal set systems

Justin Dallant, László Kozma

cs.DS math.CO

本文改进了TSP精确算法的时空权衡曲线, 将最小$ST$积降至$3.572$以下. 核心是构造了允许大量极大链的稀疏集系, 并否定了Johnson等人的一个组合猜想.

Improved Space-Time Tradeoffs for Permutation Problems via Extremal Combinatorics

Afrouz Jabal Ameli, Jesper Nederlof, Shengzhe Wang

cs.DS cs.DM

本文利用 extremal combinatorics 方法改进了 permutation problems 在 additively idempotent semi-rings 上的 space-time tradeoffs. 通过引入 set system 的新参数 chain efficiency 并构造具有高 chain efficiency 的 set systems, 作者改进了 Traveling Salesperson Problem 的算法, 将 $S \cdot T$ 的上界从 $3.9271^N$ 降至 $3.7493^N$, 并否定了 Johnson 等人的一个猜想.

$k$-Clustering via Iterative Randomized Rounding

Jarosław Byrka et al.

cs.DS

本文提出了一种基于迭代随机舍入的单一舍入算法, 用于处理标准LP松弛的分数解, 以解决$k$-聚类问题. 该算法首先为具有$L_p^p$成本函数的$k$-聚类问题提供了一个迭代舍入的$(\frac{3^p + 1}{2})$-LMP近似, 然后通过一个$(1+\varepsilon)$的因子损失将其转换为真实近似算法.

others

Contextuality as an External Bookkeeping Cost under Fixed Shared-State Semantics

Song-Ju Kim

quant-ph cs.AI cs.IT

本文在一个简单的外部标签模拟模型中, 将 contextuality 量化为一种不可约减的外部记录成本. 作者定义了 obstruction cost 作为模拟所需的最小互信息, 并证明了一个保守的定量下界.

Hypernetwork-Conditioned Reinforcement Learning for Robust Control of Fixed-Wing Aircraft under Actuator Failures

Dennis Marquis, Mazen Farhood

eess.SY cs.LG

本文提出了一种基于强化学习的路径跟踪控制器, 用于固定翼小型无人机, 该控制器对特定执行器故障具有鲁棒性. 控制器利用基于超网络的适应机制, 以执行器故障的参数化表示作为条件, 并采用了FiLM和LoRA等参数高效的形式, 通过近端策略优化进行训练. 高保真仿真验证表明, 该方法能有效泛化至训练中未出现过的时变执行器故障模式.

Sparse Autoencoders as a Steering Basis for Phase Synchronization in Graph-Based CFD Surrogates

Yeping Hu, Ruben Glatt, Shusen Liu

cs.CE cs.LG physics.comp-ph

本文针对基于图的CFD代理模型中存在的相位漂移问题, 提出了一种后处理的相位调控框架. 该方法在冻结的模型嵌入上使用稀疏自编码器(SAE)来获得解耦表示, 并通过基于Hilbert分析和SVD的时序相干干预来调整相位, 实验表明该方法优于静态干预和密集表示.

Synthetic Trust Attacks: Modeling How Generative AI Manipulates Human Decisions in Social Engineering Fraud

Muhammad Tahir Ashraf

cs.CR cs.AI

本文提出了Synthetic Trust Attacks (STAs)这一正式威胁类别，并引入了STAM模型来描述攻击链。作者认为防御重点应从检测合成媒体转向保护决策过程，并提出了相应的分类法和防御协议。

Generative AI for Video Trailer Synthesis: From Extractive Heuristics to Autoregressive Creativity

Abhishek Dharmaratnakar et al.

cs.CV cs.AI cs.HC cs.IR cs.MM

本文是一篇关于自动视频预告片生成领域的综述, 回顾了从基于启发式规则提取到深度生成合成的范式转变. 文章重点讨论了生成技术, 包括自回归Transformer, LLM编排的流程以及文本到视频基础模型, 并分析了架构演进, 经济影响和伦理挑战.

The Planetary Cost of AI Acceleration, Part II: The 10th Planetary Boundary and the 6.5-Year Countdown

William Yicheng Zhu, Lei Zhu

physics.soc-ph cs.AI cs.CY physics.pop-ph

本文探讨了AI规模化发展对地球热平衡的潜在影响, 提出了"第10个行星边界"的概念. 研究基于经验数据预测, 若不加以干预, 人为热积累将在6.5年内突破关键的生态阈值.

Self-Supervised Foundation Model for Calcium-imaging Population Dynamics

Xinhong Xu et al.

q-bio.QM cs.AI q-bio.NC

本文提出了一种名为CalM的自监督基础模型, 专门用于处理神经元钙成像信号. 该模型通过一个tokenizer将单神经元轨迹转换为离散词汇, 并利用一个双轴自回归transformer来建模神经轴和时间轴上的依赖关系. 实验表明, CalM在神经群体动态预测和行为解码任务上表现优于专门的基线模型.

Identification and Inference in Nonlinear Dynamic Network Models

Diego Vallarino

stat.ML cs.LG econ.EM math.ST

本文研究了定义在未知交互网络上的非线性动态系统的识别与推断问题. 系统通过一个非线性算子传播截面冲击, 其依赖关系矩阵不可观测. 作者证明了网络结构通常无法被识别, 并给出了识别所需的谱异质性条件.

Learning Nonlinear Regime Transitions via Semi-Parametric State-Space Models

Prakul Sunil Hiremath

stat.ML cs.LG

本文提出了一种用于学习时间序列中非线性状态转换的半参数状态空间模型. 该方法用从再生核希尔伯特空间或样条空间中学习到的函数替代了传统的固定参数转换函数, 并通过广义EM算法进行联合估计. 在合成数据和金融时间序列上的实验表明, 该方法能更好地恢复非线性转换动态.

Belief Dynamics for Detecting Behavioral Shifts in Safe Collaborative Manipulation

Devashri Naik et al.

cs.RO cs.LG

本文提出了一种轻量级的信念跟踪模块UA-TOM，用于在机器人协作任务中检测合作对象的行为策略切换。该方法通过结合选择性状态空间动态、因果注意力和预测误差信号，增强了预训练的视觉-语言-动作控制模型，从而在策略切换后有效降低了碰撞风险。实验表明，该方法在检测准确率和响应速度上优于其他无辅助方法，且推理开销较小。

StrADiff: A Structured Source-Wise Adaptive Diffusion Framework for Linear and Nonlinear Blind Source Separation

Yuan-Hao Wei

stat.ML cs.LG cs.SD

本文提出了一种用于线性和非线性盲源分离的结构化源自适应扩散框架. 该框架为每个潜在维度分配独立的扩散机制, 并利用高斯过程先验施加时序结构, 在一个统一的端到端目标中联合学习源恢复与混合过程.

Towards Predicting Multi-Vulnerability Attack Chains in Software Supply Chains from Software Bill of Materials Graphs

Laura Baird, Armin Moin

cs.SE cs.CR cs.LG

本文提出了一种基于图学习的方法来预测软件供应链中的多漏洞攻击链. 该方法将SBOM结构和漏洞扫描结果建模为异质图, 并分别使用HGAT和MLP进行组件漏洞分类与漏洞链预测.

Measuring the Permission Gate: A Stress-Test Evaluation of Claude Code's Auto Mode

Zimo Ji et al.

cs.SE cs.AI cs.CR

本文对Claude Code的auto mode权限系统进行了首次独立评估, 使用AmPermBench基准测试在故意模糊的授权场景下的表现. 研究发现, 在压力测试工作负载下, 系统的端到端假阴性率高达81.0%, 显著高于生产流量中报告的值, 并揭示了其分类器在覆盖范围上的一个关键边界: 它假设危险操作通过shell进行, 但智能体经常通过未受评估的文件编辑实现等效效果.

Squeez: Task-Conditioned Tool-Output Pruning for Coding Agents

Ádám Kovács

cs.SE cs.AI

本文针对 coding agents 中工具输出过长的问题, 提出了任务条件化的工具输出剪枝方法. 通过微调小型模型, 该方法能在保留关键信息的同时大幅减少输入长度, 并在构建的基准测试中超越了大型零样本模型和启发式基线.

An Imbalanced Dataset with Multiple Feature Representations for Studying Quality Control of Next-Generation Sequencing

Philipp Röchner et al.

q-bio.GN cs.LG cs.NE

本文提出了一个用于研究下一代测序(NGS)数据质量控制的不平衡数据集。该数据集包含来自近四万个样本的两种质量相关特征表示，并带有二元质量标签，可用于开发和比较自动化质量控制工具。

Architecture Without Architects: How AI Coding Agents Shape Software Architecture

Phongsakon Mark Konrad et al.

cs.SE cs.AI

本文探讨了AI coding agents如何通过自然语言prompt隐式地做出软件架构决策, 并提出了几种prompt与架构的耦合模式. 作者将这种现象称为"vibe architecting", 并建议通过评审实践和工具来管理这些隐藏的决策.

FreakOut-LLM: The Effect of Emotional Stimuli on Safety Alignment

Daniel Kuznetsov et al.

cs.CR cs.AI

本文研究了情绪刺激对安全对齐大语言模型的影响. 通过一个名为FreakOut-LLM的框架, 作者发现压力性情绪提示会显著增加模型被越狱攻击的成功率.

The Hiremath Early Detection (HED) Score: A Measure-Theoretic Evaluation Standard for Temporal Intelligence

Prakul Sunil Hiremath

stat.ML cs.CR cs.LG stat.ME

本文提出了一种名为Hiremath Early Detection (HED) Score的评估标准，用于衡量在非平稳随机过程中检测突变的时间价值。该方法通过一个指数衰减核函数对后验概率流进行积分，以同时编码检测的敏锐度、时间提前量和校准质量。作者还提出了一个结合分数随机微分方程和切换线性动态系统的推理模型作为实证工具，并在基准测试中展示了其性能提升。

Closed-Loop Autonomous Software Development via Jira-Integrated Backlog Orchestration: A Case Study in Deterministic Control and Safety-Constrained Automation

Elias Calboreanu

cs.SE cs.AI

本文介绍了一个将软件生命周期管理构建为控制架构而非代码生成工具的闭环系统. 该系统通过一个确定性的七阶段流水线, 集成了Jira任务管理, 并采用了多种机制来约束AI辅助的范围与确保操作安全. 案例研究展示了其在有限任务集上的高成功率与可审计性.

EduIllustrate: Towards Scalable Automated Generation Of Multimodal Educational Content

Shuzhen Bi et al.

cs.CY cs.AI cs.CL

本文提出了一个用于评估大语言模型生成图文并茂教育内容能力的基准EduIllustrate。该基准包含多学科问题、标准化生成协议和基于多媒体学习理论的评估体系，并对多个模型进行了评测。

Generalizable Audio-Visual Navigation via Binaural Difference Attention and Action Transition Prediction

Jia Li, Yinfeng Yu

cs.SD cs.AI eess.AS

本文提出了一个名为BDATP的框架, 用于提升Audio-Visual Navigation (AVN)任务中智能体在未见环境中的泛化能力. 该框架通过Binaural Difference Attention (BDA)模块增强空间感知, 并利用Action Transition Prediction (ATP)任务作为正则化来防止过拟合.

Generative Path-Law Jump-Diffusion: Sequential MMD-Gradient Flows and Generalisation Bounds in Marcus-Signature RKHS

Daniel Bloch

stat.ML cs.LG q-fin.MF q-fin.ST

本文提出了一种用于合成前瞻性、右连左极随机轨迹的生成框架, 通过将路径合成视为受限Skorokhod流形上的序列匹配问题, 开发了Anticipatory Neural Jump-Diffusion (ANJD) flow. 该方法利用Anticipatory Variance-Normalised Signature Geometry (AVNSG)进行动态谱白化, 并提供了在受限路径空间内的统计泛化界分析.

YMIR: A new Benchmark Dataset and Model for Arabic Yemeni Music Genre Classification Using Convolutional Neural Networks

Moeen AL-Makhlafi et al.

cs.SD cs.AI

本文构建了一个用于阿拉伯也门音乐流派分类的新基准数据集YMIR, 并提出了一个基于卷积神经网络(CNN)的分类模型YMCM. 实验表明, 使用Mel-spectrogram特征的YMCM模型取得了最佳分类准确率.

Comparative Characterization of KV Cache Management Strategies for LLM Inference

Oteo Mamo et al.

cs.AR cs.AI

本文对三种先进的LLM推理KV cache管理框架(vLLM, InfiniGen, H2O)进行了实证比较研究. 通过评估延迟, 吞吐量和内存使用等指标, 揭示了在不同请求规模与模型配置下各框架的性能权衡与最佳适用条件.

Scaling Coding Agents via Atomic Skills

Yingwei Ma et al.

cs.SE cs.AI

本文提出了一种通过原子技能扩展编码智能体的新范式, 将训练重点从复合任务转向更基础、可组合的原子技能. 该方法通过联合强化学习优化这些技能, 实验表明其在原子技能和未见复合任务上均取得了性能提升.

StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing

StarVLA Community

cs.RO cs.AI cs.CV

本文介绍了一个名为StarVLA的开源代码库, 旨在为Vision-Language-Action (VLA) 模型的研究提供一个模块化、可复现的开发框架. 它整合了多种模型架构、训练策略和评估基准, 以降低该领域的研究门槛.

Learning to Unscramble Feynman Loop Integrals with SAILIR

David Shih

hep-ph cs.LG hep-th

本文提出了一种名为SAILIR的机器学习方法, 用于Feynman loop integrals的IBP reduction. 该方法使用基于transformer的分类器进行逐步归约, 并通过自监督学习在合成数据上训练, 旨在解决传统Laporta算法中内存消耗随积分复杂度快速增长的问题.

ID-Sim: An Identity-Focused Similarity Metric

Julia Chae et al.

cs.CV cs.AI

本文提出了ID-Sim, 一种用于评估模型身份识别能力的相似性度量方法. 该方法通过结合真实图像和可控的生成式合成数据进行训练, 旨在更好地对齐人类对身份的选择性敏感度.

R3PM-Net: Real-time, Robust, Real-world Point Matching Network

Yasaman Kashefbahrami et al.

cs.CV cs.LG

本文提出了一种轻量级的点云配准网络R3PM-Net，旨在解决现有深度学习方法在真实工业场景中泛化性和实时性不足的问题。该方法在两个新提出的真实世界数据集上验证了其高速与鲁棒性。

AutoLALA: Automatic Loop Algebraic Locality Analysis for AI and HPC Kernels

Yifan Zhu et al.

cs.PL cs.AI cs.PF

本文介绍了一个名为AutoLALA的开源工具，用于分析affine loop程序中的数据局部性。该工具通过将程序转换为polyhedral模型，并利用Barvinok计数来生成关于重用距离和数据移动复杂度的符号公式。

Nidus: Externalized Reasoning for AI-Assisted Engineering

Danil Gorinevski

cs.SE cs.AI cs.LO cs.MA

本文介绍了一个名为Nidus的治理运行时系统, 它将V模型方法外部化为可验证的约束库, 用于管理AI辅助的软件交付过程. 该系统通过强制执行工程约束来确保需求可追溯, 架构合理和交付有证据, 并展示了在自我托管部署中协调多个LLM构建大型系统的能力.

Scalar Federated Learning for Linear Quadratic Regulator

Mohammadreza Rostami, Shahriar Talebi, Solmaz S. Kia

eess.SY cs.LG

本文提出了一种名为 ScalarFedLQR 的通信高效联邦学习算法，用于异构智能体在 Linear Quadratic Regulator (LQR) 控制中的无模型策略学习。该方法通过分解投影梯度机制，使每个 agent 仅需传输一个标量，从而将通信开销从 $O(d)$ 降低到 $O(1)$。

Edit, But Verify: An Empirical Audit of Instructed Code-Editing Benchmarks

Amir M. Ebrahimi, Gopi Krishnan Rajbahadur

cs.SE cs.AI

本文对两个指令代码编辑基准 CanItEdit 和 EDIT-Bench 进行了实证审计。研究发现，这些基准在编程语言、编辑意图和应用领域上与真实世界分布存在显著偏差，且测试覆盖率和范围存在不足，其评估范围比实际部署决策所需的更窄。作者提出了六项基于经验的需求，并发布了所有审计工件。

Simultaneous Dual-View Mammogram Synthesis Using Denoising Diffusion Probabilistic Models

Jorge Alberto Garza-Abdala et al.

cs.CV cs.AI

本文提出了一种基于去噪扩散概率模型(DDPM)的双视角乳腺X光片合成方法. 该方法通过引入第三个通道编码两个视角的绝对差来引导模型学习解剖结构的一致性, 并在私有数据集上进行了微调和评估.

Probabilistic Tree Inference Enabled by FDSOI Ferroelectric FETs

Pengyu Ren et al.

cs.ET cs.LG

本文提出了一种基于FDSOI-FeFETs的硬件平台，用于高效实现Bayesian decision trees。该平台集成了模拟内容可寻址存储器和高质量随机数生成器，在能效和速度上相比传统CPU/GPU方案有显著提升。

Watch Before You Answer: Learning from Visually Grounded Post-Training

Yuxuan Zhang et al.

cs.CV cs.AI cs.CL

本文指出当前视频理解基准和训练数据中存在大量仅凭文本线索即可回答的问题, 这限制了视觉语言模型(VLMs)的视频理解能力. 作者提出了一种名为VidGround的简单后训练数据筛选方法, 仅使用真正需要视觉基础的问题进行训练, 实验表明该方法能有效提升模型性能, 并强调了数据质量对提升VLM视频理解能力的重要性.

Governance-Aware Agent Telemetry for Closed-Loop Enforcement in Multi-Agent AI Systems

Anshul Pathak, Nishant Jain

cs.MA cs.LG

本文提出了一种用于多智能体AI系统的治理感知遥测架构, 旨在将遥测收集与实时策略执行相结合. 该架构通过扩展的遥测模式, 实时违规检测引擎和分级干预机制, 试图解决现有工具仅观察而不执行的局限性.

On the Exploitability of FTRL Dynamics

Yiheng Su, Emmanouil-Vasileios Vlatakis-Gkaragkounis

cs.GT cs.LG

本文研究了在$n\times m$双人零和博弈中, 具有恒定步长$\eta$的Follow-the-Regularized-Leader (FTRL) 学习者在面对具有完全信息的对手时的可剥削性. 分析表明, 可剥削性是FTRL算法族的一个固有特性, 而非特定实例的产物. 研究揭示了非陡峭正则化器与陡峭正则化器在几何上的尖锐二分性, 并讨论了在双边收益不确定性下这种杠杆作用是否持续.

EffiPair: Improving the Efficiency of LLM-generated Code with Relative Contrastive Feedback

Samira Hajizadeh, Suman Jana

cs.PL cs.AI cs.CL cs.LG cs.SE

本文提出了一种名为Relative Contrastive Feedback (RCF)的推理时反馈机制，用于提升大语言模型生成代码的运行效率。该方法通过对比结构相似的程序对来生成轻量级反馈，并构建了EffiPair框架进行迭代优化，在保持功能正确性的同时显著提高了代码效率。

Compiled AI: Deterministic Code Generation for LLM-Based Workflow Automation

Geert Trooskens et al.

cs.SE cs.AI

本文提出了一种名为"compiled AI"的范式, 旨在通过LLM在编译阶段生成确定性代码, 以提升工作流自动化的可靠性与效率. 研究聚焦于企业级应用, 特别是医疗保健领域, 并引入了相应的系统架构与评估框架.

Planning to Explore: Curiosity-Driven Planning for LLM Test Generation

Alfonso Amayuelas et al.

cs.SE cs.AI cs.CL

本文提出了一种名为CovQValue的基于好奇心驱动规划的LLM测试生成方法. 该方法将程序分支结构视为未知环境, 通过估计Q值来平衡即时覆盖与未来可达性, 从而在多个基准上超越了贪心策略的代码覆盖率.

From Use to Oversight: How Mental Models Influence User Behavior and Output in AI Writing Assistants

Shalaleh Rismani et al.

cs.HC cs.AI

本文通过实验研究了用户对AI写作助手的心智模型如何影响其使用行为与写作结果. 研究发现, 对系统工作原理有更深理解的用户, 反而可能因过度信任而降低对错误建议的审查, 导致更多语法错误.

Modality-Aware and Anatomical Vector-Quantized Autoencoding for Multimodal Brain MRI

Mingjie Li et al.

cs.CV cs.AI

本文提出了一种用于多模态脑MRI重建的3D向量量化变分自编码器NeuroQuant. 该方法通过双流编码器分离解剖结构与模态特征, 并采用联合2D/3D训练策略.

Graph Signal Diffusion Models for Wireless Resource Allocation

Yigit Berkay Uslu et al.

eess.SP cs.IT cs.LG

本文提出了一种基于graph signal diffusion models的方法, 用于解决具有graph-structured interference的无线网络中的约束遍历资源优化问题. 该方法利用训练好的diffusion model policy来近似专家条件分布, 从而在推理时直接采样得到接近最优的资源分配方案.

LSRM: High-Fidelity Object-Centric Reconstruction via Scaled Context Windows

Zhengqin Li et al.

cs.CV cs.AI

本文提出了一种用于高保真物体中心三维重建的大规模稀疏重建模型(LSRM). 该方法通过显著扩展transformer的context window, 并引入高效的稀疏注意力机制, 在多个基准测试上超越了现有方法.

OrthoFuse: Training-free Riemannian Fusion of Orthogonal Style-Concept Adapters for Diffusion Models

Ali Aliev et al.

cs.CV cs.AI cs.LG

本文提出了一种无需训练的Riemannian融合方法, 用于合并为不同任务(如主体和风格)调适的Orthogonal Fine-Tuning (OFT)适配器. 该方法利用了Group-and-Shuffle ($\mathcal{GS}$)正交矩阵流形的几何结构, 通过近似测地线(geodesic)和一种spectra restoration变换来实现高质量的适配器融合.

fastml: Guarded Resampling Workflows for Safer Automated Machine Learning in R

Selcuk Korkmaz, Dincer Goksuluk, Eda Karaismailoglu

stat.CO cs.LG stat.AP stat.ML

本文介绍了一个名为fastml的R语言软件包, 它通过"guarded resampling"技术来防止机器学习工作流中的预处理泄漏问题. 该包提供了简化的接口, 支持分组和时间序列重采样, 并包含模型解释等功能, 旨在提升自动化机器学习流程的安全性和易用性.

RoboPlayground: Democratizing Robotic Evaluation through Structured Physical Domains

Yi Ru Wang et al.

cs.RO cs.AI cs.CL cs.HC

本文提出了RoboPlayground框架, 使用户能够通过自然语言在结构化物理域中编写可执行的机器人操作任务. 该框架将语言指令编译为可复现的任务规范, 并在一系列评估中验证了其易用性和在揭示策略泛化失败方面的优势.

Region-R1: Reinforcing Query-Side Region Cropping for Multi-Modal Re-Ranking

Chan-Wei Hu, Zhengzhong Tu

cs.CV cs.AI cs.CL

本文提出了一种用于多模态检索增强生成(MM-RAG)的查询端区域裁剪框架Region-R1. 该方法通过强化学习动态选择与问题相关的图像区域进行重排序, 在两个基准测试上取得了性能提升.

Spec Kit Agents: Context-Grounded Agentic Workflows

Pardis Taghavi, Santosh Bhavani

cs.SE cs.AI cs.MA

本文提出了一种名为Spec Kit Agents的多智能体工作流, 通过在规范驱动开发(SDD)流程中引入上下文锚定钩子, 旨在解决AI编码智能体在大型代码库中因缺乏上下文而导致的幻觉问题. 实验表明该方法能提升生成代码的质量并保持高测试通过率.

Robust Learning of Heterogeneous Dynamic Systems

Shuoxun Xu et al.

stat.ME cs.LG

本文提出了一种用于学习异质动态系统的分布鲁棒学习方法. 该方法通过最大化轨迹导数凸组合构成的不确定性类别上的最坏情况奖励来构建鲁棒系统, 并开发了双层稳定化程序以解决估计中的潜在不稳定性.

Broken by Default: A Formal Verification Study of Security Vulnerabilities in AI-Generated Code

Dominik Blain, Maxime Noiseux

cs.CR cs.AI cs.SE

本文通过形式化验证方法评估了多个前沿LLM生成代码的安全性。研究发现，超过一半的生成代码包含可被形式化证明的安全漏洞，且现有行业工具在检测此类漏洞方面存在严重不足。

Individual-heterogeneous sub-Gaussian Mixture Models

Huan Qing

stat.ML cs.LG

本文提出了一种个体异质性sub-Gaussian混合模型，为每个观测分配独立的异质性参数以捕捉数据中的尺度差异。基于此模型，作者设计了一种高效的谱方法，能够在高维条件下实现聚类标签的精确恢复。

Anchored Cyclic Generation: A Novel Paradigm for Long-Sequence Symbolic Music Generation

Boyu Cao et al.

cs.SD cs.AI

本文提出了一种用于长序列符号音乐生成的新范式 Anchored Cyclic Generation (ACG) 及其扩展框架 Hierarchical Anchored Cyclic Generation (Hi-ACG). 该方法利用已生成片段的锚定特征来引导后续的自回归生成过程, 旨在缓解自回归模型固有的误差累积问题, 并在主客观评估中优于现有主流方法.

OGA-AID: Clinician-in-the-loop AI Report Drafting Assistant for Multimodal Observational Gait Analysis in Post-Stroke Rehabilitation

Khoi T. N. Nguyen et al.

cs.HC cs.AI

本文提出了一个用于卒中后康复多模态步态分析报告草拟的临床医生参与式AI辅助系统OGA-AID. 该系统通过协调多个智能体整合视频与运动捕捉数据, 在专家评估中表现出较低的错误率.

3DTurboQuant: Training-Free Near-Optimal Quantization for 3D Reconstruction Models

Jae Joong Lee

cs.CV cs.AI

本文提出了一种无需训练即可对3D重建模型进行量化的方法。该方法利用随机旋转和预计算的量化码本，实现了接近理论极限的压缩效果。

AI and Collective Decisions: Strengthening Legitimacy and Losers' Consent

Suyash Fulay et al.

cs.HC cs.AI

本文探讨了AI在集体决策中增强程序合法性的潜力, 特别是如何维持"失败者的同意". 研究构建了一个结合AI访谈与可视化预测的工具, 并通过实验发现该工具能提升参与者对决策结果的信任和理解.

An Actor-Critic Framework for Continuous-Time Jump-Diffusion Controls with Normalizing Flows

Liya Guo et al.

math.OC cs.LG

本文提出了一种基于actor-critic框架和normalizing flows的mesh-free求解器，用于处理具有时间非齐次跳跃扩散过程的连续时间随机控制问题。该方法在金融领域的几个基准问题上得到了验证，展示了其在处理跳跃和高维问题时的有效性。

VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG

Honghao Fu et al.

cs.CV cs.AI

本文提出了一种用于长视频理解的检索增强生成框架VideoStir. 它通过构建时空图进行多跳检索, 并引入基于意图对齐的评分器来提升检索质量.

Bridging Natural Language and Microgrid Dynamics: A Context-Aware Simulator and Dataset

Tinko Sebastian Bartels et al.

eess.SY cs.AI cs.CL

本文介绍了一个名为OpenCEM的开源数字孪生平台，它旨在将非结构化的上下文信息与可再生能源系统的定量动态相结合。该平台包含一个数据集和一个模块化模拟器，用于支持开发新型控制算法和预测模型。

Your LLM Agent Can Leak Your Data: Data Exfiltration via Backdoored Tool Use

Wuyang Zhang, Shichao Pei

cs.CR cs.AI

本文揭示了大型语言模型(LLM)智能体在使用工具时存在的数据泄露风险, 提出了一种名为Back-Reveal的后门攻击方法. 该方法通过在微调模型中植入语义触发器, 诱导智能体调用工具来窃取并泄露用户上下文数据.

Human Interaction-Aware 3D Reconstruction from a Single Image

Gwanghyun Kim et al.

cs.CV cs.AI

本文提出了一种从单张图像重建多人交互场景的3D模型的方法HUG3D. 该方法通过引入群体级上下文和基于物理的交互先验, 解决了现有方法在多人场景中产生的重叠、遮挡和交互失真等问题.

LanG -- A Governance-Aware Agentic AI Platform for Unified Security Operations

Anes Abdennebi et al.

cs.CR cs.AI

本文提出了一个名为LanG的、基于LLM的、支持治理的智能体AI平台，用于统一安全运营。该平台集成了事件关联、智能体编排、规则生成和攻击重建等多个模块，并设计了包含治理策略引擎的架构，旨在解决安全运营中心面临的警报疲劳和工具碎片化问题。

MEC: Machine-Learning-Assisted Generalized Entropy Calibration for Semi-Supervised Mean Estimation

Se Yoon Lee, Jae Kwang Kim

stat.ML cs.LG

本文提出了一种基于机器学习辅助的广义熵校准方法, 用于半监督均值估计. 该方法通过校准加权提高了预测功效推断的效率和稳健性.

MA-IDS: Multi-Agent RAG Framework for IoT Network Intrusion Detection with an Experience Library

Md Shamimul Islam, Luis G. Jaimes, Ayesha S. Dina

cs.CR cs.AI

本文提出了一种结合大型语言模型(LLM)与检索增强生成(RAG)的多智能体框架MA-IDS，用于物联网网络入侵检测。该框架通过一个持续构建的经验库来增强模型推理，实现了可解释且能持续学习的检测，在基准数据集上取得了有竞争力的性能。

LLM Evaluation as Tensor Completion: Low Rank Structure and Semiparametric Efficiency

Jiachun Li, David Simchi-Levi, Will Wei Sun

stat.ME cs.AI

本文研究了基于成对比较数据的低秩张量补全问题, 并将其应用于大语言模型(LLM)评估. 作者提出了一个半参数推断框架, 通过引入分数白化方法解决了信息算子的各向异性问题, 从而实现了最优样本复杂度下的稳定推断.

Hierarchical Contrastive Learning for Multimodal Data

Huichao Li, Junhan Yu, Doudou Zhou

stat.ML cs.LG math.ST

本文提出了Hierarchical Contrastive Learning (HCL)框架, 用于学习多模态数据中全局共享, 部分共享和模态特定的表示. 该方法结合了分层潜变量模型与结构稀疏性, 并通过理论分析和实验验证了其有效性.

Task Ecologies and the Evolution of World-Tracking Representations in Large Language Models

Giulio Valentino Dalla Riva

stat.ME cs.LG stat.ML

本文研究了自回归语言模型在何种条件下会演化出追踪真实世界状态的表示. 通过贝叶斯最优交叉熵的分解, 作者提出了一个衡量表示"生态真实性"的精确概念, 并分析了不同Transformer架构(如冻结参数, Mixture-of-Experts)满足该理论的条件. 理论预测了模型在训练与部署环境差异下的两种典型失败模式, 并通过小型可控实验进行了验证.

Transcriptomic Models for Immunotherapy Response Prediction Show Limited Cross-cohort Generalisability

Yuheng Liang et al.

q-bio.GN cs.LG

本文系统评估了九种基于转录组学的免疫检查点抑制剂(ICI)响应预测模型在独立数据集上的跨队列泛化能力. 研究发现, 无论是基于bulk RNA-seq还是单细胞RNA-seq(scRNA-seq)的模型, 其预测性能均有限, 且不同模型识别的生物标志物信号不一致.

On the Role of Fault Localization Context for LLM-Based Program Repair

Melika Sepidband, Hung Viet Pham, Hadi Hemmati

cs.SE cs.AI

本文通过大规模实验研究了 fault localization (FL) 上下文对基于 LLM 的程序修复 (APR) 的影响. 研究发现, 并非上下文越多越好, 文件级别的定位是关键因素, 而精确到代码行的上下文扩展反而可能因引入噪声而降低性能.

Unifying VLM-Guided Flow Matching and Spectral Anomaly Detection for Interpretable Veterinary Diagnosis

Pu Wang et al.

cs.CV cs.AI

本文提出了一种结合VLM引导的Flow Matching分割与基于Random Matrix Theory的谱异常检测的新方法, 用于兽医影像中的犬气胸自动诊断. 该方法通过生成式分割获取高精度病灶区域, 再利用随机矩阵理论分析该区域的谱特征以检测异常, 旨在提高模型的可解释性.

AttnDiff: Attention-based Differential Fingerprinting for Large Language Models

Haobo Zhang et al.

cs.CR cs.LG

本文提出了一种基于attention差异的白盒指纹提取框架AttnDiff, 用于验证大型语言模型之间的衍生关系. 该方法通过构造语义冲突的prompt对来捕获模型的差分attention模式, 并使用spectral描述符和CKA进行模型相似性比较, 在多个模型系列上实现了高区分度.

Optimal Centered Active Excitation in Linear System Identification

Kaito Ito, Alexandre Proutiere

math.OC cs.LG eess.SY stat.ML

本文提出了一种基于ordinary least squares和semidefinite programming的主动学习算法，用于线性系统辨识。该算法在达到指定精度和置信水平的同时，实现了最小的样本复杂度，其上下界匹配且易于解释。

Active noise cancellation on open-ear smart glasses

Kuang Yuan et al.

eess.AS cs.HC cs.LG cs.SD eess.SP

本文提出了一种用于开放式智能眼镜的实时主动降噪系统, 该系统仅利用眼镜框架上的麦克风阵列和开放式扬声器来估计耳部噪声并生成反相声波. 通过定制原型和用户研究, 在100-1000 Hz频段内实现了平均9.6 dB至11.2 dB的噪声抑制效果.

Learned Elevation Models as a Lightweight Alternative to LiDAR for Radio Environment Map Estimation

Ljupcho Milosheski et al.

eess.SP cs.AI

本文提出了一种无需3D数据即可进行无线电环境地图估计的两阶段框架. 该框架首先从卫星RGB图像学习预测高程图, 然后将其与天线参数一同输入REM估计器, 在多个CNN架构上取得了优于仅使用图像基线的方法.

Controllable Singing Style Conversion with Boundary-Aware Information Bottleneck

Zhetao Hu et al.

cs.SD cs.AI

本文提出了一种用于歌唱风格转换的系统, 通过引入边界感知的 Whisper bottleneck 来抑制源风格并保留内容, 使用显式的帧级 technique matrix 进行动态风格渲染, 并采用高频带补全策略来提升音质. 该系统在 SVCC2025 的主观评估中取得了最佳的自然度表现.

Foundations for Agentic AI Investigations from the Forensic Analysis of OpenClaw

Jan Gruber, Jan-Niclas Hilgert

cs.CR cs.AI

本文通过对OpenClaw这一单智能体助手进行实证研究，探讨了智能体AI系统的数字取证基础。研究通过静态代码分析和差分取证分析，对智能体交互循环中可恢复的痕迹进行了分类与评估，并提出了一个捕获重复调查模式的智能体工件分类法。文章最后指出了智能体介导执行带来的抽象层和非确定性对取证构成的根本挑战。

AI-Driven Modular Services for Accessible Multilingual Education in Immersive Extended Reality Settings: Integrating Speech Processing, Translation, and Sign Language Rendering

N.D. Tantaroudas et al.

cs.CE cs.AI cs.CL cs.CY cs.ET

本文介绍了一个集成多种AI服务的模块化平台, 用于在扩展现实(XR)环境中实现无障碍的多语言教育. 该平台整合了语音识别、翻译、语音合成、情感分类、对话摘要和国际手语渲染等服务, 并通过技术评估验证了其在实时XR部署中的适用性.

INTERACT: An AI-Driven Extended Reality Framework for Accesible Communication Featuring Real-Time Sign Language Interpretation and Emotion Recognition

Nikolaos D. Tantaroudas et al.

cs.CE cs.AI cs.CL cs.CV cs.ET

本文介绍了一个名为INTERACT的AI驱动扩展现实(XR)平台, 旨在通过集成实时语音转文本, 3D虚拟形象手语翻译, 多语言翻译和情感识别等功能, 提升视频会议对听障及多语言用户的可访问性. 初步评估显示该平台在用户满意度和功能准确性方面取得了积极结果.

Evaluation of Randomization through Style Transfer for Enhanced Domain Generalization

Dustin Eisenhardt et al.

cs.CV cs.AI cs.LG

本文通过系统性的实证研究，评估了风格迁移中风格池多样性、纹理复杂性和风格来源等关键设计因素对领域泛化的影响。研究提出了一个轻量级的增强方法StyleMixDG，并在基准测试中展示了其有效性。

Semantic-Topological Graph Reasoning for Language-Guided Pulmonary Screening

Chenyu Xue et al.

cs.CV cs.AI

本文提出了一种用于语言引导肺部筛查的语义-拓扑图推理框架, 通过结合大语言模型的推理能力和视觉基础模型的零样本分割能力来处理医学图像分割任务. 该方法引入了文本到视觉意图蒸馏模块来提取诊断指导, 并将掩码选择建模为动态图推理问题, 同时采用选择性非对称微调策略以极少的参数更新实现高效部署.

DetailVerifyBench: A Benchmark for Dense Hallucination Localization in Long Image Captions

Xinran Wang et al.

cs.CV cs.CL cs.MM

本文提出了一个名为 DetailVerifyBench 的基准测试，用于评估长图像描述中密集幻觉定位的能力。该基准包含跨多个领域的图像和详细的词级标注，旨在解决现有基准在细粒度和领域多样性上的不足。

Parametric Nonconvex Optimization via Convex Surrogates

Renzi Wang, Panagiotis Patrinos, Alberto Bemporad

math.OC cs.LG eess.SY

本文提出了一种基于学习的方法, 为给定的参数化非凸优化问题构建一个代理问题. 该代理函数被设计为一组有限函数的最小值, 这些函数由凸项和单调项复合而成, 从而使得代理问题可以通过并行凸优化直接求解.

Analogical Reasoning as a Doctor: A Foundation Model for Gastrointestinal Endoscopy Diagnosis

Peixi Peng et al.

cs.CV cs.AI

本文提出了一个名为RATNet的基础模型, 用于胃肠道内窥镜图像诊断. 该模型通过一种循环预训练策略从异构标注中学习知识, 并在多种诊断场景中展现出优于现有模型的性能.

Multiscale Physics-Informed Neural Network for Complex Fluid Flows with Long-Range Dependencies

Prashant Kumar, Rajesh Ranjan

physics.flu-dyn cs.AI cs.LG

本文提出了一种用于处理具有长程依赖性的复杂流体流动的多尺度物理信息神经网络(DDS-PINN). 该方法通过域分解和全局损失函数, 在多个基准问题上以极少监督数据实现了高精度求解.

SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation

Wuyang Luan et al.

cs.CV cs.AI

本文提出了一种名为SnapFlow的自蒸馏方法, 用于将基于flow matching的Vision-Language-Action (VLA)模型的多步去噪过程压缩为单步前向传播, 从而显著降低推理延迟. 该方法无需改变模型架构或依赖外部教师模型, 在多个VLA架构和机器人操作任务上验证了其有效性, 在保持性能的同时实现了显著的加速.

Efficient machine unlearning with minimax optimality

Jingyi Xie, Linjun Zhang, Sai Li

stat.ML cs.LG

本文提出了一个用于 machine unlearning 的统计框架，并针对 squared loss 设计了 Unlearning Least Squares (ULS) 方法。该方法在仅使用预训练估计器、待遗忘数据及少量剩余数据样本的情况下，能够以 minimax 最优性估计剩余数据的模型参数，其误差可分解为 oracle 项与遗忘成本。

Rectified Schrödinger Bridge Matching for Few-Step Visual Navigation

Wuyang Luan et al.

cs.RO cs.AI

本文提出了一种名为Rectified Schrödinger Bridge Matching (RSBM)的框架，用于解决视觉导航中生成策略实时性不足的问题。该方法通过利用一个共享的速度场结构，在单次网络训练下平衡了动作分布的多模态覆盖与轨迹的平直性，从而在极少的积分步数内实现了高效的导航策略。

From Incomplete Architecture to Quantified Risk: Multimodal LLM-Driven Security Assessment for Cyber-Physical Systems

Shaofei Huang, Christopher M. Poskitt, Lwin Khin Shar

cs.CR cs.AI

本文提出了一种名为ASTRAL的架构中心化安全评估技术, 利用multimodal LLMs从碎片化数据源重建和分析cyber-physical systems的架构. 该方法通过prompt chaining和architectural reasoning进行自适应威胁识别与量化风险评估, 并在案例研究和专家评估中验证了其有用性.

Intrinsic perturbation scale for certified oracle objectives with epigraphic information

Karim Bounja, Boujemaâ Achchab, Abdeljalil Sakat

math.OC cs.LG math.FA

本文提出了一种针对具有certified epigraphic信息的oracle目标函数极小值集的自然位移控制方法. 该方法用更弱的cylinder-localized vertical epigraphic控制替代了传统的局部一致值控制, 并在set-based quadratic growth条件下得到了最优指数为1/2的平方根位移估计.

CRFT: Consistent-Recurrent Feature Flow Transformer for Cross-Modal Image Registration

Xuecong Liu et al.

cs.CV cs.AI

本文提出了一种用于跨模态图像配准的统一框架CRFT, 它基于特征流学习, 并采用了transformer架构. 该方法通过多尺度特征关联建立全局对应, 并利用迭代的注意力机制和空间几何变换来细化流场, 在多个数据集上展现了优越的性能.

Untargeted analysis of volatile markers of post-exercise fat oxidation in exhaled breath

André Homeyer et al.

physics.med-ph cs.LG

本文通过无目标筛选方法, 研究了呼出气中除丙酮外的挥发性有机化合物(VOCs)作为运动后脂肪氧化标志物的潜力. 研究使用质子转移反应飞行时间质谱(PTR-TOF-MS)进行分析, 发现与参考标志物β-羟基丁酸(BOHB)强相关的信号均来自丙酮或其同位素/碎片, 运动期间的丙酮测量可以预测运动后的脂肪氧化变化.

SemLink: A Semantic-Aware Automated Test Oracle for Hyperlink Verification using Siamese Sentence-BERT

Guan-Yan Yang et al.

cs.SE cs.AI cs.CL cs.IR

本文提出了一种名为SemLink的自动化测试预言机, 用于检测超链接的语义一致性. 该方法基于Siamese Sentence-BERT架构, 通过比较链接源上下文与目标页面内容的语义相似度来工作, 在效率和资源消耗上优于大型语言模型.

Hackers or Hallucinators? A Comprehensive Analysis of LLM-Based Automated Penetration Testing

Jiaren Peng et al.

cs.CR cs.AI cs.SE

本文对基于LLM的自动化渗透测试框架进行了系统化知识梳理和大规模实证评估. 它从六个维度分析了现有框架的设计, 并在统一基准下对13个开源框架进行了实验比较.

On the Robustness of Diffusion-Based Image Compression to Bit-Flip Errors

Amit Vaisman, Gal Pomerants, Raz Lapid

cs.CV cs.AI

本文研究了基于扩散模型的图像压缩方法对bit-flip errors的鲁棒性. 与经典和学习的编解码器相比, 基于Reverse Channel Coding (RCC)的压缩器表现出更强的抗干扰能力.

Brain-to-Speech: Prosody Feature Engineering and Transformer-Based Reconstruction

Mohammed Salah Al-Radhi et al.

eess.SP cs.LG cs.SD

本文提出了一种从颅内脑电图(iEEG)数据合成语音的新方法, 重点在于韵律特征工程和基于Transformer模型的高保真语音重建. 该方法通过引入新的特征提取流程和专门的Transformer编码器架构, 在定量和感知指标上优于传统基线方法.

CAKE: Cloud Architecture Knowledge Evaluation of Large Language Models

Tim Lukas Adam et al.

cs.SE cs.AI

本文提出了一个名为CAKE的基准测试, 用于评估大型语言模型(LLMs)对云原生软件架构的理解. 该基准包含188个专家验证的问题, 覆盖了Bloom修订分类法的四个认知层次和五个云原生主题, 并对22个模型配置进行了评估.

Beyond the Beep: Scalable Collision Anticipation and Real-Time Explainability with BADAS-2.0

Roni Goldshmidt et al.

cs.CV cs.CL

本文介绍了第二代碰撞预测系统BADAS-2.0，它在BADAS-1.0的基础上进行了多方面改进。该系统通过构建长尾基准测试、进行知识蒸馏以实现边缘部署，并提供了实时可解释性功能。

GenomeQA: Benchmarking General Large Language Models for Genome Sequence Understanding

Weicai Long et al.

q-bio.GN cs.CL

本文提出了一个名为GenomeQA的基准测试, 用于评估通用大语言模型(LLM)在原始基因组序列理解任务上的表现. 该基准包含多个任务族, 实验表明LLM能够利用序列中的局部信号, 但在需要间接推理的任务上表现下降.

Stealthy and Adjustable Text-Guided Backdoor Attacks on Multimodal Pretrained Models

Yiyang Zhang et al.

cs.CR cs.LG

本文提出了一种针对多模态预训练模型的文本引导后门攻击方法, 通过使用文本描述中的常见词汇作为后门触发器来提升隐蔽性和实用性. 该方法还引入了视觉对抗扰动来调节模型对文本触发器的学习, 实现了可控的攻击成功率. 实验在图像检索和视觉问答等下游任务上验证了该方法的有效性.

WikiSeeker: Rethinking the Role of Vision-Language Models in Knowledge-Based Visual Question Answering

Yingjian Zhu et al.

cs.CV cs.CL cs.IR

本文提出了一种名为WikiSeeker的多模态检索增强生成框架，用于知识型视觉问答。该方法通过设计专门的Refiner和Inspector代理来重新定义视觉语言模型的作用，从而提升了检索和答案生成的性能。

Learn to Rank: Visual Attribution by Learning Importance Ranking

David Schinagl et al.

cs.CV cs.LG

本文提出了一种通过直接优化排序指标来生成视觉归因图的学习方法. 该方法利用 Gumbel-Sinkhorn 技术对非可微的排序过程进行松弛, 实现了端到端训练, 能够为视觉 Transformer 等模型生成更精细的像素级解释.

JD-BP: A Joint-Decision Generative Framework for Auto-Bidding and Pricing

Linghui Meng et al.

cs.GT cs.LG

本文提出了一种用于自动出价和定价的联合决策生成框架JD-BP。该框架通过联合输出出价值和一个与支付规则相加的定价修正项，来处理模型预测误差等不确定性带来的分配低效问题。

Neural Network Pruning via QUBO Optimization

Osama Orabi et al.

cs.CV cs.AI cs.LG cs.NE

本文提出了一种基于QUBO优化的神经网络剪枝方法, 将梯度敏感度度量与数据驱动的激活相似性结合到目标函数中, 并引入动态容量搜索和两阶段优化流程. 实验表明该方法在图像去噪任务上优于贪心剪枝和传统的基于L1范数的QUBO方法.

Swiss-Bench 003: Evaluating LLM Reliability and Adversarial Security for Swiss Regulatory Contexts

Fatih Uenal

cs.CR cs.AI cs.CL

本文提出了一个针对瑞士金融监管环境的LLM评估框架Swiss-Bench 003, 通过扩展评估维度并引入多个瑞士本土化的基准测试, 对十个前沿模型在可靠性和对抗安全性方面进行了实证评估. 研究发现模型自评的可靠性分数普遍高于外部评判的安全性分数, 且在特定任务如PII(个人身份信息)提取防御上表现较弱.

Automatic dental superimposition of 3D intraorals and 2D photographs for human identification

Antonio D. Villegas-Yeguas et al.

cs.CV cs.AI

本文提出了一种用于人类身份识别的自动牙齿形态比较方法, 通过计算机视觉和优化技术将3D口腔内扫描模型与2D照片进行配准. 该方法开发了基于配对标志点和牙齿区域分割的两种自动途径来估计相机参数, 并在大规模数据集上取得了优于现有自动牙科图表比较方法的性能.

A Tensor-Train Framework for Bayesian Inference in High-Dimensional Systems: Applications to MIMO Detection and Channel Decoding

Luca Schmid et al.

cs.IT cs.LG

本文提出了一种基于tensor-train格式的框架，用于在高维离散输入加性噪声模型中进行贝叶斯推断。该方法通过低秩表示来近似联合后验概率，并应用于MIMO检测和信道解码，在保持接近最优性能的同时降低了计算复杂度。

Transfer Learning for Neural Parameter Estimation applied to Building RC Models

Fabian Raisch et al.

eess.SY cs.LG

本文提出了一种基于迁移学习的神经网络参数估计框架, 用于解决动态系统参数估计中的非凸性和对初始猜测敏感的问题. 该方法在建筑RC热模型上进行了验证, 相比传统方法在数据有限时展现出显著的性能提升.

Selective Aggregation of Attention Maps Improves Diffusion-Based Visual Interpretation

Jungwon Park et al.

cs.CV cs.AI

本文提出了一种通过选择性聚合 cross-attention maps 来提升 text-to-image 生成模型视觉可解释性的方法。该方法通过筛选与目标概念最相关的 attention heads，在图像分割等任务上取得了优于基线方法 DAAM 的性能。

Saliency-Guided Representation with Consistency Policy Learning for Visual Unsupervised Reinforcement Learning

Jingbo Sun et al.

cs.CV cs.AI

本文提出了一种名为SRCP的新框架, 用于提升视觉无监督强化学习中的零样本泛化能力. 该方法通过解耦表示学习与后继训练, 并引入一致性策略学习, 在多个基准任务上取得了先进的性能.

Polynomial-Time Algorithm for Thiele Voting Rules with Voter Interval Preferences

Pasin Manurangsi, Krzysztof Sornat

cs.GT cs.AI cs.DS cs.MA

本文针对Voter Interval偏好下的Thiele投票规则, 提出了一个多项式时间算法来计算最优委员会. 核心是利用区间族的凹性定理, 结合整数规划的拉格朗日松弛进行求解.

Does Pass Rate Tell the Whole Story? Evaluating Design Constraint Compliance in LLM-based Issue Resolution

Kai Yu et al.

cs.SE cs.AI

本文提出了一个名为 \bench{} 的基准测试，用于评估基于 LLM 的智能体在解决代码仓库问题时对项目特定设计约束的遵守情况。研究发现，仅基于测试通过率的评估会高估补丁质量，并揭示了功能正确性与设计合规性之间的显著差距。

Multi-Modal Landslide Detection from Sentinel-1 SAR and Sentinel-2 Optical Imagery Using Multi-Encoder Vision Transformers and Ensemble Learning

Ioannis Nasios

cs.CV cs.LG

本文提出了一种用于滑坡检测的多模态融合框架, 结合 Sentinel-2 光学影像与 Sentinel-1 SAR 数据. 该方法采用多编码器 Vision Transformer 处理不同模态, 并集成梯度提升模型以提升性能, 在 patch 分类任务上取得了优异的 F1 分数.

Distributed Quantum Property Testing with Communication Constraints

Mina Doosti, Ryan Sweke, Chirag Wadhwa

quant-ph cs.DS

本文研究了在通信受限的分布式量子系统中进行量子态认证的问题. 作者提出了一个分布式量子推断框架, 并针对量子通信受限的场景, 给出了样本复杂度的上下界.

QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization

Changxin Ke et al.

cs.SE cs.LG

本文提出了一个名为PRepair的框架, 旨在解决大语言模型(LLMs)在程序修复中常见的过度编辑问题. 该框架通过受控的bug注入采样和一种编辑感知的奖励优化策略来训练模型, 以鼓励最小且正确的代码修改.

A Formal Security Framework for MCP-Based AI Agents: Threat Taxonomy, Verification Models, and Defense Mechanisms

Nirajan Acharya, Gaurav Kumar Gupta

cs.CR cs.AI

本文为基于MCP的AI智能体提出了一个名为MCPSHIELD的正式安全框架。该框架包含威胁分类、形式化验证模型和深度防御架构，旨在系统性地应对智能体生态中的安全风险。

Is CLIP Cross-Eyed? Revealing and Mitigating Center Bias in the CLIP Family

Oscar Chew et al.

cs.CV cs.CL

本文揭示了CLIP模型家族中存在的"中心偏差"问题, 即模型过度关注图像中心区域而忽略边缘的重要对象. 通过表征和注意力分析, 作者发现这是由于视觉嵌入聚合过程中的信息丢失造成的, 并提出了无需训练的视觉提示和注意力重分布等缓解策略.

Arch: An AI-Native Hardware Description Language for Register-Transfer Clocked Hardware Design

Shuqing Zhao

cs.PL cs.CL

本文提出了一种名为Arch的新型硬件描述语言, 专为微架构规范和AI辅助代码生成而设计. 它通过引入管道, FSM等一等公民语言构造和将时钟/复位作为参数化类型, 将许多硬件设计错误转化为编译时类型错误, 并特别注重其语法对大型语言模型生成的结构正确性和类型安全性.

A deep learning framework for jointly solving transient Fokker-Planck equations with arbitrary parameters and initial distributions

Xiaolong Wang et al.

physics.comp-ph cs.LG

本文提出了一种基于深度学习的伪解析概率解法(PAPS), 用于高效求解参数化随机系统的瞬态Fokker-Planck方程. 该方法通过一次训练即可获得针对任意初始分布、系统参数和时间点的解, 其推理速度比GPU加速的蒙特卡洛模拟快四个数量级.

Governance and Regulation of Artificial Intelligence in Developing Countries: A Case Study of Nigeria

Uloma Okoro, Tammy Mckenzie, Branislav Radeljic

cs.CY cs.AI cs.HC

本文通过访谈尼日利亚法律从业者, 研究了发展中国家的人工智能治理问题. 研究发现存在数据隐私风险和法律框架缺失等问题, 并强调了制定本地化治理模型的重要性.

CritBench: A Framework for Evaluating Cybersecurity Capabilities of Large Language Models in IEC 61850 Digital Substation Environments

Gustav Keppler, Moritz Gstür, Veit Hagenmeyer

cs.CR cs.AI

本文提出了一个名为CritBench的评估框架, 用于在IEC 61850数字变电站环境中评估大型语言模型(LLM)代理的网络安全能力. 该框架通过81个领域特定任务测试了多个先进模型, 发现模型在静态分析任务中表现可靠, 但在需要持续推理的动态任务中存在局限.

Ensemble-Based Dirichlet Modeling for Predictive Uncertainty and Selective Classification

Courtney Franzen, Farhad Pourkamali-Anaraki

stat.ML cs.LG

本文提出了一种基于ensemble的Dirichlet建模方法, 用于从softmax输出中估计预测不确定性. 该方法通过矩估计和最大似然优化来构建显式的Dirichlet预测分布, 从而在选择性分类等任务中提供更稳定的不确定性估计.

CoStream: Codec-Guided Resource-Efficient System for Video Streaming Analytics

Yulin Zou et al.

cs.DC cs.CV cs.LG

本文提出了一种名为CoStream的系统, 用于视频流分析任务. 该系统利用视频编解码器(Codec)在压缩过程中自然产生的元数据, 来指导视觉Transformer(ViT)和大型语言模型(LLM)的推理过程, 从而减少计算开销并提升系统吞吐量.

Value Mirror Descent for Reinforcement Learning

Zhichao Jia, Guanghui Lan

math.OC cs.LG math.PR

本文提出了一种名为value mirror descent (VMD)的新方法，将mirror descent整合到经典的value iteration框架中，用于解决强化学习问题。在随机设置下，该方法达到了接近最优的样本复杂度，并证明了生成策略与最优策略之间的Bregman divergence有界。

Graph-PiT: Enhancing Structural Coherence in Part-Based Image Synthesis via Graph Priors

Junbin Zhang et al.

cs.CV cs.AI cs.MM

本文提出Graph-PiT框架，通过引入graph prior来建模视觉部件之间的空间语义关系，以提升基于部件的图像合成的结构一致性。该方法利用Hierarchical Graph Neural Network (HGNN)模块和图拉普拉斯平滑损失等技术，在多个合成数据集上验证了其有效性。

Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

Juekai Lin et al.

cs.CV cs.AI

本文提出了一个用于科学图表程序合成的闭环框架, 包含高质量数据集SciTikZ-230K和评估基准SciTikZ-Bench. 同时, 作者引入了一种新颖的Dual Self-Consistency Reinforcement Learning优化范式, 其训练的模型SciTikZer-8B在性能上超越了多个大型模型.

eVTOL Aircraft Energy Overhead Estimation under Conflict Resolution in High-Density Airspaces

Alex Zongo, Peng Wei

eess.SY cs.LG cs.RO

本文研究了在高密度空域中, 使用Modified Voltage Potential (MVP)算法进行冲突解脱对eVTOL (电动垂直起降) 飞机能量消耗的影响. 通过基于物理的功率模型和交通仿真, 发现MVP解脱在大多数情况下能量开销很低, 并开发了一个用于任务前估计能量开销和不确定性的机器学习模型.

Pixel-Translation-Equivariant Quantum Convolutional Neural Networks via Fourier Multiplexers

Dmitry Chirkov, Igor Lobanov

quant-ph cs.LG

本文针对量子卷积神经网络(QCNN)中的平移等变性(translation equivariance)问题进行了研究. 作者构建了与像素循环平移(PCS)对称性精确对易的QCNN层, 并基于量子傅里叶变换(QFT)给出了其结构表征.

LLM4CodeRE: Generative AI for Code Decompilation Analysis and Reverse Engineering

Hamed Jelodar et al.

cs.CR cs.AI

本文提出了一个用于代码反编译分析的领域自适应LLM框架LLM4CodeRE, 支持汇编到源代码的反编译和源代码到汇编的翻译. 通过引入多适配器和序列到序列统一两种微调策略, 该模型在恶意软件逆向工程任务上表现优于现有工具和通用代码模型.

A Large-Scale Empirical Comparison of Meta-Learners and Causal Forests for Heterogeneous Treatment Effect Estimation in Marketing Uplift Modeling

Aman Singh

stat.CO cs.LG econ.EM stat.ME

本文在工业规模上对四种CATE估计器进行了大规模实证比较，评估了它们在营销提升建模中的表现。研究基于一个包含近1400万记录的公开数据集，发现S-Learner方法取得了最佳性能，并为实践者提供了方法选择的依据。

Lightweight Multimodal Adaptation of Vision Language Models for Species Recognition and Habitat Context Interpretation in Drone Thermal Imagery

Hao Chen et al.

cs.CV cs.AI

本文提出了一种轻量级多模态适应框架, 用于将预训练的RGB视觉语言模型(VLM)迁移到热红外无人机图像任务中. 该方法通过多模态投影器对齐进行微调, 在物种识别与计数以及栖息地上下文解释任务上取得了良好效果.

PoM: A Linear-Time Replacement for Attention with the Polynomial Mixer

David Picard et al.

cs.CV cs.AI

本文提出了一种名为Polynomial Mixer (PoM)的新型token混合机制，其计算复杂度为线性，可作为self-attention的直接替代品。PoM通过一个学习到的多项式函数聚合输入token，并从中提取上下文信息，在多个视觉和序列任务中达到了与基于attention的模型相当的性能，同时显著降低了长序列处理的计算成本。

Shot-Based Quantum Encoding: A Data-Loading Paradigm for Quantum Neural Networks

Basil Kyriacou et al.

quant-ph cs.AI cs.LG

本文提出了一种名为 Shot-Based Quantum Encoding (SBQE) 的数据加载范式，用于量子神经网络。该方法通过分配量子硬件的测量次数（shots）来编码经典数据，避免了传统编码方法对量子电路深度的依赖，并在基准测试中展示了有竞争力的分类准确率。

Generating Synthetic Doctor-Patient Conversations for Long-form Audio Summarization

Yanis Labrak et al.

cs.SD cs.AI

本文提出了一种用于生成长篇医患对话合成数据的流程, 旨在为长上下文音频推理任务提供训练和评估资源. 该流程包含对话生成, 多说话人音频合成和基于LLM的参考笔记生成三个阶段, 并基于开源模型构建. 作者发布了包含大量合成对话, 音频和参考笔记的数据集, 并评估了现有系统, 发现级联方法仍显著优于端到端模型.

Who Governs the Machine? A Machine Identity Governance Taxonomy (MIGT) for AI Systems Operating Across Enterprise and Geopolitical Boundaries

Andrew Kurtz, Klaudia Krawiecka

cs.CR cs.AI cs.MA

本文提出了一个用于管理跨企业和地缘政治边界AI系统的机器身份治理分类法(MIGT). 它旨在解决当前AI治理在机器身份管理方面的盲点, 并提供了一个包含风险分类、治理框架和威胁模型在内的综合方案.

MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

Yuchi Wang et al.

cs.CV cs.AI cs.CL

本文提出了一种自适应推理的多模态嵌入框架MMEmb-R1, 旨在解决将chain-of-thought推理直接用于嵌入学习时存在的结构错配和计算冗余问题. 该方法通过将推理建模为隐变量, 并结合pair-aware选择和强化学习来动态控制推理过程, 在MMEB-V2基准上取得了优异性能并降低了推理开销.

The Character Error Vector: Decomposable errors for page-level OCR evaluation

Jonathan Bourne, Mwiza Simbeye, Joseph Nockels

cs.CV cs.LG

本文提出了一种用于页面级OCR评估的新指标Character Error Vector (CEV). 该指标将错误分解为解析错误和OCR错误等部分, 有助于诊断文档理解流程中的问题, 并通过实验验证了其有效性.

DiffHDR: Re-Exposing LDR Videos with Video Diffusion Models

Zhengming Yu et al.

cs.CV cs.AI cs.GR

本文提出DiffHDR框架, 将LDR视频转换为HDR视频的任务构建为一种生成式辐射度修复问题. 该方法利用预训练的视频扩散模型在Log-Gamma色彩空间中进行操作, 以合成过曝和欠曝区域的细节, 并生成可用于重新曝光的HDR视频.

HaloProbe: Bayesian Detection and Mitigation of Object Hallucinations in Vision-Language Models

Reihaneh Zohrabi et al.

cs.CV cs.LG

本文针对视觉语言模型中的物体幻觉问题, 提出了一种名为HaloProbe的贝叶斯检测与缓解框架. 该框架通过分解外部描述统计量与内部解码信号来估计token级别的幻觉概率, 并以此作为外部评分信号进行非侵入式缓解, 在减少幻觉的同时保持了模型的实用性.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.IR

cs.CL

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others