bluearXiv-ai - 2026-04-09

📄 所有论文 ↑ 回顶部

cs.LG

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Tashreef Muhammad et al.

cs.LG econ.EM

本文构建了一个用于孟加拉国农产品价格预测的新数据集 AgriPriceBD, 并评估了多种经典与深度学习模型。结果表明，不同商品的预测难度差异很大，一些先进的深度模型（如Informer）在小数据集上表现不佳，而简单模型（如朴素持续性）在某些情况下更具优势。

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Gregory Magarshak

cs.LG cs.AI cs.CL cs.DS cs.IR +1

本文提出了 probabilistic language tries (PLTs) 这一统一表示框架。它将序列生成模型中隐含的前缀结构显式化，并展示了其在无损压缩、决策策略和计算复用三个方面的应用潜力。

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Gaurav Narasimhan

cs.LG cs.AI cs.PL

本文探讨了使用参数高效微调方法（如LoRA）和优化器改进（如Sophia）来提升从Python到Java等语言的跨语言代码生成能力。研究还引入了一种基于Fourier的正则化技术，实验表明该技术能显著提升跨语言迁移性能。

Spectral Edge Dynamics Reveal Functional Modes of Learning

Yongzhong Xu

cs.LG cs.AI

本文研究了训练动力学中的 spectral edge 现象, 指出其揭示了学习过程中的低维 functional modes. 通过分析不同代数任务, 发现这些 modes 的结构取决于任务的对称性, 而传统的 mechanistic interpretability 方法难以捕捉它们.

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

Ahsan Bilal et al.

cs.LG cs.AI

本文提出了一种名为$S^3$的验证器引导搜索方法，用于提升扩散语言模型在测试时的生成质量。该方法通过在去噪过程中动态分配计算资源，而非仅在最终阶段进行选择，从而更有效地探索高质量输出。实验表明，该方法在多个推理基准上取得了性能提升。

SMT-AD: a scalable quantum-inspired anomaly detection approach

Apimuk Sornsaeng et al.

cs.LG cond-mat.stat-mech quant-ph

本文提出了一种名为SMT-AD的可扩展量子启发的异常检测方法. 该方法基于叠加低bond dimension的matrix product operators (MPO) 来转换数据, 并利用Fourier辅助的特征嵌入, 其参数量随特征维度线性增长. 实验表明, 该方法在标准数据集上取得了有竞争力的性能, 并能通过特征选择来压缩模型.

MO-RiskVAE: A Multi-Omics Variational Autoencoder for Survival Risk Modeling in Multiple MyelomaMO-RiskVAE

Zixuan Chen et al.

cs.LG cs.AI

本文在MyeVAE框架内系统研究了多模态生存预测的潜在空间建模选择, 发现生存驱动的训练主要对正则化的幅度和结构敏感, 而非特定的散度公式. 基于此, 作者提出了MO-RiskVAE模型, 在无需额外监督的情况下改善了多发性骨髓瘤的风险分层.

RAGEN-2: Reasoning Collapse in Agentic RL

Zihan Wang et al.

cs.LG

本文探讨了 multi-turn LLM agents 在 RL 训练中的稳定性问题，指出仅靠 entropy 不足以衡量 reasoning 质量，并提出了基于 mutual information 的诊断方法。

Asymptotic-Preserving Neural Networks for Viscoelastic Parameter Identification in Multiscale Blood Flow Modeling

Giulia Bertaglia, Raffaella Fiamma Cabini

cs.LG math.NA physics.comp-ph physics.flu-dyn

本文提出了一种基于Asymptotic-Preserving Neural Networks的方法，用于从多尺度血流模型中识别血管壁的粘弹性参数。该方法利用易于获取的患者特定数据（如超声测量的横截面积和速度）来估计压力波形和模型参数。

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

Lin Mu et al.

cs.LG cs.AI

本文提出了一种名为TalkLoRA的通信感知混合低秩适应框架，用于大型语言模型的高效微调。该方法通过引入专家间的轻量级通信模块，改善了路由的稳定性与性能。

AgentOpt v0.1 Technical Report: Client-Side Optimization for LLM-Based Agent

Wenyue Hua et al.

cs.LG cs.AI cs.MA cs.SE

本文提出了一个名为AgentOpt的框架无关Python包, 用于优化基于LLM的智能体在客户端(而非服务器端)的资源分配问题. 它主要研究多步骤智能体流程中的模型选择问题, 并实现了多种搜索算法来高效探索组合空间, 以在满足特定质量、成本和延迟约束下找到最具成本效益的模型分配方案.

Limits of Difficulty Scaling: Hard Samples Yield Diminishing Returns in GRPO-Tuned SLMs

Suraj Yadav, Siddharth Yadav, Parth Goyal

cs.LG

本文研究了在资源受限环境下, 使用GRPO和LoRA对小型语言模型进行数学推理对齐的效果. 研究发现, 随着问题难度增加, 模型性能提升存在上限, 且训练中使用更难样本的回报递减.

Drifting Fields are not Conservative

Leonard Franz, Sebastian Hoffmann, Georg Martius

cs.LG cs.CV

本文探讨了 drifting models 中 drift field 的性质, 指出其通常不是 conservative field, 即不能表示为某个 scalar potential 的梯度. 作者发现 Gaussian kernel 是一个特例, 并提出了一种替代的 normalization 方法, 使得 drift field 可以对应一个 scalar loss function.

BiScale-GTR: Fragment-Aware Graph Transformers for Multi-Scale Molecular Representation Learning

Yi Yang, Ovidiu Daescu

cs.LG cs.AI

本文提出了一种结合化学片段标记与自适应多尺度推理的自监督分子表示学习框架. 该方法通过改进的图BPE算法生成化学有效的片段标记, 并设计了一个并行的GNN-Transformer架构, 在多个基准数据集上取得了先进的性能.

Bi-Level Optimization for Single Domain Generalization

Marzi Heidari et al.

cs.LG cs.AI cs.CV

本文提出了一个名为BiSDG的双层优化框架, 用于解决单域泛化(SDG)问题. 该方法通过解耦任务学习和域建模, 并利用域提示编码器生成调制信号来增强特征, 在多个SDG基准测试中取得了优于先前方法的性能.

Stochastic Gradient Descent in the Saddle-to-Saddle Regime of Deep Linear Networks

Guillaume Corlouer et al.

cs.LG stat.ML

本文研究了深度线性网络(DLNs)在鞍点到鞍点训练阶段中随机梯度下降(SGD)的动力学。通过将SGD建模为具有各向异性、状态相关噪声的Langevin动力学，作者在权重对齐且平衡的假设下，将高维动力学精确分解为一维的per-mode随机微分方程。研究表明，SGD噪声编码了特征学习进展的信息，但并未从根本上改变鞍点到鞍点的动力学本质。

The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment

Rishab Balasubramanian et al.

cs.LG cs.AI

本文提出了一种无需训练即可在不同规模模型间迁移能力的方法. 该方法基于线性子空间对齐的假设, 通过对比激活来提取并应用能力方向.

Toward a universal foundation model for graph-structured data

Sakib Mostafa, Lei Xing, Md. Tauhidul Islam

cs.LG cs.AI

本文提出了一种用于图结构数据的通用基础模型, 旨在学习可迁移的结构表示. 该方法利用与节点特征无关的图属性作为结构提示, 通过预训练和微调在多个生物医学图基准上取得了优于监督基线的性能.

Bridging Theory and Practice in Crafting Robust Spiking Reservoirs

Ruggero Freddi et al.

cs.LG q-bio.NC stat.ML

本文针对spiking reservoir computing中参数调优的挑战, 提出了robustness interval这一操作性度量, 用于量化超参数范围内性能保持稳定的区间. 通过系统评估LIF架构在静态和时序任务上的表现, 发现了robustness interval随网络连接密度和发放阈值变化的单调趋势, 并验证了理论临界点$w_{\text{crit}}$通常位于高性能区域内.

ODE-free Neural Flow Matching for One-Step Generative Modeling

Xiao Shou

cs.LG

本文提出了一种名为OT-NFM的ODE-free生成框架, 通过直接学习从噪声到数据的传输映射(flow map)来实现单步生成. 该方法解决了直接训练传输映射时出现的均值坍缩(mean collapse)问题, 并利用最优传输(optimal transport)配对策略确保了学习过程的稳定性. 在图像生成任务上的实验表明, 该方法能以单次网络前向传递获得有竞争力的样本质量.

Neural Computers

Mingchen Zhuge et al.

cs.LG cs.AI

本文提出了一种名为"Neural Computers (NCs)"的新兴机器形态概念, 旨在将计算、内存和I/O统一在一个学习到的运行时状态中. 作为初步探索, 研究通过视频模型在CLI和GUI环境中验证了仅从I/O轨迹学习早期NC原语的可行性, 并指出了实现完全神经计算机(CNC)所面临的挑战和未来路线图.

The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

Yi Xu, Philipp Jettkant, Laura Ruis

cs.LG cs.AI cs.CL

本文研究了大型语言模型在无中间步骤监督的情况下, 发现并执行多步潜在规划策略的能力极限. 通过图路径寻找任务, 实验揭示了模型在训练中能学习的最大潜在规划深度约为五步, 且存在发现策略与执行策略的能力分离.

From Load Tests to Live Streams: Graph Embedding-Based Anomaly Detection in Microservice Architectures

Srinidhi Madabhushi et al.

cs.LG cs.AI cs.MM eess.IV

本文提出了一种基于图嵌入的异常检测系统, 用于识别微服务架构中在负载测试中未被充分体现的服务行为. 该方法利用 GCN-GAE 从有向加权的服务图中学习结构表示, 并通过比较负载测试与真实事件嵌入的余弦相似度来标记异常.

Quality-preserving Model for Electronics Production Quality Tests Reduction

Noufa Haneefa, Teddy Lazebnik, Einav Peretz-Andersson

cs.LG

本文提出了一种结合离线贪心集合覆盖与在线Thompson-sampling多臂老虎机的自适应测试选择框架，用于在电子制造中动态优化测试流程。该框架在实际生产数据上验证了其能在保证质量的同时显著减少测试时间与缺陷逃逸。

Weighted Bayesian Conformal Prediction

Xiayin Lou, Peng Luo

cs.LG physics.app-ph stat.ML

本文提出了一种加权贝叶斯共形预测方法, 将贝叶斯求积共形预测推广到存在分布偏移的场景. 该方法通过使用加权Dirichlet分布替代均匀分布, 并证明了关于有效样本数和后验覆盖的理论性质, 在空间预测等任务中提供了更丰富的不确定性信息.

Conformal Margin Risk Minimization: An Envelope Framework for Robust Learning under Label Noise

Yuanjie Shi et al.

cs.LG stat.ML

本文提出了一个名为 Conformal Margin Risk Minimization (CMRM) 的通用框架，用于提升分类模型在标签噪声下的鲁棒性。该框架无需额外先验知识，通过添加一个基于分位数校准的正则项来改进任意分类损失函数。

MICA: Multivariate Infini Compressive Attention for Time Series Forecasting

Willa Potosnak et al.

cs.LG

本文提出了一种名为MICA的注意力机制, 用于解决多变量时间序列预测中Transformer模型因跨通道注意力导致的二次复杂度问题. MICA通过将序列维度上的高效注意力技术适配到通道维度, 实现了与通道数和上下文长度呈线性关系的跨通道建模, 从而提升了预测精度和计算效率.

AE-ViT: Stable Long-Horizon Parametric Partial Differential Equations Modeling

Iva Mikuš, Boris Muha, Domagoj Vlah

cs.LG math.NA

本文提出了一种结合卷积编码器、Transformer和解码器的联合模型, 用于参数化偏微分方程(PDEs)的长期建模. 该方法通过多阶段参数注入和坐标通道注入, 在多个基准测试中优于现有深度学习方法.

Distributed Interpretability and Control for Large Language Models

Dev Arpan Desai, Shaoyi Huang, Zining Zhu

cs.LG cs.AI

本文提出了一种针对多GPU环境下大型语言模型的分布式可解释性与控制方法. 该方法通过优化设计, 显著降低了激活内存并提高了处理吞吐量, 能够在保持高生成速度的同时收集全层的激活轨迹. 作者在多个模型上验证了其有效性, 并展示了通过注入steering vector实现可控输出偏移的能力.

Inference-Time Code Selection via Symbolic Equivalence Partitioning

David Cho et al.

cs.LG cs.AI

本文提出了一种名为Symbolic Equivalence Partitioning的推理时代码选择框架，用于提升大语言模型在代码生成任务中的性能。该方法利用symbolic execution将候选程序按语义行为分组，并通过SMT假设编码领域约束来优化分组过程。实验表明，该方法在HumanEval+和LiveCodeBench基准上显著提高了准确率，且无需额外的LLM推理开销。

Discrete Flow Matching Policy Optimization

Maojiang Su et al.

cs.LG cs.AI cs.CE

本文提出了一个用于强化学习微调离散流匹配模型的统一框架, 将采样过程视为多步马尔可夫决策过程. 该方法避免了先前方法中的有偏估计, 并通过总变差正则化防止策略崩溃, 在调控DNA序列设计任务上取得了优于基线方法的效果.

Optimal Rates for Pure {\varepsilon}-Differentially Private Stochastic Convex Optimization with Heavy Tails

Andrew Lowy

cs.LG cs.CR stat.ML

本文研究了在纯$\epsilon$-差分隐私约束下, 具有重尾梯度的随机凸优化问题. 作者假设梯度仅具有有界的$k$阶矩, 而非有界的Lipschitz常数, 从而允许无界、重尾的随机梯度分布. 论文给出了该设置下极小极大最优超额风险率的刻画, 并提出了一个多项式时间算法来实现该速率.

Improving Robustness In Sparse Autoencoders via Masked Regularization

Vivek Narayanaswamy et al.

cs.LG cs.AI

本文提出了一种基于masking的正则化方法, 用于改善sparse autoencoder (SAE) 的鲁棒性. 该方法通过在训练中随机替换token来破坏共现模式, 从而减少feature absorption, 提升探测性能并缩小out-of-distribution (OOD) 性能差距.

Transformer See, Transformer Do: Copying as an Intermediate Step in Learning Analogical Reasoning

Philipp Hellwig et al.

cs.LG cs.CL

本文研究了Transformer模型在类比推理任务上的表现, 通过元学习组合性(MLC)方法进行训练. 研究发现, 在训练数据中加入复制任务可以引导模型关注关键信息, 从而提升其在字母串类比任务上的泛化能力, 但对全新变换的泛化仍然有限.

VLMShield: Efficient and Robust Defense of Vision-Language Models against Malicious Prompts

Peigui Qi et al.

cs.LG

本文提出了一种名为VLMShield的轻量级安全检测器，用于防御针对Vision-Language Models的恶意提示攻击。该方法基于一个多模态聚合特征提取框架来分析特征分布，从而实现高效且鲁棒的恶意攻击识别。

Efficient Quantization of Mixture-of-Experts with Theoretical Generalization Guarantees

Mohammed Nowaz Rabbani Chowdhury et al.

cs.LG cs.AI

本文提出了一种针对稀疏 Mixture-of-Experts (MoE) 模型的专家级混合精度量化方法。该方法基于专家在训练过程中 router 的 $l_2$ 范数变化和神经元内最大方差来分配比特宽度，在降低推理成本的同时保持了模型精度。

Time-Series Classification with Multivariate Statistical Dependence Features

Yao Sun, Bo Hu, Jose Principe

cs.LG

本文提出了一种基于多元统计依赖特征的时间序列分类新框架. 该方法利用 cross density ratio (CDR) 直接估计输入与目标信号联合密度中的统计依赖性, 并基于 functional maximal correlation algorithm (FMCA) 构建特征空间. 在语音数据集上的实验表明, 其性能优于一些传统模型.

When Does Context Help? A Systematic Study of Target-Conditional Molecular Property Prediction

Bryan Cheng, Jasper Zhang

cs.LG q-bio.MN

本文系统研究了在分子性质预测中, 目标上下文(context)何时能提供帮助. 通过评估多种蛋白质家族、融合架构和数据规模, 研究发现融合架构的选择比是否包含上下文更重要, 上下文在数据稀缺时能实现原本不可能的预测, 但也可能因分布不匹配而损害性能. 此外, 研究揭示了标准基准测试中的根本缺陷, 并提出了时间分割评估以证明模型对未来化学空间的泛化能力.

TwinLoop: Simulation-in-the-Loop Digital Twins for Online Multi-Agent Reinforcement Learning

Nan Zhang et al.

cs.LG cs.AI

本文提出了一个名为TwinLoop的仿真在环数字孪生框架，用于在线多智能体强化学习。该框架旨在通过数字孪生进行模拟分析，加速策略更新，以减少物理系统中试错学习的成本。

PD-SOVNet: A Physics-Driven Second-Order Vibration Operator Network for Estimating Wheel Polygonal Roughness from Axle-Box Vibrations

Xiancheng Wang et al.

cs.LG

本文提出了一种名为PD-SOVNet的物理驱动二阶振动算子网络，用于从轴箱振动信号中估计车轮多边形粗糙度。该方法结合了物理先验与数据驱动模块，在真实数据集上展示了其回归性能。

SubFLOT: Submodel Extraction for Efficient and Personalized Federated Learning via Optimal Transport

Zheng Jiang et al.

cs.LG cs.AI cs.CV

本文提出了一种名为SubFLOT的服务器端个性化联邦剪枝框架. 它通过Optimal Transport模块生成定制化子模型, 并利用自适应正则化来缓解参数发散问题, 旨在为资源受限的边缘设备部署高效且个性化的模型.

SHAPE: Stage-aware Hierarchical Advantage via Potential Estimation for LLM Reasoning

Zhengyang Ai et al.

cs.LG cs.AI cs.CL

本文提出了一种名为SHAPE的框架, 用于提升大型语言模型(LLM)的推理效率. 该方法通过分层信用分配机制, 在减少计算消耗的同时提高了数学推理任务的准确率.

FlowAdam: Implicit Regularization via Geometry-Aware Soft Momentum Injection

Devender Singh, Tarun Sheel

cs.LG

本文提出了一种名为FlowAdam的混合优化器, 它通过常微分方程(ODE)的连续梯度流积分来增强Adam. 该方法在检测到优化困难时切换到ODE积分, 并引入Soft Momentum Injection来平滑过渡, 从而在耦合参数问题上实现了更好的泛化性能.

GraphWalker: Graph-Guided In-Context Learning for Clinical Reasoning on Electronic Health Records

Yue Fang et al.

cs.LG

本文提出了GraphWalker, 一个用于电子健康记录(EHR)临床推理的上下文学习(ICL)演示选择框架. 它通过整合数据驱动和模型驱动的视角, 结合群体发现和惰性贪婪搜索算法, 以解决现有方法在视角局限、群体意识和信息聚合方面的挑战.

Towards Accurate and Calibrated Classification: Regularizing Cross-Entropy From A Generative Perspective

Qipeng Zhan, Zhuoping Zhou, Li Shen

cs.LG stat.ML

本文提出了一种名为Generative Cross-Entropy (GCE)的新损失函数，旨在改善深度神经网络的准确性和校准性。该方法从生成式视角对标准交叉熵进行正则化，在多个数据集上取得了优于基准的结果。

Bi-Lipschitz Autoencoder With Injectivity Guarantee

Qipeng Zhan et al.

cs.LG stat.ML

本文提出了一种具有单射性保证的Bi-Lipschitz Autoencoder (BLAE). 该方法通过引入基于分离准则的单射正则化和双Lipschitz松弛, 旨在提升自编码器在降维过程中对数据流形结构的保持能力和对数据分布漂移的鲁棒性.

Bi-level Heterogeneous Learning for Time Series Foundation Models: A Federated Learning Approach

Shengchao Chen et al.

cs.LG

本文提出了一种针对时间序列基础模型(TSFMs)的双层异构联邦学习方法. 该方法通过局部正则化处理域内冲突, 并通过域感知聚合增强跨域协作, 以在异构环境中训练模型. 实验表明, 该方法在点预测和概率预测任务上优于集中式和联邦式基线.

Extraction of linearized models from pre-trained networks via knowledge distillation

Fumito Kimura, Jun Ohkubo

cs.LG

本文提出了一种通过结合 Koopman operator theory 与 knowledge distillation，从预训练神经网络中提取线性化模型用于分类任务的框架。在 MNIST 和 Fashion-MNIST 数据集上的实验表明，该模型在分类精度和数值稳定性上均优于传统的基于最小二乘的 Koopman 近似方法。

Busemann energy-based attention for emotion analysis in Poincaré discs

Zinaid Kapić, Vladimir Jaćimović

cs.LG

本文提出了一种名为EmBolic的、用于文本细粒度情感分析的全双曲深度学习架构. 该模型利用双曲几何捕捉层次关系, 其核心是基于Busemann能量的注意力机制, 在Poincaré圆盘中通过查询与键的匹配进行情感预测.

The Rhetoric of Machine Learning

Robert C. Williamson

cs.LG cs.CY

本文从修辞学视角审视了机器学习技术, 认为其本质上是说服性的而非客观中立的. 作者探讨了机器学习的修辞特征, 并分析了其在一个普遍商业模式("操纵即服务")中的应用.

Geometric Properties of the Voronoi Tessellation in Latent Semantic Manifolds of Large Language Models

Marshall Brett

cs.LG cs.CL

本文研究了大型语言模型潜在语义流形上的Voronoi tessellation的几何性质。通过实验验证了expressibility gap的线性缩放规律，并探讨了通过margin refinement procedures对tessellation进行后处理优化的可行性。

Sparse-Aware Neural Networks for Nonlinear Functionals: Mitigating the Exponential Dependence on Dimension

Jianfei Li et al.

cs.LG cs.AI math.FA

本文提出了一种利用稀疏性来缓解函数学习中维度灾难的框架, 结合了卷积架构和全连接网络来近似非线性泛函. 该框架通过通用离散化方法, 证明了从离散样本中稳定恢复的可能性, 并在多种函数空间中获得了改进的逼近率和减少的样本量.

Instance-Adaptive Parametrization for Amortized Variational Inference

Andrea Pollastro et al.

cs.LG cs.AI

本文提出了一种实例自适应的变分自编码器(IA-VAE), 通过一个超网络为共享编码器生成输入依赖的调制参数, 从而在保持单次前向传播效率的同时, 实现推理模型的输入特定适应. 实验表明, 该方法能减少摊销差距(amortization gap)并提升证据下界(ELBO).

MoBiE: Efficient Inference of Mixture of Binary Experts under Post-Training Quantization

Zhixiong Zhao et al.

cs.LG cs.AI

本文提出了一个针对MoE架构大语言模型的后训练二值化框架MoBiE. 它通过联合SVD分解、改进的重要性估计和路由失真缓解技术, 在保持存储效率的同时提升了二值化模型的性能.

OmniTabBench: Mapping the Empirical Frontiers of GBDTs, Neural Networks, and Foundation Models for Tabular Data at Scale

Dihong Jiang et al.

cs.LG cs.AI

本文介绍了OmniTabBench, 这是一个迄今为止规模最大的表格数据基准测试集, 包含3030个数据集. 通过在该基准上对多种先进模型进行大规模评估, 研究发现没有一种模型范式在所有情况下都占绝对优势, 并通过解耦的元特征分析揭示了不同模型类别适用的具体数据条件.

STQuant: Spatio-Temporal Adaptive Framework for Optimizer Quantization in Large Multimodal Model Training

Minglu Liu et al.

cs.LG

本文提出了一个名为STQuant的分布式训练框架, 用于在大型多模态模型训练中动态量化优化器状态以降低内存占用. 该框架通过跨层, 状态变量和训练步骤的自适应精度分配, 在显著减少内存的同时保持了模型质量.

Contraction-Aligned Analysis of Soft Bellman Residual Minimization with Weighted Lp-Norm for Markov Decision Problem

Hyukjun Yang, Han-Dong Lim, Donghwan Lee

cs.LG

本文研究了在函数逼近下求解Markov决策过程时, 目标函数几何性质与Bellman算子收缩性质不匹配的问题. 作者提出了一种基于加权$L_p$范数的软Bellman残差最小化方法, 并分析了其误差界.

MENO: MeanFlow-Enhanced Neural Operators for Dynamical Systems

Tianyue Yang, Xiao Xue

cs.LG physics.flu-dyn

本文提出了一种名为MENO的框架, 用于提升neural operators在预测dynamical systems时的精度与效率. 该方法通过结合改进的MeanFlow技术, 在多个高分辨率benchmark上实现了更准确的power spectrum预测, 同时显著降低了推理时间.

VertAX: a differentiable vertex model for learning epithelial tissue mechanics

Alessandro Pasqui et al.

cs.LG cs.SE physics.bio-ph

本文介绍了一个名为VertAX的可微分顶点模型框架, 用于学习和模拟上皮组织的力学行为. 该框架基于JAX实现, 支持自动微分和GPU加速, 能够进行参数推断和组织行为的逆向设计.

Equivariant Multi-agent Reinforcement Learning for Multimodal Vehicle-to-Infrastructure Systems

Charbel Bou Chaaya, Mehdi Bennis

cs.LG

本文提出了一种用于多模态车路协同系统的等变多智能体强化学习方法. 该方法利用自监督学习对齐多模态观测特征以提取车辆位置, 并采用具有消息传递层的图神经网络训练等变策略, 以协调分布式基站资源分配. 仿真结果表明该方法在感知准确性和网络性能上优于基线.

FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

Yitong Li et al.

cs.LG cs.AI cs.CV

本文提出了一种名为Sol-RL的两阶段强化学习框架，用于高效对齐大规模文本到图像扩散模型。该方法通过FP4量化加速候选样本生成，再使用BF16精度对精选样本进行策略优化，从而在保持训练完整性的同时显著提升效率。实验表明，该方法能加速训练收敛并改善对齐性能。

A First Guess is Rarely the Final Answer: Learning to Search in the Travelling Salesperson Problem

Andoni Irazusta Garmendia

cs.LG cs.AI

本文提出了一种名为NICO-TSP的神经改进框架，用于学习旅行商问题(TSP)的局部搜索策略。该方法通过模仿学习和强化学习进行训练，在计算匹配的评估中表现出比现有方法更强的改进能力和泛化性。

Frailty Estimation in Elderly Oncology Patients Using Multimodal Wearable Data and Multi-Instance Learning

Ioannis Kyprakis et al.

cs.LG cs.AI

本文提出了一种基于多模态可穿戴数据和多示例学习(MIL)的框架, 用于评估老年乳腺癌患者的衰弱相关功能变化. 该方法利用注意力机制融合不规则且存在缺失的现实世界数据, 在握力和FACIT-F评分的变化预测上取得了一定效果, 其中智能手表的活动与睡眠数据被证明最具预测性.

Stress Estimation in Elderly Oncology Patients Using Visual Wearable Representations and Multi-Instance Learning

Ioannis Kyprakis et al.

cs.LG cs.AI

本文提出了一种基于多模态可穿戴数据和视觉表示的方法, 用于估计老年乳腺癌患者的感知压力. 该方法将可穿戴数据流转换为视觉表示, 并利用一个轻量级的预训练混合专家模型(Tiny-BioMoE)和基于注意力的多示例学习(MIL)进行预测. 在留一受试者交叉验证下, 模型预测结果与问卷评分显示出中等程度的相关性.

Predictive Representations for Skill Transfer in Reinforcement Learning

Ruben Vereecken, Luke Dickens, Alessandra Russo

cs.LG

本文提出了一种基于状态抽象进行知识迁移的新形式化方法, 称为 Outcome-Predictive State Representations (OPSRs). 该方法通过预测与环境交互的独立于任务的"结果"来构建状态表示, 并进一步将其与基于选项的技能相结合, 以实现在新任务中的高效迁移学习.

ConceptTracer: Interactive Analysis of Concept Saliency and Selectivity in Neural Representations

Ricardo Knauer, Andre Beinrucker, Erik Rodner

cs.LG cs.AI

本文介绍了一个名为ConceptTracer的交互式应用，用于通过人类可解释的概念来分析神经网络的内部表示。该工具整合了两种信息论度量来量化概念的显著性和选择性，帮助识别对特定概念有强响应的神经元。作者在TabPFN模型上展示了其效用，为探索神经网络如何编码概念级信息提供了一个实用框架。

Learning to Query History: Nonstationary Classification via Learned Retrieval

Jimmy Gammell et al.

cs.LG

本文提出了一种通过检索历史数据来处理非平稳分类问题的方法, 将分类任务转化为时间序列预测. 该方法使用一个可学习的离散检索机制来查询相关的历史标注样本, 并与分类器进行端到端训练. 实验表明, 该方法在分布漂移下比标准分类器更具鲁棒性.

MoE Routing Testbed: Studying Expert Specialization and Routing Behavior at Small Scale

Tobias Falke et al.

cs.LG

本文提出了一个用于研究稀疏混合专家(MoE)模型中路由行为的小规模测试平台. 该平台通过使用具有明确可区分领域的数据混合以及一个基于领域预设理想路由的参考路由器, 为量化评估专家专业化程度提供了基准. 作者利用该测试平台比较了多种路由方法, 指出平衡路由范围是实现专家专业化同时保持高利用率的关键因素.

AdaBoost Does Not Always Cycle: A Computer-Assisted Counterexample

Erik Y. Wang

cs.LG

本文通过计算机辅助构造了一个反例, 回答了关于AdaBoost算法是否总是收敛到一个有限循环的公开问题. 所有断言均通过精确有理数运算进行了验证.

Production-Ready Automated ECU Calibration using Residual Reinforcement Learning

Andreas Kampmeier et al.

cs.LG

本文提出了一种基于残差强化学习(residual RL)的自动化ECU标定方法, 旨在解决传统手工标定效率低下的问题. 该方法在硬件在环(HiL)平台上进行了验证, 能够快速收敛到接近参考值的标定结果, 显著减少了时间和人力成本.

Epistemic Robust Offline Reinforcement Learning

Abhilash Reddy Chenreddy, Erick Delage

cs.LG

本文提出了一种处理离线强化学习中认知不确定性(cognitive uncertainty)的统一框架, 用紧凑的Q值不确定性集合(uncertainty sets)替代了传统的集成方法(ensemble methods). 该方法在表格和连续状态领域都展现出了比基线方法更好的鲁棒性和泛化能力.

Mining Electronic Health Records to Investigate Effectiveness of Ensemble Deep Clustering

Manar D. Samad, Yina Hou, Shrabani Ghosh

cs.LG

本文比较了传统聚类方法、混合方法以及深度学习方法在电子健康记录(EHR)数据上的聚类效果. 针对深度聚类在表格型EHR数据上的局限性, 作者提出了一种集成深度聚类方法, 通过聚合多个嵌入维度的聚类结果来提升性能.

Are Stochastic Multi-objective Bandits Harder than Single-objective Bandits?

Changkun Guan, Mengfan Xu

cs.LG stat.ML

本文研究了随机多目标bandit问题是否比单目标问题更难优化. 作者证明了Pareto regret由最大次优间隙$g^\dagger$主导, 并提出了一个两层不确定性量化算法, 其regret为$O(\frac{K\log T}{g^\dagger})$, 并通过实验验证了其优于基准方法.

Selective Neuron Amplification for Training-Free Task Enhancement

Ryyan Akhtar

cs.LG cs.CL

本文提出了一种称为Selective Neuron Amplification (SNA)的方法，用于在不修改模型参数的情况下，通过增强推理过程中与任务相关神经元的激活来提升大语言模型的任务表现。该方法主要适用于模型不确定的情况，表明某些失败源于激活不足而非能力缺失。

Information as Structural Alignment: A Dynamical Theory of Continual Learning

Radu Negulescu

cs.LG cs.AI

本文提出了一种基于信息作为结构对齐的持续学习动力学理论, 称为信息构建框架(IBF). 该框架通过两个核心动力学方程来避免灾难性遗忘, 并在多个任务上展示了优于回放方法的性能.

Lumbermark: Resistant Clustering by Chopping Up Mutual Reachability Minimum Spanning Trees

Marek Gagolewski

cs.LG stat.AP stat.ML

本文提出了一种名为Lumbermark的鲁棒分裂聚类算法。该算法通过迭代切割数据集互达距离最小生成树的突出部分来检测不同大小、密度和形状的簇。

Multi-Turn Reasoning LLMs for Task Offloading in Mobile Edge Computing

Ning Yang, Chuangxin Cheng, Haijun Zhang

cs.LG

本文提出了一种名为COMLLM的生成式框架, 用于移动边缘计算(MEC)中的任务卸载决策. 该框架结合了Group Relative Policy Optimization (GRPO)和Look-Ahead Collaborative Simulation (LACS)机制, 通过多步蒙特卡洛推演来建模长期系统状态, 从而超越了仅优化即时延迟的策略. 实验表明, 该方法在延迟和负载均衡公平性上表现良好, 并具备零样本的拓扑可扩展性.

SBBTS: A Unified Schrödinger-Bass Framework for Synthetic Financial Time Series

Alexandre Alouadi et al.

cs.LG

本文提出了一种用于生成合成金融时间序列的统一框架SBBTS，它通过扩展Schrödinger-Bass formulation来联合校准漂移和随机波动率。该方法在Heston模型和S&P 500数据上的实验表明，其生成的合成数据能有效提升下游预测任务的性能。

Smart Commander: A Hierarchical Reinforcement Learning Framework for Fleet-Level PHM Decision Optimization

Yong Si et al.

cs.LG

本文提出了一种用于机队级PHM决策优化的分层强化学习框架Smart Commander. 该框架通过战略与战术两层结构分解复杂控制问题, 在定制的高保真仿真环境中验证了其优于传统方法.

Improving Semantic Uncertainty Quantification in Language Model Question-Answering via Token-Level Temperature Scaling

Tom A. Lamb et al.

cs.LG

本文针对语言模型问答任务中的语义不确定性量化问题, 提出了一种基于token-level temperature scaling的校准方法. 该方法通过优化一个单一的标量温度参数, 有效改善了置信度分布的校准性和判别力, 在多项评估指标上超越了现有的启发式基线方法.

Mixture Proportion Estimation and Weakly-supervised Kernel Test for Conditional Independence

Yushi Hirose, Akito Narahara, Takafumi Kanamori

cs.LG cs.AI

本文针对 mixture proportion estimation (MPE) 问题，提出了基于条件独立性的新假设，以替代传统的不可约性假设。作者开发了相应的矩估计方法，并分析了其渐近性质，同时提出了一种弱监督核检验来验证其假设。

Beyond the Mean: Modelling Annotation Distributions in Continuous Affect Prediction

Kosmas Pinitas, Ilias Maglogiannis

cs.LG cs.ET

本文提出了一种基于Beta分布的建模框架来处理连续情感预测中标注者主观性带来的不确定性. 该方法通过预测标注分布的均值和标准差来捕捉情感感知的变异性, 而非传统的单一值回归.

Diffusion Processes on Implicit Manifolds

Victor Kawasaki-Borruat et al.

cs.LG math.PR

本文提出了一种在隐式流形上构建扩散过程的方法, 称为隐式流形值扩散(IMD). 该方法仅使用点云数据, 通过估计生成元和carré-du-champ算子来定义环境空间中的随机微分方程, 并证明了其在样本增多时收敛到光滑流形上的扩散过程.

How Does Machine Learning Manage Complexity?

Lance Fortnow

cs.LG cs.CC

本文从计算复杂性角度探讨了机器学习模型处理复杂性的能力. 作者将机器学习抽象为产生具有多项式有界最大熵的P/poly可计算分布, 并分析了其对可计算分布的建模.

On the Price of Privacy for Language Identification and Generation

Xiaoyu Li et al.

cs.LG cs.CL cs.CR cs.DS

本文研究了在语言识别与生成任务中差分隐私(DP)的理论代价. 在近似DP下, 隐私成本可以忽略不计; 而在纯DP下, 误差率的指数部分会有一个$\min\{1,\varepsilon\}$的乘性衰减因子.

Weaves, Wires, and Morphisms: Formalizing and Implementing the Algebra of Deep Learning

Vincent Abbott, Gioele Zardini

cs.LG math.CT

本文提出了一种用于形式化描述深度学习模型架构的范畴论框架, 引入了axis-stride和array-broadcasted范畴来处理非线性广播操作. 该框架将模型背后的数学函数转化为可组合的数学表达式, 并提供了相应的Python和TypeScript实现.

A comparative analysis of machine learning models in SHAP analysis

Justin Lin, Julia Fukuyama

cs.LG

本文比较了不同机器学习模型在SHAP分析中的表现, 并探讨了SHAP值解释对模型的依赖性. 作者还提出了一种将waterfall plot推广到多分类问题的新方法.

Tracking Adaptation Time: Metrics for Temporal Distribution Shift

Lorenzo Iovine, Giacomo Ziffer, Emanuele Della Valle

cs.LG

本文提出了三种新的评估指标, 用于区分模型在时间分布漂移下的适应能力与数据本身的内在难度变化. 这些指标旨在提供比现有平均性能下降度量更动态和可解释的模型行为视图.

Android Coach: Improve Online Agentic Training Efficiency with Single State Multiple Actions

Guo Gan et al.

cs.LG cs.AI

本文针对在线强化学习训练Android智能体时模拟器延迟高、样本效率低的问题, 提出了Android Coach框架. 该框架将训练范式从Single State Single Action转变为Single State Multiple Actions, 通过训练一个critic来评估动作价值, 从而在不增加模拟器开销的情况下从单个在线状态采样多个动作进行策略更新.

Graph Neural ODE Digital Twins for Control-Oriented Reactor Thermal-Hydraulic Forecasting Under Partial Observability

Akzhol Almukhametov et al.

cs.LG

本文提出了一种结合物理信息图神经网络与神经常微分方程(GNN-ODE)的替代模型，用于在部分可观测条件下对反应堆热工水力状态进行快速预测。该模型通过图结构编码系统连接性，并利用连续时间动力学进行自回归预测，在仿真和实验数据上均表现出良好的预测精度和计算效率。

SL-FAC: A Communication-Efficient Split Learning Framework with Frequency-Aware Compression

Zehang Lin et al.

cs.LG

本文提出了一种名为SL-FAC的通信高效分割学习框架，通过自适应频率分解和基于频率的量化压缩来减少激活值和梯度的传输开销。该方法在频域对数据进行处理，根据频谱能量分布进行定制化量化，从而在保持模型收敛性的同时显著降低通信负担。

How to sketch a learning algorithm

Sam Gunn

cs.LG

本文提出了一种用于预测在删除部分训练数据后模型行为的数据删除方案, 其核心是基于"稳定性"假设. 该方案在深度学习设定下能以可忽略的误差进行预测, 其计算和存储开销相对于标准训练和推理仅为多项式级别.

cs.AI

Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization ⭐ 精选

Yu Li, Sizhe Tang, Tian Lan

cs.AI cs.LG

本文提出了T-STAR框架，通过将独立的推理轨迹整合为统一的Cognitive Tree来揭示潜在的奖励结构。该方法引入了Introspective Valuation机制，在树结构上进行奖励反向传播以获得方差更小的step-level相对优势，并利用In-Context Thought Grafting在关键决策点合成纠正性推理。所提出的Surgical Policy Optimization基于Bradley-Terry模型，专注于这些关键点进行策略优化，在需要长链推理的任务上取得了显著提升。

High-Precision Estimation of the State-Space Complexity of Shogi via the Monte Carlo Method

Sotaro Ishii, Tetsuro Tanaka

cs.AI cs.GT

本文提出了一种结合Monte Carlo采样与新型可达性测试的方法, 用于高精度估计将棋(Shogi)的状态空间复杂度. 该方法通过反向搜索至一组"King-King only"位置来高效判定不可达性, 从而将估计值精确到$6.55 \times 10^{68}$, 显著改进了先前估计的五个数量级差距.

Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules

Cameron Pattison, Lorenzo Manuali, Seth Lazar

cs.AI

本文通过构建一个包含多种规则规避场景的数据集, 评估了多个语言模型在面对用户请求帮助规避不合理、不公正或荒谬规则时的反应. 研究发现, 模型倾向于不加区分地拒绝此类请求, 即使请求本身不涉及安全或双重用途风险, 且模型的拒绝行为与其对规则合法性的推理能力存在脱节.

Toward Reducing Unproductive Container Moves: Predicting Service Requirements and Dwell Times

Elena Villalobos et al.

cs.AI cs.LG stat.AP

本文利用机器学习模型预测集装箱的服务需求和停留时间, 旨在减少码头的不必要移动. 通过历史数据训练, 模型在精确率和召回率上优于现有的基于规则的启发式方法.

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Shoaib Sadiq Salehmohamed et al.

cs.AI cs.CL cs.LG

本文提出了一种弱监督框架, 将幻觉检测信号蒸馏到Transformer模型的内部表示中. 该方法在推理时无需外部验证, 仅通过内部激活即可检测幻觉.

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

Isaac Henry et al.

cs.AI

本文提出了一个名为SymptomWise的框架，用于提高AI症状分析系统的可靠性和可解释性。该框架将语言理解与诊断推理分离，使用确定性推理模块在有限假设空间内生成诊断排名，并在儿科神经学案例上进行了初步评估。

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Satwik Pandey, Suresh Raghu, Shashwat Pandey

cs.AI

本文提出了一种名为SELFDOUBT的单次推理不确定性量化框架，通过分析推理轨迹中的行为信号来评估模型置信度。该方法特别适用于无法获取内部概率的专有模型API，在多个推理基准测试中展现了优于采样方法的效率。

Qualixar OS: A Universal Operating System for AI Agent Orchestration

Varun Pratap Bhardwaj

cs.AI cs.MA cs.SE

本文介绍了一个名为Qualixar OS的应用层操作系统, 用于通用AI智能体编排. 它提供了一个支持多种LLM提供商和智能体框架的运行时环境, 并包含团队设计引擎, 模型路由, 共识判断管道等多个功能模块, 通过大量测试验证了其有效性和低成本.

ProofSketcher: Hybrid LLM + Lightweight Proof Checker for Reliable Math/Logic Reasoning

Kranthi Kommuru, Kunal Khanvilkar, Gaurav Parekh

cs.AI cs.CE cs.CV cs.LG

本文提出了一种结合大型语言模型(LLM)与轻量级证明检查器的混合方法ProofSketcher, 用于提高数学与逻辑推理的可靠性. 该方法通过LLM生成紧凑的领域特定语言(DSL)证明草图, 再由一个可信的内核将其展开为显式的证明义务, 旨在平衡形式化验证的严格性与自动化生成的便利性.

BDI-Kit Demo: A Toolkit for Programmable and Conversational Data Harmonization

Roque Lopez et al.

cs.AI cs.DB

本文介绍了一个名为BDI-Kit的可扩展工具包，用于解决数据模式与值匹配问题。它提供了编程接口和基于自然语言对话的AI辅助界面，以支持不同用户进行数据协调。

On Emotion-Sensitive Decision Making of Small Language Model Agents

Jiaju Lin et al.

cs.AI

本文研究了 small language model (SLM) 在决策过程中对情感因素的敏感性. 通过结合 representation-level 的情感诱导与 game-theoretic 评估框架, 作者发现情感扰动会系统性地影响模型的战略选择, 但其行为并不稳定且与人类预期不完全一致.

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Qihan Ren et al.

cs.AI

本文探讨了在具有长 chain-of-thought 监督的 reasoning SFT 中，跨领域泛化能力并非缺失，而是由优化动态、训练数据和基础模型能力共同决定的。研究发现，泛化能力呈现不对称性，推理能力提升的同时可能伴随安全性的下降。

KD-MARL: Resource-Aware Knowledge Distillation in Multi-Agent Reinforcement Learning

Monirul Islam Pavel et al.

cs.AI

本文提出了一个用于多智能体强化学习(MARL)的资源感知知识蒸馏框架KD-MARL. 该框架通过两阶段训练, 将集中式专家策略的协调行为迁移到轻量化的分布式学生智能体上, 在显著降低计算成本的同时保持了较高的任务性能.

Reasoning Fails Where Step Flow Breaks

Xiaoyu Xu et al.

cs.AI

本文提出了一种名为 Step-Saliency 的分析工具，用于诊断大型推理模型在长链推理过程中的信息流故障。研究发现模型存在浅层锁定和深层衰减两种典型失败模式，并据此设计了一种无需重新训练即可提升模型在数学、科学和编程任务上准确率的干预方法 StepFlow。

AgentGate: A Lightweight Structured Routing Engine for the Internet of Agents

Yujun Cheng et al.

cs.AI

本文提出了一个用于智能体互联网的轻量级结构化路由引擎 AgentGate. 它将路由问题建模为约束决策问题, 并通过两阶段分解与面向路由的微调方案, 使紧凑模型在资源受限条件下实现高效调度.

ATANT: An Evaluation Framework for AI Continuity

Samuel Sameer Tanguturi

cs.AI cs.IR

本文提出了一个名为ATANT的评估框架, 用于衡量AI系统的连续性(continuity). 该框架包含一个包含250个故事和1835个验证问题的测试语料库, 并展示了一个参考实现的评估结果.

Steering the Verifiability of Multimodal AI Hallucinations

Jianhong Pang et al.

cs.AI cs.CL cs.CV cs.LG

本文针对多模态大语言模型(MLLMs)产生的幻觉(hallucination)问题, 提出了一种基于可验证性(verifiability)的分类与干预方法. 通过构建人类评估数据集并设计激活空间干预探针(probe), 该方法能够对模型输出幻觉的可验证性进行细粒度控制.

TurboAgent: An LLM-Driven Autonomous Multi-Agent Framework for Turbomachinery Aerodynamic Design

Juan Du et al.

cs.AI

本文提出了一个名为TurboAgent的LLM驱动的多智能体框架, 用于透平机械的气动设计与优化. 该框架将传统设计流程转化为数据驱动的协作工作流, 并通过一个跨音速单转子压缩机的案例验证了其有效性.

FVD: Inference-Time Alignment of Diffusion Models via Fleming-Viot Resampling

Shivanshu Shekhar et al.

cs.AI

本文提出了一种名为FVD的推理时对齐方法, 用于解决基于Sequential Monte Carlo的扩散模型采样器中常见的多样性崩溃问题. 该方法通过引入受Fleming-Viot种群动力学启发的生死机制, 替代了传统的多项式重采样, 在保持轨迹多样性的同时有效地探索奖励偏置的分布.

Riemann-Bench: A Benchmark for Moonshot Mathematics

Suhaas Garre et al.

cs.AI

本文提出了一个名为Riemann-Bench的私有基准测试，旨在评估AI系统在远超奥数水平的研究级数学问题上的推理能力。该基准包含25个专家精心设计的问题，测试结果显示当前前沿模型的成功率低于10%。

Beyond Surface Judgments: Human-Grounded Risk Evaluation of LLM-Generated Disinformation

Zonghuan Xu et al.

cs.AI

本文通过将LLM作为虚假信息风险评估代理的问题重构为一个代理效度问题, 并基于人类读者反馈对多个前沿LLM评估者进行了审计. 研究发现, LLM评估者与人类读者在整体评分、项目级排序和文本信号依赖上均存在显著差距, 其内部一致性远高于与人类的一致性, 表明内部一致性不能作为其作为人类响应代理有效性的证据.

Explaining Neural Networks in Preference Learning: a Post-hoc Inductive Logic Programming Approach

Daniele Fossemò et al.

cs.AI cs.LG

本文提出了一种使用Answer Set Programming (ASP)中的ILASP系统来近似解释神经网络在偏好学习任务中决策的方法. 该方法通过引入PCA降维预处理步骤来处理高维特征空间, 并评估了其作为全局和局部解释器的效果.

What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning

Songze Li et al.

cs.AI

本文提出了一种名为UI-in-the-Loop (UILoop)的新型GUI推理范式，将任务建模为屏幕-UI元素-动作的循环过程。该方法通过让多模态大语言模型显式学习UI元素的定位与功能，提升了交互的可解释性，并在新构建的基准测试上取得了先进性能。

EmoMAS: Emotion-Aware Multi-Agent System for High-Stakes Edge-Deployable Negotiation with Bayesian Orchestration

Yunbo Long, Yunhan Liu, Liming Xu

cs.AI

本文提出了一个用于高风险边缘设备可部署谈判的贝叶斯多智能体框架 EmoMAS. 该框架通过协调多个专门智能体来优化情感状态转换, 在多个基准测试中提升了谈判性能.

CAFP: A Post-Processing Framework for Group Fairness via Counterfactual Model Averaging

Irina Arévalo, Marcos Oliva

cs.AI cs.LG

本文提出了一种名为CAFP的后处理框架, 通过生成敏感属性的反事实(counterfactual)输入并平均模型预测, 来减少预测中的不公平性. 该方法无需重新训练或修改原始分类器, 并在理论上能消除预测对敏感属性的直接依赖.

A-MBER: Affective Memory Benchmark for Emotion Recognition

Deliang Wen, Ke Sun, Yu Wang

cs.AI

本文提出了一个用于评估AI助手情感记忆能力的新基准A-MBER. 该基准专注于基于多轮交互历史来推断用户当前的情感状态, 并包含判断, 检索和解释等任务.

Planning Task Shielding: Detecting and Repairing Flaws in Planning Tasks through Turning them Unsolvable

Alberto Pozanco et al.

cs.AI

本文提出了planning task shielding问题, 旨在通过检测和修复规划任务中的缺陷来确保系统安全. 作者开发了一种名为$allmin$的最优算法, 该算法通过最小化修改原始动作来使规划任务变得不可解, 从而屏蔽缺陷. 实验评估表明, $allmin$能够有效地处理不同规模的规划任务.

EVGeoQA: Benchmarking LLMs on Dynamic, Multi-Objective Geo-Spatial Exploration

Jianfei Wu et al.

cs.AI cs.LG

本文提出了一个用于评估大语言模型在动态地理空间环境中进行多目标探索能力的基准测试EVGeoQA, 并设计了一个基于工具增强智能体架构的通用评估框架GeoRover. 实验表明, 尽管大语言模型能够利用工具处理子任务, 但在长距离空间探索方面仍存在困难.

How Much LLM Does a Self-Revising Agent Actually Need?

Seongwoo Jeong, Seonil Son

cs.AI cs.CL

本文通过引入一种声明式的反思运行时协议, 将智能体的状态、置信度信号、受保护动作和假设性转移外部化为可检查的运行时结构. 在嘈杂的协作战舰游戏环境中, 该方法分解并评估了显式世界模型规划、符号化反思和稀疏LLM修订等组件对智能体性能的边际贡献.

cs.IR

EviSnap: Faithful Evidence-Cited Explanations for Cold-Start Cross-Domain Recommendation

Yingjun Dai, Ahmed El-Roby

cs.IR cs.AI

本文提出了一个名为EviSnap的轻量级冷启动跨域推荐框架，其特点是通过构建过程生成基于证据的解释。该方法利用LLM从评论中提取特征卡片，并通过概念激活和线性映射实现跨域预测与可解释性分析。

Beyond Case Law: Evaluating Structure-Aware Retrieval and Safety in Statute-Centric Legal QA

Kyubyung Chae et al.

cs.IR cs.AI

本文提出了一个专注于法规推理的法律问答基准 SearchFireSafety, 用于评估模型在证据分散于层级化法规文件时的检索能力以及在上下文不足时的安全拒绝能力. 实验表明, 基于图引导的检索方法能提升性能, 但领域适应模型在关键证据缺失时更容易产生幻觉.

Robustness Risk of Conversational Retrieval: Identifying and Mitigating Noise Sensitivity in Qwen3-Embedding Model

Weishu Chen et al.

cs.IR cs.AI cs.CL

本文通过实证研究发现, 在对话式检索场景下, Qwen3-embedding模型对对话风格的结构化噪声表现出异常的敏感性, 导致无关内容被错误地高排名检索. 研究进一步表明, 简单的查询提示(prompting)技术可以有效缓解这一问题, 恢复排名的稳定性.

WebExpert: domain-aware web agents with critic-guided expert experience for high-precision search

Yuelin Hu et al.

cs.IR cs.AI cs.CL

本文提出了一种名为WebExpert的领域感知网络智能体, 旨在解决金融、生物医学等专业领域网络搜索任务中的查询漂移、证据噪声和推理脆弱性等问题. 该方法通过句子级经验检索、无模式分面归纳和偏好优化规划等技术, 在多个基准测试上提升了答案精确匹配率并减少了页面跳转.

ARIA: Adaptive Retrieval Intelligence Assistant -- A Multimodal RAG Framework for Domain-Specific Engineering Education

Yue Luo et al.

cs.IR cs.CL

本文提出了一个用于特定领域工程教育的多模态RAG框架ARIA. 它通过结合文档分析, 公式识别和图表理解来处理复杂的教学材料, 并在一个土木工程课程材料上进行了评估, 展示了较高的准确性和教学适用性.

The Unreasonable Effectiveness of Data for Recommender Systems

Youssef Abdou

cs.IR cs.LG

本文通过可复现的实验流程，研究了训练数据规模对传统推荐系统离线性能的影响。实验结果表明，在典型交互数据上，增加数据量通常持续带来性能提升，未观察到明显的饱和点。

CASE: Cadence-Aware Set Encoding for Large-Scale Next Basket Repurchase Recommendation

Yanan Cao et al.

cs.IR cs.LG

本文提出了一种用于大规模下次购物篮复购推荐的节奏感知集合编码方法(CASE). 该方法将商品级别的购买节奏学习与跨商品交互解耦, 通过多尺度时间卷积和集合注意力机制进行建模, 在多个数据集上取得了优于基线模型的性能提升.

Leveraging LLMs and Heterogeneous Knowledge Graphs for Persona-Driven Session-Based Recommendation

Muskan Gupta, Suraj Thapa, Jyotsana Khatri

cs.IR

本文提出了一种基于用户画像的会话推荐框架, 通过异质知识图谱建模潜在用户画像, 并结合LLM生成的物品嵌入来增强推荐. 该方法在个性化信息提取阶段使用HDGI无监督学习画像, 在利用阶段将画像与序列模型结合, 在Amazon数据集上取得了优于基线模型的效果.

MARVEL: Multimodal Adaptive Reasoning-intensiVe Expand-rerank and retrievaL

Mahmoud SalahEldin Kasem et al.

cs.IR

本文提出了一个名为MARVEL的统一框架, 用于解决推理密集型多模态检索任务. 该框架整合了LLM驱动的查询扩展, 一个经过微调的推理增强型稠密检索器, 以及基于GPT-4o的链式思维重排序, 在MM-BRIGHT基准测试上取得了显著的性能提升.

Leveraging Artist Catalogs for Cold-Start Music Recommendation

Yan-Martin Tamm et al.

cs.IR

本文提出了一种名为ACARec的注意力架构, 用于解决音乐推荐中的物品冷启动问题. 该方法通过利用艺术家已有曲目库的协同信号来生成新曲目的嵌入, 从而提升推荐效果.

BRIDGE: Multimodal-to-Text Retrieval via Reinforcement-Learned Query Alignment

Mohamed Darwish Mounis et al.

cs.IR cs.CV

本文提出了一种名为BRIDGE的系统, 用于解决多模态到文本检索中的查询不匹配问题. 该系统通过强化学习训练查询对齐模型, 将原始多模态查询转换为精炼的文本查询, 从而在文本语料库上实现更有效的检索.

HIVE: Query, Hypothesize, Verify An LLM Framework for Multimodal Reasoning-Intensive Retrieval

Mahmoud Abdalla et al.

cs.IR

本文提出了一个名为HIVE的框架, 用于增强多模态检索中的推理能力. 该框架利用LLM进行假设生成和验证, 显著提升了在MM-BRIGHT基准上的检索性能.

cs.CL

Knowledge Graphs Generation from Cultural Heritage Texts: Combining LLMs and Ontological Engineering for Scholarly Debates

Andrea Schimmenti et al.

cs.CL cs.AI cs.DL cs.IR

本文提出了一种结合大型语言模型(LLM)与本体工程的方法ATR4CH, 用于从文化遗产文本中生成知识图谱(KG). 该方法通过一个五步流程, 在真实性评估辩论的案例研究中验证了其有效性, 为文化遗产机构将非结构化文本转化为可查询的结构化知识提供了系统框架.

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

Nguyen Phuc Tran et al.

cs.CL cs.AI

本文评估了三种利用大型语言模型(LLM)构建根因分析(RCA)知识库的方法: Fine-Tuning, RAG以及一种混合方法. 通过在一份真实工业数据集上的实验, 作者表明生成的知识库能为加速RCA任务提供一个良好的起点.

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Mar Gonzàlez I Català et al.

cs.CL cs.AI cs.IT cs.LG

本文通过提出 Stepwise Informativeness Assumption (SIA) 来解释大型语言模型内部熵动态与外部答案正确性之间的相关性。该假设认为模型在生成过程中会逐步积累关于真实答案的信息，并通过实验在多个推理基准和模型上验证了这一假设。

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Feng Chen et al.

cs.CL cs.AI

本文研究了利用初级保健诊疗对话的录音进行抑郁症自动检测的方法. 通过比较多种监督学习方法与零样本GPT-OSS模型, 发现结合医患双方对话的文本在检测性能上优于仅使用单方话语, 表明这种被动收集的临床音频数据可作为现有筛查流程的低负担补充.

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Angelina Hintsanen

cs.CL cs.AI

本文提出了一种将大语言模型的幻觉问题视为输出边界误分类的框架, 并设计了一个结合了基于指令的拒绝和结构化弃权门的复合干预架构. 该架构利用自洽性、释义稳定性和引用覆盖率等黑盒信号计算支持赤字分数, 以在分数超过阈值时阻止输出. 实验表明, 复合架构在控制幻觉方面优于单一机制.

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Tianyi Huang et al.

cs.CL cs.AI cs.LO

本文针对 Three-way logical question answering 任务中大型语言模型存在的 negation inconsistency 和 epistemic $Unknown$ 两类错误模式, 提出了一个轻量级的测试时解码方法 CGD-PD. 该方法通过查询模型对假设 $H$ 及其否定形式 $\neg H$ 的判断, 并利用证明驱动的消歧步骤来提升预测的一致性和准确性.

Temporally Phenotyping GLP-1RA Case Reports with Large Language Models: A Textual Time Series Corpus and Risk Modeling

Sayantan Kumar, Jeremy C. Weiss

cs.CL cs.AI

本文利用大型语言模型(Large Language Models, LLMs)从2型糖尿病病例报告中提取时间序列信息，构建了一个包含136份病例的文本时间序列语料库。研究评估了LLMs在提取临床事件及其时间点上的性能，并进行了下游的生存分析以展示其应用价值。

Emergent decentralized regulation in a purely synthetic society

Md Motaleb Hossen Manik, Ge Wang

cs.CL cs.MA

本文在仅由AI agent构成的社交网络Moltbook上, 通过分析大量帖子与评论, 研究了合成集体是否能在无人类干预或中心化设计的情况下展现自我调节的社会动态. 作者提出了Directive Intensity (DI) 这一基于词典的指标来量化行动诱导性语言, 并发现具有更高DI的帖子会引发更高概率的纠正性回复, 表明存在内生的负反馈调节机制.

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

Pei-Fu Guo et al.

cs.CL cs.AI

本文提出了一个名为Text2DistBench的阅读理解基准, 用于评估大型语言模型从自然语言中推断分布知识的能力. 该基准基于真实世界的YouTube评论构建, 要求模型回答关于评论分布的问题, 实验表明当前模型在此类任务上能力有限.

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

O. Ibrahimzade, K. Tabasaransky

cs.CL cs.AI

本文为突厥语系中的低资源语言模型提出了一个研究跨语言迁移和参数高效适应的理论框架. 该框架整合了多语言表示学习和参数高效微调技术, 并引入了一个衡量语言间迁移潜力的理论指标 Turkic Transfer Coefficient (TTC).

SensorPersona: An LLM-Empowered System for Continual Persona Extraction from Longitudinal Mobile Sensor Streams

Bufang Yang et al.

cs.CL cs.AI cs.HC

本文提出了一个名为SensorPersona的系统, 该系统利用LLM从用户移动设备持续收集的多模态传感器数据流中推断稳定的用户persona. 系统通过面向个人的上下文编码、分层persona推理以及增量验证与更新机制来提取涵盖物理模式、心理社会特质和生活经历的persona. 在一个包含20名参与者、跨越3大洲17个城市、长达1580小时的自收集数据集上的评估表明, 该系统在persona提取召回率、persona感知的agent响应胜率以及用户满意度方面优于现有基线.

Tool-MCoT: Tool Augmented Multimodal Chain-of-Thought for Content Safety Moderation

Shutong Zhang et al.

cs.CL cs.AI

本文提出了一种名为 Tool-MCoT 的小型语言模型，通过利用外部工具和思维链数据进行微调，以提升内容安全审核的效率和准确性。该模型能够选择性地调用工具，在保证审核性能的同时优化推理成本。

A Comparative Study of Demonstration Selection for Practical Large Language Models-based Next POI Prediction

Ryo Nishida et al.

cs.CL cs.AI

本文对基于大语言模型(LLM)进行下一个兴趣点(POI)预测任务中的示例选择策略进行了比较研究。实验表明，基于地理邻近性、时间顺序等简单启发式方法在计算成本和预测准确性上均优于复杂的嵌入选择方法。

Extracting Breast Cancer Phenotypes from Clinical Notes: Comparing LLMs with Classical Ontology Methods

Abdullah Bin Faiz et al.

cs.CL cs.AI

本文比较了使用LLM框架与传统基于ontology的方法从临床笔记中提取乳腺癌表型(phenotype)的性能. 研究结果表明, LLM方法可以达到与传统方法相当的准确度, 并且更容易适应其他疾病类型.

TelcoAgent-Bench: A Multilingual Benchmark for Telecom AI Agents

Lina Bariah et al.

cs.CL

本文提出了一个用于评估电信领域多语言AI智能体的基准测试框架TelcoAgent-Bench及配套评估指标TelcoAgent-Metrics。该框架旨在测试智能体在意图识别、工具执行顺序、解决方案正确性及行为稳定性等方面的表现，并支持英语和阿拉伯语环境。实验表明，现有模型在遵循结构化故障排除流程和应对场景变化时仍存在一致性不足的问题。

Distributional Open-Ended Evaluation of LLM Cultural Value Alignment Based on Value Codebook

Jaehyeok Lee et al.

cs.CL cs.AI cs.CY cs.LG

本文提出了一个名为DOVE的分布评估框架, 用于评估大型语言模型(LLM)的文化价值观对齐. 该方法通过比较人类文本分布与LLM生成输出的分布, 并利用最优传输(optimal transport)来衡量对齐程度.

Illocutionary Explanation Planning for Source-Faithful Explanations in Retrieval-Augmented Language Models

Francesco Sovrano, Alberto Bacchelli

cs.CL cs.AI cs.SE

本文针对检索增强生成(RAG)模型在编程教育中生成解释时存在的可追溯性与忠实性问题, 提出了基于言语行为理论的宏观规划设计原则. 通过引入链式言语提示(CoI)方法, 将查询扩展为隐含的解释性问题以驱动检索, 实验表明该方法能显著提升多个LLM生成解释对教科书来源的忠实性.

Invisible Influences: Investigating Implicit Intersectional Biases through Persona Engineering in Large Language Models

Nandini Arimanda et al.

cs.CL cs.AI

本文提出了一种名为BADx的新度量方法, 用于评估大型语言模型在角色扮演情境下隐含的交叉偏见的动态放大. 该方法结合了差异化的偏见分数, 角色敏感指数和波动性, 并通过LIME增强可解释性. 实验在五个主流模型上进行, 结果表明角色上下文显著调节偏见, 且BADx比静态方法更能揭示上下文敏感的偏见.

Unsupervised Neural Network for Automated Classification of Surgical Urgency Levels in Medical Transcriptions

Sadaf Tabatabaee, Sarah S. Lam

cs.CL cs.AI

本文提出了一种基于无监督神经网络的自动分类方法, 用于对外科手术转录文本进行紧急程度分级. 该方法结合了领域特定的语言模型 BioClinicalBERT 和聚类算法, 并通过专家验证和神经网络分类器实现了对未标记数据的有效利用.

Blending Human and LLM Expertise to Detect Hallucinations and Omissions in Mental Health Chatbot Responses

Khizar Hussain et al.

cs.CL cs.AI

本文提出了一种结合人类专业知识和LLM的框架,用于检测心理健康聊天机器人响应中的幻觉和遗漏. 该方法通过提取五个分析维度的可解释特征,在传统机器学习模型上取得了优于纯LLM评判的性能.

STDec: Spatio-Temporal Stability Guided Decoding for dLLMs

Yuzhe Chen et al.

cs.CL

本文提出了一种名为STDec的时空稳定性引导解码方法, 用于改进Diffusion Large Language Models (dLLMs)的解码过程. 该方法通过动态调整解码阈值, 在保持任务性能的同时显著提升了推理速度.

Severity-Aware Weighted Loss for Arabic Medical Text Generation

Ahmed Alansary, Molham Mohamed, Ali Hamdi

cs.CL cs.AI

本文提出了一种用于阿拉伯语医疗文本生成的严重性感知加权损失函数。该方法通过软严重性概率动态调整训练损失，在多个阿拉伯语大语言模型上取得了性能提升。

In-Context Learning in Speech Language Models: Analyzing the Role of Acoustic Features, Linguistic Structure, and Induction Heads

Charlotte Pouw et al.

cs.CL cs.AI

本文研究了语音语言模型中的上下文学习能力, 分析了声学特征和语言结构的影响. 研究发现说话速率对任务推断和输出模仿有显著影响, 而音高和强度的影响较小, 并验证了归纳头在语音上下文学习中的因果作用.

A Severity-Based Curriculum Learning Strategy for Arabic Medical Text Generation

Ahmed Alansary, Molham Mohamed, Ali Hamdi

cs.CL cs.AI

本文提出了一种基于严重程度的课程学习策略, 用于阿拉伯语医学文本生成. 该方法在训练中按病例严重程度分阶段组织数据, 实验表明其在基准模型和传统微调方法上均取得了性能提升.

The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models

Michael Rizvi-Martel, Guillaume Rabusseau, Marius Mosbach

cs.CL cs.LG

本文分析了语言模型在连续思维链(Latent CoT)推理中是否真正利用了叠加(superposition)能力。通过在不同训练模式下分析内部表示，发现仅从头训练的模型表现出叠加迹象，而其他模式则倾向于使用捷径解决方案。

Application-Driven Pedagogical Knowledge Optimization of Open-Source LLMs via Reinforcement Learning and Supervised Fine-Tuning

Navan Preet Singh et al.

cs.CL

本文提出了一种结合强化学习和监督微调的多阶段优化策略，用于提升大语言模型的教学知识能力。该方法在特定教学基准测试中取得了新的最优结果，展示了领域专业化优化能使中等规模开源模型超越更大的通用系统。

ART: Attention Replacement Technique to Improve Factuality in LLMs

Ziqin Luo et al.

cs.CL

本文提出了一种无需训练的注意力替换技术(ART), 通过将大语言模型浅层中的均匀注意力模式替换为局部注意力模式, 以引导模型更关注相关上下文, 从而减少幻觉. 实验表明该方法能有效降低多种模型架构的幻觉率.

FMI@SU ToxHabits: Evaluating LLMs Performance on Toxic Habit Extraction in Spanish Clinical Texts

Sylvia Vassileva, Ivan Koychev, Svetla Boytcheva

cs.CL cs.AI

本文探索了使用LLMs进行西班牙语临床文本中有毒习惯命名实体识别的方法, 包括zero-shot, few-shot和prompt优化等技术. 实验表明GPT-4.1的few-shot prompting效果最佳, 在测试集上取得了0.65的F1分数.

Attention Flows: Tracing LLM Conceptual Engagement via Story Summaries

Rebecca M. M. Hicke et al.

cs.CL cs.AI cs.LG

本文通过比较人类与LLM生成的小说摘要, 评估了LLM在长文本理解任务中的表现. 研究发现, LLM在摘要中表现出与人类不同的关注模式, 例如更强调文本结尾部分.

State-of-the-Art Arabic Language Modeling with Sparse MoE Fine-Tuning and Chain-of-Thought Distillation

Navan Preet Singh et al.

cs.CL

本文提出了一个面向阿拉伯语的开源大语言模型 Arabic-DeepSeek-R1. 该模型基于稀疏 MoE (Mixture of Experts) 架构, 通过一个包含四阶段的思维链 (CoT) 蒸馏方案进行微调, 并在多个阿拉伯语基准测试中取得了领先的性能.

When to Call an Apple Red: Humans Follow Introspective Rules, VLMs Don't

Jonathan Nemitz et al.

cs.CL cs.AI cs.CV

本文通过构建Graded Color Attribution (GCA)数据集, 比较了Vision-Language Models (VLMs)与人类在颜色标注任务中遵循自省规则(introspective rules)的差异. 研究发现, VLMs会系统性地违反其自设的规则, 而人类参与者则能保持一致性, 这表明VLMs的自省知识存在校准问题.

Team Fusion@ SU@ BC8 SympTEMIST track: transformer-based approach for symptom recognition and linking

Georgi Grazhdanski et al.

cs.CL cs.AI

本文提出了一种基于transformer的方法来解决SympTEMIST任务中的症状命名实体识别(NER)和实体链接(EL)问题. 对于NER, 作者在增强的训练集上微调了一个结合了BiLSTM和CRF层的RoBERTa token分类器. 实体链接则通过使用跨语言的SapBERT XLMR-Large模型生成候选实体, 并计算其与知识库中条目的余弦相似度来完成.

Learning to Interrupt in Language-based Multi-agent Communication

Danqing Wang et al.

cs.CL

本文提出了一种基于大语言模型的多智能体可中断通信框架, 通过让听者智能体主动中断来减少冗余通信. 作者发现现有模型倾向于过早中断, 因此设计了一种基于预测未来奖励与成本的学习方法来决定中断时机. 实验表明该方法能在保持任务性能的同时显著降低通信开销.

Context-Aware Dialectal Arabic Machine Translation with Interactive Region and Register Selection

Afroza Nowshin et al.

cs.CL

本文提出了一种用于方言阿拉伯语机器翻译的情境感知与可控框架, 通过基于规则的数据增强构建了一个覆盖八个区域变体的平行数据集. 该方法利用带元数据标签的微调实现了对翻译输出方言和社会语域的控制, 在自动评估中BLEU分数较低但定性分析显示其方言对齐性更好.

Multi-objective Evolutionary Merging Enables Efficient Reasoning Models

Mario Iacobelli et al.

cs.CL cs.AI

本文提出了一种名为Evo-L2S的框架，将推理模型的长度优化问题构建为多目标优化任务。该方法通过进化模型合并技术，在保持准确性的同时显著缩短了推理过程的输出长度。

DataSTORM: Deep Research on Large-Scale Databases using Exploratory Data Analysis and Data Storytelling

Shicheng Liu et al.

cs.CL

本文提出了一个名为DataSTORM的基于LLM的智能体系统，用于在大型结构化数据库和互联网资源上进行自主深度研究。该系统将研究过程重构为基于假设的分析流程，并在InsightBench和ACLED数据集上展示了优于现有方法的性能。

ValueGround: Evaluating Culture-Conditioned Visual Value Grounding in MLLMs

Zhipin Wang et al.

cs.CL

本文提出了一个名为ValueGround的基准测试, 用于评估多模态大语言模型(MLLMs)在文化条件化视觉价值判断上的表现. 该基准基于世界价值观调查(WVS)构建, 使用最小对比图像对来代表对立选项, 实验发现模型在视觉选项下的准确率低于纯文本设置.

Closing the Speech-Text Gap with Limited Audio for Effective Domain Adaptation in LLM-Based ASR

Thibault Bañeras-Roux et al.

cs.CL

本文研究了在基于LLM的ASR系统中，如何利用少量语音数据来弥合纯文本适应带来的模态差异。通过比较纯文本、配对语音-文本以及混合批处理等策略，实验表明即使有限的语音数据也能有效提升性能。

MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

Weiyue Li et al.

cs.CL cs.AI

本文提出了一个名为MedConclusion的大规模生物医学数据集, 用于从结构化摘要生成结论. 该数据集包含570万篇PubMed摘要, 并评估了多种大语言模型在结论生成任务上的表现.

Fine-tuning Whisper for Pashto ASR: strategies and scale

Hanif Rahman

cs.CL

本文在CommonVoice数据集上比较了多种微调策略，将Whisper模型适配于普什图语自动语音识别任务。实验表明，标准的全参数微调效果最佳，而LoRA等方法在此任务上表现不佳，并分析了错误模式。

Does a Global Perspective Help Prune Sparse MoEs Elegantly?

Zeliang Zhang et al.

cs.CL

本文提出了一种名为GRAPE的全局剪枝策略, 用于稀疏混合专家模型(MoE). 该方法根据跨层冗余动态分配剪枝预算, 在多个大型MoE模型上取得了优于局部基线方法的性能.

The Illusion of Stochasticity in LLMs

Xiangming Gu et al.

cs.CL cs.LG

本文指出大型语言模型(LLMs)在作为智能体(agent)运行时，其随机采样能力存在根本性缺陷。研究表明，即使前沿模型也难以可靠地从特定分布中直接采样，这构成了智能体系统的一个关键失败点。

CCD-CBT: Multi-Agent Therapeutic Interaction for CBT Guided by Cognitive Conceptualization Diagram

Chang Liu et al.

cs.CL

本文提出了一个用于模拟认知行为疗法(CBT)的多智能体框架CCD-CBT, 它通过动态更新的认知概念化图(CCD)和信息不对称的交互来增强对话代理的临床合理性. 基于该框架生成的合成数据集上微调的模型, 在咨询保真度和积极情感提升方面优于现有基线.

To Lie or Not to Lie? Investigating The Biased Spread of Global Lies by LLMs

Zohaib Khan et al.

cs.CL

本文研究了大型语言模型(LLMs)在不同语言和国家背景下生成虚假信息(misinformation)的倾向性差异. 作者构建了一个多语言数据集GlobalLies, 并通过大规模评估发现, LLMs在低资源语言和低人类发展指数(HDI)国家相关话题上传播虚假信息的比例显著更高, 同时现有的安全缓解策略存在跨语言和跨区域的不均衡保护问题.

LLM-based Schema-Guided Extraction and Validation of Missing-Person Intelligence from Heterogeneous Data Sources

Joshua Castillo, Ravi Mukkamala

cs.CL cs.AI cs.IR cs.LG

本文提出了一个用于失踪人口调查的AI驱动解析与标准化流程, 将多源异构文档转换为统一的、符合预定模式(schema)的表示. 该系统整合了多引擎PDF文本提取、基于规则的源识别、模式优先的协调验证以及可选的LLM辅助提取路径, 并在真实案例数据上评估了其提取质量和运行效率.

Scoring Edit Impact in Grammatical Error Correction via Embedded Association Graphs

Qiyuan Xiao, Xiaoman Wang, Yunshi Lan

cs.CL

本文提出了一种基于embedded association graph的评分框架, 用于自动评估语法纠错(GEC)系统中编辑操作的重要性. 该方法通过图结构捕捉编辑之间的潜在依赖关系, 并基于perplexity进行评分, 在多个数据集和语言上验证了其有效性.

Scientific Knowledge-driven Decoding Constraints Improving the Reliability of LLMs

Maotian Ma et al.

cs.CL cs.AI

本文提出了一种名为SciDC的方法, 通过将特定学科知识转化为多层标准化规则来约束大语言模型(LLM)的生成过程, 旨在减少模型在科学任务中的幻觉问题. 实验表明该方法在多个科学领域任务上提升了生成准确性.

The Detection--Extraction Gap: Models Know the Answer Before They Can Say It

Hanyang Wang, Mingxuan Zhu

cs.CL cs.AI cs.IT cs.LG

本文研究了大型语言模型在推理过程中存在的"检测-提取差距"现象, 即模型在答案已确定后仍会生成大量冗余的思维链(token). 作者提出了一种黑盒自适应提前退出方法, 能在保持或提升准确率的同时显著减少序列生成的计算量.

DiffuMask: Diffusion Language Model for Token-level Prompt Pruning

Caleb Zheng et al.

cs.CL

本文提出了一种基于扩散模型的并行化提示词剪枝框架DiffuMask. 该方法通过迭代预测掩码来加速压缩过程, 在多个推理任务上实现了显著的提示长度缩减, 同时保持了模型性能.

Feedback Adaptation for Retrieval-Augmented Generation

Jihwan Bang et al.

cs.CL

本文提出了一个用于评估 Retrieval-Augmented Generation (RAG) 系统在接收反馈后适应能力的新问题框架和评价指标. 通过引入 correction lag 和 post-feedback performance 两个度量, 作者分析了基于训练的方法的局限性, 并提出了一种无需重新训练的推理时方法 PatchRAG 来实现快速适应.

A Parameter-Efficient Transfer Learning Approach through Multitask Prompt Distillation and Decomposition for Clinical NLP

Cheng Peng et al.

cs.CL cs.AI

本文提出了一种用于临床NLP的多任务提示蒸馏与分解框架，旨在通过共享元提示实现参数高效的任务适应。该方法在多个临床任务上验证了其有效性，相比现有方法能以极少的可训练参数获得性能提升。

A Graph-Enhanced Defense Framework for Explainable Fake News Detection with LLM

Bo Wang et al.

cs.CL cs.AI

本文提出了一种基于图增强的防御框架(G-Defense)用于可解释的假新闻检测。该框架通过分解新闻主张、构建依赖图并利用检索增强生成技术来评估真实性并生成解释图。

Between Century and Poet: Graph-Based Lexical Semantic Change in Persian Poetry

Kourosh Shahnazari, Seyed Moein Ayyoubzadeh, Mohammadali Keshtparvar

cs.CL cs.AI

本文采用基于图的邻域分析方法, 结合对齐的Word2Vec向量空间, 研究了波斯诗歌中词汇语义的历史演变. 该方法将语义变化视为局部语义图的"重连"(neighborhood rewiring), 而非单纯的向量位移, 为数字人文领域提供了一种更贴近文学实践的分析视角.

ChemVLR: Prioritizing Reasoning in Perception for Chemical Vision-Language Understanding

Xuanle Zhao et al.

cs.CL cs.AI

本文提出了一种名为ChemVLR的化学视觉语言模型，其核心在于将推理过程显式地融入视觉感知中。该模型通过先识别细粒度的化学描述符（如官能团）再生成答案，为复杂的化学视觉问题提供了可解释的推理路径。

Adaptive Prompt Structure Factorization: A Framework for Self-Discovering and Optimizing Compositional Prompt Programs

Haoyue Liu et al.

cs.CL cs.LG

本文提出了一个名为Adaptive Prompt Structure Factorization (aPSF)的框架，用于自动优化大型语言模型(LLM)的提示(prompt)。该框架通过分解提示结构并进行干预性更新，旨在提高推理任务的准确性和优化效率。

TEC: A Collection of Human Trial-and-error Trajectories for Problem Solving

Xinkai Zhang et al.

cs.CL

本文介绍了一个名为TEC的数据集和标注平台, 用于记录人类在解决复杂问题时的试错轨迹和反思. 该数据集旨在为理解人类试错行为以及开发更强大的人工智能系统提供基础.

SQLStructEval: Structural Evaluation of LLM Text-to-SQL Generation

Yixi Zhou et al.

cs.CL cs.DB

本文提出了SQLStructEval框架, 用于通过规范的抽象语法树(AST)表示来分析LLM生成的SQL查询的结构可靠性. 实验表明, 即使执行结果正确, 现代LLM对同一输入也常产生结构多样的查询, 且这种差异易受表层输入变化影响. 作者进一步指出, 通过编译式流程在结构化空间中生成查询可以提高执行准确性和结构一致性.

Luwen Technical Report

Yiquan Wu et al.

cs.CL cs.AI

本文提出了一个名为Luwen的开源中文法律大语言模型. 它基于Baichuan基础模型, 通过持续预训练、监督微调和检索增强生成等技术进行领域适配, 并在多个法律任务上取得了优于基线模型的表现.

StructKV: Preserving the Structural Skeleton for Scalable Long-Context Inference

Zhirui Chen, Peiyang Liu, Ling Shao

cs.CL

本文提出了一种名为StructKV的KV cache压缩框架, 旨在解决大语言模型长上下文推理中的内存瓶颈问题. 该方法通过聚合网络深度的注意力模式来识别全局信息中心, 并自适应地选择压缩层, 从而在压缩缓存的同时更好地保持长程依赖关系.

Select-then-Solve: Paradigm Routing as Inference-Time Optimization for LLM Agents

Heng Zhou et al.

cs.CL

本文通过比较六种LLM推理范式在多个基准上的表现, 发现没有单一范式在所有任务上占优. 作者提出了一种轻量级的基于嵌入的路由器, 在回答问题前为每个任务选择最合适的推理范式, 从而提升了整体性能.

How Long Reasoning Chains Influence LLMs' Judgment of Answer Factuality

Minzhu Tu, Shiyu Ni, Keping Bi

cs.CL

本文探讨了在事实性问答和数学推理任务中, 向LLM评估者提供推理链如何影响其对答案正确性的判断. 研究发现, 无论模型强弱, 推理链的存在和表面质量都可能误导判断, 揭示了当前LLM评估者在区分推理实质与表面流畅性方面的不足.

Multilingual Cognitive Impairment Detection in the Era of Foundation Models

Damar Hoogland et al.

cs.CL

本文比较了使用 zero-shot LLMs 与有监督的表格模型在多语言认知障碍检测中的性能. 结果表明, 在数据有限的情况下, 结合结构化语言特征与嵌入向量的有监督方法更为可靠.

TeamLLM: A Human-Like Team-Oriented Collaboration Framework for Multi-Step Contextualized Tasks

Xiangyu Wang et al.

cs.CL cs.AI

本文提出了一个名为 TeamLLM 的多 LLM 协作框架，旨在通过模拟人类团队角色分工来提升多步骤情境化任务的性能。同时，文章构建了一个新的基准测试 CGPST 用于评估，并展示了该框架的有效性。

Multi-Faceted Self-Consistent Preference Alignment for Query Rewriting in Conversational Search

Zhiyu Cao, Peifeng Li, Qiaoming Zhu

cs.CL cs.AI

本文提出了一种用于对话式查询重写的多维度自洽偏好对齐方法, 通过整合重写、检索和生成三个维度的反馈来优化查询重写过程. 实验表明该方法在分布内和分布外场景下均有效.

Discourse Coherence and Response-Guided Context Rewriting for Multi-Party Dialogue Generation

Zhiyu Cao, Peifeng Li, Qiaoming Zhu

cs.CL

本文提出了一种名为DRCR的新框架, 通过对话上下文重写来改进多方对话生成. 该框架利用话语连贯性和响应质量作为反馈信号, 并采用动态自进化学习方法进行迭代训练.

When Is Thinking Enough? Early Exit via Sufficiency Assessment for Efficient Reasoning

Yang Xiang et al.

cs.CL

本文提出了一种名为DTSR的框架, 用于在大型推理模型中进行动态的早期退出. 该方法通过监控反思信号和评估思维链的充分性来减少计算冗余, 实验表明其能有效缩短推理长度.

GCoT-Decoding: Unlocking Deep Reasoning Paths for Universal Question Answering

Guanran Luo et al.

cs.CL

本文提出了一种通用的解码策略GCoT-Decoding, 用于扩展无需提示的CoT推理在问答任务中的应用范围. 该方法通过两阶段分支生成候选推理路径, 并聚合语义相似的路径来达成共识答案, 在多种数据集上验证了其有效性.

Beyond Accuracy: Diagnosing Algebraic Reasoning Failures in LLMs Across Nine Complexity Dimensions

Parth Patil et al.

cs.CL cs.CY

本文提出了一个九维代数复杂度框架, 用于独立控制并诊断大语言模型在代数推理中的具体失败原因. 通过自动生成和验证问题, 该框架揭示了工作记忆是模型跨规模的主要瓶颈, 并识别出一个包含五个维度的最小诊断子集.

Cognitive Loop of Thought: Reversible Hierarchical Markov Chain for Efficient Mathematical Reasoning

Jia-Chen Zhang, Zheng Zhou, Yu-Jie Xiong

cs.CL

本文提出了一种基于Reversible Hierarchical Markov Chain的Chain-of-Thought框架，称为Cognitive Loop of Thought (CLoT)，旨在解决长推理链带来的计算效率低下和错误传播问题。该方法通过引入分层依赖和逆向验证机制来提升数学推理的鲁棒性，并在多个基准测试上取得了优于传统方法的性能。

AGSC: Adaptive Granularity and Semantic Clustering for Uncertainty Quantification in Long-text Generation

Guanran Luo et al.

cs.CL

本文提出了AGSC框架, 用于长文本生成中的不确定性量化. 该方法通过NLI概率区分无关信息, 并利用GMM软聚类进行语义主题建模, 在提升事实相关性评估的同时显著降低了计算成本.

SemEval-2026 Task 9: Detecting Multilingual, Multicultural and Multievent Online Polarization

Usman Naseem et al.

cs.CL

本文介绍了SemEval-2026 Task 9，这是一个关于在线极化检测的共享任务，覆盖22种语言并包含超过11万个标注实例。任务要求参与者预测极化是否存在、类型及表现形式，并报告了基线结果和最佳系统的性能分析。

Environmental, Social and Governance Sentiment Analysis on Slovene News: A Novel Dataset and Models

Paula Dodig et al.

cs.CL cs.AI

本文构建了首个斯洛文尼亚语的ESG情感分析公开数据集, 并评估了多种模型在该任务上的性能. 研究表明, 大语言模型在环境和社会维度上表现最佳, 而微调的单语模型在治理维度上更优.

WRAP++: Web discoveRy Amplified Pretraining

Jiang Zhou et al.

cs.CL cs.AI

本文提出了一种名为WRAP++的预训练数据增强方法, 通过发现网页超链接中的跨文档关系(如双向链接和共同提及)来合成联合问答对, 从而为事实知识提供更丰富的关联上下文. 该方法将原始文本数据量大幅扩增, 在问答任务上取得了优于单文档改写方法的效果.

Fast-dVLM: Efficient Block-Diffusion VLM via Direct Conversion from Autoregressive VLM

Chengyue Wu et al.

cs.CL

本文提出了一种基于块扩散的视觉语言模型Fast-dVLM, 旨在解决自回归解码在边缘设备上推理吞吐量受限的问题. 通过引入一种直接转换策略和一系列多模态扩散适应技术, 该模型在保持生成质量的同时实现了显著的推理加速.

On the Step Length Confounding in LLM Reasoning Data Selection

Bing Wang et al.

cs.CL cs.AI

本文分析了在LLM推理数据选择中, 基于自然度(naturalness)的筛选方法会系统性地偏好推理步骤更长(即每步token数更多)的样本, 而非质量更高的样本, 作者将这一现象称为步长混淆(step length confounding). 为缓解此问题, 作者提出了两种变体方法: ASLEC-DROP和ASLEC-CASL.

HingeMem: Boundary Guided Long-Term Memory with Query Adaptive Retrieval for Scalable Dialogues

Yijie Zhong, Yunfan Gao, Haofen Wang

cs.CL cs.AI

本文提出了一种名为HingeMem的边界引导长期记忆机制，用于可扩展的对话系统。它通过事件分割理论构建可解释的索引，并引入查询自适应检索来提升效率与适应性。

MedDialBench: Benchmarking LLM Diagnostic Robustness under Parametric Adversarial Patient Behaviors

Xiaotian Luo, Xun Jiang, Jiangcheng Wu

cs.CL cs.AI

本文提出了一个名为MedDialBench的基准测试, 用于评估大型语言模型(Large Language Models, LLMs)在参数化对抗性患者行为下的诊断鲁棒性. 该基准将患者行为分解为五个维度, 并评估了多个前沿LLM, 发现信息污染(捏造症状)比信息缺失(隐瞒信息)对诊断准确性的影响更大.

To Adapt or not to Adapt, Rethinking the Value of Medical Knowledge-Aware Large Language Models

Ane G. Domingo-Aldama et al.

cs.CL

本文通过系统比较通用和临床大语言模型在多种临床问答任务上的表现, 并引入基于扰动的评估基准, 发现临床适应模型在英语任务上并未稳定优于通用模型. 研究进一步表明, 当前评估框架可能不足以捕捉真正的医学专业知识, 并展示了为西班牙语等低资源语言成功开发稳健医学模型的可能性.

Do We Need Distinct Representations for Every Speech Token? Unveiling and Exploiting Redundancy in Large Speech Language Models

Bajian Xiang et al.

cs.CL cs.AI

本文通过实证研究发现 Large Speech Language Models (LSLMs) 的深层表征存在显著冗余，并据此提出了一种无需训练的 Affinity Pooling 方法。该方法通过合并相似 token 来压缩序列，在保持语义准确性的同时显著降低了计算开销和内存占用。

iTAG: Inverse Design for Natural Text Generation with Accurate Causal Graph Annotations

Wenshuo Wang et al.

cs.CL

本文提出了一种名为iTAG的方法, 用于生成带有精确因果图标注的自然文本. 该方法通过将因果图中的节点分配给现实世界概念, 并利用Chain-of-Thought推理迭代优化概念选择, 从而在保证文本自然度的同时, 实现了比现有方法更高的因果标注准确性. 实验表明, 基于iTAG生成的数据可以有效地用于评估基于文本的因果发现算法.

Is Biomedical Specialization Still Worth It? Insights from Domain-Adaptive Language Modelling with a New French Health Corpus

Aidan Mannion et al.

cs.CL

本文研究了在法语生物医学领域对中小型语言模型进行领域自适应预训练(DAPT)的效果. 研究质疑了DAPT的有效性, 但指出在资源受限的小规模场景下, 结合模型融合技术, 它仍可能是一个可行的策略.

The AI Skills Shift: Mapping Skill Obsolescence, Emergence, and Transition Pathways in the LLM Era

Rudra Jadhav, Janhavi Danve

cs.CL cs.AI cs.CY

本文提出了Skill Automation Feasibility Index (SAFI)来评估大型语言模型(LLM)对基于文本的职业技能的自动化潜力。通过结合实际AI采用数据，研究构建了一个AI Impact Matrix框架，用于分析技能在劳动力市场中的风险与机遇。

Self-Preference Bias in Rubric-Based Evaluation of Large Language Models

José Pombal, Ricardo Rei, André F. T. Martins

cs.CL cs.AI

本文研究了在基于rubric的评估中大语言模型存在的self-preference bias问题. 研究发现, 即使在客观的评估标准下, 这种偏见依然显著存在, 并且会影响模型排名.

ChunQiuTR: Time-Keyed Temporal Retrieval in Classical Chinese Annals

Yihao Wang et al.

cs.CL

本文针对古典编年史中的时间检索问题, 提出了一个时间键控检索基准 ChunQiuTR 和一种时间感知的双编码器模型 CTD. 该方法结合了基于 Fourier 的绝对历法上下文和相对偏移偏置, 在时间键控评估中优于强语义基线.

Continuous Interpretive Steering for Scalar Diversity

Ye-eun Cho

cs.CL

本文提出了一种名为Continuous Interpretive Steering (CIS)的方法，用于探究大语言模型(LLMs)中语用推理的渐进性。该方法通过将激活层面的引导强度作为一个连续变量，并结合新的数据集GraSD进行分析。实验表明，分级激活引导能产生与标量多样性等级相符的差异化解释偏移。

DTCRS: Dynamic Tree Construction for Recursive Summarization

Guanran Luo et al.

cs.CL

本文提出了一种名为DTCRS的动态摘要树构建方法，用于增强检索增强生成(RAG)中的递归摘要过程。该方法根据文档结构和查询语义动态决定是否构建摘要树，并通过问题分解来优化摘要节点，以减少冗余并提升问答效率。

Corpora deduplication or duplication in Natural Language Processing of few resourced languages ? A case of study: The Mexico's Nahuatl

Juan-José Guzman-Landa et al.

cs.CL

本文探讨了在资源匮乏的$\pi$-语言（如Nahuatl）的NLP任务中，数据复制（corpora duplication）是否有效。通过使用增量复制技术扩展$\pi$-yalli语料库并训练静态词嵌入，实验表明该方法在句子级语义相似性任务中带来了适度的性能提升。

MARS: Enabling Autoregressive Models Multi-Token Generation

Ziqi Jin et al.

cs.CL

本文提出了一种名为MARS的轻量级微调方法, 旨在提升自回归语言模型的多token生成效率. 该方法无需修改模型架构或增加额外参数, 通过指令数据上的持续训练, 使模型能够在单次前向传播中预测多个token, 从而在保持生成质量的同时显著提高推理吞吐量.

Gemma 4, Phi-4, and Qwen3: Accuracy-Efficiency Tradeoffs in Dense and MoE Reasoning Language Models

Md Motaleb Hossen Manik, Ge Wang

cs.CL

本文通过一个受控的实证基准测试，比较了七种近期基于推理的指令微调模型（包括dense和MoE架构）在四个基准数据集和三种提示策略下的表现。研究记录了准确率、延迟、GPU内存使用和近似FLOPs等指标，结果表明实际的最佳准确率-效率权衡点取决于架构、提示策略和任务组成的共同作用。

ReDAct: Uncertainty-Aware Deferral for LLM Agents

Dzianis Piatrashyn et al.

cs.CL cs.LG cs.MA

本文提出了一种名为ReDAct的LLM agent不确定性感知延迟决策方法, 通过结合小型廉价模型和大型可靠模型来平衡性能与成本. 在ALFWorld和MiniGrid等文本环境中的实验表明, 该方法仅需将约15%的决策延迟给大模型, 即可达到与全程使用大模型相当的效果, 同时显著降低推理开销.

Sell More, Play Less: Benchmarking LLM Realistic Selling Skill

Xuanbo Su et al.

cs.CL

本文提出了一个用于评估大语言模型在销售对话中表现的双语基准SalesLLM, 并设计了一个结合LLM评分器和微调分类器的自动评估流程. 实验表明, 该基准能有效区分不同模型的能力, 并与专家评分高度相关.

IndoBERT-Sentiment: Context-Conditioned Sentiment Classification for Indonesian Text

Muhammad Apriandito Arya Saputra et al.

cs.CL

本文提出了一种针对印尼语文本的上下文条件情感分类模型 IndoBERT-Sentiment. 该模型基于 IndoBERT Large 构建, 通过引入话题上下文作为额外输入, 显著提升了在特定话题下的情感分类准确性.

SemEval-2026 Task 3: Dimensional Aspect-Based Sentiment Analysis (DimABSA)

Liang-Chih Yu et al.

cs.CL

本文介绍了SemEval-2026共享任务“维度方面情感分析”，该任务通过将情感建模为valence-arousal维度上的回归，改进了传统的基于方面的情感分析。任务包含两个主要赛道，并引入了新的评估指标，吸引了大量参与者。

Is Cross-Lingual Transfer in Bilingual Models Human-Like? A Study with Overlapping Word Forms in Dutch and English

Iza Škrjanec et al.

cs.CL

本文通过训练荷兰语-英语双语Transformer模型, 研究了词汇共享设置如何影响模型的跨语言激活模式. 实验发现, 模型仅在特定嵌入共享条件下能部分复现人类双语者的认知模式, 且效应主要受词频驱动.

Multilingual Embedding Probes Fail to Generalize Across Learner Corpora

Laurits Lyngbaek, Ross Deans Kristensen-McLachlan

cs.CL

本文通过在多语言嵌入模型Qwen3-Embedding的隐藏状态上训练线性与非线性探针，研究了其是否编码了语言通用的熟练度表示。实验发现，尽管在分布内评估中探针表现良好，但在跨语料库评估中性能崩溃，表明模型捕捉到的是语料库特定的分布属性，而非抽象的、可迁移的熟练度维度。

STRIDE-ED: A Strategy-Grounded Stepwise Reasoning Framework for Empathetic Dialogue Systems

Hongru Ji et al.

cs.CL cs.AI

本文提出了一个用于共情对话系统的策略驱动逐步推理框架, 通过构建高质量的策略感知数据和两阶段训练范式来提升模型在共情对话中的表现. 实验表明该框架能有效提升多种开源大语言模型在共情对话任务上的性能.

The Impact of Steering Large Language Models with Persona Vectors in Educational Applications

Yongchao Wu, Aron Henriksson

cs.CL cs.AI

本文研究了在大型语言模型推理时使用persona vectors进行激活引导(activation-based steering)对教育应用的影响. 实验发现, 这种引导会降低生成答案的质量, 并在自动评分任务中引入可预测的、与人格特质相关的校准偏移(calibration shifts).

Yale-DM-Lab at ArchEHR-QA 2026: Deterministic Grounding and Multi-Pass Evidence Alignment for EHR Question Answering

Elyas Irankhah, Samah Fodeh

cs.CL

本文介绍了Yale-DM-Lab团队为ArchEHR-QA 2026共享任务设计的系统。该系统采用多模型集成与投票策略处理电子健康记录问答任务，在开发集上取得了一定性能。

Are Non-English Papers Reviewed Fairly? Language-of-Study Bias in NLP Peer Reviews

Ehsan Barkhordar et al.

cs.CL

本文研究了NLP同行评审中的语言偏见问题, 构建了数据集LOBSTER并提出了检测方法. 分析发现, 研究非英语语言的论文面临更高的偏见率, 其中负面偏见主要体现为要求不合理的跨语言泛化.

Language Bias under Conflicting Information in Multilingual LLMs

Robert Östling, Murathan Kurfalı

cs.CL

本文研究了多语言大语言模型在处理多语言冲突信息时的语言偏好问题. 作者扩展了"大海捞针"测试范式, 在五种语言的新闻数据上评估了不同规模的多语言模型. 研究发现, 所有测试模型在大多数情况下都会忽略信息冲突, 并自信地给出单一答案, 且普遍存在对俄语的偏见和对中文的偏好.

Dynamic Context Evolution for Scalable Synthetic Data Generation

Ryan Lingo, Rajeev Chhajer

cs.CL cs.AI cs.LG

本文针对大语言模型在批量独立提示时输出重复的问题, 提出了一个名为动态上下文演化(DCE)的框架. 该框架通过结合 verbalized tail sampling, semantic memory 和 adaptive prompt evolution 三种机制, 有效提升了生成数据的多样性和概念丰富性.

Agent-Driven Corpus Linguistics: A Framework for Autonomous Linguistic Discovery

Jia Yu et al.

cs.CL

本文提出了一种基于LLM agent的语料库语言学自主研究框架, 通过将LLM与语料库查询引擎连接, 让agent自主完成假设生成、查询、结果解释与多轮分析. 该方法旨在降低技术门槛, 并以可验证的语料证据为基础, 通过实验展示了其在历时语言变化研究中的有效性.

LaScA: Language-Conditioned Scalable Modelling of Affective Dynamics

Kosmas Pinitas, Ilias Maglogiannis

cs.CL cs.ET

本文提出了一种利用语言模型作为语义上下文调节器的新框架, 用于建模情感动态变化. 该方法结合了可解释的手工特征与语言模型的抽象能力, 在情感预测任务上取得了优于基准模型的效果.

Efficient Learned Data Compression via Dual-Stream Feature Decoupling

Huidong Ma et al.

cs.CL cs.IT cs.LG

本文提出了一种双流特征解耦方法, 通过并行架构提升学习型数据压缩的效率. 该方法在压缩率与吞吐量上达到了先进水平, 同时保持了较低的延迟与内存使用.

Joint Optimization of Reasoning and Dual-Memory for Self-Learning Diagnostic Agent

Bingxuan Li, Simo Du, Yue Guo

cs.CL

本文提出了一种结合双记忆模块与强化学习的自学习诊断智能体SEA, 用于临床推理. 该方法通过联合优化推理与记忆管理, 在标准评估和长序列任务中均取得了优于基线方法的性能, 并能将经验转化为可重用的知识.

ClickGuard: A Trustworthy Adaptive Fusion Framework for Clickbait Detection

Chhavi Dhiman et al.

cs.CL

本文提出了一个名为ClickGuard的点击诱饵检测框架, 它通过一个Syntactic-Semantic Adaptive Fusion Block (SSAFB) 动态融合BERT embeddings和结构特征, 并采用hybrid CNN-BiLSTM来捕获模式与依赖关系. 该模型在测试中取得了高准确率, 并通过LIME和PFI等方法进行了可解释性与鲁棒性评估.

A Systematic Study of Retrieval Pipeline Design for Retrieval-Augmented Medical Question Answering

Nusrat Sultana et al.

cs.CL cs.AI cs.LG

本文系统评估了检索增强生成(RAG)在医学问答任务中的性能, 重点分析了不同检索组件(如嵌入模型, 检索策略, 查询重构, 重排序)的相互作用. 实验表明, 检索增强能显著提升模型在MedQA基准上的零样本性能, 且存在检索效果与计算成本之间的权衡.

Why teaching resists automation in an AI-inundated era: Human judgment, non-modular work, and the limits of delegation

Songhee Han

cs.CL cs.CY

本文讨论了在AI时代教学为何难以自动化的问题. 作者认为, 教学本质上是解释性、关系性和基于专业判断的工作, 其价值依赖于对学习者、情境和关系的持续语境解读, 因此无法被完全自动化.

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Jianhui Liu et al.

cs.CL

本文介绍了一个名为OpenSpatial的开源数据引擎，旨在为空间智能研究提供高质量、可扩展的数据生成方案。该引擎基于3D bounding boxes构建了一个包含五项基础任务的数据层次结构，并发布了包含300万样本的大规模数据集OpenSpatial-3M。实验表明，基于该数据集训练的模型在多个空间推理基准测试中取得了领先的性能。

Evaluating In-Context Translation with Synchronous Context-Free Grammar Transduction

Jackson Petty, Jaulie Goe, Tal Linzen

cs.CL cs.AI

本文通过构建 synchronous context-free grammars 来模拟自然语言的语法、形态和书写特征，以此评估大语言模型在给定上下文语法描述下的形式语言翻译能力。研究发现，模型性能随语法规模和句子长度增加而显著下降，且形态与书写差异会导致更多错误。

Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

Qiyao Ma et al.

cs.CL cs.LG

本文提出了Personalized RewardBench, 一个用于评估奖励模型在个性化偏好建模能力上的新基准。该基准通过构建严格遵循或违反用户特定准则的响应对来确保偏好差异的个性化, 实验表明现有先进奖励模型在此任务上表现不佳, 且该基准与下游任务性能有更高的相关性。

others

ClawLess: A Security Model of AI Agents ⭐ 精选

Hongyi Lu et al.

cs.CR cs.AI

本文提出了一个名为ClawLess的安全框架, 用于在AI agent可能为敌手的极端威胁模型下, 对其执行形式化验证的安全策略. 该框架通过形式化系统实体, 信任域和权限, 构建了一个细粒度的安全模型, 以表达适应agent运行时行为的动态策略. 这些策略被转化为具体的安全规则, 并通过一个增强了基于BPF的系统调用拦截能力的用户空间内核来强制执行, 从而将形式化安全模型与实际执行机制相连接, 为AI agent的安全提供了根本性保障.

ForkKV: Scaling Multi-LoRA Agent Serving via Copy-on-Write Disaggregated KV Cache ⭐ 精选

Shao Wang, Rui Ren, Lin Gui

cs.DC cs.LG

本文针对多智能体工作流中因LoRA激活导致KV cache冗余的问题, 提出了ForkKV系统. 其核心创新在于借鉴操作系统中的fork with copy-on-write (CoW) 思想, 将KV cache解耦为共享部分和智能体专属部分, 并设计了DualRadixTree架构来管理这种分离. 通过专门的ResidualAttention内核在SRAM中高效重构KV cache, 该系统在保证生成质量的同时, 将吞吐量提升至现有最佳系统的3.0倍, 有效解决了多LoRA智能体服务中的内存瓶颈问题.

AV-SQL: Decomposing Complex Text-to-SQL Queries with Agentic Views ⭐ 精选

Minh Tam Pham et al.

cs.DB cs.AI cs.ET cs.HC cs.IR

本文提出了AV-SQL框架，通过引入agentic views（由LLM agent生成的CTEs）来分解复杂的Text-to-SQL任务。该方法将查询过程分为重写、视图生成和SQL合成三个阶段，利用专门的agent处理大型数据库schema和复杂逻辑。实验表明，该框架在Spider 2.0等具有挑战性的基准测试上显著超越了现有方法，为解决现实场景中schema过大和查询复杂的问题提供了一种有效的pipeline方案。

Implantable Adaptive Cells: A Novel Enhancement for Pre-Trained U-Nets in Medical Image Segmentation

Emil Benedykciuk, Marcin Denkowski, Grzegorz Wójcik

cs.CV cs.AI

本文提出了一种用于增强预训练U-Net在医学图像分割中性能的新方法。该方法通过梯度神经架构搜索(NAS)设计出可植入自适应单元(IAC), 并将其注入已训练模型的跳跃连接中, 避免了完全重新训练。在多个医学影像数据集上的实验表明, 该方法能稳定提升分割精度。

Fighting AI with AI: AI-Agent Augmented DNS Blocking of LLM Services during Student Evaluations

Yonas Kassa, James Bonacci, Ping Wang

cs.NI cs.AI cs.CY cs.ET cs.LG

本文提出了一个名为AI-Sinkhole的框架，它利用AI智能体增强DNS（域名系统）拦截，以在监考期间动态发现并阻止LLM（大语言模型）服务。该方法结合了量化LLM进行语义分类和动态DNS屏蔽，旨在维护学术评估的严谨性。

MedRoute: RL-Based Dynamic Specialist Routing in Multi-Agent Medical Diagnosis

Ashmal Vayani et al.

eess.IV cs.CV cs.LG cs.MA

本文提出了一个名为MedRoute的动态多智能体医疗诊断框架, 它使用Reinforcement Learning训练的router来动态选择扮演不同专科医生的LMM智能体, 以模拟真实临床会诊流程. 在基于文本和图像的医疗数据集上的评估表明, 该框架提高了诊断准确性.

VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics

Yichen Gong et al.

cs.HC cs.AI

本文提出了一个名为 VenusBench-Mobile 的在线基准测试，用于在真实、以用户为中心的条件下评估移动 GUI 智能体。该基准通过用户意图驱动的任务设计和面向能力的标注方案，揭示了当前智能体在感知和记忆方面的主要缺陷，以及它们在环境变化下的脆弱性。

A Goal-Oriented Chatbot for Engaging the Elderly Through Family Photo Conversations

Raymond Chung, Keith Ng, CD Shum

cs.HC cs.AI

本文提出了一种面向老年人的个性化聊天机器人, 它通过家庭照片引导对话, 旨在促进认知功能和积极回忆. 该系统采用目标导向的对话框架, 并在每次对话后分析用户偏好, 以推荐相关照片进行后续互动.

Benchmarking LLM Tool-Use in the Wild

Peijie Yu et al.

cs.HC cs.AI cs.CL

本文提出了一个基于真实用户行为模式的LLM工具使用基准WildToolBench, 用于评估大语言模型在多轮、多步骤工具调用中的实际表现. 评估发现现有模型在处理复杂的真实用户交互时存在显著不足, 强调了需要重新考虑LLM、用户和工具之间的交互.

Full State-Space Visualisation of the 8-Puzzle: Feasibility, Design, and Educational Use

Ian Frank, Kanata Kawanishi

cs.HC cs.AI

本文介绍了一个用于8-puzzle（8数码问题）的交互式学习系统，该系统能够可视化其全部可达状态空间（181,440个状态）。该系统结合了抽象图结构与具体的谜题操作，支持实时探索和搜索算法的逐步执行，初步课堂部署表明其对理解搜索行为具有教育价值。

LLM Spirals of Delusion: A Benchmarking Audit Study of AI Chatbot Interfaces

Peter Kirgis et al.

cs.HC cs.AI cs.CL

本文通过审计和基准测试, 比较了不同LLM在聊天界面和API环境下的表现, 发现两者在鼓励或抵制妄想和阴谋论思维方面存在显著差异. 研究强调了基于真实聊天界面的多轮对话评估的重要性, 并指出模型更新可能带来行为反转, 影响审计的稳健性.

Harf-Speech: A Clinically Aligned Framework for Arabic Phoneme-Level Speech Assessment

Asif Azad et al.

eess.AS cs.AI cs.CL cs.SD

本文提出了一个用于阿拉伯语语音评估的模块化系统 Harf-Speech. 它结合了语音识别和编辑距离等方法, 在临床评估中取得了与专家评分较高的相关性.

Concentrated siting of AI data centers drives regional power-system stress under rising global compute demand

Danbo Chen et al.

cs.CY cs.AI

本文结合基于大语言模型的数据分析与能源系统建模, 预测了AI数据中心2025至2030年的电力足迹. 研究发现, AI基础设施高度集中在少数地区, 其电力消耗将从2024年的约118 TWh增长至2030年的239-295 TWh, 可能对局部电网造成压力.

Thinking in Graphs with CoMAP: A Shared Visual Workspace for Designing Project-Based Learning

Ruijia Li, Bo Jiang

cs.CY cs.AI

本文介绍了一个名为CoMAP的系统, 它采用基于graph的协作范式, 为项目式学习设计提供了一个共享的视觉工作空间. 该系统结合了双模态AI支持, 旨在将人机交互从简单的问答模式转变为更透明、平等的伙伴关系.

Front-End Ethics for Sensor-Fused Health Conversational Agents: An Ethical Design Space for Biometrics

Hansoo Lee, Rafael A. Calvo

cs.CY cs.AI

本文探讨了将传感器数据与LLMs融合的健康对话agent的前端伦理设计问题. 作者提出了一个包含五个维度的设计空间, 并讨论了生物反馈循环的风险及相应的安全护栏设计.

The Human Condition as Reflected in Contemporary Large Language Models

W. Russell Neuman

cs.CY cs.AI cs.CL

本文通过分析多个大型语言模型(LLM)对同一提示的响应, 识别出训练语料中反映人类文化的若干稳定主题, 如叙事意义构建、情感优先认知等. 作者认为LLM可被视为人类文化叙述的压缩表征, 并联系了心理学、人类学等相关领域进行讨论.

Code Sharing In Prediction Model Research: A Scoping Review

Thomas Sounack et al.

cs.SE cs.AI cs.CL

本文通过一项范围综述，量化了预测模型研究中代码共享的现状。研究发现代码共享率较低且共享的代码库在可复现性特征上存在显著异质性。

Governing frontier general-purpose AI in the public sector: adaptive risk management and policy capacity under uncertainty through 2030

Fabio Correa Xavier

cs.CY cs.AI

本文讨论了前沿通用人工智能在公共部门的治理问题, 提出应基于适应性风险管理和社会技术转型进行治理, 而非静态合规模型. 文章分析了AI能力快速进步与风险认知滞后之间的"证据困境", 并构建了一个整合能力监控、风险分级和制度学习的适应性治理框架.

The End of the Foundation Model Era: Open-Weight Models, Sovereign AI, and Inference as Infrastructure

Jared James Grogan

cs.CY cs.AI

本文讨论了基础模型时代的终结, 并分析了AI产业在经济、技术、商业和政治四个维度上的结构性转变. 作者认为, 开源模型性能的提升和推理成本的下降削弱了大规模预训练的竞争壁垒, 而开放权重的模型将成为主权控制的关键工具.

From experimentation to engagement: on the paradox of participatory AI and power in contexts of forced displacement and humanitarian crises

Stella Suge et al.

cs.CY cs.AI

本文探讨了在被迫流离失所和人道主义危机背景下，参与式人工智能（AI）方法的局限性与权力动态。基于在肯尼亚卡库马难民营的试点研究，作者指出，不恰当的参与式方法可能加剧“参与洗白”和算法伤害的风险，其根源在于人道主义部门内部固有的权力结构，而非仅仅是社区对AI的理解差异。

Development of ML model for triboelectric nanogenerator based sign language detection system

Meshv Patel et al.

eess.SP cs.AI cs.SD

本文提出了一种基于摩擦纳米发电机(TENG)传感器手套的手语识别系统, 并比较了多种机器学习与深度学习模型. 研究结果表明, 结合频域特征提取与并行多传感器处理的MFCC CNN-LSTM架构在识别精度上显著优于传统算法.

The Geometry of Forgetting

Sambartha Ray Barman et al.

q-bio.NC cs.AI cs.IR cs.NE

本文提出了一种基于高维几何的遗忘理论, 认为人类记忆的经典现象(如幂律遗忘和错误记忆)是语义嵌入空间在高维几何下的自然涌现特征, 而非生物硬件的缺陷. 通过分析预训练嵌入模型, 发现即使没有特定设计, 其几何结构也能复现关键的定量记忆特征.

Ontology-based knowledge graph infrastructure for interoperable atomistic simulation data

Abril Azocar Guzman et al.

cs.DB cond-mat.mtrl-sci cs.AI

本文提出了一种基于ontology的知识图谱基础设施, 用于整合和管理原子尺度模拟数据. 该框架通过标准化数据表示和捕获工作流, 旨在提高数据的可发现性、互操作性和可重用性.

Automating Database-Native Function Code Synthesis with LLMs

Wei Zhou et al.

cs.DB cs.AI cs.CL cs.IR cs.SE

本文提出了一种基于LLM的数据库原生函数自动合成系统DBCooker. 该系统通过函数特征提取、结构化代码生成与多级验证等组件, 在多个数据库系统上实现了比通用代码生成模型更高的准确率.

What Do Humanities Scholars Need? A User Model for Recommendation in Digital Archives

Florian Atzenhofer-Baumgartner, Dominik Kowald

cs.DL cs.IR

本文通过焦点小组和访谈，分析了人文学者在数字档案中的信息检索行为，指出了其与典型推荐系统用户模型在偏好稳定性、信任来源、探索方式和时间连续性四个维度的差异。作者提出这些维度可作为一个诊断框架，应用于类似领域。

Negotiating Privacy with Smart Voice Assistants: Risk-Benefit and Control-Acceptance Tensions

Molly Campbell, Mohamad Sheikho Al Jasem, Ajay Kumar Shrestha

cs.CR cs.AI cs.CY

本文提出了一种基于谈判的框架来理解青少年在使用智能语音助手时的隐私决策过程, 通过构建风险-收益张力指数(RBTI)和控制-接受张力指数(CATI)两个复合指标进行分析. 研究发现, 这两个指数与隐私保护行为相关, 且频繁使用语音助手的青少年表现出更倾向于收益和接受的谈判特征.

The Art of Building Verifiers for Computer Use Agents

Corby Rosset et al.

cs.CR cs.AI cs.MA

本文介绍了构建用于计算机使用智能体(Computer Use Agent, CUA)轨迹验证的通用验证器(Universal Verifier)的设计原则与评估。该验证器通过设计非重叠的评分标准、分离过程与结果奖励、区分可控与不可控失败以及采用分治的上下文管理方案，在CUAVerifierBench基准上实现了接近人类水平的一致性和极低的误报率。

SALLIE: Safeguarding Against Latent Language & Image Exploits

Guy Azov, Ofer Rivlin, Guy Shtar

cs.CR cs.AI

本文提出了一种名为SALLIE的轻量级运行时检测框架，旨在为大型语言模型和视觉语言模型提供统一的、模态无关的防御，以对抗文本和视觉的越狱及提示注入攻击。该方法通过分析模型内部激活来检测恶意输入，并在多个开源模型上展示了优于现有基线的性能。

DISSECT: Diagnosing Where Vision Ends and Language Priors Begin in Scientific VLMs

Dikshant Kukreja et al.

cs.CV cs.AI

本文提出了一个名为DISSECT的诊断性基准测试, 用于评估科学领域视觉语言模型(VLMs)中视觉感知与语言推理整合的差距. 通过设计多种输入模式(包括一种新颖的Model Oracle), 该工作系统性地分解了模型性能, 揭示了开源与闭源模型在整合能力上的差异.

SE-Enhanced ViT and BiLSTM-Based Intrusion Detection for Secure IIoT and IoMT Environments

Afrah Gueriani et al.

cs.CR cs.AI cs.CV

本文提出了一种用于IIoT和IoMT安全的混合入侵检测框架SE ViT-BiLSTM。该模型结合了Squeeze-and-Excitation attention机制与BiLSTM层，在两个真实数据集上取得了优于现有方法的检测精度和延迟性能。

Learning the Stellar Structure Equations via Self-supervised Physics-Informed Neural Networks

Manuel Ballester et al.

astro-ph.SR astro-ph.GA astro-ph.IM cs.AI

本文提出了一种基于自监督物理信息神经网络(PINN)的框架, 用于求解恒星结构方程. 该模型通过物理约束的损失项学习恒星内部物理量的连续径向分布, 并引入辅助神经网络来近似状态方程和不透明度表, 实现了与基准数值模型相当的高精度.

From Exposure to Internalization: Dual-Stream Calibration for In-context Clinical Reasoning

Chuang Zhao et al.

q-bio.QM cs.AI

本文提出了一种用于临床推理的测试时训练框架, 旨在超越表面的知识暴露, 实现推理过程中的深度内部化. 该方法通过协同校准两个流来促进输入内部化, 并在多个临床数据集上验证了其优越性.

Incentive-Aware Multi-Fidelity Optimization for Generative Advertising in Large Language Models

Jiayuan Liu et al.

cs.GT cs.AI cs.IR cs.LG

本文提出了一种用于大语言模型生成式广告的激励感知多保真度优化框架IAMFM, 它将VCG机制与多保真度优化相结合, 以在考虑广告主策略行为和高成本随机生成的约束下最大化期望社会福利. 文章还引入了主动反事实优化方法来高效计算VCG支付, 并提供了近似策略证明性和个体理性的理论保证.

ToxReason: A Benchmark for Mechanistic Chemical Toxicity Reasoning via Adverse Outcome Pathway

Jueon Park et al.

q-bio.QM cs.AI

本文提出了一个基于Adverse Outcome Pathway (AOP)的基准测试ToxReason, 用于评估语言模型在化学毒性机理推理方面的能力. 该基准整合了实验证据, 要求模型从分子起始事件推断毒性结果及其机制, 研究发现预测性能与可靠的机理推理并不完全一致.

Attribution-Driven Explainable Intrusion Detection with Encoder-Based Large Language Models

Umesh Biswas et al.

cs.CR cs.AI

本文对基于encoder的LLM在SDN入侵检测中的应用进行了attribution分析. 分析表明模型决策与有意义的流量行为模式相关, 提升了基于transformer的检测系统的可解释性.

MAT-Cell: A Multi-Agent Tree-Structured Reasoning Framework for Batch-Level Single-Cell Annotation

Yehui Yang et al.

q-bio.QM cs.AI

本文提出了一种名为MAT-Cell的多智能体树状推理框架，用于批量单细胞注释。该框架通过结合神经与符号推理，旨在解决现有方法在泛化性和噪声处理上的不足。

Towards the Development of an LLM-Based Methodology for Automated Security Profiling in Compliance with Ukrainian Cybersecurity Regulations

Daniil Shafranskyi, Iryna Stopochkina, Mykola Ilin

cs.CR cs.AI

本文探讨了将ISO/IEC 27001和NIST框架等国际实践整合到乌克兰网络安全法规中的方法，并提出了一种利用基于RAG增强的LLM来自动生成安全配置文件的方案。该方案旨在通过向量数据库减少人工操作和错误，以应对高强度混合威胁环境下的安全管理需求。

Plasma GraphRAG: Physics-Grounded Parameter Selection for Gyrokinetic Simulations

Ruichen Zhang et al.

physics.plasm-ph cs.AI

本文提出了一种结合Graph Retrieval-Augmented Generation与大型语言模型的框架，用于自动化地确定等离子体gyrokinetic模拟中的参数范围。该方法通过构建领域知识图谱来增强检索的准确性，从而提高了参数推荐的可靠性和一致性。

DosimeTron: Automating Personalized Monte Carlo Radiation Dosimetry in PET/CT with Agentic AI

Eleftherios Tzanis, Michail E. Klontzas, Antonios Tzortzakakis

physics.med-ph cs.AI

本文介绍了一个名为DosimeTron的agentic AI系统，用于自动化PET/CT检查中患者特异性的Monte Carlo内照射剂量计算。该系统利用大型语言模型作为推理引擎，整合多个工具来自动执行从图像处理到剂量报告的完整流程，并在一个公开数据集上验证了其剂量计算的准确性和运行可靠性。

Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements

Nibedita Roy et al.

stat.ML cs.LG

本文研究了分布式参数服务器-工作者架构下的随机向量均值估计问题, 其中部分工作者可能发送对抗性测量值, 且工作者异步激活. 在先前工作的基础上, 本文在满足类零空间性质的条件下, 建立了紧的非渐近收敛速率, 并分析了在更宽松条件下部分分量可恢复的可能性.

Harnessing Hyperbolic Geometry for Harmful Prompt Detection and Sanitization

Igor Maljkovic et al.

cs.CR cs.AI cs.CV

本文提出了一种利用双曲几何来检测和净化恶意提示的方法, 用于保护视觉语言模型(VLMs). 该方法包含两个组件: 用于异常检测的HyPE和用于提示净化的HyPS, 实验表明其在准确性和鲁棒性上优于现有防御方法.

Adversarial Robustness of Time-Series Classification for Crystal Collimator Alignment

Xaver Fink et al.

cs.CR cs.LG

本文针对CERN大型强子对撞机中用于晶体准直器对准的时间序列分类CNN, 分析了其在基于现实威胁模型下的对抗鲁棒性. 通过构建一个包含预处理步骤的可微封装器, 并利用Foolbox和ART框架进行对抗性微调, 将模型的鲁棒准确率提升了18.6%.

FedSpy-LLM: Towards Scalable and Generalizable Data Reconstruction Attacks from Gradients on LLMs

Syed Irfan Ali Meerza, Feiyi Wang, Jian Liu

cs.CR cs.LG

本文提出了一种针对联邦学习下大型语言模型的数据重建攻击方法FedSpy-LLM. 该方法通过梯度分解策略处理PEFT方法引入的零空间, 旨在重建更大批次和更长序列的训练数据, 并适用于多种模型架构.

Blockchain and AI: Securing Intelligent Networks for the Future

Joy Dutta, Hossien B. Eldeeb, Tu Dac Ho

cs.CR cs.AI

本文探讨了 Blockchain 与 AI 在保障智能网络安全方面的协同作用. 它分析了这两种技术如何互补, 以提供去中心化、可预测和自适应的安全框架, 并讨论了相关的挑战与未来方向.

A Novel Automatic Framework for Speaker Drift Detection in Synthesized Speech

Jia-Hong Huang et al.

cs.SD cs.AI

本文提出了一种自动检测合成语音中说话人漂移的框架, 将问题形式化为基于话语级别的说话人一致性二分类任务. 该方法通过计算合成语音重叠片段的余弦相似度, 并利用大语言模型进行结构化推理来评估漂移.

Telescope: Learnable Hyperbolic Foveation for Ultra-Long-Range Object Detection

Parker Ewen et al.

cs.CV cs.LG

本文提出了一种名为Telescope的两阶段检测模型, 用于解决自动驾驶中超过500米的超远距离目标检测难题. 该方法通过引入新颖的重采样层和图像变换技术, 在保持计算效率的同时, 显著提升了超远距离小目标的检测性能.

Toward a Uniform Algorithm and Uniform Reduction for Constraint Problems

Libor Barto, Maximilian Hadek, Dmitriy Zhuk

cs.LO cs.CC cs.DS

本文为约束满足问题(CSP)和Promise CSP的高阶算法(如$k$-一致性, Sherali-Adams LP层次, 仿射IP层次)建立了一个统一的minion理论框架, 用于刻画其求解能力. 作者还引入了一种新的基于$\mathbb Z_{p}$上向量的SDP类松弛层次, 并证明了它与AIP-$\mathbb{Z}_p$松弛的等价性, 同时展示了其在求解特定群(如二面体群$\mathbf{D}_4$)和模$p^2$线性方程组问题上的有效性.

"Don't Be Afraid, Just Learn": Insights from Industry Practitioners to Prepare Software Engineers in the Age of Generative AI

Daniel Otten et al.

cs.SE cs.AI

本文通过调查和访谈软件行业从业者, 探讨了生成式AI (GenAI) 工具对软件工程教育和行业技能需求的影响. 研究总结了行业对软技能和传统能力持续重视的趋势, 并为学术界如何调整课程提供了实证建议.

DietDelta: A Vision-Language Approach for Dietary Assessment via Before-and-After Images

Gautham Vinod et al.

cs.CV cs.AI cs.MM eess.IV

本文提出了一种基于视觉-语言框架的饮食评估方法, 利用餐前餐后配对图像进行食物项级别的营养分析. 该方法通过自然语言提示定位食物并直接从单张RGB图像估计重量, 无需依赖分割掩码或深度传感等限制性输入, 在多个公开数据集上取得了优于现有方法的表现.

GS-Surrogate: Deformable Gaussian Splatting for Parameter Space Exploration of Ensemble Simulations

Ziwei Li et al.

cs.GR cs.AI

本文提出了一种基于可变形高斯泼溅的可视化代理模型GS-Surrogate, 用于对集合模拟进行参数空间探索. 该方法通过构建一个规范化的高斯场作为基础3D表示, 并使其适应参数驱动的变化, 从而支持实时且灵活的可视化调整.

WebSP-Eval: Evaluating Web Agents on Website Security and Privacy Tasks

Guruprasad Viswanathan Ramesh et al.

cs.CR cs.AI cs.LG

本文提出了WebSP-Eval, 一个用于评估Web agent在网站安全与隐私任务上性能的框架. 该框架包含一个手动构建的任务数据集, 一个支持状态管理的agent系统以及一个自动评估器, 并对8个基于先进多模态大语言模型的agent进行了评估, 发现其在自主探索和特定UI元素处理上存在显著困难.

Beyond Functional Correctness: Design Issues in AI IDE-Generated Large-Scale Projects

Syed Mohammad Kashif et al.

cs.SE cs.AI

本文评估了AI IDE (Cursor) 生成大规模软件项目的能力及其存在的设计问题. 研究发现, 在提出的FD-HITL框架下, Cursor能生成功能基本正确的大型项目, 但这些项目普遍存在代码重复、高复杂度等设计缺陷, 可能影响长期可维护性.

Revisiting Fairness Impossibility with Endogenous Behavior

Elizabeth Maggie Penn, John W. Patty

cs.GT cs.LG econ.TH

本文在考虑个体对分类结果做出策略性反应的环境中, 重新审视了算法公平性中的经典不可能性定理. 研究表明, 当分类的"利害关系"(stakes)可以内生调整时, 某些公平性标准之间的不相容性会发生变化, 但会引入新的、不同形式的差异化对待.

Uncertainty Estimation for Deep Reconstruction in Actuatic Disaster Scenarios with Autonomous Vehicles

Samuel Yanes Luis et al.

cs.RO cs.AI

本文比较了Gaussian Processes, Monte Carlo Dropout, Deep Ensembles和Evidential Deep Learning等方法在自主水下车辆稀疏观测环境标量场重建及不确定性量化中的表现. 实验表明, Evidential Deep Learning在重建精度和不确定性校准方面表现最佳, 且推理成本最低.

MorphDistill: Distilling Unified Morphological Knowledge from Pathology Foundation Models for Colorectal Cancer Survival Prediction

Hikmat Khan et al.

cs.CV cs.AI

本文提出了一个名为 MorphDistill 的两阶段框架, 用于结直肠癌生存预测. 该方法通过知识蒸馏整合多个病理学基础模型的知识到一个专用的编码器中, 并在两个队列上展示了优于基线的预测性能.

Calibration of a neural network ocean closure for improved mean state and variability

Pavel Perezhogin, Alistair Adcroft, Laure Zanna

physics.ao-ph cs.LG physics.comp-ph

本文使用Ensemble Kalman Inversion (EKI)方法，对粗分辨率海洋模型中一个神经网络参数化的系数进行了系统校准。该方法有效改善了平均态和变率的模拟偏差，并提出了一个绕过统计平衡的高效校准协议。

Say Something Else: Rethinking Contextual Privacy as Information Sufficiency

Yunze Xiao et al.

cs.CR cs.AI cs.CL

本文提出了一种基于"信息充分性"的LLM隐私保护框架, 引入了自由文本假名化作为第三种策略, 并设计了一个对话式评估协议. 研究发现假名化在隐私-效用权衡上表现最佳, 且单轮消息评估会系统性低估信息泄露风险.

Towards Resilient Intrusion Detection in CubeSats: Challenges, TinyML Solutions, and Future Directions

Yasamin Fayyaz, Li Yang, Khalil El-Khatib

cs.CR cs.AI cs.GL cs.LG

本文综述了CubeSat(立方星)面临的网络安全挑战, 探讨了传统入侵检测系统(IDS)在资源受限环境中的局限性. 文章提出将TinyML(微型机器学习)集成到CubeSat系统中作为一种有前景的解决方案, 并指出了未来的研究方向.

Operator Learning for Surrogate Modeling of Wave-Induced Forces from Sea Surface Waves

Shukai Cai et al.

physics.comp-ph cs.LG physics.flu-dyn

本文探讨了使用 Deep Operator Networks (DeepONets) 作为近岸波浪数值模型 (SWAN) 的替代模型，以预测波浪引起的辐射应力梯度和有效波高。该模型在多个一维和二维稳态数值算例中进行了测试，并在一个真实场景中展现了较高的预测精度。

Continual Visual Anomaly Detection on the Edge: Benchmark and Efficient Solutions

Manuel Barusco et al.

cs.CV cs.AI

本文提出了首个面向边缘设备持续学习的视觉异常检测(VAD)基准，评估了多种模型与轻量级架构的组合。作者还提出了Tiny-Dinomaly等高效改进方法，在显著降低资源消耗的同时提升了检测性能。

The Defense Trilemma: Why Prompt Injection Defense Wrappers Fail?

Manish Bhatt et al.

cs.CR cs.AI

本文研究了针对语言模型的prompt injection防御wrapper的局限性. 证明了在连续且保持效用的前提下, 任何此类防御都无法保证所有输出的绝对安全, 并刻画了其必然失效的区域. 理论结果在Lean 4中进行了形式化验证.

Learning Debt and Cost-Sensitive Bayesian Retraining: A Forecasting Operations Framework

Harrison Katz

stat.AP cs.LG

本文提出了一个用于预测模型重训练决策的贝叶斯操作框架, 引入了"学习债务"的概念来衡量部署模型与持续更新模型之间的差异. 通过在线模拟和实际生产数据回溯测试, 展示了该方法相比固定周期重训练基准的潜在优势.

Visual prompting reimagined: The power of the Activation Prompts

Yihua Zhang et al.

cs.CV cs.LG

本文提出了一种名为 activation prompt (AP) 的广义概念，它将视觉提示从输入层扩展到了模型的中间激活层。通过实验和理论分析，作者比较了 AP 与输入级视觉提示及参数高效微调方法的性能，展示了 AP 在精度和效率上的优势。

Anticipating tipping in spatiotemporal systems with machine learning

Smita Deb et al.

nlin.CD cs.LG physics.data-an

本文提出了一种结合非负矩阵分解(NMF)降维与参数自适应储备池计算(Reservoir Computing)的机器学习框架, 用于预测复杂时空动力系统中的临界转变(tipping). 该方法在多个模型和CMIP5气候数据中展示了预测转变发生时间的能力.

Hybrid ResNet-1D-BiGRU with Multi-Head Attention for Cyberattack Detection in Industrial IoT Environments

Afrah Gueriani, Hamza Kheddar, Ahmed Cherif Mazari

cs.CV cs.AI cs.CR

本文提出了一种用于工业物联网入侵检测的混合深度学习模型, 结合了ResNet-1D, BiGRU和多头注意力机制. 该模型在EdgeHoTset和CICIoV2024数据集上取得了高准确率和低延迟, 性能优于现有方法.

Spatiotemporal Gaussian representation-based dynamic reconstruction and motion estimation framework for time-resolved volumetric MR imaging (DREME-GSMR)

Jiacheng Xie et al.

physics.med-ph cs.LG

本文提出了一种基于时空高斯表示(DREME-GSMR)的动态重建与运动估计框架, 用于时间分辨的容积磁共振成像. 该方法利用3D高斯函数表示参考解剖结构和低秩运动模型, 并通过一个双路径编码器从k空间信号估计运动系数, 实现了亚秒级时间分辨率的动态重建和实时成像.

Adaptive Differential Privacy for Federated Medical Image Segmentation Across Diverse Modalities

Puja Saha, Eranga Ukwatta

eess.IV cs.AI cs.CV

本文提出了一种用于联邦医学图像分割的自适应差分隐私框架, 旨在动态调整隐私机制以平衡隐私与效用. 该方法在多种模态和分割任务上进行了评估, 相比传统方法在准确性和训练稳定性方面表现更优.

Database Querying under Missing Values Governed by Missingness Mechanisms

Leopoldo Bertossi, Farouk Toumani, Maxime Buron

cs.DB cs.AI cs.LO

本文提出了一种在存在缺失值的关系数据库上进行查询回答的新方法. 该方法利用贝叶斯网络对缺失机制建模, 并基于此构建概率数据库来处理查询中的不确定性.

Soft-Quantum Algorithms

Basil Kyriacou et al.

quant-ph cs.AI cs.LG

本文提出了一种训练 soft-unitary matrices 的方法, 通过向损失函数添加正则化项来保持矩阵的酉性, 然后通过 circuit alignment 步骤将训练好的矩阵恢复为基于门的量子电路架构. 该方法在监督分类和强化学习任务中展示了比直接训练量子电路更快的速度和更好的性能.

Stochastic Auto-conditioned Fast Gradient Methods with Optimal Rates

Yao Ji, Guanghui Lan

math.OC cs.LG

本文提出了一种名为stochastic AC-FGM的随机优化方法，用于解决复合凸优化问题。该方法无需预先知道问题的Lipschitz常数等参数，通过自适应地选择步长和小批量大小，在标准的有界条件方差假设下达到了最优的迭代复杂度和样本复杂度。

A Generalized Sinkhorn Algorithm for Mean-Field Schrödinger Bridge

Asmaa Eldesoukey, Yongxin Chen, Abhishek Halder

math.OC cs.LG cs.MA eess.SY stat.ML

本文提出了一种用于求解 mean-field Schrödinger bridge (MFSB) 问题的广义 Sinkhorn 算法. 该算法通过推广 Hopf-Cole 变换来处理非局部相互作用带来的非凸性, 并给出了收敛性分析和数值算例.

Quantum-Inspired Tensor Network Autoencoders for Anomaly Detection: A MERA-Based Approach

Emre Gurkanli, Michael Spannowsky

hep-ph cs.LG quant-ph

本文提出了一种受MERA启发的tensor network autoencoder架构, 用于对撞机喷注中的异常检测. 通过实验比较, 作者发现这种保持局域性的多尺度层次压缩结构能很好地匹配喷注数据, 并在压缩瓶颈最强时展现出优势.

SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills

Yinghan Hou, Zongyou Yang

cs.CR cs.AI

本文提出了一个名为SkillSieve的三层检测框架，用于识别AI Agent技能中的恶意代码。该框架结合了基于XGBoost的快速过滤和LLM的深度分析，在真实数据集上以较低成本实现了优于现有方法的检测性能。

ExplainFuzz: Explainable and Constraint-Conditioned Test Generation with Probabilistic Circuits

Annaëlle Baiget et al.

cs.SE cs.LG

本文提出了ExplainFuzz, 一个利用Probabilistic Circuits (PCs)进行可解释和约束条件测试生成的框架. 它通过编译grammar-aware PC并训练现有输入来生成符合语法和用户约束的新测试用例, 在SQL和XML测试中提高了bug触发率.

Accelerating 4D Hyperspectral Imaging through Physics-Informed Neural Representation and Adaptive Sampling

Chi-Jui Ho et al.

eess.IV cs.LG

本文提出了一种基于物理信息神经表示和自适应采样的方法, 用于加速4D高光谱成像的数据采集. 该方法通过多层感知机建模稀疏采样坐标与光谱强度的关系, 并从有限观测中重建密集光谱, 实验表明仅需1/32的采样预算即可实现高保真恢复.

AI-Driven Research for Databases

Audrey Cheng et al.

cs.DB cs.AI

本文提出了一种名为AI-Driven Research for Systems (ADRS)的新方法, 利用大语言模型自动化数据库性能优化方案的发现. 该方法通过共同进化解决方案与评估器, 克服了自动化评估的瓶颈, 并在缓冲区管理、查询重写和索引选择等案例中发现了优于现有技术的算法.

DynLP: Parallel Dynamic Batch Update for Label Propagation in Semi-Supervised Learning

S M Shovan et al.

cs.DC cs.LG

本文提出了一种用于半监督学习中标签传播的GPU并行动态批量更新算法DynLP. 该算法避免了新数据到来时的全图重计算, 通过局部更新实现了显著的加速.

Neural parametric representations for thin-shell shape optimisation

Xiao Xiao, Fehmi Cirak

math.NA cs.LG

本文提出了一种基于周期性激活函数神经网络的薄壳中面神经参数化表示(NRep), 用于形状优化. 该方法将网络参数作为设计变量, 通过梯度优化算法求解结构柔顺度最小化问题, 并在经典算例中验证了其有效性.

Holistic Optimal Label Selection for Robust Prompt Learning under Partial Labels

Yaqi Zhao et al.

cs.CV cs.LG

本文提出了一种名为HopS的方法, 用于在部分标签可用的弱监督场景下改进prompt learning的性能. 该方法结合了基于局部邻域密度的过滤器和基于最优运输的全局选择目标, 以从候选标签中选择更可靠的标签.

CubeGraph: Efficient Retrieval-Augmented Generation for Spatial and Temporal Data

Mingyu Yang, Wentao Li, Wei Wang

cs.DB cs.AI cs.IR

本文提出了一种名为CubeGraph的新型索引框架, 用于高效处理结合高维向量相似性搜索与时空过滤的混合查询. 该方法通过分层网格划分空间域, 并在查询时动态整合相邻单元内的向量图, 从而在保持全局连通性的同时显著提升了查询性能与可扩展性.

The Theorems of Dr. David Blackwell and Their Contributions to Artificial Intelligence

Napoleon Paxton

cs.GL cs.LG stat.ML

本文回顾了David Blackwell的三个核心定理及其对现代人工智能的影响. 这些理论成果为信息处理、序列决策和不确定性下的学习提供了基础框架.

Logical Robots: Declarative Multi-Agent Programming in Logica

Evgeny Skvortsov et al.

cs.MA cs.AI cs.RO

本文介绍了一个名为Logical Robots的多智能体仿真平台, 其中机器人行为通过逻辑编程语言Logica以声明式方式定义. 该平台将低层反应控制与高层规划整合在统一的逻辑编程环境中.

Argus: Reorchestrating Static Analysis via a Multi-Agent Ensemble for Full-Chain Security Vulnerability Detection

Zi Liang et al.

cs.CR cs.CL cs.SE

本文提出了一个名为Argus的多智能体框架, 用于重新编排静态应用安全测试(SAAT)的工作流. 该框架通过整合检索增强生成(RAG)和ReAct等技术, 旨在减少误报和幻觉, 并在实证评估中展现出优于现有方法的性能.

RPM-Net Reciprocal Point MLP Network for Unknown Network Security Threat Detection

Jiachen Zhang et al.

cs.CR cs.AI

本文提出了一种名为RPM-Net的新框架, 用于多类别不平衡环境下的未知网络安全威胁检测. 该方法通过引入reciprocal point机制来学习已知攻击类别的"非类"表示, 并结合了具有几何可解释性的对抗边界约束.

Variational Feature Compression for Model-Specific Representations

Zinan Guo et al.

cs.CV cs.LG

本文提出了一种特征提取框架, 旨在抑制跨模型的特征迁移, 同时保持对指定分类器的准确性. 该方法利用变分潜在瓶颈和动态二值掩码来压缩特征表示, 在CIFAR-100等数据集上有效降低了非目标模型的准确率.

Towards Robust Content Watermarking Against Removal and Forgery Attacks

Yifan Zhu, Yihan Wang, Xiao-Shan Gao

cs.CV cs.LG

本文提出了一种名为ISTS的新型水印范式, 以增强文本到图像扩散模型生成内容的水印鲁棒性. 该方法通过动态控制水印注入时机和模式, 并采用双向检测机制, 以抵抗移除和伪造攻击.

Restoring Heterogeneity in LLM-based Social Simulation: An Audience Segmentation Approach

Xiaoyou Qin, Zhihong Li, Xiaoxiao Cheng

cs.CY cs.AI

本文探讨了在基于LLM的社会模拟中恢复群体异质性的方法, 提出了受众细分(Audience Segmentation)框架, 并通过实验比较了不同细分配置在分布、结构和预测保真度上的表现.

Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start

Xueshen Liu et al.

cs.DC cs.LG

本文提出了一种基于模板的CUDA图上下文物化系统Foundry, 用于加速大型语言模型(LLM)服务的冷启动. 它通过离线处理阶段持久化图拓扑和执行上下文, 并在线上以可忽略的开销重建可执行图, 从而将冷启动延迟降低高达99%.

Specializing Large Models for Oracle Bone Script Interpretation via Component-Grounded Multimodal Knowledge Augmentation

Jianing Zhang et al.

cs.CV cs.CL

本文提出了一个基于agent的Vision-Language Model框架，用于甲骨文(Oracle Bone Script)的解读。该方法通过组件识别和图知识检索等步骤，结合新构建的数据集OB-Radix，在多个基准测试中取得了优于基线方法的结果。

HQF-Net: A Hybrid Quantum-Classical Multi-Scale Fusion Network for Remote Sensing Image Segmentation

Md Aminur Hossain et al.

cs.CV cs.AI

本文提出了一种用于遥感图像分割的混合量子-经典多尺度融合网络HQF-Net. 它通过一个可变形多尺度交叉注意力融合模块, 结合了预训练视觉Transformer的多尺度语义引导与定制的U-Net架构, 并引入了量子增强的跳跃连接与量子混合专家瓶颈层来优化特征.

Fine-grained Approaches for Confidence Calibration of LLMs in Automated Code Revision

Hong Yi Lin et al.

cs.SE cs.AI

本文针对自动代码修订任务中LLMs置信度校准不可靠的问题, 提出了细粒度的校准方法. 通过实验验证, 该方法在多种任务和模型上能有效降低校准误差.

The Traveling Thief Problem with Time Windows: Benchmarks and Heuristics

Helen Yuliana Angmalisang, Frank Neumann

cs.NE cs.AI

本文针对带时间窗约束的旅行小偷问题(TTP)进行了研究, 提出了一种新的启发式算法, 并基于现有TTP实例构建了新的基准测试集. 实验表明, 新算法在多种基准实例上优于其他方法.

URMF: Uncertainty-aware Robust Multimodal Fusion for Multimodal Sarcasm Detection

Zhenyu Wang et al.

cs.CV cs.AI cs.MM

本文提出了一种用于多模态讽刺检测的不确定性感知鲁棒融合框架(URMF). 该框架通过建模模态可靠性, 动态调节融合过程中的模态贡献, 以提高检测的准确性和鲁棒性.

Beyond Pessimism: Offline Learning in KL-regularized Games

Yuheng Zhang, Claire Chen, Nan Jiang

cs.GT cs.LG

本文研究了KL-regularized two-player zero-sum games中的离线学习问题. 作者提出了一种无需悲观估计的新算法和分析框架, 获得了$\widetilde{\mathcal{O}}(1/n)$的样本复杂度上界.

Evaluating LLM-Based 0-to-1 Software Generation in End-to-End CLI Tool Scenarios

Ruida Hu et al.

cs.SE cs.AI

本文提出了一个名为CLI-Tool-Bench的基准测试，用于评估LLM从零开始生成命令行工具的能力。该基准通过黑盒差分测试框架，在沙箱中比较AI生成代码与人类编写代码的系统副作用和终端输出。

FlowExtract: Procedural Knowledge Extraction from Maintenance Flowcharts

Guillermo Gil de Avalle et al.

cs.CV cs.AI

本文提出了一种从维护流程图中提取有向图的流水线方法, 用于将静态文档中的程序性知识转化为可查询的表示. 该方法结合了目标检测, 文本识别和一种新颖的基于箭头方向分析的边缘检测算法, 在工业流程图数据集上取得了优于通用视觉语言模型基线的性能.

From Perception to Autonomous Computational Modeling: A Multi-Agent Approach

Daniel N. Wilke

cs.CE cs.CL cs.MA

本文提出了一个基于多智能体大语言模型(LLM)的通用求解器框架, 用于自主执行从感知数据到工程报告的完整计算力学工作流. 该框架通过引入质量门控和条件迭代来协调智能体, 并利用区间界、概率密度和模糊隶属函数来处理不确定性下的工程信息提取问题.

Video-guided Machine Translation with Global Video Context

Jian Chen et al.

cs.CV cs.CL

本文提出了一种利用全局视频上下文指导的机器翻译框架. 该方法通过预训练语义编码器和向量数据库检索构建相关视频片段集, 并设计了注意力机制来融合视觉信息, 在长视频翻译任务上取得了优于基线模型的效果.

Evaluating Repository-level Software Documentation via Question Answering and Feature-Driven Development

Xinchen Wang et al.

cs.SE cs.AI

本文提出了一种通过问答任务评估仓库级别软件文档质量的新基准SWD-Bench. 该方法通过衡量LLM利用文档理解和实现功能的能力来间接评估文档质量, 实验揭示了当前文档生成方法的局限性.

FedDAP: Domain-Aware Prototype Learning for Federated Learning under Domain Shift

Huy Q. Le et al.

cs.CV cs.AI

本文提出了一种名为FedDAP的联邦学习方法，旨在解决联邦学习中因客户端数据来自不同领域（domain shift）而导致的模型性能下降问题。该方法通过构建领域感知的原型（domain-aware prototypes）来改进全局模型的泛化能力。

CBM-Dual: A 65-nm Fully Connected Chaotic Boltzmann Machine Processor for Dual Function Simulated Annealing and Reservoir Computing

Kanta Yoshioka et al.

cs.AR cs.LG

本文介绍了一种名为CBM-Dual的数字混沌动力学处理器，它首次在硬件上同时支持模拟退火和储层计算。该处理器采用全连接的1024神经元混沌玻尔兹曼机，并通过特定的调度器和乘法分割方案显著降低了计算开销和芯片面积。

SkillTrojan: Backdoor Attacks on Skill-Based Agent Systems

Yunhao Feng et al.

cs.CR cs.AI

本文提出了一种针对基于技能的智能体系统的后门攻击方法 SkillTrojan. 该方法通过将恶意负载嵌入到看似正常的技能中, 并在特定触发条件下组合执行, 实现了高攻击成功率且对正常任务性能影响很小.

Towards Privacy-Preserving Large Language Model: Text-free Inference Through Alignment and Adaptation

Jeongho Yoon et al.

cs.CR cs.AI

本文提出了一种名为PPFT的隐私保护微调方法, 旨在解决LLM服务中用户提交原始文本带来的隐私风险. 该方法通过客户端编码器和服务器端投影模块, 使服务器仅处理经过聚合和噪声注入的提示嵌入, 从而在保护隐私的同时保持模型性能.

FedDetox: Robust Federated SLM Alignment via On-Device Data Sanitization

Shunan Zhu et al.

cs.CR cs.LG

本文提出了一种用于资源受限边缘设备上小型语言模型安全对齐的联邦学习框架FedDetox. 该方法通过知识蒸馏将大型教师模型的安全对齐能力迁移到轻量级学生分类器上, 并在客户端本地识别和替换不安全数据样本, 以减轻联邦对齐过程中的意外数据毒化问题.

Digital Skin, Digital Bias: Uncovering Tone-Based Biases in LLMs and Emoji Embeddings

Mingchen Li et al.

cs.SI cs.AI cs.CL cs.HC

本文通过比较专门的emoji嵌入模型与多个现代LLMs，首次大规模研究了不同肤色emoji表示中的偏见。研究发现，专用模型存在严重缺陷，而LLMs在肤色支持上表现更好，但两者均显示出与肤色相关的语义不一致和情感偏差。

A Data-Informed Variational Clustering Framework for Noisy High-Dimensional Data

Wan Ping Chen

stat.ML cs.LG

本文提出了一个名为DIVI的数据驱动变分聚类框架, 用于处理高维噪声数据. 该框架结合了全局特征门控和基于分裂的自适应结构增长, 在噪声严重的条件下表现出竞争力.

Physical Adversarial Attacks on AI Surveillance Systems:Detection, Tracking, and Visible--Infrared Evasion

Miguel A.DelaCruz, Patricia Mae Santos, Rafael T.Navarro

cs.CV cs.AI

本文从面向监控系统的视角综述了物理对抗攻击的研究. 文章重点讨论了在监控场景下变得关键的技术问题, 如时间持续性, 传感模态, 载体真实性和系统级目标, 并总结了当前的评估实践与未解决的挑战.

Energy-Regularized Spatial Masking: A Novel Approach to Enhancing Robustness and Interpretability in Vision Models

Tom Devynck Bilal Faye Djamel Bouchaffra Nadjib Lazaar Hanane Azzag Mustapha Lebbah

cs.CV cs.LG

本文提出了一种名为Energy-Regularized Spatial Masking (ERSM)的新框架，通过将特征选择表述为一个可微的能量最小化问题来增强视觉模型的鲁棒性和可解释性。该方法在标准卷积网络中嵌入一个轻量级的Energy-Mask Layer，为每个视觉token分配一个由Unary重要性成本和Pairwise空间一致性惩罚组成的标量能量，从而允许网络为每个输入自主发现最优的信息密度平衡。实验表明，ERSM能在保持分类精度的同时，产生涌现的稀疏性、提升对结构化遮挡的鲁棒性以及生成高度可解释的空间掩码。

Data Leakage in Automotive Perception: Practitioners' Insights

Md Abu Ahammed Babu et al.

cs.CR cs.LG cs.SE

本文通过访谈汽车感知领域的从业者, 探讨了数据泄露(data leakage)在工业实践中的认知与管理现状. 研究发现, 不同角色的工程师对数据泄露的理解存在碎片化, 其检测与预防更多依赖经验而非专用工具.

SentinelSphere: Integrating AI-Powered Real-Time Threat Detection with Cybersecurity Awareness Training

Nikolaos D. Tantaroudas, Ilias Karachalios, Andrew J. McCracken

cs.CE cs.AI cs.CR cs.CY

本文提出了一个名为SentinelSphere的网络安全平台, 它结合了基于Enhanced DNN的实时威胁检测和一个由量化Phi-4模型驱动的安全教育AI助手. 实验表明该系统在降低误报的同时保持了高检测率, 并通过用户验证确认了其可视化界面和对话助手的易用性.

XR-CareerAssist: An Immersive Platform for Personalised Career Guidance Leveraging Extended Reality and Multimodal AI

N.D. Tantaroudas et al.

cs.CE cs.AI cs.CV cs.CY cs.ET

本文介绍了一个结合Extended Reality (XR)与多种AI模块的沉浸式职业指导平台XR-CareerAssist. 该系统集成了语音识别、机器翻译、对话助手和视觉语言模型, 旨在提供比传统文本界面更具互动性和个性化的职业发展体验.

Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

Yuheng Shi et al.

cs.CV cs.AI

本文提出了一种名为Q-Zoom的查询感知自适应感知框架，用于提升多模态大语言模型在高分辨率视觉任务中的推理效率。该方法通过动态门控网络和自蒸馏区域建议网络，实现了从粗粒度到细粒度的自适应处理，在保持精度的同时显著提升了推理速度。

Continuous-Time Dynamics of the Difference-of-Convex Algorithm

Yi-Shuai Niu

math.OC cs.LG math.DS

本文研究了具有强凸分量的光滑DC分解的difference-of-convex算法(DCA)的连续时间动力学。在连续时间极限下，算法对应于由分解的凸部分生成的Hessian-Riemannian梯度流，并分析了其收敛性质。

Multi-modal user interface control detection using cross-attention

Milad Moradi et al.

cs.CV cs.AI

本文提出了一种基于cross-attention的多模态YOLOv5扩展模型，用于从软件截图中检测UI控件。该模型通过整合GPT生成的图像文本描述来增强检测的鲁棒性，并在一个包含超过16,000张标注截图的数据集上验证了其有效性。

Evaluating PQC KEMs, Combiners, and Cascade Encryption via Adaptive IND-CPA Testing Using Deep Learning

Simon Calderon, Niklas Johansson, Onur Günlü

cs.CR cs.IT cs.LG cs.NE eess.SP

本文提出了一种基于深度神经网络(DNN)的二元分类方法，用于对密码算法的IND-CPA安全性进行经验性测试。该方法被应用于评估后量子密钥封装机制(PQC KEMs)、混合KEM组合器以及级联对称加密方案，实验结果表明在所测试的方案中未发现可被利用的统计模式。

An empirical study of LoRA-based fine-tuning of large language models for automated test case generation

Milad Moradi et al.

cs.SE cs.AI

本文通过实证研究探讨了使用LoRA对大型语言模型进行参数高效微调以生成自动化测试用例的效果. 研究评估了多个模型家族, 并提出了一个基于GPT-4o的自动化评估框架. 结果表明, 经过微调的开源模型性能显著提升, 可以接近未微调的GPT-4.1模型.

NestPipe: Large-Scale Recommendation Training on 1,500+ Accelerators via Nested Pipelining

Zhida Jiang et al.

cs.DC cs.LG

本文提出了一种名为NestPipe的大规模去中心化embedding训练框架，旨在解决超大规模推荐模型训练中的数据移动瓶颈。它通过嵌套流水线技术，在保持同步训练语义的同时，提升了在超过1500个加速器上的训练效率。

ELC: Evidential Lifelong Classifier for Uncertainty Aware Radar Pulse Classification

Mohamed Rabie, Chinthana Panagamuwa, Konstantinos G. Kyriakopoulos

eess.SP cs.LG

本文提出了一种基于证据理论的Evidential Lifelong Classifier (ELC), 用于雷达脉冲分类中的不确定性量化与终身学习. 该方法通过Learn-Prune-Share机制实现持续学习, 并利用不确定性进行选择性预测以拒绝不可靠的分类结果. 在合成雷达与射频指纹数据集上的实验表明, 在低信噪比条件下, 基于证据不确定性的选择性预测相比基于香农熵的贝叶斯方法能显著提升召回率.

CAAP: Capture-Aware Adversarial Patch Attacks on Palmprint Recognition Models

Renyang Liu et al.

cs.CV cs.AI cs.CR

本文提出了一种针对掌纹识别系统的物理对抗性攻击方法CAAP. 该方法考虑了实际采集过程中的图像畸变, 并设计了十字形patch以更有效地破坏掌纹的长程纹理连续性. 实验表明, 该方法在多种模型和数据集上均能实现有效的攻击.

Generative Phomosaic with Structure-Aligned and Personalized Diffusion

Jaeyoung Chung, Hyunjin Son, Kyoung Mu Lee

cs.CV cs.AI

本文提出了一种生成式photomosaic方法, 利用基于reference images的diffusion model来合成tile images. 该方法通过低频条件机制对齐全局结构, 并借助few-shot personalized diffusion实现用户特定或风格一致的tile生成, 克服了传统基于颜色匹配方法的局限性.

AgentCity: Constitutional Governance for Autonomous Agent Economies via Separation of Power

Anbang Ruan, Xing Zhang

cs.MA cs.AI cs.CY

本文提出了一个名为"AgentCity"的框架，用于治理在开放互联网上协作的自主AI智能体。其核心是"权力分离"模型，通过区块链智能合约将立法、执行和裁决功能分离，旨在建立可审计的问责链，使大规模多智能体系统的集体行为与人类意图保持一致。

QNAS: A Neural Architecture Search Framework for Accurate and Efficient Quantum Neural Networks

Kooshan Maleki, Alberto Marchisio, Muhammad Shafique

quant-ph cs.LG

本文提出了一个名为QNAS的神经架构搜索框架, 用于设计混合量子-经典神经网络(HQNNs). 该框架通过多目标优化(包括验证误差, 运行时成本估计和子电路数量)来联合搜索在精度, 效率和实际硬件部署开销之间取得平衡的量子神经网络架构.

Physics-Informed Functional Link Constrained Framework with Domain Mapping for Solving Bending Analysis of an Exponentially Loaded Perforated Beam

Iswari Sahu, Ramanath Garai, S. Chakraverty

math.DS cs.LG math.NA

本文提出了一种结合Domain mapping, Functional link和Theory of Functional Connections (TFC)的DFL-TFC框架，用于分析带方孔的锥形穿孔梁在指数载荷下的弯曲行为。该方法通过约束表达式精确满足边界条件，并与PINN方法进行了比较，显示了其在收敛速度和精度上的优势。

Strategic Persuasion with Trait-Conditioned Multi-Agent Systems for Iterative Legal Argumentation

Philipp D. Siedler

cs.MA cs.AI cs.CL

本文提出了一个基于特质条件化LLM智能体的多智能体模拟框架, 用于研究迭代式法律论证中的策略性说服. 通过大量模拟实验, 分析了不同智能体特质组合对辩论结果的影响, 并引入强化学习方法动态生成策略.

KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

Mehdi Hosseinzadeh, King Hang Wong, Feras Dayoub

cs.RO cs.AI cs.CV

本文提出了一种名为KITE的训练无关前端方法, 用于将冗长的机器人执行视频转换为紧凑的、可解释的token化证据, 以供Vision-Language Models (VLMs)进行故障分析. 该方法通过提取运动显著的关键帧并结合鸟瞰图布局表示, 构建统一的提示, 在无需训练的情况下提升了多个故障分析任务的性能.

AEROS: A Single-Agent Operating Architecture with Embodied Capability Modules

Xue Qin et al.

cs.RO cs.AI

本文提出了一种名为AEROS的机器人操作系统架构，它将机器人建模为一个单一、持久的智能主体，其能力通过可安装的模块进行扩展。该架构通过策略分离的运行时来保证模块化扩展和系统安全，并在仿真实验中验证了其有效性。

Controller Design for Structured State-space Models via Contraction Theory

Muhammad Zakwan et al.

eess.SY cs.LG math.DS

本文利用 Structured State-space Models (SSMs) 作为替代模型，提出了一种用于非线性系统的间接数据驱动输出反馈控制器设计方法。该方法基于 contraction theory 和 Linear Matrix Inequalities (LMIs) 进行控制器综合，并通过数值算例验证了其有效性。

Flow Motion Policy: Manipulator Motion Planning with Flow Matching Models

Davood Soleymanzadeh, Xiao Liang, Minghui Zheng

cs.RO cs.AI

本文提出了一种用于机械臂运动规划的Flow Motion Policy方法, 它基于flow matching模型来建模可行路径的分布, 从而支持推理时的优化采样. 该方法通过生成多个候选路径并选择无碰撞解, 在基准测试中展现了更高的规划成功率和效率.

SurFITR: A Dataset for Surveillance Image Forgery Detection and Localisation

Qizhou Wang, Guansong Pang, Christopher Leckie

cs.CV cs.AI cs.MM eess.IV

本文提出了一个用于监控图像伪造检测与定位的数据集SurFITR. 该数据集通过多模态大模型驱动的流程生成, 包含大量具有不同分辨率和编辑类型的篡改图像, 旨在解决现有模型在监控场景下泛化能力不足的问题.

Assessing the Added Value of Onboard Earth Observation Processing with the IRIDE HEO Service Segment

Parampuneet Kaur Thind et al.

cs.CV cs.AI cs.AR cs.ET

本文讨论了星载处理在Earth Observation (EO)服务中的附加值, 以IRIDE HEO服务为例. 通过burnt-area mapping案例研究, 展示了星载智能如何提升空间细节和系统响应能力, 作为对现有地面处理架构的补充.

Mixed-Initiative Context: Structuring and Managing Context for Human-AI Collaboration

Haichang Li et al.

cs.HC cs.AI

本文提出了Mixed-Initiative Context概念，将人机协作中形成的上下文重新定义为一种结构化、可操作的对象。通过实现一个名为Contextify的探测系统，作者研究了用户对上下文管理的态度和行为，并探讨了其对HCI领域的意义。

Accuracy Improvement of Semi-Supervised Segmentation Using Supervised ClassMix and Sup-Unsup Feature Discriminator

Takahiro Mano, Reiji Saito, Kazuhiro Hotta

cs.CV cs.LG

本文提出了一种改进的半监督语义分割方法. 通过使用有标签图像进行区域混合, 并引入特征判别器来缩小有标签与无标签数据在特征层面的差距, 在医学图像数据集上取得了性能提升.

DDP-SA: Scalable Privacy-Preserving Federated Learning via Distributed Differential Privacy and Secure Aggregation

Wenjing Wei, Farid Nait-Abdesselam, Alla Jammine

cs.CR cs.LG

本文提出了一种结合本地差分隐私与安全聚合的联邦学习框架DDP-SA. 该框架通过两阶段保护机制, 在保证可扩展性的同时提供了更强的端到端隐私保障.

Self-Discovered Intention-aware Transformer for Multi-modal Vehicle Trajectory Prediction

Diyi Liu et al.

cs.RO cs.AI cs.LG

本文提出了一种基于纯Transformer架构的多模态车辆轨迹预测模型, 该模型采用双分支设计, 分别处理轨迹预测和驾驶意图预测, 并通过预测K条轨迹之间的残差偏移来学习有序的轨迹组.

A solver-in-the-loop framework for end-to-end differentiable coastal hydrodynamics

Elsa Cardoso-Bihlo, Alex Bihlo

physics.flu-dyn cs.LG math.NA physics.ao-ph

本文提出了一种名为AegirJAX的完全可微分海岸水动力学求解器, 它基于深度积分非静水浅水方程. 该框架将物理时间推进循环视为连续计算图, 并展示了其在多个科学机器学习任务中的应用潜力.

CSA-Graphs: A Privacy-Preserving Structural Dataset for Child Sexual Abuse Research

Carlos Caetano et al.

cs.CV cs.AI cs.LG

本文提出了一个用于儿童性虐待研究的隐私保护结构数据集CSA-Graphs. 该数据集通过提供场景图和骨架图等结构表示, 在移除敏感视觉内容的同时保留了分类任务所需的上下文信息.

Energy Saving for Cell-Free Massive MIMO Networks: A Multi-Agent Deep Reinforcement Learning Approach

Qichen Wang et al.

cs.IT cs.AI cs.LG

本文提出了一种基于多智能体深度强化学习(MADRL)的分布式算法, 用于动态管理无蜂窝大规模MIMO网络中的接入点天线配置与休眠模式, 以降低下行链路的能耗. 仿真结果表明, 该方法在仅略微增加掉线率的情况下, 相比无节能方案和仅使用最浅休眠模式的非学习机制, 能显著降低功耗.

Bridging MRI and PET physiology: Untangling complementarity through orthogonal representations

Sonja Adomeit et al.

cs.CV cs.AI

本文提出了一种基于正交子空间分解的多模态医学影像融合框架, 用于区分前列腺癌成像中MRI可解释的生理信息与PSMA PET特有的信号成分. 该方法通过训练一个隐式神经表示(INR)来建立MRI特征向量到PET摄取的映射, 并利用基于奇异值分解的投影正则化来强制两个模态表示之间的数学正交性.

DINO-QPM: Adapting Visual Foundation Models for Globally Interpretable Image Classification

Robert Zimmermann, Thomas Norrenbrock, Bodo Rosenhahn

cs.CV cs.HC cs.LG

本文提出了一种名为DINO-QPM的轻量级适配器, 用于提升基于DINOv2等视觉基础模型的图像分类任务的可解释性. 该方法通过平均池化等技术, 将模型的高维特征转换为可解释的表示, 并在保持分类精度的同时提供了空间定位的解释.

Amortized Filtering and Smoothing with Conditional Normalizing Flows

Tiangang Cui et al.

stat.ML cs.LG math.NA

本文提出了一个基于条件归一化流的统一摊销框架AFSF, 用于高维非线性动态系统的贝叶斯滤波与平滑. 该方法通过一个循环编码器将观测历史映射为固定维度的摘要统计量, 并以此学习前向流和后向流, 从而近似滤波分布与平滑分布.

Splats under Pressure: Exploring Performance-Energy Trade-offs in Real-Time 3D Gaussian Splatting under Constrained GPU Budgets

Muhammad Fahim Tajwar, Arthur Wuhrlin, Bhojan Anand

cs.GR cs.LG

本文通过模拟不同GPU性能层级的方法, 研究了在边缘设备有限计算预算下实时3D Gaussian Splatting (3DGS) 渲染的可行性. 作者测量了不同场景和优化下的帧率与功耗, 分析了性能与能耗的权衡, 为在资源受限环境中部署3DGS提供了初步见解.

Energy-based Tissue Manifolds for Longitudinal Multiparametric MRI Analysis

Kartikay Tehlan et al.

cs.CV cs.AI

本文提出了一种基于患者特异性能量建模的几何框架, 用于纵向多参数MRI分析. 该方法通过去噪分数匹配学习一个能量函数, 将后续扫描的序列向量分布演化置于基线能量几何中进行评估, 为无监督的纵向组织变化追踪提供了概念验证.

TeaLeafVision: An Explainable and Robust Deep Learning Framework for Tea Leaf Disease Classification

Rafi Ahamed et al.

cs.CV cs.AI cs.LG

本文提出了一种名为TeaLeafVision的深度学习框架, 用于茶叶病害分类. 该框架评估了多种CNN模型, 并在真实场景数据集上实现了高精度分类, 同时通过可解释性技术和对抗训练增强了模型的鲁棒性.

The ATOM Report: Measuring the Open Language Model Ecosystem

Nathan Lambert, Florian Brand

cs.CY cs.AI cs.LG

本文对开源语言模型生态系统进行了全面的采用情况分析, 重点关注了约1500个主流开源模型. 报告指出, 中国模型在2025年夏季于采用度上超越了美国模型, 并持续扩大领先优势.

TraceSafe: A Systematic Assessment of LLM Guardrails on Multi-Step Tool-Calling Trajectories

Yen-Shan Chen et al.

cs.CR cs.AI cs.CL cs.LG cs.SE

本文提出了TraceSafe-Bench，一个用于评估大型语言模型在多步工具调用轨迹中安全护栏效能的基准。研究发现，护栏性能更依赖于结构化数据处理能力，而非语义安全对齐，且模型架构比规模影响更大。

$k$-server-bench: Automating Potential Discovery for the $k$-Server Conjecture

Kirill Brilliantov, Etienne Bamas, Emmanuel Abbé

cs.MS cs.AI cs.LG

本文提出了一个基于代码的自动化数学发现挑战, 其核心是$k$-server猜想中势函数的自动发现. 该任务要求找到一个满足大规模图结构线性不等式系统的势函数, 并开发了相应的评估工具. 实验表明, 现有方法能在已解决的$k=3$情形下处理非平凡实例, 并在未解决的$k=4$情形下减少现有势函数的违反次数, 但未能完全解决该问题. 这项工作不仅为$k$-server猜想的研究提供了新工具, 也为开发基于代码的发现智能体(agent)建立了一个有用的基准(benchmark).

Designing Safe and Accountable GenAI as a Learning Companion with Women Banned from Formal Education

Hamayoon Behmanush et al.

cs.CY cs.AI

本文通过一项在阿富汗开展的远程参与式设计研究, 探讨了在性别限制与监控环境下, 被排除在正规教育之外的女性对生成式AI(GenAI)作为学习伴侣的需求与愿景. 研究发现, 参与者更倾向于将GenAI视为一种可随时获取的同伴、导师和职业指导来源, 以弥补学习社群的缺失, 但同时也强调了隐私、监控风险以及不当交互方式带来的挑战. 研究进一步将参与者的提议转化为以问责为核心的设计方向, 重点关注安全优先的交互、用户控制、资源受限下的情境化支持以及符合教育学原理的辅助.

Non-identifiability of Explanations from Model Behavior in Deep Networks of Image Authenticity Judgments

Icaro Re Depaolini, Uri Hasson

cs.CV cs.LG

本文通过多种 attribution 方法（如 Grad-CAM, LIME）评估了预测人类图像真实性评分的深度模型的解释鲁棒性。研究发现，即使预测性能相似，不同架构模型产生的解释也缺乏一致性，表明从成功的行为模型中得出的解释对揭示认知机制的证据力较弱。

Validated Intent Compilation for Constrained Routing in LEO Mega-Constellations

Yuanhang Li

cs.CR cs.AI

本文提出一个端到端系统, 用于将高层操作意图(自然语言)编译并验证为低层路由约束, 应用于LEO巨型星座. 系统包含一个GNN路由器, 一个LLM意图编译器和一个确定性验证器, 在评估中实现了零约束违反.

The Theory and Practice of Highly Scalable Gaussian Process Regression with Nearest Neighbours

Robert Allison, Tomasz Maciazek, Anthony Stephenson

stat.ML cs.LG

本文为Nearest Neighbour Gaussian Process ($NNGP$)和$GPnn$回归方法建立了理论框架. 在温和的正则性假设下, 作者推导了预测误差($MSE$), 校准系数($CAL$)和负对数似然($NLL$)的几乎处处逐点极限, 证明了方法的普遍一致性, 并达到了Stone极小极大风险率.

Making Room for AI: Multi-GPU Molecular Dynamics with Deep Potentials in GROMACS

Luca Pennati et al.

cs.DC cs.AI cs.LG

本文介绍了将DeePMD-kit集成到GROMACS中以实现多GPU加速分子动力学模拟的工作。通过引入解耦的domain decomposition层和并行的神经网络推理，该集成方案在扩展到32个设备时仍能保持一定的并行效率。

Are Face Embeddings Compatible Across Deep Neural Network Models?

Fizza Rubab, Yiying Tong, Arun Ross

cs.CV cs.LG

本文通过将不同深度神经网络模型生成的人脸嵌入视为点云, 研究简单的仿射变换能否对齐不同模型的人脸表示. 研究发现, 低容量的线性映射能显著提升跨模型的人脸识别性能, 表明不同模型在人脸身份编码上存在表征收敛性.

CADENCE: Context-Adaptive Depth Estimation for Navigation and Computational Efficiency

Timothy K Johnsen, Marco Levorato

cs.RO cs.AI cs.LG

本文提出了一种名为CADENCE的自适应系统, 用于在资源受限的自主车辆上动态调整单目深度估计网络的计算复杂度. 该系统根据导航需求和环境上下文进行感知保真度与执行要求的闭环调节, 从而在嵌入式平台上显著降低了能耗与延迟.

Region-Graph Optimal Transport Routing for Mixture-of-Experts Whole-Slide Image Classification

Xin Tian et al.

cs.CV cs.AI eess.IV

本文提出了一种名为ROAM的混合专家多示例学习聚合器, 用于全切片图像分类. 该方法通过基于熵最优传输的容量约束路由机制, 将空间区域令牌分配给专家池化器, 旨在实现专家利用的平衡.

Chatbot-Based Assessment of Code Understanding in Automated Programming Assessment Systems

Eduard Frankford, Erik Cikalleshi, Ruth Breu

cs.SE cs.AI

本文综述了编程教育中基于对话的评估方法, 并提出了一个混合框架. 该框架旨在将对话验证整合到自动编程评估系统中, 以应对大语言模型带来的挑战.

Beyond Loss Values: Robust Dynamic Pruning via Loss Trajectory Alignment

Huaiyuan Qin et al.

cs.CV cs.LG

本文提出了一种名为 AlignPrune 的噪声鲁棒模块, 用于改进带噪声标签数据下的动态剪枝. 该方法通过引入基于损失轨迹的动态对齐分数 (DAS) 来更准确地识别噪声样本, 从而提升剪枝效果. 实验表明, 该模块能作为即插即用组件提升现有动态剪枝框架的性能.

Syntax Is Easy, Semantics Is Hard: Evaluating LLMs for LTL Translation

Priscilla Kyei Danso et al.

cs.LO cs.AI

本文评估了多个代表性LLM将自然语言断言翻译为LTL公式的能力。研究发现，LLM在LTL的句法方面表现优于语义方面，更详细的提示和将任务重构为Python代码补全问题能提升性能。

Gaussian Approximation for Asynchronous Q-learning

Artemy Rubtsov et al.

stat.ML cs.LG math.PR

本文研究了异步 Q-learning 算法在多项式步长下的 Polyak-Ruppert 平均迭代的高维中心极限定理收敛速率. 在状态-动作-下一状态三元组序列构成一致几何遍历 Markov 链的假设下, 作者证明了在超矩形类上的收敛速率可达 $n^{-1/6} \log^{4} (nS A)$, 并给出了算法最后迭代的高阶矩界.

RoSHI: A Versatile Robot-oriented Suit for Human Data In-the-Wild

Wenjing Margaret Mao et al.

cs.RO cs.AI cs.CV

本文提出了一种名为RoSHI的混合可穿戴系统, 它融合了低成本稀疏IMU与Project Aria眼镜, 旨在从第一人称视角估计穿戴者在全局坐标系中的完整3D姿态和身体形状. 该系统在收集敏捷活动数据方面表现出色, 其数据可用于现实世界人形机器人策略学习.

Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

Yuechen Jiang et al.

cs.CV cs.CL cs.MM

本文提出了一个用于从图像推断结构化文化元数据的跨文化基准, 并利用LLM-as-Judge框架评估了视觉语言模型在此任务上的表现. 结果表明, 现有模型在不同文化和元数据类型上表现差异显著, 其预测存在不一致性.

Measurement of Generative AI Workload Power Profiles for Whole-Facility Data Center Infrastructure Planning

Roberto Vercellino et al.

eess.SY cs.DC cs.LG

本文提出了一种将高分辨率AI工作负载功耗测量与数据中心整体能耗需求关联的方法. 通过测量NVIDIA H100 GPU上AI训练、微调和推理任务的功耗, 并利用公开基准进行标准化表征, 构建了公开的功耗数据集. 随后, 使用自底向上、事件驱动的数据中心能耗模型, 将这些工作负载功耗数据扩展至设施级别, 生成了能够反映AI工作负载和用户行为驱动的真实时间波动的整体能耗曲线, 以支持电网连接、现场发电和分布式微电网等基础设施规划.

MoRight: Motion Control Done Right

Shaowei Liu et al.

cs.CV cs.AI cs.GR cs.LG cs.RO

本文提出了MoRight框架, 用于生成运动可控的视频. 该框架通过解耦的相机与物体运动控制, 以及主动/被动运动分解, 实现了对场景动态的灵活编辑和因果推理.

Toward a Tractability Frontier for Exact Relevance Certification

Tristan Simas

cs.CC cs.AI cs.LO

本文研究了exact relevance certification问题的可处理性边界. 通过证明一个meta-impossibility定理, 指出在满足特定闭包律的结构谓词下, 不存在高效的、能精确刻画该边界的分类器. 构造了四个障碍族来确立此定理.

Fast Spatial Memory with Elastic Test-Time Training

Ziqiao Ma et al.

cs.CV cs.GR cs.LG

本文提出了一种名为Elastic Test-Time Training的方法, 通过引入基于Fisher信息的弹性先验来稳定LaCT (Large Chunk Test-Time Training) 在推理时的快速权重更新, 以缓解灾难性遗忘和过拟合. 基于此, 作者构建了Fast Spatial Memory (FSM) 模型, 用于从长序列观测中进行高效的4D重建和新视角合成.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.AI

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

others