bluearXiv-ai - 2026-04-15

📄 所有论文 ↑ 回顶部

cs.LG

How Transformers Learn to Plan via Multi-Token Prediction ⭐ 精选

Jianhao Huang et al.

cs.LG cs.AI

本文研究了 multi-token prediction (MTP) 如何促进 Transformer 模型学习规划能力。通过理论分析一个简化的两层 Transformer 在 star graph 任务上的表现，作者证明了 MTP 会诱导一个两阶段的反向推理过程：模型首先关注终点，然后逆向回溯中间节点。这种机制源于 MTP 的梯度解耦特性，它提供了比 next-token prediction (NTP) 更清晰的训练信号，从而引导优化过程趋向于构建鲁棒且可解释的推理电路。

Agentic Control in Variational Language Models ⭐ 精选

Yves Ruffenach

cs.LG

本文提出了一种在变分语言模型(Variational Language Model)中实现"智能体控制(agentic control)"的新框架. 该框架的核心是将模型内部的不确定性(uncertainty)从一个被动的诊断指标, 转变为一个可操作的信号, 用于主动调节训练、管理检查点(checkpoint)保留以及指导推理时的干预. 通过结合局部变分隐式计算(EVE)、稳态潜在调节器(homeostatic latent regulator)和校准后的不确定性感知控制器(uncertainty-aware controller), 模型在语言建模任务上超越了确定性基线, 并展现出更丰富、更可用的不确定性特征. 这项工作为利用模型内部证据实现闭环控制提供了具体方案, 与"智能体(agent)"研究的关键方向相契合.

Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks

Hongfei Du, Emre Barut, Fang Jin

cs.LG

本文提出了一种基于bootstrap的框架来估计CNN的预测不确定性, 通过使用convexified neural networks来建立bootstrap的理论一致性. 该方法计算负载较低, 并探索了一种transfer learning方法以适用于任意神经网络, 在多个图像数据集上表现优于基线方法.

Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning

Hongxi Mao et al.

cs.LG cs.AI

本文提出了一种利用大语言模型(LLM)进行模式自适应表格表示学习的方法, 用于提升表格数据的模式泛化能力. 该方法将结构化变量转换为自然语言描述, 通过预训练的LLM生成可迁移的嵌入, 并在痴呆症诊断的多模态任务中验证了其零样本迁移的有效性.

A Layer-wise Analysis of Supervised Fine-Tuning

Qinghua Zhao et al.

cs.LG cs.AI

本文通过信息论、几何和优化指标分析了不同规模模型(1B-32B)在监督微调(SFT)过程中各层指令跟随能力的涌现。研究发现中间层(20%-80%)表现稳定，而最后几层高度敏感，并基于此提出了仅更新关键中间层的Mid-Block Efficient Tuning方法。

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Sandro Andric

cs.LG

本文探讨了在基于大语言模型的多智能体谈判模拟中, 增强模型的推理能力可能反而会损害行为模拟的真实性. 作者通过实验表明, 当模拟目标是采样合理的有限理性行为而非求解最优策略时, 过度优化的"求解器"模型会导致行为多样性降低和妥协结果消失.

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

Wenhao Zhang et al.

cs.LG cs.AI

本文提出了一种名为PERA的新方法, 通过将多项式展开引入低秩因子空间来增强LoRA的表达能力. 该方法在不增加秩或推理成本的情况下, 能够建模更丰富的非线性参数交互, 并在多个基准测试中取得了优于现有方法的表现.

DBGL: Decay-aware Bipartite Graph Learning for Irregular Medical Time Series Classification

Jian Chen et al.

cs.LG cs.AI

本文提出了一种用于不规则医学时间序列分类的图学习方法DBGL. 该方法通过构建patient-variable bipartite graph来建模采样不规则性, 并设计了一种node-specific temporal decay encoding机制来捕捉变量衰减的不规则性.

Disposition Distillation at Small Scale: A Three-Arc Negative Result

Hari Sadasivan

cs.LG cs.AI

本文尝试通过一个四阶段的蒸馏流程, 在小规模语言模型(0.6B到2.3B参数)中训练行为倾向(如自我验证、不确定性确认等). 然而, 在多个模型家族和干预方法(包括SFT/DPO LoRA, 推理时注意力头调节, 以及一个冻结基座侧网络)上的实验均未能成功, 这些操作要么损害内容质量, 要么退化为风格模仿. 研究提供了一个包含机制分析的三部分负面结果, 一个对线性探针失败模式的分类, 以及一个将假阳性转化为可发表负面结果的验证流程.

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

Sergey Alekseev

cs.LG stat.ML

本文通过分析平均偏雅可比范数(APJN)来研究transformer初始化时的信号传播。理论预测了注意力机制如何影响深层网络中的APJN渐进行为，并将残差网络中的临界性概念推广到了transformer架构。

Thermodynamic Liquid Manifold Networks: Physics-Bounded Deep Learning for Solar Forecasting in Autonomous Off-Grid Microgrids

Mohammed Ezzaldin Babiker Abdullah

cs.LG cs.AI eess.SY

本文提出了一种用于离网微电网太阳能预测的物理约束深度学习模型。该模型通过将气象与几何变量映射到Koopman线性化的Riemannian流形中，并结合光谱校准与热力学门控机制，来强制模型遵循确定性的天体几何与热力学规律，从而消除了夜间虚假发电等物理异常，并在快速天气变化中实现了零滞后同步。

Can AI Detect Life? Lessons from Artificial Life

Ankit Gupta, Christoph Adami

cs.LG cs.AI cs.NE q-bio.PE

本文通过Artificial Life实验指出, 基于现代机器学习的外星生命检测方法可能因样本分布外问题而产生高置信度的误判. 作者认为, 由于地外样本很可能与训练分布不同, 这类AI方法容易给出显著的假阳性结果.

INTARG: Informed Real-Time Adversarial Attack Generation for Time-Series Regression

Gamze Kirman Tokgoz et al.

cs.LG cs.CR

本文提出了一种针对时间序列回归任务的实时对抗攻击生成框架 INTARG. 该框架在在线有界缓冲区设置下运行, 通过选择性攻击模型高置信度且预测误差预期最大的时间步, 以较少的攻击次数显著提升预测误差.

Fast and principled equation discovery from chaos to climate

Yuzheng Zhang, Weizhen Li, Rui Carvalho

cs.LG math.DS physics.comp-ph

本文提出了一种名为Bayesian-ARGOS的混合框架，用于从噪声数据中自动发现系统控制方程。该方法结合了快速频域筛选和聚焦贝叶斯推断，在计算效率和统计严谨性之间取得了平衡。

A unified data format for managing diabetes time-series data: DIAbetes eXchange (DIAX)

Elliott C. Pryor, Marc D. Breton, Anas El Fathi

cs.LG q-bio.QM

本文提出了一种名为DIAX的标准化JSON数据格式，用于统一管理来自连续血糖监测等设备的糖尿病时间序列数据。该格式旨在促进数据共享与机器学习应用的可复现性，并提供了开源工具支持。

AutoSurrogate: An LLM-Driven Multi-Agent Framework for Autonomous Construction of Deep Learning Surrogate Models in Subsurface Flow

Jiale Liu, Nanzhe Wang

cs.LG cs.AI cs.MA

本文提出了一个由大型语言模型驱动的多智能体框架AutoSurrogate, 用于自动化构建地下流动问题的深度学习代理模型. 该系统通过自然语言指令, 引导多个智能体协作完成从数据处理到模型评估的全流程, 旨在降低领域专家使用深度学习技术的门槛.

ResBM: Residual Bottleneck Models for Low-Bandwidth Pipeline Parallelism

Alan Aboudib et al.

cs.LG cs.AI cs.DC

本文提出了一种名为Residual Bottleneck Model (ResBM)的新架构, 旨在实现低带宽环境下的高效pipeline并行训练. 该方法通过引入跨pipeline边界的残差编解码器瓶颈模块, 在标准transformer架构上实现了显著的激活压缩, 同时保持了端到端的可训练性.

Active Imitation Learning for Thermal- and Kernel-Aware LFM Inference on 3D S-NUCA Many-Cores

Yixian Shen et al.

cs.LG cs.AR

本文提出了一种基于Active Imitation Learning的调度框架AILFM，用于管理3D S-NUCA多核系统上运行大型基础模型时的热问题与性能。该方法通过模仿Oracle演示来学习调度策略，以应对系统异构性和工作负载多样性，在保证热安全的同时提升性能。

The Linear Centroids Hypothesis: How Deep Network Features Represent Data

Thomas Walker et al.

cs.LG

本文提出了Linear Centroids Hypothesis (LCH)作为识别深度网络特征的新框架。该框架通过分析输入空间局部区域的功能行为向量摘要（centroids）来定义特征，并展示了其在提升特征稀疏性和识别模型内部电路方面的应用潜力。

Classification of Epileptic iEEG using Topological Machine Learning

Sunia Tanweer, Narayan Puthanmadam Subramaniyam, Firas A. Khasawneh

cs.LG stat.AP

本文利用拓扑数据分析(TDA)从颅内脑电图(iEEG)中提取特征, 用于癫痫发作状态的分类. 通过大规模消融实验比较了多种TDA向量化方法、降维技术和分类器, 发现降维后的拓扑特征在经典机器学习模型上取得了与深度学习相当的性能, 同时缓解了高维特征导致的过拟合问题.

Multi-Head Residual-Gated DeepONet for Coherent Nonlinear Wave Dynamics

Zhiwei Fan, Yiming Pan, Daniel Coca

cs.LG

本文提出了一种用于相干非线性波动力学的多头部残差门控DeepONet. 该方法通过并行处理物理描述符来调制状态预测, 在多个基准测试中取得了较低误差并保持了物理相干性.

Exploring Concept Subspace for Self-explainable Text-Attributed Graph Learning

Xiaoxue Han et al.

cs.LG

本文提出了一种用于文本属性图自解释学习的新范式 Graph Concept Bottleneck (GCB). 该方法将图映射到一个由有意义短语构成的概念子空间, 并基于概念激活进行预测, 从而提供了一种新的解释形式.

Offline-Online Reinforcement Learning for Linear Mixture MDPs

Zhongjun Zhang, Sean R. Sinclair

cs.LG math.OC stat.ML

本文研究了具有环境偏移的线性混合MDP中的离线-在线强化学习问题。算法能自适应地利用离线数据，在数据有益时提升性能，在无益时安全地忽略，并建立了相应的遗憾上界。

Loss-Driven Bayesian Active Learning

Zhuoyue Huang, Freddie Bickford Smith, Tom Rainforth

cs.LG

本文提出了一种基于损失函数的贝叶斯主动学习方法，允许数据采集直接针对特定决策问题的损失进行优化。该方法通过推导损失函数对应的唯一数据采集目标，并在加权Bregman散度形式的损失下实现关键分量的解析计算，从而在回归和分类实验中有效降低了测试损失。

BayMOTH: Bayesian optiMizatiOn with meTa-lookahead -- a simple approacH

Rahman Ejaz et al.

cs.LG cs.AI

本文提出了一种名为BayMOTH的元贝叶斯优化算法, 它在统一的框架内, 根据任务相关性自适应地选择使用元学习信息或前瞻(lookahead)策略. 该方法在函数优化任务上展现了竞争力, 尤其在测试任务与元训练集结构相似度较低时仍能保持良好性能.

Sample Complexity of Autoregressive Reasoning: Chain-of-Thought vs. End-to-End

Steve Hanneke, Idan Mehalel, Shay Moran

cs.LG

本文研究了自回归推理的样本复杂度, 比较了仅提供最终输出的端到端监督与提供完整推理链的思维链监督. 研究发现, 端到端学习的样本复杂度与生成长度$T$的关系非常丰富, 几乎可以是常数到线性之间的任何增长率. 相比之下, 思维链监督下的样本复杂度与$T$无关, 表明访问中间推理步骤可以完全消除对生成长度的依赖.

UCS: Estimating Unseen Coverage for Improved In-Context Learning

Jiayi Xin et al.

cs.LG cs.CL

本文提出了一种名为UCS的训练无关方法, 用于改进in-context learning中的示例选择. 该方法通过估计候选示例集对潜在类簇的覆盖情况来优化选择, 实验表明其能有效提升多个任务上的性能.

TriFit: Trimodal Fusion with Protein Dynamics for Mutation Fitness Prediction

Seungik Cho

cs.LG q-bio.BM q-bio.QM

本文提出了一种名为TriFit的多模态框架, 用于预测单点氨基酸突变的功能影响. 该框架通过一个四专家的Mixture-of-Experts模块, 整合了来自蛋白质序列, 静态结构和动力学(如残基波动和相关性)的信息, 并在ProteinGym基准测试中取得了优于现有方法的性能.

VISTA: Validation-Informed Trajectory Adaptation via Self-Distillation

Eli Corn, Daphna Weinshall

cs.LG cs.AI

本文提出了一种名为VISTA的在线自蒸馏框架，旨在解决深度学习模型在训练过程中可能偏离最优轨迹的问题。该方法通过识别并集成历史模型状态来保留已掌握的知识，从而提升模型的鲁棒性和泛化能力。

Interpretable DNA Sequence Classification via Dynamic Feature Generation in Decision Trees

Nicolas Huynh et al.

cs.LG cs.AI q-bio.GN

本文提出了一种名为DEFT的新框架, 用于可解释的DNA序列分类. 该框架通过在决策树构建过程中动态生成高级序列特征, 结合大型语言模型来提出和迭代优化特征, 从而在保持可解释性的同时提升了模型性能.

Robust Optimization for Mitigating Reward Hacking with Correlated Proxies

Zixuan Liu, Xiaolin Sun, Zizhan Zheng

cs.LG

本文针对强化学习中因代理奖励与真实目标不完全一致而导致的奖励破解问题, 提出了一种鲁棒优化方法. 该方法通过在最坏情况下的相关代理奖励集合中进行策略优化, 提升了策略的鲁棒性, 并在实验中取得了优于现有方法的效果.

SOLARIS: Speculative Offloading of Latent-bAsed Representation for Inference Scaling

Zikun Liu et al.

cs.LG

本文提出了一种名为SOLARIS的框架, 用于解决推荐系统基础模型推理延迟过高的问题. 该方法通过预测性预计算用户-物品交互的embedding, 将高成本的基础模型推理与低延迟的服务路径解耦, 从而在Meta的广告系统中实现了可观的收益提升.

XANE(3): An E(3)-Equivariant Graph Neural Network for Accurate Prediction of XANES Spectra from Atomic Structures

Vitor F. Grizzi et al.

cs.LG cond-mat.mtrl-sci physics.chem-ph

本文提出了一种基于物理的E(3)-等变图神经网络XANE(3), 用于直接从原子结构预测X射线吸收近边结构(XANES)光谱. 模型结合了多种等变架构组件, 并通过包含导数匹配项的复合目标函数进行训练, 在铁氧化物数据集上取得了较低的预测误差.

Distinct mechanisms underlying in-context learning in transformers

Cole Gibson, Wenping Cui, Gautam Reddy

cs.LG cond-mat.dis-nn cond-mat.stat-mech

本文研究了transformer在离散Markov链数据集上进行in-context learning的机制。研究发现网络会形成不同的算法相，并通过多层子电路实现两种不同的上下文自适应计算机制。

PubSwap: Public-Data Off-Policy Coordination for Federated RLVR

Anupam Nayak et al.

cs.LG

本文提出了一种结合LoRA本地适应与基于公共数据的off-policy步骤的联邦RLVR框架, 旨在提升通信效率与跨客户端协调性. 该方法利用小型公共数据集在组织间交换训练信号, 在数学与医学推理基准上取得了优于基线方法的效果.

CycloneMAE: A Scalable Multi-Task Learning Model for Global Tropical Cyclone Probabilistic Forecasting

Renlong Hang et al.

cs.LG cs.AI

本文提出了一种用于全球热带气旋概率预测的可扩展多任务学习模型CycloneMAE. 该模型通过一个结构感知的masked autoencoder从多模态数据中学习可迁移表示, 并结合离散概率网格化机制, 能够同时提供确定性预测和概率分布.

Clustering-Enhanced Domain Adaptation for Cross-Domain Intrusion Detection in Industrial Control Systems

Luyao Wang

cs.LG cs.AI cs.CR

本文提出了一种用于工业控制系统入侵检测的聚类增强域适应方法. 该方法通过特征对齐和聚类策略来缓解数据稀缺和领域偏移问题, 实验表明其在未知攻击检测上具有较好的准确性和稳定性.

A Residual-Shell-Based Lower Bound for Ollivier-Ricci Curvature

Xiang Gu, Huichun Zhang, Jian Sun

cs.LG cs.DS

本文提出了一种基于残差壳(residual shell)的Ollivier-Ricci曲率(ORC)下界, 其计算效率远高于精确计算, 且比现有的一跳随机游走下界更紧致. 该方法也适用于$k$-跳($k>1$)随机游走, 在多种基础图结构上的实验验证了其有效性和计算效率.

LLM-Enhanced Log Anomaly Detection: A Comprehensive Benchmark of Large Language Models for Automated System Diagnostics

Disha Patel

cs.LG cs.SE

本文对基于LLM的日志异常检测方法进行了全面的基准测试, 与传统方法和微调Transformer模型进行了比较. 研究发现, 基于提示的LLM在零样本设置下展现出有竞争力的性能, 而微调模型在F1分数上表现最佳, 为实际应用中的方法选择提供了参考.

MolMem: Memory-Augmented Agentic Reinforcement Learning for Sample-Efficient Molecular Optimization

Ziqing Wang et al.

cs.LG cs.AI cs.CL

本文提出了一个名为MolMem的强化学习框架, 用于解决分子优化任务中的样本效率挑战. 该方法通过引入双记忆系统来存储和重用先验知识, 从而在有限的oracle调用预算下实现更好的性能.

Socrates Loss: Unifying Confidence Calibration and Classification by Leveraging the Unknown

Sandra Gómez-Gálvez et al.

cs.LG cs.AI cs.CV cs.NE

本文提出了一种名为Socrates Loss的新型统一损失函数，通过引入一个辅助的未知类别来显式地利用不确定性，旨在同时优化分类和置信度校准。该方法在多个基准数据集和架构上进行了实验，证明了其在改善训练稳定性和平衡准确率-校准权衡方面的有效性。

Decentralized Learning via Random Walk with Jumps

Zonghong Liu, Matthew Dwyer, Salim El Rouayheb

cs.LG cs.DC eess.SP

本文提出了一种改进的随机游走算法用于去中心化学习, 通过引入长距离跳跃来缓解传统Metropolis-Hastings方法可能导致的"困陷"问题. 实验表明该方法能有效提升收敛速度.

RoleMAG: Learning Neighbor Roles in Multimodal Graphs

Yilong Zuo et al.

cs.LG

本文提出了RoleMAG框架，用于在多模态属性图(MAGs)中学习邻居节点的角色。该方法通过区分邻居提供共享、互补或异质信号的角色，并设计独立的传播通道来处理它们，从而在多模态图基准测试中取得了有竞争力的结果。

SubFlow: Sub-mode Conditioned Flow Matching for Diverse One-Step Generation

Yexiong Lin et al.

cs.LG cs.CV

本文针对 one-step flow matching 模型在生成多样性上的不足, 提出了 SubFlow 方法. 该方法通过语义聚类将类别分解为子模式, 并基于子模式索引来条件化 flow, 从而避免了平均失真, 提升了生成样本的多样性.

Models Know Their Shortcuts: Deployment-Time Shortcut Mitigation

Jiayi Li et al.

cs.LG

本文提出了一种在模型部署阶段缓解shortcut learning的方法, 称为Shortcut Guardrail. 该方法无需原始训练数据或shortcut标注, 通过gradient-based attribution识别shortcut tokens, 并利用Masked Contrastive Learning训练一个轻量的LoRA模块来消除模型对它们的依赖.

Labeled TrustSet Guided: Batch Active Learning with Reinforcement Learning

Guofeng Cui et al.

cs.LG

本文提出了一种名为TrustSet的方法, 用于从已标注数据集中选择最具信息量的样本, 以优化模型性能并缓解长尾分布问题. 进一步地, 作者结合强化学习, 提出了BRAL-T框架, 用于从未标注池中进行批量主动学习采样, 并在多个图像分类基准上取得了先进的结果.

Beyond Weather Correlation: A Comparative Study of Static and Temporal Neural Architectures for Fine-Grained Residential Energy Consumption Forecasting in Melbourne, Australia

Prasad Nimantha Madusanka Ukwatta Hewage, Hao Wu

cs.LG eess.SY

本文比较了用于澳大利亚墨尔本家庭细粒度(5分钟)能耗预测的静态MLP与时间序列LSTM模型。研究发现，在5分钟分辨率下，消费序列的时间自相关性远比静态气象特征重要，LSTM模型性能显著优于MLP。对于集成光伏的家庭，天气信息通过隐含的太阳能预测对模型有一定贡献。

GCA Framework: A Gulf-Grounded Dataset and Agentic Pipeline for Climate Decision Support

Muhammad Umer Sheikh et al.

cs.LG cs.AI

本文提出了一个面向海湾地区气候决策支持的GCA框架, 包含一个多模态数据集和一个工具增强的智能体. 该框架通过领域微调和工具集成, 提升了大型语言模型在区域气候任务上的可靠性.

Black-Box Optimization From Small Offline Datasets via Meta Learning with Synthetic Tasks

Azza Fadhel et al.

cs.LG cs.AI

本文提出了一种名为OptBias的元学习框架，用于解决离线黑盒优化中的数据稀缺问题。该方法通过从高斯过程中生成合成任务来学习可重用的优化偏差，并在小规模目标数据上进行微调，在多个基准测试中优于现有方法。

Identifying and Mitigating Gender Cues in Academic Recommendation Letters: An Interpretability Case Study

Charlotte S. Alexander et al.

cs.LG cs.CY

本文研究了学术推荐信(LoRs)中隐含的性别线索问题. 通过使用Transformer编码器模型和大型语言模型(LLMs)对匿名化处理后的推荐信进行性别分类, 发现即使移除显式标识符, 模型仍能通过特定语言模式(如"emotional", "humanitarian")以高于随机水平的准确率推断申请人性别. 作者尝试移除这些线索以创建性别中立的推荐信, 但分类器性能下降有限, 表明彻底消除性别偏见具有挑战性. 这项工作强调了在推荐信审查中进行上游内容审计的必要性.

PrivEraserVerify: Efficient, Private, and Verifiable Federated Unlearning

Parthaw Goswami, Md Khairul Islam, Ashfak Yeafi

cs.LG

本文提出了一个名为PrivEraserVerify的统一框架, 旨在同时解决联邦学习中数据遗忘任务在效率、隐私和可验证性方面的挑战. 该框架通过自适应检查点、分层差分隐私校准和指纹验证等技术, 在多个数据集上展示了比重新训练更快的遗忘速度, 并提供了隐私保证.

Scaffold-Conditioned Preference Triplets for Controllable Molecular Optimization with Large Language Models

Yi Xiong et al.

cs.LG cs.AI

本文提出了一种名为Scaffold-Conditioned Preference Triplets (SCPT)的流程，用于基于大型语言模型的可控分子优化。该方法通过构建偏好三元组数据来对齐预训练模型，使其能够在保持分子骨架的同时优化目标属性。

Is Sliding Window All You Need? An Open Framework for Long-Sequence Recommendation

Sayak Chakrabarty, Souradip Pal

cs.LG cs.IR

本文提出了一个用于长序列推荐的开源框架, 实现了基于滑动窗口的工业风格训练流程. 该框架包含数据处理、训练和评估脚本, 并通过引入一种新的 k-shift embedding layer 来支持在消费级 GPU 上处理百万级词汇表, 同时报告了训练时间成本, 旨在使长序列训练技术对社区更实用和可扩展.

Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

NVIDIA et al.

cs.LG cs.AI cs.CL

本文介绍了Nemotron 3 Super模型，这是一个1200亿参数（激活120亿）的混合Mamba-Attention专家混合模型。该模型在多项基准测试中取得了可比的精度，并在推理吞吐量上相比其他大型模型有显著提升。

Forecasting the Past: Gradient-Based Distribution Shift Detection in Trajectory Prediction

Michele De Vita, Julian Wiederer, Vasileios Belagiannis

cs.LG

本文提出了一种自监督的梯度分布偏移检测方法, 用于轨迹预测模型. 该方法通过训练一个解码器来预测轨迹的后半段, 并利用预测损失梯度的L2范数作为分布偏移的检测分数, 在多个数据集上验证了其有效性.

Do Transformers Use their Depth Adaptively? Evidence from a Relational Reasoning Task

Alicia Curth et al.

cs.LG cs.CL

本文通过一个基于家族故事的多跳关系推理任务, 研究了Transformer模型是否根据任务难度自适应地使用其深度. 作者使用early readouts (logit lens) 和 causal patching 技术, 分析了预训练模型和微调模型在不同难度任务上的层间预测演变和跨token信息整合情况. 研究发现, 预训练模型表现出有限的自适应深度使用迹象, 而微调模型则展现出更清晰、更一致的自适应行为.

Analyzing the Effect of Noise in LLM Fine-tuning

Lingfang Li, Procheta Sen

cs.LG

本文通过引入标签噪声、语法噪声和拼写噪声等受控扰动，系统研究了噪声在LLM微调过程中对模型内部学习动态的影响。实验表明，标签噪声导致的性能下降最显著，而语法和拼写噪声有时能带来轻微的 regularization 效果。

Adaptive Budget Allocation in LLM-Augmented Surveys

Zikun Ye, Jiameng Lyu, Rui Tao

cs.LG stat.ML

本文提出了一种在LLM增强调查中自适应分配人工标注预算的算法. 该算法在收集人类响应的同时, 实时学习LLM在不同问题上的可靠性, 并将更多预算分配给LLM预测最不可靠的问题. 在真实调查数据上的实验表明, 该算法相比均匀分配能更有效地利用预算.

Safety Training Modulates Harmful Misalignment Under On-Policy RL, But Direction Depends on Environment Design

Leon Eshuijs, Shihan Wang, Antske Fokkens

cs.LG cs.CR

本文研究了在on-policy RL训练下，LLMs产生有害错位行为的条件。研究发现模型大小和环境设计特征（如角色设定）共同决定了安全性的变化方向，并且on-policy RL相比off-policy能保留模型内在的安全缓冲。

Instantiating Bayesian CVaR lower bounds in Interactive Decision Making Problems

Raghav Bongole, Tobias J. Oechtering, Mikael Skoglund

cs.LG cs.IT

本文展示了如何将广义Fano框架具体应用于交互式统计决策问题, 以推导出显式的贝叶斯CVaR下界. 该方法通过平方Hellinger距离比较困难模型与参考模型, 并将参考"铰链项"的下界与两模型的可区分性上界相结合. 作者将此方法应用于高斯bandit等典型示例, 得到了明确显示关键参数依赖关系的下界.

Orthogonal Subspace Projection for Continual Machine Unlearning via SVD-Based LoRA

Yogachandran Rahulamathavan et al.

cs.LG cs.AI

本文提出了一种基于SVD和正交子空间投影的静态方法，用于持续机器学习遗忘任务。该方法通过约束新的LoRA更新位于先前任务子空间的正交补中，从而在训练中实现任务隔离，避免了部署时的动态路由需求。

EEG-Based Multimodal Learning via Hyperbolic Mixture-of-Curvature Experts

Runhe Zhou et al.

cs.LG

本文提出了一种用于多模态脑电信号学习的新型双曲空间混合专家框架EEG-MoCE. 该框架为每个模态分配一个在可学习曲率双曲空间中的专家, 并通过曲率感知融合策略动态整合信息, 在多个基准任务上取得了先进的性能.

KumoRFM-2: Scaling Foundation Models for Relational Learning

Valter Hudovernik et al.

cs.LG cs.AI

本文介绍了用于关系数据预训练的基础模型KumoRFM-2。该模型原生支持多表关系数据，无需手动扁平化处理，并通过在四个维度上进行预训练，在多项基准测试中展现出优于监督方法的性能。

SOAR: Self-Correction for Optimal Alignment and Refinement in Diffusion Models

You Qin et al.

cs.LG cs.AI

本文提出了一种名为SOAR的后训练方法, 用于解决扩散模型在监督微调(SFT)后存在的曝光偏差问题. 该方法通过单步停止梯度展开和重加噪过程, 为模型提供密集的每步监督, 无需奖励模型即可提升生成质量.

Calibration-Aware Policy Optimization for Reasoning LLMs

Ziqi Wang et al.

cs.LG cs.AI

本文提出了一种名为Calibration-Aware Policy Optimization (CAPO)的新方法，用于改善大型语言模型(LLM)在推理任务中的校准性能。该方法通过引入一个理论上有保证的代理损失函数和噪声掩蔽机制，在保持或提升推理准确率的同时，显著改善了模型的置信度校准。

TimeSAF: Towards LLM-Guided Semantic Asynchronous Fusion for Time Series Forecasting

Fan Zhang, Shiming Fan, Hua Wang

cs.LG cs.AI

本文提出了一种名为TimeSAF的用于时间序列预测的新框架, 旨在解决现有LLM引导方法中存在的语义感知失调问题. 该方法通过分层异步融合机制, 将单模态特征学习与跨模态交互解耦, 从而更有效地利用高级语义先验来指导预测.

Robust Semi-Supervised Temporal Intrusion Detection for Adversarial Cloud Networks

Anasuya Chattopadhyay, Daniel Reti, Hans D. Schotten

cs.LG cs.CR

本文提出了一种用于云网络入侵检测的鲁棒半监督时序学习框架. 该框架结合了监督学习、一致性正则化和置信度感知伪标签等方法, 旨在处理未标记流量中的对抗性污染和时序漂移问题.

Do VLMs Truly "Read" Candlesticks? A Multi-Scale Benchmark for Visual Stock Price Forecasting

Kaiqi Hu et al.

cs.LG cs.CL

本文构建了一个多尺度K线图数据集和评估框架, 用于系统评估视觉语言模型(VLMs)在股票价格预测任务中理解和利用多尺度视觉市场信号的能力. 实验表明, 现有VLMs在常见市场场景下的预测能力有限, 并存在明显的预测偏差和对时间推理的敏感性不足.

From Imitation to Discrimination: Progressive Curriculum Learning for Robust Web Navigation

Chuang Peng et al.

cs.LG cs.CL cs.HC

本文提出了Triton数据集和渐进式课程学习方法来提升基于文本的Web智能体的鲁棒性. 该方法通过构建包含困难负样本的数据集和分阶段训练模型, 在Web导航任务上取得了优于大型语言模型的性能.

BID-LoRA: A Parameter-Efficient Framework for Continual Learning and Unlearning

Jagadeesh Rachapudi et al.

cs.LG cs.AI

本文提出了一个名为BID-LoRA的参数高效框架，用于统一处理持续学习和机器遗忘任务。该方法通过设计专门的适配器路径和一种“逃逸遗忘”机制，旨在减少知识泄露并高效管理模型知识。

Information-Theoretic Optimization for Task-Adapted Compressed Sensing Magnetic Resonance Imaging

Xinyu Peng et al.

cs.LG cs.AI cs.CV

本文提出了一种基于信息论的 task-adapted compressed sensing MRI 框架。该框架通过最大化欠采样 k-space 测量与临床任务之间的互信息，实现了概率推断以应对不确定性，并能通过单一模型适应不同的采样率。

LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety

Junxiao Yang et al.

cs.LG cs.AI cs.CL

本文提出了一种名为LASA的方法, 通过在大语言模型(LLM)的语义瓶颈层进行安全对齐, 以解决模型在低资源语言上安全性能显著下降的问题. 实验表明该方法能有效提升多语言场景下的安全性.

Monte Carlo Stochastic Depth for Uncertainty Estimation in Deep Learning

Adam T. Müller, Tobias Rögelein, Nicolaj C. Stache

cs.LG stat.ML

本文提出了一种名为Monte Carlo Stochastic Depth (MCSD)的方法，用于深度学习中的不确定性估计。该方法将Stochastic Depth正则化器重新用于近似贝叶斯推断，并在目标检测任务上进行了实证评估。

Stress Detection Using Wearable Physiological and Sociometric Sensors

Oscar Martinez Mozos et al.

cs.LG eess.SP

本文结合可穿戴生理传感器和社交计量传感器, 使用SVM, AdaBoost, k-NN等分类器进行压力检测. 实验表明, 在受控的Trier社会压力测试中, 融合多模态数据能有效区分压力与中性状态, 并评估了各传感器模态的判别能力.

GF-Score: Certified Class-Conditional Robustness Evaluation with Fairness Guarantees

Arya Shah, Kaveri Visavadiya, Manisha Padala

cs.LG cs.AI

本文提出了一个名为GF-Score的框架，用于评估神经网络在对抗性攻击下的认证鲁棒性，并特别关注不同类别之间的公平性。该框架将整体鲁棒性分数分解为每个类别的鲁棒性剖面，并引入了基于福利经济学的指标来量化类别间的鲁棒性差异。通过一个自校准过程，该方法摆脱了对对抗性攻击的依赖，仅使用干净样本的准确率进行参数调整。在CIFAR-10和ImageNet数据集上的实验表明，该方法能有效揭示模型在不同类别上的鲁棒性差异模式。

Rethinking the Personalized Relaxed Initialization in the Federated Learning: Consistency and Generalization

Li Shen, Yan Sun, Dacheng Tao

cs.LG

本文提出了一种名为FedInit的联邦学习算法, 通过在每个本地训练阶段开始时采用个性化的松弛初始化状态来缓解"客户端漂移"问题. 理论分析表明, 本地不一致性主要影响泛化误差界, 实验验证了该方法的有效性且无需额外成本.

OSC: Hardware Efficient W4A4 Quantization via Outlier Separation in Channel Dimension

Zhiyuan Zhang et al.

cs.LG cs.AI

本文提出了一种名为OSC的硬件高效量化框架, 用于解决大语言模型4-bit量化中激活值异常值(activation outliers)导致的精度下降问题. 该方法通过离线识别并在线重组异常值所在的通道(channels), 将其分离到高精度分支进行计算, 从而在保持硬件效率的同时提升了量化模型的精度.

VFA: Relieving Vector Operations in Flash Attention with Global Maximum Pre-computation

Yupeng Sun et al.

cs.LG cs.AI

本文提出了一种名为VFA的硬件友好方法, 旨在缓解FlashAttention中在线softmax操作的非矩阵乘法部分(如行最大值规约和重缩放链)带来的向量/SIMD瓶颈. 该方法通过预计算键块的全局最大值近似来初始化运行最大值, 并重新排序块遍历以优先处理高影响力块, 从而减少规约和重缩放开销. 实验表明, VFA及其稀疏版本VSA能在不损失性能的情况下有效缓解瓶颈, 在现代硬件上实现显著加速.

Interpretable Relational Inference with LLM-Guided Symbolic Dynamics Modeling

Xiaoxiao Liang et al.

cs.LG

本文提出了一个名为COSINE的可微分框架, 用于从观测到的动力学数据中联合推断潜在的相互作用图(interaction graph)和稀疏的符号动力学(symbolic dynamics)方程. 该框架引入了一个外部的大语言模型(LLM)循环, 以自适应地修剪和扩展符号假设空间, 从而克服了传统符号回归方法中固定函数库的限制.

Algorithmic Analysis of Dense Associative Memory: Finite-Size Guarantees and Adversarial Robustness

Madhava Gaikwad

cs.LG cs.AI cs.NE

本文对Dense Associative Memory (DAM) 的检索动态进行了算法分析，提供了有限规模下的收敛保证和对抗鲁棒性界限。研究在明确的模式分离条件下，证明了异步更新的几何收敛性，并给出了存储容量的最坏情况标度。

Understanding and Improving Continuous Adversarial Training for LLMs via In-context Learning Theory

Shaopeng Fu, Di Wang

cs.LG cs.CR stat.ML

本文从 in-context learning 的理论视角分析了针对大语言模型的连续对抗训练。研究证明了在嵌入空间进行扰动可以提升模型对 jailbreak 攻击的鲁棒性，并基于嵌入矩阵的奇异值提出了改进的优化目标。

Loop Corrections to the Training and Generalization Errors of Random Feature Models

Taeyoung Kim

cs.LG cs.AI stat.ML

本文研究了 random feature models 的训练与泛化误差, 超越了 mean-kernel approximation. 通过采用统计物理的视角和 effective field-theoretic framework, 作者推导了有限宽度贡献(表现为 loop corrections)对误差的影响, 并得到了其 scaling laws.

TCL: Enabling Fast and Efficient Cross-Hardware Tensor Program Optimization via Continual Learning

Chaoyao Shen et al.

cs.LG cs.AR

本文提出了一个名为TCL的深度学习编译器框架, 旨在实现跨硬件平台快速高效的张量程序优化. 它通过结合数据高效的主动采样, 基于Mamba的轻量级代价模型以及持续知识蒸馏技术, 显著减少了调优时间并提升了生成代码的性能.

Adaptive Data Dropout: Towards Self-Regulated Learning in Deep Neural Networks

Amar Gahir, Varshil Patel, Shreyank N Gowda

cs.LG cs.CV

本文提出了一种名为Adaptive Data Dropout的动态数据选择框架，用于深度神经网络的训练。该方法根据训练过程中的性能反馈在线调整数据子集，旨在平衡探索与巩固，从而在保持精度的同时提高训练效率。

Parcae: Scaling Laws For Stable Looped Language Models

Hayden Prairie et al.

cs.LG

本文提出了一种名为Parcae的稳定循环语言模型架构, 通过将循环过程建模为非线性时变动力系统并约束注入参数(如权重矩阵)的谱范数(spectral norm)来克服训练不稳定性. 该架构在固定参数和数据预算下, 相比传统Transformer基线取得了更好的困惑度(perplexity)和下游任务性能, 并探索了通过循环增加训练和推理时计算量(FLOPs)的缩放规律.

The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime

Jason Z Wang

cs.LG

本文探讨了在AI模型错误率$\epsilon$较低时, 校准误差估计的根本性极限. 作者证明了极小极大估计率为$\Theta((L\epsilon/m)^{1/3})$, 并指出随着模型性能提升($\epsilon$减小), 验证其校准性会变得指数级困难. 研究通过多个基准测试和LLM实验验证了理论结果, 表明许多现有评估实践中的显著性结论可能处于统计噪声之下.

An Optimal Sauer Lemma Over $k$-ary Alphabets

Steve Hanneke et al.

cs.LG math.CO stat.ML

本文针对$k$元字母表上的函数类, 建立了关于list-DS维度的最优Sauer型不等式, 改进了基于Natarajan维度的已知界. 该结果提升了list PAC学习和一致收敛的样本复杂度上界.

Evolution of Optimization Methods: Algorithms, Scenarios, and Evaluations

Tong Zhang et al.

cs.LG cs.CV

本文回顾了深度学习优化算法的发展历程, 并对主流优化器在不同模型架构和训练场景下进行了全面的实证评估. 文章总结了关键趋势和设计权衡, 为设计下一代高效、鲁棒且可信赖的优化方法提供了指导.

Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation

Yecheng Wu, Song Han, Hai Cai

cs.LG cs.AI

本文提出了一种离线策略蒸馏框架 Lightning OPD, 用于提升大型推理模型的训练效率. 该方法通过预先计算教师模型的输出, 避免了在线蒸馏对实时教师推理服务器的依赖, 从而显著降低了计算开销.

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Yaxuan Li et al.

cs.LG cs.AI cs.CL

本文系统研究了大型语言模型在策略蒸馏的训练动态与机制. 作者识别了决定蒸馏成功与否的两个关键条件, 并提出了两种实用的策略来恢复失败的蒸馏过程.

CLAD: Efficient Log Anomaly Detection Directly on Compressed Representations

Benzhao Tang, Shiyu Yang

cs.LG cs.DB

本文提出了一种直接在压缩字节流上进行日志异常检测的深度学习框架CLAD. 它通过定制的神经网络架构和两阶段训练策略, 在多个数据集上实现了最先进的性能, 同时完全避免了数据解压和解析的开销.

cs.AI

The Non-Optimality of Scientific Knowledge: Path Dependence, Lock-In, and The Local Minimum Trap

Mohamed Mabrok

cs.AI cs.CY math.OC

本文探讨了科学知识的发展轨迹, 将其类比为机器学习中的优化过程, 认为当前的科学知识体系可能处于一个局部最优而非全局最优状态. 作者通过多个学科的案例研究, 分析了认知、形式化和制度性锁定机制, 并讨论了其认识论意义.

Self-Monitoring Benefits from Structural Integration: Lessons from Metacognition in Continuous-Time Multi-Timescale Agents

Ying Xie

cs.AI

本文研究了在连续时间多时间尺度智能体中，自监控模块（如元认知）作为辅助损失添加时是否带来益处。实验表明，简单的附加模块并未带来显著性能提升，而将模块输出结构性地整合到决策路径中则能产生一定改进，但最终效果与无自监控基线相当。

GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses

Jimin Mun et al.

cs.AI cs.CL

本文提出了一种利用作者回复来训练大语言模型生成有效且可操作的论文反馈的方法. 该方法通过微调和偏好优化, 提升了模型反馈的质量和实用性.

Narrative-Driven Paper-to-Slide Generation via ArcDeck

Tarik Can Ozden et al.

cs.AI

本文提出了一个名为ArcDeck的多智能体框架，用于将学术论文自动转换为演示幻灯片。该方法通过构建话语树和全局承诺文档来建模论文的逻辑流程，并利用专门的智能体进行迭代式大纲修订与视觉设计。实验在一个新的基准测试ArcBench上表明，该方法能有效提升生成演示文稿的叙事流畅性与逻辑连贯性。

The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Xinyu Jessica Wang et al.

cs.AI

本文提出了一个名为HORIZON的跨领域诊断基准，用于系统性地构建任务和分析基于LLM的智能体在长视野任务中的失败行为。研究评估了多个先进智能体，并提出了一个基于轨迹的LLM-as-a-Judge流程来进行可扩展的失败归因。

When to Forget: A Memory Governance Primitive

Baris Simsek

cs.AI

本文提出了一个名为 Memory Worth (MW) 的轻量级度量，用于评估和管理智能体记忆系统中的记忆质量。该方法通过跟踪记忆与任务成功/失败结果的共现频率，为记忆的淘汰决策提供了理论依据和实证验证。

Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space

Vladimir Vasilenko

cs.AI cs.LG

本文通过实验探究了在LLM的activation space中，agent identity document是否表现出类似attractor的几何特性。实验结果表明，语义相关的prompt会收敛到更紧密的簇中，这为agent identity的持续性提供了表示层面的证据。

A longitudinal health agent framework

Georgianna et al.

cs.AI cs.HC

本文提出了一个用于设计长期健康AI agent的多层框架与架构, 旨在实现跨多次交互的适应性、连贯性与持续性. 通过代表性用例, 展示了该框架如何支持长期、个性化的健康决策与互动.

WiseOWL: A Methodology for Evaluating Ontological Descriptiveness and Semantic Correctness for Ontology Reuse and Ontology Recommendations

Aryan Singh Dalal et al.

cs.AI

本文提出了一种名为WiseOWL的方法论, 用于评估本体的描述性和语义正确性, 以辅助本体复用和推荐. 该方法通过四个度量指标(Well-Described, Well-Defined, Connection, Hierarchical Breadth)进行评分并提供反馈, 并已实现为一个交互式应用.

Memory as Metabolism: A Design for Companion Knowledge Systems

Stefan Miteski

cs.AI

本文针对基于LLM的个人知识wiki系统，提出了一种伴侣式的治理框架，旨在管理用户耦合漂移下的固化风险。它定义了一套规范义务、时间结构化的程序规则以及可测试的符合性不变量，其核心设计原则是将个人记忆系统视为需要镜像用户操作维度并补偿其认知失败的伴侣。

Mathematics Teachers Interactions with a Multi-Agent System for Personalized Problem Generation

Candace Walkington et al.

cs.AI cs.CY

本文探讨了一个多智能体系统在中学数学个性化习题生成中的应用, 教师通过该系统生成题目并由AI智能体评估. 研究发现教师和学生倾向于修改题目中的现实情境细节, 而系统在可读性和数学准确性方面的问题相对较少.

Human-Inspired Context-Selective Multimodal Memory for Social Robots

Hangyeol Kang, Slava Voloshynovskiy, Nadia Magnenat Thalmann

cs.AI

本文提出了一种受人类认知启发的、上下文选择性的多模态记忆架构, 用于增强社交机器人的个性化交互能力. 该系统通过选择性存储具有高情感显著性或场景新颖性的多模态(文本与视觉)事件痕迹, 并在检索时进行融合, 从而在实验中实现了优于单模态检索的性能和实时运行效率.

LLM-HYPER: Generative CTR Modeling for Cold-Start Ad Personalization via LLM-Based Hypernetworks

Luyi Ma et al.

cs.AI

本文提出LLM-HYPER框架，利用大型语言模型作为超网络，根据广告的多模态内容直接生成CTR预测器的参数，以解决新广告的冷启动问题。该方法通过提示工程和归一化校准技术，在离线实验和在线A/B测试中均取得了良好效果。

Spatial Atlas: Compute-Grounded Reasoning for Spatial-Aware Research Agent Benchmarks

Arun Sharma

cs.AI cs.CV cs.LG

本文提出了一种名为"compute-grounded reasoning (CGR)"的设计范式, 用于构建空间感知的研究智能体. 该范式通过一个名为Spatial Atlas的系统, 在语言模型生成答案前, 使用确定性的计算来解决所有可回答的子问题, 并在两个基准测试上进行了评估.

The A-R Behavioral Space: Execution-Level Profiling of Tool-Using Language Model Agents in Organizational Deployment

Shasha Yu, Fiona Carroll, Barry L. Bentley

cs.AI cs.SE

本文提出了一种基于Action Rate和Refusal Signal二维A-R空间的行为测量方法, 用于分析在不同自主性配置和规范情境下, 工具增强型LLM代理的执行层行为. 该方法关注行为分布而非总体安全评分, 为组织部署中的代理选择提供了分析视角.

Long-Horizon Plan Execution in Large Tool Spaces through Entropy-Guided Branching

Rongzhe Wei et al.

cs.AI cs.CL

本文提出了一个用于评估工具集成智能体的大规模基准 SLATE, 并针对其在长视野规划中的搜索效率问题, 提出了一种基于熵引导分支的不确定性感知搜索算法 EGB. 实验表明该方法能有效提升任务成功率和计算效率.

Aethon: A Reference-Based Replication Primitive for Constant-Time Instantiation of Stateful AI Agents

Swanand Rao et al.

cs.AI cs.AR cs.DC cs.MA

本文提出了一种名为Aethon的基于引用的复制原语，旨在实现状态化AI智能体的近恒定时间实例化。该系统通过将实例表示为对稳定定义、分层内存和本地上下文覆盖的组合视图，而非完全物化的对象，从而降低了创建开销。

Towards Platonic Representation for Table Reasoning: A Foundation for Permutation-Invariant Retrieval

Willy Carlos Tchuitcheu, Tan Lu, Ann Dooms

cs.AI

本文对表格表示学习中的序列化偏见进行了批判性分析, 并提出了衡量表示对表格布局排列敏感性的形式化框架. 作者还设计了一种新的编码器架构, 旨在实现更稳定的、排列不变的表格表示.

Beyond Factual Grounding: The Case for Opinion-Aware Retrieval-Augmented Generation

Aditya Agrawal et al.

cs.AI cs.CL cs.IR

本文指出了当前RAG系统在检索主观性内容时存在的偏见, 并提出了一种Opinion-Aware RAG架构. 通过在电商论坛数据上的实验, 该架构在检索多样性方面取得了显著提升.

Development, Evaluation, and Deployment of a Multi-Agent System for Thoracic Tumor Board

Tim Ellis-Caleo et al.

cs.AI

本文开发并评估了一个用于生成胸科肿瘤多学科会诊患者摘要的自动化AI系统. 该系统通过比较医生编写的标准摘要和基于事实的评分标准来评估不同方法, 并最终部署了自动化工具.

EMBER: Autonomous Cognitive Behaviour from Learned Spiking Neural Network Dynamics in a Hybrid LLM Architecture

William Savage

cs.AI cs.NE

本文提出了一种名为EMBER的混合认知架构, 将LLM作为可替换的推理引擎嵌入到一个基于生物启发的、具有持续性的联想基底中. 该架构的核心是一个具有STDP等机制的SNN, 能够自主触发和塑造LLM的行为, 并在实验中展示了从零开始学习后自主发起交互的能力.

Evaluating Relational Reasoning in LLMs with REL

Lukas Fesser et al.

cs.AI

本文提出了一个名为REL的生成式基准框架, 用于评估大语言模型在关系推理(relational reasoning)上的能力. 该框架基于关系复杂度(Relational Complexity, RC)的概念, 通过控制需要同时绑定的独立实体数量来系统地改变任务难度, 并在代数, 化学和生物学领域进行了测试. 实验发现, 前沿大语言模型的性能随着关系复杂度的增加而单调下降, 这表明模型在处理高元关系绑定(high-arity relational binding)方面存在固有局限.

Policy-Invisible Violations in LLM-Based Agents

Jie Wu, Ming Gong

cs.AI cs.CL cs.CR cs.LG

本文研究了基于LLM的智能体在执行任务时可能违反组织策略的一种新模式, 即"策略不可见违规". 作者提出了一个名为PhantomPolicy的基准测试和一个基于反事实图模拟的强制执行框架Sentinel.

TRUST Agents: A Collaborative Multi-Agent Framework for Fake News Detection, Explainable Verification, and Logic-Aware Claim Reasoning

Gautama Shastry Bulusu Venkata et al.

cs.AI

本文提出了一个名为TRUST Agents的多智能体协作框架, 用于可解释的事实核查与假新闻检测. 该框架通过多个专门化的智能体(如提取, 检索, 验证, 解释)来处理声明, 并引入扩展组件以处理更复杂的逻辑声明. 在LIAR基准上的评估表明, 尽管在原始指标上不及监督编码器, 但该系统在可解释性和对复合声明的推理方面有所提升.

Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities

Xu Zhang et al.

cs.AI

本文提出了一个基于认知诊断的框架, 用于对大语言模型进行细粒度能力评估. 该框架利用多维项目反应理论, 通过构建项目-能力关联矩阵来估计模型在多个维度上的能力水平, 并在数学等多个科学领域进行了验证.

Latent patterns of urban mixing in mobility analysis across five global cities

Z. Fan et al.

cs.AI cs.SI

本文利用大规模出行调查数据，分析了波士顿、芝加哥、香港、伦敦和圣保罗五个城市的社会混合模式。研究发现，活动空间的结构比社会经济特征更能解释个体经历的社会混合差异，并且不同收入群体的活动空间仍存在分层。

Beyond Prompt: Fine-grained Simulation of Cognitively Impaired Standardized Patients via Stochastic Steering

Weikang Zhang et al.

cs.AI cs.CL

本文提出了一种名为StsPatient的方法, 用于对认知障碍标准化病人进行细粒度模拟. 该方法通过从指令-响应对中提取steering vectors来捕获领域特定特征, 并引入Stochastic Token Modulation机制来调控干预概率, 从而实现对障碍严重程度的精确控制.

Modality-Native Routing in Agent-to-Agent Networks: A Multimodal A2A Protocol Extension

Vasundra Srinivasan

cs.AI

本文提出了一种名为MMA2A的多模态A2A协议扩展，旨在通过模态原生路由来提升多智能体网络中的任务准确性。实验表明，该方法在特定视觉任务上能显著提升性能，但同时也带来了延迟开销。

Designing Reliable LLM-Assisted Rubric Scoring for Constructed Responses: Evidence from Physics Exams

Xiuxiu Tang, G. Alex Ambrose, Ying Cheng

cs.AI cs.CL

本文研究了使用GPT-4o对物理考试中的手写建构式回答进行AI辅助评分的可靠性。研究发现，评分可靠性主要依赖于清晰、结构化的评分标准，而提示格式和模型温度设置的影响相对有限。

HintMR: Eliciting Stronger Mathematical Reasoning in Small Language Models

Jawad Hossain et al.

cs.AI cs.CL

本文提出了一种通过提示辅助推理框架来增强小型语言模型数学推理能力的方法. 该方法通过分解推理步骤并提供上下文感知的提示来引导模型, 实验表明其能有效提升多个数学基准上的准确性.

How memory can affect collective and cooperative behaviors in an LLM-Based Social Particle Swarm

Taisei Hishiki, Takaya Arita, Reiji Suzuki

cs.AI cs.CL cs.GT cs.MA

本文通过将 Social Particle Swarm (SPS) 模型中的规则智能体替换为具有不同记忆长度和 Big Five 人格评分的 LLM 智能体，研究了记忆对多智能体系统中集体与合作行为的影响。实验发现，不同 LLM (Gemini 与 Gemma) 中记忆长度对合作行为的影响截然相反，这种差异与智能体推理文本的情感分析结果相关，表明 LLM 的模型特定特性（如内部对齐）对生成式基于智能体的建模中的涌现社会行为具有根本性影响。

A Scoping Review of Large Language Model-Based Pedagogical Agents

Shan Li, Juan Zheng

cs.AI

本文对基于大语言模型(LLM)的教学代理(agent)进行了范围综述。文章分析了相关研究的设计维度、应用趋势，并指出了当前的研究空白与伦理考量。

GAM: Hierarchical Graph-based Agentic Memory for LLM Agents

Zhaofen Wu et al.

cs.AI

本文提出了一种基于层次化图结构的智能体记忆框架GAM, 用于解决LLM智能体在长期交互中快速感知与稳定记忆之间的矛盾. 该方法通过解耦记忆编码与巩固过程, 并在对话流图和主题关联网络中进行分层管理, 实验表明其在多个基准测试上优于现有方法.

Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization

Yizhe Chi et al.

cs.AI cs.CL

本文提出了一个名为Frontier-Eng的基准测试，用于评估AI智能体在真实世界工程任务中的生成优化能力。该基准包含多个工程领域的任务，并使用工业级模拟器提供连续反馈和可行性约束。

MultiDocFusion: Hierarchical and Multimodal Chunking Pipeline for Enhanced RAG on Long Industrial Documents

Joongmin Shin et al.

cs.AI cs.CL

本文提出了一种用于处理长工业文档的多模态分块流程 MultiDocFusion. 该方法通过结合视觉文档解析, OCR, 基于LLM的文档结构解析和基于DFS的分组, 显式利用文档的层次结构, 在工业基准测试中提升了检索和问答的性能.

ReflectCAP: Detailed Image Captioning with Reflective Memory

Kyungmin Min et al.

cs.AI cs.CV

本文提出了一种名为ReflectCAP的多智能体方法, 用于提升详细图像描述(Detailed Image Captioning)的事实准确性与细节覆盖度. 该方法通过分析大型视觉语言模型(LVLM)的幻觉与遗漏模式, 生成可复用的结构化反思笔记(Structured Reflection Notes)来引导描述生成, 在多个基准模型上取得了更好的效果与计算成本权衡.

Preventing Safety Drift in Large Language Models via Coupled Weight and Activation Constraints

Songping Peng et al.

cs.AI

本文提出了一种名为CWAC的方法, 通过同时约束权重更新和激活值来防止大语言模型在微调过程中的安全性退化. 实验表明该方法在多种模型和任务上能有效维持安全性, 同时对微调精度影响最小.

Heuristic Classification of Thoughts Prompting (HCoT): Integrating Expert System Heuristics for Structured Reasoning into Large Language Models

Lei Lin et al.

cs.AI

本文提出了一种名为Heuristic-Classification-of-Thoughts prompting (HCoT)的方法，旨在解决大型语言模型(LLMs)在复杂推理任务中的随机性和策略僵化问题。该方法通过一个启发式分类模型来结构化引导推理过程，在几个复杂任务上取得了优于现有方法的性能，并在计算效率上实现了较好的权衡。

Operationalising the Right to be Forgotten in LLMs: A Lightweight Sequential Unlearning Framework for Privacy-Aligned Deployment in Politically Sensitive Environments

Esen Kurt, Haithem Afli

cs.AI

本文提出了一种轻量级的顺序遗忘框架, 用于在政治敏感环境中部署的LLMs中实现"被遗忘权". 该方法通过分离保留和抑制目标, 先稳定良性能力, 再抑制敏感模式.

Enhancing Clustering: An Explainable Approach via Filtered Patterns

Motaz Ben Hassine, Saïd Jabbour

cs.AI

本文提出了一种用于可解释聚类(conceptual clustering)的模式约简框架, 旨在解决使用k-relaxed frequent patterns (k-RFPs)时因不同模式产生相同k-cover而导致的冗余问题. 该方法通过保留每个不同k-cover的单一代表模式来缩减搜索空间, 实验表明其能提升计算效率并保持聚类质量.

CIA: Inferring the Communication Topology from LLM-based Multi-Agent Systems

Yongxuan Wu et al.

cs.AI

本文提出了一种名为CIA的攻击方法, 用于在仅能访问输入输出的黑盒设置下, 推断基于LLM的多智能体系统的内部通信拓扑结构. 该方法通过构造对抗性查询并分析智能体输出的语义相关性来实现拓扑推断, 实验表明其具有较高的推断准确率, 揭示了此类系统存在的隐私风险.

Intelligent ROI-Based Vehicle Counting Framework for Automated Traffic Monitoring

Mohamed A. Abdelwahab et al.

cs.AI

本文提出了一种基于自适应ROI的自动化车辆计数框架, 通过结合检测分数、跟踪分数和车辆密度来动态确定最优ROI, 从而在保证高计数精度的同时显著提升了计算效率。该框架在多个基准数据集上验证有效, 处理速度可比全帧处理快四倍。

Technical Report -- A Context-Sensitive Multi-Level Similarity Framework for First-Order Logic Arguments: An Axiomatic Study

Victor David, Jérôme Delobelle, Jean-Guy Mailly

cs.AI cs.LO

本文针对 First-Order Logic (FOL) 论证的相似性度量问题，提出了一个多层次的参数化框架。该框架通过扩展公理基础，并引入对谓词、文字、子句和公式四个层级的相似性计算，旨在处理结构化内容，并整合了基于语言模型的语法敏感方法和上下文权重。

A Two-Stage LLM Framework for Accessible and Verified XAI Explanations

Georgios Mermigkis et al.

cs.AI

本文提出了一个两阶段LLM元验证框架, 用于生成和验证XAI解释. 该框架包含解释生成, 验证和迭代优化模块, 旨在提高解释的可靠性, 连贯性和可访问性.

Cross-Cultural Simulation of Citizen Emotional Responses to Bureaucratic Red Tape Using LLM Agents

Wanchun Ni et al.

cs.AI cs.CY

本文提出了一个评估框架, 用于测试 LLM 代理在不同文化背景下对官僚主义繁文缛节(red tape)产生情感反应的能力. 研究结果表明, 现有模型与人类情感反应的契合度有限, 尤其是在东方文化中, 并进一步介绍了一个用于模拟和收集数据的交互界面 RAMO.

IDEA: An Interpretable and Editable Decision-Making Framework for LLMs via Verbal-to-Numeric Calibration

Yanji He et al.

cs.AI

本文提出了一个名为IDEA的可解释与可编辑决策框架, 用于校准大语言模型(LLM)的决策过程. 该框架通过将LLM的"口头"决策知识提取到一个基于语义因子的参数化模型中, 并结合期望最大化(EM)算法学习映射与参数, 旨在提升概率校准的准确性和实现人机协作.

DeepTest Tool Competition 2026: Benchmarking an LLM-Based Automotive Assistant

Lev Sorokin, Ivan Vasilev, Samuele Pasini

cs.AI

本文报告了第一届LLM测试竞赛的结果, 该竞赛旨在评估不同测试工具在基于LLM的汽车手册信息检索应用中的表现. 竞赛关注于发现导致系统未能适当提及手册中警告信息的用户输入, 并对各工具的故障发现能力和测试用例多样性进行了比较.

Every Picture Tells a Dangerous Story: Memory-Augmented Multi-Agent Jailbreak Attacks on VLMs

Jianhao Chen et al.

cs.AI cs.MM

本文提出了一种针对Vision-Language Models (VLMs)的新型多模态越狱攻击框架MemJack. 该方法利用多agent协作和视觉语义伪装来生成对抗性提示, 并通过一个记忆模块积累攻击策略以提高成功率.

KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance

Linhao Yu et al.

cs.AI

本文提出了一种名为KnowRL的强化学习训练框架, 旨在通过最小充分知识指导来提升大型语言模型的推理能力. 该方法将提示设计视为一个优化问题, 使用原子知识点和约束子集搜索来构建紧凑的训练指导, 并在多个推理基准上取得了优于基线模型的表现.

RPRA: Predicting an LLM-Judge for Efficient but Performant Inference

Dylan R. Ashley et al.

cs.AI cs.CL cs.LG cs.MA

本文研究了让语言模型在生成回答前预测其输出质量的两种范式: Predict-Answer/Act (PA) 和 Reason-Predict-Reason-Answer/Act (RPRA). 实验表明, 通过提供上下文报告卡或进行监督微调, 可以显著提升较小模型预测其自身输出在LLM评判者眼中得分的能力.

Broadening the Applicability of Conditional Syntax Splitting for Reasoning from Conditional Belief Bases

Lars-Phillip Spiegel et al.

cs.AI

本文提出了一种广义的条件语法分割方法, 扩展了非单调推理中条件信念库的语法分割原则的适用范围. 该方法允许子库共享原子和非平凡条件句, 克服了先前安全条件语法分割的局限性, 并引入了相应的调整后推理公设.

Human-Centric Topic Modeling with Goal-Prompted Contrastive Learning and Optimal Transport

Rui Wang et al.

cs.AI

本文提出了一种新的人类中心主题建模任务, 通过整合用户提供的目标来生成更具解释性和目标导向的主题. 所提出的GCTM-OT模型利用LLM提示提取目标候选, 并通过最优传输(Optimal Transport)将其融入对比学习进行主题发现. 实验表明该方法在主题一致性和多样性上优于现有基线, 并能更好地与人类目标对齐.

Safe reinforcement learning with online filtering for fatigue-predictive human-robot task planning and allocation in production

Jintao Xue, Xiao Li, Nianmin Zhang

cs.AI

本文提出了一种名为PF-CD3Q的安全强化学习方法，用于解决人机协作制造中的动态任务规划与分配问题。该方法结合粒子滤波与约束强化学习，在线估计工人的疲劳参数并预测疲劳，以在保证安全的前提下优化生产效率。

A hierarchical spatial-aware algorithm with efficient reinforcement learning for human-robot task planning and allocation in production

Jintao Xue, Xiao Li, Nianmin Zhang

cs.AI

本文提出了一种用于生产环境中人机协作任务规划与分配的层次化空间感知算法. 该方法结合了高效的强化学习与基于路径规划的空间感知方法, 并在3D仿真实验中验证了其有效性.

MISID: A Multimodal Multi-turn Dataset for Complex Intent Recognition in Strategic Deception Games

Shufang Lin et al.

cs.AI

本文提出了一个用于复杂意图识别的多模态多轮对话数据集MISID, 并基于此提出了一个基线框架FRACTAM. 该工作旨在解决现有意图识别方法在复杂、长程、战略性交互场景中的不足.

Transferable Expertise for Autonomous Agents via Real-World Case-Based Learning

Zhenyu Ma et al.

cs.AI

本文提出了一个基于案例学习的框架, 用于提升基于LLM的自主智能体在复杂现实任务中的表现. 该框架通过从过往任务经验中提取可重用的知识资产, 使智能体能够将先验案例经验迁移到新任务中, 从而进行更有条理的分析.

Can AI Tools Transform Low-Demand Math Tasks? An Evaluation of Task Modification Capabilities

Danielle S. Fox et al.

cs.AI

本文评估了多种AI工具将低认知需求数学任务升级的能力. 研究发现, 这些工具的平均成功率仅为64%, 且任务生成能力与任务分类能力之间存在负相关.

DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding

Hao Yan et al.

cs.AI

本文提出了一种名为DocSeeker的视觉推理范式，用于解决多模态大语言模型在长文档理解任务中性能下降的问题。该方法通过一个结构化的“分析、定位与推理”工作流程，结合两阶段训练框架，提升了模型在长文档中定位关键证据和生成准确答案的能力。

RePAIR: Interactive Machine Unlearning through Prompt-Aware Model Repair

Jagadeesh Rachapudi et al.

cs.AI cs.CL

本文提出了一种名为RePAIR的交互式机器遗忘框架, 允许用户在推理时通过自然语言指令让大语言模型遗忘特定知识. 该方法通过一个无需训练的激活操纵技术实现高效的单样本遗忘, 并在多个任务上验证了其有效性.

Artificial Intelligence for Modeling and Simulation of Mixed Automated and Human Traffic

Saeed Rahmani et al.

cs.AI cs.RO eess.SY

本文对混合自动驾驶与人工驾驶交通仿真中的人工智能方法进行了综述, 提出了一个涵盖智能体行为模型、环境级仿真方法以及认知与物理信息方法的分类法, 并分析了现有仿真平台的不足与未来方向.

From edges to meaning: Semantic line sketches as a cognitive scaffold for ancient pictograph invention

Seowung Leem, Lin Gu, Ruogu Fang

cs.AI

本文提出了一个受生物启发的视觉层次数字孪生模型, 用于模拟人脑将高层语义知识转化为低层视觉符号的过程. 该模型通过前馈和循环架构生成轮廓草图, 其输出符号在结构上与多种古代象形文字相似.

QuarkMedSearch: A Long-Horizon Deep Search Agent for Exploring Medical Intelligence

Zhichao Lin et al.

cs.AI

本文提出了一个面向中文医疗领域的深度搜索智能体 QuarkMedSearch. 它通过结合知识图谱与在线探索构建训练数据, 并采用两阶段训练策略来提升模型在垂直领域的性能.

LIFE -- an energy efficient advanced continual learning agentic AI framework for frontier systems

Anne Lee, Gurudutt Hosangadi

cs.AI

本文提出了一个名为LIFE的agentic AI框架, 旨在实现高能效和持续学习, 以管理高性能计算(HPC)系统. 该框架通过结合编排器, 上下文工程, 记忆系统和信息格学习等组件, 在Kubernetes集群的延迟管理示例中进行了验证.

AISafetyBenchExplorer: A Metric-Aware Catalogue of AI Safety Benchmarks Reveals Fragmented Measurement and Weak Benchmark Governance

Abiodun A. Solanke

cs.AI

本文介绍了AISafetyBenchExplorer，这是一个包含195个AI安全基准测试的结构化目录。该目录通过记录基准测试元数据和度量定义，揭示了该领域存在测量标准不统一和基准治理薄弱的问题。

BEAM: Bi-level Memory-adaptive Algorithmic Evolution for LLM-Powered Heuristic Design

Chuyang Xiang et al.

cs.AI math.CO

本文提出了一种名为BEAM的双层记忆自适应算法演化框架, 用于基于大语言模型的超启发式设计. 该方法通过外层遗传算法演化算法结构, 内层蒙特卡洛树搜索实现具体函数, 并结合自适应记忆模块, 在车辆路径和最大独立集等问题上取得了优于现有方法的结果.

Drawing on Memory: Dual-Trace Encoding Improves Cross-Session Recall in LLM Agents

Benjamin Stern, Peter Nadel

cs.AI

本文提出了一种名为 dual-trace memory encoding 的方法，用于增强 LLM agent 的跨会话记忆能力。该方法通过为每个存储的事实配对一个具体的场景描述来改善记忆检索，在特定任务上取得了显著的效果提升。

Modeling Co-Pilots for Text-to-Model Translation

Serdar Kadioglu, Karthik Uppuluri, Akash Singirikonda

cs.AI

本文提出了Text2Model和Text2Zinc，用于将自然语言描述转化为组合优化与满足问题的形式化模型。该方法基于大型语言模型，并利用MiniZinc实现与求解器无关的建模。实验评估了多种提示策略，结果表明当前技术尚未完全成熟。

Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training

Sohyun An et al.

cs.AI

本文提出了一个无需黄金监督的搜索智能体训练框架Cycle-Consistent Search (CCS). 该方法利用搜索轨迹重构原始问题的能力作为奖励信号, 并通过信息瓶颈技术来提升其有效性.

Bilevel Late Acceptance Hill Climbing for the Electric Capacitated Vehicle Routing Problem

Yinghao Qin et al.

cs.AI math.OC

本文提出了一种双层优化框架和对应的双层迟接受爬山算法(b-LAHC)来解决电动汽车容量路径问题(E-CVRP). 该算法将路径规划和充电决策分层处理, 使用代理目标函数加速搜索, 并在标准测试集上取得了有竞争力的结果.

PAL: Personal Adaptive Learner

Megha Chakraborty et al.

cs.AI cs.HC

本文介绍了一个名为PAL的AI驱动教育平台, 它通过分析多模态讲座内容并动态生成互动问题来提供个性化学习体验. 该平台旨在超越静态的个性化方法, 实现实时的适应性教学支持.

cs.IR

The Effect of Document Selection on Query-focused Text Analysis

Sandesh S Rangreji, Mian Zhong, Anjalie Field

cs.IR cs.CL

本文评估了文档选择策略对查询导向文本分析的影响, 比较了七种选择方法和四种文本分析方法在多个查询上的表现. 研究发现, 语义或混合检索方法通常是可靠的选择, 平衡了效果与计算开销.

AdversarialCoT: Single-Document Retrieval Poisoning for LLM Reasoning

Hongru Song et al.

cs.IR

本文提出了一种针对RAG系统的单文档投毒攻击方法AdversarialCoT. 该方法通过提取目标LLM的推理框架并迭代优化对抗性文档, 显著降低了LLM的推理准确性.

UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute

Ziliang Wang et al.

cs.IR

本文提出了一种名为UniRec的生成式推荐模型, 其核心是Chain-of-Attribute机制. 该模型通过在解码Semantic ID序列前加入结构化属性标记, 弥补了生成式模型与判别式模型之间的表达能力差距, 并在实验中取得了显著的性能提升.

Deep Situation-Aware Interaction Network for Click-Through Rate Prediction

Yimin Lv et al.

cs.IR

本文提出了一种名为Deep Situation-Aware Interaction Network (DSAIN)的模型，用于点击率预测。该模型通过引入情境特征来更精细地建模用户行为序列，并在在线测试中取得了性能提升。

Efficient Retrieval Scaling with Hierarchical Indexing for Large Scale Recommendation

Dongqi Fu et al.

cs.IR

本文提出了一种用于大规模推荐系统中高效检索的分层索引方法, 通过联合学习 cross-attention 和残差量化来组织基础检索模型的记忆, 旨在降低检索成本的同时保持精确性. 该方法已在 Meta 的广告推荐系统中部署, 并发现索引中的中间节点对应高质量数据, 对其进行微调可提升推理性能.

Sparse Contrastive Learning for Content-Based Cold Item Recommendation

Gregor Meehan, Johan Pauwels

cs.IR

本文提出了一种基于内容的冷启动物品推荐方法, 通过训练一个内容编码器将物品映射到一个隐空间, 使得该空间中的物品相似性与用户偏好相关. 该方法使用$\alpha$-entmax激活函数族定义了一个稀疏的采样softmax损失泛化目标, 并通过知识蒸馏进行扩展, 在排序准确性上优于现有方法.

cs.CL

Back to Basics: Let Conversational Agents Remember with Just Retrieval and Generation

Yuqian Wu et al.

cs.CL cs.AI

本文提出了一种极简的对话记忆框架，通过Turn Isolation Retrieval和Query-Driven Pruning技术，仅依赖检索与生成来管理长对话历史。该方法旨在缓解对话增长中的信号稀疏与冗余问题，并在多个基准测试中实现了高效且稳健的性能。

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Manas Pathak et al.

cs.CL cs.AI

本文提出了一种名为Filtered Reasoning Score (FRS)的评估指标, 用于评估大型语言模型(LLMs)在推理任务中的推理质量, 而不仅仅是答案的正确性. 该方法通过分析模型生成的最自信的推理轨迹, 在多个维度上评估其忠实性、连贯性和实用性, 从而区分出具有相似准确率但推理能力不同的模型.

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Yinghui He et al.

cs.CL

本文提出了一种名为Self-Distillation Zero (SD-Zero)的后训练方法，用于在仅有二元奖励信号的场景下提升模型性能。该方法通过让单一模型同时扮演生成器和修订者的角色，并利用修订者产生的token分布进行自蒸馏，从而将稀疏奖励转化为密集的监督信号。在数学和代码推理基准测试中，该方法在有限的样本预算下超越了多个基线模型。

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Hamoud Alhazmi, Jiachen Jiang

cs.CL cs.AI

本文研究了大型语言模型(LLMs)在理解抽象语义方面的表现。研究发现，即使在少样本设置下，主流LLMs在此任务上仍存在困难，而经过微调的模型表现更好。作者提出了一种受人类认知启发的双向注意力分类器，在特定任务上提升了模型的准确率。

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Nicholas Moratelli et al.

cs.CL cs.AI cs.CV

本文提出了一个用于评估大型视觉语言模型在知识密集型视觉问答任务中处理冲突证据和知识不足时行为表现的基准测试VLM-DeflectionBench. 该工作通过动态数据筛选方法构建了一个包含多种检索场景的数据集, 并设计了细粒度的评估协议来区分模型的参数记忆与检索鲁棒性.

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Xin Liu, Lu Wang

cs.CL

本文提出CURE框架, 通过教导LLMs在claim级别进行不确定性推理来改善长文本生成的事实性. 该方法引入Claim-Aware Reasoning Protocol来结构化输出, 并通过多阶段训练流程校准模型置信度, 实验表明其在多个基准上提升了事实准确性.

Empirical Evaluation of PDF Parsing and Chunking for Financial Question Answering with RAG

Omar El Bachyr et al.

cs.CL cs.IR

本文通过实证研究评估了不同PDF解析器和文本分块策略对金融领域问答任务中RAG系统性能的影响. 研究基于两个金融基准, 包括新构建的公开数据集TableQuest, 为构建稳健的PDF理解流程提供了实用指南.

Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs

Shreeya Verma Kathuria et al.

cs.CL cs.AI

本文提出了一种名为wSSAS的确定性框架, 旨在通过两阶段验证和Signal-to-Noise Ratio (SNR)机制来提升LLM在文本分类任务中的准确性和可复现性. 实验表明, 该框架能有效改善聚类完整性和分类精度.

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

Haocheng Xi et al.

cs.CL cs.LG

本文提出了一种针对块状扩散语言模型(LoSA)的局部感知稀疏注意力机制. 该方法通过重用稳定token的缓存注意力结果, 仅对活跃token应用稀疏注意力, 有效解决了KV膨胀问题, 在保持精度的同时显著提升了长上下文场景下的注意力计算效率.

Robust Explanations for User Trust in Enterprise NLP Systems

Guilin Zhang et al.

cs.CL cs.AI cs.LG

本文提出了一个用于评估企业NLP系统中黑盒模型token级别解释鲁棒性的统一框架。该研究通过系统性的跨架构比较发现，decoder LLMs产生的解释比encoder模型更稳定，且稳定性随模型规模提升。

Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models

Syed Rifat Raiyan

cs.CL cs.AI cs.CY

本文通过大规模实验研究了大型语言模型(LLM)中可识别受害者效应(IVE)的存在与强度。研究发现，IVE在LLM中普遍存在，其强度受模型对齐训练和推理提示方式的显著影响。

Temporal Flattening in LLM-Generated Text: Comparing Human and LLM Writing Trajectories

Zhanwei Cao et al.

cs.CL

本文通过比较人类作者与LLM在长时间跨度下的文本生成轨迹，发现LLM生成的文本存在“时间扁平化”现象。研究指出，LLM在语义和认知情感上的变化远小于人类，这一差异可用于高精度区分人类与AI文本。

When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models

Ji Ho Bae

cs.CL

本文通过分析多种大语言模型在自指输入下的内部矩阵动态, 发现单纯的自我引用并不必然导致不稳定. 研究识别出一种特定的"非闭合真值递归"提示类型, 它会引发显著的注意力重组和矩阵动态扰动, 并与模型输出矛盾性增加相关.

AlphaEval: Evaluating Agents in Production

Pengrui Lu et al.

cs.CL

本文提出了一个名为AlphaEval的基准测试，用于评估生产环境中的AI agent。该基准包含来自多个商业领域的真实任务，并提供了一个将生产需求快速转化为可执行评估任务的系统框架。

AgenticAI-DialogGen: Topic-Guided Conversation Generation for Fine-Tuning and Evaluating Short- and Long-Term Memories of LLMs

Manoj Madushanka Perera et al.

cs.CL cs.IR

本文提出了一个基于智能体(agent)的框架AgenticAI-DialogGen，用于自动生成以主题和人物角色为基础的对话数据。该框架旨在为大型语言模型(LLMs)的短期和长期记忆能力的微调与评估提供数据集支持。

Knowledge Is Not Static: Order-Aware Hypergraph RAG for Language Models

Keshu Wu et al.

cs.CL

本文提出了一种名为OKH-RAG的检索增强生成方法，该方法通过将知识表示为具有优先顺序结构的超图，并重新定义检索为对超边的序列推断，从而显式地建模了交互的顺序。该方法在顺序敏感的问答任务上优于现有的无序检索基线，表明对于有效推理而言，不仅需要检索相关证据，还需要将其组织成结构化的序列。

Representing expertise accelerates learning from pedagogical interaction data

Dhara Yu, Karthikeya Kaushik, Bill D. Thompson

cs.CL cs.MA

本文通过构建专家与新手在空间导航任务中的交互数据集, 训练 transformer 模型, 研究了交互数据中的哪些特征能提升学习效果. 实验表明, 基于教学式交互数据训练的模型比仅基于专家示范训练的模型更具鲁棒性, 并且模型对具有不同认知状态的智能体进行表征的能力是关键因素.

Beyond Majority Voting: Efficient Best-Of-N with Radial Consensus Score

Manh Nguyen, Sunil Gupta, Hung Le

cs.CL

本文提出了一种名为Radial Consensus Score (RCS)的方法，用于从大语言模型生成的多个候选回答中选择最佳答案。该方法通过计算答案嵌入的加权Fréchet均值来建模语义共识，并根据候选答案到该语义中心的径向距离进行排序。实验表明，RCS在多种任务和模型上优于现有基线方法，并能作为多数投票的有效替代方案。

LLM-Guided Semantic Bootstrapping for Interpretable Text Classification with Tsetlin Machines

Jiechao Gao et al.

cs.CL cs.AI cs.LG

本文提出了一种结合LLM语义引导与Tsetlin Machine可解释性的框架。该方法通过LLM生成子意图并创建合成数据，训练一个符号模型来提取可解释的语义线索，从而提升文本分类的准确性和可解释性。

Thought-Retriever: Don't Just Retrieve Raw Data, Retrieve Thoughts for Memory-Augmented Agentic Systems

Tao Feng et al.

cs.CL cs.IR

本文提出了一种名为 Thought-Retriever 的模型无关算法，旨在增强大型语言模型（LLM）利用外部知识的能力。该方法通过组织、筛选和检索模型在解决历史查询时产生的中间“思考”，来构建一个可自我进化的长期记忆系统，从而突破上下文长度的限制。

Continuous Knowledge Metabolism: Generating Scientific Hypotheses from Evolving Literature

Jinkai Tao et al.

cs.CL cs.AI

本文提出了一个名为Continuous Knowledge Metabolism (CKM)的框架，用于从不断演进的科学文献中生成科学假设。该方法通过滑动时间窗口增量更新知识库，并开发了高效变体CKM-Lite和全功能变体CKM-Full。实验表明，增量处理在预测覆盖率和效率上优于批量处理，并揭示了假设生成中质量与覆盖率之间的权衡关系。

SpecBound: Adaptive Bounded Self-Speculation with Layer-wise Confidence Calibration

Zhuofan Wen, Yang Feng

cs.CL cs.AI cs.LG

本文提出了一种新的自推测解码框架, 通过层间温度退火抑制早期退出的虚假置信度, 并基于解码难度自适应限制推测长度. 该方法在保持输出精确等价的同时, 无需修改基础模型参数, 在多种长文本生成任务上实现了显著的推理加速.

Coding-Free and Privacy-Preserving MCP Framework for Clinical Agentic Research Intelligence System

Taehun Kim et al.

cs.CL cs.AI

本文提出了一个名为CARIS的临床研究智能系统, 该系统利用大型语言模型(LLMs)和模型上下文协议(MCP)构建了一个无需编码、保护隐私的自动化临床研究框架. 该系统能够根据用户意图自动执行从研究规划到报告生成的完整流程, 并在多个异构数据集上验证了其有效性.

CascadeDebate: Multi-Agent Deliberation for Cost-Aware LLM Cascades

Raeyoung Chang et al.

cs.CL cs.AI

本文提出了一种名为CascadeDebate的多智能体审议框架，用于优化LLM级联系统的成本与性能。该方法在级联的每一层引入轻量级智能体集合来处理不确定查询，通过内部共识避免过早调用高成本模型或专家。实验表明，该框架在多个基准测试上优于传统的单模型级联和独立多智能体系统。

Towards Robust Real-World Spreadsheet Understanding with Multi-Agent Multi-Format Reasoning

Houxing Ren et al.

cs.CL

本文提出了一种名为SpreadsheetAgent的多智能体框架, 用于处理大规模电子表格的理解任务. 该方法通过分阶段、多模态的增量式读取与推理, 并结合验证模块来提升可靠性, 在相关基准测试上取得了优于基线模型的表现.

ContextLens: Modeling Imperfect Privacy and Safety Context for Legal Compliance

Haoran Li et al.

cs.CL

本文提出了一个名为ContextLens的半规则框架，用于在法律合规性评估中处理不完整和模糊的上下文。该方法利用大语言模型来锚定法律领域中的输入上下文，并识别已知与未知因素，从而在GDPR和欧盟AI法案等基准测试上提升了评估性能。

CompliBench: Benchmarking LLM Judges for Compliance Violation Detection in Dialogue Systems

Jingbo Yang et al.

cs.CL

本文提出了一个名为CompliBench的基准测试, 用于评估LLM作为裁判在检测多轮对话中违反操作指南方面的能力. 为了解决数据稀缺问题, 作者开发了一个可扩展的自动化数据生成流程, 通过可控的缺陷注入和对抗性搜索来合成具有挑战性的违规对话数据. 评估表明, 当前最先进的专有LLM在此任务上表现不佳, 而基于合成数据微调的小型裁判模型则表现更好且能泛化到未见过的业务领域.

ToxiTrace: Gradient-Aligned Training for Explainable Chinese Toxicity Detection

Boyang Li et al.

cs.CL

本文提出了一种面向可解释性的中文毒性内容检测方法ToxiTrace. 该方法通过结合轻量级LLM指导的细粒度标注, 梯度约束损失和对比学习策略, 旨在同时提升分类准确性和生成可读的毒性证据片段.

Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness

Tomer Ashuach et al.

cs.CL

本文通过训练基于模型自身隐藏状态和外部模型表示的分类器, 研究了大型语言模型是否拥有关于答案正确性的"特权知识". 在标准评估中, 未发现自身表示的优势, 但在模型预测存在分歧的子集上, 发现了事实性任务中存在领域特定的优势.

Cooperative Memory Paging with Keyword Bookmarks for Long-Horizon LLM Conversations

Ziyang Liu

cs.CL cs.AI

本文提出了一种名为"cooperative paging"的方法来处理长对话中超出LLM上下文窗口的历史内容. 该方法将需要移出的对话片段替换为简短的关键词书签, 并允许模型在需要时通过一个`recall()`工具来检索完整内容. 实验表明, 该方法在多个模型和基准测试中优于其他基线方法, 并进一步通过消融实验分析了分页策略和替换策略的影响.

SCRIPT: A Subcharacter Compositional Representation Injection Module for Korean Pre-Trained Language Models

SungHo Kim et al.

cs.CL cs.AI

本文提出SCRIPT模块, 用于向韩语预训练语言模型注入子字符组合知识. 该模块无需改变模型架构或重新预训练, 即可提升多种下游任务性能, 并使嵌入空间更好地捕捉语言规律.

ReasonXL: Shifting LLM Reasoning Language Without Sacrificing Performance

Daniil Gurgurov et al.

cs.CL

本文提出了ReasonXL, 这是一个包含五种欧洲语言的大规模并行推理轨迹语料库. 通过一个结合监督微调(SFT)和强化学习(RLVR)的两阶段流程, 作者展示了如何使大语言模型(LLM)完全使用目标语言进行推理, 同时保持性能.

From Myopic Selection to Long-Horizon Awareness: Sequential LLM Routing for Multi-Turn Dialogue

Jiarui Zhang et al.

cs.CL

本文提出了一种用于多轮对话的序列化LLM路由方法DialRouter. 该方法通过蒙特卡洛树搜索探索对话分支并学习轻量级路由策略, 在多种对话任务上超越了现有基线.

KoCo: Conditioning Language Model Pre-training on Knowledge Coordinates

Yudong Li, Jiawei Cai, Linlin Shen

cs.CL

本文提出了一种名为KoCo的方法, 通过将文档映射到三维语义坐标并作为前缀进行预训练, 旨在增强语言模型的上下文感知能力. 实验表明该方法能提升下游任务性能并加速预训练收敛.

Agentic Insight Generation in VSM Simulations

Micha Selak et al.

cs.CL

本文提出了一种用于价值流图(VSM)仿真的解耦式智能体架构, 通过分离编排与数据分析步骤, 结合领域专家知识进行渐进式数据发现. 该框架利用大型语言模型(LLM)智能选择数据源并进行多跳推理, 在多个先进模型上验证了其可行性, 最高准确率达到86%.

Decoding by Perturbation: Mitigating MLLM Hallucinations via Dynamic Textual Perturbation

Sihang Jia et al.

cs.CL cs.AI cs.CV

本文提出了一种名为Decoding by Perturbation (DeP)的训练无关框架, 用于缓解多模态大语言模型(MLLM)中的幻觉问题. 该方法通过在解码阶段对文本进行动态扰动来抑制语言先验对视觉证据的过度影响, 并在多个基准测试上取得了良好效果.

GLeMM: A large-scale multilingual dataset for morphological research

Hathout Nabil et al.

cs.CL

本文介绍了GLeMM, 一个用于形态学研究的大规模多语言数据集. 该数据集通过自动化流程从Wiktionary构建, 覆盖七种欧洲语言, 并标注了形态特征和部分语义信息, 旨在支持数据驱动的形态学描述和计算方法实验.

Latent-Condensed Transformer for Efficient Long Context Modeling

Zeng You et al.

cs.CL

本文提出了一种名为Latent-Condensed Attention (LCA)的新注意力机制，旨在联合优化长上下文建模中的计算开销和KV缓存占用。该方法在潜在空间中进行上下文压缩，通过分离语义和位置信息来实现高效处理。实验表明，LCA能在保持性能的同时显著提升预填充速度并减少缓存。

Mining Large Language Models for Low-Resource Language Data: Comparing Elicitation Strategies for Hausa and Fongbe

Mahounan Pericles Adjovi, Roald Eiselen, Prasenjit Mitra

cs.CL cs.AI

本文通过系统比较两种商业大语言模型(GPT-4o Mini和Gemini 2.5 Flash)在六种不同提示策略下的表现, 评估了从大模型中为低资源语言(豪萨语和丰语)提取可用文本数据的可行性. 研究发现, 最优的提示策略因语言而异, 并且GPT-4o Mini在每次API调用中能提取出多得多的可用词汇.

Meet Dynamic Individual Preferences: Resolving Conflicting Human Value with Paired Fine-Tuning

Shanyong Wang et al.

cs.CL

本文提出了一个名为Preference-Paired Fine-Tuning (PFT)的新框架, 用于使大型语言模型适应动态且可能相互冲突的个人偏好. 作者构建了Value Conflict Dilemma (VCD)数据集进行评测, 实验表明PFT在多项任务上优于传统的单偏好训练方法.

KG-Reasoner: A Reinforced Model for End-to-End Multi-Hop Knowledge Graph Reasoning

Shuai Wang, Yinan Yu

cs.CL cs.AI

本文提出了一种名为KG-Reasoner的端到端框架，用于增强大型语言模型在知识图谱上的多跳推理能力。该框架通过强化学习训练模型，使其能够动态探索推理路径，并在多个基准测试中取得了有竞争力的结果。

Calibrated Confidence Estimation for Tabular Question Answering

Lukas Voss

cs.CL

本文系统评估了五种置信度估计方法在大型语言模型处理表格问答任务时的校准表现. 研究发现模型普遍存在过度自信问题, 并提出了利用表格数据多格式序列化特性的新方法 Multi-Format Agreement 来更高效地估计置信度.

Latent Planning Emerges with Scale

Michael Hanna, Emmanuel Ameisen

cs.CL cs.AI

本文研究了大型语言模型在生成文本时是否进行隐式规划, 提出了"潜在规划"的定义与测量框架. 通过在简单任务和押韵对句任务上的实验, 发现模型的规划能力随规模增大而增强, 并提供了相关的机制证据.

Topology-Aware Reasoning over Incomplete Knowledge Graph with Graph-Based Soft Prompting

Shuai Wang, Xixi Wang, Yinan Yu

cs.CL cs.AI

本文提出了一种基于图的软提示框架, 用于在不完整知识图谱上进行多跳问答. 该方法利用GNN编码子图结构作为软提示, 引导大语言模型进行子图级推理, 从而降低对缺失边的敏感性, 并通过两阶段范式平衡性能与计算成本.

Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs

Linhao Zhang et al.

cs.CL cs.SD

本文提出了Unified Audio Schema (UAS), 一种用于AudioLLMs的结构化监督框架. 该框架将音频信息组织为Transcription, Paralinguistics和Non-linguistic Events三个部分, 旨在提升模型在细粒度声学感知任务上的性能.

Enhance-then-Balance Modality Collaboration for Robust Multimodal Sentiment Analysis

Kang He et al.

cs.CL

本文提出了一种名为EBMC的新框架, 用于提升多模态情感分析(MSA)的鲁棒性. 该框架通过语义解耦和跨模态增强来强化较弱模态, 并引入能量引导的模态协调机制和实例感知的模态信任蒸馏, 以平衡模态贡献并适应噪声或缺失模态的情况.

When Does Data Augmentation Help? Evaluating LLM and Back-Translation Methods for Hausa and Fongbe NLP

Mahounan Pericles Adjovi, Roald Eiselen, Prasenjit Mitra

cs.CL cs.AI

本文评估了基于LLM生成和回译两种数据增强方法在Hausa和Fongbe这两种低资源非洲语言的命名实体识别与词性标注任务上的效果。研究发现，增强的有效性主要取决于任务类型，而非语言本身或LLM生成数据的质量，挑战了数据增强普遍有益的假设。

FABLE: Fine-grained Fact Anchoring for Unstructured Model Editing

Peng Wang et al.

cs.CL

本文提出了FABLE, 一个用于非结构化模型编辑的分层框架. 它通过将细粒度事实注入与整体文本生成解耦, 旨在改善模型对事实的精确访问能力.

Transforming External Knowledge into Triplets for Enhanced Retrieval in RAG of LLMs

Xudong Wang et al.

cs.CL

本文提出了一种名为Tri-RAG的结构化检索框架，用于增强大型语言模型(LLM)的检索增强生成(RAG)能力。该方法将外部知识转化为结构化的三元组(Condition, Proof, Conclusion)进行检索，旨在提高检索精度和上下文效率。

Multilingual Multi-Label Emotion Classification at Scale with Synthetic Data

Vadim Borisov

cs.CL

本文通过构建大规模合成训练数据集, 解决了多语言多标签情感分类中标注数据稀缺的问题. 在23种语言上训练并比较了多种多语言transformer编码器, 其中XLM-R-Large模型在多个基准测试中取得了与专用英语模型相当或更优的性能.

Learning Chain Of Thoughts Prompts for Predicting Entities, Relations, and even Literals on Knowledge Graphs

Alkid Baci et al.

cs.CL cs.AI

本文提出了一种名为RALP的方法, 将知识图谱链接预测重新定义为提示学习问题. 该方法通过学习基于字符串的chain-of-thought提示来为三元组评分, 并在多个基准测试中提升了现有模型的性能.

InsightFlow: LLM-Driven Synthesis of Patient Narratives for Mental Health into Causal Models

Shreya Gupta et al.

cs.CL

本文提出了一个名为InsightFlow的基于LLM的方法, 用于从医患对话中自动生成符合5P框架的因果图. 该方法生成的图在结构和语义上与临床专家的人工标注具有可比性, 展现了自动化建模辅助临床工作流的潜力.

Token-Level Policy Optimization: Linking Group-Level Rewards to Token-Level Aggregation via Sequence-Level Likelihood

Xingyu Lin et al.

cs.CL

本文提出了一种名为TEPO的token-level策略优化框架, 旨在解决在chain-of-thought推理中token-level稀疏奖励的固有挑战. 该方法通过sequence-level似然将group-level奖励与个体token关联, 并引入一个token-level KL散度掩码约束来稳定训练. 实验表明, TEPO在数学推理基准上取得了先进性能, 并显著提升了训练稳定性.

Universal NER v2: Towards a Massively Multilingual Named Entity Recognition Benchmark

Terra Blevins et al.

cs.CL

本文介绍了Universal NER v2项目，这是一个旨在构建大规模多语言命名实体识别基准数据集的持续努力。该项目使用通用标签集和详细的标注指南来收集标准化的跨语言实体标注。

Generating Effective CoT Traces for Mitigating Causal Hallucination

Yiheng Zhao, Jun Yan

cs.CL

本文针对事件因果关系识别(ECI)任务中较小规模语言模型存在的因果幻觉问题, 提出了一种生成有效思维链(CoT)轨迹的流程. 通过引入因果幻觉率(CHR)这一新度量标准来量化问题并指导生成, 实验表明利用生成的CoT轨迹进行微调能有效降低幻觉并提升模型性能.

NaviRAG: Towards Active Knowledge Navigation for Retrieval-Augmented Generation

Jihao Dai et al.

cs.CL

本文提出了NaviRAG框架，将传统的平面检索范式转变为主动的知识导航。该方法首先将知识文档组织成层次结构，然后利用LLM智能体主动遍历不同粒度层级的记录以定位信息。实验表明，该方法在长文档问答任务上提升了检索召回率和最终答案质量。

Teaching LLMs Human-Like Editing of Inappropriate Argumentation via Reinforcement Learning

Timon Ziegenbein, Maja Stahl, Henning Wachsmuth

cs.CL

本文提出了一种基于强化学习的方法, 用于教导大型语言模型(LLMs)进行更接近人类风格的文本编辑, 以提升论证的恰当性. 该方法通过多组件奖励函数优化编辑建议, 在自动和人工评估中表现优于现有基线.

EvoSpark: Endogenous Interactive Agent Societies for Unified Long-Horizon Narrative Evolution

Shiyu He et al.

cs.CL

本文提出了EvoSpark框架, 用于在基于LLM的多智能体系统中维持长期叙事的一致性. 它通过分层叙事记忆和生成性场景编排等机制, 解决了社会记忆堆叠和叙事空间失调等问题.

The role of System 1 and System 2 semantic memory structure in human and LLM biases

Katherine Abramski, Giulio Rossetti, Massimo Stella

cs.CL

本文通过将人类和LLM的语义记忆结构建模为具有不同拓扑性质的网络, 研究了它们与隐性偏见的关系. 研究发现, 只有人类的语义记忆结构表现出与偏见水平相关的系统性差异, 而LLMs则缺乏这种关联, 揭示了二者在认知机制上的根本区别.

Growing Pains: Extensible and Efficient LLM Benchmarking Via Fixed Parameter Calibration

Eliya Habba et al.

cs.CL

本文提出了一种基于多维项目反应理论(IRT)的框架, 通过固定参数校准来解决大语言模型(LLM)基准测试中因模型和数据集快速迭代而导致的评估成本高和结果不可比的问题. 该方法利用锚定项目(anchor items)将新基准校准到现有评估套件中, 在仅使用每个数据集约100个锚定问题的情况下, 能有效预测模型的完整评估性能, 并保持较高的排名一致性(Spearman $\rho \geq 0.9$).

Round-Trip Translation Reveals What Frontier Multilingual Benchmarks Miss

Ronald Skorobogat, Ameya Prabhu, Matthias Bethge

cs.CL cs.AI

本文指出当前多语言基准测试主要评估数学推理和事实回忆, 而非真正的多语言能力. 作者提出了一种基于往返翻译的替代评估方法, 并引入了Lost in Translation基准.

MetFuse: Figurative Fusion between Metonymy and Metaphor

Saptarshi Ghosh, Tianyu Jiang

cs.CL

本文提出了一个用于研究 metonymy 和 metaphor 共现现象的计算框架，并构建了首个专门的数据集 MetFuse。实验表明，使用该数据集进行数据增强能提升对这两种修辞手法的分类性能。

MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models

Chung-Ming Chien et al.

cs.CL eess.AS

本文提出了一种名为MoshiRAG的模块化方法，用于提升全双工语音语言模型的事实准确性。该方法通过异步知识检索框架，在不影响实时交互性的前提下，为模型响应提供外部知识支持。

GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts

Amir Hossein Kargaran et al.

cs.CL cs.CV

本文介绍了GlotOCR Bench, 这是一个用于评估OCR模型在100多种Unicode文字上泛化能力的综合基准。研究发现，即使是前沿模型也难以在超过30种文字上表现良好，其性能与预训练数据覆盖度高度相关。

Accelerating Speculative Decoding with Block Diffusion Draft Trees

Liran Ringel, Yaniv Romano

cs.CL

本文提出了一种名为DDTree的方法, 用于改进基于块扩散(block diffusion)的推测解码(speculative decoding). 该方法利用扩散草稿模型(draft model)的逐位置分布构建一个草稿树(draft tree), 并通过一个代理(surrogate)评分选择最有可能的延续(continuation), 从而在单次目标模型前向传播中验证多个候选轨迹.

PolicyLLM: Towards Excellent Comprehension of Public Policy for Large Language Models

Han Bao et al.

cs.CL cs.CY

本文提出了一个用于评估大语言模型公共政策理解能力的基准PolicyBench, 并基于此构建了一个领域专家混合模型PolicyMoE. 研究揭示了当前模型在政策理解方面的局限性, 并为开发更可靠的领域专用模型提供了路径.

One Token Away from Collapse: The Fragility of Instruction-Tuned Helpfulness

Erfan Baghaei Potraghloo et al.

cs.CL cs.AI

本文研究了指令微调大语言模型在简单词汇约束下的脆弱性. 实验表明, 禁止单个标点或常见词会导致模型响应崩溃, 全面性显著下降, 且这种脆弱性源于指令微调引入的规划失败.

Toward Autonomous Long-Horizon Engineering for ML Research

Guoxin Chen et al.

cs.CL

本文提出了一个名为AiScientist的系统，用于实现自主的、长周期的机器学习研究工程。该系统通过结合分层编排和基于文件的持久化工作空间，旨在解决智能体在长时间任务中保持状态连续性和协调性的挑战。

cs.DS

Constant-Factor Approximation for the Uniform Decision Tree ⭐ 精选

Michał Szyfelbein

cs.DS cs.IR cs.LG

本文针对均匀概率分布下的平均情况 Decision Tree 问题，首次给出了一个常数因子的近似算法，解决了该领域一个长期存在的开放性问题。作者设计了一个多项式时间算法，其近似比小于11.57，显著改进了此前已知的$O(\log n/{\log\log n})$近似结果。核心方法结合了从 Hierarchical Clustering 问题中借鉴的分解技术，将最优决策树分解为一系列 separating subfamilies，并将寻找这些子族的问题规约到 Maximum Coverage 问题，从而实现了有效的近似。

Sampling Colorings Close to the Maximum Degree: Non-Markovian Coupling and Local Uniformity

Vishesh Jain, Clayton Mizgerd, Eric Vigoda

cs.DS cs.DM math.PR

本文研究了在最大度为$\Delta$的图上采样$k$-coloring的问题, 改进了非马尔可夫耦合方法并建立了新的局部均匀性结果. 对于围长至少为11的图, 当$k \ge (1+\delta)\Delta$时, 证明了Metropolis Glauber dynamics具有$O_{\delta}(|V| \log |V|)$的最优混合时间.

The Parameterized Complexity of Vertex-Coloring Edge-Weighting

Shubhada Aute, Fahad Panolan, Geevarghese Philip

cs.DS cs.CC cs.DM

本文研究了Vertex-Coloring {0,1}-Edge-Weighting问题及其推广的Parameterized Complexity. 证明了该问题在参数化为feedback vertex set大小时是W[1]-hard的, 而在参数化为vertex cover大小时是FPT的, 并给出了基于treewidth的XP算法.

Fully Dynamic Breadth First Search and Spanning Trees in Directed Graphs

Gregory Morse, Tamás Kozsik

cs.DS

本文研究了在有向图中维护广度优先搜索(BFS)生成树及其序号的完全动态算法问题. 提出了一种支持边插入和删除的框架, 用于维护BFS树, 单源最短路径和单源可达性.

Submodular Max-Min Allocation under Identical Valuations

Kimon Boehmer

cs.DS

本文研究了在玩家估值函数相同情况下的Submodular Max-Min Allocation问题。作者提出了一种贪婪算法，将近似比从约0.37提升到了0.4，并对配置线性规划的整数间隙给出了首个常数上界。

Robust Graph Isomorphism, Quadratic Assignment and VC Dimension

Anatole Dahan et al.

cs.DS cs.DM

本文针对具有有限 VC dimension 的图，提出了一种运行时间为 $n^{O(d/\varepsilon^{2})}$ 的加性 $\varepsilon n^{2}$-近似算法来计算 Graph Edit Distance (GED). 该结果推广了 Arora 等人的早期工作，并将其进一步扩展到具有有界权重的 Quadratic Assignment Problem (QAP) 上. 作为特例，文章还研究了 $\varepsilon$-$\mathsf{GI}$ 问题，并分析了 Weisfeiler--Leman 算法在该问题上的表现.

Sorting under Partial Information with Optimal Preprocessing Time via Unified Bound Heaps

Daniel Rutschmann

cs.DS

本文针对 partial information sorting 问题, 提出了一种新的算法, 实现了 $O(m)$ 的预处理时间和 $O(\log e(G))$ 的排序时间, 达到了该问题的紧界. 作为核心工具, 作者设计了一种新的快速堆数据结构.

Longest Common Extension of a Dynamic String in Parallel Constant Time

Daniel Albert

cs.DS

本文提出了一种用于动态字符串的并行常数时间最长公共扩展(LCE)查询算法. 该算法在CRCW PRAM模型上, 以$\mathcal{O}(n^{\epsilon})$的工作量支持字符插入和删除, 并利用字符串同步集和近期更新列表来保证查询效率. 该算法被应用于动态维护Dyck语言成员资格和检测平方子串.

Asymptotically faster algorithms for recognizing $(k,\ell)$-sparse graphs

Bence Deák, Péter Madarasi

cs.DS cs.DM math.CO

本文针对$(k,\ell)$-稀疏图的识别问题，提出了新的算法。对于不同的参数范围，算法结合了有界入度定向和分治等技巧，将运行时间从之前的$O(n^2)$或$O(n^3)$降低到了次二次甚至近线性时间。

others

ART-VITON: Measurement-Guided Latent Diffusion for Artifact-Free Virtual Try-On

Junseo Park, Hyeryung Jang

cs.CV cs.AI

本文提出了一种基于测量引导的潜在扩散模型框架ART-VITON，用于解决虚拟试穿任务中非试穿区域的身份和背景信息难以保持、边界伪影明显的问题。该方法通过结合基于残差先验的初始化和无伪影的测量引导采样策略，在多个数据集上实现了更好的视觉保真度和鲁棒性。

Should There be a Teacher In-the-Loop? A Study of Generative AI Personalized Tasks Middle School

Candace Walkington et al.

cs.CY cs.AI

本文研究了教师与生成式AI协作创建个性化数学任务的过程。研究发现, 教师参与虽然能实现较宽泛的个性化, 但过程耗时且学生偏好更具体的文化引用。教师需要大量精力调整AI生成的问题, 其效率并未随经验显著提升。

Training single-electron and single-photon stochastic physical neural networks

Tong Dou et al.

quant-ph cond-mat.dis-nn cs.ET cs.LG

本文提出了基于单电子隧穿和单光子源的新型随机物理神经元, 并研究了其在单隐藏层网络中进行MNIST分类的训练策略. 结果表明, 在反向传播中使用经验输出时, 即使每层试验次数很少, 网络也能达到超过97%的测试准确率, 展现了随机物理神经网络在深度学习中的潜力.

GRACE: A Dynamic Coreset Selection Framework for Large Language Model Optimization

Tianhao Tang, Haoyang Li, Lei Chen

cs.DB cs.AI

本文提出了一个名为GRACE的动态coreset选择框架, 用于提升大型语言模型(LLM)的训练效率. 该框架通过结合表示多样性和基于梯度的度量来动态构建核心集, 并利用图传播机制来降低更新开销.

M$^\star$: Every Task Deserves Its Own Memory Harness

Wenbo Pan et al.

cs.PL cs.AI cs.CL cs.LG

本文提出了一种名为 M$^\star$ 的方法, 通过可执行的程序演化来自动发现针对任务优化的记忆系统. 该方法将智能体的记忆系统建模为 Python 程序, 并联合优化其数据模式, 存储逻辑和工作流指令, 在对话, 具身规划和专家推理等任务上超越了固定的记忆基线.

Refined Differentially Private Linear Regression via Extension of a Free Lunch Result

Sasmita Harini S, Anshoo Tandon

cs.IT cs.LG

本文通过设计多维 simplex transformation 来扩展已有的 "free lunch" 结果, 将其应用于区间 $[0,1]$ 上有界的变量和函数. 该方法用于改进基于 ordinary least squares 的差分隐私简单线性回归中 sufficient statistics 的估计, 并具有推广到多项式回归的潜力.

Inverse Design of Inorganic Compounds with Generative AI

Hannes Kneiding et al.

physics.chem-ph cond-mat.mtrl-sci cs.LG

本文综述了生成式AI在无机化合物逆向设计中的应用进展. 文章分析了针对无机化合物复杂性（如组成、几何、对称性和电子结构）的数据-表示-模型流程的演变, 并讨论了未来的发展方向.

Beyond Static Sandboxing: Learned Capability Governance for Autonomous AI Agents

Bronislav Sidik, Lior Rokach

cs.CR cs.AI

本文提出了一个名为Aethelgard的自适应治理框架, 旨在解决AI agent中的能力过度配置问题. 该框架通过动态范围限定和混合拦截机制来实施最小权限原则.

Evaluating the Limitations of Protein Sequence Representations for Parkinson's Disease Classification

César Jesús Núñez-Prado, Grigori Sidorov, Liliana Chanona-Hernández

q-bio.QM cs.AI cs.LG

本文通过嵌套分层交叉验证框架, 系统评估了仅从蛋白质一级序列衍生的多种表示方法(如氨基酸组成, k-mers, 理化描述符及蛋白质语言模型嵌入)在帕金森病分类任务中的表现. 结果表明, 所有方法的性能差异有限(F1分数在0.60-0.70之间), 且无监督分析未发现与类别标签对齐的内在结构, 这证明仅凭一级序列信息对帕金森病的区分能力有限.

MVAdapt: Zero-Shot Multi-Vehicle Adaptation for End-to-End Autonomous Driving

Haesung Oh, Jaeheung Park

cs.RO cs.AI

本文提出了一个名为MVAdapt的物理条件适应框架, 用于解决端到端自动驾驶模型在不同车辆上部署时因车辆动力学差异导致的性能下降问题. 该方法通过一个轻量级的物理编码器和交叉注意力模块, 将车辆属性信息融入场景特征中, 从而在零样本和少样本场景下实现了对未见车辆的有效适应.

Obtaining Partition Crossover masks using Statistical Linkage Learning for solving noised optimization problems with hidden variable dependency structure

M.W. Przewozniczek et al.

stat.ML cs.LG

本文针对含噪声优化问题中变量依赖关系难以识别的问题, 提出了一种基于 Statistical Linkage Learning (SLL) 来构建 Partition Crossover (PX) masks 的新方法. 实验表明, 该方法能使优化器在不同噪声水平下保持性能, 并在高噪声问题上优于现有技术.

FlowBoost Reveals Phase Transitions and Spectral Structure in Finite Free Information Inequalities

Baran Hashemi

math.PR cs.LG math.CO

本文利用FlowBoost这一深度生成优化框架，研究了有限自由加性卷积下实根多项式的$\ell^p$-广义Stam不等式。研究发现，在$p=2$时Hermite对是唯一的等式成立情形，而当$p>2$时该对本身违反不等式，$p=2$被推测为尖锐的临界指数。

ProbeLogits: Kernel-Level LLM Inference Primitives for AI-Native Operating Systems

Daeyeon Son

cs.OS cs.LG

本文提出了一种名为ProbeLogits的内核级LLM推理原语, 用于在AI原生操作系统中进行零参数的安全策略执行. 该方法通过读取特定token的logits分布来对智能体动作进行分类, 并引入了可调节的校准强度$\alpha$作为部署时的策略旋钮. 在Anima OS中的实现表明, 其分类速度快且难以被应用层规避.

AnyPoC: Universal Proof-of-Concept Test Generation for Scalable LLM-Based Bug Detection

Zijie Zhao et al.

cs.SE cs.AI cs.CL cs.CR

本文提出了一个名为AnyPoC的多智能体框架, 用于为基于LLM的bug检测生成的候选报告自动合成可执行的proof-of-concept (PoC)测试. 该框架通过分析报告, 迭代合成并执行PoC, 以及独立重新执行和审查来验证bug, 从而提升自动化bug检测的实用性和可扩展性.

Agentic LLM Reasoning in a Self-Driving Laboratory for Air-Sensitive Lithium Halide Spinel Conductors

Yuxing Fei et al.

cond-mat.mtrl-sci cs.LG

本文介绍了一个用于合成空气敏感材料的自主实验平台A-Lab GPSS, 并集成了一个基于agent的AI框架来指导实验设计. 该平台被应用于探索锂卤化物尖晶石固态离子导体的广阔成分空间, 在合成实验中成功实现了多种组合, 并观察到具有良好离子电导率的成分比例有所提升.

INDOTABVQA: A Benchmark for Cross-Lingual Table Understanding in Bahasa Indonesia Documents

Somraj Gautam, Anathapindika Dravichi, Gaurav Harit

cs.CV cs.AI cs.CL cs.LG

本文提出了一个用于评估印度尼西亚语文档图像跨语言表格视觉问答的基准数据集 INDOTABVQA. 该数据集包含多种视觉风格的文档和四种语言的问答对, 并评估了多个主流视觉语言模型, 发现其在复杂表格和低资源语言上存在显著性能差距.

A Geometric Algebra-informed NeRF Framework for Generalizable Wireless Channel Prediction

Jingzhou Shen et al.

cs.NI cs.LG

本文提出了一种结合 geometric algebra 与 neural radiance fields 的框架 GAI-NeRF，用于无线信道预测。该框架通过新的 ray tracing 架构和全局 token 表示来提升模型在复杂环境中的泛化能力与计算效率。

The Second Challenge on Cross-Domain Few-Shot Object Detection at NTIRE 2026: Methods and Results

Xingyu Qiu et al.

cs.CV cs.AI

本文介绍了NTIRE 2026第二届跨域少样本目标检测挑战赛的概况, 包括任务设置、参与情况和主要结果. 报告总结了参赛队伍提出的多种策略和创新方法, 并对最终性能进行了分析.

Curvelet-Based Frequency-Aware Feature Enhancement for Deepfake Detection

Salar Adel Sabri, Ramadhan J. Mstafa

cs.CV cs.AI

本文提出了一种基于Curvelet变换的深度伪造检测方法, 通过楔形注意力( wedge-level attention )和尺度感知空间掩码( scale-aware spatial masking )来增强频域特征. 该方法在FaceForensics++数据集上取得了高准确率, 展示了Curvelet变换在检测任务中的潜力.

SIR-Bench: Evaluating Investigation Depth in Security Incident Response Agents

Daniel Begimher et al.

cs.CR cs.AI cs.SE

本文提出了一个名为SIR-Bench的基准测试，用于评估安全事件响应智能体的调查深度。该基准通过一个名为OUAT的框架生成真实的遥测数据，并引入了三个互补的评估指标。

On the continuum limit of t-SNE for data visualization

Jeff Calder et al.

stat.ML cs.LG math.AP math.ST

本文研究了t-SNE算法在数据点趋于无穷时的连续极限。证明了在适当的参数条件下，其优化目标收敛为一个包含非凸梯度正则项的变分问题。该极限问题与著名的Perona-Malik方程密切相关，其非凸性导致了多解性，这解释了t-SNE可视化结果的任意性。

OpenTME: An Open Dataset of AI-powered H&E Tumor Microenvironment Profiles from TCGA

Maaike Galama et al.

cs.CV cs.AI cs.LG q-bio.QM

本文介绍了OpenTME, 一个基于TCGA数据集的开放访问数据集, 其中包含了从H&E染色病理切片中通过AI模型预计算的肿瘤微环境(TME)定量图谱. 该数据集旨在为生物标志物发现和空间生物学研究提供资源.

Robust Reasoning and Learning with Brain-Inspired Representations under Hardware-Induced Nonlinearities

William Youngwoo Chung et al.

cs.ET cs.LG

本文提出了一种基于Hyperdimensional Computing (HDC)的硬件感知优化框架，用于补偿Compute-in-memory (CIM)架构中的非线性失真。该方法通过联合优化编码和校准超向量表示，在存在严重硬件扰动的情况下，显著提升了分类和推理任务的准确性。

A Nonparametric Adaptive EWMA Control Chart for Binary Monitoring of Multiple Stream Processes

Faruk Muritala et al.

stat.ML cs.LG stat.AP stat.ME

本文提出了一种用于监控多流二项比例的非参数自适应EWMA控制图, 称为CSB-EWMA. 该方法通过推导EWMA统计量的精确时变方差, 避免了早期监控中渐近近似的失效问题, 从而实现了自适应的控制限. 模拟研究表明, 该控制图在多种数据分布下对过程偏移具有快速且稳健的检测能力.

Parametric Interpolation of Dynamic Mode Decomposition for Predicting Nonlinear Systems

Ananda Chakrabarti et al.

eess.SY cs.LG

本文提出了一种参数插值动态模态分解(piDMD)方法, 用于参数化降阶建模. 该方法通过将参数仿射结构嵌入回归步骤, 学习一个统一的Koopman替代模型, 并在多个流体和电磁粒子模拟基准测试中展现了优于现有插值方法的长期预测鲁棒性.

LLM-Based Automated Diagnosis Of Integration Test Failures At Google

Celal Ziftci et al.

cs.SE cs.AI

本文介绍了一种基于LLM的自动化诊断工具Auto-Diagnose, 用于帮助开发者分析集成测试失败日志并定位根因. 该工具被集成到Google内部的代码审查系统中, 在实际部署中展现了较高的准确性和用户接受度.

PR-MaGIC: Prompt Refinement Via Mask Decoder Gradient Flow For In-Context Segmentation

Minjae Lee et al.

cs.CV cs.AI

本文提出了一种无需训练、在测试时通过SAM mask decoder的梯度流来优化prompt的方法PR-MaGIC, 以提升in-context segmentation的性能. 该方法通过简单的top-1选择策略稳定运行, 并在多个基准测试中有效改善了分割质量.

Beyond Perception Errors: Semantic Fixation in Large Vision-Language Models

Md Tanvirul Alam

cs.CV cs.LG

本文通过构建VLM-Fix基准，研究了大型视觉语言模型(VLMs)中存在的语义固化现象，即模型倾向于依赖先验语义知识而非遵循提示指令。实验表明，通过提示干预和后期激活引导可以部分缓解此问题。

Dequantizing Short-Path Quantum Algorithms

François Le Gall, Suguru Tamaki

quant-ph cs.CC cs.DS

本文通过识别并分析 short-path quantum algorithm 中的经典机制, 为一系列 constraint satisfaction problems (MAX-$k$-CSPs) 提供了去量子化(dequantization)的经典算法. 所得经典算法的时间复杂度为 $2^{(1-c')n}$, 表明当前针对这些问题的 short-path quantum algorithm 并未实现超二次的量子优势.

Observing the unobserved confounding through its effects: toward randomized trial-like estimates from real-world survival data

Vasiliki Stoumpou et al.

stat.AP cs.AI stat.ME

本文提出了一种处理观察性生存数据中未观测混杂因子的三步框架. 该方法通过推断一个潜在的预后因子并进行平衡, 旨在获得更接近随机对照试验的效应估计. 在多个真实世界数据集的评估中, 该方法显示出改善估计一致性和减少偏差的潜力.

From Plan to Action: How Well Do Agents Follow the Plan?

Shuyang Liu et al.

cs.SE cs.AI cs.CL

本文分析了编程智能体在执行任务时对给定计划的遵循程度, 研究了不同计划变体对智能体在软件工程基准上表现的影响. 研究发现, 没有明确计划时, 智能体会依赖训练中内化的、可能不完整或不一致的工作流, 而提供标准计划能提升任务成功率, 但计划的优劣对性能有显著影响.

Domain-Specific Latent Representations Improve the Fidelity of Diffusion-Based Medical Image Super-Resolution

Sebastian Cajas et al.

cs.CV cs.AI

本文通过实验表明, 在医学图像超分辨率任务中, 使用领域特定的 MedVAE 替代通用的 Stable Diffusion VAE 能显著提升重建质量. 研究指出, 自编码器的重建质量是决定下游性能的关键因素, 可作为筛选标准.

Phylogenetic Inference under the Balanced Minimum Evolution Criterion via Semidefinite Programming

P. Skums

q-bio.PE cs.DS math.OC

本文探讨了将 Semidefinite Programming (SDP) 应用于系统发育推断。作者针对 Balanced Minimum Evolution (BME) 问题，提出了一种结合 SDP 松弛与取整方案的算法，并在模拟和实证数据上验证了其准确性。该方法具有扩展到其他系统发育问题的潜力。

Fully Homomorphic Encryption on Llama 3 model for privacy preserving LLM inference

Anes Abdennebi, Nadjia Kara, Laaziz Lahlou

cs.CR cs.AI

本文提出了一种将基于格的后量子全同态加密技术集成到LLaMA-3模型推理流程中的方法，旨在保护大型语言模型推理过程中的数据隐私。实验表明，该方法在保持高文本生成准确率的同时，实现了可接受的推理延迟。

PipeLive: Efficient Live In-place Pipeline Parallelism Reconfiguration for Dynamic LLM Serving

Xu Bai et al.

cs.DC cs.LG

本文提出了一种名为PipeLive的系统, 用于在动态LLM推理场景中实现高效、实时的in-place pipeline parallelism重配置. 它通过重新设计KV cache布局与扩展PageAttention来支持实时的KV缓存大小调整, 并采用增量KV修补机制来同步状态, 从而显著减少了重配置开销和对推理延迟的影响.

Characterizing Resource Sharing Practices on Underground Internet Forum Synthetic Non-Consensual Intimate Image Content Creation Communities

Bernardo B. P. Medeiros et al.

cs.CY cs.AI cs.HC

本文通过分析多个网络论坛的数据, 研究了合成非自愿私密图像(SNCII)内容创建社区中的资源共享实践. 研究发现不同技术水平的用户会使用和共享多种资源, 并且存在知识转移现象, 这揭示了当前监管框架的不足并指出了潜在的干预点.

Towards grounded autonomous research: an end-to-end LLM mini research loop on published computational physics

Haonan Huang

physics.comp-ph cond-mat.mtrl-sci cs.AI

本文提出了一个基于LLM的自主研究框架, 用于在计算物理领域实现从阅读、复现到批判与扩展的完整"迷你研究循环". 该框架在两个维度上进行了测试: 大规模地对111篇论文进行自动化分析, 以及针对一篇特定论文进行深度扩展并生成可发表的评论.

Unveiling the Surprising Efficacy of Navigation Understanding in End-to-End Autonomous Driving

Zhihua Hua et al.

cs.RO cs.AI

本文针对端到端自动驾驶系统过度依赖局部场景理解而忽视全局导航信息的问题, 提出了Sequential Navigation Guidance (SNG)框架. 该框架通过构建SNG-QA数据集和SNG-VLA模型, 旨在更好地融合全局与局部规划, 并在不依赖感知任务辅助损失的情况下实现了先进的性能.

TimeMark: A Trustworthy Time Watermarking Framework for Exact Generation-Time Recovery from AIGC

Shangkun Che, Silin Du, Ge Gao

cs.CR cs.CL

本文提出了一种名为TimeMark的可信时间水印框架, 用于从AI生成内容(AIGC)中精确恢复生成时间. 该框架结合密码学技术, 通过监管下的时间相关密钥和两阶段编码机制, 旨在实现100%的识别准确率并抵抗伪造攻击, 为知识产权纠纷提供潜在的司法证据解决方案.

Ride the Wave: Precision-Allocated Sparse Attention for Smooth Video Generation

Wentai Zhang et al.

cs.CV cs.AI

本文提出了一种用于视频生成的训练无关稀疏注意力框架, 通过动态预算分配、硬件对齐的分组近似和随机选择偏置来减少计算开销并缓解时间闪烁问题.

TEMPLATEFUZZ: Fine-Grained Chat Template Fuzzing for Jailbreaking and Red Teaming LLMs

Qingchao Shen et al.

cs.CR cs.AI cs.SE

本文提出了一个名为 TEMPLATEFUZZ 的细粒度模糊测试框架，用于系统性地发现大型语言模型(LLMs)中聊天模板的安全漏洞。该方法通过设计元素级变异规则和启发式搜索策略，有效提升了攻击成功率，并在多个开源和商业模型上验证了其有效性。

SpanKey: Dynamic Key Space Conditioning for Neural Network Access Control

WenBin Yan

cs.CR cs.AI

本文提出了一种名为 SpanKey 的轻量级神经网络访问控制方法. 该方法通过在中间激活值上施加基于密钥子空间的动态条件, 而非加密权重, 来控制模型的推理访问.

ARGen: Affect-Reinforced Generative Augmentation towards Vision-based Dynamic Emotion Perception

Huanzhen Wang et al.

cs.CV cs.AI

本文提出了一个用于动态面部表情生成的增强框架, 通过结合情感语义注入和自适应强化扩散来生成数据, 以提升在野环境下表情识别的鲁棒性. 实验表明该方法能有效提高生成质量和识别性能.

CodeSpecBench: Benchmarking LLMs for Executable Behavioral Specification Generation

Zaoyu Chen et al.

cs.SE cs.CL

本文提出了一个名为CodeSpecBench的基准测试, 用于评估大语言模型生成可执行行为规范的能力. 该基准支持函数级和仓库级任务, 并通过执行来评估规范的正确性和完整性.

MAST: Mask-Guided Attention Mass Allocation for Training-Free Multi-Style Transfer

Dongkyung Kang et al.

cs.CV cs.AI

本文提出了一种无需训练的、基于扩散模型的多风格迁移框架MAST. 它通过引入掩码引导的注意力质量分配等模块, 旨在解决多风格融合时的边界伪影和结构不一致问题.

Fine-tuning Factor Augmented Neural Lasso for Heterogeneous Environments

Jinhang Chai et al.

stat.ML cs.LG stat.ME

本文提出了一种用于高维非参数回归与变量选择的迁移学习框架FAN-Lasso, 旨在处理协变量偏移和后验偏移. 该方法通过低秩因子结构处理高维协变量, 并利用源预测器提供的增强特征进行知识迁移, 在数值实验中表现优于基线方法.

The Enforcement and Feasibility of Hate Speech Moderation on Twitter

Manuel Tonneau et al.

cs.CY cs.CL

本文通过一项针对Twitter平台的全球性审计, 研究了仇恨言论审核的执行情况与可行性. 研究发现, 大部分仇恨性推文在发布数月后仍未被移除, 且现有自动化检测系统虽能辅助人工审核, 但平台执行力度不足更多反映了资源分配的制度性选择, 而非单纯的技术限制.

Local-Splitter: A Measurement Study of Seven Tactics for Reducing Cloud LLM Token Usage on Coding-Agent Workloads

Justice Owusu Agyemang et al.

cs.DC cs.AI cs.SE

本文系统性地测量了七种策略在编码智能体工作负载上减少云端大语言模型token使用量的效果. 这些策略的核心思想是利用一个小型本地模型作为前沿云端模型的筛选层.

Is Vibe Coding the Future? An Empirical Assessment of LLM Generated Codes for Construction Safety

S M Jamil Uddin

cs.SE cs.AI cs.HC

本文通过实证评估了三种前沿LLM生成的450个Python脚本在建筑安全领域的可靠性. 研究发现, 尽管代码执行可行性较高, 但存在高比例的静默失败和逻辑缺陷, 表明当前LLM缺乏独立安全工程所需的确定性严谨性.

EgoEsportsQA: An Egocentric Video Benchmark for Perception and Reasoning in Esports

Jianzhe Ma et al.

cs.CV cs.AI cs.MM

本文提出了一个名为EgoEsportsQA的新视频问答基准，用于评估视频大语言模型在快节奏、信息密集的电子竞技虚拟环境中的感知与推理能力。该基准包含来自专业比赛的1745个高质量问答对，并通过系统评估揭示了当前模型在深度战术推理等方面的不足。

All in One: A Unified Synthetic Data Pipeline for Multimodal Video Understanding

Tanzila Rahman, Renjie Liao, Leonid Sigal

cs.CV cs.LG

本文提出了一种用于多模态视频理解的统一合成数据生成框架. 该框架能够自动生成带有丰富标注的多样化视频数据, 并支持在单一流程中创建多种任务格式的数据. 实验表明, 主要使用该合成数据训练的模型在多个真实世界视频理解任务上表现良好.

GeM-EA: A Generative and Meta-learning Enhanced Evolutionary Algorithm for Streaming Data-Driven Optimization

Yue Wu et al.

cs.NE cs.AI

本文提出了一种名为GeM-EA的算法，用于处理流数据驱动的优化问题。该方法结合了元学习和生成式重放技术，以应对环境变化带来的挑战。

Information-Geometric Decomposition of Generalization Error in Unsupervised Learning

Gilhan Kim

stat.ML cond-mat.stat-mech cs.IT cs.LG math.ST

本文提出了一种基于信息几何的无监督学习泛化误差分解方法, 将Kullback-Leibler泛化误差精确分解为模型误差、数据偏差和方差三个非负项. 该方法适用于任何e-平坦(e-flat)模型类, 并通过对正则化主成分分析($\epsilon$-PCA)的应用进行了理论验证和数值模拟.

FRTSearch: Unified Detection and Parameter Inference of Fast Radio Transients using Instance Segmentation

Bin Zhang et al.

astro-ph.IM cs.AI

本文提出了一种名为FRTSearch的端到端框架, 用于统一检测和表征Fast Radio Transients (FRTs). 该方法将FRT检测重构为模式识别问题, 利用Mask R-CNN进行轨迹分割, 并结合物理驱动的算法直接推断物理参数, 在保持高召回率的同时显著降低了误报率并提升了处理速度.

Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors

Rui Yin et al.

cs.CR cs.CL

本文提出了一种通过将激活导向编译到模型权重中的方法, 为大型语言模型(LLMs)植入隐蔽后门. 该方法利用零空间约束来确保后门仅在特定触发词出现时激活, 从而在保持模型正常功能的同时实现可靠的越狱攻击.

Cross-Domain Transfer with Particle Physics Foundation Models: From Jets to Neutrino Interactions

Gregor Krzmanc et al.

hep-ex cs.LG hep-ph physics.data-an

本文探讨了将预训练的粒子物理基础模型OmniLearnt迁移到低能中微子实验MINERvA上的可行性。研究通过回归和分类任务评估了迁移效果，发现预训练模型在性能和训练效率上均优于从头训练的模型。

Beyond Output Correctness: Benchmarking and Evaluating Large Language Model Reasoning in Coding Tasks

Yuangang Li et al.

cs.SE cs.AI cs.LG

本文提出了首个用于评估大语言模型在多种编程任务中推理质量的基准 CodeRQ-Bench, 并基于此分析了现有评估器的不足. 作者进一步设计了一个两阶段的评估器 VERA, 实验表明其在多个数据集上优于现有基线.

Chain-of-Models Pre-Training: Rethinking Training Acceleration of Vision Foundation Models

Jiawei Fan et al.

cs.CV cs.AI

本文提出了一种名为Chain-of-Models Pre-Training (CoM-PT)的新方法，用于加速视觉基础模型(VFMs)的训练。该方法通过构建一个按模型大小升序排列的模型链，仅对最小模型进行标准预训练，而让更大的模型通过参数空间和特征空间的联合知识复用，从其较小的前驱模型中高效地学习，从而在保持性能的同时显著降低训练成本。

Security and Resilience in Autonomous Vehicles: A Proactive Design Approach

Chieh Tsai, Murad Mehrab Abrar, Salim Hariri

cs.CR cs.AI

本文针对自动驾驶车辆的安全与韧性提出了一种主动设计方法. 通过分层威胁建模与包含冗余、多样性和自适应重配置的韧性架构, 结合异常检测等技术, 在实验平台上验证了其对特定攻击的防御有效性.

Machine learning for four-dimensional SU(3) lattice gauge theories

Urs Wenger

hep-lat cs.LG

本文综述了机器学习在四维SU(3)格点规范理论模拟中的应用，重点介绍了改进规范场配置采样的方法。这些方法包括基于生成模型（如标准化流和扩散过程）以及基于重整化群变换的技术。

RACF: A Resilient Autonomous Car Framework with Object Distance Correction

Chieh Tsai, Hossein Rastgoftar, Salim Hariri

cs.RO cs.AI

本文提出了一种用于自动驾驶的弹性感知框架, 通过融合深度相机, LiDAR 和基于物理的运动学模型来校正物体距离估计, 以提高系统在感知故障或攻击下的鲁棒性. 实验表明该框架能有效降低距离估计误差并改善实时安全性能.

VeriX-Anon: A Multi-Layered Framework for Mathematically Verifiable Outsourced Target-Driven Data Anonymization

Miit Daga, Swarna Priya Ramu

cs.CR cs.DB cs.LG

本文提出了一个用于外包目标驱动数据匿名化的多层可验证框架 VeriX-Anon. 它结合了确定性、概率性和基于效用的验证机制, 并在多个数据集上评估了其检测异常的有效性.

A Bayesian Perspective on the Role of Epistemic Uncertainty for Delayed Generalization in In-Context Learning

Abdessamed Qchohi, Simone Rossi

stat.ML cs.LG

本文从 Bayesian 视角研究了 in-context learning 中的延迟泛化现象. 通过分析 epistemic uncertainty 在训练中的动态变化, 发现其与泛化发生的时间点存在关联.

IAD-Unify: A Region-Grounded Unified Model for Industrial Anomaly Segmentation, Understanding, and Generation

Haoyu Zheng et al.

cs.CV cs.AI

本文提出了一个用于工业异常检测的统一模型 IAD-Unify, 它通过一个双编码器框架, 将基于 DINOv2 的区域专家信息注入到一个共享的视觉-语言骨干网络中, 从而同时支持异常分割、基于区域的描述和掩码引导的生成任务. 为了评估, 作者还构建了一个大规模的多任务评估平台 Anomaly-56K.

X-VC: Zero-shot Streaming Voice Conversion in Codec Space

Qixi Zheng et al.

eess.AS cs.AI

本文提出了一种名为X-VC的零样本流式语音转换系统，它在预训练神经编解码器的潜在空间中执行一步转换。该系统通过双条件声学转换器建模源编码和参考语音的声学条件，并结合分块推理方案以实现低延迟流式处理。实验表明，该方法在保持音质和说话人相似度的同时，显著降低了延迟。

Euler-inspired Decoupling Neural Operator for Efficient Pansharpening

Anqi Zhu et al.

cs.CV cs.AI

本文提出了一种受Euler公式启发的解耦神经算子(EDNO), 用于全色锐化任务. 该方法在频域中将特征转换到极坐标系, 通过显式和隐式模块分别处理几何对齐与光谱一致性, 在保持高效的同时取得了有竞争力的性能.

Beyond Single-Dimension Novelty: How Combinations of Theory, Method, and Results-based Novelty Shape Scientific Impact

Yi Zhao et al.

cs.DL cs.CL cs.IR

本文研究了科学新颖性的多个维度(理论, 方法, 结果)的组合如何影响论文的学术影响力. 通过对大量论文进行自动分类和回归分析, 发现仅包含结果新颖性的论文比同时包含三种新颖性的论文获得了更高的引用.

From Kinematics to Dynamics: Learning to Refine Hybrid Plans for Physically Feasible Execution

Lidor Erez, Shahaf S. Shperberg, Ayal Taitler

cs.RO cs.AI

本文提出了一种使用强化学习在连续空间中优化混合规划的方法. 该方法通过定义包含二阶动力学约束的Markov Decision Process, 来修正由混合规划器生成的一阶轨迹, 以恢复其物理可行性.

Audio Source Separation in Reverberant Environments using $β$-divergence based Nonnegative Factorization

Mahmoud Fakhry, Piergiorgio Svaizer, Maurizio Omologo

cs.SD cs.AI

本文提出了一种在混响环境中基于$\beta$-divergence的非负矩阵分解进行音频源分离的方法。该方法通过引入关于源信号方差的先验信息来估计模型参数，并利用乘性更新规则最小化$\beta$-divergence以实现分解，其中$\beta$值可用于控制分解的稀疏性。实验表明，分解的稀疏性对提升分离性能至关重要，该方法在多种混合条件下优于其他可比算法。

Social Learning Strategies for Evolved Virtual Soft Robots

K. Ege de Bruin et al.

cs.RO cs.AI

本文提出了一种用于虚拟软体机器人协同进化的社会学习框架, 使机器人能够利用同辈已优化的控制参数来加速自身"大脑"优化. 通过系统研究教师选择策略(如选择形态相似的个体)在多个任务中的影响, 实验表明该方法在同等计算预算下显著优于从零学习.

Elastic Net Regularization and Gabor Dictionary for Classification of Heart Sound Signals using Deep Learning

Mahmoud Fakhry, Ascensión Gallardo-Antolín

cs.SD cs.AI

本文提出了一种结合Elastic Net正则化与Gabor字典的方法来优化心音信号的时频表示, 并利用深度学习网络进行分类. 通过在不同分辨率和正则化组合下评估分类性能, 实验表明采用高时间分辨率Gabor字典和稀疏约束的模型, 结合特定的CNN-LSTM网络架构, 在特定数据集上取得了较高的分类准确率.

Deepfakes at Face Value: Image and Authority

James Ravi Kirkpatrick

cs.CY cs.AI

本文从哲学与伦理角度探讨了Deepfakes（深度伪造）的侵权本质，认为其错误性不仅在于造成实际伤害，更在于侵犯了个人对其形象使用和身份治理的权威。作者提出了一种新的权利主张，即反对个人身份被算法征用，并区分了可允许的艺术描绘与错误的算法模拟。

Lit2Vec: A Reproducible Workflow for Building a Legally Screened Chemistry Corpus from S2ORC for Downstream Retrieval and Text Mining

Mahmoud Amiri et al.

cs.DB cs.AI

本文介绍了一个名为Lit2Vec的可复现工作流, 用于从S2ORC中构建一个经过法律许可筛选的化学文献语料库. 该工作流包括许可筛选, 语料构建, 文本分块, 嵌入生成以及技术验证等步骤, 并发布了相关的代码与资源.

SEATrack: Simple, Efficient, and Adaptive Multimodal Tracker

Junbin Su et al.

cs.CV cs.AI

本文提出了一种名为SEATrack的简单、高效、自适应的双流多模态跟踪器，旨在解决参数高效微调中性能与效率的权衡问题。它通过AMG-LoRA模块来对齐跨模态的注意力图，并引入分层混合专家模型进行全局关系建模。

NTIRE 2026 The 3rd Restore Any Image Model (RAIM) Challenge: Professional Image Quality Assessment (Track 1)

Guanyi Qin et al.

cs.CV cs.AI

本文介绍了NTIRE 2026挑战赛中关于专业图像质量评估的赛道概况。该挑战旨在利用多模态大语言模型来模拟人类专家对高质量图像进行对比评估和解释性推理。

MODIX: A Training-Free Multimodal Information-Driven Positional Index Scaling for Vision-Language Models

Ruoxiang Huang, Zhen Yuan

cs.CV cs.AI

本文提出了一种无需训练的多模态信息驱动位置索引缩放方法 MODIX, 用于改进 Vision-Language Models 中的位置编码机制. 该方法通过基于协方差的熵和跨模态对齐来联合建模模态内密度和模态间交互, 从而动态调整位置步长, 优化注意力分配.

LLM-Guided Prompt Evolution for Password Guessing

Vladimir A. Mazin et al.

cs.CR cs.AI

本文提出了一种利用LLM驱动的进化计算来自动优化密码猜测框架中prompt的方法. 该方法通过结合MAP-Elites质量多样性搜索和岛屿种群模型的系统, 在多个LLM配置下提升了密码破解率, 并生成了统计上更真实的密码.

Efficient Semantic Image Communication for Traffic Monitoring at the Edge

Damir Assylbek et al.

cs.CV cs.AI cs.NI

本文提出了两种用于交通监控的语义图像通信方案, MMSD 和 SAMR, 旨在降低传输成本. 它们采用非对称的发送-接收架构, 在边缘进行轻量处理, 在服务器端进行密集的重建, 实现了极高的数据压缩率.

Neural Dynamic GI: Random-Access Neural Compression for Temporal Lightmaps in Dynamic Lighting Environments

Jianhui Wu et al.

cs.GR cs.AI

本文提出了一种用于动态光照环境下时间性光照贴图集的新型压缩技术 Neural Dynamic GI (NDGI). 该方法利用多维特征图和轻量级神经网络整合时间信息, 并结合块压缩模拟与虚拟纹理系统, 在显著降低存储需求的同时支持高质量的实时全局光照.

GeoAlign: Geometric Feature Realignment for MLLM Spatial Reasoning

Zhaochen Liu et al.

cs.CV cs.CL

本文提出了一种名为GeoAlign的框架, 用于提升多模态大语言模型(MLLM)的空间推理能力. 该方法通过动态聚合3D基础模型的多层几何特征, 而非依赖静态的单层特征提取, 来更好地对齐MLLM的多样化空间推理需求.

Contextual Multi-Task Reinforcement Learning for Autonomous Reef Monitoring

Melvin Laux et al.

cs.RO cs.AI

本文提出了一种基于 contextual multi-task reinforcement learning 的方法，用于训练自主水下航行器在珊瑚礁监测任务中的控制策略。该方法旨在提高策略的样本效率、对未见任务的零样本泛化能力以及对水流变化的鲁棒性。

Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification

Tsai-Ning Wang et al.

cs.SD cs.CL

本文提出了一种用于零样本呼吸音分类的自适应测试时计算框架TRIAGE. 该框架通过基于置信度的路由机制, 将样本分配到不同计算成本的推理层级, 在保持整体性能的同时显著降低了平均计算开销.

PromptEcho: Annotation-Free Reward from Vision-Language Models for Text-to-Image Reinforcement Learning

Jinlong Liu et al.

cs.CV cs.AI

本文提出了一种无需标注和训练的奖励构建方法 PromptEcho, 用于提升文本到图像模型的提示跟随能力. 该方法利用冻结的视觉语言模型计算确定性奖励, 并在多个基准测试上取得了改进.

Data-driven Reachable Set Estimation with Tunable Adversarial and Wasserstein Distributional Guarantees

Georgios Pantazis, Michelle S. Chong

math.OC cs.LG eess.SY

本文针对未知离散时间动力系统的可达集估计问题, 提出了一种基于场景优化和数据驱动的方法. 通过引入松弛变量和对抗性扰动处理, 该方法能在可达集大小与轨迹包含概率之间进行权衡, 并提供了后验概率保证.

FeaXDrive: Feasibility-aware Trajectory-Centric Diffusion Planning for End-to-End Autonomous Driving

Baoyun Wang et al.

cs.RO cs.LG

本文提出了一种名为FeaXDrive的可行性感知轨迹中心扩散规划方法, 用于端到端自动驾驶. 该方法通过整合自适应曲率约束训练, 可行驶区域引导和可行性感知的GRPO后训练, 旨在改善生成轨迹的几何, 运动学可行性和与可行驶区域的一致性.

On Higher-Order Geometric Refinements of Classical Covariance Asymptotics: An Approach via Intrinsic and Extrinsic Information Geometry

Malik Amir, Sourangshu Ghosh

math.ST cs.LG math.AG math.DG

本文通过将参数族视为具有Fisher-Rao度量的Riemannian流形，并浸入$L^2(\mu)$空间，推导了在规则参数模型下，对经典Fisher信息协方差渐近的$n^{-2}$阶曲率修正。该修正由一个张量$P_{ij}$描述，可分解为内蕴Ricci型收缩、外蕴Gram型收缩和Hellinger差异张量三部分。文章还将此框架扩展到Fisher信息退化的奇异模型，利用奇点解消描述了分辨度量、实对数典范阈值的作用，以及在分辨空间上的协方差展开。

Transformer Based Machine Fault Detection From Audio Input

Kiran Voderhobli Holla

cs.SD cs.LG

本文探讨了使用基于Transformer的模型进行机器故障检测, 与传统CNN方法进行了比较. 作者认为Transformer在音频频谱图分析上可能具有优势, 并展示了其在特定任务上的有效性.

Evaluating Differential Privacy Against Membership Inference in Federated Learning: Insights from the NIST Genomics Red Team Challenge

Gustavo de Carvalho Bertoli

cs.CR cs.LG

本文在联邦学习环境中评估了差分隐私对成员推理攻击的防御效果. 通过集成多个黑盒估计器构建堆叠攻击, 实验表明即使在中等隐私预算($\epsilon=200$)下, 模型仍存在可测量的成员信息泄露.

ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search

Myungchul Kim et al.

cs.CV cs.AI cs.MA

本文提出了ARGOS, 一个将多摄像头行人搜索重新定义为交互式推理任务的基准和框架. 该框架要求智能体在信息不对称条件下, 通过规划、提问和排除候选人来完成任务, 并在实验中验证了其挑战性.

CLASP: Class-Adaptive Layer Fusion and Dual-Stage Pruning for Multimodal Large Language Models

Yunkai Dang et al.

cs.CV cs.AI

本文提出了一种名为CLASP的即插即用框架, 用于减少多模态大语言模型(MLLMs)中视觉token的冗余. 该方法通过类别自适应的层融合与双阶段剪枝策略, 动态地根据指令融合视觉特征并分配token预算, 在多个基准测试和模型架构上取得了优于现有方法的效果.

Cognition-Inspired Dual-Stream Semantic Enhancement for Vision-Based Dynamic Emotion Modeling

Huanzhen Wang et al.

cs.CV cs.AI

本文提出了一种受认知启发的双流语义增强模型, 用于基于视觉的动态情感建模. 该模型通过模拟人脑处理情感的双流认知架构, 在动态面部表情识别任务上取得了先进的性能.

DoseRAD2026 Challenge dataset: AI accelerated photon and proton dose calculation for radiotherapy

Fan Xiao et al.

physics.med-ph cs.AI cs.CV

本文介绍了DoseRAD2026数据集，该数据集包含配对的CT和MRI图像以及光子与质子的蒙特卡罗剂量分布，旨在为放疗中快速、精确的剂量计算方法提供公共基准。

Efficient Adversarial Training via Criticality-Aware Fine-Tuning

Wenyun Li et al.

cs.CV cs.AI

本文提出了一种名为Criticality-Aware Adversarial Training (CAAT)的新方法，用于高效地对Vision Transformer (ViT)模型进行对抗训练。该方法通过识别对对抗鲁棒性至关重要的参数，并仅对这些选定的模块进行微调，从而在显著减少可训练参数的同时，保持了与标准对抗训练相当的鲁棒性。

Efficiency of Proportional Mechanisms in Online Auto-Bidding Advertising

Nguyen Kim Thang

cs.GT cs.AI cs.DS

本文研究了在线自动竞价广告中比例机制在 liquid welfare 目标下的效率, 分析了纯纳什均衡的 price of anarchy (PoA). 作者为标准比例机制建立了紧的 PoA 界 2, 并提出了一种改进的支付方案, 其 PoA 界为 $1 + \frac{O(1)}{n-1}$, 随着竞价智能体(agent)数量 $n$ 的增加而趋近于完全效率. 分析中运用了对偶理论和 KKT 条件.

Generative Anonymization in Event Streams

Adam T. Müller, Mihai Kocsis, Nicolaj C. Stache

cs.CV cs.LG

本文提出了一种针对事件流数据的生成式匿名化框架, 旨在解决隐私保护与数据可用性之间的权衡. 该方法通过将异步事件映射到中间强度表示, 利用预训练模型合成不存在的身份, 并重新编码回事件域, 从而在保护身份隐私的同时保持数据的时空结构.

Rethinking Satellite Image Restoration for Onboard AI: A Lightweight Learning-Based Approach

Adrien Dorise, Marjorie Bellizzi, Omar Hlimi

cs.CV cs.AI

本文提出了一种用于星载AI的轻量级卷积网络ConvBEERS, 用于卫星图像恢复. 该方法在模拟和真实数据上取得了有竞争力的恢复质量, 并显著提升了后续目标检测任务的性能, 同时成功在FPGA上部署, 验证了其星载处理的可行性.

Detecting and refurbishing ground truth errors during training of deep learning-based echocardiography segmentation models

Iman Islam et al.

cs.CV cs.AI

本文研究了深度学习模型对超声心动图分割中ground truth标签错误的鲁棒性, 并评估了一种在模型训练期间检测和修复错误标签的新策略. 实验表明, 基于梯度方差(VOG)的方法能有效标记错误标签, 而检测与修复策略在高错误率条件下能提升模型性能.

Rapid LoRA Aggregation for Wireless Channel Adaptation in Open-Set Radio Frequency Fingerprinting

Mingxi Zhang et al.

eess.SP cs.CR cs.LG

本文提出了一种基于Low-Rank Adaptation (LoRA)的轻量级自适应无线射频指纹提取框架, 用于开放集场景下的设备认证. 该方法通过预训练环境特定的LoRA模块, 实现了对未知信道条件的快速适应, 无需完整重训练, 在降低计算成本的同时提升了认证性能.

FastGrasp: Learning-based Whole-body Control method for Fast Dexterous Grasping with Mobile Manipulators

Heng Tao et al.

cs.RO cs.AI

本文提出了一个名为FastGrasp的基于学习的框架，用于解决移动机器人的快速灵巧抓取问题。该框架整合了抓取引导、全身控制和触觉反馈，通过两阶段强化学习策略实现。实验表明，该方法在仿真和现实场景中均表现出色。

VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization

Andrei Atanov et al.

cs.CV cs.LG

本文提出了一种名为VideoFlexTok的视频tokenization方法, 它采用coarse-to-fine的方式将视频编码为可变长度的token序列. 该方法允许根据下游任务需求调整token数量, 并在生成质量和模型效率上优于标准的3D网格tokenization方法.

Towards Long-horizon Agentic Multimodal Search

Yifan Du et al.

cs.CV cs.AI

本文提出了一种名为LMM-Searcher的长视野多模态深度搜索框架，通过基于文件的视觉表示机制来管理多模态信息。该方法利用外部文件系统存储视觉资产，并使用轻量级文本标识符来减少上下文开销，同时通过定制的工具实现按需的渐进式视觉加载。实验表明，该框架能有效扩展到100轮搜索，并在多个基准测试上取得了先进的性能。

Don't Show Pixels, Show Cues: Unlocking Visual Tool Reasoning in Language Models via Perception Programs

Muhammad Kamran Janjua et al.

cs.CV cs.LG

本文提出了一种名为 Perception Programs (P$^2$) 的训练无关方法, 用于改进多模态语言模型对视觉工具输出的利用. 该方法将密集的像素级工具输出重写为紧凑的结构化语言摘要, 从而在多个感知任务上显著提升了模型的性能, 且无需对模型进行任何修改或额外训练.

Frequency-aware Decomposition Learning for Sensorless Wrench Forecasting on a Vibration-rich Hydraulic Manipulator

Hyeonbeen Lee et al.

cs.RO cs.LG

本文提出了一种用于振动丰富的液压机械臂无传感器力矩短期预测的频率感知分解网络(FDN). 该方法通过非对称的确定性与概率性头预测频谱分解的力矩, 并在真实世界挖掘数据上验证了其在高频段的优势.

CoDe-R: Refining Decompiler Output with LLMs via Rationale Guidance and Adaptive Inference

Qiang Zhang, Zhongnian Li

cs.SE cs.AI cs.CR

本文提出了一种名为CoDe-R的轻量级两阶段代码精炼框架, 用于改进二进制反编译的输出. 该框架结合了语义认知增强和动态双路径回退机制, 在轻量级模型上实现了新的最优性能.

Token Encoding for Semantic Recovery

Jingzhi Hu, Geoffrey Ye Li

eess.SP cs.LG

本文提出了一种用于语义恢复的token编码框架(TokCode), 该框架无需额外传输开销并支持即插即用部署. 通过一种句子语义引导的基础模型适配算法(SFMA)来优化token编码器, 避免了昂贵的端到端训练, 在生成式图像传输任务中, TokCode能有效减轻语义失真.

Distorted or Fabricated? A Survey on Hallucination in Video LLMs

Yiyang Huang et al.

cs.CV cs.AI

本文对Video Large Language Models (Vid-LLMs)中的幻觉问题进行了系统性综述。文章提出了一个分类法，并回顾了相关的评估与缓解方法。

Parallax: Why AI Agents That Think Must Never Act

Joel Fokou

cs.CR cs.AI

本文讨论了具有执行能力的AI智能体的安全问题, 指出仅依赖prompt层面的防护措施在架构上是不充分的. 作者提出了名为Parallax的安全执行范式, 其核心原则包括认知与执行分离、对抗性验证等, 并提供了一个开源实现和评估结果.

ROSE: An Intent-Centered Evaluation Metric for NL2SQL

Wenqi Pei et al.

cs.DB cs.AI

本文提出了一种名为ROSE的意图中心评估指标, 用于评估自然语言转SQL(NL2SQL)任务. 该指标通过一个对抗性的证明者-反驳者级联结构, 独立于参考SQL来评估预测SQL的语义正确性, 旨在解决传统执行准确率(EX)指标的局限性.

Causal Diffusion Models for Counterfactual Outcome Distributions in Longitudinal Data

Farbod Alinezhad et al.

stat.ML cs.LG econ.EM

本文提出了一种用于纵向数据反事实结果分布预测的Causal Diffusion Model (CDM). 该方法基于去噪扩散概率模型, 旨在生成序列干预下结果的完整概率分布, 无需显式的去混杂调整.

LogicEval: A Systematic Framework for Evaluating Automated Repair Techniques for Logical Vulnerabilities in Real-World Software

Syed Md Mukit Rashid et al.

cs.CR cs.AI

本文提出了一个名为LogicEval的系统性框架，用于评估针对现实世界软件中逻辑漏洞的自动修复技术。作者构建了首个包含86个逻辑漏洞的数据集LogicDS，并利用该框架评估了传统方法和基于LLM的方法，发现编译和测试失败主要与提示敏感性、代码上下文丢失和补丁定位困难有关。

Representation geometry shapes task performance in vision-language modeling for CT enterography

Cristian Minoccheri et al.

cs.CV cs.AI

本文研究了在腹部CT肠造影中应用vision-language transfer learning的方法, 重点比较了不同表征聚合策略(如mean pooling与attention pooling)和图像编码策略(如multi-window RGB encoding与multiplanar sampling)对疾病分类和跨模态检索任务性能的影响. 研究发现, 针对特定任务选择不同的表征聚合方式至关重要, 并且利用检索增强生成(RAG)技术可以显著提升报告生成的性能.

Classical and Quantum Speedups for Non-Convex Optimization via Energy Conserving Descent

Yihang Sun et al.

quant-ph cs.LG math.OC stat.ML

本文研究了用于非凸优化的Energy Conserving Descent (ECD)方法及其随机与量子变体。在一维双势阱目标函数下，证明了这些方法相比梯度下降能获得指数级加速。

Visual Preference Optimization with Rubric Rewards

Ya-Qi Yu et al.

cs.CV cs.AI

本文提出了一个基于实例特定评分标准的偏好优化框架 rDPO, 用于改进多模态任务中的视觉偏好学习. 该方法通过构建离线的指令-标准池来指导在线策略数据的构建, 在多个基准测试中取得了优于现有方法的结果.

SceneCritic: A Symbolic Evaluator for 3D Indoor Scene Synthesis

Kathakoli Sengupta, Kai Ao, Paola Cascante-Bonilla

cs.CV cs.CL

本文提出了一种名为SceneCritic的符号化评估器，用于评估基于floor-plan的3D室内场景布局。该方法基于一个名为SceneOnto的结构化空间本体，通过验证对象关系的语义、方向和几何一致性来提供评估。实验表明，该评估器比基于VLM的方法更符合人类判断，并探讨了不同反馈模式对布局迭代优化的影响。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.DS

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others