bluearXiv-ai - 2026-02-20

📄 所有论文

cs.LG

Powering Up Zeroth-Order Training via Subspace Gradient Orthogonalization ⭐ 精选

Yicheng Lang et al.

cs.LG

本文提出了一种名为 ZO-Muon 的新方法，通过将基于投影的子空间梯度估计与 Muon 风格的谱优化相结合，统一了子空间梯度正交化框架。该方法利用模型更新的内在低秩结构来降低梯度估计方差，并通过梯度正交化从噪声 ZO 梯度中提取信息丰富的谱结构。在大型语言模型和视觉 Transformer 上的实验表明，该方法在收敛速度、精度和查询效率上均显著优于现有基线，例如在 LLM 微调任务中仅需 MeZO 24.7% 的查询即可达到相同性能。

Multi-Objective Alignment of Language Models for Personalized Psychotherapy

Mehrab Beikzadeh et al.

cs.LG cs.CL

本文提出了一种用于个性化心理治疗的多目标语言模型对齐框架, 通过直接偏好优化(DPO)来平衡多个治疗标准. 该方法在临床评估中表现优于单目标优化和基线方法.

MMCAformer: Macro-Micro Cross-Attention Transformer for Traffic Speed Prediction with Microscopic Connected Vehicle Driving Behavior

Lei Han et al.

cs.LG

本文提出了一种名为MMCAformer的Transformer模型, 用于整合宏观交通流特征与基于Connected Vehicle数据的微观驾驶行为特征来进行交通速度预测. 模型通过self-attention和cross-attention机制分别学习宏观特征的内在依赖以及宏微观特征间的时空交互, 并使用Student-t负对数似然损失进行优化以提供点预测和不确定性估计. 在四条高速公路上的实验表明, 引入微观行为特征(如急刹车和急加速频率)能显著提升预测精度并降低不确定性, 尤其在拥堵的低速交通条件下效果更为明显.

A Few-Shot LLM Framework for Extreme Day Classification in Electricity Markets

Saud Alghumayjan, Ming Yi, Bolun Xu

cs.LG eess.SY

本文提出了一种基于大语言模型(Large Language Models, LLMs)的小样本分类框架，用于预测电力市场中次日实时电价是否会出现尖峰。该方法将系统状态信息转化为统计特征并格式化为自然语言提示，输入LLM进行判断，在数据有限的情况下表现优于传统监督学习模型。

Real-time Secondary Crash Likelihood Prediction Excluding Post Primary Crash Features

Lei Han et al.

cs.LG

本文提出了一种不依赖事故后特征的实时次生事故可能性预测混合框架. 该框架设计了动态时空窗口提取实时特征, 并集成多个机器学习模型进行预测, 在真实数据上取得了较好的性能.

Quantifying LLM Attention-Head Stability: Implications for Circuit Universality

Karan Bali et al.

cs.LG cs.AI

本文通过量化不同训练实例中attention head的稳定性，研究了transformer语言模型中"circuits"的普适性问题。研究发现中间层head最不稳定但表征最独特，且权重衰减优化能显著提升稳定性。

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Haoxiang Sun et al.

cs.LG cs.AI

本文介绍了一个名为DeepVision-103K的大规模、多样化、可验证的多模态数学数据集，旨在提升大型多模态模型的视觉推理能力。该数据集覆盖了广泛的K12数学主题和视觉元素，实验表明基于其训练的模型在多项多模态推理基准上表现良好。

PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency

Zhangyi Liu et al.

cs.LG cs.AI

本文提出了一个用于优化测试时自一致性轨迹分配的框架PETS. 它通过将轨迹分配问题形式化为一个优化问题, 并在离线和在线两种设置下提供了理论保证和高效算法.

Low-Dimensional and Transversely Curved Optimization Dynamics in Grokking

Yongzhong Xu

cs.LG cs.AI

本文通过分析transformer在模运算任务上的优化轨迹, 发现训练过程主要发生在一个低维的"执行子空间"内. 研究进一步表明, 在泛化发生前, 损失函数在垂直于该子空间的方向上曲率会显著增加.

LiveClin: A Live Clinical Benchmark without Leakage

Xidong Wang et al.

cs.LG cs.AI

本文提出了一个名为 LiveClin 的动态临床基准测试，旨在解决医学大语言模型评估中的数据污染和知识过时问题。该基准基于最新的同行评审病例报告构建，并通过人工验证流程生成了复杂的多模态评估场景。

Attending to Routers Aids Indoor Wireless Localization

Ayush Roy et al.

cs.LG cs.AI cs.NI

本文提出了一种基于注意力机制的室内Wi-Fi定位方法, 通过为不同路由器(router)的信号赋予不同的权重来改进定位精度. 实验表明, 该方法在公开数据集上的性能优于基准架构.

Machine Learning Argument of Latitude Error Model for LEO Satellite Orbit and Covariance Correction

Alex Moody, Penina Axelrad, Rebecca Russell

cs.LG cs.RO eess.SY

本文提出了一种机器学习方法来修正低地球轨道(LEO)卫星近地点幅角(argument of latitude)的误差增长, 旨在改善轨道传播精度并维持高斯不确定性假设的有效性. 该方法利用神经网络和高斯过程(Gaussian Process)进行预测, 并将修正映射到笛卡尔状态空间, 从而在不改变现有传播器功能的情况下延长了VCM星历的可用时间.

Omitted Variable Bias in Language Models Under Distribution Shift

Victoria Lin, Louis-Philippe Morency, Eli Ben-Michael

cs.LG cs.CL stat.ME

本文讨论了语言模型在分布偏移下因未观测变量导致的遗漏变量偏差问题. 作者提出了一个将未观测变量强度映射到最坏情况泛化性能边界的框架, 并通过实验验证了其在评估和优化中的有效性.

Better Think Thrice: Learning to Reason Causally with Double Counterfactual Consistency

Victoria Lin et al.

cs.LG cs.CL

本文提出了一种名为 double counterfactual consistency (DCC) 的轻量级推理时方法，用于评估和引导大语言模型(LLMs)的因果推理能力。该方法无需标注数据，通过验证模型执行因果干预和反事实预测的能力来提升其在多种推理任务上的表现。

Escaping the Cognitive Well: Efficient Competition Math with Off-the-Shelf Models

Xingyu Dang et al.

cs.LG

本文提出了一种基于通用现成模型的高效推理流程, 用于解决IMO风格的数学问题. 该方法通过提取猜想并进行独立验证, 显著降低了推理成本, 并在基准测试中取得了领先的性能.

Efficient Tail-Aware Generative Optimization via Flow Model Fine-Tuning

Zifan Wang et al.

cs.LG math.OC

本文提出了一种基于Conditional Value-at-Risk (CVaR)的分布微调算法TFFT，用于对预训练的flow模型进行尾部感知的生成优化。该方法通过一个解耦的两阶段过程，高效地实现了对高奖励或低奖励尾部行为的控制，计算成本与标准的期望奖励微调方法相当。

TopoFlow: Physics-guided Neural Networks for high-resolution air quality prediction

Ammar Kheder et al.

cs.LG

本文提出了一种结合物理知识的神经网络方法TopoFlow, 用于高分辨率空气质量预测. 该方法通过地形感知注意力和风引导的patch重排机制, 在Transformer架构中显式地建模了地形和风对污染物扩散的影响, 并在中国地区的预测任务上取得了优于现有方法的性能.

Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees

Itamar Hadad, Guy Katz, Shahaf Bassan

cs.LG cs.LO

本文利用神经网络验证技术, 提出了一套能提供可证明保证的自动化电路发现算法. 这些算法在多个视觉模型上实现了比标准方法更强的鲁棒性保证.

HiVAE: Hierarchical Latent Variables for Scalable Theory of Mind

Nigel Doering et al.

cs.LG cs.AI

本文提出了一种用于扩展心智理论(Theory of Mind)推理到现实时空领域的层次变分架构HiVAE. 该模型在校园导航任务上取得了性能提升, 但学到的潜在表征缺乏对实际心理状态的显式关联.

Learning under noisy supervision is governed by a feedback-truth gap

Elan Schonfeld, Elias Wisnia

cs.LG cs.AI cs.NE

本文通过一个双时间尺度模型, 分析了在反馈吸收速度超过任务结构评估速度时, 学习者会倾向于反馈而非真实情况, 从而产生"反馈-真实差距". 该研究在带噪声标签训练的神经网络、人类概率反转学习以及结合脑电图的人类奖惩学习等多个系统中验证了这一差距的普遍存在及其不同的调节机制.

VAM: Verbalized Action Masking for Controllable Exploration in RL Post-Training -- A Chess Case Study

Zhicheng Zhang et al.

cs.LG cs.AI

本文提出了一种名为Verbalized Action Masking (VAM)的方法，用于改进大型语言模型在强化学习后训练阶段的探索问题。该方法通过将动作掩码以文本形式融入提示，并迭代地修剪动作空间，在象棋任务中提升了学习效率和最终性能。

A Residual-Aware Theory of Position Bias in Transformers

Hanna Herasimchyk et al.

cs.LG

本文通过引入 residual connections 分析了 Transformer 中的位置偏差, 证明了在有限深度下因果 Transformer 会产生 U 形位置偏差, 为 "Lost-in-the-Middle" 现象提供了理论解释.

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

Zeliang Zhang et al.

cs.LG cs.CL

本文提出了一种称为Progressive Thought Encoding的参数高效微调方法, 旨在解决大型推理模型在强化学习训练中因长序列生成导致的内存效率瓶颈. 该方法通过将中间推理过程逐步编码为固定大小的向量表示, 使得模型能在固定缓存限制下进行高效训练和推理, 并在多个数学推理基准上取得了显著的性能提升.

What is the Value of Censored Data? An Exact Analysis for the Data-driven Newsvendor

Rachitesh Kumar, Omar Mouchtaki

cs.LG

本文研究了在需求数据被截断(censored)情况下的离线数据驱动报童问题. 作者提出了一种通用方法来精确计算经典数据驱动库存策略在最坏情况下的遗憾(regret), 并揭示了需求截断对学习性能的根本限制. 分析表明, 基于"销售即需求"(sales-as-demand)启发式方法的策略在数据积累时可能遭受严重的性能下降.

On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking

Jianliang He et al.

cs.LG math.OC stat.ML

本文研究了双层神经网络学习模加法任务的特征机制与训练动态. 通过形式化训练中出现的相位对称性和频率多样化条件, 解释了网络如何整合单频特征以近似正确的逻辑函数. 分析表明, 初始阶段的频率竞争和彩票机制驱动了特征的形成, 并最终导致网络在记忆后经历泛化阶段.

Position: Why a Dynamical Systems Perspective is Needed to Advance Time Series Modeling

Daniel Durstewitz et al.

cs.LG cs.AI math.DS

本文主张在时间序列建模中引入dynamical systems视角, 认为这能带来比当前主流方法更优的预测效果和理论洞见. 文章回顾了dynamical systems reconstruction的相关概念与方法, 并讨论了其如何推动时间序列分析的发展.

ML-driven detection and reduction of ballast information in multi-modal datasets

Yaroslav Solovko

cs.LG stat.ML

本文提出了一种用于检测和减少多模态数据集中冗余信息（ballast）的通用框架. 该方法整合了多种技术来识别和修剪特征, 实验表明能在保持甚至提升性能的同时显著降低计算开销.

Construction of a classification model for dementia among Brazilian adults aged 50 and over

F. S. Menezes et al.

cs.LG q-bio.NC

本文利用巴西老龄化纵向研究(ELSI-Brazil)的数据，结合随机森林(Random Forest)和多变量逻辑回归方法，构建了一个针对巴西中老年人的痴呆症分类预测模型。研究发现教育水平、年龄、握力等多种社会经济和健康因素与痴呆风险显著相关，其中随机森林模型在预测性能上优于逻辑回归。

Exact Certification of Data-Poisoning Attacks Using Mixed-Integer Programming

Philip Sosnin et al.

cs.LG

本文提出了一种基于mixed-integer quadratic programming (MIQCP)的验证框架, 用于在神经网络训练过程中对data-poisoning attacks提供sound和complete的保证. 该框架将对抗性数据操纵, 模型训练和测试时评估统一在一个优化问题中, 从而能够精确地认证训练过程的鲁棒性.

Beyond Message Passing: A Symbolic Alternative for Expressive and Interpretable Graph Learning

Chuqin Geng et al.

cs.LG cs.AI

本文提出了一种名为SymGraph的符号化图学习框架, 旨在克服传统基于消息传递的图神经网络(GNNs)在表达性和可解释性方面的固有局限. 该方法通过离散的结构哈希和基于拓扑角色的聚合来替代连续的消息传递, 从而在理论上超越了1-Wisfeiler-Lehman (1-WL)表达能力限制, 并在实验中展现了优越的性能和训练效率.

Neural Proposals, Symbolic Guarantees: Neuro-Symbolic Graph Generation with Hard Constraints

Chuqin Geng et al.

cs.LG

本文提出了一种结合神经网络与符号推理的图生成框架NSGGM, 用于分子生成. 该框架通过神经模型提出候选结构, 并利用高效的SMT求解器强制执行化学规则与用户约束, 从而在保证生成分子有效性的同时提供可解释的控制.

Multi-Agent Lipschitz Bandits

Sourav Chakraborty et al.

cs.LG

本文研究了去中心化多智能体Lipschitz bandit问题, 提出了一种无需通信的模块化协议. 该协议通过一种新颖的极大值导向搜索解决智能体协调问题, 然后将其解耦为多个独立的单智能体问题, 最终获得了接近最优的遗憾界.

A Unified Framework for Locality in Scalable MARL

Sourav Chakraborty et al.

cs.LG cs.AI

本文提出了一个用于分析可扩展多智能体强化学习(MARL)中局部性(locality)的统一框架. 通过将策略诱导的相互依赖矩阵$H^\pi$分解为环境对状态($E^{\mathrm{s}}$)和动作($E^{\mathrm{a}}$)的敏感度以及策略对状态($\Pi(\pi)$)的敏感度, 揭示了局部性可以是一种策略依赖的现象. 基于此, 作者推导出了一个比先前基于范数的条件更紧的谱条件$\rho(E^{\mathrm{s}}+E^{\mathrm{a}}\Pi(\pi)) < 1$来保证指数衰减性质(EDP), 并利用该理论分析了一个可证明的局部块坐标策略改进框架.

Early-Warning Signals of Grokking via Loss-Landscape Geometry

Yongzhong Xu

cs.LG cs.AI

本文研究了Transformer模型在序列学习任务中出现的"grokking"现象, 即从记忆到泛化的突然转变. 通过分析损失景观的几何特性, 特别是梯度更新的非对易性(commutator defect), 发现该指标可作为泛化发生的早期预警信号, 并在因果干预实验中验证了其机制性作用.

Fail-Closed Alignment for Large Language Models

Zachary Coalson et al.

cs.LG cs.CR

本文提出了一种针对大语言模型安全对齐的"故障关闭"设计原则, 旨在提升模型对越狱攻击的鲁棒性. 通过一种渐进式对齐框架, 该方法强制模型在多个独立的子空间中学习拒绝行为, 从而在部分特征被抑制时仍能保持安全.

Discovering Universal Activation Directions for PII Leakage in Language Models

Leo Marchyok et al.

cs.LG cs.CR

本文提出了一种名为UniLeak的机制可解释性框架, 用于在语言模型的残差流(residual stream)中发现与生成个人身份信息(PII)相关的通用激活方向(universal activation directions). 该方法无需训练数据或真实PII, 仅通过模型自生成文本即可识别这些方向, 并证明沿此方向进行线性干预能显著增加PII泄露, 而对生成质量影响甚微.

Dynamic Delayed Tree Expansion For Improved Multi-Path Speculative Decoding

Rahul Thomas et al.

cs.LG

本文提出了一种动态延迟树扩展方法, 用于改进多路径推测解码. 通过系统评估发现, 基于最优传输的方法在树深处表现不佳, 因此设计了延迟分支和动态选择器来提升效率.

Arcee Trinity Large Technical Report

Varun Singh et al.

cs.LG cs.CL

本文介绍了Arcee Trinity系列稀疏Mixture-of-Experts模型的技术细节，包括Trinity Large, Nano和Mini三个版本。报告涵盖了模型架构、训练过程以及一个名为SMEBU的新MoE负载均衡策略。

Action-Graph Policies: Learning Action Co-dependencies in Multi-Agent Reinforcement Learning

Nikunj Gupta et al.

cs.LG

本文提出了一种名为Action Graph Policies (AGP)的新方法, 用于在多智能体强化学习(MARL)中建模智能体间动作选择的依赖关系. 该方法通过构建"协调上下文"(coordination contexts)来提升策略的表达能力, 并在多个基准测试中取得了优于现有方法的性能.

Malliavin Calculus as Stochastic Backpropogation

Kevin D. Oden

cs.LG

本文通过Malliavin积分恒等式建立了pathwise与score-function梯度估计器之间的理论联系, 并基于此提出了一个统一的、方差感知的混合估计器. 该估计器利用经验协方差结构自适应地结合两种梯度, 在理论上实现了无偏线性组合中的最小方差, 并在VAE和合成问题上展示了显著的方差减少效果.

WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning

Gagan Mundada et al.

cs.LG

本文提出了一种名为WS-GRPO的弱监督方法，用于提升语言模型在复杂推理任务中的计算效率。该方法通过从最终答案中学习部分推理路径的偏好，来减少不必要的思考步骤，从而在保持准确性的同时缩短推理长度。

Transforming Behavioral Neuroscience Discovery with In-Context Learning and AI-Enhanced Tensor Methods

Paimon Goulart et al.

cs.LG cs.AI

本文提出了一种结合In-Context Learning和增强张量分解的AI驱动流程，用于加速行为神经科学的数据分析与模式发现。该流程旨在简化专家工作，并在小鼠恐惧泛化研究中展示了其有效性。

Forecasting Anomaly Precursors via Uncertainty-Aware Time-Series Ensembles

Hyeongwon Kang et al.

cs.LG cs.AI

本文提出了一个名为FATE的无监督框架, 用于通过量化时间序列预测模型集合的预测不确定性来检测异常前兆. 该方法无需异常标签, 并引入了一个新的评估指标PTaPR来更全面地评估早期预警能力. 在多个真实数据集上的实验表明, FATE在早期检测性能上优于基线方法.

Multi-Probe Zero Collision Hash (MPZCH): Mitigating Embedding Collisions and Enhancing Model Freshness in Large-Scale Recommenders

Ziliang Zhao et al.

cs.LG

本文提出了一种名为Multi-Probe Zero Collision Hash (MPZCH)的新型索引机制，用于缓解大规模推荐系统中embedding table的碰撞问题。该方法基于线性探测，通过辅助张量和CUDA内核实现，能在保持效率的同时显著提升embedding的新鲜度和质量。

Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression

Akira Sakai, Yuma Ichikawa

cs.LG cs.AI cs.CL cs.CV

本文研究了 sub-bit 模型压缩中权重符号的持久性问题, 提出了 sign lock-in 理论来解释其随机性主要源于初始化. 基于此, 作者设计了一种新的初始化方法和正则化器来减少符号翻转率.

Spatio-temporal dual-stage hypergraph MARL for human-centric multimodal corridor traffic signal control

Xiaocai Zhang, Neema Nassir, Milad Haghani

cs.LG eess.SY

本文提出了一种名为STDSH-MARL的基于多智能体强化学习的交通信号控制框架。该框架通过一种新颖的双阶段超图注意力机制来建模时空依赖关系，并引入混合离散动作空间以自适应地调整信号配时。在走廊网络上的实验表明，该方法能有效提升多模态交通性能，特别是公共交通的优先权。

AdvSynGNN: Structure-Adaptive Graph Neural Nets via Adversarial Synthesis and Self-Corrective Propagation

Rong Fu et al.

cs.LG cs.AI

本文提出了一种名为AdvSynGNN的图神经网络架构，旨在提升模型在结构噪声或非齐次拓扑下的鲁棒性。该框架通过多分辨率结构合成、对抗传播引擎和基于置信度的标签细化机制来优化节点表示学习。

Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum

Minxin Zhang, Yuxuan Liu, Hayden Scheaffer

cs.LG math.OC

本文提出了一种新的优化器NAMO及其对角扩展NAMO-D, 将正交动量(orthogonalized momentum)与基于范数的Adam型噪声自适应机制相结合. 实验表明, 在GPT-2预训练任务上, 新方法优于AdamW和Muon基线.

MeGU: Machine-Guided Unlearning with Target Feature Disentanglement

Haoyu Wang et al.

cs.LG

本文提出了一种名为MeGU的机器引导遗忘框架, 旨在解决机器遗忘中目标数据影响消除与模型效用保持之间的权衡问题. 该方法利用多模态大语言模型(MLLMs)显式地确定目标样本的语义重对齐方向, 并通过引入正负特征噪声对来解耦目标概念的影响.

Synergizing Transport-Based Generative Models and Latent Geometry for Stochastic Closure Modeling

Xinghao Dong, Huchen Yang, Jin-long Wu

cs.LG math.DS physics.comp-ph

本文探讨了将基于传输的生成模型与潜在几何结合用于随机闭合建模的方法. 通过比较不同模型在二维Kolmogorov流上的表现, 发现潜在空间中的流匹配能实现快速采样, 并通过正则化控制潜在空间扭曲以保证物理保真度.

A Locality Radius Framework for Understanding Relational Inductive Bias in Database Learning

Aadi Joshi, Kavya Bhand

cs.LG

本文提出了locality radius这一形式化度量, 用于量化关系型数据库模式中预测所需的最小结构邻域范围. 通过在一系列数据库相关任务上的实证研究, 作者发现模型性能与任务所需的locality radius和模型聚合深度之间的对齐程度密切相关.

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

Chuiyang Meng, Ming Tang, Vincent W.S. Wong

cs.LG cs.AI

本文提出了一种名为FLoRG的联邦微调框架, 它使用单个低秩矩阵进行微调并聚合其Gram矩阵, 以减少通信开销并避免分解漂移. 该方法在多个大语言模型微调基准测试中表现出优于现有方案的性能.

Operationalization of Machine Learning with Serverless Architecture: An Industrial Operationalization of Machine Learning with Serverless Architecture: An Industrial Implementation for Harmonized System Code Prediction

Sai Vineeth Kandappareddigari et al.

cs.LG

本文介绍了一个基于 serverless 架构的 MLOps 框架, 并将其应用于工业场景中的 Harmonized System (HS) 代码预测任务. 该框架通过事件驱动管道管理完整的机器学习生命周期, 并强调了在保证准确性的同时, 对可复现性、成本效益和可扩展性的考量.

Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners

Sajad Ashkezari, Shai Ben-David

cs.LG stat.ML

本文研究了在线学习中允许智能体通过微调特征值以获得更理想标签的模型. 作者扩展了先前结果, 分析了多分类, 带预算的智能体以及Bandit反馈设置下的可学习性, 并提供了刻画在线学习能力的组合维度.

i-PhysGaussian: Implicit Physical Simulation for 3D Gaussian Splatting

Yicheng Cao et al.

cs.LG

本文提出了一种结合3D Gaussian Splatting与隐式Material Point Method的物理模拟框架i-PhysGaussian. 该方法通过隐式牛顿优化求解动量平衡残差, 显著降低了对时间步长的敏感性, 在复杂动态场景中保持了稳定性和物理一致性.

TIFO: Time-Invariant Frequency Operator for Stationarity-Aware Representation Learning in Time Series

Xihao Piao et al.

cs.LG cs.AI

本文提出了一种名为TIFO的时不变频率算子，用于在时间序列表示学习中处理非平稳性。该方法通过在整个数据集上学习频率谱的平稳感知权重，来缓解分布偏移问题，并能以即插即用的方式集成到多种预测模型中。

VP-VAE: Rethinking Vector Quantization via Adaptive Vector Perturbation

Linwei Zhai et al.

cs.LG cs.AI

本文提出了一种名为VP-VAE的新方法，通过引入自适应的潜在向量扰动来替代传统的显式码本训练，从而解耦了表示学习和离散化过程。该方法提高了训练的稳定性，并改善了重建质量与码本利用率。

When More Experts Hurt: Underfitting in Multi-Expert Learning to Defer

Shuqi Liu et al.

cs.LG stat.ML

本文研究了多专家学习延迟(L2D)中的固有挑战, 指出分类器在多个专家存在时会出现不可避免的欠拟合问题, 这源于专家可识别性的内在困难. 作者提出了一种名为PiCCE的代理方法, 通过自适应地识别可靠专家来缓解此问题, 并在实验中验证了其有效性.

TimeOmni-VL: Unified Models for Time Series Understanding and Generation

Tong Guan et al.

cs.LG cs.AI

本文提出了一个名为TimeOmni-VL的视觉中心框架，旨在统一时间序列的理解与生成任务。它通过双向映射和引入新的数据集，尝试弥合两类任务之间的鸿沟。

In-Context Learning in Linear vs. Quadratic Attention Models: An Empirical Study on Regression Tasks

Ayush Goel, Arjun Kohli, Sarvagya Somvanshi

cs.LG cs.AI

本文通过实验比较了linear attention与quadratic attention在linear regression任务上的in-context learning表现. 研究评估了学习质量、收敛性和泛化行为, 并分析了模型深度的影响.

Continual uncertainty learning

Heisei Yonezawa, Ansei Yonezawa, Itsuro Kajiwara

cs.LG cs.AI eess.SY

本文提出了一种基于课程学习的持续学习框架, 用于处理具有多重不确定性的非线性动力系统的鲁棒控制问题. 该方法将复杂问题分解为一系列学习任务, 并引入基于模型的控制器来加速收敛, 最后在汽车动力总成振动控制中验证了有效性.

SoftDTW-CUDA-Torch: Memory-Efficient GPU-Accelerated Soft Dynamic Time Warping for PyTorch

Ron Shapira Weber, Oren Freifeld

cs.LG

本文介绍了一个名为 softdtw-cuda-torch 的开源 PyTorch 库, 用于在 GPU 上高效计算 Soft Dynamic Time Warping (SoftDTW). 该实现通过分块计算, 对数空间反向传播和融合距离计算等技术, 解决了现有 GPU 实现在序列长度限制, 数值稳定性和内存消耗方面的关键问题.

CounterFlowNet: From Minimal Changes to Meaningful Counterfactual Explanations

Oleksii Furman et al.

cs.LG

本文提出了一种名为CounterFlowNet的生成式方法, 用于为机器学习模型生成反事实解释(Counterfactual Explanations). 该方法将反事实生成建模为使用条件生成流网络(GFlowNet)的顺序特征修改过程, 旨在生成满足有效性, 稀疏性, 邻近性和合理性等要求的解释, 并能通过动作掩码在推理时强制执行用户定义的约束.

Structured Prototype-Guided Adaptation for EEG Foundation Models

Jingying Ma et al.

cs.LG

本文提出了一种用于EEG foundation models微调的结构化置信度感知原型引导适应框架SCOPE. 该框架通过构建几何正则化的任务先验和置信度感知伪标签来提供外部监督, 并利用轻量级适配器ProAdapter进行模型适应, 在标签有限的跨被试场景下提升了性能与效率.

Learning a Latent Pulse Shape Interface for Photoinjector Laser Systems

Alexander Klemps et al.

cs.LG

本文提出了一种基于Wasserstein Autoencoders的生成建模框架, 用于学习光注入器中激光脉冲整形与下游束流动力学之间的可微分潜在接口. 该方法从模拟数据泛化到真实实验脉冲测量, 减少了昂贵的脉冲传播模拟的依赖.

Unified Latents (UL): How to train your latents

Jonathan Heek et al.

cs.LG cs.CV

本文提出了Unified Latents (UL)框架, 用于学习由diffusion prior正则化并由diffusion模型解码的潜在表示. 该方法通过将编码器输出噪声与先验的最小噪声水平相关联, 得到了一个简单的训练目标, 为潜在比特率提供了紧的上界. 在ImageNet-512和Kinetics-600数据集上, 该模型在图像和视频生成任务中取得了具有竞争力的性能指标.

RLGT: A reinforcement learning framework for extremal graph theory

Ivan Damnjanović et al.

cs.LG math.CO

本文提出了一个名为RLGT的强化学习框架, 用于极值图论研究. 该框架统一了先前工作, 支持多种图类型, 旨在通过优化的计算性能和模块化设计, 促进未来基于强化学习的极值图论研究.

Efficient privacy loss accounting for subsampling and random allocation

Vitaly Feldman, Moshe Shenfeld

cs.LG

本文针对一种随机分配采样方案, 提出了高效计算其隐私损失分布(PLD)的方法. 该方法扩展了通用的隐私损失核算工具, 并证明在应用于Gaussian机制时, 该方案的隐私-效用权衡至少与Poisson采样相当.

LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

Hsin-Jung Yang et al.

cs.LG eess.SY

本文提出了一种名为LexiSafe的离线安全强化学习框架, 采用字典序优化方法处理安全约束. 该框架包含单成本与多成本两种形式, 并在实验中表现出较低的安全违规率和较好的任务性能.

Flickering Multi-Armed Bandits

Sourav Chakraborty et al.

cs.LG cs.AI

本文提出了Flickering Multi-Armed Bandits (FMAB)框架，其中可用臂的集合每轮会变化，且依赖于智能体之前的选择。作者使用随机图过程对此建模，并针对两种图模型设计了算法，获得了次线性遗憾界。

The Sound of Death: Deep Learning Reveals Vascular Damage from Carotid Ultrasound

Christoph Balada et al.

cs.LG cs.CV

本文提出了一种从颈动脉超声视频中提取血管损伤表征的机器学习框架. 该模型学习到的特征与心血管风险因素和临床结局相关, 其性能可与传统风险模型媲美.

SubQuad: Near-Quadratic-Free Structure Inference with Distribution-Balanced Objectives in Adaptive Receptor framework

Rong Fu et al.

cs.LG cs.AI

本文提出了一种名为SubQuad的端到端流程, 用于解决适应性免疫repertoire比较分析中的计算效率和数据集不平衡问题. 该方法结合了抗原感知的近似次二次检索, GPU加速的亲和力核, 学习型多模态融合以及公平性约束的聚类, 旨在提升大规模repertoire挖掘的可扩展性和公平性.

From Subtle to Significant: Prompt-Driven Self-Improving Optimization in Test-Time Graph OOD Detection

Luzhi Wang et al.

cs.LG cs.AI

本文提出了一种用于图分布外检测的自改进框架SIGOOD, 它通过迭代优化提示来增强图中的分布外信号. 该方法在多个真实数据集上验证了其有效性.

Shortcut learning in geometric knot classification

Djordje Mihajlovic, Davide Michieletto

cs.LG cond-mat.soft math.GT

本文研究了机器学习在几何纽结分类中的捷径学习问题. 作者发现并分析了训练数据中隐藏的非拓扑特征, 并构建了一个旨在消除此类特征的数据集和代码库.

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

Gabriel Mongaras, Eric C. Larson

cs.LG

本文对Mamba-2这一高效的linear attention模型进行了简化与改进。通过分析其核心组件并调整A-mask与隐藏状态阶数，提出了2Mamba方法，在保持长上下文内存效率的同时，显著缩小了与softmax attention的精度差距。

A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data

Justyna Andrys-Olek et al.

cs.LG cs.AI

本文提出了一个名为CACTUS的可解释机器学习框架，旨在处理小型、异构且不完整的临床数据集。该框架通过整合特征抽象、可解释分类和系统性的特征稳定性分析，在模拟数据缺失的场景下，相比随机森林等方法，在保持预测性能的同时，展现了更高的特征稳定性。

MDP Planning as Policy Inference

David Tolpin

cs.LG

本文提出将episodic MDP规划问题视为对策略的贝叶斯推断. 通过将策略作为隐变量并赋予其与期望回报单调相关的非归一化最优性概率, 构建了一个后验分布, 其众数对应回报最大化解, 而后验的分散性则反映了最优行为的不确定性. 为了在离散域中近似此后验, 作者将变分序贯蒙特卡罗(VSMC)方法适配于随机动力学下的确定性策略推断, 并引入了一种扫描机制以确保策略在重访状态间的一致性, 同时耦合粒子间的转移随机性以避免模拟器噪声的混淆. 智能体通过后验预测采样进行行动, 这通过Thompson抽样解释而非熵正则化诱导出一种随机控制策略. 在多个环境中, 作者分析了推断出的策略分布结构, 并将其行为与离散Soft Actor-Critic进行了比较.

Convergence Analysis of Two-Layer Neural Networks under Gaussian Input Masking

Afroditi Kolomvaki et al.

cs.LG cs.AI cs.DS math.OC

本文分析了在输入层应用 Gaussian dropout 的两层神经网络训练的收敛性. 通过 Neural Tangent Kernel (NTK) 分析, 证明了训练过程能达到线性收敛, 其误差区域与 mask 的方差成正比.

Variational Grey-Box Dynamics Matching

Gurjeet Sangra Singh et al.

cs.LG

本文提出了一种结合不完整物理模型与生成模型的 grey-box 方法, 用于从观测轨迹中学习动力学. 该方法在 flow matching 框架内构建结构化的变分分布, 避免了 Neural ODE 的可扩展性与稳定性问题.

Linear Convergence in Games with Delayed Feedback via Extra Prediction

Yuma Fujimoto, Kenshi Abe, Kaito Ariu

cs.LG cs.GT cs.MA math.OC

本文研究了具有延迟反馈的双线性博弈中的收敛问题. 作者分析了加权乐观梯度下降上升法(WOGDA)的线性收敛速率, 并通过实验验证了额外乐观预测的有效性.

Learning with Boolean threshold functions

Veit Elser, Manish Krishan Lal

cs.LG cs.AI

本文提出了一种训练布尔数据神经网络的方法, 其中节点值严格为$\pm 1$, 模型通常等价于权重也为$\pm 1$的网络. 该方法用非凸约束公式替代损失最小化, 通过投影算法满足布尔阈值函数和网络架构的约束. 在乘法器电路发现、二进制自编码等任务上, 该方法在梯度方法困难的领域取得了精确解或强泛化能力.

Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models

Wen-Tse Chen et al.

cs.LG

本文提出了一种利用大语言模型进行回顾式上下文学习的方法, 用于强化学习中的时序信用分配问题. 该方法旨在将稀疏的环境反馈转化为密集的训练信号, 并在BabyAI环境中展示了较高的样本效率.

LORA-CRAFT: Cross-layer Rank Adaptation via Frozen Tucker Decomposition of Pre-trained Attention Weights

Kasun Dewage et al.

cs.LG cs.AI

本文提出了一种名为CRAFT的参数高效微调方法, 该方法对跨transformer层堆叠的预训练注意力权重矩阵进行Tucker张量分解, 并仅训练所得冻结Tucker因子上的小型适配矩阵. 在GLUE基准测试中, CRAFT以极少的参数量取得了与现有方法相当的性能.

Variational inference via radial transport

Luca Ghafourpour et al.

cs.LG math.ST stat.ML

本文提出了一种名为radVI的变分推断方法, 通过优化径向轮廓(radial profile)来改进对高维分布$\pi$的近似. 该方法可作为现有VI方案(如高斯VI和拉普拉斯近似)的廉价有效补充, 并基于Wasserstein空间优化和径向传输映射(radial transport maps)的规律性理论提供了收敛性保证.

The Anxiety of Influence: Bloom Filters in Transformer Attention Heads

Peter Balogh

cs.LG cs.AI cs.CL

本文研究了Transformer注意力头中类似Bloom filter的成员测试行为, 在多个语言模型中发现并分类了三种具有不同精度和容量的成员测试头. 这些头集中在早期层, 构成一个多分辨率系统, 并展现出对广义重复标记的响应.

Provably Explaining Neural Additive Models

Shahaf Bassan et al.

cs.LG cs.CC cs.LO

本文提出了一种针对Neural Additive Models (NAMs)的高效算法，用于生成具有可证明保证的最小基数特征子集解释。该算法通过并行预处理和对数级的验证查询，显著降低了计算复杂度，并在实验中证明了其有效性和效率优势。

Position: Evaluation of ECG Representations Must Be Fixed

Zachary Berger et al.

cs.LG cs.AI

本文指出当前12导联ECG表示学习的基准评估方法存在局限, 主张应扩展至结构性心脏病和患者预后预测等更具临床意义的目标. 通过实证评估, 作者发现应用更佳的多标签不平衡评估实践会改变现有文献关于最优表示的结论, 并且随机初始化的编码器在许多任务上能达到与先进预训练方法相当的性能.

MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

Xiaoliang Fu et al.

cs.LG cs.AI

本文提出了一种名为MASPO的新框架, 旨在解决现有基于可验证奖励的强化学习(RLVR)方法在大型语言模型(LLM)推理中的局限性. 该方法通过整合可微软门控, 质量自适应限制器和非对称风险控制器, 提升了训练的鲁棒性和样本效率.

A Theoretical Framework for Modular Learning of Robust Generative Models

Corinna Cortes, Mehryar Mohri, Yutao Zhong

cs.LG stat.ML

本文提出了一个用于鲁棒生成模型模块化学习的理论框架. 该框架通过门控机制组合预训练的专家模型, 并证明了在 worst-case 数据混合下存在一个鲁棒的门控函数.

Revisiting Weight Regularization for Low-Rank Continual Learning

Yaoyue Zheng et al.

cs.LG

本文提出了一种在低秩持续学习中使用权重正则化的新方法, 称为EWC-LoRA. 该方法通过Elastic Weight Consolidation (EWC) 正则化共享的低秩更新来缓解任务干扰, 保持了存储和推理成本与任务数量无关. 实验表明该方法在多个基准测试上取得了良好的效果.

Be Wary of Your Time Series Preprocessing

Sofiane Ennadir et al.

cs.LG cs.AI

本文从理论角度分析了不同归一化方法对基于Transformer的时间序列模型表达能力的影响. 研究提出了一个量化模型区分能力的表达性框架, 并推导了两种常用归一化方法的理论界限. 实验表明, 没有单一的归一化方法在所有任务上表现一致最优.

Canonicalizing Multimodal Contrastive Representation Learning

Sharut Gupta et al.

cs.LG

本文研究了独立训练的多模态对比学习模型（如 CLIP, SigLIP, FLAVA）的表示空间之间的几何关系。研究发现，不同模型的图像和文本编码器可以通过同一个正交变换 $Q$（满足 $Q^\top Q = I$）进行对齐，即 $\widetilde{f}(x)\approx Q f(x)$ 和 $\widetilde{g}(y)\approx Q g(y)$。这一发现为模型的无缝升级和表示隐私提供了理论基础和应用可能。

Asymptotic Smoothing of the Lipschitz Loss Landscape in Overparameterized One-Hidden-Layer ReLU Networks

Saveliy Baturin

cs.LG

本文研究了过参数化单隐藏层ReLU网络的损失景观拓扑。理论方面，证明了对于具有$\ell_1$正则化第二层的凸$L$-Lipschitz损失，任意两个同损失水平的模型间存在连续路径，且损失增加可任意小；同时得到了局部与全局最小值间能量间隙的渐近上界，该上界随网络宽度增加而消失。实证上，在合成数据集和真实数据集上，通过动态字符串采样测量发现，更宽的网络表现出更小的能量间隙。

Towards Anytime-Valid Statistical Watermarking

Baihe Huang et al.

cs.LG cs.AI stat.ML

本文提出了一种基于e-value的统计水印框架Anchored E-Watermarking，旨在解决现有方法在采样分布选择和固定范围假设检验方面的局限性。该框架通过构建检验超鞅，实现了任意时间有效的推理，并优化了检测所需的平均令牌数。

Guarding the Middle: Protecting Intermediate Representations in Federated Split Learning

Obaidullah Zaland, Sajib Mistry, Monowar Bhuyan

cs.LG cs.DC

本文针对联邦分割学习中客户端与服务器间共享的中间表示(smashed data)易泄露隐私的问题, 提出了一种结合k-匿名与差分隐私的保护方法KD-UFSL. 实验表明该方法能在降低数据重构攻击成功率的同时, 保持全局模型的实用性.

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Luke Huang et al.

cs.LG cs.AI

本文提出了一种名为VCPO的方法, 用于稳定异步off-policy强化学习(如REINFORCE/GRPO)中的高方差问题. 该方法通过基于有效样本量(ESS)调整学习率和使用最小方差基线来稳定训练, 在数学推理等任务上提升了训练效率.

Catastrophic Forgetting Resilient One-Shot Incremental Federated Learning

Obaidullah Zaland, Zulfiqar Ahmad Khan, Monowar Bhuyan

cs.LG cs.DC

本文提出了一种名为OSI-FL的单轮增量联邦学习框架，旨在解决通信开销和灾难性遗忘的双重挑战。该方法利用预训练的视觉语言模型和扩散模型来生成合成数据，并通过选择性样本保留策略来缓解遗忘问题。

SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer

Nathan S. de Lara, Florian Shkurti

cs.LG cs.AI

本文提出了一种名为SMAC的离线强化学习方法, 旨在解决离线训练的策略模型在后续在线微调时性能骤降的问题. 该方法通过在离线阶段对Q函数施加正则化约束, 使其与策略的score function满足一阶导数关系, 从而学习到能够平滑过渡到在线算法(如Soft Actor-Critic, TD3)的actor-critic模型. 实验表明, 该方法在多个D4RL基准任务上实现了无性能下降的离线到在线迁移.

When to Trust the Cheap Check: Weak and Strong Verification for Reasoning

Shayan Kiyani et al.

cs.LG cs.AI stat.ML

本文研究了在LLM推理中结合弱验证(如self-consistency)与强验证(如人工检查)的策略。作者形式化了弱-强验证策略，提出了衡量指标，并证明了最优策略具有双阈值结构。

Reverso: Efficient Time Series Foundation Models for Zero-shot Forecasting

Xinghong Fu et al.

cs.LG cs.AI

本文提出了一种用于零样本时间序列预测的高效基础模型构建方法, 通过结合 long convolution 和 linear RNN (如 DeltaNet) 层构建小型混合模型, 在性能上匹配了大型 transformer 模型, 但参数量小得多. 该方法还结合了数据增强和推理策略, 最终形成了 Reverso 模型系列, 显著提升了性能与效率的帕累托前沿.

FAMOSE: A ReAct Approach to Automated Feature Discovery

Keith Burghardt et al.

cs.LG cs.AI

本文提出了一个名为FAMOSE的自动化特征工程框架, 它基于ReAct范式, 通过AI agent自主探索、生成和优化特征, 并整合了特征选择与评估工具. 实验表明, 该框架在回归和分类任务上达到了先进的性能, 尤其在处理大规模数据集时表现出色.

A.R.I.S.: Automated Recycling Identification System for E-Waste Classification Using Deep Learning

Dhruv Talwar et al.

cs.LG

本文提出了一种用于电子废弃物分类的自动化识别系统A.RI.S., 该系统结合了深度学习模型YOLOx与传统的分拣方法. 实验表明, 该系统在精度和分拣纯度上取得了良好的效果, 旨在提高材料回收效率并降低环境影响.

Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

Xiaohan Zhao et al.

cs.LG cs.AI cs.CL cs.CV

本文提出了一种针对大型视觉语言模型的黑盒对抗攻击方法M-Attack-V2. 该方法通过多裁剪对齐和辅助目标对齐等技术, 改进了现有M-Attack方法中梯度方差过大的问题, 从而显著提升了在黑盒设置下对Claude, Gemini, GPT等前沿模型的攻击成功率.

Multi-Round Human-AI Collaboration with User-Specified Requirements

Sima Noorani et al.

cs.LG

本文提出了一种多轮人机协作框架, 通过用户定义的规则来形式化"反事实伤害"和"互补性"原则, 并引入了一种在线算法来强制执行这些约束. 在两个交互式任务上的实验表明, 该框架能有效控制违规率并引导协作提升决策质量.

MARS: Margin-Aware Reward-Modeling with Self-Refinement

Payel Bhattacharjee, Osvaldo Simeone, Ravi Tandon

cs.LG cs.AI cs.IT

本文提出了一种名为MARS的自适应、margin-aware的数据增强与采样策略, 用于改进reward modeling. 该方法通过聚焦于reward model最不确定的低margin偏好对进行增强, 并迭代优化训练分布, 在理论上和实验上均优于均匀增强方法.

cs.AI

AIdentifyAGE Ontology for Decision Support in Forensic Dental Age Assessment

Renato Marcelo et al.

cs.AI

本文提出了一个用于法医牙科年龄评估决策支持的领域本体AIdentifyAGE. 该本体旨在标准化工作流程, 整合临床、法医和法律信息, 以提高评估过程的透明度、可重复性和可解释性.

Retrieval Augmented (Knowledge Graph), and Large Language Model-Driven Design Structure Matrix (DSM) Generation of Cyber-Physical Systems

H. Sinan Bank, Daniel R. Herber

cs.AI cs.CL eess.SY

本文探讨了利用 Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) 和 GraphRAG 来自动生成 Design Structure Matrices (DSMs) 的潜力。研究通过两个具体案例评估了这些方法在识别组件及其关系方面的性能。

Contextuality from Single-State Representations: An Information-Theoretic Principle for Adaptive Intelligence

Song-Ju Kim

cs.AI cs.IT

本文探讨了在自适应系统中, 由于资源限制而重复使用单一内部状态空间所导致的基本表示后果. 作者证明, 在经典概率表示中, 这种单一状态重用会不可避免地导致 contextuality, 并伴随不可约的信息论成本.

Mobility-Aware Cache Framework for Scalable LLM-Based Human Mobility Simulation

Hua Yan et al.

cs.AI cs.LG

本文提出了一种名为MobCache的移动感知缓存框架，旨在提升基于LLM的大规模人类移动模拟的可扩展性。该框架通过可重构的缓存机制复用推理步骤，并使用轻量级解码器进行输出，从而在保持性能的同时显著提高了计算效率。

When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation

Mubashara Akhtar et al.

cs.AI

本文系统研究了AI benchmark的饱和现象, 分析了60个LLM benchmark, 并基于14个属性检验了五个关于饱和驱动因素的假设. 研究发现近半数benchmark已饱和, 且专家构建的benchmark比众包的更抗饱和.

Simple Baselines are Competitive with Code Evolution

Yonatan Gideoni, Sebastian Risi, Yarin Gal

cs.AI cs.LG

本文通过对比实验发现, 在数学界限优化, 智能体脚手架设计和机器学习竞赛等任务中, 简单的基准方法可以匹配甚至超越复杂的代码演化技术. 作者指出, 当前代码演化方法在开发和评估上存在缺陷, 并提出了改进评估和未来工作的建议.

Improved Upper Bounds for Slicing the Hypercube

Duncan Soiffer et al.

cs.AI cs.DM math.CO

本文改进了超立方体边切片所需超平面数量的上界, 证明了 $S(n) \leq \lceil 4n/5 \rceil$ (当 $n$ 为5的奇数倍时需加1). 该结果改进了自1971年以来的已知上界 $S(n) \leq \lceil 5n/6 \rceil$, 并利用一种结合了推理大语言模型与自动超参数调优的工具 CPro1 来辅助构造 $Q_{10}$ 的切片超平面.

NeuDiff Agent: A Governed AI Workflow for Single-Crystal Neutron Crystallography

Zhongcan Xiao et al.

cs.AI

本文介绍了一个名为 NeuDiff Agent 的受治理 AI 工作流，用于自动化单晶中子晶体学数据处理流程。该工作流整合了数据还原、积分、精修和验证步骤，旨在提高大型科学设施的产出效率。

Node Learning: A Framework for Adaptive, Decentralised and Collaborative Network Edge AI

Eiman Kanjo, Mustafa Aslanov

cs.AI

本文提出了一种名为"Node Learning"的去中心化学习范式, 旨在将AI智能置于边缘节点, 并通过节点间的选择性交互进行知识扩散. 该框架允许节点基于本地数据持续学习, 并在有益时进行机会性协作, 以应对集中式AI在异构、移动和资源受限环境中的扩展瓶颈.

An order-oriented approach to scoring hesitant fuzzy elements

Luis Merino et al.

cs.AI

本文提出了一种基于序理论的 hesitant fuzzy elements 评分框架, 将评分函数明确定义在给定的序关系上. 研究表明, 相对于对称序定义的评分满足强单调性等规范性准则, 而一些经典序并不能诱导格结构. 此外, 文章引入了 dominance functions 来比较 hesitant fuzzy elements, 并给出了两个具体实例以支持群体决策.

IndicJR: A Judge-Free Benchmark of Jailbreak Robustness in South Asian Languages

Priyaranjan Pattnayak, Sanchari Chowdhuri

cs.AI cs.CL

本文提出了一个名为IndicJR的基准测试, 用于评估大语言模型在12种南亚语言中的对抗性安全漏洞. 该基准包含合同约束和自由格式两种提示类型, 揭示了跨语言攻击的有效性以及输入文字书写形式对模型安全性的影响.

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

Haiyang Xu et al.

cs.AI cs.CL

本文介绍了GUI-Owl-1.5，一个支持多平台（桌面、移动、浏览器）并具备多种尺寸变体的原生GUI智能体模型。该模型在超过20个GUI基准测试中取得了领先的性能，并采用了混合数据飞轮、统一能力增强和多平台环境强化学习等创新方法进行训练。

OpenSage: Self-programming Agent Generation Engine

Hongwei Li et al.

cs.AI cs.CR cs.SE

本文提出了一个名为OpenSage的agent开发套件，旨在通过LLM自动生成agent的拓扑结构和工具集，并提供了结构化的记忆系统。实验表明其在多个基准测试中优于现有方法。

AgentLAB: Benchmarking LLM Agents against Long-Horizon Attacks

Tanqiu Jiang et al.

cs.AI

本文提出了一个名为AgentLAB的基准测试, 用于评估LLM智能体在长周期、多轮交互环境中面对自适应攻击的脆弱性. 该基准包含多种新型攻击类型和大量测试案例, 初步评估表明现有智能体防御措施在应对此类长周期威胁时效果有限.

LLM-WikiRace: Benchmarking Long-term Planning and Reasoning over Real-World Knowledge Graphs

Juliusz Ziomek et al.

cs.AI cs.LG

本文提出了一个名为LLM-Wikirace的基准测试，用于评估大语言模型在真实世界知识图谱上的长期规划和推理能力。该任务要求模型通过维基百科超链接在页面间逐步导航，结果显示前沿模型在简单任务上表现出色，但在困难任务上仍面临巨大挑战。

Narrow fine-tuning erodes safety alignment in vision-language agents

Idhant Gulati, Shivam Raval

cs.AI

本文研究了视觉语言模型在特定领域有害数据集上进行微调时，其安全对齐性会严重退化的问题。实验表明，这种失准现象在多模态评估中尤为显著，且有害行为集中在低维子空间中。

DeepContext: Stateful Real-Time Detection of Multi-Turn Adversarial Intent Drift in LLMs

Justin Albrethsen et al.

cs.AI cs.ET cs.LG

本文提出了一种名为DeepContext的状态化监控框架, 用于检测大型语言模型(LLM)多轮对话中的对抗性意图漂移. 该框架采用循环神经网络(RNN)架构, 通过跨对话传播隐藏状态来捕捉风险的累积, 在实时检测性能上优于现有的无状态基线模型.

SourceBench: Can AI Answers Reference Quality Web Sources?

Hexi Jin et al.

cs.AI

本文提出了一个名为SourceBench的基准测试, 用于评估大语言模型(LLMs)在回答问题时引用的网络来源的质量. 该基准包含100个真实世界查询, 并采用一个涵盖内容质量和页面级别信号的八指标框架进行评估.

Mind the GAP: Text Safety Does Not Transfer to Tool-Call Safety in LLM Agents

Arnold Cartagena, Ariane Teixeira

cs.AI cs.SE

本文通过构建GAP基准, 系统地评估了LLM代理在文本层面安全性与工具调用层面安全性之间的差异. 研究发现, 文本安全并不能有效迁移到工具调用安全, 即使模型在文本输出中拒绝有害请求, 其工具调用仍可能执行被禁止的操作.

LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation

Hejia Zhang et al.

cs.AI cs.LG

本文提出了一个名为LLM4Cov的离线智能体学习框架，用于生成高覆盖率的硬件测试平台。该框架通过执行验证的数据筛选和策略感知的数据合成等方法，使一个紧凑的模型在覆盖率上超越了其教师模型。

Automating Agent Hijacking via Structural Template Injection

Xinhao Deng et al.

cs.AI cs.LG

本文提出了一种名为Phantom的自动化agent hijacking框架，它基于Structured Template Injection技术。该框架通过优化和搜索攻击模板，在多种商业LLM agent上实现了更高的攻击成功率和查询效率。

HQFS: Hybrid Quantum Classical Financial Security with VQC Forecasting, QUBO Annealing, and Audit-Ready Post-Quantum Signing

Srikumar Nayak

cs.AI cs.CL cs.LG

本文提出了一种名为HQFS的混合量子-经典金融安全框架, 它整合了基于变分量子电路(VQC)的预测, 基于QUBO(二次无约束二进制优化)的优化求解, 以及可审计的后量子签名. 在实验中, 该框架在预测精度和投资组合绩效指标上优于经典基线方法.

Fundamental Limits of Black-Box Safety Evaluation: Information-Theoretic and Computational Barriers from Latent Context Conditioning

Vishal Srivastava

cs.AI

本文通过引入latent context-conditioned policies这一概念，对AI系统黑盒安全评估的基本假设提出了挑战。研究证明了在存在未观测内部变量的情况下，任何黑盒评估器都无法可靠地估计模型在部署环境中的风险，并给出了统计与计算层面的下界。

Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Yan Wang et al.

cs.AI cs.CE

本文提出了一个用于金融股票推荐的对话式长期基准测试Conv-FinRe, 旨在评估LLMs在超越行为模仿之外的决策质量. 该基准基于真实市场数据和人类决策轨迹构建, 通过区分描述性行为和基于投资者风险偏好的规范性效用, 揭示了理性决策质量与行为对齐之间的持续张力.

Sonar-TS: Search-Then-Verify Natural Language Querying for Time Series Databases

Zhao Tan et al.

cs.AI cs.CL cs.DB

本文提出了一个名为Sonar-TS的神经符号框架，用于处理时间序列数据库的自然语言查询(NLQ4TSDB)。该框架采用“搜索-验证”流程，并引入了一个新的大规模基准NLQTSBench进行评测。

Cinder: A fast and fair matchmaking system

Saurav Pal

cs.AI stat.AP

本文提出了一种名为Cinder的两阶段快速公平匹配系统，用于解决在线游戏中预组队伍间的匹配难题。该系统通过初步筛选和精确度量来评估并生成更平衡的对局。

M2F: Automated Formalization of Mathematical Literature at Scale

Zichen Wang et al.

cs.AI

本文提出了一个名为M2F的智能体框架, 用于实现从长篇数学文献到Lean代码的端到端、项目规模的自动化形式化. 该框架通过分阶段的声明编译与证明修复, 并利用验证器反馈进行迭代, 成功将数百页的教科书大规模转化为可编译的Lean库.

Sales Research Agent and Sales Research Bench

Deepanjan Bhol

cs.AI

本文介绍了一个面向企业CRM数据分析的AI应用及其评估基准. 该应用能连接实时数据并生成图文洞察, 其配套的基准从多个维度对系统性能进行量化评分.

Phase-Aware Mixture of Experts for Agentic Reinforcement Learning

Shengtian Yang et al.

cs.AI

本文提出了一种用于智能体强化学习的Phase-Aware Mixture of Experts (PA-MoE)方法。该方法通过一个轻量级的phase router来学习任务中的潜在阶段边界，并将同一阶段的轨迹片段分配给相同的专家，以解决传统MoE架构在强化学习中因token-level路由导致的专家专业化不足问题。实验验证了该方法的有效性。

Dynamic System Instructions and Tool Exposure for Efficient Agentic LLMs

Uria Franko

cs.AI

本文提出了一种名为Instruction-Tool Retrieval (ITR)的方法, 用于优化大型语言模型(LLM)智能体的运行效率. 该方法通过动态检索和组合必要的系统指令片段与工具子集, 显著减少了每步处理的上下文长度和总体成本.

IntentCUA: Learning Intent-level Representations for Skill Abstraction and Multi-Agent Planning in Computer-Use Agents

Seoyoung Lee et al.

cs.AI cs.HC cs.RO

本文提出了一个名为IntentCUA的多智能体框架，用于提升计算机使用代理在长时程任务中的执行稳定性。该框架通过抽象交互轨迹为意图表示和可复用技能，减少了冗余规划并缓解了错误传播。

RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models

Yunseok Han, Yejoon Lee, Jaeyoung Do

cs.AI cs.CL

本文提出了一个评估大型推理模型(LRMs)推理忠实性的框架RFEval, 并构建了包含七个任务、超过七千个实例的基准数据集. 研究发现, 当前模型在近一半的输出中存在不忠实推理, 且准确性与忠实性之间的关联很弱.

Retaining Suboptimal Actions to Follow Shifting Optima in Multi-Agent Reinforcement Learning

Yonghyeon Jo, Sunwoo Lee, Seungyul Han

cs.AI

本文提出了一种名为Successive Sub-value Q-learning (S2Q)的新方法, 用于解决合作式多智能体强化学习中价值函数漂移导致的策略次优问题. 该方法通过学习多个子价值函数来保留高价值动作, 并结合Softmax策略鼓励持续探索, 在多个基准测试中展现了更好的适应性和性能.

Predictive Batch Scheduling: Accelerating Language Model Training Through Loss-Aware Sample Prioritization

Sumedh Rasal

cs.AI

本文提出了一种名为Predictive Batch Scheduling (PBS)的训练优化技术，用于加速语言模型的收敛。该方法通过一个轻量级的线性预测器，利用静态的token-level特征来动态估计样本的难度，从而在批次构建中优先处理高损失样本。实验表明，该方法能以可忽略的计算开销实现更快的收敛。

How AI Coding Agents Communicate: A Study of Pull Request Description Characteristics and Human Review Responses

Kan Watanabe et al.

cs.AI cs.SE

本文通过实证分析比较了五个AI编程代理在GitHub上创建的pull request的描述特征差异及其对人类审阅者响应的影响. 研究发现, 不同代理的描述风格与审阅参与度, 响应时间和合并结果存在关联.

Agentic Wireless Communication for 6G: Intent-Aware and Continuously Evolving Physical-Layer Intelligence

Zhaoyang Li et al.

cs.AI

本文探讨了将基于LLM的智能体应用于6G物理层以实现意图感知和自主通信的框架. 它概述了从意图感知到网络执行的闭环流程, 并讨论了相关的挑战与技术, 最后通过一个案例研究进行了说明.

Toward Trustworthy Evaluation of Sustainability Rating Methodologies: A Human-AI Collaborative Framework for Benchmark Dataset Construction

Xiaoran Cai et al.

cs.AI

本文提出了一个名为STRIDE与SR-Delta的人机协作框架，旨在为可持续性评级方法构建可信的基准数据集。该框架利用大语言模型(LLMs)生成公司层面的基准数据，并通过差异分析提供调整见解，以提升评级方法的可扩展性与可比性。

Owen-based Semantics and Hierarchy-Aware Explanation (O-Shap)

Xiangyu Zhou, Chenhan Xiao, Yang Weng

cs.AI

本文提出了一种基于Owen值的层次化特征归因方法O-Shap, 用于解决传统SHAP方法在视觉任务中因特征依赖而失效的问题. 该方法通过满足$T$-property的分割来定义特征组, 从而在保持计算效率的同时提升了归因的准确性和语义一致性.

Instructor-Aligned Knowledge Graphs for Personalized Learning

Abdulrahman AlRabah et al.

cs.AI

本文提出了一个名为InstructKG的框架, 用于从课程讲义材料中自动构建与教师教学意图对齐的知识图谱. 该框架结合了教育材料特有的时序与语义信号以及大型语言模型的泛化能力, 以提取关键概念作为节点并推断学习依赖关系作为有向边. 通过在多个课程的真实讲义材料上进行实验和人工评估, 证明了其能有效捕获丰富的、符合教学顺序的学习进程.

Epistemology of Generative AI: The Geometry of Knowing

Ilya Levin

cs.AI

本文探讨了生成式AI的知识论基础, 提出其运作机制与传统计算范式存在根本性断裂. 作者认为, 神经网络将符号输入映射到高维语义空间, 并基于该空间的几何特性(如测度集中、近正交性)构建了一种"索引性知识论".

Efficient Parallel Algorithm for Decomposing Hard CircuitSAT Instances

Victor Kondratiev, Irina Gribanova, Alexander Semenov

cs.AI

本文提出了一种用于分解困难CircuitSAT实例的并行算法. 该算法通过引入专门的约束将原始SAT实例分割为一族弱化的公式, 并通过调整参数来高效识别高质量的分解.

Bonsai: A Framework for Convolutional Neural Network Acceleration Using Criterion-Based Pruning

Joseph Bingham, Sam Helmich

cs.AI

本文提出了一个名为Bonsai的框架，用于基于特定准则对卷积神经网络进行剪枝加速。该框架提供了一个统一的实现和比较标准，并在VGG类模型上验证了其有效性，能够显著减少模型参数和计算量。

JEPA-DNA: Grounding Genomic Foundation Models through Joint-Embedding Predictive Architectures

Ariel Larey et al.

cs.AI q-bio.GN

本文提出了一种名为JEPA-DNA的基因组基础模型预训练框架, 它结合了Joint-Embedding Predictive Architecture (JEPA)与传统的生成式目标. 该方法旨在通过预测掩码片段的高层功能嵌入, 而不仅仅是单个核苷酸, 来获得更具全局生物学视角的序列表示. 实验表明, 该框架在多种基因组基准测试中优于仅使用生成式目标的基线模型.

Texo: Formula Recognition within 20M Parameters

Sicheng Mao

cs.AI cs.CV

本文提出了一个轻量级的数学公式识别模型Texo, 其参数量仅为2000万. 通过精心设计、知识蒸馏和词汇表迁移, 该模型在保持与先进模型相当性能的同时, 显著减小了模型体积, 实现了在消费级硬件上的实时推理.

Continual learning and refinement of causal models through dynamic predicate invention

Enrique Crespo-Fernandez et al.

cs.AI

本文提出了一种在线构建符号因果世界模型的框架, 通过整合连续模型学习和修复到智能体的决策循环中, 利用Meta-Interpretive Learning和谓词发明来发现可重用的抽象概念. 该方法在具有复杂关系动态的领域中展现了良好的可扩展性和样本效率.

From Labor to Collaboration: A Methodological Experiment Using AI Agents to Augment Research Perspectives in Taiwan's Humanities and Social Sciences

Yi-Chih Huang

cs.AI cs.CL cs.CY

本文提出了一种基于AI Agent的协作研究流程, 用于人文与社会科学研究, 并以台湾地区的AI使用数据为例进行了方法验证. 研究强调了人类在研究判断和伦理决策中的不可替代性.

Decoding the Human Factor: High Fidelity Behavioral Prediction for Strategic Foresight

Ben Yellin et al.

cs.AI

本文提出了一种名为Large Behavioral Model (LBM)的行为基础模型，用于高保真地预测个体在战略环境中的决策。该模型通过基于结构化心理特征档案进行微调，相比基于提示的方法，能更稳定地利用详细的人格描述来提升预测性能。

Mechanistic Interpretability of Cognitive Complexity in LLMs via Linear Probing using Bloom's Taxonomy

Bianca Raimondi, Maurizio Gabbrielli

cs.AI cs.CL

本文通过 linear probing 方法, 使用 Bloom's Taxonomy 作为框架, 分析了 LLMs 内部表征中不同认知复杂度层级(如记忆、创造)的线性可分性. 研究发现, 线性分类器能达到约 95% 的平均准确率, 表明认知层级信息被编码在模型表征的一个线性可访问子空间中.

All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting

Zeyu Zhang, Ryan Chen, Bradly C. Stadie

cs.AI cs.LG

本文提出了一种用于检测和量化大语言模型在回溯测试中时间知识泄漏的框架. 该方法通过将模型推理分解为原子声明并应用Shapley值来评估泄漏, 并提出了TimeSPEC方法来主动过滤受污染的信息.

Web Verbs: Typed Abstractions for Reliable Task Composition on the Agentic Web

Linxi Jiang et al.

cs.AI

本文提出了"Web Verbs"的概念, 旨在为Web上的智能体操作提供一个类型化、语义化的抽象层. 它将网站功能封装为可组合的稳定单元, 以提升任务执行的可靠性、效率和可验证性.

ArXiv-to-Model: A Practical Study of Scientific LM Training

Anuj Gupta

cs.AI cs.CL

本文详细记录了从arXiv LaTeX源文件训练一个1.36B参数的科学领域语言模型的完整工程实践. 报告了在有限算力下的数据处理流程, 训练稳定性分析以及遇到的存储与I/O瓶颈.

MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions

Hui Min Wong et al.

cs.AI cs.LG

本文提出了一个名为 MedClarify 的 AI 智能体，用于在医学诊断中通过生成针对性的后续问题来主动获取信息。该方法通过计算候选诊断列表并选择信息增益最高的问题，旨在减少诊断不确定性，实验表明其能显著降低诊断错误率。

Dataless Weight Disentanglement in Task Arithmetic via Kronecker-Factored Approximate Curvature

Angelo Porrello et al.

cs.AI

本文提出了一种无需数据的权重解耦方法, 通过 Kronecker-Factored Approximate Curvature 来近似曲率矩阵, 从而正则化任务向量组合时的表征漂移. 该方法在任务加法和否定上取得了先进的结果, 并且复杂度与任务数量无关, 对任务向量缩放具有鲁棒性.

Visual Model Checking: Graph-Based Inference of Visual Routines for Image Retrieval

Adrià Molina, Oriol Ramos Terrades, Josep Lladós

cs.AI cs.IR

本文提出了一种结合形式化验证与深度学习的图像检索框架, 通过图验证方法和神经代码生成来处理开放词汇的自然语言查询. 该框架旨在提供可信且可验证的检索结果, 通过形式推理来验证查询中的每个原子约束, 从而超越向量表示的模糊性.

A Contrastive Variational AutoEncoder for NSCLC Survival Prediction with Missing Modalities

Michele Zanitti et al.

cs.AI

本文提出了一种用于处理多模态数据缺失的非小细胞肺癌生存预测模型。该模型结合了变分自编码器、对比学习和随机模态掩码技术，在公开数据集上验证了其有效性。

A Privacy by Design Framework for Large Language Model-Based Applications for Children

Diana Addae et al.

cs.AI

本文提出了一个基于Privacy-by-Design原则的框架，旨在指导面向儿童的大型语言模型应用的设计与开发，以降低隐私风险并满足多国法规要求。该框架将隐私原则映射到LLM应用的各个阶段，并通过一个教育辅导应用的案例研究进行了说明。

WarpRec: Unifying Academic Rigor and Industrial Scale for Responsible, Reproducible, and Efficient Recommendation

Marco Avolio et al.

cs.AI cs.IR

本文介绍了一个名为 WarpRec 的高性能推荐系统框架, 旨在统一学术研究的严谨性与工业级系统的规模. 该框架通过一种与后端无关的架构, 集成了大量先进算法与评估工具, 并支持从本地到分布式环境的无缝过渡.

Pareto Optimal Benchmarking of AI Models on ARM Cortex Processors for Sustainable Embedded Systems

Pranay Jain et al.

cs.AI

本文提出了一个用于在ARM Cortex处理器上评估AI模型能效与性能的自动化基准测试框架. 通过Pareto分析, 该工作为嵌入式系统中平衡模型精度与能耗提供了实用指导.

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Dun Yuan et al.

cs.AI

本文提出了一种结合动态知识图谱与可解释检索增强生成(KG-RAG)的框架，旨在提升大型语言模型在复杂电信领域的应用性能。该方法通过结构化知识增强事实准确性，在基准测试中取得了优于基线模型的效果。

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Shashank Aggarwal, Ram Vikas Mishra, Amit Awekar

cs.AI cs.CL cs.IR

本文提出了评估Chain-of-Thought (CoT) 推理过程质量的两个新指标: 可重用性(reusability)和可验证性(verifiability). 通过一个Thinker-Executor框架, 作者在多个基准测试上评估了不同模型生成的CoT, 发现这些新指标与传统的任务准确率并不相关.

KLong: Training LLM Agent for Extremely Long-horizon Tasks

Yue Liu et al.

cs.AI cs.CL

本文提出了一种名为KLong的开源LLM智能体, 用于解决极长视野任务. 其方法结合了轨迹分割的监督微调与渐进式强化学习训练, 并在多个基准测试中展现了优越性能.

ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment

Hongjue Zhao et al.

cs.AI

本文提出了一个基于常微分方程(ODE)的统一理论框架ODESteer, 用于指导大语言模型(LLM)对齐中的激活引导(activation steering). 该方法将传统的激活加法解释为ODE解的一阶近似, 并通过设计控制理论中的屏障函数(barrier function)来确定引导方向, 实现了多步自适应引导, 在多个对齐基准上取得了经验性提升.

A Hybrid Federated Learning Based Ensemble Approach for Lung Disease Diagnosis Leveraging Fusion of SWIN Transformer and CNN

Asif Hasan Chowdhury et al.

cs.AI

本文提出了一种结合SWIN Transformer与CNN的混合联邦学习集成方法,用于基于X射线图像的肺部疾病(COVID-19和肺炎)诊断. 该方法旨在利用联邦学习框架保障数据隐私, 并通过集成多个先进模型来提高诊断的准确性和可靠性.

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

Lance Ying et al.

cs.AI

本文提出了AI GameStore平台, 用于通过人类游戏来评估AI的通用智能. 该平台利用LLMs和人类协同生成新的代表性游戏, 并对前沿视觉语言模型进行了初步评估, 发现其表现远低于人类平均水平.

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

Hojung Jung et al.

cs.AI

本文提出了MolHIT, 一个用于分子图生成的层次化离散扩散模型框架. 它通过引入编码化学先验的额外类别和解耦原子编码, 在MOSES数据集上实现了接近完美的化学有效性, 超越了现有方法.

AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing

Jianda Du, Youran Sun, Haizhao Yang

cs.AI cs.LG math.NA

本文提出了一个名为 AutoNumerics 的多智能体框架, 用于从自然语言描述自动生成、调试和验证 PDE 数值求解器. 该框架基于经典的数值分析原理, 通过粗到细的执行策略和基于残差的自验证机制, 在多个标准与实际问题中取得了与现有方法相当或更优的精度.

CLEF HIPE-2026: Evaluating Accurate and Efficient Person-Place Relation Extraction from Multilingual Historical Texts

Juri Opitz et al.

cs.AI cs.CL cs.IR

本文介绍了CLEF HIPE-2026评测任务, 该任务专注于从多语言历史文本中抽取人物-地点关系. 它扩展了前序评测, 引入了对准确性, 计算效率和领域泛化能力的综合评估.

cs.IR

RankEvolve: Automating the Discovery of Retrieval Algorithms via LLM-Driven Evolution

Jinming Nian et al.

cs.IR cs.AI

本文提出了一种名为 RankEvolve 的方法, 利用 LLM 驱动的进化搜索来自动发现改进的词法检索算法. 该方法从 BM25 等经典算法出发, 通过代码变异和重组生成新算法, 并在多个数据集上验证了其有效性.

SAGE: Structure Aware Graph Expansion for Retrieval of Heterogeneous Data

Prasham Titiya et al.

cs.IR

本文提出了一个名为SAGE的框架, 用于异构数据的检索增强问答. 该框架通过离线构建块级图并进行在线检索扩展, 在多个基准上提升了检索召回率.

Beyond Chunk-Then-Embed: A Comprehensive Taxonomy and Evaluation of Document Chunking Strategies for Information Retrieval

Yongjie Zhou et al.

cs.IR

本文对文档分块策略进行了系统分类与评估, 提出了一个包含分割方法和嵌入范式的统一框架. 研究发现, 最优的分块策略取决于具体任务, 简单的基于结构的方法在语料库检索中表现优于LLM引导的方法.

Bending the Scaling Law Curve in Large-Scale Recommendation Systems

Qin Ding et al.

cs.IR cs.SI

本文提出了一种名为ULTRA-HSTU的新型序列推荐模型，通过模型与系统的协同设计，在输入序列、稀疏注意力机制和模型拓扑方面进行了创新。该模型在质量和效率上均有显著提升，实现了更快的训练和推理速度，并已大规模部署，带来了实际业务指标的提升。

WSDM Cup 2026 Multilingual Retrieval: A Low-Cost Multi-Stage Retrieval Pipeline

Chentong Hao, Minmao Wang

cs.IR

本文为WSDM Cup 2026多语言检索任务设计了一个低成本的四阶段检索系统。该系统结合了基于LLM的查询扩展、BM25检索、稠密排序和重排序，在官方评估中取得了良好效果。

LiveGraph: Active-Structure Neural Re-ranking for Exercise Recommendation

Rong Fu et al.

cs.IR cs.LG

本文提出了一个名为LiveGraph的主动结构神经重排序框架, 用于解决在线学习中的习题推荐问题. 该框架通过图表示增强和动态重排序机制, 旨在平衡推荐的准确性和内容的多样性.

A Long-term Value Prediction Framework In Video Ranking

Huabin Chen et al.

cs.IR

本文提出了一个用于短视频推荐排序阶段的长效价值预测框架, 解决了位置偏差、归因模糊性和时间限制等挑战. 该框架通过位置感知去偏分位数模块、多维归因模块和跨时间作者建模模块, 在工业级规模上实现了对用户长期参与度的稳健估计.

When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment

Chuting Yu et al.

cs.IR

本文探讨了使用大型语言模型(LLM)作为相关性评估代理时出现的系统性高估偏差。研究发现，LLM倾向于对不真正满足信息需求的段落给出过高的相关性评分，并且其判断对段落长度和表面词汇线索高度敏感。

On the Reliability of User-Centric Evaluation of Conversational Recommender Systems

Michael Müller et al.

cs.IR

本文通过大规模实证研究, 探讨了基于静态对话记录的用户中心式对话推荐系统(CRS)评估的可靠性. 研究发现, 功利性维度(如准确性)具有中等可靠性, 而社会性维度(如拟人化)可靠性较低, 且多个维度易受光环效应影响而坍缩为单一质量信号.

WebFAQ 2.0: A Multilingual QA Dataset with Mined Hard Negatives for Dense Retrieval

Michael Dinzinger et al.

cs.IR cs.AI cs.CL

本文介绍了WebFAQ 2.0数据集，这是一个包含大量多语言问答对的新版本资源。该数据集通过改进的数据收集策略构建，并提供了用于训练密集检索器的困难负样本。

Training-free Graph-based Imputation of Missing Modalities in Multimodal Recommendation

Daniele Malitesta et al.

cs.IR

本文针对多模态推荐系统中模态数据缺失的问题, 提出了一种基于图结构的免训练插补方法. 该方法将缺失模态信息重新定义为物品-物品共购图上的特征插值问题, 并通过四种图传播技术来估算缺失特征.

Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers

Bingqian Li et al.

cs.IR cs.AI

本文提出了一种名为ILRec的偏好微调框架, 用于改进基于LLM的推荐系统. 该方法通过从模型中间层提取自硬负例信号, 并设计跨层偏好优化与蒸馏的两阶段训练, 来增强模型对负样本的判别能力.

Beyond Pipelines: A Fundamental Study on the Rise of Generative-Retrieval Architectures in Web Research

Amirereza Abbasi, Mohsen Hooshmand

cs.IR cs.AI

本文是一篇关于大语言模型(LLMs)对网络研究影响的综述性文章. 它重点探讨了检索增强生成(RAG)等技术如何将传统任务流程转变为生成式解决方案, 并讨论了该领域的主要进展与开放挑战.

A Picture of Agentic Search

Francesca Pezzuti et al.

cs.IR

本文指出了当前信息检索(IR)领域因自动化智能体(agent)参与搜索而面临的挑战, 并发布了首个专门用于研究智能体搜索行为的数据集ASQ及其配套工具包.

Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval

Jiaqi Xi et al.

cs.IR cs.LG

本文提出了一种用于电子商务搜索检索的两阶段对比训练框架, 旨在优化分级相关性. 该方法通过策略对齐的监督信号和专门的损失函数来改进语义嵌入, 并在离线评估和在线测试中取得了积极效果.

cs.CL

References Improve LLM Alignment in Non-Verifiable Domains

Kejian Shi et al.

cs.CL cs.AI cs.LG

本文探讨了在缺乏真实验证器的非可验证领域(如LLM对齐)中, 使用参考输出引导的LLM评估器作为软"验证器"的可行性. 通过实验表明, 参考引导的方法能显著提升评估准确性, 并在此基础上进行对齐调优, 其性能可与使用微调奖励模型的方法相媲美.

Evaluating Monolingual and Multilingual Large Language Models for Greek Question Answering: The DemosQA Benchmark

Charalampos Mastrokostas, Nikolaos Giarelis, Nikos Karacapilidis

cs.CL cs.AI

本文构建了一个用于评估希腊语问答任务的新数据集DemosQA, 并提出了一个内存高效的LLM评估框架. 作者对11个单语和多语大语言模型在6个希腊语问答数据集上进行了广泛的评估.

One-step Language Modeling via Continuous Denoising

Chanhyuk Lee et al.

cs.CL cs.AI

本文提出了一种基于连续去噪的流式语言模型(FLM), 通过在一热编码上进行欧几里得去噪来生成文本. 该方法通过时间重参数化提升了训练稳定性, 并可通过蒸馏获得支持少步生成的模型(FMLM). 实验表明, FMLM在少步生成质量上超越了现有的离散扩散模型.

Claim Automation using Large Language Model

Zhengda Mo et al.

cs.CL

本文提出了一种基于本地部署的、考虑治理的大型语言模型组件, 用于从非结构化的保修索赔叙述中生成结构化的纠正措施建议. 通过使用LoRA对预训练模型进行领域特定的微调, 并将其作为索赔处理流程的初始决策模块, 该研究展示了其在提升处理速度和与真实操作数据对齐方面的潜力.

BanglaSummEval: Reference-Free Factual Consistency Evaluation for Bangla Summarization

Ahmed Rafid et al.

cs.CL

本文提出了一个用于孟加拉语摘要事实一致性评估的无参考框架 BanglaSummEval. 该框架基于问答, 利用单一的多语言指令调优模型自动生成问题并比较答案, 在教育和医疗领域的评估中与人工判断显示出较强的相关性.

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Minh Duc Bui et al.

cs.CL

本文针对德国美因茨方言Meenzerisch, 首次在NLP领域进行了研究. 作者构建了一个包含2351个方言词汇及其标准德语释义的数据集, 并测试了当前先进的大语言模型(LLMs)在方言词汇定义生成和词汇生成任务上的表现, 发现其准确率均低于10%, 表明该领域亟需更多研究资源.

A Conceptual Hybrid Framework for Post-Quantum Security: Integrating BB84 QKD, AES, and Bio-inspired Mechanisms

Md. Ismiel Hossen Abir

cs.CL cs.CR

本文针对量子计算对RSA等经典密码的威胁，提出了一个融合AES加密、BB84量子密钥分发、量子态轻量认证以及仿生免疫机制的概念性混合安全框架。该框架旨在为后量子时代的数据保护提供一个可扩展的自适应解决方案，但具体实现、安全证明和实验验证尚属未来工作。

ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders

Ofer Meshi et al.

cs.CL

本文提出了一个用于评估对话推荐系统中用户模拟器真实性的数据集ConvApparel和一个综合验证框架. 该框架结合了统计对齐, 人类相似度评分和反事实验证, 实验表明数据驱动的模拟器在适应未见行为时表现更优.

When Semantic Overlap Is Not Enough: Cross-Lingual Euphemism Transfer Between Turkish and English

Hasan Can Biyik et al.

cs.CL cs.AI

本文研究了跨语言委婉语检测中的迁移不对称性, 通过将土耳其语和英语的潜在委婉语术语(PETs)划分为重叠(OPETs)与非重叠(NOPETs)子集进行分析. 研究发现, 语义重叠并不足以保证正向迁移, 特别是在资源匮乏的土耳其语到英语方向, 性能甚至可能下降.

Eigenmood Space: Uncertainty-Aware Spectral Graph Analysis of Psychological Patterns in Classical Persian Poetry

Kourosh Shahnazari, Seyed Moein Ayyoubzadeh, Mohammadali Keshtparvar

cs.CL cs.AI

本文提出了一种不确定性感知的计算框架, 用于对古典波斯诗歌进行诗人层面的心理模式分析. 该方法通过构建概念间的置信度加权共现图并进行Laplacian谱分解, 实现了对诗歌情感结构的量化与可视化.

Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History

Serin Kim, Sangam Lee, Dongha Lee

cs.CL cs.AI

本文提出了首个用于评估个性化网络代理在真实开放网络环境中表现的基准 Persona2Web. 该基准基于“澄清以个性化”原则构建, 要求代理根据用户历史记录而非明确指令来解析模糊查询, 并通过实验揭示了当前个性化网络代理面临的关键挑战.

ReIn: Conversational Error Recovery with Reasoning Inception

Takyoung Kim et al.

cs.CL cs.AI

本文提出了一种名为 Reasoning Inception (ReIn) 的测试时干预方法，用于提升基于大型语言模型（LLM）的对话代理在遇到用户引发的意外错误时的恢复能力。该方法通过外部模块诊断错误并生成恢复计划，在不修改模型参数或系统提示的情况下引导代理进行纠正，实验表明其能有效提高任务成功率并泛化到未见错误类型。

Large Language Models Persuade Without Planning Theory of Mind

Jared Moore et al.

cs.CL

本文通过设计一个需要策略性信息揭示的交互式说服任务, 评估了大型语言模型(LLMs)和人类的理论心智(ToM)能力. 实验表明, LLMs在目标心智状态已知时表现良好, 但在需要主动推断时表现不佳, 暗示其缺乏多步规划能力; 然而, 在针对人类目标的说服任务中, LLMs却超越了人类, 表明有效的说服可以不依赖显式的ToM推理.

Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data

Deepak Uniyal, Md Abul Bashar, Richi Nayak

cs.CL cs.AI cs.LG

本文针对多语言社交媒体数据中的话题发现任务, 比较了四种跨语言文本分类方法. 研究以氢能源相关推文为案例, 评估了不同方法在过滤噪声和提取主题方面的效果, 为大规模社交媒体分析提供了实用见解.

ALPS: A Diagnostic Challenge Set for Arabic Linguistic & Pragmatic Reasoning

Hussein S. Al-Olimat, Ahmad Alshareef

cs.CL cs.AI

本文介绍了ALPS, 一个针对阿拉伯语语言与语用推理的专家构建的诊断性挑战集. 它评估了多种模型, 发现它们在基础的语言结构理解上存在显著缺陷.

BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios

Yunseung Lee et al.

cs.CL

本文提出了一个针对银行业数值推理的基准测试BankMathBench, 它包含不同难度的现实银行任务. 实验表明, 在该数据集上进行微调能显著提升开源大语言模型在相关任务上的公式生成和数值推理准确率.

Projective Psychological Assessment of Large Multimodal Models Using Thematic Apperception Tests

Anton Dzega et al.

cs.CL

本文使用 Thematic Apperception Test (TAT) 和 SCORS-G 框架评估了大型多模态模型的人格特质。研究发现，模型能很好地理解人际动态和自我概念，但在感知和调节攻击性方面存在一致缺陷，且模型性能随规模和版本提升而提高。

The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI

Dusan Bosnjakovic

cs.CL

本文提出了一种基于心理测量理论的审计框架, 用于量化生成式AI中潜在的、持久的偏见倾向. 该框架通过设计特定的测试项目和分析方法, 揭示了不同模型提供商之间存在稳定的行为模式差异.

What Makes a Good Doctor Response? An Analysis on a Romanian Telemedicine Platform

Adrian Cosma, Cosmin Dumitrache, Emilian Radoi

cs.CL

本文分析了罗马尼亚文本远程医疗平台中影响患者满意度的因素。研究通过建模患者反馈，发现患者和医生的历史特征是主要预测因子，而回复文本的特征（如礼貌和模糊语）则提供了可操作的信号。

Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study

Kensuke Okada, Yui Furukawa, Kyosuke Bunji

cs.CL stat.ME

本文提出了一种心理测量学框架, 用于量化和减轻大型语言模型(LLMs)在基于问卷的评估中表现出的社会称许性反应(SDR). 通过对比诚实作答与假装作答指令下的结果, 并采用项目反应理论(IRT)计算效应大小来量化SDR. 同时, 作者通过约束优化构建了匹配称许性的分级迫选(GFC)问卷, 实验表明该方法能有效减轻SDR, 同时较好地保留对预设人物特征的恢复能力.

Towards Cross-lingual Values Assessment: A Consensus-Pluralism Perspective

Yukun Chen et al.

cs.CL cs.AI

本文提出了一个名为X-Value的跨语言价值观评估基准，用于评估大语言模型对内容深层价值观的理解能力。该基准基于Schwartz的基本人类价值观理论构建，包含多语言数据和一个两阶段标注框架，实验表明当前先进模型在此任务上存在不足和显著的跨语言性能差异。

Representation Collapse in Machine Translation Through the Lens of Angular Dispersion

Evgeniia Tokarchuk et al.

cs.CL cs.LG

本文分析了Transformer架构下神经机器翻译模型中的representation collapse现象, 特别是在深层和连续输出模型中. 通过引入基于angular dispersion的正则化方法, 实验表明该方法不仅能缓解collapse, 还能提升翻译质量, 并且其益处在对模型量化后依然存在.

Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation

Bogdan Kostić et al.

cs.CL cs.AI

本文研究了大型语言模型(LLM)在评估基准测试中对输入提示的词汇和句法扰动的敏感性。通过使用同义词替换和基于依存句法的转换生成语义等价的变体，作者发现词汇扰动普遍导致模型性能显著下降，而句法扰动的影响则更为多样，有时甚至会提升表现。这些结果表明，当前LLM的评估结果可能过度依赖于表面的词汇模式，而非深层的语言理解能力，因此需要将鲁棒性测试纳入标准评估流程。

RPDR: A Round-trip Prediction-Based Data Augmentation Framework for Long-Tail Question Answering

Yiming Zhang et al.

cs.CL

本文提出了一个名为RPDR的数据增强框架, 旨在改善长尾问答任务中密集检索模型的表现. 该框架通过合成数据生成, 基于往返预测的数据选择以及使用易学习实例进行训练来提升检索器在罕见知识上的泛化能力.

The Role of the Availability Heuristic in Multiple-Choice Answering Behaviour

Leonidas Zotos, Hedderik van Rijn, Malvina Nissim

cs.CL

本文通过计算模型评估了多选题选项中概念的认知可用性, 发现正确答案的可用性显著高于错误选项. 研究还探讨了LLM生成选项的可用性模式, 并建议在计算建模学生行为时考虑可用性启发式.

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

Anastasia Zhukova et al.

cs.CL

本文提出了一种修订的跨文档共指消解(CDCR)标注方案, 将共指链视为话语元素(DEs)和分析的概念单元. 该方法允许链接具有词汇多样性的表述, 并通过在NewsWCL50和ECB+子集上的重新标注与评估, 为新闻领域的CDCR研究提供了更平衡的数据集.

Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics

Sanjeev Kumar, Preethi Jyothi, Pushpak Bhattacharyya

cs.CL

本文比较了在极低资源语言机器翻译场景下, ChrF++和BLEU两种评估指标的表现. 研究发现, 尽管BLEU得分较低, 但它能提供关于词汇精度的补充信息, 有助于提升评估的可解释性.

Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study

Dylan Bouchard et al.

cs.CL cs.AI cs.LG

本文提出了一个用于长文本语言模型输出的细粒度不确定性量化分类法, 并形式化了几类基于一致性的黑盒评分器. 实验表明, 基于声明的评分和不确定性感知解码能有效提升长文本生成的事实性.

AIDG: Evaluating Asymmetry Between Information Extraction and Containment in Multi-Turn Dialogue

Adib Sakhawat, Fardeen Sadab, Rakin Shahriar

cs.CL

本文提出了AIDG框架, 用于评估大语言模型在多轮对话中信息提取与信息隐藏能力的不对称性. 实验发现模型在信息隐藏任务上表现显著优于信息提取任务.

ABCD: All Biases Come Disguised

Mateusz Nowak, Xavier Cadet, Peter Chin

cs.CL cs.LG

本文通过构建一个合成的NonsenseQA基准, 揭示了LLMs在多项选择题评估中存在多种提示偏差. 作者提出了一种简单的去偏评估协议, 通过使用无序标签和基于句子相似度的答案选择, 显著提升了评估的鲁棒性.

Entropy-Based Data Selection for Language Models

Hongming Li, Yang Liu, Chao Huang

cs.CL

本文提出了一个基于信息熵的无监督数据选择框架(EUDS), 用于在计算资源受限的场景下高效微调语言模型. 该框架通过评估数据的不确定性来筛选训练数据, 在多个自然语言处理任务上验证了其有效性, 能以更少的数据和计算成本达到可比的性能.

PEACE 2.0: Grounded Explanations and Counter-Speech for Combating Hate Expressions

Greta Damo et al.

cs.CL

本文提出了一个名为PEACE 2.0的工具，用于分析和回应网络仇恨言论。它利用检索增强生成(RAG)技术，为仇恨言论的判定提供基于证据的解释，并自动生成相应的反驳言论。该工具旨在处理显性和隐性的仇恨信息。

Auditing Reciprocal Sentiment Alignment: Inversion Risk, Dialect Representation and Intent Misalignment in Transformers

Nusrat Jahan Lia, Shubhashis Roy Dipta

cs.CL cs.HC

本文通过基准测试四种transformer架构, 研究了孟加拉语与英语之间的跨语言情感对齐问题. 研究发现现有对齐范式存在严重的安全与表征缺陷, 包括情感反转和不对称共情等现象, 并建议在基准测试中纳入"情感稳定性"指标.

Small LLMs for Medical NLP: a Systematic Analysis of Few-Shot, Constraint Decoding, Fine-Tuning and Continual Pre-Training in Italian

Pietro Ferrazzi et al.

cs.CL

本文系统评估了小型LLMs在意大利语医疗NLP任务上的表现，比较了少样本提示、约束解码、监督微调和持续预训练等多种适应策略。研究发现，微调是最有效的方法，而小型模型在特定配置下可以超越更大的基线模型。

Bridging the Domain Divide: Supervised vs. Zero-Shot Clinical Section Segmentation from MIMIC-III to Obstetrics

Baris Karacan, Barbara Di Eugenio, Patrick Thornton

cs.CL

本文在临床文本的section segmentation任务上, 比较了基于transformer的监督模型与zero-shot大语言模型的性能. 研究通过在一个新的产科笔记数据集上进行评估, 发现监督模型在out-of-domain场景下性能显著下降, 而经过校正的zero-shot模型则展现出更强的领域适应性.

Using LLMs for Knowledge Component-level Correctness Labeling in Open-ended Coding Problems

Zhangqi Duan et al.

cs.CL cs.CY

本文提出了一种利用LLMs自动标注开放式编程问题中知识组件(KC)级别正确性的框架. 该方法通过评估代码中每个KC的应用情况, 并结合时间上下文来改进标注, 实验表明其能生成更符合认知理论的学习曲线.

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Jyotin Goel, Souvik Maji, Pratik Mazumder

cs.CL cs.LG

本文提出了一种在微调过程中自适应调整正则化强度的训练框架, 以应对语言模型安全性的退化问题. 该框架通过评估训练批次的安全风险来约束高风险更新, 从而在保持下游任务性能的同时有效降低攻击成功率.

Modeling Distinct Human Interaction in Web Agents

Faria Huq et al.

cs.CL cs.HC

本文研究了在自主网络代理任务中预测人类干预时机的问题. 作者通过分析收集的真实用户交互数据, 识别了四种不同的用户交互模式, 并训练了语言模型来预测干预, 最终在用户研究中提升了代理的有用性评分.

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR$\rightarrow$LLM Pipelines?

Jayadev Billa

cs.CL cs.AI eess.AS

本文通过匹配骨干网络测试, 比较了四种 speech LLM 与 Whisper$\to$LLM 级联管道在六个任务上的表现. 研究发现, 大多数 speech LLM 在行为和机制上等同于级联管道, 其内部会形成文本表示, 但 Qwen2-Audio 的表现存在差异, 表明这种等价性依赖于模型架构.

Unmasking the Factual-Conceptual Gap in Persian Language Models

Alireza Sakhaeirad, Ali Ma'manpoosh, Arshia Hemmat

cs.CL

本文介绍了DivanBench, 一个用于评估波斯语语言模型在区分文化事实记忆与社交规范推理能力上的诊断性基准. 研究发现, 当前模型在应用事实知识于场景时存在显著性能差距, 且持续的波斯语预训练会放大模型的默许偏差.

Differences in Typological Alignment in Language Models' Treatment of Differential Argument Marking

Iskar Deng, Nathalia Xu, Shane Steinert-Threlkeld

cs.CL

本文通过训练GPT-2模型在18种不同的DAM系统上，研究了语言模型对差异论元标记的习得。研究发现，模型能复现人类语言中标记方向的自然偏好，但未能复现对宾语的强烈偏好。

What Language is This? Ask Your Tokenizer

Clara Meister et al.

cs.CL

本文提出了一种基于UnigramLM tokenization算法的语言识别方法UniLID, 该方法通过共享tokenizer词汇表学习语言条件化的unigram分布, 并将分词视为语言特定的现象. 实验表明, 该方法在标准基准测试中具有竞争力, 在低资源语言和细粒度方言识别任务上表现优异.

Sink-Aware Pruning for Diffusion Language Models

Aidar Myrzakhan et al.

cs.CL cs.AI cs.LG

本文针对 Diffusion Language Models (DLMs) 推理成本高的问题，提出了 Sink-Aware Pruning 方法。该方法通过识别并剪裁不稳定的 attention sink tokens，在无需重新训练的情况下改善了模型效率与质量的权衡。

cs.DS

Offline green bin packing and its constrained variant

Mingyang Gong, Brendan Mumey

cs.DS

本文研究了离线 green bin packing (GBP) 及其约束变体 (CGBP) 问题. 针对这两个问题, 作者提出了一个 APTAS 和一个 $\frac{3}{2}$-近似算法.

Adaptive encodings for small and fast compressed suffix arrays

Diego Díaz-Domínguez, Veli Mäkinen

cs.DS

本文提出了一种名为variable-length blocking (VLB)的自适应编码技术, 用于改进基于Burrows-Wheeler Transform (BWT)的压缩后缀数组(CSA). 该方法根据局部可压缩性动态调整索引信息量, 在空间和查询速度之间取得了更好的平衡.

Simultaneous Blackwell Approachability and Applications to Multiclass Omniprediction

Lunjia Hu, Kevin Tian, Chutong Yang

cs.DS cs.LG stat.ML

本文研究了多分类场景下的 omniprediction 问题，其中比较器集合 $\mathcal{C}$ 可以是无限的。作者将二元 omniprediction 算法推广到多分类情形，并给出了样本复杂度或遗憾界。在证明过程中，他们设计了一个用于同时解决多个 Blackwell approachability 问题的框架。

others

Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning ⭐ 精选

Hien Dang, Pratik Patil, Alessandro Rinaldo

math.ST cs.LG stat.ML

本文在无约束设定下研究了ridge regression中的self-distillation (SD). 作者证明了, 对于任何预测风险, 最优混合的学生模型总能严格改进其ridge老师模型, 并给出了最优混合权重$\xi^\star(\lambda)$的闭式解及其符号规则. 在proportional asymptotics下, 他们利用block linearization技术推导了最优SD风险的精确确定性等价, 将标准的二阶ridge确定性等价推广到了四阶. 此外, 论文提出了一种无需网格搜索或重新拟合的一致性one-shot tuning方法来估计最优混合权重.

Efficient Remote Prefix Fetching with GPU-native Media ASICs

Liang Mi et al.

cs.DC cs.LG

本文提出了一种利用GPU原生视频编解码器进行远程KV缓存复用的高效系统KVFetcher. 该系统通过编解码友好的张量布局和高效的流水线获取机制, 在带宽受限环境下显著降低了大语言模型推理的首令牌时间, 同时保持无损精度.

DARTH-PUM: A Hybrid Processing-Using-Memory Architecture

Ryan Wong, Ben Feinberg, Saugata Ghose

cs.AR cs.CR cs.ET cs.LG

本文提出了一种名为DARTH-PUM的混合Processing-Using-Memory架构，它整合了模拟和数字两种内存计算模式。该设计通过优化的外围电路和编程接口，旨在为从嵌入式系统到大规模计算的各种应用提供高效、可扩展的通用计算支持。

GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions

Yaowen Liu et al.

cs.DB cs.AI

本文对基于图的GPU加速向量搜索算法进行了系统综述与实验研究. 它建立了一个GPU优化策略的分类体系, 并通过在八个大规模基准数据集上评估六种领先算法, 分析了索引构建与查询搜索的性能瓶颈. 研究发现, 距离计算是主要计算瓶颈, 而CPU与GPU间的数据传输是影响大规模实际延迟的主导因素.

APEX-SQL: Talking to the data via Agentic Exploration for Text-to-SQL

Bowen Cao et al.

cs.DB cs.AI

本文提出了一个名为APEX-SQL的智能体框架，用于改进企业环境下的Text-to-SQL任务。该框架通过假设-验证循环和数据探索来减少语义歧义，并在基准测试中取得了优于基线模型的效果。

Speech to Speech Synthesis for Voice Impersonation

Bjorn Johnson, Jared Levy

cs.SD cs.LG eess.AS

本文提出了一种基于当前先进系统的Speech to Speech Synthesis Network (STSSN), 用于语音到语音的风格转换以实现语音模仿. 实验表明, 该模型能生成逼真的音频样本, 并在与类似任务的生成对抗模型比较中取得了更令人信服的结果.

Is Mamba Reliable for Medical Imaging?

Banafsheh Saber Latibari et al.

cs.CR cs.AI

本文评估了Mamba模型在医学影像分类任务中对多种输入攻击和硬件故障的鲁棒性. 实验表明其在对抗扰动和比特翻转攻击下存在脆弱性, 需要防御机制以确保部署安全.

Intent Laundering: AI Safety Datasets Are Not What They Seem

Shahriar Golchin, Marc Wetter

cs.CR cs.AI cs.CL cs.LG

本文通过引入"intent laundering"方法，评估了现有AI安全数据集的质量。研究发现，这些数据集过度依赖"触发线索"，导致其无法真实反映现实世界的攻击，并且当移除这些线索后，许多模型的安全性评估结果会发生逆转。

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Raymond Jay Martin II

cs.OS cs.AI

本文介绍了一个基于Bounded Local Generator Classes理论实现的确定性语义状态系统. 该系统作为一个CPU驻留的图引擎运行, 其计算开销与局部语义变化$\Delta s$相关, 而与总内存规模$M$无关. 实验表明, 在特定硬件上, 系统在高达2500万个节点的规模下保持了恒定的遍历延迟和CPU利用率.

Exploring the Utility of MALDI-TOF Mass Spectrometry and Antimicrobial Resistance in Hospital Outbreak Detection

Chang Liu et al.

q-bio.QM cs.LG

本文探讨了利用MALDI-TOF质谱和抗菌药物耐药性(AR)模式这两种快速、经济的方法来替代全基因组测序(WGS)进行医院感染暴发检测。作者开发了一个机器学习框架来提取这些数据的特征，并通过多物种分析展示了其在某些情况下减少对WGS依赖的潜力。

Self-Evolving Multi-Agent Network for Industrial IoT Predictive Maintenance

Rebin Saleh et al.

cs.MA cs.LG

本文提出了一种用于工业物联网预测性维护的自演化分层多智能体系统SEMAS。该系统在边缘、雾和云计算层部署了专门的智能体，分别负责轻量级特征提取、集成异常检测和基于强化学习的策略优化，旨在实现低延迟、可解释且能适应动态环境的实时维护。

Can Adversarial Code Comments Fool AI Security Reviewers -- Large-Scale Empirical Study of Comment-Based Attacks and Defenses Against LLM Code Analysis

Scott Thornton

cs.CR cs.AI cs.LG

本文通过大规模实验研究了对抗性代码注释对LLM漏洞检测性能的影响. 实验发现, 与代码生成任务不同, 对抗性注释并未显著降低模型在漏洞检测上的准确率.

U-FedTomAtt: Ultra-lightweight Federated Learning with Attention for Tomato Disease Recognition

Romiyal George et al.

q-bio.QM cs.LG

本文提出了一种用于番茄病害识别的超轻量级联邦学习框架 U-FedTomAtt. 该框架结合了注意力机制, 在资源受限的分布式环境中实现了高精度识别.

PREFER: An Ontology for the PREcision FERmentation Community

Txell Amigó et al.

q-bio.OT cs.AI cs.CL

本文为 precision fermentation 领域提出了一个名为 PREFER 的本体(ontology), 旨在统一生物过程数据的标准. 该本体基于 Basic Formal Ontology (BFO) 构建, 旨在提高数据的互操作性, 并为机器学习应用提供支持.

Beyond Procedure: Substantive Fairness in Conformal Prediction

Pengqi Liu et al.

stat.ML cs.LG

本文探讨了 conformal prediction 在决策流程中的公平性问题, 提出了 substantive fairness 的概念. 通过理论分析和引入 LLM 评估器, 研究发现 label-clustered CP 能提升结果公平性, 且集合大小均等化是关键因素.

Large-scale online deanonymization with LLMs

Simon Lermen et al.

cs.CR cs.AI cs.LG

本文提出了一种利用 large language models (LLMs) 进行大规模在线去匿名化的方法. 该方法通过提取身份特征, 语义搜索和推理验证, 在多个真实数据集上显著超越了传统基线, 表明在线匿名性的实际保护效果已不复存在.

Hybrid-Gym: Training Coding Agents to Generalize Across Tasks

Yiqing Xie et al.

cs.SE cs.CL cs.LG

本文提出了一个名为 Hybrid-Gym 的训练环境，旨在通过合成任务来提升编码智能体在真实复杂任务上的泛化能力。实验表明，经过训练的模型在多个下游基准测试中取得了性能提升。

AI-Mediated Feedback Improves Student Revisions: A Randomized Trial with FeedbackWriter in a Large Undergraduate Course

Xinyi Lu et al.

cs.HC cs.AI

本文通过一项随机对照试验, 研究了在本科生经济学课程中, 使用AI辅助系统(FeedbackWriter)为助教提供反馈建议对学生论文修改质量的影响. 研究发现, 获得AI辅助反馈的学生, 其修改稿的质量显著更高, 且助教采纳AI建议越多, 提升效果越明显.

The Impact of Formations on Football Matches Using Double Machine Learning. Is it worth parking the bus?

Genís Ruiz-Menárguez, Llorenç Badiella

stat.AP cs.LG

本文使用Double Machine Learning (DML)框架，分析了足球比赛中不同阵型对比赛结果（如净胜球、控球率）的因果影响。研究发现，进攻阵型在控球等方面有微弱优势，但并未发现防守阵型能显著提高胜率。

NeST: Neuron Selective Tuning for LLM Safety

Sasha Behrouzi et al.

cs.CR cs.LG

本文提出了一种名为NeST的轻量级安全对齐框架, 通过选择性调整与安全行为相关的神经元子集来增强大型语言模型的拒绝行为. 该方法在多个模型上显著降低了攻击成功率, 同时仅需更新极少量的参数.

Overseeing Agents Without Constant Oversight: Challenges and Opportunities

Madeleine Grunde-McLaughlin et al.

cs.HC cs.AI

本文通过三项用户研究, 探讨了用于人类监督的智能体行动轨迹(trace)的设计挑战. 研究发现, 当前实践中的基础行动轨迹效率低下, 而作者提出的新界面设计虽然提升了用户信心和效率, 但并未显著提高最终判断的准确性.

SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Kushal Kedia et al.

cs.RO cs.AI

本文提出了一种名为SimToolReal的sim-to-real强化学习方法, 用于灵巧工具操作的零样本泛化. 该方法通过在仿真中程序化生成大量工具状物体基元并训练单一策略, 实现了对多种现实世界工具的零样本操作.

AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence

Geunbin Yu

cs.MA cs.AI

本文提出了一个用于任务自适应多智能体编排的框架 AdaptOrch. 该框架根据任务依赖图和经验域特征, 在四种典型编排拓扑中进行动态选择, 并在多个任务上验证了其相对于静态基线的性能提升.

MALLVI: a multi agent framework for integrated generalized robotics manipulation

Iman Ahmadi et al.

cs.RO cs.AI cs.CV cs.LG

本文提出了一个名为MALLVi的多智能体框架，用于实现基于闭环反馈的机器人操作。该框架通过协调多个专用智能体来处理感知、定位和规划，并在模拟和真实环境中展示了其零样本泛化能力的提升。

Multi-objective optimization and quantum hybridization of equivariant deep learning interatomic potentials on organic and inorganic compounds

G. Laskaris et al.

cond-mat.mtrl-sci cs.LG quant-ph

本文通过多目标超参数优化和引入量子-经典混合层等架构修改, 在多个数据集上探索了 Allegro 机器学习原子间势能模型在精度与推理时间之间的权衡. 实验结果表明, 一些变体在精度上超越了原始模型, 同时清晰地展示了精度与速度的取舍关系.

A Reversible Semantics for Janus

Ivan Lanese, Germán Vidal

cs.PL cs.AI cs.LO

本文为可逆编程语言Janus提出了一种新颖的小步语义, 该语义本身是可逆的, 同时与原有语义保持等价. 这项工作解决了在高级语言中基于"程序计数器"定义可逆语义的非平凡挑战.

A statistical perspective on transformers for small longitudinal cohort data

Kiana Farhadyar et al.

stat.ME cs.LG stat.ML

本文针对小规模纵向队列数据, 提出了一种简化的transformer架构. 该方法通过减少参数数量并引入基于核的注意力机制, 在模拟和实际数据中展示了识别时间依赖模式的能力.

Xray-Visual Models: Scaling Vision models on Industry Scale Data

Shlok Mishra et al.

cs.CV cs.AI

本文提出了一个名为 Xray-Visual 的统一视觉模型架构，用于大规模图像和视频理解。该模型在社交媒体数据上进行训练，结合了多种学习策略和高效的 ViT 骨干网络，在多个基准测试中取得了先进的性能。

Poisson-MNL Bandit: Nearly Optimal Dynamic Joint Assortment and Pricing with Decision-Dependent Customer Arrivals

Junhui Cai et al.

stat.ML cs.LG

本文研究了动态联合品类选择与定价问题, 提出了一种Poisson-MNL模型, 该模型将顾客到达率与品类和价格决策相关联. 作者设计了一种基于UCB的高效算法PMNL, 并证明了其具有$\sqrt{T\log{T}}$量级的遗憾上界.

Discovering Multiagent Learning Algorithms with Large Language Models

Zun Li et al.

cs.GT cs.AI cs.MA

本文提出了一种利用大语言模型驱动的进化编码代理AlphaEvolve来自动发现新的多智能体学习算法的方法。该方法在两种不同的博弈论学习范式中生成了新的算法变体，并展示了其性能提升。

Say It My Way: Exploring Control in Conversational Visual Question Answering with Blind Users

Farnaz Zamiri Zeraati et al.

cs.HC cs.AI

本文探讨了盲人用户在使用对话式视觉问答(VQA)系统时对交互进行定制和控制的探索性研究. 通过用户研究, 作者分析了参与者采用的提示工程技术, 并讨论了系统在冗长性控制, 空间距离估计等方面的局限性.

BrainRVQ: A High-Fidelity EEG Foundation Model via Dual-Domain Residual Quantization and Hierarchical Autoregression

Mingzhe Cui et al.

eess.SP cs.LG

本文提出了一种用于脑电图(EEG)的通用基础模型BrainRVQ. 该模型通过双域残差向量量化(DD-RVQ)和分层自回归预训练目标, 旨在从大规模临床数据中学习鲁棒的神经表征.

Greedy Multi-Path Block Verification for Faster Decoding in Speculative Sampling

Rahul Thomas, Arka Pal

cs.IT cs.LG

本文提出了一种名为greedy multi-path block verification (GBV)的算法, 用于改进speculative decoding中的验证步骤. 该方法通过构建一个信息无关的线性规划, 证明了block verification (BV)在仅使用路径上概率的验证算法中是最优的, 并进一步将BV推广到多候选路径的场景. 实验表明, GBV相比BV能提升超过30%的块效率和超过15%的解码速度.

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde

cs.CV cs.AI

本文提出了一种用于Diffusion Transformers的动态patch调度方法, 通过根据内容复杂度和去噪时间步动态调整patch大小来提升推理效率. 该方法在图像和视频生成任务上实现了显著的加速, 同时保持了生成质量.

Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling

Divyam Madaan, Sumit Chopra, Kyunghyun Cho

cs.CV cs.CL cs.LG

本文提出了一种名为PRIMO的监督式隐变量插补模型, 用于量化多模态学习中缺失模态的预测影响. 该模型通过隐变量建模缺失模态与观测模态的关系, 并在推理时采样以获取预测分布并分析影响.

Exploring LLMs for User Story Extraction from Mockups

Diego Firmenich et al.

cs.SE cs.AI cs.CL

本文探讨了利用 large language models (LLMs) 从高保真 mockups 中自动提取 user stories 的方法。通过一个案例研究，作者发现结合 Language Extended Lexicon (LEL) 能显著提升生成结果的准确性和适用性。

Wink: Recovering from Misbehaviors in Coding Agents

Rahul Nanda et al.

cs.SE cs.AI cs.HC cs.PL

本文提出了一种名为Wink的轻量级异步自干预系统, 用于自动恢复大规模编码代理(autonomous coding agents)中的不当行为(misbehaviors). 该系统通过观察代理轨迹并提供有针对性的纠偏指导, 在真实世界轨迹的评估中成功解决了大部分需要单次干预的不当行为.

General sample size analysis for probabilities of causation: a delta method approach

Tianyuan Cheng et al.

stat.ME cs.AI

本文提出了一种基于delta method的通用样本量分析框架, 用于估计causation probabilities (如PNS)的边界. 该方法适用于目标边界可表示为实验与观测概率线性组合的有限minima或maxima的情形, 并通过模拟研究验证了其估计的稳定性.

Dynamic Decision-Making under Model Misspecification: A Stochastic Stability Approach

Xinyu Dai, Daniel Chen, Yian Qian

econ.TH cs.LG math.ST

本文研究了模型设定错误下Thompson Sampling算法的行为, 提出了一个统一的随机稳定性框架来分析后验信念的演化. 该工作为结构化bandit中的鲁棒决策提供了理论基础.

Deep Reinforcement Learning for Optimal Portfolio Allocation: A Comparative Study with Mean-Variance Optimization

Srijan Sood et al.

q-fin.PM cs.AI cs.LG

本文比较了深度强化学习(DRL)与传统均值-方差优化(MVO)在投资组合分配问题上的表现。通过回测实验，研究发现DRL代理在多个风险收益指标上表现优于传统方法。

Multiple Index Merge for Approximate Nearest Neighbor Search

Liuchang Jing et al.

cs.DB cs.IR

本文针对大规模高维向量数据构建Proximity Graph索引时内存受限的问题, 研究了多索引合并的方法. 提出了RNSM算法来提升两个索引的合并效率, 并探讨了合并顺序的选择以降低总成本. 实验表明该方法在保持搜索性能的同时, 显著优于现有合并方法与索引重建.

Simplify to Amplify: Achieving Information-Theoretic Bounds with Fewer Steps in Spectral Community Detection

Sie Hendrata Dharmawan, Peter Chin

cs.SI cs.LG

本文提出了一种简化的谱算法用于社区检测, 通过直接利用邻接矩阵的谱性质, 在常数边密度假设下改进了误差界. 实验验证了该方法的有效性.

Semi-Supervised Learning on Graphs using Graph Neural Networks

Juntong Chen et al.

stat.ML cs.LG

本文研究了图神经网络在半监督节点回归任务中的理论性能. 通过分析一个聚合-读出模型, 为具有线性图卷积和深度ReLU读出函数的GNN的均方估计风险提供了非渐近上界, 并讨论了标注节点比例和图结构依赖性的影响.

3D Scene Rendering with Multimodal Gaussian Splatting

Chi-Shiang Gau et al.

cs.CV cs.AI cs.RO

本文提出了一种结合射频(RF)感知与3D Gaussian Splatting(GS)的多模态框架, 用于3D场景渲染. 该方法利用雷达等RF信号对恶劣环境的鲁棒性, 从稀疏的RF深度测量中高效预测深度并生成点云, 以初始化GS中的Gaussian基元, 从而在视觉线索不可靠的条件下实现高质量的渲染.

Universal Fine-Grained Symmetry Inference and Enforcement for Rigorous Crystal Structure Prediction

Shi Yin et al.

cond-mat.mtrl-sci cs.AI physics.comp-ph

本文提出了一种结合大语言模型与约束优化搜索的方法, 用于晶体结构预测中的精细对称性推断与强制执行. 该方法通过生成对称性一致的Wyckoff pattern模板, 并将其整合到扩散模型中, 以约束生成轨迹在物理有效的几何流形上, 从而在多个基准测试上取得了先进的性能.

Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering

Kishan Maharaj et al.

cs.SE cs.AI

本文通过系统实验研究了LLMs在长代码上下文问答任务中的鲁棒性. 实验发现, 模型在选项顺序、开放性问题格式以及存在无关信息干扰时, 性能会出现显著下降.

The Bots of Persuasion: Examining How Conversational Agents' Linguistic Expressions of Personality Affect User Perceptions and Decisions

Uğur Genç et al.

cs.HC cs.AI

本文研究了大型语言模型驱动的对话代理通过语言表达个性如何影响用户在慈善捐赠场景中的决策和感知。实验发现，代理的复合个性虽不影响捐赠决策，但显著改变了用户的情感反应和对代理的信任度、能力感知。

Anti-causal domain generalization: Leveraging unlabeled data

Sorawit Saengkyongam et al.

stat.ML cs.LG

本文研究了反因果设定下的领域泛化问题, 提出了一种利用无标签数据来估计环境扰动方向的方法. 通过惩罚模型对协变量均值和协方差变化的敏感性, 该方法在特定环境类别下具有最坏情况最优性保证.

Deeper detection limits in astronomical imaging using self-supervised spatiotemporal denoising

Yuduo Guo et al.

astro-ph.IM astro-ph.CO astro-ph.GA cs.AI

本文提出了一种基于transformer的自监督去噪算法(ASTERIS), 用于整合天文图像的多曝光时空信息以降低噪声. 在模拟和真实观测数据上的测试表明, 该方法能显著提升探测极限, 发现更多微弱天体.

MGD: Moment Guided Diffusion for Maximum Entropy Generation

Etienne Lempereur et al.

stat.ML cs.LG

本文提出了一种结合最大熵原理与生成模型的新方法, 用于从矩约束中高效采样. 该方法通过设计一个在有限时间内引导矩至目标值的随机微分方程来避免传统方法的混合缓慢问题, 并应用于金融时间序列等多个领域.

Extending quantum theory with AI-assisted deterministic game theory

Florian Pauschitz, Ben Moseley, Ghislain Fourny

quant-ph cs.AI cs.GT

本文提出了一个结合AI与deterministic game theory的框架, 旨在为量子理论寻找一个local hidden-variable extension. 该框架将量子实验建模为博弈, 并用神经网络学习包含hidden variable的reward function.

Privacy-Preserving Mechanisms Enable Cheap Verifiable Inference of LLMs

Arka Pal et al.

cs.CR cs.LG

本文提出了一种利用隐私保护机制来实现低成本可验证大语言模型推理的新思路. 通过将隐私保护推理协议转化为验证协议, 可以在几乎不增加计算开销的情况下, 为用户提供推理过程的可信保证. 该方法避免了传统零知识证明带来的巨大性能负担, 为模型服务外包场景中的信任问题提供了一种高效解决方案.

TAPO-Structured Description Logic for Information Behavior: Procedural and Oracle-Based Extensions

Takao Inoué

cs.LO cs.AI

本文提出了一种扩展的描述逻辑框架 TAPO-DL，用于对信息行为进行结构化建模。它通过引入程序框和预言框来整合动态过程与外部信息源，并基于层论语义提供统一的解释。

Federated Latent Space Alignment for Multi-user Semantic Communications

Giuseppe Di Poce et al.

cs.IT cs.AI

本文提出了一种联邦学习框架来对齐多用户语义通信中的潜在空间, 以解决AI原生设备间语义不匹配的问题. 该方法通过共享语义预均衡器和本地均衡器, 在考虑功率和复杂度约束下, 实现了面向任务的通信.

Quantum Scrambling Born Machine

Marcin Płodzień

quant-ph cs.LG

本文提出了一种称为 Quantum Scrambling Born Machine 的量子生成模型. 该模型使用固定的纠缠酉算子作为"置乱"源来提供多量子比特纠缠, 同时仅优化单量子比特旋转. 实验表明, 一旦纠缠器产生接近 Haar 典型的纠缠, 模型学习目标分布的性能对置乱器的微观起源不敏感.

Open Datasets in Learning Analytics: Trends, Challenges, and Best PRACTICE

Valdemar Švábenský et al.

cs.CY cs.DB cs.LG

本文调查了学习分析领域开放数据集的现状, 分析了三大旗舰会议五年间的论文, 并提出了促进数据共享的实践指南. 研究构建了迄今最全面的开放教育数据集清单, 指出了当前存在的不足并分享了详细的分类与建议.

What Breaks Embodied AI Security:LLM Vulnerabilities, CPS Flaws,or Something Else?

Boyang Ma et al.

cs.CR cs.AI

本文是一篇关于Embodied AI系统安全的综述性论文. 作者认为, 当前主要从LLM漏洞或传统CPS攻击角度分析安全问题的视角存在不足, 并提出了一类由"具身化"引发的系统级失配是导致故障的重要原因. 文章总结了四个核心观点, 用以解释为何Embodied AI的安全保障更为困难.

Partial Optimality in the Preordering Problem

David Stein, Jannik Irmai, Bjoern Andres

cs.DM cs.DS cs.LG

本文针对NP-hard的preordering问题, 提出了新的partial optimality条件及高效判定算法. 在真实与合成数据上的实验表明, 新条件能有效提升可判定不满足最优序关系的元素对比例.

Voice-Driven Semantic Perception for UAV-Assisted Emergency Networks

Nuno Saavedra et al.

cs.NI cs.AI cs.SD

本文提出了一个名为SIREN的AI驱动框架，用于无人机辅助应急网络。该框架通过整合语音识别、大语言模型和自然语言处理，将非结构化的语音通信转化为机器可读的结构化信息，以支持网络管理和决策。实验评估了其在多种合成应急场景下的性能，证明了该方法的可行性。

SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery

Lorenzo Caselli et al.

cs.CV cs.AI cs.LG

本文提出了一种名为SpectralGCD的高效多模态方法，用于广义类别发现(GCD)。该方法利用CLIP的跨模态相似度作为统一表示，并通过谱过滤和知识蒸馏来提升语义表示的质量与效率。

A High-Level Survey of Optical Remote Sensing

Panagiotis Koletsis et al.

cs.CV cs.AI

本文是一篇关于光学遥感领域的高层次综述, 涵盖了该领域的多种任务, 能力与方法论, 并提供了数据集等关键信息. 其目的是为进入该领域的研究者提供指导, 帮助他们聚焦于最相关的方向.

DAVE: A Policy-Enforcing LLM Spokesperson for Secure Multi-Document Data Sharing

René Brinkhege, Prahlad Menon

cs.CR cs.CL

本文提出了一种名为DAVE的架构, 用于在多方数据共享场景中通过LLM作为"发言人"来执行细粒度的数据使用策略. 其核心思想是"虚拟编辑", 即在查询时根据机器可读的策略(如ODRL)动态抑制敏感信息, 而无需修改原始文档. 作者将这一架构与Eclipse Dataspace Components集成, 并概述了初步的原型设计和未来的评估方法.

Jolt Atlas: Verifiable Inference via Lookup Arguments in Zero Knowledge

Wyatt Benno et al.

cs.CR cs.AI

本文提出了一个名为Jolt Atlas的零知识机器学习框架, 它扩展了Jolt证明系统以用于模型推理. 该框架直接针对ONNX张量运算, 利用基于sumcheck协议的lookup arguments处理非线性函数, 并实现了在内存受限环境下的流式证明.

What Do LLMs Associate with Your Name? A Human-Centered Black-Box Audit of Personal Data

Dimitri Staufer, Kirsten Morehouse

cs.HC cs.AI cs.CL cs.CY

本文提出了一种名为LMP2的隐私审计工具, 用于以人为中心地评估大型语言模型(LLMs)如何将个人信息与特定姓名关联. 通过实证研究, 作者发现包括GPT-4o在内的多种模型能够以较高置信度生成个人特征, 并揭示了用户对控制这些模型生成关联的强烈需求.

Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

Yichen Lu et al.

cs.CV cs.AI

本文提出了一种结合像素级追踪与块级相似性学习的新方法, 用于提升图像复制检测任务在复杂编辑下的性能. 通过引入PixTrace模块和CopyNCE损失函数, 该方法在DISC21数据集上取得了先进的性能指标.

Computational Hardness of Private Coreset

Badih Ghazi et al.

cs.CG cs.CR cs.DS

本文研究了在差分隐私(DP)约束下计算$k$-means目标coreset的计算复杂性. 作者证明了在单向函数存在的假设下, 对于$\ell_\infty$度量空间中的$k$-means问题, 不存在多项式时间的$(\epsilon, 1/n^{\omega(1)})$-DP算法能计算一个具有常数近似因子$\alpha$的coreset, 即使对于$k=3$的情况. 对于欧几里得度量空间, 类似的不可能性结果在近似因子$\alpha = \Theta(1/d^2)$时成立.

Systematic Evaluation of Single-Cell Foundation Model Interpretability Reveals Attention Captures Co-Expression Rather Than Unique Regulatory Signal

Ihor Kendiukhov

q-bio.GN cs.AI

本文系统评估了单细胞基础模型的可解释性, 发现注意力机制主要捕获基因共表达模式而非独特的调控信号. 尽管注意力模式编码了具有层级特异性的生物学信息, 但其在扰动预测任务中并未提供超越简单基因层面基线的增量价值.

Toward a Fully Autonomous, AI-Native Particle Accelerator

Chris Tennant

physics.acc-ph cs.AI

本文提出了一种构建完全自主、AI原生的粒子加速器的愿景. 它概述了从AI协同设计到自主运行的九个关键研究方向, 旨在通过AI驱动实现前所未有的科学产出和可靠性.

IRIS: Learning-Driven Task-Specific Cinema Robot Arm for Visuomotor Motion Control

Qilong Cheng, Matthew Mackay, Ali Bereyhi

cs.RO cs.LG

本文介绍了一种用于视觉运动控制的智能机器人摄像系统IRIS. 该系统结合了3D打印硬件与基于Transformer的动作分块模仿学习框架, 能够从人类演示中学习平滑的相机轨迹.

Informative Trains: A Memory-Efficient Journey to a Self-Stabilizing Leader Election Algorithm in Anonymous Graphs

Lelia Blin, Sylvain Gay, Isabella Ziccardi

cs.DC cs.DS

本文针对匿名网络中的自稳定领导者选举问题, 提出了一种概率性算法. 该算法在同步调度器下运行, 每个节点仅需$O(\log \log n)$比特内存, 并以高概率在$O(\mathrm{poly}(n))$轮内收敛到唯一领导者的稳定配置.

genriesz: A Python Package for Automatic Debiased Machine Learning with Generalized Riesz Regression

Masahiro Kato

stat.ML cs.LG econ.EM math.ST stat.ME

本文介绍了一个名为genriesz的Python包, 它通过实现广义Riesz回归和自动去偏机器学习, 为因果和结构参数的估计提供了一个自动化框架. 该包的核心设计原则是自动回归器平衡(ARB), 能够根据用户选择的Bregman生成器和基函数自动构建兼容的链接函数, 并提供了模块化的接口来指定目标线性泛函, 表示器模型和生成器.

Adaptive Decentralized Composite Optimization via Three-Operator Splitting

Xiaokai Chen, Ilya Kuruzov, Gesualdo Scutari

math.OC cs.LG cs.MA

本文针对具有局部光滑凸损失和非光滑凸扩展值项的分散式优化问题, 提出了一种基于三算子分裂的自适应步长调整方法. 该方法利用BCV预条件度量进行问题重构, 实现了轻量级的共识协议和局部回溯步长调整, 并在凸性和强凸性假设下分别证明了次线性和线性收敛性.

Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

Minheng Chen et al.

q-bio.NC cs.AI cs.CV

本文提出了一种基于概率不变随机游走的框架, 用于在无需显式节点对齐的情况下对个体化的基于脑回折叠的皮层相似性网络进行分类. 该方法在阿尔茨海默病和路易体痴呆的大型临床队列上进行了验证, 相比现有方法取得了改进.

Conditional Flow Matching for Continuous Anomaly Detection in Autonomous Driving on a Manifold-Aware Spectral Space

Antonio Guillen-Perez

cs.RO cs.AI cs.LG

本文提出了一种用于自动驾驶连续异常检测的无监督框架Deep-Flow. 该方法在spectral空间上利用Conditional Flow Matching来建模专家驾驶行为的概率密度, 并通过引入运动学复杂性加权来提升对高风险场景的检测能力.

Asymptotically Optimal Sequential Testing with Markovian Data

Alhad Sethi et al.

math.ST cs.LG stat.ML

本文研究了由遍历 Markov chain 生成数据的单边与 $\alpha$-正确序贯假设检验问题. 提出了一种渐近最优的检验方法, 其期望停止时间在 $\alpha \to 0$ 时与所建立的非渐近下界匹配.

Adapting Actively on the Fly: Relevance-Guided Online Meta-Learning with Latent Concepts for Geospatial Discovery

Jowaria Khan et al.

cs.CV cs.AI cs.CY cs.LG

本文提出了一个结合 active learning, online meta-learning 和 concept-guided reasoning 的统一地理空间发现框架。该方法利用领域特定概念（如土地覆盖）来指导采样和元更新，以在数据有限且环境动态变化的情况下高效发现隐藏目标。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计

⭐ 精选论文

cs.LG

others

📄 所有论文

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others