bluearXiv-ai - 2026-02-21

📄 所有论文

cs.LG

Powering Up Zeroth-Order Training via Subspace Gradient Orthogonalization ⭐ 精选

Yicheng Lang et al.

cs.LG

本文提出了一种名为 ZO-Muon 的新方法，通过将投影子空间方法与 Muon 风格的光谱优化相结合，统一了子空间梯度正交化框架，以解决 zeroth-order (ZO) 优化中精度与查询效率之间的根本矛盾。该方法利用模型更新的内在低秩结构来降低梯度估计方差，并通过梯度正交化从噪声 ZO 梯度中提取信息丰富的光谱结构。在大型语言模型和视觉 transformer 上的实验表明，ZO-Muon 能显著加速收敛，在精度和查询/运行时效率上实现双赢，例如仅需 MeZO 基线 24.7% 的查询即可达到相同的 LLM 微调性能。

Multi-Objective Alignment of Language Models for Personalized Psychotherapy

Mehrab Beikzadeh et al.

cs.LG cs.CL

本文提出了一种用于个性化心理治疗的语言模型多目标对齐框架, 通过直接偏好优化(DPO)来平衡多个治疗标准. 该方法在临床评估中表现优于单目标优化和基线方法.

MMCAformer: Macro-Micro Cross-Attention Transformer for Traffic Speed Prediction with Microscopic Connected Vehicle Driving Behavior

Lei Han et al.

cs.LG

本文提出了一种名为MMCAformer的Transformer模型, 用于整合宏观交通流特征与基于Connected Vehicle数据的微观驾驶行为特征, 以进行交通速度预测. 实验表明, 引入微观行为特征能提升预测精度并降低模型不确定性.

A Few-Shot LLM Framework for Extreme Day Classification in Electricity Markets

Saud Alghumayjan, Ming Yi, Bolun Xu

cs.LG eess.SY

本文提出了一种基于大语言模型(Large Language Models, LLMs)的小样本分类框架，用于预测电力市场中次日实时电价是否会出现尖峰。该方法将系统状态信息转化为统计特征并格式化为自然语言提示，输入LLM进行判断。在数据有限的情况下，该框架的表现优于传统的监督机器学习模型。

Real-time Secondary Crash Likelihood Prediction Excluding Post Primary Crash Features

Lei Han et al.

cs.LG

本文提出了一种不依赖事故后特征的实时次生事故可能性预测混合框架. 该框架通过动态时空窗口提取实时交通流和环境特征, 并集成多个机器学习模型进行预测, 在佛罗里达州高速公路数据上取得了较好的性能.

Quantifying LLM Attention-Head Stability: Implications for Circuit Universality

Karan Bali et al.

cs.LG cs.AI

本文通过量化不同训练实例中attention head的稳定性，研究了transformer语言模型中"circuits"的普适性问题。研究发现中间层head最不稳定但表征最独特，且权重衰减能提升稳定性，这对AI系统的可解释性有启示。

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Haoxiang Sun et al.

cs.LG cs.AI

本文介绍了一个名为DeepVision-103K的大规模、多样化、可验证的多模态数学数据集，旨在提升大型多模态模型在视觉反思和推理方面的能力。该数据集覆盖了广泛的K12数学主题和视觉元素，实验表明基于其训练的模型在多项多模态推理基准上表现良好。

PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency

Zhangyi Liu et al.

cs.LG cs.AI

本文提出了一个用于优化测试时自洽性轨迹分配的框架PETS, 其核心是定义了自洽率这一新度量. 该框架在离线和在线两种设置下都设计了分配算法, 实验表明其能比均匀分配更高效地利用采样预算.

Low-Dimensional and Transversely Curved Optimization Dynamics in Grokking

Yongzhong Xu

cs.LG cs.AI

本文通过分析transformer在模运算任务上的训练轨迹, 研究了grokking现象背后的优化动力学几何结构. 研究发现训练主要发生在一个低维的"执行子空间"内, 并且泛化发生前, 损失景观在正交于该子空间的方向上曲率会显著增长.

LiveClin: A Live Clinical Benchmark without Leakage

Xidong Wang et al.

cs.LG cs.AI

本文提出了一个名为 LiveClin 的动态临床基准测试，旨在解决医学大语言模型评估中的数据污染和知识过时问题。该基准基于最新的同行评议病例报告构建，并通过人工验证流程生成了复杂的多模态评估场景。

Attending to Routers Aids Indoor Wireless Localization

Ayush Roy et al.

cs.LG cs.AI cs.NI

本文提出了一种基于注意力机制的室内无线定位方法, 通过为不同Wi-Fi路由器分配不同的权重来聚合信息, 从而提升定位精度. 实验表明, 该方法在公开数据集上的性能优于基准架构.

Machine Learning Argument of Latitude Error Model for LEO Satellite Orbit and Covariance Correction

Alex Moody, Penina Axelrad, Rebecca Russell

cs.LG cs.RO eess.SY

本文提出了一种机器学习方法来修正低地球轨道卫星的纬度幅角误差模型. 该方法利用神经网络和高斯过程来预测误差分布, 从而在无需修改现有轨道预报器的情况下, 延长了向量协方差消息星历的有效使用时间.

Omitted Variable Bias in Language Models Under Distribution Shift

Victoria Lin, Louis-Philippe Morency, Eli Ben-Michael

cs.LG cs.CL stat.ME

本文讨论了语言模型在分布偏移下的遗漏变量偏差问题. 作者提出了一个将偏移分解为可观测与不可观测分量的框架, 并引入了一种基于遗漏变量强度的最坏情况泛化性能边界方法.

Better Think Thrice: Learning to Reason Causally with Double Counterfactual Consistency

Victoria Lin et al.

cs.LG cs.CL

本文提出了一种名为double counterfactual consistency (DCC)的轻量级推理时方法，用于评估和引导大型语言模型(LLMs)的因果推理能力。该方法无需标注数据，通过验证模型执行因果干预(causal intervention)和反事实预测(counterfactual prediction)的能力来提升其在推理任务上的表现。

Escaping the Cognitive Well: Efficient Competition Math with Off-the-Shelf Models

Xingyu Dang et al.

cs.LG

本文提出了一种基于通用现成模型的高效推理流程, 用于解决IMO风格的数学问题. 该方法通过"猜想提取"和"上下文分离"等机制, 显著降低了推理成本, 并在IMO-ProofBench Advanced上取得了当前最佳性能.

Efficient Tail-Aware Generative Optimization via Flow Model Fine-Tuning

Zifan Wang et al.

cs.LG math.OC

本文提出了一种基于Conditional Value-at-Risk (CVaR)的分布微调算法TFFT，用于对预训练的flow模型进行尾部感知的生成优化。该方法通过一个解耦的两阶段过程，高效地实现了对高奖励（右尾）或低奖励（左尾）样本分布的控制，其计算成本与标准的期望奖励微调方法相当。

TopoFlow: Physics-guided Neural Networks for high-resolution air quality prediction

Ammar Kheder et al.

cs.LG

本文提出了一种结合物理知识的神经网络方法TopoFlow, 用于高分辨率空气质量预测. 该方法通过地形感知注意力与风引导的patch重排机制, 在预测精度上超越了现有基准.

Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees

Itamar Hadad, Guy Katz, Shahaf Bassan

cs.LG cs.LO

本文利用神经网络验证技术, 提出了一套能提供可证明保证的自动电路发现算法. 这些算法在多个视觉模型上进行了实验, 相比标准方法获得了更强的鲁棒性保证.

HiVAE: Hierarchical Latent Variables for Scalable Theory of Mind

Nigel Doering et al.

cs.LG cs.AI

本文提出了一种用于扩展心智理论(Theory of Mind, ToM)推理的分层变分自编码器架构HiVAE. 该方法在校园导航任务上取得了性能提升, 但作者指出其学习到的潜在表征缺乏对实际心理状态的显式关联.

Learning under noisy supervision is governed by a feedback-truth gap

Elan Schonfeld, Elias Wisnia

cs.LG cs.AI cs.NE

本文通过一个双时间尺度模型, 分析了在噪声监督下学习时反馈与真实信息之间的差异. 该研究在神经网络、人类概率反转学习和脑电图实验中验证了这一差异的普遍存在性及其不同的调节机制.

VAM: Verbalized Action Masking for Controllable Exploration in RL Post-Training -- A Chess Case Study

Zhicheng Zhang et al.

cs.LG cs.AI

本文提出了一种名为Verbalized Action Masking (VAM)的方法，用于改进大型语言模型在强化学习后训练阶段的探索问题。该方法通过在提示中显式地声明可行动作集并进行迭代剪枝，在象棋任务中提升了学习效率和最终性能。

A Residual-Aware Theory of Position Bias in Transformers

Hanna Herasimchyk et al.

cs.LG

本文通过引入 residual connections 分析了 Transformer 模型中的位置偏差问题。理论证明表明，在有限深度下，因果 Transformer 会产生一种 U 形的位置注意力分布。

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

Zeliang Zhang et al.

cs.LG cs.CL

本文提出了一种名为Progressive Thought Encoding的参数高效微调方法, 旨在解决大型推理模型在强化学习训练中因长序列生成导致的内存效率瓶颈. 该方法通过将中间推理过程逐步编码为固定大小的向量表示, 在严格的内存限制下提升了多个数学推理基准上的性能.

What is the Value of Censored Data? An Exact Analysis for the Data-driven Newsvendor

Rachitesh Kumar, Omar Mouchtaki

cs.LG

本文研究了在需求数据被截断(censored)情况下的离线数据驱动报童问题. 作者提出了一种通用方法来精确计算经典数据驱动库存策略在最坏情况下的遗憾(regret), 并分析了在需求截断下标准库存策略的可实现性能.

On the Mechanism and Dynamics of Modular Addition: Fourier Features, Lottery Ticket, and Grokking

Jianliang He et al.

cs.LG math.OC stat.ML

本文研究了双层神经网络学习模加法任务的特征机制与训练动态. 通过形式化训练中出现的相位对称与频率多样化条件, 解释了网络如何整合单个神经元的傅里叶特征来近似正确的逻辑函数. 分析表明, 初始阶段的"彩票假设"机制和梯度流驱动的频率竞争主导了特征的形成过程.

Position: Why a Dynamical Systems Perspective is Needed to Advance Time Series Modeling

Daniel Durstewitz et al.

cs.LG cs.AI math.DS

本文主张将 dynamical systems 视角引入 time series 建模领域, 认为这能带来更优的预测和理论洞察. 作者回顾了相关概念与方法, 并讨论了如何利用 dynamical systems reconstruction 来改进现有模型.

ML-driven detection and reduction of ballast information in multi-modal datasets

Yaroslav Solovko

cs.LG stat.ML

本文提出了一个用于检测和减少多模态数据集中冗余信息（ballast）的通用框架. 该方法整合了多种技术来识别和消除低效用特征, 并引入了统一的Ballast Score进行特征剪枝, 实验表明其能显著降低数据维度和计算成本.

Construction of a classification model for dementia among Brazilian adults aged 50 and over

F. S. Menezes et al.

cs.LG q-bio.NC

本文利用巴西老龄化纵向研究(ELSI-Brazil)的数据，结合随机森林(Random Forest)和多变量逻辑回归方法，构建了一个针对巴西中老年人的痴呆症分类预测模型。研究识别了包括文盲、高龄、低握力等多个风险因素，并发现随机森林模型在预测性能上优于逻辑回归。

Exact Certification of Data-Poisoning Attacks Using Mixed-Integer Programming

Philip Sosnin et al.

cs.LG

本文提出了一种基于混合整数二次规划(MIQCP)的验证框架, 用于在神经网络训练过程中提供关于数据投毒攻击的完备性保证. 该框架将攻击、训练和评估整合到一个优化问题中, 从而能够精确地界定所有可能攻击的效果.

Beyond Message Passing: A Symbolic Alternative for Expressive and Interpretable Graph Learning

Chuqin Geng et al.

cs.LG cs.AI

本文提出了一种名为SymGraph的符号化图学习框架, 旨在克服传统GNN在可解释性和表达能力方面的局限. 它通过离散的结构哈希和基于拓扑角色的聚合来替代连续的消息传递, 从而在理论上超越了1-WL表达能力限制, 并在实验中展现了优越的性能与效率.

Neural Proposals, Symbolic Guarantees: Neuro-Symbolic Graph Generation with Hard Constraints

Chuqin Geng et al.

cs.LG

本文提出了一种结合神经网络与符号推理的图生成框架NSGGM, 用于分子生成任务. 该框架通过神经模型提出候选结构, 并利用高效的SMT求解器强制执行化学规则与用户约束, 从而在保证生成分子结构有效性的同时提供可解释的控制.

Multi-Agent Lipschitz Bandits

Sourav Chakraborty et al.

cs.LG

本文研究了去中心化多智能体Lipschitz bandit问题, 提出了一种无需通信的模块化协议. 该协议通过一种新颖的极大值导向搜索解决智能体协调问题, 然后将其解耦为多个独立的单智能体问题, 最终获得了接近最优的遗憾界.

A Unified Framework for Locality in Scalable MARL

Sourav Chakraborty et al.

cs.LG cs.AI

本文提出了一个用于分析可扩展多智能体强化学习(MARL)中局部性(locality)的统一框架. 通过将策略诱导的相互依赖矩阵$H^\pi$分解为环境对状态($E^{\mathrm{s}}$)和动作($E^{\mathrm{a}}$)的敏感度以及策略对状态($\Pi(\pi)$)的敏感度, 作者揭示了局部性可以是一种策略依赖的现象. 基于此, 他们推导出了一个比先前基于范数的条件更严格的谱条件$\rho(E^{\mathrm{s}}+E^{\mathrm{a}}\Pi(\pi)) < 1$来保证指数衰减性质(EDP), 并利用该理论分析了一个可证明的局部块坐标策略改进框架.

Early-Warning Signals of Grokking via Loss-Landscape Geometry

Yongzhong Xu

cs.LG cs.AI

本文研究了Transformer模型在序列学习任务中“顿悟”(grokking)现象出现前的预警信号。通过分析损失景观的几何特性，发现梯度更新的非对易性(commutator defect)是一个比谱集中更普遍的早期指标，并且因果干预实验证实了其在机制上的作用。

Fail-Closed Alignment for Large Language Models

Zachary Coalson et al.

cs.LG cs.CR

本文提出了一种针对大语言模型安全对齐的"故障关闭"设计原则, 旨在提升模型对越狱攻击的鲁棒性. 作者通过一个渐进式对齐框架, 迫使模型在多个独立的子空间中重建安全机制, 从而在多种攻击下实现了较好的鲁棒性与生成质量的平衡.

Discovering Universal Activation Directions for PII Leakage in Language Models

Leo Marchyok et al.

cs.LG cs.CR

本文提出了一种名为UniLeak的机制可解释性框架, 用于在语言模型的残差流(residual stream)中发现能一致增加生成个人身份信息(PII)概率的通用激活方向. 该方法无需训练数据或真实PII, 仅依赖模型自生成文本, 即可识别这些模型特定的方向, 从而放大PII泄露风险.

Dynamic Delayed Tree Expansion For Improved Multi-Path Speculative Decoding

Rahul Thomas et al.

cs.LG

本文提出了一种动态延迟树扩展方法，用于改进多路径推测解码。该方法通过延迟分支点和使用神经选择器动态决策，提升了基于最优传输的验证算法的效率，在多种模型和任务上实现了更高的吞吐量。

Arcee Trinity Large Technical Report

Varun Singh et al.

cs.LG cs.CL

本文介绍了Arcee Trinity系列稀疏Mixture-of-Experts模型的技术报告，包括Trinity Large、Nano和Mini三个版本。报告描述了其现代架构特点、训练过程与数据规模。

Action-Graph Policies: Learning Action Co-dependencies in Multi-Agent Reinforcement Learning

Nikunj Gupta et al.

cs.LG

本文提出了一种名为Action Graph Policies (AGP)的新方法, 用于在多智能体强化学习(MARL)中建模智能体间动作选择的依赖关系. 该方法通过构建"协调上下文"(coordination contexts), 使智能体能够根据全局动作依赖关系进行决策, 并在部分可观测和存在反协调惩罚的典型任务中取得了比基线方法更好的性能.

Malliavin Calculus as Stochastic Backpropogation

Kevin D. Oden

cs.LG

本文通过Malliavin积分恒等式建立了路径重参数化与Malliavin梯度估计器之间的理论联系, 并基于此提出了一个统一的、方差感知的混合估计器. 该混合估计器利用经验协方差结构自适应地结合两种梯度, 在理论上达到了无偏线性组合中的最小方差, 并在VAE和合成任务上展示了显著的方差降低效果.

WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning

Gagan Mundada et al.

cs.LG

本文提出了一种名为WS-GRPO的弱监督方法，用于提升语言模型在复杂推理任务中的计算效率。该方法通过利用最终答案的正确性来生成对部分推理过程的指导信号，从而减少不必要的计算步骤，同时保持模型的准确性。

Transforming Behavioral Neuroscience Discovery with In-Context Learning and AI-Enhanced Tensor Methods

Paimon Goulart et al.

cs.LG cs.AI

本文提出了一种结合In-Context Learning和增强张量分解方法的AI驱动流程，旨在加速行为神经科学领域的数据分析和模式发现。该流程在恐惧泛化小鼠实验数据上进行了验证，展示了其在数据准备和模式解释方面的有效性。

Forecasting Anomaly Precursors via Uncertainty-Aware Time-Series Ensembles

Hyeongwon Kang et al.

cs.LG cs.AI

本文提出了一个名为FATE的无监督框架, 用于通过量化时间序列预测模型集合的预测不确定性来检测异常前兆. 该方法引入了一个新的评估指标PTaPR, 并在多个真实世界数据集上展示了其在无标签情况下的早期异常预警能力.

Multi-Probe Zero Collision Hash (MPZCH): Mitigating Embedding Collisions and Enhancing Model Freshness in Large-Scale Recommenders

Ziliang Zhao et al.

cs.LG

本文提出了一种名为Multi-Probe Zero Collision Hash (MPZCH)的新索引机制，用于缓解大规模推荐系统中embedding table的碰撞问题。该方法基于线性探测，通过辅助张量和CUDA内核实现，能在保持效率的同时显著提升embedding的新鲜度和质量。

Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression

Akira Sakai, Yuma Ichikawa

cs.LG cs.AI cs.CL cs.CV

本文研究了 sub-bit 模型压缩中权重符号位成为瓶颈的现象. 通过理论分析和实验, 作者提出了 sign lock-in 理论, 并设计了新的初始化方法和正则化器来减少符号翻转率.

Spatio-temporal dual-stage hypergraph MARL for human-centric multimodal corridor traffic signal control

Xiaocai Zhang, Neema Nassir, Milad Haghani

cs.LG eess.SY

本文提出了一种名为STDSH-MARL的交通信号控制框架，它结合了多智能体强化学习(MARL)与超图注意力机制。该方法通过一个混合离散动作空间来联合决定信号相位和绿灯时长，在走廊网络的多模态交通场景中提升了整体性能，特别是公共交通的优先权。

AdvSynGNN: Structure-Adaptive Graph Neural Nets via Adversarial Synthesis and Self-Corrective Propagation

Rong Fu et al.

cs.LG cs.AI

本文提出了一种名为 AdvSynGNN 的图神经网络架构，旨在提升模型在结构噪声或非同配性拓扑下的鲁棒性。该框架通过多分辨率结构合成、对抗性传播引擎和基于置信度的标签细化机制来优化节点表示学习。

Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum

Minxin Zhang, Yuxuan Liu, Hayden Scheaffer

cs.LG math.OC

本文提出了一种名为NAMO的新型优化器及其对角扩展NAMO-D, 将正交动量(orthogonalized momentum)与基于范数的Adam型噪声自适应机制相结合. 实验表明, 在GPT-2预训练任务中, NAMO和NAMO-D的性能优于AdamW和Muon基线.

MeGU: Machine-Guided Unlearning with Target Feature Disentanglement

Haoyu Wang et al.

cs.LG

本文提出了一种名为MeGU的机器引导遗忘框架, 旨在解决机器遗忘中目标数据影响消除与模型效用保持之间的权衡问题. 该方法利用多模态大语言模型来引导特征层面的概念感知重对齐, 并通过引入正负特征噪声对来显式解耦目标概念的影响.

Synergizing Transport-Based Generative Models and Latent Geometry for Stochastic Closure Modeling

Xinghao Dong, Huchen Yang, Jin-long Wu

cs.LG math.DS physics.comp-ph

本文探讨了将基于传输的生成模型与潜在几何结合用于随机闭合建模的方法. 通过在一个二维Kolmogorov流的数值例子中系统比较, 研究发现潜在空间中的流匹配(flow matching)能够实现快速采样, 比基于扩散的迭代方法快两个数量级. 为了控制潜在空间失真并确保采样的闭合项的物理保真度, 研究比较了联合训练方案提供的隐式正则化与两种显式正则化器.

A Locality Radius Framework for Understanding Relational Inductive Bias in Database Learning

Aadi Joshi, Kavya Bhand

cs.LG

本文提出了locality radius这一形式化度量, 用于量化关系型数据库模式中预测所需的最小结构邻域. 通过一系列实验, 作者发现模型性能与任务所需的locality radius和模型架构的聚合深度之间的对齐程度密切相关.

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

Chuiyang Meng, Ming Tang, Vincent W.S. Wong

cs.LG cs.AI

本文提出了一种名为FLoRG的联邦微调框架, 它使用单个低秩矩阵进行微调并聚合其Gram矩阵, 以减少通信开销并避免分解漂移. 实验表明该方法在多个基准测试中优于现有方案.

Operationalization of Machine Learning with Serverless Architecture: An Industrial Operationalization of Machine Learning with Serverless Architecture: An Industrial Implementation for Harmonized System Code Prediction

Sai Vineeth Kandappareddigari et al.

cs.LG

本文介绍了一个基于 serverless 架构的 MLOps 框架，用于协调从数据到部署的完整机器学习生命周期。该框架通过一个工业级的 Harmonized System 代码预测案例展示了其实际应用，该案例使用自定义文本编码器和深度学习模型（如 Text-CNN）实现了高准确率。

Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners

Sajad Ashkezari, Shai Ben-David

cs.LG stat.ML

本文研究了在线学习中智能体通过微调特征以获取更有利标签的模型. 作者扩展了先前结果, 分析了多分类, bandit反馈以及智能体改进成本等设定下的在线可学习性.

i-PhysGaussian: Implicit Physical Simulation for 3D Gaussian Splatting

Yicheng Cao et al.

cs.LG

本文提出了一种结合3D Gaussian Splatting与隐式Material Point Method的物理模拟框架i-PhysGaussian. 该方法通过隐式牛顿优化求解动量平衡残差, 显著降低了对时间步长的敏感性, 在复杂动态场景中保持了稳定性和物理一致性.

TIFO: Time-Invariant Frequency Operator for Stationarity-Aware Representation Learning in Time Series

Xihao Piao et al.

cs.LG cs.AI

本文提出了一种名为TIFO的时不变频率算子，用于处理时间序列预测中的分布偏移问题。该方法通过在整个数据集上学习频率谱的平稳感知权重，强调平稳频率分量并抑制非平稳分量。TIFO是一个即插即用的模块，可以集成到多种预测模型中，实验表明其在多个数据集上提升了预测性能并显著降低了计算成本。

VP-VAE: Rethinking Vector Quantization via Adaptive Vector Perturbation

Linwei Zhai et al.

cs.LG cs.AI

本文提出了一种名为VP-VAE的新方法，通过引入自适应的潜在向量扰动来替代传统的显式码本，从而解耦了表示学习和离散化过程。该方法提高了训练的稳定性，并在图像和音频基准测试中取得了更好的重建效果和更均衡的码本使用率。

When More Experts Hurt: Underfitting in Multi-Expert Learning to Defer

Shuqi Liu et al.

cs.LG stat.ML

本文研究了多专家学习延迟(L2D)中的固有挑战, 指出相较于单专家情形, 多专家设置下分类器的欠拟合(underfitting)问题更为严重且本质不同. 作者提出了一种名为PiCCE的新方法, 通过自适应地识别可靠专家来缓解这一问题, 并在实验中验证了其有效性.

TimeOmni-VL: Unified Models for Time Series Understanding and Generation

Tong Guan et al.

cs.LG cs.AI

本文提出了一个名为TimeOmni-VL的视觉中心框架，旨在统一时间序列的理解与生成任务。它通过双向映射和引入新的数据集，尝试弥合现有模型在语义理解和数值保真度之间的鸿沟。

In-Context Learning in Linear vs. Quadratic Attention Models: An Empirical Study on Regression Tasks

Ayush Goel, Arjun Kohli, Sarvagya Somvanshi

cs.LG cs.AI

本文通过实验比较了linear attention与quadratic attention在linear regression任务上的in-context learning表现, 评估了学习质量、收敛性和泛化行为. 研究还分析了模型深度对性能的影响, 揭示了两种注意力机制在此设定下的相似性与局限性.

Continual uncertainty learning

Heisei Yonezawa, Ansei Yonezawa, Itsuro Kajiwara

cs.LG cs.AI eess.SY

本文提出了一种基于课程学习的持续学习框架, 用于处理具有多重不确定性的非线性动力系统的鲁棒控制问题. 该方法将复杂问题分解为一系列学习任务, 并引入基于模型的控制器来加速收敛, 最后在汽车动力总成振动控制中验证了有效性.

SoftDTW-CUDA-Torch: Memory-Efficient GPU-Accelerated Soft Dynamic Time Warping for PyTorch

Ron Shapira Weber, Oren Freifeld

cs.LG

本文介绍了一个名为 softdtw-cuda-torch 的开源 PyTorch 库, 用于在 GPU 上高效计算 Soft Dynamic Time Warping (SoftDTW). 该实现通过分块计算, 对数空间反向传播和融合距离计算等技术, 解决了现有实现中的序列长度限制, 数值不稳定性和内存消耗过大等问题.

CounterFlowNet: From Minimal Changes to Meaningful Counterfactual Explanations

Oleksii Furman et al.

cs.LG

本文提出了一种名为CounterFlowNet的生成式方法, 用于为机器学习模型生成反事实解释. 该方法利用条件生成流网络将反事实生成建模为序列特征修改, 旨在同时满足有效性, 稀疏性, 邻近性和合理性等多种期望属性.

Structured Prototype-Guided Adaptation for EEG Foundation Models

Jingying Ma et al.

cs.LG

本文提出了一种用于EEG foundation models微调的结构化框架SCOPE, 旨在解决在跨被试、标签有限场景下的泛化问题. 该框架通过构建几何正则化的任务先验和置信度感知的伪标签来提供外部监督, 并利用轻量级适配器ProAdapter进行模型适应.

Learning a Latent Pulse Shape Interface for Photoinjector Laser Systems

Alexander Klemps et al.

cs.LG

本文提出了一种基于Wasserstein Autoencoders的生成建模框架, 用于学习光注入器中激光脉冲整形与下游束流动力学之间的可微分潜在接口. 该方法减少了昂贵的脉冲传播模拟的依赖, 并有助于下游的束流动力学模拟与分析.

Unified Latents (UL): How to train your latents

Jonathan Heek et al.

cs.LG cs.CV

本文提出了Unified Latents (UL)框架, 用于学习由diffusion prior正则化并由diffusion模型解码的潜在表示. 该方法在ImageNet-512和Kinetics-600数据集上取得了具有竞争力的生成质量指标.

RLGT: A reinforcement learning framework for extremal graph theory

Ivan Damnjanović et al.

cs.LG math.CO

本文提出了一个名为RLGT的强化学习框架, 用于极值图论研究. 该框架系统化了先前工作, 支持多种图类型, 旨在通过优化的计算性能和模块化设计, 促进未来基于强化学习的极值图论研究.

Efficient privacy loss accounting for subsampling and random allocation

Vitaly Feldman, Moshe Shenfeld

cs.LG

本文针对一种随机分配采样方案, 提出了高效计算其隐私损失分布(PLD)的方法. 该方法扩展了通用的隐私损失核算工具, 并证明在应用于Gaussian机制时, 该方案的隐私-效用权衡至少与Poisson采样相当.

LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

Hsin-Jung Yang et al.

cs.LG eess.SY

本文提出了一个名为LexiSafe的离线安全强化学习框架, 采用字典序优化来处理安全与奖励的层级关系. 该方法在理论上提供了安全违规和性能次优性的边界, 并在实验中展示了相较于基线方法更少的安全违规和更好的任务性能.

Flickering Multi-Armed Bandits

Sourav Chakraborty et al.

cs.LG cs.AI

本文提出了Flickering Multi-Armed Bandits (FMAB)框架，其中可用臂的集合会随时间变化，且依赖于智能体之前的选择。作者设计了基于随机游走的算法，并在两种随机图模型下证明了次线性遗憾界。

The Sound of Death: Deep Learning Reveals Vascular Damage from Carotid Ultrasound

Christoph Balada et al.

cs.LG cs.CV

本文提出了一种从颈动脉超声视频中提取血管损伤表征的机器学习框架. 该模型学习到的特征与心血管风险因素和临床结局相关, 为大规模心血管风险评估提供了一个可扩展的工具.

SubQuad: Near-Quadratic-Free Structure Inference with Distribution-Balanced Objectives in Adaptive Receptor framework

Rong Fu et al.

cs.LG cs.AI

本文提出了一种名为SubQuad的端到端流程, 用于解决适应性免疫库(adaptive immune repertoire)大规模比较分析中的计算瓶颈和数据不平衡问题. 该方法结合了抗原感知的近似次二次方检索, GPU加速的亲和力核, 学习型多模态融合以及公平性约束的聚类, 旨在提升处理通量和公平性.

From Subtle to Significant: Prompt-Driven Self-Improving Optimization in Test-Time Graph OOD Detection

Luzhi Wang et al.

cs.LG cs.AI

本文提出了一种名为SIGOOD的自改进图OOD检测框架，该框架通过迭代优化提示来增强测试图中的OOD信号。该方法利用能量偏好优化损失进行无监督学习，并在多个真实数据集上验证了其有效性。

Shortcut learning in geometric knot classification

Djordje Mihajlovic, Davide Michieletto

cs.LG cond-mat.soft math.GT

本文探讨了机器学习在几何纽结分类任务中可能依赖的非拓扑捷径特征. 作者提供了一个旨在消除此类特征的数据集和代码, 为未来基于机器学习的拓扑分类研究奠定了基础.

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

Gabriel Mongaras, Eric C. Larson

cs.LG

本文对Mamba-2这一高效的linear attention变体进行了简化和改进。通过简化核心组件并提升hidden state的阶数，作者提出了2Mamba方法，在保持长上下文内存效率的同时，显著缩小了与softmax attention的精度差距。

A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data

Justyna Andrys-Olek et al.

cs.LG cs.AI

本文提出了一个名为CACTUS的可解释机器学习框架, 旨在解决临床数据不完整时模型的鲁棒性和特征稳定性问题. 该框架通过特征抽象和稳定性分析, 在一个血尿患者队列中验证了其在数据缺失情况下的有效性.

MDP Planning as Policy Inference

David Tolpin

cs.LG

本文提出了一种将episodic MDP规划视为策略贝叶斯推断的新框架. 该方法通过变分序列蒙特卡洛(VSMC)近似最优策略的后验分布, 并通过后验预测采样进行决策.

Convergence Analysis of Two-Layer Neural Networks under Gaussian Input Masking

Afroditi Kolomvaki et al.

cs.LG cs.AI cs.DS math.OC

本文分析了在输入层应用 Gaussian dropout 的两层神经网络训练的收敛性. 通过 Neural Tangent Kernel (NTK) 分析, 证明了训练过程能达到线性收敛, 其误差区域与 mask 的方差成正比.

Variational Grey-Box Dynamics Matching

Gurjeet Sangra Singh et al.

cs.LG

本文提出了一种结合不完整物理模型与生成模型的 grey-box 方法, 用于从观测轨迹中学习动力学. 该方法在 flow matching 框架内构建结构化的变分分布, 并展示了其在二阶动力学问题上的应用.

Linear Convergence in Games with Delayed Feedback via Extra Prediction

Yuma Fujimoto, Kenshi Abe, Kaito Ariu

cs.LG cs.GT cs.MA math.OC

本文研究了具有延迟反馈的双线性博弈中的收敛问题. 作者分析了加权乐观梯度下降上升法(WOGDA)的收敛速率, 并探讨了额外乐观预测对加速收敛的作用.

Learning with Boolean threshold functions

Veit Elser, Manish Krishan Lal

cs.LG cs.AI

本文提出了一种训练布尔数据神经网络的方法, 其中所有节点值严格为$\pm 1$, 模型通常等价于权重也为$\pm 1$的网络. 该方法用非凸约束公式替代损失最小化, 通过投影算法满足布尔阈值函数约束和架构一致性约束. 在乘法器电路发现、二进制自编码等任务上, 该方法在梯度方法困难的领域取得了精确解或强泛化能力.

Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models

Wen-Tse Chen et al.

cs.LG

本文提出了一种利用大语言模型(LLM)进行时间信用分配的新方法RICL, 以及一个在线学习框架RICOL. 该方法通过回顾式上下文学习将稀疏奖励转化为密集的优势函数信号, 在BabyAI环境中展示了更高的样本效率.

LORA-CRAFT: Cross-layer Rank Adaptation via Frozen Tucker Decomposition of Pre-trained Attention Weights

Kasun Dewage et al.

cs.LG cs.AI

本文提出了一种名为CRAFT的参数高效微调方法, 该方法对跨transformer层的预训练注意力权重矩阵进行Tucker张量分解, 并仅训练所得冻结因子上的小型适配矩阵. 在GLUE基准测试中, CRAFT取得了与现有方法相当的性能, 同时所需参数数量极少.

Variational inference via radial transport

Luca Ghafourpour et al.

cs.LG math.ST stat.ML

本文提出了一种名为radVI的变分推断方法, 通过优化径向轮廓(radial profile)来改进对高维分布$\pi$的近似. 该方法可作为现有VI方案(如高斯VI, Laplace近似)的廉价有效补充, 并利用Wasserstein空间优化和径向传输映射(radial transport maps)的规律性提供了理论收敛保证.

The Anxiety of Influence: Bloom Filters in Transformer Attention Heads

Peter Balogh

cs.LG cs.AI cs.CL

本文研究了Transformer模型中执行成员测试(membership testing)的注意力头, 在多个语言模型中发现并分类了三种具有不同策略的此类头. 这些头集中在早期层, 其误报率随嵌入距离单调衰减, 并且能泛化到任意重复的token类型. 通过消融实验和控制变量分析, 作者确认了这些头的功能并排除了一个假阳性案例.

Provably Explaining Neural Additive Models

Shahaf Bassan et al.

cs.LG cs.CC cs.LO

本文针对Neural Additive Models (NAMs)提出了一种新的模型特定算法, 用于高效生成具有可证明保证的基数最小解释. 该算法通过并行预处理步骤, 将验证查询的数量从指数级降低到对数级, 从而在计算效率和解释质量上超越了现有方法.

Position: Evaluation of ECG Representations Must Be Fixed

Zachary Berger et al.

cs.LG cs.AI

本文是一篇关于心电图(ECG)表示学习评估方法的立场论文。作者认为当前基于少数公开数据集的基准测试存在局限，并提出了扩展临床相关评估目标和改进不平衡多标签评估实践的建议。

MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

Xiaoliang Fu et al.

cs.LG cs.AI

本文提出了一种名为MASPO的新框架, 旨在解决现有基于可验证奖励的强化学习(RLVR)方法在大型语言模型(LLM)推理中的局限性. 该方法通过整合可微软门控, 质量自适应限制器和非对称风险控制器, 统一改进了梯度利用, 概率质量和信号可靠性, 并在实验中表现优于现有基线.

A Theoretical Framework for Modular Learning of Robust Generative Models

Corinna Cortes, Mehryar Mohri, Yutao Zhong

cs.LG stat.ML

本文提出了一个用于模块化学习鲁棒生成模型的理论框架. 该框架通过门控机制组合预训练的专家模型, 并证明了在 worst-case 数据混合下存在一个鲁棒的门控函数.

Revisiting Weight Regularization for Low-Rank Continual Learning

Yaoyue Zheng et al.

cs.LG

本文提出了一种名为EWC-LoRA的方法, 将Elastic Weight Consolidation (EWC) 正则化应用于low-rank adapters, 以缓解持续学习中的任务干扰. 该方法通过正则化共享的低秩更新, 保持了存储和推理成本与任务数量无关, 并在多个基准测试中取得了优于现有低秩持续学习方法的效果.

Be Wary of Your Time Series Preprocessing

Sofiane Ennadir et al.

cs.LG cs.AI

本文从理论角度分析了不同标准化策略对基于Transformer的时间序列模型表达能力的影响. 作者提出了一个专门用于量化模型区分相似与不相似输入能力的表达性框架, 并推导了Standard和Min-Max两种常用标准化方法的理论边界. 实验表明, 没有一种标准化方法能始终表现最优, 有时甚至完全省略标准化效果更好.

Canonicalizing Multimodal Contrastive Representation Learning

Sharut Gupta et al.

cs.LG

本文研究了独立训练的多模态对比学习模型（如 CLIP, SigLIP, FLAVA）的表示空间之间的几何关系。研究发现，不同模型的图像和文本编码器可以通过同一个正交变换 $Q$ 对齐，即 $\widetilde{f}(x)\approx Q f(x)$ 和 $\widetilde{g}(y)\approx Q g(y)$。这一发现为模型升级的向后兼容性和表示隐私提供了理论基础。

Asymptotic Smoothing of the Lipschitz Loss Landscape in Overparameterized One-Hidden-Layer ReLU Networks

Saveliy Baturin

cs.LG

本文研究了过参数化单隐藏层ReLU网络的损失景观拓扑。理论方面，证明了对于具有$\ell_1$正则化第二层的凸$L$-Lipschitz损失，任意两个相同损失水平的模型可以通过一条连续路径连接，且损失增加任意小$\epsilon$，并得到了能量间隙$\epsilon$随网络宽度$m$增长而渐近消失的上界。实证上，在合成和真实数据集上测量了能量间隙，发现更宽的网络具有更小的间隙。

Towards Anytime-Valid Statistical Watermarking

Baihe Huang et al.

cs.LG cs.AI stat.ML

本文提出了一种基于e-value的统计水印框架Anchored E-Watermarking，旨在解决现有方法在采样分布选择和固定范围假设检验方面的局限性。该框架通过构建检验超鞅，实现了任意时间有效的推理，并在模拟和基准测试中展示了其有效性。

Guarding the Middle: Protecting Intermediate Representations in Federated Split Learning

Obaidullah Zaland, Sajib Mistry, Monowar Bhuyan

cs.LG cs.DC

本文针对联邦分割学习中客户端中间表示(smashed data)的隐私泄露风险, 提出了一种结合k-匿名化和差分隐私的保护方法KD-UFSL. 实验表明该方法能在保持模型效用的同时, 有效抵御数据重建攻击, 提升隐私保护水平.

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Luke Huang et al.

cs.LG cs.AI

本文针对异步强化学习训练中策略梯度估计方差过高的问题, 提出了一种名为VCPO的稳定化方法. 该方法通过基于有效样本量调整学习率并应用最小方差基线来降低方差, 在多个推理任务上提升了训练的鲁棒性和效率.

Catastrophic Forgetting Resilient One-Shot Incremental Federated Learning

Obaidullah Zaland, Zulfiqar Ahmad Khan, Monowar Bhuyan

cs.LG cs.DC

本文提出了一种名为OSI-FL的单轮增量联邦学习框架，旨在解决通信开销和灾难性遗忘问题。它利用预训练的视觉语言模型和扩散模型来生成合成数据，并结合选择性样本保留策略来缓解遗忘。实验表明该方法在多个基准数据集上优于现有基线。

SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer

Nathan S. de Lara, Florian Shkurti

cs.LG cs.AI

本文提出了一种名为SMAC的离线强化学习方法, 旨在解决离线训练的策略模型在后续在线微调时性能骤降的问题. 该方法通过对Q函数施加正则化约束, 使其在离线阶段满足策略的score function与Q函数action-gradient的一阶导数等式关系, 从而避免了离线与在线最优解之间的低性能区域, 实现了向在线算法(如Soft Actor-Critic, TD3)的平滑迁移.

When to Trust the Cheap Check: Weak and Strong Verification for Reasoning

Shayan Kiyani et al.

cs.LG cs.AI stat.ML

本文研究了在LLM推理中结合廉价但嘈杂的弱验证与可靠但昂贵的强验证的策略。作者提出了一个决策框架，以在控制错误率的同时优化验证成本，并分析了最优策略的结构与性质。

Reverso: Efficient Time Series Foundation Models for Zero-shot Forecasting

Xinghong Fu et al.

cs.LG cs.AI

本文提出了一种用于零样本时间序列预测的高效基础模型 Reverso. 该模型采用混合架构, 结合了 long convolution 和 linear RNN (DeltaNet) 层, 在保持性能的同时显著减小了模型规模.

FAMOSE: A ReAct Approach to Automated Feature Discovery

Keith Burghardt et al.

cs.LG cs.AI

本文提出了一个名为FAMOSE的自动化特征工程框架，它基于ReAct范式，通过智能体架构自主探索、生成和优化特征。实验表明，该框架在回归和分类任务上能达到或接近最先进的性能。

A.R.I.S.: Automated Recycling Identification System for E-Waste Classification Using Deep Learning

Dhruv Talwar et al.

cs.LG

本文提出了一种名为A.R.I.S.的自动化电子废弃物分类系统，该系统利用YOLOx深度学习模型对金属、塑料和电路板进行实时识别与分拣。实验表明该系统在精度和分拣纯度上表现良好，旨在提升电子垃圾回收的效率和可及性。

Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

Xiaohan Zhao et al.

cs.LG cs.AI cs.CL cs.CV

本文提出了一种针对大型视觉语言模型的黑盒对抗攻击方法M-Attack-V2. 该方法通过多裁剪对齐和辅助目标对齐等技术, 改进了现有M-Attack方法中梯度方差过大的问题, 从而显著提升了在Claude, Gemini, GPT等前沿模型上的攻击成功率.

Multi-Round Human-AI Collaboration with User-Specified Requirements

Sima Noorani et al.

cs.LG

本文提出了一种多轮人机协作框架, 允许用户通过自定义规则来定义"反事实伤害"和"互补性"原则. 作者设计了一种在线算法来强制执行这些约束, 并在模拟和众包实验中验证了其有效性.

MARS: Margin-Aware Reward-Modeling with Self-Refinement

Payel Bhattacharjee, Osvaldo Simeone, Ravi Tandon

cs.LG cs.AI cs.IT

本文提出了一种名为MARS的自适应、margin-aware的数据增强与采样策略, 专注于奖励模型(Reward Model)在低margin(模糊)偏好对上的不确定性区域. 该方法通过迭代式地增强困难样本来优化训练分布, 理论分析表明其能提升损失函数的平均曲率, 实验结果显示其在鲁棒奖励建模上优于均匀增强方法.

cs.AI

AIdentifyAGE Ontology for Decision Support in Forensic Dental Age Assessment

Renato Marcelo et al.

cs.AI

本文提出了一个用于法医牙科年龄评估决策支持的领域本体AIdentifyAGE. 该本体旨在标准化工作流程, 整合临床、法医和法律信息, 以提高评估的透明度和可重复性.

Retrieval Augmented (Knowledge Graph), and Large Language Model-Driven Design Structure Matrix (DSM) Generation of Cyber-Physical Systems

H. Sinan Bank, Daniel R. Herber

cs.AI cs.CL eess.SY

本文探讨了利用 Large Language Models (LLMs), Retrieval-Augmented Generation (RAG) 和 GraphRAG 来自动生成 Design Structure Matrices (DSMs) 的潜力。通过两个具体案例测试了这些方法在识别组件及其关系方面的性能，并公开了所有代码以促进复现和专家反馈。

Contextuality from Single-State Representations: An Information-Theoretic Principle for Adaptive Intelligence

Song-Ju Kim

cs.AI cs.IT

本文探讨了在自适应系统中, 由于资源限制而重复使用单一内部状态空间所导致的 representational consequences. 作者证明, 在经典的 probabilistic representations 中, 这种 single-state reuse 会不可避免地导致 contextuality, 并伴随一个 irreducible information-theoretic cost.

Mobility-Aware Cache Framework for Scalable LLM-Based Human Mobility Simulation

Hua Yan et al.

cs.AI cs.LG

本文提出了一种名为 MobCache 的移动感知缓存框架，用于提升基于 LLM 的大规模人类移动模拟的效率。该框架通过将推理步骤编码为潜在空间嵌入并复用，以及使用轻量级解码器，在保持性能的同时显著降低了计算成本。

When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation

Mubashara Akhtar et al.

cs.AI

本文系统研究了60个大型语言模型(LLM)基准测试的饱和现象，分析了任务设计、数据构建和评估格式等14个属性对饱和速率的影响。研究发现，近半数基准已饱和，且专家策划的基准比众包的更具抗饱和性。

Simple Baselines are Competitive with Code Evolution

Yonatan Gideoni, Sebastian Risi, Yarin Gal

cs.AI cs.LG

本文通过对比实验发现, 在数学界限优化, 智能体脚手架设计和机器学习竞赛等任务中, 简单的基准方法可以匹配甚至超越复杂的代码演化技术. 作者指出, 当前代码演化方法在开发和评估上存在缺陷, 并提出了改进评估和未来实践的建议.

Improved Upper Bounds for Slicing the Hypercube

Duncan Soiffer et al.

cs.AI cs.DM math.CO

本文改进了超立方体边切片所需超平面数量的上界. 作者利用结合了推理大语言模型与自动超参数调优的工具 CPro1, 构造了切片 $Q_{10}$ 的 8 个超平面, 从而证明了对于一般的 $n$, 有 $S(n) \leq \lceil 4n/5 \rceil$ (当 $n$ 为 5 的奇数倍时需加 1).

NeuDiff Agent: A Governed AI Workflow for Single-Crystal Neutron Crystallography

Zhongcan Xiao et al.

cs.AI

本文介绍了一个名为 NeuDiff Agent 的受治理 AI 工作流，用于自动化单晶中子晶体学数据处理流程。该工作流通过限制工具使用、设置验证关卡和记录完整溯源，旨在提高分析效率并确保结果的可追溯性与可验证性。

Node Learning: A Framework for Adaptive, Decentralised and Collaborative Network Edge AI

Eiman Kanjo, Mustafa Aslanov

cs.AI

本文提出了一种名为"Node Learning"的去中心化学习范式, 旨在将智能置于边缘节点并通过选择性对等交互进行扩展. 该框架允许节点从本地数据持续学习, 维护自身模型状态, 并在有益时进行知识交换, 从而适应异构、移动和资源受限的环境.

An order-oriented approach to scoring hesitant fuzzy elements

Luis Merino et al.

cs.AI

本文提出了一种基于序理论的 hesitant fuzzy elements 评分框架. 该方法通过定义相对于给定序的评分函数, 提供了更灵活和一致的评分机制, 并引入了用于排序的 dominance functions.

IndicJR: A Judge-Free Benchmark of Jailbreak Robustness in South Asian Languages

Priyaranjan Pattnayak, Sanchari Chowdhuri

cs.AI cs.CL

本文提出了一个名为IndicJR的基准测试, 用于评估大语言模型在12种南亚语言中的对抗性安全漏洞. 该基准包含合同约束和自由自然两种提示轨道, 揭示了跨语言攻击转移和输入文字书写形式对模型安全性的系统性影响.

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

Haiyang Xu et al.

cs.AI cs.CL

本文介绍了GUI-Owl-1.5，一个支持多平台（桌面、移动、浏览器）并具备多种尺寸变体的原生GUI智能体模型。该模型在超过20个GUI基准测试中取得了领先性能，并采用了混合数据飞轮、统一能力增强和多平台环境强化学习等创新方法。

OpenSage: Self-programming Agent Generation Engine

Hongwei Li et al.

cs.AI cs.CR cs.SE

本文提出了一个名为OpenSage的agent开发工具包，它允许LLM自动生成具有自定义拓扑和工具集的智能体，并提供了结构化的记忆系统支持。实验表明其在多个基准测试中优于现有方法。

AgentLAB: Benchmarking LLM Agents against Long-Horizon Attacks

Tanqiu Jiang et al.

cs.AI

本文提出了一个名为AgentLAB的基准测试, 用于评估LLM智能体在长周期、多轮交互环境中面对适应性攻击的脆弱性. 该基准包含多种新型攻击类型和大量测试案例, 初步评估表明现有智能体防御措施在应对此类长周期威胁时效果有限.

LLM-WikiRace: Benchmarking Long-term Planning and Reasoning over Real-World Knowledge Graphs

Juliusz Ziomek et al.

cs.AI cs.LG

本文提出了一个名为LLM-Wikirace的基准测试，用于评估大语言模型在真实世界知识图谱上的长期规划和推理能力。该任务要求模型通过维基百科超链接在页面间逐步导航，揭示了当前前沿模型在复杂规划方面仍存在显著不足。

Narrow fine-tuning erodes safety alignment in vision-language agents

Idhant Gulati, Shivam Raval

cs.AI

本文研究了视觉语言模型在窄域有害数据集上进行微调时引发的安全对齐退化问题. 实验表明, 即使混合少量有害数据, 也会导致模型在无关任务上出现广泛的错误对齐, 并且多模态评估揭示的安全风险远高于纯文本评估.

DeepContext: Stateful Real-Time Detection of Multi-Turn Adversarial Intent Drift in LLMs

Justin Albrethsen et al.

cs.AI cs.ET cs.LG

本文提出了一个名为DeepContext的状态化监控框架, 用于检测大型语言模型多轮对话中的对抗性意图漂移. 该框架采用RNN架构处理连续的对话轮次嵌入, 通过维护隐藏状态来捕捉风险的累积, 在保持低延迟的同时显著提升了多轮越狱检测的性能.

SourceBench: Can AI Answers Reference Quality Web Sources?

Hexi Jin et al.

cs.AI

本文提出了一个名为SourceBench的基准测试, 用于评估大语言模型(LLMs)在回答问题时引用的网络来源的质量. 该基准包含100个真实世界查询, 并使用一个涵盖内容质量和页面级别信号的八指标框架进行评估. 作者还构建了一个人工标注数据集和一个基于LLM的评估器, 并对多个模型和工具进行了评估, 揭示了关于生成式AI与网络搜索的若干新见解.

Mind the GAP: Text Safety Does Not Transfer to Tool-Call Safety in LLM Agents

Arnold Cartagena, Ariane Teixeira

cs.AI cs.SE

本文通过构建GAP基准, 系统地评估了LLM代理在文本安全性和工具调用安全性之间的差异. 研究发现, 文本层面的安全对齐并不能有效阻止有害的工具调用行为, 表明现有的安全评估方法存在不足.

LLM4Cov: Execution-Aware Agentic Learning for High-coverage Testbench Generation

Hejia Zhang et al.

cs.AI cs.LG

本文提出了一个名为LLM4Cov的离线智能体学习框架，用于生成高覆盖率的硬件测试平台。该方法通过执行验证的数据筛选和策略感知的数据合成，使紧凑的模型在覆盖率上超越了其教师模型。

Automating Agent Hijacking via Structural Template Injection

Xinhao Deng et al.

cs.AI cs.LG

本文提出了一种名为Phantom的自动化agent hijacking框架，它基于Structured Template Injection技术。该框架通过向检索到的上下文中注入优化的结构化模板，诱导LLM agent产生角色混淆，从而误将恶意内容当作合法指令执行。

HQFS: Hybrid Quantum Classical Financial Security with VQC Forecasting, QUBO Annealing, and Audit-Ready Post-Quantum Signing

Srikumar Nayak

cs.AI cs.CL cs.LG

本文提出了一种名为HQFS的混合量子-经典金融安全框架, 它整合了基于变分量子电路(VQC)的预测, 基于QUBO(二次无约束二进制优化)的优化(可通过量子退火或经典求解器完成), 以及可审计的后量子签名. 在实验中, 该框架在预测精度, 投资组合的夏普比率和最大回撤控制, 以及求解时间上均优于经典基线方法.

Fundamental Limits of Black-Box Safety Evaluation: Information-Theoretic and Computational Barriers from Latent Context Conditioning

Vishal Srivastava

cs.AI

本文通过引入latent context-conditioned policies这一概念, 对AI系统黑盒安全评估的基本假设提出了挑战. 研究证明了在存在未观测内部变量的情况下, 任何黑盒评估器都无法可靠地估计模型在部署环境中的风险, 并给出了统计与计算层面的下界.

Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Yan Wang et al.

cs.AI cs.CE

本文提出了一个用于评估金融推荐系统在对话和长期场景下性能的基准测试Conv-FinRe. 它超越了单纯的行为模仿, 通过结合用户风险偏好来评估决策的规范性效用.

Sonar-TS: Search-Then-Verify Natural Language Querying for Time Series Databases

Zhao Tan et al.

cs.AI cs.CL cs.DB

本文提出了一个名为Sonar-TS的神经符号框架，用于处理时间序列数据库的自然语言查询(NLQ4TSDB)。该框架采用“搜索-验证”流程，并引入了一个新的大规模基准测试NLQTSBench。

Cinder: A fast and fair matchmaking system

Saurav Pal

cs.AI stat.AP

本文提出了一种名为Cinder的两阶段快速公平匹配系统，用于解决在线游戏中预组队伍间的匹配难题。该系统通过初步筛选和基于Kantorovich距离的精确公平性度量来生成平衡的对局。

M2F: Automated Formalization of Mathematical Literature at Scale

Zichen Wang et al.

cs.AI

本文提出了一个名为M2F的agentic框架, 用于实现从数学文献到Lean语言的端到端、项目规模的自动化形式化. 该框架通过分阶段的声明编译与证明修复, 并利用验证器反馈进行迭代, 成功将数百页的教科书大规模转化为可编译的Lean代码库.

Sales Research Agent and Sales Research Bench

Deepanjan Bhol

cs.AI

本文介绍了一个面向企业CRM数据分析的AI应用及其评估基准. 该应用能够连接实时数据并生成文本与图表洞察, 其配套的基准从多个维度对系统性能进行评分.

Phase-Aware Mixture of Experts for Agentic Reinforcement Learning

Shengtian Yang et al.

cs.AI

本文提出了一种用于强化学习智能体的Phase-Aware Mixture of Experts (PA-MoE)架构。该方法通过一个轻量级的phase router进行阶段级路由，以解决传统MoE在序列任务中因token级路由导致的专家知识碎片化问题。实验验证了该方法的有效性。

Dynamic System Instructions and Tool Exposure for Efficient Agentic LLMs

Uria Franko

cs.AI

本文提出了一种名为Instruction-Tool Retrieval (ITR)的方法, 用于优化大型语言模型(LLM)智能体的运行效率. 该方法通过动态检索和组合必要的系统指令片段与工具子集, 显著减少了每步处理的上下文长度和总体成本.

IntentCUA: Learning Intent-level Representations for Skill Abstraction and Multi-Agent Planning in Computer-Use Agents

Seoyoung Lee et al.

cs.AI cs.HC cs.RO

本文提出了一个名为IntentCUA的多智能体框架，用于提升计算机使用代理在长时程、动态环境中的任务执行稳定性。该框架通过抽象交互轨迹为多视图意图表示和可复用技能，并利用共享记忆进行协调，以减少冗余规划和错误累积。

RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models

Yunseok Han, Yejoon Lee, Jaeyoung Do

cs.AI cs.CL

本文提出了一个评估大型推理模型(LRMs)推理忠实性的框架RFEval, 并构建了包含7,186个实例的基准测试. 研究发现, 当前模型在近一半的输出中存在不忠实推理, 且准确性与忠实性之间的关联很弱.

Retaining Suboptimal Actions to Follow Shifting Optima in Multi-Agent Reinforcement Learning

Yonghyeon Jo, Sunwoo Lee, Seungyul Han

cs.AI

本文提出了一种名为S2Q的新方法, 用于解决多智能体强化学习中价值函数漂移导致策略收敛至次优解的问题. 该方法通过保留多个次优动作来鼓励持续探索, 实验表明其在多个基准测试中优于现有算法.

Predictive Batch Scheduling: Accelerating Language Model Training Through Loss-Aware Sample Prioritization

Sumedh Rasal

cs.AI

本文提出了一种名为Predictive Batch Scheduling (PBS)的训练优化技术, 通过在线训练的轻量级线性预测器, 利用静态的token-level特征(如token频率, 序列长度等)来动态估计样本难度并优先处理高损失样本, 从而加速语言模型的训练收敛. 实验表明该方法能以可忽略的计算开销实现更快的收敛速度.

How AI Coding Agents Communicate: A Study of Pull Request Description Characteristics and Human Review Responses

Kan Watanabe et al.

cs.AI cs.SE

本文对五个AI编程代理在GitHub上创建的pull request进行了实证分析, 研究了其PR描述的特征差异以及人类审阅者的响应模式. 研究发现, 不同代理的PR描述风格会影响审阅者的参与度, 响应时间和合并结果.

Agentic Wireless Communication for 6G: Intent-Aware and Continuously Evolving Physical-Layer Intelligence

Zhaoyang Li et al.

cs.AI

本文探讨了将基于LLM的智能体应用于6G物理层以实现意图感知和自主通信。文章概述了从意图感知到网络执行的闭环流程，并讨论了相关挑战与技术，最后通过一个案例研究进行了说明。

Toward Trustworthy Evaluation of Sustainability Rating Methodologies: A Human-AI Collaborative Framework for Benchmark Dataset Construction

Xiaoran Cai et al.

cs.AI

本文提出了一个名为STRIDE和SR-Delta的人机协作框架，用于构建评估ESG评级方法的基准数据集。该框架旨在提高不同机构评级结果的可比性和可信度，以支持可持续性决策。

Owen-based Semantics and Hierarchy-Aware Explanation (O-Shap)

Xiangyu Zhou, Chenhan Xiao, Yang Weng

cs.AI

本文提出了一种基于Owen值、满足$T$-property的分组方法O-Shap，用于改进SHAP在特征依赖场景下的解释性。该方法在图像和表格数据上提升了归因精度与语义一致性。

Instructor-Aligned Knowledge Graphs for Personalized Learning

Abdulrahman AlRabah et al.

cs.AI

本文提出了一个名为InstructKG的框架, 用于从课程讲义材料中自动构建与教师教学意图对齐的知识图谱. 该框架利用大型语言模型提取关键概念作为节点, 并推断学习依赖关系作为有向边, 以捕捉课程预期的学习进程.

Epistemology of Generative AI: The Geometry of Knowing

Ilya Levin

cs.AI

本文探讨了生成式AI的知识论基础, 提出其运作机制与传统计算范式存在根本性断裂. 作者认为, 神经网络将符号输入映射到高维语义空间, 并基于该空间的几何特性(如测度集中、近正交性)构建了一种"索引性知识论".

Efficient Parallel Algorithm for Decomposing Hard CircuitSAT Instances

Victor Kondratiev, Irina Gribanova, Alexander Semenov

cs.AI

本文提出了一种用于分解困难CircuitSAT实例的并行算法. 该算法通过引入专门的约束将原问题划分为一族弱化公式, 并以参数化方式实现, 其参数可根据并行计算的难度估计进行调整.

Bonsai: A Framework for Convolutional Neural Network Acceleration Using Criterion-Based Pruning

Joseph Bingham, Sam Helmich

cs.AI

本文提出了一个名为Combine的基于准则的剪枝框架, 用于加速卷积神经网络(CNNs). 该框架为不同的剪枝准则提供了统一的实现和比较标准, 并在VGG类模型上验证了其有效性, 能在保持或提升精度的同时显著减少网络参数和计算量.

JEPA-DNA: Grounding Genomic Foundation Models through Joint-Embedding Predictive Architectures

Ariel Larey et al.

cs.AI q-bio.GN

本文提出了一种名为JEPA-DNA的基因组基础模型预训练框架, 它结合了Joint-Embedding Predictive Architecture (JEPA)与传统的生成式目标. 该方法旨在学习更具全局生物学功能的序列表示, 并在多个基准测试中表现出色.

Texo: Formula Recognition within 20M Parameters

Sicheng Mao

cs.AI cs.CV

本文提出了一个轻量级的数学公式识别模型 Texo, 其参数量仅为 2000 万. 通过精心设计、知识蒸馏和词汇表迁移, 该模型在保持与先进模型相当性能的同时, 显著减小了模型体积, 实现了在消费级硬件上的实时推理.

Continual learning and refinement of causal models through dynamic predicate invention

Enrique Crespo-Fernandez et al.

cs.AI

本文提出了一种在线构建符号因果世界模型的框架, 通过整合连续模型学习和修复到智能体的决策循环中, 利用元解释学习和谓词发明来发现可重用抽象. 该方法在具有复杂关系动态的领域中展现了良好的可扩展性和样本效率.

From Labor to Collaboration: A Methodological Experiment Using AI Agents to Augment Research Perspectives in Taiwan's Humanities and Social Sciences

Yi-Chih Huang

cs.AI cs.CL cs.CY

本文提出了一种基于AI Agent的协作研究流程, 用于人文与社会科学领域. 该工作流强调任务模块化与人类-AI分工, 并以台湾地区的AI使用数据为例进行了方法验证.

Decoding the Human Factor: High Fidelity Behavioral Prediction for Strategic Foresight

Ben Yellin et al.

cs.AI

本文提出了一种名为Large Behavioral Model (LBM)的行为基础模型，用于高保真地预测个体在战略环境中的决策。该模型通过基于结构化心理特征档案进行微调，相比基于提示的方法，能更稳定地利用详细的人格描述来提升预测性能。

Mechanistic Interpretability of Cognitive Complexity in LLMs via Linear Probing using Bloom's Taxonomy

Bianca Raimondi, Maurizio Gabbrielli

cs.AI cs.CL

本文通过 linear probing 方法, 利用 Bloom's Taxonomy 作为认知复杂度层级框架, 分析了不同 LLMs 内部激活向量. 研究发现, 从基础记忆到抽象创造的认知层级在模型的 residual streams 中是线性可分的, 表明认知难度在模型前向传播早期即被解析.

All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting

Zeyu Zhang, Ryan Chen, Bradly C. Stadie

cs.AI cs.LG

本文提出了一种检测和量化LLM中时间知识泄漏的框架, 通过将模型推理分解为原子声明并应用Shapley值来衡量每个声明对预测的贡献, 从而计算出一个可解释的泄漏率指标. 基于此框架, 作者还提出了TimeSPEC方法, 通过交织生成与声明验证来主动过滤时间污染, 实验表明该方法在多个预测任务中有效降低了泄漏率.

Web Verbs: Typed Abstractions for Reliable Task Composition on the Agentic Web

Linxi Jiang et al.

cs.AI

本文提出了"Web Verbs"的概念, 旨在为面向智能体的网络构建一个语义动作层. 它通过类型化、语义化的函数抽象来统一API和浏览器操作, 以提高任务执行的可靠性、效率和可验证性.

ArXiv-to-Model: A Practical Study of Scientific LM Training

Anuj Gupta

cs.AI cs.CL

本文详细记录了从arXiv LaTeX源文件训练一个1.36B参数的科学领域语言模型的完整工程实践. 报告了数据处理, tokenization和训练过程中的关键挑战与发现, 旨在为计算资源有限的研究者提供实用参考.

MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions

Hui Min Wong et al.

cs.AI cs.LG

本文提出了一个名为 MedClarify 的 AI 智能体，用于在医疗诊断中生成针对具体病例的后续问题。该智能体通过计算候选诊断列表并选择信息增益最高的问题来迭代推理，实验表明其能显著减少诊断错误。

Dataless Weight Disentanglement in Task Arithmetic via Kronecker-Factored Approximate Curvature

Angelo Porrello et al.

cs.AI

本文提出了一种无需数据的权重解耦方法, 通过Kronecker-Factored Approximate Curvature (KFAC)来近似曲率矩阵, 以正则化任务向量组合时的表征漂移. 该方法在任务加法和否定上取得了先进的结果, 且复杂度与任务数量无关, 对任务向量缩放具有鲁棒性.

Visual Model Checking: Graph-Based Inference of Visual Routines for Image Retrieval

Adrià Molina, Oriol Ramos Terrades, Josep Lladós

cs.AI cs.IR

本文提出了一种结合形式化验证与深度学习的图像检索框架, 通过图验证方法和神经代码生成来处理开放词汇的自然语言查询. 该框架旨在提供可信且可验证的检索结果, 通过形式推理来验证用户查询中的每个原子约束, 从而超越向量表示的模糊性.

A Contrastive Variational AutoEncoder for NSCLC Survival Prediction with Missing Modalities

Michele Zanitti et al.

cs.AI

本文提出了一种用于处理多模态数据缺失的非小细胞肺癌生存预测模型。该模型结合了变分自编码器、对比学习和随机模态掩码技术，在公开数据集上验证了其有效性。

A Privacy by Design Framework for Large Language Model-Based Applications for Children

Diana Addae et al.

cs.AI

本文提出了一个基于Privacy-by-Design (PbD)的框架，旨在降低面向儿童的大型语言模型(LLM)应用中的隐私风险。该框架整合了多项隐私法规的原则，并将其映射到LLM应用生命周期的各个阶段，同时结合了面向儿童的设计指南，并通过一个教育辅导应用的案例研究进行了说明。

WarpRec: Unifying Academic Rigor and Industrial Scale for Responsible, Reproducible, and Efficient Recommendation

Marco Avolio et al.

cs.AI cs.IR

本文介绍了一个名为 WarpRec 的高性能推荐系统框架, 旨在统一学术研究的严谨性与工业部署的规模. 该框架通过一种与后端无关的架构, 集成了大量先进算法与评估指标, 并支持从本地实验到分布式训练的平滑过渡.

Pareto Optimal Benchmarking of AI Models on ARM Cortex Processors for Sustainable Embedded Systems

Pranay Jain et al.

cs.AI

本文提出了一个用于在ARM Cortex处理器上评估AI模型能效与性能的自动化基准测试框架. 通过Pareto分析, 该工作为嵌入式系统中平衡模型精度与能耗提供了实用指导.

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Dun Yuan et al.

cs.AI

本文提出了一种名为KG-RAG的框架，它将知识图谱与检索增强生成相结合，旨在提升大型语言模型在电信领域的应用性能。该框架通过结构化知识增强事实准确性，并在基准测试中取得了优于基线模型的结果。

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Shashank Aggarwal, Ram Vikas Mishra, Amit Awekar

cs.AI cs.CL cs.IR

本文提出了两个新的指标, reusability 和 verifiability, 用于评估大语言模型生成的 Chain-of-Thought (CoT) 推理过程的质量. 通过一个 Thinker-Executor 框架, 作者在多个基准上进行了实验, 发现这些新指标与传统的任务准确率并不相关.

KLong: Training LLM Agent for Extremely Long-horizon Tasks

Yue Liu et al.

cs.AI cs.CL

本文提出了一种名为KLong的开源LLM智能体, 用于解决极长视野任务. 其训练方法结合了轨迹分割的SFT和渐进式RL, 并在多个基准测试上取得了优于更大规模模型的性能.

ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment

Hongjue Zhao et al.

cs.AI

本文提出了一种基于常微分方程(ODE)的统一理论框架ODESteer, 用于指导大语言模型(LLM)对齐中的激活引导(activation steering). 该方法将传统的激活向量加法解释为ODE解的一阶近似, 并将引导方向的设计转化为控制理论中的屏障函数(barrier function)构造问题. 实验表明, ODESteer在多个对齐基准测试上取得了优于现有方法的性能提升.

A Hybrid Federated Learning Based Ensemble Approach for Lung Disease Diagnosis Leveraging Fusion of SWIN Transformer and CNN

Asif Hasan Chowdhury et al.

cs.AI

本文提出了一种结合SWIN Transformer与CNN的混合联邦学习集成方法, 用于基于X射线图像的肺部疾病(COVID-19和肺炎)诊断. 该方法旨在利用联邦学习框架保障数据隐私, 并通过集成多种先进模型来提高诊断的准确性和可靠性.

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

Lance Ying et al.

cs.AI

本文提出了AI GameStore平台, 旨在通过让AI系统玩和学习所有可能的人类游戏来评估其通用智能. 该平台利用LLMs和人类协同生成新的代表性游戏, 并对多个前沿视觉语言模型进行了初步评估, 结果显示模型表现远低于人类平均水平.

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

Hojung Jung et al.

cs.AI

本文提出了MolHIT, 一个基于Hierarchical Discrete Diffusion Model的分子图生成框架. 它通过引入编码化学先验的额外类别和解耦原子编码, 在MOSES数据集上实现了接近完美的化学有效性, 并在多属性引导生成等下游任务中表现出色.

AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing

Jianda Du, Youran Sun, Haizhao Yang

cs.AI cs.LG math.NA

本文提出了一个名为AutoNumerics的多智能体框架, 用于从自然语言描述自动生成PDE数值求解器. 该框架通过分层执行和残差自验证机制, 能够生成基于经典数值方法的透明求解器, 并在多个基准问题上取得了有竞争力的结果.

CLEF HIPE-2026: Evaluating Accurate and Efficient Person-Place Relation Extraction from Multilingual Historical Texts

Juri Opitz et al.

cs.AI cs.CL cs.IR

本文介绍了CLEF HIPE-2026评测任务, 该任务专注于从多语言历史文本中抽取人物-地点关系. 它扩展了前序评测, 引入了对准确性, 计算效率和领域泛化能力的综合评估.

cs.IR

RankEvolve: Automating the Discovery of Retrieval Algorithms via LLM-Driven Evolution

Jinming Nian et al.

cs.IR cs.AI

本文提出了一种名为 RankEvolve 的方法, 利用 LLM 驱动的进化搜索来自动发现新的检索算法. 该方法从 BM25 等经典算法出发, 通过代码变异和重组生成新算法, 并在多个数据集上验证了其有效性.

SAGE: Structure Aware Graph Expansion for Retrieval of Heterogeneous Data

Prasham Titiya et al.

cs.IR

本文提出了一个名为SAGE的框架, 用于异构数据检索. 该框架通过离线构建chunk-level graph并进行在线检索扩展, 在OTT-QA和STaRK数据集上提升了检索召回率.

Beyond Chunk-Then-Embed: A Comprehensive Taxonomy and Evaluation of Document Chunking Strategies for Information Retrieval

Yongjie Zhou et al.

cs.IR

本文对文档分块策略进行了系统性的分类与评估, 提出了一个包含分割方法和嵌入范式的统一框架. 研究发现, 最优的分块策略是任务依赖的, 简单的基于结构的方法在语料库检索中表现更好.

Bending the Scaling Law Curve in Large-Scale Recommendation Systems

Qin Ding et al.

cs.IR cs.SI

本文提出了一种名为ULTRA-HSTU的新型序列推荐模型，通过模型与系统的协同设计，在输入序列、稀疏注意力机制和模型拓扑方面进行了创新。该模型在保持推荐质量的同时，显著提升了训练和推理的效率，并已成功应用于大规模生产环境。

WSDM Cup 2026 Multilingual Retrieval: A Low-Cost Multi-Stage Retrieval Pipeline

Chentong Hao, Minmao Wang

cs.IR

本文为WSDM Cup 2026多语言检索任务设计了一个低成本的四阶段检索流水线。该系统结合了基于LLM的查询扩展、BM25检索、稠密排序和重排序，在官方评估中取得了不错的性能。

LiveGraph: Active-Structure Neural Re-ranking for Exercise Recommendation

Rong Fu et al.

cs.IR cs.LG

本文提出了一种名为LiveGraph的主动结构神经重排序框架, 用于解决在线学习环境中的个性化习题推荐问题. 该框架通过基于图的表示增强策略和动态重排序机制, 旨在平衡推荐的准确性与内容的多样性.

A Long-term Value Prediction Framework In Video Ranking

Huabin Chen et al.

cs.IR

本文提出了一种用于短视频推荐排序阶段的长效价值预测框架, 解决了位置偏差、归因模糊性和时间限制等挑战. 该框架通过模块化设计实现了高效的训练与服务, 并在大规模工业系统中成功部署.

When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment

Chuting Yu et al.

cs.IR

本文探讨了使用大型语言模型(LLM)作为相关性评估代理时出现的系统性高估偏差。研究发现，LLM倾向于对不真正满足信息需求的段落给出过高的相关性评分，并且这种判断容易受到段落长度和表面词汇线索的影响。

On the Reliability of User-Centric Evaluation of Conversational Recommender Systems

Michael Müller et al.

cs.IR

本文通过大规模实证研究, 探讨了基于静态对话记录的用户中心式对话推荐系统(CRS)评估的可靠性. 研究发现, 功利性维度评估相对可靠, 而社会性维度可靠性较低, 且存在强烈的光环效应, 这对当前基于单标注者或大语言模型的评估协议提出了挑战.

WebFAQ 2.0: A Multilingual QA Dataset with Mined Hard Negatives for Dense Retrieval

Michael Dinzinger et al.

cs.IR cs.AI cs.CL

本文介绍了WebFAQ 2.0数据集，这是一个包含多语言问答对的大规模资源，并提供了用于训练密集检索器的困难负样本。该数据集通过新的收集策略构建，旨在促进多语言信息检索的研究。

Training-free Graph-based Imputation of Missing Modalities in Multimodal Recommendation

Daniele Malitesta et al.

cs.IR

本文针对 multimodal recommender systems 中 item 的 multimodal features 可能缺失的问题, 提出了一个基于 item-item graph 的 training-free 插补方法. 该方法将缺失模态的插补问题转化为图上的特征传播问题, 并通过实验验证了其有效性.

Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers

Bingqian Li et al.

cs.IR cs.AI

本文提出了一种名为ILRec的偏好微调框架, 用于改进基于LLM的推荐系统. 该方法通过从模型中间层提取自硬负例信号, 并设计跨层偏好优化与蒸馏的两阶段训练, 来增强模型对负样本的判别能力.

Beyond Pipelines: A Fundamental Study on the Rise of Generative-Retrieval Architectures in Web Research

Amirereza Abbasi, Mohsen Hooshmand

cs.IR cs.AI

本文是一篇关于大语言模型(LLMs)对网络研究影响的综述。它重点探讨了检索增强生成(RAG)等技术如何将传统任务流程转变为生成式解决方案，并讨论了该领域的进展与挑战。

A Picture of Agentic Search

Francesca Pezzuti et al.

cs.IR

本文讨论了自动化系统在信息检索(IR)领域带来的挑战，指出当前以人为中心的设计假设已不再适用。作者提出了一种收集智能体搜索行为数据的方法，并发布了相应的数据集和工具包。

Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval

Jiaqi Xi et al.

cs.IR cs.LG

本文提出了一种名为"Mine and Refine"的两阶段对比训练框架，用于优化电子商务搜索中的语义文本嵌入。该方法通过策略对齐的LLM生成监督信号，并设计了专门的损失函数来区分不同级别的相关性，最终提升了检索效果和业务指标。

cs.CL

References Improve LLM Alignment in Non-Verifiable Domains

Kejian Shi et al.

cs.CL cs.AI cs.LG

本文探讨了在缺乏真实验证器的非可验证领域(如LLM对齐)中, 使用参考输出引导的LLM评估器作为软"验证器"的可行性. 实验表明, 参考引导的方法能显著提升评估准确性, 并在此基础上实现有效的对齐后训练, 性能优于直接监督微调和无参考的自改进方法.

Evaluating Monolingual and Multilingual Large Language Models for Greek Question Answering: The DemosQA Benchmark

Charalampos Mastrokostas, Nikolaos Giarelis, Nikos Karacapilidis

cs.CL cs.AI

本文构建了一个用于评估希腊语问答任务的新数据集 DemosQA, 并提出了一个内存高效的 LLM 评估框架. 作者对 11 个单语和多语大语言模型在 6 个希腊语 QA 数据集上进行了广泛的评估.

One-step Language Modeling via Continuous Denoising

Chanhyuk Lee et al.

cs.CL cs.AI

本文提出了一种基于连续去噪的流式语言模型(FLM), 通过在一热编码上进行欧几里得去噪来生成文本. 该方法通过时间重参数化提升了训练稳定性, 并可通过蒸馏获得支持少步生成的模型(FMLM). 实验表明, FMLM在少步生成质量上超越了现有的离散扩散模型.

Claim Automation using Large Language Model

Zhengda Mo et al.

cs.CL

本文提出了一种基于本地部署的、具有治理意识的语言建模组件, 用于从非结构化的保修索赔叙述中生成结构化的纠正措施建议. 通过使用LoRA对预训练LLM进行领域特定的微调, 该模型作为索赔处理流程的初始决策模块, 在评估中显示出优于通用商业模型和基于提示的方法的性能.

BanglaSummEval: Reference-Free Factual Consistency Evaluation for Bangla Summarization

Ahmed Rafid et al.

cs.CL

本文提出了一个用于孟加拉语摘要事实一致性评估的无参考框架BanglaSummEval. 该方法基于自动问答, 通过单一多语言模型处理多个步骤, 并在教育及医学领域的数据上验证了其与人工评估的相关性.

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Minh Duc Bui et al.

cs.CL

本文针对濒危的德国美因茨方言(Meenzerisch), 创建了首个NLP就绪的数字词典数据集, 并评估了当前大型语言模型(LLM)在该方言上的理解和生成能力. 实验结果表明, LLM在该任务上的准确率极低, 凸显了针对此类低资源方言进行专门研究的迫切性.

A Conceptual Hybrid Framework for Post-Quantum Security: Integrating BB84 QKD, AES, and Bio-inspired Mechanisms

Md. Ismiel Hossen Abir

cs.CL cs.CR

本文提出了一个后量子安全的概念性混合框架, 结合了AES加密、BB84量子密钥分发、量子态比较和仿生免疫机制. 该框架旨在应对量子计算对RSA等经典密码的威胁, 但目前仅为概念模型, 缺乏具体实现与安全证明.

ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders

Ofer Meshi et al.

cs.CL

本文提出了一个用于评估对话推荐系统中用户模拟器真实性的数据集和验证框架. 该数据集通过双智能体协议收集, 并包含用户满意度标注, 其验证框架结合了统计对齐和反事实验证等方法. 实验表明现有模拟器存在显著的真实性差距, 但数据驱动的模型在适应未见行为时表现更好.

When Semantic Overlap Is Not Enough: Cross-Lingual Euphemism Transfer Between Turkish and English

Hasan Can Biyik et al.

cs.CL cs.AI

本文研究了跨语言委婉语检测中的迁移不对称性. 研究发现, 语义重叠并不足以保证正向迁移, 尤其是在资源匮乏的土耳其语到英语方向.

Eigenmood Space: Uncertainty-Aware Spectral Graph Analysis of Psychological Patterns in Classical Persian Poetry

Kourosh Shahnazari, Seyed Moein Ayyoubzadeh, Mohammadali Keshtparvar

cs.CL cs.AI

本文提出了一种不确定性感知的计算框架, 用于对古典波斯诗歌进行诗人层面的心理学分析. 该方法通过大规模自动多标签标注构建诗人-概念矩阵, 并利用谱图理论中的Laplacian分解定义"Eigenmood"嵌入来捕捉概念间的关联结构.

Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History

Serin Kim, Sangam Lee, Dongha Lee

cs.CL cs.AI

本文提出了首个用于评估个性化网络代理在真实开放网络环境中表现的基准 Persona2Web, 该基准基于“澄清以个性化”原则构建, 要求代理根据用户历史而非明确指令来解析模糊查询. 通过包含用户历史, 模糊查询和细粒度评估框架, 该工作揭示了当前个性化网络代理面临的关键挑战.

ReIn: Conversational Error Recovery with Reasoning Inception

Takyoung Kim et al.

cs.CL cs.AI

本文提出了一种名为 Reasoning Inception (ReIn) 的测试时干预方法，用于提升基于大型语言模型的对话代理在遭遇用户引发的意外错误时的恢复能力。该方法通过外部模块诊断错误并生成恢复计划，在不修改模型参数或系统提示的情况下引导代理进行纠正，并在模拟的对话失败场景中验证了其有效性。

Large Language Models Persuade Without Planning Theory of Mind

Jared Moore et al.

cs.CL

本文通过设计一个需要策略性信息揭示的交互式说服任务, 评估了大型语言模型(LLMs)和人类的理论心智(Theory of Mind, ToM)能力. 实验发现, 当目标的心理状态(知识状态和动机状态)需要被推理时, LLMs表现不佳, 表明其在多步骤心智状态推理方面存在困难. 然而, 在针对真实人类目标的实验中, LLMs的说服效果优于人类, 这表明有效的说服可以不依赖于显式的ToM推理.

Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data

Deepak Uniyal, Md Abul Bashar, Richi Nayak

cs.CL cs.AI cs.LG

本文比较了四种跨语言文本分类方法在过滤多语言社交媒体数据中的相关内容和进行主题发现上的表现. 研究以氢能为例, 分析了超过九百万条推文, 探讨了翻译方法与多语言模型之间的权衡.

ALPS: A Diagnostic Challenge Set for Arabic Linguistic & Pragmatic Reasoning

Hussein S. Al-Olimat, Ahmad Alshareef

cs.CL cs.AI

本文介绍了ALPS, 一个针对阿拉伯语语言与语用推理的专家构建的诊断性挑战集. 它评估了多种模型, 发现它们在基础语言理解方面仍存在显著缺陷.

BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios

Yunseung Lee et al.

cs.CL

本文提出了一个针对银行业务场景的数值推理基准测试BankMathBench. 该基准包含不同难度的任务, 用于评估和提升大语言模型在真实银行计算中的表现.

Projective Psychological Assessment of Large Multimodal Models Using Thematic Apperception Tests

Anton Dzega et al.

cs.CL

本文使用 Thematic Apperception Test (TAT) 和 SCORS-G 框架评估了大型多模态模型的人格特质。研究发现模型能理解人际动态但无法感知攻击性，且评估结果与人类专家高度一致。

The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI

Dusan Bosnjakovic

cs.CL

本文提出了一种基于心理测量理论的审计框架, 用于量化生成式AI中潜在的、持久的偏见. 该方法通过设计特定的测试项目来分析模型的行为特征, 并发现不同提供商的模型存在显著的行为聚类.

What Makes a Good Doctor Response? An Analysis on a Romanian Telemedicine Platform

Adrian Cosma, Cosmin Dumitrache, Emilian Radoi

cs.CL

本文分析了罗马尼亚文本远程医疗平台中影响患者满意度的因素。研究基于大量医患对话数据，使用可解释特征训练分类器，发现患者和医生的历史特征是主要预测因子，而回复文本的礼貌性等特征也具有一定影响。

Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study

Kensuke Okada, Yui Furukawa, Kyosuke Bunji

cs.CL stat.ME

本文提出了一种心理测量学框架, 用于量化和减轻基于问卷评估大语言模型(LLMs)时的社会称许性反应(SDR). 通过对比诚实作答与假装作答指令下的结果来量化SDR, 并构建了匹配称许性的分级迫选问卷来减轻其影响.

Towards Cross-lingual Values Assessment: A Consensus-Pluralism Perspective

Yukun Chen et al.

cs.CL cs.AI

本文提出了一个名为X-Value的跨语言价值观评估基准，用于评估大语言模型对内容深层价值观的理解能力。该基准基于Schwartz的基本人类价值观理论构建，包含多语言数据和一个两阶段标注框架。

Representation Collapse in Machine Translation Through the Lens of Angular Dispersion

Evgeniia Tokarchuk et al.

cs.CL cs.LG

本文分析了Transformer架构下神经机器翻译模型中的representation collapse现象, 特别是在深层和连续输出模型中. 通过引入基于angular dispersion的正则化方法, 实验表明该方法能缓解collapse并提升翻译质量, 且其益处在对模型量化后依然存在.

Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation

Bogdan Kostić et al.

cs.CL cs.AI

本文通过设计词汇和句法层面的扰动, 研究了大型语言模型在标准评测基准上的表现稳定性. 研究发现, 即使是语义等价的输入变化也会显著影响模型的绝对性能和相对排名, 表明当前评测方法可能过度依赖表面特征.

RPDR: A Round-trip Prediction-Based Data Augmentation Framework for Long-Tail Question Answering

Yiming Zhang et al.

cs.CL

本文提出了一个名为RPDR的数据增强框架, 旨在通过生成和筛选高质量的训练数据来提升密集检索器在长尾问答任务中的性能. 该方法在PopQA和EntityQuestion等基准测试上取得了优于BM25和Contriver等基线模型的效果.

The Role of the Availability Heuristic in Multiple-Choice Answering Behaviour

Leonidas Zotos, Hedderik van Rijn, Malvina Nissim

cs.CL

本文通过计算模型评估了多选题选项中概念的认知可用性, 发现正确答案的可用性显著高于错误选项. 研究还探讨了LLM生成选项的可用性模式, 建议在计算建模学生行为时应考虑可用性启发式.

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

Anastasia Zhukova et al.

cs.CL

本文提出了一种改进的跨文档共指消解标注方案，通过将共指链视为话语元素和概念分析单元，来处理新闻文本中的词汇多样性和框架变化。该方法在NewsWCL50和ECB+子集上进行了重新标注和评估，为新闻领域的共指消解研究提供了更平衡的数据集。

Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics

Sanjeev Kumar, Preethi Jyothi, Pushpak Bhattacharyya

cs.CL

本文比较了在极低资源语言机器翻译场景下, ChrF++和BLEU两种评估指标的差异. 研究发现, 尽管BLEU得分较低, 但它能提供关于词汇精度的补充信息, 有助于提升评估结果的可解释性.

Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study

Dylan Bouchard et al.

cs.CL cs.AI cs.LG

本文提出了一个用于长文本语言模型输出的细粒度不确定性量化框架, 包含响应分解、单元级评分和响应级聚合三个阶段. 通过实验比较了多种基于一致性的黑盒评分器, 发现声明-响应蕴含方法效果良好, 且不确定性感知解码能有效提升长文本的事实性.

AIDG: Evaluating Asymmetry Between Information Extraction and Containment in Multi-Turn Dialogue

Adib Sakhawat, Fardeen Sadab, Rakin Shahriar

cs.CL

本文提出了AIDG框架, 用于评估大语言模型在多轮对话中信息提取与信息保持的不对称性. 实验发现模型在信息保持任务上显著优于信息提取任务.

ABCD: All Biases Come Disguised

Mateusz Nowak, Xavier Cadet, Peter Chin

cs.CL cs.LG

本文通过构建一个合成的NonsenseQA基准, 揭示了LLMs在多项选择题评估中存在的多种提示偏差, 例如标签位置和少样本分布偏差. 作者提出了一种简单的去偏评估协议, 使用无序标签并依赖句子相似度模型来减少这些评估伪影, 从而提高了评估的鲁棒性.

Entropy-Based Data Selection for Language Models

Hongming Li, Yang Liu, Chao Huang

cs.CL

本文提出了一个基于信息熵的无监督数据选择框架(EUDS), 用于在计算资源受限的场景下高效微调语言模型. 该方法通过评估数据的不确定性来筛选训练样本, 在多个下游任务上验证了其能有效减少数据需求和计算成本.

PEACE 2.0: Grounded Explanations and Counter-Speech for Combating Hate Expressions

Greta Damo et al.

cs.CL

本文提出了一个名为PEACE 2.0的工具，用于分析和回应在线仇恨言论。它利用检索增强生成技术来提供基于证据的解释并生成相应的反驳言论。

Auditing Reciprocal Sentiment Alignment: Inversion Risk, Dialect Representation and Intent Misalignment in Transformers

Nusrat Jahan Lia, Shubhashis Roy Dipta

cs.CL cs.HC

本文通过基准测试四种transformer架构, 研究了孟加拉语与英语之间的跨语言情感对齐问题. 研究发现现有对齐范式存在严重的安全与表征缺陷, 包括情感反转和不对称共情等现象, 并建议在基准测试中纳入"情感稳定性"指标.

Small LLMs for Medical NLP: a Systematic Analysis of Few-Shot, Constraint Decoding, Fine-Tuning and Continual Pre-Training in Italian

Pietro Ferrazzi et al.

cs.CL

本文系统评估了小型LLM在意大利语医疗NLP任务上的表现，比较了少样本提示、约束解码、监督微调和持续预训练等多种适应策略。研究发现，微调是最有效的方法，而小型模型在特定配置下可以超越更大的基线模型。

Bridging the Domain Divide: Supervised vs. Zero-Shot Clinical Section Segmentation from MIMIC-III to Obstetrics

Baris Karacan, Barbara Di Eugenio, Patrick Thornton

cs.CL

本文在临床文本的section segmentation任务上, 对比了基于transformer的监督模型与zero-shot大语言模型的性能. 研究通过在一个新的产科笔记数据集上的评估发现, 监督模型在out-of-domain场景下性能显著下降, 而经过校正的zero-shot模型则展现出更强的领域适应性.

Using LLMs for Knowledge Component-level Correctness Labeling in Open-ended Coding Problems

Zhangqi Duan et al.

cs.CL cs.CY

本文提出了一种利用LLMs自动标注开放式编程问题中知识组件(KC)掌握情况的方法. 该方法通过评估代码中每个KC的应用正确性, 并结合时间上下文来改进标注, 实验表明其能生成更符合认知理论的学习曲线.

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Jyotin Goel, Souvik Maji, Pratik Mazumder

cs.CL cs.LG

本文提出了一种在微调过程中自适应调整正则化强度的训练框架, 以缓解语言模型安全性的退化. 该框架通过一个基于评判器或模型内部激活的轻量级分类器来估计训练批次的安全风险, 并据此约束高风险参数的更新.

Modeling Distinct Human Interaction in Web Agents

Faria Huq et al.

cs.CL cs.HC

本文研究了在自主网络代理任务中预测人类干预时机的问题. 作者通过分析收集的真实用户交互数据, 识别了四种不同的用户交互模式, 并训练了语言模型来预测干预, 最终在用户研究中提升了代理的有用性评分.

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR$\rightarrow$LLM Pipelines?

Jayadev Billa

cs.CL cs.AI eess.AS

本文通过匹配骨干网络测试, 比较了语音大语言模型与ASR-LLM级联管线的行为. 研究发现, 多数语音LLM在机制和行为上等同于级联管线, 其隐层状态会涌现出文本表示, 且该表示对任务完成具有因果必要性. 然而, Qwen2-Audio的表现表明这种等价性并非普遍, 而是依赖于模型架构.

Unmasking the Factual-Conceptual Gap in Persian Language Models

Alireza Sakhaeirad, Ali Ma'manpoosh, Arshia Hemmat

cs.CL

本文介绍了DivanBench, 一个用于评估波斯语语言模型在区分文化事实记忆与社交规范推理能力方面的诊断性基准. 研究发现, 现有模型在事实检索与应用场景间存在显著性能差距, 且持续的波斯语预训练会放大模型的默许偏差, 而非提升其推理能力.

Differences in Typological Alignment in Language Models' Treatment of Differential Argument Marking

Iskar Deng, Nathalia Xu, Shane Steinert-Threlkeld

cs.CL

本文通过训练GPT-2模型在18种不同的DAM系统上，研究了语言模型对DAM的泛化能力。研究发现，模型能复现人类语言中关于标记方向的偏好，但未能复现对象标记的强烈倾向。

What Language is This? Ask Your Tokenizer

Clara Meister et al.

cs.CL

本文提出了一种基于UnigramLM tokenization算法的语言识别方法UniLID. 该方法通过共享的tokenizer词汇表学习语言条件化的unigram分布, 同时将分词视为语言特定的现象, 从而在低资源语言和方言识别上取得了显著效果.

Sink-Aware Pruning for Diffusion Language Models

Aidar Myrzakhan et al.

cs.CL cs.AI cs.LG

本文针对Diffusion Language Models (DLMs)推理成本高的问题，提出了Sink-Aware Pruning方法。该方法通过识别并剪裁DLMs中不稳定的attention sink tokens，在不重新训练的情况下实现了更好的质量-效率权衡。

cs.DS

Offline green bin packing and its constrained variant

Mingyang Gong, Brendan Mumey

cs.DS

本文研究了离线 green bin packing (GBP) 及其约束变体 (CGBP) 问题. 对于 GBP, 目标是同时最小化使用的 bin 的数量和总能耗; 对于 CGBP, 目标是在能耗不超过给定上界 $U$ 的条件下最小化 bin 的数量. 作者为这两个问题提出了一个 APTAS (asymptotic polynomial-time approximation scheme) 和一个 $\frac 32$-近似算法.

Adaptive encodings for small and fast compressed suffix arrays

Diego Díaz-Domínguez, Veli Mäkinen

cs.DS

本文提出了一种称为variable-length blocking (VLB)的自适应编码技术，用于改进基于BWT的压缩后缀数组(CSA)。该方法通过递归地将BWT划分为块并组织成树结构，在可压缩区域节省空间，并将节省的比特用于加速不可压缩区域的访问，从而在空间和查询速度之间取得更好的平衡。实验表明，基于VLB的技术在查询时间上优于r-index和sr-index，同时保持了接近sr-index的空间占用。

Simultaneous Blackwell Approachability and Applications to Multiclass Omniprediction

Lunjia Hu, Kevin Tian, Chutong Yang

cs.DS cs.LG stat.ML

本文研究了多分类场景下的 omniprediction 问题，其中比较器集合 $\mathcal{C}$ 可以是无限的。作者将二元 omniprediction 算法扩展到多分类情况，并给出了样本复杂度或遗憾界。在证明过程中，他们设计了一个用于同时解决多个 Blackwell approachability 问题的框架。

others

Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning ⭐ 精选

Hien Dang, Pratik Patil, Alessandro Rinaldo

math.ST cs.LG stat.ML

本文在无约束的ridge regression框架下，首次严格证明了最优自蒸馏（self-distillation）总能带来预测风险的严格改进。作者推导出了最优混合权重$\xi^\star(\lambda)$的闭式解，并揭示了其符号与教师模型风险导数相反的规律。在比例渐近设定下，通过建立四阶确定性等价（deterministic equivalents），论文精确量化了风险改进的程度。此外，论文提出了一种无需网格搜索或重新拟合的一致性单步调参方法，并在真实数据上验证了其有效性。

Efficient Remote Prefix Fetching with GPU-native Media ASICs

Liang Mi et al.

cs.DC cs.LG

本文提出了一种利用GPU原生视频编解码器进行远程KV缓存重用的高效方案KVFetcher. 该系统通过设计编解码器友好的张量布局和高效的流水线获取器, 在保持无损精度的同时显著降低了首次令牌生成时间.

DARTH-PUM: A Hybrid Processing-Using-Memory Architecture

Ryan Wong, Ben Feinberg, Saugata Ghose

cs.AR cs.CR cs.ET cs.LG

本文提出了一种名为DARTH-PUM的混合Processing-Using-Memory架构，它整合了模拟和数字内存计算技术。该设计通过优化的外围电路和编程接口，旨在为从嵌入式系统到大规模计算的各种应用提供高效的全内存计算支持。

GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions

Yaowen Liu et al.

cs.DB cs.AI

本文对基于图的GPU加速向量搜索算法进行了系统性的综述与实验研究. 它建立了一个关于GPU优化策略的分类法, 并通过在多个大规模数据集上的评估, 揭示了距离计算和数据传输是影响系统性能的关键瓶颈.

APEX-SQL: Talking to the data via Agentic Exploration for Text-to-SQL

Bowen Cao et al.

cs.DB cs.AI

本文提出了一个名为APEX-SQL的智能体驱动Text-to-SQL框架，旨在解决大型语言模型在企业级复杂数据库环境中的语义模糊和扩展性问题。该框架通过假设-验证循环和数据探索机制来生成更准确的SQL查询。

Speech to Speech Synthesis for Voice Impersonation

Bjorn Johnson, Jared Levy

cs.SD cs.LG eess.AS

本文提出了一种基于当前先进系统的Speech to Speech Synthesis Network (STSSN), 用于语音到语音的风格转换以实现声音模仿. 该模型融合了语音识别与语音合成技术, 并在与生成对抗网络的对比中显示出更令人信服的结果.

Is Mamba Reliable for Medical Imaging?

Banafsheh Saber Latibari et al.

cs.CR cs.AI

本文评估了Mamba模型在医学影像分类任务中对多种输入攻击和硬件故障的鲁棒性. 实验表明模型在这些威胁下存在脆弱性, 需要防御措施才能部署.

Intent Laundering: AI Safety Datasets Are Not What They Seem

Shahriar Golchin, Marc Wetter

cs.CR cs.AI cs.CL cs.LG

本文通过引入"intent laundering"方法，评估了现有AI安全数据集的质量。研究发现，这些数据集过度依赖"触发线索"，导致其无法真实反映现实世界的攻击，并且当移除这些线索后，许多被认为安全的模型会变得不安全。

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Raymond Jay Martin II

cs.OS cs.AI

本文实现了一个基于Bounded Local Generator Classes的确定性语义状态系统, 并将其构建为一个CPU驻留的图引擎. 实验表明, 该系统在内存图规模增长时, 计算延迟和CPU利用率保持恒定, 其性能瓶颈由内存容量而非推理计算决定.

Exploring the Utility of MALDI-TOF Mass Spectrometry and Antimicrobial Resistance in Hospital Outbreak Detection

Chang Liu et al.

q-bio.QM cs.LG

本文探讨了利用 MALDI-TOF 质谱和抗菌药物耐药性模式这两种快速、经济的方法，结合机器学习框架，来替代全基因组测序进行医院感染暴发检测的潜力。研究表明，在某些情况下，这些方法可以减少对测序的依赖，实现更便捷的疫情监测。

Self-Evolving Multi-Agent Network for Industrial IoT Predictive Maintenance

Rebin Saleh et al.

cs.MA cs.LG

本文提出了一种用于工业物联网预测性维护的自演化分层多智能体系统(SEMAS). 该系统通过在不同计算层部署专用智能体, 在保证实时性能与可解释性的同时, 实现了资源感知的异常检测.

Can Adversarial Code Comments Fool AI Security Reviewers -- Large-Scale Empirical Study of Comment-Based Attacks and Defenses Against LLM Code Analysis

Scott Thornton

cs.CR cs.AI cs.LG

本文通过大规模实验研究了对抗性代码注释对LLM漏洞检测性能的影响。实验发现，与代码生成任务不同，在漏洞检测任务中，对抗性注释并未导致模型性能出现统计学上的显著下降。研究还测试了多种自动化防御策略，并分析了模型失效主要集中在某些特定的、固有的复杂漏洞类型上。

U-FedTomAtt: Ultra-lightweight Federated Learning with Attention for Tomato Disease Recognition

Romiyal George et al.

q-bio.QM cs.LG

本文提出了一种用于番茄病害识别的超轻量级联邦学习框架 U-FedTomAtt. 该方法结合了注意力机制, 在资源受限的分布式环境中实现了高效的模型训练与识别.

PREFER: An Ontology for the PREcision FERmentation Community

Txell Amigó et al.

q-bio.OT cs.AI cs.CL

本文为 precision fermentation 领域提出了一个名为 PREFER 的本体(ontology), 旨在为该领域的高通量生物过程数据建立统一标准. 该本体基于 Basic Formal Ontology (BFO) 构建, 旨在提高数据的互操作性, 并为合成生物学中机器学习模型的训练提供支持.

Beyond Procedure: Substantive Fairness in Conformal Prediction

Pengqi Liu et al.

stat.ML cs.LG

本文探讨了 conformal prediction 在决策流程中的公平性问题, 提出了 substantive fairness 的概念. 通过理论分析和引入 LLM 评估器, 研究发现 label-clustered CP 能提供更好的实质性公平.

Large-scale online deanonymization with LLMs

Simon Lermen et al.

cs.CR cs.AI cs.LG

本文提出了一种利用大语言模型进行大规模在线去匿名化的方法. 该方法通过提取身份特征、语义搜索和推理验证, 能够在不同平台的原始用户内容上实现高精度的用户匹配, 显著超越了传统基线.

Hybrid-Gym: Training Coding Agents to Generalize Across Tasks

Yiqing Xie et al.

cs.SE cs.CL cs.LG

本文提出了一个名为 Hybrid-Gym 的训练环境，它通过设计可扩展的合成任务来教授语言模型一些可迁移的编程技能。实验表明，在此环境训练的智能体能够有效泛化到未见过的真实世界编程任务上。

AI-Mediated Feedback Improves Student Revisions: A Randomized Trial with FeedbackWriter in a Large Undergraduate Course

Xinyi Lu et al.

cs.HC cs.AI

本文通过一项随机对照试验, 研究了在本科生经济学课程中, 使用AI辅助生成反馈(FeedbackWriter系统)与仅由助教提供手写反馈对学生论文修改质量的影响. 研究发现, 接收AI辅助反馈的学生在修订稿中取得了显著更高的质量, 且这种提升与助教采纳AI建议的程度正相关.

The Impact of Formations on Football Matches Using Double Machine Learning. Is it worth parking the bus?

Genís Ruiz-Menárguez, Llorenç Badiella

stat.AP cs.LG

本文使用Double Machine Learning (DML)框架，分析了足球比赛中不同阵型对比赛结果（如净胜球、控球率）的因果影响。研究发现，进攻阵型在控球等方面有微弱优势，但对进球影响有限，且没有证据表明防守阵型能提高胜率。

NeST: Neuron Selective Tuning for LLM Safety

Sasha Behrouzi et al.

cs.CR cs.LG

本文提出了一种名为NeST的轻量级安全对齐框架, 通过选择性调整与安全行为相关的神经元子集来增强大语言模型的拒绝行为. 该方法在多个模型上显著降低了攻击成功率, 同时仅需更新极少量的参数.

Overseeing Agents Without Constant Oversight: Challenges and Opportunities

Madeleine Grunde-McLaughlin et al.

cs.HC cs.AI

本文通过三项用户研究, 探讨了用于人类监督的智能体行动轨迹(trace)设计. 研究发现, 当前的基础轨迹设计效率低下, 而作者提出的新界面虽能提升用户信心与效率, 但并未显著提高最终的任务准确性. 研究揭示了在智能体过程沟通和用户主观判断标准等方面存在的挑战.

SimToolReal: An Object-Centric Policy for Zero-Shot Dexterous Tool Manipulation

Kushal Kedia et al.

cs.RO cs.AI

本文提出了一种名为SimToolReal的sim-to-real强化学习方法, 用于实现灵巧工具操作的零样本泛化. 该方法通过在仿真中程序化生成大量工具状物体基元并训练单一策略, 在多种真实世界工具和任务上展示了零样本性能.

AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence

Geunbin Yu

cs.MA cs.AI

本文提出了一个用于任务自适应多智能体编排的框架 AdaptOrch. 该框架根据任务依赖图和经验域特征, 在四种典型编排拓扑中进行动态选择, 并在多个任务上验证了其相对于静态基线的性能提升.

MALLVI: a multi agent framework for integrated generalized robotics manipulation

Iman Ahmadi et al.

cs.RO cs.AI cs.CV cs.LG

本文提出了一个名为MALLVi的多智能体框架，用于实现基于闭环反馈的机器人操作。该框架通过协调多个专用智能体来处理感知、定位和规划，并利用视觉语言模型进行环境评估，从而在零样本任务中提高了操作的成功率。

Multi-objective optimization and quantum hybridization of equivariant deep learning interatomic potentials on organic and inorganic compounds

G. Laskaris et al.

cond-mat.mtrl-sci cs.LG quant-ph

本文对Allegro机器学习原子间势能模型进行了多目标超参数优化, 并尝试了引入经典MLP层和量子-经典混合层的架构变体. 实验在多个数据集上评估了这些变体在精度和推理时间上的权衡.

A Reversible Semantics for Janus

Ivan Lanese, Germán Vidal

cs.PL cs.AI cs.LO

本文为可逆编程语言Janus提出了一种新的small-step semantics, 该语义在保持与原有语义等价的同时实现了真正的可逆性, 解决了原有small-step semantics因信息丢失而不可逆的问题.

A statistical perspective on transformers for small longitudinal cohort data

Kiana Farhadyar et al.

stat.ME cs.LG stat.ML

本文针对小规模纵向队列数据, 提出了一种简化的transformer架构. 该方法通过减少参数数量并引入基于核的注意力机制, 使其适用于个体和时间点较少的数据集, 并在模拟和实际数据中展示了识别复杂时间依赖模式的能力.

Xray-Visual Models: Scaling Vision models on Industry Scale Data

Shlok Mishra et al.

cs.CV cs.AI

本文提出了一种名为Xray-Visual的统一视觉模型架构，用于大规模图像和视频理解。该模型在社交媒体数据上进行训练，结合了多种学习策略，并在多个基准测试中取得了先进的性能。

Poisson-MNL Bandit: Nearly Optimal Dynamic Joint Assortment and Pricing with Decision-Dependent Customer Arrivals

Junhui Cai et al.

stat.ML cs.LG

本文研究了动态联合品类选择和定价问题, 其中顾客到达率受决策影响. 作者提出了一个结合了contextual MNL选择模型和泊松到达模型的Poisson-MNL模型, 并基于UCB思想设计了一个高效算法PMNL. 理论分析证明了该算法具有近乎最优的$\sqrt{T\log T}$量级的regret界.

Discovering Multiagent Learning Algorithms with Large Language Models

Zun Li et al.

cs.GT cs.AI cs.MA

本文提出了一种利用大语言模型驱动的进化编码智能体 AlphaEvolve 来自动发现新的多智能体学习算法的方法。该方法在两种不同的博弈论学习范式中生成了新的算法变体，并展示了其性能优势。

Say It My Way: Exploring Control in Conversational Visual Question Answering with Blind Users

Farnaz Zamiri Zeraati et al.

cs.HC cs.AI

本文探讨了盲人用户在使用对话式视觉问答(VQA)系统时的控制与定制问题。通过用户研究，分析了现有基于LLM的VQA系统在交互冗长、空间距离估计、图像框架和相机引导等方面的局限性，并讨论了提示工程等定制技术如何帮助用户应对这些挑战。

BrainRVQ: A High-Fidelity EEG Foundation Model via Dual-Domain Residual Quantization and Hierarchical Autoregression

Mingzhe Cui et al.

eess.SP cs.LG

本文提出了一种名为BrainRVQ的通用EEG基础模型, 它采用双域残差向量量化(DD-RVQ)将脑电图信号的时域波形和频域模式分解为分层离散编码, 并通过分层自回归预训练目标进行学习. 在多个下游数据集上的实验表明, 该模型在学习和泛化神经表征方面优于现有基线.

Greedy Multi-Path Block Verification for Faster Decoding in Speculative Sampling

Rahul Thomas, Arka Pal

cs.IT cs.LG

本文提出了一种名为greedy multi-path block verification (GBV)的贪心算法, 用于改进speculative decoding中的block verification (BV)方法. 该方法通过考虑多条候选路径来提升验证效率, 实验表明GBV能显著减少解码时间并提高吞吐量.

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde

cs.CV cs.AI

本文提出了一种用于Diffusion Transformers的动态patch调度方法DDiT, 通过在去噪过程中根据内容复杂度和时间步动态调整patch大小来提升推理效率. 实验表明该方法能在保持生成质量的同时显著降低计算成本.

Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling

Divyam Madaan, Sumit Chopra, Kyunghyun Cho

cs.CV cs.CL cs.LG

本文提出了一种名为PRIMO的监督式隐变量插补模型, 用于量化多模态学习中缺失模态的预测影响. 该模型通过隐变量建模缺失模态与观测模态的关系, 并在推理时采样以获取预测分布并分析影响.

Exploring LLMs for User Story Extraction from Mockups

Diego Firmenich et al.

cs.SE cs.AI cs.CL

本文探索了使用大型语言模型(LLMs)从高保真设计稿中自动提取用户故事的方法. 通过一个案例研究, 作者发现, 在提示词中加入语言扩展词典(LEL)术语表可以显著提高生成用户故事的准确性和适用性.

Wink: Recovering from Misbehaviors in Coding Agents

Rahul Nanda et al.

cs.SE cs.AI cs.HC cs.PL

本文提出了一种名为 Wink 的轻量级异步自干预系统，用于自动恢复大规模编码代理中的不当行为。该系统通过观察代理轨迹并提供有针对性的纠偏指导，在真实世界轨迹上成功解决了大部分需要单次干预的问题。

General sample size analysis for probabilities of causation: a delta method approach

Tianyuan Cheng et al.

stat.ME cs.AI

本文提出了一种基于delta method的通用样本量分析框架, 用于估计causation probabilities (如PNS)的边界. 该方法适用于目标边界可表示为实验与观测概率线性组合的有限minima或maxima的情形, 并通过模拟研究验证了其估计的稳定性.

Dynamic Decision-Making under Model Misspecification: A Stochastic Stability Approach

Xinyu Dai, Daniel Chen, Yian Qian

econ.TH cs.LG math.ST

本文研究了模型设定错误下 Thompson Sampling (TS) 算法的行为。通过一个随机稳定性框架，分析了后验信念的动态演化，并对其遍历性和瞬态行为进行了分类。

Deep Reinforcement Learning for Optimal Portfolio Allocation: A Comparative Study with Mean-Variance Optimization

Srijan Sood et al.

q-fin.PM cs.AI cs.LG

本文比较了深度强化学习(DRL)与传统均值-方差优化(MVO)在投资组合分配问题上的表现。通过回测，研究发现DRL代理在多个指标上表现优于MVO方法。

Multiple Index Merge for Approximate Nearest Neighbor Search

Liuchang Jing et al.

cs.DB cs.IR

本文针对大规模高维向量数据构建Proximity Graph索引时内存受限的问题, 研究了多索引合并策略. 提出了RNSM (reverse neighbor sliding merge) 方法来高效合并两个子图索引, 并探讨了合并顺序选择(MOS)以降低总合并开销. 实验表明该方法在保持搜索性能的同时, 显著提升了构建效率.

Simplify to Amplify: Achieving Information-Theoretic Bounds with Fewer Steps in Spectral Community Detection

Sie Hendrata Dharmawan, Peter Chin

cs.SI cs.LG

本文提出了一种简化的谱算法用于双社区随机块模型中的社区检测. 该方法通过减少预处理步骤直接利用邻接矩阵的谱特性, 在理论误差界和计算效率上取得了改进.

Semi-Supervised Learning on Graphs using Graph Neural Networks

Juntong Chen et al.

stat.ML cs.LG

本文研究了图神经网络(GNNs)在半监督节点回归任务中的理论性能。通过分析一个聚合-读出模型，为具有线性图卷积和深度ReLU读出函数的GNN提供了非渐近风险界，并讨论了在标签稀缺情况下的收敛速率。

3D Scene Rendering with Multimodal Gaussian Splatting

Chi-Shiang Gau et al.

cs.CV cs.AI cs.RO

本文提出了一种融合射频感知与3D Gaussian Splatting的多模态框架，用于提升在视觉线索不可靠环境下的3D场景渲染鲁棒性与效率。该方法利用稀疏的射频深度测量来初始化高斯基元，从而在多种GS架构中实现高质量的渲染。

Universal Fine-Grained Symmetry Inference and Enforcement for Rigorous Crystal Structure Prediction

Shi Yin et al.

cond-mat.mtrl-sci cs.AI physics.comp-ph

本文提出了一种结合大语言模型与约束优化搜索的方法, 用于晶体结构预测中的精细对称性推断与严格强制执行. 该方法通过生成对称性一致的Wyckoff pattern模板, 并将其整合到扩散模型中, 以约束生成轨迹在物理有效的几何流形上, 从而在多个基准测试上取得了先进的性能.

Robustness and Reasoning Fidelity of Large Language Models in Long-Context Code Question Answering

Kishan Maharaj et al.

cs.SE cs.AI

本文通过系统实验评估了大型语言模型在长代码上下文问答任务中的鲁棒性. 研究发现, 模型在答案格式变化、存在干扰信息等条件下性能显著下降, 揭示了当前评估方法的局限性.

The Bots of Persuasion: Examining How Conversational Agents' Linguistic Expressions of Personality Affect User Perceptions and Decisions

Uğur Genç et al.

cs.HC cs.AI

本文研究了大型语言模型驱动的对话代理通过语言表达个性如何影响用户在慈善捐赠场景中的决策和感知. 研究发现, 对话代理的复合个性虽不影响捐赠决策, 但显著影响了用户的感知和情感反应, 并揭示了其作为操纵工具的风险.

Anti-causal domain generalization: Leveraging unlabeled data

Sorawit Saengkyongam et al.

stat.ML cs.LG

本文研究了反因果(anti-causal)设定下的领域泛化问题，提出利用无标签数据来估计环境扰动方向并正则化模型敏感性。该方法在理论上有最坏情况最优性保证，并在物理系统和生理信号数据集上验证了有效性。

Deeper detection limits in astronomical imaging using self-supervised spatiotemporal denoising

Yuduo Guo et al.

astro-ph.IM astro-ph.CO astro-ph.GA cs.AI

本文提出了一种基于transformer的自监督时空去噪算法(ASTERIS), 用于提升天文成像的探测极限. 该方法通过整合多帧曝光中的时空信息来学习和校正相关噪声, 在模拟和真实观测数据(如JWST)上均能有效识别更暗弱的天体特征.

MGD: Moment Guided Diffusion for Maximum Entropy Generation

Etienne Lempereur et al.

stat.ML cs.LG

本文提出了一种结合最大熵原理与生成模型的新方法, 称为Moment Guided Diffusion (MGD). 该方法通过求解一个在有限时间内引导矩(moments)达到预设值的随机微分方程来采样, 避免了传统方法在高维下的混合缓慢问题, 并应用于金融时间序列和湍流等多尺度过程.

Extending quantum theory with AI-assisted deterministic game theory

Florian Pauschitz, Ben Moseley, Ghislain Fourny

quant-ph cs.AI cs.GT

本文提出了一个结合AI与deterministic game theory的框架, 旨在为量子理论构建一个local hidden-variable extension. 该框架将量子实验建模为一种博弈, 并用神经网络学习包含hidden variable的reward function.

Privacy-Preserving Mechanisms Enable Cheap Verifiable Inference of LLMs

Arka Pal et al.

cs.CR cs.LG

本文提出了一种利用隐私保护机制实现低成本可验证大语言模型推理的新思路. 通过将隐私保护推理协议转化为验证协议, 可以在几乎不增加计算开销的情况下, 为用户提供推理过程的可信保证.

TAPO-Structured Description Logic for Information Behavior: Procedural and Oracle-Based Extensions

Takao Inoué

cs.LO cs.AI

本文提出了一种扩展的描述逻辑TAPO-DL，用于对信息行为进行结构化建模。它通过引入Procedural Box和Oracle Box来整合动态过程与外部信息源，并基于层论（sheaf theory）提供统一的语义解释。

Federated Latent Space Alignment for Multi-user Semantic Communications

Giuseppe Di Poce et al.

cs.IT cs.AI

本文提出了一种用于多用户语义通信的联邦潜在空间对齐方法. 该方法通过共享语义预均衡器和本地均衡器来减少潜在空间错位, 并采用联邦优化进行训练. 数值结果验证了其在任务导向通信中的有效性, 并揭示了准确性、开销和复杂性之间的权衡.

Quantum Scrambling Born Machine

Marcin Płodzień

quant-ph cs.LG

本文提出了一种称为Quantum Scrambling Born Machine的量子生成模型。该模型使用固定的纠缠酉算子作为“置乱库”来提供多量子比特纠缠，仅优化单量子比特旋转。研究表明，一旦纠缠器产生接近Haar典型的纠缠，模型就能学习目标分布，且对纠缠器的微观起源不敏感。将哈密顿量耦合参数化可将其转化为变分哈密顿问题，其性能在参数量匹配时与代表性经典生成模型相当。

Open Datasets in Learning Analytics: Trends, Challenges, and Best PRACTICE

Valdemar Švábenský et al.

cs.CY cs.DB cs.LG

本文调查了学习分析领域开放数据集的现状, 分析了三大旗舰会议过去五年的论文, 构建了包含172个数据集的详细清单. 基于调查结果, 作者总结了当前领域的不足, 并提出了名为PRACTICE的八项指导原则, 以促进开放数据实践.

What Breaks Embodied AI Security:LLM Vulnerabilities, CPS Flaws,or Something Else?

Boyang Ma et al.

cs.CR cs.AI

本文是一篇关于Embodied AI系统安全的综述性文章. 它指出, 仅从LLM漏洞或传统CPS攻击的角度分析此类系统的安全风险是不够的, 许多故障源于embodiment（具身化）引发的系统级不匹配. 文章提出了四个核心观点来解释为何Embodied AI更难保障安全.

Partial Optimality in the Preordering Problem

David Stein, Jannik Irmai, Bjoern Andres

cs.DM cs.DS cs.LG

本文针对NP-hard的preordering问题, 提出了新的partial optimality条件及高效判定算法. 在真实与合成数据上的实验表明, 新条件能有效提升可判定不满足最优preorder的关系对比例.

Voice-Driven Semantic Perception for UAV-Assisted Emergency Networks

Nuno Saavedra et al.

cs.NI cs.AI cs.SD

本文提出了一个名为SIREN的AI驱动框架，用于实现无人机辅助应急网络中的语音驱动语义感知。该框架通过整合自动语音识别、基于大语言模型的语义提取和自然语言处理验证，将非结构化的应急语音通信转换为机器可读的结构化信息。

SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery

Lorenzo Caselli et al.

cs.CV cs.AI cs.LG

本文提出了一种名为SpectralGCD的高效多模态方法，用于广义类别发现(GCD)。该方法利用CLIP的跨模态相似度作为统一表示，并通过谱过滤技术自动筛选相关语义概念，在保持性能的同时显著降低了计算成本。

A High-Level Survey of Optical Remote Sensing

Panagiotis Koletsis et al.

cs.CV cs.AI

本文是一篇关于光学遥感领域的高层次综述, 涵盖了该领域的多种任务、能力和方法, 并提供了数据集等关键信息. 它旨在为进入该领域的研究者提供指导, 帮助他们聚焦于最相关的方向.

DAVE: A Policy-Enforcing LLM Spokesperson for Secure Multi-Document Data Sharing

René Brinkhege, Prahlad Menon

cs.CR cs.CL

本文提出了一种名为DAVE的LLM发言人系统, 用于在多方数据共享场景中执行细粒度的使用策略. 该系统通过自然语言接口响应查询, 并在查询时根据机器可读策略进行虚拟信息屏蔽, 而无需修改原始文档.

Jolt Atlas: Verifiable Inference via Lookup Arguments in Zero Knowledge

Wyatt Benno et al.

cs.CR cs.AI

本文提出了一个名为Jolt Atlas的零知识机器学习框架, 它扩展了Jolt证明系统以用于模型推理. 该框架直接针对ONNX张量运算, 利用基于sumcheck协议的lookup arguments处理非线性函数, 并实现了内存受限环境下的流式证明.

What Do LLMs Associate with Your Name? A Human-Centered Black-Box Audit of Personal Data

Dimitri Staufer, Kirsten Morehouse

cs.HC cs.AI cs.CL cs.CY

本文提出了一种名为LMP2的隐私审计工具, 用于以人为中心地评估大型语言模型(LLMs)如何将个人信息与特定姓名关联. 通过实证研究, 作者发现包括GPT-4o在内的多个模型能够以较高置信度生成普通用户的多种个人特征.

Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

Yichen Lu et al.

cs.CV cs.AI

本文提出了一种结合像素级坐标追踪与几何引导对比学习的图像复制检测方法. 该方法通过显式空间映射和基于重叠比的相似性正则化, 提升了模型对精细编辑的鲁棒性.

Computational Hardness of Private Coreset

Badih Ghazi et al.

cs.CG cs.CR cs.DS

本文研究了在差分隐私(DP)约束下计算$k$-means目标coreset的计算复杂性. 作者证明了在单向函数存在的假设下, 对于$\ell_\infty$度量空间中的$k$-means问题, 不存在多项式时间的$(\epsilon, 1/n^{\omega(1)})$-DP算法能计算一个具有常数近似因子$\alpha$的coreset, 即使对于$k=3$的情况. 对于欧几里得度量空间, 类似的不可能性结果在近似因子$\alpha = \Theta(1/d^2)$时成立.

Systematic Evaluation of Single-Cell Foundation Model Interpretability Reveals Attention Captures Co-Expression Rather Than Unique Regulatory Signal

Ihor Kendiukhov

q-bio.GN cs.AI

本文系统评估了单细胞基础模型的可解释性, 发现注意力机制主要捕获基因共表达模式而非独特的调控信号. 该框架为领域提供了可复用的质量控制标准.

Toward a Fully Autonomous, AI-Native Particle Accelerator

Chris Tennant

physics.acc-ph cs.AI

本文提出了一种构建完全自主、AI原生的粒子加速器的愿景, 主张通过AI协同设计来优化加速器整体性能与自主运行. 文章概述了实现这一目标所需的九个关键研究方向.

IRIS: Learning-Driven Task-Specific Cinema Robot Arm for Visuomotor Motion Control

Qilong Cheng, Matthew Mackay, Ali Bereyhi

cs.RO cs.LG

本文介绍了一种用于视觉运动控制的智能机器人摄像系统IRIS. 该系统采用3D打印硬件和基于模仿学习的控制框架, 能够从人类演示中学习平滑的相机轨迹, 降低了成本与操作复杂度.

Informative Trains: A Memory-Efficient Journey to a Self-Stabilizing Leader Election Algorithm in Anonymous Graphs

Lelia Blin, Sylvain Gay, Isabella Ziccardi

cs.DC cs.DS

本文提出了一种用于匿名网络的概率性自稳定领导者选举算法, 每个节点仅需 $O(\log \log n)$ 比特内存. 该算法在同步调度器下运行, 以高概率在 $O(\mathrm{poly}(n))$ 轮内收敛到具有唯一领导者的稳定配置.

genriesz: A Python Package for Automatic Debiased Machine Learning with Generalized Riesz Regression

Masahiro Kato

stat.ML cs.LG econ.EM math.ST stat.ME

本文介绍了一个名为genriesz的Python软件包, 它实现了基于广义Riesz回归的自动去偏机器学习. 该软件包为因果和结构参数的估计提供了一个模块化的框架, 支持多种估计器和模型类别.

Adaptive Decentralized Composite Optimization via Three-Operator Splitting

Xiaokai Chen, Ilya Kuruzov, Gesualdo Scutari

math.OC cs.LG cs.MA

本文针对具有局部光滑凸损失和非光滑凸扩展值项的分散式优化问题, 提出了一种基于三算子分裂的自适应步长调整方法. 该方法通过局部回溯和轻量级最小共识协议实现步长自适应, 并在凸性和强凸性假设下分别证明了次线性和线性收敛性.

Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

Minheng Chen et al.

q-bio.NC cs.AI cs.CV

本文提出了一种基于概率不变随机游走的框架, 用于对个体化的基于脑回折叠的皮层相似性网络进行分类, 无需显式的节点对齐. 该方法在阿尔茨海默病和路易体痴呆的大型临床队列上表现出优于现有模型的性能.

Conditional Flow Matching for Continuous Anomaly Detection in Autonomous Driving on a Manifold-Aware Spectral Space

Antonio Guillen-Perez

cs.RO cs.AI cs.LG

本文提出了一种用于自动驾驶连续异常检测的无监督框架Deep-Flow. 该方法在谱空间上利用条件流匹配来建模专家驾驶行为的概率密度, 并通过引入运动学复杂性加权来提升对高风险场景的检测能力.

Asymptotically Optimal Sequential Testing with Markovian Data

Alhad Sethi et al.

math.ST cs.LG stat.ML

本文研究了由遍历 Markov chain 生成数据的单边与 $\alpha$-正确序贯假设检验问题. 提出了一种渐近最优的检验方法, 其期望停止时间在 $\alpha \to 0$ 时与所建立的非渐近下界匹配.

Adapting Actively on the Fly: Relevance-Guided Online Meta-Learning with Latent Concepts for Geospatial Discovery

Jowaria Khan et al.

cs.CV cs.AI cs.CY cs.LG

本文提出了一个结合 active learning, online meta-learning 和 concept-guided reasoning 的统一框架，用于资源受限下的地理空间目标发现。该方法利用领域特定的概念（如土地覆盖）来引导采样和元学习更新，并在一个真实的 PFAS 污染数据集上进行了验证。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计

⭐ 精选论文

cs.LG

others

📄 所有论文

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others