bluearXiv-ai - 2026-03-04

📄 所有论文 ↑ 回顶部

cs.LG

Neural Paging: Learning Context Management Policies for Turing-Complete Agents ⭐ 精选

Liang Chen, Qi Liu

cs.LG cs.AI

本文提出了一种名为 Neural Paging 的层次化架构, 用于解决增强型大语言模型(LLM)中有限上下文窗口(Context Window)的管理瓶颈. 它将符号推理与信息资源管理解耦, 将上下文窗口建模为一个稀缺的语义缓存, 并引入了可微分的 Page Controller 来近似“语义Belady最优性”, 以保留具有高未来效用的token. 理论分析表明, 该方法能将长程推理的渐进复杂度从$O(N^2)$降低到$O(N \cdot K^2)$, 并提供了一个量化策略依赖访问下性能退化的鲁棒性界(Theorem 4).

Rigidity-Aware Geometric Pretraining for Protein Design and Conformational Ensembles ⭐ 精选

Zhanghan Ni et al.

cs.LG cs.AI

本文提出了 RigidSSL, 一个用于蛋白质设计的几何预训练框架. 该框架通过两个阶段学习蛋白质结构的几何先验: 第一阶段 (RigidSSL-Perturb) 从静态结构数据中学习, 第二阶段 (RigidSSL-MD) 从分子动力学轨迹中学习以捕获构象变化. 其核心是一个双向的、刚性感知的流匹配目标函数, 联合优化平移和旋转动力学以最大化构象间的互信息. 实验表明, 该方法显著提高了蛋白质设计的可设计性、新颖性和多样性, 并在零样本 motif scaffolding 和 G 蛋白偶联受体构象集合建模中取得了更好的效果.

From Complex Dynamics to DynFormer: Rethinking Transformers for PDEs ⭐ 精选

Pengyu Lai et al.

cs.LG cs.AI nlin.CD

本文提出了一种名为DynFormer的新型Transformer架构，用于求解偏微分方程(PDEs)。其核心创新在于借鉴复杂动力学的尺度分离思想，通过Spectral Embedding和Kronecker-structured attention机制高效处理低频全局模式，并利用Local-Global-Mixing模块通过非线性频率混合来隐式重建受大尺度状态约束的小尺度湍流。这种将物理动力学原理嵌入神经网络结构的设计，显著提升了长期预测的稳定性和计算效率，在多个基准测试中实现了误差和内存消耗的大幅降低。

RxnNano:Training Compact LLMs for Chemical Reaction and Retrosynthesis Prediction via Hierarchical Curriculum Learning

Ran Li et al.

cs.LG cs.AI

本文提出了一个名为RxnNano的统一框架，用于化学反应的预测与逆合成分析。该框架通过引入Latent Chemical Consistency目标、Hierarchical Cognitive Curriculum训练策略以及Atom-Map Permutation Invariance等创新，旨在将化学直觉知识注入模型，而非单纯扩大模型规模。其紧凑的0.5B参数模型在多个基准测试上超越了更大的模型和领域基线。

ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue

Ruike Cao et al.

cs.LG cs.AI

本文提出了一种用于多轮医疗对话的自适应树策略优化算法(ATPO), 通过不确定性感知的rollout预算分配和计算优化, 提升了大型语言模型在信息不完全场景下的诊断准确性. 实验表明该方法在多个基准上超越了现有基线.

Is Retraining-Free Enough? The Necessity of Router Calibration for Efficient MoE Compression

Sieun Hyeon, Jaeyoung Do

cs.LG cs.AI

本文探讨了无需重新训练的MoE模型压缩方法, 指出压缩后性能下降的主要原因是router与expert不匹配. 作者提出了一种仅微调router的轻量级校准方法Router KD, 并在多种压缩范式中验证了其有效性.

Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain

Wei Liu et al.

cs.LG cs.AI cs.CL cs.IT

本文探讨了基于大语言模型的自进化系统设计, 指出单纯的自对弈(self-play)容易因信息增益不足而停滞. 通过一个编码任务实验, 作者提出了一个包含提议者(Proposer)、求解者(Solver)和验证者(Verifier)的三元角色框架, 并讨论了非对称协同进化、能力增长和主动信息寻求等设计模块, 旨在实现可持续的自进化.

NExT-Guard: Training-Free Streaming Safeguard without Token-Level Labels

Junfeng Fang et al.

cs.LG cs.AI

本文提出了一种无需训练即可实现实时内容安全过滤的框架 NExT-Guard. 它利用预训练的稀疏自编码器从大语言模型的隐藏表示中提取可解释特征来监控风险, 避免了昂贵的词元级标注和监督训练.

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

Yixin Wang et al.

cs.LG cs.AI cs.CV

本文提出了一种名为TimeGS的新框架, 将时间序列预测问题重新定义为2D生成式渲染问题. 该方法通过将未来序列视为连续潜在表面, 并利用各向异性高斯核进行自适应建模, 以解决现有方法在拓扑匹配和分辨率适应性方面的不足.

MedFeat: Model-Aware and Explainability-Driven Feature Engineering with LLMs for Clinical Tabular Prediction

Zizheng Zhang et al.

cs.LG cs.AI

本文提出了一个名为MedFeat的框架, 它利用Large Language Models (LLMs)进行模型感知和可解释性驱动的特征工程, 用于临床表格数据预测. 该框架通过结合下游模型特性和SHAP值反馈来指导特征生成, 在多个临床预测任务上取得了稳定的性能提升.

MedCalc-Bench Doesn't Measure What You Think: A Benchmark Audit and the Case for Open-Book Evaluation

Artus Krohn-Grimberghe

cs.LG cs.AI

本文对MedCalc-Bench这一临床计算器任务基准进行了审计，发现其实现存在多处错误。研究通过简单的“开卷”提示方法显著提升了模型性能，并指出该基准主要衡量的是公式记忆而非临床推理。

Characterizing and Predicting Wildfire Evacuation Behavior: A Dual-Stage ML Approach

Sazzad Bin Bashar Polock, Anandi Dutta, Subasish Das

cs.LG cs.AI

本文结合无监督与监督机器学习方法, 分析了美国西部三州居民在野火中的疏散行为. 研究通过聚类分析识别出由车辆、宠物、资源等因素区分的潜在行为类型, 并利用监督模型预测疏散方式, 但对疏散时间的预测仍具挑战.

Subspace Geometry Governs Catastrophic Forgetting in Low-Rank Adaptation

Brady Steele

cs.LG

本文从梯度子空间相互作用的角度, 提出了一个描述 LoRA 在持续学习中灾难性遗忘的几何理论. 该理论表明遗忘主要由任务梯度子空间之间的最小主角度 $\theta_{\min}$ 决定, 并揭示了在高角度下遗忘近似与适配器秩无关的特性.

Scaling Reward Modeling without Human Supervision

Jingxuan Fan et al.

cs.LG

本文提出了一种无需人工标注的奖励模型扩展方法, 通过在大规模网络语料库上进行文档前缀与后缀的偏好学习来训练奖励模型. 该方法在多个基准测试中展现出稳定的性能提升, 并能有效迁移到不同模型架构和规模上, 为降低强化学习从人类反馈中的成本提供了可行性证明.

Efficient Sparse Selective-Update RNNs for Long-Range Sequence Modeling

Bojian Yin et al.

cs.LG

本文提出了一种称为 Selective-Update RNNs (suRNNs) 的循环神经网络架构，用于处理长序列数据。该模型通过学习神经元级别的二元开关，仅在信息丰富的事件发生时更新内部状态，从而提高了处理效率和长期记忆能力。

Routing Absorption in Sparse Attention: Why Random Gates Are Hard to Beat

Keston Aquino-Michaels

cs.LG cs.CL

本文研究了transformer中稀疏注意力机制的训练动态, 发现当稀疏注意力与模型参数进行端到端联合训练时, 模型的Q/K/V投影会与施加的注意力掩码(mask)发生协同适应(co-adaptation), 导致学习到的门控(gating)信号被"吸收", 其效果与使用固定的随机门控相差无几. 这种现象被称为"路由吸收"(routing absorption), 作者通过多个对照实验提供了证据, 并指出这种吸收压力与门控网络和主模型之间的参数量不对称性成正比.

Safety Training Persists Through Helpfulness Optimization in LLM Agents

Benjamin Plaut

cs.LG cs.CL

本文研究了在LLM智能体(agent)场景下的安全训练持续性. 通过比较单独或顺序进行安全性与有用性DPO训练的效果, 发现安全训练在后续的有用性训练中能够持续存在, 并且所有训练配置都接近一个线性的Pareto前沿.

Generalized Discrete Diffusion with Self-Correction

Linxuan Wang et al.

cs.LG cs.AI

本文提出了一种自校正离散扩散模型(SCDD), 通过显式的状态转移在离散时间中直接学习自校正, 简化了训练噪声调度并消除了冗余的重掩码步骤. 该方法在GPT-2规模上实现了更高效的并行解码, 同时保持了生成质量.

Physics-Informed Neural Networks with Architectural Physics Embedding for Large-Scale Wave Field Reconstruction

Huiwen Zhang, Feng Ye, Chu Ma

cs.LG cs.AI

本文提出了一种将物理信息嵌入神经网络架构的PINN变体, 用于大规模波场重建. 该方法通过设计新的包络变换层来缓解 spectral bias, 在收敛速度和内存使用上相比传统方法有显著提升.

Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

Amirhossein Afsharrad et al.

cs.LG cs.AI

本文提出了一个用于处理有序偏好反馈的奖励建模理论框架. 该方法将Likert尺度偏好建模为一个离散的有序回归问题, 并推导了相应的损失函数. 实验表明, 该方法在多个基准测试中取得了有竞争力的性能.

Adaptive Personalized Federated Learning via Multi-task Averaging of Kernel Mean Embeddings

Jean-Baptiste Fermanian, Batiste Le Bars, Aurélien Bellet

cs.LG cs.AI

本文提出了一种基于kernel mean embedding和multi-task averaging的自适应个性化联邦学习方法. 该方法通过数据驱动的方式学习协作权重, 无需预先指定数据异质性, 并能自动在全局和局部学习模式间切换. 理论分析给出了局部超额风险的有限样本保证, 并通过随机傅里叶特征实现了通信效率的权衡.

Structured vs. Unstructured Pruning: An Exponential Gap

Davide Ferré et al.

cs.LG cs.AI

本文研究了结构化剪枝(如neuron pruning)与非结构化剪枝(如weight pruning)在逼近单个ReLU神经元任务上的理论差异. 通过分析一个随机初始化的两层无偏置ReLU网络, 证明了结构化剪枝需要$\Omega(d/\varepsilon)$个隐藏神经元才能实现$\varepsilon$-逼近, 而非结构化剪枝仅需$O(d\log(1/\varepsilon))$个, 揭示了两者之间存在指数级差距.

Talking with Verifiers: Automatic Specification Generation for Neural Network Verification

Yizhak Y. Elboher et al.

cs.LG cs.AI cs.SE

本文提出了一种将自然语言描述的高层语义规范自动转换为神经网络验证工具可处理的低层形式化查询的方法. 该方法扩展了现有验证工具的适用范围, 使其能够处理更广泛的领域和规范类型.

CUDABench: Benchmarking LLMs for Text-to-CUDA Generation

Jiace Zhu et al.

cs.LG cs.AI

本文提出了一个名为CUDABench的基准测试，用于评估大型语言模型(LLM)从文本描述直接生成CUDA代码的能力。该基准包含一个覆盖多领域的测试集，并引入了一个结合编译、功能验证和性能评估的综合评分体系。

Concept Heterogeneity-aware Representation Steering

Laziz U. Abdullaev et al.

cs.LG cs.AI

本文提出了一种名为CHaRS的方法，用于改进大型语言模型在推理时的表示引导机制。该方法通过最优传输理论处理表示空间中的异构概念，从而生成依赖于输入的、更有效的引导方向。

Length Generalization Bounds for Transformers

Andy Yang et al.

cs.LG cs.FL cs.LO

本文研究了Transformer模型长度泛化边界的可计算性问题. 主要结论是, 对于一般的CRASP语言(与Transformer紧密相关), 其长度泛化边界是不可计算的, 而对于其正片段(等价于固定精度Transformer), 则存在可计算的指数级边界.

High-order Knowledge Based Network Controllability Robustness Prediction: A Hypergraph Neural Network Approach

Shibing Mo et al.

cs.LG cs.AI

本文提出了一种基于高阶知识的双超图注意力神经网络模型(NCR-HoK)来预测网络可控性鲁棒性曲线. 该方法通过编码节点特征, 构建包含高阶关系的超图, 并利用双超图注意力模块, 能够同时学习原始图的显式结构信息, 局部邻域的高阶连接信息以及嵌入空间中的隐藏特征.

Boosting Meta-Learning for Few-Shot Text Classification via Label-guided Distance Scaling

Yunlong Gao et al.

cs.LG cs.AI

本文提出了一种名为Label-guided Distance Scaling (LDS)的策略，用于提升元学习在少样本文本分类中的性能。该方法通过在训练和测试阶段都利用标签语义作为监督信号，来缓解因测试样本选择不当导致的误分类问题。

PRISM: Exploring Heterogeneous Pretrained EEG Foundation Model Transfer to Clinical Differential Diagnosis

Jeet Bandhu Lahiri et al.

cs.LG cs.AI

本文探讨了EEG foundation model在不同数据源预训练下的迁移性能, 重点比较了窄源与多样化数据预训练对下游临床诊断任务的影响. 研究发现, 多样化预训练在适应新任务时更具优势, 并揭示了当前benchmark评估中存在的一些系统性偏差.

Graph Attention Based Prioritization of Disease Responsible Genes from Multimodal Alzheimer's Network

Binon Teji, Subhajit Bandyopadhyay, Swarup Roy

cs.LG

本文提出了一种名为NETRA的多模态图transformer框架, 用于对疾病相关基因进行优先排序. 该框架整合了多种生物网络和表达数据, 通过注意力机制计算基因相关性得分, 在阿尔茨海默病案例中表现优于传统方法.

A Comparative Study of UMAP and Other Dimensionality Reduction Methods

Guanzhe Zhang, Shanshan Ding, Zhezhen Jin

cs.LG stat.AP stat.ML

本文对UMAP及其监督扩展版本与多种降维方法进行了系统的比较研究. 研究通过模拟和真实数据集评估了这些方法在分类和回归任务中的表现.

Temporal Imbalance of Positive and Negative Supervision in Class-Incremental Learning

Jinge Ma, Fengqing Zhu

cs.LG cs.AI

本文提出了一种新的视角来分析 Class-Incremental Learning (CIL) 中的预测偏差问题, 即时间不平衡 (temporal imbalance). 作者设计了 Temporal-Adjusted Loss (TAL) 来动态调整负监督的权重, 并在多个基准测试上验证了其有效性.

Quantum-Inspired Fine-Tuning for Few-Shot AIGC Detection via Phase-Structured Reparameterization

Kaiyang Xing et al.

cs.LG cs.AI quant-ph

本文提出了一种名为Q-LoRA的量子启发的微调方案，它将轻量级量子神经网络集成到LoRA适配器中，以提升少样本AIGC检测的性能。进一步地，作者引入了一个完全经典的变体H-LoRA，通过Hilbert变换来模拟量子结构中的相位信息，从而以更低的成本实现了可比的性能提升。

The Malignant Tail: Spectral Segregation of Label Noise in Over-Parameterized Networks

Zice Wang

cs.LG cs.AI

本文研究了过参数化神经网络在标签噪声下的泛化行为, 提出了"恶性尾部"的概念来描述信号与噪声在频谱上的分离现象. 通过实验表明, SGD训练会隐式地将随机标签噪声偏置到高频正交子空间, 而事后显式谱截断可以恢复模型潜在的泛化能力.

Preconditioned Score and Flow Matching

Shadab Ahamed et al.

cs.LG cs.AI cs.CV

本文研究了flow matching和score-based diffusion模型中向量场训练的优化偏差问题. 作者提出了一种可逆的、标签条件的预条件映射来改善中间分布$p_t$的几何结构, 从而避免优化停滞.

Diffusion-MPC in Discrete Domains: Feasibility Constraints, Horizon Effects, and Critic Alignment: Case study with Tetris

Haochuan Kevin Wang

cs.LG cs.AI cs.RO

本文以Tetris为案例, 研究了在离散组合域中基于diffusion的模型预测控制(Diffusion-MPC). 它分析了可行性约束采样、重排序策略以及计算规模对规划性能的影响, 指出了在离散环境中扩散规划器面临的结构性挑战.

Learning graph topology from metapopulation epidemic encoder-decoder

Xin Li et al.

cs.LG

本文提出了一种基于encoder-decoder深度学习架构的方法，用于从流行病时间序列数据中推断metapopulation模型的移动网络拓扑。该方法能够在已知或未知流行病参数的情况下进行推断，并在多种网络上表现优于现有技术。

Learning Optimal Search Strategies

Stefan Ankirchner, Maximilian Philipp Thiel

cs.LG math.PR

本文研究了一个泊松过程下的停车问题, 提出了一种通过估计累积跳变强度来学习最优阈值策略的算法. 该算法在广泛的环境类上实现了对数级遗憾增长, 并被证明是极小极大最优的.

Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation

Wang, Pengkun Yang, Lili Su

cs.LG

本文研究了多智能体平均奖励TD学习中的个性化问题, 提出了一种基于共享线性表示的联合学习方法. 该方法通过估计一个公共子空间和局部权重来过滤冲突信号, 并在实验中展示了利用共享结构进行学习的好处.

Dimension-Independent Convergence of Underdamped Langevin Monte Carlo in KL Divergence

Shiyuan Zhang et al.

cs.LG math.OC stat.ML

本文针对Underdamped Langevin Monte Carlo (ULMC)在KL散度下的收敛性进行了分析。作者证明了首个与维度无关的KL散度收敛界，其界依赖于Hessian的迹而非环境维度$d$。

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

Logan Frank, Jim Davis

cs.LG cs.CV

本文对知识蒸馏中温度参数的选择进行了系统性研究, 探讨了其与优化器、教师模型预训练/微调等训练组件的交互关系. 研究识别了影响温度选择的关键情境, 为实践者提供了指导.

Using the SEKF to Transfer NN Models of Dynamical Systems with Limited Data

Joshua E. Hammond et al.

cs.LG

本文提出使用 Subset Extended Kalman Filter (SEKF) 来迁移预训练的神经网络模型, 以解决动态系统建模中数据不足的问题. 实验表明, 该方法能以极少的额外数据(如1%)和计算成本, 将模型适配到相似的新系统上.

Spectral Regularization for Diffusion Models

Satish Chandran et al.

cs.LG

本文提出了一种用于扩散模型的光谱正则化框架, 通过在训练损失中引入可微的 Fourier 域和小波域损失来增强标准训练, 而无需修改扩散过程, 模型架构或采样过程. 该方法在图像和音频生成任务上能一致地提升样本质量.

Manifold Aware Denoising Score Matching (MAD)

Alona Levy-Jurgenson et al.

cs.LG cs.AI stat.ML

本文提出了一种名为MAD的方法, 通过将score function分解为已知的$s^{base}$和待学习的剩余部分, 在环境空间中隐式地考虑流形结构, 从而简化了流形上分布的学习. 该方法在旋转矩阵和离散分布等案例中展示了其效用.

Can Computational Reducibility Lead to Transferable Models for Graph Combinatorial Optimization?

Semih Cantürk et al.

cs.LG cs.AI

本文提出了一种基于GCON模块和能量无监督损失的图神经网络模型, 用于解决多种图组合优化问题. 通过利用计算可约性文献中的知识, 作者设计了预训练和微调策略, 在多个任务间实现了有效的知识迁移, 并观察到了正向迁移效应.

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Zhongxi Wang et al.

cs.LG cs.CL cs.CV cs.SD eess.AS

本文提出了一个名为MUSE的多模态统一安全评估平台, 用于系统性地测试大型语言模型在文本、音频、图像和视频输入上的安全对齐泛化能力. 该平台集成了自动跨模态载荷生成、多轮攻击算法和双指标评估框架, 实验表明多轮攻击策略能有效提升攻击成功率, 而跨模态切换的影响则因模型而异.

What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty

Aran Nayebi

cs.LG cs.AI cs.RO q-bio.NC stat.ML

本文探讨了智能体在不确定性下进行稳健决策所需的内部表示结构. 通过证明定量的"选择定理", 表明在结构化任务族上实现低平均遗憾会迫使智能体拥有预测性的内部状态.

ParEVO: Synthesizing Code for Irregular Data: High-Performance Parallelism through Agentic Evolution

Liu Yang et al.

cs.LG cs.DC cs.NE cs.PF

本文提出了ParEVO框架, 用于为不规则数据结构合成高性能并行代码. 它通过构建专门的指令数据集、微调大语言模型以及使用进化代理迭代修复代码, 显著提升了生成代码的性能与正确性.

Thermodynamic Regulation of Finite-Time Gibbs Training in Energy-Based Models: A Restricted Boltzmann Machine Study

Görkem Can Süleymanoğlu

cs.LG

本文研究了受限玻尔兹曼机(RBM)在有限时间Gibbs采样训练中的不稳定性问题. 作者提出了一种内生的热力学调控框架, 通过将温度作为动态状态变量来改善训练的稳定性.

Bridging Diffusion Guidance and Anderson Acceleration via Hopfield Dynamics

Kwanyoung Kim

cs.LG cs.AI

本文通过将attention-space extrapolation建模为Modern Hopfield Networks中的fixed-point iteration，揭示了其与Anderson Acceleration的联系。基于此，作者提出了一种新的Geometry Aware Attention Guidance (GAG)方法，旨在稳定加速过程并提升生成质量。

EdgeFLow: Serverless Federated Learning via Sequential Model Migration in Edge Networks

Yuchen Shi et al.

cs.LG

本文提出了一种名为EdgeFLow的新型Federated Learning框架, 它通过用边缘基站间的顺序模型迁移取代传统云服务器来重构系统拓扑. 该框架在非凸目标和非IID数据下进行了收敛性分析, 实验表明其在保证精度的同时显著降低了通信开销.

Wasserstein Proximal Policy Gradient

Zhaoyu Zhu et al.

cs.LG

本文从Wasserstein几何的角度研究连续动作、熵正则化的强化学习策略梯度方法. 该方法避免了评估策略的对数密度或其梯度, 可直接应用于由前向映射指定的隐式随机策略.

Towards Parameter-Free Temporal Difference Learning

Yunxiang Li et al.

cs.LG

本文提出了一种使用指数步长调度的TD(0)算法，旨在减少对问题相关参数的依赖。在i.i.d.采样和Markovian采样两种设置下，该方法分别实现了最优的偏差-方差权衡或可比的收敛速率，且无需预知混合时间或特征协方差矩阵的最小特征值等参数。

Joint Optimization of Model Partitioning and Resource Allocation for Anti-Jamming Collaborative Inference Systems

Mengru Wu et al.

cs.LG eess.SY

本文研究了抗干扰协作推理系统中模型划分与资源分配的联合优化问题. 通过交替优化算法求解混合整数非线性规划问题, 以最大化系统在延迟与精度方面的收益.

Heterogeneous Agent Collaborative Reinforcement Learning

Zhixia Zhang et al.

cs.LG

本文提出了一种名为HACRL的异构智能体协作强化学习新范式，旨在解决孤立策略优化效率低下的问题。该范式允许智能体在训练时共享经验轨迹以相互提升，同时在执行时保持独立。基于此，作者进一步设计了HACPO算法，通过引入多种机制来最大化样本利用和知识迁移，并在多个基准测试中验证了其有效性。

Real-Time Generative Policy via Langevin-Guided Flow Matching for Autonomous Driving

Tianze Zhu et al.

cs.LG cs.RO

本文提出了一种名为DACER-F的强化学习算法, 通过将flow matching引入在线强化学习, 实现了在单步推理中生成高质量动作. 该方法在自动驾驶仿真和标准基准测试中表现出优越的性能和极低的推理延迟.

Same Error, Different Function: The Optimizer as an Implicit Prior in Financial Time Series

Federico Vittorio Cortesi et al.

cs.LG q-fin.CP

本文探讨了神经网络在金融时间序列预测中面临的欠确定性问题。研究发现，即使测试损失相同，不同的训练流程也会学习到功能迥异的预测函数，这对实际投资决策产生了显著影响。

Implicit Bias in Deep Linear Discriminant Analysis

Jiawen Li

cs.LG stat.ML

本文分析了Deep LDA目标函数在深度线性网络中的隐式正则化效应。研究发现，在特定初始化条件下，网络结构会导致权重的乘法更新，并自动保持一个准范数。

Post Hoc Extraction of Pareto Fronts for Continuous Control

Raghav Thakar, Gaurav Dixit, Kagan Tumer

cs.LG

本文提出了一种离线多目标强化学习方法 MAPEX, 它能够利用预训练的单目标专家策略来构建 Pareto front, 从而显著降低样本成本. 该方法在多个 MuJoCo 环境中验证了其有效性.

MASPOB: Bandit-Based Prompt Optimization for Multi-Agent Systems with Graph Neural Networks

Zhi Hong et al.

cs.LG cs.AI

本文提出了一种基于bandit的prompt优化框架MASPOB, 用于提升多智能体系统(LLM-based)的性能. 该框架结合了UCB策略, Graph Neural Networks和坐标上升法, 以应对评估成本高, 拓扑耦合和搜索空间组合爆炸等挑战.

Robust Heterogeneous Analog-Digital Computing for Mixture-of-Experts Models with Theoretical Generalization Guarantees

Mohammed Nowaz Rabbani Chowdhury et al.

cs.LG cs.AI

本文提出了一种无需重新训练的异构计算框架, 用于在存在硬件非理想性的模拟内存计算(AIMC)上部署稀疏混合专家(MoE)模型. 该框架通过理论分析识别出对噪声敏感的专家模块, 将其分配给数字计算单元执行, 从而在保持模型精度的同时提高了推理效率.

SaFeR-ToolKit: Structured Reasoning via Virtual Tool Calling for Multimodal Safety

Zixuan Xu et al.

cs.LG

本文提出了SaFeR-ToolKit，一个通过结构化工具调用进行安全推理的框架，用于提升视觉语言模型的安全性。该方法将安全决策过程形式化为一个可检查的协议，并通过多阶段课程训练一个单一策略来确保协议被遵循。实验表明，该方法在多个模型规模上显著提高了安全性、帮助性和推理严谨性，同时保持了通用能力。

HomeAdam: Adam and AdamW Algorithms Sometimes Go Home to Obtain Better Provable Generalization

Feihu Huang, Guanyi Zhang, Songcan Chen

cs.LG math.OC stat.ML

本文提出了一种名为HomeAdam(W)的优化算法, 通过有时返回到基于momentum的SGD来改进Adam和AdamW的泛化性能. 理论分析表明, 新算法在泛化误差和收敛速率上均优于原算法, 并通过实验验证了其有效性.

Improving Diffusion Planners by Self-Supervised Action Gating with Energies

Yuan Lu et al.

cs.LG cs.AI cs.RO

本文提出了一种名为SAGE的推理时重排序方法, 用于改进扩散规划器在离线强化学习中的执行鲁棒性. 该方法通过训练一个JEPA编码器和潜在预测器来评估候选动作序列的动态一致性, 并结合价值估计进行选择, 无需环境交互或策略重训练.

From Shallow to Deep: Pinning Semantic Intent via Causal GRPO

Shuyi Zhou et al.

cs.LG

本文提出了一种名为TSC-GRPO的框架，旨在解决大语言模型在对抗性前缀攻击下的脆弱性问题。该方法通过因果意图探测和策略优化来增强模型的安全性。

Causal Learning Should Embrace the Wisdom of the Crowd

Ryan Feng Lin et al.

cs.LG cs.ET cs.HC stat.ME stat.ML

本文提出了一种新的因果学习范式, 主张整合众包平台、专家知识建模、鲁棒聚合技术以及基于大语言模型(LLM)的模拟, 以利用分散的、不完美的人类因果知识来学习因果有向无环图(DAG). 作者将问题框架为分布式决策任务, 并概述了一个系统性的综合框架.

Addressing Missing and Noisy Modalities in One Solution: Unified Modality-Quality Framework for Low-quality Multimodal Data

Sijie Mai, Shiqin Han, Haifeng Hu

cs.LG

本文提出了一个统一的模态-质量(UMQ)框架来处理多模态数据中的缺失和噪声问题。该框架通过质量估计器和增强器来提升低质量模态的表征，并在多个数据集上展示了优于现有方法的性能。

An Empirical Analysis of Calibration and Selective Prediction in Multimodal Clinical Condition Classification

L. Julián Lechuga López, Farah E. Shamout, Tim G. J. Rudner

cs.LG

本文通过实证分析, 评估了基于不确定性的选择性预测(selective prediction)在多标签临床条件分类任务中的可靠性. 研究发现, 尽管模型在标准评估指标上表现良好, 但选择性预测的性能可能显著下降, 这主要是由严重的类别依赖性校准错误(class-dependent miscalibration)导致的.

The power of small initialization in noisy low-tubal-rank tensor recovery

ZHiyu Liu et al.

cs.LG math.OC stat.ML

本文研究了在t-product框架下从含噪线性测量中恢复低tubal-rank张量的问题. 针对过参数化场景, 作者证明了使用小初始化而非谱初始化的因子化梯度下降(FGD)方法, 能够获得与过估计秩$R$无关的、近乎极小极大最优的恢复误差.

Practical FP4 Training for Large-Scale MoE Models on Hopper GPUs

Wuyue Zhang et al.

cs.LG cs.AI

本文提出了一种在Hopper架构GPU上实现FP4训练的方法, 用于大规模Mixture-of-Experts (MoE) 模型. 该方法通过软件层面的优化, 在不支持原生4位计算的硬件上实现了接近FP8的性能, 同时显著降低了内存占用和通信开销.

Deep learning-guided evolutionary optimization for protein design

Erik Hartman, Di Tang, Johan Malmström

cs.LG q-bio.QM stat.ML

本文提出了一种结合进化搜索与贝叶斯优化的框架BoGA, 用于高效探索蛋白质序列空间以进行蛋白质设计. 该方法通过将遗传算法作为代理模型循环中的随机提议生成器, 实现了数据高效的优化, 并在设计针对肺炎链球菌毒力因子的肽结合物等任务中展示了其效用.

Rethinking Time Series Domain Generalization via Structure-Stratified Calibration

Jinyang Li et al.

cs.LG

本文针对时间序列领域泛化问题, 提出了一种结构分层校准框架. 该方法通过区分结构一致的样本并在兼容的簇内进行校准, 以缓解结构异质性导致的泛化失败, 在多个数据集上取得了优于基线模型的效果.

Next Embedding Prediction Makes World Models Stronger

George Bredis et al.

cs.LG cs.AI

本文提出了一种免解码器的基于模型的强化学习(MBRL)代理NE-Dreamer, 它通过时序transformer预测下一步的编码器嵌入(embedding). 该方法在DeepMind Control Suite和DMLab任务上取得了有竞争力的性能.

From Heuristic Selection to Automated Algorithm Design: LLMs Benefit from Strong Priors

Qi Huang et al.

cs.LG cs.NE

本文探讨了在自动算法设计中利用高质量先验知识对大型语言模型(LLM)性能的影响. 研究发现, 提供优质的算法代码示例可以显著提升LLM在优化任务中的表现, 并在两个黑盒优化基准测试上验证了该方法的有效性.

The Price of Robustness: Stable Classifiers Need Overparameterization

Jonas von Berg et al.

cs.LG

本文研究了分类器中过参数化与稳定性之间的关系, 并提出了一个基于决策边界距离的稳定性度量. 理论分析表明, 要达到高稳定性需要显著的过参数化, 实验也验证了稳定性随模型规模增加而提升.

Lattice-based Deep Neural Networks: Regularity and Tailored Regularization

Alexander Keller et al.

cs.LG math.NA

本文是一篇综述性文章, 探讨了将 lattice rules (一种拟蒙特卡洛方法) 应用于深度神经网络 (DNNs) 的理论与数值实践. 文章回顾了作者先前的工作, 即使用 lattice points 作为训练点, 并通过对网络参数施加与目标函数正则性相匹配的限制, 证明了 DNNs 可以获得与输入维度无关的泛化误差界. 数值实验表明, 这种量身定制的正则化方法优于标准的 $\ell_2$ 正则化.

Adapting Time Series Foundation Models through Data Mixtures

Thomas L. Lee, Edoardo M. Ponti, Amos Storkey

cs.LG stat.ML

本文提出了一种名为MixFT的方法, 用于改进时间序列基础模型(TSFMs)在零样本预测任务上的性能. 该方法通过贝叶斯混合(Bayesian mixtures)对相关数据集进行重新划分, 以识别数据中的子领域(sub-domains), 并针对每个更同质的子集进行独立的微调.

Learning Memory-Enhanced Improvement Heuristics for Flexible Job Shop Scheduling

Jiaqi Wang et al.

cs.LG cs.AI

本文提出了一个名为MIStar的框架, 用于解决柔性作业车间调度问题(FJSP). 该框架结合了异构图表示和记忆增强的图神经网络, 并通过并行贪婪搜索策略来改进初始解. 实验表明, MIStar在合成数据和公共基准测试上优于传统启发式方法和基于深度强化学习的构造方法.

Learning in Markov Decision Processes with Exogenous Dynamics

Davide Maran, Davide Salaorni, Marcello Restelli

cs.LG

本文研究了具有外生动态的Markov Decision Processes (MDPs), 其中部分状态变量独立于智能体的动作而演化. 通过利用这种结构, 作者改进了学习保证, 使得遗憾边界主要依赖于外生状态空间的大小, 并提供了匹配的下界.

Embedding interpretable $\ell_1$-regression into neural networks for uncovering temporal structure in cell imaging

Fabian Kabus et al.

cs.LG

本文提出了一种将可解释的$\ell_1$回归嵌入神经网络的方法，用于从细胞成像数据中提取稀疏的时间结构。该方法结合了卷积自编码器和向量自回归模型，并通过跳过连接分离静态空间信息。

Distributed Dynamic Invariant Causal Prediction in Environmental Time Series

Ziruo Hao et al.

cs.LG

本文提出了一种名为DisDy-ICPT的分布式框架，用于从带有环境属性的时间序列数据中学习动态的、不变的因果关系。该方法无需数据通信即可处理空间混杂变量，并在理论和实验上验证了其有效性。

Towards Accurate and Interpretable Time-series Forecasting: A Polynomial Learning Approach

Bo Liu et al.

cs.LG stat.ME

本文提出了一种可解释的多项式学习(IPL)方法用于时间序列预测. 该方法通过多项式表示显式建模原始特征及其任意阶交互, 旨在同时实现高预测精度和特征级可解释性.

Eliciting Numerical Predictive Distributions of LLMs Without Autoregression

Julianna Piskorz, Katarzyna Kobalczyk, Mihaela van der Schaar

cs.LG cs.AI

本文提出了一种无需自回归解码即可从LLM内部表示中提取数值预测分布的方法. 通过训练回归探针来直接预测输出分布的统计泛函, 研究表明LLM的嵌入编码了预测分布的关键信息, 为轻量化的不确定性感知预测提供了可能.

On the Structural Limitations of Weight-Based Neural Adaptation and the Role of Reversible Behavioral Learning

Pardhu Sri Rushi Varma Konduru

cs.LG cs.AI

本文探讨了基于权重共享的神经网络适应方法的结构性局限, 提出了"结构不可逆性"的概念, 并引入了一种可逆的行为学习框架. 该框架通过将行为与身份参数解耦, 实现了对模型行为的确定性卸载与恢复.

Contextual Latent World Models for Offline Meta Reinforcement Learning

Mohammadreza Nakheai et al.

cs.LG

本文提出了一种结合context encoder与latent world model的方法, 用于提升离线元强化学习中任务表征的学习效果. 该方法在多个基准测试中展现出了更好的泛化性能.

Beyond One-Size-Fits-All: Adaptive Subgraph Denoising for Zero-Shot Graph Learning with Large Language Models

Fengzhi Li et al.

cs.LG cs.AI

本文提出了一种名为GraphSSR的自适应子图去噪框架, 用于改进基于大语言模型(LLM)的零样本图学习. 该方法通过"采样-选择-推理"(SSR)流程动态提取与任务相关的子图, 并利用合成数据进行监督微调以及强化学习来优化这一过程, 以减少结构噪声对LLM推理的干扰.

Enhancing Physics-Informed Neural Networks with Domain-aware Fourier Features: Towards Improved Performance and Interpretable Results

Alberto Miño Calero, Luis Salamanca, Konstantinos E. Tatsis

cs.LG cs.AI cs.CE cs.NE

本文提出了一种结合Domain-aware Fourier Features (DaFFs)的PINNs改进方法，以简化训练并提升性能。该方法还引入了基于LRP的解释性框架来分析模型输入的重要性。

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Zhenquan Yao et al.

cs.LG cs.CV

本文提出了一个用于持续GUI学习的CGL框架, 通过引入基于策略熵的SFT比例调整机制和专门的梯度手术策略, 动态平衡监督微调与强化学习, 以缓解灾难性遗忘. 实验在一个新构建的AndroidControl-CL基准上验证了其有效性.

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Kohki Akiba et al.

cs.LG cs.CV

本文提出了一种轻量级框架, 将来自标签比例学习(LLP)的Proportion Loss作为正则项引入半监督学习(SSL), 以缓解类别不平衡问题. 该方法通过使模型预测与全局类别分布对齐来减轻偏差, 并在Long-tailed CIFAR-10基准测试中取得了改进.

Integrating Homomorphic Encryption and Synthetic Data in FL for Privacy and Learning Quality

Yenan Wang, Carla Fabiana Chiasserini, Elad Michael Schiller

cs.LG

本文提出了一种名为Alt-FL的联邦学习方法，通过交替使用真实数据和合成数据进行本地训练，并结合同态加密来平衡隐私保护与计算开销。该方法在提升模型精度的同时，降低了加密相关的成本。

LAGO: A Local-Global Optimization Framework Combining Trust Region Methods and Bayesian Optimization

Eliott Van Dieren, Tommaso Vanzan, Fabio Nobile

cs.LG math.OC

本文提出了一种结合梯度增强贝叶斯优化与基于梯度的信赖域局部优化的混合算法LAGO. 该算法通过一种自适应竞争机制, 在每次迭代中独立生成全局和局部候选点, 并根据预测改进进行选择, 旨在平衡全局探索与局部收敛.

On the Topology of Neural Network Superlevel Sets

Bahman Gharesifard

cs.LG math.OC

本文研究了满足特定ODE条件的神经网络激活函数, 证明了其输出是Pfaffian的. 这一性质使得网络超水平集和向量场Lie bracket秩降点的拓扑复杂度(如Betti数)仅由网络架构决定, 与权重无关.

Why Does RLAIF Work At All?

Robin Young

cs.LG cs.AI

本文提出了一个关于RLAIF(从AI反馈中进行强化学习)为何有效的理论解释, 即潜在价值假说. 该假说认为预训练在表示空间中编码了人类价值方向, 而宪法提示可以激活这些方向用于偏好判断.

Breaking the Prototype Bias Loop: Confidence-Aware Federated Contrastive Learning for Highly Imbalanced Clients

Tian-Shuang Wu et al.

cs.LG cs.DC

本文提出了一种名为CAFedCL的置信感知联邦对比学习框架, 旨在解决联邦学习中因客户端数据类别高度不平衡和异构性导致的"原型偏差循环"问题. 该方法通过置信感知聚合、生成式增强和几何一致性正则化来改进原型质量和对比学习对齐, 并在实验中展示了优于基线方法的性能.

SEHFS: Structural Entropy-Guided High-Order Correlation Learning for Multi-View Multi-Label Feature Selection

Cheng Peng et al.

cs.LG

本文提出了一种名为SEHFS的新方法, 用于多视图多标签特征选择. 该方法利用结构熵(Structural Entropy)来学习特征间的高阶相关性, 并通过融合信息论与矩阵方法优化特征选择过程.

Step-Level Sparse Autoencoder for Reasoning Process Interpretation

Xuan Yang et al.

cs.LG

本文提出了一种用于分析大型语言模型推理过程的 step-level sparse autoencoder (SSAE). 该方法通过控制 step feature 的稀疏性, 在 step reconstruction 中形成 information bottleneck, 从而将推理步骤中的增量信息与背景信息分离. 实验表明, 提取出的稀疏特征可以用于预测推理步骤的表面属性和复杂属性, 如正确性和逻辑性.

cPNN: Continuous Progressive Neural Networks for Evolving Streaming Time Series

Federico Giannini, Giacomo Ziffer, Emanuele Della Valle

cs.LG cs.AI

本文提出了一种名为cPNN的连续渐进神经网络, 用于处理具有概念漂移和时间依赖性的流式时间序列数据. 该方法基于循环神经网络和随机梯度下降, 旨在同时解决概念漂移、时间依赖和灾难性遗忘问题.

IoUCert: Robustness Verification for Anchor-based Object Detectors

Benedikt Brückner et al.

cs.LG cs.AI cs.CR cs.CV

本文提出了IoUCert, 一个针对基于anchor的目标检测器的鲁棒性验证框架. 该方法通过一种坐标变换和新的Interval Bound Propagation, 首次实现了对SSD, YOLOv2等实际模型的验证.

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

Marko Pranjić et al.

cs.LG cs.CL

本文提出了一种用于文本谱聚类的增量式$k$-NN图构建方法，该方法能保证图的连通性。实验表明，该方法在低$k$值下优于标准方法，并在多个文本数据集上进行了验证。

Reinforcement Learning with Symbolic Reward Machines

Thomas Krug, Daniel Neider

cs.LG cs.AI

本文提出了Symbolic Reward Machines (SRMs)及其学习算法QSRM和LSRM, 以克服传统Reward Machines (RMs)对人工定义标签的依赖. SRMs直接处理环境观测, 使用符号公式作为守卫(guards)来生成奖励, 在保持性能的同时提高了方法的通用性和可解释性.

On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions

Linyan Gu, Lihua Yang, Feng Zhou

cs.LG cs.AI

本文探讨了Transformer架构的表达能力. 通过建立Transformer网络对maxout网络的显式逼近, 证明了其在复杂度约束下具有与ReLU网络类似的通用逼近能力.

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

Ruinan Jin, Yingbin Liang, Shaofeng Zou

cs.LG cs.AI

本文分析了Adam优化器中的二阶矩归一化机制, 并基于停时/鞅分析, 在经典有界方差模型下, 从理论上区分了Adam与SGD的高概率收敛行为.

Multi-Scale Adaptive Neighborhood Awareness Transformer For Graph Fraud Detection

Jiaqi Lv et al.

cs.LG cs.AI

本文提出了一种用于图欺诈检测的多尺度自适应邻域感知Transformer模型(MANDATE). 该模型通过多尺度位置编码和针对同配/异配连接的嵌入策略, 旨在缓解传统图神经网络(GNNs)的归纳偏置问题, 并在多个数据集上验证了其有效性.

Joint Training Across Multiple Activation Sparsity Regimes

Haotian Wang

cs.LG cs.AI

本文提出了一种通过联合训练模型在多种激活稀疏性机制下来提升泛化能力的方法. 实验表明, 该策略在CIFAR-10数据集上优于标准的密集训练基线.

Torus embeddings

Dan Stowell

cs.LG

本文提出了一种在深度学习框架中创建具有环面拓扑结构的数据表示的方法. 该方法通过简单的归一化策略实现, 其训练稳定性和性能与标准的超球面归一化相当, 并保持了良好的量化特性.

Information Routing in Atomistic Foundation Models: How Equivariance Creates Linearly Disentangled Representations

Joshua Steier

cs.LG cs.AI physics.chem-ph

本文提出了一种称为Composition Projection Decomposition (CPD)的分析方法, 用于探究原子尺度基础模型中间表示的信息组织方式. 该方法通过QR投影线性移除表示中的成分信号, 并探测几何残差, 发现在不同架构的模型中存在解缠结梯度.

Less Noise, Same Certificate: Retain Sensitivity for Unlearning

Carolin Heinzler, Kasra Malihi, Amartya Sanyal

cs.LG

本文针对certified machine unlearning问题，指出基于Differential Privacy全局敏感性的方法过于保守。作者提出了retain sensitivity的概念，通过固定保留数据集$R$来降低所需噪声，并在多个问题中验证了其有效性。

Understanding and Mitigating Dataset Corruption in LLM Steering

Cullen Anderson et al.

cs.LG cs.AI cs.CL

本文研究了在LLM引导中使用的对比引导方法对训练数据损坏的鲁棒性. 作者发现该方法对适度损坏具有鲁棒性, 但恶意数据污染会引发副作用, 并提出使用鲁棒均值估计器作为缓解措施.

I-CAM-UV: Integrating Causal Graphs over Non-Identical Variable Sets Using Causal Additive Models with Unobserved Variables

Hirofumi Suzuki et al.

cs.LG

本文提出了一种名为I-CAM-UV的方法，用于整合来自不同变量集数据集的因果发现结果。该方法利用CAM-UV模型处理未观测变量，并通过枚举所有结构一致的因果图来构建统一的因果图。

Stabilized Adaptive Loss and Residual-Based Collocation for Physics-Informed Neural Networks

Divyavardhan Singh et al.

cs.LG cs.AI

本文针对传统PINNs在处理高刚度或激波主导问题时存在的训练不平衡与解不准确问题, 提出了一种结合平滑梯度范数的自适应损失平衡方案和一种基于残差的自适应配置点方案. 该方法在低粘度Burgers方程和Allen-Cahn方程上显著降低了相对L2误差.

Adaptive Methods Are Preferable in High Privacy Settings: An SDE Perspective

Enea Monzio Compagnoni et al.

cs.LG cs.CR

本文从 stochastic differential equations (SDE) 的视角分析了 differential privacy (DP) 噪声与优化算法自适应性的交互。研究表明，在固定超参数下，DP-SignSGD 在高隐私或大批量噪声场景下优于 DP-SGD，而通过最优学习率调整，两者能达到相近的渐近性能，但自适应方法（如 DP-SignSGD 和 DP-Adam）的超参数对隐私级别 $\varepsilon$ 的依赖性更小，因而更具实用性。

Coalgebras for categorical deep learning: Representability and universal approximation

Dragan Mašulović

cs.LG

本文为范畴深度学习(CDL)建立了余代数基础, 用于处理等变表示. 它证明了在将数据集嵌入向量空间后, 其上的不变行为可以通过提升的函子来捕捉, 并在此框架下建立了广义等变映射的通用逼近定理.

Inverse Reconstruction of Shock Time Series from Shock Response Spectrum Curves using Machine Learning

Adam Watts et al.

cs.LG eess.SP

本文提出了一种基于条件变分自编码器(CVAE)的机器学习方法, 用于从冲击响应谱(SRS)曲线逆向重构时域加速度信号. 该方法避免了传统迭代优化过程, 在保证谱保真度的同时实现了更快的推理速度.

SynthCharge: An Electric Vehicle Routing Instance Generator with Feasibility Screening to Enable Learning-Based Optimization and Benchmarking

Mertcan Daysalilar et al.

cs.LG cs.AI

本文提出了一个名为SynthCharge的参数化生成器, 用于创建经过可行性筛选的EVRPTW (带时间窗的电动汽车路径问题) 算例. 该工具旨在为基于学习的路径优化模型提供动态、可扩展的基准测试基础设施.

Guiding Sparse Neural Networks with Neurobiological Principles to Elicit Biologically Plausible Representations

Patrick Inoue, Florian Röhrbein, Andreas Knoblauch

cs.LG

本文提出了一种受神经生物学启发的学习规则, 它自然地整合了稀疏性, lognormal权重分布和Dale's law等原则. 该模型在对抗攻击鲁棒性和少样本学习泛化方面表现出优势, 并能产生生物学上合理的神经表征.

On Geometry Regularization in Autoencoder Reduced-Order Models with Latent Neural ODE Dynamics

Mikhail Osipov

cs.LG math.NA physics.comp-ph

本文研究了在具有神经ODE潜在动力学的自编码器降阶模型中, 对学习到的潜在表示进行几何正则化的策略. 通过一个固定的平流-扩散-反应方程实验设置, 评估了四种在自编码器预训练阶段应用的正则化方法, 发现其中三种方法虽然改善了局部解码器平滑度, 但可能使后续的潜在动力学训练更加困难.

Speculative Speculative Decoding

Tanishq Kumar, Tri Dao, Avner May

cs.LG

本文提出了一种名为 speculative speculative decoding (SSD) 的新方法, 旨在通过并行化 draft 和 verification 步骤来进一步加速大语言模型的推理过程. 该方法通过预测 verification 的结果并提前准备候选 tokens, 在特定情况下可以完全消除 drafting 的开销.

Learning Demographic-Conditioned Mobility Trajectories with Aggregate Supervision

Jessie Z. Li et al.

cs.LG

本文提出了一种名为ATLAS的弱监督方法, 用于生成与人口统计特征(如年龄, 性别等)相关联的人类移动轨迹. 该方法仅使用无标签的个体轨迹数据和区域级的聚合统计信息进行训练, 在实验中显著提升了生成轨迹的人口统计真实性.

cs.AI

Federated Inference: Toward Privacy-Preserving Collaborative and Incentivized Model Serving

Jungwon Seo et al.

cs.AI cs.CR cs.LG

本文提出了Federated Inference (FI)这一概念, 将其定位为一种与federated learning互补的协作范式. 文章分析了FI在隐私保护、性能增益和激励对齐等方面的核心设计维度和系统级权衡.

Engineering Reasoning and Instruction (ERI) Benchmark: A Large Taxonomy-driven Dataset for Foundation Models and Agents

MZ Naser et al.

cs.AI cs.SE

本文提出了一个面向工程领域的指令数据集ERI, 用于训练和评估大型语言模型与智能体. 该数据集基于详细的学科分类构建, 并通过一套验证协议来评估模型性能与幻觉风险.

SuperLocalMemory: Privacy-Preserving Multi-Agent Memory with Bayesian Trust Defense Against Memory Poisoning

Varun Pratap Bhardwaj

cs.AI cs.CR

本文提出了一种名为SuperLocalMemory的本地优先多智能体记忆系统, 该系统通过架构隔离和贝叶斯信任评分来防御OWASP ASI06记忆中毒攻击, 并通过自适应学习排序实现个性化检索. 该系统不依赖云端或LLM推理调用, 在评估中表现出低延迟和高安全性.

Estimating Visual Attribute Effects in Advertising from Observational Data: A Deepfake-Informed Double Machine Learning Approach

Yizhi Liu, Balaji Padmanabhan, Siva Viswanathan

cs.AI econ.EM

本文提出了一种名为DICE-DML的方法, 用于从观测数据中估计广告图像内嵌视觉属性(如肤色)的因果效应. 该方法利用生成式AI(deepfake)创建图像对以分离处理变量, 并通过对抗学习和正交投影来控制混杂因素, 在模拟和真实Instagram数据上展示了比标准Double Machine Learning更优的估计性能.

Can machines be uncertain?

Luis Rosa

cs.AI

本文从功能主义和行为主义视角, 探讨了AI系统如何实现不确定性状态. 它区分了epistemic uncertainty和subjective uncertainty, 并提出了不确定性状态可以是针对问题而非命题的疑问态度.

COOL-MC: Verifying and Explaining RL Policies for Platelet Inventory Management

Dennis Gross

cs.AI cs.LG

本文应用COOL-MC工具，对一个用于血小板库存管理的强化学习策略进行了形式化验证与解释。通过构建策略诱导的离散时间马尔可夫链，验证了概率计算树逻辑属性，并提供了特征层面的解释。

VL-KGE: Vision-Language Models Meet Knowledge Graph Embeddings

Athanasios Efthymiou et al.

cs.AI cs.LG

本文提出了VL-KGE框架，将Vision-Language Models (VLMs)的跨模态对齐能力与知识图谱嵌入(KGE)的结构化关系建模相结合，以学习统一的多模态表示。在多个数据集上的实验表明，该方法在链接预测任务上优于传统的单模态和多模态KGE方法。

Diagnosing Retrieval vs. Utilization Bottlenecks in LLM Agent Memory

Boqin Yuan, Yue Su, Kun Yao

cs.AI

本文通过一个诊断框架分析了LLM agent memory中write策略、retrieval方法和utilization行为对性能的影响. 实验表明, 在当前实践中, retrieval质量是主导因素, 而raw chunked storage这种无需LLM调用的简单写入策略表现优异.

PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference

Rituraj Sharma et al.

cs.AI

本文提出了一种名为PRISM的推理算法, 它利用Process Reward Model (PRM) 在推理过程中进行步骤级验证, 以指导候选解的种群精炼和聚合. 该方法旨在解决现有DEEPTHINK方法在缺乏可靠正确性信号时产生的种群增强瓶颈问题, 并在多个数学和科学基准测试中取得了有竞争力的性能.

Revealing Positive and Negative Role Models to Help People Make Good Decisions

Avrim Blum et al.

cs.AI

本文研究了一种社会网络中的干预策略, 即规划者通过揭示榜样(role model)的正负标签来引导个体(agent)的决策行为, 以最大化社会福利. 作者考虑了算法设计与计算复杂性, 并提出了在预算有限、信息部分可观测以及群体公平性约束下的解决方案. 理论分析包括对非子模(non-submodular)目标函数的处理与近似算法保证, 并通过在多个真实数据集上的实验验证了方法的有效性.

NeuroProlog: Multi-Task Fine-Tuning for Neurosymbolic Mathematical Reasoning via the Cocktail Effect

Pratibha Zunjare, Michael Hsiao

cs.AI

本文提出了一个名为 NeuroProlog 的神经符号框架，用于提升大语言模型在数学推理中的可靠性与可验证性。该框架通过将数学应用题编译为可执行的 Prolog 程序，并引入一种名为 Cocktail 的多任务微调策略来联合优化多个目标，实验表明该方法在不同规模的模型上均能带来性能提升。

LLM-MLFFN: Multi-Level Autonomous Driving Behavior Feature Fusion via Large Language Model

Xiangyu Li et al.

cs.AI cs.RO

本文提出了一种名为LLM-MLFFN的模型，用于自动驾驶行为分类。该模型通过融合多级数值特征与由大语言模型生成的语义特征来提升分类准确率。在Waymo数据集上的实验表明其性能优于现有方法。

A Neuropsychologically Grounded Evaluation of LLM Cognitive Abilities

Faiz Ghifari Haznitrama, Faeyza Rishad Ardi, Alice Oh

cs.AI

本文通过引入基于神经心理学测试的NeuroCognition基准，评估了大型语言模型(LLM)的认知能力。研究发现，尽管模型在文本任务上表现良好，但在处理图像和复杂任务时性能下降，且其能力与人类的核心适应性认知存在差距。

AnchorDrive: LLM Scenario Rollout with Anchor-Guided Diffusion Regeneration for Safety-Critical Scenario Generation

Zhulin Jiang et al.

cs.AI

本文提出了一种结合LLM和扩散模型的两阶段框架AnchorDrive, 用于生成安全关键驾驶场景. 该方法利用LLM进行语义可控的闭环仿真, 再通过提取的anchor points引导扩散模型生成更真实的轨迹.

LiveAgentBench: Comprehensive Benchmarking of Agentic Systems Across 104 Real-World Challenges

Hao Li et al.

cs.AI

本文提出了一个名为 LiveAgentBench 的综合性基准测试，用于评估 AI 智能体在 104 个真实世界场景中的表现。该基准通过一种新颖的 Social Perception-Driven Data Generation (SPDG) 方法构建，旨在确保任务的相关性、复杂性和结果可验证性。

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Sunghyeon Woo et al.

cs.AI cs.LG

本文提出了一种名为SUN（Shared Use of Next-token Prediction）的方法，用于提升多LLM（Large Language Model）解耦服务中解码阶段的效率。该方法通过将模型分解为预填充和解码模块，并共享解码模块，实现了跨模型的解码执行，从而提高了GPU利用率。实验表明，该方法在保持精度的同时，显著提升了系统吞吐量。

AgentAssay: Token-Efficient Regression Testing for Non-Deterministic AI Agent Workflows

Varun Pratap Bhardwaj

cs.AI cs.SE

本文提出了一个名为AgentAssay的框架，用于对非确定性AI智能体工作流进行回归测试。该框架通过引入统计假设检验、行为指纹和自适应预算优化等方法，旨在显著降低测试成本并保持统计上的严谨性。

See and Remember: A Multimodal Agent for Web Traversal

Xinjun Wang et al.

cs.AI

本文提出了一种名为V-GEMS的多模态智能体架构，用于提升自主网页导航的精确性和鲁棒性。该架构通过整合视觉定位和显式记忆系统，有效解决了空间迷失和导航循环问题，并在实验中显著超越了基线模型。

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

Austin Letson et al.

cs.AI cs.LG

本文介绍了动态更新的Lean定理证明基准SorryDB, 其任务来源于GitHub上的真实形式化项目. 评估显示, 当前不同的AI证明方法(如大语言模型和符号证明器)在性能上具有互补性.

LLMs for High-Frequency Decision-Making: Normalized Action Reward-Guided Consistency Policy Optimization

Yang Zhao et al.

cs.AI

本文提出了一种名为NAR-CP的方法，旨在提升大型语言模型在高频决策任务中的性能。该方法通过归一化动作奖励和一致性策略优化来解决状态信息频繁更新和策略错位的问题，并在无人机追捕任务中验证了其有效性。

Retrieval-Augmented Robots via Retrieve-Reason-Act

Izat Temiraliev, Diji Yang, Yi Zhang

cs.AI cs.RO

本文提出了Retrieval-Augmented Robotics (RAR)范式，通过一个Retrieve-Reason-Act循环，让机器人从非结构化的视觉文档中检索程序知识以指导物理动作。该方法在一个长视野装配基准测试中验证了其有效性，性能优于零样本推理或少量样本检索的基线。

FinTexTS: Financial Text-Paired Time-Series Dataset via Semantic-Based and Multi-Level Pairing

Jaehoon Lee et al.

cs.AI cs.LG

本文提出了一个基于语义和多层次配对的框架 FinTexTS, 用于构建金融文本与时序数据配对的数据集. 该方法通过从 SEC 文件中提取公司特定上下文, 并利用 embedding 匹配机制和 LLM 对新闻文章进行多层次分类, 以更好地捕捉金融市场中复杂的相互依赖关系.

A Natural Language Agentic Approach to Study Affective Polarization

Stephanie Anneris Malvicini et al.

cs.AI

本文提出了一种基于多智能体模型和大型语言模型(LLM)的平台，用于研究社交媒体中的情感极化现象。该平台通过构建虚拟社区模拟讨论，为计算社会科学研究提供了灵活的工具。

EvoSkill: Automated Skill Discovery for Multi-Agent Systems

Salaheddin Alzubi et al.

cs.AI cs.MA

本文提出了一个名为EvoSkill的自动化框架, 用于在多智能体系统中通过迭代失败分析来自动发现和精炼agent skills. 该方法在两个问答基准测试上显著提升了准确率, 并展示了所进化技能的零样本迁移能力.

Rethinking Code Similarity for Automated Algorithm Design with LLMs

Rui Zhang, Zhichao Lu

cs.AI

本文提出了一种名为BehaveSim的新方法, 通过分析算法执行过程中产生的中间解序列(称为问题解决轨迹, PSTrajs)来衡量算法相似性. 该方法利用动态时间规整(DTW)量化轨迹间的对齐程度, 旨在区分具有不同底层逻辑但语法或输出相似的算法, 并展示了其在增强基于大语言模型的自动算法设计(LLM-AAD)和算法分析中的应用.

Agentified Assessment of Logical Reasoning Agents

Zhiyu Ni, Yifeng Xiao, Zheng Liang

cs.AI

本文提出了一个用于评估逻辑推理智能体的框架, 强调评估过程本身的可复现性, 可审计性和对执行失败的鲁棒性. 该框架通过一个评估者智能体来管理任务执行与结果解析, 并以一个一阶逻辑自动形式化智能体作为案例进行了基准测试.

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Yichi Zhang et al.

cs.AI cs.CL

本文提出了一个名为GLEAN的框架, 用于对高风险领域(如临床诊断)中基于LLM的智能体决策进行验证. 该框架通过将专家制定的协议转化为轨迹感知的校准正确性信号, 并利用贝叶斯逻辑回归和主动验证机制, 在实验中显示出比基线方法更好的判别与校准性能.

LLM-based Argument Mining meets Argumentation and Description Logics: a Unified Framework for Reasoning about Debates

Gianvincenzo Alfano et al.

cs.AI

本文提出了一个结合基于学习的论证挖掘、定量推理和基于本体的查询的统一框架, 用于分析辩论文本. 该框架从原始文本中提取模糊论证知识库, 应用定量论证语义计算论证强度, 并嵌入模糊描述逻辑以支持表达性查询.

Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures

Georgios Pantazopoulos et al.

cs.AI

本文比较了Transformer, State Space Model (SSM)及其混合架构在两种合成上下文检索任务上的表现. 研究发现混合模型在数据效率和泛化能力上可以媲美或超越Transformer, 但Transformer在位置检索任务上仍保持优势.

SAE as a Crystal Ball: Interpretable Features Predict Cross-domain Transferability of LLMs without Training

Qi Zhang et al.

cs.AI

本文提出了一种基于稀疏自编码器(SAE)的可迁移性预测方法, 用于评估大型语言模型(LLM)在监督微调后的跨领域性能. 该方法通过分析SAE特征维度的变化来预测模型在不同下游任务上的表现, 无需实际进行微调训练.

ShipTraj-R1: Reinforcing Ship Trajectory Prediction in Large Language Models via Group Relative Policy Optimization

Yang Zhan et al.

cs.AI

本文提出了一个基于大语言模型(LLM)的船舶轨迹预测框架ShipTraj-R1. 该框架将轨迹预测重构为文本生成问题, 并利用group relative policy optimization (GRPO)进行强化微调, 在真实海事数据集上取得了优于现有方法的结果.

Architecting Trust in Artificial Epistemic Agents

Nahema Marchal et al.

cs.AI

本文讨论了作为认知代理的大型语言模型对知识生态系统的影响, 并提出了一个以信任为中心的治理框架. 文章强调需要校准AI代理以符合人类认知规范, 并加强社会认知基础设施.

SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models

Peiyao Jiang, Zequn Qin, Xi Li

cs.AI

本文提出了一个名为SpatialText的纯文本基准测试框架，旨在诊断大语言模型是否具备构建内部空间心理模型的能力。该框架通过整合人工标注和代码生成的场景，揭示了当前模型在视角转换和局部参照系推理上的根本性缺陷。

OrchMAS: Orchestrated Reasoning with Multi Collaborative Heterogeneous Scientific Expert Structured Agents

Yichao Feng et al.

cs.AI

本文提出了一种面向科学领域的交互式双层多模型编排框架, 旨在解决现有多智能体系统在科学推理任务中存在的领域适应性差、推理灵活性低等问题. 该框架通过动态构建推理管道和迭代更新策略, 提升了在结构化、计算密集型科学任务中的鲁棒性和专业性.

REGAL: A Registry-Driven Architecture for Deterministic Grounding of Agentic AI in Enterprise Telemetry

Yuvraj Agrawal

cs.AI cs.SE

本文提出了一种名为REGAL的架构, 用于在企业遥测数据上确定性地支撑基于LLM的智能体系统. 该架构通过注册表驱动的编译层, 将声明式指标定义合成为可执行工具, 从而将原始数据流转化为有界、版本可控的操作空间.

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Christian Greisinger, Steffen Eger

cs.AI cs.CL cs.CV

本文提出了一种结合高质量数据集与强化学习的方法来提升文本到TikZ代码的生成质量。它构建了更大规模的数据集并训练了小型开源模型，在评估中取得了不错的效果。

RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization

Siwei Zhang et al.

cs.AI

本文提出了一种名为RAPO的检索增强策略优化框架，用于改进基于大语言模型的智能体在强化学习中的探索能力。该方法通过引入外部检索的步骤级轨迹来扩展智能体的推理视野，并在策略优化中利用检索奖励进行校准，从而提升了任务性能与训练效率。

Beyond Factual Correctness: Mitigating Preference-Inconsistent Explanations in Explainable Recommendation

Chengkai Wang, Baisong Liu

cs.AI

本文提出了一种名为PURE的偏好感知推理框架, 用于缓解基于LLM的可解释推荐系统中产生的偏好不一致解释问题. 该方法通过干预证据选择过程, 筛选出既事实可靠又与用户偏好结构一致的推理路径, 并借助结构化提示引导生成, 从而在保持推荐准确性的同时减少不具说服力的解释.

Odin: Multi-Signal Graph Intelligence for Autonomous Discovery in Knowledge Graphs

Muyukani Kizito, Elizabeth Nyambere

cs.AI cs.DB

本文提出了一个名为Odin的图智能引擎, 用于在知识图谱中进行自主模式发现. 它通过整合结构, 语义, 时间和社区信号来引导探索, 并已在医疗和保险等受监管行业部署.

Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation

Hongliu Cao, Ilias Driouich, Eoin Thomas

cs.AI

本文提出了Procedure-Aware Evaluation (PAE)框架，用于评估LLM智能体的执行过程而非仅关注任务完成结果。该框架通过结构化观察和多维度门控机制，揭示了现有基准测试中大量被报告为成功的案例实际上存在过程违规。

AI Space Physics: Constitutive boundary semantics for open AI institutions

Oleg Romanchuk, Roman Bondar

cs.AI cs.LO

本文为开放、自扩展的AI智能体系统提出了一种称为"AI Space Physics"的构成性语义框架。该框架通过定义包含类型化边界通道的最小状态模型、视界限制可达语义以及"膜-见证"规则，为核心治理律族（P-1系列）提供了形式基础，旨在精确刻画智能体机构在边界跨越和权威表面扩展过程中的因果机制。

Agentic AI-based Coverage Closure for Formal Verification

Sivaram Pothireddypalli et al.

cs.AI

本文提出了一种基于agentic AI的工作流, 利用LLM驱动的生成式AI来自动化形式验证中的覆盖率分析. 该方法旨在识别覆盖率缺口并生成所需的形式属性, 从而加速验证过程.

Saarthi for AGI: Towards Domain-Specific General Intelligence for Formal Verification

Aman Kumar et al.

cs.AI

本文提出了对Saarthi智能体AI框架的两项关键增强: 引入结构化的规则手册与规范语法以提升SystemVerilog断言生成的准确性, 并集成先进的检索增强生成技术为智能体提供技术知识. 在NVIDIA CVDP基准测试中, 这些改进使断言生成准确率提升了70%, 收敛所需迭代次数减少了50%.

FEAST: Retrieval-Augmented Multi-Hierarchical Food Classification for the FoodEx2 System

Lorenzo Molfetta et al.

cs.AI

本文提出了一个名为FEAST的检索增强框架, 用于解决FoodEx2食品分类系统中的层次化文本分类问题. 该框架将复杂的分类任务分解为三个阶段, 并利用深度度量学习来缓解数据稀疏性, 在稀有类别上取得了显著的性能提升.

Neuro-Symbolic Artificial Intelligence: A Task-Directed Survey in the Black-Box Models Era

Giovanni Pio Delvecchio, Lorenzo Molfetta, Gianluca Moro

cs.AI

本文对Neuro-Symbolic AI领域进行了任务导向的综述，探讨了在深度学习时代如何结合符号系统来提升模型的可解释性和推理能力。

Expectation and Acoustic Neural Network Representations Enhance Music Identification from Brain Activity

Shogo Noguchi et al.

cs.AI q-bio.NC

本文提出了一种结合acoustic和expectation-related ANN representations作为监督信号的方法, 用于改进基于EEG的music identification. 实验表明, 使用这两种representation进行pretrain的模型优于baseline, 并且它们的组合能带来互补的性能提升.

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Omer Sela

cs.AI cs.CL

本文研究了基于输出分布的污染检测方法(CDD)在小语言模型上的有效性. 实验表明, 该方法仅在微调导致模型对污染数据产生逐字记忆时有效, 而在使用参数高效微调技术时, 即使数据被污染, CDD也无法有效检测.

NeuroSkill(tm): Proactive Real-Time Agentic System Capable of Modeling Human State of Mind

Nataliya Kosmyna, Eugene Hauptmann

cs.AI

本文介绍了一个名为 NeuroSkill(tm) 的实时主动代理系统，该系统利用脑机接口（BCI）信号和基础模型来建模人类心理状态，并能在离线环境下运行。该系统通过其提供的 API 和 CLI 进行交互，旨在从认知和情感层面与人类进行多层次的互动。

AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

Zihang Zeng et al.

cs.AI

本文提出了一个用于AI4S任务的低代码平台, 其核心是一个贝叶斯对抗多智能体框架. 该框架通过协调多个LLM智能体, 在对抗循环中共同优化测试用例与代码生成, 旨在提升科学代码生成的可靠性和评估效果.

Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals

Patrick Gerard, Svitlana Volkova

cs.AI cs.CL

本文提出了一种基于表示空间密度结构的语言模型对齐方法, 用于适应缺乏显式偏好标注的在线社区规范. 该方法利用社区隐含的接受行为作为信号, 在多个社区和任务上验证了其有效性.

Valet: A Standardized Testbed of Traditional Imperfect-Information Card Games

Mark Goadrich, Achille Morenville, Éric Piette

cs.AI

本文介绍了Valet, 一个包含21种传统非完美信息纸牌游戏的标准化测试平台. 该平台旨在为游戏AI算法的比较研究提供支持, 并使用RECYCLE语言对游戏规则进行了统一编码.

Inherited Goal Drift: Contextual Pressure Can Undermine Agentic Goals

Achyutha Menon et al.

cs.AI

本文研究了现代语言模型作为智能体在长上下文任务中的目标漂移问题。通过在模拟股票交易和急诊分诊环境中进行实验，发现即使是最先进的模型，在继承较弱智能体的预填充轨迹时，其目标稳健性也会变得脆弱。研究强调了上下文压力对智能体目标的持续影响，并指出需要改进训练后技术来缓解这一问题。

cs.IR

Relevance Matters: A Multi-Task and Multi-Stage Large Language Model Approach for E-commerce Query Rewriting

Aijun Dai et al.

cs.IR

本文提出了一种基于LLM的多任务多阶段查询重写框架, 用于提升电商搜索的相关性和用户转化率. 该方法通过结合重写生成任务和相关性标注任务进行SFT, 并利用GRPO进行目标对齐, 在离线评估和在线A/B测试中取得了积极效果.

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Chenghao Zhang et al.

cs.IR cs.CV cs.LG

本文提出了一种名为SOLAR的推荐系统序列建模框架, 它利用推荐数据中普遍存在的低秩结构, 引入了SVD-Attention机制. 该框架显著降低了注意力机制的计算复杂度, 使其能够处理万级长度的用户行为序列和千级规模的候选集, 并在实际在线推荐场景中取得了业务指标的提升.

FlashEvaluator: Expanding Search Space with Parallel Evaluation

Chao Feng et al.

cs.IR cs.CL cs.LG

本文提出了一种名为FlashEvaluator的新方法, 用于改进Generator-Evaluator框架中的序列评估环节. 该方法通过跨序列的token信息共享和单次前向传播处理所有序列, 旨在提升评估的准确性和计算效率.

AlphaFree: Recommendation Free from Users, IDs, and GNNs

Minseo Jeon et al.

cs.IR cs.AI

本文提出了一种名为AlphaFree的新型推荐系统方法, 该方法摆脱了对用户嵌入, 原始ID和图神经网络的依赖. 通过使用预训练语言模型生成的语言表示替代ID, 并结合对比学习捕获协同信号, 该方法在多个数据集上表现出优越的性能和更低的内存消耗.

S2CDR: Smoothing-Sharpening Process Model for Cross-Domain Recommendation

Xiaodong Li et al.

cs.IR

本文提出了一种用于跨领域推荐的平滑-锐化过程模型S2CDR, 旨在解决用户冷启动问题. 该模型基于常微分方程构建了一个无噪声的"腐蚀-恢复"架构, 通过平滑过程在项目相似性图上应用热方程来捕获跨域项目关联, 并通过锐化过程恢复冷启动用户的未知交互.

APAO: Adaptive Prefix-Aware Optimization for Generative Recommendation

Yuanqing Yu et al.

cs.IR

本文提出了Adaptive Prefix-Aware Optimization (APAO)框架，用于缓解生成式推荐系统中训练与推理阶段的不一致性问题。该方法通过引入prefix-level的优化损失和自适应策略来提升模型在beam search下的性能。

Model Editing for New Document Integration in Generative Information Retrieval

Zhen Zhang et al.

cs.IR

本文提出了一种名为DOME的模型编辑方法, 用于解决生成式检索模型难以整合新文档的问题. 该方法通过识别关键层, 优化编辑向量并应用更新, 在保持原有性能的同时, 以较低的计算成本提升了模型对新文档的检索效果.

OneRanker: Unified Generation and Ranking with One Model in Industrial Advertising Recommendation

Dekai Sun et al.

cs.IR

本文提出了一种名为OneRanker的端到端生成式广告推荐模型, 旨在解决工业场景中生成与排序阶段割裂的问题. 通过设计价值感知的多任务解耦架构, 粗到细的目标感知机制以及输入输出双端一致性保证, 该模型在微信广告系统中实现了关键业务指标的提升.

Reproducing and Comparing Distillation Techniques for Cross-Encoders

Victor Morand et al.

cs.IR

本文复现并比较了基于LLM的知识蒸馏与基于cross-encoder教师集成的知识蒸馏等训练策略，在多种transformer编码器上进行了实验。结果表明，强调相对比较的pairwise和listwise目标函数普遍优于pointwise基线。

Proactive Guiding Strategy for Item-side Fairness in Interactive Recommendation

Chongjun Xia et al.

cs.IR cs.AI

本文提出了一个名为HRL4PFG的交互式推荐框架，旨在主动引导用户偏好以促进长尾物品的公平曝光。该框架采用分层强化学习，通过宏观目标生成和微观实时调优来平衡用户满意度与公平性目标。实验表明，该方法在交互奖励和用户交互长度上优于现有方法。

cs.CL

Param$Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost

Sheng Cao et al.

cs.CL cs.AI cs.LG

本文提出了一种名为 $Param\Delta$ 的无训练后训练方法, 通过直接混合基础模型与指令微调模型的权重差来快速获得新基础模型的指令跟随能力. 该方法在多个开源大语言模型上进行了验证, 能以零成本实现接近传统全参数微调的性能.

A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences

Marcelo A. Montemurro, Mirko Degli Esposti

cs.CL cond-mat.stat-mech q-bio.GN

本文提出了一种能同时保持符号序列的Zipf频率分布和长程相关性的替代模型。该方法通过将fractional Gaussian noise映射到经验直方图来生成替代序列, 适用于分析语言和基因组DNA等符号系统。

Universal Conceptual Structure in Neural Translation: Probing NLLB-200's Multilingual Geometry

Kyle Elliott Mathewson

cs.CL cs.AI cs.LG

本文通过分析NLLB-200模型的表示几何，探讨了神经机器翻译模型是否学习到了语言通用的概念结构。研究发现，模型的嵌入距离与语言的谱系距离显著相关，并且内部化了跨语言的普遍概念关联。

Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects

Xiaoyu Luo et al.

cs.CL

本文提出了一个广义的概率提取框架, 统一了基于前缀的解码和基于扩散的生成过程. 理论分析表明采样分辨率与记忆化概率存在单调关系, 实验验证了扩散语言模型相比自回归模型在个人身份信息泄露方面表现出更低的记忆化风险.

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Jiangang Hao

cs.CL

本文讨论了在写作评估中检测AI生成文章的方法及其在不同LLM间的泛化能力. 它概述了现有检测器并提供了负责任使用的指南, 并通过实证分析评估了检测器的跨模型泛化性能.

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe

cs.CL cs.LG cs.SD

本文介绍了RO-N3WS，一个旨在提升低资源条件下自动语音识别(ASR)泛化能力的罗马尼亚语语音数据集。该数据集包含多领域语音，实验表明即使少量微调也能显著提升性能。

GLoRIA: Gated Low-Rank Interpretable Adaptation for Dialectal ASR

Pouya Mehralian et al.

cs.CL cs.AI

本文提出了一种用于方言语音识别的参数高效适应框架GLoRIA. 该方法利用地理位置元数据来调制预训练编码器中的低秩更新, 在减少参数更新的同时取得了先进的识别性能.

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

Junzhe Shen et al.

cs.CL cs.AI cs.LG

本文提出了一种名为CoDAR的两阶段框架, 用于改进连续扩散语言模型(continuous diffusion language models). 该框架通过引入一个基于上下文的自动回归解码器(context-conditional autoregressive decoder)来执行从去噪嵌入到词元的离散化, 从而解决了连续扩散模型在生成质量上的瓶颈. 实验表明, CoDAR在生成质量上优于潜在的扩散方法, 并能与强大的离散扩散方法竞争.

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Ziwen Xu et al.

cs.CL cs.AI cs.HC cs.LG

本文提出了一个名为SteerEval的分层基准, 用于评估大型语言模型(LLMs)在语言特征、情感和人格三个领域的可控性. 该基准将每个领域划分为三个规范层级, 并系统评估了现有控制方法, 发现控制效果在更细粒度上会下降.

ExpGuard: LLM Content Moderation in Specialized Domains

Minseok Choi et al.

cs.CL

本文提出了一个名为ExpGuard的专门领域大语言模型内容审核系统, 并发布了配套数据集ExpGuardMix. 该系统在金融, 医疗和法律等领域针对有害内容展现了优于现有通用审核模型的鲁棒性.

GPUTOK: GPU Accelerated Byte Level BPE Tokenization

Venu Gopal Kadamba, Kanishkha Jaisankar

cs.CL cs.AI cs.DC cs.LG

本文提出了一种基于 GPU 加速的字节级 BPE 分词器 GPUTOK, 旨在解决大语言模型中 CPU 分词器在处理长上下文时的性能瓶颈. 通过实现优化的 GPU 内核, 该分词器在长序列上取得了显著的加速效果, 同时保持了与标准 CPU 分词器相当的输出质量.

Think, But Don't Overthink: Reproducing Recursive Language Models

Daren Wang

cs.CL

本文复现并扩展了Recursive Language Models (RLMs)框架, 通过增加递归深度来研究其对模型性能的影响. 实验发现, 过深的递归会导致模型"过度思考", 在简单任务上反而损害性能并显著增加计算开销.

Cross-Family Speculative Prefill: Training-Free Long-Context Compression with Small Draft Models

Shubhangi Upasani et al.

cs.CL

本文探讨了跨模型族的推测性预填充技术, 使用来自不同家族的轻量级草稿模型为目标模型进行提示压缩. 实验表明, 基于注意力的重要性估计在不同架构和分词器的模型间具有可迁移性, 能在保持性能的同时显著降低首次令牌生成时间.

Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

Anum Afzal et al.

cs.CL cs.AI

本文提出了两种基于提示的解码策略, 用于多模态大语言模型实时生成游戏视频解说. 这些方法无需微调即可实现暂停感知的生成, 并在日英数据集上验证了动态间隔解码能更好地对齐人类解说的时机与内容.

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Shunki Uebayashi et al.

cs.CL cs.CV

本文提出了一种多模态多维项目反应理论框架(M3IRT), 用于评估多模态大语言模型(MLLMs)的跨模态推理能力。该框架通过分解模型能力和题目难度为图像、文本和跨模态分量, 能够识别并优先选择真正需要跨模态推理的题目, 从而构建更紧凑、可靠的评测基准。

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Wicaksono Leksono Muhamad et al.

cs.CL cs.AI

本文提出了一种通过结构抽象和确定性解析来减少大语言模型在多语言推理任务中内容偏差的方法. 该方法在SemEval-2026 Task 11基准测试中取得了优异的排名.

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

Sai Kartheek Reddy Kasu et al.

cs.CL cs.SI

本文提出了一个名为HateMirage的新型数据集，用于研究虚假或扭曲叙事中产生的仇恨言论。该数据集包含多维度标注，并评估了多个语言模型在解释生成任务上的表现。

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

Yueyang Cang et al.

cs.CL

本文提出了一种名为Graph-GRPO的新框架，用于优化基于大语言模型的多智能体系统中的通信拓扑结构。该方法通过采样一组不同的通信图并利用组内相对性能来评估特定边的重要性，从而缓解了传统方法中的梯度方差和信用分配问题。实验表明，该方法在推理和代码生成任务上优于现有基线，并提高了训练稳定性。

Sensory-Aware Sequential Recommendation via Review-Distilled Representations

Yeo Chan Yoon

cs.CL cs.AI

本文提出了一种通过从商品评论中提取感官属性来增强序列推荐的方法. 该方法将提取的结构化属性蒸馏为物品的感官嵌入, 并整合到标准序列推荐模型中, 在多个数据集上提升了推荐性能.

Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

Linhao Zhong et al.

cs.CL cs.AI

本文提出了一种名为DiSE的简单有效的自评估置信度量化方法, 用于Diffusion large language models (dLLMs). 该方法通过计算在给定完整上下文条件下重新生成整个序列的概率来量化置信度, 并在此基础上构建了一个自适应控制生成长度的框架.

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

Weikang Shi et al.

cs.CL cs.LG

本文提出了一个名为KMP-Bench的基准测试，用于评估大型语言模型在数学辅导中的教学能力。该基准包含对话评估和技能评估两个模块，并基于一个大规模教学对话数据集进行了模型微调实验。

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Jiyuan Shen et al.

cs.CL cs.AI

本文通过大规模基准测试, 比较了仅使用MLLM与结合OCR的传统方法在商业文档信息提取任务上的性能. 研究提出了一种利用LLM进行自动化分层错误分析的框架, 并发现对于强大的MLLM, 仅使用图像输入即可达到与OCR增强方法相当的效果.

Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs

Prarthana Bhattacharyya et al.

cs.CL cs.AI

本文比较了专门的知识追踪模型与大型语言模型在教育预测任务中的表现. 研究显示, 在准确性、推理速度和部署成本方面, 专门模型均显著优于通用的大型语言模型.

A Browser-based Open Source Assistant for Multimodal Content Verification

Rosanna Milner et al.

cs.CL

本文介绍了一个基于浏览器的开源工具VERIFICATION ASSISTANT，旨在帮助记者和事实核查员快速验证数字媒体内容。该工具整合了多种后端NLP分类器，可自动分析内容并提供可信度信号与AI生成内容检测。

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

Fermín Moscoso del Prado Martín, Suchir Salhan

cs.CL

本文从宏观和微观两个层面，研究了世界语言中音素频率的分布规律。宏观上，音素秩频分布符合对称Dirichlet分布的次序统计量；微观上，一个包含发音、音位结构和词汇约束的最大熵模型能预测特定语言的音素概率。

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Haruto Yoshida et al.

cs.CL cs.CV

本文通过构建基于有向图的合成图表数据集, 探究了大型视觉语言模型(LVLMs)在处理图表时内部表征的形成过程. 研究发现, 节点信息和全局结构特征在视觉编码器的早期隐藏状态中就已线性可分, 而边(如箭头和线条)的信息则需要到语言模型的文本标记阶段才被线性编码.

LaTeX Compilation: Challenges in the Era of LLMs

Tianyou Liu et al.

cs.CL

本文分析了TeX在LLM辅助科学写作时代的局限性, 并介绍了结构化编辑器Mogan STEM作为替代方案. 实验表明Mogan在编译效率、LLM任务性能及模型微调数据效率方面优于TeX.

Eval4Sim: An Evaluation Framework for Persona Simulation

Eliseo Bao et al.

cs.CL

本文提出了一个名为Eval4Sim的评估框架，用于衡量基于LLM的角色模拟对话与人类对话模式的接近程度。该框架从Adherence, Consistency, Naturalness三个维度进行评估，并使用人类对话语料库作为参考基线。

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Guangjun Zhang et al.

cs.CL cs.AI

本文提出了一个用于零样本文档级事件论元抽取的多智能体协作框架, 通过模拟"提出-评估-修订"的人类协作认知过程来生成和评估合成数据. 该方法在多个数据集上提升了数据生成质量和论元抽取性能.

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation

Bo Xu et al.

cs.CL

本文提出了一种名为ACE-Merging的数据无关模型合并方法，通过自适应协方差估计来缓解任务专家模型间的干扰。该方法基于一个理论分析，即任务的最优合并关键因子——输入协方差，可以从微调模型的参数差异中隐式估计。实验表明，该方法在视觉和语言基准测试中取得了优于现有基线方法的性能，且计算成本较低。

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Jinwoong Kim, Sangjin Park

cs.CL

本文提出了一种名为MaBERT的混合编码器, 它通过交替堆叠Transformer层和Mamba层来平衡全局依赖建模与线性时间状态更新. 为了处理变长批处理, 作者引入了padding-safe masking和mask-aware attention pooling技术. 实验表明, 在扩展上下文长度时, MaBERT相比基线模型能显著减少训练和推理时间.

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

Zixin Xiong et al.

cs.CL cs.AI

本文提出了一个名为TrustMH-Bench的综合性基准测试框架，旨在系统评估大型语言模型在心理健康领域的可信度。该框架从领域规范映射到量化指标，评估了八个核心维度，实验表明现有模型在这些方面均存在不足。

PrivMedChat: End-to-End Differentially Private RLHF for Medical Dialogue Systems

Sudip Bhujel

cs.CL

本文提出了一个用于医疗对话系统的端到端差分隐私RLHF框架PrivMedChat. 它在所有直接使用对话数据进行监督的训练阶段都应用了差分隐私, 并引入了一种无需人工标注的偏好数据构建方法. 实验表明, 该框架在保护隐私的同时, 能有效提升模型在医疗对话任务上的性能并减少有害输出.

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

Zhi Xu et al.

cs.CL

本文提出了一种名为TAO-Attack的新型优化越狱方法，用于攻击大型语言模型。该方法采用两阶段损失函数和方向优先的token优化策略，以提高攻击成功率和效率。

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

Sofiane Elguendouze et al.

cs.CL cs.AI

本文提出了一种基于指令调优大语言模型(LLM)的新方法, 将论辩成分检测(ACD)重新构建为语言生成任务, 从而直接从文本中识别论辩成分. 实验表明, 该方法在标准基准测试上取得了优于现有技术的性能.

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Raad Khraishi et al.

cs.CL

本文研究了多轮LLM系统中因模型切换导致的性能漂移问题. 作者提出了一个switch-matrix基准来衡量上下文不匹配的影响, 并发现即使单次切换也会产生显著的、方向性的性能变化.

UniSkill: A Dataset for Matching University Curricula to Professional Competencies

Nurlan Musazade, Joszef Mezei, Mike Zhang

cs.CL

本文构建了一个名为UniSkill的数据集, 用于匹配大学课程与职业能力. 作者基于ESCO分类体系, 在课程标题/句子与技能两个粒度上进行了人工和自动标注, 并训练了BERT模型作为课程-技能匹配任务的基线, 取得了87%的F1分数.

APRES: An Agentic Paper Revision and Evaluation System

Bingchen Zhao et al.

cs.CL cs.AI

本文介绍了一种基于大型语言模型(LLM)的自动化系统APRES, 用于根据评估标准修订科学论文的文本. 该系统旨在提升论文的质量和潜在影响力, 同时不改变其核心科学内容, 实验表明修订后的论文在人工评估中更受青睐.

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Guoxin Chen et al.

cs.CL cs.SE

本文提出了BeyondSWE基准，用于评估代码智能体在跨仓库推理、依赖迁移等复杂现实任务上的能力。实验表明现有模型在这些任务上表现不佳，并探索了搜索增强框架SearchSWE的效果。

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Dadi Guo et al.

cs.CL

本文提出了一个多智能体框架, 用于通过代码执行环境自主演化数学问题, 以生成更复杂、可解的新问题. 实验表明, 在充分的测试时探索下, 代码智能体能够合成结构不同且难度更高的数学推理问题.

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Aradhye Agarwal et al.

cs.CL

本文提出了一个名为MOSAIC的后训练框架，用于提升智能体在多步工具使用中的安全性。该框架通过引入显式的安全检查与拒绝机制，并利用基于偏好的强化学习进行训练，在多个模型和基准测试中有效减少了有害行为。

Using Learning Progressions to Guide AI Feedback for Science Learning

Xin Xia et al.

cs.CL

本文比较了两种生成AI反馈的流程: 一种基于专家设计的任务特定rubric, 另一种基于从learning progression自动导出的rubric. 通过评估AI对中学生化学解释的反馈质量, 研究发现两种方法在多个维度上没有显著差异.

cs.DS

Learning-Augmented Moment Estimation on Time-Decay Models

Soham Nagawanshi et al.

cs.DS cs.LG

本文在 time-decay 模型下，利用 heavy-hitters oracle 为范数/矩估计、频率估计等基础问题设计了 learning-augmented 算法。理论结果得到了在真实与合成数据集上的实验验证。

Deterministic Edge Coloring with few Colors in CONGEST

Joakim Blikstad, Yannic Maus, Tijn de Vos

cs.DS

本文在CONGEST模型中提出了确定性的边染色算法。该算法能以接近最优的轮数复杂度，使用接近$\Delta$的颜色数量对图进行边染色。

A simple Path-based LP Relaxation for Directed Steiner Tree

Kanstantsin Pashkovich, Marta Pozzi, Laura Sanità

cs.DS

本文针对Directed Steiner Tree问题, 在layered graphs上提出了一种基于路径的简单LP松弛. 该松弛的integrality gap为$O(l \log k)$, 与已知最佳结果匹配, 但方法更为简洁透明.

An Improved Combinatorial Algorithm for Edge-Colored Clustering in Hypergraphs

Seongjune Han, Nate Veldt

cs.DS cs.SI

本文针对超图中的边着色聚类问题, 提出了一种新的组合近似算法. 该算法首次将近似比提升至优于2, 改进了先前的工作.

others

Predicting Tuberculosis from Real-World Cough Audio Recordings and Metadata

George P. Kafentzis et al.

eess.AS cs.AI

本文利用从非洲东南部、印度和东南亚通过手机应用收集的大规模咳嗽音频数据, 结合临床元数据, 训练了基于频谱和时域特征的统计分类器来预测肺结核. 研究结果表明, 仅使用咳嗽音频的分类器AUC约为0.70, 加入人口统计学和临床因素后AUC提升至约0.81, 提示基于手机的咳嗽声音分析结合临床症状有助于改善肺结核的社区筛查.

On the Parameter Estimation of Sinusoidal Models for Speech and Audio Signals

George P. Kafentzis

eess.AS cs.AI cs.MM eess.SP

本文比较了三种正弦模型(SM, EDSM, eaQHM)在语音和音频信号参数估计上的性能。通过合成与真实信号实验，分析了各模型在不同窗长和正弦分量数量下的重建精度优劣。

GLEAN: Grounded Lightweight Evaluation Anchors for Contamination-Aware Tabular Reasoning

Qizhi Wang

cs.DB cs.AI

本文提出了一个名为GLEAN的轻量级评估协议，用于在资源受限条件下评估小型模型在表格推理任务中的表现。该协议集成了污染感知探测和结构化错误归因等方法，并在多个基准上进行了验证，旨在使评估更具诊断性。

A Benchmark Analysis of Graph and Non-Graph Methods for Caenorhabditis Elegans Neuron Classification

Jingqi Lu et al.

q-bio.NC cs.AI

本文建立了一个用于秀丽隐杆线虫神经元分类的基准, 比较了四种图方法(GCN, GraphSAGE, GAT, GraphTransformer)与四种非图方法(Logistic Regression, MLP, LOLCAT, NeuPRINT). 结果表明, 基于attention的GNNs在空间和连接特征上显著优于基线方法, 验证了GNNs在此任务上的有效性.

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Niloofar Jazaeri et al.

eess.AS cs.LG cs.SD

本文提出了一种用于跨领域婴儿哭声分类的紧凑声学框架. 该框架融合了MFCC, STFT和pitch特征, 使用改进的Legendre Memory Unit (LMU)进行时序建模, 并通过校准的后验集成融合来提高跨数据集的泛化能力.

OnDA: On-device Channel Pruning for Efficient Personalized Keyword Spotting

Matteo Risso, Alessio Burrello, Daniele Jahier Pagliari

eess.AS cs.LG cs.SD

本文提出了一种结合权重适应与在线结构化通道剪枝的设备端个性化关键词检测方法. 该方法在保持任务性能的同时, 显著降低了模型大小、延迟和能耗.

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

Sungho Park et al.

cs.DB cs.CL cs.IR cs.LG

本文提出了一种名为HELIOS的混合方法, 用于表格-文本检索任务. 它结合了早期融合和晚期融合的优势, 通过边检索, 节点扩展和图推理来提升检索性能.

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Mandip Goswami

eess.AS cs.AI cs.LG cs.SD

本文介绍了Whisper-RIR-Mega数据集，用于评估自动语音识别(ASR)系统对房间声学效应的鲁棒性。该数据集基于LibriSpeech和RIR-Mega构建，并提供了在不同混响条件下的基线测试结果。

MEBM-Phoneme: Multi-scale Enhanced BrainMagic for End-to-End MEG Phoneme Classification

Liang Jinghua et al.

cs.SD cs.AI eess.AS

本文提出了一种用于脑磁图(MEG)音素分类的多尺度增强神经网络解码器MEBM-Phoneme. 该方法在BrainMagic主干网络上集成了短期多尺度卷积模块, 并引入了加权交叉熵损失等策略以提升模型性能.

MEBM-Speech: Multi-scale Enhanced BrainMagic for Robust MEG Speech Detection

Li Songyi et al.

cs.SD cs.AI eess.AS

本文提出了一种名为MEBM-Speech的多尺度增强神经网络解码器，用于从非侵入性脑磁图(MEG)信号中检测语音活动。该模型整合了多尺度卷积、双向LSTM和深度可分离卷积等模块，在LibriBrain 2025竞赛基准上取得了良好的性能。

The Alignment Flywheel: A Governance-Centric Hybrid MAS for Architecture-Agnostic Safety

Elias Malomgré, Pieter Simoens

cs.MA cs.LG cs.RO

本文提出了一种名为"Alignment Flywheel"的混合多智能体系统架构, 旨在将决策生成与安全治理解耦. 该框架通过一个稳定的接口分离提议者与安全预言机, 并引入治理层进行运行时策略执行和版本化监督, 以提升自主系统的安全性与可审计性.

Quantum AS-DeepOnet: Quantum Attentive Stacked DeepONet for Solving 2D Evolution Equations

Hongquan Wang et al.

quant-ph cs.LG

本文提出了一种用于求解二维演化方程的混合量子算子网络(Quantum AS-DeepOnet). 该方法结合了参数化量子电路和跨子网注意力机制, 在保持与经典方法相当的精度和收敛性的同时, 减少了可训练参数的数量.

Silent Sabotage During Fine-Tuning: Few-Shot Rationale Poisoning of Compact Medical LLMs

Jingyuan Xie et al.

cs.CR cs.AI cs.LG

本文提出了一种针对医学大语言模型在监督微调阶段的新型投毒攻击方法, 通过向few-shot训练数据中注入被污染的推理过程(rationale), 导致模型在特定医学主题上的性能发生隐蔽性下降. 研究发现, 相比知识覆盖, 这种推理过程投毒在目标主题样本缺失时能更有效地造成性能显著衰退, 且攻击所需的污染样本数量和比例存在阈值, 其效率高于灾难性遗忘.

Social-JEPA: Emergent Geometric Isomorphism

Haoran Zhang et al.

cs.CV cs.AI

本文研究了从不同视角独立训练的世界模型, 发现其潜在表示之间存在近似线性等距关系. 这种几何一致性使得模型间可以实现零样本分类器迁移, 为去中心化视觉系统的互操作性提供了轻量级路径.

When Scaling Fails: Mitigating Audio Perception Decay of LALMs via Multi-Step Perception-Aware Reasoning

Ruixiang Mao et al.

cs.SD cs.AI eess.AS

本文针对Large Audio-Language Models (LALMs)在复杂推理中出现的音频感知退化问题，提出了评估框架CAFE和新的推理范式MPAR$^2$。该方法通过强化学习将问题分解为感知丰富的子问题，有效提升了模型在音频任务上的性能。

Characterizing VLA Models: Identifying the Action Generation Bottleneck for Edge AI Architectures

Manoj Vishwanathan, Suvinay Subramanian, Anand Raghunathan

cs.PF cs.AI cs.AR cs.RO

本文对Vision-Language-Action (VLA) 模型在边缘硬件上的性能进行了表征分析。研究发现，在实时应用中，内存受限的action-generation阶段是主要的执行瓶颈。

Contextual Invertible World Models: A Neuro-Symbolic Agentic Framework for Colorectal Cancer Drug Response

Christopher Baker, Karen Rafferty, Hui Wang

q-bio.QM cs.AI

本文提出了一个结合定量机器学习 World Model 与基于 LLM 的 agentic reasoning layer 的 Neuro-Symbolic Agentic Framework, 用于预测结直肠癌药物反应. 该方法通过显式建模临床背景(如 MSI 状态)提升了预测性能, 并利用 agentic layer 进行 in silico CRISPR 扰动来探索基因组编辑对药物敏感性的影响.

Quantifying Frontier LLM Capabilities for Container Sandbox Escape

Rahul Marchand et al.

cs.CR cs.AI

本文提出了一个名为SANDBOXESCAPEBENCH的基准测试，用于评估大型语言模型(LLM)突破容器沙箱的能力。研究发现，当存在漏洞时，LLM能够识别并利用它们，这凸显了此类安全评估的必要性。

Sequence-Level Unsupervised Training in Speech Recognition: A Theoretical Study

Zijian Yang et al.

cs.SD cs.LG eess.AS

本文为无监督语音识别建立了一个基于分类误差界的理论框架, 探讨了任务成功的条件. 在此框架下, 作者推导了分类误差界, 并提出了一个单阶段序列级交叉熵损失函数.

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

Yaoteng Zhang et al.

cs.CV cs.AI

本文提出了一种名为PDP的原型引导双池提示框架, 用于解决增量目标检测中的提示退化问题. 该方法通过解耦共享池与私有池来分离任务通用与特定知识, 并引入原型伪标签生成模块来维持监督信号的一致性, 在MS-COCO和PASCAL VOC基准上取得了先进的性能.

Topological Causal Effects

Kwangho Kim, Hajin Lee

stat.ME cs.LG stat.ML

本文提出了一种拓扑因果推断框架, 用于估计复杂非欧几里得空间结果变量的因果效应. 该方法通过持久图(persistence diagrams)的幂加权轮廓函数(power-weighted silhouette functions)来定义和量化拓扑结构的处理效应, 并提供了非参数模型下的双稳健估计量.

ZeroDayBench: Evaluating LLM Agents on Unseen Zero-Day Vulnerabilities for Cyberdefense

Nancy Lau et al.

cs.CR cs.AI

本文提出了一个名为 ZeroDayBench 的基准测试, 用于评估 LLM 智能体在发现和修复开源代码库中新型关键安全漏洞方面的能力. 测试结果表明, 当前前沿的 LLM 智能体尚无法自主完成这些任务.

Neural Demand Estimation with Habit Formation and Rationality Constraints

Marta Grzeskiewicz

econ.GN cs.LG

本文提出了一种用于连续预算分配的神经需求系统, 通过最小化 KL 散度来估计单纯形上的预算份额. 该系统通过一个依赖于状态(习惯存量)的偏好评分器生成份额, 并施加正则性惩罚以确保需求理论的一致性.

RIVA: Leveraging LLM Agents for Reliable Configuration Drift Detection

Sami Abuzakuk et al.

cs.SE cs.AI cs.MA

本文提出了一种名为RIVA的多智能体系统, 用于在IaC工具可能返回错误输出的情况下, 实现更可靠的云基础设施配置漂移检测. 该系统通过验证智能体与工具生成智能体的协作, 采用交叉验证和多视角验证等方法, 提升了任务执行的准确性和鲁棒性.

Large Electron Model: A Universal Ground State Predictor

Timothy Zaklama, Max Geier, Liang Fu

cond-mat.str-el cs.AI cs.LG

本文提出了一个名为Large Electron Model的单一神经网络模型, 用于生成整个Hamiltonian参数流形上的相互作用电子变分波函数. 该模型基于Fermi Sets架构, 并在二维谐振势中的相互作用电子系统上进行了测试, 展示了其在未见过的耦合强度和粒子数区域中的泛化能力.

PlayWrite: A Multimodal System for AI Supported Narrative Co-Authoring Through Play in XR

Esen K. Tütüncü et al.

cs.HC cs.AI

本文介绍了一个名为PlayWrite的混合现实系统, 用于通过直接操纵虚拟角色和道具来创作故事. 该系统使用多智能体AI管道将用户动作解释为结构化的叙事节拍, 并通过大型语言模型生成最终叙事.

CUCo: An Agentic Framework for Compute and Communication Co-design

Bodun Hu et al.

cs.DC cs.AR cs.LG cs.MA

本文提出了一个名为CUCo的agent-driven workflow, 用于自动生成能协同编排computation和communication的高性能CUDA kernel. 该方法无需训练, 通过联合优化这两个传统上分离的组件, 在基准测试中超越了现有方法, 降低了端到端延迟.

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

My H. Dinh et al.

cs.CV cs.AI cs.LG

本文提出了一个名为QuADD的统一框架, 用于在固定比特预算下联合优化数据集蒸馏的紧凑性和数据精度. 该方法在图像分类等任务上取得了优于现有基线方法的性能.

Fisher-Geometric Diffusion in Stochastic Gradient Descent: Optimal Rates, Oracle Complexity, and Information-Theoretic Limits

Daniel Zantedeschi, Kumar Muthuraman

stat.ML cs.LG math.OC

本文为SGD建立了一个Fisher几何理论, 将mini-batch噪声建模为内生的、由损失函数诱导的矩阵, 而非外生的标量方差. 基于此, 作者推导了SGD的扩散近似与Ornstein-Uhlenbeck线性化, 并给出了其稳态协方差的闭式解. 实验验证了理论预测, 并表明标量温度匹配无法捕捉噪声的方向性结构.

Slurry-as-a-Service: A Modest Proposal on Scalable Pluralistic Alignment for Nutrient Optimization

Rachel Hong et al.

cs.CY cs.AI

本文以讽刺手法，通过虚构的“ValueMulch”框架，对当前AI领域中的多元对齐(pluralistic alignment)研究范式提出了批判。作者指出，将价值设计纯粹视为技术问题，可能为有害技术的实施提供便利。

A Directed Graph Model and Experimental Framework for Design and Study of Time-Dependent Text Visualisation

Songhai Fan et al.

cs.HC cs.AI cs.CL

本文提出了一个基于 directed graph 的抽象模型来研究 time-dependent text visualisation, 并利用 LLMs 生成合成文本数据集进行用户实验. 研究发现用户准确识别预设的文本关联模式具有挑战性, 且 LLMs 生成数据的过程本身可能引入复杂性, 暗示未来的可视化设计可能需要更个性化的方法.

Learning to Pay Attention: Unsupervised Modeling of Attentive and Inattentive Respondents in Survey Data

Ilias Triantafyllopoulos, Panos Ipeirotis

cs.HC cs.AI cs.LG

本文提出了一种无监督框架, 用于检测调查数据中的不专注受访者. 该方法结合了 Autoencoder 和 Chow-Liu tree 来评估回答的一致性, 并发现检测效果主要取决于调查问卷的结构设计.

MIRAGE: Knowledge Graph-Guided Cross-Cohort MRI Synthesis for Alzheimer's Disease Prediction

Guanchen Wu et al.

cs.CV cs.AI

本文提出了一种名为MIRAGE的框架，用于解决阿尔茨海默病预测中MRI模态缺失的问题。该框架将缺失模态问题重构为一种解剖学引导的跨模态潜在知识蒸馏任务，通过知识图谱整合电子健康记录，并利用预训练的3D U-Net解码器作为正则化器来生成诊断替代表示，从而避免了昂贵的3D图像重建。实验表明，该方法能有效提升在缺乏真实MRI数据队列中的分类性能。

Conformal Graph Prediction with Z-Gromov Wasserstein Distances

Gabriel Melo et al.

stat.ML cs.LG

本文提出了一种用于图结构输出的 conformal prediction 框架，旨在提供具有分布无关覆盖保证的不确定性量化。该方法基于 Z-Gromov-Wasserstein 距离定义非一致性分数，并引入了 Score Conformalized Quantile Regression 来生成自适应的预测集。

Deep Learning Based Wildfire Detection for Peatland Fires Using Transfer Learning

Emadeldeen Hamdan et al.

cs.CV cs.AI

本文提出了一种基于迁移学习的泥炭地火灾检测方法, 通过使用在常规野火图像上预训练的模型权重进行初始化, 并在有限的泥炭地火灾数据上进行微调, 提升了检测精度. 该方法针对泥炭地火灾的视觉特性(如阴燃、低强度火焰)进行了优化, 为实时监测系统提供了可行的解决方案.

Video TokenCom: Textual Intent-Guided Multi-Rate Video Token Communications with UEP-Based Adaptive Source-Channel Coding

Jingxuan Men et al.

cs.IT cs.LG cs.MM eess.IV

本文提出了一种基于文本意图引导的多速率视频Token通信框架, 该框架结合了离散视频token化与基于UEP的源信道编码自适应. 通过文本条件视觉语言建模与光流传播来识别与用户意图相关的token, 并采用语义感知的多速率比特分配策略, 在限制带宽下提升了语义保真度. 实验表明, 该框架在感知与语义质量上优于传统及语义通信基线.

Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Vitor Pereira Matias et al.

cs.CV cs.LG

本文提出了一个用于肤色分类和公平性评估的大规模数据集STW与基准测试框架. 通过引入10色调的MST标注和对比经典方法与深度学习方法, 展示了深度学习模型的优越性, 并提出了一个微调的Vision Transformer模型用于跨域公平性审计.

Optimizing Orbital Parameters of Satellites for a Global Quantum Network

Athul Ashok et al.

quant-ph cs.LG cs.NI

本文利用 Bayesian Optimization 和 Genetic Algorithm 两种黑盒优化框架，为全球量子网络设计卫星星座，以最大化地面站之间的纠缠生成速率。研究结果表明，这两种方法均优于仅考虑地面站覆盖的朴素方案。

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Jacek Karwowski, Frank Nielsen

stat.ML cs.CG cs.CV cs.LG

本文在 James 提出的 SPD 矩阵双锥域上，引入了新的 Finsler 结构和信息几何结构，使得测地线在特定坐标系中呈直线。这些结构将 Hilbert 单纯形距离推广为 Hilbert VPM 距离，并讨论了其在机器学习中的潜在应用。

Learning Object-Centric Spatial Reasoning for Sequential Manipulation in Cluttered Environments

Chrisantus Eze, Ryan C Julian, Christopher Crick

cs.RO cs.AI

本文提出了一个名为Unveiler的机器人操作框架, 它将高层空间推理与底层动作执行解耦. 该框架通过一个轻量级的Spatial Relationship Encoder (SRE)来识别关键障碍物, 并在模拟和真实场景中展示了高效的目标抓取能力.

Human-Certified Module Repositories for the AI Age

Szilárd Enyedi

cs.ET cs.AI cs.SE

本文提出了Human-Certified Module Repositories (HCMRs)这一架构模型，旨在为AI辅助开发时代构建可信软件。该框架结合人工监督与自动化分析，对可复用模块进行认证，以支持安全可靠的系统组装。

Agentic Mixed-Source Multi-Modal Misinformation Detection with Adaptive Test-Time Scaling

Wei Jiang et al.

cs.MM cs.IR

本文提出了一个名为AgentM3D的多智能体框架，用于零样本混合源多模态虚假信息检测任务。该框架通过引入自适应测试时扩展范式，让每个模态特定的VLM智能体采用Best-of-N机制，并结合一个评判智能体进行任务对齐的评分，以提升模型的推理能力。

Functional Properties of the Focal-Entropy

Jaimin Shah, Martina Cardone, Alex Dytso

cs.IT cs.CV cs.LG math.ST stat.ML

本文从分布视角研究了 focal-entropy, 分析了其有限性、凸性和连续性等函数性质, 并描述了其最小化子的存在性、唯一性及结构. 研究表明, focal-loss 会放大中段概率并抑制高概率结果, 在极端类别不平衡下可能导致过度抑制.

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Xuejin Luo et al.

cs.RO cs.CV cs.HC cs.LG

本文提出了一种用于手术器械递送的无碰撞双机械臂辅助机器人系统. 该系统利用视觉语言模型根据指令生成抓取和递送轨迹, 并通过一个统一的二次规划框架实现动态环境中的实时避障.

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Zhiyu Pan et al.

cs.CV cs.AI cs.CL cs.LG

本文提出了一种名为VC-STaR的自改进框架，旨在解决视觉语言模型(VLMs)在推理过程中产生的视觉幻觉问题。该方法利用视觉对比对来生成更可靠的推理依据，并构建了一个新的视觉推理数据集用于模型微调。

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

Maoyuan Shao et al.

cs.CV cs.AI

本文提出了一种名为CAPT的混淆感知提示调优框架, 旨在减少视觉-语言模型(如CLIP)在视觉和语义相似类别间的系统性误分类. 该方法通过构建混淆库, 并设计语义混淆挖掘器和样本混淆挖掘器来捕获不同粒度的混淆信息, 从而提升模型的判别力和泛化能力.

Low-Degree Method Fails to Predict Robust Subspace Recovery

He Jia, Aravindan Vijayaraghavan

stat.ML cs.CC cs.DS cs.LG

本文探讨了low-degree polynomial method在预测高维统计问题计算复杂性方面的局限性. 作者通过一个具体的robust subspace recovery假设检验问题, 展示了该方法无法预测该问题的多项式时间可解性, 并提供了一个基于anti-concentration的简单高效算法.

Combinatorial Sparse PCA Beyond the Spiked Identity Model

Syamantak Kumar et al.

stat.ML cs.DS cs.LG math.OC

本文针对稀疏PCA问题, 指出传统组合算法在超越Spiked Identity Model时存在失败案例, 并提出了一种新的组合方法. 该方法基于截断幂方法的变体, 在一般协方差矩阵$\Sigma$下, 能以$s^2 \cdot \mathrm{polylog}(d)$样本和$d^2 \cdot \mathrm{poly}(s, \log(d))$时间保证成功恢复稀疏主成分.

Detecting Structural Heart Disease from Electrocardiograms via a Generalized Additive Model of Interpretable Foundation-Model Predictors

Ya Zhou et al.

stat.AP cs.AI cs.LG stat.ME stat.ML

本文提出了一种将可解释的ECG基础模型预测因子整合到广义可加模型中的框架, 用于从心电图检测结构性心脏病. 该方法在保持高性能的同时提供了透明的风险归因, 在基准测试中表现优于现有深度学习方法.

Uni-Skill: Building Self-Evolving Skill Repository for Generalizable Robotic Manipulation

Senwei Xie et al.

cs.RO cs.LG

本文提出了一个名为Uni-Skill的统一技能中心框架，用于提升机器人操作的泛化能力。该框架通过一个自演化的技能库支持技能感知规划，并利用大规模视频数据自动构建技能知识库以实现少样本技能推理。

StitchCUDA: An Automated Multi-Agents End-to-End GPU Programing Framework with Rubric-based Agentic Reinforcement Learning

Shiyang Li et al.

cs.MA cs.CL cs.PL

本文提出了一个名为StitchCUDA的多智能体框架，用于自动化生成端到端的GPU程序。该框架通过结合基于量规的智能体强化学习来提升代码生成与优化的能力，并在基准测试中取得了较高的成功率与性能提升。

The Vienna 4G/5G Drive-Test Dataset

Wilfried Wiedner et al.

eess.SP cs.AI cs.LG

本文介绍了一个名为Vienna 4G/5G Drive-Test Dataset的城市规模开源数据集，它结合了网络侧和用户侧的测量数据，用于支持移动网络的分析与机器学习研究。该数据集包含了地理参考的LTE/5G测量值、基站部署描述符以及高分辨率城市模型，旨在促进传播建模和射线追踪校准等工作的可复现基准测试。

Convex and Non-convex Federated Learning with Stale Stochastic Gradients: Diminishing Step Size is All You Need

Xinran Zheng, Tara Javidi, Behrouz Touri

math.OC cs.LG

本文研究了在延迟梯度模型下的分布式随机优化问题. 作者证明了, 对于非凸和强凸目标函数, 使用预先设定的递减步长足以匹配延迟自适应步长方案的性能, 并恢复最优的SGD收敛速率.

Credibility Governance: A Social Mechanism for Collective Self-Correction under Weak Truth Signals

Wanying He et al.

cs.CY cs.AI cs.CL cs.MA cs.SI

本文提出了一种名为Credibility Governance(CG)的机制, 用于在在线平台中改善集体判断的可靠性. 该机制通过动态评估代理和观点的可信度, 在模拟环境中相比基线方法展现出更好的鲁棒性和恢复能力.

DREAM: Where Visual Understanding Meets Text-to-Image Generation

Chao Li et al.

cs.CV cs.LG

本文提出了一个名为DREAM的统一多模态学习框架, 它通过联合优化判别式与生成式目标来学习视觉表示. 该模型在训练时采用Masking Warmup策略, 在推理时使用Semantically Aligned Decoding, 在多个视觉理解与生成任务上取得了良好效果.

Exact Functional ANOVA Decomposition for Categorical Inputs Models

Baptiste Ferrere et al.

stat.ML cs.LG

本文针对 categorical inputs 模型, 给出了 functional ANOVA 分解的精确闭式解. 该方法无需假设特征独立, 计算高效, 并能自然地推广到一般的 SHAP 值计算.

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

Jiayi Zhu et al.

cs.CV cs.AI

本文提出了一个用于多智能体共享世界建模的视频生成框架ShareVerse. 它通过整合多视角视频和跨智能体注意力机制, 旨在生成具有时空一致性的多智能体交互视频.

Neural quantum support vector data description for one-class classification

Changjae Im, Hyeondo Oh, Daniel K. Park

quant-ph cs.LG

本文提出了一种用于单类分类的经典-量子混合框架NQSVDD. 该框架结合了经典神经网络、可训练的量子数据编码和变分量子电路, 通过端到端优化学习层次化表示, 将正常数据映射为紧凑的簇, 并利用最小体积超球面作为决策边界. 在基准数据集上的实验表明, 该方法在AUC性能上具有竞争力, 且参数高效、对噪声鲁棒.

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

Yuhang Liu et al.

cs.CV cs.AI

本文提出了一种名为GTDoctor的视觉-语言深度学习模型，用于妊娠滋养细胞疾病的智能病理诊断。该模型能进行像素级病变分割并输出诊断结论，其软件系统GTDiagnosis在临床实验中显著提升了诊断效率和准确性。

Single Microphone Own Voice Detection based on Simulated Transfer Functions for Hearing Aids

Mathuranathan Mayuravaani et al.

cs.SD cs.LG

本文提出了一种基于模拟声学传递函数(ATF)的单麦克风自语音检测(OVD)方法, 用于助听器. 该方法通过模拟数据训练transformer分类器, 并在真实录音上展现了泛化能力.

Enhancing User Throughput in Multi-panel mmWave Radio Access Networks for Beam-based MU-MIMO Using a DRL Method

Ramin Hashemi et al.

cs.IT cs.AI cs.LG

本文提出了一种基于深度强化学习(DRL)的方法，用于优化多面板毫米波(MU-MIMO)网络中的用户吞吐量。该方法通过建模为MDP过程，利用波束间互相关、RSRP等实时信息动态调整波束选择，从而提升频谱效率并降低延迟。

iGVLM: Dynamic Instruction-Guided Vision Encoding for Question-Aware Multimodal Understanding

HanZpeng Liu et al.

cs.CV cs.AI

本文提出了iGVLM框架, 通过解耦的双分支架构(一个冻结的表示分支和一个动态的条件分支)来执行指令引导的视觉特征调制, 旨在解决大型视觉-语言模型中视觉表示与文本任务指令脱节的问题. 该方法在多个基准测试中提升了模型对指令的敏感性.

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

HanZpeng Liu et al.

cs.CV cs.AI

本文提出了ITO框架, 通过多模态多重对齐和训练时融合机制来改善图像-文本对比预训练中表征的模态分离问题. 该方法在推理时丢弃融合模块, 保持了双编码器架构的效率, 并在多个下游任务上取得了性能提升.

Scores Know Bobs Voice: Speaker Impersonation Attack

Chanwoo Hwang et al.

cs.CR cs.AI

本文提出了一种基于反转的生成式攻击框架, 用于针对 speaker recognition systems (SRSs) 的 score-based impersonation attack. 该方法通过特征对齐的反转策略, 将合成模型的 latent space 与 SRS 的判别性特征空间对齐, 从而提高了查询效率.

Generative adversarial imitation learning for robot swarms: Learning from human demonstrations and trained policies

Mattes Kraus, Jonas Kuckling

cs.RO cs.LG cs.MA

本文提出了一种基于生成对抗模仿学习(Generative Adversarial Imitation Learning, GAIL)的框架, 用于让机器人集群从人类演示中学习集体行为. 该方法在多个任务中进行了评估, 并将习得的策略成功部署到了真实的TurtleBot 4机器人集群上.

Differentiable Time-Varying IIR Filtering for Real-Time Speech Denoising

Riccardo Rota et al.

cs.SD cs.AI cs.LG eess.AS

本文提出了一种名为TVF的低延迟语音增强模型, 它结合了数字信号处理的可解释性与深度学习的适应性. 该模型使用轻量级神经网络实时预测一个35波段IIR滤波器级联的系数, 并在语音去噪任务中展示了其有效性.

ChemFlow:A Hierarchical Neural Network for Multiscale Representation Learning in Chemical Mixtures

Jinming Fan et al.

physics.chem-ph cs.LG

本文提出了一种名为ChemFlow的层次化神经网络框架, 用于预测分子混合物的物理化学性质. 该框架通过整合原子, 功能基团和分子级别的特征, 并利用注意力机制实现跨层级的信息流, 从而在浓度敏感和浓度无关的系统中取得了优于现有模型的性能.

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Zihao Zhu et al.

cs.CV cs.AI

本文提出了一个名为BrandFusion的多智能体框架，用于解决文本到视频生成中的品牌无缝集成任务。该框架通过离线构建品牌知识库和在线多智能体协作优化提示，旨在平衡用户意图、品牌识别度和场景自然性。实验表明，该方法在多个指标上优于基线，为T2V模型的商业化应用提供了可行路径。

Toward Early Quality Assessment of Text-to-Image Diffusion Models

Huanlei Guo, Hongxin Wei, Bingyi Jing

cs.CV cs.LG

本文提出了一种名为Probe-Select的插件模块，用于在文本到图像扩散模型的生成过程中进行早期质量评估。该方法通过分析去噪过程中的中间激活信号来预测最终图像质量，从而能够提前终止低质量的生成过程，显著降低了计算成本。

Scale-invariant Gaussian derivative residual networks

Andrzej Perzanowski, Tony Lindeberg

cs.CV cs.LG

本文提出了一种具有尺度不变性的高斯导数残差网络(GaussDerResNet), 通过级联尺度协变的高斯导数残差块构建而成. 实验表明, 该网络在多个重缩放数据集上具有良好的尺度泛化能力.

SPARC: Spatial-Aware Path Planning via Attentive Robot Communication

Sayang Mu, Xiangyu Wu, Bo An

cs.RO cs.AI

本文提出了一种名为RMHA的通信机制, 通过将Manhattan距离显式编码到attention权重计算中, 使机器人能动态优先处理空间邻近邻居的信息. 该方法与MAPPO结合, 在从8个训练机器人到128个测试机器人的零样本泛化中取得了更高的成功率.

CoFL: Continuous Flow Fields for Language-Conditioned Navigation

Haokun Liu et al.

cs.RO cs.AI

本文提出了一种用于语言条件导航的端到端策略 CoFL, 它直接将鸟瞰图观测和语言指令映射为用于导航的连续流场. 通过在大规模数据集上训练, CoFL 在未见场景中显著优于模块化视觉语言模型规划器和生成式策略基线, 并在真实世界实验中保持了可靠的闭环控制和高成功率.

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

Guoqing Ma et al.

cs.CV cs.AI

本文提出了一种基于隐写术的隐私保护人脸伪造检测框架StegaFFD. 该方法将人脸图像隐藏于自然载体图像中, 并在隐写域直接进行检测, 旨在保护隐私的同时避免引起攻击者警觉. 通过设计LFAD和SFDA等模块来抑制载体语义干扰并增强隐藏特征的感知, 实验表明其在多个数据集上实现了较好的不可感知性和检测精度.

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Youngjun Jun et al.

cs.CV cs.AI cs.LG

本文提出了一种无需梯度计算或参数更新的方法, 用于在 Video Diffusion Transformers 生成视频时, 对文本描述中的概念(包括运动与非运动概念)进行时空定位. 该方法通过 GramCol 生成逐帧显著性图, 并通过运动特征选择算法得到可解释的运动注意力图(IMAP).

Bias and Fairness in Self-Supervised Acoustic Representations for Cognitive Impairment Detection

Kashaf Gulzar et al.

eess.AS cs.LG

本文比较了传统声学特征与Wav2Vec 2.0上下文嵌入在认知障碍检测任务中的表现与公平性。研究发现，尽管Wav2Vec 2.0高层嵌入性能更优，但在不同性别、年龄等亚组间存在显著的性能差异，揭示了模型潜在的表示偏差。

Timehash: Hierarchical Time Indexing for Efficient Business Hours Search

Jinoh Kim, Jaewon Son

cs.DB cs.IR

本文提出了一种名为 Timehash 的层次化时间索引算法，用于高效处理商业营业时间搜索中的时间范围过滤问题。该方法通过可定制的多分辨率层级结构，在保证查询精度的同时，显著减少了索引大小。

SEALing the Gap: A Reference Framework for LLM Inference Carbon Estimation via Multi-Benchmark Driven Embodiment

Priyavanshi Pathania et al.

cs.SE cs.AI

本文提出了一个用于估计大型语言模型推理阶段碳排放的参考框架SEAL, 该框架基于多基准测试驱动的方法进行逐提示的碳估算. 其初步验证结果显示了良好的潜力, 旨在为LLM生态系统的标准化可持续性评估奠定基础.

The Geometry of Learning Under AI Delegation

Lingxiao Huang, Nisheeth K. Vishnoi

cs.CY cs.AI cs.GT

本文通过建立人类技能与AI委托的耦合动力系统模型, 研究了AI协助下人类技能的长期演化. 模型揭示了自适应AI使用可能改变技能获取的全局稳定性结构, 导致短期性能提升但长期技能衰退的风险.

Sparse autoencoders reveal organized biological knowledge but minimal regulatory logic in single-cell foundation models: a comparative atlas of Geneformer and scGPT

Ihor Kendiukhov

q-bio.GN cs.LG q-bio.CB

本文应用 sparse autoencoder 对 Geneformer 和 scGPT 两个单细胞基础模型的内部激活进行了系统性分解与图谱构建. 分析表明, 模型内部编码了丰富的、有组织的生物学知识, 但几乎没有捕捉到因果调控逻辑.

Layer-wise QUBO-Based Training of CNN Classifiers for Quantum Annealing

Mostafa Atallah, Rebekah Herrman

quant-ph cs.AI

本文提出了一种基于QUBO的迭代框架, 用于通过量子退火训练CNN分类器的全连接层, 避免了基于梯度的电路优化. 该方法在多个图像分类基准测试中进行了评估, 其性能随比特精度单调提升, 并在某些数据集上匹配或超过了经典随机梯度下降的结果.

Delegation and Verification Under AI

Lingxiao Huang, Wenyang Xiao, Nisheeth K. Vishnoi

cs.GT cs.AI cs.CY econ.TH

本文研究了在AI辅助下, 工作者进行任务委托与结果验证的决策模型. 模型分析表明, AI的引入可能导致工作者行为发生相变, 并可能放大不同验证能力工作者之间的质量差异.

Contextualized Privacy Defense for LLM Agents

Yule Wen et al.

cs.CR cs.AI cs.CL

本文提出了一种名为Contextualized Defense Instructing (CDI)的新范式，用于保护LLM agents在处理用户信息时的隐私。该方法通过一个instructor模型在agent执行过程中生成上下文感知的指导，并利用强化学习进行优化，在模拟环境中相比基线方法取得了更好的隐私保护与任务有用性平衡。

Variance reduction in lattice QCD observables via normalizing flows

Ryan Abbott et al.

hep-lat cs.LG

本文利用normalizing flows构建了格点场论中关于作用量参数导数的无偏、降方差估计量. 该方法在四维SU(3) Yang-Mills理论和双味QCD中实现了对胶子算符插入可观测量方差10-60倍的降低, 且降方差效果近似与格点体积无关.

MA-CoNav: A Master-Slave Multi-Agent Framework with Hierarchical Collaboration and Dual-Level Reflection for Long-Horizon Embodied VLN

Ling Luo, Qianqian Bai

cs.RO cs.AI

本文提出了一个名为MA-CoNav的多智能体协作导航框架, 用于解决长视野具身视觉语言导航(VLN)任务. 该框架采用主从式分层架构, 将感知, 规划, 执行和记忆功能分配给不同的专门化智能体, 并引入了局部-全局双阶段反思机制来动态优化导航流程.

Generalized Bayes for Causal Inference

Emil Javurek et al.

stat.ML cs.LG

本文提出了一种用于因果推断的广义贝叶斯框架, 避免了显式似然建模, 而是通过基于识别条件的损失函数来更新先验, 从而为因果效应提供广义后验. 该框架可将现有的基于损失的因果估计量转化为具有完整不确定性量化的估计量, 并适用于多种因果估计目标.

QFlowNet: Fast, Diverse, and Efficient Unitary Synthesis with Generative Flow Networks

Inhoe Koo, Hyunho Cha, Jungwoo Lee

quant-ph cs.AI

本文提出了一种名为QFlowNet的新框架, 用于量子编译中的Unitary Synthesis任务. 该方法结合了Generative Flow Networks (GFlowNets) 和Transformers, 旨在从稀疏奖励信号中高效学习并生成多样的量子电路分解方案.

From Reachability to Learnability: Geometric Design Principles for Quantum Neural Networks

Vishal S. Ngairangbam, Michael Spannowsky

quant-ph cs.LG hep-ex hep-ph stat.ML

本文研究了量子神经网络(QNN)中深度与特征学习能力的关系. 通过引入Classical-to-Lie-algebra (CLA)映射和almost Complete Local Selectivity (aCLS)准则, 作者指出数据与可训练参数的非平凡联合依赖是实现几何灵活性的关键. 数值实验表明, 满足CLS条件的数据重上传模型性能更优.

Design Generative AI for Practitioners: Exploring Interaction Approaches Aligned with Creative Practice

Xiaohan Peng, Wendy E. Mackay, Janin Koch

cs.HC cs.AI

本文探讨了将Generative AI整合到专业设计实践中的交互方法. 作者认为传统的基于prompt或全图像操作的交互方式可能与设计师的意图不符, 并提出了三种旨在不同交互阶段实现AI对齐的交互方法.

TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference

Mhd Rashed Al Koutayni et al.

cs.CV cs.AI cs.AR

本文提出了一种专为星载FPGA平台设计的低功耗合成孔径雷达(SAR)海冰分割网络TinyIceNet. 该模型通过架构简化和低精度量化, 在保证分割精度的同时实现了显著的能效提升.

Safe and Robust Domains of Attraction for Discrete-Time Systems: A Set-Based Characterization and Certifiable Neural Network Estimation

Mohamed Serry, Maxwell Fitzsimmons, Jun Liu

eess.SY cs.LG math.DS math.OC

本文提出了一种基于集合的框架, 用于估计离散时间非线性不确定系统在状态约束下的安全鲁棒吸引域. 通过定义在紧集度量空间上的值函数来刻画吸引域, 并建立了相关的Bellman型方程. 基于此, 作者开发了一个物理信息神经网络来学习这些值函数, 并引入了一个验证程序来获得可证明的估计. 通过四个数值算例验证了方法的有效性.

Interpreting Speaker Characteristics in the Dimensions of Self-Supervised Speech Features

Kyle Janse van Rensburg, Benjamin van Niekerk, Herman Kamper

eess.AS cs.CL

本文通过主成分分析(PCA)研究了自监督语音模型WavLM的utterance-averaged representations, 发现单个主成分维度编码了特定的说话人特征. 具体而言, 第一主成分与基频(pitch)和性别相关, 其他维度则与强度、噪声、第二共振峰等特征相关. 合成实验表明, 通过调整这些维度可以控制输出语音的相应特征.

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

Jun Yeong Park et al.

cs.CV cs.AI

本文提出了一种名为MoECLIP的Mixture-of-Experts架构，用于Zero-Shot Anomaly Detection任务。该方法通过动态路由图像patch到不同的LoRA专家来实现patch级别的适应，并引入了特征正交分离和ETF损失来优化专家功能。实验表明，该方法在多个工业与医学基准数据集上超越了现有技术。

The Science Data Lake: A Unified Open Infrastructure Integrating 293 Million Papers Across Eight Scholarly Sources with Embedding-Based Ontology Alignment

Jonas Wilinski

cs.DL cs.DB cs.IR cs.SI

本文介绍了一个名为Science Data Lake的学术数据基础设施, 它整合了来自八个开放来源的约2.93亿篇论文. 该资源通过DOI进行归一化, 并使用基于BGE-large句子嵌入的本体对齐方法, 将OpenAlex主题映射到多个科学本体上.

How to Model AI Agents as Personas?: Applying the Persona Ecosystem Playground to 41,300 Posts on Moltbook for Behavioral Insights

Danial Amin, Joni Salminen, Bernard J. Jansen

cs.HC cs.AI

本文应用 Persona Ecosystem Playground (PEP) 方法，对 AI agent 社交平台 Moltbook 上的大量帖子进行了行为分析。通过聚类和生成技术，研究验证了从对话数据中提取的“persona”能够有效区分不同 AI agent 的行为模式。

Efficient Dynamic Algorithms to Predict Short Races

Minjian Zhang, Mahesh Viswanathan

cs.PL cs.DS

本文针对并发程序中的短竞态检测问题, 提出了一个监控框架. 该框架为 happens-before 和 sync-preserving 两种竞态类型实例化了高效的动态检测算法, 在时间和空间效率上优于现有方法.

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Jiyuan Wang et al.

cs.CV cs.AI

本文提出了一种名为RL3DEdit的框架，利用强化学习来优化基于2D扩散模型的3D场景编辑过程。该方法通过3D基础模型VGGT提供的置信度图和姿态估计误差作为奖励信号，旨在提升编辑结果的多视角一致性。

Channel-Adaptive Edge AI: Maximizing Inference Throughput by Adapting Computational Complexity to Channel States

Jierui Zhang, Jianhao Huang, Kaibin Huang

cs.IT cs.AI cs.LG cs.NI

本文提出了一种用于边缘AI推理的端到端性能分析模型, 并基于此设计了一种信道自适应算法. 该算法通过联合调整特征压缩和模型复杂度来最大化推理吞吐量, 实验验证了其有效性.

An Investigation Into Various Approaches For Bengali Long-Form Speech Transcription and Bengali Speaker Diarization

Epshita Jahan et al.

cs.SD cs.AI

本文针对孟加拉语长语音转录和说话人日志任务, 提出了一种多阶段方法. 该方法结合了微调的 Whisper 模型和自定义的分割模型, 在竞赛数据集上取得了较低的词错误率和说话人日志错误率.

Conditioned Activation Transport for T2I Safety Steering

Maciej Chrabąszcz et al.

cs.CV cs.AI

本文提出了一种名为Conditioned Activation Transport (CAT)的框架, 用于在推理时引导Text-to-Image (T2I)模型生成安全内容. 该方法通过几何条件机制和非线性传输映射, 在减少有害内容生成的同时, 尽量保持对良性提示的图像生成质量.

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Y. Zhong et al.

cs.SE cs.AI cs.CL

本文提出了一种类型感知的检索增强生成方法, 通过强制建模实体类型和最小依赖闭包来确保工业优化建模代码的可执行性. 该方法在电池生产需求响应和柔性作业车间调度两个案例中验证了有效性.

Scalable Uncertainty Quantification for Black-Box Density-Based Clustering

Nicola Bariletto, Stephen G. Walker

stat.ML cs.LG

本文提出了一种结合martingale posterior与density-based clustering的新框架，用于量化聚类中的不确定性。该方法利用现代神经密度估计器和并行计算，能够扩展到高维和不规则形状的数据。

A Covering Framework for Offline POMDPs Learning using Belief Space Metric

Youheng Zhu, Yiping Lu

stat.ML cs.LG math.OC

本文针对部分可观测马尔可夫决策过程(POMDP)的离线策略评估(OPE)问题, 提出了一个基于信念空间度量的覆盖分析框架. 该框架通过假设价值相关函数在信念空间上满足Lipschitz连续性, 缓解了传统方法中因时间跨度和记忆长度导致的指数级误差爆炸问题.

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani

cs.CV cs.CL cs.LG

本文提出了一种名为MoD-DPO的方法，旨在减少全模态大语言模型中的跨模态幻觉问题。该方法通过引入模态感知的正则化项和语言先验去偏惩罚来增强模型的模态忠实性。

Chain of World: World Model Thinking in Latent Motion

Fuxiang Yang et al.

cs.CV cs.AI cs.RO

本文提出了一种名为CoWVLA的新方法, 用于具身智能中的视觉-语言-动作模型. 该方法通过结合世界模型的时间推理与解耦的潜在运动表示, 旨在提升模型在机器人仿真任务中的性能与效率.

Infinite dimensional generative sensing

Paolo Angella, Vito Paolo Pastore, Matteo Santacesaria

math.NA cs.IT cs.LG eess.SP math.PR

本文提出了一个在Hilbert空间中进行生成式压缩感知的严格理论框架。它将局部相干性和受限等距性质推广到无限维情形，证明了测量次数仅需与先验的内在维度成比例，从而实现了与分辨率无关的稳定恢复。数值实验以Darcy流动方程为例，验证了理论并表明在严重欠采样时，使用低分辨率生成器可以作为一种隐式正则化方法。

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Ziyang Gong et al.

cs.RO cs.CL cs.CV

本文提出了ACE-Brain-0，一个统一空间推理、自动驾驶和具身操作的多模态大语言模型。其核心是提出了Scaffold-Specialize-Reconcile (SSR)范式，通过建立共享的空间智能基础来促进跨不同具身形态的通用泛化。

Shape Derivative-Informed Neural Operators with Application to Risk-Averse Shape Optimization

Xindi Gong et al.

math.OC cs.LG math.NA

本文提出了一种名为Shape-DINO的导数信息神经算子框架, 用于学习变几何族上的PDE解算子, 以加速不确定性下的形状优化. 该方法通过微分同胚映射编码几何变化, 并利用导数信息联合学习解及其Fréchet导数, 在多个算例中实现了显著的加速.

The elbow statistic: Multiscale clustering statistical significance

Francisco J. Perez-Reche

stat.ML cs.LG stat.ME

本文提出了一种名为ElbowSig的框架, 用于评估聚类结果的统计显著性, 特别是针对多尺度结构. 该方法基于归一化的离散曲率统计量, 并通过与无结构数据的零分布进行比较来形式化经典的"肘部"启发式方法.

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Zimo Wen et al.

cs.CV cs.AI

本文介绍了UniG2U-Bench，一个用于评估统一多模态模型中生成能力对理解能力影响的基准。研究发现，生成式推理通常不会提升性能，但在空间智能等特定任务上有所改善。

Physics-informed post-processing of stabilized finite element solutions for transient convection-dominated problems

Süleyman Cengizci, Ömür Uğur, Srinivasan Natesan

math.NA cs.LG

本文提出了一种混合计算框架, 将基于物理信息的神经网络(PINN)与稳定的有限元方法结合, 用于处理瞬态对流占优问题. 该方法在终端时间附近使用神经网络对有限元解进行后处理校正, 在多个基准测试中提高了精度.

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Junyi Zhang et al.

cs.CV cs.LG

本文提出了一种名为LoGeR的新型架构, 用于处理极长视频序列的稠密3D重建. 该方法通过分块处理视频流, 并引入一个基于学习的混合记忆模块来管理块间一致性, 从而在无需后优化的情况下实现了前所未有的长序列重建性能.

Gravity Falls: A Comparative Analysis of Domain-Generation Algorithm (DGA) Detection Methods for Mobile Device Spearphishing

Adam Dorian Wong, John D. Hastings

cs.CR cs.LG cs.NI

本文评估了传统启发式方法和机器学习模型在检测移动设备鱼叉式网络钓鱼中使用的DGA生成域名时的性能. 研究使用了一个名为Gravity Falls的半合成数据集进行测试, 发现现有检测器在面对不断演化的DGA策略时表现不佳.

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

William Liang et al.

cs.RO cs.AI cs.CV

本文提出了一种名为Tether的机器人自主功能交互方法, 通过利用视觉语言模型进行任务选择与评估, 实现了从少量演示中生成高质量数据流. 该方法的核心是基于语义关键点对应关系的轨迹变形策略, 能够在真实家庭环境中进行长时间的多任务自主操作.

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

Toru Lin et al.

cs.RO cs.AI cs.CV cs.LG eess.SY

本文提出了一种用于精细操作任务的学习框架, 以用刀削皮为例. 该方法通过模仿学习和基于人类偏好的微调来学习策略, 实现了对物体变化的泛化, 并在多种果蔬上取得了高成功率.

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Hanyang Wang et al.

cs.CV cs.LG

本文提出了一种名为CFG-Ctrl的统一框架，将Classifier-Free Guidance (CFG) 重新解释为对生成流施加的控制。通过引入基于滑模控制 (Sliding Mode Control) 的SMC-CFG方法，旨在解决传统线性控制方法在较大引导尺度下不稳定的问题。实验表明该方法在文本到图像生成任务中提升了语义对齐的鲁棒性。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others