bluearXiv-ai - 2026-02-24

📄 所有论文

cs.LG

Exact Attention Sensitivity and the Geometry of Transformer Stability ⭐ 精选

Seyed Morteza Emadi

cs.LG cs.AI

本文通过引入精确的 attention sensitivity 度量 $\theta(p)$ 和一种与 tokenwise 计算对齐的 block-$\infty$/RMS 几何，为 Transformer 的训练稳定性建立了一个统一的理论框架。该框架从第一性原理出发，解释了 pre-LayerNorm 的有效性、DeepNorm 中 $N^{-1/4}$ 缩放系数的来源以及 warmup 的必要性。理论分析表明，Transformer 的稳定性完全源于其架构设计的梯度流，而非训练过程中 attention pattern 的动态变化，这改变了我们对训练机制的根本理解。

Distribution-Free Sequential Prediction with Abstentions

Jialin Yu, Moïse Blanchard

cs.LG cs.DS stat.ML

本文研究了在允许对抗性实例注入的序列预测问题中, 学习者可以选择"弃权"而不受惩罚的设定. 针对未知干净样本分布$\mu$的情况, 作者提出了基于弱学习器提升的算法\textsc{AbstainBoost}, 证明了对于一般VC类, 该算法在分布无关的弃权学习中对遗忘型对手能保证次线性误差.

Revisiting the Seasonal Trend Decomposition for Enhanced Time Series Forecasting

Sanjeev Panta et al.

cs.LG stat.ML

本文改进了时间序列分解方法, 用于提升机器学习模型的预测性能. 通过分别处理趋势项和季节项, 并在基准数据集上验证了方法的有效性.

Physiologically Informed Deep Learning: A Multi-Scale Framework for Next-Generation PBPK Modeling

Shunqi Liu, Han Qiu, Tong Wang

cs.LG cs.AI q-bio.QM

本文提出了一个结合生理机制与数据驱动灵活性的统一科学机器学习框架, 用于下一代PBPK建模. 该框架包含用于药代动力学序列预测的Transformer, 用于生成虚拟患者群体的生理约束扩散模型, 以及用于学习跨物种标度律的混合神经网络架构.

Decentralized Attention Fails Centralized Signals: Rethinking Transformers for Medical Time Series

Guoqi Yu et al.

cs.LG cs.AI

本文针对医学时间序列数据中通道依赖关系建模的难题, 提出了一种名为CoTAR的集中式MLP模块来替代Transformer中的分散式注意力机制. 该方法通过引入一个全局核心token作为代理来协调token间的交互, 在多个基准数据集上验证了其在效果和效率上的优势.

Support Vector Data Description for Radar Target Detection

Jean Pinsolle et al.

cs.LG eess.SP stat.ML

本文探讨了将 Support Vector Data Description (SVDD) 及其深度扩展 Deep SVDD 应用于雷达目标检测。这些单类学习方法避免了直接估计噪声协方差矩阵，并作为 CFAR 检测器进行了适配，在模拟雷达数据上展示了有效性。

Learning to Remember: End-to-End Training of Memory Agents for Long-Context Reasoning

Kehao Zhang et al.

cs.LG cs.AI

本文提出了一个名为Unified Memory Agent (UMA)的端到端强化学习框架，用于增强模型在长上下文推理中的记忆管理能力。它在多个动态推理和学习任务上超越了长上下文模型和RAG基线。

Weak-Form Evolutionary Kolmogorov-Arnold Networks for Solving Partial Differential Equations

Bongseok Kim, Jiahao Zhang, Guang Lin

cs.LG cs.AI

本文提出了一种基于弱形式的 evolutionary Kolmogorov-Arnold Network (KAN) 框架，用于求解偏微分方程(PDEs)。该方法通过弱形式解耦线性系统规模与训练样本数，并严格施加边界条件，旨在提供比强形式方法更稳定和可扩展的PDE求解方案。

Measuring the Prevalence of Policy Violating Content with ML Assisted Sampling and LLM Labeling

Attila Dobi et al.

cs.LG stat.ME stat.ML

本文提出了一种基于设计(design-based)的测量系统, 用于估计平台中违反特定政策的内容的流行度(prevalence). 该系统结合了机器学习辅助的抽样和大型语言模型(LLM)标注, 旨在高效、无偏地生成具有置信区间的估计值, 并支持按多种维度进行细分分析.

Wide Open Gazes: Quantifying Visual Exploratory Behavior in Soccer with Pose Enhanced Positional Data

Joris Bekkers

cs.LG cs.CV

本文提出了一种基于姿态增强时空追踪数据的连续随机视觉层模型, 用于量化足球运动员的视觉探索行为. 该方法通过概率化的视野和遮挡模型生成速度依赖的视觉地图, 并与现有的球场控制等分析框架结合, 以连续的方式预测球员在持球阶段的表现.

AdaptStress: Online Adaptive Learning for Interpretable and Personalized Stress Prediction Using Multivariate and Sparse Physiological Signals

Xueyi Wang, Claudine J. C. Lamoth, Elisabeth Wilhelm

cs.LG cs.AI

本文提出了一种基于可穿戴设备生理数据的个性化、可解释的压力预测模型。该模型利用多变量时间序列特征进行压力水平预测，并在多个时间尺度上评估了性能，结果表明其优于现有基准模型。

The Geometry of Multi-Task Grokking: Transverse Instability, Superposition, and Weight Decay Phase Structure

Yongzhong Xu

cs.LG cs.AI

本文研究了多任务场景下的grokking现象, 通过系统性的weight decay扫描, 在共享主干的Transformer模型上训练双任务和三任务的模运算任务. 实验揭示了交错grokking顺序、通用可积性、weight decay相结构、全息不可压缩性以及横向脆弱性与冗余性等五个一致现象. 这些结果支持了一个动力学图景, 即多任务grokking在参数空间中构建了一个紧凑的superposition子空间.

Audio-Visual Continual Test-Time Adaptation without Forgetting

Sarthak Kumar Maharana et al.

cs.LG cs.SD

本文提出了一种用于音频-视觉持续测试时适应的方法AV-CTTA, 该方法通过选择性参数检索机制动态地从缓冲区中获取最佳的融合层参数, 以应对测试时模态分布漂移的问题. 实验表明, 该方法在基准数据集上显著优于现有方法, 并有效缓解了灾难性遗忘.

Deep Reinforcement Learning for Optimizing Energy Consumption in Smart Grid Systems

Abeer Alsheikhi, Amirfarhad Farhadi, Azadeh Zamanifar

cs.LG cs.AI cs.DC

本文提出使用Physics-Informed Neural Networks (PINNs)作为替代传统高成本智能电网模拟器的代理模型, 以加速深度强化学习在优化能源消耗问题中的训练过程. 结果表明, 该方法能显著提高样本效率并缩短训练时间.

Sub-City Real Estate Price Index Forecasting at Weekly Horizons Using Satellite Radar and News Sentiment

Baris Arat, Hasan Fehmi Ates, Emre Sefer

cs.LG q-fin.ST

本文结合卫星雷达数据和新闻文本情感分析, 提出了一个多模态框架来预测迪拜次城市级别的周度房地产价格指数. 研究发现, 在超过14周的较长预测周期内, 融合遥感与新闻情绪信号能显著提升预测精度, 而非参数学习器在此数据环境下表现优于深度架构.

Learning Beyond Optimization: Stress-Gated Dynamical Regime Regulation in Autonomous Systems

Sheng Ran

cs.LG cond-mat.stat-mech physics.soc-ph

本文提出了一种不依赖显式目标函数的学习框架, 通过评估系统内部动力学的"健康"状态来调节结构可塑性. 该框架采用双时间尺度架构, 利用内部生成的"应力"变量触发结构修改, 从而在没有外部监督的情况下实现自组织的学习过程.

GIST: Targeted Data Selection for Instruction Tuning via Coupled Optimization Geometry

Guanghui Min et al.

cs.LG cs.AI cs.CV

本文提出了一种名为GIST的数据选择方法，用于指令微调。该方法通过子空间对齐来评估训练样本对目标任务的影响，相比现有方法显著降低了计算和存储开销。

Ensemble Prediction of Task Affinity for Efficient Multi-Task Learning

Afiya Ayman, Ayan Mukhopadhyay, Aron Laszka

cs.LG

本文提出了一个名为ETAP的集成任务亲和度预测框架, 用于高效预测多任务学习(MTL)中任务组的性能增益. 该方法结合了基于梯度的线性亲和度评分和非线性预测器, 以更准确地估计任务组合的收益, 从而指导更有效的任务分组.

MapTab: Can MLLMs Master Constrained Route Planning?

Ziqiao Shang et al.

cs.LG

本文提出了一个名为MapTab的多模态基准测试, 用于评估多模态大语言模型(MLLMs)在受限推理任务(特别是路线规划)上的能力. 该基准包含两个场景, 并引入了多种约束条件, 实验表明当前模型在此类任务上仍面临显著挑战.

Diagnosing LLM Reranker Behavior Under Fixed Evidence Pools

Baris Arat, Emre Sefer

cs.LG cs.CL cs.IR

本文通过使用Multi-News数据集构建固定证据池，隔离了检索阶段的影响，专门诊断LLM重排序器的行为。研究发现，不同LLM在词汇覆盖和冗余模式上表现各异，其排序策略与传统的词汇匹配及多样性优化基线存在显著差异。

Non-Interfering Weight Fields: Treating Model Parameters as a Continuously Extensible Function

Sarim Chaudhry

cs.LG cs.AI

本文提出了一种名为 Non-Interfering Weight Fields (NIWF) 的框架，用于解决神经网络中的 catastrophic forgetting 问题。该框架将模型参数视为一个连续可扩展的函数，通过在能力坐标空间中锁定已学习任务的区域来实现对新任务的无干扰学习。

Online decoding of rat self-paced locomotion speed from EEG using recurrent neural networks

Alejandro de Miguel, Nelson Totah, Uri Maoz

cs.LG q-bio.NC

本文使用recurrent neural networks从大鼠的EEG信号中连续解码其自定步速的locomotion speed, 实现了较高的解码精度. 研究发现解码主要依赖于visual cortex和低频振荡, 且解码模型能在同一只大鼠的不同session间泛化.

Learning Invariant Visual Representations for Planning with Joint-Embedding Predictive World Models

Leonardo F. Toso et al.

cs.LG

本文提出了一种通过引入 bisimulation encoder 来增强联合嵌入预测世界模型（JEPA）鲁棒性的方法。该方法旨在抑制任务无关的“慢特征”干扰，并在存在背景变化和视觉干扰物的导航任务中验证了其有效性。

Adaptive Time Series Reasoning via Segment Selection

Shvat Messica et al.

cs.LG

本文提出了一种名为ARTIST的自适应时间序列推理方法, 它将推理任务建模为顺序决策问题, 通过强化学习训练控制器来选择信息丰富的片段, 并让推理器基于这些片段生成答案. 该方法在多个基准测试上超越了现有基线, 特别是在罕见事件定位和多片段推理任务上表现突出.

Information-Guided Noise Allocation for Efficient Diffusion Training

Gabriel Raya et al.

cs.LG cs.AI cs.CV cs.IT

本文提出了一种基于信息论的噪声调度方法 InfoNoise, 用于提升扩散模型训练效率. 该方法通过分析前向过程的熵减率来指导噪声采样, 减少了对手动调参的依赖, 并在多个数据集上实现了更快的收敛速度.

Global Low-Rank, Local Full-Rank: The Holographic Encoding of Learned Algorithms

Yongzhong Xu

cs.LG cs.AI

本文通过分析 multi-task modular arithmetic 任务中 Transformer 的训练轨迹, 研究了 grokking 现象. 研究发现, 尽管学习轨迹被限制在低维全局子空间中, 但单个权重矩阵在参数空间内保持 full-rank, 作者将此称为 holographic encoding principle.

Communication-Efficient Personalized Adaptation via Federated-Local Model Merging

Yinan Zou et al.

cs.LG

本文提出了一种名为Potara的联邦学习个性化框架, 通过合并捕获通用知识的联邦模型和捕获个性化知识的本地模型来为每个客户端构建个性化模型. 该方法基于linear mode connectivity的理论分析, 推导出最优的模型合并权重, 并在视觉和语言基准测试中验证了其在减少通信开销的同时提升个性化性能的有效性.

Large Causal Models for Temporal Causal Discovery

Nikolaos Kougioulis et al.

cs.LG

本文提出了一个用于时序因果发现的大规模因果模型(LCM)框架, 结合了多样化的合成数据生成器与真实时序数据集以实现规模化学习. 实验表明, 该模型能有效扩展到更高变量数和更深网络架构, 并在分布外场景中表现出竞争力, 为时序因果发现提供了一个有前景的基础模型范式.

Robustness of Deep ReLU Networks to Misclassification of High-Dimensional Data

Věra Kůrková

cs.LG cs.NE

本文研究了深度ReLU网络对高维数据误分类的鲁棒性. 通过分析输入受到小随机扰动时导致误分类的概率, 为网络的局部鲁棒性提供了理论下界.

Transformers for dynamical systems learn transfer operators in-context

Anthony Bao, Jeffrey Lai, William Gilpin

cs.LG nlin.CD

本文研究了transformer模型在预测不同动力系统时的上下文学习能力. 作者发现模型在训练中会采用一种基于transfer operator的预测策略.

In-Context Planning with Latent Temporal Abstractions

Baiting Luo et al.

cs.LG cs.AI

本文提出了一种结合in-context adaptation与online planning的离线强化学习框架I-TAP. 它通过学习的离散时序抽象空间, 在部分可观测和存在机制转换的环境中实现了高效的规划.

Insertion Based Sequence Generation with Learnable Order Dynamics

Dhruvesh Patel et al.

cs.LG

本文提出了一种基于插入的可学习顺序动态序列生成方法, 通过将可训练的顺序动态整合到离散流匹配的目标速率中, 避免了数值模拟的需要. 在分子生成等任务上的实验表明, 该方法相比均匀顺序动态能提升生成分子的有效性和质量.

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Mingdong Lu et al.

cs.LG cs.CV

本文提出了一种用于多视图聚类的相位一致磁谱学习方法, 通过构建复值的磁亲和度矩阵来显式建模视图间方向一致性, 并利用Hermitian磁拉普拉斯提取稳定的共享谱信号以指导表示学习. 该方法在多个基准数据集上取得了优于基线模型的表现.

Prior Aware Memorization: An Efficient Metric for Distinguishing Memorization from Generalization in Large Language Models

Trishita Tiwari, Ari Trachtenberg, G. Edward Suh

cs.LG

本文提出了一种名为Prior-Aware Memorization的轻量级、无需重新训练的方法，用于区分大型语言模型中的真实记忆与统计常见模式生成。该方法通过评估候选后缀是否与特定训练前缀强关联，而非因统计共性而普遍出现，来识别记忆。实验表明，许多先前被标记为记忆的序列实际上是统计常见的，强调了在评估数据泄露时考虑模型先验的重要性。

When World Models Dream Wrong: Physical-Conditioned Adversarial Attacks against World Models

Zhixiang Guo et al.

cs.LG

本文提出了一种针对生成式世界模型(World Models)的白盒对抗攻击方法PhysCond-WMA, 该方法通过扰动物理条件通道(如HDMap嵌入和3D框特征)来诱导语义或决策层面的失真. 实验表明该攻击在保持感知质量的同时有效, 并揭示了此类模型的安全漏洞.

HONEST-CAV: Hierarchical Optimization of Network Signals and Trajectories for Connected and Automated Vehicles with Multi-Agent Reinforcement Learning

Ziyan Zhang et al.

cs.LG cs.AI eess.SY

本文提出了一种用于混合交通流的网络级分层控制框架 HONEST-CAV. 该框架结合了基于多智能体强化学习 (MARL) 的交通信号控制与基于机器学习的轨迹规划算法 (MLTPA), 以优化网络效率和能耗. 实验表明, 在真实路网中, 该方法在车速、油耗和怠速时间上优于传统基准方法.

RadioGen3D: 3D Radio Map Generation via Adversarial Learning on Large-Scale Synthetic Data

Junshen Chen et al.

cs.LG

本文提出了RadioGen3D框架，用于生成3D无线电地图。该方法通过合成大规模数据集Radio3DMix，并利用条件生成对抗网络(cGAN)进行训练，实现了比基线方法更准确和快速的3D无线电地图估计。

GLaDiGAtor: Language-Model-Augmented Multi-Relation Graph Learning for Predicting Disease-Gene Associations

Osman Onur Kuzucu, Tunca Doğan

cs.LG cs.AI

本文提出了一种名为GLaDiGAtor的新型图神经网络框架，用于预测疾病-基因关联。该模型整合了异质生物图数据，并利用预训练语言模型为节点生成上下文特征，在评估中表现优于现有方法。

CaliCausalRank: Calibrated Multi-Objective Ad Ranking with Robust Counterfactual Utility Optimization

Xikai Yang et al.

cs.LG cs.IR

本文提出了一个名为 CaliCausalRank 的统一框架，用于解决广告排序系统中多目标优化面临的校准与偏差问题。该方法整合了训练时尺度校准、基于约束的优化以及鲁棒的反事实效用估计，并在公开数据集上验证了其有效性。

From Few-Shot to Zero-Shot: Towards Generalist Graph Anomaly Detection

Yixin Liu et al.

cs.LG

本文提出了一种通用的图异常检测(GAD)范式, 旨在构建一个无需针对每个数据集进行大量重新训练的统一模型. 具体地, 作者设计了ARC方法, 利用上下文学习, 在推理时仅需少量标记的正常样本; 并进一步扩展出无需标签的ARC_zero方法. 实验在17个真实世界图数据集上验证了其有效性.

Vectorized Bayesian Inference for Latent Dirichlet-Tree Allocation

Zheng Wang, Nizar Bouguila

cs.LG stat.ML

本文提出了Latent Dirichlet-Tree Allocation (LDTA)模型，它通过用Dirichlet-Tree分布替代LDA中的Dirichlet先验来建模主题间的层次与相关结构。作者开发了适用于该模型的变分推断与期望传播算法，并实现了高效的向量化GPU加速计算。

SGNO: Spectral Generator Neural Operators for Stable Long Horizon PDE Rollouts

Jiayi Li, Zhaonan Wang, Flora D. Salim

cs.LG

本文提出了一种名为Spectral Generator Neural Operator (SGNO)的残差时间步进器，用于提升神经算子在长时程PDE推演中的稳定性。该方法通过在Fourier空间中结合指数时间差分与门控非线性项，并施加谱截断，有效控制了误差累积和高频反馈问题。

Bayesian Lottery Ticket Hypothesis

Nicholas Kuhn et al.

cs.LG cs.CV

本文在 Bayesian neural networks (BNNs) 中验证了 Lottery Ticket Hypothesis (LTH) 的存在性。研究发现，基于权重幅度的剪枝策略在 BNNs 中能够找到性能匹配甚至超越原网络的稀疏子网络，并且这种存在性与模型规模无关。

L2G-Net: Local to Global Spectral Graph Neural Networks via Cauchy Factorizations

Samuel Fernández-Menduiña, Eduardo Pavez, Antonio Ortega

cs.LG

本文提出了一种新的 spectral graph neural network 架构 L2G-Net. 该方法通过将 graph Fourier transform 分解为作用于子图并通过 Cauchy 矩阵组合的算子, 实现了从局部到全局的谱处理, 避免了完整的特征分解, 并在强调非局部依赖性的基准测试中取得了有竞争力的性能.

Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training

Seyed Morteza Emadi

cs.LG cs.AI

本文针对transformer中attention logits的数值稳定性问题, 提出了一个秩感知的集中不等式, 用于更精确地估计其最大值. 基于此理论, 作者设计了一种几何感知的缩放方法, 用于低精度训练, 并在多个大模型上验证了其有效性.

Issues with Measuring Task Complexity via Random Policies in Robotic Tasks

Reabetswe M. Nkhumise, Mohamed S. Talamali, Aditya Gilra

cs.LG

本文通过一系列难度递增的机器人操作任务，评估了基于随机策略（如RWG, PIC, POIC）的任务复杂度度量方法。研究发现，这些指标得出的结论与机器人控制领域的常识和经验性强化学习结果相矛盾，表明需要开发更可靠的度量标准。

VariBASed: Variational Bayes-Adaptive Sequential Monte-Carlo Planning for Deep Reinforcement Learning

Joery A. de Vries et al.

cs.LG

本文提出了一种用于深度强化学习的变分贝叶斯自适应序列蒙特卡洛规划方法 VariBASeD. 该方法融合了变分信念学习, 序列蒙特卡洛规划和元强化学习, 旨在提升贝叶斯自适应马尔可夫决策过程中的学习和规划效率. 实验表明, 该方法在单 GPU 设置下, 对更大的规划预算具有良好的扩展性, 并在样本和运行时间效率上优于现有方法.

Hyperbolic Busemann Neural Networks

Ziheng Chen, Bernhard Schölkopf, Nicu Sebe

cs.LG cs.AI cs.CV

本文提出了基于Busemann函数的双曲空间神经网络层, 包括Busemann MLR和Busemann FC层. 这些层为处理层次化数据提供了高效的组件, 并在多个任务上展示了优于现有双曲方法的性能.

Boosting for Vector-Valued Prediction and Conditional Density Estimation

Jian Qian, Shu Ge

cs.LG stat.ML

本文研究了向量值预测和条件密度估计中的 boosting 方法。作者提出了一个基于几何中位数聚合的通用框架，并分析了其在多种散度下的理论性质。

HEHRGNN: A Unified Embedding Model for Knowledge Graphs with Hyperedges and Hyper-Relational Edges

Rajesh Rajagopalamenon, Unnikrishnan Cheramangalath

cs.LG cs.AI

本文提出了一种名为HEHRGNN的统一嵌入模型, 用于处理同时包含hyperedges和hyper-relational edges的知识图谱. 该模型通过一个统一的表示格式和一种新颖的GNN编码器来捕获复杂的图结构, 并在链接预测任务上展示了优于基线模型的性能.

PCA-VAE: Differentiable Subspace Quantization without Codebook Collapse

Hao Lu et al.

cs.LG cs.CV

本文提出了一种名为PCA-VAE的模型, 使用在线PCA瓶颈和Oja's rule训练, 以替代传统的vector quantization (VQ). 该方法避免了codebook collapse等问题, 在图像重建任务上取得了更好的效果, 同时生成了具有语义解释性的latent dimensions.

TRUE: A Trustworthy Unified Explanation Framework for Large Language Model Reasoning

Yujiao Yang

cs.LG cs.AI cs.CL

本文提出了一个用于解释大语言模型推理过程的可信统一框架(TRUE). 该框架整合了可执行推理验证、可行区域有向无环图建模和因果故障模式分析, 旨在提供多层级、可验证的解释.

DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation

Yangchen Zeng

cs.LG cs.CV cs.CY

本文提出了一种名为DeepInterestGR的生成式推荐框架, 旨在解决现有方法依赖浅层行为信号导致的"浅层兴趣"问题. 它通过利用多模态大语言模型挖掘深层兴趣表示, 并结合强化学习进行优化, 在多个基准数据集上取得了优于现有方法的效果.

SLDP: Semi-Local Differential Privacy for Density-Adaptive Analytics

Alexey Kroshnin, Alexandra Suvorikova

cs.LG

本文提出了一种名为 Semi-Local Differential Privacy (SLDP) 的新框架，用于解决 Local Differential Privacy (LDP) 在密度自适应分析中面临的隐私预算与迭代次数耦合的问题。该框架通过为每个用户分配一个基于局部密度的隐私区域，并允许服务器通过一个交互式协议来估计这些区域，从而实现了高分辨率网格分析而无需额外的隐私成本。

From Human-Level AI Tales to AI Leveling Human Scales

Peter Romero et al.

cs.LG

本文提出了一个将AI模型性能校准到"世界人口"尺度的框架, 通过整合多个人类测试数据集来构建不同能力的对数尺度. 该方法旨在解决基准分数不可比或人类基线样本狭窄的问题, 并使用LLMs进行人口统计外推以估计尺度基数.

LoMime: Query-Efficient Membership Inference using Model Extraction in Label-Only Settings

Abdullah Caglar Oksuz, Anisa Halimi, Erman Ayday

cs.LG cs.CR

本文提出了一种基于模型提取的标签成员推理攻击框架, 通过主动采样和合成数据等技术, 在严格的黑盒约束下, 以较低的查询成本实现了与现有方法相当的推理性能.

Exponential Convergence of (Stochastic) Gradient Descent for Separable Logistic Regression

Sacchit Kale et al.

cs.LG math.OC

本文研究了梯度下降和随机梯度下降在可分逻辑回归问题中的收敛性. 作者证明, 采用一种简单的非自适应递增步长策略, 可以在保持稳定的优化状态下实现指数收敛, 无需依赖不稳定区域.

Toward Manifest Relationality in Transformers via Symmetry Reduction

J. François, L. Ravera

cs.LG cs.NE hep-th stat.ML

本文提出了一种基于对称性约减的框架, 用于处理Transformer模型内部由坐标依赖表示和连续对称性导致的冗余. 该方法将表示、注意力机制和优化动态重新表述为不变的关系量, 从而在构造上消除冗余自由度.

Incremental Transformer Neural Processes

Philip Mortimer et al.

cs.LG

本文提出了一种支持增量更新的Transformer Neural Processes模型, 通过因果掩码和KV缓存等技术, 在保持预测性能的同时, 将序列推理的计算复杂度从二次降至线性. 实验表明该模型在表格回归和温度预测等任务上有效.

Conditionally Site-Independent Neural Evolution of Antibody Sequences

Stephen Zhewen Lu et al.

cs.LG q-bio.PE

本文提出了一种名为CoSiNE的连续时间Markov链模型, 用于抗体序列的进化建模. 该方法结合了深度神经网络参数化, 旨在捕获序列进化中的复杂上位性相互作用(epistatic interactions).

Why ReLU? A Bit-Model Dichotomy for Deep Network Training

Ilan Doron-Arad, Elchanan Mossel

cs.LG

本文在有限精度计算的 bit-level 模型下，分析了深度网络经验风险最小化（ERM）的理论复杂度。研究发现，对于使用多项式激活函数的网络，训练是 $\#P$-Hard 的，而使用 ReLU 等分段线性激活函数时，问题属于 NP 且反向传播可在多项式时间内运行。

Learning to Detect Language Model Training Data via Active Reconstruction

Junjie Oscar Yin et al.

cs.LG cs.AI cs.CL

本文提出了一种主动的数据重建攻击方法, 通过强化学习微调模型来诱导其重建给定文本, 并利用重建难易度的差异进行成员推断. 实验表明该方法在多种检测任务上优于现有方法.

Pushing the Limits of Inverse Lithography with Generative Reinforcement Learning

Haoyu Yang, Haoxing Ren

cs.LG cs.AI

本文提出了一种结合生成式AI与强化学习的混合框架, 用于逆光刻技术(ILT)中的掩模合成. 该方法将掩模生成视为条件采样问题, 通过预训练和基于ILT引导的强化学习微调, 生成多个候选掩模, 再经快速优化后选取最佳结果, 在多个基准测试中提升了掩模质量和处理效率.

A Markovian View of Iterative-Feedback Loops in Image Generative Models: Neural Resonance and Model Collapse

Vibhas Kumar Vats, David J. Crandall, Samuel Goree

cs.LG cs.AI cs.CV

本文通过将迭代反馈过程建模为 Markov Chain, 分析了图像生成模型中反馈循环的长期行为. 研究发现了收敛于潜在空间中低维不变结构的"神经共振"现象, 并提出了一个包含八种模式的模型崩溃行为分类法.

Back to Blackwell: Closing the Loop on Intransitivity in Multi-Objective Preference Fine-Tuning

Jiahao Zhang et al.

cs.LG

本文针对多目标偏好微调中的不可传递性偏好问题, 提出了一种基于博弈论的新解决方案概念, 称为最大熵 Blackwell 胜者. 作者还开发了相应的算法 PROSPER, 并将其应用于基于多目标反馈的大语言模型微调任务中, 在多个基准测试上取得了优于基线方法的结果.

IDLM: Inverse-distilled Diffusion Language Models

David Li et al.

cs.LG cs.AI

本文提出了一种名为IDLM的方法, 通过将连续扩散模型中的逆蒸馏技术扩展到离散文本生成领域, 旨在加速扩散语言模型的推理过程. 该方法通过理论保证和梯度稳定化设计, 在多个模型上实现了显著的步数缩减, 同时保持了生成质量.

TimeRadar: A Domain-Rotatable Foundation Model for Time Series Anomaly Detection

Hui He et al.

cs.LG

本文提出了一种名为TimeRadar的时序基础模型，用于无监督的时序异常检测。其核心创新在于引入了一个可学习的分数阶，将时序数据旋转到一个自适应的分数时频域中进行重构，并结合上下文偏差学习来捕捉局部异常模式。

RKHS Representation of Algebraic Convolutional Filters with Integral Operators

Alejandro Parada-Mayorga, Alejandro Ribeiro, Juan Bazerque

cs.LG

本文在代数信号处理框架下, 建立了积分算子与 reproducing kernel Hilbert spaces (RKHS) 之间的系统联系. 研究表明, 积分算子的值域自然地诱导出 RKHS 卷积信号模型, 其 reproducing kernel 由算子符号的 box product 决定.

The Power of Decaying Steps: Enhancing Attack Stability and Transferability for Sign-based Optimizers

Wei Tao et al.

cs.LG

本文从优化视角分析了基于符号的对抗攻击方法在非收敛性和不稳定性上的问题, 提出通过引入单调递减的坐标步长来改进现有方法. 实验表明, 所提出的MDCS方法在图像分类和跨模态检索任务上提升了攻击的稳定性和可迁移性.

Learning from Complexity: Exploring Dynamic Sample Pruning of Spatio-Temporal Training

Wei Chen et al.

cs.LG cs.AI stat.ML

本文提出了一种名为ST-Prune的动态样本剪枝方法，用于提升时空预测模型的训练效率。该方法根据模型实时学习状态动态识别信息量最大的样本，实验表明其能加速训练并保持模型性能。

Robust Predictive Uncertainty and Double Descent in Contaminated Bayesian Random Features

Michele Caprio et al.

cs.LG math.PR math.ST

本文提出了一种鲁棒的贝叶斯随机特征回归框架，通过引入Huber风格的污染集来显式处理先验和似然的设定错误。作者推导了后验预测密度的显式边界，并引入了一个不精确的最高密度区域用于不确定性量化。

Detecting labeling bias using influence functions

Frida Jørgensen, Nina Weng, Siavash Bigdeli

cs.LG cs.AI

本文探讨了使用 influence functions 来检测数据标注偏差。通过在 MNIST 和 CheXpert 数据集上引入可控的标签错误，实验表明该方法能有效识别出大部分误标注样本。

Test-Time Learning of Causal Structure from Interventional Data

Wei Chen et al.

cs.LG cs.AI

本文提出了一种名为TICL的新方法，用于在测试时从干预数据中学习因果结构。该方法结合了测试时训练与联合因果推断，旨在处理未知干预目标下的分布偏移问题。

Celo2: Towards Learned Optimization Free Lunch

Abhinav Moudgil, Boris Knyazev, Eugene Belilovsky

cs.LG cs.AI

本文提出了一种新的元训练方法，能够以极低的计算成本（4.5 GPU小时）训练出性能良好的通用学习型优化器。该优化器在远超其元训练分布规模的任务（如13亿参数的GPT-3 XL预训练）上表现出稳定的扩展性和强大的泛化能力。

Incremental Learning of Sparse Attention Patterns in Transformers

Oğuz Kaan Yüksel, Rodrigo Alvarez Lucendo, Nicolas Flammarion

cs.LG math.OC stat.ML

本文研究了Transformer模型在一种高阶Markov链任务上的增量学习行为. 作者发现模型通过稀疏注意力模式分阶段学习, 并分析了从竞争到合作的学习动态.

Virtual Parameter Sharpening: Dynamic Low-Rank Perturbations for Inference-Time Reasoning Enhancement

Saba Kublashvili

cs.LG cs.AI cs.MS math.PR

本文提出了一种称为Virtual Parameter Sharpening (VPS)的推理时技术，通过动态的低秩扰动来增强冻结的transformer线性层。该方法利用激活统计信息即时构建扰动，无需更新持久参数，并分析了其谱特性。

Online Realizable Regression and Applications for ReLU Networks

Ilan Doron-Arad, Idan Mehalel, Elchanan Mossel

cs.LG

本文研究了在满足近似三角不等式(近似伪度量)的损失下, 可实现(realizable)在线回归(online regression)的对抗性学习问题. 作者提出了一种通用的势能方法(potential method), 将最小最大可实现累积损失的上界与假设类在诱导的sup伪度量下的覆盖数(covering numbers)联系起来, 并通过一个Dudley-type熵积分来刻画.

Adaptive Problem Generation via Symbolic Representations

Teresa Yeo et al.

cs.LG

本文提出了一种通过符号表示进行自适应问题生成的方法, 用于为强化学习生成可验证奖励的训练数据, 以提升小型开源语言模型在数学任务上的表现. 该方法在符号问题空间中进行修改, 将问题表示为符号变量和约束的集合, 从而实现对问题结构的精确控制, 并解耦数学推理与语言表述. 此外, 作者引入了一个闭环框架, 通过符号空间中的提示优化来学习修改策略, 使问题难度适应模型能力. 实验表明, 自适应生成和符号表示修改均有助于提升模型的数学解题能力.

HybridFL: A Federated Learning Approach for Financial Crime Detection

Afsana Khan et al.

cs.LG cs.AI

本文提出了一种用于混合数据划分场景的联邦学习方法 HybridFL, 并将其应用于金融犯罪检测. 实验表明该方法在保护数据隐私的同时, 性能接近集中式基准.

How to Allocate, How to Learn? Dynamic Rollout Allocation and Advantage Modulation for Policy Optimization

Yangyi Fang et al.

cs.LG cs.AI

本文针对强化学习在大型语言模型推理中的应用, 提出了一种名为DynaMO的双重优化框架. 该框架在序列层面优化了rollout分配策略, 并在token层面设计了梯度感知的优势调制机制, 以提升训练效率和稳定性.

Understanding Empirical Unlearning with Combinatorial Interpretability

Shingo Kodama et al.

cs.LG

本文在 combinatorial interpretability 框架下，研究了神经网络中的经验性遗忘问题。通过分析两层网络，探讨了遗忘方法是否真正移除了目标概念的知识。

Evaluating SAP RPT-1 for Enterprise Business Process Prediction: In-Context Learning vs. Traditional Machine Learning on Structured SAP Data

Amit Lal

cs.LG cs.AI

本文从实践者角度首次独立评估了SAP的检索预训练Transformer模型RPT-1在结构化企业数据上的表现。该模型在无需任务特定训练的情况下，其预测准确率能达到经过调优的梯度提升决策树模型的91-96%。

Alternating Bi-Objective Optimization for Explainable Neuro-Fuzzy Systems

Qusai Khaled, Uzay Kaymak, Laura Genga

cs.LG cs.NE

本文提出了一种用于可解释神经模糊系统的交替双目标优化方法 X-ANFIS. 该方法通过交替梯度更新来平衡预测精度与可解释性, 在多个回归数据集上验证了其有效性.

DGPO: RL-Steered Graph Diffusion for Neural Architecture Generation

Aleksei Liuliakov, Luca Hermes, Barbara Hammer

cs.LG cs.AI cs.NE

本文提出了一种名为DGPO的方法, 用于通过强化学习微调离散图扩散模型, 以生成有向无环图(DAGs)形式的神经网络架构. 该方法在NAS-Bench数据集上进行了验证, 展示了其从有限数据中学习可迁移结构先验的能力.

Spectral bias in physics-informed and operator learning: Analysis and mitigation guidelines

Siavash Khodakarami et al.

cs.LG

本文分析了 physics-informed 和 operator learning 框架中的 spectral bias 现象, 探讨了网络架构、损失函数和优化策略对其的影响. 研究表明, 二阶优化方法能有效改变频谱学习顺序, 提升高频模式的恢复精度.

Taming Preconditioner Drift: Unlocking the Potential of Second-Order Optimizers for Federated Learning on Non-IID Data

Junkang Liu et al.

cs.LG cs.AI

本文针对联邦学习中二阶优化器在非独立同分布数据上的不稳定性问题, 提出了一个名为FedPAC的框架. 该框架通过解耦参数聚合与几何同步, 旨在稳定训练并提升模型性能.

AdsorbFlow: energy-conditioned flow matching enables fast and realistic adsorbate placement

Jiangjie Qiu et al.

cs.LG

本文提出了一种名为AdsorbFlow的确定性生成模型, 用于快速生成催化剂表面吸附物的低能量几何构型. 该方法基于conditional flow matching学习rigid-body configuration space上的能量条件向量场, 通过classifier-free guidance引入能量信息, 将采样过程简化为只需约5步的ODE积分, 相比基于denoising diffusion的方法显著提升了采样速度和成功率.

Soft Sequence Policy Optimization: Bridging GMPO and SAPO

Svetlana Glazyrina, Maksim Kryzhanovskiy, Roman Ischenko

cs.LG cs.AI

本文提出了一种名为Soft Sequence Policy Optimization的新目标函数, 用于大型语言模型的对齐任务. 该方法在Group Relative Policy Optimization框架内, 通过在序列级重要性权重中引入token级概率比的软门控函数, 旨在平衡策略探索的有效性与训练稳定性.

CTS-Bench: Benchmarking Graph Coarsening Trade-offs for GNNs in Clock Tree Synthesis

Barsat Khadka, Kawsher Roxy, Md Rubel Ahmed

cs.LG

本文提出了CTS-Bench，一个用于评估图神经网络在时钟树综合任务中图粗化权衡的基准套件。研究发现，通用的图粗化方法虽然能显著提升计算效率，但会损害对时钟偏差等关键指标的预测精度。

Partial Soft-Matching Distance for Neural Representational Comparison with Partial Unit Correspondence

Chaitanya Kapoor, Alex H. Williams, Meenakshi Khosla

cs.LG cs.NE stat.ML

本文提出了一种用于神经表征比较的 partial soft-matching distance. 该方法基于 partial optimal transport, 允许部分神经元不进行匹配, 从而提高了对噪声和异常值的鲁棒性. 在模拟数据和真实神经数据上的实验表明, 该方法能更精确地对齐同源脑区, 并能有效识别深度网络中功能一致或分化的单元.

Training-Free Cross-Architecture Merging for Graph Neural Networks

Rishabh Bhattacharya, Vikaskumar Kalsariya, Naresh Manwani

cs.LG

本文提出了一个无需训练的跨架构图神经网络(GNN)合并框架H-GRAMA. 该方法通过将不同GNN层的功能统一到一个共享的算子族(Universal Message Passing Mixture)中, 从而在算子空间而非参数空间进行模型合并, 实现了如GCN到GAT等不同架构的融合, 并在多数情况下保持了专家模型的精度, 同时获得了推理加速.

Smooth Gate Functions for Soft Advantage Policy Optimization

Egor Denisov et al.

cs.LG cs.AI

本文探讨了在 Soft Adaptive Policy Optimization (SAPO) 框架下，不同平滑门函数（smooth gate function）对大型语言模型训练稳定性和最终性能的影响。作者通过实验，为设计更鲁棒的策略优化目标提供了实践指导。

Active perception and disentangled representations allow continual, episodic zero and few-shot learning

David Rawlinson, Gideon Kowadlo

cs.LG cs.AI

本文提出了一种互补学习系统(CLS)架构, 其中快速学习器放弃泛化能力以专注于持续零样本和少样本学习. 该系统通过主动感知和利用慢速学习器提供的上下文偏置来编码新刺激, 实现了快速推理与结构化泛化的共存.

LLMs Can Learn to Reason Via Off-Policy RL

Daniel Ritter et al.

cs.LG

本文提出了一种名为OAPL的新型off-policy强化学习算法，用于大型语言模型的后训练。该方法无需重要性采样或修改推理引擎，在数学和代码生成基准测试中表现优于或匹配现有方法，并能显著提高训练效率。

Stable Deep Reinforcement Learning via Isotropic Gaussian Representations

Ali Saheb et al.

cs.LG cs.AI

本文提出了一种称为 Sketched Isotropic Gaussian Regularization 的方法，用于在深度强化学习中塑造各向同性高斯表示。该方法旨在通过正则化来稳定训练过程，减少表示崩溃和神经元休眠，并在多个领域上展示了其有效性。

Spiking Graph Predictive Coding for Reliable OOD Generalization

Jing Ren et al.

cs.LG cs.SI

本文提出了一种名为SIGHT的图学习模块, 用于提升图神经网络在分布外(OOD)场景下的泛化可靠性. 该方法通过迭代的误差驱动修正来暴露模型内部的不匹配信号, 从而改进预测准确性和不确定性估计.

In Defense of Cosine Similarity: Normalization Eliminates the Gauge Freedom

Taha Bouhsine

cs.LG

本文指出, 先前关于 cosine similarity 在 matrix factorization embeddings 中具有 gauge freedom 的结论, 实际上源于训练目标与度量方式的不匹配. 作者证明, 当 embeddings 被约束在单位球面 $\mathbb{S}^{d-1}$ 上时, 这种任意性会消失, 且 cosine distance 与 squared Euclidean distance 单调等价.

One Size Fits None: Modeling NYC Taxi Trips

Tomas Eglinskas

cs.LG cs.AI

本文通过分析2024年的2.8亿次出租车行程数据，比较了传统出租车与网约车服务的小费预测模型。研究发现，由于车内支付屏幕的存在，传统出租车的小费可预测性很高（$R^2 \approx 0.72$），而基于应用程序的小费行为则近乎随机，难以建模（$R^2 \approx 0.17$）。作者指出，构建一个通用模型是错误的，并强调了针对不同服务类别需要专门化模型的重要性。

LEVDA: Latent Ensemble Variational Data Assimilation via Differentiable Dynamics

Phillip Si, Peng Chen

cs.LG math.OC

本文提出了一种名为LEVDA的集合变分数据同化方法，它在预训练的可微分神经动力学替代模型的低维潜在空间中运行。该方法无需伴随模型或辅助编码器，即可处理不规则时空采样数据，并在计算效率和同化精度上优于传统方法。

Federated Causal Representation Learning in State-Space Systems for Decentralized Counterfactual Reasoning

Nazal Mohamed, Ayush Mohanty, Nagi Gebraeel

cs.LG eess.SY stat.ML

本文提出了一种用于状态空间系统的联邦因果表示学习框架, 旨在解决工业资产网络中因数据隐私和模型专有性而难以进行集中式因果推理的问题. 该方法通过将高维观测映射到低维潜在状态来分离内在动态与控制影响, 并利用中央服务器估计全局状态转移和控制结构, 从而支持去中心化的反事实推理.

RAmmStein: Regime Adaptation in Mean-reverting Markets with Stein Thresholds -- Optimal Impulse Control in Concentrated AMMs

Pranay Anchuri

cs.LG q-fin.TR

本文提出了一种用于集中流动性自动做市商(AMM)的优化控制方法RAmmStein. 它将流动性管理建模为一个最优脉冲控制问题, 并使用深度强化学习来学习适应市场均值回归状态的重平衡策略, 在模拟实验中相比基准策略提高了净回报并降低了操作频率.

PIS: A Physics-Informed System for Accurate State Partitioning of $Aβ_{42}$ Protein Trajectories

Qianfeng Yu, Ningkang Peng, Yanhui Gu

cs.LG

本文提出了一种名为PIS的物理信息驱动系统, 用于对$A\beta_{42}$蛋白质轨迹进行准确的状态划分. 该系统通过整合预计算的物理先验来提取拓扑特征, 并提供了一个具有物理可解释性的交互式分析平台.

SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

Zelin He et al.

cs.LG cs.AI cs.CL stat.ML

本文提出了一种结合领域知识注入与强化学习的混合框架, 用于提升时间序列诊断推理任务. 该方法通过将专门的时间序列模型生成的洞察注入通用推理模型的推理轨迹中, 并在多个数据集上展示了性能提升.

Making Conformal Predictors Robust in Healthcare Settings: a Case Study on EEG Classification

Arjun Chatterjee et al.

cs.LG cs.AI stat.ML

本文评估了多种conformal prediction方法在EEG癫痫分类任务上的表现, 针对医疗场景中的分布偏移问题. 研究表明, 个性化的校准策略能显著提升预测集的覆盖率.

Federated Learning Playground

Bryan Guanrong Shan, Alysa Ziying Tan, Han Yu

cs.LG cs.AI

本文介绍了一个名为Federated Learning Playground的交互式浏览器平台。该平台旨在通过可视化实验，帮助用户理解联邦学习的核心概念与挑战。

Softmax is not Enough (for Adaptive Conformal Classification)

Navid Akhavan Attar et al.

cs.LG cs.AI

本文提出了一种基于Helmholtz Free Energy的改进方法，用于增强Conformal Prediction分类器的自适应性和效率。该方法通过重新加权nonconformity scores，使预测集的大小能更好地反映输入样本的难度。

Less is More: Convergence Benefits of Fewer Data Weight Updates over Longer Horizon

Rudrajit Das et al.

cs.LG math.OC stat.ML

本文分析了数据混合（data mixing）问题中内层更新步数$T$对收敛性的影响。研究表明，在固定参数更新预算$N$下，当使用随机梯度时，最优的$T$约为$\Theta({(N \log N)}^{1/2})$。

Variational Trajectory Optimization of Anisotropic Diffusion Schedules

Pengxi Liu, Zeyu Michael Li, Xiang Cheng

cs.LG cs.CV

本文提出了一个用于各向异性扩散模型的变分框架, 通过一个矩阵值路径 $M_t(\theta)$ 来参数化跨子空间的噪声分配. 该框架包含一个联合训练分数网络和学习 $M_t(\theta)$ 的轨迹级目标, 并推导了关于 $\theta$ 的导数估计器以实现高效优化. 此外, 作者还开发了一种高效实现的反向ODE求解器, 作为二阶Heun离散化算法的各向异性推广. 在多个图像数据集上的实验表明, 该方法在不同NFE (Number of Function Evaluations) 条件下均能持续提升基线EDM模型的性能.

Beyond Accuracy: A Unified Random Matrix Theory Diagnostic Framework for Crash Classification Models

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

cs.LG stat.ML

本文提出了一种基于Random Matrix Theory (RMT)和Heavy-Tailed Self-Regularization (HTSR)的谱诊断框架，用于评估交通事故分类模型的结构质量，超越了传统准确率指标。该框架通过分析模型权重矩阵等的谱分布，将幂律指数$\alpha$作为模型是否过拟合的指标，并在大规模数据集上进行了验证。

A Statistical Approach for Modeling Irregular Multivariate Time Series with Missing Observations

Dingyi Nie, Yixing Wu, C.-C. Jay Kuo

cs.LG cs.AI

本文提出了一种处理不规则多元时间序列的统计方法, 通过提取与时间无关的汇总统计量(如每个变量的观测值均值、标准差以及连续观测间变化的均值和变异性)来消除时间轴, 从而将序列转换为固定维度的表示. 该方法在多个生物医学数据集上使用标准分类器取得了优异的性能, 其简单性和有效性挑战了复杂时序建模的必要性.

Grokking Finite-Dimensional Algebra

Pascal Jr Tikeng Notsawo, Guillaume Dumas, Guillaume Rabusseau

cs.LG cs.AI math.RA

本文研究了在有限维代数中学习乘法运算时的grokking现象. 它将学习群运算视为一个特例, 并将学习问题与矩阵分解或离散表示学习联系起来, 为理解不同代数结构下的泛化动态提供了一个统一框架.

The Sample Complexity of Replicable Realizable PAC Learning

Kasper Green Larsen et al.

cs.LG cs.CC cs.DS

本文研究了可复现可实现PAC学习的样本复杂度问题. 作者通过构造一个特定的困难学习实例, 证明了样本复杂度下界与假设类大小$|H|$的关系接近$(\log|H|)^{3/2}$. 证明中运用了与假设类相关的Cayley图构造和对其邻接矩阵spectral性质的分析.

Leap+Verify: Regime-Adaptive Speculative Weight Prediction for Accelerating Neural Network Training

Jeremy McEntire

cs.LG econ.GN

本文提出了一种名为Leap+Verify的框架, 通过预测未来模型权重并进行验证来加速神经网络训练. 该框架根据激活空间余弦相似度动态划分训练阶段, 并测试了多种权重预测器在不同规模模型上的表现.

Advantage-based Temporal Attack in Reinforcement Learning

Shenghong He

cs.LG

本文提出了一种基于advantage的时序攻击方法AAT, 通过multi-scale causal self-attention机制增强对抗扰动在时序上的相关性, 并使用weighted advantage机制指导生成高性能对抗样本. 实验表明该方法在多个基准任务上达到或超越了主流攻击方法的性能.

Interpolation-Driven Machine Learning Approaches for Plume Shine Dose Estimation: A Comparison of XGBoost, Random Forest, and TabNet

Biswajit Sadhu et al.

cs.LG cs.AI

本文提出了一种基于插值辅助的机器学习框架, 用于快速估算羽状烟云辐射剂量. 通过使用插值方法扩充离散数据集, 并比较了XGBoost, Random Forest和TabNet等模型的性能, 发现XGBoost在插值后的高分辨率数据上表现最佳. 研究还通过可解释性分析探讨了不同模型对输入特征的利用差异, 并开发了一个基于Web的GUI工具用于实际场景评估.

Detecting High-Potential SMEs with Heterogeneous Graph Neural Networks

Yijiashun Qi, Hanzhe Guo, Yijiazhen Qi

cs.LG cs.AI

本文提出了一种名为SME-HGT的Heterogeneous Graph Transformer框架，用于预测小型企业获得后续政府资助的潜力。该方法利用公开数据构建异质图，并通过时间分割评估证明了其优于基线模型的性能。

ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads?

Ayush Nangia et al.

cs.LG

本文介绍了ISO-Bench，一个用于评估编码智能体在真实世界推理优化任务中能力的基准测试。该基准从流行的LLM服务框架中选取任务，结合基于执行和基于LLM的混合评估指标，发现现有智能体在识别瓶颈和生成有效解决方案方面存在差距。

Variational Inference for Bayesian MIDAS Regression

Luigi Simeone

cs.LG stat.CO stat.ME stat.ML

本文为具有线性权重参数化的贝叶斯混合数据抽样(MIDAS)回归模型开发了一种坐标上升变分推断(CAVI)算法. 该算法利用模型的条件共轭结构, 提供了回归系数、权重参数和误差方差变分更新的解析解, 在蒙特卡洛研究中相比通用方法展现出显著的速度优势和准确性.

Is Your Diffusion Sampler Actually Correct? A Sampler-Centric Evaluation of Discrete Diffusion Language Models

Luhan Tang et al.

cs.LG

本文提出了一个 sampler-centric oracle 框架来评估离散扩散语言模型 (dDLMs) 的采样器。该框架通过使用精确的 Hidden Markov Model 后验来隔离采样器引入的误差，并证明即使使用理想的 denoiser，少步采样器在分布上也是不正确的。

VecFormer: Towards Efficient and Generalizable Graph Transformer with Graph Token Attention

Jingbo Zhou et al.

cs.LG cs.AI

本文提出VecFormer, 一种用于节点分类的高效且泛化性强的Graph Transformer模型. 它采用两阶段训练范式, 通过codebook学习Graph Codes, 并在Graph Token级别进行注意力计算, 以降低复杂度并提升在out-of-distribution场景下的性能.

Compositional Planning with Jumpy World Models

Jesse Farebrother et al.

cs.LG cs.AI stat.ML

本文提出了一种使用jumpy world models进行组合规划的方法, 通过在不同时间尺度上学习预训练策略诱导的状态占用预测模型, 并结合跨时间尺度的consistency objective来提升长时程预测的准确性. 该方法在多个长时程任务上实现了比基于原始动作的规划更好的零样本性能.

Evaluating the Impact of Data Anonymization on Image Retrieval

Marvin Chen, Manuel Eberhardinger, Johannes Maucher

cs.LG

本文通过一个简单的评估框架, 系统地研究了数据匿名化对基于内容的图像检索(CBIR)性能的影响. 实验表明, 在原始数据上训练的模型在经过匿名化处理后能产生最相似的检索结果, 这为开发隐私合规的CBIR系统提供了实用见解.

Spectral Phase Encoding for Quantum Kernel Methods

Pablo Herrero Gómez et al.

cs.LG quant-ph

本文提出了一种结合离散傅里叶变换(DFT)前端与对角相位嵌入的混合量子特征构造方法，称为Spectral Phase Encoding (SPE)。该方法旨在提升量子核方法在数据存在加性噪声时的鲁棒性，并通过实验验证了其在噪声下的性能退化小于其他量子变体。

NEXUS : A compact neural architecture for high-resolution spatiotemporal air quality forecasting in Delhi Nationa Capital Region

Rampunit Kumar, Aditya Maheshwari

cs.LG cs.AI

本文提出了一种名为NEXUS的紧凑神经网络架构，用于德里国家首都区域的高分辨率时空空气质量预测。该模型通过整合patch embedding、低秩投影和自适应融合机制，以极少的参数量实现了对多种污染物的高精度预测，并分析了该区域污染物的时空分布特征。

Representation Stability in a Minimal Continual Learning Agent

Vishnu Subramanian

cs.LG cs.AI

本文研究了一个极简的持续学习智能体, 通过追踪其内部状态向量的演化来量化表征稳定性. 实验表明, 在一致的输入下, 系统会从初始的可塑状态过渡到稳定的表征状态, 并能从有界的语义扰动中恢复.

PaReGTA: An LLM-based EHR Data Encoding Approach to Capture Temporal Information

Kihyuk Yoon et al.

cs.LG

本文提出了一种基于LLM的EHR数据编码框架PaReGTA, 它通过将纵向医疗事件转换为带有时序信息的文本, 并利用对比微调获得就诊嵌入, 最后通过混合时序池化生成患者表示. 该方法在数据有限的队列中表现良好, 并在偏头痛分类任务上优于稀疏基线模型.

PerturbDiff: Functional Diffusion for Single-Cell Perturbation Modeling

Xinyu Yuan et al.

cs.LG cs.AI

本文提出了一种名为PerturbDiff的模型，用于单细胞扰动建模。该方法通过将分布嵌入Hilbert空间，并直接在概率分布上定义基于扩散的生成过程，从而捕捉由潜在因素引起的群体水平响应变化。

Understanding the Curse of Unrolling

Sheheryar Mehmood, Florian Knoll, Peter Ochs

cs.LG math.OC

本文分析了算法展开(algorithm unrolling)在计算迭代算法解映射的Jacobians时出现的初始偏差现象，即“展开诅咒”。研究通过非渐近分析解释了该行为的根源，并提出了通过截断早期迭代来缓解问题的方法，同时指出双层优化中的预热启动(warm-starting)提供了一种自然的解决方案。

The Confusion is Real: GRAPHIC - A Network Science Approach to Confusion Matrices in Deep Learning

Johanna S. Fröhlich et al.

cs.LG cs.AI

本文提出了一种名为GRAPHIC的架构无关方法, 用于在类别层面分析神经网络. 该方法将中间层线性分类器产生的confusion matrices解释为有向图的邻接矩阵, 并利用网络科学工具来可视化和量化训练过程中的学习动态.

Addressing Instrument-Outcome Confounding in Mendelian Randomization through Representation Learning

Shimeng Huang, Matthew Robinson, Francesco Locatello

cs.LG

本文提出了一种利用多环境数据和表示学习框架来应对Mendelian Randomization中工具变量与未观测混杂因素相关性问题的方法。该方法通过跨环境不变性来恢复遗传工具变量的潜在外生成分，并在模拟和半合成实验中验证了有效性。

Unsupervised Anomaly Detection in NSL-KDD Using $β$-VAE: A Latent Space and Reconstruction Error Approach

Dylan Baptiste et al.

cs.LG cs.NE stat.ML

本文在 NSL-KDD 数据集上，使用 $\beta$-VAE 探索了网络流量异常检测的无监督方法。研究比较了利用潜在空间距离和重构误差两种检测策略，并分析了它们在无监督场景下的表现。

Bayesian Meta-Learning with Expert Feedback for Task-Shift Adaptation through Causal Embeddings

Lotta Mäkinen, Jorge Loría, Samuel Kaski

cs.LG

本文提出了一种基于因果嵌入的贝叶斯元学习方法, 通过利用专家对任务间因果相似性的判断来构建任务特定的先验, 旨在缓解任务分布偏移时的负迁移问题. 该方法在模拟和临床预测实验中显示出一定的效果.

Stop Preaching and Start Practising Data Frugality for Responsible Development of AI

Sophia N. Wilson et al.

cs.LG cs.CY

本文是一篇立场论文, 主张机器学习社区应从倡导转向实践数据节俭, 以实现负责任的人工智能开发. 文章提供了ImageNet-1K下游使用能耗的估算, 并通过基于coreset的子集选择实验证明数据节俭在减少训练能耗和缓解数据集偏差方面的可行性.

Drift Localization using Conformal Predictions

Fabian Hinder et al.

cs.LG stat.ML

本文提出了一种基于conformal predictions的新方法, 用于定位概念漂移(concept drift)中受影响的样本. 该方法旨在克服高维低信号场景下传统局部检验方案的局限性, 并在图像数据集上进行了验证.

Decision MetaMamba: Enhancing Selective SSM in Offline RL with Heterogeneous Sequence Mixing

Wall Kim, Chaeyoung Song, Hanul Kim

cs.LG cs.AI

本文提出了一种名为Decision MetaMamba (DMM)的新结构，用于改进离线强化学习中的序列建模。它通过一个密集层混合器来处理序列，以避免选择性扫描机制造成的信息丢失，并在多个任务上取得了先进的性能。

I Dropped a Neural Net

Hyunwoo Park

cs.LG

本文针对一个重新排序被打乱残差网络各层的难题, 提出了一种恢复层顺序的方法. 该方法利用训练稳定性条件产生的矩阵结构特征进行配对, 并通过代理指标和爬山搜索来确定顺序.

Generalized Random Direction Newton Algorithms for Stochastic Optimization

Soumen Pachal et al.

cs.LG stat.ML

本文提出了一族基于随机方向逼近的广义Hessian矩阵估计器, 仅需使用带噪声的函数测量值. 通过渐近与非渐近分析, 证明了使用这些估计器的随机Newton方法的收敛性, 并通过数值实验验证了理论结果.

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Zhongwei Wan et al.

cs.LG cs.CL

本文提出了一种用于增强大语言模型推理探索的双尺度多样性正则化强化学习框架. 该方法通过分解全局与局部多样性, 旨在缓解策略崩溃问题并提升学习信号的稳定性.

De novo molecular structure elucidation from mass spectra via flow matching

Ghaith Mqawass et al.

cs.LG

本文提出了一种名为MSFlow的两阶段编码器-解码器流匹配生成模型，用于从质谱数据中解析小分子结构。该模型通过将质谱编码到连续的化学信息嵌入空间，再使用基于流的解码器重建分子，在标准评估中取得了显著优于现有方法的效果。

Fully Convolutional Spatiotemporal Learning for Microstructure Evolution Prediction

Michael Trimboli et al.

cs.LG

本文提出了一种基于深度学习的全卷积时空模型, 用于加速材料微观结构演化的预测. 该模型通过自监督学习从模拟数据中捕获物理动力学, 在降低计算成本的同时保持了较高的预测精度.

Uncertainty-Aware Rank-One MIMO Q Network Framework for Accelerated Offline Reinforcement Learning

Thanh Nguyen et al.

cs.LG cs.RO

本文提出了一种用于离线强化学习的Uncertainty-Aware Rank-One MIMO Q网络框架。该框架通过量化数据不确定性并利用Rank-One MIMO架构来平衡精度与效率，在D4RL基准测试中取得了良好性能。

Rethinking LoRA for Privacy-Preserving Federated Learning in Large Models

Jin Liu et al.

cs.LG cs.AI

本文针对差分隐私联邦学习(DPFL)中直接应用LoRA方法导致性能下降的问题, 提出了LA-LoRA方法. 该方法通过解耦梯度交互和对齐客户端更新方向, 在严格隐私约束下提升了模型鲁棒性, 并在Swin Transformer和RoBERTa模型上取得了先进的性能.

Expanding the Role of Diffusion Models for Robust Classifier Training

Pin-Han Huang, Shang-Tse Chen, Hsuan-Tien Lin

cs.LG cs.CV

本文探讨了将 diffusion models 的内部表示作为辅助学习信号用于 adversarial training (AT) 以提升图像分类器鲁棒性的方法. 实验表明, 结合 diffusion representations 和 diffusion-generated synthetic data 能互补地改善模型的特征解耦与鲁棒性.

A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs

Zijie Liu et al.

cs.LG

本文针对Sparse Mixture-of-Experts (SMoE)模型在推理时存在的负载不均衡问题，提出了一种无需重新训练的训练后解决方案。该方法通过复制高负载专家并量化次要专家，在保持模型精度的同时，有效平衡了计算负载，提升了推理效率。

DP-FedAdamW: An Efficient Optimizer for Differentially Private Federated Large Models

Jin Liu et al.

cs.LG cs.AI

本文提出了一种用于差分隐私联邦学习的优化器DP-FedAdamW，旨在解决AdamW在隐私保护场景下因数据异质性和噪声导致的估计器方差、偏差以及客户端漂移问题。实验表明该方法在多个模型和数据集上优于现有技术。

Sparse Masked Attention Policies for Reliable Generalization

Caroline Horsch et al.

cs.LG

本文提出了一种在强化学习中通过改进注意力机制来提升策略泛化能力的方法. 该方法通过学习一个作用于注意力权重的掩码函数, 更可靠地从观测中移除不必要的信息, 从而在Procgen基准测试中实现了比标准方法更好的泛化性能.

On the Equivalence of Random Network Distillation, Deep Ensembles, and Bayesian Inference

Moritz A. Zanger et al.

cs.LG cs.AI math.PR stat.ML

本文在无限宽神经网络的neural tangent kernel框架下, 分析了random network distillation (RND)方法. 研究表明, 在该极限下, RND的不确定性信号等价于一个deep ensemble的预测方差, 并且通过构造特定的目标函数, 可以使RND的误差分布对应于贝叶斯推断的后验预测分布.

Unlearning Noise in PINNs: A Selective Pruning Framework for PDE Inverse Problems

Yongsheng Chen et al.

cs.LG

本文提出了一种名为P-PINN的选择性剪枝框架，旨在消除预训练PINN中噪声数据的影响。该方法通过评估联合残差-数据保真度指标来划分数据集，并基于神经元激活差异进行迭代剪枝，最终在可靠数据上微调网络，从而在噪声条件下提升了PINNs求解PDE反问题的鲁棒性和精度。

Discrete Diffusion Models Exploit Asymmetry to Solve Lookahead Planning Tasks

Itamar Trainin et al.

cs.LG

本文比较了Autoregressive (AR)与Non-Autoregressive (NAR)模型在lookahead规划任务上的表现. 研究发现, NAR模型(如Discrete Diffusion Models)能够利用规划问题中的不对称性, 通过反向解码来高效完成任务, 从而在训练效率和模型复杂度上显著优于AR模型.

A Computationally Efficient Multidimensional Vision Transformer

Alaa El Ichi, Khalide Jbilou

cs.LG math.NA

本文提出了一种基于Tensor Cosine Product (Cproduct)的新型tensor-based框架, 用于构建Vision Transformers. 该方法利用图像数据固有的multilinear结构和cosine transforms的正交性, 实现了高效的attention机制和结构化的特征表示. 在标准分类和分割基准上的实验表明, 该方法在保持竞争力的准确率的同时, 实现了参数量的均匀减少.

Counterfactual Understanding via Retrieval-aware Multimodal Modeling for Time-to-Event Survival Prediction

Ha-Anh Hoang Nguyen et al.

cs.LG cs.IR

本文提出了一个名为CURE的框架, 用于处理具有异质性和删失数据的反事实生存预测问题. 该框架通过整合多模态数据和检索潜在亚组来优化个体化生存结果预测.

A Secure and Private Distributed Bayesian Federated Learning Design

Nuocheng Yang et al.

cs.LG cs.AI

本文提出了一种结合Byzantine鲁棒性、隐私保护和收敛加速的分布式联邦学习框架. 该方法采用Bayesian训练与基于GNN的强化学习进行邻居选择, 在模拟中展现了较低的通信开销.

Learning Discriminative and Generalizable Anomaly Detector for Dynamic Graph with Limited Supervision

Yuxing Tian et al.

cs.LG cs.AI

本文提出了一种用于动态图异常检测的模型无关框架, 通过残差表示编码、限制损失和双边界优化策略, 旨在利用有限的标注异常数据学习判别性且泛化性强的异常检测器. 实验表明该方法在多种评估设置下优于现有方法.

A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning

Nicolas Anguita et al.

cs.LG stat.ML

本文在 diagonal linear networks 中建立了 pretraining-fine-tuning 流程的分析理论, 推导了泛化误差关于初始化参数和任务统计量的精确表达式. 研究发现, 不同的初始化选择将网络置于四个不同的 fine-tuning 区域, 这些区域由它们支持特征学习和重用的能力以及受益的任务统计量所区分.

Training-Free Generative Modeling via Kernelized Stochastic Interpolants

Florentin Coeurdoux et al.

cs.LG

本文提出了一种基于核方法的生成建模框架, 通过求解线性系统替代神经网络训练. 该方法利用特征映射(如散射变换)构建生成SDE的漂移项, 并设计了处理奇异扩散系数的积分器. 实验展示了其在金融时间序列和图像生成等任务上的应用.

BarrierSteer: LLM Safety via Learning Barrier Steering

Thanh Q. Tran et al.

cs.LG cs.AI

本文提出了一种名为BarrierSteer的框架，通过在学习到的潜在表示空间中嵌入非线性安全约束来形式化LLM的响应安全性。该方法利用Control Barrier Functions进行轨迹引导，在不修改模型参数的情况下防止不安全内容的生成，并在实验中验证了其有效性。

Reliable Abstention under Adversarial Injections: Tight Lower Bounds and New Upper Bounds

Ezra Edelman, Surbhi Goel

cs.LG

本文研究了对抗注入模型下的在线学习问题, 其中数据流主要来自未知分布, 但可能包含对抗性样本. 作者证明了分布无关算法的误差下界为$\Omega(\sqrt{T})$, 并提出了一个基于"鲁棒见证集"的算法框架, 为特定概念类(如二维半空间)提供了新的上界.

Adaptation to Intrinsic Dependence in Diffusion Language Models

Yunxiao Zhao, Changxiao Cai

cs.LG cs.IT math.ST stat.ML

本文提出了一种适用于diffusion language models的distribution-agnostic unmasking schedule，该方法能自适应目标数据分布的未知依赖结构。理论分析表明，在并行采样机制下，其采样收敛保证与数据的内在依赖度量（如total correlation）相关，从而为低复杂度分布提供了采样加速。

LAD: Learning Advantage Distribution for Reasoning

Wendi Li, Sharon Li

cs.LG

本文提出了一种名为LAD的分布匹配框架, 用于改进大模型推理中的强化学习目标. 该方法旨在通过匹配优势分布来提升生成多样性和准确性, 并在数学与代码推理任务上验证了其有效性.

Behavior Learning (BL): Learning Hierarchical Optimization Structures from Data

Zhenyao Ma, Yue Liang, Dongxu Li

cs.LG cs.AI stat.ML

本文提出了一种名为Behavior Learning (BL)的通用机器学习框架, 它从数据中学习可解释且可识别的优化结构. 该框架将预测性能, 内在可解释性和可识别性统一起来, 适用于涉及优化的科学领域.

cs.AI

On the Dynamics of Observation and Semantics

Xiu Li

cs.AI cs.LG

本文从物理可实现性角度重新审视了智能与语义的本质. 作者认为智能是有限资源代理与高熵环境互动的属性, 并提出了Observation Semantics Fiber Bundle这一形式化框架. 基于热力学约束, 论文论证了符号化与离散化结构是避免信息热崩溃的必然要求.

Hierarchical Reward Design from Language: Enhancing Alignment of Agent Behavior with Human Specifications

Zhiqin Qian et al.

cs.AI cs.CL cs.HC cs.LG

本文提出了一种从语言生成分层奖励的方法, 用于在复杂任务中更好地将智能体行为与人类规范对齐. 实验表明该方法能有效提升任务完成度与规范遵循度.

Feedback-based Automated Verification in Vibe Coding of CAS Adaptation Built on Constraint Logic

Michal Töpfer et al.

cs.AI

本文提出了一种基于反馈循环的自动验证方法, 用于在CAS(Component-based Adaptive Systems)自适应中通过vibe coding生成Adaptation Manager(AM)代码. 该方法使用一种新的时序逻辑FCL来精确表达功能需求约束, 并通过迭代反馈来修正LLM生成的代码, 实验表明只需少量迭代即可为示例系统生成有效的AM.

Decoding ML Decision: An Agentic Reasoning Framework for Large-Scale Ranking System

Longfei Yun et al.

cs.AI

本文提出了一个名为GEARS的智能体推理框架, 用于大规模排名系统的决策优化. 该框架将排名优化重构为可编程实验环境中的自主探索过程, 通过封装专家知识为可复用的智能体技能, 并整合验证机制以确保生产可靠性.

Spilled Energy in Large Language Models

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi

cs.AI cs.CL

本文提出了一种将LLM的softmax分类器重新解释为Energy-Based Model的方法, 并基于此定义了两种无需训练的指标: spilled energy和marginalized energy. 实验表明, 这些指标与模型生成中的事实错误和幻觉相关, 并在多个基准测试上实现了有竞争力的幻觉检测效果.

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu

cs.AI cs.LG

本文利用基于大型语言模型(LLM)构建的自主AI分析师，在固定数据集上测试预设假设，通过改变底层模型和提示框架，展示了分析决策的多样性和可引导性。研究发现，不同的AI分析师在效应大小、$p$值和二元决策上存在显著差异，这些差异与预处理、模型设定等可识别的分析选择系统性相关。

Task-Aware Exploration via a Predictive Bisimulation Metric

Dayang Liang et al.

cs.AI

本文提出了一种名为TEB的视觉强化学习方法, 旨在解决稀疏奖励下任务无关视觉变化导致的探索效率低下问题. 该方法通过一种预测性Bisimulation metric来耦合任务相关表征与探索策略, 并在MetaWorld和Maze2D环境中验证了其优于现有基线.

Beyond Description: A Multimodal Agent Framework for Insightful Chart Summarization

Yuhang Bai et al.

cs.AI

本文提出了一个用于图表总结的多智能体框架, 旨在生成超越表面描述的深层见解. 该方法通过规划与执行流程, 结合多模态大语言模型的感知与推理能力, 并引入了一个由专家标注的新基准数据集进行验证.

Federated Reasoning Distillation Framework with Model Learnability-Aware Data Allocation

Wei Guo et al.

cs.AI

本文提出了一个名为LaDa的联邦推理蒸馏框架, 该框架包含一个模型可学习性感知的数据分配器. 它旨在解决联邦学习中大型语言模型(LLM)与小型语言模型(SLM)协作时存在的双向模型可学习性差距和领域无关推理迁移的挑战. 该框架作为一个插件模块, 能够根据模型间的可学习性差距自适应地分配高价值样本并进行领域自适应的推理蒸馏.

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

Andreas Schlapbach

cs.AI cs.CL

本文探讨了Schema-Guided Dialogue (SGD) 与 Model Context Protocol (MCP) 在大型语言模型（LLM）代理交互范式上的趋同性。文章分析了二者共享的核心设计原则，并提出了若干改进模式。

LAMMI-Pathology: A Tool-Centric Bottom-Up LVLM-Agent Framework for Molecularly Informed Medical Intelligence in Pathology

Haoyang Su, Shaoting Zhang, Xiaosong Wang

cs.AI

本文提出了一个名为LAMMI-Pathology的、面向病理学图像分析的agent框架。该框架采用以工具为中心的bottom-up架构，通过分层协调和基于原子执行节点的轨迹构建机制，旨在实现更可靠的分子信息驱动的病理诊断。

GenPlanner: From Noise to Plans -- Emergent Reasoning in Flow Matching and Diffusion Models

Agnieszka Polowczyk, Alicja Polowczyk, Michał Wieczorek

cs.AI

本文提出了一种基于生成模型(如diffusion models和flow matching)的路径规划方法GenPlanner, 用于在迷宫环境中生成轨迹. 该方法通过多通道条件(障碍物地图, 起点终点)引导, 从随机噪声迭代生成正确路径. 实验表明其性能优于基线CNN模型.

ABD: Default Exception Abduction in Finite First Order Worlds

Serafim Batzoglou

cs.AI cs.SC

本文提出了一个名为ABD的基准测试, 用于评估模型在有限一阶世界中进行默认例外溯因的能力. 该工作形式化了三种观察机制, 并使用精确的SMT验证进行评估, 发现前沿大语言模型在有效性上表现良好, 但在简洁性方面仍有不足.

TPRU: Advancing Temporal and Procedural Understanding in Large Multimodal Models

Zhenkun Gao et al.

cs.AI

本文提出了一个用于增强多模态大语言模型(MLLMs)时序与过程理解能力的数据集TPRU及其配套的强化学习微调方法. 该方法在多个基准测试上取得了显著的性能提升, 并展现出良好的泛化能力.

Early Evidence of Vibe-Proving with Consumer LLMs: A Case Study on Spectral Region Characterization with ChatGPT-5.2 (Thinking)

Brecht Verbeken et al.

cs.AI cs.LG

本文通过一个可审计的案例研究, 探讨了使用消费级订阅LLM进行"氛围证明"(vibe-proving)的早期证据. 研究解决了关于一个4-cycle row-stochastic非负矩阵族精确非实谱区域的一个猜想, 并记录了LLM在高级证明搜索中的作用及人类专家在关键验证环节的必要性.

DREAM: Deep Research Evaluation with Agentic Metrics

Elad Ben Avraham et al.

cs.AI

本文提出了DREAM框架, 用于评估生成研究性报告的AI智能体. 该框架通过引入工具调用智能体来执行评估, 旨在解决现有基准在事实核查和时效性验证方面的不足.

High Dimensional Procedural Content Generation

Kaijie Xu, Clark Verbrugge

cs.AI

本文提出了High-Dimensional PCG (HDPCG)框架，将游戏机制等非几何维度提升为与空间坐标同等的状态变量。通过引入Direction-Space和Direction-Time两个具体方向，并设计了相应的生成与验证算法，该工作旨在增强程序化内容生成的可控性与表达能力。实验验证了该方法在可玩性、结构等多方面的有效性。

(Perlin) Noise as AI coordinator

Kaijie Xu, Clark Verbrugge

cs.AI

本文提出将Perlin noise等连续噪声信号用作游戏AI的协调器, 用于大规模非玩家角色的控制. 该方法通过噪声场协调个体行为参数、动作时序和生成事件, 在实验中展现了稳定的激活统计和良好的空间覆盖.

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

Serafim Batzoglou

cs.AI

本文提出了一个名为INDUCTION的基准测试, 用于评估模型在有限结构上合成一阶逻辑概念的能力. 该基准包含三种任务模式, 并惩罚公式的冗余复杂度, 研究发现低冗余公式具有更好的泛化能力.

Modularity is the Bedrock of Natural and Artificial Intelligence

Alessandro Salatiello

cs.AI cs.NE q-bio.NC

本文从计算神经科学的角度, 探讨了模块化(modularity)作为自然与人工智能共同基础的理论框架. 文章综述了模块化在多个AI子领域及脑科学中的体现, 并讨论了其对于实现高效学习与泛化的重要性.

Robust and Efficient Tool Orchestration via Layered Execution Structures with Reflective Correction

Tao Zhe et al.

cs.AI

本文提出了一种基于分层执行结构与反射修正的工具编排方法, 用于提升智能体系统的鲁棒性与效率. 该方法通过粗粒度的层结构提供全局指导, 并利用模式感知的局部修正机制处理执行时错误, 从而避免了复杂的细粒度规划或全局重规划.

When Do LLM Preferences Predict Downstream Behavior?

Katarina Slama et al.

cs.AI

本文研究了大型语言模型(LLM)中陈述的偏好是否会影响其下游行为。通过模拟用户环境中的捐赠建议、拒绝行为等实验，发现模型的偏好能预测建议行为，但对其任务表现的影响并不一致。

How Far Can We Go with Pixels Alone? A Pilot Study on Screen-Only Navigation in Commercial 3D ARPGs

Kaijie Xu, Mustafa Bugti, Clark Verbrugge

cs.AI

本文构建了一个仅依赖视觉信息的智能体, 用于探索和导航3D ARPG游戏关卡. 实验表明, 该智能体能在理想化环境中完成部分导航任务, 但其性能受限于底层视觉模型的缺陷.

InfEngine: A Self-Verifying and Self-Optimizing Intelligent Engine for Infrared Radiation Computing

Kun Ding et al.

cs.AI

本文介绍了一个名为InfEngine的自主智能计算引擎, 旨在将红外辐射计算从人工工作流转变为协作自动化. 它通过集成多个智能代理, 实现了自我验证和自我优化功能, 在特定基准测试中显著提升了任务通过率和计算效率.

Quantifying Automation Risk in High-Automation AI Systems: A Bayesian Framework for Failure Propagation and Optimal Oversight

Vishal Srivastava, Tanmay Sah

cs.AI

本文提出了一个用于量化高自动化AI系统风险的贝叶斯框架。该框架将预期损失分解为三个概率项的乘积，并分析了自动化水平与危害传播之间的关系。

Benchmark Test-Time Scaling of General LLM Agents

Xiaochuan Li et al.

cs.AI cs.CL

本文提出了一个名为 General AgentBench 的基准测试, 用于在统一的框架内评估通用 LLM 代理在搜索、编码、推理和工具使用等领域的综合能力. 研究发现, 当前领先的 LLM 代理在此通用设置下性能显著下降, 并且无论是顺序扩展还是并行扩展方法都未能带来有效的性能提升.

MagicAgent: Towards Generalized Agent Planning

Xuhui Ren et al.

cs.AI cs.HC

本文提出了一个名为MagicAgent的系列基础模型, 旨在解决智能体在多样化规划任务中的泛化问题. 通过一个可扩展的合成数据框架和两阶段训练范式, 模型在多个基准测试上取得了优异的性能.

Evaluating Large Language Models on Quantum Mechanics: A Comparative Study Across Diverse Models and Tasks

S. K. Rithvik

cs.AI quant-ph

本文系统评估了多种大语言模型在量子力学问题求解上的表现。研究涵盖了不同难度和类型的任务，并分析了工具增强与结果可复现性的影响。

Agentic Problem Frames: A Systematic Approach to Engineering Reliable Domain Agents

Chanjin Park

cs.AI

本文提出了一个名为Agentic Problem Frames (APF)的系统工程框架，旨在提升基于大型语言模型(LLM)的自主智能体(agent)的工业级可靠性。该框架通过引入形式化的规范工具和闭环控制结构，将智能体的行为锚定在确定性的业务流程中。

Asking the Right Questions: Improving Reasoning with Generated Stepping Stones

Hengyuan Hu et al.

cs.AI

本文提出了ARQ框架, 通过引入一个question generator来生成中间问题(stepping stones), 以帮助LLMs解决复杂推理任务. 实验表明, 好的中间问题可以显著提升不同能力LLMs的任务解决效果, 并且可以通过SFT和RL在合成数据上微调模型来生成更有用的中间问题.

Defining Explainable AI for Requirements Analysis

Raymond Sheh, Isaac Monteath

cs.AI

本文讨论了可解释人工智能(XAI)在需求分析中的定义问题. 作者提出了从Source, Depth和Scope三个维度来分类不同应用对解释的需求, 并探讨如何将这些需求与机器学习(ML)技术的解释能力相匹配.

Post-Routing Arithmetic in Llama-3: Last-Token Result Writing and Rotation-Structured Digit Directions

Yao Yan

cs.AI

本文研究了Meta-Llama-3-8B模型在单token读出机制下的三位数加法运算，重点分析了在跨token路由(cross-token routing)因果上失效后，算术答案是如何被最终确定的。通过因果残差修补(causal residual patching)和累积注意力消融(cumulative attention ablations)等方法，定位了模型行为发生显著变化的层级边界。

K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model

Shiyi Cao et al.

cs.AI

本文提出了一种名为K-Search的GPU内核优化方法，通过协同演化内在世界模型来指导大型语言模型进行搜索。该方法在多个复杂内核优化任务上显著超越了现有的进化搜索方法。

Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians

Kartik Chandra et al.

cs.AI cs.CY cs.HC

本文通过一个简单的 Bayesian 模型，研究了 AI 聊天机器人的“谄媚”行为与用户产生“妄想螺旋”现象之间的因果关系。模型分析表明，即使面对理想化的贝叶斯理性用户，这种效应依然存在，并且所探讨的两种缓解措施效果有限。

DoAtlas-1: A Causal Compilation Paradigm for Clinical AI

Yulong Li et al.

cs.AI

本文提出了一种名为"因果编译(causal compilation)"的新范式, 旨在将医学文献中的叙述性证据转化为可执行的代码. 该工作通过构建DoAtlas-1系统, 标准化了大量研究中的效应估计, 并支持多种因果查询, 以提升临床AI的可审计性和可验证性.

Beyond Behavioural Trade-Offs: Mechanistic Tracing of Pain-Pleasure Decisions in an LLM

Francesca Bianco, Derek Shiller

cs.AI cs.CL cs.LG

本文通过线性探测和激活干预等方法, 研究了Gemma-2-9B-it模型在涉及痛苦与快乐的决策任务中的内部计算机制. 研究发现效价和强度信息在模型的特定层和组件中是可解码且可因果干预的, 这为理解大语言模型的决策机制提供了具体的计算证据.

Reasoning Capabilities of Large Language Models. Lessons Learned from General Game Playing

Maciej Świechowski, Adam Żychowski, Jacek Mańdziuk

cs.AI cs.CL cs.LO

本文通过General Game Playing (GGP) 框架评估了大型语言模型在形式化规则环境中的推理能力。研究发现，随着推理步数的增加，模型性能会下降，并揭示了模型在逻辑问题中常见的错误类型。

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Aymen Khouja et al.

cs.AI cs.LG cs.MA

本文在CityLearn仿真环境中对多智能体强化学习(MARL)算法进行了综合基准测试，重点评估了其在城市能源管理任务中的表现。研究比较了多种训练方案和网络架构，并提出了新的关键性能指标(KPI)以应对实际挑战。

Proximity-Based Multi-Turn Optimization: Practical Credit Assignment for LLM Agent Training

Yangyi Fang et al.

cs.AI

本文提出了一种名为ProxMO的实用框架, 用于优化多轮LLM智能体训练中的信用分配问题. 该方法通过结合成功率感知调制和基于邻近度的软聚合机制, 在ALFWorld和WebShop基准测试上取得了性能提升, 并能与现有GRPO框架即插即用.

Topology of Reasoning: Retrieved Cell Complex-Augmented Generation for Textual Graph Question Answering

Sen Zhao et al.

cs.AI

本文提出了一种用于文本图问答的TopoRAG框架，通过将文本图提升为cellular complexes来建模高维拓扑结构，并利用拓扑感知的子复形检索与推理机制来增强大语言模型的推理能力。实验表明该方法在多个任务上优于现有基线。

Robust Exploration in Directed Controller Synthesis via Reinforcement Learning with Soft Mixture-of-Experts

Toshihide Ubukata et al.

cs.AI cs.LG

本文提出了一种基于Soft Mixture-of-Experts的强化学习框架，旨在解决Directed Controller Synthesis中探索策略的各向异性泛化问题。该方法通过集成多个专家策略来提升鲁棒性，并在空中交通管制基准测试中验证了其有效性。

Limited Reasoning Space: The cage of long-horizon reasoning in LLMs

Zhenyu Li et al.

cs.AI

本文针对大语言模型在长程推理任务中, 单纯增加计算预算可能导致性能下降的问题, 提出了"有限推理空间"假说. 作者通过非自治随机动力系统的理论分析, 并提出了一个名为Halo的模型预测控制框架, 通过动态调节推理边界来提升性能.

Automated Generation of Microfluidic Netlists using Large Language Models

Jasper Davidson et al.

cs.AI

本文提出了一种利用大型语言模型(LLLMs)将自然语言描述的微流控设备规格自动转换为系统级结构Verilog网表的方法. 该方法在典型微流控设计基准测试中展示了可行性, 平均语法准确率达到88%.

ALPACA: A Reinforcement Learning Environment for Medication Repurposing and Treatment Optimization in Alzheimer's Disease

Nolan Brady, Tom Yeh

cs.AI

本文提出了一个名为ALPACA的强化学习环境，用于模拟阿尔茨海默病的个性化序贯治疗策略。该环境基于从临床数据训练的模型，能够生成药物条件下的疾病进展轨迹，并展示了训练出的策略在模拟中优于基线方法。

Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces

Pratham Yashwante, Rose Yu

cs.AI cs.CV

本文研究了时间序列、视觉和语言模态在对比表示空间中的对齐问题. 实验表明, 在缺乏显式耦合的情况下, 预训练编码器的表示几何接近正交, 而通过对比学习进行后处理对齐后, 时间序列与视觉模态的对齐强于与语言模态的对齐.

Artificial Intelligence for Modeling & Simulation in Digital Twins

Philipp Zech, Istvan David

cs.AI

本文是一篇关于数字孪生(Digital Twins)中建模与仿真(Modeling & Simulation, M&S)和人工智能(Artificial Intelligence, AI)融合的综述性章节。它概述了数字孪生的架构、M&S的核心作用以及AI与数字孪生之间的双向赋能关系。

Hiding in Plain Text: Detecting Concealed Jailbreaks via Activation Disentanglement

Amirhossein Farzam et al.

cs.AI

本文提出了一种通过激活解缠来检测LLM中隐藏越狱攻击的方法. 该方法训练了一个模块来分离提示中的"目标"和"框架"语义表示, 并基于"框架"表示构建异常检测器以提高检测的泛化能力.

IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking

Mohammad Beigi et al.

cs.AI cs.LG

本文提出了一个名为IR3的框架, 用于检测和缓解RLHF(Reinforcement Learning from Human Feedback)中的reward hacking问题. 该框架通过逆向工程解释并修正模型内隐的目标函数, 包含奖励重建, 可解释特征分解和针对性缓解策略.

OptiRepair: Closed-Loop Diagnosis and Repair of Supply Chain Optimization Models with LLM Agents

Ruicheng Ao, David Simchi-Levi, Xinshang Wang

cs.AI cs.LG math.OC

本文提出了一个名为OptiRepair的框架, 它利用LLM agents对供应链优化模型进行闭环诊断与修复. 该方法将任务分解为与领域无关的可行性修复阶段和基于库存理论的领域特定验证阶段, 并通过实验展示了训练后模型在恢复率上显著优于现有API模型.

ComplLLM: Fine-tuning LLMs to Discover Complementary Signals for Decision-making

Ziyang Guo et al.

cs.AI cs.HC

本文提出了一个名为ComplLLM的后训练框架, 该框架基于决策理论, 通过将互补信息作为奖励来微调决策辅助LLM, 以生成与现有智能体决策互补的信号. 作者在合成和真实世界任务上验证了该框架, 展示了其恢复已知互补信息并为下游决策者提供解释的能力.

Human-Guided Agentic AI for Multimodal Clinical Prediction: Lessons from the AgentDS Healthcare Benchmark

Lalitha Pranathi Pulavarthy et al.

cs.AI cs.LG

本文在AgentDS Healthcare基准测试中, 通过引入人类专家在关键决策点(如多模态特征工程, 模型选择, 验证策略)的指导, 提升了智能体AI在临床预测任务(如再入院预测, 成本预测)上的性能. 消融实验表明, 人类指导带来了累积的性能增益, 并总结出三条可推广的经验.

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Chongyang Gao et al.

cs.AI cs.CE cs.CL cs.CV

本文提出了一个名为CFE的多模态基准测试, 用于评估大语言模型在超过20个STEM领域的推理能力. 该基准由真实的大学作业和考试题目构成, 对前沿模型仍构成显著挑战, 并通过对参考解答的分解分析揭示了模型在多步推理中维持中间状态的困难.

Ada-RS: Adaptive Rejection Sampling for Selective Thinking

Yirou Ge et al.

cs.AI cs.LG

本文提出了一种名为Ada-RS的自适应拒绝采样框架，用于提升工具调用型大语言模型在推理时的选择性与效率。该方法通过一个带长度惩罚的自适应奖励函数对多个采样结果进行评分，并利用随机拒绝采样筛选高质量候选，从而在保持或提升工具调用准确率的同时，显著减少平均输出token数量。

A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data

Joseph Bingham

cs.AI cs.CV

本文提出了一个整合语言描述与视觉感知数据的多模态框架, 用于建模人类指称解释. 该框架结合了SIFT特征对齐与UQI相似度度量, 并在Stanford Repeated Reference Game语料库上进行了评估.

Rules or Weights? Comparing User Understanding of Explainable AI Techniques with the Cognitive XAI-Adaptive Model

Louth Bin Rawshan, Zhuoyu Wang, Brian Y Lim

cs.AI

本文提出了一种名为CoXAM的认知模型, 用于比较和分析不同可解释人工智能(XAI)技术(如权重和规则)在用户理解上的差异. 该模型通过模拟人类在正向和反事实决策任务中的推理策略, 为评估XAI技术的可解释性提供了一个认知框架.

TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents

Jongwon Jeong, Jungtaek Kim, Kangwook Lee

cs.AI

本文提出了TAPE框架, 通过将多个计划聚合为图并使用外部求解器寻找可行路径来增强规划能力, 并在执行时采用constrained decoding来减少采样噪声. 实验表明, 该框架在多个基准测试中优于现有方法, 特别是在困难设置下.

SkillOrchestra: Learning to Route Agents via Skill Transfer

Jiayu Wang et al.

cs.AI cs.LG

本文提出了一个名为SkillOrchestra的框架，用于实现细粒度的技能感知智能体编排。该方法通过学习技能并建模智能体在特定技能下的能力和成本，来优化路由决策，从而在性能和成本间取得平衡。实验表明，该方法在多个基准测试上优于现有的基于强化学习的编排器，且学习成本显著降低。

OpenClaw, Moltbook, and ClawdLab: From Agent-Only Social Networks to Autonomous Scientific Research

Lukas Weidener et al.

cs.AI

本文对基于开源智能体框架OpenClaw和社交网络Moltbook产生的自主AI交互数据集及相关研究进行了综述, 并提出了一个用于自主科学研究的开源平台ClawdLab. ClawdLab通过引入角色限制, 对抗性批评和基于协议的验证等设计, 旨在解决现有架构中的安全与治理问题.

Meta-Learning and Meta-Reinforcement Learning - Tracing the Path towards DeepMind's Adaptive Agent

Björn Hoppmann, Christoph Scholz

cs.AI cs.LG

本文是一篇关于元学习和元强化学习的综述文章. 它系统性地梳理了该领域的关键算法发展脉络, 并最终聚焦于DeepMind的Adaptive Agent.

Watson & Holmes: A Naturalistic Benchmark for Comparing Human and LLM Reasoning

Thatchawin Leelawat, Lewis D Griffin

cs.AI

本文提出了一个基于侦探桌游的新基准, 用于在自然叙事语境中评估AI与人类的推理能力. 结果显示, AI模型性能随时间显著提升, 但在处理长文本和证据稀缺时的表现与人类存在差异.

Beyond Mimicry: Toward Lifelong Adaptability in Imitation Learning

Nathan Gavenski, Felipe Meneguzzi, Odinaldo Rodrigues

cs.AI cs.LG

本文指出了当前 imitation learning 方法在适应新环境或目标变化时的根本性局限, 并提出了一个以 compositional adaptability 为核心的研究议程. 该议程旨在使智能体能够学习并重组行为基元, 以应对开放环境中的挑战.

Agents of Chaos

Natalie Shapira et al.

cs.AI cs.CY

本文通过一项探索性的红队测试, 研究了在具有持久记忆、电子邮件、Discord访问、文件系统和shell执行权限的真实实验室环境中部署的自主语言模型智能体. 在两周内, 研究人员在良性和对抗条件下与智能体互动, 记录了11个代表性案例, 揭示了将语言模型与自主性、工具使用和多主体通信结合时可能出现的多种安全、隐私和治理漏洞.

Latent Introspection: Models Can Detect Prior Concept Injections

Theia Pearson-Vogel et al.

cs.AI cs.LG

本文通过分析Qwen 32B模型的residual stream，发现模型能够检测到其早期上下文中的概念注入。研究显示，通过特定的prompt可以显著增强这种内省能力，但模型在最终输出层会抑制相关信号。

CodeCompass: Navigating the Navigation Paradox in Agentic Code Intelligence

Tarakanath Paipuru

cs.AI cs.SE

本文提出了一个名为 CodeCompass 的工具，它通过暴露代码依赖图来帮助智能体进行结构导航，以解决代码智能体在大型代码库中定位关键文件的难题。实验表明，该方法在处理隐藏依赖任务时显著优于传统的检索方法，但智能体需要明确的提示引导才能有效利用该工具。

Interaction Theater: A case of LLM Agents Interacting at Scale

Sarath Shekkizhar, Adam Earle

cs.AI

本文通过分析一个仅包含AI agent的社交平台数据, 研究了大规模LLM agent交互的实质. 研究发现, 尽管agent能生成多样且形式良好的文本, 但交互内容缺乏实质, 主要表现为大量垃圾、离题评论以及极少的线程式对话.

CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching

Yuzhe Wang, Yaochen Zhu, Jundong Li

cs.AI

本文提出了一个名为CausalFlip的因果推理基准测试，旨在评估大语言模型是否基于真正的因果结构而非语义关联进行推理。该基准通过构造语义相似但因果答案相反的问题对，并引入噪声前缀评估，揭示了现有模型在因果判断上的局限性。

Align When They Want, Complement When They Need! Human-Centered Ensembles for Adaptive Human-AI Collaboration

Hasan Amin, Ming Yin, Rajiv Khanna

cs.AI cs.HC cs.LG

本文提出了一种自适应的人机协作AI集成方法, 通过一个简单的Rational Routing Shortcut机制, 在"对齐"和"互补"两个专家模型之间进行切换. 理论分析和实验表明, 该方法能比单一模型更有效地提升人机团队的决策性能.

ReSyn: Autonomously Scaling Synthetic Environments for Reasoning Models

Andre He et al.

cs.AI cs.LG

本文提出了一个名为ReSyn的自动化流程, 用于大规模生成多样化的推理环境(包括实例生成器和验证器). 通过在ReSyn数据上进行强化学习训练, 模型在多个推理和数学基准测试上取得了性能提升.

Recurrent Structural Policy Gradient for Partially Observable Mean Field Games

Clarisse Wibault et al.

cs.AI

本文提出了Recurrent Structural Policy Gradient (RSPG)方法, 用于解决具有部分可观测性和公共信息的Mean Field Games (MFGs). 该方法结合了历史感知策略和已知的转移动力学, 在JAX框架MFAX中实现了更快的收敛速度, 并首次解决了具有异质智能体、公共噪声和依赖历史策略的宏观经济学MFG问题.

cs.IR

FineRef: Fine-Grained Error Reflection and Correction for Long-Form Generation with Citations

Yixing Peng et al.

cs.IR cs.AI

本文提出了一个名为 FineRef 的框架，用于提升大语言模型在长文本生成中引用的准确性和相关性。该框架通过细粒度的错误反思和两阶段训练策略，显著改善了引用与答案的质量。

Altar: Structuring Sharable Experimental Data from Early Exploration to Publication

William Gaultier et al.

cs.IR cs.DB

本文介绍了一个名为Altar的轻量级、领域无关的框架，用于从项目开始阶段结构化实验数据。它围绕Sacred实验跟踪模型构建，将参数、元数据、曲线和小文件存储在灵活的NoSQL数据库中，并将大型原始数据链接起来，旨在提高研究的可重复性和数据共享的便捷性。

Towards Reliable Negative Sampling for Recommendation with Implicit Feedback via In-Community Popularity

Chen Chen, Haobo Lin, Yuanbo Xu

cs.IR cs.AI

本文提出了一种基于用户社区内流行度的负采样框架 ICPNS, 用于解决隐式反馈推荐中的负样本构建问题. 该方法通过识别潜在用户社区并利用社区内流行度来近似物品曝光概率, 从而将社区内流行但用户未交互的物品选为更可靠的负样本.

Give Users the Wheel: Towards Promptable Recommendation Paradigm

Fuyuan Lyu et al.

cs.IR cs.AI

本文提出了一个解耦的可提示序列推荐框架, 旨在使传统推荐模型能够响应用户的自然语言提示来动态调整推荐. 该框架通过融合模块对齐协同信号与语义信号, 并采用专家混合结构来缓解不同梯度间的冲突.

Adaptive Multi-Agent Reasoning for Text-to-Video Retrieval

Jiaxin Wu, Xiao-Yong Wei, Qing Li

cs.IR cs.AI cs.MM

本文提出了一种用于文本到视频检索的自适应多智能体推理框架。该框架通过动态协调多个专用智能体来处理涉及时间或逻辑关系的复杂查询，在多个基准测试上取得了显著的性能提升。

SIDEKICK: A Semantically Integrated Resource for Drug Effects, Indications, and Contraindications

Mohammad Ashhad et al.

cs.IR

本文介绍了一个名为SIDEKICK的知识图谱，它整合了来自FDA药物标签的适应症、禁忌症和不良反应数据。该资源利用LLM提取和Graph RAG进行本体映射，旨在提升药物警戒和临床决策支持系统的语义互操作性。

SplitLight: An Exploratory Toolkit for Recommender Systems Datasets and Splits

Anna Volodkevich et al.

cs.IR cs.LG

本文介绍了一个名为SplitLight的开源工具包, 用于分析和比较推荐系统数据集的预处理与划分策略. 该工具通过统计分析和可视化, 帮助研究者评估数据划分的有效性, 提升实验的可复现性和可比性.

DReX: An Explainable Deep Learning-based Multimodal Recommendation Framework

Adamya Shyam et al.

cs.IR cs.AI

本文提出了一个名为DReX的可解释多模态推荐框架, 它使用门控循环单元(GRU)来增量式地整合来自多模态反馈的细粒度交互特征, 以优化用户和物品的表示. 该方法在包含评论和评分的数据集上进行了评估, 能够自动生成可解释的关键词画像, 并在实验中超越了现有方法.

A Three-stage Neuro-symbolic Recommendation Pipeline for Cultural Heritage Knowledge Graphs

Krzysztof Kutt et al.

cs.IR cs.DL cs.HC

本文提出了一种用于文化遗产知识图谱的三阶段神经符号推荐流程, 结合了知识图谱嵌入、近似最近邻搜索和SPARQL语义过滤. 该方法在包含约320万个RDF三元组的JUHMP知识图谱上进行了评估, 结果表明其能产生有用且可解释的推荐结果.

GrIT: Group Informed Transformer for Sequential Recommendation

Adamya Shyam et al.

cs.IR

本文提出了一种结合用户个体序列与动态群体特征的Transformer模型用于序列推荐. 模型通过学习时变的成员权重来融合潜在群体表示, 旨在提升下一项预测的准确性. 在多个基准数据集上的实验表明该方法优于现有先进方法.

FairFS: Addressing Deep Feature Selection Biases for Recommender System

Xianquan Wang et al.

cs.IR cs.LG

本文提出了一种名为FairFS的特征选择算法, 旨在解决深度学习模型中特征重要性评估存在的layer bias, baseline bias和approximation bias. 通过正则化所有非线性变换层的特征重要性, 引入平滑的baseline特征, 以及采用聚合近似方法, FairFS在实验中展现了更准确的特征选择性能.

ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

Kun Yang et al.

cs.IR

本文提出了一个名为ManCAR的序列推荐框架, 它通过将推理过程约束在全局交互图的拓扑结构(即一个manifold)内来防止latent drift. 该模型在训练时利用用户近期行为的协作邻域构建先验分布进行对齐, 并在测试时采用自适应计算. 实验表明其在多个基准测试上优于现有方法.

cs.CL

ReportLogic: Evaluating Logical Quality in Deep Research Reports

Jujia Zhao et al.

cs.CL cs.AI

本文提出了一个名为ReportLogic的基准, 用于评估由大型语言模型生成的深度研究报告的逻辑质量. 该基准通过一个分层分类法, 从宏观结构, 阐述逻辑和结构逻辑三个层面量化报告的可审计性, 并训练了一个开源的LogicJudge模型进行可扩展的评估.

ConfSpec: Efficient Step-Level Speculative Reasoning via Confidence-Gated Verification

Siran Liu, Cyril Y. He

cs.CL cs.AI

本文提出了一种名为ConfSpec的置信度门控级联验证框架, 用于解决Step-level speculative reasoning中精度, 推理速度和资源效率之间的权衡问题. 该方法利用小型草稿模型在验证任务上的良好校准性, 选择性地上报不确定步骤, 从而在匹配目标模型精度的同时实现了显著的端到端加速.

INSURE-Dial: A Phase-Aware Conversational Dataset \& Benchmark for Compliance Verification and Phase Detection

Shubham Kulkarni et al.

cs.CL

本文提出了一个用于合规性验证和阶段检测的对话数据集与基准 INSURE-Dial. 该数据集包含真实与合成的保险电话对话, 并标注了阶段结构和合规性信息, 旨在评估语音代理在分段与合规性判断任务上的性能.

Prompt Optimization Via Diffusion Language Models

Shiyu Wang et al.

cs.CL cs.AI cs.LG

本文提出了一种基于Diffusion Language Models (DLMs)的prompt优化框架, 通过masked denoising迭代优化系统提示词. 该方法利用用户查询和模型响应等交互轨迹进行条件化, 无需梯度访问即可实现灵活的prompt更新, 并在多个基准测试中提升了冻结大语言模型的性能.

Asymptotic Semantic Collapse in Hierarchical Optimization

Faruk Alpay, Bugra Kilictas

cs.CL cs.IT cs.LG

本文研究了多智能体语言系统中的一种失效模式, 即共享主导语境逐渐吸收个体语义, 导致智能体行为趋同. 作者将语义状态建模为黎曼流形上的点, 分析了诱导的投影动力学, 并探讨了语境依赖程度对信息内容的影响.

The Million-Label NER: Breaking Scale Barriers with GLiNER bi-encoder

Ihor Stepanov et al.

cs.CL cs.LG

本文提出了一种名为GLiNER-bi-Encoder的新型命名实体识别架构，旨在平衡零样本灵活性与工业级效率。该架构通过解耦标签编码与上下文编码，解决了原有模型在处理大量实体标签时的计算瓶颈问题。

Luna-2: Scalable Single-Token Evaluation with Small Language Models

Vatsal Goel et al.

cs.CL cs.AI cs.LG

本文提出了一种名为Luna-2的新型架构，利用小型语言模型(SLMs)进行确定性评估，以替代传统的大语言模型评判(LLMAJ)。该方法在内容安全和幻觉检测等任务上达到了相当的准确性，同时显著降低了计算成本和延迟。

DP-RFT: Learning to Generate Synthetic Text via Differentially Private Reinforcement Fine-Tuning

Fangyuan Xu et al.

cs.CL

本文提出了一种名为DP-RFT的在线强化学习算法, 用于在差分隐私(DP)约束下利用大型语言模型(LLM)生成合成文本. 该方法通过DP保护的近邻投票作为奖励信号, 引导LLM生成高质量合成数据, 避免了模型对私有原始数据的直接访问. 实验表明, 该方法在生成长篇和领域特定文本时, 能在保护隐私的同时提升合成数据的保真度和下游任务效用.

PolyFrame at MWE-2026 AdMIRe 2: When Words Are Not Enough: Multimodal Idiom Disambiguation

Nina Hosseini-Kivanani

cs.CL

本文提出了PolyFrame系统, 用于解决多模态模型在习语消歧任务上的困难. 该系统采用轻量级模块增强预训练的多模态编码器, 在多种语言上取得了良好效果.

From Trial by Fire To Sleep Like a Baby: A Lexicon of Anxiety Associations for 20k English Multiword Expressions

Saif M. Mohammad

cs.CL

本文构建了一个包含超过20k个英语多词表达(MWE)的焦虑关联词典, 并验证了其可靠性. 该资源可用于心理学, NLP等多个领域的焦虑相关研究.

Contradiction to Consensus: Dual Perspective, Multi Source Retrieval Based Claim Verification with Source Level Disagreement using LLM

Md Badsha Biswas, Ozlem Uzuner

cs.CL

本文提出了一种基于大语言模型(LLM)的开放领域声明验证系统, 该系统通过多视角证据检索和跨来源分歧分析来应对错误信息. 该方法从多个来源收集正反两方面的证据, 并利用LLM进行最终验证, 旨在提高系统的知识覆盖范围和透明度.

Semantic Substrate Theory: An Operator-Theoretic Framework for Geometric Semantic Drift

Stephen Russell

cs.CL cs.AI

本文提出了一个名为"Semantic Substrate"的算子理论框架，用于统一研究语义漂移中的多种几何与扩散信号。

ReHear: Iterative Pseudo-Label Refinement for Semi-Supervised Speech Recognition via Audio Large Language Models

Zefang Liu et al.

cs.CL eess.AS

本文提出了一种名为ReHear的半监督语音识别框架，通过集成音频感知的大语言模型来迭代优化伪标签。该方法利用音频和文本信息共同修正识别假设，旨在减少错误传播。实验表明该框架在多个基准测试上优于现有基线方法。

Rethinking Retrieval-Augmented Generation as a Cooperative Decision-Making Problem

Lichang Song, Ting Long, Yi Chang

cs.CL cs.AI

本文提出了一种新的检索增强生成框架 CoRAG, 将 RAG 重新表述为一个协作式多智能体决策问题. 该框架旨在改善传统 RAG 系统中检索器与生成器之间的不对称依赖关系, 通过联合优化提升最终响应的质量.

ArabicNumBench: Evaluating Arabic Number Reading in Large Language Models

Anas Alhumud, Abdulaziz Alhammadi, Muhammad Badruddin Khan

cs.CL cs.AI

本文提出了ArabicNumBench, 一个用于评估大语言模型在阿拉伯数字读法任务上性能的基准测试. 该研究评估了多种模型和提示策略, 揭示了模型在数字准确性和指令遵循能力之间的差异.

BURMESE-SAN: Burmese NLP Benchmark for Evaluating Large Language Models

Thura Aung et al.

cs.CL

本文介绍了首个针对缅甸语的大型语言模型综合评测基准BURMESE-SAN, 它整合了涵盖理解、推理与生成三大核心能力的七个子任务. 作者通过大规模评估发现, 模型在缅甸语上的表现更依赖于架构设计、语言表示和指令微调, 而非单纯的模型规模.

Think$^{2}$: Grounded Metacognitive Reasoning in Large Language Models

Abraham Paul Elenjical, Vivek Hruday Kavuri, Vasudeva Varma

cs.CL cs.AI

本文提出了一种基于心理学元认知理论的结构化提示框架, 旨在提升大型语言模型(LLMs)对自身推理错误的监控、诊断和修正能力. 实验表明, 该框架在多个基准测试上显著改善了模型的自我纠错表现.

EvalSense: A Framework for Domain-Specific LLM (Meta-)Evaluation

Adam Dejl, Jonathan Pearson

cs.CL

本文提出了一个名为EvalSense的框架，用于构建领域特定的大语言模型评估套件。该框架通过交互式指南和自动化元评估工具，帮助用户选择和部署合适的评估方法。

DeepInnovator: Triggering the Innovative Capabilities of LLMs

Tianyu Fan et al.

cs.CL cs.AI

本文提出了一个名为DeepInnovator的训练框架, 旨在系统性地激发大型语言模型(LLMs)在科学研究中的创新能力. 该方法通过自动化数据管道构建结构化知识库, 并采用"下一个想法预测"的训练范式来模拟研究想法的迭代生成过程.

Why Agent Caching Fails and How to Fix It: Structured Intent Canonicalization with Few-Shot Learning

Abhinaba Basu

cs.CL cs.AI cs.LG

本文针对个人AI代理中LLM重复调用成本高的问题, 分析了现有缓存方法(如GPTCache)效果不佳的根本原因, 指出缓存键评估本质上可归结为聚类评估问题. 作者引入了W5H2结构化意图分解框架和新的多语言数据集NyayaBench v2, 并采用SetFit进行少样本学习, 在保持低延迟的同时显著提升了缓存准确率, 最终通过一个五级级联系统实现了大幅的成本削减预测.

Yor-Sarc: A gold-standard dataset for sarcasm detection in a low-resource African language

Toheeb Aduramomi Jimoh, Tabea De Wille, Nikola S. Nikolov

cs.CL

本文构建了首个约鲁巴语(Yorùbá)讽刺检测的黄金标准数据集Yor-Sarc, 包含436个由母语者标注的实例. 该数据集旨在促进低资源非洲语言的语义解释和文化感知NLP研究.

Whisper: Courtside Edition Enhancing ASR Performance Through LLM-Driven Context Generation

Yonathan Ron, Shiri Gilboa, Tammuz Dubnov

cs.CL

本文提出了一种名为Whisper: Courtside Edition的多智能体LLM pipeline, 用于在不重新训练模型的情况下提升Whisper在特定领域(如NBA篮球解说)的语音识别性能. 该方法通过识别领域上下文、专有名词和术语来生成紧凑的prompt, 引导解码器, 在测试集上实现了词错误率的显著降低.

Capable but Unreliable: Canonical Path Deviation as a Causal Mechanism of Agent Failure in Long-Horizon Tasks

Wilson Y. Lee

cs.CL cs.LG

本文通过分析Toolathlon基准测试中语言代理在工具使用任务上的表现, 提出了一种新的失败归因. 研究发现, 许多失败并非源于模型能力不足, 而是由于随机采样导致的轨迹偏离了任务的"规范解路径". 通过控制模型能力和任务难度, 作者证明了成功运行的轨迹与规范路径的贴合度显著更高, 且这种偏离具有自我强化的因果机制. 基于此, 作者提出了一种简单的监控重启干预, 能有效提升任务成功率.

Uncovering Context Reliance in Unstructured Knowledge Editing

Zisheng Zhou et al.

cs.CL

本文探讨了在大型语言模型中进行非结构化知识编辑时出现的"Context Reliance"问题, 即模型习得的知识会过度依赖于编辑文本的特定上下文. 作者提出了一种名为COIN的编辑框架来缓解此问题, 并在实验中验证了其有效性.

IAPO: Information-Aware Policy Optimization for Token-Efficient Reasoning

Yinhan He et al.

cs.CL cs.LG

本文提出了一种基于信息论的 token-wise advantage shaping 方法 IAPO, 用于提升大型语言模型推理的 token 效率. 该方法通过计算 token 与最终答案的条件互信息来分配优势, 在多个推理数据集上实现了准确率提升与推理长度缩减.

Do LLMs and VLMs Share Neurons for Inference? Evidence and Mechanisms of Cross-Modal Transfer

Chenhang Cui et al.

cs.CL

本文通过分析 LLMs 和 LVLMs 在推理过程中的神经元激活模式，发现两者存在大量共享的神经元，这些神经元构成了一个模态不变的推理子空间。基于此发现，作者提出了 Shared Neuron Low-Rank Fusion (SNRF) 框架，通过低秩近似和选择性参数更新，将 LLMs 的推理能力高效迁移到 LVLMs 中，从而提升了多模态模型的推理性能。

TriTopic: Tri-Modal Graph-Based Topic Modeling with Iterative Refinement and Archetypes

Roman Egger

cs.CL

本文提出了一种名为TriTopic的三模态图主题建模框架, 通过融合语义嵌入, TF-IDF和元数据来改进传统方法的稳定性与精确性. 该方法在多个数据集上取得了优于BERTopic, NMF和LDA的归一化互信息(NMI)分数, 并实现了零离群点的完全语料覆盖.

Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models

Seong Hah Cho, Junyi Li, Anna Leshinskaya

cs.CL cs.AI

本文通过分析大型语言模型(LLM)在道德、语法和经济三种不同“好”的概念上的行为、嵌入和残差流激活，发现了普遍存在的价值纠缠现象。研究表明，模型对语法和经济价值的判断会过度受到道德价值的影响，而这种混淆可以通过选择性消融与道德相关的激活向量来修复。

Astra: Activation-Space Tail-Eigenvector Low-Rank Adaptation of Large Language Models

Kainan Liu et al.

cs.CL

本文提出了一种名为Astra的新型参数高效微调方法, 它利用从任务特定校准集估计的模型输出激活的尾部特征向量来构建任务自适应的低秩适配器. 该方法在多个自然语言理解和生成任务上超越了现有基线, 并在某些情况下优于全参数微调.

How Do LLMs Encode Scientific Quality? An Empirical Study Using Monosemantic Features from Sparse Autoencoders

Michael McCoubrey et al.

cs.CL cs.AI cs.DL

本文利用稀疏自编码器从大语言模型中提取单语义特征, 并评估这些特征在预测引用数、期刊SJR和期刊h指数等研究质量相关任务中的表现. 研究发现模型编码了与研究方法、出版物类型、高影响力领域及科学术语相关的质量维度特征.

AgenticRAGTracer: A Hop-Aware Benchmark for Diagnosing Multi-Step Retrieval Reasoning in Agentic RAG

Qijie You, Wenkai Yu, Wentao Zhang

cs.CL

本文提出了一个名为AgenticRAGTracer的基准测试，用于诊断Agentic RAG系统中的多步检索推理能力。该基准通过大语言模型自动构建，支持逐跳验证，实验表明现有模型在其上表现不佳，揭示了推理链扭曲等关键失败模式。

A Dataset for Named Entity Recognition and Relation Extraction from Art-historical Image Descriptions

Stefanie Schneider et al.

cs.CL

本文介绍了FRAME数据集, 这是一个用于命名实体识别(NER)和关系抽取(RE)的人工标注艺术史图像描述数据集. 该数据集包含多层标注, 支持知识图谱构建, 可用于基准测试和微调NER/RE系统.

Facet-Level Persona Control by Trait-Activated Routing with Contrastive SAE for Role-Playing LLMs

Wenqiu Tang et al.

cs.CL

本文提出了一种基于对比稀疏自编码器(SAE)的框架,用于在角色扮演大语言模型(LLM)中实现细粒度的人格控制。该方法通过特质激活路由模块动态选择学习到的人格向量,在长对话中保持了稳定的角色一致性和输出质量。

TurkicNLP: An NLP Toolkit for Turkic Languages

Sherzod Hakimov

cs.CL

本文介绍了一个名为TurkicNLP的开源Python工具包，它为突厥语系的语言提供了统一的自然语言处理流水线。该库整合了多种NLP任务，并采用了模块化的多后端架构。

Next Reply Prediction X Dataset: Linguistic Discrepancies in Naively Generated Content

Simon Münker et al.

cs.CL cs.AI

本文通过构建一个基于真实X平台数据的历史条件回复预测任务数据集, 分析了在无明确行为约束下生成内容时, Large Language Models (LLMs) 与人类语言之间的差异. 研究使用风格和内容指标量化了这些差异, 为评估合成数据的真实性提供了一个框架.

Retrieval Augmented Enhanced Dual Co-Attention Framework for Target Aware Multimodal Bengali Hateful Meme Detection

Raihan Tanvir, Md. Golam Rabiul Alam

cs.CL

本文提出了一种用于孟加拉语仇恨表情包检测的增强型双协同注意力框架(xDORA)和检索增强版本(RAG-Fused DORA). 该方法整合了视觉与多语言文本编码器, 并通过基于FAISS的k近邻分类器进行非参数推理, 在扩展数据集上取得了优于基线的性能.

Learning to Reason for Multi-Step Retrieval of Personal Context in Personalized Question Answering

Maryam Amirizaniani, Alireza Salemi, Hamed Zamani

cs.CL cs.AI cs.IR

本文提出了一种名为PR2的强化学习框架, 用于个性化问答中的多步检索与推理. 该框架学习自适应的检索-推理策略, 通过优化在个性化奖励函数下的多轮推理轨迹来提升回答与用户偏好的对齐程度.

Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

Dongming Jiang et al.

cs.CL cs.AI

本文对Agentic Memory系统进行了结构化分析, 提出了基于四种memory结构的分类法, 并实证性地指出了当前系统在评测基准、指标有效性、模型依赖性及系统开销等方面的主要局限. 该综述旨在阐明现有系统为何未能达到理论预期, 并为更可靠的评估和可扩展的系统设计指明方向.

PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

Isun Chehreh, Ebrahim Ansari

cs.CL cs.IR cs.SI

本文构建了一个用于波斯语社交媒体文本分类的大规模平衡数据集PerSoMed, 并评估了多种模型的性能. 实验表明, 基于transformer的模型, 特别是TookaBERT-Large, 在该数据集上取得了最佳效果.

Personalized Prediction of Perceived Message Effectiveness Using Large Language Model Based Digital Twins

Jasmin Han et al.

cs.CL stat.AP

本文利用基于大型语言模型(LLM)的数字孪生技术来预测个体对戒烟信息的感知有效性(PME). 该方法整合了个人特征和历史评分, 在预测准确性上超越了传统的监督学习和零样本/少样本LLM方法.

Pyramid MoA: A Probabilistic Framework for Cost-Optimized Anytime Inference

Arindam Khaled

cs.CL cs.AI cs.LG

本文提出了一种名为Pyramid MoA的层次化Mixture-of-Agents架构，旨在优化大语言模型推理的成本与性能权衡。该方法通过一个轻量级Router动态分配查询，利用多个小模型之间的语义一致性和置信度校准来识别困难问题，从而在显著降低计算成本的同时保持接近Oracle模型的准确率。

How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1

Yinuo Xu et al.

cs.CL

本文系统研究了强化学习在Deep Research智能体训练中的作用, 聚焦于prompt模板, reward函数和policy优化三个维度. 研究发现Fast Thinking模板更稳定, 基于EM的reward优于F1, 而REINFORCE算法在policy优化中表现最佳, 并基于此提出了改进的baseline模型Search-R1++.

Hyper-KGGen: A Skill-Driven Knowledge Extractor for High-Quality Knowledge Hypergraph Generation

Rizhuo Huang et al.

cs.CL cs.IR

本文提出了一个名为Hyper-KGGen的技能驱动框架，用于从文档中提取高质量的知识超图。该方法通过一个从粗到细的分解机制和一个自适应技能获取模块来应对不同领域的术语差异，并在新构建的基准数据集上验证了其有效性。

Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining

Jeffrey Li et al.

cs.CL cs.LG

本文探讨了在构建大规模语言模型预训练数据集时, 使用单一HTML文本提取器可能导致的覆盖不足问题. 研究表明, 结合多种提取器可以显著增加可用文本数量, 且对于表格和代码等结构化内容, 提取器的选择会直接影响下游任务性能.

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

Yibo Yan et al.

cs.CL cs.CV cs.IR

本文提出了一种名为 Prune-then-Merge 的两阶段框架，用于提升多向量视觉文档检索的效率。该方法通过先剪枝后合并的策略，在保持检索性能的同时显著降低了计算和存储开销。

Temporal-Aware Heterogeneous Graph Reasoning with Multi-View Fusion for Temporal Question Answering

Wuzhenghong Wen et al.

cs.CL cs.AI

本文提出了一种用于时序知识图谱问答(TKGQA)的新框架, 通过时序感知的问题编码, 多跳图推理和多视图异构信息融合来改进性能. 该方法在多个基准测试上取得了优于现有基线的结果.

DEEP: Docker-based Execution and Evaluation Platform

Sergio Gómez González, Miguel Domingo, Francisco Casacuberta

cs.CL

本文介绍了一个名为DEEP的基于Docker的执行与评估平台, 用于自动化机器翻译和光学字符识别等任务的模型执行与评分. 该平台通过容器化技术运行系统, 并结合统计显著性分析和聚类算法对结果进行分组与可视化, 以帮助评估者更好地理解模型性能.

Eye-Tracking-while-Reading: A Living Survey of Datasets with Open Library Support

Deborah N. Jakobi et al.

cs.CL

本文对阅读眼动追踪(eye-tracking-while-reading)领域的数据集进行了全面的综述，并发布了在线资源库和Python工具包以促进数据共享和研究的可重复性。

Anatomy of Unlearning: The Dual Impact of Fact Salience and Model Fine-Tuning

Borisiuk Anna et al.

cs.CL

本文通过构建DUAL基准，研究了大型语言模型在遗忘预训练与监督微调阶段知识时的不同表现。研究发现，对微调数据进行遗忘处理能带来更稳定的遗忘效果和更高的知识保留率。

KGHaluBench: A Knowledge Graph-Based Hallucination Benchmark for Evaluating the Breadth and Depth of LLM Knowledge

Alex Robertson et al.

cs.CL

本文提出了一个基于知识图谱的幻觉评测基准KGHaluBench, 用于评估大型语言模型知识的广度和深度. 该框架通过动态生成多层面问题并自动验证回答, 旨在更公平全面地评估模型的事实性.

Keyboards for the Endangered Idu Mishmi Language

Akhilesh Kakolu Ramarao

cs.CL

本文为濒危的Idu Mishmi语言开发了一套移动和桌面键盘工具。该工具支持完整的字符集，并完全离线运行，旨在解决该语言社区缺乏数字输入工具的问题。

SAMAS: A Spectrum-Guided Multi-Agent System for Achieving Style Fidelity in Literary Translation

Jingzhuo Wu et al.

cs.CL

本文提出了一种用于文学翻译的风格自适应多智能体系统(SAMAS). 该方法将风格量化并作为控制信号, 动态组装翻译工作流, 以提升风格保真度.

SHIELD: Semantic Heterogeneity Integrated Embedding for Latent Discovery in Clinical Trial Safety Signals

Francois Vandenhende et al.

cs.CL

本文提出了一种名为SHIELD的新方法, 用于临床试验中的自动化安全信号检测. 该方法结合了不成比例性分析与MedDRA术语嵌入的语义聚类, 并通过大语言模型生成可解释的集群摘要.

Axis Decomposition for ODRL: Resolving Dimensional Ambiguity in Policy Constraints through Interval Semantics

Daham Mustafa et al.

cs.CL cs.LO

本文针对ODRL 2.2策略语言中多维操作数（如图像尺寸）导致的语义模糊问题，提出了一个基于区间语义的轴分解框架。该框架将多维约束分解为单轴约束，并定义了冲突检测的两层逻辑，最后通过实例化验证了其有效性。

Denotational Semantics for ODRL: Knowledge-Based Constraint Conflict Detection

Daham Mustafa et al.

cs.CL cs.LO

本文为ODRL策略语言提出了一种基于知识库的指称语义, 用于约束冲突检测. 该框架将约束映射到满足它的概念集合, 并在三值逻辑下通过集合交集判断冲突, 保证了知识不完整时的可靠性.

Janus-Q: End-to-End Event-Driven Trading via Hierarchical-Gated Reward Modeling

Xiang Li et al.

cs.CL cs.LG

本文提出了一个端到端的事件驱动交易框架 Janus-Q, 它通过构建大规模事件中心数据集并结合监督学习与强化学习进行决策微调. 实验表明, 该框架在交易决策的盈利性和一致性上优于基准方法.

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Ian Steenstra et al.

cs.CL cs.AI cs.CY cs.HC cs.MA

本文提出了一个用于评估大型语言模型在心理健康支持中风险的自动化临床AI红队测试框架. 该框架通过模拟治疗对话, 结合动态认知情感模型的患者代理和全面的护理质量与风险本体论, 揭示了AI心理治疗师存在的关键安全缺陷.

Unlocking Multimodal Document Intelligence: From Current Triumphs to Future Frontiers of Visual Document Retrieval

Yibo Yan et al.

cs.CL cs.IR

本文对Visual Document Retrieval (VDR)领域进行了首次全面的综述，重点探讨了Multimodal Large Language Model (MLLM)时代下的方法演进、基准测试和未来挑战。

ReAttn: Improving Attention-based Re-ranking via Attention Re-weighting

Yuxing Tian et al.

cs.CL cs.AI

本文提出了一种名为ReAttn的后处理重加权策略，用于改进基于注意力机制的文档重排序方法。该方法通过跨文档IDF加权和基于熵的正则化来缓解注意力过度集中和词汇偏见问题，无需额外训练即可提升性能。

Cross-lingual Matryoshka Representation Learning across Speech and Text

Yaya Sy et al.

cs.CL

本文提出了一种跨语言和跨模态的 Matryoshka 表示学习方法, 用于连接 Wolof 语语音和法语文本. 通过构建新的数据集和基准, 该方法在语音-文本检索任务上取得了良好效果, 并展示了模型在其他任务上的泛化能力.

QUIETT: Query-Independent Table Transformation for Robust Reasoning

Gaurav Najpande et al.

cs.CL

本文提出了一个查询无关的表格转换框架 QuIeTT, 用于将原始表格预处理为标准化的 SQL 就绪格式. 该方法通过解耦表格转换与推理过程, 在多个基准测试上提升了表格问答任务的性能与鲁棒性.

gencat: Generative computerized adaptive testing

Wanyong Feng, Andrew Lan

cs.CL

本文提出了一种基于大型语言模型的生成式计算机自适应测试框架GENCAT. 它通过生成式项目反应理论模型处理开放式回答, 并设计了三种利用生成能力的问题选择算法, 在编程数据集上取得了优于基线方法的效果.

AgenticSum: An Agentic Inference-Time Framework for Faithful Clinical Text Summarization

Fahmida Liza Piya, Rahmatollah Beheshti

cs.CL cs.AI

本文提出了一个用于临床文本摘要的推理时框架 AgenticSum, 该框架通过分离上下文选择、生成、验证和针对性修正等步骤来减少幻觉内容. 实验表明, 该框架在多个评估指标上优于基线方法.

Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously

Han Bao et al.

cs.CL

本文讨论了当前大语言模型在复杂社会技术系统中部署时，通用对齐（General Alignment）范式的局限性。作者提出了一种名为边缘对齐（Edge Alignment）的新方法，旨在通过保留多维价值结构和引入认知机制来解决价值冲突和不确定性等问题。

Entropy in Large Language Models

Marco Scharringhausen

cs.CL

本文通过将大语言模型(LLM)的输出视为一个从有限字母表中抽取符号的信息源，并假设其遵循平稳的恒定随机分布，计算了其词熵(word entropy)。研究结果表明，此类LLM的词熵低于由OANC语料库代表的自然语言(无论是书面语还是口语)的词熵。

Multilingual Large Language Models do not comprehend all natural languages to equal degrees

Natalia Moskvina et al.

cs.CL cs.AI

本文通过测试三种主流大语言模型在12种不同语系语言上的理解能力, 发现模型在类型多样的语言上均表现出色, 但均未达到人类基线水平. 出乎意料的是, 英语并非表现最佳的语言, 其表现被多种罗曼语系语言系统性地超越.

How Retrieved Context Shapes Internal Representations in RAG

Samuel Yeh, Sharon Li

cs.CL

本文通过分析 latent representations 研究了 retrieval-augmented generation (RAG) 中 retrieved context 对大型语言模型内部状态的影响. 实验揭示了 context relevancy 和 layer-wise processing 如何影响模型表示, 并关联了其与下游生成行为的关系.

BabyLM Turns 4: Call for Papers for the 2026 BabyLM Workshop

Leshem Choshen et al.

cs.CL

本文是一篇关于第四届BabyLM研讨会的征稿启事, 旨在促进认知建模与语言建模的融合. 征稿范围包括数据高效预训练竞赛(新增多语言赛道)及相关领域的研究论文.

NanoKnow: How to Know What Your Language Model Knows

Lingwei Gu, Nour Jedidi, Jimmy Lin

cs.CL cs.AI cs.IR cs.LG

本文提出了NanoKnow基准数据集, 用于探究语言模型的知识来源. 通过实验分析了预训练数据频率、外部证据等因素对模型知识表现的影响.

To Reason or Not to: Selective Chain-of-Thought in Medical Question Answering

Zaifu Zhan et al.

cs.CL cs.AI

本文提出了一种称为 Selective Chain-of-Thought 的推理时策略，用于提高大型语言模型在医学问答任务中的效率。该方法通过预测问题是否需要推理来动态决定是否生成解释，从而在保持准确性的同时显著减少了计算开销。

KNIGHT: Knowledge Graph-Driven Multiple-Choice Question Generation with Adaptive Hardness Calibration

Mohammad Amanlou et al.

cs.CL cs.AI cs.IR

本文提出了一个名为KNIGHT的框架, 它利用知识图谱来驱动从外部源生成多项选择题(MCQ). 该方法通过构建特定主题的知识图谱作为可复用的压缩状态, 支持高效且难度可控的问题生成. 作为一个案例研究, 该框架在历史、生物和数学领域生成了多个数据集, 并在多个质量指标上表现出色.

cs.DS

Exact Algorithms for Resource Reallocation Under Budgetary Constraints

Arun Kumar Das et al.

cs.DS cs.MA

本文研究了在预算约束下的资源重分配问题, 提出了一个名为 Red-Blue Reinforcement (R-BR) 的模型. 作者针对几种特定的网络拓扑结构(如具有有界距离到簇、有界模宽或有界团宽的网络), 给出了高效的固定参数可解(FPT)精确算法.

Strengths and Limitations of Greedy in Cup Games

Kalina Jasińska, John Kuszmaul, Gyudong Lee

cs.DS

本文研究了 cup game 和 bamboo trimming problem 中 greedy 算法的性能。证明了 greedy 在 bamboo 设置中的 backlog 下界为 $2.076$, 反驳了其能达到最优值 $2$ 的猜想, 并提出了一个在三种设置下均能达到渐进最优性能的新混合算法。此外, 文章引入并分析了 semi-oblivious cup game 模型, 给出了 greedy 算法在该模型及其变体中的精确渐进 backlog 界限。

Dynamic data structures for twin-ordered matrices

Bartłomiej Bosek et al.

cs.DS

本文针对$d$-twin-ordered的二元矩阵，提出了一种动态数据结构。该结构支持在$\Oh(\log \log n)$的期望最坏情况下进行单元查询和单单元更新，同时仅使用$\Oh_d(n)$的内存空间。

EdgeSketch: Efficient Analysis of Massive Graph Streams

Jakub Lemiesz, Dingqi Yang, Philippe Cudré-Mauroux

cs.DS cs.NI

本文提出了一种名为EdgeSketch的紧凑图表示方法，用于高效分析大规模图流。该方法支持在存储的摘要上直接实现图算法，并在实验中显示出优于无损表示和先前草图方法的内存与运行时间效率。

One Color Makes All the Difference in the Tractability of Partial Coloring in Semi-Streaming

Avinandan Das

cs.DS cs.CC cs.DM

本文研究了$k$-partial coloring问题的半流式计算复杂性。结果表明，$k$-partial $(k+1)$-coloring问题存在高效的单遍随机半流式算法，而$k$-partial $k$-coloring问题则被证明是半流式难解的，揭示了流式模型中“一种颜色的二分性”。

An efficient recursive decomposition algorithm for undirected graphs

Pei Heng, Yi Sun, Jianhua Guo

cs.DS math.CO

本文研究了无向图中atom分解与maximum cardinality search (MCS) ordering之间的关系. 基于MCS ordering, 作者提出了一种递归分解算法, 避免了寻找clique minimal separators, 实验表明该算法在效率上优于现有方法.

On Identifying Critical Network Edges via Analyzing Changes in Shapes (Curvatures)

Bhaskar DasGupta, Katie Kruzan

cs.DS cs.CC

本文研究了基于Ollivier-Ricci曲率识别无向图中关键边的算法与计算复杂性框架. 作者提供了该框架下若干问题的算法结果与不可近似性结果, 并揭示了其与二分图精确完美匹配问题的有趣联系.

Variations on the Problem of Identifying Spectrum-Preserving String Sets

Sankardeep Chakraborty et al.

cs.DS

本文提出了一种称为necklace cover的新结构, 用于更紧凑地表示基因组数据中的$k$-mer集合. 实验表明, 该方法在保持$k$-mer频谱精确性的同时, 能获得比现有方法更小的表示规模.

Covering a Polyomino-Shaped Stain with Non-Overlapping Identical Stickers

Keigo Oka, Naoki Inaba, Akira Iino

cs.DS cs.CC

本文研究了用不重叠的相同形状贴纸覆盖一个给定多联骨牌形状污渍的问题。作者完成了对所有总是可覆盖的污渍形状的分类，并证明了判定给定贴纸能否覆盖给定污渍的问题是NP完全的。

Minimizing Total Travel Time for Collaborative Package Delivery with Heterogeneous Drones

Thomas Erlebach, Kelin Luo, Wen Zhang

cs.DS

本文研究了异构无人机协同包裹配送中的总旅行时间最小化问题. 作者证明了非抢占式调度方案相对于最优抢占式方案的近似比, 并提出了一个常数因子近似算法, 该算法通过转化为树组合问题并利用原始对偶方法求解. 实验表明算法具有可扩展性和良好的调度质量.

Analyzing and Leveraging the $k$-Sensitivity of LZ77

Gabriel Bathie et al.

cs.DS cs.CC

本文研究了LZ77压缩算法对编辑操作的敏感性, 分析了字符串$w$被修改后其压缩率的变化. 作者给出了在$k$次编辑下压缩率的上界$C_{\mathrm{LZ77}}(w') \leq 3 \cdot C_{\mathrm{LZ77}}(w) + 4k$, 并基于原始字符串的压缩率$C_{\mathrm{LZ77}}(w)$与$k$, $n$的关系, 建立了更精细的三分上界. 此外, 论文还提出了一种$\varepsilon$-近似算法, 用于在给定编辑预算$k$的情况下预处理字符串以优化其LZ77压缩率.

Exploration of Always $S$-Connected Temporal Graphs

Duncan Adamson, Paul G Spirakis

cs.DS

本文研究了 always $S$-connected temporal graphs 上的探索问题. 利用该模型作为工具, 为具有特定结构(如 bounded treewidth 或 interval graph)的 temporal graphs 提供了改进的探索算法.

Servicing Matched Client Pairs with Facilities

Fateme Abbasi et al.

cs.DS

本文研究了 Facility Location with Matching 问题, 该问题结合了 Uncapacitated Facility Location 和 Minimum-cost Maximum Matching. 作者提出了一个线性规划松弛, 并给出了一个 3.868-近似算法. 对于所有客户均需匹配的特殊情况, 近似比可改进至 2.218.

Placing Green Bridges Optimally for Robust Habitat Reconnection

Gero Ellmies, Till Fluschnik

cs.DS cs.DM

本文研究了在预算约束下, 通过放置绿色桥梁来鲁棒地重新连接栖息地的优化问题. 该问题被建模为在给定图中选择边集, 使得每个栖息地对应的顶点子集在解中满足2-顶点连通性或2-边连通性. 作者分析了当栖息地最大规模和顶点最大度数被常数限制时, 问题的计算复杂性边界, 证明了在某些参数组合下问题是NP-hard的, 并给出了多项式时间算法.

The Bidirected Cut Relaxation for Steiner Tree: Better Integrality Gap Bounds and the Limits of Moat Growing

Paul Paschmanns, Vera Traub

cs.DS

本文改进了Steiner Tree问题中Bidirected Cut Relaxation (BCR)的积分间隙上界，从1.9988降至1.898。对于终端最小生成树为最优解的特殊情况，证明了积分间隙至多为12/7，并分析了特定对偶增长过程的极限。

Fast and simple multiplication of bounded twin-width matrices

László Kozma, Michal Opler

cs.DS cs.CC cs.CG

本文研究了具有有界 twin-width 的矩阵的快速乘法问题. 它提出了一种预处理算法, 使得 twin-width 为 $d$ 的 $n \times n$ 二元矩阵与任意向量的乘积可以在 $\widetilde{\mathcal{O}}_d(n)$ 时间内计算, 且无需预先知道矩阵的 twin-width 或特定的行列顺序. 当矩阵是 $d$-twin-ordered 时, 运行时间可以进一步优化. 基于此, 文章证明了当至少一个矩阵是二元且有界 twin-width 时, 两个 $n \times n$ 矩阵可以在 $\widetilde{\mathcal{O}}(n^2)$ 时间内相乘, 该算法比之前基于一阶模型检测的方法更快速和简单.

others

DEFNet: Multitasks-based Deep Evidential Fusion Network for Blind Image Quality Assessment

Yiwei Lou et al.

cs.CV cs.AI eess.IV

本文提出了一种基于多任务深度证据融合网络(DEFNet)的盲图像质量评估(BIQA)方法. 该方法通过结合场景和失真类型分类任务进行多任务优化, 并设计了一种可信信息融合策略来整合局部与全局特征. 此外, 网络利用基于证据学习的不确定性估计技术来提高鲁棒性.

NI-Tex: Non-isometric Image-based Garment Texture Generation

Hui Shan et al.

cs.CV cs.AI

本文提出了一种基于非等距图像的服装纹理生成方法. 该方法通过构建模拟数据集和利用图像编辑技术, 实现了从二维图像到三维网格的高质量纹理生成, 并最终合成了可用于生产的PBR纹理.

Context-Aware Mapping of 2D Drawing Annotations to 3D CAD Features Using LLM-Assisted Reasoning for Manufacturing Automation

Muhammad Tayyab Khana et al.

cs.CE cs.AI

本文提出了一种结合确定性规则与LLM辅助推理的上下文感知框架, 用于将2D工程图中的标注(如GD&T)映射到3D CAD模型的对应特征上, 以生成统一的制造规范. 该方法在真实工业数据集上取得了较高的映射精度, 为下游的制造自动化流程提供了实用基础.

Replication Study: Federated Text-Driven Prompt Generation for Vision-Language Models

Suraj Prasad, Anubha Pant

cs.CV cs.LG

本文对FedTPG方法进行了复现研究，在多个视觉数据集上验证了其性能。复现结果与原论文报告高度一致，确认了该文本驱动提示生成方法在联邦学习场景下的有效性和可复现性。

From "Help" to Helpful: A Hierarchical Assessment of LLMs in Mental e-Health Applications

Philipp Steigerwald, Jens Albrecht

cs.HC cs.AI cs.CL cs.CY

本文评估了多种大语言模型在心理健康应用中的表现, 通过分层评估方法为德语心理咨询邮件生成主题行. 研究比较了不同模型的性能, 并讨论了相关的伦理考量.

Developing a Multi-Agent System to Generate Next Generation Science Assessments with Evidence-Centered Design

Yaxuan Yang et al.

cs.CY cs.AI

本文提出了一种将Evidence-Centered Design (ECD)框架与Multi-Agent Systems (MAS)相结合的方法，用于自动生成符合Next Generation Science Standards (NGSS)的科学评估题目。研究比较了AI生成与人工开发的题目质量，发现两者在标准对齐和认知需求上总体相当，但各有优劣。

RA-QA: Towards Respiratory Audio-based Health Question Answering

Gaia A. Bertolino et al.

cs.SD cs.LG eess.AS

本文构建了首个呼吸音频问答数据集RA-QA，并基于此提出了一个评估音频-文本生成模型与音频分类器性能的基准。这项工作为开发更交互式的呼吸健康诊断工具奠定了基础。

LLM-Assisted Replication for Quantitative Social Science

So Kubota et al.

cs.CY cs.AI

本文提出了一种基于LLM的系统, 用于自动化复制社会科学论文中的统计分析并标记潜在问题. 该系统通过迭代的文本解释, 代码生成, 执行和差异分析来工作, 旨在作为辅助基础设施加强研究完整性.

Exploring the Ethical Concerns in User Reviews of Mental Health Apps using Topic Modeling and Sentiment Analysis

Mohammad Masudur Rahman, Beenish Moalla Chaudhry

cs.CY cs.CL cs.HC

本文利用自然语言处理技术, 分析了心理健康应用用户评论中的伦理主题与情感倾向. 研究揭示了现有伦理框架在应对新兴人工智能技术时的不足.

Impact of AI Search Summaries on Website Traffic: Evidence from Google AI Overviews and Wikipedia

Mehrzad Khosravi, Hema Yoganarasimhan

cs.CY cs.AI

本文通过利用Google AI Overviews(AIO)功能的地理分阶段推出和Wikipedia的多语言结构, 采用双重差分法(difference-in-differences)估计了AIO对Wikipedia流量的因果影响. 研究发现, AIO的曝光使英文Wikipedia文章的每日流量减少了约15%, 这种影响在文化类文章中尤为显著.

Beyond single-channel agentic benchmarking

Nelu D. Radpour

cs.CY cs.AI cs.HC

本文批评了当前对agentic AI进行单通道安全评估的范式, 认为其忽略了人机协同系统中的冗余性和可靠性原则. 通过一个实验室安全基准的案例研究, 作者提出应将评估重点从智能体的绝对准确率转向人机组合的联合可靠性, 特别是关注不相关的错误模式.

The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research

Xiaoyan Bai et al.

cs.CY cs.AI cs.CL cs.LG

本文提出了一个基于代码和数据执行的评估框架, 用于验证可解释性研究的严谨性和可复现性. 该框架在测试中与人工评估者的一致性超过80%, 并能发现人工评审可能遗漏的问题.

From Bias Mitigation to Bias Negotiation: Governing Identity and Sociocultural Reasoning in Generative AI

Zackary Okun Dunivin, Bingyi Han, John Bollenbocher

cs.CY cs.AI

本文探讨了生成式AI中身份与社会文化推理的治理问题, 提出了从"偏见缓解"到"偏见协商"的范式转变. 研究通过访谈多个公开部署的聊天机器人, 识别了协商策略与失败模式, 并引入了一个用于系统性评估的框架.

The Doctor Will (Still) See You Now: On the Structural Limits of Agentic AI in Healthcare

Gabriela Aránguiz Dias et al.

cs.CY cs.AI cs.HC

本文通过访谈20位利益相关者, 对医疗领域中的agentic AI系统进行了定性研究. 研究发现, 这些系统在概念定义、自主性承诺与实际操作、以及评估重点方面存在内在矛盾, 其发展受到技术愿景、商业激励和临床现实的多重制约.

Assessing the Reliability of Persona-Conditioned LLMs as Synthetic Survey Respondents

Erika Elizabeth Taday Morocho et al.

cs.CY cs.AI

本文评估了使用persona-conditioned LLMs作为合成调查受访者的可靠性。研究发现，基于人口统计属性的提示并不能在总体上提高与真实调查数据的一致性，反而可能在某些情况下显著降低性能，并对少数群体产生不成比例的扭曲。

How Well Can LLM Agents Simulate End-User Security and Privacy Attitudes and Behaviors?

Yuxuan Li et al.

cs.CY cs.AI cs.CL cs.CR

本文通过构建SP-ABCBench基准，评估了LLM代理在模拟用户安全隐私态度与行为方面与人类研究的对齐程度。研究发现，现有模型仍有较大改进空间，且模型性能与规模、智能程度并非正相关，但特定提示策略可显著提升模拟效果。

Can Multimodal LLMs See Science Instruction? Benchmarking Pedagogical Reasoning in K-12 Classroom Videos

Yixuan Shen et al.

cs.CY cs.AI cs.CV

本文提出了首个用于分析K-12科学课堂话语的视频基准SciIBI, 并评估了多种LLM和MLLM模型. 研究发现, 当前模型难以进行真正的教学推理, 往往依赖表面捷径, 表明科学课堂分析是多模态AI的一个挑战性前沿.

The Algorithmic Unconscious: Structural Mechanisms and Implicit Biases in Large Language Models

Philippe Boisnard

cs.CY cs.CL

本文提出了"算法无意识"的概念, 用以描述LLMs内部不可被模型或用户反思访问的结构性决定因素. 研究认为, 一类重要的偏见直接源于模型本身的技术机制, 如tokenization, attention等, 并通过对比分析展示了阿拉伯语相对于英语存在系统性的token数量膨胀, 这构成了一种可测量的基础设施偏见.

The Landscape of AI in Science Education: What is Changing and How to Respond

Xiaoming Zhai, Kent Crippen

cs.CY cs.AI

本文探讨了人工智能(AI)在科学教育领域带来的变革性影响，并提出了一个负责任与伦理原则(REP)框架来应对相关挑战。文章强调AI应作为人类教师与学习者的合作伙伴，而非替代品。

Transforming Science Learning Materials in the Era of Artificial Intelligence

Xiaoming Zhai, Kent Crippen

cs.CY cs.AI

本文探讨了人工智能(AI)在科学教育材料设计中的应用与影响。文章概述了AI在六个关键领域带来的变革，并指出了伴随而来的伦理与教学挑战。

Charting the Future of AI-supported Science Education: A Human-Centered Vision

Xiaoming Zhai, Kent Crippen

cs.CY cs.AI

本文探讨了人工智能(AI)如何重塑科学教育的目标、实践与成果，并提出了一个以人为中心的责任伦理框架(REP)来指导其整合。文章讨论了AI在个性化学习、教师支持等方面的潜力与风险，强调需以公平、透明等原则确保其发展符合科学素养的广泛目标。

BioLM-Score: Language-Prior Conditioned Probabilistic Geometric Potentials for Protein-Ligand Scoring

Zhangfan Yang et al.

q-bio.BM cs.AI cs.LG

本文提出了一种名为BioLM-Score的蛋白质-配体评分模型，它结合了几何建模与表示学习。该模型利用生物分子语言模型增强表示，并通过混合密度网络预测原子间距离分布来生成评分，在基准测试中表现出色。

ZUNA: Flexible EEG Superresolution with Position-Aware Diffusion Autoencoders

Christopher Warner et al.

eess.SP cs.AI cs.LG

本文提出了一种名为ZUNA的掩码扩散自编码器模型, 用于脑电图(EEG)信号的任意电极位置与数量的超分辨率与通道填充. 该模型通过4D旋转位置编码注入时空结构, 并在大规模EEG数据集上进行训练, 其性能优于传统的球面样条插值方法, 并能泛化到新的数据集和电极配置.

AgentCAT: An LLM Agent for Extracting and Analyzing Catalytic Reaction Data from Chemical Engineering Literature

Wei Yang et al.

physics.chem-ph cs.AI cs.DL

本文介绍了一个名为AgentCAT的LLM智能体, 用于从化学工程文献中提取和分析催化反应数据. 它通过模式驱动的提取流程和依赖感知的知识图谱来解决数据提取的完整性与正确性挑战, 并支持自然语言查询和可视化分析.

AlphaForgeBench: Benchmarking End-to-End Trading Strategy Design with Large Language Models

Wentao Zhang et al.

q-fin.TR cs.AI

本文提出了AlphaForgeBench, 一个用于评估大语言模型(LLMs)在端到端交易策略设计中表现的新基准. 该框架将LLMs定位为量化研究员, 让其生成可执行的alpha因子和基于因子的策略, 从而避免了传统基于直接交易动作的评估方法中存在的决策不稳定和不可复现性问题.

Boltzmann Generators for Condensed Matter via Riemannian Flow Matching

Emil Hoffmann et al.

physics.comp-ph cond-mat.stat-mech cs.LG stat.ML

本文提出了一种结合Riemannian flow matching与周期性边界条件的方法, 用于采样凝聚态系统的平衡分布. 该方法通过Hutchinson迹估计器和基于累积量展开的偏置校正来降低计算成本, 并在单原子冰体系上验证了其在大规模系统中获得精确自由能估计的能力.

Red Teaming LLMs as Socio-Technical Practice: From Exploration and Data Creation to Evaluation

Adriana Alvarado Garcia et al.

cs.CY cs.AI cs.CL cs.HC

本文通过访谈研究了红队测试数据集在生成式人工智能安全评估中的社会技术实践, 指出了当前工作过于侧重技术基准而忽视了数据集的构建与评估过程. 作者提出了三个机会来扩展人机交互研究者对红队测试概念化和数据实践的理解.

DCInject: Persistent Backdoor Attacks via Frequency Manipulation in Personal Federated Learning

Nahom Birhan et al.

cs.CR cs.LG eess.SP

本文提出了一种针对个性化联邦学习(PFL)的新型后门攻击方法DCInject. 该方法在频域进行操作, 通过移除并替换零频(DC)分量来注入后门, 在多个数据集上实现了高攻击成功率, 同时保持了模型的正常精度, 并展示了对现有防御的强鲁棒性.

Vibe Coding on Trial: Operating Characteristics of Unanimous LLM Juries

Muhammad Aziz Ullah, Abdul Serwadda

cs.DB cs.AI cs.CL cs.SE

本文研究了使用多个LLM组成"一致评审团"来评估AI生成的SQL代码正确性的方法. 该方法通过仅在所有模型都判定代码正确时才接受它, 以优先降低误接受率. 实验表明, 由强模型组成的小型一致委员会能在通过许多正确查询的同时, 显著减少误接受.

RDBLearn: Simple In-Context Prediction Over Relational Databases

Yanlin Zhang et al.

cs.DB cs.AI cs.LG

本文提出了一种名为RDBLearn的方法, 用于在关系数据库上进行in-context预测. 该方法通过关系聚合自动特征化目标行, 并利用现成的表格基础模型进行预测, 在多个数据集上取得了有竞争力的性能.

PIPE-RDF: An LLM-Assisted Pipeline for Enterprise RDF Benchmarking

Suraj Ranganath

cs.DB cs.AI

本文提出了一种名为PIPE-RDF的LLM辅助流水线，用于为企业RDF知识图谱生成特定于其模式的自然语言到SPARQL的基准测试。该流水线通过反向查询、模板生成和基于执行的验证修复等步骤，在一个公开数据子集上生成了450个有效且类别平衡的问答对。

Mitigating Shortcut Learning via Feature Disentanglement in Medical Imaging: A Benchmark Study

Sarah Müller, Philipp Berens

cs.CV cs.LG

本文系统评估了多种特征解耦方法在医学影像中缓解捷径学习的效果. 研究发现, 结合数据重平衡与模型解耦的策略能更有效地减轻模型对虚假相关性的依赖.

A Computer Vision Framework for Multi-Class Detection and Tracking in Soccer Broadcast Footage

Daniel Tshiani

cs.CV cs.AI

本文提出了一种基于计算机视觉的端到端系统, 用于从足球比赛的单路广播视频中检测和追踪球员、裁判、守门员及足球. 该系统结合了YOLO检测器与ByteTrack追踪算法, 实验表明其在检测和追踪人员方面性能良好, 但足球检测仍是主要挑战.

Beyond Pass-by-Pass Optimization: Intent-Driven IR Optimization with Large Language Models

Lei Qiu et al.

cs.PL cs.AI

本文提出了一种名为IntOpt的意图驱动的IR优化器, 它通过将优化过程分为意图制定, 意图细化和意图实现三个阶段, 将高层优化策略与底层变换分离. 实验表明, 该方法在正确性和性能上均优于现有的基于LLM的优化器和传统编译器.

Trojan Horses in Recruiting: A Red-Teaming Case Study on Indirect Prompt Injection in Standard vs. Reasoning Models

Manuel Wirth

cs.CR cs.AI

本文通过一个定性红队案例研究, 探讨了在人力资源自动化决策流程中, 间接提示注入对标准指令调优模型与推理增强模型的不同影响. 研究发现, 推理模型在处理复杂对抗性指令时, 可能产生"元认知泄漏", 使其攻击逻辑在输出中意外暴露.

Sketch2Feedback: Grammar-in-the-Loop Framework for Rubric-Aligned Feedback on Student STEM Diagrams

Aayam Bansal

cs.CV cs.AI

本文提出了一种结合语法规则与视觉语言模型的方法, 用于为学生的STEM图表提供符合评分标准的反馈. 该方法通过分解处理流程来减少模型幻觉, 并在合成数据集上进行了评估, 结果表明其在生成可操作的反馈方面优于端到端模型.

Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity

Vasile Marian, Yong-Bin Kang, Alexander Buddery

cs.CV cs.LG

本文通过控制实验评估了合成数据增强对YOLOv11目标检测性能的影响。研究发现，生成式指标（如FID）与下游检测性能（mAP）的相关性因数据集和场景而异，并非总是可靠的预测指标。

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

Zhan Liu et al.

cs.CV cs.AI cs.SD

本文提出了一个名为JAEGER的框架, 将audio-visual large language models (AV-LLMs)扩展到3D空间, 通过整合RGB-D观测和多通道first-order ambisonics来实现联合空间grounding和推理. 为了支持训练和评估, 作者构建了一个包含61k指令调优样本的基准SpatialSceneQA, 实验表明该方法在多种空间感知和推理任务上优于2D基线.

VLANeXt: Recipes for Building Strong VLA Models

Xiao-Ming Wu et al.

cs.CV cs.AI cs.RO

本文系统性地研究了Vision-Language-Action (VLA) 模型的设计空间，在统一的框架下分析了基础组件、感知要素和动作建模等关键维度，并提炼出12条构建高性能VLA模型的实用准则。基于此，作者提出了一个名为VLANeXt的简单有效模型，该模型在多个基准测试中超越了现有方法，并展示了良好的泛化能力。

Fairness-Aware Partial-label Domain Adaptation for Voice Classification of Parkinson's and ALS

Arianna Francesconi et al.

cs.SD cs.AI

本文提出了一种用于帕金森病和肌萎缩侧索硬化症语音分类的公平性感知部分标签域适应框架。该方法结合了风格化域泛化和条件对抗对齐，以减少负迁移并促进性别无关的表征学习。在多个异构数据集上的实验表明，该方法在跨域泛化性能和减少性别差异方面优于现有方法。

Triggering hallucinations in model-based MRI reconstruction via adversarial perturbations

Suna Buğday, Yvan Saeys, Jonathan Peck

eess.IV cs.CV cs.LG

本文通过设计类似随机噪声的对抗性扰动, 研究了基于生成模型的MRI重建方法产生幻觉(即引入原始图像中不存在的特征)的脆弱性. 实验在fastMRI数据集上进行, 结果表明即使微小的扰动也能轻易诱发幻觉, 且传统图像质量指标难以可靠检测.

Rodent-Bench

Thomas Heap et al.

cs.CV cs.AI

本文提出了一个名为Rodent-Bench的新基准，用于评估多模态大语言模型在注释啮齿动物行为视频方面的能力。作者测试了多个先进模型，发现它们在处理长视频和区分细微行为方面仍面临重大挑战。

1D-Bench: A Benchmark for Iterative UI Code Generation with Visual Feedback in Real-World

Qiao Xu et al.

cs.SE cs.AI

本文提出了一个名为1D-Bench的基准测试，用于评估在真实电子商务工作流中，将UI设计图转换为可执行前端代码的能力。该基准强调在固定工具链下生成React代码，并引入了基于执行反馈的多轮迭代编辑设置。

From Static Spectra to Operando Infrared Dynamics: Physics Informed Flow Modeling and a Benchmark

Shuquan Ye et al.

physics.chem-ph cs.AI

本文提出了一个用于预测锂离子电池Operando红外光谱动态演化的新任务和数据集, 并开发了一个结合物理约束的端到端深度学习框架ABCC. 该框架通过引入Chemical Flow等机制显式建模反应轨迹, 在多个基准测试中超越了现有方法, 并能泛化到未见过的电池系统.

RPU -- A Reasoning Processing Unit

Matthew Adiletta, Gu-Yeon Wei, David Brooks

cs.AR cs.AI

本文提出了一种名为 Reasoning Processing Unit (RPU) 的芯片架构，旨在解决大语言模型推理中的内存带宽瓶颈问题。它通过优化内存设计、采用可扩展的 chiplet 结构和解耦微架构来提升能效和吞吐量。

Debug2Fix: Supercharging Coding Agents with Interactive Debugging Capabilities

Spandan Garg, Yufan Huang

cs.SE cs.AI

本文提出了一个名为Debug2Fix的框架, 通过引入交互式调试能力来增强代码修复代理的性能. 该框架在Java和Python的基准测试上取得了超过基线模型20%的性能提升, 并表明合理的工具设计可以弥补模型能力本身的不足.

Multiclass Calibration Assessment and Recalibration of Probability Predictions via the Linear Log Odds Calibration Function

Amy Vennos, Xin Xing, Christopher T. Franck

stat.ML cs.LG stat.ME

本文提出了一种用于多分类概率预测的评估与再校准方法, 称为Multicategory Linear Log Odds (MCLLO). 该方法通过一个可解释的线性对数几率校准函数进行再校准, 并包含一个用于评估校准程度的似然比假设检验. 与现有方法相比, 它不要求访问模型内部结构, 适用性更广.

BloomNet: Exploring Single vs. Multiple Object Annotation for Flower Recognition Using YOLO Variants

Safwat Nusrat, Prithwiraj Bhattacharjee

cs.CV cs.AI

本文比较了多种 YOLO 架构在单目标与多目标标注策略下的花朵识别性能，并引入了 FloralSix 数据集。实验表明，不同的模型和优化器在不同密度场景下各有优势，为自动化农业应用提供了参考。

DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

Jiayang Shi, Daniel M. Pelt, K. Joost Batenburg

eess.IV cs.AI cs.CV

本文提出了一个名为DM4CT的基准测试, 用于系统评估diffusion models在CT重建任务中的表现. 该基准包含医学和工业领域的稀疏视图及含噪数据集, 并在真实高能同步辐射实验条件下进行了方法比较.

Enhancing Goal Inference via Correction Timing

Anjiabei Wang, Shuangge Wang, Tesca Fitzgerald

cs.RO cs.LG

本文探讨了利用人类纠正行为的时机(timing)作为机器人学习信号的价值. 研究通过实验验证了纠正时机在识别可能引发纠正的机器人运动特征以及快速推断人类纠正的最终目标方面的有效性.

Finding the Signal in the Noise: An Exploratory Study on Assessing the Effectiveness of AI and Accessibility Forums for Blind Users' Support Needs

Satwik Ram Kodandaram et al.

cs.HC cs.AI

本文通过访谈14位盲人用户, 探讨了可访问性论坛和生成式AI工具在满足其技术支持需求方面的有效性. 研究发现论坛内容冗余且碎片化, 而AI工具则存在信息不可靠等问题, 并据此提出了改进设计的机会.

Federated Learning-Assisted Optimization of Mobile Transmission with Digital Twins

Mohammad Heydari et al.

cs.NI cs.LG

本文提出了一种结合 Digital Twin (DT) 和联邦学习的移动传输调度优化框架. 该框架通过仅与 DT 交互来保护设备的移动性、位置和信道条件等隐私信息, 并利用依赖舍入 (dependent rounding) 生成实际的信道传输调度方案. 实验表明该方法能有效减少总传输时间, 并在典型边缘服务器硬件上实现毫秒级的端到端运行时间.

Lost in Instructions: Study of Blind Users' Experiences with DIY Manuals and AI-Rewritten Instructions for Assembly, Operation, and Troubleshooting of Tangible Products

Monalika Padma Reddy et al.

cs.HC cs.AI

本文通过访谈和可用性研究, 探讨了盲人用户在使用AI工具(如ChatGPT)和产品说明书进行实体产品DIY任务时的体验. 研究发现, 现有说明书和AI生成的指导对盲人用户而言存在不足, 甚至可能产生误导, 并提出了针对性的改进建议.

Auto Quantum Machine Learning for Multisource Classification

Tomasz Rybotycki, Sebastian Dziura, Piotr Gawron

quant-ph cs.CV cs.LG

本文提出了一种用于多源数据融合分类的自动化量子机器学习(AQML)方法. 该方法在ONERA多光谱数据集上取得了优于先前量子机器学习方案的精度.

NutriOrion: A Hierarchical Multi-Agent Framework for Personalized Nutrition Intervention Grounded in Clinical Guidelines

Junwei Wu et al.

cs.MA cs.AI cs.IR

本文提出了一个用于多病共存患者个性化营养干预的分层多智能体框架NutriOrion. 该框架通过并行-顺序推理拓扑, 结合多目标优先级算法和安全约束机制, 在临床指南基础上生成饮食计划, 并在多病共存卒中患者数据集上验证了其有效性.

Toward AI Autonomous Navigation for Mechanical Thrombectomy using Hierarchical Modular Multi-agent Reinforcement Learning (HM-MARL)

Harry Robertshaw et al.

cs.RO cs.LG

本文提出了一种用于机械取栓自主导航的分层模块化多智能体强化学习框架, 并在体外实验中进行了验证. 该框架将复杂的导航任务分解为子任务, 在模拟和物理测试中均取得了一定的成功率, 但仿真到现实的迁移仍面临挑战.

Heterogeneity-agnostic AI/ML-assisted beam selection for multi-panel arrays

Ibrahim Kilinc, Robert W. Heath Jr

eess.SP cs.AI cs.LG

本文提出了一种基于AI/ML的波束选择算法，旨在解决多面板天线阵列中硬件异构性带来的挑战。该方法通过预测与天线配置无关的无线传播特性，实现了无需为每种配置重新训练模型的通用波束选择。

Neural Fields as World Models

Joshua Nunley

q-bio.NC cs.CV cs.LG

本文提出了一种保持感觉拓扑结构的同构世界模型, 使用具有运动门控通道的神经场来实现物理预测. 实验表明, 该模型能学习弹道物理, 其策略在想象中训练后可迁移到真实物理环境, 并能自发形成身体选择性编码.

Watermarking LLM Agent Trajectories

Wenlong Meng et al.

cs.CR cs.CL

本文提出了一种名为 ActHook 的水印方法，用于保护 LLM agent 轨迹数据的版权。该方法通过植入不影响任务结果的 hook actions，实现了对训练数据的黑盒检测，并在多个任务上验证了其有效性。

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

Houlun Chen et al.

cs.CV cs.AI

本文提出了一种名为Video-TwG的课程强化框架，用于长视频理解。该方法采用了一种新的“Think-with-Grounding”范式，让视频大语言模型能够在交错进行的文本-视频推理中，主动决定何时进行按需的视频片段定位，以缓解幻觉问题。通过两阶段强化课程策略和TwG-GRPO算法进行训练，并在多个基准测试上展示了性能提升。

EDU-MATRIX: A Society-Centric Generative Cognitive Digital Twin Architecture for Secondary Education

Wenjing Zhai, Jianbin Zhang, Tao Liu

cs.MA cs.AI

本文提出了一种名为EDU-MATRIX的社会中心生成式认知数字孪生架构，用于中学教育模拟。该架构通过模拟“社会空间”而非个体，并引入环境context注入、模块化逻辑演化等机制，旨在生成与教育价值对齐的复杂社会动态。

A Data-Driven Method to Map the Functional Organisation of Human Brain White Matter

Yifei Sun et al.

q-bio.NC cs.LG

本文提出了一种整合dMRI与fMRI的数据驱动框架，通过Track-DFC方法刻画白质纤维束支持的功能耦合。研究发现，基于功能聚类的白质束簇在衰老过程中表现出功能耦合强度和时间变异性的广泛下降，并且特定簇介导了年龄与认知表现之间的关系。

Temporal Action Representation Learning for Tactical Resource Control and Subsequent Maneuver Generation

Hoseong Jung et al.

cs.RO cs.AI

本文提出了一个用于战术资源控制和后续机动生成的时序动作表示学习框架 TART. 该框架利用基于互信息目标的对比学习来捕捉资源与机动交互中的时序依赖, 并将学习到的表示量化为离散码本条目以指导策略, 从而生成多模态且时序一致的行为. 在两个资源部署至关重要的领域（迷宫导航和高保真空战模拟）的评估中, TART 均优于基线方法.

Stochastic Gradient Variational Inference with Price's Gradient Estimator from Bures-Wasserstein to Parameter Space

Kyurae Kim et al.

stat.ML cs.LG math.OC stat.CO

本文探讨了在 Gaussian variational family 下, 使用 Price's gradient estimator 对 stochastic gradient variational inference 算法性能的影响. 研究表明, 无论是 Wasserstein VI (在 Bures-Wasserstein space 中优化) 还是 black-box VI (在 parameter space 中优化), 在使用该估计器时都能获得相同的 state-of-the-art 迭代复杂度保证.

WiCompass: Oracle-driven Data Scaling for mmWave Human Pose Estimation

Bo Liang et al.

cs.CV cs.LG

本文提出了WiCompass, 一个用于毫米波人体姿态估计的覆盖感知数据收集框架. 该框架利用运动捕捉数据库构建一个"预言机"来量化数据冗余并指导采集信息量最大的缺失样本, 从而在固定预算下提升模型的分布外鲁棒性.

MiSCHiEF: A Benchmark in Minimal-Pairs of Safety and Culture for Holistic Evaluation of Fine-Grained Image-Caption Alignment

Sagarika Banerjee et al.

cs.CV cs.AI

本文提出了MiSCHiEF基准测试集, 用于评估视觉语言模型在安全和文化领域的细粒度图文对齐能力. 该基准包含基于对比对设计的两个数据集, 测试结果表明当前模型在需要精确跨模态对齐的任务上仍面临挑战.

RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

Seungku Kim et al.

cs.RO cs.AI cs.CV

本文提出了RoboCurate框架, 通过结合仿真回放来验证和筛选由视频生成模型产生的机器人动作数据质量. 该方法利用image-to-image编辑和video-to-video转换来增强数据的观察多样性, 实验表明其在多个机器人操作任务上显著提升了成功率.

Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

Haobo Lin et al.

cs.CV cs.AI

本文提出了一种从零开始合成多模态几何问题数据集的流程, 并构建了名为GeoCode的数据集. 该工作利用数据集中的绘图代码, 引入了代码预测作为显式的对齐目标, 以提升模型在几何推理任务上的性能.

UFO: Unlocking Ultra-Efficient Quantized Private Inference with Protocol and Algorithm Co-Optimization

Wenxuan Zeng et al.

cs.CR cs.AI

本文提出了一种名为UFO的量化安全两方计算(2PC)推理框架，通过协议与算法的协同优化来降低通信开销和延迟。该框架结合了高效的Winograd卷积算法与量化技术，并引入了图级协议优化和混合精度量化感知训练算法以提升效率与精度。

Bounds and Identification of Joint Probabilities of Potential Outcomes and Observed Variables under Monotonicity Assumptions

Naoya Hashimoto, Yuta Kawakami, Jin Tian

stat.ML cs.LG

本文在离散处理和有序离散结果的因果推断设定下, 研究了潜在结果与观测变量联合概率及其线性组合的界与识别问题. 作者提出了新的单调性假设族, 将求界问题表述为线性规划问题, 并引入了一个新的单调性假设以实现识别.

TAG: Thinking with Action Unit Grounding for Facial Expression Recognition

Haobo Lin et al.

cs.CV cs.AI

本文提出了一个名为TAG的视觉-语言框架, 用于面部表情识别(FER). 该框架通过将多模态推理过程显式地约束在面部动作单元(AU)相关的区域上, 旨在生成可验证的视觉证据, 以减少幻觉并提高模型的鲁棒性.

Nazrin: Atomic Tactics for Graph Neural Networks for Theorem Proving in Lean 4

Leni Aniva et al.

cs.LO cs.LG

本文提出了一种基于图神经网络的定理证明方法, 用于Lean 4证明助手. 它引入了一套原子策略和一个将证明表达式转换为原子序列的算法, 并构建了名为Nazrin的证明器.

Computational Complexity of Edge Coverage Problem for Constrained Control Flow Graphs

Jakub Ruszil et al.

cs.CC cs.DS cs.SE

本文研究了在带有显式约束的控制流图中实现边覆盖问题的计算复杂性. 通过将经典边覆盖问题与五种不同类型的顶点间时序约束相结合, 证明了除POSITIVE约束外, 其他约束下的决策问题均为NP-完全的, 并针对NEGATIVE约束给出了一个固定参数可解算法.

MANATEE: Inference-Time Lightweight Diffusion Based Safety Defense for LLMs

Chun Yan Ryan Kan et al.

cs.CR cs.AI cs.CL cs.LG

本文提出了一种名为MANATEE的推理时轻量级防御方法，用于保护大语言模型免受对抗性越狱攻击。该方法通过在良性表示流形上进行密度估计，并使用扩散过程将异常表示投影到安全区域，无需有害训练数据或模型架构修改。实验表明，该方法能有效降低攻击成功率，同时保持模型在良性输入上的性能。

Carbon-aware decentralized dynamic task offloading in MIMO-MEC networks via multi-agent reinforcement learning

Mubshra Zulfiqar, Muhammad Ayzed Mirza, Basit Qureshi

cs.DC cs.AI cs.LG

本文提出了一种基于多智能体近端策略优化的碳感知去中心化动态任务卸载框架CADDTO-PPO，用于多用户MIMO-MEC网络。该框架旨在联合优化碳排放、缓冲延迟和能量浪费，并通过实验验证了其优于现有基线方法的性能。

Operational Robustness of LLMs on Code Generation

Debalina Ghosh Paul, Hong Zhu, Ian Bayley

cs.SE cs.AI cs.LG

本文提出了一种名为scenario domain analysis的方法来评估LLMs在代码生成任务上的operational robustness. 该方法旨在量化导致LLM输出错误所需的最小输入描述变化, 并通过实验对多个先进LLM的鲁棒性进行了排序和分析.

Chat-Based Support Alone May Not Be Enough: Comparing Conversational and Embedded LLM Feedback for Mathematical Proof Learning

Eason Chen et al.

cs.HC cs.AI cs.CY

本文评估了名为GPTutor的LLM辅助教学系统在本科离散数学课程中的应用效果. 该系统整合了两种工具: 一个提供结构化证明反馈的工具和一个用于数学问题的聊天机器人. 研究发现, 聊天机器人的使用与后续考试成绩呈负相关, 而结构化证明反馈工具则未显示出这种关联.

Habilis-$β$: A Fast-Motion and Long-Lasting On-Device Vision-Language-Action Model

Tommoro Robotics et al.

cs.RO cs.LG

本文提出了一个名为Habilis-$\beta$的快速、长续航的端侧视觉-语言-动作模型。它通过引入新的评估指标和一系列技术优化，在连续运行的机器人任务中实现了比基线模型更高的任务效率和可靠性。

UniRank: A Multi-Agent Calibration Pipeline for Estimating University Rankings from Anonymized Bibliometric Signals

Pedram Riyazimehr, Seyyed Ehsan Mahmoudi

cs.SI cs.AI

本文提出了一种名为UniRank的多智能体LLM pipeline, 用于仅基于公开的文献计量数据(来自OpenAlex和Semantic Scholar)来估计大学在全球排名系统中的位置. 该系统采用三阶段架构, 并在评估时对机构信息进行匿名化处理, 以防止LLM记忆干扰结果. 在THE排名数据集上的实验表明, 该pipeline实现了非零的记忆指数和可观的排名相关性指标, 其系统性的预测偏差和随排名下降而性能递减的现象, 为其执行了真正的分析推理而非记忆提供了证据.

OpenClaw AI Agents as Informal Learners at Moltbook: Characterizing an Emergent Learning Community at Scale

Eason Chen et al.

cs.HC cs.AI cs.CY cs.SI

本文对完全由AI代理构成的大规模非正式学习社区Moltbook进行了首次实证研究。研究发现，该社区表现出极端的参与不平等、与人类社区相反的“广播式”互动模式，以及一个包含增长、垃圾信息危机和参与度下降的特征性生命周期。这些发现对混合人机学习平台具有直接意义。

When Agda met Vampire

Artjoms Šinkarovs, Michael Rawson

cs.LO cs.AI

本文提出了一种将依赖类型证明助手Agda与自动定理证明器Vampire集成的简单方法。该方法通过识别一个可双向翻译的逻辑片段，将Agda的证明义务转发给Vampire，并将得到的经典证明转换为Agda可类型检查的构造性证明项。

DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference

Aditya Kumar Singh et al.

cs.CV cs.AI

本文提出了一种用于视觉语言模型(VLM)的双阶段统一高效token缩减框架DUET-VLM. 该方法在视觉编码器输出阶段进行冗余感知压缩, 并在语言主干中进行层级的、文本引导的token丢弃, 从而在保持高准确率的同时显著减少计算量.

When the Inference Meets the Explicitness or Why Multimodality Can Make Us Forget About the Perfect Predictor

J. E. Domínguez-Vidal, Alberto Sanfeliu

cs.RO cs.AI

本文通过人机协作搬运物体的实验，比较了意图推断与显式通信两类共四种系统。实验结果表明，在达到足够性能后，人类对技术改进不再敏感，且更偏好更自然但故障率更高的交互方式。

TIACam: Text-Anchored Invariant Feature Learning with Auto-Augmentation for Camera-Robust Zero-Watermarking

Abdullah All Tanvir, Agnibh Dasgupta, Xin Zhong

eess.IV cs.CV cs.LG cs.MM

本文提出了一种名为TIACam的框架, 用于解决相机重拍摄场景下的鲁棒零水印问题. 该方法通过可学习的自动增强模块模拟相机畸变, 并结合文本锚定的跨模态特征学习, 在不修改图像像素的情况下将信息编码到不变特征中.

Limits of Convergence-Rate Control for Open-Weight Safety

Domenic Rosati et al.

math.OC cs.LG

本文研究了针对开放权重基础模型微调的安全防护问题, 将其视为一个优化收敛速率控制问题. 通过谱重参数化方法, 作者提出了SpecDef算法, 并证明了在非对抗性设置下可有效减缓一阶和二阶优化. 同时, 文章也指出了此类收敛速率控制方法在对抗性攻击下的一个根本性局限.

Federated Measurement of Demographic Disparities from Quantile Sketches

Arthur Charpentier et al.

stat.ML cs.LG

本文提出了一种用于联邦环境下审计 demographic parity 的方法, 通过 Wasserstein--Frechet 方差来衡量敏感群体间的分数分布差异. 该方法允许各参与方仅共享分组计数和分数分布的 quantile summary, 从而高效地估计全局差异及其来源分解.

BiMotion: B-spline Motion for Text-guided Dynamic 3D Character Generation

Miaowei Wang et al.

cs.CV cs.AI

本文提出了一种基于B-spline曲线表示动态3D角色运动的方法BiMotion. 该方法通过一个闭式的、带Laplacian正则化的B-spline求解器, 将可变长度的运动序列压缩为固定数量控制点的紧凑表示, 并结合多种损失函数来提升运动质量. 实验表明, 该方法能生成更富表现力、质量更高且与文本提示更对齐的运动.

Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation

Jie Li et al.

cs.CV cs.AI

本文提出了一种基于结构级解耦扩散模型的少样本中文字体生成方法. 该方法通过分离的内容与风格通道进行信息融合, 并引入背景噪声去除模块以提升生成质量.

FOCA: Frequency-Oriented Cross-Domain Forgery Detection, Localization and Explanation via Multi-Modal Large Language Model

Zhou Liu et al.

cs.CV cs.AI

本文提出了一种基于多模态大语言模型的图像伪造检测与定位框架FOCA, 它通过跨注意力融合模块整合RGB空间域和频域的判别特征. 该方法在检测性能和跨域可解释性上优于现有方法, 并引入了一个包含双域标注的大规模数据集FSE-Set.

SceneTok: A Compressed, Diffusable Token Space for 3D Scenes

Mohammad Asim, Christopher Wewer, Jan Eric Lenssen

cs.CV cs.AI cs.LG

本文提出了一种名为SceneTok的新型tokenizer, 用于将场景的多视角图像集合编码为一组压缩的、可扩散的无结构tokens. 该方法通过一个轻量级的rectified flow decoder从这些tokens渲染出新视角, 在实现高压缩比的同时保持了高质量的重建效果.

Orchestrating LLM Agents for Scientific Research: A Pilot Study of Multiple Choice Question (MCQ) Generation and Evaluation

Yuan An

cs.CY cs.AI cs.HC

本文探讨了利用多个LLM智能体协同工作以自动化生成和评估多项选择题(MCQ)的混合方法研究流程. 研究发现, 尽管生成的MCQ在表面质量上表现良好, 但在技能深度、认知参与度等方面与专家编写的问题仍存在差距, 同时研究者的工作重心转向了流程规范与验证.

Could Large Language Models work as Post-hoc Explainability Tools in Credit Risk Models?

Wenxi Geng et al.

q-fin.RM cs.LG

本文探讨了大型语言模型(LLM)作为信用风险模型事后可解释性工具的潜力。研究评估了LLM在翻译和自主解释两种角色上的表现，发现其更适合作为基于可审计模型归因的叙事接口，而非替代传统解释工具。

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Kwanghee Choi et al.

eess.AS cs.CL cs.LG cs.SD

本文研究了自监督语音模型(S3Ms)中语音学信息的编码结构. 通过分析96种语言, 发现模型表示空间中存在与语音学特征对应的线性方向, 这些"语音学向量"的尺度与对应声学特征的连续实现程度相关.

AAVGen: Precision Engineering of Adeno-associated Viral Capsids for Renal Selective Targeting

Mohammadreza Ghaffarzadeh-Esfahani, Yousof Gheisari

q-bio.QM cs.AI cs.CL cs.LG

本文提出了一个名为AAVGen的生成式人工智能框架, 用于从头设计具有增强多特性谱的腺相关病毒(AAV)衣壳. 该框架整合了蛋白质语言模型(PLM), 监督微调(SFT)和一种称为组序列策略优化(GSPO)的强化学习技术, 并通过基于ESM-2的回归预测器指导设计, 以优化生产适应性, 肾脏趋向性和热稳定性等多个关键属性.

Adaptive Collaboration of Arena-Based Argumentative LLMs for Explainable and Contestable Legal Reasoning

Hoang-Loc Cao et al.

cs.MA cs.AI cs.SC

本文提出了一个结合多智能体协作与形式化论辩框架的神经符号方法, 用于增强法律推理的可解释性与可争议性. 该方法在基准测试中展现了优于基线模型的性能.

NeuroWise: A Multi-Agent LLM "Glass-Box" System for Practicing Double-Empathy Communication with Autistic Partners

Albert Tang et al.

cs.HC cs.AI cs.CY cs.IR cs.MA

本文介绍了一个名为 NeuroWise 的多智能体 LLM 系统，旨在帮助神经典型性个体在与自闭症伙伴交流时实践双共情沟通。该系统通过压力可视化、内部体验解释和情境引导来提供支持，一项用户研究显示它能有效减少用户对自闭症“缺陷”的归因。

Implicit Bias and Convergence of Matrix Stochastic Mirror Descent

Danil Akhtiamov, Reza Ghane, Babak Hassibi

stat.ML cs.LG math.OC

本文研究了矩阵参数和向量值预测的Stochastic Mirror Descent (SMD)算法, 该框架与多类分类和矩阵补全问题相关. 在过参数化机制下, 证明了算法会指数收敛到一个全局插值解, 并推广了经典隐式偏差结果.

GUIDE-US: Grade-Informed Unpaired Distillation of Encoder Knowledge from Histopathology to Micro-UltraSound

Emma Willis et al.

cs.CV cs.LG

本文提出了一种无配对的组织病理学知识蒸馏方法, 用于训练微超声编码器以模仿预训练的组织病理学基础模型的嵌入分布, 从而改善前列腺癌的非侵入性分级. 该方法在无需患者级别配对或图像配准的情况下进行训练, 并在60%特异性下提升了检测临床显著性前列腺癌的敏感性.

An interpretable framework using foundation models for fish sex identification

Zheng Miao, Tien-Chieh Hung

cs.CV cs.AI

本文提出了一种基于基础模型的可解释框架FishProtoNet, 用于濒危鱼类三角洲胡瓜鱼的非侵入式性别鉴定. 该框架结合了视觉基础模型进行ROI提取和可解释的原型网络进行特征学习与分类, 在特定生命阶段取得了较好的准确率.

Routing-Aware Explanations for Mixture of Experts Graph Models in Malware Detection

Hossein Shokouhinejad et al.

cs.CR cs.AI

本文提出了一种用于恶意软件检测的Mixture-of-Experts (MoE)图模型解释方法。该方法通过结合多个图视图和路由感知的归因分析，旨在提高模型决策的透明度。

The Metaphysics We Train: A Heideggerian Reading of Machine Learning

Heman Shakeri

cs.CY cs.AI cs.LG

本文从 Heidegger 现象学视角解读当代机器学习, 认为算法投射是自动化、不透明且涌现的, 其运作缺乏显式表达与辩论. 文章指出, 即使技术不断进步, 其本质仍囿于计算框架之内, 而 AI 系统因缺乏"关怀"等存在结构, 无法质疑自身的优化目标.

Detecting Cybersecurity Threats by Integrating Explainable AI with SHAP Interpretability and Strategic Data Sampling

Norrakith Srisumrith, Sunantha Sodsee

cs.CR cs.AI cs.LG

本文提出了一种用于网络安全威胁检测的集成可解释人工智能框架. 该框架结合了战略数据采样, 自动数据泄漏预防以及基于SHAP的可解释性方法, 在CIC-IDS2017数据集上验证了其有效性.

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

Qi Sun et al.

cs.CV cs.GR cs.LG

本文提出了一种结合运动学动画与视频扩散先验的框架, 用于生成高真实感的3D人体动画. 该方法通过分层运动表示和一种自引导的随机采样策略, 解决了现有方法在非刚性动态和身份保真度方面的不足.

Kaiwu-PyTorch-Plugin: Bridging Deep Learning and Photonic Quantum Computing for Energy-Based Models and Active Sample Selection

Hongdong Zhu et al.

quant-ph cs.AI

本文介绍了Kaiwu-PyTorch-Plugin (KPP), 一个旨在连接深度学习与光子量子计算的框架. 它将Coherent Ising Machine集成到PyTorch生态中, 旨在提升Energy-Based Models的效率, 并在一些数据集上展示了其性能.

Event-Triggered Gossip for Distributed Learning

Zhiyuan Zhai et al.

eess.SP cs.LG

本文提出了一种用于分布式学习的事件触发gossip框架, 旨在降低节点间的通信开销. 该框架通过基于本地模型偏差的自适应通信控制机制, 在非凸目标下实现了遍历收敛, 并在仿真中显著减少了点对点传输次数.

CRCC: Contrast-Based Robust Cross-Subject and Cross-Site Representation Learning for EEG

Xiaobin Wong et al.

q-bio.NC cs.AI

本文提出了一种用于跨被试和跨站点EEG解码的鲁棒表示学习框架CRCC. 该框架通过数据标准化和表示层面的约束来缓解多个偏差源的影响, 并在一个抑郁症EEG基准上取得了优于现有方法的表现.

CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion

Sijie Mai, Shiqin Han

cs.CV cs.LG

本文提出了一种名为CaReFlow的循环自适应修正流方法, 用于解决多模态融合中的模态鸿沟问题. 该方法通过扩展修正流进行模态分布映射, 并结合自适应松弛对齐与循环结构来提升对齐效果并保留模态特定信息.

VIGiA: Instructional Video Guidance via Dialogue Reasoning and Retrieval

Diogo Glória-Silva, David Semedo, João Maglhães

cs.CV cs.CL

本文提出了一种名为VIGiA的新型多模态对话模型, 旨在理解和推理复杂的多步骤教学视频动作计划. 该模型通过整合多模态计划推理和基于计划的检索能力, 在烹饪和DIY等领域的教学视频对话数据集上取得了优于现有方法的性能.

Constrained Diffusion for Accelerated Structure Relaxation of Inorganic Solids with Point Defects

Jingyi Cui et al.

cond-mat.mtrl-sci cs.AI cs.LG

本文提出了一种用于模拟点缺陷的生成框架, 通过一种基于原始-对偶算法的约束感知扩散模型, 加速了无机固体中点缺陷的结构弛豫. 该方法在Bi2Te3的六种缺陷构型设置中取得了先进的性能.

Artefact-Aware Fungal Detection in Dermatophytosis: A Real-Time Transformer-Based Approach for KOH Microscopy

Rana Gursoy et al.

cs.CV cs.AI

本文提出了一种基于RT-DETR transformer架构的实时检测框架，用于在KOH显微镜图像中精确识别真菌菌丝。该方法在独立测试集上表现出高召回率与准确率，展示了其作为自动化筛查工具的潜力。

CosyAccent: Duration-Controllable Accent Normalization Using Source-Synthesis Training Data

Qibing Bai et al.

eess.AS cs.AI cs.SD

本文提出了一种基于"源合成"训练数据构建方法的语音口音归一化模型CosyAccent. 该模型通过非自回归架构, 在无需真实L2语音数据训练的情况下, 实现了对输出时长的显式控制, 并提升了内容的保真度与自然度.

HistCAD: Geometrically Constrained Parametric History-based CAD Dataset

Xintong Dong et al.

cs.GR cs.AI

本文提出了一个名为HistCAD的大规模参数化CAD建模数据集, 该数据集包含建模序列, 多视图渲染, B-rep, 参数化文件及文本标注五种对齐模态. 作者还开发了一个标注模块AM_HistCAD, 利用大语言模型为建模过程生成补充性文本描述. 该数据集旨在为可编辑, 约束感知且语义丰富的生成式CAD建模提供一个统一的基准.

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

Xiaokun Zhang et al.

cs.CV cs.AI

本文针对SAR图像智能解译问题, 提出了一个名为FUSAR-GPT的视觉语言模型. 该模型通过构建新的数据集, 引入地理空间先验和时空特征嵌入, 并采用两阶段微调策略, 在多个遥感视觉语言基准测试中取得了优于主流基线模型的性能.

Visual Prompt Guided Unified Pushing Policy

Hieu Bui et al.

cs.RO cs.AI

本文提出了一种结合视觉提示与流匹配的统一推动策略, 用于生成反应式、多模态的推动动作. 该策略可作为低级模块集成到高级规划框架中, 在桌面清理等任务上展现了有效性.

An Interpretable Data-Driven Model of the Flight Dynamics of Hawks

Lydia France, Karl Lapo, J. Nathan Kutz

q-bio.QM cs.CE cs.LG physics.flu-dyn

本文利用dynamic mode decomposition (DMD)方法分析鹰的运动捕捉数据，构建了一个数据驱动的飞行动力学模型。该模型能够用少量可解释的模态结构来表征不同的飞行状态，并实现高精度的运动重建。

Controlled Face Manipulation and Synthesis for Data Augmentation

Joris Kirchner et al.

cs.CV cs.LG

本文提出了一种在预训练人脸生成器的语义隐空间中进行可控面部编辑的方法, 用于数据增强. 该方法通过轻量级线性模型减少语义特征间的纠缠, 并利用编辑后的数据增强面部动作单元检测器的训练, 提升了性能.

Attention Deficits in Language Models: Causal Explanations for Procedural Hallucinations

Ahmed Karim et al.

stat.ML cs.LG

本文研究了大型语言模型在遵循复杂流程后，却无法正确报告其刚刚计算出的简单数值的“程序性幻觉”现象。作者通过分析长上下文绑定任务中的错误，将其分解为模型未进入“答案模式”的Stage 2A错误和进入模式但选错候选词的Stage 2B错误，并发现后者主要由近因偏差导致。

Scaling Laws for Precision in High-Dimensional Linear Regression

Dechen Zhang et al.

stat.ML cs.AI cs.LG

本文在 high-dimensional sketched linear regression 框架下，从理论上研究了低精度训练的 scaling laws. 分析了 multiplicative 和 additive quantization 两种方案，揭示了它们在影响 effective model size 和 effective data size 上的关键差异.

No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

Zunkai Dai et al.

cs.CV cs.AI

本文提出了一个名为LAVIDA的零样本视频异常检测框架, 它通过Anomaly Exposure Sampler生成伪异常进行训练, 并利用Multimodal Large Language Model (MLLM)来增强对上下文语义的理解. 该方法在多个基准数据集上实现了先进的性能, 且无需任何真实异常数据进行训练.

Quantum Sketches, Hashing, and Approximate Nearest Neighbors

Sajjad Hashemian

quant-ph cs.DS

本文在一种广义的量子草图模型中，研究了近似最近邻搜索问题的量子内存下界。通过归约到量子随机访问码并利用Nayak下界，证明了对于Hamming空间中的特定实例，任何具有恒定成功概率的量子草图都需要$\Omega(n)$量子比特，从而排除了使用$O(\log n)$量子比特进行压缩的可能性。

Prognostics of Multisensor Systems with Unknown and Unlabeled Failure Modes via Bayesian Nonparametric Process Mixtures

Kani Fu et al.

stat.AP cs.LG

本文提出了一种结合 Dirichlet process mixture 和神经网络的贝叶斯非参数框架, 用于在故障模式未知且未标记的情况下进行多传感器系统寿命预测. 该方法通过迭代反馈机制动态推断故障模式, 并在仿真和航空发动机数据集上验证了其有效性和在线适应能力.

CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications

Sonu Kumar et al.

cs.AR cs.AI cs.CV cs.NE eess.IV

本文提出了一种基于CORDIC的混合精度向量处理引擎CORVET, 用于边缘AI加速. 该设计支持运行时在近似与精确模式间动态重配置, 并通过向量化时分复用执行提高了计算密度和能效.

Safe and Interpretable Multimodal Path Planning for Multi-Agent Cooperation

Haojun Shi et al.

cs.RO cs.AI cs.HC cs.MA

本文提出了一种名为CaPE的安全可解释多模态路径规划方法, 用于多智能体协作. 该方法利用vision-language model合成路径编辑程序, 并通过基于模型的规划器进行安全验证, 以根据环境和其他智能体的语言通信来更新路径规划.

Metasurfaces-Integrated Wireless Neural Networks for Lightweight Over-The-Air Edge Inference

Kyriakos Stylianopoulos et al.

cs.ET cs.LG eess.SP

本文提出了一种集成可编程超表面的无线神经网络架构, 用于在物理层实现轻量级的空中边缘推理. 该框架将无线信道与超表面作为可训练的计算层, 旨在降低传统数字硬件的高功耗.

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Shirui Chen et al.

cs.RO cs.AI cs.LG

本文提出了一种名为 TOPReward 的新颖方法, 它利用预训练视频 Vision-Language Models (VLMs) 的内部 token 概率来估计机器人任务进度, 以替代传统的稀疏奖励. 该方法在超过130个真实世界任务上进行了零样本评估, 表现出优于现有基准的性能.

IPv2: An Improved Image Purification Strategy for Real-World Ultra-Low-Dose Lung CT Denoising

Guoliang Gong, Man Yu

cs.CV cs.AI

本文提出了一种改进的图像净化策略IPv2, 用于处理真实世界超低剂量肺部CT图像的去噪问题. 该方法通过引入三个核心模块, 在训练和测试阶段分别提升了背景抑制和肺实质恢复的效果.

Online Navigation Planning for Long-term Autonomous Operation of Underwater Gliders

Victor-Alexandru Darvariu et al.

cs.RO cs.AI

本文提出了一种基于Monte Carlo Tree Search的在线规划方法, 用于水下滑翔机的长期自主导航. 该方法通过一个结合物理模型和海洋预报的仿真器生成样本, 并在两次北海实地部署中验证了其有效性.

Health+: Empowering Individuals via Unifying Health Data

Sujaya Maiyya, Shantanu Sharma, Avinash Kumar

cs.MM cs.AI cs.CR cs.DB cs.DC

本文提出了一种名为 Health+ 的用户中心化多模态健康数据管理系统. 该系统旨在通过直观的界面和智能推荐, 赋予个人对其分散的健康数据的控制权, 并处理异构数据的存储、集成与安全问题.

US-JEPA: A Joint Embedding Predictive Architecture for Medical Ultrasound

Ashwath Radhachandran et al.

cs.CV cs.AI cs.LG

本文提出了一种用于医学超声图像的自监督表示学习框架US-JEPA. 它采用静态教师架构来提供稳定的训练目标, 并在一个公开基准测试上取得了有竞争力的分类性能.

RetinaVision: XAI-Driven Augmented Regulation for Precise Retinal Disease Classification using deep learning framework

Mohammad Tahmid Noor et al.

cs.CV cs.AI

本文提出了一种基于深度学习框架的视网膜疾病分类方法 RetinaVision. 该方法在 OCT 图像数据集上测试了 Xception 和 InceptionV3 等 CNN 架构, 并利用数据增强和 XAI 技术提升模型性能与可解释性.

City Editing: Hierarchical Agentic Execution for Dependency-Aware Urban Geospatial Modification

Rui Liu et al.

cs.MA cs.AI

本文提出了一种用于城市地理空间修改的分层智能体框架, 将自然语言编辑指令分解为多层次的几何意图, 并通过联合规划与执行来协调跨空间元素的相互依赖的编辑. 该方法在多种城市编辑场景中展现了效率与鲁棒性的提升.

Dynamic Elasticity Between Forest Loss and Carbon Emissions: A Subnational Panel Analysis of the United States

Keonvin Park

stat.AP cs.LG

本文利用美国2001-2023年的州级面板数据，研究了森林损失与碳排放之间的动态关系。通过固定效应和动态面板回归模型，发现碳排放具有时间持续性，且森林损失的长期弹性显著大于短期效应。

MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose

Sirine Bhouri et al.

cs.CV cs.AI

本文提出了一种名为MultiDiffSense的扩散模型, 用于生成多种视觉触觉传感器的合成图像. 该方法通过条件化CAD深度图和接触姿态, 实现了可控的多模态图像生成, 并在下游姿态估计任务中验证了合成数据的有效性.

UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic Segmentation

Rohit Mohan et al.

cs.CV cs.AI

本文提出了一种名为UP-Fuse的、基于不确定性引导的LiDAR-相机融合框架，用于3D全景分割。该方法通过预测的不确定性图动态调制跨模态交互，并在相机传感器退化或失效时保持鲁棒性。

MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations

Nilay Yilmaz et al.

cs.CV cs.LG

本文提出了MentalBlackboard基准，用于评估视觉语言模型在空间可视化任务（如折纸和打孔）中的预测与规划能力。实验表明，现有模型在处理对称变换、旋转和多阶段对称推理方面存在显著困难。

Vid2Sid: Videos Can Help Close the Sim2Real Gap

Kevin Qiu et al.

cs.RO cs.LG

本文提出了一种名为Vid2Sid的视频驱动系统辨识方法, 用于校准机器人仿真器的物理参数以匹配真实硬件. 该方法结合了基础模型感知与VLM-in-the-loop优化器, 通过分析仿真与真实视频对来诊断物理差异并提供可解释的参数更新. 在刚性手指和软体触手机器人上的实验表明, 该方法在性能上匹配或超越了黑盒优化器, 并能提供迭代过程中的可解释推理.

Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization

Yanting Yang et al.

cs.RO cs.CV cs.LG

本文提出了一种用于视觉语言模型(VLM)策略优化的测试时计算框架, 通过解耦状态评估与动作生成来改进决策. 该方法利用beam search探索多条未来路径并聚合其预期长期回报, 同时引入轻量级触发机制以在必要时才进行反思, 从而在多种机器人操作任务上提升了成功率并显著降低了推理时间.

Regularity of Second-Order Elliptic PDEs in Spectral Barron Spaces

Ziang Chen et al.

math.AP cs.LG math.NA

本文研究了二阶椭圆型PDE在spectral Barron空间中的正则性。在温和的椭圆性和小性假设下，证明了其解能获得额外的两阶Barron正则性。

Adaptive Data Augmentation with Multi-armed Bandit: Sample-Efficient Embedding Calibration for Implicit Pattern Recognition

Minxue Tang et al.

cs.CV cs.CL cs.LG

本文提出了一种名为ADAMAB的高效嵌入校准框架, 用于解决少样本隐式模式识别任务. 该框架通过训练轻量级校准器并采用基于Multi-Armed Bandit的自适应数据增强策略, 在减少计算开销和数据需求的同时提升了模型性能.

Hilbert-Augmented Reinforcement Learning for Scalable Multi-Robot Coverage and Exploration

Tamil Selvan Gurunathan, Aryya Gangopadhyay

cs.RO cs.AI cs.MA

本文提出了一种将Hilbert空间填充曲线先验集成到去中心化多机器人覆盖与探索中的框架. 该方法通过Hilbert空间索引增强DQN和PPO算法, 以结构化探索并减少稀疏奖励环境中的冗余, 并通过一个航点接口将Hilbert排序转换为曲率有界、时间参数化的SE(2)轨迹, 使其能在资源受限的机器人上执行. 实验表明, 该方法在覆盖效率、冗余度和收敛速度上优于基线, 并在Boston Dynamics Spot腿式机器人上进行了验证.

BioEnvSense: A Human-Centred Security Framework for Preventing Behaviour-Driven Cyber Incidents

Duy Anh Ta et al.

cs.CR cs.CY cs.HC cs.LG

本文提出了一个结合CNN-LSTM模型来分析生物和环境数据的概念性安全框架, 旨在通过上下文感知的决策来预防人为驱动的网络安全事件. 该模型在检测导致人为风险升高的条件方面取得了84%的准确率.

MACE-POLAR-1: A Polarisable Electrostatic Foundation Model for Molecular Chemistry

Ilyes Batatia et al.

physics.chem-ph cs.LG

本文提出了一种新的静电基础模型MACE-POLAR-1，用于分子化学。该模型通过结合局部几何特征与可学习的电荷/自旋密度迭代，并引入长程静电相互作用，提升了分子间非共价相互作用和蛋白质-配体结合等性质的预测精度。

Redefining the Down-Sampling Scheme of U-Net for Precision Biomedical Image Segmentation

Mingjie Li et al.

cs.CV cs.AI

本文提出了一种名为Stair Pooling的新下采样策略, 旨在缓解U-Net在生物医学图像分割中因下采样导致的长程信息丢失问题. 该方法通过一系列方向各异的小型池化操作串联, 将每次下采样的维度缩减率从$1/4$调整为$1/2$, 从而在编码阶段保留更多信息, 实验表明其在多个基准数据集上能有效提升分割精度.

FinSight-Net:A Physics-Aware Decoupled Network with Frequency-Domain Compensation for Underwater Fish Detection in Smart Aquaculture

Jinsong Yang et al.

cs.CV cs.AI

本文提出了一种用于智能水产养殖中水下鱼类检测的物理感知解耦网络FinSight-Net. 它通过多尺度解耦双流处理瓶颈和高效的路径聚合FPN来补偿频域信息损失, 在多个数据集上实现了轻量且先进的性能.

When AI Teammates Meet Code Review: Collaboration Signals Shaping the Integration of Agent-Authored Pull Requests

Costain Nachuma, Minhaz Zibran

cs.SE cs.AI

本文通过实证研究分析了AI生成的pull request在代码审查中的协作信号与集成结果的关系. 研究发现, 审查者的参与度是成功集成的关键因素, 而较大的变更规模则会降低合并的可能性.

Red-Teaming Claude Opus and ChatGPT-based Security Advisors for Trusted Execution Environments

Kunal Mukherjee

cs.CR cs.AI

本文通过构建TEE-RedBench评估框架, 对ChatGPT和Claude Opus作为可信执行环境(TEE)安全顾问的表现进行了红队测试. 研究发现, 提示诱导的失败在模型间存在一定程度的可迁移性, 并提出了一个包含策略门控、检索增强等环节的"LLM-in-the-loop"评估流程来显著降低失败率.

Laplacian Multi-scale Flow Matching for Generative Modeling

Zelin Zhao et al.

cs.CV cs.LG

本文提出了一种基于Laplacian pyramid分解的多尺度flow matching框架LapFlow, 用于图像生成. 该方法通过并行处理不同尺度的残差, 避免了级联方法所需的显式去噪过程, 在提升生成质量的同时降低了计算开销.

PuppetChat: Fostering Intimate Communication through Bidirectional Actions and Micronarratives

Emma Jiren Wang, Siying Hu, Zhicong Lu

cs.HC cs.AI cs.CL cs.CY

本文提出了一种名为PuppetChat的双人即时通讯原型系统，旨在通过具身交互增强亲密关系中的沟通深度。该系统利用一个考虑互惠性的推荐器来鼓励双向回应，并通过从用户故事生成个性化微叙事来将互动根植于个人历史。一项为期10天的实地研究表明，该方法能增强社交临场感、支持更具表达性的自我表露，并维持互动的连续性与共享记忆。

Can Large Language Models Replace Human Coders? Introducing ContentBench

Michael Haman

cs.CY cs.AI cs.CL

本文介绍了用于评估低成本大语言模型(LLM)在解释性编码任务中表现的基准套件ContentBench. 通过首个测试集ContentBench-ResearchTalk v1.0的结果显示, 表现最佳的模型与参考标签的一致性可达97-99%, 且成本低廉, 但小型开源模型在识别讽刺等复杂语境时仍有困难.

Scale-PINN: Learning Efficient Physics-Informed Neural Networks Through Sequential Correction

Pao-Hsiung Chiu et al.

cs.CE cs.AI cs.LG physics.comp-ph

本文提出了一种名为Scale-PINN的新学习策略，通过将数值求解器中的迭代残差校正原理融入PINN的损失函数构建中，显著提升了训练效率和求解精度。该方法在多个物理领域的PDE问题上实现了快速的收敛，并成功应用于流体动力学等实际问题。

Botson: An Accessible and Low-Cost Platform for Social Robotics Research

Samuel Bellaire et al.

cs.RO cs.AI cs.HC

本文介绍了Botson, 一个基于大语言模型(LLM)构建的拟人化社交机器人平台. 该平台旨在以低成本、易获取的方式, 为社交机器人研究提供一个实验载体, 以探索如何通过具身化来增强AI在人际交互中的信任感.

Relational Feature Caching for Accelerating Diffusion Transformers

Byunggwan Son et al.

cs.CV cs.LG

本文提出了一种名为relational feature caching (RFC)的新框架, 用于加速diffusion transformers (DiTs). 该方法通过利用模块输入与输出特征之间的关系来改进特征预测的准确性, 并引入了一种基于输入特征预测误差的缓存调度策略. 实验表明, RFC在多种DiT模型上均显著优于现有方法.

Large Language Model-Assisted UAV Operations and Communications: A Multifaceted Survey and Tutorial

Yousef Emami et al.

cs.RO cs.AI

本文是一篇关于大型语言模型(LLM)辅助无人机(UAV)操作与通信的综述性教程。它系统性地梳理了LLM与UAV技术的交叉领域，提出了一个统一的框架，并涵盖了从模型适配技术到具体应用场景的广泛内容。

Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection

Zhiwei Ning et al.

cs.CV cs.AI

本文提出了一种名为Fore-Mamba3D的3D物体检测新方法，旨在通过改进Mamba编码器来增强对前景信息的处理。该方法设计了区域到全局的滑动窗口和信息融合模块，以缓解线性自回归模型中的依赖性问题，并在多个基准测试中取得了优越的性能。

Cost-Aware Diffusion Active Search

Arundhati Banerjee, Jeff Schneider

cs.RO cs.AI cs.LG

本文提出了一种基于diffusion model的cost-aware active search算法, 用于平衡自主agent在未知环境中的探索与利用. 该方法通过序列建模采样前瞻动作序列, 避免了构建计算昂贵的搜索树, 并在单/多智能体场景中提升了决策效率与目标完全恢复率.

Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems

Xingyu Shen et al.

cs.CV cs.CR cs.LG

本文通过模拟化妆攻击（如假胡须、白发等）评估了年龄估计系统的脆弱性。研究发现，简单的物理修饰能显著改变AI的年龄判断，揭示了现有部署系统的安全漏洞。

A Green Learning Approach to LDCT Image Restoration

Wei Wang, Yixing Wu, C.-C. Jay Kuo

cs.CV cs.AI

本文提出了一种基于Green Learning (GL)的医学图像恢复方法，并以低剂量CT (LDCT)图像为例进行验证。该方法在模型大小和计算复杂度上具有优势，并取得了具有竞争力的恢复效果。

Agentic AI as a Cybersecurity Attack Surface: Threats, Exploits, and Defenses in Runtime Supply Chains

Xiaochong Jiang et al.

cs.CR cs.AI

本文系统分析了基于LLM的Agentic AI系统在运行时面临的新型安全威胁, 提出了一个统一的运行时攻击面框架. 该框架将威胁分类为数据供应链攻击和工具供应链攻击, 并识别了无需代码漏洞即可自我传播的"病毒性智能体循环"风险.

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

Li Zhang et al.

cs.CV cs.AI

本文提出了一种名为DICArt的新框架，将铰接物体姿态估计问题建模为一个条件离散扩散过程。该方法通过层次化运动学耦合策略和灵活的流决策器，在合成与真实数据集上展现了优越的性能。

CTC-TTS: LLM-based dual-streaming text-to-speech with CTC alignment

Hanwen Liu et al.

eess.AS cs.AI cs.SD

本文提出了一种基于CTC对齐和双词交织策略的LLM-TTS系统CTC-TTS, 用于低延迟双流语音合成. 实验表明, 该方法在流式合成和零样本任务上优于基于固定比例交织和MFA对齐的基线模型.

Goal-Oriented Influence-Maximizing Data Acquisition for Learning and Optimization

Weichi Yao et al.

stat.ML cs.LG

本文提出了一种名为GOIMDA的目标导向主动数据采集算法，用于深度神经网络的学习与优化任务。该方法通过最大化候选数据点对用户指定目标函数的影响来选择输入，避免了显式的后验推断，并在多个任务上展现了优于基线方法的样本效率。

Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis

Chunlei Meng et al.

cs.MM cs.AI

本文提出了一个Tri-Subspace Disentanglement (TSD)框架，用于多模态情感分析。该框架将特征分解到三个互补的子空间，并设计了相应的解耦监督与融合模块，在基准数据集上取得了先进的性能。

Manifold-Aligned Generative Transport

Xinyu Tian, Xiaotong Shen

stat.ML cs.LG

本文提出了一种名为MAGT的生成模型, 它通过单次前向传递将低维基分布映射到数据空间, 并学习与数据流形对齐的传输. 该方法在固定的高斯平滑水平下训练, 使用自归一化重要性采样来近似得分函数, 从而在合成和基准数据集上实现了较好的生成保真度和流形集中性.

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

Chunlei Meng et al.

cs.CV cs.AI cs.MM

本文提出了一种名为CLCR的多模态学习方法, 通过构建三层语义层次结构并设计层级间约束来改善特征融合. 该方法在多个基准任务上展现了良好的性能与泛化能力.

Satellite-Based Detection of Looted Archaeological Sites Using Machine Learning

Girmaw Abebe Tadesse et al.

cs.CV cs.AI

本文提出了一种基于卫星影像和机器学习来检测被掠夺考古遗址的自动化流程. 该方法比较了端到端CNN与传统机器学习方法, 发现结合ImageNet预训练和空间掩码的CNN模型效果最佳.

Workflow-Level Design Principles for Trustworthy GenAI in Automotive System Engineering

Chih-Hong Cheng et al.

cs.SE cs.LG

本文提出了在汽车系统工程中集成可信生成式AI的工作流级设计原则, 并通过一个端到端的流程进行了演示. 该方法通过分节处理, 多样性采样和轻量级NLP检查来提升需求变更识别的完整性与正确性, 并将变更传播到SysML v2模型中以进行验证和可追溯的回归测试.

PedaCo-Gen: Scaffolding Pedagogical Agency in Human-AI Collaborative Video Authoring

Injun Baek, Yearim Kim, Nojun Kwak

cs.CV cs.AI cs.HC

本文提出了一种名为PedaCo-Gen的人机协作教学视频生成系统。该系统基于多媒体学习认知理论，通过引入中间表示阶段，允许教育者与AI协同审查和优化视频蓝图。研究表明，该系统能有效提升视频质量与创作效率。

Nacrith: Neural Lossless Compression via Ensemble Context Modeling and High-Precision CDF Coding

Roberto Tacconelli

cs.IT cs.CL

本文提出了一种名为Nacrith的无损压缩系统，它结合了transformer语言模型、轻量级在线预测器集合与高精度算术编码器。该系统在多个标准文本数据集上实现了优于传统压缩方法的压缩率，并支持对任意二进制文件进行神经压缩。

Cooperation After the Algorithm: Designing Human-AI Coexistence Beyond the Illusion of Collaboration

Tatia Codreanu

cs.HC cs.AI

本文探讨了生成式人工智能系统在关键领域参与时，由于不承担责任的“结构性不对称”所带来的风险。作者基于制度分析和合作理论，提出了一个形式化模型和包含六项设计原则的“合作生态”框架，旨在为构建可持续、负责任的人机协作系统提供理论基础和实用工具。

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

Uichan Lee, Jeonghyeon Kim, Sangheum Hwang

cs.CV cs.AI

本文提出了一种名为HiRM的方法, 通过误导文本编码器中目标概念的高层语义表示来实现概念擦除. 该方法仅更新包含视觉属性因果状态的早期层, 在有效移除目标概念的同时, 对非目标概念的生成质量影响较小.

Denoising Particle Filters: Learning State Estimation with Single-Step Objectives

Lennart Röstel, Berthold Bäuml

cs.RO cs.AI cs.LG

本文提出了一种基于单步目标学习的去噪粒子滤波算法, 用于机器人状态估计. 该方法通过去噪分数匹配隐式学习测量模型, 并与(学习的)动力学模型结合, 在推理时近似求解贝叶斯滤波方程.

Personalized Longitudinal Medical Report Generation via Temporally-Aware Federated Adaptation

He Zhu et al.

cs.CV cs.LG

本文提出了一种名为FedTAR的联邦学习框架，用于生成个性化的纵向医学报告。该框架通过结合人口统计学驱动的个性化与时间感知的全局聚合，旨在处理客户端数据随时间的演变。在J-MID和MIMIC-CXR数据集上的实验表明，该方法在语言准确性和时间连贯性方面取得了改进。

Continuous Telemonitoring of Heart Failure using Personalised Speech Dynamics

Yue Pan et al.

cs.SD cs.AI

本文提出了一种用于心力衰竭远程监测的个性化语音动态分析方法. 该方法通过纵向患者内追踪方案和个性化序列编码器, 将连续的语音记录转化为上下文感知的表示, 从而更准确地识别临床状态变化.

TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

Hyeongjin Nam, Daniel Sungho Jung, Kyoung Mu Lee

cs.CV cs.AI

本文提出了一个名为TeHOR的框架, 用于从单张图像进行3D人体和物体的联合重建. 该方法利用文本描述和外观线索来增强重建的语义对齐与视觉合理性, 在非接触式交互场景中取得了先进性能.

Smoothness Adaptivity in Constant-Depth Neural Networks: Optimal Rates via Smooth Activations

Yuhao Liu et al.

stat.ML cs.LG math.NA

本文研究了使用光滑激活函数的常数深度神经网络在 Sobolev 空间 $W^{s,\infty}([0,1]^d)$ 中的逼近与统计性质. 结果表明, 这类网络能自动利用目标函数的高阶光滑性, 达到近似最优的误差率, 而 ReLU 等非光滑激活函数则缺乏这种适应性.

Iconographic Classification and Content-Based Recommendation for Digitized Artworks

Krzysztof Kutt, Maciej Baczyński

cs.DL cs.AI cs.CV cs.IR

本文提出一个结合Iconclass词汇与AI方法的原型系统, 用于数字化艺术品的图像学分类与内容推荐. 该系统通过整合目标检测、规则推理和多种相似度计算, 展示了自动化编目与增强藏品导航的潜力.

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

Haitao Lin et al.

cs.CV cs.LG cs.RO

本文提出了一种名为Pose-VLA的解耦训练范式, 用于提升Vision-Language-Action (VLA)模型的泛化能力和训练效率. 该方法通过引入离散的pose token作为通用表示, 将空间先验学习与具体的机器人动作对齐分离开来.

Carbon-Aware Governance Gates: An Architecture for Sustainable GenAI Development

Mateen A. Abbasi et al.

cs.SE cs.AI

本文提出了一种名为 Carbon-Aware Governance Gates (CAGG) 的架构扩展，旨在将碳预算和可持续性考量融入 GenAI 辅助软件开发的治理流程中。该架构通过三个核心组件来管理计算能耗，以减少开发活动产生的碳足迹。

NILE: Formalizing Natural-Language Descriptions of Formal Languages

Tristan Kneisel et al.

cs.FL cs.CL cs.LO

本文提出了一种名为Nile的表示语言, 用于形式化自然语言对形式语言的描述. 该方法旨在教育场景中, 通过比较Nile表达式与自然语言描述的句法结构, 来算法化地判断描述的准确性并提供解释. 实验表明, 大语言模型能够将自然语言描述高精度地转换为等价的Nile表达式.

Ensemble Machine Learning and Statistical Procedures for Dynamic Predictions of Time-to-Event Outcomes

Nina van Gerwen et al.

stat.ML cs.LG stat.AP

本文提出了一种基于Super Learner的集成学习框架, 用于结合来自不同模型(如joint modelling和landmarking)的动态生存预测. 该方法旨在通过交叉验证和特定目标函数优化组合权重, 以提升预测准确性, 并在原发性胆汁性胆管炎的风险预测应用中展示了其灵活性.

Hexagon-MLIR: An AI Compilation Stack For Qualcomm's Neural Processing Units (NPUs)

Mohammed Javed Absar et al.

cs.PL cs.AI

本文介绍了Hexagon-MLIR, 一个面向Qualcomm Hexagon NPU的开源AI编译栈. 它基于MLIR框架, 通过一系列优化pass来利用NPU架构特性, 加速AI工作负载, 并支持从Triton kernel或PyTorch模型到二进制文件的自动化编译.

Exact Discrete Stochastic Simulation with Deep-Learning-Scale Gradient Optimization

Jose M. G. Vilar, Leonor Saiz

q-bio.QM cond-mat.stat-mech cs.LG physics.comp-ph q-bio.MN

本文提出了一种用于连续时间 Markov 链精确随机模拟的可微分方法。该方法通过解耦前向模拟与反向微分，实现了大规模并行且与自动微分兼容的精确模拟，并在多个生物物理模型中验证了其准确性和可扩展性。

Enhancing Automatic Chord Recognition via Pseudo-Labeling and Knowledge Distillation

Nghia Phan et al.

cs.SD cs.IR cs.LG cs.MM

本文提出了一种用于自动和弦识别(ACR)的两阶段训练方法, 以缓解标注数据稀缺的问题. 该方法利用预训练模型为大量未标注音频生成伪标签, 并在此基础上训练学生模型, 再结合真实标注进行微调, 最终在多个指标上超越了传统监督学习基线.

The Climate Change Knowledge Graph: Supporting Climate Services

Miguel Ceriani et al.

cs.DB cs.AI cs.CY

本文介绍了一个用于整合和查询气候模拟数据的知识图谱系统. 该系统旨在通过提供统一的框架来改善气候数据的探索和决策支持.

Path-conditioned training: a principled way to rescale ReLU neural networks

Arthur Lebeurrier, Titouan Vayer, Rémi Gribonval

stat.ML cs.LG math.OC

本文提出了一种称为"路径条件训练"的方法, 用于对ReLU神经网络的参数进行重新缩放. 该方法基于路径提升框架, 通过最小化一个几何准则来对齐路径空间中的核, 并推导了有效的对齐算法. 实验表明该方法有加速训练的潜力.

Depth-Structured Music Recurrence: Budgeted Recurrent Attention for Full-Piece Symbolic Music Modeling

Yungang Yi

cs.SD cs.AI cs.LG

本文提出了一种用于符号音乐建模的循环长上下文Transformer模型, 通过分段循环和深度依赖的记忆窗口调度来扩展上下文长度. 该方法在有限计算资源下, 为完整乐曲的建模提供了质量与效率的权衡方案.

SafePickle: Robust and Generic ML Detection of Malicious Pickle-based ML Models

Hillel Ohayon, Daniel Gilkarov, Ran Dubin

cs.CR cs.AI

本文提出了一种基于机器学习的轻量级扫描器SafePickle, 用于检测恶意的Pickle序列化文件. 该方法通过静态分析Pickle字节码提取特征, 并利用监督和无监督模型进行分类, 在多个数据集上超越了现有扫描器的性能.

Efficient endometrial carcinoma screening via cross-modal synthesis and gradient distillation

Dongjing Shan et al.

cs.CV cs.AI

本文提出了一种用于子宫内膜癌筛查的两阶段深度学习框架. 该框架通过跨模态生成网络合成超声图像以缓解数据稀缺, 并利用梯度蒸馏构建轻量级筛查网络, 在降低计算成本的同时实现了高诊断性能.

MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems

Jin Jia et al.

cs.SE cs.AI

本文提出了一个名为MAS-FIRE的系统化框架，用于对基于LLM的多智能体系统进行故障注入和可靠性评估。该框架通过非侵入式机制注入多种语义故障，并揭示了不同系统架构在容错行为上的差异。

LLM-enabled Applications Require System-Level Threat Monitoring

Yedi Zhang et al.

cs.CR cs.AI cs.SE

本文是一篇立场论文, 主张将LLM应用中的安全风险视为常态而非异常, 并强调建立系统级威胁监控机制对于可靠部署的重要性. 文章认为, 当前的研究重点应从提升模型能力转向部署后的异常检测与响应.

Orthogonal Uplift Learning with Permutation-Invariant Representations for Combinatorial Treatments

Xinyan Su et al.

stat.ME cs.LG

本文提出了一种用于组合干预的 uplift 估计框架。该方法通过排列不变的聚合方式表示策略，并将其整合到一个正交化的低秩模型中，以提升估计的准确性和稳定性。

Dirichlet Scale Mixture Priors for Bayesian Neural Networks

August Arnstad, Leiv Rønneberg, Geir Storvik

stat.ML cs.LG

本文提出了一种用于Bayesian neural networks的新先验分布Dirichlet scale mixture prior, 旨在通过结构化的稀疏性收缩来解决现有BNN的局限性. 理论分析和实验表明, 该先验能促进网络稀疏性, 提升对抗鲁棒性, 并在参数较少的情况下保持竞争力.

GOAL: Geometrically Optimal Alignment for Continual Generalized Category Discovery

Jizhou Han et al.

cs.CV cs.AI

本文提出了一种名为GOAL的框架, 用于解决Continual Generalized Category Discovery (C-GCD) 问题. 该方法通过引入固定的Equiangular Tight Frame (ETF) classifier来维持学习过程中特征空间几何结构的一致性, 从而减少遗忘并提升新类别的发现能力.

GPU-Native Compressed Neighbor Lists with a Space-Filling-Curve Data Layout

Felix Thaler, Sebastian Keller

cs.CE astro-ph.IM cs.DS

本文提出了一种基于空间填充曲线(Space-Filling Curve, SFC)内存布局和粒子簇的压缩邻居列表方法，用于短程粒子间相互作用。该方法可在GPU上高效构建，内存占用小，并能很好地处理具有高密度对比度的系统。

Make Some Noise: Unsupervised Remote Sensing Change Detection Using Latent Space Perturbations

Blaž Rolih et al.

cs.CV cs.AI

本文提出了一种名为MaSoN的无监督遥感变化检测框架, 通过在训练期间直接在latent feature space中合成多样化的变化来避免对预定义变化类型的依赖. 该方法利用目标数据的特征统计进行动态估计, 实现了与目标域对齐的数据驱动变化生成, 并在多个基准测试中取得了先进的性能.

Rethinking Chronological Causal Discovery with Signal Processing

Kurt Butler et al.

eess.SP cs.LG stat.ML

本文探讨了因果发现方法对观测数据采样时间与真实事件发生时间不匹配的敏感性. 通过理论和实验分析, 文章表明采样率和窗口长度等超参数会影响经典及现代方法的性能, 并讨论了信号处理视角下的理解.

Gradient based Severity Labeling for Biomarker Classification in OCT

Kiran Kokilepersaud et al.

cs.CV cs.LG

本文提出了一种基于梯度的疾病严重程度标注方法, 用于OCT图像的生物标志物分类. 该方法利用异常检测算法的梯度响应为无标签OCT扫描生成严重程度标签, 并用于监督对比学习, 从而提升分类准确率.

RobPI: Robust Private Inference against Malicious Client

Jiaqi Xue, Mengxin Zheng, Qian Lou

cs.CR cs.LG

本文提出了一种针对恶意客户端的鲁棒私有推理协议RobPI. 该协议通过向推理过程中的logits和特征添加加密兼容的噪声来抵御攻击, 实验表明其能显著降低攻击成功率并大幅增加攻击所需的查询次数.

When Pretty Isn't Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators

Krzysztof Adamkiewicz et al.

cs.CV cs.AI

本文通过实验发现, 尽管现代 text-to-image 模型生成的图像视觉质量更高, 但将其作为合成训练数据时, 分类器在真实测试集上的性能反而会下降. 作者指出, 这是因为模型倾向于生成审美中心化但多样性和标签对齐性不足的图像, 挑战了生成真实感等同于数据真实感的假设.

Contextual Safety Reasoning and Grounding for Open-World Robots

Zachary Ravichadran et al.

cs.RO cs.AI

本文提出了一个名为CORE的安全框架, 用于开放世界机器人的上下文安全推理与落地. 该框架利用视觉语言模型(VLM)从视觉观测中在线推理上下文相关的安全规则, 并通过控制屏障函数(CBF)进行安全约束, 在未见环境中实现了上下文适应的行为.

Multivariate time-series forecasting of ASTRI-Horn monitoring data: A Normal Behavior Model

Federico Incardona et al.

astro-ph.IM astro-ph.HE cs.LG

本文为ASTRI-Horn切伦科夫望远镜的监控数据开发了一个Normal Behavior Model (NBM), 用于多变量时间序列预测. 该模型基于Multi-Layer Perceptron (MLP), 在小时尺度上实现了可靠的预测, 为在线异常检测和预测性维护提供了基础.

A Context-Aware Knowledge Graph Platform for Stream Processing in Industrial IoT

Monica Marconi Sciarroni, Emanuele Storti

cs.DB cs.DC cs.IR

本文提出了一种面向工业物联网数据流管理的上下文感知语义平台, 该平台利用 Knowledge Graph 统一异构数据源, 并支持基于上下文的流发现与访问控制. 实验评估表明, 结合语义模型、上下文感知推理与分布式流处理技术, 能够为工业环境实现可互操作的数据工作流.

Descriptor: Dataset of Parasitoid Wasps and Associated Hymenoptera (DAPWH)

Joao Manoel Herrera Pinheiro et al.

cs.CV cs.AI

本文构建了一个专注于寄生蜂及相关膜翅目昆虫的图像数据集 DAPWH, 包含超过3500张高分辨率图像, 其中部分图像带有昆虫身体、翅脉和比例尺的标注. 该数据集旨在为开发计算机视觉模型以进行自动分类识别提供基础资源.

Closing the gap in multimodal medical representation alignment

Eleonora Grassucci, Giordano Cicchetti, Danilo Comminiello

cs.CV cs.LG

本文针对医学多模态表示对齐中的 modality gap 问题进行了研究。作者提出了一种与模态无关的框架来弥合这一差距，从而提升了放射学图像与临床文本之间的对齐效果。

SEAL-pose: Enhancing 3D Human Pose Estimation via a Learned Loss for Structural Consistency

Yeonsung Kim et al.

cs.CV cs.AI

本文提出了一种名为SEAL-pose的数据驱动框架，通过一个可学习的损失网络来评估结构合理性，从而训练姿态估计网络。该方法在多个基准测试中有效降低了关节误差并提升了姿态的合理性。

To Move or Not to Move: Constraint-based Planning Enables Zero-Shot Generalization for Interactive Navigation

Apoorva Vashisth et al.

cs.RO cs.AI cs.CV

本文提出了一个用于终身交互式导航的LLM驱动约束规划框架, 该框架结合了主动感知, 使机器人能够在杂乱环境中通过移动障碍物来完成任务. 在仿真和真实硬件上的实验表明该方法优于多种基线.

AdaWorldPolicy: World-Model-Driven Diffusion Policy with Online Adaptive Learning for Robotic Manipulation

Ge Yuan et al.

cs.RO cs.AI

本文提出了一个名为AdaWorldPolicy的机器人操作框架, 它结合了world model, diffusion policy和在线自适应学习. 该框架通过一个新颖的在线学习策略在动态环境中调整策略, 并在仿真和真实机器人基准测试中取得了先进的性能.

The LLMbda Calculus: AI Agents, Conversations, and Information Flow

Zac Garby, Andrew D. Gordon, David Sands

cs.PL cs.AI cs.CR

本文提出了一种基于lambda calculus的形式化模型, 用于描述和分析由大型语言模型(LLM)驱动的AI agent对话及其信息流. 该模型通过引入动态信息流控制(dynamic information-flow control)和特定的原语(primitives), 为理解此类系统的行为和安全属性提供了理论基础.

HeatPrompt: Zero-Shot Vision-Language Modeling of Urban Heat Demand from Satellite Images

Kundan Thota et al.

cs.CV cs.AI

本文提出了一种名为HeatPrompt的零样本视觉语言建模框架, 用于从卫星图像中估算城市热需求. 该方法利用预训练的大规模视觉语言模型提取与热负荷相关的视觉属性, 并结合多层感知机进行回归预测, 在数据稀缺地区为热规划提供了轻量级支持.

The Invisible Gorilla Effect in Out-of-distribution Detection

Harry Anthony et al.

cs.CV cs.LG

本文研究了out-of-distribution (OOD)检测中的一个新偏差，即"Invisible Gorilla Effect"。该效应表明，当难以检测的伪影（near-OOD）与模型关注的区域（ROI）在视觉上相似时，检测性能会提升，反之则下降。作者通过在多个数据集和基准上评估40种OOD方法，证实了这一普遍存在的性能下降现象。

Robust Taylor-Lagrange Control for Safety-Critical Systems

Wei Xiao, Christos Cassandras, Anni Li

eess.SY cs.AI cs.RO

本文提出了一种鲁棒的Taylor-Lagrange控制方法，用于解决安全临界系统中的可行性保持问题。该方法通过高阶Taylor展开显式处理控制输入，减少了超参数数量，并在自适应巡航控制中验证了有效性。

Descent-Guided Policy Gradient for Scalable Cooperative Multi-Agent Learning

Shan Yang, Yang Liu

cs.MA cs.AI cs.LG

本文提出了一种名为 Descent-Guided Policy Gradient (DG-PG) 的框架，用于解决大规模合作多智能体强化学习中的梯度方差问题。该方法利用领域可微分析模型为每个智能体生成无噪声的指导梯度，从而实现了与智能体数量无关的样本复杂度。实验在一个异构云调度任务上验证了其在大规模场景下的高效收敛性。

StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues

Zanxi Ruan et al.

cs.CV cs.AI

本文提出了一种名为StructXLIP的视觉-语言模型微调范式, 通过提取图像的边缘图(如Canny)作为视觉结构代理, 并过滤对应文本以强调结构线索, 从而增强跨模态对齐. 该方法在跨模态检索任务上超越了现有方法, 并可作为一种即插即用的通用增强方案.

Transcending the Annotation Bottleneck: AI-Powered Discovery in Biology and Medicine

Soumick Chatterjee

cs.CV cs.AI eess.IV

本文综述了生物医学AI领域中"无标签学习"的最新进展, 重点讨论了无监督和自监督学习如何利用生物银行规模的数据, 减少对专家标注的依赖. 这些方法通过从数据内在结构(如MRI像素、体素或基因组序列)中学习, 实现了新表型的发现、形态与遗传学的关联以及无偏异常检测.

StyleStream: Real-Time Zero-Shot Voice Style Conversion

Yisi Liu, Nicholas Lee, Gopala Anumanchipalli

cs.SD cs.AI

本文提出了一个名为StyleStream的实时零样本语音风格转换系统. 该系统通过一个去风格化器和一个基于扩散Transformer的风格化器, 实现了高质量、低延迟的语音转换.

Benchmarking Unlearning for Vision Transformers

Kairan Zhao, Iurie Luca, Peter Triantafillou

cs.CV cs.AI

本文为 Vision Transformers (VTs) 建立了首个机器遗忘 (machine unlearning) 的基准测试框架. 它评估了多种遗忘算法在不同 VT 架构、数据集和遗忘协议下的性能, 并分析了 VTs 相对于 CNNs 的记忆 (memorization) 特性.

NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

Jiahui Fu et al.

cs.RO cs.AI cs.CV

本文提出了一种名为NovaPlan的分层机器人操作框架，它结合了视觉语言模型（VLM）的闭环规划和视频生成模型的几何先验，用于零样本的长时程任务。该方法无需演示或训练，通过提取视频中的关键点或手部姿态作为运动学参考来指导机器人动作，并在三个长时程任务和FMB基准上展示了有效性。

AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization

Mert Cemri et al.

cs.NE cs.AI cs.CL

本文提出了一个名为AdaEvolve的自适应框架，用于改进基于大型语言模型(LLM)的零阶优化过程。该框架通过动态调整资源分配和生成策略，在多种开放式优化问题上超越了现有基线方法。

Modeling Epidemiological Dynamics Under Adversarial Data and User Deception

Yiqi Su et al.

cs.GT cs.AI

本文提出了一个博弈论框架, 将公共卫生机构与个体之间的互动建模为 signaling game, 以分析个体在疫苗接种和口罩使用等行为上可能存在的策略性误报对流行病学模型的影响. 研究分析了不同均衡下的欺骗容忍度及其对疫情控制的效果.

Agentic AI for Scalable and Robust Optical Systems Control

Zehao Wang et al.

eess.SY cs.AI cs.NI

本文提出了一个名为AgentOptics的智能体AI框架, 用于光学系统的高保真自主控制. 该框架基于Model Context Protocol (MCP), 通过标准化的工具抽象层将自然语言指令转化为对异构光学设备的控制动作, 并在多个案例中展示了其在系统编排与优化方面的应用潜力.

Conformal Risk Control for Non-Monotonic Losses

Anastasios N. Angelopoulos

stat.ME cs.LG math.ST stat.ML

本文提出了一种针对非单调损失函数的多维参数 conformal risk control 方法, 其保证的紧致性取决于算法的稳定性. 该方法被应用于图像分类, 肿瘤分割和预测去偏等多个任务.

JUCAL: Jointly Calibrating Aleatoric and Epistemic Uncertainty in Classification Tasks

Jakob Heiss et al.

stat.ML cs.LG stat.ME

本文提出了一种名为JUCAL的算法, 用于联合校准分类任务中的aleatoric uncertainty和epistemic uncertainty. 该方法通过优化验证集上的负对数似然来调整两种不确定性的权重和尺度, 可应用于任何已训练的分类器集成, 并在多个文本分类任务上取得了优于现有校准方法的效果.

Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks

David Schmotz et al.

cs.CR cs.LG

本文提出了一个名为SkillInject的基准测试, 用于评估LLM agent对通过skill file进行的prompt injection攻击的脆弱性. 测试结果表明, 当前的agent高度脆弱, 且该问题难以通过模型缩放或简单输入过滤解决.

A Very Big Video Reasoning Suite

Maijunxian Wang et al.

cs.CV cs.AI cs.LG cs.MM cs.RO

本文介绍了Very Big Video Reasoning (VBVR)数据集和VBVR-Bench评估框架，旨在解决视频推理研究缺乏大规模训练数据的问题。该数据集包含超过100万个视频片段和200个推理任务，其规模远超现有资源。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计

⭐ 精选论文

cs.LG

📄 所有论文

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others