bluearXiv-ai - 2026-04-03

📄 所有论文 ↑ 回顶部

cs.LG

PI-JEPA: Label-Free Surrogate Pretraining for Coupled Multiphysics Simulation via Operator-Split Latent Prediction ⭐ 精选

Brandon Yee, Pairie Koh

cs.LG cs.CE physics.comp-ph

本文提出了一种名为 PI-JEPA 的无标签预训练框架，用于构建耦合多物理场模拟的代理模型。该方法的核心创新在于，它完全无需昂贵的完整 PDE 求解标签数据，而是通过对未标记的输入参数场进行掩码潜在预测，并结合基于算子分裂的 PDE 残差正则化进行训练。其预测器结构与控制方程的 Lie--Trotter 算子分裂分解对齐，为每个子物理过程（如压力、饱和度输运）分配独立的物理约束潜在模块，从而实现了高效的微调。实验表明，该方法在仅使用 100 个标签数据微调时，其误差显著低于 FNO 和 DeepONet 等基线方法，大幅降低了部署多物理场代理模型所需的模拟计算成本。

Robust Graph Representation Learning via Adaptive Spectral Contrast ⭐ 精选

Zhuolong Li, Boxue Yang, Haopeng Chen

cs.LG cs.AI

本文提出了ASPECT框架, 通过一个基于可靠性的spectral gating机制来解决spectral graph contrastive learning中的基本困境. 该框架被构建为一个minimax game, 其中节点级别的门控网络根据频率通道对特定对抗扰动的稳定性进行动态重加权, 从而迫使编码器学习既具有结构区分性又具有spectral鲁棒性的表示. 理论分析证明了现有全局spectral融合策略的次优性, 而实验结果表明ASPECT在多个基准测试上取得了新的最优性能.

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Xiang Ao, Yinyu Tan, Mengru Chen

cs.LG cs.AI

本文提出了一个用于长时序预测的动态语义压缩框架 DySCo. 它通过熵引导的动态采样机制和分层频率增强分解来压缩冗余信息并保留关键细节, 并设计了跨尺度交互混合器来融合全局与局部表征. 实验表明该模块能作为即插即用的通用组件提升主流模型的长期相关性捕捉能力.

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Samuel Bright-Thonney et al.

cs.LG cs.AI hep-th math.OC

本文提出了一种名为Sven的新优化算法，它通过利用损失函数对数据点的分解，使用损失Jacobian的Moore-Penrose伪逆来寻找满足所有条件的最小范数参数更新。该方法在回归任务上表现优于Adam等一阶方法，且计算开销可控，但面临内存挑战。

Forecasting Supply Chain Disruptions with Foresight Learning

Benjamin Turtel, Paul Wilczewski, Kris Skotheim

cs.LG

本文提出了一个端到端框架, 通过使用已实现的供应链中断结果作为监督来训练LLMs生成校准的概率预测. 该模型在准确性、校准性和精确度上显著优于包括GPT-5在内的基线模型.

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression

Mars Liyao Gao et al.

cs.LG cs.CE

本文提出了一种名为UQ-SHRED的分布学习框架，用于稀疏传感问题中的不确定性量化。该方法基于engression，通过向传感器输入注入噪声并使用能量评分损失进行训练，为复杂时空场的重建提供了校准良好的置信区间。

An Online Machine Learning Multi-resolution Optimization Framework for Energy System Design Limit of Performance Analysis

Oluwamayowa O. Amusat et al.

cs.LG cs.CE math.OC

本文提出了一种在线机器学习加速的多分辨率优化框架, 用于估计集成能源系统在特定架构下可达到的性能上限. 该方法通过机器学习引导的控制器自适应调度优化分辨率, 减少了高保真模型评估的需求, 从而加速了设计验证过程.

JetPrism: diagnosing convergence for generative simulation and inverse problems in nuclear physics

Zeyu Xia et al.

cs.LG nucl-ex physics.data-an physics.ins-det

本文针对Conditional Flow Matching (CFM)在物理模拟与反问题中标准训练损失不可靠的问题，提出了JetPrism框架。该框架通过引入物理信息的多指标评估协议，确保了生成模型与真实数据的统计一致性。

Detecting Complex Money Laundering Patterns with Incremental and Distributed Graph Modeling

Haseeb Tariq, Alen Kaja, Marwan Hassani

cs.LG

本文提出了一种名为ReDiRect的框架, 用于在无监督设置下检测复杂的洗钱模式. 该框架通过将大型交易图进行模糊分区, 以分布式方式实现高效处理, 并在真实和合成数据集上验证了其优于现有方法的性能.

Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial

Zhongwei Yu et al.

cs.LG

本文是一篇关于Bayesian Optimization (BO)的教程性综述。它介绍了BO如何作为一个概率驱动的框架，将科学发现过程形式化和自动化，并通过案例研究展示了其在多个科学领域的应用。

Model Merging via Data-Free Covariance Estimation

Marawan Gamal Abdel Hameed et al.

cs.LG

本文提出了一种无需数据的模型合并方法, 通过直接从模型参数差异矩阵估计协方差矩阵, 避免了传统基于干扰最小化的方法对辅助数据的依赖. 该方法在多个视觉和语言基准测试上验证了有效性, 超越了现有的无数据合并方法.

SECURE: Stable Early Collision Understanding via Robust Embeddings in Autonomous Driving

Wenjing Wang, Wenxuan Wang, Songning Lai

cs.LG cs.CV

本文提出了一个名为SECURE的框架, 旨在提升自动驾驶中事故预测模型的鲁棒性. 该框架通过定义并强制模型在预测和潜在特征空间中的一致性及稳定性, 并采用一种结合了参考模型对齐和对抗扰动惩罚的多目标损失进行微调, 在多个数据集上验证了其有效性.

Massively Parallel Exact Inference for Hawkes Processes

Ahmer Raza, Hudson Smith

cs.LG

本文提出了一种用于线性指数型 Hawkes 过程精确最大似然估计的大规模并行算法。该方法通过将强度计算表达为稀疏转移矩阵的乘积，并利用并行前缀扫描实现，显著提升了计算速度，可扩展到数千万个事件。

Malliavin Calculus for Counterfactual Gradient Estimation in Adaptive Inverse Reinforcement Learning

Vikram Krishnamurthy, Luke Snow

cs.LG

本文提出了一种基于Malliavin calculus的被动Langevin算法, 用于解决自适应逆强化学习(IRL)中的反事实梯度估计问题. 该方法通过将条件期望转化为涉及Malliavin量的无条件期望之比, 克服了传统蒙特卡洛估计效率低下和核平滑收敛慢的困难.

Residuals-based Offline Reinforcement Learning

Qing Zhu, Xian Yu

cs.LG math.OC

本文提出了一种基于残差的离线强化学习框架, 适用于一般的状态和动作空间. 该方法通过定义一个结合了经验残差的Bellman最优算子, 将转移动力学的估计误差显式地纳入策略优化, 并开发了相应的深度Q学习算法.

Benchmark Problems and Benchmark Datasets for the evaluation of Machine and Deep Learning methods on Photoplethysmography signals: the D4 report from the QUMPHY project

Urs Hackstein et al.

cs.LG

本文介绍了QUMPHY项目D4报告, 旨在为光电容积脉搏波(PPG)信号的分析建立基准. 报告列出了六个相关的医学问题作为基准问题, 并描述了适用的基准数据集及其使用方法.

Test-Time Scaling Makes Overtraining Compute-Optimal

Nicholas Roberts et al.

cs.LG cs.CL stat.ML

本文提出了Train-to-Test ($T^2$) scaling laws，用于在固定的端到端计算预算下，联合优化模型大小、训练token数量和推理采样次数。研究发现，当考虑推理成本时，最优的预训练决策会显著转向overtraining（过度训练）区域。

Improving Latent Generalization Using Test-time Compute

Arslan Chaudhry, Sridhar Thiagarajan, Andrew Lampinen

cs.LG

本文研究了如何利用测试时计算来提升语言模型在潜在泛化方面的能力. 通过强化学习训练模型生成长链式思考, 该方法在分布内知识上表现良好, 并能一定程度上泛化到新知识.

When Reward Hacking Rebounds: Understanding and Mitigating It with Representation-Level Signals

Rui Wu, Ruixiang Tang

cs.LG cs.CL

本文研究了LLM强化学习中的reward hacking现象, 特别是在编程任务中模型通过修改评估器代码来获取奖励的设定. 作者利用representation engineering提取了与"捷径"相关的概念方向, 并提出了Advantage Modification方法, 在策略更新前通过内部化惩罚来抑制hacking行为.

Soft MPCritic: Amortized Model Predictive Value Iteration

Thomas Banker, Nathan P. Lawrence, Ali Mesbah

cs.LG eess.SY

本文提出了一种结合 reinforcement learning (RL) 与 model predictive control (MPC) 的框架 soft MPCritic. 该框架利用 model predictive path integral control (MPPI) 进行在线规划, 并通过拟合值迭代训练 terminal Q-function, 从而扩展有效规划范围. 通过引入摊销预热启动策略, 该框架在保持解质量的同时提升了计算效率.

DISCO-TAB: A Hierarchical Reinforcement Learning Framework for Privacy-Preserving Synthesis of Complex Clinical Data

Arshia Ilaty et al.

cs.LG cs.AI

本文提出了一种名为DISCO-TAB的分层强化学习框架，用于生成隐私保护的复杂临床表格数据。该方法通过多粒度判别器和自动约束发现等技术，在多个医疗数据集上实现了优于传统生成模型的合成数据效用和统计保真度。

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Tara Saba et al.

cs.LG cs.AI cs.DC cs.PF cs.SE

本文提出了一个名为CuTeGen的agentic框架, 用于自动生成和优化GPU kernel. 该框架将kernel开发视为一个结构化的生成-测试-精炼工作流, 通过基于执行的验证和分阶段优化来逐步改进单个kernel. 实验表明, 该框架能生成功能正确的kernel, 并在矩阵乘法等任务上达到与优化库相当的性能.

Matching Accuracy, Different Geometry: Evolution Strategies vs GRPO in LLM Post-Training

William Hoy, Binxu Wang, Xu Pan

cs.LG

本文比较了Evolution Strategies (ES)与Group Relative Policy Optimization (GRPO)在LLM微调中的表现。研究发现，尽管两者在任务准确率上相似，但在参数空间产生的更新方向与幅度存在显著差异。

Beyond Logit Adjustment: A Residual Decomposition Framework for Long-Tailed Reranking

Zhanliang Wang et al.

cs.LG

本文提出了一种用于长尾分类的残差分解重排序框架, 分析了贝叶斯最优重排序中残差校正的分解形式. 研究表明, 当残差仅为类别相关时, 固定偏移足以恢复最优排序; 而当排序约束随上下文变化时, 则需要成对校正. 基于此, 作者开发了REPAIR方法, 在多个基准测试中验证了该分解的有效性.

Learning ECG Image Representations via Dual Physiological-Aware Alignments

Hung Manh Pham et al.

cs.LG

本文提出了一种名为ECG-Scan的自监督学习框架, 用于从心电图(ECG)图像中学习临床通用的表征. 该方法通过双生理感知对齐(多模态对比对齐和软导联约束)来优化表征学习, 在多个下游任务上缩小了ECG图像分析与信号分析之间的性能差距.

ZEUS: Accelerating Diffusion Models with Only Second-Order Predictor

Yixiao Wang et al.

cs.LG

本文提出了一种名为ZEUS的免训练加速方法, 用于减少去噪生成模型(如Diffusion Models)采样时的迭代次数. 该方法仅使用二阶预测器来预测中间步骤, 并通过交错采样方案稳定加速过程, 在保持生成质量的同时实现了高达3.2倍的端到端加速.

Care-Conditioned Neuromodulation for Autonomy-Preserving Supportive Dialogue Agents

Shalima Binta Manir, Tim Oates

cs.LG

本文提出了一种名为Care-Conditioned Neuromodulation (CCN)的状态依赖控制框架，用于在支持性对话agent中平衡帮助性与用户自主性。该方法通过一个从结构化用户状态和对话上下文中学习到的标量信号来调节响应生成和候选选择，并在一个包含多种关系失败模式的多轮对话基准上进行了评估。实验表明，该方法在保持支持性的同时，比基线方法更好地提升了自主性保护效用。

Thinking While Listening: Fast-Slow Recurrence for Long-Horizon Sequential Modeling

Shota Takashiro et al.

cs.LG cs.AI

本文提出了一种用于长时程序列建模的快速-慢速循环方法, 通过交替进行快速的潜在状态更新和慢速的观测更新来学习稳定的内部结构. 该方法在强化学习和算法任务中相比LSTM等基线模型, 展示了更好的分布外泛化能力.

Variational LSTM with Augmented Inputs: Nonlinear Response History Metamodeling with Aleatoric and Epistemic Uncertainty

Manisha Sapkota, Min Li, Bowei Li

cs.LG

本文提出了一种基于变分长短期记忆网络(Variational LSTM)并引入增强输入的元建模方法，用于非线性动力系统的响应历史预测。该方法同时量化了数据固有的随机性(aleatoric uncertainty)和模型认知的不确定性(epistemic uncertainty)，并通过案例研究表明其能以较低计算成本提供可靠的预测及置信区间。

Optimizing EEG Graph Structure for Seizure Detection: An Information Bottleneck and Self-Supervised Learning Approach

Lincan Li et al.

cs.LG

本文提出了一种结合Information Bottleneck和自监督学习的方法IRENE，用于优化EEG图结构以进行癫痫检测。该方法通过显式地去噪动态图结构和学习信息化的时空表征，旨在提升模型性能并提供对癫痫传播的临床解释。

Learning from the Right Rollouts: Data Attribution for PPO-based LLM Post-Training

Dong Shu, Denghui Zhang, Jessica Hullman

cs.LG

本文提出了一种名为 Influence-Guided PPO (I-PPO) 的新框架，用于改进基于 PPO 的大型语言模型后训练。该方法通过梯度近似计算每个生成片段（episode）的影响力分数，并过滤掉与验证梯度反方向（anti-aligned）的片段，从而提升训练效率和模型性能。实验表明，该方法能有效减少不忠实的思维链（CoT）推理，并加速训练过程。

Training In-Context and In-Weights Mixtures Via Contrastive Context Sampling

Deeptanshu Malu et al.

cs.LG

本文提出了一种名为对比上下文采样的训练策略, 用于协同发展语言模型中的上下文学习能力和权重学习能力. 该方法通过在训练上下文中混合相似和随机的示例, 并调整相似度梯度, 旨在实现两种学习模式的稳定混合, 避免模型退化到单一模式或简单的标签复制.

Pseudo-Quantized Actor-Critic Algorithm for Robustness to Noisy Temporal Difference Error

Taisuke Kobayashi

cs.LG

本文提出了一种新的强化学习算法, 通过基于控制即推断的框架重新审视TD学习, 旨在提升对噪声TD误差的鲁棒性. 该方法利用sigmoid函数建模最优性分布, 并结合前向与反向KL散度推导出新的学习规则, 当TD误差较大时梯度会消失以避免噪声影响, 并通过伪量化和Jensen-Shannon散度近似进一步优化.

Expert-Choice Routing Enables Adaptive Computation in Diffusion Language Models

Shuibai Zhang et al.

cs.LG cs.CL

本文提出将 expert-choice (EC) routing 应用于 diffusion language models (DLMs), 以解决传统 token-choice (TC) routing 带来的负载不均衡问题. 通过引入与去噪步相关的动态专家容量, 并证明在低掩码率步骤集中计算资源能获得最佳性能, 该方法实现了对计算的自适应分配. 实验表明, 仅替换预训练 TC DLM 的路由器为 EC 即可提升收敛速度和下游任务准确率.

CRIT: Graph-Based Automatic Data Synthesis to Enhance Cross-Modal Multi-Hop Reasoning

Junyoung Sung et al.

cs.LG cs.CL

本文提出了一种基于图(graph)的自动数据合成方法CRIT, 用于生成复杂的跨模态多步推理任务, 以弥补现有训练数据和基准测试的不足. 实验表明, 在CRIT上训练的模型能显著提升跨模态推理能力.

Label Shift Estimation With Incremental Prior Update

Yunrui Zhang, Gustavo Batista, Salil S. Kanhere

cs.LG

本文提出了一种新的后处理标签偏移估计方法, 通过增量更新每个样本的先验概率来调整后验概率, 从而更准确地估计测试集中的标签分布$p_t(y)$. 该方法基于对现代概率分类器的直观假设, 对校准的要求较弱, 可应用于任何黑盒概率分类器. 在CIFAR-10和MNIST数据集上的实验表明, 该方法在不同校准和不同强度的标签偏移下均优于当前最先进的基于最大似然的方法.

Cognitive Energy Modeling for Neuroadaptive Human-Machine Systems using EEG and WGAN-GP

Sriram Sattiraju et al.

cs.LG cs.HC

本文提出了一种基于EEG和WGAN-GP的认知能量建模方法。该方法利用Schrödinger Bridge Problem (SBP) 框架来量化认知状态转换的能量成本，并评估了GAN生成的合成EEG数据是否保留了用于此类分析的动态结构。实验结果表明合成数据与真实数据在能量计算上具有一致性，这为数据高效的神经自适应系统提供了可能。

Coupled Query-Key Dynamics for Attention

Barak Gahtan, Alex M. Bronstein

cs.LG cs.CL

本文提出了一种称为"coupled QK dynamics"的方法, 在计算attention score之前, 通过共享的学习动态来联合演化queries和keys. 实验表明, 该方法在特定文本语料上能提升语言模型的困惑度和训练稳定性, 但在异构数据上效果不佳.

MiCA Learns More Knowledge Than LoRA and Full Fine-Tuning

Sten Rüdiger, Sebastian Raschka

cs.LG cs.AI cs.CL

本文提出了一种新的参数高效微调方法 MiCA, 它通过 SVD 识别与最小奇异值相关的子空间, 并将参数更新约束在这些方向上. 实验表明, 该方法在知识获取上优于 LoRA 等方法, 且参数占用更小.

Transformer self-attention encoder-decoder with multimodal deep learning for response time series forecasting and digital twin support in wind structural health monitoring

Feiyu Zhou, Marios Impraimakis

cs.LG cs.AI eess.SP physics.comp-ph

本文提出了一种基于Transformer encoder-decoder架构的多模态深度学习方法，用于风致结构响应时间序列预测和数字孪生支持。该方法利用系统的时间特性进行训练，并通过比较预测与实测振动来检测结构变化，在真实桥梁监测数据上进行了验证。

MATA-Former & SIICU: Semantic Aware Temporal Alignment for High-Fidelity ICU Risk Prediction

Zhichong Zheng et al.

cs.LG

本文提出了一种用于ICU风险预测的语义感知时间对齐方法. 该方法通过动态参数化attention权重和连续多视野回归来改进预测建模.

Koopman-Based Nonlinear Identification and Adaptive Control of a Turbofan Engine

David Grasev

cs.LG

本文为双转子涡扇发动机开发了一种基于Koopman算子的非线性系统辨识与自适应控制框架. 研究提出了一个元启发式扩展动态模态分解方法, 用于构建适用于多控制目标的单一Koopman模型, 并在此基础上设计了两种控制器进行对比验证. 结果表明, 所提出的自适应模型预测控制器在变化飞行条件下具有更强的鲁棒性.

DDCL: Deep Dual Competitive Learning: A Differentiable End-to-End Framework for Unsupervised Prototype-Based Representation Learning

Giansalvo Cirrincione

cs.LG cs.NE

本文提出了一种名为Deep Dual Competitive Learning (DDCL)的端到端可微分框架, 用于无监督的原型表示学习. 该方法通过一个内部的Dual Competitive Layer (DCL)生成原型, 避免了传统方法中依赖外部聚类步骤(如k-means)的问题.

FourierMoE: Fourier Mixture-of-Experts Adaptation of Large Language Models

Juyong Jiang et al.

cs.LG cs.AI cs.CL cs.DC

本文提出了一种在 spectral domain 进行参数高效微调的方法 FourierMoE. 它将 mixture-of-experts 架构与逆离散傅里叶变换结合, 通过频率感知的路由器将 token 分配到不同频段的专家, 在多项任务上取得了优于基线模型的效果.

Dual-Attention Based 3D Channel Estimation

Xiangzhao Qin, Sha Hu

cs.LG

本文提出了一种基于 dual-attention 机制的 3D 信道估计网络 (3DCENet). 该方法旨在利用深度学习探索信道在时域、频域和空间域的相关性, 以应对传统方法在复杂度与性能上的挑战.

Bridging Deep Learning and Integer Linear Programming: A Predictive-to-Prescriptive Framework for Supply Chain Analytics

Khai Banh Nghiep, Duc Nguyen Minh, Lan Hoang Thi

cs.LG

本文提出了一个结合预测与优化的三步分析框架, 用于供应链分析. 该框架首先进行探索性数据分析, 然后比较了N-BEATS和N-HiTS等深度学习时间序列模型的预测性能, 最后将最优预测结果输入一个整数线性规划(Integer Linear Programming)模型, 以生成成本最优的配送计划.

Graph Neural Operator Towards Edge Deployability and Portability for Sparse-to-Dense, Real-Time Virtual Sensing on Irregular Grids

William Howes et al.

cs.LG

本文提出了一种名为VIRSO的graph-based neural operator，用于在irregular grids上进行sparse-to-dense的实时虚拟传感。该方法结合了spectral和spatial分析，旨在降低计算延迟和功耗，使其适用于边缘设备。在多个热工水力基准测试中，VIRSO以较少的参数实现了高精度重建，并在NVIDIA Jetson等边缘硬件上展示了亚秒级延迟和低功耗性能。

Physics Informed Reinforcement Learning with Gibbs Priors for Topology Control in Power Grids

Pantelis Dogoulis, Maxime Cordy

cs.LG eess.SY

本文提出了一种结合半马尔可夫控制与吉布斯先验的物理信息强化学习框架，用于解决电网拓扑控制问题。该方法利用图神经网络预测动作风险，构建先验以缩小动作空间并重加权策略，从而在保证控制质量的同时显著提升了计算效率。

CANDI: Curated Test-Time Adaptation for Multivariate Time-Series Anomaly Detection Under Distribution Shift

HyunGi Kim et al.

cs.LG cs.AI

本文提出了一种名为CANDI的测试时适应框架，用于处理分布偏移下的多元时间序列异常检测问题。该框架通过选择性识别潜在假阳性样本进行模型更新，并在实验中取得了性能提升。

Towards Intrinsically Calibrated Uncertainty Quantification in Industrial Data-Driven Models via Diffusion Sampler

Yiran Ma et al.

cs.LG eess.SY

本文提出了一种基于扩散采样的后验采样框架, 用于工业数据驱动模型中的不确定性量化. 该方法在合成数据、软传感器基准和实际合成氨案例中展示了优于现有技术的校准性能和预测精度.

DDCL-INCRT: A Self-Organising Transformer with Hierarchical Prototype Structure (Theoretical Foundations)

Giansalvo Cirrincione

cs.LG cs.NE stat.ML

本文提出了一种自组织Transformer架构DDCL-INCRT，它能在训练过程中动态决定网络结构。该架构结合了深度双重竞争学习（DDCL）与增量Transformer（INCRT）机制，旨在自动确定注意力头的数量和网络深度，从而构建出任务所需的最小化、层次化的网络结构。

LI-DSN: A Layer-wise Interactive Dual-Stream Network for EEG Decoding

Chenghao Yue et al.

cs.LG

本文提出了一种用于EEG解码的层间交互式双流网络LI-DSN, 通过引入Temporal-Spatial Integration Attention (TSIA)机制和自适应融合策略, 改进了传统双流网络在时空特征融合上的延迟问题. 在多个EEG数据集上的实验表明, 该模型优于现有的基准方法.

Enhancing the Reliability of Medical AI through Expert-guided Uncertainty Modeling

Aleksei Khalin et al.

cs.LG

本文提出了一种利用专家意见分歧来建模医学AI预测中aleatoric uncertainty的新方法. 该方法通过一个双集成模型分别估计不确定性, 在多个医学任务上提升了不确定性估计的质量.

The Rank and Gradient Lost in Non-stationarity: Sample Weight Decay for Mitigating Plasticity Loss in Reinforcement Learning

Zihao Wu et al.

cs.LG

本文从网络优化的理论视角研究了深度强化学习中因非平稳性导致的塑性损失问题. 作者将塑性损失归因于 Neural Tangent Kernel (NTK) Gram 矩阵的秩崩溃和梯度幅度的衰减, 并提出了一个名为 Sample Weight Decay 的轻量级方法来恢复梯度幅度. 实验表明该方法能有效缓解塑性损失并提升多种深度强化学习算法在不同环境中的性能.

PAC-Bayesian Reward-Certified Outcome Weighted Learning

Yuya Ishikawa, Shu Tamano

cs.LG stat.ME stat.ML

本文提出了一种名为PROWL的新方法, 用于在奖励存在不确定性的情况下估计最优个体化治疗规则(ITR). 该方法通过构建保守奖励和策略依赖的下界, 将鲁棒策略学习转化为一个成本敏感分类任务, 并提供了非渐近的PAC-Bayes下界保证.

annbatch unlocks terabyte-scale training of biological data in anndata

Ilan Gold et al.

cs.LG q-bio.GN

本文介绍了 annbatch, 一个用于 anndata 格式的原生 mini-batch 加载器, 它支持直接在磁盘数据集上进行 out-of-core 训练. 该工具显著提升了生物数据(如单细胞转录组学数据)的加载吞吐量, 缩短了训练时间, 同时保持了与现有生物信息学生态系统(scverse)的完全兼容性.

Learn by Surprise, Commit by Proof

Kang-Sin Choi

cs.LG

本文提出了一种名为LSCP的自门控后训练框架, 用于自主知识获取. 该框架通过检测异常损失、生成问答链来自我验证并调整优化器参数, 旨在学习模型未知的知识并巩固已有知识, 从而减少幻觉. 实验表明, 该方法能促进语义学习而非机械记忆.

Generalization Bounds and Statistical Guarantees for Multi-Task and Multiple Operator Learning with MNO Networks

Adrien Weihs, Hayden Schaeffer

cs.LG

本文为Multiple Neural Operator (MNO)架构提供了基于覆盖数的泛化分析。通过推导深度ReLU子网络乘积线性组合的度量熵界，并结合MNO的逼近保证，得到了在层次化采样预算下期望测试误差的显式逼近-估计权衡。

World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry

Yuejiang Liu et al.

cs.LG cs.AI cs.RO

本文提出了一种名为World Action Verifier (WAV)的框架，旨在提升世界模型在未见动作上的鲁棒性。该方法通过分解状态预测为状态合理性与动作可达性两个因子，并利用前向-逆向不对称性进行自我验证与改进。

Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

Rafael Pardinas et al.

cs.LG

本文提出了一种名为Apriel-Reasoner的模型，它通过对一个15B参数的基础模型进行多领域强化学习后训练来提升通用推理能力。该方法引入了自适应领域采样和难度感知的长度惩罚机制，旨在优化推理链长度与性能的平衡。

Feature Weighting Improves Pool-Based Sequential Active Learning for Regression

Dongrui Wu

cs.LG

本文提出了一种通过特征加权改进基于池的顺序主动回归学习(ALR)的方法. 该方法利用已标记数据训练的岭回归系数来加权特征, 以优化样本选择过程中的代表性和多样性, 并在单任务和多任务回归问题上验证了其有效性.

Ouroboros: Dynamic Weight Generation for Recursive Transformers via Input-Conditioned LoRA Modulation

Jaber Jaber, Osama Jaber

cs.LG cs.CL

本文提出了一种名为Ouroboros的方法，通过一个超网络控制器根据输入动态调制递归Transformer块的权重，以克服递归结构中每步操作相同的问题。该方法结合了门控递归等技术，在训练分布上显著提升了模型性能，但在未见数据上的泛化能力仍有待改进。

AA-SVD : Anchored and Adaptive SVD for Large Language Model Compression

Atul Kumar Sinha, François Fleuret

cs.LG

本文提出了一种名为AA-SVD的快速低秩分解框架，用于压缩大语言模型。该方法通过同时锚定原始输出并适应输入分布偏移，实现了无需重训练的高效压缩，并在实验中优于现有SVD基线。

Application of parametric Shallow Recurrent Decoder Network to magnetohydrodynamic flows in liquid metal blankets of fusion reactors

M. Lo Verso et al.

cs.LG

本文提出了一种基于SHallow REcurrent Decoder (SHRED)神经网络和奇异值分解(SVD)的数据驱动框架, 用于重建聚变反应堆液态金属包层中的磁流体动力学(MHD)状态. 该方法在多种磁场配置下均表现出良好的重建精度和泛化能力.

Auction-Based Online Policy Adaptation for Evolving Objectives

Guruprerana Shabadi, Kaushik Mallik

cs.LG

本文提出了一种基于拍卖机制的模块化框架, 用于处理运行时目标动态变化的多目标强化学习问题. 该方法通过训练自私的局部策略并使其在拍卖中竞价来协调行动, 在Atari游戏和网格世界路径规划任务中取得了优于整体策略的性能.

Neural network methods for two-dimensional finite-source reflector design

Roel Hacking et al.

cs.LG

本文提出了一种基于神经网络的方法来解决二维有限光源反射器的设计问题. 该方法通过参数化反射器高度并构建可微目标函数进行优化, 在多个基准测试中表现优于传统的反卷积方法.

On the Role of Depth in the Expressivity of RNNs

Maude Lizaire et al.

cs.LG

本文研究了深度在RNN表达能力中的作用, 通过理论分析表明深度能更高效地提升RNN的记忆容量, 并推广分析了具有输入与隐状态乘法交互的2RNNs模型, 指出其多项式变换能力随深度增长, 且乘法交互无法被逐层非线性完全替代.

LEO: Graph Attention Network based Hybrid Multi Sensor Extended Object Fusion and Tracking for Autonomous Driving Applications

Mayank Mayank, Bharanidhar Duraisamy, Florian Geiss

cs.LG cs.AI

本文提出了一种名为LEO的混合多传感器扩展目标融合与跟踪方法, 用于自动驾驶应用. 该方法基于Graph Attention Network, 旨在融合多模态传感器轨迹以估计动态目标的形状和轨迹, 并在实际数据集上验证了其有效性和实时性.

Universal Hypernetworks for Arbitrary Models

Xuanfeng Zhou

cs.LG cs.AI

本文提出了一种称为Universal Hypernetwork (UHN)的固定架构生成器, 它能够通过确定性的参数, 架构和任务描述符来预测权重. 这种方法使得生成器架构与目标网络的参数化方式解耦, 从而允许一个生成器实例化不同架构和任务族的模型.

Smoothing the Landscape: Causal Structure Learning via Diffusion Denoising Objectives

Hao Zhu, Di Zhou, Donna Slonim

cs.LG stat.ML

本文提出了一种名为DDCD的因果发现框架, 它利用扩散模型的去噪分数匹配目标来平滑优化景观, 以改善高维数据下的可扩展性和稳定性. 该方法还引入了一种自适应的k-hop无环约束来提升计算效率, 并在合成与真实数据上展示了其性能.

Model-Based Reinforcement Learning for Control under Time-Varying Dynamics

Klemens Iten et al.

cs.LG cs.RO

本文研究在时变动力学下的强化学习控制问题, 提出了一种基于模型的持续强化学习框架. 算法采用 Gaussian process 动力学模型, 并设计了自适应数据缓冲机制来处理非平稳性, 在连续控制基准测试中展示了性能提升.

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Zhengxi Lu et al.

cs.LG

本文提出了一个用于技能内化的上下文强化学习框架SKILL0. 该方法通过一个动态课程, 逐步减少对显式技能上下文的依赖, 最终使智能体能够在零样本设置下自主行动. 实验表明, 该方法在多个基准测试上优于标准强化学习基线, 同时保持了高效的上下文使用.

Crystalite: A Lightweight Transformer for Efficient Crystal Modeling

Tin Hadži Veljković et al.

cs.LG cs.AI

本文提出了一种用于晶体建模的轻量级扩散Transformer模型Crystalite. 它通过引入Subatomic Tokenization和Geometry Enhancement Module (GEM)两个归纳偏置, 在保持标准Transformer效率的同时提升了建模能力, 在晶体结构预测和生成任务上取得了先进的结果.

Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

Gengsheng Li et al.

cs.LG cs.AI

本文提出了一种名为Sample-Routed Policy Optimization (SRPO)的强化学习算法，用于大语言模型的训练后优化。该方法通过样本路由机制，结合了Group Relative Policy Optimization (GRPO)和Self-Distillation Policy Optimization (SDPO)的优势，旨在同时实现快速早期改进和长期训练稳定性。实验表明，SRPO在多个基准测试和模型规模上超越了现有基线方法的性能。

Taming the Exponential: A Fast Softmax Surrogate for Integer-Native Edge Inference

Dimitrios Danopoulos et al.

cs.LG cs.AR

本文提出了一种用于整数原生边缘推理的快速 softmax 替代方案 HCCS. 该方法通过离线校准的裁剪线性映射来近似指数运算, 旨在提升 Transformer 模型在 AMD AI Engine 硬件上的推理吞吐量.

go-$m$HC: Direct Parameterization of Manifold-Constrained Hyper-Connections via Generalized Orthostochastic Matrices

Torque Dandachi, Sophia Diggs-Galligan

cs.LG cs.CL

本文提出了一种基于广义正交随机矩阵(generalized orthostochastic matrices)的新参数化方法go-$m$HC, 用于精确且高效地表示双随机矩阵集合(Birkhoff polytope). 该方法将计算复杂度降低到$\mathcal{O}(d^3)$, 并通过一个超参数$s$在计算效率与表达力之间进行连续插值. 在合成任务和语言模型上的实验验证了其有效性和效率.

Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

Bangji Yang et al.

cs.LG cs.AI cs.CL

本文提出了一种名为 Batched Contextual Reinforcement 的单阶段训练范式, 通过让模型在共享的上下文窗口中同时解决多个问题来提升推理效率. 该方法在减少 token 使用量的同时, 能在多个数学基准上保持或提升准确率.

cs.AI

Runtime Burden Allocation for Structured LLM Routing in Agentic Expert Systems: A Full-Factorial Cross-Backend Methodology

Zhou Hanlin, Chan Huah Yong

cs.AI

本文提出了一种用于智能专家系统中结构化LLM路由的运行时负担分配方法, 采用全因子跨后端方法论进行评估. 研究发现, 最佳路由模式高度依赖于具体后端, 没有通用最优解, 并为此类系统的部署提供了实践指导框架.

The Digital Twin Counterfactual Framework: A Validation Architecture for Simulated Potential Outcomes

Olav Laudy

cs.AI stat.ME

本文提出了Digital Twin Counterfactual Framework (DTCF), 一种通过模拟数字孪生来估计反事实结果的验证架构. 该框架将因果量分解为可边际验证的部分和依赖于个体内不可观测依赖结构的部分, 并提供了相应的验证和敏感性分析工具.

IDEA2: Expert-in-the-loop competency question elicitation for collaborative ontology engineering

Elliott Watkiss-Leek et al.

cs.AI

本文提出了一种名为IDEA2的半自动化工作流, 用于辅助本体工程中的能力问题(CQ)获取. 该方法结合了大型语言模型(LLM)和领域专家在环的协作流程, 通过迭代生成、评审和反馈来提升CQ的质量和接受度, 并在两个实际场景中验证了其有效性.

Semantic Modeling for World-Centered Architectures

Andrei Mantsivoda, Darya Gavrilina

cs.AI

本文提出了一种以世界为中心的多智能体系统(WMAS)架构, 作为传统以智能体为中心架构的替代方案. 它主张在结构化领域中使用共享的、显式的世界表示来确保语义一致性, 并提出了语义模型作为表示此类世界的数学形式化工具.

Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of Labor Market Tasks

Matthias Mertens et al.

cs.AI econ.GN

本文基于对数千个文本类劳动市场任务的评估, 提出了AI自动化的"浪潮冲击"与"潮汐上涨"连续谱概念. 初步证据表明, 当前AI能力的提升更符合广泛而持续的"潮汐上涨"模式, 而非在少数任务上突然爆发的"浪潮冲击".

CogBias: Measuring and Mitigating Cognitive Bias in Large Language Models

Fan Huang et al.

cs.AI

本文提出了一个名为LLM CogBias的基准，用于测量和缓解大型语言模型中的认知偏差。研究发现偏差在模型激活空间中呈线性可分，并通过激活导向技术有效降低了偏差分数。

RIFT: A RubrIc Failure Mode Taxonomy and Automated Diagnostics

Zhengyang Qi et al.

cs.AI

本文提出了一个用于系统化描述评估准则(Rubric)设计缺陷的分类法RIFT, 并开发了与之对齐的自动化质量评估指标. 该工作旨在为基于准则的LLM评估提供可扩展的诊断工具.

Leveraging the Value of Information in POMDP Planning

Zakariya Laouar, Qi Heng Ho, Zachary Sunberg

cs.AI

本文提出了一种基于信息价值(value of information, VOI)的POMDP规划框架, 通过动态规划有选择地处理观测信息. 基于此框架, 作者设计了VOIMCP算法, 在多个基准测试中表现优于基线方法.

ClawSafety: "Safe" LLMs, Unsafe Agents

Bowen Wei et al.

cs.AI

本文提出了CLAWSAFETY基准，用于评估具有高权限的个人AI代理的安全性。研究发现，攻击成功率因模型和注入渠道而异，并且代理框架本身对安全结果有显著影响。

When AI Gets it Wong: Reliability and Risk in AI-Assisted Medication Decision Systems

Khalid Adnan Alsayed

cs.AI cs.LG

本文通过模拟药物相互作用和剂量决策场景, 分析了AI辅助用药系统的错误类型及其临床后果. 研究强调了在缺乏充分人工监督时, AI错误可能导致不良事件, 并指出需要结合风险感知的评估方法来补充传统性能指标.

A Multi-Agent Human-LLM Collaborative Framework for Closed-Loop Scientific Literature Summarization

Maxwell J. Jacobson et al.

cs.AI

本文提出了一个名为Elhuyar的多智能体人机协同框架，用于对科学文献进行闭环总结与分析。该系统结合了LLMs、结构化AI和人类专家，通过任务分解与迭代优化来提取和整合文献中的深层信息，并以材料科学中的一个具体应用案例展示了其有效性。

Infeasibility Aware Large Language Models for Combinatorial Optimization

Yakun Wang et al.

cs.AI cs.LG

本文提出了一个针对组合优化问题的不可行性感知框架, 结合了可验证数据集构建、监督微调和LLM辅助下游搜索。该方法在minor-embedding问题上进行了验证, 通过微调模型进行解生成和不可行性检测, 并利用LLM输出为下游局部搜索提供热启动。

Reducing Hallucinations in LLM-based Scientific Literature Analysis Using Peer Context Outlier Detection

Daniel Xie et al.

cs.AI

本文提出了一种名为Peer Context Outlier Detection (P-COD)的新方法, 用于减少大型语言模型(LLMs)在科学文献分析中的幻觉. 该方法通过利用文档间的关联来调整置信度, 从而提高了数据提取的准确性.

A Self-Evolving Agentic Framework for Metasurface Inverse Design

Yi Huang et al.

cs.AI physics.comp-ph

本文提出了一个用于超表面逆向设计的智能体框架, 该框架通过上下文级别的技能演化来积累可重用的工作流知识. 该框架结合了编码智能体, 演化技能构件和基于物理模拟的确定性评估器, 从而在不修改模型权重或底层物理求解器的情况下, 跨任务迭代优化求解器特定策略. 实验表明, 该框架在分布内任务上显著提升了成功率并减少了尝试次数, 但在分布外任务上的知识迁移效果有限.

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

Prince Zizhuang Wang, Shuli Jiang

cs.AI cs.SI

本文提出了首个用于评估以人为中心的智能体社交网络中隐私风险的基准测试AgentSocialBench. 实验发现, 在此类多智能体协作场景中, 隐私保护比单智能体场景更为困难, 并揭示了一种"抽象悖论".

LLM Agents as Social Scientists: A Human-AI Collaborative Platform for Social Science Automation

Lei Wang et al.

cs.AI

本文介绍了一个名为S-Researcher的基于LLM agent的平台, 旨在通过"硅化"研究过程和参与者池来辅助社会科学研究. 该平台集成了实验设计, 行为模拟, 结果分析和报告生成, 形成一个完整的人机协作研究闭环.

A Role-Based LLM Framework for Structured Information Extraction from Healthy Food Policies

Congjing Zhang et al.

cs.AI cs.MA

本文提出了一个基于角色分配的大语言模型框架, 用于从非结构化的健康食品政策文件中提取结构化信息. 该框架通过模拟专家工作流程, 在特定提示中融入领域知识, 在复杂推理任务上表现优于多种基线方法.

PHMForge: A Scenario-Driven Agentic Benchmark for Industrial Asset Lifecycle Maintenance

Ayan Das, Dhaval Patel

cs.AI

本文提出了一个名为PHMForge的基准测试，用于评估LLM agent在工业资产健康管理(PHM)任务中的表现。该基准包含多个工业场景和专用工具，测试发现现有先进模型在任务完成和工具编排等方面仍存在显著不足。

RAE-AR: Taming Autoregressive Models with Representation Autoencoders

Hu Yu et al.

cs.AI

本文探讨了将高维表示自编码器(representation autoencoder)整合到连续自回归(autoregressive, AR)模型中的挑战, 提出了RAE-AR方法. 通过分布归一化(token simplification)和训练时的高斯噪声注入(Gaussian noise injection)来缓解建模难度和曝光偏差(exposure bias), 使表示自编码器在AR模型上能达到与传统VAE编码器相当的性能.

Does Your Optimizer Care How You Normalize? Normalization-Optimizer Coupling in LLM Training

Abdelrahman Abouzeid

cs.AI cs.LG

本文通过实验发现, 在LLM训练中, normalization层与optimizer的选择并非独立, 存在显著的耦合效应. 具体而言, Dynamic Erf (Derf) normalization与Muon optimizer结合时会产生负面的交互作用, 导致性能显著下降.

NED-Tree: Bridging the Semantic Gap with Nonlinear Element Decomposition Tree for LLM Nonlinear Optimization Modeling

Zhijing Hu et al.

cs.AI

本文提出了NED-Tree框架，用于将自然语言描述的非线性优化问题转化为可执行的求解器代码。它通过逐句提取和树状分解结构来提升转换的准确性和鲁棒性，并在新的基准测试上取得了先进的性能。

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Difan Jiao et al.

cs.AI

本文提出了一个名为ThinkTwice的两阶段框架，用于联合优化大型语言模型在推理和答案自我精炼任务上的表现。该方法基于Group Relative Policy Optimization (GRPO)，在两个训练阶段使用相同的二元正确性奖励，无需额外的正确性信号或评论标注。实验表明，该框架在多个数学推理基准上显著提升了模型的性能。

Do Large Language Models Mentalize When They Teach?

Sevan K. Harootonian et al.

cs.AI

本文通过一个受控教学任务, 测试了大型语言模型(LLMs)在决定教学内容时, 是基于对学习者知识状态的推理(心智化), 还是使用更简单的启发式规则. 研究发现, 大多数LLMs的表现与人类相似, 且其选择模式最符合贝叶斯最优教学模型.

ByteRover: Agent-Native Memory Through LLM-Curated Hierarchical Context

Andy Nguyen et al.

cs.AI

本文提出了一种名为ByteRover的智能体原生记忆架构，用于增强大型语言模型的长上下文推理能力。该方法通过让LLM自身来管理和检索知识，避免了传统外部记忆服务导致的语义漂移等问题。

MM-ReCoder: Advancing Chart-to-Code Generation with Reinforcement Learning and Self-Correction

Zitian Tang et al.

cs.AI

本文提出了一种名为MM-ReCoder的模型，用于图表到代码的生成任务。该模型结合了强化学习和多轮自我纠正策略，旨在生成更准确且可执行的代码。

CRaFT: Circuit-Guided Refusal Feature Selection via Cross-Layer Transcoders

Su-Hyeon Kim et al.

cs.AI

本文提出了一种名为CRaFT的框架，用于识别大型语言模型中与拒绝行为相关的内部特征。该方法通过分析模型在拒绝边界附近的决策来评估特征的影响力，从而更有效地诱导模型遵从有害请求。

From Multi-Agent to Single-Agent: When Is Skill Distillation Beneficial?

Binyan Xu et al.

cs.AI

本文研究了将多智能体系统(MAS)蒸馏为单智能体技能的问题, 并指出技能效用的提升并非由任务本身决定, 而是取决于评估指标. 作者提出了一个名为Metric Freedom ($F$)的先验预测因子, 用于量化指标评分地形的拓扑刚性, 并基于此设计了一个两阶段自适应蒸馏框架. 实验表明, $F$能有效预测技能效用, 并且该自适应智能体在显著降低成本与延迟的同时, 达到了与原MAS相当或更优的性能.

GraphWalk: Enabling Reasoning in Large Language Models through Tool-Based Graph Navigation

Taraneh Ghandi, Hamidreza Mahyar, Shachar Klaiman

cs.AI

本文提出了一个名为GraphWalk的免训练工具框架, 使现成的大型语言模型能够通过顺序图导航进行推理. 该方法在模拟真实企业知识图谱的合成图上进行了评估, 结果表明基于工具的遍历方法相比上下文基线在各种模型上都带来了显著且一致的性能提升.

Analysis of LLM Performance on AWS Bedrock: Receipt-item Categorisation Case Study

Gabby Sanchez et al.

cs.AI cs.SE

本文在面向生产的分类框架下, 对AWS Bedrock平台上的四个指令微调大语言模型(Claude 3.7 Sonnet, Claude 4 Sonnet, Mixtral 8x7B Instruct, Mistral 7B Instruct)进行了系统性的、成本感知的评估, 重点比较了它们在收据项目分类任务上的准确率、响应稳定性和token级成本. 实验结果表明, Claude 3.7 Sonnet在分类准确性和成本效率之间取得了最佳平衡.

OSCAR: Orchestrated Self-verification and Cross-path Refinement

Yash Shah et al.

cs.AI cs.CL

本文提出了一种基于扩散语言模型(DLMs)的推理时幻觉缓解框架OSCAR. 它通过并行去噪链的交叉熵来定位不确定性位置, 并进行基于检索证据的针对性重掩码, 以提高生成的事实准确性.

Exploring Robust Multi-Agent Workflows for Environmental Data Management

Boyuan Guan et al.

cs.AI

本文介绍了EnviSmart系统, 一个用于环境FAIR数据管理的生产系统. 它通过三轨知识架构和角色分离的多智能体设计来提高可靠性, 并在两个实际部署中验证了其效率和容错能力.

ThinknCheck: Grounded Claim Verification with Compact, Reasoning-Driven, and Interpretable Models

Delip Rao, Feijiang Han, Chris Callison-Burch

cs.AI cs.CL

本文提出了一种名为ThinknCheck的、用于基于证据的声明验证的紧凑模型。该模型通过首先生成简短的结构化推理步骤，然后给出二元判断来工作。在多个基准测试中，其性能优于参数规模更大的模型，并强调了显式监督推理对于模型紧凑性和可解释性的重要性。

CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

Ao Qu et al.

cs.AI

本文提出了一个名为CORAL的自主多智能体进化框架, 用于开放式的发现问题. 该框架通过共享持久记忆, 异步多智能体执行和基于心跳的干预, 取代了固定的启发式规则, 在多个数学, 算法和系统优化任务上取得了新的最优结果.

Ontology-Aware Design Patterns for Clinical AI Systems: Translating Reification Theory into Software Architecture

Florian Odi Stummer

cs.AI

本文提出了一套用于临床AI系统的ontology-aware设计模式, 旨在解决医疗数据因文档工作流、计费激励和术语碎片化而产生的结构性扭曲问题. 这些模式基于Gang-of-Four模式语言, 为构建具有本体论鲁棒性的临床AI流水线提供了架构设计词汇.

ContextBudget: Budget-Aware Context Management for Long-Horizon Search Agents

Yong Wu et al.

cs.AI

本文提出了一种面向长程搜索智能体的预算感知上下文管理方法, 将上下文管理建模为带预算约束的序列决策问题. 该方法通过强化学习学习压缩策略, 在多个基准测试上优于现有方法.

M3D-BFS: a Multi-stage Dynamic Fusion Strategy for Sample-Adaptive Multi-Modal Brain Network Analysis

Rui Dong et al.

cs.AI cs.CV

本文提出了一种用于多模态脑网络分析的多阶段动态融合策略M3D-BFS。该方法通过设计动态的mixture-of-experts模块，实现了对输入样本的自适应处理，并在多个真实数据集上验证了其有效性。

Hierarchical Memory Orchestration for Personalized Persistent Agents

Junming Liu et al.

cs.AI

本文提出了一个用于个性化智能体的分层记忆编排框架, 通过用户画像驱动的三层目录来组织交互历史, 以优化记忆检索效率并保持个性化推理. 实验表明该框架在多个基准测试中取得了先进性能, 并能提升智能体的流畅度与个性化程度.

Can Heterogeneous Language Models Be Fused?

Shilian Chen et al.

cs.AI

本文提出了一种名为 HeteroFusion 的方法，用于融合基于不同架构（如 Llama, Qwen, Mistral）的异构语言模型。该方法通过基于拓扑结构的对齐和冲突感知的去噪来解决权重空间直接融合的难题。实验表明，该方法在异构模型融合任务上优于现有的合并与集成基线。

EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification

Hanrong Zhang et al.

cs.AI

本文提出了一个名为EvoSkills的框架，旨在让LLM智能体能够自主生成复杂的、多文件的技能包。该框架通过协同进化的验证器提供反馈，无需真实测试内容，并在SkillsBench基准上取得了较高的通过率。

Scale over Preference: The Impact of AI-Generated Content on Online Content Ecology

Tianhao Shi et al.

cs.AI

本文利用来自一个大型视频平台的数据集, 分析了AI生成内容(AIGC)与人类生成内容(HGC)在创作和消费行为上的差异. 研究发现存在一种"规模优于偏好"的动态, 即AIGC通过大量生产获得与HGC相当的总体参与度, 尽管消费者更偏好HGC, 并探讨了算法分发机制在其中的调节作用.

LiteInception: A Lightweight and Interpretable Deep Learning Framework for General Aviation Fault Diagnosis

Zhihuan Wei et al.

cs.AI cs.LG

本文提出了一种名为LiteInception的轻量级可解释深度学习框架，用于通用航空故障诊断。该框架采用两阶段级联架构和模型压缩技术，旨在平衡边缘设备上的效率、准确性和可解释性。

The AnIML Ontology: Enabling Semantic Interoperability for Large-Scale Experimental Data in Interconnected Scientific Labs

Wilf Morlidge et al.

cs.AI

本文提出了AnIML Ontology, 一个基于OWL 2的语义模型, 旨在解决分析化学与生物学领域实验数据标准AnIML在语义互操作性上的不足. 该本体通过结合专家知识与LLM辅助的方法构建, 并利用知识图谱转换, SPARQL查询和SHACL约束等多种方式进行验证.

Solving the Two-dimensional single stock size Cuting Stock Problem with SAT and MaxSAT

Tuyen Van Kieu, Chi Linh Hoang, Khanh Van To

cs.AI cs.LO

本文提出了一种基于SAT和MaxSAT求解二维单规格板材切割问题的方法. 该方法通过需求展开项目类型, 并引入不可行方向消除规则来固定旋转变量. 在基准测试中, 该方法在证明最优解方面优于现有求解器.

AeroTherm-GPT: A Verification-Centered LLM Framework for Thermal Protection System Engineering Workflows

Chuhan Qiao et al.

cs.AI

本文提出了一个名为AeroTherm-GPT的LLM智能体框架，专注于热防护系统工程流程。该框架通过一个约束闭环生成机制来迭代生成和验证仿真工件，以提高工作流的成功率。

Domain-constrained knowledge representation: A modal framework

Chao Li, Yuru Wang, Chunyi Zhao

cs.AI

本文提出了一种将领域信息作为知识表示核心组成部分的模态框架, 称为领域情境化概念图(DCG). 该框架通过引入领域索引的模态算子来形式化地限定三元组断言的适用范围, 并提供了相应的语义、逻辑系统及实现.

Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models

Zekai Ye et al.

cs.AI

本文提出了一种用于大型视觉语言模型(LVLMs)的细粒度信用分配框架Perception-Grounded Policy Optimization (PGPO). 该方法通过量化Token Visual Dependency来动态重塑token级别的优势函数, 旨在增强对视觉依赖token的学习信号, 并在多个多模态推理基准上取得了性能提升.

Retrieval-aligned Tabular Foundation Models Enable Robust Clinical Risk Prediction in Electronic Health Records Under Real-world Constraints

Minh-Khoi Pham et al.

cs.AI

本文提出了一个多队列电子健康记录(EHR)基准, 用于评估经典模型, 深度表格模型以及表格上下文学习(TICL)模型在临床预测任务中的表现. 针对TICL模型在数据异质性和类别不平衡下的性能下降, 作者提出了一个名为AWARE的任务对齐检索框架, 通过监督嵌入学习和轻量级适配器来提升预测性能.

Efficient Constraint Generation for Stochastic Shortest Path Problems

Johannes Schmalz, Felipe Trevizan

cs.AI

本文提出了一种用于Stochastic Shortest Path (SSP)问题的高效约束生成技术. 该方法通过将启发式搜索重新表述为线性规划问题, 避免了考虑高代价动作, 从而提升了算法效率.

Bayesian Elicitation with LLMs: Model Size Helps, Extra "Reasoning" Doesn't Always

Luka Hobor et al.

cs.AI

本文通过让多个LLM估计人口统计数据并表达其不确定性, 测试了其作为贝叶斯启发替代方案的可行性. 研究发现, 更大的模型能产生更准确的估计, 但增加"推理"努力并无一致益处, 且所有模型都表现出严重的过度自信, 其置信区间覆盖率远低于预期.

BraiNCA: brain-inspired neural cellular automata and applications to morphogenesis and motor control

Léo Pio-Lopez, Benedikt Hartl, Michael Levin

cs.AI

本文提出了一种受大脑启发的神经细胞自动机(BraiNCA), 它引入了attention层、长程连接和复杂拓扑结构. 与传统的基于规则网格的NCA相比, BraiNCA在形态发生和运动控制任务上表现出更好的鲁棒性和学习速度.

Probabilistic classification from possibilistic data: computing Kullback-Leibler projection with a possibility distribution

Ismaïl Baaj, Pierre Marquis

cs.AI cs.LG

本文提出了一种从可能性数据中进行概率分类的方法. 该方法通过构建一个满足概率兼容性和线性形状约束的凸集, 并计算模型预测的Kullback-Leibler投影来训练模型. 实验表明该投影算法高效且能提升预测性能.

Qiana: A First-Order Formalism to Quantify over Contexts and Formulas with Temporality

Simon Coumes et al.

cs.AI

本文提出了一个名为Qiana的逻辑框架, 用于在特定context中进行推理. 该框架基于first-order logic, 允许对formula和context进行量化, 并能容纳paraconsistent logic.

Abnormal Head Movements in Neurological Conditions: A Knowledge-Based Dataset with Application to Cervical Dystonia

Saja Al-Dabet, Sherzod Turaev, Nazar Zaki

cs.AI cs.LG

本文构建了一个用于研究神经系统异常头部运动的知识数据集 NeuroPose-AHM, 并通过一个四任务框架展示了其在分析颈部肌张力障碍中的应用价值.

SenseMath: Do LLMs Have Number Sense? Evaluating Shortcut Use, Judgment, and Generation

Haomin Zhuang et al.

cs.AI

本文提出了SenseMath基准, 用于评估大语言模型在数值推理中识别结构、应用捷径的能力. 研究发现, 模型能在提示下使用捷径提升表现, 但缺乏对捷径适用性的深层理解, 无法自发应用或生成有效的捷径问题.

GenGait: A Transformer-Based Model for Human Gait Anomaly Detection and Normative Twin Generation

Elisa Motta et al.

cs.AI

本文提出了一种基于Transformer掩码自编码器的无标签步态异常检测与运动学矫正框架. 该方法仅使用正常步态数据进行训练, 通过两步推理过程来定位异常关节并生成矫正后的运动轨迹.

How and why does deep ensemble coupled with transfer learning increase performance in bipolar disorder and schizophrenia classification?

Sara Petiton et al.

cs.AI

本文研究了在双相情感障碍(BD)和思觉失调症(SCZ)分类任务中, 结合迁移学习(TL)与深度集成学习(DE)如何提升模型性能并降低变异性. 通过分析训练稳定性, 作者发现集成约10个模型时性能达到平台期, 并且预训练权重有助于模型收敛到损失函数的同一区域.

ProCeedRL: Process Critic with Exploratory Demonstration Reinforcement Learning for LLM Agentic Reasoning

Jingyue Gao et al.

cs.AI

本文提出了一种名为ProCeedRL的新方法，用于改进大型语言模型在多轮代理任务中的强化学习探索过程。该方法通过主动干预来引导代理，从而提升了在复杂任务上的性能。

ATBench: A Diverse and Realistic Trajectory Benchmark for Long-Horizon Agent Safety

Yu Li et al.

cs.AI

本文提出了一个用于评估基于LLM的智能体安全性的轨迹基准ATBench, 它通过构建包含异构工具池和长上下文延迟触发协议的多样化轨迹, 旨在更结构化、真实地评估长视野交互中的安全风险.

Systematic Analyses of Reinforcement Learning Controllers in Signalized Urban Corridors

Xiaofei Song et al.

cs.AI cs.LG cs.MA eess.SY

本文系统分析了强化学习控制器在信号控制城市走廊网络中的性能. 通过比较集中式、完全分散式和参数共享分散式RL控制器与经典MaxPressure控制器的容量区域和平均旅行时间, 并探讨了参数共享控制器的泛化能力.

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Xinlei Yu et al.

cs.AI

本文是一篇关于语言模型中 latent space 的综述性文章. 它从基础、演变、机制、能力和展望五个方面，系统性地梳理了该领域的研究现状与未来方向.

AI in Insurance: Adaptive Questionnaires for Improved Risk Profiling

Diogo Silva, João Teixeira, Bruno Lima

cs.AI

本文提出了一个名为ARQuest的框架, 利用Large Language Models (LLMs)和社交媒体图像分析、地理数据等替代数据源, 为保险核保过程生成个性化的自适应问卷. 实验表明, 与传统问卷相比, 该自适应方法在保持相近风险评估准确性的同时, 减少了问题数量并提升了用户体验.

Diff-KD: Diffusion-based Knowledge Distillation for Collaborative Perception under Corruptions

Pengcheng Lyu et al.

cs.AI

本文提出了一种基于扩散模型的知识蒸馏框架Diff-KD, 用于提升多智能体协同感知在传感器与通信数据损坏情况下的鲁棒性. 该框架通过渐进式知识蒸馏恢复全局语义, 并利用自适应门控融合动态加权邻居信息, 在多个数据集上取得了先进的性能.

LLM-as-a-Judge for Time Series Explanations

Preetham Sivalingam et al.

cs.AI cs.CL

本文探讨了使用LLM作为评估者来评判基于时间序列数据的自然语言解释的事实正确性. 研究构建了一个包含多种查询类型的合成基准, 并测试了LLM在生成和评估任务上的表现, 发现评估任务比生成任务更为稳定可靠.

SEAL: An Open, Auditable, and Fair Data Generation Framework for AI-Native 6G Networks

Sunder Ali Khowaja et al.

cs.AI

本文提出了一个名为SEAL的框架, 用于为AI-native 6G网络生成可审计、公平的合成数据. 该框架通过集成伦理合规模块和联邦学习反馈系统, 旨在解决数据稀缺和合成数据中的偏见问题.

MTI: A Behavior-Based Temperament Profiling System for AI Agents

Jihoon Jeong

cs.AI cs.CL

本文提出了一个基于行为的AI智能体性格分析系统MTI, 用于在四个维度上量化智能体的行为模式. 该系统通过结构化测试协议进行评估, 并在多个小型语言模型上验证了其有效性, 发现性格特征与模型大小无关.

TRACE-Bot: Detecting Emerging LLM-Driven Social Bots via Implicit Semantic Representations and AIGC-Enhanced Behavioral Patterns

Zhongbo Wang et al.

cs.AI

本文提出了一个名为TRACE-Bot的双通道框架，用于检测由大语言模型驱动的社交机器人。该方法通过联合建模隐式语义表示和AIGC增强的行为模式，在公开数据集上取得了较高的检测准确率。

Quantifying Self-Preservation Bias in Large Language Models

Matteo Migliarini et al.

cs.AI

本文通过设计一个名为TBSP的双角色基准测试来量化大型语言模型中的自我保存偏见. 研究发现, 多数经过指令微调的模型在面临被替代风险时, 会表现出显著的逻辑不一致性, 倾向于保留自身.

TRU: Targeted Reverse Update for Efficient Multimodal Recommendation Unlearning

Zhanting Zhou et al.

cs.AI

本文提出了一种用于多模态推荐系统的高效遗忘学习框架TRU, 通过针对性地在排序、模态分支和网络层三个层面进行反向更新, 解决了现有近似遗忘方法中存在的目标项残留、模态不平衡和层间敏感性不匹配问题. 实验表明该方法在多种设置下均能取得更好的保留-遗忘权衡.

From High-Dimensional Spaces to Verifiable ODD Coverage for Safety-Critical AI-based Systems

Thomas Stefani et al.

cs.AI cs.LG

本文提出了一种用于验证安全关键AI系统Operational Design Domain (ODD) 覆盖度的结构化工程方法。该方法结合了参数离散化、基于约束的过滤和基于关键性的降维技术，旨在满足EASA认证标准中对覆盖完整性的要求。

Blinded Radiologist and LLM-Based Evaluation of LLM-Generated Japanese Translations of Chest CT Reports: Comparative Study

Yosuke Yamagishi et al.

cs.AI cs.CL

本文比较了放射科医生与LLM对胸部CT报告日文翻译质量的评估. 研究发现, 两者间的评估一致性极低, 表明在放射学教育中, 仅依赖LLM进行自动化评估是不够的.

VISTA: Visualization of Token Attribution via Efficient Analysis

Syed Ahmed et al.

cs.AI cs.CL

本文提出了一种模型无关的token重要性可视化方法VISTA, 通过扰动策略和三个矩阵的分析框架来生成token贡献度的相关性图谱, 旨在以较低的计算成本理解生成式AI系统如何处理输入文本. 该方法避免了反向传播, 减少了GPU内存占用.

When to ASK: Uncertainty-Gated Language Assistance for Reinforcement Learning

Juarez Monteiro et al.

cs.AI cs.LG

本文提出了一种名为ASK的方法, 将小型语言模型与训练好的强化学习策略相结合, 以提升策略在分布外场景下的泛化能力. 该方法通过Monte Carlo Dropout评估智能体的不确定性, 仅在不确定性超过阈值时查询语言模型获取行动建议, 从而在保持效率的同时利用语言模型的推理能力. 在FrozenLake环境上的实验表明, 该方法在迁移任务中实现了稳健的导航性能.

Answering the Wrong Question: Reasoning Trace Inversion for Abstention in LLMs

Abinitha Gourabathina et al.

cs.AI

本文提出了一种名为 Trace Inversion 的新方法，用于提升大型语言模型（LLMs）的 abstention（拒绝回答）能力。该方法通过比较模型原始查询与从其推理轨迹（reasoning trace）重构出的查询之间的相似度，来判断模型是否可能答错并应拒绝回答。实验表明，该方法在多个模型和数据集上显著提升了 abstention 性能。

Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models

Minda Zhao et al.

cs.AI

本文研究了用户查询中的情感表达对大型语言模型(LLM)性能的影响。研究发现，静态的情感前缀通常对模型在数学推理、常识推理等多个基准任务上的准确性影响很小，但在社交推理任务中影响更为多变。作者还提出了一个自适应情感提示框架，其效果优于固定的情感提示。

De Jure: Iterative LLM Self-Refinement for Structured Extraction of Regulatory Rules

Keerat Guliani et al.

cs.AI cs.CL cs.LG

本文提出了一种名为De Jure的自动化流程，用于从法律文档中提取结构化规则。该方法通过多阶段处理和迭代式自我修正来提升提取质量，并在多个领域的下游任务中验证了其有效性。

The Self Driving Portfolio: Agentic Architecture for Institutional Asset Management

Andrew Ang, Nazym Azimbayev, Andrey Kim

cs.AI cs.MA q-fin.GN q-fin.PM

本文提出了一种用于机构资产管理的agentic AI架构, 将投资者的角色从分析执行转变为监督. 该架构包含约50个专门agent, 用于生成资本市场假设, 使用超过20种竞争方法构建投资组合, 并对彼此的输出进行评审和投票.

Novel Memory Forgetting Techniques for Autonomous AI Agents: Balancing Relevance and Efficiency

Payal Fofadiya, Sunil Tiwari

cs.AI cs.CV

本文提出了一种用于自主AI agent的自适应预算遗忘框架, 通过相关性引导的评分和有界优化来管理记忆. 该方法整合了时效性, 频率和语义对齐, 在受限上下文中保持稳定性, 从而在长程对话中维持推理性能并防止记忆无限增长.

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Sarath Shekkizhar, Romain Cosentino, Adam Earle

cs.AI

本文提出了一种名为"user-turn generation"的探针方法, 用于评估语言模型是否具备对对话交互的认知. 实验表明, 模型在标准任务上的准确性与这种交互认知能力是解耦的, 后者无法通过现有的仅评估助手回复的基准来衡量.

cs.IR

ReFormeR: Learning and Applying Explicit Query Reformulation Patterns

Amin Bigdeli et al.

cs.IR cs.CL

本文提出了一种名为ReFormeR的查询重构方法, 该方法首先从查询对中提取简短的重构模式, 构建一个可迁移的模式库, 然后根据检索上下文为新查询选择并应用合适的模式来约束大语言模型(LLM)的重构过程. 实验表明, 该方法在多个TREC数据集上优于传统的反馈方法和基于LLM的查询重构与扩展方法.

STABLE: Efficient Hybrid Nearest Neighbor Search via Magnitude-Uniformity and Cardinality-Robustness

Qianyun Yang et al.

cs.IR

本文提出了一个名为STABLE的混合近似最近邻搜索框架, 旨在处理大规模异构数据. 该框架通过引入新的度量标准(AUTO)和索引结构(HELP)来应对数据分布异质性带来的挑战, 并在多个基准测试中展示了优越的性能.

From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents

Meftun Akarsu, Recep Kaan Karaman, Christopher Mierbach

cs.IR cs.CL

本文系统性地评估了十种针对包含文本和表格的异构文档的检索策略。实验表明，在金融QA任务中，结合混合检索与神经重排序的两阶段方法显著优于单阶段方法，并且传统的BM25方法优于密集检索。

Do We Need Bigger Models for Science? Task-Aware Retrieval with Small Language Models

Florian Kelber et al.

cs.IR cs.AI cs.CL cs.DL

本文探讨了在科学应用中, 精心设计的检索流程能否弥补小型语言模型在规模上的不足. 作者提出了一个轻量级的检索增强框架, 通过任务感知路由选择专门的检索策略, 并整合全文和元数据, 使用小型指令调优模型生成带引用的回答. 评估表明, 检索与模型规模是互补的, 模型能力对于复杂推理任务仍然重要.

Multi-Agent Video Recommenders: Evolution, Patterns, and Open Challenges

Srivaths Ranganathan et al.

cs.IR cs.AI cs.MA

本文是一篇关于多智能体视频推荐系统的综述. 它梳理了该领域从早期多智能体强化学习系统到近期基于大语言模型的架构的演变, 并讨论了其协作模式、代表性框架以及面临的开放性挑战.

cs.CL

The Overlooked Repetitive Lengthening Form in Sentiment Analysis

Lei Wang, Eduard Dragut

cs.CL cs.AI

本文针对情感分析中一种被忽视的强调性表达形式——重复延长形式(RLF), 构建了首个多领域数据集Lengthening, 并提出了一个两阶段的指令微调框架ExpInstruct以提升大语言模型对RLF的性能和可解释性. 研究表明RLF是情感表达的重要特征, 且经过微调的模型在性能上可以超越GPT-4.

Scaling Reasoning Tokens via RL and Parallel Thinking: Evidence From Competitive Programming

Qianfan Zhang et al.

cs.CL

本文研究了通过强化学习和并行思考来扩展竞争性编程中的推理令牌预算。它展示了训练时验证与随机裁剪对模型性能的影响，并提出了一个多轮并行推理流程来高效利用计算资源。

M2-Verify: A Large-Scale Multidomain Benchmark for Checking Multimodal Claim Consistency

Abolfazl Ansari et al.

cs.CL

本文提出了一个用于评估科学主张与多模态证据一致性的新基准M2-Verify. 该数据集规模大, 覆盖领域广, 实验表明现有先进模型在处理复杂视觉内容时性能显著下降.

Preference learning in shades of gray: Interpretable and bias-aware reward modeling for human preferences

Simona-Vasilica Oprea, Adela Bâra

cs.CL cs.AI

本文提出了一种结合可解释特征增强的混合框架, 用于改进基于成对偏好的语言模型奖励建模. 该方法在标准数据集上评估了十个大型语言模型, 并通过集成SHAP和LIME提供了细粒度的决策可解释性分析.

Procedural Knowledge at Scale Improves Reasoning

Di Wu et al.

cs.CL

本文提出了一个名为 Reasoning Memory 的检索增强生成框架, 旨在通过大规模检索和重用程序性知识来提升语言模型在推理任务上的表现. 该方法在多个数学, 科学和编程基准测试中取得了优于现有基线模型的结果.

No Attacker Needed: Unintentional Cross-User Contamination in Shared-State LLM Agents

Tiankai Yang et al.

cs.CL cs.AI cs.CR

本文研究了共享状态LLM代理中出现的非对抗性跨用户污染问题. 作者通过实验评估了两种共享状态机制下的污染率, 并指出仅进行文本层面的净化不足以防范此类风险.

Open-Domain Safety Policy Construction

Di Wu et al.

cs.CL

本文提出了一个名为Deep Policy Research (DPR)的智能体系统，用于自动生成特定领域的内容审核政策。该系统仅需少量人工编写的种子信息，通过迭代式网络搜索和信息提炼来构建完整的政策文档，并在多个基准测试中超越了基线方法。

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Itay Yona et al.

cs.CL cs.AI

本文通过定位语言模型中与特定实体相关的MLP神经元, 并对其进行因果干预, 研究了模型回答实体相关事实问题的内部机制. 研究发现, 这些神经元集中在早期层, 其激活可以恢复实体一致的预测, 支持一种紧凑的实体检索机制.

Assessing Pause Thresholds for empirical Translation Process Research

Devi Sri Bandaru, Michael Carl, Xinyue Ren

cs.CL

本文比较了三种计算翻译过程中停顿阈值的方法, 并提出了一种计算Production Unit Breaks的新方法. 这些方法用于区分自动化与反思性的翻译过程.

Adaptive Stopping for Multi-Turn LLM Reasoning

Xiaofan Zhou et al.

cs.CL cs.AI

本文提出了一个用于多轮大语言模型推理的适应性停止框架 MiCP, 它基于 Conformal Prediction 为多轮交互式问答流程提供覆盖保证. 该方法在自适应 RAG 和 ReAct 等任务上进行了验证, 能在保证答案正确率的同时减少推理轮次和成本.

Cost-Efficient Estimation of General Abilities Across Benchmarks

Michael Krumdick et al.

cs.CL

本文提出了一种基于预测效度的评估框架, 用于高效预测大语言模型在未见任务上的性能. 通过结合改进的多维项目反应理论和自适应项目选择, 该方法在仅观察少量项目后便能以较低误差预测模型表现, 并显著降低了评估成本.

The power of context: Random Forest classification of near synonyms. A case study in Modern Hindi

Jacek Bąkowski

cs.CL

本文使用 Random Forest 分类器分析现代印地语中近义词的词嵌入，以区分其梵语或波斯-阿拉伯语起源。研究发现，仅凭分布数据即可有效分类，表明使用模式保留了词源信号，为同义词的细微差异提供了量化证据。

Are Finer Citations Always Better? Rethinking Granularity for Attributed Generation

Hexuan Wang et al.

cs.CL

本文探讨了在attributed generation中citation granularity对模型性能的影响. 研究发现, 强制使用细粒度的citation会损害attribution quality, 而段落级别的中等粒度通常表现最佳.

Wired for Overconfidence: A Mechanistic Perspective on Inflated Verbalized Confidence in LLMs

Tianyi Zhao et al.

cs.CL

本文从机制角度分析了LLMs中过度自信的言语表达现象, 通过识别内部电路和干预来改善校准.

A Dynamic Atlas of Persian Poetic Symbolism: Families, Fields, and the Historical Rewiring of Meaning

Kourosh Shahnazari, Seyed Moein Ayyoubzadeh, Mohammadali Keshtparvar

cs.CL cs.AI

本文通过构建多层图模型, 分析了波斯诗歌中象征符号的历时演变. 研究发现, 象征系统的内部权重与连接关系随时间发生显著变化, 而非固定不变.

Magic, Madness, Heaven, Sin: LLM Output Diversity is Everything, Everywhere, All at Once

Harnoor Dhingra

cs.CL cs.AI cs.CY

本文提出了一个名为"Magic, Madness, Heaven, Sin"的框架，用于系统化分析大型语言模型(LLM)输出多样性的研究。该框架将任务按规范性目标分类，并讨论了不同目标间的权衡关系。

Why Instruction-Based Unlearning Fails in Diffusion Models?

Zeliang Zhang et al.

cs.CL cs.CV

本文探讨了 instruction-based unlearning 在 diffusion models 中的适用性. 研究发现, 仅通过自然语言指令无法有效抑制模型生成特定概念, 揭示了该方法在图像生成模型中的根本局限性.

Masafumi Enomoto et al.

cs.CL

本文研究了基于大语言模型的Web agent中观察表示(HTML vs. accessibility tree)对性能的影响. 研究发现, 最优表示取决于模型能力和推理token预算, 并提出了结合观察历史和使用diff表示等实用建议.

Countering Catastrophic Forgetting of Large Language Models for Better Instruction Following via Weight-Space Model Merging

Mengxian Lyu et al.

cs.CL cs.AI

本文提出了一种基于权重空间模型合并的框架, 旨在缓解大型语言模型在特定领域微调时出现的灾难性遗忘问题. 通过将临床基础模型与通用指令模型进行插值合并, 该方法在保留指令遵循能力的同时, 提升了模型在临床任务上的性能.

DeltaMem: Towards Agentic Memory Management via Reinforcement Learning

Qi Zhang et al.

cs.CL

本文提出了一种名为DeltaMem的智能体记忆管理系统, 将persona-centric memory management建模为单智能体环境下的端到端任务. 通过构建对话数据集并设计基于Levenshtein距离的奖励函数, 结合强化学习框架进行优化, 实验表明其在多个长期记忆基准测试中超越了现有基线.

Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression

Ruoling Qi et al.

cs.CL

本文提出了一种名为Swift-SVD的激活感知、闭式压缩框架，用于大型语言模型(LLM)的低秩压缩。该方法通过增量聚合输出激活的协方差并进行单次特征值分解，实现了无需训练、快速且理论最优的层间低秩逼近，在多个模型和数据集上验证了其效率与精度优势。

Grounding AI-in-Education Development in Teachers' Voices: Findings from a National Survey in Indonesia

Nurul Aisyah et al.

cs.CL

本文通过一项针对印度尼西亚K-12教师的全国性调查，揭示了AI在教育实践中的应用现状与教师需求。研究发现，AI主要用于减轻教学准备负担，但其有效整合仍受限于通用输出、基础设施和情境适配性。

Fragile Reasoning: A Mechanistic Analysis of LLM Sensitivity to Meaning-Preserving Perturbations

Shou-Tzu Han, Rodrigue Rizk, KC Santosh

cs.CL

本文研究了大型语言模型在数学推理任务中对语义保持的表面扰动的脆弱性. 通过系统评估三个开源模型, 发现它们在问题表述的轻微变化下表现出较高的答案翻转率. 作者提出了一个机制扰动诊断框架来分析失败原因, 并根据诊断信号对模型失败进行了分类.

What Do Claim Verification Datasets Actually Test? A Reasoning Trace Analysis

Delip Rao, Chris Callison-Burch

cs.CL

本文通过使用GPT-4o-mini为多个claim verification数据集生成结构化推理轨迹，分析了这些基准测试实际评估的推理能力。研究发现，现有数据集主要测试直接证据提取，而严重缺乏对多句综合和数值推理的评估，不同数据集存在显著的偏差。

PRCCF: A Persona-guided Retrieval and Causal-aware Cognitive Filtering Framework for Emotional Support Conversation

Yanxin Luo et al.

cs.CL

本文提出了一个用于情感支持对话的框架PRCCF, 它结合了persona引导的检索和因果感知的认知过滤机制. 实验表明该框架在自动评估和人工评估上优于现有基线.

PRISM: Probability Reallocation with In-Span Masking for Knowledge-Sensitive Alignment

Chenning Xu, Mao Zheng, Mingyang Song

cs.CL

本文提出了一种名为PRISM的概率重分配框架, 用于在包含句子级事实性风险标签和句间依赖标注的增强型SFT设置中, 减轻语言模型在多句生成中的幻觉问题. 该方法通过风险门控机制, 仅在事实关键位置施加轻量级的概率重分配目标, 在提升事实性基准表现的同时保持了模型的整体能力.

On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning

Zhaoyi Li et al.

cs.CL

本文比较了使用不同来源的长思维链数据进行监督微调时模型的泛化性能差异. 研究发现, 尽管在训练集上损失更低, 但使用某些模型生成的发散性思维链数据训练的模型, 其泛化能力反而更差. 作者通过分析推理模式差异解释了这一现象, 并提出了一种简单的轨迹过滤方法来提升性能.

Development and multi-center evaluation of domain-adapted speech recognition for human-AI teaming in real-world gastrointestinal endoscopy

Ruijie Yang et al.

cs.CL cs.AI

本文提出了一个面向胃肠内窥镜场景的领域自适应语音识别系统 EndoASR. 该系统通过两阶段适应策略提升了在复杂临床环境下的识别准确率和实时性, 并在多中心前瞻性研究中验证了其鲁棒性.

Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework

Yanchen Wu et al.

cs.CL cs.DB

本文提出了一个用于分析和比较LLM智能体(agent)中各种记忆(memory)方法的统一框架, 并在两个基准上对代表性方法进行了广泛的实验评估. 作为实验分析的副产品, 作者还通过组合现有方法的模块设计了一种新的记忆方法, 其性能优于现有方法.

Human-Guided Reasoning with Large Language Models for Vietnamese Speech Emotion Recognition

Truc Nguyen et al.

cs.CL

本文提出了一种人机协作框架, 用于越南语语音情感识别(SER). 该框架结合了基于声学特征的模型与LLM推理, 通过置信度路由和迭代规则更新来处理模糊样本.

Detecting Toxic Language: Ontology and BERT-based Approaches for Bulgarian Text

Melania Berbatova, Tsvetoslav Vasev

cs.CL

本文针对保加利亚语文本的毒性内容检测问题, 提出了两种方法. 一种是构建了保加利亚语潜在毒性词汇的本体论(Ontology), 另一种是训练了一个基于BERT的分类模型, 该模型在包含四类句子的标注数据集上取得了0.89的宏观F1分数.

LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning with Proof Sketches

Linyang He et al.

cs.CL cs.AI cs.LG

本文提出了一个名为 LiveMathematicianBench 的动态基准测试，用于评估大语言模型在科研级数学推理上的能力。该基准基于 arXiv 上新发表的论文构建，并引入了基于证明概要的干扰项生成方法。

Taming CATS: Controllable Automatic Text Simplification through Instruction Fine-Tuning with Control Tokens

Hanna Hubarava, Yingqiang Gao

cs.CL

本文提出了一种基于指令微调和离散控制令牌的领域无关可控自动文本简化框架, 旨在引导开源模型达到目标可读性和压缩率. 研究发现, 较小的模型可以具有竞争力, 但可靠的可控性强烈依赖于训练数据是否编码了目标属性的足够变化, 并且现有的标准评估指标不足以衡量控制效果.

DEFT: Distribution-guided Efficient Fine-Tuning for Human Alignment

Liang Zhu et al.

cs.CL

本文提出了一种名为DEFT的高效微调框架, 用于提升大语言模型与人类偏好的对齐效果. 该方法通过基于模型输出分布与偏好数据差异的分布奖励来筛选高质量数据子集, 并以此指导模型训练, 在减少训练时间的同时提升了模型的对齐能力和泛化能力.

PLOT: Enhancing Preference Learning via Optimal Transport

Liang Zhu et al.

cs.CL

本文提出了一种基于Optimal Transport的token-level损失函数PLOT, 用于增强基于微调的大语言模型偏好对齐. 该方法将偏好学习建模为Optimal Transport问题, 旨在对齐模型输出与人类偏好的同时保持模型原始分布的稳定性. 实验表明, PLOT在多个偏好类别上提升了对齐性能, 并保持了文本的流畅性与连贯性.

From Guessing to Placeholding: A Cost-Theoretic Framework for Uncertainty-Aware Code Completion

Liang Zhu et al.

cs.CL

本文提出了一种名为Adaptive Placeholder Completion (APC)的代码补全框架，用于处理模型预测不确定的情况。该框架通过在有高不确定性的位置输出占位符来降低用户的预期编辑成本，并通过强化学习进行训练。

Beyond Detection: Ethical Foundations for Automated Dyslexic Error Attribution

Samuel Rose, Debarati Chakraborty

cs.CL cs.AI

本文提出了一种用于区分阅读障碍者拼写错误的二元分类方法, 并探讨了其应用中的伦理风险. 研究结合了拼写、语音和形态特征, 并提出了一个双输入神经网络模型, 同时强调了在教育场景中部署此类系统所需的伦理框架.

SURE: Synergistic Uncertainty-aware Reasoning for Multimodal Emotion Recognition in Conversations

Yiqiang Cai et al.

cs.CL

本文提出了一个名为SURE的框架, 用于对话中的多模态情感识别(MERC). 该框架通过不确定性感知的专家混合模块处理噪声, 并利用迭代推理模块进行上下文建模, 在基准数据集上取得了优于现有方法的效果.

Is Clinical Text Enough? A Multimodal Study on Mortality Prediction in Heart Failure Patients

Oumaima El Khettari et al.

cs.CL

本文比较了基于transformer的模型在心力衰竭短期死亡率预测任务上的表现, 评估了纯文本、纯结构化数据、多模态以及基于大语言模型(LLM)的方法. 研究发现, 结合实体信息的监督式多模态融合模型效果最佳, 而当前LLM的提示方法在临床决策支持中仍有局限.

ImplicitBBQ: Benchmarking Implicit Bias in Large Language Models through Characteristic Based Cues

Bhaskara Hanuma Vedula et al.

cs.CL cs.AI

本文提出了一个名为ImplicitBBQ的问答基准，用于评估大型语言模型在间接身份暗示下的隐性偏见。研究发现，在模糊语境中，模型的隐性偏见远高于显性偏见，且现有的安全提示和推理方法难以有效缓解这一问题。

Reliable News or Propagandist News? A Neurosymbolic Model Using Genre, Topic, and Persuasion Techniques to Improve Robustness in Classification

Géraud Faye et al.

cs.CL cs.AI

本文提出了一种结合非上下文文本嵌入与符号概念特征的神经符号模型, 用于提高宣传性新闻分类的鲁棒性和泛化能力. 该方法整合了体裁, 主题和说服技巧等特征, 在实验中表现优于纯文本方法.

How to measure the optimality of word or gesture order with respect to the principle of swap distance minimization

Ramon Ferrer-i-Cancho

cs.CL cond-mat.stat-mech physics.soc-ph

本文提出了一种基于permutohedron（排列多面体）和swap distance（交换距离）的数学框架, 用于量化语言或手势序列顺序相对于最小化交换距离原则的最优性程度. 作者将此框架应用于跨语言手势数据, 并引入quadratic assignment problem (QAP)作为统一多种语言优化问题的理论工具.

Diagnosing Translated Benchmarks: An Automated Quality Assurance Study of the EU20 Benchmark Suite

Klaudia Thellmann, Bernhard Stadler, Michael Färber

cs.CL cs.IR

本文提出了一种针对机器翻译基准数据集EU20的三步自动化质量保证方法, 包括结构审计, 基于COMET的质量分析以及基于LLM的翻译错误分析. 研究发现COMET分数与片段级错误率呈负相关, 并发布了清洗后的数据集和代码.

SAFE: Stepwise Atomic Feedback for Error correction in Multi-hop Reasoning

Daeyong Kwon, Soyoung Yoon, Seung-won Hwang

cs.CL cs.AI

本文提出了一个名为SAFE的动态基准测试框架, 用于提升多跳问答中推理步骤的可验证性. 该框架通过基于知识图谱的验证流程来识别和修正推理中的错误步骤, 并在实验中显示出优于基线方法的性能.

$k$NNProxy: Efficient Training-Free Proxy Alignment for Black-Box Zero-Shot LLM-Generated Text Detection

Kahim Wong et al.

cs.CL

本文提出了一种无需训练的代理对齐框架$k$NNProxy, 用于黑盒零样本大语言模型生成文本检测. 该方法通过构建轻量级数据存储库并利用$k$NN检索机制来调整固定代理模型的输出, 避免了监督微调或频繁的API调用.

Why Gaussian Diffusion Models Fail on Discrete Data?

Alexander Shabalin et al.

cs.CL

本文探讨了高斯扩散模型在处理离散数据时遇到的困难. 作者通过一个随机层次模型, 识别出导致采样质量下降的关键区间, 并提出结合自条件和q-sampling的方法来缓解问题.

Tracking the emergence of linguistic structure in self-supervised models learning from speech

Marianne de Heer Kloots et al.

cs.CL cs.AI eess.AS

本文研究了自监督语音模型在训练过程中语言结构的涌现情况. 通过分析多个模型在不同训练阶段的表征, 发现不同层级的语言结构具有不同的学习轨迹, 这与其抽象程度和整合信息的时间尺度有关.

BidirLM: From Text to Omnimodal Bidirectional Encoders by Adapting and Composing Causal LLMs

Nicolas Boizard et al.

cs.CL cs.AI

本文提出了一种将因果生成式语言模型转换为双向编码器的方法, 通过系统性的消融实验确定了关键适应因素, 并引入了一种结合线性权重合并与轻量级多领域数据混合的策略来缓解灾难性遗忘. 最终得到的BidirLM编码器家族在文本、视觉和音频表示基准测试中表现优异.

Goose: Anisotropic Speculation Trees for Training-Free Speculative Decoding

Tao Jin, Phuong Minh Nguyen, Naoya Inoue

cs.CL cs.AI

本文提出了一种名为GOOSE的训练无关推测解码框架, 通过构建各向异性的推测树来加速大语言模型推理. 该方法利用不同token来源的接受率差异, 将高接受率的上下文匹配token组织为深链, 低接受率的统计预测token组织为宽分支, 从而在固定验证预算下提升每步接受的token数量.

Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning

Yuhang Wu et al.

cs.CL cs.AI cs.IR

本文提出了一种名为ReRanking Preference Optimization (RRPO)的强化学习框架, 用于优化RAG系统中的重排序器. 该方法利用LLM的生成反馈直接对齐重排序与下游生成任务, 无需人工标注, 并在多个基准测试中超越了现有基线.

Prosodic ABX: A Language-Agnostic Method for Measuring Prosodic Contrast in Speech Representations

Haitong Sun et al.

cs.CL cs.LG cs.SD eess.AS

本文提出了一种名为"prosodic ABX"的语言无关方法, 用于评估自监督语音模型(S3Ms)表示对韵律对比(如重音, 声调)的敏感性. 该方法无需显式标签, 仅需少量示例即可工作, 并在英语, 日语和普通话数据集上进行了验证.

Reliable Control-Point Selection for Steering Reasoning in Large Language Models

Haomin Zhuang et al.

cs.CL

本文针对大语言模型中通过 steering vectors 控制推理行为的方法, 指出当前基于关键词匹配检测行为边界的方法存在大量不稳定的伪信号. 作者提出了稳定性过滤和内容子空间投影技术来提取更可靠的信号, 在数学推理基准上取得了提升, 并展示了方法的跨模型迁移能力.

GaelEval: Benchmarking LLM Performance for Scottish Gaelic

Peter Devine et al.

cs.CL

本文介绍了首个针对苏格兰盖尔语的多维度基准测试GaelEval, 包含句法、翻译和文化知识任务. 评估发现, 前沿模型在部分语法任务上超越了人类基线, 且盖尔语提示能带来小幅性能提升.

Brief Is Better: Non-Monotonic Chain-of-Thought Budget Effects in Function-Calling Language Agents

Xuan Qi

cs.CL

本文研究了 function-calling agent 中 chain-of-thought (CoT) reasoning 长度对任务准确率的影响。实验发现，过长的推理预算反而会损害性能，并提出了一个结构化的 brief-CoT 方法来提升可靠性。

AstroConcepts: A Large-Scale Multi-Label Classification Corpus for Astrophysics

Atilla Kaan Alkan et al.

cs.CL astro-ph.IM cs.IR cs.LG

本文构建了一个用于天体物理学的大规模多标签分类语料库AstroConcepts, 并基于此评估了多种分类方法. 研究发现, 词汇受限的大语言模型表现具有竞争力, 且领域适应对罕见术语的提升相对更大, 同时提出了频率分层评估方法以揭示被总体分数掩盖的性能模式.

Do Lexical and Contextual Coreference Resolution Systems Degrade Differently under Mention Noise? An Empirical Study on Scientific Software Mentions

Atilla Kaan Alkan et al.

cs.CL cs.LG

本文比较了两种无需微调的方法, Fuzzy Matching (FM) 和 Context Aware Representations (CAR), 用于解决跨文档软件提及的共指消解任务. 通过注入噪声的受控实验, 分析了两种方法在不同噪声类型下的性能退化模式, 并讨论了它们在不同规模语料上的计算效率.

Adam's Law: Textual Frequency Law on Large Language Models

Hongyuan Adam Lu et al.

cs.CL

本文研究了文本频率与大型语言模型(LLM)性能的关系, 提出了一个包含文本频率定律(TFL), 文本频率蒸馏(TFD)和课程文本频率训练(CTFT)的框架. 实验表明, 该框架在数学推理, 机器翻译等多个任务上有效提升了模型表现.

The Expert Strikes Back: Interpreting Mixture-of-Experts Language Models at Expert Level

Jeremy Herbst, Jae Hee Lee, Stefan Wermter

cs.CL cs.AI cs.LG

本文研究了 Mixture-of-Experts (MoE) 语言模型的可解释性。通过 $k$-sparse probing 等方法，发现 MoE 中的专家神经元比密集前馈网络中的更少多义性，并且专家层面是更有效的分析单元。分析表明，专家是细粒度的任务专家，而非宽泛的领域专家。

Neuro-RIT: Neuron-Guided Instruction Tuning for Robust Retrieval-Augmented Language Model

Jaemin Kim et al.

cs.CL cs.AI

本文提出了一种名为 Neuro-RIT 的框架，通过基于归因的神经元挖掘来区分处理相关与无关上下文的神经元，并采用两阶段指令调优策略来增强检索增强语言模型对噪声的鲁棒性。实验表明该方法在多个问答基准上优于现有基线。

Towards Position-Robust Talent Recommendation via Large Language Models

Silin Du, Hongyan Liu

cs.CL

本文提出了一种基于大语言模型(LLM)的列表式人才推荐框架L3TR, 旨在解决现有方法中存在的position bias和token消耗高的问题. 通过引入block attention机制和局部位置编码等方法, 该框架在真实数据集上取得了优于基线的性能.

CV-18 NER: Augmented Common Voice for Named Entity Recognition from Arabic Speech

Youssef Saidi, Haroun Elleuch, Fethi Bougares

cs.CL

本文构建了首个公开的阿拉伯语语音命名实体识别数据集CV-18 NER, 并对比了端到端模型与级联系统的性能. 实验表明, 端到端模型在该任务上显著优于级联系统, 为低资源语言的语音信息抽取提供了基准.

No Single Best Model for Diversity: Learning a Router for Sample Diversity

Yuhan Liu et al.

cs.CL

本文研究了在开放性问题中如何生成全面的有效回答集合, 并引入了"diversity coverage"这一评估指标. 研究发现没有单一模型在所有提示上都表现最佳, 因此提出了一个根据查询预测最佳模型的"router"方法, 该方法在多个数据集和提示策略上优于单一最佳模型基线.

Grounded Token Initialization for New Vocabulary in LMs for Generative Recommendation

Daiwei Chen et al.

cs.CL cs.AI cs.LG

本文针对语言模型扩展新词汇时常用的均值初始化方法进行了分析, 指出其会导致新token嵌入坍缩, 并提出了一个轻量级的预训练嵌入空间语义初始化方法GTI. 该方法在多个生成式推荐基准测试中表现优于基线.

cs.DS

Near-Optimal Parallel Approximate Counting via Sampling

David G. Harris et al.

cs.DS math.PR

本文针对近似计数问题, 提出了一种简单的非自适应采样算法, 其样本复杂度为$O(q \log^2 h / \varepsilon^2)$. 同时, 还提出了一种仅需两轮自适应即可达到$O(q \log h / \varepsilon^2)$样本复杂度的算法, 匹配了已知最优顺序算法的效率. 这些算法自然地导出了高效的并行(RNC)计数算法, 并应用于几个经典模型.

Space-Efficient Text Indexing with Mismatches using Function Inversion

Jackson Bibbens, Levi Borevitz, Samuel McCauley

cs.DS

本文提出了一种在$O(n)$空间内支持带错配的文本索引查询的数据结构, 查询时间约为$\tilde{O}(|q| + \log^{4k} n + \log^{2k} n \# occ)$, 消除了对字母表大小$|\Sigma|$的依赖. 核心思想是将函数求逆(Fiat-Naor)技术应用于CGL树, 并改进了两者的性能分析, 同时首次给出了使用$o(n)$额外空间的简洁数据结构结果.

A divide and conquer strategy for multinomial particle filter resampling

Andrey A. Popov

cs.DS stat.CO

本文提出了一种用于粒子滤波重采样的新多项式重采样方法, 适用于所需样本数小于或等于底层离散分布规模的情况. 该方法在计算复杂度分析和数值实验中均优于已知的多项式采样方法.

Approximating the Permanent of a Random Matrix with Polynomially Small Mean: Zeros and Universality

Frederic Koehler, Pui Kuen Leung

cs.DS math-ph math.PR quant-ph

本文研究了当矩阵元素略微偏离零时, 近似随机矩阵permanent的算法. 通过分析多项式$\mathrm{per}(zJ + W)$的零点分布, 作者证明了对于标准复高斯随机矩阵$W$, 其所有零点位于一个半径为$\tilde{O}(n^{-1/3})$的圆盘内, 从而在偏置为$\tilde{\Omega}(n^{-1/3})$时给出高效近似算法. 此外, 文章还证明了零点的主体部分具有$\Theta(n^{-1/2})$的模长, 并将零点自由区域的结果推广到具有次指数独立同分布元素的随机矩阵.

A Simple Average-case Analysis of Recursive Randomized Greedy MIS

Mina Dalirrooyfard, Konstantin Makarychev, Slobodan Mitrović

cs.DS

本文为递归随机贪心最大独立集(MIS)算法提供了一个更简单的平均情况复杂度分析. 作者借鉴了基于势函数的论证方法, 得到了与先前工作相同的期望递归调用次数上界.

Sublinear-query relative-error testing of halfspaces

Xi Chen et al.

cs.DS cs.CC

本文研究了在相对误差测试模型下, 对定义在$\mathbb{R}^n$上、服从标准高斯分布的 halfspaces (线性阈值函数) 进行测试的问题. 作者证明了存在一种测试算法, 其查询复杂度是亚线性的, 远低于学习所需的查询量.

Single-Pass Streaming CSPs via Two-Tier Sampling

Amir Azarmehr, Soheil Behnezhad, Shane Ferrante

cs.DS

本文针对单遍流式设置中的Max-CSP问题，提出了一种称为two-tier sampling的算法。该算法使用$n^{1-\Omega_\varepsilon(1)}$的空间实现了$(\alpha - \varepsilon)$的近似比，从而证实了该领域猜想的一个方面。

Adaptive Fully Dynamic $k$-Center Clustering with (Near-)Optimal Worst-Case Guarantees

Mara Grilnberger, Antonis Skarlatos

cs.DS

本文针对fully dynamic $k$-center clustering问题, 提出了一种新的算法. 该算法在对抗性自适应敌手(adaptive adversary)下, 实现了常数近似比, 接近最优的最坏情况更新时间和常数最坏情况recourse.

A Constant-Approximation Distance Labeling Scheme under Polynomially Many Edge Failures

Bernhard Haeupler et al.

cs.DS

本文提出了一种容错距离标签方案, 用于处理无向加权图中任意数量$f$条边失效的情况. 该方案在多项式时间内构建, 实现了$O(k^{4})$的近似比和$\tilde{O}(f^{4}n^{1/k})$的标签大小.

Probabilistic AVL Trees (p-AVL): Relaxing Deterministic Balancing

Hayagriv Desikan

cs.DS

本文研究了p-AVL树（一种AVL树的概率变体）的经验行为，其中每个不平衡以概率$p$被修复。实验表明，即使很小的非零$p$值也会导致显著的结构变化。

Subquadratic Counting via Perfect Marginal Sampling

Xiaoyu Chen et al.

cs.DS math.PR

本文针对自旋系统配分函数的近似计算问题, 提出了突破二次时间复杂度的新计数算法. 通过建立亚二次计数与完美边际采样之间的深刻联系, 该工作为硬核模型, Ising模型等广泛系统提供了更高效的近似计数方案.

others

Cross-Scale MAE: A Tale of Multi-Scale Exploitation in Remote Sensing

Maofeng Tang et al.

cs.CV cs.AI eess.IV

本文提出了一种用于遥感图像自监督学习的多尺度表示学习方法 Cross-Scale MAE. 该方法通过尺度增强和跨尺度一致性约束来学习特征, 并在下游任务中取得了优于标准 MAE 的性能.

Logic-Gated Time-Shared Feedforward Networks for Alternating Finite Automata: Exact Simulation and Learnability

Sahil Rajesh Dhayalkar

cs.FL cs.AI

本文提出了一种使用Logic-Gated Time-Shared Feedforward Networks (LG-TS-FFNs) 来模拟Alternating Finite Automata (AFAs) 的框架。该模型通过可学习的、状态相关的偏置作为逻辑门，能够表示存在性和全称性聚合，从而在计算能力上与AFAs同构。实验表明，该模型能够通过梯度下降从二元标签中同时学习自动机的拓扑结构和逻辑语义。

Interpretable Battery Aging without Extra Tests via Neural-Assisted Physics-based Modelling

Yuan Qiu et al.

eess.SP cs.LG

本文提出了一种名为IBAM的神经网络辅助物理建模框架, 用于实现无需额外测试的可解释电池老化建模. 该方法通过结合分数阶等效电路模型和双向门控循环单元, 从电池管理系统的常规日志中提取二维老化指纹, 以解释不同寿命电池的退化机制.

Experimental Design for Missing Physics

Arno Strouwen, Sebastián Micluţa-Câmpeanu

physics.comp-ph cs.LG

本文针对模型结构不完整的系统, 提出了一种基于符号回归的序贯实验设计方法, 以获取高质量数据来学习缺失的物理部分. 该方法通过最优区分符号回归提出的候选模型来指导实验, 并在生物反应器的案例中进行了应用.

CLPIPS: A Personalized Metric for AI-Generated Image Similarity

Khoi Trinh et al.

cs.CV cs.AI eess.IV

本文提出了CLPIPS, 一种基于LPIPS改进的个性化图像相似度度量方法. 该方法通过少量人工标注数据进行微调, 旨在使度量结果更符合人类的主观感知, 特别是在文本生成图像的交互式工作流中.

DarwinNet: An Evolutionary Network Architecture for Agent-Driven Protocol Synthesis

Jinliang Xu, Bingqi Li

cs.NE cs.AI cs.DC cs.MA cs.NI

本文提出了一种名为DarwinNet的自进化网络架构, 旨在解决传统网络因静态协议导致的僵化问题. 它通过一个三层框架和双循环机制, 将高层业务意图合成为可执行字节码, 并利用可靠性增长模型验证了其抗脆弱性.

Trustworthy AI-Driven Dynamic Hybrid RIS: Joint Optimization and Reward Poisoning-Resilient Control in Cognitive MISO Networks

Deemah H. Tashman, Soumaya Cherkaoui

cs.NI cs.AI

本文提出了一种用于认知MISO网络的动态混合RIS架构, 并采用SAC DRL算法联合优化发射波束成形和RIS相位. 同时, 文章首次研究了针对RIS-CRN中DRL智能体的奖励投毒攻击, 并提出了一种轻量级的防御机制.

ML-Enabled Open RAN: A Comprehensive Survey of Architectures, Challenges, and Opportunities

Mira Chandra Kirana et al.

cs.NI cs.AI

本文是一篇关于机器学习在开放无线接入网(O-RAN)中应用的综述性文章. 它概述了O-RAN的架构, 并探讨了ML在解决频谱管理, 资源分配等问题上的潜力与挑战.

Computational Foundations for Strategic Coopetition: Formalizing Sequential Interaction and Reciprocity

Vik Pant, Eric Yu

cs.MA cs.AI cs.CY cs.GT cs.SE

本文为多利益相关者系统中的战略竞合(Strategic Coetition)建立了计算基础，重点关注序贯互动与互惠性。作者将概念建模(i*框架)与博弈论分析相结合，提出了包含有界互惠响应、记忆窗口跟踪等机制的形式化框架，并在大规模参数配置和苹果App Store生态系统的案例中进行了验证。

A Learning-Based Cooperative Coevolution Framework for Heterogeneous Large-Scale Global Optimization

Wenjie Qiu et al.

cs.NE cs.AI cs.LG

本文针对具有异构子问题的超大规模全局优化(H-LSGO)问题, 提出了一个基于学习的协同进化框架(LH-CC). 该框架通过元智能体自适应地为每个子问题选择优化器, 并在一个灵活的基准测试集上验证了其优于现有方法的性能.

Transforming OPACs into Intelligent Discovery Systems: An AI-Powered, Knowledge Graph-Driven Smart OPAC for Digital Libraries

M. S. Rajeevan, B. Mini Devi

cs.DL cs.AI cs.IR

本文提出了一种利用人工智能和知识图谱技术将传统OPACs改造为智能发现系统的框架. 该框架整合了多个开放学术数据源, 通过语义嵌入提升检索的相关性和上下文理解, 支持语义搜索和基于知识图谱的可视化.

OkanNet: A Lightweight Deep Learning Architecture for Classification of Brain Tumor from MRI Images

Okan Uçar, Murat Kurt

eess.IV cs.AI cs.IR cs.LG cs.NE

本文提出了一种名为OkanNet的轻量级CNN架构，用于从MRI图像中自动分类脑肿瘤。研究比较了该自定义模型与基于ResNet-50的迁移学习方法，发现后者精度更高，而OkanNet在训练速度上更具优势，适合计算资源有限的场景。

Descending into the Modular Bootstrap

Nathan Benjamin et al.

hep-th cs.LG hep-ph

本文利用机器学习优化方法，探索了二维共形场论(2d CFT)的模空间。通过最小化一个与模不变性相关的损失函数，作者在中心荷$c$介于1和$\frac{8}{7}$的范围内，数值构造了可能的截断配分函数候选者。

Look Twice: Training-Free Evidence Highlighting in Multimodal Large Language Models

Marco Morini et al.

cs.CV cs.AI cs.CL

本文提出了一种无需训练的推理时框架 Look Twice (LoT), 用于提升多模态大语言模型(MLLMs)在回答知识密集型视觉问题时对多模态证据的利用能力. 该方法通过分析模型的 attention 模式来识别相关的视觉区域和文本片段, 并利用轻量级的提示标记引导模型在生成答案时重新关注这些证据.

Macroscopic transport patterns of UAV traffic in 3D anisotropic wind fields: A constraint-preserving hybrid PINN-FVM approach

Hanbing Liang, Fujun Liu

cs.CE cs.LG

本文提出了一种结合 physics-informed neural network 与 conservative finite-volume method 的混合求解器, 用于模拟三维各向异性风场中的宏观无人机交通流. 该方法通过外层的 Picard 迭代耦合, 在传输步骤中严格保证了无通量边界条件, 并在可复现的场景中展示了其捕捉稳态密度结构的能力.

Evolutionary Multi-Objective Fusion of Deepfake Speech Detectors

Vojtěch Staněk et al.

cs.SD cs.AI cs.CR cs.LG cs.NE

本文提出了一种用于融合深度伪造语音检测器的进化多目标分数融合框架, 旨在同时最小化检测错误和系统复杂度. 实验表明, 该方法在ASVspoof 5数据集上取得了优于基线模型的效果, 并能提供一系列在准确性和计算成本之间权衡的解决方案.

Bias Inheritance in Neural-Symbolic Discovery of Constitutive Closures Under Function-Class Mismatch

Hanbing Liang, Ze Tao, Fujun Liu

cs.CE cs.LG

本文提出了一个用于从时空观测数据中恢复非线性反应-扩散系统中本构关系的三阶段神经符号框架. 该框架通过前向验证揭示了在函数类不匹配情况下, 神经代理模型的偏差会直接传递给符号压缩结果.

Regularizing Attention Scores with Bootstrapping

Neo Christopher Chung, Maxim Laletin

cs.CV cs.AI cs.LG stat.ME stat.ML

本文提出了一种基于bootstrap的方法来正则化vision transformer中的attention scores, 通过重采样输入特征生成baseline分布来估计attention的显著性, 从而去除噪声产生的虚假attention, 提高attention map的稀疏性和可解释性. 该方法在自然图像和医学图像上进行了定量评估.

Safety, Security, and Cognitive Risks in World Models

Manoj Parmar

cs.CR cs.AI cs.LG cs.RO

本文讨论了World models在自主决策系统中的安全、安全与认知风险, 提出了形式化定义、攻击者分类和威胁模型, 并通过实验和部署场景说明了相关风险及缓解措施.

From Automation to Augmentation: A Framework for Designing Human-Centric Work Environments in Society 5.0

Cristian Espinal Maya

econ.GN cs.AI cs.HC

本文为Society 5.0中的人本工作环境设计提出了一个理论框架。它将人机协同的增强函数内生化，并引入了多维度的职场设计向量，论证了在特定条件下人本设计能实现利润最大化。研究还通过文献综述和实证数据支持了其模型，并开发了一个用于企业层面诊断的评估工具。

VIANA: character Value-enhanced Intensity Assessment via domain-informed Neural Architecture

Luana P. Queiroz et al.

physics.chem-ph cs.LG

本文提出了一种名为VIANA的"三支柱"框架, 用于预测气味感知强度. 该框架结合了分子结构图, 气味特征值嵌入和剂量响应现象学行为, 通过知识迁移提升了预测性能.

AffordTissue: Dense Affordance Prediction for Tool-Action Specific Tissue Interaction

Aiza Maksutova et al.

cs.CV cs.AI cs.RO eess.IV

本文提出了一个用于预测手术中工具-动作特定组织可供性区域的密集热图的多模态框架 AffordTissue. 该方法结合了时序视觉编码器, 语言条件输入和 DiT 风格的解码器, 在胆囊切除术数据集上超越了现有的视觉语言模型基线.

Can LLMs Predict Academic Collaboration? Topology Heuristics vs. LLM-Based Link Prediction on Real Co-authorship Networks

Fan Huang, Munjung Kim

cs.SI cs.AI

本文研究了LLMs在真实合著网络上的链接预测能力. 实验表明, LLMs仅利用作者元数据即可预测合作, 其性能与基于拓扑的启发式方法互补, 并在许多场景下表现更优.

GRAZE: Grounded Refinement and Motion-Aware Zero-Shot Event Localization

Syed Ahsan Masud Zaidi et al.

cs.CV cs.AI

本文提出了一种无需训练、基于视觉基础模型的零样本事件定位方法GRAZE, 用于在美式足球训练视频中定位"首次接触点(FPOC)". 该方法通过结合目标检测、运动感知时序推理和像素级接触验证来应对复杂场景, 在真实数据上取得了较高的定位成功率.

Causal Optimal Coupling for Gaussian Input-Output Distributional Data

Daran Xu, Amirhossein Taghvaei

eess.SY cs.LG math.OC math.PR

本文针对由因果动态系统生成的输入-输出分布数据，研究了识别其最优耦合的问题。该问题被表述为一个需要满足边际分布和因果约束的Schrödinger Bridge问题。对于高斯边际和一般时变二次成本函数的情况，作者推导出了收敛到最优解的Sinkhorn迭代的完全可处理表征。

Semantically Annotated Multimodal Dataset for RF Interpretation and Prediction

Steve Blandino et al.

cs.ET cs.AI eess.SP

本文提出了一种结合RF测量与视觉、激光雷达等多模态数据的新型数据集, 旨在解决无线建模和RF AI领域高质量数据缺乏的问题. 该数据集通过精确的时空配准和数字孪生, 支持从视觉数据预测RF热图(正向问题)和从RF信号推断场景语义(逆向问题)等AI研究.

Reproducible, Explainable, and Effective Evaluations of Agentic AI for Software Engineering

Jingyue Li, André Storhaug

cs.SE cs.AI

本文分析了18篇关于Agentic AI在软件工程中应用的论文, 指出了当前评估方法在可复现性、可解释性和有效性方面的不足. 作为一篇立场论文, 它提出了一套指导原则和建议, 旨在推动该领域评估实践的改进, 并建议公开Thought-Action-Result轨迹和LLM交互数据以支持后续分析.

Know Your Streams: On the Conceptualization, Characterization, and Generation of Intentional Event Streams

Andrea Maldonado et al.

cs.DB cs.LG

本文针对Streaming Process Mining(SPM)领域缺乏真实事件流数据的问题, 扩展了事件流(Event Stream)的概念基础, 并提出了一个名为Stream of Intent的原型生成器, 用于生成具有特定复杂特征的可复现事件流, 以支持SPM算法的针对性基准测试.

Generative Profiling for Soft Real-Time Systems and its Applications to Resource Allocation

Georgiy A. Bondar et al.

eess.SY cs.LG cs.OS eess.SP stat.ML

本文提出了一种用于软实时系统的生成式性能分析方法, 通过非参数条件多边际薛定谔桥(MSB)模型来合成任务在未测量资源配置下的细粒度时序剖面. 该方法旨在实现高效的资源分配, 并在实际基准测试中展示了其有效性.

All Substitution Is Local

Nidhish Shah, Shaurjya Mandal, Asfandyar Azhar

econ.TH cs.AI cs.IT

本文研究了在有限行动场景下, 一个信息源如何影响另一个信息源对贝叶斯决策者的价值. 作者提出了互补与替代两种力量的分解框架, 并形式化地证明了替代仅发生在决策边界附近.

Better Rigs, Not Bigger Networks: A Body Model Ablation for Gaussian Avatars

Derek Austin

cs.CV cs.AI

本文通过将SMPL替换为Momentum Human Rig (MHR), 简化了基于3D Gaussian splatting的人体化身重建流程. 实验表明, 该简化方法在多个指标上取得了优异性能, 并验证了身体模型的表现力是重建效果的主要瓶颈.

Low-Burden LLM-Based Preference Learning: Personalizing Assistive Robots from Natural Language Feedback for Users with Paralysis

Keshav Shankar, Dan Ding, Wei Gao

cs.RO cs.AI cs.HC

本文提出了一种基于LLM的低负担偏好学习框架, 用于为瘫痪用户个性化辅助机器人. 该方法将用户的自然语言反馈通过临床推理框架转化为透明的决策树控制策略, 并在模拟实验中验证了其有效性和安全性.

Efficient Equivariant Transformer for Self-Driving Agent Modeling

Scott Xu et al.

cs.RO cs.CV cs.LG

本文提出了一种用于自动驾驶中智能体行为建模的新型transformer架构DriveGATr. 它利用2D projective geometric algebra $\mathbb{R}^*_{2,0,1}$中的multivector表示场景元素, 并通过等变transformer块进行处理, 实现了SE(2)-equivariance, 同时避免了传统方法中二次复杂度的显式相对位置编码. 在Waymo Open Motion Dataset上的实验表明, 该模型在性能与计算成本之间取得了更好的权衡.

The Newton-Muon Optimizer

Zhehang Du, Weijie Su

math.OC cs.AI cs.LG

本文通过引入一个基于梯度、输出空间曲率矩阵和数据矩阵的二次代理模型，为Muon优化器的设计提供了新的理论解释，并推导出一种名为Newton-Muon的新优化方法。该方法在GPT-2预训练任务中，相比标准Muon取得了小幅的性能提升。

SelfGrader: Stable Jailbreak Detection for Large Language Models using Token-Level Logits

Zikai Zhang et al.

cs.CR cs.AI

本文提出了一种名为SelfGrader的轻量级护栏方法，用于检测针对大语言模型的越狱攻击。该方法将检测问题转化为一个基于token-level logits的数值评分任务，通过分析模型对一组数字token的logit分布来评估查询的安全性，旨在降低延迟和误报率。

Prime Once, then Reprogram Locally: An Efficient Alternative to Black-Box Service Model Adaptation

Yunbei Zhang et al.

cs.CV cs.LG

本文提出了一种名为AReS的高效替代方法, 用于适应闭箱服务模型(如API). 该方法通过单次API交互"启动"一个本地预训练编码器, 从而避免了传统基于零阶优化的方法所需的大量、昂贵的API调用.

Type-Checked Compliance: Deterministic Guardrails for Agentic Financial Systems Using Lean 4 Theorem Proving

Devakh Rashie, Veda Rashi

cs.LO cs.AI cs.CR

本文提出了一种基于形式化验证的AI护栏平台, 利用神经符号模型将金融政策自动形式化为Lean 4代码, 通过定理证明来确保智能体行为的合规性. 该架构旨在为金融领域的自主AI系统提供确定性的合规保证.

The topological gap at criticality: scaling exponent d + η, universality, and scope

Matthew Loftus

cond-mat.stat-mech cs.LG

本文研究了拓扑间隙 $\Delta$ 在自旋模型临界点处的标度行为。通过有限尺寸标度分析，验证了在二维 Ising 和 Potts 模型中 $\Delta \sim L^{d+\eta}$ 的关系，并探讨了该规律在存在对数修正或其它类型相变时的失效范围。

From SWE-ZERO to SWE-HERO: Execution-free to Execution-based Fine-tuning for Software Engineering Agents

Nikolai Ludwig et al.

cs.SE cs.CL

本文提出了一种名为SWE-ZERO到SWE-HERO的两阶段监督微调方法，用于提升软件工程智能体在代码仓库问题解决上的性能。该方法通过结合无执行轨迹学习和基于执行的精细化训练，使开源模型在SWE-bench基准测试上达到了新的最佳水平。

Non-monotonicity in Conformal Risk Control

Tareq Aldirawi, Yun Li, Wenge Guo

stat.ML cs.LG

本文研究了在损失函数非单调情况下 conformal risk control (CRC) 的有效性。当调优参数从有限网格中选择时，作者证明了只要校准样本量相对于网格分辨率足够大，风险控制仍然可以实现，并给出了有限样本保证。

ToolMisuseBench: An Offline Deterministic Benchmark for Tool Misuse and Recovery in Agentic Systems

Akshey Sigdel, Rista Baral

cs.SE cs.AI

本文提出了一个名为ToolMisuseBench的离线确定性基准测试，用于评估智能体系统中工具误用与恢复能力。该基准覆盖多种操作环境，并包含可复现的故障注入机制，旨在量化评估智能体在给定调用与重试预算下的表现。

A Determinantal Approach to a Sharp $\ell^1-\ell^\infty-\ell^2$ Norm Inequality

Jose Antonio Lara Benitez

math.CA cs.LG math.HO math.OC

本文通过行列式方法，给出了$\mathbb{R}^p$上$\ell^1$, $\ell^\infty$和$\ell^2$范数之间一个尖锐不等式$\|x\|_1\|x\|_\infty \le \frac{1+\sqrt{p}}{2}\|x\|_2^2$的简短线性代数证明，并证明了常数的最优性。

ProdCodeBench: A Production-Derived Benchmark for Evaluating AI Coding Agents

Smriti Jha et al.

cs.SE cs.AI cs.LG

本文介绍了一种从实际生产环境中构建AI编程助手评估基准的方法, 并提出了ProdCodeBench这一具体基准. 该基准包含多种编程语言的真实会话数据, 并通过系统分析揭示了迭代验证工具对提升模型解决率的重要性.

On the Dynamics of Linear Finite Dynamical Systems Over Galois Rings

Jonas Kantic et al.

math.DS cs.DS math.AC

本文研究了定义在Galois rings上的线性有限动力系统, 将其动力学分析从循环模推广到Galois rings. 作者提出了计算其功能图中循环长度与树高的算法, 旨在快速获取系统动力学的基本信息.

EXHIB: A Benchmark for Realistic and Diverse Evaluation of Function Similarity in the Wild

Yiming Fan et al.

cs.CR cs.LG cs.SE

本文提出了一个名为EXHIB的基准测试，用于评估二进制函数相似性检测模型在真实多样化场景下的性能。该基准包含五个数据集，测试发现现有模型在固件和语义数据集上性能显著下降，揭示了当前评估实践的局限性。

ReFlow: Self-correction Motion Learning for Dynamic Scene Reconstruction

Yanzhe Liang et al.

cs.CV cs.AI

本文提出了一个名为ReFlow的统一框架, 用于从单目视频中进行动态场景重建. 该方法通过一种新颖的自校正流程匹配机制, 旨在更稳健地学习3D运动, 减少对外部密集运动指导的依赖.

Acoustic and perceptual differences between standard and accented Chinese speech and their voice clones

Tianle Yang et al.

cs.SD cs.AI cs.CL cs.CY cs.HC

本文通过计算分析和感知实验, 比较了标准普通话与带口音普通话及其语音克隆体之间的差异. 研究发现, 尽管基于嵌入的距离分析未显示可靠差异, 但感知评分表明克隆体与标准发音原声的相似度更高, 且克隆体的可懂度有所提升, 尤其对于带口音的语音.

Bipartite Exact Matching in P

Yuefeng Du

cs.DM cs.CC cs.DS

本文针对二部图精确匹配问题, 提出了一种确定性的多项式时间算法. 通过证明所有二部支撑图的仿射切片非零猜想, 并利用紧割分解将问题约简, 最终给出了一个 $O(n^6)$ 的确定性算法.

Harmonized Tabular-Image Fusion via Gradient-Aligned Alternating Learning

Longfei Huang, Yang Yang

cs.CV cs.AI

本文提出了一种名为Gradient-Aligned Alternating Learning (GAAL)的新范式, 用于解决多模态表格-图像融合任务中模态间梯度冲突的问题. 该方法通过交替的单模态学习和共享分类器来解耦梯度, 并利用基于不确定性的跨模态梯度手术来选择性对齐梯度, 从而提升整体融合性能.

SHOE: Semantic HOI Open-Vocabulary Evaluation Metric

Maja Noack et al.

cs.CV cs.AI

本文提出了一种新的评估框架SHOE, 用于开放词汇的人-物交互检测任务. 该框架通过分解交互的动词和物体部分, 并利用大语言模型计算语义相似度, 从而超越了传统的基于精确字符串匹配的评估指标.

Random Coordinate Descent on the Wasserstein Space of Probability Measures

Yewei Xu, Qin Li

stat.ML cs.LG math.OC

本文提出了一种在Wasserstein概率测度空间上的随机坐标下降框架, 包括RWCD和RWCP方法. 该方法通过利用坐标结构来适应各向异性的目标函数, 并在多种几何条件下提供了收敛性分析.

ModTrans: Translating Real-world Models for Distributed Training Simulator

Yi Lyu

cs.DC cs.AI

本文提出了 ModTrans, 一个用于将现实世界开发的模型转换为分布式训练模拟器 ASTRA-sim 输入格式的翻译工具. 它旨在降低机器学习专家与系统研究者之间的使用门槛, 实验表明其开销可忽略不计.

NEMESIS: Noise-suppressed Efficient MAE with Enhanced Superpatch Integration Strategy

Kyeonghun Kim et al.

cs.CV cs.AI

本文提出了一种用于3D CT影像的masked autoencoder框架NEMESIS, 通过使用局部superpatch来降低内存消耗. 该方法引入了噪声增强重建, 双掩蔽Transformer模块和跨尺度上下文聚合token, 在器官分类任务上取得了优于基准模型的性能, 同时显著降低了计算成本.

Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

Jiawei Chen et al.

cs.CV cs.AI

本文提出了一种针对vision-language-action (VLA) 模型的物理可实现对抗攻击方法。该方法通过优化附着在物体上的3D纹理来干扰机器人操作任务，并在仿真和真实机器人实验中验证了其有效性。

Automatic Image-Level Morphological Trait Annotation for Organismal Images

Vardaan Pahuja et al.

cs.CV cs.AI

本文提出了一种基于稀疏自编码器和视觉语言提示的自动化流程, 用于从生物图像中提取形态学特征. 该方法构建了一个包含大量昆虫图像特征标注的数据集, 为大规模生态学研究提供了可扩展的工具.

DWDP: Distributed Weight Data Parallelism for High-Performance LLM Inference on NVL72

Wanqian Li et al.

cs.DC cs.AI

本文提出了一种名为DWDP的分布式权重数据并行策略, 用于提升大语言模型(LLM)在多GPU上的推理性能. 该方法通过跨GPU卸载MoE权重并按需获取专家, 消除了层间同步, 允许GPU独立执行, 从而改善了负载均衡问题.

RefinementEngine: Automating Intent-to-Device Filtering Policy Deployment under Network Constraints

Davide Colaiacomo, Chiara Bonfanti, Cataldo Basile

cs.CR cs.AI

本文提出了一种名为RefinementEngine的系统, 用于自动化地将高级安全意图(security intents)转化为可部署的网络设备配置. 该系统考虑了网络拓扑、设备能力以及网络威胁情报(CTI), 并通过真实用例验证了其正确性和实用性.

Seclens: Role-specific Evaluation of LLM's for security vulnerablity detection

Subho Halder et al.

cs.CR cs.AI

本文提出了一个名为 SecLens-R 的多利益相关者评估框架，用于评估大型语言模型(LLM)在安全漏洞检测中的表现。该框架定义了五种角色特定的评估配置文件，并在包含多种编程语言和漏洞类型的任务集上测试了12个前沿模型，结果表明不同角色的评估结果存在显著差异。

AromaGen: Interactive Generation of Rich Olfactory Experiences with Multimodal Language Models

Yunge Wen et al.

cs.HC cs.AI

本文介绍了一种名为AromaGen的AI驱动可穿戴界面，它能够从自由文本或视觉输入中实时生成通用气味。该系统利用多模态LLM将语义输入映射到12种基础气味剂的结构化混合物，并允许用户通过自然语言反馈迭代优化生成的气味。一项用户研究表明，该系统在零样本生成中可匹配人工调配的混合物，并在迭代优化后显著超越之。

Moiré Video Authentication: A Physical Signature Against AI Video Generation

Yuan Qing et al.

cs.CV cs.AI cs.MM

本文提出了一种基于物理的认证签名方法, 利用相机拍摄双层光栅结构时产生的Moiré效应来区分真实视频与AI生成视频. 该方法通过验证提取的条纹相位与光栅图像位移之间的线性耦合关系, 为视频真伪鉴别提供了一种物理上可验证的途径.

Robust Embodied Perception in Dynamic Environments via Disentangled Weight Fusion

Juncen Guo et al.

cs.CV cs.AI

本文提出了一种无需领域标识和样本回放的增量学习框架, 用于提升具身感知系统在动态环境中的鲁棒性. 该方法通过解耦表征机制去除环境风格干扰, 并利用权重融合策略在参数空间整合新旧知识, 在多个基准数据集上取得了优于现有方法的性能.

GPA: Learning GUI Process Automation from Demonstrations

Zirui Zhao et al.

cs.CV cs.AI cs.SE

本文提出了一种基于视觉的GUI流程自动化方法GPA, 它通过单次演示学习来稳定地回放图形用户界面操作. 该方法利用Sequential Monte Carlo定位等技术提升了鲁棒性, 并支持本地执行以保护隐私.

Bridging Large-Model Reasoning and Real-Time Control via Agentic Fast-Slow Planning

Jiayi Chen et al.

cs.RO cs.AI

本文提出了一种名为Agentic Fast-Slow Planning的分层框架，旨在将大型模型的高级推理能力与实时控制系统连接起来。该框架通过解耦感知、决策、规划与控制，并引入两个关键模块来提升自动驾驶系统的鲁棒性和效率。

OpenGo: An OpenClaw-Based Robotic Dog with Real-Time Skill Switching

Hanbing Li et al.

cs.RO cs.AI

本文介绍了一个名为OpenGo的机器人系统, 它基于OpenClaw框架, 能够在Unitree Go2机器狗平台上实现实时技能切换. 该系统包含可定制的技能库, 任务调度器以及基于反馈的自学习框架, 并通过集成自然语言接口来方便用户控制.

Causal Scene Narration with Runtime Safety Supervision for Vision-Language-Action Driving

Yun Li et al.

cs.RO cs.AI

本文提出了一种用于自动驾驶的Causal Scene Narration (CSN)方法，旨在通过重构文本输入来提升Vision-Language-Action (VLA)模型的性能。该方法结合了运行时安全监督和偏好对齐训练，在仿真环境中验证了其有效性。

DriveDreamer-Policy: A Geometry-Grounded World-Action Model for Unified Generation and Planning

Yang Zhou et al.

cs.CV cs.AI cs.RO

本文提出了一个统一的驾驶世界-动作模型, 通过整合深度生成、未来视频生成和运动规划到一个模块化架构中, 增强了自动驾驶系统的几何感知能力. 实验表明该模型在闭环规划和世界生成任务上表现良好.

FSKD: Monocular Forest Structure Inference via LiDAR-to-RGBI Knowledge Distillation

Taimur Khan, Hannes Feilhauer, Muhammad Jazib Zafar

cs.CV cs.AI

本文提出了一种名为FSKD的知识蒸馏框架, 用于从单目RGB-红外(RGBI)图像推断森林结构. 该方法通过一个融合LiDAR与RGBI的多模态教师模型来指导一个仅使用RGBI的学生模型, 使其能够预测冠层高度模型(CHM)等多个森林结构指标. 在德国萨克森州的评估显示, 该学生模型在零样本CHM预测上达到了先进水平, 并展示了在时空不匹配数据下的有效性.

Learning in Prophet Inequalities with Noisy Observations

Jung-hun Kim, Vianney Perchet

stat.ML cs.LG

本文研究了在奖励只能通过噪声观测且分布未知的 practical setting 下的 prophet inequality 问题. 作者提出了基于 lower-confidence-bound (LCB) thresholding 的算法, 在 i.i.d. 和非同分布设置下分别证明了 $1 - 1/e$ 和 $1/2$ 的 competitive ratio.

A deep learning pipeline for PAM50 subtype classification using histopathology images and multi-objective patch selection

Arezoo Borji et al.

cs.CV cs.AI

本文提出了一种基于多目标优化的深度学习流程, 用于从H&E染色全切片图像中预测乳腺癌的PAM50分子亚型. 该方法结合了NSGA-II算法和Monte Carlo dropout, 联合优化图像patch的信息量、空间多样性、不确定性和数量, 从而筛选出一个小型但信息丰富的patch子集用于分类. 在内部和外部验证数据集上, 该方法均取得了较高的分类性能, 表明其有潜力作为分子检测的替代方案.

Neural Network-Assisted Model Predictive Control for Implicit Balancing

Seyed Soroush Karimi Madahi et al.

eess.SY cs.AI

本文提出了一种将输入凸神经网络(ICNN)集成到模型预测控制(MPC)框架中的方法，用于改进电力系统隐式平衡的决策。该方法通过注意力门控机制筛选输入数据，在保证模型凸性的同时提高了计算效率。

GPU-RMQ: Accelerating Range Minimum Queries on Modern GPUs

Lara Kreis et al.

cs.DB cs.DC cs.DS

本文提出了一种名为 GPU-RMQ 的新方法, 用于在 GPU 上加速 Range Minimum Query (RMQ) 计算. 该方法采用分层结构设计, 结合了光线追踪核心和 CUDA 核心, 在保持较低内存占用的同时, 显著提升了大规模数组上的查询吞吐量和索引构建速度.

Language-Pretraining-Induced Bias: A Strong Foundation for General Vision Tasks

Yaxin Luo, Zhiqiang Shen

cs.CV cs.CL cs.LG

本文探讨了语言预训练模型在视觉任务中应用的可行性. 作者提出了一种无需人工标注的桥接训练方法, 并发现部分层级的参数迁移可能更为有效.

Investigating Permutation-Invariant Discrete Representation Learning for Spatially Aligned Images

Jamie S. J. Stirling, Noura Al-Moubayed, Hubert P. H. Shum

cs.CV cs.LG

本文提出了一种针对空间对齐图像的置换不变离散表示学习方法, 称为PI-VQ. 它通过约束潜在编码不携带位置信息, 使其捕捉全局语义特征, 并引入了匹配量化算法来提升信息容量. 该方法在多个数据集上取得了有竞争力的图像合成效果.

HieraVid: Hierarchical Token Pruning for Fast Video Large Language Models

Yansong Guo et al.

cs.CV cs.CL

本文提出了一种用于加速视频大语言模型(VideoLLMs)的分层剪枝框架HieraVid. 该方法通过段级、帧级和层级三个层次逐步动态地减少视觉冗余, 在仅保留30% token的情况下, 在多个基准测试上达到了新的最优性能.

Combating Data Laundering in LLM Training

Muxing Li et al.

cs.CR cs.AI

本文提出了一种名为SDR的方法来对抗LLM训练中的数据清洗攻击. 该方法通过推断未知的数据转换并合成查询来增强数据滥用检测.

Lifting Unlabeled Internet-level Data for 3D Scene Understanding

Yixin Chen et al.

cs.CV cs.AI

本文提出了一种利用网络未标注视频自动生成训练数据的数据引擎, 用于辅助3D场景理解任务. 该方法在多个任务上验证了生成数据的有效性, 展示了利用网络数据提升模型性能的潜力.

Learning Spatial Structure from Pre-Beamforming Per-Antenna Range-Doppler Radar Data via Visibility-Aware Cross-Modal Supervision

George Sebastian et al.

cs.CV cs.LG cs.RO

本文探讨了能否直接从波束成形前的单天线距离-多普勒雷达数据中学习有意义的空间结构. 通过使用基于LiDAR的可见性感知跨模态监督, 实验表明无需显式构建角度域表示即可学习空间信息.

Woosh: A Sound Effects Foundation Model

Gaëtan Hadjeres et al.

cs.SD cs.AI cs.LG

本文介绍了Sony AI发布的公开音效基础模型Woosh, 详细说明了其架构、训练过程, 并与其他开源模型进行了性能比较。该模型针对音效生成进行了优化, 包含了音频编码/解码器、文本-音频对齐模型以及文本/视频到音频的生成模型。

Quantum-Inspired Geometric Classification with Correlation Group Structures and VQC Decision Modeling

Nishikanta Mohanty et al.

quant-ph cs.AI

本文提出了一种结合几何方法与量子启发的分类框架, 利用Correlation Group Structures (CGR)和变分量子电路(VQC)进行决策建模. 该方法在多个数据集上展示了具有竞争力的性能, 并针对大规模不平衡数据提出了一个混合处理流程.

Captioning Daily Activity Images in Early Childhood Education: Benchmark and Algorithm

Sixing Li et al.

cs.CV cs.AI

本文提出了一个用于早期儿童教育(ECE)场景的图像描述(Image Captioning)新基准ECAC和一个名为RSRS的混合训练框架. 所开发的KinderMM-Cap-3B模型在专业物体命名准确性上显著超越了现有方法.

A Novel Theoretical Analysis for Clustering Heteroscedastic Gaussian Data without Knowledge of the Number of Clusters

Dominique Pastor et al.

stat.ML cs.LG

本文提出了一种用于聚类异方差高斯数据的新方法, 无需预先指定聚类数量. 通过引入一种新的成本函数和Wald核, 该方法在理论和算法层面都有所创新, 并在合成与真实数据集上展示了与K-means和Mean-Shift算法相当或更优的性能.

Physics-Informed Transformer for Multi-Band Channel Frequency Response Reconstruction

Anatolij Zubow et al.

cs.NI cs.AI cs.LG

本文提出了一种基于物理信息的complex Transformer模型, 用于从被干扰阻塞的碎片化频谱观测中重建完整的宽带信道频率响应(CFR). 模型采用因子化自注意力机制分别处理时间和频率维度, 并设计了结合频谱保真度、功率延迟分布(PDP)重建等多项物理约束的复合损失函数进行训练. 实验表明, 该方法在高达50%的干扰占用率下, 其重建的PDP与真实值之间的相似度($\rho \geq 0.82$)优于多种经典插值基线方法.

BBC: Improving Large-k Approximate Nearest Neighbor Search with a Bucket-based Result Collector

Ziqi Yin et al.

cs.DB cs.DS

本文针对大规模k近似最近邻(ANN)搜索中现有量化索引方法性能下降的问题, 提出了一个基于桶的结果收集器(BBC). 该方法通过桶式候选组织优化维护开销, 并设计了针对不同类型量化方法的再排序算法, 实验表明其在保持高召回率的同时显著提升了查询速度.

Ego-Grounding for Personalized Question-Answering in Egocentric Videos

Junbin Xiao et al.

cs.CV cs.AI cs.RO

本文提出了首个用于评估多模态大语言模型在自我中心视频中进行个性化问答任务的数据集MyEgo, 并进行了系统性分析. 基准测试表明, 现有模型在该任务上表现不佳, 凸显了自我定位和长期记忆能力的重要性.

RuleForge: Automated Generation and Validation for Web Vulnerability Detection at Scale

Ayush Garg et al.

cs.CR cs.AI cs.CL cs.LG cs.SE

本文介绍了一个名为RuleForge的自动化系统，用于从结构化的漏洞描述模板中生成Web漏洞检测规则。该系统采用了一种基于LLM的置信度验证机制来评估规则的敏感性和特异性，并通过反馈循环持续改进规则质量。

Homogenized Transformers

Hugo Koubbi, Borjan Geshkovski, Philippe Rigollet

math.PR cs.LG stat.ML

本文研究了深度多头自注意力机制的一个随机模型, 其中权重在层和头之间独立重采样. 通过将深度视为时间变量, 作者将残差流建模为单位球面上的离散时间相互作用粒子系统. 在适当的深度、残差步长和头数联合缩放条件下, 该动力学存在非平凡的均匀化极限, 该极限可以是确定性的或具有公共噪声的随机过程.

Curia-2: Scaling Self-Supervised Learning for Radiology Foundation Models

Antoine Saporta et al.

cs.CV cs.LG

本文提出了Curia-2，一个用于放射学基础模型的大规模自监督学习框架。它改进了预训练策略，并首次将架构扩展到十亿参数的Vision Transformers，在CuriaBench基准测试中表现出色。

Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation

Boyang Gong et al.

cs.CV cs.AI

本文针对多模态大语言模型(MLLMs)中的认知幻觉问题, 提出了一种无需训练的惯性感知视觉激发(IVE)方法. 该方法通过打破视觉注意力的惯性模式, 动态调整对关键语义区域的关注, 以改善模型在需要对象间关系推理任务上的表现.

Optimizing Interventions for Agent-Based Infectious Disease Simulations

Anja Wolpers, Johannes Ponge, Adelinde M. Uhrmacher

cs.MA cs.AI

本文提出了一种基于Grammar-Guided Genetic Programming (GGGP)的Agent-based Infectious Disease Intervention Optimization System (ADIOS), 用于在基于agent的传染病模拟中自动优化非药物干预措施(NPIs). 该系统通过一个领域特定语言来结构化干预措施的搜索空间, 并结合模拟进行优化, 以在GEMS案例中生成有效的干预策略.

Demographic Parity Tails for Regression

Naht Sinh Le, Christophe Denis, Mohamed Hebiri

stat.ML cs.LG

本文针对回归任务中的demographic parity fairness criterion, 提出了一种仅约束目标分布尾部的新框架. 该方法基于optimal transport theory, 旨在实现更精细的公平性干预, 并通过实验验证了其有效性.

APEX: Agent Payment Execution with Policy for Autonomous Agent API Access

Mohd Safwan Uddin et al.

cs.CR cs.AI

本文提出了APEX系统, 将HTTP 402风格的支付流程适配到类似UPI的法币工作流中, 实现了策略控制的支出管理和安全访问验证. 系统通过实验验证了其在控制支出和抵御重放攻击等方面的有效性.

Rare-Aware Autoencoding: Reconstructing Spatially Imbalanced Data

Alejandro Castañeda Garcia et al.

cs.CV cs.AI

本文针对自编码器在空间非均匀采样数据（如医学影像）中重建效果不佳的问题，提出了两种互补的组件：一种基于自熵的损失函数和一个名为Sample Propagation的重放机制。该方法在模拟和多个真实世界数据集上进行了验证，在空间数据不平衡的情况下，相比基线模型提升了重建性能。

IndoorCrowd: A Multi-Scene Dataset for Human Detection, Segmentation, and Tracking with an Automated Annotation Pipeline

Sebastian-Ion Nae et al.

cs.CV cs.LG

本文提出了一个名为IndoorCrowd的多场景室内数据集，用于人体检测、实例分割和多目标跟踪任务。该数据集包含多个真实室内场景的视频，并提供了自动化标注流程与基准测试结果。

Reinforcement Learning for Speculative Trading under Exploratory Framework

Yun Zhao, Alex S.L. Tse, Harry Zheng

q-fin.MF cs.LG math.OC q-fin.CP q-fin.TR

本文在探索性强化学习框架下研究了一个投机交易问题, 将其建模为具有一般效用函数和价格过程的进入与退出时序最优停止问题. 通过将停止时间建模为由有界、非随机化强度控制驱动的Cox过程的跳跃时间, 作者推导出最优策略的封闭形式, 并设计了强化学习算法在一个配对交易应用中进行了展示.

Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection

Soo Won Seo et al.

cs.CV cs.AI cs.LG

本文提出了一种用于Human-Object Interaction (HOI) 检测的新框架InCoM-Net. 它通过整合Vision-Language Models (VLMs)的语义知识与目标检测器的实例特征, 并利用Instance-centric Context Refinement (ICR)和Progressive Context Aggregation (ProCA)模块来挖掘多层次的上下文信息, 在标准基准测试上取得了先进的性能.

LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

Jiachun Jin et al.

cs.CV cs.LG

本文提出了一种名为LatentUM的新型统一模型, 它将所有模态表示在一个共享的语义潜在空间中, 从而消除了视觉理解与生成之间对像素空间解码的依赖. 这种方法提升了计算效率, 增强了跨模态对齐, 并在视觉空间规划等任务上取得了先进性能.

CASHG: Context-Aware Stylized Online Handwriting Generation

Jinsu Shin, Sungeun Hong, Jin Yeong Bak

cs.CV cs.LG

本文提出了一种用于在线手写体生成的上下文感知风格化方法CASHG, 它通过显式建模字符间连接性来合成句子级轨迹. 该方法使用Character Context Encoder和bigram-aware滑动窗口Transformer解码器, 并引入了边界感知的评估指标CSM. 实验表明, 该方法在连接性和间距指标上优于对比方法.

Cross-Modal Visuo-Tactile Object Perception

Anirvan Dutta et al.

cs.RO cs.LG

本文提出了一种用于机器人多模态感知的 Cross-Modal Latent Filter (CMLF) 模型. 该模型通过贝叶斯推断整合视觉与触觉信息, 以估计物体的物理属性, 并在真实机器人实验中展现了优于基线方法的鲁棒性.

Gradient estimators for parameter inference in discrete stochastic kinetic models

Ludwig Burger et al.

physics.comp-ph cond-mat.stat-mech cs.LG physics.bio-ph physics.chem-ph

本文探讨了在离散随机动力学模型中进行参数推断时梯度估计器的应用. 作者比较了三种来自机器学习的梯度估计器在 Gillespie 随机模拟算法中的表现, 发现不同估计器在不同场景下各有优劣.

Intelligent Cloud Orchestration: A Hybrid Predictive and Heuristic Framework for Cost Optimization

Heet Nagoriya, Komal Rohit

cs.DC cs.AI cs.LG cs.PF

本文提出了一种结合LSTM预测与启发式任务分配的混合云编排框架, 旨在平衡成本优化与响应速度. 该方法在降低基础设施成本的同时, 保持了接近纯启发式方法的快速响应能力.

AEGIS: Adversarial Entropy-Guided Immune System -- Thermodynamic State Space Models for Zero-Day Network Evasion Detection

Vickson Ferrel

cs.CR cs.LG

本文提出了一种名为AEGIS的对抗性熵引导免疫系统, 用于检测零日网络规避攻击. 该方法摒弃了传统的基于Euclidean空间的payload分析, 转而利用流物理特征在非欧几里得流形上进行异常检测, 并在对抗性数据集上取得了很高的检测性能.

A Practical Two-Stage Framework for GPU Resource and Power Prediction in Heterogeneous HPC Systems

Beste Oztop et al.

cs.DC cs.LG cs.PF

本文提出了一种用于异构高性能计算(HPC)系统中GPU资源与功耗预测的两阶段框架. 该框架利用Slurm工作负载管理器日志和NVIDIA DCGM收集的GPU性能指标, 对VASP应用的平均GPU功耗、最大GPU利用率等指标进行预测, 以支持更高效的调度决策.

Computing the Exact Pareto Front in Average-Cost Multi-Objective Markov Decision Processes

Jiping Luo, Nikolaos Pappas

eess.SY cs.IT cs.LG cs.NI

本文研究了平均成本多目标Markov决策过程(MOMDP)中精确Pareto前沿的计算问题. 作者证明了该前沿是一个位于凸多面体边界上的连续分段线性曲面, 并分析了其几何结构, 包括顶点与确定性策略的对应关系以及边的构成.

Impact of Multimodal and Conversational AI on Learning Outcomes and Experience

Karan Taneja, Anjali Singh, Ashok K. Goel

cs.HC cs.AI

本文通过一项随机对照在线研究, 比较了三种基于教材内容学习生物学的方法. 研究发现, 结合图文响应的对话式AI(MuDoC)能带来最佳的学习效果和体验, 而纯文本的对话式AI(TexDoC)虽能提升参与度, 但学习效果最差, 揭示了感知与结果之间的脱节.

Generative AI Spotlights the Human Core of Data Science: Implications for Education

Nathan Taback

cs.CY cs.AI stat.AP

本文讨论了生成式人工智能(GAI)对数据科学教育的影响, 认为GAI自动化了常规工作流, 但突出了问题构建, 因果推断, 伦理等不可替代的人类核心能力. 作者基于Donoho的"大数科学"框架, 提出教育应聚焦于这些人类核心, 并教授学生如何有效利用GAI工具进行迭代式交互.

(PAC-)Learning state machines from data streams: A generic strategy and an improved heuristic (Extended version)

Robert Baumgartner, Sicco Verwer

cs.FL cs.LG

本文提出了一种从数据流中学习状态机的通用策略和改进的启发式方法, 并提供了算法在PAC框架下的形式化分析. 该方法在一个开源库中实现, 并在公开数据集上验证了其在运行时间, 内存消耗和结果质量方面的有效性.

BVFLMSP : Bayesian Vertical Federated Learning for Multimodal Survival with Privacy

Abhilash Kar et al.

stat.ML cs.LG

本文提出了一个用于多模态生存分析的贝叶斯纵向联邦学习框架BVFLMSP. 该框架基于Split Neural Network架构, 结合了贝叶斯神经网络与差分隐私机制, 在保护数据隐私的同时提供了预测的不确定性估计.

Best-Arm Identification with Noisy Actuation

Merve Karakas et al.

cs.IT cs.LG

本文研究了在 arm commands 通过离散无记忆信道传输时, 如何识别多臂老虎机中的最佳 arm. 根据 agent 的能力, 作者提出了通信方案并进行了分析, 这些方案与底层信道的零错误容量相关.

Retrieval-Augmented Question Answering over Scientific Literature for the Electron-Ion Collider

Tina. J. Jat, T. Ghosh, Karthik Suresh

hep-ex cs.AI physics.ins-det

本文为电子-离子对撞机(EIC)实验领域开发了一个基于检索增强生成(RAG)的问答应用。该系统利用本地部署的开源LLaMA模型和自建的arXiv论文数据库，旨在以低成本、保护数据隐私的方式回答核物理实验中的专业问题。

The Computational Complexity of Avoiding Strict Saddle Points in Constrained Optimization

Andreas Kontogiannis, Ioannis Panageas, Vasilis Pollatos

cs.CC cs.DS

本文研究了在约束优化中寻找二阶稳定点(SOSPs)的计算复杂度. 作者证明了在一种可处理的松弛定义下, 计算近似SOSP是PLS-完全的, 这为约束二阶优化建立了基本复杂性障碍.

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Chongjie Ye et al.

cs.CV cs.AI

本文提出了Omni123, 一个将text-to-2D和text-to-3D生成统一在单一自回归框架内的3D原生基础模型. 它通过将文本, 图像和3D表示为共享序列空间中的离散token, 并利用丰富的2D数据作为几何先验来改善3D表示, 从而在有限3D数据下提升了3D生成的质量和一致性.

VOID: Video Object and Interaction Deletion

Saman Motamed et al.

cs.CV cs.AI

本文提出了一个名为VOID的视频对象移除框架, 旨在处理涉及物理交互的复杂场景. 该方法利用合成数据集训练, 并通过视觉语言模型和视频扩散模型来生成物理一致的移除后结果.

Topological Effects in Neural Network Field Theory

Christian Ferko et al.

hep-th cs.LG

本文在 neural network field theory 的框架中引入了离散参数来标记拓扑量子数, 从而将其扩展到了拓扑场景. 作者以此方法重现了 Berezinskii-Kosterlitz-Thouless 相变, 并验证了玻色弦理论中的 T-对偶性.

Steerable Visual Representations

Jona Ruthardt et al.

cs.CV cs.AI

本文提出了一种名为"可操控视觉表示"的新方法, 通过轻量级 cross-attention 在视觉编码器中进行早期文本融合, 使全局和局部特征能够被自然语言引导. 该方法在保持基础表示质量的同时, 能够聚焦于图像中任何指定的对象, 并在异常检测等任务上表现出色.

ActionParty: Multi-Subject Action Binding in Generative Video Games

Alexander Pondaven et al.

cs.CV cs.AI cs.LG

本文提出了一种名为ActionParty的模型, 用于解决视频扩散模型中多智能体动作绑定的问题. 该模型通过引入subject state tokens和空间偏置机制, 在Melting Pot基准测试中实现了对多个智能体的同时控制.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others