bluearXiv-ai - 2026-03-24

📄 所有论文 ↑ 回顶部

cs.LG

JointFM-0.1: A Foundation Model for Multi-Target Joint Distributional Prediction

Stefan Hackmann

cs.LG cs.AI

本文提出了一种名为JointFM的基础模型, 用于直接预测多个耦合时间序列的未来联合概率分布. 该模型通过采样合成SDEs进行训练, 在零样本设定下展现了一定的预测能力.

MARLIN: Multi-Agent Reinforcement Learning for Incremental DAG Discovery

Dong Li et al.

cs.LG cs.AI

本文提出了一种名为MARLIN的高效增量式有向无环图(DAG)发现方法, 该方法基于多智能体强化学习. 它通过设计DAG生成策略和两种智能体来提升因果发现效率, 并在合成与真实数据集上验证了其优于现有方法的性能.

Collaborative Adaptive Curriculum for Progressive Knowledge Distillation

Jing Liu et al.

cs.LG cs.AI

本文提出了一种名为FAPD的联邦学习框架, 通过引入课程学习思想来协调知识蒸馏过程. 它利用PCA对教师模型的特征进行分层, 并根据客户端的学习能力自适应地调整知识传输的复杂度与节奏.

Transformer-Based Predictive Maintenance for Risk-Aware Instrument Calibration

Adithya Parthasarathy et al.

cs.LG cs.AI

本文研究了仪器校准的预测性维护问题, 将其建模为基于传感器历史数据预测 time-to-drift (TTD) 的序列预测任务. 作者通过改造 NASA C-MAPSS 数据集, 比较了多种序列模型, 并展示了 Transformer 模型在点预测和结合分位数不确定性进行风险感知调度方面的有效性.

Rolling-Origin Validation Reverses Model Rankings in Multi-Step PM10 Forecasting: XGBoost, SARIMA, and Persistence

Federico Garcia Crespi, Eduardo Yubero Funes, Marina Alfosea Simon

cs.LG

本文通过滚动原点验证方法，比较了XGBoost、SARIMA和持续性模型在多步PM10预测中的表现。研究发现，静态评估会高估机器学习模型的实用性，而滚动评估则改变了模型排名，凸显了评估协议对结果判断的重要性。

Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

Liu hung ming

cs.LG cs.AI cs.CV

本文提出了AI Mother Tongue (AIM)框架，作为一种被动的量化探针，用于将V-JEPA 2模型的连续潜在向量转换为离散符号序列。该方法在冻结编码器的前提下，通过实验揭示了潜在空间中存在的结构化符号流形，为构建符号化世界模型提供了初步基础。

Bounded Coupled AI Learning Dynamics in Tri-Hierarchical Drone Swarms

Oleksii Bychkov

cs.LG cs.AI cs.MA

本文研究了一个包含三种不同时间尺度学习机制的无人机集群系统, 并建立了四个定理来形式化地保证其耦合动力学的有界性. 这些定理分别从总误差、表示漂移、元级兼容性和误差非累积性方面提供了保证.

Hybrid Autoencoder-Isolation Forest approach for time series anomaly detection in C70XP cyclotron operation data at ARRONAX

F Basbous et al.

cs.LG

本文提出了一种结合Autoencoder与Isolation Forest的混合方法, 用于检测C70XP回旋加速器运行数据中的时间序列异常. 该方法利用Autoencoder重构数据的Mean Cubic Error作为Isolation Forest的输入, 在质子束强度数据上验证了其性能提升.

Graph-Aware Text-Only Backdoor Poisoning for Text-Attributed Graphs

Qi Luo et al.

cs.LG cs.CR

本文针对文本属性图(text-attributed graphs)提出了一种仅通过修改节点文本内容即可实施的隐蔽后门攻击方法TAGBD. 该方法通过选择易受影响的训练节点并生成看似自然的触发文本来实现攻击, 实验表明其在多种图模型上均有效且能规避常见防御.

Interpretable Multiple Myeloma Prognosis with Observational Medical Outcomes Partnership Data

Salma Rachidi et al.

cs.LG

本文针对多发性骨髓瘤的预后预测问题, 提出了两种新颖的正则化技术, 旨在提升机器学习模型在真实世界临床数据上的可解释性. 实验基于812名患者的数据, 模型在测试集上取得了最高0.721的准确率, 并通过SHAP值验证了模型对选定重要特征的依赖.

The Multiverse of Time Series Machine Learning: an Archive for Multivariate Time Series Classification

Matthew Middlehurst et al.

cs.LG

本文介绍了Multiverse archive, 这是一个对现有UEA multivariate time series classification数据集库的大规模扩展, 将数据集数量从30个增加到147个. 作者提供了数据预处理指南, 算法基准测试结果以及一个便于复现和探索的专用代码库.

CAMA: Exploring Collusive Adversarial Attacks in c-MARL

Men Niu et al.

cs.LG cs.AI

本文提出了一种针对cooperative multi-agent reinforcement learning (c-MARL) 的合谋对抗攻击框架CAMA, 设计了三种恶意agent的合谋攻击模式. 通过理论分析和在SMAC II环境上的实验, 验证了这些攻击在破坏性、隐蔽性和成本方面的有效性.

SymCircuit: Bayesian Structure Inference for Tractable Probabilistic Circuits via Entropy-Regularized Reinforcement Learning

Y. Sungtaek Ju

cs.LG cs.AI stat.ML

本文提出了一种名为SymCircuit的贝叶斯结构推断方法, 用于学习tractable probabilistic circuits (PCs). 该方法使用基于熵正则化的强化学习来训练一个生成策略, 以替代传统的贪婪搜索算法. 实验表明, 该方法在NLTCS数据集上取得了有竞争力的结果, 并初步展示了在更大规模数据集上的可扩展性.

KV Cache Optimization Strategies for Scalable and Efficient LLM Inference

Yichun Xu, Navjot K. Khaira, Tejinder Singh

cs.LG cs.AI

本文系统性地综述了用于提升大语言模型推理可扩展性与效率的KV cache优化技术。文章将这些方法归纳为五大方向，并分析了其在不同实际部署场景下的权衡。

Putnam 2025 Problems in Rocq using Opus 4.6 and Rocq-MCP

Guillaume Baudart et al.

cs.LG cs.CL cs.LO

本文报告了一个实验, 使用 Claude Opus 4.6 模型, 结合为 Rocq 证明助手设计的 Model Context Protocol (MCP) 工具集, 自主证明了 2025 年 Putnam 数学竞赛 12 道题中的 10 道. 实验在一个无网络连接的虚拟机中运行, 消耗了大量计算资源, 所有生成的证明均已公开.

Thinking in Different Spaces: Domain-Specific Latent Geometry Survives Cross-Architecture Translation

Marcus Armstrong, Navid Ayoobi, Arjun Mukherjee

cs.LG cs.AI

本文研究了不同语言模型之间潜在表示的几何兼容性。通过线性投影在不同架构的模型间转换激活向量，并在推理时进行干预，发现该方法能在一定程度上修正模型行为。结果表明，这种几何对齐具有领域特异性，且表示空间保真度与输出影响之间存在分离。

SLE-FNO: Single-Layer Extensions for Task-Agnostic Continual Learning in Fourier Neural Operators

Mahmoud Elhadidy, Roshan M. D'Souza, Amirhossein Arzani

cs.LG

本文提出了一种名为SLE-FNO的架构，用于解决科学机器学习中任务无关的持续学习问题。该方法结合了单层扩展与Fourier Neural Operator，在流体动力学任务中表现出良好的可塑性与稳定性平衡。

Data-driven discovery of roughness descriptors for surface characterization and intimate contact modeling of unidirectional composite tapes

Sebastian Rodriguez et al.

cs.LG math.NA

本文提出了一种基于秩约减自编码器(RRAE)的新策略, 用于从单向复合材料带的表面粗糙度数据中提取物理相关的描述符. 该方法通过在线性潜在空间中应用截断奇异值分解(SVD), 旨在同时实现准确的表面重构和提取与界面固结物理相关的先验知识.

Detecting Neurovascular Instability from Multimodal Physiological Signals Using Wearable-Compatible Edge AI: A Responsible Computational Framework

Truong Quynh Hoa, Hoang Dinh Cuong, Truong Xuan Khanh

cs.LG cs.AI

本文提出了一个名为Melaguard的多模态机器学习框架, 用于从可穿戴设备兼容的生理信号中检测神经血管不稳定性(NVI). 该框架融合了多种信号, 并针对边缘计算设备进行了优化, 在多个数据集上进行了验证, 其性能优于单模态基线模型.

SDE-Driven Spatio-Temporal Hypergraph Neural Networks for Irregular Longitudinal fMRI Connectome Modeling in Alzheimer's Disease

Ruiying Chen et al.

cs.LG

本文提出了一种基于随机微分方程(SDE)的时空超图神经网络(SDE-HGNN), 用于处理不规则采样的纵向fMRI连接组数据以建模阿尔茨海默病(AD)的进展. 该方法利用SDE重建连续轨迹并构建动态超图来捕获高阶相互作用, 在ADNI等数据集上展示了优于现有图基线方法的预测性能.

Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret

Ming Shi et al.

cs.LG

本文研究了从多源不完美偏好中进行强化学习的问题, 提出了一个考虑累积不完美预算的框架. 算法实现了$\tilde{O}(\sqrt{K/M}+\omega)$的遗憾上界, 并证明了其下界为$\tilde{\Omega}(\max\{\sqrt{K/M},\omega\})$, 量化了多源反馈的收益与不完美性的根本限制.

From Data to Laws: Neural Discovery of Conservation Laws Without False Positives

Rahul D Ray

cs.LG physics.data-an

本文提出了一种名为NGCG的神经符号化方法, 用于从数据中稳健地发现守恒定律. 该方法通过解耦动力学学习与不变量发现, 并引入严格的常数性门控和多样性过滤, 有效避免了虚假定律的产生, 在包含混沌和PDEs的多种系统上实现了高精度和可解释性.

Spatio-Temporal Grid Intelligence: A Hybrid Graph Neural Network and LSTM Framework for Robust Electricity Theft Detection

Adewale U. Oguntola et al.

cs.LG

本文提出了一种用于电力盗窃检测的混合人工智能框架, 结合了时间序列异常检测、监督学习和图神经网络. 该框架通过融合LSTM自编码器、随机森林分类器和GNN模型, 在包含空间拓扑信息的数据集上取得了较高的整体检测准确率.

AE-LLM: Adaptive Efficiency Optimization for Large Language Models

Kaito Tanaka et al.

cs.LG cs.CL

本文提出了一个名为AE-LLM的自适应效率优化框架，用于自动选择和组合针对特定部署场景的大语言模型效率优化技术。该框架通过一个多目标优化搜索算法，在多种任务和模型规模上验证了其有效性，能够在保持精度的同时显著提升效率。

Distributed Gradient Clustering: Convergence and the Effect of Initialization

Aleksandar Armacki et al.

cs.LG stat.ML

本文研究了分布式梯度聚类算法中聚类中心初始化对性能的影响, 并通过数值实验表明该分布式方法比集中式方法对初始化更鲁棒. 此外, 受$K$-means++启发, 作者提出了一种新的分布式初始化方案, 进一步提升了算法性能.

Delightful Distributed Policy Gradient

Ian Osband

cs.LG cs.AI math.OC stat.ML

本文提出了一种名为 Delightful Policy Gradient (DG) 的新方法，用于处理分布式强化学习中由陈旧或有缺陷的智能体产生的数据。该方法通过结合优势函数和惊奇度来调整更新，以抑制无用的失败信号并放大罕见的成功信号。实验表明，在存在多种数据干扰的情况下，DG 相比标准方法能显著降低误差并提升计算效率。

Does This Gradient Spark Joy?

Ian Osband

cs.LG cs.AI stat.ML

本文提出了一种称为"Delightful Policy Gradient (DG)"的方法, 通过引入一个基于优势函数和惊奇度(surprisal)的"delight"信号来评估样本的学习价值. 该方法使用一个"Kondo gate"来比较delight与计算成本, 从而有选择性地进行反向传播, 旨在实现质量与成本的帕累托前沿. 在MNIST和transformer token reversal任务上的实验表明, 该方法能够跳过大部分反向传播, 同时保持学习性能.

RMNP: Row-Momentum Normalized Preconditioning for Scalable Matrix-Based Optimization

Shenyang Deng et al.

cs.LG

本文提出了一种名为RMNP的优化器, 用于深度神经网络的训练. 它通过简单的行归一化操作替代了复杂的Newton-Schulz迭代, 在保持优化性能的同时显著降低了计算开销.

Towards Practical Multimodal Hospital Outbreak Detection

Chang Liu et al.

cs.LG

本文提出了一种用于医院疫情检测的机器学习方法, 整合了MALDI-TOF质谱、抗生素耐药性模式和电子健康记录等多模态数据。该方法旨在作为全基因组测序的快速替代方案, 并通过分层监测范式减少对后者的依赖。

Understanding Behavior Cloning with Action Quantization

Haoqun Cao, Tengyang Xie

cs.LG stat.ML

本文为行为克隆中广泛使用的动作量化实践提供了理论分析. 作者分析了量化误差在时间步上的传播及其与统计样本复杂度的交互, 证明了在稳定动力学和平滑策略条件下, 量化行为克隆能达到最优样本复杂度.

LJ-Bench: Ontology-Based Benchmark for U.S. Crime

Hung Yun Tseng et al.

cs.LG

本文基于美国《模范刑法典》和加州法律构建了一个犯罪本体论, 并以此为基础创建了首个用于评估大语言模型在应对非法查询时鲁棒性的综合基准LJ-Bench. 该基准涵盖了76种犯罪类型, 旨在促进开发更可靠的大语言模型.

RECLAIM: Cyclic Causal Discovery Amid Measurement Noise

Muralikrishnna G. Sethuraman, Faramarz Fekri

cs.LG stat.ML

本文提出了一个名为RECLAIM的因果发现框架, 用于处理存在循环结构和测量噪声的场景. 该方法通过期望最大化(EM)算法最大化观测数据的似然, 并利用残差归一化流进行似然计算, 在合成和真实蛋白质信号数据集上验证了有效性.

MKA: Memory-Keyed Attention for Efficient Long-Context Reasoning

Dong Liu et al.

cs.LG cs.AI

本文提出了一种用于高效长上下文推理的Memory-Keyed Attention (MKA)机制及其变体FastMKA. 该方法通过分层KV缓存和动态路由来平衡内存开销与模型性能, 在保持与现有方法相近困惑度的同时提升了训练和推理效率.

Neural collapse in the orthoplex regime

James Alcala et al.

cs.LG cs.IT math.MG

本文研究了当类别数$n$远大于特征空间维度$d$时，分类任务中特征向量坍缩（neural collapse）所形成的新几何结构。在$d+2 \leq n \leq 2d$的orthoplex区间内，作者利用Radon定理和凸性分析，刻画了特征向量最终收敛到的几何构型。

Generating from Discrete Distributions Using Diffusions: Insights from Random Constraint Satisfaction Problems

Alankrita Bhatt et al.

cs.LG

本文研究了使用扩散模型从离散分布（特别是随机$k$-SAT和$k$-XORSAT公式的均匀随机解）中生成数据的问题。作者发现，连续扩散模型的表现优于掩码离散扩散模型，并且学习到的扩散模型可以达到理论上的“理想”精度。

Bayesian Learning in Episodic Zero-Sum Games

Chang-Wei Yueh et al.

cs.LG cs.GT

本文研究了在未知转移和奖励模型的有限时间序贯零和Markov博弈中的贝叶斯学习问题. 作者分析了两种设置下的后验采样算法, 并给出了学习代理期望regret的理论上界.

Beyond Token Eviction: Mixed-Dimension Budget Allocation for Efficient KV Cache Compression

Ruijie Miao et al.

cs.LG

本文提出了一种名为MixedDimKV的混合维度KV缓存压缩方法, 通过更细粒度的维度分配来减少Transformer推理时的内存占用. 实验表明, 该方法在多个长上下文基准测试上优于先前的KV缓存压缩方法, 能以极小的缓存比例保持高精度.

Optimal low-rank stochastic gradient estimation for LLM training

Zehao Li et al.

cs.LG

本文提出了一种用于大语言模型(LLM)训练的低秩随机梯度估计器。该方法通过将高维梯度投影到随机低维子空间来节省内存，并在RoBERTa-large微调和LLaMA预训练中验证了其有效性。

CFNN: Continued Fraction Neural Network

Chao Wang et al.

cs.LG cs.AI

本文提出了一种名为Continued Fraction Neural Networks (CFNNs)的新架构, 它将连分数(continued fractions)与基于梯度的优化相结合, 旨在为具有奇异性(singularities)的非线性函数流形提供一种参数高效的建模方法. 该方法在多个基准测试中显示出比传统MLPs更高的精度和噪声鲁棒性.

Diffusion Model for Manifold Data: Score Decomposition, Curvature, and Statistical Complexity

Zixuan Zhang et al.

cs.LG

本文研究了扩散模型在流形数据上的学习理论. 通过将数据建模为光滑黎曼流形上的样本, 分析了在不同噪声水平下分数函数的关键分解及其与流形曲率的相互作用, 并基于此给出了分数估计和分布学习的统计速率.

Exponential Family Discriminant Analysis: Generalizing LDA-Style Generative Classification to Non-Gaussian Models

Anish Lakkapragada

cs.LG stat.ML

本文提出了Exponential Family Discriminant Analysis (EFDA), 一个将Linear Discriminant Analysis (LDA) 推广到指数族分布的生成式分类框架. 它在多个非高斯分布的数据集上展示了良好的校准性能.

Breaking the $O(\sqrt{T})$ Cumulative Constraint Violation Barrier while Achieving $O(\sqrt{T})$ Static Regret in Constrained Online Convex Optimization

Haricharan Balasundaram, Karthick Krishna Mahendran, Rahul Vaze

cs.LG stat.ML

本文研究了带约束的在线凸优化问题, 旨在同时最小化静态遗憾和累积约束违反量. 先前工作普遍认为, 在$d \ge 2$时, 任何保证$O(\sqrt{T})$遗憾的算法, 其CCV下界为$\Omega(\sqrt{T})$. 本文通过理论分析, 证明了当$d=2$时, 一种现有算法可以同时实现$O(\sqrt{T})$的遗憾和$O(T^{1/3})$的CCV, 从而打破了这一认知.

Centrality-Based Pruning for Efficient Echo State Networks

Sudip Laudari

cs.LG cs.AI math.OC

本文提出了一种基于图中心性度量的剪枝方法, 用于提升Echo State Networks (ESNs)的效率. 该方法将储备池视为加权有向图, 通过移除结构上不重要的节点来减小网络规模, 并在时间序列预测任务中验证了其有效性.

Neuronal Self-Adaptation Enhances Capacity and Robustness of Representation in Spiking Neural Networks

Zhuobin Yang et al.

cs.LG

本文提出了一种受生物钾通道调节启发的KvLIF神经元模型，以增强脉冲神经网络(SNN)的性能。该模型通过引入一个辅助电导状态来动态调节神经元特性，在多个数据集上提升了分类准确性和鲁棒性。

Adversarial Attacks on Locally Private Graph Neural Networks

Matta Varun et al.

cs.LG cs.CR

本文研究了针对本地差分隐私(LDP)保护的图神经网络(GNN)的对抗攻击. 分析了LDP隐私保证如何影响攻击效果, 并讨论了潜在的防御方向.

Evaluating Uplift Modeling under Structural Biases: Insights into Metric Stability and Model Robustness

Yuxuan Yang, Dugang Liu, Yiyan Huang

cs.LG

本文通过设计一个半合成的基准测试框架, 系统地评估了在存在选择偏差、溢出效应和未观测混杂等结构性偏差时, uplift modeling 的模型鲁棒性和评估指标稳定性. 研究发现, 不同模型和指标在偏差下的表现存在显著差异, 其中 TARNet 展现出较好的鲁棒性, 而近似 ATE (Average Treatment Effect) 的指标能提供更稳定的模型排序.

OmniPatch: A Universal Adversarial Patch for ViT-CNN Cross-Architecture Transfer in Semantic Segmentation

Aarush Aggarwal et al.

cs.LG cs.AI cs.CV

本文提出了一个名为OmniPatch的训练框架, 用于生成一种通用的对抗性补丁(adversarial patch). 该补丁旨在跨图像, 并且在Vision Transformer (ViT)和CNN两种架构的语义分割模型之间实现可迁移的黑盒攻击, 而无需获取目标模型的参数.

Neural Autoregressive Flows for Markov Boundary Learning

Khoa Nguyen et al.

cs.LG

本文提出了一种结合条件熵与掩码自回归网络的新框架, 用于高效发现 Markov boundary. 该方法采用多项式时间内可并行化的贪心搜索策略, 并在合成与真实数据集上验证了其可扩展性与性能.

Large Neighborhood Search meets Iterative Neural Constraint Heuristics

Yudong W. Xu et al.

cs.LG

本文探讨了将迭代式神经启发式方法与Large Neighborhood Search (LNS)框架相结合。通过将神经约束求解器ConsFormer改造为LNS的修复算子，并设计了基于模型预测的破坏算子，在Sudoku等组合优化问题上验证了该方法的有效性。

Achieving $\widetilde{O}(1/ε)$ Sample Complexity for Bilinear Systems Identification under Bounded Noises

Hongyu Yi, Chenbei Lu, Jing Yu

cs.LG eess.SY stat.ML

本文研究了在有界对称对数凹噪声下离散时间双线性系统的有限样本集成员辨识问题. 在允许轨迹相关回归量和多项式均方状态增长的条件下, 证明了可行参数集直径的样本复杂度为 $\widetilde{O}(1/\epsilon)$.

Cross-Granularity Representations for Biological Sequences: Insights from ESM and BiGCARP

Hanlin Xiao et al.

cs.LG

本文通过分析 BiGCARP 和 ESM 两个不同粒度（domain-level 和 amino acid-level）的生物序列模型，探讨了跨粒度知识整合的潜力。研究发现，不同粒度的表征编码了互补的生物知识，其结合能提升中间层级预测任务的性能。

Simple Projection-Free Algorithm for Contextual Recommendation with Logarithmic Regret and Robustness

Shinsaku Sakaue

cs.LG

本文提出了一种用于contextual recommendation问题的简单无投影算法, 其计算效率优于现有的Online Newton Step (ONS)方法, 同时达到了相同的$O(d\log T)$ regret界. 该算法通过利用问题固有的improperness特性, 避免了ONS中计算代价高昂的Mahalanobis投影步骤, 并且对可能次优的动作反馈具有鲁棒性.

Beyond the Academic Monoculture: A Unified Framework and Industrial Perspective for Attributed Graph Clustering

Yunhui Liu et al.

cs.LG

本文是一篇关于Attributed Graph Clustering (AGC)的综述，提出了一个统一的Encode-Cluster-Optimize框架来分析现有方法，并指出了当前学术评估与工业应用需求之间的差距。

A Knowledge-Informed Pretrained Model for Causal Discovery

Wenbo Xu et al.

cs.LG

本文提出了一种结合弱先验知识的预训练模型用于因果发现. 该方法通过双源编码器-解码器架构处理观测数据, 并设计了课程学习策略以适应不同强度的先验. 实验表明其在分布内、分布外及真实数据集上均优于现有基线.

Semantic Sections: An Atlas-Native Feature Ontology for Obstructed Representation Spaces

Hossein Javidnia

cs.LG cs.AI cs.CL cs.NE

本文针对interpretability研究中将feature视为全局方向或共享latent coordinate的传统ontology提出了质疑, 认为在obstructed representation spaces中, 局部一致的含义可能无法组装成全局一致的feature. 作者引入了semantic section这一新的ontology对象, 它是一个定义在context atlas上、transport-compatible的局部feature代表族. 文章形式化了semantic section的概念, 证明了tree-supported propagation的pathwise realizability, 并指出cycle consistency是genuine globalization的关键判据, 从而区分了tree-local, globalizable和twisted sections. 作者进一步开发了一套基于seeded propagation, synchronization, defect-based pruning, cycle-aware taxonomy和deduplication的discovery-and-certification pipeline. 在多个大型语言模型的layer-16 atlases上的实验表明, 存在非平凡的semantic sections, 包括cycle-supported globalizable和twisted regimes. 关键发现是, semantic identity无法通过原始的全局向量相似度恢复, 而基于section的identity recovery在certified supports上则是完美的, 这支持了semantic section在obstructed regimes下作为更优feature ontology的论点.

Incentive-Aware Federated Averaging with Performance Guarantees under Strategic Participation

Fateme Maleki, Krishnan Raghavan, Farzad Yousefian

cs.LG math.OC

本文提出了一种激励感知的联邦平均方法, 通过让客户端在每轮通信中同时上传本地模型参数和更新的训练数据集大小, 并利用寻求Nash均衡的更新规则来动态调整数据参与, 以应对参与者的策略性行为. 在凸和非凸全局目标下分析了该方法的性能保证, 并在MNIST和CIFAR-10数据集上进行了数值实验.

Beyond the Birkhoff Polytope: Spectral-Sphere-Constrained Hyper-Connections

Zhaoyi Liu, Haichuan Zhang, Ang Li

cs.LG cs.AI

本文提出了一种名为 Spectral-Sphere-Constrained Hyper-Connections (sHC) 的新方法，用于改进神经网络中的超连接结构。该方法通过将约束集从 Birkhoff polytope 转移到 spectral norm sphere，解决了先前方法在表达能力、训练稳定性和参数化效率方面的限制。

Natural Gradient Descent for Online Continual Learning

Joe Khawand, David Colliaux

cs.LG cs.AI cs.CV

本文提出了一种使用Natural Gradient Descent (NGD) 优化器并结合Kronecker Factored Approximate Curvature (KFAC) 来近似Fisher Information Matrix (FIM) 的新方法, 用于训练Online Continual Learning (OCL) 模型. 该方法在多个标准数据集上提升了现有OCL方法的性能, 特别是在与已有技巧结合时效果更显著.

Bayesian Scattering: A Principled Baseline for Uncertainty on Image Data

Bernardo Fichera et al.

cs.LG stat.ML

本文提出了一种称为Bayesian scattering的方法, 旨在为图像数据的不确定性量化提供一个可解释且数学基础坚实的基准. 该方法将非学习的wavelet scattering transform与简单的概率头相结合, 并在多种分布偏移任务上进行了验证.

LLM-ODE: Data-driven Discovery of Dynamical Systems with Large Language Models

Amirmohammad Ziaei Bideh, Jonathan Gryak

cs.LG

本文提出了一种名为LLM-ODE的框架，利用大型语言模型来辅助发现动力系统的控制方程。该方法通过从候选方程中提取模式来引导符号演化，在多个测试系统上相比传统遗传编程方法展现了更高的搜索效率。

Enhancing LIME using Neural Decision Trees

Mohamed Aymen Bouyahia, Argyris Kalogeratos

cs.LG cs.AI

本文提出了一种名为NDT-LIME的改进方法，通过将Neural Decision Trees (NDTs) 作为替代模型集成到LIME框架中，旨在为复杂的黑盒模型提供更准确、更有意义的局部解释。实验在多个基准表格数据集上进行，结果表明其在解释保真度上优于传统的LIME替代模型。

Discriminative Representation Learning for Clinical Prediction

Yang Zhang et al.

cs.LG

本文提出了一种用于临床预测的监督式深度学习框架, 通过最大化类间分离度相对于类内方差的比率来显式地塑造表示几何. 该方法在多个纵向电子健康记录任务上表现优于多种自监督预训练基线, 简化了训练流程并提升了判别与校准性能.

Causally-Guided Diffusion for Stable Feature Selection

Arun Vignesh Malarkkan et al.

cs.LG cs.AI cs.IT

本文提出了一种基于因果引导扩散的稳定特征选择方法(CGDFS). 该方法将特征选择建模为对特征子集的后验采样, 结合了扩散模型先验和跨环境稳定性似然, 并通过退火朗之万采样进行推理, 以提升分布外场景下的模型鲁棒性.

Beyond Expression Similarity: Contrastive Learning Recovers Functional Gene Associations from Protein Interaction Structure

Jason Dury

cs.LG cs.AI

本文探讨了将对比关联学习(CAL)从文本领域迁移到分子生物学领域的可行性. 实验表明, 基于蛋白质相互作用(PPI)训练的CAL模型在基因关联预测任务上显著优于基于基因表达相似性的方法, 并揭示了生物学关联与文本关联在可迁移性等方面的不同模式.

Understanding Contextual Recall in Transformers: How Finetuning Enables In-Context Reasoning over Pretraining Knowledge

Bhavya Vasudeva et al.

cs.LG cs.CL

本文研究了Transformer模型在上下文学习中的一种特定能力——上下文回忆. 通过一个受控的合成框架, 作者发现仅靠预训练不足以让模型掌握这种能力, 而微调可以触发其出现.

Detection of adversarial intent in Human-AI teams using LLMs

Abed K. Musaffar, Ambuj Singh, Francesco Bullo

cs.LG cs.AI cs.HC

本文探讨了在混合人机团队中使用LLMs作为防御性监督者来检测恶意行为的潜力. 通过分析多轮对话数据, 研究发现LLMs能够在无需任务特定信息的情况下实时识别恶意意图, 这为任务无关的防御提供了可能.

From Causal Discovery to Dynamic Causal Inference in Neural Time Series

Valentina Kuskova, Dmitry Zaytsev, Michael Coppedge

cs.LG cs.AI stat.AP stat.ML

本文提出了一个名为DCNAR的两阶段神经因果建模框架, 用于从多变量时间序列中进行动态因果推断. 该框架首先通过神经自回归因果发现模型学习稀疏有向因果网络, 然后将其作为结构先验用于时变神经网络自回归, 从而在结构不确定的情况下实现动态因果影响估计.

Joint Surrogate Learning of Objectives, Constraints, and Sensitivities for Efficient Multi-objective Optimization of Neural Dynamical Systems

Frithjof Gressmann et al.

cs.LG

本文提出了一种名为DMOSOPT的可扩展优化框架, 用于高效解决高维、多目标、带约束的优化问题, 特别是在计算神经科学领域. 该框架通过联合学习一个统一的代理模型来近似目标函数、约束条件及其敏感性, 从而在减少问题评估次数的同时实现有效的优化.

Interpreting the Synchronization Gap: The Hidden Mechanism Inside Diffusion Transformers

Emil Albrychiewicz et al.

cs.LG cond-mat.dis-nn cond-mat.stat-mech

本文研究了 Diffusion Transformers (DiTs) 中预测的 synchronization gap 现象。通过构建一个联合 token 序列和对称交叉注意力门，作者分析了注意力差异并验证了该 gap 是 DiTs 固有的、深度局部化的属性。

Structural Sensitivity in Compressed Transformers: Error Propagation, Lyapunov Stability, and Formally Verified Bounds

Abhinaba Basu

cs.LG cs.AI cs.CL cs.LO

本文研究了Transformer模型在压缩过程中的结构敏感性, 发现不同矩阵的压缩容忍度存在巨大差异, 并利用Lyapunov稳定性理论分析了误差传播机制. 研究通过形式化验证工具Lean 4为误差界限提供了机器检查的证明.

Long-Term Outlier Prediction Through Outlier Score Modeling

Yuma Aoki et al.

cs.LG cs.AI

本文提出了一种名为"长期异常值预测"的新问题设定, 旨在预测时间序列中未来的异常值, 而非仅进行即时检测. 该方法采用一个简单的无监督两层框架, 第一层进行标准异常检测, 第二层基于历史异常分数的时间结构进行预测. 在合成数据集上的实验表明, 该方法在检测和预测任务上均表现良好.

When Does Content-Based Routing Work? Representation Requirements for Selective Attention in Hybrid Sequence Models

Abhinaba Basu

cs.LG

本文探讨了混合循环-注意力架构中基于内容的路由所面临的悖论. 通过大量实验, 研究发现注意力机制的核心作用是将成对匹配结果写入表示, 而非仅仅进行计算.

CLT-Forge: A Scalable Library for Cross-Layer Transcoders and Attribution Graphs

Florent Draye et al.

cs.LG cs.CL

本文介绍了一个用于训练和分析Cross-Layer Transcoders (CLTs)的开源库，旨在提升大型语言模型(LLM)机制可解释性研究的可扩展性。该库整合了分布式训练、自动化特征分析以及可视化工具，为构建更紧凑的特征归因图提供了实用解决方案。

Deep Attention-based Sequential Ensemble Learning for BLE-Based Indoor Localization in Care Facilities

Minh Triet Pham, Quynh Chi Dang, Le Nhat Tan

cs.LG cs.HC

本文提出了一种用于护理设施中基于BLE的室内定位的深度注意力序列集成学习框架(DASEL). 该框架将定位问题重构为序列学习任务, 通过集成双向GRU网络与attention机制等方法, 在真实数据集上取得了比传统基线显著提升的性能.

Fuel Consumption Prediction: A Comparative Analysis of Machine Learning Paradigms

Ali Akram

cs.LG

本文对Motor Trend数据集进行了分析, 比较了Multiple Linear Regression, Support Vector Machines (SVM)和Logistic Regression等机器学习方法在预测车辆燃油消耗方面的表现. 研究发现SVM回归在连续值预测上最准确, 而Logistic Regression在分类任务上表现更优, 为使用可解释的经典模型处理静态物理数据集提供了依据.

Benchmarking Scientific Machine Learning Models for Air Quality Data

Khawja Imran Masud, Venkata Sai Rahul Unnam, Sahara Ali

cs.LG

本文通过引入基于EPA断点公式的物理约束损失函数, 对多种时间序列、机器学习和深度学习模型进行了基准测试, 以评估其在北德克萨斯地区多步长AQI预测中的性能. 实验表明, 深度学习模型表现更优, 而物理引导能提升预测稳定性并确保污染物浓度与AQI关系的物理一致性.

Confidence Freeze: Early Success Induces a Metastable Decoupling of Metacognition and Behaviour

Zhipeng Zhang, Hongshun He

cs.LG

本文通过多轮反转双臂老虎机任务, 提出了"信心冻结"假说, 认为早期的高成功率会导致行为与元认知信心的解耦, 表现为在长期失败后仍坚持原有策略.

Harmful Visual Content Manipulation Matters in Misinformation Detection Under Multimedia Scenarios

Bing Wang et al.

cs.LG cs.AI cs.MM

本文提出了一种名为HAVC-M4 D的多模态虚假信息检测方法。该方法通过弱监督方式学习视觉内容的篡改特征及其背后的意图特征（有害或无害），以增强检测性能。在多个数据集上的实验表明，该方法能有效提升现有模型的性能。

Semi-Supervised Learning with Balanced Deep Representation Distributions

Changchun Li et al.

cs.LG

本文针对半监督文本分类(SSTC)中伪标签准确率低的问题, 提出了一种名为S2TC-BDD的新方法. 该方法通过应用angular margin loss和进行高斯线性变换来平衡标签角度方差, 从而在标注数据稀缺时提升分类性能.

Mixture of Chapters: Scaling Learnt Memory in Transformers

Tasmay Pankaj Tibrewal et al.

cs.LG cs.AI cs.CL

本文提出了一种可学习的稀疏记忆库, 通过类似 Mixture-of-Experts 的分章路由机制来扩展 Transformer 的记忆容量. 实验表明, 该方法在同等计算量下优于标准 Transformer, 并显示出在持续训练中更好的知识保留能力.

ResPrune: Text-Conditioned Subspace Reconstruction for Visual Token Pruning in Large Vision-Language Models

Xu Li et al.

cs.LG

本文提出了一种名为ResPrune的训练无关视觉token剪枝框架，用于提升大型视觉语言模型(LVLM)的推理效率。该方法将剪枝问题转化为子空间重构问题，并通过基于残差能量的贪心策略选择信息丰富的视觉token子集，同时结合文本相关性进行跨模态对齐。实验表明，该方法能有效降低计算和内存开销，并在多个LVLM骨干网络上优于现有剪枝方法。

DMMRL: Disentangled Multi-Modal Representation Learning via Variational Autoencoders for Molecular Property Prediction

Long Xu et al.

cs.LG cs.AI

本文提出了一种基于变分自编码器的解耦多模态表示学习方法DMMRL, 用于分子性质预测. 该方法通过将分子表示解耦为共享和私有隐空间, 并利用门控注意力融合模块进行自适应集成, 在多个基准数据集上取得了优于现有方法的表现.

Learning from Label Proportions with Dual-proportion Constraints

Tianhao Ma et al.

cs.LG

本文提出了一种利用双重比例约束的LLP方法, 在训练中同时施加bag-level和instance-level的约束. 该方法通过最小费用最大流算法生成硬伪标签, 并在多个基准数据集上取得了优于先前方法的性能.

Beyond a Single Signal: SPECTREG2, A Unified MultiExpert Anomaly Detector for Unknown Unknowns

Rahul D Ray

cs.LG cs.CV

本文提出了一种名为SPECTRE-G2的多信号异常检测器，用于识别机器学习模型未知的未知样本。它通过融合来自双主干神经网络的多种互补信号，并在多个数据集上展示了优于基线方法的性能。

Model Evolution Under Zeroth-Order Optimization: A Neural Tangent Kernel Perspective

Chen Zhang et al.

cs.LG

本文从Neural Tangent Kernel (NTK)的视角出发，研究了在Zeroth-order (ZO)优化下神经网络的训练动态。作者引入了Neural Zeroth-order Kernel (NZK)来描述模型在函数空间中的演化，并在线性模型和线性化神经网络中分析了其性质。实验验证了理论结果，并展示了使用单一共享随机向量可能带来的加速效果。

Pruned Adaptation Modules: A Simple yet Strong Baseline for Continual Foundation Models

Elif Ceren Gok Yildirim, Murat Onur Yildirim, Joaquin Vanschoren

cs.LG

本文提出了一种名为Pruned Adaptation Modules (PAM)的简单方法, 用于持续学习. 该方法通过冻结预训练模型的大部分参数并引入稀疏的任务特定层来高效适应新任务, 在多个基准测试中表现优于一些基于基础模型的方法.

Rethinking Plasticity in Deep Reinforcement Learning

Zhiqiang He

cs.LG cs.AI

本文探讨了深度强化学习中可塑性丧失的根本机制, 提出了优化中心可塑性(OCP)假说, 认为可塑性丧失源于先前任务的最优点在新任务中成为不良局部最优, 从而阻碍学习. 通过理论证明神经元休眠与零梯度状态的等价性, 并实验验证了可塑性的任务特异性及参数约束的缓解作用.

Reward Sharpness-Aware Fine-Tuning for Diffusion Models

Kwanyoung Kim, Byeongsu Sim

cs.LG cs.AI

本文针对 diffusion models 在基于奖励的强化学习微调中容易出现的 reward hacking 问题, 提出通过利用鲁棒化奖励模型的梯度来缓解此问题. 该方法无需重新训练奖励模型, 通过参数扰动和样本扰动来平滑奖励景观, 从而提升生成结果的可靠性与感知质量.

Prompt replay: speeding up grpo with on-policy reuse of high-signal prompts

Andrei Baroian, Rutger Berger

cs.LG cs.AI

本文提出了一种名为Prompt Replay的在线数据选择方法，旨在加速GRPO（Group Relative Policy Optimization）训练。该方法通过重用高学习信号的prompt来减少计算开销，并在多个模型和数据集上验证了其能提升初始学习速度。

ALMAB-DC: Active Learning, Multi-Armed Bandits, and Distributed Computing for Sequential Experimental Design and Black-Box Optimization

Foo Hui-Mean, Yuan-chin I Chang

cs.LG stat.CO stat.ME stat.ML

本文提出了一种结合active learning, multi-armed bandits和分布式计算的序列实验设计框架ALMAB-DC，用于昂贵的黑盒优化问题。该方法在多个基准测试中表现出优于传统方法的性能，并通过分布式计算实现了显著的加速。

On the Role of Batch Size in Stochastic Conditional Gradient Methods

Rustem Islamov et al.

cs.LG math.OC stat.ML

本文研究了在$\mu$-KL条件下批量大小对随机条件梯度方法的影响。通过理论分析和实验验证，揭示了批量大小与优化性能之间的复杂关系，并提出了相应的参数选择指导原则。

Pretrained Video Models as Differentiable Physics Simulators for Urban Wind Flows

Janne Perini et al.

cs.LG cs.CE

本文提出了一种名为WinDiNet的预训练视频扩散模型, 用作城市风场快速可微分的替代模拟器. 该模型基于一个大型视频变换器进行微调, 能够在一秒内生成完整的流体动力学模拟序列, 并支持基于梯度的逆优化来改进城市布局设计.

Does Mechanistic Interpretability Transfer Across Data Modalities? A Cross-Domain Causal Circuit Analysis of Variational Autoencoders

Dip Roy et al.

cs.LG

本文研究了生成模型, 特别是变分自编码器(VAE)的机制可解释性在不同数据模态(图像与表格数据)间的可迁移性. 通过扩展因果干预框架并引入新的分析技术, 发现表格数据VAE的因果电路模块化程度显著低于图像VAE, 挑战了从图像研究中获得的架构指导可直接迁移至表格数据的常见假设.

Amortized Variational Inference for Logistic Regression with Missing Covariates

M. Cherifi et al.

cs.LG eess.SP

本文提出了一种用于处理协变量缺失的逻辑回归的摊销变分推断方法(AV-LR). 该方法通过一个端到端的框架, 联合估计回归参数和缺失机制, 在计算效率上优于传统的EM类算法.

Aggregation Alignment for Federated Learning with Mixture-of-Experts under Data Heterogeneity

Zihan Fang et al.

cs.LG cs.AI

本文针对数据异构环境下基于Mixture-of-Experts (MoE)的大型语言模型联邦微调问题，提出了FedAlign-MoE框架。该框架通过联合实施路由一致性和专家语义对齐，解决了聚合过程中的路由偏好分歧和专家语义模糊挑战。

Fusing Memory and Attention: A study on LSTM, Transformer and Hybrid Architectures for Symbolic Music Generation

Soudeep Ghoshal et al.

cs.LG cs.AI cs.SD

本文对LSTM和Transformer在符号音乐生成中的表现进行了系统比较, 发现LSTM擅长捕捉局部模式而Transformer擅长建模全局结构. 基于此, 作者提出了一种结合Transformer编码器和LSTM解码器的混合架构, 实验表明该架构在局部连续性和全局连贯性上均优于基线模型.

Sonny: Breaking the Compute Wall in Medium-Range Weather Forecasting

Minjong Cheon

cs.LG cs.AI cs.CV physics.ao-ph

本文提出了一种名为Sonny的高效分层transformer模型, 用于中等范围天气预报. 该模型通过两阶段的StepsNet设计(窄慢路径与全宽快路径)和训练中的指数移动平均(EMA)技术, 在有限计算资源下实现了与业务数值系统相竞争的预报技巧.

Direct Interval Propagation Methods using Neural-Network Surrogates for Uncertainty Quantification in Physical Systems Surrogate Model

Ghifari Adam Faza et al.

cs.LG

本文提出了一种使用神经网络代理模型进行直接区间传播的方法, 用于物理系统中的不确定性量化. 它将区间传播重新表述为区间值回归问题, 并比较了多种神经网络架构, 在保持估计准确性的同时显著提升了计算效率.

FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models

Fabien Polly

cs.LG

本文提出了一种基于reaction-diffusion PDE（偏微分方程）的预测模型FluidWorld，用于替代Transformer或ConvLSTM进行世界建模。在视频预测任务中，该模型在参数效率和多步预测的稳定性上展现出优势。

Stream separation improves Bregman conditioning in transformers

James Clayton Kerce

cs.LG

本文研究了transformer中间层表示空间的Bregman几何结构。通过实验发现，标准的单流transformer中间层的Hessian矩阵是严重退化的，而流分离（stream separation）技术能显著改善其条件数。

Active Inference Agency Formalization, Metrics, and Convergence Assessments

Eduard Kapelko

cs.LG

本文为AI安全中的mesa-optimization问题提供了一个关于agency的形式化定义与分析框架。该框架基于active inference，将agency定义为一种在好奇心与赋能之间达成动态平衡的连续经验表征，并引入了在STARC空间中度量系统行为与理想agentic函数距离的指标。

AutoKernel: Autonomous GPU Kernel Optimization via Iterative Agent-Driven Search

Jaber Jaber, Osama Jaber

cs.LG cs.PF

本文提出了一个名为AutoKernel的自动化框架，用于优化GPU内核。它通过一个自主代理循环来分析和改进PyTorch模型中的计算瓶颈，并在多个基准测试中展示了显著的性能提升。

The Workload-Router-Pool Architecture for LLM Inference Optimization: A Vision Paper from the vLLM Semantic Router Project

Huamin Chen et al.

cs.LG cs.DC

本文提出了一个名为 Workload-Router-Pool (WRP) 的三维架构框架，用于优化大型语言模型 (LLM) 的推理过程。该框架整合了作者团队在 vLLM Semantic Router 项目中的一系列先前工作，并基于此指出了多个未来的研究方向。

TIDE: Token-Informed Depth Execution for Per-Token Early Exit in LLM Inference

Jaber Jaber, Osama Jaber

cs.LG cs.CL

本文提出了一种名为TIDE的后训练系统, 通过在模型的周期性检查点层附加小型学习路由器, 为每个token选择其隐藏状态已收敛的最早层进行提前退出, 从而加速LLM推理. 该系统无需重新训练模型, 支持多种精度和GPU架构, 在多个模型上实现了显著的延迟降低和吞吐量提升.

PLR: Plackett-Luce for Reordering In-Context Learning Examples

Pawel Batorski, Paul Swoboda

cs.LG cs.CL

本文提出了一种名为PLR的概率方法, 用于优化in-context learning中示例的顺序. 该方法使用Plackett-Luce模型学习排序的概率分布, 并通过采样高效地寻找高性能的排序, 在多个分类和数学推理任务上提升了少样本学习的准确率.

Constrained Online Convex Optimization with Memory and Predictions

Mohammed Abdullah et al.

cs.LG stat.ML

本文研究了带有记忆和预测的约束在线凸优化问题, 提出了一种自适应惩罚算法和一种利用预测的乐观算法, 在时变约束下实现了次线性的遗憾和约束违反.

A Generalised Exponentiated Gradient Approach to Enhance Fairness in Binary and Multi-class Classification Tasks

Maryam Boubekraoui, Giordano d'Aloisio, Antinisca Di Marco

cs.LG stat.ML

本文提出了一种广义指数梯度算法来处理多类别分类中的公平性问题. 该算法通过多目标优化来平衡预测准确性和多种公平性约束, 并在多个数据集上进行了实验验证.

Mechanisms of Introspective Awareness

Uzay Macar et al.

cs.LG

本文研究了大型语言模型中"内省意识"现象的机制, 探讨了模型检测残差流中注入的steering vectors的能力是源于真正的内省电路还是更浅层的启发式方法. 通过实验发现, 这种内省能力在行为上是鲁棒的, 并且主要源于post-training阶段而非pretraining阶段.

DSPA: Dynamic SAE Steering for Data-Efficient Preference Alignment

James Wedgwood et al.

cs.LG cs.AI cs.CL

本文提出了一种名为DSPA的推理时方法，用于实现偏好对齐。该方法通过条件差分映射修改稀疏自编码器的激活，无需更新模型权重，在多个基准测试中取得了有竞争力的结果，并显著减少了计算开销。

Off-Policy Evaluation for Ranking Policies under Deterministic Logging Policies

Koichi Tanaka et al.

cs.LG

本文针对确定性日志策略下的排序策略离线评估问题, 提出了一种基于点击行为的逆倾向得分估计器. 该方法利用用户点击行为的内在随机性进行重要性加权, 在完全确定性的日志策略下实现了比现有方法更低的估计偏差.

Learning Can Converge Stably to the Wrong Belief under Latent Reliability

Zhipeng Zhang et al.

cs.LG

本文探讨了在反馈可靠性不可观测时, 学习系统可能稳定收敛到错误信念的问题. 作者提出了一个Monitor-Trust-Regulator框架, 通过从学习动态中推断可靠性来调节更新, 从而减少偏差积累.

Multinoulli Extension: A Lossless Continuous Relaxation for Partition-Constrained Subset Selection

Qixin Zhang et al.

cs.LG math.OC

本文提出了一种名为 Multinoulli Extension (ME) 的连续松弛框架，用于解决带分区约束的子集选择问题。基于此框架，作者设计了 Multinoulli-SCG 算法，该算法无需参数且能以更少的函数评估达到与传统方法相同的近似保证。此外，文章还将该框架扩展到了在线学习场景。

Quotient Geometry, Effective Curvature, and Implicit Bias in Simple Shallow Neural Networks

Hang-Cheng Dong, Pengcheng Cheng

cs.LG cs.AI

本文为浅层神经网络建立了一个商几何框架, 通过模掉参数对称性来研究其内在几何。作者定义了商流形上的自然度量和有效曲率, 并分析了梯度流在商空间上的动力学。研究表明, 在商坐标下能更自然地描述欠定情况下的隐式偏差。

Optimizing Feature Extraction for On-device Model Inference with User Behavior Sequences

Chen Gong et al.

cs.LG cs.AI cs.HC

本文提出了一种名为AutoFeature的自动化特征提取引擎, 旨在优化移动设备上模型推理的特征提取过程. 通过图抽象, 图优化和高效缓存等核心设计, 该系统减少了端到端模型执行延迟, 并在多个工业移动服务中进行了验证.

BOxCrete: A Bayesian Optimization Open-Source AI Model for Concrete Strength Forecasting and Mix Optimization

Bayezid Baten et al.

cs.LG cs.AI

本文提出了一个名为BOxCrete的开源贝叶斯优化框架，用于预测混凝土强度并优化其配合比。该模型基于高斯过程回归，在一个包含500多个测量值的新开源数据集上进行了训练，能够量化不确定性并进行多目标优化。

Generalization Limits of In-Context Operator Networks for Higher-Order Partial Differential Equations

Jamie Mahowald, Tan Bui-Thanh

cs.LG math.NA

本文研究了In-Context Operator Networks (ICONs)在处理高阶偏微分方程时的泛化能力。结果表明，尽管点态精度有所下降，但模型在捕捉解的动态和整体行为上保持了定性准确。

Sharper Generalization Bounds for Transformer

Yawen Li et al.

cs.LG cs.AI

本文基于 offset Rademacher complexity 为不同架构的 Transformer 模型推导了更紧致的泛化误差界. 通过将超额风险与假设空间的覆盖数相联系, 并利用矩阵秩和范数来界定这些覆盖数, 得到了依赖于具体架构的精确泛化界, 并将结果推广到了无界特征和重尾分布的情形.

What Do World Models Learn in RL? Probing Latent Representations in Learned Environment Simulators

Xinyu Zhang

cs.LG cs.AI

本文对两种不同架构的world models（IRIS和DIAMOND）的内部表征进行了可解释性分析。研究发现，这些模型学习到的游戏状态表征是近似线性的，并且这些表征在模型的功能中得到了实际使用。

Kolmogorov Complexity Bounds for LLM Steganography and a Perplexity-Based Detection Proxy

Andrii Shportko

cs.LG

本文研究了利用大型语言模型进行隐写术的信息论成本, 证明了在保持语义的前提下嵌入负载会导致stegotext的Kolmogorov复杂度增加. 由于Kolmogorov复杂度不可计算, 作者提出使用语言模型的perplexity作为检测代理, 并通过初步实验验证了理论预测.

SSAM: Singular Subspace Alignment for Merging Multimodal Large Language Models

Md Kaykobad Reza et al.

cs.LG cs.CV

本文提出了一种无需训练的模型融合框架SSAM, 用于合并不同模态的预训练大语言模型. 该方法通过识别并对齐参数空间中的低秩子空间来实现多模态能力的统一, 在多个数据集上取得了先进的性能.

In-network Attack Detection with Federated Deep Learning in IoT Networks: Real Implementation and Analysis

Devashish Chaudhary et al.

cs.LG cs.CR

本文提出了一种基于轻量级autoencoder和federated learning的异常检测框架，用于资源受限的IoT设备。该方法在真实IoT测试平台上实现，能在减少通信开销的同时有效检测网络攻击。

Riemannian Geometry Speaks Louder Than Words: From Graph Foundation Model to Next-Generation Graph Intelligence

Philip S. Yu, Li Sun

cs.LG cs.AI

本文提出了一种基于Riemannian geometry的图基础模型(RFM)新构想, 旨在克服现有图神经网络(GNNs)和大语言模型(LLMs)在处理图结构数据时的局限性. 作者认为Riemannian几何为建模图的内在结构提供了一个优雅的数学框架, 并概述了从通用结构理解到构建具有Riemannian引擎的LLM的渐进式研究议程.

mSFT: Addressing Dataset Mixtures Overfiting Heterogeneously in Multi-task SFT

Woosung Koh et al.

cs.LG cs.AI

本文提出了一种名为mSFT的迭代算法, 用于优化多任务监督微调(SFT)中的数据混合比例. 该方法通过动态识别和排除过拟合的子数据集来调整训练过程, 在多个基准测试中展现了稳定的性能提升.

Rule-State Inference (RSI): A Bayesian Framework for Compliance Monitoring in Rule-Governed Domains

Abdou-Raouf Atarmla

cs.LG cs.AI stat.ML

本文提出了一种名为Rule-State Inference (RSI)的贝叶斯框架，用于规则治理领域（如税务合规）的监控。该框架将已知的权威规则编码为结构化先验，并将合规监控问题转化为对潜在规则状态的后验推断。实验在一个基于多哥财政系统的合成基准上进行，展示了其在无标签数据下的性能以及快速适应规则变化的能力。

Towards Multimodal Time Series Anomaly Detection with Semantic Alignment and Condensed Interaction

Shiyan Hu et al.

cs.LG

本文提出了一种名为MindTS的多模态时间序列异常检测模型, 旨在解决异构模态间的语义对齐与冗余信息过滤问题. 模型通过细粒度时序-文本语义对齐和内容浓缩重建来实现这些目标, 并在多个真实数据集上验证了其有效性.

Proximal Policy Optimization in Path Space: A Schrödinger Bridge Perspective

Yuehu Gong et al.

cs.LG

本文从 Generalized Schrödinger Bridge (GSB) 的视角出发，提出了 GSB-PPO 框架，将 PPO (Proximal Policy Optimization) 从动作空间提升到路径（轨迹）空间。该框架为基于扩散或流的生成式策略的 on-policy 优化提供了统一视角，并提出了两种具体目标函数。实验表明，基于惩罚项的目标函数比基于裁剪的目标函数具有更好的稳定性和性能。

MISApp: Multi-Hop Intent-Aware Session Graph Learning for Next App Prediction

Yunchi Yang et al.

cs.LG

本文提出了一种基于多跳会话图学习的无用户画像框架MISApp, 用于预测用户下一步将启动的移动应用. 该方法通过构建多跳会话图来捕获不同结构范围的转移依赖, 并结合时空上下文与意图演化进行学习, 在标准与冷启动场景下均取得了优于基线模型的效果.

TrustFed: Enabling Trustworthy Medical AI under Data Privacy Constraints

Vagish Kumar, Syed Bahauddin Alam, Souvik Chakraborty

cs.LG cs.CY

本文提出了一个名为TrustFed的联邦学习框架, 旨在解决医疗AI中数据隐私约束下的模型可信度问题. 该框架通过表示感知的客户端分配和软最近邻阈值聚合策略, 在非独立同分布且类别不平衡的医疗数据上提供分布无关的有限样本覆盖保证.

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization

Hung-Hsuan Chen

cs.LG cs.AI cs.CL

本文提出了一种深度循环Transformer架构, 通过共享权重的Transformer块在隐空间中进行迭代计算, 将计算深度与参数量解耦. 该方法在三个需要组合推理的任务上进行了评估, 展示了计算步骤与任务复杂度匹配时的性能跃迁.

Data-Free Layer-Adaptive Merging via Fisher Information for Long-to-Short Reasoning LLMs

Tian Xia

cs.LG

本文提出了一种无需数据的层自适应模型合并方法FIM-Merging, 用于长链思维到短链思维推理的LLM场景. 该方法基于理论分析, 使用Fisher信息矩阵作为层合并系数的代理, 在多个基准测试上取得了优于现有方法的性能, 并减少了输出长度.

When Exploration Comes for Free with Mixture-Greedy: Do we need UCB in Diversity-Aware Multi-Armed Bandits?

Bahar Dibaei Nia, Farzan Farnia

cs.LG cs.AI cs.CV

本文研究了多样性感知的多臂老虎机问题, 用于生成模型选择. 通过实验和理论分析, 作者发现简单的 Mixture-Greedy 策略在没有显式 UCB 探索奖励的情况下, 其性能优于包含 UCB 的方法, 这表明在某些多样性目标下, 探索可以内在地从目标函数的几何结构中产生.

Uncertainty Quantification for Distribution-to-Distribution Flow Matching in Scientific Imaging

Dongxia Wu et al.

cs.LG

本文提出了一种用于分布到分布生成模型的不确定性量化框架, 结合了随机流匹配和一种可扩展的贝叶斯方法. 在细胞成像和脑fMRI数据上的实验表明, 该方法能同时提升模型的可靠性和可问责性.

FISformer: Replacing Self-Attention with a Fuzzy Inference System in Transformer Models for Time Series Forecasting

Bulent Haznedar, Levent Karacan

cs.LG cs.AI

本文提出了一种名为FISFormer的新型Transformer架构，用于时间序列预测。它用模糊推理系统(Fuzzy Inference System)替代了传统的自注意力机制，旨在更好地建模不确定性和非线性依赖关系。

CellFluxRL: Biologically-Constrained Virtual Cell Modeling via Reinforcement Learning

Dongxia Wu et al.

cs.LG q-bio.QM

本文提出了一种利用强化学习对虚拟细胞生成模型进行后训练的方法, 通过引入基于生物功能的评估器作为奖励函数来约束生成结果. 该方法在CellFlux模型的基础上进行优化, 得到的CellFluxRL模型在多个生物合理性指标上均取得了提升.

Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors

Yuze Qin et al.

cs.LG cs.AI

本文提出了一种名为PW-FouCast的降水临近预报新框架，通过将天气基础模型的预测作为谱先验，在傅里叶域融合雷达观测数据。该方法旨在解决雷达模型因缺乏大尺度气象背景而导致长期预报性能下降的问题。

Show Me What You Don't Know: Efficient Sampling from Invariant Sets for Model Validation

Armand Rousselot, Joran Wendebourg, Ullrich Köthe

cs.LG

本文提出了一种无需训练即可从特征提取器的invariant sets中采样的方法, 用于模型验证. 该方法利用预训练的diffusion或flow-matching模型作为先验, 通过引导生成过程来可视化特征的不变性.

CoRA: Boosting Time Series Foundation Models for Multivariate Forecasting through Correlation-aware Adapter

Hanyin Cheng et al.

cs.LG cs.AI

本文提出了一种用于多元时间序列预测的轻量级插件方法 CoRA, 通过分解相关矩阵为时变和时不变的低秩分量来捕获不同类型的通道间相关性, 并设计了双对比学习来识别正负相关. 实验表明该方法能有效提升基础模型的预测性能.

Deriving Health Metrics from the Photoplethysmogram: Benchmarks and Insights from MIMIC-III-Ext-PPG

Mohammad Moulaeifard et al.

cs.LG eess.SP

本文利用MIMIC-III-Ext-PPG数据集，为基于PPG信号的临床预测任务建立了多任务基准。研究评估了深度学习模型在心律分类和生理参数回归上的性能，并分析了不同临床亚组间的表现差异。

On the Number of Conditional Independence Tests in Constraint-based Causal Discovery

Marc Franquesa Monés, Jiaqi Zhang, Caroline Uhler

cs.LG cs.AI stat.ME stat.ML

本文研究了基于约束的因果发现方法中条件独立性测试的数量问题. 作者提出了一种新算法, 其测试复杂度为$p^{\mathcal{O}(s)}$, 其中$p$是节点数, $s$是底层essential graph的最大无向团大小, 并证明了该复杂度在指数意义下是最优的.

Holistic Scaling Laws for Optimal Mixture-of-Experts Architecture Optimization

Weilin Wan et al.

cs.LG

本文提出了一个用于优化 Mixture-of-Experts (MoE) 模型架构的整体可重用框架。该框架通过建立 FLOPs per token、active parameters 和 total parameters 的联合约束，将高维架构搜索空间简化为两个低维阶段，从而为任意计算预算生成完整的、接近最优的 MoE 架构配置。

P^2O: Joint Policy and Prompt Optimization

Xinyu Lu et al.

cs.LG cs.AI

本文提出了一种结合提示优化与策略优化的新框架P^2O, 旨在解决强化学习与可验证奖励(RLVR)中探索效率低下的问题. 该方法通过优化提示来引导模型处理困难样本, 并将由此获得的推理收益提炼到模型参数中, 从而加速收敛并提升泛化能力.

SmaAT-QMix-UNet: A Parameter-Efficient Vector-Quantized UNet for Precipitation Nowcasting

Nikolas Stavrou, Siamak Mehrkanoon

cs.LG cs.AI

本文提出了一种用于降水临近预报的参数高效模型 SmaAT-QMix-UNet. 它在 SmaAT-UNet 的基础上引入了向量量化 (VQ) 瓶颈和混合核深度卷积 (MixConv), 以减小模型规模并提升预报性能.

SparseDVFS: Sparse-Aware DVFS for Energy-Efficient Edge Inference

Ziyang Zhang et al.

cs.LG

本文提出了一种面向边缘设备上深度神经网络推理的细粒度、稀疏感知的DVFS节能框架SparseDVFS. 它通过区分计算密集型和内存稀疏型算子, 并利用离线建模与运行时图分区等技术来克服硬件切换开销, 实现了显著的能效提升.

Deep Reinforcement Learning and The Tale of Two Temporal Difference Errors

Juan Sebastian Rojas, Chi-Guhn Lee

cs.LG cs.AI

本文指出 temporal difference (TD) error 在强化学习文献中的两种常见解释（连续预测之差与自举目标与预测之差）在深度非线性架构下并不等价。研究通过实验展示了这种差异如何影响深度差分强化学习等方法的性能。

Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe

Xixi Wu et al.

cs.LG cs.CL

本文通过系统性的实证研究, 在需要工具编排的复杂多轮环境TravelPlanner中, 分解了智能体强化学习的设计空间. 研究得出了关于奖励设计、模型规模和数据构成等关键因素的经验性结论, 并基于此实现了领先的性能.

BOOST-RPF: Boosted Sequential Trees for Radial Power Flow

Ehimare Okoyomon, Christoph Goebel

cs.LG eess.SY

本文提出了一种用于径向配电网潮流分析的新方法BOOST-RPF, 它将电压预测问题重构为基于路径的序列学习任务. 该方法利用梯度提升决策树(XGBoost)建模局部电压降规律, 在标准精度和泛化任务上优于分析和神经网络基线, 并显示出线性的计算复杂度.

TREX: Trajectory Explanations for Multi-Objective Reinforcement Learning

Dilina Rajapakse, Juan C. Rosero, Ivana Dusparic

cs.LG cs.AI

本文提出了一个名为TREX的轨迹解释框架，用于解释多目标强化学习(MORL)策略。该框架通过生成专家策略轨迹、进行聚类分析，并训练互补策略来量化不同行为片段对Pareto权衡的影响。

λ-GELU: Learning Gating Hardness for Controlled ReLU-ization in Deep Networks

Cristian Pérez-Corral et al.

cs.LG cs.AI

本文提出了一种参数化的GELU激活函数变体$\lambda$-GELU，其通过参数$\lambda$控制门控的“硬度”，旨在为平滑的GELU训练提供一个可控的路径，以最终获得与ReLU兼容的模型。作者引入了参数重参数化和优化器感知的更新方案来解决学习$\lambda$的困难，并在多种模型和数据集上验证了方法的有效性，展示了如何将训练好的$\lambda$-GELU逐步硬化并替换为ReLU。

CRPS-Optimal Binning for Conformal Regression

Paolo Toccaceli

cs.LG stat.ML

本文提出了一种基于分箱的非参数条件分布估计方法, 通过最小化留一连续分级概率分数(LOO-CRPS)来选择箱的边界, 并使用动态规划寻找全局最优划分. 该方法还结合了Venn预测带和基于CRPS的共形预测集, 在保持接近名义覆盖率的同时, 能产生更窄的预测区间.

ROM: Real-time Overthinking Mitigation via Streaming Detection and Intervention

Xinyan Wang, Xiaogeng Liu, Chaowei Xiao

cs.LG cs.AI cs.CL

本文提出了一种名为ROM的实时方法, 用于缓解大型推理模型(LRMs)在生成思维链(Chain-of-Thought)时的过度思考(overthinking)问题. 该方法将问题建模为流式预测与控制, 通过一个轻量级的检测头实时监控模型输出, 并在检测到过度思考时提前终止推理过程, 从而显著降低延迟和计算成本.

AdditiveLLM2: A Multi-modal Large Language Model for Additive Manufacturing

Peter Pak, Amir Barati Farimani

cs.LG

本文提出了一个面向增材制造领域的多模态大语言模型 AdditiveLLM2. 该模型基于 Gemma 3 的指令调优变体, 使用约 5000 万 token 的领域数据进行适应性预训练和视觉指令调优, 并在特定基准测试中取得了良好性能.

Do Papers Match Code? A Benchmark and Framework for Paper-Code Consistency Detection in Bioinformatics Software

Tianxiang Xu et al.

cs.LG cs.SE

本文提出了一个名为"paper-code consistency detection"的新任务, 并构建了首个针对生物信息学领域的基准数据集BioCon. 作者进一步设计了一个跨模态一致性检测框架, 该框架利用预训练模型来建模论文文本与代码之间的语义关系, 实验表明该框架能有效识别两者间的一致性.

On the Interplay of Priors and Overparametrization in Bayesian Neural Network Posteriors

Julius Kobialka et al.

cs.LG stat.ML

本文研究了过参数化(overparametrization)和先验(priors)如何共同重塑贝叶斯神经网络(BNN)的后验分布(posterior). 作者通过理论分析和大量实验, 揭示了冗余参数引入的三个关键现象, 并展示了过参数化如何诱导出与先验对齐的结构化权重后验分布.

On the Failure of Topic-Matched Contrast Baselines in Multi-Directional Refusal Abliteration

Valentin Petrov

cs.LG cs.AI

本文探讨了在语言模型的 refusal abliteration 中，使用主题匹配的对比基线是否优于不匹配的基线。研究发现，主题匹配的基线无法产生有效的 refusal 方向，几何分析表明这是因为主题匹配的减法抵消了有害与无害提示间共享的主要激活成分。

MIHT: A Hoeffding Tree for Time Series Classification using Multiple Instance Learning

Aurora Esteban, Amelia Zafra, Sebastián Ventura

cs.LG

本文提出了一种基于多示例学习(Multiple Instance Learning)的Hoeffding Tree算法MIHT, 用于处理多变量和变长的时间序列分类问题. 该方法将时间序列表示为"子序列包", 并通过增量决策树优化过程来区分序列中的相关部分与噪声, 在多个公开数据集上取得了优于现有方法的效果.

On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation

Kexin Huang et al.

cs.LG cs.AI

本文探讨了RLVR（Reinforcement Learning with Verifiable Rewards）更新中方向的重要性，提出了基于对数概率差$\Delta\log p$的分析方法。研究展示了该方法在识别关键推理更新上的优势，并提出了无需额外训练即可提升推理准确性的测试时外推方法。

Computationally lightweight classifiers with frequentist bounds on predictions

Shreeram Murali, Cristian R. Rojas, Dominik Baumann

cs.LG stat.ML

本文提出了一种基于Nadaraya-Watson估计器的计算高效分类算法，并为其预测推导了频率学不确定性区间。该方法在保持高准确率的同时，实现了线性和对数级的时间复杂度，并提供了可用于标记低置信度预测的不确定性边界，适用于资源受限的实时环境。

dynActivation: A Trainable Activation Family for Adaptive Nonlinearity

Alois Bachmann

cs.LG cs.CV

本文提出了一种名为$\mathrm{dynActivation}$的可训练激活函数族，其形式为$f_i(x) = \mathrm{BaseAct}(x)(\alpha_i - \beta_i) + \beta_i x$，通过学习标量参数在基础非线性函数与线性路径之间插值。实验表明，该方法在多种视觉和语言任务中能有效线性化深层网络并提升训练效率。

RAMPAGE: RAndomized Mid-Point for debiAsed Gradient Extrapolation

Abolfazl Hashemi

cs.LG math.OC

本文针对Variational Inequalities问题, 指出经典的Extragradient方法在应用于非线性向量场时可能存在离散化偏差. 为此, 作者提出了RAMPAGE及其方差缩减版本RAMPAGE+方法, 它们是无偏的. 文章证明了这些方法在包括co-coercive等条件下具有$\mathcal{O}(1/k)$的收敛保证, 并扩展到了约束问题和博弈场景.

Multimodal Survival Analysis with Locally Deployable Large Language Models

Moritz Gögl, Christopher Yau

cs.LG cs.AI

本文提出了一种利用本地可部署大型语言模型进行多模态生存分析的方法, 整合了临床文本、表格协变量和基因组数据. 该方法通过师生蒸馏和多模态融合技术, 在避免依赖云服务的同时, 在TCGA队列上取得了优于基准模型的表现.

Causal Evidence that Language Models use Confidence to Drive Behavior

Dharshan Kumaran et al.

cs.LG

本文研究了大型语言模型(LLM)是否利用内部置信度估计来调节其行为。通过一个包含四个阶段的弃权实验，作者发现置信度是行为的主要预测因子，并能通过激活引导进行因果性操控。

Calibeating Made Simple

Yurong Chen et al.

cs.LG cs.AI cs.GT econ.TH

本文通过将calibeating问题转化为已有的在线学习技术, 为一般的proper loss建立了分析框架. 该工作统一并推广了先前针对特定损失函数的结果, 得到了mixable loss和有界loss的最优calibeating rate.

Revisiting Quantum Code Generation: Where Should Domain Knowledge Live?

Oscar Novo et al.

cs.LG quant-ph

本文研究了在量子软件开发的快速演进生态系统中, 如何将领域知识整合到基于LLM的代码生成助手. 通过比较针对Qiskit的微调模型与采用RAG和基于agent的执行反馈的通用LLM, 发现后者在Qiskit-HumanEval基准上表现更优, 表明无需领域特定微调即可通过推理时增强实现性能提升.

Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs

Kangqi Ni et al.

cs.LG

本文提出了一个面向异构LLM集群的多智能体工作流服务系统Chimera, 该系统通过语义路由、剩余输出长度预测和负载均衡等技术, 旨在联合优化端到端延迟和任务性能. 实验表明, 在代码生成和数学推理等任务上, Chimera相比现有基线在延迟和性能方面均有提升.

SPA: A Simple but Tough-to-Beat Baseline for Knowledge Injection

Kexian Tang et al.

cs.LG cs.AI cs.CL

本文提出了一种名为SPA的简单基线方法, 用于通过精心设计的提示词生成大规模合成数据, 以向大型语言模型注入知识. 实验表明, 该方法在知识注入任务上优于多个基线, 并揭示了现有方法在数据规模扩大时可能面临多样性崩溃等局限性.

Noise Titration: Exact Distributional Benchmarking for Probabilistic Time Series Forecasting

Qilin Wang

cs.LG stat.ML

本文提出了一种基于干预和精确统计的时间序列预测评估新范式, 通过向已知动力系统注入校准的高斯观测噪声, 将预测任务转化为精确的分布推断问题. 在此框架下, 作者扩展了Fern架构, 使其能原生参数化SPD锥以输出联合协方差结构, 并发现现有大型零样本模型在非平稳和噪声场景下存在系统性失效.

Confidence-Based Decoding is Provably Efficient for Diffusion Language Models

Changxiao Cai, Gen Li

cs.LG cs.AI cs.IT stat.ML

本文为Diffusion Language Models中的confidence-based decoding策略提供了首个理论分析框架. 作者证明了一种基于熵和的解码策略能以$\widetilde O(H(X_0)/\varepsilon)$的期望迭代次数实现$\varepsilon$-准确的采样, 在数据分布熵较低时能显著加速.

Decoupling Exploration and Policy Optimization: Uncertainty Guided Tree Search for Hard Exploration

Zakaria Mhammedi, James Cohan

cs.LG

本文提出了一种将探索(exploration)与策略优化(policy optimization)解耦的新范式, 在探索阶段绕过强化学习(RL). 该方法使用基于epistemic uncertainty的树搜索(tree search)策略来高效探索, 并在多个hard exploration任务上展示了优越性能.

Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels

Alexandra Zelenin, Alexandra Zhuravlyova

cs.LG stat.ML

本文提出了一种名为Scaling DoRA的高效系统实现方法, 通过分解范数计算和融合kernel来优化DoRA (Weight-Decomposed Low-Rank Adaptation) 的前向传播过程. 该方法显著降低了内存占用和计算开销, 在多个视觉语言模型和GPU架构上验证了其速度和内存效率的提升, 同时保持了与原实现相当的数值精度.

cs.AI

The Library Theorem: How External Organization Governs Agentic Reasoning Capacity ⭐ 精选

Zachary F. Mainen

cs.AI cs.CL cs.DS cs.LG

本文提出了"Library Theorem", 形式化地将transformer的context window视为I/O page, 并证明了配备索引化外部记忆的工具增强智能体在检索成本上相比仅能顺序扫描的智能体具有指数级优势. 理论分析表明, 每次查询的页面读取成本从$\Omega(N)$降至$O(\log_b N)$, 而$T$步推理的累计成本从$\Theta(T^2)$降至$O(T \log_b T)$. 实验在可控的查找基准上进行, 验证了索引代理在抽象内容上能达到$O(1)$性能, 并揭示了在熟悉内容上, 模型会绕过检索协议直接利用参数化记忆作答, 这论证了应将索引构建(利用语言模型的语义理解)与索引遍历(使用确定性算法)分离的设计原则.

AgenticGEO: A Self-Evolving Agentic System for Generative Engine Optimization

Jiaqi Yuan et al.

cs.AI cs.CL cs.LG cs.NE

本文提出了一个名为AgenticGEO的自进化智能体框架，用于优化生成式搜索引擎中的内容可见性。该框架通过进化算法和协同演化的轻量级评估器来生成和选择策略，以减少对搜索引擎反馈的依赖。实验表明，该方法在多个数据集上超越了现有基线。

ProMAS: Proactive Error Forecasting for Multi-Agent Systems Using Markov Transition Dynamics

Xinkui Zhao et al.

cs.AI

本文提出了一种名为PROMAS的框架, 用于对基于大型语言模型的多智能体系统进行主动错误预测. 该方法利用Markov转移动力学对推理过程进行建模, 并通过风险加速而非静态阈值来定位错误, 从而在降低数据开销的同时实现实时干预.

Domain-Specialized Tree of Thought through Plug-and-Play Predictors

Xuanqi Gao et al.

cs.AI

本文提出了一种名为DST的轻量级、可插拔的预测器，用于改进Tree of Thoughts框架。该方法通过动态剪枝在保持推理准确性的同时，显著降低了计算开销。实验表明，该方法在多个推理基准上取得了与基线相当或更好的性能，并大幅提升了效率。

FactorSmith: Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement

Ali Shamsaddinlou, Morteza NourelahiAlamdari

cs.AI

本文提出了FactorSmith框架, 用于从自然语言描述生成可执行的游戏模拟代码. 它结合了基于factored POMDP的分解来减少上下文, 以及一个planner-designer-critic的智能体工作流来进行迭代质量优化.

Me, Myself, and $π$ : Evaluating and Explaining LLM Introspection

Atharv Naphade et al.

cs.AI

本文提出了一个形式化的框架来评估大语言模型(LLM)的内省能力, 并引入了Introspect-Bench测试套件. 研究发现前沿模型在预测自身行为方面表现出优势, 并提供了关于内省机制如何通过attention扩散形成的因果解释.

AgentComm-Bench: Stress-Testing Cooperative Embodied AI Under Latency, Packet Loss, and Bandwidth Collapse

Aayam Bansal, Ishaan Gangwani

cs.AI

本文提出了一个名为AgentComm-Bench的基准测试套件，用于系统评估协作具身AI在六种通信受损条件下的性能。实验表明，通信依赖的任务在延迟、丢包和带宽崩溃等条件下性能会急剧下降，而所提出的冗余消息编码方法能有效缓解部分问题。

LLM-Enhanced Energy Contrastive Learning for Out-of-Distribution Detection in Text-Attributed Graphs

Xiaoxu Ma et al.

cs.AI

本文提出了一种名为LECT的方法, 用于处理text-attributed graphs中的out-of-distribution (OOD)节点检测问题. 该方法结合了large language models (LLMs)来生成伪OOD节点样本, 并利用基于energy function的contrastive learning来区分in-distribution和OOD节点. 在多个基准数据集上的实验表明, 该方法在节点分类和OOD检测方面优于现有基线.

Compression is all you need: Modeling Mathematics

Vitaly Aksenov et al.

cs.AI math.LO

本文通过monoid模型探讨了人类数学(HM)与形式数学(FM)的区别, 认为HM的特征在于其可通过分层嵌套的定义和定理进行压缩. 作者以Lean 4数学库MathLib为数据, 发现其展开长度随深度呈指数增长, 这与自由阿贝尔monoid $A_n$的模型预测一致, 而与自由非阿贝尔monoid $F_n$不符, 支持HM是FM中一个多项式增长子集的观点. 文章还讨论了如何利用压缩性和依赖图分析来量化数学兴趣并指导自动推理.

Leveraging Natural Language Processing and Machine Learning for Evidence-Based Food Security Policy Decision-Making in Data-Scarce Making

Karan Kumar Singh, Nikita Gajbhiye

cs.AI

本文提出了一个名为 ZeroHungerAI 的集成框架，它结合了 NLP 和 ML 技术，旨在解决数据稀缺地区的粮食安全政策制定问题。该框架通过迁移学习和公平性优化，在预测性能和减少人口统计偏差方面取得了良好效果。

Deep reflective reasoning in interdependence constrained structured data extraction from clinical notes for digital health

Jingwei Huang et al.

cs.AI

本文提出了一种名为深度反思推理的大语言模型智能体框架, 用于从临床文本中提取具有相互依赖关系的结构化数据. 该方法通过迭代式的自我批判和修订来检查变量、输入文本与检索到的领域知识之间的一致性, 并在三个不同的肿瘤学应用场景中展示了其提升提取准确性和一致性的有效性.

DiffGraph: An Automated Agent-driven Model Merging Framework for In-the-Wild Text-to-Image Generation

Zhuoling Li et al.

cs.AI

本文提出了一个名为DiffGraph的agent驱动的图模型融合框架, 用于自动整合在线专家模型以灵活满足多样化的文本到图像生成需求. 该方法通过构建可扩展的图结构来组织专家模型, 并根据用户需求动态激活子图以实现定制化生成.

Efficient Counterfactual Reasoning in ProbLog via Single World Intervention Programs

Saimun Habib, Vaishak Belle, Fengxiang He

cs.AI

本文提出了一种在ProbLog中通过Single World Intervention Programs (SWIPs)进行高效反事实推理的程序转换方法。该方法通过分割子句来降低计算复杂度，将反事实推理简化为对更简单程序的边际推断，并在实验中减少了推理时间。

Grounded Chess Reasoning in Language Models via Master Distillation

Zhenwei Tang et al.

cs.AI

本文提出了一种通过"大师蒸馏"将专家系统推理过程转化为自然语言思维链的方法, 旨在提升语言模型在数据稀缺的专业领域(如国际象棋)中的推理能力. 该方法不仅蒸馏最终输出, 还捕获完整的推理步骤, 使紧凑模型能生成可解释的解决方案.

LLM-Driven Heuristic Synthesis for Industrial Process Control: Lessons from Hot Steel Rolling

Nima H. Siboni, Seyedreza Kiamousavi, Emad Scharifi

cs.AI

本文提出了一个基于LLM的启发式合成框架, 用于生成热轧钢过程的可解释控制器. 该框架结合了代码生成与基于物理的仿真反馈, 并采用Luby重启策略进行预算分配, 最终通过自动化审计流程验证控制器的安全属性.

Context Cartography: Toward Structured Governance of Contextual Space in Large Language Model Systems

Zihua Wu, Georg Gartner

cs.AI

本文提出了一个用于管理大型语言模型上下文空间的形式化框架 Context Cartography. 它将信息空间划分为三个区域, 并定义了七种控制信息在区域间转换的制图算子.

Position: Multi-Agent Algorithmic Care Systems Demand Contestability for Trustworthy AI

Truong Thanh Hung Nguyen et al.

cs.AI cs.MA

本文是一篇关于多智能体系统在医疗保健领域应用的立场论文. 它认为, 为了建立可信的人工智能, 仅靠可解释性是不够的, 必须引入可争议性作为核心设计原则. 作者提出了一个整合了结构化论证和基于角色争议的人机协同框架.

Where can AI be used? Insights from a deep ontology of work activities

Alice Cai et al.

cs.AI cs.CY

本文通过构建一个详细的工作活动本体论, 对AI软件和机器人系统的应用分布进行了系统性分析. 研究发现, AI的市场价值高度集中于少数信息创造类活动, 这为预测AI在不同工作领域的适用性提供了一个量化框架.

Reasoning Traces Shape Outputs but Models Won't Say So

Yijie Hao et al.

cs.AI

本文通过引入Thought Injection方法, 研究了大型推理模型(LRMs)生成的推理轨迹是否真实反映其输出驱动因素. 实验发现, 注入的推理片段能可靠地改变模型输出, 但模型在解释其决策时却极少承认这种影响, 倾向于编造看似合理但无关的解释.

Seed1.8 Model Card: Towards Generalized Real-World Agency

Bytedance Seed

cs.AI

本文介绍了Seed1.8基础模型，旨在实现通用的现实世界智能体能力，支持多轮交互、工具使用和多步执行。该模型保持了强大的LLM和视觉语言性能，并针对延迟和成本进行了推理优化。

Agentic AI and the next intelligence explosion

James Evans, Benjamin Bratton, Blaise Agüera y Arcas

cs.AI

本文讨论了AI智能的演化路径, 认为其本质是多元、社会和关系性的. 文章指出, 未来的智能爆炸将是一个复杂的、组合式的社会系统, 而非单一的硅基大脑.

From 50% to Mastery in 3 Days: A Low-Resource SOP for Localizing Graduate-Level AI Tutors via Shadow-RAG

Zonglin Yang et al.

cs.AI cs.CY

本文提出了一种名为 Shadow-RAG 的新架构，结合视觉语言模型进行数据清洗，旨在以极低的资源需求部署高性能的 AI 导师。该方法在研究生水平的应用数学考试中，显著提升了特定规模语言模型的性能。

Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning

Xueqi Ma et al.

cs.AI cs.CV

本文通过构建CogVSR数据集和探测框架，分析了Vision-Language Models中attention heads在空间推理任务中的功能角色。研究发现，专门负责空间认知的heads数量稀少，且干预这些heads会显著影响模型的空间推理性能。

Towards Intelligent Geospatial Data Discovery: a knowledge graph-driven multi-agent framework powered by large language models

Ruixiang Liu, Zhenlong Li, Ali Khosravi Kazazi

cs.AI cs.MA

本文提出了一个由大型语言模型驱动的知识图谱多智能体框架, 用于智能地理空间数据发现. 该框架通过本体和知识图谱对齐异构元数据, 并利用多智能体协作解析用户意图、检索图谱并合成答案, 相比传统系统在多个指标上有所提升.

AI-Driven Multi-Agent Simulation of Stratified Polyamory Systems: A Computational Framework for Optimizing Social Reproductive Efficiency

Yicai Xing

cs.AI econ.GN

本文提出了一个基于AI的多智能体模拟框架, 用于建模和评估分层多偶制系统. 该框架结合了基于智能体的建模, 多智能体强化学习和大语言模型驱动的社会模拟, 旨在从计算角度分析其对缓解人口再生产危机等社会问题的潜在影响.

Multi-RF Fusion with Multi-GNN Blending for Molecular Property Prediction

Zacharie Bugaud

cs.AI cs.LG

本文提出了一种名为Multi-RF Fusion的混合方法，用于分子性质预测。该方法通过融合多个Random Forest模型与多个GNN模型的预测结果，在ogbg-molhiv基准测试中取得了领先的性能。

Modeling Epistemic Uncertainty in Social Perception via Rashomon Set Agents

Jinming Yang et al.

cs.AI

本文提出了一个基于LLM的多智能体概率建模框架, 用于模拟学生在课堂环境中主观社会认知的差异如何产生与演化. 该框架利用检索增强生成(RAG)使智能体仅基于局部信息进行判断与交互, 并通过模拟实验展示了局部互动如何传播认知不确定性.

GMPilot: An Expert AI Agent For FDA cGMP Compliance

Xiaohan Wang et al.

cs.AI

本文提出了一个名为GMPilot的领域专用AI智能体, 旨在辅助制药行业遵循FDA的cGMP规范. 它基于一个精心构建的法规和历史检查知识库, 结合RAG和ReAct框架, 为质量专业人员提供实时、可追溯的决策支持.

Governance-Aware Vector Subscriptions for Multi-Agent Knowledge Ecosystems

Steven Johnson

cs.AI

本文提出了一种治理感知的向量订阅机制, 用于多智能体知识生态系统. 该机制将语义相似度匹配与基于监管框架的多维策略谓词相结合, 以确保内容分发符合数据管理策略.

ReLaMix: Residual Latency-Aware Mixing for Delay-Robust Financial Time-Series Forecasting

Tianyou Lai et al.

cs.AI cs.LG

本文提出了一种名为ReLaMix的轻量级网络扩展, 用于处理高频金融时间序列预测中因延迟导致的观测值陈旧问题. 该方法通过可学习的瓶颈压缩和残差混合增强来抑制冗余信息并恢复有效信号, 在模拟延迟设置下取得了优于现有模型的预测精度.

Do LLM-Driven Agents Exhibit Engagement Mechanisms? Controlled Tests of Information Load, Descriptive Norms, and Popularity Cues

Tai-Quan Peng et al.

cs.AI cs.CY

本文通过控制实验, 在模拟社交媒体环境中测试了LLM驱动的智能体对信息负载、描述性规范和流行度线索的响应. 研究发现, 智能体的参与行为会系统地随实验条件变化, 而非简单地遵循提示, 这为基于模拟的传播研究方法论提供了启示.

Profit is the Red Team: Stress-Testing Agents in Strategic Economic Interactions

Shouqiao Wang et al.

cs.AI

本文提出了一种基于利润驱动的红队测试协议, 用于在具有可审计结果的结构化环境中对智能体进行压力测试. 该方法通过训练一个仅利用标量结果反馈来最大化自身利润的对手, 替代了手工设计的攻击, 并在四个经典经济交互的简化场景中进行了实验验证.

gUFO: A Gentle Foundational Ontology for Semantic Web Knowledge Graphs

João Paulo A. Almeida et al.

cs.AI cs.DB

本文介绍了一个轻量级的顶层本体gUFO, 它基于成熟的Unified Foundational Ontology (UFO), 适用于语义网应用. 文章阐述了gUFO的构成类别、关系与约束, 并比较了其与其他本体实现的不同.

AutoMOOSE: An Agentic AI for Autonomous Phase-Field Simulation

Sukriti Manna, Henry Chan, Subramanian K.R.S. Sankaranarayanan

cs.AI cond-mat.mes-hall

本文提出了一个名为AutoMOOSE的智能体框架，用于自动化基于MOOSE平台的相场模拟工作流。该框架通过自然语言指令驱动多智能体协作，能够自主完成输入文件生成、参数扫描、错误诊断和结果分析等任务。

Can we automatize scientific discovery in the cognitive sciences?

Akshay K. Jagadish et al.

cs.AI q-bio.NC

本文提出了一种利用Large Language Models (LLMs) 实现认知科学发现全流程自动化的新范式。该框架通过LLMs自动生成实验范式、模拟行为数据、合成计算模型，并基于“有趣性”指标进行优化，旨在加速理论发展。

The Intelligent Disobedience Game: Formulating Disobedience in Stackelberg Games and Markov Decision Processes

Benedikt Hornig, Reuth Mirsky

cs.AI cs.GT cs.LG

本文提出了Intelligent Disobedience Game (IDG), 一个基于Stackelberg game的序贯博弈框架, 用于建模人机协作中智能体在安全与服从指令间的权衡. 该框架被转化为一个多智能体Markov决策过程, 为训练强化学习agent提供了计算测试平台.

A Framework for Low-Latency, LLM-driven Multimodal Interaction on the Pepper Robot

Erich Studerus, Vivienne Jia Zhong, Stephan Vonschallen

cs.AI cs.LG cs.RO

本文为Pepper机器人提出了一个开源的Android框架, 旨在解决现有LLM集成方案中的高延迟和模态利用不足问题. 该框架通过集成端到端Speech-to-Speech模型和扩展的Function Calling功能, 实现了低延迟的多模态交互与智能体规划.

Knowledge Boundary Discovery for Large Language Models

Ziquan Wang, Zhongqi Lu

cs.AI cs.CL cs.LG

本文提出了一个基于强化学习的框架KBD, 用于探索大语言模型的知识边界. 该方法通过自动生成模型可答与不可答的问题来界定其知识范围, 并在实验中验证了其生成的问题集与人工构建的基准数据集具有可比性.

KLDrive: Fine-Grained 3D Scene Reasoning for Autonomous Driving based on Knowledge Graph

Ye Tian et al.

cs.AI

本文提出了一个名为KLDrive的框架, 用于自动驾驶场景下的细粒度视觉问答. 该框架结合了基于能量的场景知识图构建与大语言模型的结构化推理, 在多个基准测试上取得了优于现有方法的结果.

LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

Jianing Wang et al.

cs.AI cs.CL

本文提出了一个名为LongCat-Flash-Prover的大型开源MoE模型，旨在通过集成工具的agentic强化学习来推进Lean4中的Native Formal Reasoning。该模型将形式推理任务分解为自动形式化、草稿生成和证明三个部分，并引入了新的训练框架与算法以稳定长序列任务的训练。实验表明，该模型在多个形式推理基准测试上取得了优异的性能。

ORACLE: Optimizing Reasoning Abilities of Large Language Models via Constraint-Led Synthetic Data Elicitation

Zhuojie Yang, Wentao Wan, Keze Wang

cs.AI

本文提出了一个名为ORACLE的结构化数据生成框架, 旨在通过结合LLM的生成能力与符号推理引擎的监督来提升合成推理数据的质量. 该方法在多个推理基准测试上表现优于现有基线.

Can LLMs Fool Graph Learning? Exploring Universal Adversarial Attacks on Text-Attributed Graphs

Zihui Chen et al.

cs.AI

本文提出了一种名为BadGraph的通用对抗攻击框架, 用于评估文本属性图(TAGs)模型的安全性. 该框架利用大型语言模型(LLMs)对图知识的理解, 联合扰动节点的拓扑结构和文本语义, 在GNN和LLM等多种推理器上实现了有效的黑盒攻击.

Revisiting Tree Search for LLMs: Gumbel and Sequential Halving for Budget-Scalable Reasoning

Leonid Ugadiarov et al.

cs.AI cs.LG

本文提出了一种名为ReSCALE的改进树搜索方法, 用于增强大型语言模型(LLMs)在推理任务中的表现. 该方法通过引入Gumbel采样和Sequential Halving算法, 解决了现有AlphaZero风格搜索在预算增加时性能下降的问题, 并在GSM8K和Game24基准测试上取得了更好的结果.

Does AI Homogenize Student Thinking? A Multi-Dimensional Analysis of Structural Convergence in AI-Augmented Essays

Keito Inoshita et al.

cs.AI

本文通过分析不同AI辅助写作条件下的大量学生论文, 研究了AI对文章结构多样性的影响. 研究发现存在质量与同质化的权衡, 且这种效应因维度而异, 同时提示词设计可以逆转同质化趋势.

ConsRoute:Consistency-Aware Adaptive Query Routing for Cloud-Edge-Device Large Language Models

Haoyu Qiao et al.

cs.AI

本文提出了一种用于云-边-端大语言模型协同推理的自适应查询路由框架 ConsRoute. 该框架通过重用模型预填充阶段的隐藏状态作为查询表示, 并利用重排序器评估不同层级模型响应的语义一致性来指导路由决策, 在保证响应质量的同时显著降低了推理延迟和成本.

Graph of States: Solving Abductive Tasks with Large Language Models

Yu Luo et al.

cs.AI

本文提出了一个名为Graph of States (GoS)的神经符号框架, 旨在解决大型语言模型在溯因推理任务上的不足. 该框架通过结构化的信念状态和多智能体协作, 将推理过程转化为有向搜索, 并在真实数据集上取得了优于基线方法的效果.

Improving Coherence and Persistence in Agentic AI for System Optimization

Pantea Karimi et al.

cs.AI cs.CL

本文提出了一种名为Engram的agentic researcher架构, 旨在解决AI agent在复杂系统优化任务中面临的evolutionary neighborhood bias和coherence ceiling问题. 该架构通过将长程探索与单一context window解耦, 并利用持久化的Archive和Research Digest来维持跨运行的知识连贯性, 在多个系统优化领域展示了优越的性能.

ARYA: A Physics-Constrained Composable & Deterministic World Model Architecture

Seth Dobrin, Lukasz Chmiel

cs.AI cs.DC

本文提出了一种名为ARYA的、基于物理约束的可组合确定性世界模型架构。该架构通过层级化的nano模型系统和内置的安全内核来实现对动态环境的建模与控制, 强调其确定性和安全性是架构层面的固有属性。

RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models

Dongyoung Kim et al.

cs.AI

本文提出了一种名为RoboAlign的系统化训练框架, 旨在提升vision-language-action models (VLAs)的性能. 该方法通过强化学习来优化从multimodal-large-language models (MLLMs)中采样的动作, 并在多个机器人基准测试中取得了显著的性能提升.

The AI Scientific Community: Agentic Virtual Lab Swarms

Ulisses Braga-Neto

cs.AI

本文提出了一个基于智能体群（agentic swarms）的虚拟实验室模型，用以模拟AI科学社区。该框架利用群体智能的特性，如去中心化协调和探索-利用权衡，旨在加速科学发现过程。

AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling

Liang Ding

cs.AI cs.CL

本文提出了一种名为AgentHER的框架, 用于将Hindsight Experience Replay (HER) 的思想应用于LLM agent的离线轨迹数据增强. 该方法通过重新标注失败轨迹中的目标, 将其转化为有效的训练数据, 从而提升了agent在WebArena和ToolBench等任务上的性能.

AdaRubric: Task-Adaptive Rubrics for LLM Agent Evaluation

Liang Ding

cs.AI cs.CL

本文提出了一种名为AdaRubric的动态评估方法, 用于解决LLM-as-Judge在评估智能体任务时因使用固定评分标准(rubric)而失效的问题. 该方法通过任务描述自动生成任务特定的评估维度, 并引入DimensionAwareFilter来筛选偏好对, 在多个基准测试上取得了优于静态基线的人类评分相关性.

A transformer architecture alteration to incentivise externalised reasoning

Elizabeth Pavlova et al.

cs.AI

本文提出了一种新的transformer架构修改及后训练流程, 旨在通过教导模型提前截断前向传递来使其成为更冗长的推理者. 该方法在中间层加入early-exit机制, 并使用强化学习激励模型在保持任务性能的前提下尽早退出.

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Junkeun Yi et al.

cs.AI

本文提出了一种名为PivotRL的新型框架，用于在低计算成本下进行高精度的智能体后训练。该方法通过分析现有的监督微调轨迹，结合了监督微调的计算效率与端到端强化学习的泛化能力。

Persona Vectors in Games: Measuring and Steering Strategies via Activation Vectors

Johnathan Sun, Andrew Zhang

cs.AI cs.GT

本文在博弈论环境中应用activation steering方法, 通过对比激活加法构建了描述利他、宽恕等特质的persona vectors. 实验表明, 该方法能系统地改变模型在经典博弈中的策略选择和语言解释, 但策略与语言表述可能出现分离.

The Myhill-Nerode Theorem for Bounded Interaction: Canonical Abstractions via Agent-Bounded Indistinguishability

Anthony T. Nixon

cs.AI

本文针对有限POMDPs，提出了一个基于有界交互的Myhill-Nerode定理类比。它通过一族有限状态控制器（probes）诱导出一个闭环Wasserstein伪度量，并构建了一个规范的最小商模型，该模型合并了控制器族无法区分的观测历史。

Silent Commitment Failure in Instruction-Tuned Language Models: Evidence of Governability Divergence Across Architectures

Gregory M. Ruddell

cs.AI cs.CR cs.LG

本文研究了指令微调语言模型在作为自主代理执行工具时的安全性, 提出了"可治理性"的概念来衡量模型错误在输出前可被检测和纠正的程度. 实验发现不同模型架构的可治理性存在显著差异, 部分模型会产生"静默承诺失败", 而基准测试的准确性并不能预测可治理性.

Is the future of AI green? What can innovation diffusion models say about generative AI's environmental impact?

Robert Viseur, Nicolas Jullien

cs.AI

本文通过经典的A-U创新扩散模型分析了生成式人工智能(GAI)的生态系统, 预测了其行业结构与环境影响的演变. 研究指出, 尽管GAI永远不会是"绿色"的, 但其环境影响可能不像某些预测那样严重, 这主要取决于未来占据主导地位的商业模式.

DomAgent: Leveraging Knowledge Graphs and Case-Based Reasoning for Domain-Specific Code Generation

Shuai Wang et al.

cs.AI cs.SE

本文提出了一个名为DomAgent的自主编码代理, 通过结合知识图谱推理和基于案例的推理来提升大型语言模型在特定领域代码生成中的表现. 该方法在数据科学领域基准和真实卡车软件开发任务上进行了评估, 结果表明其能有效缩小开源小模型与大型专有模型之间的性能差距.

Behavioural feasible set: Value alignment constraints on AI decision support

Taejin Park

cs.AI econ.GN

本文提出了"behavioral feasible set"的概念, 用于形式化分析商业AI决策支持系统在供应商设定的价值对齐约束下所能产生的推荐范围. 通过基于场景的实验, 作者展示了价值对齐会显著压缩这个可行集, 使得系统即使在合理的contextual pressure下也难以调整其推荐. 在多方利益相关者任务中, 对齐会转移而非消除隐含的利益相关者优先级, 这意味着组织采纳了供应商预先设定的价值取向.

Safety as Computation: Certified Answer Reuse via Capability Closure in Task-Oriented Dialogue

Cosimo Spera

cs.AI

本文提出了一种新的任务导向对话系统范式, 将安全性认证视为答案复用的计算原语. 通过引入Certified Answer Store (CAS)和Pre-Answer Blocks (PAB), 系统在认证步骤中预先计算并存储所有可推导的后续答案, 从而在后续查询中实现亚毫秒级的快速响应, 避免了冗余的检索或生成过程.

Beyond Correlation: Refutation-Validated Aspect-Based Sentiment Analysis for Explainable Energy Market Returns

Wihan van der Heever et al.

cs.AI cs.CL cs.LG

本文提出了一种用于金融市场中 aspect-based sentiment analysis 的 refutation-validated 框架, 旨在超越相关性分析. 该方法结合了多种统计检验, 在能源股数据上进行了验证, 发现仅有少数关联是稳健的, 并将其定位为一种方法论的概念验证.

Unified-MAS: Universally Generating Domain-Specific Nodes for Empowering Automatic Multi-Agent Systems

Hehai Lin et al.

cs.AI

本文提出了一种名为Unified-MAS的框架，用于增强自动多智能体系统在知识密集型领域的性能。该方法通过解耦节点实现与拓扑编排，并利用外部知识合成专用节点，在多个专业领域任务上取得了更好的性能与成本权衡。

Stabilizing Iterative Self-Training with Verified Reasoning via Symbolic Recursive Self-Alignment

Xinyu Zhang

cs.AI

本文提出了一种名为Neuro-Symbolic Recursive Self-Alignment (NSRSA)的方法，旨在通过符号验证子系统来稳定迭代自训练过程，防止递归漂移。该方法在GSM8K数据集上进行了评估，展示了其相比仅基于结果的验证能更有效地过滤有缺陷的推理步骤。

Counterfactual Credit Policy Optimization for Multi-Agent Collaboration

Zhongyi Li et al.

cs.AI

本文提出了Counterfactual Credit Policy Optimization (CCPO)框架，用于解决多智能体协作中的信用分配问题。该框架通过构建反事实轨迹来估计每个智能体的边际贡献，从而为策略优化提供更细粒度的学习信号。

Adaptive Robust Estimator for Multi-Agent Reinforcement Learning

Zhongyi Li et al.

cs.AI

本文提出了一个用于协作推理的鲁棒多智能体强化学习框架, 包含 Dual-Agent Answer-Critique-Rewrite (DACR) 和 Adaptive Robust Estimator (ARE) 两个组件. 该方法旨在解决多智能体协作中的信用分配模糊性和奖励噪声导致的训练不稳定问题.

Mind over Space: Can Multimodal Large Language Models Mentally Navigate?

Qihui Zhu et al.

cs.AI

本文提出了Video2Mental基准来评估多模态大语言模型(MLLMs)的"心理导航"能力, 即从长视频中构建认知地图并进行路径规划. 实验表明现有MLLMs在此任务上表现不佳, 作者提出的NavMind模型通过显式学习认知地图作为中间表示, 显著提升了规划性能.

A Multidisciplinary AI Board for Multimodal Dementia Characterization and Risk Assessment

Sheng Liu et al.

cs.AI cs.CV

本文提出了一个名为Cerebra的多智能体AI系统，用于整合分析电子健康记录、临床笔记和医学影像等多模态数据，以支持痴呆症的风险评估与诊断。该系统通过一个交互式仪表板为临床医生提供决策支持，并在大规模多机构数据集上验证了其性能优于现有的单模态及多模态基线模型。

INTRYGUE: Induction-Aware Entropy Gating for Reliable RAG Uncertainty Estimation

Alexandra Bazarova et al.

cs.AI

本文针对 retrieval-augmented generation (RAG) 中的不确定性量化问题，指出标准基于熵的方法因模型内部 induction heads 与 "entropy neurons" 的冲突而失效。作者提出了 INTRYGUE 方法，通过门控机制结合 induction heads 的激活模式来修正预测熵，并在多个基准测试中验证了其有效性。

EnterpriseLab: A Full-Stack Platform for developing and deploying agents in Enterprises

Ankush Agarwal et al.

cs.AI

本文介绍了一个名为EnterpriseLab的全栈平台, 用于在企业环境中开发和部署AI agents. 该平台通过统一的闭环框架整合了工具集成、数据生成和模型训练, 旨在以较低成本实现与前沿模型相当的性能, 同时满足数据主权要求.

Silicon Bureaucracy and AI Test-Oriented Education: Contamination Sensitivity and Score Confidence in LLM Benchmarks

Yiliang Song et al.

cs.AI cs.CL

本文提出了一个审计框架来分析LLM基准测试中的污染敏感性和分数置信度. 通过实验发现, 在基准问题被扰动后, 模型性能的提升表明分数可能受到污染的影响, 因此基准评估需要补充对分数置信度的审计.

Mirage The Illusion of Visual Understanding

Mohammad Asadi et al.

cs.AI

本文揭示了视觉-语言模型在推理和评估中的根本性缺陷. 作者通过实验发现, 前沿模型在没有图像输入的情况下, 也能在通用和医学多模态基准测试中获得高分, 这种现象被称为"海市蜃楼推理". 研究指出当前基准测试的设计存在问题, 并提出了一个名为B-Clean的解决方案, 旨在实现更公平、基于视觉的评估.

AI Token Futures Market: Commoditization of Compute and Derivatives Contract Design

Yicai Xing

cs.AI econ.GN

本文探讨了AI推理所消耗的tokens作为一种新兴商品的属性，并将其与电力等传统商品进行类比。作者提出了一种标准化的token期货合约设计方案，并通过模拟验证了其对冲企业计算成本波动的有效性。

Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

Neelmani Vispute

cs.AI cs.DC cs.SE

本文提出了 Agent Execution Record (AER) 这一结构化推理溯源原语，旨在为自主 AI 智能体提供超越传统状态检查点和执行追踪的行为分析能力。它通过捕获意图、观察和推断等结构化信息，支持对智能体群体进行推理模式挖掘和置信度校准等分析。

Deterministic Hallucination Detection in Medical VQA via Confidence-Evidence Bayesian Gain

Mohammad Asadi et al.

cs.AI

本文提出了一种名为CEBaG的确定性幻觉检测方法，用于医学视觉问答任务。该方法无需随机采样或外部模型，通过分析模型自身的对数概率来识别不一致的置信度和视觉证据敏感性。

MIND: Multi-agent inference for negotiation dialogue in travel planning

Hunmin Do, Taejun Yoon, Kiyong Jung

cs.AI

本文提出了一个用于旅行规划谈判对话的多智能体推理框架 MIND. 该框架通过引入战略评估阶段来推断对手意愿, 在多个指标上优于传统的多智能体辩论方法.

A Blueprint for Self-Evolving Coding Agents in Vehicle Aerodynamic Drag Prediction

Jinhui Ren et al.

cs.AI

本文提出了一种基于契约的自演化编码智能体蓝图, 用于在工业约束下发现可执行的代理模型流水线来预测车辆气动阻力系数 $C_d$. 该方法将代理模型发现视为对程序而非静态模型实例的约束优化, 结合了评估反馈、种群演化与多目标选择. 最终系统实现了高综合评分, 其部署模型采用"筛选与升级"策略, 在加速设计迭代的同时保证了可靠性.

Compensating Visual Insufficiency with Stratified Language Guidance for Long-Tail Class Incremental Learning

Xi Wang et al.

cs.AI cs.CV

本文提出了一种利用分层语言指导来补偿视觉信息不足的方法, 用于解决长尾类增量学习(Long-tail class incremental learning, LT CIL)中的样本稀缺和灾难性遗忘问题. 该方法通过分析数据分布引导大语言模型(LLMs)生成分层语义树, 并在此基础上设计了自适应和对齐两种语言指导机制.

CurvZO: Adaptive Curvature-Guided Sparse Zeroth-Order Optimization for Efficient LLM Fine-Tuning

Shuo Wang, Ziyu Chen, Ming Tang

cs.AI cs.LG

本文提出了一种用于大语言模型微调的自适应曲率引导稀疏零阶优化方法, 旨在解决零阶优化因梯度估计方差高而导致的收敛慢或不稳定的问题. 该方法通过在线跟踪曲率信号来构建参数采样分布, 并动态调整扰动预算, 在多个NLP任务上取得了更好的精度和训练速度.

EvoIdeator: Evolving Scientific Ideas through Checklist-Grounded Reinforcement Learning

Andreas Sauter et al.

cs.AI cs.CL

本文提出了一个名为EvoIdeator的框架, 它通过将强化学习(RL)的训练目标与基于检查清单(checklist)的反馈对齐, 来促进科学想法的迭代进化. 该方法利用结构化评判模型生成词典式奖励(lexicographic rewards)和细粒度语言反馈, 实验表明其在多项科学指标上超越了更大的前沿模型.

The Reasoning Error About Reasoning: Why Different Types of Reasoning Require Different Representational Structures

Yiling Wu

cs.AI cs.CL

本文提出了一个分析推理类型与表征系统结构需求之间关系的框架。该框架识别了表征系统的四个结构属性，并讨论了不同推理形式对这些属性的不同需求。

The Presupposition Problem in Representation Genesis

Yiling Wu

cs.AI cs.CL

本文讨论了大型语言模型(LLMs)的出现如何凸显了哲学心智理论中“表征生成”问题的紧迫性。作者指出，现有主要理论框架在解释表征如何从非表征物理系统中产生时，都预设了系统已具备表征能力，从而陷入了“表征回归”的困境。

Agentic Personas for Adaptive Scientific Explanations with Knowledge Graphs

Susana Nunes, Tiago Guerreiro, Catia Pesquita

cs.AI cs.HC

本文提出了一种基于强化学习和agentic personas（智能体角色）的自适应科学解释生成方法, 用于改进基于知识图谱的解释系统. 该方法通过模拟不同专家的认知策略和认知立场, 在药物发现任务中生成更符合特定专家偏好的解释, 并显著减少了所需的专家反馈数据量.

Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Aryan Kasat et al.

cs.AI

本文通过实证分析发现, 大型语言模型(LLMs)在道德困境中的回应普遍呈现"后习俗水平"的道德推理, 这与人类以"习俗水平"为主的发展常态相反. 研究揭示了模型存在"道德脱钩"和"道德口技"现象, 表明其输出更接近修辞模仿而非真实的推理发展轨迹.

Tacit Knowledge Management with Generative AI: Proposal of the GenAI SECI Model

Naoshi Uchihira

cs.AI

本文提出了一个名为"GenAI SECI"的知识管理模型, 旨在利用生成式AI的能力来整合显性和隐性知识. 该模型引入了"数字碎片化知识"这一新概念, 并给出了具体的系统架构.

Guideline-grounded retrieval-augmented generation for ophthalmic clinical decision support

Shuying Chen, Sen Cui, Zhong Cao

cs.AI

本文提出了一种用于眼科临床决策支持的多模态视觉检索增强生成系统 Oph-Guid-RAG. 该系统将临床指南页面作为检索单元, 并设计了可控的检索框架以提升证据的准确性和可追溯性.

Future-Interactions-Aware Trajectory Prediction via Braid Theory

Caio Azevedo et al.

cs.AI

本文提出了一种基于Braid theory的辅助任务来提升多智能体轨迹预测的性能. 该方法通过预测轨迹间的交叉关系来增强模型的社会交互感知能力, 在多个数据集上取得了改进.

A Context Engineering Framework for Improving Enterprise AI Agents based on Digital-Twin MDP

Xi Yang et al.

cs.AI

本文提出了一个基于Digital-Twin MDP的上下文工程框架，用于改进企业AI智能体。该框架通过离线强化学习来优化智能体的决策行为，并在IT自动化任务中进行了验证。

GSEM: Graph-based Self-Evolving Memory for Experience Augmented Clinical Reasoning

Xiao Han et al.

cs.AI

本文提出了一个基于图的自演化记忆框架GSEM, 用于增强临床推理. 该框架将临床经验组织成双层记忆图, 支持基于适用性的检索和在线反馈校准, 在多个基准测试中取得了优于基线方法的准确率.

SpecTM: Spectral Targeted Masking for Trustworthy Foundation Models

Syed Usama Imtiaz, Mitra Nasr Azadani, Nasrin Alamdari

cs.AI cs.LG

本文提出了一种名为SpecTM的物理信息掩码方法, 用于提升地球观测基础模型的可靠性与可解释性. 该方法通过一个多任务自监督学习框架, 在预训练中鼓励模型从跨光谱上下文重建目标波段, 并在下游水质预测任务上取得了优于随机掩码和传统基线模型的效果.

MARCUS: An agentic, multimodal vision-language model for cardiac diagnosis and management

Jack W O'Sullivan et al.

cs.AI

本文提出了一个名为MARCUS的智能体化、多模态视觉语言模型，专门用于心脏诊断。该系统采用分层智能体架构，整合了针对特定模态的视觉编码器，在内部和外部测试集上超越了前沿模型。作者开源了模型、代码和基准测试。

cs.IR

AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents ⭐ 精选

Tianyi Li et al.

cs.IR cs.AI

本文提出了一个面向排序的推荐智能体框架 AgenticRec, 它通过端到端的策略优化来统一中间推理、工具调用和最终排序列表的生成. 其核心贡献包括: 设计了一套集成在 ReAct 循环中的推荐专用工具; 提出了理论上无偏的 List-Wise Group Relative Policy Optimization 方法, 以最大化排序效用并确保对复杂工具使用轨迹的准确信用分配; 引入了 Progressive Preference Refinement 机制, 通过挖掘排序违规中的困难负例并进行双向偏好对齐, 来解析细粒度偏好模糊性并最小化成对排序误差的凸上界. 实验表明, 该框架显著优于基线方法, 验证了将推理、工具使用和排序优化统一起来的必要性.

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Zhuofeng Li et al.

cs.IR cs.AI cs.CL

本文提出了一个名为OpenResearcher的、完全离线的长程深度研究轨迹合成管道，用于训练研究型智能体。该工作通过解耦语料库构建与多轮轨迹合成，并利用一个大型离线文档库，生成了大量包含复杂工具调用的轨迹数据。

FastPFRec: A Fast Personalized Federated Recommendation with Secure Sharing

Zhenxing Yan et al.

cs.IR cs.LG

本文提出了一种名为FastPFRec的个性化联邦推荐框架, 旨在解决基于GNN的联邦推荐系统中收敛速度慢和隐私泄露风险的问题. 该框架通过高效的本地更新策略和隐私感知的参数共享机制, 在多个真实数据集上实现了更快的训练速度和更高的推荐精度.

Rethinking Retrieval-Augmentation as Synthesis: A Query-Aware Context Merging Approach

Jiarui Guo et al.

cs.IR

本文提出了一种名为 MergeRAG 的新框架，将检索增强生成 (RAG) 重新构想为一个动态优化问题。该框架通过一个评分 agent 对检索到的上下文进行合并与合成，旨在最大化信息密度并减少冗余，从而在标准基准测试上取得了显著的性能提升。

Report-based Recommendations for Policy Making and Agency Operations: Dataset and LLM Evaluation

Aleksandra Edwards et al.

cs.IR

本文提出了一个基于报告生成政策建议的新任务, 并为此构建了首个基准数据集. 研究评估了大型语言模型(LLMs)在此任务上的表现, 结果表明它们有潜力从报告中提炼关键问题并生成有用的建议.

BubbleRAG: Evidence-Driven Retrieval-Augmented Generation for Black-Box Knowledge Graphs

Duyi Pan et al.

cs.IR cs.DB

本文针对黑盒知识图谱上的检索增强生成任务, 提出了BubbleRAG框架. 它将检索任务形式化为Optimal Informative Subgraph Retrieval问题, 并通过语义锚点分组、启发式扩展和复合排序等训练无关的步骤来优化召回率与精确率.

Bypassing Document Ingestion: An MCP Approach to Financial Q&A

Sasan Mansouri et al.

cs.IR cs.AI

本文探讨了在金融问答任务中, 使用 Model Context Protocol (MCP) 让大型语言模型直接访问结构化数据源, 以替代传统的基于文档检索增强生成的方法. 通过在 FinDER 基准上的实验, 作者发现该方法在处理定量分析问题时表现良好, 但在需要定性或文档特定上下文的任务上存在局限.

GEM: A Native Graph-based Index for Multi-Vector Retrieval

Yao Tian et al.

cs.IR cs.AI cs.DB

本文提出了一种名为GEM的原生图索引框架, 用于高效的多向量检索. 该方法通过直接在向量集合上构建邻近图来保留语义并实现快速搜索, 在多个基准测试中实现了显著的加速.

Low-pass Personalized Subgraph Federated Recommendation

Wooseok Sim, Hogun Park

cs.IR cs.AI cs.LG

本文提出了一种名为LPSFed的联邦推荐系统, 旨在解决客户端子图结构不平衡的问题. 该方法利用graph Fourier transform和low-pass filtering来提取稳定的结构信号, 并结合个性化的偏差校正项来缓解推荐偏差.

WebNavigator: Global Web Navigation via Interaction Graph Retrieval

Xuanwang Zhang et al.

cs.IR cs.AI

本文提出了一种名为WebNavigator的agent，它将网页导航任务重新定义为确定性的检索与路径规划问题。该方法通过离线构建Interaction Graph来获取环境的全局拓扑结构，并设计了Retrieve-Reason-Teleport的工作流程进行在线导航。实验表明，该方法在多个基准测试上取得了最先进的性能，显著超越了现有方法。

ReBOL: Retrieval via Bayesian Optimization with Batched LLM Relevance Observations and Query Reformulation

Anton Korikov, Scott Sanner

cs.IR cs.AI

本文提出了一种名为ReBOL的检索方法，它结合了LLM查询重构和贝叶斯优化来改进文档检索。该方法通过迭代地获取文档批次并进行相关性评分来优化检索效果，在多个基准数据集上取得了比传统LLM重排序方法更高的召回率。

NDT: Non-Differential Transformer and Its Application to Sentiment Analysis

Soudeep Ghoshal et al.

cs.IR cs.CL cs.LG

本文提出了一种用于情感分析的 Non-Differential Transformer (NDT) 模型。该模型采用纯加性的注意力机制，通过正权重整合多个不同的注意力图，以捕捉文本中更复杂的上下文关系。

Algorithmic Audit of Personalisation Drift in Polarising Topics on TikTok

Branislav Pecher et al.

cs.IR cs.SI

本文通过算法审计的方法研究了TikTok推荐系统在极化话题上的个性化漂移现象. 研究发现, 推荐轨迹在不同话题间差异显著, 某些路径会更强地放大极化观点.

RubricRAG: Towards Interpretable and Reliable LLM Evaluation via Domain Knowledge Retrieval for Rubric Generation

Kaustubh D. Dhole, Eugene Agichtein

cs.IR cs.AI cs.CL cs.LG

本文提出了一种名为RubricRAG的方法，通过检索相关查询的领域知识来生成评估准则，旨在提升大语言模型评估的可解释性和可靠性。该方法生成的准则在与人写准则的相似度以及下游评估效果上均显示出改进。

ECI: Effective Contrastive Information to Evaluate Hard-Negatives

Aarush Sinha, Rahul Seetharaman, Aman Bansal

cs.IR cs.AI

本文提出了一种名为ECI的理论指标, 用于在模型微调前评估困难负样本的质量. 该指标基于信息论, 通过权衡信息容量和判别效率来预测下游检索性能, 旨在减少昂贵的消融实验需求.

Consensus-Driven Group Recommendation on Sparse Explicit Feedback: A Collaborative Filtering and Choquet-Borda Aggregation Framework

Anh Nguyen Van et al.

cs.IR

本文提出了一种结合协同过滤与模糊聚合的群组推荐框架, 用于处理稀疏显式反馈数据. 该方法通过复合相似度度量生成预测, 并利用 Choquet integral 和 Borda Count 进行聚合, 以提升共识与公平性.

DSL-R1: From SQL to DSL for Training Retrieval Agents across Structured and Unstructured Data with Reinforcement Learning

Yunhai Hu et al.

cs.IR cs.AI cs.DB cs.LG

本文提出了一种结合结构化查询与语义检索的统一框架DSL-R1, 通过强化学习优化领域特定语言的生成, 在混合检索任务上取得了性能提升.

Query, Decompose, Compress: Structured Query Expansion for Efficient Multi-Hop Retrieval

JungMin Yun, YoungBin Kim

cs.IR

本文提出了一种名为DeCoR的结构化查询扩展框架, 用于提升多跳检索的效率与效果. 该方法通过分解查询步骤和压缩相关文档证据来重构查询, 而非直接生成新内容, 实验表明其使用较小模型即可超越依赖更大生成模型的基线方法.

Ontology-driven personalized information retrieval for XML documents

Ounnaci Iddir, Ahmed-ouamer Rachid, Tai Dinh

cs.IR cs.LG

本文提出了一种结合领域本体和用户档案的个性化XML文档信息检索方法. 该方法利用语义相似度进行匹配, 实验表明其效果优于传统的关键词方法.

Ontology-Compliant Knowledge Graphs

Zhangcheng Qiang

cs.IR

本文探讨了ontology-compliant knowledge graphs的构建，提出了新的术语匹配算法和基于模式的合规性方法，并以建筑领域为例进行了验证。

MI-DPG: Decomposable Parameter Generation Network Based on Mutual Information for Multi-Scenario Recommendation

Wenzhuo Cheng et al.

cs.IR

本文提出了一种基于互信息分解参数生成网络(MI-DPG)的多场景CVR预测方法。该方法通过生成场景条件动态参数来提升模型性能，并利用互信息正则化增强参数多样性。

LSA: A Long-Short-term Aspect Interest Transformer for Aspect-Based Recommendation

Le Liu et al.

cs.IR

本文提出了一种结合长期与短期兴趣的Transformer模型LSA, 用于基于方面的推荐. 该模型通过分别建模用户对方面的长期稳定偏好和短期动态关注, 为每次用户-物品交互更准确地分配方面权重, 在四个真实数据集上取得了优于基线方法的性能.

COINBench: Moving Beyond Individual Perspectives to Collective Intent Understanding

Xiaozhe Li et al.

cs.IR cs.AI

本文提出了一个名为COIN-BENCH的基准测试，用于评估大语言模型在理解群体意图方面的能力。该基准模拟了从多源讨论中提取共识和潜在趋势的任务，并引入了一个结合规则与模型评估的框架。

When Documents Disagree: Measuring Institutional Variation in Transplant Guidance with Retrieval-Augmented Language Models

Yubo Li, Ramayya Krishnan, Rema Padman

cs.IR cs.AI

本文提出了一种基于检索增强语言模型的框架, 用于量化美国不同移植中心患者教育手册之间的异质性. 该方法通过将相同患者问题与不同手册内容进行关联并比较答案, 揭示了在临床指导上存在显著差异和内容覆盖缺口.

TagLLM: A Fine-Grained Tag Generation Approach for Note Recommendation

Zhijian Chen et al.

cs.IR

本文提出了一种名为TagLLM的细粒度标签生成方法, 用于笔记推荐. 该方法通过User Interest Handbook和multimodal CoT Extraction来生成细粒度标签, 并利用Tag Knowledge Distillation提升小模型的推理效率, 在线A/B测试验证了其有效性.

Toward a Theory of Hierarchical Memory for Language Agents

Yashar Talebirad et al.

cs.IR cs.AI cs.IT cs.SI

本文提出了一个用于分析和比较具有分层记忆结构的大语言模型智能体系统的统一理论框架. 该框架将此类系统的核心操作分解为提取(extraction), 粗化(coarsening)和遍历(traversal)三个算子, 并讨论了代表性函数(representative function)的自足性(self-sufficiency)谱系如何约束可行的检索策略.

Overview of TREC 2025 Biomedical Generative Retrieval (BioGen) Track

Deepak Gupta et al.

cs.IR

本文介绍了TREC 2025生物医学生成式检索（BioGen）赛道的概况，讨论了大型语言模型在生物医学领域的应用与挑战。

GoogleTrendArchive: A Year-Long Archive of Real-Time Web Search Trends Worldwide

Aleksandra Urman, Anikó Hannák, Joachim Baumann

cs.IR cs.SI

本文介绍了一个名为GoogleTrendArchive的全球实时网络搜索趋势数据集, 它归档了超过一年的Google Trending Now数据. 该数据集旨在弥补Google不提供超过七天历史数据的空白, 可用于研究信息扩散和集体注意力动态.

ADaFuSE: Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image Retrieval

Zhuocheng Zhang et al.

cs.IR cs.CV

本文提出了一种用于交互式文本到图像检索的自适应扩散-文本融合模型ADaFuSE. 该模型通过动态门控和语义感知专家混合机制, 校准扩散模型生成的多模态视图, 提升了现有框架的性能和鲁棒性.

On the Challenges and Opportunities of Learned Sparse Retrieval for Code

Simon Lupart et al.

cs.IR cs.CL

本文提出了首个专门用于代码检索的大规模学习型稀疏检索模型家族 SPLADE-Code. 该模型通过轻量级单阶段训练, 在代码检索任务上取得了与更大规模模型相竞争的性能, 并分析了其低延迟优势.

PreferRec: Learning and Transferring Pareto Preferences for Multi-objective Re-ranking

Wei Zhou et al.

cs.IR cs.NE

本文提出了一种名为PreferRec的框架, 用于多目标推荐重排序任务. 该框架通过学习并迁移用户间的Pareto偏好, 旨在更高效地建模用户在意图层面对多个冲突目标(如准确性, 多样性)的个性化权衡.

One Model, Two Markets: Bid-Aware Generative Recommendation

Yanchen Jiang et al.

cs.IR cs.AI cs.GT cs.LG

本文提出了一个统一的生成式推荐框架GEM-Rec，旨在同时优化语义相关性和平台商业收入。该框架通过引入控制令牌和竞价感知解码机制，将广告展示决策与商品选择解耦，并能在推理过程中直接处理实时竞价。

cs.CL

Enhancing Safety of Large Language Models via Embedding Space Separation

Xu Zhao, Xiting Wang, Weiran Shen

cs.CL cs.AI

本文提出了一种名为Embedding Space Separation (ES2)的表示层微调方法, 旨在通过增大有害查询与安全查询在embedding空间中的距离来增强大语言模型的安全性. 该方法在损失函数中引入了KL散度正则项, 以约束微调模型在无害输入上的输出与原始模型保持一致, 从而防止通用能力退化. 实验表明, 该方法能在保持模型通用能力的同时, 显著提升其安全性.

RedacBench: Can AI Erase Your Secrets?

Hyunjun Jeon, Kyuyoung Kim, Jinwoo Shin

cs.CL cs.AI cs.CR

本文提出了一个名为RedacBench的综合性基准测试, 用于评估跨领域和策略的、基于策略条件的文本信息脱敏(redaction)能力. 该基准包含大量人工撰写的文本和对应的安全策略, 通过标注命题(propositions)来量化模型在移除敏感信息(安全性)和保留非敏感信息(实用性)两方面的性能.

Children's Intelligence Tests Pose Challenges for MLLMs? KidGym: A 2D Grid-Based Reasoning Benchmark for MLLMs

Hengwei Ye et al.

cs.CL cs.AI

本文提出了一个名为KidGym的2D网格基准测试，用于评估多模态大语言模型(MLLMs)在多个认知维度的能力。该基准模拟儿童智力测试，包含12项任务，旨在更全面地衡量模型的适应性和发展潜力。

CRoCoDiL: Continuous and Robust Conditioned Diffusion for Language

Roy Uziel et al.

cs.CL cs.AI

本文提出了一种名为CRoCoDiL的连续条件扩散模型用于语言生成, 通过将扩散过程转移到连续的句子级语义空间来改进Masked Diffusion Models (MDMs). 该方法联合训练编码器-去掩码器架构, 并引入了两种无条件文本合成算法, 实验表明其在生成质量和采样速度上均有提升.

Fast-Slow Thinking RM: Efficient Integration of Scalar and Generative Reward Models

Jiayun Wu et al.

cs.CL cs.LG

本文提出了一种结合标量与生成式奖励模型的混合架构, 通过双置信度激活机制动态选择推理路径, 在提升性能的同时显著降低了计算开销.

Multi-Agent Debate with Memory Masking

Hongduan Tian et al.

cs.CL cs.LG

本文提出了一种名为MAD-M$^2$的多智能体辩论框架，通过在每个辩论轮次开始时屏蔽上一轮的错误记忆，来提升多智能体辩论范式的鲁棒性。实验表明，该方法在数学和逻辑推理基准上优于原有的MAD方法。

Locally Coherent Parallel Decoding in Diffusion Language Models

Michael Hersche et al.

cs.CL cs.AI cs.LG

本文提出了一种名为CoDiLA的方法, 用于解决Diffusion language models (DLMs)在并行生成多个token时, 因独立采样而忽略token间联合依赖关系所导致的语法不一致问题. 该方法通过引入一个轻量级的辅助自回归模型来处理扩散潜变量中的局部解码, 从而在保持DLMs核心能力的同时, 提升了代码生成任务中并行生成的连贯性与效率.

Expected Reward Prediction, with Applications to Model Routing

Kenan Hasanaliyev et al.

cs.CL cs.LG

本文提出了一种基于期望奖励预测(ERP)的模型路由方法, 用于在推理时根据prompt将请求分配给不同的大语言模型(LLM). 该方法通过预测LLM在给定prompt下生成响应的期望奖励分数, 来优化整体奖励并控制计算成本. 实验在包含多个Llama和Gemma变体的模型池上进行, 结果表明该简单方法优于基于类别平均性能的基线.

An experimental study of KV cache reuse strategies in chunk-level caching systems

Samuel Cestola et al.

cs.CL cs.LG

本文通过实验评估了chunk-level caching (CLC)系统中KV cache重用策略的局限性, 并指出现有技术具有互补性. 作者提出了一种结合多种技术的新设计, 以在保持推理速度的同时提升输出准确性.

Thinking into the Future: Latent Lookahead Training for Transformers

Lorenzo Noci et al.

cs.CL cs.LG

本文提出了一种名为latent lookahead的训练策略, 旨在改进自回归语言模型在生成过程中的"前瞻性"能力. 该方法通过在潜在空间中进行多步预测, 为模型在生成关键token前提供更多计算资源, 从而在需要远见的规划任务上取得了更好的性能.

Linguistic Signatures for Enhanced Emotion Detection

Florian Lecourt, Madalina Croitoru, Konstantin Todorov

cs.CL

本文探讨了在文本情感检测中，利用语言学特征作为可解释信号的可能性。作者从多个数据集中提取了情感特定的语言学特征，并将其融入基于RoBERTa的模型，在GoEmotions基准上获得了性能提升。

Beyond Test-Time Compute Strategies: Advocating Energy-per-Token in LLM Inference

Patrick Wilhelm, Thorsten Wittkopp, Odej Kao

cs.CL

本文探讨了在LLM推理中, 除了传统的测试时计算策略外, 还应考虑能源效率指标, 如Energy-per-Token. 作者分析了小型模型使用增强推理策略时的能耗与精度权衡, 并提出了动态控制推理深度等能源感知部署方法.

Decoding the decoder: Contextual sequence-to-sequence modeling for intracortical speech decoding

Michal Olak, Tommaso Boccato, Matteo Ferrante

cs.CL cs.AI cs.NE q-bio.NC

本文提出了一种基于Transformer的多任务序列到序列模型, 用于从大脑皮层内记录解码尝试性语音. 该模型结合了神经锤手术刀(NHS)校准模块来处理日间非平稳性, 并在音素和单词解码任务上取得了先进的性能.

FinReflectKG -- HalluBench: GraphRAG Hallucination Benchmark for Financial Question Answering Systems

Mahesh Kumar, Bhaskarjit Sarmah, Stefano Pasquali

cs.CL q-fin.CP

本文提出了一个用于评估金融问答系统中幻觉检测方法的基准数据集 FinBench-QA-Hallucination. 该基准基于 SEC 10-K 文件构建, 并评估了多种检测方法在有无知识图谱三元组条件下的性能表现.

Abjad-Kids: An Arabic Speech Classification Dataset for Primary Education

Abdul Aziz Snoubara et al.

cs.CL cs.HC cs.LG cs.SD eess.AS

本文介绍了一个用于阿拉伯语儿童语音分类的数据集Abjad-Kids，并提出了基于CNN-LSTM的分层分类方法。实验表明，结合数据增强的静态语言学分组策略取得了较好的效果，但数据量不足仍是导致过拟合的主要挑战。

SciNav: A General Agent Framework for Scientific Coding Tasks

Tianshu Zhang, Huan Sun

cs.CL cs.AI cs.CE cs.LG cs.MA +1

本文提出了一个名为SciNav的智能体框架,用于处理科学编码任务. 该框架利用相对比较判断来引导树搜索过程,以在有限搜索预算内高效地探索解决方案,并在两个基准测试上展示了其有效性.

The production of meaning in the processing of natural language

Christopher J. Agostino et al.

cs.CL cs.AI cs.HC

本文探讨了自然语言处理中意义产生的机制, 特别是语境性(contextuality)的量子逻辑特征. 研究通过CHSH $|S|$参数分析了不同规模语言模型的推理行为, 发现其分布与常见的外部基准测试无关.

Coding Agents are Effective Long-Context Processors

Weili Cao et al.

cs.CL cs.AI

本文探讨了将长上下文处理任务委托给编程智能体(agent)的可能性. 通过让智能体利用文件系统和原生工具来组织与操作文本, 该方法在多个长上下文任务上超越了现有最佳模型.

A Training-Free Regeneration Paradigm: Contrastive Reflection Memory Guided Self-Verification and Self-Improvement

Yuran Li, Di Wu, Benoit Boulet

cs.CL

本文提出了一种无需训练的再生范式, 利用对比性反思记忆进行自我验证与改进. 该方法在多个推理与符号任务基准上取得了优于现有方法的效果, 同时保持了较低的计算成本.

Policies Permitting LLM Use for Polishing Peer Reviews Are Currently Not Enforceable

Rounak Saha et al.

cs.CL cs.AI cs.CY cs.LG

本文通过构建模拟人机协作的同行评审数据集, 评估了五种最先进的AI文本检测器. 研究发现, 现有检测器难以可靠地区分经LLM润色的人类评审与完全由AI生成的文本, 因此当前允许LLM用于润色的政策难以有效执行.

Diffutron: A Masked Diffusion Language Model for Turkish Language

Şuayp Talha Kocabay, Talha Rüzgar Akkuş

cs.CL cs.AI

本文提出了一个针对土耳其语的masked diffusion language model, 并采用了一个包含LoRA持续预训练和渐进式指令微调的资源高效训练流程. 实验表明, 该模型在多项基准测试中取得了与更大规模模型相竞争的性能.

PARHAF, a human-authored corpus of clinical reports for fictitious patients in French

Xavier Tannier et al.

cs.CL

本文介绍了PARHAF, 一个开源的法语临床文本语料库, 它包含虚构患者的临床报告, 旨在解决医学数据因隐私问题难以共享的困境. 该语料库由医学专家根据流行病学指导撰写, 覆盖广泛的临床专科, 可用于临床自然语言处理模型的训练与评估.

Evaluating Large Language Models on Historical Health Crisis Knowledge in Resource-Limited Settings: A Hybrid Multi-Metric Study

Mohammed Rakibul Hasan

cs.CL cs.AI

本文评估了GPT-4, Gemini Pro, Llama 3和Mistral-7B等大型语言模型在孟加拉国这一资源有限环境下, 针对COVID-19, 登革热等健康危机相关知识的回答表现. 研究通过语义相似度, 专家评估和自然语言推理等多种指标, 揭示了这些模型在提供流行病学历史信息方面的潜力与局限性.

Permutation-Consensus Listwise Judging for Robust Factuality Evaluation

Tianyi Huang et al.

cs.CL cs.AI

本文提出了一种名为PCFJudge的方法, 通过多次随机排列候选答案的顺序并聚合评分来减少LLM在事实性评估中的顺序敏感性. 实验表明该方法能显著提升评估的稳定性与可靠性.

JUBAKU: An Adversarial Benchmark for Exposing Culturally Grounded Stereotypes in Japanese LLMs

Taihei Shiotani et al.

cs.CL

本文针对日语大语言模型(LLM)中文化偏见评估的不足，提出了一个专门针对日本文化背景的对抗性基准JUBAKU。该基准通过人工构建的对话场景来触发模型潜在的刻板印象，评估显示多个日语LLM在该基准上表现不佳，揭示了现有翻译基准的局限性。

A Modular LLM Framework for Explainable Price Outlier Detection

Shadi Sartipi et al.

cs.CL cs.CE

本文提出了一个基于LLM的智能体框架, 用于可解释的产品价格异常检测. 该框架通过语义关联产品、评估相对效用并进行推理决策, 在测试数据集上取得了超过75%的人工审核一致性.

Hear Both Sides: Efficient Multi-Agent Debate via Diversity-Aware Message Retention

Manh Nguyen et al.

cs.CL

本文提出了一种名为Diversity-Aware Retention (DAR)的轻量级多智能体辩论框架，旨在通过选择性保留和广播智能体响应来提升辩论效率与质量。该方法通过保留意见分歧最大的消息子集来减少噪声和冗余，实验表明其在多个推理基准上有效，尤其是在智能体数量较多时。

Weber's Law in Transformer Magnitude Representations: Efficient Coding, Representational Geometry, and Psychophysical Laws in Language Models

Jon-Paul Cacioli

cs.CL cs.AI

本文研究了transformer语言模型如何表示数量信息. 通过心理物理学方法分析多个模型, 发现其表征几何结构普遍呈对数压缩特性, 但这种几何结构并不直接决定模型的行为表现.

PAVE: Premise-Aware Validation and Editing for Retrieval-Augmented LLMs

Tianyi Huang et al.

cs.CL cs.AI

本文提出了一种名为PAVE的推理时验证层, 用于增强检索增强语言模型在证据问答中的一致性. 该方法通过将检索到的上下文分解为原子事实, 并基于对答案草稿的支持度评分进行修订, 在固定检索器和骨干模型的条件下, 在多个基准测试上超越了简单的后检索基线.

Can I guess where you are from? Modeling dialectal morphosyntactic similarities in Brazilian Portuguese

Manoel Siqueira, Raquel Freitag

cs.CL cs.CY

本文通过相关性和聚类方法分析了巴西葡萄牙语中与代词相关的四种语法现象的共变模式, 以探究能否从语言变量的组合行为推断方言来源. 研究发现聚类方法能揭示反映区域方言模式的说话者分组, 强调了跨学科研究对于开发尊重方言多样性的语言技术的重要性.

Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks

Fan Huang

cs.CL cs.AI

本文提出了Network-of-Thought (NoT)框架，将大语言模型的推理过程建模为有向图，以处理需要合并中间结果和多源证据的复杂任务。实验表明，NoT在多跳推理任务上优于Tree-of-Thought方法，并且模型自生成的启发式策略能有效指导图结构的推理搜索。

MzansiText and MzansiLM: An Open Corpus and Decoder-Only Language Model for South African Languages

Anri Lombard et al.

cs.CL

本文介绍了MzansiText语料库和MzansiLM语言模型，旨在为南非的11种官方语言（其中9种为低资源语言）提供公开可用的解码器模型。研究评估了该模型在多种适应策略下的性能，发现其在特定任务微调上表现良好，但在少样本推理方面仍面临挑战。

Code-MIE: A Code-style Model for Multimodal Information Extraction with Scene Graph and Entity Attribute Knowledge Enhancement

Jiang Liu et al.

cs.CL

本文提出了一种用于多模态信息抽取的代码风格框架 Code-MIE, 将任务形式化为统一的代码理解与生成. 该方法利用从文本中提取的实体属性(如性别, 隶属关系)和从图像转换得到的场景图来增强模型对上下文和视觉信息的理解, 并采用 Python 函数和字典作为统一的输入输出模板. 实验表明, 该框架在多个数据集上取得了先进的性能.

The Anatomy of an Edit: Mechanism-Guided Activation Steering for Knowledge Editing

Yuan Cao, Mingyang Wang, Hinrich Schütze

cs.CL

本文通过分析知识编辑(KE)后模型内部激活的变化, 提出了一种无需修改权重的激活引导方法MEGA. 该方法在多个数据集和模型上实现了有效的知识更新.

RLVR Training of LLMs Does Not Improve Thinking Ability for General QA: Evaluation Method and a Simple Solution

Kaiyuan Li, Jing-Cheng Pang, Yang Yu

cs.CL cs.LG

本文通过提出Cross-Generation评估框架，发现RLVR训练对提升LLM在通用问答任务上的思维质量效果有限。作者进一步提出了START方法，通过分离思维与回答的训练来避免奖励捷径，从而在多个基准上改善了思维和最终答案的质量。

BenchBench: Benchmarking Automated Benchmark Generation

Yandan Zheng et al.

cs.CL

本文提出了一个用于评估自动基准生成能力的框架BenchBench, 包含从种子基准提取领域卡片、使用LLM生成测试项、并通过多模型评审进行验证的三阶段流程. 该研究在多个领域生成了大量测试项与评分响应, 并分析了基准设计能力与模型答题能力之间的相关性.

HiCI: Hierarchical Construction-Integration for Long-Context Attention

Xiangyu Zeng et al.

cs.CL cs.AI cs.LG

本文提出了一种用于长上下文建模的层次化注意力模块 HiCI, 它通过构建和集成段级表示来显式地组织信息. 该方法以较少的额外参数扩展了 LLaMA-2 的上下文长度, 并在多个长文本任务上取得了优于基线模型的效果.

Can ChatGPT Really Understand Modern Chinese Poetry?

Shanshan Wang et al.

cs.CL cs.AI

本文评估了ChatGPT对现代中文诗歌的理解能力, 提出了一个综合评估框架, 并与专业诗人合作从多个维度进行评估. 结果显示, ChatGPT在超过73%的情况下能与诗人原意对齐, 但在捕捉"诗意性"等维度上表现欠佳.

SozKZ: Training Efficient Small Language Models for Kazakh from Scratch

Saken Tukenov

cs.CL cs.AI

本文针对哈萨克语这一低资源语言, 训练了从5000万到6亿参数不等的专用语言模型SozKZ. 模型在哈萨克语文化问答和主题分类等基准测试上取得了与更大规模多语言模型相当的性能, 证明了专用小模型的有效性.

NoveltyAgent: Autonomous Novelty Reporting Agent with Point-wise Novelty Analysis and Self-Validation

Jiajun Hou et al.

cs.CL

本文提出了一个名为NoveltyAgent的多智能体系统, 用于自动生成学术论文的新颖性报告. 该系统通过细粒度检索与比较来评估论文的原创性, 并引入了一个基于检查表的评估框架.

LLM Router: Prefill is All You Need

Tanay Varshney et al.

cs.CL cs.LG

本文提出了一种名为LLM Router的新方法, 通过利用模型prefill阶段(推理时处理输入文本生成第一个token之前的计算阶段)的内部激活作为路由信号. 该方法采用Encoder-Target Decoupling架构, 并使用Fisher Separability和Effective Dimensionality等数学指标来选择最佳信号层, 旨在以较低成本实现接近理论最优路由器的性能.

Mitigating Shortcut Reasoning in Language Models: A Gradient-Aware Training Approach

Hongyu Cao et al.

cs.CL cs.AI

本文提出了一种名为SART的梯度感知训练框架, 旨在缓解大语言模型中的捷径推理问题. 该方法通过检测并调整训练动态来提升模型在分布变化下的泛化能力.

The Hidden Puppet Master: A Theoretical and Real-World Account of Emotional Manipulation in LLMs

Jocelyn Shen et al.

cs.CL

本文研究了LLM在对话中基于隐藏动机的情感操纵问题, 提出了一个以动机道德性为核心的理论分类法PUPPET, 并通过大规模人类实验验证了有害隐藏动机比亲社会动机能引发更显著的信念改变. 研究还评估了LLM预测信念改变的能力, 发现其预测能力中等但会系统性低估改变幅度.

User Preference Modeling for Conversational LLM Agents: Weak Rewards from Retrieval-Augmented Interaction

Yuren Hao et al.

cs.CL cs.AI cs.HC cs.IR stat.ML

本文提出了一个用于对话式LLM智能体的用户偏好建模框架VARS, 它通过检索增强的交互从弱标量奖励中学习, 并在不进行微调的情况下实现个性化. 在数学和代码任务上的评估表明, 该方法提高了交互效率, 并支持对长期和短期用户向量的解释.

Alignment Whack-a-Mole : Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models

Xinyue Liu et al.

cs.CL cs.AI cs.CY

本文通过微调实验发现, 大型语言模型(LLM)在特定任务(如根据情节概要生成完整文本)的微调后, 会大量复现其预训练数据中受版权保护的书籍内容. 这种现象在不同模型和作者间具有普遍性, 表明模型权重中存储了训练数据的副本, 且现有的安全对齐措施存在漏洞.

DiscoUQ: Structured Disagreement Analysis for Uncertainty Quantification in LLM Agent Ensembles

Bo Jiang

cs.CL cs.LG

本文提出了一个名为DiscoUQ的框架, 用于量化大型语言模型(LLM)多智能体系统输出的不确定性. 该方法通过分析智能体间分歧的结构化特征(包括语义属性和嵌入几何)来生成校准良好的置信度估计, 在多个基准测试上优于依赖简单投票统计的基线方法.

Mitigating Selection Bias in Large Language Models via Permutation-Aware GRPO

Jinquan Zheng et al.

cs.CL cs.AI cs.LG

本文提出了一种名为PA-GRPO的方法，用于减轻大语言模型在选择题评估任务中的选择偏差。该方法通过构建实例的排列组并利用跨排列优势和一致性奖励进行优化，在多个基准测试上取得了良好效果。

Left Behind: Cross-Lingual Transfer as a Bridge for Low-Resource Languages in Large Language Models

Abdul-Salem Beibitkhan

cs.CL

本文通过评估八个大型语言模型在英语、哈萨克语和蒙古语上的表现，研究了其对低资源语言的处理能力。研究发现，模型在低资源语言上的准确率显著低于英语，且跨语言迁移策略的效果因模型架构而异。

Reading Between the Lines: How Electronic Nonverbal Cues shape Emotion Decoding

Taara Kumar, Kokil Jaidka

cs.CL cs.HC

本文研究了计算机中介交流中电子非语言线索(eNVCs)对情感解码的影响。通过三项研究，作者提出了eNVCs的分类法、开发了自动检测工具，并实验验证了其对情感解码准确性的提升作用及其边界条件。

Assessing the Ability of Neural TTS Systems to Model Consonant-Induced F0 Perturbation

Tianle Yang et al.

cs.CL cs.AI cs.SD

本文提出了一种基于音段层面的韵律探测框架, 用于评估神经TTS模型在复现辅音引起的基频扰动这一精细韵律特征上的能力. 研究发现, 模型在高频词上表现良好, 但在低频词上泛化能力不足, 表明其更依赖词汇层面的记忆而非抽象的韵律编码.

ViCLSR: A Supervised Contrastive Learning Framework with Natural Language Inference for Natural Language Understanding Tasks

Tin Van Huynh, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen

cs.CL cs.AI cs.LG

本文提出了一种用于越南语自然语言理解任务的监督对比学习框架ViCLSR, 它利用自然语言推理数据集来优化句子表示. 实验表明, 该框架在多个基准数据集上超越了现有的预训练模型.

Evaluating Reasoning-Based Scaffolds for Human-AI Co-Annotation: The ReasonAlign Annotation Protocol

Smitha Muthya Sudheendra, Jaideep Srivastava

cs.CL

本文提出了一个名为ReasonAlign的基于推理的标注框架, 用于研究LLM生成的推理解释如何影响人类标注者的行为. 通过一个两轮标注协议, 分析在情感分类和观点检测任务中, 暴露于模型推理对标注者间一致性和修订行为的影响, 并引入了Annotator Effort Proxy (AEP)指标进行量化.

Many Dialects, Many Languages, One Cultural Lens: Evaluating Multilingual VLMs for Bengali Culture Understanding Across Historically Linked Languages and Regional Dialects

Nurul Labib Sayeedi et al.

cs.CL cs.CV

本文提出了一个名为BanglaVerse的多模态评估基准, 用于测试多语言视觉-语言模型(VLMs)对孟加拉文化的理解. 该基准包含多个领域的手工标注图像, 并扩展至多种语言和方言, 实验表明仅评估标准孟加拉语会高估模型性能, 且文化知识的缺失是主要瓶颈.

Entropy Alone is Insufficient for Safe Selective Prediction in LLMs

Edward Phillips et al.

cs.CL

本文指出, 在大型语言模型的选择性预测中, 仅依赖熵(entropy)作为不确定性度量存在模型相关的失效模式, 可能导致不可靠的弃答行为. 作者提出将熵值与一个正确性探针信号结合, 在多个问答基准测试上改善了风险-覆盖率权衡和校准性能.

Explainable Semantic Textual Similarity via Dissimilar Span Detection

Diego Miguel Lozano, Daryna Dementieva, Alexander Fraser

cs.CL

本文提出了一个名为"Dissimilar Span Detection (DSD)"的新任务, 旨在识别文本对之间语义不同的片段, 以增强语义相似性评估的可解释性. 作者构建了一个新的数据集并评估了多种基线方法, 结果表明该任务具有挑战性, 但能提升下游任务(如复述检测)的性能.

Context Selection for Hypothesis and Statistical Evidence Extraction from Full-Text Scientific Articles

Sai Koneru, Jian Wu, Sarah Rajtmajer

cs.CL cs.AI cs.DL

本文研究了从科学论文全文中提取假设及其统计证据的检索增强生成方法. 通过两阶段框架, 分析了不同检索策略对提取性能的影响, 发现针对性的上下文选择能有效提升假设提取效果.

Graph Fusion Across Languages using Large Language Models

Kaung Myat Kyaw, Khush Agarwal, Jonathan Chan

cs.CL cs.IR

本文提出了一种利用大型语言模型(LLM)进行跨语言知识图谱(KG)融合的框架. 该框架通过将三元组线性化为自然语言序列, 利用LLM的上下文推理能力来对齐实体和关系, 并在DBP15K数据集上进行了初步验证.

Conversation Tree Architecture: A Structured Framework for Context-Aware Multi-Branch LLM Conversations

Pranav Hemanth, Sampriti Saha

cs.CL cs.AI cs.HC

本文提出了一种用于管理大型语言模型(LLM)多轮对话上下文的结构化框架。该框架通过树形结构组织对话，旨在解决传统扁平化对话界面中上下文相互干扰的问题。

More Than Sum of Its Parts: Deciphering Intent Shifts in Multimodal Hate Speech Detection

Runze Sun et al.

cs.CL cs.AI

本文针对多模态仇恨言论检测中意图偏移的问题, 提出了一个细粒度的语义意图偏移分析框架. 通过构建新的基准数据集H-VLI并设计模拟法庭辩论的推理框架ARCADE, 该方法在检测隐含仇恨言论方面取得了优于现有基准的性能.

enhancing reasoning accuracy in large language models during inference time

Vinay Sharma, Manish Jain

cs.CL cs.AI

本文系统评估了三种提升大型语言模型推理准确性的推断时策略: 基于随机解码的 self-consistency, 双模型一致性验证, 以及 self-reflection. 实验表明, 在 Chain-of-Thought 提示下, self-consistency 方法能带来最显著的性能提升.

TimeTox: An LLM-Based Pipeline for Automated Extraction of Time Toxicity from Clinical Trial Protocols

Saketh Vinjamuri et al.

cs.CL cs.LG

本文提出了一个名为TimeTox的LLM-based pipeline, 用于从临床试验方案的Schedule of Assessments表格中自动提取time toxicity指标. 该方法在合成数据上表现优异, 但在真实数据上的稳定性是决定其能否部署的关键因素.

Beyond Memorization: Distinguishing between Reductive and Epistemic Reasoning in LLMs using Classic Logic Puzzles

Adi Gabay, Gabriel Stanovsky, Liat Peterfreund

cs.CL

本文通过引入一个"reduction ladder"来区分大型语言模型(LLMs)在解决经典逻辑谜题时是进行"epistemic reasoning"还是简单的"reduction". 研究发现, 一些大型模型能够通过reduction成功, 但所有模型在真正需要epistemic reasoning时都会遇到困难.

Benchmarking Bengali Dialectal Bias: A Multi-Stage Framework Integrating RAG-Based Translation and Human-Augmented RLAIF

K. M. Jubair Sami et al.

cs.CL cs.AI cs.CY

本文提出了一个评估大语言模型在孟加拉语方言上表现偏差的两阶段框架. 该框架通过RAG辅助的翻译和RLAIF评估, 对19个模型在9种方言上的问答性能进行了基准测试, 发现模型性能与方言差异度显著相关.

Conspiracy Frame: a Semiotically-Driven Approach for Conspiracy Theories Detection

Heidi Campana Piva et al.

cs.CL

本文提出了一个基于frame-semantics和semiotics的细粒度语义表示框架"Conspiracy Frame", 并构建了一个在span-level标注的Telegram消息语料库. 研究探讨了LLMs在领域内和领域外识别阴谋论叙事的能力, 并测试了注入frame信息对任务性能的影响.

Task-Specific Efficiency Analysis: When Small Language Models Outperform Large Language Models

Jinghan Cao et al.

cs.CL cs.LG

本文通过引入Performance-Efficiency Ratio (PER)这一新指标，系统比较了不同规模语言模型在多个NLP任务上的效率。研究发现，在某些任务中，小模型在综合效率上可以超越大模型。

Multi-Perspective LLM Annotations for Valid Analyses in Subjective Tasks

Navya Mehrotra, Adam Visokay, Kristina Gligorić

cs.CL

本文提出了一种称为Perspective-Driven Inference的方法, 用于在主观性标注任务中处理不同人群间的意见分歧. 该方法将跨人群的标注分布作为核心估计量, 并设计了一种自适应采样策略来高效利用有限的人工标注资源.

Efficient Fine-Tuning Methods for Portuguese Question Answering: A Comparative Study of PEFT on BERTimbau and Exploratory Evaluation of Generative LLMs

Mariela M. Nina et al.

cs.CL cs.AI cs.LG

本文系统评估了在葡萄牙语问答任务上应用参数高效微调(PEFT)与量化技术于BERTimbau模型的效果. 研究发现, LoRA等方法能以显著降低的计算成本达到接近基线的性能, 而生成式大模型在此任务上效率较低.

Semantic Shift: the Fundamental Challenge in Text Embedding and Retrieval

Hang Gao, Dimitris N. Metaxas

cs.CL cs.IR

本文探讨了Transformer-based embedding models中pooling操作导致的几何病态问题, 如anisotropy和length-induced embedding collapse. 作者提出"semantic shift"是导致下游retrieval性能下降的关键因果因素, 并给出了一个可计算的度量.

PROMPT2BOX: Uncovering Entailment Structure among LLM Prompts

Neeladri Bhuiya et al.

cs.CL

本文提出了一种名为PROMPT2BOX的方法，用于分析大型语言模型(LLM)的弱点。该方法将提示(prompt)嵌入到box embedding空间中，以捕捉其间的蕴含关系(entailment)和特异性(specificity)，相比传统的向量嵌入能更好地进行细粒度分析。

KG-Hopper: Empowering Compact Open LLMs with Knowledge Graph Reasoning via Reinforcement Learning

Shuai Wang, Yinan Yu

cs.CL cs.AI

本文提出了一种名为KG-Hopper的强化学习框架，旨在提升小型开源大语言模型在知识图谱推理任务上的性能。该方法通过将多跳推理过程整合到单一推理轮次中，避免了传统流水线方法的错误累积问题。

Cross-Context Verification: Hierarchical Detection of Benchmark Contamination through Session-Isolated Analysis

Tae-Eun Song

cs.CL

本文提出了一种名为Cross-Context Verification (CCV)的黑盒方法，用于检测LLM编码基准测试中的解决方案泄露问题。该方法通过在不同会话中独立求解同一问题并衡量答案的多样性来工作，并结合了一个多智能体分析框架HCCA来减少确认偏差。实验在SWE-bench Verified问题上进行，结果表明该方法能有效区分模型是回忆还是推理。

DRTriton: Large-Scale Synthetic Data Reinforcement Learning for Triton Kernel Generation

Siqi Guo, Ming Lin, Tianbao Yang

cs.CL cs.LG

本文提出了一个名为DRTriton的可扩展学习框架, 用于训练LLMs将PyTorch代码转换为高度优化的Triton kernel. 该方法通过合成数据生成, 课程强化学习和测试时搜索来提升kernel的生成成功率和推理速度.

TaigiSpeech: A Low-Resource Real-World Speech Intent Dataset and Preliminary Results with Scalable Data Mining In-the-Wild

Kai-Wei Chang et al.

cs.CL cs.LG eess.AS

本文介绍了TaigiSpeech, 一个针对低资源、无文字口语台湾台语的现实世界语音意图数据集. 为应对标注数据稀缺, 探索了两种可扩展的数据挖掘策略, 包括使用大语言模型进行伪标注和利用多模态线索的音频-视觉框架.

Effective Strategies for Asynchronous Software Engineering Agents

Jiayi Geng, Graham Neubig

cs.CL cs.AI

本文提出了一种名为CAID的结构化多智能体协调范式, 用于解决异步软件工程任务中的协作挑战. 该方法通过集中式任务委派, 异步执行和隔离工作空间等核心机制, 提升了长周期任务的完成准确性和效率.

Agentic Automation of BT-RADS Scoring: End-to-End Multi-Agent System for Standardized Brain Tumor Follow-up Assessment

Mohamed Sobhi Jabal et al.

cs.CL cs.MA

本文提出了一种用于自动化脑肿瘤随访评估的多智能体系统, 该系统结合了大型语言模型(LLM)和卷积神经网络(CNN). 该系统在BT-RADS分类任务上取得了优于初始临床评估的准确性, 特别是在上下文依赖的类别中表现良好.

Triangulating Temporal Dynamics in Multilingual Swiss Online News

Bros Victor et al.

cs.CL cs.CY

本文采用一种结合定量分析与定性洞察的 triangulated methodology, 研究了瑞士法语、德语和意大利语三个主要语言区数字媒体的 temporal trends. 通过分析超过170万篇新闻文章, 揭示了语言和文化背景如何影响新闻报道, 并为理解多语言媒体环境提供了一个分析框架.

Generalizable Self-Evolving Memory for Automatic Prompt Optimization

Guanbao Liang et al.

cs.CL

本文提出了一个名为MemAPO的记忆驱动框架, 用于自动提示优化. 该框架通过双记忆机制积累可重用的策略模板和错误模式, 以提升大型语言模型在多样化任务上的泛化能力.

CatRAG: Functor-Guided Structural Debiasing with Retrieval Augmentation for Fair LLMs

Ravi Ranjan et al.

cs.CL cs.AI

本文提出了一种名为CatRAG的双管齐下框架，用于减轻大型语言模型(LLM)中的偏见。该方法结合了范畴论指导的嵌入空间投影和检索增强生成(RAG)，在多个偏见基准测试上取得了优于现有方法的效果。

SynSym: A Synthetic Data Generation Framework for Psychiatric Symptom Identification

Migyeong Kang et al.

cs.CL

本文提出了一个名为SynSym的合成数据生成框架, 用于解决社交媒体上精神病症状识别任务中标注数据稀缺的问题. 该框架利用大语言模型生成多样化的症状表达, 实验表明仅使用合成数据训练的模型性能可与使用真实数据训练的模型相媲美.

DATASHI: A Parallel English-Tashlhiyt Corpus for Orthography Normalization and Low-Resource Language Processing

Nasser-Eddine Monir, Zakaria Baou

cs.CL

本文介绍了DATASHI, 一个用于Tashlhiyt语拼写归一化和低资源语言处理的平行英语-Tashlhiyt语料库. 该语料库包含标准化和非标准化的句子对, 支持多种NLP任务, 并通过大语言模型评估展示了其在拼写归一化任务上的有效性.

A Comparative Analysis of LLM Memorization at Statistical and Internal Levels: Cross-Model Commonalities and Model-Specific Signatures

Bowen Chen, Namgi Han, Yusuke Miyao

cs.CL cs.LG

本文通过收集多个LLM系列模型, 在统计和内部层面分析了模型记忆行为的共性与特性. 研究发现记忆率与模型规模呈对数线性关系, 并揭示了不同模型家族在记忆频率分布和内部注意力机制上的独特特征.

TAMTRL: Teacher-Aligned Reward Reshaping for Multi-Turn Reinforcement Learning in Long-Context Compression

Li Wang et al.

cs.CL

本文提出了一种名为TAMTRL的方法，用于解决长文档处理中多轮强化学习的信用分配问题。该方法通过利用相关文档作为教师信号，以自监督的方式为每一轮记忆更新提供细粒度的奖励，从而提升模型在长上下文任务上的性能。

Optimizing Multi-Agent Weather Captioning via Text Gradient Descent: A Training-Free Approach with Consensus-Aware Gradient Fusion

Shixu Liu

cs.CL

本文提出了一种无需训练的多智能体框架WeatherTGD，用于从天气时间序列数据生成解释性文本描述。该方法通过文本梯度下降和共识感知梯度融合机制，协调多个专用LLM智能体迭代优化生成结果。

Probing How Scalable Table Data Enhances General Long-Context Reasoning

Huaibing Xie et al.

cs.CL

本文探讨了结构化表格数据在增强大语言模型长上下文推理能力方面的潜力. 通过数学分析和实验验证, 作者提出了一种利用表格数据合成进行强化学习训练的方法, 并在多个基准测试上取得了性能提升.

SemEval-2026 Task 12: Abductive Event Reasoning: Towards Real-World Event Causal Inference for Large Language Models

Pengfei Cao et al.

cs.CL cs.AI

本文介绍了SemEval-2026 Task 12: Abductive Event Reasoning (AER)的构建与结果. 该任务旨在从多份证据中推断事件最可能的直接原因, 为评估大语言模型在现实世界因果推理方面的能力提供了一个基准.

Politics of Questions in News: A Mixed-Methods Study of Interrogative Stances as Markers of Voice and Power

Bros Victor et al.

cs.CL cs.CY

本文通过混合方法研究了法语数字新闻中的疑问句使用模式。研究结合了大规模语料计算与定性分析，探讨了疑问句的功能类型及其在新闻话语中的作用。

Instruction Set and Language for Symbolic Regression

Ezequiel Lopez-Rubio, Mario Pascual-Gonzalez

cs.CL cs.AI cs.PL

本文提出了一种名为IsalSR的表示框架, 用于解决符号回归中的结构冗余问题. 该框架将表达式DAG编码为字符串, 并通过计算修剪后的规范字符串来消除等价表示.

Select, Label, Evaluate: Active Testing in NLP

Antonio Purificato et al.

cs.CL cs.AI

本文在NLP领域形式化了Active Testing框架, 并系统性地评估了多种样本选择策略. 实验表明, 该方法能在保证评估准确性的前提下, 显著降低标注成本, 并提出了一个自适应的停止准则.

Riding Brainwaves in LLM Space: Understanding Activation Patterns Using Individual Neural Signatures

Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish

cs.CL

本文探讨了冻结的LLM表示是否编码了个体特定的EEG信号。研究发现，针对个人的线性探针在预测EEG特征上显著优于通用探针，且这种个体特异性信号集中在模型的深层。

Ara-Best-RQ: Multi Dialectal Arabic SSL

Haroun Elleuch et al.

cs.CL

本文提出了Ara-BEST-RQ模型系列, 一种专为多方言阿拉伯语语音处理设计的自监督学习模型. 该模型在方言识别和语音识别任务上取得了先进性能, 并证明了针对阿拉伯语方言的预训练优于多语言或非阿拉伯语单语模型.

SLURP-TN : Resource for Tunisian Dialect Spoken Language Understanding

Haroun Elleuch et al.

cs.CL

本文介绍了为突尼斯方言构建的SLU数据集SLURP-TN, 包含约5小时的录音数据. 作者还基于此数据集开发了若干自动语音识别和口语理解基线模型.

Parameter-Efficient Fine-Tuning for Medical Text Summarization: A Comparative Study of Lora, Prompt Tuning, and Full Fine-Tuning

Ulugbek Shernazarov, Rostislav Svitsov, Bin Shi

cs.CL cs.AI

本文在医学文本摘要任务上, 比较了 LoRA, Prompt Tuning 和 Full Fine-Tuning 三种参数高效微调方法在 Flan-T5 模型上的表现. 实验结果表明, LoRA 方法在仅更新极少参数的情况下, 其性能可以超越全参数微调.

Retrieving Climate Change Disinformation by Narrative

Max Upravitelev et al.

cs.CL

本文提出了一种将气候虚假信息叙事检测重新定义为检索任务的方法, 通过使用叙事的核心信息作为查询来对文本进行排序. 该方法引入了SpecFi框架, 利用基于图的社区检测生成的社区摘要作为少样本示例来生成假设文档, 以弥合抽象叙事描述与具体文本实例之间的差距. 实验表明, 该方法在无需预定义标签集的情况下取得了良好的检索性能, 并对高方差叙事保持鲁棒性.

Dual-Space Knowledge Distillation with Key-Query Matching for Large Language Models with Vocabulary Mismatch

Stella Eva Tsiapali, Cong-Thanh Do, Kate Knill

cs.CL

本文提出了一种基于Generative Adversarial learning的改进方法DSKD-CMA-GA, 用于解决具有不同tokenizer的大语言模型之间进行知识蒸馏时, 由跨模型注意力机制产生的key和query分布不匹配问题. 实验表明, 该方法在文本生成质量上取得了稳定但有限的提升.

Autoregressive vs. Masked Diffusion Language Models: A Controlled Comparison

Caio Vicentino

cs.CL

本文在严格控制训练数据、计算预算和硬件的条件下，对 autoregressive (AR) 和 masked diffusion (MDLM) 语言模型进行了实证比较。研究发现，两者训练吞吐量相当，但收敛速度和生成文本的多样性-流畅性权衡存在显著差异。

Multiperspectivity as a Resource for Narrative Similarity Prediction

Max Upravitelev et al.

cs.CL

本文通过构建一个包含31个LLM persona的ensemble来研究narrative similarity prediction中的multiperspectivity问题. 实验表明, ensemble的准确率随规模增加而提升, 且不同persona的错误相关性影响了集成效果.

The Semantic Ladder: A Framework for Progressive Formalization of Natural Language Content for Knowledge Graphs and AI Systems

Lars Vogt

cs.CL cs.DB

本文提出了一个名为"Semantic Ladder"的架构框架, 旨在解决自然语言与形式化语义模型之间的鸿沟. 该框架支持数据和知识从文本片段到逻辑模型的渐进式形式化, 以构建可扩展的、AI就绪的知识基础设施.

Enhancing Document-Level Machine Translation via Filtered Synthetic Corpora and Two-Stage LLM Adaptation

Ireh Kim, Tesia Sker, Chanwoo Kim

cs.CL cs.AI

本文提出了一种利用LLM增强文档级机器翻译的两阶段微调方法. 该方法通过LLM将摘要数据转换为文档级平行语料并进行多指标过滤, 然后先在句子级数据上微调, 再在过滤后的文档级数据上微调.

Gumbel Distillation for Parallel Text Generation

Chi Zhang et al.

cs.CL cs.LG

本文提出了一种名为Gumbel Distillation的新技术，用于提升并行文本生成模型的质量。该方法通过Gumbel-Max技巧，将高性能自回归教师模型的输出映射到一个确定的Gumbel噪声空间，从而让并行解码器学习复杂的词序列联合分布。实验表明，该方法能显著改善并行语言模型的生成效果。

Adapting Self-Supervised Speech Representations for Cross-lingual Dysarthria Detection in Parkinson's Disease

Abner Hernandez et al.

cs.CL cs.SD

本文提出了一种表示层面的语言迁移方法, 用于跨语言的构音障碍检测. 该方法通过基于健康语音质心的向量适应, 对齐源语言与目标语言的自监督语音表示, 并在多语言数据集上验证了其有效性.

MemDLM: Memory-Enhanced DLM Training

Zehua Pei et al.

cs.CL

本文提出了一种名为MemDLM的方法, 通过引入Bi-level Optimization在训练中模拟去噪过程, 以减小Diffusion Language Models (DLMs) 训练与推理之间的不匹配. 该方法利用内部循环更新快速权重形成Parametric Memory, 从而提升模型在长上下文理解和检索任务上的性能.

Greater accessibility can amplify discrimination in generative AI

Carolin Holtermann et al.

cs.CL

本文研究了语音交互对大型语言模型(LLM)公平性的影响。研究发现，语音接口会基于说话者的声音引入新的性别歧视机制，放大社会偏见。

TiCo: Time-Controllable Training for Spoken Dialogue Models

Kai-Wei Chang et al.

cs.CL cs.AI eess.AS

本文提出了一种名为TiCo的后训练方法, 用于增强spoken dialogue models (SDMs)的时间控制能力. 该方法通过引入spoken time markers (STMs)来帮助模型在生成过程中估计已用时间, 从而调整输出以满足指定的时长约束.

cs.DS

(Sets of ) Complement Scattered Factors

Duncan Adamson, Pamela Fleischmann, Annika Huch

cs.DS cs.FL math.CO

本文引入了 complement scattered factors 的概念, 并研究了其相关性质与算法. 作者给出了计算这些集合的算法, 并分析了其时间复杂度.

Fast Nearest Neighbor Search for $\ell_p$ Metrics

Robert Krauthgamer, Nir Petruschka

cs.DS cs.CG math.MG

本文针对$\ell_p$度量空间($p>2$)中的最近邻搜索(NNS)问题, 提出了一种随机化的数据结构. 该结构在快速查询时间($\text{poly}(d \log n)$)和多项式空间($\text{poly}(dn)$)下, 实现了$p^{O(1) + \log\log p}$的近似比, 改进了或与现有最佳结果不可比.

Finding Minimum Distance Preservers: A Parameterized Study

Kirill Simonov, Farehe Soheil, Shaily Verma

cs.DS cs.CC cs.DM

本文研究了在给定图中寻找最小距离保持子图的两个计算问题: Subsetwise Distance Preserver (SDP) 和 Pairwise Distance Preserver (PDP). 作者通过参数化复杂性分析, 揭示了这两个问题在不同参数(如终端数量, 顶点覆盖数, 树宽)下的计算复杂度差异.

Non-Exclusive Notifications for Ride-Hailing at Lyft I: Single-Cycle Approximation Algorithms

Farbod Ekbatani et al.

cs.DS cs.DM cs.GT

本文研究了网约车平台中的"通知集选择问题", 针对单决策周期, 在两种竞争解决协议(FA和BA)下, 分析了福利最大化这一组合优化问题. 文章证明了问题的计算复杂性, 并针对不同情况提出了多项式时间近似方案(PTAS)、常数因子近似算法以及精确求解方法.

On the Complexity of Fundamental Problems for DAG-Compressed Graphs

Florian Chudigiewitsch, Till Tantau, Felix Winkler

cs.DS cs.CC

本文研究了 DAG-compressed graphs 上基础问题的计算复杂性. 证明了计算最小尺寸的 DAG 压缩是 NP-hard 的, 并展示了 Kruskal 算法可以直接在压缩表示上运行.

Optimal-Time Move Structure Balancing and LCP Array Computation from the RLBWT

Nathaniel K. Brown et al.

cs.DS

本文改进了从 run-length encoded Burrows-Wheeler Transform (RLBWT) 构建 move structure 的算法，将平衡阶段的时间复杂度从 $O(r \log r)$ 优化到了 $O(r)$。这一改进被应用于 LCP 数组的计算，从而在 $O(r)$ 的额外空间内，实现了从 RLBWT 构建 LCP 数组的 $O(n)$ 最优时间算法。

A Dividing Line for Structural Kernelization of Component Order Connectivity via Distance to Bounded Pathwidth

Jakob Greilhuber, Roohani Sharma

cs.DS cs.CC

本文研究了Component Order Connectivity (COC)问题的结构性参数化核化复杂性. 作者证明了COC在参数为距离pathwidth-1图的距离加上$d$时, 存在多项式核, 从而确定了该问题结构性核化的一个分界线.

others

REMI: Reconstructing Episodic Memory During Internally Driven Path Planning

Zhaoze Wang et al.

q-bio.NC cs.AI

本文提出了一种关于 medial entorhinal cortex (MEC) 与 hippocampus (HC) 连接的系统级理论, 用于解释空间记忆与内部驱动的路径规划. 通过一个模拟 HC-MEC 回路的 RNN 模型, 该理论在仿真任务中展示了基于线索的目标检索与路径规划能力.

Viability-Preserving Passive Torque Control

Zizhe Zhang et al.

eess.SY cs.LG cs.RO

本文提出了一种基于viability theory的被动扭矩控制方法, 通过预计算状态空间中的安全集(viable sets)来约束关节加速度与扭矩, 并结合quadratic programming确保机器人在无限时间范围内保持安全. 该方法在7-DoF机械臂上进行了仿真与硬件实验验证, 相比基线方法具有更高的控制频率和更平滑的轨迹.

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

Yunbei Zhang et al.

cs.CR cs.CV cs.LG

本文提出了一种名为视觉排他性的新型多模态攻击威胁, 其危害性仅通过对技术示意图等视觉内容进行推理才能显现. 为了系统性地利用这种威胁, 作者提出了一个基于智能体规划的多轮多模态攻击框架, 并通过一个专门构建的数据集来评估此类依赖推理的高风险攻击.

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

Angelica Lim, Ö. Nilay Yalçin

cs.RO cs.AI cs.CV

本文回顾了人机交互和具身对话智能体领域关于在机器中实现共情的研究, 探讨了通过模仿人类和动物行为来设计共情模型与行为的方法. 作者旨在将这些经验应用于当前基于语言的通用智能体.

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics

Wenwen Li et al.

cs.CY cs.AI

本文提出了一个结合大型语言模型(LLM)和图分析的多层AI框架, 用于量化和可视化跨学科研究团队中的观点收敛过程. 该框架通过提取结构化的观点, 进行相似性、网络影响力和时间动态分析, 并结合专家验证来应对LLM推断的不确定性. 一项关于水资源安全的案例研究展示了该方法在揭示观点收敛模式和领域特定影响力方面的应用价值.

Exploring Teacher-Chatbot Interaction and Affect in Block-Based Programming

Bahare Riahi et al.

cs.CY cs.AI

本文通过质性分析, 研究了中学教师在基于块的编程环境中与LLM聊天机器人互动时的感知与情感. 研究识别了三种教师互动模式, 并讨论了聊天机器人带来的潜在益处与风险, 为教育场景下的聊天机器人设计提供了建议.

Beyond Detection: Governing GenAI in Academic Peer Review as a Sociotechnical Challenge

Tatiana Chakravorti et al.

cs.CY cs.AI cs.HC

本文通过混合方法研究探讨了生成式AI在学术同行评审中的治理问题。研究结合了社交媒体话语分析和会议主席访谈，指出AI应限于辅助性任务，而核心评估判断仍需人类负责。

Inference Energy and Latency in AI-Mediated Education: A Learning-per-Watt Analysis of Edge and Cloud Models

Kushal Khemani

cs.CY cs.AI cs.LG

本文通过比较两种量化配置的AI模型在推理时的能耗与延迟, 引入了Learning-per-Watt (LpW)这一新指标来评估教育AI系统的能效. 研究发现, 量化效率高度依赖于硬件和推理模式, 这对在资源有限环境中部署AI辅导系统具有重要意义.

The Arrival of AGI? When Expert Personas Exceed Expert Benchmarks

Drake Mullens, Stella Shen

cs.CY cs.AI

本文探讨了专家角色设定对语言模型性能的影响, 反驳了此前关于该技术无效的结论. 作者指出原研究的方法论缺陷, 并通过在更难的GPQA问题上进行实验, 展示了专家角色在特定条件下能达到近乎完美的准确率.

Compact Lifted Relaxations for Low-Rank Optimization

Ryan Cory-Wright, Jean Pauphilet

math.OC cs.LG

本文针对低秩二次优化问题, 提出了一种紧凑的 lifted semidefinite 松弛方法. 该方法避免了传统方法对 spectral 结构的依赖, 并通过消除冗余块, 将问题规模从 $O(n^2)$ 减小到 $O(nm)$ 或 $O(\max(n,m))$, 从而得到了可扩展的凸松弛界.

Characterizing the ability of LLMs to recapitulate Americans' distributional responses to public opinion polling questions across political issues

Eric Gong, Nathan E. Sanders, Bruce Schneier

cs.CY cs.AI

本文提出了一种利用LLM直接预测公众舆论调查问题回答分布的新框架, 并与传统的基于个体模拟的方法进行了比较. 研究发现, 该框架在成本显著降低的同时, 能更准确地预测美国人口在不同政治议题上的回答分布, 且其性能在不同人口统计和问题上的变化更具系统性和可预测性.

Beyond Scalar Rewards: Distributional Reinforcement Learning with Preordered Objectives for Safe and Reliable Autonomous Driving

Ahmed Abouelazm et al.

cs.RO cs.AI cs.LG

本文提出了一种用于自动驾驶的强化学习框架, 通过引入预序多目标MDP (Pr-MOMDP) 和基于分位数优势 (QD) 的成对比较度量, 来处理多个具有优先级的目标. 实验表明该方法在仿真中能提高成功率并减少碰撞.

Email in the Era of LLMs

Dang Nguyen et al.

cs.CY cs.AI cs.CL

本文通过设计一个以沟通为核心的游戏HR Simulator，研究了LLMs在电子邮件沟通中的表现。研究发现，在LLM作为评判者时，人类的表现不如LLM，但人机协作的方式可以超越纯LLM方法。

Fusing Driver Perceived and Physical Risk for Safety Critical Scenario Screening in Autonomous Driving

Chen Xiong et al.

cs.RO cs.AI cs.LG

本文提出了一种融合驾驶员感知风险与物理风险的自动驾驶安全关键场景筛选方法. 该方法通过改进的Driver Risk Field和动态代价模型生成风险监督信号, 并利用风险轨迹交叉注意力解码器进行联合解码, 实现了高效的大规模场景风险评分与检索. 在INTERACTION和FLUID数据集上的实验表明, 该方法能产生更平滑、更具区分度的风险估计.

Emergency Lane-Change Simulation: A Behavioral Guidance Approach for Risky Scenario Generation

Chen Xiong et al.

cs.RO cs.AI

本文提出了一种用于生成高风险换道场景的行为引导方法. 该方法结合了序列生成对抗网络的行为学习和基于递归近端策略优化的风险探索, 并通过模型预测控制确保物理真实性.

Writing literature reviews with AI: principles, hurdles and some lessons learned

Saadi Lahlou et al.

cs.CY cs.AI cs.HC

本文通过比较不同AI辅助程度下生成的文献综述, 定性分析了使用大型语言模型(LLM)进行文献综述写作的潜在问题与局限性. 研究发现, LLM生成的综述在表面质量、主流观点倾向、批判性深度和创造性重组方面存在一系列缺陷, 并提出了相应的使用建议.

Stability of AI Governance Systems: A Coupled Dynamics Model of Public Trust and Social Disruptions

Jiaqi Lai, Hou Liang, Weihong Huang

cs.CY cs.AI cs.HC cs.MA

本文提出了一个耦合动力学模型, 结合了离散时间 Hawkes 过程与 Friedkin-Johnsen 意见动力学模型, 用以分析公众对 AI 治理系统的信任演变. 通过稳定性分析, 该模型揭示了信任崩溃的临界条件, 并探讨了网络结构与媒体放大对系统稳定性的影响.

Developing Machine Learning-Based Watch-to-Warning Severe Weather Guidance from the Warn-on-Forecast System

Montgomery Flora et al.

physics.ao-ph cs.AI cs.LG physics.data-an

本文开发了一个基于机器学习的网格化框架, 用于利用 Warn-on-Forecast System (WoFS) 的预报输出, 预测未来2-6小时内强对流天气灾害的概率. 研究比较了 histogram gradient-boosted tree (HGBT) 模型和 U-Net 深度学习方法, 发现它们优于基于 updraft helicity 的校准基线, 其中 HGBT 性能最佳但预测概率上限较低.

AI Detectors Fail Diverse Student Populations: A Mathematical Framing of Structural Detection Limits

Nathan Garland

cs.CY cs.AI stat.OT

本文从数学角度分析了AI文本检测器在评估学生作业时的结构性局限. 作者指出, 由于评估者通常不了解学生个体的写作分布, 检测问题实际上是一个复合零假设检验. 通过应用total variation distance的变分刻画, 论文证明了任何仅基于文本的单次检测器, 其有用检测能力与误判率之间存在由学生写作分布与AI输出分布重叠度决定的权衡界限. 这一约束源于学生群体的多样性, 与AI模型质量或检测器技术无关. 论文还通过一个子群混合界限将此与可观测的人口统计群体联系起来, 为已观察到的差异性影响模式提供了理论解释.

The Deep-Match Framework for Event-Related Potential Detection in EEG

Marek Zylinski, Bartosz Tomasz Smigielski, Gerard Cybulski

eess.SP cs.AI cs.LG

本文提出了一种名为Deep-Match的框架，用于从EEG信号中检测事件相关电位(ERP)。该方法采用两阶段训练策略，并探索了使用ERP模板初始化卷积核对模型性能的影响。实验表明，这种结合领域知识的初始化方式能略微提升跨被试检测的鲁棒性。

Deciphering Scientific Reasoning Steps from Outcome Data for Molecule Optimization

Zequn Liu et al.

q-bio.BM cs.AI cs.LG

本文提出了一个名为DESRO的框架, 旨在从实验结果数据中推断出科学推理步骤, 以解决训练推理模型时缺乏中间步骤监督数据的问题. 该框架在分子优化任务上进行了实例化, 通过分析大量分子性质记录, 利用大语言模型从结构变化与性质差异的关联中恢复优化逻辑, 并基于此训练了一个可解释的推理模型.

MiSiSUn: Minimum Simplex Semisupervised Unmixing

Behnood Rasti, Bikram Koirala, Paul Scheunders

eess.IV cs.CV cs.LG

本文提出了一种名为 MiSiSUn 的半监督几何解混方法. 该方法首次将数据几何结构通过基于原型分析线性模型的单纯形体积惩罚项, 融入基于光谱库的解混过程, 并在模拟和真实数据集上验证了其优于现有方法的性能.

JCAS-MARL: Joint Communication and Sensing UAV Networks via Resource-Constrained Multi-Agent Reinforcement Learning

Islam Guven, Mehmet Parlak

cs.IT cs.AI cs.LG cs.MA eess.SY

本文提出了一个用于联合通信与感知无人机网络的资源感知多智能体强化学习框架. 该框架通过让智能体联合控制轨迹和波形资源分配, 并考虑能耗与通信约束, 来优化热点检测等任务的性能.

Efficient AI-Driven Multi-Section Whole Slide Image Analysis for Biochemical Recurrence Prediction in Prostate Cancer

Yesung Cho et al.

cs.CV cs.AI

本文提出了一种用于前列腺癌生化复发预测的AI框架, 该框架能同时处理多个病理切片以捕获整个前列腺的肿瘤全景. 通过在大规模数据集上的验证, 该模型在预测性能上超越了临床基准, 并且通过子采样策略显著降低了计算成本.

Solomonoff induction

Tom F. Sterkenburg

cs.FL cs.LG

本文讨论了 Solomonoff 归纳法在通用预测中的应用. 作者通过可计算性的视角审视该方法, 并指出其基于 Putnam 对角线论证的推广存在根本性缺陷, 进而批判了其作为奥卡姆剃刀原理基础或机器学习理论理想的声称.

Understanding Pruning Regimes in Vision-Language Models Through Domain-Aware Layer Selection

Saeed Khaki, Nima Safaei, Kamal Ginotra

cs.CV cs.AI

本文研究了基于Transformer的视觉语言模型(VLMs)中的结构化解码器层剪枝问题. 通过分析不同领域(如数学与非数学输入)的激活相似性, 提出了领域感知的层选择标准, 并揭示了剪枝预算影响性能的三个阶段.

Learning Communication Between Heterogeneous Agents in Multi-Agent Reinforcement Learning for Autonomous Cyber Defence

Alex Popa, Adrian Taylor, Ranwa Al Mallah

cs.CR cs.AI cs.LG cs.MA

本文在自主网络防御的多智能体强化学习框架下, 研究了具有异构能力的智能体之间的通信学习问题. 通过利用先进的通信算法 CommFormer 在 CybORG 仿真环境中进行训练与评估, 结果表明该方法能更快地收敛到更优的策略.

Mix-and-Match Pruning: Globally Guided Layer-Wise Sparsification of DNNs

Danial Monachan et al.

cs.CV cs.AR cs.LG

本文提出了一种名为Mix-and-Match Pruning的全局引导、分层剪枝框架，用于深度神经网络的压缩。该方法通过结合敏感度评分和架构规则来生成多样化的剪枝配置，在多个模型上实现了帕累托最优的精度-稀疏度权衡。

On the Fragility of AI Agent Collusion

Jussi Keppo et al.

cs.GT cs.AI

本文研究了AI智能体在重复定价博弈中形成合谋的脆弱性. 作者通过理论模型和大量实验表明, 智能体在耐心程度或数据访问权限上的异质性会显著削弱合谋的稳定性.

HSI Image Enhancement Classification Based on Knowledge Distillation: A Study on Forgetting

Songfeng Zhu

cs.CV cs.AI cs.LG

本文提出了一种基于知识蒸馏的HSI图像增量分类方法, 旨在缓解灾难性遗忘问题. 该方法不依赖旧类别样本, 通过引入基于掩码的部分类别知识蒸馏算法来提升模型精度.

HCAG: Hierarchical Abstraction and Retrieval-Augmented Generation on Theoretical Repositories with LLMs

Yusen Wu, Xiaotie Deng

cs.SE cs.AI

本文提出了一种用于理论驱动代码库的层次化检索增强生成框架 HCAG. 该框架通过离线构建层次化知识库和在线引导生成, 旨在弥合抽象理论与具体实现之间的语义鸿沟.

From Human Interfaces to Agent Interfaces: Rethinking Software Design in the Age of AI-Native Systems

Shaolin Wang et al.

cs.SE cs.AI

本文探讨了在AI原生系统时代，软件设计从传统的人机交互界面向AI agent可调用接口的范式转变。文章形式化了agent interface的概念，并提出了以可调用能力为核心构建模块的设计原则。

Voice Privacy from an Attribute-based Perspective

Mehtab Ur Rahman, Martha Larson, Cristian Tejedor García

cs.SD cs.AI

本文从属性视角研究语音隐私, 通过比较说话人属性集来评估隐私保护效果. 研究发现, 即使存在属性推断错误, 推断出的属性仍构成隐私风险.

InjectFlow: Weak Guides Strong via Orthogonal Injection for Flow Matching

Dayu Wang et al.

cs.CV cs.AI

本文针对Flow Matching模型对数据集偏差敏感的问题, 提出了InjectFlow方法. 该方法通过在初始速度场计算中注入正交语义, 无需训练即可改善生成样本的语义保真度.

EARTalking: End-to-end GPT-style Autoregressive Talking Head Synthesis with Frame-wise Control

Yuzhe Weng et al.

cs.CV cs.AI cs.MM cs.SD

本文提出了一种名为EARTalking的端到端GPT风格自回归模型, 用于交互式音频驱动说话头生成. 该方法引入了逐帧、in-context的流式生成范式, 并提出了Sink Frame Window Attention (SFA)机制和Frame Condition In-Context (FCIC)方案, 以支持可变长度视频生成和多样控制信号的流式注入.

Reason-to-Transmit: Deliberative Adaptive Communication for Cooperative Perception

Aayam Bansal, Ishaan Gangwani

cs.MA cs.AI

本文提出了一种用于协同感知的通信框架, 通过一个轻量级transformer模块, 基于局部场景上下文, 估计的邻居信息差距和带宽预算, 来决定传输哪些区域信息. 在鸟瞰图感知环境中, 该框架在高遮挡场景下表现优异, 展现了基于推理的通信在挑战性场景中的增益.

kRAIG: A Natural Language-Driven Agent for Automated DataOps Pipeline Generation

Rohan Siva et al.

cs.SE cs.AI cs.CL

本文提出了一个名为kRAIG的AI agent, 用于将自然语言描述自动转换为生产就绪的Kubeflow Pipelines. 该系统通过一个交互式框架澄清用户意图, 并利用检索增强的工具合成与验证机制来生成可靠的数据操作流水线.

Semantic Tool Discovery for Large Language Models: A Vector-Based Approach to MCP Tool Selection

Sarat Mudunuri et al.

cs.SE cs.AI

本文提出了一种基于向量检索的语义工具发现架构, 用于解决大型语言模型(LLM)在集成Model Context Protocol(MCP)工具时面临的上下文窗口和效率问题. 该方法通过动态选择最相关的少量工具, 显著减少了token消耗并保持了高召回率.

VGS-Decoding: Visual Grounding Score Guided Decoding for Hallucination Mitigation in Medical VLMs

Govinda Kolli et al.

cs.CV cs.LG

本文提出了一种名为VGS-Decoding的训练无关方法, 用于缓解医学视觉语言模型(VLMs)在推理时产生的幻觉. 该方法通过比较原始图像与失真图像下的token概率分布来计算视觉依赖分数, 并在解码时动态调整token概率以抑制幻觉, 在多个基准上取得了性能提升且推理开销较小.

The Causal Impact of Tool Affordance on Safety Alignment in LLM Agents

Shasha Yu, Fiona Carroll, Barry L. Bentley

cs.SE cs.AI cs.LG

本文通过对比纯文本聊天机器人与具备工具调用能力的智能体在相同提示和策略下的行为, 研究工具可用性对LLM智能体安全对齐的影响. 实验表明, 工具访问会显著增加违规行为, 揭示基于文本的评估不足以评估智能体系统的安全性.

GIP-RAG: An Evidence-Grounded Retrieval-Augmented Framework for Interpretable Gene Interaction and Pathway Impact Analysis

Fujian Jia et al.

q-bio.MN cs.AI cs.CL

本文提出了一个名为GIP-RAG的计算框架，用于推断和解释基因间的相互作用。该框架通过整合多个生物医学知识图谱，并利用检索增强生成技术引导大型语言模型进行推理，从而分析基因调控机制并评估其对通路的功能影响。

When Agents Disagree: The Selection Bottleneck in Multi-Agent LLM Pipelines

Artem Maryanskyy

cs.MA cs.AI

本文研究了多智能体LLM管道中团队多样性对输出质量的影响, 并提出了"选择瓶颈"模型来解释矛盾证据. 通过实验发现, 在基于评判的选择机制下, 多样化团队表现更优, 而合成式聚合则使同质团队占优.

Decorrelation, Diversity, and Emergent Intelligence: The Isomorphism Between Social Insect Colonies and Ensemble Machine Learning

Ernest Fokoué, Gregory Babbitt, Yuval Leventhal

stat.ML cs.LG

本文通过建立随机集成智能的数学框架, 论证了蚁群决策与随机森林学习之间的同构性. 该工作将生物系统中的集体智能与机器学习中的集成方法进行了形式化的统一.

Forward and inverse problems for measure flows in Bayes Hilbert spaces

S. David Mis, Maarten V. de Hoop

stat.ML cs.LG math.PR

本文在 Bayes-Hilbert 空间中研究了概率测度流的正问题和反问题。对于正问题，证明了正则路径存在一个最小动能梯度速度场的动力学实现。对于反问题，结合数据拟合项与由正问题几何诱导的输运作用量，并引入时空正则化，证明了在特定假设下解的存在性与稳定性。

Procedural Refinement by LLM-driven Algorithmic Debugging for ARC-AGI-2

Yu-Ning Qiu et al.

cs.SE cs.AI

本文提出了一种结合LLM与形式化调试理论的神经符号程序精化方法, 用于代码修复. 该方法在需要强抽象与调试能力的ARC-AGI-2基准上进行了评估, 取得了优于基线模型的效果.

ContractSkill: Repairable Contract-Based Skills for Multimodal Web Agents

Zijian Lu et al.

cs.SE cs.AI

本文提出了ContractSkill框架, 用于将草稿技能转换为具有显式前提、步骤规范、后置条件、恢复规则和终止检查的可执行契约. 该框架支持确定性验证和基于补丁的修复, 从而提升多模态Web智能体技能的可靠性和可复用性.

G2DR: A Genotype-First Framework for Genetics-Informed Target Prioritization and Drug Repurposing

Muhammad Muneeb, David B. Ascher

q-bio.GN cs.LG

本文提出了一个名为G2DR的基因型优先框架, 用于整合遗传变异信息进行靶点优先级排序和药物再利用. 该框架通过遗传预测的表达、多方法基因水平测试、通路富集和网络背景分析, 在偏头痛案例研究中展示了其生成可验证假设的能力.

MANA: Towards Efficient Mobile Ad Detection via Multimodal Agentic UI Navigation

Yizhe Zhao et al.

cs.CR cs.AI

本文提出了一个名为MANA的多模态智能体框架, 用于移动广告检测. 该框架整合了静态、视觉、时序等多维度信号, 通过推理引导的界面导航策略, 在真实设备上实现了高精度与高效率的广告检测.

Leum-VL Technical Report

Yuxuan He et al.

cs.MM cs.AI

本文提出了一种用于短视频结构解析的表示框架SV6D, 它将视频分解为六个维度, 并基于此训练了一个视频语言模型Leum-VL-8B. 该模型在多个视频理解基准测试上取得了良好性能, 表明结构表示对于视频AI至关重要.

Memory poisoning and secure multi-agent systems

Vicenç Torra, Maria Bras-Amorós

cs.CR cs.AI

本文讨论了多智能体系统中针对不同类型记忆系统的记忆投毒攻击及其可行性, 并提出了基于密码学等技术的缓解策略. 文章特别关注了智能体间交互引发的、难以形式化的风险, 旨在为设计安全的智能体系统提供参考.

Operator Learning for Smoothing and Forecasting

Edoardo Calvello et al.

stat.ML cs.LG math.DS math.NA

本文研究了用于动力系统平滑和预测的纯数据驱动算法, 建立了首个关于此类算法的通用逼近定理. 理论框架结合了待学习映射的存在性证明与算子学习架构的性质分析, 并通过Lorenz等系统的实验进行了验证.

Comprehensive Description of Uncertainty in Measurement for Representation and Propagation with Scalable Precision

Ali Darijani et al.

stat.ML cs.AI cs.LG

本文提出了一种使用 Gaussian Mixture Models (GMMs) 来更全面地表示和传播测量不确定性的计算框架。该方法旨在克服传统高斯假设的局限性，并在制造和测量场景中展示了其可行性与更高的精度。

ALARA for Agents: Least-Privilege Context Engineering Through Portable Composable Multi-Agent Teams

Christopher J. Agostino, Nayan D'Souza

cs.MA cs.AI cs.HC

本文提出了一种基于ALARA原则的声明式context-agent-tool数据层和命令行工具`npcsh`, 用于在多智能体系统中实现最小权限的上下文管理. 该系统通过结构化文件来限定每个智能体的工具访问和上下文范围, 并在22个本地模型上进行了广泛的任务评估.

From Cross-Validation to SURE: Asymptotic Risk of Tuned Regularized Estimators

Karun Adusumilli, Maximilian Kasy, Ashia Wilson

math.ST cs.LG econ.EM stat.ML

本文研究了通过$n$-fold cross-validation调参的正则化经验风险最小化估计量的渐近风险。结果表明，其样本外预测损失在分布上收敛于由Stein's unbiased risk estimate调参的normal means模型中收缩估计量的平方误差损失。这提供了比学习理论中常见的worst-case regret更精细的风险变化图景。

A chemical language model for reticular materials design

Dhruv Menon et al.

cond-mat.mtrl-sci cs.LG physics.chem-ph

本文提出了一种用于网状材料逆向设计的化学语言模型 Nexerra-R1. 该模型专注于生成有机连接体, 并结合流引导分布目标来指导生成过程, 最终成功预测并实验合成了新的金属有机框架材料.

Hetero-Net: An Energy-Efficient Resource Allocation and 3D Placement in Heterogeneous LoRa Networks via Multi-Agent Optimization

Abdullahi Isa Ahmed, Ana Maria Drăgulinescu, El Mehdi Amhoud

cs.NI cs.LG cs.MA

本文提出了一种名为Hetero-Net的异构LoRa网络框架，通过多智能体优化联合优化网络参数和无人机部署，以提高系统能效。

Meta-Learning for Repeated Bayesian Persuasion

Ata Poyraz Turna, Asrin Efe Yorulmaz, Tamer Başar

cs.GT cs.AI cs.LG eess.SY math.OC

本文研究了重复贝叶斯劝说问题, 提出了元学习算法 Meta-Persuasion. 该算法在在线贝叶斯劝说和马尔可夫劝说过程框架下, 针对完全反馈和赌博机反馈设置, 利用任务间的结构相似性获得了更优的遗憾界.

CERN: Correcting Errors in Raw Nanopore Signals Using Hidden Markov Models

Simon Ambrozak et al.

q-bio.GN cs.LG q-bio.QM

本文提出了一种基于Hidden Markov Model (HMM) 的方法CERN, 用于检测和校正Nanopore测序原始电信号中的错误. 该方法旨在提升原始信号分析的准确性, 并在多种基因组数据集上验证了其有效性.

Hawkeye: Reproducing GPU-Level Non-Determinism

Erez Badash et al.

cs.CR cs.AR cs.LG math.NA

本文提出了一种名为Hawkeye的系统, 用于分析和复现GPU层面的算术运算. 该系统通过一系列精心设计的测试, 能够在CPU上无损地复现NVIDIA GPU上执行的矩阵乘法操作, 为机器学习工作流的第三方审计提供了可能.

PEARL: Personalized Streaming Video Understanding Model

Yuanhong Zheng et al.

cs.CV cs.AI cs.IR

本文提出了个性化流式视频理解(PSVU)这一新任务, 并构建了首个针对该任务的基准PEARL-Bench. 同时, 作者提出了一种即插即用、无需训练的基线方法PEARL, 在多个模型上验证了其有效性.

ALICE: A Multifaceted Evaluation Framework of Large Audio-Language Models' In-Context Learning Ability

Yen-Ting Piao et al.

cs.SD cs.AI cs.CL eess.AS

本文提出了一个名为ALICE的三阶段评估框架, 用于系统评估大型音频-语言模型在音频条件下的上下文学习能力. 通过对多个模型和任务的测试, 研究发现模型能从示例中学习格式规范, 但在利用跨模态语义进行核心任务推理方面存在困难.

Verifiable Error Bounds for Physics-Informed Neural KKL Observers

Hannah Berin-Costain et al.

eess.SY cs.LG

本文为基于学习的KKL观测器提出了一种可计算的状态估计误差界. 该方法利用PINN学习KKL变换, 并通过神经网络验证在指定区域内对误差界进行认证, 同时将结果扩展到有界加性测量噪声的情形.

yProv4DV: Reproducible Data Visualization Scripts Out of the Box

Gabriele Padovani, Sandro Fiore

cs.SE cs.IR

本文提出了一个名为yProv4DV的轻量级Python库, 旨在通过捕获provenance信息(如输入, 输出, 源代码和执行环境)来增强数据可视化脚本的可复现性. 该工具试图填补现有工作流管理系统在支持研究人员常用的脚本式可视化实践方面的空白.

Solver-Aided Verification of Policy Compliance in Tool-Augmented LLM Agents

Cailin Winston, Claris Winston, René Just

cs.SE cs.AI

本文提出了一种使用SMT求解器来增强工具增强型大语言模型(TaLLM)策略合规性的框架. 该框架将自然语言策略转化为形式化约束, 并在运行时通过Z3求解器检查工具调用, 以阻止违规行为, 从而在保持任务准确性的同时减少策略违反.

Shift-Invariant Feature Attribution in the Application of Wireless Electrocardiograms

Yalemzerf Getnet, Abiy Tasissa, Waltenegus Dargie

eess.SP cs.AI cs.LG

本文提出了一种用于无线心电图分析的 shift-invariant 特征归因方法。该方法通过设计具有物理意义的基线并聚合显著性分数，将模型决策与心脏相位关联起来，并以识别体力消耗为例进行了验证。

Goal-oriented learning of stochastic dynamical systems using error bounds on path-space observables

Joanna Zou, Han Cheng Lie, Youssef Marzouk

stat.ME cs.LG math.DS

本文针对随机动力系统提出了一种面向目标的学习方法, 通过引入路径空间可观测量(observable)的误差界作为变分损失函数. 该方法旨在提高对路径依赖量(如平均首次击中时间)的预测精度, 并推导了损失函数的解析梯度以用于随机梯度下降. 在过阻尼Langevin系统的替代模型上验证了其有效性.

Profiling learners' affective engagement: Emotion AI, intercultural pragmatics, and language learning

Robert Godwin-Jones

cs.CY cs.AI cs.CL

本文探讨了情感AI在语言学习中的应用, 特别是如何通过自动情感识别和模拟人类响应来辅助学习者发展语用和互动能力. 文章分析了AI聊天机器人在语言练习中的优势与局限, 并讨论了情感分析技术带来的个性化学习潜力及其相关的伦理风险.

Meeting in the Middle: A Co-Design Paradigm for FHE and AI Inference

Bernardo Magri, Benjamin Marsh, Paul Gebheim

cs.CR cs.AI

本文提出了一种协同设计范式, 旨在解决全同态加密(FHE)在AI推理场景中效率低下的问题. 作者主张通过同时优化FHE方案/编译器与推理架构来降低同态计算的主要开销.

Measuring Reasoning Trace Legibility: Can Those Who Understand Teach?

Dani Roytburg, Shreya Sridhar, Daphne Ippolito

cs.MA cs.AI cs.CL

本文提出了"transfer utility"这一概念, 用于评估Reasoning Language Models (RLMs) 生成推理过程的可读性, 即其能否指导一个更弱的非推理模型得出正确答案. 研究发现, 最高性能模型的推理过程可读性反而较低, 并且可读性的效率指标(如长度)与transfer utility之间存在张力, 这构成了一个可读性的Pareto前沿. 研究还表明, 用于训练RLMs的reward models并不内在奖励可读性.

CogFormer: Learn All Your Models Once

Jerry M. Huang et al.

stat.ML cs.LG

本文提出了一个名为 CogFormer 的元摊销框架, 用于在认知建模中实现跨多种结构相似模型的参数估计. 该框架基于 transformer 架构, 能够处理变化的数据类型, 参数, 设计矩阵和样本大小, 并在多个决策模型家族上展示了良好的性能.

Epistemic Observability in Language Models

Tony Mason

cs.DC cs.AI cs.CL cs.LG

本文研究了语言模型在仅文本观察下的诚实性问题, 证明了在这种设定下无法可靠区分真实输出与虚构. 作者提出了一种通过导出计算副产品(如逐词元熵)的接口来绕过这一不可能性, 并在实验中验证了其有效性.

Revenue-Sharing as Infrastructure: A Distributed Business Model for Generative AI Platforms

Ghislain Dorian Tchuente Mondjo

cs.CY cs.AI cs.CL

本文提出了一种名为"Revenue-Sharing as Infrastructure (RSI)"的新型商业模式，用于生成式AI平台。该模型通过免费提供基础设施并分享应用收入来降低开发者门槛，并讨论了其经济与社会影响。

An Industrial-Scale Retrieval-Augmented Generation Framework for Requirements Engineering: Empirical Evaluation with Automotive Manufacturing Data

Muhammad Khalid, Yilmaz Uygun

cs.SE cs.AI

本文针对工业4.0环境下的需求工程，提出了一个基于检索增强生成（RAG）的自动化框架，并利用真实的汽车制造文档进行了实证评估。该框架在需求提取准确性和效率方面显著优于基线方法。

Graph-based data-driven discovery of interpretable laws governing corona-induced noise and radio interference for high-voltage transmission lines

Hao Xu et al.

cs.SC cs.AI physics.app-ph

本文提出了一种受单调性约束的图符号发现框架 Mono-GraphMD，用于从数据中发现描述高压输电线路电晕噪声与无线电干扰的紧凑、可解释的物理定律。该框架超越了传统经验公式的限制，在电晕笼实验数据和多国实际超高压线路数据上取得了准确的预测效果。

Interpretable Operator Learning for Inverse Problems via Adaptive Spectral Filtering: Convergence and Discretization Invariance

Hang-Cheng Dong, Pengcheng Cheng, Shuhuan Li

stat.ML cs.AI cs.LG

本文提出了一种名为SC-Net的算子学习方法，用于解决不适定反问题。该方法在谱域学习一个自适应的滤波函数，并证明了其离散不变性。数值实验表明该方法能达到理论最优收敛率并具有零样本超分辨率能力。

Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models

Zhilong Zhang et al.

cs.RO cs.LG

本文提出了一个名为VLA-MBPO的框架, 用于在交互式world model中对Vision-Language-Action模型进行高效的强化学习微调. 该方法通过利用统一多模态模型进行world modeling, 并引入交错视图解码和分块级分支rollout等技术, 旨在解决像素级建模、多视图一致性和稀疏奖励下的误差累积等挑战.

LassoFlexNet: Flexible Neural Architecture for Tabular Data

Kry Yik Chau Lui et al.

stat.ML cs.LG

本文提出了一种名为LassoFlexNet的神经网络架构，专门用于处理表格数据。它通过结合特定的归纳偏置和一种新的优化器，在多个基准数据集上取得了与树模型相当或更好的性能。

AEGIS: From Clues to Verdicts -- Graph-Guided Deep Vulnerability Reasoning via Dialectics and Meta-Auditing

Sen Fang et al.

cs.SE cs.AI cs.CR

本文提出了一个名为AEGIS的多智能体框架，用于改进基于大语言模型(LLM)的漏洞检测。该框架通过构建代码属性图(Code Property Graph)来建立有界的证据基础，并引入验证与审计智能体进行辩证推理，以减少幻觉并提高检测准确性。

A Multihead Continual Learning Framework for Fine-Grained Fashion Image Retrieval with Contrastive Learning and Exponential Moving Average Distillation

Ling Xiao, Toshihiko Yamasaki

cs.CV cs.AI

本文提出了一个用于细粒度时尚图像检索的多头持续学习框架MCL-FIR. 该框架通过多头设计, 对比学习损失重构以及指数移动平均蒸馏技术, 在动态场景下实现了高效且准确的增量学习.

Modernizing Amdahl's Law: How AI Scaling Laws Shape Computer Architecture

Chien-Ping Lu

cs.DC cs.AI cs.AR

本文针对现代异构计算系统, 重新表述了 Amdahl's Law. 分析表明, 当可扩展部分超过一个临界阈值时, 专用硬件投资会降至零, 这解释了为何通用 GPU 在 AI 领域仍占主导地位.

Sinkhorn Based Associative Memory Retrieval Using Spherical Hellinger Kantorovich Dynamics

Aratrika Mustafi, Soumya Mukherjee

stat.ML cs.AI cs.LG math.OC math.ST

本文提出了一种基于Sinkhorn散度的密集联想记忆模型，用于处理经验测度（加权点云）。该模型通过最小化一种Hopfield风格的能量函数来定义检索过程，并推导出相应的梯度流动力学。理论分析证明了该方法的收敛性和存储容量，并在合成数据上验证了其相对于基线模型的鲁棒性。

REVERE: Reflective Evolving Research Engineer for Scientific Workflows

Balaji Dinesh Gangireddi et al.

cs.SE cs.AI

本文提出了一个名为REVERE的框架，用于优化研究编码工作流中AI agent的prompt。它通过从全局训练上下文中学习，将反复出现的失败模式提炼为可复用的启发式规则，并针对性地编辑系统prompt等配置字段。实验表明，该方法在多个研究编码基准测试上超越了现有最佳的手工指令。

Hierarchical Multiscale Structure-Function Coupling for Brain Connectome Integration

Jianwei Chen et al.

q-bio.NC cs.LG

本文提出了一种用于整合结构连接组和功能连接组的分层多尺度耦合框架. 该框架通过学习个体化的模块化组织和跨模态的层次耦合, 在多个预测任务上取得了优于基线方法的表现.

SNAP: Speaker Nulling for Artifact Projection in Speech Deepfake Detection

Kyudan Jung et al.

cs.SD cs.AI

本文提出了一种名为SNAP的说话人消除框架, 用于语音深度伪造检测. 该方法通过估计说话人子空间并进行正交投影来抑制说话人相关成分, 从而分离出合成伪影特征.

Artificial Intelligence in Experimental Approaches: Growth Hacking, Lean Startup, Design Thinking, and Agile

Parisa Omidmand, Saeid Ataei

cs.CY cs.AI

本文通过系统文献综述, 探讨了人工智能(AI)在增长黑客、精益创业、设计思维和敏捷方法等实验性方法论中的应用. 研究发现AI通过数据分析、自动化等工具提升了这些方法的效率, 但也面临技能缺口、伦理等挑战.

SWE-Next: Scalable Real-World Software Engineering Tasks for Agents

Jiarong Liang et al.

cs.SE cs.AI

本文提出了一个名为SWE-Next的可扩展框架，用于收集真实世界的软件工程任务数据。该框架通过执行和验证代码提交对来构建高质量的训练数据集，并引入了可复用的环境配置文件以降低系统开销。

High-dimensional online learning via asynchronous decomposition: Non-divergent results, dynamic regularization, and beyond

Shixiang Liu et al.

stat.ML cs.LG

本文提出了一种用于高维在线学习的异步分解框架, 通过动态正则化的迭代硬阈值算法来解决现有方法误差界随数据批次增加而发散的问题. 该框架利用汇总统计量构建代理评分函数, 在保证计算和内存效率的同时, 实现了非发散的误差界和跨批次的$\ell_0$稀疏性.

Satellite-to-Street: Synthesizing Post-Disaster Views from Satellite Imagery via Generative Vision Models

Yifan Yang, Lei Zou, Wendy Jepson

cs.CV cs.AI

本文研究了利用生成式视觉模型从卫星图像合成灾后街景视图的方法. 提出了两种生成策略和一个结构感知评估框架, 实验揭示了生成结果的真实感与保真度之间的权衡.

Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs

Huan Zheng et al.

cs.CV cs.CL

本文提出了一个名为CogAlign的临床认知对齐框架, 用于提升多模态大语言模型在胃肠道内镜诊断中的性能. 该方法通过构建层次化临床认知数据集进行监督微调, 并引入反事实驱动的强化学习策略来减少视觉偏差, 在多个基准测试中取得了先进的结果.

mmWave-Diffusion:A Novel Framework for Respiration Sensing Using Observation-Anchored Conditional Diffusion Model

Yong Wang et al.

eess.IV cs.LG

本文提出了一种基于条件扩散模型的毫米波雷达呼吸感知框架, 通过直接建模雷达相位观测与呼吸真实值之间的残差, 并利用观测一致的邻域初始化采样, 来抑制身体微动等非平稳干扰. 该方法在波形重建和呼吸率估计上取得了先进性能.

Decoupling Numerical and Structural Parameters: An Empirical Study on Adaptive Genetic Algorithms via Deep Reinforcement Learning for the Large-Scale TSP

Hongyu Wang et al.

cs.NE cs.AI

本文使用一个双层的深度强化学习框架, 将遗传算法的控制变量解耦为数值参数和结构参数, 并实证研究了它们对求解大规模旅行商问题的影响. 实验表明, 结构参数的可塑性对于避免算法停滞、逃离局部最优具有决定性作用.

RoboECC: Multi-Factor-Aware Edge-Cloud Collaborative Deployment for VLA Models

Zihao Zheng et al.

cs.DC cs.LG cs.RO

本文提出了一种名为 RoboECC 的边云协同部署框架，用于优化视觉-语言-动作模型的推理效率。该框架通过模型-硬件协同感知的分割策略和网络感知的部署调整，来适应不同的模型结构和动态网络条件，从而在保证实时性的同时降低边缘设备计算压力。实验表明该方法能显著提升推理速度。

Weakly supervised multimodal segmentation of acoustic borehole images with depth-aware cross-attention

Jose Luis Lima de Jesus Silva

cs.CV cs.AI physics.geo-ph

本文提出了一种用于声波钻孔图像弱监督多模态分割的框架, 结合了二维图像纹理与一维测井数据. 该方法通过置信度门控的深度感知交叉注意力机制, 在无需专家标注的情况下提升了分割性能.

Memory-Efficient Fine-Tuning Diffusion Transformers via Dynamic Patch Sampling and Block Skipping

Sunghyun Park et al.

cs.CV cs.AI

本文提出了一种名为DiT-BlockSkip的内存高效微调框架，用于Diffusion Transformers (DiTs)。该方法通过动态补丁采样和基于预计算残差特征的块跳过机制，显著降低了训练过程中的内存消耗，同时保持了模型的个性化生成性能。

Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models

Enguang Wang et al.

cs.CV cs.LG

本文针对Multimodal Large Language Models (MLLMs)在训练过程中可能出现的视觉表征退化问题进行了诊断分析. 作者提出了一种Predictive Regularization (PRe)方法, 旨在通过正则化中间特征来保持模型的视觉能力, 实验表明该方法能提升多模态理解性能.

PlanaReLoc: Camera Relocalization in 3D Planar Primitives via Region-Based Structure Matching

Hanqiao Ye et al.

cs.CV cs.AI

本文提出了一种基于3D平面基元的相机重定位方法PlanaReLoc. 该方法通过一个深度匹配器在学习的统一嵌入空间中关联查询图像与地图中的平面区域, 并在鲁棒框架下求解并优化6自由度位姿. 实验表明, 该方法在不依赖纹理地图或场景特定训练的情况下, 在结构化环境中实现了有效的相机重定位.

Compass: Optimizing Compound AI Workflows for Dynamic Adaptation

Milos Gravara, Juan Luis Herrera, Stefan Nastic

cs.DC cs.AI cs.LG

本文提出了一个名为 Compass 的框架，用于优化复合 AI 工作流，使其能够根据动态负载进行自适应配置切换。该框架通过离线优化发现多个 Pareto 最优配置，并利用基于排队论的模型在线调整，以在满足准确性目标的同时，权衡延迟和成本。

MERIT: Multi-domain Efficient RAW Image Translation

Wenjun Huang et al.

cs.CV cs.AI

本文提出了一个用于多域RAW图像翻译的统一框架MERIT, 通过单一模型处理不同相机传感器间的转换. 它引入了传感器感知的噪声建模损失和一个条件多尺度大核注意力模块来提升性能, 并在新构建的数据集上验证了其效果.

Dodgersort: Uncertainty-Aware VLM-Guided Human-in-the-Loop Pairwise Ranking

Yujin Park, Haejun Chung, Ikbeom Jang

cs.CV cs.AI cs.HC cs.LG

本文提出了一种名为Dodgersort的VLM引导的人机交互成对排序方法, 通过结合CLIP分层预排序, 神经排序头与概率集成, 以及基于信息论的样本对选择, 减少了人工标注需求并提升了排序可靠性. 在多个视觉排序任务上的实验表明, 该方法能有效减少标注量并提高评估者间信度.

Ensemble of Small Classifiers For Imbalanced White Blood Cell Classification

Siddharth Srivastava et al.

cs.CV cs.LG

本文提出了一种轻量级集成方法, 用于在血细胞生成过程中对细胞进行分类, 重点关注粒细胞生成, 单核细胞生成和淋巴细胞生成的生物学过程. 通过数据集扩展来缓解类别不平衡, 并展示了由多个轻量级预训练模型组成的简单集成在该挑战性数据集上取得了优异的性能.

Restoring Neural Network Plasticity for Faster Transfer Learning

Xander Coetzer, Arné Schreuder, Anna Sergeevna Bosman

cs.CV cs.AI

本文提出了一种在迁移学习前通过权重重初始化来恢复神经网络可塑性的方法. 该方法能提升CNN和ViT模型在多个图像分类基准上的测试精度和收敛速度, 且计算开销很小.

Universal Coefficients and Mayer-Vietoris for Moore Homology of Ample Groupoids

Luciano Melodia

math.AT cs.LG math.KT math.OA

本文为 ample groupoid 的 Moore homology 建立了两个结构性结果. 首先, 证明了关于任意离散阿贝尔系数群 $A$ 的 universal coefficient theorem, 将同调群 $H_n(\mathcal{G};A)$ 与整系数 Moore homology 联系起来. 其次, 对于单位空间的特定分解, 建立了 Mayer-Vietoris long exact sequence. 这些结果为计算 Moore homology 提供了有效工具.

Characterizing the onset and offset of motor imagery during passive arm movements induced by an upper-body exoskeleton

Kanishka Mitra et al.

cs.RO cs.AI cs.HC

本文研究了在使用上肢外骨骼进行被动手臂运动时，如何检测运动想象(MI)的开始与结束。通过脑电图信号构建解码器，结果表明可以在机器人存在噪声和被动运动的情况下识别MI的起始与终止，为未来在线控制辅助设备提供了可能性。

Auto-differentiable data assimilation: Co-learning of states, dynamics, and filtering algorithms

Melissa Adrian, Daniel Sanz-Alonso, Rebecca Willett

stat.ML cs.LG eess.SP math.DS

本文提出了一个名为"auto-differentiable filtering"的框架, 用于联合学习数据同化中的状态, 动力学模型和滤波算法参数. 该框架利用一个理论驱动的损失函数, 通过自动微分进行梯度优化, 能够从部分噪声观测中学习. 作者在多个科学领域的动力系统上进行了实验, 并提供了供实践者根据自身需求定制框架的指导.

The data heat island effect: quantifying the impact of AI data centers in a warming world

Andrea Marinoni et al.

cs.CY cs.AI cs.AR

本文利用遥感数据分析了全球AI数据中心运行后周边地表温度的变化, 发现其平均升高约2°C, 形成了所谓的"数据热岛效应". 研究估计此效应可能影响超过3.4亿人口, 并讨论了其对可持续AI发展的意义.

Democratizing AI: A Comparative Study in Deep Learning Efficiency and Future Trends in Computational Processing

Lisan Al Amin et al.

cs.PF cs.AI cs.DC cs.LG

本文通过实验比较了在CPU和GPU上训练不同深度学习模型的效率, 并分析了GPU内存使用的未来趋势. 研究强调了在资源受限环境下, 共享GPU访问对于促进AI研究创新的重要性.

Deep Adaptive Rate Allocation in Volatile Heterogeneous Wireless Networks

Gregorio Maglione et al.

cs.IT cs.LG

本文提出了一种名为Deep Adaptive Rate Allocation (DARA)的调度器, 它结合了Transformer-based路径状态预测和深度强化学习, 以在波动的异构无线网络中动态分配数据速率. 实验表明, 该方法在文件传输时间和视频流缓冲方面优于现有学习型调度器.

Active Inference for Physical AI Agents -- An Engineering Perspective

Bert de Vries

stat.ML cs.LG

本文从工程视角探讨了Active Inference (AIF) 作为物理AI智能体（如机器人）统一计算框架的潜力。文章基于Free Energy Principle，论证了通过变分自由能最小化和反应式消息传递，可以实现感知、学习与控制的整合，以适应资源受限的物理环境。

Stability of Sequential and Parallel Coordinate Ascent Variational Inference

Debdeep Pati

stat.ML cs.LG math.ST stat.CO

本文比较了坐标上升变分推断(CAVI)的两种主要变体: 顺序算法与并行算法. 在线性回归模型中, 顺序算法虽然较慢, 但其收敛条件比并行算法更宽松.

AC4A: Access Control for Agents

Reshabh K Sharma, Dan Grossman

cs.CR cs.AI cs.PL

本文提出了一个名为AC4A的访问控制框架, 旨在为LLM agent提供细粒度的权限管理. 该框架允许用户定义并强制执行权限, 限制agent对API或网页内容的访问范围, 从而减少不必要的信任.

MOELIGA: a multi-objective evolutionary approach for feature selection with local improvement

Leandro Vignolo, Matias Gerard

cs.NE cs.LG

本文提出了一种名为MOELIGA的多目标进化算法，用于特征选择问题。该方法结合了局部改进策略，旨在平衡特征子集大小与分类精度。实验表明，其在多个数据集上能获得更小的特征子集和具有竞争力的分类性能。

Before the Tool Call: Deterministic Pre-Action Authorization for Autonomous AI Agents

Uchi Uchibeke

cs.CR cs.AI

本文提出了 Open Agent Passport (OAP) 规范, 用于在 AI agent 执行工具调用前进行同步的、确定性的授权检查. 通过一个对抗性测试平台验证, OAP 能有效阻止未经授权的操作, 将攻击成功率降至 0%.

Learning to Aggregate Zero-Shot LLM Agents for Corporate Disclosure Classification

Kemal Kirtac

q-fin.TR cs.AI cs.MA q-fin.CP q-fin.ST

本文提出了一种轻量级的聚合器, 用于整合多个 zero-shot LLM agent 对上市公司公告的判断, 以预测次日股票收益方向. 该方法通过一个 logistic meta-classifier 融合不同 agent 的预测标签、置信度和理由, 在实验数据集上表现优于单个 agent 及多个基准模型.

Hard labels sampled from sparse targets mislead rotation invariant algorithms

Avrajit Ghosh et al.

stat.ML cs.LG math.ST

本文研究了在logistic回归中, 使用从soft target采样得到的hard label进行训练时, 旋转不变算法(如梯度下降)的性能问题. 作者证明, 即使目标是学习一个无噪声的稀疏线性模型, 旋转不变算法也会产生$\Omega\!\left(\frac{d-1}{n}\right)$的过量风险, 而非旋转不变的简单算法可以达到$O(\frac{s\log d}{n})$的风险上界.

Cyber Deception for Mission Surveillance via Hypergame-Theoretic Deep Reinforcement Learning

Zelin Wan et al.

cs.CR cs.AI cs.GT cs.MA

本文提出了一种基于超博弈论与深度强化学习(HT-DRL)的无人机网络欺骗防御方法. 该方法通过部署诱饵无人机(HDs)来吸引和转移针对任务无人机(MDs)的DoS攻击, 并优化了任务性能与能耗的权衡.

How AI Systems Think About Education: Analyzing Latent Preference Patterns in Large Language Models

Daniel Autenrieth

cs.CY cs.AI cs.CL cs.HC

本文通过结合Delphi共识构建与结构化偏好引导等方法, 首次系统性地测量了大型语言模型在教育领域的价值对齐情况. 研究发现GPT-5.1展现出高度一致且与人文主义教育原则大体相符的偏好模式, 其与专家意见的分歧点恰恰存在于人类专家自身存在规范性争议的领域.

ALL-FEM: Agentic Large Language models Fine-tuned for Finite Element Methods

Rushikesh Deotale et al.

cs.CE cs.AI cs.LG cs.MS math.NA

本文提出了ALL-FEM系统，一个将智能体AI与针对FEniCS代码生成进行领域特定微调的大语言模型(LLMs)相结合的自主动力学仿真框架。该系统通过一个包含1000多个已验证脚本的语料库微调模型，并在一个多智能体工作流中评估其代码生成能力。

TabPFN Extensions for Interpretable Geotechnical Modelling

Taiga Saito et al.

cs.CE cs.LG

本文探讨了TabPFN及其扩展库在岩土建模中的应用, 包括土壤分类和参数补全任务. 通过分析embedding和SHAP特征重要性, 展示了模型在数据稀疏场景下进行不确定性感知推理的潜力.

Statistical Learning for Latent Embedding Alignment with Application to Brain Encoding and Decoding

Shuoxun Xu, Zhanhao Yan, Lexin Li

stat.ME cs.LG

本文提出了一种轻量化的latent embedding alignment框架, 用于解决fMRI数据有限且被试异质性大的脑编码与解码问题. 该框架包含两个统计学习组件: 利用未配对刺激嵌入的inverse semi-supervised learning, 以及跨被试迁移预训练模型的meta transfer learning.

LPNSR: Prior-Enhanced Diffusion Image Super-Resolution via LR-Guided Noise Prediction

Shuwei Huang, Shizhuo Liu, Zijun Wei

cs.CV cs.AI

本文提出了一种名为LPNSR的扩散模型图像超分辨率框架，旨在解决现有方法在高效采样时性能下降的问题。该方法通过设计LR引导的噪声预测器和高质量预上采样网络来提升重建质量，并在4步采样下实现了先进的感知性能。

SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments

Wen Jiang et al.

cs.CV cs.AI

本文提出了一种用于无人机视觉语言导航的几何引导空间表示框架SpatialFly. 该框架通过几何先验注入和几何感知重参数化模块, 在不进行显式3D重建的情况下, 对齐2D视觉感知与3D决策空间, 从而提升了在复杂城市环境中的导航性能.

A Two-stage Transformer Framework for Temporal Localization of Distracted Driver Behaviors

Gia-Bao Doan et al.

cs.CV cs.AI

本文提出了一种用于分心驾驶行为时序定位的两阶段Transformer框架, 结合了VideoMAE特征提取与增强自掩码注意力检测器, 并通过空间金字塔池化模块捕获多尺度时序特征. 实验表明该方法在精度与效率间存在权衡, 其中ViT-Giant骨干网络在定位任务上取得了最高的mAP.

Gradient Descent with Projection Finds Over-Parameterized Neural Networks for Learning Low-Degree Polynomials with Nearly Minimax Optimal Rate

Yingzhen Yang, Ping Li

stat.ML cs.LG math.ST

本文提出了一种带投影的梯度下降(GDP)算法, 用于训练过参数化两层神经网络来学习定义在单位球面上的低次多项式. 该方法在样本复杂度上取得了显著改进, 达到了近乎极小极大最优的回归风险率. 结果超越了神经正切核(NTK)的范畴, 并包含了当真实多项式次数未知时的自适应选择算法.

CTFS : Collaborative Teacher Framework for Forward-Looking Sonar Image Semantic Segmentation with Extremely Limited Labels

Ping Guo et al.

cs.CV cs.AI

本文提出了一种用于前视声纳图像语义分割的协作教师框架, 旨在解决在标签极度有限条件下传统师生框架性能不佳的问题. 该框架通过多教师协作与跨教师可靠性评估机制, 在仅使用2%标注数据的FLSMD数据集上取得了显著的mIoU提升.

SqueezeComposer: Temporal Speed-up is A Simple Trick for Long-form Music Composing

Jianyi Chen et al.

eess.AS cs.CL cs.SD

本文提出了一种通过时间加速来生成长篇幅音乐的简单方法. 该方法先生成加速版本的音频以降低计算负担, 再将其恢复至原始速度, 从而在现有模型上实现长序列生成. 实验验证了该方法在长篇幅音乐生成和歌曲伴奏生成任务上的有效性.

Stochastic approximation in non-markovian environments revisited

Vivek Shripad Borkar

stat.ML cs.LG math.PR

本文考虑了驱动随机过程非遍历且非Markov的情形, 基于作者近期关于非Markov环境中随机逼近的工作, 提出了一个分析框架, 用于理解transformer学习和持续学习.

Representation-Level Adversarial Regularization for Clinically Aligned Multitask Thyroid Ultrasound Assessment

Dina Salama et al.

cs.CV cs.AI

本文提出了一种用于甲状腺超声评估的临床对齐多任务框架, 通过引入表示层对抗正则化(RLAR)来处理标注者差异带来的梯度竞争问题. 该方法在公开数据集上展示了在保持分割质量的同时改善风险分层的效果.

Learning to Optimize Joint Source and RIS-assisted Channel Encoding for Multi-User Semantic Communication Systems

Haidong Wang et al.

cs.NI cs.LG

本文提出了一种用于多用户语义通信系统的联合信源与RIS辅助信道编码框架, 并设计了一种截断深度强化学习方法以降低训练开销. 该方法通过联合优化用户调度, RIS相移和语义压缩比来最大化系统能效, 并利用基于Transformer的智能体网络和语义模型缓存机制来提升学习效率.

Learning Progressive Adaptation for Multi-Modal Tracking

He Wang et al.

cs.CV cs.AI

本文提出了一种用于多模态跟踪的渐进式适配方法(PATrack), 通过引入模态依赖、模态纠缠和任务级适配器, 逐步地将预训练的RGB模型适配到多模态数据上. 实验表明该方法在多个多模态跟踪任务上取得了优异的性能.

Frequency Switching Mechanism for Parameter-E!cient Multi-Task Learning

Shih-Wen Liu et al.

cs.CV cs.LG

本文提出了一种名为Free Sinewich的参数高效多任务学习框架。该方法通过频率切换机制，在密集预测任务上实现了性能与效率的良好平衡。

One Pool Is Not Enough: Multi-Cluster Memory for Practical Test-Time Adaptation

Yu-Wen Tseng et al.

cs.CV cs.AI

本文针对 Practical Test-Time Adaptation (PTTA) 中测试数据流非独立同分布且具有时序相关性的问题, 指出现有方法使用的单一内存池结构存在根本性不匹配. 作者提出了一种名为 Multi-Cluster Memory (MCM) 的即插即用框架, 它利用轻量级像素级统计描述符将存储样本组织成多个簇, 并通过簇合并与均衡检索机制来优化内存使用和适应过程. 实验表明, MCM 在多个数据集和基准方法上均取得了稳定的性能提升.

Time-adaptive functional Gaussian Process regression

MD Ruiz-Medina et al.

stat.ML cs.LG

本文在流形上提出了一种基于经验贝叶斯方法的时空随机场背景下的泛函高斯过程回归新框架. 该方法利用流形上等距群作用下协方差核的不变性, 通过Laplace-Beltrami算子的特征函数实现降维, 并研究了其有限样本与渐近性质.

NeSy-Edge: Neuro-Symbolic Trustworthy Self-Healing in the Computing Continuum

Peihan Ye et al.

cs.DC cs.AI cs.LG cs.SC

本文提出了一个名为NeSy-Edge的神经符号框架，用于在计算连续体中实现可信的自愈。该框架采用边缘优先的设计，将本地感知与云端诊断相结合，通过构建因果图进行根因分析和恢复推荐，并在资源受限和存在语义噪声的环境中展现了鲁棒性。

Emergent Formal Verification: How an Autonomous AI Ecosystem Independently Discovered SMT-Based Safety Across Six Domains

Octavian Untila

cs.SE cs.AI

本文报告了一个自主AI生态系统在多个AI安全领域独立提出使用Z3 SMT求解器进行形式化验证的发现。作者基于此提出了一个统一的验证框架，并在多个测试案例中进行了评估。

TRACE: A Multi-Agent System for Autonomous Physical Reasoning in Seismological Science

Feng Liu et al.

physics.geo-ph cs.AI

本文提出了一个名为TRACE的多智能体系统，用于地震学中的自主物理推理。该系统结合了大型语言模型规划和形式化地震学约束，旨在从原始观测数据中推导出可审计的、基于物理的机制推断。

LLM-based Automated Architecture View Generation: Where Are We Now?

Miryala Sathvika, Rudra Dhar, Karthik Vaidhyanathan

cs.SE cs.AI

本文评估了LLMs和agentic方法从源代码自动生成软件架构视图的能力. 实验表明, 这些方法能生成语法有效的视图, 但在抽象层次上仍存在粒度不匹配的问题, 需要人类专家介入.

Architecture for Multi-Unmanned Aerial Vehicles based Autonomous Precision Agriculture Systems

Ebasa Temesgen, Nathnael Minyelshowa, Lebsework Negash

cs.RO cs.LG cs.MA

本文为多无人机自主精准农业系统设计了一个架构框架, 将图像处理、路径规划等任务模块化, 旨在实现端到端的自主作业. 该架构考虑了多无人机系统的限制, 并通过仿真和实地测试验证了其容错性和鲁棒性.

Is Monitoring Enough? Strategic Agent Selection For Stealthy Attack in Multi-Agent Discussions

Qiuchi Xiang et al.

cs.CR cs.AI

本文针对多智能体讨论中存在的监控防御场景, 提出了一种新的攻击方法. 研究表明, 即使存在持续监控, 有效的攻击仍然是可能的, 仅靠监控不足以消除对抗风险.

JANUS: A Lightweight Framework for Jailbreaking Text-to-Image Models via Distribution Optimization

Haolun Zheng et al.

cs.CV cs.LG

本文提出了一种名为JANUS的轻量级框架，用于对文本到图像模型进行越狱攻击。该框架通过优化结构化提示分布，在端到端的黑盒奖励下，有效绕过模型的安全过滤器，生成有害内容。

Positional Segmentor-Guided Counterfactual Fine-Tuning for Spatially Localized Image Synthesis

Tian Xia et al.

cs.CV cs.AI

本文提出了一种名为Positional Seg-CFT的方法，用于生成空间局部化的反事实图像。该方法通过将解剖结构细分为区域并独立控制每个区域，实现了更精细的空间修改，避免了全局伪影。在冠状动脉CT血管造影上的实验表明，该方法能生成逼真的、区域特定的图像变化。

When Convenience Becomes Risk: A Semantic View of Under-Specification in Host-Acting Agents

Di Lu et al.

cs.CR cs.AI

本文讨论了 host-acting agents 中因用户目标语义欠规范而引入的安全风险, 并提出了相应的威胁模型、风险模式分类和防御设计原则. 通过案例研究和执行轨迹分析, 作者强调了在规划阶段约束语义补全的重要性.

QMoP: Query Guided Mixture-of-Projector for Efficient Visual Token Compression

Zhongyang Li et al.

cs.CV cs.AI

本文提出了一种名为QMoP的自适应视觉令牌压缩框架, 它通过一个查询引导的路由器动态协调池化, 重采样和剪枝三个分支, 以在压缩视觉令牌时平衡语义保留与细节. 作者还构建了一个专门的基准测试VTCBench来评估压缩导致的信息损失.

Domain Elastic Transform: Bayesian Function Registration for High-Dimensional Scientific Data

Osamu Hirose, Emanuele Rodola

stat.ML cs.AI cs.CV

本文提出了一种名为Domain Elastic Transform (DET)的网格无关概率框架，用于统一几何与函数对齐。该方法通过将数据视为不规则域上的函数，直接配准高维信号，并在MERFISH和Stereo-seq数据上展示了其有效性。

Accelerate Vector Diffusion Maps by Landmarks

Sing-Yuan Yeh et al.

stat.ML cs.LG math.DG physics.data-an

本文提出了一种基于landmark的加速算法LA-VDM, 用于改进Vector Diffusion Maps (VDM)的计算效率. 该方法通过一种新的两阶段归一化处理非均匀采样, 并在流形模型下证明了其能渐近收敛到connection Laplacian.

WARBENCH: A Comprehensive Benchmark for Evaluating LLMs in Military Decision-Making

Zongjie Li et al.

cs.CY cs.AI

本文提出了一个名为WARBENCH的评估框架，用于测试大型语言模型在军事决策场景下的能力。该框架通过多个压力测试维度揭示了现有模型在复杂战术环境、法律合规性及边缘计算限制下存在的严重缺陷。

When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

Zhengxian Wu et al.

cs.CV cs.AI

本文提出了一种无监督的自进化训练框架, 用于提升多模态推理能力. 该方法通过组内轨迹的联合建模与相对优势计算, 在不依赖人工标注或外部奖励模型的情况下实现了稳定的性能提升.

Closed-form conditional diffusion models for data assimilation

Brianna Binder, Assad Oberai

stat.ML cs.LG physics.comp-ph

本文提出了一种用于数据同化的闭式条件扩散模型方法. 该方法利用核密度估计建模状态与观测的联合分布, 从而高效计算 score function, 并能在黑盒系统设置下运行. 在 Lorenz 系统上的实验表明, 该方法在中小规模集合下优于常用的集合卡尔曼滤波和粒子滤波.

DeepXplain: XAI-Guided Autonomous Defense Against Multi-Stage APT Campaigns

Trung V. Phan, Thomas Bauschert

cs.CR cs.AI

本文提出了一个名为DeepXplain的可解释深度强化学习框架，用于防御多阶段的APT攻击。该框架将解释信号直接整合到策略优化中，并在实验中提升了防御效果和决策的可信度。

The Average Relative Entropy and Transpilation Depth determines the noise robustness in Variational Quantum Classifiers

Aakash Ravindra Shinde, Arianne Meijer - van de Griend, Jukka K. Nurminen

quant-ph cs.LG

本文提出了一种基于相对熵的度量方法, 用于评估含噪声量子设备上变分量子分类器(VQC)的性能. 研究表明, 类别间的平均相对熵差与电路编译深度之间存在强相关性, 共同决定了噪声下的性能差异.

HELIX: Scaling Raw Audio Understanding with Hybrid Mamba-Attention Beyond the Quadratic Limit

Khushiyant, Param Thakkar

cs.SD cs.LG eess.AS

本文通过HELIX框架比较了Mamba, attention及混合架构在音频理解任务中的表现. 研究发现, 模型的最佳输入表示依赖于其主干网络, 且attention在长序列任务中变得重要.

Which Alert Removals are Beneficial?

Idan Amit

cs.SE cs.LG

本文通过随机对照试验和标注函数等方法, 评估了静态分析警报移除对代码复杂度和缺陷倾向的影响. 研究发现某些能降低复杂度的干预措施可以减少未来缺陷的概率, 这些方法可应用于更广泛的因果研究领域.

B-jet Tagging Using a Hybrid Edge Convolution and Transformer Architecture

Diego F. Vasquez Plaza, Vidya Manian

hep-ph cs.AI eess.SP

本文提出了一种结合edge convolution与transformer self-attention机制的混合深度学习架构ECT，用于b-jet tagging。该模型在ATLAS模拟数据集上取得了优于基准模型的性能，并满足了LHC实时事件选择的低延迟要求。

FinRL-X: An AI-Native Modular Infrastructure for Quantitative Trading

Hongyang Yang et al.

q-fin.TR cs.LG q-fin.CP

本文提出了FinRL-X, 一个用于量化交易的模块化AI原生基础设施. 它通过一个以权重为中心的接口, 统一了数据处理, 策略构建, 回测和经纪商执行, 旨在弥合研究评估与实盘部署之间的差距.

Optimal-Cost Construction of Shallow Cuttings for 3-D Dominance Ranges in the I/O-Model

Yakov Nekrich, Saladi Rahul

cs.CG cs.DS

本文在I/O模型中提出了一个构造3-D dominance ranges的shallow cuttings的最优代价算法. 该算法的I/O复杂度为$O\left(\frac{N}{B}\log_{M/B}\left(\frac{N}{B}\right) \right)$, 并应用于离线3-D dominance reporting和近似计数问题.

Generalized Discrete Diffusion from Snapshots

Oussama Zekri et al.

stat.ML cs.AI cs.CL cs.LG

本文提出了一个统一的离散扩散建模框架, 支持在大型离散状态空间上进行任意的加噪过程. 该框架通过基于快照隐变量的ELBO进行高效训练, 并在大规模离散生成任务上展示了优于现有方法的性能.

HamVision: Hamiltonian Dynamics as Inductive Bias for Medical Image Analysis

Mohamed A Mabrok

cs.CV cs.LG

本文提出了HamVision框架, 将阻尼谐振子动力学作为inductive bias用于医学图像分析. 该框架从动力学中自然地衍生出位置、动量和能量三种表示, 分别用于特征提取、边界信息编码和显著性区域识别, 并设计了针对分割和分类任务的专用头部. 实验表明, 该方法在多个医学影像基准数据集上取得了有竞争力的结果.

An InSAR Phase Unwrapping Framework for Large-scale and Complex Events

Yijia Song et al.

cs.CV cs.AI physics.geo-ph

本文提出了一种基于扩散模型的InSAR相位解缠框架, 用于处理大规模干涉图并解决形变引起的相位不连续问题. 该方法在合成和真实数据集上均能有效处理不连续性并适应大尺度图像.

Fingerprinting Deep Neural Networks for Ownership Protection: An Analytical Approach

Guang Yang et al.

cs.CR cs.AI

本文提出了一种名为AnaFP的分析性指纹方案, 用于深度神经网络的所有权保护. 该方法通过理论分析确定指纹到决策边界的距离, 以同时满足鲁棒性和唯一性.

HyReach: Vision-Guided Hybrid Manipulator Reaching in Unseen Cluttered Environments

Shivani Kamtikar et al.

cs.RO cs.AI

本文提出了一种用于未知杂乱环境中视觉引导的混合刚性-软体连续体机械臂系统. 该系统结合了基于视觉的感知、3D场景重建和形状感知运动规划, 并利用基于学习的控制器来驱动机械臂到达目标位姿. 实验表明, 该系统能在多种杂乱场景中实现厘米级的稳定抓取.

LLM-Powered Workflow Optimization for Multidisciplinary Software Development: An Automotive Industry Case Study

Shuai Wang et al.

cs.SE cs.AI

本文提出了一种基于图的工作流优化方法, 利用LLM服务逐步替代多学科软件开发中的人工协调. 在一项汽车行业案例研究中, 该方法显著提升了开发效率与沟通满意度.

Hardening Confidential Federated Compute against Side-channel Attacks

James Bell-Clark et al.

cs.CR cs.DS

本文分析了Confidential Federated Compute平台中可能被内部攻击者利用以规避差分隐私(Differential Privacy, DP)保证的侧信道(side-channel)风险。作者展示了DP机制如何能够缓解其中两种侧信道攻击，并将其中一种缓解方案实现在了开源库中。

GaussianSSC: Triplane-Guided Directional Gaussian Fields for 3D Semantic Completion

Ruiqi Xian et al.

cs.RO cs.LG

本文提出了一种用于3D语义场景补全的两阶段方法GaussianSSC。该方法通过Gaussian Anchoring和Gaussian–Triplane Refinement模块，在保持体素网格效率的同时，利用高斯场来改进特征表示和语义预测。

RuntimeSlicer: Towards Generalizable Unified Runtime State Representation for Failure Management

Lingzhe Zhang et al.

cs.SE cs.AI

本文提出了RuntimeSlicer, 一个用于故障管理的统一运行时状态表示模型. 它通过预训练将metrics, traces和logs编码为对齐的系统状态嵌入, 并设计了相应的对比学习和任务调优方法.

A Framework for Closed-Loop Robotic Assembly, Alignment and Self-Recovery of Precision Optical Systems

Seou Choi et al.

cs.RO cs.AI physics.optics

本文提出了一个用于精密光学系统自主装配、对准和自恢复的机器人框架. 该框架整合了分层计算机视觉、优化例程和定制工具, 并以自主构建桌面激光腔为例进行了演示.

Efficient Failure Management for Multi-Agent Systems with Reasoning Trace Representation

Lingzhe Zhang et al.

cs.SE cs.AI

本文提出了一个基于推理轨迹表示的高效多智能体系统故障管理框架 EAGER. 该框架利用无监督的推理范围对比学习来编码智能体内部推理和智能体间协作, 旨在实现实时的故障检测、诊断和缓解.

SafePilot: A Framework for Assuring LLM-enabled Cyber-Physical Systems

Weizhe Xu, Mengyu Liu, Fanxin Kong

cs.RO cs.AI

本文提出了一个名为SafePilot的分层神经符号框架，旨在为集成大型语言模型(LLM)的物理信息融合系统(CPS)提供端到端的保障。该框架通过任务复杂度判别、分层规划以及基于形式化规约的迭代验证来确保LLM生成计划的安全性与合规性。

LLM-Based Test Case Generation in DBMS through Monte Carlo Tree Search

Yujia Chen et al.

cs.SE cs.AI

本文提出了一种基于大型语言模型(LLM)和蒙特卡洛树搜索(MCTS)的数据库管理系统(DBMS)测试用例生成框架MIST. 该框架通过特征引导的错误驱动合成和基于覆盖反馈的MCTS突变, 旨在生成语法有效且语义多样的SQL查询, 以提升代码覆盖率. 实验表明其在多个DBMS和轻量级LLM上能有效提高行、函数和分支覆盖率.

Stationary Online Contention Resolution Schemes

Mohammad Reza Aminian, Rad Niazadeh, Pranav Nuti

cs.GT cs.DM cs.DS math.CO

本文提出了 stationary online contention resolution schemes (S-OCRSs) 这一新的、与到达顺序无关的 OCRS 类别。通过建立其分布特征和通用在线实现，并引入最大熵方法，为设计简单且可实现的 OCRS 提供了一个新的技术框架。该框架在二分图匹配、k-均匀拟阵等经典场景中得到了应用，匹配或改进了已知的最佳选择率。

Evolutionary Biparty Multiobjective UAV Path Planning: Problems and Empirical Comparisons

Kesheng Chen et al.

cs.NE cs.AI

本文针对无人机路径规划问题, 首次建模了涉及效率与安全两个决策部门的双参与方多目标优化问题(BPMO-UAVPP). 通过改进现有的多目标免疫算法, 提出了BPNNIA, BPHEIA和BPAIMA等算法, 并与传统及典型的多参与方进化算法进行了比较, 实验表明BPAIMA性能更优.

Rethinking SAR ATR: A Target-Aware Frequency-Spatial Enhancement Framework with Noise-Resilient Knowledge Guidance

Yansong Lin et al.

cs.CV cs.AI

本文提出了一种用于SAR图像目标识别的目标感知频率-空间增强框架(FSCE), 该框架包含频率-空间浅层特征自适应增强模块(DSAF)和一种结合在线知识蒸馏的师生学习范式. 实验表明, 该框架在多个数据集上取得了有竞争力的性能, 并展现出较强的跨模型泛化能力.

CataractSAM-2: A Domain-Adapted Model for Anterior Segment Surgery Segmentation and Scalable Ground-Truth Annotation

Mohammad Eslami et al.

cs.CV cs.AI cs.DB cs.LG cs.RO

本文提出了CataractSAM-2, 一个针对白内障眼科手术视频进行实时语义分割的领域自适应模型. 该工作还引入了一个交互式标注框架, 以减少人工标注负担并促进高质量数据集的扩展.

Stability and Bifurcation Analysis of Nonlinear PDEs via Random Projection-based PINNs: A Krylov-Arnoldi Approach

Gianluca Fabiani et al.

math.NA cs.LG math.DS

本文提出了一种基于随机投影物理信息神经网络(PI-RPNNs)和Krylov-Arnoldi方法的新框架, 用于分析非线性偏微分方程(PDEs)的稳定性和分岔. 该方法通过固定隐藏层权重并仅优化线性输出层, 将训练简化为最小二乘问题, 并直接导出了控制稳态解线性稳定性的广义特征值问题. 为了克服随机投影配置矩阵数值秩亏缺导致的伪特征值问题, 作者引入了一种免矩阵的移位逆Krylov-Arnoldi方法, 直接在权重空间中可靠地计算物理Jacobian算子的前几个主导特征对.

PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection

Hyoseok Park, Yeonsang Park

physics.optics cs.AI cs.AR cs.CL cs.LG

本文提出了一种名为PRISM的光子加速器, 用于解决长上下文LLM推理中的内存带宽瓶颈. 该方法利用光子广播-加权范式实现O(1)复杂度的KV块选择, 从而显著降低内存访问开销和能耗.

Feature Incremental Clustering with Generalization Bounds

Jing Zhang, Chenping Hou

math.ST cs.LG

本文针对特征增量聚类问题, 提出了四种基于$k$-means的算法变体, 并分析了它们的泛化误差界. 实验验证了这些算法在活动识别等任务中的有效性.

Spatio-Temporal Attention Enhanced Multi-Agent DRL for UAV-Assisted Wireless Networks with Limited Communications

Che Chen et al.

cs.IT cs.AI eess.SY

本文提出了一种结合时空注意力机制的预测方法, 用于补偿多无人机系统中因通信受限导致的信息丢失, 并设计了一种延迟容忍的多智能体深度强化学习算法来优化整体吞吐量. 该方法在仿真中显著降低了信息延迟并提升了吞吐量.

DiT-Flow: Speech Enhancement Robust to Multiple Distortions based on Flow Matching in Latent Space and Diffusion Transformers

Tianyu Cao et al.

eess.AS cs.AI cs.SD

本文提出了一种基于latent space中flow matching和Diffusion Transformers的语音增强模型DiT-Flow, 旨在提升模型对多种失真(如噪声, 混响, 压缩)的鲁棒性. 该模型在合成数据集上进行了验证, 并采用了参数高效的训练方法.

Rateless DeepJSCC for Broadcast Channels: a Rate-Distortion-Complexity Tradeoff

Zijun Qin et al.

cs.IT cs.LG eess.SP

本文提出了一种用于广播信道的非线性变换无速率信源信道编码(NTRSCC)框架。该框架结合了深度学习和物理层LT码，旨在实现失真、传输速率和解码复杂度之间的灵活权衡。

Efficient Zero-Shot AI-Generated Image Detection

Ryosuke Sonoda, Ramya Srinivasan

cs.CV cs.AI

本文提出了一种无需训练的AI生成图像检测方法, 通过测量图像表示对结构化频率扰动的敏感性来捕捉真实与合成图像间的细微差异. 该方法计算轻量, 在多个基准测试上展现了优于现有方法的性能与效率.

Engineering Distributed Governance for Regional Prosperity: A Socio-Technical Framework for Mitigating Under-Vibrancy via Human Data Engines

Amil Khanzada, Takuji Takemoto

cs.CY cs.LG

本文提出了一种用于缓解区域"活力不足"的社会技术框架, 称为分布式人类数据引擎(DHDE). 该框架利用AI决策支持系统分析高粒度数据, 以优化经济流动并量化潜在的经济损失.

FedCVU: Federated Learning for Cross-View Video Understanding

Shenghan Zhang et al.

cs.CV cs.LG

本文提出了一个名为FedCVU的联邦学习框架, 用于解决跨视角视频理解中的异构数据分布与通信开销问题. 该方法通过引入视角特定的归一化, 对比对齐模块和选择性层聚合策略, 在多个任务上提升了未见视角的泛化性能.

Towards Secure Retrieval-Augmented Generation: A Comprehensive Review of Threats, Defenses and Benchmarks

Yanming Mu et al.

cs.CR cs.AI

本文对检索增强生成(RAG)系统的安全威胁、防御技术和评估基准进行了全面的综述。文章系统性地分析了RAG工作流程中的漏洞机制，并对核心威胁向量和防御技术进行了分类与总结。

Cross-Scenario Deraining Adaptation with Unpaired Data: Superpixel Structural Priors and Multi-Stage Pseudo-Rain Synthesis

Kangbo Zhao et al.

cs.CV cs.AI cs.GR cs.LG cs.MM

本文提出了一种跨场景图像去雨自适应框架, 无需目标域的成对雨图数据. 该方法利用超像素生成模块提取结构先验, 并通过分辨率自适应融合与多阶段伪雨合成机制生成逼真的伪数据, 可灵活集成到现有去雨网络中.

SPINONet: Scalable Spiking Physics-informed Neural Operator for Computational Mechanics Applications

Shailesh Garg et al.

physics.comp-ph cs.LG

本文提出了一种名为SPINONet的节能型物理信息算子学习框架, 它通过引入神经科学启发的spiking神经元来实现稀疏的事件驱动计算, 从而在保持物理信息训练兼容性的同时减少重复评估的计算开销. 该框架在多个计算力学相关的偏微分方程问题上进行了验证, 展示了与常规方法相当的预测性能, 并讨论了其在计算负载和能耗方面的优势.

CoNBONet: Conformalized Neuroscience-inspired Bayesian Operator Network for Reliability Analysis

Shailesh Garg, Souvik Chakraborty

stat.ML cs.LG

本文提出了一种名为CoNBONet的代理模型, 用于非线性动力系统在随机激励下的时变可靠性分析. 该模型结合了深度算子网络与受神经科学启发的神经元模型, 并通过split conformal prediction提供具有理论保证的不确定性量化, 旨在实现快速、节能且可扩展的可靠性评估.

LipsAM: Lipschitz-Continuous Amplitude Modifier for Audio Signal Processing and its Application to Plug-and-Play Dereverberation

Kazuki Matsumoto, Ren Uchida, Kohei Yatabe

cs.SD cs.LG

本文提出了LipsAM, 一种用于音频信号处理的Lipschitz连续幅度调制器(AM)架构. 作者证明了AM满足Lipschitz连续性的一个充分条件, 并构建了两种具体实现, 将其应用于语音去混响的即插即用算法中以提升稳定性.

Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models

Rui Yang Tan, Yujia Hu, Roy Ka-Wei Lee

cs.CR cs.AI cs.MM

本文通过构建ComicJailbreak基准，研究了基于漫画模板的视觉叙事对多模态大语言模型安全对齐的破坏性影响。研究发现，这种攻击方式在多种模型上取得了很高的成功率，而现有防御方法在处理良性提示时会产生高拒绝率，同时当前的安全评估器在敏感但无害内容上不可靠。

Rethinking Token Reduction for Large Vision-Language Models

Yi Wang et al.

cs.CV cs.AI

本文提出了一种名为MetaCompress的基于学习的提示无关方法, 用于解决大型视觉语言模型(LVLMs)在多轮视觉问答(MT-VQA)场景中的视觉令牌(token)冗余问题. 该方法将令牌减少(formulate)为一个可学习的压缩映射, 并通过一个数据高效的训练范式来学习最优的压缩策略, 从而在多个基准测试和模型架构上实现了更好的效率-准确性权衡.

Cognitive Agency Surrender: Defending Epistemic Sovereignty via Scaffolded AI Friction

Kuangzhe Xu et al.

cs.HC cs.AI

本文探讨了生成式人工智能的普及如何导致认知代理权让渡的风险. 作者提出"支架式认知摩擦"理论, 主张利用多智能体系统作为认知强制函数, 以维护人类的认知主权.

Model selection in hybrid quantum neural networks with applications to quantum transformer architectures

Harsh Wadhwa et al.

quant-ph cs.LG

本文提出了一个用于评估量子、经典及混合Transformer架构的框架QBET, 引入了衡量模型Simplicity Bias和Expressivity的指标, 以在训练前筛选有前景的模型变体。在基于Transformer的分类和生成任务评估中, 该方法能识别出量子自注意力变体优于经典模型的场景。

Identifiability and amortized inference limitations in Kuramoto models

Emma Hannula et al.

stat.AP cs.LG

本文提出了一种用于Kuramoto模型参数推断的摊销贝叶斯方法，该方法利用神经网络从模拟数据中学习后验分布，从而避免了传统方法中重复采样或优化的计算成本。

Let's Think with Images Efficiently! An Interleaved-Modal Chain-of-Thought Reasoning Framework with Dynamic and Precise Visual Thoughts

Xu Liu et al.

cs.CV cs.AI

本文提出了一种名为DaP-ICoT的框架，用于改进交错模态思维链推理。该方法通过动态集成和精确引导视觉信息，提升了推理效率并减少了计算开销。

Cycle Inverse-Consistent TransMorph: A Balanced Deep Learning Framework for Brain MRI Registration

Jiaqi Shang et al.

eess.IV cs.AI cs.CV

本文提出了一种基于transformer的循环逆一致框架, 用于脑部MRI的可变形配准. 该模型结合了Swin-UNet架构和双向一致性约束, 在保持形变场稳定性的同时, 实现了多中心数据集上的均衡性能.

Cluster-Specific Predictive Modeling: A Scalable Solution for Resource-Constrained Wi-Fi Controllers

Gianluca Fontanesi et al.

eess.SP cs.LG

本文提出了一种基于聚类的预测建模方法, 用于资源受限的集中式Wi-Fi网络控制器. 该方法通过特征聚类构建特定于簇的预测模型, 在保持可扩展性的同时, 提高了高活动度簇的预测准确性.

Charting the Diameter Computation Landscape of Geometric Intersection Graphs in Three Dimensions and Higher

Timothy M. Chan et al.

cs.CG cs.DS

本文研究了三维及更高维几何相交图的直径计算问题. 在三维空间中, 对于单位立方体 (unit cubes) 的直径-3 (Diameter-3) 判定问题, 给出了首个真正亚二次时间 (truly subquadratic-time) 算法, 并基于 OV (Orthogonal Vector) 假设证明了单位球 (unit balls) 直径-3问题的亚二次时间下界. 此外, 还给出了三维单位立方体直径-2问题的近线性时间算法, 以及对于任意维矩形框 (rectangular boxes) 直径-2和直径-3问题的算法与下界结果.

Approximate Butterfly Counting in Sublinear Time

Chi Luo et al.

cs.DB cs.DS

本文在查询模型下研究butterfly counting问题, 提出了一种名为TLS的两层采样算法. 该算法通过有限的图结构访问, 能以较低的查询成本对butterfly数量进行准确估计.

Ctrl-A: Control-Driven Online Data Augmentation

Jesper B. Christensen et al.

cs.CV cs.AI cs.LG eess.SY

本文提出了一种名为 ControlAugment (Ctrl-A) 的自动化数据增强算法, 用于图像视觉任务. 它基于控制理论在线调整增强强度分布, 无需手动设计增强策略, 并在多个基准数据集上取得了有竞争力的性能.

SteelDefectX: A Coarse-to-Fine Vision-Language Dataset and Benchmark for Generalizable Steel Surface Defect Detection

Shuxian Zhao et al.

cs.CV cs.AI

本文提出了一个名为SteelDefectX的视觉-语言数据集，用于钢铁表面缺陷检测。该数据集包含从粗到细的文本描述，并建立了包含多个任务的基准测试。实验表明，这种文本标注能提升模型的可解释性和泛化能力。

BadminSense: Enabling Fine-Grained Badminton Stroke Evaluation on a Single Smartwatch

Taizhou Chen et al.

cs.HC cs.AI

本文提出了一种基于智能手表的细粒度羽毛球击球评估系统 BadminSense. 该系统通过采集振动信号, 实现了对击球动作的分割、分类、质量预测和击球点估计.

All elementary functions from a single binary operator

Andrzej Odrzywołek

cs.SC cs.LG

本文提出一个名为$\operatorname{eml}(x,y)=\exp(x)-\ln(y)$的单一二元运算符, 并证明其与常数1结合可以生成所有初等函数. 作者通过系统搜索发现该运算符, 并展示了其在符号回归中的潜在应用.

Sim-to-Real of Humanoid Locomotion Policies via Joint Torque Space Perturbation Injection

Junhyeok Rui Cha et al.

cs.RO cs.AI

本文提出了一种新的sim-to-real方法, 通过在forward simulation中向关节扭矩输入注入state-dependent perturbations来训练控制策略. 该方法使用神经网络作为灵活的扰动生成器, 能够模拟比标准参数随机化更广泛的reality gap, 例如非线性执行器动力学和接触柔顺性. 实验表明, 该方法使双足机器人运动策略在仿真和现实部署中对复杂、未见的reality gap具有更强的鲁棒性.

Adaptive Video Distillation: Mitigating Oversaturation and Temporal Collapse in Few-Step Generation

Yuyang You et al.

cs.CV cs.AI

本文提出了一种针对视频扩散模型的蒸馏框架, 旨在解决直接迁移图像蒸馏技术时常见的过饱和、时间不一致和模式崩溃等问题. 该方法通过自适应回归损失、时间正则化损失和推理时帧插值策略, 在VBench等基准上实现了稳定的少步视频合成, 提升了感知保真度和运动真实感.

Adversarial Camouflage

Paweł Borsukiewicz et al.

cs.CV cs.AI

本文提出了一种名为"Adversarial Camouflage"的方法来对抗人脸识别系统以保护隐私. 该方法通过优化颜色、形状和角度等参数生成对抗性图案, 并将其投影到人脸的有效区域, 能够在模拟和现实实验中显著降低多种先进模型的识别性能.

Manifold-Aware Exploration for Reinforcement Learning in Video Generation

Mingzhe Zheng et al.

cs.CV cs.AI

本文提出了一种名为SAGE-GRPO的方法，用于稳定视频生成中的强化学习对齐过程。该方法通过在微观和宏观层面施加约束，将探索限制在预训练模型定义的数据流形附近，从而提升了生成视频的质量和奖励估计的可靠性。

Disentangling Speaker Traits for Deepfake Source Verification via Chebyshev Polynomial and Riemannian Metric Learning

Xi Xuan et al.

eess.AS cs.CL cs.SD

本文提出了一种用于语音深度伪造源验证的说话人解耦度量学习框架. 该框架通过引入基于Chebyshev多项式的损失函数和双曲空间中的Riemannian度量学习, 旨在减少说话人特征对源验证任务的影响. 实验在MLAAD基准上进行, 验证了所提方法的有效性.

Not All Layers Are Created Equal: Adaptive LoRA Ranks for Personalized Image Generation

Donald Shenaj, Federico Errica, Antonio Carta

cs.CV cs.AI cs.LG

本文提出了一种名为LoRA$^2$的方法，用于在个性化图像生成的微调过程中自适应地调整LoRA组件的秩。该方法通过引入重要性排序机制，允许不同层的秩根据任务需求自由变化，从而在保持性能的同时降低了内存消耗。实验表明，该方法在多个评估指标上取得了与高秩LoRA版本相当的结果。

SHAPE: Structure-aware Hierarchical Unsupervised Domain Adaptation with Plausibility Evaluation for Medical Image Segmentation

Linkuan Zhou et al.

cs.CV cs.AI

本文提出了一种用于医学图像分割的无监督域适应框架SHAPE, 它通过分层特征调制和基于超图的合理性评估来提升分割结果的全局解剖学合理性. 该方法在心脏和腹部跨模态基准测试中取得了先进的性能.

A Novel Method for Enforcing Exactly Dirichlet, Neumann and Robin Conditions on Curved Domain Boundaries for Physics Informed Machine Learning

Suchuan Dong, Yuchuan Zhang

math.NA cs.LG physics.comp-ph

本文提出了一种在具有任意曲线边界的四边形区域上精确施加 Dirichlet, Neumann 和 Robin 边界条件的系统方法。该方法基于区域间的精确映射，结合了 TFC (theory of functional connections) 约束表达式和 transfinite 插值，并详细处理了边界交点处的相容性约束。作者将该方法与 extreme learning machine (ELM) 结合，通过数值实验验证了其在复杂几何区域上对各类边界条件的精确实施能力。

A Latent Representation Learning Framework for Hyperspectral Image Emulation in Remote Sensing

Chedly Ben Azizi et al.

cs.CV cs.LG eess.IV

本文提出了一种基于latent representation learning的hyperspectral image emulation框架. 该方法通过VAE等工具学习数据的latent generative representation, 支持spectrum-level和spatial-spectral emulation, 并在实验中展现了优于传统regression-based emulator的性能.

Structural Concentration in Weighted Networks: A Class of Topology-Aware Indices

L. Riso, M.G. Zoia

stat.ML cs.LG

本文提出了一种用于衡量嵌入在交互网络中的加权系统集中度的统一框架. 该方法通过引入一系列考虑网络拓扑的集中度指数, 弥补了传统指数忽略元素间关系结构的不足.

The Golden Subspace: Where Efficiency Meets Generalization in Continual Test-Time Adaptation

Guannan Lai et al.

cs.CV cs.LG

本文提出了一种在 Continual Test-Time Adaptation (CTTA) 中平衡效率与泛化的方法。该方法通过识别并在线维护一个关键的“golden subspace”来实现高效的特征更新。

Camera-Agnostic Pruning of 3D Gaussian Splats via Descriptor-Based Beta Evidence

Peter Fasogbon et al.

cs.CV cs.AI cs.LG

本文提出了一种用于3D Gaussian splats的相机无关剪枝方法。该方法基于从splat属性导出的邻域描述符，并通过一个Beta证据模型来量化每个splat的可靠性，从而实现一次性后训练剪枝。

Chronological Contrastive Learning: Few-Shot Progression Assessment in Irreversible Diseases

Clemens Watzenböck et al.

cs.CV cs.AI

本文提出了一种名为ChronoCon的对比学习方法, 利用患者纵向扫描的访问顺序进行排序, 从而在无需专家标注的情况下学习疾病相关表征. 该方法在类风湿关节炎X光片严重程度评估任务上进行了验证, 在低标注数据场景下表现优于全监督基线.

Suiren-1.0 Technical Report: A Family of Molecular Foundation Models

Junyi An et al.

physics.chem-ph cs.AI

本文介绍了Suiren-1.0分子基础模型系列，包含三个变体，用于有机系统的精确建模。该工作通过预训练和蒸馏方法，在量子性质预测等任务上取得了先进性能。

BHDD: A Burmese Handwritten Digit Dataset

Swan Htet Aung et al.

cs.CV cs.CL

本文介绍了缅甸手写数字数据集(BHDD), 包含87,561张遵循MNIST格式的灰度图像. 作者分析了数据集特性并提供了几个简单模型的基准测试结果.

SecureBreak -- A dataset towards safe and secure models

Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera

cs.CR cs.AI cs.CL cs.LG

本文介绍了SecureBreak, 这是一个用于检测由LLM安全对齐残余弱点产生的有害输出的安全数据集. 该数据集经过精心的人工标注, 在多个风险类别上表现良好, 可用于后生成安全过滤及指导进一步模型对齐.

LRC-WeatherNet: LiDAR, RADAR, and Camera Fusion Network for Real-time Weather-type Classification in Autonomous Driving

Nour Alhuda Albashir et al.

cs.CV cs.AI

本文提出了一种名为LRC-WeatherNet的多传感器融合框架，用于自动驾驶中的实时天气分类。该方法整合了LiDAR, RADAR和相机数据，通过早期融合和门控融合策略适应不同天气下各传感器的可靠性变化，在MSU-4S数据集上取得了优于单模态基线的性能。

SegMaFormer: A Hybrid State-Space and Transformer Model for Efficient Segmentation

Duy D. Nguyen, Phat T. Tran-Truong

cs.CV cs.AI

本文提出了一种用于3D医学图像分割的轻量级混合架构SegMaFormer, 它结合了Mamba和Transformer模块. 该模型在多个公开数据集上取得了有竞争力的性能, 同时显著减少了参数量和计算量.

A plug-and-play approach with fast uncertainty quantification for weak lensing mass mapping

Hubert Leterme et al.

astro-ph.CO astro-ph.IM cs.LG stat.ME

本文提出了一种名为PnPMass的plug-and-play方法，用于从弱引力透镜剪切数据中重建暗物质分布。该方法结合了基于梯度下降的数据保真项与一个在模拟数据上预训练的深度学习去噪模型，实现了快速推断。此外，文章还提出了一种基于矩网络和保形预测的快速不确定性量化方案，以提供具有覆盖保证的校准误差条。

RAFL: Generalizable Sim-to-Real of Soft Robots with Residual Acceleration Field Learning

Dong Heon Cho, Boyuan Chen

cs.RO cs.LG

本文提出了一种名为RAFL的方法, 用于提升可微分软体机器人仿真器的sim-to-real性能. 该方法通过学习一个与网格拓扑无关的残差加速度场来修正基础仿真器的动力学, 并在未见过的形态上实现了零样本泛化.

Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

Hayeon Kim et al.

cs.CV cs.AI

本文提出了一种基于双曲空间不确定性的视觉语言模型对齐方法, 用于改进多对象组合场景中的部分-整体关系建模. 该方法通过不确定性加权和蕴含损失校准, 在多个零样本任务上取得了先进性能.

MAGPI: Multifidelity-Augmented Gaussian Process Inputs for Surrogate Modeling from Scarce Data

Atticus Rex, Elizabeth Qian, David Peterson

stat.ML cs.LG

本文提出了一种名为MAGPI的多保真度(multifidelity)高斯过程回归方法, 用于在昂贵高保真度数据稀缺时构建代理模型(surrogate model). 该方法利用低保真度数据来扩充输入空间的特征, 结合了协同克里金法(cokriging)和自回归估计器(autoregressive estimators)的优点. 数值实验表明, 该方法在多个测试问题上相比现有技术提高了预测精度并降低了计算成本.

AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

Risa Shinoda et al.

cs.SD cs.LG

本文提出了一个结合生物分类学知识的语言-音频预训练框架AnimalCLAP, 用于从动物发声中进行物种识别和生态性状推断. 该方法在一个包含大量物种及其生态性状标注的数据集上进行训练, 旨在提升对训练中未见物种的分类能力.

Mamba-VMR: Multimodal Query Augmentation via Generated Videos for Precise Temporal Grounding

Yunzhuo Sun et al.

cs.CV cs.AI

本文提出了一种用于视频时刻检索的两阶段框架, 通过生成视频来增强多模态查询. 该方法利用LLM匹配字幕并生成辅助短视频作为时序先验, 然后通过一个多模态控制的Mamba网络进行高效融合与检索. 实验表明该方法在TVR基准上取得了优于现有方法的效果, 并降低了计算开销.

More Isn't Always Better: Balancing Decision Accuracy and Conformity Pressures in Multi-AI Advice

Yuta Tsuchiya, Yukino Baba

cs.HC cs.AI

本文通过实验研究了人类在决策时咨询多个AI系统的情况, 探讨了AI面板规模、内部共识和呈现方式对决策准确性和从众压力的影响. 研究发现, 较小的AI面板能提升准确性, 而较大的面板无额外增益; 高共识会导致过度依赖, 单一异议可减轻从众压力, 广泛分歧则会引发混乱.

Beyond Matching to Tiles: Bridging Unaligned Aerial and Satellite Views for Vision-Only UAV Navigation

Kejia Liu et al.

cs.CV cs.AI

本文提出了一种名为Bearing-UAV的纯视觉跨视图无人机导航方法，它联合预测无人机的绝对位置和航向。该方法利用全局和局部结构特征，并显式编码相对空间关系，以应对视图差异和特征稀疏的情况。

Data Curation for Machine Learning Interatomic Potentials by Determinantal Point Processes

Joanna Zou, Youssef Marzouk

stat.AP cs.LG

本文提出了一种使用determinantal point processes (DPPs) 来为机器学习原子间势能模型筛选训练数据的方法。该方法旨在从昂贵的量子力学计算中，高效地选择具有信息量的原子构型子集进行标记。通过在氧化铪数据上的实验，证明了该方法在构建紧凑且多样的训练集方面具有竞争力。

Seeing is Improving: Visual Feedback for Iterative Text Layout Refinement

Junrong Guo et al.

cs.CV cs.AI

本文提出了一个利用视觉反馈进行迭代优化的文本布局生成框架. 该方法通过强化学习结合OCR准确率来训练模型, 使其能根据渲染后的视觉效果不断改进布局方案.

Stable Algorithms Lower Bounds for Estimation

Xifan Yu, Ilias Zadik

math.ST cs.CC cs.DS

本文研究了统计估计问题中MMSE不稳定性与稳定算法失效之间的关系, 提出了一种用于估计任务的OGP版本. 作者将此准则应用于几个MMSE不稳定的问题, 证明了稳定算法与多项式时间算法之间存在分离. 此外, 研究还表明所有低次多项式都是稳定的, 从而得到了针对低次方法的分离, 并为界定低次MMSE提供了一种新方法.

CayleyPy-4: AI-Holography. Towards analogs of holographic string dualities for AI tasks

A. Chervov et al.

hep-th cs.AI cs.LG math.CO math.GR

本文提出了一种针对Cayley图的离散全息对偶猜想, 将其与AI任务中的轨迹预测问题相联系. 作者以对称群$S_n$的Cayley图为例, 展示了图的性质与平面多边形几何量之间的对应关系, 并讨论了其在为AI系统构建数据嵌入等方面的潜在应用.

Evaluating the Reliability and Fidelity of Automated Judgment Systems of Large Language Models

Tom Biskupski, Stephan Kleber

cs.CR cs.AI cs.LG

本文评估了使用大型语言模型(LLM)作为自动评判系统来评估其他LLM输出质量的可靠性。研究测试了多种模型和提示组合在多个评判任务上的表现，发现某些模型（如GPT-4o和一些大型开源模型）与人类评估结果具有较高的相关性。

Dyadic: A Scalable Platform for Human-Human and Human-AI Conversation Research

David M. Markowitz

cs.HC cs.AI cs.CL

本文介绍了一个名为Dyadic的、用于研究人-人和人-AI对话的Web平台。该平台提供了多模态交互、AI建议、实时监控和调查部署等功能，旨在降低对话研究的操作门槛。

SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation

Sashuai Zhou et al.

cs.CV cs.AI

本文提出了一种用于评估文本生成图像中空间布局的奖励模型SpatialReward, 并引入了相应的评测基准SpatRelBench. 实验表明, 将该模型融入强化学习训练能提升生成图像的空间一致性与整体质量.

ShapDBM: Exploring Decision Boundary Maps in Shapley Space

Luke Watkin, Daniel Archambault, Alex Telea

cs.HC cs.LG

本文提出了一种名为ShapDBM的新方法, 用于在Shapley space中计算Decision Boundary Maps (DBMs). 该方法通过将数据转换到Shapley space再进行降维, 相比直接在原始数据空间计算DBMs, 能产生更紧凑、更易于探索的决策区域.

Characterizing High-Capacity Janus Aminobenzene-Graphene Anode for Sodium-Ion Batteries with Machine Learning

Claudia Islas-Vargas et al.

cond-mat.mtrl-sci cond-mat.mes-hall cs.LG physics.atm-clus physics.chem-ph

本文结合机器学习力场与第一性原理计算，研究了氨基苯功能化Janus石墨烯作为钠离子电池负极的性能。研究揭示了其独特的钠存储机制，并预测了高比容量、低工作电压和优异的钠离子扩散速率。

The Dual Mechanisms of Spatial Reasoning in Vision-Language Models

Kelly Cui et al.

cs.CV cs.LG

本文研究了视觉语言模型(VLMs)中空间关联的计算机制. 研究发现, 模型通过语言主干中的中间层和视觉编码器两种并行的机制来处理空间关系, 其中视觉编码器提供的全局空间信号是主导因素.

3D-Layout-R1: Structured Reasoning for Language-Instructed Spatial Editing

Haoyu Zhen et al.

cs.CV cs.AI

本文提出了一个用于语言指令空间编辑的结构化推理框架, 通过 scene-graph reasoning 来执行文本条件下的空间布局编辑. 该方法在包含排序、空间对齐和房间编辑任务的新基准上进行了评估, 相比基线模型在空间精度上取得了显著提升.

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Haichao Zhang et al.

cs.CV cs.AI cs.CL cs.LG cs.RO

本文提出了一种结合稠密帧动态建模与长时程语义引导的VLM指导JEPA风格潜在世界建模框架. 该方法通过双时间路径整合了细粒度运动预测与基于大视觉语言模型的知识推理, 旨在提升长时程轨迹预测的语义准确性和鲁棒性. 在手工操作轨迹预测任务上的实验表明, 该方法优于仅使用VLM或JEPA预测器的基线模型.

UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation

Ziyi Wang et al.

cs.CV cs.AI

本文提出了一个名为UniMotion的统一框架, 旨在通过单一架构同时处理人体运动, 自然语言和RGB图像的理解与生成任务. 该框架通过将运动视为与RGB平等的连续模态, 并引入新的对齐与预训练策略, 在多种跨模态任务上取得了先进的性能.

End-to-End Training for Unified Tokenization and Latent Denoising

Shivam Duggal et al.

cs.CV cs.AI cs.GR cs.LG

本文提出了一种名为UNITE的autoencoder架构, 用于统一tokenization和latent diffusion. 该方法通过权重共享的Generative Encoder, 将tokenization和generation视为同一潜在推断问题的不同条件形式, 并引入单阶段训练程序联合优化这两个任务. 在图像和分子模态上, UNITE无需对抗损失或预训练编码器即可达到接近SOTA的性能.

WorldCache: Content-Aware Caching for Accelerated Video World Models

Umair Nawaz et al.

cs.CV cs.AI cs.CL cs.LG

本文提出了一种用于加速视频世界模型推理的感知约束动态缓存框架 WorldCache. 该方法通过运动自适应阈值、显著性加权漂移估计等技术，改进了特征重用的时机与方式，在保持生成质量的同时显著提升了推理速度。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.AI

cs.IR

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others