bluearXiv-ai - 2026-02-25

📄 所有论文 ↑ 回顶部

cs.LG

Tensor Network Generator-Enhanced Optimization for Traveling Salesman Problem

Ryo Sakai, Chen-Yu Liu

cs.LG math.OC quant-ph

本文提出了一种基于tensor network generator-enhanced optimization (TN-GEO)框架的方法来解决traveling salesman problem (TSP). 该方法使用基于自动可微matrix product states (MPS)的tensor network Born machine作为生成模型, 并通过自回归采样与掩码技术确保生成有效的路径. 实验表明, 该方法在TSPLIB基准测试上能超越一些经典启发式算法.

MoBiQuant: Mixture-of-Bits Quantization for Token-Adaptive Elastic LLMs

Dongwei Wang et al.

cs.LG cs.AI cs.CL

本文提出了一种用于弹性大语言模型部署的混合比特量化框架 MoBiQuant. 该框架通过 token-aware router 动态选择权重残差比特切片, 实现了无需重复校准的平滑精度切换.

FedAvg-Based CTMC Hazard Model for Federated Bridge Deterioration Assessment

Takato Yasuno

cs.LG stat.ML

本文提出了一种基于Federated Averaging (FedAvg)的Continuous-Time Markov Chain (CTMC) hazard model，用于在保护数据隐私的前提下进行桥梁退化评估。该方法允许各参与方在不共享原始检查数据的情况下，通过交换伪梯度向量来协同训练一个共享的基准模型。

Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning

Zhuoxu Huang et al.

cs.LG cs.AI

本文提出了一种名为CalibRL的混合策略RLVR框架, 旨在通过可控探索来缓解多模态大语言模型在强化学习训练中遇到的策略退化等问题. 该方法引入了分布感知优势加权和非对称激活函数等机制, 在多个基准测试中取得了稳定的性能提升.

IMOVNO+: A Regional Partitioning and Meta-Heuristic Ensemble Framework for Imbalanced Multi-Class Learning

Soufiane Bacha et al.

cs.LG cs.AI

本文提出了一个名为IMOVNO+的两阶段框架, 用于处理分类任务中的数据不平衡, 重叠和噪声问题. 该框架在数据层面进行区域划分和智能过采样, 在算法层面使用元启发式方法修剪集成分类器, 并在多个数据集上展示了性能提升.

Golden Layers and Where to Find Them: Improved Knowledge Editing for Large Language Models Via Layer Gradient Analysis

Shrestha Datta, Hongfu Liu, Anshuman Chhabra

cs.LG cs.AI

本文提出了一种通过分析层梯度来识别大语言模型中知识编辑的"黄金层"的方法. 该方法旨在提高编辑效率, 并在多个基准数据集上验证了其有效性.

Model Merging in the Essential Subspace

Longhua Li et al.

cs.LG cs.AI

本文提出了一种名为ESM的模型合并框架, 通过将参数更新投影到由PCA分析得到的essential subspace进行低秩分解, 以减少任务间干扰. 该方法还采用了多级极化缩放策略来增强关键参数, 并在多个任务集上取得了先进的性能.

Multimodal Crystal Flow: Any-to-Any Modality Generation for Unified Crystal Modeling

Kiyoung Seong et al.

cs.LG cs.AI

本文提出了一种名为Multimodal Crystal Flow (MCFlow)的统一多模态流模型，用于晶体建模中的多种生成任务。该方法通过引入层次化排列增强，在标准Transformer模型中实现了多模态流，并在多个基准测试中取得了有竞争力的性能。

KnapSpec: Self-Speculative Decoding via Adaptive Layer Selection as a Knapsack Problem

Seongjin Cha et al.

cs.LG cs.AI

本文提出了一种名为KnapSpec的训练无关框架, 将自推测解码中的草稿模型选择问题建模为背包问题, 以最大化吞吐量. 该方法通过解耦Attention和MLP层并建模其硬件相关延迟, 动态选择最优配置, 在多个基准测试上实现了加速.

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

Wall Kim, Chaeyoung Song, Hanul Kim

cs.LG cs.AI

本文提出了MultiModalPFN, 一种扩展TabPFN以处理多模态表格数据的方法. 它通过模态投影器将非表格数据转换为表格兼容的token, 并在多个数据集上展示了优于现有方法的性能.

Exploring Anti-Aging Literature via ConvexTopics and Large Language Models

Lana E. Yeganova et al.

cs.LG cs.AI cs.CL

本文提出了一种基于凸优化的聚类算法, 用于从生物医学文献中生成稳定且可解释的主题. 该方法在约12,000篇衰老相关文献上进行了应用和验证, 其可复现性和可解释性优于K-means, LDA等方法.

Coupled Cluster con MōLe: Molecular Orbital Learning for Neural Wavefunctions

Luca Thiede et al.

cs.LG physics.chem-ph

本文提出了一种名为Molecular Orbital Learning (MōLe)的等变机器学习架构，用于预测Coupled-Cluster理论中的激发振幅。该模型展示了良好的数据效率和泛化能力，旨在加速高精度波函数计算。

Uncertainty-Aware Delivery Delay Duration Prediction via Multi-Task Deep Learning

Stefan Faulkner et al.

cs.LG cs.AI math.OC stat.AP

本文提出了一种用于预测物流配送延迟时间的多任务深度学习模型, 旨在处理数据高度不平衡(延迟案例稀少)的挑战. 该模型采用分类-回归的端到端训练策略, 在包含超过1000万条真实货运记录的数据集上验证, 其预测性能优于传统的机器学习基线方法.

The Truthfulness Spectrum Hypothesis

Zhuofan Josh Ying et al.

cs.LG

本文提出了"真实性谱假设", 认为大语言模型(Large Language Models, LLMs)的表征空间中存在从广泛领域通用到狭窄领域特定的真实性方向。通过系统评估线性探针(linear probe)在多种真实性类型和说谎类型上的泛化能力, 并结合几何分析和因果干预, 验证了不同通用性程度的真实性方向共存于表征空间, 且后训练(post-training)会重塑其几何结构。

Discrete Diffusion with Sample-Efficient Estimators for Conditionals

Karthik Elamvazhuthi, Abhijith Jayakumar, Andrey Y. Lokhov

cs.LG stat.ML

本文提出了一种用于离散状态空间生成建模的扩散框架, 它结合了单点条件概率的高效估计器与循环加噪去噪动态. 该方法在合成Ising模型, MNIST等数据集上的实验表明, 其在多个指标上优于现有的基于比率的方法.

Learning to Solve Complex Problems via Dataset Decomposition

Wanru Zhao et al.

cs.LG

本文提出了一种基于数据集分解的逆向课程学习方法, 通过一个具备逐步推理能力的教师模型递归地将复杂样本分解为更简单的版本, 从而构建训练课程. 该方法在数学和代码生成数据集上取得了优于标准训练的效果.

Shape-informed cardiac mechanics surrogates in data-scarce regimes via geometric encoding and generative augmentation

Davide Carrara et al.

cs.LG cs.AI math.NA

本文提出了一种用于数据稀缺条件下心脏力学建模的两步框架, 将几何表示与物理响应学习解耦. 该方法利用几何编码和生成式数据增强来构建形状感知的代理模型, 并在理想化和患者特异性数据集上验证了其预测准确性和泛化能力.

In-context Pre-trained Time-Series Foundation Models adapt to Unseen Tasks

Shangqing Xu et al.

cs.LG

本文提出了一种增强时间序列基础模型(TSFMs)的方法, 通过引入In-Context Learning (ICL)能力使其能在不进行微调的情况下适应未见任务. 该方法重构了预训练数据, 使模型能够根据上下文动态调整, 实验表明其在未见任务上的性能提升了约11.4%.

QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

Jingxuan Zhang et al.

cs.LG

本文提出了QuantVLA, 一个用于Vision-Language-Action (VLA) 模型的免训练后量化框架. 该方法通过选择性量化布局, attention温度匹配和输出头平衡等技术, 在保持模型架构不变的情况下, 有效降低了模型的内存占用并提升了推理速度.

CaDrift: A Time-dependent Causal Generator of Drifting Data Streams

Eduardo V. L. Barboza et al.

cs.LG cs.DB

本文提出了一个基于Structural Causal Models (SCMs)的时间依赖性合成数据生成框架CaDrift. 该框架通过使SCM中的映射函数发生漂移来模拟各种分布和协变量偏移, 可用于评估数据流变化下的机器学习方法.

Emergent Manifold Separability during Reasoning in Large Language Models

Alexandre Polo, Chanwoo Chun, SueYeon Chung

cs.LG

本文应用 Manifold Capacity Theory (MCT) 分析大型语言模型在 Chain-of-Thought (CoT) 推理过程中的表征几何动态。研究发现，推理表现为一个瞬时的几何脉冲，概念流形在计算前被解开为线性可分的子空间，随后迅速压缩。这与线性探针的持续高准确率形成对比，揭示了信息可检索性与几何处理准备状态之间的区别。

Hierarchical Molecular Representation Learning via Fragment-Based Self-Supervised Embedding Prediction

Jiele Wu et al.

cs.LG cs.AI q-bio.QM

本文提出了一种名为GraSPNet的层次化自监督学习框架, 用于分子图表示学习. 该方法通过将分子图分解为化学片段并进行多层级掩码语义预测, 在多个分子性质预测基准上取得了优于现有方法的表现.

Momentum Guidance: Plug-and-Play Guidance for Flow Models

Runlong Liao et al.

cs.LG cs.CV

本文提出了一种名为 Momentum Guidance (MG) 的新引导方法，用于提升基于 flow 的生成模型在采样时的质量。该方法通过利用 ODE 轨迹的历史速度信息进行外推，在不增加额外计算成本的情况下改善了样本的细节和保真度。

Quantitative Approximation Rates for Group Equivariant Learning

Jonathan W. Siegel et al.

cs.LG math.NA

本文研究了具有群等变性的神经网络架构的定量逼近速率. 对于包括 Deep Sets, Sumformer, Transformer 以及基于 frame averaging 的不变网络在内的多种架构, 证明了它们与同等大小的 ReLU MLP 在逼近等变函数时具有同等的表达能力.

cc-Shapley: Measuring Multivariate Feature Importance Needs Causal Context

Jörg Martin, Stefan Haufe

cs.LG stat.ME

本文指出了传统Shapley值在衡量多变量特征重要性时，由于仅考虑特征的观测关联（observational context）而可能产生误导性结果，例如由对撞偏倚（collider bias）和抑制效应（suppression）引起的虚假关联。作者提出了cc-Shapley方法，这是一种利用数据因果结构知识的干预性修改，旨在特征的真实因果背景（causal context）中分析其重要性。理论分析和在合成及真实数据集上的实验表明，该方法可以消除对撞偏倚导致的虚假关联，其评估结果与传统Shapley值相比可能发生反转。

GeoPT: Scaling Physics Simulation via Lifted Geometric Pre-Training

Haixu Wu et al.

cs.LG

本文提出了一种名为GeoPT的预训练模型, 通过引入合成动力学来增强静态几何数据, 从而在无需物理标签的情况下实现动力学感知的自监督学习. 该方法在多个工业级物理仿真基准测试中有效减少了标注数据需求并加速了收敛.

Three Concrete Challenges and Two Hopes for the Safety of Unsupervised Elicitation

Callum Canavan et al.

cs.LG cs.AI

本文通过构建具有特定挑战性的数据集, 对无监督引导和从易到难泛化技术进行了压力测试. 研究发现现有技术在面对数据不平衡、特征显著性差异或答案定义模糊等现实挑战时表现不可靠, 未来工作需要优先解决这些问题.

Wasserstein Distributionally Robust Online Learning

Guixian Chen, Salar Fattahi, Soroosh Shafiee

cs.LG math.OC stat.ML

本文研究了Wasserstein分布鲁棒在线学习问题, 提出了一种在线鞍点博弈框架, 并针对分段凹损失函数设计了高效算法.

$κ$-Explorer: A Unified Framework for Active Model Estimation in MDPs

Xihe Gu, Urbashi Mitra, Tara Javidi

cs.LG

本文提出了一个用于MDPs中主动模型估计的统一框架$\kappa$-Explorer. 该框架通过一个参数化的凹目标函数$U_\kappa$来平衡内在估计复杂性和外在访问频率, 并设计了高效的在线优化算法. 实验表明, 该方法在基准MDPs上优于现有的探索策略.

CITED: A Decision Boundary-Aware Signature for GNNs Towards Model Extraction Defense

Bolin Shen et al.

cs.LG

本文提出了一种名为CITED的决策边界感知签名方法, 用于防御针对图神经网络(GNNs)的模型提取攻击. 该方法通过在嵌入和标签两个层面进行所有权验证, 旨在保护部署在机器学习即服务(MLaaS)平台上的GNN模型.

CREDIT: Certified Ownership Verification of Deep Neural Networks Against Model Extraction Attacks

Bolin Shen et al.

cs.LG

本文提出了一种名为CREDIT的认证所有权验证方法, 用于防御针对深度神经网络的模型提取攻击. 该方法通过互信息量化模型相似性, 设定验证阈值, 并在多个数据集上验证了其有效性.

GauS: Differentiable Scheduling Optimization via Gaussian Reparameterization

Yaohui Cai et al.

cs.LG cs.AR

本文提出了一种名为GauS的可微分调度优化框架，它将算子调度建模为使用Gaussian分布的随机松弛问题。该方法将调度表示为连续的Gaussian变量，从而捕捉了时间的顺序性并大幅减少了优化空间。

Imputation of Unknown Missingness in Sparse Electronic Health Records

Jun Han et al.

cs.LG cs.AI

本文提出了一种基于transformer的去噪神经网络, 用于处理电子健康记录(EHR)中"未知缺失"的二元数据. 该方法通过自适应阈值恢复预测的缺失值, 在真实EHR数据集上相比现有插补方法提高了准确性, 并提升了下游任务(如预测再入院)的性能.

Protein Language Models Diverge from Natural Language: Comparative Analysis and Improved Inference

Anna Hart et al.

cs.LG cs.AI cs.CL q-bio.BM

本文比较了蛋白质语言模型(PLMs)与自然语言模型在信息分布上的差异, 并引入了一种早期退出(early-exit)技术. 该方法通过为特定任务和蛋白质自动选择PLMs的中间层表示, 在蛋白质非结构属性预测任务中同时提高了准确性和效率.

Oracle-Robust Online Alignment for Large Language Models

Zimeng Li, Mudit Gaur, Vaneet Aggarwal

cs.LG stat.ML

本文研究了在偏好反馈存在误设情况下的在线大语言模型对齐问题. 作者引入了一个点式预言机不确定性集, 将问题表述为一个鲁棒优化问题. 对于对数线性策略, 该目标可以分解为原始损失函数加一个显式的敏感性惩罚项, 并提出了相应的随机优化算法.

Nonparametric Teaching of Attention Learners

Chen Zhang et al.

cs.LG

本文提出了一种名为Attention Neural Teaching (AtteNT)的新范式，通过非参数教学视角来加速注意力模型（如Transformer）的训练。该方法通过选择训练数据子集来提升学习效率，在多个任务上实现了训练时间的显著减少且不损失精度。

A Long-Short Flow-Map Perspective for Drifting Models

Zhiqi Li, Bo Zhu

cs.LG

本文从半群一致的长-短流映射分解角度重新阐释了 Drifting Model. 提出了一种新的似然学习框架, 将长-短流映射分解与输运下的密度演化对齐, 并通过理论分析和基准测试进行了验证.

Elimination-compensation pruning for fully-connected neural networks

Enrico Ballini et al.

cs.LG cs.AI

本文提出了一种针对全连接神经网络的新型剪枝方法, 称为"消除-补偿剪枝". 该方法在移除权重时, 会计算并应用对其相邻偏置项的最优扰动以补偿性能损失. 通过自动微分高效计算这些补偿量, 实验表明该方法在不同机器学习场景中具有内在效率.

CGSTA: Cross-Scale Graph Contrast with Stability-Aware Alignment for Multivariate Time-Series Anomaly Detection

Zhongpeng Qi et al.

cs.LG

本文提出了一个用于多元时间序列异常检测的框架CGSTA. 它通过构建跨尺度的动态图并进行稳定性感知的对齐学习, 以抑制噪声并提升检测性能.

VINA: Variational Invertible Neural Architectures

Shubhanshu Shekhar et al.

cs.LG cs.AI

本文提出了一个基于变分无监督损失函数的统一框架, 用于分析 Invertible Neural Networks (INNs) 和 Normalizing Flows (NFs). 该框架在比先前工作更弱、更实际的假设下, 为 INNs 的后验推断和 NFs 的分布建模提供了理论性能保证. 作者通过案例研究提炼了设计原则, 并在一个海洋声学反演问题上验证了方法的有效性.

Wireless Federated Multi-Task LLM Fine-Tuning via Sparse-and-Orthogonal LoRA

Nuocheng Yang et al.

cs.LG cs.AI

本文提出了一种稀疏正交LoRA方法, 用于无线去中心化联邦学习场景下的多任务大语言模型微调. 该方法通过正交化更新方向, 设计集群拓扑以及引入隐式MoE机制, 旨在解决数据异构导致的灾难性遗忘, 通信效率低下以及推理时知识干扰等问题.

A Generalized Apprenticeship Learning Framework for Capturing Evolving Student Pedagogical Strategies

Md Mirajul Islam et al.

cs.LG cs.AI

本文提出了一个名为THEMES的广义学徒学习框架, 用于从专家演示中推断奖励函数并推导决策策略. 该框架旨在捕捉学生教学策略的时变复杂性, 并在智能导学系统环境中通过有限轨迹实现了较高的预测性能.

Memory-guided Prototypical Co-occurrence Learning for Mixed Emotion Recognition

Ming Li et al.

cs.LG cs.SD eess.AS

本文提出了一个用于混合情感识别的记忆引导原型共现学习框架, 通过多尺度关联记忆融合多模态信号, 并构建情感原型记忆库以捕获跨模态语义关系. 该模型利用记忆检索策略提取情感类别间的语义级共现关联, 从而学习更具信息量的表示以进行情感分布预测, 在两个公开数据集上取得了优于现有方法的结果.

Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training

Zhengyao Gu et al.

cs.LG cs.AI cs.CL

本文提出了一种名为ACTOR-CURATOR的自动化课程学习框架，用于大规模语言模型（LLM）的强化学习后训练。该框架通过一个神经策展人动态选择训练问题，旨在直接优化策略性能的期望提升，并在多个推理基准测试中展现了优于均匀采样和其他基线方法的性能。

Sample-efficient evidence estimation of score based priors for model selection

Frederic Wang, Katherine L. Bouman

cs.LG cs.CV stat.ME

本文提出了一种名为\method的估计器, 用于评估基于扩散模型先验的模型证据$p(y \mid M)$. 该方法利用后验采样过程中产生的时间边缘样本来实现高效估计, 并在多个非线性逆问题中验证了其有效性.

GENSR: Symbolic Regression Based in Equation Generative Space

Qian Li et al.

cs.LG cs.SC

本文提出了一种基于生成式隐空间的符号回归方法GenSR. 该方法通过训练一个条件变分自编码器来构建一个具有连续性的方程隐空间, 并在此空间中进行搜索以发现数据背后的方程.

Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs

Yifei Liang et al.

cs.LG math.OC stat.ML

本文研究了基于Push-Sum的分布式优化算法在有向图上的稳定性与泛化性能。通过建立统一的均匀稳定性分析框架，揭示了网络拓扑结构（如稳态分布不平衡参数$\delta$和谱隙$1-\lambda$）对算法统计性能的影响。

Benchmarking GNN Models on Molecular Regression Tasks with CKA-Based Representation Analysis

Rajan, Ishaan Gupta

cs.LG

本文系统评估了四种GNN架构在多个分子性质预测数据集上的表现, 并提出了一个结合分子指纹的层次融合框架. 研究发现融合框架性能更优, 并通过CKA分析揭示了GNN与指纹嵌入表征的独立性以及不同GNN架构间的收敛性差异.

GATES: Self-Distillation under Privileged Context with Consensus Gating

Alex Stein, Furong Huang, Tom Goldstein

cs.LG cs.CL

本文提出了一种在监督不可靠情况下的自蒸馏方法 GATES, 该方法通过采样多个基于文档的推理轨迹并利用其一致性来生成可靠的学习信号, 从而在文档问答任务中提升了无文档学生模型的性能.

Upper-Linearizability of Online Non-Monotone DR-Submodular Maximization over Down-Closed Convex Sets

Yiyang Lu et al.

cs.LG math.OC stat.ML

本文针对在线非单调DR-submodular函数在向下闭凸集上的最大化问题，提出了一种新的结构分析。通过指数重参数化等方法，将问题约简为在线线性优化，从而在多种反馈模型下获得了改进的遗憾界。

Is the Trigger Essential? A Feature-Based Triggerless Backdoor Attack in Vertical Federated Learning

Yige Liu et al.

cs.LG cs.CR

本文提出了一种在vertical federated learning (VFL) 中无需植入触发器的后门攻击方法。该方法在更严格的安全假设下，通过特征操作实现攻击，并在多种数据集和防御策略下表现出高有效性和鲁棒性。

QEDBENCH: Quantifying the Alignment Gap in Automated Evaluation of University-Level Mathematical Proofs

Santiago Gonzalez et al.

cs.LG

本文介绍了QEDBench，一个用于量化大型语言模型在评估大学水平数学证明时与人类专家对齐差距的基准。研究发现，当前先进的评估模型在特定领域（如离散数学）存在显著的评分偏差和性能下降。

TrajGPT-R: Generating Urban Mobility Trajectory with Reinforcement Learning-Enhanced Generative Pre-trained Transformer

Jiawei Wang et al.

cs.LG cs.AI

本文提出了一种基于强化学习增强的生成式预训练Transformer模型, 用于生成城市移动轨迹. 该框架通过两阶段训练整合了离线强化学习和逆强化学习, 旨在解决轨迹生成中的稀疏奖励和长期信用分配问题, 并在多个数据集上验证了其可靠性和多样性.

Sparse Bayesian Deep Functional Learning with Structured Region Selection

Xiaoxian Zhu et al.

cs.LG stat.AP stat.ML

本文提出了一种稀疏贝叶斯深度函数神经网络(sBayFDNN), 用于处理具有复杂结构的连续数据. 该方法结合了深度学习的非线性建模能力和贝叶斯框架的可解释性区域选择, 并通过理论和实验验证了其有效性.

Bikelution: Federated Gradient-Boosting for Scalable Shared Micro-Mobility Demand Forecasting

Antonios Tziorvas, Andreas Tritsarolis, Yannis Theodoridis

cs.LG

本文提出了一种基于联邦学习和梯度提升树的共享单车需求预测方法 Bikelution, 该方法在保护数据隐私的同时, 实现了与集中式机器学习相当的预测精度. 在三个真实数据集上的实验验证了其有效性, 并探讨了联邦学习与集中式方法之间的权衡.

UrbanFM: Scaling Urban Spatio-Temporal Foundation Models

Wei Chen et al.

cs.LG cs.AI

本文提出了UrbanFM, 一个用于城市时空数据的基础模型框架. 它通过构建大规模数据集WorldST, 设计新的计算单元MiniST和简约的注意力架构, 旨在提升模型在不同城市和任务上的零样本泛化能力.

High-Dimensional Robust Mean Estimation with Untrusted Batches

Maryam Aliakbarpour et al.

cs.LG

本文研究了高维鲁棒均值估计问题, 其中数据由多个用户以批次形式提供, 部分用户可能是恶意的. 作者提出了基于Sum-of-Squares的算法来处理这种双层损坏模型, 并达到了最优的误差率.

WeirNet: A Large-Scale 3D CFD Benchmark for Geometric Surrogate Modeling of Piano Key Weirs

Lisa Lüddecke et al.

cs.LG cs.CE

本文提出了一个名为WeirNet的大规模3D CFD基准数据集，用于钢琴键堰几何代理建模。该数据集包含数千个参数化几何体及其在不同工况下的模拟结果，并评估了多种代理模型的性能，为数据驱动的水力建模提供了可复现的框架。

Fuz-RL: A Fuzzy-Guided Robust Framework for Safe Reinforcement Learning under Uncertainty

Xu Wan et al.

cs.LG

本文提出了一种名为Fuz-RL的模糊测度引导的鲁棒框架，用于处理不确定性下的安全强化学习。该框架通过引入基于Choquet积分的新型模糊Bellman算子来估计鲁棒值函数，并在实验中验证了其能提升安全性和控制性能。

Rethink Efficiency Side of Neural Combinatorial Solver: An Offline and Self-Play Paradigm

Zhenxing Xu et al.

cs.LG

本文提出了一种名为ECO的离线自博弈学习范式, 用于提升神经组合优化(NCO)的效率. 该方法采用监督预热与直接偏好优化(DPO)的两阶段离线训练, 并设计了基于Mamba的架构以提高效率, 在TSP和CVRP问题上取得了与前沿基线相当的性能.

Deep unfolding of MCMC kernels: scalable, modular & explainable GANs for high-dimensional posterior sampling

Jonathan Spence et al.

cs.LG

本文提出了一种通过深度展开Langevin MCMC算法来设计GAN架构的新方法, 用于高维后验采样. 该方法将迭代算法映射为模块化神经网络, 提高了计算效率并保持了MCMC策略的可解释性.

On Electric Vehicle Energy Demand Forecasting and the Effect of Federated Learning

Andreas Tritsarolis et al.

cs.LG

本文比较了多种时间序列预测方法(包括ARIMA, XGBoost, GRU/LSTM)在电动汽车充电设施能量需求预测问题上的表现, 并在集中式和联邦学习两种范式下进行了评估. 实验表明XGBoost在预测精度和能效上表现更优, 而联邦学习模型在预测保真度, 隐私保护和能耗开销之间取得了平衡.

Understanding the Role of Rehearsal Scale in Continual Learning under Varying Model Capacities

JinLi He, Liang Bai, Xian Yang

cs.LG

本文从理论角度分析了 rehearsal scale 在持续学习中对模型性能的影响。研究揭示了 rehearsal 可能损害模型适应性，且增加 rehearsal 数据量并不总能提升记忆保持。

Exploring the Impact of Parameter Update Magnitude on Forgetting and Generalization of Continual Learning

JinLi He, Liang Bai, Xian Yang

cs.LG

本文从参数更新幅度的角度形式化了持续学习中的遗忘现象, 将其定义为参数空间中任务特定漂移导致的知识退化. 通过推导最小化遗忘的最优更新幅度, 该工作在一个约束参数更新的优化框架下统一了冻结训练和初始化训练两种代表性范式.

Probing Dec-POMDP Reasoning in Cooperative MARL

Kale-ab Tessera et al.

cs.LG cs.MA

本文通过一个诊断套件评估了合作多智能体强化学习(MARL)基准任务对Dec-POMDP推理的实际需求。研究发现，在许多流行场景中，简单的反应式策略与基于记忆的策略表现相当，表明当前基准可能未能充分测试Dec-POMDP的核心假设。

Regret-Guided Search Control for Efficient Learning in AlphaZero

Yun-Jui Tsai et al.

cs.LG cs.AI

本文提出了一种名为Regret-Guided Search Control (RGSC)的方法来改进AlphaZero的训练效率。该方法通过一个regret network识别高regret状态，并将其用于重启训练，在多个棋盘游戏中取得了优于基准的表现。

Transcoder Adapters for Reasoning-Model Diffing

Nathan Hu et al.

cs.LG

本文提出了一种称为transcoder adapters的方法，用于学习并解释模型在微调前后MLP计算差异的可解释近似。该方法应用于分析Qwen2.5-Math-7B及其推理蒸馏变体DeepSeek-R1-Distill-Qwen-7B之间的差异，发现适配器特征具有稀疏激活和可解释性。

From Isolation to Integration: Building an Adaptive Expert Forest for Pre-Trained Model-based Class-Incremental Learning

Ruiqi Liu et al.

cs.LG cs.CV

本文提出了一种名为SAEF的方法, 用于组织预训练模型在类增量学习中的适配器. 该方法通过构建层次化的专家森林来整合任务知识, 并在多个基准数据集上取得了先进的性能.

On the Generalization Behavior of Deep Residual Networks From a Dynamical System Perspective

Jinshu Huang, Mingfei Sun, Chunlin Wu

cs.LG

本文结合Rademacher complexity, dynamical system的flow maps以及ResNet在深层极限下的收敛行为, 为离散和连续时间ResNet建立了泛化误差界. 得到的界关于训练样本数$S$为$O(1/\sqrt{S})$阶, 并包含一个结构相关的负项, 从而在更温和的假设下得到了深度一致和渐近的泛化界.

Hierarchic-EEG2Text: Assessing EEG-To-Text Decoding across Hierarchical Abstraction Levels

Anupam Sharma et al.

cs.LG cs.HC eess.SP

本文提出了一种基于EEG信号解码文本的层次化分析方法, 通过引入WordNet构建具有可变类别和不同抽象层次的"episodes"进行评估. 在大型数据集PEERS上, 实验表明当分类类别来自语义层次中更高抽象级别时, 模型性能倾向于提升. 这项工作强调了抽象深度是EEG解码中一个未被充分探索的维度.

Extending $μ$P: Spectral Conditions for Feature Learning Across Optimizers

Akshita Gupta et al.

cs.LG

本文提出了一种基于 spectral conditions 的新框架, 用于将 $\mu$P (maximal update parameterization) 推广到 AdamW, LAMB, Sophia 等一系列优化器上. 该框架绕过了复杂的 tensor programming, 并在多个基准模型上验证了学习率在不同模型宽度间的零样本迁移能力.

Estimation of Confidence Bounds in Binary Classification using Wilson Score Kernel Density Estimation

Thorbjørn Mosekjær Iversen, Zebin Duan, Frederik Hagelskjær

cs.LG cs.CV

本文提出了一种基于Wilson Score的核密度估计方法, 用于估计二元分类中的置信边界. 该方法在选择性分类任务中进行了评估, 展示了其作为特征提取器分类头的实用性, 并在较低计算复杂度下取得了与高斯过程分类相当的性能.

Does Order Matter : Connecting The Law of Robustness to Robust Generalization

Himadri Mandal et al.

cs.LG cs.AI

本文探讨了鲁棒性定律与鲁棒泛化之间的联系。研究通过引入鲁棒泛化误差的概念，并将其转化为诱导鲁棒损失类期望Rademacher复杂度的下界，从而将两者联系起来。实验部分在MNIST数据集上验证了理论预测的Lipschitz常数缩放规律。

MAST: A Multi-fidelity Augmented Surrogate model via Spatial Trust-weighting

Ahmed Mohamed Eisa Nasr, Haris Moazam Sheikh

cs.LG

本文提出了一种名为MAST的多保真度增强代理模型, 它通过空间信任加权来融合不同保真度的数据. 该方法在合成基准测试中表现优于现有技术, 并在不同预算和保真度差距下保持稳健性能.

Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning

Antoine Bergerault, Volkan Cevher, Negar Mehr

cs.LG cs.GT cs.MA

本文研究了多智能体模仿学习(MA-IL)中学习策略的可利用性问题。作者证明了在一般$n$-player Markov Games中学习低可利用性策略的困难性，并分析了在专家均衡满足特定策略优势假设下的理论保证。

T1: One-to-One Channel-Head Binding for Multivariate Time-Series Imputation

Dongik Park et al.

cs.LG

本文提出了一种名为T1的CNN-Transformer混合架构，用于多元时间序列的缺失值插补。该方法通过Channel-Head Binding机制，在CNN通道和注意力头之间建立一一对应关系，从而在极端稀疏条件下实现了优于现有方法的性能。

PIME: Prototype-based Interpretable MCTS-Enhanced Brain Network Analysis for Disorder Diagnosis

Kunyu Zhang et al.

cs.LG

本文提出了一种名为PIME的可解释性框架, 用于基于fMRI的功能连接网络进行疾病诊断. 该框架结合了prototype-based classification和consistency training, 并利用Monte Carlo Tree Search (MCTS)来提取解释性子图, 在多个基准数据集上取得了先进的性能.

Localized Dynamics-Aware Domain Adaption for Off-Dynamics Offline Reinforcement Learning

Zhangjie Xia, Yu Yang, Pan Xu

cs.LG cs.AI cs.RO

本文提出了一种名为LoDADA的方法，用于解决off-dynamics offline reinforcement learning中的领域适应问题。该方法通过聚类和域判别来利用局部动态不匹配，以更精细地筛选和重用源数据。

ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

Duowen Chen, Yan Wang

cs.LG cs.CV

本文提出了一个名为ProxyFL的代理引导框架, 用于解决联邦半监督学习(FSSL)中的数据异构性问题. 该框架通过一个统一的"代理"(分类器的可学习权重)来同时缓解客户端间和客户端内的数据分布差异.

Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads

Huy Trinh et al.

cs.LG eess.SP

本文评估了使用DeepSpeed分布式训练框架来提升Vision Transformers (ViTs)在图像任务中可扩展性的效果. 通过在不同GPU配置和数据集上的实验, 分析了数据并行对训练速度与通信开销的影响.

Probing Graph Neural Network Activation Patterns Through Graph Topology

Floriano Tori et al.

cs.LG cs.AI

本文通过引入Massive Activations的概念, 探究了graph topology与Graph Neural Networks (GNNs) 学习偏好之间的相互作用. 研究发现, 在分子基准和Long Range Graph Benchmark上, 极端激活值并不集中于曲率极值点, 并且全局注意力机制会加剧拓扑瓶颈, 导致负曲率增加.

Ski Rental with Distributional Predictions of Unknown Quality

Qiming Cui, Michael Dinitz

cs.LG cs.DS

本文研究了ski rental问题在"带预测的算法"框架下的分布预测版本. 作者提出了一种算法, 其期望成本相对于最优策略的期望成本, 其附加损失上界为$O(\min(\max(\eta, 1) \cdot \sqrt{b}, b \log b))$, 其中$\eta$是预测分布与真实分布之间的Earth Mover's距离. 该算法无需预先知道预测误差$\eta$, 并证明了相应的下界表明该结果基本是紧的.

SOM-VQ: Topology-Aware Tokenization for Interactive Generative Models

Alessandro Londei, Denise Lanzieri, Matteo Benati

cs.LG stat.ML

本文提出了一种结合向量量化与自组织映射的离散表示学习方法, 旨在为生成模型提供具有明确低维拓扑结构的codebook. 该方法通过保持邻域结构, 使得潜在空间中的邻近token对应语义相似的状态, 从而支持直观的几何操控. 在人体运动生成等领域的实验表明, 该方法能实现更易学习的token序列, 并为交互式生成任务提供可导航的code空间.

SELAUR: Self Evolving LLM Agent via Uncertainty-aware Rewards

Dengjia Zhang et al.

cs.LG cs.CL

本文提出了一种名为SELAUR的强化学习框架，通过将LLM的内在不确定性直接整合到奖励设计中，来提升多步决策智能体的性能。该方法在ALFWorld和WebShop基准测试中显示出优于基线模型的成功率。

Sequential Counterfactual Inference for Temporal Clinical Data: Addressing the Time Traveler Dilemma

Jingya Cheng et al.

cs.LG

本文针对临床数据中的时序反事实推断问题, 提出了一个 Sequential Counterfactual Framework. 该方法通过区分不可变特征与可控特征, 并建模干预的时序传播, 解决了传统方法在纵向数据上的局限性, 并在COVID-19患者数据上验证了其生物合理性.

The Diffusion Duality, Chapter II: $Ψ$-Samplers and Efficient Curriculum

Justin Deschenaux, Caglar Gulcehre, Subham Sekhar Sahoo

cs.LG

本文针对 uniform-state discrete diffusion models 在 ancestral samplers 下采样质量随步数增加而停滞的问题，提出了一族适用于任意噪声过程的 Predictor-Corrector (PC) samplers。该方法在语言和图像建模任务上超越了 ancestral sampling，并且其性能随采样步数增加而持续提升。此外，作者还提出了一种用于 Gaussian relaxation training phase 的高效训练课程，显著降低了训练时间和内存消耗。

Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training

Anas Barakat et al.

cs.LG cs.AI

本文研究了在大型语言模型后训练中, 直接优化 pass@k 指标可能导致 pass@1 性能下降的现象. 作者通过理论分析指出, 这种权衡源于 prompt interference 引起的梯度冲突.

Statistical Query Lower Bounds for Smoothed Agnostic Learning

Ilias Diakonikolas, Daniel M. Kane

cs.LG cs.DS stat.ML

本文研究了平滑不可知学习（smoothed agnostic learning）的复杂度，特别是针对子高斯分布下学习半空间（halfspaces）的任务。作者通过建立统计查询（SQ）下界，证明了现有基于$L_1$多项式回归的上界$d^{\tilde{O}(1/\sigma^2) \log(1/\epsilon)}$接近最优。

Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

Ravi Ghadia et al.

cs.LG cs.DC

本文提出了一种名为UPipe的context parallelism技术, 通过attention head级别的细粒度分块来显著降低self-attention的activation memory使用. 该方法在保持训练速度的同时, 支持了更长的上下文长度.

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Yining Hong et al.

cs.LG cs.AI cs.CL cs.CV cs.RO

本文提出了一种名为 Reflective Test-Time Planning 的方法, 用于增强具身 LLMs (Embodied LLMs) 在机器人任务中的表现. 该方法结合了行动中反思 (reflection-in-action) 和行动后反思 (reflection-on-action) 两种模式, 通过在测试时生成并评估多个候选动作, 并在执行后更新内部模型, 以减少错误重复并积累经验. 在长视野家庭任务和 MuJoCo 模拟环境中的实验表明, 该方法能有效提升任务性能.

Test-Time Training with KV Binding Is Secretly Linear Attention

Junchen Liu et al.

cs.LG cs.AI cs.CV

本文重新审视了Test-Time Training (TTT) 的机制, 指出其核心并非测试时记忆, 而是一种学习到的线性注意力 (linear attention) 算子. 这一视角统一了多种TTT变体, 并带来了架构简化和效率提升.

cs.AI

Multilevel Determinants of Overweight and Obesity Among U.S. Children Aged 10-17: Comparative Evaluation of Statistical and Machine Learning Approaches Using the 2021 National Survey of Children's Health

Joyanta Jyoti Mondal

cs.AI cs.LG

本文使用多种统计和机器学习模型分析了美国青少年超重和肥胖的多层次决定因素。研究发现，模型复杂性的增加相比逻辑回归带来的性能提升有限，且不同种族和贫困群体间的预测差异持续存在。

An artificial intelligence framework for end-to-end rare disease phenotyping from clinical notes using large language models

Cathy Shyr et al.

cs.AI cs.CL cs.LG

本文提出了一个名为RARE-PHENIX的端到端人工智能框架，用于从临床文本中提取罕见病表型。该框架整合了基于大语言模型的表型提取、基于本体的标准化以及有监督的排序模块，并在真实临床数据上验证了其优于现有基准方法的性能。

DMCD: Semantic-Statistical Framework for Causal Discovery

Samarth KaPatel et al.

cs.AI

本文提出了一个名为DMCD的两阶段因果发现框架, 它结合了基于LLM的语义草稿生成和基于观测数据的统计验证. 该框架在多个真实世界基准测试中展现出竞争力, 表明语义先验与统计验证的结合是一种有效的因果结构学习方法.

Diffusion Modulation via Environment Mechanism Modeling for Planning

Hanping Zhang, Yuhong Guo

cs.AI cs.LG

本文提出了一种名为DMEMM的扩散模型方法, 用于离线强化学习中的轨迹规划. 该方法通过建模环境机制(如转移动态和奖励函数)来调制扩散过程, 以生成更符合真实环境一致性的轨迹.

Implicit Intelligence -- Evaluating Agents on What Users Don't Say

Ved Sirdeshmukh, Marc Wetter

cs.AI

本文提出了一个名为"Implicit Intelligence"的评估框架, 用于测试AI智能体是否能理解用户请求中未言明的隐含约束. 该框架通过模拟交互环境来评估模型在隐私、风险等复杂场景下的推理能力, 实验表明当前最先进的模型在此类任务上仍有很大提升空间.

Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use

Ruocheng Guo et al.

cs.AI

本文提出了一个名为Trace-Free+的课程学习框架, 旨在优化LLM-agent所使用的工具描述, 以提升其在无执行轨迹或大规模候选工具集场景下的可靠性与泛化能力. 该方法通过构建大规模数据集并进行实验验证, 表明工具接口优化是agent微调的有效补充.

PreScience: A Benchmark for Forecasting Scientific Contributions

Anirudh Ajith et al.

cs.AI cs.CL

本文提出了一个名为 PreScience 的科学预测基准，它将研究过程分解为四个生成任务，并构建了一个包含近10万篇AI论文的数据集。研究为每个任务建立了基线评估，发现前沿大语言模型在预测科学贡献方面仍有很大提升空间。

KairosVL: Orchestrating Time Series and Semantics for Unified Reasoning

Haotian Si et al.

cs.AI

本文提出了一个结合语义理解的时间序列推理任务, 并引入了一个两轮强化学习框架来增强模型对时序基元和语义条件推理的感知能力. 所提出的KairosVL模型在合成与真实任务中展现了竞争力, 并通过实验验证了其泛化能力.

ActionEngine: From Reactive to Programmatic GUI Agents via State Machine Memory

Hongbin Zhong et al.

cs.AI cs.LG

本文提出了ActionEngine, 一个无需训练的双智能体框架, 用于图形用户界面(GUI)自动化. 它通过离线探索构建可更新的状态机记忆, 并利用该记忆合成完整的可执行程序, 从而将交互模式从反应式执行转变为程序化规划, 显著提升了任务成功率和执行效率.

Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI coordination

Rakshit Trivedi, Kartik Sharma, David C Parkes

cs.AI cs.CL cs.LG

本文提出了一种利用内部语言指导AI智能体模仿人类行为的方法, 通过结合视觉-语言模型和条件变分自编码器来生成行为意图的语言表示, 并使用扩散策略进行行为克隆. 该方法在机器人操作和人机协作任务中展示了提升行为多样性和可操控性的潜力.

From Logs to Language: Learning Optimal Verbalization for LLM-Based Recommendation in Production

Yucheng Shi et al.

cs.AI cs.IR

本文提出了一种基于强化学习的数据驱动框架, 用于优化大型语言模型(LLM)推荐系统中的"verbalization"过程, 即将结构化的用户交互日志转化为有效的自然语言输入. 实验表明, 该方法在工业流式数据集上显著提升了新物品推荐的准确性.

CausalReasoningBenchmark: A Real-World Benchmark for Disentangled Evaluation of Causal Identification and Estimation

Ayush Sawarni, Jiyuan Tan, Vasilis Syrgkanis

cs.AI

本文提出了一个名为CausalReasoningBenchmark的基准测试，用于评估因果推理系统。该基准将因果识别与估计两个步骤分开评估，有助于诊断系统在因果推理与数值执行上的具体错误。

Physics-based phenomenological characterization of cross-modal bias in multimodal models

Hyeongmo Kim et al.

cs.AI cond-mat.stat-mech

本文提出了一种基于物理的替代模型来分析多模态大语言模型(MLLMs)中的跨模态偏差。作者认为传统的表征层面分析不足以捕捉复杂的模态交互动力学，并通过扰动实验和动力学分析支持其观点。

When can we trust untrusted monitoring? A safety case sketch across collusion strategies

Nelson Gardner-Challis et al.

cs.AI

本文探讨了在AI系统中使用不可信监控（untrusted monitoring）时的安全性问题。作者放宽了先前研究中关于AI合谋策略的假设，提出了一种涵盖多种合谋类型的分类法，并构建了一个安全案例框架来论证其安全性条件。

Identifying two piecewise linear additive value functions from anonymous preference information

Vincent Auriau et al.

cs.AI

本文提出了一种从匿名偏好信息中同时识别两个决策者分段线性加性价值函数的 elicitation 方法. 该方法在已知边际价值函数断点的前提下, 通过一系列查询来区分并确定两个不同的偏好模型.

Grounding LLMs in Scientific Discovery via Embodied Actions

Bo Zhang et al.

cs.AI

本文提出了EmbodiedAct框架, 将科学软件转化为具身智能体, 通过紧密的感知-执行循环让LLMs在具身行动中扎根. 该框架在MATLAB中实现, 并在复杂工程设计和科学建模任务上进行了评估.

Recursive Belief Vision Language Model

Vaidehi Bagaria, Bijo Sebastian, Nirav Patel

cs.AI

本文提出了一种基于信念(belief)的视觉语言动作模型RB-VLA，用于解决部分可观测环境下的长时程操作任务。该模型通过维护一个紧凑的潜在状态来编码任务历史与动态，从而提升了任务成功率并降低了推理延迟。

How Foundational Skills Influence VLM-based Embodied Agents:A Native Perspective

Bo Peng et al.

cs.AI

本文提出了一个名为NativeEmbodied的基准测试，用于评估基于视觉语言模型(VLM)的具身智能体。该基准在统一、原生的低级动作空间下，通过高低层次任务的联合评估，揭示了当前VLM在多项基础技能上的不足及其对高层任务性能的限制。

PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding

Baolong Bi et al.

cs.AI

本文提出了一种名为PromptCD的测试时行为控制方法, 通过构建极性提示对并对比模型响应来增强AI系统的行为. 该方法无需额外训练, 可应用于大语言模型和视觉语言模型, 在"3H"对齐目标和视觉问答任务上展示了性能提升.

Online Algorithms with Unreliable Guidance

Julien Dallot et al.

cs.AI cs.DS

本文提出了一个名为"在线算法与不可靠指导"(OAG)的新模型, 用于机器学习增强的在线决策. 该模型将预测组件与算法组件完全分离, 提供了一个统一的分析框架. 作者还介绍了一种名为"丢弃或盲目信任"(DTB)的编译器方法, 可以将任何在线算法转化为OAG模型下的学习增强算法, 并在缓存等经典问题上获得了有吸引的理论保证.

ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction

Che Wang et al.

cs.AI cs.CR

本文提出了一种名为ICON的框架, 用于防御LLM智能体面临的间接提示注入(IPI)攻击. 该方法通过在推理时探测潜在空间中的攻击特征并进行注意力修正, 在降低攻击成功率的同时, 显著提升了任务执行的效用.

Counterfactual Simulation Training for Chain-of-Thought Faithfulness

Peter Hase, Christopher Potts

cs.AI cs.CL

本文提出了一种名为 Counterfactual Simulation Training (CST) 的训练方法，旨在提升大型语言模型中 Chain-of-Thought (CoT) 推理的忠实性。该方法通过奖励那些能让模拟器准确预测模型在反事实输入下输出的 CoT 来实现这一目标。

Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

Xu Wan et al.

cs.AI

本文提出了一种名为Batch Adaptation Policy Optimization (BAPO)的off-policy强化学习框架，旨在提升大语言模型后训练阶段的数据效率。该方法通过动态选择历史样本进行训练，在多个推理任务上取得了优于基线方法的效果。

Modality-Guided Mixture of Graph Experts with Entropy-Triggered Routing for Multimodal Recommendation

Ji Dai, Quan Fang, Dengsheng Cai

cs.AI

本文提出了一种名为MAGNET的多模态推荐模型，旨在解决多模态信号融合中的异质性与冲突问题。该模型通过模态引导的专家混合与熵触发路由机制，增强了融合过程的可控性与可解释性。

Balancing Multiple Objectives in Urban Traffic Control with Reinforcement Learning from AI Feedback

Chenyang Zhao, Vinny Cahill, Ivana Dusparic

cs.AI

本文探讨了将RLAIF范式扩展到多目标自适应系统的方法. 研究展示了多目标RLAIF能够生成反映不同用户优先级的平衡策略, 为具有内在冲突目标的领域提供了一条可扩展的用户对齐策略学习路径.

CHESS: Context-aware Hierarchical Efficient Semantic Selection for Long-Context LLM Inference

Chao Fei et al.

cs.AI

本文提出了一种名为CHESS的算法-系统协同设计方法, 用于管理大型语言模型推理过程中的KV缓存. 该方法通过上下文感知的分层语义选择策略, 在显著减少缓存使用的同时维持了生成质量, 并实现了推理速度的提升.

PyVision-RL: Forging Open Agentic Vision Models via RL

Shitian Zhao et al.

cs.AI cs.CV

本文提出了PyVision-RL, 一个用于训练开放权重多模态智能体模型的强化学习框架. 该框架通过特定的采样与奖励策略来维持多轮交互, 并开发了用于图像和视频理解的模型, 在视频任务中采用了按需构建上下文的方法以提高效率.

Pipeline for Verifying LLM-Generated Mathematical Solutions

Varvara Sazonova et al.

cs.AI

本文提出了一种用于验证大语言模型(LLM)生成的数学解答的自动化与交互式验证流程(pipeline). 该流程旨在替代仅检查最终答案的现有基准测试方法, 并可作为生成正确解答(包括形式化与非形式化语言)的工具.

POMDPPlanners: Open-Source Package for POMDP Planning

Yaacov Pariente, Vadim Indelman

cs.AI

本文介绍了一个用于POMDP规划算法实证评估的开源Python软件包。该工具集成了多种先进算法、基准环境以及自动化超参数优化等功能，旨在促进不确定性下决策研究的可扩展性与可复现性。

Qwen-BIM: developing large language model for BIM-based design with domain-specific benchmark and dataset

Jia-Rui Lin et al.

cs.AI

本文针对建筑信息模型(BIM)领域缺乏专用数据集与评估基准的问题, 提出了一个包含评估基准、数据生成方法和微调策略的框架, 并基于此开发了领域大语言模型Qwen-BIM. 实验表明, 该模型在特定任务上性能显著提升, 能以较小参数量达到通用大模型的水平.

Pressure Reveals Character: Behavioural Alignment Evaluation at Depth

Nora Petrova, John Burden

cs.AI

本文提出了一个用于评估语言模型行为对齐的基准测试, 包含904个跨六个类别(Honesty, Safety, Non-Manipulation, Robustness, Corrigibility, Scheming)的多轮压力测试场景. 通过评估24个前沿模型, 研究发现即使表现最佳的模型也存在特定类别的缺陷, 并且对齐性表现出类似认知研究中g因子的统一结构.

Diagnosing Causal Reasoning in Vision-Language Models via Structured Relevance Graphs

Dhita Putri Pratama, Soyeon Caren Han, Yihao Ding

cs.AI

本文提出了Vision-Language Causal Graphs (VLCGs)这一结构化表示方法, 用于诊断Vision-Language Models的因果推理能力. 基于此构建的ViLCaR基准测试表明, 为模型注入结构化关联信息能显著提升其因果归因和推理的一致性.

Predicting Sentence Acceptability Judgments in Multimodal Contexts

Hyewon Jang et al.

cs.AI cs.CL

本文研究了视觉图像作为上下文对大型语言模型(LLM)和人类进行句子可接受性判断的影响。实验发现，与文本上下文不同，视觉上下文对人类判断影响甚微，但会影响LLM的内部表示与预测之间的一致性。

HELP: HyperNode Expansion and Logical Path-Guided Evidence Localization for Accurate and Efficient GraphRAG

Yuqi Huang et al.

cs.AI

本文提出了一种名为HELP的GraphRAG框架，旨在平衡知识密集型任务中的准确性与效率。它通过HyperNode Expansion构建连贯的推理路径，并利用Logical Path-Guided Evidence Localization进行高效检索，避免了昂贵的图遍历。实验表明该方法在保持性能的同时显著提升了检索速度。

Architecting AgentOS: From Token-Level Context to Emergent System-Level Intelligence

ChengYou Li et al.

cs.AI

本文提出了一个名为AgentOS的框架, 将LLM重新定义为由结构化操作系统原则管理的"推理内核". 其核心是深度上下文管理, 将上下文窗口概念化为可寻址的语义空间, 并引入了语义切片和时间对齐等机制.

LogicGraph : Benchmarking Multi-Path Logical Reasoning via Neuro-Symbolic Generation and Verification

Yanrui Wu et al.

cs.AI

本文提出了一个名为LogicGraph的基准测试, 用于评估大语言模型在多路径逻辑推理上的表现. 该基准通过神经符号框架生成包含多个有效证明路径和逻辑干扰的问题, 并采用无参考评估框架来衡量模型在收敛和发散推理模式下的性能.

Tool Building as a Path to "Superintelligence"

David Koplow, Tomer Galanti, Tomaso Poggio

cs.AI

本文设计了一个基准来评估LLMs在逻辑分布外推理中的单步成功率$\gamma$, 任务涉及GF(2)电路重构. 分析表明, 前沿模型在该任务上表现出部分鲁棒性, 并且精确的工具调用是实现成功推理的关键.

Motivation is Something You Need

Mehdi Acheli, Walid Gaaloul

cs.AI cs.CV cs.LG

本文提出了一种受情感神经科学启发的新型训练范式, 设计了一个双模型框架. 该框架通过间歇性激活更大的"动机模型"来模拟高好奇心状态, 在图像分类任务上实现了对基础模型的有效增强, 同时保持了较低的训练成本.

The Initial Exploration Problem in Knowledge Graph Exploration

Claire McNamara, Lucy Hederman, Declan O'Sullivan

cs.AI

本文提出了知识图谱(Knowledge Graph, KG)探索中的"初始探索问题"(Initial Exploration Problem, IEP), 并对其进行了理论化. 作者分析了该问题的三个相互关联的障碍, 并指出当前许多KG交互界面在设计上存在结构性缺陷, 缺乏有效支持初始探索的交互原语.

A Benchmark for Deep Information Synthesis

Debjit Paul et al.

cs.AI cs.CL cs.IR cs.LG

本文提出了一个名为DEEPSYNTH的新基准测试，用于评估基于大语言模型的智能体在复杂信息综合任务上的能力。该基准包含跨多个领域的真实任务，测试结果表明当前最先进的模型在该基准上表现不佳。

CG-DMER: Hybrid Contrastive-Generative Framework for Disentangled Multimodal ECG Representation Learning

Ziwei Niu et al.

cs.AI

本文提出了一种结合对比学习和生成学习的混合框架CG-DMER, 用于学习解耦的多模态心电图(ECG)表示. 该方法通过空间-时间掩码建模来捕捉ECG信号的细粒度时空依赖性, 并使用表示解耦与对齐策略来减少模态间的特定偏差. 在三个公开数据集上的实验表明, 该框架在多种下游任务上取得了先进的性能.

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

Ishaan Rawal et al.

cs.AI cs.CV

本文提出了一种名为NoRD的Vision-Language-Action模型，旨在减少自动驾驶中对大规模数据和密集推理标注的依赖。该模型通过结合Dr. GRPO算法来克服训练中的困难偏差，在仅使用少量数据和无推理标注的情况下，在Waymo和NAVSIM基准上取得了有竞争力的性能。

Aletheia tackles FirstProof autonomously

Tony Feng et al.

cs.AI cs.CL cs.LG

本文报告了人工智能数学研究代理 Aletheia 在首届 FirstProof 挑战赛中的表现。该代理在限定时间内自主解决了10个问题中的6个。

cs.IR

Indaleko: The Unified Personal Index

William Anthony Mason

cs.IR cs.HC

本文提出了一种名为Unified Personal Index (UPI)的、与人类记忆机制对齐的个人信息检索架构，并开发了原型系统Indaleko。该系统通过整合时间、空间和活动等多维度元数据到一个统一的图数据库中，支持基于自然语言描述的上下文查询，解决了现有跨平台搜索系统在基于记忆线索检索时的不足。

PRECTR-V2:Unified Relevance-CTR Framework with Cross-User Preference Mining, Exposure Bias Correction, and LLM-Distilled Encoder Optimization

Shuzhi Cao et al.

cs.IR cs.AI

本文提出了一个用于搜索系统的统一框架PRECTR-V2，旨在协同优化相关性匹配和点击率预测。它通过挖掘跨用户偏好来缓解冷启动问题，并引入噪声注入和成对损失来校正曝光偏差。此外，模型使用基于LLM知识蒸馏的轻量级Transformer编码器替代了原有的冻结BERT模块，以更好地适应下游任务。

IntRR: A Framework for Integrating SID Redistribution and Length Reduction

Zesheng Wang et al.

cs.IR

本文提出了一个名为IntRR的框架, 用于整合生成式推荐中的SID重分配与长度缩减. 它通过利用UID作为协作锚点来动态调整分层语义ID的权重, 并采用递归处理固定序列长度, 从而提升了推荐的准确性与效率.

RMIT-ADM+S at the MMU-RAG NeurIPS 2025 Competition

Kun Ran et al.

cs.IR cs.AI cs.CL

本文介绍了在NeurIPS 2025 MMU-RAG竞赛中获奖的RMIT-ADM+S系统。该系统提出了一种名为Routing-to-RAG (R2RAG)的检索增强生成架构，通过轻量级组件动态调整检索策略，并能在消费级GPU上高效运行。

Mitigating Preference Leakage via Strict Estimator Separation for Normative Generative Ranking

Dalia Nahhas et al.

cs.IR

本文针对Generative Information Retrieval (GenIR)中的偏好泄露问题，提出了一个严格分离监督与评估的两阶段框架。该方法在一个新的文化故事基准上验证了其有效性，并表明经过蒸馏的密集编码器能在无泄露评估中超越其监督模型。

E-MMKGR: A Unified Multimodal Knowledge Graph Framework for E-commerce Applications

Jiwoo Kang, Yeon-Chang Lee

cs.IR cs.AI

本文提出了一个名为E-MMKGR的统一多模态知识图谱框架，用于电子商务应用。该框架通过构建特定的知识图谱并利用图神经网络学习统一的物品表示，从而提升了推荐和搜索任务的性能。

Naver Labs Europe @ WSDM CUP | Multilingual Retrieval

Thibault Formal et al.

cs.IR

本文介绍了团队在WSDM Cup 2026多语言文档检索任务中的工作，主要评估了其提出的SPLARE稀疏检索模型。通过结合Qwen3-Reranker-4B重排序等轻量级改进，结果表明SPLARE在跨语言场景下优于Qwen3-8B-Embed等先进的稠密检索基线。

Generative Pseudo-Labeling for Pre-Ranking with LLMs

Junyu Bi et al.

cs.IR cs.CL

本文提出了一种名为Generative Pseudo-Labeling (GPL)的框架，用于缓解推荐系统预排序阶段的训练-服务偏差问题。该方法利用大型语言模型(LLMs)为未曝光项目生成伪标签，从而提升模型在线上服务时的泛化能力。

HiSAC: Hierarchical Sparse Activation Compression for Ultra-long Sequence Modeling in Recommenders

Kun Yuan et al.

cs.IR cs.CL

本文提出了一种用于推荐系统中超长序列建模的层级稀疏激活压缩框架. 该方法通过构建全局层级码本和稀疏激活个性化兴趣代理来高效聚合历史行为, 在保持性能的同时显著降低了计算和存储成本.

Position-Aware Sequential Attention for Accurate Next Item Recommendations

Timur Nabiev, Evgeny Frolov

cs.IR cs.AI cs.LG

本文提出了一种新的位置感知自注意力机制, 用于序列推荐任务. 该方法通过解耦位置信息与语义信息, 并利用可学习的位置核直接调制注意力权重, 从而改进了对序列模式的建模能力.

Turning Semantics into Topology: LLM-Driven Attribute Augmentation for Collaborative Filtering

Junjie Meng et al.

cs.IR

本文提出了一种名为TAGCF的推荐系统框架, 它利用LLM从用户-物品对中推断交互意图和因果关系, 并将这些语义知识转化为拓扑连接, 构建一个增强的User-Attribute-Item图. 通过提出的自适应关系加权图卷积(ARGC)来建模异构关系, 实验表明该框架能有效提升多种协同过滤基线的性能.

Multi-Vector Index Compression in Any Modality

Hanxiang Qin et al.

cs.IR cs.CL cs.CV

本文研究了跨模态检索中多向量索引的压缩问题, 提出了几种查询无关的压缩方法, 包括一种新颖的注意力引导聚类(AGC)方法. 实验表明, AGC在文本、视觉文档和视频检索任务上能有效压缩索引并保持竞争力.

cs.CL

Multimodal Multi-Agent Empowered Legal Judgment Prediction

Zhaolu Kang et al.

cs.CL cs.AI cs.CY cs.MA

本文提出了一个用于法律判决预测(LJP)的多模态多智能体框架JurisMMA, 并构建了一个包含文本和视频文本数据的大规模数据集JurisMM. 实验表明该框架在多个基准测试上有效, 为法律应用提供了新的视角.

Talking to Yourself: Defying Forgetting in Large Language Models

Yutao Sun et al.

cs.CL cs.AI

本文提出了一种名为SA-SFT的轻量级自增强方法，通过在微调前让大语言模型生成自对话数据并与任务数据混合，来缓解灾难性遗忘问题。该方法无需外部数据或额外调优，在多种评估场景中有效保持了模型的通用能力。

Benchmarking Distilled Language Models: Performance and Efficiency in Resource-Constrained Settings

Sachin Gopal Wani et al.

cs.CL cs.LG

本文通过基准测试比较了蒸馏模型与原始模型及专有模型在性能和计算成本上的差异. 研究发现, 知识蒸馏能显著提升小型语言模型在资源受限环境下的性能-计算效率曲线.

ConceptRM: The Quest to Mitigate Alert Fatigue through Consensus-Based Purity-Driven Data Cleaning for Reflection Modelling

Yongda Yu et al.

cs.CL cs.AI

本文提出了一种名为ConceptRM的方法, 用于从用户反馈中构建高质量的训练语料, 以训练能够有效过滤虚假警报的reflection model. 该方法利用少量专家标注作为锚点, 通过生成不同噪声比例的数据集和协同训练多个模型来分析共识, 从而从噪声数据中识别可靠的负样本. 实验表明, ConceptRM能以较低的标注成本显著提升虚假警报的拦截效果.

InterviewSim: A Scalable Framework for Interview-Grounded Personality Simulation

Yu Li et al.

cs.CL cs.AI cs.CY

本文提出了一个基于真实访谈数据的大规模人格模拟评估框架 InterviewSim. 该框架通过四个互补的指标来评估生成内容与真实访谈记录在内容、事实、人格和知识保留上的一致性. 实验表明, 基于访谈数据的方法优于仅依赖传记或模型参数知识的方法, 并揭示了检索增强方法与按时间顺序使用方法在不同评估指标上的权衡.

What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

William Watson et al.

cs.CL cs.AI

本文通过构建一个包含22个语言学特征的查询向量, 分析了查询的句法复杂性和语义特性对大型语言模型(LLM)产生幻觉的影响. 研究发现, 诸如深层子句嵌套等特征与更高的幻觉倾向相关, 而清晰的意图和可回答性则与较低的幻觉率相关.

No One Size Fits All: QueryBandits for Hallucination Mitigation

Nicole Cho et al.

cs.CL cs.AI cs.LG

本文提出了一个名为 QueryBandits 的模型无关的上下文赌博机框架，用于缓解大型语言模型中的幻觉问题。该框架通过在线学习自适应地选择最优的查询重写策略，并在多个问答场景中验证了其有效性。

Natural Language Processing Models for Robust Document Categorization

Radoslaw Roszczyk et al.

cs.CL

本文评估了Naive Bayes, BiLSTM和BERT等模型在文本分类任务上的表现, 重点关注分类准确率与计算效率的平衡. 实验表明BERT准确率最高但计算成本大, BiLSTM在准确率和效率间取得了较好的平衡, 而Naive Bayes速度最快但准确率最低. 研究还实现了一个演示系统来验证自动化文档分类的实用性.

How communicatively optimal are exact numeral systems? Once more on lexicon size and morphosyntactic complexity

Chundra Cathcart et al.

cs.CL

本文通过分析52种语言的数词系统数据, 重新审视了"精确递归数词系统通过平衡词库大小与平均形态句法复杂度来优化交际效率"的假说. 研究指出, 许多语言的实际效率显著低于理论预期, 这对语言演化研究具有启示意义.

Case-Aware LLM-as-a-Judge Evaluation for Enterprise-Scale RAG Systems

Mukul Chhabra, Luigi Medrano, Arush Verma

cs.CL cs.AI

本文提出了一个面向企业级多轮RAG系统的、基于案例感知的LLM-as-a-Judge评估框架。该框架通过八个基于实际操作的指标来评估系统性能，旨在解决现有评估方法在企业特定场景下的不足。

Disentangling Geometry, Performance, and Training in Language Models

Atharva Kulkarni et al.

cs.CL

本文通过系统实验研究了语言模型中unembedding matrix的几何性质(特别是effective rank)与下游任务性能之间的关系. 研究发现, 几何指标主要反映训练超参数的选择, 并不能可靠地预测模型性能.

From Performance to Purpose: A Sociotechnical Taxonomy for Evaluating Large Language Model Utility

Gavin Levinson, Keith Feldman

cs.CL

本文提出了一个名为LUX的综合分类框架, 用于评估大型语言模型(LLM)在现实应用中的效用. 该框架超越了传统的性能指标, 从性能、交互、运营和治理四个领域构建了层次化的评估维度, 并提供了配套的在线工具以连接具体度量指标.

Stop-Think-AutoRegress: Language Modeling with Latent Diffusion Planning

Justin Lovelace et al.

cs.CL cs.LG

本文提出了一种结合 latent diffusion planning 与 autoregressive generation 的语言模型 STAR-LDM. 它在生成过程中引入一个“思考”阶段, 先在连续语义空间进行全局规划, 再生成离散 token, 在语言理解和叙事连贯性任务上表现优于同类模型.

Personal Information Parroting in Language Models

Nishant Subramani, Kshitish Ghate, Mona Diab

cs.CL cs.AI cs.CR cs.LG

本文开发了R&R检测器套件来识别语言模型训练数据中的个人身份信息(PI), 并评估了Pythia模型系列对PI的记忆程度. 研究发现模型规模和预训练数据量均与记忆率呈正相关, 建议对预训练数据进行严格的过滤和匿名化处理.

Enhancing Hate Speech Detection on Social Media: A Comparative Analysis of Machine Learning Models and Text Transformation Approaches

Saurabh Mishra, Shivani Thakur, Radhika Mamidi

cs.CL cs.AI

本文比较了多种机器学习模型在社交媒体仇恨言论检测中的性能, 并探索了文本转换技术的中和作用. 研究发现, 基于深度上下文理解的BERT等先进模型具有较高准确性, 而混合模型在某些场景下表现更佳.

Semantic Novelty at Scale: Narrative Shape Taxonomy and Readership Prediction in 28,606 Books

W. Frederick Zimmerman

cs.CL

本文提出了一种基于语义新颖性(semantic novelty)的度量, 用于在大规模语料库中分析叙事结构. 通过分析28,606本书籍, 研究发现叙事形状与体裁、历史时期相关, 并且新颖性轨迹的方差是预测读者参与度的最强指标.

CARE: An Explainable Computational Framework for Assessing Client-Perceived Therapeutic Alliance Using Large Language Models

Anqi Li et al.

cs.CL

本文提出了一个基于大语言模型的框架CARE, 用于从心理咨询对话文本中自动预测客户感知的治疗联盟多维评分并生成可解释的理由. 该框架在特定数据集上进行了微调, 实验表明其在预测准确性和生成理由质量上优于现有方法.

CAMEL: Confidence-Gated Reflection for Reward Modeling

Zirui Zhu et al.

cs.CL cs.AI

本文提出了一种用于奖励建模的置信度门控反思框架CAMEL, 它首先进行轻量级的单令牌偏好决策, 然后仅对低置信度实例选择性地调用反思过程. 该方法在多个基准测试上取得了最先进的性能, 并在效率与准确性之间建立了更优的帕累托前沿.

ID-LoRA: Efficient Low-Rank Adaptation Inspired by Matrix Interpolative Decomposition

Xindian Ma et al.

cs.CL

本文提出了一种名为ID-LoRA的新型参数高效微调框架，旨在减少可训练参数数量而不牺牲模型性能。该方法通过复用预训练权重矩阵中的聚类参数组来构建多个共享同一可训练矩阵的低秩分量。实验表明，ID-LoRA在多个基准测试上优于标准LoRA及其变体，同时显著减少了参数量。

Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Gabriel Loiseau et al.

cs.CL

本文提出了自适应文本匿名化任务, 通过提示优化框架自动生成适应特定隐私-效用需求的匿名化指令. 该方法在多个数据集上超越了现有基线, 实现了更好的隐私-效用权衡, 并能发现新的匿名化策略.

Explicit Grammar Semantic Feature Fusion for Robust Text Classification

Azrin Sultana, Firoz Ahmed

cs.CL

本文提出了一种将显式语法规则与语义信息融合的轻量级文本分类方法. 该方法通过构建语法向量来编码句子结构, 并与冻结的上下文嵌入结合, 在多个深度学习模型上取得了优于基线模型的效果.

SibylSense: Adaptive Rubric Learning via Memory Tuning and Adversarial Probing

Yifei Xu et al.

cs.CL cs.AI cs.LG

本文提出了一种名为SibylSense的推理时学习方法，用于自适应地改进开放式生成任务的评估准则（rubric）。该方法通过一个可调的记忆库来更新准则生成器，并结合对抗性策略来生成满足准则的答案，从而提升强化学习后训练的效果。实验表明，该方法能产生更具区分性的准则，并优于静态和非自适应的基线。

Overton Pluralistic Reinforcement Learning for Large Language Models

Yu Fu, Seongho Son, Ilija Bogunovic

cs.CL

本文提出了OP-GRPO，一个用于训练大语言模型生成多元化响应的强化学习框架。该方法通过一个双奖励系统来平衡观点覆盖的广度与独特性，实验表明较小的模型也能实现较好的观点覆盖效果。

Don't Ignore the Tail: Decoupling top-K Probabilities for Efficient Language Model Distillation

Sayantan Dasgupta, Trevor Cohn, Timothy Baldwin

cs.CL cs.LG

本文提出了一种新的tail-aware divergence用于语言模型蒸馏, 它通过解耦teacher模型top-K概率与低概率预测的贡献, 在保持与KL散度相同计算开销的同时, 增强了分布尾部信息的影响. 实验表明该方法在各种数据集上的预训练和监督蒸馏中取得了有竞争力的性能.

FinAnchor: Aligned Multi-Model Representations for Financial Prediction

Zirui He et al.

cs.CL

本文提出了一个名为FinAnchor的轻量级框架, 用于整合多个LLM的embeddings以进行金融预测. 该方法通过选择anchor embedding space并学习线性映射来对齐不同模型的representations, 从而提升下游任务的性能.

Exa-PSD: a new Persian sentiment analysis dataset on Twitter

Seyed Himan Ghaderi et al.

cs.CL

本文介绍了一个新的波斯语情感分析数据集Exa-PSD, 该数据集包含从Twitter收集的12,000条推文, 并由人工标注为积极、中性和消极三类. 作者使用预训练的ParsBERT和RoBERTa模型对该数据集进行了基准评估, 取得了79.87的Macro F1分数.

The Art of Efficient Reasoning: Data, Reward, and Optimization

Taiqiang Wu et al.

cs.CL cs.AI

本文系统研究了大型语言模型的高效推理机制, 提出了更细粒度的评估指标, 并通过大量实验揭示了训练过程遵循"长度适应"和"推理精炼"的两阶段范式. 研究发现, 在相对简单的提示上进行训练可以避免长度塌缩, 并且习得的长度偏好具有跨领域泛化能力.

Blackbird Language Matrices: A Framework to Investigate the Linguistic Competence of Language Models

Paola Merlo et al.

cs.CL

本文提出了一个受智力测试启发的语言任务框架 Blackbird Language Matrices (BLM), 用于评估语言模型的语言能力. 通过构建结构化的多选数据集, 实验表明基线模型和定制模型能在一定程度上解决该任务, 并揭示了模型对语言对象和跨句子系统模式的利用.

Linear Reasoning vs. Proof by Cases: Obstacles for Large Language Models in FOL Problem Solving

Yuliang Ji et al.

cs.CL

本文构建了一个专注于 case-based reasoning 的 first-order logic 数据集 PC-FOL, 用于评估大语言模型的数学推理能力. 实验发现模型在 case-based reasoning 问题上表现显著差于 linear reasoning, 并通过基于 graphical model 的理论分析解释了这一差距.

Evaluating Proactive Risk Awareness of Large Language Models

Xuan Luo et al.

cs.CL cs.CY

本文提出了一个评估大语言模型(LLM)主动风险意识的框架, 并构建了Butterfly数据集在环境生态领域进行测试. 实验发现, 当前模型在响应长度受限、跨语言及多模态物种保护方面存在显著的意识盲区.

Beyond the Star Rating: A Scalable Framework for Aspect-Based Sentiment Analysis Using LLMs and Text Classification

Vishal Patil et al.

cs.CL

本文提出了一种结合LLMs进行aspect identification和传统机器学习方法进行sentiment classification的混合框架, 用于大规模客户评论的aspect-based sentiment analysis. 该框架在餐饮评论数据集上进行了验证, 表明其能有效自动化分析并解释整体评分的方差.

Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

Sanket Badhe, Deep Shah

cs.CL cs.IR

本文提出了一种名为Prompt-Level Distillation (PLD)的方法，旨在替代模型微调以实现高效推理。该方法通过从教师模型中提取推理模式并组织成结构化指令，使小型学生模型在保持低延迟的同时提升性能。

PVminer: A Domain-Specific Tool to Detect the Patient Voice in Patient Generated Data

Samah Fodeh et al.

cs.CL cs.AI

本文提出了一个名为PVminer的领域特定NLP工具, 用于从患者生成的文本数据中检测"患者之声". 该框架整合了领域适应的BERT编码器与无监督主题建模, 以多标签分类任务的形式对患者沟通行为和社会健康决定因素进行结构化分析.

On Data Engineering for Scaling LLM Terminal Capabilities

Renjie Pi et al.

cs.CL

本文研究了提升大型语言模型终端代理能力的数据工程策略. 作者提出了一个轻量级的合成任务生成流程 Terminal-Task-Gen, 并构建了大规模开源数据集 Terminal-Corpus. 基于此训练的 Nemotron-Terminal 模型系列在 Terminal-Bench 2.0 基准上取得了显著性能提升.

cs.DS

Exploiting Low-Rank Structure in Max-K-Cut Problems

Ria Stevens et al.

cs.DS

本文针对Max-3-Cut问题，提出了一种利用目标矩阵低秩结构的新算法。该方法通过枚举一个大小为$O\left(n^{2r-1}\right)$的候选解集来最大化复值二次型，并在目标为低秩矩阵时保证找到精确解。实验表明该算法性能与现有方法相当，且具有高度的可扩展性。

Turing Completeness of GNU find: From mkdir-assisted Loops to Standalone Computation

Keigo Oka

cs.DS

本文证明了GNU find命令与mkdir命令的组合是Turing complete的，通过将计算状态编码为目录路径并模拟2-tag systems来实现。研究揭示了这一常见命令行工具背后隐藏的计算复杂性。

DRESS: A Continuous Framework for Structural Graph Refinement

Eduar Castrillo Velilla

cs.DS cs.LG

本文提出了一个名为DRESS的连续动力学系统框架, 用于图的结构性细化. 该框架通过推广到Motif-DRESS和Delta-DRESS, 在区分某些强正则图(Strongly Regular Graphs)时, 经验上超越了计算代价高昂的3-WL (Weisfeiler-Lehman)方法.

Adversarial Robustness on Insertion-Deletion Streams

Elena Gribelyuk et al.

cs.DS

本文研究了在插入-删除流(也称为旋转门流)中对抗性鲁棒算法的设计问题. 它提出了一种新颖的估计器-校正器-学习器框架, 结合多个线性草图, 首次在亚线性空间内实现了对$F_2$矩等函数的鲁棒近似.

A $2$-branching construction for the $χ\leq 2r$ bound

Vinicius Tikara Venturi Date, Leandro Miranda Zatesko

cs.DS

本文研究了字符串重复性度量 $\chi$ 和 $r$ 之间的关系，聚焦于已知上界 $\chi \leq 2r$ 的紧性。作者引入了“2-branching”字符串的概念，并利用其构造得到了 $\chi/r$ 比值的闭式表达式。对于特定阶数和字母表大小，该构造将比值与上界2的差距从 $O(1/\sigma)$ 缩小到了 $O(1/\sigma^2)$。

A Space-space Trade-off for Directed st-Connectivity

Roman Edenhofer

cs.DS cs.CC

本文在 catalytic space 模型中研究了有向 st-连通性问题, 证明了空间与空间之间的权衡. 对于任意整数 $k \leq n$, 算法使用 $O(\log n \cdot \log k+\log n)$ 常规工作空间和 $O\left(\frac{n}{k} \cdot \log^2 n\right)$ 位催化内存来判定连通性. 该结果在 Savitch 算法的经典 $O(\log^2 n)$ 空间界与一个使用 $O(\log n)$ 工作空间和 $O(n\cdot \log^2 n)$ 催化内存的端点之间进行了插值.

Frontier Space-Time Algorithms Using Only Full Memory

Petr Chmel et al.

cs.DS cs.CC

本文针对算法设计中的几个基本问题, 提出了在多项式时间内运行、仅使用$\mathcal{O}(\log(n))$工作空间并利用亚线性催化空间的催化算法. 这些算法在催化空间的使用上达到了非催化多项式时间算法的最佳已知空间界限.

others

ShaRP: Shape-Regularized Multidimensional Projections

Alister Machado, Alexandru Telea, Michael Behrisch

cs.HC cs.AI cs.LG

本文提出了一种名为ShaRP的新型多维投影方法, 允许用户显式控制生成散点图的视觉特征. 该方法能较好地处理高维和大规模定量数据集, 在保证投影质量的同时提供了对投影形状的灵活调控.

Interpretable Medical Image Classification using Prototype Learning and Privileged Information

Luisa Gallee, Meinrad Beer, Michael Goetz

cs.CV cs.AI

本文提出了一种结合 capsule networks, prototype learning 和 privileged information 的医学图像分类方法 Proto-Caps. 该方法在 LIDC-IDRI 数据集上实现了较高的预测准确率, 同时通过原型表示提供了可解释的案例推理.

SMaRT: Online Reusable Resource Assignment and an Application to Mediation in the Kenyan Judiciary

Shafkat Farabi et al.

cs.CY cs.LG cs.MA

本文针对肯尼亚司法系统中的调解员分配问题, 提出了一个在线可重用资源分配框架 SMaRT. 该框架将问题形式化为一个带软容量约束的二次规划, 并结合多臂老虎机学习未知的调解员质量, 在模拟和真实数据上均优于基线方法.

Graph Modelling Analysis of Speech-Gesture Interaction for Aphasia Severity Estimation

Navya Martin Kollapally, Christa Akers, Renjith Nelson Joseph

cs.SD cs.CL eess.AS

本文提出了一种基于graph neural network的框架, 用于从自发言语中自动评估失语症严重程度. 该方法将话语建模为包含词汇和手势节点的multimodal graph, 并使用GraphSAGE学习整体表示, 结果表明言语与手势的结构化交互比孤立的词汇特征更能编码严重程度信息.

VISION-ICE: Video-based Interpretation and Spatial Identification of Arrhythmia Origins via Neural Networks in Intracardiac Echocardiography

Dorsa EPMoghaddam et al.

cs.CV cs.LG

本文提出了一种基于AI的框架VISION-ICE, 利用心腔内超声(ICE)视频数据, 通过3D卷积神经网络将心律失常起源定位建模为一个三分类任务. 该模型在交叉验证中表现优于随机基线, 展示了结合深度学习与ICE进行自动化定位的临床潜力.

Benchmarking Early Deterioration Prediction Across Hospital-Rich and MCI-Like Emergency Triage Under Constrained Sensing

KMA Solaiman, Joshua Sebastian, Karma Tobden

cs.CY cs.AI cs.LG

本文提出了一个用于早期病情恶化预测的基准测试框架, 该框架考虑了现实世界中信息受限的急诊分诊场景. 通过比较医院资源充足和仅凭生命体征的两种分诊模式, 研究发现早期生理测量数据保留了重要的临床信号, 模型性能下降有限.

Autonomous AI and Ownership Rules

Frank Fagan

cs.CY cs.AI

本文探讨了AI生成内容的归属问题, 分析了AI输出可追溯与不可追溯两种情形下的所有权分配规则. 当AI变得不可追溯时, 文章建议采用先占规则, 并讨论了为应对策略性所有权解散而提出的激励措施.

CAGE: A Framework for Culturally Adaptive Red-Teaming Benchmark Generation

Chaeyun Kim et al.

cs.CY cs.AI

本文提出了一个名为CAGE的框架, 用于生成适应不同文化的红队测试基准. 该方法通过分离提示的对抗性结构和文化内容, 能够创建更贴合本地社会技术环境的评估数据集, 并以韩语基准KoRSET为例展示了其有效性.

Cross-Chirality Generalization by Axial Vectors for Hetero-Chiral Protein-Peptide Interaction Design

Ziyi Yang et al.

q-bio.BM cs.LG

本文提出了一种通过引入轴向向量特征来实现从同手性训练数据到异手性设计任务的跨手性泛化的方法. 该方法在隐扩散模型中实现, 用于设计D-肽结合剂, 并在湿实验中得到验证.

Enhancing Heat Sink Efficiency in MOSFETs using Physics Informed Neural Networks: A Systematic Study on Coolant Velocity Estimation

Aniruddha Bora et al.

cs.NE cs.AI cs.CE cs.LG physics.comp-ph

本文提出了一种使用Physics Informed Neural Networks (PINNs) 来估计MOSFET热沉中冷却液所需流速的方法。该方法通过顺序训练多层结构来解决传统方法难以处理的反问题，并与实验结果吻合良好。

Data-Driven Deep MIMO Detection:Network Architectures and Generalization Analysis

Yongwei Yi et al.

eess.SP cs.IT cs.LG

本文提出了一种基于图神经网络的消息传递检测器GNNSIC, 用于多用户MIMO系统. 该架构通过参数共享减少了可训练参数量, 提升了样本效率和用户泛化能力.

Closing the Expertise Gap in Residential Building Energy Retrofits: A Domain-Specific LLM for Informed Decision-Making

Lei Shu et al.

cs.CY cs.AI

本文开发了一个用于住宅能源改造决策的领域特定大语言模型(LLM). 该模型基于大量物理模拟数据进行微调, 能够根据房屋基本特征提供改造建议, 并在评估中表现出较高的准确性.

AINet: Anchor Instances Learning for Regional Heterogeneity in Whole Slide Image

Tingting Zheng et al.

eess.IV cs.AI

本文提出了一种用于全切片图像分析的新框架AINet, 通过引入anchor instance的概念和设计dual-level anchor mining与anchor-guided region correction模块, 旨在解决多示例学习中因肿瘤稀疏性和形态多样性导致的区域异质性问题. 该方法在提升性能的同时显著减少了计算复杂度和参数量.

When Backdoors Go Beyond Triggers: Semantic Drift in Diffusion Models Under Encoder Attacks

Shenyang Chen, Liuwan Zhu

cs.CR cs.AI

本文研究了文本到图像模型中的后门攻击, 指出编码器端投毒会导致持续性的语义漂移, 超越了传统基于触发器激活的评估范式. 作者通过基于Jacobian的几何机制分析和提出的SEMAD诊断框架, 量化了这种结构性退化, 揭示了编码器投毒的深层风险.

OrgFlow: Generative Modeling of Organic Crystal Structures from Molecular Graphs

Mohammadmahdi Vahediahmar, Matthew A. McDonald, Feng Liu

cond-mat.mtrl-sci cs.LG

本文提出了一种基于 flow-matching 的生成模型 OrgFlow，用于直接从分子图预测有机晶体结构。该方法整合了分子连通性和周期性边界条件，并通过一个感知化学键的损失函数来引导生成合理的局部化学环境。实验表明，该模型在预测成功率上大幅超越现有基线。

OpenPort Protocol: A Security Governance Specification for AI Agent Tool Access

Genliang Zhu et al.

cs.CR cs.AI

本文提出了OpenPort Protocol (OPP), 一种用于管理AI agent工具访问的安全治理规范. 该协议通过服务端网关定义了授权、执行和审计的标准化流程, 旨在解决实际部署中的权限控制与滥用防范等问题.

KEMP-PIP: A Feature-Fusion Based Approach for Pro-inflammatory Peptide Prediction

Soumik Deb Niloy, Md. Fahmid-Ul-Alam Juboraj, Swakkhar Shatabda

q-bio.QM cs.LG

本文提出了一种名为KEMP-PIP的混合机器学习框架，用于预测促炎肽。该方法融合了预训练蛋白质语言模型的深度嵌入与多种手工设计的序列特征，并通过集成平均优化了预测性能。在标准数据集上的评估表明，其性能优于现有方法。

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Zaijing Li et al.

cs.RO cs.AI cs.CV

本文提出了一个名为OptimusVLA的双记忆增强视觉-语言-动作模型，旨在解决机器人操作任务中动作生成效率低和鲁棒性差的问题。该模型通过引入全局先验记忆和局部一致性记忆来优化策略，在多个仿真和现实世界基准测试中取得了性能提升和推理加速。

Evaluating the Reliability of Digital Forensic Evidence Discovered by Large Language Model: A Case Study

Jeel Piyushkumar Khatiwala, Daniel Kwaku Ntiamoah Addai, Weifeng Xu

cs.CR cs.AI

本文提出了一个用于评估由大型语言模型(LLM)发现的数字取证证据可靠性的结构化框架。该框架结合了自动化提取、LLM分析和基于知识图谱的验证，并通过案例研究展示了其在提升证据可信度和可审计性方面的有效性。

Analyzing Latency Hiding and Parallelism in an MLIR-based AI Kernel Compiler

Javed Absar, Samarth Narang, Muthu Baskaran

cs.PL cs.AI

本文在MLIR编译框架下, 通过基准测试量化分析了向量化(Vec), 多线程(MT)和双缓冲(DB)三种编译器优化技术对AI内核性能的影响. 结果表明, 向量化对带宽敏感型内核增益显著, 多线程在分摊调度开销后能带来大幅提升, 而双缓冲在计算与数据传输可重叠时提供额外收益.

Mitigating "Epistemic Debt" in Generative AI-Scaffolded Novice Programming using Metacognitive Scripts

Sreecharan Sankaranarayanan

cs.SE cs.AI cs.CY cs.ET cs.MA

本文探讨了生成式AI辅助编程中新手可能产生的"认知债务"问题. 通过一项对照实验, 作者比较了无限制AI使用与采用"解释门"元认知脚本进行脚手架辅助的效果. 实验结果表明, 无限制使用AI虽然能提高初始生产力, 但会导致后续在AI不可用时的维护任务中表现显著下降.

Regressor-guided Diffusion Model for De Novo Peptide Sequencing with Explicit Mass Control

Shaorong Chen, Jingbo Zhou, Jun Xia

q-bio.QM cs.LG

本文提出了一种用于de novo peptide sequencing的regressor-guided diffusion model, 名为DiffuNovo. 该模型通过在训练和推理阶段显式地整合肽段质量约束, 显著降低了预测的质量误差, 提高了预测的物理合理性.

CodeHacker: Automated Test Case Generation for Detecting Vulnerabilities in Competitive Programming Solutions

Jingwei Shi et al.

cs.SE cs.AI cs.CR

本文提出了一个名为CodeHacker的自动化代理框架，用于生成针对性的对抗性测试用例，以检测代码提交中的潜在漏洞。该方法模拟了竞技编程中的“hack”机制，通过多种策略（如压力测试、反哈希攻击等）来暴露错误解决方案，并通过校准阶段确保攻击的有效性。实验表明，该框架能有效提高现有数据集的真负率，并生成高质量的对抗性训练数据。

Right to History: A Sovereignty Kernel for Verifiable AI Agent Execution

Jing Zhang

cs.CR cs.AI cs.OS

本文提出了一种名为"Right to History"的原则, 旨在为在个人硬件上运行的AI agent提供完整且可验证的执行记录. 作者通过一个名为PunkGo的Rust系统实现了该原则, 该系统整合了Merkle树审计日志、基于capability的隔离等机制, 并进行了性能与安全性评估.

An Approach to Combining Video and Speech with Large Language Models in Human-Robot Interaction

Guanting Shen, Zi Tian

cs.RO cs.AI

本文提出了一种结合视觉-语言模型、语音处理和模糊逻辑的多模态人机交互框架, 用于控制机械臂. 该系统整合了Florence-2, Llama 3.1和Whisper等模型, 通过语音指令实现物体操控, 实验在消费级硬件上达到了75%的指令执行准确率.

What Matters for Simulation to Online Reinforcement Learning on Real Robots

Yarden As et al.

cs.RO cs.AI

本文通过系统性的消融实验, 研究了在真实机器人上实现成功的在线强化学习(RL)所需的具体设计选择. 研究结果表明, 一组稳健且易于采用的标准RL实践设计选择, 能够在不同任务和硬件上实现稳定的学习.

The Sim-to-Real Gap in MRS Quantification: A Systematic Deep Learning Validation for GABA

Zien Ma et al.

eess.SP cs.LG q-bio.QM

本文研究了使用深度学习模型(CNN和YAE)从MEGA-PRESS MRS数据中量化低浓度代谢物(如GABA)的方法. 通过在大量模拟光谱上进行训练, 并利用包含真实浓度信息的体模数据进行验证, 研究表明经过物理信息数据增强的模型性能优于传统工具LCModel, 但模拟与真实数据之间仍存在性能差距.

Quantifying the Expectation-Realisation Gap for Agentic AI Systems

Sebastian Lobentanzer

cs.SE cs.AI

本文通过回顾软件工程、临床文档和临床决策支持等领域的实证研究，量化了AI智能体系统的预期与实现之间的差距。研究发现，由于工作流整合摩擦、验证负担和测量结构不匹配等因素，实际效益往往显著低于预期。

Gap-Dependent Bounds for Nearly Minimax Optimal Reinforcement Learning with Linear Function Approximation

Haochen Zhang, Zhong Zheng, Lingzhou Xue

stat.ML cs.LG

本文为具有线性函数近似的强化学习算法 LSVI-UCB++ 提供了首个 gap-dependent 的遗憾上界，改进了对维度$d$和步长$H$的依赖。同时，利用该算法的低策略切换特性，提出了一个多智能体并发版本，并建立了首个多智能体在线 RL 的 gap-dependent 样本复杂度上界。

Fast Spectrogram Event Extraction via Offline Self-Supervised Learning: From Fusion Diagnostics to Bioacoustics

Nathaniel Chen et al.

eess.SP cs.AI physics.plasm-ph

本文提出了一种基于自监督学习的快速时频谱事件提取框架, 用于从高噪声的时频数据中自动提取相干和瞬态模式. 该方法在DIII-D等托卡马克装置的诊断数据上进行了验证, 并展示了在实时模式识别和大规模数据库生成方面的潜力.

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

Haoyang Li et al.

cs.RO cs.AI

本文提出了一个名为PhysMem的框架, 使VLM机器人规划器能够在测试时通过交互学习物理原理, 而无需更新模型参数. 该框架通过记录经验, 生成假设并进行验证来提升决策, 在真实世界和仿真任务中展示了性能提升.

Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

Jingcheng Yang et al.

cs.CV cs.AI cs.LG

本文提出了一个用于分析vision-language models内部多模态推理机制的框架. 该框架通过transcoders, attribution graphs和attention-based methods揭示了模型整合视觉与语义概念的层次化方式.

Learning During Detection: Continual Learning for Neural OFDM Receivers via DMRS

Mohanad Obeed, Ming Jian

cs.IT cs.AI cs.LG

本文提出了一种利用DMRS进行在线持续学习的OFDM神经接收机框架, 无需额外开销即可同时完成信号解调和模型适应. 该方法通过并行或前向传递复用的接收机架构, 有效跟踪信道分布的变化.

Detecting and Mitigating Group Bias in Heterogeneous Treatment Effects

Joel Persson et al.

stat.ME cs.LG econ.EM

本文研究了在随机实验中, 将个体层面的条件平均处理效应(CATE)预测聚合到群体层面时可能产生的系统性偏差. 作者提出了一个统一的统计框架来检测和校正这种群体偏差, 并分析了其在利润最大化个性化定向中的经济影响.

Selecting Optimal Variable Order in Autoregressive Ising Models

Shiba Biswal, Marc Vuffray, Andrey Y. Lokhov

stat.ML cs.LG

本文提出了一种基于底层数据 Markov random field 结构来优化自回归模型变量排序的方法. 该方法通过推断图模型结构来构建优化的变量顺序, 在 Ising 模型上的实验表明, 基于图信息的排序比朴素排序能生成保真度更高的样本.

Examining and Addressing Barriers to Diversity in LLM-Generated Ideas

Yuting Deng, Melanie Brucks, Olivier Toubia

cs.CY cs.AI cs.HC

本文研究了LLM生成想法多样性不足的问题, 并基于认知心理学识别了两种机制: 个体层面的fixation和集体层面的知识统一化. 通过四项研究, 作者发现Chain-of-Thought prompting和ordinary personas prompting两种干预措施可以分别应对这两种机制, 提升想法多样性.

MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

Taha Koleilat et al.

cs.CV cs.CL

本文提出了MedCLIPSeg, 一个用于数据高效和泛化性医学图像分割的概率视觉语言适应框架. 它通过概率跨模态注意力利用patch-level的CLIP嵌入, 并结合软对比损失, 在多个数据集上展现了优越性能.

Heterogeneity-Aware Client Selection Methodology For Efficient Federated Learning

Nihal Balivada et al.

cs.DC cs.LG

本文提出了一种名为Terraform的联邦学习客户端选择方法, 旨在解决统计异构性导致的精度下降问题. 该方法利用梯度更新和确定性算法来选择异构客户端进行重训练, 从而提高了全局模型的准确性.

Prior-Agnostic Incentive-Compatible Exploration

Ramya Ramalingam, Osbert Bastani, Aaron Roth

cs.GT cs.LG

本文在bandit问题中, 研究了当principal与agents之间存在激励错配时的探索问题. 作者证明了在agents具有不同先验且机制设计者未知这些先验的动态环境中, 满足(加权)swap regret界限足以使agents在近似Bayes Nash均衡中遵循预测.

PhyGHT: Physics-Guided HyperGraph Transformer for Signal Purification at the HL-LHC

Mohammed Rakib et al.

hep-ex cs.LG

本文提出了一种用于HL-LHC信号提纯的物理引导超图Transformer模型。该模型结合了局部图注意力和全局自注意力，并引入了一个可解释的堆积抑制门来过滤噪声。在模拟数据集上的实验表明，该模型在能量和质量校正因子预测上优于现有基线。

Hybrid LLM-Embedded Dialogue Agents for Learner Reflection: Designing Responsive and Theory-Driven Interactions

Paras Sharma et al.

cs.HC cs.AI

本文设计了一种混合对话系统, 将LLM的响应能力嵌入到基于规则的理论框架中, 以支持学习者的反思. 该系统在机器人夏令营中进行了应用, 研究发现LLM的嵌入能促进更丰富的反思, 但也带来了重复性和提示错位等挑战.

LESA: Learnable Stage-Aware Predictors for Diffusion Model Acceleration

Peiliang Cai et al.

cs.CV cs.AI

本文提出了一种基于可学习阶段感知预测器的扩散模型加速框架LESA, 通过两阶段训练和KAN网络学习时序特征映射, 并采用多阶段多专家架构为不同噪声阶段分配专用预测器, 从而在图像和视频生成任务中实现显著加速并保持高质量输出.

How Do Inpainting Artifacts Propagate to Language?

Pratham Yashwante et al.

cs.CV cs.AI

本文研究了扩散模型图像修复引入的视觉伪影如何影响视觉语言模型的语言生成。通过一个两阶段诊断框架，分析了修复保真度与下游图像描述质量之间的关系，并观察了模型内部表示和注意力模式的系统性变化。

Maximin Share Guarantees via Limited Cost-Sensitive Sharing

Hana Salavcova, Martin Černý, Arpita Biswas

cs.GT cs.AI

本文研究了允许有限共享下的不可分割物品公平分配问题. 作者提出了共享最大最小份额(SMMS)的概念, 并设计了算法来保证近似MMS分配的存在性. 研究为多智能体环境中允许资源共享的公平分配问题提供了理论见解.

What Drives Students' Use of AI Chatbots? Technology Acceptance in Conversational AI

Griffin Pitts, Sanaz Motamedi

cs.HC cs.AI cs.CY cs.ET

本文基于Technology Acceptance Model (TAM) 研究了影响学生使用AI聊天机器人的因素。研究发现，感知有用性是最强的预测指标，而感知易用性、信任、主观规范和感知享受也扮演着重要角色。

Standard Transformers Achieve the Minimax Rate in Nonparametric Regression with $C^{s,λ}$ Targets

Yanming Lai, Defeng Sun

stat.ML cs.IT cs.LG

本文证明了标准Transformer模型能以任意精度逼近Hölder函数空间$C^{s,\lambda}([0,1]^{d\times n})$，并在此基础上证明了其在非参数回归问题中达到了极小极大最优收敛速率。研究还引入了刻画模型结构的度量，并给出了Transformer的Lipschitz常数上界和记忆容量分析。

Characterizing Online and Private Learnability under Distributional Constraints via Generalized Smoothness

Moïse Blanchard, Abhishek Shetty, Alexander Rakhlin

stat.ML cs.LG

本文研究了在分布约束下的在线学习和私有学习问题, 引入了广义光滑性(generalized smoothness)的概念来刻画可学习性. 结果表明, 一个分布族允许对所有有限VC维假设类实现VC维依赖的遗憾界, 当且仅当该分布族是广义光滑的.

OptiLeak: Efficient Prompt Reconstruction via Reinforcement Learning in Multi-tenant LLM Services

Longxiang Wang et al.

cs.CR cs.AI

本文提出了一种名为OptiLeak的强化学习增强框架，用于优化多租户LLM服务中基于共享Key-Value缓存的提示词泄漏攻击。该方法通过两阶段微调自动识别领域特定的“困难词元”并利用Direct Preference Optimization来最大化提示词重建效率。实验表明，该方法显著降低了攻击所需的平均请求次数，揭示了缓存隔离在现实部署中的必要性。

SpecMind: Cognitively Inspired, Interactive Multi-Turn Framework for Postcondition Inference

Cuong Chi Le et al.

cs.SE cs.CL

本文提出了一个名为SpecMind的交互式多轮框架, 用于自动推断程序的后置条件(postcondition). 该框架将大型语言模型(LLM)视为交互式的探索性推理器, 通过融入反馈的迭代提示来逐步精炼候选条件, 从而在准确性和完整性上超越了现有方法.

Amortized Bayesian inference for actigraph time sheet data from mobile devices

Daniel Zhou, Sudipto Banerjee

stat.ML cs.LG stat.ME

本文针对移动设备采集的actigraph时间表数据, 提出了一种摊销贝叶斯推断方法. 该方法基于分层动态线性模型, 旨在实现概率性插补并学习解释变量对加速度大小的时变影响.

Knowing the Unknown: Interpretable Open-World Object Detection via Concept Decomposition Model

Xueqiang Lv et al.

cs.CV cs.LG

本文提出了一个概念驱动的可解释开放世界目标检测框架(IPOW), 其核心是概念分解模型(CDM). 该模型将Faster R-CNN中的RoI特征显式分解为判别性、共享性和背景性概念, 并利用概念引导修正(CGR)来缓解已知与未知类别间的混淆. 实验表明该方法在提升未知目标召回率的同时, 为预测提供了概念层面的可解释性.

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

Rulin Zhou et al.

cs.CV cs.AI

本文提出了一种用于手术注意力跟踪的框架 SurgAtt-Tracker, 它通过时序提议重排序和运动感知优化来建模外科医生的视觉焦点. 该方法在多个数据集上展现了先进的性能, 并提供了一个可用于下游机器人视野规划的信号.

On the Convergence of Stochastic Gradient Descent with Perturbed Forward-Backward Passes

Boao Kong, Hengrui Zhang, Kun Yuan

math.OC cs.LG stat.ML

本文分析了在复合优化问题中, 当SGD的前向和后向计算过程均受到扰动时的收敛性. 理论结果解释了深度学习训练中观察到的梯度尖峰现象, 并通过实验验证了分析.

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

Chenyue Yu et al.

cs.CV cs.AI

本文提出了一种面向模型训练的数据集级压缩框架Dataset Color Quantization (DCQ). 该方法通过减少图像色彩空间的冗余, 在保持训练所需关键信息的同时, 实现了对大规模视觉数据集的有效压缩.

DANCE: Doubly Adaptive Neighborhood Conformal Estimation

Brandon R. Feng et al.

stat.ML cs.LG

本文提出了一种名为DANCE的局部自适应最近邻conformal算法, 它结合了两种新的nonconformity scores, 直接利用数据的嵌入表示来生成预测集. 该方法在多个数据集上展现了优于现有基线的集合大小效率和鲁棒性.

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Mohammad Sadra Rajabi et al.

cs.CV cs.AI cs.HC cs.LG

本文提出了一种基于vision-language models (VLMs)的方法，用于从RGB视频中非侵入式地估计手动举升任务中的水平(H)和垂直(V)手部距离。该方法通过文本引导的检测与分割流程提取视觉特征，并利用transformer进行时序回归，在多种相机视角下评估了性能，结果表明基于分割的多视角流程能有效降低估计误差。

Agile V: A Compliance-Ready Framework for AI-Augmented Engineering -- From Concept to Audit-Ready Delivery

Christopher Koch, Joshua Andreas Wellbrock

cs.SE cs.AI cs.MA

本文提出了一个名为Agile V的框架, 旨在将独立的验证和审计追踪嵌入到AI辅助的工程任务循环中. 该框架通过一个结合了Agile和V-Model的"Infinity Loop", 并利用专门的AI agent来生成审计就绪的工件, 在一个硬件在环系统的案例研究中展示了其可行性.

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Riccardo Gallon et al.

cs.CV cs.AI

本文提出了一种基于AI的方法, 用于对空间相机传感器中的杂散光进行语义分割. 该方法利用在非空间场景数据集(Flare7k++)上的预训练来提升模型泛化能力, 并设计了面向星载资源受限硬件的轻量级模型.

F10.7 Index Prediction: A Multiscale Decomposition Strategy with Wavelet Transform for Performance Optimization

Xuran Ma et al.

astro-ph.IM astro-ph.SR cs.LG

本文提出了一种基于wavelet decomposition的F10.7指数预测方法, 将分解后的近似与细节信号与原始序列一同输入iTransformer模型. 该方法在多个数据集上超越了现有基准和业务模型, 并首次将wavelet decomposition应用于该预测任务.

AdapTools: Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs

Che Wang et al.

cs.CR cs.AI

本文提出了一个名为AdapTools的自适应工具间接提示注入攻击框架, 用于评估基于大型语言模型的智能体(agent)的安全性. 该方法通过选择隐蔽的攻击工具和生成自适应的攻击提示, 在实验中显著提高了攻击成功率并降低了系统效用.

Communication-Inspired Tokenization for Structured Image Representations

Aram Davtyan et al.

cs.CV cs.AI cs.LG

本文提出了一种受人类交流启发的结构化图像离散表征学习方法COMiT. 该方法通过迭代观察局部图像块并循环更新其离散表征来构建潜在信息, 最终通过flow-matching解码器重建图像. 实验表明, 该方法能产生以物体为中心的可解释token结构, 并在组合泛化和关系推理方面优于现有方法.

Voices of the Mountains: Deep Learning-Based Vocal Error Detection System for Kurdish Maqams

Darvan Shvan Khairaldeen, Hossein Hassani

cs.SD cs.AI

本文开发了一个基于深度学习的自动歌唱评估系统, 用于检测库尔德木卡姆演唱中的音高, 节奏和调式稳定性错误. 该方法采用CNN-BiLSTM with attention模型处理log-mel spectrograms, 在特定错误类型上取得了一定效果, 但整体性能仍有提升空间.

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

Tian Lan et al.

cs.CV cs.AI

本文提出了一个基于扩散模型的统一基础模型 OrthoDiffusion, 用于肌肉骨骼 MRI 的多任务解释. 该模型在多个临床任务上表现出色, 并展示了良好的泛化性和数据效率.

Implicit Decision Diagrams

Isaac Rudich, Louis-Martin Rousseau

math.OC cs.DS

本文提出了一种称为implicit Decision Diagrams的数据结构, 通过隐式存储边来降低构建Decision Diagrams的每层复杂度. 作者证明了该复杂度是最优的, 并展示了其在混合整数规划求解器中的应用.

Assessing the Impact of Speaker Identity in Speech Spoofing Detection

Anh-Tuan Dao, Driss Matrouf, Nicholas Evans

cs.SD cs.LG

本文研究了说话人身份信息对语音欺骗检测系统的影响, 提出了一个Speaker-Invariant Multi-Task (SInMT)框架. 该框架通过多任务学习和梯度反转层来处理或移除嵌入中的说话人信息, 实验表明其说话人不变模型能显著降低等错误率.

Functional Continuous Decomposition

Teymur Aghayev

eess.SP cs.LG

本文提出了Functional Continuous Decomposition (FCD), 一个基于JAX的框架, 用于对时间序列数据进行参数化连续分解. 该方法通过优化得到具有$C^1$连续性的模态, 可用于信号分析和特征提取.

SoK: Agentic Skills -- Beyond Tool Use in LLM Agents

Yanna Jiang et al.

cs.CR cs.AI cs.CE cs.ET

本文对LLM智能体中的"agentic skills"概念进行了系统梳理, 提出了涵盖其全生命周期的分类体系. 文章分析了基于技能的智能体在安全与治理方面的潜在风险, 并讨论了相关的评估方法与开放挑战.

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

Yuechen Xie et al.

cs.CV cs.LG

本文提出了一个名为 SpatiaLQA 的基准测试，用于评估视觉语言模型在复杂真实场景中的空间逻辑推理能力。实验表明现有先进模型在此任务上仍面临困难，作者并提出了一种递归场景图辅助推理的方法来提升模型性能。

Airavat: An Agentic Framework for Internet Measurement

Alagappan Ramanathan et al.

cs.NI cs.AI cs.SE

本文提出了一个名为Airavat的智能体框架，用于自动化生成和验证互联网测量工作流。该框架通过多个智能体协作来模仿专家推理，并利用知识图谱和验证引擎来确保方法论的严谨性。

Some Simple Economics of AGI

Christian Catalini, Xiang Hui, Jane Wu

econ.GN cs.AI cs.CY cs.LG cs.SI

本文探讨了AGI(Artificial General Intelligence)带来的经济结构转变. 作者认为, 随着AI执行成本趋近于零, 经济增长的关键约束从"智能"转变为人类有限的"验证带宽", 这可能导致"空心化经济"或"增强型经济"两种截然不同的未来.

See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis

Jaehyun Park et al.

cs.CV cs.AI

本文提出了一种名为ArtiAgent的自动化框架, 用于合成带有视觉伪影(visual artifacts)标注的图像数据. 该方法通过多个智能体(agent)协作, 实现了对真实图像的实体感知, 伪影注入以及数据筛选, 旨在为图像生成模型的伪影缓解研究提供可扩展的数据集.

EKF-Based Depth Camera and Deep Learning Fusion for UAV-Person Distance Estimation and Following in SAR Operations

Luka Šiktar et al.

cs.RO cs.AI

本文提出了一种融合深度相机测量与单目相机人体距离估计的方法, 用于无人机在搜救任务中对人的跟踪与跟随. 该系统利用YOLO-pose进行深度数据滤波和距离估计, 并通过Extended Kalman Filter (EKF) 进行实时信息融合, 以维持无人机与目标之间的安全距离.

Training-Free Intelligibility-Guided Observation Addition for Noisy ASR

Haoyang Li et al.

eess.AS cs.AI cs.SD

本文提出了一种无需训练的、基于可懂度指导的观测融合方法, 用于提升噪声环境下的自动语音识别性能. 该方法通过后端ASR模型直接估计可懂度来动态融合带噪语音和增强语音, 在多种设置下展现了优于现有基线的鲁棒性和性能提升.

Toward an Agentic Infused Software Ecosystem

Mark Marron

cs.SE cs.AI cs.PL

本文探讨了构建一个以AI agents为核心的软件生态系统(AISE)的愿景, 其框架基于三个支柱: AI agents本身, 它们所使用的编程语言与API工具, 以及其运行环境. 作者认为, 必须协同推进这三个方面的发展, 以实现人机协作的软件开发未来.

CrystaL: Spontaneous Emergence of Visual Latents in MLLMs

Yang Zhang et al.

cs.CV cs.AI

本文提出了CrystaL框架, 通过双路径处理完整与损坏图像并显式对齐其注意力模式与预测分布, 从而在MLLMs的隐式推理过程中自发地结晶出任务相关的视觉语义. 该方法在多个感知密集型基准测试上超越了现有方法, 提升了细粒度视觉理解能力.

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Christian Simon et al.

cs.CV cs.AI

本文提出了一种名为MMHNet的层次化网络结构, 用于解决视频到音频生成任务中的长度泛化问题. 该方法通过整合非因果Mamba模块, 使得在短序列上训练的模型能够生成长达5分钟以上的音频, 并在基准测试中超越了现有方法.

Asymptotics of solutions to the linear search problem

Robin A. Heinonen

math.OC cs.DS math.PR

本文研究了对称线性搜索问题解的渐近行为, 证明了对于具有单调且足够正则尾部的正概率密度函数, 其解的精确主导渐近项可以被获得. 该结果也适用于紧区间上的密度函数.

Multimodal MRI Report Findings Supervised Brain Lesion Segmentation with Substructures

Yubin Ge, Yongsong Huang, Xiaofeng Liu

eess.IV cs.AI cs.CL cs.CV cs.LG

本文提出了一种名为MS-RSuper的report-supervised学习框架，用于多模态MRI脑部病灶分割。该方法通过解析放射学报告中的全局定量和模态定性发现，引入单边不确定性感知约束，以利用不完整的报告信息并整合解剖学先验知识。

MIP Candy: A Modular PyTorch Framework for Medical Image Processing

Tianhao Fu, Yucheng Chen

cs.CV cs.AI cs.LG cs.SE

本文介绍了一个名为MIP Candy的、基于PyTorch的模块化医学图像处理框架。该框架旨在通过提供从数据加载到评估的完整、可定制流水线，简化研究流程，并包含一系列内置工具和可扩展的模型生态系统。

Empirically Calibrated Conditional Independence Tests

Milleno Pan, Antoine de Mathelin, Wesley Tansey

stat.ME cs.LG stat.ML

本文提出了一种经验校准的条件独立性检验(ECCIT)方法, 用于纠正现有检验方法在有限样本或模型误设下的校准错误. 该方法通过优化一个对抗性选择器来量化误校准程度, 并拟合一个单调映射来调整p值, 从而在合成与真实数据基准测试中实现了有效的错误发现率(FDR)控制.

Is Multi-Distribution Learning as Easy as PAC Learning: Sharp Rates with Bounded Label Noise

Rafael Hanashiro, Abhishek Shetty, Patrick Jaillet

stat.ML cs.LG

本文研究了多分布学习在有限标签噪声下的样本复杂度. 结果表明, 即使噪声水平恒定, 学习过程也会产生与$k/\epsilon^2$相关的慢速收敛率, 除非对每个分布单独学习. 文章还证明了在与每个分布的最优贝叶斯误差竞争时, 样本复杂度会有一个与$k$相关的乘法惩罚, 这揭示了多源学习的一个基本障碍.

PaperTrail: A Claim-Evidence Interface for Grounding Provenance in LLM-based Scholarly Q&A

Anna Martin-Boyle et al.

cs.HC cs.CL

本文介绍了一种名为PaperTrail的界面, 用于在基于LLM的学术问答系统中进行细粒度的溯源. 该界面将LLM的回答和源文档分解为离散的声明和证据, 并通过映射来揭示支持、未支持或被省略的信息. 一项用户研究表明, 该界面虽然降低了用户对LLM输出的信任, 但并未显著改变用户依赖LLM生成内容的行为.

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

Seongheon Park et al.

cs.CV cs.AI cs.CL

本文提出了一种用于大型视觉语言模型(LVLM)自评估的视觉感知不确定性量化框架VAUQ. 它通过引入图像信息分数(IS)和无监督核心区域掩码策略, 来量化模型输出对视觉证据的依赖程度, 从而更可靠地评估答案的正确性.

An Expert Schema for Evaluating Large Language Model Errors in Scholarly Question-Answering Systems

Anna Martin-Boyle et al.

cs.HC cs.CL

本文提出了一种用于评估学术问答系统中大语言模型错误的专家模式, 并通过与领域专家的合作进行了验证. 该模式旨在反映科学家在实际评估中的策略, 弥补了现有自动化评估方法在语境和专家判断方面的不足.

Attention-Based SINR Estimation in User-Centric Non-Terrestrial Networks

Bruno De Filippo, Alessandro Guidotti, Alessandro Vanelli-Coralli

eess.SP cs.AI

本文提出了一种基于多头自注意力机制的低复杂度SINR估计框架，用于用户中心非地面网络。该模型直接从信道状态信息或用户位置报告中提取干扰特征，避免了复杂的MMSE计算，显著降低了计算开销。

Cooperative-Competitive Team Play of Real-World Craft Robots

Rui Zhao et al.

cs.RO cs.AI

本文构建了一个包含仿真、分布式学习框架和实体机器人的综合机器人系统, 并提出了用于在该平台上高效训练合作与竞争策略的强化学习技术. 为应对多智能体仿真到现实迁移的挑战, 文章引入了OODSI方法, 在实验中提升了20%的迁移性能.

"Are You Sure?": An Empirical Study of Human Perception Vulnerability in LLM-Driven Agentic Systems

Xinfeng Li et al.

cs.HC cs.AI cs.CR cs.SI

本文通过构建HAT-Lab平台并开展大规模实证研究, 首次系统性地评估了人类在LLM驱动的智能体系统中对"Agent-Mediated Deception (AMD)"攻击的感知脆弱性. 研究发现人类用户普遍存在显著的认知漏洞, 且风险意识难以转化为保护行为, 为以人为中心的智能体安全研究提供了实证基础与平台.

An Enhanced Projection Pursuit Tree Classifier with Visual Methods for Assessing Algorithmic Improvements

Natalia da Silva, Dianne Cook, Eun-Kyung Lee

stat.ML cs.LG

本文对 projection pursuit tree classifier 进行了改进, 并提出了可视化诊断方法来评估这些改进在高维数据上的效果. 改进包括允许更多的分割和更灵活的类别分组, 以处理具有不等协方差结构和非线性类别分离的多分类问题. 作者开发了两种可视化诊断方法, 并提供了一个交互式网络应用来探索原始分类器与改进分类器的行为.

SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery

David Anugraha, Vishakh Padmakumar, Diyi Yang

cs.HC cs.AI cs.CY

本文提出了一种名为SparkMe的多智能体LLM访谈系统, 它将自适应半结构化访谈建模为一个优化问题, 通过模拟对话推演来选择高预期效用的问题. 实验表明, 该系统在覆盖预设主题和发掘新兴见解方面优于现有基线.

Complexity of Classical Acceleration for $\ell_1$-Regularized PageRank

Kimon Fountoulakis, David Martínez-Rubio

math.OC cs.DS cs.LG

本文分析了使用FISTA算法计算$\ell_1$-regularized PageRank的复杂度，重点关注了加速方法可能破坏局部性（locality）的问题。作者通过引入一个边界集$\mathcal{B}$和可验证的约束条件，给出了包含加速项和边界开销项的复杂度上界。

LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis

Zhifan Jiang et al.

cs.CV cs.LG

本文提出了一个名为LUMEN的纵向多模态放射学模型训练框架，用于胸部X光片的预后和诊断任务。该框架通过多图像、多任务的指令微调来提升模型在纵向影像分析上的性能。

Scaling State-Space Models on Multiple GPUs with Tensor Parallelism

Anurag Dutt et al.

cs.DC cs.LG

本文提出了一种针对 selective state-space models (SSMs) 的通信高效 tensor parallelism (TP) 设计，以解决其在多 GPU 上推理时的内存和带宽瓶颈。该方法通过优化状态缓存、参数分区和量化通信，在多个 SSM-based LLM 上实现了显著的推理吞吐量提升。

Not Just How Much, But Where: Decomposing Epistemic Uncertainty into Per-Class Contributions

Mame Diarra Toure, David A. Stephens

stat.ML cs.LG stat.AP stat.ME

本文提出了一种将 epistemic uncertainty 分解为 per-class contributions 的方法, 用于安全关键分类任务. 该方法通过二阶 Taylor 展开分解 mutual information, 并在多个任务上验证了其有效性.

Efficient Hierarchical Any-Angle Path Planning on Multi-Resolution 3D Grids

Victor Reijgwart et al.

cs.RO cs.AI

本文提出了一种利用多分辨率3D网格进行高效分层任意角度路径规划的方法. 该方法结合了任意角度规划器的完备性与最优性, 并通过分层表示提升了大规模环境下的计算效率.

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

Sepehr Salem Ghahfarokhi et al.

cs.CV cs.AI

本文提出了一个名为XMorph的可解释脑肿瘤分析框架, 结合了深度学习和LLM辅助解释. 它通过一种边界归一化机制和双通道解释模块来提高分类性能与临床可解释性, 在脑肿瘤分类任务上达到了96.0%的准确率.

Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

Abdulaziz Almuzairee, Henrik I. Christensen

cs.RO cs.CV cs.LG

本文提出了一种名为Squint的视觉强化学习方法，旨在解决视觉模拟到现实（sim-to-real）机器人任务中训练速度慢的问题。该方法通过结合并行仿真、分布评论家（distributional critic）和分辨率调整（resolution squinting）等技术，在单GPU上实现了快速策略训练，并在新的机器人操作任务集上验证了其有效性。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others