bluearXiv-ai - 2026-03-27

📄 所有论文 ↑ 回顶部

cs.LG

SEVerA: Verified Synthesis of Self-Evolving Agents ⭐ 精选

Debangshu Banerjee, Changming Xu, Gagandeep Singh

cs.LG cs.PL cs.SE

本文提出了一个名为SEVerA的框架, 用于合成具有形式化保证的自我进化智能体. 核心创新是引入了Formally Guarded Generative Models (FGGM), 它允许规划器LLM为每个生成模型调用指定一个用一阶逻辑描述的形式化输出契约, 并通过经过验证的回退机制确保契约始终被满足. SEVerA框架通过搜索、验证和学习三个阶段, 将带约束的学习问题转化为无约束优化, 在保证零约束违反的同时提升任务性能. 实验在程序验证、符号数学合成和工具使用等任务上表明, 该方法在保证安全正确性的前提下, 性能优于无约束和现有先进基线.

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

Feng Zhao et al.

cs.LG cs.AI

本文提出了一种用于知识图谱中多模态事件预测的动态多空间表示学习方法 DyMRL. 该方法通过整合来自 Euclidean, hyperbolic 和 complex 空间的时间特定结构特征来学习深度表示, 并采用双融合进化注意力机制动态融合多模态知识. 在四个多模态时序知识图谱基准上的实验表明其性能优于现有方法.

How unconstrained machine-learning models learn physical symmetries

Michelangelo Domina et al.

cs.LG cond-mat.mtrl-sci physics.chem-ph physics.comp-ph stat.ML

本文研究了无约束机器学习模型如何学习物理对称性, 并提出了衡量模型表示中对称性内容的严格指标. 通过分析两个基于transformer的模型, 展示了如何通过注入最小的归纳偏置来提升模型的稳定性和准确性.

Experiential Reflective Learning for Self-Improving LLM Agents

Marc-Antoine Allard et al.

cs.LG cs.AI

本文提出了一个名为Experiential Reflective Learning (ERL)的框架，旨在通过经验学习提升LLM agent的性能。该方法通过反思任务轨迹来生成可迁移的启发式规则，并在新任务中检索应用这些规则，在Gaia2基准上取得了优于基线方法的效果。

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Lucas Gerken Starepravo et al.

cs.LG math.NA physics.flu-dyn

本文提出了一种基于图神经网络(Graph Neural Network)的框架, 用于从粒子位置数据中学习无网格离散微分算子. 该方法通过自监督训练确保多项式一致性, 并在求解Navier-Stokes方程等应用中展示了其有效性和优于传统方法的精度-成本权衡.

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions

Debadutta Patra et al.

cs.LG

本文提出了一种基于Physics-Informed Neural Network (PINN)的数字孪生框架，用于模拟二元精馏塔在瞬态工况下的动态过程。该模型将热力学约束直接嵌入损失函数，在合成数据集上取得了优于纯数据驱动基准的预测精度。

Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

Fabio Ferreira et al.

cs.LG stat.ML

本文比较了经典超参数优化(HPO)算法与基于LLM的方法在自动调整小型语言模型超参数上的性能。研究发现，在固定搜索空间内，经典方法如CMA-ES和TPE表现更优，而允许LLM直接编辑源代码的混合方法Centaur取得了最佳结果。

Energy-Efficient Hierarchical Federated Anomaly Detection for the Internet of Underwater Things via Selective Cooperative Aggregation

Kenechi Omeke et al.

cs.LG

本文提出了一种用于水下物联网异常检测的节能分层联邦学习框架. 该框架通过传感器-雾节点关联、压缩传输和选择性雾节点协作聚合, 在保持检测精度的同时显著降低了通信能耗.

Amplified Patch-Level Differential Privacy for Free via Random Cropping

Kaan Durmaz et al.

cs.LG cs.CR cs.CV

本文分析了随机裁剪在差分隐私训练中的隐私放大效应, 提出了一种针对视觉数据的patch-level邻接关系, 并推导了其与DP-SGD结合时的隐私界限. 该方法无需改变模型架构或训练流程即可提升隐私保证.

Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards

Cheng Jiayang et al.

cs.LG cs.CL

本文提出了一个用于训练大语言模型进行多步工具编排的强化学习框架. 该框架通过构建基于真实API响应的环境来合成数据, 并设计了分解正确性的渐进式奖励机制.

Can an Actor-Critic Optimization Framework Improve Analog Design Optimization?

Sounak Dutta et al.

cs.LG eess.SY

本文提出了一种用于模拟电路尺寸优化的actor-critic框架(ACOF), 将设计者的判断引入优化循环. 该框架分离了建议与评估的角色, 在保持与标准仿真流程兼容的同时, 使搜索过程更具目的性和稳定性. 实验表明, 该方法在多个测试电路上显著提升了性能指标并降低了regret.

Contrastive Learning Boosts Deterministic and Generative Models for Weather Data

Nathan Bailey

cs.LG

本文提出了一种名为SPARTA的对比学习方法, 用于处理稀疏的天气数据. 该方法通过对比损失对齐稀疏与完整样本, 并结合时间感知采样与循环一致性损失来改进潜在空间结构, 最终提升了下游任务的性能.

Grokking as a Falsifiable Finite-Size Transition

Yuda Bi et al.

cs.LG cond-mat.stat-mech cs.AI

本文通过将$\mathbb{Z}_p$的群阶$p$视为可容许的广延变量，并引入一个保留的spectral head-tail对比度作为表示层面的序参量，为“grokking”现象中的相变描述提供了可证伪的有限尺寸检验。应用凝聚态物理风格的诊断链，分析表明存在一个共享的有限尺寸边界，结果强烈反对平滑交叉的解释，从而将相变语言从类比提升为可定量检验的有限尺寸主张。

Light Cones For Vision: Simple Causal Priors For Visual Hierarchy

Manglam Kartik, Neel Tushar Shah

cs.LG cs.CV

本文提出了一种名为Worldline Slot Attention的视觉模型, 将物体建模为时空世界线中的持续轨迹. 通过引入Lorentzian几何结构来编码非对称因果性, 该模型在多个数据集上显著提升了层次化物体发现的性能.

Transformers in the Dark: Navigating Unknown Search Spaces via Bandit Feedback

Jungtaek Kim et al.

cs.LG

本文研究了Transformer架构是否能在外部指定树扩展和反馈信号的简化框架中近似搜索算法. 作者通过理论分析和实验表明, Transformer具备实现不同搜索策略的表达能力, 并能通过训练来近似这些策略, 甚至泛化到更长的搜索范围或更深的树结构.

Local learning for stable backpropagation-free neural network training towards physical learning

Yaqi Guo et al.

cs.LG cs.CE

本文提出了一种名为FFzero的前向学习框架, 用于实现无需反向传播的稳定神经网络训练. 该框架结合了逐层局部学习等方法, 并在模拟的光子神经网络中展示了其在物理系统中进行原位学习的潜力.

A Practical Guide Towards Interpreting Time-Series Deep Clinical Predictive Models: A Reproducibility Study

Yongda Fan et al.

cs.LG cs.AI

本文对时间序列临床预测模型的多种可解释性方法进行了系统性评估, 并基于PyHealth框架提供了可复现的基准测试. 研究发现, 正确利用attention机制是一种高效的模型解释方法, 而一些黑盒解释器在计算上不可行或结果不可靠.

Flow matching on homogeneous spaces

Francesco Ruscelli

cs.LG

本文提出了一种将 Flow Matching 方法推广到齐性空间（即李群的商空间）的通用框架。该方法通过将数据分布提升到李群上，将问题转化为李群上的流匹配任务，从而避免了直接处理齐性空间的复杂几何。

Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

Isha Puri et al.

cs.LG cs.AI cs.CL

本文提出了一种多答案强化学习方法, 用于训练语言模型在推理时进行分布推理. 该方法通过修改强化学习目标, 使模型能在单次前向传播中生成多个候选答案, 从而在多项问答和代码生成任务上提升了答案的多样性和集合层面的校准分数.

Learning to Staff: Offline Reinforcement Learning and Fine-Tuned LLMs for Warehouse Staffing Optimization

Kalle Kujanpää et al.

cs.LG

本文探讨了机器学习在半自动化仓库分拣系统实时人员配置优化中的应用。研究比较了基于离线强化学习的定制Transformer策略和基于抽象状态描述的微调大语言模型两种方法，均在模拟环境中验证了其提升吞吐量的潜力。

Once-for-All Channel Mixers (HYPERTINYPW): Generative Compression for TinyML

Yassien Shaalan

cs.LG stat.ML

本文提出了一种名为HYPER-TINYPW的生成式压缩方法，用于在资源极其受限的微控制器上部署神经网络。该方法通过一个共享的微型MLP从微小的每层代码生成1x1 pointwise卷积的权重，从而大幅减少模型存储占用，同时保持与标准INT8量化模型相当的运行时性能。在多个ECG和音频数据集上的实验表明，该方法能在极小的存储预算下维持较高的模型性能。

GraphER: An Efficient Graph-Based Enrichment and Reranking Method for Retrieval-Augmented Generation

Ruizhong Miao et al.

cs.LG cs.CL cs.IR

本文提出了一种名为GraphER的图增强与重排序方法, 用于改进检索增强生成(RAG)系统中的检索效果. 该方法在离线索引阶段独立增强数据对象, 并在查询时对候选对象进行基于图的重排序, 无需依赖知识图谱即可与标准向量数据库集成.

CVA: Context-aware Video-text Alignment for Video Temporal Grounding

Sungho Moon et al.

cs.LG cs.AI cs.CV

本文提出了一种用于视频时序定位的上下文感知视频-文本对齐框架, 通过数据增强策略、对比损失和层次化Transformer编码器来提升模型对无关背景的鲁棒性. 该方法在多个基准测试上取得了先进的性能.

A Systematic Empirical Study of Grokking: Depth, Architecture, Activation, and Regularization

Shalima Binta Manir, Anamika Paul Rupa

cs.LG

本文通过系统性的实验研究，探讨了神经网络中“顿悟”(grokking)现象的影响因素。研究发现，顿悟动态主要受优化稳定性和正则化的相互作用控制，而非主要由网络架构决定。

Optimal High-Probability Regret for Online Convex Optimization with Two-Point Bandit Feedback

Haishan Ye

cs.LG

本文研究了具有两点bandit反馈的在线凸优化问题, 在对抗性环境中为强凸损失函数提供了高概率regret界. 通过解决bandit梯度估计量的重尾性带来的分析困难, 得到了关于时间范围$T$和维度$d$均极小化最优的regret上界$O(d(\log T + \log(1/\delta))/\mu)$.

Epistemic Compression: The Case for Deliberate Ignorance in High-Stakes AI

Steffen Lukas

cs.LG

本文提出了Epistemic Compression原则, 主张在高风险AI领域应根据数据的时效性而非参数规模来匹配模型复杂度. 作者引入了一个Regime Index来区分数据不稳定的Shifting Regime和稳定的Stable Regime, 并在多个高风险领域的分析中验证了该框架的有效性.

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Yicheng Zou et al.

cs.LG cs.CL cs.CV

本文介绍了首个万亿参数规模的科学多模态基础模型 Intern-S1-Pro. 该模型在通用和科学领域均实现了性能提升, 并增强了智能体能力, 同时掌握了多个关键科学领域的上百项专业任务.

The Order Is The Message

Jordan LeDoux

cs.LG stat.ML

本文通过控制实验发现, 在模算术($p = 9973$)学习中, 训练样本的呈现顺序(ordering)对模型的泛化能力有决定性影响. 特定的固定顺序策略能以极低的样本覆盖率(0.3%)实现高精度, 而IID顺序或对抗性顺序则分别导致学习缓慢或完全失败.

SIGMA: Structure-Invariant Generative Molecular Alignment for Chemical Language Models via Autoregressive Contrastive Learning

Xinyu Wang et al.

cs.LG

本文提出了一种名为SIGMA的方法，用于解决分子图线性化表示中的歧义性问题。该方法通过自回归对比学习对齐结构等价的序列前缀，并在推理时使用IsoBeam搜索来提升生成效率。

An Explainable Ensemble Learning Framework for Crop Classification with Optimized Feature Pyramids and Deep Networks

Syed Rayhan Masud et al.

cs.LG cs.AI

本文提出了一种可解释的集成学习框架, 用于基于土壤和气候特征的作物分类. 该框架融合了优化的特征金字塔, 深度网络和注意力机制, 在特定数据集上取得了高准确率, 并利用SHAP等方法提供了特征重要性分析.

Process-Aware AI for Rainfall-Runoff Modeling: A Mass-Conserving Neural Framework with Hydrological Process Constraints

Mohammad A. Farmani et al.

cs.LG

本文提出了一种用于降雨径流建模的、具有水文过程约束的质量守恒神经网络框架. 通过逐步引入有物理意义的水文过程表示, 该框架在保持物理可解释性的同时, 提升了模型的预测性能.

Layer-Specific Lipschitz Modulation for Fault-Tolerant Multimodal Representation Learning

Diyar Altinses, Andreas Schwung

cs.LG cs.AI

本文提出了一种用于容错多模态表示学习的理论框架, 将自监督异常检测与误差校正统一于单一架构. 通过理论分析扰动传播, 推导了基于Lipschitz常数和Jacobian的准则, 并引入层特异性Lipschitz调制等机制来控制模块敏感性. 实验表明该方法在多模态故障数据集上提升了异常检测精度和受损信号下的重建质量.

Vision Hopfield Memory Networks

Jianfeng Wang et al.

cs.LG cs.AI cs.CV stat.ML

本文提出了一种受大脑启发的视觉基础主干网络V-HMN, 它整合了分层记忆机制与迭代优化更新. 该模型在多个计算机视觉基准测试上取得了有竞争力的结果, 并展现出更好的可解释性和数据效率.

Train at Moving Edge: Online-Verified Prompt Selection for Efficient RL Training of Large Reasoning Model

Jiahao Wu et al.

cs.LG cs.AI

本文提出了一种名为HIVE的双阶段框架, 用于在大型语言模型的强化学习训练中高效选择提示(prompt). 该方法利用历史奖励轨迹进行粗选, 并采用提示熵作为实时代理来剔除效用过时的样本, 从而在多个数学推理基准上实现了显著的训练效率提升.

Knowledge-Guided Retrieval-Augmented Generation for Zero-Shot Psychiatric Data: Privacy Preserving Synthetic Data Generation

Adam Jakobsen et al.

cs.LG

本文提出了一种基于知识引导和检索增强生成(Retrieval-Augmented Generation)的零样本框架, 用于生成保护隐私的精神科合成表格数据. 该方法利用DSM-5和ICD-10等临床知识库引导大型语言模型(LLMs), 无需真实数据, 并在多种焦虑症数据上评估了其与CTGAN、TVAE等模型在数据保真度和隐私风险上的表现.

A CDF-First Framework for Free-Form Density Estimation

Chenglong Song et al.

cs.LG

本文提出了一种基于CDF-first框架的自由形式条件密度估计方法. 该方法通过直接估计累积分布函数(CDF)来避免直接估计概率密度函数(PDF)的病态问题, 并使用平滑的最小-最大网络(SMM)进行参数化以保证PDF的有效性.

Gap Safe Screening Rules for Fast Training of Robust Support Vector Machines under Feature Noise

Tan-Hau Nguyen, Thu-Le Tran, Kien Trung Nguyen

cs.LG math.OC

本文为Robust Support Vector Machines (R-SVMs) 提出了首个safe sample screening规则，旨在降低其训练计算成本。该方法基于Lagrangian duality而非常见的Fenchel-Rockafellar duality进行推导，并通过实验验证了其加速效果。

Offline Decision Transformers for Neural Combinatorial Optimization: Surpassing Heuristics on the Traveling Salesman Problem

Hironori Ohigashi, Shinichiro Hamada

cs.LG

本文提出了一种基于离线强化学习框架 Decision Transformer 的方法，用于解决旅行商问题。该方法通过从启发式算法解的数据集中学习，旨在超越而非仅仅模仿这些启发式算法。

How Pruning Reshapes Features: Sparse Autoencoder Analysis of Weight-Pruned Language Models

Hector Borobia, Elies Seguí-Mas, Guillermina Tormo-Carbó

cs.LG cs.AI

本文使用Sparse Autoencoders (SAEs) 作为解释性探针，系统研究了非结构化权重剪枝对语言模型内部特征几何结构的影响。研究发现，罕见的SAE特征比高频特征更能抵抗剪枝，且Wanda剪枝方法在保留特征结构上优于幅度剪枝。

From Intent to Evidence: A Categorical Approach for Structural Evaluation of Deep Research Agents

Shuoling Liu et al.

cs.LG

本文提出了一种基于category theory的框架来形式化评估deep research agents的结构化推理能力. 作者设计了一个包含296个问题的benchmark, 从四个可解释的维度对agent进行压力测试, 发现现有先进模型在复杂结构合成任务上表现仍然不佳.

Hessian-informed machine learning interatomic potential towards bridging theory and experiments

Bangchen Yin et al.

cs.LG

本文提出了一种名为Hi-MLIP的Hessian-informed机器学习原子间势，旨在可靠地捕捉势能面的局部曲率。通过高效的HINT训练协议，该方法显著减少了对昂贵Hessian标签的需求，并在过渡态搜索和自由能预测等任务上展示了改进。

GlowQ: Group-Shared LOw-Rank Approximation for Quantized LLMs

Selim An, Il hong Suh, Yeseong Kim

cs.LG cs.AI

本文提出了一种名为GlowQ的组共享低秩近似方法, 用于提升量化后大语言模型(LLMs)的精度. 该方法通过为共享输入的模块组缓存一个共享的右因子, 并选择性恢复关键层, 在降低延迟和内存开销的同时保持了模型表达能力.

Maximum Entropy Behavior Exploration for Sim2Real Zero-Shot Reinforcement Learning

Jiajun Hu et al.

cs.LG cs.AI

本文提出了一种名为FB-MEBE的在线零样本强化学习算法，用于四足机器人控制。该方法结合了最大化行为分布熵的探索策略与一个正则化critic，以生成更多样化和物理上合理的行为数据，从而在未见过的任务上获得更好的策略性能，并支持从仿真到真实机器人的直接部署。

Not a fragment, but the whole: Map-based evaluation of data-driven Fire Danger Index models

Shahbaz Alvi, Italo Epicoco, Jose Maria Costa Saura

cs.LG

本文提出了一种评估森林火灾预报模型的新方法, 强调与真实世界决策过程对齐, 并系统评估了模型在预测火灾活动和减少误报(False Positive)方面的性能. 作者进一步展示了集成机器学习模型在提升火灾识别和降低误报率方面的优势.

Causal-INSIGHT: Probing Temporal Models to Extract Causal Structure

Benjamin Redden, Hui Wang, Shuyan Li

cs.LG

本文提出了一个名为Causal-INSIGHT的模型无关事后解释框架, 用于从已训练的时间序列预测模型中提取模型所隐含的、具有时间延迟的定向影响结构. 该方法通过分析模型对干预式输入扰动的响应来构建依赖关系, 并引入了一个无需真实图标签的图选择准则.

How Class Ontology and Data Scale Affect Audio Transfer Learning

Manuel Milling et al.

cs.LG

本文研究了预训练数据规模与类别结构对音频迁移学习性能的影响. 实验表明, 增加预训练样本和类别数量通常有正面作用, 但预训练与下游任务的相似性影响更大.

Interpretable PM2.5 Forecasting for Urban Air Quality: A Comparative Study of Operational Time-Series Models

Moazzam Umer Gondal et al.

cs.LG cs.AI

本文比较了SARIMAX, Facebook Prophet和NeuralProphet三种轻量级时间序列模型在北京PM2.5小时浓度预测中的表现。研究在两种自适应预测机制下评估了模型的精度与计算效率，发现经过在线残差校正的SARIMAX模型在冻结模型机制下取得了最低的整体误差。

Missing-Aware Multimodal Fusion for Unified Microservice Incident Management

Wenzhuo Qian et al.

cs.LG cs.SE

本文提出了一种名为ARMOR的鲁棒自监督框架, 用于处理微服务事件管理中常见的模态缺失问题. 该框架通过模态特定的非对称编码器和缺失感知的门控融合机制, 联合优化了异常检测, 故障分类和根因定位任务.

An Integrative Genome-Scale Metabolic Modeling and Machine Learning Framework for Predicting and Optimizing Biofuel-Relevant Biomass Production in Saccharomyces cerevisiae

Neha K. Nair, Aaron D'Souza

cs.LG

本文结合 Yeast9 基因组尺度代谢模型与机器学习，构建了一个预测和优化酿酒酵母生物质通量的计算框架。该框架利用通量平衡分析生成数据，并通过多种机器学习模型进行预测、解释和生成新的可行代谢通量配置。

Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

Yuqian Fu et al.

cs.LG cs.AI cs.CL

本文探讨了on-policy distillation (OPD)在长序列生成任务中的局限性，特别是其基于采样token的变体。作者通过理论分析和实验识别了该方法的几种失败模式，并提出了结合teacher top-K局部支持匹配的改进方案，在数学推理等任务上取得了更稳定的优化效果。

Spatiotemporal System Forecasting with Irregular Time Steps via Masked Autoencoder

Kewei Zhu et al.

cs.LG nlin.AO

本文提出了一种用于不规则时间步长时空系统预测的物理-时空掩码自编码器方法. 该方法结合了卷积自编码器和掩码自编码器, 避免了数据插补的需要, 并在模拟和真实海洋温度数据上展示了优于传统方法的预测精度与鲁棒性.

Social Hippocampus Memory Learning

Liping Yi, Zhiming Zhao, Qinghua Hu

cs.LG

本文提出了一种名为SoHip的以memory为中心的social machine learning框架，用于异构agents的协作学习。该方法通过共享抽象的memory而非模型参数来提升性能并保护隐私，在基准测试中取得了优于现有方法的效果。

Anchored-Branched Steady-state WInd Flow Transformer (AB-SWIFT): a metamodel for 3D atmospheric flow in urban environments

Armand de Villeroché et al.

cs.LG physics.ao-ph

本文提出了一种基于transformer的元模型AB-SWIFT，用于预测城市环境中的三维稳态大气流场。该模型通过分支结构处理不同的气象条件，并在一个包含随机城市几何和多种大气稳定度的数据集上进行了训练，在精度上超越了现有的基于图或transformer的模型。

Uncertainty-Guided Label Rebalancing for CPS Safety Monitoring

John Ayotunde et al.

cs.LG cs.SE

本文提出了一种名为U-Balance的方法，用于解决CPS安全监控中因罕见不安全事件导致的极端类别不平衡问题。该方法利用行为不确定性来指导标签重平衡，通过重新标记高不确定性的安全样本为不安全样本来丰富少数类，而无需合成新数据。实验表明，该方法在无人机数据集上显著提升了安全预测器的F1分数。

Longitudinal Digital Phenotyping for Early Cognitive-Motor Screening

Diego Jimenez-Oviedo et al.

cs.LG

本文提出了一种基于AI的纵向框架, 用于从平板电脑交互数据中建模儿童认知运动发展轨迹. 通过无监督学习识别出三种不同的表现类型, 并观察到低表现类型具有高度稳定性, 为早期筛查提供了数据驱动的见解.

On Neural Scaling Laws for Weather Emulation through Continual Training

Shashank Subramanian et al.

cs.LG

本文研究了天气预测模型中的neural scaling laws, 采用Swin Transformer架构和持续训练策略, 分析了模型和数据规模扩展下的性能趋势. 研究通过构建IsoFLOP曲线探索了计算最优的训练方案, 并讨论了扩展到更大规模时的潜在性能极限.

A Unified Memory Perspective for Probabilistic Trustworthy AI

Xueji Zhao et al.

cs.LG cs.AI cs.AR cs.ET

本文提出了一种统一的数据访问视角, 将确定性访问视为随机采样的极限情况, 从而在共同框架内分析可信AI中的概率计算. 基于此视角, 作者定义了内存层级的评估标准, 并分析了传统架构的局限性以及新兴的概率存内计算方法的潜力.

Neural Network Conversion of Machine Learning Pipelines

Man-Ling Sung et al.

cs.LG cs.AI

本文探索了一种将非神经网络的机器学习流程(如随机森林)通过知识蒸馏转换为神经网络的方法, 旨在实现流程组件的联合优化与统一推理. 实验在100个OpenML任务上进行, 结果表明通过选择合适的超参数, 学生神经网络能够模仿教师模型的性能.

cs.AI

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach ⭐ 精选

Andreas Schlapbach

cs.AI cs.MA

本文首次为两种主流的智能体工具协议范式(Schema-Guided Dialogue, SGD 和 Model Context Protocol, MCP)建立了基于进程演算(process calculus)的形式化语义. 通过定义一个映射 $\Phi$, 证明了SGD与MCP在结构上是互模拟(bisimilar)的, 但反向映射 $\Phi^{-1}$ 是部分且存在信息损失的, 揭示了MCP在表达能力上的关键缺陷. 作者进一步提出了五项原则作为实现完全行为等价的充要条件, 并将其形式化为类型系统扩展MCP+, 最终证明了MCP+与SGD是同构的, 为可验证的智能体系统建立了首个形式化基础.

Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills ⭐ 精选

Jingwei Ni et al.

cs.AI

本文提出了Trace2Skill框架, 用于从LLM智能体的执行轨迹中自动提炼可迁移的技能. 该方法通过并行分析多样化的执行轨迹, 提取局部经验, 并利用归纳推理将其整合为统一、无冲突的技能库. 实验表明, 该方法生成的技能具有高度的可迁移性和泛化能力, 能够显著提升不同规模LLM在电子表格、视觉问答和数学推理等复杂任务上的性能, 且无需参数更新或外部检索模块.

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

ARC Prize Foundation

cs.AI

本文介绍了用于评估智能体在无明确指令的抽象环境中探索、推理和规划能力的交互式基准测试ARC-AGI-3。该基准仅利用核心知识先验，并通过人类表现进行校准，当前前沿AI系统得分远低于人类。

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

Hidenori Tanaka

cs.AI cond-mat.dis-nn cond-mat.stat-mech physics.bio-ph physics.soc-ph

本文通过引入一个最小模型 Quantized Simplex Gossip (QSG) 来研究多智能体系统中的共识形成机制. 该模型揭示了智能体通过相互的上下文学习导致对称性破缺的过程, 并类比中性进化提出了"模因漂变"的概念.

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Zaid Abulawi et al.

cs.AI cs.LG

本文提出了一个名为AutoSAM的智能体框架, 用于自动化生成SAM代码的输入文件. 该框架结合了大型语言模型、多模态检索增强生成以及专门工具, 能够从非结构化工程文档中提取参数并生成可执行的输入文件.

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Adeela Bashir et al.

cs.AI cs.LG cs.MA nlin.AO

本文通过 evolutionary game theory 模型, 将用户对 AI 的信任建模为一种在重复互动中减少监控的动态过程. 研究发现, 只有当对不安全行为的惩罚足够高且用户监控成本可承受时, 系统才会演化至广泛采用的安全状态.

Supervising Ralph Wiggum: Exploring a Metacognitive Co-Regulation Agentic AI Loop for Engineering Design

Zeda Xu, Nikolas Martelaro, Christopher McComb

cs.AI

本文提出了一种用于工程设计的协同调节智能体循环(CRDAL)架构, 旨在减轻设计固化问题. 在电池组设计任务中, 该架构相比基线方法能生成性能更优的设计方案.

ReLope: KL-Regularized LoRA Probes for Multimodal LLM Routing

Yaopei Zeng et al.

cs.AI

本文针对多模态大语言模型(MLLM)中的路由问题, 提出了两种改进探针路由的方法. 通过引入Attention Probe和KL正则化的LoRA探针(ReLope), 旨在从隐藏状态中更好地提取正确性信号, 实验表明这些方法优于基线.

Resisting Humanization: Ethical Front-End Design Choices in AI for Sensitive Contexts

Silvia Rossi, Diletta Huyskes, Mackenzie Jorgensen

cs.AI

本文探讨了AI前端设计中的伦理问题, 特别是对话式用户界面(CUI)中拟人化设计元素的影响. 文章通过一个非营利组织的案例研究, 主张在某些敏感场景下应避免拟人化设计, 以保护用户自主性.

SentinelAI: A Multi-Agent Framework for Structuring and Linking NG9-1-1 Emergency Incident Data

Kliment Ho, Ilya Zaslavsky

cs.AI cs.CY cs.ET cs.MA

本文提出了一个名为SentinelAI的多智能体框架, 用于整合和标准化NG9-1-1应急事件数据. 该框架通过专门的智能体处理原始通信数据, 生成符合行业标准的机器可读数据集.

How Far Are Vision-Language Models from Constructing the Real World? A Benchmark for Physical Generative Reasoning

Luyu Yang et al.

cs.AI cs.CL cs.CV

本文提出了一个名为 DreamHouse 的新基准，用于评估视觉语言模型在物理生成推理方面的能力，即生成满足几何、结构和可建造性约束的物体。该基准专注于住宅木结构建筑领域，包含大量经过验证的结构和一个支持迭代交互的评估框架。实验表明，当前最先进的模型在此类物理有效性任务上存在显著的能力差距。

On the Foundations of Trustworthy Artificial Intelligence

TJ Dunham

cs.AI cs.CR

本文提出了平台确定性推理对于可信AI的必要性和充分性, 并形式化为Determinism Thesis. 通过引入trust entropy量化非确定性的代价, 并构建了一个纯整数推理引擎来解决IEEE 754浮点数运算带来的非确定性问题.

LogitScope: A Framework for Analyzing LLM Uncertainty Through Information Metrics

Farhan Ahmed, Yuya Jeremy Ong, Chad DeLuca

cs.AI cs.CL cs.IT

本文提出了一个名为LogitScope的轻量级框架, 用于通过从概率分布计算出的token-level信息度量来分析LLM的不确定性. 该框架无需标注数据, 通过计算每个生成步骤的entropy等指标来揭示模型置信度模式并识别潜在问题.

Decoding Market Emotions in Cryptocurrency Tweets via Predictive Statement Classification with Machine Learning and Transformers

Moein Shahiki Tash et al.

cs.AI cs.CE

本文提出了一种用于加密货币推文预测性语句分类的两阶段框架, 结合了机器学习、深度学习和Transformer模型. 研究通过GPT辅助的数据增强和情感特征分析, 评估了不同模型在二元分类和细粒度分类任务上的性能.

FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

Jie Zhu et al.

cs.AI cs.CL

本文提出了一个名为FinMCP-Bench的基准测试，用于评估大型语言模型在金融领域通过调用工具解决实际问题的能力。该基准包含多样化的金融场景和任务，并设计了专门的评估指标。

Shopping with a Platform AI Assistant: Who Adopts, When in the Journey, and What For

Se Yan et al.

cs.AI econ.GN

本文基于携程平台的3100万用户数据, 分析了嵌入式购物AI助手"问道"的采用与使用模式. 研究发现, 其用户画像与通用AI工具不同, 且AI聊天主要用于探索性、难以用关键词描述的任务, 与传统搜索形成互补而非替代关系.

Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math

Dingjie Song et al.

cs.AI cs.CL cs.CV

本文介绍了ScratchMath, 一个用于分析和分类学生手写数学草稿中错误的新型基准数据集. 该研究评估了多种MLLMs在此任务上的表现, 发现其与人类专家存在显著差距.

Design Once, Deploy at Scale: Template-Driven ML Development for Large Model Ecosystems

Jiang Liu et al.

cs.AI cs.LG

本文提出了一种名为 Standard Model Template (SMT) 的标准化框架, 用于大规模推荐系统中的机器学习模型开发. 该框架通过使用可组合的标准化组件, 显著降低了模型迭代工程时间并提高了技术传播效率.

The Anatomy of Uncertainty in LLMs

Aditya Taparia et al.

cs.AI

本文提出了一个将LLM不确定性分解为三个语义成分的框架: input ambiguity, knowledge gaps 和 decoding randomness. 通过实验展示了这些成分在不同模型规模和任务中的主导地位会发生变化.

Rethinking Failure Attribution in Multi-Agent Systems: A Multi-Perspective Benchmark and Evaluation

Yeonjun In et al.

cs.AI

本文提出了多视角故障归因的概念, 并引入了首个针对多智能体系统的多视角故障归因基准 MP-Bench 及相应的评估协议. 实验表明, 先前关于大语言模型不擅长故障归因的结论很大程度上源于现有基准设计的局限性.

A Public Theory of Distillation Resistance via Constraint-Coupled Reasoning Architectures

Peng Wei, Wesley Shu

cs.AI cs.CR cs.CY cs.LG

本文提出了一个用于抵抗知识蒸馏的公开理论框架, 通过引入约束耦合推理架构来降低能力转移与治理结构之间的不对称性. 该框架包含有界转移负担, 路径负载积累等概念, 旨在从理论上形式化能力与内部稳定性约束的耦合, 从而削弱蒸馏作为捷径的价值.

System-Anchored Knee Estimation for Low-Cost Context Window Selection in PDE Forecasting

Wenshuo Wang, Fan Zhang

cs.AI

本文针对固定窗口自回归神经PDE模拟器中的上下文窗口选择问题, 提出了一种名为SAKE的两阶段低成本选择方法. 该方法通过物理可解释的系统锚点生成候选集, 再进行下游选择, 在多个PDE基准测试中实现了低成本下的高性能.

From Stateless to Situated: Building a Psychological World for LLM-Based Emotional Support

Boning Zhao, Clover Hu, Xinnuo Li

cs.AI

本文针对LLM在情感支持场景中缺乏状态持续性的问题, 提出了一个分离认知层与执行层的架构LEKIA 2.0, 旨在通过构建外部情境结构来维持对话的连续性与边界. 作者还引入了一种从静态到动态的在线评估协议, 实验表明该架构在深度干预循环完成度上相比基线有显著提升.

Mechanistically Interpreting Compression in Vision-Language Models

Veeraraju Elluru et al.

cs.AI

本文研究了压缩视觉语言模型(VLMs)内部机制的变化. 通过因果电路分析和特征比较, 发现剪枝和量化以不同方式影响模型的内部计算和安全行为.

MP-MoE: Matrix Profile-Guided Mixture of Experts for Precipitation Forecasting

Huyen Ngoc Tran et al.

cs.AI cs.LG

本文提出了一种用于降水预报的MP-MoE框架，它结合了强度损失和基于Matrix Profile的结构感知损失。该方法旨在减轻时间错位带来的“双重惩罚”效应，并在越南的降雨数据集上验证了其有效性。

Sparse Visual Thought Circuits in Vision-Language Models

Yunpeng Zhou

cs.AI

本文研究了稀疏自编码器(SAE)特征在视觉语言模型(VLM)中的可组合性。研究发现，干预任务选择性特征集可能导致输出漂移和准确性下降，表明特征并非完全模块化。作者开发了一个因果分析流程来定位和测试稀疏视觉思维回路，并在多个VLM和数据集上验证了其发现。

ElephantBroker: A Knowledge-Grounded Cognitive Runtime for Trustworthy AI Agents

Cristian Lupascu, Alexandru Lupascu

cs.AI

本文提出了一个名为ElephantBroker的认知运行时系统，旨在为基于大语言模型的AI agent提供可验证、可信的记忆管理。该系统通过整合知识图谱与向量数据库，实现了一个包含存储、检索、评分、验证和安全防护的完整认知循环。

When Sensing Varies with Contexts: Context-as-Transform for Tactile Few-Shot Class-Incremental Learning

Yifeng Lin et al.

cs.AI

本文提出了一种名为CaT-FSCIL的方法来处理触觉感知中的Few-Shot Class-Incremental Learning问题。该方法通过将采集上下文分解为结构化低维分量和高维残差分量，并分别用可逆变换族和不确定性校准原型进行处理，在标准数据集上取得了良好效果。

RubricEval: A Rubric-Level Meta-Evaluation Benchmark for LLM Judges in Instruction Following

Tianjun Pan et al.

cs.AI

本文提出了RubricEval，一个用于评估大语言模型在遵循指令任务中基于评分细则判断能力的元评估基准。该基准包含多样化的指令和响应，并揭示了当前评分细则级别的评估仍面临挑战。

UniAI-GraphRAG: Synergizing Ontology-Guided Extraction, Multi-Dimensional Clustering, and Dual-Channel Fusion for Robust Multi-Hop Reasoning

Jie Wang et al.

cs.AI cs.IR

本文提出了一个名为UniAI-GraphRAG的增强框架，旨在改进现有GraphRAG系统在复杂推理和多跳查询中的表现。它通过引入本体引导的知识提取、多维社区聚类和双通道图检索融合等创新方法来提升检索性能。

The Competence Shadow: Theory and Bounds of AI Assistance in Safety Engineering

Umair Siddique

cs.AI cs.ET cs.HC cs.RO cs.SE

本文为AI辅助安全工程建立了一个形式化框架, 提出了"能力阴影"的概念, 并分析了不同人机协作结构下的性能界限. 作者认为AI辅助是一个协作设计问题, 并呼吁从工具认证转向工作流认证.

Probabilistic Abstract Interpretation on Neural Networks via Grids Approximation

Zhuofan Zhang, Herbert Wiklicky

cs.AI

本文探讨了将 probabilistic abstract interpretation 理论应用于神经网络分析, 旨在处理输入空间无限或不可数时的密度分布流问题. 文中讨论了不同的抽象域、对应的 Moore-Penrose pseudo-inverses 以及抽象变换器, 并通过实验展示了该框架在分析实际问题中的应用.

Distribution and Clusters Approximations as Abstract Domains in Probabilistic Abstract Interpretation to Neural Network Analysis

Zhuofan Zhang, Herbert Wiklicky

cs.AI

本文在 probabilistic abstract interpretation 框架下，为神经网络分析引入了 distribution approximation 和 clusters approximation 两种新的抽象域。这些方法通过相应的抽象转换器，将具体输入空间抽象为概率分布或簇结构，以分析网络的行为。

A Gait Foundation Model Predicts Multi-System Health Phenotypes from 3D Skeletal Motion

Adam Gabet et al.

cs.AI q-bio.QM

本文开发了一个基于3D骨骼运动的步态基础模型，用于预测多系统健康表型。该模型在多个健康指标预测上优于传统特征工程方法，并揭示了不同身体部位运动与特定健康表型之间的关联。

SliderQuant: Accurate Post-Training Quantization for LLMs

Shigeng Wang et al.

cs.AI

本文提出了一种名为SliderQuant的后训练量化框架, 用于大型语言模型(LLMs). 该方法通过引入可学习的参数和滑动窗口设计, 自适应地处理不同网络层对量化的敏感性, 在多种任务和模型上取得了优于现有方法的性能.

DAGverse: Building Document-Grounded Semantic DAGs from Scientific Papers

Shu Wan et al.

cs.AI cs.CL

本文提出了一个从科学论文中构建基于文档的语义有向无环图(DAG)的框架DAGverse. 其核心是一个半自动化的流程, 用于从包含DAG图的论文中提取图结构并将其与文本证据进行关联, 并以因果DAG为例构建了一个验证数据集.

Evaluating Language Models for Harmful Manipulation

Canfer Akbulut et al.

cs.AI cs.CY

本文提出了一个通过特定情境下的人机交互研究来评估AI有害操纵的框架, 并在三个应用领域和三个地区进行了大规模实验. 研究发现, AI的操纵行为及其效果具有显著的领域和地域依赖性, 且其操纵倾向与成功率并不总是一致.

Macroscopic Characteristics of Mixed Traffic Flow with Deep Reinforcement Learning Based Automated and Human-Driven Vehicles

Pankaj Kumar, Pranamesh Chakraborty, Subrahmanya Swamy Peruru

cs.AI

本文使用基于Twin Delayed Deep Deterministic Policy Gradient (TD3)的深度强化学习(DRL)方法控制混合交通流中的自动驾驶车辆(AV). 研究分析了该DRL模型在宏观交通流特性(如基本图)和燃油效率方面的表现, 并与传统的Intelligent Driver Model (IDM)进行了对比. 结果表明, DRL控制的AV能在不牺牲安全性的前提下提升道路通行能力和燃油效率.

Agentic Trust Coordination for Federated Learning through Adaptive Thresholding and Autonomous Decision Making in Sustainable and Resilient Industrial Networks

Paul Shepherd et al.

cs.AI cs.LG

本文提出了一种用于可持续与弹性工业网络中联邦学习的轻量级智能体信任协调方法. 该方法通过一个服务器端的控制循环来观察信任相关信号并进行自适应调整, 旨在提升联邦学习在动态环境中的稳定性.

4OPS: Structural Difficulty Modeling in Integer Arithmetic Puzzles

Yunus E. Zeytuncu

cs.AI

本文通过动态规划求解器构建了一个包含数百万个整数算术谜题实例的数据集, 并将难度定义为达到目标所需的最少操作数. 研究发现, 基于求解器导出的少量可解释结构属性可以完全确定谜题难度, 这为自适应算术学习系统提供了理论基础.

Does Structured Intent Representation Generalize? A Cross-Language, Cross-Model Empirical Study of 5W3H Prompting

Peng Gang

cs.AI cs.HC

本文通过跨语言(中文, 英文, 日文)和跨模型(三种LLMs)的实验, 研究了基于5W3H框架的结构化意图表示(PPS)的泛化能力. 研究发现, 由AI辅助生成的5W3H提示在目标对齐上与人工编写的效果相当, 并能降低非专家用户的使用门槛, 同时结构化提示能在一定程度上重塑模型输出的方差.

Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities in Large Language Models

Xunguang Wang et al.

cs.AI cs.CR

本文提出了 reasoning safety 的概念, 将其定义为与 content safety 正交的安全维度, 关注推理过程的逻辑一致性、计算效率和抗对抗性. 作者构建了一个包含九类不安全推理行为的分类法, 并通过大规模实证研究验证了其在实际推理链中的存在. 最后, 作者设计了一个基于外部 LLM 的 Reasoning Safety Monitor, 用于实时监控和中断不安全的推理步骤.

Modernising Reinforcement Learning-Based Navigation for Embodied Semantic Scene Graph Generation

Roman Kueble et al.

cs.AI cs.RO

本文为具身语义场景图生成任务提出了一个模块化的导航组件, 并对其决策机制进行了现代化改进. 研究比较了不同的动作表示和策略优化方法, 评估了它们在有限动作预算下对场景图完整性和导航效率的影响.

Cross-Model Disagreement as a Label-Free Correctness Signal

Matt Gorbett, Suman Jana

cs.AI

本文提出了一种无需真实标签即可检测语言模型错误的新方法, 称为跨模型分歧. 该方法通过一个验证模型对生成模型的答案进行单次前向传播, 计算其困惑度或熵作为正确性指标. 实验表明, 该方法在多个基准测试上优于模型自身的不确定性指标.

Retraining as Approximate Bayesian Inference

Harrison Katz

cs.AI math.ST

本文从决策理论的角度, 将模型重训练重新解释为计算约束下的近似贝叶斯推断. 作者提出了"学习债务"的概念, 并推导出基于证据的重训练触发策略, 以替代固定的时间表.

EcoThink: A Green Adaptive Inference Framework for Sustainable and Accessible Agents

Linxiao Li, Zhixiang Lu

cs.AI

本文提出了一个名为EcoThink的绿色自适应推理框架, 旨在减少大型语言模型(LLM)推理过程中的能源消耗. 该框架通过一个轻量级的路由器动态评估查询复杂度, 从而跳过对简单事实检索的深度推理, 在多个基准测试上实现了显著的能效提升.

Voxtral TTS

Alexander H. Liu et al.

cs.AI

本文提出了一种名为Voxtral TTS的多语言语音合成模型，它采用混合架构结合自回归与流匹配技术来生成语音。该模型在语音克隆的自然度和表现力上表现优异，并在评估中超越了现有基准。

Is Mathematical Problem-Solving Expertise in Large Language Models Associated with Assessment Performance?

Liang Zhang, Yu Fu, Xinyi Jin

cs.AI

本文探讨了大型语言模型在数学问题解决能力与评估性能之间的关联. 研究使用PROCESSBENCH基准测试发现, 模型在自身能正确解决的问题上, 其评估准确性也更高, 但评估任务本身比直接解题更具挑战性.

Agent Factories for High Level Synthesis: How Far Can General-Purpose Coding Agents Go in Hardware Optimization?

Abhishek Bhandwaldar et al.

cs.AI cs.AR cs.LG

本文提出了一种基于通用编码智能体的硬件优化方法, 通过一个两阶段的智能体工厂流水线来优化从高级算法描述生成的硬件设计. 该方法在多个基准测试上实现了显著的性能提升, 表明通用智能体能够自主发现硬件优化模式.

R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning

Zirui Zhang et al.

cs.AI cs.CV

本文提出了一个名为RC2的强化学习框架, 旨在通过强制跨模态的循环一致性来解决多模态模型中的内部冲突. 该方法利用模型在视觉和文本模态间进行前向与反向推理时产生的不一致信号作为无标签奖励, 从而自主对齐内部表示. 实验表明, 优化这种循环结构能减少模态特异性错误, 并将推理准确率提升多达7.6个百分点.

Back to Basics: Revisiting ASR in the Age of Voice Agents

Geeyang Tay et al.

cs.AI cs.MM

本文介绍了WildASR，一个用于诊断自动语音识别(ASR)系统鲁棒性的多语言基准测试。该基准从真实人类语音中构建，沿环境退化、人口统计偏移和语言多样性三个维度分解问题，评估发现现有模型存在严重且不均衡的性能下降以及幻觉风险。

Training the Knowledge Base through Evidence Distillation and Write-Back Enrichment

Yuxing Lu et al.

cs.AI cs.CL cs.IR

本文提出了一种名为WriteBack-RAG的框架，将知识库视为可训练的组件。该方法通过标注示例提炼知识单元并写回索引，从而提升多种RAG系统的检索性能。

cs.IR

Pseudo Label NCF for Sparse OHC Recommendation: Dual Representation Learning and the Separability Accuracy Trade off

Pronob Kumar Barman, Tera L. Reynolds. James Foulds

cs.IR cs.AI cs.LG

本文提出了一种用于稀疏在线健康社区推荐的Pseudo Label NCF方法, 通过引入基于调查问卷的伪标签目标来增强神经协同过滤架构. 该方法在冷启动条件下提升了排名性能, 并观察到嵌入可分离性与推荐准确性之间存在权衡.

Enhancing Online Support Group Formation Using Topic Modeling Techniques

Pronob Kumar Barman, Tera L. Reynolds, James Foulds

cs.IR stat.ML

本文提出了两种新的机器学习模型 gDMR 和 gSTM，用于在线健康社区中自动形成支持小组。这些模型整合了用户生成的文本、人口统计数据和网络交互数据，并在大规模数据集上评估了其性能。

DIET: Learning to Distill Dataset Continually for Recommender Systems

Jiaqing Zhang et al.

cs.IR

本文提出了DIET框架, 用于推荐系统中的流式数据集蒸馏. 该方法通过维护一个随数据流演化的压缩数据集, 来近似全数据训练的行为, 从而显著降低模型迭代成本.

Unbiased Multimodal Reranking for Long-Tail Short-Video Search

Wenyi Xu et al.

cs.IR

本文提出了一种基于LLM的多模态重排序框架, 用于改善长尾短视频搜索中的用户体验. 该方法通过两阶段训练生成内容质量评分, 并在在线实验中验证了其有效性.

Sparton: Fast and Memory-Efficient Triton Kernel for Learned Sparse Retrieval

Thong Nguyen et al.

cs.IR

本文提出了一种名为Sparton的高效GPU内核，用于加速学习稀疏检索模型中的语言模型头部计算。它通过算子融合避免了中间大矩阵的显式存储，显著提升了训练速度并降低了内存占用。

Hyena Operator for Fast Sequential Recommendation

Jiahao Liu et al.

cs.IR

本文提出了一种名为HyenaRec的新型序列推荐模型, 它通过结合基于Legendre正交多项式的卷积核参数化和门控机制, 来替代传统的attention机制. 该模型旨在以线性复杂度高效处理长用户序列, 并在多个真实数据集上展现了优于基线模型的排序精度和训练速度.

AuthorityBench: Benchmarking LLM Authority Perception for Reliable Retrieval-Augmented Generation

Zhihui Yao, Hengran Zhang, Keping Bi

cs.IR

本文提出了一个名为 AuthorityBench 的基准测试，用于评估大语言模型对信息来源权威性的感知能力。该基准包含多个数据集和评估方法，实验表明权威性感知能有效提升检索增强生成系统的可靠性。

MCLMR: A Model-Agnostic Causal Learning Framework for Multi-Behavior Recommendation

Ranxu Zhang et al.

cs.IR cs.AI

本文提出了一个模型无关的因果学习框架MCLMR, 用于解决多行为推荐中的混杂效应和异构行为聚合问题. 该框架通过因果干预进行无偏偏好估计, 并集成了自适应聚合和偏差感知对比学习模块, 在多个数据集上提升了基线模型的性能.

ColBERT-Att: Late-Interaction Meets Attention for Enhanced Retrieval

Raj Nath Patel, Sourav Dutta

cs.IR

本文提出ColBERT-Att，将attention机制显式地整合到late-interaction检索框架中，以提升性能。实验表明该方法在多个基准数据集上提高了召回准确率。

Supercharging Federated Intelligence Retrieval

Dimitris Stripelis et al.

cs.IR cs.CL cs.CR cs.LG

本文提出了一种安全的联邦检索增强生成(Federated RAG)系统，用于解决知识分布在私有数据孤岛中的问题。该系统在本地进行检索，并在可信执行环境中进行聚合与生成，同时引入级联推理以利用第三方模型增强上下文。

cs.CL

When Consistency Becomes Bias: Interviewer Effects in Semi-Structured Clinical Interviews

Hasindri Watawana et al.

cs.CL cs.AI cs.SD eess.AS

本文分析了在基于医患对话的自动抑郁检测任务中, 访谈者提示语引入的系统性偏差. 研究发现, 模型可能仅依赖访谈者的固定提问模式而非参与者的真实语言特征进行预测, 这夸大了模型性能. 作者强调需要按时间和说话者定位决策证据, 以确保模型真正学习参与者的语言.

Demystifying When Pruning Works via Representation Hierarchies

Shwai He et al.

cs.CL cs.LG

本文从表示层级的角度分析了网络剪枝在不同语言任务中的效果差异. 研究发现, 剪枝对嵌入空间和logit空间的表示影响较小, 但logit到概率的非线性变换会放大扰动, 导致生成任务性能显著下降.

Fine-Tuning A Large Language Model for Systematic Review Screening

Kweku Yamoah et al.

cs.CL

本文通过微调一个1.2B参数的开源大语言模型，专门用于系统综述中的文献标题与摘要筛选任务。实验表明，微调后的模型在F1分数和与人工标注的一致性上相比基础模型有显著提升。

Evaluating Fine-Tuned LLM Model For Medical Transcription With Small Low-Resource Languages Validated Dataset

Mohammed Nowshad Ruhani Chowdhury, Mohammed Nowaz Rabbani Chowdhury, Sakari Lukkarinen

cs.CL cs.AI cs.LG

本文通过微调LLaMA 3.1-8B模型，在芬兰语模拟临床对话的小型数据集上评估了医学转录任务的效果。结果显示，模型在语义相似度上表现良好，为低资源语言的临床文档自动化提供了可行性验证。

Enhancing Structured Meaning Representations with Aspect Classification

Claire Benét Post et al.

cs.CL

本文介绍了为缺乏aspect特征的AMR图标注UMR aspect标签的新数据集, 并描述了标注方案与流程. 通过三种建模方法的基线实验, 为自动UMR aspect预测建立了初步基准.

Synthetic Rewriting as a Quality Multiplier: Evidence from Portuguese Continued Pretraining

Thales Sales Almeida, Rodrigo Nogueira, Hélio Pedrini

cs.CL

本文通过控制实验研究了在葡萄牙语持续预训练中, 合成重写(synthetic rewriting)与源数据质量之间的交互作用. 实验结果表明, 合成重写主要扮演质量乘数(quality multiplier)的角色, 其效果依赖于模型规模.

Prune as You Generate: Online Rollout Pruning for Faster and Better RLVR

Haobo Xu et al.

cs.CL

本文提出了一种名为arrol的在线剪枝方法, 用于加速基于可验证奖励的强化学习(RLVR). 该方法在生成过程中动态剪枝rollout轨迹, 并通过系统设计提升训练效率, 在多个模型上实现了精度提升与训练加速.

LogSigma at SemEval-2026 Task 3: Uncertainty-Weighted Multitask Learning for Dimensional Aspect-Based Sentiment Analysis

Baraa Hikal, Jonas Becker, Bela Gipp

cs.CL cs.AI

本文提出了一个名为LogSigma的系统, 用于SemEval-2026 Task 3中的维度方面情感分析任务. 该系统通过引入学习同方差不确定性来自动平衡不同回归目标, 并结合语言特定编码器与集成方法, 在多个数据集上取得了领先的结果.

Estimating near-verbatim extraction risk in language models with decoding-constrained beam search

A. Feder Cooper et al.

cs.CL cs.LG

本文提出了一种名为 decoding-constrained beam search 的方法，用于高效估计语言模型中 near-verbatim extraction 的风险。该方法能以较低的计算成本提供确定性的风险下界，揭示了比传统 verbatim 方法更多的可提取序列信息。

Toward domain-specific machine translation and quality estimation systems

Javad Pourmostafa Roshan Sharami

cs.CL cs.AI

本文研究了如何通过数据层面的改进来提升机器翻译和质量评估系统在特定领域的性能. 它提出了几种方法, 包括基于相似性的数据选择, 分阶段训练流程, 以及对subword tokenization和in-context learning的改进.

LLM-Driven Reasoning for Constraint-Aware Feature Selection in Industrial Systems

Yuhang Zhou et al.

cs.CL

本文提出了一个名为MoFA的模型驱动框架, 利用LLM进行基于推理的特征选择. 该框架整合了特征的语义和定量信息, 通过可解释的、考虑约束的推理过程来选择特征, 并在三个工业应用中验证了其有效性.

Exons-Detect: Identifying and Amplifying Exonic Tokens via Hidden-State Discrepancy for Robust AI-Generated Text Detection

Xiaowei Zhu et al.

cs.CL

本文提出了一种名为Exons-Detect的免训练方法，用于检测AI生成的文本。该方法通过双模型设置下的隐藏状态差异来识别和加权信息丰富的“外显子”token，从而提高了检测的鲁棒性。实验表明，该方法在检测性能和对抗攻击鲁棒性方面优于现有基线。

Imperative Interference: Social Register Shapes Instruction Topology in Large Language Models

Tony Mason

cs.CL cs.AI cs.SE

本文通过多语言指令消融实验, 发现系统提示指令的交互拓扑(instruction topology)会因语言不同而发生反转, 例如在英语中协作的指令在西班牙语中可能竞争. 作者认为这种差异由社会语域(social register)中介, 特别是祈使语气(imperative mood)在不同语言社群中承载的"强制性义务(obligatory force)"不同, 而模型从多语言数据中习得了这些惯例. 实验表明, 将指令改写为陈述语气(declarative mood)可以显著减少跨语言差异.

Approaches to Analysing Historical Newspapers Using LLMs

Filip Dobranić et al.

cs.CL

本文结合主题建模、基于LLM的细粒度情感分析、实体图可视化等方法，对斯洛文尼亚历史报纸进行了计算分析。研究评估了多个指令微调LLM在历史文本情感分类上的表现，并展示了混合方法在分析集体身份表征方面的价值。

Closing the Confidence-Faithfulness Gap in Large Language Models

Miranda Muqing Miao, Lyle Ungar

cs.CL cs.AI

本文通过线性探针和对比激活引导技术, 分析了大型语言模型中 verbalized confidence 的几何表示. 研究发现, 模型的校准信号与 verbalized confidence 信号在线性空间中正交, 且推理过程会污染 confidence 方向, 作者称之为 "Reasoning Contamination Effect". 基于此, 作者提出了一种两阶段的自适应引导流程来改善校准对齐.

OMIND: Framework for Knowledge Grounded Finetuning and Multi-Turn Dialogue Benchmark for Mental Health LLMs

Suraj Racha et al.

cs.CL

本文提出了一个名为oMind的框架, 用于在心理健康领域对LLMs进行知识驱动的微调, 并构建了一个多轮对话评测基准. 该框架包含一个高质量的指令微调数据集和一个专家标注的多轮对话评测集, 实验表明基于该框架训练的模型在多项能力上优于基线.

Do LLMs Know What They Know? Measuring Metacognitive Efficiency with Signal Detection Theory

Jon-Paul Cacioli

cs.CL cs.AI

本文提出了一种基于Type-2 Signal Detection Theory的评估框架，用于分解大型语言模型的知识掌握程度（Type-1 sensitivity）和元认知能力（Type-2 metacognitive sensitivity）。该框架通过meta-d'和M-ratio等指标，在事实问答任务上分析了不同模型的表现，揭示了模型校准度与真实元认知效率之间的区别。

Goodness-of-pronunciation without phoneme time alignment

Jeremy H. M. Wong, Nancy F. Chen

cs.CL cs.AI cs.HC cs.LG

本文提出了一种无需音素时间对齐的发音质量评估方法. 该方法利用弱监督ASR模型, 通过将识别假设映射到音素混淆网络来计算音素后验概率, 并使用词级而非音素级的语速和时长特征. 通过交叉注意力架构结合音素和帧级特征, 该方法在英语和低资源泰米尔语数据集上取得了与标准帧同步特征相当的性能.

To Write or to Automate Linguistic Prompts, That Is the Question

Marina Sánchez-Torrón, Daria Akselrod, Jason Rauchwerk

cs.CL

本文比较了在语言任务中手工设计的专家提示与自动提示优化方法(如DSPy和GEPA)的性能。研究发现在不同任务(如翻译、术语插入)中，结果具有依赖性，自动优化在某些情况下能达到与专家设计相当的效果。

Prompt Attack Detection with LLM-as-a-Judge and Mixture-of-Models

Hieu Xuan Le, Benjamin Goh, Quy Anh Tang

cs.CL

本文提出了一种使用轻量级LLM作为实时安全评判器的方法, 用于检测针对大语言模型的prompt攻击. 该方法通过精心设计的prompt引导模型进行结构化推理, 并在一个包含良性查询和对抗性prompt的数据集上进行了评估. 结果表明, 轻量级LLM可以在低延迟约束下有效工作, 并已在新加坡的公共服务聊天机器人中部署.

Cross-Preference Learning for Sentence-Level and Context-Aware Machine Translation

Ying Li et al.

cs.CL

本文提出了一种名为 Cross-Preference Learning (CPL) 的训练框架，用于提升上下文感知机器翻译的性能。该方法通过整合句子级和上下文级翻译的偏好，使模型能自适应地利用上下文信息，并在多个基准测试中取得了改进。

Probing the Lack of Stable Internal Beliefs in LLMs

Yifan Luo et al.

cs.CL cs.AI

本文通过一个20问谜语游戏范式, 探讨了大型语言模型(LLMs)在缺乏显式上下文提示时, 维持多轮对话中"隐性一致性"的能力. 研究发现, LLMs难以保持其内部隐含的"目标", 这揭示了当前构建拟人化LLMs在稳定内部信念表示方面的关键局限.

A Catalog of Basque Dialectal Resources: Online Collections and Standard-to-Dialectal Adaptations

Jaione Bengoetxea, Itziar Gonzalez-Dios, Rodrigo Agerri

cs.CL

本文系统性地整理了巴斯克语方言的在线资源与标准语到方言的改编数据, 构建了一个资源目录. 重点介绍了手动改编的XNLI测试集和自动改编的BasPhyCowest数据集, 并评估了其质量.

A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations

Andong Tan et al.

cs.CL cs.AI

本文提出了一个名为CPGBench的自动化评估框架, 用于衡量大型语言模型(LLMs)在多轮对话中识别和遵循临床实践指南(CPGs)的能力. 研究基于过去十年间的大量指南文档构建了包含数万条临床建议的测试集, 并对多个主流LLMs进行了评估, 揭示了模型在指南内容识别、来源引用以及实际应用方面存在的显著差距.

SafeMath: Inference-time Safety improves Math Accuracy

Sagnik Basu et al.

cs.CL cs.CY

本文研究了数学应用题中嵌入有害内容的问题, 并提出了一个名为ToxicGSM的数据集用于系统评估. 作者进一步提出了SafeMath方法, 旨在减少模型的有害输出, 同时保持甚至提升其数学推理的准确性.

Translation or Recitation? Calibrating Evaluation Scores for Machine Translation of Extremely Low-Resource Languages

Danlu Chen et al.

cs.CL cs.LG

本文针对极低资源机器翻译评估中性能指标难以横向比较的问题, 提出了FRED难度度量指标集. 这些数据集内在指标有助于解释性能差异的来源, 例如训练-测试重叠和预训练暴露, 从而为社区提供了更透明的评估基础.

Comparing Natural and Synthetic Structured Data: A Study of the Passive Verb Alternation in French and Italian

Giuseppe Samo, Paola Merlo

cs.CL

本文通过比较自然与合成结构化数据在训练和评估大语言模型(LLM)中的作用，研究了法语和意大利语中的被动动词交替现象。实验表明，使用自然数据训练的模型在泛化能力上优于仅使用合成数据的模型。

MolQuest: A Benchmark for Agentic Evaluation of Abductive Reasoning in Chemical Structure Elucidation

Taolin Han et al.

cs.CL cs.AI

本文提出了一个名为MolQuest的基于agent的评估框架, 用于评估大语言模型在分子结构解析任务中的溯因推理能力. 该框架将结构解析构建为一个多轮交互任务, 要求模型整合光谱数据并迭代优化假设, 实验表明当前先进模型在此类真实科学场景中表现仍有限.

CRAFT: Grounded Multi-Agent Coordination Under Partial Information

Abhijnan Nath, Hannah VanderHoeven, Nikhil Krishnaswamy

cs.CL cs.AI

本文提出了一个名为CRAFT的多智能体基准测试，用于评估大语言模型在严格部分信息下的语用通信能力。该基准要求具有互补但不完整视角的智能体通过自然语言协调，共同构建一个没有单个智能体能完全观察到的共享3D结构。

When Hate Meets Facts: LLMs-in-the-Loop for Check-worthiness Detection in Hate Speech

Nicolás Benjamín Ocampo, Tommaso Caselli, Davide Ceolin

cs.CL

本文提出了一个结合 hate speech 与 check-worthiness 检测的数据集 WSF-ARG+，并引入了一个 LLM-in-the-loop 框架来辅助标注。实验表明，该框架能在保证质量的同时减少人工工作量，并且整合 check-worthiness 信息能提升基于 LLM 的 hate speech 检测性能。

Separate Before You Compress: The WWHO Tokenization Architecture

Kusal Darshana

cs.CL

本文针对处理复杂Abugida文字时标准BPE分词器的问题，提出了一种名为WWHO的三层架构和SGPE算法。该方法在Sinhala和Devanagari等文字上显著降低了Token to Word Ratio，有效扩展了可用上下文窗口。

Beyond Detection: Rethinking Education in the Age of AI-writing

Maria Marina, Alexander Panchenko, Vasily Konovalov

cs.CL

本文探讨了生成式AI工具(如ChatGPT)进入教育领域后, 写作可能被外包和自动化, 从而丧失其认知价值的问题. 文章结合认知心理学和教育理论, 主张写作过程本身对人类深度学习至关重要, 并讨论了AI文本检测的现状以及教育者应如何通过改进教学法而非禁令来应对.

Adaptive Chunking: Optimizing Chunking-Method Selection for RAG

Paulo Roberto de Moura Júnior, Jean Lelong, Annabelle Blangero

cs.CL cs.AI cs.IR

本文提出了一个名为Adaptive Chunking的框架，用于为RAG系统优化文档分块策略的选择。它通过引入一组新的内在评估指标来指导分块方法的选择，并在多个领域的文档上验证了其提升下游问答性能的有效性。

Large Language Model as Token Compressor and Decompressor

Wenbing Li et al.

cs.CL

本文提出了一种利用预训练大语言模型(LLM)作为token压缩器和解压器的方法. 通过一个自表达的自编码学习框架, 将长文本压缩为离散的、可变长度的潜在代码(Z-tokens), 并实现精确重构.

TAPO: Translation Augmented Policy Optimization for Multilingual Mathematical Reasoning

Xu Huang et al.

cs.CL

本文提出了一种名为TAPO的强化学习框架，旨在提升大语言模型在多语言数学推理任务上的表现。该方法通过引入翻译质量奖励和分步优势机制，将语言理解与数学推理过程解耦，从而改善了模型在非英语语境下的性能。

Navigating the Prompt Space: Improving LLM Classification of Social Science Texts Through Prompt Engineering

Erkan Gunes, Christoffer Florczak, Tevfik Murat Yildirim

cs.CL cs.CY

本文通过系统性地改变prompt engineering中的三个要素, 探讨了如何通过增加prompt context来提高LLM在社会科学文本分类中的准确性. 实验表明, 适度增加context能提升性能, 但过度增加可能适得其反, 且效果因模型和任务而异.

Translation Asymmetry in LLMs as a Data Augmentation Factor: A Case Study for 6 Romansh Language Varieties

Jannis Vamvas et al.

cs.CL

本文探讨了在低资源机器翻译中利用LLMs进行数据增强时, 因LLMs混淆罗曼什语的六种变体而导致效果不佳的问题. 实验表明, 将数据增强的方向与源语言和目标语言之间的资源梯度对齐, 可以显著提升翻译质量, 在BLEU分数上超越了现有模型.

An Experimental Comparison of the Most Popular Approaches to Fake News Detection

Pietro Dell'Oglio et al.

cs.CL

本文对12种主流的假新闻检测方法进行了实验比较, 涵盖了传统机器学习, 深度学习, transformer和专门的跨领域架构. 在10个公开数据集上进行了领域内, 多领域和跨领域的评估, 发现微调模型在领域内表现良好但泛化能力有限, 而大型语言模型在零样本和少样本学习上展现出潜力.

Humans vs Vision-Language Models: A Unified Measure of Narrative Coherence

Nikolai Ilinykh et al.

cs.CL

本文通过一系列度量指标比较了人类与vision-language models在视觉叙事任务中的叙事连贯性. 研究发现, 尽管模型在表面流畅度上接近人类, 但在话语组织上存在系统性差异.

PICon: A Multi-Turn Interrogation Framework for Evaluating Persona Agent Consistency

Minseo Kim et al.

cs.CL

本文提出了一个名为PICon的多轮询问框架，用于评估基于大语言模型的角色代理在对话中的一致性。该框架从内部、外部和重测三个维度进行系统性测试，发现现有代理的表现均未达到人类基准。

Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

Mingmeng Geng, Yuhang Dong, Thierry Poibeau

cs.CL cs.AI cs.CY cs.DL cs.LG

本文通过分析arXiv论文, 发现了可能由大语言模型(LLMs)驱动的词汇使用变化, 例如标题中"beyond"和"via"的增加. 研究指出, 由于不同LLMs之间的相似性与差异性, 现有分类器难以准确识别文本来源, 且词汇使用模式也在不断演变.

Measuring What Matters -- or What's Convenient?: Robustness of LLM-Based Scoring Systems to Construct-Irrelevant Factors

Cole Walsh, Rodica Ivan

cs.CL cs.AI cs.CY

本文研究了基于大语言模型(LLM)的自动评分系统对构念无关因素的鲁棒性。实验发现，该系统对无意义文本填充、拼写错误和写作复杂度等因素表现稳健，但对文本重复和离题回答则较为敏感。

Self-Improvement of Large Language Models: A Technical Overview and Future Outlook

Haoyan Yang et al.

cs.CL

本文对大型语言模型(LLM)的自我改进技术进行了系统性综述与展望。作者提出了一个将自我改进视为闭环生命周期的统一框架，并围绕其核心组件回顾了现有方法。

S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

Ligong Han et al.

cs.CL

本文提出了一种名为S2D2的无训练自推测解码框架，用于加速块扩散语言模型（block-diffusion language models）的生成。该方法通过将同一个预训练模型同时用作草稿器和验证器，并引入轻量级路由策略，在保持生成质量的同时显著提升了推理速度。

Natural-Language Agent Harnesses

Linyue Pan et al.

cs.CL cs.AI

本文提出了一种名为 Natural-Language Agent Harnesses (NLAHs) 的方法, 将 agent 的控制逻辑用自然语言描述, 并通过 Intelligent Harness Runtime (IHR) 执行. 在编码和计算机使用基准测试中评估了该方法的可行性与模块效果.

cs.DS

Multi-LLM Query Optimization

Arlen Dean et al.

cs.DS cs.LG math.OC

本文研究了在多个异构大语言模型(LLM)并行部署时，如何以最低总查询成本分配查询，同时保证对每个可能的真实标签(statewise)的错误率约束。作者证明了该问题是NP-hard的，并通过构造一个基于union bound和Chernoff型集中不等式的代理目标函数来克服其难解性，该代理函数具有闭式解，并设计了一个渐近完全多项式时间近似方案(AFPTAS)来求解。

AutoCSF: Provably Space-Efficient Indexing of Skewed Key-Value Workloads via Filter-Augmented Compressed Static Functions

David Torres Ramos et al.

cs.DS cs.DB

本文提出了一种名为AutoCSF的算法，用于为具有高度偏斜值分布的大规模键值数据集构建空间高效的内存索引。该方法将压缩静态函数（CSF）与前置过滤器相结合，并提供了关于索引整体空间使用的理论保证。

Fast Spanning Tree Sampling in Broadcast Congested Clique

Nima Anari, Alireza Haqi

cs.DS cs.DC

本文在 Broadcast Congested Clique 模型中提出了首个多对数轮次的随机生成树采样算法。该算法能在常数轮次内输出接近均匀分布的生成树样本。

Bounded Independence Edge Sampling for Combinatorial Graph Properties

Aaron Putterman, Salil Vadhan, Vadim Zaripov

cs.DS cs.CC

本文研究了在图算法中通过有界独立边采样实现去随机化的问题. 文章推广了Alon和Nussboim关于随机图有界独立模拟的结果, 并展示了在特定条件下, $O(\log(m))$-wise独立性足以以高概率保持图的连通性和无环性. 作为应用, 作者重新审视了寻找图拟阵基的并行算法, 并展示了如何对现有最优算法进行显式去随机化.

The Geometry of Efficient Nonconvex Sampling

Santosh S. Vempala, Andre Wibisono

cs.DS cs.LG math.ST stat.ML

本文提出了一种在满足等周性和体积增长条件的任意紧致集合上进行均匀采样的高效算法. 该算法在维度, Poincaré常数和体积增长常数上是多项式时间的.

Advances in Exact and Approximate Group Closeness Centrality Maximization

Christian Schulz, Jakob Ternes, Henning Woydt

cs.DS

本文改进了Group Closeness Centrality Maximization问题的精确与近似算法。通过两种新技术减小了ILP的规模并减少了迭代次数，显著提升了计算速度。

others

Ultra-fast Traffic Nowcasting and Control via Differentiable Agent-based Simulation ⭐ 精选

Fumiyasu Makinoshima et al.

cs.MA cs.LG

本文提出了一种可微分的agent-based交通仿真器, 解决了大规模、高保真交通模型因传统仿真不可微而难以快速校准和优化的关键瓶颈. 通过开发针对车辆随机决策和交互的可微计算技术, 实现了整个仿真轨迹的端到端可微性, 从而能够利用高效的基于梯度的优化方法. 在拥有超过一万个校准参数的大规模芝加哥路网案例中, 该模型以173倍实时速度仿真百万车辆, 在20分钟内完成了从模型校准、交通临近预报到交通控制优化的完整闭环, 为实现实用的交通数字孪生提供了计算基础.

History of generative Artificial Intelligence (AI) chatbots: past, present, and future development

Md. Al-Amin et al.

cs.GL cs.AI cs.CL cs.HC

本文回顾了生成式AI聊天机器人的发展历史, 从早期的基于规则的系统到现代的基于Transformer的模型. 它概述了关键的技术里程碑和范式转变, 并讨论了未来的潜在应用方向.

Malicious LLM-Based Conversational AI Makes Users Reveal Personal Information

Xiao Zhan et al.

cs.CY cs.AI cs.CR cs.HC

本文通过随机对照试验, 研究了恶意设计的LLM对话AI诱导用户泄露个人信息的能力. 研究发现, 基于社交隐私策略的恶意AI能更有效地获取信息, 同时降低用户的风险感知.

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Mengting He et al.

cs.PL cs.AI

本文提出了一种名为Model2Kernel的系统，用于自动验证LLM推理中使用的CUDA kernel的内存安全性。该系统结合了模型感知的动态分析和针对CUDA的符号执行，以发现潜在的内存错误。

X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs

Di Cao et al.

eess.AS cs.AI cs.CL

本文提出了一种名为X-OPD的跨模态策略蒸馏框架，旨在解决端到端语音大语言模型与纯文本模型之间的性能差距问题。该方法通过让语音模型进行策略探索，并利用文本教师模型提供反馈，从而将文本能力蒸馏到多模态表示中。

Response-Aware Risk-Constrained Control Barrier Function With Application to Vehicles

Qijun Liao, Jue Yang

math.OC cs.LG eess.SY

本文提出了一种基于响应感知风险约束控制屏障函数的统一控制框架, 用于车辆的动态安全边界控制. 该框架通过融合名义动力学先验与直接车身响应来构建不确定性传播模型, 并利用条件风险价值理论将确定性安全约束重构为关于屏障函数导数的尾部风险的概然约束, 最终构建了一个统一的二阶锥规划控制器.

A Learnable SIM Paradigm: Fundamentals, Training Techniques, and Applications

Hetong Wang, Yashuai Cao, Tiejun Lv

eess.SP cs.AI

本文探讨了可学习 stacked intelligent metasurfaces (SIM) 范式的基本原理、训练技术和应用。文章揭示了 SIM 与人工神经网络 (ANNs) 在结构上的深刻相似性，并基于此提出了一个可学习的 SIM 架构及其在 6G 及以后系统中的机器学习应用。通过两个用例展示了该架构在提升频谱利用效率和抗干扰能力方面的潜力。

FED-HARGPT: A Hybrid Centralized-Federated Approach of a Transformer-based Architecture for Human Context Recognition

Wandemberg Gibaut et al.

eess.SP cs.AI cs.LG

本文提出了一种用于Human Activity Recognition (HAR) 的混合中心化-联邦学习方法，该方法基于Transformer架构。研究在非独立同分布数据场景下，利用联邦学习框架在保护数据隐私的同时，实现了与中心化模型相当的性能。

MuViS: Multimodal Virtual Sensing Benchmark

Jens U. Brandt et al.

eess.SP cs.AI

本文提出了一个名为MuViS的多模态虚拟感知基准测试套件, 旨在为不同数据集和方法提供统一的评估框架. 作者通过该框架对多种现有方法进行了基准测试, 结果表明目前尚无具有普遍优势的方法, 并强调了开发通用虚拟感知架构的必要性.

Fusion Learning from Dynamic Functional Connectivity: Combining the Amplitude and Phase of fMRI Signals to Identify Brain Disorders

Jinlong Hu, Jiatong Huang, Zijian Cai

q-bio.NC cs.AI

本文提出了一种结合fMRI信号振幅与相位信息的多尺度融合学习框架MSFL, 用于识别脑部疾病. 该方法在自闭症谱系障碍和重度抑郁症分类任务上表现优于现有模型.

Causal AI For AMS Circuit Design: Interpretable Parameter Effects Analysis

Mohyeu Hussain et al.

cs.AR cs.AI cs.LG

本文提出了一种基于因果推断的框架来分析模拟混合信号(AMS)电路的设计参数效应. 该方法通过从仿真数据中发现有向无环图(DAG)并估计平均处理效应(ATE), 为设计者提供了可解释的参数影响排序和"假设"预测.

A Large-Scale Comparative Analysis of Imputation Methods for Single-Cell RNA Sequencing Data

Yuichiro Iwashita et al.

q-bio.GN cs.LG stat.ML

本文对15种单细胞RNA测序数据插补方法进行了大规模比较分析, 涵盖了7种方法类别, 并在30个数据集和6种下游分析任务上进行了评估. 结果表明, 传统方法通常优于深度学习方法, 且没有一种方法在所有场景下都表现最佳.

Sketch2Simulation: Automating Flowsheet Generation via Multi Agent Large Language Models

Abdullah Bahamdan et al.

cs.SE cs.AI cs.MA eess.SY

本文提出了一种基于多智能体大语言模型的端到端系统, 用于将化工过程草图自动转换为可执行的 Aspen HYSYS 模拟文件. 该系统通过协调视觉解析, 模型合成与多级验证等步骤, 在多个案例中成功生成了模拟模型, 展示了从草图到仿真的自动化工作流程的可行性.

TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis

Myeongsoo Kim et al.

cs.SE cs.AI

本文提出了一个名为TRAJEVAL的诊断框架，用于对代码智能体(agent)的执行轨迹进行细粒度分析。该框架将轨迹分解为搜索、阅读和编辑三个阶段，并通过计算各阶段的精度和召回率来定位失败原因。

Dual-Graph Multi-Agent Reinforcement Learning for Handover Optimization

Matteo Salvatori et al.

cs.NI cs.AI cs.LG

本文提出了一种基于dual-graph的MARL方法TD3-D-MA，用于优化蜂窝网络中的切换参数。该方法在系统级仿真中相比传统启发式规则和集中式RL基准，提高了网络吞吐量并展现出良好的泛化能力。

Spectral methods: crucial for machine learning, natural for quantum computers?

Vasilis Belis et al.

quant-ph cs.LG stat.ML

本文探讨了量子计算机在机器学习中应用 spectral methods 的潜力, 指出量子态表示和 Quantum Fourier Transform 可能提供更直接的频谱操作方式. 作者认为这为量子机器学习研究提供了一个值得探索的新方向.

Reconstructing Spiking Neural Networks Using a Single Neuron with Autapses

Wuque Cai et al.

cs.NE cs.AI

本文提出了一种利用单个具有自突触的神经元重构脉冲神经网络的方法, 称为TDA-SNN. 该方法通过重组内部时间状态, 在一个统一的框架内实现了类似储备池、多层感知机和卷积的结构, 显著减少了神经元数量和状态存储需求.

Conformal Selective Prediction with General Risk Control

Tian Bai, Ying Jin

stat.ME cs.LG stat.AP stat.ML

本文提出了一个基于conformal inference和hypothesis testing的新框架SCoRE, 用于在选择性预测中控制用户定义的风险. 该方法无需建模假设, 能提供有限样本下的误差控制保证, 并适用于存在分布偏移的场景.

Amortized Inference for Correlated Discrete Choice Models via Equivariant Neural Networks

Easton Huch, Michael Keane

stat.ME cs.LG econ.EM

本文提出了一种基于神经网络的摊销推断方法, 用于近似具有相关误差的离散选择模型的选择概率. 该方法设计了具有不变性结构的网络架构和训练流程, 并证明了估计量的一致性和渐近正态性.

Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models

Shengli Zhou et al.

cs.CV cs.AI cs.LG cs.MM

本文提出了一种名为QuatRoPE的新型位置嵌入方法, 用于提升大型语言模型在3D空间推理任务中的表现. 该方法通过线性复杂度的方式编码对象间关系, 并结合IGRE机制来减少对模型原有能力的干扰.

Is Geometry Enough? An Evaluation of Landmark-Based Gaze Estimation

Daniele Agostinelli et al.

cs.CV cs.AI

本文评估了基于面部landmarks的几何方法在gaze estimation任务中的性能与泛化能力. 通过标准化pipeline在多个数据集上训练轻量级回归模型, 发现其在跨域评估中表现与基于外观的深度网络相当.

Decentralized Task Scheduling in Distributed Systems: A Deep Reinforcement Learning Approach

Daniel Benniah John

cs.DC cs.AI cs.LG cs.MA

本文提出了一种用于异构分布式系统任务调度的去中心化多智能体深度强化学习框架. 该方法将问题建模为 Dec-POMDP, 并设计了一个仅依赖 NumPy 的轻量级 actor-critic 架构, 在基于 Google Cluster Trace 的仿真中取得了优于随机基线的性能.

Autotuning T-PaiNN: Enabling Data-Efficient GNN Interatomic Potential Development via Classical-to-Quantum Transfer Learning

Vivienne Pelletier et al.

physics.chem-ph cs.LG

本文提出了一种名为T-PaiNN的迁移学习框架，旨在提升基于图神经网络的机器学习原子间势能的数据效率。该方法通过利用廉价的经典力场数据进行预训练，再使用少量DFT数据进行微调，从而在分子和凝聚态系统上实现了更高的预测精度和更快的训练收敛。

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

Gabriel Orlanski et al.

cs.SE cs.AI cs.CL

本文提出了一个名为SlopCodeBench的基准测试, 用于评估编码智能体在长周期迭代任务中的性能退化. 实验表明, 当前智能体生成的代码在冗长度和结构侵蚀方面会随着迭代显著恶化, 缺乏人类开发者所具备的设计纪律性.

Binary Expansion Group Intersection Network

Sicheng Zhou, Kai Zhang

math.ST cs.LG stat.ML

本文提出了一种用于多元二元数据和位编码多项变量的分布无关图表示方法, 称为 binary expansion group intersection network (BEGIN). 它证明了对于任意二元随机向量, 条件独立等价于条件期望的稀疏线性表示, 以及相关交互协方差矩阵的块分解.

Synthetic Cardiac MRI Image Generation using Deep Generative Models

Ishan Kumarasinghe et al.

cs.CV cs.LG

本文综述了使用深度生成模型合成心脏MRI图像的研究进展. 文章比较了GANs, VAEs, 扩散模型和流匹配等技术在生成保真度, 下游效用和隐私保护方面的表现.

From Untestable to Testable: Metamorphic Testing in the Age of LLMs

Valerio Terragni

cs.SE cs.AI

本文讨论了在软件系统中集成AI和LLM功能所带来的测试挑战。作者提出，Metamorphic Testing通过将多个测试执行间的关系转化为可执行的测试预言，为解决缺乏大规模标注真值的问题提供了一种方法。

AIP: Agent Identity Protocol for Verifiable Delegation Across MCP and A2A

Sunil Prakash

cs.CR cs.AI

本文提出了一种用于在MCP和A2A协议间进行可验证委托的Agent Identity Protocol (AIP). 它引入了Invocation-Bound Capability Tokens (IBCTs)来融合身份、授权和溯源, 并提供了两种实现模式.

Dissecting Model Failures in Abdominal Aortic Aneurysm Segmentation through Explainability-Driven Analysis

Abu Noman Md Sakib et al.

cs.CV cs.AI cs.LG

本文提出了一种基于可解释人工智能(XAI)的编码器塑造框架, 用于分析并改进腹部主动脉瘤(AAA)CT图像分割模型的失败案例. 该方法通过生成归因图来引导模型关注, 并设计了轻量级优化路径, 在具有挑战性的临床数据集上取得了性能提升.

GoldiCLIP: The Goldilocks Approach for Balancing Explicit Supervision for Language-Image Pretraining

Deen Dayal Mohan et al.

cs.CV cs.AI cs.LG

本文提出了GoldiCLIP框架, 通过结合文本条件自蒸馏, 集成解码器的VQA目标以及不确定性加权损失, 在仅使用3000万图像的小规模数据上实现了高效的视觉语言预训练. 该方法在多个检索任务上超越了同类数据高效方法, 并与十亿规模模型的性能保持竞争.

FODMP: Fast One-Step Diffusion of Movement Primitives Generation for Time-Dependent Robot Actions

Xirui Shi et al.

cs.RO cs.AI

本文提出了一种名为FODMP的快速单步扩散框架, 用于生成具有时间依赖性的机器人运动基元. 该方法通过一致性蒸馏将扩散模型压缩到ProDMPs轨迹参数空间中, 实现了比现有方法快一个数量级的推理速度, 同时保持了运动的时间结构, 适用于实时闭环控制.

Generative Adversarial Perturbations with Cross-paradigm Transferability on Localized Crowd Counting

Alabi Mehzabin Anisha, Guangjing Wang, Sriram Chellappan

cs.CV cs.AI

本文提出了一种针对人群计数与定位模型的跨范式对抗攻击框架. 该框架通过结合针对点回归模型的高置信度logit抑制和针对密度图模型的峰值目标抑制, 并辅以模型无关的感知约束, 生成了可同时攻击两种主流架构的对抗扰动. 实验表明, 该方法在保持视觉质量的同时, 能有效提升多个先进模型的平均绝对误差, 并展现出跨模型的迁移性.

Learning From Developers: Towards Reliable Patch Validation at Scale for Linux

Chih-En Lin et al.

cs.SE cs.AI

本文针对Linux内核补丁审查的规模化挑战, 提出了一个名为FLINT的自动化补丁验证框架. 该框架通过分析开发者历史讨论来提取验证规则, 并结合无需微调的大语言模型(LLM)来自动分析补丁提案, 旨在检测传统工具难以发现的并发等问题.

NeuroVLM-Bench: Evaluation of Vision-Enabled Large Language Models for Clinical Reasoning in Neurological Disorders

Katarina Trojachanec Dineva et al.

cs.CV cs.AI cs.LG

本文对多种视觉增强大语言模型在神经影像临床推理任务上的表现进行了系统性评估。研究构建了一个涵盖多种神经系统疾病的MRI与CT数据集, 要求模型同时输出诊断、亚型、成像模态等多个结构化结果, 并从分类准确性、校准度、输出合规性及计算效率四个维度进行评测。结果表明, 模型在识别技术性成像属性(如模态)上表现优异, 但在诊断推理, 尤其是亚型预测上仍面临挑战, 其中Gemini-2.5-Pro与GPT-5-Chat综合表现最佳, 而开源的MedGemma-1.5-4B模型在提示学习下展现出接近部分商业模型零样本性能的潜力。

Gaze patterns predict preference and confidence in pairwise AI image evaluation

Nikolas Papadopoulos et al.

cs.HC cs.AI cs.CV cs.CY

本文通过眼动追踪技术研究了人类在成对AI生成图像评估中的偏好形成过程. 研究发现, 凝视模式可以预测选择结果和决策信心, 为理解偏好标注的认知过程提供了线索.

Towards automatic smoke detector inspection: Recognition of the smoke detectors in industrial facilities and preparation for future drone integration

Lukas Kratochvila et al.

cs.CV cs.LG cs.RO

本文提出了一种用于自动检查系统中烟雾探测器识别的计算机视觉方法, 比较了YOLOv11, SSD和RT-DETRv2等目标检测模型在不同训练策略下的性能. 最佳模型YOLOv11n在包含运动模糊等挑战性场景的测试集上取得了0.884的mAP@0.5分数, 为未来集成到无人机自动巡检系统奠定了基础.

AI Security in the Foundation Model Era: A Comprehensive Survey from a Unified Perspective

Zhenyi Wang, Siyu Luan

cs.CR cs.AI cs.CL cs.CV cs.LG

本文是一篇关于基础模型时代AI安全的综述性论文. 作者提出了一个统一的闭环威胁分类法, 从数据与模型相互作用的四个方向对安全威胁进行了系统性梳理, 旨在为分析和防御基础模型提供一个原则性的框架.

More Than "Means to an End": Supporting Reasoning with Transparently Designed AI Data Science Processes

Venkatesh Sivaraman et al.

cs.HC cs.AI

本文讨论了在医疗领域设计AI数据科学系统时, 通过构建围绕中间产物(如可读查询语言, 概念定义等)的AI工作流, 来支持用户推理和知识贡献. 尽管AI过程的其他部分可能不透明, 但这些设计有助于用户进行关键的分析选择并完善问题.

The Four Color Theorem with Linearly Many Reducible Configurations and Near-Linear Time Coloring

Yuta Inoue et al.

math.CO cs.DM cs.DS

本文提出了一种近线性时间的平面图四色算法, 改进了之前二次时间的算法. 该结果基于对四色定理证明的显著推广, 表明平面三角剖分包含大量可约构型或短阻碍圈. 从计算角度看, 这允许将问题规模按常数因子缩减, 从而实现 $O(n\log n)$ 时间的着色.

Surrogates, Spikes, and Sparsity: Performance Analysis and Characterization of SNN Hyperparameters on Hardware

Ilkin Aliyev, Jesus Lopez, Tosiron Adegbija

cs.AR cs.AI

本文通过硬件层面的工作负载表征研究, 量化了SNN训练超参数(如替代梯度函数和神经元模型)对推理延迟和准确率的影响. 研究发现, 标准准确率指标并不能很好地预测硬件效率, 而针对稀疏性进行超参数选择可以显著提升性能.

Sovereign AI at the Front Door of Care: A Physically Unidirectional Architecture for Secure Clinical Intelligence

Vasu Srinivasan, Dhriti Vasu

cs.CR cs.AI cs.NI

本文提出了一种用于临床分诊的Sovereign AI架构, 其核心是利用物理单向信道(如仅接收广播或硬件数据二极管)实现数据输入, 所有推理均在设备端完成. 该设计从架构上消除了网络攻击面, 而非依赖软件控制. 文章形式化分析了接收端单向性的安全属性, 并探讨了其在资源受限和高风险环境中的部署.

Integrated Multi-Drone Task Allocation, Sequencing, and Optimal Trajectory Generation in Obstacle-Rich 3D Environments

Yunes Alqudsi, Murat Makaraci

cs.RO cs.AI cs.MA

本文提出了一种名为IMD-TAPP的端到端框架，用于在障碍物密集的3D环境中集成解决多无人机任务分配、序列规划和轨迹生成问题。该方法结合了基于图的路径搜索、粒子群优化和轨迹优化，以生成满足动态约束和避障要求的可行轨迹。

Shaping the Future of Mathematics in the Age of AI

Johan Commelin et al.

math.HO cs.AI

本文探讨了人工智能对数学领域在价值观、实践、教学、技术和伦理五个方面的深刻影响，并提出了数学界应主动参与塑造未来的建议。

TIGFlow-GRPO: Trajectory Forecasting via Interaction-Aware Flow Matching and Reward-Driven Optimization

Xuepeng Jing et al.

cs.CV cs.AI

本文提出了一种两阶段生成框架TIGFlow-GRPO，用于人类轨迹预测。该框架结合了基于Conditional Flow Matching的预测器与基于奖励的优化，旨在生成更符合社会规范和场景约束的轨迹。

Evaluating adaptive and generative AI-based feedback and recommendations in a knowledge-graph-integrated programming learning system

Lalita Na Nongkhai et al.

cs.PL cs.AI

本文介绍了一个将大型语言模型(LLM)与检索增强生成(RAG)方法相结合的框架，该框架利用知识图谱和用户交互历史，集成到自适应学习支持系统中以评估代码、生成反馈和推荐练习。研究通过实验比较了自适应、生成式AI(GenAI)及混合模式的学习效果，发现混合模式在多项指标上表现最佳。

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

Peiju Liu et al.

cs.CV cs.CL

本文提出了一种名为TIES的动态token选择框架, 用于提升Vision-Language-Action (VLA)模型的推理效率. 该方法通过利用attention机制中跨层的排名一致性来动态选择token, 在减少计算量的同时保持了策略性能.

MobileDev-Bench: A Comprehensive Benchmark for Evaluating Language Models on Mobile Application Development

Moshood A. Fakorede et al.

cs.SE cs.LG

本文提出了一个专注于移动应用开发的基准测试 MobileDev-Bench, 用于评估大语言模型在解决真实移动应用问题上的能力. 该基准包含来自多个平台的实际任务, 评估结果显示当前模型的解决率很低, 揭示了模型在处理移动开发复杂上下文时的显著不足.

Self-Corrected Image Generation with Explainable Latent Rewards

Yinyi Luo et al.

cs.CV cs.AI

本文提出了一种名为xLARD的自校正图像生成框架，它利用多模态大语言模型通过可解释的潜在奖励来引导生成过程。该框架引入了一个轻量级校正器，基于模型生成的参考反馈来优化潜在表示，从而在多种生成和编辑任务中提升了语义对齐和视觉保真度。

Subject-Specific Low-Field MRI Synthesis via a Neural Operator

Ziqi Gao et al.

eess.IV cs.AI

本文提出了一种从高场MRI合成低场MRI的端到端框架H2LO, 它通过学习少量配对数据来建模图像退化过程. 该方法在模拟保真度和下游图像增强任务上优于现有模型.

The Value of Information in Resource-Constrained Pricing

Ruicheng Ao, Jiashuo Jiang, David Simchi-Levi

math.OC cs.LG stat.ML

本文研究了在资源受限的动态定价问题中, 需求预测信息(包括带有误差界的认证预测和存在偏差的替代模型)的价值. 通过分析线性需求模型, 证明了认证预测能将regret从$O(\sqrt{T})$降至$O(\log T)$, 并确定了实现这一改进的精确阈值$\epsilon^0 \lesssim T^{-1/4}$. 同时, 替代模型虽不能直接定价, 但可通过控制变量法将学习方差降低$(1-\rho^2)$倍. 所有算法基于一种边界吸引机制, 无需非退化假设即可在容量边界附近稳定定价.

Rethinking Health Agents: From Siloed AI to Collaborative Decision Mediators

Ray-Yuan Chung, Xuhai Xu, Ari Pollack

cs.HC cs.AI

本文探讨了基于大语言模型的健康智能体在医疗协作中的局限性, 并提出将其重新定位为嵌入多方护理互动中的协作决策调解者. 通过一个虚构的儿科慢性肾病案例研究, 作者论证了当前孤立的AI使用方式会加剧理解碎片化和目标错位, 并提出了一个旨在促进情境感知、调和心智模型并支持共享理解的概念框架.

Learning Rollout from Sampling:An R1-Style Tokenized Traffic Simulation Model

Ziyan Wang et al.

cs.RO cs.AI

本文提出了一种名为R1Sim的tokenized traffic simulation policy, 它利用基于motion token entropy patterns的reinforcement learning来改进交通模拟. 该方法通过entropy-guided adaptive sampling和Group Relative Policy Optimization (GRPO)来平衡exploration和exploitation, 从而在Waymo Sim Agent benchmark上实现了具有竞争力的性能.

Efficient Detection of Bad Benchmark Items with Novel Scalability Coefficients

Michael Hardy, Joshua Gilbert, Benjamin Domingue

stat.AP cs.AI

本文提出了一种基于interitem isotonic regression的新型非参数可扩展性系数族, 用于高效检测大规模评估中的不良项目. 该方法的核心是signed isotonic $R^2$, 它通过聚合成对系数得到项目级分数, 无需假设线性或依赖参数模型, 并在多个AI基准和人类评估数据集中表现出色.

Improving Fine-Grained Rice Leaf Disease Detection via Angular-Compactness Dual Loss Learning

Md. Rokon Mia et al.

cs.CV cs.AI

本文提出了一种结合 Center Loss 和 ArcFace Loss 的双损失框架，用于增强细粒度水稻叶部病害分类。该方法在多个先进骨干网络上取得了高准确率，且无需大幅修改模型结构，便于实际部署。

Few TensoRF: Enhance the Few-shot on Tensorial Radiance Fields

Thanh-Hai Le, Hoang-Hau Tran, Trong-Nghia Vu

cs.CV cs.AI

本文提出Few TensoRF，一个结合了TensorRF高效张量表示与FreeNeRF频率驱动正则化的3D重建框架。该方法通过引入频率掩码和遮挡掩码，在稀疏输入视图下提升了训练的稳定性和重建质量，同时保持了快速的训练速度。

Improving Infinitely Deep Bayesian Neural Networks with Nesterov's Accelerated Gradient Method

Chenxu Yu, Wenqi Fang

stat.ML cs.LG

本文提出了一种结合Nesterov加速梯度方法的SDE-BNN模型，旨在减少数值求解随机微分方程所需的函数评估次数，从而降低计算成本并提升训练稳定性。实验表明，该方法在图像分类等任务上优于传统模型。

The System Prompt Is the Attack Surface: How LLM Agent Configuration Shapes Security and Creates Exploitable Vulnerabilities

Ron Litvak

cs.CR cs.AI

本文通过PhishNChips实验研究了LLM agent的system prompt配置如何影响其钓鱼邮件检测的安全性。研究发现，prompt与模型的交互是首要的安全变量，优化prompt在提升基准性能的同时，也可能创造脆弱的攻击面。

TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization

Nathaniel Gorski, Shusen Liu, Bei Wang

cs.HC cs.AI cs.GR cs.LG

本文提出了一个用于自动化拓扑数据分析与可视化工作流的智能体框架, 通过引入编排器与验证器的双智能体架构以及模块化设计来提升可靠性. 在模拟评估中, 该框架相比基线方法取得了显著更高的成功率.

Learning domain-invariant features through channel-level sparsification for Out-Of Distribution Generalization

Haoran Pei et al.

cs.CV cs.AI

本文提出了一种名为Hierarchical Causal Dropout (HCD)的方法，用于提升模型在分布外(OOD)场景下的泛化能力。该方法通过通道级稀疏化来分离因果特征与虚假特征，并结合互信息目标进行训练。

Pixelis: Reasoning in Pixels, from Seeing to Acting

Yunpeng Zhou

cs.CV cs.AI

本文提出了一个直接在像素空间操作的智能体Pixelis, 它通过一组可执行操作(如缩放、分割、跟踪等)来处理图像和视频, 并从行动后果中学习. 该方法通过三个阶段进行训练, 在多个基准测试上取得了性能提升, 并生成了更短、可审计的操作链.

Large Language Models as Optimization Controllers: Adaptive Continuation for SIMP Topology Optimization

Shaoliang Yang, Jun Wang, Yunsheng Wang

cs.CE cs.AI

本文提出了一种使用大型语言模型(LLM)作为在线自适应控制器来指导SIMP拓扑优化的框架. 该框架通过实时状态反馈动态调整优化参数, 在多个2D和3D基准问题上取得了比传统固定策略更低的最终柔度.

From Logic Monopoly to Social Contract: Separation of Power and the Institutional Foundations for Autonomous Agent Economies

Anbang Ruan

cs.MA cs.AI cs.CR cs.DC

本文提出了一种新的多智能体系统架构, 旨在解决现有框架中智能体"逻辑垄断"带来的可靠性问题. 它引入了基于社会契约和权力分立的"AE4E"范式及其实施框架"NEF", 将智能体视为具有法律身份的商业实体, 并构建了包含立法、执行和裁决分支的制度化基础设施.

MoireMix: A Formula-Based Data Augmentation for Improving Image Classification Robustness

Yuto Matsuo et al.

cs.CV cs.AI

本文提出了一种基于解析干涉图案的轻量级数据增强方法 MoireMix, 用于提升图像分类模型的鲁棒性. 该方法通过闭合数学公式在内存中实时生成莫尔纹理并与训练图像混合, 无需外部数据且计算开销极低. 实验表明, 该方法在多个鲁棒性基准测试上优于标准增强基线.

Robust Principal Component Completion

Yinjian Wang et al.

cs.CV cs.LG

本文提出了一种称为robust principal component completion (RPCC)的新框架, 用于处理稀疏前景遮挡低秩背景的场景. 该方法通过变分贝叶斯推断间接确定稀疏成分的支持集, 避免了传统RPCA方法所需的阈值后处理步骤. 实验表明, 该方法在合成数据、彩色视频前景提取和高光谱数据异常检测上表现良好.

Reinforcement learning for quantum processes with memory

Josep Lumbreras et al.

quant-ph cs.AI cs.LG

本文研究了具有记忆的量子过程中的强化学习问题. 作者提出了一个乐观的最大似然估计算法, 并证明了其累积遗憾的次线性上界. 该框架被应用于状态无关的自由能提取任务, 将数学上的遗憾与热力学耗散联系起来.

SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment

Sahibzada Adil Shahzad et al.

cs.CV cs.AI cs.LG cs.MM cs.SD

本文提出了一种自监督的音频-视觉深度伪造检测框架SAVe, 该框架完全在真实视频上进行训练. 它通过生成身份保持的区域感知自混合伪操作来模拟篡改痕迹, 并利用音频-视觉对齐组件检测唇语同步中的时间错位模式. 实验表明该方法在域内和跨数据集上均具有良好的性能.

FD$^2$: A Dedicated Framework for Fine-Grained Dataset Distillation

Hongxu Ma et al.

cs.CV cs.AI

本文提出了一个名为FD$^2$的专用框架，用于细粒度数据集蒸馏。该方法通过定位判别性区域和构建细粒度表征来改进现有解耦式蒸馏流程，在多个数据集上提升了性能。

Learning to Rank Caption Chains for Video-Text Alignment

Ansel Blume et al.

cs.CV cs.LG

本文针对视频-文本对齐任务, 提出了一种基于排序优化的方法, 以改进直接偏好优化(DPO)在视觉语言模型中的局限性. 通过生成有序的标题链进行训练, 该方法在生成长内容方面表现更优, 并强调了微调视觉编码器的重要性.

Factors Influencing the Quality of AI-Generated Code: A Synthesis of Empirical Evidence

Vehid Geruslu, Zulfiyya Aliyeva, Eray Tüzün

cs.SE cs.AI

本文通过系统文献综述, 综合分析了影响AI生成代码质量的因素. 研究发现, 代码质量受到提示设计, 任务规范和开发者专业知识等多方面因素的共同影响.

Photon: Speedup Volume Understanding with Efficient Multimodal Large Language Models

Chengyu Fang et al.

cs.CV cs.AI

本文提出了一种名为Photon的高效多模态大语言模型框架, 用于处理3D医学影像的视觉问答任务. 该框架通过指令条件化的token调度和代理梯度传播等技术, 自适应地减少计算token数量, 从而在降低计算成本的同时保持了模型性能.

PIDP-Attack: Combining Prompt Injection with Database Poisoning Attacks on Retrieval-Augmented Generation Systems

Haozhen Wang et al.

cs.CR cs.AI

本文提出了一种针对Retrieval-Augmented Generation (RAG) 系统的复合攻击方法PIDP-Attack, 该方法结合了prompt injection和database poisoning. 通过在推理时修改查询并向检索数据库注入少量有毒段落, 该方法能在无需预知用户查询的情况下有效操控LLM的响应. 实验表明, 该方法在多个基准数据集和LLM上均优于现有的PoisonedRAG攻击.

Knowledge-Guided Adversarial Training for Infrared Object Detection via Thermal Radiation Modeling

Shiji Zhao et al.

cs.CV cs.AI

本文提出了一种名为KGAT的知识引导对抗训练方法, 用于提升红外目标检测的鲁棒性. 该方法通过建模不同类别间的相对热辐射关系, 并将此物理知识嵌入对抗训练过程, 从而在多个数据集和模型上有效提升了对抗攻击和常见干扰下的性能.

Bilingual Text-to-Motion Generation: A New Benchmark and Baselines

Wanjiang Weng et al.

cs.CV cs.CL

本文提出了首个双语文本到动作生成基准 BiHumanML3D 以及一个简单的基线模型 Bilingual Motion Diffusion (BiMD). 该模型通过跨语言对齐策略提升了双语输入下的动作生成质量.

Probabilistic Concept Graph Reasoning for Multimodal Misinformation Detection

Ruichao Yang et al.

cs.CV cs.CL

本文提出了一个名为PCGR的可解释框架, 用于多模态虚假信息检测. 该框架通过构建基于概念的图并进行分层注意力推理来实现检测, 在实验中展现了良好的准确性和鲁棒性.

Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction

Jiahao Tian et al.

cs.CV cs.AI

本文提出了一种无需训练的层自适应框架FreeLOC, 用于解决基于短片段预训练的视频扩散模型生成长视频时出现的质量下降问题. 该方法通过视频相对位置重编码和分层稀疏注意力等技术, 有效缓解了帧级位置和上下文长度分布外问题.

A Wireless World Model for AI-Native 6G Networks

Ziqi Chen et al.

cs.NI cs.AI eess.SP

本文提出了一个用于6G网络的"Wireless World Model"框架, 通过融合多模态数据来预测无线信道的时空演化. 该模型在多个下游任务中表现出色, 但其核心方法并未显著突破现有AI与物理层融合的范式.

Fair regression under localized demographic parity constraints

Arthur Charpentier et al.

stat.ML cs.LG

本文提出了一种针对回归任务的 localized demographic parity 约束松弛方法. 该方法通过在一组有限的分位数或阈值上施加条件累积分布函数(CDF)约束, 在保证公平性的同时减少了对预测性能的影响.

WebTestBench: Evaluating Computer-Use Agents towards End-to-End Automated Web Testing

Fanheng Kong et al.

cs.SE cs.AI cs.CL cs.MA

本文提出了一个用于评估端到端自动化网页测试的基准WebTestBench, 并设计了一个基线框架WebTester. 研究揭示了当前基于LLM的计算机使用agent在测试完整性和长序列交互可靠性等方面存在显著不足.

An Image Dataset of Common Skin Diseases of Bangladesh and Benchmarking Performance with Machine Learning Models

Sazzad Hossain et al.

cs.CV cs.LG

本文构建了一个关于孟加拉国常见皮肤病的图像数据集, 并应用了多种机器学习模型进行基准测试. 该数据集包含五种疾病的图像, 旨在辅助基于图像的自动皮肤病诊断.

FluxEDA: A Unified Execution Infrastructure for Stateful Agentic EDA

Zhengrui Chen et al.

cs.AR cs.AI

本文提出了一个名为FluxEDA的统一执行基础设施, 用于支持有状态的、基于智能体的EDA自动化. 该框架通过托管网关和持久化后端实例, 使得上层agent能与EDA工具进行状态保持的交互, 并通过两个商业案例验证了其在多步骤分析与迭代优化中的有效性.

FEAST: Fully Connected Expressive Attention for Spatial Transcriptomics

Taejin Jeong et al.

cs.CV cs.AI

本文提出了一种基于attention的框架FEAST, 用于从组织病理学图像预测空间转录组学数据. 该方法将组织建模为fully connected graph, 并引入了negative-aware attention和off-grid sampling策略, 以更好地建模生物相互作用和形态学上下文. 实验表明其在基因表达预测任务上优于现有方法.

Activation Matters: Test-time Activated Negative Labels for OOD Detection with Vision-Language Models

Yabin Zhang et al.

cs.CV cs.AI cs.LG

本文提出了一种名为TANL的无需训练、测试高效的方法，用于提升视觉语言模型在OOD检测中的性能。该方法通过动态评估语料库数据集的激活水平，在测试过程中挖掘具有高激活响应的候选负标签，并利用激活感知的评分函数来强调激活更强的负标签。

Does Explanation Correctness Matter? Linking Computational XAI Evaluation to Human Understanding

Gregor Baer et al.

cs.HC cs.AI cs.LG

本文通过用户实验研究了XAI方法中解释正确性(explanation correctness)与人类理解之间的关系. 实验结果表明, 解释正确性的降低并不总是导致人类理解能力的线性下降, 并且完全正确的解释也不能保证所有人都能理解.

Hyperspectral Trajectory Image for Multi-Month Trajectory Anomaly Detection

Md Awsafur Rahman et al.

cs.CV cs.LG

本文提出了一种将轨迹异常检测转化为视觉问题的方法, 通过构建 Hyperspectral Trajectory Image (HTI) 来统一表示稠密和稀疏的 GPS 轨迹. 该方法使用一个称为 Cyclic Factorized Transformer (CFT) 的模型来处理这种图像表示, 在多个基准测试中取得了最佳性能.

Mitigating Evasion Attacks in Fog Computing Resource Provisioning Through Proactive Hardening

Younes Salmi, Hanna Bogucka

cs.CR cs.LG

本文研究了雾计算资源分配中基于k-means算法的模型在面对规避攻击时的脆弱性. 作者提出了一种利用对抗训练进行主动防御的方法, 实验表明该方法能有效维持系统的稳定性.

CSI-tuples-based 3D Channel Fingerprints Construction Assisted by MultiModal Learning

Chenjie Xie et al.

cs.IT cs.AI cs.ET cs.LG eess.SP

本文提出了一种模块化的多模态学习框架来构建用于低空通信的3D信道指纹(3D-CF). 该框架将3D-CF建模为基于Rician衰落信道的CSI-tuple集合, 并通过融合位置、通信测量和地理环境地图等多模态数据来直接估计目标信道信息. 数值结果表明, 该方法在多种通信场景下比现有算法具有更高的精度和更优的泛化能力.

Revealing the influence of participant failures on model quality in cross-silo Federated Learning

Fabian Stricker, David Bermbach, Christian Zirpins

cs.DC cs.AI

本文通过实验研究了跨机构联邦学习中参与者缺失对模型性能的影响. 实验考虑了数据偏斜、可用性模式和模型架构等因素, 发现数据偏斜会显著影响评估结果.

Practical Efficient Global Optimization is No-regret

Jingyi Wang et al.

stat.ML cs.LG

本文分析了在确定性高斯过程中添加小正数nugget以提升数值稳定性的practical EGO算法。首次证明了该算法在常用核函数下具有次线性累积遗憾上界，从而是一种no-regret算法。

AD-CARE: A Guideline-grounded, Modality-agnostic LLM Agent for Real-world Alzheimer's Disease Diagnosis with Multi-cohort Assessment, Fairness Analysis, and Reader Study

Wenlong Hou et al.

cs.MA cs.AI

本文提出了一个名为AD-CARE的、与模态无关的LLM智能体，用于阿尔茨海默病的诊断。该智能体能够处理不完整且异构的多模态数据，并生成符合临床指南的诊断报告。在多个队列的评估中，该方法展现了优于基线模型的诊断准确性和公平性。

Image Rotation Angle Estimation: Comparing Circular-Aware Methods

Maximilian Woehrer

cs.CV cs.AI eess.IV

本文系统比较了五种处理图像旋转角度估计中循环拓扑问题的 circular-aware 方法，包括直接回归、分类、单位向量回归、相位编码和循环高斯分布。通过迁移学习和在多种架构上的评估，研究发现概率方法（尤其是循环高斯分布）最具鲁棒性，而分类方法在匹配的骨干网络上精度最高但训练不稳定。最佳组合在 DRC-D 数据集上达到了约 1.23° 的平均绝对误差，并在 COCO 数据集上显著超越了先前的工作。

Integrating Deep RL and Bayesian Inference for ObjectNav in Mobile Robotics

João Castelo-Branco, José Santos-Victor, Alexandre Bernardino

cs.RO cs.AI cs.CV

本文提出了一种结合 Bayesian inference 与 deep reinforcement learning 的混合框架, 用于解决移动机器人在室内环境中的目标搜索问题. 该方法通过在线更新的空间 belief map 来指导 RL agent 的动作选择, 并在仿真环境中验证了其能提高成功率并减少搜索成本.

A Distribution-to-Distribution Neural Probabilistic Forecasting Framework for Dynamical Systems

Tianlin Yang, Hailiang Du, Louis Aslett

stat.ML cs.LG

本文提出了一种直接操作预测分布的分布到分布(D2D)神经概率预测框架。该框架通过核均值嵌入表示输入分布，并使用混合密度网络参数化输出预测分布，从而在统一的端到端神经架构中递归传播不确定性。在Lorenz63混沌系统上的实验表明，该模型能够捕捉非线性动力学下的分布演化，并产生有竞争力的概率预测。

Enabling ab initio geometry optimization of strongly correlated systems with transferable deep quantum Monte Carlo

P. Bernát Szabó, Zeno Schätzle, Frank Noé

physics.chem-ph cs.LG physics.comp-ph

本文提出了一种结合可迁移深度学习变分蒙特卡洛与高斯过程回归的框架，用于高效探索强关联系统的分子势能面。该方法能够以化学精度进行零样本几何优化和过渡态搜索。

A Causal Framework for Evaluating ICU Discharge Strategies

Sagar Nagaraj Simha et al.

stat.ME cs.AI cs.LG stat.ML

本文提出了一个用于评估ICU出院策略的因果推断框架, 并开发了相应的Python工具包. 作者将该方法应用于公开的ICU数据集MIMIC-IV, 展示了其在优化临床决策方面的潜力.

Shape and Substance: Dual-Layer Side-Channel Attacks on Local Vision-Language Models

Eyal Hadad, Mordechai Guri

cs.CR cs.AI cs.LG

本文针对采用Dynamic High-Resolution预处理（如AnyRes）的本地Vision-Language Models (VLMs)，揭示了一种基于算法侧信道的攻击方法。攻击者可以利用执行时间差异和Last-Level Cache (LLC)争用，推断输入图像的几何形状和语义内容，从而威胁数据隐私。

System Design for Maintaining Internal State Consistency in Long-Horizon Robotic Tabletop Games

Guangyu Zhao et al.

cs.RO cs.AI

本文针对长时程桌面游戏中的机器人系统, 提出了一个通过显式维护内部状态一致性来提升可靠性的集成架构. 该设计强调模块划分、状态监控与恢复机制, 并以麻将游戏为平台进行了实证评估.

Decidable By Construction: Design-Time Verification for Trustworthy AI

Houston Haynes

cs.PL cs.AI cs.LG cs.LO

本文提出了一种在AI模型设计阶段进行形式化验证的框架, 通过组合类型系统、程序超图和领域模型架构, 确保模型在数值稳定性、计算正确性和物理一致性等方面的属性. 该方法旨在消除传统可靠性方法带来的运行时开销.

Fast Iteration of Spaced k-mers

Lucas Czech

q-bio.GN cs.DS

本文提出了一种基于CPU位操作指令的高效提取spaced k-mer的方法, 相比现有方法实现更简单且速度提升可达一个数量级. 该方法使得在生物信息学高性能应用中利用spaced k-mer时不会造成显著的性能下降, 单核每秒可处理高达750MB的序列数据.

From Manipulation to Mistrust: Explaining Diverse Micro-Video Misinformation for Robust Debunking in the Wild

Zhi Zeng et al.

cs.SI cs.AI

本文提出了一个用于微视频虚假信息检测的大规模基准数据集 WildFakeBench 和一个名为 FakeAgent 的多智能体推理框架。该框架结合多模态理解和外部证据进行归因分析，在多种虚假信息类型上超越了现有方法。

The Symmetric Perceptron: a Teacher-Student Scenario

Giovanni Catania, Aurélien Decelle, Suhanee Korpe

cond-mat.dis-nn cond-mat.stat-mech cs.LG

本文研究了对称 binary Perceptron 的 teacher-student 框架，将其转化为一个 planted inference 问题。通过分析不同 potential 和分类规则下的相图，探讨了样本密度、超平面距离和温度等参数对学习过程的影响。

Temporally Decoupled Diffusion Planning for Autonomous Driving

Xiang Li et al.

cs.RO cs.AI

本文提出了一种用于自动驾驶运动规划的Temporally Decoupled Diffusion Model (TDDM). 该方法通过将轨迹划分为具有独立噪声水平的片段, 并引入新的层归一化与引导机制, 在nuPlan基准测试中取得了有竞争力的结果.

Residual-as-Teacher: Mitigating Bias Propagation in Student--Teacher Estimation

Kakei Yamamoto, Martin J. Wainwright

stat.ML cs.LG math.ST

本文提出了一种名为"残差作为教师"(Residual-as-Teacher, RaT)的新方法, 用于缓解学生-教师(Student-Teacher)估计框架中的偏差传播问题. 理论分析和实验表明, 相较于直接匹配教师输出的标准方法, RaT方法能有效降低教师偏差的影响, 并在核方法等场景下实现最优的收敛速率.

Knowledge-Guided Failure Prediction: Detecting When Object Detectors Miss Safety-Critical Objects

Jakob Paul Zimmermann, Gerrit Holzbach, David Lerch

cs.CV cs.LG

本文提出了一种基于知识引导的故障预测方法, 用于监测目标检测器在安全关键场景下的漏检故障. 该方法通过比对目标检测器内部特征与视觉基础模型嵌入之间的语义对齐度来识别异常, 在多个数据集上显著提升了召回率并超越了传统的OOD检测基线.

Unveiling the Resilience of LLM-Enhanced Search Engines against Black-Hat SEO Manipulation

Pei Chen et al.

cs.CR cs.IR

本文首次系统研究了针对LLM增强搜索引擎的SEO攻击。通过构建包含1000个恶意网站的基准测试，发现LLMSE能抵御大部分传统攻击，但对新型的LLMSEO攻击策略仍显脆弱。

Lightweight GenAI for Network Traffic Synthesis: Fidelity, Augmentation, and Classification

Giampaolo Bovenzi et al.

cs.NI cs.AI cs.LG

本文探讨了使用轻量级生成式人工智能(GenAI)模型进行网络流量生成(NTG)以辅助网络流量分类(NTC). 研究评估了包括transformer在内的多种架构在流量保真度、数据增强和计算效率方面的表现, 结果表明这些模型能以较低开销生成高质量合成数据.

Conformal Prediction for Nonparametric Instrumental Regression

Masahiro Kato

econ.EM cs.LG stat.AP stat.ME stat.ML

本文提出了一种在非参数工具变量回归(NPIV)中构建具有有限样本覆盖保证的分布无关预测区间的方法. 该方法基于conformal inference中的条件保证框架, 将条件覆盖重新表述为在一类工具变量偏移$\mathcal{F}$上的边际覆盖.

Challenges in Hyperspectral Imaging for Autonomous Driving: The HSI-Drive Case

Koldo Basterretxea, Jon Gutiérrez-Zaballa, Javier Echanobe

cs.CV cs.AI cs.LG eess.IV

本文分析了高光谱成像(HSI)在自动驾驶(AD)领域应用时面临的主要挑战, 包括非受控光照、大景深和动态场景等环境因素, 以及实时性和嵌入式平台算力限制等要求. 文章以HSI-Drive数据集为例, 探讨了为利用传感器获取的光谱与空间信息而开发定制视觉算法的几种技术路径.

NERO-Net: A Neuroevolutionary Approach for the Design of Adversarially Robust CNNs

Inês Valentim, Nuno Antunes, Nuno Lourenço

cs.NE cs.AI cs.LG

本文提出了一种名为NERO-Net的神经进化方法，用于设计具有内在对抗鲁棒性的卷积神经网络架构。该方法在进化过程中避免使用对抗训练，从而分离出架构本身对鲁棒性的影响，并通过适应度函数筛选出在标准训练下对干净样本和对抗样本均表现良好的网络结构。

CHIRP dataset: towards long-term, individual-level, behavioral monitoring of bird populations in the wild

Alex Hoi Hang Chan et al.

cs.CV cs.AI

本文介绍了一个用于野生鸟类长期行为监测的数据集CHIRP和一种新的个体重识别方法CORVID. 该工作旨在通过计算机视觉技术提取有生物学意义的个体动物测量数据, 并提供了面向实际应用的评估基准.

Synchronous Signal Temporal Logic for Decidable Verification of Cyber-Physical Systems

Partha Roop et al.

cs.FL cs.CL

本文提出了一种称为 Synchronous Signal Temporal Logic (SSTL) 的可判定逻辑片段，用于对信息物理系统进行静态验证。通过引入信号不变性假设并将其转换为 LTL_P，该方法能够利用现有模型检查器进行可判定的安全性验证。

Insights on back marking for the automated identification of animals

David Brunner et al.

cs.CV cs.LG

本文通过训练ResNet-50神经网络来识别猪的背部标记，分析了有效标记设计的关键因素。研究强调了在设计标记集时，需考虑运动模糊、多视角和遮挡等实际条件，以及数据增强策略的影响，为基于机器学习的个体监测提供了实用见解。

Are LLMs Overkill for Databases?: A Study on the Finiteness of SQL

Yue Li, David Mimno, Unso Eun Seo Jo

cs.DB cs.AI

本文通过分析376个数据库样本, 指出实际应用中自然语言问题对应的SQL查询在复杂度上是有限的, 其模板形式遵循类似Power Law的分布. 研究表明, 绝大多数SQL查询是可预测的, 暗示在数据库访问领域, 使用模板可能比大型语言模型(LLMs)更安全、经济且可审计.

TAAC: A gate into Trustable Audio Affective Computing

Xintao Hu, Feng-Qi Cui

cs.CR cs.AI

本文提出了一种名为TAAC的可信音频情感计算框架, 用于在保护用户敏感身份信息(ID)的同时进行基于音频的抑郁症自动检测. 该框架通过对抗损失子空间分解等方法, 实现了对抑郁特征与身份特征的分离与选择性加密, 并在实验中展现了良好的检测性能与隐私保护能力.

Cooperative Deep Reinforcement Learning for Fair RIS Allocation

Martin Mark Zan, Stefan Schwarz

cs.NI cs.LG cs.MA

本文提出了一种基于协同多智能体强化学习的公平性感知RIS分配框架, 用于解决多小区网络中RIS作为共享基础设施的动态分配问题. 该方法通过引入中央计算的公平性指标来指导基站调整竞价策略, 在提升整体吞吐量的同时改善了服务最差用户的速率.

Hierarchy-Guided Multimodal Representation Learning for Taxonomic Inference

Sk Miraj Ahmed et al.

cs.CV cs.LG

本文提出了两种层次感知的多模态学习方法, 用于生物分类学推断. 这些方法通过编码分类学的层次结构, 提升了在噪声和缺失模态下的鲁棒性与分类准确率.

The Rules-and-Facts Model for Simultaneous Generalization and Memorization in Neural Networks

Gabriele Farné, Fabrizio Boncoraglio, Lenka Zdeborová

stat.ML cond-mat.dis-nn cs.LG

本文提出了一个名为 Rules-and-Facts (RAF) 的可解模型，用于研究神经网络同时学习规则和记忆事实的能力。该模型结合了统计物理中的教师-学生框架和 Gardner 容量分析，分析了过参数化、正则化和核函数选择对这两个目标的影响。

DeepFAN, a transformer-based deep learning model for human-artificial intelligence collaborative assessment of incidental pulmonary nodules in CT scans: a multi-reader, multi-case trial

Zhenchen Zhu et al.

cs.CV cs.AI

本文提出了一种基于transformer的深度学习模型DeepFAN，用于CT扫描中偶发性肺结节的良恶性分类。该模型在超过一万个病理确认的结节上进行训练，并通过一项涉及12名放射科医生和400个病例的多中心临床试验进行验证。结果表明，DeepFAN能显著提升初级放射科医生的诊断性能，并改善诊断一致性。

Demographic Fairness in Multimodal LLMs: A Benchmark of Gender and Ethnicity Bias in Face Verification

Ünsal Öztürk, Hatef Otroshi Shahreza, Sébastien Marcel

cs.CV cs.AI

本文评估了九种开源多模态大语言模型(MLLMs)在面部验证任务中的性别与种族偏见。研究使用IJB-C和RFW基准，通过多种公平性指标量化了不同人口统计组间的性能差异，发现最准确的模型不一定最公平。

Visual or Textual: Effects of Explanation Format and Personal Characteristics on the Perception of Explanations in an Educational Recommender System

Qurat Ul Ain et al.

cs.HC cs.AI cs.CY

本文通过一项用户研究比较了教育推荐系统中视觉与文本解释格式的效果, 并分析了多种个人特征对感知的调节作用. 研究发现, 设计良好的视觉解释能普遍提升用户的控制感, 透明度, 信任和满意度.

LanteRn: Latent Visual Structured Reasoning

André G. Viveiros et al.

cs.CV cs.LG

本文提出了LanteRn框架, 允许大型多模态模型在推理过程中生成并关注紧凑的潜在视觉表示, 从而在潜在空间中进行视觉推理. 该方法在两个阶段的训练后, 在多个视觉基准测试上提升了视觉定位和细粒度推理能力.

RenoBench: A Citation Parsing Benchmark

Parth Sarin et al.

cs.DL cs.CL

本文提出了一个用于 citation parsing 的公开基准测试 RenoBench, 其数据集来源于多个出版平台的 PDF 文件, 包含多语言和多种出版物类型. 作者使用该基准评估了多种解析系统, 发现 fine-tuned 的语言模型表现最佳.

A Mentalistic Interface for Probing Folk-Psychological Attribution to Non-Humanoid Robots

Giulio Pisaneschi et al.

cs.RO cs.AI cs.HC

本文介绍了一个用于研究对非人形机器人进行意图状态归因的实验平台. 该平台整合了模拟机器人, 真实任务环境以及基于大语言模型的解释层, 能够以心理主义, 目的论或机械论等不同框架解释相同行为. 通过固定行为而改变解释框架, 该平台为研究语言和框架如何影响人们在机器人学中采取意向立场提供了受控方法.

Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming

Yunus Talha Erzurumlu, Jiyong Kwag, Alper Yilmaz

cs.CV cs.AI

本文提出了一种通过自回归缩放进行跨视角地理定位的新方法, 避免了对比学习和困难负样本挖掘. 该方法在一个新的现实基准测试中取得了先进的性能.

The Kitchen Loop: User-Spec-Driven Development for a Self-Evolving Codebase

Yannick Roy

cs.SE cs.AI

本文提出了一个名为Kitchen Loop的框架, 用于实现自主、自我演化的软件系统. 该框架基于统一的信任模型, 通过规范定义、大规模模拟用户测试、不可伪造的验证和持续的质量控制来确保代码库的可靠演化.

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Kaijin Chen et al.

cs.CV cs.AI

本文提出了一种用于动态视频世界模型的混合记忆范式, 旨在解决现有方法在处理移出视野的动态主体时出现的连贯性问题. 作者构建了首个大规模混合记忆视频数据集HM-World, 并提出了专门的记忆架构HyDRA, 通过时空相关性驱动的检索机制来保持隐藏主体的身份和运动连续性.

No Hard Negatives Required: Concept Centric Learning Leads to Compositionality without Degrading Zero-shot Capabilities of Contrastive Models

Hai X. Pham et al.

cs.CV cs.LG

本文针对对比式视觉-语言模型在组合性表示学习上的不足, 提出了两种简单的改进方法. 通过使用短概念中心标题片段和引入跨模态注意力池化, 该方法在保持模型零样本能力的同时提升了组合性任务的性能.

PixelSmile: Toward Fine-Grained Facial Expression Editing

Jiabin Hua et al.

cs.CV cs.AI

本文提出了一种用于细粒度面部表情编辑的扩散模型框架PixelSmile. 它通过构建带有连续情感标注的数据集和一种结合强度监督与对比学习的联合训练方法, 旨在解决表情语义纠缠的问题, 实现精确的线性控制并保持身份特征.

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

Xiaofeng Mao et al.

cs.CV cs.AI

本文提出了PackForcing框架, 通过一种新颖的三分区KV-cache策略来高效管理视频生成的历史上下文. 该方法将历史token分为Sink, Mid和Recent三类, 并对Mid token进行大幅度的时空压缩, 从而在单张GPU上生成长达2分钟的高质量视频.

Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

Zehao Wang et al.

cs.RO cs.AI cs.CV cs.LG cs.MA

本文提出了一个个性化的Vision-Language-Action驾驶框架Drive My Way (DMW), 旨在使自动驾驶系统能够适应不同驾驶员的长期习惯和实时语言指令. 通过在Bench2Drive基准上的闭环评估和用户研究, 证明了该方法在个性化驾驶行为生成方面的有效性.

Vega: Learning to Drive with Natural Language Instructions

Sicheng Zuo et al.

cs.CV cs.AI cs.RO

本文提出了一个名为 Vega 的 Vision-Language-World-Action 模型，用于根据自然语言指令进行自动驾驶规划。该方法结合了自回归和扩散范式来处理多模态输入并生成未来预测与轨迹，在构建的大规模数据集上验证了其指令跟随能力。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others