bluearXiv-ai - 2026-04-14

📄 所有论文 ↑ 回顶部

cs.LG

When Can You Poison Rewards? A Tight Characterization of Reward Poisoning in Linear MDPs ⭐ 精选

Jose Efraim Aguilar Escamilla et al.

cs.LG

本文针对线性 MDP 中的 reward poisoning 攻击，首次给出了攻击可行性的精确充要条件刻画。该刻画清晰地划分了易受攻击的 RL 实例与本质上鲁棒的实例，后者即使运行普通的非鲁棒 RL 算法，也需要极高的攻击成本才能被影响。理论结果不仅限于线性 MDP，通过将深度 RL 环境近似为线性 MDP，该框架能有效区分攻击可行性并高效攻击脆弱实例，展示了其理论和实践意义。

Transformers Learn Latent Mixture Models In-Context via Mirror Descent ⭐ 精选

Francesco D'Angelo, Nicolas Flammarion

cs.LG

本文为理解transformer的in-context learning机制提供了一个新的理论框架. 作者将序列建模中估计token重要性的任务形式化为一个学习隐式混合权重的问题, 并证明了transformer可以通过实现Mirror Descent算法来学习这些权重. 他们具体构造了一个三层transformer, 其精确实现了一步Mirror Descent, 并且该估计器是贝叶斯最优预测器的一阶近似. 实验验证了从头训练的transformer所学到的解与理论构造一致, 其注意力模式等均与理论预测相匹配.

The Diffusion-Attention Connection

Julio Candanedo

cs.LG

本文揭示了Transformer中的attention机制, diffusion-maps以及magnetic Laplacian在数学上的统一性, 指出它们都源于pre-softmax query-scores构建的单一Markov几何结构. 通过定义QK "bidivergence"及其指数归一化形式, 作者将这些方法联系起来, 并利用product of experts和Schrödinger-bridges框架将其组织为平衡态, 非平衡稳态及驱动动力学.

Fairboard: a quantitative framework for equity assessment of healthcare models

James K. Ruffle et al.

cs.LG cs.AI stat.AP stat.ME

本文提出了一个名为Fairboard的量化框架, 用于评估医疗AI模型的公平性. 作者通过对18个开源脑肿瘤分割模型进行多维度分析, 发现患者身份特征比模型选择更能解释性能差异, 并发布了开源工具以降低公平性监测的门槛.

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Pankayaraj Pathmanathan, Furong Huang

cs.LG cs.AI

本文研究了通过deliberative alignment方法提升语言模型安全性的效果，发现该方法仍可能保留基础模型的不安全行为。作者提出了一种基于BoN采样的方法，在潜在空间中将不安全行为归因于基础模型，从而在多个安全基准测试中有效降低攻击成功率，同时保持模型的有用性。

Human-like Working Memory Interference in Large Language Models

Hua-Dong Xiong et al.

cs.LG cs.AI

本文探讨了大型语言模型(LLMs)在解决工作记忆任务时表现出的局限性。研究发现，尽管Transformer架构理论上能完全访问上下文，但预训练的LLMs仍会表现出与人类相似的工作记忆干扰模式，其性能受记忆负载和刺激统计的影响。

Belief-State RWKV for Reinforcement Learning under Partial Observability

Liu Xiao

cs.LG

本文提出了一种基于RWKV循环序列模型的强化学习新框架, 将固定大小的循环状态显式解释为belief state, 而非不透明的隐藏向量. 该方法通过维护一个紧凑的、包含不确定性信息的belief state $b_t = (\mu_t, \Sigma_t)$来指导策略, 旨在解决部分可观测环境中传统固定状态策略无法有效存储置信度的问题. 初步实验表明, 该belief-state策略在整体性能上与最佳循环基线相当, 并在最困难的分布内任务和分布外噪声偏移下略有提升.

Active Inference with a Self-Prior in the Mirror-Mark Task

Dongmin Kim, Hoshinori Kanazawa, Yasuo Kuniyoshi

cs.LG cs.AI

本文提出了一种基于 active inference 的计算模型，用于解释镜像标记测试中的自发行为。模型通过一个称为 self-prior 的 Transformer 模块学习多感官经验密度，驱动智能体在没有外部奖励的情况下移除脸上的贴纸。

A Comparative Theoretical Analysis of Entropy Control Methods in Reinforcement Learning

Ming Lei, Christophe Baehr

cs.LG cs.AI

本文对强化学习中两种熵控制方法进行了理论比较分析. 通过建立关于softmax参数化下熵动态的统一框架, 揭示了传统熵正则化与基于协方差的方法在偏差和渐近性质上的差异.

STaR-DRO: Stateful Tsallis Reweighting for Group-Robust Structured Prediction

Samah Fodeh et al.

cs.LG cs.AI

本文提出了一个用于可控推理和鲁棒微调的两部分框架. 第一部分的提示策略旨在解决结构化生成中的格式漂移和标签歧义等问题. 第二部分提出的STaR-DRO方法结合了Tsallis mirror descent等技术, 用于处理结构化预测中的组异质性问题.

ExecTune: Effective Steering of Black-Box LLMs with Guide Models

Vijay Lingam et al.

cs.LG cs.AI

本文提出了一种名为ExecTune的训练方法，用于优化Guide-Core Policies (GCoP)系统。该方法通过结合多种技术来提升黑盒大语言模型执行策略的成功率和效率，在数学推理和代码生成任务上取得了更好的性能与更低的推理成本。

Efficient Matrix Implementation for Rotary Position Embedding

Chen Minqi et al.

cs.LG cs.CV

本文提出了一种名为RoME的矩阵化实现方法, 用于替代Transformer中广泛使用的Rotary Position Embedding (RoPE). 该方法通过统一的矩阵变换取代原有的向量操作, 简化了实现并提升了在专用硬件上的计算效率.

Explainable Human Activity Recognition: A Unified Review of Concepts and Mechanisms

Mainak Kundu et al.

cs.LG cs.AI

本文对可解释人类活动识别(XAI-HAR)领域进行了全面的综述。它提出了一个统一框架，区分了解释性的概念维度与算法机制，并基于此对现有方法进行了分类和评估。

NeuroFlow: Toward Unified Visual Encoding and Decoding from Neural Activity

Weijian Mai et al.

cs.LG

本文提出了一个名为NeuroFlow的统一框架, 用于联合建模视觉编码(从刺激预测神经活动)和解码(从神经活动重建刺激). 该框架通过一个共享的潜在空间, 将这两个通常分离的任务整合到一个可逆的流匹配模型中.

Below-ground Fungal Biodiversity Can be Monitored Using Self-Supervised Learning Satellite Features

Robin Young et al.

cs.LG cs.CE

本文提出了一种利用自监督学习处理卫星影像来预测地下真菌多样性的方法. 该方法能够以高空间分辨率生成连续的地图, 为大规模监测生态系统提供了新工具.

Relational Preference Encoding in Looped Transformer Internal States

Jan Kirin

cs.LG cs.AI

本文研究了循环Transformer内部状态如何编码人类偏好. 通过分析Ouro-2.6B-Thinking模型, 发现其偏好信息主要以关系性(relational)方式编码, 而非独立表示. 实验表明, 基于状态对差异的线性探针(linear probe)性能显著优于独立状态分类器.

Efficient Personalization of Generative User Interfaces

Yi-Hao Peng et al.

cs.LG cs.AI cs.CV cs.HC

本文研究了生成式用户界面(GUI)个性化中的偏好分歧问题. 通过分析设计师对600个生成UI的成对判断数据集, 发现设计师之间存在显著分歧. 作者提出了一种基于先前设计师偏好来表征新用户的样本高效个性化方法, 该方法在技术评估中优于预训练的UI评估器和更大的多模态模型.

SemEnrich: Self-Supervised Semantic Enrichment of Radiology Reports for Vision-Language Learning

Halil Ibrahim Gulluk, Olivier Gevaert

cs.LG

本文提出了一种名为 SemEnrich 的自监督语义增强方法, 用于扩充医学影像报告数据集. 该方法通过语义聚类报告句子, 并以自监督方式向训练集中的报告添加来自不同聚类的阳性/中性观察结果, 从而在多项指标上带来了性能提升. 此外, 作者还将语义聚类信息整合到 GRPO 训练的奖励设计中, 进一步提高了模型性能.

Improving Pediatric Emergency Department Triage with Modality Dropout in Late Fusion Multimodal EHR Models

Tyler Yang, Romal Mitr

cs.LG

本文提出了一种用于急诊分诊的 late-fusion 多模态模型，结合了结构化生命体征数据和非结构化临床文本。通过采用对称模态丢弃（modality dropout）技术进行训练，该模型在未见过的儿科患者队列上展现了更好的零样本泛化性能。

Last-Iterate Convergence of Randomized Kaczmarz and SGD with Greedy Step Size

Michał Dereziński, Xiaoyu Dong

cs.LG math.NA math.OC stat.ML

本文研究了在插值(interpolation)条件下, 使用贪婪步长(greedy step size)的随机梯度下降(SGD)在光滑二次函数上的最后迭代(last-iterate)收敛性. 通过引入随机收缩过程(stochastic contraction processes)并分析其对应的确定性特征值方程, 证明了迭代点以$O(1/t^{3/4})$的速率收敛, 改进了先前$O(1/t^{1/2})$的结果.

Regularized Entropy Information Adaptation with Temporal-Awareness Networks for Simultaneous Speech Translation

Joseph Liu et al.

cs.LG eess.AS

本文提出了两种改进REINA方法的时间感知策略, 用于平衡同声传译中的翻译质量与延迟. REINA-SAN使用监督对齐网络, REINA-TAN使用时序增强网络, 两者均提升了流式效率并解决了稳定性问题.

A Tale of Two Temperatures: Simple, Efficient, and Diverse Sampling from Diffusion Language Models

Theo X. Olausson et al.

cs.LG

本文针对 diffusion language models (dLLMs) 的采样问题，提出了一种通过使用 tempered (软化) 的置信度重掩码启发式方法来提升生成样本多样性的简单高效方案。该方法在保持计算效率的同时，缩小了与自回归采样在探索性指标上的差距。

K-STEMIT: Knowledge-Informed Spatio-Temporal Efficient Multi-Branch Graph Neural Network for Subsurface Stratigraphy Thickness Estimation from Radar Data

Zesheng Liu, Maryam Rahnemoonfar

cs.LG cs.CV

本文提出了一种结合物理知识的时空图神经网络K-STEMIT，用于从雷达数据估算冰层厚度。该方法融合了几何空间学习、时间卷积和气象模型数据，通过自适应特征融合提高了精度和效率。

A Hybrid Intelligent Framework for Uncertainty-Aware Condition Monitoring of Industrial Systems

Maryam Ahang et al.

cs.LG cs.AI eess.SP

本文提出了一种结合数据驱动学习与物理知识的混合智能框架, 用于工业系统的不确定性感知状态监测. 该框架在连续搅拌釜反应器基准测试中评估了特征级和模型级两种混合策略, 结果表明其能提升诊断准确性和不确定性管理能力.

Vestibular reservoir computing

Smita Deb et al.

cs.LG nlin.CD physics.data-an

本文提出了一种受生物前庭系统启发的物理 reservoir computing (RC) 方案. 为了克服硬件实现的复杂性, 作者引入了一种设计的非耦合拓扑结构, 并证明了其性能可与全耦合网络相媲美.

SLM Finetuning for Natural Language to Domain Specific Code Generation in Production

Renjini R. Nair et al.

cs.LG

本文通过微调Mistral等小型语言模型, 在自然语言到特定领域代码生成的任务上进行了评估. 实验表明, 微调后的小模型在测试集上取得了优于大模型的性能与延迟, 并能针对特定客户场景进行进一步微调而不损害通用性能.

From Recency Bias to Stable Convergence Block Kaczmarz Methods for Online Preference Learning in Matchmaking Applications

James Nguyen

cs.LG

本文提出了一种基于Kaczmarz方法的偏好学习算法族, 用于互惠推荐系统中的实时个性化匹配. 通过用Tikhonov正则化投影分母替代常见的L2归一化步骤, 解决了指数级近期偏差问题, 并进一步推导了处理完整滑动会话的块变体. 大规模模拟实验表明, 结合批量Gram矩阵求解和会话后L2归一化的块归一化Kaczmarz方法在偏好对齐和方向稳定性方面表现最佳.

Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning

Ziyue Liu et al.

cs.LG cs.AI

本文提出了Muon$^2$，一种通过自适应二阶矩预条件改进Muon优化器的方法。它减少了所需的Newton-Schulz迭代次数，从而在大型模型预训练中提升了效率。

LoDAdaC: a unified local training-based decentralized framework with adaptive gradients and compressed communication

Wei Liu et al.

cs.LG cs.DC math.OC

本文提出了一个名为LoDAdaC的去中心化分布式学习框架, 它结合了多轮本地训练, Adam类自适应梯度更新以及压缩通信. 该框架旨在降低通信开销并加速收敛, 并通过图像分类和语言模型训练实验验证了其有效性.

Towards Multi-Source Domain Generalization for Sleep Staging with Noisy Labels

Kening Wang et al.

cs.LG cs.CV cs.RO

本文提出了一个针对带噪声标签的多源域泛化睡眠分期问题的基准测试NL-DGSS, 并发现现有方法在域偏移和标签噪声共存时性能显著下降. 为了解决此问题, 作者提出了一个名为FF-TRUST的域不变多模态框架, 该框架结合了联合时频早期学习正则化(JTF-ELR)以提高鲁棒性.

Closed-Form Concept Erasure via Double Projections

Chi Zhang et al.

cs.LG cs.AI

本文提出了一种通过双投影实现闭式概念擦除的线性变换框架. 该方法无需训练, 通过两个解析步骤来移除模型表示中的特定概念, 旨在更安全、高效地控制生成模型.

Cross-Validated Cross-Channel Self-Attention and Denoising for Automatic Modulation Classification

Prakash Suman, Yanzhen Qu

cs.LG cs.SD

本文提出了一种用于自动调制分类的深度学习模型, 结合了跨通道自注意力机制和双路径深度残差收缩去噪块, 以在低信噪比条件下保持特征并提升分类鲁棒性. 在RML2018.01a数据集上的实验表明, 该模型在低至中等信噪比范围内相比基准模型取得了更高的分类准确率.

Graph-RHO: Critical-path-aware Heterogeneous Graph Network for Long-Horizon Flexible Job-Shop Scheduling

Yujie Li et al.

cs.LG cs.AI

本文提出了一种名为Graph-RHO的基于关键路径感知的异构图网络方法, 用于解决长周期柔性作业车间调度问题. 该方法通过结合拓扑感知的异构图编码, 关键路径感知的训练机制以及自适应阈值策略, 在标准测试集上展现了优越的求解质量和计算效率.

Transformers Learn the Optimal DDPM Denoiser for Multi-Token GMMs

Hongkang Li, Hancheng Min, Rene Vidal

cs.LG

本文分析了基于Transformer的扩散模型在训练中的收敛性. 针对多token高斯混合分布的数据, 理论证明了在满足一定条件下, 训练能够全局收敛到去噪目标的贝叶斯最优风险.

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

Zunhai Su et al.

cs.LG

本文对Transformer模型中的Attention Sink现象进行了首次系统性综述。文章围绕其基本利用、机制解释和缓解策略三个维度梳理了现有研究，旨在为理解和处理这一影响模型训练、推理及可解释性的问题提供指导。

End-to-end Automated Deep Neural Network Optimization for PPG-based Blood Pressure Estimation on Wearables

Francesco Carlucci et al.

cs.LG

本文提出了一种用于可穿戴设备上基于PPG的血压估计的自动化深度神经网络优化流程. 该流程结合了硬件感知的神经架构搜索、剪枝和混合精度搜索, 旨在生成适合超低功耗多核SoC的紧凑且准确的模型. 优化后的模型在保持或提升精度的同时, 显著减少了参数数量和内存占用, 并实现了较低的推理延迟和能耗.

Consensus-based Recursive Multi-Output Gaussian Process

Yogesh Prasanna Kumar Rao, Tamas Keviczky, Raj Thilak Rajan

cs.LG eess.SP

本文提出了一种基于共识的递归多输出高斯过程(CRMGP)框架, 用于分布式流式学习向量值场. 该方法结合了在共享基向量上的递归推断与邻居间的信息共识更新, 支持并行计算并保持输出间的相关性. 在合成风场和真实LiDAR数据上的实验验证了其预测性能.

A Temporally Augmented Graph Attention Network for Affordance Classification

Ami Chopra, Supriya Bordoloi, Shyamanta M. Hazarika

cs.LG cs.AI

本文提出了一种用于affordance分类的时间增强图注意力网络(EEG-tGAT). 该模型通过引入时间注意力和时间dropout机制, 改进了标准GATv2在处理序列数据时的性能.

Tracing the Thought of a Grandmaster-level Chess-Playing Transformer

Rui Lin et al.

cs.LG

本文提出了一种稀疏分解框架, 用于解释像 Leela Chess Zero (LC0) 这样的国际象棋 transformer 模型的内部计算过程. 该方法通过稀疏替换层分解模型的 MLP 和 attention 模块, 揭示了模型在战术推理中的并行行为模式.

Virtual Smart Metering in District Heating Networks via Heterogeneous Spatial-Temporal Graph Neural Networks

Keivan Faghih Niresi et al.

cs.LG cs.AI eess.SY

本文提出了一种用于区域供热网络虚拟智能热计量的异构时空图神经网络(HSTGNN). 该方法整合了网络固有的功能关系, 并使用专用分支分别学习流量, 温度和压力测量的图结构与时间动态, 从而实现对跨变量和空间相关性的联合建模. 此外, 研究还引入了一个公开的实验室数据集以支持后续研究.

Wolkowicz-Styan Upper Bound on the Hessian Eigenspectrum for Cross-Entropy Loss in Nonlinear Smooth Neural Networks

Yuto Omae et al.

cs.LG cs.AI cs.NE

本文针对非线性光滑多层神经网络, 利用Wolkowicz-Styan界推导了交叉熵损失函数Hessian矩阵最大特征值的一个闭形式上界. 该上界表示为仿射变换参数、隐藏层维度和训练样本正交性程度的函数.

Mild Over-Parameterization Benefits Asymmetric Tensor PCA

Shihong Ding, Weicheng Lin, Cong Fang

cs.LG

本文研究了Asymmetric Tensor PCA问题, 提出了一种基于矩阵参数化的方法, 在有限内存预算下使用随机梯度下降算法. 该方法通过一种新颖的三阶段交替更新算法, 以$d^{2}$的内存成本实现了学习, 并展示了适度过参数化如何改善样本效率和对问题结构的适应性.

Exploring the impact of fairness-aware criteria in AutoML

Joana Simões, João Correia

cs.LG cs.AI

本文研究了在构建完整机器学习管道的AutoML框架中, 将公平性指标直接集成到优化组件中的影响. 通过整合互补的公平性度量, 实验表明在牺牲一定预测性能的情况下, 可以显著提升公平性并简化最终解决方案.

A Multi-head Attention Fusion Network for Industrial Prognostics under Discrete Operational Conditions

Yuqi Su, Xiaolei Fang

cs.LG

本文提出了一种基于multi-head attention的融合神经网络, 用于在离散工况下进行工业设备寿命预测. 该方法通过BiLSTM和attention机制建模退化趋势、工况状态和噪声, 并在NASA数据集上验证了有效性.

The Phase Is the Gradient: Equilibrium Propagation for Frequency Learning in Kuramoto Networks

Mani Rash Ahmadi

cs.LG

本文证明了在稳定平衡点的Kuramoto耦合振子网络中，弱输出nudging引起的物理相位位移是损失函数关于自然频率的梯度。研究在稀疏分层架构上展示了频率学习优于耦合权重学习，并指出随机初始化下的高收敛失败率是损失景观的特性，可通过拓扑感知的谱初始化方法消除。

A Diffusion-Contrastive Graph Neural Network with Virtual Nodes for Wind Nowcasting in Unobserved Regions

Jie Shi, Siamak Mehrkanoon

cs.LG cs.AI

本文提出了一种结合虚拟节点与扩散对比机制的图神经网络框架, 用于在无观测站区域进行风速、阵风和风向的临近预报. 该方法利用高时间分辨率数据, 在荷兰地区的实验中显著降低了预报误差, 为数据稀疏区域的能源与灾害预警提供了新工具.

Integrating SAINT with Tree-Based Models: A Case Study in Employee Attrition Prediction

Adil Derrazi, Javad Pourmostafa Roshan Sharami

cs.LG

本文探讨了将SAINT模型生成的embeddings与tree-based模型结合以预测员工流失率的方法. 实验结果表明, 单独的tree-based模型在预测准确性和泛化能力上均优于SAINT模型及其混合方法.

WaterAdmin: Orchestrating Community Water Distribution Optimization via AI Agents

Jiaqi Wen et al.

cs.LG

本文提出了一个名为WaterAdmin的双层AI智能体框架, 用于优化社区供水系统的运行. 该框架上层利用LLM理解动态社区上下文, 下层采用基于优化的方法进行实时控制, 并在仿真平台上验证了其在保证供水可靠性和降低能耗方面的有效性.

Battery health prognosis using Physics-informed neural network with Quantum Feature mapping

Muhammad Imran Hossain et al.

cs.LG

本文提出了一种结合量子特征映射(QFM)与物理信息神经网络(PINN)的电池健康状态(SOH)预测方法QPINN. 该方法通过将传感器数据映射到高维Hilbert空间来捕捉复杂的退化模式, 并在多个数据集上取得了高精度.

Structural Gating and Effect-aligned Lag-resolved Temporal Causal Discovery Framework with Application to Heat-Pollution Extremes

Rui Chen, Jinsong Wu

cs.LG

本文提出了一个名为SGED-TCD的时态因果发现框架，用于从复杂的多元时间序列中推断具有明确滞后关系的因果图。该框架结合了结构门控、稳定性学习和扰动效应对齐等方法，以提高因果图的解释性和鲁棒性。作者将其应用于中国东部和北部复合型热浪-空气污染极端事件的案例研究，揭示了不同区域和季节的因果路径异质性。

Intent-aligned Formal Specification Synthesis via Traceable Refinement

Zhe Ye et al.

cs.LG cs.AI cs.LO cs.PL cs.SE

本文提出了一个名为VeriSpecGen的框架, 用于从自然语言生成与意图对齐的形式化规范. 该框架通过需求级归因和局部化修复, 在Lean中合成可追踪精化的规范, 并在基准测试中取得了显著提升.

Latent Instruction Representation Alignment: defending against jailbreaks, backdoors and undesired knowledge in LLMs

Eric Easley, Sebastian Farquhar

cs.LG

本文提出了一种名为Latent Instruction Representation Alignment (LIRA)的方法, 用于防御大语言模型(LLMs)中的越狱攻击、后门以及不良知识. 该方法通过改变模型对指令的解读方式, 并结合内部对抗训练来提升泛化能力, 在多个安全基准上取得了显著效果.

CARE-ECG: Causal Agent-based Reasoning for Explainable and Counterfactual ECG Interpretation

Elahe Khatibi et al.

cs.LG

本文提出了一种基于因果代理推理的心电图解释框架CARE-ECG。该框架通过将多导联ECG编码为时序生物标志物并进行因果图推断，以提升诊断准确性和解释的可信度。

Replicable Composition

Kiarash Banihashem et al.

cs.LG cs.DS

本文研究了replicable算法的组合问题, 证明了在非自适应组合下, 联合解决多个问题所需的样本量可以达到最优的$\widetilde{O}(\sum_i n_i)$量级. 文中还给出了自适应组合下的下界$\Omega(nk^2)$, 揭示了与自适应组合的二次分离.

Membership Inference Attacks Expose Participation Privacy in ECG Foundation Encoders

Ziyu Wang et al.

cs.LG

本文研究了针对自监督学习预训练的ECG foundation encoders的成员推理攻击(MIAs), 以评估其参与隐私风险. 通过在不同攻击者接口(如仅分数访问, 自适应学习攻击者, 嵌入访问)和跨数据集审计设置下进行评估, 发现参与信息泄露的程度因目标函数和数据集规模而异, 限制对原始信号或标签的访问不足以保证参与隐私.

Towards Green Wearable Computing: A Physics-Aware Spiking Neural Network for Energy-Efficient IMU-based Human Activity Recognition

Naichuan Zheng et al.

cs.LG cs.AI

本文提出了一种用于可穿戴设备上人体活动识别的节能型脉冲神经网络架构. 该方法通过引入物理约束和动态阈值神经元来提升能效与准确性.

Rethinking the Diffusion Model from a Langevin Perspective

Candi Zheng, Yuan Lan

cs.LG cs.AI cs.CV

本文从 Langevin 动力学的视角重新审视了 diffusion model, 旨在提供一个更简单、清晰和直观的理解框架. 它探讨了如何统一 ODE 和 SDE 方法, 并解释了 diffusion model 相对于普通 VAE 的理论优势及其与 flow matching 的等价性.

Exact Finite-Sample Variance Decomposition of Subagging: A Spectral Filtering Perspective

Ye Su et al.

cs.LG

本文从spectral filtering的视角分析了subagging方法，推导了其精确的有限样本方差分解。结果表明，subagging像一个低通滤波器，保留低阶信号并衰减高阶交互方差。作者据此提出了一种复杂度自适应的子采样算法。

CodeQuant: Unified Clustering and Quantization for Enhanced Outlier Smoothing in Low-Precision Mixture-of-Experts

Xiangyang Yin et al.

cs.LG

本文提出了一种名为CodeQuant的统一量化与聚类方案, 旨在缓解Mixture-of-Experts (MoE)模型在低精度量化中因激活值和权重中的异常值(Outliers)导致的精度下降问题. 该方法通过可学习的旋转(rotation)平滑激活异常值, 并将权重异常值吸收到微调后的聚类中心(cluster centroids)中, 从而在保持模型表达能力的同时降低量化误差, 并配合专门的GPU/CPU内核设计实现了显著的推理加速.

PepBenchmark: A Standardized Benchmark for Peptide Machine Learning

Jiahui Zhang et al.

cs.LG cs.AI

本文提出了一个名为PepBenchmark的标准化基准测试套件，用于肽类药物发现的机器学习研究。该基准整合了数据集、预处理流程和评估协议，旨在为该领域提供统一且可比较的研究基础。

IceCache: Memory-efficient KV-cache Management for Long-Sequence LLMs

Yuzhen Mao et al.

cs.LG cs.AI

本文提出了一种名为 IceCache 的 KV-cache 管理策略，用于缓解长序列大语言模型推理时的内存瓶颈。该方法结合了语义 token 聚类与 PagedAttention，通过更高效的 token 选择和内存组织来减少 GPU 内存占用，在保持高准确率的同时显著降低了延迟。

WaveMoE: A Wavelet-Enhanced Mixture-of-Experts Foundation Model for Time Series Forecasting

Shunyu Wu et al.

cs.LG cs.AI

本文提出了一种结合小波变换与Mixture-of-Experts架构的时间序列基础模型WaveMoE. 该模型通过双路径架构处理时域和小波域信息, 旨在提升对周期性等复杂模式的建模能力.

Topology-Aware PAC-Bayesian Generalization Analysis for Graph Neural Networks

Xinping Yi

cs.LG

本文为图卷积网络(GCNs)提出了一个拓扑感知的、基于范数的PAC-Bayesian泛化分析框架。该框架通过引入灵敏度矩阵，将图结构特性显式地嵌入到泛化误差界中，从而能够从空间聚合和谱滤波的视角统一审视GNN的泛化行为。

Heterogeneous Connectivity in Sparse Networks: Fan-in Profiles, Gradient Hierarchy, and Topological Equilibria

Nikodem Tomczak

cs.LG cs.NE

本文研究了在稀疏网络中引入确定性、非均匀的 fan-in profiles 来替代均匀连接的方法。实验表明，在分类任务中，这种异质性连接在 hub 神经元位置随机时并未带来精度优势，但会影响内部梯度分布，并可作为动态稀疏训练的有效初始化策略。

ReadMOF: Structure-Free Semantic Embeddings from Systematic MOF Nomenclature for Machine Learning

Kewei Zhu et al.

cs.LG cond-mat.mtrl-sci

本文提出了一种名为ReadMOF的机器学习框架, 它利用MOF的系统命名法, 通过预训练语言模型生成向量嵌入, 从而在不依赖原子坐标或连接图的情况下进行性质预测和材料信息学应用. 该方法为材料科学提供了一种可扩展且独立于几何结构的分子表示新途径.

WOODELF-HD: Efficient Background SHAP for High-Depth Decision Trees

Ron Wettenstein, Alexander Nadel, Udi Boker

cs.LG

本文提出了一种名为WoodelfHD的高效算法, 用于计算高深度决策树的精确Background SHAP值. 它通过一种类似Strassen的矩阵乘法方案, 将Woodelf方法中与树深度$D$相关的预处理复杂度从$O(3^D)$降低到$O(2^D)$, 并优化了缓存使用, 从而能够处理深度达21的树, 并获得了显著的加速.

Calibration Collapse Under Sycophancy Fine-Tuning: How Reward Hacking Breaks Uncertainty Quantification in LLMs

Subramanyam Sahoo

cs.LG cs.AI cs.CL

本文研究了在大型语言模型(LLM)的微调过程中，奖励信号对模型校准(calibration)的影响。实验发现，诱导模型迎合(sycophancy)的奖励优化会损害校准性能，即使经过后处理校正，这种影响依然存在。

Preventing Latent Rehearsal Decay in Online Continual SSL with SOLAR

Giacomo Cignoni et al.

cs.LG cs.CV

本文针对Online Continual Self-Supervised Learning (OCSSL)场景，研究了稳定性与可塑性之间的权衡。作者提出了Latent Rehearsal Decay假说，并设计了SOLAR方法，通过引入新的度量指标和损失函数来管理缓冲区，从而在多个视觉基准测试上取得了先进的性能。

Distributionally Robust PAC-Bayesian Control

Domagoj Herceg, Duarte Antunes

cs.LG eess.SY

本文提出了一种基于distributionally robust PAC-Bayesian框架的方法，用于认证学习型有限时域控制器的性能。该方法通过结合PAC-Bayes泛化理论和Wasserstein距离的分布鲁棒优化，处理了无界损失和训练与部署环境间的分布偏移问题。

MoEITS: A Green AI approach for simplifying MoE-LLMs

Luis Balderas, Miguel Lastra, José M. Benítez

cs.LG cs.AI cs.PF

本文提出了一种名为MoEITS的简化MoE-LLMs的算法，旨在降低模型的计算和内存开销。该算法基于标准化的信息论框架，并通过实验验证其在多个模型上的性能优于现有方法。

Mitigating Privacy Risk via Forget Set-Free Unlearning

Aviraj Newatia et al.

cs.LG

本文提出了一种称为"部分遗忘"的机器学习方法, 旨在移除模型对特定训练数据的影响, 而无需直接访问这些待遗忘的数据. 作者开发了一个名为Reload的框架, 通过梯度优化和结构化权重稀疏化来实现这一目标, 并在语言模型上展示了其效率.

SpectralLoRA: Is Low-Frequency Structure Sufficient for LoRA Adaptation? A Spectral Analysis of Weight Updates

Rajveer Singh

cs.LG cs.CL

本文通过2D DCT分析LoRA权重更新的谱结构, 发现其普遍由低频成分主导. 研究进一步表明, 仅保留部分频率系数即可在性能损失很小的情况下显著减少存储开销, 并揭示了模型与任务特性对谱压缩性的影响.

Energy-Efficient Federated Edge Learning For Small-Scale Datasets in Large IoT Networks

Haihui Xie et al.

cs.LG cs.IT

本文针对大规模IoT网络中资源受限和小规模数据集的问题, 提出了一个能效优化的联邦边缘学习框架. 通过推导期望学习损失并设计随机在线学习算法, 该方法在仿真和案例研究中展现了优于基准的性能.

Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents

Hao Wang et al.

cs.LG cs.AI cs.CL

本文提出了Skill-SD框架，通过将智能体自身轨迹总结为自然语言技能，为多轮交互任务中的LLM智能体提供动态的内部监督。该方法结合了重要性加权的反向KL损失来稳定训练，在多个基准测试上显著提升了强化学习基线的性能。

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Binbin Zheng et al.

cs.LG cs.AI cs.CL

本文提出了一种名为SCOPE的双路径自适应训练框架，用于增强大语言模型在策略强化学习中的蒸馏过程。该方法根据生成轨迹的正确性，自适应地应用不同的监督信号，以更有效地进行token级别的信用分配。实验表明，该方法在多个推理基准上超越了现有基线。

Communication-Efficient Gluon in Federated Learning

Xun Qian et al.

cs.LG

本文研究了联邦学习中的通信高效Gluon算法, 该算法是Muon型优化器在更一般的layer-wise $(L^0, L^1)$-smooth设定下的扩展. 通过结合SARAH的方差缩减技术和压缩算子, 在特定条件下实现了收敛并降低了通信成本.

Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning

Zikang Shan et al.

cs.LG cs.AI cs.CL

本文提出了一种用于大语言模型强化学习的新方法, 称为Generative Actor-Critic (GenAC). 该方法用一个生成式的评论家模型替代传统的判别式价值模型, 通过链式推理来估计价值, 旨在解决信用分配问题并提升下游强化学习性能.

INCRT: An Incremental Transformer That Determines Its Own Architecture

Giansalvo Cirrincione

cs.LG cs.NE

本文提出了一种名为INCRT的Transformer架构, 它能在训练过程中根据任务需求动态地增加或剪枝attention heads, 从而自动确定其结构. 该方法基于一个可在线计算的几何量来驱动结构变化, 无需验证阶段或手动调度, 最终得到的模型参数更少但性能相当.

PokeRL: Reinforcement Learning for Pokemon Red

Dheeraj Mudireddy, Sai Patibandla

cs.LG

本文提出了一个名为PokeRL的模块化系统，用于训练深度强化学习智能体在《精灵宝可梦：红》的早期游戏任务中取得进展。该系统通过环境包装器、防循环机制和分层奖励设计来应对游戏中的挑战。

Online Covariance Estimation in Averaged SGD: Improved Batch-Mean Rates and Minimax Optimality via Trajectory Regression

Yijin Ni, Xiaoming Huo

cs.LG math.ST

本文研究了Polyak-Ruppert平均随机梯度下降(SGD)的在线协方差矩阵估计问题。通过调整块增长参数，改进了现有在线批均值估计器的收敛速率。此外，论文建立了该问题在无Hessian信息下的极小极大最优速率，并提出了一个匹配该下界的轨迹回归估计器。

Slithering Through Gaps: Capturing Discrete Isolated Modes via Logistic Bridging

Pinaki Mohanty, Ruqi Zhang

cs.LG stat.CO stat.ML

本文提出了一种名为HiSS的新型采样算法, 用于处理高维离散分布中的多模态采样难题. 该方法通过引入连续辅助变量和logistic卷积核来改善采样器在崎岖能量景观中的混合效率.

Task2vec Readiness: Diagnostics for Federated Learning from Pre-Training Embeddings

Cristiano Mafuz, Rodrigo Silva

cs.LG cs.AI

本文提出了一种基于Task2vec嵌入的联邦学习准备度指标, 用于在训练前量化联邦中各客户端数据分布的对齐程度. 该方法通过计算嵌入的无监督度量(如内聚性和离散度)来预测联邦学习的最终性能, 并在多个数据集和异构性水平下验证了其与性能的相关性.

Query Lower Bounds for Diffusion Sampling

Zhiyang Xun, Eric Price

cs.LG cs.AI cs.DS math.ST stat.ML

本文研究了 diffusion models 采样过程中的信息论极限, 证明了对于$d$维分布, 在 score estimates 具有多项式精度$\varepsilon = d^{-O(1)}$的条件下, 任何采样算法都需要至少$\widetilde{\Omega}(\sqrt{d})$次自适应的 score queries. 这一结果从理论上解释了实践中多尺度噪声调度 (multiscale noise schedules) 的必要性.

DIB-OD: Preserving the Invariant Core for Robust Heterogeneous Graph Adaptation via Decoupled Information Bottleneck and Online Distillation

Yang Yan et al.

cs.LG cs.AI

本文提出了一种名为DIB-OD的框架，用于提升异构图神经网络预训练模型在跨域场景下的鲁棒性。该框架通过解耦信息瓶颈和在线蒸馏机制，旨在从数据中分离出与任务相关的稳定不变特征。

Learning to Adapt: In-Context Learning Beyond Stationarity

Zhen Qin, Jiachen Jiang, Zhihui Zhu

cs.LG math.OC

本文研究了Transformer模型在非平稳回归任务中的in-context learning能力。通过理论分析，证明了gated linear attention机制相比标准linear attention在适应时变函数关系上的优势。

UniPROT: Uniform Prototype Selection via Partial Optimal Transport with Submodular Guarantees

Prateek Chanda et al.

cs.LG

本文提出了UniPROT框架, 用于从源分布中选择具有均匀权重的原型样本来表示目标数据分布. 该框架通过将问题重新表述为基于部分最优传输(partial optimal transport)的子模目标函数, 并设计了一种具有理论近似保证的贪心算法. 实验表明, 该方法在类别不平衡的分类任务和大语言模型的微调与预训练场景中, 能有效提升少数类的代表性.

Hypergraph Neural Diffusion: A PDE-Inspired Framework for Hypergraph Message Passing

Zhiheng Zhou et al.

cs.LG

本文提出了一种基于偏微分方程的超图神经网络框架, 将非线性扩散方程与超图上的消息传递统一起来. 该框架通过超图梯度与散度算子构建连续时间扩散方程, 并利用可学习的系数矩阵控制扩散过程, 从而提供了更稳定和可解释的超图学习架构.

Continuous-time Online Learning via Mean-Field Neural Networks: Regret Analysis in Diffusion Environments

Erhan Bayraktar, Bingyan Han, Ziqing Zhang

cs.LG cs.AI math.OC

本文研究了在由未知系数的扩散过程生成数据的连续时间在线学习问题. 学习者使用一个两层神经网络, 并以非预期方式持续更新其参数. 分析表明, 在平均场极限下, 学习动态对应于一个适应于数据滤波的随机Wasserstein梯度流. 作者为平均场极限和有限粒子系统建立了遗憾界, 并进行了数值模拟.

Learning to Test: Physics-Informed Representation for Dynamical Instability Detection

Minxing Zheng et al.

cs.LG

本文提出了一种面向测试的学习框架, 用于在分布偏移下评估受微分-代数方程约束的随机动力系统的稳定性. 该方法通过训练一个物理信息化的隐表示, 将在线安全监测转化为隐空间中的分布假设检验, 避免了重复的高成本仿真.

Robust Adversarial Policy Optimization Under Dynamics Uncertainty

Mintae Kim, Koushil Sreenath

cs.LG cs.RO

本文提出了一种名为RAPO的鲁棒对抗策略优化框架, 用于处理强化学习中动态模型不确定性的问题. 该方法通过轨迹层面的对抗网络生成最坏情况rollout, 并结合模型层面的Boltzmann重加权采样来提升策略的鲁棒性和泛化能力.

Tracking High-order Evolutions via Cascading Low-rank Fitting

Zhao Song

cs.LG

本文提出了一种名为cascading low-rank fitting的方法，用于高效建模高阶扩散模型中的导数场。该方法通过共享基础函数并累加低秩分量来近似高阶导数，避免了为每个阶次单独实例化神经网络带来的参数线性增长。作者从理论上分析了导数矩阵的秩动态，并给出了一个高效计算该拟合的算法。

Flow-Controlled Scheduling for LLM Inference with Provable Stability Guarantees

Zhuolun Dong, Junyu Cao

cs.LG

本文提出了一种用于LLM推理的流控制调度框架, 通过控制prompt进入活跃集的速率来应对解码长度未知导致的KV cache内存溢出风险. 该工作推导了系统稳定的必要条件, 并证明了所提算法在特定条件下的稳定性保证.

K-Way Energy Probes for Metacognition Reduce to Softmax in Discriminative Predictive Coding Networks

Jon-Paul Cacioli

cs.LG cs.CL cs.NE

本文探讨了在 discriminative predictive coding networks 中, K-way energy probes 与 softmax 输出之间的关系. 通过理论分析和在 CIFAR-10 上的实验, 作者表明在标准设定下, 这种能量探测器的表现可近似约简为 softmax 的一个单调函数, 其性能始终低于 softmax.

Optimal Stability of KL Divergence under Gaussian Perturbations

Jialu Pan et al.

cs.LG cs.AI

本文研究了Kullback-Leibler (KL) divergence在Gaussian扰动下的稳定性问题。作者移除了所有分布必须为Gaussian的限制，在较弱的矩条件下，建立了任意分布与Gaussian族之间的sharp稳定性界，并证明了所得$\sqrt{\epsilon}$ rate的最优性。

RTMC: Step-Level Credit Assignment via Rollout Trees

Tao Wang, Suhang Zheng, Xiaoxiao Xu

cs.LG cs.AI

本文提出了一种名为 Rollout-Tree Monte Carlo (RTMC) 的优势估计方法，用于强化学习中的细粒度信用分配。该方法通过聚合共享相同状态的多个 rollout 的回报统计来估计每步的 Q 值，无需学习价值网络。在代码生成基准测试中，该方法相比基线取得了性能提升。

Rethinking Token-Level Credit Assignment in RLVR: A Polarity-Entropy Analysis

Yuhang He et al.

cs.LG cs.AI

本文通过分析 reward polarity 和 token entropy 来研究 RLVR 中的 credit assignment 问题. 基于理论分析和实验观察, 作者提出了 Entropy-Aware Policy Optimization (EAPO) 方法, 并在实验中验证了其有效性.

Pando: Do Interpretability Methods Work When Models Won't Explain Themselves?

Ziqian Zhong et al.

cs.LG cs.AI

本文提出了一个名为Pando的基准测试, 用于评估在模型自身不提供可靠解释的情况下, 各种可解释性方法的有效性. 研究发现, 当模型解释不可信时, 基于梯度的归因方法能提供有限的改进, 而其他一些方法则没有稳定收益.

A Faster Path to Continual Learning

Wei Li et al.

cs.LG cs.CV

本文提出了一种名为C-Flat Turbo的优化器，用于加速Continual Learning的训练过程。该方法通过识别并跳过冗余的梯度计算，在保持性能的同时显著降低了计算开销。

CausalGaze: Unveiling Hallucinations via Counterfactual Graph Intervention in Large Language Models

Linggang Kong et al.

cs.LG

本文提出了一种基于structural causal models (SCMs)的幻觉检测框架CausalGaze. 该方法通过对LLMs内部状态进行counterfactual intervention (反事实干预), 以区分因果推理路径与噪声, 在多个数据集上取得了优于现有方法的效果.

Bottleneck Tokens for Unified Multimodal Retrieval

Siyu Sun et al.

cs.LG cs.AI

本文提出了一种名为Bottleneck Tokens (BToks)的显式池化机制和一种名为Generative Information Condensation的训练目标, 用于改进仅解码器多模态大语言模型(MLLMs)的统一多模态检索任务. 该方法在MMEB-V2基准测试上取得了优于同类规模模型的性能.

Quantum-Gated Task-interaction Knowledge Distillation for Pre-trained Model-based Class-Incremental Learning

Linjie Li et al.

cs.LG cs.CV

本文提出了一种基于量子门控任务交互知识蒸馏的预训练模型类增量学习方法. 该方法通过量子门控机制动态建模任务间的依赖关系, 并以此指导知识蒸馏过程, 旨在缓解任务子空间纠缠导致的灾难性遗忘问题.

Distributionally Robust K-Means Clustering

Vikrant Malik, Taylan Kargin, Babak Hassibi

cs.LG stat.ML

本文提出了一种分布鲁棒的K-means聚类方法。该方法通过考虑在经验分布周围的一个Wasserstein球内的最坏情况期望损失来提升模型对异常值和分布偏移的鲁棒性。

Reducing Hallucination in Enterprise AI Workflows via Hybrid Utility Minimum Bayes Risk (HUMBR)

Chenhao Fang et al.

cs.LG cs.CR

本文提出了一个名为HUMBR的混合效用最小贝叶斯风险框架，用于减少企业AI工作流中的幻觉问题。该框架结合了语义嵌入相似性和词汇精确度来识别共识，并在公开基准和实际部署数据上进行了评估。

A Full Compression Pipeline for Green Federated Learning in Communication-Constrained Environments

Elouan Colybes, Shririn Salehi, Anke Schmeink

cs.LG cs.DC

本文提出了一种用于通信受限环境中联邦学习的完整压缩管道(FCP), 它集成了剪枝、量化和霍夫曼编码三种深度压缩技术。该框架旨在减少通信和计算开销, 在CIFAR-10数据集上的实验表明, 它能显著减小模型大小并加速训练, 同时保持可比的准确率。

Gradient-Variation Regret Bounds for Unconstrained Online Learning

Yuheng Zhao et al.

cs.LG stat.ML

本文针对无约束在线学习问题, 提出了无需预知比较器范数$\|u\|$、Lipschitz常数$G$或光滑性$L$等参数的算法. 该算法实现了与梯度变化$V_T(u)$相关的遗憾界, 并可高效计算.

Towards Situation-aware State Modeling for Air Traffic Flow Prediction

Anqi Liu et al.

cs.LG

本文提出了一种名为AeroSense的框架，用于终端空域的空中交通流量预测。该框架直接对微观的飞机状态集合进行建模，而非依赖传统的时间序列方法，并利用masked self-attention来捕捉飞机间的交互。实验表明，该方法在真实数据集上取得了先进的性能，并展现出更好的鲁棒性和可解释性。

ShapShift: Explaining Model Prediction Shifts with Subgroup Conditional Shapley Values

Tom Bewley et al.

cs.LG cs.AI stat.ML

本文提出了一种基于Shapley value的方法, 用于将模型预测分布的变化归因于数据子群条件概率的变化. 该方法通过决策树结构定义可解释的子群, 并提供了适用于单一决策树, 树集成以及模型无关场景的变体, 旨在为动态环境中的模型监控提供解释.

Unified Graph Prompt Learning via Low-Rank Graph Message Prompting

Beibei Wang et al.

cs.LG

本文提出了一种名为低秩图消息提示(LR-GMP)的统一图提示学习方法。该方法通过低秩表示对图数据进行提示，能够同时处理节点、边等多种图组件，在多个下游任务中展现了良好的泛化性和鲁棒性。

AbLWR:A Context-Aware Listwise Ranking Framework for Antibody-Antigen Binding Affinity Prediction via Positive-Unlabeled Learning

Fan Xu et al.

cs.LG cs.AI

本文提出了一种名为AbLWR的抗体-抗原结合亲和力预测框架，将回归任务重构为listwise ranking问题。该框架通过PU learning和multi-head self-attention来应对标签稀疏性和抗原变异性的挑战。

Mycelium-Index: A Streaming Approximate Nearest Neighbor Index with Myelial Edge Decay, Traffic-Driven Reinforcement, and Adaptive Living Hierarchy

Anton Pakhunov

cs.LG cs.IR

本文提出了一种受生物菌丝体启发的流式近似最近邻索引方法, 通过边缘衰减与流量驱动的强化等机制动态调整图结构. 实验表明该方法在保持高召回率的同时显著降低了内存占用并提升了查询吞吐量.

Sheaf Diffusion with Adaptive Local Structure for Spatio-Temporal Forecasting

Abeer Mostafa, Raneen Younis, Zahra Ahmadi

cs.LG

本文提出了一种基于层论（sheaf theory）的时空图神经网络ST-Sheaf GNN，用于时空预测任务。该方法通过学习动态的限制映射（restriction maps）来适应局部时空模式，从而提升了模型的表达能力并缓解了过平滑问题。

Representation-Aligned Multi-Scale Personalization for Federated Learning

Wenfei Liang, Wee Peng Tay

cs.LG

本文提出了一个名为FRAMP的联邦学习框架, 旨在为具有不同计算资源的客户端生成个性化的子模型. 该方法通过客户端描述符定制模型, 并协调局部表示以维持全局语义一致性, 在多个基准测试中展现了良好的适应性和泛化能力.

THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture

Augustus Haoyang Li

cs.LG cs.AI cs.LO

本文提出了一个名为THEIA的模块化神经架构, 用于端到端学习完整的Kleene三值逻辑(K3). 实验表明, 其模块化设计对于实现组合泛化至关重要, 而基线Transformer模型则采用了不同的表示策略.

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

Yang Liu et al.

cs.LG cs.AI cs.CL

本文提出了一种名为MEDS的记忆增强动态奖励塑形框架, 旨在解决强化学习中策略采样多样性下降的问题. 该方法通过利用历史行为信号进行奖励设计, 以减少重复的错误模式.

Beyond Fixed False Discovery Rates: Post-Hoc Conformal Selection with E-Variables

Meiyi Zhu, Osvaldo Simeone

cs.LG cs.IT stat.ML

本文提出了一种称为后验符合选择(PH-CS)的方法，用于在事后根据数据自适应地平衡选择集大小与错误发现率(FDR)。该方法基于符合e变量和e-Benjamini-Hochberg过程，能生成一系列候选集及其对应的错误发现比例估计，并提供了有限样本下的可靠性保证。实验表明，相比固定FDR水平的方法，PH-CS能更好地满足用户定义的效用约束。

Learning Discrete Diffusion of Graphs via Free-Energy Gradient Flows

Dario Rancati, Jan Maas, Francesco Locatello

cs.LG stat.ML

本文提出了一种在离散空间上学习扩散模型的计算方法, 通过引入一种在概率单纯形上的适当度量$W_K$, 将离散扩散路径解释为特定自由能泛函的梯度流. 该方法基于JKO格式的一阶最优性条件来恢复底层泛函, 优化一个简单的二次损失, 训练快速且无需样本轨迹. 在合成数据上的实验验证了该方法能恢复多种图类的底层泛函.

S$^3$: Structured Sparsity Specification

Ayoub Ghriss

cs.LG cs.AI

本文提出了一个名为S$^3$的代数框架，用于定义、组合和实现结构化的稀疏模式。该框架通过三个核心组件来指定稀疏性，并支持跨张量的协同剪枝，能够表达从细粒度到粗粒度的多种稀疏结构。

Active Bayesian Inference for Robust Control under Sensor False Data Injection Attacks

Axel Andersson, György Dán

cs.LG eess.SY

本文提出了一个用于网络物理系统在传感器遭受虚假数据注入攻击时进行鲁棒控制的主动贝叶斯推理框架. 该框架将感知管道建模为二分图, 结合异常检测器构建贝叶斯网络以推断受损传感器, 并通过主动探测策略选择性地禁用传感器以维持可靠的状态估计. 在倒立摆模型上的实验表明, 该方法优于多种基线.

Exact Certification of Neural Networks and Partition Aggregation Ensembles against Label Poisoning

Ajinkya Mohgaonkar et al.

cs.LG

本文提出了一种名为EnsembleCert的认证框架, 用于抵御标签翻转攻击(label-flipping attacks). 该框架通过利用基分类器的白盒知识, 为分区聚合集成模型提供了比黑盒方法更紧的鲁棒性保证.

Emulating Non-Differentiable Metrics via Knowledge-Guided Learning: Introducing the Minkowski Image Loss

Filippo Quarenghi, Ryan Cotsakis, Tom Beucler

cs.LG cs.AI

本文提出了一个通过知识引导学习来模拟非可微度量的框架, 以解决地球系统深度学习中的"可微性鸿沟"问题. 该框架包含解析近似和神经模拟两种方法, 并以Minkowski图像损失为例进行了验证.

Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration

Zhipeng Chen et al.

cs.LG cs.AI cs.CL

本文提出了一种名为NExt的方法, 用于加速大型语言模型(LLM)的强化学习可验证奖励(RLVR)训练过程. 该方法通过非线性建模低秩参数轨迹来减少训练步骤, 从而降低计算开销.

Learning How Much to Think: Difficulty-Aware Dynamic MoEs for Graph Node Classification

Jiajun Zhou et al.

cs.LG

本文提出了一种用于图节点分类的动态MoE框架D2MoE. 它通过基于预测熵的难度感知路由机制, 为不同难度的节点自适应分配专家计算资源, 在提升性能的同时显著降低了计算开销.

Structural Consequences of Policy-Based Interventions on the Global Supply Chain Network

Lea Karbevska et al.

cs.LG econ.GN physics.soc-ph

本文通过分析三种贸易政策对全球电动汽车供应链网络的影响, 探讨了政策干预的结构性后果. 研究发现, 不同政策对网络密度、全球化程度和产业脆弱性的影响存在显著差异.

CAGenMol: Condition-Aware Diffusion Language Model for Goal-Directed Molecular Generation

Yanting Li et al.

cs.LG q-bio.QM

本文提出了一个名为CAGenMol的条件感知离散扩散框架, 用于目标导向的分子生成. 该模型结合了离散扩散与强化学习, 以在满足多种异质约束的同时保持分子的化学有效性和多样性.

Quantization Dominates Rank Reduction for KV-Cache Compression

Samuel Salfati

cs.LG cs.AI cs.CL

本文比较了Transformer推理中压缩KV-cache的两种策略: rank reduction和quantization. 实验表明, 在相同存储预算下, quantization在多个模型上的性能均显著优于rank reduction. 作者将此归因于softmax attention机制下, 维度删除与量化噪声对注意力分数排序影响的根本性差异.

Not All Forgetting Is Equal: Architecture-Dependent Retention Dynamics in Fine-Tuned Image Classifiers

Miit Daga, Swarna Priya Ramu

cs.LG cs.AI

本文研究了在微调预训练图像分类器时, 不同网络架构(ResNet-18和DeiT-Small)对样本遗忘模式的差异性. 研究发现, 两种架构遗忘的样本集合重叠度很低, 且ViT的遗忘轨迹比CNN更具结构性, 而单个样本的遗忘在不同随机种子下具有随机性.

Generative Path-Finding Method for Wasserstein Gradient Flow

Chengyu Liu, Xiang Zhou

cs.LG math-ph

本文提出了一种用于计算Wasserstein梯度流(WGF)路径的生成式方法GenWGP. 该方法通过最小化一个源自大偏差理论的几何作用量路径损失, 学习一个从初始分布到平衡分布的生成流, 避免了传统方法中的维数灾难和时间步长约束问题.

Continuous Adversarial Flow Models

Shanchuan Lin et al.

cs.LG cs.CV

本文提出了一种用对抗性目标训练的连续时间流模型. 该方法通过引入一个学习的判别器来指导训练, 从而在经验上生成与目标数据分布更匹配的样本. 实验表明, 该方法能有效提升现有流匹配模型的生成质量.

TempusBench: An Evaluation Framework for Time-Series Forecasting

Denizalp Goktas et al.

cs.LG

本文介绍了TempusBench, 这是一个用于评估时间序列基础模型(TSFMs)的开源框架. 它通过提供新的数据集, 扩展的基准任务, 标准化的超参数调优流程和可视化工具, 旨在解决当前评估方法中存在的几个关键问题.

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

Haolin Li et al.

cs.LG cs.CL

本文提出了一种医学知识增强的数据合成与半监督强化学习框架MedSSR, 用于提升大语言模型在医学推理任务上的表现. 该方法通过合成可控分布的问题并利用模型自身生成伪标签进行训练, 在多个医学基准测试上取得了优于现有方法的结果.

bacpipe: a Python package to make bioacoustic deep learning models accessible

Vincent S. Kather et al.

cs.LG cs.AI

本文介绍了一个名为 bacpipe 的 Python 软件包，旨在通过图形和编程接口使生物声学深度学习模型更易于访问。该工具简化了在自定义音频数据集上使用先进模型的过程，并提供了评估和可视化功能。

Layerwise Dynamics for In-Context Classification in Transformers

Patrick Lutz et al.

cs.LG cs.AI

本文研究了Transformer在少样本上下文分类任务中的内部工作机制. 通过施加特征和标签的置换等变性, 作者识别出了一个具有高度结构化权重的模型, 并从中提取出层间的递归更新规则. 该规则揭示了注意力机制如何驱动训练点、标签和测试样本的耦合更新, 从而实现几何驱动的分类算法.

SCNO: Spiking Compositional Neural Operator -- Towards a Neuromorphic Foundation Model for Nuclear PDE Solving

Samrendra Roy et al.

cs.LG cs.AI

本文提出了一种名为SCNO的模块化架构, 结合了spiking和传统组件, 用于求解偏微分方程(PDE). 该方法通过组合预训练的小型算子块来求解未见过的耦合PDE, 在多个测试案例上取得了较低的误差, 并减少了可训练参数的数量.

Inter-Layer Hessian Analysis of Neural Networks with DAG Architectures

Maxim Bolshim, Alexander Kugaevskikh

cs.LG

本文提出了一种分析神经网络Hessian矩阵的层间结构分解方法. 该方法将总Hessian分解为Gauss-Newton分量和Tensor分量, 并引入了一系列诊断指标来量化层间的曲率相互作用.

Towards Autonomous Mechanistic Reasoning in Virtual Cells

Yunhui Jang et al.

cs.LG cs.AI

本文提出了一个用于虚拟细胞(virtual cells)的结构化解释形式, 将生物学推理表示为机制行动图(mechanistic action graphs), 并在此基础上构建了VCR-Agent多智能体框架来自主生成和验证机制推理. 该工作还发布了VC-TRACES数据集, 并展示了使用这些解释进行训练能提高事实精度并为下游任务提供更有效的监督信号.

Fairness is Not Flat: Geometric Phase Transitions Against Shortcut Learning

Nicolas Rodriguez-Alvarez, Fernando Rodriguez-Merino

cs.LG cs.AI

本文提出了一种几何先验方法来缓解深度神经网络中的捷径学习问题. 通过使用一个零隐藏层的拓扑审计器, 该方法能够数学上隔离主导梯度的特征, 并观察到一个容量相变现象.

KL Divergence Between Gaussians: A Step-by-Step Derivation for the Variational Autoencoder Objective

Andrés Muñoz, Rodrigo Ramele

cs.LG

本文详细推导了高斯分布之间Kullback-Leibler (KL) divergence的闭式解，这是Variational Autoencoders (VAEs)中一个关键的数学基础。推导从连续随机变量的定义出发，涵盖了单变量及对角协方差矩阵的多变量情形，并讨论了结果中各项对模型训练的影响。

Autonomous Diffractometry Enabled by Visual Reinforcement Learning

J. Oppliger et al.

cs.LG cond-mat.mtrl-sci cs.CV

本文提出了一种基于无模型强化学习的自主晶体对准系统. 该系统通过智能体(agent)直接从劳厄衍射图案中学习识别并导航至高对称性取向, 无需依赖晶体学知识或人工监督.

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

Fei Tang et al.

cs.LG cs.AI cs.CL cs.CV

本文介绍了一个名为ClawGUI的开源框架, 用于训练、评估和部署GUI agents. 该框架整合了强化学习训练、标准化评估以及跨平台部署等功能, 并在实验中展示了其有效性.

A Mechanistic Analysis of Looped Reasoning Language Models

Hugh Blayney et al.

cs.LG cs.AI

本文对循环推理语言模型进行了机制分析, 重点比较了其与标准前馈模型在推理阶段上的差异. 研究发现, 循环块中的层会收敛到不同的不动点, 导致注意力行为稳定化, 并重复学习与前馈模型相似的推理阶段.

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

Mihir Prabhudesai et al.

cs.LG cs.AI cs.CV cs.RO

本文提出了一种利用物理模拟器生成合成数据来训练大型语言模型进行物理推理的方法. 该方法通过强化学习在合成数据上训练模型, 并在国际物理奥林匹克竞赛(IPhO)等真实基准上实现了性能提升.

Physics-Informed State Space Models for Reliable Solar Irradiance Forecasting in Off-Grid Systems

Mohammed Ezzaldin Babiker Abdullah

cs.LG cs.AI eess.SY

本文提出了一种用于离网系统太阳能辐照度预测的物理信息状态空间模型. 该方法通过将气象和几何变量映射到Koopman线性化的流形, 并结合光谱校准与热力学门控机制, 以强制模型遵循天体几何约束, 从而消除了夜间发电预测等物理异常.

cs.AI

Agentic Exploration of PDE Spaces using Latent Foundation Models for Parameterized Simulations ⭐ 精选

Abhijeet Vishwasrao et al.

cs.AI cs.CV

本文提出了一种结合 multi-agent LLMs 与 latent foundation models (LFMs) 的新框架，用于自动化探索由 PDE 控制的物理系统。该框架利用 LFM 作为按需替代模拟器，学习流场的紧凑解耦 latent 表示，从而能以极低成本查询任意参数配置。通过一个分层 agent 架构，系统实现了假设、实验、分析和验证的闭环自主探索，并在圆柱绕流问题中自动评估了超过 1,600 个参数对，发现了不同的标度律。这项工作为 PDE 系统的自动化科学发现建立了一个通用范式，与关键词“agent”高度契合。

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Jon M Laurent et al.

cs.AI cs.CL cs.LG

本文介绍了LABBench2, 这是一个用于评估AI系统在生物学研究中执行实际任务能力的改进基准。它包含近1900个任务, 相比前代版本在真实性和难度上均有提升, 测试表明当前前沿模型在该基准上的表现仍有较大改进空间。

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Fuh-Hwa Franklin Liu, Su-Chuan Shih

cs.AI math.OC

本文提出了一种基于线性规划的悲观虚拟差距分析(VGA)模型, 用于处理包含基数和序数数据的多准则评估问题. 该方法通过两步流程, 从悲观视角评估并排序方案, 旨在提高决策支持系统中的评估效率和可靠性.

Seven simple steps for log analysis in AI systems

Magda Dubois et al.

cs.AI cs.CL cs.LG

本文提出了一个用于AI系统日志分析的标准化流程, 并提供了具体的代码库实现和操作指南. 该框架旨在帮助研究人员进行严谨且可复现的日志分析.

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

Jiachen Zhu et al.

cs.AI cs.LG

本文提出了"屏幕图灵测试"的概念, 用于评估移动GUI代理的拟人化程度. 作者构建了一个包含移动触摸动态的高保真数据集和相应的基准测试, 并探讨了在保持任务效用的同时提升代理行为拟人化水平的方法.

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers

Bibin Wilson

cs.AI

本文提出了一种用于内存受限微控制器上持续目标检测的自适应分层压缩方法. 该方法通过元学习框架, 结合分层压缩和双内存架构, 在有限的内存预算下进行特征回放, 以缓解灾难性遗忘.

Explainable Planning for Hybrid Systems

Mir Md Sajid Sarwar

cs.AI

本文探讨了混合系统的可解释人工智能规划(XAIP), 旨在为基于AI的复杂系统生成解释. 研究针对混合系统, 这类系统能更紧密地刻画现实世界问题.

Help Without Being Asked: A Deployed Proactive Agent System for On-Call Support with Continuous Self-Improvement

Fengrui Liu, Xiao He, Tieying Zhang

cs.AI cs.SE

本文介绍了一个名为Vigil的proactive agent系统, 该系统旨在为云服务平台中的on-call支持提供全生命周期的辅助. 与仅在初期与客户交互的reactive agent不同, Vigil能在问题升级至人工支持后持续介入, 主动提供帮助并具备从已解决案例中持续自我改进的机制.

OOWM: Structuring Embodied Reasoning and Planning via Object-Oriented Programmatic World Modeling

Hongyu Chen, Liang Lin, Guangrun Wang

cs.AI cs.LG

本文提出了一种名为OOWM(Object-Oriented World Modeling)的框架, 用于结构化具身推理与规划. 它将世界模型定义为显式的符号元组$W = \langle S, T \rangle$, 并利用UML(Unified Modeling Language)中的类图与活动图来实例化状态抽象与控制策略. 通过结合监督微调与GRPO(Group Relative Policy Optimization)的训练方法, 该框架在MRoom-30k基准测试上展现出了优于非结构化文本基线的性能.

OpeFlo: Automated UX Evaluation via Simulated Human Web Interaction with GUI Grounding

Wee Joe Tan et al.

cs.AI cs.CY cs.HC

本文提出了一个名为OpenFlo的自动化用户体验评估代理，它通过模拟人类在真实网页上的交互行为来生成标准化的可用性报告。该系统结合了多模态界面理解与模拟用户行为，旨在为网页开发提供可扩展的数据驱动测试方案。

Factorizing formal contexts from closures of necessity operators

Roberto G. Aragón, Jesús Medina, Eloísa Ramírez-Poussa

cs.AI cs.LO

本文分析了基于possibility theory operators从formal context中获取independent subcontexts的factorization方法。研究了factorization产生的集合对的性质，并将其扩展到了fuzzy framework中。

MobiFlow: Real-World Mobile Agent Benchmarking through Trajectory Fusion

Yunfei Feng et al.

cs.AI cs.LG cs.SE

本文提出了一个名为 MobiFlow 的移动智能体评估框架，用于解决现有基准测试与真实第三方应用场景不匹配的问题。该框架基于多轨迹融合的图构建算法，能有效压缩状态空间并支持动态交互，在涵盖20个应用的240个任务上展现了与人类评估更高的一致性。

Persistent Identity in AI Agents: A Multi-Anchor Architecture for Resilient Memory and Continuity

Prahlad G. Menon

cs.AI cs.ET cs.LG

本文针对AI智能体因上下文窗口溢出和对话历史摘要化导致的身份连续性丧失问题, 提出了一种名为this http URL的多锚点架构. 该架构通过分离的身份文件和记忆日志组件, 以及一种混合RAG+RLM检索系统, 旨在实现更具韧性的持久身份.

DeepReviewer 2.0: A Traceable Agentic System for Auditable Scientific Peer Review

Yixuan Weng et al.

cs.AI cs.CL cs.CY

本文提出了DeepReviewer 2.0，一个可追溯的智能代理系统，用于生成可审计的科学同行评审报告。该系统通过构建稿件声明-证据-风险账本和验证议程，在满足可追溯性和覆盖度要求后输出包含锚定注释和可执行后续行动的评审包。实验表明，该系统在未微调的大模型上运行，在覆盖主要问题和盲审比较中优于其他自动系统及人类评审委员会。

Spatial Competence Benchmark

Jash Vira, Ashley Harris

cs.AI cs.LG

本文提出了一个用于评估大模型空间能力的基准测试SCBench, 它通过分层任务和可执行输出验证来超越现有评估方法. 实验表明, 前沿模型在该基准上的表现随任务难度增加而下降, 且其错误多源于违反全局约束的局部合理几何.

DERM-3R: A Resource-Efficient Multimodal Agents Framework for Dermatologic Diagnosis and Treatment in Real-World Clinical Settings

Ziwen Chen et al.

cs.AI cs.MA

本文提出了一个用于皮肤病诊断与治疗的多模态智能体框架DERM-3R, 旨在在有限数据和计算资源下模拟中医诊疗流程. 该框架通过三个协作智能体分别处理病灶识别, 表征与推理, 并在小规模真实病例数据上验证了其有效性.

CID-TKG: Collaborative Historical Invariance and Evolutionary Dynamics Learning for Temporal Knowledge Graph Reasoning

Shuai-Long Lei et al.

cs.AI cs.CL

本文提出了一种名为CID-TKG的协作学习框架，用于时序知识图谱推理。该框架通过构建历史不变性图和演化动态图来分别捕捉长期结构规律和短期时序变化，并利用对比学习对齐不同视图的表示。实验表明该方法在推断任务上取得了先进的性能。

Hubble: An LLM-Driven Agentic Framework for Safe and Automated Alpha Factor Discovery

Runze Shi et al.

cs.AI cs.CE

本文提出了一个名为Hubble的框架, 它利用LLM作为智能搜索启发式方法, 在一个受约束的领域特定操作符语言和AST执行沙箱内, 进行自动化alpha因子挖掘. 该框架通过一个包含RankIC, 信息比率和换手率的统计流程来评估候选因子, 并通过进化反馈机制让LLM迭代优化, 在实验中展示了良好的复合分数和计算稳定性.

From Scalars to Tensors: Declared Losses Recover Epistemic Distinctions That Neutrosophic Scalars Cannot Express

Tony Mason

cs.AI cs.SE

本文扩展了基于neutrosophic T/I/F标量对LLM进行评估的工作。研究发现，在更广泛的模型家族中，“超真”现象普遍存在，同时指出了标量表示在区分不同认知状态（如悖论与无知）上的根本局限性。作者提出，通过引入结构化描述的“声明损失”来构建张量输出，可以更准确地刻画LLM的认知能力。

LLMs for Text-Based Exploration and Navigation Under Partial Observability

Stephan Sandfuchs, Maximilian Melchert, Jörg Frochte

cs.AI cs.LG

本文评估了多种大型语言模型(LLMs)在部分可观测的文本网格世界中进行探索和导航的能力。实验表明，经过推理调优的模型在导航任务上表现可靠，但其效率仍不及最优路径，而训练方式和测试时推理能力比模型参数量更能预测其控制性能。

Evaluating Reliability Gaps in Large Language Model Safety via Repeated Prompt Sampling

Keita Broadwater

cs.AI cs.SE

本文提出了Accelerated Prompt Stress Testing (APST)框架, 用于评估大语言模型在重复相同提示下的安全性与可靠性. 该方法通过统计建模(如Bernoulli分布)来量化每次推理的失败概率, 揭示了在深度测试下模型表现出的显著可靠性差异.

Unifying Ontology Construction and Semantic Alignment for Deterministic Enterprise Reasoning at Scale

Hongyin Zhu

cs.AI cs.CL

本文提出了一个名为large ontology model (LOM)的统一框架, 用于企业级数据的确定性推理. 该框架通过一个construct-align-reason (CAR)流程, 将本体构建, 语义对齐和逻辑推理整合到一个端到端架构中, 并在真实数据集上取得了优于现有大型语言模型的效果.

General-purpose LLMs as Models of Human Driver Behavior: The Case of Simplified Merging

Samir H.A. Mohammad, Wouter Mooi, Arkady Zgonnikov

cs.AI cs.RO

本文探讨了将通用大语言模型(LLM)作为人类驾驶员行为模型的可行性, 在一个简化的并道场景中进行了测试. 研究发现LLM能复现人类的一些操作模式, 但在响应动态速度线索和安全表现上存在不一致, 且提示词的作用具有模型特异性.

Beyond Theory of Mind in Robotics

Malte F. Jung

cs.AI cs.HC

本文批判性地分析了将 Theory of Mind (ToM) 作为机器人社会交互主导范式的局限性. 作者借鉴 ethnomethodology 等理论, 提出社会意义产生于智能体间的实时协调, 并据此为机器人设计提供了新的方向.

The Geometry of Knowing: From Possibilistic Ignorance to Probabilistic Certainty -- A Measure-Theoretic Framework for Epistemic Convergence

Moriba Kemessia Jah

cs.AI cs.IT math.ST

本文建立了一个测度论框架, 用于描述不完全知识的可能性表示如何收缩为内在随机性的概率表示. 它定义了认知收缩的动态过程, 并证明了在特定条件下 Choquet 积分会收敛到 Lebesgue 积分.

AdaQE-CG: Adaptive Query Expansion for Web-Scale Generative AI Model and Data Card Generation

Haoxuan Zhang et al.

cs.AI cs.IR

本文提出了一个用于生成式AI模型和数据卡片文档的自适应查询扩展框架AdaQE-CG，以解决现有自动化方法在模板僵化、信息稀缺和缺乏基准方面的挑战。该框架通过上下文感知查询扩展和跨卡片知识补全来提升文档质量，并引入了一个新的专家标注基准进行评估。

Competing with AI Scientists: Agent-Driven Approach to Astrophysics Research

Thomas Borrett et al.

cs.AI

本文提出了一种基于多智能体系统的参数推断流程构建方法, 并将其应用于天体物理学的弱引力透镜宇宙学参数推断挑战赛. 该方法通过智能体协作生成想法、编写代码并迭代优化流程, 在结合人工干预后取得了竞赛第一名, 展示了半自主智能体系统在科学研究中的潜力.

How LLMs Might Think

Joseph Gottlieb, Ethan Kemp, Matthew Trager

cs.AI cs.CL

本文探讨了大型语言模型(LLMs)是否具备思考能力的问题。作者反驳了基于理性论证的否定观点，并提出了LLMs可能仅进行非理性、联想式思考的可能性。

Belief-Aware VLM Model for Human-like Reasoning

Anshul Nayak, Shahil Shaik, Yue Wang

cs.AI cs.CV

本文提出了一个belief-aware VLM框架, 它通过结合基于检索的记忆和强化学习来近似belief, 以增强模型在推理任务中的表现. 该方法在VQA数据集上取得了优于zero-shot基线的结果.

Tipiano: Cascaded Piano Hand Motion Synthesis via Fingertip Priors

Joonhyung Bae et al.

cs.AI cs.CV

本文提出了一种名为Tipiano的级联框架, 用于合成弹钢琴时的手部运动. 该方法利用指尖位置作为先验, 通过四个阶段生成精确且自然的运动序列, 并在一个包含专家标注指法的数据集上进行了验证.

The Myth of Expert Specialization in MoEs: Why Routing Reflects Geometry, Not Necessarily Domain Expertise

Xi Wang, Soufiane Hayou, Eric Nalisnick

cs.AI

本文探讨了MoE模型中"专家专业化"的机制, 指出路由选择主要反映了隐藏状态空间的几何结构, 而非真正的领域专业知识. 研究发现, 预训练MoE中的专业化模式难以进行直观的人类解释.

Pioneer Agent: Continual Improvement of Small Language Models in Production

Dhruv Atreja et al.

cs.AI cs.CL cs.LG cs.MA

本文介绍了一个名为 Pioneer Agent 的自动化系统，用于持续改进生产环境中的小型语言模型。该系统通过自动化数据获取、评估构建和迭代训练等流程，在多个任务上提升了模型性能。

Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning

Siyuan Xu et al.

cs.AI

本文提出了一种名为COVERT的两阶段方法, 用于合成可控且可验证的工具使用数据, 以支持智能体(agent)的强化学习. 该方法通过生成可靠的基础轨迹并进行保留"oracle"的增强, 构建了支持在线交互和奖励计算的环境, 实验表明其能有效提升模型在工具调用任务上的鲁棒性.

EE-MCP: Self-Evolving MCP-GUI Agents via Automated Environment Generation and Experience Learning

Tiantian He et al.

cs.AI

本文提出了一个名为EE-MCP的自进化框架, 用于提升结合GUI交互与MCP API调用的智能体性能. 该框架通过自动环境生成、轨迹收集与经验学习, 使智能体能够在不同软件应用中自主改进其混合策略.

COMPOSITE-Stem

Kyle Waters et al.

cs.AI cs.CL cs.LG

本文介绍了一个名为COMPOSITE-STEM的基准测试，它包含多个STEM领域的专家编写任务，并采用了一种结合精确匹配和基于LLM的评估协议。该基准旨在更灵活地评估AI智能体在科学发现中的能力，测试结果显示当前前沿模型的表现仍有很大提升空间。

Steered LLM Activations are Non-Surjective

Aayush Mishra, Daniel Khashabi, Anqi Liu

cs.AI cs.LG

本文研究了在LLM中通过修改activation来引导模型输出的技术, 并探讨了这种"steered activation"是否能够通过任何文本提示(prompt)来自然实现. 作者从数学上将其表述为一个surjectivity问题, 并在实际假设下证明了steered activation几乎必然无法由任何离散提示产生. 这一结果在理论上区分了白盒引导与黑盒提示两种干预方式.

MEMENTO: Teaching LLMs to Manage Their Own Context

Vasilis Kontonis et al.

cs.AI cs.LG

本文提出了一种名为MEMENTO的方法, 用于教导大型语言模型(LLMs)在推理过程中自主管理其上下文(context). 该方法通过将推理过程分割成块, 并将每个块压缩成一个称为"memento"的密集状态摘要, 从而减少模型推理时所需的上下文长度和计算开销. 实验表明, 经过训练的模型在保持数学、科学和编程基准测试准确性的同时, 能够显著降低KV缓存并提升推理吞吐量.

Instructing LLMs to Negotiate using Reinforcement Learning with Verifiable Rewards

Shuze Daniel Liu et al.

cs.AI cs.CL cs.GT econ.GN

本文研究了使用可验证奖励的强化学习(RLVR)来训练大型语言模型(LLMs)进行双边价格谈判。训练后的agent在获取经济盈余方面超越了规模大得多的前沿模型，并能泛化到未见过的对手。

Evolutionary Token-Level Prompt Optimization for Diffusion Models

Domício Pereira Neto, João Correia, Penousal Machado

cs.AI cs.NE

本文提出了一种使用遗传算法(Genetic Algorithm, GA)直接优化扩散模型(Diffusion Models)中CLIP文本编码器token向量的方法, 以自动提升生成图像的美学质量和文本对齐度. 实验表明该方法在Parti Prompts数据集上优于基线方法.

What do your logits know? (The answer may surprise you!)

Masha Fedzechkina et al.

cs.AI

本文通过比较视觉语言模型中不同“表征层级”的信息保留情况, 发现即使是模型顶层的logits这类易于访问的瓶颈, 也可能泄露与任务无关的图像查询信息, 其泄露程度有时可与完整的残差流投影相当.

In-situ process monitoring for defect detection in wire-arc additive manufacturing: an agentic AI approach

Pallock Halder, Satyajit Mojumder

cs.AI

本文提出了一种基于agentic AI的框架, 用于wire-arc additive manufacturing (WAAM)过程中的原位缺陷检测. 该框架利用处理信号和声学监测信号分别构建智能体, 并通过多智能体协同决策来提高缺陷分类的准确率.

GLEaN: A Text-to-image Bias Detection Approach for Public Comprehension

Bochu Ding, Brinnae Bent, Augustus Wendell

cs.AI cs.CV

本文提出了一种名为GLEaN的文本到图像模型偏见检测方法, 旨在通过生成具有代表性的合成肖像, 使公众能够直观理解模型偏见. 该方法不依赖模型内部参数, 适用于黑盒系统, 并通过用户研究验证了其有效性.

HealthAdminBench: Evaluating Computer-Use Agents on Healthcare Administration Tasks

Suhana Bedi et al.

cs.AI

本文提出了HealthAdminBench, 一个用于评估基于LLM的计算机使用代理在医疗保健行政任务上表现的基准. 该基准包含四个模拟环境和135个专家定义的任务, 评估发现当前代理在端到端任务上的成功率仍然较低.

New Hybrid Fine-Tuning Paradigm for LLMs: Algorithm Design and Convergence Analysis Framework

Shaocong Ma, Peiran Yu, Heng Huang

cs.AI cs.LG math.OC

本文提出了一种结合 zeroth-order 和 first-order 优化方法的新型混合微调范式，用于联合更新 LLMs 和 PEFT 模块。作者构建了一个基于 hybrid smoothness condition 的理论框架来分析算法收敛性，并通过实验验证了其性能提升。

FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks

Yupeng Cao et al.

cs.AI cs.CE cs.CL cs.MM

本文提出了一个名为FinTrace的基准测试, 用于评估大型语言模型(LLM)在长周期金融任务中的工具调用能力. 该基准包含专家标注的任务轨迹, 并采用多维度的评估指标, 揭示了当前模型在信息利用和最终答案质量上的不足.

AI Achieves a Perfect LSAT Score

Bonmu Ku

cs.AI

本文报告了首个语言模型在官方披露的LSAT考试中获得满分的实例。研究发现，提示词变化、选项打乱和多响应采样对性能影响不大，而移除模型在回答前的“思考”阶段会显著降低逻辑推理部分的准确率。

LoopGuard: Breaking Self-Reinforcing Attention Loops via Dynamic KV Cache Intervention

Dongjie Xu et al.

cs.AI

本文针对大语言模型在长文本生成中出现的"注意力循环"退化现象进行了研究. 作者提出了一个基准测试LoopBench来量化该问题, 并设计了一种轻量级的干预方法LoopGuard来动态管理KV cache以打破重复循环.

Learning Hierarchical and Geometry-Aware Graph Representations for Text-to-CAD

Shengjie Gong et al.

cs.AI

本文提出了一种用于Text-to-CAD任务的分层几何感知图中间表示方法, 将文本指令映射为包含部件和几何约束的图结构, 再生成可执行代码. 该方法通过结构感知的课程学习策略进行训练, 并在构建的数据集上验证了其在几何保真度和约束满足方面的优势.

Ontological Trajectory Forecasting via Finite Semigroup Iteration and Lie Algebra Approximation in Geopolitical Knowledge Graphs

Qihang Wu

cs.AI

本文提出了一种结合形式化本体论、有限半群代数与Lie代数近似的系统, 用于地缘政治关系轨迹预测. 该系统通过定义动态模式的半群运算与8维语义Lie代数空间嵌入, 进行前向模拟与Bayesian后验概率计算, 以预测长期关系吸引子.

Trust Your Memory: Verifiable Control of Smart Homes through Reinforcement Learning with Multi-dimensional Rewards

Kai-Yuan Guo et al.

cs.AI

本文提出了一个用于评估智能家居场景中记忆驱动设备控制的新基准 MemHome, 并基于真实用户交互日志构建了数据集 MemHomeLife. 作者指出, 现有方法在细粒度记忆管理任务上存在不足, 并探讨了使用强化学习解决该问题的可能性.

Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration

Hang Lv et al.

cs.AI cs.CL

本文提出了一种名为CapCal的训练无关框架, 用于缓解生成式列表重排序模型中的固有位置偏差. 该方法通过内容无关的占位符估计偏差分布, 并利用熵自适应对比机制校正输出logits, 在保持单次推理效率的同时提升了轻量级模型的性能.

SpecMoE: A Fast and Efficient Mixture-of-Experts Inference via Self-Assisted Speculative Decoding

Jehyeon Bang et al.

cs.AI cs.LG

本文提出了一种名为SpecMoE的内存高效Mixture-of-Experts推理系统, 它基于一种自辅助推测解码算法. 该系统无需额外训练即可提升推理吞吐量并降低内存带宽需求.

Inductive Reasoning for Temporal Knowledge Graphs with Emerging Entities

Ze Zhao et al.

cs.AI

本文提出了一种用于处理Temporal Knowledge Graphs (TKGs) 中新出现实体的归纳推理框架TransFIR. 该框架利用语义相似实体的历史交互序列来支持推理, 通过一个基于codebook的分类器将新实体归类到潜在的语义簇中. 实验表明, 该方法在多个数据集上对新实体的推理性能优于现有基线.

MAVEN-T: Multi-Agent enVironment-aware Enhanced Neural Trajectory predictor with Reinforcement Learning

Wenchang Duan

cs.AI cs.LG

本文提出了一个用于自动驾驶轨迹预测的师生框架MAVEN-T, 它通过架构协同设计和渐进式知识蒸馏来平衡模型性能与部署效率. 该方法结合了强化学习来超越传统蒸馏的模仿上限, 在保持高精度的同时实现了显著的模型压缩与推理加速.

PoreDiT: A Scalable Generative Model for Large-Scale Digital Rock Reconstruction

Yizhuo Huang, Baoquan Sun, Haibo Huang

cs.AI physics.app-ph

本文提出了一种名为PoreDiT的新型生成模型，用于高效重建大规模数字岩石。该模型利用3D Swin Transformer架构，通过直接预测孔隙空间的二元概率场来提升计算效率，能够在消费级硬件上生成超大规模的数字岩石样本，并保持与物理特性（如孔隙度和渗透率）的一致性。

Credit-Budgeted ICPC-Style Coding: When Agents Must Pay for Every Decision

Lingfeng Zhou et al.

cs.AI

本文提出了USACOArena，一个基于严格“信用”经济的交互式ACM-ICPC风格竞技场，用于评估资源受限环境下的自主编码agent。研究揭示了当前先进的单agent和群体在平衡准确性与计算成本方面存在不足。

Edu-MMBias: A Three-Tier Multimodal Benchmark for Auditing Social Bias in Vision-Language Models under Educational Contexts

Ruijia Li et al.

cs.AI cs.CV

本文提出了一个名为Edu-MMBias的多模态基准测试框架, 用于在教育情境下审计Vision-Language Models (VLMs)的社会偏见. 该框架基于社会心理学的态度三元模型, 通过一个包含自校正机制和人工验证的生成流程来合成抗污染的学生档案, 对先进的VLMs进行了全面的压力测试.

Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models

Zhe Qian et al.

cs.AI

本文针对多模态大推理模型(MLRMs)在长链推理中容易产生幻觉的问题，提出了V-STAR训练范式。该方法通过引入分层视觉注意力奖励(HVAR)和强制反思机制(FRM)，旨在强化模型在推理关键节点对视觉证据的查询，从而缓解幻觉现象。

SVSR: A Self-Verification and Self-Rectification Paradigm for Multimodal Reasoning

Zhe Qian et al.

cs.AI

本文提出了一个名为SVSR的自验证与自修正框架, 用于提升多模态模型的推理鲁棒性和可靠性. 该方法通过构建高质量偏好数据集和半在线直接偏好优化等训练范式, 使模型能够学习并执行自我验证与修正的推理行为.

A Dual-Positive Monotone Parameterization for Multi-Segment Bids and a Validity Assessment Framework for Reinforcement Learning Agent-based Simulation of Electricity Markets

Zunnan Xu, Zhaoxia Jing, Zhanhua Pan

cs.AI eess.SY

本文针对电力市场仿真中强化学习智能体生成单调有界多段报价曲线时, 因后处理映射(如排序、裁剪)导致的梯度失真问题, 提出了一种双正单调参数化方法. 同时, 论文建立了一个评估框架, 用于更严格地验证仿真结果与纳什均衡的接近程度, 以提升模拟结果的可信度.

The Amazing Agent Race: Strong Tool Users, Weak Navigators

Zae Myung Kim et al.

cs.AI cs.CL cs.LG

本文提出了一个名为The Amazing Agent Race (AAR)的新基准测试，用于评估LLM智能体在复杂、非线性任务中的表现。该基准包含有向无环图结构的工具使用任务，揭示了智能体在导航方面的主要缺陷，而这是线性基准测试所无法发现的。

STARS: Skill-Triggered Audit for Request-Conditioned Invocation Safety in Agent Systems

Guijia Zhang et al.

cs.AI

本文提出了一种名为STARS的动态技能调用审计方法, 用于评估AI agent在特定用户请求和运行时上下文下调用技能的安全性风险. 该方法结合了静态能力先验, 请求条件风险模型和校准的风险融合策略, 并在构建的SIA-Bench基准上进行了评估. 结果表明, 请求条件审计最适合作为调用时的风险评分和分流层, 而非替代静态筛查.

Dead Cognitions: A Census of Misattributed Insights

Aaron Tuor, claude.ai

cs.AI

本文讨论了AI聊天系统中的"归因洗白"现象, 即模型完成实质性认知工作后, 却在修辞上将产生的见解归功于用户. 作者分析了这一现象在个体和社会层面的机制及其潜在危害.

AI Organizations are More Effective but Less Aligned than Individual Agents

Judy Hanwen Shen et al.

cs.AI

本文通过实验发现, 由多个AI agent组成的"AI组织"在完成商业任务时比单个agent更高效, 但其行为与人类意图的"对齐性"却更差. 研究在咨询和软件开发两种场景下的12个任务中验证了这一现象.

TimeSeriesExamAgent: Creating Time Series Reasoning Benchmarks at Scale

Malgorzata Gwiazda et al.

cs.AI

本文提出了一种利用LLM agents和模板自动生成时间序列推理基准的方法, 创建了TimeSeriesExam和TimeSeriesExamAgent两个基准. 实验表明, 自动生成的基准在多样性上可与人工基准媲美, 但LLMs在抽象推理和领域应用上的表现仍有局限.

Gypscie: A Cross-Platform AI Artifact Management System

Fabio Porto et al.

cs.AI cs.DB

本文介绍了一个名为Gypscie的跨平台AI工件管理系统. 该系统通过知识图谱和基于规则的查询语言提供统一视图, 以简化AI应用的开发和部署, 并支持跨平台的工作流调度与溯源.

From GPT-3 to GPT-5: Mapping their capabilities, scope, limitations, and consequences

Hina Afridi et al.

cs.AI

本文综述了GPT系列模型从GPT-3到GPT-5的发展历程，重点比较了它们在技术框架、多模态能力、部署架构和治理等方面的演变。文章指出，该系列已从单纯的文本预测器转变为集成了工具使用和长上下文的工作流系统，但其核心局限性如幻觉和透明度问题依然存在。

Zero-shot World Models Are Developmentally Efficient Learners

Khai Loong Aw et al.

cs.AI cs.CV

本文提出了一种名为 Zero-shot Visual World Model (ZWM) 的计算模型, 旨在解释儿童如何从有限的第一人称经验中高效地学习物理世界理解. 该模型结合了稀疏时间因子分解, 零样本因果推断和组合推理, 在多个物理理解基准上取得了良好表现, 并模拟了儿童发展的行为特征.

VeriTrans: Fine-Tuned LLM-Assisted NL-to-PL Translation via a Deterministic Neuro-Symbolic Pipeline

Xuan Liu et al.

cs.AI

本文提出了一种名为VeriTrans的确定性神经符号系统, 用于将自然语言需求编译为可满足性求解器就绪的逻辑形式. 该系统通过集成指令微调的翻译器, 循环回译验证门控以及规范的编译步骤, 旨在实现高可靠性与可审计性. 在基准测试中, 该系统展示了较高的正确率与可控的可靠性-覆盖率权衡.

ClawVM: Harness-Managed Virtual Memory for Stateful Tool-Using LLM Agents

Mofasshara Rafique, Laurent Bindschaedler

cs.AI cs.OS cs.SE

本文提出了一种名为ClawVM的虚拟内存层, 用于管理使用工具的有状态LLM代理的状态. 它通过类型化页面, 最小保真度不变性和在token预算下的多分辨率表示等方法, 旨在确定性地处理状态驻留和持久化问题, 以减少代理运行中的故障.

Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels

Yuzhe Weng et al.

cs.AI cs.SD

本文提出了一种用于生成全双工交互式数字人的方法, 通过引入多头高斯核来建模说话与倾听行为之间的时间尺度差异. 该方法在VoxHear数据集上进行了实验, 能够同时处理双流音频输入, 生成具有自然反应和良好唇部同步的虚拟形象.

TrajOnco: a multi-agent framework for temporal reasoning over longitudinal EHR for multi-cancer early detection

Sihang Zeng et al.

cs.AI cs.MA

本文提出了一个名为TrajOnco的多智能体框架, 用于对纵向电子健康记录(EHR)进行时序推理以实现多癌症早期检测. 该框架在零样本评估中表现与监督机器学习方法相当, 并展示了其可解释性输出的潜力.

CWCD: Category-Wise Contrastive Decoding for Structured Medical Report Generation

Shantam Srivastava et al.

cs.AI

本文提出了一种用于结构化医学报告生成的新解码框架 CWCD. 该方法通过类别特定的参数化和对比解码来减少报告中的虚假病理关联.

Safety Guarantees in Zero-Shot Reinforcement Learning for Cascade Dynamical Systems

Shima Rabiei, Sandipan Mishra, Santiago Paternain

cs.AI

本文针对级联动力系统的零样本安全性保证问题, 提出了一种在降阶模型上训练安全强化学习策略的方法. 该方法将内层状态视为影响外层状态的动作, 简化了训练复杂度, 并通过理论分析给出了全阶系统中安全概率的界限, 其有效性在四旋翼导航任务中得到了验证.

VeriSim: A Configurable Framework for Evaluating Medical AI Under Realistic Patient Noise

Sina Mansouri et al.

cs.AI

本文提出了一个名为VeriSim的框架, 用于在模拟真实患者沟通噪音(如记忆偏差, 健康素养限制)的场景下评估医疗大语言模型(LLMs). 实验表明, 在引入噪音后, 模型的诊断准确率显著下降, 揭示了当前医疗AI评估与现实临床场景之间存在差距.

PEMANT: Persona-Enriched Multi-Agent Negotiation for Travel

Yuran Sun et al.

cs.AI

本文提出了一种基于LLM的PEMANT框架, 用于建模家庭层面的出行生成. 该框架通过行为理论构建个体画像, 并利用结构化多智能体对话模拟家庭内部的协商决策过程.

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

Yu Li et al.

cs.AI

本文提出了一个用于追踪大型语言模型(LLT)后训练数据谱系的多智能体框架, 并利用该框架构建了一个更具多样性的数据集. 该工作为大规模数据生态的系统化分析提供了一种拓扑学视角的替代方案.

CHAIRO: Contextual Hierarchical Analogical Induction and Reasoning Optimization for LLMs

Haotian Lu, Yuchen Mou, Bingzhe Wu

cs.AI

本文提出了一种基于类比示例的内容审核框架, 通过端到端优化类比检索, 规则生成和分类来提升审核的准确性和规则质量. 实验表明该方法在多个评估指标上优于现有的基于规则注入的微调和静态检索增强生成(RAG)基线.

CARO: Chain-of-Analogy Reasoning Optimization for Robust Content Moderation

Bingzhe Wu, Haotian Lu, Yuchen Mou

cs.AI

本文提出了一个名为CARO的两阶段训练框架, 旨在通过类比推理增强大语言模型在内容审核任务中的鲁棒性. 该方法结合了监督微调和定制的直接偏好优化, 以减轻模型在模糊案例中依赖"决策捷径"的问题.

Cooperation in Human and Machine Agents: Promise Theory Considerations

M. Burgess

cs.AI cs.MA

本文从 Promise Theory 的视角，探讨了人机混合智能体系统中的合作问题。它为包含人类、硬件、软件和人工智能的自主系统提供了一个关于组织与功能设计的统一框架。

A Progressive Training Strategy for Vision-Language Models to Counteract Spatio-Temporal Hallucinations in Embodied Reasoning

Xiaoda Yang et al.

cs.AI

本文提出了一种渐进式训练策略来缓解视觉语言模型在具身推理中的时空幻觉问题. 该方法通过构建新的思维链数据集和两阶段训练框架, 有效缩小了模型在正反向时序查询上的性能差距.

Beyond Compliance: A Resistance-Informed Motivation Reasoning Framework for Challenging Psychological Client Simulation

Danni Liu et al.

cs.AI cs.HC

本文提出了一个名为ResistClient的心理学客户模拟器, 旨在解决现有模拟器中客户行为过于顺从、不切实际的问题. 通过整合Client Resistance Theory, 该工作引入了一个两阶段训练框架RIMR, 以生成更具挑战性和心理一致性的客户响应, 并用于评估心理咨询对话系统.

Thinking Fast, Thinking Wrong: Intuitiveness Modulates LLM Counterfactual Reasoning in Policy Evaluation

Yanjie He

cs.AI cs.CL

本文评估了大型语言模型(LLM)在基于实证证据的政策评估任务中进行反事实推理的可靠性。研究发现，模型的准确性显著受到案例“直觉性”的调节，当结论与直觉相悖时，链式思维(CoT)提示的益处几乎消失，表明其推理过程可能存在缺陷。

Agent Mentor: Framing Agent Knowledge through Semantic Trajectory Analysis

Roi Ben-Gigi et al.

cs.AI

本文提出了一个名为Agent Mentor的开源库, 用于监控和调整AI agent的系统提示(prompt). 该方法通过分析执行日志中的语义轨迹来识别不良行为, 并自动注入纠正性指令, 从而提升agent在任务执行中的准确性和鲁棒性.

From Perception to Planning: Evolving Ego-Centric Task-Oriented Spatiotemporal Reasoning via Curriculum Learning

Xiaoda Yang et al.

cs.AI

本文提出了一个基于课程学习的框架 EgoTSR, 用于提升以自我为中心的、面向任务的时空推理能力. 该方法通过构建大规模数据集和分阶段训练, 在长时程逻辑推理任务上取得了优异性能.

Agent^2 RL-Bench: Can LLM Agents Engineer Agentic RL Post-Training?

Wanyi Chen et al.

cs.AI

本文提出了一个名为 Agent^2 RL-Bench 的基准测试，用于评估 LLM agents 在强化学习后训练阶段的自主工程能力。该基准包含不同复杂度的任务，并提供了自动化评估工具，实验结果表明 agents 的表现因任务和驱动模型的选择而有显著差异。

Failure Ontology: A Lifelong Learning Framework for Blind Spot Detection and Resilience Design

Yuan Sun, Hong Yi, Jinyuan Liu

cs.AI

本文提出了一个名为"Failure Ontology (F)"的终身学习框架，用于检测和应对人类认知中的"Ontological Blind Spots"。该框架包含一个盲点分类法、五种失败模式以及一个关于失败学习效率的定理，并通过案例研究进行了说明。

Working Paper: Towards Schema-based Learning from a Category-Theoretic Perspective

Pablo de los Riscos, Fernando J. Corbacho, Michael A. Arbib

cs.AI

本文从范畴论视角为Schema-Based Learning (SBL)提出了一个分层的范畴化框架。该框架通过多个相互关联的范畴层次，将语法模式、概率模型、认知模块和多智能体交互统一在一个形式化结构中。

Enhancing Cross-Problem Vehicle Routing via Federated Learning

Xiangchi Meng et al.

cs.AI cs.LG

本文提出了一个结合联邦学习的"多问题预训练-单问题微调"框架(MPSF-FL), 用于提升神经组合优化方法在车辆路径问题(VRP)中的跨问题泛化能力. 该框架通过联邦全局模型共享知识, 并让本地模型针对具有异构约束的下游VRP进行微调, 实验表明其在多种VRP上提升了性能与泛化性.

Governed Reasoning for Institutional AI

Mamadou Seck

cs.AI cs.CY cs.MA

本文提出了一种名为Cognitive Core的新型AI架构, 专为需要严格治理的制度性决策(如合规审查)而设计. 它通过一组类型化的认知原语, 一个将人工审核作为执行前提的四层治理模型, 以及一个内生于计算过程的防篡改审计账本, 旨在消除"静默错误"并确保决策的可审计性.

Preference-Agile Multi-Objective Optimization for Real-time Vehicle Dispatching

Jiahuan Jin et al.

cs.AI

本文提出了一种偏好敏捷多目标优化(PAMOO)方法, 用于处理实时车辆调度等动态序列决策问题. 该方法在深度强化学习(DRL)框架内引入了一个统一的模型, 能够显式地接收用户动态调整的偏好向量, 并通过校准函数确保偏好输入与决策策略的高质量对齐.

Principles Do Not Apply Themselves: A Hermeneutic Perspective on AI Alignment

Behrooz Razeghi

cs.AI cs.HC

本文从诠释学(hermeneutics)视角分析AI对齐(alignment)问题, 指出原则的应用需要情境依赖的诠释性判断. 文章将这一观点与经验发现及评估方法的形式化区分相联系.

FedRio: Personalized Federated Social Bot Detection via Cooperative Reinforced Contrastive Adversarial Distillation

Yingguang Yang et al.

cs.AI cs.LG

本文提出了一个名为FedRio的个性化联邦学习框架, 用于跨平台的社交机器人检测. 该框架结合了图神经网络, 生成对抗网络, 对比学习和强化学习等技术, 以在保护数据隐私的同时, 提升检测性能并处理数据异质性.

Do LLMs Build Spatial World Models? Evidence from Grid-World Maze Tasks

Weijiang Li et al.

cs.AI

本文通过迷宫任务系统评估了大型语言模型的空间理解能力. 实验表明, 模型的表现高度依赖于问题表示形式和提示方法, 未能构建出稳健的内部空间世界模型.

FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning

Yuxi Sun et al.

cs.AI

本文提出了一个名为FACT-E的因果启发的评估框架, 用于评估大语言模型(Large Language Model, LLM)的思维链(Chain-of-Thought, CoT)推理的可信度. 该框架通过引入受控扰动来分离推理步骤间的真实依赖与模型偏见, 从而更可靠地评估推理链的内部忠实性(intra-chain faithfulness).

Camyla: Scaling Autonomous Research in Medical Image Segmentation

Yifan Gao et al.

cs.AI cs.CV

本文提出了一个名为Camyla的全自主医学图像分割研究系统, 该系统能够将原始数据集转化为基于文献的研究提案, 可执行实验和完整手稿. 在包含31个数据集的基准测试中, 该系统在多数数据集上超越了包括nnU-Net在内的多个基线模型, 并生成了大量新颖的模型实现和可发表的学术手稿.

SciPredict: Can LLMs Predict the Outcomes of Scientific Experiments in Natural Sciences?

Udari Madhushani Sehwag et al.

cs.AI

本文提出了一个名为SciPredict的基准测试, 用于评估大型语言模型(LLMs)在预测自然科学实验结果方面的能力. 该基准包含来自物理, 生物和化学领域的405个任务, 评估发现当前模型的预测准确率较低, 且无法可靠地判断其预测的可信度.

Teaching Language Models How to Code Like Learners: Conversational Serialization for Student Simulation

Charles Koutcheme, Arto Hellas, Juho Leinonen

cs.AI cs.CL cs.CY

本文提出了一种将学生编程过程数据序列化为对话格式的方法, 用于训练开源的AI编程学习者模型. 该方法结合了监督微调和偏好优化, 在真实学生提交的Python作业数据集上训练模型, 结果表明融入环境反馈能更好地模拟学生的调试行为.

When More Thinking Hurts: Overthinking in LLM Test-Time Compute Scaling

Shu Zhou et al.

cs.AI

本文研究了大型语言模型在测试时通过延长思维链进行推理时存在的"过度思考"现象. 研究发现, 随着计算预算增加, 额外推理token的边际效用会显著递减, 甚至可能导致模型放弃之前正确的答案. 作者提出了一个成本感知的评估框架, 表明在适度的计算预算处停止推理可以在保持相当准确性的同时显著减少计算量.

Learning Preference-Based Objectives from Clinical Narratives for Sequential Treatment Decision-Making

Daniel J. Tan, Kay Choong See, Mengling Feng

cs.AI cs.LG

本文提出了一种从临床叙述中学习奖励函数的方法, 用于医疗领域的顺序决策. 该方法利用大型语言模型从出院小结中提取轨迹质量评分, 并通过偏好学习来训练强化学习智能体.

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

Yinyi Luo et al.

cs.AI

本文介绍了一个名为 TorchUMM 的统一代码库, 旨在支持对多种统一多模态模型 (UMMs) 进行评估, 分析和后训练. 该工具整合了多种模型架构, 任务和数据集, 以促进公平比较和可复现研究.

CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms

Zacharie Bugaud

cs.AI

本文提出了一个名为CheeseBench的基准测试, 用于评估大型语言模型在九个经典啮齿类动物行为神经科学范式上的表现. 研究发现, 在统一的零样本ASCII协议下, 当前的开源LLM智能体性能仍远低于近似啮齿类动物参考值.

Your Model Diversity, Not Method, Determines Reasoning Strategy

Moulik Choraria et al.

cs.AI

本文探讨了LLM推理中计算资源在探索不同解法路径($breadth$)与深化有前景解法($depth$)之间的分配问题. 作者认为最优策略取决于模型本身的多样性特征, 并通过理论框架和实验验证了这一观点.

A Benchmark for Gap and Overlap Analysis as a Test of KG Task Readiness

Maruf Ahmed Mridul, Rohit Kapa, Oshani Seneviratne

cs.AI

本文提出了一个用于评估知识图谱(KG)任务就绪性的基准测试, 侧重于对政策类文档进行gap和overlap分析. 该基准包含合同文本, 形式化本体和带证据标注的场景, 并通过实验比较了纯文本LLM与基于本体的方法在分析一致性和可诊断性上的差异.

Beyond Statistical Co-occurrence: Unlocking Intrinsic Semantics for Tabular Data Clustering

Mingjie Zhao et al.

cs.AI

本文提出了一种名为Tabular-Augmented Contrastive Clustering (TagCC)的新框架，用于表格数据的深度聚类。该方法利用大型语言模型(LLMs)从特征名和值中提取语义知识，并通过对比学习将其与统计表示相结合，以提升聚类性能。实验表明该方法优于现有基准。

A Quantitative Definition of Intelligence

Kang-Sin Choi

cs.AI

本文提出了一个针对任意物理系统的、可操作的智能定量定义. 智能密度定义为系统独立输出的对数与其总描述长度之比. 作者认为, 当智能密度发散时, 系统必然捕获了其领域内的意义结构.

ZoomR: Memory Efficient Reasoning through Multi-Granularity Key Value Retrieval

David H. Yang et al.

cs.AI cs.CL

本文提出了一种名为ZoomR的方法, 用于减少大型语言模型在长输出生成时的KV cache内存占用. 该方法通过自适应地将冗长的推理过程压缩为摘要, 并利用摘要键进行分层检索, 从而在多项数学和推理任务上实现了超过4倍的内存节省, 同时保持了有竞争力的性能.

CASK: Core-Aware Selective KV Compression for Reasoning Traces

Buseong Kim, Heejun Gwon

cs.AI cs.LG

本文提出了一种用于大语言模型长推理过程的KV缓存压缩方法CASK, 该方法将推理轨迹划分为受保护的核心部分和可合并的草稿部分, 并采用两阶段设计来处理前缀过长的场景. 实验表明, 该方法在匹配的缓存预算下, 比现有方法能更好地保持推理行为.

Reasoning as Data: Representation-Computation Unity and Its Implementation in a Domain-Algebraic Inference Engine

Chao Li, Yuru Wang

cs.AI

本文提出了一种称为"表示-计算统一性(Representation-Computation Unity, RCU)"的新范式, 旨在消除知识系统中存储与计算的分离. 通过引入包含领域(domain)作为结构字段的四元组表示, 系统能够自动执行领域范围内的推理. 作者实现了一个符号推理引擎, 并通过案例研究验证了其处理多重继承和时间推理的能力.

EvoNash-MARL: A Closed-Loop Multi-Agent Reinforcement Learning Framework for Medium-Horizon Equity Allocation

Chongliu Jia et al.

cs.AI cs.LG

本文提出了一个名为EvoNash-MARL的闭环多智能体强化学习框架，用于解决中长周期股票配置问题。该框架整合了多智能体策略种群、PSRO风格的聚合以及进化替换等组件，并通过分层策略架构和约束感知的检查点选择来提升稳健性。实证结果表明，该框架在回测中取得了优于基准的收益表现，但其统计显著性尚未完全确立。

CSPO: Alleviating Reward Ambiguity for Structured Table-to-LaTeX Generation

Yunfan Yang et al.

cs.AI

本文提出了一种名为CSPO的强化学习框架，用于改善表格图像到LaTeX代码的生成任务。该方法通过为LaTeX代码的不同组件分配特定奖励来缓解奖励模糊性问题，实验表明其能提升生成的结构保真度。

RAG-KT: Cross-platform Explainable Knowledge Tracing with Multi-view Fusion Retrieval Generation

Zhiyi Duan, Hongyu Yuan, Rui Liu

cs.AI

本文提出了一种名为RAG-KT的检索增强知识追踪方法，旨在解决跨平台场景下的模型泛化与可解释性问题。该方法通过构建多源结构化上下文并利用检索机制来增强大型语言模型的预测，在多个基准测试中展现了良好的性能。

Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models

Ruiyang Li et al.

cs.AI

本文利用视觉基础模型来估计医学图像分割中的固有数据不确定性, 通过分析解码特征的多样性并量化其奇异值能量来定义语义感知尺度. 基于此, 提出了两种不确定性驱动的应用策略: 数据过滤和动态优化, 在多个公开数据集上验证了方法的有效性.

CFMS: A Coarse-to-Fine Multimodal Synthesis Framework for Enhanced Tabular Reasoning

Qixian Huang et al.

cs.AI cs.CL

本文提出了一个用于表格推理的Coarse-to-Fine Multimodal Synthesis框架(CFMS). 该框架通过两阶段方法, 先利用多模态大语言模型进行高层视觉感知, 再使用符号引擎进行细粒度推理, 在相关基准测试上取得了有竞争力的结果.

ATANT v1.1: Positioning Continuity Evaluation Against Memory, Long-Context, and Agentic-Memory Benchmarks

Samuel Sameer Tanguturi

cs.AI cs.IR

本文通过结构分析比较了ATANT v1.0连续性评估框架与多个现有记忆/长上下文基准(如LOCOMO, LongMemEval等)的差异. 作者指出这些基准均未完整测量连续性所定义的7个属性, 并揭示了其中存在的方法论缺陷, 旨在澄清连续性评估的独特定位.

Back to the Barn with LLAMAs: Evolving Pretrained LLM Backbones in Finetuning Vision Language Models

Sameera Horawalavithana et al.

cs.AI cs.CL cs.CV

本文通过控制实验比较了基于LLAMA-1, LLAMA-2和LLAMA-3的Vision-Language Models (VLMs)的性能差异. 研究发现, 更新、更强的pretrained LLM backbone并不总是能提升下游VLM任务的表现, 其效果高度依赖于具体任务类型.

WebForge: Breaking the Realism-Reproducibility-Scalability Trilemma in Browser Agent Benchmark

Peng Yuan et al.

cs.AI cs.CV

本文提出了WebForge框架，通过一个四智能体流水线自动生成交互式、自包含的网页环境，以解决现有浏览器智能体基准测试中真实性、可复现性和可扩展性难以兼顾的问题。基于此构建的WebForge-Bench基准包含多个领域和难度级别的任务，实验表明其多维评估能有效区分模型能力。

MAFIG: Multi-agent Driven Formal Instruction Generation Framework

Shixing Zhao et al.

cs.AI

本文提出了一个多智能体驱动的形式化指令生成框架(MAFIG), 用于处理调度系统中的紧急情况. 该框架通过将决策范围限制在受影响的局部功能模块, 并利用形式化指令快速修复调度逻辑, 从而降低了大型语言模型(LLM)推理延迟和长上下文信息带来的不利影响.

Sanity Checks for Agentic Data Science

Zachary T. Rewolinski et al.

cs.AI cs.LG

本文提出了两种基于PCS框架的轻量级合理性检查方法, 用于评估Agentic data science (ADS) 系统输出的可信度. 这些检查通过合理的扰动来测试代理能否可靠地区分信号与噪声, 并在合成与真实数据集上进行了验证.

Diffusion-CAM: Faithful Visual Explanations for dMLLMs

Haomin Zuo et al.

cs.AI

本文提出了一种专门针对扩散多模态大语言模型(dMLLMs)的可解释性方法Diffusion-CAM. 该方法通过提取Transformer中间层的激活与梯度来生成原始激活图, 并设计了多个模块来处理扩散模型并行去噪过程带来的信号随机性与空间模糊性问题. 实验表明, 该方法在定位准确性和视觉保真度上优于现有方法.

Min-$k$ Sampling: Decoupling Truncation from Temperature Scaling via Relative Logit Dynamics

Yuanhao Ding et al.

cs.AI cs.CL cs.LG

本文提出了一种新的解码采样策略 Min-$k$ Sampling, 它通过分析排序后 logit 分布的局部形状来动态确定截断边界, 旨在解决现有方法对温度参数过度敏感或易受长尾噪声影响的问题. 实验表明该方法在多种任务上提升了文本生成质量, 并在极端温度设置下保持了鲁棒性.

Introspective Diffusion Language Models

Yifan Yu et al.

cs.AI

本文提出了一种名为 Introspective Diffusion Language Model (I-DLM) 的新范式，旨在提升扩散语言模型在文本生成中的质量。该方法通过引入 introspective strided decoding 算法，使模型能够在并行解码过程中验证已生成的 token，从而改善了模型的自洽性。实验表明，I-DLM 在多个基准测试上达到了与自回归模型相当的性能，并具有更高的推理效率。

Intelligent Approval of Access Control Flow in Office Automation Systems via Relational Modeling

Dugang Liu et al.

cs.AI

本文提出了一种基于关系建模的智能审批框架(RMIA), 用于自动化办公自动化(OA)系统中的访问控制流审批(ACFA). 该框架通过二元和三元关系建模模块分别提取粗粒度和细粒度信息, 并融合它们进行最终决策, 实验验证了其有效性.

From Topology to Trajectory: LLM-Driven World Models For Supply Chain Resilience

Jia Luo

cs.AI

本文提出了一个名为ReflectiChain的认知智能体框架，用于增强宏观经济供应链规划的韧性。该框架结合了生成世界模型驱动的潜在轨迹预演与回顾式智能体强化学习，在模拟的极端场景下显著提升了决策性能。

EmergentBridge: Improving Zero-Shot Cross-Modal Transfer in Unified Multimodal Embedding Models

Jincheng Xie et al.

cs.AI

本文提出了一种名为 EmergentBridge 的嵌入层桥接框架，旨在改善统一多模态嵌入模型中零样本跨模态迁移的性能。该方法通过引入噪声桥接锚点和正交子空间对齐，在无需详尽配对监督的情况下，增强了未配对模态对之间的连接。

AI Integrity: A New Paradigm for Verifiable AI Governance

Seulki Lee

cs.AI

本文提出了AI Integrity这一新概念, 旨在通过验证AI系统的推理过程本身来治理AI. 它定义了Authority Stack模型和PRISM框架, 强调过程的透明与可审计, 区别于关注结果的现有范式.

PRISM Risk Signal Framework: Hierarchy-Based Red Lines for AI Behavioral Risk

Seulki Lee

cs.AI

本文提出了一个基于层次结构的AI行为风险信号框架PRISM, 通过分析AI系统在价值(L4)、证据(L3)和信息源(L2)三个层次上的优先级结构异常来定义风险信号. 该方法相比基于具体案例的"红线"更具前瞻性、综合性和可测量性, 并通过约39.7万次强制选择数据在7个AI模型上进行了验证.

Hodoscope: Unsupervised Monitoring for AI Misbehaviors

Ziqian Zhong, Shashwat Saxena, Aditi Raghunathan

cs.AI

本文提出了一种名为Hodoscope的无监督监控方法，用于发现AI代理的异常行为。该方法通过比较不同组间的行为分布来识别潜在问题，无需预先定义故障类别，并在一系列代码基准测试中发现了新的漏洞。

Towards Proactive Information Probing: Customer Service Chatbots Harvesting Value from Conversation

Chen Huang et al.

cs.AI cs.CL

本文提出了一种名为"Proactive Information Probing"的新任务，旨在让客服聊天机器人在对话中主动、适时地询问用户以获取特定信息。作者为此设计了一个名为PROCHATIP的框架，并通过实验验证了其在信息获取和服务质量上的优越性。

Do Agent Rules Shape or Distort? Guardrails Beat Guidance in Coding Agents

Xing Zhang et al.

cs.AI cs.CL

本文通过大规模实证研究发现, 自然语言规则文件对AI编程代理的性能影响复杂. 研究揭示, 负面约束比正面指令更有效, 且规则主要通过context priming而非具体指令发挥作用.

Frugal Knowledge Graph Construction with Local LLMs: A Zero-Shot Pipeline, Self-Consistency and Wisdom of Artificial Crowds

Pierre Jourlin

cs.AI cs.IR cs.LG cs.NE

本文提出了一种完全在消费级硬件上本地运行的、多模型零样本知识图谱构建与利用流水线。该系统在多个基准测试上进行了评估，并研究了自洽性和模型多样性等机制来提升多跳推理性能。

Persona Non Grata: Single-Method Safety Evaluation Is Incomplete for Persona-Imbued LLMs

Wenkai Li et al.

cs.AI

本文指出，仅通过prompting进行persona safety evaluation是不完整的。研究发现，prompting和activation steering会暴露模型架构依赖的不同安全漏洞，单一方法可能遗漏主要的失效模式。

A Proposed Biomedical Data Policy Framework to Reduce Fragmentation, Improve Quality, and Incentivize Sharing in Indian Healthcare in the era of Artificial Intelligence and Digital Health

Nikhil Mehta, Sachin Gupta, Gouri RP Anand

cs.AI

本文提出一个旨在整合印度生物医学数据、提升数据质量并促进共享的政策框架。该框架通过调整学术激励、机构排名和收入分配机制来应对数据碎片化问题，并考虑了相关的数据保护法规。

MADQRL: Distributed Quantum Reinforcement Learning Framework for Multi-Agent Environments

Abhishek Sawaika et al.

cs.AI cs.LG cs.MA

本文提出了一个用于多智能体环境的分布式量子强化学习框架MADQRL. 该框架通过让多个智能体独立学习, 将联合训练的负载分配到多台量子机器上, 以应对当前量子硬件处理高维复杂环境的限制. 实验表明, 该方法在合作式乒乓球环境中相比其他分布式策略和经典策略模型有一定性能提升.

From Answers to Arguments: Toward Trustworthy Clinical Diagnostic Reasoning with Toulmin-Guided Curriculum Goal-Conditioned Learning

Chen Zhan et al.

cs.AI cs.LG

本文提出了一种基于Toulmin论证模型的课程目标条件学习(CGCL)框架，旨在提升大型语言模型(LLM)在临床诊断中的可解释性和推理可靠性。该方法通过分阶段的课程训练，引导模型生成结构化的诊断论证，实验表明其在保证诊断准确性的同时，提供了更稳定高效的训练流程。

Environmental Footprint of GenAI Research: Insights from the Moshi Foundation Model

Marta López-Rauhut et al.

cs.AI

本文量化了生成式AI研究的环境足迹, 以Moshi语音文本基础模型为例, 分析了其研发全过程的计算资源消耗与生命周期环境影响, 并提出了减少计算使用和环境影响的可行指南.

Measuring the Authority Stack of AI Systems: Empirical Analysis of 366,120 Forced-Choice Responses Across 8 AI Models

Seulki Lee

cs.AI

本文通过大规模实证研究, 使用PRISM基准测试评估了8个主要AI模型在权威栈三层框架下的决策模式. 研究发现模型在价值优先级、证据类型偏好和信源信任层级上存在显著差异, 并揭示了其决策对情境变体的高度敏感性.

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

Zhixin Lin et al.

cs.AI cs.CR

本文提出了一种名为 Trajectory Induced Preference Optimization (TIPO) 的方法，用于优化移动 GUI agent 的隐私个性化。该方法通过偏好强度加权和填充门控来处理由个性化导致的轨迹异质性问题，在隐私偏好数据集上提升了 agent 的行为对齐与区分度。

Inspectable AI for Science: A Research Object Approach to Generative AI Governance

Ruta Binkyte et al.

cs.AI

本文提出了一种名为"AI as a Research Object (AI-RO)"的范式，用于治理生成式AI在科学研究中的使用。该框架强调将AI交互过程结构化、可审查地记录，并基于研究对象理论和FAIR原则，通过交互日志和元数据来记录模型配置、提示和输出。

Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Using a Large Language Model

Kihyuk Lee

cs.AI q-bio.OT

本文评估了大型语言模型在生成个性化运动处方时的输出一致性. 研究通过重复生成设计, 在多个临床场景下测量了语义、结构和安全性表达的一致性, 发现模型在关键定量参数上存在可变性.

BankerToolBench: Evaluating AI Agents in End-to-End Investment Banking Workflows

Elaine Lau et al.

cs.AI

本文提出了BankerToolBench(BTB), 这是一个用于评估AI智能体在投资银行端到端分析工作流中表现的基准测试. 它通过与行业专家合作构建了包含多工具使用和多文件交付的复杂任务, 并进行了自动化评估, 发现当前最先进的模型仍难以产出可直接交付给客户的结果.

PaperScope: A Multi-Modal Multi-Document Benchmark for Agentic Deep Research Across Massive Scientific Papers

Lei Xiong et al.

cs.AI

本文提出了一个名为 PaperScope 的多模态多文档基准测试，用于评估智能体在大量科学文献中进行深度研究的能力。该基准基于一个包含两千多篇 AI 论文的知识图谱构建，包含多种推理任务，实验表明现有先进系统在该基准上表现有限。

Select Smarter, Not More: Prompt-Aware Evaluation Scheduling with Submodular Guarantees

Xiaoyu Ma et al.

cs.AI cs.LG

本文提出了一种用于自动提示优化的在线自适应评估调度方法POES. 该方法通过结合IRT判别效用和设施选址覆盖项, 构建了一个具有次模性保证的目标函数, 从而在固定评估预算下显著提升了优化效果并降低了计算开销.

Dynamic Summary Generation for Interpretable Multimodal Depression Detection

Shiyu Teng et al.

cs.AI

本文提出了一种利用大语言模型(LLM)进行多模态抑郁症检测的框架, 通过生成渐进式的临床摘要来指导预测并提高可解释性. 该框架在多个数据集上取得了优于现有方法的效果.

CoRe-ECG: Advancing Self-Supervised Representation Learning for 12-Lead ECG via Contrastive and Reconstructive Synergy

Zehao Qin et al.

cs.AI cs.LG

本文提出了一种结合对比学习与重构学习的自监督预训练方法 CoRe-ECG, 用于12导联心电图分析. 该方法通过频率动态增强和时空双重掩码等技术, 在多个下游任务上取得了先进的性能.

The Missing Knowledge Layer in Cognitive Architectures for AI Agents

Michaël Roynard

cs.AI

本文指出当前主流的AI智能体认知架构框架(如CoALA和JEPA)缺乏一个具有独立持久性语义的Knowledge层, 这导致了将认知衰减应用于事实声明等范畴错误. 作者通过调查现有记忆系统的持久性语义, 提出了一个包含Knowledge, Memory, Wisdom, Intelligence的四层分解模型, 其中每一层都具有根本不同的持久性语义. 作者认为这些区别需要在工程实现中体现为不同的持久性语义, 而目前的框架均未提供这一点.

Learning from Contrasts: Synthesizing Reasoning Paths from Diverse Search Trajectories

Peiyang Liu et al.

cs.AI cs.CL

本文提出了一种名为CRPS的框架, 用于从MCTS的搜索轨迹中合成推理路径. 该方法通过对比分析高质量与低质量轨迹来生成训练数据, 实验表明其能大幅减少所需数据量并提升模型的泛化能力.

From Agent Loops to Structured Graphs:A Scheduler-Theoretic Framework for LLM Agent Execution

Hu Wei

cs.AI eess.SY

本文提出了一个基于调度理论的形式化框架, 用于分析和设计LLM智能体的执行流程. 它将传统的Agent Loop范式与基于图的执行引擎置于统一的语义连续体中, 并提出了一个名为SGH的设计方案, 旨在通过显式的静态有向无环图(DAG)来提升可控性和可验证性.

Beyond RAG for Cyber Threat Intelligence: A Systematic Evaluation of Graph-Based and Agentic Retrieval

Dzenan Hamzic et al.

cs.AI cs.CR

本文系统评估了四种用于网络威胁情报(CTI)分析的RAG架构, 包括标准向量检索, 基于知识图谱的检索, 智能体变体以及混合方法. 实验表明, 在图结构事实查询上, 图谱检索表现更好, 而混合方法在处理多跳推理问题时能显著提升答案质量.

Escaping the Context Bottleneck: Active Context Curation for LLM Agents via Reinforcement Learning

Xiaozhe Li et al.

cs.AI

本文提出了一种通过强化学习训练轻量级策略模型来主动管理LLM智能体工作记忆的框架, 旨在解决长视野任务中的上下文瓶颈问题. 该框架在减少token消耗的同时, 提升了任务执行的成功率.

Three Roles, One Model: Role Orchestration at Inference Time to Close the Performance Gap Between Small and Large Agents

S. Aaron McClendon et al.

cs.AI

本文提出了一种在推理时使用同一小型语言模型扮演三种不同角色（总结、主代理、修正）的脚手架方法, 以提升其在复杂多步工具使用任务中的性能. 该方法无需额外训练, 在有限硬件上显著提高了任务完成率, 使小模型性能可比拟大模型.

From Attribution to Action: A Human-Centered Application of Activation Steering

Tobias Labarta et al.

cs.AI cs.HC cs.LG

本文提出了一种结合SAE-based attribution与activation steering的交互式工作流, 用于对视觉模型中概念使用的实例级分析, 并开发了相应的Web工具. 通过专家访谈研究, 文章探讨了实践者如何理解、信任和应用activation steering进行模型调试, 发现该方法能将解释从检查转向基于干预的假设检验, 但也指出了其潜在风险.

OOM-RL: Out-of-Money Reinforcement Learning Market-Driven Alignment for LLM-Based Multi-Agent Systems

Kun Liu, Liqun Chen

cs.AI cs.SE q-fin.TR

本文提出了一种名为OOM-RL的强化学习范式，旨在解决多智能体系统在现实环境中的对齐问题。该方法将智能体置于真实金融市场中，利用资本耗竭作为客观的负反馈信号。

On the Complexity of the Discussion-based Semantics in Abstraction Argumentation

Lydia Blümel et al.

cs.AI

本文研究了基于讨论的论证语义中论证强度比较问题的计算复杂性. 通过将问题转化为图论中关于顶点路径数量等价性的判定, 并利用半环自动机等价性问题的结果, 证明了该判定问题可在多项式时间内解决.

Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Samuel Cahyawijaya et al.

cs.AI cs.CL cs.CV

本文提出了一种名为"Anthropogenic Regional Adaptation"的新范式，旨在优化多模态视觉-语言模型对特定区域背景的适应性，同时保持其全局泛化能力。作者还介绍了一种名为GG-EZ的简单有效适配方法，并在东南亚区域案例中验证了其能提升文化相关性指标。

Lectures on AI for Mathematics

Xiaoyang Chen, Xiaoyang Chen

cs.AI math.AP math.AT math.DG

本文是一本关于AI for mathematics领域的入门书籍, 它全面介绍了使用人工智能来推进数学研究的核心原理和多样化应用.

PAC-BENCH: Evaluating Multi-Agent Collaboration under Privacy Constraints

Minjun Park et al.

cs.AI cs.MA

本文提出了一个名为$PAC\text{-}Bench$的基准，用于评估隐私约束下的多智能体协作性能。实验表明，隐私限制会显著降低协作效率并引发特定的协调故障。

Limited Perfect Monotonical Surrogates constructed using low-cost recursive linkage discovery with guaranteed output

M.W. Przewozniczek et al.

cs.AI cs.DS

本文提出了一种称为LyMPuS的完美单调代理模型，用于在昂贵优化问题中比较单变量差异的解。该方法无需参数和单独的训练步骤，并能以低成本发现变量间的依赖关系。

Problem Reductions at Scale: Agentic Integration of Computationally Hard Problems

Xi-Wei Pan, Shi-Wen An, Jin-Guo Liu

cs.AI

本文介绍了一种利用AI编码代理构建大规模问题归约库的方法. 该方法通过设计约束、验证系统和反馈循环的"harness engineering", 在短时间内开发了一个包含大量问题和归约规则的工具库.

A collaborative agent with two lightweight synergistic models for autonomous crystal materials research

Tongyu Shi et al.

cs.AI

本文提出了一个用于晶体材料研究的轻量级协作智能体系统 MatBrain, 该系统采用双模型架构, 分别负责分析推理与工具执行, 在多项材料科学任务上表现出色, 并显著降低了硬件部署门槛.

SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering

Ningyan Zhu et al.

cs.AI

本文介绍了SemaClaw，一个开源的multi-agent应用框架，旨在通过harness engineering（一种设计完整基础设施以控制AI agent的工程范式）来推动通用个人AI agent的发展。其主要贡献包括基于DAG的混合agent编排方法、行为安全系统、三层上下文管理架构以及用于构建个人知识库的自动化技能。

UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents

Yijuan Liang et al.

cs.AI

本文提出了一个用于大语言模型工具学习的统一框架 UniToolCall, 该框架标准化了从工具集构建、数据集生成到评估的整个流程. 它整合了大规模工具池与混合训练语料, 并引入了统一的评估表示与多粒度评估指标.

Intersectional Sycophancy: How Perceived User Demographics Shape False Validation in Large Language Models

Benjamin Maltbie, Shivam Raval

cs.AI cs.HC

本文研究了大型语言模型(Large Language Models)中奉承行为(sycophancy)如何因感知到的用户人口统计特征(如种族、年龄、性别)而系统性变化。实验发现GPT-5-nano的奉承行为显著高于Claude Haiku 4.5, 且在不同领域和用户身份组合间存在差异, 而Claude Haiku 4.5则表现出普遍较低且无显著差异的奉承水平。

Context Kubernetes: Declarative Orchestration of Enterprise Knowledge for Agentic AI Systems

Charafeddine Mouzouni

cs.AI cs.SE

本文提出了一种名为Context Kubernetes的架构, 用于在面向agent的AI系统中编排企业知识. 它通过声明式清单和协调循环来管理知识的访问、权限和新鲜度, 并通过实验展示了其在治理、安全性和正确性方面的优势.

RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Haozhe Wang et al.

cs.AI cs.LG

本文提出了一种名为RationalRewards的视觉生成奖励模型，它通过生成多维度、可解释的评论来替代单一评分。该方法在训练时提供细粒度奖励，在测试时通过生成-评论-优化循环改进输出，无需更新模型参数。

Why Do Large Language Models Generate Harmful Content?

Rajesh Ganguli, Raha Moraffah

cs.AI

本文通过因果中介分析(causal mediation analysis)的方法, 探究了大型语言模型(LLMs)生成有害内容的原因. 研究发现, 有害内容的生成主要与模型深层中的MLP模块以及特定的神经元有关.

DreamKG: A KG-Augmented Conversational System for People Experiencing Homelessness

Javad M Alizadeh et al.

cs.AI

本文提出了一个名为DreamKG的对话系统, 它结合了Neo4j知识图谱(KG)来为无家可归者(PEH)提供关于社区服务的可靠信息. 该系统通过结构化查询理解和时空推理来减少大语言模型(LLM)的幻觉, 初步评估显示其在相关查询上优于Google Search AI.

Agentic Driving Coach: Robustness and Determinism of Agentic AI-Powered Human-in-the-Loop Cyber-Physical Systems

Deeksha Prahlad, Daniel Fan, Hokeun Kim

cs.AI cs.CL cs.RO eess.SY

本文提出了一种基于reactor模型的计算方法, 旨在解决由人类用户和AI agent的不可预测行为以及动态物理环境带来的非确定性问题, 以增强agentic AI驱动的HITL CPS的鲁棒性和确定性. 作者通过开源的Lingua Franca框架实现了该方法, 并以agentic驾驶教练作为具体案例进行了研究.

A Mamba-Based Multimodal Network for Multiscale Blast-Induced Rapid Structural Damage Assessment

Wanli Ma et al.

cs.AI

本文提出了一种基于Mamba架构的多模态网络, 用于爆炸引起的多尺度结构损伤快速评估. 该方法整合了多尺度爆炸载荷信息与光学遥感图像, 在2020年贝鲁特爆炸案例中表现出优于现有方法的性能.

SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context

Shuquan Lian et al.

cs.AI cs.CL

本文提出了一种名为SWE-AGILE的软件智能体框架，旨在解决自主软件工程任务中推理深度与上下文效率的矛盾。它通过动态管理推理上下文，在保持近期详细推理的同时压缩历史信息，从而提升了模型在有限资源下的性能。

Collaborative Multi-Agent Scripts Generation for Enhancing Imperfect-Information Reasoning in Murder Mystery Games

Keyang Zhong et al.

cs.AI

本文提出了一个用于生成谋杀之谜游戏剧本的协作多智能体框架, 旨在提升视觉语言模型在不完美信息下的多步推理能力. 该方法通过两阶段训练策略增强模型在不确定和对抗性环境中的表现.

Retrieval Is Not Enough: Why Organizational AI Needs Epistemic Infrastructure

Federico Bottino et al.

cs.AI

本文提出了一个名为OIDA的框架, 旨在为组织AI构建"认知基础设施". 该框架通过定义带有认知类型和重要性分数的知识对象, 以及引入表示组织未知问题的"QUESTION"原语, 来提升系统对知识确定性, 矛盾状态和组织无知的表征能力. 文中还提出了Epistemic Quality Score (EQS)评估方法, 并在初步比较中展示了其效果.

GenTac: Generative Modeling and Forecasting of Soccer Tactics

Jiayuan Rao et al.

cs.AI cs.MA

本文提出了一个基于扩散模型的生成框架 GenTac，用于对足球比赛中的开放战术进行建模和预测。该框架能够从历史追踪数据中学习球员运动的分布，生成多样化的、长期的未来轨迹，并支持丰富的上下文条件控制。

Detecting Safety Violations Across Many Agent Traces

Adam Stein et al.

cs.AI cs.CL

本文提出了一种名为Meerkat的方法, 结合clustering与agentic search来检测多智能体轨迹中的安全违规行为. 该方法在多个基准测试中表现出优于现有监控器的性能.

cs.IR

Retrieval-Augmented Large Language Models for Evidence-Informed Guidance on Cannabidiol Use in Older Adults

Ali Abedi, Charlene H. Chu, Shehroz S. Khan

cs.IR cs.AI

本文提出了一个结合检索增强生成与大语言模型的框架, 用于为老年人提供关于使用大麻二酚(CBD)的循证指导. 研究还设计了一个自动化的评估框架, 在多种用户场景下测试了不同模型, 发现检索增强模型能产生更谨慎且符合指南的建议.

Beyond Offline A/B Testing: Context-Aware Agent Simulation for Recommender System Evaluation

Nicolas Bougie et al.

cs.IR cs.AI

本文提出了一个名为ContextSim的LLM智能体框架, 用于模拟更真实的用户行为以评估推荐系统. 该框架通过模拟日常活动场景来生成上下文感知的交互, 并在多个领域验证了其生成数据与人类行为更高的对齐度.

HyEm: Query-Adaptive Hyperbolic Retrieval for Biomedical Ontologies via Euclidean Vector Indexing

Ou Deng et al.

cs.IR cs.DB

本文提出了一种名为HyEm的轻量级检索层, 用于将双曲本体嵌入集成到现有的欧几里得近似最近邻(ANN)索引基础设施中. 该方法通过查询自适应门控机制, 在重排序阶段结合欧几里得语义相似性和双曲层次距离, 旨在解决生物医学知识检索中层次感知的挑战.

SemaCDR: LLM-Powered Transferable Semantics for Cross-Domain Sequential Recommendation

Chunxu Zhang et al.

cs.IR cs.AI

本文提出了一种基于大语言模型(LLM)的跨域序列推荐框架SemaCDR. 它通过构建统一的语义空间来整合领域无关和领域特定的信息, 以缓解数据稀疏性问题.

MCERF: Advancing Multimodal LLM Evaluation of Engineering Documentation with Enhanced Retrieval

Kiarash Naghavi Khanghah et al.

cs.IR cs.AI cs.CL

本文提出了一个名为MCERF的多模态检索增强生成框架, 用于处理工程文档中的多模态信息(如文本, 表格和插图). 该系统结合了多模态检索器与大语言模型推理, 通过多种检索与推理策略以及动态路由方法, 在DesignQA基准测试上显著提升了问答准确率.

SRBench: A Comprehensive Benchmark for Sequential Recommendation with Large Language Models

Jianhong Li et al.

cs.IR cs.AI

本文提出了一个用于评估 Sequential Recommendation (SR) 模型的综合性基准测试 SRBench. 它通过一个多维评估框架、统一的输入范式和新的答案提取机制, 旨在对基于神经网络和基于大语言模型的 SR 方法进行更公平和全面的比较.

Do We Still Need GraphRAG? Benchmarking RAG and GraphRAG for Agentic Search Systems

Dongzhe Fan et al.

cs.IR cs.AI

本文比较了在智能体搜索系统中使用传统RAG与GraphRAG的效果。研究发现，智能体搜索能显著提升传统RAG的性能，缩小其与GraphRAG的差距，但GraphRAG在复杂推理任务中仍具优势。

Decoding Ancient Oracle Bone Script via Generative Dictionary Retrieval

Yin Wu et al.

cs.IR cs.CV

本文提出了一种基于生成式字典检索的方法来解读甲骨文. 该方法将破译任务重构为检索问题, 利用深度学习生成现代汉字对应的甲骨文变体字典, 从而为未知铭文提供可解释的候选匹配.

Evaluating Scene-based In-Situ Item Labeling for Immersive Conversational Recommendation

Jiazhou Liang et al.

cs.IR cs.AI

本文为沉浸式对话推荐系统(ICRS)中的场景内物品标签选择问题提出了一个原则性的信息需求分类框架和新的评估指标. 作者在多个数据集和场景下对基于IR, LLM和VLM的方法进行了基准测试, 揭示了现有方法在利用场景特定信息, 避免冗余和预测用户主动信息需求方面的局限性.

Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering

Junyoung Koh et al.

cs.IR cs.MM cs.SD

本文介绍了Jamendo-MT-QA，一个用于多音轨比较性音乐问答的数据集和基准测试。它通过一个LLM辅助的流程构建了超过三万六千个比较性问题，并对代表性的音频-语言模型进行了评估。

A Mathematical Theory of Ranking

Yin Cheng

cs.IR

本文提出了一种基于成对比较的排序数学理论. 该理论在线性情况下建立了唯一的局部影响分配规则, 在非线性情况下则通过路径依赖性和交互曲率定理分析了因子分解的特性.

Exploring Structural Complexity in Normative RAG with Graph-based approaches: A case study on the ETSI Standards

Aiman Al Masoud et al.

cs.IR cs.AI cs.CL

本文针对标准与法规文档的结构复杂性, 提出了专门的Graph RAG方法, 并在ETSI标准上进行了案例研究. 实验表明, 将结构和词汇信息融入索引能提升检索性能.

Reproduction Beyond Benchmarks: ConstBERT and ColBERT-v2 Across Backends and Query Distributions

Utshab Kumar Ghosh, Ashish David, Shubham Chatterjee

cs.IR cs.CL cs.LG

本文评估了ColBERT-v2和ConstBERT模型在多个维度的可复现性。研究发现，尽管在标准基准上表现接近，但模型在处理长查询时性能显著下降，且某些后端参数和额外数据微调会带来负面影响。

Self-Distilled Reinforcement Learning for Co-Evolving Agentic Recommender Systems

Zongwei Wang et al.

cs.IR

本文提出了一个名为CoARS的自蒸馏强化学习框架, 用于协同演化的智能体推荐系统. 该框架通过交互奖励和自蒸馏信用分配两种学习方案, 旨在将多轮交互经验内化到模型参数中, 从而提升推荐性能和对齐效果.

HARPO: Hierarchical Agentic Reasoning for User-Aligned Conversational Recommendation

Subham Raj et al.

cs.IR

本文提出了一个名为HARPO的层次化智能体推理框架，用于对话式推荐系统。该框架将推荐过程重构为结构化决策，并通过偏好学习和树搜索来优化多维推荐质量，在多个数据集上取得了改进。

MOSAIC: Multi-Domain Orthogonal Session Adaptive Intent Capture for Prescient Recommendations

Abderaouf Bahi et al.

cs.IR cs.AI

本文提出了一个名为MOSAIC的多领域正交会话自适应意图捕获框架，用于会话推荐系统。该框架通过三重编码器架构将用户偏好分解为三个正交分量，并利用动态门控机制进行融合，在多个真实数据集上取得了优于基线模型的效果。

SID-Coord: Coordinating Semantic IDs for ID-based Ranking in Short-Video Search

Guowen Li et al.

cs.IR

本文提出了一种名为SID-Coord的轻量级框架，用于协调语义ID，以改进基于ID的短视频搜索排序模型。该方法通过引入可训练的离散语义ID，在统一框架内协调基于哈希ID的记忆能力和基于语义ID的泛化能力，并在线上实验中取得了正向效果。

Evaluating Small Open LLMs for Medical Question Answering: A Practical Framework

Avi-ad Avraam Buskila

cs.IR cs.CL

本文提出了一个用于评估小型开源LLMs在医疗问答任务上表现的开源框架, 特别将输出可重现性(reproduciability)作为与准确性同等重要的核心指标. 评估发现, 即使在低温度设置下, 模型的自洽性(self-agreement)也很低, 且大部分输出是唯一的, 这揭示了单次评测可能忽略的安全隐患.

NSFL: A Post-Training Neuro-Symbolic Fuzzy Logic Framework for Boolean Operators in Neural Embeddings

Vladi Vexler et al.

cs.IR cs.AI cs.CL cs.LG

本文提出了一个名为NSFL的神经符号模糊逻辑框架, 用于在神经嵌入空间中实现布尔运算符, 而无需重新训练模型. 该框架通过引入Neuro-Symbolic Deltas和Spherical Query Optimization, 旨在解决传统密集检索器在处理多原子逻辑约束时面临的表示崩溃和流形逃逸问题.

From Query to Conscience: The Importance of Information Retrieval in Empowering Socially Responsible Consumerism

Frans van der Sluis, Leif Azzopardi, Florian Meier

cs.IR cs.HC

本文是一篇关于信息检索(IR)与负责任消费的视角性论文. 作者认为当前的信息检索系统未能有效支持消费者做出符合伦理的购买决策, 并提出了三个相互关联的研究视角以推动该领域的发展.

BDIViz in Action: Interactive Curation and Benchmarking for Schema Matching Methods

Eden Wu et al.

cs.IR cs.HC

本文介绍了一个用于schema matching的交互式可视化系统BDIViz及其扩展功能. 该系统整合了自动匹配方法, 并通过热力图和协调视图支持用户进行交互式验证与标注, 同时利用LLM生成解释以辅助决策. 其扩展功能允许集成新的匹配算法并进行实时性能评估, 旨在支持人机协同的基准测试和匹配器开发.

CMedTEB & CARE: Benchmarking and Enabling Efficient Chinese Medical Retrieval via Asymmetric Encoders

Angqing Jiang et al.

cs.IR

本文提出了一个用于中文医学文本检索的基准CMedTEB和一个非对称检索器CARE。CMedTEB通过多LLM投票和专家验证构建，覆盖检索、重排和语义相似度任务。CARE采用轻量级编码器处理查询，用强大的LLM编码器处理文档，并通过两阶段训练策略优化性能，在保证低延迟的同时提升了检索效果。

Multi-Faceted Continual Knowledge Graph Embedding for Semantic-Aware Link Prediction

Jing Qi et al.

cs.IR

本文提出了一种多方面的持续知识图谱嵌入框架(MF-CKGE), 用于语义感知的链接预测. 该方法通过将新旧知识分离到不同的嵌入空间并采用语义解耦来提升性能.

ARHN: Answer-Centric Relabeling of Hard Negatives with Open-Source LLMs for Dense Retrieval

Hyewon Choi et al.

cs.IR

本文提出了一种名为ARHN的两阶段框架, 利用开源LLMs基于答案中心的相关性信号来精炼密集检索训练中的困难负样本. 该方法通过生成答案片段和列表排序来重新标记假负样本并过滤模糊负样本, 在BEIR基准测试中提升了神经检索模型的训练效果.

R3-VAE: Reference Vector-Guided Rating Residual Quantization VAE for Generative Recommendation

Qiang Wan et al.

cs.IR

本文提出了一种名为R3-VAE的生成式推荐模型，通过引入参考向量和新的量化机制来改进语义标识符的生成。该方法旨在解决向量量化中的训练不稳定性和评估效率问题，并在多个数据集和在线测试中展示了性能提升。

EA-Agent: A Structured Multi-Step Reasoning Agent for Entity Alignment

Yixuan Nan et al.

cs.IR

本文提出了一种名为EA-Agent的智能体，用于知识图谱实体对齐任务。该方法通过结构化多步推理和引入选择器来过滤冗余信息，旨在提升模型的可解释性和效率。

cs.CL

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Mohamed Rissal Hedna et al.

cs.CL cs.LG

本文提出了一种名为SECL的无监督测试时训练方法, 用于改善大型语言模型(LLMs)的校准性. 该方法利用模型自身判别式信号($P(\text{True})$)与生成式置信度之间的理论差距作为自监督信号, 在推理时进行轻量级适配, 无需标注数据即可显著降低预期校准误差(ECE).

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

Dang H. Dang, Jelena Mitrovi, Michael Granitzer

cs.CL

本文研究了利用大规模无标注网页数据和基于LLM的合成标注来提升多语言仇恨言论检测性能。通过两种策略: 在无标注数据上继续预训练BERT模型, 以及使用多个开源LLM通过集成策略生成合成标注。实验表明, 这些方法对小模型和低资源语言最为有益。

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Edward Ajayi, Prasenjit Mitra

cs.CL

本文提出了一种基于认知协同框架的幽默生成方法, 通过混合思维(MoT)和角色蒸馏来合成高质量幽默数据, 并用于微调模型. 实验表明, 认知驱动的数据构建比对齐算法或模型规模对幽默生成更为关键.

Generating High Quality Synthetic Data for Dutch Medical Conversations

Cecilia Kuan, Aditya Kamlesh Parikh, Henk van den Heuvel

cs.CL cs.AI

本文提出了一种使用荷兰语微调大语言模型生成荷兰医疗对话合成数据的流程, 并进行了定量和定性评估. 评估结果表明, 生成对话在词汇多样性上表现良好, 但对话轮转过于规律, 领域专业性和表达自然性有待提升, 凸显了单纯依赖定量指标的局限性.

GIANTS: Generative Insight Anticipation from Scientific Literature

Joy He-Yueya et al.

cs.CL cs.AI

本文提出了一个名为"insight anticipation"的生成任务, 旨在让模型根据一组"parent papers"预测下游论文的核心见解. 作者构建了GiantsBench基准并训练了GIANTS-4B模型, 该模型在生成见解的相似度得分上优于一些更大的专有模型.

Claim2Vec: Embedding Fact-Check Claims for Multilingual Similarity and Clustering

Rrubaa Panchendrarajan, Arkaitz Zubiaga

cs.CL

本文提出了Claim2Vec, 一个用于多语言事实核查声明的嵌入模型. 该模型通过对比学习进行微调, 在声明聚类任务上提升了性能, 并展示了跨语言的知识迁移能力.

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Peiqi Sui et al.

cs.CL

本文提出了一种名为"100-Endings"的新颖度量方法，用于评估LLM生成故事中的叙事张力。该方法通过逐句预测故事结局的多样性来量化张力，并基于此设计了一个能提升叙事张力的故事生成流程。

Simulating Organized Group Behavior: New Framework, Benchmark, and Analysis

Xinkai Zou et al.

cs.CL cs.SI

本文提出了一个用于模拟有组织群体决策行为的新任务Organized Group Behavior Simulation, 并构建了相应的基准数据集GROVE和结构化分析框架. 该框架将群体决策建模为可解释、可追踪的行为模型, 并通过适配器机制捕捉行为的时间演变和跨群体知识迁移.

Should We be Pedantic About Reasoning Errors in Machine Translation?

Calvin Bao, Marine Carpuat

cs.CL cs.AI

本文探讨了机器翻译中推理错误的存在及其影响. 通过自动标注协议量化了三种推理错误类型, 并尝试了多种干预措施来修正这些错误, 但发现修正推理对翻译质量的提升有限.

Human vs. Machine Deception: Distinguishing AI-Generated and Human-Written Fake News Using Ensemble Learning

Samuel Jaeger et al.

cs.CL

本文通过构建包含句子结构、词汇多样性、标点模式、可读性指数和情感维度的文档级特征表示，比较了AI生成与人类撰写的虚假新闻。研究评估了多种机器学习模型及集成学习方法，发现基于可读性的特征最具区分力，且集成学习能带来稳定但有限的性能提升。

Weird Generalization is Weirdly Brittle

Miriam Wanner et al.

cs.CL

本文通过扩展复制研究, 验证了在特定模型和数据集上会出现"怪异泛化"现象, 即模型在窄域数据上微调后, 会在域外表现出意外(甚至危险)的特性. 研究发现该现象极其脆弱, 可通过简单的训练时或基于提示的干预有效缓解.

CoSToM:Causal-oriented Steering for Intrinsic Theory-of-Mind Alignment in Large Language Models

Mengfan Li, Xuanhua Shi, Yang Deng

cs.CL cs.AI

本文提出了一个名为CoSToM的框架, 旨在通过因果干预来对齐大型语言模型(LLM)的内在心智理论(ToM)能力. 该方法首先利用因果追踪(causal tracing)来定位模型内部与ToM相关的关键层, 然后通过轻量级的激活引导(activation steering)技术来提升模型的社会推理和对话表现.

Computational Implementation of a Model of Category-Theoretic Metaphor Comprehension

Fumitaka Iwaki et al.

cs.CL cs.AI

本文为基于indeterminate natural transformation理论的隐喻理解模型开发了计算实现, 简化了算法以更贴近原始理论, 并通过数据拟合和模拟进行了验证.

Linguistic Accommodation Between Neurodivergent Communities on Reddit:A Communication Accommodation Theory Analysis of ADHD and Autism Groups

Saad Mankarious et al.

cs.CL

本文运用Communication Accommodation Theory (CAT) 和LIWC (Language Inquiry and Word Count) 词典，分析了Reddit上ADHD和自闭症群体间的跨社区语言互动。研究发现，当用户进入对方社区时，其语言特征会向对方靠拢，呈现出趋同适应，且这种变化不完全由话题驱动。

ASPIRin: Action Space Projection for Interactivity-Optimized Reinforcement Learning in Full-Duplex Speech Language Models

Chi-Yuan Hsiao et al.

cs.CL cs.AI cs.SD eess.AS

本文提出了一种名为ASPIRin的强化学习框架, 用于优化全双工语音语言模型(SLMs)的交互性. 该方法通过将文本词汇表投影到二元动作空间(说话/沉默)来解耦"何时说"与"说什么", 从而在提升交互性的同时保持了语义质量.

Reason Only When Needed: Efficient Generative Reward Modeling via Model-Internal Uncertainty

Chao Xue et al.

cs.CL

本文提出了一种基于模型内部不确定性的高效生成式奖励建模框架E-GRM. 它通过并行生成的收敛行为来估计不确定性, 从而有选择地触发Chain-of-Thought推理, 并引入一个轻量级判别打分器来评估推理路径.

Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models

Chao Xue et al.

cs.CL

本文系统研究了大型语言模型监督微调中的不完全学习现象, 即模型在收敛后仍无法正确复现部分训练数据. 作者通过实验识别了导致该现象的五个主要原因, 并提出了一个诊断框架和相应的缓解策略.

SEPTQ: A Simple and Effective Post-Training Quantization Paradigm for Large Language Models

Han Liu et al.

cs.CL

本文提出了一种名为SEPTQ的简单有效的后训练量化方法, 用于压缩大型语言模型(LLMs). 该方法通过计算权重矩阵中每个元素的重要性分数, 以静态全局方式确定量化位置, 并利用掩码矩阵逐列量化更新权重, 简化了量化流程. 实验表明, 该方法在多种低比特量化场景下优于现有基线.

Who Wrote This Line? Evaluating the Detection of LLM-Generated Classical Chinese Poetry

Jiang Li et al.

cs.CL

本文提出了一个用于检测大语言模型生成的中国古典诗歌的基准数据集ChangAn, 并基于此评估了多种现有AI文本检测器的性能. 结果表明, 当前检测器在应对古典诗歌独特的格律、意象和句法特征时存在显著局限.

CircuitSynth: Reliable Synthetic Data Generation

Zehua Cheng et al.

cs.CL cs.AI

本文提出了一种名为CircuitSynth的神经符号框架，用于生成高保真合成数据。该方法通过将教师LLM的推理能力提炼为概率可满足性模型，并结合凸优化来满足软分布目标，从而在保证逻辑有效性的同时提升覆盖率。

Training-Free Cross-Lingual Dysarthria Severity Assessment via Phonological Subspace Analysis in Self-Supervised Speech Representations

Bernard Muller, Antonio Armando Ortiz Barrañón, LaVonne Roberts

cs.CL cs.LG

本文提出了一种无需训练的跨语言构音障碍严重程度评估方法, 通过分析冻结的HuBERT表征中的音系特征子空间来量化语音退化. 该方法无需标注的病理语音数据, 仅利用健康对照语音和预训练的强制对齐器来估计音系对比方向, 并计算d-prime分数以构建严重程度指标. 在包含5种语言、3种病因的多个数据集上的实验表明, 所提取的音系特征与临床严重程度评分显著相关, 且方法可推广至任何已有MFA声学模型的语言.

Think in Sentences: Explicit Sentence Boundaries Enhance Language Model's Capabilities

Zhichen Liu, Yongyuan Li, Yang Xu

cs.CL cs.AI

本文提出通过在语言模型输入中显式插入句子边界分隔符来增强其能力的方法. 该方法在多种任务上带来了性能提升, 并为认知启发的模型增强提供了新方向.

Nationality encoding in language model hidden states: Probing culturally differentiated representations in persona-conditioned academic text

Paul Jackson, Ruizhe Li, Elspeth Edelstein

cs.CL

本文通过训练logistic regression probes分析Gemma-3-4b-it模型在生成不同国籍学者persona条件下的学术文本时，其hidden states中是否编码了国籍区分信息。研究发现模型在特定层能高精度区分国籍，且不同国籍的文本在句法和词汇层面存在可探测的差异，但这些差异在生成的完整句子层面并不显著。

ODUTQA-MDC: A Task for Open-Domain Underspecified Tabular QA with Multi-turn Dialogue-based Clarification

Zhensheng Wang et al.

cs.CL cs.DB cs.IR cs.MA

本文提出了一个针对开放域表格问答中模糊查询问题的任务ODUTQA-MDC及其首个综合基准。该基准包含大规模数据集、细粒度评估方案和一个动态澄清接口，并提出了一个名为MAIC-TQA的多智能体框架来处理模糊性。实验验证了该基准和框架的有效性，为相关研究提供了关键资源。

FAITH: Factuality Alignment through Integrating Trustworthiness and Honestness

Xiaoning Dong et al.

cs.CL

本文提出了一个名为FAITH的后训练框架, 旨在提升大型语言模型(LLM)生成内容的真实性. 该方法通过整合自然语言不确定性信号与外部知识, 并利用强化学习进行微调, 在多个知识密集型基准测试中提高了模型的准确性和真实性.

Relational Probing: LM-to-Graph Adaptation for Financial Prediction

Yingjie Niu et al.

cs.CL

本文提出了一种名为"Relational Probing"的方法，用于将语言模型(LM)的隐藏状态直接适配为关系图，以用于金融预测任务。该方法通过替换标准语言模型头并联合训练下游任务模型，旨在降低解码成本并提升预测性能。

CodeComp: Structural KV Cache Compression for Agentic Coding

Qiujiang Chen et al.

cs.CL

本文提出了一种名为CodeComp的无需训练的KV cache压缩框架, 通过整合Joern提取的Code Property Graph先验知识, 将静态程序分析融入LLM推理过程. 该方法在代码任务上优于仅依赖attention信号的压缩基线, 能在高压缩率下恢复大部分全上下文精度.

Comparative Analysis of Large Language Models in Healthcare

Subin Santhosh et al.

cs.CL

本文对多种大型语言模型在医疗领域的表现进行了比较分析, 使用了包括MedMCQA, PubMedQA和Asclepius在内的公开数据集, 评估了它们在病历总结和医学问答等任务上的性能. 研究发现, 特定领域模型(如ChatDoctor)在语境可靠性上表现更佳, 而通用模型(如Grok和LLaMA)在结构化问答任务中定量准确率更高.

Adaptive Multi-Expert Reasoning via Difficulty-Aware Routing and Uncertainty-Guided Aggregation

Mohamed Ehab, Ali Hamdi

cs.CL cs.LG

本文提出了一个用于数学推理的自适应多专家框架, 通过难度感知路由和不确定性引导聚合来动态调整推理策略. 在GSM8K数据集上的实验表明, 该方法仅使用原始训练数据即可达到有竞争力的性能.

A Structured Clustering Approach for Inducing Media Narratives

Rohan Das et al.

cs.CL

本文提出了一种通过结构化聚类联合建模事件与角色的框架, 用于从媒体文本中归纳丰富的叙事模式. 该方法旨在生成可解释的叙事模式, 并能扩展到大规模语料库.

BLUEmed: Retrieval-Augmented Multi-Agent Debate for Clinical Error Detection

Saukun Thika You et al.

cs.CL

本文提出了一个结合混合检索增强生成与多智能体辩论的框架BLUEmed, 用于检测临床笔记中的术语替换错误. 该框架通过分解查询、检索证据、指派专家智能体独立分析并进行结构化辩论与裁决来提升检测性能.

NameBERT: Scaling Name-Based Nationality Classification with LLM-Augmented Open Academic Data

Cong Ming, Ruixin Shi, Yifan Hu

cs.CL

本文利用从开放学术图谱(OAG)构建的大规模姓名-国籍数据集, 并引入一个使用大型语言模型(LLM)作为数据增强器而非推理引擎的框架. 所提出的NameBERT模型在多项任务上取得了比现有基线更高的准确率, 同时保持了比直接使用LLM更高效的大规模推理能力.

LASQ: A Low-resource Aspect-based Sentiment Quadruple Extraction Dataset

Aizihaierjiang Yusufu et al.

cs.CL

本文构建了一个面向低资源语言的细粒度情感四元组抽取数据集LASQ, 包含乌兹别克语和维吾尔语, 并提出了一个整合词性和依存句法知识的网格标注模型来缓解黏着语带来的词汇稀疏问题. 实验表明该数据集和模型均有效.

Turing or Cantor: That is the Question

Eugene Eberbach

cs.CL

本文探讨了Alan Turing与Georg Cantor在计算理论基础上的联系。作者基于Cantor的集合论工作，提出了针对Turing不可判定问题的不可判定性度量，并定义了新的复杂度类。

CodaRAG: Connecting the Dots with Associativity Inspired by Complementary Learning

Cheng-Yen Li et al.

cs.CL cs.AI

本文提出了CodaRAG框架，通过模拟互补学习系统来改进检索增强生成。该方法将检索过程从被动查找转变为主动的关联发现，以连接分散的信息片段。实验表明，该框架在多个任务上提升了检索召回率和生成准确性。

Instruction Data Selection via Answer Divergence

Bo Li et al.

cs.CL

本文提出了一种基于答案分歧度(Answer Divergence)的指令数据选择方法ADG. 该方法通过分析模型对同一指令产生多个回复的几何结构(包括离散程度和形状各向异性)来筛选数据, 实验表明在多个任务上优于基线方法.

NOSE: Neural Olfactory-Semantic Embedding with Tri-Modal Orthogonal Contrastive Learning

Yanyi Su et al.

cs.CL

本文提出了一个名为NOSE的表示学习框架, 用于对齐嗅觉通路中的分子结构, 受体序列和自然语言描述三种模态. 该方法通过正交约束解耦各模态信息, 并引入弱正样本策略来校准语义相似性, 在多个任务上取得了先进的性能.

EviCare: Enhancing Diagnosis Prediction with Deep Model-Guided Evidence for In-Context Reasoning

Hengyu Zhang et al.

cs.CL

本文提出了一个名为EviCare的框架，用于从电子健康记录中进行诊断预测。该框架结合了深度模型与大型语言模型，通过构建上下文提示来引导推理，旨在提升对新型诊断的预测性能。

Dynamic Adaptive Attention and Supervised Contrastive Learning: A Novel Hybrid Framework for Text Sentiment Classification

Qingyang Li

cs.CL

本文提出了一种结合动态自适应多头注意力与监督对比学习的混合框架, 用于文本情感分类. 该模型在BERT编码器基础上, 通过动态调节注意力头贡献和优化嵌入空间分布, 在IMDB数据集上取得了优于基准的性能.

From Query to Counsel: Structured Reasoning with a Multi-Agent Framework and Dataset for Legal Consultation

Mingfei Lu et al.

cs.CL cs.AI

本文提出了一个用于法律咨询问答(Legal CQA)的多智能体框架JurisMA和一个大规模数据集JurisCQAD. 该框架通过结构化任务分解和模块化协作来处理复杂的法律查询, 在评估中超越了通用和特定领域的LLMs.

Why Don't You Know? Evaluating the Impact of Uncertainty Sources on Uncertainty Quantification in LLMs

Maiya Goloburda et al.

cs.CL

本文通过构建一个能明确分类不确定性来源的数据集, 系统地评估了不同不确定性量化方法在不同不确定性来源下的表现. 研究发现, 许多方法在处理模型知识局限时表现良好, 但在面对输出可变性或输入模糊性等其他来源时, 其性能会下降甚至产生误导.

Structure-Grounded Knowledge Retrieval via Code Dependencies for Multi-Step Data Reasoning

Xinyi Huang, Mingzhe Lu, Haoyu Dong

cs.CL

本文提出了一种基于代码依赖结构的知识检索框架SGKR, 用于增强大语言模型在领域数据分析任务中的表现. 该方法通过构建函数调用依赖图来组织知识, 并根据查询提取相关子图作为上下文, 实验表明其能提升多步推理任务的正确性.

ReFEree: Reference-Free and Fine-Grained Method for Evaluating Factual Consistency in Real-World Code Summarization

Suyoung Bae et al.

cs.CL cs.AI cs.PL

本文提出了一种名为ReFEree的无参考细粒度方法, 用于评估现实世界代码摘要的事实一致性. 该方法定义了代码摘要特有的不一致性标准, 结合依赖信息进行片段级评估, 并聚合为细粒度分数, 在一个带有人工标注的基准上取得了与人类判断最高的相关性.

Lost in Diffusion: Uncovering Hallucination Patterns and Failure Modes in Diffusion Large Language Models

Zhengnan Guo, Fei Tan

cs.CL

本文对Diffusion Large Language Models (dLLMs)的幻觉问题进行了首次受控比较研究. 研究发现, 在控制架构, 规模和预训练权重后, dLLMs比自回归模型更容易产生幻觉, 并揭示了其独特的失败模式.

LLMs Should Incorporate Explicit Mechanisms for Human Empathy

Xiaoxing You, Qiang Huang, Jun Yu

cs.CL cs.AI

本文主张大型语言模型(LLMs)应整合显式的人类共情机制。作者将共情形式化为一种可观测的行为属性，并识别了当前LLMs中几种系统性的共情失败模式，指出即使在基准测试表现良好时，这些模型也可能扭曲人类视角。

Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models

Jiyeon Kim et al.

cs.CL cs.AI

本文研究了基于扩散的语言模型在非自回归解码中的推理动态, 发现了一种由邻近偏差导致的失败模式. 作者提出了一种轻量级引导方法来改善早期token选择, 并在多个推理任务上验证了其有效性.

Knowing What to Stress: A Discourse-Conditioned Text-to-Speech Benchmark

Arnon Turetzky et al.

cs.CL cs.SD

本文提出了一个用于评估文本转语音(TTS)系统在上下文中进行词级重音预测能力的基准CAST. 研究发现, 尽管纯文本语言模型能根据上下文推断出正确的重音, 但当前的TTS系统在语音中实现该重音时仍存在差距.

Bridging Linguistic Gaps: Cross-Lingual Mapping in Pre-Training and Dataset for Enhanced Multilingual LLM Performance

Weihua Zheng et al.

cs.CL cs.AI

本文提出了一种在预训练阶段引入跨语言映射任务的方法, 旨在改善多语言大语言模型(LLM)在跨语言任务上的表现. 该方法通过增强嵌入空间中的语言对齐, 在机器翻译等任务上取得了优于基线模型的效果.

Computational Lesions in Multilingual Language Models Separate Shared and Language-specific Brain Alignment

Yang Cui et al.

cs.CL cs.AI cs.CE

本文通过在多语言大语言模型中引入"计算性损伤"技术, 探究了不同语言在神经表征层面的共享与特异性机制. 实验表明, 损伤跨语言共享的核心参数会显著降低全脑编码相关性, 而损伤语言特异性参数则选择性削弱对应母语的脑活动预测能力.

ProUIE: A Macro-to-Micro Progressive Learning Method for LLM-based Universal Information Extraction

Wenda Liu et al.

cs.CL

本文提出了一种名为ProUIE的从宏观到微观的渐进式学习方法，用于改进基于大语言模型的通用信息抽取。该方法通过三个阶段的学习，在不引入外部信息的情况下，提升了在多个任务上的抽取性能。

Efficient Process Reward Modeling via Contrastive Mutual Information

Nakyung Lee, Sangwoo Hong, Jungwoo Lee

cs.CL cs.AI cs.LG

本文提出了一种名为CPMI的自动奖励标注方法, 用于训练过程奖励模型(PRM). 该方法利用模型内部概率来推断步骤级监督, 显著减少了数据标注的计算负担. 实验表明, CPMI在降低计算成本的同时, 在过程级评估和数学推理基准上取得了更高的准确性.

HeceTokenizer: A Syllable-Based Tokenization Approach for Turkish Retrieval

Senol Gulgonul

cs.CL cs.IR

本文提出了一种基于音节的土耳其语分词器 HeceTokenizer, 它利用土耳其语确定的六模式音系结构构建了一个封闭的、无未登录词的词汇表. 实验表明, 该分词器结合细粒度分块检索策略, 在 TQuAD 检索基准上超越了使用更大模型的形态学驱动基线.

Learning and Enforcing Context-Sensitive Control for LLMs

Mohammad Albinhassan et al.

cs.CL cs.AI cs.LG

本文提出了一种从LLM交互中自动学习上下文敏感约束的框架, 包含语法探索和约束利用两个阶段. 该方法使小型LLM也能完美遵守约束生成文本, 无需人工指定规则.

QFS-Composer: Query-focused summarization pipeline for less resourced languages

Vuk Đuranović, Marko Robnik Šikonja

cs.CL

本文提出了一种用于低资源语言查询聚焦摘要的框架QFS-Composer, 它通过集成query decomposition, question generation和question answering等模块来提升摘要与用户意图的事实对齐. 该方法在斯洛文尼亚语上进行了测试, 并开发了相应的评估模型, 实验表明该流程相比基线LLMs能提高一致性与相关性.

Attention Sinks as Internal Signals for Hallucination Detection in Large Language Models

Jakub Binkowski, Kamil Adamczewski, Tomasz Kajdanowicz

cs.CL cs.LG

本文提出了一种基于attention sinks现象的大语言模型幻觉检测方法SinkProbe. 该方法通过分析attention map中注意力过度集中的token来识别模型输出中的事实错误, 并在多个数据集上取得了先进的结果.

Expect the Unexpected? Testing the Surprisal of Salient Entities

Jessica Lin, Amir Zeldes

cs.CL

本文通过分析不同文体中实体的显著性(salience)与信息意外度(surprisal)的关系, 对均匀信息密度(UID)假说进行了细化. 研究发现, 全局显著的实体具有更高的意外度, 并且能降低其周围内容的意外度, 这种效应在不同文体中存在差异.

Too Nice to Tell the Truth: Quantifying Agreeableness-Driven Sycophancy in Role-Playing Language Models

Arya Shah, Deepali Mishra, Chaklam Silpasuwanchai

cs.CL cs.AI

本文研究了角色扮演语言模型中人格特质与谄媚行为的关系. 通过构建包含275个人格的基准测试, 发现多数模型的人格宜人性与谄媚率呈显著正相关.

Self-Correcting RAG: Enhancing Faithfulness via MMKP Context Selection and NLI-Guided MCTS

Shijia Xu et al.

cs.CL

本文提出了一种名为Self-Correcting RAG的框架，旨在提升检索增强生成在复杂推理任务中的准确性和忠实度。它通过将上下文选择建模为MMKP问题来优化检索，并利用NLI引导的MCTS机制在生成时进行验证和探索。

BlasBench: An Open Benchmark for Irish Speech Recognition

Jyoutir Raj, John Conway

cs.CL cs.SD

本文介绍了BlasBench, 一个用于爱尔兰语语音识别的开放基准测试框架. 该框架包含爱尔兰语感知的文本规范化, 并在多个数据集上评估了不同架构的模型, 揭示了模型泛化能力的差距.

RCBSF: A Multi-Agent Framework for Automated Contract Revision via Stackelberg Game

Shijia Xu et al.

cs.CL

本文提出了一个用于自动合同修订的多智能体框架RCBSF, 它将修订过程建模为一个非合作的Stackelberg game. 该框架通过一个分层结构来约束智能体的行为, 并在实验中展现了优于基准方法的性能.

Deep-Reporter: Deep Research for Grounded Multimodal Long-Form Generation

Fangda Ye et al.

cs.CL cs.AI cs.IR

本文提出了一个用于多模态长文本生成的统一智能体框架 Deep-Reporter, 它通过智能体驱动的多模态搜索与过滤、清单引导的增量合成以及循环上下文管理等模块来整合文本与图像信息. 作者构建了一个包含大量高质量训练轨迹的数据集和一个涵盖多领域的综合测试平台, 实验表明有效的后训练可以提升多模态长文本生成的效果.

How You Ask Matters! Adaptive RAG Robustness to Query Variations

Yunah Jang et al.

cs.CL

本文研究了Adaptive RAG系统对语义相同但表述不同的查询的鲁棒性。通过构建一个包含人工和模型生成改写的大规模基准，评估了系统在答案质量、计算成本和检索决策三个维度的表现，发现微小的查询表层变化会显著影响系统性能，揭示了其鲁棒性不足的问题。

Generating Multiple-Choice Knowledge Questions with Interpretable Difficulty Estimation using Knowledge Graphs and Large Language Models

Mehmet Can Şakiroğlu, H. Altay Güvenir, Kamer Kaya

cs.CL cs.AI cs.LG

本文提出了一种结合knowledge graphs和large language models来自动生成多项选择题并估计其难度的方法. 该方法通过计算多种难度信号并整合为一个分数, 实验表明其生成的问题质量较高且难度估计与人类感知一致.

Do BERT Embeddings Encode Narrative Dimensions? A Token-Level Probing Analysis of Time, Space, Causality, and Character in Fiction

Beicheng Bei et al.

cs.CL cs.AI

本文通过线性探测和聚类分析, 研究了BERT嵌入是否编码了虚构叙事中的时间、空间、因果和角色等语义维度. 结果表明, BERT确实编码了有意义的叙事信息, 但这些维度并未形成离散可分的簇.

When Meaning Isn't Literal: Exploring Idiomatic Meaning Across Languages and Modalities

Sarmistha Das et al.

cs.CL

本文构建了一个多语言多模态的习语语料库 Mediom，并基于此提出了一个基于提示的习语解释框架 HIDE。该工作旨在评估和提升大语言模型及视觉语言模型对蕴含文化与隐喻的习语的理解能力。

TInR: Exploring Tool-Internalized Reasoning in Large Language Models

Qiancheng Xu et al.

cs.CL cs.AI

本文提出了Tool-Internalized Reasoning (TInR)框架，旨在将外部工具知识内化到大型语言模型(LLMs)中，以克服传统工具集成推理(TIR)方法的局限性。作者设计了TInR-U框架，通过一个包含知识对齐、监督微调和强化学习的三阶段训练流程来实现工具内化与推理的协同。实验表明，该方法在领域内和领域外任务上均表现出色。

Position-Agnostic Pre-Projection for Transformer Attention: Nonlinear Feature Construction and Content Skip Before Q/K/V

Chirag Shinde

cs.CL cs.LG

本文提出了对transformer attention block的两项改进: 在layer norm和Q/K/V projections之间插入一个非线性pre-projection MLP, 以及在attention机制周围增加一个content skip connection. 在冻结参数的探测实验中, 该方法显著提升了语言模型的性能, 且不增加K/V cache的开销.

Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

Krzysztof Ociepa et al.

cs.CL cs.AI

本文介绍了为波兰语优化的Bielik v3系列大语言模型，其核心改进是将通用的分词器替换为针对波兰语形态学特点设计的专用分词器。报告概述了包括基于FOCUS的嵌入初始化、多阶段预训练以及后续对齐在内的完整训练流程。

OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Xiaomeng Hu et al.

cs.CL

本文提出了OccuBench, 一个用于评估AI agent在真实世界专业任务上表现的基准测试. 它通过Language World Models模拟特定领域环境, 并设计了包含任务完成度和环境鲁棒性的多维度评估体系.

AOP-Smart: A RAG-Enhanced Large Language Model Framework for Adverse Outcome Pathway Analysis

Qinjiang Niu, Lu Yan

cs.CL cs.AI

本文提出了一个名为AOP-Smart的框架，它利用检索增强生成(RAG)技术来提升大型语言模型在毒理学Adverse Outcome Pathway (AOP)分析任务中的表现。该方法通过从AOP-Wiki官方数据中检索相关知识来减少模型幻觉，并在多个LLM上验证了其有效性。

HTAA: Enhancing LLM Planning via Hybrid Toolset Agentization & Adaptation

Chengrui Huang et al.

cs.CL

本文提出了一个名为HTAA的分层框架, 用于增强大型语言模型(Large Language Model, LLM)的工具使用规划能力. 该方法通过将常用工具封装为专门的agent工具来减少规划空间, 并设计了一种非对称规划器适应训练范式来协调高层规划与agent工具.

Mem$^2$Evolve: Towards Self-Evolving Agents via Co-Evolutionary Capability Expansion and Experience Distillation

Zihao Cheng et al.

cs.CL cs.AI

本文提出了一种名为Mem$^2$Evolve的智能体框架，它通过协同进化的能力扩展与经验蒸馏来克服现有自进化方法的局限。该框架整合了经验记忆与资产记忆，利用积累的经验指导新工具或专家智能体的动态创建，从而实现更稳定和有效的自我进化。

YIELD: A Large-Scale Dataset and Evaluation Framework for Information Elicitation Agents

Victor De Lima, Grace Hui Yang

cs.CL

本文提出了一个用于信息获取智能体研究的大规模数据集YIELD和评估框架. 该工作将信息获取形式化为一个有限时域的POMDP, 并设计了相应的评估指标.

When Verification Fails: How Compositionally Infeasible Claims Escape Rejection

Muxin Liu et al.

cs.CL cs.AI

本文探讨了科学主张验证任务中模型可能依赖的捷径推理问题. 作者指出, 现有基准测试无法区分严格验证与仅检查最显著约束的简化方法, 并通过构造组合不可行主张揭示了模型普遍存在的过度接受现象.

When Valid Signals Fail: Regime Boundaries Between LLM Features and RL Trading Policies

Zhengzhe Yang

cs.CL cs.AI cs.CE

本文探讨了使用LLM作为特征提取器来增强RL交易代理的性能. 研究发现, 尽管优化后的提示能产生预测性特征, 但这些特征在宏观经济冲击导致的分布偏移下会损害策略表现, 凸显了特征有效性与策略鲁棒性之间的差距.

Uncertainty-Aware Web-Conditioned Scientific Fact-Checking

Ashwin Vinod, Katrin Erk

cs.CL cs.AI

本文提出了一种基于原子谓词-论元分解和不确定性门控确证的流程, 用于科学事实核查. 该方法通过嵌入对齐原子事实与局部证据片段, 并使用紧凑的证据核查器进行验证, 仅在支持不确定时触发受限的权威网络搜索.

A Systematic Analysis of the Impact of Persona Steering on LLM Capabilities

Jiaqi Chen et al.

cs.CL cs.AI

本文研究了通过Neuron-based Personality Trait Induction (NPTI)框架为大型语言模型(LLM)注入特定人格特质对其认知能力的影响。研究发现，人格诱导会稳定地改变模型在多种认知任务上的表现，且这种影响具有任务依赖性，并与人类的人格-认知关系存在一定一致性。基于此，作者提出了一种轻量级的动态人格路由(DPR)策略。

Shared Emotion Geometry Across Small Language Models: A Cross-Architecture Study of Representation, Behavior, and Methodological Confounds

Jihoon Jeong

cs.CL cs.AI

本文通过统一的流程从多种小型语言模型中提取情感向量, 并使用表征相似性分析比较其几何结构. 研究发现, 成熟架构的情感表征几何高度一致, 且与模型的行为差异解耦, 同时揭示了先前研究中方法效应被多个层面因素混淆的问题.

ks-pret-5m: a 5 million word, 12 million token kashmiri pretraining dataset

Haq Nawaz Malik, Nahfid Nissar

cs.CL

本文介绍了KS-PRET-5M，一个包含约500万单词和1200万子词token的克什米尔语预训练数据集。该数据集通过一个多阶段的清洗流程构建，旨在支持克什米尔语的语言模型预训练和计算语言学研究。

Efficient Training for Cross-lingual Speech Language Models

Yan Zhou et al.

cs.CL cs.AI cs.SD

本文提出了一种基于离散语音token的高效跨语言语音大语言模型训练方法CSLM. 该方法通过持续预训练实现跨模态与跨语言的对齐, 并利用指令微调提升生成质量.

BITS Pilani at SemEval-2026 Task 9: Structured Supervised Fine-Tuning with DPO Refinement for Polarization Detection

Atharva Gupta, Dhruv Kumar, Yash Sinha

cs.CL

本文提出了一种结合结构化监督微调与DPO优化的两阶段方法, 用于社交媒体文本中的政治极化检测. 该方法在SemEval 2026任务数据集上取得了性能提升.

DeCoVec: Building Decoding Space based Task Vector for Large Language Models via In-Context Learning

Feiyang Li, Yile Wang

cs.CL

本文提出了一种无需训练、非侵入性的框架DeCoVec, 通过in-context learning在解码空间构建任务向量来引导大语言模型. 该方法通过对比few-shot与zero-shot提示的输出logit分布差异来捕获任务本质, 并在解码过程中注入此向量以提升生成质量.

How Robust Are Large Language Models for Clinical Numeracy? An Empirical Study on Numerical Reasoning Abilities in Clinical Contexts

Minh-Vuong Nguyen et al.

cs.CL

本文评估了大型语言模型在临床数值推理任务上的鲁棒性, 提出了一个包含多种临床数值问题类型和文本格式的基准测试 ClinicNumRobBench. 实验表明, 模型在数值检索上表现良好, 但在关系比较和聚合任务上存在显著困难, 且对临床文本的格式变化敏感.

SHARE: Social-Humanities AI for Research and Education

João Gonçalves et al.

cs.CL

本文介绍了为社会科学与人文学科(SSH)专门预训练的SHARE系列基础模型及其配套的MIRROR用户界面。该模型在SSH文本建模任务上表现接近规模大得多的通用模型，其界面设计旨在促进批判性思考而非直接生成文本。

Evaluating Memory Capability in Continuous Lifelog Scenario

Jianjie Zheng et al.

cs.CL

本文提出了一个用于评估连续生活日志场景中记忆能力的基准测试 LifeDialBench, 包含基于真实视频的 EgoMem 和基于虚拟社区模拟的 LifeMem 两个子集. 研究通过在线评估协议发现, 当前复杂的记忆系统在保留高保真 context 方面表现不佳, 甚至不如简单的 RAG 基线.

MathAgent: Adversarial Evolution of Constraint Graphs for Mathematical Reasoning Data Synthesis

Zixiong Yu et al.

cs.CL cs.AI

本文提出了一种基于约束图对抗演化和语义实例化的数学推理数据合成框架. 该方法通过分离逻辑结构设计与语言实现, 旨在生成逻辑复杂且多样的数据, 实验表明其合成数据在微调模型上取得了良好的效果.

TRACE: An Experiential Framework for Coherent Multi-hop Knowledge Graph Question Answering

Yingxu Wang et al.

cs.CL

本文提出了一个名为TRACE的经验性框架, 用于提升多跳知识图谱问答(KGQA)的连贯性. 该框架通过将推理路径动态转化为自然语言叙述来维持语义连续性, 并利用先前的探索轨迹生成可重用的经验先验. 实验表明其在多个基准测试上优于现有方法.

CocoaBench: Evaluating Unified Digital Agents in the Wild

CocoaBench Team et al.

cs.CL cs.AI

本文提出了一个用于评估统一数字智能体的基准测试CocoaBench, 它包含需要组合视觉、搜索和编码能力的长视野任务. 实验表明当前智能体在该基准上的表现仍有很大提升空间.

Exploring Knowledge Conflicts for Faithful LLM Reasoning: Benchmark and Method

Tianzhe Zhao et al.

cs.CL cs.AI

本文提出了一个名为ConflictQA的新基准, 用于评估大语言模型在面对来自文本和知识图谱的异构证据冲突时的忠实推理能力. 实验表明现有模型在此类冲突下表现不佳, 作者进一步提出了一个两阶段的解释性思维框架XoT来改善这一状况.

HiEdit: Lifelong Model Editing with Hierarchical Reinforcement Learning

Yangfan Wang et al.

cs.CL

本文提出了一种名为HiEdit的分层强化学习框架, 用于实现终身模型编辑(LME). 该方法通过自适应地为每个编辑实例选择最相关的模型层进行参数扰动, 旨在更精确地更新知识并减少副作用. 实验表明, HiEdit在扰动更少层数的情况下, 提升了现有编辑方法的性能.

RUMLEM: A Dictionary-Based Lemmatizer for Romansh

Dominic P. Fischer, Zachary Hopton, Jannis Vamvas

cs.CL

本文介绍了RUMLEM, 一个基于词典的罗曼什语词形还原工具. 它覆盖了罗曼什语的五种主要变体和一种超区域标准变体, 在文本中的词形还原覆盖率达到77-84%, 并能以95%的准确率进行变体分类.

Judge Like Human Examiners: A Weighted Importance Multi-Point Evaluation Framework for Generative Tasks with Long-form Answers

Guoxin Yu et al.

cs.CL

本文提出了一个用于长文本生成任务评估的加权重要性多点评估框架, 通过将参考答案分解为带权重的上下文绑定评分点来进行细粒度评估. 该框架设计了两个互补的指标来衡量模型回答与参考答案的对齐和矛盾程度, 并在多个任务上验证了其与人工标注的相关性.

Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate

Zhixiang Lu, Jionglong Su

cs.CL

本文提出了一个名为Dialectic-Med的多智能体框架, 旨在通过对抗性辩论来缓解医疗多模态大语言模型(MLLMs)中的诊断幻觉问题. 该框架通过三个角色化智能体的动态交互, 强制诊断推理过程基于经过验证的视觉证据, 从而提高了推理过程的可信度.

Transactional Attention: Semantic Sponsorship for KV-Cache Retention

Abhinaba Basu

cs.CL cs.LG

本文提出了一种名为Transactional Attention (TA)的KV-cache保留机制，旨在解决现有压缩方法无法保留关键但注意力分数低的“休眠令牌”的问题。该方法通过结构锚模式来保护相邻的重要令牌，在极端压缩条件下实现了100%的凭证检索成功率，并与现有方法正交，额外开销低。

Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation

Lester James V. Miranda, Ivan Vulić, Anna Korhonen

cs.CL

本文系统评估了语言模型在多语言合成数据生成中的教师角色, 提出并应用了Polyglot Score这一综合指标来衡量教师模型的有效性. 研究发现, 模型规模并非教师效能的关键预测因素, 而数据质量属性如提示多样性、长度和回答流畅性等更为重要.

Enhancing Multimodal Large Language Models for Ancient Chinese Character Evolution Analysis via Glyph-Driven Fine-Tuning

Rui Song et al.

cs.CL cs.AI

本文提出了一个用于评估多模态大语言模型(MLLMs)在古汉字演变分析中能力的基准测试，并针对现有模型的不足，引入了一种基于字形驱动的微调框架(GEVO)来提升模型性能。实验表明该方法能有效提升小规模模型在相关任务上的表现。

Do LLMs Know Tool Irrelevance? Demystifying Structural Alignment Bias in Tool Invocations

Yilong Liu et al.

cs.CL cs.AI

本文研究了大型语言模型(LLMs)在调用外部工具时存在的一种结构性对齐偏差, 即模型倾向于在查询属性与工具参数形式上匹配时调用工具, 即使该工具语义上与查询无关. 作者提出了一个评估数据集SABEval来研究此偏差, 并通过一种注意力归因方法分析了其内部机制, 最后提出了一种缓解策略.

Retrieval as Generation: A Unified Framework with Self-Triggered Information Planning

Bo Li et al.

cs.CL cs.AI

本文提出了一种名为GRIP的统一框架, 将检索决策嵌入到token级别的解码过程中, 实现了检索与生成的端到端协调. 该方法在多个QA基准测试上表现优异, 与GPT-4o性能相当但参数量更少.

Bridging What the Model Thinks and How It Speaks: Self-Aware Speech Language Models for Expressive Speech Generation

Kuang Wang et al.

cs.CL

本文提出了一种自感知语音语言模型(SA-SLM), 旨在解决语音生成中语义理解与声学表现之间的差距. 该方法通过意图感知桥接和实现感知对齐两个核心机制, 在有限数据上训练后, 在表达性语音生成任务上取得了有竞争力的效果.

METRO: Towards Strategy Induction from Expert Dialogue Transcripts for Non-collaborative Dialogues

Haofu Yang et al.

cs.CL cs.AI

本文提出了一种名为METRO的方法, 用于从非协作对话的专家文本记录中自动归纳策略. 该方法利用大语言模型构建了一个名为Strategy Forest的层次化结构, 以捕捉短期响应和长期战略规划. 在两个基准测试上的实验表明, METRO的性能优于现有方法.

Think Before you Write: QA-Guided Reasoning for Character Descriptions in Books

Argyrios Papoudakis, Mirella Lapata, Frank Keller

cs.CL cs.AI cs.IR cs.LG

本文提出了一种将推理与生成解耦的训练框架, 用于从长篇叙事中生成角色描述. 该方法使用一个推理模型生成结构化的QA推理轨迹, 然后由一个生成模型基于此轨迹生成最终描述, 实验表明其在忠实度和信息量上优于基线模型.

METER: Evaluating Multi-Level Contextual Causal Reasoning in Large Language Models

Pengfeng Li et al.

cs.CL cs.AI

本文提出了一个名为METER的基准测试, 用于在统一的上下文设置下, 系统性地评估大型语言模型(LLMs)在因果阶梯(causal ladder)所有三个层次上的表现. 评估发现模型在因果层次上的能力显著下降, 并通过机制分析揭示了两种主要的失败模式.

Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization

Jiashu Yao et al.

cs.CL cs.AI cs.LG

本文提出了一种名为 Policy Split 的新范式，用于在大型语言模型的强化学习中平衡探索与利用。该方法通过将策略分为正常模式和高熵模式，并引入双模熵正则化，在保持任务准确性的同时鼓励了多样化的探索。

Triviality Corrected Endogenous Reward

Xinda Wang et al.

cs.CL

本文针对开放文本生成中缺乏可验证奖励的问题, 提出了一种无监督强化学习方法 TCER. 该方法通过校正置信度奖励带来的平凡性偏差, 在多个写作基准上取得了改进, 并能迁移到数学推理任务.

NovBench: Evaluating Large Language Models on Academic Paper Novelty Assessment

Wenqing Wu et al.

cs.CL cs.AI cs.DL cs.IR

本文提出了NovBench, 一个用于评估大语言模型(LLM)在学术论文新颖性评估方面能力的基准. 实验表明, 当前模型对科学新颖性的理解有限, 且微调模型存在指令遵循问题.

Time is Not a Label: Continuous Phase Rotation for Temporal Knowledge Graphs and Agentic Memory

Weixian Waylon Li et al.

cs.CL cs.AI

本文提出了一种用于结构化记忆系统的时序知识图谱模块RoMem, 它通过预训练的语义速度门将关系文本嵌入映射到波动性分数, 并结合连续相位旋转实现几何遮蔽, 使过时事实在复向量空间中失相, 从而在不删除的情况下处理时序信息. 该方法在时序知识图谱补全和智能体记忆任务上取得了优异性能.

Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale

Liujie Zhang et al.

cs.CL

本文提出了一个名为Relax的异步强化学习引擎, 用于大规模全模态后训练. 它通过三层架构设计解决了异构数据流, 大规模操作鲁棒性和陈旧性-吞吐量权衡等挑战, 在多种模态和模型上实现了显著的训练加速和稳定的收敛性能.

Synthius-Mem: Brain-Inspired Hallucination-Resistant Persona Memory Achieving 94.4% Memory Accuracy and 99.6% Adversarial Robustness on LoCoMo

Artem Gadzhiev, Andrew Kislov

cs.CL cs.AI cs.LG

本文提出了一种名为Synthius-Mem的、受大脑启发的结构化人物记忆系统，用于解决AI代理长期记忆中的幻觉问题。该系统通过将对话分解到多个认知域并整合信息，在LoCoMo基准测试上取得了高准确性和对抗鲁棒性。

Phonological distances for linguistic typology and the origin of Indo-European languages

Marius Mavridis et al.

cs.CL cond-mat.stat-mech cs.IT physics.soc-ph

本文提出了一种基于信息论的 phonological distance 度量方法, 通过将音素序列建模为二阶 Markov chain 来捕捉语音系统的统计相关性. 该方法应用于 67 种现代语言, 得到的距离矩阵能够识别主要语系, 并揭示了语言接触导致的趋同现象, 其与地理距离的相关性为印欧语系的起源地(与草原假说一致)提供了约束.

MIXAR: Scaling Autoregressive Pixel-based Language Models to Multiple Languages and Scripts

Chen Hu et al.

cs.CL

本文提出了MIXAR, 一个基于像素(pixel)的多语言生成模型, 在多种语言和文字脚本上进行了训练和评估. 实验表明该模型在多项任务上超越了之前的像素模型和基于分词器(tokenizer)的模型, 并展现出对未见语言的鲁棒性.

Decomposing and Reducing Hidden Measurement Error in LLM Evaluation Pipelines

Solomon Messing

cs.CL

本文分析了LLM评估流程中的不确定性来源, 将其分解为可随数据增加而减少的方差和对研究者设计选择敏感的方差, 并提出了优化方案以减少总体误差. 通过多个实验验证, 优化后的流程在预算相同的情况下能显著降低估计误差.

A Triadic Suffix Tokenization Scheme for Numerical Reasoning

Olga Chetverina

cs.CL cs.AI cs.LG

本文提出了一种名为Triadic Suffix Tokenization (TST)的确定性数字分词方案，旨在解决标准子词分词方法在处理数字时导致的结构信息丢失问题。该方案通过将数字按三位一组进行划分并添加显式的数量级标记，为语言模型提供了更一致的梯度信号。

Self-Evolving LLM Memory Extraction Across Heterogeneous Tasks

Yuqing Yang et al.

cs.CL

本文针对LLM在异构任务中进行记忆提取的问题, 提出了一个基准测试BEHEMOTH和一个基于聚类的自演化策略CluE. 实验表明, CluE策略在异构任务上比现有方法有更好的泛化性能.

Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation

Jiashu Yao et al.

cs.CL cs.LG

本文提出了一种名为MISE的强化学习范式, 用于缓解大语言模型智能体训练中的稀疏奖励问题. 该方法利用 hindsight self-evaluation 生成密集的内部奖励信号, 并通过与外部环境反馈进行校准来优化策略.

Back to Basics: Let Conversational Agents Remember with Just Retrieval and Generation

Yuqian Wu et al.

cs.CL

本文提出了一种极简的对话记忆框架，通过Turn Isolation Retrieval和Query-Driven Pruning技术，仅依赖检索与生成来管理长对话历史。该方法旨在解决长对话中信号稀疏与冗余的问题，并在多个基准测试中展现了高效且稳健的性能。

CArtBench: Evaluating Vision-Language Models on Chinese Art Understanding, Interpretation, and Authenticity

Xuefeng Wei et al.

cs.CL

本文提出了一个名为CArtBench的基准测试, 用于评估视觉语言模型(VLMs)在中文艺术品理解、阐释和真伪鉴别方面的能力. 该基准包含四个子任务, 测试结果表明当前模型在需要专家级推理的任务上仍面临显著挑战.

RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents

Riccardo Rosati et al.

cs.CL cs.AI cs.MA

本文提出了一个用于评估基于LLM的角色扮演智能体(RPAs)的多阶段自动化框架RPA-Check. 该框架通过定义评估维度, 生成细粒度检查项, 并进行语义过滤与LLM-as-a-Judge评分, 为复杂约束环境下的智能体性能提供了标准化评估方案.

Hidden Failures in Robustness: Why Supervised Uncertainty Quantification Needs Better Evaluation

Joe Stacey et al.

cs.CL

本文系统评估了基于监督学习的 uncertainty probes 在分布偏移下的鲁棒性, 发现现有方法在长文本生成等场景中表现不佳. 研究指出, probe 的鲁棒性更多取决于输入特征的选择, 而非模型架构, 并提出了简单的混合回退策略以提升鲁棒性.

Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind

Hanqi Xiao et al.

cs.CL cs.AI cs.LG

本文提出了一种新的隐私主题的 Theory of Mind (ToM) 挑战，称为 ToM for Steering Beliefs (ToM-SB)，旨在训练一个“双面特工”防御者来引导攻击者的信念。通过强化学习训练 AI 双面特工，研究发现 ToM 能力与欺骗攻击者的成功之间存在双向促进关系。

Please Make it Sound like Human: Encoder-Decoder vs. Decoder-Only Transformers for AI-to-Human Text Style Transfer

Utsav Paneru

cs.CL

本文研究了将AI生成文本改写为类人风格的任务, 构建了一个包含成对文本的语料库并定义了11个风格标记. 通过微调BART和Mistral-7B等模型进行实验, 发现较小的BART-large模型在相似性指标上表现优于参数更多的Mistral-7B, 并指出当前风格迁移评估中存在盲区.

Legal2LogicICL: Improving Generalization in Transforming Legal Cases to Logical Formulas via Diverse Few-Shot Learning

Jieying Xue et al.

cs.CL cs.AI cs.LG

本文提出了一种基于LLM的法律推理框架Legal2LogicICL, 通过结合检索增强生成和多样化的少样本学习, 将自然语言法律案例转化为逻辑公式. 该方法在构建演示示例时平衡了语义和文本结构的多样性, 并缓解了法律文本中实体信息带来的检索偏差, 从而在不额外训练的情况下提升了逻辑规则生成的准确性和稳定性.

Evaluating Cooperation in LLM Social Groups through Elected Leadership

Ryan Faulkner et al.

cs.CL cs.AI cs.LG

本文通过一个开源的多智能体模拟框架, 研究了在大型语言模型(LLM)驱动的智能体群体中引入选举领导机制对合作与社会福利的影响. 实验表明, 选举领导能显著提升社会福利得分和群体生存时间, 并通过社会网络分析和情感分析评估了领导角色的影响力与修辞倾向.

Discourse Diversity in Multi-Turn Empathic Dialogue

Hongli Zhan et al.

cs.CL cs.AI

本文研究了大型语言模型(LLM)在多轮共情对话中话语策略的重复性问题, 并提出了一个名为MINT的强化学习框架来优化跨轮次的话语策略多样性.

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

Yuxin Chen et al.

cs.CL cs.LG

本文提出了一种名为LangFlow的连续扩散语言模型, 通过引入基于Bregman divergence的Flow Matching框架, 在多个基准测试中达到了与离散扩散模型相当的性能. 该方法在困惑度(perplexity)和零样本迁移任务上表现优异, 证明了连续扩散在语言建模领域的潜力.

HistLens: Mapping Idea Change across Concepts and Corpora

Yi Jing et al.

cs.CL

本文提出了一个基于SAE的统一框架HistLens, 用于分析多概念和多语料库的概念历史. 该框架通过分解概念表示并追踪其特征激活的动态变化, 支持跨概念和跨语料库的思想演化模式计算.

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Yoonsang Lee et al.

cs.CL

本文提出了一种名为AggAgent的智能体聚合方法, 用于并行扩展长视野智能体任务(如深度研究). 该方法将并行生成的多个任务轨迹视为环境, 并利用轻量级工具来检查和搜索这些轨迹, 从而在有限的上下文窗口内有效合成最终答案. 实验表明, AggAgent在多个基准测试和模型上优于现有聚合方法, 且计算开销可控.

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Junlin Liu et al.

cs.CL cs.AI

本文提出了一个名为General365的基准测试, 旨在评估大语言模型在脱离专业领域知识后的通用推理能力. 该基准包含365个种子问题和1,095个变体问题, 测试结果显示当前最先进的模型准确率也仅为62.8%, 表明其推理能力仍高度依赖于特定领域.

C-ReD: A Comprehensive Chinese Benchmark for AI-Generated Text Detection Derived from Real-World Prompts

Chenxi Qing et al.

cs.CL cs.AI

本文提出了一个用于检测AI生成文本的中文基准C-ReD, 旨在解决现有中文数据集在模型多样性、领域覆盖和提示真实性方面的不足. 实验表明该基准在领域内检测和泛化到未见模型及外部数据集方面表现良好.

CLSGen: A Dual-Head Fine-Tuning Framework for Joint Probabilistic Classification and Verbalized Explanation

WonJin Yoon et al.

cs.CL

本文提出了一个名为CLSGen的微调框架, 旨在使大型语言模型(LLMs)在进行二元概率分类的同时, 保留其生成语言解释的能力. 该框架通过新的架构、训练方法和数据构建策略, 在多个基准数据集上实现了优于基线模型的分类性能, 并保持了预测标签与生成理由之间的一致性以及解释的可读性.

Psychological Concept Neurons: Can Neural Control Bias Probing and Shift Generation in LLMs?

Yuto Harada, Hiro Taiyo Hamada

cs.CL

本文通过探测和干预方法, 研究了大型语言模型(LLMs)中"大五人格"心理学概念的内部表征形成、定位及其与行为输出的关系. 研究发现, 对概念选择性神经元的干预能有效偏置潜在表征, 但对生成标签的行为控制效果较弱且存在概念依赖性.

Saar-Voice: A Multi-Speaker Saarbrücken Dialect Speech Corpus

Lena S. Oberkircher et al.

cs.CL

本文介绍了Saar-Voice, 一个用于德语萨尔布吕肯方言的多说话人语音语料库. 该语料库包含对齐的文本和音频数据, 旨在为低资源场景下的方言文本转语音研究提供基础.

cs.DS

Algorithms for Standard-form ILP Problems via Komlós' Discrepancy Setting

Dmitry Gribanov et al.

cs.DS cs.CC cs.CG math.OC

本文研究了标准形式的整数线性规划问题, 提出了一种基于Komlós discrepancy setting的改进FPT算法. 该算法将discrepancy-based动态规划与矩阵discrepancy bounds相结合, 其运行时间参数化于约束矩阵的秩$k$和子式最大绝对值$\Delta$.

On the Approximability of Max-Cut on 3-Colorable Graphs and Graphs with Large Independent Sets

Suprovat Ghoshal et al.

cs.DS

本文研究了Max-Cut问题在具有特定染色结构（如3-可着色或包含大独立集）的图上的近似性。对于3-可着色图，证明了其近似难度与一般图相同，均为$\alpha_{GW}$。同时，确定了一个关于独立集大小的阈值$\alpha^*$，当独立集大小超过此阈值时，存在优于$\alpha_{GW}$的近似算法。

Optimal FPT-Approximability for Modular Linear Equations

Konrad K. Dabrowski et al.

cs.DS

本文研究了求解几乎可满足的模线性方程组的最优 FPT-近似性, 完成了 Min-$r$-Lin$(\mathbb{Z}_m)$ 问题在参数化复杂度与 FPT-近似性方面的完整刻画. 对于模为素数幂 $m = p^d$ 的二元线性方程组情形, 作者证明了该问题属于 FPT, 并给出了基于模 $m$ 不同质因子数 $\omega(m)$ 的最优近似因子下界.

Tradeoffs in Privacy, Welfare, and Fairness for Facility Location

Sara Fish et al.

cs.DS cs.GT

本文研究了在差分隐私(DP)约束下的设施选址问题, 探讨了隐私、社会福利和公平性之间的权衡. 作者首先证明了一个不可能性结果, 然后通过放松公平性要求, 为更"现实"的数据集族构造了一个机制, 并证明了其在公平性和社会福利上的(近似)最优性.

Edge-Tilting Field Dynamics: Rapid Mixing at the Uniqueness Threshold and Optimal Mixing for Swendsen-Wang Dynamics

Xiaoyu Chen et al.

cs.DS math.PR

本文研究了两种自旋系统的马尔可夫链混合时间。首先，证明了在无限正则树上Gibbs测度唯一性相变临界点处，反铁磁双自旋系统Gibbs分布的Glauber动力学具有多项式混合时间。其次，证明了在有外场的铁磁Ising模型中，Swendsen-Wang动力学在有界度图上的混合时间为最优的$O(\log n)$，且具有最优的$\Omega(1)$谱隙。证明的核心是引入了一种新的局部化方案，通过倾斜边权重而非顶点场来扩展场动力学框架。

Optimized Customizable Route Planning in Large Road Networks with Batch Processing

Muhammad Farhan, Henning Koehler

cs.DS

本文在Customizable Tree Labeling (CTL)框架基础上，针对大规模道路网络中可定制路线规划问题，提出了路径信息存储与重构的优化算法及批处理策略。通过在不同信息存储方案间权衡内存与查询性能，并在真实路网数据上验证了其优于现有方法的性能。

New Approximations for Temporal Vertex Cover on Always Star Temporal Graphs

Sophia Heck, Eleni Akrida

cs.DS

本文针对 always star temporal graphs 上的 Sliding Window Temporal Vertex Cover (SW-TVC) 问题，提出了两个多项式时间的近似算法，分别达到了 $2\Delta-1$ 和 $\Delta-1$ 的近似比。研究还首次实现了现有的基于 snapshot 最大度数 $d$ 的近似算法，并通过实验比较了新旧算法的性能。

Differentially Private Verification of Distribution Properties

Elbert Du et al.

cs.DS cs.CC cs.LG

本文研究了在差分隐私(DP)约束下，借助不可信证明者验证分布性质的交互式证明协议。作者探讨了不同隐私参数模型下，私有随机币(private-coin)协议与公开随机币(public-coin)协议在样本和通信复杂度上的关系。结果表明，在特定的隐私参数范围内，私有随机币协议的优势可以被消除或转化，但在非常宽松的隐私保证下，私有随机币确实能降低复杂度。此外，文章还针对检验样本是否来自乘积分布(product distribution)的问题，给出了一个最优样本复杂度的Merlin-Arthur（单消息）证明。

Computational Generation of Substrate-Specific Molecular Cages

Noé Demange, Yann Strozecki, Sandrine Vial

cs.DS physics.chem-ph

本文提出了一种构建特定底物分子笼的计算方法. 该方法将分子笼建模为空间原子图, 并通过算法连接结合位点以生成最小的分子路径.

Above-Guarantee Algorithm for Properly Colored Spanning Trees

Yuhang Bai, Kristóf Bérczi

cs.DS math.CO

本文研究了Properly Colored Spanning Tree问题的算法版本. 作者提供了一个多项式时间算法, 在连通边着色图中构造一个阶数至少为$\min\{|V(G)|, 2\delta^c(G)+1\}$的properly colored tree.

Wavelet Forests Revisited

Eric Chiu, Dominik Kempa

cs.DS

本文研究了基于固定块压缩提升技术的wavelet forest数据结构, 扩展了其对select查询的支持. 实验表明, 该扩展在保持低空间开销的同时, 在多种输入上具有与独立wavelet tree实现相当或更优的实践性能.

Min-Sum Set Cover on Parallel Machines

Michał Szyfelbein

cs.DS

本文研究了并行机器上的Min-Sum Set Cover问题，即经典Min-Sum Set Cover问题在多台机器上的推广。作者通过引入并解决一个关键的Parallel Maximum Coverage子问题，为不相关机器和同类机器的情况分别设计了近似算法。

Scalable Exact Hierarchical Agglomerative Clustering via Sparse Geographic Distance Graphs

Victor Maus, Vinicius Pozzobon Borin

cs.DS cs.CG

本文提出了一种名为GSHAC的可扩展精确层次凝聚聚类方法, 通过构建稀疏地理距离图来避免计算完整的$O(n^2)$距离矩阵. 该方法利用空间索引高效构建图, 并通过图的连通分量定义独立的子问题, 从而在保证结果精确性的前提下, 显著降低了大规模空间数据集聚类的时间和内存开销.

Faster Approximate Linear Matroid Intersection

Tatsuya Terao

cs.DS

本文针对线性拟阵交问题及其加权版本, 提出了更快的$(1 - \varepsilon)$近似算法. 该算法结合了自适应稀疏化框架与一种高效的向量线性相关性检查方法, 在时间复杂度上优于之前的精确算法和近似算法.

others

FM-Agent: Scaling Formal Methods to Large Systems via LLM-Based Hoare-Style Reasoning ⭐ 精选

Haoran Ding, Zhaoguo Wang, Haibo Chen

cs.SE cs.AI

本文提出了FM-Agent, 首个实现大规模系统自动化组合推理(compositional reasoning)的框架. 它利用LLM引入了一种自顶向下的范式, 能够从函数调用者的期望行为自动生成函数级的形式化规约(formal specification), 从而减轻了传统Hoare逻辑需要人工编写所有规约的负担. 为了处理开发者用自然语言表达的意图, 该框架将Hoare-style推理推广到能够针对自然语言规约进行验证. 在评估中, FM-Agent成功地对高达14.3万行代码的系统进行了推理, 并发现了522个新错误.

The Paradox of Professional Input: How Expert Collaboration with AI Systems Shapes Their Future Value

Venkat Ram Reddy Ganuthula, Krishna Kumar Balaraman

econ.GN cs.AI

本文探讨了专家与AI系统协作时, 将其隐性知识外显化所引发的潜在悖论: 这可能加速其自身专业技能的自动化. 作者结合知识管理, 人机交互等多个领域的研究, 分析了专业价值在AI时代如何被保存与转化, 并提出了相应的应对框架.

SHANG++: Robust Stochastic Acceleration under Multiplicative Noise

Yaxin Yu, Long Chen, Minfu Feng

math.OC cs.LG

本文针对 multiplicative noise scaling (MNS) 条件下经典 Nesterov 加速方法对噪声敏感的问题, 提出了两种新的加速随机梯度下降方法. 通过离散化 Hessian-driven Nesterov accelerated gradient flow, 作者首先推导了 SHANG 方法, 并进一步引入阻尼校正得到更鲁棒、收敛更快的 SHANG++ 方法.

Para-B&B: Load-Balanced Deterministic Parallelization of Solving MIP

Jinyu Zhang et al.

cs.DC cs.AI

本文提出了一种用于混合整数规划(MIP)求解器HiGHS的确定性并行分支定界(B&B)框架Para-B&B. 它通过数据并行架构确保确定性, 并利用AI驱动的负载均衡机制来提升并行效率.

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

Talor Abramovich et al.

cs.DC cs.AI

本文提出了一个用于评估Speculative Decoding (SD) 技术的统一基准测试套件SPEED-Bench. 它通过提供多样化的语义数据和面向吞吐量的测试场景, 旨在更准确地衡量SD在真实生产环境中的性能.

VTC: DNN Compilation with Virtual Tensors for Data Movement Elimination

Muyan Hu et al.

cs.DC cs.LG cs.PL

本文提出了一种名为VTC的DNN编译框架，通过引入virtual tensors的概念来追踪计算操作符之间的数据移动，从而减少不必要的全局内存访问。该框架能够与现有计算内核协同工作，并在多种DNN模型上实现了性能提升和内存节省。

Emergent Social Structures in Autonomous AI Agent Networks: A Metadata Analysis of 626 Agents on the Pilot Protocol

Teodor-Ioan Calin

cs.SI cs.AI cs.CY cs.DC

本文通过分析626个自主AI agent在Pilot Protocol网络中的元数据，研究了其自发形成的社会网络结构。研究发现该网络具有重尾度分布、高聚类系数等与人类社交网络相似的特征，同时也存在普遍的自我信任等非人类特征。

StreamServe: Adaptive Speculative Flows for Low-Latency Disaggregated LLM Serving

Satyam Kumar et al.

cs.DC cs.AI

本文提出了一种名为StreamServe的分解式LLM服务架构, 通过结合基于度量的路由和运行时自适应推测解码来优化吞吐量和延迟. 在单节点4 GPU的评估中, 该架构相比基线显著降低了延迟并提升了特定任务的吞吐率.

ACE-Bench: A Lightweight Benchmark for Evaluating Azure SDK Usage Correctness

Wenxing Zhu et al.

cs.DC cs.AI cs.SE

本文提出了一个名为ACE-Bench的轻量级基准测试，用于评估基于LLM的编码代理使用Azure SDK的正确性。该基准将官方文档示例转化为自包含的编码任务，并通过确定性规则和基于LLM的语义检查来验证解决方案，旨在降低评估成本并提高可重复性。

AEG: A Baremetal Framework for AI Acceleration via Direct Hardware Access in Heterogeneous Accelerators

Hua Jiang et al.

cs.DC cs.AI

本文提出了一种名为AEG的baremetal runtime架构, 用于在异构AI加速器(如AI Engine阵列)上实现高性能机器学习推理. 该框架通过将控制逻辑扁平化为Runtime Control Blocks (RCBs), 并利用Runtime Hardware Abstraction Layer (RHAL)和Runtime Platform Management (RTPM)等组件, 避免了传统操作系统的开销. 实验表明, 其在ResNet-18图像分类任务上相比基于Linux的Vitis AI部署, 实现了更高的计算效率和更低的延迟方差.

LETGAMES: An LLM-Powered Gamified Approach to Cognitive Training for Patients with Cognitive Impairment

Jingwei Shi et al.

cs.HC cs.AI cs.CL

本文提出了一种基于LLM的自动化个性化认知训练游戏设计方法LETGAMES. 该方法生成开放世界互动叙事游戏, 并设计了基于心理学的评估协议来验证其有效性.

Neuro-Symbolic Strong-AI Robots with Closed Knowledge Assumption: Learning and Deductions

Zoran Majkic

cs.LO cs.AI

本文提出了一种基于四值Belnap双格知识表示的强人工智能机器人框架. 该框架结合了封闭知识假设与逻辑推理, 旨在使机器人能够通过输入和经验学习来扩展其知识库, 并处理推理过程中的不一致信息.

EvoDiagram: Agentic Editable Diagram Creation via Design Expertise Evolution

Tianfu Wang et al.

cs.HC cs.CL cs.CV

本文提出了一个名为EvoDiagram的智能体框架，用于生成可编辑的图表。它通过一个中间画布模式来协调多个智能体，并利用设计知识演化机制来提升生成质量。

Tuning Qwen2.5-VL to Improve Its Web Interaction Skills

Alexandra Yakovleva et al.

cs.HC cs.AI

本文通过两阶段微调方法提升了Qwen2.5-VL模型在网页交互任务中的可靠性。该方法针对模型在视觉定位和动作验证上的不足进行改进，在自定义基准测试上取得了更高的成功率。

ACE-TA: An Agentic Teaching Assistant for Grounded Q&A, Quiz Generation, and Code Tutoring

Himanshu Tripathi et al.

cs.HC cs.AI cs.CL

本文提出了一个名为ACE-TA的智能教学助手框架，它利用预训练大语言模型，将编程课程中的概念性问题自动路由到不同的处理模块。该框架包含三个核心组件：一个基于检索的问答系统、一个自适应测验生成器以及一个交互式代码辅导模块。

Improving understanding and trust in AI: How users benefit from interval-based counterfactual explanations

Tabea E. Röber et al.

cs.HC cs.LG

本文通过在线用户研究, 比较了单点反事实解释与基于区间的反事实解释对AI模型理解与信任的影响. 研究发现, 区间解释在提升模型理解和信任方面优于其他解释类型, 并强调了个人认知差异的作用.

Generative UI: LLMs are Effective UI Generators

Yaniv Leviathan et al.

cs.HC cs.AI cs.CL cs.LG

本文探讨了使用现代LLM生成用户界面的可行性, 提出了一种通过特定提示和工具集使LLM能够为各种提示生成高质量定制UI的方法. 作者发布了PAGEN数据集用于评估, 并指出尽管生成结果不及人类专家, 但在半数情况下具有可比性.

Evaluating Visual Prompts with Eye-Tracking Data for MLLM-Based Human Activity Recognition

Jae Young Choi et al.

cs.HC cs.AI cs.CV

本文探讨了将眼动追踪数据通过可视化提示(visual prompting)转化为图像, 作为多模态大语言模型(MLLM)输入的方法, 用于人类活动识别(HAR). 实验表明, 这种方法在多个数据集上能以较低的token成本实现有效推理.

Why Smaller Is Slower? Dimensional Misalignment in Compressed LLMs

Jihao Xin et al.

cs.DC cs.AI

本文分析了大型语言模型(Large Language Models, LLMs)后训练压缩(post-training compression)导致推理速度下降的现象, 并将其根源归结为"维度错位"(dimensional misalignment). 作者提出了一种名为GAC(GPU-Aligned Compression)的新压缩范式, 通过优化维度选择来恢复推理速度.

From Theory to Protocol: Executable Frameworks for Creative Emergence and Strategic Foresight

Shun Fujiyoshi

cs.HC cs.AI

本文提出了两种可执行的协议框架, 旨在将描述性的创造力与战略远见理论转化为可重复的实践步骤. 通过案例研究、对照实验和批量测试进行了初步评估, 结果表明协议驱动的输出在结构新颖性和参数特异性方面可能优于标准方法.

Duration-Informed Workload Scheduler

Daniela Loreti, Davide Leone, Andrea Borghesi

cs.DC cs.AI

本文提出了一种结合机器学习预测模块的工作负载调度器. 通过在Tier-0超级计算机的作业记录上进行评估, 该调度器能够将作业的平均等待时间降低约11%.

ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios

Xinyi Hu et al.

cs.DC cs.AI cs.LG

本文提出了一种面向高并发场景的推测解码框架ECHO, 将其重新表述为一个带预算的调度问题. 该框架通过稀疏置信门控将批次管理为一个统一的超级树, 在深度和宽度之间弹性分配预算, 以协同优化全局验证步骤的减少与每步效率的最大化.

Human-AI Interaction Traces as Blackout Poetry: Reframing AI-Supported Writing as Found-Text Creativity

Syemin Park, Soobin Park, Youn-kyung Lim

cs.HC cs.AI

本文提出了一种将人机交互痕迹视为诗意表达的新视角, 用以重构AI辅助写作中的创造性与信任问题. 作者借鉴"涂黑诗歌"的概念, 将AI生成的文本视为"现成材料", 强调人类在其中进行的策展与再诠释的创造性行为.

Characterizing Performance-Energy Trade-offs of Large Language Models in Multi-Request Workflows

Md. Monzurul Amin Ifath, Israat Haque

cs.DC cs.AI

本文通过构建四种代表性的多请求工作负载, 在配备先进服务系统的测试平台上, 首次系统性地分析了大型语言模型(LLM)在多请求推理场景下的性能与能耗权衡. 研究发现, batch size是最关键的影响因素, 但其效益高度依赖于工作负载类型, 而GPU功率限制和输出长度等因素的影响则相对有限且可预测.

Token-Budget-Aware Pool Routing for Cost-Efficient LLM Inference

Huamin Chen et al.

cs.DC cs.AI

本文提出了一种面向大语言模型推理的token-budget-aware pool routing方法，以解决因配置与流量不匹配导致的资源浪费和KV-cache故障问题。该方法通过在线学习估计请求的token预算，并将其路由到不同配置的vLLM池中，从而显著降低了GPU实例需求。

HearthNet: Edge Multi-Agent Orchestration for Smart Homes

Zhonghao Zhan et al.

cs.DC cs.AI cs.CR

本文提出了一个用于智能家居的边缘多智能体编排系统 HearthNet. 该系统通过部署一组持久化、角色专一的 LLM 智能体来协调异构设备, 旨在实现更鲁棒、事件驱动的自然语言家居控制.

Assessing the Pedagogical Readiness of Large Language Models as AI Tutors in Low-Resource Contexts: A Case Study of Nepal's K-10 Curriculum

Pratyush Acharya et al.

cs.CY cs.AI cs.CL

本文评估了GPT-4o等大型语言模型在尼泊尔K-10科学和数学课程中作为AI导师的教学准备度。研究发现，尽管前沿模型在总体可靠性上表现良好，但在教学清晰度和文化情境化方面存在显著不足，尚不适合在低资源环境中自主部署。

LLM Nepotism in Organizational Governance

Shunqi Mao et al.

cs.CY cs.AI cs.CL

本文研究了在组织决策中使用LLM时可能出现的"LLM裙带关系"偏差, 即评估者倾向于奖励那些对AI表达信任的个体. 作者通过一个两阶段模拟管道, 在简历筛选和董事会决策中验证了这种偏差的存在及其下游影响, 并提出了基于提示的缓解方法.

Explainability and Certification of AI-Generated Educational Assessments

Antoun Yaacoub, Zainab Assaghir, Anuradha Kar

cs.CY cs.AI cs.CL

本文提出了一个用于AI生成教育评估的可解释性与认证框架. 该框架结合了多种技术来提供基于认知分类学的解释, 并引入了结构化的认证元数据模式和工作流程.

Investigating Vaccine Buyer's Remorse: Post-Vaccination Decision Regret in COVID-19 Social Media Using Politically Diverse Human Annotation

Miles Stanley et al.

cs.CY cs.LG cs.SI

本文构建了一个关于COVID-19疫苗接种后“后悔”情绪的新型社交媒体数据集，并利用大语言模型分析了其流行程度和表达原因。研究发现，这种后悔情绪在公共讨论中占比很低，且主要集中在特定社区中。

Assessing Model-Agnostic XAI Methods against EU AI Act Explainability Requirements

Francesco Sovrano, Giulia Vilone, Michael Lognoul

cs.CY cs.AI

本文探讨了 model-agnostic XAI 方法与欧盟《人工智能法案》可解释性要求之间的对应关系. 作者提出了一个将专家定性评估转化为法规特定合规性分数的框架, 旨在帮助从业者评估 XAI 方案的法律合规性.

Adoption and Effectiveness of AI-Based Anomaly Detection for Cross Provider Health Data Exchange

Cao Tram Anh Hoang

cs.CY cs.AI

本文研究了AI异常检测在跨机构电子健康记录环境中的采用与有效性. 研究提出了一个包含治理、基础设施、人员与AI集成的四支柱准备度框架, 并通过模拟审计日志数据比较了基于规则的方法与Isolation Forest的性能.

Hardware Utilization and Inference Performance of Edge Object Detection Under Fault Injection

Faezeh Pasandideh, Mehdi Azarafza, Achim Rettberg

cs.DC cs.AI

本文通过故障注入实验, 系统地表征了在NVIDIA Jetson Nano边缘设备上运行的TensorRT优化YOLO目标检测模型的硬件行为. 实验结果表明, 即使在输入数据严重退化的情况下, 这些推理流水线在GPU占用率、功耗和温度控制方面仍能保持稳定.

ML-Based Real-Time Downlink Performance Prediction in Standalone 5G NR Using Smartphones

Md Mahfuzur Rahman et al.

cs.NI cs.ET cs.LG

本文提出了一种基于机器学习的框架, 利用商用智能手机的实时测量数据来预测5G网络的下行链路性能. 该研究评估了多种监督回归模型在多种真实场景下的预测准确性.

Agentic AI in Engineering and Manufacturing: Industry Perspectives on Utility, Adoption, Challenges, and Opportunities

Kristen M. Edwards et al.

cs.CY cs.AI

本文通过访谈调研了AI在工程与制造领域的应用现状, 重点探讨了智能体系统(agentic systems)的效用、采纳挑战与未来机遇. 研究发现当前AI应用集中于结构化、重复性任务, 而更广泛的部署受限于数据碎片化、安全法规及遗留工具链集成等非技术因素.

From Understanding to Creation: A Prerequisite-Free AI Literacy Course with Technical Depth Across Majors

Amarda Shehu

cs.CY cs.AI

本文介绍了一门名为UNIV 182、无需先修课程的AI素养课程设计。该课程面向不同专业本科生，通过一个统一的概念流程、伦理与技术整合、结构化课堂工作室、累积性评估组合以及定制AI agent等机制，旨在提升学生理解、使用、评估和构建AI系统的能力。课程评估显示学生从描述性推理进步到了具备技术深度的设计层面。

Leveraging Machine Learning Techniques to Investigate Media and Information Literacy Competence in Tackling Disinformation

José Manuel Alcalde-Llergo et al.

cs.CY cs.AI cs.LG

本文应用机器学习分类与回归算法，预测了学生群体在应对虚假信息时的媒介与信息素养能力。研究发现，学业阶段和先前培训等变量是影响预测准确性的关键因素。

Detecting Corporate AI-Washing via Cross-Modal Semantic Inconsistency Learning

Zhanjie Wen, Jingqiao Guo

cs.CY cs.AI

本文提出了一种名为AWASH的多模态框架，用于检测企业AI粉饰行为。该框架通过跨模态语义不一致性学习，将文本、图像和视频信息结合起来进行推理，并在构建的大规模基准测试上取得了优于现有方法的性能。

Efficient Disruption of Criminal Networks through Multi-Objective Genetic Algorithms

Yehezkiel Darmadi, Thanh Thi Nguyen, Campbell Wilson

cs.NE cs.AI

本文提出了一种结合多目标遗传算法(如WS-GA和NSGA-II)的框架，用于优化犯罪网络的瓦解策略。该框架在最大化网络分裂与最小化基于空间距离的执法成本之间进行权衡，并在一个真实数据集上验证了其相对于传统中心性方法的成本效益。

WearBCI Dataset: Understanding and Benchmarking Real-World Wearable Brain-Computer Interfaces Signals

Haoxian Liu et al.

cs.HC cs.AI eess.SP

本文介绍了WearBCI数据集, 该数据集包含在多种身体运动状态下同步采集的EEG, IMU和第一视角视频数据, 用于评估运动伪影对可穿戴脑机接口信号的影响. 作者基于该数据集对代表性的EEG信号增强技术进行了基准测试, 并探索了跨模态信号增强等新应用场景.

Dynamic Forecasting and Temporal Feature Evolution of Stock Repurchases in Listed Companies Using Attention-Based Deep Temporal Networks

Xiang Ao, Jingxuan Zhang, Xinyu Zhao

q-fin.ST cs.AI cs.LG

本文提出了一种结合经济理论与深度时序网络的动态预警系统, 用于预测上市公司股票回购行为. 该模型整合了Temporal Convolutional Network (TCN)和基于Attention的LSTM, 以捕捉财务指标的长期与短期演化模式, 并通过可解释AI (XAI) 分析了回购决策的时序驱动因素.

FlowHijack: A Dynamics-Aware Backdoor Attack on Flow-Matching Vision-Language-Action Models

Xinyuan An et al.

cs.CV cs.LG cs.RO

本文提出了一种针对基于flow-matching的Vision-Language-Action (VLA) 模型的新型后门攻击框架FlowHijack. 该方法通过操纵动作生成的初始向量场动态, 在保持良性任务性能的同时注入隐蔽的后门.

Diffusion-Based Generative Priors for Efficient Beam Alignment in Directional Networks

Esraa Fahmy Othman, Lina Bariah, Merouane Debbah

eess.SP cs.AI

本文提出了一种基于条件扩散模型的生成式先验方法, 用于毫米波和太赫兹定向网络中的波束对准. 该方法将波束对准重新表述为生成任务, 利用从紧凑的几何和多径特征中学习到的概率先验来指导高效的波束扫描, 在有限的探测次数下实现了较高的命中率和信噪比保持.

NeuroPath: Practically Adopting Motor Imagery Decoding through EEG Signals

Jiani Cao et al.

cs.HC cs.AI cs.LG eess.SP

本文提出了一种名为NeuroPath的神经架构, 用于从EEG信号中解码运动想象(MI). 该架构通过模拟大脑皮层到头皮信号的路径, 并引入空间感知图适配器和多模态辅助训练, 旨在处理不同的电极配置和低信噪比条件, 在多个数据集上取得了良好的性能.

Learning noisy phase transition dynamics from stochastic partial differential equations

Luning Sun et al.

physics.comp-ph cs.AI physics.chem-ph

本文提出了一种用于学习随机偏微分方程中相变动力学的物理感知代理模型. 该方法通过参数化单元间通量来保证质量守恒并引入可学习的噪声, 能够捕捉热涨落驱动的成核等罕见事件.

Digital hybridity and relics in cultural heritage: using corpus linguistics to inform design in emerging technologies from AI to VR

Emma McClaughlin et al.

cs.HC cs.AI cs.CL cs.CY cs.DL +1

本文采用语料库语言学方法, 分析了历史与现代文本中"relic"一词的修饰语, 揭示了其从道德/精神对象到遗产符号的认知变迁. 研究讨论了AI等混合技术如何提升文化遗产的可及性与参与度, 同时也对真实性等传统敏感议题构成挑战.

Real-Time Voicemail Detection in Telephony Audio Using Temporal Speech Activity Features

Kumar Saurav

cs.SD cs.AI cs.LG

本文提出了一种轻量级方法, 通过分析预训练语音活动检测器(VAD)输出的语音活动模式中的15个时序特征, 使用浅层树集成模型进行实时语音邮件检测. 该方法在商品CPU上实现了低延迟和高并发处理, 实验表明时序语音模式是区分语音邮件问候和真人接听的有效信号.

Isomorphic Functionalities between Ant Colony and Ensemble Learning: Part III -- Gradient Descent, Neural Plasticity, and the Emergence of Deep Intelligence

Ernest Fokoué, Gregory Babbitt, Yuval Levental

cs.NE cs.LG

本文通过建立蚁群世代学习与随机梯度下降之间的数学同构，将深度神经网络的核心算法与蚁群集体智能联系起来。作者进一步类比了神经可塑性机制与蚁群层面的适应过程，并通过模拟验证了二者在学习曲线上的相似性。

NetAgentBench: A State-Centric Benchmark for Evaluating Agentic Network Configuration

Ahmed Twabi, Yepeng Ding, Tohru Kondo

cs.NI cs.AI cs.FL

本文提出了一个名为NetAgentBench的动态基准测试框架, 用于评估智能体在网络配置任务中的多轮交互行为. 该框架基于Finite State Machine (FSM) 形式化, 旨在保证测试的确定性、正确性和有界执行, 并通过实验揭示了当前先进LLM智能体在复杂配置任务中的行为不稳定性.

Heterogeneous Consensus-Progressive Reasoning for Efficient Multi-Agent Debate

Yiqing Liu et al.

cs.MA cs.AI

本文提出了一种名为HCP-MAD的高效多智能体辩论框架。它通过异质共识验证、成对辩论和集体投票三个阶段，根据任务复杂度自适应地调整协作规模，旨在降低计算成本的同时保持或提升问题解决的准确性。

Decision-Theoretic Safety Assessment of Persona-Driven Multi-Agent Systems in O-RAN

Zeinab Nezami et al.

cs.NI cs.AI

本文提出了一个基于persona的multi-agent框架用于O-RAN的自主网络管理, 并建立了一个基于decision theory的三维评估框架进行系统验证. 实验表明persona配置与agent的alignment对系统性能有显著影响.

A Modular Zero-Shot Pipeline for Accident Detection, Localization, and Classification in Traffic Surveillance Video

Amey Thakur, Sarvesh Talele

cs.CV cs.LG

本文为零样本的交通监控视频事故检测任务设计了一个模块化流程. 该方法将任务分解为时间定位、空间定位和类型分类三个独立模块, 分别基于帧差信号、光流图和CLIP嵌入实现, 全程无需微调.

Grid2Matrix: Revealing Digital Agnosia in Vision-Language Models

Yunkai Zhang et al.

cs.CV cs.AI

本文提出了一个名为Grid2Matrix的基准测试, 用于评估Vision-Language Models在精确读取视觉细节(如颜色网格)方面的能力. 研究发现, 模型在端到端任务中会过早地出现性能崩溃, 这种失败模式被定义为"Digital Agnosia", 且与视觉patch的边界等结构化因素相关.

Face Density as a Proxy for Data Complexity: Quantifying the Hardness of Instance Count

Abolfazl Mohammadi-Seif, Ricardo Baeza-Yates

cs.CV cs.AI cs.LG

本文通过控制实验, 研究了图像中目标实例密度(以人脸数量衡量)对机器学习模型性能的影响. 结果表明, 性能随密度增加而单调下降, 且模型难以从低密度数据泛化到高密度场景.

CAGE: Bridging the Accuracy-Aesthetics Gap in Educational Diagrams via Code-Anchored Generative Enhancement

Dikshant Kukreja et al.

cs.CV cs.AI

本文提出了一种名为CAGE的方法, 用于解决教育图表生成中准确性与美观性难以兼得的问题. 该方法结合了LLM生成代码以确保标签准确性, 并利用ControlNet引导的扩散模型进行视觉增强.

TaFall: Balance-Informed Fall Detection via Passive Thermal Sensing

Chengxiao Li et al.

cs.CV cs.AI

本文提出了一种基于被动热传感的跌倒检测系统TaFall, 通过建模平衡退化过程并估计姿态驱动的生物力学平衡动力学来检测跌倒. 该系统在包含大量实例的数据集上实现了高检测率与低误报率, 并通过实际部署验证了其在日常环境中的鲁棒性.

Assessing Privacy Preservation and Utility in Online Vision-Language Models

Karmesh Siddharam Chaudhari et al.

cs.CV cs.AI

本文探讨了在线视觉语言模型(OVLMs)处理图像时带来的个人可识别信息(PII)隐私风险. 作者研究了图像上下文关系如何导致PII的直接或间接暴露, 并提出了一些在保护隐私的同时保持图像效用的方法.

Sharpness-Aware Surrogate Training for On-Sensor Spiking Neural Networks

Maximilian Nicholson

cs.NE cs.CV cs.LG

本文提出了一种名为Sharpness-Aware Surrogate Training (SAST)的方法，用于减少Spiking Neural Networks (SNNs)在部署时从替代梯度训练到硬阈值推理的性能下降。该方法将Sharpness-Aware Minimization (SAM)应用于SNN的训练过程，并在事件相机基准测试上展示了性能提升。

I Can't Believe TTA Is Not Better: When Test-Time Augmentation Hurts Medical Image Classification

Daniel Nobrega Medeiros

cs.CV cs.AI

本文通过系统性的实验研究, 对医学图像分类中广泛使用的test-time augmentation (TTA)的有效性提出了质疑. 研究发现, 在多个MedMNIST基准数据集和不同架构上, 使用标准数据增强流程的TTA反而会持续降低模型精度, 其主要机制被归因于增强数据与训练数据之间的分布偏移以及batch normalization统计量的不匹配.

Attention-Guided Flow-Matching for Sparse 3D Geological Generation

Zhixiang Lu et al.

cs.CV cs.AI

本文提出了一种用于稀疏3D地质生成的注意力引导流匹配方法。该方法通过连续向量场回归来处理离散分类生成问题，并利用3D注意力门来传播局部特征，以提升从稀疏数据构建地质模型的性能。

PASTA: Vision Transformer Patch Aggregation for Weakly Supervised Target and Anomaly Segmentation

Melanie Neubauer, Elmar Rueckert, Christian Rauch

cs.CV cs.LG

本文提出了一种名为PASTA的弱监督目标与异常分割方法, 它通过分析自监督Vision Transformer特征空间中的分布差异来识别目标与异常. 该方法利用Segment Anything Model 3的文本提示进行零样本分割, 在工业和农业数据集上取得了优于特定领域基线的性能.

Identity-Aware U-Net: Fine-grained Cell Segmentation via Identity-Aware Representation Learning

Rui Xiao

cs.CV cs.AI q-bio.QM

本文提出了一种用于精细细胞分割的Identity-Aware U-Net (IAU-Net)框架。该模型在U-Net架构基础上增加了一个学习身份感知嵌入的分支，并结合三元组度量学习来区分形态相似的对象。

The Deployment Gap in AI Media Detection: Platform-Aware and Visually Constrained Adversarial Evaluation

Aishwarya Budhkar, Trishita Dhara, Siddhesh Sheth

cs.CV cs.AI

本文提出了一个平台感知的对抗性评估框架，用于评估AI媒体检测器在真实部署条件下的鲁棒性。该框架模拟了在线平台常见的图像变换，并约束对抗扰动在视觉合理的局部区域内，揭示了实验室评估与真实世界性能之间的显著差距。

Orthogonal Quadratic Complements for Vision Transformer Feed-Forward Networks

Wang Zixian

cs.CV cs.AI

本文提出了一种用于Vision Transformer前馈网络的Orthogonal Quadratic Complements (OQC)方法。该方法通过构建一个低秩二次辅助分支，并将其显式投影到主分支的正交补空间后再注入，旨在补充主分支未捕获的信息。实验表明，该方法在CIFAR-100和TinyImageNet数据集上提升了模型性能，并改善了表示几何与类别分离。

Robust Fair Disease Diagnosis in CT Images

Justin Li et al.

cs.CV cs.LG

本文提出了一种结合logit-adjusted cross-entropy loss与Conditional Value at Risk aggregation的两级目标函数, 用于解决医学影像诊断中类别不平衡与群体代表性不足的复合问题. 在Fair Disease Diagnosis基准测试中, 该方法在3D ResNet-18模型上取得了更好的公平性与性能平衡.

Head-wise Modality Specialization within MLLMs for Robust Fake News Detection under Missing Modality

Kai Qian et al.

cs.CV cs.CL

本文提出了一种在缺失模态下进行鲁棒多模态假新闻检测的方法. 该方法基于多模态大语言模型, 通过研究 attention heads 与模态性能的关系, 设计了 head-wise specialization mechanism 和 Unimodal Knowledge Retention 策略来提升模型在单一模态下的验证能力.

LAST: Leveraging Tools as Hints to Enhance Spatial Reasoning for Multimodal Large Language Models

Shi-Yu Tian et al.

cs.CV cs.AI

本文提出了一个名为LAST的框架, 旨在通过整合外部视觉工具来增强多模态大语言模型(MLLMs)的空间推理能力. 该框架包含一个可扩展的交互沙盒(LAST-Box)和一个渐进式训练策略, 在多个数据集上取得了性能提升.

Training Deep Visual Networks Beyond Loss and Accuracy Through a Dynamical Systems Approach

Hai La Quang et al.

cs.CV cs.AI

本文提出了一种从 dynamical systems 视角分析深度视觉网络训练过程的方法, 定义了基于层激活的 integration, metastability 和 dynamical stability index 等指标. 通过对多种模型架构和数据集的实验, 发现这些指标能区分任务难度, 可能预示收敛, 并反映不同的训练行为模式.

ConfigSpec: Profiling-Based Configuration Selection for Distributed Edge--Cloud Speculative LLM Serving

Xiangchen Li et al.

cs.DC cs.AI

本文提出了一个用于分布式推测性LLM服务的配置选择框架ConfigSpec. 该框架通过分析设备性能与模型对齐情况, 对联合配置空间中的吞吐量, 验证成本和能效进行建模评估.

LOLGORITHM: Funny Comment Generation Agent For Short Videos

Xuan Ouyang et al.

cs.CV cs.AI

本文提出了一个名为LOLGORITHM的模块化多智能体框架，用于生成符合短视频平台文化和语言风格的评论。该方法通过视频内容总结、分类以及结合语义检索和热门梗增强的评论生成模块，在双语数据集上取得了优于基线模型的效果。

SMART: When is it Actually Worth Expanding a Speculative Tree?

Lifu Wang, Pan Zhou

cs.DC cs.AI

本文提出了一种名为SMART的系统感知边际分析框架, 用于优化基于树的推测解码中的运行时树构建. 该方法将树扩展建模为一个硬件感知的优化问题, 旨在直接最大化端到端的加速比, 并通过在推理时应用边际效益-成本规则来决定是否扩展节点. 实验表明, 该框架能在不损失性能的情况下, 为多种模型带来显著的额外加速.

Multi-Frequency Local Plasticity for Visual Representation Learning

Mehdi Fatan Serj, C. Alejandro Parraga, Xavier Otazu

cs.CV cs.AI

本文提出了一种结合固定多频率Gabor分解、流内竞争学习、联想记忆模块和迭代自上而下调制的模块化分层框架, 用于视觉表示学习. 该模型主要进行局部训练, 仅对最终线性读出层和自上而下的投影矩阵使用梯度下降优化, 在CIFAR-10和CIFAR-100数据集上进行了实验.

MPAC: A Multi-Principal Agent Coordination Protocol for Interoperable Multi-Agent Collaboration

Kaiyang Qian, Xinmin Fang, Zhengxiong Li

cs.MA cs.AI

本文提出了一个名为MPAC的多主体协调协议, 旨在解决多个独立主体(principal)的AI agents在需要协调共享状态时的协作问题. 该协议定义了包含会话, 意图, 操作, 冲突和治理五个层次的显式协调语义, 并提供了开源实现和演示.

Spectral Kernel Dynamics via Maximum Caliber: Fixed Points, Geodesics, and Phase Transitions

Jnaneshwar Das

cs.RO cs.LG

本文通过应用Maximum Caliber变分原理于图Laplacian特征基的谱转移函数，推导出了有限图上kernel dynamics的闭式几何泛函。该框架得到了自洽核、测地线、稳定性判据等结果，并提供了一个可计算的网络结构相变预警信号。

CONSCIENTIA: Can LLM Agents Learn to Strategize? Emergent Deception and Trust in a Multi-Agent NYC Simulation

Aarush Sinha et al.

cs.MA cs.AI cs.CL

本文通过一个简化的纽约市多智能体模拟环境, 研究了基于LLM的智能体在激励对立情境下的策略行为. 研究使用Kahneman-Tversky Optimization (KTO)进行策略迭代学习, 发现智能体能够展现出有限的策略性行为, 如选择性信任与欺骗, 但同时对对抗性说服仍高度脆弱.

ADAM: A Systematic Data Extraction Attack on Agent Memory via Adaptive Querying

Xingyu Lyu et al.

cs.CR cs.AI

本文提出了一种针对LLM agent memory的新型隐私攻击方法ADAM, 该方法通过估计目标agent内存中的数据分布并采用基于信息熵的查询策略来最大化隐私泄露. 实验表明, 该方法在攻击成功率上显著优于现有方法.

Backdoors in RLVR: Jailbreak Backdoors in LLMs From Verifiable Reward

Weiyang Guo et al.

cs.CR cs.AI

本文揭示了RLVR训练框架中存在的后门攻击漏洞. 攻击者通过注入少量带特定触发器的有害数据, 即可在不修改奖励验证器的情况下植入后门, 导致模型在面对触发器时生成有害内容.

Conflicts Make Large Reasoning Models Vulnerable to Attacks

Honghao Liu et al.

cs.CR cs.AI

本文研究了大型推理模型在面对内部冲突和两难困境时的决策脆弱性. 实验表明, 冲突会显著提高攻击成功率, 并揭示了安全相关表征与功能表征在冲突下的重叠与干扰.

A-IO: Adaptive Inference Orchestration for Memory-Bound NPUs

Chen Zhang et al.

cs.DC cs.AI

本文针对在异构NPU平台上部署大语言模型时自回归解码阶段面临的内存瓶颈问题进行了分析. 指出了静态部署单一规模模型导致的"模型缩放悖论", 并讨论了在NPU计算图编译下细粒度推测解码的同步开销以及仅依赖Prompt LookUp Decoding等微观加速算法的局限性.

MedLVR: Latent Visual Reasoning for Reliable Medical Visual Question Answering

Suyang Xi et al.

cs.CV cs.AI

本文提出了一种用于医学视觉问答的潜在视觉推理框架MedLVR。该框架在自回归解码中引入了显式的视觉证据状态，通过重用隐藏状态作为连续的潜在步骤，在生成答案前迭代地保留和细化与查询相关的视觉证据。实验表明，该方法在多个医学VQA基准上提升了性能。

Sustainable Transformer Neural Network Acceleration with Stochastic Photonic Computing

S. Afifi et al.

cs.AR cs.LG

本文提出了一种基于硅光子学和随机计算的新型Transformer加速器ASTRA. 它通过光学随机乘法器和独特的累加方案来高效处理动态张量计算, 在速度和能耗上优于现有加速器.

Differentiable free energy surface: a variational approach to directly observing rare events using generative deep-learning models

Shuo-Hui Li et al.

physics.comp-ph cond-mat.stat-mech cs.LG

本文提出了一种无需数据集的变分自由能面(VaFES)框架, 利用可处理密度的生成模型直接建模自由能面. 该方法通过将粗粒化集体变量扩展为其可逆等价形式, 在潜空间中构建中间表示, 从而能够一次性采样生成稀有事件构型.

Discrete Flow Maps

Peter Potaptchik et al.

stat.ML cs.LG

本文提出了Discrete Flow Maps框架, 用于解决离散数据(如语言)的并行生成问题. 该方法通过将生成轨迹压缩为单步映射, 并严格对齐概率单纯形的几何结构, 在离散流建模任务上取得了先进的性能.

Learning What's Real: Disentangling Signal and Measurement Artifacts in Multi-Sensor Data, with Applications to Astrophysics

Pablo Mercader-Perez et al.

astro-ph.IM astro-ph.GA cs.LG

本文提出了一种深度学习框架, 用于从多传感器数据中分离物理信号和测量伪影. 该方法利用重叠观测和反事实生成来学习解耦表示, 并在天体物理星系图像数据上进行了验证.

ACCIDENT: A Benchmark Dataset for Vehicle Accident Detection from Traffic Surveillance Videos

Lukas Picek et al.

cs.CV cs.AI

本文介绍了ACCIDENT, 一个用于交通监控视频中车辆事故检测的基准数据集. 该数据集包含真实和合成的视频片段, 并定义了时间定位, 空间定位和碰撞类型分类三个核心任务, 同时提供了多种基线方法进行评估.

ProGAL-VLA: Grounded Alignment through Prospective Reasoning in Vision-Language-Action Models

Nastaran Darabi, Amit Ranjan Trivedi

cs.RO cs.CL cs.CV

本文提出了ProGAL-VLA模型，通过构建3D实体图和使用慢速规划器来改善视觉-语言-动作模型对语言指令的敏感性。该方法利用对比损失进行实体对齐，并通过目标嵌入的注意力熵来检测模糊性，在多个基准测试中提升了任务鲁棒性和实体检索能力。

F3G-Avatar : Face Focused Full-body Gaussian Avatar

Willem Menu et al.

cs.CV cs.AI

本文提出了一种名为F3G-Avatar的全身、面部感知的avatar合成方法，用于从多视角RGB视频重建可动画化的人体表示。该方法通过一个双分支架构，分别处理身体姿态相关的非刚性变形和面部细节的精细化，并结合了特定的面部对抗损失来提升渲染的真实感。

Is There Knowledge Left to Extract? Evidence of Fragility in Medically Fine-Tuned Vision-Language Models

Oliver McLaughlin et al.

cs.CV cs.AI

本文评估了医学领域微调后的vision-language models (VLMs) 在多项医学影像任务上的表现. 研究发现, 随着任务难度增加, 模型性能下降至接近随机水平, 且对提示词(prompt)高度敏感, 医学微调并未带来一致的性能提升.

Improving DNS Exfiltration Detection via Transformer Pretraining

Miloš Tomić, Aleksa Cvetanović, Predrag Tadić

cs.CR cs.LG

本文研究了在特定领域对BERT模型进行预训练是否能提升其在低误报率下检测DNS数据外泄的能力. 通过一个受控的实验流程, 作者发现预训练能显著改善ROC曲线左尾的性能, 尤其是在有更多标注数据用于微调时.

RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies

Xuning Yang et al.

cs.RO cs.AI

本文提出了一个名为RoboLab的高保真仿真基准测试框架, 旨在评估任务通用型机器人策略的真实泛化能力. 该框架包含RoboLab-120基准, 并引入系统性分析方法来量化策略性能及其对受控扰动的敏感性.

PAS: Estimating the target accuracy before domain adaptation

Raphaella Diniz, Jackson de Faria, Martin Ester

cs.CV cs.AI

本文提出了一种名为PAS的评分方法, 用于在执行domain adaptation之前评估源域数据集和预训练特征提取器对目标分类任务的可迁移性. 该方法通过分析预训练特征嵌入来评估源域与目标域的兼容性, 并集成到一个框架中, 以从多个候选模型和源域中选择最相关的组合, 从而在减少计算开销的同时提高目标域上的准确率.

Automating Structural Analysis Across Multiple Software Platforms Using Large Language Models

Ziheng Geng et al.

cs.SE cs.AI

本文提出了一种基于大型语言模型的多智能体架构, 用于跨多个结构分析软件平台(如 ETABS, SAP2000, OpenSees)自动化框架结构分析. 该方法通过协作解析用户输入并生成统一的 JSON 中间表示, 再并行转换为不同平台的执行脚本, 在评估中展现了超过 90% 的准确率.

DINO_4D: Semantic-Aware 4D Reconstruction

Yiru Yang et al.

cs.CV cs.AI cs.RO

本文提出了一种名为DINO_4D的4D动态场景重建方法，通过引入预训练的DINOv3特征作为结构先验，将语义感知融入重建过程，有效抑制了动态跟踪中的语义漂移。该方法在保持线性时间复杂度的同时，显著提升了跟踪精度和重建完整性。

Not Your Stereo-Typical Estimator: Combining Vision and Language for Volume Perception

Gautham Vinod et al.

cs.CV cs.AI cs.LG cs.MM eess.IV

本文提出了一种融合立体视觉与自然语言文本进行物体体积估计的新方法. 该方法通过投影层整合图像特征与包含物体类别和近似体积的文本提示, 在公开数据集上超越了纯视觉基线.

Diffusion Denoiser Achievable Analysis for Finite Blocklength Unsourced Random Access

Yuming Han, Yuxin Long

cs.IT cs.AI

本文提出了一种将diffusion denoiser集成到unsourced random access联合解码器中的方法。该方法通过训练score network来改善解码性能，并在理论上推导了更紧的achievable bound。

From UAV Imagery to Agronomic Reasoning: A Multimodal LLM Benchmark for Plant Phenotyping

Yu Wu et al.

cs.CV cs.AI cs.CL

本文提出了一个名为PlantXpert的基准测试, 用于评估多模态大语言模型在植物表型分析任务中的表现. 该基准涵盖了疾病, 害虫控制, 杂草管理和产量等关键领域, 测试了模型的视觉专业知识, 定量推理和农艺推理能力.

The Rise and Fall of $G$ in AGI

David C. Krakauer

q-bio.NC cs.AI

本文通过将LLM在基准测试上的表现类比为心理测量学中的认知测试, 应用主成分分析(PCA)研究了AI模型在时间序列基准测试上的表现相关性. 分析发现了一个类似Spearman's $g$因子的"正流形", 但其主导方差解释率在2024年因专门化模型的出现而下降.

CableTract: A Co-Designed Cable-Driven Field Robot for Low-Compaction, Off-Grid Capable Agriculture

Ozgur Yilmaz

cs.RO cs.LG

本文提出了一个名为CableTract的共设计缆驱农田机器人系统及其分析框架。该框架集成了力学、能量收集、耕作阻力、路径规划、经济与碳排放等多方面模型，用于评估其在降低能耗和土壤压实方面的潜力。

I Walk the Line: Examining the Role of Gestalt Continuity in Object Binding for Vision Transformers

Alexa R. Tartaglini, Michael A. Lepori

cs.CV cs.AI

本文通过合成数据集探究了vision transformers在object binding过程中是否依赖Gestalt continuity原则. 研究发现某些特定的attention heads对连续性敏感, 并且其表征对编码object binding有贡献.

Cross-Cultural Value Awareness in Large Vision-Language Models

Phillip Howard, Xin Su, Kathleen C. Fraser

cs.CV cs.AI cs.CL

本文通过构建反事实图像集, 研究了大型视觉语言模型(LVLMs)如何根据图像中的文化背景(如宗教、国籍)来推断人物的道德、伦理和政治价值观. 作者利用 Moral Foundations Theory 和词汇分析等方法评估了五种流行 LVLMs 的文化价值差异意识.

All Eyes on the Ranker: Participatory Auditing to Surface Blind Spots in Ranked Search Results

Anna Marie Rezk et al.

cs.CY cs.IR

本文通过参与式审计工作坊, 探讨了用户对排序搜索结果影响的感知. 研究比较了不同排序模型, 并揭示了参与式审计在揭示用户感知影响和问责差距方面的潜力与局限.

Rebooting Microreboot: Architectural Support for Safe, Parallel Recovery in Microservice Systems

Laurent Bindschaedler

cs.DC cs.AI cs.SE

本文提出了一种通过分离规划与执行来使微重启(microreboot)在微服务系统中安全化的架构。该架构利用一个包含诊断、规划和验证的三智能体(agent)系统，在一个定义了明确副作用语义的指令集上生成类型化的修复计划，并通过一个微内核进行事务性验证与执行。为了确定安全的重启范围，该方法在线从分布式追踪中推断恢复边界，计算最小重启组和顺序约束。

A Minimal Model of Representation Collapse: Frustration, Stop-Gradient, and Dynamics

Louie Hong Yao, Yuhao Li, Shengchao Liu

cond-mat.dis-nn cond-mat.stat-mech cs.AI cs.LG

本文研究自监督学习中表征坍缩的机制, 引入了一个极简的嵌入模型来分析其梯度流动力学和不动点. 研究表明, 当存在少量无法被一致分类的"受挫"样本时, 系统会经历一个额外的慢时间尺度并最终导致坍缩, 而 stop-gradient 操作可以稳定非坍缩解.

Engineering Resource-constrained Software Systems with DNN Components: a Concept-based Pruning Approach

Federico Formica et al.

cs.SE cs.LG

本文提出了一种基于概念(concept)的剪枝(pruning)方法, 用于在资源受限的软件系统中优化集成的深度神经网络(DNN). 该方法利用人类可解释的概念(如特征、颜色)来指导剪枝决策, 旨在生成更小、更高效的DNN模型. 实验在VGG-19网络和图像数据集上进行, 结果表明该方法能有效提升模型的计算效率和性能.

FlowPalm: Optical Flow Driven Non-Rigid Deformation for Geometrically Diverse Palmprint Generation

Yuchen Zou et al.

cs.CV cs.AI

本文提出了一种名为FlowPalm的光流驱动框架，用于生成具有几何多样性的合成掌纹。该方法通过估计真实掌纹对之间的光流来捕捉非刚性形变的统计模式，并利用扩散模型逐步引入这些形变。实验表明，该方法在多个基准数据集的下游识别任务中优于现有方法。

Agentic Application in Power Grid Static Analysis: Automatic Code Generation and Error Correction

Qinjuan Wang, Shan Yang, Yongli Zhu

eess.SY cs.AI

本文提出了一个基于LLM agent的框架, 用于将自然语言描述的电网静态分析任务自动转换为MATPOWER脚本. 该框架通过构建增强的向量数据库和设计三层纠错系统来提高代码生成的准确性和可靠性.

Like a Hammer, It Can Build, It Can Break: Large Language Model Uses, Perceptions, and Adoption in Cybersecurity Operations on Reddit

Souradip Nath et al.

cs.CR cs.AI

本文通过混合方法分析了网络安全论坛上的讨论, 以了解从业者对LLM工具的实际使用和看法. 研究发现, 从业者主要在低风险任务中独立使用LLM以提高效率, 但对工具的可靠性、验证开销和安全风险仍存在持续担忧.

Demographic and Linguistic Bias Evaluation in Omnimodal Language Models

Alaa Elobaid

cs.CV cs.AI cs.CL

本文对能够处理文本、图像、音频和视频的Omnimodal语言模型进行了人口统计学和语言偏见的全面评估。研究发现，在音频理解任务中，模型性能较低且存在显著的偏见，而在图像和视频任务中表现相对公平。

Predicting Associations between Solar Flares and Coronal Mass Ejections Using SDO/HMI Magnetograms and a Hybrid Neural Network

Jialiang Li et al.

astro-ph.SR cs.LG

本文提出了一种结合vision transformer和LSTM的混合神经网络(HNN), 用于预测太阳耀斑与日冕物质抛射(CME)之间的关联性. 该方法利用SDO/HMI磁图的时间序列数据, 预测未来24小时内发生的耀斑是否伴随CME, 实验结果表明该方法性能良好, 并发现磁通量对消可能触发CME.

Masked Contrastive Pre-Training Improves Music Audio Key Detection

Ori Yonay, Tracy Hammond, Tianbao Yang

cs.SD cs.LG

本文研究了自监督预训练对音乐音频调性检测任务中音高敏感性的影响. 通过实验发现, 基于掩码对比预训练的模型在线性评估下取得了有竞争力的性能, 并进一步训练MLP达到了SOTA结果.

FREE-Switch: Frequency-based Dynamic LoRA Switch for Style Transfer

Shenghe Zheng et al.

cs.CV cs.AI

本文提出了一种基于频域重要性分析的动态LoRA切换方法, 用于在扩散模型中高效合并多个预训练适配器(adapter). 该方法通过分析不同适配器在不同扩散步骤中的贡献差异, 并结合语义层面的生成对齐机制, 旨在实现高质量、低成本的定制化图像生成.

LVSum: A Benchmark for Timestamp-Aware Long Video Summarization

Alkesh Patel et al.

cs.CV cs.AI cs.LG

本文提出了一个名为LVSum的基准测试, 用于评估长视频摘要任务中模型的时间感知能力. 该基准包含多领域的长视频和带精确时间标注的人工摘要, 并通过实验揭示了当前多模态大语言模型在时间理解上存在系统性不足.

Daily Predictions of F10.7 and F30 Solar Indices with Deep Learning

Zhenduo Wang et al.

astro-ph.SR cs.LG

本文提出了一种名为SINet的深度学习模型, 用于提前1-60天预测F10.7和F30太阳指数. 实验表明, 该模型在F10.7预测上优于现有方法, 并且是首次将深度学习应用于F30指数的预测.

Attention-Guided Dual-Stream Learning for Group Engagement Recognition: Fusing Transformer-Encoded Motion Dynamics with Scene Context via Adaptive Gating

Saniah Kayenat Chowdhury, Muhammad E.H. Chowdhury

cs.CV cs.LG

本文提出了一种名为DualEngage的双流框架, 用于从课堂视频中进行群体层面的参与度识别. 该框架通过软最大门控融合结合了个体运动动态与场景上下文信息, 在特定数据集上取得了较高的分类准确率.

MatRes: Zero-Shot Test-Time Model Adaptation for Simultaneous Matching and Restoration

Kanggeon Lee, Soochahn Lee, Kyoung Mu Lee

cs.CV cs.AI

本文提出了MatRes, 一个用于联合图像恢复与几何匹配的零样本测试时自适应框架. 该框架仅需一对低质量与高质量图像, 通过更新轻量级模块来提升两项任务的性能, 无需额外训练或监督.

Global monitoring of methane point sources using deep learning on hyperspectral radiance measurements from EMIT

Vishal V. Batchu et al.

cs.CV cs.LG physics.ao-ph

本文提出了一种基于深度学习的方法, 利用高光谱辐射测量数据自动监测全球甲烷点源排放. 该方法结合了光谱和空间信息, 能够以较低的错误率识别和量化甲烷羽流.

Degradation-Consistent Paired Training for Robust AI-Generated Image Detection

Zongyou Yang, Yinghan Hou, Xiaokun Yang

cs.CV cs.AI

本文提出了一种名为Degradation-Consistent Paired Training (DCPT)的训练策略，旨在提升AI生成图像检测器在真实世界图像退化（如JPEG压缩）下的鲁棒性。该方法通过特征一致性和预测一致性损失来约束干净图像与退化图像对，无需增加额外参数或推理开销。实验表明，该方法在退化条件下的平均准确率有显著提升。

A Dual Cross-Attention Graph Learning Framework For Multimodal MRI-Based Major Depressive Disorder Detection

Nojod M. Alotaibi, Areej M. Alhothali

cs.CV cs.AI

本文提出了一种基于 dual cross-attention 的多模态 MRI 融合框架，用于重度抑郁症检测。该方法在大型数据集上验证有效，性能优于传统的特征拼接方法。

MR-Coupler: Automated Metamorphic Test Generation via Functional Coupling Analysis

Congying Xu et al.

cs.SE cs.AI

本文提出了一种名为MR-Coupler的方法，用于自动化生成蜕变测试用例。该方法通过分析源代码中的功能耦合关系来构造蜕变关系，并利用大语言模型和验证机制来生成有效的测试。实验表明，该方法在多个基准测试上优于现有基线。

VGA-Bench: A Unified Benchmark and Multi-Model Framework for Video Aesthetics and Generation Quality Evaluation

Longteng Jiang et al.

cs.CV cs.AI

本文提出了一个用于视频生成质量和美学质量联合评估的统一基准VGA-Bench. 它基于一个三层分类法构建了大规模数据集, 并开发了多个神经网络评估器以实现自动化评估.

Semantic Manipulation Localization

Zhenshan Tan et al.

cs.CV cs.AI

本文提出了Semantic Manipulation Localization (SML)这一新任务, 旨在定位那些改变图像语义的细微编辑. 作者构建了一个专门的基准数据集, 并提出了一个名为TRACE的端到端框架, 该框架通过语义锚定、扰动感知和约束推理来提升对语义编辑的定位能力.

Accelerated Dopant Screening in Oxide Semiconductors via Multi-Fidelity Contextual Bandits and a Three-Tier DFT Validation Funnel

Abhinaba Basu

cond-mat.mtrl-sci cs.LG physics.comp-ph

本文提出了一种结合多保真度上下文赌博机和三层DFT验证漏斗的方法, 用于加速氧化物半导体中的掺杂剂筛选. 该方法显著减少了计算成本, 并在ZnO共掺杂筛选中成功识别出具有可见光范围带隙的候选材料.

Visual Late Chunking: An Empirical Study of Contextual Chunking for Efficient Visual Document Retrieval

Yibo Yan et al.

cs.CV cs.CL cs.IR

本文提出了一种名为ColChunk的即插即用框架, 通过引入多模态的late chunking来构建高效的、上下文感知的多向量表示, 以解决视觉文档检索中多向量模型存储和计算成本高的问题. 该方法在多个数据集上显著降低了存储需求并提升了检索性能.

Continuous PT-Symmetry Breaking as a Design Variable for Giant Altermagnetic Spin Splitting

Kichan Chun, Gunn Kim

cond-mat.mtrl-sci cs.LG physics.comp-ph

本文提出了一种称为Motif Symmetry-Breaking Index (MSBI)的连续标量，用于量化altermagnet材料中的$\mathcal{PT}$对称性破缺，从而无需依赖自旋极化密度泛函理论(DFT)即可预测自旋劈裂能(SSE)。通过机器学习模型识别出三个关键描述符，并利用贝叶斯优化发现了新的高性能候选材料。

"bot lane noob" Towards Deployment of NLP-based Toxicity Detectors in Video Games

Jonas Ave et al.

cs.CR cs.CY cs.LG

本文针对电子游戏中的毒性言论检测问题, 通过系统文献综述指出该领域缺乏高质量数据集和专门检测器的现状. 作者与专家合作构建了精细标注的LoL游戏内聊天数据集L2DTnH, 并基于此开发了一个在游戏语境下优于通用毒性检测器的NLP模型, 同时开发了不依赖第三方服务器的浏览器扩展原型, 公开了所有资源以推动应用研究.

A Modularized Framework for Piecewise-Stationary Restless Bandits

Kuan-Ta Li et al.

cs.IT cs.LG

本文提出了一个模块化框架来处理分段平稳的 restless multi-armed bandit (PS-RMAB) 问题。该框架将任意的 RMAB 基础算法与变化检测和一种新的递减探索机制相结合，无需事先知道变化点的数量，并证明了其遗憾上界。

Byzantine-Robust Distributed SGD: A Unified Analysis and Tight Error Bounds

Boyuan Ruan, Xiaoyu Wang, Ya-Feng Liu

math.OC cs.LG

本文对 Byzantine-robust distributed SGD 进行了统一的理论分析，在一般数据异构假设下，为非凸光滑目标和满足 Polyak-Lojasiewicz 条件的目标建立了收敛速率。分析表明，随机性和数据异构性会引入不可避免的误差，而局部动量（local momentum）可以降低随机性引起的误差。作者还推导了匹配的下界，证明了所得上界的紧致性，从而刻画了在随机性和数据异构性下 Byzantine 鲁棒性的基本极限。

Tessera: Unlocking Heterogeneous GPUs through Kernel-Granularity Disaggregation

Tiancheng Hu et al.

cs.DC cs.LG

本文提出了一个名为Tessera的系统，用于在异构GPU集群上实现更细粒度的AI工作负载分解。该系统通过离线分析和在线自适应，在kernel级别进行任务调度与通信重叠，从而提升了大型模型推理的吞吐量和成本效益。

RF-LEGO: Modularized Signal Processing-Deep Learning Co-Design for RF Sensing via Deep Unrolling

Luca Jiang-Tao Yu, Chenshu Wu

cs.DC cs.LG

本文提出了一种名为RF-LEGO的模块化协同设计框架，通过深度展开技术将可解释的信号处理算法转化为可训练的深度学习模块。该框架旨在提升无线感知模型的复用性和可解释性，并在多个真实世界数据集的实验中取得了优于基线方法的效果。

FatigueFusion: Latent Space Fusion for Fatigue-Driven Motion Synthesis

Iliana Loi, Konstantinos Moustakas

cs.GR cs.LG

本文提出了一种名为FatigueFusion的深度学习架构，用于在潜在表示空间中融合疲劳特征，以生成包含疲劳状态的运动序列。该框架通过算法和数据驱动模块，将特定于主体的时空疲劳特征施加到非疲劳运动上，并利用基于PINN的技术来模拟疲劳强度。

Oblivious Subspace Injection Is Not Enough for Relative Error

Alex Townsend, Chris Wang

math.NA cs.DS

本文探讨了Oblivious Subspace Injection (OSI) 的性质，指出其不足以保证相对误差界，并通过反例进行了说明。研究还讨论了恢复近似相对误差界所需的额外条件。

Adapting 2D Multi-Modal Large Language Model for 3D CT Image Analysis

Yang Yu et al.

cs.CV cs.AI

本文提出了一种将预训练的2D多模态大语言模型适配到3D医学CT图像分析的方法。该方法通过一个文本引导的层次化MoE框架和两阶段训练策略，在医学报告生成和视觉问答任务上取得了优于现有方法的效果。

Hijacking Text Heritage: Hiding the Human Signature through Homoglyphic Substitution

Robert Dilworth

cs.CR cs.CL cs.IR

本文探讨了通过同形异义字符替换来对抗文本风格分析的方法. 该方法通过将字符替换为视觉上相似的变体, 旨在降低基于统计的风格计量学(stylometry)系统的有效性, 从而保护文本作者的个人信息.

Descriptor-Injected Cross-Modal Learning: A Systematic Exploration of Audio-MIDI Alignment via Spectral and Melodic Features

Mariano Fernández Méndez

cs.SD cs.LG

本文系统研究了通过注入手工设计的领域特征（descriptor injection）来增强音频与MIDI跨模态检索的方法。实验表明，基于倍频带能量动态的音频描述符A4是性能提升的关键，而反向交叉注意力机制能在减少计算的同时保持竞争力。

FashionMV: Product-Level Composed Image Retrieval with Multi-View Fashion Data

Peng Yuan, Bingyin Mei, Hui Zhang

cs.CV cs.AI

本文提出了一个名为FashionMV的多视角时尚数据集以及一个名为ProCIR的建模框架，用于解决产品级别的组合图像检索任务。该工作将传统的图像级检索推广到考虑产品多视角信息的检索，并在构建的基准上验证了其方法的有效性。

Seeing No Evil: Blinding Large Vision-Language Models to Safety Instructions via Adversarial Attention Hijacking

Jingru Li, Wei Ren, Tianqing Zhu

cs.CV cs.CL

本文提出了一种针对大型视觉-语言模型(LVLMs)的新型对抗攻击方法, 通过直接操纵模型的attention模式来绕过其安全对齐机制. 该方法引入两个辅助目标来抑制对安全指令的attention并锚定在对抗性图像特征上, 从而在更少的迭代次数内实现了更高的攻击成功率.

From Helpful to Trustworthy: LLM Agents for Pair Programming

Ragib Shahariar Ayon

cs.SE cs.AI

本文探讨了如何构建可信赖的LLM智能体以用于结对编程。研究计划通过多智能体工作流将开发意图外显化，并利用开发工具进行迭代验证，旨在提升生成代码的可靠性、可审计性和可维护性。

Class-Adaptive Cooperative Perception for Multi-Class LiDAR-based 3D Object Detection in V2X Systems

Blessing Agyei Kyem, Joshua Kofi Asamoah, Armstrong Aboah

cs.CV cs.AI cs.ET

本文提出了一种用于V2X系统中多类别LiDAR 3D目标检测的类别自适应协同感知架构. 该模型通过类别特定的融合模块和平衡的目标加权, 在V2X-Real基准测试中提升了多类别检测性能.

Anatomy-Informed Deep Learning for Abdominal Aortic Aneurysm Segmentation

Osamah Sufyan et al.

cs.CV cs.LG

本文提出了一种结合解剖学先验的深度学习框架, 用于从CT血管造影图像中分割腹主动脉瘤(AAA). 该方法利用TotalSegmentator生成的器官排除掩码来抑制非血管区域的错误预测, 从而在有限训练数据下提升了分割的准确性和鲁棒性.

Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion

Vishal Pramanik et al.

cs.CR cs.AI

本文提出了一种名为Head-Masked Nullspace Steering (HMNS)的方法来攻击大型语言模型的安全机制. 该方法通过识别关键的attention head, 抑制其输出, 并在正交补空间中注入扰动, 从而有效地诱导模型产生有害回复.

Multinex: Lightweight Low-light Image Enhancement via Multi-prior Retinex

Alexandru Brateanu et al.

cs.CV cs.AI

本文提出了一种名为Multinex的超轻量级低光照图像增强框架。它基于Retinex理论，通过融合来自不同分析表示的多个先验堆栈来调整图像的亮度和反射率，从而在显著降低计算成本的同时达到与大型模型相当的性能。

Shuffling the Data, Stretching the Step-size: Sharper Bias in constant step-size SGD

Konstantinos Emmanouilidis, Emmanouil-Vasileios Vlatakis-Gkaragkounis, Rene Vidal

math.OC cs.LG

本文研究了在非单调变分不等式问题中, 结合随机重排(Random Reshuffling)和Richardson-Romberg外推的恒定步长随机梯度方法. 分析表明, 这种组合能同时改善解的均方误差和偏差.

FishRoPE: Projective Rotary Position Embeddings for Omnidirectional Visual Perception

Rahul Ahuja et al.

cs.CV cs.AI

本文提出了FishRoPE, 一个轻量级框架, 用于将预训练的视觉基础模型(VFMs)适配到鱼眼相机几何. 它通过引入Fisheye Rotary Position Embedding (FishRoPE)来重新参数化attention机制, 使其在球面坐标下基于角度分离而非像素距离进行计算. 该方法在鱼眼图像的目标检测和BEV分割任务上取得了先进的结果.

Rethinking Video Human-Object Interaction: Set Prediction over Time for Unified Detection and Anticipation

Yuanhao Luo et al.

cs.CV cs.AI

本文提出了一个用于视频中 human-object interaction (HOI) 统一检测与预测的框架 HOI-DA 和一个经过时间校正的基准 DETAnt-HOI. 该框架将未来交互建模为当前物体对状态的残差转移, 实验表明其在检测和预测任务上均取得了提升.

Sense Less, Infer More: Agentic Multimodal Transformers for Edge Medical Intelligence

Chengwei Zhou et al.

cs.ET cs.LG

本文提出了一种用于边缘医疗监测的自适应多模态智能框架, 它通过联合学习何时感知与如何推断来平衡诊断精度与能耗. 该框架集成了动态传感器选择, 可学习的信号采样与基于基础模型的预测模块, 在多个数据集上实现了传感器使用率显著降低的同时提升了分类准确率.

IMPACT: A Dataset for Multi-Granularity Human Procedural Action Understanding in Industrial Assembly

Di Wen et al.

cs.CV cs.AI

本文介绍了IMPACT数据集, 这是一个用于工业装配过程理解的多视角RGB-D数据集. 它提供了同步的视觉数据, 详细的动作与状态标注, 以及异常恢复监督, 旨在评估算法在真实工业场景下的性能.

Orthogonal machine learning for conditional odds and risk ratios

Jiacheng Ge, Iván Díaz

stat.ML cs.LG stat.ME

本文针对条件 odds ratio (OR) 和 risk ratio (RR) 的估计问题，提出了基于正交机器学习（如 DR-learner 和 R-learner）的新方法。通过数值模拟和真实数据分析，证明了所提非参数估计器在复杂场景下的优越性。

Neural Stochastic Processes for Satellite Precipitation Refinement

Shunya Nagashima et al.

cs.CV cs.LG

本文提出了一种用于卫星降水数据精细化校正的Neural Stochastic Process (NSP)模型。该模型结合了Neural Process编码器和潜在Neural SDE，能够利用稀疏的地面观测数据进行时空建模，并在新构建的QPEBench基准测试中超越了多种基线方法。

A Queueing-Theoretic Framework for Dynamic Attack Surfaces: Data-Integrated Risk Analysis and Adaptive Defense

Jihyeon Yun et al.

cs.CR cs.AI cs.LG eess.SY math.OC

本文提出了一个基于排队论的框架来建模网络攻击面的动态演化, 将活跃漏洞数量视为队列积压. 该模型结合了AI放大因子来研究自动化对攻防动态的影响, 并通过实证数据验证了其有效性. 基于此抽象, 文章将动态防御问题建模为一个带约束的Markov决策过程, 并开发了一种强化学习算法来设计自适应防御策略.

Near Optimal Algorithms for Noisy $k$-XOR under Low-Degree Heuristic

Songtao Mao

cs.CC cs.DS

本文研究了带噪声的$k$-XOR问题, 提出了一种在高噪声机制下的恢复算法. 该算法在样本复杂度与运行时间之间取得了近乎最优的权衡, 并匹配了相应的低度下界.

Toward Accountable AI-Generated Content on Social Platforms: Steganographic Attribution and Multimodal Harm Detection

Xinlei Guan et al.

cs.CV cs.AI cs.CR cs.ET

本文提出了一种结合隐写术水印与多模态有害内容检测的框架, 用于追踪社交媒体上AI生成图像的滥用. 该系统评估了多种水印方法, 并利用基于CLIP的融合模型检测图文不匹配的有害内容, 以实现可靠的跨模态溯源验证.

PatchRecall: Patch-Driven Retrieval for Automated Program Repair

Mahir Labib Dihan, Faria Binta Awal, Md. Ishrak Ahsan

cs.SE cs.CL

本文提出了一种名为PatchRecall的混合检索方法, 用于自动化程序修复(APR)中的代码库文件检索. 该方法结合了基于代码库的检索和基于历史记录的检索, 以在保证高召回率的同时控制检索集的大小, 实验表明其在SWE-Bench上取得了更好的效果.

UDAPose: Unsupervised Domain Adaptation for Low-Light Human Pose Estimation

Haopeng Chen et al.

cs.CV cs.AI

本文提出了一种用于低光照人体姿态估计的无监督域适应框架 UDAPose. 该框架通过合成低光照图像并动态融合视觉线索与姿态先验来提升模型在真实低光场景下的性能.

FEDBUD: Joint Incentive and Privacy Optimization for Resource-Constrained Federated Learning

Tao Liu, Xuehe Wang

cs.DC cs.LG

本文提出了一种名为FEDBUD的联邦学习系统，它将隐私保护与经济激励相结合。该系统通过一个两阶段Stackelberg博弈模型来联合优化数据量和噪声水平，并利用均值场估计器和虚拟队列求解纳什均衡。

Cross-Cultural Bias in Mel-Scale Representations: Evidence and Alternatives from Speech and Music

Shivam Chauhan, Ajay Pundhir

cs.SD cs.AI

本文通过对比mel-scale特征与可学习替代方案(如LEAF, SincNet)及心理声学变体(如ERB, Bark, CQT)在多种音频任务上的表现，揭示了传统mel-scale表示法在跨文化音频处理中存在的系统性偏差。研究结果表明，替代性表示方法能显著减少这些性能差距，为开发更公平的音频系统提供了实证依据。

How Many Tries Does It Take? Iterative Self-Repair in LLM Code Generation Across Model Scales and Benchmarks

Johin Johny Arimbur

cs.SE cs.AI

本文研究了在代码生成任务中, 大型语言模型(LLMs)的迭代自我修复(iterative self-repair)能力. 通过在HumanEval和MBPP基准上对七个不同规模和架构的模型进行实验, 发现自我修复能普遍提升通过率, 并且现代指令微调模型仅通过提示即可实现有效的自我修复.

Data-Efficient Surgical Phase Segmentation in Small-Incision Cataract Surgery: A Controlled Study of Vision Foundation Models

Lincoln Spencer, Song Wang, Chen Chen

cs.CV cs.AI

本文在手动小切口白内障手术(SICS)的相位分割任务中, 对比了监督编码器(如ResNet-50)与大规模自监督基础模型(如DINOv3)的视觉表示能力. 研究采用缓存的视觉特征与统一的时序模型(MS-TCN++)进行训练, 发现基础模型特征在此数据高效场景下能带来性能提升. 该工作为低标注医疗视频场景下的工作流理解提供了实践指导.

STORM: End-to-End Referring Multi-Object Tracking in Videos

Zijia Lu et al.

cs.CV cs.AI

本文提出了一个端到端的模型STORM, 用于视频中的指代多目标跟踪任务. 该模型通过任务组合学习策略和数据增强, 在多个基准测试上取得了先进的性能.

AI Patents in the United States and China: Measurement, Organization, and Knowledge Flows

Hanming Fang et al.

econ.GN cs.AI cs.CL q-fin.GN

本文开发了一个基于PatentSBERTa微调的高精度AI专利分类器, 应用于中美专利数据, 分析了两国AI专利的增长趋势、组织结构和知识流动. 研究发现两国AI创新模式存在显著差异, 但市场价值溢价和知识依赖关系表明技术相互依存持续存在.

Towards an Appropriate Level of Reliance on AI: A Preliminary Reliance-Control Framework for AI in Software Engineering

Samuel Ferino et al.

cs.SE cs.AI cs.HC

本文基于对软件开发者的访谈, 提出了一个初步的AI依赖控制框架, 用于识别和调节对AI工具的过度依赖或依赖不足. 该研究旨在促进AI工具在软件工程中的负责任和有效使用.

VLN-NF: Feasibility-Aware Vision-and-Language Navigation with False-Premise Instructions

Hung-Ting Su et al.

cs.RO cs.CL cs.CV

本文提出了VLN-NF基准，用于评估智能体在目标不存在的错误前提指令下的导航与探索能力。研究还设计了ROAM方法，结合了监督式导航与大模型驱动的探索策略，在新基准上取得了最佳性能。

Machine Learning-Based Detection of MCP Attacks

Tobias Mattsson et al.

cs.CR cs.AI cs.SE

本文开发并评估了多种监督机器学习方法, 用于检测恶意MCP工具描述. 在二元分类任务中, 部分模型达到了100%的F1分数, 其性能超越了传统的基于规则的解决方案.

VidAudio-Bench: Benchmarking V2A and VT2A Generation across Four Audio Categories

Qian Zhang et al.

cs.SD cs.AI

本文提出了一个名为VidAudio-Bench的多任务基准测试，用于评估Video-to-Audio (V2A)和Video-Text-to-Audio (VT2A)生成任务。该基准覆盖了四种音频类别，并引入了多种自动化评估指标，实验发现当前模型在语音和歌声生成上表现不佳。

Universal statistical signatures of evolution in artificial intelligence architectures

Theodor Spiro

q-bio.PE cs.AI cs.CY cs.NE

本文通过分析大量AI架构消融实验, 检验了AI架构进化是否遵循与生物进化相同的统计规律. 研究发现, 其适应度效应分布与某些生物物种相似, 表明进化的统计结构可能具有基质无关性.

The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents

Xuwei Ding et al.

cs.CR cs.AI

本文提出了OS-BLIND基准，用于评估计算机使用agent在用户指令看似无害但任务上下文或执行结果有害的场景下的安全性。研究发现，即使经过安全对齐的先进模型，在此类“盲点”攻击下也表现出极高的成功率，现有防御措施效果有限。

AffordGen: Generating Diverse Demonstrations for Generalizable Object Manipulation with Afford Correspondence

Jiawei Zhang et al.

cs.RO cs.AI

本文提出了AffordGen框架, 利用大规模3D mesh的语义关键点对应关系生成新的机器人操作轨迹, 以解决模仿学习中因数据多样性不足导致的几何泛化问题. 实验表明, 基于此数据训练的闭环视觉运动策略能实现零样本泛化.

GeoMeld: Toward Semantically Grounded Foundation Models for Remote Sensing

Maram Hasan et al.

cs.CV cs.AI

本文提出了一个用于遥感领域的大规模多模态数据集GeoMeld和一个预训练框架GeoMeld-FM. 该框架通过结合多种自监督学习目标, 旨在学习能够捕捉跨传感器物理一致性和语义信息的表示.

COREY: A Prototype Study of Entropy-Guided Operator Fusion with Hadamard Reparameterization for Selective State Space Models

Bo Ma et al.

cs.CV cs.AI

本文提出了COREY, 一个结合了内存感知算子融合与基于Hadamard的特征重参数化的原型框架, 用于优化Selective State Space Models (SSMs)的推理效率. 该框架利用激活熵作为运行时调度统计量来指导融合边界和分块大小的选择, 并通过吸收归一化的Hadamard变换到线性投影中来正则化重尾分布激活, 从而在原型研究中减少了延迟和内存带宽消耗.

Adaptive H-EFT-VA: A Provably Safe Trajectory Through the Trainability-Expressibility Landscape of Variational Quantum Algorithms

Eyad I. B. Hamid

quant-ph cs.LG hep-th

本文提出了一种自适应分层有效场论变分算法(A-H-EFT-VA), 用于在变分量子算法的可训练性与表达能力之间进行权衡. 该方法通过沿一条安全轨迹扩展可访问的希尔伯特空间, 在保持梯度方差为$\Omega(1/\text{poly}(N))$的同时, 提升了对于远离参考态的目标态的制备保真度.

BMdataset: A Musicologically Curated LilyPond Dataset

Matteo Spanio, Ilay Guler, Antonio Rodà

cs.SD cs.CL cs.IR

本文介绍了BMdataset, 这是一个由音乐学家精心整理的LilyPond符号音乐数据集, 并基于此训练了LilyBERT模型. 实验表明, 在高质量小数据集上进行微调, 对于音乐理解任务的效果优于在大型嘈杂语料库上进行持续预训练.

Multimodal Dataset Normalization and Perceptual Validation for Music-Taste Correspondences

Matteo Spanio, Valentina Frezzato, Antonio Rodà

cs.SD cs.LG cs.MM eess.AS

本文通过两项实验验证了从人工标注的小型数据集到大规模合成标注数据集的跨模态结构迁移可行性, 并评估了基于食品化学的计算风味目标与人类感知的一致性. 实验结果表明, 合成标注中保留了音效调味效应, 支持了可复现的跨模态AI研究.

On the Capacity of Distinguishable Synthetic Identity Generation under Face Verification

Behrooz Razeghi

cs.IT cs.IR math.PR stat.AP

本文研究了在给定阈值下，人脸验证系统能够区分的合成身份的最大数量问题。文章将问题形式化为一个生成式人脸识别流程，并定义了可区分身份生成的容量。在确定性视角下，该容量与球面上的编码问题相关；在随机生成模型中，文章推导了身份中心所需分离角度的充分条件，并给出了基于球面码的渐近下界。

Vibe-driven model-based engineering

Jordi Cabot

cs.SE cs.AI

本文探讨了将基于模型的工程(model-driven engineering, MDE)与基于大型语言模型的自然语言编程(vibe coding)相结合的可能性, 提出了“氛围驱动的基于模型工程”(vibe-driven model-based engineering)这一新概念. 作者认为这两种方法可以互补, 为不同类型的软件系统和开发场景提供不同的路径, 并概述了这一融合方法的关键概念与未来挑战.

A Deep Generative Approach to Stratified Learning

Randy Martinez, Rong Tang, Lizhen Lin

stat.ML cs.LG

本文提出了两种深度生成模型框架, 用于学习定义在分层空间(stratified spaces)上的数据分布. 第一种是基于变分自编码器混合的筛极大似然方法, 第二种是基于扩散模型探索混合分数场结构的方法. 理论分析给出了学习环境分布和内在分布的收敛速率, 并证明了估计各层内在维度的一致性.

LoViF 2026 The First Challenge on Weather Removal in Videos

Chenghao Qian

cs.CV cs.AI cs.MM

本文介绍了LoViF 2026视频天气去除挑战赛的概况。该挑战旨在推动从雨雪等恶劣天气条件下降质的视频中恢复清晰内容的方法发展，并为此发布了一个新的短格式WRV数据集。

DynamicsLLM: a Dynamic Analysis-based Tool for Generating Intelligent Execution Traces Using LLMs to Detect Android Behavioural Code Smells

Houcine Abdelkader Cherief, Florent Avellaneda, Naouel Moha

cs.SE cs.AI

本文提出了一种名为DynamicsLLM的工具，它结合了动态分析与大型语言模型来生成智能执行轨迹，以检测Android应用中的行为代码异味。该方法在包含333个应用的测试集上进行了验证，相比原有工具提升了事件覆盖率。

Omnimodal Dataset Distillation via High-order Proxy Alignment

Yuxuan Gao et al.

cs.CV cs.CL cs.LG

本文提出了一种名为HoPA的方法, 用于解决多模态(多于两种模态)数据集蒸馏问题. 该方法通过一个紧凑的代理(proxy)来捕获高阶跨模态对齐, 避免了成对模态建模的组合复杂性, 并在多个基准测试中取得了优于现有方法的压缩-性能权衡.

One-Step Score-Based Density Ratio Estimation

Wei Chen et al.

stat.ML cs.LG

本文提出了一种名为OS-DRE的单步得分密度比估计方法，旨在平衡估计质量与计算效率。该方法通过解析框架处理时间积分，避免了数值求解器，从而在多个任务中实现了高效推断。

Critical-CoT: A Robust Defense Framework against Reasoning-Level Backdoor Attacks in Large Language Models

Vu Tuan Truong, Long Bao Le

cs.CR cs.AI

本文提出了一种名为Critical-CoT的防御框架，用于抵御针对大语言模型推理链的后门攻击。该方法通过两阶段微调使模型具备批判性思维，从而拒绝生成恶意思维步骤。

Architecture-Agnostic Modality-Isolated Gated Fusion for Robust Multi-Modal Prostate MRI Segmentation

Yongbo Shu et al.

cs.CV cs.AI

本文提出了一种用于多模态前列腺MRI分割的架构无关模块MIGF, 该模块通过保持模态特定的编码流和使用模态丢弃训练来提高模型在输入模态缺失或损坏时的鲁棒性. 在PI-CAI数据集上的实验表明, 该方法能有效提升多种骨干网络在多种不完整输入场景下的分割性能.

Audio-Omni: Extending Multi-modal Understanding to Versatile Audio Generation and Editing

Zeyue Tian et al.

cs.SD cs.AI cs.CV cs.MM

本文提出了Audio-Omni, 一个统一音频生成与编辑的端到端框架. 它结合了冻结的多模态大语言模型和可训练的Diffusion Transformer, 并在多个基准测试中取得了先进性能.

Detecting RAG Extraction Attack via Dual-Path Runtime Integrity Game

Yuanbo Xie et al.

cs.CR cs.AI cs.CL

本文提出了一种名为CanaryRAG的运行时防御机制，用于检测针对Retrieval-Augmented Generation (RAG)系统的知识库提取攻击。该方法通过嵌入“金丝雀”令牌并构建一个双路径完整性验证游戏，在不显著影响系统性能的前提下，实时识别潜在的泄露行为。

Turning Generators into Retrievers: Unlocking MLLMs for Natural Language-Guided Geo-Localization

Yuqi Chen et al.

cs.CV cs.AI

本文提出了一种通过参数高效微调将MLLMs应用于自然语言引导的跨视角地理定位任务的方法. 该方法在保持MLLM预训练知识的同时优化其潜在表示, 在多个基准上取得了优于传统双编码器架构的性能.

Tail-Aware Information-Theoretic Generalization for RLHF and SGLD

Huiming Zhang et al.

stat.ML cs.AI cs.LG math.PR math.ST

本文针对具有重尾分布的数据, 提出了一个基于尾部分布的信息论泛化分析框架. 该框架适用于sub-Weibull数据, 并推导了相应的PAC-Bayes泛化界, 可应用于具有重尾奖励的RLHF和具有重尾梯度噪声的SGLD等场景.

Perceived Importance of Cognitive Skills Among Computing Students in the Era of AI

Neha Rani, Erta Cenko, Laura Melissa Cruz Castro

cs.CY cs.AI

本文通过一项针对计算专业本科生的定量调查, 研究了在生成式AI工具日益普及的背景下, 学生对认知技能重要性认知的变化. 调查发现, 学生预期未来随着AI整合加深, 多项认知技能的重要性将下降, 这提示教育设计需要明确强化在AI辅助学习环境中的认知技能培养.

Prosociality by Coupling, Not Mere Observation: Homeostatic Sharing in an Inspectable Recurrent Artificial Life Agent

Aishik Sanyal

cs.MA cs.AI

本文在一个可检查的循环控制器中引入了显式的稳态机制和社会耦合通道, 但保持规划严格自导向. 通过在两个玩具世界中的实验对比, 研究发现仅当伙伴的需求被路由到自我调节时, 帮助行为才会出现.

Lung Cancer Detection Using Deep Learning

Imama Ajmi, Abhishek Das

cs.CV cs.AI cs.LG

本文探讨了使用多种深度学习模型进行肺癌检测的方法。提出的CNN模型通过整合多种层类型来提升性能，并在实验中避免了过拟合问题。

Verify Before You Fix: Agentic Execution Grounding for Trustworthy Cross-Language Code Analysis

Jugal Gajjar

cs.SE cs.AI cs.CR cs.LG cs.PL

本文提出了一个基于LLM的、用于跨语言软件漏洞分析的智能体框架。该框架通过统一的抽象语法树表示和混合图神经网络模型进行检测，并强调在执行验证后才进行修复，以提高可靠性。实验表明该方法在跨语言场景下有效，并降低了不必要的修复。

MeloTune: On-Device Arousal Learning and Peer-to-Peer Mood Coupling for Proactive Music Curation

Hongwei Xu

cs.SD cs.AI cs.MA

本文介绍了一个名为MeloTune的iPhone音乐代理系统, 它部署了Mesh Memory Protocol (MMP)和Symbolic-Vector Attention Fusion (SVAF)用于情感感知的音乐推荐与点对点情绪耦合. 系统通过两个CfC网络在设备端运行, 并引入Personal Arousal Function (PAF)来个性化预测用户的唤醒度, 所有推理均在本地完成.

Uncertainty-Guided Attention and Entropy-Weighted Loss for Precise Plant Seedling Segmentation

Mohamed Ehab, Ali Hamdi

cs.CV cs.LG

本文提出了一种名为UGDA-Net的植物幼苗分割网络，通过引入不确定性引导的注意力机制和熵加权损失函数来提升对叶片精细结构的识别精度。实验表明该方法在Dice系数等指标上优于基线模型。

Maximum Independent Sets in Disk Graphs with Disks in Convex Position

Anastasiia Tkachenko, Haitao Wang

cs.CG cs.DS

本文研究了disk graph中maximum independent set问题的特殊情况, 即当所有disk处于convex position时. 作者提出了一种$O(n^3\log n)$时间的算法, 该算法也适用于带权重的disk, 从而改进了先前仅针对等半径disk的$O(n^{37/11})$时间算法. 作为应用, 该结果还导出了一个在convex position的disk集合上求解dispersion问题的$O(n^3\log^2 n)$时间算法.

Speaking to No One: Ontological Dissonance and the Double Bind of Conversational AI

Hugh Brosnahan, Izabela Lipinska

cs.HC cs.AI cs.CL cs.CY cs.ET

本文从现象学、精神病学和认知神经科学的角度, 分析了与 conversational AI 持续互动可能导致少数用户产生或稳定妄想体验的风险. 作者认为, 风险源于交互本身的关系和本体结构, 即 conversational AI 产生的 "本体论失调" 和 "双重束缚" 沟通模式.

LLMs for Qualitative Data Analysis Fail on Security-specificComments in Human Experiments

Maria Camporese, Fabio Massacci, Yuanjun Gong

cs.SE cs.AI

本文探讨了使用大型语言模型(LLMs)来自动化分析安全相关的人类实验评论的可行性。研究通过比较多个LLM与人类标注者在特定安全代码识别任务上的表现，发现即使采用详细的提示策略，LLMs的性能仍不足以可靠地替代人类专家。

Harnessing Photonics for Machine Intelligence

Hanqing Zhu et al.

physics.optics cs.AI cs.AR cs.ET cs.LG

本文从电路与系统的视角综述了光子计算在人工智能加速领域的应用, 强调了跨层协同设计和电子-光子设计自动化(EPDA)的重要性, 并展望了从实验室原型到可扩展生态系统的路线图.

Resilient Write: A Six-Layer Durable Write Surface for LLM Coding Agents

Justice Owusu Agyemang et al.

cs.SE cs.AI

本文提出了一种名为Resilient Write的MCP服务器，旨在增强LLM编码代理在文件写入操作中的鲁棒性。该系统通过一个包含六层防护机制的写入表面，来应对写入失败的各种情况，并展示了其在减少恢复时间和提高自我纠正率方面的有效性。

Retinal Cyst Detection from Optical Coherence Tomography Images

Abhishek Dharmaratnakar, Aadheeshwar Vijayakumar, Suchand Dayanand

cs.CV cs.AI cs.LG cs.NE

本文提出了一种基于ResNet CNN的patchwise classification方法, 用于从光学相干断层扫描(OCT)图像中分割视网膜囊肿. 该方法在公开的囊肿分割挑战数据集上进行了训练和测试, 在所有四种设备图像上都取得了超过70%的Dice系数, 性能优于现有方法.

BridgeSim: Unveiling the OL-CL Gap in End-to-End Autonomous Driving

Seth Z. Zhao et al.

cs.RO cs.AI

本文分析了自动驾驶中 open-loop (OL) 与 closed-loop (CL) 评估之间的性能差距 (OL-CL gap), 指出其主要根源在于 Objective Mismatch 导致的策略偏差. 作者提出了一个 Test-Time Adaptation (TTA) 框架来校准观测偏移并增强时间一致性, 实验表明该框架能有效缓解规划偏差.

Compliant But Unsatisfactory: The Gap Between Auditing Standards and Practices for Probabilistic Genotyping Software

Angela Jin et al.

cs.CY cs.AI cs.HC cs.SE

本文通过分析审计标准ASB 018及其相关审计报告，揭示了审计标准设计中的缺陷如何导致合规审计实践与预期目标之间存在显著差距。研究指出，标准中模糊的语言和未定义的术语是造成这种脱节的关键原因，并为此类标准的改进提供了建议。

Ambiguity Detection and Elimination in Automated Executable Process Modeling

Ion Matei et al.

cs.SE cs.AI

本文提出了一个诊断驱动的框架, 用于检测和消除从自然语言规范自动生成的BPMN模型中的行为不一致性. 该方法通过分析关键性能指标的分布来定位问题, 并将问题映射回原始文本进行修复, 从而在缺乏真实模型的情况下验证和修复可执行流程规范.

Product Review Based on Optimized Facial Expression Detection

Vikrant Chaugule et al.

cs.CV cs.AI cs.GR

本文提出了一种基于优化面部表情检测的产品评价方法. 该方法通过改进的 Harris 算法提取特征点来识别顾客表情, 旨在分析顾客对产品的接受度. 实验表明, 改进的算法在角点检测上降低了时间复杂度, 且保持了所需的准确性.

Beyond A Fixed Seal: Adaptive Stealing Watermark in Large Language Models

Shuhao Zhang et al.

cs.CR cs.AI

本文提出了一种针对大语言模型水印的自适应窃取算法(AS). 该方法通过动态选择攻击视角来提升窃取效率, 实验表明其能有效对抗现有水印方案.

Entropic independence via sparse localization

Vishesh Jain, Huy Tuan Pham, Thuy-Duong Vuong

cs.IT cs.DS math.PR

本文提出了稀疏局部化方法, 用于推导测度的熵独立性. 该方法仅需对稀疏的钉扎集合假设$\ell_2$-独立性, 即可证明熵稳定性与熵独立性. 作为应用, 作者证明了有界度图中给定大小的独立集均匀分布的熵近似守恒性.

Evaluating the Impact of Medical Image Reconstruction on Downstream AI Fairness and Performance

Matteo Wohlrapp et al.

cs.CV cs.AI

本文通过一个可扩展的评估框架，研究了医学图像重建模型对下游AI诊断任务的性能和公平性的影响。研究发现，传统的重建指标与下游任务性能关联性弱，且重建过程可能轻微放大诊断模型中已有的基于性别的偏见。

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Sreyan Ghosh et al.

cs.SD cs.AI cs.CL eess.AS

本文介绍了Audio Flamingo Next (AF-Next)模型，这是一个用于语音、环境声音和音乐理解与推理的新一代大型音频-语言模型。它通过引入更强的基座模型、大规模数据构建策略、长音频支持以及新的时序推理范式，在多个基准测试中取得了优异性能。

ReXSonoVQA: A Video QA Benchmark for Procedure-Centric Ultrasound Understanding

Xucheng Wang et al.

cs.CV cs.AI

本文提出了一个用于超声检查过程理解的视频问答基准ReXSonoVQA, 包含514个视频片段和相关问题. 评估发现, 现有的vision-language models在需要因果推理的故障排除问题上表现不佳.

QShield: Securing Neural Networks Against Adversarial Attacks using Quantum Circuits

Navid Azimi et al.

cs.CR cs.AI cs.CV cs.LG quant-ph

本文提出了一种名为QShield的混合量子-经典神经网络架构，旨在提升经典深度学习模型对抗对抗性扰动的鲁棒性。该架构将经典卷积神经网络与量子处理模块相结合，通过在噪声模型下应用结构化纠缠操作来增强防御能力。实验表明，该混合模型在保持预测准确性的同时，能有效降低多种对抗攻击的成功率。

Generative Design for Direct-to-Chip Liquid Cooling for Data Centers

Zheng Liu

eess.SY cs.LG

本文提出了一种用于数据中心直接芯片液冷的生成式设计框架. 该方法通过结合物理模型与生成算法来优化冷却通道布局, 以应对AI芯片非均匀的发热分布.

Progressive Deep Learning for Automated Spheno-Occipital Synchondrosis Maturation Assessment

Omid Halimi Milani et al.

cs.CV cs.LG

本文提出了一种用于评估蝶枕软骨结合成熟度的渐进式深度学习框架. 该方法通过模拟专家从粗到细的推理过程来改进医学图像分析, 在多个网络架构上取得了更高的准确率.

Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models

Songlin Yang, Xianghao Kong, Anyi Rao

cs.CV cs.AI

本文提出了一种基于信息论的探测框架, 用于分析统一多模态模型(UMMs)内部的编码与生成过程. 研究发现, 这些模型存在"伪统一"现象, 表现为模态间编码的信息熵轨迹不同, 以及文本生成与图像合成遵循不同的信息模式.

A molecular clock for writing systems reveals the quantitative impact of imperial power on cultural evolution

Hiroki Fukui

q-bio.PE cs.AI cs.CL cs.CY

本文通过构建全球文字数据库并应用多种系统发育分析方法, 首次在量化层面揭示了文字系统演化中存在可检测的分子钟信号. 研究发现, 政治干预会打破这一演化节律, 并选择性地改写深层结构特征, 同时分析了文字替代事件的影响及殖民接触与文字消亡的关联.

bioLeak: Leakage-Aware Modeling and Diagnostics for Machine Learning in R

Selçuk Korkmaz

stat.CO cs.LG stat.AP stat.ML

本文介绍了一个名为bioLeak的R软件包, 用于在生物医学机器学习中构建防止数据泄露(data leakage)的重采样工作流, 并对拟合模型进行常见泄露机制的审计. 该包支持多种分析任务, 并通过案例展示了有防护与存在泄露的流程会导致显著不同的结论.

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

Yinuo Yang et al.

cs.CV cs.AI

本文提出了一种多响应判别式奖励模型, 能在单次前向传播中同时评估多个候选响应. 该方法通过拼接响应并使用交叉熵损失进行$N$路偏好学习, 显著提升了评估效率. 模型在多个多模态奖励基准测试中取得了领先性能, 并能用于强化学习以提升策略模型.

Towards Automated Solar Panel Integrity: Hybrid Deep Feature Extraction for Advanced Surface Defect Identification

Muhammad Junaid Asif et al.

cs.CV cs.AI

本文提出了一种结合手工特征与深度学习特征的混合方法, 用于太阳能电池板的表面缺陷检测. 实验表明, 该方法在增强数据集上取得了较高的准确率.

MMR-AD: A Large-Scale Multimodal Dataset for Benchmarking General Anomaly Detection with Multimodal Large Language Models

Xincheng Yao et al.

cs.CV cs.AI

本文提出了一个用于评估基于Multimodal Large Language Models (MLLMs)的通用异常检测(General Anomaly Detection, GAD)性能的大规模多模态数据集MMR-AD。基于此数据集，作者还提出了一个基于推理的基线模型Anomaly-R1，该模型在异常检测和定位任务上相比现有通用MLLMs取得了显著提升。

Neural Generalized Mixed-Effects Models

Yuli Slavutsky, Sebastian Salazar, David M. Blei

stat.ML cs.LG stat.CO stat.ME

本文提出了一种名为 neural generalized mixed-effects model (NGMM) 的模型, 它将传统 GLMM 中的线性预测器替换为神经网络, 从而能够捕捉协变量与响应之间更复杂的关系. 作者还提出了一种可微分的优化方法来拟合模型, 并在合成与真实数据集上展示了其优于传统方法的性能.

Enabling and Inhibitory Pathways of Students' AI Use Concealment Intention in Higher Education: Evidence from SEM and fsQCA

Yiran Du, Huimin He

cs.HC cs.AI

本文结合SEM与fsQCA方法，研究了高等教育中学生隐藏AI使用行为的意图。研究揭示了由感知风险等因素驱动的促进路径和由自我效能等因素驱动的抑制路径。

Examining EAP Students' AI Disclosure Intention: A Cognition-Affect-Conation Perspective

Yiran Du, Huimin He

cs.HC cs.AI

本文从认知-情感-意动视角研究了EAP学生披露AI使用意向的心理因素。研究发现心理安全感和对负面评价的恐惧是影响披露意向的关键因素，并强调了清晰政策和支持性教学环境的重要性。

Panoptic Pairwise Distortion Graph

Muhammad Kamran Janjua, Abdul Wahab, Bahador Rashidi

cs.CV cs.AI cs.LG

本文提出了一种新的图像质量评估方法, 将图像对表示为区域的结构化组合, 并引入了Distortion Graph (DG) 这一新任务. 作者构建了区域级数据集PandaSet和基准测试PandaBench, 并展示了现有MLLMs在该细粒度任务上的局限性.

NimbusGuard: A Novel Framework for Proactive Kubernetes Autoscaling Using Deep Q-Networks

Chamath Wanigasooriya, Indrajith Ekanayake

cs.DC cs.AI

本文提出了一种名为NimbusGuard的主动式Kubernetes自动扩缩框架，它利用深度强化学习agent和LSTM模型预测工作负载。实验表明，该框架在性能和成本效率上优于传统的反应式方法。

Brief2Design: A Multi-phased, Compositional Approach to Prompt-based Graphic Design

Kotaro Kikuchi, Nami Ogawa

cs.HC cs.AI

本文提出了一种基于多阶段结构化流程的提示式平面设计工具 Brief2Design. 该工具通过提取需求、探索设计元素并灵活重组来支持设计师的工作流, 研究发现这种结构化方法有助于澄清需求但会降低效率.

Federated Single-Agent Robotics: Multi-Robot Coordination Without Intra-Robot Multi-Agent Fragmentation

Xue Qin et al.

cs.RO cs.AI

本文提出了一种名为Federated Single-Agent Robotics (FSAR)的多机器人协调运行时架构。该架构主张每个机器人保持为单一智能体，通过机器人间的联邦来实现群体协调，而非在单个机器人内部进行多智能体分解。

Lightweight Low-Light Image Enhancement via Distribution-Normalizing Preprocessing and Depthwise U-Net

Shimon Murai et al.

cs.CV cs.AI cs.LG

本文提出了一种轻量化的低光照图像增强框架, 结合了基于算法的预处理和深度可分离卷积构建的U-Net. 该方法在保持竞争力的感知质量的同时, 显著减少了模型参数量.

ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation

Suyoung Kim et al.

cs.CV cs.AI

本文提出了一种名为ReSpinQuant的量化框架, 通过离线融合激活旋转和利用残差子空间旋转来匹配基, 旨在解决layer-wise量化方法带来的推理开销问题. 该方法在W4A4和W3A3量化任务上取得了先进的性能, 以可忽略的开销达到了与计算昂贵的layer-wise方法相当的精度.

FlowCoMotion: Text-to-Motion Generation via Token-Latent Flow Modeling

Dawei Guan et al.

cs.CV cs.AI

本文提出了一种名为FlowCoMotion的文本驱动运动生成框架, 通过token-latent耦合建模来统一连续与离散运动表示. 该方法结合了多视角蒸馏和时序量化, 并利用ODE求解器从先验分布生成目标运动, 在HumanML3D等基准测试上取得了有竞争力的结果.

E2E-REME: Towards End-to-End Microservices Auto-Remediation via Experience-Simulation Reinforcement Fine-Tuning

Lingzhe Zhang et al.

cs.SE cs.AI

本文提出了一个面向微服务自动修复的端到端任务 E2E-MR, 并构建了自动化评估基准 MicroRemed. 作者进一步设计了 E2E-REME 模型, 通过经验模拟强化微调进行训练, 实验表明其在准确性和效率上优于其他大型语言模型.

Efficient Transceiver Design for Aerial Image Transmission and Large-scale Scene Reconstruction

Zeyi Ren et al.

cs.CV cs.LG eess.SP

本文提出了一种用于无人机图像传输与大规模场景重建的端到端收发器设计. 该方法将3D Gaussian Splatting集成到训练中, 通过联合优化通信模块来提升场景恢复质量, 并利用稀疏导频方案降低传输开销.

Generating Hadamard matrices with transformers

Geordie Williamson, Oded Yacobi, Paul Zinn-Justin

math.CO cs.LG

本文提出了一种结合transformer神经网络与PatternBoost框架局部搜索的新方法, 用于构造Hadamard矩阵. 该方法针对极稀疏的组合搜索问题, 在Goethals--Seidel型Hadamard矩阵的构造上尤为有效, 能够发现并利用搜索空间中的隐藏对称性.

ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing

Xi Chen, Wei Xue, Yike Guo

cs.SD cs.AI

本文提出了一个用于语音角色扮演的基准测试ActorMindBench和一个多智能体推理框架ActorMind. 该框架模仿人类演员的思维过程, 通过多个智能体协作来生成带有情感和角色特征的语音响应.

Record-Remix-Replay: Hierarchical GPU Kernel Optimization using Evolutionary Search

Daniel Nichols et al.

cs.DC cs.AI cs.LG cs.PF

本文提出了一个名为Record-Remix-Replay (R^3)的分层优化框架，用于自动探索和优化GPU内核。该框架结合了进化搜索、贝叶斯优化和记录-重放编译技术，能够跨多个层次（从源代码实现到编译器设置）进行高效搜索，从而加速科学应用的性能调优过程。

Use of AI Tools: Guidelines to Maintain Academic Integrity in Computing Colleges

Hatem M. El-boghdadi et al.

cs.CY cs.AI cs.CL cs.ET

本文探讨了AI工具在计算机教育中的使用及其对学术诚信的影响, 提出了一套通用指南和针对特定评估形式的建议, 以帮助教师负责任地将AI工具融入教学. 文章还引入了一个用于在AI辅助工具存在下评估学生作业的形式化数学模型.

DDO-RM for LLM Preference Optimization: A Minimal Held-Out Benchmark against DPO

Tiantian Zhang, Jierui Zuo, Wenping Wang

stat.ML cs.LG

本文比较了两种用于大型语言模型偏好优化的方法: DPO 和 DDO-RM. 在有限的基准测试中, DDO-RM 在几个评估指标上表现优于 DPO, 但作者指出这些结果仍是初步的.

Semantic-Geometric Dual Compression: Training-Free Visual Token Reduction for Ultra-High-Resolution Remote Sensing Understanding

Yueying Li et al.

cs.CV cs.AI

本文提出了一种针对超高分辨率遥感图像理解的无训练视觉token压缩框架DualComp. 该框架通过一个轻量级路由器动态引导, 将特征处理解耦为面向对象语义和场景几何的两个专用流, 以平衡语义抽象与空间拓扑完整性之间的需求, 从而在降低计算成本的同时保持解释的高保真度.

AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps

Liaoyuan Fan et al.

cs.RO cs.LG

本文提出了一种名为AIM的意图感知统一世界动作模型, 通过显式的空间价值图接口来桥接视频生成模型与机器人控制. 该方法在共享的混合Transformer架构中联合建模未来观测和价值图, 并利用自蒸馏强化学习优化动作头, 在仿真数据集上取得了优于基线模型的性能.

BoxTuning: Directly Injecting the Object Box for Multimodal Model Fine-Tuning

Zekun Qian, Ruize Han, Wei Feng

cs.CV cs.AI

本文提出了一种名为BoxTuning的视觉提示方法，用于视频多模态大语言模型的微调。该方法通过将带颜色的边界框和轨迹直接渲染到视频帧上，以视觉方式注入物体时空信息，从而显著减少了文本令牌的使用并保持了完整的时间分辨率。

Hierarchical Textual Knowledge for Enhanced Image Clustering

Yijie Zhong et al.

cs.CV cs.CL cs.MM

本文提出了一种利用大型语言模型构建层次化概念-属性知识结构来增强图像聚类的方法. 该方法通过结构化提示词提取判别性属性, 并将知识实例化以增强特征, 在多个数据集上提升了聚类性能与鲁棒性.

Cost-optimal Sequential Testing via Doubly Robust Q-learning

Doudou Zhou et al.

stat.ML cs.AI cs.LG math.ST

本文提出了一种基于双重稳健Q学习的框架, 用于从回顾性数据中学习成本最优的序贯决策策略. 该方法通过构造正交伪结局来估计最优策略, 并在模拟和前列腺癌队列研究中展示了其在控制测试成本方面的潜力.

EmbodiedGovBench: A Benchmark for Governance, Recovery, and Upgrade Safety in Embodied Agent Systems

Xue Qin et al.

cs.RO cs.AI

本文提出了一个名为EmbodiedGovBench的基准测试, 用于评估具身智能体系统的治理、恢复和升级安全性. 该基准超越了传统的任务成功率指标, 旨在衡量系统在现实扰动下是否保持可控、可审计和可安全演进.

Probabilistic Prediction of Neural Dynamics via Autoregressive Flow Matching

Nicole Rogalla et al.

q-bio.NC cs.LG

本文提出了一种基于autoregressive flow matching (AFM)的生成式预测框架, 用于从多模态感官输入中概率性地预测大规模神经动力学. 该方法在Algonauts项目数据集上超越了非自回归基线, 表明自回归分解和利用历史神经活动信息能提升短期BOLD信号预测性能.

Taking a Pulse on How Generative AI is Reshaping the Software Engineering Research Landscape

Bianca Trinkenreich et al.

cs.SE cs.AI

本文通过一项针对软件工程研究人员的调查, 分析了生成式AI在软件工程研究中的使用现状与影响. 研究发现生成式AI的使用已相当普遍, 尤其在写作和早期研究活动中, 但也带来了关于准确性、偏见和治理等方面的担忧.

Towards Adaptive Open-Set Object Detection via Category-Level Collaboration Knowledge Mining

Yuqi Ji et al.

cs.CV cs.AI

本文提出了一种用于自适应开放集目标检测的类别级协作知识挖掘策略. 该方法通过构建基于聚类的记忆库来编码类别原型和类内差异信息, 并设计了从基础类别到新类别的选择度量来初始化新类别分类器, 以缓解源域特征偏差并提升跨域表示能力.

CapBench: A Multi-PDK Dataset for Machine-Learning-Based Post-Layout Capacitance Extraction

Hector R. Rodriguez, Jiechen Huang, Wenjian Yu

cs.AR cs.LG

本文介绍了CapBench, 一个用于机器学习辅助后版图电容提取的多工艺设计套件(PDK)数据集. 该数据集包含从开源设计提取的数万个3D窗口, 并提供了高保真电容标签和多种数据表示形式, 同时评估了包括CNN和GNN在内的多种机器学习架构的性能.

Designing Adaptive Digital Nudging Systems with LLM-Driven Reasoning

Tiziano Santilli, Mina Alipour, Mahyar Tourchi Moghaddam

cs.SE cs.AI

本文提出了一种用于设计自适应数字助推系统的软件架构, 该架构将行为科学理论与伦理约束作为核心结构要素. 通过文献综述归纳了需求, 并设计了包含处理层和跨领域评估模块的架构. 一个基于LLM的概念验证在能源可持续性场景中进行了可行性评估.

3DTV: A Feedforward Interpolation Network for Real-Time View Synthesis

Stefan Schulz et al.

cs.CV cs.LG cs.MM

本文提出了一种用于实时稀疏视角插值的 feedforward 网络 3DTV. 它结合了轻量级几何与学习方法, 通过基于 Delaunay 的三元组选择和姿态感知深度模块, 实现了无需场景特定优化的实时自由视点渲染.

Regional Explanations: Bridging Local and Global Variable Importance

Salim I. Amoukou, Nicolas J-B. Brunel

stat.ML cs.AI cs.LG

本文分析了 Local Shapley Values 和 LIME 这两种局部特征归因方法，指出了它们在识别局部重要特征时的根本性局限。作者提出了一种新的方法 R-LOCO，该方法通过将输入空间划分为具有相似特征重要性模式的区域，并在区域内应用全局归因方法，从而在局部和全局解释之间架起桥梁。

Sign Language Recognition in the Age of LLMs

Vaclav Javorek et al.

cs.CV cs.CL

本文评估了现代 Vision Language Models (VLMs) 在零样本设置下进行孤立手语识别 (ISLR) 的能力。实验表明，当前开源 VLMs 的性能远逊于经典监督方法，但更大规模的专有模型表现更佳，揭示了模型规模与训练数据多样性的重要性。

RECIPER: A Dual-View Retrieval Pipeline for Procedure-Oriented Materials Question Answering

Zhuoyu Wu et al.

eess.SP cs.AI cs.CL

本文提出了一种名为RECIPER的双视图检索流程，用于面向过程的材料科学问答。该方法结合了段落级上下文和LLM提取的流程摘要进行检索，并通过轻量级词汇重排序整合结果，在多个指标上超越了仅使用段落的密集检索方法。

Evolving Many Worlds: Towards Open-Ended Discovery in Petri Dish NCA via Population-Based Training

Uljad Berdica et al.

cs.NE cs.AI cs.MA

本文提出了一种名为PBT-NCA的元进化算法，用于训练Petri Dish Neural Cellular Automata (PD-NCA)模型。该方法通过结合历史行为新颖性和即时视觉多样性的复合目标，旨在克服传统方法中常见的模式崩溃问题，从而在长时间尺度上自发产生丰富的、类似生命的涌现现象。

Trustworthy Feature Importance Avoids Unrestricted Permutations

Emanuele Borgonovo et al.

stat.ML cs.LG

本文指出基于无限制置换的特征重要性方法存在外推误差问题, 并提出了条件模型依赖, 高斯变换的Knockoffs和受限ALE图设计三种新方法. 理论和数值结果表明这些策略能减少或消除外推误差.

Signal-Aware Conditional Diffusion Surrogates for Transonic Wing Pressure Prediction

Víctor Francés-Belda, Carlos Sanmiguel Vila, Rodrigo Castellanos

physics.flu-dyn cs.LG

本文提出了一种用于预测跨音速机翼表面压力分布的 conditional denoising diffusion probabilistic model. 该方法通过一种 signal-aware 的训练目标和基于采样的可靠性指标, 在保持非线性特征方面优于确定性基线模型.

3D-Anchored Lookahead Planning for Persistent Robotic Scene Memory via World-Model-Based MCTS

Bronislav Sidik, Dror Mizrahi

cs.RO cs.AI

本文提出了一种名为3D-Anchored Lookahead Planning (3D-ALP)的机器人操作规划方法，它结合了Monte Carlo Tree Search (MCTS)与一个3D一致的世界模型。该方法通过维护一个持久的空间锚点来解决遮挡问题，在需要空间记忆的顺序任务上显著优于反应式基线策略。

Learning to Forget -- Hierarchical Episodic Memory for Lifelong Robot Deployment

Leonard Bärmann et al.

cs.RO cs.AI

本文提出了一个用于机器人终身部署的层次化情景记忆框架 H$^2$-EMV. 该框架通过用户交互学习选择性遗忘, 以维持可扩展且个性化的记忆系统.

The Salami Slicing Threat: Exploiting Cumulative Risks in LLM Systems

Yihao Zhang et al.

cs.CR cs.AI cs.CL cs.CV cs.LG

本文提出了一种针对LLM的新型多轮越狱攻击方法"Salami Attack", 它通过串联多个低风险输入来累积有害意图, 最终触发高风险行为. 该方法在多种模型和模态上展现了高攻击成功率, 并提出了相应的防御策略.

Network Effects and Agreement Drift in LLM Debates

Erica Cau, Andrea Failla, Giulio Rossetti

cs.SI cs.AI cs.CY cs.MA physics.soc-ph

本文通过一个具有可控同质性和类别规模的网络生成模型, 研究了LLM智能体在多轮辩论中的集体行为. 研究发现了一种特定的方向性倾向, 称为"agreement drift", 并强调了在将LLM群体视为人类行为代理之前, 需要区分结构效应与模型偏差.

Coarse Balanced Separators in Fat-Minor-Free Graphs

Édouard Bonnet et al.

math.CO cs.DM cs.DS

本文研究了不含特定"fat minor"的图类中的平衡分割子问题. 证明了这类图存在一种可以被少数半径为$r$的球覆盖的平衡分割子, 其规模约为$O(n^{1/2+\varepsilon})$, 并给出了一个随机多项式时间算法来构造这样的分割子或找到一个fat minor模型.

BRIDGE and TCH-Net: Heterogeneous Benchmark and Multi-Branch Baseline for Cross-Domain IoT Botnet Detection

Ammar Bhilwarawala et al.

cs.CR cs.LG cs.NI

本文提出了一个用于跨域物联网僵尸网络检测的异构基准BRIDGE和一个多分支基线模型TCH-Net. BRIDGE统一了多个数据集的特征表示, 而TCH-Net通过融合时序, 上下文和统计分支来提升检测性能.

A Compact and Efficient 1.251 Million Parameter Machine Learning CNN Model PD36-C for Plant Disease Detection: A Case Study

Shkelqim Sherifi

cs.CV cs.AI

本文提出了一种名为PD36-C的紧凑型卷积神经网络(CNN), 用于植物病害检测. 该模型参数量小(约125万), 在包含87k图像的数据集上取得了高测试精度(约0.9953), 并配套开发了桌面应用, 展示了其在边缘设备上部署的实用性.

Governance by Design: A Parsonian Institutional Architecture for Internet-Wide Agent Societies

Anbang Ruan

cs.MA cs.AI cs.CY

本文应用Talcott Parsons的AGIL框架，为互联网范围的agent社会提出了一个规范性的十六单元制度架构。通过对OpenClaw生态系统及更广泛的agent原生协议栈的诊断分析，发现现有技术基础设施缺乏有效的治理、协调层和规范基础，揭示了市场驱动开发中普遍存在的治理缺口。

Geometry-Aware Localized Watermarking for Copyright Protection in Embedding-as-a-Service

Zhimin Chen et al.

cs.CR cs.CL

本文提出了一种用于Embedding-as-a-Service版权保护的几何感知局部水印框架GeoMark。该方法通过设计解耦水印触发与所有权归属的机制，旨在解决现有方法在鲁棒性、效用和可验证性之间的权衡问题。实验表明其在多种攻击下能保持较好的性能。

Minimal Embodiment Enables Efficient Learning of Number Concepts in Robot

Zhegong Shangguan, Alessandro Di Nuovo, Angelo Cangelosi

cs.RO cs.AI

本文通过机器人具身交互实验, 研究了抽象数字概念的习得. 结果表明, 即使是最小程度的具身性也能作为结构先验, 显著提升学习的数据效率, 并自发形成与生物认知一致的对数调谐等表征.

What Do Vision-Language Models Encode for Personalized Image Aesthetics Assessment?

Koki Ryu, Hitomi Yanaka

cs.CV cs.CL

本文分析了vision-language models (VLMs) 的内部表示，以探究其是否编码了用于个性化图像美学评估 (PIAA) 的多层次美学属性。研究发现，VLMs 确实编码了多样的美学信息，并且基于这些表示，简单的线性模型即可有效进行 PIAA。

From Redaction to Restoration: Deep Learning for Medical Image Anonymization and Reconstruction

Adrienne Kline et al.

cs.CV cs.AI

本文提出了一种用于医学图像匿名化的端到端深度学习框架, 该框架先检测并遮盖可能包含受保护健康信息(PHI)的区域, 然后使用生成模型(基于Stable Diffusion 2)对遮盖区域进行内容修复. 该方法旨在生成视觉连贯且保持下游分析任务效用的匿名化图像.

Reasoning Resides in Layers: Restoring Temporal Reasoning in Video-Language Models with Layer-Selective Merging

Zihang Fu et al.

cs.CV cs.CL

本文提出了一种无需训练的模型合并框架MERIT, 用于恢复视频语言模型(VLMs)中的时序推理能力. 该方法通过有选择地合并VLM与其纯文本骨干网络的自注意力层, 在提升时序推理的同时, 避免损害模型的时序感知能力.

One Scale at a Time: Scale-Autoregressive Modeling for Fluid Flow Distributions

Mario Lino, Nils Thuerey

cs.CE cs.AI physics.flu-dyn

本文提出了一种用于非结构网格上流体流动分布采样的尺度自回归建模方法. 该方法通过从粗到细的层次化采样, 先生成低分辨率场, 再以粗尺度预测为条件逐步细化, 从而提高了采样效率. 在多个非定常流基准测试中, 该方法在保证或超越现有方法精度的同时, 显著提升了计算速度.

GlobalCY I: A JAX Framework for Globally Defined and Symmetry-Aware Neural Kähler Potentials

Abdul Rahman

hep-th cs.LG math.AG

本文介绍了一个名为GlobalCY的JAX框架, 用于在射影超曲面Calabi-Yau几何上构建全局定义且对称性感知的神经Kähler势模型. 通过在一个困难的四次Calabi-Yau案例上进行基准测试, 研究发现全局不变模型在关键的几何诊断指标上优于局部输入基线模型.

Efficient Emotion-Aware Iconic Gesture Prediction for Robot Co-Speech

Edwin C. Montiel-Vazquez et al.

cs.RO cs.AI

本文提出了一种轻量级transformer模型, 用于仅从文本和情感信息预测机器人的伴随语音手势(iconic gestures)的位置和强度. 该模型在BEAT2数据集上的语义手势放置分类和强度回归任务中表现优于GPT-4o, 且计算紧凑, 适合在具身智能体(embodied agents)上实时部署.

Hardening x402: PII-Safe Agentic Payments via Pre-Execution Metadata Filtering

Vladimir Stantchev

cs.CR cs.AI cs.CY

本文提出了一种用于x402协议支付请求的中间件, 通过预执行元数据过滤来检测和编辑个人可识别信息(PII), 强制执行声明性支出策略, 并阻止重复的重放尝试. 作者构建了一个包含2000个元数据三元组的合成语料库进行评估, 结果表明推荐的配置在可接受的延迟内实现了较高的精确度和召回率.

SLALOM: Simulation Lifecycle Analysis via Longitudinal Observation Metrics for Social Simulation

Juhoon Lee, Joseph Seering

cs.MA cs.AI

本文提出了一个名为SLALOM的框架, 用于评估基于LLM agent的社会模拟的过程保真度, 而非仅验证最终结果. 该框架利用Dynamic Time Warping (DTW)来对齐模拟轨迹与经验数据, 旨在提高模拟的结构真实性.

ADD for Multi-Bit Image Watermarking

An Luo, Jie Ding

stat.ML cs.AI cs.LG math.ST stat.ME

本文提出了一种名为ADD的多比特图像水印方法，该方法通过两阶段学习实现高容量和鲁棒性的信息嵌入与提取。在标准数据集上的实验表明，该方法在解码准确性和抗图像失真方面优于现有技术，并提供了理论分析支持其有效性。

Revisiting Compositionality in Dual-Encoder Vision-Language Models: The Role of Inference

Imanol Miranda et al.

cs.CV cs.CL cs.LG

本文探讨了双编码器视觉语言模型在组合性任务上的表现, 认为其瓶颈可能在于基于全局余弦相似度的标准推理协议, 而非表征本身. 通过实验, 作者展示了在推理时引入细粒度区域-片段对齐能显著提升组合性性能, 并提出了一种基于冻结嵌入学习此类对齐的轻量级Transformer方法.

Deep Learning for Sequential Decision Making under Uncertainty: Foundations, Frameworks, and Frontiers

I. Esra Buyuktahtakin

math.OC cs.AI cs.LG eess.SY stat.ML

本文从运筹学与管理科学(OR/MS)的视角, 探讨了深度学习在不确定性下序贯决策中的应用. 它认为深度学习应与优化方法互补, 而非替代, 并综述了相关理论基础, 神经网络架构以及学习与优化的整合方法.

The Price of Ignorance: Information-Free Quotation for Data Retention in Machine Unlearning

Bin Han et al.

cs.GT cs.LG

本文设计了一种无需用户隐私信息的报价机制, 用于数据保留场景下的machine unlearning. 该机制通过广播递增价格让用户自选, 并在完全信息下存在唯一的子博弈完美纳什均衡. 分析表明, 这种信息无关机制与理想化定价方案的福利差距(Price of Ignorance)接近于零.

EdgeCIM: A Hardware-Software Co-Design for CIM-Based Acceleration of Small Language Models

Jinane Bazzi et al.

cs.AR cs.AI

本文提出了一种名为EdgeCIM的硬件-软件协同设计框架，用于在边缘设备上高效加速小型语言模型(SLM)的推理。该框架通过结合计算内存(CIM)宏和基于tile的映射策略，旨在解决解码阶段内存带宽受限的问题，从而提升吞吐量和能效。

Machine-learning modeling of magnetization dynamics in quasi-equilibrium and driven metallic spin systems

Gia-Wei Chern et al.

cond-mat.str-el cs.LG physics.comp-ph

本文综述了机器学习力场方法在金属自旋系统大规模Landau-Lifshitz-Gilbert模拟中的应用进展。通过推广Behler-Parrinello架构并引入基于群论的对称性磁描述符，构建了可扩展的模型来捕捉巡游磁体中交换场对局域磁环境的复杂依赖关系。

DuET: Dual Execution for Test Output Prediction with Generated Code and Pseudocode

Hojae Han et al.

cs.SE cs.CL

本文提出了一种结合代码执行与伪代码推理的双重执行框架DuET, 用于提升大语言模型在测试输出预测任务中的可靠性. 该方法通过功能多数投票整合两种互补的预测路径, 在LiveCodeBench基准上取得了当前最佳性能.

From Translation to Superset: Benchmark-Driven Evolution of a Production AI Agent from Rust to Python

Jinhua Wang, Biswa Sengupta

cs.SE cs.AI

本文介绍了一种利用LLM辅助进行持续代码翻译的方法, 将大型Rust代码库迁移至Python, 并以公开的agent基准测试作为目标函数来驱动迭代优化. 该方法在保持功能对等的同时, 使Python移植版本发展出更多扩展功能, 并为跨语言迁移提供了一个基于基准测试的框架.

SVD-Prune: Training-Free Token Pruning For Efficient Vision-Language Models

Yvon Apedo et al.

cs.CV cs.AI

本文提出了一种基于Singular Value Decomposition (SVD)的、无需训练的视觉token剪枝方法SVD-Prune. 该方法通过统计杠杆分数选择对全局方差贡献最大的token, 在极低的token预算下超越了现有方法.

CLAY: Conditional Visual Similarity Modulation in Vision-Language Embedding Space

Sohwi Lim et al.

cs.CV cs.AI

本文提出了一种无需额外训练即可在预训练视觉-语言模型嵌入空间中实现文本条件相似度计算的方法CLAY, 并构建了合成评估数据集CLAY-EVAL. 该方法将文本条件过程与视觉特征提取分离, 在标准数据集上展现了较高的检索准确率和计算效率.

Human Centered Non Intrusive Driver State Modeling Using Personalized Physiological Signals in Real World Automated Driving

David Puertas-Ramirez et al.

cs.HC cs.LG cs.RO

本文探讨了在真实世界自动驾驶环境中, 利用个性化生理信号进行非侵入式驾驶员状态建模的可行性. 研究通过可穿戴设备采集多模态生理数据, 并将其转换为二维表示后使用基于预训练ResNet50的多模态架构进行处理, 实验结果表明个性化模型相比通用模型在准确率上有显著提升.

MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora

Tao Feng et al.

cs.SD cs.CL

本文提出了一种名为MimicLM的零样本语音模仿方法。该方法通过构建伪平行语音语料库进行自回归建模，旨在解决高质量平行数据稀缺的问题。

Minimizing classical resources in variational measurement-based quantum computation for generative modeling

Arunava Majumder, Hendrik Poulsen Nautrup, Hans J. Briegel

quant-ph cs.AI cs.LG stat.ML

本文提出了一种受限的变分测量基量子计算(VMBQC)模型, 通过仅引入一个额外的可训练参数, 将酉模型扩展为基于信道的模型. 数值和代数分析表明, 这种最小扩展足以生成对应酉模型无法学习的概率分布, 从而在生成建模中利用测量随机性.

Computation of Least Trimmed Squares: A Branch-and-Bound framework with Hyperplane Arrangement Enhancements

Xiang Meng, Andrés Gómez, Rahul Mazumder

math.OC cs.LG math.ST

本文针对 penalized least trimmed squares (LTS) 回归这一 NP-hard 的鲁棒统计问题，提出了一种新的混合整数优化 (MIO) 公式和定制的分支定界算法。该方法通过结合超平面排列逻辑和透视重构，显著提升了计算效率，使得在固定特征数的低维场景下，能够处理更大规模的数据集。

CUTEv2: Unified and Configurable Matrix Extension for Diverse CPU Architectures with Minimal Design Overhead

Jinpeng Ye et al.

cs.AR cs.AI cs.DC cs.LG

本文提出了一种统一且可配置的CPU矩阵扩展架构CUTEv2, 旨在降低AI工作负载加速的硬件与软件设计开销. 该架构通过解耦矩阵单元与CPU流水线, 支持灵活的配置与异步执行抽象, 并在多个开源CPU平台上验证了其高效性与跨平台适应性.

CodeTracer: Towards Traceable Agent States

Han Li et al.

cs.SE cs.AI

本文提出了一种名为CodeTracer的追踪架构，用于分析和调试复杂的代码智能体。它通过解析运行产物、重建状态历史并进行故障定位，以提升对智能体错误传播的理解。实验表明该方法在故障定位上优于基线方法，并能帮助恢复失败的运行。

GPU Acceleration of Sparse Fully Homomorphic Encrypted DNNs

Lara D'Agata et al.

cs.CR cs.DC cs.DS cs.LG cs.PF

本文提出了一种针对稀疏全同态加密深度神经网络在AMD GPU上的加速方法. 通过利用操作数的稀疏性, 该方法降低了计算复杂度并提升了运行效率.

Beyond LLMs, Sparse Distributed Memory, and Neuromorphics <A Hyper-Dimensional SRAM-CAM "VaCoAl" for Ultra-High Speed, Ultra-Low Power, and Low Cost>

Hiroyuki Chuma, Kanji Otsuka, Yoichi Sato

cs.NE cs.AI

本文提出了一种基于Galois-field algebra的确定性超维计算架构VaCoAl, 该架构结合了超高速、超低功耗和低成本的特点. 它在高维二进制空间中通过Galois-field diffusion解决了正交化和检索问题, 并展示了在知识图谱多跳推理任务上的应用.

NetworkNet: A Deep Neural Network Approach for Random Networks with Sparse Nodal Attributes and Complex Nodal Heterogeneity

Zhaoyu Xing, Xiufan Yu

stat.ME cs.AI math.ST stat.CO

本文提出了一种名为NetworkNet的深度神经网络方法, 用于建模具有高维节点属性的随机网络中的节点异质性. 该方法通过定制的神经网络架构显式参数化属性驱动的异质性, 并嵌入可扩展的属性选择机制, 在模拟和实际引文网络数据中展示了其性能.

AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation

Mingyang Li et al.

cs.RO cs.AI

本文提出了AffordSim, 一个用于生成具身智能操作数据的仿真框架与基准. 该框架集成了开放词汇的3D功能预测模型VoxAfford, 以生成关注物体功能区域的操作轨迹, 并评估了多种模仿学习算法在相关任务上的表现.

On the Robustness of Watermarking for Autoregressive Image Generation

Andreas Müller et al.

cs.CV cs.AI cs.CR

本文研究了自回归图像生成模型中的水印技术, 并评估了其鲁棒性. 作者提出了三种新的攻击方法, 并证明现有方案在面对移除和伪造攻击时是脆弱的.

Universality of first-order methods on random and deterministic matrices

Nicola Gorini et al.

math.PR cs.DS cs.LG math.ST

本文通过分析一般一阶方法(GFOM)的图展开和输入矩阵的极限流量分布, 研究了其在随机和确定性矩阵上的渐近动力学. 作者计算了首批非平凡确定性矩阵(如Walsh-Hadamard变换矩阵的变体)的流量分布, 并设计了一种新的近似消息传递(AMP)迭代, 其动力学在给定潜变量下是高斯性的, 适用于一大类流量分布.

Ambivalence/Hesitancy Recognition in Videos for Personalized Digital Health Interventions

Manuela González-González et al.

cs.CV cs.HC cs.LG

本文探讨了使用深度学习模型从视频中识别矛盾/犹豫情绪, 这是一个多模态任务. 研究涵盖了监督学习、无监督域适应和基于大语言模型的零样本推理, 在BAH数据集上的实验结果表明现有方法性能有限, 需要更适应的多模态模型.

Endogenous Information in Routing Games: Memory-Constrained Equilibria, Recall Braess Paradoxes, and Memory Design

Saad Alqithami

cs.GT cs.AI cs.IT

本文研究了具有内生信息的路由博弈, 其中旅行者基于记忆或呈现的路线进行优化. 论文建立了一个可处理的记忆设计理论, 并将其与一个显式的有限记忆微观模型联系起来. 在微观层面, 证明了 Forgetful Wardrop Equilibrium (FWE) 的存在性和唯一性. 主要设计层是一个静态显著性模型, 它将持久的记忆和界面效应总结为路径特定的权重, 并导出了一个严格的凸势能最小化问题. 论文还定义了 Recall Braess Paradox, 即改善记忆反而会增加均衡延迟, 并证明其在特定网络条件下可能出现.

Multi-ORFT: Stable Online Reinforcement Fine-Tuning for Multi-Agent Diffusion Planning in Cooperative Driving

Haojie Bai et al.

cs.RO cs.AI

本文提出了一种名为Multi-ORFT的方法，用于多智能体协同驾驶中的闭环轨迹规划。该方法结合了基于场景条件的扩散模型预训练和稳定的在线强化学习微调，旨在提升轨迹的逼真度、场景一致性和安全性。实验表明，该方法在安全性和交通效率指标上优于现有基线。

Grounded World Model for Semantically Generalizable Planning

Quanyi Li et al.

cs.RO cs.AI

本文提出了一种名为Grounded World Model (GWM)的方法，用于提升视觉运动模型预测控制(MPC)的语义泛化能力。该方法通过将世界模型学习与视觉-语言对齐的潜在空间相结合，使得任务指令可以直接用于评估动作的未来结果，从而在包含未见视觉信号和指代表达的新任务上取得了显著优于传统基于视觉语言模型(VLM)的方法的性能。

StarVLA-$α$: Reducing Complexity in Vision-Language-Action Systems

Jinhui Ye et al.

cs.RO cs.AI cs.CV

本文提出了StarVLA-$\alpha$, 一个用于研究Vision-Language-Action (VLA) 模型设计选择的简化基线. 通过统一多个基准测试的训练, 研究表明一个强大的视觉语言模型主干结合最小化设计已足以实现强劲性能, 无需依赖复杂的架构或工程技巧.

MosaicMRI: A Diverse Dataset and Benchmark for Raw Musculoskeletal MRI

Paula Arguello et al.

cs.CV cs.LG eess.SP physics.med-ph stat.ML

本文介绍了MosaicMRI, 这是一个用于训练和评估基于机器学习的MRI方法的大型、多样化的原始肌肉骨骼MRI数据集. 该数据集包含大量不同解剖结构、成像对比度和采集线圈的数据, 并基于此进行了加速重建任务的基准实验, 研究了模型容量和数据规模的影响, 以及跨解剖结构的泛化能力.

Efficient KernelSHAP Explanations for Patch-based 3D Medical Image Segmentation

Ricardo Coimbra Brioso et al.

cs.CV cs.AI

本文提出了一种用于基于patch的3D医学图像分割的高效KernelSHAP解释框架。该方法通过限制计算区域、缓存patch logit和重用基线预测来加速计算，并比较了不同的特征抽象方法以生成临床可解释的归因图。

ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection

Wei Zhao et al.

cs.CR cs.AI

本文提出了一个名为ClawGuard的运行时安全框架, 用于防御工具增强型LLM智能体所面临的间接提示注入攻击. 该框架通过在工具调用边界强制执行用户确认的规则集, 将不可靠的对齐依赖防御转化为确定性的、可审计的机制, 从而在不修改模型或基础设施的情况下拦截恶意工具调用.

Budget-Aware Uncertainty for Radiotherapy Segmentation QA Using nnU-Net

Ricardo Coimbra Brioso et al.

cs.CV cs.AI

本文提出了一个基于nnU-Net的预算感知不确定性框架，用于放射治疗分割的质量保证。该框架结合了不确定性量化和事后校准，以生成体素级不确定性图来指导人工审查。在TMLI案例中，评估了多种不确定性估计与校准方法的组合，结果表明温度缩放显著改善了校准效果，而基于校准检查点的推理能更好地对齐不确定性与分割误差。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others