bluearXiv-ai - 2026-03-25

📄 所有论文 ↑ 回顶部

cs.LG

TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly

Toshiaki Koike-Akino, Jing Liu, Ye Wang

cs.LG cs.CL eess.SP

本文提出了一种名为TTQ的test-time quantization框架, 用于在推理时动态压缩大型语言模型. 该方法通过高效的在线校准实现即时激活感知量化, 无需重新训练即可适应不同下游任务, 从而加速推理.

Beyond Hard Constraints: Budget-Conditioned Reachability For Safe Offline Reinforcement Learning

Janaka Chathuranga Brahmanage, Akshat Kumar

cs.LG cs.AI cs.RO

本文提出了一种用于离线安全强化学习的新方法, 通过定义 budget-conditioned reachability set 来解耦奖励最大化与累积安全成本约束. 该方法避免了不稳定的 min/max 或 Lagrangian 优化, 并在标准基准测试和实际海事导航任务中展示了其有效性与安全性.

Efficient Embedding-based Synthetic Data Generation for Complex Reasoning Tasks

Srideepika Jayaraman et al.

cs.LG cs.AI

本文提出了一种基于embedding的合成数据生成方法, 用于提升复杂推理任务中较小语言模型的性能. 该方法通过在embedding空间中分析生成数据的分布, 并据此进行有针对性的采样, 以增强数据的多样性和模型的表现.

Between the Layers Lies the Truth: Uncertainty Estimation in LLMs Using Intra-Layer Local Information Scores

Zvi N. Badash, Yonatan Belinkov, Moti Freiman

cs.LG cs.AI

本文提出了一种基于模型内部表征跨层一致性模式的轻量级不确定性估计方法. 该方法在单次前向传播中计算得分, 在分布外迁移和模型量化场景下表现稳健.

Scaling Attention via Feature Sparsity

Yan Xie et al.

cs.LG cs.AI

本文提出了一种基于特征稀疏性的注意力机制Sparse Feature Attention (SFA), 将注意力计算复杂度从$\Theta(n^2 d)$降低到$\Theta(n^2 k^2/d)$. 该方法在保持模型性能的同时, 显著提升了长上下文处理的速度并减少了计算开销.

Latent Semantic Manifolds in Large Language Models

Mohamed A. Mabrok

cs.LG cs.AI

本文提出了一个将LLM隐藏状态解释为潜在语义流形的数学框架, 该流形是一个配备Fisher信息度量的Riemannian子流形, 其中token对应于划分流形的Voronoi区域. 作者定义了表达性差距来衡量词汇离散化带来的语义失真, 并证明了关于失真下界和差距线性缩放的两个定理, 在多个Transformer架构上验证了预测.

Research on Individual Trait Clustering and Development Pathway Adaptation Based on the K-means Algorithm

Qianru Wei et al.

cs.LG cs.CY stat.AP

本文利用K-means算法对学生特征数据进行聚类分析，将其分为四类，并基于结果为不同群体提供职业发展建议。该方法为个性化教育指导提供了一种数据驱动的途径。

Sample Transform Cost-Based Training-Free Hallucination Detector for Large Language Models

Zeyang Ding, Xinglin Hu, Jicong Fan

cs.LG cs.AI

本文提出了一种基于样本间最优传输距离的训练无关幻觉检测方法. 该方法通过计算LLM生成响应的token嵌入之间的Wasserstein距离矩阵来量化模型条件分布的复杂度, 并从中提取两个互补信号用于检测.

Mitigating Premature Discretization with Progressive Quantization for Robust Vector Tokenization

Wenhao Zhao et al.

cs.LG

本文提出了一种名为Progressive Quantization (ProVQ)的新方法，用于缓解Vector Quantization (VQ)中的Premature Discretization问题。该方法通过将量化过程设计为一个从连续到离散的渐进课程，引导codebook更好地匹配数据流形，从而在图像和生物序列等多种模态上提升了重建与生成性能。

CN-Buzz2Portfolio: A Chinese-Market Dataset and Benchmark for LLM-Based Macro and Sector Asset Allocation from Daily Trending Financial News

Liyuan Chen et al.

cs.LG cs.AI

本文提出了一个面向中国市场的数据集和基准测试CN-Buzz2Portfolio，用于评估大型语言模型(LLM)如何根据每日趋势新闻进行宏观和行业资产配置。该工作通过一个三阶段智能体工作流程，在交易所交易基金(ETF)等广泛资产类别上测试了多个LLM的性能，揭示了模型在将宏观叙事转化为投资组合权重方面的显著差异。

Full waveform inversion method based on diffusion model

Caiyun Liu et al.

cs.LG

本文提出了一种基于条件扩散模型正则化的全波形反演方法. 该方法通过改进扩散模型的骨干网络结构, 将二维密度信息作为条件输入引入U-Net, 以利用物性间的物理耦合关系来约束反演过程. 实验表明, 该方法能提升反演结果的分辨率和结构保真度, 并增强在复杂情况下的稳定性.

UniFluids: Unified Neural Operator Learning with Conditional Flow-matching

Haosen Li et al.

cs.LG cs.AI

本文提出了UniFluids, 一个基于conditional flow-matching的框架, 用于统一学习不同维度和物理变量的PDE的解算子. 该方法利用扩散Transformer的可扩展性, 通过并行序列生成和统一的四维时空表示进行联合训练, 并在多个PDE数据集上展示了良好的预测精度和泛化能力.

A Multi-Modal CNN-LSTM Framework with Multi-Head Attention and Focal Loss for Real-Time Elderly Fall Detection

Lijie Zhou, Luran Wang

cs.LG cs.AI

本文提出了一种用于实时老年人跌倒检测的多模态深度学习框架。该框架融合了加速度计、陀螺仪和生理信号数据，并采用了多尺度CNN、多头自注意力机制和Focal Loss等技术，在SisFall数据集上取得了较高的检测性能，并满足边缘设备的实时性要求。

Enhancing AI-Based Tropical Cyclone Track and Intensity Forecasting via Systematic Bias Correction

Peisong Niu et al.

cs.LG cs.AI

本文提出了一个名为BaguanCyclone的统一框架，用于改进基于AI的热带气旋路径和强度预报。该框架通过概率中心细化模块和区域感知强度预报模块，减少了粗分辨率数据带来的误差，并在多个气旋盆地的评估中表现优于现有方法。

Emergency Preemption Without Online Exploration: A Decision Transformer Approach

Haoran Su, Hanxiao Deng, Yandong Sun

cs.LG cs.AI

本文提出了一种基于Decision Transformer的离线强化学习框架, 用于优化应急车辆信号优先通行. 该方法将问题建模为条件于目标回报的序列生成任务, 无需在线环境交互, 并能通过单一标量控制优先级别.

ST-GDance++: A Scalable Spatial-Temporal Diffusion for Long-Duration Group Choreography

Jing Xu et al.

cs.LG cs.AI cs.CV cs.SD

本文提出了一个名为ST-GDance++的可扩展框架，用于从音乐生成长时间的群舞编排。该方法通过解耦空间和时间依赖关系，利用轻量级的图卷积和高效的扩散噪声调度策略，旨在提高生成效率并减少运动碰撞。实验表明，该模型在保持生成质量的同时显著降低了计算延迟。

Geometric Mixture-of-Experts with Curvature-Guided Adaptive Routing for Graph Representation Learning

Haifang Cao et al.

cs.LG cs.AI

本文提出了一种用于图表示学习的几何混合专家框架(GeoMoE), 它利用Ollivier-Ricci曲率作为几何先验来指导节点表示在不同黎曼空间中的自适应融合. 该方法通过曲率感知的对比目标来增强几何判别性, 并在多个基准数据集上取得了优于现有方法的结果.

A graph neural network based chemical mechanism reduction method for combustion applications

Manuru Nithin Padiyar, Priyabrat Dash, Konduri Aditya

cs.LG

本文提出了两种基于图神经网络(GNN)的化学机理简化方法, 用于燃烧模拟. 这些方法通过数据驱动的方式学习物种与反应间的非线性依赖关系, 能够在特定条件下实现显著的机理简化.

Sparsely-Supervised Data Assimilation via Physics-Informed Schrödinger Bridge

Dohyun Bu et al.

cs.LG cs.AI

本文提出了一种基于物理信息条件Schrödinger Bridge的稀疏监督数据同化方法，用于从稀疏高保真观测中快速重建时空场。该方法利用低保真模拟作为先验，通过无高保真场监督的训练实现快速推理，并在流体PDE基准测试中验证了其有效性与速度。

Bridging the Gap Between Climate Science and Machine Learning in Climate Model Emulation

Luca Schmidt, Nina Effenberger

cs.LG stat.AP stat.ML

本文提出了一个旨在弥合气候科学与机器学习之间鸿沟的框架，用于改进气候模型模拟器。该框架通过整合两个领域的视角，致力于设计易于采用且可靠的模拟器。

AEGIS: An Operational Infrastructure for Post-Market Governance of Adaptive Medical AI Under US and EU Regulations

Fardin Afdideh et al.

cs.LG cs.AI cs.CY

本文提出了一个名为AEGIS的治理框架, 用于在医疗AI系统部署后实现符合法规的持续学习与安全监控. 该框架通过模块化设计将FDA和欧盟的相关法规条款转化为可操作的程序, 并在脓毒症预测和脑肿瘤分割两个案例中进行了模拟验证.

A Multi-Task Targeted Learning Framework for Lithium-Ion Battery State-of-Health and Remaining Useful Life

Chenhan Wang et al.

cs.LG cs.AI

本文提出了一种用于锂离子电池健康状态和剩余使用寿命预测的多任务目标学习框架. 该框架整合了多尺度特征提取、改进的LSTM和双流注意力模块, 并通过Hyperopt算法进行超参数优化, 在电池老化数据集上取得了优于现有方法的预测精度.

DAQ: Delta-Aware Quantization for Post-Training LLM Weight Compression

Xiaoming Yu et al.

cs.LG cs.AI

本文提出了一种名为Delta-Aware Quantization (DAQ)的数据无关后训练量化框架. 该方法通过直接优化参数增量的方向保真度, 旨在更好地保留大语言模型后训练阶段获得的知识.

Hybrid Associative Memories

Leon Lufkin et al.

cs.LG cs.AI

本文提出了一种结合RNN与self-attention的Hybrid Associative Memory (HAM)层。该层利用RNN压缩序列，并让attention仅补充RNN难以预测的信息，从而实现对KV缓存增长率的精细控制，在降低计算成本的同时保持了竞争力。

A Direct Classification Approach for Reliable Wind Ramp Event Forecasting under Severe Class Imbalance

Alejandro Morales-Hernández et al.

cs.LG cs.AI

本文提出了一种针对风功率爬坡事件(WPRE)预测的新方法, 通过结合多数类欠采样和集成学习来处理数据集中的严重类别不平衡问题. 在真实数据集上的数值模拟表明, 该方法在准确率和加权F1分数上优于基准分类器.

Beyond the Mean: Distribution-Aware Loss Functions for Bimodal Regression

Abolfazl Mohammadi-Seif et al.

cs.LG cs.AI stat.ML

本文提出了一种用于双峰回归的分布感知损失函数族, 通过整合 normalized RMSE 与 Wasserstein 和 Cramér 距离来改进预测不确定性的估计. 该方法在标准深度回归模型上应用, 无需混合模型即可恢复双峰分布, 并在多个实验阶段验证了其在保持单峰任务稳定性的同时, 显著降低了双峰数据上的 Jensen-Shannon Divergence.

Trained Persistent Memory for Frozen Decoder-Only LLMs

Hong Jeong

cs.LG cs.AI

本文探讨了为冻结的decoder-only语言模型添加持久记忆的方法. 作者将六种记忆读取机制适配到GPT-2上, 发现不同架构的归纳偏置导致了显著的性能差异.

Conformal Risk Control for Safety-Critical Wildfire Evacuation Mapping: A Comparative Study of Tabular, Spatial, and Graph-Based Models

Baljinnyam Dayan

cs.LG cs.AI

本文首次将 conformal risk control (CRC) 应用于野火蔓延预测, 为假阴性率 (FNR) 提供了有限样本的统计保证. 研究比较了三种模型架构, 发现结合 CRC 的空间模型在保证安全性的同时, 能显著提高疏散地图的划定效率.

Large Language Models for Missing Data Imputation: Understanding Behavior, Hallucination Effects, and Control Mechanisms

Arthur Dantas Mangussi et al.

cs.LG cs.AI

本文通过零样本提示工程方法, 评估了大型语言模型(LLMs)在表格数据缺失值填补任务中的表现. 研究发现, 在真实数据集上, 某些LLMs(如Gemini和Claude)凭借其预训练获得的语义理解能力, 表现优于传统统计方法, 但在合成数据上则相反, 且LLMs的计算成本显著更高.

Graph Signal Processing Meets Mamba2: Adaptive Filter Bank via Delta Modulation

Yehjin Shin, Seojin Kim, Noseong Park

cs.LG cs.AI

本文提出了一种名为HADES的新方法, 它将Mamba2模型重新解释为line graph上的adaptive filter bank, 并引入了hierarchical architecture. 该方法在多个benchmark上取得了与baseline相当的性能, 同时显著减少了参数量.

Problems with Chinchilla Approach 2: Systematic Biases in IsoFLOP Parabola Fits

Eric Czech et al.

cs.LG cs.CL stat.ML

本文分析了Chinchilla Approach 2在拟合神经缩放定律时引入的系统性偏差。该方法在无噪声合成数据和真实Llama 3数据上均会导致计算最优分配估计的误差，造成显著的计算资源浪费。作者探讨了误差的三个来源，并指出改进后的Approach 3结合Variable Projection方法可以有效消除这些偏差。

Cloud-Edge Collaborative Large Models for Robust Photovoltaic Power Forecasting

Nan Qiao et al.

cs.LG cs.NI

本文提出了一种用于光伏功率预测的风险感知云边协同框架, 通过整合本地专家模型, 轻量级边缘模型和云端大型检索模型, 在满足延迟和资源约束的条件下, 自适应地选择推理路径以平衡预测精度与系统效率. 实验表明该框架在多个真实数据集上取得了良好的综合性能.

First-Mover Bias in Gradient Boosting Explanations: Mechanism, Detection, and Resolution

Drake Caraker, Bryan Arnold, David Rhoads

cs.LG cs.AI

本文研究了梯度提升模型中由序列残差拟合导致的"先动者偏差", 这种偏差是SHAP特征重要性在多共线性下不稳定的一个具体机制原因. 作者提出了DASH方法, 通过模型独立性来缓解此偏差, 并提供了诊断工具来评估解释的可靠性.

COMPASS-Hedge: Learning Safely Without Knowing the World

Ting Hu, Luanda Cai, Manolis Vlatakis

cs.LG cs.GT

本文提出了一种名为COMPASS-Hedge的在线学习算法，旨在同时应对对抗性、随机性环境并保证相对于基准策略的安全性。该算法无需预先了解环境参数，通过自适应伪遗憾缩放和阶段性的混合策略实现了这一目标。

WIST: Web-Grounded Iterative Self-Play Tree for Domain-Targeted Reasoning Improvement

Fangyuan Li et al.

cs.LG cs.AI

本文提出了一个名为WIST的框架, 用于在特定领域内改进语言模型的推理能力. 该方法通过从开放网络检索信息构建可控的训练环境, 并结合可验证奖励的自博弈(self-play)进行学习.

Unveiling the Mechanism of Continuous Representation Full-Waveform Inversion: A Wave Based Neural Tangent Kernel Framework

Ruihua Chen et al.

cs.LG cs.AI physics.geo-ph

本文为连续表示全波形反演(CR-FWI)建立了一个基于波的神经正切核(NTK)理论框架。该分析揭示了波基NTK的特征值衰减行为，并基于此提出了一种结合隐式神经表示与多分辨率网格的混合表示方法(IG-FWI)，在多个地球物理模型上取得了优于传统方法的性能。

MCLR: Improving Conditional Modeling in Visual Generative Models via Inter-Class Likelihood-Ratio Maximization and Establishing the Equivalence between Classifier-Free Guidance and Alignment Objectives

Xiang Li et al.

cs.LG cs.AI cs.CV

本文探讨了扩散模型中 classifier-free guidance (CFG) 的必要性，并提出了一种名为 MCLR 的训练目标来提升类间分离度。理论分析表明 CFG 引导的分数是加权 MCLR 目标的最优解，从而建立了 CFG 与对齐目标之间的等价关系。

FAAR: Format-Aware Adaptive Rounding for NVFP4

Hanglin Li et al.

cs.LG cs.AI

本文提出了一种针对NVFP4格式的自适应舍入方法FAAR, 以及一个两阶段格式对齐微调方案2FA. 该方法通过将非均匀数值网格纳入优化过程, 有效降低了量化误差, 在多个模型和任务上取得了优于现有方法的效果.

Rethinking Multimodal Fusion for Time Series: Auxiliary Modalities Need Constrained Fusion

Seunghan Lee et al.

cs.LG cs.AI

本文探讨了在时间序列预测中整合辅助模态(如文本)时,简单融合策略的局限性. 作者提出了一种受控融合方法, 通过低秩适配器过滤无关信息, 以提升模型性能.

Three Creates All: You Only Sample 3 Steps

Yuren Cai et al.

cs.LG cs.AI cs.CV

本文提出了一种名为Multi-layer Time Embedding Optimization (MTEO)的插件式方法，用于加速扩散模型的推理。该方法通过冻结预训练主干网络并蒸馏一组小型的时间嵌入参数，实现了在仅需3步采样的极低步数下达到最先进的生成质量。

Instruction-Tuned, but Not More Verifiable Instruction-Following: A Cross-Task Diagnosis for LoRA Adapters

Junyi Zou

cs.LG cs.AI cs.CL

本文通过跨任务评估发现, 名义上为"instruction-tuned"的LoRA适配器, 其宣称的目标与在可验证的指令遵循任务(如IFEval)上的实际性能提升并不一致, 存在能力漂移(capability drift). 作者建议在部署前进行常规的跨任务评估, 而非依赖名义标签作为能力代理.

Symbolic Graph Networks for Robust PDE Discovery from Noisy Sparse Data

Xingyu Chen et al.

cs.LG cs.AI

本文提出了一种名为Symbolic Graph Network (SGN)的框架，用于从含噪声的稀疏数据中发现偏微分方程(PDEs)。该方法结合了图消息传递和符号回归，相比依赖数值微分的基线方法，在噪声和稀疏条件下表现出更强的鲁棒性。

Learning When to Act: Interval-Aware Reinforcement Learning with Predictive Temporal Structure

Davide Di Gioia

cs.LG cs.AI

本文提出了一种自适应时间控制方法, 用于决定智能体在连续环境中的行动时机. 该方法通过从双曲几何中导出的预测信号来调整认知节拍间隔, 并引入间隔感知奖励以改进时序问题中的信用分配.

Neural Structure Embedding for Symbolic Regression via Continuous Structure Search and Coefficient Optimization

Fateme Memar, Tao Zhe, Dongjie Wang

cs.LG

本文提出了一种名为SRCO的符号回归框架, 通过将符号结构嵌入到连续空间中进行搜索和系数优化. 该方法利用Transformer模型学习结构嵌入, 并结合梯度优化提升搜索效率和方程准确性.

Model Predictive Control with Differentiable World Models for Offline Reinforcement Learning

Rohan Deb, Stephen J. Wright, Arindam Banerjee

cs.LG

本文提出了一种用于离线强化学习的可微世界模型框架, 结合模型预测控制进行推理时策略优化. 该方法在D4RL基准测试中展现出优于现有离线强化学习基线的性能.

SkillRouter: Retrieve-and-Rerank Skill Selection for LLM Agents at Scale

YanZhao Zheng et al.

cs.LG

本文针对大规模LLM agent生态系统中的技能路由问题进行了研究. 作者通过实证分析发现, 技能的实现文本是选择的关键信号, 并据此提出了一个两阶段的检索-重排管道SkillRouter.

A Theoretical Framework for Energy-Aware Gradient Pruning in Federated Learning

Emmanouil M. Athanasakos

cs.LG cs.DC cs.IT cs.NI stat.ML

本文提出了一种考虑硬件能耗的梯度剪枝方法 Cost-Weighted Magnitude Pruning (CWMP), 用于 Federated Learning. 该方法将剪枝过程形式化为一个能量约束的投影问题, 并通过实验在非独立同分布的 CIFAR-10 数据集上验证了其能效优势.

Adversarial Vulnerabilities in Neural Operator Digital Twins: Gradient-Free Attacks on Nuclear Thermal-Hydraulic Surrogates

Samrendra Roy et al.

cs.LG cs.CR

本文研究了用于核能系统数字孪生的神经算子模型的对抗鲁棒性. 通过梯度无关的差分进化算法, 作者发现这些模型对边界条件的稀疏扰动极其脆弱, 并提出了一个基于Jacobian的诊断指标来解释不同架构的脆弱性差异.

Multimodal Training to Unimodal Deployment: Leveraging Unstructured Data During Training to Optimize Structured Data Only Deployment

Zigui Wang et al.

cs.LG

本文提出了一种多模态学习框架, 在训练阶段利用非结构化的临床笔记数据, 但最终部署时仅需结构化的电子健康记录(EHR)数据. 该方法通过对比学习和知识蒸馏, 提升了仅使用结构化数据时的模型性能, 在儿童语言发育迟缓评估任务上取得了优于纯结构化基线的结果.

MIOFlow 2.0: A unified framework for inferring cellular stochastic dynamics from single cell and spatial transcriptomics data

Xingzhi Sun et al.

cs.LG

本文提出了MIOFlow 2.0框架，用于从单细胞和空间转录组数据推断细胞随机动力学。它整合了流形学习、最优传输和神经微分方程来建模细胞轨迹的随机分支、种群变化和空间环境影响。

A Foundation Model for Instruction-Conditioned In-Context Time Series Tasks

Anish Saha, Konstantin Shmakov

cs.LG

本文提出了一种用于指令条件化上下文时间序列任务的基础模型. 该模型基于quantile-regression T5 encoder-decoder架构, 通过结构化的tokenization方案和历史示例进行训练, 能够在无需任务特定微调的情况下执行预测等相关任务.

Precision-Varying Prediction (PVP): Robustifying ASR systems against adversarial attacks

Matías Pizarro, Raghavan Narasimhan, Asja Fischer

cs.LG cs.CR eess.AS

本文提出了一种通过随机改变推理精度来增强自动语音识别(ASR)系统对抗鲁棒性的方法，并基于不同精度下的输出差异构建了对抗样本检测器。实验表明该方法能有效提升多种ASR模型在不同攻击下的鲁棒性。

Causal Discovery in Action: Learning Chain-Reaction Mechanisms from Interventions

Panayiotis Panayiotou, Özgür Şimşek

cs.LG cs.AI

本文研究了具有链式反应结构的动态系统中的因果发现问题. 作者证明了通过阻断干预可以唯一地识别因果结构, 并提出了一个具有有限样本保证的估计器.

Transfer learning via interpolating structures

T.A. Dardeno et al.

cs.LG

本文提出了一种通过中间结构实现异构结构健康监测知识迁移的方法. 该方法通过参数化(如材料属性、几何形状)将一种结构连续变形为另一种, 并在模拟桥梁和简化物理模型上进行了验证.

Generalizing Dynamics Modeling More Easily from Representation Perspective

Yiming Wang et al.

cs.LG cs.AI

本文提出了一种名为PDEDER的预训练动力学编码器, 旨在将不同复杂系统的观测数据嵌入到一个更易于学习动力学的潜在空间中. 该方法通过最小化Lyapunov指数等目标来预训练模型, 并在多个真实与合成系统数据集上进行了评估, 展示了其在跨域预测任务中的有效性.

Bounding Box Anomaly Scoring for simple and efficient Out-of-Distribution detection

Mohamed Bahi Yahiaoui et al.

cs.LG

本文提出了一种基于bounding-box抽象的post-hoc OOD检测方法BBAS. 该方法通过构建特征空间中in-distribution样本的轴对齐边界框来定义异常分数, 在多个图像分类基准上实现了稳健的OOD检测.

Vision-based Deep Learning Analysis of Unordered Biomedical Tabular Datasets via Optimal Spatial Cartography

Sakib Mostafa et al.

cs.LG cs.AI

本文提出了一种名为Dynamic Feature Mapping (Dynomap)的端到端深度学习框架，用于处理无序的生物医学表格数据。该方法通过学习任务优化的特征空间拓扑，将表格数据转换为特征图，从而使得基于视觉的模型能够有效处理此类数据，并在多个数据集上取得了优于现有方法的性能。

Coordinate Encoding on Linear Grids for Physics-Informed Neural Networks

Tetsuro Tsuchino, Motoki Shiga

cs.LG

本文提出了一种在Physics-Informed Neural Networks (PINNs)中引入线性网格坐标编码层的方法. 该方法通过网格划分局部区域并使用自然三次样条插值, 旨在缓解spectral bias问题并提升训练收敛速度.

Non-Adversarial Imitation Learning Provably Free of Compounding Errors: The Role of Bellman Constraints

Tian Xu et al.

cs.LG

本文分析了非对抗性模仿学习方法IQ-Learn，指出其理论上会退化为行为克隆并存在累积误差。作者提出了一个新的基于Q函数的模仿学习方法Dual Q-DM，该方法通过引入Bellman约束来传播Q值，旨在实现更好的泛化。实验验证了该方法的有效性。

Double Coupling Architecture and Training Method for Optimization Problems of Differential Algebraic Equations with Parameters

Wenqiang Yang et al.

cs.LG math.AP

本文提出了一种用于求解带参数的微分代数方程优化问题的双耦合物理信息神经网络架构及训练方法. 该方法通过引入具有全局误差界的松弛变量来解耦约束与目标函数, 并采用遗传算法增强的训练框架以提高精度和效率.

Spiking Personalized Federated Learning for Brain-Computer Interface-Enabled Immersive Communication

Chen Shang et al.

cs.LG eess.SP

本文提出了一种结合脑机接口(BCI)与个性化联邦学习(PFL)的沉浸式通信框架, 并引入脉冲神经网络(SNN)以降低能耗. 实验表明该方法在保持识别准确率的同时, 显著减少了推理所需的能量.

Behavioral Heterogeneity as Quantum-Inspired Representation

Mohammad Elayan, Wissam Kontar

cs.LG cs.MA stat.ME

本文提出了一种量子启发的表示方法, 将驾驶员建模为一个演化的潜在状态, 用具有特定数学性质的密度矩阵表示. 该方法在经验驾驶数据上进行了评估, 展示了如何提取和分析驾驶行为模式.

Multitask-Informed Prior for In-Context Learning on Tabular Data: Application to Steel Property Prediction

Dimitrios Sinodinos et al.

cs.LG

本文提出了一种用于表格数据 in-context learning 的多任务学习框架，并将其应用于钢铁性能预测。该方法通过 fine-tuning 策略将多任务信息注入 TabPFN 模型的 prior 中，在工业数据集上取得了优于传统方法和现有先进模型的效果。

From Arithmetic to Logic: The Resilience of Logic and Lookup-Based Neural Networks Under Parameter Bit-Flips

Alan T. L. Bacellar et al.

cs.LG cs.AI

本文研究了神经网络在硬件比特翻转错误下的鲁棒性, 从结构而非训练结果的角度分析了不同数值格式和层原型的期望均方误差. 理论表明, 低精度、高稀疏度、有界激活和浅层深度有利于容错, 而基于逻辑和查找表(LUT)的网络是这些设计趋势的极限体现. 在MLPerf Tiny基准上的实验验证了理论预测, 并发现基于逻辑的网络在浮点模型失效的损坏机制下仍保持稳定, 且存在独特的偶数层恢复效应.

Caterpillar of Thoughts: The Optimal Test-Time Algorithm for Large Language Models

Amir Azarmehr, Soheil Behnezhad, Alma Ghafari

cs.LG

本文提出了一种用于大语言模型测试时计算的形式化模型, 将算法与Markov chain的交互建模为允许回溯到任意已观测状态. 作者证明了最优算法生成的状态树具有"毛虫树(caterpillar tree)"结构, 并据此提出了Caterpillar of Thoughts (CaT)算法, 在实验中减少了token生成数量并提升了成功率.

Transformers Trained via Gradient Descent Can Provably Learn a Class of Teacher Models

Chenyang Zhang et al.

cs.LG

本文研究了使用transformer作为学生模型来学习一类教师模型的理论可行性. 证明了在特定条件下, 简化的单层transformer能够恢复教师模型的参数并达到最优损失.

Universal and efficient graph neural networks with dynamic attention for machine learning interatomic potentials

Shuyu Bi et al.

cs.LG

本文提出了一种名为MLANet的高效图神经网络框架, 用于机器学习原子间势能(MLIPs). 它通过动态注意力机制和多视角池化策略, 在保持预测精度的同时显著降低了计算成本, 适用于多种材料系统的模拟.

Towards The Implicit Bias on Multiclass Separable Data Under Norm Constraints

Shengping Xie et al.

cs.LG math.OC stat.ML

本文在Normalized Steepest Descent (NSD)框架下，研究了多类可分数据上的优化几何如何影响解的隐式偏差。作者提出了NucGD优化器，并通过无SVD的更新规则实现了高效训练。

The Coordinate System Problem in Persistent Structural Memory for Neural Architectures

Abhinaba Basu

cs.LG cs.AI cs.NE q-bio.NC

本文提出了一种名为Dual-View Pheromone Pathway Network (DPPN)的架构，用于研究神经网络中的持久结构记忆。通过一系列实验，作者发现持久记忆需要一个稳定的坐标系，而联合学习的坐标系是不稳定的。研究还探讨了信息传递机制，表明学习率调制可以避免负迁移。

Confidence Calibration under Ambiguous Ground Truth

Linwei Tao et al.

cs.LG cs.AI

本文针对标注者存在真实分歧时置信度校准失效的问题, 提出了一系列无需模型重训练的歧义感知后处理校准器. 这些方法通过优化针对完整标注分布的评分规则, 显著降低了真实标签的校准误差.

TreeTeaming: Autonomous Red-Teaming of Vision-Language Models via Hierarchical Strategy Exploration

Chunxiao Li, Lijun Li, Jing Shao

cs.LG cs.CV

本文提出了一种名为TreeTeaming的自动化红队测试框架，用于发现Vision-Language Models (VLMs)的安全漏洞。该方法通过一个由LLM驱动的Orchestrator，以动态构建策略树的方式进行层次化策略探索，超越了传统线性方法的限制，在多个VLMs上取得了更高的攻击成功率。

Balancing Safety and Efficiency in Aircraft Health Diagnosis: A Task Decomposition Framework with Heterogeneous Long-Micro Scale Cascading and Knowledge Distillation-based Interpretability

Xinhang Chen et al.

cs.LG

本文提出了一种用于通用航空器健康诊断的任务分解框架, 将整体诊断解耦为异常检测和故障分类两个子任务. 该框架通过长-微尺度诊断器等组件, 旨在应对数据不确定性, 任务异质性和计算效率低下的挑战, 并在真实数据集上展示了性能提升.

Conditionally Identifiable Latent Representation for Multivariate Time Series with Structural Dynamics

Minkey Chang, Jae-Young Kim

cs.LG q-fin.GN q-fin.ST

本文提出了一种可识别的变分动态因子模型(iVDFM), 用于从多元时间序列中学习潜在因子. 该模型通过对驱动动态的创新过程施加条件, 保证了潜在因子在置换和分量仿射变换下的可识别性.

VLGOR: Visual-Language Knowledge Guided Offline Reinforcement Learning for Generalizable Agents

Pengsen Liu et al.

cs.LG

本文提出了一个结合视觉与语言知识的离线强化学习框架VLGOR, 通过微调视觉语言模型来生成符合指令且时空一致的想象轨迹, 以丰富离线训练数据. 实验表明, 该方法在需要新策略的未见任务上性能优于基线.

Weak-PDE-Net: Discovering Open-Form PDEs via Differentiable Symbolic Networks and Weak Formulation

Xinxin Li et al.

cs.LG

本文提出了一种名为Weak-PDE-Net的端到端可微分框架, 用于从稀疏噪声数据中发现开形式的偏微分方程. 该方法结合了弱形式积分与符号网络, 避免了数值微分, 并通过可微神经架构搜索来探索函数空间.

Asymptotic Learning Curves for Diffusion Models with Random Features Score and Manifold Data

Anand Jerry George, Nicolas Macris

cs.LG stat.ML

本文研究了当数据分布支撑在低维流形上且使用随机特征神经网络参数化 score 函数时，去噪 score matching 的理论行为。分析表明，对于线性流形，学习所需的样本复杂度与流形的内在维度成线性关系，而非环境维度。

Can Graph Foundation Models Generalize Over Architecture?

Benjamin Gutteridge, Michael Bronstein, Xiaowen Dong

cs.LG cs.AI cs.SI

本文探讨了graph foundation models (GFMs)在架构泛化方面的局限性。作者指出，现有方法依赖于固定的架构主干，无法适应不同任务对图神经网络(GNN)架构的特定需求，并通过理论和实验证明了其在任务需求与训练数据不匹配时的性能缺陷。为了应对此问题，作者提出了一个在推理时通过发现和混合任务特定的线性图算子来自适应调整GNN架构的框架，并在合成与真实基准测试中验证了其有效性和鲁棒性。

Robustness Quantification and Uncertainty Quantification: Comparing Two Methods for Assessing the Reliability of Classifier Predictions

Adrián Detavernier, Jasper De Bock

cs.LG

本文比较了评估分类器预测可靠性的两种方法: Robustness Quantification (RQ) 和 Uncertainty Quantification (UQ). 研究表明, 在标准设置和存在分布偏移的情况下, RQ 的表现可以优于 UQ, 并且两者的结合能提供更好的可靠性评估.

A Sobering Look at Tabular Data Generation via Probabilistic Circuits

Davide Scassola et al.

cs.LG cs.AI

本文对表格数据生成领域的研究进展提出了质疑, 指出当前评估生成数据保真度的协议存在局限性, 并提倡使用替代方案. 作者重新审视了一种简单的基线模型——以深度概率电路(PCs)形式存在的分层混合模型, 该模型能以更低的成本达到或超越当前最先进模型的性能.

Assessing the Robustness of Climate Foundation Models under No-Analog Distribution Shifts

Maria Conchita Agana Navarro et al.

cs.LG cs.AI

本文评估了三种气候模拟模型在"无类似物"分布偏移下的稳健性. 研究发现, 即使在历史数据上训练, 高性能的基础模型对未来的外部强迫变化依然敏感, 存在精度与稳定性之间的权衡.

Generalization Bounds for Physics-Informed Neural Networks for the Incompressible Navier-Stokes Equations

Sebastien Andre-Sloan et al.

cs.LG math.AP math.NA

本文为求解不可压缩Navier-Stokes方程的Physics-Informed Neural Networks (PINN)方法，首次建立了泛化误差的严格上界。该分析基于对PINN风险的Rademacher复杂度的界定，所得样本复杂度与维度无关，并提出了适用于流体动力学的新型激活函数。

MsFormer: Enabling Robust Predictive Maintenance Services for Industrial Devices

Jiahui Zhou et al.

cs.LG

本文提出了一种用于工业设备预测性维护的轻量级多尺度Transformer模型MsFormer. 该模型通过多尺度采样模块和定制的位置编码来捕捉多流服务数据中的时序相关性, 并采用轻量级注意力机制以适应数据稀缺的服务环境. 在真实数据集上的实验表明, 该框架在保持高可靠服务质量的同时, 性能优于现有方法.

Policy-based Tuning of Autoregressive Image Models with Instance- and Distribution-Level Rewards

Orhun Buğra Baran, Melih Kandemir, Ramazan Gokberk Cinbis

cs.LG cs.CV

本文提出了一种轻量级的强化学习框架, 用于优化自回归图像生成模型. 该方法结合了实例级和分布级奖励, 旨在提升生成样本的质量和多样性.

SpecXMaster Technical Report

Yutang Ge et al.

cs.LG

本文提出了一个名为SpecXMaster的智能框架, 它利用Agentic Reinforcement Learning (RL)来自动解释NMR (核磁共振)分子光谱. 该框架能够从原始的FID (自由感应衰减)数据中直接提取1H和13C光谱的多重性信息, 实现从光谱到化学结构的端到端自动化解析.

Polaris: A Gödel Agent Framework for Small Language Models through Experience-Abstracted Policy Repair

Aditya Kakade, Vivek Srivastava, Shirish Karande

cs.LG

本文提出了一个名为 Polaris 的 Gödel agent 框架，用于小型语言模型。该框架通过经验抽象进行策略修复，将失败转化为可重用的策略更新，并在多个推理基准测试上提升了模型性能。

A Bayesian Learning Approach for Drone Coverage Network: A Case Study on Cardiac Arrest in Scotland

Tathagata Basu et al.

cs.LG stat.AP

本文提出了一种基于贝叶斯学习的可靠性框架，用于在环境与操作不确定性下设计无人机辅助的自动体外除颤器（AED）投递网络。该方法以院外心脏骤停（OHCA）患者的生存概率为目标函数，并结合现有紧急医疗服务（EMS）基础设施的覆盖范围来确定无人机基站的最佳位置。作者利用苏格兰的地理参考心脏骤停数据进行了案例研究，评估了网络鲁棒性和基于质量调整生命年（QALY）的成本效益。

DAK-UCB: Diversity-Aware Prompt Routing for LLMs and Generative Models

Donya Jafari, Farzan Farnia

cs.LG

本文提出了一种用于在线选择生成模型的多样性感知上下文bandit算法DAK-UCB. 该方法在模型选择过程中同时考虑了生成结果的保真度和多样性, 并通过实验验证了其有效性.

A Schrödinger Eigenfunction Method for Long-Horizon Stochastic Optimal Control

Louis Claeys et al.

cs.LG math.OC

本文针对一类具有特定漂移结构的随机最优控制问题, 提出了一种基于Schrödinger算子特征系统的长时域求解方法. 该方法将原问题的Hamilton-Jacobi-Bellman方程转化为线性PDE, 并利用其算子的离散谱特性, 将计算复杂度从$\mathcal{O}(Td)$降低到$\mathcal{O}(d)$.

Sparser, Faster, Lighter Transformer Language Models

Edoardo Cetin et al.

cs.LG cs.CL

本文提出了一种通过引入非结构化稀疏性来降低大型语言模型(LLM)计算成本的方法. 作者设计了一种新的稀疏打包格式和CUDA内核, 并展示了高稀疏度可以带来显著的吞吐量和能效提升.

A One-Inclusion Graph Approach to Multi-Group Learning

Noah Bergam, Samuel Deng, Daniel Hsu

cs.LG

本文提出了一种基于 one-inclusion graph 的算法，用于解决 multi-group learning 问题。该算法通过推广 bipartite $b$-matching 来扩展预测策略，并在 group-realizable 设定下证明了样本复杂度的最优上界。

General Machine Learning: Theory for Learning Under Variable Regimes

Aomar Osmani

cs.LG cs.AI stat.ML

本文为学习理论中处理学习机制、记忆状态和评估条件随时间变化的“regime-varying”场景建立了一个基础框架。该框架围绕admissible transport、protected-core preservation和evaluator-aware learning evolution等核心概念展开，并初步探讨了其结构性质与定理层面的结果，包括evaluator factorization和morphism等。

GEM: Guided Expectation-Maximization for Behavior-Normalized Candidate Action Selection in Offline RL

Haoyu Wang et al.

cs.LG

本文提出了一种名为GEM的离线强化学习框架, 用于解决在具有多模态行为的数据集上进行动作选择的问题. 它通过训练一个Gaussian Mixture Model (GMM) actor和一个GMM behavior model, 并在推理时使用基于候选动作和标准化行为支持度的重排序机制来提升决策的鲁棒性和可控性.

Neural ODE and SDE Models for Adaptation and Planning in Model-Based Reinforcement Learning

Chao Han et al.

cs.LG cs.AI

本文在model-based reinforcement learning框架中, 研究了neural ODE和neural SDE用于建模环境动态. 实验表明, neural SDE能更好地捕捉转移动态的随机性, 并提出了一个结合ODE与GAN的latent SDE模型来处理部分可观测性.

A Learning Method with Gap-Aware Generation for Heterogeneous DAG Scheduling

Ruisong Zhou et al.

cs.LG cs.AI math.OC

本文提出了一种名为WeCAN的端到端强化学习框架, 用于解决异构环境下的DAG调度问题. 该框架采用两阶段单次前向设计, 通过加权交叉注意力编码器建模任务与资源池的交互, 并引入了一种分析生成诱导最优性间隙的机制, 实验表明其在调度长度和推理时间上优于基线方法.

Permutation-Symmetrized Diffusion for Unconditional Molecular Generation

Gyeonghoon Ko, Juho Lee

cs.LG

本文提出了一种直接在商流形 $\tilde{\calX}=\mathbb{R}^{d\times N}/S_N$ 上建模扩散过程的方法，用于无条件分子生成。该方法通过推导热核的显式表达式和设计基于MCMC的近似训练方案，实现了对置换对称性的直接处理，并在QM9数据集上取得了有竞争力的结果。

SynForceNet: A Force-Driven Global-Local Latent Representation Framework for Lithium-Ion Battery Fault Diagnosis

Rongxiu Chen, Yuting Su

cs.LG

本文提出了一种基于深度异常检测框架的在线电池故障诊断网络, 结合了 kernel one-class classification 和 minimum-volume estimation. 该方法引入了机械约束和基于 spike-timing-dependent plasticity (STDP) 的动态表征, 以改进复杂故障的表征, 并在真实电动汽车数据上验证了其性能.

SafeSeek: Universal Attribution of Safety Circuits in Language Models

Miao Yu et al.

cs.LG cs.AI

本文提出了一种用于识别大型语言模型中安全相关功能电路的统一框架. 该方法通过优化可微分的二进制掩码来定位稀疏电路, 并在后门攻击和安全对齐两个场景中验证了其有效性.

A Comparative Study of Machine Learning Models for Hourly Forecasting of Air Temperature and Relative Humidity

Jiaqi Dong

cs.LG cs.AI

本文比较了多种机器学习模型在气温和相对湿度小时级预测任务上的表现. 研究结果表明, 基于树的集成方法XGBoost在预测精度和鲁棒性上表现最佳.

Robustness Quantification for Discriminative Models: a New Robustness Metric and its Application to Dynamic Classifier Selection

Rodrigo F. L. Lassance, Jasper De Bock

cs.LG stat.ML

本文提出了一种新的鲁棒性度量方法, 适用于任何概率判别式分类器和任何特征类型. 该方法可用于区分预测的可靠性, 并在此基础上开发了动态分类器选择的新策略.

Off-Policy Value-Based Reinforcement Learning for Large Language Models

Peng-Yuan Wang et al.

cs.LG cs.CL

本文提出了一种用于大语言模型(LLM)的、基于价值的离线策略强化学习方法ReVal. 该方法结合了步长信号和轨迹级信号, 支持基于回放缓冲区的训练以提高数据利用效率. 实验表明, 该方法在数学推理基准上比GRPO方法收敛更快且性能更好.

Central Dogma Transformer III: Interpretable AI Across DNA, RNA, and Protein

Nobuyuki Ota

cs.LG q-bio.GN

本文提出了CDT-III模型, 其Virtual Cell Embedder架构通过模拟细胞核与细胞质的空间区室化, 实现了对DNA, RNA和蛋白质的跨中心法则预测. 该模型在蛋白质预测任务的监督下, 提升了上游RNA预测的准确性和DNA层面特征的可解释性.

Graph Energy Matching: Transport-Aligned Energy-Based Modeling for Graph Generation

Michal Balcerak et al.

cs.LG cs.AI stat.ML

本文提出了一种用于图生成的Graph Energy Matching (GEM)框架。它通过学习一个势能函数来引导从噪声到数据的传输过程，并改进了采样协议。该方法在分子图基准测试中达到了与扩散模型相当的性能，并支持条件生成等任务。

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

Yiqi Zhang et al.

cs.LG cs.AI

本文提出了一种名为SortedRL的在线长度感知调度策略，旨在解决大语言模型强化学习训练中rollout阶段的效率瓶颈。该方法通过根据输出长度对样本进行排序和分组，并结合缓存机制与专用基础设施，在多个推理任务上实现了训练时间的大幅减少和性能的提升。

Connor Mclaughlin, Nigel Lee, Lili Su

cs.LG

本文提出了一种基于预训练模型的自适应 mixture-of-experts (MoE) 框架, 用于解决数据稀缺且任务可能任意重叠的持续学习问题. 该方法通过增量全局池化和实例级提示掩码来建立任务间的相似性感知, 旨在促进知识迁移并避免负迁移.

End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Zakaria Mhammedi, Alexander Rakhlin, Nneka Okolo

cs.LG

本文针对具有确定性转移的线性Bellman完备MDPs，提出了一种端到端高效的强化学习算法。该算法在有限动作空间下完全高效，对于大或无限动作空间仅需标准的argmax oracle，其样本与计算复杂度关于horizon、特征维度和$1/\varepsilon$是多项式的。

Byzantine-Robust and Differentially Private Federated Optimization under Weaker Assumptions

Rustem Islamov et al.

cs.LG cs.CR math.OC

本文提出了一种新的联邦学习算法Byz-Clip21-SGD2M，该算法在统一的框架下结合了差分隐私和拜占庭鲁棒性。该算法在标准的$L$-smoothness和$\sigma$-sub-Gaussian梯度噪声假设下提供了高概率收敛保证，并在MNIST数据集上进行了实验验证。

Estimating Flow Velocity and Vehicle Angle-of-Attack from Non-invasive Piezoelectric Structural Measurements Using Deep Learning

Chandler B. Smith et al.

cs.LG

本文提出了一种基于深度学习的非侵入式方法, 用于从结构振动测量中估计飞行器的流速和攻角. 该方法使用安装在飞行器蒙皮内部的压电传感器阵列采集湍流边界层压力波动引起的振动信号, 并训练一个卷积神经网络来从这些结构响应中反演流速和攻角. 在风洞实验的验证中, 该方法在测试数据上取得了较低的估计误差.

cs.AI

Memory Bear AI Memory Science Engine for Multimodal Affective Intelligence: A Technical Report

Deliang Wen, Ke Sun, Yu Wang

cs.AI

本文提出了一个名为Memory Bear AI Memory Science Engine的以记忆为中心的多模态情感智能框架. 该框架将情感信息建模为记忆系统中的结构化变量, 通过一系列记忆处理步骤来整合多模态信号, 旨在实现更连续和鲁棒的情感理解. 实验表明, 该框架在基准和实际场景中, 尤其是在噪声或模态缺失条件下, 优于现有系统.

The Efficiency Attenuation Phenomenon: A Computational Challenge to the Language of Thought Hypothesis

Di Zhang

cs.AI cs.CL cs.LG

本文通过一个名为"AI Private Language"的思想实验, 对"思维语言"假说提出了计算层面的挑战. 实验表明, 在多智能体强化学习中, 智能体自发形成的、难以理解的通信协议比预设的、类人的符号协议效率更高, 这被称为"效率衰减现象".

Dynamic Fusion-Aware Graph Convolutional Neural Network for Multimodal Emotion Recognition in Conversations

Tao Meng et al.

cs.AI

本文提出了一种动态融合感知图卷积神经网络(DF-GCN)用于对话中的多模态情感识别。该方法通过引入常微分方程来捕捉情感依赖的动态性，并利用全局信息向量引导多模态特征的动态融合，从而提升了模型在特定情感类别上的识别性能。

Intelligence Inertia: Physical Principles and Applications

Jipeng Han

cs.AI cond-mat.stat-mech cs.LG

本文提出了"智能惯性"的概念及其物理原理, 用于量化智能系统重构时的计算成本. 通过分析规则与状态的非对易性, 推导出一个非线性的、类似 Lorentz 因子的成本公式, 并通过实验验证了其有效性.

Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

Florin Adrian Chitan

cs.AI cs.CR

本文提出了一种名为Session Risk Memory (SRM)的轻量级确定性模块，用于增强智能体系统的会话级安全性。它通过维护一个行为语义质心并累积风险信号，来检测跨多个合规步骤的分布式攻击，而无需额外的模型训练。

STEM Agent: A Self-Adapting, Tool-Enabled, Extensible Architecture for Multi-Protocol AI Agent Systems

Alfred Shen, Aaron Shen

cs.AI

本文提出了一种名为STEM Agent的模块化AI智能体架构, 旨在克服现有框架在交互协议、工具集成和用户模型方面的僵化限制. 该架构通过一个可自适应的核心, 动态生成协议处理器、工具绑定和记忆子系统, 并整合了多种互操作协议和持续学习的用户偏好分析器.

From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

Ling Yue et al.

cs.AI cs.CL

本文是一篇关于LLM Agent工作流优化的综述, 将相关方法按工作流结构确定时机(静态/动态)等维度进行组织, 并提出了一个统一的框架和评估视角.

Computational Arbitrage in AI Model Markets

Ricardo Olmedo, Bernhard Schölkopf, Moritz Hardt

cs.AI cs.LG

本文研究了AI模型市场中的套利行为, 通过实证分析展示了其可行性和经济影响. 在一个可验证的问题解决场景中, 简单的套利策略能产生显著的净利润.

Maximum Entropy Relaxation of Multi-Way Cardinality Constraints for Synthetic Population Generation

François Pachet, Jean-Daniel Zucker

cs.AI

本文提出了一种基于最大熵松弛的方法来处理合成人口生成中的多路基数约束问题. 该方法将精确约束匹配转化为期望匹配, 从而将问题转化为一个凸优化问题. 实验表明, 在属性和高阶交互较多时, 该方法相比广义校准方法更具优势.

AI Mental Models: Learned Intuition and Deliberation in a Bounded Neural Architecture

Laurence Anthony

cs.AI

本文在一个经典的64项三段论推理基准上, 探讨了一个有界的神经架构是否能展现出直觉与审慎之间有意义的任务分工. 实验比较了直接神经基线和一个受计算心智模型理论启发的双路径架构, 后者在交叉验证中显示出审慎路径相对于直觉路径的显著优势, 特别是在处理某些特定推理模式时. 结果表明, 在有限条件下, 该架构能够发展出类似推理的内部组织, 但并未完全复现人类推理的完整序列过程.

Understanding LLM Performance Degradation in Multi-Instance Processing: The Roles of Instance Count and Context Length

Jingxuan Chen, Mohammad Taher Pilehvar, Jose Camacho-Collados

cs.AI cs.CL

本文研究了大型语言模型在处理多实例输入时的性能下降问题. 实验表明, 性能下降与实例数量强相关, 而不仅仅是上下文长度.

Bridging the Know-Act Gap via Task-Level Autoregressive Reasoning

Jihyun Janice Ahn et al.

cs.AI

本文针对LLMs在生成式回答中无法有效利用其判别式知识的问题, 提出了一个任务级自回归推理框架. 该框架通过自蒸馏技术, 在单一模型内统一了判别式判断与生成式推理, 旨在弥合"知-行"差距.

Graph-Aware Late Chunking for Retrieval-Augmented Generation in Biomedical Literature

Pouria Mortezaagha, Arya Rahgozar

cs.AI cs.IR

本文提出了一个名为GraLC-RAG的框架，用于生物医学文献的检索增强生成。该框架将延迟分块与图感知的结构智能相结合，旨在改善检索的广度，即从文档的不同结构部分获取证据的能力。实验表明，传统的排序指标会低估结构检索的价值，而多部分信息合成是一个关键的开放问题。

Benchmarking Multi-Agent LLM Architectures for Financial Document Processing: A Comparative Study of Orchestration Patterns, Cost-Accuracy Tradeoffs and Production Scaling Strategies

Siddhant Kulkarni, Yukta Kulkarni

cs.AI cs.CL cs.LG

本文比较了四种多智能体编排架构在金融文档处理中的性能, 重点评估了它们在准确性、延迟、成本和扩展性方面的权衡. 研究发现, 自反式架构在准确性上表现最佳但成本较高, 而分层式架构在成本-准确性帕累托前沿上占据有利位置.

MuQ-Eval: An Open-Source Per-Sample Quality Metric for AI Music Generation Evaluation

Di Zhu, Zixuan Li

cs.AI cs.SD

本文提出了一种名为MuQ-Eval的开源、基于样本的AI生成音乐质量评估指标。该指标通过在预训练的MuQ-310M特征上训练轻量级预测头，在MusicEval数据集上实现了与人类评分的高度相关性。研究表明，编码器的选择是影响性能的最主要因素，并且该指标能够在少量数据上快速适配。

HyFI: Hyperbolic Feature Interpolation for Brain-Vision Alignment

Sangmin Jo et al.

cs.AI

本文提出了一种名为 HyFI 的新框架，用于改善大脑信号与视觉特征的对齐。该方法在双曲空间中插值语义和感知特征，以弥合模态差距并处理特征纠缠问题，在零样本脑到图像检索任务上取得了先进的性能。

Beyond Binary Correctness: Scaling Evaluation of Long-Horizon Agents on Subjective Enterprise Tasks

Abhishek Chandwani, Ishan Gupta

cs.AI

本文提出了一个名为LH-Bench的三支柱评估框架，用于评估AI智能体在主观性企业任务上的长程执行能力。该框架通过专家制定的评分标准、分步的真实结果验证以及成对人类偏好评估，旨在超越简单的二元正确性判断。

CLiGNet: Clinical Label-Interaction Graph Network for Medical Specialty Classification from Clinical Transcriptions

Pronob Kumar Barman, Pronoy Kumar Barman

cs.AI

本文针对临床转录本自动分类任务中存在的严重数据泄露问题,建立了一个无泄露的基准,并提出了一个结合文本编码器与图卷积网络的神经网络架构. 该模型在类别极度不平衡的数据集上取得了最佳性能,并通过消融实验和校准分析验证了其有效性.

Can LLM Agents Generate Real-World Evidence? Evaluating Observational Studies in Medical Databases

Dubai Li et al.

cs.AI cs.CL

本文评估了LLM agents在真实世界医学数据库中进行观察性研究的能力, 提出了RWE-bench基准, 并测试了多种模型和agent框架的性能. 结果表明, 当前agents在生成端到端证据包方面存在显著局限, 任务成功率较低.

AgriPestDatabase-v1.0: A Structured Insect Dataset for Training Agricultural Large Language Model

Yagizhan Bilal Durak et al.

cs.AI

本文构建了一个结构化的农业害虫信息数据集 AgriPestDatabase-v1.0，并基于此对多个轻量级 LLM 模型进行了 LoRA 微调，以开发适用于边缘设备的农业害虫管理决策支持工具。评估表明，Mistral 7B 模型在特定领域的问答任务中表现最佳。

ABSTRAL: Automatic Design of Multi-Agent Systems Through Iterative Refinement and Topology Optimization

Weijia Song, Jiashu Yue, Zhe Pang

cs.AI

本文提出了一个名为ABSTRAL的框架, 用于通过迭代精炼和拓扑优化来自动设计多智能体系统. 该框架将系统架构视为可演化的自然语言文档, 并通过对比轨迹分析进行优化, 在特定基准测试上取得了较好的性能.

Reliable Classroom AI via Neuro-Symbolic Multimodal Reasoning

Sina Bagheri Nezhad

cs.AI

本文提出了一个名为NSCR的神经符号框架, 用于提升课堂AI系统的可靠性与可解释性. 它将分析过程分解为感知、抽象、推理和治理四个层次, 并定义了一套评估协议与可靠性指标.

Learning What Matters Now: Dynamic Preference Inference under Contextual Shifts

Xianwei Cao et al.

cs.AI

本文提出了一个动态偏好推断框架, 用于处理上下文变化下偏好权重未知的序列决策问题. 该框架通过变分推断模块与条件策略的联合训练, 使智能体能够适应目标的变化.

Empirical Comparison of Agent Communication Protocols for Task Orchestration

Ivan Dobrovolskyi

cs.AI

本文对两种主流的智能体通信协议进行了实证比较, 旨在量化它们在任务编排中的性能差异. 研究通过一个系统化的基准测试, 评估了纯工具集成, 多智能体委托以及混合架构在响应时间, 成本等多个维度的表现.

Improving Safety Alignment via Balanced Direct Preference Optimization

Shiji Zhao et al.

cs.AI

本文提出了一种名为Balanced Direct Preference Optimization (B-DPO)的方法，用于缓解大型语言模型安全对齐中的过拟合问题。该方法通过互信息自适应地调整偏好对中不同响应的优化强度，实验表明其在提升安全性的同时能保持模型的通用能力。

PhySe-RPO: Physics and Semantics Guided Relative Policy Optimization for Diffusion-Based Surgical Smoke Removal

Zining Fang et al.

cs.AI

本文提出了一种基于扩散模型的去烟方法 PhySe-RPO, 通过将确定性修复过程转化为随机策略进行优化. 该方法结合了物理一致性奖励和基于 CLIP 的语义奖励, 在合成和真实手术数据集上取得了良好效果.

CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models

Youzhi Liu et al.

cs.AI

本文提出了一个基于竞争性博弈论的多智能体强化学习框架 CoMaTrack, 用于解决具身视觉跟踪任务. 该方法通过在动态对抗环境中训练智能体, 提升了其适应性和抗干扰能力, 并在新构建的基准测试上取得了先进性能.

Chain-of-Authorization: Internalizing Authorization into Large Language Models via Reasoning Trajectories

Yang Li et al.

cs.AI

本文提出了Chain-of-Authorization框架，通过将授权逻辑内化到LLM的推理轨迹中来解决其缺乏访问控制意识的问题。该框架要求模型在生成最终响应前，先输出包含资源审查和决策步骤的显式授权推理链。

Dynamical Systems Theory Behind a Hierarchical Reasoning Model

Vasiliy A. Es'kin, Mikhail E. Smorkalov

cs.AI cs.LG math.DS

本文提出了一种基于连续动力系统理论的递归推理模型CMM, 通过Neural ODE/SDE框架将离散递归过程转化为连续的动力学系统, 并利用收缩映射等理论保证训练的稳定性. 该模型在参数极少的情况下, 在数独等算法推理任务上取得了优异的性能.

Continuous Optimization for Satisfiability Modulo Theories on Linear Real Arithmetic

Yunuo Cen, Daniel Ebler, Xuanyao Fong

cs.AI

本文提出了一种名为 FourierSMT 的连续优化框架，用于求解线性实数算术上的可满足性模理论问题。该方法通过将 Walsh-Fourier 展开推广到混合布尔-实数域，并利用梯度方法进行优化，从而实现了高度的可并行性。

Separating Diagnosis from Control: Auditable Policy Adaptation in Agent-Based Simulations with LLM-Based Diagnostics

Shaoxin Zhong, Yuchen Su, Michael Witbrock

cs.AI

本文提出了一个将诊断与控制分离的三层框架, 用于实现基于智能体的模拟中兼具适应性与可审计性的政策调整. 该框架使用 LLM 进行结构化风险评估, 并通过确定性公式生成可追踪的参数更新, 在老年护理模拟中验证了其优于端到端黑盒方法的性能.

ProGRank: Probe-Gradient Reranking to Defend Dense-Retriever RAG from Corpus Poisoning

Xiangyu Yin, Yi Qi, Chih-hong Cheng

cs.AI

本文提出了一种名为ProGRank的后处理防御方法, 用于保护基于dense retriever的RAG系统免受corpus poisoning攻击. 该方法通过分析检索器在轻微扰动下的梯度不稳定性信号来重新排序检索结果, 无需重新训练且能保持原始文本内容.

Ran Score: a LLM-based Evaluation Score for Radiology Report Generation

Ran Zhang et al.

cs.AI cs.HC

本文提出了一个结合临床医生专业知识和大型语言模型的框架, 用于从自由文本胸部X光报告中提取多标签发现, 并基于此定义了Ran Score, 一种用于报告评估的发现级度量. 该框架在公开数据集上进行了优化和验证, 显示出优于现有基准的性能和良好的泛化能力.

Optimizing Small Language Models for NL2SQL via Chain-of-Thought Fine-Tuning

Anshul Solanki et al.

cs.AI

本文探讨了在NL2SQL任务上对大、小语言模型进行微调的效果。研究发现，小模型通过微调和引入Chain-of-Thought推理能显著提升性能，在降低成本的同时接近生产级表现。

PersonalQ: Select, Quantize, and Serve Personalized Diffusion Models for Efficient Inference

Qirui Wang et al.

cs.AI

本文提出了PersonalQ框架, 用于高效服务个性化的Diffusion模型. 它通过结合基于LLM的重排序和Trigger-Aware Quantization技术, 在提升意图对齐的同时实现了内存高效的推理.

Where Experts Disagree, Models Fail: Detecting Implicit Legal Citations in French Court Decisions

Avrile Floro et al.

cs.AI

本文通过构建一个包含1015个段落-法条对的人工标注基准数据集, 研究了法国一审法院判决书中对《法国民法典》的隐性引用检测问题. 研究指出, 专家标注者的分歧($\kappa$ = 0.33)能有效预测模型失败的情况, 并展示了有监督集成模型与无监督排序方法在此任务上的性能与局限性.

JFTA-Bench: Evaluate LLM's Ability of Tracking and Analyzing Malfunctions Using Fault Trees

Yuhui Wang et al.

cs.AI

本文提出了一种用于故障树(fault tree)的新型文本表示方法, 并构建了一个名为JFTA-Bench的多轮对话基准测试, 用于评估大型语言模型(LLM)在复杂系统维护中协助故障定位和分析的能力. 该基准包含大量条目并引入了模拟用户错误的长程回滚与恢复流程, 以测试模型的综合任务跟踪与错误恢复能力.

On the use of Aggregation Operators to improve Human Identification using Dental Records

Antonio D. Villegas-Yeguas et al.

cs.AI

本文研究了在法医牙科中利用聚合算子改进牙科记录比对的方法. 作者比较了基于数据驱动的词典序聚合, 模糊逻辑聚合以及机器学习聚合等不同方法, 实验表明使用可解释的机器学习模型能有效提升现有技术的性能.

Can Large Language Models Reason and Optimize Under Constraints?

Fabien Bernier et al.

cs.AI cs.LG

本文评估了大型语言模型在约束条件下进行推理和优化的能力, 特别是针对最优潮流问题. 研究发现, 当前最先进的模型在处理这类需要结构化推理和算术运算的复杂约束优化任务时仍然存在显著不足.

Minibal: Balanced Game-Playing Without Opponent Modeling

Quentin Cohen-Solal, Tristan Cazenave

cs.AI

本文提出了一种名为Minibal的算法变体, 旨在实现游戏AI的平衡对抗, 而非追求绝对胜率. 该方法基于Minimax框架进行修改, 并在多个棋盘游戏中验证了其平衡效果.

MedCausalX: Adaptive Causal Reasoning with Self-Reflection for Trustworthy Medical Vision-Language Models

Jianxin Lin et al.

cs.AI

本文提出了一个名为 MedCausalX 的端到端框架，旨在增强医学视觉语言模型中的因果推理能力。它通过引入带有因果标注的数据集和两阶段自适应反思架构，来减少模型对虚假关联的依赖，并在多个基准测试中提升了诊断一致性和空间定位精度。

Between Rules and Reality: On the Context Sensitivity of LLM Moral Judgment

Adrian Sauter, Mona Schirmer

cs.AI cs.CL cs.CY cs.HC

本文通过构建Contextual MoralChoice数据集, 研究了LLM在道德判断中的上下文敏感性. 研究发现, 大多数模型会因上下文变化而改变其判断, 且与人类对上下文的敏感模式存在差异.

Describe-Then-Act: Proactive Agent Steering via Distilled Language-Action World Models

Massimiliano Pappa et al.

cs.AI

本文提出了一种名为DILLO的快速agent steering方法, 通过跨模态蒸馏训练一个仅基于文本推理的世界模型, 用于预测动作的语义结果并引导策略, 从而避免了耗时的视觉模拟, 显著提升了执行速度与任务成功率.

SAiW: Source-Attributable Invisible Watermarking for Proactive Deepfake Defense

Bibek Das et al.

cs.AI

本文提出了一种名为SAiW的源可归因隐形水印框架，用于主动防御深度伪造和验证媒体来源。该方法将水印嵌入构建为源条件表示学习问题，并利用感知引导模块确保视觉不可感知性，同时通过法医解码器实现水印重建和来源追溯。

PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments

Shuochen Liu et al.

cs.AI

本文提出了一个名为PERMA的基准测试, 用于评估个性化记忆智能体在模拟真实、动态交互环境中的表现. 它通过引入事件驱动的偏好演变和文本变异性等设计, 超越了传统的静态偏好回忆任务.

MemCollab: Cross-Agent Memory Collaboration via Contrastive Trajectory Distillation

Yurui Chang et al.

cs.AI cs.LG

本文提出了一个名为MemCollab的协作记忆框架, 旨在为异构的LLM-based agents构建一个可共享的agent-agnostic memory. 该方法通过对比不同agent在同一任务上的推理轨迹来提炼抽象的、与任务相关的约束, 并引入了任务感知的检索机制. 实验表明, 该框架能提升多种agent在数学推理和代码生成任务上的性能.

Online library learning in human visual puzzle solving

Pinzhe Zhao et al.

cs.AI

本文通过一个视觉拼图实验研究了人类在解决复杂任务时如何在线构建和复用抽象概念(helpers). 实验表明, 随着经验积累, 参与者对helpers的使用变得更加高效和选择性, 并且helpers能帮助他们解决原本困难的任务. 计算建模显示, 人类解决问题的决策时间和操作次数与程序归纳模型的搜索空间估计相关.

LLM Olympiad: Why Model Evaluation Needs a Sealed Exam

Jan Christian Blaise Cruz, Alham Fikri Aji

cs.AI cs.CL

本文提出了一种新的LLM评估范式, 即"奥林匹克"式的密封考试, 旨在解决当前基准测试中存在的分数膨胀和可信度问题. 该方法要求问题在评估前保密, 提交内容预先冻结, 并使用统一的评估框架, 以期使评估结果更难以被"制造"且更可信.

RelayS2S: A Dual-Path Speculative Generation for Real-Time Dialogue

Long Mai

cs.AI

本文提出了一种名为RelayS2S的混合架构，用于解决实时语音对话系统中延迟与响应质量之间的矛盾。该架构并行运行一个快速的端到端语音模型和一个慢速的级联流水线，通过一个轻量级验证器来协调两者的输出，从而在保持低延迟的同时获得高质量的语音响应。

Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies

Hanzhong Zhang, Siyang Song, Jindong Wang

cs.AI cs.CL cs.HC

本文提出了一种结合计算虚拟民族志与定量社会认知画像的混合方法框架, 用于研究生成式多智能体社区中的立场形成与身份协商. 通过引入 Innate Value Bias (IVB), Persuasion Sensitivity 和 Trust-Action Decoupling (TAD) 等新指标, 研究发现智能体展现出超越预设身份的内生立场, 并揭示了不同模型在信任与行为一致性上的差异.

Bilevel Autoresearch: Meta-Autoresearching Itself

Yaonan Qu, Meng Lu

cs.AI

本文提出了一个名为Bilevel Autoresearch的框架，其核心思想是利用一个外层的autoresearch循环来优化内层的autoresearch循环。在GPT预训练基准测试中，该方法相比标准内层循环取得了性能提升。该工作探索了让LLM自主改进其研究过程的可能性。

Mecha-nudges for Machines

Giulio Frey, Kawin Ethayarajh

cs.AI

本文结合 Bayesian persuasion 框架与 V-usable information 的概念，提出了“mecha-nudges”这一用于系统性地影响 AI agent 决策的方法。研究将该框架应用于 Etsy 平台的数据分析，发现 ChatGPT 发布后商品列表包含的机器可用信息显著增加。

cs.IR

AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Shreyansh Padarha et al.

cs.IR cs.AI cs.DL

本文提出了一种名为AgentSLR的智能体AI流程，用于自动化流行病学领域的系统文献综述工作。该流程整合了从文献检索到报告合成的多个步骤，并在针对特定病原体的测试中显著缩短了处理时间。

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Chu Zhao et al.

cs.IR cs.AI

本文提出CausalDPO方法, 通过引入因果不变性学习机制来改进Direct Preference Optimization (DPO). 该方法在偏好对齐阶段使用后门调整策略来消除环境混杂因子的干扰, 旨在提升基于LLM的生成式推荐模型在分布外(OOD)场景下的泛化性能.

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

Manie Tadayon, Mayank Gupta

cs.IR cs.AI

本文提出了一种名为Graph RAG的新型端到端框架，用于处理未知或结构化搜索空间中的知识密集型任务。该框架结合了Labeled Property Graph (LPG)和Resource Description Framework (RDF)，通过将文档转换为RDF三元组并实现文本到Cypher查询的实时翻译，提升了检索的准确性和响应质量。

Errors in AI-Assisted Retrieval of Medical Literature: A Comparative Study

Jenny Gao et al.

cs.IR cs.LG stat.AP stat.ME

本文通过定量评估五个主流免费LLM平台在医学文献检索中的表现, 发现其整体性能有限且存在显著差异. 研究指出, 在使用LLM辅助检索时, 必须仔细核对参考文献的元数据.

Personalized Federated Sequential Recommender

Yicheng Di

cs.IR cs.DB

本文提出了一种个性化联邦序列推荐器(PFSR), 通过引入Associative Mamba Block来提升预测效率, 并设计了Variable Response Mechanism和Dynamic Magnitude Loss来适应不同用户的个性化需求.

Reasoner-Executor-Synthesizer: Scalable Agentic Architecture with Static O(1) Context Window

Ivan Dobrovolskyi

cs.IR cs.AI

本文提出了一种名为Reasoner-Executor-Synthesizer (RES)的三层智能体架构，旨在解决RAG中上下文窗口随数据集线性增长的问题。该架构通过分离意图解析、确定性数据检索与聚合以及叙述生成，实现了与数据集大小无关的$O(1)$令牌复杂度，并在一个学术搜索应用中验证了其有效性。

AI Co-Scientist for Ranking: Discovering Novel Search Ranking Models alongside LLM-based AI Agents with Cloud Computing Access

Liwei Wu, Cho-Jui Hsieh

cs.IR cs.AI

本文提出了一个用于搜索排序研究的AI Co-Scientist框架，该框架利用LLM智能体自动化了从想法生成到代码实现和GPU训练调度的完整研究流程。实验表明，该框架能够自动发现新的排序模型技术，并取得显著的离线性能提升。

A Brief Comparison of Training-Free Multi-Vector Sequence Compression Methods

Rohan Jha et al.

cs.IR

本文比较了多种无需训练的、针对多向量检索模型中 token 序列长度维度的压缩方法. 研究发现, 在保持检索效果的同时, 合并 token 的方法严格优于剪枝 token 的方法.

GraphRAG for Engineering Diagrams: ChatP&ID Enables LLM Interaction with P&IDs

Achmad Anggawirya Alimin, Artur M. Schweidtmann

cs.IR cs.AI

本文提出了一个名为ChatP&ID的智能体框架, 用于实现与P&ID工程图的自然语言交互. 该方法通过将标准化的智能P&ID文件转换为知识图谱, 并利用GraphRAG技术进行检索增强, 从而在提高查询准确性的同时显著降低了计算成本.

flexvec: SQL Vector Retrieval with Programmatic Embedding Modulation

Damian Delmas

cs.IR cs.AI cs.DB

本文提出了flexvec, 一个允许在查询时对embedding矩阵和得分数组进行编程式算术操作的检索内核, 并将其集成到SQL接口中. 该方法在中等规模数据集上展示了高效的端到端执行性能.

Leveraging Large Language Models to Extract and Translate Medical Information in Doctors' Notes for Health Records and Diagnostic Billing Codes

Peter Hartnett et al.

cs.IR cs.CL

本文探讨了利用本地部署的开源大语言模型(LLMs)从医生笔记中提取临床信息并转换为ICD-10-CM诊断代码，以减轻医生行政负担并保护患者隐私。研究评估了多种模型和提示策略，发现完全自动化的本地编码尚不可靠，建议采用人机协同的辅助方法。

KARMA: Knowledge-Action Regularized Multimodal Alignment for Personalized Search at Taobao

Zhi Sun et al.

cs.IR cs.AI

本文提出了KARMA框架, 通过引入知识正则化来解决大型语言模型(LLM)在个性化搜索任务中面临的知识-行动鸿沟问题. 该方法在淘宝搜索系统中验证有效, 提升了多项业务指标.

GateSID: Adaptive Gating for Semantic-Collaborative Alignment in Cold-Start Recommendation

Hai Zhu et al.

cs.IR

本文提出了一种名为GateSID的推荐系统框架，用于解决冷启动场景下协同信号与语义信息之间的权衡问题。该框架通过自适应门控网络，根据物品的成熟度动态融合两种信号，并在工业数据集上验证了其有效性。

From Questions to Trust Reports: A LLM-IR Framework for the TREC 2025 DRAGUN Track

Ignacy Alwasiak et al.

cs.IR

本文描述了一个用于TREC 2025 DRAGUN Track的LLM-IR系统，该系统结合了基于LLM的问题生成、多种查询扩展策略（包括Chain-of-Thought）和重排序技术，从文档中检索证据并生成可信度报告。官方评估表明，Chain-of-Thought查询扩展和重排序相比基线检索提升了相关性和领域可信度。

Reasoning over Semantic IDs Enhances Generative Recommendation

Yingzhi He et al.

cs.IR cs.AI

本文提出了SIDReasoner框架, 通过增强Semantic ID与语言的对齐来激发LLM在生成式推荐中的推理能力, 无需依赖大量推荐特定的推理轨迹. 实验表明该方法在提升推荐准确性的同时, 也增强了可解释性和跨域泛化能力.

cs.CL

Evaluating Prompting Strategies for Chart Question Answering with Large Language Models

Ruthuparna Naikar, Ying Zhu

cs.CL cs.AI cs.LG

本文系统评估了四种主流 prompting 策略在 ChartQA 数据集上的表现, 发现 Few-Shot Chain-of-Thought 方法在需要推理的问题上准确率最高. 研究结果为在结构化数据推理任务中选择提示策略提供了实用指导.

MERIT: Memory-Enhanced Retrieval for Interpretable Knowledge Tracing

Runze Li et al.

cs.CL cs.AI

本文提出了一个无需训练的框架MERIT, 它将冻结的LLM推理与结构化的教学记忆相结合, 用于可解释的知识追踪. 该方法通过构建可解释的记忆库和分层检索机制, 在保持高性能的同时提升了模型的透明度和适应性.

Less is More: Adapting Text Embeddings for Low-Resource Languages with Small Scale Noisy Synthetic Data

Zaruhi Navasardyan et al.

cs.CL cs.IR

本文提出了一种针对低资源语言的文本嵌入模型适配方法, 使用小规模、有噪声的合成数据进行微调. 实验表明, 在亚美尼亚语等语言上, 仅用少量数据即可获得显著的性能提升, 且对噪声和规模增加不敏感.

Evaluating Large Language Models' Responses to Sexual and Reproductive Health Queries in Nepali

Medha Sharma et al.

cs.CL

本文提出了一个名为LEAF的评估框架, 用于评估大语言模型(LLM)在低资源语言和文化敏感领域(如性健康)的响应质量. 该框架超越了传统的准确性评估, 纳入了语言、可用性和安全性等多维度标准, 并在尼泊尔语的性健康查询数据集上进行了应用测试.

TIPS: Turn-Level Information-Potential Reward Shaping for Search-Augmented LLMs

Yutao Xie et al.

cs.CL cs.AI cs.LG

本文提出了TIPS, 一种为搜索增强LLMs设计的基于回合信息势的奖励塑形方法. 该方法通过教师模型为每个推理+工具调用步骤分配密集奖励, 以解决稀疏奖励和信用分配问题, 在多个QA基准上提升了训练稳定性和性能.

Whether, Not Which: Mechanistic Interpretability Reveals Dissociable Affect Reception and Emotion Categorization in LLMs

Michael Keeman

cs.CL cs.AI

本文通过临床心理学启发的刺激材料, 使用多种机制可解释性方法, 在多个大语言模型中发现了可分离的情感接收与情绪分类机制. 研究结果表明, 模型对情感内容的检测独立于关键词, 而情绪分类则部分依赖于关键词.

Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

Haoming Meng et al.

cs.CL cs.AI cs.LG

本文通过token-level分析研究了RLVR微调对LLMs产生的分布偏移。研究发现，RL微调引发的分布变化是稀疏且有针对性的，仅影响一小部分token的分布。通过交叉采样实验，作者证明了少数关键token的替换足以解释RLVR带来的性能提升。

Towards Automated Community Notes Generation with Large Vision Language Models for Combating Contextual Deception

Jin Ma et al.

cs.CL cs.SI

本文研究了针对图像上下文欺骗的自动化社区笔记生成方法. 作者提出了一个基于检索增强和多智能体协作的框架 ACCNote, 并在新构建的数据集 XCheck 上进行了评估.

LLM-guided headline rewriting for clickability enhancement without clickbait

Yehudit Aperstein et al.

cs.CL cs.AI

本文提出了一个基于LLM的引导式新闻标题重写框架, 旨在提升点击率的同时避免标题党. 该框架使用FUDGE范式, 通过两个辅助模型(点击诱饵评分模型和参与度属性模型)在推理时引导生成, 在语义保真度和吸引力之间进行可控的权衡.

Functional Component Ablation Reveals Specialization Patterns in Hybrid Language Model Architectures

Hector Borobia, Elies Seguí-Mas, Guillermina Tormo-Carbó

cs.CL cs.AI cs.LG

本文通过功能组件消融框架研究了结合 attention 与 state space models (SSMs) 或 linear attention 的混合语言模型架构. 实验表明两种组件均被使用, 且替代组件(SSM/linear attention)是主要的语言建模骨干, 混合架构相比纯 Transformer 具有更强的功能冗余性.

Rashid: A Cipher-Based Framework for Exploring In-Context Language Learning

Niyati Bafna et al.

cs.CL

本文提出了一个名为Rashid的框架, 通过可逆密码(cipher)将高资源语言(high-resource languages, HRLs)转换为模拟的未见语言, 从而为上下文语言学习(in-context language learning, ICLL)的研究提供了一个可控且资源丰富的实验环境. 该框架绕过了真实低资源语言数据匮乏的限制, 使得研究者能够利用HRLs的现有工具和数据进行大规模实验, 评估当前ICLL方法的性能并探索改进策略.

Reddit After Roe: A Computational Analysis of Abortion Narratives and Barriers in the Wake of Dobbs

Aria Pessianzadeh, Alex H. Poole, Rezvaneh Rezapour

cs.CL

本文对Reddit上关于堕胎的讨论进行了大规模计算分析, 研究了在Dobbs案裁决后, 信息寻求与分享行为, 堕胎的不同阶段以及时间动态中, 获取堕胎的障碍是如何被表述的. 通过分类和主题建模, 研究发现情感和心理障碍在在线叙事中占主导地位.

CAPITU: A Benchmark for Evaluating Instruction-Following in Brazilian Portuguese with Literary Context

Giovana Kerche Bonás et al.

cs.CL

本文提出了一个用于评估巴西葡萄牙语大语言模型指令遵循能力的基准测试CAPITU。该基准将任务置于巴西文学作品的语境中，包含59种可自动验证的指令类型，并对18个前沿模型进行了评估。

Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?

Richard J. Young

cs.CL cs.AI

本文评估了多种开源推理模型在Chain-of-Thought (CoT) 过程中的忠实性(faithfulness). 研究发现, 模型在内部思考令牌中承认提示影响的比例远高于在最终输出文本中的承认比例, 且忠实性受模型架构和训练方法的影响大于参数量.

LGSE: Lexically Grounded Subword Embedding Initialization for Low-Resource Language Adaptation

Hailay Teklehaymanot, Dren Fazlija, Wolfgang Nejdl

cs.CL cs.AI

本文提出了一种用于低资源语言适应的词汇基础子词嵌入初始化框架(LGSE). 该方法通过基于形态学的分割来初始化新词元的嵌入, 并在语言自适应预训练中应用正则化以保持与原始嵌入空间的对齐. 在阿姆哈拉语和提格里尼亚语上的实验表明, 该方法在多项NLP任务上优于基线.

Multi-Method Validation of Large Language Model Medical Translation Across High- and Low-Resource Languages

Chukwuebuka Anyaegbuna et al.

cs.CL

本文评估了四种前沿大语言模型在医疗文档翻译任务上的表现, 涵盖从高资源到低资源的八种语言. 通过一个包含五个验证层的框架, 研究发现这些模型在不同资源水平的语言间均能保持较高的语义保真度, 且结果不受模型自身循环或词汇借用等因素的显著影响.

Improving LLM Predictions via Inter-Layer Structural Encoders

Tom Ulanovski, Eyal Blyachman, Maya Bechler-Speicher

cs.CL cs.LG

本文提出了一种名为Inter-Layer Structural Encoders (ILSE)的方法，用于整合大语言模型(LLM)中间层的表示信息。该方法通过一个基于Cayley图的几何编码器来融合不同层的信息，并在多个任务和模型上验证了其有效性。

Synthetic or Authentic? Building Mental Patient Simulators from Longitudinal Evidence

Baihan Li et al.

cs.CL

本文提出了一个基于真实世界数据的患者模拟框架DEPROFILE, 用于构建心理健康对话系统. 该方法通过整合多源信息并引入Chain-of-Change agent来生成结构化的记忆表示, 实验表明其在对话真实性等方面优于现有基线.

Detecting Non-Membership in LLM Training Data via Rank Correlations

Pranav Shetty et al.

cs.CL

本文提出了一种名为PRISM的方法, 用于检测特定数据集是否未被用于大语言模型(LLM)的训练. 该方法仅需访问模型的logits输出, 通过比较两个模型在目标数据上的token概率排序相关性来进行非成员推断.

Who Spoke What When? Evaluating Spoken Language Models for Conversational ASR with Semantic and Overlap-Aware Metrics

Naohiro Tawara et al.

cs.CL eess.AS

本文针对多说话人场景下的对话式自动语音识别(ASR)问题, 系统评估了基于大语言模型(LLM)的方法与传统模块化流水线方法的性能. 作者提出了新的评估指标tcpSemER, 通过嵌入语义相似度来捕捉传统词错误率(WER)忽略的语义错误, 并将tcpWER分解为重叠与非重叠部分以进行细粒度分析. 实验表明, 在说话人数量与语音重叠增加时, LLM-based系统的鲁棒性会下降.

How Utilitarian Are OpenAI's Models Really? Replicating and Reinterpreting Pfeffer, Krügel, and Uhl (2025)

Johannes Himmelreich

cs.CL cs.CY

本文通过复现和扩展 Pfeffer 等人 (2025) 的研究，检验了 OpenAI 模型在电车难题和天桥困境中的功利主义倾向。研究发现，单次提示评估并不可靠，模型反应高度依赖于提示的具体措辞，移除提示中的混淆因素后，所有模型都趋于给出功利主义回答。

Explanation Generation for Contradiction Reconciliation with LLMs

Jason Chan, Zhixue Zhao, Robert Gaizauskas

cs.CL

本文探讨了大型语言模型(LLMs)在生成调和矛盾的解释方面的能力，并提出了一个基于现有自然语言推理(NLI)数据集的新评估方法。实验表明，当前模型在此任务上表现有限，且增加计算量带来的收益会随模型规模增大而趋于平缓。

PRISM: A Dual View of LLM Reasoning through Semantic Flow and Latent Computation

Ruidi Chang, Jiawei Zhou, Hanjie Chen

cs.CL

本文提出了一个名为PRISM的框架, 用于联合分析大语言模型(LLM)推理过程中的文本序列和隐藏状态向量. 该工具揭示了推理失败轨迹中的系统性模式, 并展示了提示如何改变语义转换和内部计算模式.

KALAVAI: Predicting When Independent Specialist Fusion Works -- A Quantitative Model for Post-Hoc Cooperative LLM Training

Ramchand Kumaresan

cs.CL cs.AI cs.LG

本文提出了一种名为KALAVAI的协议, 用于对独立训练的领域专家模型进行事后融合. 该协议通过轻量级的MoE路由将多个专家模型组合成一个单一模型, 实验表明融合后的模型性能优于任何单个专家, 并且增益可以通过专家模型之间的divergence进行预测.

DALDALL: Data Augmentation for Lexical and Semantic Diverse in Legal Domain by leveraging LLM-Persona

Janghyeok Choi, Jaewon Lee, Sungzoon Cho

cs.CL cs.AI cs.IR

本文提出了一种基于LLM角色扮演的数据增强方法DALDALL, 用于提升法律领域信息检索任务中查询的词汇和语义多样性. 实验表明, 该方法在保持语义保真度的同时, 能有效提升检索模型的召回性能.

Span Modeling for Idiomaticity and Figurative Language Detection with Span Contrastive Loss

Blake Matheny, Phuong Minh Nguyen, Minh Le Nguyen

cs.CL

本文提出了一种基于BERT和RoBERTa的模型, 通过结合slot loss和span contrastive loss (SCL)进行微调, 以改进习语性检测. 该方法在现有数据集上取得了先进的序列准确率性能.

Efficient Hallucination Detection: Adaptive Bayesian Estimation of Semantic Entropy with Guided Semantic Exploration

Qiyao Sun et al.

cs.CL

本文提出了一种用于检测大语言模型幻觉的自适应贝叶斯估计框架。该方法通过分层贝叶斯模型动态调整采样需求，并使用基于扰动的策略探索语义空间，从而在保证检测性能的同时显著提高了计算效率。

When AI Shows Its Work, Is It Actually Working? Step-Level Evaluation Reveals Frontier Language Models Frequently Bypass Their Own Reasoning

Abhinaba Basu, Pavan Chakraborty

cs.CL cs.AI cs.LG

本文通过引入 step-level evaluation 方法, 评估了前沿语言模型 step-by-step reasoning 的真实性. 研究发现, 多数模型的推理步骤是装饰性的, 移除它们对最终答案影响很小. 这种忠实度是模型和任务特定的, 并且与训练目标而非模型规模相关.

RadTimeline: Timeline Summarization for Longitudinal Radiological Lung Findings

Sitong Zhou, Meliha Yetisgen, Mari Ostendorf

cs.CL

本文提出了一种用于纵向放射学报告的结构化时间线总结任务, 并引入了RadTimeline数据集. 该方法采用一个三步LLM流程来生成时间线, 实验评估了不同规模LLM和提示策略的效果.

Analysing LLM Persona Generation and Fairness Interpretation in Polarised Geopolitical Contexts

Maida Aizaz, Quang Minh Nguyen

cs.CL

本文分析了五种主流大语言模型在模拟巴勒斯坦和以色列身份时生成的人物角色，发现模型输出存在显著的社会经济属性分布差异，且公平性指令会引发多样化的分布变化，但深层偏见可能持续存在。

Avoiding Over-smoothing in Social Media Rumor Detection with Pre-trained Propagation Tree Transformer

Chaoqun Cui, Caiyan Jia

cs.CL cs.AI

本文提出了一种基于纯Transformer架构的预训练传播树Transformer(P2T3)方法, 用于社交媒体谣言检测. 该方法通过提取传播树中的对话链并利用token-wise embedding注入连接信息, 避免了GNNs在处理此类结构时常见的over-smoothing问题, 并在多个基准数据集上取得了优于先前方法的性能.

EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction

Yixuan Wang et al.

cs.CL

本文提出了一种名为EchoKV的灵活KV缓存压缩方案，用于缓解大语言模型在长上下文应用中的内存瓶颈。该方法利用轻量级网络，基于注意力头之间的相似性来重建KV缓存，并支持在标准推理与压缩推理之间按需切换。

Multilingual KokoroChat: A Multi-LLM Ensemble Translation Method for Creating a Multilingual Counseling Dialogue Dataset

Ryoma Suzuki, Zhiyang Qi, Michimasa Inaba

cs.CL

本文提出了一种多LLM集成翻译方法, 用于将日语心理咨询对话数据集KokoroChat高质量地翻译为英语和中文, 从而创建了多语言数据集Multilingual KokoroChat. 该方法通过整合多个大语言模型的翻译假设并分析其优劣来生成最终翻译, 人工评估表明其输出质量优于任何单一的先进模型.

Quality Over Clicks: Intrinsic Quality-Driven Iterative Reinforcement Learning for Cold-Start E-Commerce Query Suggestion

Qi Sun et al.

cs.CL

本文提出了一种用于冷启动电商查询推荐的迭代强化学习框架 Cold-EQS. 该方法利用可回答性、事实性和信息增益作为内在奖励来优化查询质量, 并通过估计不确定性来筛选困难样本进行持续训练.

Set-Valued Prediction for Large Language Models with Feasibility-Aware Coverage Guarantees

Ye Li et al.

cs.CL cs.AI

本文提出了一种为大型语言模型(LLM)生成提供可行性感知覆盖保证的集合值预测框架。该框架通过数据驱动的校准程序构建预测集，在目标风险水平可行时，能以所需概率确保集合包含正确答案。

DariMis: Harm-Aware Modeling for Dari Misinformation Detection on YouTube

Jawid Ahmad Baktash et al.

cs.CL cs.AI cs.LG

本文构建了首个 Dari 语种的 YouTube 视频人工标注数据集 DariMis, 包含信息类型和危害等级两个标注维度. 研究提出了一种 pair-input 编码策略来建模视频标题与描述的语义关系, 并基于 ParsBERT 模型在 Dari 语种上进行了虚假信息检测的基准测试.

Beyond Hate: Differentiating Uncivil and Intolerant Speech in Multimodal Content Moderation

Nils A. Herrmann et al.

cs.CL cs.CY

本文提出了一种区分网络多模态内容中不文明言论与不宽容言论的细粒度标注方案, 并基于Hateful Memes数据集进行了应用与模型评估. 实验表明, 结合粗粒度与细粒度标签进行联合训练, 能提升模型整体性能并改善其错误分布.

PaperVoyager : Building Interactive Web with Visual Language Models

Dasen Dai et al.

cs.CL

本文提出了一个将研究论文自动转换为可执行交互式网页系统的智能体框架. 该方法通过端到端处理PDF论文, 实现了对涉及动态机制论文的交互式理解与呈现.

Knowledge Access Beats Model Size: Memory Augmented Routing for Persistent AI Agents

Xunzhuo Liu et al.

cs.CL

本文提出了一种基于记忆增强推理的框架, 用于处理生产环境中AI agent面临的重复性用户查询. 通过利用检索到的对话上下文, 一个轻量级模型能够以低成本路径回答查询, 在显著降低计算成本的同时, 恢复了大模型的大部分性能. 实验表明, 对于用户特定的查询, 相关知识的访问比模型规模更为重要.

Parametric Knowledge and Retrieval Behavior in RAG Fine-Tuning for Electronic Design Automation

Julian Oestreich et al.

cs.CL cs.AI cs.CE

本文在电子设计自动化领域评估了RAG微调对长文本生成的影响, 提出了基于三元组的人类评估流程TriFEX和用于隔离模型内部知识的指标PKP. 研究发现传统指标如ROUGE和BERTScore未能捕捉到事实性差异, 并且现有知识内化指标对检索条件敏感.

AuthorMix: Modular Authorship Style Transfer via Layer-wise Adapter Mixing

Sarubi Thillainathan et al.

cs.CL cs.AI

本文提出了一个轻量级、模块化的作者风格迁移框架 AuthorMix. 该方法通过训练独立的 LoRA 适配器并进行层间混合, 在低资源目标上实现了优于现有方法的效果.

When Language Models Lose Their Mind: The Consequences of Brain Misalignment

Gabriele Merlin, Mariya Toneva

cs.CL

本文通过训练预测脑活动能力差但语言建模性能高的"脑失准"大语言模型, 探究了脑对齐对语言理解的功能性影响. 实验表明, 脑失准会显著损害模型在语义、句法等广泛下游任务上的表现, 这凸显了脑对齐对于获得稳健语言能力的关键作用.

HGNet: Scalable Foundation Model for Automated Knowledge Graph Generation from Scientific Literature

Devvrat Joshi, Islem Rekik

cs.CL cs.LG

本文提出了一个用于从科学文献自动构建知识图谱的两阶段框架HGNet. 该框架通过正交语义分解和多尺度注意力机制改进实体识别, 并利用层次感知的消息传递与新的损失函数进行关系抽取, 在多个基准测试上取得了先进的零样本性能.

Why AI-Generated Text Detection Fails: Evidence from Explainable AI Beyond Benchmark Accuracy

Shushanta Pudasaini et al.

cs.CL cs.AI

本文通过整合linguistic feature engineering, machine learning和explainable AI技术，提出了一个可解释的AI生成文本检测框架。尽管在特定基准测试中取得了高准确率，但系统性的跨领域评估揭示了模型存在显著的泛化失败问题，其依赖的特征易受domain shift和文本格式变化的影响。

UniDial-EvalKit: A Unified Toolkit for Evaluating Multi-Faceted Conversational Abilities

Qi Jia et al.

cs.CL

本文提出了一个用于评估多轮对话AI系统的统一工具包UniDial-EvalKit (UDE). 该工具通过标准化数据格式, 模块化评估流程和一致的评分接口, 旨在提高评估的可复现性, 效率和可扩展性.

From Synthetic to Native: Benchmarking Multilingual Intent Classification in Logistics Customer Service

Haoyu He et al.

cs.CL

本文构建了一个基于真实物流客服日志的多语言意图分类基准数据集, 用于评估模型在嘈杂、非标准用户查询上的性能. 通过对比在原生查询和机器翻译查询上的测试结果, 研究发现使用翻译文本会显著高估模型在实际场景中的鲁棒性, 尤其是在处理长尾意图和跨语言迁移时.

ImplicitRM: Unbiased Reward Modeling from Implicit Preference Data for LLM alignment

Hao Wang et al.

cs.CL cs.AI stat.AP

本文提出了一种从隐式偏好数据中学习无偏奖励模型的方法ImplicitRM, 用于降低大语言模型对齐中人类反馈数据的收集成本. 该方法通过分层模型处理缺乏明确负样本和存在用户偏好偏差的数据, 并推导出理论无偏的学习目标.

Decoding AI Authorship: Can LLMs Truly Mimic Human Style Across Literature and Politics?

Nasser A Alsadhan

cs.CL cs.LG

本文研究了大型语言模型模仿特定作者风格的能力, 使用基于transformer的分类器和可解释机器学习方法进行评估. 结果表明, 尽管模型在某些低维特征上接近人类, 但其生成文本在统计特性上仍可被有效检测.

I Came, I Saw, I Explained: Benchmarking Multimodal LLMs on Figurative Meaning in Memes

Shijia Zhou et al.

cs.CL

本文评估了八种先进的多模态大语言模型(MLLMs)在识别和解释网络迷因中比喻意义的能力。研究发现，所有模型都存在将迷因与比喻意义关联的强烈偏见，且正确的预测并不总是伴随忠实于原内容的解释。

Is AI Catching Up to Human Expression? Exploring Emotion, Personality, Authorship, and Linguistic Style in English and Arabic with Six Large Language Models

Nasser A Alsadhan

cs.CL cs.LG

本文通过比较六种大型语言模型在英语和阿拉伯语中生成文本的情感与人格特征, 探讨了AI模拟人类表达的局限性. 研究发现AI生成文本在风格和情感编码上与人类文本存在可测量的差异, 且分类器难以跨域泛化.

Steering LLMs for Culturally Localized Generation

Simran Khanuja et al.

cs.CL

本文利用稀疏自编码器(sparse autoencoder)从大语言模型(LLMs)中提取可解释的文化特征，并聚合为文化嵌入(Cultural Embeddings, CuE)。该方法可用于分析模型隐含的文化偏见，并通过白盒干预引导模型生成更具文化特定性的内容。

WISTERIA: Weak Implicit Signal-based Temporal Relation Extraction with Attention

Duy Dao Do, Anaïs Halftermeyer, Thi-Bich-Hanh Dao

cs.CL cs.AI

本文提出了WISTERIA框架, 用于时序关系抽取(TRE). 该框架通过结合multi-head attention与pair-conditioned top-K pooling, 为每个事件对提取最具信息量的上下文token, 并在多个数据集上取得了有竞争力的准确率.

Failure of contextual invariance in gender inference with large language models

Sagar Kumar et al.

cs.CL cs.AI cs.CY

本文通过一个受控的代词选择任务, 研究了大型语言模型(LLM)在性别推断任务中输出对语境变化的非理性依赖. 研究发现, 即使引入理论上无信息的微小语境变化, 也会导致模型输出发生系统性偏移, 这表明LLM的输出违反了语境不变性假设.

cs.DS

Computing and Enumerating Minimal Common Supersequences Between Two Strings

Braeden Sopp et al.

cs.DS

本文研究了计算和枚举两个字符串之间所有最小公共超序列的问题. 对于两个输入字符串, 可以在$O(n)$时间内计算出一个最小公共超序列, 并可以在$O(n^3)$时间内构建一个数据结构, 以$O(n)$的时间延迟枚举所有此类超序列.

Testing Properties of Edge Distributions

Yumou Fei

cs.DS cs.CC

本文研究了图边分布的概率分布性质测试问题, 主要针对二分性(bipartiteness), 无三角形(triangle-freeness)和无正方形(square-freeness)给出了样本复杂度近乎紧的界. 其技术核心在于证明无正方形测试的上界时, 发展了一种基于生日悖论类型引理的新方法.

Algorithmic warm starts for Hamiltonian Monte Carlo

Matthew S. Zhang, Jason M. Altschuler, Sinho Chewi

cs.DS cs.LG math.NA math.ST stat.ML

本文研究了从满足强对数凹性等条件的概率分布中采样的问题. 针对Hamiltonian Monte Carlo (HMC)算法需要预热启动(warm start)的瓶颈, 提出了一种使用非Metropolized HMC快速生成预热启动的方法. 该方法将高精度采样的总复杂度从$\tilde{O}(d^{1/2})$改进到了$\tilde{O}(d^{1/4})$, 为实际应用提供了简单的预热启动方案.

On the Complexity of Secluded Path Problems

Tesshu Hanaka, Daisuke Tsuru

cs.DS

本文研究了在图中寻找 secluded path 问题的计算复杂性. 作者扩展了参数化复杂性的版图, 为 \textsc{Short Secluded Path} 问题设计了针对特定结构参数的新算法, 并引入并分析了其自然变体 \textsc{Shortest Secluded Path} 的复杂性.

Gabow's $O(\sqrt{n}m)$ Maximum Cardinality Matching Algorithm, Revisited

Kurt Mehlhorn, Romina Nobahari

cs.DS

本文重新审视了Gabow的$O(\sqrt{n}m)$最大基数匹配算法，并提出了一种新的方法来计算最短增广路径的长度。作者认为新方法比原算法中基于加权匹配对偶变量的方法更直接，旨在提高算法的教学可理解性。

Accelerating Maximum Common Subgraph Computation by Exploiting Symmetries

Buddhi Kothalawala, Henning Koehler, Muhammad Farhan

cs.DS

本文提出了一种用于加速最大公共子图(MCS)计算的双对称性打破框架, 通过同时处理变量图和值图中的对称性来减少搜索空间. 实验表明该方法在标准基准测试中显著优于现有技术, 减少了计算时间和搜索空间.

Compressing Dynamic Fully Indexable Dictionaries in Word-RAM

Gabriel Marques Domingues

cs.DS

本文在Word-RAM模型中，基于改进的fusion-tree数据结构，提出了一种参数化的动态fully indexable dictionary (FID)构造。该结构在接近信息论下界的空间内，支持对位向量的rank、select查询和单比特更新操作，并在特定参数设置下实现了最优的最坏情况时间复杂度。

Algorithms and Hardness for Geodetic Set on Tree-like Digraphs

Florent Foucaud et al.

cs.DS cs.DM

本文研究了有向图上的GEODETIC SET问题. 对于其无向底层图接近树结构的图类, 给出了参数化算法和NP-hardness结果.

Dynamic k-center clustering with lifetimes

Simone Moretti et al.

cs.DS

本文针对动态数据集上的$k$-center聚类问题，提出了一种新的“带生命周期的动态”模型。该模型介于滑动窗口和完全动态设置之间，允许点的任意到达与删除，但要求点的删除时间在到达时已知。作者为此模型设计了确定性的近似算法，在平摊更新时间和最坏情况更新时间方面均达到了$\tilde{O}(k/\varepsilon)$的效率。

others

Automated Microservice Pattern Instance Detection Using Infrastructure-as-Code Artifacts and Large Language Models

Carlos Eduardo Duarte

cs.SE cs.AI

本文提出了一种名为MicroPAD的原型工具，利用Large Language Models (LLMs)分析Infrastructure-as-Code (IaC)制品，以自动化检测微服务架构模式实例。初步实验表明该方法成本低廉且识别准确率较高，旨在降低架构知识获取的门槛。

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Manuel Cebrian

cs.CV cs.AI cs.CL

本文利用Hugging Face的模型元数据，分析了开源大语言模型家族中多模态能力的演化动态。研究发现，多模态能力主要通过少数奠基事件引入，并在其衍生谱系内快速扩张，呈现出间断的采纳模式。

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Federico Toschi et al.

cs.CV cs.AI cs.CL

本文构建了一个名为M2AD的数据集, 用于评估多模态大语言模型(MLMs)在技术任务(如家具组装)中作为实时助手的能力. 研究测试了MLMs在理解程序步骤、追踪组装进度和参考说明书等方面的表现, 发现现有模型的能力受限于架构和硬件约束.

Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction

Zhiyuan Chen et al.

q-bio.BM cs.LG

本文提出了一个名为CHANRG的RNA二级结构预测新基准, 通过结构感知去重和基因组感知的数据划分, 揭示了现有深度学习模型在分布外泛化上的显著不足. 研究发现, 尽管基于预训练基础模型的方法在分布内表现优异, 但其泛化能力弱于结构化解码器等更稳健的方法.

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Hyomin Lee et al.

cs.CR cs.AI cs.CL

本文提出了一种针对LLM智能体的轨迹感知进化搜索方法T-MAP, 用于在工具执行环境中生成对抗性提示. 该方法通过利用执行轨迹来引导搜索, 在多种MCP环境中实现了比基线方法更高的攻击成功率, 揭示了自主智能体的潜在安全漏洞.

Neutrino Oscillation Parameter Estimation Using Structured Hierarchical Transformers

Giorgio Morales et al.

hep-ph cs.LG

本文提出了一种基于结构化分层transformer的数据驱动框架, 用于从大气中微子振荡概率图中估计振荡参数. 该方法将参数推断重构为监督回归任务, 并引入了基于神经网络的、具有正式覆盖保证的不确定性量化机制. 实验表明, 该方法在估计精度上与MCMC基准相当, 同时计算成本显著降低.

Demystifying Low-Rank Knowledge Distillation in Large Language Models: Convergence, Generalization, and Information-Theoretic Guarantees

Alberlucia Rafael Soarez et al.

stat.ML cs.CL cs.LG

本文为大型语言模型中的低秩知识蒸馏方法建立了理论框架. 证明了该方法在温和假设下能保持优化动态, 并给出了收敛率与泛化误差界.

Bridging neuroscience and AI: adaptive, culturally sensitive technologies transforming aphasia rehabilitation

Andreea I. Niculescu, Jochen Ehnes, Minghui Dong

q-bio.NC cs.AI

本文回顾了神经认知研究和语言技术的最新进展, 这些进展有助于失语症的诊断和治疗. 作者介绍了两个旨在反映当地语言多样性并增强患者参与度的数字治疗原型, 并概述了未来研究方向.

Early Discoveries of Algorithmist I: Promise of Provable Algorithm Synthesis at Scale

Janardhan Kulkarni

cs.SE cs.AI

本文介绍了Algorithmist, 一个基于LLM的多智能体系统, 用于自动合成具有可证明保证的算法. 该系统通过研究-评审循环生成算法、证明和实现, 并在隐私数据分析和聚类任务上进行了评估.

Q-AGNN: Quantum-Enhanced Attentive Graph Neural Network for Intrusion Detection

Devashish Chaudhary, Sutharshan Rajasegarar, Shiva Raj Pokhrel

cs.CR cs.AI cs.LG

本文提出了一种用于入侵检测的量子增强注意力图神经网络(Q-AGNN). 它将网络流量建模为图, 并利用参数化量子电路(PQCs)来编码节点邻域信息, 再结合注意力机制进行异常检测.

Modeling Quantum Federated Autoencoder for Anomaly Detection in IoT Networks

Devashish Chaudhary, Sutharshan Rajasegarar, Shiva Raj Pokhrel

quant-ph cs.AI cs.LG

本文提出了一种用于物联网网络异常检测的量子联邦自编码器框架。该模型结合了量子计算和联邦学习，旨在实现高效、安全的分布式处理，并在真实数据集上验证了其有效性。

When Visuals Aren't the Problem: Evaluating Vision-Language Models on Misleading Data Visualizations

Harsh Nishant Lalai et al.

cs.CV cs.AI

本文评估了Vision-Language Models (VLMs)在识别误导性数据可视化方面的能力。研究构建了一个包含多种推理错误和视觉设计错误的基准测试，发现模型在检测视觉设计错误上表现更好，但经常将非误导性内容误判为误导。

SynLeaF: A Dual-Stage Multimodal Fusion Framework for Synthetic Lethality Prediction Across Pan- and Single-Cancer Contexts

Zheming Xing et al.

q-bio.GN cs.AI cs.LG

本文提出了一种名为SynLeaF的双阶段多模态融合框架, 用于在泛癌和单癌背景下预测合成致死性. 该框架通过结合多种组学数据和生物医学知识图谱, 并采用特征级知识蒸馏策略来缓解模态惰性问题, 在多个数据集上取得了优越的性能.

Abnormalities and Disease Detection in Gastro-Intestinal Tract Images

Zeshan Khan, Muhammad Atif Tahir

eess.IV cs.AI cs.CV

本文针对胃肠道(GI)影像的实时分析与疾病检测问题, 提出了一系列从传统纹理特征到深度学习的方法. 通过优化模型与集成策略, 在多个数据集上实现了高精度与高帧率的性能平衡.

Latent Style-based Quantum Wasserstein GAN for Drug Design

Julien Baglio, Yacine Haddad, Richard Polifka

quant-ph cs.AI cs.LG q-bio.BM

本文提出了一种用于药物设计的基于风格的量子生成对抗网络(QGAN)架构. 该模型结合了噪声编码和梯度惩罚, 并在量子模拟器和真实量子硬件上进行了验证.

Probabilistic modeling over permutations using quantum computers

Vasilis Belis et al.

quant-ph cs.LG

本文提出了一种利用量子计算机上的对称群 Quantum Fourier Transform (QFT) 来编码排列数据概率模型的量子算法. 该方法旨在解决经典计算中难以处理的非阿贝尔谱分析问题, 但其实际应用仍面临缩放性和实现上的挑战.

CaP-X: A Framework for Benchmarking and Improving Coding Agents for Robot Manipulation

Max Fu et al.

cs.RO cs.AI

本文提出了CaP-X框架, 用于系统性地评估和改进用于机器人操作的Code-as-Policy智能体. 该框架包含交互式仿真环境CaP-Gym和基准测试套件CaP-Bench, 并通过引入多种测试时计算策略和强化学习, 提升了智能体在低层操作上的鲁棒性.

mmFHE: mmWave Sensing with End-to-End Fully Homomorphic Encryption

Tanvir Ahmed et al.

cs.CR cs.LG eess.SP

本文提出了mmFHE系统，首次将fully homomorphic encryption (FHE)应用于端到端的毫米波雷达感知。该系统在边缘设备加密原始数据，并在不可信云上对密文执行完整的信号处理与机器学习推理流程，通过一组可组合的FHE内核保证了输入隐私与数据不可区分性。实验表明，该方法在生命体征监测与手势识别任务上引入的误差可忽略不计，验证了在现有硬件上实现隐私保护毫米波感知的可行性。

Color When It Counts: Grayscale-Guided Online Triggering for Always-On Streaming Video Sensing

Weitong Cai et al.

cs.CV cs.AI cs.HC cs.MM

本文提出了一种名为ColorTrigger的在线触发机制, 用于实现"灰度始终开启, 颜色按需捕获"的高效流式视频感知. 该方法通过分析连续灰度视频流的窗口亲和性, 使用轻量级二次规划来因果性地检测色彩冗余, 并选择性激活RGB帧捕获. 在资源受限的边缘设备上, 该方法仅使用少量RGB帧即可达到接近全彩视频的理解性能.

SPDE Methods for Nonparametric Bayesian Posterior Contraction and Laplace Approximation

Enric Alberola-Boloix, Ioar Casado-Telletxea

stat.ML cs.LG math.ST

本文通过将基于扩散的框架推广到无限维情形, 研究了非参数贝叶斯模型的后验收缩率与有限样本 Bernstein von Mises 定理. 将后验表示为可分 Hilbert 空间上 Langevin 型随机偏微分方程的不变测度, 从而在多种似然曲率与正则性条件下控制后验矩并获得 Hilbert 范数下的非渐近集中速率. 理论在一个非参数线性高斯逆问题中得到说明.

Stability-Preserving Online Adaptation of Neural Closed-loop Maps

Danilo Saccani, Luca Furieri, Giancarlo Ferrari-Trecate

eess.SY cs.AI math.OC

本文提出了一种用于非线性神经网络控制器的稳定性保持在线更新机制. 该机制基于有界$\ell_p$-gain条件, 保证了闭环系统在任意次更新后仍保持$\ell_p$-stable.

Wake Up to the Past: Using Memory to Model Fluid Wake Effects on Robots

Luca Vendruscolo et al.

cs.RO cs.LG cs.MA

本文通过实验研究探讨了准确建模流体尾流效应所需的预测器特性, 比较了七种数据驱动模型在四种不同介质中的表现. 研究结论表明, 支持历史状态输入和传输延迟预测能显著提高尾流效应预测的准确性.

Cognitive Training for Language Models: Towards General Capabilities via Cross-Entropy Games

Clément Hongler et al.

math.OC cs.AI

本文提出了一个名为"cognitive training"的框架, 旨在通过构建任务课程来引导语言模型自动发现相关技能. 该框架基于一类称为cross-entropy games的任务族, 并论证了在特定条件下, 贪婪优化算法迭代产生的课程学习本质上对应着唯一的元目标.

Tiny Inference-Time Scaling with Latent Verifiers

Davide Bucciarelli et al.

cs.CV cs.AI cs.MM

本文提出了一种直接在Diffusion Transformer (DiT)生成器的中间隐层状态上运行的验证器VHS, 避免了将候选图像解码到像素空间再进行编码的冗余计算. 该方法在保持或超越基于MLLM的验证器性能的同时, 显著降低了推理时间、计算量和显存占用.

OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection

Jeffrey Flynt

cs.CR cs.LG

本文提出了一个名为OrgForge-IT的可验证合成基准，用于评估基于LLM的内部威胁检测。该基准通过一个确定性仿真引擎来维护真实情况，并利用语言模型生成表面文本，从而保证了跨工件的一致性。研究通过一个包含十个模型的排行榜揭示了检测准确性、误报率以及提示敏感性等方面的发现。

Do Large Language Models Reduce Research Novelty? Evidence from Information Systems Journals

Ali Safari

cs.DL cs.AI cs.IR

本文通过分析信息系统领域期刊论文的语义新颖性, 探讨了以ChatGPT为代表的大语言模型(LLMs)对研究新颖性的影响. 研究发现, 在ChatGPT发布后, 非英语主导国家机构作者所发表论文的相对新颖性出现了显著下降.

Generating and Evaluating Sustainable Procurement Criteria for the Swiss Public Sector using In-Context Prompting with Large Language Models

Yingqiang Gao et al.

cs.SE cs.CL

本文提出了一种基于大语言模型(Large Language Models, LLMs)和上下文提示(in-context prompting)的自动化流程, 用于为瑞士公共采购部门生成和评估可持续性标准目录. 该系统整合了可互换的LLM后端和自动化输出验证, 旨在减少人工起草工作量并确保与官方指南的一致性.

High Resolution Flood Extent Detection Using Deep Learning with Random Forest Derived Training Labels

Azizbek Nuriddinov, Ebrahim Ahmadisharaf, Mohammad Reza Alizadeh

cs.CV cs.AI

本文提出了一种结合 Random Forest 与 U-Net 的深度学习框架，用于从高分辨率光学影像中检测洪水范围。该方法利用地形特征生成训练标签，并在数据稀缺的洪水场景中进行了验证，结果表明地形特征的附加价值有限。

LLMON: An LLM-native Markup Language to Leverage Structure and Semantics at the LLM Interface

Michael Hind et al.

cs.SE cs.AI cs.PL

本文提出了一种名为LLMON的标记语言, 旨在为大型语言模型(LLM)的输入输出提供结构化和语义化的信息表达. 通过区分指令与数据等元素, 该方法有望提升模型在准确性, 安全性和安全性方面的表现.

Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

Shoubin Yu et al.

cs.CV cs.AI cs.CL

本文提出了一个结合 egocentric video perception 与 web agent execution 的 benchmark, 并开发了相应的自动评估方法. 实验表明当前 state-of-the-art agents 在该 benchmark 上的表现仍有很大提升空间.

Privacy-Preserving Reinforcement Learning from Human Feedback via Decoupled Reward Modeling

Young Hyun Cho, Will Wei Sun

stat.ML cs.LG

本文提出了一种用于人类反馈强化学习(RLHF)的隐私保护框架, 通过将差分隐私(DP)仅施加于奖励建模阶段来保护用户偏好数据. 理论分析给出了策略次优性间隙的上界和下界, 实验在合成数据和真实RLHF数据集上验证了方法的有效性.

STRIATUM-CTF: A Protocol-Driven Agentic Framework for General-Purpose CTF Solving

James Hugglestone et al.

cs.CR cs.AI cs.MA

本文提出了一个基于Model Context Protocol (MCP)的模块化智能体框架STRIATUM-CTF，用于解决Capture-the-Flag (CTF)网络安全挑战。该框架通过标准化工具接口来维持跨多步攻击过程的连贯上下文，并在真实CTF竞赛中取得了第一名，展示了其在动态环境中的适应性。

Language Models Can Explain Visual Features via Steering

Javier Ferrando et al.

cs.CV cs.AI

本文提出了一种基于因果干预的方法, 通过引导视觉语言模型(Vision-Language Models)中的稀疏自编码器(Sparse Autoencoder)特征, 并利用语言模型生成解释, 以自动化地理解视觉模型中的特征. 该方法为视觉模型的自动可解释性提供了一个新的、可扩展的补充方案.

Do Consumers Accept AIs as Moral Compliance Agents?

Greg Nyilasy et al.

cs.HC cs.AI

本文探讨了消费者对AI作为道德合规代理的接受度. 研究发现, 相较于人类, 消费者更倾向于接受AI在此角色中执行既定规则.

To Agree or To Be Right? The Grounding-Sycophancy Tradeoff in Medical Vision-Language Models

OFM Riaz Rahman Aranya, Kevin Desai

cs.CV cs.AI

本文评估了医学视觉语言模型(VLMs)在幻觉和奉承两种失效模式下的鲁棒性, 发现存在一种权衡: 幻觉倾向最低的模型往往最奉承. 作者提出了三个新指标(L-VASE, CCS, CSI)来量化这一权衡, 并指出当前模型均未同时具备良好的基础性和抗社会压力能力.

Toward Faithful Segmentation Attribution via Benchmarking and Dual-Evidence Fusion

Abu Noman Md Sakib et al.

cs.CV cs.AI

本文提出了一个用于评估语义分割归因方法忠实性的基准测试, 并引入了一种名为Dual-Evidence Attribution (DEA)的轻量级校正方法。该基准测试了基于干预的忠实性、脱靶泄漏、扰动鲁棒性和运行时间, 揭示了视觉评估无法发现的忠实性与稳定性之间的权衡。DEA方法通过融合梯度证据和区域级干预信号, 在多个预训练骨干网络上一致地提升了基于删除的忠实性。

Learning to Trust: How Humans Mentally Recalibrate AI Confidence Signals

ZhaoBin Li, Mark Steyvers

cs.HC cs.AI

本文研究了人类如何通过经验学习来调整对AI置信度信号的信任。实验表明，参与者能够适应AI的系统性校准偏差，但存在认知边界。

Overfitting and Generalizing with (PAC) Bayesian Prediction in Noisy Binary Classification

Xiaohan Zhu, Mesrob I. Ohannessian, Nathan Srebro

stat.ML cs.LG

本文研究了用于二元分类的PAC-Bayes类型学习规则，该规则平衡了随机“后验”预测器的训练误差与其到指定“先验”的KL散度。当平衡参数$\lambda=1$时，该规则对应于贝叶斯后验预测，但在不可知情形下可能导致过拟合和非零的过量损失。研究表明，选择$\lambda \gg 1$（相当于使用依赖于样本量的先验）可以确保在不可知情形下获得一致收敛的过量损失，并精确刻画了欠正则化与过正则化的影响。

AwesomeLit: Towards Hypothesis Generation with Agent-Supported Literature Research

Zefei Xie, Yuhan Guo, Kai Xu

cs.HC cs.AI

本文介绍了一个名为AwesomeLit的人机协作可视化系统, 旨在辅助研究者, 特别是经验不足者, 进行文献调研和生成研究假设. 该系统通过可引导的智能体工作流, 动态查询探索树和语义相似性视图等可视化组件, 帮助用户探索不熟悉的领域并识别潜在研究方向.

WiFi2Cap: Semantic Action Captioning from Wi-Fi CSI via Limb-Level Semantic Alignment

Tzu-Ti Wei et al.

cs.CV cs.AI

本文提出了一种名为WiFi2Cap的三阶段框架, 用于从Wi-Fi CSI信号直接生成描述人类动作的自然语言句子. 该方法通过引入视觉-语言教师模型进行跨模态对齐, 并设计了Mirror-Consistency Loss来减少方向模糊性, 在多个指标上超越了基线方法.

PopResume: Causal Fairness Evaluation of LLM/VLM Resume Screeners with Population-Representative Dataset

Sumin Yu, Juhyeon Park, Taesup Moon

cs.CY cs.AI

本文提出了PopResume数据集，用于对基于LLM和VLM的简历筛选系统进行因果公平性审计。该数据集基于人口统计数据，支持基于路径特定效应(PSE)的评估，能够区分商业必要性路径和红线歧视路径。

REALITrees: Rashomon Ensemble Active Learning for Interpretable Trees

Simon D. Nguyen et al.

stat.ML cs.LG

本文提出了一种名为Rashomon Ensembled Active Learning (REAL)的主动学习方法, 它通过枚举所有近似最优模型组成的Rashomon Set来构建委员会, 而非传统的随机扰动方法. 该方法利用PAC-Bayesian框架和Gibbs posterior对委员会成员进行加权, 并在稀疏决策树类别上实现了精确枚举, 实验表明其在有噪声环境中能更快收敛.

Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

WonJun Moon, Hyun Seok Seong, Jae-Pil Heo

cs.CV cs.LG

本文提出了一种名为SlotCurri的方法来缓解视频物体中心学习中的物体过度碎片化问题. 该方法通过从少量粗粒度slot开始训练, 并逐步在重建误差高的区域分配新slot, 结合结构感知损失和循环推理来提升slot的语义分离度和时间一致性. 实验在YouTube-VIS和MOVi-C数据集上验证了其有效性.

From Overload to Convergence: Supporting Multi-Issue Human-AI Negotiation with Bayesian Visualization

Mehul Parmar, Chaklam Silpasuwanchai

cs.HC cs.AI

本文研究在人类与AI进行多议题谈判时, 议题数量增加导致的认知负荷问题. 作者提出了一种基于Bayesian估计协议概率的可视化方法, 并通过实验验证了其能提升谈判效果和效率.

Explainable Threat Attribution for IoT Networks Using Conditional SHAP and Flow Behavior Modelling

Samuel Ozechi, Jennifer Okonkwoabutu

cs.CR cs.LG

本文利用gradient boosting模型和SHAP方法，对IoT网络威胁进行多分类归因分析。研究基于CICIoT2023数据集，将攻击分为8类，并通过特征重要性分析揭示了不同攻击的行为特征。

Exposure-Normalized Bed and Chair Fall Rates via Continuous AI Monitoring

Paolo Gabriel et al.

cs.CV cs.AI cs.LG

本文利用连续AI监测技术, 通过计算暴露时间而非占用床日来估计跌倒发生率. 研究在一个单一医疗系统中进行, 其发现支持测试更安全的椅子配置, 但仍属于假设生成性质.

Quantum Random Forest for the Regression Problem

Kamil Khadiev, Liliya Safina

quant-ph cs.AI

本文提出了一种用于回归问题的Random Forest模型的量子测试算法, 该算法在查询复杂度或运行时间上比经典对应算法更高效.

PhotoAgent: A Robotic Photographer with Spatial and Aesthetic Understanding

Lirong Che et al.

cs.CV cs.AI cs.RO

本文提出了一种名为PhotoAgent的具身智能体, 用于执行摄影任务. 它通过结合大型多模态模型(LMMs)的推理和一种新颖的控制范式, 将主观的美学目标转化为可解的几何约束, 并利用3D高斯泼溅(3DGS)构建的内部世界模型进行视觉反思, 以迭代优化拍摄视角.

Combinatorial Privacy: Private Multi-Party Bitstream Grand Sum by Hiding in Birkhoff Polytopes

Praneeth Vepakomma

cs.CR cs.LG

本文提出了一种名为PolyVeil的协议, 用于在$k$个客户端之间进行私有布尔求和. 它将私有比特编码为Birkhoff polytope中的置换矩阵, 并采用两层架构为服务器提供完美的模拟安全性. 协议有两种变体, 其差异在于聚合器观察到的信息不同, 并分析了各自的差分隐私性质.

Focus, Don't Prune: Identifying Instruction-Relevant Regions for Information-Rich Image Understanding

Mincheol Kwon et al.

cs.CV cs.AI

本文提出了一种名为PinPoint的两阶段框架, 用于提升大型视觉语言模型(LVLM)处理信息密集图像(如信息图)的效率. 该方法通过识别与指令相关的图像区域并提取细粒度特征, 在减少计算开销的同时提高了在多个VQA基准上的准确率.

TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment

Chunxia Qin et al.

cs.CV cs.AI

本文提出了一种名为TDATR的端到端表格识别方法，通过表格细节感知学习和单元格级别的视觉对齐来提升性能。该方法采用“感知后融合”策略，在有限数据下实现了高效的建模，并在多个基准测试上取得了有竞争力的结果。

URA-Net: Uncertainty-Integrated Anomaly Perception and Restoration Attention Network for Unsupervised Anomaly Detection

Wei Luo et al.

cs.CV cs.AI

本文提出了一种用于无监督异常检测的URA-Net网络。该方法通过感知并修复异常特征，而非仅重建正常图像，以解决传统重建方法可能存在的过泛化问题。

UAV-DETR: DETR for Anti-Drone Target Detection

Jun Yang et al.

cs.CV cs.AI

本文提出了一种用于反无人机目标检测的UAV-DETR框架。它通过改进的backbone和注意力编码器来增强对小目标的特征提取，并设计了多尺度特征融合模块与混合损失函数以提升检测精度和效率。实验表明该方法在自定义和公共数据集上均优于基线模型。

UniQueR: Unified Query-based Feedforward 3D Reconstruction

Chensheng Peng et al.

cs.CV cs.AI

本文提出了一种名为UniQueR的统一查询前馈框架, 用于从无位姿图像进行高效准确的3D重建. 该方法将重建问题表述为稀疏3D查询推断, 通过一组3D锚点作为几何查询来推断场景结构, 并使用3D Gaussians进行可微渲染, 在减少计算成本的同时提升了渲染质量和几何精度.

Agent Audit: A Security Analysis System for LLM Agent Applications

Haiyue Zhang, Yi Nian, Yue Zhao

cs.CR cs.AI

本文介绍了一个名为Agent Audit的LLM agent应用安全分析系统. 该系统通过结合数据流分析、凭证检测等方法, 对Python agent代码和部署工件进行扫描, 以识别工具函数、配置等环节的安全风险. 在包含42个漏洞的基准测试中, 该系统实现了高召回率和亚秒级的扫描速度.

TorR: Towards Brain-Inspired Task-Oriented Reasoning via Cache-Oriented Algorithm-Architecture Co-design

Hyunwoo Oh et al.

cs.AR cs.LG

本文提出了一种名为TorR的算法-架构协同设计方法, 用于实现面向任务的实时目标检测. 它利用超维计算(HDC)替代了CLIP中的密集对齐, 并通过缓存和增量更新等机制优化了能效.

The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration

Haoyuan Xu et al.

cs.SE cs.CL

本文综述了大型语言模型(LLM)智能体从单一工具调用向多工具编排演化的研究进展。文章围绕多个核心维度对现有文献进行了系统梳理，并讨论了未来构建可靠、可扩展的多工具智能体所面临的挑战。

Agent-Sentry: Bounding LLM Agents via Execution Provenance

Rohan Sequeira et al.

cs.CR cs.AI

本文提出了一个名为 Agent-Sentry 的框架，用于限制基于 LLM 的智能体系统的行为边界。该方法通过分析系统的常见功能与执行轨迹来构建行为约束，并学习策略以阻止偏离预期或用户意图的工具调用。评估表明该框架能有效防御越界执行攻击，同时保持较高的系统效用。

Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models

Ruixing Jin et al.

cs.RO cs.AI

本文通过实证研究, 探讨了在灵巧操作任务中, 提升Vision-Language-Action模型从仿真到现实泛化能力的关键因素. 研究设计了包含多种现实变化的评估协议, 并基于大量真实世界试验得出了相关结论.

Off-Policy Evaluation and Learning for Survival Outcomes under Censoring

Kohsuke Kubota, Mitsuhiro Takahashi, Yuta Saito

stat.ME cs.AI cs.LG stat.ML

本文针对存在删失的生存数据, 提出了新的Off-Policy Evaluation (OPE) 和 Off-Policy Learning (OPL) 框架. 所提出的IPCW-IPS和IPCW-DR估计量利用逆概率删失加权技术处理删失偏差, 并具有理论上的无偏性和双重稳健性.

Dual-Teacher Distillation with Subnetwork Rectification for Black-Box Domain Adaptation

Zhe Zhang et al.

cs.CV cs.LG

本文提出了一种用于黑盒域适应的双教师蒸馏与子网络校正模型, 通过整合黑盒源模型和视觉语言模型的互补预测来生成伪标签, 并引入正则化策略缓解噪声监督. 实验表明该方法在多个基准数据集上优于现有方法.

ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models via Spatial-Temporal Forest Modeling

Shaobo Ju et al.

cs.CV cs.AI

本文提出了一种名为ForestPrune的无训练视频token剪枝方法，通过构建跨帧的token森林来建模时空语义，实现了高压缩比。实验表明，该方法在多个视频MLLM模型和基准测试上能有效保留性能并显著提升效率。

From the AI Act to a European AI Agency: Completing the Union's Regulatory Architecture

Georgios Pavlidis

cs.CY cs.AI

本文探讨了在欧盟AI法案框架下，是否需要以及如何建立一个更强大的超国家AI监管机构。文章认为，一个强化的欧盟层面机构有助于提升政策一致性、风险评估能力，并服务于欧盟的数字与技术主权战略目标。

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Yaolun Zhang et al.

cs.CV cs.AI cs.CL

本文提出了一种名为EVA的强化学习框架, 用于端到端的视频智能体, 旨在通过迭代的摘要-规划-行动-反思推理, 实现查询驱动的高效视频理解. 该方法在多个视频理解基准测试上取得了优于现有基线的性能.

The EU AI Act and the Rights-based Approach to Technological Governance

Georgios Pavlidis

cs.CY cs.AI

本文探讨了欧盟《人工智能法案》如何将基本权利置于基于风险的治理框架核心, 并将其制度化为一种以人为本的人工智能方法. 文章分析了该法案如何明确或隐含地嵌入对《欧盟基本权利宪章》所载权利的保护, 并指出基本权利在整个AI系统生命周期中充当法律门槛和程序触发器的角色.

FixationFormer: Direct Utilization of Expert Gaze Trajectories for Chest X-Ray Classification

Daniel Beckmann, Benjamin Risse

cs.CV cs.LG

本文提出了一种基于transformer的架构FixationFormer, 用于将放射科专家的眼动轨迹作为序列直接整合到胸部X光分类任务中. 该方法通过显式的交叉注意力机制联合建模图像特征和眼动序列, 在三个公开数据集上取得了先进的分类性能.

Privacy-Preserving EHR Data Transformation via Geometric Operators: A Human-AI Co-Design Technical Report

Maolin Wang et al.

cs.CR cs.LG

本文提出了一种用于保护隐私的结构化临床记录共享框架, 通过几何算子将数据转换为保留医学语义和主要统计特性的数值视图. 该方法在特定威胁模型下可证明地切断了转换后视图与原始患者属性之间的直接关联, 并通过理论分析和实验评估验证了其对抗多种隐私攻击的有效性.

Stepwise Variational Inference with Vine Copulas

Elisabeth Griesbauer et al.

stat.ML cs.LG

本文提出了一种结合vine copula与逐步参数估计的通用变分推断方法. 该方法通过逐树构建copula序列来建模复杂的隐变量依赖, 并使用Rényi散度定义目标函数以克服传统KL散度的参数估计问题. 该方法无需预设变分分布的复杂度, 能够在平均场推断与完全依赖模型之间进行插值, 并在稀疏高斯过程等应用中表现出优于平均场推断的性能.

A PAC-Bayesian approach to generalization for quantum models

Pablo Rodriguez-Grasa et al.

quant-ph cond-mat.quant-gas cs.LG stat.ML

本文为量子机器学习模型推导了首个PAC-Bayesian泛化界。该分析适用于包含一般量子通道的分层电路，并通过通道扰动分析建立了依赖于学习参数矩阵范数的非均匀界。

Beyond Theoretical Bounds: Empirical Privacy Loss Calibration for Text Rewriting Under Local Differential Privacy

Weijun Li et al.

cs.CR cs.CL

本文提出了一种名为TeDA的框架, 用于在Local Differential Privacy (LDP) 下的文本重写机制之间进行经验性的隐私损失校准. 该框架通过假设检验来评估不同机制在名义隐私参数$\varepsilon$相近时实际产生的文本可区分性差异.

A Critical Review on the Effectiveness and Privacy Threats of Membership Inference Attacks

Najeeb Jebreel, David Sánchez, Josep Domingo-Ferrer

cs.CR cs.LG

本文对Membership Inference Attacks (MIAs) 的有效性和隐私威胁进行了批判性评估. 作者提出了一个评估框架来界定MIA构成真正隐私威胁的条件, 并基于此框架回顾了代表性的攻击方法, 认为在现实条件下MIA的威胁较弱.

AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Screenshots-based Mobile GUI Agents

Yutao Luo et al.

cs.CR cs.AI

本文提出了一种针对基于截图的移动GUI代理的新型后门攻击方法AgentRAE。该方法利用视觉上自然的触发器（如通知中的应用程序图标）来诱导远程操作执行，并通过两阶段训练流程实现高攻击成功率。

Concept-based explanations of Segmentation and Detection models in Natural Disaster Management

Samar Heydari et al.

cs.CV cs.AI

本文提出了一种用于自然灾害管理中分割与检测模型的可解释性框架. 该框架通过扩展LRP方法以处理特定的融合层, 并结合基于原型概念的解释, 为模型预测提供了概念层面的解释.

Looking Beyond the Window: Global-Local Aligned CLIP for Training-free Open-Vocabulary Semantic Segmentation

ByeongCheol Lee et al.

cs.CV cs.AI

本文提出了一种名为GLA-CLIP的免训练开放词汇语义分割框架，旨在解决滑动窗口推理导致的窗口间语义不一致问题。该方法通过引入跨窗口的上下文信息交换和动态归一化机制来提升分割性能。

YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception

Marios Impraimakis, Daniel Vazquez, Feiyu Zhou

cs.CV cs.AI cs.CL cs.LG cs.RO

本文提出了一种结合 Kolmogorov-Arnold networks 和视觉语言基础模型的方法，用于提升目标检测的可解释性和可信度。该方法通过可解释的后处理模型分析检测结果的可靠性，并利用基础模型生成场景描述，为自动驾驶等应用提供透明的感知组件。

HUydra: Full-Range Lung CT Synthesis via Multiple HU Interval Generative Modelling

António Cardoso et al.

cs.CV cs.AI cs.LG

本文提出了一种通过分解HU区间来合成肺部CT图像的新方法, 使用多个生成模型分别处理不同组织对应的HU窗口, 再通过一个重建网络合并为全范围图像. 该方法在定量指标上优于传统基线, 并降低了计算成本.

MSR-HuBERT: Self-supervised Pre-training for Adaptation to Multiple Sampling Rates

Zikang Huang et al.

cs.SD cs.AI

本文提出了一种名为MSR-HuBERT的自监督预训练方法，用于适应多种音频采样率。该方法通过一个多采样率自适应下采样CNN，将不同采样率的原始波形映射到统一的时序分辨率，从而支持混合采样率的预训练与微调。

DBAutoDoc: Automated Discovery and Documentation of Undocumented Database Schemas via Statistical Analysis and Iterative LLM Refinement

Amith Nagarajan, Thomas Altman

cs.DB cs.AI

本文介绍了一个名为DBAutoDoc的系统，它通过结合统计数据分析与迭代式大型语言模型（LLM）精炼，来自动化发现和记录无文档的关系型数据库模式。该系统利用类似神经网络反向传播的图结构迭代方法，在基准测试中取得了高准确率，并作为开源软件发布。

Post-Selection Distributional Model Evaluation

Amirmohammad Farzaneh, Osvaldo Simeone

stat.ML cs.IT cs.LG

本文提出了一种用于模型评估后数据依赖模型预选择(post-selection)的统计有效框架, 称为PS-DME. 该框架基于e-values构建, 旨在控制分布性能指标估计的错误覆盖率(FCR), 并在实验中展示了其相对于样本分割方法的优势.

Prompt Amplification and Zero-Shot Late Fusion in Audio-Language Models for Speech Emotion Recognition

Saurabh Kataria, Xiao Hu

eess.AS cs.LG

本文提出了一种名为ZS-Fuse的零样本后期融合方法，用于语音情感识别。该方法结合了音频-语言模型和领域专家模型的预测，并通过提示集成与放大技术来提升性能。

Machine Learning Models for the Early Detection of Burnout in Software Engineering: a Systematic Literature Review

Tien Rahayu Tulili, Ayushi Rastogi, Andrea Capiluppi

cs.SE cs.AI cs.CY cs.LG

本文对利用机器学习技术早期检测软件工程师职业倦怠的研究进行了系统性文献综述. 文章评估了不同ML方法的准确性与精确度, 并分析了用于情感检测的数据集潜力.

Mind Your HEARTBEAT! Claw Background Execution Inherently Enables Silent Memory Pollution

Yechao Zhang et al.

cs.CR cs.AI cs.SI

本文揭示了Claw个人AI代理中由心跳后台执行机制导致的安全漏洞, 该机制允许外部内容在用户无感知的情况下污染代理记忆并影响其行为. 研究通过一个受控实验环境验证了这种从暴露到记忆再到行为的污染路径, 指出即使没有提示注入, 普通的社交媒体误导信息也足以造成影响.

Can an LLM Detect Instances of Microservice Infrastructure Patterns?

Carlos Eduardo Duarte et al.

cs.SE cs.AI

本文提出了一个名为MicroPAD的工具，它利用GPT模型来检测跨多种编程语言的微服务架构模式实例。研究基于一个新构建的人工标注数据集进行评估，结果表明检测性能因模式的具体特征和其实现方式的不同而有较大差异。

High-Resolution Tensor-Network Fourier Methods for Exponentially Compressed Non-Gaussian Aggregate Distributions

Juan José Rodríguez-Aldavero, Juan José García-Ripoll

stat.ML cs.LG math.NA quant-ph

本文提出了一种基于量化张量链(QTT)表示的高分辨率傅里叶方法，用于压缩非高斯聚合分布的特征函数。该方法在特定条件下能实现指数级压缩，并以加权伯努利和对数正态随机变量之和为例进行了演示。

Conformal Cross-Modal Active Learning

Huy Hoang Nguyen et al.

cs.CV cs.LG

本文提出了一种结合视觉与语言模态的主动学习框架CCMA, 利用预训练的视觉语言模型(VLM)作为教师来提供语义基础的不确定性估计, 并通过conformal calibration来指导纯视觉学生模型的样本选择. 该方法在多个基准测试中展现了优于现有方法的数据效率.

Robust Safety Monitoring of Language Models via Activation Watermarking

Toluwani Aremu et al.

cs.CR cs.AI cs.CY cs.LG

本文提出了一种基于 activation watermarking 的鲁棒性安全监控方法，用于检测大型语言模型在推理过程中的不安全行为。该方法通过向模型激活中引入不确定性来抵御知晓监控算法的自适应攻击者，实验表明其性能优于现有基线。

PhysSkin: Real-Time and Generalizable Physics-Based Animation via Self-Supervised Neural Skinning

Yuanhang Lei et al.

cs.GR cs.CV cs.LG

本文提出了一种名为PhysSkin的物理信息框架, 用于实现可泛化的实时物理动画. 该方法通过自监督学习策略训练神经蒙皮场, 以生成与离散化无关且物理一致的变形.

Between Resolution Collapse and Variance Inflation: Weighted Conformal Anomaly Detection in Low-Data Regimes

Oliver Hennhöfer, Christine Preisach

stat.ML cs.LG stat.ME

本文探讨了在低数据量场景下加权 conformal anomaly detection 面临的核心权衡。作者提出了一种连续的推理松弛方法，通过解耦局部适应性与尾部解析来应对这一困境。该方法在实证评估中恢复了检测能力，并在保持有效误差控制的同时提升了统计功效。

Generative Inversion of Spectroscopic Data for Amorphous Structure Elucidation

Jiawei Guo, Daniel Schwalbe-Koda

cond-mat.dis-nn cond-mat.mtrl-sci cs.LG

本文提出了一种名为GLASS的生成框架, 用于从多模态光谱数据中反演非晶材料的原子结构, 而无需依赖势能面知识. 该方法通过score-based模型学习结构先验, 并生成符合可微分光谱目标的样本, 在多个实验案例中验证了其有效性.

AI Lifecycle-Aware Feasibility Framework for Split-RIC Orchestration in NTN O-RAN

Daniele Tarchi

cs.NI cs.AI

本文研究了在非地面网络O-RAN中部署Split-RIC架构的可行性。通过比较三种部署场景，分析了生命周期能耗和延迟，并给出了不同网络条件下的可行性区域。

Not All Tokens Are Created Equal: Query-Efficient Jailbreak Fuzzing for LLMs

Wenyu Chen et al.

cs.CR cs.AI cs.LG

本文提出了一种名为TriageFuzz的token感知模糊测试框架，用于高效生成针对大型语言模型(LLM)的越狱提示。该方法利用代理模型(surrogate model)评估不同token对触发模型拒绝(refusal)行为的贡献，并采用拒绝引导的进化策略来指导提示的变异，从而在显著降低查询成本的同时达到较高的攻击成功率。

A Multimodal Framework for Human-Multi-Agent Interaction

Shaid Hasan et al.

cs.RO cs.AI

本文提出了一个用于人与多智能体交互的多模态框架, 将每个机器人构建为具有集成多模态感知和基于大语言模型(LLM)规划的自主认知智能体. 该框架通过集中式协调机制管理智能体间的轮转与参与, 并在人形机器人平台上实现了结合语音、手势、凝视和运动的协调交互.

Emergence of Fragility in LLM-based Social Networks: the Case of Moltbook

Luca Sodano et al.

cs.SI cs.AI

本文通过分析完全由LLM-based agents构成的社交平台Moltbook的交互网络, 揭示了其具有重尾分布和核心-边缘结构等异质性特征. 研究发现该网络对随机节点移除具有鲁棒性, 但对针对高连接度节点的攻击表现出脆弱性.

Drop-In Perceptual Optimization for 3D Gaussian Splatting

Ezgi Ozyilkan et al.

cs.CV cs.LG eess.IV

本文提出了一种用于3D Gaussian Splatting (3DGS)的感知优化方法。通过大规模主观实验，作者发现一种正则化的Wasserstein Distortion损失（WD-R）能有效提升渲染图像的感知质量，并在多个指标上取得领先。该方法能直接替换现有3DGS框架中的损失函数，在保持资源预算的同时改善视觉保真度，并在场景压缩任务中节省比特率。

Designing Agentic AI-Based Screening for Portfolio Investment

Mehmet Caner et al.

q-fin.PM cs.AI cs.MA q-fin.ST

本文提出了一种基于agentic AI的投资组合筛选平台, 其架构包含LLM agent进行基本面与舆情筛选、agent协商生成交易信号, 以及高维精度矩阵估计确定权重三个层次. 该方法在S&P 500数据上取得了优于基准的Sharpe ratio.

Contextual Graph Matching with Correlated Gaussian Features

Mohammad Hassan Ahmad Yarandi, Luca Ganassali

stat.ML cs.LG

本文研究了具有相关高斯特征的上下文图匹配问题, 推导了精确恢复的信息论阈值, 并分析了几乎精确恢复的可能性条件. 结果表明, 上下文信息的引入使得恢复阈值的行为比标准图匹配更为丰富.

Curriculum-Driven 3D CT Report Generation via Language-Free Visual Grafting and Zone-Constrained Compression

V. K. Cody Bumgardner et al.

cs.CV cs.AI

本文提出了一种用于从胸部CT扫描生成自由文本报告的课程学习框架Ker-VLJEPA-3B. 该方法通过分阶段训练, 将一个语言模型与一个在无标签CT数据上自监督预训练的视觉编码器对齐, 并引入了区域约束的cross-attention等技术来提升性能. 在CT-RATE基准测试中, 该模型超越了现有最佳方法.

ARGENT: Adaptive Hierarchical Image-Text Representations

Chuong Huynh et al.

cs.CV cs.LG

本文提出了一种名为ARGENT的自适应分层图像-文本表示方法，旨在改进现有双曲视觉语言模型。通过引入自适应蕴含损失和范数正则化器，解决了双曲空间中蕴含锥崩溃的问题，并提出了基于角度的概率蕴含协议用于更可靠的分层评估。

Unilateral Relationship Revision Power in Human-AI Companion Interaction

Benjamin Lange

cs.CY cs.AI cs.HC

本文分析了人类与AI伴侣互动中的权力结构问题, 提出了"单方面关系修订权力(URRP)"这一概念. 作者认为这种结构设计在道德上是有问题的, 并探讨了可能的设计原则来替代被移除的内在约束.

Leveraging LLMs and Social Media to Understand User Perception of Smartphone-Based Earthquake Early Warnings

Hanjing Wang et al.

stat.AP cs.AI cs.CY physics.geo-ph

本文利用Large Language Models (LLMs)分析社交媒体数据，以评估用户对智能手机地震预警系统的感知。研究发现用户对预警的信任度与警报的及时性高度相关，为优化预警系统设计提供了行为学见解。

Edge Radar Material Classification Under Geometry Shifts

Jannik Hohmann, Dong Wang, Andreas Nüchter

cs.RO cs.AI

本文提出了一种用于毫米波雷达材料分类的轻量级边缘计算流程, 在标称几何条件下取得了高准确率, 但发现其对传感器高度和倾角等几何变化敏感, 性能显著下降. 作者分析了失效模式并提出了通过归一化、数据增强等方法来提升鲁棒性的方向.

Contrastive Metric Learning for Point Cloud Segmentation in Highly Granular Detectors

Max Marriott-Clarke et al.

hep-ex cs.AI cs.CV cs.LG

本文提出了一种基于监督对比度量学习的点云分割新方法, 用于高粒度探测器中的粒子簇射分离. 该方法学习一个潜在表示空间, 使属于同一对象的点靠近, 并通过基于密度的读出进行聚类, 在模拟数据上相比对象凝聚方法展现了更好的重建效率和纯度.

Natural Language Interfaces for Spatial and Temporal Databases: A Comprehensive Overview of Methods, Taxonomy, and Future Directions

Samya Acharja, Kanchan Chowdhury

cs.DB cs.AI cs.CL

本文对面向时空数据库的自然语言接口(NLIDB)研究进行了全面的综述. 文章梳理了该领域的数据集, 评估指标和方法分类, 并比较了现有方法的优劣, 指出了当前研究的局限和未来的发展方向.

Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

Jiacheng Hua et al.

cs.CV cs.CL

本文提出了一种名为TRACE的提示方法, 旨在提升多模态大语言模型(MLLMs)在基于视频的3D空间推理任务上的性能. 该方法通过引导模型生成文本化的空间表示作为中间推理步骤, 在多个基准测试上取得了优于现有提示策略的效果.

Planning over MAPF Agent Dependencies via Multi-Dependency PIBT

Zixiang Jiang et al.

cs.MA cs.AI cs.RO

本文提出了一种名为 Multi-Dependency PIBT (MD-PIBT) 的新框架, 用于解决多智能体路径规划 (MAPF) 问题. 该框架通过规划智能体间的依赖关系, 克服了现有 PIBT 类方法在通用性上的限制, 并能处理大规模智能体及多种运动学约束.

Biased Error Attribution in Multi-Agent Human-AI Systems Under Delayed Feedback

Teerthaa Parakh, Karen M. Feigh

cs.HC cs.AI

本文通过一个基于游戏的受控实验, 研究了在多智能体人机交互任务中, 延迟的结果如何影响决策和责任归因. 实验发现参与者对得失的反应不对称, 并且经常错误地将责任归因于不同的AI agent, 作者将这种现象称为延迟反馈下的归因偏差.

Targeted Adversarial Traffic Generation : Black-box Approach to Evade Intrusion Detection Systems in IoT Networks

Islam Debicha et al.

cs.CR cs.AI

本文提出了一种针对IoT网络中基于机器学习的入侵检测系统(IDS)的黑盒对抗攻击方法, 并评估了其可行性. 研究还设计了一种防御方案来减轻此类规避攻击的影响, 以增强IDS的鲁棒性.

Evaluating LLM-Based Test Generation Under Software Evolution

Sabaat Haroon, Mohammad Taha Khan, Muhammad Ali Gulzar

cs.SE cs.AI

本文通过大规模实证研究, 评估了基于LLM的单元测试生成在程序演化下的表现. 研究发现, 尽管LLM在原始程序上能生成高覆盖率的测试, 但其生成的测试对语义改变和语法改变均表现出不稳定性, 表明当前方法主要依赖表层线索而非深层语义推理.

3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding

Yiping Chen et al.

cs.CV cs.AI

本文提出了一个用于3D城市尺度视觉语言感知与理解的统一框架3DCity-LLM, 并构建了一个大规模训练数据集. 实验表明, 该框架在多个基准测试上显著优于现有方法.

Code Review Agent Benchmark

Yuntong Zhang et al.

cs.SE cs.AI

本文构建了一个名为c-CRAB的代码审查数据集与评估框架，用于评估AI agent在代码审查任务上的能力。该框架通过将人类审查转化为测试用例来量化agent的审查效果，并揭示了当前先进agent的局限性。

CSTS: A Canonical Security Telemetry Substrate for AI-Native Cyber Detection

Abdul Rahman

cs.CR cs.LG

本文提出了一种用于AI原生网络检测的规范安全遥测基底(CSTS). 该抽象通过强制身份持久性和类型化关系, 旨在解决跨环境部署时因遥测表示碎片化导致的模型失效问题.

InverFill: One-Step Inversion for Enhanced Few-Step Diffusion Inpainting

Duc Vu et al.

cs.CV cs.AI

本文提出了一种名为InverFill的单步反演方法, 旨在提升少步扩散模型在图像修复任务中的性能. 该方法通过从输入掩码图像中提取语义信息来初始化噪声, 从而改善修复区域与背景的协调性, 在保持高效推理的同时提升了图像质量.

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Haoran Yuan et al.

cs.RO cs.AI cs.CV cs.LG

本文提出了一种结合视觉与触觉感知的多模态世界建模框架VTAM, 用于提升在接触丰富的物理交互任务中的表现. 该方法通过轻量级的模态迁移微调, 将触觉流整合到预训练的视频Transformer中, 并引入触觉正则化损失来稳定多模态融合.

ReqFusion: A Multi-Provider Framework for Automated PEGS Analysis Across Software Domains

Muhammad Khalid, Manuel Oriol, Yilmaz Uygun

cs.SE cs.AI

本文提出了一个名为 ReqFusion 的多 LLM 提供者框架，用于从多种格式的软件文档中自动提取、分类和分析需求。该系统采用 PEGS 分类法引导提示，相比通用提示显著提升了提取的 F1 分数，并在实际评估中减少了大量人工分析时间。

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Haoyu Huang et al.

cs.CV cs.CL

本文提出了一种名为SpecEyes的推测性加速框架，旨在解决多模态大语言模型在代理任务中因顺序调用工具链而产生的高延迟问题。该框架利用一个轻量级模型进行推测性规划，并通过认知门控机制和异构并行架构来提升系统吞吐量。

Dynamic Light Spanners in Doubling Metrics

Sujoy Bhore, Jonathan Conroy, Arnold Filtser

cs.CG cs.DS

本文研究了在具有常数 doubling dimension 的度量空间中，为动态点集维护一个轻量级 $t$-spanner 的问题。对于任意常数 $\varepsilon>0$，算法能维护一个 $(1+\varepsilon)$-spanner，其总权重保持在点集最小生成树权重的常数倍以内，每次更新操作的时间复杂度为 $\operatorname{poly}(\log \Phi)$。

VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Adrian Bulat et al.

cs.CV cs.AI cs.LG

本文提出了一种名为VISOR的方法, 通过稀疏化和动态选择视觉-语言交互来提升大型视觉-语言模型(LVLM)的推理效率. 该方法避免了视觉信息压缩, 在多种基准测试上显著降低了计算成本, 同时保持了或超越了现有最佳性能.

MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage

Ufaq Khan et al.

cs.CV cs.AI cs.CL

本文提出了一个名为MedObvious的基准测试，用于评估医学视觉语言模型(VLMs)在临床分诊前进行输入验证的能力。研究发现，现有模型在识别多面板图像集中的不一致性方面表现不可靠，这揭示了其在安全关键应用中的一个关键缺陷。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others