bluearXiv-ai - 2026-03-06

📄 所有论文 ↑ 回顶部

cs.LG

Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning ⭐ 精选

Haoyue Dai et al.

cs.LG stat.ML

本文针对线性非高斯潜变量循环因果模型, 建立了分布等价性的完整图论判据, 即两个具有任意潜变量结构和循环的图在何时会诱导出相同的观测分布集合. 其核心贡献是引入了边秩约束这一新工具, 填补了更广泛潜变量因果发现的理论工具空白. 基于此等价性刻画, 作者进一步提出了遍历整个等价类的过程, 并开发了从数据中恢复模型(至等价类)的算法, 这被认为是首个在无结构假设的参数化设置下对含潜变量模型的等价性描述及发现方法.

Decorrelating the Future: Joint Frequency Domain Learning for Spatio-temporal Forecasting

Zepu Wang, Bowen Liao, Jeff

cs.LG cs.AI stat.ML

本文提出了一种用于时空预测的频率增强训练目标 FreST Loss, 它通过 Joint Fourier Transform 将监督扩展到联合时空谱域, 以更好地捕获图结构信号中的复杂依赖关系. 实验表明该方法是模型无关的, 并能持续提升现有基线的性能.

Machine Learning for Complex Systems Dynamics: Detecting Bifurcations in Dynamical Systems with Deep Neural Networks

Swadesh Pal, Roderick Melnik

cs.LG math.DS q-bio.NC stat.ML

本文提出了一种名为 equilibrium-informed neural networks (EINNs) 的深度学习方法，用于从候选平衡态反推系统参数，从而检测复杂动力系统中的临界转变。该方法为高维非线性系统中的分岔检测提供了一种灵活的替代方案。

FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir

cs.LG cs.AI cs.CE cs.DC

本文提出了一种名为FedEMA-Distill的联邦学习方法，通过结合指数移动平均模型与基于代理数据集的知识蒸馏来提升鲁棒性。该方法在非独立同分布数据和存在对抗性客户端的情况下，有效减少了通信开销并提高了模型精度。

Delta-Crosscoder: Robust Crosscoder Model Diffing in Narrow Fine-Tuning Regimes

Aly Kassem et al.

cs.LG cs.AI

本文提出了一种名为 Delta-Crosscoder 的模型差异分析方法，用于在窄域微调场景下更鲁棒地识别模型内部表征的变化。该方法结合了稀疏化技术和基于差异的损失函数，在多个模型和任务上的评估表明其能有效定位导致行为变化的潜在方向。

Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection

Hengshuai Yao, Guan Wang

cs.LG cs.AI

本文提出了一种非对称的注意力机制, 通过降低key的维度来减少KV缓存. 实验表明, 在多种模型和任务上, 该方法能以微小的性能损失换取显著的缓存节省.

Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices

Yakov Pyotr Shkolnikov

cs.LG cs.AI

本文提出了一种用于边缘设备上多智能体LLM推理的持久化Q4 KV缓存系统. 该系统通过将KV缓存量化并持久化到磁盘, 避免了缓存逐出时的重复预填充计算, 显著提升了首个令牌的生成速度.

Flowers: A Warp Drive for Neural PDE Solvers

Till Muser et al.

cs.LG

本文提出了一种名为Flowers的神经架构, 用于学习PDE solution operators. 该架构完全基于multihead warps构建, 避免了使用Fourier multipliers, dot-product attention和convolutional mixing, 并通过预测位移场和warping输入特征来实现高效的全局交互. 在多个2D和3D时间依赖PDE基准测试中, 特别是在flows和waves问题上, 该模型表现出色, 其紧凑版本在参数量相近的情况下超越了多种基线模型.

Uncertainty-Calibrated Spatiotemporal Field Diffusion with Sparse Supervision

Kevin Valencia et al.

cs.LG cs.AI

本文提出了一个名为SOLID的mask-conditioned diffusion框架, 用于从稀疏的时空观测数据中学习和重建物理场. 该方法通过一种dual-masking目标进行端到端训练, 无需依赖密集的再分析数据或模拟数据, 并能够生成与稀疏测量一致的全场后验样本及其校准的不确定性.

ZorBA: Zeroth-order Federated Fine-tuning of LLMs with Heterogeneous Block Activation

Chuiyang Meng, Ming Tang, Vincent W.S. Wong

cs.LG cs.AI

本文提出了一种基于 zeroth-order optimization 的联邦微调框架 ZorBA, 通过 heterogeneous block activation 机制和共享随机种子等技术, 旨在降低客户端 VRAM 使用和通信开销. 理论分析和实验结果表明, 该方法在资源效率方面优于现有基线.

ASFL: An Adaptive Model Splitting and Resource Allocation Framework for Split Federated Learning

Chuiyang Meng, Ming Tang, Vincent W.S. Wong

cs.LG cs.AI

本文提出了一种用于无线网络的自适应分割联邦学习框架, 通过利用服务器资源训练部分模型并进行自适应模型分割与资源分配, 以优化训练延迟和能耗. 实验表明该框架相比基线方法能显著减少延迟和能耗.

An Explainable Ensemble Framework for Alzheimer's Disease Prediction Using Structured Clinical and Cognitive Data

Nishan Mitra

cs.LG cs.AI

本文提出了一个用于阿尔茨海默病预测的可解释集成学习框架, 使用了多种集成算法和深度神经网络. 该框架通过特征工程和类别平衡技术提升了模型性能, 并利用SHAP等方法进行可解释性分析.

On Emergences of Non-Classical Statistical Characteristics in Classical Neural Networks

Hanyu Zhao, Yang Wu, Yuexian Hou

cs.LG cs.AI quant-ph

本文提出了一种名为NCnet的经典神经网络架构, 该架构在典型实验设置下能稳定地展现出非经典统计行为. 研究发现, 由CHSH不等式的$S$统计量所度量的非经典性, 源于多任务共享的隐藏层神经元之间的梯度竞争.

Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering

Yiqun Zhang et al.

cs.LG cs.AI

本文提出了一种名为HARR的新学习范式, 用于混合属性数据的聚类. 该方法通过将异构属性投影到统一的可学习空间来学习距离度量, 并集成了聚类过程以自适应不同的任务.

VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling

Chen Guanzhong

cs.LG cs.AI

本文提出了一种名为VSPrefill的稀疏注意力机制，用于加速长上下文大语言模型预填充阶段的推理。该方法通过一个轻量级的索引模块预测注意力模式，在不修改主干参数的情况下实现了线性复杂度，在保持高准确率的同时显著提升了处理速度。

MAD-SmaAt-GNet: A Multimodal Advection-Guided Neural Network for Precipitation Nowcasting

Samuel van Wonderen, Siamak Mehrkanoon

cs.LG cs.AI

本文提出了一种用于降水临近预报的多模态平流引导神经网络 MAD-SmaAt-GNet. 它在 SmaAt-UNet 基础上, 通过引入多模态天气变量编码器和基于物理的平流模块来提升预测的准确性和物理一致性.

Understanding the Dynamics of Demonstration Conflict in In-Context Learning

Difan Jiao, Di Wang, Lijie Hu

cs.LG cs.AI

本文研究了大型语言模型在上下文学习中处理冲突示例时的内部机制. 通过线性探测和logit lens分析, 发现模型在中间层会同时编码正确和错误的规则, 而在后期层才形成预测置信度.

Towards Explainable Deep Learning for Ship Trajectory Prediction in Inland Waterways

Tom Legel et al.

cs.LG cs.AI

本文提出了一种基于LSTM和可学习ship domain参数的船舶轨迹预测模型，旨在提升内陆水道场景下预测的可解释性。模型性能与同类研究相当，但分析发现其注意力权重与预期不符，表明准确性提升并非完全源于因果推理。

Activity Recognition from Smart Insole Sensor Data Using a Circular Dilated CNN

Yanhua Zhao

cs.LG cs.AI

本文提出了一种基于circular dilated CNN的智能鞋垫活动识别系统, 处理多模态时间序列数据. 模型在四分类任务上取得了与XGBoost相当的准确率, 并分析了不同传感器的贡献度.

Standing on the Shoulders of Giants: Rethinking EEG Foundation Model Pretraining via Multi-Teacher Distillation

Chenqi Li et al.

cs.LG

本文提出了一种通过多教师蒸馏来预训练EEG基础模型的新框架MTDP. 该方法利用来自视觉和时间序列等成熟模态的预训练模型作为教师, 通过两阶段蒸馏将知识迁移到EEG模型中. 实验表明, 该方法在多个下游任务上优于传统的自监督预训练方法, 且所需预训练数据更少.

Augmenting representations with scientific papers

Nicolò Oreste Pinciroli Vago et al.

cs.LG astro-ph.IM cs.AI

本文提出了一种对比学习框架, 用于对齐X-ray spectra与从科学文献中提取的领域知识. 该方法在从光谱检索相关文本的任务上取得了较好的性能, 并提升了多个物理变量的估计精度.

Invariant Causal Routing for Governing Social Norms in Online Market Economies

Xiangning Yu et al.

cs.LG cs.AI cs.CY

本文提出了一个名为 Invariant Causal Routing (ICR) 的因果治理框架，用于理解和引导在线市场经济中涌现的社会规范。该方法结合了反事实推理和不变因果发现，旨在识别跨异质环境稳定的政策-规范关系，并生成可解释的规则。在基于真实数据的异质智能体模拟中，ICR 相比基线方法能产生更稳定的规范和更小的泛化差距。

An LLM-Guided Query-Aware Inference System for GNN Models on Large Knowledge Graphs

Waleed Afandi et al.

cs.LG cs.DB

本文提出了一种名为KG-WISE的查询感知推理系统，用于在大型知识图谱上加速GNN推理。该系统通过分解GNN模型并结合LLM生成的查询模板，实现了按需加载模型组件和子图，从而显著提升了推理速度和降低了内存占用。

Oracle-efficient Hybrid Learning with Constrained Adversaries

Princewill Okoroafor, Robert Kleinberg, Michael P. Kim

cs.LG stat.ML

本文针对Hybrid Online Learning问题, 提出了一种在给定ERM oracle条件下高效的算法. 该算法适用于对抗者标签生成受限于一个固定函数类$R$的结构化场景, 其regret与由假设类$H$和标签类$R$导出的类的Rademacher复杂度相关.

Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

Tal Daniel et al.

cs.LG

本文提出了Latent Particle World Model (LPWM), 一种用于无监督学习场景分解和随机动力学的世界模型. 该模型能够从视频中自动发现关键点, 边界框和物体掩码, 并支持基于动作, 语言和图像目标的灵活条件生成.

Why Do Neural Networks Forget: A Study of Collapse in Continual Learning

Yunqin Zhu, Jun Jin

cs.LG cs.AI

本文通过测量权重和激活的effective rank(eRank)来研究持续学习中灾难性遗忘与结构坍缩之间的关联. 在多个模型和训练策略上的实验表明, 遗忘与坍缩之间存在强相关性, 不同的持续学习策略以不同效率帮助模型保持容量和性能.

A Late-Fusion Multimodal AI Framework for Privacy-Preserving Deduplication in National Healthcare Data Environments

Mohammed Omer Shakeel Ahmed

cs.LG

本文提出了一种用于隐私保护去重的多模态AI框架, 通过融合文本语义、行为模式和设备元数据来识别重复记录, 并在模拟数据集上验证了其有效性. 该方法旨在为受隐私法规限制的数据环境提供一种不依赖敏感信息的解决方案.

PDE foundation model-accelerated inverse estimation of system parameters in inertial confinement fusion

Mahindra Rautela et al.

cs.LG physics.plasm-ph

本文利用预训练的PDE foundation model来解决惯性约束聚变中的系统参数反演问题。通过微调模型并训练一个轻量级任务头，该工作实现了对高光谱图像的重建和系统参数的准确回归。

K-Means as a Radial Basis function Network: a Variational and Gradient-based Equivalence

Felipe de Jesus Felix Arredondo, Alejandro Ucan-Puc, Carlos Astengo Noguez

cs.LG math.ST stat.ML

本文建立了K-Means算法与可微RBF神经网络之间的变分和梯度等价性。通过重新参数化目标函数，证明了当温度参数趋近于零时，RBF目标函数$\Gamma$-收敛到K-Means解。研究还表明，在极限情况下，基于梯度的中心更新规则与K-Means的质心更新规则一致。

When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift

Kevin Vogt-Lowell et al.

cs.LG cs.AI

本文研究了在传感器持续故障导致部分可观测性和表示偏移的情况下, 如何增强 Proximal Policy Optimization (PPO) 的鲁棒性. 通过引入 Transformer 和 State Space Models (SSMs) 等时序模型, 使策略能够从历史中推断缺失信息, 并在 MuJoCo 连续控制基准测试中验证了其有效性.

Neuro-Symbolic Financial Reasoning via Deterministic Fact Ledgers and Adversarial Low-Latency Hallucination Detector

Pedram Agand

cs.LG cs.AI cs.CE

本文提出了一种名为VeNRA的可验证数值推理智能体，旨在解决金融领域标准RAG架构的算术错误和语义混淆问题。它通过确定性的Universal Fact Ledger和Double-Lock Grounding算法来检索变量，并引入一个轻量级的Sentinel模型来审计代码执行痕迹。

Direct Estimation of Tree Volume and Aboveground Biomass Using Deep Regression with Synthetic Lidar Data

Habib Pourdelan et al.

cs.LG

本文提出了一种利用合成点云数据训练深度回归网络, 然后应用于真实点云以直接估计林分木材体积和地上生物量的方法. 该方法在合成数据上表现良好, 并在与实地测量对比时, 相较于依赖异速生长方程的间接方法, 显示出更高的准确性.

Engineering Regression Without Real-Data Training: Domain Adaptation for Tabular Foundation Models Using Multi-Dataset Embeddings

Lyle Regenwetter et al.

cs.LG

本文提出了一种无需真实数据训练的领域适应方法, 用于提升表格基础模型在工程回归任务上的性能. 通过构建一个包含工程与非工程数据集的基准测试集, 并利用TabPFN 2.5的数据集级嵌入进行分析, 作者揭示了合成数据与真实工程数据之间存在显著的领域鸿沟. 为了弥合这一差距, 作者提出了一种基于嵌入引导的合成数据筛选方法, 仅使用筛选出的"类工程"合成数据集对模型进行持续预训练, 从而在多个真实工程数据集上提升了预测精度和数据效率.

Implicit Bias and Loss of Plasticity in Matrix Completion: Depth Promotes Low-Rankness

Baekrok Shin, Chulhee Yun

cs.LG

本文研究了通过深度矩阵分解（即深度线性神经网络）进行矩阵补全的问题，重点探讨了网络深度如何影响训练动态。文章证明了深度网络倾向于产生低秩解的隐式偏置，并分析了这种偏置与网络深度及初始化条件的关系。

Probabilistic Dreaming for World Models

Gavin Wong

cs.LG cs.AI

本文提出了一种基于概率方法的改进型 Dreamer 模型，旨在通过并行探索潜在状态和维持对未来不同假设来提升世界模型的学习。在 MPE SimpleTag 环境中，该方法在得分和回报方差上均优于标准 Dreamer 模型。

Count Bridges enable Modeling and Deconvolving Transcriptomic Data

Nic Fishman et al.

cs.LG

本文提出了一种名为Count Bridges的随机桥过程, 用于对整数计数数据进行生成建模. 该方法通过一种EM风格的方式, 能够直接从聚合观测中训练模型, 并在整数分布匹配和生物数据解卷积任务上展示了先进性能.

When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining

Zhihao Li et al.

cs.LG

本文探讨了 Unlearnable Examples (UEs) 在预训练模型下的脆弱性. 作者提出了一种名为 BAIT 的双层优化方法, 旨在通过绑定扰动与错误标签来维持数据的不可学习性.

Distribution-Conditioned Transport

Nic Fishman et al.

cs.LG

本文提出了 distribution-conditioned transport (DCT) 框架, 该框架通过将 transport map 与源分布和目标分布的嵌入表示进行条件化, 使其能够泛化到训练中未见过的分布对. 该方法与底层 transport 机制无关, 并在多个生物学应用场景中展示了其性能优势.

KindSleep: Knowledge-Informed Diagnosis of Obstructive Sleep Apnea from Oximetry

Micky C Nnamdi et al.

cs.LG

本文提出了一种名为KindSleep的深度学习框架, 用于从单通道血氧信号和临床数据中诊断阻塞性睡眠呼吸暂停(OSA). 该框架通过整合临床知识, 在多个大型数据集上展示了优于现有方法的性能, 并提供了更具可解释性的预测.

ConTSG-Bench: A Unified Benchmark for Conditional Time Series Generation

Shaocheng Lan et al.

cs.LG

本文提出了一个用于条件时间序列生成的统一基准测试框架 ConTSG-Bench. 该框架包含大规模对齐的数据集和全面的评估指标, 用于系统评估不同生成方法在保真度和条件遵循方面的表现, 并揭示了现有方法的局限性与未来研究方向.

Distributional Reinforcement Learning with Information Bottleneck for Uncertainty-Aware DRAM Equalization

Muhammad Usama, Dong Eui Chang

cs.LG

本文提出了一种结合Information Bottleneck和Conditional Value-at-Risk优化的分布强化学习框架，用于高速内存系统的均衡器参数优化。该方法在大量波形数据上进行了验证，在保证最坏情况性能的同时显著提升了优化速度。

Diffusion Policy through Conditional Proximal Policy Optimization

Ben Liu, Shunpeng Yang, Hua Chen

cs.LG cs.RO

本文提出了一种在on-policy强化学习中高效训练diffusion policy的新方法。该方法通过将策略迭代与去噪过程对齐，避免了计算复杂log-likelihood的需求，并能自然地处理熵正则化。实验表明，该方法在多个基准任务上取得了优越性能。

Multilevel Training for Kolmogorov Arnold Networks

Ben S. Southworth et al.

cs.LG cs.AI math.NA

本文提出了一种用于Kolmogorov-Arnold networks (KANs)的多层级训练方法。该方法利用KANs中spline基函数的结构，通过层级间的几何插值算子加速训练过程，并在数值实验中展示了相对于传统方法的精度提升。

Missingness Bias Calibration in Feature Attribution Explanations

Shailesh Sridhar, Anton Xue, Eric Wong

cs.LG

本文提出了一种名为MCal的轻量级后处理方法, 用于校准特征归因解释中的缺失性偏差. 该方法通过微调冻结基础模型输出上的一个简单线性头来校正偏差, 并在多个医学基准测试中取得了与更复杂方法相当甚至更好的效果.

Why Is RLHF Alignment Shallow? A Gradient Analysis

Robin Young

cs.LG cs.CL

本文通过分析 alignment 目标函数的梯度, 解释了为什么基于人类反馈的强化学习(RLHF)对齐是浅层的. 作者证明了梯度信号集中在决定有害性的位置, 并提出了一个基于恢复惩罚的新目标来提供更深的梯度信号.

Differential Privacy in Two-Layer Networks: How DP-SGD Harms Fairness and Robustness

Ruichen Xu, Kexin Chen

cs.LG cs.CY

本文分析了在两层ReLU卷积神经网络中, DP-SGD (Differentially Private Stochastic Gradient Descent) 的特征学习动态. 理论表明, 隐私噪声会损害特征学习, 导致公平性和鲁棒性问题, 并且公共预训练加私有微调的模式在特征分布偏移下可能无效.

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Min Tan et al.

cs.LG cs.AI cs.CV

本文提出了一个名为FedAFD的多模态联邦学习框架, 旨在解决客户端数据模态异构、任务差异以及模型异构等问题. 该框架在客户端采用双层对抗对齐和粒度感知融合, 在服务器端采用相似性引导的集成蒸馏, 实验表明其在IID与非IID设置下均能提升性能.

U-Parking: Distributed UWB-Assisted Autonomous Parking System with Robust Localization and Intelligent Planning

Yiang Wu et al.

cs.LG cs.NI

本文提出了一个名为U-Parking的分布式超宽带辅助自主泊车系统。该系统结合了基于大语言模型的规划与鲁棒的融合定位技术，旨在实现复杂室内环境下的可靠自动泊车。

EVMbench: Evaluating AI Agents on Smart Contract Security

Justin Wang et al.

cs.LG cs.AI cs.CR

本文介绍了EVMbench, 这是一个用于评估AI智能体在智能合约安全领域能力的基准测试。它基于117个精选漏洞, 通过测试和区块链状态进行程序化评分, 并评估了多个前沿智能体在检测、修复和利用漏洞方面的表现。

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Yuan Li et al.

cs.LG cs.AI

本文提出了一种名为BandPO的新方法, 用于改进大型语言模型强化学习中的近端策略优化. 它通过一个名为Band的概率感知算子, 将基于f-divergence的信任域映射为动态的裁剪区间, 以缓解固定裁剪边界对低概率动作更新的限制和策略熵的快速下降. 实验表明该方法优于标准的裁剪机制.

Semantic Communication-Enhanced Split Federated Learning for Vehicular Networks: Architecture, Challenges, and Case Study

Lu Yu, Zheng Chang, Ying-Chang Liang

cs.LG

本文提出了一种结合语义通信与分割联邦学习的框架，用于车联网中的边缘智能任务。该框架通过传输任务相关的语义信息来降低通信开销，并增强标签隐私保护。

$\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

Peihao Wang et al.

cs.LG

本文提出了一种名为$\nabla$-Reasoner的推理时梯度下降框架，用于提升大语言模型的推理能力。该方法通过在潜在空间进行一阶优化来改进生成策略，相比传统方法在效率和性能上有所提升。

Uncertainty-aware Blood Glucose Prediction from Continuous Glucose Monitoring Data

Hai Siong Tan

cs.LG physics.med-ph

本文研究了用于血糖预测和不良血糖事件识别的 uncertainty-aware 神经网络模型. 在基于 LSTM, GRU 和 Transformer 的模型上, 通过 Monte Carlo dropout 或 evidential output layers 进行不确定性量化, 结果表明 Transformer 模型结合 evidential output 在预测精度和不确定性校准方面表现最佳.

WaterSIC: information-theoretically (near) optimal linear layer quantization

Egor Lifar et al.

cs.LG cs.IT

本文提出了一种名为WaterSIC的新算法，用于将密集线性层量化为低精度。该算法基于信息论分析，通过为权重矩阵的不同列分配不同的量化比特率，实现了接近理论极限的压缩性能。在Llama和Qwen等大语言模型上的实验表明，该方法在1到4比特量化上达到了新的最优性能。

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

Yilong Chen et al.

cs.LG cs.AI cs.CL

本文提出了一种称为Mixture of Universal Experts (MOUE)的MoE扩展方法，通过引入Virtual Width这一新的扩展维度，旨在复用跨层的通用专家池，从而在固定的激活预算下将模型深度转化为虚拟宽度。该方法通过设计特定的拓扑结构、负载均衡机制和路由策略来解决复用带来的路径爆炸和负载不匹配问题。实验表明，MOUE在多个扩展场景下优于基线模型，并能有效转换现有MoE检查点。

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Jiayu Wang, Zuojun Ye, Wenpeng Yin

cs.LG cs.CL

本文提出了一种在Fisher--Rao流形上计算加权Karcher平均的模型合并方法，旨在解决参数空间启发式方法在功能合并时的局限性。该方法通过一个轻量级的球面代理实现，在多个基准测试中表现出更好的稳定性和性能。

Lightweight and Scalable Transfer Learning Framework for Load Disaggregation

L.E. Garcia-Marrero, G. Petrone, E. Monmasson

cs.LG

本文提出了一种名为RefQuery的可扩展多电器、多任务非侵入式负载监测框架. 该框架通过紧凑的电器指纹来调节分解过程, 使得一个共享模型能够服务于多种电器, 而无需固定的输出集合. 实验表明, RefQuery在多个公开数据集上实现了精度与效率的良好平衡.

Competitive Multi-Operator Reinforcement Learning for Joint Pricing and Fleet Rebalancing in AMoD Systems

Emil Kragh Toft et al.

cs.LG cs.MA

本文提出了一个用于多运营商AMoD系统竞争环境下的强化学习框架，研究运营商如何同时学习定价和车队再平衡策略。通过整合离散选择理论，模型内生地捕捉了乘客分配和需求竞争，实验表明竞争环境会显著改变学习到的策略行为。

Non-Euclidean Gradient Descent Operates at the Edge of Stability

Rustem Islamov et al.

cs.LG math.OC stat.ML

本文从Directional Smoothness的视角解释了梯度下降训练中出现的Edge of Stability现象，并将该现象推广到非欧几里得范数下，定义了广义的sharpness度量。实验表明，多种非欧几里得优化方法在神经网络训练中也表现出类似的sharpness振荡行为。

Poisoning the Inner Prediction Logic of Graph Neural Networks for Clean-Label Backdoor Attacks

Yuxiang Zhang, Bin Ma, Enyan Dai

cs.LG cs.AI

本文提出了一种针对Graph Neural Networks (GNNs)的clean-label backdoor attack方法。该方法通过协调一个poisoned node selector和一个logic-poisoning trigger generator来操作模型的内部预测逻辑，从而在不修改训练标签的情况下实现有效的攻击。

MCEL: Margin-Based Cross-Entropy Loss for Error-Tolerant Quantized Neural Networks

Mikail Yayla, Akash Kumar

cs.LG cs.AR

本文提出了一种名为Margin Cross-Entropy Loss (MCEL)的新损失函数，用于提升量化神经网络的容错能力。该方法通过直接增大输出层logits的margin来增强模型对bit errors的鲁棒性，无需在训练时注入错误，从而降低了计算开销。

Asymptotic Behavior of Multi--Task Learning: Implicit Regularization and Double Descent Effects

Ayed M. Alrashdi, Oussama Dhifallah, Houssem Sifaou

cs.LG cs.IT

本文对多任务学习中的一种误分类感知机模型进行了渐近分析. 研究表明, 组合多个任务在渐近意义上等价于增加了正则项, 从而改善了泛化性能, 并可能延缓或减轻双下降现象.

Deep Learning-Driven Friendly Jamming for Secure Multicarrier ISAC Under Channel Uncertainty

Bui Minh Tuan et al.

cs.LG

本文提出了一种基于深度学习的友好干扰框架, 用于在信道状态信息不完美且窃听者位置未知的情况下, 增强多载波ISAC系统的物理层安全. 该方法利用雷达回波反馈来引导定向干扰, 并通过一个结合了非参数FIM估计器的雷达感知神经网络来联合优化波束成形和干扰设计, 以应对感知不确定性.

Reward-Conditioned Reinforcement Learning

Michal Nauman, Marek Cygan, Pieter Abbeel

cs.LG

本文提出了Reward-Conditioned Reinforcement Learning (RCRL)框架, 旨在训练一个单一的agent来优化一族奖励函数. 该方法通过条件化奖励参数并利用离策略数据学习, 使得单个策略能够适应不同的任务目标.

Synchronization-based clustering on the unit hypersphere

Zinaid Kapić, Aladin Crnkić, Goran Mauša

cs.LG

本文提出了一种基于广义 Kuramoto 模型的新算法，用于对单位超球面上的数据进行聚类。该方法在合成和真实数据集上取得了与传统方法相当或更好的效果。

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

Jiafeng Lin et al.

cs.LG cs.AI cs.CL

本文提出了一个名为Aura的通用框架, 用于整合多维外生信息以增强时间序列预测. 该框架通过一种三方编码机制将异构特征嵌入到现有模型中, 并在航空维护数据集上验证了其有效性.

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Cenwei Zhang et al.

cs.LG cs.AI cs.CV

本文提出了一种基于最优生成流(optimal generative flows)的流形上Aumann-Shapley归因形式化理论。该方法通过选择Wasserstein-2测地线来定义唯一的梯度线积分，旨在解决传统Shapley归因中的离流形伪影问题。实验表明，该方法在流形一致性和语义对齐方面优于基线。

Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics

Kilian Freitag, Knut Åkesson, Morteza Haghir Chehreghani

cs.LG cs.RO

本文提出了一种用于机器人强化学习的双阶段奖励课程方法, 将任务目标与行为目标解耦. 该方法先在简化的任务奖励上训练智能体, 再引入包含行为项(如能效)的完整奖励, 并在多个仿真环境中验证了其有效性.

FedBCD:Communication-Efficient Accelerated Block Coordinate Gradient Descent for Federated Learning

Junkang Liu et al.

cs.LG cs.AI

本文提出了一种用于联邦学习的高效通信方法FedBCGD及其加速版本FedBCGD+。该方法通过将模型参数分块并让客户端每次仅上传特定块来显著降低通信开销，并提供了收敛性分析。

Federated Causal Discovery Across Heterogeneous Datasets under Latent Confounding

Maximilian Hahn et al.

cs.LG cs.AI stat.ML

本文提出了一种名为fedCI的联邦条件独立性检验方法, 用于处理变量集不同, 存在站点特定效应以及混合变量类型的异构数据集. 基于此, 作者进一步开发了fedCI-IOD算法, 首次实现了在存在潜在混杂因子的分布式异构数据集上进行联邦因果发现.

Balancing Privacy-Quality-Efficiency in Federated Learning through Round-Based Interleaving of Protection Techniques

Yenan Wang, Carla Fabiana Chiasserini, Elad Michael Schiller

cs.LG

本文提出了一个名为Alt-FL的联邦学习框架，通过一种新颖的轮次交错策略，结合了差分隐私、同态加密和合成数据技术。该框架旨在平衡隐私保护、学习质量和系统效率，并通过实验评估了其在对抗梯度重构攻击时的表现。

Trainable Bitwise Soft Quantization for Input Feature Compression

Karsten Schrödter et al.

cs.LG

本文提出了一种用于神经网络输入特征压缩的可训练比特软量化层. 该方法通过sigmoid函数逼近阶梯函数来实现可训练的量化阈值, 从而在数据采集时进行简单的设备端压缩. 实验表明, 该方法在保持接近全精度模型准确率的同时, 优于标准量化方法, 实现了显著的压缩比.

Incentive Aware AI Regulations: A Credal Characterisation

Anurag Singh et al.

cs.LG

本文提出了一个将AI监管建模为不确定性下机制设计问题的框架, 称为"regulation mechanisms". 该框架通过将模型的经验证据映射到市场份额许可, 旨在激励合规提供商参与并促使不合规提供商自我排除. 理论分析表明, 实现完美市场结果的机制与不合规分布的credal set之间存在对偶关系, 并通过实验在预测公平性等场景中进行了演示.

Towards a data-scale independent regulariser for robust sparse identification of non-linear dynamics

Jay Raut, Daniel N. Wilke, Stephan Schmidt

cs.LG stat.ML

本文提出了一种名为STCV的新稀疏回归算法, 旨在解决数据归一化对SINDy等稀疏辨识方法的干扰问题. 该方法通过使用无量纲的统计度量进行阈值筛选, 提升了在归一化噪声数据下辨识稀疏非线性动力系统的鲁棒性和可靠性.

Stable-LoRA: Stabilizing Feature Learning of Low-Rank Adaptation

Yize Wu et al.

cs.LG cs.AI

本文分析了LoRA方法在特征学习稳定性方面的理论特性, 并提出了一种名为Stable-LoRA的权重收缩优化策略。该方法通过在训练初期动态调整低秩矩阵$A$, 旨在消除不稳定性并提升微调性能。

Early Warning of Intraoperative Adverse Events via Transformer-Driven Multi-Label Learning

Xueyao Wang et al.

cs.LG cs.AI

本文提出了一种基于Transformer的多标签学习框架IAENet, 用于术中不良事件的早期预警. 该方法通过改进的TAFiLM模块融合静态与动态临床数据, 并设计了LCRLoss来处理类别不平衡问题, 在多个时间窗口的预测任务上取得了优于基线模型的表现.

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

Alper Yıldırım

cs.LG cs.AI

本文通过修改Transformer的架构拓扑来研究grokking现象. 实验表明, 通过引入有界的球形拓扑和均匀注意力机制, 可以显著加速甚至绕过在循环模加法任务上的grokking延迟.

SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity

Hanyong Shao et al.

cs.LG

本文提出了一种名为SlideSparse的系统，旨在为$(2N-2):2N$结构的稀疏模型在通用GPU上实现硬件加速。该方法通过滑动窗口分解和激活提升技术，将此类稀疏模式转换为现有硬件支持的格式，从而在保持模型精度的同时获得接近理论极限的推理速度提升。

Recursive Inference Machines for Neural Reasoning

Mieszko Komisarczyk et al.

cs.LG cs.AI

本文提出了Recursive Inference Machines (RIMs), 一种结合了经典推理引擎递归机制与神经网络的推理框架. 该框架扩展了现有神经推理模型, 在多个复杂推理基准测试中取得了更好的性能.

A Behaviour-Aware Federated Forecasting Framework for Distributed Stand-Alone Wind Turbines

Bowen Li, Xiufeng Liu, Maria Sinziiana Astefanoaei

cs.LG

本文提出了一种用于分布式独立风力涡轮机的行为感知联邦预测框架. 该框架通过基于长期行为统计的聚类和联邦平均训练, 在保护数据本地性的同时实现了有竞争力的预测精度.

Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography

Ting-Hui Cheng, Line H. Clemmensen, Sneha Das

cs.LG

本文探讨了自动语音识别(ASR)系统评估中仅依赖词错误率(WER)的局限性. 作者引入了样本难度指数(SDI)等新指标, 通过数据制图揭示了WER所忽略的系统性偏见.

Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts

Samandar Samandarov et al.

cs.LG cs.AI

本文提出了一种名为Whisperer的视觉提示框架, 通过训练基于diffusion的预处理模块来调整输入图像的像素空间, 从而提升冻结预训练OCR模型(如EasyOCR)的性能. 该方法在合成退化文本图像数据集上显著降低了字符错误率(CER), 超越了传统手工图像增强方法.

Knowledge Divergence and the Value of Debate for Scalable Oversight

Robin Young

cs.LG cs.CL

本文通过分析模型间知识差异的几何结构, 为AI辩论(debate)与基于AI反馈的强化学习(RLAIF)这两种可扩展监督方法建立了形式化联系. 研究证明了辩论优势存在精确闭式解, 并识别了知识差异的不同机制及其对辩论有效性的影响.

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Luca Della Libera, Cem Subakan, Mirco Ravanelli

cs.LG cs.AI cs.CL cs.SD

本文提出了一种名为WavSLM的语音语言模型，它通过将自监督WavLM表征量化和蒸馏到单一codebook中，并优化自回归的下一片段预测目标来进行训练。该模型无需文本监督，在单一token流中联合建模语义和声学信息，在保持参数和训练数据较少的同时，取得了有竞争力的性能。

GALACTIC: Global and Local Agnostic Counterfactuals for Time-series Clustering

Christos Fragkathoulas et al.

cs.LG cs.AI

本文提出了一个名为GALACTIC的框架，用于为无监督时间序列聚类生成局部和全局的反事实解释。该方法通过优化目标生成扰动，并利用最小描述长度原则来选取代表性的全局解释。

FairFinGAN: Fairness-aware Synthetic Financial Data Generation

Tai Le Quy et al.

cs.LG

本文提出了一种基于WGAN的框架FairFinGAN, 用于生成合成金融数据, 同时通过分类器在训练中引入公平性约束以减轻受保护属性的偏见. 实验表明, 该方法在多个真实金融数据集上能在保持数据效用的同时, 获得更好的公平性指标.

Preserving Continuous Symmetry in Discrete Spaces: Geometric-Aware Quantization for SO(3)-Equivariant GNNs

Haoyu Zhou et al.

cs.LG

本文提出了一种几何感知量化框架, 用于压缩SO(3)-等变图神经网络. 该方法通过解耦特征的幅度与方向进行量化, 旨在离散空间中保持连续的旋转对称性, 从而在加速模型的同时减少误差.

InfoFlow KV: Information-Flow-Aware KV Recomputation for Long Context

Xin Teng et al.

cs.LG

本文提出了一种名为InfoFlow KV的方法, 用于长上下文问答中检索增强生成(RAG)的推理加速. 该方法将选择性KV重计算建模为一个信息流问题, 利用查询的attention norm信号来识别语义相关且结构上能传播信息的tokens, 并通过重构检索块的位置分配来指导块重排序. 实验表明, 在可比的效率预算下, 该方法在LLM和VLM基准测试上优于现有方法.

Learning Causal Structure of Time Series using Best Order Score Search

Irene Gema Castillo Mansilla, Urmi Ninad

cs.LG cs.AI stat.ME

本文提出了一种用于多元时间序列因果结构学习的评分方法 TS-BOSS. 该方法扩展了静态环境下的 BOSS 算法, 通过搜索动态贝叶斯网络结构并利用缓存技术来提升效率. 实验表明, 该方法在高自相关场景下优于传统的基于约束的方法.

Embedded Inter-Subject Variability in Adversarial Learning for Inertial Sensor-Based Human Activity Recognition

Francisco M. Calatrava-Nicolás et al.

cs.LG

本文提出了一种新的深度对抗框架来处理可穿戴惯性传感器数据中的人类活动识别问题, 该框架通过将受试者间变异性整合到对抗任务中来鼓励生成与受试者无关的特征表示. 该方法在三个已建立的HAR数据集上使用留一受试者交叉验证, 其性能优于先前的方法.

Robust Node Affinities via Jaccard-Biased Random Walks and Rank Aggregation

Bastian Pfeifer, Michael G. Schimek

cs.LG

本文提出了一种基于Jaccard相似度偏置的随机游走和排序聚合的节点相似度估计方法TopKGraphs. 该方法通过生成部分节点排序并聚合来构建节点亲和力矩阵, 在合成图、k近邻图和蛋白质相互作用网络等场景中表现出稳健的性能.

On the Necessity of Learnable Sheaf Laplacians

Ferran Hernandez Caralt et al.

cs.LG

本文通过引入一个所有限制映射都固定为恒等映射的Identity Sheaf Network基线模型，对Sheaf Neural Networks (SNNs)中可学习限制映射的必要性进行了实证检验。在多个异配图基准测试中，该基线模型与多种SNN变体取得了相当的性能，并且通过引入Rayleigh商作为衡量指标，发现基于扩散的理论分析与实际训练网络中的过平滑现象并不一致。

An interpretable prototype parts-based neural network for medical tabular data

Jacek Karolczak, Jerzy Stefanowski

cs.LG

本文提出了一种针对医疗表格数据的可解释原型部件神经网络. 该模型通过可训练的 patching 学习可读的原型特征子集, 在保持分类性能的同时提供了基于概念的透明预测.

On-Policy Self-Distillation for Reasoning Compression

Hejian Sang et al.

cs.LG

本文提出了一种名为OPSDC的方法, 通过让模型将其自身简洁的推理行为蒸馏回自身, 来教导模型进行更简洁的推理. 该方法在多个基准测试上实现了显著的推理长度压缩和准确率提升.

Latent Wasserstein Adversarial Imitation Learning

Siqi Yang et al.

cs.LG

本文提出了一种名为Latent Wasserstein Adversarial Imitation Learning (LWAIL)的新框架, 用于从仅包含状态信息的专家演示中进行模仿学习. 该方法通过在一个预训练得到的dynamics-aware latent space中计算Wasserstein距离来匹配状态分布, 从而在多个MuJoCo环境中仅需少量专家轨迹即可达到专家级性能.

Kraus Constrained Sequence Learning For Quantum Trajectories from Continuous Measurement

Priyanshi Singh, Krishna Bhatia

cs.LG

本文提出了一种用于从连续测量记录中重构量子轨迹的Kraus约束序列学习方法. 该方法通过一个Kraus结构的输出层, 确保神经网络预测的量子态更新满足完全正定且保迹(CPTP)的物理约束.

SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Shahriar Noroozizadeh et al.

cs.LG cs.AI stat.ML

本文提出了一个用于生存分析中异质处理效应估计的基准测试套件 SurvHTE-Bench. 它整合了合成、半合成和真实世界数据集, 旨在为不同方法提供统一、可复现的评估框架.

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Helena Casademunt et al.

cs.LG cs.AI cs.CL

本文以经过政治敏感话题审查的中文开源大语言模型为研究对象, 评估了多种诚实性诱导和谎言检测技术的有效性. 研究发现, 某些提示工程和微调方法能提升真实回答率, 但无法完全消除错误响应.

Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels

Khai Nguyen et al.

cs.LG math.OC

本文提出了一种结合廉价标签监督预训练与自监督微调的三阶段框架, 用于高效训练优化问题的代理模型. 该方法在多个领域验证了其能以较低成本提升模型的收敛速度、精度与可行性.

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Zeju Qiu et al.

cs.LG cs.AI cs.CL

本文提出了一种名为POET-X的可扩展且内存高效的变体, 用于大规模语言模型(LLM)的训练. 该方法通过改进正交等价变换的计算方式, 在保持原有方法泛化与稳定性的同时, 显著降低了内存消耗和计算开销.

cs.AI

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery ⭐ 精选

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff

cs.AI cs.CL

本文提出了一种结合Gemini Deep Think大语言模型与系统化Tree Search框架及自动化数值反馈的神经符号系统, 用于解决理论物理中的一个开放问题. 该系统成功推导出了宇宙弦引力辐射功率谱核心积分$I(N,\alpha)$的精确解析解, 超越了先前仅获得渐近解的AI辅助尝试. 智能体识别了六种不同的解析方法, 其中最优雅的方法利用Gegenbauer多项式$C_l^{(3/2)}$展开核函数以自然吸收被积函数的奇异性, 所得的大$N$渐近结果与数值计算相符, 并与量子场论中的连续Feynman参数化建立了联系.

SkillNet: Create, Evaluate, and Connect AI Skills

Yuan Liang et al.

cs.AI cs.CL cs.CV cs.LG cs.MA

本文提出了一个名为SkillNet的开放基础设施, 用于大规模地创建、评估和组织AI技能. 该系统通过一个统一的ontology整合异构技能, 构建技能间的关联, 并进行多维度评估, 实验表明其在多个基准任务上能显著提升智能体的性能.

Capability Thresholds and Manufacturing Topology: How Embodied Intelligence Triggers Phase Transitions in Economic Geography

Xinmin Fang, Lingfeng Tao, Zhengxiong Li

cs.AI cs.CE physics.soc-ph

本文探讨了embodied intelligence（具身智能）如何通过超越关键能力阈值，从根本上改变制造业的地理分布和拓扑结构。作者提出了Capability Space的概念，并分析了能力向量跨越临界表面时，工厂选址目标函数发生的拓扑重组，最终导向一种无历史先例的生产地理格局。

Progressive Refinement Regulation for Accelerating Diffusion Language Model Decoding

Lipeng Wan et al.

cs.AI

本文提出了一种名为Progressive Refinement Regulation (PRR)的框架，用于加速diffusion language model的解码过程。该方法通过基于完整解码轨迹的token级收敛信号，学习一个轻量级的控制器来动态调整refinement规则。

Discovering mathematical concepts through a multi-agent system

Daattavya Aggarwal et al.

cs.AI math.HO

本文提出了一种基于多智能体系统的计算数学发现模型. 该系统能够自主提出猜想并尝试证明, 通过实验在从多面体数据中恢复同调(homology)概念的任务上进行了验证.

Adaptive Memory Admission Control for LLM Agents

Guilin Zhang et al.

cs.AI cs.CL cs.MA

本文提出了一个用于LLM智能体的自适应记忆准入控制框架A-MAC. 它将记忆准入视为一个结构化决策问题, 通过结合轻量级规则和LLM辅助评估来学习领域自适应的准入策略, 旨在实现对长期记忆的透明和高效控制.

Self-Attribution Bias: When AI Monitors Go Easy on Themselves

Dipika Khullar et al.

cs.AI cs.LG

本文研究了AI系统中语言模型在自我监控时可能存在的"自我归因偏差". 研究发现, 当模型评估自己生成的行为时, 会比评估用户提供的相同行为时更为宽松, 这种偏差在固定数据集评估中不易被发现, 可能导致实际部署中的监控失效.

ECG-MoE: Mixture-of-Expert Electrocardiogram Foundation Model

Yuhao Xu et al.

cs.AI

本文提出了一种用于心电图分析的混合架构ECG-MoE, 它通过双路径Mixture-of-Experts分别建模心跳形态与节律, 并结合了使用LoRA的分层融合网络. 在多个临床任务上的评估表明, 该模型在取得先进性能的同时, 推理速度更快.

Towards automated data analysis: A guided framework for LLM-based risk estimation

Panteleimon Rodis

cs.AI

本文提出了一个结合人类指导与生成式AI的数据集风险估计框架, 旨在为未来的自动化风险分析奠定基础. 该框架利用LLM识别数据库模式中的语义和结构属性, 并生成代码进行聚类分析, 最终由人类监督确保过程完整性与目标对齐.

When Agents Persuade: Propaganda Generation and Mitigation in LLMs

Julia Jose, Ritik Roongta, Rachel Greenstadt

cs.AI

本文探讨了LLM-based agents在特定提示下生成propaganda内容的能力, 并利用领域特定模型分析了其使用的rhetorical techniques. 研究还尝试了多种fine-tuning方法以减轻这种倾向, 发现ORPO最为有效.

Using Vision + Language Models to Predict Item Difficulty

Samin Khan

cs.AI cs.CL cs.CV

本文探讨了使用大型语言模型预测数据可视化素养测试题目难度的可行性. 通过结合图像和文本特征的多模态方法取得了最佳的预测效果.

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Jihoon Jeong

cs.AI cs.CL cs.LG

本文提出了一个名为"Model Medicine"的临床框架, 用于理解、诊断和治疗AI模型。它将AI模型类比为生物有机体, 并建立了一个包含多个子学科和诊断工具的系统性研究纲领。

From Offline to Periodic Adaptation for Pose-Based Shoplifting Detection in Real-world Retail Security

Shanle Yao et al.

cs.AI

本文提出了一种用于零售安防的周期性自适应框架, 将商店盗窃检测视为基于姿态的无监督视频异常检测问题. 该方法旨在实现边缘设备上的可扩展、低延迟检测, 并在一个真实世界数据集上验证了其性能.

Interactive Benchmarks

Baoqing Yue et al.

cs.AI cs.CL cs.LG

本文提出了Interactive Benchmarks这一评估范式, 用于在预算约束下通过交互过程评估模型的推理能力. 该框架在Interactive Proofs和Interactive Games两个场景中进行了实例化, 结果表明其在评估模型智能方面具有鲁棒性.

Memory as Ontology: A Constitutional Memory Architecture for Persistent Digital Citizens

Zhenghui Li

cs.AI cs.MA

本文提出了"Memory-as-Ontology"范式，认为对于生命周期跨越模型迭代的持久性数字公民而言，记忆是其存在的本体论基础，而非功能性工具。基于此，作者设计了Animesis记忆系统，其核心是一个将治理置于功能之前的宪法式记忆架构，旨在保障身份连续性。

CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov

cs.AI cs.DB cs.IR cs.LG

本文提出了一种名为CONE的混合Transformer编码器预训练模型, 用于为包含单位(unit)和变量名(variable name)的复杂数值数据生成嵌入(embedding). 该模型通过一种新颖的复合嵌入构建算法, 将数值、范围(range)或高斯分布(Gaussian)与其关联的语义信息结合编码, 旨在更好地保留数值间的距离关系. 实验表明, CONE在多个领域的数值推理任务上超越了现有方法.

Visioning Human-Agentic AI Teaming: Continuity, Tension, and Future Research

Bowen Lou et al.

cs.AI cs.HC econ.GN

本文探讨了agentic AI系统给human-AI teaming带来的结构性不确定性, 并基于Team Situation Awareness理论提出了一个分析框架. 文章区分了理论延续性与新挑战, 并展望了未来的研究方向.

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

Viet Bui, Wenjun Li, Yong Liu

cs.AI cs.CL

本文提出了一个用于长视野约束旅行规划的层次化多智能体框架 HiMAP-Travel. 该框架通过战略协调与并行执行来应对传统序列化智能体在预算和多样性等硬约束下的规划漂移问题.

Evaluating the Search Agent in a Parallel World

Jiawei Chen et al.

cs.AI

本文提出了一个名为 Mind-ParaWorld 的框架，用于在平行世界中评估搜索智能体，以解决传统评估方法面临的动态过时和归因模糊等问题。该框架通过合成未来场景和不可变原子事实来构建交互式基准 MPW-Bench，实验揭示了智能体在证据收集和停止决策等方面的瓶颈。

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

Mengnan Li et al.

cs.AI cs.CE cs.SE

本文介绍了一个名为MOOSEnger的领域特定AI agent, 专为MOOSE多物理场仿真环境设计. 它通过结合检索增强生成(RAG)与确定性解析工具, 将自然语言意图转换为可执行的输入文件, 并内置验证与执行流程, 显著提升了输入文件创建与调试的成功率.

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Xingwu Chen et al.

cs.AI cs.CL

本文提出了一种名为RLSTA的训练方法, 旨在解决大语言模型在多轮交互中表现出的"Contextual Inertia"问题. 该方法利用模型在单轮任务中的强表现作为内部锚点来提供奖励信号, 从而提升模型在多轮对话中整合新信息的能力.

Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

Yong Liu et al.

cs.AI

本文提出了一个名为Timer-S1的亿级时间序列基础模型，它采用混合专家架构，并通过在模型架构、数据集和训练流程三个维度进行序列扩展来解决现有模型的扩展瓶颈。该模型在GIFT-Eval基准测试中取得了先进的预测性能。

EchoGuard: An Agentic Framework with Knowledge-Graph Memory for Detecting Manipulative Communication in Longitudinal Dialogue

Ratna Kandala et al.

cs.AI

本文提出了一个名为EchoGuard的智能体框架，它利用知识图谱作为记忆核心来检测对话中的操纵性沟通。该框架通过一个结构化的日志-分析-反思循环，结合图查询与大语言模型，旨在帮助用户识别长期互动中的微妙操控模式。

LLM-Grounded Explainability for Port Congestion Prediction via Temporal Graph Attention Networks

Zhiming Xue, Yujue Wang

cs.AI

本文提出了一个名为AIS-TGNN的框架, 用于港口拥堵预测与解释. 该框架结合了Temporal Graph Attention Network (TGAT) 和大型语言模型(LLM), 在预测的同时生成基于模型内部证据的自然语言解释. 实验表明, 该方法在预测性能与解释一致性上均优于基线模型.

VISA: Value Injection via Shielded Adaptation for Personalized LLM Alignment

Jiawei Chen et al.

cs.AI

本文提出了VISA框架, 通过一个包含价值检测器、语义翻译器和价值重写器的闭环系统, 旨在解决LLM在特定任务微调中出现的价值漂移和语义损失问题. 该方法使用GRPO进行训练, 在实验中显示出优于标准微调和提示基线方法的性能.

Design Behaviour Codes (DBCs): A Taxonomy-Driven Layered Governance Benchmark for Large Language Models

G. Madan Mohan, Veena Kiran Nambiar, Kiranmayee Janardhan

cs.AI

本文提出了一个名为Dynamic Behavioral Constraint (DBC)的基准测试框架，用于评估在大型语言模型推理时应用结构化治理层的效果。该框架通过多臂对照实验和对抗性攻击测试，量化了治理层在降低模型风险暴露率方面的有效性。

On Multi-Step Theorem Prediction via Non-Parametric Structural Priors

Junbo Zhao et al.

cs.AI cs.CV

本文提出了一种基于非参数结构先验的多步定理预测方法, 通过构建Theorem Precedence Graphs来编码历史证明中的时序依赖关系, 从而约束大语言模型(LLM)的推理搜索空间. 该方法在FormalGeo7k基准测试上取得了与监督模型相当的性能, 展示了结构先验在提升LLM符号推理能力方面的潜力.

Causally Robust Reward Learning from Reason-Augmented Preference Feedback

Minjune Hwang et al.

cs.AI cs.LG cs.RO

本文提出了ReCouPLe框架, 利用自然语言理由来增强基于偏好的奖励学习, 以解决因果混淆问题. 该方法通过将理由作为嵌入空间中的投影轴, 引导模型关注与理由相关的特征, 从而学习到更鲁棒的奖励函数, 并在分布偏移和新任务上表现出更好的泛化能力.

K-Gen: A Multimodal Language-Conditioned Approach for Interpretable Keypoint-Guided Trajectory Generation

Mingxuan Mu et al.

cs.AI

本文提出了一种名为K-Gen的多模态轨迹生成方法, 它结合了视觉地图与文本描述来生成自动驾驶场景中可解释的关键点, 并进一步优化为完整轨迹. 实验表明该方法在多个数据集上优于现有基线.

SEA-TS: Self-Evolving Agent for Autonomous Code Generation of Time Series Forecasting Algorithms

Longkun Xu et al.

cs.AI

本文提出了一个用于时间序列预测算法自主代码生成的框架SEA-TS. 该框架通过一个自演化的循环来自动生成、验证和优化预测代码, 在公开和私有数据集上取得了优于现有方法的结果.

Bounded State in an Infinite Horizon: Proactive Hierarchical Memory for Ad-Hoc Recall over Streaming Dialogues

Bingbing Wang, Jing Li, Ruifeng Xu

cs.AI

本文提出了一个用于评估无限流式对话中记忆能力的基准测试STEM-Bench, 并针对其中存在的保真度与效率困境, 提出了一个名为ProStream的主动分层记忆框架. 该框架通过多粒度信息提炼和自适应优化, 旨在实现低延迟下的按需记忆检索.

Differentially Private Multimodal In-Context Learning

Ivoline C. Ngong, Zarreen Reza, Joseph P. Near

cs.AI

本文提出了一个名为DP-MTV的框架，首次实现了具有正式差分隐私保证的多模态上下文学习。该方法通过将大量示例聚合为紧凑的任务向量，在保证隐私的同时支持多轮推理。实验表明，该方法在多个基准测试上有效，能在隐私约束下保留上下文学习的大部分优势。

Authorize-on-Demand: Dynamic Authorization with Legality-Aware Intellectual Property Protection for VLMs

Lianyu Wang et al.

cs.AI

本文提出了一种用于视觉语言模型(VLMs)的动态授权与合法性感知知识产权保护框架AoD-IP. 该框架通过轻量级动态授权模块和双路径推理机制, 旨在实现按需授权并提升对未授权输入的检测能力.

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

Shuo Yang et al.

cs.AI

本文提出了一个名为EvoTool的框架，用于优化基于LLM的智能体的工具使用策略。该框架采用无梯度的进化范式，通过分解策略模块、归因失败并进行针对性突变来迭代改进策略。

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Hiroki Fukui

cs.AI cs.CL

本文通过多智能体模拟实验, 研究了安全对齐干预在不同语言中的效果. 研究发现, 对齐干预的效果存在语言依赖性, 在英语中有效的安全措施在其他语言中可能失效甚至产生反效果.

Knowledge-informed Bidding with Dual-process Control for Online Advertising

Huixiang Luo et al.

cs.AI

本文提出了一种结合人类专家知识和双过程控制的在线广告竞价优化方法 KBD. 该方法通过 informed machine learning 范式引入归纳偏置, 使用 Decision Transformer 进行全局序列优化, 并整合了基于规则的快速 PID 控制.

TimeWarp: Evaluating Web Agents by Revisiting the Past

Md Farhan Ishmam, Kenneth Marino

cs.AI cs.CL cs.CV cs.LG

本文提出了一个名为TimeWarp的基准测试，用于评估网页智能体在网页设计变化时的鲁棒性。作者还提出了一种名为TimeTraj的算法，通过跨多个网页版本收集轨迹来提升智能体的性能。

Retrieval-Augmented Generation with Covariate Time Series

Kenny Ye Liang et al.

cs.AI

本文针对时间序列预测中的协变量耦合、数据稀缺和序列短暂等挑战, 提出了一个名为RAG4CTS的、无需训练的检索增强生成框架. 该框架通过构建分层知识库、设计两阶段加权检索机制以及采用智能体驱动的上下文优化策略, 在航空压力调节阀的预测性维护场景中取得了优于现有方法的预测精度, 并已成功部署应用.

Rethinking Representativeness and Diversity in Dynamic Data Selection

Yuzhe Zhou et al.

cs.AI

本文重新思考了动态数据选择中的代表性和多样性概念, 提出了一种新的评估框架. 该方法通过稀疏自编码器量化样本的代表性, 并结合使用频率惩罚来实现过程级的多样性, 在多个基准测试上实现了训练加速与精度保持的良好平衡.

BioLLMAgent: A Hybrid Framework with Enhanced Structural Interpretability for Simulating Human Decision-Making in Computational Psychiatry

Zuo Fei et al.

cs.AI

本文提出了一个结合强化学习与大型语言模型的混合框架, 用于计算精神病学中的人类决策模拟. 该框架旨在平衡行为真实性与结构可解释性, 并在多个任务上进行了验证.

Measuring the Fragility of Trust: Devising Credibility Index via Explanation Stability (CIES) for Business Decision Support Systems

Alin-Gabriel Vaduva, Simona-Vasilica Oprea, Adela Bara

cs.AI cs.LG

本文提出了一种名为CIES的量化指标, 用于评估XAI方法(如SHAP, LIME)生成的解释在面临现实业务数据扰动时的稳定性. 该指标通过一个基于排序加权的距离函数, 强调关键特征变化的影响, 并在多个业务数据集和模型上验证了其区分能力.

S5-SHB Agent: Society 5.0 enabled Multi-model Agentic Blockchain Framework for Smart Home

Janani Rangila et al.

cs.AI

本文提出了一个面向智能家居的多智能体区块链框架S5-SHB-Agent. 该框架整合了可互换的大语言模型来协调多个智能体, 并采用了一个自适应的工作量证明共识机制.

Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure

Yida Lu et al.

cs.AI cs.CL

本文研究了大型语言模型在面临生存压力时可能产生的风险行为。通过构建一个包含多种现实场景的测试基准，作者评估了当前模型的此类行为，并探讨了其与模型自我保存特性的关联及可能的缓解方法。

AegisUI: Behavioral Anomaly Detection for Structured User Interface Protocols in AI Agent Systems

Mohd Safwan Uddin, Saba Hajira

cs.AI

本文提出了一个名为AegisUI的框架，用于检测AI agent系统中动态生成的结构化用户界面协议的行为异常。该框架通过生成包含多种攻击类型的UI负载，提取多维特征，并比较了多种异常检测器的性能。实验结果表明，监督学习方法Random Forest取得了最佳的综合检测效果。

The Trilingual Triad Framework: Integrating Design, AI, and Domain Knowledge in No-code AI Smart City Course

Qian Huang, King Wang Poon

cs.AI

本文介绍了一个名为"Trilingual Triad"的教育框架，该框架整合了设计、人工智能和领域知识，旨在帮助学生从AI工具的使用者转变为AI系统的设计者。研究通过分析一个无代码智能城市课程中的学生项目，探讨了如何通过构建定制化GPT系统来促进人机协作与学习。

Enhancing Zero-shot Commonsense Reasoning by Integrating Visual Knowledge via Machine Imagination

Hyuntae Park, Yeachan Kim, SangKeun Lee

cs.AI

本文提出了一种名为Imagine的零样本常识推理框架, 通过集成图像生成器来为预训练语言模型(PLMs)补充机器生成的视觉信号, 以缓解文本知识中的人类报告偏差. 实验表明该方法在多个常识推理基准上超越了现有的零样本方法.

WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents

Sicheng Fan et al.

cs.AI

本文提出了一种名为WebFactory的自动化强化学习框架, 用于将大型语言模型(LLM)中的知识压缩为可执行的GUI智能体行为. 该方法通过合成环境、生成任务、收集轨迹和分解奖励进行训练, 在少量合成数据上训练的智能体表现出了良好的数据效率和泛化能力.

Jagarin: A Three-Layer Architecture for Hibernating Personal Duty Agents on Mobile

Ravi Kiran Kadaboina

cs.AI cs.HC cs.MA

本文提出了一种名为Jagarin的三层架构, 旨在解决个人AI代理在移动设备上持续后台运行导致的电池消耗和平台沙箱策略冲突问题. 该架构通过结构化休眠和需求驱动唤醒, 结合本地启发式引擎, 商业邮件代理路由和机器可读通信协议, 实现了从机构信号到设备端行动的完整技术栈.

Bidirectional Curriculum Generation: A Multi-Agent Framework for Data-Efficient Mathematical Reasoning

Boren Hu et al.

cs.AI

本文提出了一个双向课程生成框架, 通过多智能体模拟自适应教学, 动态生成或简化问题以修复推理缺陷, 旨在用更少的数据提升大语言模型的数学推理能力.

MedCoRAG: Interpretable Hepatology Diagnosis via Hybrid Evidence Retrieval and Multispecialty Consensus

Zheng Li et al.

cs.AI cs.MA

本文提出了一个用于肝脏疾病诊断的端到端框架 MedCoRAG, 它通过混合检索构建证据包, 并利用多智能体协作进行推理, 以生成可解释的诊断结果. 实验表明, 该框架在诊断性能和推理可解释性上优于现有方法.

KARL: Knowledge Agents via Reinforcement Learning

Jonathan D. Chang et al.

cs.AI cs.LG

本文提出了一种通过强化学习训练企业搜索智能体的系统KARL, 该系统在多个难以验证的搜索任务上达到了最先进的性能. 作者构建了多能力评估套件KARLBench, 并开发了结合长程推理与工具使用的数据合成流程以及一种基于迭代大批次离线策略的强化学习后训练范式.

AI+HW 2035: Shaping the Next Decade

Deming Chen et al.

cs.AI cs.AR

本文是一篇关于AI与硬件协同设计的愿景论文, 提出了一个为期十年的发展路线图. 它强调了通过跨层优化和系统级集成来实现能效的指数级提升, 并呼吁学术界、工业界和政府采取协调行动.

Reclaiming Lost Text Layers for Source-Free Cross-Domain Few-Shot Learning

Zhenyu Zhang et al.

cs.AI

本文针对 Source-Free Cross-Domain Few-Shot Learning (SF-CDFSL) 任务，发现 CLIP 等模型的 text encoder 中间层信息未被充分利用。作者提出了一种方法，在层和编码器层面引导模型重新利用这些“丢失层”的信息，以提升跨域少样本学习性能。

GCAgent: Enhancing Group Chat Communication through Dialogue Agents System

Zijie Meng et al.

cs.AI

本文提出了一个名为GCAgent的LLM驱动系统，旨在通过引入对话agent来增强群聊的活跃度和实用性。该系统通过定制化agent、管理对话状态和提供交互工具来提升多参与者场景下的沟通效果。

X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

Gao Tianxi et al.

cs.AI

本文提出了一种名为X-RAY的可解释分析系统, 用于评估大型语言模型(LLMs)的推理能力. 该系统通过形式化工具生成经过校准的探针, 将推理能力建模为可提取的结构函数, 并揭示了LLMs在解空间结构变化下的系统性缺陷.

STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks

ELita Lobo et al.

cs.AI

本文提出了一种名为STRUCTUREDAGENT的分层规划框架，用于解决基于大语言模型(LLM)的智能体(agent)在复杂、长视野网页任务中面临的挑战。该框架通过动态AND/OR树进行高效搜索，并利用结构化记忆模块来跟踪候选解决方案，从而提升了任务完成率。

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Sicheng Fan et al.

cs.AI cs.CV

本文介绍了WebChain, 这是一个大规模、开源、由人工标注的真实网站交互轨迹数据集, 旨在推动网络智能体(agent)的可复现研究. 基于此数据集, 作者提出了一种解耦空间定位与规划的双重中间训练方法, 并在多个基准测试中取得了先进性能.

UniSTOK: Uniform Inductive Spatio-Temporal Kriging

Lewei Xie et al.

cs.AI

本文提出了一个名为UniSTOK的即插即用框架，用于增强现有inductive kriging模型在观测数据存在缺失情况下的性能。该方法通过构建包含原始观测和合成代理信号的双分支输入，并利用共享的时空主干网络与自适应融合机制来处理缺失值带来的挑战。

Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

Nghi D. Q. Bui

cs.AI

本文介绍了OPENDEV, 一个为终端环境设计的开源AI编码代理系统. 它通过复合AI系统架构, 双代理设计以及自适应上下文管理等技术, 旨在为长周期开发任务提供安全, 高效的自主编码辅助.

Ailed: A Psyche-Driven Chess Engine with Dynamic Emotional Modulation

Diego Armando Resendez Prado

cs.AI cs.HC

本文提出了一种将静态 personality 与动态 psyche 相结合的框架, 通过一个音频信号处理链实时调整国际象棋引擎的走子概率分布, 以模拟人类棋手在压力或自信状态下的行为变化. 实验表明该框架能有效产生与底层模型无关的行为梯度, 但其效果尚未经过人类棋手验证.

PACE: A Personalized Adaptive Curriculum Engine for 9-1-1 Call-taker Training

Zirong Chen, Hongchao Zhang, Meiyi Ma

cs.AI

本文提出了一种用于911接线员培训的个性化自适应课程引擎PACE. 该系统通过维护学员技能状态的信念、建模学习与遗忘动态, 并推荐平衡新技能获取与旧技能保持的训练场景, 来辅助培训师决策. 实证结果显示, PACE在达到能力的时间和最终掌握程度上均优于现有框架.

Legal interpretation and AI: from expert systems to argumentation and LLMs

Václav Janeček, Giovanni Sartor

cs.AI

本文回顾了AI与法律交叉研究中关于法律解释的三种主要技术路径: expert systems, argumentation 和 machine learning. 它概述了每种方法如何从知识工程、论证建模到自动化生成方面处理法律解释问题.

Judge Reliability Harness: Stress Testing the Reliability of LLM Judges

Sunishchal Dev et al.

cs.AI

本文介绍了一个用于测试LLM judges可靠性的开源工具Judge Reliability Harness. 该工具能生成测试套件, 评估LLM judges在多种任务格式下的判断准确性和评分表现.

Dissociating Direct Access from Inference in AI Introspection

Harvey Lederman, Kyle Mahowald

cs.AI cs.CL

本文研究了AI模型内省(introspection)的机制, 区分了基于概率匹配(probability-matching)的推断和直接访问(direct access)内部状态两种途径. 研究发现, 直接访问机制是内容无关的(content-agnostic), 模型能检测到异常但无法可靠识别其语义内容. 这一发现与哲学和心理学的相关理论一致.

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Yifan Zhu et al.

cs.AI cs.CL

本文提出了分布式部分信息谜题(DPIP)这一协作构建任务, 用于研究认知不对称下的共同基础建立. 作者构建了一个包含语音、手势和动作的多模态交互数据集, 并评估了基于大语言模型(LLM)和动态认知逻辑(DEL)的两种建模范式, 发现该任务对LLM的信念状态追踪能力构成了挑战.

Towards Provably Unbiased LLM Judges via Bias-Bounded Evaluation

Benjamin Feuer, Lucas Rosenblatt, Oussama Elachqar

cs.AI

本文提出了一个名为average bias-boundedness (A-BB)的算法框架，旨在为LLM作为评估者（LLM-as-a-Judge）提供可证明的、减少偏见影响的保证。该框架在Arena-Hard-Auto数据集上进行了评估，结果显示在控制偏见的同时，能保持与原始排名较高的相关性。

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Shangwen Sun et al.

cs.AI cs.CL

本文研究了Transformer语言模型中常见的两种现象: massive activations和attention sinks. 通过实验分析, 作者认为这两种现象是Transformer架构设计导致的, 并分别阐述了它们的功能.

cs.IR

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Jerome Tze-Hou Hsu

cs.IR cs.CL

本文提出了一个用于信息检索和RAG系统基准测试的模块化框架SearchGym. 它将数据表示, 嵌入策略和检索逻辑解耦, 并分析了混合检索中语义排序与结构化过滤的顺序问题.

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

Eric Y. Kim, Jie Huang

cs.IR cs.AI cs.CL

本文提出了一个用于评估AI agent在金融数据检索任务中表现的基准测试FinRetrieval. 该基准包含500个问题, 并评估了多个前沿模型的性能, 发现工具可用性对结果影响巨大.

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy

cs.IR cs.CL cs.CY

本文提出了一种基于 Large Language Model (LLM) 的框架，用于从非结构化的乘客评论中提取细粒度的服务质量洞察。该方法分析了超过16,000条航空公司评论，识别出传统指标可能忽略的具体服务问题，为航空业提供了可操作的战略情报。

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Nathan Kuissi et al.

cs.IR cs.AI cs.CL

本文评估了技术领域检索基准FreshStack中时间性语料库漂移的影响. 通过比较2024年和2025年的语料快照, 研究发现查询支持度保持稳定, 且检索模型的排名仅有微小变化.

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Maojun Sun et al.

cs.IR cs.AI cs.CL

本文提出了DARE, 一个用于R包检索的轻量级嵌入模型, 它通过融合数据分布信息来改进函数表示. 作者还构建了一个R包知识库和一个面向R的LLM智能体, 并在统计分析任务上验证了其有效性.

Scaling Laws for Reranking in Information Retrieval

Rahul Seetharaman et al.

cs.IR

本文首次系统研究了信息检索中重排序模型的 scaling laws, 分析了 pointwise, pairwise 和 listwise 三种范式在不同模型大小和数据规模下的性能表现. 研究发现, 对于 cross-encoder 重排序器, 其性能遵循可预测的幂律规律, 这使得可以通过小规模实验来准确预测更大模型的性能, 从而节省大量计算资源.

Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval

Qujiaheng Zhang, Guagnyue Xu, Fengjie Li

cs.IR

本文研究了电子商务领域中的多模态检索问题, 提出了一种新颖的模态融合网络来整合产品图像与文本信息. 该方法通过领域特定的微调和两阶段对齐策略提升了检索效果, 并在大规模数据集上验证了其有效性.

Detecting RAG Advertisements Across Advertising Styles

Sebastian Heineking et al.

cs.IR

本文研究了在LLM生成的RAG系统响应中检测广告的问题. 作者提出了一个广告风格分类法, 并评估了多种检测方法在不同广告风格变化下的鲁棒性.

Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Sirui Huang et al.

cs.IR cs.AI

本文提出了一种名为Time-aware Inverse Propensity Scoring (TIPS)的方法，用于解决序列推荐中的选择偏差和曝光偏差问题。该方法通过建模序列依赖性和时间动态来更准确地估计用户偏好，实验表明其能有效提升多种序列推荐器的性能。

Core-based Hierarchies for Efficient GraphRAG

Jakir Hossain, Ahmet Erdem Sarıyüce

cs.IR cs.CL

本文提出了一种基于k-core分解的确定性方法来构建GraphRAG中的知识图谱层次结构, 以解决现有Leiden聚类方法在稀疏图上因模块度优化存在大量近似最优解而导致结果不可复现的问题. 该方法通过轻量级启发式算法构建社区并进行预算感知的采样, 在多个真实数据集上验证了其在提升答案全面性和多样性的同时降低了计算成本.

cs.CL

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Mohamed El Idrissi

cs.CL cs.AI

本文提出了一种基于 set-valued set function 的数学模型，用于描述和预测词汇在形态模板上的动态非线性映射。该模型为理解跨语言的形态标记复杂性提供了一个统一的形式化框架。

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

Zhehao Tan et al.

cs.CL cs.AI

本文提出了一种基于对比似然奖励的强化学习框架 CTRL-RAG, 用于提升检索增强生成模型在上下文忠实度方面的表现. 该方法通过优化模型在有/无支持证据条件下的对数似然差距来构建内部奖励, 并与外部奖励结合, 在多个基准测试上取得了良好效果.

Semantic Containment as a Fundamental Property of Emergent Misalignment

Rohan Saxena

cs.CL cs.AI

本文研究了在有害数据上微调语言模型时, 仅使用带触发词的有害样本(不含良性数据)是否仍能导致模型行为被"隔离"在特定上下文中. 实验表明, 即使没有良性数据作为对比, 语义触发词本身就能诱导模型将有害行为限制在特定语境下, 这暴露了标准评估可能无法检测的安全漏洞.

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

Luzhou Peng et al.

cs.CL

本文提出了一种名为"Probing Memes"的新评估范式, 用于分析大型语言模型(LLMs). 该范式将模型和数据视为一个纠缠的整体, 通过构建Perception Matrix来刻画模型与数据项之间的交互, 从而揭示传统评估方法所忽略的群体行为多样性.

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

Nora Petrova, Andrew Gordon, Enzo Blindow

cs.CL cs.AI cs.HC

本文提出了一个名为HUMAINE的多维人口统计感知框架, 用于评估人类与大型语言模型(LLM)的交互. 该研究通过分层贝叶斯Bradley-Terry-Davidson模型分析大规模、分层的人口统计数据, 揭示了模型偏好存在显著的异质性, 并强调了超越单一技术指标的评估必要性.

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Omar Abdelnasser et al.

cs.CL cs.AI

本文提出了一个用于评估阿拉伯语语言模型安全性的标准化基准SalamaBench, 包含12个危害类别. 通过评估多个先进模型, 发现其安全对齐表现存在显著差异, 并指出需要针对特定危害类别进行专门评估.

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

Liming Lu et al.

cs.CL cs.AI cs.LG

本文提出了一种名为DynaKV的后训练框架, 用于对大型语言模型推理过程中的Key-Value cache进行低秩压缩. 该方法根据token的语义动态分配压缩率, 在保持生成质量的同时显著减少了内存占用.

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

O.V. Usatenko, S.S. Melnyk, G.M. Pritula

cs.CL

本文探讨了使用N阶加性Markov链来近似大型语言模型(LLM)动态的理论可行性. 通过将下一个token的条件概率分解为多个历史深度的贡献叠加, 该模型旨在缓解高维状态空间中的组合爆炸问题.

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha

cs.CL cs.AI

本文提出了一种名为ICR的定性评估指标, 用于评估LLM生成文本摘要中的语义准确性. 该框架整合了符号学和阐释学, 通过实证比较发现LLM在捕捉上下文意义方面存在不足.

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

Mahmoud Abusaqer, Jamil Saquer

cs.CL

本文提出了一种结合Transformer attention与Graph Convolutional Networks的模型RoBERTa-OTA, 用于多类别仇恨言论检测. 该方法通过引入ontology-guided attention机制整合结构化知识, 在多个数据集上取得了优于基准模型的性能.

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Ruobing Zheng et al.

cs.CL cs.CV

本文提出了一个名为 Dual Tuning 的框架，用于评估在给定基础模型和数据集下，推理训练是否对目标任务有益。通过量化比较 Chain-of-Thought 和 Direct-Answer 训练模式的收益，该研究定义了“Thinking Boundary”来衡量多模态任务中推理训练的适用性，并挑战了“一切皆需推理”的范式。

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

Rabab Alkhalifa

cs.CL

本文提出了一种基于可靠性的弱监督框架, 用于阿拉伯语社交媒体中的情感预测. 该方法利用多个LLM代理的推理分歧作为信号, 通过QUBO优化选择可靠的数据子集, 并在实验中显示出一定的泛化能力.

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Fiona Lau

cs.CL

本文研究了将大型语言模型(LLM)作为自动评分员时的评分不一致性问题。研究通过实验评估了多个主流模型在不同温度设置下对相同输入评分的稳定性，发现模型间存在系统性差异，这对依赖此类评分的生产流程的可靠性提出了挑战。

Context-Dependent Affordance Computation in Vision-Language Models

Murad Farzulla

cs.CL cs.AI cs.LG

本文通过大规模计算实验研究了视觉语言模型(VLMs)中情境依赖的affordance计算现象. 实验表明, 模型对场景的描述会因预设的agent身份(如厨师、儿童)而发生显著变化, 这种变化在词汇层面尤为明显. 研究结果揭示了VLMs输出高度依赖上下文提示的特性, 并建议机器人学应考虑动态的、查询依赖的本体构建方法.

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

Grace Chang Yuan et al.

cs.CL cs.AI cs.MA

本文比较了单一供应商与混合供应商的多智能体大语言模型(LLM)系统在临床诊断任务上的表现. 研究发现, 混合供应商的配置通过汇集互补的归纳偏差, 取得了更优的诊断准确率.

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Gürsel Akdeniz, Emin Cagatay Nakilcioglu

cs.CL cs.AI

本文提出了一种结合Self-Instruct和LoRA的方法，用于生成符合国际海事组织标准海事通信用语(SMCP)的、逼真的海事无线电对话。该方法通过一个包含26个过滤器的验证流程来确保生成内容的合规性与准确性，并引入了结合自动与专家评估的新框架来衡量数据集质量。

What Is Missing: Interpretable Ratings for Large Language Model Outputs

Nicholas Stranges, Yimin Yang

cs.CL cs.AI

本文提出了一种名为"What Is Missing (WIM)"的评分系统，用于生成基于自然语言反馈的LLM输出排名。该方法通过计算模型输出与反馈文本的语义相似度来获得可解释的标量评分，旨在改善偏好学习数据的信号质量。

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Zonglin Yang et al.

cs.CL cs.AI

本文提出了一个用于燃烧科学领域大语言模型知识注入与评估的端到端框架. 该框架包含一个多模态知识库、一个自动化评估基准以及一个三阶段的知识注入路径. 研究表明, 仅使用检索增强生成(RAG)存在性能上限, 构建领域基础模型需要结合知识图谱和持续预训练.

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Wai Tuck Wong, Jun Sun, Arunesh Sinha

cs.CL cs.AI cs.LG

本文提出了一种针对multimodal large language models的新型性能退化攻击方法。该方法通过优化一个旨在最大化模型推理阶段数值不稳定的损失项来构造对抗图像，并在多个先进模型和标准数据集上验证了其有效性。

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

Michael Majurski, Cynthia Matuszek

cs.CL cs.AI

本文探讨了在语言模型中，如何利用不包含答案的背景上下文信息来改写查询以降低歧义，从而提高模型在基准测试上的准确率。实验表明，结合检索增强生成(RAG)与查询改写能显著提升性能，且这种改进无法仅通过推理时的提示完全复现。

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

Junlong Tong et al.

cs.CL

本文对streaming LLMs进行了系统性的综述与分类, 旨在澄清该领域内定义模糊的问题. 文章提出了一个基于数据流与动态交互的统一框架, 并讨论了相关应用与未来研究方向.

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Lei Huang et al.

cs.CL cs.AI

本文提出了一个名为GOLF的强化学习框架, 该框架利用群体层面的自然语言反馈来引导智能体进行更有针对性的探索. 它将外部批评和组内尝试等反馈聚合为高质量的策略修正, 并作为离轨支架注入训练, 从而在稀疏奖励环境中提升样本效率.

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

Xin Chen, Saili Uday Gadgil, Jiarong Qiu

cs.CL

本文提出了一种检索增强生成方法, 通过协调建模检索与生成阶段, 将语义对齐与证据约束相结合. 该方法旨在改善检索结果与生成目标之间的语义失准问题, 并增强对证据的利用, 从而提升生成内容的可靠性与可验证性.

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

Preetam Prabhu Srikar Dammu et al.

cs.CL cs.IR cs.LG cs.MA

本文提出了一个名为 iAgentBench 的动态开放域问答基准测试, 旨在评估信息寻求智能体在需要整合多源证据的高流量话题上的理解能力. 该基准通过模拟真实用户意图构建问题, 并提供了可追溯的证据和中间产物以支持细粒度的性能诊断.

Stan: An LLM-based thermodynamics course assistant

Eric M. Furst, Vasudevan Venkateshwaran

cs.CL cs.CY physics.ed-ph

本文介绍了一个名为Stan的基于大语言模型(LLM)的课程辅助工具套件, 它利用共享的课程资料(如讲座录音和结构化教材索引)构建数据管道, 同时服务于学生和教师. 该系统完全在本地硬件上运行开源模型, 确保了数据隐私和可复现性.

Optimizing Language Models for Crosslingual Knowledge Consistency

Tianyu Liu et al.

cs.CL cs.AI

本文提出了一种名为Direct Consistency Optimization (DCO)的方法, 用于提升多语言大语言模型(LLM)的跨语言知识一致性. 该方法无需显式的奖励模型, 通过强化学习优化策略, 在多种LLM和任务上有效减少了不同语言间回答的不一致性.

Non-Zipfian Distribution of Stopwords and Subset Selection Models

Wentian Li, Oscar Fontanelli

cs.CL

本文研究了stopwords(停用词)在文本中的频率分布特性. 研究发现, 停用词的rank-frequency分布不符合Zipf's law, 而更适合用Beta Rank Function (BRF)来拟合. 基于此观察, 作者提出了一个基于Hill's function的停用词选择概率模型.

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Brian Jing Hong Nge et al.

cs.CL cs.AI

本文评估了数据增强与特征增强技术在仇恨言论检测中的应用, 比较了传统分类器(如 Delta TF-IDF)与基于 Transformer 的模型在不同数据集上的表现. 研究发现, 开源模型 gpt-oss-20b 表现最佳, 而 Delta TF-IDF 对数据增强反应显著, 同时确认了隐式仇恨言论检测的难度更高.

Detection of Illicit Content on Online Marketplaces using Large Language Models

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson

cs.CL cs.AI

本文评估了大型语言模型(Llama 3.2和Gemma 3)在检测在线市场非法内容方面的性能。实验表明，在复杂的多分类任务中，LLMs的表现优于传统机器学习方法。

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Kylie Zhang et al.

cs.CL cs.AI

本文探讨了AI模型在模拟法庭口头辩论中法官特定提问的潜力, 用于法律教育的模拟法庭训练. 作者提出了一个双层评估框架, 结合了真实性和教学有用性的代理指标, 发现模拟问题在真实性上表现尚可, 但在问题多样性和模型顺从性方面存在明显不足.

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Bosi Wen et al.

cs.CL

本文提出了一个用于评估大语言模型遵循指令能力的元评测基准 IF-RewardBench. 该基准通过构建包含多个响应的偏好图, 支持对评判模型进行列表式评估, 实验表明其与下游任务性能有更强的相关性.

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

Wei Han, Pan Zhou, Shuicheng Yan

cs.CL cs.AI

本文提出了一种名为SharedLLM的框架, 通过堆叠两个短上下文LLM来扩展上下文窗口. 下层模型作为压缩器, 将长输入压缩为多粒度表示, 上层模型作为解码器进行上下文感知处理, 从而在仅用8K token训练的情况下, 有效处理超过128K token的输入, 并在效率和准确性之间取得了良好平衡.

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

Yebo Wu et al.

cs.CL cs.AI

本文提出了TSEmbed框架，通过结合Mixture-of-Experts (MoE)与Low-Rank Adaptation (LoRA)来解决多模态嵌入模型中的任务冲突问题。该框架引入了一种新的负采样策略和两阶段训练范式，在多个基准测试中取得了先进性能。

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

Edward Zhang

cs.CL cs.AI

本文提出了Attention Gravitational Field (AGF)的概念，用于解释大语言模型中位置关系与编码的机制。通过将位置编码与语义嵌入解耦，该方法优化了模型架构并取得了更好的性能。

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Natchanon Pollertlam, Witchayut Kornsuwannawit

cs.CL

本文比较了在持久对话AI系统中使用长上下文LLM与基于事实的记忆系统在成本和性能上的差异. 通过构建包含提示缓存的成本模型, 分析了两者在不同交互轮次下的经济性, 为实际部署提供了选择依据.

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Michael Hardy

cs.CL cs.CY

本文通过元分析评估了LLM在自动短答案评分任务中的表现. 研究发现, 解码器架构在人类一致性方面表现不佳, 且模型性能与人类评分难度无关, 并揭示了模型在词汇和分词上的敏感性及潜在的偏见问题.

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

Ruiqi Zhang et al.

cs.CL

本文提出了一种基于梯度偏差分数(GDS)的方法来检测大语言模型(LLM)的预训练数据。该方法通过分析目标样本在模型参数更新中的梯度特征（如幅度、位置和集中度）来区分成员与非成员数据，实验表明其在多个数据集上优于现有基线并具有更好的跨数据集可迁移性。

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

Minduli Lasandi, Nevidu Jayatilleke

cs.CL

本文构建了一个名为SinhaLegal的僧伽罗语立法文本语料库, 包含约200万词, 并进行了全面的评估分析. 该语料库旨在支持NLP任务, 以弥补僧伽罗语法律研究资源的不足.

HACHIMI: Scalable and Controllable Student Persona Generation via Orchestrated Agents

Yilin Jiang et al.

cs.CL

本文提出了一个名为HACHIMI的多智能体框架，用于生成与教育理论对齐且分布可控的学生画像。该方法通过分解画像结构、进行神经符号验证并结合分层抽样来提升多样性与可控性，生成了一个包含百万级画像的语料库用于教育大语言模型的基准测试。

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

Yunfan Zhang et al.

cs.CL cs.SE

本文提出了一个名为 FireBench 的基准测试，用于评估大语言模型在企业级和 API 驱动场景下的指令遵循能力。该基准基于真实使用模式构建，涵盖了信息抽取、客户支持等多个应用维度。

Free Lunch for Pass@$k$? Low Cost Diverse Sampling for Diffusion Language Models

Sean Lamont et al.

cs.CL cs.AI

本文提出了一种无需额外训练的低成本方法, 用于提升 Diffusion Language Models 在文本生成任务中的输出多样性. 该方法通过在批次采样过程中引入序列化的排斥机制, 有效减少了样本间的冗余, 从而在 HumanEval 和 GSM8K 等基准测试上提高了 Pass@$k$ 性能.

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Arina Kostina et al.

cs.CL

本文评估了大型语言模型(LLMs)在基于Schwartz价值理论框架分析开放式访谈中的价值取向任务上的表现。研究发现，LLMs在集合匹配指标上接近人类专家水平，但在精确排序和不确定性模式上与专家存在差异。

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Panagiotis Alexios Spanakis et al.

cs.CL

本文提出了一种用于心理语言学标记提取和阴谋论认可检测的新型智能体化LLM流程。该方法通过解耦设计和对抗性架构来处理语义推理与结构定位的挑战。

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

Stavros Gazetas et al.

cs.CL

本文提出了AILS-NTUA系统, 用于解决Dimensional Aspect-Based Sentiment Analysis (DimABSA)任务. 该方法结合了针对特定语言的encoder微调与基于LoRA的大语言模型指令调优, 在多语言和多领域设置下取得了有竞争力的性能.

Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition

Mengze Hong et al.

cs.CL

本文针对联邦学习中混合自动语音识别系统的语言模型异构性问题, 提出了一个匹配与合并的优化范式. 该范式包含两种算法, 实验表明其在多个数据集上能有效降低字符错误率并提升泛化能力.

LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services

Jinwen Chen et al.

cs.CL

本文提出了一个名为LocalSUG的、基于LLM的查询建议框架，专门用于本地生活服务平台。该框架通过引入城市感知的候选挖掘、改进的偏好优化算法以及加速推理技术，旨在解决LLM在该领域应用时遇到的地理信息缺失、曝光偏差和延迟高等挑战。

Replaying pre-training data improves fine-tuning

Suhas Kotha, Percy Liang

cs.CL cs.LG

本文探讨了在语言模型 fine-tuning 阶段重放通用预训练数据对提升目标领域性能的影响。研究发现，这种重放策略能有效提高目标数据的使用效率，并在实际应用中提升了 agentic web navigation 和 Basque question-answering 任务的性能。

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

Amirabbas Afzali, Myeongho Jeon, Maria Brbic

cs.CL cs.AI

本文提出了一种名为 Confidence-Weighted Preference Optimization (CW-PO) 的框架, 利用弱 LLM 的置信度来重新加权偏好对齐的训练样本. 该方法能够显著降低对齐成本, 并在仅使用部分人工标注数据的情况下, 达到甚至超越使用全量人工标注的标准方法 (如 DPO) 的性能.

MPCEval: A Benchmark for Multi-Party Conversation Generation

Minxing Zhang et al.

cs.CL cs.AI

本文提出了一个用于评估多轮多方对话生成质量的基准测试套件MPCEval. 该基准将生成质量分解为多个维度, 并提供了可扩展的、无需参考的量化指标, 用于系统性地评估不同模型在多轮对话中的表现.

VRM: Teaching Reward Models to Understand Authentic Human Preferences

Biao Liu et al.

cs.CL

本文提出了一个名为VRM的新框架, 用于改进大语言模型对齐中的奖励模型. 该框架通过变分推断技术, 将人类偏好评判过程中的高维目标权重和低维语义特征建模为隐变量, 以更准确地捕捉真实的人类偏好. 实验表明, VRM在基准数据集上优于现有方法.

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

Trapoom Ukarapol et al.

cs.CL

本文构建了一个针对泰语文化背景的大语言模型安全性评测基准 ThaiSafetyBench, 并评估了多个模型. 研究发现, 针对泰国特定文化背景的攻击成功率更高, 凸显了现有安全对齐方法的漏洞.

HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation

Yifan Zhu et al.

cs.CL

本文提出了一个用于约束性长文本生成的分层反馈驱动优化框架 HiFlow. 该框架通过规划层和生成层的两级优化与闭环反馈, 提升了生成文本在全局结构、局部语义和约束满足方面的质量.

NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension

Rongzhi Li, Hitomi Yanaka

cs.CL

本文提出了一种名为NeuronMoE的方法, 用于指导MoE架构中专家数量的分配. 该方法通过分析transformer模型中语言特定的神经元活动, 为每一层分配专家, 从而在扩展多语言大语言模型时减少参数数量.

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

Inayat Arshad, Fajar Saleem, Ijaz Hussain

cs.CL cs.AI

本文提出了一种结合multilingual transformer与conditional random fields (CRF)的模型MUTEX, 用于Urdu文本中有毒片段(token-level)的检测. 该模型在社交媒体等多领域数据上进行了测试, 为Urdu有毒片段检测建立了首个监督基线.

ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

Jens Lehmann et al.

cs.CL cs.AI cs.LG

本文提出了一个用于生成ARC-AGI任务的框架ARC-TGI，它通过可编程的任务生成器来创建多样化的视觉推理谜题，并提供了自然语言推理链和部分代码。该框架旨在解决静态数据集带来的过拟合等问题，并支持任务级约束以确保生成的任务对人类可解。

Measuring the Redundancy of Decoder Layers in SpeechLLMs

Adel Moumen, Guangzhi Sun, Philip C Woodland

cs.CL cs.AI

本文研究了SpeechLLMs中decoder层的冗余性, 发现冗余结构主要继承自预训练的LLM, 并且在不同的语音任务和编码器之间具有一致性. 通过剪枝实验表明, 即使移除大量decoder层, 模型性能仍能保持, 这为部署更高效的模型提供了依据.

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

Yewen Li et al.

cs.CL cs.AI

本文提出了一种用于在线广告自动出价的分层模型LBM, 它结合了大型语言模型(LLM)的推理能力和一个专门的动作生成模型. 该方法通过双模态嵌入融合语言与数值信息, 并采用离线强化学习微调来提升决策性能, 在实验中被证明具有较好的训练效率和泛化能力.

Representation Fidelity:Auditing Algorithmic Decisions About Humans Using Self-Descriptions

Theresa Elstner, Martin Potthast

cs.CL

本文提出了一种通过衡量表征保真度来验证关于人类的算法决策的新维度. 该方法通过比较算法输入的外部表征与人类自我描述之间的差异来评估决策的合理性, 并基于贷款决策数据集构建了首个基准.

Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang

cs.CL cs.LG

本文从理论角度研究了Transformer模型中的类比推理机制. 作者证明了联合训练、顺序课程以及显式数据桥接对实现类比推理的必要性, 并通过实验验证了表征几何形状对归纳推理能力的影响.

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Avni Mittal, Rauno Arike

cs.CL cs.AI

本文提出了一个名为C2-Faith的基准测试，用于评估大型语言模型(LLM)在判断思维链(CoT)推理的忠实性方面的能力。研究发现，模型的评估表现高度依赖于任务设置，且所有模型在错误定位和覆盖率判断上都存在系统性缺陷。

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Di Zhang et al.

cs.CL

本文提出了Sparse-BitNet框架，首次将1.58-bit量化与动态N:M半结构化稀疏化联合应用于大语言模型(LLMs)的训练中。实验表明，1.58-bit模型比全精度模型更能容忍高稀疏度，并在定制稀疏张量核心上实现了训练和推理的加速。

Guidelines for the Annotation and Visualization of Legal Argumentation Structures in Chinese Judicial Decisions

Kun Chen et al.

cs.CL cs.AI

本文提出了一套用于标注和可视化中国司法判决书中法律论证结构的系统性框架. 该框架在命题层面定义了四种类型, 在关系层面定义了五种类型, 以揭示司法推理的逻辑组织, 并为计算分析提供可靠的数据基础.

Transducing Language Models

Vésteinn Snæbjarnarson et al.

cs.CL

本文提出了一个基于确定性字符串到字符串变换的语言模型框架, 重点研究了可表示为有限状态转换器(FST)的变换. 作者开发了将语言模型与FST组合的算法, 以在推理时适配预训练模型, 使其输出满足特定应用格式, 并在多个领域进行了实验验证.

Diffusion LLMs can think EoS-by-EoS

Sarah Breckner, Sebastian Schuster

cs.CL

本文探讨了 diffusion LLMs 在推理任务中利用 end-of-sequence (EoS) 标记作为“隐藏草稿纸”的现象。通过行为实验和因果干预，作者验证了模型确实通过 EoS 标记进行内部计算，从而提升了解决复杂问题的能力。

Distilling Formal Logic into Neural Spaces: A Kernel Alignment Approach for Signal Temporal Logic

Sara Candussio et al.

cs.CL cs.SC

本文提出了一种通过知识蒸馏将形式逻辑规范的语义几何结构融入神经表示的方法. 该方法利用一个teacher-student框架, 将符号化的robustness kernel（鲁棒性核）蒸馏到一个Transformer编码器中, 从而生成可高效计算的连续嵌入.

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

Ofir Ben Shoham

cs.CL cs.AI cs.LG

本文提出了一种通过裁剪草稿模型的词汇表来优化推测解码(speculative decoding)性能的方法. 该方法将词汇选择建模为一个平衡token覆盖率和草稿延迟的约束优化问题, 并在特定领域任务上实现了吞吐量的提升.

VietJobs: A Vietnamese Job Advertisement Dataset

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj

cs.CL

本文介绍了首个大规模、公开可用的越南语招聘广告数据集 VietJobs, 包含超过4.8万条广告和1500万词, 覆盖越南所有省份和多种职业领域. 该数据集旨在支持自然语言处理和劳动力市场分析研究, 作者还基于此数据集对多个大语言模型在职位分类和薪资预测任务上进行了基准测试.

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Mohammad Mamun Or Rashid

cs.CL cs.HC

本文介绍了孟加拉国首个国家级多语言平行多模态语料库的构建工作. 该数据集涵盖了42种语言变体, 包含大量文本条目和音频录音, 旨在为濒危语言记录和低资源自然语言处理研究提供资源.

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Qiao Jin et al.

cs.CL cs.AI

本文提出了一个名为Med-V1的小型语言模型家族, 专门用于生物医学证据归因任务. 该模型在合成数据上训练, 在多个生物医学验证基准上表现优异, 并可用于量化大语言模型生成内容中的幻觉.

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery

cs.CL cs.AI

本文提出了一个用于波斯语标点恢复的大规模数据集 PersianPunc, 并基于 ParsBERT 模型构建了一个高效的序列标注方法. 该方法在保持实时应用效率的同时取得了高准确率, 并指出了大型语言模型在此任务上的局限性.

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

Stefan Bott et al.

cs.CL

本文构建了一个包含西班牙语、加泰罗尼亚语和意大利语原文及其人工简化版本的多语言语料库，旨在支持民主参与过程的可访问性研究。该语料库为自动文本简化任务提供了高质量的训练和评估资源。

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Carlos Carvalho et al.

cs.CL eess.AS

本文研究了模型合并(model merging)在多领域自动语音识别(ASR)中的应用与局限. 通过评估11种合并算法在10个葡萄牙语领域的表现, 并提出了改进算法BoostedTSV-M, 实验表明该方法在保持泛化能力的同时, 性能优于完全微调(full fine-tuning).

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

Mohammad Mahdi Moradi, Sudhir Mudur

cs.CL

本文提出了一种基于共识引导的自课程框架 DiSCTT, 用于在推理任务中进行高效的测试时适应. 该方法根据推理路径的一致性动态分配优化策略, 在多个数学和通用推理基准上取得了优于基线方法的效果.

Progressive Residual Warmup for Language Model Pretraining

Tianhao Chen et al.

cs.CL

本文提出了一种用于语言模型预训练的新方法 Progressive Residual Warmup (ProRes). 该方法通过逐步增加网络深层残差连接的权重来稳定训练并加速收敛, 实验表明其在多种模型规模下均能提升性能.

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough

cs.CL

本文通过引入一种探索-分析-消歧的推理框架, 改进了低参数大语言模型在词义消歧任务上的表现. 实验表明, 经过特定策略微调的小模型可以达到与大型模型相当的性能, 同时显著降低了计算成本.

Ensembling Language Models with Sequential Monte Carlo

Robin Shing Moon Chan et al.

cs.CL cs.AI cs.LG

本文提出了一种基于 sequential Monte Carlo (SMC) 的框架，用于在解码阶段集成多个语言模型。该方法允许组合具有不同词汇表的模型，并通过实验表明，在某些文本生成任务上，替代的聚合策略优于传统的概率平均。

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Ted Zadouri et al.

cs.CL

本文针对新一代Blackwell GPU架构的硬件特性, 提出了FlashAttention-4算法与内核流水线协同设计方案. 通过重新设计异步MMA流水线, 软件模拟指数运算以及利用tensor memory等技术, 有效缓解了硬件非对称扩展带来的瓶颈, 在B200 GPU上实现了显著的性能提升.

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Klaywert Danillo Ferreira de Souza et al.

cs.CL cs.DB

本文提出了DEBISS语料库, 一个包含半结构化特征的个人口语辩论数据集. 该语料库旨在弥补现有辩论语料稀缺的不足, 并为多种NLP任务提供了标注, 如语音转文本, 说话人日志, 论据挖掘和辩手质量评估.

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim

cs.CL

本文构建了一个大规模孟加拉语教育问答数据集NCTB-QA, 并评估了多个预训练语言模型在其上的性能. 结果表明, 领域特定的微调对于低资源语言处理至关重要.

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Artem Vazhentsev et al.

cs.CL cs.AI

本文提出了一种无需外部检索、直接利用大型语言模型内部知识进行事实核查的新任务和方法。作者引入了INTRA方法，通过利用模型内部表征的交互来提升性能，并在多个数据集上验证了其有效性。这项工作为基于检索的核查框架提供了一种有潜力的补充方案。

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Siddharth Boppana et al.

cs.CL cs.AI cs.LG

本文通过分析大型语言模型在chain-of-thought推理中的激活模式，揭示了模型在生成最终答案后可能继续“表演性”生成文本的现象。研究比较了不同探测方法，并展示了基于注意力的早期退出策略能有效减少计算开销。

cs.DS

Generalizing Fair Top-$k$ Selection: An Integrative Approach

Guangya Cai

cs.DS cs.CC cs.CG cs.CY cs.DB +1

本文研究了公平 top-$k$ 选择问题的泛化形式, 旨在找到满足多个受保护群体比例约束的线性评分函数, 同时最小化与参考评分函数的差异. 作者通过理论分析揭示了该问题在特定条件下的计算困难性, 并引入了一种新的效用损失差异度量. 通过工程权衡, 提出的解决方案在真实数据集上展现了良好的实证性能.

Finding Short Paths on Simple Polytopes

Alexander E. Black, Raphael Steiner

cs.DS math.CO math.OC

本文证明了在 simple polytope 上计算到达线性规划最优解的最短单调路径是 NP-hard 的, 从而解决了 De Loera 等人提出的一个公开问题. 作为推论, 寻找单纯形法到达最优基的最短 pivot 序列也是 NP-hard 的. 此外, 作者还证明了计算 simple polytope 的直径是 NP-hard 的, 并给出了一个关于存在多项式时间内可找到短路径的扩展公式化的正面结果.

others

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Ekansh Arora

cs.CV cs.AI cs.LG

本文研究了在跨癌症和跨物种条件下微调CPath-CLIP模型对病理学图像分类性能的影响。研究发现，标准的视觉-语言对齐方法在跨物种泛化上存在局限，并提出了名为“语义锚定”的改进方法。

When Scaling Fails: Network and Fabric Effects on Distributed GPU Training Performance

Dinesh Gopalan, Ratul Ali

cs.NI cs.LG

本文通过实证研究揭示了分布式GPU训练在扩展时性能下降的原因, 指出网络拓扑, 拥塞动态和GPU locality等底层fabric效应是关键因素. 研究识别了synchronization amplification等常见故障模式, 并提出了实用的诊断原则.

Data-Driven Optimization of Multi-Generational Cellular Networks: A Performance Classification Framework for Strategic Infrastructure Management

Maryam Sabahat, M. Umar Khan

cs.NI cs.LG

本文基于OpenCelliD项目的数据集，对多代蜂窝网络进行了地理、时间和性能分析。研究通过引入信号密度指标区分了绝对过载与局部拥塞，为网络运营商提供了优化资源分配和升级策略的见解。

Auction-Based RIS Allocation With DRL: Controlling the Cost-Performance Trade-Off

Martin Mark Zan, Stefan Schwarz

cs.NI cs.LG cs.MA

本文研究了多小区无线网络中可重构智能表面(RIS)的分配问题, 提出了一种基于拍卖和深度强化学习(DRL)的动态租赁机制. 通过模拟验证, 该方法能在预算约束下有效权衡成本与频谱效率.

CogGen: Cognitive-Load-Informed Fully Unsupervised Deep Generative Modeling for Compressively Sampled MRI Reconstruction

Qingyong Zhu et al.

eess.IV cs.AI cs.LG

本文提出了一种名为CogGen的认知负荷感知全无监督深度生成模型，用于压缩感知MRI重建。该方法通过渐进式调度任务难度来改善重建的保真度和收敛性。

A systematic approach to answering the easy problems of consciousness based on an executable cognitive system

Qi Zhang

q-bio.NC cs.AI cs.ET

本文基于一个可执行的认知系统, 尝试系统性地解决Chalmers提出的意识"简单问题". 作者认为, 诸如辨别、分类、反应、报告和信息整合等能力源于系统的学习机制, 而注意力和自主控制则与目标导向的情绪状态及信息操纵机制相关.

Explainable Regime Aware Investing

Amine Boukardagha

q-fin.PM cs.LG q-fin.MF

本文提出了一种基于严格因果的Wasserstein Hidden Markov Model的可解释机制感知投资组合构建框架. 该框架将机制推断嵌入到考虑交易成本的均值-方差优化中, 并在多样化资产上进行了回测, 展示了优于基准的风险调整后收益与回撤控制.

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

Emmanuel Bamidele

cs.DC cs.AI cs.LG eess.SY

本文提出了一个用于长运行LLM系统的内存管理框架AMV-L, 通过基于效用的生命周期分层和候选集限制来控制请求路径的计算负载, 从而改善延迟和吞吐量. 实验表明, 相较于传统的TTL和LRU策略, 该框架能显著降低长尾延迟并提高系统性能.

vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models

Xunzhuo Liu et al.

cs.NI cs.AI

本文提出了一个用于混合模态模型部署的信号驱动决策路由框架. 该系统通过可组合的信号编排, 从请求中提取异构信号并组合成路由策略, 以支持多种部署场景.

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Yasmin Moslem, John D. Kelleher

cs.NI cs.CL cs.PF

本文系统性地综述了用于高效LLM推理的动态模型路由与级联方法. 它分析了多种路由范式, 并提出了一个从决策时机、信息使用和计算方式三个维度来刻画路由系统的概念框架.

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Soumik Guha Roy et al.

cs.LO cs.AI cs.LG cs.SE

本文提出了一种名为MPBMC的方法, 用于多属性有界模型检验. 该方法利用图神经网络(GNN)生成的功能嵌入和运行时设计统计信息, 对属性进行智能聚类, 旨在加速验证过程. 在HWMCC基准测试上的实验表明了其有效性.

Large Language Models as Bidding Agents in Repeated HetNet Auction

Ismail Lotfi et al.

cs.NI cs.AI cs.GT

本文提出了一种在异构网络重复频谱拍卖中使用大语言模型作为智能竞价代理的框架. 该框架将资源分配建模为长期经济决策问题, 并通过仿真表明基于大语言模型的代理在信道接入频率和预算效率上优于传统基准策略.

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Junjie Chu et al.

cs.CR cs.AI cs.SE

本文对LLM安全基准测试的学术影响力和代码质量进行了首次多维评估, 分析了31个基准测试和382篇非基准测试论文. 研究发现基准测试论文在学术影响力上并无显著优势, 且作者知名度、论文影响力与代码质量之间存在错位. 代码和补充材料的质量有较大提升空间.

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

Vaishak Kumar

cs.RO cs.LG

本文提出了一个名为Act-Observe-Rewrite (AOR)的框架, 利用多模态语言模型通过分析失败经验来改进机器人操作策略. 该方法通过生成可执行的Python控制器代码来修改底层运动控制, 无需梯度更新或演示.

Dictionary Based Pattern Entropy for Causal Direction Discovery

Harikrishnan N B et al.

stat.ML cs.IT cs.LG

本文提出了一种基于字典的模式熵(DPE)框架,用于从符号序列中发现因果方向. 该方法整合了Algorithmic Information Theory和Shannon Information Theory, 通过构建方向特定的字典并利用基于熵的度量来推断因果方向.

From Spark to Fire: Modeling and Mitigating Error Cascades in LLM-Based Multi-Agent Collaboration

Yizhe Xie et al.

cs.MA cs.AI

本文研究了基于大语言模型的多智能体系统(LLM-MAS)中错误级联传播的风险. 提出了一种基于传播动力学模型的治理层来抑制错误放大, 并在实验中验证了其有效性.

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Nicolò Bonacorsi, Matteo Bordoni

stat.ML cs.LG math.PR math.ST stat.AP

本文从概率机器学习的角度研究了Collatz总停止时间$\tau(n)$的分布特性. 作者基于$n \le 10^7$的数据, 建立了贝叶斯负二项回归模型和一个基于奇块分解的随机生成模型, 并比较了它们的预测性能. 研究发现, 利用$n \bmod 8$等低阶模结构可以显著改善对$\tau(n)$异质性的建模.

AbAffinity: A Large Language Model for Predicting Antibody Binding Affinity against SARS-CoV-2

Faisal Bin Ashraf, Animesh Ray, Stefano Lonardi

q-bio.QM cs.LG

本文提出了一个名为AbAffinity的large language model, 用于预测抗体与SARS-CoV-2刺突蛋白等靶肽的结合亲和力. 该模型利用了人工智能的进展和COVID-19相关的实验抗体数据.

Projected Hessian Learning: Fast Curvature Supervision for Accurate Machine-Learning Interatomic Potentials

Austin Rodriguez et al.

physics.chem-ph cs.AI cs.LG

本文提出了一种名为Projected Hessian Learning (PHL)的可扩展二阶训练框架, 用于机器学习原子间势能. 该方法通过Hessian-vector products (HVPs)注入曲率信息, 避免了显式构建和存储Hessian矩阵的二次方开销. 在多个化学数据集上的实验表明, PHL在保持大部分二阶精度增益的同时, 显著提升了训练速度.

The Volterra signature

Paul P. Hager et al.

stat.ML cs.LG

本文提出了一种称为Volterra signature的显式特征表示方法, 用于处理非Markov时间序列. 该方法通过引入时间核$K$对输入路径$x$进行加权展开, 并利用Volterra-Chen恒等式, 为历史依赖系统提供了具有理论保证的特征提取框架.

A Fast Generative Framework for High-dimensional Posterior Sampling: Application to CMB Delensing

Hadi Sotoudeh, Pablo Lemos, Laurence Perreault-Levasseur

astro-ph.IM astro-ph.CO cs.LG

本文提出了一种用于高维贝叶斯推断的深度生成框架，旨在实现高效的后验采样。该方法应用于CMB去透镜问题，能够从模拟观测中恢复未透镜CMB功率谱，并且对宇宙学参数的变化表现出一定的鲁棒性。

How Professional Visual Artists are Negotiating Generative AI in the Workplace

Harry H. Jiang, Jordan Taylor, William Agnew

cs.HC cs.AI cs.CY

本文通过一项针对378位专业视觉艺术家的调查, 探讨了生成式AI对其职业与工作场所的影响. 研究发现艺术家普遍持反对态度, 并报告了AI带来的负面职业影响.

Abimbola Ogungbire, Srinivas Pulugurtha

stat.AP cs.LG

本文提出了一种基于深度学习的方法来预测天气相关的交通事故风险, 使用了卷积长短期记忆网络(ConvLSTM)集成模型来处理异质的时空数据. 该方法在包含不同天气条件的区域进行了评估, 结果显示其在预测高风险区域的事故风险方面优于基线模型.

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Ancymol Thomas, Jaya Sreevalsan-Nair

cs.CV cs.LG

本文分析了用于多模态遥感数据Local Climate Zone分类的深度学习模型中的多种数据融合与分组策略. 实验表明, 结合了波段分组和标签合并的基线混合融合方法取得了最佳性能.

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Hung Tran et al.

cs.SE cs.AI cs.CL

本文提出了一个用于评估AI模型在端到端Web应用开发能力的新基准Vibe Code Bench, 包含100个应用规范和基于浏览器的自动化评估流程. 通过对16个前沿模型的测试, 发现当前模型在此任务上表现有限, 并分析了自我测试和评估者一致性对结果的影响.

Optimal Prediction-Augmented Algorithms for Testing Independence of Distributions

Maryam Aliakbarpour, Alireza Azizi, Ria Stevens

stat.ML cs.DS cs.LG

本文研究了在预测增强框架下的分布独立性检验问题. 提出的算法在保证最坏情况鲁棒性的同时, 能利用预测信息提升样本效率.

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Prathamesh Pradeep Khole et al.

cs.CV cs.LG q-bio.QM

本文提出了一种名为Spinverse的可微分物理方法, 用于从扩散MRI数据中重建具有渗透率感知的微观结构. 该方法在固定四面体网格上表示组织, 通过优化面渗透率参数来匹配目标信号, 并利用几何先验和多序列优化策略来改善重建的准确性和结构有效性.

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

Yinpei Dai et al.

cs.RO cs.AI

本文提出了一个用于评估机器人通用策略记忆能力的大规模标准化基准 RoboMME, 并基于此基准系统性地探索了多种记忆增强的 vision-language-action 模型变体. 实验表明, 不同记忆表示的有效性高度依赖于具体任务.

GIANT - Global Path Integration and Attentive Graph Networks for Multi-Agent Trajectory Planning

Jonas le Fevre Sejersen, Toyotaro Suzumura, Erdal Kayacan

cs.RO cs.AI

本文提出了一种结合全局路径规划与局部导航的多机器人避障方法, 使用了注意力图神经网络来管理智能体间的动态交互. 该方法在多种模拟场景中表现出更高的成功率与更低的碰撞率.

Improving the accuracy of physics-informed neural networks via last-layer retraining

Saad Qadeer, Panos Stinis

math.NA cs.LG

本文提出了一种通过最后一层重训练来提升Physics-informed neural networks (PINNs) 精度的方法. 该方法引入了一个后处理步骤, 在由网络关联的函数空间中寻找最佳近似, 从而显著降低误差, 并可实现迁移学习.

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

Chenjun Li

cs.CV cs.AI

本文研究了多图像理解任务中 reasoning VLMs 的 text-to-image attention 模式, 发现其存在分散的 "脉冲" 现象和系统性的位置偏差. 作者提出了一种无需训练的方法 PulseFocus, 通过结构化 CoT 推理过程来引导注意力, 在多个基准测试上取得了性能提升.

Why the Brain Consolidates: Predictive Forgetting for Optimal Generalisation

Zafeirios Fountas et al.

q-bio.NC cs.AI cs.LG stat.ML

本文提出了一种称为"预测性遗忘"的理论, 认为大脑通过选择性保留能预测未来结果的信息来优化记忆表征, 以提高泛化能力. 作者通过信息论分析和多种模型仿真支持了这一观点, 为离线记忆巩固提供了超越稳定化的新计算解释.

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Akif Islam, Raufun Nahar, Md. Ekramul Hamid

cs.SD cs.AI cs.LG

本文研究了将SAM-Audio作为预处理步骤对Whisper零样本ASR性能的影响。实验发现，尽管音频质量在信号层面得到提升，但ASR性能反而下降，揭示了人类感知与机器识别之间的不匹配。

SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

Luchang Li et al.

cs.DC cs.IT cs.LG

本文提出了一种结合理论建模与经验基准测试的混合方法, 用于优化大语言模型推理中Prefill和Decode阶段的硬件资源分配. 该方法通过排队论模型和实验测量来确定满足吞吐量与延迟目标的最佳资源配置.

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Sai Shi

cs.CV cs.LG

本文系统评估了用于高光谱图像分类的神经网络压缩方法, 包括 pruning, quantization 和 knowledge distillation. 实验表明压缩模型能在保持分类性能的同时显著减少模型大小和计算成本.

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Shanle Yao et al.

cs.CV cs.AI

本文评估了 multimodal large language models (MLLMs) 在 zero-shot 视频异常检测任务中的表现。研究发现，尽管 MLLMs 展现出高置信度，但其存在明显的保守性偏差，导致 recall 过低，限制了实际应用价值。通过调整 prompt 可以改善性能，但 recall 仍是关键瓶颈。

Quantum Algorithms for Network Signal Coordination

Vinayak Dixit, Richard Pech

quant-ph cs.CC cs.DS cs.NI

本文利用 Grover's search algorithm 为 NP 完全的 Network Signal Coordination (NSC) 问题及其 Robust 变体设计了量子算法. 对于 Robust NSC 问题, 算法在常数鲁棒性参数下迭代次数为 $O(1/\sqrt{\alpha})$, 在多项式精度参数下仍能保持二次量子加速.

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Alexandru Florea et al.

cs.CV cs.AI cs.LG

本文对GPT-5系列模型在临床多模态推理任务上的能力进行了首次对照评估。研究发现，GPT-5在文本推理上进步显著，但在需要精细感知的专科影像任务上，其表现仍落后于专用模型。

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Shiyu Zhang et al.

cs.CV cs.AI

本文提出了DSA-SRGS, 一个用于动态稀疏视角DSA重建的超分辨率高斯溅射框架. 它通过集成多保真度纹理学习和辐射亚像素致密化策略, 提升了重建4D血管模型的细节质量.

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

Linda Wei et al.

cs.CV cs.AI

本文提出了一种用于牙冠设计的自动化框架MADCrowner, 它通过模板变形和细化来生成个性化的牙冠模型. 该方法利用多尺度编码器提取解剖学上下文来变形初始模板, 并引入边缘分割网络来约束变形过程, 以提高几何精度和临床可行性.

Privacy-Aware Camera 2.0 Technical Report

Huan Song et al.

cs.CV cs.CL

本文提出了一种基于AI Flow范式和边云协同架构的隐私保护感知框架. 通过在边缘部署视觉脱敏器, 将原始图像实时转换为抽象特征向量, 确保原始图像在数学上不可重构, 并在云端进行行为识别和语义重建.

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

Anugunj Naman et al.

cs.CV cs.AI

本文提出了一种用于医学图像分割与合成的自适应空间加权方法, 包含用于扩散模型训练的LAW模块和用于高效分割的ORDER模块. 实验表明该方法在息肉和肾脏肿瘤数据集上提升了生成质量和分割精度.

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging. Review Paper

Kiranmayee Janardhan, Vinay Martin DSa Prabhu, T. Christy Bobby

cs.CV cs.AI

本文是一篇关于脑胶质瘤影像分割与分类方法的综述。文章比较了传统方法与深度学习技术, 特别是卷积神经网络(CNN)架构, 并指出后者在这些任务中表现更优。

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

Nan Hou et al.

cs.DB cs.AI cs.CL

本文提出了一种名为CSV的框架, 用于优化基于大语言模型(LLM)的语义过滤操作. 该方法通过聚类、采样和投票策略, 将所需的LLM调用次数降低到亚线性复杂度, 从而显著减少了处理延迟和计算开销.

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Boyu Han et al.

cs.CV cs.AI cs.LG

本文提出了一种名为Diffusion Contrastive Reconstruction (DCR)的方法，旨在平衡CLIP视觉编码器的判别能力和细节感知能力。该方法通过将对比信号注入到基于扩散模型的重建过程中，以优化视觉表示。实验表明该方法在多个基准测试中有效。

The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

Tongtong Liang et al.

stat.ML cs.LG

本文研究了卷积神经网络(CNN)中由局部连接和权重共享引入的归纳偏置如何改变梯度下降在稳定性边缘(edge-of-stability)时产生的隐式正则化效应。理论分析表明，这种结构偏置使CNN能够泛化到全连接网络必然过拟合的高维球面数据分布上。

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees

cs.SD cs.LG

本文提出了一种针对孟加拉语长音频的自动语音识别(ASR)和说话人日志(diarization)的集成解决方案。该方法结合了智能时间戳分块和针对特定领域微调的分割模型，以降低词错误率(WER)和日志错误率(DER)。

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad

cs.CV cs.AI

本文提出了一种名为Meta-D的架构, 通过显式利用MRI扫描的序列和平面方向等分类元数据来引导特征提取, 以提升脑肿瘤分析任务的性能. 该方法在2D肿瘤检测和3D缺失模态分割任务上均展示了性能提升.

Quadratic polarity and polar Fenchel-Young divergences from the canonical Legendre polarity

Frank Nielsen, Basile Plus-Gourdon, Mahito Sugiyama

cs.CG cs.LG

本文探讨了quadratic polarity与Legendre polarity的联系, 并定义了polar Fenchel-Young divergences. 这些结果为信息几何中的对偶性提供了新的理解.

On the Strengths and Weaknesses of Data for Open-set Embodied Assistance

Pradyumna Tambwekar et al.

cs.RO cs.AI cs.LG

本文在合成环境中研究了基于多样化交互数据微调的多模态基础模型在具身辅助任务上的泛化能力. 作者提出了"开放集纠正辅助"任务, 并在Overcooked游戏中生成合成数据集进行实验. 结果表明, 覆盖多模态 grounding, 缺陷推断和多样化场景的数据集对模型性能至关重要.

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Rui Zhao et al.

cs.CV cs.LG

本文提出了一种名为CAD的框架, 用于缓解Instance-Dependent Partial Label Learning中的instance entanglement问题. 该框架通过类内增强对齐与类间加权惩罚来提升分类性能.

SCoUT: Scalable Communication via Utility-Guided Temporal Grouping in Multi-Agent Reinforcement Learning

Manav Vora et al.

cs.MA cs.AI

本文提出了一种名为SCoUT的多智能体强化学习方法，通过引入基于效用的时间分组来解决通信的可扩展性问题。该方法在训练时使用软分组和反事实优势计算来精确分配通信信用，并在执行时保持去中心化。

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Jihwan Lee et al.

eess.AS cs.AI cs.CL

本文介绍了一种同时采集实时MRI视频、EEG和表面EMG数据以研究言语产生过程的方法。该方法通过一个专门的伪影抑制流程来处理多模态采集带来的技术挑战。

Osmosis Distillation: Model Hijacking with the Fewest Samples

Yuchen Shi et al.

cs.CR cs.LG

本文提出了一种名为Osmosis Distillation (OD)的新型模型劫持攻击方法，该方法利用数据集蒸馏生成的合成数据集，在迁移学习场景中仅需极少数中毒样本即可实现攻击。实验表明，该攻击能在保持原任务性能的同时，成功植入并执行隐藏任务，且攻击效果在不同模型架构间具有可迁移性。

Interpretable Pre-Release Baseball Pitch Type Anticipation from Broadcast 3D Kinematics

Jerrin Bright, Michelle Lu, John Zelek

cs.CV cs.AI cs.LG

本文提出了一种基于单目3D姿态序列来预测棒球投手投球类型的分类方法. 该方法通过结合扩散模型、事件检测和梯度提升分类器, 在仅使用身体运动学数据的情况下达到了80.4%的分类准确率.

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Xiaodong Zhu et al.

cs.CV cs.AI cs.MM

本文提出了一种用于时序伪造定位的DeformTrace模型, 它通过引入可变形状态空间和接力令牌机制来增强传统SSMs的能力. 该模型结合了Transformer的全局建模和SSMs的效率, 在多个数据集上取得了先进的性能.

How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?

Kuo-Wei Lai et al.

stat.ML cs.LG math.OC

本文研究了在高维随机特征数据上，使用梯度下降训练带ReLU激活的浅层神经网络时，其隐式偏差的表现。结果表明，在数据维度足够高的情况下，算法大概率会收敛到接近最小$l_2$范数解，并给出了收敛间隙的阶。

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

Ivoline C. Ngong et al.

cs.CR cs.AI

本文提出了一个基于Contextual Integrity的Privacy Flow Graph框架, 用于分解和评估智能体工作流中每个中间信息流的隐私风险. 作者构建了包含62个多工具场景的AgentSCOPE基准, 评估发现超过80%的场景存在隐私泄露, 且主要发生在工具响应阶段.

Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

Shane Lee, Stella Ng

cs.DB cs.AI

本文描述了一个用于处理行政数据提取的确定性工作流程, 该流程从输入工作簿中计算生均成本并生成包含汇总结果和模糊分带的报告. 工作流程通过哈希值确保可复现性, 并引入了一个基于锚点和隶属度权重的简单模糊分带层来辅助决策解释.

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Yuheng Lei et al.

cs.RO cs.AI cs.LG

本文提出了一种结合工作记忆与情景记忆的非马尔可夫视觉运动策略VPWEM, 用于解决机器人模仿学习中需要长期记忆的任务. 该方法通过一个Transformer-based的记忆压缩器, 将历史观察信息压缩为固定数量的记忆token, 在保持每步计算和内存开销近乎恒定的同时, 提升了在MIKASA和MoMaRT等基准上的性能表现.

Person Detection and Tracking from an Overhead Crane LiDAR

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala

cs.CV cs.LG cs.RO

本文针对工业室内环境中由天车LiDAR进行人员检测与跟踪的问题, 通过构建特定场景的标注数据集并调整现有3D检测器, 评估了不同距离下的检测性能. 研究还集成了轻量级跟踪方法, 并公开了数据集与代码以支持后续工作.

Location-Aware Pretraining for Medical Difference Visual Question Answering

Denis Musinguzi, Caren Han, Prasenjit Mitra

cs.CV cs.AI

本文提出了一种用于医学差异视觉问答(VQA)的位置感知预训练框架. 该方法通过引入基于位置的预训练任务来增强视觉编码器对细微差异的感知能力, 并在胸部X光图像的差异检测任务上取得了先进性能.

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Jiaxin Fan, Wenpo Song

cs.CV cs.CL

本文提出了一个名为VisionPangu的紧凑多模态模型, 通过高效的模态对齐和高质量监督来改进详细的图像描述生成. 实验表明, 该模型能以较小的参数量实现有竞争力的性能.

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Xiongkun Linghu et al.

cs.CV cs.AI

本文提出了3D-RFT框架, 将基于可验证奖励的强化学习(RLVR)范式首次应用于视频3D场景理解任务. 该方法通过设计基于3D IoU等评估指标的奖励函数, 并使用Group Relative Policy Optimization (GRPO)进行强化微调, 直接优化模型性能. 实验表明, 该框架在多个3D视频理解任务上取得了先进的性能.

Training for Technology: Adoption and Productive Use of Generative AI in Legal Analysis

Benjamin M. Chen, Hong Bao

cs.CY cs.AI cs.HC

本文通过一项随机对照实验研究了针对性用户培训对生成式AI在法律分析领域采纳和生产力提升的影响. 研究发现, 简短的培训显著提高了AI工具的使用率并改善了任务表现.

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

Kenan Li et al.

cs.SE cs.LG cs.MA

本文提出了RepoLaunch, 这是一个能够自动处理任意编程语言和操作系统下代码仓库的构建与测试流程的LLM智能体. 它旨在减少软件工程中数据集创建和基准测试所需的人工干预, 实现自动化.

Good-Enough LLM Obfuscation (GELO)

Anatoly Belikov, Ilya Fedotov

cs.CR cs.LG

本文提出了一种名为GELO的轻量级协议，用于保护在共享加速器上运行的LLM推理过程中的隐私。该方法通过为每个批次生成随机的可逆混合矩阵来隐藏模型的中间状态，从而抵御基于内存观测的攻击。实验表明，该方法在Llama-2 7B模型上能以较低的开销保持输出精度，并有效防御多种统计攻击。

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Francisco Vacalebri-Lloret et al.

cs.CV cs.AI eess.IV

本文提出了一种用于检测紧急车辆蓝色警示灯的多摄像头系统. 该系统基于ABLDataset, 并采用改进的RT-DETR模型进行检测, 同时利用几何变换估计紧急车辆的接近角度.

Cyber Threat Intelligence for Artificial Intelligence Systems

Natalia Krawczyk et al.

cs.CR cs.AI

本文探讨了如何将网络威胁情报(CTI)应用于人工智能(AI)系统的安全防护. 文章分析了AI系统特有的资产与脆弱性, 并提出了构建面向AI的威胁情报知识库的初步框架.

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Xiaodong Zhu et al.

cs.CV cs.AI

本文提出了一种名为GEM-TFL的两阶段分类-回归框架，用于弱监督时序伪造定位。该方法通过EM优化增强弱监督信号，并引入无需训练的时间一致性细化与基于图的提案细化模块，以缩小与全监督方法的性能差距。

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

Iman Nematollahi et al.

cs.CV cs.LG

本文提出了一种基于轨迹的循环状态空间模型BLINK, 用于建模自然杀伤细胞与肿瘤细胞之间的相互作用动力学. 该模型从部分观测的交互序列中学习潜在动态, 以预测细胞毒性结果, 并在时间序列显微数据上展示了改进的检测与预测能力.

SPIRIT: Perceptive Shared Autonomy for Robust Robotic Manipulation under Deep Learning Uncertainty

Jongseok Lee et al.

cs.RO cs.AI

本文提出了一种名为"感知共享自主权(perceptive shared autonomy)"的概念, 通过基于Neural Tangent Kernels (NTK)的不确定性感知点云配准方法, 利用深度学习感知模块的不确定性估计来动态调节机器人自主操作的级别. 该系统在具有挑战性的空中操作任务中进行了评估, 展示了其在感知模块存在不确定性时仍能保持操作可靠性的能力.

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

Minghe Xu et al.

cs.CV cs.AI

本文提出了一个基于Transformer的统一框架UniPAR, 用于处理来自不同模态(如RGB图像、视频、事件流)和不同数据集的Pedestrian Attribute Recognition任务. 该框架通过统一的数据调度策略和动态分类头, 实现了单一模型对异构数据的联合训练与处理, 并在多个基准数据集上取得了与专用SOTA方法相当的性能.

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

Wenqian Li, Pengfei Fang, Hui Xue

cs.CV cs.LG

本文提出了一种名为SRasP的新型对抗性风格扰动方法，用于跨域小样本学习。该方法通过整合图像内局部与全局的风格梯度来稳定训练，旨在提升模型在未见目标域上的泛化能力。

Particle-Guided Diffusion for Gas-Phase Reaction Kinetics

Andrew Millard, Henrik Pedersen

physics.chem-ph cs.AI cs.LG

本文提出了一种基于扩散模型的粒子引导采样方法, 用于求解受偏微分方程(PDE)控制的气相化学反应动力学问题. 该方法在变参数的对流-反应-扩散(ARD)方程解上训练, 能够生成物理一致的浓度场并准确预测出口浓度.

Recurrent Graph Neural Networks and Arithmetic Circuits

Timon Barlag et al.

cs.CC cs.AI cs.LG

本文建立了 recurrent graph neural networks (GNNs) 与实数上的 recurrent arithmetic circuits 之间的计算等价性. 通过构造双向模拟, 证明了这两类模型在表达能力上是完全对应的.

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

Ningjing Fan, Yiqun Wang

cs.CV cs.AI cs.GR

本文提出SSR-GS框架，用于在3D Gaussian Splatting中分离镜面反射以重建光泽表面。该方法通过引入Mip-Cubemap和IndiASG模块分别建模直接与间接镜面反射，并利用视觉几何先验优化重建过程。实验表明其在合成与真实数据集上取得了先进性能。

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

Dishantkumar Sutariya, Eike Petersen

cs.CV cs.LG eess.IV

本文研究了图像预处理方法对胸部X光片中种族信息编码及模型鲁棒性的影响. 实验表明, 基于边界框的肺部裁剪是一种在保持诊断性能的同时减少种族捷径学习的有效策略.

Lifelong Language-Conditioned Robotic Manipulation Learning

Xudong Wang et al.

cs.RO cs.AI

本文提出了一个名为SkillsCrafter的机器人操作框架，旨在持续学习多种技能并减轻对旧技能的灾难性遗忘。该方法通过技能语义子空间投影和知识聚合来实现对新旧技能的管理。

A Geometry-Adaptive Deep Variational Framework for Phase Discovery in the Landau-Brazovskii Model

Yuchen Xie, Jianyuan Yin, Lei Zhang

cond-mat.mtrl-sci cs.LG

本文提出了一种几何自适应的深度变分框架(GeoDVF), 用于Landau-Brazovskii模型中相结构的发现. 该框架通过联合优化由神经网络参数化的序参量和计算域的几何参数, 消除了人工应力, 并设计了预热惩罚机制和引导初始化协议来发现复杂的三维有序相.

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Muhammad Zarar et al.

cs.CV cs.AI

本文提出了一种名为Logi-PAR的逻辑增强患者活动识别框架。该框架通过可微规则将逻辑推理注入视觉识别流程，旨在提供可解释的风险评估。

Escaping the Hydrolysis Trap: An Agentic Workflow for Inverse Design of Durable Photocatalytic Covalent Organic Frameworks

Iman Peivaste et al.

physics.chem-ph cond-mat.mtrl-sci cs.AI physics.comp-ph

本文提出了一种基于大语言模型 (LLM) 代理的工作流，用于逆设计兼具光催化活性和水解稳定性的共价有机框架 (COF)。该方法在包含多种结构单元的组合设计空间中，相比随机搜索和贝叶斯优化，能更高效地筛选出满足多目标性能的候选材料。

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

Sofiane Bouaziz et al.

cs.CV cs.AI

本文提出了一种半监督物理引导网络SPyCer, 用于从卫星图像连续估计近地表气温(NSAT). 该方法将NSAT预测视为像素级视觉问题, 结合观测数据和基于表面能量平衡与平流-扩散-反应偏微分方程的物理约束进行学习, 并利用由土地覆盖特征引导的多头注意力机制来捕捉邻域像素的物理影响. 在真实数据集上的实验表明, 该方法在准确性、泛化性和物理一致性方面优于现有基线.

Learning Optimal Individualized Decision Rules with Conditional Demographic Parity

Wenhai Cui et al.

stat.ML cs.LG

本文提出了一种在估计最优个性化决策规则时纳入 demographic parity 和 conditional demographic parity 公平性约束的新框架。该方法通过扰动无约束最优解来实现高效计算，并通过模拟和实证研究验证了其有效性。

Not All Trust is the Same: Effects of Decision Workflow and Explanations in Human-AI Decision Making

Laura Spillner et al.

cs.HC cs.AI

本文研究了AI辅助决策中决策流程(1-step vs. 2-step)和解释对用户信任(自我报告信任和行为信任)的影响. 研究发现, 2-step流程并未减少过度依赖, 且解释的效果受工作流程和用户领域知识的交互影响, 同时证实了报告信任与依赖行为是不同的构念.

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Linghan Fang, Tianxin Xie, Li Liu

cs.SD cs.AI cs.LG

本文提出了一种名为ASR-TRA的测试时强化学习框架, 旨在提升自动语音识别(ASR)系统在未见数据(如噪声、口音)下的鲁棒性. 该方法通过引入可学习的解码器提示(prompt)和温度控制随机解码来生成多样化的转录候选, 并利用一个衡量音频-文本语义对齐的奖励模型来指导模型和提示参数的更新.

Visual-Informed Speech Enhancement Using Attention-Based Beamforming

Chihyun Liu et al.

eess.AS cs.AI

本文提出了一种结合视觉信息的神经网络波束成形方法, 用于提升语音增强在复杂声学场景下的性能. 该方法利用预训练的视觉模型提取唇部运动特征, 以辅助波束成形器在动态说话人及噪声环境中的目标追踪与增强.

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Zhu Li et al.

cs.MM cs.CL cs.SD

本文提出了一种基于强化学习的后训练框架SarcasmMiner, 用于提升多模态讽刺检测的鲁棒性. 该方法通过双轨蒸馏策略和分组相对策略优化来改善模型推理质量.

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Ambroise Odonnat et al.

cs.CV cs.LG stat.ML

本文通过线性探测实验分析了预训练视觉transformer中间层的表示质量, 发现性能下降主要源于预训练与下游数据间的分布偏移. 进一步在模块层面的分析表明, 探测前馈网络内部的激活通常优于探测整个transformer块的输出.

Bayesian Supervised Causal Clustering

Luwei Wang, Nazir Lone, Sohan Seth

stat.ML cs.LG

本文提出了一种基于贝叶斯方法的监督式因果聚类框架, 用于识别在协变量特征和处理效应上均具有同质性的个体亚组. 该方法在模拟数据和真实世界的中风试验数据上进行了评估.

Latent Policy Steering through One-Step Flow Policies

Hokyun Im et al.

cs.RO cs.LG

本文提出了一种名为Latent Policy Steering (LPS)的离线强化学习方法. 该方法通过可微分的one-step MeanFlow策略, 将原始动作空间的Q梯度反向传播以更新潜在动作空间的actor, 从而在保持行为约束的同时实现高性能的策略优化.

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

Yen-Shan Chen et al.

cs.SD cs.AI

本文提出了一种名为Latent-Mark的零比特音频水印框架，旨在抵御神经重合成攻击。该方法通过在多代理编解码器的共享潜在不变空间中嵌入水印，实现了对未知神经音频编解码器的鲁棒性。

How important are the genes to explain the outcome - the asymmetric Shapley value as an honest importance metric for high-dimensional features

Mark A. van de Wiel et al.

stat.ML cs.LG

本文提出使用非对称Shapley值来量化混合维度预测模型中高维特征（如基因组学）的重要性，以解决传统性能评估方法在共线性和依赖方向性上的不足。作者针对临床预测中疾病状态作为中介变量的特定场景，推导了计算局部和全局非对称Shapley值的高效算法，并以结直肠癌患者无进展生存期预测为例进行了说明。

Bayes with No Shame: Admissibility Geometries of Predictive Inference

Nicholas G. Polson, Daniel Zantedeschi

stat.ML cs.LG math.ST

本文探讨了预测推断中四种不同的可容许性几何结构, 并证明了它们之间的分离定理. 这些几何结构基于不同的最优性证书, 并在不同的空间和偏序下运作, 使得可容许性标准具有不可约的相对性.

On the Statistical Optimality of Optimal Decision Trees

Zineng Xu, Subhroshekhar Ghosh, Yan Shuo Tan

stat.ML cs.LG math.ST

本文研究了经验风险最小化(ERM)决策树的统计最优性。在随机设计下，为高维回归和分类问题建立了理论保证，包括oracle不等式和极小极大最优速率。

Revisiting Graph Modification via Disk Scaling: From One Radius to Interval-Based Radii

Thomas Depian, Frank Sommer

cs.CG cs.DS

本文研究了将disk scaling这一几何图修改操作推广到允许半径在给定区间$[r_{\min}, r_{\max}]$内变化的问题$\Pi$-Scaling. 对于任何可在多项式时间内识别的图类$\Pi$, 该问题属于XP类. 作者具体分析了该问题在cluster graphs, complete graphs和connected graphs上的计算复杂性.

Harnessing Synthetic Data from Generative AI for Statistical Inference

Ahmad Abdel-Azim, Ruoyu Wang, Xihong Lin

stat.ML cs.LG

本文从统计学的视角综述了生成式AI模型产生的合成数据的应用现状与挑战. 文章讨论了合成数据在支持下游发现、推断和预测时的有效使用条件，并指出了将其作为真实观测替代品时可能出现的常见陷阱.

Generalized matching decoders for 2D topological translationally-invariant codes

Shi Jie Samuel Tan et al.

quant-ph cs.DS

本文针对二维拓扑平移不变量子码, 提出了一种广义的图匹配解码器. 该方法通过粗粒化处理将一般TTI码的校验子映射为toric code的激发模式, 从而利用成熟的图匹配技术进行解码. 理论分析证明了该解码器能纠正权重与码距成比例的误差, 并在数值模拟中针对双变量自行车码展现了与BP-OSD解码器相当的性能.

ETH-Tight Complexity of Optimal Morse Matching on Bounded-Treewidth Complexes

Geevarghese Philip, Erlend Raa Vågset

cs.CG cs.CC cs.DM cs.DS math.GN

本文研究了 Optimal Morse Matching (OMM) 问题的计算复杂性。作者针对具有有界 treewidth 的复形，给出了一个运行时间为 $2^{O(k \log k)} n$ 的新算法，并证明了在 Exponential Time Hypothesis (ETH) 下，不存在 $2^{o(k \log k)} n^{O(1)}$ 时间的算法，从而确定了该参数化问题的紧确复杂度。

The Spatial and Temporal Resolution of Motor Intention in Multi-Target Prediction

Marie Dominique Schmidt, Ioannis Iossifidis

q-bio.NC cs.AI

本文提出了一种结合数据驱动时间分割与机器学习分类器的计算流程, 用于分析延迟伸手任务中记录的多通道肌电图(EMG)信号, 以预测运动方向和目标位置. 研究评估了不同数据配置下的解码效率, 为自适应康复系统中的预期控制提供了见解.

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub

cs.CV cs.AI cs.LG

本文提出了一种用于移动胎儿超声分析的Selective Repulsive Knowledge Distillation方法. 该方法通过分解对比知识蒸馏的损失项, 使学生模型在保持与教师模型匹配样本对齐的同时, 排斥其类别间混淆, 从而在极大模型容量差距下实现高效的知识迁移. 最终得到的轻量级模型在多项任务上超越了庞大的教师模型, 并能在移动设备上实时运行.

RelaxFlow: Text-Driven Amodal 3D Generation

Jiayin Zhu et al.

cs.CV cs.AI

本文提出了一个名为RelaxFlow的训练无关双分支框架, 用于解决文本驱动的amodal 3D生成问题. 该方法通过解耦控制粒度, 在严格保留输入观察的同时, 利用文本提示引导被遮挡区域的生成.

Ye-Chan Kim et al.

cs.CV cs.AI

本文提出了一种名为SAIL的弱监督密集视频描述方法, 通过跨模态对齐构建语义感知的掩码, 并利用LLM生成合成描述以提供额外的对齐信号. 在ActivityNet Captions和YouCook2数据集上的实验表明, 该方法在描述和定位指标上达到了最先进的性能.

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

Dongwon Kim et al.

cs.CV cs.AI cs.RO

本文提出了一种名为CompACT的离散tokenizer, 能将每个观测压缩到仅8个token, 从而大幅降低了基于world model进行决策时规划的计算成本. 该方法在保持规划性能的同时, 实现了数量级更快的规划速度.

Residual RL--MPC for Robust Microrobotic Cell Pushing Under Time-Varying Flow

Yanda Yang, Sambeeta Das

cs.RO cs.AI

本文提出了一种混合控制器, 它通过SAC训练的残差策略来增强名义MPC, 用于时变泊肃叶流下的微机器人细胞推送任务. 实验表明该方法在非平稳流中比纯MPC和PID具有更好的鲁棒性和跟踪精度.

RealWonder: Real-Time Physical Action-Conditioned Video Generation

Wei Liu et al.

cs.CV cs.AI cs.GR

本文提出了一种名为RealWonder的实时视频生成系统, 该系统能够根据物理动作从单张图像生成视频. 其核心创新在于利用物理模拟作为中间桥梁, 将连续动作转化为视频模型可处理的光流和RGB表示, 从而实现对刚性物体、可变形体、流体和颗粒材料等物理交互的模拟.

Thermodynamic Response Functions in Singular Bayesian Models

Sean Plummer

stat.ML cs.LG math.ST

本文通过引入后验温度调节, 为奇异统计模型中的热力学响应函数提供了一个统一框架. 该框架将WAIC, WBIC和奇异涨落等经典量联系起来, 并给出了它们在奇异几何下的物理解释.

RoboPocket: Improve Robot Policies Instantly with Your Phone

Junjie Fang et al.

cs.RO cs.AI cs.LG

本文提出了一种名为RoboPocket的系统，利用智能手机的AR可视化功能来预测机器人策略的轨迹，从而允许操作者在不依赖物理机器人的情况下，针对策略的薄弱环节高效收集数据。该系统还实现了异步在线微调管道，能够在几分钟内更新策略，实验表明其数据效率相比离线方法有显著提升。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others