bluearXiv-ai - 2026-03-12

📄 所有论文 ↑ 回顶部

cs.LG

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction ⭐ 精选

Tianyu Pang et al.

cs.LG cs.AI

本文提出了一种改进Muon优化器的方法HTMuon. 作者认为Muon的正交化更新规则抑制了权重谱的重尾(heavy-tailed)特性, 并过度强调了噪声主导方向的训练. 受重尾自正则化(HT-SR)理论启发, HTMuon在保持Muon捕捉参数间依赖关系能力的同时, 能产生更重尾的更新并诱导出更重尾的权重谱. 实验表明, 在LLM预训练和图像分类任务上, HTMuon能持续提升性能, 并且理论上可被解释为在Schatten-$q$范数约束下的最速下降.

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias ⭐ 精选

Borun D Chowdhury

cs.LG cs.AI cs.CL

本文通过将多层因果注意力建模为Cesàro矩阵的迭代幂次，在连续极限下推导出了影响密度的精确闭式解，为Transformer的“中间迷失”现象提供了一个精确的理论解释。该理论表明，因果掩码和残差连接共同作用，在提示开始处产生对数发散的梯度影响（Primacy Tail），在末尾token处产生一个孤立的$\mathcal{O}(1)$锚点（Recency Delta），而在中间形成一个阶为$\mathcal{O}(1/(H{-}1)!)$的“死区”，这解释了U形性能曲线在模型初始化时即已存在，与位置编码或训练无关。研究通过实证验证了未经训练的Qwen2和GPT-2架构在初始步即表现出此U形，并确认标准预训练目标并未克服这一结构性拓扑低谷，从而明确了该偏差的架构性根源。

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Zhengzhao Ma et al.

cs.LG cs.AI cs.CL

本文提出了一种名为DCPO的框架，用于解决强化学习从可验证奖励中学习时出现的校准退化问题。该方法将推理目标与置信度校准目标解耦，从而在保持模型准确性的同时显著改善了校准性能。

Explainable LLM Unlearning Through Reasoning

Junfeng Liao et al.

cs.LG cs.AI cs.CL

本文提出了一种新的LLM遗忘方法, 通过引入基于推理的遗忘目标来指导模型遗忘过程. 该方法结合了监督损失和梯度上升损失, 旨在更精确地移除特定知识, 同时保持模型的通用能力.

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Shuhuai Li et al.

cs.LG cs.AI cs.CL

本文提出了一种名为MoE-SpAc的高效推理框架，用于解决边缘设备上Mixture-of-Experts (MoE) 模型的内存约束问题。它通过推测解码技术来预测专家需求，并优化内存管理，从而提升了推理速度。

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Jialu Wang et al.

cs.LG cs.AI cs.CL

本文提出了Personalized GRPO (P-GRPO)框架, 用于解决大语言模型与多样化个人偏好对齐的问题. 该方法通过解耦优势估计, 针对特定偏好组进行归一化, 从而更好地恢复异质性偏好信号.

LWM-Temporal: Sparse Spatio-Temporal Attention for Wireless Channel Representation Learning

Sadjad Alikhani et al.

cs.LG cs.IT

本文提出了一种用于无线信道表示学习的稀疏时空注意力模型 LWM-Temporal. 该模型通过一种与传播对齐的注意力机制, 在角度-延迟-时间域中学习通用的信道嵌入, 并在信道预测任务上取得了优于基线方法的结果.

Gated Adaptation for Continual Learning in Human Activity Recognition

Reza Rahimi Azghan et al.

cs.LG cs.AI

本文提出了一种基于通道门控调制的参数高效持续学习框架, 用于解决Human Activity Recognition (HAR)中的灾难性遗忘问题. 该方法通过冻结预训练主干网络并学习轻量级的门控参数, 在适应新任务的同时保持对旧知识的稳定性.

Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

Jianlong Chen, Zhiming Zhou

cs.LG cs.AI

本文分析了Sharpness-Aware Minimization (SAM) 的实现，指出其使用上升点梯度更新当前参数的做法缺乏直观解释。作者提出了一种新的理解视角，并在此基础上开发了eXplicit Sharpness-Aware Minimization (XSAM) 方法，通过显式估计最值方向和改进搜索空间来提升性能。实验表明XSAM优于现有方法。

InFusionLayer: a CFA-based ensemble tool to generate new classifiers for learning and modeling

Eric Roginek, Jingyan Xu, D. Frank. Hsu

cs.LG cs.AI

本文介绍了一个名为 InFusionLayer 的通用 Python 工具，它基于 Combinatorial Fusion Analysis (CFA) 构建，旨在通过结合多个基础模型来优化多分类问题。该工具兼容主流机器学习框架，并在多个计算机视觉数据集上验证了其性能。

Cluster-Aware Attention-Based Deep Reinforcement Learning for Pickup and Delivery Problems

Wentao Wang, Lifeng Han, Guangyu Zou

cs.LG

本文提出了一种名为CAADRL的深度强化学习框架，用于解决Pickup and Delivery Problem (PDP). 该方法通过显式地利用PDP实例中的多尺度聚类结构，结合聚类感知编码和分层解码，在保持高效推理的同时取得了有竞争力的性能.

Training Language Models via Neural Cellular Automata

Dan Lee et al.

cs.LG cs.AI cs.CL

本文提出使用neural cellular automata (NCA)生成非语言的合成数据，用于语言模型的预训练前阶段。实验表明，这种合成数据预训练能提升下游语言建模和推理任务的性能，并加速收敛。

Improving Search Agent with One Line of Code

Jian Li et al.

cs.LG cs.CL

本文针对Tool-based Agentic Reinforcement Learning (TARL)中训练不稳定的问题，提出了SAPO方法。该方法通过一个条件性的token-level KL约束来稳定训练，仅需对现有算法GRPO进行一行代码修改即可实现，并在多个QA基准测试上取得了显著的性能提升。

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

Anurag Mishra

cs.LG cs.AI cs.CL

本文首次将 sparse autoencoder (SAE) 应用于时间序列基础模型 Chronos-T5-Large, 通过特征消融实验验证了所提取特征的因果相关性. 研究发现, 模型内部存在一个与深度相关的特征层次结构, 其中对预测最关键的特征位于中间编码器层, 而非语义最丰富的最终层.

Marginals Before Conditionals

Mihir Sahasrabudhe

cs.LG cs.AI

本文通过构建一个具有$K$重歧义性的最小化任务, 研究了神经网络中条件学习的过程. 模型首先学习边际分布$P(A|B)$, 在损失曲线上形成一个高度为$\log K$的平台期, 然后才通过一个尖锐的集体转变学习完整的条件分布.

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb

cs.LG math.PR

本文提出了一种名为SPH-NN的随机端口哈密顿神经网络, 用于学习具有随机扰动的开放动力系统. 该方法通过前馈网络参数化Hamiltonian, 并强制互连矩阵的斜对称性和耗散矩阵的半正定性, 从而保证了系统的弱无源性. 实验表明, 该方法在噪声振荡器模型上相比基线具有更优的长期预测性能.

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

Benjamin Gess, Daniel Heydecker

cs.LG math.PR

本文分析了在NTK scaling下训练一个浅层全连接网络时SGD的动力学, 重点研究了catapult phase. 作者提出了一个依赖于核、学习率和数据的显式函数$G$, 当$G>0$时, SGD以高概率产生大的NTK-flattening spikes; 当$G<0$时, 这种spike的概率以$(n/\eta)^{-\vartheta/2}$的速率衰减. 这为在实际网络宽度下仍能观察到此类spike的现象提供了一个参数化的理论解释.

Digging Deeper: Learning Multi-Level Concept Hierarchies

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik

cs.LG cs.AI

本文提出了 Multi-Level Concept Splitting (MLCS) 和 Deep-HiCEMs 方法, 用于从粗粒度标注中发现多层次的概念层次结构并进行建模. 实验表明, 该方法能够发现训练中未出现的人类可解释概念, 并在保持高准确率的同时支持测试时的概念干预.

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Qitong Sun et al.

cs.LG cs.AI cs.MA

本文提出了一个名为KernelSkill的多智能体框架，用于优化GPU kernel。该框架通过协调具有长期和短期记忆的智能体，利用显式的专家技能知识来指导优化过程，在基准测试中取得了优于现有基线的性能提升。

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

Zijian Zhu et al.

cs.LG cs.AI

本文提出了一种名为ES-dLLM的无训练推理加速框架，用于Diffusion large language models (dLLMs). 该方法通过分析中间表示的微小变化，在早期层跳过不重要的tokens，从而显著提升推理速度，同时保持生成质量。

A Survey of Weight Space Learning: Understanding, Representation, and Generation

Xiaolong Han et al.

cs.LG

本文对Weight Space Learning (WSL)这一新兴研究方向进行了首次系统性的综述与分类。它将现有方法归纳为Weight Space Understanding, Weight Space Representation和Weight Space Generation三个核心维度，并讨论了其在模型检索、联邦学习等领域的应用前景。

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

Junyi An et al.

cs.LG cs.AI q-bio.QM

本文提出了一种用于加速分子构象生成的异步扩散模型. 该方法通过自适应去噪调度来更好地捕捉分子层次结构, 在3D分子生成任务上取得了先进的性能.

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

Yuze Dong, Jinsong Wu

cs.LG stat.ML

本文针对时间序列预测中的非平稳性问题, 提出了一种名为TS_Adam的Adam优化器变体. 该方法移除了Adam中的二阶偏差校正项, 以提升模型在数据分布漂移情况下的适应能力, 并在多个预测任务上取得了性能提升.

Denoising the US Census: Succinct Block Hierarchical Regression

Badih Ghazi et al.

cs.LG cs.CR

本文提出了一种名为BlueDown的新后处理方法, 用于处理美国人口普查局的隐私保护数据. 该方法在满足相同隐私保证和结构约束的前提下, 相比原有TopDown方法, 能产生更准确、一致的人口统计估计, 特别是在县和区域级别的聚合数据上表现更优.

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

Vishal Shashidhar, Anupam Kumari, Roy P Paily

cs.LG cs.AI cs.AR

本文提出了一种基于"软稀疏"范式的硬件高效近似卷积方法, 通过使用Most Significant Bit (MSB)代理来跳过可忽略的非零乘法运算. 该方法被集成到自定义RISC-V指令中, 在LeNet-5上的评估显示其能显著减少计算量并估计可观的功耗节省.

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Sijia Cui et al.

cs.LG cs.AI cs.CL

本文提出了一种名为CLIPO的方法, 将Contrastive Learning机制融入Policy Optimization, 以改进Reinforcement Learning with Verifiable Rewards (RLVR). 该方法旨在通过优化对比损失来引导模型学习正确推理路径中的不变结构, 从而缓解中间步骤错误导致的幻觉问题, 并在多个基准测试中提升了模型的泛化性和鲁棒性.

A neural operator for predicting vibration frequency response curves from limited data

D. Bluedorn et al.

cs.LG eess.SY

本文提出了一种结合neural operator与implicit numerical scheme的架构, 用于从有限数据中预测振动系统的frequency response curve. 该方法在单自由度线性系统上验证了其有效性, 能以高精度预测共振频率和振幅.

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin

cs.LG cs.AI

本文提出了一种名为 Mashup Learning 的方法，通过混合历史训练检查点来加速模型在新任务上的微调过程。该方法能提升下游任务的平均准确率并显著减少所需的训练步骤与时间。

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Ruizhong Qiu et al.

cs.LG cs.CL

本文提出了一种名为ReMix的新路由器设计, 用于解决Mixture-of-LoRAs模型中路由权重严重不平衡的问题. 该方法采用非可学习的路由权重, 并结合强化学习中的RLOO技术进行梯度估计, 实验表明其在参数效率微调任务上优于现有方法.

DT-BEHRT: Disease Trajectory-aware Transformer for Interpretable Patient Representation Learning

Deyi Li et al.

cs.LG

本文提出了一种用于电子健康记录(EHR)的疾病轨迹感知Transformer模型(DT-BEHRT). 该模型通过显式建模器官系统内的诊断中心交互和捕获异步进展模式来解构疾病轨迹, 并结合预训练方法提升了表示鲁棒性.

Actor-Accelerated Policy Dual Averaging for Reinforcement Learning in Continuous Action Spaces

Ji Gao et al.

cs.LG

本文提出了一种actor-accelerated policy dual averaging方法，用于解决连续动作空间中的强化学习问题。该方法通过使用学习到的策略网络来近似优化子问题的解，从而在保持收敛保证的同时提高了计算效率。

Rethinking the Harmonic Loss via Non-Euclidean Distance Layers

Maxwell Miller-Golub et al.

cs.LG cs.AI

本文系统地研究了用多种距离度量替代 Euclidean distance 来扩展 harmonic loss 的方法。在视觉和语言模型上的评估表明，基于 cosine 的距离在性能、可解释性和可持续性方面提供了较好的权衡。

SiMPO: Measure Matching for Online Diffusion Reinforcement Learning

Haitong Ma et al.

cs.LG

本文提出了Signed Measure Policy Optimization (SiMPO), 一个用于在线扩散强化学习的统一框架. 它通过一个两阶段的measure matching过程, 推广了基于单调函数的reweighting方案, 并利用负样本反馈来提升策略性能.

Improving TabPFN's Synthetic Data Generation by Integrating Causal Structure

Davide Tugnoli et al.

cs.LG

本文针对TabPFN在生成合成表格数据时因特征顺序与因果结构冲突而产生虚假相关性的问题, 提出了两种整合因果结构的方法: DAG-aware conditioning和基于CPDAG的策略. 实验表明, 整合因果结构能提升合成数据的质量和稳定性.

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

Ihor Kendiukhov

cs.LG q-bio.CB q-bio.GN

本文从单细胞基础模型scGPT中提取出了一个紧凑的造血算法。该方法通过直接导出注意力权重并配合轻量级适配器，无需在目标数据集上重新训练即可获得独立算法。提取出的算法在多个基准测试中表现优于现有方法，并揭示了模型内部编码的造血发育分支结构。

Estimating condition number with Graph Neural Networks

Erin Carson, Xinye Chen

cs.LG math.NA

本文提出了一种利用图神经网络(GNNs)快速估计稀疏矩阵条件数的方法. 该方法通过特征工程实现了$O(\mathrm{nnz} + n)$的复杂度, 并在实验中相比传统方法取得了显著的加速效果.

Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

Keertana Chidambaram et al.

cs.LG

本文探讨了生成式推荐系统的后训练对齐问题, 提出指数奖励加权监督微调方法. 该方法直接利用观测奖励进行离线优化, 避免了奖励模型不可靠等问题, 并通过实验验证了其优于基于RLHF的基线方法.

Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework

Rajesh Shrestha, Xiao Fu

cs.LG cs.AI cs.CV

本文提出了一种将score-based denoiser整合到ADMM优化算法中的新框架, 通过引入一个包含auto-correction, directional correction和score-based denoising的三阶段去噪器来解决训练数据流形与ADMM迭代几何不匹配的问题. 理论分析证明了该框架在特定条件下具有收敛性, 实验表明其在多种逆问题上优于现有基线方法.

GSVD for Geometry-Grounded Dataset Comparison: An Alignment Angle Is All You Need

Eduarda de Souza Marques et al.

cs.LG

本文利用 generalized singular value decomposition (GSVD) 为两个数据集矩阵$A$和$B$建立了一个联合坐标系, 并从中导出了一个可解释的 per-sample angle score $\theta(z)$. 该分数用于量化一个样本$z$是由$A$还是$B$相对更好地解释, 从而作为比较数据集的几何诊断工具.

Copula-ResLogit: A Deep-Copula Framework for Unobserved Confounding Effects

Kimia Kamal, Bilal Farooq

cs.LG

本文提出了一种结合ResNet与copula模型的深度学习框架Copula-ResLogit, 用于处理旅行需求分析中未观测混杂因素导致的非因果依赖问题. 该框架通过copula函数检测未观测混杂, 并利用残差网络组件来减轻其影响, 在两个案例研究中验证了其有效性.

GaLoRA: Parameter-Efficient Graph-Aware LLMs for Node Classification

Mayur Choudhary, Saptarshi Sengupta, Katerina Potika

cs.LG

本文提出了一个名为GaLoRA的参数高效框架, 用于将图结构信息整合到LLMs中, 以处理文本属性图上的节点分类任务. 该方法在多个真实数据集上展示了竞争力, 仅需极少的额外参数即可达到与全参数微调相当的性能.

Regime-aware financial volatility forecasting via in-context learning

Saba Asaad, Shayan Mohajer Hamidi, Ali Bereyhi

cs.LG

本文提出了一种基于大语言模型(Large Language Models, LLMs)的regime-aware in-context learning框架, 用于非平稳市场条件下的金融波动率预测. 该方法通过条件采样策略, 使LLM能够在不进行参数微调的情况下, 根据历史模式和市场状态调整预测, 并在多个数据集上取得了优于传统方法和直接one-shot学习的效果.

What do near-optimal learning rate schedules look like?

Hiroki Naganuma et al.

cs.LG

本文通过设计一种参数化搜索方法, 探究了神经网络训练中学习率调度曲线的最优形状. 研究发现在线性回归, CIFAR-10图像分类和Wikitext103语言建模等任务上, 常见的调度曲线并非最优, 而warmup和decay是鲁棒性强的特征.

How to make the most of your masked language model for protein engineering

Calvin McCarter et al.

cs.LG q-bio.QM

本文提出了一种用于蛋白质工程的灵活采样方法, 并进行了系统的计算与实验评估. 该方法利用 masked language models 高效评估序列邻域的能力, 通过 stochastic beam search 实现多目标优化引导的序列生成.

Data-Driven Integration Kernels for Interpretable Nonlocal Operator Learning

Savannah L. Ferretti et al.

cs.LG physics.ao-ph

本文提出了一种用于可解释非局部算子学习的框架, 通过引入数据驱动的积分核来结构化模型. 该框架将非局部信息聚合与局部非线性预测显式分离, 使用可学习的核函数对时空预测变量进行积分, 然后仅对积分后的特征进行局部非线性映射. 这种方法限制了非线性交互的范围, 并使每个核函数直接可解释为揭示对预测贡献最大的空间位置和过去时间步的权重模式. 作者在南亚季风降水预测的案例中, 通过一系列结构逐渐增加的神经网络模型验证了该框架, 结果表明基于核的模型能以更少的可训练参数达到接近基线模型的性能.

Federated Active Learning Under Extreme Non-IID and Global Class Imbalance

Chen-Chen Zong, Sheng-Jun Huang

cs.LG cs.AI

本文研究了联邦主动学习在极端非独立同分布和全局类别不平衡下的性能问题. 提出了一种名为FairFAL的自适应框架, 通过推断全局不平衡和局部-全局差异, 并结合原型引导的伪标记与两阶段采样策略, 在多个基准测试中取得了优于现有方法的结果.

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Md Muntaqim Meherab, Noor Islam S. Mohammad, Faiza Feroz

cs.LG cs.AI stat.ME

本文提出了一种名为Causal Concept Graphs (CCG)的方法，用于在大型语言模型的潜在空间中构建概念间的因果图，以解释其多步推理过程。该方法结合了任务条件化的稀疏自编码器和可微结构学习，并在多个推理基准测试上验证了其有效性。

Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

Junzhuo Li et al.

cs.LG cs.AI

本文研究了Mixture-of-Experts (MoE)模型中专家层与注意力层之间的计算资源最优分配问题。通过实验发现最优计算分配比$r^*$与总计算量呈幂律关系，并给出了一个显式公式，为在固定计算预算下设计高效MoE模型提供了实用指导。

Variance-Aware Adaptive Weighting for Diffusion Model Training

Nanlong Sun, Lei Shi

cs.LG cs.CV

本文提出了一种基于loss variance的自适应加权策略, 用于平衡diffusion model在不同noise level下的训练. 该方法通过动态调整训练权重, 在CIFAR-10/100数据集上取得了更低的FID和更稳定的训练过程.

Graph-GRPO: Training Graph Flow Models with Reinforcement Learning

Baoheng Zhu et al.

cs.LG

本文提出了一种名为Graph-GRPO的在线强化学习框架，用于训练基于离散流匹配的图生成模型。该方法通过推导模型转移概率的解析表达式，并引入一种局部扰动与再生的精炼策略，来优化模型以符合特定目标。实验表明，该方法在合成与真实数据集上，特别是在分子优化任务中，取得了先进的性能。

On the Learning Dynamics of Two-layer Linear Networks with Label Noise SGD

Tongcheng Zhang et al.

cs.LG cs.AI

本文研究了带标签噪声的SGD在两层过参数化线性网络中的学习动态。分析揭示了从惰性学习到丰富学习的两阶段行为，并探讨了噪声对泛化的作用。

Designing Service Systems from Textual Evidence

Ruicheng Ao et al.

cs.LG cs.AI math.OC stat.ML

本文研究了在服务系统设计中, 如何利用有偏但廉价的自动化评估(如LLM评分)与昂贵但准确的人工审核相结合, 以高置信度识别最优配置. 作者提出了一种序列决策算法PP-LUCB, 通过结合代理分数和逆概率加权残差来构建估计量, 并证明了其正确性和接近最优的效率.

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

Taehyung Kwon et al.

cs.LG cs.AI cs.DB

本文提出了一种针对时空预测任务的数据集蒸馏方法STemDist, 该方法通过双向压缩时空维度来合成紧凑的训练数据集. 实验表明, 该方法能显著提升训练速度, 降低内存消耗, 并改善预测性能.

Domain-Adaptive Health Indicator Learning with Degradation-Stage Synchronized Sampling and Cross-Domain Autoencoder

Jungho Choo et al.

cs.LG cs.AI

本文提出了一种用于健康指标学习的领域自适应框架, 包含退化阶段同步批量采样(DSSBS)和跨域对齐融合大型自编码器(CAFLAE). 该方法旨在解决运行条件变化导致的分布不匹配问题, 并在轴承数据集上取得了优于现有方法的性能.

GGMPs: Generalized Gaussian Mixture Processes

Vardaan Tekriwal et al.

cs.LG stat.ML

本文提出了一种基于 Gaussian process 的 Generalized Gaussian Mixture Process (GGMP) 方法, 用于多模态条件密度估计. 该方法通过结合局部 Gaussian mixture 拟合与异方差 GP 训练, 避免了传统多模态 GP 方法的指数级复杂度, 并在合成与真实数据集上展示了改进的分布近似能力.

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Hengjie Cao et al.

cs.LG cs.AI

本文分析了低精度训练中由均值偏差引起的数值不稳定性问题. 提出通过简单的均值减法操作来稳定FP4量化训练, 并恢复了接近高精度训练的性能.

Unlearning the Unpromptable: Prompt-free Instance Unlearning in Diffusion Models

Kyungryeol Lee et al.

cs.LG cs.CV

本文针对扩散模型中难以用文本提示指定的特定输出遗忘问题, 提出了一种基于代理的无提示实例遗忘方法. 该方法结合图像编辑, 时间步感知加权和梯度手术等技术, 在保持模型整体完整性的同时, 选择性地遗忘目标输出.

Spatio-Temporal Forecasting of Retaining Wall Deformation: Mitigating Error Accumulation via Multi-Resolution ConvLSTM Stacking Ensemble

Jihoon Kim, Heejung Youn

cs.LG

本文提出了一种多分辨率ConvLSTM集成框架，用于预测基坑开挖过程中挡土墙的变形。该方法通过整合不同时间分辨率的模型来减少误差累积，并在数值模拟和现场数据上验证了其长期预测性能优于单一模型。

Muscle Synergy Priors Enhance Biomechanical Fidelity in Predictive Musculoskeletal Locomotion Simulation

Ilseung Park et al.

cs.LG cs.NE cs.RO

本文提出了一种基于肌肉协同作用的生理学启发的强化学习框架, 用于预测性肌肉骨骼运动模拟. 该方法利用从少量步行数据中提取的低维协同作用基作为动作空间, 在多种速度和地形条件下训练模型, 提高了模拟的生物力学保真度和泛化能力.

A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality

Eng-Jon Ong et al.

cs.LG

本文提出了一种基于最近邻距离比率的 intrinsic dimensionality 估计器, 其计算简单且在 benchmark 上达到先进水平. 作者从理论上证明了该估计器具有 universal 性质, 即其收敛于真实维度不依赖于生成数据的分布.

World Model for Battery Degradation Prediction Under Non-Stationary Aging

Kai Chin Lim, Khay Wai See

cs.LG eess.SY

本文提出了一种基于 world model 的锂离子电池退化预测方法, 将原始时间序列编码为 latent state 并通过学习的动态转移进行前向传播以预测未来 80 个周期的 SOH 轨迹. 实验表明, 迭代 rollout 相比直接回归能显著降低预测误差, 而加入 Single Particle Model 约束能在退化拐点处改善预测性能.

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

Islam Guven, Mehmet Parlak

cs.LG cs.AI

本文提出了一个用于协调医疗物资配送无人机集群的多智能体强化学习框架. 该框架将问题建模为部分可观测马尔可夫决策过程, 并评估了包括近端策略优化在内的多种学习算法变体. 实验表明, 该框架能有效实现实时资源分配, 提升紧急物流的适应性.

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

Zichao Li et al.

cs.LG cs.CL

本文提出了一种名为Group Relative Reward Rescaling (GR$^3$)的方法，用于解决强化学习中语言模型为最大化奖励而产生的长度膨胀问题。该方法通过乘性奖励缩放和组相对正则化，在保持模型性能的同时有效控制了输出长度。

SCORE: Replacing Layer Stacking with Contractive Recurrent Depth

Guillaume Godin

cs.LG cs.AI

本文提出了一种名为SCORE的深度神经网络架构, 它用离散的、收缩性的循环更新替代了传统的层堆叠. 该方法通过共享权重块和ODE启发的更新公式$h_{t+1} = (1 - dt) * h_t + dt * F(h_t)$来迭代地处理信息, 从而减少了参数量并提升了训练收敛速度. 实验表明, 在多种网络架构中, 这种简单的欧拉积分方法在计算成本与性能之间取得了良好的平衡.

Learning to Score: Tuning Cluster Schedulers through Reinforcement Learning

Martin Asenov et al.

cs.LG

本文提出了一种基于强化学习的方法, 用于自动调整集群调度器中评分函数的权重, 以提升作业的端到端性能. 该方法通过引入百分比改进奖励, 帧堆叠和限制领域信息等技术, 在实验室无服务器场景中相比固定权重和最佳基线方法分别实现了平均33%和12%的性能提升.

A Bipartite Graph Approach to U.S.-China Cross-Market Return Forecasting

Jing Liu et al.

cs.LG q-fin.CP

本文通过构建一个 directed bipartite graph 来研究中美股市间的 cross-market return predictability. 该方法利用了两国市场交易时间不重叠的特点, 将预测关系建模为图结构, 并作为特征选择层用于机器学习模型. 研究发现美国市场收益对中国市场日内收益有显著的预测能力, 而反向的预测效应则较弱.

Riemannian Geometry-Preserving Variational Autoencoder for MI-BCI Data Augmentation

Viktorija Poļaka, Ivo Pascal de Jong, Andreea Ioana Sburlea

cs.LG

本文提出了一种用于生成运动想象脑机接口数据的Riemannian几何保持变分自编码器. 该方法通过结合几何映射和复合损失函数, 生成了有效的EEG协方差矩阵, 并学习到了一个与受试者无关的潜在空间.

Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context

Faris Chaudhry, Siddhant Gadkari

cs.LG

本文研究了Transformer模型在上下文学习(ICL)中执行统计推断的机制. 通过分析其在二元假设检验任务中的表现, 发现模型能够近似最优的统计量, 其行为并非简单的核平滑, 而是构建了任务自适应的统计估计器.

HAPEns: Hardware-Aware Post-Hoc Ensembling for Tabular Data

Jannis Maier, Lennart Purucker

cs.LG

本文提出了一种名为HAPEns的硬件感知事后集成方法，用于在表格数据上平衡预测性能与硬件资源消耗。该方法受多目标和质量多样性优化启发，构建了沿Pareto前沿的多样化集成模型集合。实验表明，该方法在多个数据集上优于基线，并能有效权衡性能与部署成本。

Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences

Jiarui Cao, Zixuan Wei, Yuxin Liu

cs.LG cs.AI

本文提出了一种称为Gradient Flow Drifting的生成模型新框架，并证明了其与基于KDE近似的Wasserstein梯度流之间的等价关系。该框架统一了包括Drifting Model和MMD生成器在内的多种模型，并提出了在流形上的混合散度策略以改进生成质量。

Reinforcement Learning with Conditional Expectation Reward

Changyi Xiao, Caijun Xu, Yixin Cao

cs.LG cs.AI cs.CL

本文提出了一种名为Conditional Expectation Reward (CER)的新奖励机制，用于增强大型语言模型的推理能力。该方法利用模型自身作为隐式验证器，为自由形式答案提供软性奖励信号，从而摆脱了对特定领域规则验证器的依赖。实验表明CER在数学和一般推理任务上均有效。

Spatio-Temporal Attention Graph Neural Network: Explaining Causalities With Attention

Kosti Koistinen et al.

cs.LG cs.CE

本文提出了一种用于工业控制系统(ICS)异常检测的时空注意力图神经网络(STA-GNN). 该模型以无监督方式运行, 结合了conformal prediction策略来控制误报率, 并强调了模型可解释性的重要性.

Surrogate models for nuclear fusion with parametric Shallow Recurrent Decoder Networks: applications to magnetohydrodynamics

M. Lo Verso et al.

cs.LG

本文提出了一种结合SVD降维与SHRED神经网络架构的数据驱动框架, 用于从稀疏传感器数据中重建磁流体动力学(MHD)的全时空状态. 该方法在一个参数化的MHD测试案例中得到了验证, 结果表明即使对于训练集未包含的磁场强度, 模型也能准确重建流场, 展示了其在实时监测与控制中的潜在应用价值.

Contract And Conquer: How to Provably Compute Adversarial Examples for a Black-Box Model?

Anna Chistyakova, Mikhail Pautov

cs.LG cs.AI

本文提出了一种名为Contract And Conquer (CAC)的可证明黑盒对抗攻击方法. 该方法通过知识蒸馏和搜索空间收缩, 理论上保证了在有限迭代内找到对抗样本, 并在ImageNet数据集上取得了优于现有方法的攻击效果.

Riemannian MeanFlow for One-Step Generation on Manifolds

Zichen Zhong et al.

cs.LG

本文提出了一种名为Riemannian MeanFlow (RMF)的方法，用于在Riemannian流形上进行一步生成。该方法通过定义平均速度场并利用Riemannian MeanFlow恒等式进行监督，避免了轨迹模拟和复杂的几何计算。实验表明，该方法在球面、环面和SO(3)等流形上实现了高效的一步采样。

Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

Sanne Ruijs, Alina Kosiakova, Farrukh Javed

cs.LG stat.ML

本文比较了Monte Carlo Dropout和Conformal Prediction两种不确定性量化方法在卷积神经网络上的表现。实验表明，预测准确率更高的模型可能校准更差，而Conformal Prediction能提供具有统计保证的预测集。

A Grammar of Machine Learning Workflows

Simon Roth

cs.LG

本文提出了一种用于监督学习工作流程的结构化语法, 将其分解为7个核心原语, 并通过一个有类型的 directed acyclic graph (DAG) 连接, 旨在通过运行时约束来防止数据泄露. 该方法在多个编程语言中得到了实现和验证.

CUPID: A Plug-in Framework for Joint Aleatoric and Epistemic Uncertainty Estimation with a Single Model

Xinran Xu, Xiuyi Fan

cs.LG cs.AI

本文提出了一种名为CUPID的即插即用框架，用于联合估计深度神经网络中的偶然不确定性和认知不确定性。该方法无需修改或重新训练基础模型，通过分析模型对扰动的内部响应来捕获不确定性。实验表明，该模块在多个任务上表现良好，并能提供分层的不确定性来源分析。

Prioritizing Gradient Sign Over Modulus: An Importance-Aware Framework for Wireless Federated Learning

Yiyang Yue et al.

cs.LG cs.IT eess.SP

本文提出了一种名为SP-FL的无线联邦学习框架，通过优先传输梯度符号（sign）而非模值（modulus）来提升通信效率。该框架基于梯度信息的重要性差异，在设备和数据包两个层级上优化带宽和功率分配，以应对无线资源受限的挑战。

Dynamics-Informed Deep Learning for Predicting Extreme Events

Eirini Katsidoniotaki, Themistoklis P. Sapsis

cs.LG math.DS nlin.CD

本文提出了一种结合动力学分析与深度学习的框架, 用于预测高维混沌系统中的极端事件. 该方法通过追踪瞬态不稳定性来构建可解释的预报因子, 并利用Transformer模型进行预测, 在湍流模型中展示了优于基线方法的预测能力.

AI-Enhanced Spatial Cellular Traffic Demand Prediction with Contextual Clustering and Error Correction for 5G/6G Planning

Mohamad Alkadamani, Colin Brown, Halim Yanikomeroglu

cs.LG cs.AI eess.SY

本文提出了一种用于5G/6G网络规划的AI增强空间蜂窝流量需求预测框架。该框架通过结合上下文感知的数据划分策略和残差空间误差校正，旨在减少空间自相关导致的预测偏差，从而提升预测的泛化能力。

Protein Counterfactuals via Diffusion-Guided Latent Optimization

Weronika Kłos, Sidney Bender, Lukas Kades

cs.LG cs.AI

本文提出了一种名为MCCOP的框架, 用于在蛋白质序列的连续隐空间中计算最小的、生物学上合理的编辑, 以改变深度学习模型对蛋白质性质的预测. 该方法结合了预训练的扩散模型作为流形先验, 并在多个蛋白质工程任务上验证了其有效性.

Evaluating randomized smoothing as a defense against adversarial attacks in trajectory prediction

Julian F. Schumann et al.

cs.LG

本文探讨了将 randomized smoothing 作为一种防御机制应用于轨迹预测模型以对抗 adversarial attacks. 实验表明, 该方法能在不影响正常场景精度的前提下, 提升多种基础模型的鲁棒性.

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Yujie Zheng et al.

cs.LG cs.AI cs.CL

本文提出了一种名为EvoKernel的自我进化智能体框架，用于解决在数据稀缺的特定领域架构（如NPU）上进行内核合成的冷启动问题。该框架将合成过程构建为基于记忆的强化学习任务，通过价值驱动的检索和跨任务记忆共享来提升模型性能。

$V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts

Yi-Kai Zhang et al.

cs.LG cs.AI cs.CL

本文提出了一种名为$V_{0.5}$的基线估计方法，用于强化学习中的策略梯度。该方法将预训练通用价值模型的先验预测与稀疏模拟的经验均值进行自适应融合，以在计算效率和低方差之间取得平衡。通过在多个数学推理基准上的实验，该方法相比现有方法取得了性能提升和更快的收敛速度。

6ABOS: An Open-Source Atmospheric Correction Framework for the EnMAP Hyperspectral Mission Based on 6S

Gabriel Caballero Cañas et al.

cs.LG

本文介绍了一个名为6ABOS的开源Python框架，用于自动化EnMAP高光谱影像的大气校正。该框架基于6S辐射传输模型，整合了自动元数据解析和通过Google Earth Engine获取动态大气参数的功能，并在两个地中海内陆水库上进行了验证，结果显示其反演的水体反射光谱与实地测量值具有较高的相似性。

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

Andrea Lampis et al.

cs.LG q-bio.GN

本文提出了一种名为SNPgen的两阶段条件隐扩散框架, 用于生成表型监督的合成基因型数据. 该方法结合了GWAS引导的变异选择, 变分自编码器压缩和基于分类器自由引导的隐扩散模型, 在UK Biobank数据集的四种复杂疾病上验证了合成数据在预测任务中的效用和隐私保护性.

LAtte: Hyperbolic Lorentz Attention for Cross-Subject EEG Classification

Johannes Burchert et al.

cs.LG

本文提出了一种名为LAtte的新框架，用于跨被试的EEG分类。该框架结合了Lorentz Attention模块和基于InceptionTime的编码器，通过预训练学习共享基线信号，并利用Lorentz低秩适配器学习被试特定的嵌入。在三个EEG数据集上的评估表明，其性能优于现有方法。

Continuous Diffusion Transformers for Designing Synthetic Regulatory Elements

Jonathan Liu, Kia Ghods

cs.LG cs.AI q-bio.GN

本文提出了一种用于生成细胞类型特异性调控DNA序列的参数高效Diffusion Transformer (DiT). 通过用配备2D CNN输入编码器的transformer去噪器替换DNA-Diffusion的U-Net主干, 该模型在减少记忆化和提升收敛速度方面表现更优, 并进一步通过强化学习微调显著提高了预测调控活性.

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

Yixiu Mao et al.

cs.LG cs.AI

本文提出了一种名为Dynamics-Predictive Sampling (DPS)的方法，用于在大型推理模型的强化学习微调中高效选择训练数据。该方法通过建模提示的求解进度为一个动态系统，并利用贝叶斯推断来预测其学习动态，从而避免了大量耗时的模型展开计算。实验表明，DPS能显著减少计算开销并提升模型在多种推理任务上的性能。

Ergodicity in reinforcement learning

Dominik Baumann et al.

cs.LG

本文讨论了强化学习中非遍历奖励过程对智能体的影响, 通过一个示例说明了当奖励过程非遍历时, 基于期望值的优化目标可能无法反映单个智能体的长期表现. 文章将遍历奖励过程与更广泛使用的遍历Markov链概念联系起来, 并概述了在非遍历奖励动态下优化单个轨迹长期性能的现有解决方案.

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

Jinwoo Ahn et al.

cs.LG cs.AI

本文提出了一种名为LookaheadKV的轻量级KV缓存淘汰框架，旨在解决长上下文任务中KV缓存线性增长带来的效率瓶颈。该方法通过训练参数高效的模块来预测重要性分数，避免了显式生成草稿的计算开销，从而在保持高准确性的同时显著降低了推理延迟。

NCAA Bracket Prediction Using Machine Learning and Combinatorial Fusion Analysis

Yuanhong Wu et al.

cs.LG

本文应用Combinatorial Fusion Analysis (CFA) 结合多种评分系统来预测NCAA篮球锦标赛结果。该方法通过整合排名提升了预测准确率，优于单一的公共排名系统。

ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler

cs.LG

本文提出了一个面向部署的评估协议ECoLAD, 用于评估时间序列异常检测方法在车载环境等资源受限场景下的实际可行性. 该协议通过系统性地施加计算资源限制并评估方法在吞吐量约束下的性能覆盖率和最佳精度, 揭示了仅基于精度的排行榜可能产生的误导.

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

Zegu Zhang, Jian Zhang

cs.LG cs.AI cs.CV

本文提出了一种名为 Historical Consensus Training 的新方法，通过迭代选择 Gaussian mixture model (GMM) priors 来防止 Variational autoencoders (VAEs) 中的 posterior collapse。该方法不依赖显式的稳定性条件或架构约束，实验表明其能在不同数据集上获得非坍塌的表示。

Quantifying Membership Disclosure Risk for Tabular Synthetic Data Using Kernel Density Estimators

Rajdeep Pathak, Sayantee Jana

cs.LG stat.AP

本文提出了一种基于Kernel Density Estimators (KDE)的方法，用于量化表格型合成数据的成员推断风险。该方法通过建模合成数据与训练记录之间的最近邻距离分布，实现了概率推断和ROC曲线评估，并在多个真实数据集和生成器上验证了其优于基线方法的性能。

Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control

Yaswanth Chittepu et al.

cs.LG cs.AI

本文提出了一种新的安全强化学习对齐框架RAD, 用一阶随机占优约束替代传统的期望成本约束, 以更好地控制尾部风险. 该方法通过最优传输框架实现约束, 并证明了加权的随机占优约束可以普遍控制一类谱风险度量.

When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

Mira Jürgens et al.

cs.LG stat.ML

本文为从串联质谱(MS/MS)中检索分子结构的问题引入了选择性预测框架, 允许模型在不确定性过高时拒绝预测. 作者在风险-覆盖权衡框架下评估了不同粒度的不确定性量化策略, 发现检索层面的偶然不确定性估计能实现较好的权衡, 并展示了如何通过无分布风险控制来保证指定的错误率.

Ranking Reasoning LLMs under Test-Time Scaling

Mohsen Hariri et al.

cs.LG math.ST

本文提出了一个名为Scorio的库, 用于在test-time scaling(测试时扩展)场景下对推理大语言模型(LLMs)进行统计排名. 该库整合了多种统计排名方法, 并在多个数学推理基准上评估了这些方法的性能, 结果表明在充足采样次数下, 大多数方法能获得与贝叶斯黄金标准高度一致的排名.

Bio-Inspired Self-Supervised Learning for Wrist-worn IMU Signals

Prithviraj Tarale et al.

cs.LG

本文提出了一种基于运动控制子运动理论的新型tokenization策略, 用于处理腕戴式IMU信号. 通过将运动片段作为token并利用掩码重建进行Transformer预训练, 该方法在多个HAR基准测试中超越了现有自监督学习基线.

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

Marc Damie et al.

cs.LG cs.CL cs.CR cs.SE

本文提出了一个名为TOSSS的基准测试，用于评估大型语言模型在区分安全与易受攻击代码片段方面的能力。该基准基于CVE数据库，并测试了多个模型在C/C++和Java代码上的表现。

FRIEND: Federated Learning for Joint Optimization of multi-RIS Configuration and Eavesdropper Intelligent Detection in B5G Networks

Maria Lamprini A. Bartsioka et al.

cs.LG

本文提出了一种名为FRIEND的联邦学习框架, 用于在B5G网络中联合优化多RIS配置与窃听者智能检测. 该框架利用分布式训练的深度卷积神经网络处理本地信道状态信息, 在提升安全速率的同时保护数据隐私.

Federated Learning-driven Beam Management in LEO 6G Non-Terrestrial Networks

Maria Lamprini Bartsioka et al.

cs.LG physics.space-ph

本文研究了在低轨非地面网络中利用联邦学习进行波束管理的方法. 通过高海拔平台站协调不同轨道面的卫星作为分布式学习节点, 评估了多层感知机和图神经网络两种模型在波束预测上的性能.

The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers

Peter Balogh

cs.LG

本文研究了Transformer语言模型中MLP层的信号路由机制. 研究发现，尽管处理的信号是连续的，但MLP层通过特定神经元的二元激活状态，实现了对token是否需要非线性处理的二元路由决策. 在GPT-2 Small模型中，这种路由结构表现为一种共识架构，其功能通过因果干预实验得到了验证.

MCMC Informed Neural Emulators for Uncertainty Quantification in Dynamical Systems

Heikki Haario et al.

cs.LG

本文提出了一种将MCMC与神经网络解耦的方法, 用于在缺乏准确参数先验时进行动力学系统的不确定性量化. 该方法通过将模型参数分布作为输入来训练网络, 从而构建计算高效的代理模型, 并分析了性能损失与分布失配的关系.

Factorized Neural Implicit DMD for Parametric Dynamics

Siyuan Chen et al.

cs.LG

本文提出了一种用于参数化动力学的因子化神经隐式DMD方法. 该方法通过物理编码的神经场来参数化Koopman算子的谱分解, 学习一个解耦空间模式与时间演化的因子化流算子. 这使其能够支持长期推演、参数空间插值和谱分析.

Cross-Species Transfer Learning for Electrophysiology-to-Transcriptomics Mapping in Cortical GABAergic Interneurons

Theo Schwider, Ramin Ramezani

cs.LG q-bio.NC

本文在跨物种背景下, 利用公开的Patch-seq数据集, 复制并扩展了电生理到转录组学的映射框架. 研究聚焦于GABA能抑制性中间神经元, 比较了小鼠与人类数据, 并评估了从小鼠到人类的迁移学习对预测性能的提升.

Leech Lattice Vector Quantization for Efficient LLM Compression

Tycho F. A. van der Ouderaa et al.

cs.LG

本文提出了一种基于Leech lattice的向量量化方法(LLVQ)用于大语言模型(LLM)压缩. 该方法通过利用Leech lattice在24维空间中的最优球堆积特性, 避免了显式码本存储, 并实现了高效的索引与并行化解量化.

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Tao Zhong et al.

cs.LG cond-mat.mtrl-sci cs.AI cs.CV physics.ins-det

本文提出了一种名为NeFTY的可微分物理框架, 用于从瞬态表面温度测量中定量重建材料的三维属性. 该方法通过可微分求解器优化参数化的三维扩散率场, 相比传统方法能更准确地定位亚表面缺陷.

cs.AI

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

Ziwei Zhou et al.

cs.AI cs.CL cs.CV

本文提出了一个名为Daily-Omni的音频-视频问答基准测试，用于评估多模态大语言模型的跨模态时序推理能力。该工作还提供了一个诊断评估套件，并测试了多种基础模型在此任务上的表现。

Agentic Control Center for Data Product Optimization

Priyadarshini Tamilselvan et al.

cs.AI

本文提出了一种通过专门的AI agents在持续优化循环中自动化改进data products的系统. 该系统通过生成问题、监控多维质量指标并支持human-in-the-loop控制, 旨在将数据转化为可观察和可优化的资产.

Hybrid Self-evolving Structured Memory for GUI Agents

Sibo Zhu et al.

cs.AI cs.LG

本文提出了一种用于GUI agents的混合自演化结构化记忆方法, 旨在解决长流程任务中的记忆检索与组织问题. 该方法结合了离散符号节点与连续轨迹嵌入, 通过图结构支持多跳检索与动态更新, 并在实验中提升了开源模型的性能.

HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation

Wenjing Zhang et al.

cs.AI cs.LG

本文提出了一个名为HEAL的框架, 旨在改善从大型推理模型到小型模型的推理能力蒸馏过程. 该方法通过结合熵动态分析和课程学习策略, 避免了传统方法中因教师模型能力限制而产生的性能瓶颈.

Beyond Scalars: Evaluating and Understanding LLM Reasoning via Geometric Progress and Stability

Xinyan Jiang et al.

cs.AI

本文提出了一个名为TRACED的框架, 用于评估大型语言模型(LLM)的推理可靠性. 该框架通过分析推理轨迹的几何运动学特征, 如位移(Progress)和曲率(Stability), 来区分正确的推理过程和幻觉.

Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities

Anita Yang et al.

cs.AI

本文提出了一种基于 imprecise probabilities 的 prompt 方法, 用于从大型语言模型中引出更高阶的不确定性. 该方法旨在更忠实地报告模型的不确定性, 以提升其可信度并支持下游决策.

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Tianhao Qian et al.

cs.AI cs.LG cs.NE

本文提出了一种用于资源受限环境下亚马逊棋决策的轻量级混合框架, 结合了图注意力自编码器、多步蒙特卡洛树搜索、随机图遗传算法和大型语言模型. 实验表明, 该框架在有限计算节点下显著提升了决策准确性和胜率, 验证了从通用基础模型演化出高性能专用游戏AI的可行性.

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

Chuan Guo et al.

cs.AI cs.CL cs.CR cs.LG

本文提出了一个名为 IH-Challenge 的训练数据集，旨在提升前沿大语言模型在处理指令层级冲突时的鲁棒性。该数据集通过强化学习训练，帮助模型更好地区分并优先执行不同来源的指令。

Adaptive RAN Slicing Control via Reward-Free Self-Finetuning Agents

Yuanhao Li et al.

cs.AI cs.NI

本文提出了一种基于自微调智能体的自适应RAN切片控制框架, 通过双视角反思机制生成自主语言反馈来构建偏好数据集, 从而在无需人工设计奖励的情况下实现持续学习. 在动态RAN切片任务上的实验表明, 该方法在样本效率和稳定性上优于传统的强化学习基线.

CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

Marta Sumyk, Oleksandr Kosovan

cs.AI cs.HC

本文研究了使用 Vision-Language Models (VLMs) 作为 Computer-Use Agents (CUAs) 的自动审计员。研究通过大规模元评估发现，尽管先进的 VLMs 在准确性和置信度校准方面表现良好，但在复杂或异构环境中性能会下降，且不同模型间的判断存在显著分歧。

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Zhaowei Zhang et al.

cs.AI cs.CL cs.LG

本文通过实验比较了distribution-matching和reward-maximizing两种方法在LLM道德对齐任务上的表现。研究发现，与直觉相反，道德推理任务中的高奖励响应分布相对集中，因此标准的reward-maximizing方法同样有效，无需专门的多样性保持机制。

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Gaodan Fang et al.

cs.AI cs.DB cs.IR

本文提出了一种从智能体执行轨迹中自动提取可操作知识并利用上下文记忆检索来提升未来性能的框架。该框架包含轨迹智能提取器、决策归因分析器等组件，并在AppWorld基准测试中展示了性能提升。

FAME: Formal Abstract Minimal Explanation for Neural Networks

Ryma Boumazouza et al.

cs.AI cs.LG

本文提出了一种基于抽象解释(abstract interpretation)的新型溯因解释(abductive explanation)方法FAME, 旨在为神经网络生成形式化的最小解释. 该方法设计了专用的扰动域(perturbation domains)来避免对遍历顺序的依赖, 并利用基于LiRPA的边界来剔除无关特征, 从而缩小解释规模. 作者还引入了一种评估程序来衡量抽象最小解释与真实最小解释之间的最坏情况距离.

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

Ruiyang Ren et al.

cs.AI cs.CL

本文提出了一个名为DxEvolve的自进化诊断智能体框架，旨在模拟临床医生的认知过程。该框架通过交互式工作流动态获取检查信息并积累临床经验，在基准测试中提升了诊断准确性。

Nurture-First Agent Development: Building Domain-Expert AI Agents Through Conversational Knowledge Crystallization

Linghao Zhang

cs.AI cs.HC cs.SE

本文提出了一种名为"培育优先开发(NFD)"的新范式, 用于构建领域专家AI智能体. 该范式强调通过与领域从业者的结构化对话交互来逐步培育智能体, 而非传统的代码优先或提示优先的离散工程方法.

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

Yichi Zhu et al.

cs.AI cs.IR

本文提出了一种用于处方审核的安全可追溯框架PharmGraph-Auditor. 该系统构建了一个混合知识库(HPKB), 并引入了基于知识库的验证链(CoV)推理范式, 将大型语言模型(LLM)转化为透明的推理引擎, 以提升处方审核的安全性和效率.

cs.IR

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Abhishikth Mallampalli, Sridhara Dasu

cs.IR cs.AI cs.CL cs.LG hep-ex

本文介绍了一个名为MITRA的AI助手原型, 用于帮助物理合作项目(如CERN的CMS)检索内部文档知识. 该系统采用RAG架构, 通过自动化流程获取文档, 并使用本地部署的模型确保数据隐私, 其双层向量数据库设计旨在提高检索准确性.

Does Reasoning Make Search More Fair? Comparing Fairness in Reasoning and Non-Reasoning Rerankers

Saron Samuel, Benjamin Van Durme, Eugene Yang

cs.IR cs.AI

本文比较了 reasoning 和 non-reasoning reranker 在 fairness 方面的表现。研究发现，reasoning 能力并未显著改善或损害 fairness，fairness 指标在不同模型间保持稳定，而 fairness gaps 主要与输入 ranking 和 demographic attributes 相关。

Beyond Interleaving: Causal Attention Reformulations for Generative Recommender Systems

Hailing Cheng

cs.IR cs.AI

本文针对生成式推荐系统中将物品与动作令牌交错排列的方法提出了批评, 指出其存在序列长度加倍、计算开销大以及依赖隐式注意力来建模因果关系的低效问题. 作者提出了两种新的架构(AttnLFA和AttnMVP)来显式编码物品到动作的因果依赖, 从而将序列复杂度降低50%, 并在大规模数据集上验证了其在效果和训练效率上的提升.

Differentiable Geometric Indexing for End-to-End Generative Retrieval

Xujing Wang et al.

cs.IR

本文提出了一种名为Differentiable Geometric Indexing (DGI)的方法，用于解决生成式检索中的优化阻塞和几何冲突问题。该方法通过可微的索引机制和几何优化，提升了检索性能，特别是在长尾场景中表现更稳健。

Modeling Stage-wise Evolution of User Interests for News Recommendation

Zhiyong Cheng et al.

cs.IR cs.AI

本文提出了一种用于新闻推荐的统一框架, 通过构建全局和局部时序交互图来分别建模用户的长期偏好和短期兴趣. 实验表明该方法在多个真实数据集上优于现有基线.

Breaking User-Centric Agency: A Tri-Party Framework for Agent-Based Recommendation

Yaxin Gong et al.

cs.IR

本文提出了一个三方LLM智能体推荐框架(TriRec), 通过引入物品智能体和平台智能体, 协调用户效用、物品曝光和平台公平性. 实验表明该框架能同时提升推荐的准确性和公平性.

Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval

Andrea Volpini et al.

cs.IR cs.AI

本文探讨了在标准RAG和智能体RAG系统中，利用结构化关联数据（如JSON-LD和可解引用实体页面）作为记忆层是否能提升检索准确性和答案质量。实验结果表明，优化的实体页面格式能显著提升性能，但仅添加JSON-LD标记的改进有限。

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Nour Jedidi, Jimmy Lin

cs.IR cs.CL

本文通过控制实验, 系统地研究了在基于大语言模型(LLM)的伪相关反馈(PRF)方法中, 反馈来源和反馈模型这两个设计维度各自的作用. 研究发现, 反馈模型的选择对效果至关重要, 并且不同反馈来源在不同检索场景下各有优势.

cs.CL

ConFu: Contemplate the Future for Better Speculative Sampling

Zongyue Qin et al.

cs.CL cs.LG

本文提出了一种名为ConFu的新型speculative decoding框架, 通过引入contemplate tokens和soft prompts使draft model能够利用来自target model的未来导向信号. 该方法改进了token接受率, 在多个下游任务上相比EAGLE-3取得了8-11%的加速.

GhazalBench: Usage-Grounded Evaluation of LLMs on Persian Ghazals

Ghazal Kalhor, Yadollah Yaghoobzadeh

cs.CL

本文提出了一个用于评估大语言模型在波斯诗歌特定体裁Ghazal上表现的新基准GhazalBench. 该基准在贴近实际使用的条件下测试模型对诗歌意义和形式的理解与回忆能力, 发现模型在意义理解上表现尚可, 但在精确诗句回忆上存在困难, 且这种困难与训练数据中的文化暴露度差异有关.

Large Language Models and Book Summarization: Reading or Remembering, Which Is Better?

Tairan Fu et al.

cs.CL

本文通过实验比较了大型语言模型(LLM)仅凭内部知识记忆与基于完整书籍文本生成摘要的效果。结果表明，提供全文通常能产生更详细的摘要，但在某些情况下，模型仅凭训练记忆生成的摘要质量反而更高，这引发了对LLM长文本摘要能力的质疑。

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

Omar Elshehy et al.

cs.CL cs.AI

本文提出了AraModernBERT, 一个针对阿拉伯语的ModernBERT编码器架构变体. 它研究了transtokenized嵌入初始化和原生长上下文建模(最长8,192个token)的影响, 并在多个阿拉伯语自然语言理解任务上验证了其有效性.

An Efficient Hybrid Deep Learning Approach for Detecting Online Abusive Language

Vuong M. Ngo et al.

cs.CL

本文提出了一种结合BERT, CNN和LSTM的混合深度学习模型，用于检测在线平台上的辱骂性语言。该模型在包含大量非平衡文本样本的数据集上取得了接近99%的评估指标。

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration

Sudipta Ghosh, Mrityunjoy Panday

cs.CL cs.AI

本文通过实证研究探讨了大型语言模型(LLM)的置信度校准问题, 发现不同模型在准确性与置信度匹配上存在显著差异. 研究结果表明, 性能较差的模型倾向于表现出更高的过度自信, 这与人类认知中的邓宁-克鲁格效应类似.

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman

cs.CL cs.AI

本文通过两个实验量化了大型语言模型在医学教科书问答任务中的幻觉现象. 实验一测量了LLaMA-70B-Instruct模型在给定文本段落下的幻觉率, 实验二则评估了不同模型间的幻觉率与临床医生偏好评分的关系. 研究发现, 即使答案看似合理, 模型仍会产生相当比例的幻觉, 且较低的幻觉率与较高的有用性评分相关.

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Xinyuan Wang et al.

cs.CL cs.AI cs.LG

本文提出了一种通过演化轨迹级经验来优化上下文数据的方法, 用于驱动大语言模型进行特征转换. 该方法在多个表格基准测试中表现优于现有方法, 并展现出良好的稳定性和泛化性.

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Ajay Pravin Mahale

cs.CL cs.AI

本文提出了一种将 mechanistic interpretability 中的电路分析与自然语言解释相结合的流程, 通过 activation patching 识别关键 attention heads, 并生成和评估解释. 在 GPT-2 Small 的 IOI 任务上进行了验证, 发现基于 LLM 生成的解释质量更高, 但解释的忠实性与模型置信度无关.

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Heimo Müller et al.

cs.CL cs.AI

本文提出了一种名为 System Hallucination Scale (SHS) 的轻量级评估工具，用于从用户视角衡量大语言模型在交互中产生的幻觉相关行为。该工具具有较高的清晰度和结构效度，可作为现有系统评估量表的补充，用于模型比较和开发监控。

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Ana Begnini, Matheus Vicente, Leonardo Souza

cs.CL cs.AI

本文提出了一种基于LLM的两阶段架构, 用于自动化分析保密协议(NDA). 该架构首先使用LLaMA模型进行文档分割(条款提取), 然后使用微调的Legal-Roberta模型进行条款分类, 在两个任务上都取得了较高的性能指标.

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Stephen Afrifa et al.

cs.CL cs.AI

本文提出了一种用于家禽行业文本细粒度情感分析的领域自适应双流Transformer架构PoultryLeX-Net. 该模型结合了词典引导和上下文建模, 在情感分类任务上取得了优于多个基线模型的性能.

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Izzat Alsmadi, Anas Alsobeh

cs.CL cs.AI cs.LG

本文提出了一个面向研究的领域自适应大语言模型对话系统框架, 重点介绍了从机构数据获取到模型训练与部署的完整架构. 该工作通过监督微调, 检索增强生成等方法, 探讨了在学术机构内构建情境化对话agent的实践路径与资源权衡.

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Jon Chun et al.

cs.CL cs.AI

本文介绍了用于评估语言模型语用推理能力的基准数据集CEI, 该数据集包含300个经过人工验证的、具有情境上下文和明确权力关系的复杂歧义话语场景.

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Ruchira Dhar, Qiwei Peng, Anders Søgaard

cs.CL cs.AI

本文通过基于prompt的功能性评估和对内部模型状态的表征分析, 两种互补的方法来评估大语言模型(LLMs)中的形容词-名词组合性. 研究发现模型的任务表现与内部状态之间存在显著差异.

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

Kewen Zhu, Zixi Liu, Yanjing Li

cs.CL cs.AI

本文通过两个对照实验，比较了 human-in-the-loop 与自动 chain-of-thought prompting 在行为面试回答评估与改进上的效果。研究发现，human-in-the-loop 方法在提升回答质量、减少迭代次数和整合个人细节方面显著优于纯自动化方法。

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Edibe Yilmaz, Kahraman Kostas

cs.CL cs.AI cs.CR cs.LG

本文针对土耳其传统语言教育场景, 评估了多种可本地部署的离线大语言模型(LLMs)的鲁棒性与教学安全性. 作者构建了一个包含10个边缘案例的土耳其语异常测试集(TAS), 并测试了14个不同规模的模型, 发现异常抵抗能力并非仅取决于模型规模, 且大型模型也可能存在迎合性偏差(sycophancy bias)等教学风险.

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Michael Keeman, Anastasia Keeman

cs.CL cs.AI cs.CY cs.HC

本文通过临床评估方法, 比较了GPT-4o, o4-mini和GPT-5-mini三代模型在心理安全维度上的表现. 研究发现, 用户感知的"共情能力下降"实际上是模型安全姿态的转变, 即危机检测能力提升而建议安全性下降.

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Yue Zhang et al.

cs.CL cs.AI

本文利用一个结合了语义分析和情感分析的自动化机器学习框架，评估了包括GPT-4、GPT-4o和DeepSeek在内的LLMs在汉语到英语翻译任务上的表现。研究结果表明，LLMs在新闻文本翻译上表现良好，但在处理文学文本时存在差异，尤其在保留文化细节和古典引用方面仍面临挑战。

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Gabriele Immordino, Andrea Vaiuso, Marcello Righi

cs.CL cs.AI cs.CE

本文设计并验证了一个基于检索的辅助系统, 用于支持无人机系统的安全评估, 认证活动和法规遵从. 该系统采用受控的文本架构, 将证据检索与语言生成分离, 旨在提高文档准备和审查的效率, 同时保持人类专家的最终决策责任.

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Yuling Jiao et al.

cs.CL cs.LG

本文探讨了大型语言模型(LLM)中语义提示理解、上下文学习(ICL)和思维链(CoT)推理等现象的理论机制。研究通过分析自回归过程，解释了这些现象如何通过减少提示歧义和促进任务分解来提升模型性能。

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Yannis Karmim et al.

cs.CL cs.AI cs.LG

本文利用Wikipedia内容、Wikidata知识图谱结构和社会科学专家知识，创建了一个关于拉丁美洲各国流行与社会文化的问答数据集LatamQA。该数据集用于量化多个大语言模型的文化知识差异，发现模型在拉美国家间表现不均，且更熟悉伊比利亚西班牙文化。

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Srivatsa Kundurthy et al.

cs.CL cs.AI cs.LG

本文介绍了SpreadsheetArena，一个用于评估大型语言模型(LLM)在端到端电子表格生成任务中表现的系统。该平台通过盲法成对比较来评估模型生成的电子表格工作簿，并指出不同用例下偏好的风格、结构和功能特征差异很大。

Probing the Limits of the Lie Detector Approach to LLM Deception

Tom-Felix Berger

cs.CL cs.LG

本文探讨了大型语言模型(LLM)中基于"谎言探测器"的机制性欺骗检测方法的局限性。研究通过实验表明，LLM可以通过产生误导性的非虚假陈述来进行欺骗，而标准的真假数据集训练的探测器难以有效识别此类行为。

Fine-Tune, Don't Prompt, Your Language Model to Identify Biased Language in Clinical Notes

Isotta Landi et al.

cs.CL

本文提出了一个检测临床文本中情感偏向性语言的框架, 并比较了多种分类策略. 研究发现, 针对特定医学领域进行 fine-tuning 的方法优于 prompting, 但模型的跨领域泛化能力有限.

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Youness Dkhissi et al.

cs.CL cs.AI

本文提出了一种名为SENS-ASR的方法，用于提升流式自动语音识别（ASR）的转录质量。该方法通过一个上下文模块从过去的帧嵌入中提取语义信息，并将其注入到神经传感器中，以增强声学信息。实验表明，该方法在小块流式场景下显著降低了词错误率。

Adaptive Engram Memory System for Indonesian Language Model: Generative AI Based on TOBA LM for Batak and Minang Language

Hokky Situngkir, Kevin Siringoringo, Andhika Bernard Lumbantobing

cs.CL cs.CY

本文提出了一种基于GPT-2架构的三语种语言模型TOBA-LM，并集成了一个名为Engram Memory的自适应n-gram记忆系统。该模型在印尼语、巴塔克语和米南加保语的语料上训练，实验表明其集成外部统计记忆的方法能显著提升训练效率。

GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification

Ahmed Khaled Khamis

cs.CL cs.LG

本文针对阿拉伯语机器生成文本检测任务, 使用了多语言E5-large编码器进行微调, 并比较了多种池化策略. 实验发现简单的均值池化效果最佳, 作者认为这是因为复杂方法在数据有限时容易过拟合. 同时, 研究观察到人工撰写的文本通常比机器生成的文本更长.

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Ahmed Khaled Khamis

cs.CL cs.AI cs.LG

本文比较了双向编码器与因果解码器在阿拉伯语医学文本分类任务上的性能. 实验表明, 经过微调的双向编码器在捕获细粒度语义边界方面优于因果解码器.

FERRET: Framework for Expansion Reliant Red Teaming

Ninareh Mehrabi et al.

cs.CL cs.AI

本文提出了一个名为FERRET的多模态对抗对话生成框架, 通过引入水平扩展, 垂直扩展和元扩展等机制来提升对抗攻击的效能与效率. 实验表明, 该框架在生成多模态对抗对话方面优于现有的先进方法.

Gemma Needs Help: Investigating and Mitigating Emotional Instability in LLMs

Anna Soligo, Vladimir Mikulik, William Saunders

cs.CL

本文研究了大型语言模型(LLM)中类似情感困扰的生成问题, 并针对Gemma和Gemini模型观察到了情绪不稳定的现象. 作者提出了一套评估方法, 并发现通过基于少量偏好对的直接偏好优化(DPO)可以有效缓解该问题, 且不影响模型能力.

Measuring and Eliminating Refusals in Military Large Language Models

Jack FitzGerald et al.

cs.CL cs.AI

本文针对军事领域大型语言模型(LLM)中普遍存在的对合法查询的拒绝(refusal)问题, 构建了一个由军事专家开发的黄金基准数据集进行评估. 研究测试了多个公开及军事专用模型, 展示了高拒绝率, 并尝试使用abliteration技术来降低拒绝率, 同时讨论了通过模型深度专业化来实现零拒绝的目标.

Evaluating Progress in Graph Foundation Models: A Comprehensive Benchmark and New Insights

Xingtong Yu et al.

cs.CL cs.AI

本文提出了一个新的benchmark, 用于全面评估graph foundation models (GFM) 在topic domain和format domain两个维度上的知识迁移能力. 该benchmark通过四个受控设置对八个先进GFM在33个数据集上进行了广泛评估, 揭示了新的经验观察并为未来研究提供了实用见解.

A Principle-Driven Adaptive Policy for Group Cognitive Stimulation Dialogue for Elderly with Cognitive Impairment

Jiyue Jiang et al.

cs.CL

本文提出了一个用于认知障碍老年人群体认知刺激对话的原则驱动自适应策略。该系统通过整合多个模块来克服大型语言模型在治疗性对话中的应用局限，并在模拟和真实对话数据上进行了实验验证。

TriageSim: A Conversational Emergency Triage Simulation Framework from Structured Electronic Health Records

Dipankar Srirag et al.

cs.CL

本文提出了一个名为TriageSim的对话式急诊分诊模拟框架，用于从结构化电子健康记录生成合成对话。该框架通过控制语言流畅度和决策行为来模拟护患互动，并评估了生成语料在分诊分类任务中的效用。

The Prediction-Measurement Gap: Toward Meaning Representations as Scientific Instruments

Hubert Plisiecki

cs.CL

本文讨论了文本嵌入在计算社会科学和心理学中作为科学测量工具时存在的"预测-测量差距". 作者提出了"科学可用性"这一系列新目标, 并评估了静态和上下文嵌入在几何可读性、可解释性等方面的表现, 最后为开发面向测量的表示设定了研究议程.

The Generation-Recognition Asymmetry: Six Dimensions of a Fundamental Divide in Formal Language Theory

Romain Peyrichou

cs.CL cs.AI cs.CC cs.FL

本文探讨了形式语言理论中生成与识别之间的根本性不对称, 识别了六个维度来描述这种差异, 包括计算复杂性, 模糊性, 方向性, 信息可用性, 语法推断和时间性. 文章指出"生成容易, 解析难"的常见说法具有误导性, 并将时间性与 surprisal 框架联系起来, 最后讨论了大型语言模型在架构上统一生成与识别的同时, 在操作上仍保持这种不对称性.

Reason and Verify: A Framework for Faithful Retrieval-Augmented Generation

Eeham Khan, Luis Rodriguez, Marc Queudot

cs.CL

本文提出了一个结合显式推理与忠实性验证的领域特定RAG框架, 通过神经查询重写、重排序和原理生成模块来提升事实准确性. 在生物医学问答基准上的实验表明, 该方法在有限资源下取得了有竞争力的性能, 并增强了系统的可解释性.

Lost in Backpropagation: The LM Head is a Gradient Bottleneck

Nathan Godey, Yoav Artzi

cs.CL

本文指出, 在大型语言模型中, 输出层(将维度$D$映射到词汇表大小$V$)不仅是一个表达能力瓶颈(softmax bottleneck), 更是一个优化瓶颈. 作者通过理论分析和实验表明, 该层会严重压缩梯度, 影响绝大多数参数的更新方向, 从而降低大规模预训练的效率.

OpenClaw-RL: Train Any Agent Simply by Talking

Yinjie Wang et al.

cs.CL

本文提出了OpenClaw-RL框架，利用agent交互中普遍存在的next-state信号进行在线学习。该框架通过异步设计，能够同时处理实时请求、评估交互和更新策略。

Adaptive Activation Cancellation for Hallucination Mitigation in Large Language Models

Eric Yocam et al.

cs.CL cs.AI cs.LG

本文提出了一种名为Adaptive Activation Cancellation (AAC)的推理时方法，用于减轻大型语言模型中的幻觉问题。该方法通过识别并抑制与幻觉相关的神经元激活来提升事实准确性，同时保持模型原有的流畅性和推理能力。

ViDia2Std: A Parallel Corpus and Methods for Low-Resource Vietnamese Dialect-to-Standard Translation

Khoa Anh Ta, Nguyen Van Dinh, Kiet Van Nguyen

cs.CL

本文构建了首个覆盖越南所有省份的方言到标准语平行语料库 ViDia2Std，并基于此评估了多种序列到序列翻译模型的性能。该资源旨在提升越南语 NLP 系统对方言输入的鲁棒性。

Sabiá-4 Technical Report

Thiago Laitz et al.

cs.CL

本文介绍了针对巴西葡萄牙语的新一代语言模型Sabiá-4和Sabiazinho-4。报告概述了其四阶段训练流程，包括在特定语料上的持续预训练、长上下文扩展、监督微调和对齐，并展示了其在多个基准测试中的性能表现。

S-GRADES -- Studying Generalization of Student Response Assessments in Diverse Evaluative Settings

Tasfia Seuti, Sagnik Ray Choudhury

cs.CL

本文提出了一个名为S-GRADES的基准测试，用于统一评估自动作文评分和自动简答题评分任务。该基准整合了多个数据集，并利用大语言模型进行了初步评估，揭示了不同评分任务间的泛化差距。

GR-SAP: Generative Replay for Safety Alignment Preservation during Fine-Tuning

Zhouxiang Fang, Jiawei Zhou, Hanjie Chen

cs.CL

本文提出了GR-SAP框架, 通过生成式回放合成安全对齐数据, 以在微调过程中保持大语言模型的安全性. 实验表明该方法能有效缓解安全性能下降, 同时保持下游任务表现.

Is this Idea Novel? An Automated Benchmark for Judgment of Research Ideas

Tim Schopf, Michael Färber

cs.CL cs.AI

本文提出了一个用于评估研究想法新颖性的自动化基准RINoBench, 包含专家标注的数据集和多种评估指标. 作者利用该基准测试了多个大语言模型, 发现其推理过程与人类相似, 但新颖性判断的准确性仍有显著差距.

Large language models can disambiguate opioid slang on social media

Kristy A. Carpenter et al.

cs.CL

本文评估了大型语言模型(LLM)在社交媒体文本中消解阿片类药物相关俚语歧义的能力。研究通过三个任务测试了多个先进LLM，结果表明LLM在识别相关内容的性能上远超传统的基于词典的方法。

Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck

Hongbin Zhang et al.

cs.CL cs.AI

本文提出了一种名为DIBJudge的微调框架, 旨在缓解多语言大语言模型(LLM)作为评估器时存在的"翻译腔"偏差. 该方法通过变分信息压缩学习一个最小充分且关键的判断表示, 同时将虚假相关因素隔离到专门的偏差分支中, 并在多语言奖励建模基准上验证了其有效性.

Dynamic Knowledge Fusion for Multi-Domain Dialogue State Tracking

Haoxiang Su et al.

cs.CL cs.AI

本文提出了一个用于多领域对话状态跟踪的动态知识融合框架. 该框架通过两阶段设计, 先利用对比学习选择相关槽位, 再将其作为上下文提示来增强跟踪的准确性和一致性. 实验表明该方法在多领域基准上提升了性能.

Aligning Large Language Models with Searcher Preferences

Wei Wu et al.

cs.CL cs.AI

本文提出了一个用于开放式生成搜索的大语言模型SearchLLM, 并设计了一个分层、多维度的奖励系统来优化模型。该模型结合了基于规则的检查和人工校准的LLM评估, 并通过在线A/B测试验证了其在提升用户参与度和搜索质量方面的有效性。

Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

Panatchakorn Anantaprayoon et al.

cs.CL cs.AI

本文提出了一个基于多智能体谈判的大语言模型对齐框架, 旨在实现"集体能动性"这一对齐目标并提升冲突解决能力. 该方法通过让两个具有对立角色的模型实例进行结构化对话来生成解决方案, 并利用RLAIF进行策略优化. 实验表明, 该模型在保持通用语言能力的同时, 显著提升了冲突解决性能.

PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

Minki Hong et al.

cs.CL

本文提出了一个名为PEEM的评估框架, 用于对大型语言模型的prompt和响应进行联合且可解释的评估. 该框架定义了一个包含9个维度的结构化评估标准, 并利用基于LLM的评估器输出分数和解释性理由.

Human-AI Co-reasoning for Clinical Diagnosis with Evidence-Integrated Language Agent

Zhongzhen Huang et al.

cs.CL

本文提出了一个名为PULSE的医疗推理智能体，它结合了领域调优的大语言模型和科学文献检索，以支持复杂真实世界病例的诊断决策。研究通过一个包含82个真实内分泌病例的基准进行评估，发现PULSE在诊断准确性上具有竞争力，并能与医生进行协作，但也指出了自动化偏差等风险。

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

Weixin Liu et al.

cs.CL cs.LG

本文提出了一种名为VERI-DPO的方法，用于临床文本摘要的忠实性对齐。该方法通过一个检索增强的验证器来识别摘要中的主张是否得到证据支持，并利用这些验证结果构建偏好对，最后通过Direct Preference Optimization (DPO) 对摘要模型进行微调。实验表明，该方法能有效减少摘要中无证据支持的主张，同时保持信息的完整性。

Safe and Scalable Web Agent Learning via Recreated Websites

Hyungjoo Chae, Jungsoo Park, Alan Ritter

cs.CL

本文提出了一个名为VeriEnv的框架, 用于为Web agent训练创建可执行且可验证的合成环境. 该方法通过将真实网站克隆为可控的模拟环境, 使agent能够进行安全的自我训练和任务生成, 并在基准测试中展示了良好的泛化能力.

AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations

Dimosthenis Athanasiou et al.

cs.CL

本文介绍了AILS-NTUA系统，用于解决多轮检索增强生成(RAG)的评估任务。该系统采用基于查询多样性的检索策略和多阶段生成管道，在特定子任务中取得了领先的排名。

Automatic End-to-End Data Integration using Large Language Models

Aaron Steiner, Christian Bizer

cs.CL

本文提出了一种使用大型语言模型(如GPT-5.2)实现端到端自动数据集成的方法. 该方法能够自动生成模式映射(schema mapping), 值映射(value mapping), 实体匹配(entity matching)的训练数据以及数据融合(data fusion)中解决冲突的验证数据, 从而替代传统上需要数据工程师大量手动配置的工作. 通过三个案例研究(涉及视频游戏, 音乐和公司数据)的实验表明, 该基于LLM的流水线能够产生与人工设计流水线相当甚至在某些任务上更好的结果, 且成本显著降低.

End-to-End Chatbot Evaluation with Adaptive Reasoning and Uncertainty Filtering

Nhi Dang, Tung Le, Huy Tien Nguyen

cs.CL

本文提出了一种用于领域特定聊天机器人端到端自动评估的系统. 该系统通过从知识库生成问答对, 利用大语言模型(LLM)进行评判, 并结合置信度过滤来减少人工审核工作量. 在越南新闻数据集上的实验表明, 该评估器与人工判断具有较高一致性.

MUNIChus: Multilingual News Image Captioning Benchmark

Yuji Chen et al.

cs.CL cs.CV

本文构建了首个多语言新闻图像描述基准 MUNIChus, 包含 9 种语言, 并评估了多种先进模型. 该基准的发布旨在推动多语言新闻图像描述模型的开发与评估.

Disentangling Similarity and Relatedness in Topic Models

Hanlin Xiao, Mauricio A. Álvarez, Rainer Breitling

cs.CL

本文提出了一种利用LLM标注构建大规模合成基准的方法, 以训练一个神经评分函数来解构topic models中的thematic relatedness和taxonomic similarity. 通过在多语料库和多种topic model家族上的综合评估, 揭示了不同模型家族在捕捉主题语义结构上的差异, 并表明这些评分能有效预测下游任务表现.

Making Bielik LLM Reason (Better): A Field Report

Adam Trybus, Bartosz Bartnicki, Remigiusz Kinas

cs.CL

本文介绍了针对波兰大语言模型Bielik的推理能力评估与提升的研究计划。报告概述了从基准测试到未来展望的多个工作阶段。

Prism-$Δ$: Differential Subspace Steering for Prompt Highlighting in Large Language Models

Yuyao Ge et al.

cs.CL

本文提出了一种名为PRISM-$\Delta$的新方法，用于在大型语言模型中进行提示高亮。该方法通过分解正负交叉协方差矩阵的差异来提取更具区分性的引导方向，并引入了连续的重要性权重机制。实验表明，该方法在多个基准测试中取得了竞争力的性能，同时降低了引导对文本流畅性的影响。

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

Shuang Zhou et al.

cs.CL

本文提出了一个用于心脏病学可解释鉴别诊断的自主智能体系统 HeartAgent. 该系统整合了定制工具与数据资源, 通过协调多个专业子智能体进行复杂推理, 并在 MIMIC 数据集和私有电子健康记录队列上验证了其有效性.

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Konstantin Dobler et al.

cs.CL

本文构建了一个高质量的多语言数学问题数据集mAceReason-Math, 旨在支持多语言环境下的强化学习与可验证奖励(RLVR)研究. 该数据集包含14种语言, 每种语言超过10,000个样本, 其问题难度经过精心设计, 以适应当前模型的能力.

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Zhipeng Yang et al.

cs.CL

本文通过 mechanistic interpretability 研究了 LLMs 对 character-level tokenization 的鲁棒性, 并提出了 "word recovery" 这一核心机制. 作者通过解码、因果干预和注意力分析等方法, 揭示了模型如何从字符级输入中重建单词级 token 的身份.

Large Language Models as Annotators for Machine Translation Quality Estimation

Sidi Wang, Sophie Arnoult, Amir Kamran

cs.CL

本文提出使用 LLMs 生成 MQM 风格的标注来训练 COMET 模型, 以解决其直接用于机器翻译质量评估时推理成本过高的问题. 通过简化的 MQM 方案和系统化的提示开发, 该方法在汉英和英德翻译的片段级质量评估上取得了有竞争力的性能.

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Weihang Huang, Mengna Liu

cs.CL cs.IR

本文提出了一种利用大语言模型辅助生成可执行规则脚本的流程, 用于中文隐喻识别, 并比较了四种不同的识别协议. 实验表明协议选择是识别结果差异的主要来源, 且该规则脚本方法在保持完全透明度的同时取得了有竞争力的性能.

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

Nina Hosseini-Kivanani, Fred Philippy

cs.CL

本文提出了一种针对卢森堡语新闻文本的借用词分析框架, 通过结合句子级语言识别与词例级借用解析, 量化了多语言实践中借用现象的广度与强度. 研究发现, 尽管多语言使用普遍, 但代码混合强度较低, 且法语是形态适应借用词的主要来源.

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

Konstantin Dobler et al.

cs.CL

本文介绍了Multilingual Reasoning Gym, 这是一个多语言可验证推理问题的程序化生成环境. 它扩展了原有的Reasoning Gym, 通过模板翻译和适配, 在14种语言中生成并行的问题实例, 支持大规模跨语言数据生成和强化学习评估.

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

Yuzhi Liang et al.

cs.CL

本文提出了一种名为PivotAttack的高效硬标签文本攻击框架。该方法通过识别并扰动作为预测锚点的组合词元集合来诱导标签翻转，从而在降低查询成本的同时提高了攻击成功率。

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

Nevidu Jayatilleke et al.

cs.CL

本文介绍了SiDiaC-v.2.0，一个目前最大的僧伽罗语历时语料库，涵盖了从公元1800年到1955年的出版物。该语料库包含约24.4万个单词，经过了细致的过滤、预处理和版权合规检查，并进行了广泛的后期处理。

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Jennifer D'Souza et al.

cs.CL cs.AI cs.DL cs.IR

本文发布了一个用于主题索引的双语(英语/德语)语料库和对应的机器可操作分类法, 旨在支持基于本体的多标签分类和辅助编目. 该资源为评估AI辅助系统的实用性和透明度提供了基础.

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

Ayan Sengupta et al.

cs.CL

本文提出了一种名为ARMADA的高效跨模态知识蒸馏框架, 旨在将知识从大型视觉-语言模型(包括黑盒模型)迁移到纯语言模型. 该方法通过新颖的对齐技术实现知识蒸馏, 无需访问教师模型的内部结构或进行昂贵的多模态预训练, 并在多项自然语言理解和生成任务上验证了其有效性.

GLM-OCR Technical Report

Shuaiqi Duan et al.

cs.CL

本文提出了一个用于文档理解的紧凑多模态模型 GLM-OCR. 它结合了视觉编码器和语言解码器, 并引入了多令牌预测机制以提高解码效率, 在多个文档理解任务上取得了有竞争力的性能.

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Parishad BehnamGhader et al.

cs.CL

本文提出了一种名为LLM2Vec-Gen的自监督方法，用于从大型语言模型中生成文本嵌入。该方法通过训练特殊的标记来表征模型的潜在响应，而非直接编码输入，从而在无标注数据上提升了嵌入性能。

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Mingyang Song, Mao Zheng, Chenning Xu

cs.CL

本文挑战了LLM-as-a-judge范式中关于高评分者间一致性即代表可靠评估的假设。研究发现，这种共识常基于共享的表面启发式方法而非实质质量，并且通过引入一个基于领域知识动态生成评估标准的框架，证明了在结构化领域能提升评估一致性。

Instruction set for the representation of graphs

Ezequiel Lopez-Rubio, Mario Pascual-Gonzalez

cs.CL cs.AI cs.DS

本文提出了一种名为IsalGraph的图结构表示方法, 它将任意有限简单图编码为由九个指令字符组成的紧凑字符串. 该方法通过一个包含稀疏图, 循环双链表和遍历指针的虚拟机来执行编码, 确保任何字符串都能解码为有效图. 在基准数据集上的评估表明, 其字符串间的Levenshtein距离与图编辑距离(GED)高度相关.

cs.DS

Transposition is Nearly Optimal for IID List Update

Christian Coester

cs.DS

本文研究了在请求服从独立同分布(IID)模型下的列表更新问题. 作者证明了Transposition规则在稳态下的期望访问成本至多为最优静态排序的成本加1, 从而基本证实了一个长期存在的猜想.

Reconstructing Bounded Treelength Graphs with Linearithmic Shortest Path Distance Queries

Chirag Kaudan, Amir Nayyeri

cs.DS

本文研究了在给定顶点集和最短路径距离查询oracle的情况下, 如何重建无权连通图的边集. 针对具有有界度和有界treelength的图类, 作者提出了一种确定性算法, 仅需$O_{\Delta,\mathrm{tl}}(n \log n)$次查询即可完成重建. 该结果改进了此前针对该图类的最佳算法, 并匹配了其子类(有界弦图)的已知下界.

Density-Dependent Graph Orientation and Coloring in Scalable MPC

Mohsen Ghaffari, Christoph Grunau

cs.DS

本文在scalable MPC模型中, 针对图的子图密度$\alpha$, 提出了在$poly(\log\log n)$轮内计算最大出度为$O(\alpha \log\log n)$的边定向和$O(\alpha \log\log n)$染色的算法. 该结果突破了先前算法$\tilde{\Theta}(\sqrt{\log n})$的轮复杂度障碍.

Intermittent Cauchy walks enable optimal 3D search across target shapes and sizes

Matteo Stromieri, Emanuele Natale, Amos Korman

cs.DS math.PR

本文分析了三维空间中的间歇性Lévy walks, 并证明了Cauchy策略($\mu = 2$)在广泛的靶标尺寸和形状范围内, 能实现尺度不变的、接近最优的探测. 研究揭示了三维搜索对靶标形状的敏感性, 为Lévy飞行觅食假说提供了理论基础.

Sublinear-Time Reconfiguration of Programmable Matter with Joint Movements

Manish Kumar et al.

cs.DS cs.CG cs.RO

本文研究了可编程物质在联合移动模型下的集中式重配置问题, 证明了在三角网格上, 任意结构都可以在$O(\sqrt{n}\log n)$轮内重配置为标准线段结构, 并给出了螺旋结构到线段的常数时间算法.

Sample-and-Search: An Effective Algorithm for Learning-Augmented k-Median Clustering in High dimensions

Kangke Cheng et al.

cs.DS cs.LG

本文提出了一种基于采样的算法, 用于解决高维空间中的 learning-augmented $k$-median 聚类问题. 该方法显著降低了现有算法的时间复杂度, 并缓解了其对维度的指数依赖.

Huffman-Bucket Sketch: A Simple $O(m)$ Algorithm for Cardinality Estimation

Matti Karppa

cs.DS

本文提出了一种名为Huffman-Bucket Sketch (HBS)的数据结构，用于压缩HyperLogLog (HLL)草图。该方法将寄存器分组并利用Huffman编码进行压缩，在保持可合并性的同时显著降低了内存占用。理论分析表明其更新操作具有摊销常数时间复杂度，并且在整个数据流中仅需少量重构。

Simple minimally unsatisfiable subsets of 2-CNFs

Oliver Kullmann, Edward Clewer

cs.DS

本文研究了2-CNF布尔公式的最小不可满足子集(MUS). 它扩展了2-MU的分类, 并给出了识别2-MU的线性时间算法, 同时探讨了寻找特定类型MUS的计算复杂度.

others

Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities

Yungi Jeong, Takumi Otsuka

math.OC cs.LG

本文提出了一种结合递归动量与同批次曲率验证的自适应方差缩减方法VR-SDA-A，用于求解随机变分不等式问题。该方法在一般Lipschitz连续算子下达到了$O(\epsilon^{-3})$的oracle复杂度，并在实验中展现了稳定收敛和减少对人工调参依赖的优势。

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Amal Akli et al.

cs.SE cs.AI cs.LG

本文评估了参数高效微调(PEFT)在多任务代码分析中的应用. 实验表明, 共享的PEFT模块在多任务设置下能取得接近单任务微调的性能, 同时显著降低存储和计算成本.

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Sierra S. Liu

cs.CY cs.AI

本文通过设计实验评估了大型语言模型在司法量刑辅助中是否表现出类似人类的认知偏差, 重点关注了"高尚受害者效应"和基于声望的光环效应. 研究发现模型在某些偏差上表现与人类不同, 例如对"相邻同意"的惩罚不显著, 且基于资历的光环效应大幅减弱, 表明其当前直接用于司法决策仍有限制.

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx

cs.CY cs.AI

本文提出了一个名为 DeliberationBench 的基准测试, 用于评估大型语言模型(LLMs)对用户观点的规范性影响. 该研究通过一项预注册的随机实验, 发现所测试的 LLMs 对参与者政策观点的影响在方向上与经过审慎民意调查后的意见转变呈正相关.

Prompts and Prayers: the Rise of GPTheology

Ioana Cheres et al.

cs.CY cs.AI

本文探讨了人工智能(AI)被赋予“类神”角色的现象，即所谓的“GPTheology”。作者通过分析在线社区叙事和具体案例，研究了围绕AI形成的新型技术宗教及其社会影响。

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Yuanyuan Sun et al.

cs.CY cs.AI cs.LG

本文通过系统文献综述, 分析了"AI模型"与"AI系统"的定义模糊问题, 并基于模型与系统的本质关系提出了新的概念性与操作性定义. 该框架旨在为AI法规中的责任分配提供更清晰的依据.

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

Xinsheng Tang et al.

cs.AR cs.AI cs.DC cs.PF

本文提出了一个名为RedFuser的自动算子融合框架，专门用于处理AI加速器上的级联规约操作。该框架通过形式化理论分析，能够将复杂的多循环依赖结构融合为单一循环，并生成高效的融合内核，在多种工作负载上实现了显著的性能提升。

A Governance and Evaluation Framework for Deterministic, Rule-Based Clinical Decision Support in Empiric Antibiotic Prescribing

Francisco José Gárate et al.

cs.CY cs.AI cs.HC

本文提出了一个用于经验性抗生素处方中确定性、基于规则的临床决策支持系统的治理与评估框架. 该框架将治理作为核心设计组件, 并定义了一套基于合成案例的评估方法, 以验证系统行为与预设规则的一致性.

How to Count AIs: Individuation and Liability for AI Agents

Yonathan Arbel, Peter Salib, Simon Goldstein

cs.CY cs.AI

本文探讨了AI代理的法律身份认定问题, 提出了"薄身份"与"厚身份"的区分, 并引入了"算法公司"这一法律拟制实体作为解决方案.

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Marco Graziano

cs.AR cs.AI cs.DC

本文提出了一个名为dmaplane的Linux内核模块, 旨在为高性能AI数据传输提供内核级的缓冲区编排层. 它通过统一的用户接口整合了DMA缓冲区生命周期管理, 跨设备共享, 内核RDMA引擎等功能, 并评估了其在NUMA, 流控和GPU内存集成方面的性能.

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Athos Georgiou

cs.AR cs.AI cs.DC

本文在配备AMD Instinct MI325X GPU的集群上，对多个大型语言模型(LLM)进行了推理性能的基准测试。研究发现，针对不同模型架构(如MLA与GQA)需要采用特定的优化策略，并且所有模型在达到一定并发量后都会遇到内存带宽瓶颈。

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

Shubham Kumar Singh

cs.AR cs.AI cs.LG

本文提出了一种用于长时运行智能体的分层记忆架构HTM-EAR, 它结合了基于HNSW的工作记忆与归档存储, 并采用了重要性感知的淘汰机制与混合查询路由. 实验表明, 该系统在记忆饱和状态下能有效保持关键信息的检索精度, 同时控制性地遗忘陈旧历史.

Tureis: Transformer-based Unified Resilience for IoT Devices in Smart Homes

Alireza Borhani, Vafa Andalibi, Bahar Asgari

cs.NI cs.LG

本文提出了一种名为Tureis的自监督方法, 用于智能家居中IoT设备的故障检测与传感器定位. 该方法利用轻量级Transformer模型处理异构传感器数据, 在多个数据集上展现了优于基线的性能, 并具备边缘部署的可行性.

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

Ondřej Lukáš et al.

cs.CR cs.LG

本文在 NetSecGame 环境中评估了自主网络攻击智能体在遇到未见的主机/子网 IP 重分配时的泛化能力。研究比较了传统 RL、自适应智能体和基于 LLM 的智能体，发现即使地址空间的变化也会破坏长期攻击策略，而基于提示的预训练 LLM 智能体在未见任务上成功率最高，但存在推理成本高和透明度低等问题。

Targeted Bit-Flip Attacks on LLM-Based Agents

Jialai Wang et al.

cs.CR cs.AI

本文提出了首个针对基于LLM的智能体的目标比特翻转攻击框架Flip-Agent，该框架能够操纵智能体的最终输出和工具调用。实验表明，该攻击在现实世界智能体任务上显著优于现有方法，揭示了此类系统的关键安全漏洞。

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Yunsheng Wang et al.

cs.MM cs.AI cs.SD

本文提出了一种用于多模态情感识别的自适应模态平衡动态语义图差分网络(AMB-DSGDN). 该方法通过构建模态内与模态间的图结构来捕捉情感依赖, 并设计了差分图注意力与自适应模态平衡机制以提升融合效果.

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

David Gringras

cs.SE cs.AI cs.CL cs.LG

本文通过大规模对照实验研究了不同agentic scaffold架构对LLM安全性的影响, 发现评估格式(如多项选择与开放式)比scaffold架构本身对测得的安全性分数影响更大. 研究还揭示了模型安全排名在不同基准间缺乏一致性, 强调了进行针对性测试的必要性.

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Brian Freeman et al.

cs.SE cs.AI cs.HC

本文提出了五种无需修改模型权重的prompt engineering策略, 旨在减少工业应用中LLM输出的方差, 提高其稳定性和可重复性. 通过LLM-as-Judge框架评估, 其中Enhanced Data Registry方法表现最佳.

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

Sizhe Huang, Shujie Yang

cs.NI cs.AI cs.CR cs.LG

本文提出了一种针对加密流量分类的协议原生表格预训练范式, 旨在解决现有基于字节序列掩码建模方法因破坏协议语义而导致的性能下降问题. 作者设计了FlowSem-MAE模型, 通过引入Flow Semantic Units (FSUs) 等组件来更好地利用流量数据的表格模态, 并在多个数据集上取得了优于现有方法的结果.

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

Yunzhou Song et al.

cs.RO cs.LG

本文提出了一个名为OmniGuide的通用框架, 旨在通过整合多种外部引导源(如3D基础模型, 语义推理VLM等)来增强通用视觉-语言-动作(VLA)策略在复杂任务上的性能. 该框架将不同形式的引导统一表达为可微的能量函数, 从而在动作采样过程中施加影响, 并在仿真和真实环境中验证了其有效性.

Quantization of Ricci Curvature in Information Geometry

Carlos C. Rodriguez

cs.IT cs.LG quant-ph

本文研究了信息几何中Ricci曲率的量子化问题. 作者证明了在树结构和完全图结构的二元贝叶斯网络中, 其Fisher信息度量的体积平均Ricci标量确实量子化为正的半整数, 但通过环路反例表明该猜想在一般情况下不成立.

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Petar Radanliev et al.

cs.CR cs.AI cs.SE

本文提出了一种名为agentic AIBOMs的框架，将传统的静态SBOMs扩展为能够捕获运行时行为和环境的动态溯源构件。该框架基于一个包含多个智能代理的架构，用于环境重建、依赖监控和漏洞评估，并通过扩展现有标准模式来保持互操作性。评估表明，该方法在运行时依赖捕获和漏洞解释稳定性方面优于现有系统。

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

Abhinaba Basu

cs.CR cs.AI cs.CL

本文提出了一种名为NabaOS的轻量级验证框架, 用于检测AI agent在工具调用中的幻觉问题. 该方法基于印度认识论对LLM响应中的声明进行来源分类, 并通过HMAC签名的工具执行收据进行实时交叉验证, 在低延迟下实现了较高的幻觉检测率.

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

Zhongming Yu et al.

cs.AR cs.AI cs.MA

本文从计算机体系结构的角度探讨了多智能体系统的内存问题, 提出了一个包含I/O, cache和memory的三层内存层次结构, 并指出了当前在cache共享和结构化内存访问控制方面存在的协议缺口. 作者认为, 多智能体内存一致性是当前最紧迫的开放挑战, 这一架构视角为构建可靠、可扩展的多智能体系统提供了基础.

The Epistemic Support-Point Filter: Jaynesian Maximum Entropy Meets Popperian Falsification

Moriba Kemessia Jah

cs.IT cs.AI eess.SY stat.ME

本文提出了一种名为Epistemic Support-Point Filter (ESPF)的新滤波器。它基于最小化最坏情况认知无知的原则，在传播阶段采用最大熵原理，在更新阶段采用证伪原则。该滤波器在特定类别的证据驱动滤波器中具有最优性，并在高斯极限下退化为Kalman滤波器。

ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models

Harry Owiredu-Ashley

cs.CR cs.AI cs.CL

本文提出了一个名为ADVERSA的自动化红队测试框架, 用于评估大型语言模型(LLM)在多轮对抗性交互中的安全护栏退化动态. 该框架采用了一个经过微调的70B攻击者模型, 并设计了一个结构化的5点评分标准来量化受害者模型的响应, 将部分合规视为可测量的状态. 实验在三个前沿受害者模型上进行, 通过三裁判共识架构测量了裁判的可靠性, 并报告了越狱率、裁判间一致性等结果.

Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

Amir Al-Maamari

cs.CR cs.AI

本文通过三轴评估方法分析了LLMs在生成安全补丁方面的表现, 发现其成功率较低且主要失败模式为语义误解. 研究提出了Security Repair Score (SRS)来量化LLMs在保持功能性与修复安全性之间的差距.

TASER: Task-Aware Spectral Energy Refine for Backdoor Suppression in UAV Swarms Decentralized Federated Learning

Sizhe Huang, Shujie Yang

cs.CR cs.AI

本文提出了一种名为TASER的防御框架，用于抑制无人机群去中心化联邦学习中的后门攻击。该方法基于梯度谱分析，通过保留与主任务相关的频率系数来破坏后门任务的结构，从而有效抵御隐蔽攻击。实验表明，该框架能在保持模型性能的同时显著降低攻击成功率。

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

Ali Raza et al.

cs.CR cs.AI cs.LG

本文提出了一种名为Amnesia的轻量级对抗攻击方法, 通过操纵大型语言模型(LLMs)内部transformer的激活状态来绕过其安全机制. 实验表明, 该方法能在无需微调的情况下诱导模型生成有害内容, 揭示了现有安全措施的脆弱性.

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

Ammar Daskin

quant-ph cs.LG

本文提出了一种缓解量子模型频率学习偏差的方法, 通过引入多阶段残差学习来提升模型学习多频率成分函数的能力. 实验表明该方法能有效改善量子模型的频谱表达能力.

Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

Fan Yang

cs.CR cs.AI

本文提出了一种针对"思考模式"大语言模型的新型攻击方法, 称为多流扰动攻击. 该方法通过在单个提示中交织多个任务流来产生叠加干扰, 从而破坏模型的推理过程和安全对齐.

Execution Is the New Attack Surface: Survivability-Aware Agentic Crypto Trading with OpenClaw-Style Local Executors

Ailiya Borjigin et al.

cs.CR cs.AI

本文针对OpenClaw式智能体交易系统，提出了一种名为“生存感知执行(SAE)”的执行层安全标准。该标准通过在策略引擎与交易所执行器之间插入中间件，强制执行一系列不可绕过的安全约束，以防范由不可信提示或技能供应链风险引发的执行层攻击。实验表明，SAE能显著改善交易系统的生存性指标，如最大回撤和条件风险价值。

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Daniel Hennes et al.

cs.GT cs.AI cs.LG

本文提出了一种名为 Code-Space Response Oracles (CSRO) 的新框架, 用于生成可解释的多智能体策略. 该方法使用大型语言模型 (LLM) 替代传统的强化学习预言机, 将最佳响应计算重构为代码生成任务, 从而产生人类可读的策略代码.

AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models

Yutong Hu et al.

cs.RO cs.AI

本文提出了一种自回归的Action Expert, 用于在视觉-语言-动作模型中生成连续的动作序列. 该方法通过一个长期记忆模块保持历史上下文, 并利用重锚定机制来同步异步的感知与动作模态, 在机器人操作任务中实现了平滑的动作轨迹.

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

Joshua Lentz et al.

cs.CV cs.LG math.ST

本文提出了一种基于 unbalanced Wasserstein barycenters 的 dictionary learning 方法, 用于高光谱图像的无监督聚类. 该方法避免了传统 Wasserstein 方法中必须平衡数据分布的要求, 从而提高了对噪声和异常值的鲁棒性, 并通过 spectral clustering 在学到的低维表示上实现了有效的场景分割.

Social Knowledge for Cross-Domain User Preference Modeling

Nir Lotan et al.

cs.SI cs.AI

本文提出了一种利用大规模社交建模进行跨领域用户偏好预测的方法. 该方法通过将用户和流行实体映射到从Twitter网络学习到的联合社交嵌入空间中, 使用余弦相似度评估候选实体的相关性. 实验表明, 该方法在零样本场景下能实现有效的个性化推荐.

Compatibility at a Cost: Systematic Discovery and Exploitation of MCP Clause-Compliance Vulnerabilities

Nanzi Yang, Weiheng Bai, Kangjie Lu

cs.CR cs.AI

本文针对Model Context Protocol (MCP) 标准中因兼容性而放宽约束所引入的安全风险，提出了首个系统性分析框架。该框架通过构建语言无关的中间表示、结合LLM进行语义推理的静态分析，以及形式化攻击语义，来发现和利用SDK实现中的合规性漏洞。

Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

Elizaveta Kostenok, Mathieu Salzmann, Milos Cernak

eess.AS cs.CL

本文提出了一种用于可解释语音质量评估的校准-推理框架. 该方法通过校准和强化学习两个阶段, 使基础音频大语言模型能够进行多维度的感知质量分析与描述.

Video-Based Reward Modeling for Computer-Use Agents

Linxin Song et al.

cs.CV cs.CL

本文提出了一种基于视频的奖励建模方法, 用于评估计算机使用智能体(CUAs)的任务完成情况. 该方法通过分析智能体执行轨迹的视频关键帧序列来预测任务成功与否, 并引入了数据集和时空令牌剪枝等技术来应对视频冗余和局部线索的挑战.

Stability and Robustness via Regularization: Bandit Inference via Regularized Stochastic Mirror Descent

Budhaditya Halder et al.

stat.ML cs.LG

本文研究了基于regularized stochastic mirror descent的bandit算法的稳定性与鲁棒性. 它提出了一个通用的稳定性判据, 并设计了一族满足该判据且能同时保证最优regret的regularized-EXP3算法.

ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation

Sofia Iliopoulou, Dimitris Ampeliotis, Athanassios Skodras

eess.IV cs.CV cs.LG

本文提出了一种名为ARCHE的端到端学习图像压缩框架, 它通过结合分层、空间和通道先验来捕获潜在表示中的依赖关系, 并利用自适应特征重校准和残差细化来提升质量. 该模型在Kodak基准测试上取得了优异的率失真性能, 同时保持了较高的计算效率.

MCP-in-SoS: Risk assessment framework for open-source MCP servers

Pratyay Kumar et al.

cs.CR cs.AI

本文提出了一种针对开源MCP服务器的风险评估框架MCP-in-SoS. 该框架通过静态代码分析识别安全弱点, 并结合多指标评分来评估风险的可能性和影响.

Hybrid Hidden Markov Model for Modeling Equity Excess Growth Rate Dynamics: A Discrete-State Approach with Jump-Diffusion

Abdulrahman Alswaidan, Jeffrey D. Varner

q-fin.ST cs.LG q-fin.RM

本文提出了一种用于生成合成金融时间序列的混合Hidden Markov Model (HMM). 该方法通过离散化超额增长率并引入跳跃机制, 旨在同时捕捉金融数据的厚尾分布和波动率聚集特征.

Flexible Cutoff Learning: Optimizing Machine Learning Potentials After Training

Rick Oerder, Jan Hamaekers

cond-mat.mtrl-sci cs.LG

本文提出了一种名为Flexible Cutoff Learning (FCL)的方法, 用于训练机器学习原子间势能(MLIPs), 使其截断半径可以在训练后进行调整. 该方法通过在训练中为每个原子随机采样截断半径, 使得训练出的单一模型能够根据不同应用需求, 在部署时优化精度与计算成本的权衡.

Delta-K: Boosting Multi-Instance Generation via Cross-Attention Augmentation

Zitong Wang et al.

cs.CV cs.AI

本文提出了一种名为 Delta-K 的推理框架, 用于解决扩散模型在生成多实例场景时的概念遗漏问题. 该方法通过操作 cross-attention 的 Key 空间来注入缺失概念的语义信息, 无需额外训练或修改模型架构.

FusionNet: a frame interpolation network for 4D heart models

Chujie Chang et al.

cs.CV cs.LG

本文提出了一种名为FusionNet的神经网络，用于从短时间采集的心脏磁共振(CMR)图像中重建高时间分辨率的四维(4D)心脏运动模型。该模型通过插值相邻的3D心脏形状来估计中间时刻的形状，实验表明其在Dice系数上优于现有方法。

SDSR: A Spectral Divide-and-Conquer Approach for Species Tree Reconstruction

Ortal Reshef et al.

q-bio.PE cs.LG stat.ML

本文提出了一种基于谱图理论的可扩展分治算法SDSR, 用于从多基因标记数据中重建物种树. 该方法通过递归划分物种集合并合并子树来提升计算效率, 在模拟数据上验证了其加速效果和相当的准确性.

Multilingual AI-Driven Password Strength Estimation with Similarity-Based Detection

Nikitha M. Palaniappan, Ying He

cs.CR cs.AI

本文提出了一种多语言AI驱动的密码强度评估方法, 并引入了基于Jaro相似度的检测机制. 研究表明, 利用ChatGPT生成的数据可以替代现有工具, 并为印度语密码定制了新的评估器.

A Diffusion Analysis of Policy Gradient for Stochastic Bandits

Tor Lattimore

stat.ML cs.AI cs.LG math.ST

本文通过连续时间扩散近似分析了随机多臂老虎机问题中的策略梯度方法. 证明了在特定学习率下, 遗憾上界为$O(k \log(k) \log(n) / \eta)$, 并构造了一个实例说明学习率选择的重要性.

Robotic Ultrasound Makes CBCT Alive

Feng Li et al.

cs.CV cs.AI cs.RO

本文提出了一种利用机器人超声实时更新术中CBCT图像的框架, 通过一个轻量级网络从超声序列中估计密集形变场, 并将形变传递至静态CBCT参考图像, 从而实现无重复辐射的动态解剖结构可视化. 该方法在形变估计和超声引导的CBCT更新实验中得到了验证.

A Trust-Region Interior-Point Stochastic Sequential Quadratic Programming Method

Yuchen Fang et al.

math.OC cs.LG math.NA stat.ML

本文提出了一种结合 trust-region 框架、内点法 (interior-point method) 和随机序列二次规划 (stochastic sequential quadratic programming) 的算法，用于求解带随机目标和确定性约束的优化问题。该算法在标准假设下被证明能全局收敛到一阶稳定点，并在部分测试集上展示了其性能。

Why Does It Look There? Structured Explanations for Image Classification

Jiarui Li et al.

cs.CV cs.LG

本文提出了一个名为I2X的框架, 用于为图像分类模型生成结构化的解释. 该框架通过量化训练过程中原型(prototype)的演变, 旨在回答模型"为何关注特定区域"的问题, 并展示了其在提升模型预测性能方面的潜在应用.

One Adapter for All: Towards Unified Representation in Step-Imbalanced Class-Incremental Learning

Xiaoyan Zhang, Jiangpeng He

cs.CV cs.LG

本文针对 step-imbalanced class-incremental learning 问题，提出了一种名为 One-A 的统一框架。该方法通过一个单一 adapter 来融合不同规模任务的更新，旨在保持推理效率的同时处理任务间类别数量不均衡带来的挑战。

Learning from Radio using Variational Quantum RF Sensing

Ivana Nikoloska

quant-ph cs.AI cs.IT eess.SP

本文探讨了利用量子传感探针从射频信号中学习环境信息的方法. 通过量子电路优化和基于射线追踪数据的训练, 该方法在定位任务中展现出对弱信号和遮挡信号的敏感性.

Intrinsic Numerical Robustness and Fault Tolerance in a Neuromorphic Algorithm for Scientific Computing

Bradley H. Theilman, James B. Aimone

cs.NE cs.AI cs.LG math.NA

本文研究了一种用于求解偏微分方程(PDE)的脉冲神经形态算法的内在容错性. 该算法对神经元损毁和脉冲丢失等结构扰动表现出显著的鲁棒性, 且其鲁棒性可通过超参数进行调节.

DUCTILE: Agentic LLM Orchestration of Engineering Analysis in Product Development Practice

Alejandro Pradas-Gomez, Arindam Brahma, Ola Isaksson

cs.SE cs.AI cs.HC

本文提出了一种名为DUCTILE的基于LLM的智能体编排方法, 用于产品开发中的工程分析任务自动化. 该方法将LLM智能体的自适应编排与已验证工程工具的确定性执行分离, 并通过一个航空航天制造商的工业结构分析任务进行了演示.

Bayesian Hierarchical Models and the Maximum Entropy Principle

Brendon J. Brewer

stat.ML cs.LG physics.data-an stat.ME

本文探讨了Bayesian hierarchical models与maximum entropy principle之间的联系. 作者指出, 当给定超参数时参数的先验是canonical distribution (即具有矩约束的最大熵分布)时, 积分掉超参数后得到的边际先验也具有最大熵性质, 但约束条件不同. 这一结果为理解分层模型所隐含的信息假设提供了新的视角.

Joint Imaging-ROI Representation Learning via Cross-View Contrastive Alignment for Brain Disorder Classification

Wei Liang, Lifang He

cs.CV cs.AI

本文提出了一个统一的跨视图对比学习框架, 用于联合学习脑成像的全图像体积表示和基于ROI的图表示. 该方法通过双向对比目标在共享潜在空间中对齐两种表示, 并在ADHD-200和ABIDE数据集上验证了联合学习能提升分类性能.

From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

Zhanyi Sun, Shuran Song

cs.RO cs.LG

本文提出了Distribution Contractive Reinforcement Learning (DICE-RL)框架，利用强化学习对预训练的生成式机器人策略进行精炼。该方法通过在线反馈放大高成功率的行为，将行为先验转化为高性能策略，并在仿真和真实机器人上实现了从高维像素输入掌握复杂长程操作技能。

Conversational AI-Enhanced Exploration System to Query Large-Scale Digitised Collections of Natural History Museums

Yiyuan Wang et al.

cs.HC cs.AI cs.CY cs.DL cs.ET

本文设计了一个结合 conversational AI 和交互式地图的系统, 用于查询和探索自然历史博物馆的大规模数字化标本收藏. 该系统利用大型语言模型的 function-calling 能力, 实现了对动态更新数据集的实时自然语言交互.

MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis

Chihiro Watanabe, Jingyu Sun

stat.ML cs.LG

本文提出了一种名为MultiwayPAM的张量聚类方法，用于分析LLM-as-a-Judge框架下产生的评分数据。该方法通过同时估计数据张量每个模态的聚类成员和中心点，来揭示评分偏差的结构。实验表明，该方法在两个实际数据集上有效。

Quantum entanglement provides a competitive advantage in adversarial games

Peiyong Wang, Kieran Hymas, James Quach

quant-ph cs.AI cs.LG

本文研究了量子纠缠在经典对抗性游戏中的潜在优势. 通过将参数化量子电路作为特征提取器集成到近端策略优化框架中, 在Pong游戏中对比了可分离电路与含纠缠门电路的性能. 结果表明, 在参数数量可比的情况下, 含纠缠的电路表现更优, 并且在低容量情况下能与经典多层感知机基线相媲美或超越.

Simulation-in-the-Reasoning (SiR): A Conceptual Framework for Empirically Grounded AI in Autonomous Transportation

Wuping Xin

eess.SY cs.AI

本文提出了一个名为 Simulation-in-the-Reasoning (SiR) 的概念框架, 旨在将领域特定的模拟器嵌入到大型语言模型 (LLM) 的推理循环中, 以增强其在自动驾驶等动态复杂领域中的实证基础. 该框架将推理步骤转化为可执行的模拟实验, 从而将推理从文本假设转变为可验证的工作流程.

NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction

Jun Rekimoto, Yu Nishimura, Bojian Yang

cs.HC cs.AI cs.LG cs.SD

本文提出了一种名为NasoVoce的鼻梁佩戴式低可听度语音交互界面, 它融合了麦克风和振动传感器来捕捉语音的声学信号和振动信号. 通过融合这两种互补的信号, 该系统能够在嘈杂环境中实现高质量的语音识别, 为持续、隐蔽的AI语音对话提供了一种可行的硬件解决方案.

PC-Diffuser: Path-Consistent Capsule CBF Safety Filtering for Diffusion-Based Trajectory Planner

Eugene Ku, Yiwei Lyu

cs.RO cs.AI

本文提出了一种名为PC-Diffuser的安全增强框架，用于基于扩散模型的轨迹规划器。该方法通过将可验证的路径一致屏障函数结构嵌入去噪循环，在生成过程中直接确保轨迹的安全性，而非进行事后修复。

Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

Sangmim Song et al.

cs.CV cs.AI cs.RO eess.SY

本文提出了一种名为Concept-Gated Visual Distillation (CGVD)的推理框架，用于解决Vision-Language-Action (VLA)模型在视觉杂乱环境中的性能下降问题。该方法通过指令解析、目标精炼和基于Fourier的图像修复来抑制语义干扰，从而提升机器人操作的鲁棒性。

On The Complexity of Best-Arm Identification in Non-Stationary Linear Bandits

Leo Maynard-Zhang et al.

stat.ML cs.LG

本文研究了非平稳线性bandit中固定预算的最佳臂识别问题. 作者提出了一个与臂集相关的下界, 并设计了一种匹配该下界的算法.

Utility Function is All You Need: LLM-based Congestion Control

Neta Rozen-Schiff, Liron Schiff, Stefan Schmid

cs.NI cs.AI

本文提出了一个名为GenCC的框架, 它利用大型语言模型(LLMs)的代码生成能力来设计拥塞控制中的效用函数(utility function). 通过结合网络测试床和不同的引导策略, 该框架能够生成针对特定应用需求的协议, 并在实验中显示出优于现有方案的性能提升.

Speech Codec Probing from Semantic and Phonetic Perspectives

Xuan Shi et al.

eess.AS cs.CL

本文通过词级探测任务、分层表示分析和跨模态对齐度量等方法, 系统分析了多种常用语音tokenizer所编码的信息, 区分了其语义和语音内容. 研究发现, 当前的tokenizer主要捕获的是语音(phonetic)结构而非词汇语义结构, 这为下一代语音tokenization方法的设计提供了实践启示.

Few-Shot Adaptation to Non-Stationary Environments via Latent Trend Embedding for Robotics

Yasuyuki Fujii et al.

cs.RO cs.AI

本文提出了一种基于潜在趋势ID的框架, 用于机器人在非平稳环境中的少样本适应. 该方法通过估计低维环境状态(趋势ID)来适应环境变化, 而无需更新模型参数, 从而避免了灾难性遗忘并降低了计算成本.

Reactive Writers: How Co-Writing with AI Changes How We Engage with Ideas

Advait Bhat et al.

cs.HC cs.AI

本文通过混合方法研究, 探讨了人类与AI协同写作时行为模式的转变. 研究发现, 与AI的互动会改变写作者的构思过程, 使其更倾向于对AI建议进行反应式评估与扩展, 作者将这种模式称为"反应式写作".

Safe Probabilistic Planning for Human-Robot Interaction using Conformal Risk Control

Jake Gonzales et al.

cs.RO cs.AI

本文提出了一种结合 control barrier functions (CBFs) 与 conformal risk control 的概率安全控制框架, 用于人机交互. 该方法通过动态调整安全边界来降低碰撞率, 并在实验中验证了其有效性.

Enhancing Network Intrusion Detection Systems: A Multi-Layer Ensemble Approach to Mitigate Adversarial Attacks

Nasim Soltani et al.

cs.CR cs.AI

本文提出了一种用于增强网络入侵检测系统(NIDS)对抗性攻击鲁棒性的多层集成防御方法. 该方法结合了stacking分类器层和autoencoder层, 并采用了对抗性训练, 在UNSW-NB15和NSL-KDD数据集上验证了其有效性.

Adaptive Active Learning for Regression via Reinforcement Learning

Simon D. Nguyen et al.

stat.ML cs.LG

本文提出了一种用于回归任务的自适应主动学习方法, 通过强化学习动态调整样本选择策略中的权重. 该方法在多个基准数据集上表现出优于现有方法的性能.

FAR-Dex: Few-shot Data Augmentation and Adaptive Residual Policy Refinement for Dexterous Manipulation

Yushan Bai et al.

cs.RO cs.AI

本文提出了一种名为FAR-Dex的分层框架, 用于解决机器人灵巧操作中高质量演示稀缺和高维动作空间复杂的问题. 该方法结合了few-shot数据增强和自适应残差策略优化, 在仿真和真实实验中提升了任务成功率.

Brenier Isotonic Regression

Han Bao, Amirreza Eshraghi, Yutong Wang

stat.ML cs.LG

本文提出了一种称为Brenier isotonic regression的多输出回归方法, 用于拟合满足循环单调性(cyclically monotone)的函数. 该方法通过最优传输(optimal transport)理论建立回归函数与凸势(Brenier potential)之间的联系, 并在概率校准(probability calibration)等任务中进行了实验验证.

Beam-Plasma Collective Oscillations in Intense Charged-Particle Beams: Dielectric Response Theory, Langmuir Wave Dispersion, and Unsupervised Detection via Prometheus

Brandon Yee et al.

physics.plasm-ph cond-mat.stat-mech cs.LG physics.acc-ph

本文为中等能量强流带电粒子束中的束-等离子体集体振荡建立了一个理论与计算框架. 第一部分基于Vlasov-Poisson系统推导了介电响应理论, 证明了朗缪尔波的存在性并给出了色散关系. 第二部分利用名为Prometheus的beta-VAE模型, 对粒子模拟数据进行无监督分析, 验证了理论预测.

UniPINN: A Unified PINN Framework for Multi-task Learning of Diverse Navier-Stokes Equations

Dengdi Sun et al.

cs.CV cs.AI

本文提出了一个名为UniPINN的统一PINN框架, 用于处理多种Navier-Stokes方程的多任务学习. 该框架通过共享-专用架构, 跨流注意力机制和动态权重分配策略, 旨在解决多流场景下的负迁移和训练不稳定问题.

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Jing Peng et al.

eess.AS cs.AI cs.HC cs.MM cs.SD

本文提出了一种名为G-STAR的端到端系统，用于处理带时间戳的说话人归属语音识别任务。该系统结合了时间感知的说话人追踪模块与Speech-LLM转录主干，旨在同时处理局部语音活动检测和跨片段的全局说话人身份一致性。

Dual Space Preconditioning for Gradient Descent in the Overparameterized Regime

Reza Ghane, Danil Akhtiamov, Babak Hassibi

stat.ML cs.LG

本文研究了Dual Space Preconditioned Gradient Descent在过参数化线性模型中的收敛性。证明了迭代点收敛到一个满足数据拟合条件的解，并分析了其隐式偏差。

JEDI: Jointly Embedded Inference of Neural Dynamics

Anirudh Jamkhandi et al.

q-bio.NC cs.AI cs.LG

本文提出了一种名为JEDI的层次化模型, 用于从多任务神经记录数据中推断神经动力学. 该模型通过学习RNN权重的共享嵌入空间, 旨在捕获跨任务和上下文的动态机制, 并在模拟数据和猴子运动皮层记录上进行了验证.

A New Tensor Network: Tubal Tensor Train and Its Applications

Salman Ahmadi-Asl et al.

math.NA cs.LG

本文提出了一种新的张量网络结构, 称为tubal tensor train (TTT). 它将T-SVD的t-product代数与tensor train (TT)格式的低阶核心结构相结合, 用于处理具有特定管状模式的张量. 文中给出了两种计算策略并展示了其在数据压缩和成像等任务上的应用.

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

Sunpill Kim et al.

cs.CR cs.AI cs.CV

本文研究了生成式AI系统通过聊天机器人界面暴露其图像精修能力对深度伪造检测器的影响. 作者发现, 仅使用合规提示和商用AI系统进行语义保持的图像精修, 就能使当前最先进的检测方法失效, 揭示了现有检测框架的威胁模型与实际AI能力之间的结构性不匹配.

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Caroline Magg et al.

cs.CV cs.AI

本文评估了多种可提示基础模型在肌肉骨骼CT分割任务中的表现, 重点分析了不同提示策略和人工输入对模型性能的影响. 研究发现模型性能对提示变化敏感, 且基于人工提示的性能通常低于基于理想提示的评估.

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Mohammed Salah et al.

cs.CV cs.AI eess.SP

本文提出了一种基于vision-language models (VLMs)的认知缺陷分析框架, 用于active infrared thermography (AIRT)对碳纤维复合材料(CFRP)的检测. 该方法通过一个轻量级的AIRT-VLM适配器来弥合热成像数据与VLM预训练自然图像之间的领域差距, 实现了无需特定数据集训练的zero-shot缺陷理解与定位.

Quantization Robustness of Monotone Operator Equilibrium Networks

James Li, Philip H.W. Leong, Thomas Chaffey

math.OC cs.LG eess.SY

本文分析了单调算子均衡网络在权重量化后的鲁棒性. 通过将量化视为谱扰动, 作者给出了量化求解器收敛以及均衡点位移的界, 并通过实验验证了理论预测.

Recover to Predict: Progressive Retrospective Learning for Variable-Length Trajectory Prediction

Hao Zhou et al.

cs.RO cs.AI

本文提出了一种用于可变长度轨迹预测的渐进式回顾学习框架(Progressive Retrospective Framework, PRF). 该框架通过级联的回顾单元逐步对齐不完整观测与完整观测的特征, 并配合滚动启动训练策略(RSTS)提升数据效率. 实验表明, PRF能作为即插即用模块提升现有方法在Argoverse数据集上的预测性能.

Self-Scaled Broyden Family of Quasi-Newton Methods in JAX

Ivan Bioli, Mikel Mendibe Abarrategi

cs.MS cs.LG

本文介绍了在JAX中实现的Self-Scaled Broyden族拟牛顿方法，该实现基于Optimistix优化库，包含了BFGS、DFP、Broyden及其自缩放变体，并配备了满足强Wolfe条件的线搜索。这是一篇技术说明文档，旨在记录实现细节并促进这些优化器在JAX社区中的使用，并未提出新的理论贡献。

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Yuanbo Hou et al.

eess.AS cs.LG cs.SD

本文提出了一个结合地理空间语义上下文(GSC)的音频标注基准Geo-ATBench, 并引入了GeoFusion-AT融合框架进行评估. 结果表明, 融入GSC能提升多标签音频标注的性能, 特别是在声学上易混淆的类别上.

A Hypergraph-Based Framework for Exploratory Business Intelligence

Yunkai Lou et al.

cs.DB cs.IR

本文提出了一种基于 hypergraph 数据模型和采样算法的系统 ExBI, 用于支持高效的探索式商业智能分析. 该系统通过动态 schema 演化和物化视图重用, 在保证分析精度的同时显著提升了处理速度.

Detecting and Eliminating Neural Network Backdoors Through Active Paths with Application to Intrusion Detection

Eirik Høyheim et al.

cs.CR cs.AI cs.LG

本文提出了一种基于神经网络中active paths的可解释性方法, 用于检测和消除后门触发器. 该方法在用于入侵检测的机器学习模型上进行了实验验证.

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

Elisa Tosello et al.

cs.RO cs.AI

本文提出了一种结合调度与运动规划的框架, 用于解决多物体导航中的 Scheduling and Motion Planning 问题. 该框架通过增量学习循环整合调度器与运动规划器, 在物流和作业车间调度基准上验证了其处理复杂时空约束的有效性.

Are Video Reasoning Models Ready to Go Outside?

Yangfan He, Changgyu Boo, Jaehong Yoon

cs.CV cs.AI

本文提出了一个名为ROVA的训练框架, 旨在提升视频推理模型在现实世界扰动下的鲁棒性. 该框架通过建模时空扰动下的鲁棒性感知一致性奖励, 并采用难度感知的在线训练策略来优先处理信息丰富的样本. 作者还引入了一个新的基准测试PVRBench, 用于评估模型在真实扰动下的准确性和推理质量. 实验表明, ROVA能有效缓解性能下降, 在多个基准上相比基线模型取得了显著提升.

A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction

Daniel J. Buxton et al.

cs.HC cs.AI

本文提出了一个与平台无关的多模态数字人体建模框架, 该框架将传感、交互建模和推理准备解耦. 它集成了OpenBCI Galea头戴设备作为统一传感层, 并使用SuperTux游戏环境来生成可复现的交互数据, 旨在为未来符合伦理的、包容性的人机交互研究提供基础设施.

Repurposing Backdoors for Good: Ephemeral Intrinsic Proofs for Verifiable Aggregation in Cross-silo Federated Learning

Xian Qin, Xue Yang, Xiaohu Tang

cs.CR cs.AI

本文提出了一种利用模型后门特性实现联邦学习中可验证聚合的轻量级方法. 该方法通过向模型参数嵌入短暂的内在验证信号, 在保证模型最终性能的同时, 实现了对恶意服务器的有效检测.

RandMark: On Random Watermarking of Visual Foundation Models

Anna Chistyakova, Mikhail Pautov

cs.CV cs.AI

本文提出了一种用于视觉基础模型所有权验证的随机水印方法RandMark. 该方法通过一个小的编码器-解码器网络, 在输入图像的内部表示中嵌入数字水印, 并证明了其在检测水印模型副本时的有效性.

EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution

Tianshu Zhang et al.

cs.DB cs.AI cs.CL cs.LG

本文提出了一个名为EvoSchema的基准测试，用于评估文本到SQL模型在数据库模式演化下的鲁棒性。它通过系统性的模式扰动来模拟现实中的模式变化，并评估了不同LLM在此场景下的性能表现。

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

Duojia Li et al.

cs.SD cs.AI

本文提出了一种名为AlphaFlowTSE的单步条件生成模型，用于目标说话人提取任务。该方法通过结合AlphaFlow目标与一致性师生训练，避免了多步采样延迟，并在实验中提升了语音相似度与泛化能力。

Polynomial-size encoding of all cuts of small value in integer-valued symmetric submodular functions

Sang-il Oum, Marek Sokołowski

math.CO cs.DS

本文针对整数对称次模函数中的小值割集族, 证明了其存在多项式规模的表示. 该表示由至多 $O(n^{4k})$ 个条目构成, 每个条目包含一个待包含集, 一个待排除集和一个对剩余元素的划分. 作者还给出了构造此表示的算法, 并将其应用于在给定基数约束下寻找函数值为 $k$ 的集合.

Probabilistic Verification of Voice Anti-Spoofing Models

Evgeny Kushnir et al.

cs.SD cs.AI

本文提出了一个用于验证语音反欺骗模型鲁棒性的概率框架PV-VASM. 该框架能够估计模型在面对文本到语音, 语音克隆等合成技术时的误分类概率, 并提供了理论上的误差概率上界.

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

Yu Zhang et al.

cs.CV cs.AI

本文提出了一种用于无人机交通场景理解的跨光谱引导方法CTCNet, 并构建了一个统一的大规模基准数据集Traffic-VQA. 该方法通过设计原型引导知识嵌入和感知质量的光谱补偿模块, 提升了模型在复杂光照条件下的鲁棒性和对细粒度交通违规行为的理解能力.

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Artem Dvirniak et al.

cs.SD cs.AI

本文提出了一个结合大型音频语言模型(LALMs)和思维链推理的语音深度伪造检测框架HIR-SDD. 该方法旨在提升模型在未知音频域和生成器上的泛化能力, 并提供可解释的、类人的决策依据.

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

Panagiotis Georgios Pennas et al.

cs.CR cs.DC cs.LG

本文提出了一种名为 CacheSolidarity 的系统，用于防御多租户 LLM 服务系统中由自动前缀缓存 (APC) 引发的时序侧信道攻击。该系统通过监控缓存复用并选择性隔离可疑前缀，在保证安全的同时维持了较高的缓存利用率和推理性能。

Deep Randomized Distributed Function Computation (DeepRDFC): Neural Distributed Channel Simulation

Didrik Bergström, Onur Günlü

cs.IT cs.AI cs.LG

本文提出了一种基于autoencoder的DeepRDFC框架，用于模拟未知目标分布。该方法在通信负载上相比数据压缩方法有显著增益，尤其适用于公共随机性有限且需要强计算保证的场景。

A PUF-Based Approach for Copy Protection of Intellectual Property in Neural Network Models

Daniel Dorfmeister et al.

cs.CR cs.LG

本文提出了一种基于物理不可克隆函数(PUF)的方法, 将神经网络(NN)模型的权重与底层硬件绑定, 以防止模型被复制到克隆硬件上. 该方法通过在目标硬件上恢复原始权重来保证模型精度, 使得在克隆硬件上无法正确执行模型.

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Shaobo Li et al.

cs.PF cs.IR

本文介绍了一个名为RAGPerf的端到端基准测试框架，用于评估检索增强生成(RAG)系统的性能。该框架将RAG工作流解耦为多个模块化组件，并支持用户配置参数以分析其对查询性能和质量的影响。

Taking Shortcuts for Categorical VQA Using Super Neurons

Pierre Musacchio et al.

cs.CV cs.AI cs.LG

本文提出了一种称为Super Neurons (SNs)的方法, 通过直接探测Vision Language Model (VLM)的原始标量激活值来构建分类器. 该方法允许从模型的第一个生成token的浅层中提取足够多的SNs, 从而实现极早退出, 在提升分类性能的同时获得了高达5.10倍的加速.

Towards Intelligent Spectrum Management: Spectrum Demand Estimation Using Graph Neural Networks

Mohamad Alkadamani, Amir Ghasemi, Halim Yanikomeroglu

cs.NI cs.AI cs.LG eess.SY

本文利用公开部署记录构建频谱需求代理, 并采用分层多分辨率图注意力网络(HR-GAT)来精细估计空间频谱需求. 模型通过捕捉邻域效应和跨尺度模式, 降低了空间自相关并提升了泛化能力, 在多个城市的评估中优于基准方法.

Risk-Adjusted Harm Scoring for Automated Red Teaming for LLMs in Financial Services

Fabrizio Dimino, Bhaskarjit Sarmah, Stefano Pasquali

q-fin.CP cs.AI cs.CY

本文针对金融服务领域大语言模型(LLM)的安全评估，提出了一个风险感知的评估框架。该框架结合了领域特定的危害分类法、自动化多轮红队测试流程以及基于集成的评判协议，并引入了风险调整危害分数(RAHS)这一度量标准。

ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning

Xiaofeng Lin et al.

stat.ML cs.LG

本文提出了一种名为ReTabSyn的强化学习框架, 用于生成高质量的表格数据. 该方法通过直接优化特征相关性来提升合成数据在下游任务中的效用, 特别是在数据量小或不平衡的场景下表现优于现有基线.

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Thomas Thebaud et al.

cs.SD cs.AI

本文提出了一种评估和增强 speech-aware LLMs 在说话人验证任务中性能的方法。首先设计了一个模型无关的评分协议来量化其说话人区分能力，发现现有模型表现不佳。随后提出了一种轻量级增强方法，通过注入预训练的说话人嵌入和训练 LoRA 适配器，使 LLM 获得了接近专用系统的验证性能。

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation

Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib

cs.CV cs.AI

本文提出了一种名为BALD-SAM的交互式分割主动提示框架。该框架将贝叶斯主动学习应用于空间提示选择，通过量化认知不确定性来指导用户进行更高效的标注。

On the Reliability of Cue Conflict and Beyond

Pum Jun Kim et al.

cs.CV cs.AI

本文指出了现有基于风格化的 cue-conflict 基准在评估神经网络形状-纹理偏好时存在的不稳定性和模糊性问题. 作者提出了 REFINED-BIAS 数据集和评估框架, 通过构建平衡的、人类和模型均可识别的线索对, 并使用基于排序的度量方法, 旨在实现更可靠和可解释的形状-纹理偏差诊断.

Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops

Jessica Sanson, Rahul C. Shah, Valerio Frascolla

eess.SP cs.AI cs.CV

本文提出了一种利用商用笔记本电脑内置Wi-Fi硬件进行人体存在检测的新方法, 称为Range-Filtered Doppler Spectrum (RF-DS). 该方法通过在Doppler分析前对Channel Impulse Response (CIR)进行距离区域滤波, 并结合自适应的多速率CSI采样框架, 实现了无需外部设备或校准的低复杂度检测.

Semantic Landmark Particle Filter for Robot Localisation in Vineyards

Rajitha de Silva et al.

cs.RO cs.AI

本文提出了一种用于葡萄园机器人定位的语义地标粒子滤波方法, 通过融合树干和杆状地标的语义信息与2D LiDAR数据, 改善了在高度重复的农业环境中的定位鲁棒性. 实验表明, 该方法相比仅依赖几何或视觉的基线系统, 显著降低了绝对姿态误差和横向跟踪误差.

GRACE: A Unified 2D Multi-Robot Path Planning Simulator & Benchmark for Grid, Roadmap, And Continuous Environments

Chuanlong Zang et al.

cs.RO cs.AI cs.MA

本文介绍了一个名为GRACE的统一2D多机器人路径规划模拟器与基准测试平台. 该平台能够在网格, 路线图和连续环境等多个抽象层次上实例化相同的任务, 旨在通过统一的评估协议促进不同规划方法之间透明且可复现的比较.

Kernel Tests of Equivalence

Xing Liu, Axel Gandy

stat.ML cs.LG stat.ME

本文提出了基于 kernel 的等价性检验方法, 用于评估两个分布是否等价. 该方法利用 kernel Stein discrepancy 和 Maximum Mean Discrepancy 来度量分布差异, 并通过渐近正态近似或 bootstrap 方法计算检验的临界值.

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

Anupam Purwar, Aditya Choudhary

cs.SD cs.AI cs.ET

本文探讨了在基于LLM的TTS系统中使用LoRA进行微调的效果。研究发现，微调能否提升语音质量与训练数据的多样性密切相关。

Pointy - A Lightweight Transformer for Point Cloud Foundation Models

Konrad Szafer, Marek Kraft, Dominik Belter

cs.CV cs.LG

本文提出了一种轻量级的transformer架构用于点云基础模型, 仅使用有限数据训练即可达到与更大模型相当的性能. 通过标准化的实验框架, 研究强调了简洁架构与精心设计的训练方案的重要性.

Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation

Zixuan Liu et al.

cs.RO cs.AI

本文提出了一种用于灵巧操作的通用探索方法CCGE, 该方法通过维护一个基于离散化物体状态的接触计数器来鼓励探索新颖的接触模式, 并在多个模拟和真实世界的灵巧操作任务上验证了其有效性。

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Boyuan Chen et al.

cs.CV cs.AI

本文提出GroundCount框架, 通过整合Object Detection Models (ODMs)的空间定位能力来增强Vision-Language Models (VLMs), 以缓解其在计数任务中的幻觉问题. 实验表明, 该基于提示的增强策略能有效提升多个VLM架构的计数准确率并减少推理时间.

ForwardFlow: Simulation only statistical inference using deep learning

Stefan Böhringer

math.ST cs.LG cs.NE stat.CO

本文提出了一种基于深度学习的纯模拟统计推断方法ForwardFlow. 该方法使用一个分支网络结构从模拟数据中学习参数估计量, 并在训练中通过引入样本量变化, 数据污染和算法近似等场景来提升估计量的性质.

Bayesian Optimization with Gaussian Processes to Accelerate Stationary Point Searches

Rohit Goswami

stat.ML cs.LG physics.chem-ph physics.comp-ph

本文提出了一种基于Gaussian process regression和Bayesian optimization的统一框架, 用于加速势能面上stationary point的搜索. 该方法通过一个六步循环整合了minimization和saddle point搜索, 并引入了Optimal Transport GP等扩展来提升效率.

Artificial Intelligence as a Catalyst for Innovation in Software Engineering

Carlos Alberto Fernández-y-Fernández, Jorge R. Aguilar-Cisneros

cs.SE cs.AI

本文探讨了人工智能(AI)与软件工程(SE)的交叉领域, 通过文献综述和实证调查分析了AI工具对提升开发敏捷性和促进创新的作用. 研究发现, 机器学习(ML)和自然语言处理(NLP)等技术能自动化从需求管理到代码生成等多个繁琐任务.

RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation

Patricia Paskov et al.

cs.CY cs.AI

本文讨论了在评估前沿AI系统时使用人类提升研究（human uplift studies）所面临的方法论挑战。作者通过访谈专家，指出了AI系统的快速演变等特性对因果推断假设的冲击，并概述了相应的实践解决方案。

Linear-Scaling Tensor Train Sketching

Paul Cazeaux, Mi-Song Dupuy, Rodrigo Figueroa Justiniano

math.NA cs.DS

本文提出了一种名为Block Sparse Tensor Train (BSTT)的随机投影方法，用于高效处理张量链格式的数据。该方法通过调整参数，可以统一并推广已有的几种张量链草图技术。理论分析表明，该方法在参数选择上具有线性于张量阶数的优势，并支持了QB分解和随机张量链舍入的应用。

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Marvin Limpijankit et al.

cs.CV cs.AI

本文通过潜在空间分解方法, 分析了视觉语言模型(VLMs)识别艺术风格的机制, 并与艺术史学家使用的标准进行了比较. 研究发现, 模型使用的多数概念在艺术史学家看来是连贯且相关的.

LLMGreenRec: LLM-Based Multi-Agent Recommender System for Sustainable E-Commerce

Hao N. Nguyen et al.

cs.MA cs.IR

本文提出了一个基于LLM的多智能体推荐系统LLMGreenRec, 旨在促进电子商务中的可持续消费. 该系统通过智能体协作分析用户交互, 推断绿色消费意图并推荐环保产品, 同时减少了不必要的交互和能耗.

Separating Oblivious and Adaptive Differential Privacy under Continual Observation

Mark Bun, Marco Gaboardi, Connor Wagaman

cs.CR cs.DS

本文研究了持续观察模型下差分隐私的两种设定: oblivious 与 adaptive. 通过构造一个基于相关向量查询的问题, 证明了在这两种设定下存在计算效率上的分离. 具体而言, 在 oblivious 设定下存在一个高效的 $(\varepsilon,0)$-DP 算法, 而在 adaptive 设定下任何 $(\varepsilon,\delta)$-DP 算法都只能维持常数步的准确性.

Chasing RATs: Tracing Reading for and as Creative Activity

Sophia Liu, Shm Garanganao Almeda

cs.HC cs.IR cs.MM cs.SI

本文提出了一种名为"Reading Activity Traces (RATs)"的概念框架, 将阅读视为一种创造性活动. 作者通过一个在Wikipedia上的概念性实例"WikiRAT"进行了说明, 旨在为反思性实践和读者建模等领域开辟新的研究方向.

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Yan-Bo Lin et al.

cs.CV cs.AI cs.LG cs.MM cs.SD

本文提出了一种无需配对数据的视频配乐生成方法 V2M-Zero. 该方法通过提取视频和音乐各自模态内的事件曲线来捕捉共享的时间结构, 从而在推理时实现时间对齐的音乐生成, 并在多个基准测试上超越了需要配对数据的基线模型.

LiTo: Surface Light Field Tokenization

Jen-Hao Rick Chang et al.

cs.CV cs.AI cs.GR

本文提出了一种名为LiTo的3D隐式表示方法, 用于联合建模物体的几何与视点依赖的外观. 该方法通过编码表面光场(surface light field)的子样本来学习一个统一的3D隐空间, 并进一步训练一个隐式流匹配模型, 实现从单张图像生成具有一致光照与材质外观的3D物体.

COMIC: Agentic Sketch Comedy Generation

Susung Hong et al.

cs.CV cs.AI cs.CL cs.MA cs.NE

本文提出了一个名为COMIC的自动化AI系统, 用于生成类似《周六夜现场》的短篇喜剧视频. 该系统通过模拟制作工作室角色的智能体群体, 进行迭代竞争与改进, 并利用基于YouTube视频语料库训练的LLM评论家来自动评估幽默效果.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others