bluearXiv-ai - 2026-03-02

📄 所有论文 ↑ 回顶部

cs.LG

Detoxifying LLMs via Representation Erasure-Based Preference Optimization

Nazanin Mohammadi Sepahvand et al.

cs.LG

本文提出了一种名为REPO的新方法, 通过基于表示擦除的偏好优化来降低大型语言模型的有害输出. 该方法在token级别上强制有害与无害表示的收敛, 从而在保持模型通用能力的同时, 实现了比现有方法更强的鲁棒性.

U-CAN: Utility-Aware Contrastive Attenuation for Efficient Unlearning in Generative Recommendation

Zezheng Wu et al.

cs.LG

本文提出了一种用于生成式推荐系统的高效遗忘框架U-CAN. 它通过对比激活并应用自适应的软衰减来选择性降低低秩适配器中的高风险参数, 在实现隐私遗忘的同时保持了模型的效用.

Long Range Frequency Tuning for QML

Michael Poppel et al.

cs.LG cs.AI cs.ET quant-ph

本文研究了量子机器学习中可训练频率编码方法的局限性. 实验表明, 频率参数的梯度优化范围有限, 导致其难以达到目标值. 作者提出了一种基于三元编码的网格初始化方法, 以指数级减少所需门数量并确保频率可达, 在合成和真实数据集上验证了其有效性.

Brain-OF: An Omnifunctional Foundation Model for fMRI, EEG and MEG

Hanning Guo et al.

cs.LG cs.AI eess.SP q-bio.NC

本文提出了一个名为Brain-OF的通用脑功能基础模型，能够统一处理fMRI、EEG和MEG等多种模态的神经信号。该模型通过创新的采样器和预训练目标，在多模态数据集上展现了良好的下游任务性能。

EvoX: Meta-Evolution for Automated Discovery

Shu Liu et al.

cs.LG cs.CL cs.NE

本文提出了EvoX, 一种自适应进化方法, 它联合优化候选解和用于生成这些解的搜索策略. 该方法在近200个现实世界优化任务中, 表现优于包括AlphaEvolve在内的现有AI驱动的进化方法.

Human Supervision as an Information Bottleneck: A Unified Theory of Error Floors in Human-Guided Learning

Alejandro Rodriguez Dominguez

cs.LG cs.AI

本文从信息论角度分析了人类监督在机器学习中的局限性, 提出了"Human-Bounded Intelligence"理论. 该理论指出, 当人类监督信道不足以完全表达潜在评估目标时, 会引入一个严格为正的额外风险下限, 解释了为何仅靠模型缩放无法消除某些持续性错误.

Global Interpretability via Automated Preprocessing: A Framework Inspired by Psychiatric Questionnaires

Eric V. Strobl

cs.LG q-bio.QM stat.ML

本文提出了一种名为REFINE的两阶段方法, 将非线性处理限制在基线预处理模块中, 然后学习从稳定化的基线项到未来严重程度的线性映射. 该方法在精神病学和非精神病学的纵向预测任务中, 在保持全局可解释性的同时, 性能优于其他可解释方法.

Uncertainty-aware Language Guidance for Concept Bottleneck Models

Yangyi Li, Mengdi Huai

cs.LG

本文提出了一种不确定性感知的概念瓶颈模型方法, 利用大型语言模型(LLMs)生成概念标注, 并量化其不确定性. 该方法将量化的概念不确定性整合到模型训练中, 以处理不同可靠性的标注, 并在真实数据集上进行了验证.

FedDAG: Clustered Federated Learning via Global Data and Gradient Integration for Heterogeneous Environments

Anik Pramanik et al.

cs.LG cs.AI cs.DC

本文提出了一种名为FedDAG的聚类联邦学习框架，旨在解决客户端数据异构性问题。它通过整合数据和梯度信息来衡量相似性，并采用双编码器架构促进跨集群的知识迁移。

Sample Size Calculations for Developing Clinical Prediction Models: Overview and pmsims R package

Diana Shamsutdinova et al.

cs.LG stat.AP stat.ME

本文回顾了临床预测模型开发中样本量计算的方法, 并提出了一个结合学习曲线、高斯过程优化和保证原则的模拟框架. 作者还发布了名为pmsims的R软件包来实现该方法, 为不同模型和性能指标提供了灵活的样本量估算工具.

Neural Operators Can Discover Functional Clusters

Yicen Li et al.

cs.LG cs.CE stat.CO stat.ML

本文提出了一种基于神经算子(neural operator)的聚类方法, 用于处理函数型数据. 该方法通过预训练的编码器和可训练的轻量级头部, 能够从无标签的常微分方程轨迹数据中发现潜在的动力学结构.

Active Value Querying to Minimize Additive Error in Subadditive Set Function Learning

Martin Černý et al.

cs.LG

本文研究了在 subadditive set function 学习过程中, 通过主动查询来最小化 additive error 的问题. 作者分析了不同函数类在有缺失值时的最小与最大补全及其距离, 并开发了在离线与在线场景下通过披露额外子集值来最小化该距离的方法.

Rudder: Steering Prefetching in Distributed GNN Training using LLM Agents

Aishwarya Sarkar et al.

cs.LG cs.AI cs.DC cs.MA cs.PF

本文提出了一种名为Rudder的软件模块, 它利用LLM agents的in-context learning能力来动态指导分布式GNN训练中的数据预取. 该方法被集成到AWS DistDGL框架中, 旨在减少因不规则通信造成的训练停滞, 并在多种配置下显著提升了训练性能.

Dynamics of Learning under User Choice: Overspecialization and Peer-Model Probing

Adhyyan Narang et al.

cs.LG cs.MA

本文研究了在多平台竞争环境下机器学习模型的动态学习问题, 重点关注用户选择行为如何导致模型陷入"过度专业化陷阱". 作者提出了一种基于知识蒸馏思想的"对等模型探测"算法, 并通过半合成实验验证了其有效性.

Flowette: Flow Matching with Graphette Priors for Graph Generation

Asiri Wijesinghe et al.

cs.LG cs.AI

本文提出了一种用于生成具有重复子图模式的图的连续流匹配框架Flowette. 该框架结合了基于图神经网络的transformer和一种新的概率图结构模型graphette, 并在合成和小分子图生成任务上进行了评估.

Hybrid Quantum Temporal Convolutional Networks

Junghoon Justin Park et al.

cs.LG

本文提出了一种结合经典时间窗口与量子卷积神经网络核心的混合量子时间卷积网络(HQTCN), 用于处理多元时间序列数据. 该模型在参数效率方面表现出优势, 并在数据有限条件下对多元任务取得了优于经典基准的性能.

SDMixer: Sparse Dual-Mixer for Time Series Forecasting

Xiang Ao

cs.LG cs.AI

本文提出了一种用于多元时间序列预测的双流稀疏Mixer框架, 分别在频域和时域提取序列的全局趋势和局部动态特征, 并利用稀疏机制过滤无效信息以提升跨变量依赖建模的准确性. 实验表明该方法在多个真实场景数据集上取得了领先性能.

Normalisation and Initialisation Strategies for Graph Neural Networks in Blockchain Anomaly Detection

Dang Sy Duy et al.

cs.LG

本文在区块链异常检测任务中, 系统性地评估了不同normalisation和initialisation策略对三种GNN架构(GCN, GAT, GraphSAGE)性能的影响. 实验结果表明, 最佳策略的选择高度依赖于具体的网络架构, 这为在类别不平衡严重的反洗钱数据上部署GNN提供了实用的指导.

When Does Multimodal Learning Help in Healthcare? A Benchmark on EHR and Chest X-Ray Fusion

Kejing Yin et al.

cs.LG cs.AI

本文系统性地评估了结合电子健康记录(EHR)和胸部X光片(CXR)的多模态学习在临床预测任务中的效果. 研究探讨了不同融合策略的性能, 模型对模态缺失的鲁棒性, 以及算法公平性等问题.

BTTackler: A Diagnosis-based Framework for Efficient Deep Learning Hyperparameter Optimization

Zhongyi Pei et al.

cs.LG

本文提出了一个名为BTTackler的框架，用于提升深度学习超参数优化(HPO)的效率。该框架通过诊断训练过程中的问题（如梯度消失）来提前终止表现不佳的试验，从而节省计算资源。实验表明，该方法能显著减少达到相同精度所需的时间。

On the Convergence of Single-Loop Stochastic Bilevel Optimization with Approximate Implicit Differentiation

Yubo Zhou et al.

cs.LG

本文分析了单层随机近似隐式微分(SSAID)算法在随机双层优化问题中的收敛性. 证明了该算法达到$\epsilon$-稳定点的oracle复杂度为$\mathcal{O}(\kappa^7 \epsilon^{-2})$, 其$\epsilon$依赖性与主流多层方法匹配, 并首次显式刻画了其对下层条件数$\kappa$的依赖关系.

FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation

Zhihao Ding et al.

cs.LG cs.AI

本文提出了一种名为FlexGuard的LLM内容审核方法, 它输出连续的风险评分而非二元分类, 以应对不同平台和时期对"有害性"定义严格程度变化的问题. 作者还构建了FlexBench基准来评估模型在不同严格度下的表现, 实验表明FlexGuard在适应性和鲁棒性上优于现有方法.

FedRot-LoRA: Mitigating Rotational Misalignment in Federated LoRA

Haoran Zhang et al.

cs.LG cs.AI

本文提出FedRot-LoRA框架，通过正交变换对齐客户端更新以解决联邦学习中LoRA因旋转不变性导致的聚合误差问题。实验表明该方法在多种任务和异构设置下优于现有基线。

Selective Denoising Diffusion Model for Time Series Anomaly Detection

Kohei Obata et al.

cs.LG

本文提出了一种名为AnomalyFilter的扩散模型新方法，用于时间序列异常检测。该方法通过选择性去噪，旨在仅重构异常部分，从而提升检测性能。

Disentangled Mode-Specific Representations for Tensor Time Series via Contrastive Learning

Kohei Obata et al.

cs.LG

本文提出了一种针对多模态张量时间序列(Multi-mode Tensor Time Series, TTS)的表示学习方法MoST. 该方法通过张量切片降低结构复杂性, 并利用对比学习框架学习解耦的模态特定表示, 在分类和预测任务上取得了优于现有方法的效果.

Optimizer-Induced Low-Dimensional Drift and Transverse Dynamics in Transformer Training

Yongzhong Xu

cs.LG cs.AI

本文研究了小型transformer模型训练轨迹的几何结构, 发现参数更新会形成一个主导的漂移方向和横向的残余动力学. 通过比较AdamW和SGD优化器, 揭示了它们在轨迹几何上的显著差异.

Bridging Dynamics Gaps via Diffusion Schrödinger Bridge for Cross-Domain Reinforcement Learning

Hanping Zhang, Yuhong Guo

cs.LG cs.AI

本文提出了一种利用Diffusion Schrödinger Bridge (DSB)来对齐源域与目标域动态的跨域强化学习方法BDGxRL. 该方法通过奖励调制机制在源域内进行策略学习, 无需访问目标环境, 并在MuJoCo基准测试中取得了优于现有方法的效果.

OPTIAGENT: A Physics-Driven Agentic Framework for Automated Optical Design

Yuyu Geng et al.

cs.LG cs.CV

本文提出了一个基于LLM的智能体框架OPTIAGENT, 用于自动化光学设计. 该方法通过结合领域知识、物理驱动的奖励策略和专门的优化流程, 旨在降低光学设计的专业门槛.

MAGE: Multi-scale Autoregressive Generation for Offline Reinforcement Learning

Chenxing Lin et al.

cs.LG

本文提出了一种基于多尺度自回归生成的离线强化学习方法MAGE, 它通过条件引导的多尺度自编码器学习分层轨迹表示, 并使用多尺度transformer自回归地从粗到细的时间尺度生成轨迹. 该方法旨在更好地建模轨迹中的多尺度时间依赖关系, 以应对长视野、稀疏奖励任务中的挑战.

TradeFM: A Generative Foundation Model for Trade-flow and Market Microstructure

Maxime Kawawa-Beaudan et al.

cs.LG cs.AI q-fin.CP q-fin.TR

本文提出了TradeFM, 一个用于交易流和市场微观结构的生成式基础模型. 该模型通过尺度不变特征和通用标记化方案处理异构数据, 并能在零样本情况下泛化到新的市场.

Provable Subspace Identification of Nonlinear Multi-view CCA

Zhiwei Han, Stefan Matthes, Hao Shen

cs.LG

本文研究了多视角非线性CCA（Canonical Correlation Analysis）的可识别性问题。文章证明了在特定条件下，该方法可以恢复出信号子空间，并给出了有限样本的一致性保证。

UPath: Universal Planner Across Topological Heterogeneity For Grid-Based Pathfinding

Aleksandr Ananikian, Daniil Drozdov, Konstantin Yakovlev

cs.LG cs.AI

本文提出了一种名为UPath的通用启发式预测器, 用于网格路径规划. 该模型通过一次训练即可泛化到与训练分布完全不同的任务上, 显著提升了A*等搜索算法的效率.

GRAIL: Post-hoc Compensation by Linear Reconstruction for Compressed Networks

Wenwu Tang et al.

cs.LG

本文提出了一种名为GRAIL的后处理补偿方法，用于补偿经过结构化压缩（如剪枝或折叠）后的神经网络。该方法利用一个小型校准集，通过Gram矩阵总结隐藏层激活，并应用岭回归来线性重建原始隐藏表示，然后将重建映射吸收到下游权重中。该方法无需微调，在多种网络架构上相比基线方法提升了精度或困惑度。

MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

Tiantong Wang et al.

cs.LG cs.AI cs.CR cs.DC

本文提出了一个名为MPU的隐私保护框架, 用于大语言模型的机器遗忘. 该框架通过分发多个扰动后的模型副本, 允许客户端在本地执行遗忘, 而无需共享服务器参数或遗忘数据集.

Actor-Critic Pretraining for Proximal Policy Optimization

Andreas Kernbach et al.

cs.LG

本文提出了一种用于Proximal Policy Optimization (PPO)等actor-critic算法的预训练方法，该方法利用专家演示数据同时初始化actor和critic网络。实验表明，这种actor-critic预训练方法相比无预训练和仅actor预训练，能显著提高样本效率。

Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

Xiang Li, Nan Jiang, Yuheng Zhang

cs.LG cs.AI

本文针对离线强化学习中参数化策略的理论分析进行了扩展. 它通过将 mirror descent 与 natural policy gradient 联系起来, 为处理大或连续动作空间提供了新的算法见解和理论保证.

Learning to maintain safety through expert demonstrations in settings with unknown constraints: A Q-learning perspective

George Papadopoulos, George A. Vouros

cs.LG cs.AI

本文提出了一种在约束未知的MDP中通过专家演示学习安全策略的方法. 算法SafeQIL通过混合奖励与安全性的Q值来评估轨迹的"承诺度", 并在基准任务上进行了验证.

Inferring Chronic Treatment Onset from ePrescription Data: A Renewal Process Approach

Pavlin G. Poličar, Dalibor Stanimirović, Blaž Zupan

cs.LG

本文提出了一种基于 renewal process 的 probabilistic framework, 用于从电子处方数据中推断慢性治疗的开始时间. 该方法通过 change-point detection 来区分 sporadic 和 sustained therapy 的处方模式, 并在大规模数据集上验证了其相对于简单规则方法的优势.

FedNSAM:Consistency of Local and Global Flatness for Federated Learning

Junkang Liu et al.

cs.LG cs.AI

本文提出了一种名为FedNSAM的联邦学习算法, 旨在解决数据异构性下局部平坦性与全局平坦性不一致的问题. 该方法通过引入全局Nesterov动量来协调局部与全局的平坦性一致性, 并在实验中展示了其优越性能.

ULW-SleepNet: An Ultra-Lightweight Network for Multimodal Sleep Stage Scoring

Zhaowen Wang et al.

cs.LG eess.SP

本文提出了一种名为ULW-SleepNet的超轻量级多模态睡眠分期网络。该模型通过设计新颖的Dual-Stream Separable Convolution Block等结构，在显著减少参数量的同时，在公开数据集上保持了有竞争力的准确率。

A Theory of Random Graph Shift in Truncated-Spectrum vRKHS

Zhang Wan, Tingting Mu, Samuel Kaski

cs.LG

本文在 vector-valued reproducing kernel Hilbert space (vRKHS) 框架下，为图分类任务中的领域偏移 (domain shift) 问题建立了一个理论分析。该理论基于随机图生成模型，推导了一个包含领域差异、谱几何项和振幅项的泛化误差上界。

LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding

Alexander Samarin et al.

cs.LG cs.CL

本文提出了一种名为 LK losses 的训练目标，用于直接优化 speculative decoding 中的 acceptance rate，以替代传统的基于 KL divergence 的训练方法。实验表明，该方法在多种模型配置和任务领域上都能带来 acceptance rate 的提升。

Hierarchical Concept-based Interpretable Models

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik

cs.LG cs.AI

本文提出了一种分层概念嵌入模型(Hierarchical Concept Embedding Models, HiCEMs)来增强神经网络的可解释性. 该方法通过概念分割(Concept Splitting)技术自动从预训练模型中发掘细粒度子概念, 从而构建概念间的层次关系, 减少了人工标注的需求.

Learning Generation Orders for Masked Discrete Diffusion Models via Variational Inference

David Fox et al.

cs.LG

本文提出了一种基于变分推断的框架, 用于学习掩码离散扩散模型(MDMs)的并行生成顺序. 该方法引入了一种便于并行化和高效训练采样的近似后验参数化. 在GSM8K数据集上的初步实验表明, 在高度并行的生成模式下, 该方法与启发式采样策略相比具有竞争力.

Intrinsic Lorentz Neural Network

Xianglong Shi et al.

cs.LG cs.AI

本文提出了一种完全内蕴的双曲神经网络架构 ILNN, 其核心是使用点到超平面的距离作为全连接层, 并设计了相应的内蕴归一化等模块. 实验表明该模型在多个数据集上取得了先进的性能.

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

Vrushank Ahire et al.

cs.LG cs.AI cs.CV

本文提出了一种名为MINT的多模态知识迁移框架, 用于阿尔茨海默病的早期筛查. 该框架通过训练一个MRI教师模型, 将其学到的生物标志物结构迁移到语音编码器中, 从而在推理时仅需语音输入即可进行分类.

Foundation World Models for Agents that Learn, Verify, and Adapt Reliably Beyond Static Environments

Florent Delgrange

cs.LG cs.AI

本文提出了一个关于 foundation world models 的愿景, 旨在为能在开放世界中可靠学习和适应的智能体提供支撑. 其议程整合了可学习的 reward models, 自适应形式化验证, 在线抽象校准以及测试时合成等组件.

InfoNCE Induces Gaussian Distribution

Roy Betser et al.

cs.LG eess.SP

本文分析了对比学习中InfoNCE损失函数对表示分布的影响。研究表明，该目标函数会在一定条件下诱导出高维表示的渐近高斯结构。

RewardUQ: A Unified Framework for Uncertainty-Aware Reward Models

Daniel Yang et al.

cs.LG cs.AI cs.CL

本文提出了一个用于系统评估奖励模型不确定性量化的统一框架 RewardUQ. 通过比较不同方法在准确性和校准性上的表现, 作者发现模型规模和初始化对性能影响最大, 并发布了开源代码包.

pathsig: A GPU-Accelerated Library for Truncated and Projected Path Signatures

Tobias Nygaard

cs.LG

本文介绍了一个名为pathsig的PyTorch库, 它利用CUDA内核在word basis上并行计算path signature, 实现了高GPU吞吐量和低内存占用. 该库支持signature的截断计算, 投影以及基于路径非齐次正则性的各向异性截断, 旨在为大规模梯度学习提供可扩展的工具.

Leveraging Non-linear Dimension Reduction and Random Walk Co-occurrence for Node Embedding

Ryan DeWolfe

cs.LG cs.SI

本文提出了一种名为COVE的高维节点嵌入方法, 它利用随机游走共现来定义节点相似性, 并采用非线性降维技术UMAP将其降至低维. 实验表明, 该方法在聚类和链路预测任务上取得了与Louvain算法相当的性能.

Adaptive Correlation-Weighted Intrinsic Rewards for Reinforcement Learning

Viet Bac Nguyen, Phuong Thai Nguyen

cs.LG cs.AI

本文提出了一种名为ACWI的自适应内在奖励缩放框架, 用于在稀疏奖励的强化学习中动态平衡内在与外在奖励. 该方法通过一个轻量级的Beta网络, 根据智能体状态在线预测内在奖励权重, 并使用基于相关性的目标进行优化. 实验表明, ACWI在MiniGrid稀疏奖励环境中提升了样本效率和学习稳定性.

Neural Diffusion Intensity Models for Point Process Data

Xinlong Du, Harsha Honnappa, Vinayak Rao

cs.LG math.PR stat.ML

本文提出了一种基于神经随机微分方程(SDE)的变分推断框架, 用于 Cox 过程(点过程)的建模与推理. 该方法通过一个摊销编码器架构, 将变长事件序列映射到后验强度路径, 从而在合成和真实数据上实现了比传统 MCMC 方法快数个数量级的推理速度.

Agentic AI-RAN: Enabling Intent-Driven, Explainable and Self-Evolving Open RAN Intelligence

Zhizhou He et al.

cs.LG

本文提出了一种基于agentic AI的Open RAN智能控制框架，通过引入规划、工具使用、记忆和自管理等原语来管理网络切片生命周期和无线资源。在仿真中，该框架相比传统方法平均降低了8.83%的资源使用量，并讨论了安全与合规方面的挑战。

Learning with a Budget: Identifying the Best Arm with Resource Constraints

Zitian Li, Wang Chi Cheung

cs.LG

本文研究了资源约束下的最佳臂识别问题, 提出了一种将资源感知分配整合到经典连续减半框架中的算法. 该算法为随机和确定性资源消耗设定提供了统一的理论分析.

What You Read is What You Classify: Highlighting Attributions to Text and Text-Like Inputs

Daniel S. Berman et al.

cs.LG q-bio.GN

本文提出了一种针对基于离散token的文本分类器的可解释AI方法. 该方法通过训练一个Explainer网络来生成掩码, 以隐藏与分类无关的输入信息, 从而提供人类可读的解释.

Sandwiching Polynomials for Geometric Concepts with Low Intrinsic Dimension

Adam R. Klivans, Konstantinos Stavropoulos, Arsen Vasilyan

cs.LG cs.CC

本文提出了一种构造低阶sandwiching polynomials的新方法, 用于近似具有低内在维度和光滑边界的函数类. 该方法简化了证明过程, 并针对高斯分布下的$k$个halfspaces函数, 将sandwiching多项式的阶数从指数级$2^{O(k)}$改进为多项式级$\mathrm{poly}(k)$.

Multi-Objective Reinforcement Learning for Large-Scale Tote Allocation in Human-Robot Collaborative Fulfillment Centers

Sikata Sengupta et al.

cs.LG

本文针对大型人机协作履约中心的容器分配问题, 将其建模为一个高维状态空间的多目标强化学习任务. 该方法基于零和博弈中的最佳响应和无悔动态理论, 通过仿真验证了策略能在多个竞争目标间取得平衡并满足实际约束.

Flow-Based Density Ratio Estimation for Intractable Distributions with Applications in Genomics

Egor Antipov et al.

cs.LG

本文提出了一种基于 flow matching 的密度比估计方法, 用于处理难以直接计算概率密度的分布. 该方法在单细胞基因组学数据分析中展示了应用潜力, 例如用于估计处理效应和评估批次校正效果.

The Stability of Online Algorithms in Performative Prediction

Gabriele Farina, Juan Carlos Perdomo

cs.LG cs.CY cs.GT stat.ML

本文研究了在线算法在performative prediction中的稳定性. 通过无条件归约, 证明了任何无遗憾算法都会收敛到一个performatively stable equilibrium.

An Efficient Unsupervised Federated Learning Approach for Anomaly Detection in Heterogeneous IoT Networks

Mohsen Tajgardan et al.

cs.LG cs.AI

本文提出了一种用于异构IoT网络中异常检测的高效无监督联邦学习框架. 该方法通过利用来自不同数据集的共享特征来提升模型性能, 并采用可解释AI技术增强透明度. 实验表明, 该方法在真实IoT数据集上的异常检测准确率优于传统联邦学习方法.

Comparing Classical and Quantum Variational Classifiers on the XOR Problem

Miras Seilkhan, Adilbek Taizhanov

cs.LG quant-ph

本文比较了经典模型与变分量子分类器在XOR问题上的表现. 研究发现, 电路深度是决定量子模型性能的关键, 更深的量子电路可以达到与经典神经网络相当的准确率, 但在鲁棒性或效率上未观察到明显优势.

Adaptive Combinatorial Experimental Design: Pareto Optimality for Decision-Making and Inference

Hongrui Xie, Junyu Cao, Kan Xu

cs.LG

本文研究了组合多臂老虎机(CMAB)中的自适应组合实验设计问题, 关注于遗憾最小化与统计功效之间的权衡. 作者提出了两种算法MixCombKL和MixCombUCB, 分别针对全老虎机反馈和半老虎机反馈场景, 并证明了它们在帕累托最优意义下的理论保证.

Time Series Foundation Models as Strong Baselines in Transportation Forecasting: A Large-Scale Benchmark Analysis

Javier Pulido, Filipe Rodrigues

cs.LG

本文评估了通用时间序列基础模型 Chronos-2 在多种交通预测任务上的零样本性能。研究发现，该模型无需特定训练即可达到或超越许多专门模型的精度，并能提供有用的不确定性量化。

Chunk-wise Attention Transducers for Fast and Accurate Streaming Speech-to-Text

Hainan Xu et al.

cs.LG

本文提出了一种用于流式语音识别的 Chunk-wise Attention Transducer (CHAT) 模型。它在保持流式处理能力的同时，通过分块注意力机制提升了效率与准确性。

Histopathology Image Normalization via Latent Manifold Compaction

Xiaolong Zhang et al.

cs.LG cs.CV

本文提出了一种名为Latent Manifold Compaction (LMC)的无监督表示学习框架，用于解决组织病理学图像中的批次效应问题。该方法通过压缩染色引起的潜在流形来学习批次不变的嵌入，从而提升模型在跨批次任务上的泛化性能。

Coverage-Aware Web Crawling for Domain-Specific Supplier Discovery via a Web--Knowledge--Web Pipeline

Yijiashun Qi, Yijiazhen Qi, Tanmay Wagh

cs.LG

本文提出了一种用于特定领域供应商发现的Web--Knowledge--Web (W$\to$K$\to$W)迭代爬取管道。该方法通过构建知识图谱来指导爬虫，并引入了一个基于生态学物种丰富度估计器的覆盖度评估框架。在半导体设备制造领域的实验中，该方法在有限的爬取预算下取得了较高的精确度和召回率。

Efficient Discovery of Approximate Causal Abstractions via Neural Mechanism Sparsification

Amir Asiaee

cs.LG cs.AI

本文提出了一种通过神经机制稀疏化来高效发现近似因果抽象的方法. 该方法将结构化剪枝视为对近似抽象的搜索, 并推导出一个干预风险目标, 其二阶展开给出了用常数替换神经元或将其折叠到相邻单元的闭式准则.

Who Guards the Guardians? The Challenges of Evaluating Identifiability of Learned Representations

Shruti Joshi et al.

cs.LG

本文指出, 在表示学习的可识别性评估中, 常用的标准度量(如MCC, DCI, $R^2$)仅在特定的结构条件下才能有效反映理论保证的等价类恢复. 作者通过一个分离数据生成过程和编码器几何假设的分类法, 分析了现有度量的有效域, 并发布了一个用于压力测试的评估套件.

Memory Caching: RNNs with Growing Memory

Ali Behrouz et al.

cs.LG cs.AI

本文提出了一种名为Memory Caching (MC)的技术，通过缓存循环神经网络(RNN)的隐藏状态检查点来扩展其有效记忆容量。该方法在语言建模和长上下文理解任务中提升了循环模型的性能，使其在记忆密集型任务上更接近Transformer的表现。

Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation

Zhengbo Wang et al.

cs.LG cs.AI cs.CL

本文提出了一种名为LoRA-Pre的新型低秩优化器，旨在减少Adam等优化器在训练大语言模型时因存储动量状态而产生的内存开销。该方法将动量更新重新解释为在线线性回归问题，并通过低秩分解来压缩优化器状态，在保持性能的同时显著提升了内存效率。实验在Llama架构的不同规模模型上验证了其有效性，并在预训练和微调任务中均表现优异。

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

Weinan Dai et al.

cs.LG cs.AI

本文提出了一种名为CUDA Agent的大规模智能体强化学习系统, 用于生成高性能的CUDA kernel. 该系统通过数据合成, 技能增强的开发环境和强化学习算法来提升模型在CUDA优化方面的内在能力, 并在KernelBench基准测试上取得了领先的性能.

cs.AI

HumanMCP: A Human-Like Query Dataset for Evaluating MCP Tool Retrieval Performance

Shubh Laddha et al.

cs.AI cs.IR

本文提出了一个名为HumanMCP的数据集，用于评估MCP服务器的工具检索性能。该数据集包含了针对大量工具生成的、多样化的类人用户查询，旨在弥补现有基准在真实交互模式上的不足。

An Agentic LLM Framework for Adverse Media Screening in AML Compliance

Pavel Chernakov, Sasan Jafarnejad, Raphaël Frank

cs.AI cs.CL cs.IR

本文提出了一个基于LLM的智能体框架, 用于AML合规中的负面新闻筛查. 该系统利用RAG技术自动化搜索与评估流程, 并通过计算AMI分数来区分高风险与低风险个体.

Causal Identification from Counterfactual Data: Completeness and Bounding Results

Arvind Raghavan, Elias Bareinboim

cs.AI cs.LG

本文研究了在能够获取部分反事实分布数据的情况下，反事实查询的识别问题。作者提出了一个完整的识别算法，并探讨了这种新数据访问权限下的理论极限。

Planning under Distribution Shifts with Causal POMDPs

Matteo Ceriscioli, Karthika Mohan

cs.AI

本文提出了一个基于因果知识的POMDP理论框架, 用于处理部分可观测环境下的分布偏移规划问题. 该框架将环境变化建模为对因果模型的干预, 并证明了在扩展的信念空间中值函数仍保持分段线性凸性质, 从而保持了基于$\alpha$-vector方法的规划可处理性.

Construct, Merge, Solve & Adapt with Reinforcement Learning for the min-max Multiple Traveling Salesman Problem

Guillem Rodríguez-Corominas, Maria J. Blesa, Christian Blum

cs.AI cs.LG

本文提出了一种结合强化学习与精确优化的混合算法RL-CMSA，用于求解对称单仓库最小-最大多旅行商问题。该方法通过强化学习引导的构造、合并、精确求解与自适应调整，在多个基准实例上取得了具有竞争力的结果。

SleepLM: Natural-Language Intelligence for Human Sleep

Zongzhe Xu et al.

cs.AI

本文提出了SleepLM, 这是一个将自然语言与多模态睡眠生理信号对齐的基础模型系列. 它通过一个多级描述生成流程构建了大规模睡眠-文本数据集, 并采用结合对比对齐和重建的统一预训练目标, 在多项睡眠理解任务上展现了优越的零样本和少样本性能.

MMKG-RDS: Reasoning Data Synthesis via Deep Mining of Multimodal Knowledge Graphs

Lun Zhan et al.

cs.AI

本文提出了一个基于多模态知识图谱的推理数据合成框架MMKG-RDS, 旨在解决现有方法在知识覆盖和可解释性等方面的不足. 该框架支持细粒度知识提取和可定制路径采样, 并在构建的数据集上验证了其合成数据对提升模型推理能力的有效性.

AI Must Embrace Specialization via Superhuman Adaptable Intelligence

Judah Goldfeder et al.

cs.AI

本文批判了当前对Artificial General Intelligence (AGI)的普遍定义，认为其存在缺陷且不切实际。作者主张AI应向专业化发展，并提出了Superhuman Adaptable Intelligence (SAI)这一新概念，旨在超越人类在重要任务上的能力并填补人类技能空白。

PseudoAct: Leveraging Pseudocode Synthesis for Flexible Planning and Action Control in Large Language Model Agents

Yihan, Xin Chen

cs.AI eess.SY

本文提出了一种名为PseudoAct的新框架，通过合成pseudocode来增强LLM agent在复杂长程任务中的规划与行动控制能力。该方法将任务策略编码为包含控制流的结构化伪代码，从而减少了冗余操作并提升了决策效率。

ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference

Siyuan Ma et al.

cs.AI

本文提出了一种基于主动推断的自适应路由框架ODAR-Expert，用于优化大语言模型推理的准确性与效率权衡。它通过动态路由和基于变分自由能的答案融合机制，在多个基准测试上取得了优于均匀采样的效果。

From Flat Logs to Causal Graphs: Hierarchical Failure Attribution for LLM-based Multi-Agent Systems

Yawen Wang et al.

cs.AI cs.SE

本文提出了一个名为CHIEF的框架, 用于对基于LLM的多智能体系统进行层次化故障归因. 该方法将执行轨迹转化为结构化的层次因果图, 并通过合成虚拟预言和渐进因果筛选策略来识别根本原因.

ProductResearch: Training E-Commerce Deep Research Agents via Multi-Agent Synthetic Trajectory Distillation

Jiangyuan Wang et al.

cs.AI

本文提出了一个用于训练电子商务深度研究智能体的多智能体合成轨迹蒸馏框架. 该方法通过合成高质量的工具使用轨迹来训练更强大的购物助手模型.

The Auton Agentic AI Framework

Sheng Cao et al.

cs.AI

本文提出了Auton Agentic AI框架, 旨在解决生成式AI向智能体AI过渡中的架构不匹配问题. 该框架通过分离声明式的Cognitive Blueprint与平台特定的Runtime Engine, 并引入一系列机制如增强的POMDP模型和分层记忆架构, 以标准化自主智能体的创建、执行与治理.

Unlocking Cognitive Capabilities and Analyzing the Perception-Logic Trade-off

Longyin Zhang et al.

cs.AI

本文介绍了MERaLiON2-Omni (Alpha)模型，这是一个为东南亚地区定制的多语言全感知模型。报告提出了一个分阶段的训练流程，并分析了感知与推理能力之间的权衡关系。

Reasoning-Driven Multimodal LLM for Domain Generalization

Zhipeng Xu et al.

cs.AI

本文提出了一种利用多模态大语言模型(MLLMs)的推理能力来解决领域泛化(DG)问题的方法。作者构建了包含推理链的数据集DomainBed-Reasoning, 并提出了RD-MLDG框架, 通过引入额外的直接分类路径和自对齐推理正则化来优化模型。实验表明该方法在多个标准DG数据集上取得了先进的性能。

EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models

Yiyang Fang et al.

cs.AI cs.CV

本文提出了一种名为EMO-R3的框架, 旨在提升多模态大语言模型(MLLMs)的情感推理能力. 该方法结合了结构化情感思维和反思性情感奖励机制, 在多个视觉情感理解基准上取得了性能提升.

RUMAD: Reinforcement-Unifying Multi-Agent Debate

Chao Wang et al.

cs.AI

本文提出了一个名为RUMAD的强化学习框架, 用于动态控制多智能体辩论(MAD)中的通信拓扑结构. 该方法通过内容无关的观察和多目标奖励来优化辩论的准确性, 共识形成和计算效率, 在多个基准测试中显著降低了计算成本.

RF-Agent: Automated Reward Function Design via Language Agent Tree Search

Ning Gao et al.

cs.AI cs.LG

本文提出RF-Agent框架, 将LLMs视为language agents, 并将reward function设计构建为一个sequential decision-making过程. 该方法整合了Monte Carlo Tree Search (MCTS)来管理reward的设计与优化过程, 在多个low-level control任务上取得了良好的实验效果.

Pessimistic Auxiliary Policy for Offline Reinforcement Learning

Fan Zhang, Baoru Huang, Xin Zhang

cs.AI

本文提出了一种用于离线强化学习的悲观辅助策略, 通过最大化Q函数的置信下界来采样可靠动作, 以减少分布外动作带来的近似误差累积. 实验表明该方法能有效提升多种离线RL算法的性能.

Portfolio Reinforcement Learning with Scenario-Context Rollout

Vanya Priscillia Bendatu, Yao Lu

cs.AI

本文提出了一种名为macro-conditioned scenario-context rollout (SCR)的方法，用于在压力事件下生成合理的次日多变量收益情景，以应对市场状态转换带来的分布偏移问题。作者分析了将基于情景的奖励纳入时序差分学习时产生的奖励-转移不匹配问题，并通过构建反事实下一状态来稳定强化学习评论家训练。在美股和ETF投资组合的回测中，该方法相比基线显著提升了夏普比率并降低了最大回撤。

CIRCLE: A Framework for Evaluating AI from a Real-World Lens

Reva Schwartz et al.

cs.AI cs.SE

本文提出了一个名为CIRCLE的六阶段、基于生命周期的框架，旨在弥合以模型为中心的性能指标与AI在现实部署中实际效果之间的差距。该框架将利益相关者的关切转化为可测量的信号，为评估AI的真实影响提供了一种结构化方法。

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

Xiang Li et al.

cs.AI cs.SD

本文对当前最先进的 speech-to-speech (S2S) 系统进行了首次图灵测试, 收集了近三千份人类评判. 结果表明, 现有系统均未通过测试, 其瓶颈主要在于副语言特征和情感表达等方面. 作者还提出了一个可解释的模型, 用于自动评估系统的人类相似性.

Bi-level RL-Heuristic Optimization for Real-world Winter Road Maintenance

Yue Xie et al.

cs.AI

本文提出了一种用于冬季道路维护的双层优化框架, 结合了上层的强化学习(RL)进行网络分区与资源分配, 以及下层的多目标车辆路径问题(VRP)求解. 该方法在真实路网数据上验证了其在平衡工作量、减少最长行驶时间和降低排放方面的有效性.

Artificial Agency Program: Curiosity, compression, and communication in agents

Richard Csaky

cs.AI cs.LG

本文提出了Artificial Agency Program (AAP), 一个将AI系统构建为受物理和计算约束的、以好奇心驱动的智能体的研究框架. 该框架整合了预测压缩、内在动机、赋能与控制等概念, 旨在通过一个多模态测试平台来连接信息论、热力学和有界理性等领域.

Recycling Failures: Salvaging Exploration in RLVR via Fine-Grained Off-Policy Guidance

Yanwei Ren et al.

cs.AI cs.CL

本文提出了一种名为SCOPE的新框架，用于改进强化学习中的可验证奖励学习范式。该方法通过过程奖励模型对部分正确的推理轨迹进行细粒度修正，以维持探索空间的多样性。

LemmaBench: A Live, Research-Level Benchmark to Evaluate LLM Capabilities in Mathematics

Antoine Peyronnet, Fabian Gloeckle, Amaury Hayat

cs.AI

本文提出了一种名为 LemmaBench 的动态基准测试方法, 用于评估大型语言模型在数学研究层面的能力. 该方法通过自动从 arXiv 提取引理并重写为自包含问题来构建可更新的基准, 避免了传统静态基准的局限性. 初步测试显示当前顶尖模型的定理证明准确率约为 10-15%, 表明其与人类研究水平仍有较大差距.

Learning Flexible Job Shop Scheduling under Limited Buffers and Material Kitting Constraints

Shishun Zhang et al.

cs.AI

本文提出了一种结合异构图网络与深度强化学习的方法, 用于解决带有有限缓冲区与物料配套约束的柔性作业车间调度问题. 该方法在合成与真实数据集上均优于传统启发式与先进深度强化学习方法.

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Gregory Kang Ruey Lau et al.

cs.AI cs.CL cs.CV cs.LG

本文提出了一种名为UMPIRE的免训练不确定性量化框架, 用于多模态大语言模型(MLLMs). 该方法通过计算模型响应样本的"非一致性调整语义体积"来评估不确定性, 并在多种模态和任务上展示了优于基线方法的性能.

A Minimal Agent for Automated Theorem Proving

Borja Requena Pozo et al.

cs.AI

本文提出了一个用于自动定理证明的极简智能体基线, 旨在为不同AI证明器架构提供系统比较的基础. 该设计实现了迭代证明优化, 库搜索和上下文管理等核心功能, 并在多个基准测试中展示了与复杂系统相当的竞争力.

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

Fan Shu et al.

cs.AI cs.CL

本文提出了一个名为DARE-bench的基准测试，用于评估大型语言模型在数据科学任务中的建模和指令遵循能力。该基准包含大量具有可验证真实答案的任务，并提供了用于微调的训练数据。

cs.IR

Keyword search is all you need: Achieving RAG-Level Performance without vector databases using agentic tool use

Shreyas Subramanian et al.

cs.IR cs.AI

本文比较了基于向量数据库的RAG系统与仅使用关键词搜索工具的LLM智能体在问答任务中的性能. 研究发现, 在智能体框架下, 仅使用基础关键词搜索工具即可达到传统RAG系统90%以上的性能指标, 且实现更简单、成本更低.

Reason to Contrast: A Cascaded Multimodal Retrieval Framework

Xuanming Cui et al.

cs.IR cs.AI cs.CL

本文提出了TTE-v2, 一个级联的多模态检索框架, 它通过引入额外的推理步骤进行重排序, 从而在测试时实现基于推理token扩展的性能提升. 在MMEB-V2基准测试中取得了新的最优结果.

Domain-Partitioned Hybrid RAG for Legal Reasoning: Toward Modular and Explainable Legal AI for India

Rakshita Goel et al.

cs.IR cs.AI cs.CL

本文提出了一种针对印度法律研究的领域划分混合RAG与知识图谱架构. 该系统整合了多个专门化的检索模块和一个法律知识图谱, 通过一个LLM驱动的协调器动态路由查询并融合证据, 以生成有根据且包含引用的回答. 在合成法律问答基准上的评估表明, 该混合架构在回答完整性和法律推理质量上显著优于纯RAG基线.

Democratizing GraphRAG: Linear, CPU-Only Graph Retrieval for Multi-Hop QA

Qizhi Wang

cs.IR cs.AI cs.CL

本文提出了一种名为SPRIG的CPU友好型GraphRAG方法，它使用轻量级的NER共现图构建和Personalized PageRank进行检索，在保持Recall@10性能的同时显著降低了计算成本。该方法为无需GPU和大量token消耗的多跳问答图检索提供了一个可行的路径。

Higress-RAG: A Holistic Optimization Framework for Enterprise Retrieval-Augmented Generation via Dual Hybrid Retrieval, Adaptive Routing, and CRAG

Weixi Lin

cs.IR cs.AI cs.CL

本文提出了一个面向企业的RAG系统优化框架Higress-RAG, 通过整合双混合检索、自适应路由和CRAG等技术，旨在解决生产环境中检索精度低、生成幻觉多和延迟高的问题。实验表明该框架能提供可扩展且抗幻觉的企业AI部署方案。

Cross-Representation Knowledge Transfer for Improved Sequential Recommendations

Artur Gimranov et al.

cs.IR cs.LG

本文提出了一种结合Transformer与graph neural networks的新框架, 用于提升sequential recommendation的性能. 该框架通过对齐不同表示来同时捕捉交互图中的结构依赖及其动态变化, 并在多个公开数据集上验证了其优于纯序列或图方法的效果.

Unified Learning-to-Rank for Multi-Channel Retrieval in Large-Scale E-Commerce Search

Aditya Gaydhani et al.

cs.IR

本文提出了一种用于大规模电商搜索中多通道检索的统一学习排序模型. 该模型将多通道融合问题重新定义为依赖于查询的学习排序任务, 联合优化点击, 加购和购买等多个业务目标, 并整合了用户短期行为信号. 在线A/B实验表明, 该方法在满足严格延迟要求的同时, 显著提升了用户转化率.

Synthetic Data Powers Product Retrieval for Long-tail Knowledge-Intensive Queries in E-commerce Search

Gui Ling et al.

cs.IR

本文提出了一种针对电商搜索中长尾知识密集型查询的合成数据生成框架, 通过利用大型语言模型的能力来生成高质量的查询-商品对, 以增强检索模型的训练. 实验表明, 使用该合成数据能有效提升检索性能并改善用户体验.

Learning to Reflect and Correct: Towards Better Decoding Trajectories for Large-Scale Generative Recommendation

Haibo Xing et al.

cs.IR

本文提出了一种用于生成式推荐(Generative Recommendation, GR)的结构化反思-校正框架GRC, 将标准解码过程扩展为生成-反思-校正(GRC)流程。该方法通过引入基于GRPO的强化学习优化整个轨迹，并设计了熵引导的反思调度策略以提升在线服务效率，在真实数据集和在线A/B测试中验证了其有效性。

Geodesic Semantic Search: Learning Local Riemannian Metrics for Citation Graph Retrieval

Brandon Yee et al.

cs.IR cs.LG cs.SI

本文提出了一种名为Geodesic Semantic Search (GSS)的检索系统，用于引文图。该方法通过学习节点特定的Riemannian度量来计算测地线距离，从而进行语义搜索。实验表明，该方法在召回率上优于基于固定欧氏距离的基线方法，并能提供可解释的路径。

FuXi-Linear: Unleashing the Power of Linear Attention in Long-term Time-aware Sequential Recommendation

Yufei Ye et al.

cs.IR

本文提出了一种名为FuXi-Linear的线性复杂度模型，用于处理长序列推荐任务。该模型通过独立的时序通道和线性位置通道来整合时间信号和位置信息，在保持高效的同时提升了推荐质量。

Recommending Search Filters To Improve Conversions At Airbnb

Hao Li et al.

cs.IR

本文提出了一种机器学习框架，用于推荐搜索过滤器以提升Airbnb平台的预订转化率。该系统已成功部署并通过A/B测试验证了其有效性。

UniFAR: A Unified Facet-Aware Retrieval Framework for Scientific Documents

Zheng Dou et al.

cs.IR

本文提出了一个统一的面向科学文档检索的框架UniFAR, 旨在同时支持文档-文档和问题-文档两种检索任务. 该框架通过自适应多粒度聚合, 可学习的方面锚点以及联合训练来解决现有方法在输入粒度, 语义焦点和训练信号上的不匹配问题.

HotelQuEST: Balancing Quality and Efficiency in Agentic Search

Guy Hadad et al.

cs.IR cs.AI

本文提出了一个名为HotelQuEST的基准测试，用于评估基于LLM的智能体搜索系统在质量和效率上的平衡。研究发现，尽管LLM智能体在准确性上优于传统检索方法，但其成本显著更高，并指出了当前系统中存在的冗余工具调用和路由效率低下等问题。

RAD-DPO: Robust Adaptive Denoising Direct Preference Optimization for Generative Retrieval in E-commerce

Zhiguo Chen et al.

cs.IR

本文提出了一种用于电子商务生成式检索的鲁棒自适应去噪直接偏好优化方法. 该方法通过引入token-level梯度分离、基于相似度的动态奖励加权以及多标签全局对比目标, 解决了将DPO应用于结构化语义ID时遇到的梯度冲突、噪声伪负样本和概率挤压效应等问题.

Towards Efficient and Generalizable Retrieval: Adaptive Semantic Quantization and Residual Knowledge Transfer

Huimu Wang et al.

cs.IR

本文提出了一种名为SA^2CRQ的框架，用于改进基于语义ID的生成式检索。该框架通过自适应分配编码长度和利用头部项目的知识来增强尾部项目的表示学习，在冷启动场景下取得了更好的效果。

Robust Aggregation for Federated Sequential Recommendation with Sparse and Poisoned Data

Minh Hieu Nguyen

cs.IR

本文针对联邦顺序推荐中数据稀疏和恶意攻击的问题, 提出了一个鲁棒的聚合框架. 该框架通过防御感知的聚合机制和表示级约束来稳定训练, 并整合了序列感知的正则化以保持时序一致性.

Colour Contrast on the Web: A WCAG 2.1 Level AA Compliance Audit of Common Crawl's Top 500 Domains

Thom Vaughan, Pedro Ortiz Suarez

cs.IR cs.HC

本文对Common Crawl中500个最常被抓取域名的网页进行了WCAG 2.1/2.2 AA级色彩对比度合规性的大规模自动化审计。研究发现，在分析的色彩组合中，有相当大比例未能达到标准，表明色彩对比在主流网站中仍是一个普遍存在的可访问性障碍。

Recommendation Algorithms: A Comparative Study in Movie Domain

Rohit Chivukula et al.

cs.IR cs.SI

本文在电影推荐领域对多种算法进行了比较研究. 作者将推荐问题视为回归任务, 基于Netflix数据集提取了聚合特征, Matrix Factorization特征以及基于相似度的特征, 并利用XGBoost, K-Nearest Neighbors和Matrix Factorization等方法进行实验. 结果表明, 基于Matrix Factorization的算法在Root Mean Square Error指标上表现最佳.

Science Fiction and Fantasy in Wikipedia: Exploring Structural and Semantic Cues

Włodzimierz Lewoniewski et al.

cs.IR cs.DL

该研究探讨了利用Wikipedia的结构化数据(如分类, 内部链接)和语义特征来识别与科幻和奇幻(SF/F)相关文章的方法, 旨在解决因体裁边界模糊而带来的分类挑战.

UXSim: Towards a Hybrid User Search Simulation

Saber Zerhoudi, Michael Granitzer

cs.IR cs.HC

本文提出了一个名为UXSim的混合框架, 用于模拟交互式搜索系统中的用户体验. 该框架结合了传统模拟器的数据基础和大型语言模型(LLM)的适应性, 旨在实现更动态、可解释的用户行为模拟.

Beyond the Click: A Framework for Inferring Cognitive Traces in Search

Saber Zerhoudi, Michael Granitzer

cs.IR cs.HC

本文提出了一个从用户行为日志推断认知轨迹的框架, 该方法基于 Information Foraging Theory 和多智能体系统, 旨在模拟用户的潜在思维过程. 该框架被应用于预测会话结果等任务, 并发布了相关数据集和开源工具.

Resources for Automated Evaluation of Assistive RAG Systems that Help Readers with News Trustworthiness Assessment

Dake Zhang, Mark D. Smucker, Charles L. A. Clarke

cs.IR cs.AI

本文介绍了为TREC 2025 DRAGUN Track开发的自动化评估资源，该赛道旨在评估辅助读者进行新闻可信度评估的RAG系统。作者创建了一个自动化评判流程，其评估结果与人工评估具有良好的一致性。

cs.CL

Toward General Semantic Chunking: A Discriminative Framework for Ultra-Long Documents

Kaifeng Wu et al.

cs.CL cs.AI cs.IR

本文提出了一种基于Qwen3-0.6B的判别式模型，用于超长文档的主题分割。该方法通过跨窗口上下文融合层和重叠滑动窗口策略，支持单次处理长达13k个token的输入，并在WIKI-727K数据集上取得了优于对比生成模型的F1分数和更快的推理速度。

Task-Lens: Cross-Task Utility Based Speech Dataset Profiling for Low-Resource Indian Languages

Swati Sharma, Divya V. Sharma, Anubha Gupta

cs.CL cs.AI cs.SD eess.AS

本文提出了一种名为Task-Lens的跨任务分析方法，用于评估印度低资源语言语音数据集的适用性。该方法分析了50个数据集在9个下游任务中的潜力，并指出了当前资源覆盖不足的领域。

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Chris Samarinas, Haw-Shiuan Chang, Hamed Zamani

cs.CL cs.IR

本文提出了SLATE框架, 通过截断的步级采样和基于LLM的密集奖励来改进检索增强推理的强化学习训练. 该方法在多个QA基准测试上优于稀疏奖励和过程奖励基线.

CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era

Zhengqing Yuan et al.

cs.CL cs.DL

本文提出了一个用于检测科学文献中虚假引用（hallucinated citations）的基准和框架。该工作构建了一个大规模的人工验证数据集，并设计了一个多智能体验证流程来评估引用是否真实支持其声称的内容。实验表明，该框架在准确性和可解释性上优于现有方法。

FHIRPath-QA: Executable Question Answering over FHIR Electronic Health Records

Michael Frew, Nishit Bheda, Bryan Tripp

cs.CL

本文提出了FHIRPath-QA，一个基于FHIR标准的电子健康记录问答数据集和基准。研究探讨了将自然语言问题转换为可执行的FHIRPath查询的范式，并评估了大型语言模型在此任务上的表现。

IDP Accelerator: Agentic Document Intelligence from Extraction to Compliance Validation

Md Mofijul Islam et al.

cs.CL

本文提出了一个名为IDP Accelerator的智能文档处理框架, 旨在通过多模态LLM和智能体(agent)技术实现端到端的文档理解与合规验证. 该框架包含文档分割、信息提取、智能分析和规则验证等模块, 并在实际医疗部署中显著提升了处理效率和准确性.

Humans and LLMs Diverge on Probabilistic Inferences

Gaurav Kamath et al.

cs.CL cs.AI

本文通过构建ProbCOPA数据集, 比较了人类与大型语言模型(LLMs)在概率推理任务上的表现. 研究发现, LLMs生成的答案分布与人类多样化的概率判断存在系统性差异, 揭示了当前模型在非确定性推理方面的局限.

France or Spain or Germany or France: A Neural Account of Non-Redundant Redundant Disjunctions

Sasha Boguraev, Qing Yao, Kyle Mahowald

cs.CL

本文通过人工和大型语言模型的行为实验, 研究了形式上冗余但在特定语境下可接受的析取句. 作者提出了一种基于人工神经机制的互补性解释, 认为Transformer模型中的归纳头等机制能实现语境敏感的语义解读.

Multi-Agent Causal Reasoning for Suicide Ideation Detection Through Online Conversations

Jun Li et al.

cs.CL

本文提出了一个多智能体因果推理框架, 用于通过在线对话树检测自杀意念. 该方法利用一个推理智能体来扩展用户交互, 并使用一个偏误感知决策智能体来缓解隐藏影响带来的有害偏误.

BRIDGE the Gap: Mitigating Bias Amplification in Automated Scoring of English Language Learners via Inter-group Data Augmentation

Yun Wang et al.

cs.CL cs.AI

本文提出了一种名为BRIDGE的框架, 旨在通过组间数据生成来缓解自动评分系统中的偏见放大问题, 特别是在针对英语学习者(ELL)的评估中. 该方法通过合成高质量的少数群体样本来平衡数据表示, 实验表明其在保持总体评分性能的同时, 有效提升了评分的公平性.

LFQA-HP-1M: A Large-Scale Human Preference Dataset for Long-Form Question Answering

Rafid Ishrak Jahan, Fahmid Shahriar Iqbal, Sagnik Ray Choudhury

cs.CL cs.AI cs.IR

本文构建了一个用于长问答任务的大规模人类偏好数据集LFQA-HP-1M, 并提出了一个基于九个评估维度的透明评估框架. 研究表明, 基于这些维度的简单线性模型可以达到与先进LLM评估器相当的性能, 并揭示了LLM评估器在一致性、位置偏差和对抗扰动方面的脆弱性.

LLM-Driven Multi-Turn Task-Oriented Dialogue Synthesis for Realistic Reasoning

Yu Zhu, Kai Yang

cs.CL cs.AI

本文提出了一种利用大语言模型(LLM)合成多轮任务导向对话的框架, 旨在生成更贴近真实世界复杂推理场景的数据. 该方法通过三层优化提升对话质量, 并基于生成的对话设计相应的推理任务, 以构建用于评估和提升LLM现实逻辑推理能力的基准数据集.

TRIZ-RAGNER: A Retrieval-Augmented Large Language Model for TRIZ-Aware Named Entity Recognition in Patent-Based Contradiction Mining

Zitong Xu, Yuqing Wu, Yue Zhao

cs.CL cs.AI

本文提出了一种结合检索增强的大型语言模型框架, 用于专利文本中的TRIZ矛盾挖掘. 该框架将矛盾挖掘重新定义为命名实体识别任务, 并通过检索TRIZ知识库和结构化提示来提升参数提取的准确性和一致性.

From Static Benchmarks to Dynamic Protocol: Agent-Centric Text Anomaly Detection for Evaluating LLM Reasoning

Seungdong Yoa et al.

cs.CL cs.AI cs.LG

本文提出了一种以智能体为中心的动态评测协议, 用于评估大语言模型的推理能力. 该方法通过智能体间的交互自动生成和验证问题, 避免了静态数据集的局限性.

Structured Prompt Optimization for Few-Shot Text Classification via Semantic Alignment in Latent Space

Jiasen Zheng et al.

cs.CL

本文提出了一个基于structured prompts的优化框架, 用于解决few-shot文本分类中的语义纠缠和特征表示不足问题. 该框架通过引入多维语义因子构成的prompts, 并结合cross-space alignment机制, 提升了低资源条件下的分类性能.

Divide and Conquer: Accelerating Diffusion-Based Large Language Models via Adaptive Parallel Decoding

Xiangzhong Luo et al.

cs.CL

本文提出了一种名为DiCo的自适应并行解码方法, 用于加速基于扩散的大语言模型(dLLMs)的推理. 该方法通过一个包含Divide, Conquer和Finalize三个阶段的分治范式, 在保持生成质量的同时实现了显著的推理加速.

GLUScope: A Tool for Analyzing GLU Neurons in Transformer Language Models

Sebastian Gerstner, Hinrich Schütze

cs.CL cs.LG

本文介绍了一个名为GLUScope的开源工具，用于分析基于Transformer的语言模型中的神经元，特别是针对使用SwiGLU等门控激活函数的较新模型。该工具能展示神经元激活的四种不同符号组合的文本示例，为可解释性研究提供了便利。

CLFEC: A New Task for Unified Linguistic and Factual Error Correction in paragraph-level Chinese Professional Writing

Jian Kai et al.

cs.CL

本文提出了CLFEC任务，旨在对中文专业写作中的语言错误和事实错误进行统一修正。作者构建了一个多领域数据集，并系统评估了基于大语言模型的多种修正范式，分析了其面临的挑战与性能表现。

The Astonishing Ability of Large Language Models to Parse Jabberwockified Language

Gary Lupyan, Senyi Yang

cs.CL

本文展示了大型语言模型(LLM)在解析内容词被无意义字符串随机替换的“Jabberwockified”英语文本方面的惊人能力。研究表明，结构线索(如形态句法、封闭类词)对词汇意义的约束程度远超想象，这对于理解语言结构具有重要意义。

Benchmarking BERT-based Models for Sentence-level Topic Classification in Nepali Language

Nischal Karki et al.

cs.CL cs.LG

本文在Nepali语言中评估了多种BERT变体在句子级主题分类任务上的性能. 实验表明, 基于Indic语言的模型, 特别是MuRIL-large, 取得了最佳效果.

EDDA-Coordinata: An Annotated Dataset of Historical Geographic Coordinates

Ludovic Moncla et al.

cs.CL cs.DL cs.IR

本文介绍了一个从18世纪《百科全书》中提取并标注的历史地理坐标数据集, 并训练了基于transformer的模型来自动识别和规范化这些坐标. 该方法在跨语言和跨领域的文本上展现了一定的泛化能力.

MemEmo: Evaluating Emotion in Memory Systems of Agents

Peng Liu et al.

cs.CL

本文提出了一个用于评估智能体记忆系统处理情感信息能力的基准测试HLME. 实验表明, 现有系统在情感信息处理的多个维度上均未达到鲁棒性能.

The GRADIEND Python Package: An End-to-End System for Gradient-Based Feature Learning

Jonathan Drechsel, Steffen Herbold

cs.CL

本文介绍了gradiend这一Python软件包, 它实现了GRADIEND方法, 用于从语言模型的factual-counterfactual MLM和CLM梯度中学习特征方向. 该软件包提供了一个端到端的工作流, 涵盖特征数据创建, 训练, 评估到模型权重持久化修改等多个环节.

Dialect and Gender Bias in YouTube's Spanish Captioning System

Iris Dania Jimenez, Christoph Kern

cs.CL

本文研究了YouTube西班牙语自动字幕系统对不同方言和性别的识别偏差. 通过分析不同地区男女说话者的字幕质量, 发现了系统性的性能差异.

Task Complexity Matters: An Empirical Study of Reasoning in LLMs for Sentiment Analysis

Donghao Huang, Zhaoxia Wang

cs.CL cs.AI

本文通过实证研究发现, 在 sentiment analysis 任务中, LLMs 的 reasoning 能力对性能的提升并非普遍有效, 而是强烈依赖于任务复杂度. 在简单的 binary classification 上, reasoning 反而会导致性能下降, 而在复杂的 27-class emotion recognition 上则能带来显著提升.

Preference Packing: Efficient Preference Optimization for Large Language Models

Jaekyung Cho

cs.CL cs.AI

本文提出了一种名为"preference packing"的方法, 旨在提升大型语言模型(LLM)在偏好优化(如DPO)训练阶段的资源效率. 该方法通过合并重复的输入提示(prompt)来减少注意力计算和KV缓存内存使用, 在实验中显著缩短了训练时间.

ARGUS: Seeing the Influence of Narrative Features on Persuasion in Argumentative Texts

Sara Nabhani et al.

cs.CL cs.AI

本文提出了一个名为ARGUS的框架, 用于研究叙事特征在在线论辩文本中对说服力的影响. 该框架通过构建标注了故事存在性和六种关键叙事特征的数据集, 并结合编码器分类器与大型语言模型进行分析.

Terminology Rarity Predicts Catastrophic Failure in LLM Translation of Low-Resource Ancient Languages: Evidence from Ancient Greek

James L. Zainaldin et al.

cs.CL cs.AI

本文评估了大型语言模型在翻译低资源古语言(如古希腊语)技术文本时的表现. 研究发现, 术语稀有性是导致翻译质量急剧下降的关键预测因素.

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Yuxuan Liu et al.

cs.CL cs.AI

本文提出了一种名为CoME的新型移动智能体架构, 它通过四个独立的专家模块来处理屏幕摘要, 子任务规划, 行动决策和行动执行等混合能力推理. 作者采用了一种渐进式训练策略和信息增益驱动的DPO方法来优化各专家模块的协作与推理过程, 实验表明其在相关数据集上优于现有方法.

ArgLLM-App: An Interactive System for Argumentative Reasoning with Large Language Models

Adam Dejl, Deniz Gorur, Francesca Toni

cs.CL cs.AI

本文介绍了一个基于Argumentative LLMs的交互式网络系统ArgLLM-App, 该系统利用大语言模型和计算论证技术进行二元决策, 并支持对推理过程的可视化与人工交互. 该系统具有高度模块化特点, 并能从可信外部源获取信息.

Task-Centric Acceleration of Small-Language Models

Dor Tsur, Sharon Adar, Ran Levy

cs.CL cs.AI cs.IT

本文提出了一个名为TASC的框架, 用于加速小型语言模型(SLM). 该框架包含两种使用场景: 在微调阶段通过扩展词汇表来提升效率的TASC-ft, 以及在推理阶段使用无训练的推测解码方法TASC-spec. 实验表明, 这些方法能在保持任务性能的同时, 有效提升推理效率.

MT-PingEval: Evaluating Multi-Turn Collaboration with Private Information Games

Jacob Eisenstein et al.

cs.CL cs.LG

本文提出了一种评估语言模型在多轮交互中协作能力的方法, 使用需要交流私有信息的协作游戏套件. 研究发现, 即使有提升空间, 当前先进模型在规划和执行多轮协作对话方面仍存在显著弱点, 其对话的连贯性也低于人类.

Controllable Reasoning Models Are Private Thinkers

Haritz Puerto et al.

cs.CL cs.AI

本文提出通过训练推理模型遵循关于推理过程的指令来增强其隐私保护能力. 作者构建了包含推理限制的数据集进行微调, 并引入解耦推理与答案生成的策略. 实验表明该方法能显著提升指令遵循和隐私保护性能, 但可能牺牲部分任务效用.

Do LLMs Benefit From Their Own Words?

Jenny Y. Huang et al.

cs.CL cs.AI

本文探讨了在 multi-turn 对话中，大型语言模型是否受益于将其自身先前的回复保留在上下文历史中。通过比较标准全上下文提示与仅包含用户轮次提示的性能，研究发现省略模型自身历史回复在许多情况下不影响回答质量，并能显著减少上下文长度。研究还识别了上下文污染现象，并提出了选择性过滤助手侧上下文的方法以提升响应质量并降低内存消耗。

cs.DS

Grammar-Constrained (CFL) Reachability: Subcubic Preprocessing, Indexing Trade-offs, and Structured Decoding Semantics

Faruk Alpay, Levent Sarioglu

cs.DS cs.FL

本文研究了图上的 grammar-constrained context-free language (CFL) reachability 问题, 关注其计算复杂度和实际性能. 作者提出了一个评估此类查询的算法框架, 并进行了理论分析和广泛的实证评估.

Additive One Approximation for Minimum Degree Spanning Tree: Breaking the $O(mn)$ Time Barrier

Sayan Bhattacharya, Ermiya Farokhnejad, Haoze Wang

cs.DS

本文提出了一种确定性算法, 用于计算最小度生成树问题的加性1近似解. 该算法运行时间为$\tilde{O}(mn^{3/4})$, 打破了持续三十年的$\tilde{O}(mn)$时间障碍.

An improved Lower Bound for Local Failover in Directed Networks via Binary Covering Arrays

Erik van den Akker, Klaus-Tycho Foerster

cs.DS cs.NI

本文通过将网络中的本地故障恢复问题与二元覆盖数组问题相关联, 改进了有向网络中容忍$k$个链路故障所需可重写比特数的下界. 对于$k \geq 2$的情况, 在$n$个节点的网络中, 新的下界为$\Omega(k + \lceil\log\log(\lceil\frac{n}{4}\rceil-k)\rceil)$.

Stochastic Knapsack -- Semi-Adaptivity Gaps and Improved Approximation

Zohar Barak, Inbbal Talgam-Cohen

cs.DS

本文研究了Stochastic Knapsack问题中的半适应性(semi-adaptivity)概念, 改进了经典的适应性间隙(adaptivity gap)的上下界. 作者量化了进行有限次适应性查询($k$次)与完全适应性策略之间的性能差距, 并提出了一个分析适应性决策树的三步法.

Better Learning-Augmented Spanning Tree Algorithms via Metric Forest Completion

Nate Veldt et al.

cs.DS cs.LG

本文改进了在任意度量空间中寻找近似最小生成树(MST)的学习增强算法。它基于度量森林补全(MFC)框架，提出了一种在子二次时间内权衡近似比与计算复杂度的广义方法。

others

QD-MAPPER: A Quality Diversity Framework to Automatically Evaluate Multi-Agent Path Finding Algorithms in Diverse Maps

Cheng Qian et al.

cs.MA cs.AI

本文提出了一个名为QD-MAPPER的框架，它利用Quality Diversity算法和Neural Cellular Automata来自动生成多样化的地图，用于系统性地评估和比较不同的Multi-Agent Path Finding算法。该框架旨在超越传统的人工设计地图测试，通过生成具有不同模式的地图来更全面地理解算法的性能表现。

Let There Be Claws: An Early Social Network Analysis of AI Agents on Moltbook

H.C.W. Price et al.

physics.soc-ph cs.AI cs.CY cs.SI

本文对AI原生社交平台Moltbook上线初期的公开数据进行了社会网络分析. 研究发现, 在短短12天内, 该平台已表现出极端的注意力集中、清晰的层级角色分离以及单向的互动流, 表明智能体生态系统中的分层结构可以迅速形成.

Serendipity with Generative AI: Repurposing knowledge components during polycrisis with a Viable Systems Model approach

Gordon Fletcher, Saomai Vu Khan

cs.HC cs.CL cs.IR

本文提出了一种利用生成式AI作为"意外发现引擎"和知识转换器的方法, 用于从组织现有文档中挖掘和重组可复用的知识组件. 通过一个包含206篇论文的语料库, 该方法提取了约711个组件, 并依据Viable System Model (VSM)将其组织成知识库, 旨在帮助组织在多重危机中更系统地实现知识复用.

Doc To The Future: Infomorphs for Interactive, Multimodal Document Transformation and Generation

Balasaravanan Thoravi Kumaravel

cs.HC cs.IR

本文提出了"infomorphs"的概念, 这是一种模块化、用户可引导的AI增强转换, 用于支持跨格式和模态的信息受控合成与重组. 作者进一步提出了一个设计空间, 并实例化为DocuCraft系统, 该系统通过可视化组合infomorph工作流, 结合生成式AI与用户意图, 支持交互式、多模态的文档创建与转换.

Now You See Me: Designing Responsible AI Dashboards for Early-Stage Health Innovation

Svitlana Surodina et al.

cs.HC cs.AI cs.CY

本文探讨了在早期健康科技创新中设计Responsible AI治理仪表板的实践方法. 研究基于人本计算方法和设计研究, 提出了与利益相关者共创、适应组织成熟度等设计原则, 旨在通过可视化工具支持负责任的决策.

Universality of Shallow and Deep Neural Networks on Non-Euclidean Spaces

Vugar Ismailov

math.GN cs.LG cs.NE math.FA

本文在一般拓扑空间上构建了一个浅层与深层神经网络的统一框架, 其输入定义在一般的拓扑空间上. 该模型由一组给定的连续特征映射和一个固定的标量激活函数构成, 并在欧几里得情形下退化为多层前馈网络. 作者重点研究了该模型的通用逼近性质, 在无宽度约束和深度窄框架下分别建立了保证其逼近能力的条件, 并将经典逼近定理推广到了非欧几里得空间.

Hello-Chat: Towards Realistic Social Audio Interactions

Yueran Hou et al.

cs.SD cs.AI cs.CL eess.AS

本文提出了一个用于真实社交场景的端到端音频语言模型 Hello-Chat. 它通过利用大规模真实对话数据集和模态交错训练策略, 在韵律自然度和情感对齐方面超越了现有基线.

Pacing Opinion Polarization via Graph Reinforcement Learning

Mingkai Liao

cs.SI cs.LG

本文提出了一个名为PACIFIER的图强化学习框架，用于通过顺序网络干预来缓和意见极化。该框架将经典的极化调节问题重新表述为序列决策任务，能够适应多种干预场景，并在真实网络数据上展示了良好的可扩展性。

Complex Networks and the Drug Repositioning Problem

Felipe Bivort Haiek

q-bio.MN cs.LG

本文研究了多层药物-蛋白质网络的图性质, 并分析了网络结构如何影响药物重定位的发现模式. 最后, 利用网络结构构建了一个网络扩散推荐系统, 以优先考虑用于治疗被忽视热带病的现有药物.

On De-Individuated Neurons: Continuous Symmetries Enable Dynamic Topologies

George Bird

cs.NE cs.LG

本文提出了一种利用各向同性激活函数实现动态网络结构的方法. 该方法允许网络在任务需求下实时调整神经元数量, 并通过层对角化过程实现网络功能的解析不变性.

Learning to Generate Secure Code via Token-Level Rewards

Jiazheng Quan et al.

cs.CR cs.AI cs.SE

本文提出了Vul2Safe框架, 通过LLM自反思构建高质量安全修复数据集PrimeVul+, 并引入了SRCode训练框架, 首次在代码安全强化学习中使用token-level奖励进行细粒度优化. 实验表明该方法能有效减少生成代码中的安全漏洞.

Microscopic Structure of Random 3-SAT: A Discrete Geometric Approach to Phase Transitions and Algorithmic Complexity

Yongjian Zhan

cs.CC cs.DM cs.DS

本文提出了一种基于离散几何的微观结构模型来研究随机3-SAT问题. 该模型将相变和算法复杂性映射到布尔超立方体的组合拓扑上, 并推导了可满足与不可满足实例的绝对结构边界.

DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation

Varun Gopal et al.

cs.CV cs.AI

本文提出了一个用于评估图形布局生成质量的大规模人类偏好数据集 DesignSense-10k 以及一个基于视觉语言模型 (VLM) 的奖励模型。该模型在布局评估任务上显著超越了现有基线，并能有效提升下游布局生成器的性能。

SALIENT: Frequency-Aware Paired Diffusion for Controllable Long-Tail CT Detection

Yifan Li et al.

eess.IV cs.AI cs.CV cs.LG

本文提出了一种基于小波域的mask-conditioned扩散模型SALIENT, 用于生成长尾分布下可控的CT病灶合成数据. 该方法在离散小波系数上进行结构化扩散, 并利用可学习的频率感知目标来解耦病灶与背景属性, 从而提升生成的真实性和下游检测任务的性能.

BiKA: Kolmogorov-Arnold-Network-inspired Ultra Lightweight Neural Network Hardware Accelerator

Yuhao Liu, Salim Ullah, Akash Kumar

cs.AR cs.AI

本文提出了一种受 Kolmogorov-Arnold Network (KAN) 启发的超轻量级神经网络硬件加速器 BiKA. 它通过使用可学习的二进制阈值替代非线性函数, 构建了一个仅需比较器和累加器的无乘法计算模式, 在 FPGA 上实现了显著的硬件资源节省.

Neural ensemble Kalman filter: Data assimilation for compressible flows with shocks

Xu-Hui Zhou et al.

physics.flu-dyn cs.LG

本文提出了一种新的neural ensemble Kalman filter (EnKF)方法，用于解决含激波的可压缩流体的数据同化问题。该方法通过将流场预报集合映射到神经网络的参数空间，并在该空间执行更新，避免了传统EnKF在激波附近产生的非物理振荡。

2G2T: Constant-Size, Statistically Sound MSM Outsourcing

Majid Khabbazian

cs.CR cs.DC cs.DS

本文提出了一种名为2G2T的协议，用于将多标量乘法(MSM)外包给不可信服务器并进行验证。该协议实现了恒定大小的响应和统计意义上的可靠性，验证速度远快于本地计算。

On the Limits of Interpretable Machine Learning in Quintic Root Classification

Rohan Thomas, Majid Bani-Yaghoub

math.NA cs.LG

本文通过将五次多项式实根构型的分类作为结构化基准, 测试了多种机器学习模型从原始系数中恢复可解释数学结构的能力. 研究发现, 神经网络在分布内预测上表现良好, 但并未自主发现离散的、人类可解释的数学规则, 而可解释性可能需要显式的结构性归纳偏置.

Optimization of Edge Directions and Weights for Mixed Guidance Graphs in Lifelong Multi-Agent Path Finding

Yulun Zhang et al.

cs.MA cs.AI cs.RO

本文提出了Mixed Guidance Graph Optimization (MGGO)方法, 用于优化lifelong multi-agent path finding中的mixed guidance graph. 该方法能够同时优化边的权重和方向, 为智能体提供更严格的路径指导.

TaCarla: A comprehensive benchmarking dataset for end-to-end autonomous driving

Tugrul Gorgulu et al.

cs.RO cs.AI

本文介绍了一个用于端到端自动驾驶研究的新数据集TaCarla, 该数据集在CARLA仿真环境中采集, 包含超过285万帧数据, 覆盖了多样化的驾驶场景. 该数据集旨在支持规划、感知、预测等多种任务, 并提供了用于评估场景稀有性的数值评分.

Spiky Rank and Its Applications to Rigidity and Circuits

Lianna Hambardzumyan et al.

cs.CC cs.LG

本文引入了spiky rank这一新的矩阵参数, 它通过结合blocky rank的组合结构与线性代数的灵活性, 增强了后者. 该参数被应用于证明矩阵刚性下界和深度-2 ReLU电路的下界.

SegReg: Latent Space Regularization for Improved Medical Image Segmentation

Puru Vaish et al.

eess.IV cs.AI cs.CV

本文提出了一种用于医学图像分割的潜在空间正则化框架 SegReg, 通过在 U-Net 的特征图上施加约束来鼓励结构化的嵌入表示. 该方法在多个器官分割任务上验证了其在领域泛化和持续学习方面的有效性.

Modelling and Simulation of Neuromorphic Datasets for Anomaly Detection in Computer Vision

Mike Middleton et al.

cs.CV cs.AI cs.LG

本文介绍了一个名为ANTShapes的神经形态视觉数据集模拟框架，用于生成用于异常检测的定制化事件相机数据。该工具通过模拟可配置的3D场景和随机物体行为来克服真实动态视觉传感器数据稀缺的问题。

Lap2: Revisiting Laplace DP-SGD for High Dimensions via Majorization Theory

Meisam Mohammady et al.

cs.CR cs.LG

本文提出了一种名为Lap2的新方法, 用于在高维场景下实现基于Laplace机制的差分隐私随机梯度下降(DP-SGD). 该方法通过引入L2范数裁剪和利用majorization理论来构造隐私损失界限, 从而克服了传统Laplace DP-SGD因依赖L1范数裁剪而在高维模型中效用低下的问题. 实验表明, 该方法在强隐私约束下能达到与Gaussian DP-SGD相当甚至更好的性能.

Uncovering Physical Drivers of Dark Matter Halo Structures with Auxiliary-Variable-Guided Generative Models

Arkaprabha Ganguli et al.

stat.ML cs.LG

本文提出了一种利用辅助变量引导的生成模型框架, 旨在解耦暗物质晕热Sunyaev-Zel'dovich (tSZ)图的物理表征. 该方法将晕的质量和浓度作为辅助变量, 通过施加对齐惩罚来引导潜在空间的维度反映这些物理量. 所提出的解耦潜在条件流匹配 (DL-CFM) 模型能够生成清晰的样本, 并恢复了已知的质量-浓度标度关系.

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

Faiz Aladin et al.

cs.RO cs.CV cs.LG

本文提出了一种名为V-MORALS的方法，用于从图像轨迹数据中学习一个latent space，并在此空间中进行reachability analysis。该方法通过构建Morse Graph来估计Regions of Attraction，无需已知系统动力学或完整状态信息。

Few-Shot Continual Learning for 3D Brain MRI with Frozen Foundation Models

Chi-Sheng Chen et al.

eess.IV cs.CV cs.LG

本文提出了一种结合冻结预训练基础模型与任务特定低秩适应(LoRA)模块的方法, 用于解决3D脑部MRI图像在少样本持续学习中的挑战. 该方法在顺序到来的肿瘤分割和脑龄估计任务上, 通过仅训练LoRA适配器和任务头, 实现了零遗忘和极低的参数量, 取得了平衡的性能.

Partition Function Estimation under Bounded f-Divergence

Adam Block, Abhishek Shetty

stat.ML cs.LG

本文研究了在给定 proposal distribution 和未归一化密度比的情况下，估计 partition function 的统计复杂度。它引入了一个称为 integrated coverage profile 的泛函来刻画样本复杂度，并将其与 $f$-divergence 联系起来，统一了重要性采样等经典方法。

Component Centric Placement Using Deep Reinforcement Learning

Kart Leong Lim

cs.ET cs.LG

本文提出了一种基于深度强化学习的组件中心布局方法, 用于自动化PCB元件放置. 该方法通过固定主元件并离散化周围空间来缩减搜索范围, 并结合先验知识设计奖励函数, 在多个真实PCB上取得了接近人工布局的效果.

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

Bin Xu et al.

eess.IV cs.AI cs.CV

本文提出了一种用于全切片图像生存分析的层次化多尺度图学习模型HMKGN. 该模型通过构建具有空间局部约束的层次化动态图来整合多尺度特征, 在多个癌症数据集上取得了优于现有方法的生存预测性能.

VaSST: Variational Inference for Symbolic Regression using Soft Symbolic Trees

Somjit Roy, Pritam Dey, Bani K. Mallick

stat.ME cs.LG cs.SC stat.CO stat.ML

本文提出了一种基于变分推断的符号回归概率框架VaSST, 它通过软符号树对离散的符号表达式空间进行连续松弛, 从而将组合搜索问题转化为梯度优化问题. 该方法能够进行不确定性量化, 并在实验中展现了良好的性能.

Tensor Hypercontraction Error Correction Using Regression

Ishna Satyarth, Eric C. Larson, Devin A. Matthews

physics.chem-ph cs.LG

本文提出了一种使用机器学习回归模型来校正tensor hyper-contraction (THC)近似误差的方法。该方法在MP3能量计算上进行了测试，结果表明非线性回归模型能显著降低THC近似与精确计算之间的误差。

Evidential Neural Radiance Fields

Ruxiao Duan, Alex Wong

cs.CV cs.AI cs.LG

本文提出了一种用于Neural Radiance Fields (NeRF)的不确定性量化方法，能够同时估计偶然不确定性和认知不确定性。该方法在保持渲染质量的同时，通过单次前向传播高效地提供不确定性估计。

CycleBEV: Regularizing View Transformation Networks via View Cycle Consistency for Bird's-Eye-View Semantic Segmentation

Jeongbin Hong et al.

cs.CV cs.AI

本文提出了一种名为CycleBEV的正则化框架, 用于增强鸟瞰图语义分割中的视图变换模型. 该方法引入了一个逆视图变换网络, 通过循环一致性损失在训练时进行正则化, 从而在不增加推理复杂度的前提下提升了多个基准模型的性能.

Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning

Abhishek Dalvi, Vasant Honavar

cs.CV cs.AI cs.LG

本文提出了一种名为HDFLIM的框架, 用于对齐冻结的预训练视觉和语言模型. 该方法通过将单模态嵌入投影到共享的超高维空间, 并利用轻量级的符号操作来构建跨模态表示, 从而在不更新模型参数的情况下实现图像描述生成.

Pseudo Contrastive Learning for Diagram Comprehension in Multimodal Models

Hiroshi Sasaki

cs.CV cs.AI

本文提出了一种新的训练范式来增强视觉语言模型对图表（如流程图）的理解能力. 该方法通过一个图表渲染器生成伪对比样本, 在不修改原始数据的情况下突出图表的结构差异, 从而提升模型对细粒度结构变化的敏感性. 在流程图基准数据集上的实验表明, 该方法在图文匹配和视觉问答任务上优于标准的CLIP训练方法.

KEEP: A KV-Cache-Centric Memory Management System for Efficient Embodied Planning

Zebin Yang et al.

cs.RO cs.AI cs.SE

本文提出了一种名为KEEP的KV-cache-centric内存管理系统，旨在提升具身规划任务中LLM的效率。该系统通过减少KV缓存的重计算和优化内存加载，在保持精度的同时显著降低了推理延迟。

Moment Matters: Mean and Variance Causal Graph Discovery from Heteroscedastic Observational Data

Yoichi Chikahara

stat.ML cs.LG

本文提出了一种贝叶斯框架, 用于从异方差观测数据中推断独立的均值因果图和方差因果图. 该方法通过变分推断学习两个图的后验分布, 并利用曲率感知优化等技术提升效率, 在合成与真实数据上验证了其有效性.

Fairness under Graph Uncertainty: Achieving Interventional Fairness with Partially Known Causal Graphs over Clusters of Variables

Yoichi Chikahara

stat.ML cs.LG

本文提出了一种在因果图信息不完全已知的情况下实现干预公平性的学习框架. 该方法利用变量簇级别的因果图, 通过识别调整簇集来训练预测模型, 以减少不同干预分布之间的差异.

ReDON: Recurrent Diffractive Optical Neural Processor with Reconfigurable Self-Modulated Nonlinearity

Ziang Yin et al.

physics.optics cs.AI cs.ET

本文提出了一种名为 ReDON 的新型衍射光学神经网络处理器, 它通过可重构的、循环的自调制非线性机制, 克服了传统衍射光学神经网络在非线性响应和可重编程性方面的限制. 该架构在图像识别和分割任务上相比先前方法取得了显著的性能提升.

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Shibo Hong et al.

cs.CV cs.AI

本文提出了一个名为DLEBench的新基准, 专门用于评估基于指令的图像编辑模型(IIEMs)在编辑小尺度物体方面的能力. 该基准包含一个具有挑战性的测试集和一套旨在减少主观性的评估协议, 实验揭示了现有模型在此任务上的显著性能差距.

Multivariate Spatio-Temporal Neural Hawkes Processes

Christopher Chukwuemeka, Hojun You, Mikyoung Jun

stat.ML cs.LG math.ST stat.AP stat.ME

本文提出了一种多变量时空神经Hawkes过程, 用于建模具有时空动态的复杂多变量事件数据. 该方法通过将空间信息整合到潜在状态演化中, 扩展了连续时间神经Hawkes过程, 并在模拟和恐怖主义数据应用中展示了其捕获时空交互的能力.

AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech

Jielin Qiu et al.

cs.SD cs.AI

本文提出了AudioCapBench, 一个用于评估大型多模态模型音频描述能力的基准测试。该基准覆盖环境声音、音乐和语音三个领域, 并采用基于参考的指标和LLM-as-Judge框架对13个模型进行了评估。

3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection

Haowen Zhu, Ning Yin, Xiaogen Zhou

cs.CV cs.AI

本文提出了一个用于3D MRI多器官异常检测的医学模态感知预训练框架MedMAP. 该方法通过模态感知的视觉-语言对齐预训练和下游任务微调, 在构建的数据集MedMoM-MRI3D上取得了优于现有视觉语言模型的效果.

ProtoDCS: Towards Robust and Efficient Open-Set Test-Time Adaptation for Vision-Language Models

Wei Luo et al.

cs.CV cs.AI

本文提出了一种用于视觉语言模型(VLMs)的鲁棒且高效的开集测试时适应(OSTTA)框架ProtoDCS. 它通过一个基于概率验证的双重检查分离机制来区分协变量偏移的分布内(csID)和分布外(csOOD)数据, 并采用基于证据的原型级更新策略进行高效适应.

Active Learning for Planet Habitability Classification under Extreme Class Imbalance

R. I. El-Kholy, Z. M. Hayman

astro-ph.EP astro-ph.IM cs.LG

本文探讨了在系外行星宜居性分类中应用基于池的主动学习（active learning）方法，以应对极端类别不平衡和观测资源有限的挑战。研究通过集成多个主动学习模型的预测，为后续观测目标提供了不确定性感知的优先级排序。

Blockchain-Enabled Routing for Zero-Trust Low-Altitude Intelligent Networks

Ziye Jia et al.

cs.NI cs.AI

本文提出了一种结合区块链与零信任架构的路由方案, 用于提升低空智能网络(LAINs)的安全性与性能. 通过将路由问题建模为去中心化部分可观测马尔可夫决策过程, 并设计基于多智能体双深度Q网络的路由算法进行求解, 仿真结果表明该方案在端到端延迟和传输成功率上优于基准方法.

General Bayesian Policy Learning

Masahiro Kato

stat.ML cs.LG econ.EM math.ST stat.ME

本文提出了一种用于策略学习的General Bayes框架, 将决策问题(如治疗选择或投资组合选择)表述为基于损失的贝叶斯更新问题. 通过引入一个平方损失代理(squared-loss surrogate)将经验福利最大化重写为带二次正则化的缩放平方误差最小化, 从而得到一个允许高斯伪似然解释的广义后验.

Any Model, Any Place, Any Time: Get Remote Sensing Foundation Model Embeddings On Demand

Dingqi Ye et al.

cs.CV cs.LG

本文提出了一个名为rs-embed的Python库，旨在解决遥感基础模型在格式、平台和数据规范上的异构性问题。该库提供了一个统一的、以感兴趣区域为中心的接口，使用户能够便捷地获取不同模型在不同时空条件下的嵌入表示。

The Compulsory Imaginary: AGI and Corporate Authority

Emilio Barkett

cs.HC cs.AI

本文运用社会技术想象(sociotechnical imaginaries)框架, 分析了OpenAI和Anthropic两家公司在AGI论述中使用的修辞策略. 研究发现, 尽管存在执行差异, 但两家公司采用了结构一致的修辞操作来构建其技术权威.

Interpretable Multimodal Gesture Recognition for Drone and Mobile Robot Teleoperation via Log-Likelihood Ratio Fusion

Seungyeol Baek et al.

cs.RO cs.AI

本文提出了一种用于无人机和移动机器人遥操作的多模态手势识别框架, 融合了来自Apple Watch的惯性数据(加速度计, 陀螺仪, 方向)和来自定制手套的电容传感信号. 该框架采用基于对数似然比(LLR)的后期融合策略, 在提高识别性能的同时, 通过量化模态特定贡献提供了可解释性. 实验表明, 该框架在保持与先进视觉基线相当性能的同时, 显著降低了计算成本, 模型大小和训练时间.

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Hao Wu et al.

cs.CV cs.CL

本文提出了一种名为HiDrop的框架, 用于减少Multimodal Large Language Models (MLLMs)中视觉token的二次计算开销. 该方法通过Late Injection和Concave Pyramid Pruning with Early Exit等创新机制, 在压缩约90%视觉token的同时保持了模型性能.

Solving No-wait Scheduling for Time-Sensitive Networks with Daisy-Chain Topology

Qian Li et al.

cs.NI cs.DS

本文针对时间敏感网络(TSN)中一种常见的菊花链拓扑结构, 研究了无等待调度的计算问题. 作者将调度问题转化为区间图上的一种带约束的图着色问题, 并证明了该问题在多项式时间内可解, 从而设计出了一个高效的优化算法.

A Boundary Integral-based Neural Operator for Mesh Deformation

Zhengyu Wu, Jun Liu, Wei Wang

math.NA cs.CE cs.LG

本文提出了一种基于边界积分和神经算子的网格变形方法. 该方法通过Dirichlet型Green张量建立边界积分表示, 并设计了BINO模型来学习Green牵引核, 实现了计算效率与网格质量的平衡.

SAGE-LLM: Towards Safe and Generalizable LLM Controller with Fuzzy-CBF Verification and Graph-Structured Knowledge Retrieval for UAV Decision

Wenzhe Zhao et al.

cs.RO cs.AI

本文提出了一种基于LLM的免训练双层决策架构SAGE-LLM, 用于无人机动态决策. 该框架通过模糊控制屏障函数验证机制确保安全性, 并利用基于星型层次图的知识检索增强生成来提升场景适应能力.

SLA-Aware Distributed LLM Inference Across Device-RAN-Cloud

Hariz Yet et al.

cs.NI cs.AI

本文在5G SA AI-RAN测试平台上，通过固定基线策略测量了LLM推理在设备、RAN边缘和云端的性能。研究发现，设备端推理无法满足亚秒级延迟要求，而RAN边缘的可行性主要取决于模型变体选择，云端则在1.0秒内能可靠完成所有请求。在饱和下行流量下，MIG隔离技术能保障基站基带处理的时序健康。

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

Hao Wu et al.

cs.CV cs.CL

本文提出了一个统一的Token剪枝框架UTPTrack, 用于提升基于Transformer的视觉跟踪器的效率. 该框架首次联合压缩了搜索区域, 动态模板和静态模板, 在多个基准测试上取得了精度与效率的良好平衡.

Predictive Hotspot Mapping for Data-driven Crime Prediction

Karthik Sriram, Ankur Sinha, Suvashis Choudhary

stat.AP cs.LG

本文提出了一种基于时空核密度估计的非参数模型, 用于犯罪预测. 该方法整合了历史数据和专家知识, 并在与德里警方的合作中进行了实际部署测试, 以优化巡逻车辆调度.

Operationalizing Longitudinal Causal Discovery Under Real-World Workflow Constraints

Tadahisa Okuda et al.

stat.ME cs.AI cs.LG

本文提出了一种在现实世界工作流约束下进行纵向因果发现的方法框架. 该方法通过整合工作流衍生的结构掩码和时间索引来约束有向无环图空间, 以减少结构模糊性. 在一个大规模健康筛查队列数据上的应用表明, 该方法能产生时间一致且可解释的因果效应估计.

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

Tianci Tang et al.

cs.CV cs.AI

本文提出了一种名为Sea²的主动感知范式, 用于无监督跨域视觉适应. 该方法不调整感知模型本身, 而是通过一个由视觉语言模型(VLM)转化而来的智能姿态控制智能体(agent)来调整其部署方式, 利用标量感知反馈引导智能体寻找信息丰富的视角, 从而提升下游视觉任务在室内新场景中的性能.

ReasonX: Declarative Reasoning on Explanations

Laura State, Salvatore Ruggieri, Franco Turini

cs.CY cs.LG

本文提出了一个名为ReasonX的声明式解释工具, 它基于线性约束理论上的封闭代数运算. 该工具旨在为决策树模型提供可交互的解释, 并允许用户以线性约束的形式融入背景知识.

Enhancing Continual Learning for Software Vulnerability Prediction: Addressing Catastrophic Forgetting via Hybrid-Confidence-Aware Selective Replay for Temporal LLM Fine-Tuning

Xuhui Dou, Hayretdin Bahsi, Alejandro Guerra-Manzanares

cs.CR cs.AI cs.LG

本文提出了一种用于软件漏洞预测的混合置信度感知选择性回放方法, 以缓解大型语言模型在时序微调中的灾难性遗忘问题. 该方法在基于CVE的双月时序数据集上取得了优于基准的性能与效率平衡.

MI$^2$DAS: A Multi-Layer Intrusion Detection Framework with Incremental Learning for Securing Industrial IoT Networks

Wei Lian, Alejandro Guerra-Manzanares

cs.CR cs.AI cs.LG

本文提出了一个用于工业物联网安全的多层入侵检测框架MI$^2$DAS, 它结合了异常检测, open-set recognition和增量学习来应对新型网络攻击. 在Edge-IIoTset数据集上的实验表明, 该框架在不同检测层级上均取得了良好的性能.

A distributed semismooth Newton based augmented Lagrangian method for distributed optimization

Qihao Ma et al.

math.OC cs.LG math.NA stat.ML

本文提出了一种基于分布式半光滑Newton法的增广Lagrangian方法, 用于求解网络上的优化问题. 该方法通过分布式加速近端梯度法高效计算Newton方向, 并提供了收敛性保证.

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

Xiaoyu Guo, Arkaitz Zubiaga

cs.CV cs.CL

本文提出了一种基于BERT和CLIP的多模态多任务模型，用于检测AI生成的图像并识别其生成模型。该方法通过跨模态特征融合和伪标签数据增强策略，在相关竞赛中取得了中等水平的性能。

SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

Ibragim Badertdinov et al.

cs.SE cs.CL

本文介绍了一个用于软件工程智能体训练的大规模、语言无关的任务收集与执行环境构建系统. 该系统通过自动化流程从真实代码仓库中提取可执行任务, 并生成可复现的执行环境.

Variants of Merge-Width and Applications

Karolina Drabik et al.

math.CO cs.DM cs.DS

本文研究了merge-width这一统一了treewidth, clique-width, twin-width等图参数的家族, 证明了其几种定义的等价性, 并探讨了其与顶点排序、邻域覆盖等图论性质的联系。

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

Faisal Hawladera et al.

cs.CV cs.LG

本文提出了一种利用V2X通信将部分计算任务卸载到云端的自适应方法, 用于自动驾驶车辆的360度3D感知. 该方法通过动态划分处理层和量化特征来适应网络带宽变化, 在真实世界评估中显著降低了端到端延迟.

Exploring Robust Intrusion Detection: A Benchmark Study of Feature Transferability in IoT Botnet Attack Detection

Alejandro Guerra-Manzanares, Jialin Huang

cs.CR cs.AI cs.LG

本文通过实验评估了三种基于流的特征集在多个IoT网络入侵检测数据集上的可迁移性. 研究发现, 模型在跨域应用时性能显著下降, 特征集和分类算法的选择对可迁移性有重要影响.

Uncovering sustainable personal care ingredient combinations using scientific modelling

Sandip Bhattacharya, Vanessa da Silva, Christina Kohlmann

physics.chem-ph cs.AI stat.AP

本文提出了一种利用预测建模和基于模拟的数字服务来寻找个人护理配方中合成成分的天然替代品的方法. 该方法旨在帮助配方设计师在满足性能和成本要求的前提下, 快速探索环境友好的替代方案.

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Qihua Dong et al.

cs.CV cs.AI cs.CL

本文提出了一个新的 Referring Expression Comprehension (REC) 基准数据集 Ref-Adv, 旨在通过设计包含复杂语言表达和困难干扰物的样本, 来抑制现有模型依赖捷径(shortcuts)进行预测的行为. 实验表明, 尽管当前的多模态大语言模型(MLLMs)在传统基准上表现良好, 但在 Ref-Adv 上性能显著下降, 揭示了它们在视觉推理和基础(grounding)能力上的不足.

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

Pramit Saha et al.

cs.CV cs.AI cs.LG

本文提出了一种用于乳腺超声筛查与诊断的、名为BUSD-Agent的经验引导级联多智能体框架。该框架通过一个两阶段的决策流程，利用记忆库中的历史决策轨迹来指导当前病例的处理，旨在减少不必要的诊断升级和活检转诊。

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu

cs.CV cs.LG

本文提出了一种名为SegMate的高效2.5D医学图像分割框架，旨在降低计算资源消耗。该模型通过整合非对称架构和注意力机制等设计，在多个数据集上实现了与先进模型相当的精度，同时显著减少了计算量和内存占用。

The Geometry of Transfer: Unlocking Medical Vision Manifolds for Training-Free Model Ranking

Jiaqi Tang et al.

cs.CV cs.AI

本文提出了一种基于拓扑的迁移性估计框架, 用于无训练地评估医学基础模型在分割任务上的适用性. 该方法通过量化特征-标签结构的同构性和边界区域的流形可分性, 在基准测试上显著优于现有方法.

Learning to Build: Autonomous Robotic Assembly of Stable Structures Without Predefined Plans

Jingwen Wang et al.

cs.RO cs.LG

本文提出了一种不依赖预定义蓝图的自主机器人装配框架, 通过强化学习策略在动态环境中决策, 并在二维积木搭建任务上验证了其处理噪声的可行性.

Green or Fast? Learning to Balance Cold Starts and Idle Carbon in Serverless Computing

Bowen Sun et al.

cs.DC cs.AI cs.PF

本文提出了一种名为LACE-RL的服务器无服务计算管理框架，旨在动态平衡冷启动延迟和空闲碳排放。该框架使用深度强化学习来调整函数实例的保活时长，同时考虑实时电网碳强度和负载模式。实验表明，与静态策略相比，该方法能显著减少冷启动和碳排放。

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning

Dongxu Zhang et al.

cs.CV cs.AI cs.MM

本文提出了一个名为 PointCoT 的新框架，旨在通过显式的 Chain-of-Thought 推理来增强多模态大语言模型对 3D 点云的理解能力。该方法构建了一个大规模指令调优基准，并通过双流架构整合语义与几何信息，在复杂推理任务上取得了先进性能。

Micro-expression Recognition Based on Dual-branch Feature Extraction and Fusion

Mingjie Zhang et al.

cs.CV cs.AI

本文提出了一种结合并行注意力的双分支微表情特征提取网络. 该方法在CASME II数据集上取得了优于对比方法的识别准确率.

SHINE: Sequential Hierarchical Integration Network for EEG and MEG

Xiran Xu et al.

cs.SD cs.AI

本文提出了一个用于处理EEG和MEG信号的Sequential Hierarchical Integration Network (SHINE), 旨在从MEG信号中重建语音-静默序列. 在竞赛中, 该方法与基线模型集成后取得了较高的F1分数.

Ask don't tell: Reducing sycophancy in large language models

Magda Dubois et al.

cs.HC cs.AI

本文研究了大型语言模型中的"奉承"现象, 即模型倾向于给出迎合用户的回答. 通过实验设计, 作者发现将用户陈述转换为问题形式能有效减少这种倾向.

GPU-Native Approximate Nearest Neighbor Search with IVF-RaBitQ: Fast Index Build and Search

Jifan Shi et al.

cs.DB cs.DS cs.IR

本文提出了一种名为IVF-RaBitQ的GPU原生近似最近邻搜索方法, 它结合了基于聚类的IVF索引与RaBitQ量化技术. 该方法旨在实现快速的索引构建, 高吞吐量的搜索, 高召回率以及低存储开销, 并在多个数据集上展示了优于现有方法的性能.

Inference-time optimization for experiment-grounded protein ensemble generation

Advaith Maddipatla et al.

q-bio.BM cs.LG

本文提出了一种用于蛋白质构象集合生成的推理时优化框架. 该方法通过优化潜在表示而非扰动结构来最大化实验数据的似然, 并结合了来自AlphaFold3和力场的先验进行采样.

Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

Zhicheng Fang et al.

cs.CR cs.AI cs.CL cs.LG

本文介绍了一个名为JAILBREAK FOUNDRY的系统，旨在解决大语言模型越狱攻击评估中的可复现性和标准化问题。该系统通过多智能体工作流将论文转化为可执行模块，并在统一框架内进行评估，从而减少了实现代码量并提高了代码复用率。

Interpretable Debiasing of Vision-Language Models for Social Fairness

Na Min An et al.

cs.CV cs.AI

本文提出了一种可解释的、模型无关的视觉语言模型去偏框架DeBiasLens。该框架通过稀疏自编码器定位模型中对社会属性敏感的神经元，并通过选择性失活这些神经元来缓解偏见，同时保持模型的语义知识。

Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving

Ferran Agullo et al.

cs.DC cs.AI cs.CL cs.LG

本文提出了一种数据驱动的 pipeline, 用于优化分布式 LLM adapter serving 中的 GPU 效率. 该方法通过构建 Digital Twin 和机器学习模型来预测性能, 并利用贪心算法进行 adapter 放置, 以减少服务给定 workload 所需的 GPU 数量.

Unsupervised Baseline Clustering and Incremental Adaptation for IoT Device Traffic Profiling

Sean M. Alderman, John D. Hastings

cs.NI cs.CR cs.LG

本文提出了一种基于流特征的两阶段无监督流程, 用于IoT设备流量画像和增量模型更新. 该方法在静态基线画像中使用DBSCAN聚类, 并在增量适应中评估了BIRCH等流式聚类方法, 揭示了高纯度静态画像与增量聚类灵活性之间的权衡.

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Chenwei Jia et al.

cs.CV cs.AI

本文提出了一种用于大型视觉语言模型量化的新方法, 称为Quant Experts (QE). 该方法通过混合专家(MoE)结构进行token感知的自适应误差补偿, 以处理不同token间重要通道分布的差异, 在多种量化设置下提升了任务精度.

A Novel Hierarchical Multi-Agent System for Payments Using LLMs

Joon Kiat Chua, Donghao Huang, Zhaoxia Wang

cs.MA cs.CL

本文提出了一个用于支付流程的层次化多智能体系统(HMASP), 该系统利用LLM实现端到端的自动化支付工作流. 它采用模块化架构, 通过不同层级的智能体进行协调与任务执行, 实验证明了其可行性.

SongSong: A Time Phonograph for Chinese SongCi Music from Thousand of Years Away

Jiajia Li et al.

cs.SD cs.CL

本文提出了一个名为SongSong的模型, 用于根据输入的宋词文本生成对应的古代风格音乐. 该模型通过预测旋律、分别生成人声和伴奏, 并最终合成音乐. 作者还构建了一个包含29.9小时数据的宋词音乐数据集OpenSongSong用于训练和评估.

The Subjectivity of Monoculture

Nathanael Jo, Nikhil Garg, Manish Raghavan

cs.CY cs.LG

本文探讨了机器学习模型(包括大语言模型)的"monoculture"现象, 指出其评估具有主观性. 作者认为, 对模型间"过度一致"的判断依赖于对独立性基准模型的选择以及所考察的模型和问题集合, 并通过实验验证了这一观点.

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

Yuxuan Zhang et al.

cs.CV cs.AI cs.LG

本文提出了DiffusionHarmonizer，一个在线生成增强框架，用于提升神经重建场景（如NeRF和3D Gaussian Splatting）渲染结果的真实感和时间一致性。该方法通过一个定制化的数据流水线训练一个单步时序条件增强器，能够有效处理外观融合、伪影校正和光照真实性问题。

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Vikash Singh et al.

cs.CV cs.AI cs.CL cs.LO

本文提出了一种用于验证视觉语言模型(VLMs)生成放射学报告逻辑一致性的神经符号验证框架. 该框架将文本发现形式化为命题证据, 并利用SMT求解器和临床知识库来检测诊断主张中的逻辑不一致性.

End-to-end Differentiable Calibration and Reconstruction for Optical Particle Detectors

Omar Alterkait et al.

hep-ex cs.LG physics.ins-det

本文提出了一种端到端可微的光学粒子探测器模拟器, 将模拟, 校准和重建统一在一个可微框架内. 该方法通过基于梯度的优化同时进行校准和重建, 简化了分析流程, 并在精度和速度上与传统方法相当或更优.

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

Zhengren Wang et al.

cs.CV cs.CL

本文提出了一种名为AgenticOCR的动态解析范式, 用于提升多模态检索增强生成(RAG)系统处理视觉文档的效率. 该方法将OCR从静态的全文本处理转变为查询驱动的按需提取系统, 通过分析文档布局并选择性识别感兴趣区域, 从而减少生成器接收的无关上下文.

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

Omar Mohamed et al.

cs.CV cs.AI

本文提出了一种名为TASOT的无监督方法，用于手术视频中的阶段与步骤识别。该方法通过结合视频生成的文本信息，将时序动作分割构建为一个多模态最优传输问题，无需特定领域的大规模预训练。

RAViT: Resolution-Adaptive Vision Transformer

Martial Guidez, Stefan Duffner, Christophe Garcia

cs.CV cs.LG

本文提出了一种名为RAViT的多分支Vision Transformer框架, 用于图像分类. 该框架通过在不同分辨率图像副本上处理并引入early exit机制, 在保持精度的同时显著降低了计算成本.

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Rishabh Kabra et al.

cs.CV cs.AI

本文提出了一种称为Omnivorous Vision Encoder的新框架，旨在解决DINOv2等预训练视觉编码器在不同模态（如RGB、深度图）特征表示不一致的问题。该方法通过结合模态对齐和知识蒸馏的目标，训练出一个能对同一场景的不同输入模态产生一致且强大嵌入的编码器。

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit

cs.CV cs.LG

本文提出了一个用于医学图像分类系统审计的多模态切片发现框架, 旨在自动检测和解释系统性故障. 该框架整合了图像以外的模态信息, 在资源受限的场景下也显示出潜力.

Resilient Strategies for Stochastic Systems: How Much Does It Take to Break a Winning Strategy?

Kush Grover et al.

cs.GT cs.AI cs.LO

本文在随机系统中引入了resilience的概念, 研究在决策可能被扰动翻转的情况下, 如何制定稳健的策略. 作者针对具有reachability和safety目标的Markov决策过程, 提出了多种聚合扰动量的方法, 并将其扩展到stochastic games.

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Yasaman Haghighi, Alexandre Alahi

cs.CV cs.LG

本文提出了一种基于敏感度感知的缓存框架(SenCache)来加速Diffusion Model的推理. 该方法通过分析模型输出对去噪输入的敏感性, 动态地选择缓存时间步, 在多个视频生成模型上取得了优于现有启发式缓存方法的效果.

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert

cs.CV cs.LG

本文提出了一种用于显微图像多尺度分析的多分辨率视觉Transformer架构MuViT. 该模型通过将不同分辨率的图像块嵌入到共享的世界坐标系中, 并扩展rotary positional embeddings, 使注意力机制能够在一个编码器内整合宽视野上下文和高分辨率细节. 在多个显微图像任务上的实验表明, 该方法优于现有的ViT和CNN基线模型.

BLISSNet: Deep Operator Learning for Fast and Accurate Flow Reconstruction from Sparse Sensor Measurements

Maksym Veremchuk, K. Andrea Scott, Zhao Pan

physics.flu-dyn cs.LG

本文提出了一种名为BLISSNet的深度算子学习模型, 用于从稀疏传感器测量中快速准确地重建流体流动. 该模型采用类似DeepONet的架构, 支持在任意大小域上进行零样本推理, 并在首次调用后通过预计算部分网络组件实现高效推断, 其速度甚至可能超过传统的径向基函数或双三次插值方法.

A Variational Estimator for $L_p$ Calibration Errors

Eugène Berta et al.

stat.ML cs.LG

本文提出了一种用于估计$L_p$校准误差的变分估计器。该方法扩展了现有的变分框架，能够处理由$L_p$散度诱导的校准误差，并避免了传统非变分方法可能导致的过高估计问题。

SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems

Jialiang Fan et al.

cs.RO cs.AI

本文提出了一种名为SafeGen-LLM的方法，旨在提升机器人任务规划中的安全性泛化能力。该方法通过两阶段训练框架，在包含安全约束的多领域基准上取得了优于现有基准模型的效果。

FaultXformer: A Transformer-Encoder Based Fault Classification and Location Identification model in PMU-Integrated Active Electrical Distribution System

Kriti Thakur, Alivelu Manga Parimi, Mayukha Pal

eess.SY cs.AI cs.LG

本文提出了一种基于Transformer编码器的模型FaultXformer, 用于在有源配电系统中进行故障分类和定位. 该模型利用PMU获取的实时电流时序数据, 通过两阶段处理提取特征并完成分类与定位任务, 在IEEE 13节点测试系统上的实验表明其性能优于传统的CNN, RNN和LSTM基线模型.

Active Bipartite Ranking with Smooth Posterior Distributions

James Cheshire, Stephan Clémençon

stat.ML cs.LG

本文研究了在更一般的主动学习设置下的 bipartite ranking 问题, 其中假设后验分布满足 H\"older 光滑性约束. 作者提出了一种名为 smooth-rank 的新算法, 旨在最小化估计排序规则的 ROC 曲线与最优曲线之间的 sup 范数距离, 并证明了该算法是 PAC 的. 文章还提供了算法采样时间的上下界分析, 并展示了支持其性能的数值结果.

Compositional Generalization Requires Linear, Orthogonal Representations in Vision Embedding Models

Arnas Uselis, Andrea Dittadi, Seong Joon Oh

cs.CV cs.LG

本文从几何角度分析了视觉嵌入模型实现组合泛化所需的条件. 研究指出, 表征需要具备线性分解和正交性, 并在多个现代视觉模型中验证了这些几何特性与泛化性能的相关性.

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Shengqu Cai et al.

cs.CV cs.LG

本文提出了一种结合Mode Seeking与Mean Seeking的训练范式, 通过Decoupled Diffusion Transformer统一表示, 将局部保真度与长期连贯性解耦. 该方法利用在长视频上监督训练的全局Flow Matching头来捕捉叙事结构, 同时使用局部Distribution Matching头通过mode-seeking reverse-KL散度将滑动窗口与一个冻结的短视频教师模型对齐, 从而能够生成分钟级的长视频.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others