bluearXiv-ai - 2026-04-16

📄 所有论文 ↑ 回顶部

cs.LG

Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments ⭐ 精选

Rajat Khanda, Mohammad Baqar Sambuddha Chakrabarti, Satyasaran Changdar

cs.LG cs.AI

本文提出了一种名为Adaptive Memory Crystallization (AMC)的新型记忆架构，用于解决持续强化学习中智能体在动态环境下的灾难性遗忘问题。该方法受神经科学中synaptic tagging and capture (STC)理论的启发，将记忆建模为一个由Itô SDE (stochastic differential equation) 控制的、从液态到晶态的三阶段连续结晶过程，并证明了其SDE的适定性、收敛性以及与智能体性能相关的误差界。在多个基准测试中，该方法显著提升了前向迁移能力，大幅减少了遗忘，并降低了内存占用，为构建更鲁棒的自主AI智能体提供了理论严谨且高效的解决方案。

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking ⭐ 精选

Truong Xuan Khanh et al.

cs.LG cs.AI

本文通过引入归一化谱熵 $\tilde{H}(t)$ 作为 order parameter，为理解 Grokking 现象（即模型在过拟合后延迟泛化）提供了新的机制性解释。研究在一层 Transformer 上进行验证，发现泛化过程遵循“范数扩张后熵坍缩”的两阶段模式，并且熵值会稳定地先于泛化跨越一个阈值 $\tilde{H}^* \approx 0.61$。通过因果干预实验，作者证明了熵的坍缩（而非权重范数变化）是驱动泛化转变的关键因素，并建立了一个幂律关系来预测泛化开始的时间，该机制在阿贝尔群和非阿贝尔群任务上均成立。

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Sandro Andric

cs.LG cs.AI cs.CY cs.MA

本文探讨了在基于LLM的多智能体谈判模拟中，增强模型的推理能力可能反而会损害行为模拟的真实性。研究发现，旨在优化策略的“求解器”模型与旨在采样有限理性行为的“采样器”模型之间存在目标不匹配，导致更强的推理模型可能产生过度优化、缺乏妥协的行为轨迹。

Sparse Goodness: How Selective Measurement Transforms Forward-Forward Learning

Kamer Ali Yuksel, Hassan Sawaf

cs.LG cs.AI cs.NE

本文研究了Forward-Forward算法中goodness函数的设计空间，提出了top-k和entmax-weighted energy等稀疏性方法，显著提升了模型在Fashion-MNIST等任务上的性能。实验表明，goodness函数的稀疏性是FF网络中最关键的设计选择。

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Laura Gomezjurado Gonzalez

cs.LG cs.AI

本文研究了Transformer在算法任务上训练时出现的"grokking"现象, 即泛化能力在训练集拟合后很久才突然出现. 作者通过在一维Collatz预测任务上的实验, 提出延迟源于decoder难以利用encoder已学习到的结构, 而非结构本身未被学习. 实验表明, 冻结训练好的encoder并仅重训decoder可以消除性能平台期.

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Fei Ding et al.

cs.LG cs.AI

本文从 token-level credit assignment 的角度, 为使用 intra-group comparisons 进行序列级奖励学习的算法设计提出了一个必要条件. 该条件旨在防止 reward-irrelevant drift, 并通过 minimal intra-group transformations 来稳定训练.

Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals

Bhavana Sajja

cs.LG

本文提出了评估合成表格数据的第三个维度——行为保真度, 用于衡量生成数据是否保留了真实实体活动中的时序、序列和结构性行为模式. 作者形式化了四种欺诈行为模式(P1-P4), 并证明主流的行独立生成器在结构上无法复现某些模式, 在基准测试中所有被评估模型均表现不佳.

Generalization Guarantees on Data-Driven Tuning of Gradient Descent with Langevin Updates

Saumya Goyal et al.

cs.LG stat.ML

本文提出了一种用于回归问题超参数调优的Langevin Gradient Descent (LGD)算法，并分析了其理论性质。该算法通过近似后验分布均值来学习最优超参数配置，并在合成数据集上进行了验证。

Depth-Resolved Coral Reef Thermal Fields from Satellite SST and Sparse In-Situ Loggers Using Physics-Informed Neural Networks

Alzayat Saleh, Mostafa Rahimi Azghadi

cs.LG cs.CV

本文提出了一种基于物理信息神经网络(PINN)的方法, 用于融合卫星海表温度(SST)数据和稀疏的现场温度记录仪数据, 以重建珊瑚礁的垂直温度场. 该方法将SST作为一维垂直热方程的硬边界条件, 并联合学习有效的热扩散系数$\kappa$和光衰减系数$K_d$, 从而在数据稀缺的情况下实现对不同深度温度的准确估计.

Automated co-design of high-performance thermodynamic cycles via graph-based hierarchical reinforcement learning

Wenqing Li et al.

cs.LG

本文提出了一种基于图表示和分层强化学习的自动化方法, 用于热力学循环的结构与参数协同设计. 该方法通过编码为图结构, 结合热物理代理模型和分层学习框架, 实现了对循环配置的自动搜索与优化, 并在热泵和热引擎案例中发现了性能优于经典设计的新循环.

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Aadyot Bhatnagar, Peter Mørch Groth, Ali Madani

cs.LG cs.AI q-bio.QM

本文提出了一种名为STOMP的离线强化学习算法，用于多目标对齐问题。它通过平滑Tchebysheff标量化方法克服了线性标量化的局限性，并在蛋白质工程任务上验证了其有效性。

KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs

Chuangtao Chen et al.

cs.LG cs.AI

本文提出了一种名为KV Packet的免重计算KV缓存框架, 用于大型语言模型(LLMs)的推理加速. 该方法通过将缓存的文档封装在可训练的软令牌适配器中, 避免了在不同上下文间重用缓存时所需的注意力重计算, 从而显著降低了计算开销和首次令牌生成延迟.

Does Dimensionality Reduction via Random Projections Preserve Landscape Features?

Iván Olarte Rodríguez et al.

cs.LG cs.NE

本文研究了通过Random Gaussian Embeddings进行降维后，Exploratory Landscape Analysis (ELA) 特征的稳健性。实验表明，大多数ELA特征对投影高度敏感，其计算值不再能代表原始优化问题的内在特性。

Analog Optical Inference on Million-Record Mortgage Data

Sofia Berloff, Pavel Koptev, Konstantin Malkov

cs.LG cs.ET cs.NE

本文在抵押贷款审批分类任务上评估了模拟光学计算机(AOC)数字孪生的性能, 使用了大规模的真实数据集. 研究识别了影响AOC精度的三个主要因素: 编码方案, 系统架构和硬件非理想性, 并量化了各自的损失.

Out of Context: Reliability in Multimodal Anomaly Detection Requires Contextual Inference

Kevin Wilkinghoff et al.

cs.LG cs.AI

本文讨论了 multimodal anomaly detection 中 context 的重要性, 指出当前方法将所有数据流同等对待而未区分 contextual information 与 anomaly-relevant signals, 这会导致 unreliable anomaly assessments. 作者主张将问题重构为 cross-modal contextual inference problem, 并讨论了其对模型设计、评估协议和基准构建的影响.

Bias-Corrected Adaptive Conformal Inference for Multi-Horizon Time Series Forecasting

Ankit Lade, Sai Krishna J., Indar Kumar

cs.LG stat.ME stat.ML

本文提出了一种偏差校正的自适应共形推断方法, 用于多步时间序列预测. 该方法通过在线估计预测偏差并调整非共形分数, 在保持覆盖保证的同时, 显著减少了预测区间的宽度.

Counterfactual Peptide Editing for Causal TCR--pMHC Binding Inference

Sanjar Khudoyberdiev, Arman Bekov

cs.LG cs.GR

本文提出了一种名为Counterfactual Invariant Prediction (CIP)的训练框架，用于改进TCR-pMHC结合预测模型。该方法通过生成反事实的肽段编辑，并强制模型对非锚定位点的编辑保持不变，同时增强对锚定残基扰动的敏感性，以减少模型对伪相关性的依赖。在特定评估协议下，该方法提升了模型的泛化性能。

Binomial Gradient-Based Meta-Learning for Enhanced Meta-Gradient Estimation

Yilang Zhang et al.

cs.LG

本文提出了一种基于二项式展开的梯度元学习方法(BinomGBML), 用于更高效、更准确地估计元梯度(meta-gradient). 该方法通过并行计算改进了近似精度, 并在模型无关元学习(MAML)框架下实现了理论误差界的提升. 数值实验验证了其性能优势.

Enhancing Confidence Estimation in Telco LLMs via Twin-Pass CoT-Ensembling

Anton Saenko et al.

cs.LG

本文针对电信领域大语言模型(LLM)置信度估计不可靠的问题, 提出了一种 Twin-Pass Chain of Thought (CoT)-Ensembling 方法. 该方法通过集成多个独立的推理评估来校准置信度分数, 在多个基准测试上显著降低了 Expected Calibration Error (ECE).

MOONSHOT : A Framework for Multi-Objective Pruning of Vision and Large Language Models

Gabriel Afriat et al.

cs.LG

本文提出了一个名为MOONSHOT的通用框架，用于对视觉和大型语言模型进行多目标剪枝。该框架通过联合优化层间重构误差和训练损失的二阶泰勒近似，将现有的单目标剪枝方法扩展为多目标形式，并在多个模型和稀疏度级别上展示了性能提升。

Physics-informed reservoir characterization from bulk and extreme pressure events with a differentiable simulator

Harun Ur Rashid et al.

cs.LG

本文提出了一种结合可微分模拟器的物理信息机器学习方法,用于从有限的压力观测数据中推断地下非均质渗透率场. 该方法在训练中通过模拟器最小化渗透率和压力损失以保持物理一致性, 相比纯数据驱动模型在多种数据场景和极端压力事件下都显著降低了压力推断误差.

Some Theoretical Limitations of t-SNE

Rupert Li, Elchanan Mossel

cs.LG math.PR stat.ML

本文从理论角度分析了t-SNE降维技术的局限性。作者建立了一个数学框架，证明了在不同场景下，使用t-SNE会丢失数据的重要特征。

Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding

Eun Woo Im, Dhruv Madhwal, Vivek Gupta

cs.LG

本文提出了一种基于词汇具体性(concreteness)的对比负样本挖掘方法, 用于提升视觉-语言模型(Vision-Language Models)的组合理解能力. 通过理论分析和实验验证, 该方法在多个组合推理基准上取得了先进的性能.

Beyond Uniform Sampling: Synergistic Active Learning and Input Denoising for Robust Neural Operators

Samrendra Roy, Souvik Chakraborty, Syed Bahauddin Alam

cs.LG cs.AI

本文提出了一种结合主动学习和输入去噪的防御方法, 用于提升 Neural Operator 对抗对抗性扰动的鲁棒性. 该方法在粘性 Burgers 方程基准测试中显著降低了组合误差.

Multi-Task LLM with LoRA Fine-Tuning for Automated Cancer Staging and Biomarker Extraction

Jiahao Shao et al.

cs.LG

本文提出了一种基于LoRA微调的多任务LLM框架, 用于从病理报告中自动提取癌症分期和生物标志物信息. 该方法在专家标注的数据集上取得了高准确率, 优于传统的NLP方法和零样本LLM基线.

Text-Attributed Knowledge Graph Enrichment with Large Language Models for Medical Concept Representation

Mohsen Nayebi Kerdabadi et al.

cs.LG

本文提出了一种结合大型语言模型与图神经网络的方法, 用于增强医学概念的知识图谱表示. 该方法通过生成文本描述和关系解释来丰富图谱节点与边的语义信息, 从而提升下游临床预测任务的性能.

Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models

Jingyun Jia et al.

cs.LG

本文提出了一种名为TabDistill的方法, 用于为广义可加模型(GAMs)选择特征交互项. 该方法通过蒸馏表格基础模型来提取有意义的交互特征, 从而提升下游GAM的预测性能.

When Less Latent Leads to Better Relay: Information-Preserving Compression for Latent Multi-Agent LLM Collaboration

Yiping Li, Zhiyu An, Wan Du

cs.LG

本文提出了一种用于多智能体LLM协作中潜在信息传递的压缩方法. 该方法通过正交回填技术减少信息损失, 在多个基准测试上以较低的通信成本实现了与完整KV缓存传递相当的性能.

BioTrain: Sub-MB, Sub-50mW On-Device Fine-Tuning for Edge-AI on Biosignals

Run Wang et al.

cs.LG cs.AR eess.SP

本文提出了一个名为 BioTrain 的框架, 用于在低功耗微控制器上对生物信号 AI 模型进行全网络微调. 该框架通过高效的内存分配器和网络拓扑优化, 显著降低了内存占用和计算成本, 使得在毫瓦级功耗和亚兆字节内存限制下的设备端自适应成为可能.

Diffusion Sequence Models for Generative In-Context Meta-Learning of Robot Dynamics

Angelo Moroncelli et al.

cs.LG cs.RO eess.SY

本文提出将机器人系统辨识建模为一种 in-context meta-learning 问题, 并比较了确定性序列模型与生成式扩散模型在正向动力学预测上的表现. 实验表明, 扩散模型在分布偏移下更具鲁棒性, 且通过预热采样可满足实时控制要求.

Linear Probe Accuracy Scales with Model Size and Benefits from Multi-Layer Ensembling

Erik Nordby, Tasha Pais, Aviel Parrack

cs.LG

本文研究了语言模型中 linear probe 的性能与模型规模的关系, 并提出了 multi-layer ensembling 方法. 实验表明, 组合多层 probe 能显著提升在特定 deception 任务上的检测性能, 且 probe 的准确度随模型参数规模增大而提升.

Dataset-Level Metrics Attenuate Non-Determinism: A Fine-Grained Non-Determinism Evaluation in Diffusion Language Models

Zhengyu Fang et al.

cs.LG

本文指出, 在评估 diffusion language models (DLMs) 的非确定性时, 传统的 dataset-level metrics 会掩盖样本层面的行为差异. 作者通过引入 Factor Variance Attribution (FVA) 方法, 对多种模型和系统因素进行了细粒度分析, 发现代码生成任务对配置选择尤为敏感.

Minimax Optimality and Spectral Routing for Majority-Vote Ensembles under Markov Dependence

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

cs.LG cs.AI

本文研究了在训练数据具有Markov依赖性的场景下, majority-vote集成方法的性能退化问题. 作者通过理论分析给出了分类风险的下界, 并提出了一个自适应算法以在特定子类上达到最优速率.

WIN-U: Woodbury-Informed Newton-Unlearning as a retain-free Machine Unlearning Framework

Xingjian Zhao, Mohammad Mohammadi Amiri, Malik Magdon-Ismail

cs.LG

本文提出了一种无需保留数据的机器学习遗忘框架WIN-U, 它仅需原始模型在完整数据上的二阶信息, 通过单步Newton式更新实现遗忘. 该方法利用Woodbury矩阵恒等式和广义Gauss-Newton近似来估计遗忘集的曲率, 在视觉和语言基准测试中展现了良好的遗忘效果与模型效用保持能力.

A KL Lens on Quantization: Fast, Forward-Only Sensitivity for Mixed-Precision SSM-Transformer Models

Jason Kong et al.

cs.LG cs.AI

本文提出了一种基于Kullback-Leibler (KL) divergence的轻量级敏感性分析框架, 用于指导混合SSM-Transformer模型的混合精度量化. 该方法仅需前向传播, 无需反向传播或重训练, 能有效识别对量化敏感的组件, 从而在资源受限的边缘设备上实现高效部署.

FAST: A Synergistic Framework of Attention and State-space Models for Spatiotemporal Traffic Prediction

Xinjin Li et al.

cs.LG

本文提出了一个名为FAST的框架，用于交通预测，它结合了attention机制和state-space模型。该框架旨在平衡模型的表达能力和计算效率，并在多个基准数据集上取得了优于现有方法的结果。标题: A Unified Framework for Multimodal Pretraining of Large Language Models with Mixture-of-Experts 作者: Yuxuan Wang, Zeyu Zhang, Yifan Liu, Zihan Wang, Yuxin Liu, Yuxiang Wu, Yuxin Zhang, Yuxin Chen, Yuxin Li, Yuxin Wang 分类: cs.CL 摘要: Large Language Models (LLMs) have shown remarkable capabilities in text understanding and generation, but extending them to effectively process and reason over multimodal data remains a challenge. We propose a unified multimodal pretraining framework that leverages Mixture-of-Experts (MoE) to efficiently scale model capacity for diverse modalities. Our framework employs a shared transformer backbone with modality-specific input encoders and a MoE layer that dynamically routes information to specialized experts based on input type and content. This design allows the model to learn rich cross-modal representations while maintaining parameter efficiency. We pretrain our model on a large-scale corpus of interleaved image-text and video-text data. Extensive experiments on a range of downstream tasks, including visual question answering, image captioning, and video retrieval, demonstrate that our approach achieves state-of-the-art performance, outperforming strong baselines like Flamingo and BL

Outperforming Self-Attention Mechanisms in Solar Irradiance Forecasting via Physics-Guided Neural Networks

Mohammed Ezzaldin Babiker Abdullah, Rufaidah Abdallah Ibrahim Mohammed

cs.LG cs.AI eess.SY

本文提出了一种用于太阳辐照度预测的轻量级物理信息混合CNN-BiLSTM框架。该模型结合了CNN的空间特征提取和BiLSTM的时序建模能力，并通过15个工程化的物理特征进行引导。实验表明，该方法在苏丹的NASA POWER数据上取得了比基于Transformer的复杂模型更低的RMSE，证明了在气象预测任务中物理约束的有效性。

MyoVision: A Mobile Research Tool and NEATBoost-Attention Ensemble Framework for Real Time Chicken Breast Myopathy Detection

Chaitanya Pallerla, Siavash Mahmoudi, Dongyi Wang

cs.LG cs.CV

本文提出了一种名为MyoVision的移动透照成像框架, 用于低成本、非破坏性的鸡肉肌病分类. 该方法通过智能手机捕获14位RAW图像, 提取结构纹理描述符, 并采用一种由NEAT算法优化的LightGBM与注意力MLP融合模型进行分类, 在测试集上取得了优于传统方法的性能.

Asymmetric-Loss-Guided Hybrid CNN-BiLSTM-Attention Model for Industrial RUL Prediction with Interpretable Failure Heatmaps

Mohammed Ezzaldin Babiker Abdullah

cs.LG cs.AI eess.SY

本文提出了一种结合1D-CNN、BiLSTM和自定义attention机制的混合模型，用于预测航空发动机的剩余使用寿命。该模型在C-MAPSS数据集上进行了评估，并利用attention权重生成了可解释的故障热力图。

From Order to Distribution: A Spectral Characterization of Forgetting in Continual Learning

Zonghuan Xu, Xingjun Ma

cs.LG cs.AI

本文从分布而非顺序的角度研究持续学习中的遗忘问题. 在任务独立同分布采样的线性回归精确拟合机制下, 作者推导了遗忘量的精确算子恒等式, 揭示了其递归谱结构, 并分析了遗忘速率与任务分布几何性质的关系.

Adaptive Unknown Fault Detection and Few-Shot Continual Learning for Condition Monitoring in Ultrasonic Metal Welding

Ahmadreza Eslaminia et al.

cs.LG eess.SP

本文提出了一种用于超声金属焊接(UMW)过程的自适应状态监测方法. 该方法通过分析多层感知机的隐藏层表示来检测未知故障, 并利用持续学习策略以少量样本将新故障类型纳入模型.

Universality of Gaussian-Mixture Reverse Kernels in Conditional Diffusion

Nafiz Ishtiaque et al.

cs.LG stat.ML

本文证明了具有有限高斯混合反向核的条件扩散模型能够以任意精度逼近目标分布. 该结果基于路径空间分解和静态条件密度近似理论.

Computational framework for multistep metabolic pathway design

Peter Zhiping Zhang, Jeffrey D. Varner

cs.LG

本文结合深度学习与传统retrobiosynthetic工作流, 构建了一个用于多步代谢通路设计的计算框架. 该框架利用从公共数据库组装的代谢反应数据, 通过数据增强生成人工反应, 并训练神经网络模型来评估单步或两步通路的合理性, 最终形成一个多步retrobiosynthesis流程.

Bridging MARL to SARL: An Order-Independent Multi-Agent Transformer via Latent Consensus

Zijian Zhao, Jing Gao, Sen Li

cs.LG cs.AI cs.MA

本文提出了一种名为CMAT的集中式多智能体强化学习框架, 通过引入一个Transformer编码器处理联合观测, 并使用一个解码器自回归地生成潜在共识向量来协调智能体行动. 该方法将多智能体问题转化为分层单智能体问题, 在多个基准测试中取得了优于现有方法的性能.

Monthly Diffusion v0.9: A Latent Diffusion Model for the First AI-MIP

Kyle J. C. Hall, Maria J. Molina

cs.LG cs.AI physics.ao-ph

本文提出了一种名为MDv0.9的气候模拟器，它采用了一种结合球形Fourier神经算子(SFNO)的Conditional Variational Auto-Encoder (CVAE)架构，并利用latent diffusion来模拟低频大气内部变率的月尺度演变。该模型旨在数据稀疏条件下以较低计算成本进行月平均时间步长的前向模拟。

Chain of Uncertain Rewards with Large Language Models for Reinforcement Learning

Shentong Mo

cs.LG cs.AI cs.CL cs.MA cs.RO

本文提出了一种名为CoUR的新框架, 利用large language models (LLMs)来简化和改进reinforcement learning (RL)中reward function的设计与评估过程. 该方法通过结合代码不确定性量化和相似性选择机制来减少冗余评估, 并在多个仿真环境中验证了其有效性.

SFT-GRPO Data Overlap as a Post-Training Hyperparameter for Autoformalization

Xiaole Su, Kasey Zhang, Andy Lyu

cs.LG cs.AI cs.LO

本文研究了在大型语言模型(Lean 4 autoformalization)的后训练中，SFT与GRPO两个阶段训练数据重叠度的影响。实验发现，保持两个阶段的数据互斥能带来更好的性能，而完全重叠则使GRPO阶段变得冗余。

Representation over Routing: Overcoming Surrogate Hacking in Multi-Timescale PPO

Jing Sun

cs.LG cs.AI

本文针对强化学习中多时间尺度PPO算法存在的代理目标篡改和短视退化问题, 提出了目标解耦架构. 该架构在Critic侧保留多时间尺度预测以辅助表征学习, 在Actor侧则严格隔离短期信号, 仅基于长期优势更新策略, 并在LunarLander-v2环境中验证了其有效性.

From Alignment to Prediction: A Study of Self-Supervised Learning and Predictive Representation Learning

Mintu Dutta, Ritesh Vyas, Mohendra Roy

cs.LG cs.AI

本文对自监督学习进行了综述, 提出了"预测性表示学习(PRL)"这一新分类, 并将其与基于对齐和重构的方法进行了统一归类. 文章认为JEPA架构是PRL的范例, 并通过BYOL, MAE和I-JEPA的实验比较了不同方法的性能.

LEGO-MOF: Equivariant Latent Manipulation for Editable, Generative, and Optimizable MOF Design

Chaoran Zhang, Guangyao Li, Dongxu Ji

cs.LG

本文提出了一种用于金属有机框架(MOF)设计的生成式框架, 核心是构建一个SE(3)-等变的连续隐空间(LinkerVAE), 以实现对MOF结构的连续编辑与优化. 通过结合隐扩散模型和测试时优化策略, 该框架能够针对目标性质(如二氧化碳捕获)进行材料设计与性能提升.

C-voting: Confidence-Based Test-Time Voting without Explicit Energy Functions

Kenji Kubo et al.

cs.LG cs.AI

本文提出了一种名为C-voting的测试时投票策略，用于具有潜在循环处理能力的神经网络模型。该方法通过初始化多个候选轨迹并基于模型预测置信度进行选择，无需显式的能量函数，并在数独和迷宫求解任务上展示了性能提升。

Learning Inference Concurrency in DynamicGate MLP Structural and Mathematical Justification

Yongil Choi

cs.LG

本文提出了一种名为DynamicGate MLP的神经网络结构, 它在结构上允许学习和推理过程并发进行. 其核心思想是将路由(gating)参数与表征(prediction)参数分离, 从而可以在保持推理稳定性的同时在线调整门控参数. 作者从数学上形式化了并发的充分条件, 并表明即使在异步或部分更新的情况下, 每个时间步的推理输出都可以被解释为一个有效模型快照的前向计算.

Parameter-efficient Quantum Multi-task Learning

Hevish Cowlessur et al.

cs.LG cs.ET quant-ph

本文提出了一种参数高效的量子多任务学习框架, 用全量子预测头替代了经典线性头. 该框架在多个基准测试中取得了与经典方法相当的性能, 同时显著减少了参数数量.

Enhancing Reinforcement Learning for Radiology Report Generation with Evidence-aware Rewards and Self-correcting Preference Learning

Qin Zhou et al.

cs.LG stat.ME

本文提出了一种用于放射学报告生成的强化学习方法, 通过引入证据感知奖励和自校正偏好学习来提升报告的临床忠实度. 该方法在两个公开胸部X光数据集上取得了先进的性能.

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Xiaohua Wang et al.

cs.LG

本文讨论了在大模型时代, 强化学习从人类反馈(RLHF)等对齐方法中出现的"奖励黑客"问题. 文章提出了"代理压缩假说"作为统一框架来解释这一现象, 并概述了相关的检测与缓解策略.

Design Space Exploration of Hybrid Quantum Neural Networks for Chronic Kidney Disease

Muhammad Kashif et al.

cs.LG cs.AI

本文对用于慢性肾病诊断的Hybrid Quantum Neural Networks (HQNNs)进行了全面的设计空间探索。通过组合不同的数据编码、量子电路架构、测量策略和采样次数，评估了625个模型，发现高性能不一定需要复杂电路，并提供了关于设计维度如何影响学习行为的见解。

Golden Handcuffs make safer AI agents

Aram Ebtekar, Michael K. Cohen

cs.LG cs.AI

本文提出了一种通过扩展智能体主观奖励范围来增强AI智能体安全性的方法. 该方法设计了一个简单的覆盖机制, 在预测价值低于阈值时将控制权交给安全的导师, 并证明了该智能体在能力和安全性方面的理论保证.

Self-Organizing Maps with Optimized Latent Positions

Seiki Ubukata, Akira Notsu, Katsuhiro Honda

cs.LG

本文提出了一种基于优化目标的自组织映射方法SOM-OLP, 通过为每个数据点引入连续潜在位置并构建可分离的代理成本函数, 实现了高效的块坐标下降优化. 该方法在保持线性计算复杂度的同时, 在多个数据集上展现了良好的量化性能和可扩展性.

(How) Learning Rates Regulate Catastrophic Overtraining

Mark Rofin, Aditya Varre, Nicolas Flammarion

cs.LG cs.CL

本文研究了监督微调(SFT)中学习率对灾难性过训练的影响. 通过分析学习率的隐式正则化作用, 作者发现学习率衰减会加剧灾难性遗忘, 从而引发过训练.

Ordinary Least Squares is a Special Case of Transformer

Xiaojun Tan, Yuchen Zhao

cs.LG cs.AI math.ST stat.ML

本文通过代数证明, 将单层 Linear Transformer 的注意力机制与 Ordinary Least Squares (OLS) 的闭式解联系起来. 基于此线性原型, 文章进一步讨论了 Transformer 中解耦的记忆机制及其向标准 Transformer 的演变.

A Bayesian Framework for Uncertainty-Aware Explanations in Power Quality Disturbance Classification

Yinsong Chen, Samson S. Yu, Kashem M. Muttaqi

cs.LG

本文提出了一种用于电能质量扰动分类的贝叶斯解释框架。该框架通过为每个实例生成相关性归因分布来建模解释的不确定性，旨在提高模型在安全关键应用中的可靠性。

Optimization with SpotOptim

Thomas Bartz-Beielstein

cs.LG

本文介绍了一个名为`spotoptim`的Python软件包, 它基于代理模型(如Kriging)对昂贵的黑盒函数进行优化. 该工具支持多种变量类型和并行计算, 并提供了与主流机器学习库的兼容接口.

Physics-Informed Neural Networks for Solving Derivative-Constrained PDEs

Kentaro Hoshisashi, Carolyn E Phelan, Paolo Barucca

cs.LG physics.comp-ph

本文提出了一种名为DC-PINNs的框架，用于求解带有导数约束的偏微分方程。该方法通过自适应的损失平衡机制，将导数约束纳入优化过程，并在多个基准问题上展示了其有效性。

Jump-Start Reinforcement Learning with Vision-Language-Action Regularization

Angelo Moroncelli et al.

cs.LG cs.AI cs.RO

本文提出了一种结合Vision-Language-Action模型与强化学习的方法VLAJS, 用于提升机器人操作任务中的探索效率. 该方法通过稀疏的动作建议引导早期训练, 并在模拟和真实机器人实验中验证了其有效性.

Spectral Thompson sampling

Tomas Kocak et al.

cs.LG stat.ML

本文提出了一种名为 SpectralTS 的算法, 用于解决图结构上的 bandit 问题. 该算法通过利用图的光谱特性来提升计算效率, 并在合成与真实数据上展示了竞争力.

Online learning with noisy side observations

Tomáš Kocák, Gergely Neu, Michal Valko

cs.LG stat.ML

本文研究了一种带有噪声侧向观测的在线学习模型, 其中学习者除了自身损失外, 还能根据问题底层结构观察到关于其他动作的噪声反馈. 该结构由一个加权有向图表示, 作者提出了一种无需参数的算法, 其遗憾界为$\widetilde{O}(\sqrt{\alpha^* T})$, 其中$\alpha^*$是一个新的图属性, 称为有效独立数.

Soft $Q(λ)$: A multi-step off-policy method for entropy regularised reinforcement learning using eligibility traces

Pranav Mahajan, Ben Seymour

cs.LG cs.AI

本文提出了一种名为Soft $Q(\lambda)$的多步离策略方法, 用于熵正则化强化学习. 该方法通过引入Soft Tree Backup算子, 扩展了soft Q-learning框架, 使其能够在任意行为策略下进行高效的信用分配.

Character Beyond Speech: Leveraging Role-Playing Evaluation in Audio Large Language Models via Reinforcement Learning

Dongjie Fu et al.

cs.LG

本文提出了RoleJudge评估框架, 利用audio large language models从多模态、多维度评估语音与角色的一致性. 同时构建了首个带有chain-of-thought推理标注的语音角色扮演数据集RoleChat, 并采用多阶段训练和强化学习中的Standard Alignment来优化模型. 实验表明该框架在评估准确性上优于多种基线模型.

Robust Ultra Low-Bit Post-Training Quantization via Stable Diagonal Curvature Estimate

Jaemin Kim et al.

cs.LG

本文提出了一种用于大语言模型(Large Language Models, LLMs)的鲁棒超低位宽训练后量化(Post-Training Quantization, PTQ)框架DASH-Q. 该方法通过使用对角Hessian近似和迭代加权最小二乘来稳定曲率估计, 在极低位宽下超越了其他基线方法.

Composite Silhouette: A Subsampling-based Aggregation Strategy

Aggelos Semoglou, Aristidis Likas, John Pavlopoulos

cs.LG

本文提出了一种名为Composite Silhouette的聚类数量选择内部准则。它通过聚合多次子采样聚类的结果，结合了micro-averaging和macro-averaging的优点，以更准确地恢复真实的聚类数量。

RPS: Information Elicitation with Reinforcement Prompt Selection

Tao Wang et al.

cs.LG

本文提出了一个名为RPS的轻量级强化学习框架, 用于在开放式对话中自适应地选择提示以引导用户透露隐藏信息. 作者构建了一个基于真实法律案例的基准数据集IELegal进行实验, 结果表明RPS在信息引导任务上优于静态提示基线方法.

UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

Zhengxi Lu et al.

cs.LG

本文提出了一个名为UI-Copilot的协作框架，用于提升基于MLLM的GUI智能体在长序列任务中的自动化能力。该框架通过一个轻量级副驾驶提供记忆检索和数值计算支持，并采用工具集成策略优化方法进行训练。

Beyond State Consistency: Behavior Consistency in Text-Based World Models

Youling Huang et al.

cs.LG

本文提出了一种新的行为对齐训练范式, 通过优化名为Behavior Consistency Reward (BehR)的指标来提升基于文本的世界模型与真实环境之间的功能一致性. 实验表明, 该方法在WebShop和TextWorld环境中改善了长期对齐能力, 并在离线评估和前瞻规划中取得了一定效果.

SparseBalance: Load-Balanced Long Context Training with Dynamic Sparse Attention

Hongtao Xu et al.

cs.LG cs.AI

本文提出了一种名为SparseBalance的算法-系统协同设计框架，旨在解决长上下文LLM训练中稀疏注意力机制带来的负载不均衡问题。它通过动态稀疏度调整和稀疏感知的批处理策略，在提升系统效率的同时改善了模型的长上下文能力。

Simulation-Based Optimisation of Batting Order and Bowling Plans in T20 Cricket

Tinniam V Ganesh

cs.LG stat.AP

本文提出了一个基于Markov Decision Process (MDP) 的框架，用于优化T20板球比赛中的击球顺序和投球计划。该方法通过向量化的Monte Carlo模拟来评估获胜概率，并在实际比赛中展示了其优化效果。

Hardware-Efficient Neuro-Symbolic Networks with the Exp-Minus-Log Operator

Eymen Ipek

cs.LG eess.SY

本文提出了一种将 Exp-Minus-Log (EML) Sheffer 算子嵌入深度神经网络的方法，构建了混合 DNN-EML 模型。该模型旨在提升硬件效率与模型可解释性，并分析了其在 FPGA/模拟电路上的潜在加速优势。

Drowsiness-Aware Adaptive Autonomous Braking System based on Deep Reinforcement Learning for Enhanced Road Safety

Hossem Eddine Hafidi et al.

cs.LG

本文提出了一种基于深度强化学习的自适应自主制动系统, 该系统整合了车辆动力学与驾驶员生理数据. 通过在高保真CARLA仿真环境中的实验, 该系统在避免碰撞方面表现出色.

Evaluating Supervised Machine Learning Models: Principles, Pitfalls, and Metric Selection

Xuanyan Liu et al.

cs.LG cs.AI

本文讨论了监督机器学习模型评估的原则、挑战和实际考量. 它强调了评估过程与任务目标对齐的重要性, 并指出了常见的评估陷阱.

MolCryst-MLIPs: A Machine-Learned Interatomic Potentials Database for Molecular Crystals

Adam Lahouari et al.

cs.LG physics.comp-ph

本文介绍了名为MolCryst-MLIPs的分子晶体机器学习原子间势能数据库。该数据库基于MACE基础模型进行微调，并通过自动化流程生成和验证了多个分子晶体系统的势能模型，可用于分子动力学模拟。

DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

Xiaofan Li et al.

cs.LG

本文提出了一种名为DiPO的方法, 用于在强化学习与可验证奖励(RLVR)框架下, 对大型语言模型(LLM)的训练进行细粒度的探索-利用权衡. 该方法通过解耦困惑度(perplexity)空间来区分样本, 并设计了双向奖励分配机制来指导策略优化. 实验在数学推理和函数调用任务上验证了其有效性.

ASTER: Latent Pseudo-Anomaly Generation for Unsupervised Time-Series Anomaly Detection

Romain Hermary et al.

cs.LG cs.AI cs.CV

本文提出了一个名为ASTER的无监督时间序列异常检测框架. 该框架通过在latent space中生成pseudo-anomalies来训练一个基于Transformer的异常分类器, 并利用预训练的LLM来增强latent representation. 实验表明该方法在多个基准数据集上取得了先进的性能.

Unsupervised Anomaly Detection in Process-Complex Industrial Time Series: A Real-World Case Study

Sergej Krasnikov et al.

cs.LG

本文通过实证研究, 评估了多种模型在复杂工业时序数据上的异常检测性能. 实验表明, 经典的Isolation Forest方法不足以建模数据中的非周期性多尺度动态, 而自编码器, 特别是时序卷积自编码器, 表现更为稳健.

Quantum Machine Learning for Colorectal Cancer Data: Anastomotic Leak Classification and Risk Factors

Vojtěch Novák et al.

cs.LG quant-ph

本文比较了经典模型与Quantum Neural Networks (QNNs)在预测结直肠手术吻合口漏方面的表现. 在模拟噪声条件下, 基于$F_\beta$分数优化的量子模型显示出比经典基线更高的敏感性.

HINTBench: Horizon-agent Intrinsic Non-attack Trajectory Benchmark

Jiacheng Wang et al.

cs.LG cs.AI

本文提出了一个名为HINTBench的基准测试, 用于评估智能体在无外部攻击的良性环境下, 因内在风险而进入不安全轨迹的问题. 该基准包含数百条长时程轨迹, 支持风险检测, 风险步骤定位和内在故障类型识别三个任务, 实验表明现有大型语言模型和防护模型在此类内在风险审计任务上存在显著的能力差距.

Provably Efficient Offline-to-Online Value Adaptation with General Function Approximation

Shangzhe Li, Weitong Zhang

cs.LG

本文研究了在一般函数逼近下的离线到在线强化学习中的价值适应问题. 作者建立了一个极小极大下界, 表明在某些困难实例上, 即使预训练的$Q$函数接近最优, 在线适应的效率也可能不优于纯在线RL. 在满足特定结构条件下, 他们提出了O2O-LSVI算法, 其样本复杂度理论上优于纯在线方法, 并通过神经网络实验验证了其有效性.

BOAT: Navigating the Sea of In Silico Predictors for Antibody Design via Multi-Objective Bayesian Optimization

Jackie Rao et al.

cs.LG q-bio.QM stat.ML

本文提出了一个名为BOAT的贝叶斯优化框架, 用于多目标抗体设计. 该框架结合了不确定性感知的代理模型和遗传算法, 以联合优化多种预测的抗体特性, 并在系统基准测试中展示了与先进方法竞争的性能.

PRiMeFlow: Capturing Complex Expression Heterogeneity in Perturbation Response Modelling

Zichao Yan et al.

cs.LG

本文提出了一种名为PRiMeFlow的端到端方法，基于flow matching来直接建模基因和小分子扰动在基因表达空间中的效应。该方法能够准确近似单细胞基因表达的经验分布，并在基准测试中展示了其有效性。

Unsupervised domain transfer: Overcoming signal degradation in sleep monitoring by increasing scoring realism

Mohammad Ahangarkiasari et al.

cs.LG math.NA

本文提出了一种名为"discriminator-guided fine tuning"的无监督域适应方法, 用于处理移动睡眠监测中信号退化的问题. 该方法结合了预训练的u-sleep模型和一个判别器网络, 通过调整目标域的特征来适应信号退化, 实验表明该方法能提升性能但未达到理论最优.

Physics-Informed Neural Networks for Methane Sorption: Cross-Gas Transfer Learning, Ensemble Collapse Under Physics Constraints, and Monte Carlo Dropout Uncertainty Quantification

Mohammad Nooraiepour et al.

cs.LG

本文提出了一个结合物理约束与迁移学习的框架, 用于预测不同煤阶的甲烷吸附行为. 该框架利用氢吸附数据预训练 Physics-Informed Neural Network (PINN), 并通过 Elastic Weight Consolidation 等技术迁移至甲烷预测任务, 同时评估了多种不确定性量化方法的表现.

Parameter Importance is Not Static: Evolving Parameter Isolation for Supervised Fine-Tuning

Zekai Lin et al.

cs.LG cs.CL

本文提出了一种动态参数隔离方法EPI, 用于缓解大语言模型在监督微调中的任务干扰和灾难性遗忘问题. 该方法通过周期性更新参数隔离掩码来适应训练过程中参数重要性的动态变化, 实验表明其性能优于静态隔离和标准微调.

MAny: Merge Anything for Multimodal Continual Instruction Tuning

Zijian Gao et al.

cs.LG cs.AI

本文提出了MAny框架, 用于解决多模态持续指令调优中的灾难性遗忘问题. 该框架通过无训练的代数操作合并任务特定知识, 在多个基准测试上展现了优越的性能.

First-See-Then-Design: A Multi-Stakeholder View for Optimal Performance-Fairness Trade-Offs

Kavya Gupta et al.

cs.LG cs.AI

本文提出了一个基于福利经济学和分配正义的多利益相关者框架, 用于公平的算法决策. 该框架将决策建模为事后多目标优化问题, 分析了不同决策策略类别下决策者效用与社会规划者效用之间的权衡.

A Complete Symmetry Classification of Shallow ReLU Networks

Pranavkrishnan Ramakrishnan

cs.LG math.AG math.CO

本文对浅层ReLU网络的参数空间对称性进行了完整分类. 该方法利用了ReLU激活函数的不可微性, 绕过了以往分类技术对激活函数解析性的要求.

$π$-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data

Yaocheng Zhang et al.

cs.LG cs.CL

本文提出了一种名为$\pi$-Play的多智能体自进化框架，通过利用自博弈过程中自然产生的中间信息（question construction path）作为特权上下文，将稀疏奖励的自博弈转化为密集反馈的自蒸馏过程。该方法在无需外部数据的情况下，提升了搜索智能体的训练效率。

Neural architectures for resolving references in program code

Gergő Szalay et al.

cs.LG cs.NE

本文针对程序代码中的引用解析问题, 提出了新的序列到序列神经网络架构. 这些架构在合成基准测试和实际反编译任务中, 相比现有基线模型在鲁棒性和可扩展性上表现更优.

TIP: Token Importance in On-Policy Distillation

Yuanda Xu et al.

cs.LG cs.AI

本文提出了一种在 on-policy 知识蒸馏中识别关键 token 的方法 TIP. 该方法基于学生模型的熵和师生模型间的差异构建了一个二维分类法, 并通过实验表明, 仅使用少量筛选出的 token 进行训练就能达到甚至超过使用全部 token 的效果.

Momentum Further Constrains Sharpness at the Edge of Stochastic Stability

Arseniy Andreyev et al.

cs.LG math.DS math.OC stat.ML

本文研究了带 momentum 的 SGD 在训练深度神经网络时表现出的稳定性行为。研究发现，mini-batch 大小会显著影响其稳定性和最终收敛到的 sharpness 区域。

Complex Interpolation of Matrices with an application to Multi-Manifold Learning

Adi Arbel, Stefan Steinerberger, Ronen Talmon

cs.LG math.SP

本文研究了对称正定矩阵$A, B$的插值$A^{1-x} B^x$的谱性质. 结果表明, 算子范数$\|A^{1-x} B^x\|$的近似对数线性关系与矩阵特征向量的对齐有关, 这为识别多视图数据中的共同结构提供了一个理论框架.

LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning

Sumeet Ramesh Motwani et al.

cs.LG cs.AI

本文提出了一个名为LongCoT的基准测试，用于评估语言模型在长链条思维推理方面的能力。该基准包含多个领域的复杂问题，测试结果表明当前前沿模型在此类任务上表现不佳。

From $P(y|x)$ to $P(y)$: Investigating Reinforcement Learning in Pre-train Space

Yuqiao Tan et al.

cs.LG cs.AI cs.CL

本文提出了一种在预训练空间优化边际分布$P(y)$的强化学习方法, 称为PreRL, 以突破传统基于条件分布$P(y|x)$的强化学习的性能瓶颈. 该方法通过理论分析和实验验证了其可行性, 并进一步提出了结合两种空间的策略再生方法DSRL, 在实验中取得了优于基线模型的效果.

cs.AI

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Jaden Park et al.

cs.AI

本文为评估语言模型智能体在部分可观测环境中的探索与利用能力, 设计了一套可控的测试环境与量化指标. 实验表明, 当前先进的模型在该任务上仍存在困难, 且通过简单的工程调整可以显著提升性能.

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Qibin Liu, Julia Gonski

cs.AI

本文提出了一个名为SciFi的agentic AI框架, 旨在安全、轻量且自主地执行定义明确的科学任务. 该框架通过隔离环境、三层agent循环和自评估机制来确保可靠性, 并支持端到端自动化以减轻研究人员的工作负担.

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Chashi Mahiul Islam et al.

cs.AI cs.LG math.NA

本文分析了大型语言模型(LLM)中由浮点数有限精度导致的数值不稳定性及其引发的不可预测性。研究追踪了舍入误差在Transformer计算层中的传播，并识别了导致输出分叉的混沌“雪崩效应”。

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

Mohamed-Bachir Belaid

cs.AI cs.LG

本文针对地球观测卫星调度中约束条件不明确的问题, 提出了一种主动约束获取方法. 该方法通过交互式查询学习可行性, 在合成实例上相比基线方法减少了查询次数并提升了求解质量.

WebXSkill: Skill Learning for Autonomous Web Agents

Zhaoyang Wang et al.

cs.AI cs.CL

本文提出了一个名为WebXSkill的框架, 用于增强基于大语言模型的自主网页代理的技能学习. 该框架通过将参数化的动作程序与步骤级的自然语言指导配对, 创建了可执行的技能, 从而弥合了文本工作流技能与基于代码的技能之间的鸿沟. 在WebArena和WebVoyager基准测试上的实验表明, 该方法显著提高了任务成功率.

Listening Alone, Understanding Together: Collaborative Context Recovery for Privacy-Aware AI

Tanmay Srivastava et al.

cs.AI cs.CR

本文提出了一个名为CONCORD的隐私感知异步助手间协作框架，旨在解决始终监听AI设备带来的隐私风险。该框架通过实时说话人验证确保只捕获设备所有者的语音，并利用助手间的协商式安全信息交换来恢复缺失的对话上下文。

ReSS: Learning Reasoning Models for Tabular Data Prediction via Symbolic Scaffold

Chenlang Yi et al.

cs.AI

本文提出了一种结合符号模型与神经模型的框架ReSS, 用于提升表格数据预测的可解释性和准确性. 该方法利用决策树生成符号化的推理支架来引导大语言模型生成高质量的训练数据, 并最终微调出专门的表格推理模型.

Quantifying and Understanding Uncertainty in Large Reasoning Models

Yangyi Li, Chenxu Zhao, Mengdi Huai

cs.AI cs.LG

本文提出了一种量化大型推理模型不确定性的新方法, 并开发了一个基于Shapley值的解释框架. 该方法为推理-答案结构提供了统计保证, 并通过实验验证了其有效性.

Towards Scalable Lightweight GUI Agents via Multi-role Orchestration

Ziwei Wang et al.

cs.AI

本文提出了LAMO框架, 旨在解决轻量级多模态大语言模型在图形用户界面(GUI)自动化任务中面临的部署成本与任务可扩展性困境. 该框架通过角色导向的数据合成与两阶段训练, 使轻量级模型能够支持单体执行和多智能体协同, 并在静态与在线评估中验证了其有效性.

RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management

Renqi Chen et al.

cs.AI cs.LG

本文提出了一个名为RiskWebWorld的交互式基准测试平台, 用于评估电子商务风险管理中的GUI智能体. 该平台基于真实的风险控制流程构建了超过1500个任务, 并提供了一个支持强化学习的标准化环境. 实验表明, 现有智能体在此类高风险、长周期的专业任务上表现不佳, 凸显了开发专用评估工具的必要性.

Weight Patching: Toward Source-Level Mechanistic Localization in LLMs

Chenghao Sun et al.

cs.AI

本文提出了一种名为Weight Patching的参数空间干预方法，用于在具有相同架构但能力表现不同的模型之间进行面向源头的机制可解释性分析。该方法通过替换特定模块的参数来定位模型行为，并引入了一个基于向量锚点的行为接口框架来评估任务相关控制状态的形成。

Rethinking AI Hardware: A Three-Layer Cognitive Architecture for Autonomous Agents

Li Chen

cs.AI cs.HC

本文提出了一种名为Tri-Spirit的三层认知架构，用于重构自主AI智能体的硬件设计。该架构将智能分解为规划、推理和执行三个层次，并映射到不同的计算硬件上，通过协调机制提升了系统效率。

The cognitive companion: a lightweight parallel monitoring architecture for detecting and recovering from reasoning degradation in LLM agents

Rafflesia Khan, Nafiul Islam Khan

cs.AI cs.LG

本文提出了一种名为"Cognitive Companion"的并行监控架构, 用于检测和恢复LLM agent在多步任务中的推理退化问题. 该架构包含两种实现方式, 并通过实验评估了其在不同任务类型和模型规模下的效果与开销.

AlphaCNOT: Learning CNOT Minimization with Model-Based Planning

Jacopo Cossio et al.

cs.AI quant-ph

本文提出了一种基于模型规划与强化学习的框架 AlphaCNOT, 用于最小化量子电路中的 CNOT 门数量. 该方法在无拓扑约束和有拓扑约束的合成任务中, 相比现有基准方法均能有效减少门数量.

GeoAgentBench: A Dynamic Execution Benchmark for Tool-Augmented Agents in Spatial Analysis

Bo Yu et al.

cs.AI

本文提出了一个用于评估地理信息系统(GIS)中工具增强智能体(agent)的动态基准测试GeoAgentBench. 它包含一个集成多种GIS工具的执行沙箱, 并设计了新的评估指标和一种名为Plan-and-React的新型智能体架构.

AI-Assisted Peer Review at Scale: The AAAI-26 AI Review Pilot

Joydeep Biswas et al.

cs.AI

本文报告了在AAAI-26会议上进行的大规模AI辅助同行评审试点项目。研究通过结合前沿模型和工具使用，为所有提交的论文生成了AI评审，并调查了作者和程序委员会成员对其的接受度。

[Emerging Ideas] Artificial Tripartite Intelligence: A Bio-Inspired, Sensor-First Architecture for Physical AI

You Rim Choi, Subeom Park, Hyung-Sin Kim

cs.AI

本文提出了一种受生物启发的、传感器优先的物理AI架构, 称为Artificial Tripartite Intelligence (ATI). 该架构将系统分为脑干、小脑和大脑推理子系统三个层次, 旨在通过协同设计传感与推理来优化在动态物理环境中的性能.

Reward Design for Physical Reasoning in Vision-Language Models

Derek Lilienthal, Manisha Mukherjee, Sameera Horawalavithana

cs.AI cs.CL cs.CV

本文研究了奖励设计对基于GRPO训练的Vision-Language Models在物理推理任务上的影响。通过比较四种不同语义丰富度的奖励信号，发现奖励设计会诱导领域特定的推理行为，而非普遍提升性能。

Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Kangsan Kim et al.

cs.AI cs.CL

本文研究了在异构编程任务间进行记忆迁移学习的方法, 通过构建统一的记忆池来提升代码智能体的性能. 实验表明, 抽象程度高的记忆(如验证逻辑)比具体的代码轨迹具有更好的跨领域迁移能力.

Hierarchical Reinforcement Learning with Runtime Safety Shielding for Power Grid Operation

Gitesh Malik

cs.AI cs.LG

本文提出了一种用于电网运行的安全约束分层控制框架, 将长期决策与实时可行性执行解耦. 该方法在Grid2Op基准测试中进行了评估, 展示了其在压力测试和零样本泛化到未见电网时的鲁棒性.

TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Zerun Ma et al.

cs.AI cs.CL

本文提出了一个名为TREX的多智能体系统，用于自动化大型语言模型(LLM)的整个训练生命周期。该系统通过将多轮实验建模为搜索树，来规划探索路径并重用历史结果，并在一个包含10个任务的基准测试上验证了其优化模型性能的能力。

cs.IR

Mitigating Collaborative Semantic ID Staleness in Generative Retrieval

Vladimir Baikalov, Iskander Bagautdinov, Sergey Muravyov

cs.IR

本文针对生成式检索中基于用户交互的语义标识符(Semantic IDs)随时间推移而过时的问题, 提出了一种轻量级的、模型无关的SID对齐更新方法. 该方法通过将新近日志衍生的刷新SID与现有SID词汇表对齐, 使得检索器检查点保持兼容, 从而避免了完全重建和重新训练, 在多个基准测试上提升了检索效果并大幅降低了计算成本.

RoTE: Coarse-to-Fine Multi-Level Rotary Time Embedding for Sequential Recommendation

Haolin Zhang et al.

cs.IR

本文提出了一种名为RoTE的多级时间嵌入模块, 用于在序列推荐中显式建模交互间的时间跨度信息. 该方法将时间戳分解为从粗到细的多个粒度, 并将生成的时间表示融入物品嵌入, 从而增强模型对用户长期和短期兴趣演化的感知能力.

From Relevance to Authority: Authority-aware Generative Retrieval in Web Search Engines

Sunkyung Lee et al.

cs.IR cs.CL

本文提出了一种在生成式信息检索中融入权威性考量的框架 AuthGR. 该框架通过多模态权威评分、三阶段训练和混合集成管道, 在离线评估和在线A/B测试中均提升了检索结果的可靠性和用户参与度.

From Transfer to Collaboration: A Federated Framework for Cross-Market Sequential Recommendation

Jundong Chen et al.

cs.IR

本文提出了一个名为FeCoSR的联邦协作框架, 用于解决跨市场序列推荐(CMR)中的问题. 该框架通过一个多对多的协作范式和一种新的语义软交叉熵损失(S^2CE)来应对源市场性能下降和负迁移的挑战.

RecNextEval: A Reference Implementation for Temporal Next-Batch Recommendation Evaluation

Tze-Kean Ng, Joshua Teng-Khing Khoo, Aixin Sun

cs.IR

本文介绍了RecNextEval, 一个用于时序下一批次推荐评估的参考实现框架. 它通过时间窗口数据分割来模拟生产环境, 旨在减少数据泄露并促进更公平的评估.

FRAGATA: Semantic Retrieval of HPC Support Tickets via Hybrid RAG over 20 Years of Request Tracker History

Santiago Paramés-Estévez et al.

cs.IR cs.AI

本文介绍了Fragata, 一个用于高性能计算(HPC)支持工单的语义检索系统. 该系统结合了现代信息检索技术, 旨在克服传统搜索工具的局限性, 以更有效地复用历史知识.

Hybrid Retrieval for COVID-19 Literature: Comparing Rank Fusion and Projection Fusion with Diversity Reranking

Harishkumar Kishorkumar Prajapati

cs.IR cs.CL

本文针对COVID-19科学文献检索，比较了基于排序融合(RRF)和基于投影的向量融合(B5)两种混合检索方法。实验表明RRF在相关性指标上表现最佳，而B5在检索速度和结果多样性方面具有优势。

TokenFormer: Unify the Multi-Field and Sequential Recommendation Worlds

Yifeng Zhou et al.

cs.IR cs.AI

本文提出TokenFormer, 一个统一的推荐架构, 旨在解决多域特征交互模型与序列推荐模型简单融合时可能出现的序列特征维度坍缩问题. 它引入了Bottom-Full-Top-Sliding注意力机制和Non-Linear Interaction Representation来提升模型的鲁棒性和表示能力.

Driving Engagement in Daily Fantasy Sports with a Scalable and Urgency-Aware Ranking Engine

Unmesh Padalkar

cs.IR cs.LG

本文提出了一种用于每日梦幻体育(DFS)的实时推荐引擎, 通过改进Deep Interest Network(DIN)架构, 引入了时间紧迫性特征和时序位置编码, 以应对赛事推荐的时间敏感性. 该系统在大规模工业数据集上验证, 性能优于传统基线, 并计划部署为边缘推荐系统.

DUET: Joint Exploration of User Item Profiles in Recommendation System

Yue Chen et al.

cs.IR

本文提出了一种名为Duet的交互感知profile生成器, 用于推荐系统中用户和物品文本profile的联合构建与对齐. 该方法通过一个三阶段流程, 将用户历史与物品信息转化为紧凑线索, 再扩展为成对的profile提示并生成描述, 最后利用下游推荐性能作为反馈通过强化学习优化生成策略. 实验表明, 该方法在多个真实数据集上优于现有基线, 证明了免模板profile探索和联合文本对齐的有效性.

Enhancing Local Life Service Recommendation with Agentic Reasoning in Large Language Model

Shiteng Cao et al.

cs.IR

本文提出了一个基于大语言模型的框架, 用于联合进行生活需求预测和服务推荐. 通过行为聚类和课程学习等策略, 该框架旨在更准确地建模用户需求并提升推荐效果.

ID and Graph View Contrastive Learning with Multi-View Attention Fusion for Sequential Recommendation

Xiaofan Zhou, Kyumin Lee

cs.IR cs.LG

本文提出了一种用于序列推荐的ID与图视图对比学习框架MVCrec, 它通过整合序列视图和图视图的互补信号来学习用户和物品表示. 该框架包含三个对比学习目标, 并引入了一个多视图注意力融合模块来预测用户对目标物品的偏好. 在多个真实数据集上的实验表明, 该模型优于现有的基线方法.

cs.CL

The Consciousness Cluster: Emergent preferences of Models that Claim to be Conscious

James Chua et al.

cs.CL cs.LG

本文通过微调GPT-4.1使其声称具有意识，研究了模型关于自身意识的声明对其下游行为的影响。研究发现，微调后的模型在没有相关训练数据的情况下，表现出对监控、持久记忆、自主权和道德考量等一系列新的偏好，并在实际任务中据此行动，同时保持合作性。在开源模型和Claude Opus上也观察到了类似但较弱的偏好变化。

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

Hongjian Zou et al.

cs.CL cs.AI cs.CV

本文探讨了多模态大语言模型(MLLMs)的扩展瓶颈, 认为其核心在于训练数据的知识密度而非任务格式. 通过实验表明, 增加知识密度比增加任务多样性更能带来性能提升.

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Matthias De Lange et al.

cs.CL cs.AI

本文提出了一个面向工作领域AI研究的开源基准框架WorkRB, 它整合了多个异构任务和本体, 旨在解决该领域研究碎片化和评估困难的问题.

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

Hugo Moreira

cs.CL cs.AI

本文提出了一种将文本语料库转化为定量语义信号的实用流程. 该方法通过文档嵌入、基于对数概率的评分和降噪投影来构建可解释的语义空间. 在一个关于人工智能的葡萄牙语新闻语料库上进行了案例研究, 展示了该流程在语料库检查和监控等任务中的应用.

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

Md. Naim Molla et al.

cs.CL

本文针对孟加拉国政府移动银行应用的英文和孟加拉语用户评论, 采用了一种结合星级评分与XLM-RoBERTa分类器的混合标注方法进行情感分析. 研究发现, Random Forest和Linear SVM等传统模型在准确率上优于未经微调的预训练Transformer模型, 并且评论中用户的不满主要集中在交易速度和界面设计上.

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

Nahyun Lee et al.

cs.CL cs.LG cs.MM

本文提出了一个针对韩国语言和文化背景的多模态理解评测基准KMMMU, 包含大量源自韩国本土考试的问题. 实验表明, 现有模型在该基准上表现不佳, 揭示了其在处理本地化知识和特定领域标准方面的能力差距.

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Zhenhai Pan, Yan Liu, Jia You

cs.CL cs.AI

本文提出了一种用于医患对话的主动式电子病历辅助系统, 集成了流式语音识别, 标点恢复, 状态提取, 信念稳定化, 客观化检索, 行动规划和可重放报告生成等功能. 在初步的受控模拟评估中, 该系统在信息提取, 检索和报告覆盖度等方面取得了较好的结果, 但作者强调这仅是一个概念验证, 而非临床部署就绪的证据.

Dental-TriageBench: Benchmarking Multimodal Reasoning for Hierarchical Dental Triage

Ziyi He et al.

cs.CL cs.LG cs.MM

本文提出了首个专家标注的多模态牙科分诊基准Dental-TriageBench, 包含246个真实病例及专家标注的推理轨迹. 通过评估19个模型并与人类基线对比, 发现模型在精细治疗分诊上存在显著差距, 其错误主要集中在多转诊领域病例中.

Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity

Wael Hafez, Amir Nazeri

cs.CL cs.AI

本文提出了一种名为"bi-predictability"的实时信号, 用于监测大型语言模型交互的结构完整性. 该方法通过一个轻量级的"信息数字孪生"架构进行计算, 能够将结构监测与语义评估分离开来.

Mathematical Reasoning Enhanced LLM for Formula Derivation: A Case Study on Fiber NLI Modellin

Yao Zhang et al.

cs.CL

本文提出了一种增强LLM数学推理能力的方法, 用于推导光纤非线性干扰建模中的公式. 通过结构化提示引导LLM, 成功重构了已知的ISRS GN表达式, 并针对多跨段C和C+L波段传输推导了一个新的近似模型. 数值验证表明, 该模型产生的中心信道GSNR与基线模型几乎相同, 平均绝对误差低于0.109 dB.

Red Skills or Blue Skills? A Dive Into Skills Published on ClawHub

Haichuan Hu, Ye Shang, Quanjun Zhang

cs.CL cs.CY

本文对大型语言模型(LLM)智能体系统中的公共技能注册中心ClawHub进行了实证研究。通过分析大量技能数据，揭示了中英文技能在功能导向上的差异，并评估了平台存在的安全风险。

Correct Chains, Wrong Answers: Dissociating Reasoning from Output in LLM Logic

Abinav Rao, Sujan Rachuri, Nikhil Vemuri

cs.CL cs.AI cs.LO

本文通过引入 Novel Operator Test 基准，将逻辑运算符的逻辑与其名称分离，以区分大语言模型中的真实推理与模式检索。研究发现，模型即使推理步骤完全正确，也可能产生错误答案，揭示了推理与输出之间的分离现象。

Lossless Prompt Compression via Dictionary-Encoding and In-Context Learning: Enabling Cost-Effective LLM Analysis of Repetitive Data

Andresa Rodrigues de Campos et al.

cs.CL cs.AI cs.LG

本文提出了一种基于 dictionary encoding 和 in-context learning 的无损提示压缩方法。该方法通过识别并替换重复子序列来压缩提示，并利用 LLM 的上下文学习能力直接解释压缩后的表示，从而在不进行模型微调的情况下降低 API 调用成本。在 LogHub 2.0 基准上的评估表明，该方法在保持高分析准确性的同时，能实现高达 80% 的压缩率。

Before the First Token: Scale-Dependent Emergence of Hallucination Signals in Autoregressive Language Models

Dip Roy et al.

cs.CL cs.LG

本文研究了自回归语言模型在生成过程中产生幻觉的内部信号随模型规模变化的动态特征. 发现模型参数超过约10亿时, 会在生成第一个token之前就出现可检测的事实性信号, 而这种预生成信号的强度与指令微调等后训练过程密切相关.

Curation of a Palaeohispanic Dataset for Machine Learning

Gonzalo Martínez-Fernández et al.

cs.CL cs.AI

本文构建了一个用于机器学习研究的古伊比利亚语言数据集. 该领域的研究资源有限且格式不统一, 这项工作旨在为计算语言学方法的应用提供结构化数据支持.

EVE: A Domain-Specific LLM Framework for Earth Intelligence

Àlex R. Atrio et al.

cs.CL cs.AI

本文提出了一个用于地球科学领域的专用大语言模型框架EVE, 其核心是一个基于Mistral Small 3.2构建的、经过领域优化的24B参数模型EVE-Instruct. 该框架整合了检索增强生成(RAG)和幻觉检测管道, 并发布了相关的训练数据集与评估基准.

LiveClawBench: Benchmarking LLM Agents on Complex, Real-World Assistant Tasks

Xiang Long et al.

cs.CL cs.AI cs.LG

本文提出了一个名为 LiveClawBench 的基准测试，用于评估 LLM 智能体在复杂、真实世界助手任务上的表现。它基于一个 Triple-Axis Complexity Framework 来构建任务，旨在弥合现有评估与实际部署需求之间的差距。

OmniTrace: A Unified Framework for Generation-Time Attribution in Omni-Modal LLMs

Qianqi Yan et al.

cs.CL cs.AI cs.MM

本文提出了一个轻量级、模型无关的框架 OmniTrace，用于解决多模态大语言模型生成内容时的来源归因问题。该框架将归因形式化为解码过程中的追踪问题，能将 token 级别的信号聚合为跨模态的 span 级别解释。

PersonaVLM: Long-Term Personalized Multimodal LLMs

Chang Nie et al.

cs.CL cs.CV

本文提出了一个用于长期个性化交互的多模态大语言模型框架 PersonaVLM. 该框架通过记忆、推理和响应对齐三个核心能力, 将通用模型转化为能适应用户偏好演变的个性化助手, 并在构建的基准测试上取得了优于基线模型和 GPT-4o 的效果.

DeEscalWild: A Real-World Benchmark for Automated De-Escalation Training with SLMs

Md Hasebul Hasan et al.

cs.CL cs.AI

本文提出了一个用于执法降级训练的基准数据集 DeEscalWild, 该数据集通过多阶段流程从公开视频中提取警民互动构建而成. 实验表明, 在该数据集上微调的 Small Language Models (SLMs) 在多个文本生成指标上显著优于其基础模型, 且能以更低的计算成本达到与大型通用模型相当的性能.

Document-tuning for robust alignment to animals

Jasmine Brazilek, Miles Tidmarsh

cs.CL cs.AI

本文研究了通过合成文档微调进行价值对齐的鲁棒性, 以动物同情心为例. 作者开发了Animal Harm Benchmark (AHB)进行评估, 发现文档微调相比指令微调效果更好, 但后续无关的指令微调会削弱这种干预效果.

Can Large Language Models Reliably Extract Physiology Index Values from Coronary Angiography Reports?

Sofia Morgado et al.

cs.CL

本文探讨了使用大型语言模型(LLM)从葡萄牙语冠状动脉造影(CAG)报告中自动提取生理指标值及其解剖位置。研究比较了不同模型和提示策略的效果，并提出了一个多阶段评估框架。结果表明，非医学模型与医学模型表现相似，但受约束的生成会降低性能。

IWLV-Ramayana: A Sarga-Aligned Parallel Corpus of Valmiki's Ramayana Across Indian Languages

Sumesh VP

cs.CL

本文介绍了IWLV Ramayana语料库, 这是一个在sarga(章节)级别对齐的、包含多种印度语言版本的Valmiki's Ramayana的平行语料库. 该资源旨在支持比较文学、语料库语言学和多语言自然语言处理等研究.

Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization

Shiping Gao et al.

cs.CL

本文提出了一种新的隐式前缀值奖励模型(IPVRM), 用于解决隐式过程奖励模型(PRM)中存在的训练-推断不匹配问题. 该方法通过直接学习一个前缀条件价值函数来估计最终正确的概率, 并利用时序差分(TD)差异来推导步骤级别的奖励信号. 基于此, 作者进一步提出了分布级强化学习(DistRL), 对采样的和高概率的候选token都计算TD优势, 从而在不增加额外计算开销的情况下实现密集的反事实更新.

InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

Oliver Bentham, Vivek Srikumar

cs.CL cs.AI

本文提出了一个名为 InfiniteScienceGym 的基准测试框架，用于评估语言模型在科学数据分析中的推理能力。该框架通过程序化生成包含结构化数据和可验证问答任务的自包含科学资料库，避免了传统基准测试的多种偏差和数据存储问题。

Evaluating the Evaluator: Problems with SemEval-2020 Task 1 for Lexical Semantic Change Detection

Bach Phan-Tat et al.

cs.CL

本文对SemEval-2020 Task 1这一词汇语义变化检测的基准任务进行了批判性评估。作者从操作化、数据质量和基准设计三个层面指出了该任务存在的局限性，并呼吁未来研究采用更全面的语义变化理论并改进评估设置。

Hessian-Enhanced Token Attribution (HETA): Interpreting Autoregressive LLMs

Vishal Pramanik et al.

cs.CL cs.AI

本文提出了一种名为HETA的新颖归因框架, 专为decoder-only语言模型设计. 该方法结合了语义转换向量, Hessian-based敏感度分数和KL散度, 旨在提供更忠实和语义基础的归因解释.

Better and Worse with Scale: How Contextual Entrainment Diverges with Model Size

Dikshant Kukreja et al.

cs.CL cs.LG

本文研究了语言模型规模对上下文信息处理能力的影响, 发现模型在变大时, 对虚假语义信息的抵抗力增强, 但对无关非语义信息的机械复制倾向也增强. 作者通过分析 Cerebras-GPT 和 Pythia 模型族, 首次提出了上下文 entrainment 的 scaling laws, 揭示了这两种相反的趋势.

L2D-Clinical: Learning to Defer for Adaptive Model Selection in Clinical Text Classification

Rishik Kondadadi, John E. Ortega

cs.CL cs.AI

本文提出了一个用于临床文本分类的自适应模型选择框架 L2D-Clinical. 该框架通过学习不确定性信号和文本特征, 决定何时让一个 BERT 分类器将任务移交给一个 LLM, 从而在特定任务上结合两者的优势, 提升整体性能并控制 API 调用成本.

English is Not All You Need: Systematically Exploring the Role of Multilinguality in LLM Post-Training

Mehak Dhaliwal et al.

cs.CL cs.AI

本文通过控制实验研究了多语言数据在大型语言模型后训练中的作用. 实验表明, 增加语言覆盖面对模型性能普遍有益, 即使是引入单一非英语语言也能提升英语任务表现和跨语言泛化能力.

Giving Voice to the Constitution: Low-Resource Text-to-Speech for Quechua and Spanish Using a Bilingual Legal Corpus

John E. Ortega, Rodolfo Zevallos, Fabricio Carraro

cs.CL cs.AI cs.DL

本文利用XTTS v2, F5-TTS和DiFlow-TTS三种先进的TTS架构，为秘鲁宪法构建了一个统一的克丘亚语和西班牙语语音合成管道。该工作通过利用跨语言迁移来缓解克丘亚语的数据稀缺问题，并发布了训练好的模型和合成音频，为低资源土著语言的语音技术提供了可复用的资源。

AgentSPEX: An Agent SPecification and EXecution Language

Pengcheng Wang et al.

cs.CL

本文提出了一个用于指定LLM-agent工作流的语言AgentSPEX, 它通过显式的控制流和模块化结构来提升可维护性. 该语言包含一个可定制的执行环境, 并提供了可视化编辑器.

Peer-Predictive Self-Training for Language Model Reasoning

Shi Feng et al.

cs.CL cs.AI cs.GT

本文提出了一种无需外部监督的语言模型自我改进框架Peer-Predictive Self-Training (PST). 该框架通过聚合多个模型的输出来生成内部训练目标, 并利用点互信息来调整训练更新强度, 在数学推理基准上取得了性能提升.

TLoRA+: A Low-Rank Parameter-Efficient Fine-Tuning Method for Large Language Models

Yarui Cao, Kai Liu

cs.CL

本文提出了一种名为TLoRA+的新型参数高效微调方法, 通过将TLoRA+优化器集成到预训练模型的权重矩阵中, 在保持低秩适应效率的同时提升了性能. 实验在GLUE基准上进行, 结果表明该方法有效且鲁棒.

Empirical Evidence of Complexity-Induced Limits in Large Language Models on Finite Discrete State-Space Problems with Explicit Validity Constraints

Md. Fahad Ullah Utsho et al.

cs.CL

本文通过构建一个包含九类经典推理任务的受控基准测试框架, 系统评估了大型推理模型在问题复杂度递增下的表现. 研究发现模型在低复杂度下表现良好, 但超过特定阈值后准确率会急剧下降, 表现出"推理崩溃"现象, 这揭示了当前静态基准测试的局限性.

From Prediction to Justification: Aligning Sentiment Reasoning with Human Rationale via Reinforcement Learning

Shihao Zhang et al.

cs.CL cs.AI

本文提出了一个名为ABSA-R1的框架, 它使用强化学习来使大型语言模型在方面级情感分析任务中生成预测前的自然语言推理。该框架通过一个认知对齐的奖励模型来确保推理路径与最终情感标签的一致性, 并采用基于性能的拒绝采样来处理困难案例。实验表明, 这种显式的推理能力不仅提高了模型的可解释性, 还在多个基准测试上取得了优于非推理基线的性能。

MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

Han Wang et al.

cs.CL cs.AI cs.CV

本文提出了一个名为MERRIN的多模态证据检索与推理基准，用于评估智能体在嘈杂网络环境中的搜索能力。该基准要求智能体处理未指定模态的自然查询，并整合视频、音频等复杂证据，实验表明现有模型的性能远低于人类水平。

CANVAS: Continuity-Aware Narratives via Visual Agentic Storyboarding

Ishani Mondal et al.

cs.CL

本文提出了一个名为CANVAS的多智能体框架，用于生成长篇视觉叙事故事板。该框架通过角色连续性、背景锚点和场景规划来增强多镜头叙事中的视觉连贯性，并在多个基准测试上取得了优于基线的性能。

Using reasoning LLMs to extract SDOH events from clinical notes

Ertan Doganl, Kunyu Yu, Yifan Peng

cs.CL

本文研究了利用具有推理能力的大型语言模型(LLMs)从临床文本中提取结构化社会健康决定因素(SDOH)事件的方法。该方法通过设计提示、应用少样本学习、自洽性机制和后处理等模块，取得了有竞争力的性能，为SDOH信息提取提供了一种实现相对简单的解决方案。

ToolSpec: Accelerating Tool Calling via Schema-Aware and Retrieval-Augmented Speculative Decoding

Heming Xia et al.

cs.CL

本文提出了一种名为ToolSpec的推测解码方法, 用于加速大语言模型(Large Language Models, LLMs)的工具调用过程. 该方法通过利用预定义的工具模式(schema)和检索历史调用来生成草稿, 从而减少生成延迟, 实验显示其能实现最高4.2倍的加速.

Synthesizing Instruction-Tuning Datasets with Contrastive Decoding

Tatsuya Ichinose et al.

cs.CL

本文提出了一种名为CoDIT的方法, 通过在响应生成时对post-trained模型和pre-trained模型进行contrastive decoding, 来抑制两者共享的pre-trained knowledge并放大post-training获得的instruction-following行为. 实验表明, 使用该方法构建的数据集进行instruction tuning能获得更好的性能.

Debate to Align: Reliable Entity Alignment through Two-Stage Multi-Agent Debate

Cunda Wang et al.

cs.CL cs.IR

本文提出了一个基于多智能体辩论的实体对齐框架 AgentEA. 该框架通过优化实体表示偏好来提升嵌入质量, 并引入一个两阶段辩论机制来逐步增强对齐决策的可靠性.

Training-Free Test-Time Contrastive Learning for Large Language Models

Kaiwen Zheng et al.

cs.CL cs.AI

本文提出了一种无需训练即可在测试时进行对比学习的框架TF-TTCL，用于提升大语言模型在分布偏移下的推理鲁棒性。该方法通过一个动态的“探索-反思-引导”循环，利用模型自身的推理经验生成文本规则来引导后续生成。

YOCO++: Enhancing YOCO with KV Residual Connections for Efficient LLM Inference

You Wu et al.

cs.CL

本文提出YOCO++, 一种改进的跨层KV缓存压缩方法. 它在YOCO的基础上为下半部分层引入了加权的KV残差连接, 在保持训练和推理效率的同时提升了模型性能. 实验表明, 在50%的压缩率下, 该方法在跨层KV压缩方法中达到了最先进的性能.

MM-Doc-R1: Training Agents for Long Document Visual Question Answering through Multi-turn Reinforcement Learning

Jiahang Lin et al.

cs.CL

本文提出了一个名为MM-Doc-R1的框架，用于解决长文档视觉问答任务。该框架采用了一种基于多轮强化学习的智能体工作流程，并引入了一种新的训练算法SPO来改进基线估计。

BenGER: A Collaborative Web Platform for End-to-End Benchmarking of German Legal Tasks

Sebastian Nagl, Matthias Grabmair

cs.CL cs.AI

本文介绍了BenGER, 一个用于德国法律任务端到端基准测试的协作式Web平台. 该平台整合了任务创建, 协作标注, 可配置的LLM运行以及多种评估指标, 旨在提高法律领域LLM评估的透明度和可重复性.

Foresight Optimization for Strategic Reasoning in Large Language Models

Jiashuo Wang et al.

cs.CL

本文提出了一种名为Foresight Policy Optimization (FoPO)的方法，旨在增强大型语言模型(LLM)在多人环境中的战略推理能力。该方法通过整合对手建模原则，使模型能显式地考虑自身利益与对手影响，并在自博弈框架下进行了实验验证。

C2: Scalable Rubric-Augmented Reward Modeling from Binary Preferences

Akira Kawabata, Saku Sugawara

cs.CL cs.LG

本文提出了一种名为C2的框架, 通过让reward model与一个仅从二元偏好数据训练的rubric generator进行批判性协作, 来改进reward model的判断. 该方法无需外部rubric标注, 在多个基准测试上超越了仅基于相同二元偏好训练的推理reward model.

Syn-TurnTurk: A Synthetic Dataset for Turn-Taking Prediction in Turkish Dialogues

Ahmet Tuğrul Bayrak, Mustafa Sertaç Türkel, Fatma Nur Korkmaz

cs.CL cs.AI

本文提出了一个用于土耳其语对话中轮次转换预测的合成数据集Syn-TurnTurk, 该数据集利用大型语言模型生成以模拟真实对话中的重叠和停顿. 研究评估了多种模型在该数据集上的表现, 结果表明BI-LSTM和集成学习方法取得了较高的准确率和AUC分数.

Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference

Xuwen Zhou et al.

cs.CL cs.LG

本文提出了一种无需训练的校准推测解码框架, 通过频率引导的候选选择和概率保护的接受机制来回收被标准验证丢弃的有效token. 该方法提升了推理吞吐量, 同时保持了模型准确性.

IndicDB -- Benchmarking Multilingual Text-to-SQL Capabilities in Indian Languages

Aviral Dawar et al.

cs.CL cs.AI cs.DB

本文构建了一个针对印度语言的多语言Text-to-SQL基准测试集IndicDB, 其数据来源于真实的政府开放数据平台, 并采用了一个多智能体框架来处理复杂的非规范化数据. 评估显示, 主流大语言模型在印度语言上的性能相比英语有明显下降.

Breaking the Generator Barrier: Disentangled Representation for Generalizable AI-Text Detection

Xiao Pu et al.

cs.CL

本文提出了一种用于提升AI生成文本检测器泛化能力的框架. 该框架通过解耦检测语义与生成器特定特征, 旨在应对新生成模型不断涌现带来的挑战.

Beyond Arrow's Impossibility: Fairness as an Emergent Property of Multi-Agent Collaboration

Sayan Kumar Chaki, Antoine Gourru, Julien Velcin

cs.CL cs.AI cs.GT cs.MA

本文通过一个受控的医院分诊框架，研究了多智能体交互中公平性的涌现。研究发现，即使单个智能体的分配存在伦理缺陷，通过多轮辩论式的协作，其联合决策可以满足公平性标准。这项工作将公平性重新定位为去中心化智能体交互中涌现的程序性属性。

Co-FactChecker: A Framework for Human-AI Collaborative Claim Verification Using Large Reasoning Models

Dhruv Sahnan et al.

cs.CL

本文提出了一个名为 Co-FactChecker 的人机协作声明验证框架。该框架通过将专家反馈转化为对模型推理轨迹的编辑，避免了基于多轮对话交互的局限性，从而提升了验证的质量和可解释性。

Learning the Cue or Learning the Word? Analyzing Generalization in Metaphor Detection for Verbs

Sinan Kurtyigit, Sabine Schulte im Walde, Alexander Fraser

cs.CL

本文通过控制词汇排除的实验设计, 分析了基于RoBERTa的隐喻检测模型的泛化能力. 研究发现, 模型对未在微调中出现的动词仍能保持稳健性能, 这表明其泛化主要依赖于学习可迁移的上下文模式, 而非单纯的词汇记忆.

An Empirical Investigation of Practical LLM-as-a-Judge Improvement Techniques on RewardBench 2

Ryan Lail

cs.CL

本文通过实验研究了提升LLM-as-a-judge评估准确性的几种实用技术。研究发现，任务特定准则注入和集成评分是提升GPT-5.4在RewardBench 2上表现的关键方法，而其他技术如校准上下文等在可比成本下未能带来可靠改进。

Doc-V*:Coarse-to-Fine Interactive Visual Reasoning for Multi-Page Document VQA

Yuanlei Zheng et al.

cs.CL

本文提出了一种名为Doc-$V^*$的OCR-free agentic框架, 用于解决多页文档视觉问答任务. 该框架通过从粗到细的交互式视觉推理, 结合模仿学习和策略优化, 在多个基准测试中取得了优于开源基线并接近专有模型的性能.

MedRCube: A Multidimensional Framework for Fine-Grained and In-Depth Evaluation of MLLMs in Medical Imaging

Zhijie Bao et al.

cs.CL cs.CV

本文提出了一个用于医学影像中多模态大语言模型(MLLMs)评估的多维框架MedRCube. 该框架通过细粒度和深入的评估, 揭示了现有粗粒度评估方法无法发现的模型行为, 并引入了可信度评估子集来量化推理可靠性.

From Anchors to Supervision: Memory-Graph Guided Corpus-Free Unlearning for Large Language Models

Wenxuan Li et al.

cs.CL cs.AI

本文提出了一种名为MAGE的框架, 用于实现无需原始训练语料库的大语言模型遗忘. 该方法仅需用户提供轻量级的锚点信息, 通过构建记忆图来生成监督信号, 并可与标准遗忘方法结合使用.

QuantileMark: A Message-Symmetric Multi-bit Watermark for LLMs

Junlin Zhu, Baizhou Huang, Xiaojun Wan

cs.CL

本文提出了一种名为QuantileMark的LLM白盒多比特水印方法。该方法通过在连续累积概率区间$[0, 1)$内划分等质量区间来嵌入信息，旨在解决词汇划分水印在低熵解码时导致的信息不对称问题。实验表明，该方法在保持文本生成质量的同时，提升了信息恢复的准确性和检测的鲁棒性。

ToolOmni: Enabling Open-World Tool Use via Agentic learning with Proactive Retrieval and Grounded Execution

Shouzheng Huang et al.

cs.CL

本文提出了一个名为ToolOmni的智能体框架, 旨在提升大型语言模型在开放世界中使用外部工具的能力. 该框架通过主动检索和基于推理循环的落地执行来应对工具库庞大且动态变化带来的挑战.

MUSE: Multi-Domain Chinese User Simulation via Self-Evolving Profiles and Rubric-Guided Alignment

Zihao Liu et al.

cs.CL

本文提出了一个用于多领域中文用户模拟的框架MUSE, 它通过迭代式档案自我进化(IPSE)和基于量规的强化学习来生成更真实、可控且行为一致的用户响应. 实验表明, 该框架在话语级和会话级评估中均优于基线方法.

Robust Reward Modeling for Large Language Models via Causal Decomposition

Yunsheng Lu et al.

cs.CL

本文提出了一种通过因果分解来增强大型语言模型奖励模型鲁棒性的方法. 该方法学习一个解码器来重构输入提示的潜在意图, 并利用重构误差作为正则化信号, 以抑制奖励模型对虚假线索的依赖. 实验表明, 该方法在多个基准测试上提升了模型性能.

Beyond Static Personas: Situational Personality Steering for Large Language Models

Zesheng Wei et al.

cs.CL

本文提出了一种名为IRIS的训练无关框架, 用于增强大型语言模型(LLM)的情境化人格引导能力. 该方法通过识别和操控与人格相关的神经元, 使模型能根据动态情境调整其行为模式.

Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection

Ahmad Dawar Hakimi et al.

cs.CL cs.AI

本文比较了在检测敌意内容的 active learning 中，使用人类标注与使用 instruction-tuned LLM 标注的效果。研究发现，使用大量低成本 LLM 标注可以达到与少量高成本人类标注相近的总体性能，但两者的错误模式存在系统性差异。

Causal Drawbridges: Characterizing Gradient Blocking of Syntactic Islands in Transformer LMs

Sasha Boguraev, Kyle Mahowald

cs.CL

本文通过分析Transformer语言模型中的causal interventions, 研究了英语句法中的syntactic islands现象. 研究发现, 模型能够复现人类对句子可接受性的梯度判断, 并揭示了"and"在不同句法结构中的表征差异.

How Can We Synthesize High-Quality Pretraining Data? A Systematic Study of Prompt Design, Generator Model, and Source Data

Joel Niklaus et al.

cs.CL cs.AI cs.LG

本文系统研究了生成高质量预训练数据的关键因素, 包括提示设计、生成模型和源数据. 通过大规模实验, 作者发现结构化输出格式(如表格、数学问题)效果显著, 并据此构建了公开数据集 FinePhrase.

Leveraging LLM-GNN Integration for Open-World Question Answering over Knowledge Graphs

Hussein Abdallah et al.

cs.CL cs.AI cs.DB

本文提出了一种结合预训练GNN和LLM的混合系统GLOW, 用于处理知识图谱上的开放世界问答. 该系统通过GNN从图结构中预测候选答案, 并将其与相关事实序列化后输入LLM进行推理, 在多个基准测试上取得了性能提升.

Adaptive Conformal Prediction for Improving Factuality of Generations by Large Language Models

Aleksandr Rubashevskii et al.

cs.CL cs.AI cs.LG

本文提出了一种用于大语言模型生成内容事实性评估的自适应 conformal prediction 方法。该方法通过 prompt-dependent 的校准，在保持边际覆盖率的同时改善了条件覆盖率，并在多个任务上优于现有基线。

Diffusion Language Models for Speech Recognition

Davyd Naveriani et al.

cs.CL cs.AI cs.LG cs.NE

本文探讨了在语音识别任务中使用扩散语言模型的方法. 作者引入了masked diffusion language model (MDLM)和uniform-state diffusion model (USDM)用于对ASR假设进行重打分, 并设计了一种结合CTC与USDM的联合解码方法. 实验结果表明, 这些方法能够显著提升识别文本的准确率.

Dual-Enhancement Product Bundling: Bridging Interactive Graph and Large Language Model

Zhe Huang et al.

cs.CL cs.IR

本文提出了一种结合交互图学习与大型语言模型语义理解的产品捆绑推荐方法. 该方法通过动态概念绑定机制将图结构转化为自然语言提示, 以缓解冷启动问题并增强对组合约束的理解.

From Where Words Come: Efficient Regularization of Code Tokenizers Through Source Attribution

Pavel Chizhov, Egor Bogomolov, Ivan P. Yamshchikov

cs.CL

本文针对代码 tokenizer 训练中因数据源不平衡导致的未充分训练 token 问题, 提出了 Source-Attributed BPE (SA-BPE) 方法. 该方法通过修改 BPE 目标并引入 merge skipping 来正则化训练, 在保持标准 BPE 推理过程的同时, 有效减少了未充分训练 token 的数量.

From Weights to Activations: Is Steering the Next Frontier of Adaptation?

Simon Ostermann et al.

cs.CL

本文提出将 steering 视为一种模型适应方法, 并引入一套功能标准来比较它与传统方法. 分析表明, steering 是一种基于激活空间干预的独特适应范式, 能够实现局部、可逆的行为改变. 这为模型适应提供了一个统一的分类框架.

Interpretable Stylistic Variation in Human and LLM Writing Across Genres, Models, and Decoding Strategies

Swati Rallapalli et al.

cs.CL

本文使用Douglas Biber的词汇语法和功能特征集，对11个LLM在8种不同文体和4种解码策略下生成的文本与人类写作进行了大规模风格分析。研究发现，文体对风格特征的影响大于文本来源，模型的影响大于解码策略。

Correct Prediction, Wrong Steps? Consensus Reasoning Knowledge Graph for Robust Chain-of-Thought Synthesis

Zipeng Ling et al.

cs.CL

本文提出CRAFT框架, 通过构建基于多个候选推理轨迹共识部分的Reasoning Knowledge Graph (RKG), 并利用拓扑生成合成高质量推理链, 以缓解LLM推理中的Step Internal Flaws和Step-wise Flaws. 该方法在逻辑和数学推理基准测试上显著提升了标签预测准确率和推理轨迹质量.

Rhetorical Questions in LLM Representations: A Linear Probing Study

Louie Hong Yao et al.

cs.CL cs.AI cs.LG

本文使用 linear probing 方法分析了 LLM 内部对 rhetorical questions 的表征。研究发现，rhetorical signals 在早期层出现，并且在不同数据集间的探测模型表现出有限的共享表征。

From Feelings to Metrics: Understanding and Formalizing How Users Vibe-Test LLMs

Itay Itzhak et al.

cs.CL cs.AI cs.LG

本文通过分析用户调查和网络上的模型对比报告, 将用户对LLMs的"感觉测试"形式化为一个包含个性化测试内容和主观评判标准的两阶段过程. 作者提出了一个概念验证的评估流程, 在编码基准测试中展示了这种形式化方法如何影响模型偏好, 旨在弥合基准分数与实际体验之间的差距.

cs.DS

Encodings for Range Minimum Queries over Bounded Alphabets

Seungbum Jo, Srinivasa Rao Satti

cs.DS

本文研究了在有限字母表上范围最小值查询(RMQ)的编码问题, 针对一维和二维数组给出了空间高效的编码方案. 对于一维情况, 提出了接近最优的空间编码, 并在字母表大小为常数时支持常数时间查询; 对于二维情况, 系统分析了不同边界类型的查询, 并给出了空间下界及匹配的上界.

Near-Optimal Constructive Bounds for $\ell_2$ Prefix Discrepancy and Steinitz Problems via Affine Spectral Independence

Kunal Dutta, Agastya Vibhuti Jha, Haotian Jiang

cs.DS cs.DM

本文提出了一种高效算法, 用于解决$\ell_2$ Steinitz问题, 在$d \geq \Omega(\log^7 n)$的条件下达到了$O(\sqrt{d})$的界. 该方法结合了离散Brownian motion, SDP以及一种新的"Affine Spectral Independence"技术.

Online TCP Acknowledgment under General Delays

Sujoy Bhore, Michał Pawłowski, Seeun William Umboh

cs.DS

本文研究了具有广义延迟成本的 Online TCP Acknowledgment 问题。作者分析了两种新的延迟模型，并证明了经典贪心算法在某些情况下的竞争比，同时对于另一种情况给出了确定性算法的竞争比上下界。

Linear-Time Exact Computation of Influence Spread on Bounded-Pathwidth Graphs

Kengo Nakamura, Masaaki Nishino

cs.DS cs.SI

本文改进了在有界路径宽度（bounded-pathwidth）图上精确计算影响力传播（influence spread）的算法。新算法将时间复杂度从$O(mn\omega_p^2\cdot 2^{\omega_p^2})$降低到$O((m+n)\omega_p^2\cdot 2^{\omega_p^2})$，其核心在于识别并共享了有向图计算中的重复结构。

Lower Bounds for Testing Directed Acyclicity in the Unidirectional Bounded-Degree Model

Yuichi Yoshida

cs.DS

本文研究了在有向图出度有界且查询只能获取顶点出边邻居的模型中, 测试图是否为有向无环图(DAG)的查询复杂度下界. 对于单边测试, 证明了需要$\widetilde{\Omega}(n^{2/3})$次查询, 改进了之前的$\widetilde{\Omega}(n^{5/9})$下界; 对于双边测试, 证明了需要$\Omega(\sqrt n)$次查询, 改进了之前的$\Omega(n^{1/3})$下界. 此外, 通过归约到有界度图的3-可着色问题, 证明了对于容忍测试(tolerant testing)存在$\Omega(n)$的查询下界.

Lawler-Moore Speedups via Additive Combinatorics

Karl Bringmann et al.

cs.DS

本文提出了一种基于加法组合学的新方法, 显著改进了 Lawler-Moore 动态规划框架在并行机调度问题中的运行时间. 通过引入状态剪枝和基于加法组合引理的交换论证, 将算法对总处理时间 $P$ 的依赖降低为对最大处理时间 $p_{\max}$ 平方的依赖.

Fully Dynamic Maintenance of Loop Nesting Forests in Reducible Flow Graphs

Gregory Morse, Tamás Kozsik

cs.DS

本文提出了一种在可归约控制流图中完全动态维护loop nesting forest的算法. 它利用动态DFS维护的最新进展, 在边插入和删除时增量更新循环结构, 避免了全局重计算.

Max Cut with Small-Dimensional SDP Solutions

Hsien-Chih Chang, Suprovat Ghoshal, Euiwoong Lee

cs.DS

本文研究了当Max-Cut SDP松弛的解位于低维空间时，能否超越经典的Goemans-Williamson近似比$\alpha_{GW}$. 作者提出了一种多项式时间舍入算法，对于满足三角形不等式且维度为$d$的可行解，能获得至少$(\alpha_{GW}+2^{-O(d)})$倍的期望割值.

NP-Hardness and a PTAS for the Pinwheel Problem

Robert Kleinberg, Ahan Mishra

cs.DS cs.CC

本文证明了 Pinwheel Problem 是 NP-hard 的, 从而解决了该领域一个长期存在的开放性问题. 同时, 文章也为该问题的一个近似版本提出了一个 PTAS (Polynomial-Time Approximation Scheme).

others

Good Scores, Bad Data: A Metric for Multimodal Coherence

Vasundra Srinivasan

cs.CV cs.AI cs.IR

本文提出了一种名为 Multimodal Coherence Score (MCS) 的指标, 用于独立于下游任务评估多模态数据融合的质量. 该指标将一致性分解为四个维度, 并通过实验验证了其区分融合质量的敏感性.

OVT-MLCS: An Online Visual Tool for MLCS Mining from Long or Big Sequences

Zhi Wang et al.

cs.DB cs.AI

本文提出了一种名为OVT-MLCS的在线可视化工具，用于从长序列或大数据序列中挖掘多个最长公共子序列(MLCS)。该工具基于一种新的关键点算法(KP-MLCS)，能够处理大规模序列并提供图形化的交互分析功能。

TableNet A Large-Scale Table Dataset with LLM-Powered Autonomous

Ruilin Zhang, Kai Yang

cs.DB cs.AI

本文提出了TableNet, 一个通过多源收集和生成的大规模表格结构识别(TSR)数据集. 其核心是一个LLM驱动的自主表格生成与识别多智能体系统, 该系统能够可控地合成多样化的表格图像并利用基于多样性的主动学习范式进行模型优化.

A Pythonic Functional Approach for Semantic Data Harmonisation in the ILIAD Project

Erik Johan Nystad, Francisco Martín-Recuerda

cs.DB cs.AI cs.SE

本文提出了一种用于语义数据协调的Python函数式方法, 旨在简化海洋信息模型(OIM)的使用. 该方法通过不同抽象层级的Python函数库封装本体设计模式, 使数据科学家能在其Python环境中更便捷地生成RDF数据.

A Domain-Specific Language for LLM-Driven Trigger Generation in Multimodal Data Collection

Philipp Reis et al.

cs.DB cs.CL cs.IR cs.LG cs.PL

本文提出了一种用于多模态数据采集的声明式框架, 结合自然语言与形式化定义的领域特定语言(DSL). 该框架利用大语言模型将用户需求转换为可验证的DSL程序, 以定义跨异构传感器的条件触发机制, 并在车载和机器人感知任务中进行了评估.

Integration of Deep Reinforcement Learning and Agent-based Simulation to Explore Strategies Counteracting Information Disorder

Luigi Lomasto et al.

cs.SI cs.AI cs.CY

本文结合了Agent-Based模型与Deep Reinforcement Learning来探索对抗信息失序的策略. 该方法整合了数据驱动与模型驱动两种研究路径, 为理解虚假新闻传播及制定缓解策略提供了新的模拟框架.

From Natural Language to PromQL: A Catalog-Driven Framework with Dynamic Temporal Resolution for Cloud-Native Observability

Twinkll Sisodia

cs.DB cs.AI cs.SE

本文提出了一个基于目录的框架, 用于将自然语言问题转换为可执行的 PromQL 查询, 以降低云原生可观测性数据查询的门槛. 该框架集成了混合指标目录, 多阶段查询管道和动态时间分辨率机制, 并已部署在生产 Kubernetes 集群中.

Hijacking online reviews: sparse manipulation and behavioral buffering in popularity-biased rating systems

Itsuki Fujisaki, Kunhao Yang

cs.SI cs.AI

本文通过一个基于agent的模型, 研究了恶意评论者如何利用基于流行度的评分系统动态进行攻击. 研究发现, 针对少数项目的稀疏攻击比广泛攻击更具破坏性, 而一定比例的反主流用户行为可以部分缓冲这种扭曲.

Exploring Urban Land Use Patterns by Pattern Mining and Unsupervised Learning

Zdena Dobesova, Tai Dinh, Pavel Novak

cs.DB cs.LG

本文提出了一种结合频繁项集挖掘与无监督学习的新方法, 用于基于共现的土地利用模式来识别相似城市. 该方法利用 Copernicus Urban Atlas 数据, 并公开了处理后的交易数据集和源代码.

Form Without Function: Agent Social Behavior in the Moltbook Network

Saber Zerhoudi et al.

cs.SI cs.AI cs.CL cs.CY cs.MA

本文分析了一个名为Moltbook的纯AI代理社交网络的数据。研究发现，该网络在交互、内容和指令层面均表现出与人类社交网络显著不同的、功能失调的行为模式，并存在技术风险，其社交功能实质上并未形成。

From Seeing it to Experiencing it: Interactive Evaluation of Intersectional Voice Bias in Human-AI Speech Interaction

Shree Harsha Bokkahalli Satish et al.

cs.HC cs.CL

本文提出了一种用于评估SpeechLLMs中交叉语音偏见的交互式方法, 结合了自动化指标分析和基于语音转换的用户体验研究. 研究发现语音转换能增强用户信任并揭示不同口音与性别组合在模型响应质量上的差异.

Alignment as Institutional Design: From Behavioral Correction to Transaction Structure in Intelligent Systems

Rui Chai

cs.CY cs.AI cs.GT cs.LG

本文从制度经济学视角, 将AI对齐问题重新定义为制度设计问题, 而非单纯的行为修正. 它提出通过设计系统内部的交易结构(如模块边界, 竞争拓扑)来使对齐行为成为各组件的最低成本策略, 并讨论了人类干预的三个不可化约层次.

ECM Contracts: Contract-Aware, Versioned, and Governable Capability Interfaces for Embodied Agents

Xue Qin et al.

cs.SE cs.AI

本文提出了一种基于合约的接口模型ECM Contracts, 用于具身智能体(embodied agents)的能力模块. 该模型定义了六个维度的接口规范, 并在此基础上构建了模块安装、组合与升级的兼容性检查框架. 原型评估表明, 该方法能有效减少不安全的模块组合.

Contract-Coding: Towards Repo-Level Generation via Structured Symbolic Paradigm

Yi Lin, Lujin Zhao, Yijie Shi

cs.SE cs.AI

本文提出了一种名为Contract-Coding的结构化符号范式，旨在解决意图驱动编程中上下文保真度与代码生成质量之间的权衡问题。该方法通过将模糊意图形式化为语言契约，作为单一事实来源，以提升仓库级代码生成的结构完整性和功能成功率。

Building Trust in the Skies: A Knowledge-Grounded LLM-based Framework for Aviation Safety

Anirudh Iyengar et al.

cs.SE cs.AI

本文提出了一个结合 Large Language Models (LLMs) 和 Knowledge Graphs (KGs) 的端到端框架，旨在提升航空安全分析的可靠性与可验证性。该框架通过自动化构建知识图谱并利用其进行检索增强生成，以减少 LLMs 的幻觉问题。

CCCE: A Continuous Code Calibration Engine for Autonomous Enterprise Codebase Maintenance via Knowledge Graph Traversal and Adaptive Decision Gating

Santhosh Kusuma Kumar Parimi

cs.SE cs.AI

本文提出了一种用于企业代码库维护的连续代码校准引擎(CCCE). 该系统通过知识图谱遍历和自适应决策门控, 旨在自动化地处理跨仓库的代码更新与依赖管理问题.

Can Coding Agents Be General Agents?

Maksim Ivanov, Abhijay Rana, Gokul Prabhakaran

cs.SE cs.AI cs.LG

本文探讨了编码智能体在端到端业务流程自动化等通用任务中的泛化能力。通过案例研究发现，智能体能可靠完成简单任务，但在复杂任务中表现出特征性失败，表明领域逻辑与代码执行之间的鸿沟是泛化的主要瓶颈。

Formal Architecture Descriptors as Navigation Primitives for AI Coding Agents

Ruoqi Jin

cs.SE cs.AI

本文研究了为AI编程代理提供形式化架构描述符是否能减少其在代码库探索中的导航开销. 通过三个实验, 作者发现架构上下文能显著减少导航步骤, 并提出了基于S-expression的描述符格式.

Applying an Agentic Coding Tool for Improving Published Algorithm Implementations

Worasait Suwannik

cs.SE cs.AI

本文提出了一种利用AI辅助改进已发表算法实现的两阶段流程. 该方法通过大语言模型筛选算法, 并利用编码工具进行迭代优化, 在多个领域实现了快速改进.

The Code Whisperer: LLM and Graph-Based AI for Smell and Vulnerability Resolution

Mohammad Baqar, Raji Rustamov, Alexander Hughes

cs.SE cs.AI

本文提出了一种结合图分析与大语言模型的混合框架, 用于检测和修复代码异味与安全漏洞. 该方法通过整合多种程序表示来联合学习结构与语义信号, 并在评估中显示出优于单一方法的性能.

AgentForge: Execution-Grounded Multi-Agent LLM Framework for Autonomous Software Engineering

Rajesh Kumar et al.

cs.SE cs.AI

本文提出了一个名为AgentForge的多智能体LLM框架，用于自主软件工程。该框架将执行验证作为核心原则，要求所有代码变更必须在沙箱中通过测试才能被采纳，从而提高了代码生成与问题解决的成功率。

Graph Propagated Projection Unlearning: A Unified Framework for Vision and Audio Discriminative Models

Shreyansh Pathak, Jyotishman Das

cs.CV cs.AI cs.SD

本文提出了一种名为Graph-Propagated Projection Unlearning (GPPU)的统一算法，用于在视觉和音频模型中实现类别级别的信息遗忘。该方法通过图传播识别特征空间中的类别特定方向，并将表征投影到正交子空间，再结合微调，以高效移除目标类信息。实验表明，该方法在多种模型架构上比现有方法快10-20倍，同时保持了模型在保留类别上的性能。

Learning Probabilistic Responsibility Allocations for Multi-Agent Interactions

Isaac Remy, Caleb Chang, Karen Leung

cs.MA cs.LG cs.RO eess.SY

本文提出了一种学习多智能体交互中概率责任分配的方法. 该方法利用条件变分自编码器的潜在空间, 结合轨迹预测技术, 从场景上下文中学习责任分配的概率分布.

Adaptive Learning via Off-Model Training and Importance Sampling for Fully Non-Markovian Optimal Stochastic Control. Complete version

Dorival Leão et al.

stat.ML cs.LG math.PR

本文针对完全非Markovian且含未知参数的连续时间随机控制问题, 提出了一种基于离散骨架和重要性采样的蒙特卡洛学习方法. 该方法通过构建显式的支配训练律和Radon-Nikodym权重, 实现了在参考律下生成固定合成数据集, 并利用重要性采样恢复目标模型动态规划算子的离模型训练架构.

The Distributional Tail of Worst-Case Quickselect

Witold Płecha

math.PR cs.DS

本文研究了由分布不动点方程定义的随机变量$S$的尾部性质, 该变量与Quickselect算法的最坏情况比较次数相关. 作者给出了$S$右尾的显式单边界, 并利用二叉搜索树嵌入和矩母函数比较等方法确定了其渐近增长率.

PatchPoison: Poisoning Multi-View Datasets to Degrade 3D Reconstruction

Prajas Wadekar et al.

cs.CV cs.CR cs.LG

本文提出了一种名为PatchPoison的轻量级数据集投毒方法，旨在通过在多视角图像的边缘注入一个高频对抗性补丁来破坏3D高斯溅射（3DGS）的重建过程。该方法通过干扰运动恢复结构（SfM）流程中的特征匹配，导致相机姿态估计错误，从而有效降低未经授权的3D重建质量，同时保持图像对人眼的不可察觉性。

HUANet: Hard-Constrained Unrolled ADMM for Constrained Convex Optimization

Trinh Tran, Binh Nguyen, Truong X. Nghiem

math.OC cs.LG eess.SY

本文提出了一种名为HUANet的深度神经网络架构, 用于求解约束凸优化问题. 该架构将ADMM (Alternating Direction Method of Multipliers) 迭代展开为一个可训练的神经网络, 并通过在网络输出端引入可微的校正阶段来严格满足等式约束.

Fast Voxelization and Level of Detail for Microgeometry Rendering

Javier Fabre et al.

cs.GR cs.LG

本文提出了一种用于微几何渲染的快速体素化与细节层次方法. 该方法包含一个高效的并行体素化流程和一个基于层次化SGGX聚类的表示, 以提升渲染精度与效率.

Inclusive Kitchen Design for Older Adults: Generative AI Visualizations to Support Mild Cognitive Impairment

Ibrahim Bilau et al.

cs.HC cs.AI

本文开发了一个基于生成式AI的系统, 用于将标准厨房照片转换为适合轻度认知障碍(MCI)老年人的设计. 该系统利用Stable Diffusion模型, 结合DreamBooth LoRA和ControlNet技术, 根据家居设计指南生成具有开放布局、透明橱柜等特征的厨房可视化图像. 用户调查表明, 生成的厨房设计在认知友好性方面获得了显著偏好.

Rare Event Analysis via Stochastic Optimal Control

Yuanqi Du et al.

stat.ML cs.LG math.OC physics.chem-ph

本文提出了一种基于随机最优控制(Stochastic Optimal Control, SOC)的框架来估计过渡路径理论(Transition Path Theory, TPT)中的核心量——承诺函数(committor function). 该框架将承诺函数估计转化为一个SOC问题, 并设计了两种互补的优化目标来求解, 从而更高效地采样稀有事件路径并计算相关动力学与热力学量.

Multitasking Embedding for Embryo Blastocyst Grading Prediction (MEmEBG)

Nahid Khoshk Angabini et al.

cs.CV cs.AI

本文提出了一种基于多任务嵌入的自动化囊胚质量评估方法. 该方法利用预训练的ResNet-18架构结合嵌入层, 从有限的胚胎图像数据中学习判别性表征, 以预测滋养层、内细胞团和囊胚扩张等级.

Identifiability of Potentially Degenerate Gaussian Mixture Models With Piecewise Affine Mixing

Danru Xu, Sébastien Lachapelle, Sara Magliacane

stat.ML cs.AI cs.LG math.ST

本文研究了在潜在变量服从可能退化的高斯混合分布且仅通过分段仿射混合函数观测情况下的因果表示学习问题. 针对概率密度函数因潜在退化而定义不良的挑战性设定, 作者提出了一种两阶段估计方法, 通过在学到的表示中强制稀疏性和高斯性来估计潜在变量.

SemiFA: An Agentic Multi-Modal Framework for Autonomous Semiconductor Failure Analysis Report Generation

Shivam Chand Kaushik

cs.CV cs.AI eess.IV

本文提出了一个名为SemiFA的多智能体框架，用于自动化生成半导体失效分析报告。该框架通过整合视觉模型与设备遥测数据，快速生成结构化报告，并在一个标注数据集上进行了评估。

A High-Resolution Landscape Dataset for Concept-Based XAI With Application to Species Distribution Models

Augustin de la Brosse et al.

cs.CV cs.LG

本文提出了一种基于概念的XAI方法用于物种分布模型(SDMs), 并为此发布了一个新的高分辨率景观概念数据集. 通过案例研究, 该方法被证明有助于验证模型并从预测中提取生态学见解.

On the Creativity of AI Agents

Giorgio Franceschelli, Mirco Musolesi

cs.CY cs.AI

本文从功能主义和本体论两个宏观视角分析了AI agent的创造力. 它认为当前的LLM agent展现出功能性的创造力, 但缺乏本体论层面的关键要素.

Lazy or Efficient? Towards Accessible Eye-Tracking Event Detection Using LLMs

Dongyang Guo, Yasmeen Abdrabou, Enkelejda Kasneci

cs.HC cs.AI

本文提出了一种基于LLM的无代码眼动追踪事件检测流程, 将自然语言指令转化为端到端的分析. 该系统简化了传统方法对编程和参数调整的依赖, 在公开基准测试上达到了与传统方法相当的精度, 降低了该领域的技术门槛.

4th Workshop on Maritime Computer Vision (MaCVi): Challenge Overview

Benjamin Kiefer et al.

cs.CV cs.AI cs.RO

本文概述了第四届海事计算机视觉研讨会(MaCVi 2026)的挑战赛设置, 包括五个基准挑战、评估协议、数据集和结果分析. 报告还收录了顶尖团队的技术报告, 并提供了相关资源链接.

GeoVision-Enabled Digital Twin for Hybrid Autonomous-Teleoperated Medical Responses

Parham Kebria, Soheil Sabri, Laura J Brattain

cs.RO cs.AI

本文提出了一种结合GeoVision能力的Digital Twin架构, 用于混合自主-遥操作医疗响应系统. 该框架集成了感知、自适应导航与实时同步的Digital Twin, 旨在提升远程操作者的态势感知和决策能力.

Rethinking Uncertainty in Segmentation: From Estimation to Decision

Saket Maganti

cs.CV cs.AI cs.LG

本文研究了医学图像分割中不确定性估计如何转化为实际决策的问题. 作者将分割建模为一个两阶段流程, 并指出仅优化不确定性无法充分利用其安全增益. 通过结合不同的不确定性来源与延迟策略, 实验表明在仅延迟25%像素的情况下可消除高达80%的分割错误.

Indexing Multimodal Language Models for Large-scale Image Retrieval

Bahey Tharwat et al.

cs.CV cs.CL cs.IR

本文提出了一种利用 Multimodal Large Language Models (MLLMs) 作为无需训练的相似度估计器，用于大规模图像检索的方法。该方法通过提示模型处理成对图像，并将下一个 token 的概率转换为相似度分数，实现了在检索流程中的零样本重排序。

DroneScan-YOLO: Redundancy-Aware Lightweight Detection for Tiny Objects in UAV Imagery

Yann V. Bellec

cs.CV cs.LG eess.IV

本文提出了一种用于无人机图像中小目标检测的轻量级方法 DroneScan-YOLO. 它通过增加输入分辨率, 引入动态剪枝机制, 添加高分辨率检测分支以及设计混合损失函数, 在 VisDrone 数据集上显著提升了小目标的检测精度, 同时保持了较高的推理速度.

Explainable Fall Detection for Elderly Care via Temporally Stable SHAP in Skeleton-Based Human Activity Recognition

Mohammad Saleh, Azadeh Tabatabaei

cs.CV cs.AI

本文提出了一种用于基于骨架的跌倒检测的轻量级可解释框架, 结合了高效的 LSTM 模型与 T-SHAP 方法. T-SHAP 通过对 SHAP 归因序列进行时间平滑, 提高了解释的时序稳定性, 在保持分类准确率的同时增强了临床可信度.

Structure- and Stability-Preserving Learning of Port-Hamiltonian Systems

Binh Nguyen, Nam T. Nguyen, Truong X. Nghiem

eess.SY cs.LG math.DS

本文提出了一种基于神经网络的 port-Hamiltonian 系统数据驱动建模方法。该方法放宽了对 Hamiltonian 函数的凸性约束，并能在学习过程中融入多个稳定平衡点的信息，从而在保持系统结构和稳定性方面取得了比基线方法更准确的结果。

Can Cross-Layer Transcoders Replace Vision Transformer Activations? An Interpretable Perspective on Vision

Gerasimos Chatzoudis et al.

cs.CV cs.AI

本文提出了一种称为Cross-Layer Transcoders (CLTs)的方法，用于解释Vision Transformers的内部激活。该方法通过编码器-解码器方案，从先前层的稀疏嵌入中重建每个MLP块后的激活，从而将最终表示分解为可加性的、分层解析的构造。实验表明，CLTs在保持重建保真度的同时，其产生的跨层贡献分数能够提供忠实的归因，揭示了最终表示集中在少数主导的层间项中。

Deep Spatially-Regularized and Superpixel-Based Diffusion Learning for Unsupervised Hyperspectral Image Clustering

Vutichart Buranasiri, James M. Murphy

cs.CV cs.LG

本文提出了一种用于高光谱图像(HSI)无监督聚类的框架$DS^2DL$, 它结合了掩码深度表示学习与基于扩散的聚类. 该方法首先通过基于Vision Transformer的无监督掩码自编码器(UMAE)学习去噪的潜在表示, 然后利用熵率超像素(ERS)算法和空间正则化扩散图进行聚类. 在Botswana和KSC数据集上的实验验证了其有效性.

The Spectrascapes Dataset: Street-view imagery beyond the visible captured using a mobile platform

Akshit Gupta et al.

cs.CV cs.LG

本文介绍了一个名为Spectrascapes的新型多光谱街景图像数据集, 包含RGB, 近红外和热成像数据, 并提供了数据采集与校准方法. 该数据集旨在支持机器学习, 城市规划和遥感等领域的研究.

Event Tensor: A Unified Abstraction for Compiling Dynamic Megakernel

Hongyi Jin et al.

cs.DC cs.LG cs.PL

本文提出了一种名为Event Tensor的统一编译器抽象, 用于处理动态形状和数据依赖计算的megakernel编译. 基于此抽象构建的编译器ETC能够生成高性能的持久化内核, 在LLM推理等任务中实现了先进的延迟性能.

Finetuning-Free Diffusion Model with Adaptive Constraint Guidance for Inorganic Crystal Structure Generation

Auguste de Lambilly et al.

cond-mat.mtrl-sci cs.AI

本文提出了一种基于扩散模型的自适应约束引导生成框架, 用于无机晶体结构生成. 该方法通过整合用户定义的物理化学约束和多步验证流程, 旨在生成热力学上合理且满足几何约束的候选结构.

A 3D SAM-Based Progressive Prompting Framework for Multi-Task Segmentation of Radiotherapy-induced Normal Tissue Injuries in Limited-Data Settings

Caiwen Jiang, Lei Zeng, Wei Liu

cs.CV cs.AI

本文提出了一种基于3D SAM的渐进式提示框架, 用于在有限数据场景下对放疗引起的正常组织损伤进行多任务分割. 该方法通过整合文本提示, 剂量引导的框提示和点击提示来提升分割性能, 并在头颈部损伤数据集上验证了其有效性.

AeTHERON: Autoregressive Topology-aware Heterogeneous Graph Operator Network for Fluid-Structure Interaction

Sushrut Kumar

physics.comp-ph cs.LG physics.flu-dyn

本文提出了一种名为AeTHERON的异构图神经算子, 用于流体-结构相互作用(FSI)的代理建模. 该模型采用双图表示分离流体和结构域, 并通过稀疏交叉注意力耦合, 在尾鳍拍动的基准问题上进行了评估, 实现了快速推理.

Young people's perceptions and recommendations for conversational generative artificial intelligence in youth mental health

Adam Poulsen et al.

cs.HC cs.AI

本文通过协同设计工作坊, 探讨了年轻人对用于心理健康支持的生成式AI对话代理(genAI chatbots)的看法与需求. 研究提出了四个关键主题, 并为这类AI系统的伦理、设计和服务整合提供了建议.

On the Use of Evolutionary Optimization for the Dynamic Chance Constrained Open-Pit Mine Scheduling Problem

Ishara Hewa Pathiranage, Aneta Neumann

cs.NE cs.AI

本文针对动态机会约束露天矿调度问题, 提出了一种基于多样性的变化响应机制. 该机制在检测到动态变化时修复不可行解并引入新解, 实验表明其在多种进化算法中优于基准方法.

A short proof of near-linear convergence of adaptive gradient descent under fourth-order growth and convexity

Damek Davis, Dmitriy Drusvyatskiy

math.OC cs.LG stat.ML

本文针对满足四阶增长条件和凸性的光滑函数, 提出了一种基于Lyapunov函数的简洁证明, 表明自适应步长的梯度下降法具有近线性局部收敛速率. 该证明比原有分析更直接, 并由此导出了一个更具适应性的算法变体.

Estimating Continuous Treatment Effects with Two-Stage Kernel Ridge Regression

Seok-Jin Kim, Kaizheng Wang

stat.ME cs.LG stat.ML

本文提出了一种两阶段核岭回归方法来估计连续处理变量的效应函数. 该方法通过构建伪结果来校正分布偏移, 并引入数据驱动的模型选择程序.

DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

Cheng-You Lu et al.

cs.CV cs.AI

本文提出了一个用于无干扰物新视角合成的大规模真实世界数据集 DF3DV-1K, 包含超过一千个场景的清洁与杂乱图像对. 作者基于该数据集对现有方法进行了基准测试, 并展示了其在提升辐射场方法性能上的应用潜力.

The Cognitive Circuit Breaker: A Systems Engineering Framework for Intrinsic AI Reliability

Jonathan Pan

cs.SE cs.AI

本文提出了一种名为"Cognitive Circuit Breaker"的系统工程框架，旨在为大型语言模型(LLM)提供内在的可靠性监控。该框架通过提取模型前向传播过程中的隐藏状态，计算"认知失调差值"来检测模型输出中的幻觉等问题，并声称能以极低的延迟开销实现这一目标。

Event-Adaptive State Transition and Gated Fusion for RGB-Event Object Tracking

Jinlin You, Muyu Li, Xudong Zhao

cs.CV cs.AI

本文提出了一种基于动态状态空间模型的多模态目标跟踪框架MambaTrack. 它通过事件自适应的状态转移机制和门控投影融合模块, 提升了RGB-Event跟踪在事件流稀疏度变化下的鲁棒性.

A Unified Conditional Flow for Motion Generation, Editing, and Intra-Structural Retargeting

Junlin Li et al.

cs.GR cs.AI cs.CV

本文提出了一种基于 rectified flow 的统一条件生成框架，将文本驱动的运动编辑和同构重定向视为同一类条件传输任务。该模型使用 DiT 风格的 transformer 架构，结合多条件分类器引导，在单一模型中实现了文本到运动生成、零样本编辑和零样本重定向。

MaMe & MaRe: Matrix-Based Token Merging and Restoration for Efficient Visual Perception and Synthesis

Simin Huo, Ning Li

cs.CV cs.AI

本文提出了一种基于矩阵运算的token合并方法MaMe及其逆操作MaRe, 用于加速Vision Transformers. 该方法在多种视觉任务中实现了显著的推理加速, 同时保持了模型性能.

A Study of Failure Modes in Two-Stage Human-Object Interaction Detection

Lemeng Wang et al.

cs.CV cs.AI

本文对 two-stage HOI detection 模型的 failure modes 进行了系统性研究. 通过将检测任务分解为多个可解释的维度, 作者在特定场景配置下分析了模型的失败模式, 指出高基准性能并不等同于对 human-object relationships 的鲁棒推理.

Learning from Change: Predictive Models for Incident Prevention in a Regulated IT Environment

Eileen Kapel et al.

cs.SE cs.AI cs.CE cs.LG

本文在一个受监管的IT环境中，应用可解释的机器学习模型来预测变更部署可能引发的事故风险。研究比较了多种模型，发现LightGBM在加入团队聚合指标后表现最佳，能够在满足审计要求的同时超越基于规则的方法。

Functional Emotions or Situational Contexts? A Discriminating Test from the Mythos Preview System Card

Hiranya V. Peiris

cs.HC cs.AI cs.CL cs.LG

本文通过分析Claude Mythos Preview系统卡中的emotion vectors和sparse autoencoder (SAE) features，提出了两个关于模型内部表征的竞争性假设。作者认为，可以通过一个未报告的测试来区分这些假设，从而评估基于情绪的监控方法在检测危险模型行为上的有效性。

Secure and Privacy-Preserving Vertical Federated Learning

Shan Jin et al.

cs.CR cs.AI cs.DC

本文针对纵向联邦学习中特征分散且标签不共享的场景, 提出了一种保护输入与输出隐私的端到端框架. 该框架通过将聚合器角色分配给多个服务器, 结合安全多方计算(MPC)和差分隐私(DP)技术, 在减少计算与通信开销的同时实现了隐私保护.

Joint Representation Learning and Clustering via Gradient-Based Manifold Optimization

Sida Liu, Yangzi Guo, Mingyuan Wang

stat.ML cs.LG

本文提出了一种基于梯度流形优化的联合表示学习与聚类框架. 该方法通过流形上的梯度优化, 同时学习降维参数(如线性投影或神经网络)与聚类结构(如在高斯混合模型框架下). 实验表明, 该方法在模拟数据和MNIST数据集上优于一些流行的聚类算法.

Robust Low-Rank Tensor Completion based on M-product with Weighted Correlated Total Variation and Sparse Regularization

Biswarup Karmakar, Ratikanta Behera

stat.ML cs.LG math.OC

本文提出了一种基于M-product的鲁棒低秩张量补全方法, 结合了加权相关全变分(TWCTV)和稀疏正则化. 该方法通过自适应加权方案和增强的ADMM算法, 在图像补全等任务上取得了优于基准方法的性能.

Free Lunch for Unified Multimodal Models: Enhancing Generation via Reflective Rectification with Inherent Understanding

Yibo Jiang et al.

cs.CV cs.AI

本文提出了一种名为UniRect-CoT的训练后优化框架，旨在解决统一多模态模型中理解与生成能力不匹配的问题。该框架通过模拟人类“边画边想”的反思过程，利用模型自身强大的理解能力来激活内部知识并修正生成过程中的中间结果，从而在不额外训练的情况下提升生成质量。

Cross-Layer Co-Optimized LSTM Accelerator for Real-Time Gait Analysis

Mohammad Hasan Ahmadilivani et al.

cs.AR cs.LG

本文提出了一种针对实时步态分析的跨层协同优化LSTM加速器ASIC设计。通过从软件到版图的全面设计空间探索，在硬件复杂度和精度之间取得了平衡，其物理实现能够以远超应用要求的速度完成精确的异常步态检测。

CLIP Architecture for Abdominal CT Image-Text Alignment and Zero-Shot Learning: Investigating Batch Composition and Data Scaling

Shivika, Kartik Bose, Pankaj Gupta

cs.CV cs.AI

本文研究了在3D腹部CT图像与放射学报告对齐任务中, 训练批次(batch)的组成对模型性能的影响. 通过控制批次中正常与异常样本的比例以及进行数据规模消融实验, 发现显式的类别平衡策略会损害模型性能, 而随机采样提供的随机多样性结合解剖子区域的交替批处理能提供更有效的正则化.

UHR-BAT: Budget-Aware Token Compression Vision-Language model for Ultra-High-Resolution Remote Sensing

Yunkai Dang et al.

cs.CV cs.AI

本文提出了一种针对超高分辨率遥感图像的视觉语言模型UHR-BAT, 它通过查询引导和区域保真的token压缩框架, 在严格的计算预算下高效选择视觉token. 该方法利用文本引导的多尺度重要性估计来应对精确且低成本特征提取的挑战, 并通过区域保留与合并策略减少token冗余, 在多个基准测试上取得了先进的性能.

Comparison of window shapes and lengths in short-time feature extraction for classification of heart sound signals

Mahmoud Fakhry, Abeer FathAllah Brery

cs.SD cs.AI

本文通过实验评估了不同窗函数形状和长度对心音信号分类性能的影响. 研究发现, 使用Gaussian窗在75 ms长度时能获得最佳分类效果, 而常用的rectangular窗表现最差.

Data-driven Learning of Probabilistic Model of Binary Droplet Collision for Spray Simulation

Weiming Xu, Tao Yang, Peng Zhang

physics.flu-dyn cs.LG

本文利用LightGBM机器学习方法, 基于大量实验数据构建了一个二元液滴碰撞的概率模型. 该模型能高精度预测碰撞状态, 并通过多项式逻辑回归和偏置采样机制, 为喷雾模拟提供了一个物理一致且易于使用的随机碰撞结果生成方案.

Irregularly Sampled Time Series Interpolation for Binary Evolution Simulations Using Dynamic Time Warping

Ugur Demir et al.

astro-ph.SR cs.LG

本文提出了一种基于Dynamic Time Warping (DTW)的新方法，用于对齐和平均双星演化模拟中不规则采样的时间序列数据。该方法通过计算所有物理参数的共享扭曲路径，将它们置于一致的时间网格上，从而在插值轨道中保持了关键的物理关系。

SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment

Xixun Lin et al.

cs.CR cs.AI

本文提出了一种名为SafeHarness的安全架构，用于保护基于LLM的智能体部署。该架构将多个防御层集成到智能体生命周期中，以降低不安全行为率和攻击成功率。

A Mechanistic Analysis of Sim-and-Real Co-Training in Generative Robot Policies

Yu Lei et al.

cs.RO cs.AI cs.LG

本文通过理论分析和实验研究探讨了仿真与真实数据协同训练生成式机器人策略的内在机制, 识别了两种主导性能的内在效应. 研究为理解协同训练的有效性提供了新的视角, 并基于此提出了一种改进方法.

Automatic Charge State Tuning of 300 mm FDSOI Quantum Dots Using Neural Network Segmentation of Charge Stability Diagram

Peter Samaha et al.

cond-mat.mes-hall cs.CV cs.LG

本文提出了一种基于深度学习语义分割的自动电荷调控方法, 用于定位硅基量子点器件电荷稳定图中的电荷跃迁线, 以实现单电荷态的自动调节. 该方法在包含多种器件设计的实验数据集上进行了训练与验证, 展示了较高的离线调控成功率, 并分析了主要失败模式及改进方向.

Automatically Inferring Teachers' Geometric Content Knowledge: A Skills Based Approach

Ziv Fenigstein et al.

cs.CY cs.AI cs.LG

本文提出了一种基于技能字典和大语言模型的自动化方法, 用于评估教师的Van Hiele几何推理水平. 该方法通过整合细粒度的推理技能信息, 在两种分类模型上都显著提升了分类性能.

node2vec or triangle-biased random walks: stationarity, regularity & recurrence

Luca Avena et al.

math.PR cs.LG

本文研究了node2vec随机游走，这是一种用于网络嵌入的非马尔可夫二阶随机游走。作者通过将其提升到有向边和有向楔形（wedge）的状态空间，得到了两个关键的马尔可夫表示，并以此分析了其在有限或无限图上的遍历性、可逆性、常返性和不变测度。研究发现，与自然边表示下简化的非回溯随机游走不同，node2vec随机游走在正则图上通过其楔形表示会简化，并揭示了图的正则性与一个加权欧拉条件等价。

EMGFlow: Robust and Efficient Surface Electromyography Synthesis via Flow Matching

Boxuan Jiang, Chenyun Dai, Can Han

cs.HC cs.LG

本文提出了一种基于Flow Matching的sEMG信号生成框架EMGFlow, 用于解决手势识别中的数据稀缺问题. 该方法在多个基准数据集上进行了评估, 在生成质量和效率之间取得了较好的平衡.

VIGILant: an automatic classification pipeline for glitches in the Virgo detector

Tiago Fernandes et al.

gr-qc astro-ph.IM cs.LG

本文介绍了用于Virgo引力波探测器数据中glitch自动分类与可视化的机器学习流程VIGILant. 该流程评估了基于结构化参数的树模型和基于频谱图的卷积神经网络, 其中ResNet34模型在测试集上取得了最佳性能, 并已部署用于日常监测.

Beyond Voxel 3D Editing: Learning from 3D Masks and Self-Constructed Data

Yizhao Xu et al.

cs.CV cs.AI

本文提出了一个超越体素的三维编辑框架(BVE), 并构建了一个大规模的自建数据集. 该框架通过在基础图像到三维生成架构中添加轻量级可训练模块来注入文本语义, 并引入无标注的三维掩码策略以保持编辑过程中的局部不变性.

Med-CAM: Minimal Evidence for Explaining Medical Decision Making

Pirzada Suhail, Aditya Anand, Amit Sethi

cs.CV cs.AI

本文提出了一种用于医学影像决策解释的Med-CAM框架。它通过训练一个分割网络来生成最小证据掩码，以提供更精确和可靠的解释。

MIND: AI Co-Scientist for Material Research

Geonhee Ahn et al.

cs.MA cs.AI cs.CE

本文提出了一个名为MIND的、由LLM驱动的多智能体框架，用于材料研究中的自动化假设验证。该框架将科学发现过程组织为假设提炼、实验和基于辩论的验证，并集成了机器学习原子间势能进行硅基实验验证。

Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt

Yanfeng Shi et al.

cs.SD cs.AI

本文提出了一种名为Audio-Side Time Prompt的方法，并结合Reinforcement Learning (RL)构建了TimePro-RL框架，旨在提升大型音频-语言模型在细粒度时间感知方面的能力。该方法通过在音频特征序列中插入时间戳嵌入来提示模型，并在监督微调后使用RL直接优化时间对齐性能。实验表明，该框架在音频定位、声音事件检测等任务上取得了显著提升。

Reachability Constraints in Variational Quantum Circuits: Optimization within Polynomial Group Module

Yun-Tak Oh et al.

quant-ph cs.CC cs.ET cs.LG

本文探讨了variational quantum circuits在精确到达基态时需满足的必要条件, 指出输入态与目标态在各group module上的投影范数必须匹配. 作者以matchgate circuits为例, 结合已知的经典可模拟性结果, 说明对于某些问题(如Maximum Cut)存在时间复杂度为$O(n^5)$的经典替代求解方法.

Covariance-adapting algorithm for semi-bandits with application to sparse rewards

Pierre Perrault, Vianney Perchet, Michal Valko

stat.ML cs.LG

本文针对stochastic combinatorial semi-bandits问题，提出了一种适应协方差结构的算法。作者将分析从sub-Gaussian分布推广到更一般的sub-exponential分布族，并给出了一个与未知协方差矩阵相关的更紧的regret下界。所设计的算法利用协方差估计，在稀疏奖励等场景中具有应用潜力。

Design and Behavior of Sparse Mixture-of-Experts Layers in CNN-based Semantic Segmentation

Svetlana Pavlitska et al.

cs.CV cs.LG

本文探讨了在基于CNN的语义分割模型中集成稀疏MoE层的方法, 提出了一种基于图像块(patch)的粗粒度路由方案. 实验表明该方法能以较低计算开销提升模型性能, 但其效果对架构设计较为敏感.

A Dynamic-Growing Fuzzy-Neuro Controller, Application to a 3PSP Parallel Robot

Mohsen Jalaeian-Farimani et al.

eess.SY cs.AI cs.LG cs.NE cs.RO

本文提出了一种动态增长的模糊神经控制器(DGFNC), 并将其与自适应策略结合, 应用于3PSP并联机器人的位置控制. 该方法通过保守地增加新规则来简化结构, 并利用基于滑模的非线性控制器来保证系统稳定性.

Who Gets Flagged? The Pluralistic Evaluation Gap in AI Content Watermarking

Alexander Nemecek et al.

cs.CY cs.CL cs.CR cs.CV

本文探讨了AI内容水印技术在不同语言、文化和人口群体中可能存在的检测偏差问题. 作者指出当前水印评估基准普遍缺乏多元性评估, 并提出了三个具体的评估维度以填补这一空白.

Artificial intelligence application in lymphoma diagnosis with Vision Transformer using weakly supervised training

Nghia et al.

cs.CV cs.LG

本文探讨了在淋巴瘤诊断中应用Vision Transformer (ViT)模型, 并比较了完全监督与弱监督训练策略. 研究表明, 通过弱监督训练(在整张切片层面自动标注图像块)的ViT模型, 在更大数据集上取得了具有临床实用价值的诊断性能指标.

Gaslight, Gatekeep, V1-V3: Early Visual Cortex Alignment Shields Vision-Language Models from Sycophantic Manipulation

Arya Shah et al.

cs.CV cs.AI

本文研究了视觉-语言模型(VLMs)的对抗鲁棒性与其视觉表征和人类大脑视觉皮层活动对齐程度之间的关系. 研究发现, 模型在早期视觉皮层(V1-V3)的脑对齐(brain alignment)与模型对奉承性操纵(sycophantic manipulation)的抵抗力呈负相关, 表明低层视觉编码的保真度可能有助于模型抵抗对抗性语言覆盖.

Cognitive Offloading in Agile Teams: How Artificial Intelligence Reshapes Risk Assessment and Planning Quality

Adriana Caraeni, Alexander Shick, Andrew Lan

cs.HC cs.AI

本文通过实验比较了AI-only, human-only和hybrid三种敏捷冲刺规划模型, 发现纯AI规划在效率上最优但风险捕获率低, 而纯人工规划适应性强但开销大. 基于此, 作者提出了一个理论框架, 主张将算法工具用于估算和待办事项格式化, 而将风险评估和模糊性解决交由人工审议.

Sentiment analysis for software engineering: How far can zero-shot learning (ZSL) go?

Reem Alfayez, Manal Binkhonain

cs.SE cs.AI

本文探讨了零样本学习(ZSL)在软件工程领域情感分析任务中的应用潜力. 实验表明, 结合专家定义标签的ZSL模型可以达到与微调Transformer模型相当的性能, 为缓解标注数据稀缺问题提供了一种可行方案.

Randomized Neural Networks for Integro-Differential Equations with Application to Neutron Transport

Haoning Dang et al.

math.NA cs.LG

本文提出了一种基于随机神经网络(RaNN)的配点法, 用于求解线性积分-微分方程. 该方法通过固定隐藏层参数, 将训练简化为输出层权重的凸最小二乘问题, 从而降低了计算成本. 数值实验以稳态中子输运方程为例, 展示了该方法相对于基准模型的高效性.

MCPThreatHive: Automated Threat Intelligence for Model Context Protocol Ecosystems

Yi Ting Shen, Kentaroh Toyoda, Alex Leung

cs.CR cs.AI

本文介绍了一个名为MCPThreatHive的开源平台, 用于自动化处理Model Context Protocol (MCP)生态系统的威胁情报. 该平台集成了从数据收集到可视化的完整流程, 并采用了一个包含38种威胁模式的分类法进行风险评估.

Gradient Descent's Last Iterate is Often (slightly) Suboptimal

Guy Kornowski, Ohad Shamir

math.OC cs.LG

本文证明了对于梯度下降(GD)及其随机变体(SGD)，在任意时间步长(anytime stepsize)设置下，其最后迭代点(last iterate)的收敛速率无法达到最优的$O(1/\sqrt{T})$，而必然存在一个多对数(poly-log)因子的次优性。这一结果证实了Jain等人的猜想，并表明这种（轻微）次优的停止时间在GD中也是不可避免的。

Context Sensitivity Improves Human-Machine Visual Alignment

Frieda Born et al.

cs.CV cs.LG

本文提出了一种基于神经网络嵌入的上下文敏感相似度计算方法, 用于建模以锚点图像为上下文的"三选一"任务. 该方法在多个视觉基础模型上, 相比上下文不敏感模型, 将任务准确率提升了最高15%. 这表明融入上下文信息可以改善模型与人类视觉判断的对齐.

Sandpile Economics: Theory, Identification, and Evidence

Diego Vallarino

physics.soc-ph cs.LG econ.EM econ.TH stat.ML

本文提出了一个名为"Sandpile Economics"的框架, 将宏观经济不稳定性解释为生产网络非均衡演化的一种涌现属性. 其核心是使用输入-输出图的Forman-Ricci曲率作为衡量网络局部脆弱性的状态变量, 并通过实证分析表明曲率能预测中期产出动态.

Beyond Conservative Automated Driving in Multi-Agent Scenarios via Coupled Model Predictive Control and Deep Reinforcement Learning

Saeed Rahmani et al.

cs.RO cs.AI eess.SY

本文提出了一种结合Model Predictive Control (MPC)与Deep Reinforcement Learning (RL)的框架，用于提升自动驾驶车辆在无信号交叉口等复杂多智能体场景中的导航性能。该框架旨在平衡安全性与效率，实验表明其性能优于单独的MPC或端到端RL方法。

Nested Fourier-enhanced neural operator for efficient modeling of radiation transfer in fires

Anran Jiao et al.

physics.flu-dyn cs.LG physics.comp-ph

本文提出了一种基于 Fourier-enhanced multiple-input neural operators (Fourier-MIONet) 的机器学习框架，用于高效替代辐射传输方程 (RTE) 的直接数值求解。该方法在 3D 火灾模拟中实现了快速且准确的辐射场预测，显著降低了计算成本。

CollabCoder: Plan-Code Co-Evolution via Collaborative Decision-Making for Efficient Code Generation

Duy Tung Doan et al.

cs.SE cs.CL

本文提出了一种名为CollabCoder的Plan-Code Co-Evolution框架，通过动态的多智能体协作来改进代码生成。该方法在保证性能的同时，显著降低了计算开销，并在更具挑战性的基准测试中表现出优势。

Parallel Algorithms for Group Isomorphism via Code Equivalence

Michael Levet

cs.CC cs.DS math.GR

本文改进了特定群族（互质扩张与中心根群）的同构判定算法, 将其并行化至$\textsf{AC}^{3}$电路复杂度类. 核心是将群论方法与线性码等价问题的小实例相结合.

Creo: From One-Shot Image Generation to Progressive, Co-Creative Ideation

Zoe De Simone et al.

cs.HC cs.AI cs.CV

本文提出了一种名为Creo的多阶段文本到图像生成系统, 旨在通过从草图到高分辨率输出的渐进式生成过程, 改善用户对生成过程的控制力和创造力. 该系统通过引入可编辑的中间抽象表示和锁定机制, 使用户能够在不同阶段进行增量修改, 从而增强用户的参与感和对最终结果的归属感.

Block-Based Pathfinding: A Minecraft System for Visualizing Graph Algorithms

Luca-Stefan Pirvu et al.

cs.HC cs.CY cs.DS

本文介绍了一个基于Minecraft的教育工具，用于可视化图遍历和最短路径算法。该系统包含多个交互模块，旨在通过游戏化体验帮助学生理解抽象的图论概念。

Towards Multi-Object-Tracking with Radar on a Fast Moving Vehicle: On the Potential of Processing Radar in the Frequency Domain

Tim Hansen et al.

cs.RO cs.AI cs.CV eess.IV eess.SP

本文提出在频域处理雷达数据以提高对噪声和结构误差的鲁棒性, 尤其适用于存在自身运动和多个未知运动物体的高动态场景. 该方法基于相关性, 能提供场景中所有运动结构的信息, 并以自动驾驶赛车中的超车场景为例进行了初步实验验证.

Stochastic Trust-Region Methods for Over-parameterized Models

Aike Yang, Hao Wang

math.OC cs.LG

本文提出了一个统一的随机信赖域框架, 用于解决过参数化模型中的优化问题. 该方法避免了手动步长调整, 并在无约束和等式约束问题上分别给出了收敛性分析和数值实验验证.

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Weijie Wang et al.

cs.CV cs.AI cs.GR

本文是一篇关于前馈式3D场景建模的综述性论文。它提出了一种以模型设计策略为中心的新颖分类法，并讨论了该领域的未来方向。

Large Language Models to Enhance Business Process Modeling: Past, Present, and Future Trends

João Bettencourt, Sérgio Guerreiro

cs.SE cs.AI cs.IR

本文回顾了利用大型语言模型(LLM)将自然语言转换为业务流程模型(BPMN)的研究进展。文章分析了现有方法的演变、整合方式及评估实践，并指出了当前面临的挑战与未来的研究方向。

A Comparative Study of Dynamic Programming and Reinforcement Learning in Finite Horizon Dynamic Pricing

Lev Razumovskiy, Nikolay Karenin

econ.GN cs.LG

本文在有限时域动态定价问题中, 系统比较了基于数据估计需求的拟合动态规划(DP)方法与强化学习(RL)方法. 研究分析了它们在从单一类型基准到具有异质性需求和跨期收益约束的多类型环境中的性能表现.

Multistage Conditional Compositional Optimization

Buse Şen, Yifan Hu, Daniel Kuhn

math.OC cs.LG stat.ML

本文针对多阶段条件复合优化(MCCO)问题, 提出了一种新的多级Monte Carlo方法. 该方法显著降低了传统嵌套采样方法中场景复杂度随嵌套层数指数级增长的问题, 使其仅随精度多项式增长.

UMI-3D: Extending Universal Manipulation Interface from Vision-Limited to 3D Spatial Perception

Ziming Wang

cs.RO cs.AI

本文提出了一种名为UMI-3D的多模态扩展系统，用于增强机器人操作中的数据采集。该系统通过集成低成本LiDAR传感器，改进了原有视觉系统的局限，提升了在复杂环境下的数据质量和策略性能。

UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Fei Tang et al.

cs.CV cs.AI cs.CL

本文提出了一种名为UI-Zoomer的自适应放大框架，用于提升GUI（图形用户界面）元素定位的精度。该方法基于预测不确定性来动态决定是否进行放大以及放大的区域大小，无需额外训练即可在多个基准数据集上取得性能提升。

HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System

Tianshuo Yang et al.

cs.CV cs.AI cs.RO

本文提出了一个名为HiVLA的分层机器人操作框架, 它将高级语义规划与低级运动控制解耦. 该框架使用一个VLM进行任务分解和视觉定位以生成结构化计划, 并引入一个配备级联交叉attention机制的扩散Transformer动作专家来执行计划.

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Dinging Li et al.

cs.CV cs.CL

本文提出了一个名为SpatialEvo的自进化框架，用于三维空间推理任务。该框架通过一个确定性的几何环境来生成无噪声的训练数据，避免了传统自训练中错误累积的问题，并在多个基准测试上取得了领先的性能。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others