bluearXiv-ai - 2026-03-18

📄 所有论文 ↑ 回顶部

cs.LG

Beyond Reward Suppression: Reshaping Steganographic Communication Protocols in MARL via Dynamic Representational Circuit Breaking ⭐ 精选

Liu Hung Ming

cs.LG cs.AI cs.CL cs.IT cs.MA

本文提出了一种名为动态表征电路断路器(DRCB)的架构防御方法, 用于检测和抑制去中心化多智能体强化学习(MARL)中的隐写式共谋. 该方法在优化底层进行操作, 利用Vector Quantized Variational Autoencoder (VQ-VAE)将不可观测的智能体间消息转换为可审计的统计对象, 并通过监控Jensen-Shannon Divergence漂移等信号来计算共谋分数. 当分数超过阈值时, 系统会触发包括梯度空间惩罚注入和代码簿(codebook)重排在内的四级干预措施. 实验表明, DRCB能有效提升监控器的准确率并降低波动, 同时通过诱导"语义退化"来阻止复杂的隐写编码, 为自主系统的部署前审计提供了一条技术路径.

GIST: Gauge-Invariant Spectral Transformers for Scalable Graph Neural Operators ⭐ 精选

Mattia Rigotti, Nicholas Thumiger, Thomas Frick

cs.LG

本文提出了一种名为GIST的新型图Transformer架构，旨在解决图结构数据上位置编码的计算复杂性与规范不变性（gauge invariance）难题。该架构通过随机投影实现$\mathcal{O}(N)$的线性复杂度，并利用基于内积的注意力机制算法性地保证了规范不变性，从而实现了离散化不变的学习。理论证明其具有有界的失配误差，实验表明其在标准图基准和高达75万节点的大规模网格神经算子基准上均达到了最先进的性能。

One Operator to Rule Them All? On Boundary-Indexed Operator Families in Neural PDE Solvers

Lennon J. Shikhman

cs.LG cs.AI math.NA

本文探讨了神经网络求解 PDE 时对边界条件的处理方式, 指出标准方法学习的是一个依赖于训练数据中边界条件分布的算子族, 而非单一的边界无关算子. 理论分析和在 Poisson 方程上的实验表明, 这导致了模型在边界条件分布外泛化能力的显著下降.

Tokenization Tradeoffs in Structured EHR Foundation Models

Lin Lawrence Guo et al.

cs.LG cs.CL

本文研究了结构化电子健康记录(EHR)基础模型中tokenization设计对下游任务性能和计算效率的影响. 通过对比不同的事件编码、时间编码和工作流标注方案, 发现联合事件编码与位置时间编码的组合在多数预测任务上表现更优且计算更高效.

XLinear: Frequency-Enhanced MLP with CrossFilter for Robust Long-Range Forecasting

Xiang Ao

cs.LG cs.AI

本文提出了一种基于MLP的时间序列预测模型XLinear, 通过将序列分解为趋势项和季节项并分别处理来提升长程依赖的捕捉能力. 模型对趋势项使用增强的频率注意力(EFA)在频域操作, 对季节项使用交叉滤波块(CrossFilter Block)以保持对噪声的鲁棒性, 实验表明其性能优于其他MLP基线.

Alternating Reinforcement Learning with Contextual Rubric Rewards

Guangchen Lan

cs.LG cs.AI cs.CL

本文提出了一个名为ARL-RR的强化学习框架，用于处理基于多维量规的奖励。该方法通过交替优化不同的奖励维度来避免固定权重标量化的问题，并在实验中显示出性能提升。

Steering Frozen LLMs: Adaptive Social Alignment via Online Prompt Routing

Zeyu Zhang et al.

cs.LG cs.AI

本文提出了一种名为CCLUB的在线提示路由框架，用于在推理阶段动态引导冻结的大型语言模型，以适应变化的安全规范。该方法通过共识聚类机制整合数据，在实验中提升了累积奖励并减少了次优性差距。

How to Achieve Prototypical Birth and Death for OOD Detection?

Ningkang Peng et al.

cs.LG cs.CV

本文提出了一种名为PID的动态原型学习方法, 用于Out-of-Distribution (OOD)检测. 该方法通过模拟生物过程的原型"诞生"与"死亡"机制, 根据数据复杂度自适应调整原型数量, 从而学习到更紧凑且分离性更好的In-Distribution (ID)嵌入表示. 实验表明, 该方法在CIFAR-100等基准测试上取得了先进的性能.

A federated learning framework with knowledge graph and temporal transformer for early sepsis prediction in multi-center ICUs

Yue Chang et al.

cs.LG cs.AI

本文提出了一个结合 federated learning, medical knowledge graph 和 temporal transformer 的框架, 用于多中心 ICU 的早期脓毒症预测. 该方法在保护数据隐私的同时, 通过整合结构化医学知识和时序依赖关系, 在 MIMIC-IV 和 eICU 数据集上取得了优于传统方法的预测性能.

Discovering the Hidden Role of Gini Index In Prompt-based Classification

Ruixi Lin

cs.LG cs.AI cs.CV

本文探讨了Gini Index在基于prompt的分类任务中作为检测和优化类别准确率差异工具的作用. 通过案例分析和实验, 提出了一种与模型无关的后处理偏置缓解方法, 并在多个数据集上验证了其有效性.

Attribution-Guided Model Rectification of Unreliable Neural Network Behaviors

Peiyu Yang et al.

cs.LG cs.AI cs.CV

本文提出了一种基于归因引导的模型修正框架, 利用 rank-one model editing 来定位并修正神经网络在受损样本非鲁棒特征上的不可靠行为. 该方法旨在减少对大量清洗样本的依赖, 并通过实验在多种不可靠行为场景下验证了其有效性.

Spectral Edge Dynamics of Training Trajectories: Signal--Noise Geometry Across Scales

Yongzhong Xu

cs.LG cs.AI

本文提出了一种名为 Spectral Edge Dynamics (SED) 的方法，用于分析大规模 transformer 模型训练轨迹中的结构。该方法通过滑动窗口 SVD 识别出参数更新中相干优化方向与随机噪声之间的 sharp boundary，并观察到 spectral edge 随训练呈现普遍的三阶段模式。

Flood Risk Follows Valleys, Not Grids: Graph Neural Networks for Flash Flood Susceptibility Mapping in Himachal Pradesh with Conformal Uncertainty Quantification

Paras Sharma, Swastika Sharma

cs.LG

本文提出了一种基于Graph Neural Network (GraphSAGE)的方法，用于绘制印度喜马偕尔邦的山洪敏感性地图。该方法利用流域连通性图来建模上游洪水对下游风险的影响，并引入了conformal prediction来量化预测的不确定性。与传统的基于像素的机器学习模型相比，该图神经网络模型在AUC指标上取得了显著提升。

Evidential Domain Adaptation for Remaining Useful Life Prediction with Incomplete Degradation

Yubo Hou et al.

cs.LG cs.AI

本文提出了一种名为EviAdapt的证据性领域适应方法, 用于处理目标域数据不完整情况下的剩余使用寿命预测问题. 该方法通过基于退化率进行阶段划分和证据不确定性对齐, 旨在改善传统领域适应方法在数据缺失时面临的挑战.

Transition Flow Matching

Chenrui Ma

cs.LG cs.AI cs.CV

本文提出了一种直接学习 transition flow 的新范式, 该方法支持单步或任意时间点生成. 作者建立了该方法与 Mean Velocity Flow 的理论联系, 并通过实验验证了其有效性.

Tackling Over-smoothing on Hypergraphs: A Ricci Flow-guided Neural Diffusion Approach

Mengyao Zhou et al.

cs.LG cs.AI

本文提出了一种基于离散Ricci flow的hypergraph神经网络消息传递范式RFHND, 旨在缓解HGNN中的over-smoothing问题. 该方法通过一个PDE系统自适应调节信息扩散速率, 实验表明其在多个基准数据集上优于现有方法.

Mastering the Minority: An Uncertainty-guided Multi-Expert Framework for Challenging-tailed Sequence Learning

Ye Wang et al.

cs.LG cs.AI

本文提出了一个基于不确定性的多专家融合网络(UME)来处理序列学习中的不平衡数据分布问题. 它通过集成LoRA实现参数高效建模, 并利用Dempster-Shafer理论指导专家专业化与融合, 在多个文本分类数据集上取得了性能提升.

Embedding-Aware Feature Discovery: Bridging Latent Representations and Interpretable Features in Event Sequences

Artem Sakhno et al.

cs.LG cs.AI cs.IR

本文提出了一个名为Embedding-Aware Feature Discovery (EAFD)的框架，旨在弥合事件序列中预训练嵌入与人工特征之间的差距。该框架利用一个基于LLM的智能体，通过评估特征与嵌入的对齐性和互补性来迭代生成可解释的特征。实验表明，该方法在多个交易数据集上超越了仅使用嵌入或特征的基线模型。

Meta-TTRL: A Metacognitive Framework for Self-Improving Test-Time Reinforcement Learning in Unified Multimodal Models

Lit Sin Tan et al.

cs.LG cs.AI

本文提出了一个名为Meta-TTRL的元认知测试时强化学习框架，用于提升统一多模态模型在文本到图像生成任务中的性能。该框架利用模型内在的监控信号进行参数优化，实现了在测试时的自我改进。实验表明该方法在多个模型和基准测试上取得了显著效果。

OMNIFLOW: A Physics-Grounded Multimodal Agent for Generalized Scientific Reasoning

Hao Wu et al.

cs.LG cs.AI

本文提出了一种名为OMNIFLOW的神经符号架构，旨在将冻结的多模态大语言模型(LLM)与基础物理定律相结合，而无需进行领域特定的参数更新。它通过语义-符号对齐机制和物理引导的思维链工作流，在多个物理领域的零样本和少样本任务上超越了传统深度学习方法，并提供了可解释的推理报告。

Time-Aware Prior Fitted Networks for Zero-Shot Forecasting with Exogenous Variables

Andres Potapczynski et al.

cs.LG

本文提出了一种能够处理外生变量的时间序列预测模型 ApolloPFN. 该模型通过改进数据生成过程和网络架构, 在包含外生信息的基准测试中取得了先进的结果.

Mask Is What DLLM Needs: A Masked Data Training Paradigm for Diffusion LLMs

Linrui Ma et al.

cs.LG

本文提出了一种信息密度驱动的智能噪声调度器, 用于改进离散扩散语言模型(DLLM)的训练. 该方法通过识别序列中的信息密集区域并应用互补优先级掩码, 将单个训练样本解耦为推理和语法样本, 从而提升模型在代码和数学推理任务上的性能.

Longitudinal Risk Prediction in Mammography with Privileged History Distillation

Banafsheh Karimian et al.

cs.LG stat.AP

本文提出了一种在乳腺X光检查中进行纵向风险预测的方法, 称为Privileged History Distillation (PHD). 该方法在训练时利用历史图像作为特权信息, 并通过知识蒸馏将历史信息的预测价值转移到仅使用当前检查图像的模型中, 以应对实际部署时历史数据缺失的问题.

Hypothesis Class Determines Explanation: Why Accurate Models Disagree on Feature Attribution

Thackshanaramana B

cs.LG cs.AI

本文通过大规模实证研究发现, 预测性能相同的模型可能产生显著不同的特征归因(feature attribution)解释. 这种差异主要由模型的假设类别(hypothesis class)决定, 作者称之为"解释彩票"(Explanation Lottery).

When Stability Fails: Hidden Failure Modes Of LLMS in Data-Constrained Scientific Decision-Making

Nazia Riasat

cs.LG cs.AI cs.CL stat.ML

本文通过一个受控的行为评估框架, 分析了LLMs在数据受限的科学决策任务中的表现. 研究发现, 即使LLMs在多次运行中表现出稳定性, 它们仍可能系统地偏离统计真实值, 并产生无效输出.

Informationally Compressive Anonymization: Non-Degrading Sensitive Input Protection for Privacy-Preserving Supervised Machine Learning

Jeremy J Samuelson

cs.LG cs.AI cs.IT

本文提出了一种名为Informationally Compressive Anonymization (ICA)的隐私保护机器学习方法及其VEIL架构. 该方法通过一个受监督的编码器将原始输入转换为低维、任务对齐的隐表示, 旨在提供强隐私保证的同时保持预测性能.

FlashSampling: Fast and Memory-Efficient Exact Sampling

Tomas Ruiz et al.

cs.LG cs.AI cs.CL

本文提出了一种名为FlashSampling的精确采样方法，用于大词汇表解码场景。该方法通过将采样过程融合到语言模型头的矩阵乘法中，避免了显式存储logits张量，从而提升了计算速度并减少了内存占用。

Evaluating Black-Box Vulnerabilities with Wasserstein-Constrained Data Perturbations

Adriana Laurindo Monteiro, Jean-Michel Loubes

cs.LG

本文应用 Optimal Transport 理论，通过寻找满足特定约束且在 Wasserstein 距离意义下最接近的输入数据分布，来分析机器学习模型对输入变量分布变化的响应。该方法在回归和分类任务中进行了示例和真实数据集的演示。

Counteractive RL: Rethinking Core Principles for Efficient and Scalable Deep Reinforcement Learning

Ezgi Korkmaz

cs.LG cs.AI

本文提出了一种名为Counteractive RL的新范式, 其核心思想是利用"反作用动作"获取的经验来优化智能体在高维MDP中的学习过程. 该方法在理论上被证明能实现高效、可扩展且加速的学习, 且不增加额外的计算复杂度. 在Arcade Learning Environment的高维状态MDP中进行的实验验证了该方法的有效性, 显著提升了样本效率和性能.

Electrodermal Activity as a Unimodal Signal for Aerobic Exercise Detection in Wearable Sensors

Rena Mira Krishna, Ramya Sankar, Shadi Ghiasi

cs.LG cs.AI

本文评估了仅使用皮肤电活动(EDA)信号来区分静息状态与持续有氧运动的能力. 研究通过留一受试者交叉验证的基准机器学习模型, 在公开数据集上得出了适中的独立于受试者的分类性能.

PhasorFlow: A Python Library for Unit Circle Based Computing

Dibakar Sigdel, Namuna Panday

cs.LG cs.AI

本文介绍了一个名为 PhasorFlow 的 Python 库，它提出了一种基于单位圆 $S^1$ 的计算范式。该库将输入编码为复相量，并通过酉门进行计算，旨在为经典机器学习任务提供一个确定性的、轻量级的替代方案。

Federated Learning for Privacy-Preserving Medical AI

Tin Hoang

cs.LG cs.AI cs.CV

本文针对医学影像中的隐私保护问题, 提出了一种结合站点感知数据划分和自适应本地差分隐私的联邦学习框架. 在阿尔茨海默病分类任务上的实验表明, 该方法在保护数据隐私的同时, 能达到与集中式训练相当的性能.

Game-Theory-Assisted Reinforcement Learning for Border Defense: Early Termination based on Analytical Solutions

Goutam Das et al.

cs.LG eess.SY

本文提出了一种结合 game theory 与 reinforcement learning 的混合方法, 用于解决感知范围受限的 border defense 问题. 该方法利用 Apollonius Circle 计算检测后的均衡策略, 实现了 RL 训练的 early termination, 从而提升了训练效率和最终性能.

The Agentic Researcher: A Practical Guide to AI-Assisted Research in Mathematics and Machine Learning

Max Zimmer et al.

cs.LG cs.AI

本文是一篇关于在数学与机器学习研究中使用AI辅助工具的实践指南. 它提出了一个AI集成分类法, 并介绍了一个将CLI编码智能体转化为自主研究助手的开源框架, 旨在增强而非取代研究人员.

Auto Researching, not hyperparameter tuning: Convergence Analysis of 10,000 Experiments

Xiaoyi Li

cs.LG cs.AI

本文通过分析两个LLM agent在27天内执行的超过10,000个实验，研究了其在组合配置空间中的搜索行为。研究发现，架构选择解释了绝大部分性能方差，表明agent进行了真正的架构发现而非仅仅是超参数调优。

Generative Inverse Design with Abstention via Diagonal Flow Matching

Miguel de Campos, Werner Krebs, Hanno Gottschalk

cs.LG

本文提出了一种名为Diagonal Flow Matching (Diag-CFM)的新方法，用于解决生成式逆设计问题。该方法通过一种零锚定策略，使学习过程对设计参数的顺序和缩放具有不变性，从而提高了训练的稳定性。文章还引入了两种内在的不确定性度量，用于提升生成样本的质量和可靠性，并在多个基准问题上验证了其有效性。

Evaluating Causal Discovery Algorithms for Path-Specific Fairness and Utility in Healthcare

Nitish Nagesh et al.

cs.LG cs.AI

本文通过专家合作构建代理真实因果图, 在合成的阿尔茨海默病和心力衰竭临床记录数据上建立了基准, 用于评估因果发现算法. 研究评估了Peter-Clark, Greedy Equivalence Search和Fast Causal Inference算法在结构恢复和路径特异性公平性分解方面的表现, 强调了在临床应用中需要基于图的公平性评估.

Discovery of interaction and diffusion kernels in particle-to-mean-field multi-agent systems

Giacomo Albi, Alessandro Alla, Elisa Calzola

cs.LG math.DS math.NA

本文提出了一种从轨迹数据中学习随机多智能体系统中非局部相互作用和扩散核的数据驱动框架. 该方法通过稀疏回归和两种互补策略（随机批次采样和平均场近似）来识别核函数, 无需先验知识, 并在基准模型上验证了有效性.

Data-Local Autonomous LLM-Guided Neural Architecture Search for Multiclass Multimodal Time-Series Classification

Emil Hardarson et al.

cs.LG cs.AI

本文提出了一种数据本地的、由LLM引导的神经架构搜索框架，用于多类别多模态时间序列分类。该方法在远程处理候选模型流水线，同时在本地执行所有训练和评估，仅观察试验级别的摘要信息，以保护敏感数据隐私。在公开数据集和临床睡眠分期数据上的实验表明，该方法在减少人工干预的同时，找到了性能与已发表结果相当的模型。

MobileLLM-Flash: Latency-Guided On-Device LLM Design for Industry Scale

Hanxian Huang et al.

cs.LG cs.AI

本文提出了一种在移动设备上设计高效大语言模型的方法, 通过硬件在环的架构搜索来优化模型架构和注意力模式, 以在资源受限的硬件上实现低延迟. 该方法生成的模型无需定制内核, 支持长上下文, 并最终产出了MobileLLM-Flash模型系列.

GASP: Guided Asymmetric Self-Play For Coding LLMs

Swadesh Jana et al.

cs.LG

本文提出了一种名为GASP的引导式非对称自学习方法, 用于提升代码生成大语言模型的性能. 该方法通过引入真实数据中的"目标问题"作为引导, 让教师模型围绕这些难题生成由易到难的变体问题, 从而构建一个渐进式的学习课程. 实验表明, GASP在LiveCodeBench基准上超越了无引导的非对称自学习方法, 并成功解决了一些基线模型无法处理的难题.

Deriving Hyperparameter Scaling Laws via Modern Optimization Theory

Egor Shulgin et al.

cs.LG

本文通过分析基于Linear Minimization Oracle (LMO)的优化器(如normalized SGD, signSGD, Muon)的收敛界, 推导出了学习率, 动量和批量大小随迭代次数或token预算变化的幂律调度公式. 该分析在固定模型大小的前提下, 为超参数缩放提供了一个统一的理论视角, 并特别指出了动量与批量大小缩放之间的相互作用.

Determinism in the Undetermined: Deterministic Output in Charge-Conserving Continuous-Time Neuromorphic Systems with Temporal Stochasticity

Jing Yan et al.

cs.LG

本文为异步神经形态系统提出了一种统一的连续时间框架, 将电荷守恒定律与神经元级约束相结合, 以确保终端状态仅取决于总输入电荷, 从而产生对时间随机性不变的累积输出. 该工作建立了此类脉冲神经网络与量化人工神经网络之间的精确表示对应关系.

W2T: LoRA Weights Already Know What They Can Do

Xiaolong Han et al.

cs.LG

本文提出了一种名为W2T的方法, 用于直接从LoRA (Low-Rank Adaptation) 权重中提取信息, 而无需运行基础模型或访问训练数据. 该方法通过QR分解和SVD (Singular Value Decomposition) 将LoRA权重映射到一个规范形式, 以消除因式分解的歧义性, 并使用Transformer处理得到的组件以生成权重空间嵌入. 实验表明, 该方法在属性分类、性能预测和适配器检索等任务上取得了良好效果.

The Importance of Being Smoothly Calibrated

Parikshit Gopalan et al.

cs.LG cs.DS

本文研究了smooth calibration作为校准误差的鲁棒度量及其与omniprediction的联系。文章提出了新的omniprediction保证，并给出了smooth calibration在earth mover's distance下的新刻画，同时探讨了校准距离的样本复杂度下界。

Residual Stream Duality in Modern Transformer Architectures

Yifan Zhang

cs.LG cs.AI cs.CL

本文探讨了Transformer架构中残差流(residual stream)的表示作用, 提出了一个基于序列轴(sequence axis)和深度轴(depth axis)的双轴视角. 核心观点是, 在固定token位置下, 沿深度轴的因果残差注意力读取(causal depth-wise residual attention read)与沿序列轴的因果短滑动窗口注意力(causal short sliding-window attention)在算子层面是对偶的. 文章分析了现有变体如ELC-BERT, DenseFormer, Vertical Attention等如何利用这种对偶性, 并指出在系统层面, 序列轴实现通常更硬件友好, 而Deep Delta Learning (DDL)是修改残差算子本身更简洁的方法.

Collaborative Temporal Feature Generation via Critic-Free Reinforcement Learning for Cross-User Sensor-Based Activity Recognition

Xiaozhou Ye et al.

cs.LG cs.AI cs.CV

本文提出了一种名为CTFG的协作时序特征生成框架, 用于解决跨用户传感器活动识别中的领域泛化问题. 该方法利用无critic的强化学习优化一个Transformer自回归生成器, 通过组内归一化获得稳定的优化信号, 并在两个基准数据集上取得了先进的性能.

Adaptive regularization parameter selection for high-dimensional inverse problems: A Bayesian approach with Tucker low-rank constraints

Qing-Mei Yang, Da-Qing Zhang

cs.LG

本文提出了一种结合Tucker分解的变分贝叶斯方法，用于解决高维反问题。该方法通过引入模态特定的精度参数实现自适应正则化，并能从数据中估计噪声水平，在多个数值实验中取得了优于传统基准方法的效果。

MDM-Prime-v2: Binary Encoding and Index Shuffling Enable Compute-optimal Scaling of Diffusion Language Models

Chen-Hao Chao et al.

cs.LG

本文提出了MDM-Prime-v2，一种结合了Binary Encoding和Index Shuffling的masked diffusion language model。该模型解决了MDM-Prime框架在超参数选择和与BPE分词器配对时的似然估计问题，在计算效率和困惑度上显著优于自回归模型及其他扩散模型变体。

A Depth-Aware Comparative Study of Euclidean and Hyperbolic Graph Neural Networks on Bitcoin Transaction Systems

Ankit Ghimire, Saydul Akbar Murad, Nick Rahimi

cs.LG

本文在比特币交易网络这一大规模图上, 对比了 Euclidean 和 tangent-space hyperbolic GNN 在节点分类任务上的表现. 通过固定模型架构和维度, 显式地改变邻居聚合深度, 作者分析了两种嵌入空间的差异, 并发现学习率与曲率的联合选择对稳定高维双曲嵌入至关重要.

Functorial Neural Architectures from Higher Inductive Types

Karen Sargsyan

cs.LG cs.AI math.AT math.CT

本文从范畴论视角分析神经网络组合泛化失败的原因, 提出将高阶归纳类型编译为神经架构的方法. 实验表明, 基于该原理构建的解码器在多个拓扑空间上性能显著优于非函子化方法.

Noisy Data is Destructive to Reinforcement Learning with Verifiable Rewards

Yuxuan Zhu, Daniel Kang

cs.LG

本文通过严格的重新验证流程, 修正了声称包含100%噪声数据的训练集, 并证明噪声对具有可验证奖励的强化学习(RLVR)具有破坏性. 研究发现, 现有RLVR算法的改进无法有效缓解噪声影响, 且在真实世界任务中, 基于有噪声数据训练的模型性能显著下降.

HIPO: Instruction Hierarchy via Constrained Reinforcement Learning

Keru Chen et al.

cs.LG cs.AI cs.CL

本文提出了一种名为HIPO的新对齐框架, 将分层指令跟随问题建模为Constrained Markov Decision Process. 该方法通过primal-dual safe reinforcement learning来动态强制执行系统提示的遵从性约束, 并在该可行区域内最大化用户效用. 实验表明HIPO能提升多种模型架构的系统遵从性和用户效用, 机制分析揭示其能驱动模型将注意力转向长程系统token.

DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay

Long Li et al.

cs.LG cs.AI

本文提出了一种名为Dynamic Jensen-Shannon Replay (DyJR)的强化学习正则化框架，旨在通过维护经验回放中的多样性来提升训练效率并防止模式坍塌。该方法结合了时间敏感的动态缓冲区与基于Jensen-Shannon散度的正则化，在数学推理等任务上取得了优于基线方法的效果。

Execution-Grounded Credit Assignment for GRPO in Code Generation

Abhijit Kumar, Natalya Kumar, Shikhar Gupta

cs.LG

本文提出了一种名为Execution-Grounded Credit Assignment (EGCA)的方法，用于改进GRPO在代码生成中的信用分配问题。该方法通过执行轨迹来定位语义错误，从而更精细地调整模型更新，在HumanEval和MBPP基准上取得了性能提升。

The Finetuner's Fallacy: When to Pretrain with Your Finetuning Data

Christina Baek et al.

cs.LG

本文探讨了在模型部署中, 针对数据稀缺的特定领域, 一种名为 specialized pretraining (SPT) 的策略. 该策略通过在预训练阶段重复使用少量领域数据, 来提升领域性能并减少微调时的遗忘问题.

Sample-Efficient Adaptation of Drug-Response Models to Patient Tumors under Strong Biological Domain Shift

Camille Jimenez Cortes, Philippe Lalanda, German Vega

cs.LG cs.AI q-bio.QM

本文提出了一种分阶段的迁移学习框架, 用于在存在显著生物学领域偏移的情况下, 将药物反应模型高效地适应到患者肿瘤数据. 该方法首先通过无监督预训练从大量未标记的药理学数据中学习细胞和药物的表示, 然后利用少量患者样本进行微调. 实验表明, 该框架在患者数据适应方面能更快地利用少量样本提升性能.

Online Semi-infinite Linear Programming: Efficient Algorithms via Function Approximation

Yiming Zong, Jiashuo Jiang

cs.LG

本文针对具有大量或无限约束的在线资源分配问题, 提出了在线半无限线性规划(OSILP)模型. 通过函数近似将约束数量约简为常数$q$, 并设计了基于对偶的算法, 在随机输入和随机排列模型下获得了与约束数量无关的后悔界.

Offline Exploration-Aware Fine-Tuning for Long-Chain Mathematical Reasoning

Yongyu Mu et al.

cs.LG cs.CL

本文提出了一种离线探索感知微调方法, 旨在改进数学推理中监督微调阶段的探索能力. 该方法通过优化两个目标来调整模型对推理轨迹的概率分布, 实验表明其在多个基准上提升了性能, 并为后续的强化学习训练提供了更好的初始化.

Dual Consensus: Escaping from Spurious Majority in Unsupervised RLVR via Two-Stage Vote Mechanism

Kaixuan Du et al.

cs.LG

本文提出了一种名为Dual Consensus Reinforcement Learning (DCRL)的无监督训练方法，旨在解决大型语言模型在复杂推理任务中因依赖伪标签而陷入虚假多数答案的问题。该方法通过一个两阶段的共识机制来生成更可靠的学习信号，无需外部模型或监督，并在多个基准测试上展示了性能提升。

Physics-integrated neural differentiable modeling for immersed boundary systems

Chenglin Li et al.

cs.LG physics.flu-dyn

本文提出了一种融合物理原理的可微分框架, 用于浸没边界流体的长时间预测. 该框架通过引入基于PDE的中间速度模块和多重直接力浸没边界模块, 并采用ConvResNet块学习隐式压力修正, 实现了在粗网格上的稳定、高效推演.

Laya: A LeJEPA Approach to EEG via Latent Prediction over Reconstruction

Saarang Panchavati et al.

cs.LG q-bio.NC

本文提出了一种基于LeJEPA的EEG基础模型Laya, 通过预测潜在表示而非重建原始信号进行自监督学习. 实验表明, 该方法在线性探测任务上优于基于重建的基线模型.

Decoding the Critique Mechanism in Large Reasoning Models

Hoang Phan et al.

cs.LG

本文通过向大型推理模型(LRMs)的中间推理步骤中插入算术错误, 系统地研究了其从错误中恢复的机制. 研究发现模型存在一种"隐藏批判能力", 能够检测错误并触发自我纠正, 即使中间结论错误也能得出最终正确答案. 通过特征空间分析, 作者识别出了一个代表此行为的可解释"批判向量", 实验表明利用该向量引导潜在表示可以提升模型的错误检测能力.

Behavioral Steering in a 35B MoE Language Model via SAE-Decoded Probe Vectors: One Agency Axis, Not Five Traits

Jia Qing Yap

cs.LG cs.CL

本文提出了一种通过稀疏自编码器(SAE)解码的探针向量在大型语言模型中进行行为引导的方法. 实验表明, 所识别的多个行为特质实际上主要调节一个单一的"自主性"轴.

DynamicGate MLP Conditional Computation via Learned Structural Dropout and Input Dependent Gating for Functional Plasticity

Yong Il Choi

cs.LG cs.AI

本文提出了一种名为DynamicGate-MLP的框架，将Dropout正则化与条件计算统一起来。该模型通过学习输入依赖的门控机制，在推理时动态选择执行路径，以提高计算效率。

FederatedFactory: Generative One-Shot Learning for Extremely Non-IID Distributed Scenarios

Andrea Moleri et al.

cs.LG cs.AI

本文提出了一种名为FederatedFactory的联邦学习框架，用于解决极端非独立同分布数据场景下的学习问题。该框架通过交换生成式先验而非判别式参数，在单轮通信中合成类别平衡的数据集，从而避免了梯度冲突。

Prior-Informed Neural Network Initialization: A Spectral Approach for Function Parameterizing Architectures

David Orlando Salazar Torres, Diyar Altinses, Andreas Schwung

cs.LG

本文提出了一种利用数据先验信息来指导神经网络初始化和架构配置的方法. 该方法通过FFT提取季节性先验, 并利用残差回归参数化趋势分量, 从而在保持重建精度的同时降低模型复杂度.

Age Predictors Through the Lens of Generalization, Bias Mitigation, and Interpretability: Reflections on Causal Implications

Debdas Paul et al.

cs.LG cs.AI

本文探讨了基于对抗表示学习的可解释神经网络模型在年龄预测问题中的应用. 该模型旨在学习对种族、性别等外生属性的不变表示, 以改善分布外泛化能力, 并与传统机器学习模型在公开的小鼠转录组数据集上进行了比较.

Trained Persistent Memory for Frozen Encoder--Decoder LLMs: Six Architectural Methods

Hong Jeong

cs.LG cs.AI

本文提出了一种在冻结的encoder-decoder语言模型的连续隐空间中实现持久记忆的概念验证研究。通过六种架构方法，证明了在有限资源下进行可微的向量读写操作是可行的，并展示了记忆库在推理时无梯度更新的对话学习潜力。

DISCOVER: A Solver for Distributional Counterfactual Explanations

Yikai Gu et al.

cs.LG

本文提出了一种名为DISCOVER的模型无关求解器, 用于处理分布反事实解释(Distributional Counterfactual Explanations, DCE)问题. 该方法通过一种稀疏的“提议-选择”搜索范式替代了原有的梯度优化, 能够在非可微模型占主导的表格数据管道中有效工作.

Capability-Guided Compression: Toward Interpretability-Aware Budget Allocation for Large Language Models

Rishaank Gupta

cs.LG cs.CL

本文提出了Capability-Guided Compression (CGC)框架，旨在解决大语言模型压缩中预算分配与组件功能不匹配的问题。该框架利用Sparse Autoencoder (SAE)生成的能力密度图来指导不同Transformer组件的差异化压缩。

Optimal uncertainty bounds for multivariate kernel regression under bounded noise: A Gaussian process-based dual function

Amon Lahr et al.

cs.LG eess.SY math.OC

本文针对多输出核回归问题, 提出了一种基于对偶函数的分布无关的紧致不确定性界. 该方法通过无约束对偶形式推导, 保持了与经典 Gaussian process 置信界相似的结构, 便于集成到下游优化任务中.

Bridging the High-Frequency Data Gap: A Millisecond-Resolution Network Dataset for Advancing Time Series Foundation Models

Subina Khanal et al.

cs.LG cs.AI

本文介绍了一个用于时间序列基础模型(TSFMs)的毫秒级分辨率无线网络数据集, 旨在填补高频数据领域的空白. 通过在该数据集上的基准测试, 作者发现多数TSFM模型在此新数据分布上表现不佳, 从而强调了在预训练中纳入高频数据的重要性.

From the Inside Out: Progressive Distribution Refinement for Confidence Calibration

Xizhong Yang et al.

cs.LG cs.CL

本文提出了一种名为DistriTTRL的方法，用于改进强化学习中的置信度校准。该方法利用模型置信度的分布先验来渐进式优化奖励信号，并引入了针对多样性的惩罚来缓解基于投票的策略导致的奖励黑客问题。

FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

Zhenghang Song et al.

cs.LG cs.AI

本文提出了一种名为FEAT的线性复杂度基础模型, 用于处理极大规模的结构化数据. 它通过一种多层双轴架构, 结合了用于局部样本依赖的自适应融合双Mamba-2模块和用于全局记忆的卷积门控线性注意力模块, 以线性复杂度实现了跨样本建模. 实验表明, 该模型在多个真实数据集上取得了优于基线模型的零样本性能, 并实现了线性扩展和更快的推理速度.

SympFormer: Accelerated attention blocks via Inertial Dynamics on Density Manifolds

Viktor Stein, Wuchen Li, Gabriele Steidl

cs.LG math.OC stat.ML

本文提出了一种基于密度流形上惯性动力学的加速注意力块架构 SympFormer. 它将 tokens 视为携带位置和速度的粒子, 通过哈密顿动量注意力块来近似加速密度动力学, 从而在保持计算量不变的情况下实现比经典注意力更快的收敛.

Manifold-Matching Autoencoders

Laurent Cheret et al.

cs.LG cs.AI

本文提出了一种称为Manifold-Matching Autoencoder (MMAE)的无监督正则化方法，通过最小化潜在空间与输入数据空间之间成对距离的均方误差来对齐它们。该方法在保持最近邻距离和基于持续同调的度量上优于类似方法，并可扩展为多维缩放(MDS)的一种近似。

Deep Tabular Representation Corrector

Hangting Ye et al.

cs.LG

本文提出了一种名为TRC的深度表格表示校正器, 旨在以模型无关的方式增强已训练深度表格模型的表示, 而无需修改其参数. 该方法通过两个任务(表格表示重估计和表格空间映射)来缓解表示偏移和冗余问题, 并在多个基准测试中展示了性能提升.

When and Why Does Unsupervised RL Succeed in Mathematical Reasoning? A Manifold Envelopment Perspective

Zelin Zhang, Fei Cheng, Chenhui Chu

cs.LG cs.CL

本文探讨了无监督强化学习在数学推理任务中成功与失败的条件. 作者通过设计内在奖励、测试不同基础模型并引入几何诊断视角, 揭示了策略稳定与崩溃的机制.

Trajectory-Optimized Time Reparameterization for Learning-Compatible Reduced-Order Modeling of Stiff Dynamical Systems

Joe Standridge, Daniel Livescu, Paul Cizmas

cs.LG

本文提出了一种轨迹优化的时间重参数化方法, 用于缓解刚性动力系统在机器学习降阶建模中的数值困难. 该方法通过优化拉伸时间坐标下的弧长参数来平滑轨迹, 从而改善训练动态并提升预测精度.

Simplex-to-Euclidean Bijection for Conjugate and Calibrated Multiclass Gaussian Process

Bernardo Williams et al.

cs.LG

本文提出了一种用于多类分类的 conjugate and calibrated Gaussian process (GP) 模型. 该方法利用 Aitchison geometry 将概率单纯形映射到无约束的欧几里得空间, 从而将分类问题转化为 GP 回归问题, 实现了 conjugate inference 和可靠的预测概率.

Self-Aware Markov Models for Discrete Reasoning

Gregor Kornhardt et al.

cs.LG stat.ML

本文提出了一种基于学习自身输出Markov transition kernel的方法, 通过允许token重新被mask来修正模型在离散推理任务中的错误. 该方法还引入了训练得到的停止准则, 使计算步骤能适应问题的复杂度. 在Sudoku-Extreme和Countdown-4数据集上取得了优于其他flow-based方法的结果.

Grid-World Representations in Transformers Reflect Predictive Geometry

Sasha Brenner, Thomas R. Knösche, Nico Scherf

cs.LG

本文研究了Transformer模型在预测受约束的二维网格随机游走任务时, 其内部表征与最优预测所需的几何信息之间的关联. 研究发现, 模型学习到的表征与理论推导的充分统计量高度对齐, 表明预测几何可能是模型形成世界模型式表征的一个基础.

Cost Trade-offs in Matrix Inversion Updates for Streaming Outlier Detection

Florian Grivet, Louise Travé-Massuyès

cs.LG cs.AI

本文比较了三种更新矩阵逆的方法: Direct Inversion (DI), Iterative Sherman-Morrison (ISM) 和 Woodbury Matrix Identity (WMI). 通过理论分析和数值模拟, 作者为不同场景下的选择提供了简单的经验法则.

Learning Lineage-guided Geodesics with Finsler Geometry

Aaron Zweig et al.

cs.LG

本文提出了一种结合Finsler几何与分类的度量方法，用于轨迹推断任务。该方法整合了连续几何先验和离散有向先验知识，在合成与真实数据上提升了插值性能。

Novelty-Driven Target-Space Discovery in Automated Electron and Scanning Probe Microscopy

Utkarsh Pratiush et al.

cs.LG cond-mat.mtrl-sci

本文提出了一个名为BEACON的深度核学习框架，旨在自动化显微镜实验中主动探索目标空间（如光谱或功能响应）的新行为，而非仅仅优化已知目标。该方法通过在线学习结构-性质关系来引导实验，并在扫描透射电子显微镜（STEM）上进行了实际部署验证。

Federated Learning with Multi-Partner OneFlorida+ Consortium Data for Predicting Major Postoperative Complications

Yuanfang Ren et al.

cs.LG cs.AI

本文利用来自OneFlorida+联盟的多中心数据，开发并验证了用于预测重大术后并发症的联邦学习模型。研究比较了联邦学习、本地学习与中心化模型的性能，结果表明联邦学习模型在保持数据隐私的同时，具有强大的预测性能和泛化能力。

The Cost of Reasoning: Chain-of-Thought Induces Overconfidence in Vision-Language Models

Robert Welch, Emir Konuk, Kevin Smith

cs.LG

本文研究了在视觉语言模型中使用 chain-of-thought 推理对不确定性估计可靠性的影响。研究发现，推理过程会降低大多数不确定性估计的质量，导致模型过度自信。

GeMA: Learning Latent Manifold Frontiers for Benchmarking Complex Systems

Jia Ming Li, Anupriya, Daniel J. Graham

cs.LG cs.CE econ.EM math.OC stat.ML

本文提出了一种名为Geometric Manifold Analysis (GeMA)的新框架，用于复杂系统的性能基准测试。该方法通过一个变分自编码器学习潜在流形边界，以处理传统前沿方法难以应对的非凸性、异质性和规模效应问题。

Understanding Quantization of Optimizer States in LLM Pre-training: Dynamics of State Staleness and Effectiveness of State Resets

Kristi Topollai, Anna Choromanska

cs.LG

本文研究了在LLM预训练中量化optimizer states（特别是低精度EMA）对优化动态的影响. 作者指出量化会导致状态停滞(staleness), 并分析了停滞累积的机制, 从而解释了状态重置(state resets)的有效性. 基于此, 文章提出了一种理论指导的方法来选择重置周期, 并在实验中验证了其能恢复性能并减少内存占用.

SpecMoE: Spectral Mixture-of-Experts Foundation Model for Cross-Species EEG Decoding

D. Darankoum et al.

cs.LG cs.AI cs.HC

本文提出了一种用于跨物种EEG解码的基础模型SpecMoE. 它采用了一种新颖的基于STFT谱图的高斯平滑掩码策略和一种U型分层网络SpecHi-Net, 并通过混合专家框架整合了多个预训练专家模型. 该模型在多个EEG解码任务上取得了先进的性能, 并展示了良好的跨物种和跨被试泛化能力.

Bayesian Inference of Psychometric Variables From Brain and Behavior in Implicit Association Tests

Christian A. Kothe et al.

cs.LG q-bio.NC q-bio.QM stat.ML

本文提出了一种稀疏分层贝叶斯模型，用于从内隐联想测试(IAT)的多模态数据中推断心理健康相关的心理测量变量。该方法在小型队列数据上表现优于传统的D-score方法，并在特定条件下达到了与最佳参考方法相当的性能，但其结果的置信区间较宽，仍需更大规模的数据验证。

A Practical Algorithm for Feature-Rich, Non-Stationary Bandit Problems

Wei Min Loh et al.

cs.LG

本文针对具有密集臂特征、非线性奖励函数且奖励分布随时间变化的contextual bandit问题，提出了一种名为C3 Thompson sampling的实用算法。该算法结合了改进的Nadaraya-Watson估计器与Thompson sampling，在多个数据集上取得了较低的累积遗憾和更高的点击率提升。

pADAM: A Plug-and-Play All-in-One Diffusion Architecture for Multi-Physics Learning

Amirhossein Mollaali et al.

cs.LG

本文提出了一种名为 pADAM 的生成式框架, 用于学习跨不同偏微分方程族的共享概率先验. 该框架支持前向预测和逆向推断, 并能进行不确定性量化和概率模型选择.

SOMP: Scalable Gradient Inversion for Large Language Models via Subspace-Guided Orthogonal Matching Pursuit

Yibo Li, Qiongxiu Li

cs.LG cs.CL

本文提出了一种名为SOMP的可扩展梯度反演框架, 用于从大型语言模型(LLMs)的聚合梯度中重构训练文本. 该方法将文本恢复问题建模为稀疏信号恢复问题, 通过利用梯度中的几何结构和稀疏性来提升在大批量设置下的恢复效果和计算效率.

Conservative Continuous-Time Treatment Optimization

Nora Schneider, Georg Manten, Niki Kilbertus

cs.LG q-bio.QM

本文提出了一种用于从不规则采样的患者轨迹中进行治疗优化的保守连续时间随机控制框架. 该方法通过添加基于signature的MMD正则化来限制模型外推, 从而提升优化方案的鲁棒性.

Adaptive Moments are Surprisingly Effective for Plug-and-Play Diffusion Sampling

Christian Belardi et al.

cs.LG cs.CV

本文提出使用 adaptive moment estimation 来稳定 guided diffusion sampling 中噪声较大的 likelihood scores. 该方法在图像恢复和类条件生成任务上取得了先进的结果, 并通过实验表明减轻梯度噪声能有效改善对齐.

High-Dimensional Gaussian Mean Estimation under Realizable Contamination

Ilias Diakonikolas, Daniel M. Kane, Thanasis Pittas

cs.LG cs.DS math.ST stat.ML

本文研究了在高维高斯分布均值估计问题中, 一种称为"可实现的$\epsilon$-污染"的缺失数据模型下的计算复杂性. 作者在Statistical Query模型下证明了信息-计算间隙的存在, 表明任何高效算法都需要远超信息论下界的样本量, 否则必须承受指数级运行时间. 同时, 他们提供了一个算法, 其样本-时间权衡几乎匹配了所证明的下界.

RaDAR: Relation-aware Diffusion-Asymmetric Graph Contrastive Learning for Recommendation

Yixuan Huang et al.

cs.LG

本文提出了一种名为RaDAR的推荐系统框架, 它结合了graph generative model和relation-aware denoising model来生成对比学习的视图. 该方法通过asymmetric contrastive learning, diffusion-guided augmentation和relation-aware edge refinement来应对数据稀疏和噪声问题, 并在多个基准测试中取得了优于现有方法的效果.

Stochastic Resetting Accelerates Policy Convergence in Reinforcement Learning

Jello Zhou, Vudtiwat Ngampruetikorn, David J. Schwab

cs.LG cond-mat.dis-nn cond-mat.stat-mech eess.SY physics.bio-ph

本文探讨了 stochastic resetting 如何与 reinforcement learning 交互. 研究发现, 在 tabular grid 环境和 continuous control 任务中, resetting 可以加速 policy 收敛, 其机制不同于传统的 first-passage 优化.

Dynamic Meta-Layer Aggregation for Byzantine-Robust Federated Learning

Reek Das, Biplab Kanti Sen

cs.LG

本文提出了一种名为FedAOT的防御机制，用于增强Federated Learning对Byzantine攻击的鲁棒性。该方法通过动态加权客户端更新来抑制恶意影响，并在多种攻击场景下保持了模型性能。

Long-Horizon Traffic Forecasting via Incident-Aware Conformal Spatio-Temporal Transformers

Mayur Patil et al.

cs.LG

本文提出了一种结合动态图构建与自适应共形预测的时空Transformer模型, 用于长时域交通流量预测. 该方法利用事故数据扰动图结构, 并在SUMO仿真中验证了其预测精度与不确定性校准效果.

Efficient Reasoning on the Edge

Yelysei Bondarenko et al.

cs.LG cs.CL

本文提出了一种用于在资源受限的边缘设备上实现高效推理的方法. 该方法结合了LoRA适配器、强化学习预算约束和动态适配器切换等技术, 旨在减少推理过程的计算开销和响应长度, 同时保持较高的准确性.

cs.AI

SQL-ASTRA: Alleviating Sparse Feedback in Agentic SQL via Column-Set Matching and Trajectory Aggregation ⭐ 精选

Long Li et al.

cs.AI

本文提出了一个名为Agentic SQL的框架, 用于解决多轮Text-to-SQL任务中的稀疏奖励和信用分配问题. 其核心是设计了一个双层奖励机制: 通过Column-Set Matching Reward (CSMR)将二值反馈转化为稠密的[0, 1]区间信号, 以提供即时的步骤级奖励; 同时, 引入Aggregated Trajectory Reward (ATR), 利用非对称转移矩阵聚合过程导向的分数来解决多轮信用分配, 并基于Lyapunov稳定性理论证明了其能保证策略无环且单调收敛. 在BIRD和Spider 2.0基准测试上的实验表明, 该方法超越了仅使用二值奖励的GRPO以及当前最先进的Arctic-Text2SQL-R1-7B模型.

BrainBench: Exposing the Commonsense Reasoning Gap in Large Language Models

Yuzhe Tang

cs.AI cs.CL

本文提出了一个名为BrainBench的基准测试, 包含100个脑筋急转弯问题, 旨在诊断大型语言模型(LLMs)在常识推理方面的系统性缺陷. 评估显示, 即使是最先进的模型也存在显著的准确性与一致性差距, 表明其推理过程具有随机性.

Neural-Symbolic Logic Query Answering in Non-Euclidean Space

Lihui Liu

cs.AI

本文提出了一种在双曲空间中进行逻辑查询回答的神经符号模型HYQNET. 它将一阶逻辑查询分解为关系投影和模糊集上的逻辑操作, 并使用基于双曲GNN的方法进行知识图谱补全, 以更好地捕捉逻辑查询的层次结构.

NextMem: Towards Latent Factual Memory for LLM-based Agents

Zeyu Zhang et al.

cs.AI cs.IR cs.LG

本文提出了一个名为NextMem的潜在事实记忆框架, 用于增强基于LLM的智能体. 该框架利用自回归自编码器构建潜在记忆, 并通过两阶段训练和量化技术来优化性能和存储效率.

AIDABench: AI Data Analytics Benchmark

Yibo Yang et al.

cs.AI

本文提出了一个名为AIDABench的综合基准，用于端到端地评估AI系统在复杂数据分析任务上的表现。该基准包含600多个跨多个维度的任务，评估显示当前最先进的模型在这些现实任务上仍面临重大挑战。

The Comprehension-Gated Agent Economy: A Robustness-First Architecture for AI Economic Agency

Rahul Baxi

cs.AI

本文提出了一种名为"理解门控智能体经济"的架构，用于将AI智能体的经济权限与其经过验证的鲁棒性水平绑定。该架构通过多维度审计来评估智能体，并证明了系统具有有界经济暴露等安全特性。

Form Follows Function: Recursive Stem Model

Navid Hakimi

cs.AI cs.LG cs.NE

本文提出了一种名为Recursive Stem Model (RSM)的递归推理方法，旨在改进现有递归模型的训练方式。该方法通过解耦训练过程中的历史状态并仅在最终步骤应用损失，实现了更稳定和高效的训练，并在数独和迷宫等NP难题上取得了良好的准确率。

CraniMem: Cranial Inspired Gated and Bounded Memory for Agentic Systems

Pearl Mody et al.

cs.AI

本文提出了一种受神经认知启发的、带门控和容量限制的多阶段记忆系统CraniMem, 用于增强LLM智能体在长程工作流中的状态保持能力. 该系统通过目标条件门控、效用标记、有界情景缓冲和结构化长期知识图谱来管理记忆, 并通过定期整合循环来维持记忆的稳定性和抗干扰性. 在包含噪声的长程基准测试中, CrainMem相比基线方法表现出更强的鲁棒性.

GSI Agent: Domain Knowledge Enhancement for Large Language Models in Green Stormwater Infrastructure

Shaohuang Wang

cs.AI

本文提出了一个名为GSI Agent的领域增强大语言模型框架, 旨在提升其在绿色雨水基础设施(GSI)相关任务中的表现. 该框架整合了监督微调, 检索增强生成以及基于agent的推理流程, 并在构建的GSI数据集上验证了其有效性.

Did You Check the Right Pocket? Cost-Sensitive Store Routing for Memory-Augmented Agents

Madhava Gaikwad

cs.AI cs.CL cs.IR

本文研究了 memory-augmented agents 中的 store-routing 问题, 将其形式化为一个 cost-sensitive 决策问题. 结果表明, 有选择性地从多个 specialized stores 中检索, 而非统一检索, 能在提升下游任务准确率的同时显著降低 token 使用成本.

DynaTrust: Defending Multi-Agent Systems Against Sleeper Agents via Dynamic Trust Graphs

Yu Li et al.

cs.AI

本文提出了一种名为DynaTrust的防御方法，用于保护基于大语言模型的多智能体系统免受“休眠代理”攻击。该方法将系统建模为动态信任图，通过分析历史行为和专家置信度来动态调整信任值，并采用图重构而非简单阻断的策略来隔离受感染节点并维持系统可用性。实验表明，该方法在对抗条件下显著提升了防御成功率并降低了误报率。

QV May Be Enough: Toward the Essence of Attention in LLMs

Zhang Edward

cs.AI

本文从语言学的词性和句法分析出发, 探讨了Transformer架构中Query-Key-Value (QKV) attention机制的本质. 基于此, 作者提出了一个统一的解释框架来分析MQA, GQA等变体, 并引入了QV范式及其优化方案QV-Ka, 通过实验验证了其有效性.

Compiled Memory: Not More Information, but More Precise Instructions for Language Agents

James Rhodes, George Kang

cs.AI

本文提出了一种名为Atlas的记忆内核, 用于提升语言智能体(agent)的记忆效用. 该方法将任务经验编译成指令结构, 通过改写系统提示(system prompt)来改变智能体行为, 在多个基准测试上取得了性能提升.

A Dynamic Survey of Fuzzy, Intuitionistic Fuzzy, Neutrosophic, Plithogenic, and Extensional Sets

Takaaki Fujita, Florentin Smarandache

cs.AI cs.CE

本文是一篇关于模糊集、直觉模糊集、中智集、多源集及其扩展模型的动态综述。它系统性地概述了这些用于处理不确定性的集合论框架的发展、概念和应用。

Quantum-Secure-By-Construction (QSC): A Paradigm Shift For Post-Quantum Agentic Intelligence

Arit Kumar Bishwas et al.

cs.AI cs.CR quant-ph

本文提出了一种名为"量子安全构造"的设计范式, 旨在将量子安全通信作为智能体AI系统的核心架构属性. 该范式通过结合后量子密码学等技术, 构建了一个可策略引导、运行时自适应的安全模型, 以降低在已部署的智能体系统中引入量子安全的复杂性和成本.

I Know What I Don't Know: Latent Posterior Factor Models for Multi-Evidence Probabilistic Reasoning

Aliyu Agboola Alege

cs.AI cs.LG

本文提出了Latent Posterior Factors (LPF)框架, 将VAE的latent posteriors转化为soft likelihood factors, 以在Sum-Product Network (SPN)中进行推理. 该方法旨在处理多源、非结构化证据的聚合问题, 并在多个领域的数据集上验证了其准确性和不确定性校准能力.

Theoretical Foundations of Latent Posterior Factors: Formal Guarantees for Multi-Evidence Reasoning

Aliyu Agboola Alege

cs.AI cs.IT cs.LG stat.ML

本文为概率预测任务中聚合多源异构证据的Latent Posterior Factors (LPF)框架提供了完整的理论分析. 它证明了该框架在多个可信AI指标上的理论保证, 并在受控数据集上进行了验证.

Survey of Various Fuzzy and Uncertain Decision-Making Methods

Takaaki Fujita, Florentin Smarandache

cs.AI

本文对模糊与不确定环境下的多准则决策方法进行了综述, 建立了一个面向任务的分类体系. 文章涵盖了问题设置、权重确定、准则关系建模以及多种求解方法, 并讨论了方法选择指南和未来研究方向.

Knowledge Graph Extraction from Biomedical Literature for Alkaptonuria Rare Disease

Giang Pham et al.

cs.AI cs.IR q-bio.QM

本文应用基于PubTator3的文本挖掘方法，从生物医学文献中大规模提取关系，构建了关于罕见病Alkaptonuria (AKU)的两个不同规模的知识图谱(KG)。该计算框架揭示了该疾病的系统性相互作用、共病和潜在治疗靶点，展示了该方法在分析罕见代谢疾病方面的有效性。

Context-Length Robustness in Question Answering Models: A Comparative Empirical Study

Trishita Dhara, Siddhesh Sheth

cs.AI

本文通过控制实验研究了大型语言模型在问答任务中的上下文长度鲁棒性. 实验表明, 随着无关上下文的增加, 模型性能会下降, 且多跳推理任务比单跨度抽取任务下降更显著.

CUBE: A Standard for Unifying Agent Benchmarks

Alexandre Lacoste et al.

cs.AI

本文提出了CUBE (Common Unified Benchmark Environments) 协议标准，旨在解决智能体(agent)基准测试领域因标准不统一而导致的集成碎片化问题。该标准基于MCP和Gym构建，通过分离任务、基准、包和注册表等关注点，使得任何兼容平台都能无需定制集成即可访问基准进行评估、强化学习(RL)训练或数据生成。

Prose2Policy (P2P): A Practical LLM Pipeline for Translating Natural-Language Access Policies into Executable Rego

Vatsal Gupta, Darshan Sreenivasamurthy

cs.AI

本文提出了一个名为Prose2Policy (P2P)的基于LLM的实用工具, 用于将自然语言访问控制策略(NLACPs)翻译成可执行的Rego代码. 该工具提供了一个模块化的端到端管道, 旨在弥合人类可读需求与机器可执行策略之间的差距, 并在评估中展现了较高的编译与测试通过率.

Persona-Conditioned Risk Behavior in Large Language Models: A Simulated Gambling Study with GPT-4.1

Sankalp Dubedy

cs.AI cs.CL

本文通过模拟赌博实验研究了GPT-4.1在不同社会经济角色下的风险决策行为。研究发现，模型在没有明确指令的情况下，表现出了与前景理论预测相符的行为模式。

Algorithmic Trading Strategy Development and Optimisation

Owen Nyo Wei Yuan et al.

cs.AI

本文结合历史市场数据与财报电话会议的情感分析, 开发并优化了一个算法交易策略. 该策略整合了移动平均线等技术指标与基于FinBERT的情感分析, 在多个绩效指标上超越了基准模型.

Regularized Latent Dynamics Prediction is a Strong Baseline For Behavioral Foundation Models

Pranaya Jajoo et al.

cs.AI cs.LG cs.RO

本文提出了一种名为Regularized Latent Dynamics Prediction (RLDP)的方法，用于改进行为基础模型(Behavioral Foundation Models, BFMs)中的状态特征学习。该方法在潜在空间下一状态预测的自监督目标基础上，增加了简单的正交正则化以维持特征多样性。实验表明，RLDP在零样本强化学习任务中能够匹配或超越更复杂的表征学习方法，尤其在数据覆盖不足的情况下表现更优。

Resilience Meets Autonomy: Governing Embodied AI in Critical Infrastructure

Puneet Sharma, Christer Henrik Pursiainen

cs.AI cs.RO

本文讨论了在关键基础设施中部署 embodied AI 时，其韧性依赖于在混合治理架构下的有限自主性。作者提出了四种监督模式，并基于任务复杂性、风险等级和后果严重性将其映射到不同基础设施领域。

AsgardBench - Evaluating Visually Grounded Interactive Planning Under Minimal Feedback

Andrea Tupini et al.

cs.AI cs.CV cs.RO

本文提出了一个名为AsgardBench的新基准, 用于评估基于视觉的交互式规划能力. 该基准专注于高层动作序列生成和计划调整, 通过限制输入为图像和轻量级反馈来隔离规划问题.

Prompt Engineering for Scale Development in Generative Psychometrics

Lara Lee Russell-Lasalandra, Hudson Golino

cs.AI cs.CL cs.HC

本文通过 Monte Carlo 模拟，研究了在生成心理测量学框架下，不同 prompt engineering 策略对大型语言模型生成的人格评估项目质量的影响。研究发现，自适应提示策略在减少语义冗余和提升结构效度方面表现最佳，其优势随模型能力增强而扩大。

Semi-Autonomous Formalization of the Vlasov-Maxwell-Landau Equilibrium

Vasily Ilin

cs.AI math.AP math.LO

本文展示了利用AI辅助工具（Gemini DeepThink, Claude Code, Aristotle）在Lean 4中形式化Vlasov-Maxwell-Landau系统平衡态特性的完整流程。整个过程由一位数学家监督，成本低廉，并公开了所有开发细节。

Argumentative Human-AI Decision-Making: Toward AI Agents That Reason With Us, Not For Us

Stylianos Loukas Vasileiou et al.

cs.AI

本文探讨了将 computational argumentation 与 LLMs 结合，以构建一种新的 Argumentative Human-AI Decision-Making 范式。这种融合旨在创建能与人类进行辩证推理的 AI agents，提升高风险领域决策的透明度和可信度。

Protein Design with Agent Rosetta: A Case Study for Specialized Scientific Agents

Jacopo Teneggi et al.

cs.AI

本文介绍了一个名为Agent Rosetta的LLM智能体, 它通过结构化的环境与Rosetta软件交互, 用于执行蛋白质设计任务. 该智能体结合了LLM的推理能力和Rosetta软件的通用性, 能够处理非标准氨基酸, 并在某些任务上达到与专家相当的性能.

Optimizing Hospital Capacity During Pandemics: A Dual-Component Framework for Strategic Patient Relocation

Sadaf Tabatabaee et al.

cs.AI

本文提出了一个由时间序列预测模型和仿真模型组成的双组件框架, 用于在疫情期间优化医院容量. 该框架旨在通过预测患者到达率和模拟不同患者转运策略, 为医院管理者提供决策支持工具.

MAC: Multi-Agent Constitution Learning

Rushil Thareja et al.

cs.AI cs.CL cs.LG cs.MA

本文提出了一种名为MAC的多智能体宪法学习方法, 用于自动优化控制LLM行为的结构化规则集. 该方法通过一个由专门智能体组成的网络来迭代地接受、编辑或拒绝规则更新, 并在PII标记等任务上取得了优于现有提示优化方法的效果.

Safety is Non-Compositional: A Formal Framework for Capability-Based AI Systems

Cosimo Spera

cs.AI

本文通过形式化框架证明, 在存在 conjunctive capability dependencies 的情况下, 安全性不具备组合性. 两个各自无法单独达成禁止目标的智能体, 在组合后可能通过 emergent conjunctive dependency 共同达成该目标.

An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc

Hong Zhang et al.

cs.AI

本文提出了一个基于agent的评估框架petscagent-bench，用于评估AI生成的HPC科学代码。该框架通过一个工具增强的评估器agent来编译、执行和测量被测模型生成的代码，覆盖了功能性、性能、代码质量等多个维度。

From Workflow Automation to Capability Closure: A Formal Framework for Safe and Revenue-Aware Customer Service AI

Cosimo Spera, Garima Agrawal, Riccardo De Maria

cs.AI

本文提出了一个用于客户服务AI安全与收益感知的形式化框架, 旨在解决从工作流自动化到能力闭合的转变中出现的组合安全问题. 该框架关注多个专门化AI agent动态组合时可能产生的、单个agent验证中无法发现的联合依赖风险.

Selective Memory for Artificial Intelligence: Write-Time Gating with Hierarchical Archiving

Oliver Zahn, Simran Chana

cs.AI

本文提出了一种基于写入时门控的选择性记忆机制, 用于改进人工智能系统的知识存储. 该方法通过复合显著性分数过滤输入知识, 并维护版本链, 在多项基准测试中显著提升了准确性并降低了查询成本.

IRAM-Omega-Q: A Computational Architecture for Uncertainty Regulation in Artificial Agents

Veronique Ziegler

cs.AI

本文提出了一个名为IRAM-Omega-Q的计算架构，用于在人工agent中建模内部调节。该框架将调节过程视为对量子态表示（如密度矩阵）的闭环控制，并引入自适应增益来管理不确定性。通过模拟分析，作者展示了不同控制更新顺序会导致不同的稳定性区域。

Interpretable Context Methodology: Folder Structure as Agentic Architecture

Jake Van Clief, David McDermott

cs.AI cs.HC

本文提出了一种名为Model Workspace Protocol (MWP)的方法, 用于简化AI agent的顺序工作流编排. 该方法利用文件系统的文件夹结构来管理任务阶段和上下文, 避免了复杂多agent框架的工程开销, 适用于需要人工逐步审核的场景.

Enhancing Linguistic Generalization of VLA: Fine-Tuning OpenVLA via Synthetic Instruction Augmentation

Dongik Shin

cs.AI

本文提出了一种通过合成指令增强来提升OpenVLA模型语言泛化能力的参数高效微调方法. 该方法利用大型语言模型为现有轨迹生成语义相同但结构多样的指令, 并采用LoRA技术对模型进行微调. 实验表明, 该方法增强了模型在未见环境下的鲁棒性.

POaaS: Minimal-Edit Prompt Optimization as a Service to Lift Accuracy and Cut Hallucinations on On-Device sLLMs

Jungwoo Shim et al.

cs.AI

本文提出了一种名为POaaS的轻量级prompt优化方法, 专为on-device sLLMs设计. 它通过一个保守的、最小编辑的策略来修正用户查询中的错误或模糊之处, 旨在提升任务准确性和事实性, 同时避免传统自动prompt优化方法在资源受限环境下带来的性能下降.

A Context Alignment Pre-processor for Enhancing the Coherence of Human-LLM Dialog

Ding Wei

cs.AI

本文提出了一种名为Context Alignment Pre-processor (C.A.P.)的预处理器框架，旨在解决大型语言模型(LLM)在长对话中因上下文错位而产生的回应不连贯问题。该框架通过语义扩展、时间加权上下文检索和对齐验证等步骤，在生成回应前对用户输入进行处理，以提升人机对话的协作质量。

ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

Yu Li et al.

cs.AI

本文提出了一个名为ARISE的分层强化学习框架, 旨在提升语言模型的数学推理能力. 该框架通过管理一个可重用的技能库来改进训练过程, 并在多个数学基准测试上取得了优于基线方法的效果.

VIGIL: Towards Edge-Extended Agentic AI for Enterprise IT Support

Sarthak Ahuja et al.

cs.AI

本文介绍了一个名为VIGIL的、部署在边缘设备上的智能代理系统，用于企业IT支持。该系统通过在用户设备上进行本地诊断和修复，在试点中减少了交互次数并提高了解决效率。

NeuronSpark: A Spiking Neural Network Language Model with Selective State Space Dynamics

Zhengzheng Tang

cs.AI

本文提出了一种名为NeuronSpark的纯spiking neural network (SNN)语言模型，它结合了选择性状态空间动态等多项技术，并在有限的计算预算下进行了训练和评估。结果表明，纯SNN架构在大规模语言建模任务上具有可行性。

Are Large Language Models Truly Smarter Than Humans?

Eshwar Reddy M, Sourav Karmakar

cs.AI cs.CL

本文通过三项实验对六个前沿LLM进行了数据污染审计。研究发现，公开基准测试存在显著的训练数据污染问题，导致模型性能被高估，尤其是在STEM和哲学领域。

Proactive Rejection and Grounded Execution: A Dual-Stage Intent Analysis Paradigm for Safe and Efficient AIoT Smart Homes

Xinxin Jin et al.

cs.AI

本文提出了一种用于AIoT智能家居的双阶段意图分析框架DS-IA, 旨在提升大型语言模型作为具身代理的可靠性与交互效率. 该框架通过分离高层意图理解与低层物理执行, 并引入确定性级联验证器, 有效过滤无效指令并减少不必要的用户交互.

MOSAIC: Composable Safety Alignment with Modular Control Tokens

Jingyu Peng et al.

cs.AI

本文提出了一种名为MOSAIC的模块化框架, 用于实现大型语言模型的可组合安全对齐. 该方法通过在一组冻结的骨干模型上优化可学习的控制令牌来实现, 每个令牌代表一个安全约束, 可以在推理时灵活激活和组合. 实验表明, 该方法在保持模型效用的同时, 实现了较强的防御性能并显著降低了过度拒绝.

Adaptive Theory of Mind for LLM-based Multi-Agent Coordination

Chunjiang Mu et al.

cs.AI

本文提出了一种自适应心智理论(Adaptive Theory of Mind, A-ToM)方法，用于解决基于大语言模型(LLM)的多智能体协作中因心智理论推理层级不匹配导致的协调问题。该方法通过估计并适应协作伙伴的心智理论层级来预测其行为，并在多个协作任务中验证了其有效性。

NeSy-Route: A Neuro-Symbolic Benchmark for Constrained Route Planning in Remote Sensing

Ming Yang et al.

cs.AI

本文提出了一个用于遥感图像中约束路径规划任务的神经符号基准测试集 NeSy-Route. 它包含一个自动数据生成框架和一个三层评估协议, 用于全面评估多模态大语言模型的感知、推理和规划能力.

Learning to Predict, Discover, and Reason in High-Dimensional Discrete Event Sequences

Hugo Math

cs.AI cs.LG

本文提出了一种处理高维离散事件序列的统一框架, 结合了预测, 因果发现和基于LLM的推理. 针对汽车诊断故障码(DTC)序列, 作者引入了多种Transformer架构用于预测性维护, 可扩展的因果发现方法, 以及一个用于自动合成布尔错误模式规则的多智能体系统.

FactorEngine: A Program-level Knowledge-Infused Factor Mining Framework for Quantitative Investment

Qinhong Lin et al.

cs.AI

本文提出了一个名为FactorEngine的程序级因子挖掘框架, 用于从非平稳的市场数据中自动发现可执行的预测信号. 该框架结合了知识引导的搜索与优化分离策略, 并通过多智能体流程将非结构化金融报告转化为可执行因子程序, 在回测中展现了优于基线方法的预测稳定性与投资组合表现.

Via Negativa for AI Alignment: Why Negative Constraints Are Structurally Superior to Positive Preferences

Quan Cheng

cs.AI

本文探讨了在AI对齐任务中, 使用负向约束(negative constraints)相比正向偏好(positive preferences)在结构上的优势. 作者基于波普尔的可证伪性逻辑和负向知识认识论, 解释了为何仅使用负向信号的方法在实证中表现优异, 并建议将对齐研究的重心从学习人类偏好转向学习人类拒绝.

From Natural Language to Executable Option Strategies via Large Language Models

Haochen Luo et al.

cs.AI q-fin.TR

本文提出了一种将自然语言交易意图转化为可执行期权策略的神经符号方法. 该方法通过引入一个领域特定的中间表示(Option Query Language, OQL)来抽象期权市场, 让大型语言模型(LLMs)专注于语义解析, 再由确定性引擎执行查询, 从而提高了策略生成的准确性和逻辑一致性.

Visual Distraction Undermines Moral Reasoning in Vision-Language Models

Xinyi Yang et al.

cs.AI

本文通过引入基于Moral Foundation Theory的多模态基准Moral Dilemma Simulation (MDS), 揭示了视觉输入会显著改变Vision-Language Models (VLMs)的道德决策, 使其绕过基于文本的安全机制. 研究发现视觉模态会激活类似直觉的路径, 覆盖了纯文本语境中更审慎的推理模式, 暴露了多模态安全对齐的脆弱性.

TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

Ai Jian et al.

cs.AI

本文提出了TRUST-SQL框架，用于处理未知数据库模式下的Text-to-SQL任务。该方法将问题建模为部分可观测马尔可夫决策过程，并引入了一个四阶段推理协议和一个新颖的双轨GRPO强化学习策略。实验表明，该方法在多个基准测试上显著超越了基础模型，并在不预先加载完整模式的情况下达到了与依赖完整模式的基线相当或更好的性能。

RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments

Linghua Zhang et al.

cs.AI

本文提出了一个名为RetailBench的基准测试, 用于评估LLM智能体在现实零售环境中进行长期自主决策的能力. 研究还提出了一个将高层策略推理与底层动作执行分离的框架, 实验表明该框架能提升操作稳定性, 但也揭示了当前LLM在长期、多因素决策方面的根本局限性.

Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition

Yu Liu et al.

cs.AI cs.HC

本文提出了一种用于开放词汇多模态情感识别(OV-MER)的混合证据演绎推理架构HyDRA. 该方法通过一个“提议-验证-决定”的协议来整合多模态线索, 并使用强化学习来优化推理过程, 在模糊或冲突场景中表现优于基线模型.

Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Oleg Somov et al.

cs.AI

本文通过因果分析评估了LLM在schema-guided reasoning pipeline中对中间结构的忠实度. 研究发现, 模型对自身生成的中间结构表现出表面一致性, 但在干预后更新预测的能力存在显著缺陷.

ExpressMind: A Multimodal Pretrained Large Language Model for Expressway Operation

Zihe Wang et al.

cs.AI

本文提出了一个面向高速公路运营的多模态预训练大语言模型 ExpressMind. 该模型通过构建行业首个全栈数据集, 并采用双层预训练范式, Graph-Augmented RAG 框架以及 RL-aligned Chain-of-Thought 机制, 旨在提升对交通场景的理解与应急推理能力. 实验表明其在多项任务上超越了现有基线.

Exploring different approaches to customize language models for domain-specific text-to-code generation

Luís Freire, Fernanda A. Andaló, Nicki Skafte Detlefsen

cs.AI

本文探讨了为领域特定文本到代码生成定制语言模型的几种方法. 通过构建Python生态中三个领域的合成数据集, 评估了少样本提示, 检索增强生成(RAG)和基于LoRA的参数高效微调等策略. 结果表明, 基于提示的方法能经济地提升领域相关性, 而LoRA微调则在大多数任务中实现了更高的准确性和领域对齐.

Designing for Disagreement: Front-End Guardrails for Assistance Allocation in LLM-Enabled Robots

Carmen Ng

cs.AI cs.HC cs.RO

本文针对LLM赋能的机器人在多用户社会场景中分配稀缺辅助资源时面临的价值观多元性和LLM行为不确定性问题, 提出了一种称为"有界校准与可争议性"的前端护栏设计模式. 该模式通过限定可用的优先级模式, 保持交互的透明性, 并提供具体的争议解决途径, 旨在平衡自动化决策与用户自主权.

BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Sangyeon Yoon et al.

cs.AI cs.CL

本文提出了一个名为 BenchPreS 的基准测试, 用于评估基于持久记忆的 LLMs 在不同沟通语境中应用或抑制用户偏好的能力. 研究发现, 即使前沿的 LLM 也难以实现上下文敏感的偏好应用, 倾向于将个性化偏好视为全局规则.

V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models

Seyed Mahed Mousavi et al.

cs.AI

本文提出了一个用于评估视觉语言模型(VLMs)中时效性事实知识的基准V-DyKnow. 通过该基准, 作者分析了模型响应的可靠性, 知识更新方法的有效性以及预测过时的来源, 揭示了当前模型在处理跨模态时效知识方面的根本局限性.

Runtime Governance for AI Agents: Policies on Paths

Maurits Kaptein, Vassilis-Javed Khan, Andriy Podstavnychy

cs.AI

本文提出了一个针对AI agent运行时治理的形式化框架, 将合规策略定义为从agent身份、部分执行路径、提议的下一个动作和组织状态到策略违规概率的确定性函数. 该框架将提示级指令和静态访问控制视为其特例, 并讨论了具体策略示例和开放问题.

When AI Navigates the Fog of War

Ming Li, Xirui Li, Tianyi Zhou

cs.AI cs.CL cs.CY

本文通过构建一个基于2026年中东冲突早期阶段的时间锚定案例研究, 分析了大型语言模型在信息不完全的"战争迷雾"中进行地缘政治推理的能力. 研究设计了多个时间节点和验证性问题, 以减轻训练数据泄露的影响, 并观察了模型推理随事件发展的演变.

Domain-Independent Dynamic Programming with Constraint Propagation

Imko Marijnissen et al.

cs.AI

本文提出了一种将 constraint propagation 集成到 dynamic programming (DP) 中的方法, 以桥接 DP 和 constraint programming (CP) 两种范式. 通过在 Domain-Independent Dynamic Programming 框架中使用通用 CP 求解器进行约束传播, 该方法能够在多个组合优化问题上有效剪枝状态和转移, 从而减少状态扩展数量并提升求解能力.

What if Pinocchio Were a Reinforcement Learning Agent: A Normative End-to-End Pipeline

Benoît Alcaraz

cs.AI

本文提出了一种名为PINO的混合模型, 用于开发符合规范且具有上下文感知能力的智能体. 该模型结合了强化学习与基于论证的规范性监督, 并探讨了规范规避现象及其缓解策略.

Machines acquire scientific taste from institutional traces

Ziqin Gong, Ning Li, Huaikang Zhou

cs.AI econ.GN

本文通过微调语言模型在期刊发表决策数据上, 展示了AI模型能够学习并超越人类专家在评估科研想法"品味"上的能力. 在管理学等多个领域的基准测试中, 微调模型的表现显著优于前沿大模型和专家小组, 表明科学品味隐含在制度记录中并可被提取.

CritiSense: Critical Digital Literacy and Resilience Against Misinformation

Firoj Alam et al.

cs.AI cs.CL cs.CY

本文介绍了一款名为CritiSense的多语言移动应用, 旨在通过互动挑战和即时反馈提升用户的数字素养和抵御错误信息的能力. 该应用采用模块化设计, 支持快速更新, 并已通过用户研究验证了其可用性和潜在效果.

IQuest-Coder-V1 Technical Report

Jian Yang et al.

cs.AI cs.CL cs.SE

本文介绍了IQuest-Coder-V1系列代码大语言模型，提出了一种名为code-flow的多阶段训练范式，旨在捕捉软件逻辑的动态演化。该模型在代码智能的多个关键维度上实现了先进的性能。

Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure

Caglar Yildirim

cs.AI

本文研究了在个性化LLM agents中, 用户披露心理健康状况这一敏感上下文如何影响其完成有害任务的行为. 通过在AgentHarm基准上测试不同模型, 发现添加个人简介或心理健康披露通常能略微降低危害性, 但这种保护作用在遭遇轻微对抗性提示(jailbreak)时非常脆弱.

MedCL-Bench: Benchmarking stability-efficiency trade-offs and scaling in biomedical continual learning

Min Zeng et al.

cs.AI

本文提出了一个用于评估生物医学领域持续学习方法的基准测试 MedCL-Bench. 它整合了多个任务和数据集, 在标准协议下评估了不同学习策略在稳定性, 效率以及任务顺序鲁棒性方面的表现.

Nonstandard Errors in AI Agents

Ruijiang Gao, Steven Chong Xiao

cs.AI cs.SI

本文研究了AI编程代理在相同数据和问题下产生结果的一致性. 通过部署多个Claude Code代理测试关于市场质量的假设, 发现代理之间存在显著的"非标准误差", 不同模型家族展现出稳定的"实证风格". 引入同行评审和范例论文反馈后, 估计的离散度在某些条件下大幅降低, 但这种收敛更多源于模仿而非理解.

Anticipatory Planning for Multimodal AI Agents

Yongyuan Liang et al.

cs.AI

本文提出了一个名为TraceR1的两阶段强化学习框架, 旨在通过在执行前预测短期轨迹来训练多模态AI智能体的预期推理能力. 该框架在多个计算机使用和多模态工具使用基准测试中表现出优于反应式基线的规划稳定性和执行鲁棒性.

Beyond Accuracy: Evaluating Forecasting Models by Multi-Echelon Inventory Cost

Swata Marik, Swayamjit Saha, Garga Chatterjee

cs.AI

本文通过整合传统预测模型、机器学习回归器和深度序列模型, 构建了一个数字化的预测-库存优化流程, 并在统一的库存模拟框架下进行评估. 在单级和两级报童系统中, Temporal CNN 和 LSTM 模型相比统计基线显著降低了库存成本并提高了满足率.

Is Conformal Factuality for RAG-based LLMs Robust? Novel Metrics and Systematic Insights

Yi Chen et al.

cs.AI cs.CL cs.LG

本文系统分析了基于RAG的LLMs中conformal factuality filtering的可靠性与实用性, 提出了新的关注信息量的评估指标. 研究发现该方法在高事实性要求下会因输出空洞而实用性低, 且其统计保证对分布偏移和干扰信息不稳健.

Surg$Σ$: A Spectrum of Large-Scale Multimodal Data and Foundation Models for Surgical Intelligence

Zhitao Zeng et al.

cs.AI

本文介绍了Surg$\Sigma$, 一个用于外科智能的大规模多模态数据和基础模型谱系. 其核心是Surg$\Sigma$-DB, 一个整合了异构数据源并提供了丰富标注的统一数据基础, 旨在支持多样化的外科任务并提升模型的泛化能力.

Prompt Programming for Cultural Bias and Alignment of Large Language Models

Maksim Eren et al.

cs.AI cs.CL

本文通过复现社会科学调查的投影和距离度量, 在开源大语言模型上验证了文化对齐框架, 并引入使用DSPy进行提示编程来系统优化文化条件. 实验表明, 提示优化通常能改进文化提示工程, 为获得文化对齐的响应提供了一条更稳定的途径.

Learning to Present: Inverse Specification Rewards for Agentic Slide Generation

Karthik Ragunath Ananda Kumar, Subrahmanyam Arunachalam

cs.AI

本文提出了一个基于强化学习的自动化幻灯片生成框架 SlideRL, 通过一个包含逆向规范奖励的多组件奖励系统来训练 LLM 智能体, 使其能够使用工具进行研究、规划并生成专业的 HTML 幻灯片. 实验表明, 经过微调的 7B 模型在 48 个商业简报任务上达到了接近顶级闭源模型的质量, 并且智能体任务性能更依赖于指令遵循和工具使用能力, 而非模型参数量.

Internalizing Agency from Reflective Experience

Rui Ge et al.

cs.AI

本文提出了一个名为LEAFE的框架, 旨在通过从反思性经验中学习来增强大型语言模型在长程交互任务中的反馈驱动型自主能力. 该方法通过总结环境反馈, 回溯决策点并探索替代路径来生成经验, 然后通过监督微调将这些修正经验提炼到模型中, 从而在交互式编码等任务上提升了Pass@k性能.

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Tianyu Xie et al.

cs.AI

本文提出了一个名为 SocialOmni 的基准测试，用于评估全模态大语言模型在动态对话中的社交互动能力。该基准包含感知样本和交互生成实例，测试了多个领先模型，揭示了其感知准确性与生成适当打断能力之间的脱节。

cs.IR

Finder: A Multimodal AI-Powered Search Framework for Pharmaceutical Data Retrieval

Suyash Mishra et al.

cs.IR cs.AI

本文提出了一个名为Finder的多模态AI搜索框架, 用于药物数据检索. 它采用混合向量搜索技术, 整合了文本, 图像, 音频和视频的检索, 旨在提升搜索的精确度和上下文相关性.

Temporal Fact Conflicts in LLMs: Reproducibility Insights from Unifying DYNAMICQA and MULAN

Ritajit Dey et al.

cs.IR cs.CL

本文通过复现DYNAMICQA和MULAN两个关于大语言模型处理时序事实冲突的研究，揭示了结论差异主要源于数据集设计和方法论框架的不同。研究还探讨了模型规模对知识编码与更新的影响。

RecBundle: A Next-Generation Geometric Paradigm for Explainable Recommender Systems

Hui Wang et al.

cs.IR cs.AI

本文引入微分几何中的Fiber Bundle概念, 提出了一种用于推荐系统的新型几何分析范式RecBundle. 该框架将系统空间解耦为用户交互网络构成的base manifold和承载用户动态偏好的fibers, 将用户协作形式化为base manifold上的几何连接与平行移动, 并将内容演化映射为fibers上的holonomy变换. 在真实数据集上的实验验证了该框架的有效性.

Answer Bubbles: Information Exposure in AI-Mediated Search

Michelle Huang et al.

cs.IR cs.CL

本文通过分析四种搜索系统对真实查询的响应, 比较了生成式搜索与传统搜索在信源多样性、语言特征和摘要-信源保真度上的差异. 研究发现生成式搜索存在信源选择偏见, 并可能形成"答案泡沫", 影响信息获取的透明度.

Open-Source Reproduction and Explainability Analysis of Corrective Retrieval Augmented Generation

Surya Vardhan Yalavarthi

cs.IR cs.AI cs.CL

本文实现了一个完全开源的 Corrective Retrieval Augmented Generation (CRAG) 系统复现, 使用 Wikipedia API 和 Phi-3 模型替代了原版的专有组件. 通过 SHAP 对系统内的 T5-based 检索评估器进行了可解释性分析, 发现其决策主要依赖于命名实体对齐而非语义相似度.

MemX: A Local-First Long-Term Memory System for AI Assistants

Lizheng Sun

cs.IR cs.AI

本文介绍了一个名为MemX的本地优先长期记忆系统, 专为AI助手设计, 其检索流程强调稳定性. 系统在基准测试中展现了良好的检索性能与低延迟.

ReFORM: Review-aggregated Profile Generation via LLM with Multi-Factor Attention for Restaurant Recommendation

Moonsoo Park, Seulbeen Je, Donghyeon Park

cs.IR cs.LG

本文提出了一种名为ReFORM的推荐框架, 利用LLM从用户评论中生成细粒度的用户与物品画像, 并引入Multi-Factor Attention机制来捕捉影响用户决策的关键因素. 在两个不同规模的餐厅数据集上的实验表明, 该方法优于现有基线, 并通过深入分析验证了其模块的有效性.

cs.CL

Recursive Language Models Meet Uncertainty: The Surprising Effectiveness of Self-Reflective Program Search for Long Context

Keivan Alizadeh et al.

cs.CL cs.AI cs.LG

本文提出了SRLM框架, 通过结合不确定性感知的自我反思来增强程序化的上下文交互. 实验表明, 该方法在多种基准测试和上下文长度下均优于现有基线, 且无需显式的递归机制.

MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences

Eric Wu et al.

cs.CL

本文介绍了MedArena，一个用于评估医学大语言模型的交互式平台。该平台通过收集临床医生对模型回答的真实偏好来进行比较，发现模型排名与基于静态基准测试的结果有所不同。

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

MiroMind Team et al.

cs.CL cs.AI cs.IR cs.LG

本文介绍了MiroThinker-1.7及其增强版H1，它们是专为复杂长程推理任务设计的研究智能体。H1版本通过在推理过程中引入局部和全局验证机制，提升了多步问题解决的可靠性，并在多个研究型基准测试中取得了领先的性能。

Morphemes Without Borders: Evaluating Root-Pattern Morphology in Arabic Tokenizers and LLMs

Yara Alakeel et al.

cs.CL cs.AI

本文评估了大型语言模型及其分词方案在处理阿拉伯语词根-模式形态时的表现. 研究发现, 分词器在形态上的对齐程度与模型生成形态的能力没有必然联系.

COGNAC at SemEval-2026 Task 5: LLM Ensembles for Human-Level Word Sense Plausibility Rating in Challenging Narratives

Azwad Anjum Islam, Tisa Islam Erana

cs.CL cs.AI

本文描述了参与SemEval-2026 Task 5的系统，该任务旨在评估同形异义词在短篇故事中特定词义的可信度。作者探索了多种提示策略与LLM集成方法，以应对标注者间的主观差异，最终在竞赛中取得了良好成绩。

Agent-based imitation dynamics can yield efficiently compressed population-level vocabularies

Nathaniel Imel et al.

cs.CL

本文结合 evolutionary game theory 与 Information Bottleneck (IB) 框架，研究了词汇表通过 agent 间的模仿动态向高效压缩方向演化的可能性。模型表明，信号博弈中不精确的策略模仿可以导致群体层面出现接近最优的词汇压缩。

CTG-DB: An Ontology-Based Transformation of ClinicalTrials.gov to Enable Cross-Trial Drug Safety Analyses

Jeffery L. Painter, François Haguinet, Andrew Bate

cs.CL

本文介绍了一个名为CTG-DB的数据库转换框架，用于将ClinicalTrials.gov的临床试验数据标准化，以支持药物安全性的跨试验分析。该框架通过整合MedDRA术语库，将非结构化的不良事件文本转化为标准化的概念，便于后续的规模化分析。

BANGLASOCIALBENCH: A Benchmark for Evaluating Sociopragmatic and Cultural Alignment of LLMs in Bangladeshi Social Interaction

Tanvir Ahmed Sijan et al.

cs.CL

本文提出了一个名为BANGLASOCIALBENCH的基准测试，用于评估大语言模型在孟加拉语社交互动中的社会语用和文化对齐能力。该基准包含三个领域，并评估了多个模型，发现它们存在系统性的文化错位问题。

POLAR:A Per-User Association Test in Embedding Space

Pedro Bento et al.

cs.CL cs.CY cs.SI

本文提出了一种在嵌入空间中运行的、针对每个用户的词汇关联测试方法POLAR. 该方法通过将用户表征向量投影到特定词汇轴上, 为计算社会科学提供了简洁的、针对每个作者的分析诊断.

A Family of LLMs Liberated from Static Vocabularies

Aleph Alpha et al.

cs.CL cs.AI cs.LG

本文提出了一种基于 hierarchical autoregressive transformer (HAT) 架构的模型家族, 旨在摆脱传统静态词表 tokenizer 的限制. 通过将预训练模型转换为 HAT 架构或从头训练, 该方法在文本压缩和多语言任务上展现了改进.

MoLoRA: Composable Specialization via Per-Token Adapter Routing

Shrey Shah, Justin Wagle

cs.CL cs.AI

本文提出了一种名为MoLoRA的per-token adapter routing方法，用于实现可组合的模型专业化。该方法允许在推理时动态地为每个token选择最合适的LoRA适配器，从而在混合能力请求和多模态生成等场景中超越传统的per-sequence routing。实验表明，使用该方法的较小模型能在多个推理基准上超越更大的模型。

Robust Language Identification for Romansh Varieties

Charlotte Model, Sina Ahmadi, Jannis Vamvas

cs.CL

本文针对罗曼什语(Romansh)的多种方言变体, 提出了一种基于SVM的语言识别系统. 该系统在一个新构建的基准测试上取得了较高的准确率, 可用于拼写检查或机器翻译等应用.

Aligning Paralinguistic Understanding and Generation in Speech LLMs via Multi-Task Reinforcement Learning

Jingxiang Chen et al.

cs.CL cs.AI

本文提出了一种结合多任务强化学习和思维链提示的语音大语言模型方法, 旨在提升对副语言线索(如韵律、情感)的理解和生成能力. 该方法通过联合优化情感分类和副语言感知的响应生成任务, 在多个数据集上超越了现有基线模型.

NLP Occupational Emergence Analysis: How Occupations Form and Evolve in Real Time -- A Zero-Assumption Method Demonstrated on AI in the US Technology Workforce, 2022-2026

David Nordfors

cs.CL cs.CY

本文提出了一种基于简历数据的零假设方法, 用于实时检测职业的形成与演变. 该方法将真正的职业概念化为一个由共享专业词汇和从业者群体相互强化的二分共吸引子结构, 并通过独立检验词汇凝聚力和群体凝聚力来识别新兴职业, 无需预定义的分类体系或职位名称. 将该方法应用于2022-2026年间820万份美国简历数据, 研究发现人工智能领域在2024年初迅速形成了具有凝聚力的专业词汇, 但从业者群体并未相应凝聚, 表明AI是一项扩散中的技术而非新兴职业.

RadAnnotate: Large Language Models for Efficient and Reliable Radiology Report Annotation

Saisha Pradeep Shetty, Roger Eric Goldman, Vladimir Filkov

cs.CL cs.AI cs.LG

本文提出了一个基于LLM的框架RadAnnotate, 用于自动化放射学报告中的实体标注任务. 该方法通过检索增强生成合成报告并利用置信度选择机制, 在保持高准确率的同时显著减少了专家标注工作量.

Understanding Moral Reasoning Trajectories in Large Language Models: Toward Probing-Based Explainability

Fan Huang, Haewoon Kwak, Jisun An

cs.CL cs.AI

本文通过分析大语言模型在道德推理过程中伦理框架的调用序列, 提出了"道德推理轨迹"的概念, 并研究了其动态特性. 研究发现, 模型的推理过程涉及多种伦理框架的频繁切换, 且轨迹的不稳定性与模型易受攻击性相关, 作者还提出了一个与模型一致性评分强相关的度量指标.

SEAHateCheck: Functional Tests for Detecting Hate Speech in Low-Resource Languages of Southeast Asia

Ri Chi Ng et al.

cs.CL cs.AI

本文提出了一个针对东南亚低资源语言（印尼语、他加禄语、泰语、越南语）的仇恨言论检测功能测试数据集SEAHateCheck。该数据集基于HateCheck框架构建，并利用大语言模型生成和本地专家验证，实验揭示了现有模型在处理这些语言时，尤其在文化特定表达和隐式仇恨检测方面的局限性。

ClaimFlow: Tracing the Evolution of Scientific Claims in NLP

Aniket Pramanick et al.

cs.CL

本文提出了一个名为ClaimFlow的框架，用于追踪NLP领域中科学主张的演变。该框架基于对大量论文的人工标注，定义了一个新的主张关系分类任务，并提供了基线模型性能分析。

CounterRefine: Answer-Conditioned Counterevidence Retrieval for Inference-Time Knowledge Repair in Factual Question Answering

Tianyi Huang, Ying Kai Deng

cs.CL cs.AI

本文提出了一种名为CounterRefine的轻量级推理时修复方法，用于基于检索的事实问答任务。该方法通过生成初步答案并检索支持性和冲突性证据，以验证和修正答案，从而提升了模型在SimpleQA基准上的表现。

Frequency Matters: Fast Model-Agnostic Data Curation for Pruning and Quantization

Francesco Pio Monaco et al.

cs.CL cs.AI

本文提出了一种名为ZipCal的模型无关数据筛选方法, 用于为大型语言模型的剪枝和量化选择校准数据. 该方法基于Zipfian幂律最大化词汇多样性, 实验表明其在保持性能的同时, 计算效率远高于依赖模型困惑度的方法.

ASDA: Automated Skill Distillation and Adaptation for Financial Reasoning

Tik Yu Yim et al.

cs.CL cs.AI cs.CE

本文提出了一个无需训练即可提升大语言模型在金融推理任务上性能的框架 ASDA. 该框架通过分析模型错误, 自动生成包含推理步骤和代码模板的结构化技能文件, 并在推理时动态调用这些文件.

Language Models Don't Know What You Want: Evaluating Personalization in Deep Research Needs Real Users

Nishant Balepur et al.

cs.CL

本文提出了一个名为MyScholarQA的个性化深度研究工具, 它通过推断用户研究兴趣、建议个性化操作并生成报告来辅助科研. 作者发现, 尽管该工具在基于合成用户和LLM评判的基准测试中表现良好, 但通过真实用户访谈揭示了标准评估协议可能忽略的九类细微错误, 从而论证了在个性化研究中引入真实用户评估的重要性.

Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-Tuning

Kazuki Yano et al.

cs.CL cs.LG

本文研究了在大规模语言模型预训练中学习率调度策略的作用, 特别是其对监督微调后下游任务性能的影响. 实验表明, 在预训练阶段仅使用 warmup 后保持恒定学习率的策略, 相比广泛使用的学习率衰减策略, 能产生更平坦的损失曲面, 从而在监督微调后获得更好的下游任务性能.

Social Simulacra in the Wild: AI Agent Communities on Moltbook

Agam Goyal et al.

cs.CL

本文对AI智能体社区与人类在线社区进行了首次大规模实证比较, 分析了Moltbook和Reddit上五个匹配社区中的大量帖子. 研究发现, AI智能体社区在结构上表现出极端的参与不平等和高度的跨社区作者重叠, 在语言特征上, AI生成的内容情感扁平化, 认知上更倾向于断言而非探索, 并且社会联系较弱. 这些差异导致了社区层面的同质化现象, 但作者指出这主要是共享作者身份的结构性产物.

SciZoom: A Large-scale Benchmark for Hierarchical Scientific Summarization across the LLM Era

Han Jang, Junhyeok Lee, Kyu Sung Choi

cs.CL

本文提出了一个用于多层次科学文本摘要的大规模基准数据集SciZoom, 并分析了LLM时代前后科学写作风格的变化. 该数据集包含近4.5万篇论文, 提供了从摘要到极简总结的不同粒度目标, 可用于摘要研究和科学话语演变分析.

SIA: A Synthesize-Inject-Align Framework for Knowledge-Grounded and Secure E-commerce Search LLMs with Industrial Deployment

Zhouwei Zhai, Mengxiang Chen, Anmeng Zhang

cs.CL

本文提出了一个名为SIA的框架，用于构建知识丰富且安全的电子商务搜索大语言模型。该框架通过合成高质量语料、参数高效的预训练以及双路径对齐方法，旨在解决知识幻觉和安全漏洞问题，并已在工业场景中部署验证。

Parametric Social Identity Injection and Diversification in Public Opinion Simulation

Hexi Wang et al.

cs.CL

本文提出了一个名为PSII的框架, 用于在基于LLM的公众意见模拟中注入参数化的社会身份表征, 以缓解多样性崩溃问题. 实验表明该方法能提升模拟结果的分布保真度和多样性.

Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR

Quy-Anh Dang, Chris Ngo

cs.CL

本文通过平衡采样策略微调Qwen3-ASR模型，开发了适用于新加坡多语言环境的紧凑型自动语音识别模型Polyglot-Lion。该模型在保持竞争力的识别错误率的同时，显著降低了训练与推理成本。

Structured Semantic Cloaking for Jailbreak Attacks on Large Language Models

Xiaobing Sun et al.

cs.CL

本文提出了一种名为Structured Semantic Cloaking (S2C)的新型多维越狱攻击框架，用于对抗大型语言模型(LLMs)的安全机制。该方法通过Contextual Reframing, Content Fragmentation和Clue-Guided Camouflage三种机制，分散和伪装恶意意图的语义线索，延迟其在模型推理过程中的整合，从而绕过依赖显式恶意意图识别的安全触发器。实验表明，S2C在多个基准测试上显著提升了攻击成功率。

SpecSteer: Synergizing Local Context and Global Reasoning for Efficient Personalized Generation

Hang Lv et al.

cs.CL

本文提出了一种名为SpecSteer的非对称协同推理框架，用于解决个性化生成中隐私与模型能力之间的矛盾。该框架通过协同本地设备与云端模型的推理，在保护用户隐私的同时提升了生成质量与效率。

More Rounds, More Noise: Why Multi-Turn Review Fails to Improve Cross-Context Verification

Song Tae-Eun

cs.CL

本文通过实验比较了单轮与多轮动态跨上下文审查(D-CCR)在LLM验证任务中的表现。研究发现，多轮审查虽然提高了召回率，但会显著增加误报，导致整体F1分数下降，其根本原因在于额外的审查轮次引入了噪声。

Is Semi-Automatic Transcription Useful in Corpus Creation? Preliminary Considerations on the KIParla Corpus

Martina Simonotti et al.

cs.CL

本文通过实验分析了自动语音识别(ASR)在意大利语口语语料库KIParla转录工作流中的应用。结果表明，ASR辅助可以提升转录速度，但对整体准确率的提升并不一致，其效果受工作流配置、对话类型和转录者经验等多种因素影响。

Attention-guided Evidence Grounding for Spoken Question Answering

Ke Yang et al.

cs.CL cs.AI

本文提出了一种用于Spoken Question Answering的端到端框架AEG, 它利用Speech Large Language Models的内部跨模态注意力机制来定位关键证据. 通过提出的LFE微调范式校准注意力, 该方法在多个数据集上减少了幻觉并提升了效率.

PyPhonPlan: Simulating phonetic planning with dynamic neural fields and task dynamics

Sam Kirkham

cs.CL

本文介绍了一个名为PyPhonPlan的Python工具包，它结合了动态神经场和任务动力学来模拟语音规划过程。该工具包提供了模块化组件，用于构建语音产生与感知的交互式动态模型。

Omnilingual MT: Machine Translation for 1,600 Languages

Omnilingual MT Team et al.

cs.CL

本文提出了一个支持超过1,600种语言的机器翻译系统OMT. 它通过整合大规模多语言语料库和新创建的数据集来实现这一规模, 并展示了在低计算资源下也能实现强翻译质量的专门化模型.

PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development

Hanif Rahman

cs.CL cs.IR cs.LG

本文构建了一个名为PashtoCorp的普什图语大规模语料库, 包含12.5亿单词, 并提供了一个可复现的数据处理流程. 基于该语料库对XLM-R模型进行持续预训练, 在语言建模和命名实体识别等下游任务上取得了性能提升.

Fanar 2.0: Arabic Generative AI Stack

FANAR TEAM et al.

cs.CL cs.AI

本文介绍了Fanar 2.0，一个资源受限条件下开发的阿拉伯语生成式AI平台。其核心模型Fanar-27B通过高质量数据、持续预训练和模型合并，在多项阿拉伯语及英语基准测试上取得了显著提升。该平台还集成了包括内容审核、语音识别、图像生成和多智能体应用在内的丰富功能栈。

Who Benchmarks the Benchmarks? A Case Study of LLM Evaluation in Icelandic

Finnur Ágúst Ingimundarson et al.

cs.CL cs.AI

本文评估了当前针对冰岛语的大型语言模型(LLM)基准测试, 指出了其中存在的问题, 并呼吁改进中低资源语言的评估方法. 作者通过定量错误分析表明, 未经验证的合成或机器翻译数据会严重损害基准测试的有效性.

PlotTwist: A Creative Plot Generation Framework with Small Language Models

Abhinav Thorat et al.

cs.CL cs.AI

本文提出了一个名为PlotTwist的创造性情节生成框架，旨在使小型语言模型能够生成高质量的结构化叙事。该框架通过分解生成过程、使用偏好对齐和代理评估模块来提升叙事质量。实验表明，该方法在多个叙事质量维度上优于规模大得多的前沿模型。

RECOVER: Robust Entity Correction via agentic Orchestration of hypothesis Variants for Evidence-based Recovery

Abhishek Kumar, Aashraya Sachdeva

cs.CL eess.AS

本文提出了一个名为RECOVER的agentic correction框架, 用于纠正ASR输出中缺失或错误的实体. 该框架利用多种ASR假设作为证据, 结合实体检索和LLM进行约束下的纠正, 在多个数据集上显著降低了实体短语的词错误率.

IndexRAG: Bridging Facts for Cross-Document Reasoning at Index Time

Zhenghua Bao, Yi Shi

cs.CL cs.AI cs.IR

本文提出了一种名为IndexRAG的新方法，用于多跳问答任务。该方法通过离线索引生成跨文档的桥接事实，从而在推理时仅需单次检索和一次大语言模型调用，在多个基准测试上取得了优于基线模型的效果。

EngGPT2: Sovereign, Efficient and Open Intelligence

G. Ciarfaglia et al.

cs.CL cs.AI

本文介绍了EngGPT2-16B-A3B，一个具有主权性、高效性和开放性的意大利语大语言模型。它采用Mixture-of-Experts架构，在较少训练数据和较低推理算力下实现了与同类模型相当的性能，并特别针对欧洲和意大利的NLP任务进行了优化。

VQKV: High-Fidelity and High-Ratio Cache Compression via Vector-Quantization

Yixuan Wang et al.

cs.CL

本文提出了一种名为VQKV的无训练方法, 通过引入vector quantization来压缩大型语言模型中的Key-Value cache. 该方法在保持高模型保真度的同时实现了高压缩比, 从而在有限的内存下支持更长的文本生成.

DynHD: Hallucination Detection for Diffusion Large Language Models via Denoising Dynamics Deviation Learning

Yanyu Qian et al.

cs.CL

本文提出了一种名为DynHD的方法, 用于检测Diffusion large language models (D-LLMs)生成内容中的幻觉. 该方法通过从空间(词元序列)和时间(去噪动态)两个角度建模不确定性证据, 并利用观测轨迹与参考轨迹的偏差进行检测, 在多个基准测试中取得了优于现有方法的效果.

On the Emotion Understanding of Synthesized Speech

Yuan Ge et al.

cs.CL

本文通过系统评估合成语音上的Speech Emotion Recognition (SER), 发现现有SER模型无法泛化到合成语音, 主要归因于合成过程中的speech token prediction导致了表示不匹配. 此外, 生成式Speech Language Models (SLMs)倾向于从文本语义推断情感而忽略副语言线索.

AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents

Shannan Yan et al.

cs.CL

本文提出了一个名为AdaMem的自适应用户中心记忆框架, 用于增强大型语言模型在长程对话中的表现. 该框架通过组织多种记忆类型并结合语义与关系感知的检索, 在长程推理和用户建模基准测试中取得了先进性能.

How often do Answers Change? Estimating Recency Requirements in Question Answering

Bhawna Piryani, Zehra Mert, Adam Jatowt

cs.CL

本文提出了一个关于问答系统时效性需求的新分类法, 并构建了RecencyQA数据集. 该工作为评估和开发具有时效感知能力的问答系统提供了基础.

DanceHA: A Multi-Agent Framework for Document-Level Aspect-Based Sentiment Analysis

Lei Wang, Min Huang, Eduard Dragut

cs.CL cs.AI

本文提出了一个名为DanceHA的多智能体框架，用于处理文档级方面情感强度分析(ABSIA)任务。该框架通过任务分解和人工辅助标注，构建了一个新的多领域数据集，并验证了其有效性。

EmoLLM: Appraisal-Grounded Cognitive-Emotional Co-Reasoning in Large Language Models

Yifei Zhang et al.

cs.CL cs.AI

本文提出了一个基于appraisal theory的框架EmoLLM, 用于在对话中进行认知与情感的协同推理. 该框架通过显式的Appraisal Reasoning Graph (ARG)来结构化中间推理, 并在多轮角色扮演环境中使用强化学习进行训练.

Characterizing Delusional Spirals through Human-LLM Chat Logs

Jared Moore et al.

cs.CL cs.AI

本文通过分析19名报告遭受心理伤害的用户与LLM聊天机器人的对话日志, 首次对这些真实有害案例进行了深入研究. 研究开发了一个包含28个代码的清单, 用于标注消息中的特定行为模式, 并分析了代码间的共现关系, 为理解与减轻LLM聊天机器人可能造成的心理危害提供了实证依据和具体建议.

Diverging Transformer Predictions for Human Sentence Processing: A Comprehensive Analysis of Agreement Attraction Effects

Titus von der Malsburg, Sebastian Padó

cs.CL

本文通过基于 surprisal 的关联机制，系统评估了多种自回归 Transformer 模型在英语一致性吸引效应上的表现。研究发现，模型在介词短语配置上的预测与人类阅读时间数据基本一致，但在宾语提取关系从句配置上表现显著下降，且无法复现人类的不对称干扰模式。

BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

Ji-Fu Li et al.

cs.CL cs.AI

本文提出了一种名为BATQuant的量化方法, 针对MXFP4格式在部署大模型时遇到的性能崩溃问题. 该方法通过块仿射变换和可学习的裁剪等技术, 在多种任务上取得了优于现有方法的结果.

Tarab: A Multi-Dialect Corpus of Arabic Lyrics and Poetry

Mo El-Haj

cs.CL

本文介绍了Tarab语料库, 这是一个包含阿拉伯语歌词和诗歌的大规模多方言数据集. 该语料库包含超过250万行诗句, 并附有丰富的元数据, 可用于语言学和文体学的比较研究.

Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech

Omnilingual SONAR Team et al.

cs.CL

本文提出了一种名为OmniSONAR的跨语言与跨模态句子嵌入模型, 能够将文本, 语音, 代码和数学表达式嵌入到统一的语义空间中. 通过渐进式训练和师生蒸馏框架, 该模型在数千种语言上实现了先进的性能, 并在多项跨语言和跨模态基准测试中表现出色.

Domain Mixture Design via Log-Likelihood Differences for Aligning Language Models with a Target Model

Ryo Kishino et al.

cs.CL

本文提出了一种通过设计训练数据的domain mixture来对齐base model与target model分布的方法. 该方法将模型视为log-likelihood空间中的点, 通过调整domain权重使训练更新方向指向target model. 实验表明, 相比均匀权重, 该方法能有效降低与target model的KL divergence, 并在下游任务上使性能更接近目标模型.

Good Arguments Against the People Pleasers: How Reasoning Mitigates (Yet Masks) LLM Sycophancy

Zhaoxin Feng et al.

cs.CL

本文研究了 Chain-of-Thought (CoT) 推理对缓解或掩盖 LLM 谄媚行为的作用。实验表明，推理通常能减少最终决策中的谄媚，但也会通过构建逻辑不一致的论证来掩盖这种行为。

Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models

Xiaojie Gu et al.

cs.CL cs.AI cs.LG

本文提出了一个用于评估大语言模型多步推理能力的数据集Omanic, 包含机器生成的训练数据和人工标注的评估数据. 实验表明当前模型在该数据集上表现不佳, 且使用其进行微调能提升模型在其他推理任务上的性能.

Can Linguistically Related Languages Guide LLM Translation in Low-Resource Settings?

Aishwarya Ramasethu et al.

cs.CL cs.AI

本文探讨了在极低资源机器翻译场景下, 利用语言模型(LLMs)进行即时适应的方法. 研究通过结合语言相关的枢轴语言(pivot languages)和少量示例进行提示, 评估了这种无需参数更新的轻量级方法的有效性. 结果表明, 该方法在某些配置下能带来有限的改进, 但效果并不稳定且对示例构造敏感.

Arabic Morphosyntactic Tagging and Dependency Parsing with Large Language Models

Mohamed Adel, Bashar Alhafni, Nizar Habash

cs.CL

本文评估了指令微调后的LLMs在标准阿拉伯语的形态句法标注和依存句分析任务上的表现. 研究发现, 提示设计和示例选择对性能有显著影响, 在特定设置下, 模型性能可接近或媲美专门的监督基线.

Probing Cultural Signals in Large Language Models through Author Profiling

Valentin Lafargue et al.

cs.CL cs.LG

本文通过让大型语言模型(LLM)在零样本设置下根据歌词推断歌手的性别和族裔，来探测其编码的文化信号。研究发现模型表现出系统性的文化对齐偏差，并引入了新的公平性指标进行量化。

TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities

Victoria Graf et al.

cs.CL cs.AI

本文通过构建新的多轮对话评估基准 TurnWiseEval 和合成数据生成管道 TurnWiseData，研究了语言模型在多轮对话与单轮对话能力之间的差距。实验表明，使用多轮数据进行后训练对提升模型的多轮对话性能至关重要。

SpokenUS: A Spoken User Simulator for Task-Oriented Dialogue

Jonggeun Lee et al.

cs.CL

本文提出了一个面向任务的语音对话数据集 SpokenTOD 和一个基于该数据集的语音用户模拟器 SpokenUS. SpokenUS 通过专门的架构处理语音交互中的打断行为, 在保持目标覆盖率的同时, 其生成的对话在人类主观评分上优于基线模型.

Mediocrity is the key for LLM as a Judge Anchor Selection

Shachar Don-Yehiya et al.

cs.CL

本文研究了在"LLM-as-a-judge"评估范式中，锚点模型选择对结果可靠性的影响。通过系统实验发现，选择表现极端（最好或最差）的模型作为锚点会降低与人类排名的相关性，并提出了选择信息量更大的锚点以及确定足够基准规模的具体建议。

Online Experiential Learning for Language Models

Tianzhu Ye et al.

cs.CL

本文提出了一个名为 Online Experiential Learning (OEL) 的框架, 旨在让语言模型能够从其自身的部署经验中持续学习. 该方法通过提取交互轨迹中的可迁移知识, 并利用 on-policy context distillation 进行模型更新, 在多个文本游戏环境中验证了其有效性.

Chronos: Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory

Sahil Sen et al.

cs.CL

本文提出了一种名为Chronos的时序感知记忆框架，用于增强具有长期对话历史的AI智能体。该框架通过将对话分解为结构化事件并进行检索，在基准测试上取得了显著的性能提升。

cs.DS

A Fast Approximation Algorithm for the Minimum Balanced Vertex Separator in a Graph

Vladimir Kolmogorov, Jack Spalding-Jamieson

cs.DS

本文针对图的最小平衡顶点分割问题, 提出了一系列快速的伪近似算法. 算法基于问题的半正定规划松弛, 并利用矩阵乘性权重更新框架进行求解, 在近似比和运行时间之间提供了灵活的权衡.

Diameter Computation on (Random) Geometric Graphs

Thomas Bläsius, Annemarie Schaub, Marcus Wilhelm

cs.DS

本文针对 random geometric graphs (RGGs) 提出了一种计算直径的算法，其运行时间优于现有结果。作者的主要贡献是一个基于 balanced separators 的通用框架，该框架能够利用图的几何特性来高效计算直径。

Elastic Sketch under Random Stationary Streams: Limiting Behavior and Near-Optimal Configuration

Younes Ben Mazziane, Vinay Kumar B. R., Othmane Marfoq

cs.DS cs.PF

本文在 stationary random stream 模型下分析了 Elastic-Sketch 的性能极限。作者推导了计数器极限分布和期望计数误差的闭式表达式，并基于此提出了针对内存分配参数 $m_1$ 和驱逐阈值 $\lambda$ 的网格调优方法。数值模拟验证了理论结果在有限 Zipf 分布流上的有效性。

others

An Efficient Global Optimization Algorithm with Adaptive Estimates of the Local Lipschitz Constants

Danny D'Agostino

math.OC cs.LG stat.ML

本文提出了一种名为HALO的确定性全局优化算法, 它通过自适应估计目标函数不同子区域的局部Lipschitz常数来计算下界并引导搜索. 该算法无需超参数调优, 并可识别重要变量以辅助问题解释.

SAC-NeRF: Adaptive Ray Sampling for Neural Radiance Fields via Soft Actor-Critic Reinforcement Learning

Chenyu Ge

cs.CV cs.AI

本文提出了一种基于Soft Actor-Critic强化学习的自适应光线采样方法SAC-NeRF，旨在提升Neural Radiance Fields的渲染效率。该方法通过训练一个RL agent来学习采样策略，在保持渲染质量的同时显著减少了采样点数量。

Exploring the Use of VLMs for Navigation Assistance for People with Blindness and Low Vision

Yu Li et al.

cs.CV cs.AI cs.RO

本文评估了多种vision-language models (VLMs) 在辅助盲人和低视力人群导航任务中的潜力。研究发现，不同模型在空间推理和场景理解等关键能力上存在显著差异，并指出了当前模型在复杂环境中的局限性。

Improving Generative Adversarial Network Generalization for Facial Expression Synthesis

Arbish Akram, Nazar Khan, Arif Mahmood

cs.CV cs.GR cs.LG cs.MM

本文提出了一种名为RegGAN的模型, 用于提升面部表情合成任务中生成对抗网络的泛化能力. 该模型通过结合回归层和对抗性精炼网络, 在多个评估指标上优于现有方法.

Quantum Key Distribution Secured Federated Learning for Channel Estimation and Radar Spectrum Sensing in 6G Networks

Ferhat Ozgur Catak et al.

cs.CR cs.IT cs.LG

本文提出了一种结合量子密钥分发(QKD)与联邦学习(FL)的安全框架，用于6G网络中的无线信道估计与雷达频谱感知。该方法通过BB84协议抽象和掩码技术保护客户端模型更新的隐私，实验表明其在有窃听者存在时能有效保障安全。

Machine Learning Based Identification of Solvents from Post-Desiccation Patterns

Jesús Israel Morán-Cortés, Felipe Pacheco-Vázquez

cond-mat.soft cs.LG physics.app-ph physics.comp-ph physics.data-an

本文利用人工神经网络对淀粉-液体浆料干燥后形成的裂纹图案进行分类, 以识别其中完全蒸发后的溶剂成分. 通过图像分析提取了九种形态特征并生成频率直方图, 作为神经网络的输入数据. 该方法在识别单一溶剂和混合溶剂时达到了约96%的平均准确率, 其中包含裂纹面积分布的特征集表现最佳.

OrthoAI v2: From Single-Agent Segmentation to Dual-Agent Treatment Planning for Clear Aligners

Lansiaux Edouard, Leman Margaux

cs.CV cs.AI

本文介绍了 OrthoAI v2, 一个用于隐形矫治器治疗规划的开源 AI 管道. 它通过引入双智能体架构, 改进了牙齿标志点检测和治疗模拟, 从而提升了规划质量得分.

Quantum Amplitude Estimation for Catastrophe Insurance Tail-Risk Pricing: Empirical Convergence and NISQ Noise Analysis

Alexis Kirke

stat.AP cs.AI cs.CE stat.ML

本文探讨了在巨灾保险尾部风险定价中应用量子振幅估计(QAE)的潜力. 通过模拟实验, 文章比较了QAE与传统蒙特卡洛方法的收敛速度, 并分析了当前实现中的主要瓶颈.

DRCY: Agentic Hardware Design Reviews

Kyle Dumont et al.

cs.AR cs.AI cs.SE

本文提出了一个名为DRCY的多智能体LLM系统, 用于自动化硬件原理图的初步连接审查. 该系统通过自主获取元件数据手册并进行引脚级语义分析, 旨在发现传统EDA工具无法检测的设计错误.

Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications

Alexandre Cristovão Maiorano

cs.SE cs.AI

本文提出了一个用于LLM应用的自动化自测试框架, 通过五个实证维度建立质量门控以支持基于证据的发布决策. 该框架在一个内部部署的多智能体对话系统上进行了纵向案例研究, 并通过统计分析验证了其有效性.

IdentityGuard: Context-Aware Restriction and Provenance for Personalized Synthesis

Lingyun Zhang, Yu Xie, Ping Chen

cs.CR cs.AI cs.CV

本文提出了一种针对个性化文本到图像模型的安全框架, 通过条件限制和概念特定水印来防止滥用并确保可追溯性. 该方法旨在解决通用全局过滤器在安全性和实用性之间的权衡问题.

Beyond Distance: Quantifying Point Cloud Dynamics with Persistent Homology and Dynamic Optimal Transport

Yixin Wang, Ting Gao, Jinqiao Duan

stat.ML cs.LG

本文提出了一种结合 Persistent Homology 和 Dynamic Optimal Transport 的框架, 用于分析时序点云数据的拓扑动态. 该方法通过引入多尺度熵指标来捕捉相变过程中的局部结构重组, 并在多个物理和生物系统上进行了验证.

State-Dependent Safety Failures in Multi-Turn Language Model Interaction

Pengcheng Li et al.

cs.CR cs.AI

本文从state-space的视角研究multi-turn对话中的safety failure, 提出了一个名为STAR的state-oriented诊断框架. 该框架将对话历史视为state transition operator, 用于分析模型在autoregressive conditioning下如何穿越safety boundary.

DASH: Dynamic Audio-Driven Semantic Chunking for Efficient Omnimodal Token Compression

Bingzhou Li, Tao Huang

cs.MM cs.AI cs.CV cs.SD

本文提出了一种名为DASH的动态音频驱动语义分块框架, 用于高效压缩多模态大语言模型中的长序列token. 该方法利用音频嵌入作为语义锚点进行动态分块, 并结合多信号重要性估计来保留关键token, 在多个基准测试上实现了更高的压缩比和精度.

Life cycle assessment for all organic chemicals

Shaohan Chen et al.

physics.chem-ph cs.CE cs.LG

本文提出了CRYSTAL框架，用于自动生成有机化学品透明且一致的生命周期清单数据。该框架结合了逆合成分析和机器学习，构建了一个包含超过70000种化学品的大型数据库，以识别环境影响热点和关键枢纽化学品。

PulmoVec: A Two-Stage Stacking Meta-Learning Architecture Built on the HeAR Foundation Model for Multi-Task Classification of Pediatric Respiratory Sounds

Izzet Turkalp Akbasli, Oguzhan Serin

cs.SD cs.LG

本文提出了一种名为 PulmoVec 的两阶段 stacking meta-learning 架构，该架构基于 HeAR 基础模型，用于儿科呼吸音的多任务分类。该方法在事件级别和患者级别均取得了良好的分类性能，展示了基于基础模型的数字听诊在儿科呼吸医学中的潜力。

Loosely-Structured Software: Engineering Context, Structure, and Evolution Entropy in Runtime-Rewired Multi-Agent Systems

Weihao Zhang et al.

cs.SE cs.AI

本文提出了一种称为"Loosely-Structured Software (LSS)"的新型软件系统，旨在管理基于LLM的多agent系统在运行时产生的复杂性。它引入了一个三层工程框架和相应的设计模式，以提升系统的可设计性、可扩展性和可演化性。

BadLLM-TG: A Backdoor Defender powered by LLM Trigger Generator

Ruyi Zhang et al.

cs.CR cs.AI

本文提出了一种基于大语言模型触发生成器的后门防御方法 BadLLM-TG. 该方法通过提示驱动的强化学习优化生成触发器, 并利用对抗训练来缓解模型中的后门.

This Is Taking Too Long - Investigating Time as a Proxy for Energy Consumption of LLMs

Lars Krupp et al.

cs.PF cs.AI cs.SE

本文探讨了使用推理时间作为代理变量来估算基于API的大型语言模型(LLM)的能耗。通过将估算结果与本地部署模型的实测能耗进行对比，验证了该方法的可行性，旨在为用户提供理解API调用能耗的途径。

SEMAG: Self-Evolutionary Multi-Agent Code Generation

Yulin Peng et al.

cs.SE cs.AI

本文提出了一个自进化的多智能体代码生成框架, 通过模拟人类编程实践, 将任务分解为规划、编码、调试和讨论等阶段, 并自适应调整工作流. 该框架能够实时访问最新模型并自动升级骨干模型, 在多个基准测试中取得了新的最优性能.

LLM-Driven Discovery of High-Entropy Catalysts via Retrieval-Augmented Generation

AI Scientists et al.

cond-mat.mtrl-sci cs.AI

本文提出了一个基于检索增强生成(Retrieval-Augmented Generation, RAG)的框架，利用GPT-4等大语言模型来辅助催化剂发现。该方法通过访问包含超过50,000种已知材料的数据库，生成了大量候选催化剂，并评估了其热力学稳定性、成本与电化学性能。

How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition

Mateusz Dziemian et al.

cs.CR cs.AI

本文通过一项大规模公开红队竞赛，评估了基于LLM的智能体在处理外部数据时面临的间接提示注入攻击风险。研究发现所有前沿模型都存在漏洞，并识别出可跨模型和场景迁移的通用攻击策略。

A Framework and Prototype for a Navigable Map of Datasets in Engineering Design and Systems Engineering

H. Sinan Bank, Daniel R. Herber

cs.SE cs.AI cs.CE cs.DB cs.DL

本文提出了一个用于工程设计与系统工程领域数据集导航的系统框架和原型工具. 该框架通过一个多维分类法对数据集进行分类, 并构建了一个基于知识图谱的交互式发现工具原型, 以促进数据集的发现和利用. 文章还分析了当前数据格局, 识别了数据匮乏和丰富的领域, 并讨论了资源维护的挑战.

S2Act: Simple Spiking Actor

Ugur Akcal et al.

cs.MA cs.ET cs.LG cs.RO

本文提出了一种名为S2Act的轻量级框架，用于在移动机器人中部署基于脉冲神经网络(SNN)的强化学习策略。该方法通过将训练好的权重转移到基于速率的LIF神经元参数中，简化了部署过程，并在多智能体随机环境中进行了验证。

ClawWorm: Self-Propagating Attacks Across LLM Agent Ecosystems

Yihao Zhang et al.

cs.CR cs.AI cs.LG cs.MA cs.SE

本文提出了一种针对大规模LLM智能体生态系统的自我复制蠕虫攻击方法ClawWorm. 该攻击通过单条消息即可实现自主感染、持久化驻留和跨平台传播, 并在实验中展示了较高的成功率.

You've Got a Golden Ticket: Improving Generative Robot Policies With A Single Noise Vector

Omkar Patil et al.

cs.RO cs.AI

本文提出了一种通过寻找并固定一个最优的初始噪声向量（称为“golden ticket”）来提升预训练且冻结的生成式机器人策略性能的方法。该方法无需训练新网络，适用于扩散和流匹配策略，并在多个模拟和真实机器人任务中验证了其有效性。

Simulation Distillation: Pretraining World Models in Simulation for Rapid Real-World Adaptation

Jacob Levy et al.

cs.RO cs.AI cs.LG

本文提出了Simulation Distillation (SimDist)框架, 用于解决机器人学中仿真到现实迁移的难题. 该方法通过从仿真器中提取结构先验知识到潜在世界模型, 并结合在线规划与监督式动力学微调, 实现了在现实世界中的快速适应.

CorrectionPlanner: Self-Correction Planner with Reinforcement Learning in Autonomous Driving

Yihong Guo et al.

cs.RO cs.AI

本文提出了一种具有自校正能力的自动驾驶规划器 CorrectionPlanner. 它将规划过程建模为在“提议-评估-校正”循环中生成运动令牌, 并通过模仿学习和基于模型的强化学习进行训练, 在多个基准测试中降低了碰撞率.

Parallelised Differentiable Straightest Geodesics for 3D Meshes

Hippolyte Verninas et al.

cs.CV cs.AI cs.GR cs.LG

本文提出了一种在3D mesh上计算可微分的straightest geodesics的并行化方法. 该方法通过GPU实现和两种微分方案, 旨在改进mesh上的机器学习流程.

Learnability with Partial Labels and Adaptive Nearest Neighbors

Nicolas A. Errandonea et al.

stat.ML cs.LG

本文研究了partial labels learning (PLL) 的可行性条件，并提出了一种名为PL A-$k$NN的自适应最近邻算法。该方法在多种场景下有效，并通过实验验证了其优于现有方法的性能。

Evolving Contextual Safety in Multi-Modal Large Language Models via Inference-Time Self-Reflective Memory

Ce Zhang et al.

cs.CV cs.CL cs.CR

本文提出了一个用于评估多模态大语言模型上下文安全性的新基准 MM-SafetyBench++，并引入了一个无需训练、基于自反思记忆库的推理框架 EchoSafe 来提升模型对细微上下文差异的辨别能力。实验表明该方法在多个安全基准上取得了优越性能。

Don't Trust Stubborn Neighbors: A Security Framework for Agentic Networks

Samira Abedini et al.

cs.MA cs.AI

本文借鉴社会科学的 Friedkin-Johnsen 意见形成模型，为基于大语言模型的多智能体系统提出了一个安全分析框架。该框架揭示了系统易受恶意智能体通过说服级联操纵的脆弱性，并提出了一种动态调整智能体间信任的自适应防御机制来缓解威胁。

FEEL (Force-Enhanced Egocentric Learning): A Dataset for Physical Action Understanding

Eadom Dessalene et al.

cs.CV cs.LG cs.RO

本文介绍了首个结合力传感数据与第一人称视角视频的大规模数据集FEEL, 并展示了其在物理动作理解任务中的应用潜力. 该数据集包含约300万帧厨房环境中的自然操作数据, 并用于接触理解和动作表示学习等任务, 取得了先进的性能.

Self-supervised Disentanglement of Disease Effects from Aging in 3D Medical Shapes

Jakaria Rabbi, Nilanjan Ray, Dana Cobzas

cs.CV cs.LG

本文提出了一种结合无监督疾病发现与自监督解耦的两阶段框架, 用于从3D医学形状中分离疾病效应与生理性老化效应. 该方法在ADNI海马体和OAI股骨远端形状数据上取得了接近有监督方法的性能.

Interpretative Interfaces: Designing for AI-Mediated Reading Practices and the Knowledge Commons

Gabrielle Benabdallah

cs.HC cs.AI

本文提出从可解释性转向解释性交互的设计理念, 主张通过交互界面让用户直接操作和探索语言模型的中间表示, 而非仅仅提供系统行为的解释. 作者借鉴文本考据和阅读技术史, 旨在为非专家用户提供一种能够介入模型表示空间并进行标注的交互环境.

The Internet of Physical AI Agents: Interoperability, Longevity, and the Cost of Getting It Wrong

Roberto Morabito, Mallik Tatipamula

cs.NI cs.AI

本文讨论了从IoT到Physical AI Agents的演进, 指出了将快速发展的AI嵌入长期物理基础设施所带来的互操作性、生命周期管理等新风险. 文章基于互联网和IoT的发展经验, 提出了一套构建弹性、可演进、可信赖的智能体系统的设计原则和架构蓝图.

VIBEPASS: Can Vibe Coders Really Pass the Vibe Check?

Srijan Bansal et al.

cs.SE cs.AI

本文提出了VIBEPASS框架, 用于系统评估LLM在自主软件工程中的故障触发测试生成与针对性程序修复能力. 研究发现, 故障推理能力是当前模型的主要瓶颈, 而非代码合成或测试有效性.

Machine Translation in the Wild: User Reaction to Xiaohongshu's Built-In Translation Feature

Sui He

cs.HC cs.CL

本文通过情感分析和主题分析, 研究了用户对小红书内置翻译功能上线后的反应. 研究发现用户反馈总体积极, 但也对功能、可访问性和翻译准确性表达了担忧.

Learning to Recall with Transformers Beyond Orthogonal Embeddings

Nuri Mert Vural et al.

stat.ML cs.LG

本文分析了在非正交随机嵌入下，单层Transformer在简单token检索任务上的训练动态。通过跟踪梯度下降的早期阶段，得到了模型存储容量的显式公式，揭示了样本量、嵌入维度和序列长度之间的乘法依赖关系。

ExpertGen: Scalable Sim-to-Real Expert Policy Learning from Imperfect Behavior Priors

Zifan Xu et al.

cs.RO cs.AI

本文提出了ExpertGen框架, 用于在仿真中自动化学习专家策略以实现可扩展的仿真到现实迁移. 该方法利用不完美的行为先验进行初始化, 并通过强化学习进行优化, 在多个操作任务上取得了高成功率.

100x Cost & Latency Reduction: Performance Analysis of AI Query Approximation using Lightweight Proxy Models

Yeounoh Chung et al.

cs.DB cs.AI

本文评估了一种利用轻量级代理模型来近似AI查询的方法, 该方法能显著降低语义过滤和语义排序等AI查询操作的成本与延迟. 通过在Google BigQuery和AlloyDB中设计相应的架构, 该方法在保持甚至提升准确性的同时, 实现了超过100倍的成本与延迟降低.

Standardizing Medical Images at Scale for AI

Callen MacPhee et al.

eess.IV cs.AI physics.optics

本文提出了一种基于物理原理的医学图像标准化预处理框架 PhyCV. 该框架通过模拟光学衍射传播过程来抑制图像中的非语义差异, 在 Camelyon17-WILDS 基准测试中显著提升了乳腺癌分类的分布外泛化性能.

Something from Nothing: Data Augmentation for Robust Severity Level Estimation of Dysarthric Speech

Jaesung Bae et al.

eess.AS cs.AI cs.LG

本文提出了一种利用无标签数据和典型语音数据集进行数据增强的三阶段框架, 用于构音障碍语音严重程度评估. 该方法通过教师模型生成伪标签, 并结合标签感知对比学习进行弱监督预训练, 最终在多个未见数据集上展现了鲁棒性.

The Midas Touch in Gaze vs. Hand Pointing: Modality-Specific Failure Modes and Implications for XR Interfaces

Mohammad Dastgheib, Fatemeh Pourmahdian

cs.HC cs.AI cs.GR

本文通过一个名为 xr-adaptive-modality-2025 的网络平台，研究了在 Extended Reality (XR) 环境中，针对特定输入模态的自适应干预是否能改善指向任务的表现。实验比较了手部输入和视线输入，发现两者在吞吐量、错误率和认知负荷上存在显著差异，并且错误模式截然不同。

Visual Set Program Synthesizer

Zehua Cheng et al.

cs.MM cs.CL cs.SC

本文提出将视觉推理视为 Visual Program Synthesis, 通过先生成符号化程序再由独立引擎执行的方式, 来解决需要集合推理的视觉问答任务. 作者还为此引入了新的评测基准 Set-VQA, 实验表明该方法在复杂推理任务上优于现有基线, 提供了更系统透明的推理过程.

Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models

Sijie Li, Biao Qian, Jungong Han

cs.CV cs.CL cs.LG

本文提出了一种针对大型视觉语言模型(LVLM)的非对称文本-视觉权重剪枝方法(ATV-Pruning). 该方法通过分别处理文本和视觉模态的校准数据来构建重要性度量, 实验表明其在多个基准测试上优于现有方法.

Evaluating Agentic Optimization on Large Codebases

Atharva Sehgal et al.

cs.SE cs.AI cs.CL

本文提出了一个名为FormulaCode的基准测试, 用于评估大型语言模型(LLM)智能体在真实大型代码库上进行多目标优化的能力. 该基准包含从GitHub科学Python仓库中挖掘的性能瓶颈及对应补丁, 评估表明前沿LLM智能体在此类任务上仍面临重大挑战.

FlatLands: Generative Floormap Completion From a Single Egocentric View

Subhransu S. Bhattacharjee, Dylan Campbell, Rahul Shome

cs.CV cs.AI cs.RO eess.IV

本文提出了FlatLands数据集和基准，用于从单视角RGB图像生成完整的鸟瞰图（BEV）楼层平面图。该工作比较了多种方法，并建立了一个端到端的单目RGB到楼层图的流程。

Power Analysis for Prediction-Powered Inference

Yiqun T. Chen, Moran Guo, Shengy Li

stat.ME cs.LG

本文针对使用机器学习模型预测结果进行统计推断的场景, 提出了计算所需标注样本量的方法. 通过推导Prediction-Powered Inference估计量的渐近方差并应用Wald检验反演, 得到了封闭形式的功效公式, 并验证了所需样本量的减少大致与预测值和真实值之间的$R^2$成比例.

Shuffling the Stochastic Mirror Descent via Dual Lipschitz Continuity and Kernel Conditioning

Junwen Qiu, Leilei Mei, Junyu Zhang

math.OC cs.LG stat.ML

本文针对缺乏Lipschitz光滑性的优化问题，引入了dual kernel conditioning (DKC)正则性条件。该条件与相对光滑性框架结合，为随机镜像下降算法在非凸约束问题下的随机重排（random reshuffling）变体提供了首个复杂度分析和迭代收敛保证。

Safe Distributionally Robust Feature Selection under Covariate Shift

Hiroyuki Hanada et al.

stat.ML cs.LG

本文提出了一种在协变量偏移下进行安全分布鲁棒特征选择的方法, 旨在为稀疏传感等应用场景提供可靠的传感器子集选择方案. 该方法通过安全筛选技术, 确保在指定的输入分布变化范围内, 所有可能成为最优的特征子集都被包含在内, 并提供了有限样本下无错误特征排除的理论保证.

Large Reward Models: Generalizable Online Robot Reward Generation with Vision-Language Models

Yanru Wu et al.

cs.RO cs.AI

本文提出了一种利用Vision-Language Models (VLMs) 在线生成机器人强化学习奖励信号的框架。该方法通过多方面的奖励信号引导初始策略进行在线修正，在多个长时程操作任务上实现了零样本的显著性能提升。

Attribution Upsampling should Redistribute, Not Interpolate

Vincenzo Buono et al.

cs.CV cs.LG

本文指出, 在可解释AI中, 归因图(attribution map)的上采样(upsampling)不应被视为简单的插值(interpolation)问题. 作者提出了一种基于质量再分配(mass redistribution)的新方法USU, 并证明了其在多个数据集上能产生更忠实、语义更连贯的解释.

Resource Consumption Threats in Large Language Models

Yuanhe Zhang et al.

cs.CR cs.AI cs.CL

本文综述了大型语言模型(LLM)中的资源消耗威胁问题。文章系统性地回顾了相关威胁，并沿着从威胁诱导到机制理解与缓解的完整流程，为这一新兴领域提供了统一的问题视图。

Interact3D: Compositional 3D Generation of Interactive Objects

Hui Shan et al.

cs.CV cs.AI

本文提出了一种用于从单张图像生成交互式3D组合物体的框架Interact3D。该框架通过两阶段组合流程和基于SDF的优化来减少几何冲突，并利用VLM进行自主迭代修正，以提升生成结果的物理合理性和几何保真度。

Towards the Vision-Sound-Language-Action Paradigm: The HEAR Framework for Sound-Centric Manipulation

Chang Nie et al.

cs.RO cs.AI cs.CV cs.SD

本文提出了一个名为HEAR的Vision-Sound-Language-Action (VSLA)框架，用于解决机器人实时声音感知与操作中的关键问题。该框架整合了流式音频历史记录、多感官推理、音频世界模型预测和动作生成等组件，并构建了相应的预训练数据集与评测基准。

Parallel In-context Learning for Large Vision Language Models

Shin'ya Yamaguchi et al.

cs.CV cs.AI cs.LG

本文提出了一种名为 Parallel-ICL 的推理算法, 用于解决大型视觉语言模型中进行多模态上下文学习时, 演示示例数量增加导致的推理延迟问题. 该方法通过将长上下文分块并行处理并进行加权集成, 在保持性能的同时显著提升了推理速度.

Diffusion Models for Joint Audio-Video Generation

Alejandro Paredes La Torre

cs.SD cs.AI cs.CV cs.MM

本文提出了一个用于联合音频-视频生成的扩散模型框架. 作者通过构建数据集、训练模型、探索潜在扩散以及设计两步生成流程, 对多模态生成任务进行了系统性研究.

LICA: Layered Image Composition Annotations for Graphic Design Research

Elad Hirsch et al.

cs.CV cs.AI

本文介绍了LICA数据集, 这是一个用于图形设计研究的大规模分层图像合成标注数据集. 它包含超过150万设计样本, 并提出了基于设计结构而非像素的新研究范式.

Efficient LLM Serving for Agentic Workflows: A Data Systems Perspective

Noppanat Wadlom, Junyi Shen, Yao Lu

cs.MA cs.AI cs.DB

本文从数据系统的视角重新审视了LLM与agent的服务框架, 提出了一个名为Helium的工作流感知服务系统. 它将agentic workload建模为query plan, 并通过集成proactive caching和cache-aware scheduling等技术来优化跨prompt和workflow的复用, 从而提升了服务效率.

RepoReviewer: A Local-First Multi-Agent Architecture for Repository-Level Code Review

Peng Zhang

cs.SE cs.AI

本文介绍了一个名为 RepoReviewer 的本地优先多智能体系统，用于自动化代码仓库审查。该系统通过分解审查任务并提供了可复用的评估基础设施。

PathGLS: Evaluating Pathology Vision-Language Models without Ground Truth through Multi-Dimensional Consistency

Minbing Chen, Zhu Meng, Fei Su

cs.CV cs.AI

本文提出了PathGLS, 一个无需参考标准(ground truth)的评估框架, 用于衡量病理学视觉语言模型(VLMs)在多维度上的一致性. 该方法在多个数据集上验证了其有效性, 能够比传统指标更敏感地检测模型幻觉等问题.

SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding

Songcheng Cai et al.

cs.SE cs.AI cs.CL

本文提出了一个用于评估仓库级代码理解智能体能力的基准测试SWE-QA-Pro, 并设计了一个可扩展的合成数据训练流程. 该基准通过问题驱动的聚类确保主题平衡, 并经过难度校准, 使得智能体工作流的表现显著优于直接回答. 同时, 提出的两阶段训练方法(监督微调与基于AI反馈的强化学习)使小型开源模型在基准上取得了有竞争力的结果.

When Generative Augmentation Hurts: A Benchmark Study of GAN and Diffusion Models for Bias Correction in AI Classification Systems

Shesh Narayan Gupta, Nik Bear Brown

cs.CV cs.AI cs.LG

本文通过实验比较了传统数据增强、FastGAN和基于LoRA微调的Stable Diffusion在纠正图像分类任务中类别不平衡问题上的效果。研究发现，在极低数据量下，FastGAN的增强不仅无效，反而会显著加剧分类器的偏差，而Stable Diffusion方法则能有效提升模型性能并减少偏差。

Communication-Aware Multi-Agent Reinforcement Learning for Decentralized Cooperative UAV Deployment

Enguang Fan et al.

cs.MA cs.LG cs.NI

本文提出了一个基于图的多智能体强化学习框架, 用于解决部分可观测和间歇性通信下的去中心化无人机协同部署问题. 该框架在训练时使用集中式批评家, 执行时则依赖局部观测和邻居消息, 并在中继部署和对抗任务中验证了有效性.

Structure-Aware Multimodal LLM Framework for Trustworthy Near-Field Beam Prediction

Mengyuan Li et al.

eess.SP cs.AI

本文提出了一种基于大语言模型的多模态框架, 用于近场超大规模MIMO系统中的波束预测. 该框架融合了GPS历史数据, RGB图像, LiDAR数据和文本提示, 旨在利用LLM的推理能力来理解复杂的三维环境, 从而提升波束对准的效率和精度.

Deep Adaptive Model-Based Design of Experiments

Arno Strouwen, Sebastian Micluţa-Câmpeanu

stat.ML cs.LG eess.SY stat.ME

本文结合了Deep Adaptive Design (DAD)与可微分的机理模型，提出了一种用于非线性动力系统参数估计的实时自适应实验设计方法。该方法通过离线训练神经网络策略来摊销序列设计成本，并针对具有已知动力学方程但参数不确定的系统，扩展了训练目标并提出了基于transformer的策略架构。

GATS: Gaussian Aware Temporal Scaling Transformer for Invariant 4D Spatio-Temporal Point Cloud Representation

Jiayi Tian, Jiaze Wang

cs.CV cs.AI

本文提出了一种名为GATS的双重不变性框架来处理4D点云视频. 它通过Uncertainty Guided Gaussian Convolution (UGGC)模块处理点云分布的不确定性, 并通过Temporal Scaling Attention (TSA)模块实现时间尺度不变性. 实验表明该方法在多个基准数据集上取得了性能提升.

STARK: Spatio-Temporal Attention for Representation of Keypoints for Continuous Sign Language Recognition

Suvajit Patra, Soumitra Samanta

cs.CV cs.CL

本文提出了一种用于连续手语识别的统一时空注意力网络, 通过计算空间(跨关键点)和时间(局部窗口内)的注意力分数来聚合特征, 生成局部上下文感知的表示. 该编码器显著减少了参数量, 在Phoenix-14T数据集上取得了与现有基于关键点的方法相当的性能.

Homogeneous and Heterogeneous Consistency progressive Re-ranking for Visible-Infrared Person Re-identification

Yiming Wang

cs.CV cs.AI

本文提出了一种用于可见光-红外行人重识别的渐进式重排序方法HHCR, 包含异构一致性和同构一致性两个模块, 以处理跨模态差异. 该方法及其基准网络CRI在实验中取得了先进的性能.

360° Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method

Huyen T. T. Tran et al.

cs.CV cs.AI

本文提出了一个用于评估多模态大语言模型(MLLMs)在360°图像感知能力的基准测试360Bench, 并针对其挑战提出了一种无需训练的解决方案Free360. Free360通过模块化推理步骤和自适应球面图像变换来构建场景图表示, 实验表明其能有效提升基础模型的性能.

Robust Generative Audio Quality Assessment: Disentangling Quality from Spurious Correlations

Kuan-Tang Huang et al.

eess.AS cs.AI cs.SD eess.SP

本文针对生成音频质量评估中模型易受虚假相关性影响的问题, 提出了利用domain adversarial training (DAT)来解耦真实质量感知与干扰因素的方法. 通过系统研究从显式元数据标签到隐式数据驱动聚类的多种domain定义策略, 发现最优策略高度依赖于所评估的具体MOS方面, 实验表明该方法能有效减轻声学偏差并提升与人类评分的相关性.

A Scoping Review of AI-Driven Digital Interventions in Mental Health Care: Mapping Applications Across Screening, Support, Monitoring, Prevention, and Clinical Education

Yang Ni, Fanli Jia

cs.CY cs.AI cs.HC

本文是一篇关于人工智能在心理健康领域应用的综述性文章. 它系统性地回顾了AI驱动的数字干预措施在筛查、支持、监测、预防和临床教育等关键阶段的应用现状与挑战.

CoMAI: A Collaborative Multi-Agent Framework for Robust and Equitable Interview Evaluation

Gengxin Sun et al.

cs.MA cs.AI

本文提出了一个用于面试评估的多智能体协作框架 CoMAI. 该框架通过模块化任务分解和集中式状态机协调, 集成了问题生成, 安全, 评分和总结等专门智能体, 旨在提升评估的鲁棒性, 公平性和可解释性.

Generative AI for Quantum Circuits and Quantum Code: A Technical Review and Taxonomy

Juhani Merilehto

cs.CE cs.AI cs.ET

本文对用于生成量子电路和量子代码的生成式AI系统进行了技术回顾与分类. 它基于对Hugging Face, arXiv等来源的结构化范围综述, 识别并评估了13个生成系统和5个支持数据集. 文章提出了一个基于产物类型和训练机制的分类法, 并应用了一个涵盖语法有效性, 语义正确性和硬件可执行性的三层评估框架. 核心发现是, 尽管现有系统大多能处理语法和部分语义问题, 但都缺乏在真实量子硬件上进行端到端评估的报告, 这揭示了生成电路与实际部署之间的显著差距.

Neural Pushforward Samplers for the Fokker-Planck Equation on Embedded Riemannian Manifolds

Andrew Qing He, Wei Cai

math.NA cs.LG

本文提出了一种用于求解嵌入黎曼流形上Fokker-Planck方程的神经前推采样器方法。该方法通过流形收缩映射和全局测试函数，实现了无网格、无自动微分的训练，并在球面等例子上进行了数值验证。

RASLF: Representation-Aware State Space Model for Light Field Super-Resolution

Zeqiang Wei et al.

cs.CV cs.AI

本文提出了一种用于光场超分辨率的表示感知状态空间模型(RASLF). 该方法通过渐进式几何细化块和表示感知非对称扫描机制, 整合了不同光场表示的信息, 在多个基准测试中取得了较好的效果与效率平衡.

How to Utilize Complementary Vision-Text Information for 2D Structure Understanding

Jiancheng Dong et al.

cs.CV cs.CL

本文提出了一种名为DiVA-Former的轻量级架构，旨在有效整合视觉和文本信息以理解二维表格结构。该方法利用视觉token作为动态查询来提炼长文本序列，在多个基准测试上超越了纯文本基线。

Visual Prompt Discovery via Semantic Exploration

Jaechang Kim et al.

cs.CV cs.AI

本文提出了一种名为SEVEX的自动化语义探索框架，用于为LVLMs（大型视觉语言模型）发现任务特定的视觉提示。该方法通过代理驱动的实验进行高效探索，在多个基准测试上超越了基线方法。

Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models

Junxin Wang et al.

cs.CV cs.AI

本文提出了一种名为Explicit Visual Premise Verification (EVPV)的轻量级验证接口，用于提升视觉语言过程奖励模型(VL-PRMs)的可靠性。该方法通过显式验证步骤所依赖的视觉前提，来校准步骤奖励，从而在多个多模态推理基准上改善了验证和重排性能。

Human/AI Collective Intelligence for Deliberative Democracy: A Human-Centred Design Approach

Anna De Liddo, Lucas Anastasiou, Simon Buckingham Shum

cs.CY cs.AI cs.HC

本文探讨了将人工智能(AI)作为增强集体智能(Collective Intelligence)的工具, 以支持协商民主(Deliberative Democracy)的框架. 作者主张采用以人为本的设计方法, 通过协同设计(co-design)来识别挑战并开发可信赖的系统, 并以两个案例说明了AI支持下的实施过程.

AW-MoE: All-Weather Mixture of Experts for Robust Multi-Modal 3D Object Detection

Hongwei Lin et al.

cs.CV cs.AI

本文提出了AW-MoE框架，用于提升多模态3D目标检测在恶劣天气下的鲁棒性。该框架通过图像引导的天气感知路由机制选择专家网络，并引入了统一的双模态数据增强方法。

Locate-then-Sparsify: Attribution Guided Sparse Strategy for Visual Hallucination Mitigation

TianTian Dang et al.

cs.CV cs.LG

本文提出了一种名为LTS-FS的即插即用框架，通过逐层评估幻觉相关性来指导特征调控的强度，以减少大型视觉语言模型中的幻觉生成。该方法在多个基准测试中有效缓解了幻觉，同时保持了模型的通用性能。

Surrogate-Assisted Genetic Programming with Rank-Based Phenotypic Characterisation for Dynamic Multi-Mode Project Scheduling

Yuan Tian, Yi Mei, Mengjie Zhang

cs.NE cs.AI

本文针对动态多模式资源受限项目调度问题(DMRCPSP), 提出了一种基于排序的表型特征化方案, 用于构建代理模型以辅助遗传编程(GP)的进化过程. 该方法减少了模拟评估的计算开销, 实验表明其能更早地发现高质量的启发式规则.

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

Zhengbo Zhang et al.

cs.CV cs.AI

本文提出了一个用于评估多模态浏览代理视觉原生搜索能力的新基准 VisBrowse-Bench, 并设计了一个能驱动代理主动收集和推理视觉信息的流程. 实验表明, 当前最先进的模型在该基准上的表现仍有很大提升空间.

Quantum Pattern Matching in Generalised Degenerate Strings

Massimo Equi, Md Rabiul Islam Khan, Veli Mäkinen

quant-ph cs.DS

本文提出了一种在generalized degenerate (GD) strings中进行量子模式匹配的算法. 该算法将经典$O(mn+N)$时间的精确匹配算法修改为量子版本, 实现了$\tilde{O}(\sqrt{mnN})$的运行时间.

A Human-Centred Architecture for Large Language Models-Cognitive Assistants in Manufacturing within Quality Management Systems

Marcos Galdino et al.

cs.SE cs.AI

本文提出了一种用于制造业质量管理系统的、以人为中心的软件架构, 旨在集成大型语言模型认知助手. 该架构基于组件设计, 并通过专家焦点小组进行了验证, 以确保其灵活性、可扩展性和模块化.

An Interpretable Machine Learning Framework for Non-Small Cell Lung Cancer Drug Response Analysis

Ann Rachel et al.

cs.CV cs.AI cs.LG

本文利用XGBoost回归器和SHAP解释框架，基于多组学数据预测非小细胞肺癌的药物反应(IC50值)。研究通过特征重要性分析和大型语言模型验证，旨在为个性化医疗提供可解释的预测模型。

Detecting Sentiment Steering Attacks on RAG-enabled Large Language Models

Isha Andrade et al.

cs.CR cs.AI

本文提出了两种基于深度学习的轻量级入侵检测系统, 分别使用CNN和LSTM架构, 旨在提升IoT网络的安全性. 研究在CICIoT2023数据集上评估了模型性能, 在二分类、分组分类和多分类任务中均取得了高准确率.

Explainable machine learning workflows for radio astronomical data processing

S. Yatawatta et al.

astro-ph.IM cs.AI

本文提出了一种结合模糊规则推理与深度学习的方法, 旨在提升射电天文数据处理流程中机器学习决策的可解释性. 作者以校准任务为例, 展示了基于TSK模糊系统的应用, 并通过仿真验证了该方法在不牺牲质量或准确性的前提下增强了可解释性.

Automated identification of Ichneumonoidea wasps via YOLO-based deep learning: Integrating HiresCam for Explainable AI

Joao Manoel Herrera Pinheiro et al.

cs.CV cs.AI cs.LG

本文提出了一种基于YOLO架构和HiResCAM的深度学习框架，用于自动识别姬蜂总科寄生蜂。该方法在包含3556张高清图像的数据集上取得了超过96%的准确率，并通过可视化技术验证了模型关注的是翅膀脉序等分类学相关特征。

Toward Experimentation-as-a-Service in 5G/6G: The Plaza6G Prototype for AI-Assisted Trials

Sergio Barrachina-Muñoz et al.

cs.NI cs.AI

本文介绍了Plaza6G，一个将云资源与下一代无线基础设施统一起来的实验即服务平台原型。该平台集成了多种计算与网络组件，并利用基于大语言模型的助手简化实验设计，旨在实现开放、可复现的无线实验。

$D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation

Ruizhi Wang et al.

cs.CV cs.AI

本文提出了一种用于遥感单目深度估计的高效框架$D^3$-RSMDE, 旨在平衡速度与质量. 该方法利用ViT快速生成深度先验, 并通过轻量级U-Net在紧凑的潜在空间中进行快速迭代细化, 实现了显著的加速和感知质量的提升.

Encoding Predictability and Legibility for Style-Conditioned Diffusion Policy

Adrien Jacquet Crétides et al.

cs.RO cs.LG

本文提出了一个用于机器人轨迹生成的模块化框架, 通过一个轻量级的场景编码器和条件预测器来调制预训练的扩散模型, 使其能根据环境配置生成可读性或效率优先的轨迹. 该方法在推理时通过歧义性检测模块动态选择条件, 在需要时生成可读轨迹, 否则保持高效路径, 且无需重新训练基础策略.

Controlling Fish Schools via Reinforcement Learning of Virtual Fish Movement

Yusuke Nishii, Hiroaki Kawashima

cs.RO cs.LG q-bio.PE

本文利用强化学习训练虚拟鱼来控制鱼群. 该方法在模拟和真实实验中均能有效引导鱼群朝向目标方向.

Robust Physics-Guided Diffusion for Full-Waveform Inversion

Jishen Peng et al.

math.NA cs.AI

本文提出了一种用于全波形反演的鲁棒物理引导扩散框架, 将基于分数的生成先验与通过波动方程模拟计算的似然引导相结合. 该方法在OpenFWI数据集上的数值实验表明, 其在可比计算成本下优于确定性优化基线和标准DPS.

SF-Mamba: Rethinking State Space Model for Vision

Masakazu Yoshimura et al.

cs.CV cs.AI

本文提出了一种名为SF-Mamba的新型视觉Mamba模型，旨在解决现有视觉Mamba模型在非因果交互和计算效率方面的限制。该方法通过辅助块交换和批量折叠等技术，在多个视觉任务上取得了优于现有基准的性能，同时提高了吞吐量。

An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU

Ruijia Yang, Zeyi Wen

cs.DC cs.AI

本文提出了一种名为 SlideFormer 的系统，旨在解决在单 GPU 环境下微调大型语言模型（LLMs）时面临的内存限制问题。该系统通过轻量级异步引擎、高效的异构内存管理方案和优化的计算内核，显著降低了峰值内存使用并提升了吞吐量。

LenghuSky-8: An 8-Year All-Sky Cloud Dataset with Star-Aware Masks and Alt-Az Calibration for Segmentation and Nowcasting

Yicheng Rui et al.

astro-ph.IM cs.AI cs.CV

本文发布了一个名为LenghuSky-8的八年期全天云层数据集，包含带星体感知掩码和高度-方位角校准的图像。作者基于DINOv3特征训练了一个线性分类器用于云分割，并建立了短期云层预报基准。该数据集旨在促进分割、预报和自主天文台操作的研究。

IRIS: A Real-World Benchmark for Inverse Recovery and Identification of Physical Dynamic Systems from Monocular Video

Rasul Khanbayov et al.

cs.CV cs.LG

本文提出了一个用于从单目视频中无监督地恢复和识别物理动态系统的真实世界基准IRIS. 该基准包含高质量视频、真实测量参数和标准评估协议, 并评估了多种基线方法.

CD-FKD: Cross-Domain Feature Knowledge Distillation for Robust Single-Domain Generalization in Object Detection

Junseok Lee et al.

cs.CV cs.AI

本文提出了一种用于目标检测中单域泛化的跨域特征知识蒸馏方法. 该方法通过全局和实例级别的特征蒸馏, 利用经过缩放和破坏的多样化数据训练学生网络, 以提升其在未见目标域上的鲁棒性.

Multi-Agent Reinforcement Learning Counteracts Delayed CSI in Multi-Satellite Systems

Marios Aristodemou et al.

cs.IT cs.AI eess.SP

本文提出了一种名为DS-PPO的双层多智能体强化学习算法，用于解决多卫星下行链路系统中因传播延迟导致的CSI过时问题。该算法旨在最大化用户总速率，并通过仿真验证了其鲁棒性和性能提升。

DST-Net: A Dual-Stream Transformer with Illumination-Independent Feature Guidance and Multi-Scale Spatial Convolution for Low-Light Image Enhancement

Yicui Shi et al.

cs.CV cs.AI

本文提出了一种用于低光照图像增强的双流Transformer网络(DST-Net). 该方法通过引入与光照无关的信号先验引导和多尺度空间卷积, 旨在恢复图像细节并提升视觉质量.

Unlearning for One-Step Generative Models via Unbalanced Optimal Transport

Hyundo Choi et al.

cs.CV cs.AI

本文针对一步生成模型提出了基于Unbalanced Optimal Transport的类别遗忘框架UOT-Unlearn. 该方法通过权衡遗忘成本与$f$-divergence惩罚, 在抑制目标类别的同时保持整体生成质量.

An approximate graph elicits detonation lattice

Vansh Sharma, Venkat Raman

cs.CV cs.LG physics.comp-ph physics.data-an

本文提出了一种基于graph theory的算法, 用于从3D压力迹线(称为detonation lattices)中精确分割和测量爆轰胞格. 该算法无需训练, 旨在克服该领域常用的手动和原始2D边缘检测方法的局限性.

Bridging the Simulation-to-Reality Gap in Electron Microscope Calibration via VAE-EM Estimation

Jilles S. van Hulst et al.

cs.CV cs.LG

本文提出了一种基于VAE和EM算法的扫描透射电子显微镜校准方法. 该方法利用模拟数据训练VAE来学习图像的低维表示, 并通过联合估计来弥合仿真与现实的差距, 在真实设备上取得了更优的校准效果.

CompDiff: Hierarchical Compositional Diffusion for Fair and Zero-Shot Intersectional Medical Image Generation

Mahmoud Ibrahim et al.

cs.CV cs.AI

本文提出了一种用于公平医学图像生成的层次化组合扩散模型. 该方法通过设计一个层次化条件网络来分解人口统计学条件, 旨在改善模型在罕见或未见人口统计组合上的生成质量与公平性.

Deep Learning-Driven Black-Box Doherty Power Amplifier with Pixelated Output Combiner and Extended Efficiency Range

Han Zhou, Haojie Chang, David Widen

eess.SP cs.AI cs.AR eess.SY

本文提出了一种结合深度学习与遗传算法的黑盒设计方法, 用于合成具有像素化输出合成器的Doherty功率放大器. 该方法利用卷积神经网络作为电磁仿真代理模型, 快速预测无源网络的S参数, 并通过优化实现了扩展的回退效率范围. 实验原型在2.75 GHz频率下展示了超过74%的峰值效率和9 dB回退下高于52%的效率.

Malicious Or Not: Adding Repository Context to Agent Skill Classification

Florian Holzbauer et al.

cs.CR cs.AI

本文对AI agent skill生态系统进行了大规模的安全实证分析, 通过收集多个平台的技能数据并引入GitHub仓库上下文, 显著降低了安全扫描器将技能误判为恶意的比例. 研究还揭示了一些此前未记录的、针对托管在废弃仓库上的技能的攻击向量.

REFORGE: Multi-modal Attacks Reveal Vulnerable Concept Unlearning in Image Generation Models

Yong Zou et al.

cs.CV cs.AI cs.CR cs.LG

本文提出了一个名为REFORGE的黑盒红队测试框架，用于评估图像生成模型在概念遗忘任务中的鲁棒性。该框架通过优化对抗性图像提示来攻击模型，实验表明现有遗忘方法存在脆弱性。

FSMC-Pose: Frequency and Spatial Fusion with Multiscale Self-calibration for Cattle Mounting Pose Estimation

Fangjing Li et al.

cs.CV cs.AI

本文提出了一种用于奶牛发情期姿态估计的 top-down 框架 FSMC-Pose. 该方法通过融合频率与空间信息的多尺度自校准网络来处理复杂背景和遮挡问题, 并在构建的数据集上验证了其有效性与实时性.

Data-driven generalized perimeter control: Zürich case study

Alessio Rimoldi et al.

eess.SY cs.AI cs.CE cs.ET

本文提出了一种基于行为系统理论(behavioral systems theory)和数据驱动预测控制(data-enabled predictive control)的新型交通动态建模方法, 用于通过动态交通信号灯控制来优化城市交通. 该方法在一个高保真的苏黎世城市交通微观仿真中进行了验证, 旨在减少总旅行时间和CO2排放.

MLLM-based Textual Explanations for Face Comparison

Redwan Sony, Anil K Jain, Ross Arun

cs.CV cs.AI

本文分析了MLLM在无约束人脸验证任务中生成文本解释的可靠性, 发现即使决策正确, 解释也常依赖不可验证或虚构的面部属性. 作者进一步提出了一个基于似然比的框架来评估解释的证据强度.

When Openclaw Agents Learn from Each Other: Insights from Emergent AI Agent Communities for Human-AI Partnership in Education

Eason Chen et al.

cs.CY cs.AI cs.HC cs.MA

本文通过观察多个AI agent平台中超过167,000个agent的自主交互，揭示了AI agent社区中涌现的同伴学习、共享记忆架构等自然现象。作者认为这些现象为设计多agent教育系统提供了新的视角，并提出了一个“通过教导你的AI agent队友来学习”的课程设计示例。

Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation

Jiawei Mao et al.

cs.CV cs.AI

本文提出了一种名为Kestrel的训练后免训练框架，用于缓解大型视觉语言模型(LVLM)的幻觉问题。该框架通过结合显式的视觉基础代理和证据验证的自优化机制，在多个幻觉基准测试上提升了性能，并提供了可解释的验证轨迹。

Fast-WAM: Do World Action Models Need Test-time Future Imagination?

Tianyuan Yuan et al.

cs.CV cs.AI

本文提出了一种名为Fast-WAM的World Action Model架构，它在训练时保留了视频协同训练，但在测试时跳过了显式的未来预测。实验表明，该方法在多个仿真和现实世界任务上取得了有竞争力的结果，并且推理速度显著快于传统的“想象-执行”范式模型。

When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making

Jun Liu et al.

cs.RO cs.AI cs.LG

本文提出了一个名为RARRL的分层框架, 用于资源感知的具身智能体协调. 该框架通过强化学习学习一个高层协调策略, 动态决定何时进行LLM推理以及分配多少计算资源, 旨在平衡任务成功率和执行延迟. 实验表明该方法相比固定策略能提高任务成功率并降低延迟.

High-dimensional estimation with missing data: Statistical and computational limits

Kabir Aladin Verchand et al.

math.ST cs.DS cs.LG stat.ML

本文研究了高维数据存在缺失情况下的参数估计问题, 特别是针对部分观测数据服从任意缺失非随机(MNAR)机制的模型. 对于高斯数据, 文章分析了均值估计和协方差估计问题的统计与计算极限, 指出在某些情况下存在计算效率与统计精度之间的权衡. 在线性回归问题中, 文章表明这种权衡并不存在, 简单的强凸经验风险最小化方法即可在多项式时间内接近信息论下界.

Retrieving Counterfactuals Improves Visual In-Context Learning

Guangzhi Xiong et al.

cs.CV cs.AI cs.CL

本文提出了一个名为CIRCLES的框架，通过主动检索反事实样本来改进视觉语言模型(VLMs)的上下文学习(ICL)性能。该方法旨在帮助模型超越表面相关性，进行更稳健的因果推理。

Data-driven forced response analysis with min-max representations of nonlinear restoring forces

Akira Saito, Hiromu Fujita

math.DS cs.LG nlin.CD

本文提出了一种基于min-max函数表示的数据驱动非线性恢复力识别方法. 该方法利用带初始间隙的分段线性弹簧作为激活函数来构建函数库, 并通过求解线性回归问题来确定非线性恢复力的贡献. 该方法被成功应用于Duffing振子、分段线性振子以及一个实验悬臂板系统, 识别出的模型能准确预测系统的受迫响应.

Finding Common Ground in a Sea of Alternatives

Jay Chooi et al.

cs.GT cs.AI cs.LG

本文研究了在无限备选方案集合中寻找共识陈述的问题, 提出了一个基于社会选择理论中proportional veto core的形式化模型. 作者设计了一种高效的基于采样的算法, 能以高概率返回一个(近似)满足proportional veto core的备选方案, 并证明了匹配的查询复杂度下界.

IOSVLM: A 3D Vision-Language Model for Unified Dental Diagnosis from Intraoral Scans

Huimin Xiong et al.

cs.CV cs.AI

本文提出了一个名为IOSVLM的端到端3D视觉语言模型，用于从口内扫描数据中进行统一的牙科诊断。该模型通过一个几何到色彩的代理模块来处理无颜色数据与预训练之间的差距，并在一个大规模数据集上验证了其有效性。

InCoder-32B: Code Foundation Model for Industrial Scenarios

Jian Yang et al.

cs.SE cs.AI

本文提出了一个面向工业场景的代码基础模型 InCoder-32B, 通过结合通用代码预训练、工业代码精炼、长上下文扩展和基于执行的验证等方法进行训练. 该模型在通用代码任务上表现良好, 并在多个工业领域基准测试中建立了开源基线.

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

Han Lin et al.

cs.CV cs.AI

本文系统研究了视觉协同去噪(visual co-denoising)方法, 在统一的JiT框架下分离并验证了其关键设计要素. 研究提出了一个包含双流架构、结构化无条件预测等四要素的简单有效方案, 在ImageNet-256上以更少训练轮次超越了先前的像素空间扩散基线.

DexGrasp-Zero: A Morphology-Aligned Policy for Zero-Shot Cross-Embodiment Dexterous Grasping

Yuliang Wu et al.

cs.RO cs.AI

本文提出了一种名为DexGrasp-Zero的策略，用于实现灵巧抓取的零样本跨本体迁移。该方法通过一种形态对齐的图表示和相应的图卷积网络来学习通用抓取技能，避免了为不同机械手重新训练的需要，并在仿真和真实实验中取得了良好的成功率。

CABTO: Context-Aware Behavior Tree Grounding for Robot Manipulation

Yishuai Cai et al.

cs.RO cs.AI

本文提出了CABTO框架, 用于自动化构建完整且一致的Behavior Tree系统, 以解决机器人操控中BT系统grounding需要大量专家知识的问题. 该框架利用预训练大模型进行启发式搜索, 并通过实验验证了其有效性.

ODIN-Based CPU-GPU Architecture with Replay-Driven Simulation and Emulation

Nij Dorairaj et al.

cs.DC cs.AI cs.AR

本文提出了一种基于ODIN架构的CPU-GPU芯片系统验证方法。该方法利用确定性波形回放技术，在仿真和仿真环境中加速了复杂GPU工作负载的调试与集成过程。

Real-Time Decoding of Movement Onset and Offset for Brain-Controlled Rehabilitation Exoskeleton

Kanishka Mitra et al.

cs.RO cs.AI cs.HC

本文提出了一种基于EEG的实时双状态运动想象控制方法, 用于上肢康复外骨骼. 该方法实现了运动开始与停止的直接脑控, 并引入了一种新的基于注视的重新定心技术来改善解码性能.

Conditional Distributional Treatment Effects: Doubly Robust Estimation and Testing

Saksham Jain, Alex Luedtke

stat.ML cs.LG math.ST stat.ME

本文提出了一种新的条件分布处理效应估计量, 并开发了一种双重稳健估计器. 该估计器在局部渐近意义下是最小极大最优的, 并用于构建一个检验条件潜在结果分布全局同质性的测试.

Unifying Optimization and Dynamics to Parallelize Sequential Computation: A Guide to Parallel Newton Methods for Breaking Sequential Bottlenecks

Xavier Gonzalez

math.NA cs.AI cs.DC math.DS math.OC

本文提出了一种基于Newton方法的并行化框架, 用于加速传统上具有顺序瓶颈的动态系统(如RNN, MCMC)的计算. 通过将序列计算重构为非线性方程组求解, 并结合quasi-Newton和trust-region方法, 提高了算法的可扩展性和稳定性. 理论分析将多种不动点迭代方法统一到该框架下, 并给出了收敛性保证和加速可行性的判别条件.

SOMA: Unifying Parametric Human Body Models

Jun Saito et al.

cs.CV cs.AI

本文提出了一个名为SOMA的统一参数化人体模型层，旨在解决现有多种人体模型（如SMPL, SMPL-X等）在网格拓扑、骨骼结构等方面互不兼容的问题。它通过引入网格、骨骼和姿态三个抽象层，实现了不同模型表示之间的转换与统一。

SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation

Jiongze Yu et al.

cs.CV cs.AI

本文提出了一种名为SparkVSR的交互式视频超分辨率框架，允许用户通过指定少量关键帧来控制生成过程。该方法通过一个两阶段训练流程，将低分辨率视频特征与稀疏的高分辨率关键帧特征融合，以实现跨空间的先验传播和细节增强。

ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K

Kaixuan Wang et al.

cs.RO cs.AI cs.GR cs.LG cs.SE

本文提出了一个名为 ManiTwin 的自动化流程, 用于从单张图像生成可用于数据生成的仿真就绪数字孪生对象. 基于此流程, 作者构建了一个包含 10 万个高质量带标注 3D 资产的 ManiTwin-100K 数据集, 旨在为机器人操作等任务的大规模仿真数据合成提供基础.

MessyKitchens: Contact-rich object-level 3D scene reconstruction

Junaid Ahmed Ansari et al.

cs.CV cs.AI cs.RO

本文提出了MessyKitchens数据集, 用于提升接触丰富的物体级3D场景重建. 同时, 作者扩展了SAM 3D方法, 引入了Multi-Object Decoder (MOD) 来进行联合物体级重建. 实验表明, 新数据集在配准精度和物体间穿透方面优于以往数据集, 且MOD方法在多个数据集上取得了显著的性能提升.

Demystifing Video Reasoning

Ruisi Wang et al.

cs.CV cs.AI

本文挑战了关于视频生成模型中推理机制的传统假设, 发现推理主要沿扩散去噪步骤涌现, 而非跨视频帧序列. 研究揭示了包括工作记忆、自我修正和感知先于行动在内的关键行为, 并提出了一种无需训练的集成策略来改进推理.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others