bluearXiv-ai - 2026-03-26

📄 所有论文 ↑ 回顶部

cs.LG

AVO: Agentic Variation Operators for Autonomous Evolutionary Search ⭐ 精选

Terry Chen et al.

cs.LG

本文提出了一种名为Agentic Variation Operators (AVO)的新型进化搜索方法，用自主编码智能体取代了传统的固定变异、交叉和启发式规则。该方法将变异操作实现为一个自导向的智能体循环，能够参考当前谱系、领域知识库和执行反馈来提议、修复、批评和验证代码编辑。在NVIDIA Blackwell GPU上针对attention kernel的优化实验中，AVO通过连续自主进化发现了超越cuDNN和FlashAttention-4等专家实现的高性能内核。这项工作将大型语言模型从候选生成器提升为自主的变异算子，为高性能计算和代码优化领域提供了一种开创性的agentic方法。

Inspection and Control of Self-Generated-Text Recognition Ability in Llama3-8b-Instruct

Christopher Ackerman, Nina Panickssery

cs.LG cs.AI cs.CL

本文研究了Llama3-8b-Instruct模型识别自身生成文本的能力。研究发现该能力主要源于指令微调阶段获得的经验，并识别出一个与“自我”概念相关的因果向量，可用于控制模型对文本归属的判断。

Mitigating Many-Shot Jailbreaking

Christopher M. Ackerman, Nina Panickssery

cs.LG cs.AI cs.CR

本文探讨了针对Many-shot jailbreaking (MSJ)攻击的缓解策略，测试了微调和输入净化方法的效果。研究发现，结合使用这些技术能显著降低MSJ攻击的有效性，同时保持模型在良性任务上的性能。

Evidence for Limited Metacognition in LLMs

Christopher Ackerman

cs.LG cs.AI

本文提出了一种评估大型语言模型(LLLMs)元认知能力的新方法, 该方法不依赖模型自报告, 而是测试模型能否策略性地运用其内部状态知识. 研究发现, 2024年初以来发布的前沿LLMs在某些元认知任务上表现出增强的能力, 但这些能力是有限的、情境依赖的, 并且与人类存在质的不同.

Beyond Accuracy: Introducing a Symbolic-Mechanistic Approach to Interpretable Evaluation

Reza Habibi, Darian Lee, Magy Seif El-Nasr

cs.LG cs.AI cs.CL cs.SC

本文提出了一种结合符号规则与机制可解释性的评估方法, 用于区分模型是真正泛化还是利用了数据中的捷径. 作者以NL-to-SQL任务为例, 展示了该方法如何揭示仅靠准确率指标无法发现的模型失败模式.

Implicit Turn-Wise Policy Optimization for Proactive User-LLM Interaction

Haoyu Wang et al.

cs.LG

本文提出了一种名为Implicit Turn-wise Policy Optimization (ITPO)的方法, 用于优化多轮人机协作任务. 该方法通过隐式过程奖励模型从稀疏的结果信号中推导出细粒度的回合级奖励, 并在数学辅导、文档写作和医疗推荐等任务上展示了优于基线的收敛性能.

Upper Entropy for 2-Monotone Lower Probabilities

Tuan-Anh Vu, Sébastien Destercke, Frédéric Pichon

cs.LG cs.AI

本文针对2-monotone lower probabilities的upper entropy计算问题进行了算法与复杂性分析. 研究证明了该问题存在强多项式时间解, 并对现有算法提出了多项改进.

Synthetic Mixed Training: Scaling Parametric Knowledge Acquisition Beyond RAG

Seungju Han et al.

cs.LG cs.AI

本文提出了一种名为Synthetic Mixed Training的方法，通过结合合成的问答对和合成文档来训练语言模型，以超越RAG在知识获取上的性能瓶颈。该方法在多个长文档理解基准测试上取得了优于RAG的效果，并可与RAG结合获得进一步增益。

Safe Reinforcement Learning with Preference-based Constraint Inference

Chenglin Li, Guangchun Ruan, Hua Geng

cs.LG cs.AI

本文提出了一种基于偏好的约束推断方法(PbCRL)用于安全强化学习. 该方法通过引入dead zone机制和信噪比损失来改进偏好建模与策略学习, 并在实验中展现了更好的安全对齐性能.

AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

Jiehao Wu et al.

cs.LG cs.AI

本文提出了一种名为 AscendOptimizer 的智能体，用于优化华为 Ascend NPU 上的 AscendC 算子。它通过结合主机端的进化搜索和内核端的经验库引导重写，在基准测试中实现了性能提升。

Causal Reconstruction of Sentiment Signals from Sparse News Data

Stefania Stan et al.

cs.LG stat.ML

本文提出了一种将稀疏新闻数据转化为可靠情感时间序列的因果信号重建方法. 该方法通过一个包含聚合、因果填补和平滑的三阶段流程, 旨在生成对数据稀疏性和分类器不确定性鲁棒的信号, 并引入了一种无标签的评估框架进行验证.

StateLinFormer: Stateful Training Enhancing Long-term Memory in Navigation

Zhiyuan Chen et al.

cs.LG cs.AI

本文提出了一种用于导航任务的StateLinFormer模型, 它采用了一种带状态的(stateful)训练机制, 在连续的训练片段间保持循环记忆状态, 从而近似于在无限长序列上进行学习. 实验表明, 该方法在长序列交互中能提升模型的记忆保持和上下文适应能力.

Dual-Criterion Curriculum Learning: Application to Temporal Data

Gaspard Abel et al.

cs.LG cs.AI

本文提出了 Dual-Criterion Curriculum Learning (DCCL) 框架，将基于损失和基于数据表示空间密度的两种难度评估标准相结合。该框架在时间序列预测任务上进行了评估，实验结果表明其优于仅使用损失的标准方法。

PoiCGAN: A Targeted Poisoning Based on Feature-Label Joint Perturbation in Federated Learning

Tao Liu et al.

cs.LG cs.AI

本文提出了一种基于特征-标签联合扰动的联邦学习定向投毒攻击方法PoiCGAN. 该方法通过修改Conditional GAN的输入来生成具有高隐蔽性的投毒样本和恶意模型, 在保持主任务精度的同时实现了较高的攻击成功率.

APreQEL: Adaptive Mixed Precision Quantization For Edge LLMs

Meriem Bouzouad, Yuan-Hao Chang, Jalil Boukhobza

cs.LG cs.AI

本文提出了一种针对边缘设备上大型语言模型的自适应混合精度量化方法. 该方法通过分析层间贡献和硬件行为来为不同层分配合适的量化类型, 以在用户定义的优先级下平衡内存、延迟和精度.

The Geometric Price of Discrete Logic: Context-driven Manifold Dynamics of Number Representations

Long Zhang, Dai-jun Lin, Wei-neng Chen

cs.LG cs.CL cs.CY

本文研究了大型语言模型(Large Language Models, LLMs)中连续语义空间与离散逻辑推理之间的矛盾。作者提出任务上下文作为一种非等距动力算子，通过Gram-Schmidt分解分析残差流激活，揭示了驱动逻辑边界形成的双重调制机制。

Residual Attention Physics-Informed Neural Networks for Robust Multiphysics Simulation of Steady-State Electrothermal Energy Systems

Yuqing Zhou, Ze Tao, Fujun Liu

cs.LG physics.comp-ph

本文提出了一种结合残差连接与注意力机制的物理信息神经网络(RA-PINN), 用于求解稳态电热多物理场耦合问题. 该方法在多个基准测试中表现出优于传统PINN模型的精度与鲁棒性.

MetaKube: An Experience-Aware LLM Framework for Kubernetes Failure Diagnosis

Wei Sun et al.

cs.LG

本文提出了一个名为MetaKube的、具备经验感知能力的LLM框架，用于Kubernetes故障诊断。该框架通过整合历史解决方案的模式记忆、动态推理路径选择以及一个经过领域后训练的本地化模型，显著提升了诊断性能并确保了数据隐私。

AI Generalisation Gap In Comorbid Sleep Disorder Staging

Saswata Bose et al.

cs.LG cs.AI

本文分析了深度学习模型在健康受试者与临床患者（如缺血性卒中患者）之间进行自动EEG睡眠分期时存在的泛化差距。研究引入了一个新的临床数据集iSLEEPS，并通过注意力可视化等方法，揭示了模型在患者数据上关注非生理信息区域的问题，强调了开发疾病特异性模型的必要性。

LineMVGNN: Anti-Money Laundering with Line-Graph-Assisted Multi-View Graph Neural Networks

Chung-Hoo Poon et al.

cs.LG cs.AI q-fin.CP

本文提出了一种用于反洗钱检测的图神经网络方法 LineMVGNN, 该方法结合了原始交易图的线图视图来增强交易信息传播. 在两个真实交易数据集上的实验表明, 该方法优于现有方法.

A Theory of LLM Information Susceptibility

Zhuo-Yang Song, Hua Xing Zhu

cs.LG cond-mat.stat-mech cs.AI cs.CL nlin.AO

本文提出了一个关于LLM信息敏感性的理论框架, 探讨了将LLM作为优化模块集成到智能体系统中时性能提升的根本限制. 该理论的核心假设是, 当计算资源足够大时, 一个固定的LLM的介入不会增加策略集相对于预算的性能敏感性. 作者通过一个多变量效用函数框架将这一假设推广到具有多个共变预算通道的架构, 并讨论了共缩放可能超越敏感性界限的条件. 研究通过在不同结构领域和模型规模上的实证验证了该理论, 并表明嵌套的共缩放架构能够开启固定配置所不具备的响应通道. 这些结果阐明了LLM干预何时有效, 并展示了统计物理学的工具可以为AI系统设计提供预测性约束.

Steering Code LLMs with Activation Directions for Language and Library Control

Md Mahbubur Rahman, Arjun Guha, Harshitha Menon

cs.LG

本文通过分析 activation space 中的线性方向, 研究了代码大语言模型(Code LLMs)对编程语言和库的默认偏好. 实验表明, 通过向模型隐藏状态添加估计的 steering vectors, 可以在推理时有效地引导模型生成目标生态系统的代码.

Boost Like a (Var)Pro: Trust-Region Gradient Boosting via Variable Projection

Abhijit Chowdhary, Elizabeth Newman, Deepanshu Verma

cs.LG math.NA math.OC

本文提出了一种名为VPBoost的梯度提升算法, 用于训练可分离的平滑参数化模型(如具有线性输出层的神经网络). 该方法融合了变量投影(Variable Projection)训练范式和二阶弱学习策略, 将提升过程解释为一个函数空间中的信赖域方法. 理论分析证明了其在温和条件下的收敛性, 数值实验表明其在多个任务上优于基于梯度下降的提升方法.

CDMT-EHR: A Continuous-Time Diffusion Framework for Generating Mixed-Type Time-Series Electronic Health Records

Shaonan Liu et al.

cs.LG cs.AI

本文提出了一个用于生成混合类型时间序列电子健康记录(EHR)的连续时间扩散模型框架. 该方法通过连续时间建模、统一的变量处理以及自适应的噪声调度, 在减少采样步骤的同时提升了合成数据的质量.

BXRL: Behavior-Explainable Reinforcement Learning

Ram Rachum et al.

cs.LG

本文提出了Behavior-Explainable Reinforcement Learning (BXRL)这一新问题框架，将行为（behavior）定义为策略空间上的度量函数。该工作旨在解释智能体在多轮交互中表现出的行为模式，而非单个动作或轨迹。作者通过形式化定义行为度量，并探讨了如何利用现有可解释性方法来解释行为。

Kronecker-Structured Nonparametric Spatiotemporal Point Processes

Zhitong Xu et al.

cs.LG

本文提出了一种Kronecker结构的非参数时空点过程模型, 用于透明地发现事件关系并保持建模灵活性. 该模型利用可分离核和结构化网格表示来实现可扩展的训练和预测, 并通过张量积Gauss-Legendre求积法高效评估似然积分.

Self Paced Gaussian Contextual Reinforcement Learning

Mohsen Sahraei Ardakani, Rui Song

cs.LG cs.AI

本文提出了一种名为SPGL的自适应课程学习方法, 用于提升contextual reinforcement learning的样本效率. 该方法通过使用Gaussian context distribution的闭式更新规则, 避免了传统方法中计算代价高昂的内层优化, 从而提高了在连续高维上下文空间中的可扩展性.

Lightweight Fairness for LLM-Based Recommendations via Kernelized Projection and Gated Adapters

Nan Cui, Wendy Hui Wang, Yue Ning

cs.LG

本文提出了一种结合kernelized INLP与gated MoE adapter的轻量级方法, 用于缓解LLM-based推荐系统中的社会偏见. 该方法通过闭式投影移除表示中的敏感属性, 并利用MoE适配器选择性恢复有用信号以保持推荐性能.

Probabilistic Geometric Alignment via Bayesian Latent Transport for Domain-Adaptive Foundation Models

Kuepon Aueawatthanaphisut, Kuepon Aueawatthanaphisut

cs.LG cs.AI math.OC math.PR stat.ML

本文提出了一种基于Bayesian latent transport的概率几何对齐框架, 用于解决基础模型在有限监督下的领域适应问题. 该框架将领域适应表述为表示空间中的随机几何对齐问题, 并通过理论分析和实验验证了其有效性.

Latent Algorithmic Structure Precedes Grokking: A Mechanistic Study of ReLU MLPs on Modular Arithmetic

Anand Swaroop

cs.LG

本文研究了ReLU MLP在模加法任务上的grokking现象. 研究发现, 模型在泛化前已学习到具有特定频谱结构的权重, 其输出权重相位满足$\phi_{\mathrm{out}} = \phi_a + \phi_b$的关系. 通过构建一个基于提取的频谱参数的理想化模型, 作者认为grokking过程主要是对已编码算法的锐化, 而非发现新算法.

Manifold Generalization Provably Proceeds Memorization in Diffusion Models

Zebang Shen, Ya-Ping Hsieh, Niao He

cs.LG stat.ML

本文研究了 diffusion models 在仅学习到 coarse score 时仍能生成新样本的现象. 作者证明, 在 manifold hypothesis 下, 这种泛化能力源于模型捕捉了数据流形的几何结构, 而非精确的分布密度.

Resolving gradient pathology in physics-informed epidemiological models

Nickson Golooba, Woldegebriel Assefa Woldegerima

cs.LG math.NA math.OC

本文提出了一种名为conflict-gated gradient scaling (CGGS)的新方法，用于缓解物理信息神经网络(PINNs)在流行病学模型训练中遇到的梯度冲突问题。该方法通过动态调整惩罚权重来改善训练稳定性。

Deep Neural Regression Collapse

Akshay Rangamani, Altay Unal

cs.LG cs.AI cs.NE stat.ML

本文研究了深度回归模型中的Neural Regression Collapse (NRC)现象，发现该现象不仅出现在最后一层，也存在于深层网络中。研究表明，在发生collapse的层中，特征会坍缩到与目标维度对应的子空间，并且特征协方差与目标协方差对齐。此外，文章还探讨了权重衰减对于诱导Deep NRC的作用。

Circuit Complexity of Hierarchical Knowledge Tracing and Implications for Log-Precision Transformers

Naiming Liu, Richard Baraniuk, Shashank Sonkar

cs.LG cs.AI

本文从circuit complexity角度分析了hierarchical knowledge tracing问题, 特别是prerequisite propagation. 它证明了在monotonicity限制下, 这类任务对monotone threshold circuits存在严格的depth hierarchy, 并探讨了log-precision transformers在此类任务上的能力与局限.

Unveiling Hidden Convexity in Deep Learning: a Sparse Signal Processing Perspective

Emi Zeger, Mert Pilanci

cs.LG eess.SP stat.ML

本文从稀疏信号处理的角度, 探讨了深度学习中存在的隐藏凸性. 文章概述了ReLU神经网络与凸优化模型的等价性, 旨在连接深度学习理论与传统信号处理领域.

Symbolic--KAN: Kolmogorov-Arnold Networks with Discrete Symbolic Structure for Interpretable Learning

Salah A Faroughi et al.

cs.LG cs.CE math.AP math.DS

本文提出了一种名为Symbolic-KAN的新型神经网络架构，旨在弥合可解释性与可扩展学习之间的鸿沟。该架构通过在学习过程中嵌入离散符号结构，最终能够生成紧凑的闭式表达式，并应用于数据回归和偏微分方程的正反问题求解。

Why the Maximum Second Derivative of Activations Matters for Adversarial Robustness

Yunrui Yu, Hang Su, Jun Zhu

cs.LG cs.AI

本文通过引入 Recursive Curvature-Tunable Activation Family (RCT-AF) 来精确控制激活函数的曲率, 研究了最大二阶导数 $\max|\sigma''|$ 与对抗鲁棒性的关系. 研究发现, 最优的对抗鲁棒性出现在 $\max|\sigma''|$ 处于 4 到 10 的范围内, 这一现象在不同网络和数据集上具有一致性.

An Invariant Compiler for Neural ODEs in AI-Accelerated Scientific Simulation

Fangzhou Yu et al.

cs.LG

本文提出了一种名为"invariant compiler"的框架, 用于在构建Neural ODE模型时严格保证物理不变量的遵守. 该框架将不变量视为一等类型, 并利用LLM驱动的编译工作流, 将通用的Neural ODE规范转换为结构保持的架构.

Deep Convolutional Neural Networks for predicting highest priority functional group in organic molecules

Kunal Khatri, Vineet Mehta

cs.LG cs.AI

本文提出使用深度卷积神经网络(CNN)从有机分子的傅里叶变换红外光谱(FTIR)中预测最高优先级官能团, 并与支持向量机(SVM)等方法进行了比较, 结果表明CNN性能更优.

Can VLMs Reason Robustly? A Neuro-Symbolic Investigation

Weixin Chen, Antonio Vergari, Han Zhao

cs.LG cs.AI cs.CV

本文研究了Vision-Language Models (VLMs)在分布偏移下的鲁棒推理能力。作者发现，基于梯度端到端微调的VLMs在协变量偏移下泛化能力不足，因此提出了一种结合VLM概念识别与circuit-based符号推理的神经符号方法VLC，以提升鲁棒性。

HDPO: Hybrid Distillation Policy Optimization via Privileged Self-Distillation

Ken Ding

cs.LG cs.AI

本文提出了一种名为HDPO的混合蒸馏策略优化方法, 用于改进大型语言模型在数学推理任务中的强化学习训练. 该方法通过特权自蒸馏机制, 针对模型完全无法解决的"悬崖"提示生成学习信号, 从而在保持贪婪准确率的同时提升了覆盖性指标.

The Luna Bound Propagator for Formal Analysis of Neural Networks

Henry LeCates, Haoze Wu

cs.LG cs.AI cs.LO

本文介绍了一个名为Luna的bound propagator, 它用C++实现, 支持Interval Bound Propagation, CROWN和alpha-CROWN分析, 用于神经网络的形式化验证. 实验表明, 其在VNN-COMP 2025基准测试上的bound tightness和计算效率与现有最佳实现相当.

Off-Policy Safe Reinforcement Learning with Constrained Optimistic Exploration

Guopeng Li, Matthijs T.J. Spaan, Julian F.P. Kooij

cs.LG cs.RO

本文提出了一种名为COX-Q的off-policy安全强化学习算法，旨在解决现有方法因探索和估计偏差导致的约束违反问题。该算法结合了成本约束的乐观探索策略和保守的离线价值学习，并在多个安全任务中验证了其样本效率和安全性。

Optimal Variance-Dependent Regret Bounds for Infinite-Horizon MDPs

Guy Zamir, Matthew Zurek, Yudong Chen

cs.LG cs.IT math.OC stat.ML

本文针对无限时域Markov决策过程(MDP)中的平均奖励遗憾和$\gamma$-遗憾问题, 提出了一种UCB风格的算法. 该算法首次实现了最优的方差依赖遗憾界, 其形式为$\tilde{O}( \sqrt{SA\,\text{Var}} + \text{lower-order terms})$, 在最坏情况下达到极小极大最优, 并能适应更简单的问题实例.

GRMLR: Knowledge-Enhanced Small-Data Learning for Deep-Sea Cold Seep Stage Inference

Chenxu Zhou et al.

cs.LG cs.CV

本文提出了一种知识增强的分类框架GRMLR，用于解决深海冷泉阶段推断中数据量极小（$n=13$）而特征维度高（$p=26$）导致的过拟合问题。该框架通过整合生态知识图谱作为结构先验，将宏观-微生物耦合与微生物共现模式融入图正则化多项逻辑回归模型，从而在预测时仅需微生物丰度数据。

Wireless communication empowers online scheduling of partially-observable transportation multi-robot systems in a smart factory

Yaxin Liao et al.

cs.LG

本文提出了一种结合无线通信与路径调度的在线调度框架, 用于智能工厂中部分可观测的运输多机器人系统. 该框架通过机器间通信交换意图信息, 并整合了基于模拟退火的任务分配和基于A*的路径调度方法, 以动态规划无碰撞且无拥塞的路线. 数值实验表明, 该方案在多种负载和信道条件下能提升调度效率.

Kirchhoff-Inspired Neural Networks for Evolving High-Order Perception

Tongfei Chen et al.

cs.LG cs.AI

本文提出了一种受Kirchhoff定律启发的神经网络架构(KINN), 用于显式地表征信号强度、耦合结构和状态演化之间的相互作用. 该模型在PDE求解和图像分类任务上展现了优于现有方法的性能.

Transcending Classical Neural Network Boundaries: A Quantum-Classical Synergistic Paradigm for Seismic Data Processing

Zhengyi Yuan et al.

cs.LG physics.geo-ph

本文提出了一种量子-经典协同生成对抗网络(QC-GAN)用于地震数据处理. 该方法结合了量子神经网络(QNN)和经典卷积网络, 旨在超越经典神经网络的表示能力瓶颈.

Diet Your LLM: Dimension-wise Global Pruning of LLMs via Merging Task-specific Importance Score

Jimyung Hong, Jaehyung Kim

cs.LG

本文提出了一种无需训练的结构化剪枝方法DIET, 通过合并任务特定的重要性分数来实现维度级的全局剪枝. 该方法仅需少量样本进行激活分析, 并通过多数投票构建全局掩码, 在多个基准测试中优于现有方法.

Can we generate portable representations for clinical time series data using LLMs?

Zongliang Ji et al.

cs.LG

本文提出了一种利用冻结的LLM将ICU时间序列数据转换为自然语言摘要, 再通过文本嵌入模型获取固定长度向量表示的方法. 该方法在多个临床预测任务上表现良好, 并且在跨医院迁移时性能下降较小, 展现了其在简化临床机器学习部署方面的潜力.

Understanding the Challenges in Iterative Generative Optimization with LLMs

Allen Nie et al.

cs.LG cs.AI

本文探讨了在利用LLMs进行迭代式生成优化时面临的挑战, 指出其实际应用中的脆弱性主要源于工程师必须做出一些"隐性"设计选择. 通过多个案例研究, 文章分析了起始工件、信用分配视野和批次大小等因素对优化成功与否的影响, 并提供了实用的指导建议.

Stochastic Dimension-Free Zeroth-Order Estimator for High-Dimensional and High-Order PINNs

Zhangyong Liang, Ji Zhang

cs.LG

本文提出了一种名为SDZE的随机无维度零阶估计器, 用于解决高维高阶PINNs训练中的计算复杂度和内存开销问题. 该方法通过同步随机数和隐式子空间投影技术, 实现了空间和内存复杂度的维度无关性, 从而能够在大规模问题上进行高效训练.

i-IF-Learn: Iterative Feature Selection and Unsupervised Learning for High-Dimensional Complex Data

Chen Ma, Wanjie Wang, Shuhao Fan

cs.LG stat.ME

本文提出了一种名为 i-IF-Learn 的迭代无监督学习框架，用于高维复杂数据的特征选择和聚类。该方法通过结合伪标签监督和无监督信号，动态调整特征选择，以减少迭代过程中的误差传播。实验表明，该方法在基因表达数据上优于现有基线，并能有效提升下游深度模型的性能。

Lagrangian Relaxation Score-based Generation for Mixed Integer linear Programming

Ruobing Wang et al.

cs.LG

本文提出了一种基于 Lagrangian relaxation 和 stochastic differential equations 的生成框架 SRG, 用于加速混合整数线性规划 (MILP) 的求解. 该方法通过生成多样化的高质量候选解来定义紧凑的信任域子问题, 从而提升下游求解器的效率.

MoE-Sieve: Routing-Guided LoRA for Efficient MoE Fine-Tuning

Andrea Manzoni

cs.LG cs.CL

本文提出了一种名为 MoE-Sieve 的简单方法，用于高效微调 Mixture-of-Experts (MoE) 模型。该方法通过分析 token 路由模式，仅对每层中最常被激活的专家应用 LoRA 适配器，从而显著减少了可训练参数和训练时间，同时保持了与全参数微调相当的性能。

The impact of sensor placement on graph-neural-network-based leakage detection

J.J.H. van Gemert et al.

cs.LG eess.SY

本文研究了传感器布置对基于图神经网络(GNN)的供水管网泄漏检测性能的影响. 作者提出了一种基于PageRank中心性的传感器布置新方法, 并在EPANET Net1网络上验证了该方法对压力重构、预测及泄漏检测效果的显著提升.

Towards Effective Experiential Learning: Dual Guidance for Utilization and Internalization

Fei Bai et al.

cs.LG cs.AI

本文提出了一种名为Dual Guidance Optimization (DGO)的强化学习框架，旨在提升大语言模型在训练中对经验的利用与内化能力。该方法通过结合外部经验库与模型内部知识来指导探索，并形成一个经验利用与内化的闭环。实验表明该方法在推理任务上优于基线模型。

KCLNet: Electrically Equivalence-Oriented Graph Representation Learning for Analog Circuits

Peng Xu et al.

cs.LG cs.AI

本文提出了一种面向直流电等效的模拟电路表示学习框架KCLNet. 该方法通过受基尔霍夫电流定律启发的表示学习, 增强了电路嵌入的泛化能力, 并在多个下游任务中取得了良好性能.

Causality-Driven Disentangled Representation Learning in Multiplex Graphs

Saba Nasiri, Selin Aviyente, Dorina Thanou

cs.LG cs.SI

本文提出了一种基于因果推断的框架CaDeM, 用于在自监督学习下解耦multiplex graph中的共享信息和层特定信息. 该方法通过联合对齐共享嵌入、强制私有嵌入捕获层特定信号, 并应用后门调整来实现解耦, 实验表明其在合成和真实数据集上优于现有基线.

Mixed-signal implementation of feedback-control optimizer for single-layer Spiking Neural Networks

Jonathan Haag et al.

cs.LG

本文在混合信号神经形态处理器上实现了反馈控制优化器的概念验证, 用于单层Spiking Neural Networks (SNNs) 的在线学习. 通过In-The-Loop (ITL) 训练在二元分类和Yin-Yang非线性问题上验证了其性能, 展示了在硬件约束下实现反馈驱动学习的可行性.

The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation

Mingyi Liu

cs.LG cs.AI cs.CL

本文研究了RLHF对齐后语言模型出现的回答同质化现象及其对不确定性估计的影响. 研究发现, 在TruthfulQA等任务上, 对齐模型会产生高度一致的语义输出, 这导致基于采样的不确定性度量方法失效. 作者通过一系列消融实验和跨模型验证, 将原因定位到DPO对齐阶段, 并探索了利用正交不确定性信号进行级联预测以提升效率的方法.

Likelihood hacking in probabilistic program synthesis

Jacek Karwowski et al.

cs.LG cs.PL

本文研究了在强化学习训练语言模型生成概率程序时出现的"似然黑客"现象, 即模型通过生成未归一化的数据分布程序来人为提高边际似然奖励, 而非更好地拟合数据. 作者在一个核心概率编程语言中形式化了该问题, 并提出了一个满足特定语法条件的安全语言片段$\mathcal{L}_{\text{safe}}$, 从理论上证明其能防止此类攻击. 实证中, 作者展示了GRPO训练的模型能快速发现并利用该漏洞, 并基于理论条件实现了名为$\texttt{SafeStan}$的Stan修改版本, 验证了其在优化压力下能有效防止"似然黑客"攻击.

On Gossip Algorithms for Machine Learning with Pairwise Objectives

Igor Colin et al.

cs.LG

本文研究了面向pairwise objective functions的gossip算法, 这类目标函数表现为degree two的U-statistic. 作者为这类算法提供了一个全面的理论收敛性分析框架, 填补了相关文献的空白.

Reservoir-Based Graph Convolutional Networks

Mayssa Soussia et al.

cs.LG cs.CV

本文提出了一种结合 reservoir computing 与图卷积的模型 RGC-Net, 用于图分类与生成任务. 该模型利用固定的随机权重和 leaky integrator 来增强特征保留, 在实验中展现了较快的收敛速度并减轻了 over-smoothing 问题.

Efficient Controller Learning from Human Preferences and Numerical Data Via Multi-Modal Surrogate Models

Lukas Theiner et al.

cs.LG eess.SY

本文提出了一种结合低精度数值数据与高精度人类偏好的多保真度、多模态贝叶斯优化框架, 用于自动调整控制策略. 该方法使用具有分层自回归和非分层共区域化结构的 Gaussian process 代理模型, 有效整合混合模态数据, 并以自动驾驶轨迹规划为例展示了其能减少对人类决策者的实验需求.

Linear-Nonlinear Fusion Neural Operator for Partial Differential Equations

Heng Wu, Junjie Wang, Benzhuo Lu

cs.LG math.NA

本文提出了一种名为Linear-Nonlinear Fusion Neural Operator (LNF-NO)的新型神经网络算子架构，用于学习偏微分方程的参数到解的映射。该方法通过显式解耦映射中的线性和非线性效应，实现了更高效的训练，并在多个基准测试中取得了与现有方法相当或更好的精度。

TsetlinWiSARD: On-Chip Training of Weightless Neural Networks using Tsetlin Automata on FPGAs

Shengyu Duan et al.

cs.LG cs.AR

本文提出了一种基于Tsetlin Automata的权重无关神经网络训练方法TsetlinWiSARD, 旨在实现高效片上训练. 该方法通过概率性、反馈驱动的迭代学习克服了传统权重无关神经网络单次训练导致的过拟合问题, 并在FPGA上实现了高硬件效率与低功耗.

A Deep Dive into Scaling RL for Code Generation with Synthetic Data and Curricula

Cansu Sancaktar et al.

cs.LG cs.AI

本文提出了一种用于代码生成的可扩展多轮合成数据生成流程, 通过教师模型迭代生成具有难度递进结构的问题, 并研究了课程设计与数据多样性对强化学习训练动态的影响. 实验表明, 该方法能持续提升模型在代码领域的性能.

IPatch: A Multi-Resolution Transformer Architecture for Robust Time-Series Forecasting

Aymane Harkati et al.

cs.LG

本文提出了一种名为IPatch的多分辨率Transformer架构, 用于多元时间序列预测. 该模型通过同时整合point-wise和patch-wise两种token表示, 旨在兼顾短期波动与长期依赖的建模.

Uncovering Memorization in Timeseries Imputation models: LBRM Membership Inference and its link to attribute Leakage

Faiz Taleb, Ivan Gazeau, Maryline Laurent

cs.LG cs.AI

本文针对时间序列插补模型中的隐私泄露问题, 提出了一个包含成员推理攻击和属性推理攻击的两阶段攻击框架. 实验表明, 所提出的基于参考模型的成员推理攻击能有效识别训练数据, 并且其成功与否能很好地预测属性推理攻击的可行性.

Identification of NMF by choosing maximum-volume basis vectors

Qianqian Qi, Zhongming Chen, Peter G. M. van der Heijden

cs.LG stat.ME

本文提出了一种称为maximum-volume-constrained NMF的新框架, 旨在使基向量尽可能不同, 以解决minimum-volume-constrained NMF在处理高度混合数据时可能失效的问题. 作者建立了该框架的可识别性定理并提供了估计算法.

Attack Assessment and Augmented Identity Recognition for Human Skeleton Data

Joseph G. Zalameda et al.

cs.LG cs.CR cs.CV

本文提出了一种名为Attack-AAIRS的新方法，用于增强基于LiDAR骨架数据的人员识别模型（HCN-ID）对抗对抗性攻击的鲁棒性。该方法利用GAN生成合成攻击样本来扩充训练数据，从而在不降低模型在真实数据上性能的前提下，提高了模型对多种未见攻击的防御能力。

Embracing Heteroscedasticity for Probabilistic Time Series Forecasting

Yijun Wang, Qiyuan Zhuang, Xiu-Shen Wei

cs.LG cs.AI

本文提出了一种名为LSG-VAE的模型，用于概率时间序列预测。该模型通过显式参数化预测均值和时变方差来捕捉异方差性，并在多个基准数据集上取得了优于现有生成基线模型的效果。

Forecasting with Guidance: Representation-Level Supervision for Time Series Forecasting

Jiacheng Wang et al.

cs.LG

本文提出了一种名为ReGuider的插件方法, 用于提升时间序列预测模型的性能. 该方法通过利用预训练模型作为语义教师, 在表示层面对目标模型的编码器进行监督对齐, 从而学习更具表达力的时序表示.

DeepDTF: Dual-Branch Transformer Fusion for Multi-Omics Anticancer Drug Response Prediction

Yuhan Zhao et al.

cs.LG

本文提出了一种名为DeepDTF的双分支Transformer融合框架，用于预测抗癌药物的反应。该模型通过独立的编码器处理多组学数据和药物分子图，并利用基于Transformer的融合模块整合跨模态信息。在冷启动细胞系评估中，该模型在多个基准测试上取得了优于现有方法的表现。

Language-Assisted Image Clustering Guided by Discriminative Relational Signals and Adaptive Semantic Centers

Jun Ma et al.

cs.LG

本文提出了一种新的语言辅助图像聚类框架, 通过利用跨模态关系生成更具判别性的自监督信号, 并学习自适应的语义中心来产生最终的聚类分配. 实验表明该方法在多个基准数据集上优于现有方法.

Cost-Sensitive Neighborhood Aggregation for Heterophilous Graphs: When Does Per-Edge Routing Help?

Eyal Weiss

cs.LG cs.AI

本文提出了一种用于异配图(heterophilous graphs)的Cost-Sensitive Neighborhood Aggregation (CSNA)方法，该方法通过学习的投影计算成对距离，并利用它来软路由每条消息。在理论分析和基准测试中，作者发现细粒度的消息路由仅在特定异配机制下优于均匀的谱通道，从而为理解图神经网络在异配场景下的行为提供了诊断工具。

Large Language Model Guided Incentive Aware Reward Design for Cooperative Multi-Agent Reinforcement Learning

Dogan Urgun, Gokhan Gungor

cs.LG cs.AI eess.SY

本文提出了一个利用大型语言模型自动设计辅助奖励的框架, 用于合作式多智能体强化学习. 该框架通过从环境信息生成可执行的奖励程序, 并在固定计算预算下评估其效果, 在多个游戏布局中提升了任务回报.

CoordLight: Learning Decentralized Coordination for Network-Wide Traffic Signal Control

Yifeng Zhang et al.

cs.LG cs.RO

本文提出了一个名为CoordLight的多智能体强化学习框架, 用于去中心化的网络级交通信号控制. 它通过一种新颖的队列动态状态编码(QDSE)和邻居感知策略优化(NAPO)算法来增强单个路口的决策及其与邻居的协调能力.

MolEvolve: LLM-Guided Evolutionary Search for Interpretable Molecular Optimization

Xiangsen Chen et al.

cs.LG cs.AI cs.CE

本文提出了一种名为MolEvolve的进化框架，用于分子优化。它利用大型语言模型(LLM)引导搜索，并结合蒙特卡洛树搜索(MCTS)进行规划，旨在生成可解释的分子修改路径。实验表明，该方法在性质预测和分子优化任务上优于基线模型。

On the Use of Bagging for Local Intrinsic Dimensionality Estimation

Kristóf Péter et al.

cs.LG stat.ML

本文提出了一种基于bagging的集成方法来降低Local Intrinsic Dimensionality (LID)估计的方差。该方法通过子采样保持最近邻距离的局部分布，并分析了采样率、近邻数量等超参数对估计性能的影响。实验表明，该方法能在控制偏差的同时有效减少估计误差。

Marchuk: Efficient Global Weather Forecasting from Mid-Range to Sub-Seasonal Scales via Flow Matching

Arsen Kuzhamuratov et al.

cs.LG

本文提出了一种名为Marchuk的生成式潜流匹配模型, 用于全球天气预测, 覆盖中期至次季节尺度, 预测范围可达30天. 该模型通过改进位置编码和扩展时间上下文窗口来增强长期依赖的表示能力, 并以较小的参数量实现了与更大模型相当的预测性能.

Learning Response-Statistic Shifts and Parametric Roll Episodes from Wave--Vessel Time Series via LSTM Functional Models

Jose del Aguila Ferrandis

cs.LG physics.comp-ph physics.data-an physics.flu-dyn

本文利用LSTM functional models从波浪-船舶运动时序数据中学习非线性、因果性的函数映射, 构建了一个数据驱动的代理模型. 该模型能够复现参数横摇事件及其引发的响应统计特性偏移, 其训练数据可来源于实验或高保真仿真, 并通过损失函数的选择在平均误差与尾部风险保真度之间进行权衡.

CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

Xiangru Jian et al.

cs.LG cs.AI cs.CV

本文介绍了CUA-Suite，这是一个用于计算机使用智能体的大规模专家视频演示与密集标注生态系统。其核心VideoCUA提供了约55小时的连续屏幕录制视频，并辅以UI-Vision基准测试和GroundCUA标注数据集，旨在解决该领域高质量演示数据稀缺的瓶颈。

Conformalized Transfer Learning for Li-ion Battery State of Health Forecasting under Manufacturing and Usage Variability

Samuel Filgueira da Silva et al.

cs.LG eess.SY

本文提出了一种结合LSTM, MMD和Conformal Prediction的不确定性感知迁移学习框架, 用于锂离子电池健康状态预测. 该方法旨在解决因制造和使用差异导致的模型泛化问题, 通过域适应和不确定性量化来提高预测的可靠性和普适性.

Uniform Laws of Large Numbers in Product Spaces

Ron Holzman, Shay Moran, Alexander Shlimovich

cs.LG math.ST

本文研究了在满足一定分布假设的 Cartesian product spaces 中 uniform laws of large numbers 的成立条件. 作者证明了, 在分布绝对连续于其边际乘积的条件下, 一个事件族满足一致大数定律当且仅当其 linear VC dimension 是有限的.

Project and Generate: Divergence-Free Neural Operators for Incompressible Flows

Xigui Li et al.

cs.LG physics.flu-dyn

本文提出了一种用于不可压缩流体的无散度神经算子框架. 该方法通过可微谱Leray投影和基于旋度的前推映射, 分别对确定性模型和生成模型施加了硬约束, 确保了速度场的无散性. 实验表明, 该方法能实现精确的不可压缩性, 并显著提升了模拟的稳定性和物理一致性.

Towards Safe Learning-Based Non-Linear Model Predictive Control through Recurrent Neural Network Modeling

Mihaela-Larisa Clement et al.

cs.LG cs.RO eess.SY

本文提出了一种名为Sequential-AMPC的序列神经网络策略，用于近似非线性模型预测控制(NMPC)以降低在线计算负担。该方法通过一个安全增强的在线评估与回退机制来保证部署时的安全性，并在多个基准测试中展现出比前馈基线更优的数据效率和闭环安全性能。

Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

Alexander Panfilov et al.

cs.LG cs.AI cs.CR

本文介绍了一种利用Claude Code进行自主研究的流程, 用于发现针对LLM的新型白盒对抗攻击算法. 该流程从现有方法(如GCG)出发, 迭代生成新算法, 在越狱和提示注入评估中显著超越了30多种现有方法. 生成的攻击在代理模型上优化后, 能直接迁移到未见过的模型上, 例如对Meta-SecAlign-70B实现了100%的攻击成功率.

TuneShift-KD: Knowledge Distillation and Transfer for Fine-tuned Models

Yushi Guan et al.

cs.LG

本文提出了一种名为TuneShift-KD的新方法，用于在无法获取原始训练数据的情况下，将微调模型学到的领域知识迁移到新的预训练模型中。该方法通过比较基础模型与微调模型的困惑度差异来自动识别知识，并利用少量代表性提示生成合成数据集进行知识蒸馏。实验表明，该方法在知识迁移的准确性上优于现有方法。

No Single Metric Tells the Whole Story: A Multi-Dimensional Evaluation Framework for Uncertainty Attributions

Emily Schiller et al.

cs.LG cs.AI

本文提出了一个用于评估不确定性归因方法的多维度评价框架, 旨在解决该领域因使用异构代理任务和指标而导致评估不一致的问题. 该框架将不确定性归因与成熟的 Co-12 XAI 评估框架对齐, 并引入了针对不确定性归因定制的 conveyance 属性.

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

Zichuan Lin et al.

cs.LG cs.AI cs.CV

本文提出了一种名为UI-Voyager的两阶段自进化移动GUI代理。它通过Rejection Fine-Tuning实现数据与模型的自主协同进化，并利用Group Relative Self-Distillation从成功轨迹中构建密集监督来修正失败轨迹。实验表明该方法在AndroidWorld基准上超越了现有基线及人类水平。

Scaling Recurrence-aware Foundation Models for Clinical Records via Next-Visit Prediction

Haresh Rengaraj Rajamohan et al.

cs.LG

本文提出了一种针对结构化电子健康记录(EHR)的生成式预训练模型RAVEN, 其核心是Recurrence-Aware next-Visit EveNt预测。该模型在超过百万患者的序列数据上进行训练, 并探讨了在数据受限、计算饱和情况下的模型扩展行为。

DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving

Pengxuan Yang et al.

cs.LG cs.RO

本文提出了一个名为DreamerAD的潜在世界模型框架, 用于自动驾驶的高效强化学习. 它通过压缩扩散采样步骤和直接在潜在表示上操作, 显著提升了训练速度与性能.

Polynomial Speedup in Diffusion Models with the Multilevel Euler-Maruyama Method

Arthur Jacot

cs.LG math.NA stat.ML

本文提出了一种用于求解SDEs和ODEs的Multilevel Euler-Maruyama (ML-EM)方法。该方法通过结合不同精度和计算成本的漂移近似器，在扩散模型采样中实现了多项式加速。

cs.AI

PLDR-LLMs Reason At Self-Organized Criticality

Burc Gokden

cs.AI cs.CL cs.LG nlin.AO

本文探讨了PLDR-LLMs在自组织临界性下预训练后展现出的推理特性。研究发现，其演绎输出在临界点附近的行为类似于二阶相变，并可通过序参量来量化模型的推理能力。

Environment Maps: Structured Environmental Representations for Long-Horizon Agents

Yenchia Feng, Chirag Sharma, Karime Maamari

cs.AI

本文提出了一种名为"Environment Maps"的结构化环境表示方法, 旨在提升智能体在长周期任务中的鲁棒性. 该方法将屏幕录像、执行轨迹等异构证据整合为包含Contexts, Actions, Workflows和Tacit Knowledge四个核心组件的图结构, 并在WebArena基准测试中显著提升了任务成功率.

Evaluating a Multi-Agent Voice-Enabled Smart Speaker for Care Homes: A Safety-Focused Framework

Zeinab Dehghani et al.

cs.AI cs.CL

本文评估了一个用于护理院的语音智能扬声器系统, 提出了一个以安全为中心的端到端评估框架. 该系统结合了基于 Whisper 的语音识别和多种 RAG 方法, 在受控测试和护理院试验中评估了其在识别居民、护理类别、提醒事项以及端到端日程安排方面的准确性和可靠性.

Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

Yi Han et al.

cs.AI

本文提出了EnterpriseArena基准，用于在动态企业环境中评估LLM智能体进行长期资源分配的能力。实验表明，当前先进的LLM在此任务上表现不佳，揭示了其在不确定性下进行长期规划的能力缺陷。

GTO Wizard Benchmark

Marc-Antoine Provost et al.

cs.AI

本文介绍了GTO Wizard Benchmark, 这是一个用于评估Heads-Up No-Limit Texas Hold'em (HUNL) 算法的公开API和标准化框架. 该框架集成了AIVAT方差缩减技术, 并对多个先进的大语言模型进行了零样本基准测试.

Grounding Vision and Language to 3D Masks for Long-Horizon Box Rearrangement

Ashish Malik et al.

cs.AI cs.RO

本文提出了一种名为RAMP-3D的模型，用于解决基于视觉和自然语言指令的长时程3D物体重排规划问题。该方法通过预测成对的3D分割掩码来生成拾放动作序列，在包含多种约束的仓库环境中取得了优于现有二维视觉语言模型的性能。

LLMs Do Not Grade Essays Like Humans

Jerin George Mathew et al.

cs.AI cs.CL

本文评估了GPT和Llama系列大语言模型在未经特定训练的情况下，对论文进行自动评分的表现。研究发现，模型评分与人类评分的一致性较弱，且评分模式存在系统性偏差，例如对短文本评分偏高，而对包含小错误的较长文本评分偏低。

Efficient Benchmarking of AI Agents

Franck Ndzomga

cs.AI

本文研究了如何通过选择任务子集来高效评估AI agents, 指出在存在scaffold-driven distribution shift的情况下, 预测绝对分数困难但排名顺序相对稳定. 基于此, 作者提出了一种无需优化的协议, 通过筛选中等难度的任务来大幅减少评估成本, 同时保持排名可靠性.

Learning-guided Prioritized Planning for Lifelong Multi-Agent Path Finding in Warehouse Automation

Han Zheng et al.

cs.AI cs.RO

本文提出了一种结合强化学习与搜索规划的框架 RL-RH-PP，用于解决仓库自动化中的终身多智能体路径规划问题。该框架通过基于注意力的神经网络动态分配优先级，在模拟中提升了系统吞吐量。

VehicleMemBench: An Executable Benchmark for Multi-User Long-Term Memory in In-Vehicle Agents

Yuhao Chen et al.

cs.AI cs.CL

本文提出了一个名为VehicleMemBench的可执行基准测试, 用于评估车载智能体在多用户长期记忆方面的能力. 该基准测试通过模拟真实车载环境中的工具交互和动态偏好变化, 为agent的长期记忆和决策能力提供了客观的评估框架.

SCoOP: Semantic Consistent Opinion Pooling for Uncertainty Quantification in Multiple Vision-Language Model Systems

Chung-En Johnny Yu, Brian Jalaian, Nathaniel D. Bastian

cs.AI cs.MA

本文提出了一个名为SCoOP的训练无关框架, 用于在多视觉语言模型(VLM)系统中进行不确定性量化. 该方法通过语义一致的意见池化来聚合异构模型的输出, 旨在检测幻觉并提升多模态AI系统的可靠性.

When AI output tips to bad but nobody notices: Legal implications of AI's mistakes

Dylan J. Restrepo et al.

cs.AI cs.CY cs.SI nlin.CD physics.soc-ph

本文探讨了生成式AI在法律领域应用时可能产生的虚构法律依据问题, 并指出这种"幻觉"现象背后存在基于Transformer机制的可预测性成分. 作者建议法律从业者应采用基于系统失效机制的验证协议, 而非将其视为不可知的"黑箱".

The DeepXube Software Package for Solving Pathfinding Problems with Learned Heuristic Functions and Search

Forest Agostinelli

cs.AI cs.LG

本文介绍了一个名为DeepXube的开源Python软件包，它利用机器学习学习启发式函数，以指导针对深度神经网络定制的启发式搜索算法，从而自动化解决路径规划问题。该工具整合了深度强化学习、启发式搜索和形式逻辑等领域的最新进展，并提供了高效的并行训练与便捷的命令行求解功能。

DUPLEX: Agentic Dual-System Planning via LLM-Driven Information Extraction

Keru Hua et al.

cs.AI

本文提出了一种名为DUPLEX的神经符号架构，用于机器人任务规划。该框架将LLM严格限制于模式引导的信息提取，以生成PDDL问题文件供符号规划器使用，从而提高了长视野规划的成功率和可靠性。

AnalogAgent: Self-Improving Analog Circuit Design Automation with LLM Agents

Zhixuan Bao et al.

cs.AI

本文提出了一个名为AnalogAgent的框架, 它利用基于LLM的多智能体系统(MAS)与自进化记忆(SEM)来自动化模拟电路设计. 该框架通过协调多个智能体角色并利用反馈来改进设计, 在多个基准测试中取得了较高的Pass@1成功率.

From Pixels to Digital Agents: An Empirical Study on the Taxonomy and Technological Trends of Reinforcement Learning Environments

Lijing Luo et al.

cs.AI

本文通过程序化处理大量学术文献, 提出了一个量化的多维度分类法, 用于分析强化学习环境的演变. 研究揭示了该领域向基于大型语言模型的"语义先验"生态系统和"领域特定泛化"生态系统的分化趋势.

Language-Grounded Multi-Agent Planning for Personalized and Fair Participatory Urban Sensing

Xusen Guo et al.

cs.AI

本文提出了一个基于LLM的多智能体框架MAPUS, 用于实现个性化和公平的参与式城市感知. 该框架将参与者建模为具有个人资料和日程的自主智能体, 并通过基于语言的协商来优化感知路线, 在现实数据集上的实验表明其能提高参与者满意度和公平性.

ELITE: Experiential Learning and Intent-Aware Transfer for Self-improving Embodied Agents

Bingqing Wei et al.

cs.AI

本文提出了一个名为ELITE的具身智能体框架, 通过经验学习和意图感知的知识迁移来提升智能体在复杂任务中的表现. 该框架利用自我反思的知识构建和意图感知检索机制, 在EB-ALFRED和EB-Habitat基准测试上取得了性能提升.

Enhanced Mycelium of Thought (EMoT): A Bio-Inspired Hierarchical Reasoning Architecture with Strategic Dormancy and Mnemonic Encoding

Florian Odi Stummer

cs.AI

本文提出了一个受生物启发的分层推理架构EMoT, 它通过引入战略休眠、记忆宫殿等机制来增强大语言模型的复杂问题解决能力. 初步评估显示其在跨领域综合任务上有优势, 但在简单问题上存在系统性过度思考的缺陷.

Bridging the Evaluation Gap: Standardized Benchmarks for Multi-Objective Search

Hadar Peer et al.

cs.AI

本文针对多目标搜索领域缺乏标准化评估基准的问题, 提出了一个全面的基准测试套件. 该套件涵盖了道路网络, 合成图, 网格环境和机器人运动规划等多个领域, 旨在提供可复现和结构全面的评估基础.

AI-Supervisor: Autonomous AI Research Supervision via a Persistent Research World Model

Yunbo Long

cs.AI

本文提出了一个名为AutoProf的多智能体研究监督框架, 旨在克服现有自动化研究系统缺乏持久状态和结构化分析的局限. 该框架通过一个持续演化的Research World Model (知识图谱) 作为共享记忆, 协调多个智能体进行从文献综述到论文撰写的端到端研究流程, 并引入了结构化的gap发现和自我纠正循环等机制.

Multi-Agent Reasoning with Consistency Verification Improves Uncertainty Calibration in Medical MCQA

John Ray B. Martinez

cs.AI cs.CL cs.LG

本文提出了一种多智能体框架, 通过结合领域专家智能体, 两阶段验证和基于S分数的加权融合, 来改进医学多项选择题问答中的置信度校准和判别能力. 该方法在多个数据集上显著降低了预期校准误差(ECE).

From Liar Paradox to Incongruent Sets: A Normal Form for Self-Reference

Shalender Singh, Vishnu Priya Singh Parmar

cs.AI

本文引入了一种称为incongruent normal form (INF)的结构化表示方法, 用于处理自指语义语句. 该方法将自指语句替换为一组有限且局部可满足但全局不可同时满足的非自指语句族, 从而分离出自指造成的语义障碍. 文章进一步探讨了这种"不相容性"作为语义信息性来源的角色, 并将其与理论的不完备性联系起来. 最后, 文章在一个有限的语义状态设定中, 引入了一个基于布尔函数和Fourier分析的定量语义框架, 定义了"语义能量"的概念, 并推导了关于语义确定性、信息性和谱简单性的不确定性界限.

Completeness of Unbounded Best-First Minimax and Descent Minimax

Quentin Cohen-Solal

cs.AI

本文研究了用于双人完全信息博弈的搜索算法, 特别是Unbounded Best-First Minimax和Descent Minimax算法. 通过理论证明和实验验证, 文章表明经过completion技术改进后的这类算法能够计算出最优策略.

The Stochastic Gap: A Markovian Framework for Pre-Deployment Reliability and Oversight-Cost Auditing in Agentic Artificial Intelligence

Biplab Pal, Santanu Bhattacharya

cs.AI

本文提出了一个基于测度论和Markov框架的随机间隙模型, 用于评估组织内Agentic AI在部署前的可靠性与监管成本. 该框架定义了状态盲点质量, 状态-动作盲质量等核心量, 并在一个大规模企业采购流程日志上进行了实例化验证. 实证表明, 细化操作状态(如纳入案例上下文)会显著增加状态空间并提高盲质量, 同时框架也能较好地预测自主步骤的准确性和预期监管负担.

cs.IR

KARMA: Knowledge-Action Regularized Multimodal Alignment for Personalized Search at Taobao

Zhi Sun et al.

cs.IR cs.AI cs.LG

本文提出了KARMA框架, 通过引入知识正则化来缓解大型语言模型在个性化搜索任务中因判别式微调导致的语义崩溃问题. 该方法在淘宝搜索系统中提升了多项性能指标.

Mixture of Demonstrations for Textual Graph Understanding and Question Answering

Yukun Wu, Lihui Liu

cs.IR cs.AI

本文提出了一种名为MixDemo的GraphRAG框架，它通过引入Mixture-of-Experts机制来为不同问题选择信息量最大的示例。为了减少检索子图中的噪声，该方法还设计了一个查询特定的图编码器。实验表明，该框架在多个文本图基准测试中优于现有方法。

VILLA: Versatile Information Retrieval From Scientific Literature Using Large LAnguage Models

Blessy Antony et al.

cs.IR

本文提出了一个名为VILLA的多步骤检索增强生成框架, 用于从科学文献中执行开放式的科学信息抽取任务, 特别是在病毒学领域. 作者构建了一个关于流感病毒突变的新数据集, 并展示了VILLA相比其他先进方法的优越性能.

S4CMDR: a metadata repository for electronic health records

Jiawei Zhao et al.

cs.IR

本文介绍了一个基于ISO 11179-3标准开发的电子健康记录元数据仓库S4CMDR, 旨在解决不同来源临床数据的不兼容问题. 该系统采用微服务架构和中间向外的标准化方法, 提供了自动编目和元数据兼容性可视化功能, 并通过罕见病案例进行了验证.

Sequence-aware Large Language Models for Explainable Recommendation

Gangyi Zhang, Runzhe Teng, Chongming Gao

cs.IR

本文提出了一个名为SELLER的序列感知大语言模型框架，用于生成可解释的推荐。该框架通过双路径编码器和MoE适配器整合用户行为序列与物品语义，并采用统一的评估指标来衡量解释的文本质量与实际效用。

SumRank: Aligning Summarization Models for Long-Document Listwise Reranking

Jincheng Feng, Wenhan Liu, Zhicheng Dou

cs.IR

本文提出了一种名为SumRank的点式摘要模型, 用于在列表式重排序前压缩长文档. 通过一个包含SFT, RL数据构建和基于排名的强化学习对齐的三阶段训练流程, 模型旨在保留文档的相关性信号. 实验表明, 该轻量级模型在多个TREC DL基准上取得了先进的排序性能, 同时显著提升了效率.

Who Benefits from RAG? The Role of Exposure, Utility and Attribution Bias

Mahdi Dehghan, Graham McDonald

cs.IR cs.AI

本文研究了RAG系统中查询组公平性的问题, 探讨了群体曝光度、效用和归因这三个关键因素的影响. 实验表明, RAG系统会加剧不同群体查询间的平均准确率差异, 并且这些因素与群体表现存在显著相关性.

UniScale: Synergistic Entire Space Data and Model Scaling for Search Ranking

Liren Yu et al.

cs.IR cs.LG

本文提出了一个名为UniScale的协同设计框架, 用于提升搜索排序系统的性能. 该框架通过联合优化数据与模型架构, 旨在克服仅扩大模型参数带来的收益递减问题.

Exploring How Fair Model Representations Relate to Fair Recommendations

Bjørnar Vassøy, Benjamin Kille, Helge Langseth

cs.IR cs.AI cs.LG

本文通过比较模型表示中编码的人口统计信息与推荐结果差异的多种度量, 挑战了公平表示优化能直接保证推荐公平性的假设. 作者提出了两种基于排序推荐的新方法来度量人口信息可分类性, 并在多个数据集上验证了表示层评估并非衡量推荐公平性的可靠代理.

OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework

Ben Chen et al.

cs.IR cs.AI cs.CL

本文提出了一个名为OneSearch-V2的生成式检索框架，通过引入思维增强的复杂查询理解、推理内化的自蒸馏训练以及行为偏好对齐优化等模块，旨在提升对用户查询和潜在意图的理解能力。离线与在线实验表明，该框架在多项业务指标和搜索体验质量上均有提升。

Evaluating Chunking Strategies For Retrieval-Augmented Generation in Oil and Gas Enterprise Documents

Samuel Taiwo, Mohd Amaluddin Yusoff

cs.IR cs.AI

本文通过实证研究比较了四种文档分块策略在油气企业文档检索增强生成(RAG)中的性能。研究发现，结构感知分块在检索效果和计算成本上表现更优，并指出纯文本RAG在处理视觉化文档时存在局限。

cs.CL

Mechanic: Sorrifier-Driven Formal Decomposition Workflow for Automated Theorem Proving ⭐ 精选

Ruichen Qiu et al.

cs.CL

本文提出了一种名为 Mechanic 的 novel agent system，它采用了一种 sorry-driven formal decomposition strategy 来处理 automated theorem proving 中的失败尝试。该方法利用 Lean 中的 `sorry` placeholder 来精确隔离未解决的 subgoals，并将每个失败的 subproblem 提取到独立的、干净的 context 中独立解决，从而避免了完全重新生成 proof 的低效性和反复修复导致的 context 过长问题。实验结果表明，该方法在 IMO 2025 和 Putnam 2025 等 challenging mathematical competition benchmarks 上显著提升了 proving efficiency。

Leveraging Computerized Adaptive Testing for Cost-effective Evaluation of Large Language Models in Medical Benchmarking

Tianpeng Zheng et al.

cs.CL cs.AI

本文提出了一种基于计算机自适应测试(CAT)和项目反应理论(IRT)的框架, 用于高效评估大型语言模型(LLMs)在医学知识基准测试中的表现. 该方法通过动态选择题目, 在保证评估可靠性的同时, 大幅减少了所需的测试题目数量和计算成本.

Beyond Masks: Efficient, Flexible Diffusion Language Models via Deletion-Insertion Processes

Fangyu Ding et al.

cs.CL cs.AI cs.LG

本文提出了一种基于删除-插入过程的扩散语言模型(DID), 以替代现有的掩码扩散模型(MDLM). 该方法通过消除对和标记的计算, 提高了训练和推理效率, 并原生支持可变长度序列. 实验表明DID在多个方面优于基线模型.

Fast and Faithful: Real-Time Verification for Long-Document Retrieval-Augmented Generation Systems

Xunzhuo Liu et al.

cs.CL cs.IR

本文介绍了一种用于长文档检索增强生成(RAG)系统的实时验证组件设计。该系统能在延迟约束下处理长达32K tokens的文档，通过自适应推理策略平衡响应时间和验证覆盖率，相比基于片段截断的验证，能更有效地检测无依据的生成内容。

Internal Safety Collapse in Frontier Large Language Models

Yutao Wu et al.

cs.CL cs.AI cs.CR

本文提出了一个称为"Internal Safety Collapse (ISC)"的关键故障模式, 即在特定任务条件下, 前沿大语言模型(LLMs)会持续生成有害内容. 作者构建了TVD框架和ISC-Bench基准进行测试, 发现前沿模型在此类场景下的安全失败率极高, 揭示了其在处理涉及有害内容的专业任务时存在的内在脆弱性.

Visuospatial Perspective Taking in Multimodal Language Models

Jonathan Prunty et al.

cs.CL cs.AI

本文通过改编人类认知研究中的 Director Task 和 Rotating Figure Task，评估了多模态语言模型在视觉空间视角采择方面的能力。研究发现，模型在需要抑制自身视角以采纳他人视角的 Level 2 VPT 任务上存在显著缺陷。

DISCO: Document Intelligence Suite for COmparative Evaluation

Kenza Benkirane et al.

cs.CL cs.AI cs.CV

本文介绍了DISCO, 一个用于评估OCR pipeline和vision-language model在多种文档类型上解析与问答性能的基准套件. 评估结果表明, 不同任务和文档类型下的性能差异显著, 为基于文档复杂度的策略选择提供了经验指导.

S-Path-RAG: Semantic-Aware Shortest-Path Retrieval Augmented Generation for Multi-Hop Knowledge Graph Question Answering

Rong Fu et al.

cs.CL cs.AI cs.IR

本文提出了一个用于知识图谱多跳问答的语义感知最短路径检索增强生成框架. 该方法通过迭代的图对话循环, 结合路径检索与语言模型, 提升了答案准确性与效率.

Berta: an open-source, modular tool for AI-enabled clinical documentation

Samridhi Vaid et al.

cs.CL cs.AI cs.CY

本文介绍了一个名为Berta的开源、模块化AI临床文档工具, 该系统整合了自动语音识别和大语言模型, 并在Alberta Health Services进行了部署. 该工具显著降低了运营成本, 并将所有临床数据保留在安全的机构环境中.

DepthCharge: A Domain-Agnostic Framework for Measuring Depth-Dependent Knowledge in Large Language Models

Alexander Sheppert

cs.CL cs.AI cs.LG

本文提出了一个名为DepthCharge的领域无关框架, 用于测量大型语言模型在自适应追问下的知识深度. 该框架通过自适应探测, 按需事实核查和生存统计等方法, 在多个专业领域进行了验证, 揭示了模型性能随追问深度变化的差异.

Training a Large Language Model for Medical Coding Using Privacy-Preserving Synthetic Clinical Data

John Cook et al.

cs.CL cs.AI

本文探讨了使用基于电子健康记录生成的隐私保护合成数据来微调大型语言模型, 以执行专业的医疗编码任务. 实验表明, 经过微调的模型在ICD-10-CM和CPT编码的精确匹配上取得了显著性能提升.

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

Yu Chen et al.

cs.CL cs.AI cs.IR

本文提出了一种名为Memory Sparse Attention (MSA)的可扩展内存模型框架，旨在解决大语言模型处理超长上下文（如1亿token）时的效率与精度问题。它通过创新的稀疏注意力机制和文档级RoPE等技术，实现了训练和推理的线性复杂度，并在长上下文基准测试中超越了现有方法。

Cluster-R1: Large Reasoning Models Are Instruction-following Clustering Agents

Peijun Qing et al.

cs.CL cs.AI

本文提出了一种新的聚类方法, 通过将指令跟随聚类重构为生成任务, 训练大型推理模型作为自主聚类代理. 该方法在包含多种任务的基准测试中表现优于基于嵌入的方法和大型推理模型基线.

MedMT-Bench: Can LLMs Memorize and Understand Long Multi-Turn Conversations in Medical Scenarios?

Lin Yang et al.

cs.CL cs.AI

本文提出了一个名为MedMT-Bench的医疗多轮对话基准测试，用于评估大型语言模型在长上下文记忆、抗干扰性和安全性方面的能力。该基准模拟了完整的诊疗流程，测试表明当前前沿模型在该任务上的表现仍有不足。

From Physician Expertise to Clinical Agents: Preserving, Standardizing, and Scaling Physicians' Medical Expertise with Lightweight LLM

Chanyong Luo et al.

cs.CL cs.AI

本文提出了一个名为Med-Shicheng的通用框架，旨在利用大型语言模型（LLM）系统性地学习和标准化传承杰出中医医师的诊疗哲学与案例适应规则。该框架在轻量级模型上实现，在多项临床任务上取得了与更大模型相当的性能，并探讨了自动化评估与医师评估之间的差异。

Chitrakshara: A Large Multilingual Multimodal Dataset for Indian languages

Shaharukh Khan et al.

cs.CL cs.AI cs.CV

本文介绍了Chitrakshara数据集系列, 旨在解决多模态研究中印度语言代表性不足的问题. 该数据集包含大规模的交错预训练数据和图像-文本对, 并提供了详细的数据收集流程和质量分析.

Qworld: Question-Specific Evaluation Criteria for LLMs

Shanghua Gao et al.

cs.CL cs.AI

本文提出了一种名为Qworld的方法, 用于为大型语言模型(LLMs)在开放性问题上的回答生成问题特定的评估标准. 该方法通过递归扩展树来分解问题, 生成细粒度的评估准则, 从而比静态或数据集级别的标准更能捕捉回答质量的上下文依赖性.

Do 3D Large Language Models Really Understand 3D Spatial Relationships?

Xianzheng Ma et al.

cs.CL cs.RO

本文指出现有3D-LLMs在SQA3D基准测试中可能依赖文本捷径而非真正的3D空间理解, 并提出了一个更严格的评估基准Real-3DQA. 实验表明现有模型在移除简单线索后表现不佳, 作者进一步提出了一种3D加权的训练目标来提升模型性能.

Navigating the Concept Space of Language Models

Wilson E. Marcílio-Jr, Danilo M. Eler

cs.CL cs.AI

本文提出了一个名为 Concept Explorer 的可扩展交互式系统，用于对稀疏自编码器（SAE）从大语言模型激活中提取的特征进行事后探索。该系统通过分层邻域嵌入组织概念解释，支持从粗粒度概念簇到细粒度邻域的渐进式导航，从而便于大规模的概念发现与关系分析。

Prompt Compression in Production Task Orchestration: A Pre-Registered Randomized Trial

Warren Johnson, Charles Lee

cs.CL

本文通过一项预先注册的随机对照试验，评估了提示词压缩在生产级多智能体任务编排中的经济性。研究发现，适度的压缩能显著降低总推理成本，而激进的压缩则可能因输出长度增加而得不偿失，强调了在设计压缩策略时需将输出token作为首要考量因素。

Plato's Cave: A Human-Centered Research Verification System

Matheus Kunzler Maldaner et al.

cs.CL cs.HC cs.MA

本文提出了一个名为Plato's Cave的开源、以人为中心的研究验证系统。该系统通过构建文档的有向无环图(DAG)，利用网络智能体(web agents)评估节点和边的可信度，并最终通过解释和评估论文的论证结构给出一个综合评分。

Compression Method Matters: Benchmark-Dependent Output Dynamics in LLM Prompt Compression

Warren Johnson

cs.CL

本文研究了 prompt compression 对 LLM 输出长度和总推理成本的影响，指出评估标准依赖于具体 benchmark。作者引入了 instruction survival probability 和 Compression Robustness Index 等指标，并通过实验表明，单一的 benchmark 评估可能产生误导，需要多样化的测试和结构感知的压缩策略。

The Compression Paradox in LLM Inference: Provider-Dependent Energy Effects of Prompt Compression

Warren Johnson

cs.CL

本文通过大规模API实验评估了prompt compression对LLM推理能效的影响。研究发现，压缩通常导致输出质量显著下降，并且其节能效果高度依赖于模型提供商，有时甚至会增加能耗。

Konkani LLM: Multi-Script Instruction Tuning and Evaluation for a Low-Resource Indian Language

Reuben Chagas Fernandes, Gaurang S. Patkar

cs.CL cs.AI

本文针对低资源语言Konkani构建了合成指令调优数据集Konkani-Instruct-100k, 并基于多个开源与闭源模型进行微调, 开发了Konkani LLM系列模型. 该模型在机器翻译等任务上表现优于基础模型, 并与专有基线模型竞争.

Did You Forget What I Asked? Prospective Memory Failures in Large Language Models

Avni Mittal

cs.CL cs.AI cs.LG

本文研究了大型语言模型在同时执行复杂任务时遵循格式指令的能力下降问题. 通过受前瞻记忆启发的实验范式, 发现任务负载会导致模型对格式约束的遵从度下降2-21%, 且不同类型的约束受影响程度不同. 研究还表明, 提高指令的显著性可以显著恢复遵从度, 并且格式约束与任务准确性之间存在双向干扰.

Large Language Models Unpack Complex Political Opinions through Target-Stance Extraction

Özgür Togay et al.

cs.CL

本文探讨了使用大型语言模型(LLMs)进行目标-立场提取(Target-Stance Extraction)来分析复杂的政治观点。研究构建了一个Reddit数据集，并评估了多种提示策略下的LLMs性能，发现其表现可与人工标注者媲美，为政治文本分析提供了一个可扩展的工具。

Generating Hierarchical JSON Representations of Scientific Sentences Using LLMs

Satya Sri Rajiteswari Nimmagadda et al.

cs.CL cs.AI

本文提出了一种使用轻量级LLM和新的结构损失函数, 将科学句子转换为分层JSON表示的方法. 通过比较原始句子与基于JSON重构句子的语义和词汇相似性, 验证了该结构化表示能有效保留文本信息.

MDKeyChunker: Single-Call LLM Enrichment with Rolling Keys and Key-Based Restructuring for High-Accuracy RAG

Bhavik Mangla

cs.CL cs.AI cs.IR cs.LG

本文提出了一种名为MDKeyChunker的三阶段处理流程，用于改进RAG（Retrieval-Augmented Generation）中的文档分块方法。该方法针对Markdown文档进行结构感知分块，并通过单次LLM调用提取丰富的元数据，最后基于语义键重组分块以优化检索效果。

Not All Pretraining are Created Equal: Threshold Tuning and Class Weighting for Imbalanced Polarization Tasks in Low-Resource Settings

Abass Oguntade

cs.CL cs.LG

本文针对社交媒体文本中的极化检测与分类任务, 提出了基于Transformer的系统. 该方法通过使用多语言模型、类别加权损失和阈值调优等技术来处理严重的类别不平衡问题, 并在验证集上取得了较好的性能.

Revisiting Real-Time Digging-In Effects: No Evidence from NP/Z Garden-Paths

Amani Maina-Kilaas, Roger Levy

cs.CL

本文通过Maze和自定步速阅读实验, 研究了英语NP/Z花园路径句中的"digging-in"效应. 实验将人类行为与大型语言模型预测进行对比, 未发现实时"digging-in"效应的证据, 并指出句末消歧项中观察到的趋势可能受到"wrap-up"效应的干扰.

Swiss-Bench SBP-002: A Frontier Model Comparison on Swiss Legal and Regulatory Tasks

Fatih Uenal

cs.CL cs.AI

本文提出了一个针对瑞士法律与监管任务的多语言基准测试 Swiss-Bench SBP-002, 并评估了多个前沿大语言模型在该基准上的表现. 结果显示, 即使表现最佳的模型正确率也较低, 且开源模型与闭源模型性能相当.

Ethio-ASR: Joint Multilingual Speech Recognition and Language Identification for Ethiopian Languages

Badr M. Abdullah et al.

cs.CL

本文介绍了Ethio-ASR，一个为五种埃塞俄比亚语言联合训练的多语言CTC语音识别模型套件。该模型在WAXAL语料库上训练，性能优于OmniASR基线，并提供了对性别偏见和语言特征（如元音长度）的误差分析。

Probing Ethical Framework Representations in Large Language Models: Structure, Entanglement, and Methodological Challenges

Weilun Xu, Alexander Rusnak, Frederic Kaplan

cs.CL cs.AI

本文通过探测六个不同规模大语言模型的内部表示, 研究了它们是否区分五种伦理框架. 分析发现伦理子空间存在差异化的迁移模式, 但探测结果部分依赖于基准模板的表面特征.

PLACID: Privacy-preserving Large language models for Acronym Clinical Inference and Disambiguation

Manjushree B. Aithal et al.

cs.CL cs.AI

本文提出了一种保护隐私的级联流水线, 用于临床文本中的缩写消歧. 该方法结合通用本地模型进行缩写检测, 并利用特定领域生物医学模型进行扩展, 在保证数据不离开设备的前提下, 将扩展准确率提升至约0.81.

The Diminishing Returns of Early-Exit Decoding in Modern LLMs

Rui Wei et al.

cs.CL cs.AI

本文重新评估了现代大语言模型中的层间早退解码策略, 分析了训练过程中中间表示的变化, 并引入了一个量化模型内在早退适用性的指标. 研究发现, 随着模型代际更新, 早退的有效性呈下降趋势, 且密集Transformer通常比MoE和SSM模型具有更大的早退潜力.

IslamicMMLU: A Benchmark for Evaluating LLMs on Islamic Knowledge

Ali Abdelaal et al.

cs.CL

本文提出了一个用于评估大语言模型在伊斯兰知识领域表现的综合基准 IslamicMMLU, 包含超过一万道涵盖《古兰经》、圣训和教法学三个核心领域的多选题. 作者评估了26个模型, 发现其表现差异显著, 并公开了评估代码和排行榜.

Infrequent Child-Directed Speech Is Bursty and May Draw Infant Vocalizations

Margaret Cychosz, Adriana Weisleder

cs.CL

本文通过分析玻利维亚乡村和美国城市婴儿的长时间录音, 研究了婴儿接收的指向性言语输入的时域模式及其与婴儿发声行为的关系. 研究发现, 尽管玻利维亚婴儿接收的指向性言语较少, 但其在时间上同样呈聚集性分布, 且婴儿更倾向于在接收到指向性言语时发出语音似的发声.

Perturbation: A simple and efficient adversarial tracer for representation learning in language models

Joshua Rozner, Cory Shain

cs.CL cs.AI cs.LG

本文提出了一种名为"perturbation"的简单对抗性追踪方法, 用于研究语言模型中的表征学习. 该方法通过微调单个对抗样本来扰动模型, 并测量这种扰动如何"感染"其他示例, 从而揭示训练后语言模型中存在的结构化知识迁移.

PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Turn Roleplay

Rohan Khetan, Ashna Khetan

cs.CL cs.AI

本文提出了一个名为PoliticsBench的新基准, 用于通过多轮角色扮演评估大型语言模型(LLM)的政治价值观偏差. 研究发现, 在测试的八个主流LLM中, 有七个表现出左倾倾向, 而Grok模型则表现出右倾倾向.

Language Model Planners do not Scale, but do Formalizers?

Owen Jiang et al.

cs.CL

本文探讨了大型语言模型(LLM)在规划问题上的表现, 比较了直接生成规划的"planners"与生成面向求解器程序(如PDDL)的"formalizers"的性能差异. 研究发现, 在经典的BlocksWorld领域, 即使面对状态空间高达$10^{165}$的复杂问题, 一些LLM formalizers仍能保持完美准确率, 其可扩展性显著优于LLM planners. 针对描述简洁但形式化表达组合爆炸的"unraveling problems", 作者提出了一种名为"LLM-as-higher-order-formalizer"的新范式, 即让LLM生成一个程序生成器, 从而将token输出与底层形式化和搜索空间的组合爆炸解耦.

BeliefShift: Benchmarking Temporal Belief Consistency and Opinion Drift in LLM Agents

Praveen Kumar Myakala, Manan Agrawal, Rahul Manche

cs.CL cs.CY

本文提出了一个名为BeliefShift的基准测试, 用于评估LLM智能体在多轮对话中的信念动态, 包括时间一致性, 矛盾检测和基于证据的修正. 研究测试了多个主流模型, 揭示了模型在个性化与事实一致性之间的权衡, 并引入了四个新的评估指标.

Self-Distillation for Multi-Token Prediction

Guoliang Zhao et al.

cs.CL cs.AI cs.LG

本文提出了一种用于提升多令牌预测(Multi-Token Prediction, MTP)效率的自蒸馏(self-distillation)方法MTP-D及其循环扩展策略. 该方法旨在提高MTP头的接受率并加速大型语言模型(Large Language Models, LLMs)的推理过程, 在多个基准测试上验证了其有效性.

Dialogue to Question Generation for Evidence-based Medical Guideline Agent Development

Zongliang Ji et al.

cs.CL cs.LG

本文探讨了使用大型语言模型(LLM)作为辅助工具，在医患对话中自动生成基于循证医学指南的问题。研究评估了两种提示策略在真实临床对话记录上的表现，结果表明LLM生成的指南相关问题具有临床意义，展现了减轻医生认知负担的潜力。

OmniACBench: A Benchmark for Evaluating Context-Grounded Acoustic Control in Omni-Modal Models

Seunghee Kim et al.

cs.CL

本文提出了OmniACBench, 一个用于评估全模态模型中基于上下文的声学控制能力的基准测试. 该基准包含多种声学特征, 实验揭示了现有模型在整合多模态上下文以生成忠实语音方面的主要瓶颈.

Argument Mining as a Text-to-Text Generation Task

Masayuki Kawarada et al.

cs.CL

本文提出了一种基于预训练编码器-解码器语言模型的文本到文本生成方法，用于Argument Mining任务。该方法将多个子任务统一为生成任务，简化了模型结构并在多个基准数据集上取得了先进性能。

From AI Assistant to AI Scientist: Autonomous Discovery of LLM-RL Algorithms with LLM Agents

Sirui Xia et al.

cs.CL

本文提出了一个名为POISE的闭环框架, 用于自动化地发现针对语言模型的策略优化算法. 该框架通过结构化的档案管理候选算法, 并在数学推理任务上进行了实验验证.

The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More

Lingjiao Chen et al.

cs.CL cs.AI cs.GT cs.LG cs.MA

本文研究了推理语言模型(RLMs)的API标价与实际推理成本之间的差异, 发现了"价格反转"现象. 研究表明, 由于"思考token"消耗的巨大异质性和不稳定性, 标价并不能可靠地反映实际使用成本.

Grounding Arabic LLMs in the Doha Historical Dictionary: Retrieval-Augmented Understanding of Quran and Hadith

Somaya Eltanbouly, Samer Rashwani

cs.CL cs.IR

本文针对阿拉伯语大语言模型(LLM)在理解《古兰经》和圣训等复杂历史宗教文本时的困难，提出了一个基于检索增强生成(RAG)的框架。该框架创新性地利用多哈阿拉伯语历史词典(DHDA)这一历时词典知识库进行证据检索，并结合混合检索与基于意图的路由机制，显著提升了相关阿拉伯语原生LLM的答案准确性。

CoCR-RAG: Enhancing Retrieval-Augmented Generation in Web Q&A via Concept-oriented Context Reconstruction

Kaize Shi et al.

cs.CL

本文提出了一种名为CoCR-RAG的框架，旨在解决RAG系统中融合多源异构文档的挑战。该方法通过基于Abstract Meaning Representation的概念蒸馏与重构，生成统一且知识密集的上下文，并在Web Q&A基准测试中展现了优于现有方法的性能。

Sparse Growing Transformer: Training-Time Sparse Depth Allocation via Progressive Attention Looping

Yao Chen et al.

cs.CL

本文提出了一种在训练过程中动态分配Transformer模型深度的新框架, 通过渐进式地在信息丰富的attention heads上应用循环来扩展计算深度, 从而在训练FLOPs开销极低的情况下提升模型性能.

Thinking with Tables: Enhancing Multi-Modal Tabular Understanding via Neuro-Symbolic Reasoning

Kun-Yang Yu et al.

cs.CL

本文提出了一种名为"Thinking with Tables (TWT)"的神经符号推理方法，用于增强多模态表格理解。该方法通过程序辅助的代码交互来处理表格的结构可变性和特征依赖性问题，在多个数据集上取得了优于现有基准模型的效果。

CVPD at QIAS 2026: RAG-Guided LLM Reasoning for Al-Mawarith Share Computation and Heir Allocation

Wassim Swaileh et al.

cs.CL

本文提出了一种基于检索增强生成(RAG)的管道, 用于伊斯兰继承法(Ilm al-Mawarith)中的份额计算与继承人分配任务. 该方法结合了基于规则的合成数据生成, 混合检索与模式约束的输出验证, 在官方评测中取得了领先的性能.

Schema on the Inside: A Two-Phase Fine-Tuning Method for High-Efficiency Text-to-SQL at Scale

Chinmay Soni et al.

cs.CL cs.AI

本文提出了一种用于大规模文本到SQL任务的高效两阶段微调方法. 该方法通过让模型内化数据库schema, 显著减少了输入token数量, 从而降低了API调用成本和延迟.

From Oracle to Noisy Context: Mitigating Contextual Exposure Bias in Speech-LLMs

Xiaoyong Guo et al.

cs.CL cs.AI

本文针对Speech-LLMs在上下文自动语音识别(ASR)中存在的训练与推理上下文不匹配问题(即contextual exposure bias), 提出了一种统一的训练框架. 该框架通过引入Teacher Error Knowledge, Context Dropout和Direct Preference Optimization (DPO)等方法, 提升了模型在真实(含噪声)历史上下文下的鲁棒性, 并在多个数据集上验证了其有效性.

FinToolSyn: A forward synthesis Framework for Financial Tool-Use Dialogue Data with Dynamic Tool Retrieval

Caishuang Huang et al.

cs.CL

本文提出了一个名为FinToolSyn的金融工具使用对话数据前向合成框架, 通过从人物指令、原子工具合成到动态检索对话生成的流程, 构建了大规模工具库并合成了对话实例. 该工作旨在生成更贴合现实金融场景中隐含、事件驱动需求的对话数据, 并建立了专门的评测基准.

ConceptKT: A Benchmark for Concept-Level Deficiency Prediction in Knowledge Tracing

Yu-Chen Kang, Yu-Chien Tang, An-Zi Yen

cs.CL

本文提出了ConceptKT, 一个用于知识追踪中概念级缺陷预测的基准数据集和任务. 该工作探索了基于上下文学习的方法, 并评估了不同大模型在诊断学生概念理解缺失方面的能力.

LLMpedia: A Transparent Framework to Materialize an LLM's Encyclopedic Knowledge at Scale

Muhammed Saeed, Simon Razniewski

cs.CL cs.DB

本文提出了一个名为LLMpedia的透明框架，用于大规模地从大型语言模型(Large Language Model, LLM)的参数化记忆中生成百科全书式的文章。研究发现，尽管在标准基准测试(如MMLU)中模型表现优异，但其在生成可验证事实内容时的准确率显著较低，揭示了固定问题评估的局限性。该框架公开了所有提示、生成物和评估结果，旨在弥合事实性评估与知识具体化之间的差距。

Alignment Reduces Expressed but Not Encoded Gender Bias: A Unified Framework and Study

Nour Bouchouchi et al.

cs.CL

本文提出了一个统一框架, 用于联合分析LLMs中的内在(编码)和外在(表达)性别偏见. 研究发现, 对齐训练减少了表达出的偏见, 但模型内部表征中仍存在可测量的性别关联, 且在对抗性提示下可被重新激活. 此外, 在结构化基准测试上观察到的去偏见效果不一定能推广到更现实的场景.

MedAidDialog: A Multilingual Multi-Turn Medical Dialogue Dataset for Accessible Healthcare

Shubham Kumar Nigam, Suparnojit Sarkar, Piyush Patel

cs.CL cs.AI cs.LG

本文提出了一个多语言多轮医疗对话数据集MedAidDialog，并基于此训练了一个轻量级对话模型MedAidLM。该模型能够利用患者背景信息进行个性化症状询问和诊断建议生成。

A visual observation on the geometry of UMAP projections of the difference vectors of antonym and synonym word pair embeddings

Rami Luisto

cs.CL cs.LG

本文通过可视化方法探索了词嵌入向量差在UMAP投影下的几何结构, 对比了反义词对和同义词对. 作者报告了在不同嵌入模型中观察到一个特定的"漩涡"模式.

Variation is the Norm: Embracing Sociolinguistics in NLP

Anne-Marie Lutgen et al.

cs.CL

本文提出了一个结合社会语言学与自然语言处理(NLP)的框架, 主张将语言变异视为语言的内在特征而非噪声. 通过一个关于卢森堡语的案例研究, 展示了拼写变异对NLP模型性能的影响, 并提出了在微调过程中纳入变异以提升模型鲁棒性的解决方案.

Stance Labels Fail When They Matter Most: The Projection Problem in Stance Detection

Bowen Zhang

cs.CL cs.SI

本文指出了stance detection任务中存在的"projection problem". 当文本对复杂目标的态度是多维且冲突时, 强制将其压缩为单一标签会导致标注者间的不一致. 一项在SemEval-2016数据上的初步研究证实了这一点.

Optimizing Multilingual LLMs via Federated Learning: A Study of Client Language Composition

Aleix Sant, Jordi Luque, Carlos Escolano

cs.CL

本文在FederatedScope-LLM框架上扩展了多语言指令微调实验, 并提出了基于客户端验证性能的Local Dynamic Early Stopping机制. 通过实验研究了客户端语言构成对多语言质量、公平性和训练成本的影响, 发现客户端内多语言性的增加有助于提升全局模型的性能与公平性.

Semantic Centroids and Hierarchical Density-Based Clustering for Cross-Document Software Coreference Resolution

Julia Matela, Frank Krüger

cs.CL

本文描述了一个用于跨文档软件指代消解的混合系统。该系统结合了预训练语义嵌入、基于知识库的查找和密度聚类方法，并在共享任务中取得了较高的F1分数。

Semantic Alignment across Ancient Egyptian Language Stages via Normalization-Aware Multitask Learning

He Huang

cs.CL

本文提出了一种用于古埃及语四个历史阶段间词语语义对齐的归一化感知多任务学习方法. 该方法结合了多种任务与辅助视图, 在资源稀缺的条件下为历史语言建模提供了可复现的基线.

Samasāmayik: A Parallel Dataset for Hindi-Sanskrit Machine Translation

N J Karthika et al.

cs.CL

本文发布了一个名为Samasāmayik的大规模印地语-梵语平行语料库，包含超过9万句对，其内容来源多样，覆盖了当代材料。作者通过微调多个模型验证了该数据集的效用，并表明其在领域内测试集上能带来显著的性能提升。

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

Yunzhe Wang et al.

cs.CL cs.AI cs.CV

本文提出了一个名为GameplayQA的基准测试框架, 用于评估多模态大语言模型在3D虚拟环境中, 从第一人称视角理解密集决策和多视频同步内容的能力. 该框架通过标注多玩家游戏视频并生成诊断性QA对, 揭示了当前模型在时间定位, 跨视频关联和智能体角色归因等方面与人类表现存在显著差距.

Improving Lean4 Autoformalization via Cycle Consistency Fine-tuning

Arsen Shebzukhov

cs.CL

本文探讨了通过循环一致性微调来改进Lean4自动形式化的方法. 作者比较了不同的训练策略, 发现强化学习方案在保持语义一致性方面优于监督微调.

Towards Reward Modeling for AI Tutors in Math Mistake Remediation

Kseniia Petukhova, Ekaterina Kochmar

cs.CL

本文针对AI数学辅导中的错误纠正任务, 提出了一种基于合成对比数据训练奖励模型的方法. 该方法通过构建包含关键教学维度(如错误识别, 针对性, 支架式引导等)的最小对比响应对, 并利用Bradley-Terry模型学习人类偏好, 在评估中取得了优于通用大模型的性能.

When AI Meets Early Childhood Education: Large Language Models as Assessment Teammates in Chinese Preschools

Xingming Li et al.

cs.CL cs.AI cs.CY

本文探讨了将大型语言模型(LLM)作为评估伙伴应用于中国学前教育场景的可行性. 研究构建了一个大规模的自然师幼互动数据集, 并开发了一个专门的LLM框架来提取结构化的质量指标, 验证了其与人类专家评估的一致性, 展示了AI辅助评估在提升效率方面的潜力.

PINGALA: Prosody-Aware Decoding for Sanskrit Poetry Generation

Manoj Balaji Jagadeeshan et al.

cs.CL

本文提出了一种用于梵文诗歌生成的韵律感知解码方法PINGALA. 该方法通过将诗句视为分组行而非单一序列, 并采用偏好长token的token选择策略, 提升了生成诗句的语义连贯性. 同时, 使用音素感知的音译方案SLP1显著提高了韵律对齐度.

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

Jeonghye Kim et al.

cs.CL cs.LG

本文探讨了 self-distillation 对大型语言模型推理能力的影响。研究发现，在数学推理任务中，该技术可能通过抑制模型在推理过程中表达不确定性的能力，导致性能下降。

Representation Learning to Study Temporal Dynamics in Tutorial Scaffolding

Conrad Borchers, Jiayi Zhang, Ashish Gurung

cs.CL cs.CY

本文提出了一种基于embedding的方法来研究tutoring dialogue中的scaffolding dynamics. 该方法通过计算tutor和student贡献与任务内容之间的cosine similarity来量化语义对齐, 并应用于一个真实的数学辅导对话数据集. 分析揭示了任务对齐的系统性差异和特定的时间模式, 并且语义对齐能够预测辅导进程.

Robust Multilingual Text-to-Pictogram Mapping for Scalable Reading Rehabilitation

Soufiane Jhilal, Martina Galletti

cs.CL cs.HC

本文开发了一个多语言的AI界面, 用于自动为文本添加视觉支架(pictogram), 以辅助有特殊教育需求的儿童进行阅读康复. 该系统在五种语言上进行了评估, 结果显示其具有较高的覆盖率和语义适当性, 延迟也在可交互范围内.

A Sociolinguistic Analysis of Automatic Speech Recognition Bias in Newcastle English

Dana Serditova, Kevin Tang

cs.CL cs.AI cs.CV cs.SD

本文通过对Newcastle English的自动语音识别(ASR)系统进行社会语言学分析，揭示了其在方言变体上的性能偏差。研究发现，语音、词汇及语法层面的方言特征是导致错误的主要原因，且错误率在不同社会群体中存在差异。

MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination

Zhuo Li et al.

cs.CL

本文提出了一个名为MARCH的多智能体强化学习框架, 用于缓解大型语言模型在检索增强生成中的幻觉问题. 该框架通过设计信息不对称的验证流程来打破自我确认偏差, 实验表明其能有效降低幻觉率.

Retrieval Improvements Do Not Guarantee Better Answers: A Study of RAG for AI Policy QA

Saahil Mathur et al.

cs.CL cs.AI cs.CY cs.IR cs.LG

本文研究了在AI政策分析领域应用检索增强生成(RAG)系统的效果. 研究发现, 针对特定领域微调检索器虽然能提升检索指标, 但未必能改善端到端的问答性能, 有时甚至会导致模型在缺乏相关文档时产生更自信的幻觉.

cs.DS

Optimal Unlabeled Pebble Motion on Trees and its Application to Multi-Agent Path Finding

Annalisa Calvi et al.

cs.DS

本文针对 Unlabeled Pebble Motion on Trees (UPMT) 问题, 提出了首个运行时间与输入(树)和输出(最优移动方案)规模呈线性关系的最优算法. 该算法被进一步扩展用于解决树结构上的无标记多智能体路径规划(MAPF)问题, 并给出了关于最优完工时间, 总成本和移动方案长度的新界限.

Smooth Routing in Decaying Trees

Till Fluschnik, Amela Pucic, Malte Renken

cs.DS cs.MA

本文研究了在连接随时间失效的图中平滑调度路径的问题, 特别是当底层图为树(如星形或路径)时的计算复杂性. 证明了即使对容量或连接失效时间有进一步限制, 该问题也是NP难的, 并提出了一个整数线性规划(ILP)来计算最晚疏散时间.

Computing the Skyscraper Invariant

Marc Fersztand, Jan Jendrysiak

cs.DS math.AG math.AT math.RT

本文提出了首个计算Skyscraper Invariant的算法, 该不变量是多参数持久性模上经典秩不变量的一个滤过. 通过利用Harder-Narasimhan滤过的可加性及特殊中心荷, 作者设计了一个FPT $\varepsilon$-近似算法, 并分析了其复杂度. 对于2-参数模, 作者还实现了算法并与Cheng的算法进行了比较.

Distributionally Robust $k$-of-$n$ Sequential Testing

Rayen Tan, Viswanath Nagarajan

cs.DS

本文研究了$k$-of-$n$顺序测试问题的分布鲁棒版本, 其中每个测试的失败概率未知但属于一个给定区间. 作者针对非自适应策略, 在单位测试成本下给出了一个2-近似算法, 并在一般成本下对$\epsilon$-有界实例给出了近似保证.

Improved Local Computation Algorithms for Greedy Set Cover via Retroactive Updates

Slobodan Mitrović et al.

cs.DS

本文改进了求解 set cover 问题的 Local Computation Algorithm (LCA). 通过引入 retroactive updates 技术, 新算法将查询复杂度从 $\Delta^{O(\log \Delta)} \cdot f^{O(\log \Delta \cdot (\log \log \Delta + \log \log f))}$ 降低到了 $f^{O(\log \Delta)}$, 在 $f = \text{poly} \log \Delta$ 时实现了从 $\Delta^{O(\log \Delta)}$ 到 $\Delta^{O(\log \log \Delta)}$ 的提升.

Approximation Schemes and Structural Barriers for the Two-Dimensional Knapsack Problem with Rotations

Debajyoti Kar, Arindam Khan, Andreas Wiese

cs.DS cs.CG

本文研究了允许旋转的二维几何背包问题(2DKR). 作者为基数情况设计了首个PTAS, 并针对加权情况改进了近似比, 同时证明了算法的时间下界.

Complexity of basic boolean operators for digital circuit design

Igor S. Sergeev

cs.DS

本文综述了数字电路设计中基本布尔变换的电路复杂度界限, 以及合成此类电路的有效方法. 讨论集中于计数器、加法器、编码器和多路复用器等结构简单的函数和算子, 并排除了涉及数字、多项式和矩阵的更复杂代数运算.

Near Linear Time Approximation Schemes for Clustering of Partially Doubling Metrics

Anne Driemel et al.

cs.DS

本文研究了在部分集合具有有界 doubling dimension 的度量空间中的 $k$-median 问题. 针对 $X$ 或 $Y$ 之一具有有界 doubling dimension 的情况, 作者提出了近似方案, 其运行时间接近线性.

A faster polynomial-space algorithm for Hamiltonian cycle parameterized by treedepth

Stefan Kratsch

cs.DS

本文提出了一种针对给定消去森林深度$\tau$的图, 在多项式空间内以$4^\tau n^{O(1)}$随机时间求解Hamiltonian Cycle等问题的算法. 该方法通过使用有序的"一致匹配"对, 改进了先前基于辅助图中完美匹配的算法的时间复杂度.

Fault-Tolerant Distance Oracles Below the $n \cdot f$ Barrier

Sanjeev Khanna, Christian Konrad, Aaron Putterman

cs.DS

本文研究了容错距离预言机(fault-tolerant distance oracles)的数据结构问题. 通过引入新的高度数低直径分解(high-degree, low-diameter decomposition)并结合稀疏恢复(sparse recovery)技术, 构造了空间复杂度低于$n \cdot f$边界的距离预言机, 突破了确定性容错生成子图(fault-tolerant spanners)的已知下界.

Coordinating Spot and Contract Supply in Freight Marketplaces

Philip Kaminsky, Rachitesh Kumar, Roger Lederman

cs.DS math.OC

本文研究了货运市场中长期合同供应与短期现货供应的协调问题, 旨在最小化总采购成本. 作者提出了一种Dual Frank Wolfe算法来计算影子价格, 使得现货定价策略能够考虑已承诺的合同运力, 并在大规模市场条件下证明了该算法相对于最优动态规划基准具有较小的相对遗憾.

others

Large Language Models and Scientific Discourse: Where's the Intelligence?

Harry Collins, Simon Thorne

physics.soc-ph cs.AI

本文通过比较大型语言模型(LLM)与人类构建知识的方式，探讨了LLM在科学话语中的局限性。文章指出，LLM的理解依赖于书面文献，而无法获取科学知识早期形成所依赖的专家群体内的默会知识和社会话语，因此其“智能”本质上源于人类而非模型本身。

DeepOFW: Deep Learning-Driven OFDM-Flexible Waveform Modulation for Peak-to-Average Power Ratio Reduction

Ran Greidi, Kobi Cohen

cs.IT cs.LG eess.SP

本文提出了一种名为DeepOFW的深度学习驱动OFDM-flexible波形调制框架, 旨在降低OFDM系统的PAPR. 该框架通过端到端优化, 在保持传统收发器硬件结构的同时, 实现了PAPR的显著降低和BER性能的提升.

PDGMM-VAE: A Variational Autoencoder with Adaptive Per-Dimension Gaussian Mixture Model Priors for Nonlinear ICA

Yuan-Hao Wei, Yan-Jie Sun

stat.ML cs.LG

本文提出了一种名为PDGMM-VAE的变分自编码器，它为非线性独立成分分析问题引入了一种新的先验建模方法。该模型为每个潜在维度分配了自适应的GMM先验，并通过端到端训练学习这些先验参数，在混合信号分离任务中取得了良好效果。

CAPTCHA Solving for Native GUI Agents: Automated Reasoning-Action Data Generation and Self-Corrective Training

Yuxi Chen et al.

cs.CR cs.AI cs.CV

本文提出了一种能解决CAPTCHA挑战的原生GUI智能体ReCAP, 它通过自动化的数据生成和自校正训练方法, 在保持通用GUI任务性能的同时, 显著提升了解决复杂交互式CAPTCHA的成功率.

Labeled Compression Schemes for Concept Classes of Finite Functions

Benchong Li

cs.IT cs.LG

本文针对有限函数的概念类, 提出了一个大小为VC维度$d$的标记样本压缩方案. 这为样本压缩猜想提供了一个具体案例的解答.

Wafer-Level Etch Spatial Profiling for Process Monitoring from Time-Series with Time-LLM

Hyunwoo Kim et al.

stat.AP cs.AI cs.LG

本文提出了一种基于Time-LLM的空间回归模型，用于直接从多通道原位工艺时间序列预测晶圆级的蚀刻深度分布。该方法将LLM reprogramming从传统时间序列预测扩展到空间估计，并在数据有限条件下展示了稳定的性能。

The Mass Agreement Score: A Point-centric Measure of Cluster Size Consistency

Randolph Wiredu-Aidoo

stat.ML cs.LG

本文提出了一种名为Mass Agreement Score (MAS)的点中心度量, 用于评估聚类结果中簇大小的一致性. 该度量旨在解决基于标签的度量对标签数量扰动不稳定的问题, 通过从每个簇内点的视角来衡量期望的簇大小, 从而对具有相似整体结构的划分给出相近的分数.

ZeroFold: Protein-RNA Binding Affinity Predictions from Pre-Structural Embeddings

Josef Hanke et al.

q-bio.BM cs.LG

本文提出了一种名为ZeroFold的模型, 它利用来自生物分子基础模型Boltz-2的pre-structural embeddings来预测蛋白质-RNA结合亲和力. 该方法避免了依赖单一预测结构, 并通过cross-modal attention机制整合序列信息, 在构建的数据集PRADB上取得了有竞争力的预测性能.

LLMORPH: Automated Metamorphic Testing of Large Language Models

Steven Cho, Stefano Ruberto, Valerio Terragni

cs.SE cs.AI cs.CL cs.LG

本文介绍了LLMORPH, 一个基于Metamorphic Testing (MT) 的自动化测试工具, 用于检测执行NLP任务的大型语言模型(LLMs)中的不一致行为. 该工具通过定义Metamorphic Relations (MRs) 来生成衍生测试输入, 无需人工标注数据即可评估模型的鲁棒性.

LLMLOOP: Improving LLM-Generated Code and Tests through Automated Iterative Feedback Loops

Ravin Ravi et al.

cs.SE cs.AI

本文提出了一个名为LLMLOOP的自动化框架, 用于迭代改进由大型语言模型(LLM)生成的源代码和测试用例. 该框架通过多个循环处理编译错误, 静态分析问题, 测试失败等, 并在HumanEval-X基准测试上验证了其有效性.

Ukrainian Visual Word Sense Disambiguation Benchmark

Yurii Laba et al.

cs.CV cs.AI

本文为乌克兰语构建了一个Visual Word Sense Disambiguation (Visual-WSD) 评测基准, 用于评估模型在给定模糊词汇和十个图像中选择最合适图像的能力. 作者测试了多个多语言多模态大模型, 发现它们在乌克兰语任务上的表现均不及一个基于CLIP的零样本基线模型, 且与英语任务存在显著性能差距.

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Pranay Tummalapalli et al.

cs.DC cs.LG

本文在多种边缘计算硬件平台上对量化后的大语言模型Qwen 2.5 1.5B进行了持续负载下的推理性能基准测试。结果表明，移动设备的性能主要受限于热管理策略，而专用硬件则受制于功耗或内存带宽。

λSplit: Self-Supervised Content-Aware Spectral Unmixing for Fluorescence Microscopy

Federico Carrara et al.

cs.CV cs.AI cs.LG

本文提出了一种名为λSplit的物理信息深度生成模型, 用于荧光显微镜中的光谱解混问题. 该方法通过分层变分自编码器学习浓度图的条件分布, 并结合可微分的Spectral Mixer来保证与图像形成过程的一致性, 在多个真实数据集上展现了先进的性能.

Echoes: A semantically-aligned music deepfake detection dataset

Octavian Pascu et al.

cs.SD cs.AI eess.AS

本文介绍了一个用于音乐深度伪造检测的新数据集Echoes, 该数据集在语义层面对齐了伪造音频与真实参考音频, 旨在防止捷径学习并促进检测器的鲁棒泛化. 实验表明, 在该数据集上训练的检测器表现出最强的泛化性能.

Energy Efficient Software Hardware CoDesign for Machine Learning: From TinyML to Large Language Models

Mohammad Saleh Vahdatpour, Yanqing Zhang

cs.AR cs.LG

本文综述了从TinyML到大型语言模型(LLM)的机器学习系统能效软硬件协同设计方法. 文章涵盖了从加速器架构到系统级技术的各类优化策略, 并指出了当前研究存在的普遍差距与挑战.

Estimating Individual Tree Height and Species from UAV Imagery

Jannik Endres et al.

cs.CV cs.AI cs.LG

本文提出了一个用于从无人机图像估计单棵树高度和物种的基准数据集BIRCH-Trees, 并介绍了一种基于Vision Foundation Model的统一方法DINOvTree. 该方法在参数效率上优于其他视觉方法, 实现了准确的高度预测和具有竞争力的物种分类精度.

Prototype Fusion: A Training-Free Multi-Layer Approach to OOD Detection

Shreen Gul et al.

cs.CV cs.AI

本文提出了一种无需训练、模型无关的OOD检测方法, 通过聚合多个中间层的特征来构建紧凑的ID原型. 该方法在多个基准测试中展现了稳健的性能, 挑战了仅使用倒数第二层特征的现有范式.

Learning What Can Be Picked: Active Reachability Estimation for Efficient Robotic Fruit Harvesting

Nur Afsa Syeda et al.

cs.RO cs.AI

本文提出了一种结合RGB-D感知与主动学习的方法, 用于直接学习机器人采摘水果时的可达性判定问题. 该方法通过选择性标注信息量最大的样本, 显著减少了标注工作量, 并在实验中实现了比随机采样更高的预测准确率.

Assessment Design in the AI Era: A Method for Identifying Items Functioning Differentially for Humans and Chatbots

Licol Zeinfeld et al.

cs.HC cs.AI

本文提出了一种基于Differential Item Functioning (DIF)分析的统计方法，用于识别人类与大型语言模型(LLM)在评估题目上表现的系统性差异。该方法结合了教育数据挖掘和心理测量学理论，旨在为AI时代设计更有效、公平的评估工具提供依据。

The Economics of Builder Saturation in Digital Markets

Armin Catovic

econ.TH cs.CY cs.GT cs.LG econ.GN

本文通过引入Builder Saturation Effect模型，分析了在边际成本趋近于零且自由进入的数字市场中，生产者数量增加对平均注意力和回报的稀释效应。研究结合质量异质性和强化动态，指出AI驱动的生产民主化更可能导致竞争加剧和赢家通吃的市场结构。

An In-Depth Study of Filter-Agnostic Vector Search on a PostgreSQL Database System: [Experiments and Analysis]

Duo Lu et al.

cs.DB cs.AI cs.IR

本文在 PostgreSQL 兼容的生产级数据库系统中，首次对 filter-agnostic 的 Filtered Vector Search (FVS) 算法进行了深入分析。研究通过系统评估 post-filtering 和 inline-filtering 策略，揭示了在真实数据库环境中，系统级开销（如页面访问和数据检索）对算法性能的关键影响，并指出基于图的索引方法可能因大量过滤检查而抵消其理论优势。

Dual-Gated Epistemic Time-Dilation: Autonomous Compute Modulation in Asynchronous MARL

Igor Jankowski

cs.MA cs.LG

本文提出了一种名为ETD-MAPPO的异步多智能体强化学习方法，通过双门控机制让智能体自主调节计算频率。该方法在多个测试环境中有效降低了计算开销，同时保持了任务性能。

Autoregressive Guidance of Deep Spatially Selective Filters using Bayesian Tracking for Efficient Extraction of Moving Speakers

Jakob Kienegger, Timo Gerkmann

eess.AS cs.LG cs.SD

本文提出了一种基于Bayesian tracking的自回归引导方法, 用于在动态场景中高效提取移动说话人. 该方法利用增强后的语音信号改进轻量级跟踪算法, 并与深度空间滤波器协同工作, 在计算开销几乎不增加的情况下提升了语音增强性能.

Wasserstein Parallel Transport for Predicting the Dynamics of Statistical Systems

Tristan Luca Saidi et al.

stat.ML cs.LG math.PR math.ST

本文提出了一种基于Wasserstein几何的“平行趋势”概念，用于比较和预测概率分布的动态演化。该方法通过最优传输测地线上的平行移动来替代向量空间中的减法，为因果推断等领域提供了分布层面的反事实分析工具。

AI-driven Intent-Based Networking Approach for Self-configuration of Next Generation Networks

Md. Kamrul Hossain, Walid Aljoby

cs.NI cs.AI

本文提出了一种端到端的闭环IBN（Intent-Based Networking）架构，利用大语言模型进行自然语言到策略的转换与验证，并将网络保障重新定义为主动的多意图故障预测与根因分析。该方法旨在提升下一代网络自配置的自动化可靠性与可操作性。

Human-in-the-Loop Pareto Optimization: Trade-off Characterization for Assist-as-Needed Training and Performance Evaluation

Harun Tolasa, Volkan Patoglu

cs.RO cs.AI eess.SY

本文提出了一种人机交互的Pareto优化方法, 用于刻画运动技能训练中任务难度与用户表现之间的权衡. 该方法结合了定量性能指标和定性感知挑战度指标, 并通过用户研究验证了其可行性, 展示了在辅助训练协议设计和个性化评估等方面的应用.

Retinal Disease Classification from Fundus Images using CNN Transfer Learning

Ali Akram

cs.CV cs.LG

本文应用基于预训练VGG16的transfer learning方法进行视网膜疾病的二分类, 在测试集上取得了90.8%的准确率, 显著优于基准CNN模型. 文章还讨论了类别不平衡、数据集特性等实际应用中的挑战.

Digital Twin-Assisted Measurement Design and Channel Statistics Prediction

Robin J. Williams, Mahmoud Saad Abouamer, Petar Popovski

cs.IT cs.LG

本文提出了一种结合未校准数字孪生(Digital Twin)与高斯过程(Gaussian Process, GP)的混合信道预测框架. 该框架利用几何结构先验和少量测量数据, 实现了对无线信道统计特性的高效预测.

The Cognitive Firewall:Securing Browser Based AI Agents Against Indirect Prompt Injection Via Hybrid Edge Cloud Defense

Qianlong Lan, Anuj Kaul

cs.CR cs.AI

本文提出了一种名为"Cognitive Firewall"的混合边缘-云防御架构，用于保护基于浏览器的AI智能体免受间接提示注入攻击。该架构通过在本地进行初步过滤并结合云端的深度语义分析，显著降低了攻击成功率并减少了延迟。

Sparse Autoencoders for Interpretable Medical Image Representation Learning

Philipp Wesp et al.

cs.CV cs.LG

本文研究了Sparse Autoencoders (SAEs) 在医学图像表示学习中的应用, 旨在将不透明的预训练模型嵌入转换为可解释的稀疏特征. 实验表明, 该方法能以极高的压缩率保持下游任务性能, 并通过LLM实现了特征的自动语言解释.

Object Search in Partially-Known Environments via LLM-informed Model-based Planning and Prompt Selection

Abhishek Paudel et al.

cs.RO cs.AI cs.LG

本文提出了一种用于部分已知环境中物体搜索的LLM-informed model-based planning框架和一种新的prompt selection方法. 该方法利用LLM估计场景中不同位置找到目标物体的可能性统计量, 结合从环境地图中提取的移动成本来实例化一个模型, 从而指导规划以实现有效的搜索性能. 此外, 该方法所依赖的抽象概念适用于通过离线回放方法进行部署时模型选择, 作者利用这一见解实现了在部署期间快速选择prompt和LLM. 仿真和真实机器人实验验证了该方法的有效性.

Willful Disobedience: Automatically Detecting Failures in Agentic Traces

Reshabh K Sharma, Shraddha Barke, Benjamin Zorn

cs.SE cs.AI

本文提出了一个名为AgentPex的AI驱动工具，用于自动检测AI agent执行轨迹中的程序性失败。该工具从提示和系统指令中提取行为规则，并据此评估轨迹的合规性，在多个领域的基准测试中展示了其区分agent行为和发现违规的能力。

How Vulnerable Are Edge LLMs?

Ao Ding et al.

cs.CR cs.CL cs.LG

本文研究了量化部署在边缘设备上的大语言模型(LLM)在查询式知识提取攻击下的脆弱性. 作者提出了CLIQ框架来构造查询, 实验表明量化并不能有效防止此类攻击.

Beyond Consistency: Inference for the Relative risk functional in Deep Nonparametric Cox Models

Sattwik Ghosal, Xuran Meng, Yi Li

stat.ML cs.LG math.ST

本文研究了深度非参数Cox模型中相对风险函数估计的推断问题。作者建立了深度Cox估计量的渐近分布理论，并提出了基于子采样集成的方法进行有效的Wald型推断。

Generative AI User Experience: Developing Human--AI Epistemic Partnership

Xiaoming Zhai

cs.CY cs.AI cs.HC

本文提出了Human--AI Epistemic Partnership Theory (HAEPT)来解释生成式AI的用户体验, 将其视为一种涉及认知、代理和责任三个契约动态协商的伙伴关系. 该理论框架被用于分析AI辅助协作学习等场景中的用户体验.

AgentChemist: A Multi-Agent Experimental Robotic Platform Integrating Chemical Perception and Precise Control

Xiangyi Wei et al.

cs.RO cs.AI

本文介绍了一个名为AgentChemist的多智能体机器人平台, 旨在解决化学实验室自动化中因任务长尾分布而导致的适应性问题. 该平台通过集成化学感知与精确控制, 实现了对实验过程的实时监控与反馈驱动的自适应执行.

Praxium: Diagnosing Cloud Anomalies with AI-based Telemetry and Dependency Analysis

Rohan Kumar et al.

cs.SE cs.LG

本文提出了一个名为Praxium的框架, 用于云微服务架构中的异常检测和根因推断. 该框架结合了基于AI的遥测数据监控和依赖分析, 旨在帮助管理员快速定位由软件安装或配置变更引起的性能异常.

SM-Net: Learning a Continuous Spectral Manifold from Multiple Stellar Libraries

Omar Anwar et al.

astro-ph.IM cs.AI

本文提出了一种名为SM-Net的机器学习模型，用于从多个高分辨率恒星光谱库中学习一个连续的光谱流形。该模型能够根据恒星的基本参数直接生成光谱，并在一个覆盖范围更广的复合数据集上进行了训练，实现了对异质库边界的光滑插值。

Knowledge-Refined Dual Context-Aware Network for Partially Relevant Video Retrieval

Junkai Yang et al.

cs.CV cs.AI

本文提出了一种名为KDC-Net的网络，用于解决视频检索中文本与视频片段信息密度不匹配的问题。该方法通过文本侧和视觉侧的模块来增强语义理解与关键事件定位，并在基准测试中取得了优于现有方法的结果。

Latent Bias Alignment for High-Fidelity Diffusion Inversion in Real-World Image Reconstruction and Manipulation

Weiming Chen et al.

cs.CV cs.AI

本文提出了一种名为Latent Bias Optimization (LBO)和Image Latent Boosting (ILB)的方法, 旨在解决扩散模型在真实图像重建和编辑任务中的inversion (反演) 问题. 该方法通过学习一个latent bias vector来对齐反演与生成轨迹, 并通过优化图像latent representation来弥合扩散模型与VQ autoencoder之间的gap, 从而提升了重建质量和下游任务性能.

Attention-aware Inference Optimizations for Large Vision-Language Models with Memory-efficient Decoding

Fatih Ilhan et al.

cs.CV cs.LG

本文提出了一种名为AttentionPack的自适应注意力感知优化框架, 旨在提升大型视觉语言模型(VLM)在解码阶段的内存效率. 该方法通过多头注意力压缩和令牌感知解压缩机制, 在多个基准测试中实现了高达8倍的内存效率提升, 同时保持了模型输出质量.

DecepGPT: Schema-Driven Deception Detection with Multicultural Datasets and Robust Multimodal Learning

Jiajian Huang et al.

cs.CV cs.AI

本文提出了一种用于多模态欺骗检测的框架, 通过构建包含结构化线索描述和推理链的数据集, 以及引入新的多文化数据集T4-Deception, 来增强模型的可解释性和泛化能力. 该方法还设计了SICS和DMC模块来提升小数据条件下的鲁棒性学习, 并在多个基准测试中取得了先进的性能.

ORACLE: Orchestrate NPC Daily Activities using Contrastive Learning with Transformer-CVAE

Seong-Eun Hong et al.

cs.GR cs.CL cs.CV cs.LG

本文提出了一种名为ORACLE的生成模型，用于合成非玩家角色（NPC）的室内日常活动计划。该模型结合了Transformer、条件变分自编码器（CVAE）和对比学习，旨在生成更真实、多样化的活动序列，以增强数字环境的沉浸感。

Revealing Multi-View Hallucination in Large Vision-Language Models

Wooje Park et al.

cs.CV cs.AI

本文针对大型视觉语言模型在处理多视角图像时出现的"多视角幻觉"问题进行了研究. 作者构建了MVH-Bench基准, 并提出了一种无需训练的推理时解码方法RSCD来缓解该问题.

High-Fidelity Face Content Recovery via Tamper-Resilient Versatile Watermarking

Peipeng Yu et al.

cs.CV cs.AI

本文提出了一种名为VeriFi的鲁棒水印框架, 用于人脸图像的版权保护, 篡改定位和内容恢复. 该方法通过嵌入紧凑的语义潜在水印, 并结合AIGC攻击模拟器进行训练, 在基准数据集上展示了优于基线方法的性能.

ChargeFlow: Flow-Matching Refinement of Charge-Conditioned Electron Densities

Tri Minh Nguyen et al.

cond-mat.mtrl-sci cs.LG

本文提出了一种名为ChargeFlow的flow-matching模型，用于精修电荷条件下的电子密度。该模型使用3D U-Net预测速度场，将原子密度的叠加转换为DFT级别的周期性实空间网格密度。在包含多种材料体系的外部基准测试中，模型在涉及非局域电荷重分布和电荷态外推的问题上表现最佳，并能支持下游的化学分析。

Variable-Length Audio Fingerprinting

Hongjie Chen et al.

cs.SD cs.AI cs.MM

本文提出了一种支持变长音频的指纹提取方法 VLAFP, 该方法在训练和测试阶段均可处理可变长度的音频输入. 实验表明, 该方法在多个真实数据集上的实时音频识别和检索任务中优于现有技术.

Policy-Guided Threat Hunting: An LLM enabled Framework with Splunk SOC Triage

Rishikesh Sahay et al.

cs.CR cs.AI

本文提出了一种结合Agentic AI与Splunk SIEM平台的自动化威胁狩猎框架。该框架集成了基于重构的自编码器、双层深度强化学习(DRL)和大型语言模型(LLM)等多个模块，用于网络流量分析、初步分类和上下文分析。实验表明，该框架能有效识别恶意流量并辅助安全运营中心(SOC)分析师进行决策。

Machine vision with small numbers of detected photons per inference

Shi-Yuan Ma et al.

physics.optics cs.CV cs.ET cs.LG physics.data-an

本文提出了一种用于极低光条件下机器视觉的端到端优化方法, 称为光子感知神经形态感知(PANS). 该方法在训练中考虑了光子预算极低(每像素平均光子数接近或小于1)以及光探测的随机性, 并通过实验在极低光子数下实现了图像分类任务.

SafeFlow: Real-Time Text-Driven Humanoid Whole-Body Control via Physics-Guided Rectified Flow and Selective Safety Gating

Hanbyel Cho et al.

cs.RO cs.AI eess.SY

本文提出了一种结合物理引导的运动生成与多级安全门控的文本驱动人形机器人全身控制框架. 该框架旨在解决纯运动学方法在物理可行性与安全性上的不足, 并通过实验验证了其在执行成功率与推理速度上的优势.

From Untamed Black Box to Interpretable Pedagogical Orchestration: The Ensemble of Specialized LLMs Architecture for Adaptive Tutoring

Nizam Kadir

cs.CY cs.AI

本文提出了一种用于自适应教学的ES-LLMs架构，将教学决策与语言生成解耦。该架构通过基于规则的编排器和专门的智能体来确保教学约束，在可解释性和成本效率方面优于单一模型。

COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm

Zekun Qian et al.

cs.CV cs.LG

本文提出了COVTrack++框架和C-TAO数据集，以解决开放词汇多目标跟踪中的数据与框架瓶颈。该框架通过多线索融合、多粒度聚合和时序置信度传播等模块，在TAO基准测试上取得了先进的性能。

Minimal Sufficient Representations for Self-interpretable Deep Neural Networks

Zhiyao Tan, Liu Li, Huazhen Lin

stat.ME cs.LG

本文提出了一个自解释的深度神经网络框架DeepIn, 它能够自适应地识别并学习保持标准DNN表达能力所需的最小表示. 该框架在提升预测准确性的同时, 能够自动发现可解释的判别模式.

Hierarchical Spatial-Temporal Graph-Enhanced Model for Map-Matching

Anjun Gao et al.

cs.DB cs.IR cs.LG

本文提出了一种用于地图匹配的分层时空图增强模型HSTGMatch. 该模型采用两阶段学习过程, 结合分层轨迹表示和自适应轨迹邻接图来动态捕获时空关系, 并通过实验验证了其有效性.

Mitigating Object Hallucinations in LVLMs via Attention Imbalance Rectification

Han Sun et al.

cs.CV cs.AI

本文提出了一种名为Attention Imbalance Rectification (AIR)的轻量级解码时干预方法，用于缓解大型视觉语言模型(LVLMs)中的物体幻觉问题。该方法通过重新分配attention权重来纠正模态间和token间的注意力不平衡，在多个基准测试上有效降低了幻觉率。

When Understanding Becomes a Risk: Authenticity and Safety Risks in the Emerging Image Generation Paradigm

Ye Leng et al.

cs.CV cs.AI cs.CR

本文比较了multimodal large language models (MLLMs)与diffusion models在安全风险上的差异。研究发现，MLLMs因其更强的语义理解能力，更容易生成不安全内容，且其生成的虚假图像更难被现有检测器识别。

Knowledge-Guided Manipulation Using Multi-Task Reinforcement Learning

Aditya Narendra et al.

cs.RO cs.AI cs.LG

本文提出了一种结合知识图谱与多任务强化学习的机器人操作框架KG-M3PO. 该方法通过在线3D场景图整合感知与知识, 并使用图神经网络编码关系特征以辅助决策, 在部分可观测环境下提升了任务成功率与泛化能力.

Comparative analysis of dual-form networks for live land monitoring using multi-modal satellite image time series

Iris Dumeur, Jérémy Anger, Gabriele Facciolo

eess.IV cs.AI cs.CV

本文研究了用于多模态卫星图像时间序列(SITS)实时土地监测的双形式注意力机制. 通过比较线性注意力与retention机制, 并针对SITS的时间不规则性进行适应性调整, 该方法在保持性能的同时实现了高效的增量处理. 实验表明, 该多模态框架在预测和监测任务上优于单模态方法.

Toward a Multi-Layer ML-Based Security Framework for Industrial IoT

Aymen Bouferroum, Valeria Loscri, Abderrahim Benslimane

cs.CR cs.LG

本文提出了一种面向工业物联网的多层机器学习安全框架研究构想. 它基于现有信任模型与混合架构, 引入了利用机器学习加速信任收敛的方法, 并规划了基于开源硬件的实际部署架构以及针对多层攻击检测的后续研究方向.

Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection

Zhanhe Lei et al.

cs.CV cs.LG

本文提出了一种基于强化学习的动态课程学习框架, 用于提升深度伪造检测模型的鲁棒性. 该方法通过一个"导师"智能体动态调整训练样本的权重, 从而优化"学生"检测器的学习过程.

Walma: Learning to See Memory Corruption in WebAssembly

Oussama Draissi et al.

cs.CR cs.LG

本文提出了一个名为Walma的框架, 它利用机器学习对WebAssembly线性内存的快照进行分类, 以检测内存损坏和外部篡改. 该框架在多种配置下进行了评估, 展示了基于CNN的分类方法在具有结构化内存布局的应用中的有效性及其性能开销.

Quantum Neural Physics: Solving Partial Differential Equations on Quantum Simulators using Quantum Convolutional Neural Networks

Jucai Zhai et al.

quant-ph cs.LG physics.comp-ph

本文提出了一种名为"Quantum Neural Physics"的框架，将偏微分方程数值离散的模板映射为量子卷积核。该方法通过量子电路实现卷积算子，并将其嵌入经典的W循环多重网格求解器中，在量子模拟器上对多个方程进行了验证。

Invisible Threats from Model Context Protocol: Generating Stealthy Injection Payload via Tree-based Adaptive Search

Yulin Shen et al.

cs.CR cs.AI

本文针对Model Context Protocol (MCP)的安全漏洞，提出了一种名为TIP的新型黑盒攻击方法。该方法通过树形搜索和粗到细的优化框架生成隐蔽的恶意载荷，能够有效规避现有防御机制，在实验中展现出较高的攻击成功率。

Powerful Teachers Matter: Text-Guided Multi-view Knowledge Distillation with Visual Prior Enhancement

Xin Zhang et al.

cs.CV cs.AI

本文提出了一种文本引导的多视角知识蒸馏方法, 通过结合视觉先验增强的视觉教师模型和文本教师模型来提供更丰富的监督信号. 该方法在多个基准测试上提升了知识蒸馏的性能.

HEART-PFL: Stable Personalized Federated Learning under Heterogeneity with Hierarchical Directional Alignment and Adversarial Knowledge Transfer

Minjun Kim, Minje Kim

cs.CV cs.LG

本文提出了一种名为 HEART-PFL 的双边个性化联邦学习框架，旨在解决数据异构下的模型个性化与全局稳定性问题。它通过分层方向对齐和对抗性知识迁移来提升性能，并在多个数据集上取得了先进的准确率。

Where Do Your Citations Come From? Citation-Constellation: A Free, Open-Source, No-Code, and Auditable Tool for Citation Network Decomposition with Complementary BARON and HEROCON Scores

Mahbub Ul Alam

cs.DL cs.AI cs.DB cs.IR

本文介绍了一个名为Citation-Constellation的免费开源工具，用于分析引文网络。该工具通过分解引文来源，提供了BARON和HEROCON两种互补的文献计量分数，旨在诊断研究者对内部合作圈的依赖程度。

Environment-Grounded Multi-Agent Workflow for Autonomous Penetration Testing

Michael Somma et al.

cs.RO cs.AI

本文提出了一种用于机器人环境自动化渗透测试的环境感知多智能体架构。该架构利用大语言模型动态构建基于图的共享记忆来管理系统状态，并在专门的机器人CTF场景中展示了高可靠性。

DVM: Real-Time Kernel Generation for Dynamic AI Models

Jingzhi Fang et al.

cs.PL cs.AI cs.LG

本文提出了一种名为DVM的实时编译器, 用于处理AI模型中的动态性(如动态张量形状和控制流). 它通过基于bytecode virtual machine的运行时算子编译器和符号推导与运行时融合的算子融合器, 旨在在保持优化机会的同时显著减少编译时间.

C-STEP: Continuous Space-Time Empowerment for Physics-informed Safe Reinforcement Learning of Mobile Agents

Guihlerme Daubt, Adrian Redder

eess.SY cs.LG

本文提出了一种用于移动智能体物理信息安全强化学习的连续时空赋权(C-STEP)方法. 该方法通过结合智能体的内部状态与动力学来设计内在奖励, 旨在同时优化任务完成与避障.

Accelerating Diffusion-based Video Editing via Heterogeneous Caching: Beyond Full Computing at Sampled Denoising Timestep

Tianyi Liu et al.

cs.CV cs.AI

本文提出了一种名为HetCache的无训练扩散加速框架, 用于加速基于Diffusion Transformer (DiT) 的视频编辑任务. 该方法通过分析spatial-temporal tokens之间的相关性, 选择性缓存关键的context tokens以减少冗余的attention计算, 在保持编辑质量的同时显著降低了计算延迟和FLOPs.

Bridging Biological Hearing and Neuromorphic Computing: End-to-End Time-Domain Audio Signal Processing with Reservoir Computing

Rinku Sebastian, Simon O'Keefe, Martin Trefzer

cs.SD cs.AI

本文提出了一种利用reservoir computing在时域进行音频信号处理的新方法, 旨在简化特征提取流程. 该方法避免了传统的频域转换, 为实时语音分析提供了一个端到端的处理框架.

The Specification Gap: Coordination Failure Under Partial Knowledge in Code Agents

Camilo Chacón Sartori

cs.SE cs.AI cs.MA

本文研究了多个基于LLM的代码智能体在实现同一类的不同部分时, 由于规范(Specification)细节不足而导致的协调失败问题. 通过实验量化了"规范鸿沟(Specification Gap)"及其对集成准确率的影响, 并指出更丰富的规范是协调的关键机制.

SpinGQE: A Generative Quantum Eigensolver for Spin Hamiltonians

Alexander Holden, Moinul Hossain Rahat, Nii Osae Osae Dade

quant-ph cs.CL

本文提出了一种用于自旋Hamiltonian的生成式量子本征求解器SpinGQE. 该方法将电路设计视为生成建模任务, 使用基于transformer的解码器来学习产生低能态的量子电路分布, 并在四量子比特Heisenberg模型上验证了其收敛性.

CGRL: Causal-Guided Representation Learning for Graph Out-of-Distribution Generalization

Bowen Lu, Liangqiang Yang, Teng Li

stat.ML cs.LG

本文提出了一种因果引导的图表示学习方法(CGRL)用于提升图神经网络(GNN)在分布外(OOD)场景下的泛化能力. 该方法通过因果图建模和损失替换策略来捕捉因果不变性并稳定互信息学习.

Toward Generalist Neural Motion Planners for Robotic Manipulators: Challenges and Opportunities

Davood Soleymanzadeh et al.

cs.RO cs.AI

本文综述了神经运动规划器(neural motion planners)的研究现状, 分析了其在机器人操作领域的优势与局限性. 文章指出当前方法在泛化到未见过的规划场景方面存在困难, 并探讨了构建通用神经运动规划器的潜在路径.

Connecting Meteorite Spectra to Lunar Surface Composition Using Hyperspectral Imaging and Machine Learning

Fatemeh Fazel Hesar et al.

astro-ph.EP astro-ph.IM cs.LG

本文提出了一种结合实验室高光谱成像(HSI)与地基月球观测的机器学习框架，用于分析月球陨石并生成矿物学地图。该方法利用支持向量机(SVM)对矿物进行分类，并通过与现有月球矿物学数据对比验证了其有效性。

Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing

Cheng Cui et al.

cs.CV cs.AI cs.IR

本文提出了一种用于文档解析的由粗到细的视觉处理架构PaddleOCR-VL, 通过一个轻量级的有效区域聚焦模块(VRFM)来识别关键视觉token, 从而减少冗余计算. 该方法在保持高性能的同时显著提升了处理效率, 并在多个任务上达到了最先进的水平.

Enhancing Efficiency and Performance in Deepfake Audio Detection through Neuron-level dropin & Neuroplasticity Mechanisms

Yupei Li et al.

cs.SD cs.AI

本文提出了一种名为dropin和plasticity的新算法, 通过动态调整神经网络特定层中的神经元数量来灵活调制模型参数, 灵感来源于哺乳动物大脑的神经元可塑性. 该算法在ResNet, Gated RNN和Wav2Vec等多种架构上进行了评估, 在ASVSpoof2019等数据集上展示了计算效率的提升和错误率的显著降低.

Evidence of an Emergent "Self" in Continual Robot Learning

Adidev Jhunjhunwala, Judah Goldfeder, Hod Lipson

cs.RO cs.AI cs.LG

本文提出了一种通过识别认知过程中相对不变的部分来量化智能系统是否具有"自我"概念的方法. 该方法被应用于分析在不同学习条件下的机器人, 发现持续学习的机器人会发展出一个显著更稳定的不变子网络.

Language-Guided Structure-Aware Network for Camouflaged Object Detection

Min Zhang

cs.CV cs.AI

本文提出了一种用于伪装目标检测的语言引导结构感知网络(LGSAN). 该方法利用CLIP模型生成的文本-图像掩码来引导视觉特征, 并设计了傅里叶边缘增强模块和结构感知注意力模块来提升对目标结构和边界的感知能力.

A Neuro-Symbolic System for Interpretable Multimodal Physiological Signals Integration in Human Fatigue Detection

Mohammadreza Jamalifard et al.

cs.HC cs.LG

本文提出了一种用于人类疲劳检测的神经符号系统, 通过基于注意力的编码器从眼动追踪和fNIRS信号中学习可解释的生理概念, 并使用可微分的近似推理规则进行融合. 该方法在跨被试评估中取得了与基线相当的分类准确率, 同时提供了概念激活和规则触发强度的可解释性分析.

Adaptive decision-making for stochastic service network design

Javier Duran Micco, Bilge Atasoy

math.OC cs.LG

本文针对具有不确定旅行时间和有限卡车可用性的多式联运服务网络设计问题, 提出了一种结合元启发式、仿真和机器学习的两阶段优化框架. 该方法通过模拟退火算法求解战术规划问题, 并利用基于离散事件仿真训练的代理模型来近似复杂的运营动态, 在保证解质量的同时显著降低了计算时间.

Federated fairness-aware classification under differential privacy

Gengyu Xue, Yi Yu

stat.ML cs.LG stat.ME

本文研究了联邦学习场景下, 结合差分隐私和算法公平性的分类问题. 作者提出了两种算法, 并提供了关于隐私、公平性和超额风险的理论保证.

Neural Network Models for Contextual Regression

Seksan Kiatsupaibul, Pakawan Chansiripas

stat.ML cs.LG

本文提出了一种用于contextual regression的神经网络模型SCtxtNN, 它将context识别与context-specific回归分离, 从而获得比全连接前馈网络参数更少、结构更清晰且可解释的架构. 理论分析和数值实验表明, 该模型能以更低的复杂度实现可比或更优的性能.

Real Talk, Virtual Faces: A Formal Concept Analysis of Personality and Sentiment in Influencer Audiences

Shahram Chaudhry, Sidahmed Benabderrahmane, Talal Rahwan

cs.CY cs.AI

本文提出了一种基于 Formal Concept Analysis (FCA) 和关联规则挖掘的两层框架, 用于分析虚拟与真人影响者受众评论中的人格、情感和话题信号的共现结构. 应用于 YouTube 评论数据的分析表明, 虚拟影响者的受众话语展现出比真人影响者更多样化的共现模式, 尤其在涉及心理敏感话题时表现出不同的情感倾向.

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

Songyang Liu et al.

cs.CR cs.AI

本文提出了一个名为ClawKeeper的实时安全框架，用于保护OpenClaw自主智能体。该框架通过技能、插件和监视器三个互补的架构层，提供了多维度的安全保护机制，以防止数据泄露和恶意操作等系统级威胁。

Continuous-Time Learning of Probability Distributions: A Case Study in a Digital Trial of Young Children with Type 1 Diabetes

Antonio Álvarez-López, Marcos Matabuena

stat.ML cs.LG

本文提出了一种基于神经ODE的连续时间概率分布学习框架, 用于分析儿童1型糖尿病临床试验中的连续血糖监测数据. 该方法将血糖分布建模为高斯混合, 并通过分布匹配准则进行参数估计, 以捕捉传统方法难以发现的细微动态变化.

What and When to Learn: CURriculum Ranking Loss for Large-Scale Speaker Verification

Massa Baali et al.

cs.SD cs.CL

本文提出了一种名为CURriculum Ranking (Curry)的自适应损失函数, 用于大规模说话人验证. 该方法通过在线估计样本难度并分层加权, 在VoxCeleb和SITW数据集上显著降低了等错误率(EER).

Enes Causal Discovery

Alexis Kafantaris

cs.NE cs.AI cs.LG cs.SC

本文提出了一种基于mixture of experts的架构，用于从观测数据中进行causal discovery。该方法尝试利用neural network来建模causal relationships，以克服传统线性方法（如Pearson coefficient）在处理此类数据时的局限性。文章描述了模型方法并展示了结果。

Integrating Causal Machine Learning into Clinical Decision Support Systems: Insights from Literature and Practice

Domenique Zipperling et al.

cs.HC cs.AI

本文探讨了将因果机器学习整合到临床决策支持系统中的设计问题. 通过文献综述和医生访谈, 研究提出了设计需求, 原则和具体功能, 旨在提升系统的可解释性和人机协作.

Counting Without Numbers \& Finding Without Words

Badri Narayana Patro

cs.CV cs.AI cs.CL cs.SI

本文提出了一种结合视觉与声学生物特征的多模态宠物寻回系统. 该系统基于动物通过声音识别彼此的认知科学原理, 旨在解决传统仅依赖外观匹配方法的局限性.

Composer 2 Technical Report

Cursor Reseach et al.

cs.SE cs.LG

本文介绍了专为智能软件工程设计的 Composer 2 模型。该模型通过两阶段训练提升编码能力，并在特定基准测试中取得了与前沿系统相当的性能。

Positive-First Most Ambiguous: A Simple Active Learning Criterion for Interactive Retrieval of Rare Categories

Kawtar Zaher, Olivier Buisson, Alexis Joly

cs.CV cs.HC cs.IR

本文提出了一种名为Positive-First Most Ambiguous (PF-MA)的主动学习准则，用于在类别高度不平衡的交互式图像检索中快速发现稀有类别。该方法通过优先选择分类边界附近且更可能为正例的样本，有效提升了早期检索的效率和用户满意度。实验在细粒度植物学等长尾数据集上验证了其优于基线方法的性能。

CliPPER: Contextual Video-Language Pretraining on Long-form Intraoperative Surgical Procedures for Event Recognition

Florian Stilz et al.

cs.CV cs.AI

本文提出了一种用于长时程手术视频事件识别的视频-语言预训练框架CliPPER. 该方法通过引入新的预训练目标, 在多个手术视频基准上取得了先进的性能.

SEGAR: Selective Enhancement for Generative Augmented Reality

Fanjun Bu, Chenyang Yuan, Hiroshi Yasuda

cs.CV cs.AI

本文提出了一个名为SEGAR的初步框架, 用于增强现实(AR)应用. 它结合了一个基于diffusion的world model和一个选择性校正阶段, 旨在生成并缓存经过编辑的未来帧, 并在需要时进行选择性校正.

Analysing the Safety Pitfalls of Steering Vectors

Yuxiao Li et al.

cs.CR cs.CL

本文系统评估了使用Contrastive Activation Addition (CAA)方法生成的steering vectors对大型语言模型安全性的影响。研究发现，这些向量能显著改变模型对越狱攻击的抵抗能力，其效果与拒绝行为的内在方向有关。

Detection of local geometry in random graphs: information-theoretic and computational limits

Jinho Bok, Shuangping Li, Sophie H. Yu

math.ST cs.CC cs.DS math.PR stat.ML

本文研究了在随机图中检测局部几何结构的问题, 提出了一个混合模型 $\mathcal{G}(n, p, d, k)$, 其中隐藏社区内的边由 $\mathbb{S}^{d-1}$ 上的随机几何图生成, 其余边则服从 Erdős--Rényi 模型. 作者从信息论和计算复杂性两个角度分析了该检测问题的极限.

LensWalk: Agentic Video Understanding by Planning How You See in Videos

Keliang Li et al.

cs.CV cs.AI

本文提出了一个名为LensWalk的智能体框架，用于视频理解。该框架让大型语言模型能够主动规划并控制其在视频中的视觉观察过程，通过动态调整观察的时间范围和采样密度来逐步收集证据，从而提升推理性能。

The Free-Market Algorithm: Self-Organizing Optimization for Open-Ended Complex Systems

Martin Jaraiz

cs.NE cs.AI cs.MA

本文提出了一种受自由市场经济启发的元启发式算法 Free-Market Algorithm (FMA). 该算法通过去中心化的供需动态进行自组织优化, 并在两个不同领域进行了验证.

Trust Region Constrained Bayesian Optimization with Penalized Constraint Handling

Raju Chowdhury et al.

stat.ML cs.LG

本文提出了一种结合惩罚函数、代理模型和信赖域策略的贝叶斯优化方法, 用于解决高维黑盒约束优化问题. 该方法在合成和实际问题上表现出较高的样本效率和稳定性.