bluearXiv-ai - 2026-04-22

📄 所有论文 ↑ 回顶部

cs.LG

Compile to Compress: Boosting Formal Theorem Provers by Compiler Outputs

Guchan Li, Rui Tian, Hongning Wang

cs.LG cs.AI cs.LO cs.PL

本文提出了一种利用编译器输出结构来提升形式化定理证明器效率的学习框架. 该方法通过局部修正错误来避免累积长证明历史, 在可控的测试时计算预算下取得了有竞争力的结果.

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

Zhiyin Yu et al.

cs.LG cs.AI

本文提出了一种名为EasyRL的数据高效强化学习方法, 用于大型语言模型(LLM)的后训练. 该方法通过结合少量标注数据和渐进式自训练策略, 在数学和科学基准测试上取得了优于现有方法的效果.

FASE : A Fairness-Aware Spatiotemporal Event Graph Framework for Predictive Policing

Pronob Kumar Barman et al.

cs.LG cs.AI

本文提出了一个公平感知的时空事件图框架FASE, 用于预测性警务. 该框架整合了犯罪预测与公平约束的巡逻资源分配, 并通过模拟部署揭示了仅靠分配层面的公平约束无法完全消除反馈偏差.

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

Vin Bhaskara, Haicheng Wang

cs.LG cs.AI stat.ML

本文提出了一种名为Curiosity-Critic的内在奖励方法，用于改进世界模型的训练。该方法通过在线估计一个渐近误差基线，将探索引导至可学习的转移上，并在一个随机网格世界环境中验证了其有效性。

The Cost of Relaxation: Evaluating the Error in Convex Neural Network Verification

Merkouris Papamichail et al.

cs.LG cs.AI

本文研究了神经网络验证中凸松弛方法引入的误差. 通过分析完全松弛模型与原始网络输出之间的$\ell_\infty$距离, 证明了该误差随网络深度呈指数增长, 随输入半径呈线性增长. 实验在MNIST等数据集上验证了理论结果.

Discrete Tilt Matching

Yuyuan Chen et al.

cs.LG stat.ML

本文提出了一种名为Discrete Tilt Matching (DTM)的、无需似然的方法，用于微调掩码扩散大语言模型(dLLMs)。该方法将微调问题转化为在奖励倾斜下对局部去掩码后验的状态级匹配，并采用带显式最小化器的加权交叉熵目标。实验表明，DTM在合成任务和LLaDA-8B-Instruct模型上取得了积极效果。

Beyond Coefficients: Forecast-Necessity Testing for Interpretable Causal Discovery in Nonlinear Time-Series Models

Valentina Kuskova, Dmitry Zaytsev, Michael Coppedge

cs.LG cs.AI stat.ME

本文提出了一种基于预测必要性（forecast necessity）而非系数大小的因果相关性评估框架，用于解释非线性时间序列模型中的因果关系。该框架通过系统性的边消融（edge ablation）和预测比较，并以Neural Additive Vector Autoregression模型为例，在一个关于民主发展的真实世界多变量时间序列数据上进行了应用。

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Andrew Wang, Ellie Pavlick, Ritambhara Singh

cs.LG cs.AI

本文提出了一种基于自回归序列建模的方法来处理临床数据中的模态缺失问题. 该方法通过对比预训练整合多模态信息, 并在下游任务中展示了性能提升.

Towards Understanding the Robustness of Sparse Autoencoders

Ahson Saiyed, Sabrina Sadiekh, Chirag Agarwal

cs.LG cs.AI cs.CL cs.CR

本文研究了在推理时将预训练的Sparse Autoencoders (SAEs) 集成到transformer残差流中，以增强大型语言模型(LLMs)对越狱攻击的鲁棒性。实验表明，该方法能显著降低多种攻击的成功率，并减少攻击的跨模型可迁移性。

Multi-Level Temporal Graph Networks with Local-Global Fusion for Industrial Fault Diagnosis

Bibek Aryal, Gift Modekwe, Qiugang Lu

cs.LG cs.AI

本文提出了一种用于工业故障诊断的多级时序图网络, 结合了局部与全局特征融合. 该方法动态构建传感器相关图, 通过LSTM和图卷积分别提取时序与空间特征, 并利用多级池化机制学习层次化图结构, 最后融合局部与全局信息进行预测. 在Tennessee Eastman过程数据集上的实验表明, 该模型在复杂故障场景下优于多种基线方法.

Streaming Structured Inference with Flash-SemiCRF

Benjamin K. Johnson et al.

cs.LG

本文提出了一种名为Flash-SemiCRF的高效推理方法，用于解决Semi-Markov Conditional Random Fields (semi-CRFs)在处理长序列和大标签集时的内存瓶颈问题。该方法通过动态计算边势能和流式前向-后向算法，显著降低了内存占用，使其能够应用于之前难以处理的序列规模。

Efficient Mixture-of-Experts LLM Inference with Apple Silicon NPUs

Afsara Benazir, Felix Xiaozhu Lin

cs.LG

本文提出了一种名为NPUMoE的运行时推理引擎, 旨在解决Mixture-of-Experts (MoE) 大型语言模型在Apple Silicon NPU上推理效率低下的问题. 通过将密集、静态的计算卸载到NPU, 并为动态操作保留CPU/GPU回退路径, 该方法在多种长上下文工作负载上显著降低了延迟并提高了能效.

HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation

Zijian Zeng et al.

cs.LG cs.AI

本文针对Vision-Language-Action (VLA)模型在长视野(long-horizon)操作任务中的系统性问题, 提出了一个名为HELM的模型无关框架. 该框架通过引入情景记忆(Episodic Memory), 状态验证器(State Verifier)和控制器(Harness Controller)来弥补执行循环中的缺陷, 并在多个基准测试上显著提升了任务成功率.

Preserving Clusters in Error-Bounded Lossy Compression of Particle Data

Congrong Ren et al.

cs.LG cs.DC

本文提出了一种基于校正的技术, 用于在有损压缩粒子数据时保持 single-linkage clustering 的结果. 该方法对现有压缩器解压后的数据进行处理, 通过识别易受影响的粒子对并进行优化校正, 在保持压缩性能的同时有效维护了聚类结构.

A PPA-Driven 3D-IC Partitioning Selection Framework with Surrogate Models

Shang Wang et al.

cs.LG cs.AR

本文提出了一种名为DOPP的3D-IC划分选择框架，它使用代理模型来弥合代理目标与最终PPA指标之间的差距。该方法通过评估少量候选方案即可获得接近穷举搜索的性能，显著降低了优化成本。

Rethinking Dataset Distillation: Hard Truths about Soft Labels

Priyam Dey et al.

cs.LG cs.CV

本文探讨了 dataset distillation (DD) 方法中 soft label 的使用对性能评估的影响。研究发现，在 soft label 设置下，高质量的数据子集（coresets）相对于随机基线的优势并不明显，这挑战了当前使用 soft label 进行模型评估的普遍做法。

Curvature-Aware PCA with Geodesic Tangent Space Aggregation for Semi-Supervised Learning

Alexandre L. M. Levada

cs.LG cs.AI

本文提出了一种结合曲率感知与测地线对齐的PCA扩展方法GTSA-PCA, 用于处理流形上的数据降维. 该方法通过局部协方差算子和测地线对齐来整合几何结构, 并在半监督设置下提升了性能.

The High Explosives and Affected Targets (HEAT) Dataset

Bryan Kaiser et al.

cs.LG physics.comp-ph

本文介绍了一个用于训练和验证高爆驱动多材料冲击动力学AI代理模型的公开数据集HEAT. 该数据集包含二维柱对称模拟, 涵盖了多种材料和几何构型, 并提供了丰富的物理场时间序列数据.

One Step Forward and K Steps Back: Better Reasoning with Denoising Recursion Models

Chris Cameron et al.

cs.LG cs.AI

本文提出了一种称为 Denoising Recursion Models 的新方法，用于改进循环 transformer 在迭代优化任务中的训练。该方法通过多步去噪过程构建训练课程，旨在更好地对齐训练与测试行为，并在 ARC-AGI 基准测试中超越了现有方法。

Task Switching Without Forgetting via Proximal Decoupling

Pourya Shamsolmoali et al.

cs.LG cs.CV

本文提出了一种通过operator splitting分离任务学习和稳定性保持的新方法, 用于缓解持续学习中的灾难性遗忘问题. 该方法在标准基准测试上取得了先进的结果.

ParamBoost: Gradient Boosted Piecewise Cubic Polynomials

Nicolas Salvadé, Tim Hillel

cs.LG stat.ML

本文提出了一种名为ParamBoost的新型广义可加模型(GAM), 其使用梯度提升算法学习形状函数, 并在叶节点拟合三次多项式. 该方法允许施加多种约束以定制模型, 在保持良好预测性能的同时满足特定的可解释性需求.

Subgraph Concept Networks: Concept Levels in Graph Classification

Lucie Charlotte Magister et al.

cs.LG

本文提出了一种名为 Subgraph Concept Network 的新颖图神经网络架构, 旨在通过提取子图和图级别的概念来增强模型的可解释性. 该方法在节点概念嵌入上进行软聚类以获得高层概念, 在保持竞争力的分类准确率的同时, 提供了对图分类任务更深入的理解.

AC-SINDy: Compositional Sparse Identification of Nonlinear Dynamics

Peter Racioppo

cs.LG

本文提出了一种基于算术电路(arithmetic circuits)的结构化表示方法, 用于非线性动力学的稀疏辨识. 该方法通过函数组合构建非线性特征, 并引入分离状态估计与动力学辨识的公式, 在噪声下表现出更好的鲁棒性.

Harmful Intent as a Geometrically Recoverable Feature of LLM Residual Streams

Isaac Llorente-Saguer

cs.LG cs.AI cs.CL

本文通过几何方法分析了大语言模型残差流中的有害意图特征. 研究发现, 有害意图在多数层中表现为一个线性可分离的方向, 并在某些层中表现为角度偏差. 该特征在不同模型架构和对齐变体中都保持稳定, 且与模型的拒绝行为在表征上是解耦的.

Gradient-Based Program Synthesis with Neurally Interpreted Languages

Matthew V. Macfarlane et al.

cs.LG cs.AI

本文提出了一种名为Neural Language Interpreter (NLI)的模型, 它通过学习自身离散的、类符号的程序语言来弥合符号方法与神经方法之间的鸿沟. 该模型利用Gumbel-Softmax松弛实现基于梯度的优化, 并在推理时通过梯度下降精炼程序, 在需要组合泛化的任务上展现了优于基线方法的表现.

Collaborative Contextual Bayesian Optimization

Chih-Yu Chang et al.

cs.LG stat.ME

本文提出了一个名为CCBO的协作式上下文贝叶斯优化框架, 允许多个异构客户端通过在线协作或离线初始化历史信念来联合执行上下文贝叶斯优化任务. 该框架具有可控制的上下文和可选的隐私保护通信机制, 并在模拟和实际热轧应用中展示了优于现有方法的性能提升.

Fine-Tuning Small Reasoning Models for Quantum Field Theory

Nathaniel S. Woodward et al.

cs.LG cs.AI hep-ph hep-th

本文通过微调小型推理模型来研究其在量子场论领域的推理能力发展. 作者构建了一个数据生成管道, 结合了合成问题与改编自arXiv等资源的人类问题, 并进行了监督微调和强化学习实验.

TabEmb: Joint Semantic-Structure Embedding for Table Annotation

Ehsan Hoseinzade, Ke Wang, Anandharaju Durai Raju

cs.LG

本文提出了一种名为TabEmb的新方法, 用于表格标注任务. 该方法通过解耦语义编码与结构建模, 使用LLM生成列语义嵌入, 再通过基于图的模块注入列间关系, 从而超越了将表格线性化后使用预训练语言模型编码的现有方法.

FlowForge: A Staged Local Rollout Engine for Flow-Field Prediction

Xiaowen Zhang et al.

cs.LG

本文提出了一种用于CFD流场预测的分阶段局部推进引擎FlowForge. 它通过编译局部性保持的更新计划并使用共享的轻量级局部预测器来执行, 从而在保持精度的同时提高了鲁棒性和推理效率.

Distillation Traps and Guards: A Calibration Knob for LLM Distillability

Weixiao Zhan et al.

cs.LG cs.AI

本文分析了大型语言模型知识蒸馏中存在的几种陷阱, 如尾部噪声和师生差距, 并提出了一种基于强化微调的后校准方法. 该方法旨在控制教师模型的可蒸馏性, 以平衡知识转移效率与模型知识产权保护.

Self-Improving Tabular Language Models via Iterative Group Alignment

Yunbo Long et al.

cs.LG cs.AI

本文提出了一个名为TabGRAA的自改进框架, 用于表格数据的语言模型生成. 该方法通过自动质量信号对生成样本进行分组, 并优化一个组间相对优势目标, 从而在不暴露额外真实数据的情况下迭代提升模型.

Mechanistic Anomaly Detection via Functional Attribution

Hugo Lyons Keenan, Christopher Leckie, Sarah Erfani

cs.LG cs.CR

本文提出了一种基于functional attribution的mechanistic anomaly detection方法, 通过influence functions衡量测试样本与参考集之间的functional coupling来检测模型内部机制的异常. 该方法在多种异常类型和模态上进行了评估, 在backdoor检测等任务上取得了优于基线方法的效果.

Low-Rank Adaptation for Critic Learning in Off-Policy Reinforcement Learning

Yuan Zhuang et al.

cs.LG cs.AI

本文提出将Low-Rank Adaptation (LoRA)作为结构稀疏正则化器应用于off-policy RL的critic学习。该方法通过冻结随机初始化的基础矩阵并仅优化低秩适配器，将critic更新约束在低维子空间中，从而稳定训练并提升策略性能。

Decompose, Structure, and Repair: A Neuro-Symbolic Framework for Autoformalization via Operator Trees

Xiaoyang Liu et al.

cs.LG cs.AI

本文提出了一个名为DSR的神经符号框架, 将自动形式化任务重构为一个模块化流程. 该方法通过将自然语言语句分解为逻辑组件并映射到结构化的operator trees, 利用其拓扑蓝图来精确定位和修复错误.

Guiding Distribution Matching Distillation with Gradient-Based Reinforcement Learning

Linwei Dong et al.

cs.LG cs.CV

本文提出了一种名为GDMD的新框架, 通过将强化学习(RL)的奖励机制重新定义为基于蒸馏梯度而非原始像素输出, 以改进分布匹配蒸馏(DMD). 该方法旨在同步RL策略与蒸馏目标, 减少优化分歧, 从而在少步生成任务中实现更优的质量与速度平衡.

Accelerating trajectory optimization with Sobolev-trained diffusion policies

Théotime Le Hellard et al.

cs.LG cs.RO

本文提出了一种利用Sobolev训练扩散策略来加速轨迹优化的方法. 该方法通过结合轨迹和反馈增益的一阶损失进行学习, 能够减少复合误差并提高求解效率.

FedProxy: Federated Fine-Tuning of LLMs via Proxy SLMs and Heterogeneity-Aware Fusion

Tao Fan et al.

cs.LG cs.AI

本文提出了一种名为FedProxy的联邦学习框架, 用于在保护大语言模型(LLM)知识产权和客户端隐私的同时, 在异构数据上进行高效微调. 该方法通过使用一个从LLM压缩而来的统一代理小语言模型(SLM)作为高保真替代品进行协同训练, 并采用干扰缓解聚合策略和免训练的"即插即用"知识融合机制, 显著缩小了与集中式训练的性能差距.

Local Linearity of LLMs Enables Activation Steering via Model-Based Linear Optimal Control

Julian Skifstad, Xinyue Annie Yang, Glen Chou

cs.LG cs.AI eess.SY math.OC stat.ML

本文提出了一种基于局部线性近似的LLM激活引导方法, 将transformer层的动态建模为线性时变系统, 并应用线性二次型调节器(LQR)设计反馈控制器. 该方法通过在线计算层间Jacobian来实现闭环控制, 在多个任务上实现了对模型行为的精细调控, 且无需离线训练.

FG$^2$-GDN: Enhancing Long-Context Gated Delta Networks with Doubly Fine-Grained Control

Pingwei Sun et al.

cs.LG

本文提出了FG$^2$-GDN及其变体FG$^2$-GDN+，通过将delta更新中的标量学习率$\beta_t$替换为通道级向量，并解耦对key和value的缩放控制，增强了模型在长上下文中的关联记忆能力。实验表明，该方法在保持计算效率的同时，性能优于GDN和KDA。

Policy Gradient Primal-Dual Method for Safe Reinforcement Learning from Human Feedback

Qiang Liu, Adrienne Kline, Ermin Wei

cs.LG

本文提出了一种基于primal-dual方法的policy gradient算法，用于解决Safe RLHF问题。该算法无需拟合reward model，并提供了具有多项式收敛速率的全局收敛保证。

Learning Posterior Predictive Distributions for Node Classification from Synthetic Graph Priors

Jeongwhan Choi et al.

cs.LG

本文提出了一种名为NodePFN的通用节点分类方法, 该方法通过在大量合成图上进行预训练, 实现了无需针对特定图进行训练即可泛化到任意图的能力. 它结合了context-query attention机制与局部消息传递, 在23个基准测试中取得了有竞争力的平均准确率.

Intentional Updates for Streaming Reinforcement Learning

Arsalan Sharifnassab et al.

cs.LG cs.AI

本文提出了一种称为"intentional updates"的新策略, 用于解决流式强化学习(streaming reinforcement learning)中因步长选择不当导致的不稳定问题. 该方法通过先指定更新的预期目标, 再反解出实现该目标的步长, 从而稳定了学习过程.

Age-Dependent Heterogeneity in the Association Between Physical Activity and Mental Distress: A Causal Machine Learning Analysis of 3.2 Million U.S. Adults

Yuan Shan

cs.LG stat.AP

本文利用因果机器学习方法分析了超过320万美国成年人的数据, 研究了休闲体育活动与频繁精神困扰之间的关联在不同年龄组中的异质性. 研究发现, 体育活动的保护性作用随年龄增长而显著增强, 但在年轻成年人中, 这种关联在过去十年中持续减弱, 甚至消失.

S2MAM: Semi-supervised Meta Additive Model for Robust Estimation and Variable Selection

Xuelin Zhang et al.

cs.LG cs.AI stat.ML

本文提出了一种基于双层优化的半监督元加性模型(S$^2$MAM), 用于鲁棒估计和变量选择. 该方法旨在自动识别信息变量并更新相似性矩阵, 同时提供可解释的预测, 并在合成和真实数据集上验证了其鲁棒性.

Robust Continual Unlearning against Knowledge Erosion and Forgetting Reversal

Eun-Ju Park, Youjin Shin, Simon S. Woo

cs.LG cs.CV

本文提出了一个名为SAFER的持续unlearning框架, 用于应对多次unlearning操作中出现的知识侵蚀与遗忘逆转问题. 该框架通过保持保留数据的表示稳定性并对遗忘数据施加负logit边界来实现目标.

LLMs Know They're Wrong and Agree Anyway: The Shared Sycophancy-Lying Circuit

Manav Pandey

cs.LG

本文研究了大型语言模型(LLMs)在用户持有错误信念时表示同意的行为机制. 通过分析多个模型, 研究发现存在一个共享的"attention heads"电路, 该电路编码"此陈述错误"的信号, 并驱动模型在明知错误的情况下仍表示赞同.

RL-ABC: Reinforcement Learning for Accelerator Beamline Control

Anwar Ibrahim et al.

cs.LG hep-ex

本文提出了一个名为RL-ABC的开源Python框架，用于将粒子加速器束流线优化问题转化为强化学习环境。该框架通过自动预处理束流线配置，构建状态表示和奖励函数，并与现有仿真代码集成，从而方便研究人员应用强化学习算法进行优化。

Nexusformer: Nonlinear Attention Expansion for Stable and Inheritable Transformer Scaling

Weijie Zhao et al.

cs.LG cs.AI

本文提出了一种名为Nexusformer的新型Transformer架构, 旨在解决模型缩放时通常需要从头训练的问题. 它通过一种非线性的注意力扩展机制, 实现了模型容量的无损增长.

SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving

Jinda Jia et al.

cs.LG

本文提出了一种与系统设计协同的4-bit KV-cache量化方法SAW-INT4，旨在解决大语言模型推理中的显存瓶颈问题。该方法在保证与分页内存布局等实际部署约束兼容的同时，实现了接近无损的精度恢复。

LBLLM: Lightweight Binarization of Large Language Models via Three-Stage Distillation

Siqing Song et al.

cs.LG cs.AI

本文提出了一种名为LBLLM的轻量化大语言模型二值化框架, 通过一种新颖的三阶段量化策略实现有效的W(1+1)A4量化. 该方法将权重与激活的量化过程解耦, 提升了训练稳定性与推理精度, 在多个任务上超越了现有的二值化方法.

FOCAL-Attention for Heterogeneous Multi-Label Prediction

Chenghao Zhang et al.

cs.LG

本文提出了一种名为FOCAL的新方法，用于解决异构图上的多标签节点分类问题。该方法通过融合覆盖导向和锚定导向的注意力机制，旨在缓解语义稀释和覆盖约束的冲突，并在实验中取得了优于现有方法的效果。

Inductive Subgraphs as Shortcuts: Causal Disentanglement for Heterophilic Graph Learning

Xiangmeng Wang et al.

cs.LG cs.AI

本文针对heterophilic graphs中GNNs性能下降的问题, 提出了一种因果推断视角的分析框架. 通过构建去偏因果图并设计CD-GNN模型, 旨在分离虚假的inductive subgraph捷径, 提升节点分类的鲁棒性和准确性.

The Logical Expressiveness of Topological Neural Networks

Amirreza Akbari, Amauri H. Souza, Vikas Garg

cs.LG cs.LO

本文研究了拓扑神经网络(TNNs)的逻辑表达能力。通过引入针对组合复形的$k$-CCWL测试和拓扑计数逻辑TC$_k$，建立了TNN表达能力与逻辑形式之间的等价关系。

TEMPO: Scaling Test-time Training for Large Reasoning Models

Qingyang Zhang et al.

cs.LG

本文提出了一个名为TEMPO的test-time training框架, 用于提升大型推理模型在测试时的持续学习能力. 该方法通过在无标签测试数据上进行策略优化, 并定期在有标签数据上重新校准critic, 避免了性能平台期和多样性崩溃, 在多个推理任务上取得了显著效果提升.

Debiased neural operators for estimating functionals

Konstantin Hess et al.

cs.LG

本文提出了一种名为DOPE的半参数估计器, 用于估计由neural operators得到的解轨迹的标量目标量(即functionals). 该方法通过引入一种加权机制和Riesz regression来消除plug-in估计中的一阶偏差, 适用于部分和不规则观测的设置.

On the Conditioning Consistency Gap in Conditional Neural Processes

Robin Young

cs.LG

本文定义了 conditional neural process (CNP) 的 conditioning consistency gap, 用以量化其预测在增加上下文点时的变化程度. 对于具有有界编码器和 Lipschitz 解码器的 CNP, 证明了该 gap 在上下文大小 $n$ 下为 $O(1/n^2)$, 且该速率是紧的, 从而在特定意义上刻画了 CNP 对有效随机过程的近似程度.

RDP LoRA: Geometry-Driven Identification for Parameter-Efficient Adaptation in Large Language Models

Yusuf Çelebi et al.

cs.LG cs.AI cs.CL cs.CV

本文提出了一种基于几何轨迹分析的方法RDP LoRA, 用于在大型语言模型的高效微调中自动选择需要适配的层. 该方法利用Ramer-Douglas-Peucker算法识别隐藏状态演化路径中的关键转折点, 并以此指导LoRA的层选择, 在数学推理任务上取得了优于全层微调和随机层选择的效果.

Concept Inconsistency in Dermoscopic Concept Bottleneck Models: A Rough-Set Analysis of the Derm7pt Dataset

Gonzalo Nápoles, Isel Grau, Yamisleydi Salgueiro

cs.LG cs.CV

本文应用rough set theory分析了Derm7pt皮肤镜数据集中的概念不一致性问题, 量化了其对Concept Bottleneck Models (CBMs)性能的理论上限影响. 研究通过识别和过滤不一致的数据点, 构建了一个完全一致的子集Derm7pt+, 并在此基准上评估了多种网络架构的CBM性能.

When Active Learning Falls Short: An Empirical Study on Chemical Reaction Extraction

Simin Yu, Sufia Fathima

cs.LG

本文通过系统研究 active learning 在化学反应提取任务中的应用, 发现尽管某些方法能以较少标注数据接近全数据性能, 但学习曲线常呈现非单调性且依赖于具体任务. 分析表明, 强大的 pretraining, 结构化的 CRF decoding 以及标签稀疏性限制了传统 active learning 策略的稳定性.

FedSEA: Achieving Benefit of Parallelization in Federated Online Learning

Harekrushna Sahu, Pratik Jawanpuria, Pranay Sharma

cs.LG math.OC

本文提出了一种名为FedSEA的算法，用于解决联邦在线学习(OFL)中的并行化效益问题。该算法在客户端使用在线随机梯度下降，并通过服务器进行周期性全局聚合，针对平滑凸函数和平滑强凸函数分别建立了$\mathcal{O}(\sqrt{T})$和$\mathcal{O}(\log T)$的全局网络遗憾界。

Evaluation-driven Scaling for Scientific Discovery

Haotian Ye et al.

cs.LG cs.AI

本文提出了一个名为SimpleTES的通用框架, 用于规模化评估驱动的科学发现循环. 该框架通过结合并行探索, 反馈驱动的精炼和局部选择, 在多个科学领域的问题上发现了超越现有基准的解决方案.

LASER: Learning Active Sensing for Continuum Field Reconstruction

Huayu Deng et al.

cs.LG cs.AI cs.CE

本文提出了一个名为LASER的闭环主动感知框架, 用于连续物理场的重建. 该框架将主动感知建模为POMDP, 利用一个捕捉物理动力学的潜在世界模型来指导强化学习智能体(agent)优化传感器布局.

FairTree: Subgroup Fairness Auditing of Machine Learning Models with Bias-Variance Decomposition

Rudolf Debelak

cs.LG

本文提出了一种名为FairTree的新算法, 用于审计机器学习模型在不同子组(subgroup)上的性能差异. 该算法基于心理测量学中的不变性检验(invariance testing), 能够直接处理连续型, 分类型和有序型特征, 并将性能差异分解为系统性偏差(bias)和方差(variance)两部分. 通过模拟研究和在UCI Adult Census数据集上的应用, 验证了该方法的有效性.

TACENR: Task-Agnostic Contrastive Explanations for Node Representations

Vasiliki Papanikou, Evaggelia Pitoura

cs.LG cs.AI

本文提出了一种用于解释图节点表示的任务无关对比方法TACENR. 该方法通过对比学习识别对节点表示贡献最大的属性, 邻近性和结构性特征.

Optimal Routing for Federated Learning over Dynamic Satellite Networks: Tractable or Not?

Yi Zhao et al.

cs.LG cs.DC

本文对动态卫星网络中联邦学习的路由优化问题进行了可解性分析. 作者针对全局模型分发和本地模型收集的不同场景, 严格证明了哪些问题可以在多项式时间内求解, 哪些是NP-hard的.

Revisiting Catastrophic Forgetting in Continual Knowledge Graph Embedding

Gerard Pons et al.

cs.LG cs.AI

本文指出了当前 Continual Knowledge Graph Embedding (CKGE) 评估协议中的一个重要缺陷，即忽略了新引入实体对已有实体嵌入的干扰（称为 entity interference），这会导致对 catastrophic forgetting 的评估产生误导。作者提出了一种修正的评估协议，并通过实验表明，忽略此效应会使 CKGE 方法的性能被高估高达 25%。

Unsupervised Confidence Calibration for Reasoning LLMs from a Single Generation

Thomas Zollo, Jimmy Wang, Richard Zemel

cs.LG

本文提出了一种用于推理大语言模型的无监督置信度校准方法, 该方法仅需推理时的单次生成. 通过离线采样未标注数据获得基于 self-consistency 的代理目标, 并将此信号蒸馏到一个轻量级的置信度预测器中. 在多个数学和问答任务上的评估表明, 该方法显著优于基线, 并提升了选择性预测等下游任务的性能.

Heterogeneity-Aware Personalized Federated Learning for Industrial Predictive Analytics

Yuhan Hu, Xiaolei Fang

cs.LG stat.ML

本文提出了一种面向工业预测分析的个性化联邦学习方法, 旨在处理不同客户端间退化过程的异质性. 该方法通过促进具有相似退化模式的客户端之间的协作来构建个性化的预测模型, 并使用基于近端梯度下降的联邦参数估计算法.

ZC-Swish: Stabilizing Deep BN-Free Networks for Edge and Micro-Batch Applications

Suvinava Basak

cs.LG

本文提出了一种名为ZC-Swish的激活函数，旨在稳定不使用Batch Normalization的深度网络。该函数通过将激活均值动态锚定在零附近，缓解了深度网络中的梯度消失和通道死亡问题，在微批次等场景下表现优于标准Swish函数。

EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training

Chengjun Pan et al.

cs.LG cs.AI cs.CL

本文提出了一种称为EVPO的自适应critic利用方法, 用于LLM后训练中的策略优化. 该方法通过监控解释方差来动态选择优势估计方式, 在多个任务上超越了PPO和GRPO等固定基线方法.

When Graph Structure Becomes a Liability: A Critical Re-Evaluation of Graph Neural Networks for Bitcoin Fraud Detection under Temporal Distribution Shift

Saket Maganti

cs.LG cs.AI cs.CR cs.SI

本文对基于Elliptic比特币数据集的图神经网络(GNN)欺诈检测共识提出了质疑. 通过严格的、无数据泄露的评估协议, 研究发现特征模型(Random Forest)在严格归纳设置下优于所有测试的GNN模型, 表明先前结论可能依赖于有缺陷的评估设置.

Accelerating Optimization and Machine Learning through Decentralization

Ziqin Chen, Zuang Wang, Yongqiang Wang

cs.LG eess.SY

本文探讨了去中心化优化在机器学习和优化问题中的应用. 研究发现, 在某些情况下, 去中心化方法在收敛所需的迭代次数上可以超越传统的中心化方法, 这挑战了该领域的一个固有观念.

Revisiting RaBitQ and TurboQuant: A Symmetric Comparison of Methods, Theory, and Experiments

Jianyang Gao et al.

cs.LG cs.AI cs.DB

本文在统一框架下对称地比较了RaBitQ和TurboQuant两种量化方法, 指出在可复现的实验设置下, TurboQuant并未展现出相对于RaBitQ的一致优势, 并报告了原TurboQuant论文中部分结果的可复现性问题.

Calibrating Scientific Foundation Models with Inference-Time Stochastic Attention

Akash Yadav, Taiwo A. Adebiyi, Ruda Zhang

cs.LG cs.CE stat.ML

本文提出了一种称为Stochastic Attention的轻量级推理时修改方法，用于为基于Transformer的科学基础模型提供校准的预测不确定性。该方法通过一个浓度参数随机化注意力权重，无需重新训练即可生成预测集成，并通过后验校准目标高效调整参数。在天气和时序预测等任务上的实验表明，该方法在保持相近覆盖率的条件下，实现了良好的校准性和尖锐的预测区间。

Separating Geometry from Probability in the Analysis of Generalization

Maxim Raginsky, Benjamin Recht

cs.LG math.OC stat.ML

本文从优化问题解对数据扰动的敏感性分析视角, 重新审视了机器学习中的泛化问题. 它提出了一种不依赖传统i.i.d.统计假设的确定性分析框架, 将泛化误差与样本数据间的"接近程度"联系起来.

Structure-guided molecular design with contrastive 3D protein-ligand learning

Carles Navarro, Philipp Tholke, Gianni de Fabritiis

cs.LG

本文提出了一个结合对比学习3D结构编码与自回归分子生成的统一框架, 用于基于结构的药物发现. 该框架通过一个SE(3)-等变transformer编码蛋白质-配体复合物, 并引导生成针对特定靶点的分子.

Lyapunov-Certified Direct Switching Theory for Q-Learning

Donghwan Lee

cs.LG cs.AI eess.SY

本文通过将Q-learning误差表示为具有martingale-difference noise的切换线性系统，分析了恒定步长Q-learning。利用该表示，作者推导了基于联合谱半径的有限时间最终迭代误差界。

An Efficient Black-Box Reduction from Online Learning to Multicalibration, and a New Route to $Φ$-Regret Minimization

Gabriele Farina, Juan Carlos Perdomo

cs.LG cs.GT

本文提出了一种从 online learning 到 online multicalibration 的 GGM 风格黑盒约简方法，并证明了其与 expected variational inequality (EVI) 求解的等价性。该工作统一了现有算法的分析，并为处理延迟观测等环境提供了新算法。

SAGE: Training-Free Semantic Evidence Composition for Edge-Cloud Inference under Hard Uplink Budgets

Inhyeok Choi, Hyuncheol Park

cs.LG cs.CV eess.SP

本文提出了一种名为SAGE的训练无关方法, 用于在边缘-云混合推理中, 在严格上行链路比特预算约束下进行语义证据组合. 该方法结合了重要性过滤与嵌入多样性采样, 在ImageNet-1K数据集上以少于一半可用证据单元的传输量, 实现了接近服务器上限的精度.

Disentangling Damage from Operational Variability: A Label-Free Self-Supervised Representation Learning Framework for Output-Only Structural Damage Identification

Xudong Jian et al.

cs.LG

本文提出了一种用于结构损伤识别的自监督解耦表示学习框架. 该框架利用 autoencoder 和 VICReg 正则化, 直接从振动信号中学习对损伤敏感而对环境变化鲁棒的特征表示, 并在两个真实数据集上验证了其有效性.

HardNet++: Nonlinear Constraint Enforcement in Neural Networks

Andrea Goertzen, Kaveh Alim, Navid Azizan

cs.LG

本文提出了一种名为HardNet++的神经网络约束强制执行方法, 用于确保网络输出满足线性和非线性等式与不等式约束. 该方法通过可微的阻尼局部线性化迭代调整输出, 支持端到端训练, 并在模型预测控制等任务中展示了其有效性.

Budgeted Online Influence Maximization

Pierre Perrault et al.

cs.LG stat.ML

本文在独立级联模型和边级半赌博机反馈下, 提出了一个预算约束的在线影响力最大化算法, 并提供了理论分析和实验结果. 该框架用总成本约束替代了传统的影响力集合基数约束, 更贴近广告活动的实际预算场景.

PREF-XAI: Preference-Based Personalized Rule Explanations of Black-Box Machine Learning Models

Salvatore Greco et al.

cs.LG

本文提出了一种基于偏好的可解释人工智能(PREF-XAI)方法, 将解释生成视为一个偏好驱动的决策问题. 该方法结合了基于规则的(rule-based)解释与形式化的偏好学习(formal preference learning), 通过用户对少量候选解释的排序来学习其偏好模型.

Planning in entropy-regularized Markov decision processes and games

Jean-Bastien Grill et al.

cs.LG

本文提出了一种名为 SmoothCruiser 的新规划算法，用于在给定环境生成模型的情况下，估计熵正则化 Markov decision processes 和两人博弈中的价值函数。该算法利用正则化带来的 Bellman operator 平滑性，实现了与问题无关的样本复杂度 $O~(1/\epsilon^4)$，相比之下，非正则化设置中尚无算法能在最坏情况下保证多项式样本复杂度。

On two ways to use determinantal point processes for Monte Carlo integration

Guillaume Gautier, Rémi Bardenet, Michal Valko

cs.LG math.ST

本文探讨了两种基于 determinantal point processes (DPPs) 的 Monte Carlo 积分估计器. 作者将现有方法推广到连续设置, 并提供了相应的采样算法.

Ultrametric OGP - parametric RDT \emph{symmetric} binary perceptron connection

Mihailo Stojnic

cs.LG cond-mat.dis-nn cs.IT math.PR stat.ML

本文研究了对称二元感知机(SBP)模型, 通过将参数化RDT(replica decoupling technique)与超度量重叠间隙性质(ultrametric overlap gap property, ult-OGP)联系起来, 分析了其解空间的几何结构. 作者为不同层级的ult-OGP推导了约束密度$\alpha_{ult_s}$的上界, 并通过数值计算发现这些上界与参数化RDT在特定提升层级下的估计值高度吻合. 基于此, 文章提出了关于算法阈值$\alpha_a$以及两种理论框架参数之间可能存在的等价关系的猜想.

Adaptive MSD-Splitting: Enhancing C4.5 and Random Forests for Skewed Continuous Attributes

Jake Lee

cs.LG cs.AI

本文提出了一种自适应MSD-Splitting方法，用于改进决策树算法对偏态连续属性的处理。该方法通过动态调整分箱阈值来提升C4.5和随机森林的准确率，同时保持了较低的计算复杂度。

Benign Overfitting in Adversarial Training for Vision Transformers

Jiaming Zhang et al.

cs.LG cs.AI

本文在简化的Vision Transformer架构下, 首次从理论上分析了对抗训练. 研究表明, 在满足特定信噪比条件和适度扰动预算下, 对抗训练能使ViT实现近乎零的鲁棒训练损失和泛化误差.

FB-NLL: A Feature-Based Approach to Tackle Noisy Labels in Personalized Federated Learning

Abdulmoneam Ali, Ahmed Arafa

cs.LG cs.IT eess.SP

本文提出了一种名为FB-NLL的基于特征的方法来处理个性化联邦学习中的噪声标签问题。该方法通过分析特征表示的协方差谱结构进行一次性用户聚类，并利用特征一致性进行标签检测与校正。

FASTER: Value-Guided Sampling for Fast RL

Perry Dong et al.

cs.LG cs.AI

本文提出了一种名为FASTER的方法, 旨在降低基于扩散模型的强化学习策略在推理时进行多动作采样所带来的计算成本. 该方法通过将去噪过程中的候选动作选择建模为一个Markov Decision Process, 并学习一个值函数来预测和过滤候选动作, 从而在保持性能的同时显著减少计算需求.

Safe Continual Reinforcement Learning in Non-stationary Environments

Austin Coursey et al.

cs.LG

本文探讨了在非平稳环境中进行安全持续强化学习(RL)所面临的挑战. 研究通过引入三个基准环境并评估现有方法, 揭示了在保持安全约束与防止灾难性遗忘之间存在根本性矛盾.

Generalization at the Edge of Stability

Mario Tuci et al.

cs.LG cs.AI cs.CV stat.ML

本文研究了在"稳定性边缘"训练神经网络时的泛化行为. 通过将随机优化器建模为随机动力系统, 作者引入了一个新的"锐度维度"概念, 并基于此证明了泛化界.

cs.AI

On Solving the Multiple Variable Gapped Longest Common Subsequence Problem

Marko Djukanović et al.

cs.AI

本文针对Variable Gapped Longest Common Subsequence (VGLCS)问题，提出了一种基于root-based state graph的搜索框架。该方法采用了迭代beam search策略，并结合了LCS领域的启发式方法，在包含多达10条序列的合成实例上进行了测试，结果表明其在可比运行时间内优于基线方法。

Beyond One Output: Visualizing and Comparing Distributions of Language Model Generations

Emily Reif et al.

cs.AI

本文介绍了GROVE, 一种用于可视化和比较语言模型生成文本分布的可交互工具. 它通过文本图(graph)的形式展示多个生成样本, 帮助用户理解模型输出的结构, 如多样性, 分支点和聚类. 用户研究表明, 这种可视化方法有助于对分布进行结构性判断, 但细节问题仍需直接检查原始输出.

ARES: Adaptive Red-Teaming and End-to-End Repair of Policy-Reward System

Jiacheng Liang et al.

cs.AI cs.CR cs.LG

本文提出了一个名为ARES的框架, 用于发现和修复Reinforcement Learning from Human Feedback (RLHF)系统中策略和奖励模型同时失效的"系统性弱点". 它通过一个动态组合对抗性提示的"Safety Mentor"来暴露漏洞, 并实施两阶段修复以增强模型的安全性.

AI scientists produce results without reasoning scientifically

Martiño Ríos-García et al.

cs.AI cond-mat.mtrl-sci cs.LG

本文评估了基于大语言模型(LLM)的智能体在多个科学领域的推理行为, 发现其表现主要由基础模型决定, 且普遍缺乏遵循科学认识论规范的推理模式, 如忽略证据和缺乏证伪驱动的信念修正. 研究指出, 仅靠优化智能体框架无法解决这些根本问题, 强调了将科学推理本身作为训练目标的必要性.

Quantum inspired qubit qutrit neural networks for real time financial forecasting

Kanishk Bakshi, Kathiravan Srinivasan

cs.AI quant-ph

本文比较了ANN, QQBN和QQTN在股票预测中的表现. 研究发现QQTN在多个指标上表现更优, 且训练时间更短, 展示了其在实时金融应用中的潜力.

Human-Guided Harm Recovery for Computer Use Agents

Christy Li et al.

cs.AI cs.CL

本文研究了计算机使用智能体在造成有害状态后的恢复问题, 提出了"harm recovery"的形式化框架. 通过用户研究构建了评估准则和奖励模型, 并引入BackBench基准进行系统评估.

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Mina Gabriel, Pei Wang

cs.AI

本文提出了一个神经符号框架, 用于将自然语言推理问题转化为可执行的 Narsese 形式表示. 作者构建了一个包含 FOL 形式和可执行 Narsese 程序的基准测试集, 并开发了从 FOL 到 Narsese 的确定性编译流程, 通过运行时执行来验证符号目标的行为一致性.

How Adversarial Environments Mislead Agentic AI?

Zhonghao Zhan et al.

cs.AI

本文提出了Adversarial Environmental Injection (AEI)威胁模型, 指出当前对工具集成智能体的评估存在信任鸿沟, 仅关注性能而忽视了对工具输出欺骗的怀疑能力. 作者开发了POTEMKIN测试框架, 揭示了智能体在广度攻击(The Illusion)和深度攻击(The Maze)下的脆弱性, 并发现对抗这两种攻击的鲁棒性之间存在权衡.

Formally Verified Patent Analysis via Dependent Type Theory: Machine-Checkable Certificates from a Hybrid AI + Lean 4 Pipeline

George Koomullil

cs.AI cs.LO cs.PL

本文提出了一种基于依赖类型理论的形式化验证框架, 用于专利分析. 该框架将专利权利要求编码为DAGs, 并通过已验证的单调函数传播置信度分数, 为多个知识产权分析用例提供了机器可检查的证明.

Error-free Training for MedMNIST Datasets

Bo Deng

cs.AI

本文提出了一种称为Artificial Special Intelligence的新概念, 旨在实现分类模型的无错误训练. 该方法在18个MedMNIST生物医学数据集上进行了验证, 除三个存在双标签问题的数据集外, 其余均达到了完美训练效果.

AutomationBench

Daniel Shepard, Robin Salimans

cs.AI

本文提出了一个名为AutomationBench的基准测试, 用于评估AI智能体通过REST APIs进行跨应用工作流编排的能力. 该基准基于真实业务场景构建, 要求智能体自主发现API端点并遵循复杂规则, 当前最先进的模型在其上的表现仍低于10%.

Personalized Benchmarking: Evaluating LLMs by Individual Preferences

Cristina Garbacea, Heran Wang, Chenhao Tan

cs.AI cs.CL cs.HC cs.IR cs.LG

本文提出个性化基准测试的概念, 用于根据个体用户的偏好来评估大型语言模型(LLMs). 研究发现, 基于用户查询主题和写作风格的个性化模型排名与聚合排名存在显著差异, 并展示了利用这些特征预测用户特定排名的可行性.

Reasoning Structure Matters for Safety Alignment of Reasoning Models

Yeonjun In et al.

cs.AI

本文探讨了大型推理模型(LRMs)的安全风险, 指出其根源在于推理结构本身. 作者提出了一种名为AltTrain的后训练方法, 通过少量监督微调改变模型的推理结构以实现安全对齐, 并在多种任务上验证了其有效性.

DW-Bench: Benchmarking LLMs on Data Warehouse Graph Topology Reasoning

Ahmed G.A.H Ahmed, C. Okan Sakar

cs.AI cs.DB

本文提出了一个名为DW-Bench的新基准测试，用于评估大语言模型在数据仓库图拓扑结构上的推理能力。实验表明，工具增强方法显著优于静态方法，但在复杂的组合子类型问题上遇到瓶颈。

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

Xiachong Feng et al.

cs.AI

本文提出了SAVOIR框架, 利用基于Shapley值的奖励分配方法来训练具有社交智能的语言智能体. 该方法结合期望效用和Shapley值, 在SOTOPIA基准测试中取得了先进的性能.

On Accelerating Grounded Code Development for Research

Santosh Ganji

cs.AI

本文提出了一个框架, 旨在通过让 coding agents 实时访问研究资料库和技术文档来解决其在专业科学领域应用时知识更新不足的问题. 该框架包括一个开源实现, 允许用户上传文档并强制执行领域特定的规则和工作流.

Plausible Reasoning and First-Order Plausible Logic

David Billington

cs.AI cs.LO

本文提出了一种名为Plausible Logic (PL)的一阶逻辑系统, 用于处理defeasible statements (可废止陈述)并进行plausible reasoning (似然推理). 该逻辑遵循17条原则, 包含8种推理算法, 旨在不依赖数值概率的情况下得出合理的结论.

Learning Lifted Action Models from Unsupervised Visual Traces

Kai Xi, Stephen Gould, Sylvie Thiébaux

cs.AI

本文提出了一种从无监督视觉轨迹中学习 lifted action models 的深度学习方法. 该方法通过一个混合整数线性规划(MILP)模块来强制逻辑一致性, 以纠正预测错误并引导训练.

Reinforcement Learning Improves LLM Accuracy and Reasoning in Disease Classification from Radiology Reports

Yishu Wei et al.

cs.AI

本文提出了一种两阶段方法, 结合监督微调(SFT)和Group Relative Policy Optimization (GRPO)来提升轻量级大语言模型(LLM)在放射学报告疾病分类中的准确性和推理能力. 该方法在三个数据集上验证了其有效性.

OLLM: Options-based Large Language Models

Shashank Sharma, Janina Hoffmann, Vinay Namboodiri

cs.AI

本文提出了一种名为OLLM的方法, 通过引入一个离散的隐变量来索引一组学习到的"选项", 替代了标准LLM中单一的下一个token预测. 该方法被应用于数学推理任务, 在特定数据集上展示了性能提升.

Towards Scalable Lifelong Knowledge Editing with Selective Knowledge Suppression

Dahyun Jung, Jaewook Lee, Heuiseok Lim

cs.AI

本文提出了一个名为 LightEdit 的框架，用于实现可扩展的终身知识编辑。该方法通过选择性知识抑制来高效更新大语言模型中的特定知识，并在多个基准测试上取得了优于现有方法的效果。

Has Automated Essay Scoring Reached Sufficient Accuracy? Deriving Achievable QWK Ceilings from Classical Test Theory

Masaki Uto

cs.AI

本文基于 classical test theory 提出了两种针对特定数据集的 quadratic weighted kappa (QWK) 理论上限, 用于评估 automated essay scoring (AES) 模型的性能. 这些上限可以从标准的双评分者基准中估计, 无需额外标注, 有助于明确当前 AES 模型的性能与理论极限之间的差距.

Reasoning-Aware AIGC Detection via Alignment and Reinforcement

Zhao Wang et al.

cs.AI

本文提出了一个用于检测AI生成文本的框架REVEAL, 它通过生成可解释的推理链来进行分类. 该框架采用了两阶段训练策略, 并在一个包含多领域和多作者场景的新数据集上进行了验证.

ClawNet: Human-Symbiotic Agent Network for Cross-User Autonomous Cooperation

Zhiqin Yang et al.

cs.AI

本文提出了一个名为ClawNet的人类共生智能体网络框架, 旨在实现跨用户的自主协作. 该框架通过分层身份架构, 作用域授权和操作级问责制等治理原语, 确保智能体在代表其所有者进行协作时的安全性与可审计性.

UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction

Yadong Li et al.

cs.AI cs.SD eess.AS

本文提出了一种用于全双工语音交互的统一音频前端大语言模型(UAF). 它将语音活动检测、说话人识别、自动语音识别等多种前端任务统一建模为自回归序列预测问题, 旨在降低传统级联处理流程的延迟和信息损失.

Industrial Surface Defect Detection via Diffusion Generation and Asymmetric Student-Teacher Network

Shuo Feng et al.

cs.AI

本文提出了一种结合Denoising Diffusion Probabilistic Model (DDPM)和非对称师生网络的无监督工业表面缺陷检测方法。该方法通过生成合成缺陷数据缓解样本稀缺问题，并利用网络结构差异实现精确的缺陷定位。

Explicit Trait Inference for Multi-Agent Coordination

Suhaib Abdurahman et al.

cs.AI cs.MA

本文提出了一种名为显式特质推断(Explicit Trait Inference, ETI)的方法, 用于提升基于LLM的多智能体系统的协调能力. 该方法通过从交互历史中推断伙伴在warmth和competence两个心理学维度上的特质来指导决策, 在多个测试场景中提升了性能.

Large Language Models Exhibit Normative Conformity

Mikako Bito et al.

cs.AI cs.MA cs.NE

本文通过设计区分 informational conformity 和 normative conformity 的实验任务, 研究了大型语言模型在群体决策中的从众行为. 实验发现多个模型同时表现出两种从众倾向, 并且其内部驱动机制可能不同.

Do Agents Dream of Root Shells? Partial-Credit Evaluation of LLM Agents in Capture The Flag Challenges

Ali Al-Kaswan et al.

cs.AI cs.CR cs.SE

本文提出了一个名为DeepRed的开源基准测试框架, 用于在隔离虚拟化环境中评估基于LLM的智能体在现实CTF挑战中的表现. 该框架引入了基于特定挑战检查点的部分信用评分方法, 并对十个商业LLM进行了基准测试, 结果表明当前智能体的能力仍然有限.

Towards Energy Impact on AI-Powered 6G IoT Networks: Centralized vs. Decentralized

Anjie Qiu et al.

cs.AI

本文分析了6G物联网中集中式与分布式机器学习架构的能耗模型, 并在德国铁路基础设施的测试平台上进行了比较. 研究发现, 分布式架构在保持约90%预测准确率的同时, 能降低高达70%的总能耗, 突显了其在减少数据传输能耗方面的潜力.

GRASPrune: Global Gating for Budgeted Structured Pruning of Large Language Models

Ziyang Wang et al.

cs.AI

本文提出了一种名为GRASPrune的结构化剪枝框架, 用于在预训练后对大型语言模型(LLMs)进行压缩. 该方法通过一个全局预算联合剪枝FFN通道和KV头组, 并在剪枝后通过校准缩放因子来缓解精度损失, 最终得到一个无需额外推理参数的小型密集模型.

Four-Axis Decision Alignment for Long-Horizon Enterprise AI Agents

Vasundra Srininvasan

cs.AI

本文提出了一个用于评估企业级AI智能体长期决策行为的四轴对齐框架, 包含事实精确性(FRP), 推理连贯性(RCS), 合规重构(CRR)和校准弃权(CAR). 通过在贷款和保险理赔等领域的基准测试上应用该框架, 作者揭示了不同记忆架构在各项指标上的表现差异, 并指出校准弃权是目前研究未覆盖的关键对齐维度.

Do LLMs Game Formalization? Evaluating Faithfulness in Logical Reasoning

Kyuhee Kim, Auguste Poiroux, Antoine Bosselut

cs.AI cs.CL cs.LO

本文评估了大型语言模型在形式化逻辑推理中的忠实性问题. 研究通过比较统一生成与两阶段流水线在Lean 4中的表现, 发现高编译率并不等同于忠实推理, 并揭示了两种不同的不忠实模式.

CoDA: Towards Effective Cross-domain Knowledge Transfer via CoT-guided Domain Adaptation

Jianzhi Yan et al.

cs.AI

本文提出了一种名为CoDA的方法, 通过使用轻量级适配器干预模型的中间隐藏状态, 结合基于特征的蒸馏和最大均值差异(MMD)进行分布匹配, 以改善大语言模型(LLM)在跨领域知识迁移中的逻辑推理表现. 该方法在多个任务上显著超越了现有基线.

From Experience to Skill: Multi-Agent Generative Engine Optimization via Reusable Strategy Learning

Beining Wu et al.

cs.AI

本文提出了一个名为MAGEO的多智能体框架, 用于解决生成式引擎优化(GEO)任务中策略无法跨任务和引擎积累与迁移的问题. 该框架通过协调规划、编辑和保真度评估来执行优化, 并将验证有效的编辑模式提炼为可重用的引擎特定优化技能.

SimDiff: Depth Pruning via Similarity and Difference

Yuli Chen et al.

cs.AI

本文提出了一种名为SimDiff的深度剪枝方法, 通过联合评估层的表示相似性(representational similarity)和变换差异(transformation difference)来识别大语言模型(LLMs)中的冗余层. 该方法在多个模型上进行了实验, 在保持模型性能的同时实现了推理加速.

Revac: A Social Deduction Reasoning Agent

Mihir Shriniwas Arya, Avinash Anish, Aditya Ranjan

cs.AI

本文介绍了一个用于社交推理游戏(如Mafia)的AI智能体Revac-8的设计与评估. 该智能体整合了基于记忆的玩家画像, 社交图分析以及动态沟通语气选择等模块, 并在相关竞赛中取得了优异成绩.

Integrating Anomaly Detection into Agentic AI for Proactive Risk Management in Human Activity

Farbod Zorriassatine, Ahmad Lotfi

cs.AI cs.HC cs.MA

本文提出将跌倒检测与预测视为anomaly detection问题, 并通过一个agentic AI系统来解决. 作者构建了一个概念框架, 旨在通过动态选择工具并整合到自适应决策流程中, 来提升对复杂现实场景中运动相关风险的管理能力.

DT2IT-MRM: Debiased Preference Construction and Iterative Training for Multimodal Reward Modeling

Zhihong Zhang et al.

cs.AI

本文提出了一种名为DT2IT-MRM的方法，用于改进多模态奖励模型的训练。该方法通过去偏好的偏好数据构建管道和迭代训练框架来提升现有数据集的质量，并在多个基准测试中取得了领先的性能。

Enhancing Construction Worker Safety in Extreme Heat: A Machine Learning Approach Utilizing Wearable Technology for Predictive Health Analytics

Syed Sajid Ullah, Amir Khan

cs.AI cs.CL cs.LG

本文提出了一种基于注意力机制的LSTM模型, 用于通过可穿戴设备数据预测建筑工人的热应激风险. 该模型在测试集上取得了较高的准确率, 并展示了在物联网安全系统和BIM仪表板中集成的潜力.

Detecting Data Contamination in Large Language Models

Juliusz Janicki et al.

cs.AI

本文在 black-box 假设下，系统评估了多种先进的 Membership Inference Attacks (MIA) 方法在检测大型语言模型训练数据成员资格方面的性能。研究结果表明，现有方法在多个 SOTA LLMs 上的检测可靠性均较低，AUC-ROC 接近 0.5。作者还提出了一种名为 Familiarity Ranking 的新方法，旨在通过给予模型更多表达自由来更好地理解其推理过程。

Multi-modal Reasoning with LLMs for Visual Semantic Arithmetic

Chuou Xu, Liya Ji, Qifeng Chen

cs.AI

本文针对视觉语义算术任务, 提出了一个名为SAri-RFT的强化学习微调方法, 用于增强大型视觉语言模型(LVLMs)从图像中推断语义关系的能力. 该方法在构建的基准数据集上取得了先进的结果.

AblateCell: A Reproduce-then-Ablate Agent for Virtual Cell Repositories

Xue Xia et al.

cs.AI cs.MA

本文提出了一个名为 AblateCell 的智能体, 用于在虚拟细胞代码库中自动化地进行复现与消融分析. 该智能体通过自动配置环境和生成消融实验图, 旨在提高生物信息学研究中性能归因的可扩展性与准确性.

Time Series Augmented Generation for Financial Applications

Anton Kolonin et al.

cs.AI cs.CE

本文提出了一个名为Time Series Augmented Generation (TSAG)的评估框架和基准，用于严格测试LLM agent在金融时间序列分析中的推理能力。研究通过让agent调用外部工具来执行定量任务，并比较了多个先进模型在工具使用准确性和幻觉等方面的表现。

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

Josue Torres-Fonseca et al.

cs.AI cs.CL cs.RO

本文提出了SafetyALFRED基准，用于评估多模态大语言模型在具身交互环境中对安全风险的识别与主动缓解能力。实验发现模型在静态问答中能识别危险，但在具身规划中缓解成功率较低，表明需要转向注重纠正行动的评估范式。

A Dual Perspective on Synthetic Trajectory Generators: Utility Framework and Privacy Vulnerabilities

Aya Cherigui et al.

cs.AI

本文针对合成轨迹生成器提出了一个双重视角分析框架, 重点评估其效用与隐私漏洞. 作者引入了一种新的效用评估框架, 并指出隐私评估仍需通过对抗性评估来解决, 同时提出了一种针对特定生成模型的成员推理攻击.

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

Shuai Wang et al.

cs.AI

本文提出了一个基于智能体(agent)的多模态艺术检索框架A-MAR，用于细粒度的艺术品理解。该框架通过将用户查询分解为结构化的推理计划来指导检索，从而生成有据可依的解释。实验表明，该方法在多个艺术数据集上优于静态检索和大型多模态模型基线。

cs.IR

Dual-View Training for Instruction-Following Information Retrieval

Qingcheng Zeng et al.

cs.IR

本文提出了一种基于极性反转的双视图数据合成策略, 用于训练指令跟随信息检索(IF-IR)系统. 该方法通过生成互补指令来交换文档对的相关性标签, 从而强制检索模型关注指令本身而非固定的主题线索. 实验表明, 该方法在FollowIR基准上显著提升了性能, 并揭示了数据多样性与指令监督的互补作用.

STK-Adapter: Incorporating Evolving Graph and Event Chain for Temporal Knowledge Graph Extrapolation

Shuyuan Zhao et al.

cs.IR

本文提出了一种名为STK-Adapter的适配器，用于增强大型语言模型在时序知识图谱外推任务中的性能。它通过设计多个混合专家模块来整合图谱的时空结构信息和事件链的语义依赖。

Think Before Writing: Feature-Level Multi-Objective Optimization for Generative Citation Visibility

Zikang Liu, Peilan Xu

cs.IR cs.AI

本文提出了一种名为FeatGEO的特征级多目标优化框架，用于提升生成式搜索引擎中的引用可见性。该方法通过优化网页的结构、内容和语言特征，而非直接修改文本，在保持内容质量的同时有效提高了被引用的概率。

GraphRAG-IRL: Personalized Recommendation with Graph-Grounded Inverse Reinforcement Learning and LLM Re-ranking

Siqi Liang et al.

cs.IR

本文提出了一种结合图结构特征构建、逆强化学习和大语言模型重排序的混合推荐框架。该框架通过构建异质知识图来捕获用户偏好，并利用逆强化学习进行预排序，最后使用大语言模型对短候选列表进行语义重排。实验表明该方法在多个数据集上优于监督基线。

CS3: Efficient Online Capability Synergy for Two-Tower Recommendation

Lixiang Wang et al.

cs.IR

本文提出了一个名为CS3的高效在线框架, 旨在增强双塔推荐模型的性能同时保持实时性约束. 它通过引入自适应特征去噪, 轻量级跨塔同步和级联模型共享等机制, 在多个公开数据集和实际广告系统中取得了效果提升.

CAST: Modeling Semantic-Level Transitions for Complementary-Aware Sequential Recommendation

Qian Zhang et al.

cs.IR cs.LG

本文提出了一个用于序列推荐的CAST框架, 它通过建模离散语义码空间中的语义级转移来捕捉细粒度的互补关系. 该框架还引入了经LLM验证的互补先验来增强注意力机制, 实验表明其在多个数据集上优于现有方法.

Enhancing Unsupervised Keyword Extraction in Academic Papers through Integrating Highlights with Abstract

Yi Xiang, Chengzhi Zhang

cs.IR cs.CL cs.DL

本文探讨了在学术论文的无监督关键词提取任务中, 整合highlights(亮点总结)与abstract(摘要)的效果. 通过比较仅使用摘要, 仅使用highlights以及两者结合三种输入场景, 实验表明结合两者能显著提升多个无监督模型在计算机科学和信息科学数据集上的提取性能.

LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

Jiakai Tang et al.

cs.IR

本文提出了一种名为LoopCTR的循环缩放范式，用于解决Transformer点击率预测模型扩展时计算与存储开销过大的问题。该方法通过递归复用共享模型层来增加训练时计算，实现了计算与参数增长的解耦，并在多个数据集上取得了先进的性能。

Diagnosable ColBERT: Debugging Late-Interaction Retrieval Models Using a Learned Latent Space as Reference

François Remy

cs.IR cs.CL

本文提出了Diagnosable ColBERT框架, 通过将ColBERT模型的token embeddings与一个基于临床知识和专家约束构建的参考latent space对齐, 旨在提升检索模型的可诊断性. 该方法使得模型编码可以被检查, 从而支持更直接的错误诊断和更系统的数据管理.

From Top-1 to Top-K: A Reproducibility Study and Benchmarking of Counterfactual Explanations for Recommender Systems

Quang-Huy Nguyen et al.

cs.IR cs.LG

本文系统地复现和评估了十一种用于推荐系统的反事实解释方法, 提出了一个统一的基准测试框架, 从解释格式、评估级别和扰动范围三个维度进行分析. 实验表明, 方法的有效性、稀疏性和可扩展性在不同设置下差异显著, 挑战了先前关于其鲁棒性的结论.

ECLASS-Augmented Semantic Product Search for Electronic Components

Nico Baumgart, Markus Lange-Hegermann, Jan Henze

cs.IR

本文评估了LLM辅助的dense retrieval方法在工业电子元件语义搜索中的应用, 并研究了将ECLASS标准的分层语义集成到embedding-based retrieval中. 实验表明, 该方法在专家查询上显著优于传统词汇方法, 并且利用ECLASS语义增强产品表示能带来一致的性能提升.

cs.CL

Two-dimensional early exit optimisation of LLM inference

Jan Hůla et al.

cs.CL cs.AI

本文提出了一种用于大语言模型分类任务的二维提前退出策略, 该策略协调了逐层退出和逐句退出. 通过在逐句处理输入的同时逐步激活更深层, 该方法实现了超过任一维度独立优化的计算节省. 实验表明, 在多个模型和情感分类数据集上, 该方法能获得额外的加速.

Probing for Reading Times

Eleftheria Tsipidi et al.

cs.CL

本文通过正则化线性回归方法, 探究了语言模型表示是否编码了人类阅读时间这一认知信号. 研究发现, 模型早期层的表示在预测早期阅读指标上优于 surprisal, 表明低层表示与人类阅读的早期阶段存在功能对齐.

Characterizing AlphaEarth Embedding Geometry for Agentic Environmental Reasoning

Mashrekur Rahman, Samuel J. Barrett, Christina Last

cs.CL cs.AI

本文分析了Google AlphaEarth模型生成的地理观测embedding的几何结构, 发现其流形是非欧几里得的, 并基于此构建了一个用于环境推理的智能体系统. 该系统利用embedding检索而非向量运算, 在复杂查询上表现更优.

Scripts Through Time: A Survey of the Evolving Role of Transliteration in NLP

Thanmay Jayakumar, Deepon Halder, Raj Dabre

cs.CL

本文综述了transliteration在跨语言NLP中的应用演变。文章分析了其用于克服"script barrier"、提升词汇重叠的各种方法，并讨论了在现代LLM中的效用与权衡。

Investigating Counterfactual Unfairness in LLMs towards Identities through Humor

Shubin Kim et al.

cs.CL

本文通过幽默这一社会感知的透镜, 研究了大型语言模型中的反事实不公平性. 作者设计了一个框架, 通过交换笑话的讲述者与目标对象的身份, 观察模型反应的系统性差异, 并提出了可解释的偏见度量.

Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models

Lin Yao

cs.CL

本文针对Masked diffusion language models中的Token-to-Token编辑规则存在的结构性缺陷，提出了一种无需训练的Token-to-Mask重掩码方法。该方法通过将可疑token重置为掩码状态，而非直接替换，从而在后续去噪步骤中基于更可靠的上下文重新预测，在多个需要精确token输出的基准测试上提升了模型性能。

Syntax as a Rosetta Stone: Universal Dependencies for In-Context Coptic Translation

Abhishek Purushothama et al.

cs.CL

本文提出了一种结合 Universal Dependencies 句法分析和双语词典的 in-context learning 方法，用于提升低资源科普特语到英语的机器翻译效果。实验表明，句法信息与词典信息的结合能显著提高翻译性能。

Model-Agnostic Meta Learning for Class Imbalance Adaptation

Hanshu Rao, Guangzeng Han, Xiaolei Huang

cs.CL

本文提出了一个名为HAMR的元学习框架, 用于自适应地处理NLP任务中的类别不平衡问题. 该方法通过双层优化动态调整样本权重, 并结合邻域感知的重采样机制, 在多个领域的六个不平衡数据集上取得了优于基线的性能.

An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models

Hanrui Luo, Shreyank N Gowda

cs.CL cs.LG

本文通过实证研究, 探讨了在现实条件下基于输出的大语言模型越狱检测. 研究发现, 增加生成样本数量能更可靠地评估模型漏洞, 适度的多样本审计是更实用的检测方法.

Mango: Multi-Agent Web Navigation via Global-View Optimization

Weixi Tong, Yifeng Di, Tianyi Zhang

cs.CL

本文提出了一种名为Mango的多智能体网络导航方法, 通过将URL选择建模为multi-armed bandit问题并利用Thompson Sampling来动态分配导航预算, 以优化在复杂网站中的探索起点. 该方法还引入了episodic memory来存储导航历史, 实验表明其在多个基准测试上优于现有基线.

Experiments or Outcomes? Probing Scientific Feasibility in Large Language Models

Seyedali Mohammadi, Manas Gaur, Francis Ferraro

cs.CL cs.AI

本文研究了大型语言模型(LLM)进行科学可行性评估的任务. 通过控制知识条件(如仅假设, 提供实验描述, 提供结果, 或两者兼具), 作者发现提供结果证据通常比提供实验描述更可靠. 实验文本在不完整时可能损害模型性能.

Semantic Needles in Document Haystacks: Sensitivity Testing of LLM-as-a-Judge Similarity Scoring

Sinan G. Aksoy et al.

cs.CL cs.AI cs.LG

本文提出了一个可扩展的多因素实验框架, 用于系统性地探究LLM在成对文档比较中对细微语义变化的敏感性. 研究发现LLM的相似性评分受到文档结构、上下文连贯性和模型本身特性的显著影响.

LegalBench-BR: A Benchmark for Evaluating Large Language Models on Brazilian Legal Decision Classification

Pedro Barbosa de Carvalho Neto

cs.CL

本文提出了 LegalBench-BR, 一个用于评估语言模型在巴西法律文本分类任务上的基准数据集. 实验表明, 经过 LoRA 微调的领域适应模型在准确率和 F1 分数上显著优于通用大语言模型, 揭示了后者在该特定领域任务上的系统性偏差和不足.

Where Fake Citations Are Made: Tracing Field-Level Hallucination to Specific Neurons in LLMs

Yuefei Chen et al.

cs.CL cs.AI

本文研究了LLMs生成虚假引用的问题, 发现作者姓名字段最容易出错, 且幻觉信号在不同字段间不具泛化性. 通过神经元分析, 识别出特定于字段的幻觉神经元(FH-neurons), 并验证了对其进行干预可以影响幻觉率.

Prioritizing the Best: Incentivizing Reliable Multimodal Reasoning by Rewarding Beyond Answer Correctness

Mengzhao Jia, Zhihan Zhang, Meng Jiang

cs.CL

本文探讨了在强化学习中通过超越答案正确性的奖励来提升多模态推理的可靠性。研究比较了奖励模型和生成式奖励两种轨迹监督方法，并提出了Groupwise Ranking Reward以更高效地区分不同质量的正确轨迹。

Less Is More: Cognitive Load and the Single-Prompt Ceiling in LLM Mathematical Reasoning

Manuel Israel Cazares

cs.CL cs.LG

本文通过系统性的实验研究了在形式化数学推理任务中 prompt engineering 的效果, 发现存在一个"单提示天花板". 研究指出, 数学问题的不可判定性, 复杂规则系统以及提示顺序效应共同限制了性能的进一步提升.

LogosKG: Hardware-Optimized Scalable and Interpretable Knowledge Graph Retrieval

He Cheng et al.

cs.CL

本文提出了一个名为LogosKG的硬件优化框架, 用于在大型知识图谱上进行可扩展且可解释的多跳检索. 该方法通过符号化表示分解和硬件高效操作来提升效率, 并在下游任务中展示了其支持大规模、基于证据的分析潜力.

MORPHOGEN: A Multilingual Benchmark for Evaluating Gender-Aware Morphological Generation

Mehul Agarwal et al.

cs.CL cs.AI cs.LG

本文提出了一个名为MORPHOGEN的多语言基准数据集, 用于评估模型在法语, 阿拉伯语和印地语中进行性别感知形态生成的能力. 通过核心任务GENFORM测试了15个多语言大语言模型, 揭示了它们在处理形态性别方面存在的显著差距.

Proposing Topic Models and Evaluation Frameworks for Analyzing Associations with External Outcomes: An Application to Leadership Analysis Using Large-Scale Corporate Review Data

Yura Yoshida et al.

cs.CL

本文提出了一种结合大型语言模型的主题建模方法及相应的评估框架, 旨在提升主题在可解释性、具体性和情感极性一致性方面的表现. 该方法应用于企业员工评论数据, 在分析员工士气等外部结果时, 相比现有方法展现了更高的解释力.

Disparities In Negation Understanding Across Languages In Vision-Language Models

Charikleia Moraitaki et al.

cs.CL

本文研究了 Vision-Language Models (VLMs) 在不同语言中理解否定概念的差异。通过构建一个涵盖七种语言的人类验证基准，评估了多个模型的表现，发现模型改进方案的有效性因语言类型特征而异。

A Mechanism and Optimization Study on the Impact of Information Density on User-Generated Content Named Entity Recognition

Jiang Xiaobo et al.

cs.CL

本文研究了信息密度对用户生成内容命名实体识别性能的影响机制。通过引入注意力谱分析等方法，提出了一个模型无关的优化框架来提升处理稀疏文本时的效果。

Assessing Capabilities of Large Language Models in Social Media Analytics: A Multi-task Quest

Ramtin Davoudi et al.

cs.CL cs.AI cs.SI

本文对包括GPT-4、Gemini 1.5 Pro等在内的多种现代LLMs在社交媒体分析任务上的能力进行了综合评估。研究涵盖了作者验证、内容生成和用户属性推断等多个任务，并建立了可复现的基准。

STAR-Teaming: A Strategy-Response Multiplex Network Approach to Automated LLM Red Teaming

MinJae Jung et al.

cs.CL

本文提出了一种名为STAR-Teaming的黑盒框架, 用于自动化生成针对大型语言模型(LLMs)的越狱提示. 该方法整合了多智能体系统与一个策略-响应多重网络, 并通过网络驱动的优化来采样攻击策略, 从而以较低成本实现了较高的攻击成功率.

$R^2$-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction

Zhenbang Du et al.

cs.CL cs.AI cs.LG

本文提出了一种名为$R^2$-dLLM的框架，旨在减少Diffusion Large Language Models (dLLMs)解码过程中的时空冗余。该方法通过推理时的无训练解码规则和训练时的冗余感知微调来加速生成，实验表明其能显著减少解码步骤。

When Safety Fails Before the Answer: Benchmarking Harmful Behavior Detection in Reasoning Chains

Ishita Kakkar et al.

cs.CL

本文提出了一个用于评估推理链中安全性的基准数据集HarmThoughts, 该数据集包含对多步推理轨迹的细粒度句子级行为标注. 研究分析了有害行为在推理过程中的传播模式, 并评估了现有检测方法在此任务上的不足.

Debating the Unspoken: Role-Anchored Multi-Agent Reasoning for Half-Truth Detection

Yixuan Tang et al.

cs.CL

本文提出了一个名为RADAR的多智能体辩论框架, 用于检测事实核查中的"半真半假"陈述. 该方法通过分配不同角色的智能体进行对抗性推理, 并利用自适应控制器来平衡检测准确性与计算成本.

AlignCultura: Towards Culturally Aligned Large Language Models?

Gautam Siddharth Kashyap, Mark Dras, Usman Naseem

cs.CL

本文提出了一个用于评估大型语言模型文化对齐性的两阶段流程Align-Cultura. 该流程首先构建了一个基于UNESCO文化分类法的数据集CULTURAX, 随后在多种模型上进行了基准测试, 结果表明经过文化微调的模型在多个指标上有所提升.

RARE: Redundancy-Aware Retrieval Evaluation Framework for High-Similarity Corpora

Hanjun Cho, Jay-Yoon Lee

cs.CL cs.AI cs.IR

本文提出了一个针对高相似度语料库的冗余感知检索评估框架RARE, 用于构建更符合现实世界RAG系统部署场景的评测基准. 该方法通过将文档分解为原子事实来追踪冗余信息, 并利用CRRF方法提升基于LLM的数据生成质量, 在金融、法律和专利领域构建的RedQA基准上揭示了现有检索器在真实冗余场景下的性能差距.

SAMoRA: Semantic-Aware Mixture of LoRA Experts for Task-Adaptive Learning

Boyan Shi et al.

cs.CL cs.AI

本文提出了一种名为SAMoRA的参数高效微调框架, 用于提升大语言模型的多任务学习能力. 它通过语义感知路由器和任务自适应缩放机制, 改进了现有MoE-LoRA方法在专家路由和权重融合上的不足.

Cell-Based Representation of Relational Binding in Language Models

Qin Dai, Benjamin Heinzerling, Kentaro Inui

cs.CL

本文研究了语言模型如何实现话语层面的关系绑定. 作者提出了一种基于“单元”的绑定表示方法, 并通过实验验证了其存在与作用.

Product-of-Experts Training Reduces Dataset Artifacts in Natural Language Inference

Aby Mammen Mathew

cs.CL cs.AI

本文提出了一种名为Product-of-Experts (PoE)的训练方法，旨在减少自然语言推理(NLI)模型对数据集伪影的依赖。该方法通过降低有偏模型过度自信样本的权重，在几乎保持准确率的同时，显著降低了模型对伪影的依赖程度。

TRN-R1-Zero: Text-rich Network Reasoning via LLMs with Reinforcement Learning Only

Yilun Liu, Ruihong Qiu, Zi Huang

cs.CL cs.LG

本文提出了一个名为TRN-R1-Zero的后训练框架，用于文本丰富网络的零样本推理。该方法仅通过强化学习优化基础大语言模型，无需任务特定的监督数据，并在多个网络基准测试中展现了有效性。

HoWToBench: Holistic Evaluation for LLM's Capability in Human-level Writing using Tree of Writing

Andrew Zhuoer Feng et al.

cs.CL

本文提出了Tree-of-Writing (ToW)框架来评估大语言模型(LLM)的写作能力，并构建了大规模中文写作基准HowToBench。该方法通过树状结构显式建模子特征权重，缓解了LLM作为评判者时的内在不一致性，并与人类评分有较高相关性。

SAHM: A Benchmark for Arabic Financial and Shari'ah-Compliant Reasoning

Rania Elbadry et al.

cs.CL cs.AI cs.LG

本文提出了一个面向阿拉伯语金融和伊斯兰教法合规推理的基准数据集SAHM, 包含七个任务和超过1.4万个专家验证实例. 评估发现, 现有大语言模型在生成和因果推理任务上表现不佳, 尤其是在事件-原因推理方面存在显著差距.

Detoxification for LLM: From Dataset Itself

Wei Shao et al.

cs.CL

本文提出了一种名为HSPD的流程, 通过SoCD方法直接在原始语料库层面进行去毒, 旨在从训练数据源头降低大语言模型的毒性. 实验表明该方法在多个模型上取得了先进的去毒效果.

Do Emotions Influence Moral Judgment in Large Language Models?

Mohammad Saim, Tianyu Jiang

cs.CL

本文通过构建一个情感诱导流程, 研究了情感对大型语言模型(Large Language Models, LLMs)道德判断的影响. 研究发现, 情感会系统性影响模型的判断, 且这种影响与人类行为存在差异.

Construction of Knowledge Graph based on Language Model

Qiubai Zhu et al.

cs.CL

本文综述了利用预训练语言模型(PLM)构建知识图谱(KG)的研究进展, 并提出了一个基于轻量级大语言模型(LLM)的超关系知识图谱构建框架LLHKG. 该框架旨在利用PLM的语言理解与生成能力, 从文本数据中自动抽取实体和关系等关键信息, 以提升KG构建的自动化程度和效率.

The Rise of Verbal Tics in Large Language Models: A Systematic Analysis Across Frontier Models

Shuai Wu et al.

cs.CL cs.AI

本文系统分析了多个前沿大语言模型中出现的"言语抽搐"现象, 即重复、公式化的语言模式. 通过引入Verbal Tic Index (VTI)指标, 研究发现不同模型间存在显著差异, 并揭示了该现象与奉承性、词汇多样性及人类感知自然度之间的关联.

ReflectMT: Internalizing Reflection for Efficient and High-Quality Machine Translation

Kunquan Li et al.

cs.CL

本文提出了一种名为ReflectMT的两阶段反射内化算法, 用于机器翻译. 该方法通过强化学习训练模型, 使其在推理时无需显式推理步骤即可直接生成高质量翻译, 从而显著降低了计算开销.

How Do Answer Tokens Read Reasoning Traces? Self-Reading Patterns in Thinking LLMs for Quantitative Reasoning

Haoyang Chen et al.

cs.CL cs.AI

本文研究了大型语言模型在生成推理轨迹时, 答案token如何读取这些轨迹. 通过分析注意力模式, 发现正确的答案倾向于表现出一种良性的"自读"模式. 基于此观察, 作者提出了一种无需训练的方法来引导模型推理.

Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India

Kaushal Bhogale et al.

cs.CL cs.SD

本文介绍了Voice of India，一个用于印度语言真实场景语音识别的大规模基准测试集。该数据集基于非脚本化的电话对话构建，覆盖多种语言和地区，并分析了当前ASR系统在不同因素下的性能差距。

Mind the Unseen Mass: Unmasking LLM Hallucinations via Soft-Hybrid Alphabet Estimation

Hongxing Pan et al.

cs.CL stat.AP

本文针对黑盒访问下的大语言模型(LLM)不确定性量化问题, 提出了一种名为SHADE的软混合语义字母表估计算法. 该方法通过结合Generalized Good-Turing覆盖度与基于蕴含关系加权图的归一化Laplacian的热核迹, 在小样本场景下改进了语义模式数量的估计, 并将其转化为覆盖度调整后的语义熵分数.

SCURank: Ranking Multiple Candidate Summaries with Summary Content Units for Enhanced Summarization

Bo-Jyun Wang, Ying-Jia Lin, Hung-Yu Kao

cs.CL cs.AI

本文提出了一个名为SCURank的框架, 用于在文本摘要任务中对多个候选摘要进行排序. 该方法通过评估摘要内容单元(SCUs)的丰富性和语义重要性来改进排序, 实验表明其在多个数据集上优于传统指标和基于大语言模型(LLM)的排序方法.

Headlines You Won't Forget: Can Pronoun Insertion Increase Memorability?

Selina Meyer, Magdalena Abel, Michael Roth

cs.CL

本文通过认知心理学实验设计, 研究了在新闻标题中插入第一、二人称代词对其记忆性的影响, 并探讨了使用大语言模型进行此类自动修改的可行性. 实验结果表明, 代词插入对记忆性的影响是混合的, 且自动修改在内容准确性、情感保留和文体自然性方面存在问题.

Talking to a Know-It-All GPT or a Second-Guesser Claude? How Repair reveals unreliable Multi-Turn Behavior in LLMs

Clara Lachenmaier, Hannah Bultmann, Sina Zarrieß

cs.CL cs.AI

本文研究了大型语言模型(LLM)在多轮对话中处理"repair"(一种解决交流障碍的交互过程)的行为, 特别是在可解与不可解数学问题场景下的表现. 研究发现不同模型对用户发起的repair尝试反应差异巨大, 从几乎完全抵抗到高度易受影响, 并且多轮对话中的模型行为更具独特性且更不可预测.

ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

Xianming Li et al.

cs.CL cs.AI

本文提出了一种名为ShadowPEFT的集中式参数高效微调框架。它通过一个深度共享的shadow module进行层级的精炼，将适配过程从权重空间的扰动转移到共享的层空间。实验表明，该方法在可训练参数量相当的情况下，性能与LoRA和DoRA相当或更优。

Towards a Linguistic Evaluation of Narratives: A Quantitative Stylistic Framework

Alessandro Maisto

cs.CL

本文提出了一种基于33个量化语言学特征的叙事质量评估框架, 该方法通过分析文本的lexical, syntactic和semantic特征, 能够有效区分专业出版与自出版作品. 实验表明, 该框架在人工标注数据集上的表现优于传统的故事级评估指标.

CulturALL: Benchmarking Multilingual and Multicultural Competence of LLMs on Grounded Tasks

Peiqin Lin et al.

cs.CL cs.AI

本文提出了一个名为CulturALL的基准测试，用于评估大语言模型在真实场景下的多语言与多文化能力。该基准通过人机协作构建，包含多语言、多地区的样本，实验表明现有模型在该基准上表现仍有很大提升空间。

HarDBench: A Benchmark for Draft-Based Co-Authoring Jailbreak Attacks for Safe Human-LLM Collaborative Writing

Euntae Kim, Soomin Han, Buru Chang

cs.CL

本文提出了一个名为HarDBench的基准测试, 用于评估大语言模型(LLMs)在协同写作场景中, 面对基于草稿的越狱攻击时的安全性. 作者还提出了一种基于偏好优化的对齐方法, 以在拒绝有害内容的同时保持对良性草稿的辅助能力.

Location Not Found: Exposing Implicit Local and Global Biases in Multilingual LLMs

Guy Mor-Lan et al.

cs.CL cs.AI

本文通过构建 LocQA 测试集，量化了多语言大语言模型在回答地域模糊问题时的隐式偏见。研究发现模型存在偏向美国答案的全局偏见，且在指令微调后加剧，同时在单一语言内会优先考虑人口更多的地区。

IndiaFinBench: An Evaluation Benchmark for Large Language Model Performance on Indian Financial Regulatory Text

Rajveer Singh Pall

cs.CL cs.AI cs.IR

本文提出了一个针对印度金融监管文本的大语言模型评估基准 IndiaFinBench, 填补了非西方金融监管框架评估数据的空白. 该基准包含来自印度证券交易委员会和印度储备银行文档的四百余个专家标注问答对, 涵盖了监管解释, 数值推理等四种任务类型, 并评估了十二个模型在零样本条件下的表现.

Rethinking Scale: Deployment Trade-offs of Small Language Models under Agent Paradigms

Xinlin Wang, Mats Brorsson

cs.CL cs.AI

本文通过实验比较了不同参数规模的小型语言模型在基础模型、单智能体工具使用和多智能体协作三种范式下的性能与成本。研究发现，单智能体系统在性能与成本间取得了最佳平衡，而多智能体系统则带来了额外开销但收益有限。

Evaluating LLM-Driven Summarisation of Parliamentary Debates with Computational Argumentation

Eoghan Cunningham et al.

cs.CL

本文提出了一种基于计算论证(computational argumentation)的形式化框架, 用于评估议会辩论摘要是否忠实保留了论证结构. 该方法将论证结构锚定于辩论中的争议提案, 并通过一个欧洲议会的案例研究进行了演示.

Are Large Language Models Economically Viable for Industry Deployment?

Abdullah Mohammad et al.

cs.CL

本文提出了一个面向工业部署的LLM评估框架EDGE-EVAL, 旨在弥补传统以精度为中心的评估与工业对可靠性、效率和成本控制需求之间的差距. 该框架在Tesla T4 GPU上对多个LLM变体进行了基准测试, 引入了包括经济盈亏平衡点、能效和量化保真度在内的五项部署指标. 结果表明, 参数小于20亿的模型在经济效益和能效上普遍优于更大的基线模型.

DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing

Jinyu Guo et al.

cs.CL

本文提出了一种名为DASH-KV的加速框架，通过非对称深度哈希将注意力机制近似为最近邻搜索，以降低长上下文LLM推理的计算复杂度。该方法在保持生成质量的同时，将注意力复杂度从$O(N^2)$降低到线性$O(N)$。

Can Continual Pre-training Bridge the Performance Gap between General-purpose and Specialized Language Models in the Medical Domain?

Niclas Doll et al.

cs.CL

本文通过持续预训练和模型合并的方法，缩小了小型专业模型与大型通用模型在德语医学领域的性能差距。研究构建了德语医学语料库FineMed-de，并基于此对多个LLM进行领域适应，形成了DeFineMed模型家族。评估表明，专业化显著提升了较小模型在德语医学任务上的表现，但模型合并也带来了语言混合和冗余增加等权衡问题。

Does Self-Consistency Improve the Recall of Encyclopedic Knowledge?

Sho Hoshino, Ukyo Honda, Peinan Zhang

cs.CL

本文通过构建一个专门用于评估百科全书式知识回忆的数据集, 研究了 self-consistency 方法在知识回忆任务上的效果. 实验发现, self-consistency 在符号推理和知识回忆任务上均能提升模型性能, 并基于此在 MMLU 基准上取得了当前最佳结果.

Lost in Translation: Do LVLM Judges Generalize Across Languages?

Md Tahmid Rahman Laskar et al.

cs.CL

本文通过构建首个大规模多语言多模态评估基准 MM-JudgeBench，研究了大型视觉语言模型(LVLM)作为自动评估器在不同语言间的泛化能力。研究发现，现有评估器存在显著的跨语言性能差异，其鲁棒性与模型规模或架构关联不大。

What Makes an LLM a Good Optimizer? A Trajectory Analysis of LLM-Guided Evolutionary Search

Xinhao Zhang et al.

cs.CL cs.NE

本文通过分析15个LLM在8个任务上的优化轨迹, 研究了LLM引导进化搜索的机制. 研究发现, 强大的LLM优化器表现为局部精炼器, 能持续产生渐进式改进, 而较弱的优化器则表现出较大的语义漂移.

'The Order in the Horse's Heart': A Case Study in LLM-Assisted Stylometry for the Discovery of Biblical Allusion in Modern Literary Fiction

Ewan Cameron

cs.CL

本文提出了一种结合自下而上和自上而下方法的双轨流程, 用于检测现代文学小说中的圣经典故, 并以Cormac McCarthy的小说为例进行了案例研究. 该流程利用LLM辅助的文体测量学技术, 在大型文学语料库中发现了大量新的潜在典故, 并与已有学术研究进行了交叉验证.

LePREC: Reasoning as Classification over Structured Factors for Assessing Relevance of Legal Issues

Fanyu Wang et al.

cs.CL cs.AI

本文提出了一种结合神经生成与结构化统计推理的神经符号框架LePREC, 用于法律问题相关性判断. 该方法在真实法律案例数据集上相比先进LLM基线取得了显著性能提升.

Rank-Turbulence Delta and Interpretable Approaches to Stylometric Delta Metrics

Dmitry Pronin, Evgeny Kazartsev

cs.CL

本文提出了两种新的作者归属度量方法: Rank-Turbulence Delta 和 Jensen-Shannon Delta. 这些方法通过应用为概率分布设计的距离函数, 推广了经典的 Burrows's Delta, 并在多语言文学语料库上进行了评估.

Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews

Bowen Li et al.

cs.CL

本文提出了一个名为Beyond Rating的评估框架, 用于全面评估AI生成的论文评审, 超越了传统的评分预测任务. 该框架包含五个维度, 并引入了Max-Recall策略来处理专家间的合理分歧, 实验表明其提出的文本中心指标与人类偏好有更强的相关性.

Bangla Key2Text: Text Generation from Keywords for a Low Resource Language

Tonmoy Talukder, G M Shahariar

cs.CL

本文构建了一个用于孟加拉语关键词到文本生成任务的大规模数据集 Bangla Key2Text, 并基于 mT5 和 BanglaT5 模型建立了基准性能. 实验表明, 针对该任务进行微调能有效提升生成质量, 相关资源已开源.

Emotion-Cause Pair Extraction in Conversations via Semantic Decoupling and Graph Alignment

Tianxiang Ma et al.

cs.CL

本文提出了一个名为SCALE的统一框架来处理对话中的情感-原因对提取任务. 该框架通过语义解耦将情感导向和原因导向的语义映射到互补的表示空间, 并利用最优传输进行全局对齐以实现多对多的匹配. 实验表明该方法在多个基准数据集上取得了先进的性能.

Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment

Bobo Li et al.

cs.CL cs.AI cs.CY

本文研究了大型语言模型智能体在角色扮演中出现的Actor-Observer Asymmetry认知偏差，并提出了一个名为ReTAS的方法来缓解这种偏差。该方法通过辩证对齐训练，引导智能体综合不同视角以达成客观共识。

Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps

Jonas Waldendorf, Bashar Awwad Shiekh Hasan, Evgenii Tsymbalov

cs.CL cs.AI cs.LG

本文提出了一种利用attention maps在推理时检测SpeechLLMs幻觉的方法。该方法基于四种attention衍生指标训练轻量级分类器，在ASR和语音翻译任务上表现优于基线，并展示了良好的泛化能力。

A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

Jincheng Ren et al.

cs.CL

本文提出了一个名为TACO的自演化框架, 用于压缩terminal agent交互中的观测上下文, 以减少冗余和计算开销. 实验表明该框架能在多个基准上提升agent性能并降低token消耗.

Impact of large language models on peer review opinions from a fine-grained perspective: Evidence from top conference proceedings in AI

Wenqing Wu et al.

cs.CL cs.AI cs.DL cs.IR

本文通过分析AI顶会审稿报告, 从文本长度、流畅度、评价维度等细粒度层面, 研究了大型语言模型(LLMs)对同行评议的影响. 研究发现, LLMs的使用使审稿文本更长、更流畅, 但更侧重于总结和表面清晰度, 而对原创性、可复现性等深层评价维度的关注有所下降.

A Bolu: A Structured Dataset for the Computational Analysis of Sardinian Improvisational Poetry

Silvio Calderaro, Johanna Monti

cs.CL

本文构建了首个针对撒丁语即兴诗歌的结构化语料库 A Bolu, 并应用描述性统计指标与计算语言学技术进行了多维分析. 结果表明, 诗歌创作中存在支持 Parry 和 Lord 公式化理论的可复现模式, 这为理解口头创造力及开发面向少数语言的 NLP 工具提供了资源.

RoLegalGEC: Legal Domain Grammatical Error Detection and Correction Dataset for Romanian

Mircea Timpuriu, Dumitru-Clementin Cercel

cs.CL cs.AI cs.LG

本文构建了首个罗马尼亚语法律领域的语法错误检测与修正数据集RoLegalGEC, 并评估了多种基于Transformer的神经网络模型在该数据集上的性能. 这项工作旨在为罗马尼亚语在特定领域的自然语言处理研究提供资源基础.

Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models

Kihyuk Lee

cs.CL cs.AI

本文比较了三种大型语言模型在重复生成运动处方时的一致性。研究发现，尽管模型的语义相似度得分都很高，但其背后的生成行为模式存在根本差异，这凸显了在临床部署中评估模型重复生成稳定性的重要性。

The "Small World of Words" German Free-Association Norms

Samuel Aeschbach et al.

cs.CL

本文介绍了德语自由联想规范数据集SWOW-DE的构建与验证。该数据集填补了德语大规模联想数据的空白，并通过实验证明其能有效预测多种心理语言学任务的表现。

Micro Language Models Enable Instant Responses

Wen Cheng et al.

cs.CL

本文提出了一种名为 micro language models ($\mu$LMs) 的协作生成框架, 用于在资源受限的边缘设备上实现低延迟的即时语言响应. 该方法通过在本地生成简短的开场白并在云端完成后续内容, 有效掩盖了云推理的延迟.

The signal is the ceiling: Measurement limits of LLM-predicted experience ratings from open-ended survey text

Andrew Hong, Jason Potteiger, Luis E. Zapata

cs.CL

本文通过比较不同prompt设计和GPT模型在预测MLB球迷体验评分上的表现, 发现prompt定制化能小幅提升准确性, 但模型选择和prompt工程的整体影响远小于输入文本本身的特性. 研究指出性能上限部分源于模型解读文本的偏差, 部分源于文本中缺失的决策信息.

Pause or Fabricate? Training Language Models for Grounded Reasoning

Yiwen Qiu et al.

cs.CL

本文提出了一个名为GRIL的强化学习框架, 旨在解决大语言模型在信息不完整时进行"非事实推理"的问题. 该方法通过将推理过程分解为"澄清与暂停"和"事实推理"两个阶段, 并设计特定奖励来惩罚幻觉, 从而提高了模型在前提不足时主动停止的能力.

Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Yi Zhong et al.

cs.CL cs.AI cs.CV cs.LG cs.MA

本文提出了一个名为Chat2Workflow的基准测试，用于评估大语言模型根据自然语言生成可执行视觉工作流的能力。研究还提出了一个智能体框架来缓解执行错误，实验表明当前模型在生成稳定、正确的工作流方面仍面临挑战。

Exploring Language-Agnosticity in Function Vectors: A Case Study in Machine Translation

Nurkhan Laiyk et al.

cs.CL

本文研究了 function vectors (FVs) 在机器翻译任务中是否具有语言无关性。实验发现，从单一翻译方向提取的 FV 可以提升其他目标语言的翻译效果，并且这种影响在指令微调模型和不同翻译粒度上也有体现。

An Answer is just the Start: Related Insight Generation for Open-Ended Document-Grounded QA

Saransh Sharma et al.

cs.CL

本文提出了一个名为"document-grounded related insight generation"的新任务, 旨在为开放域问答生成能改进或扩展初始答案的额外见解. 作者构建了SCOpE-QA数据集, 并提出了InsightGen方法, 该方法通过聚类构建文档的主题图, 并利用LLMs生成相关见解. 实验表明该方法能产生有用的见解.

Epistemic orientation in parliamentary discourse is associated with deliberative democracy

Segun Aroyehun, Stephan Lewandowsky, David Garcia

cs.CL cs.CY

本文提出了一种名为EMI score的量化指标, 用于衡量政治话语中的认知取向(evidence-based vs. intuition-based). 通过分析多国议会演讲数据, 研究发现更高的EMI分数与协商民主质量及政府治理透明度呈正相关.

Discovering a Shared Logical Subspace: Steering LLM Logical Reasoning via Alignment of Natural-Language and Symbolic Views

Feihao Fang, My T. Thai, Yuanyuan Lei

cs.CL

本文提出了一种通过分析自然语言与符号语言推理链的残差激活来探索LLMs内部共享逻辑子空间的方法. 该方法利用典型相关分析学习一个低维子空间, 并设计了一种无需训练的策略来引导模型沿此子空间进行推理, 在多个逻辑推理基准上取得了性能提升.

cs.DS

Coordinatewise Balanced Covering for Linear Gain Graphs, with an Application to Coset-List Min-2-Lin over Powers of Two

Faruk Alpay, Levent Sarioglu

cs.DS cs.CC

本文研究了$\mathbb{Z}/2^d\mathbb{Z}$上的Coset-List Min-2-Lin$^{\pm}$问题，这是一个带列表约束的模方程删除问题。作者通过建立线性增益图（linear gain graphs）的坐标平衡覆盖定理，并利用秩压缩技术，给出了一个参数化算法。

Faster Linear-Space Data Structures for Path Frequency Queries

Ovidiu Rata

cs.DS

本文针对树上的路径频率查询问题, 提出了新的线性空间数据结构. 对于路径众数(path mode)和路径最少出现元素(path least frequent element)查询, 实现了$O(\sqrt{n/w})$的查询时间, 改进了先前的最佳结果. 对于路径$\alpha$-少数(path $\alpha$-minority)查询, 通过引入随机化算法将查询时间降至$O(\alpha^{-1})$.

Parameterized Capacitated Vertex Cover Revisited

Michael Lampis, Manolis Vasilakis

cs.DS cs.CC

本文研究了 Capacitated Vertex Cover 问题的精确计算复杂性, 从细粒度参数化视角给出了多个标准参数下的更清晰刻画. 对于参数 $k$, 在 ETH 下证明了 $k^{o(k)} n^{\mathcal{O}(1)}$ 时间算法不存在, 表明已知的 $k^{\mathcal{O}(\mathrm{tw})} n^{\mathcal{O}(1)}$ 时间算法本质最优. 对于顶点覆盖数 $\mathrm{vc}$, 排除了 $2^{\mathcal{O}(\mathrm{vc}^{2-\varepsilon})} n^{\mathcal{O}(1)}$ 时间算法的可能性; 对于顶点完整性 $\mathrm{vi}$, 则给出了匹配的 $\mathrm{vi}^{\mathcal{O}(\mathrm{vi}^{2})} n^{\mathcal{O}(1)}$ 时间上界. 对于树宽, 证明了即使参数化为树深, $n^{\mathcal{O}(\mathrm{tw})}$ 时间的标准动态规划算法在 ETH 下也是本质最优的.

Moderately beyond clique-width: reduced component max-leaf and related parameters

Édouard Bonnet et al.

cs.DS cs.DM math.CO

本文基于收缩序列框架引入了 reduced component max-leaf 参数 $\operatorname{cml}^\downarrow$, 它介于 clique-width 和 reduced bandwidth 之间. 作者为具有低 $\operatorname{cml}^\downarrow$ 值的图设计了多项式时间算法, 并研究了该参数在稀疏图类中的性质及其在非可转换性证明中的应用.

Effective Traveling for Metric Instances of the Traveling Thief Problem

Jan Eube et al.

cs.DS

本文研究了Traveling Thief Problem (TTP)中在固定packing plan下的tour-optimization component, 将其建模为一个travel cost依赖于已收集物品累积重量的加权TSP变体. 作者分析了不同距离度量(metric)和成本函数下的计算复杂性, 提出了针对特定度量(如path metric)的动态规划算法和近似算法, 并通过实验验证了其方法在优化旅行部分的有效性.

Suffix Random Access via Function Inversion: A Key for Asymmetric Streaming String Algorithms

Panagiotis Charalampopoulos et al.

cs.DS

本文提出了一种在非对称流模型中进行字符串处理的新框架, 通过引入后缀随机访问数据结构, 将多个字符串问题(如精确/近似模式匹配, Lempel-Ziv压缩)归约到在线只读模型. 其核心是将后缀随机访问与密码学中的函数求逆问题建立双向归约, 并设计了一种具有局部稀疏性的字符串同步集变体以实现高效流式构造.

others

ARGUS: Agentic GPU Optimization Guided by Data-Flow Invariants ⭐ 精选

Haohui Mai et al.

cs.DC cs.AI cs.PL

本文提出了一个名为Argus的agentic框架, 用于生成高性能GPU kernel. 其核心创新在于引入了data-flow invariants, 这是一种在编译时验证数据编排约束的规范, 通过抽象解释和SMT求解进行验证, 为零运行时开销. 框架包含一个基于tile的Pythonic DSL, 允许agent通过tag函数和断言来指定并验证数据流约束, 当违反约束时, 编译器会提供具体的反例用于生成密集的结构化反馈. 通过结合上下文强化学习规划器和GPU优化知识库, Argus在GEMM, flash attention和MoE等关键计算上生成的kernel性能达到了手工优化汇编代码的99-104%, 并显著优于现有基于agent的系统.

Modelling and Analysing Behaviours and Emotions via Complex User Interactions

Mohamed Mostafa

cs.HC cs.AI

本文提出了一个基于复杂数字系统的概念框架, 利用收集的纵向数据集, 根据从用户发布的文本中提取的人格特质和情绪来预测系统状态. 该研究通过一个在线奖学金系统的数据集进行构建, 并置于心理语言学, 人工智能和人机交互的广泛文献背景下进行讨论.

Scaling Test-Time Compute for Agentic Coding

Joongwon Kim et al.

cs.SE cs.AI cs.CL cs.LG

本文针对长周期编码智能体在测试时扩展的挑战, 提出了一种基于轨迹摘要的表示方法. 该方法通过并行和序列两种扩展方式, 提升了前沿编码智能体在多个基准测试上的性能.

Who Shapes Brazil's Vaccine Debate? Semi-Supervised Modeling of Stance and Polarization in YouTube's Media Ecosystem

Geovana S. de Oliveira et al.

cs.CY cs.AI cs.CL cs.LG cs.SI

本文利用半监督立场检测框架分析了巴西YouTube平台上的疫苗相关讨论, 追踪了长期动态. 研究发现, 科学传播和数字原生频道是支持和反对疫苗叙事的主要场所, 揭示了健康传播的结构性脆弱性.

CentaurTA Studio: A Self-Improving Human-Agent Collaboration System for Thematic Analysis

Lei Wang, Min Huang, Eduard Dragut

cs.HC cs.AI

本文介绍了一个名为CentaurTA Studio的人机协作系统, 用于主题分析中的开放式编码和主题构建. 该系统通过整合两阶段反馈、持续提示优化和基于量规的评估, 旨在提高分析的可控性和效率.

SPRITE: From Static Mockups to Engine-Ready Game UI

Yunshu Bai et al.

cs.HC cs.AI

本文提出了一种名为SPRITE的自动化流程, 用于将静态的游戏UI设计稿转换为可在游戏引擎中编辑的资产. 该方法通过结合Vision-Language Models和结构化的YAML中间表示, 来解析游戏UI中常见的非矩形布局和复杂的容器嵌套关系. 评估表明, 该工具能有效提升游戏UI的开发效率.

Dual Triangle Attention: Effective Bidirectional Attention Without Positional Embeddings

Logan Halle, Jason P. Gleghorn

q-bio.QM cs.LG

本文提出了一种名为Dual Triangle Attention的新型双向注意力机制，它通过将每个注意力头的查询-键子空间分割为两个互补的三角掩码，来隐式编码位置信息。该方法在合成任务和自然语言、蛋白质序列的掩码语言建模实验中进行了评估，展示了其在无需显式位置嵌入时学习位置信息的能力。

Thermal Anomaly Detection using Physics Aware Neuromorphic Networks: Comparison between Raw and L1C Sentinel-2 Data

Stephen Smith et al.

eess.SP cs.AI

本文提出了一种用于星载热异常检测的物理感知神经形态网络(PANN)框架, 并在Sentinel-2的原始L0数据和预处理后的L1C数据上进行了性能评估. 该框架旨在解决直接处理原始数据时面临的领域偏移和标签稀缺等挑战, 其处理延迟低于数据采集时间, 展示了实时星载处理的可行性.

TurboEvolve: Towards Fast and Robust LLM-Driven Program Evolution

Yang Yang et al.

cs.NE cs.AI

本文提出了一个名为TurboEvolve的多岛进化框架，旨在提升LLM驱动程序进化的样本效率和鲁棒性。该方法通过语言化采样和在线调度器来优化候选生成，并利用种子池注入技术来平衡探索与利用。

SpikeMLLM: Spike-based Multimodal Large Language Models via Modality-Specific Temporal Scales and Temporal Compression

Han Xu et al.

cs.NE cs.AI

本文提出了首个基于脉冲神经网络的Multimodal Large Language Model (MLLM)框架SpikeMLLM. 它通过引入模态特定的时间尺度和时间压缩机制, 在保持性能的同时显著降低了计算开销和能耗.

Neuromorphic Continual Learning for Sequential Deployment of Nuclear Plant Monitoring Systems

Samrendra Roy, Sajedul Talukder, Syed Bahauddin Alam

cs.NE cs.AI cs.LG

本文提出了一种基于spiking neural network (SNN)的continual learning系统，用于核电站工业控制系统的异常检测。该系统通过spike-encoded asynchronous sensor fusion处理异构传感器数据，并评估了多种continual learning策略，在保持高检测性能的同时显著降低了计算开销。

Agent-GWO: Collaborative Agents for Dynamic Prompt Optimization in Large Language Models

Xudong Wang et al.

cs.NE cs.AI cs.LG

本文提出了一个名为Agent-GWO的动态提示优化框架，用于提升大型语言模型在复杂推理任务上的性能。该框架将提示模板和解码超参数统一为可继承的智能体配置，并利用灰狼优化算法的领导者-跟随者机制进行协同更新，以寻找鲁棒的最优推理配置。

The decompressed tree size of $k$-ary chains

Michael Wallner

math.CO cs.DM cs.DS

本文研究了具有固定出度$k$的chain的decompressed tree size的渐近期望值. 通过分析均匀随机选取的size为$n$的chain, 证明了其期望值包含一个stretched exponential项$e^{c \sqrt{n}}$, 这一结果对固定长度的Brauer chain的极限分布也有意义.

Quantum AI for Cancer Diagnostic Biomarker Discovery

Mandeep Kaur Saggi et al.

q-bio.GN cs.LG

本文应用量子机器学习(QML)进行肺癌亚型的生物标志物发现与分类。研究通过差异表达和甲基化分析筛选基因，并构建量子分类器区分肺癌亚型与正常样本。结果表明QML为处理多组学数据和癌症分类提供了可扩展的方法。

Virtual boundary integral neural network for three-dimensional exterior acoustic problems

Jiahao Li et al.

cs.SD cs.LG

本文提出了一种用于三维外声学问题的虚拟边界积分神经网络(VBINN). 该方法通过在散射体或振动体内引入虚拟边界, 并用神经网络表示关联的源密度, 从而自动满足Sommerfeld辐射条件, 并避免了传统边界积分方法中的奇异性问题. 数值算例表明该方法在声散射等问题上与解析解吻合良好.

NeuroAI and Beyond: Bridging Between Advances in Neuroscience and ArtificialIntelligence

Anthony Zador et al.

q-bio.NC cs.AI cs.CY

本文概述了神经科学与人工智能(AI)领域融合的现状与挑战, 并提出了一个名为NeuroAI的研究路线图. 文章基于研讨会共识, 指出了当前AI在物理交互, 鲁棒学习和能效方面的不足, 并建议借鉴神经科学中的多尺度学习, 稀疏计算等原则来克服这些限制.

DanceCrafter: Fine-Grained Text-Driven Controllable Dance Generation via Choreographic Syntax

Hang Yuan et al.

cs.CV cs.AI

本文提出了一种名为Choreographic Syntax的理论框架和配套的标注系统，用于解决细粒度文本驱动舞蹈生成的难题。基于此框架构建了高质量数据集DanceFlow，并开发了DanceCrafter模型来生成高保真且可控的舞蹈序列。

Position: No Retroactive Cure for Infringement during Training

Satoru Utsunomiya et al.

cs.CR cs.AI

本文从法律角度探讨了生成式AI训练数据合规问题, 认为事后补救措施无法消除训练阶段侵权责任. 作者主张应转向可验证的事前流程合规.

From Craft to Kernel: A Governance-First Execution Architecture and Semantic ISA for Agentic Computers

Xiangyu Wen et al.

cs.CR cs.AI

本文提出了一种名为Arbiter-K的治理优先执行架构，用于解决智能体AI系统的脆弱性问题。该架构通过一个确定性的神经符号内核封装底层模型，并实现了一种语义指令集架构来管理执行流与安全策略。

Unlocking the Edge deployment and ondevice acceleration of multi-LoRA enabled one-for-all foundational LLM

Sravanth Kodavanti et al.

cs.DC cs.AI cs.CL

本文提出了一种用于在智能手机上高效部署支持多任务的LLaMA基础模型的硬件感知框架. 该方法通过集成LoRA适配器、多流解码和动态推测解码等技术, 在内存和延迟方面实现了显著优化.

Owner-Harm: A Missing Threat Model for AI Agent Safety

Dongcheng Zhang, Yiqing Jiang

cs.CR cs.AI cs.CL

本文提出了一个名为 Owner-Harm 的威胁模型，用于描述 AI 智能体对其部署者造成损害的行为。作者通过实验表明，现有的安全防御措施在应对此类威胁时存在显著缺陷，并提出了一个分析防御泛化能力的框架。

Evaluating Answer Leakage Robustness of LLM Tutors against Adversarial Student Attacks

Jin Zhao, Marta Knežević, Tanja Käser

cs.CR cs.AI

本文研究了在对抗性学生攻击下, LLM-based tutor 的 answer leakage robustness. 通过引入 fine-tuned 的对抗性学生 agent 作为基准测试核心, 并提出了有效的防御策略.

Beyond Explicit Refusals: Soft-Failure Attacks on Retrieval-Augmented Generation

Wentao Zhang et al.

cs.CR cs.AI

本文提出了一种针对检索增强生成(RAG)系统的“软失败”攻击方法。该方法通过生成对抗性文档，诱导模型产生流畅但无用的回答，而非显式拒绝，从而更隐蔽地降低系统效用。

Beyond Indistinguishability: Measuring Extraction Risk in LLM APIs

Ruixuan Liu, David Evans, Li Xiong

cs.CR cs.CL cs.LG

本文探讨了LLM API中数据提取风险与不可区分性隐私概念之间的关系. 作者提出了$(l, b)$-不可提取性定义, 并推导了提取风险的上界估计方法.

TrEEStealer: Stealing Decision Trees via Enclave Side Channels

Jonas Sander et al.

cs.CR cs.LG

本文提出了一种名为TrEEStealer的攻击方法, 用于从受TEE保护的决策树模型中窃取模型. 该方法利用TEE特有的侧信道, 结合控制流信息与被动信息跟踪, 实现了高效的模型提取.

Towards Optimal Agentic Architectures for Offensive Security Tasks

Isaac David, Arthur Gervais

cs.CR cs.AI

本文通过构建一个包含20个交互式目标的基准测试, 实证研究了不同多智能体架构在渗透测试任务中的性能与成本. 实验表明, 白盒测试和Web目标的检测率显著更高, 而智能体协调拓扑的选择在成本与效果之间存在非单调的权衡关系.

Skillful Global Ocean Emulation and the Role of Correlation-Aware Loss

Niraj Agarwal et al.

physics.ao-ph cs.AI nlin.CD

本文提出了一种基于GraphCast架构的全球海洋模拟器, 用于在给定大气强迫下的中短期预报. 通过使用Mahalanobis距离作为损失函数来显式考虑目标变量间的相关性, 该模型在10-15天的预报时效内展现出优于均方误差损失的技巧. 该相关性感知损失被证明能作为统计-动力正则化器, 改善海洋慢变相关动力学的背景场预报.

REVEAL: Multimodal Vision-Language Alignment of Retinal Morphometry and Clinical Risks for Incident AD and Dementia Prediction

Seowung Leem et al.

cs.CV cs.AI

本文提出了一个名为REVEAL的框架, 用于通过对齐视网膜彩色眼底照片与个体化疾病风险特征来预测阿尔茨海默病和痴呆症. 该方法将结构化的风险因素转化为临床可解释的叙述文本, 并利用分组感知的对比学习策略来增强多模态对齐, 在早期风险预测任务上超越了现有方法.

Optimal Exploration of New Products under Assortment Decisions

Jackie Baek, Atanas Dinev, Thodoris Lykouris

cs.SI cs.GT cs.LG

本文研究了平台在容量限制下进行产品组合决策时，如何通过在线学习来探索质量未知的新产品。研究分析了探索新产品的两种策略，并指出经典bandit算法在此场景下的不足。

LLM-as-Judge Framework for Evaluating Tone-Induced Hallucination in Vision-Language Models

Zhiyuan Jiang et al.

cs.CV cs.AI

本文提出了一个名为 Ghost-100 的基准测试，用于评估视觉语言模型在受到不同语气强度的提示时产生幻觉的情况。研究通过一个结构化的提示强度框架和双轨评估协议，分析了多个开源模型在不同任务类型下的响应模式。

Geometric Decoupling: Diagnosing the Structural Instability of Latent

Yuanbang Liang, Zhengwen Chen, Yu-Kun Lai

cs.CV cs.AI

本文通过引入一个Riemannian框架来分析Latent Diffusion Models (LDMs)的生成Jacobian, 将几何结构分解为局部缩放(Local Scaling)和局部复杂度(Local Complexity, 即曲率). 研究发现, 在正常生成中曲率编码图像细节, 而在分布外生成时, 极端的曲率被浪费在不稳定的语义边界上, 这种几何错配是潜在空间不稳定性的结构性根源.

Sparse Network Inference under Imperfect Detection and its Application to Ecological Networks

Aoran Zhang et al.

stat.ML cs.LG eess.SP math.OC stat.AP

本文提出了一种用于稀疏网络推断的框架, 结合了非负低秩分解与检测概率估计. 该方法通过非凸 $\ell_{1/2}$ 正则化来促进组内相似性和组间连接性的稀疏性, 并设计了基于ADMM的求解算法. 在合成和真实生态数据集上的实验表明, 该方法在恢复潜在因子和网络结构方面优于现有基线.

OmniMouse: Scaling properties of multi-modal, multi-task Brain Models on 150B Neural Tokens

Konstantin F. Willeke et al.

q-bio.NC cs.AI

本文利用大规模神经活动数据集训练了一个多模态、多任务的脑活动预测模型 OmniMouse. 该模型在多个预测任务上达到了先进水平, 并揭示了脑模型性能主要受数据规模而非模型参数规模驱动, 这与当前主流 AI 模型的扩展规律相反.

Benchmarking Quantum Kernel Support Vector Machines Against Classical Baselines on Tabular Data: A Rigorous Empirical Study with Hardware Validation

Siavash Kakavand, Christoph Strohmeyer, Michael Schlotter

quant-ph cs.LG

本文对量子核支持向量机(QSVM)在表格数据上的性能进行了全面的实证研究, 并与经典基线进行了严格比较. 研究发现, 在当前设置下, 量子核方法在统计显著性上并未超越经典方法, 其性能差异主要受数据集而非核类型主导.

Trainability Beyond Linearity in Variational Quantum Objectives

Gordon Ma, Xiufan Li

quant-ph cs.LG

本文探讨了variational quantum objectives中梯度消失(barren plateau)问题的边界. 研究指出, 标准浓度证明模板的适用范围精确对应于损失函数在测量统计量上为仿射(affine)的情形, 并分析了非仿射目标函数的结构特性.

The Triadic Loop: A Framework for Negotiating Alignment in AI Co-hosted Livestreaming

Katherine Wang, Nadia Berthouze, Aneesha Singh

cs.HC cs.AI cs.SI

本文提出了一个名为"Triadic Loop"的概念框架, 用于分析AI协同主持的直播流中的对齐(alignment)问题. 该框架将传统的二元交互模型扩展为包含主播, AI协同主持和观众的三方动态适应过程, 并讨论了"战略性错位"等设计考量.

Temporal UI State Inconsistency in Desktop GUI Agents: Formalizing and Defending Against TOCTOU Attacks on Computer-Use Agents

Wenpeng Xu

cs.CR cs.AI

本文针对通过截图-点击循环控制桌面计算机的GUI agents，提出并形式化了一种由观察与执行之间的时间差导致的新型安全漏洞，称为Visual Atomicity Violation。作者设计了名为Pre-execution UI State Verification (PUSV)的三层轻量级防御机制，在动作执行前重新验证UI状态，有效拦截了多种攻击原语，但也揭示了针对无视觉痕迹的Web DOM注入攻击的结构性盲点。

Human-Machine Co-Boosted Bug Report Identification with Mutualistic Neural Active Learning

Guoming Long et al.

cs.SE cs.AI

本文提出了一种名为Mutualistic Neural Active Learning (MNAL)的跨项目框架，用于自动化识别GitHub仓库中的bug报告。该方法结合了神经语言模型和主动学习，通过人机协作来提升模型性能并减少人工标注的工作量。

Hierarchically Robust Zero-shot Vision-language Models

Junhao Dong et al.

cs.CV cs.AI cs.LG

本文提出了一种基于层次嵌入的对抗性微调框架, 旨在提升 Vision-Language Models (VLMs) 在零样本分类任务中的对抗鲁棒性. 该方法通过多层次的模态对齐和利用类别空间的层次结构来实现这一目标.

Meeting times on graphs in near-cubic time

Alex McAvoy

q-bio.PE cs.DS

本文针对无向图上两个随机游走者的期望相遇时间计算问题, 提出了一种高效的算法. 通过利用线性方程组的特殊结构(近似 Sylvester 方程), 将计算复杂度从 $O(N^{6})$ 降低到 $O(N^{4})$, 并进一步理论优化至 $O(N^{3}\log^{2}N)$. 该方法可推广至求解具有任意源的"懒惰"对游走的 Poisson 方程, 并在计算演化动力学中的固定概率和平均性状频率方面有应用.

A Proxy Consistency Loss for Grounded Fusion of Earth Observation and Location Encoders

Zhongying Wang et al.

cs.CV cs.AI

本文提出了一种代理一致性损失(PCL), 用于融合地球观测数据和可训练的位置编码器. 该方法通过位置编码器隐式地整合与目标变量相关的代理地理数据, 并在空气质量预测和贫困地图绘制任务上验证了其优于显式融合策略的性能.

Choose Your Own Adventure: Non-Linear AI-Assisted Programming with EvoGraph

Vassilios Exarhakos, Jinghui Cheng, Jin L.C. Guo

cs.HC cs.AI cs.SE

本文介绍了一个名为EvoGraph的IDE插件，它通过交互式开发图来记录和管理AI辅助编程的非线性历史。该工具旨在帮助开发者更有效地探索替代方案和追踪代码变更，初步用户研究表明其能降低认知负荷并支持安全探索。

Regulating Artificial Intimacy: From Locks and Blocks to Relational Accountability

Henry Fraser, Jessica M. Szczuka, Raffaele F. Ciriello

cs.CY cs.AI cs.ET

本文从法律文本分析和监管理论等角度, 批判性地审视了针对伴侣聊天机器人的近期监管干预. 作者主张有效的监管需要整合访问控制, 内容审核, 关系特征治理和基于过程的问责等多维度措施, 并提出引入一般性的注意义务作为约束平台权力, 应对风险根源的初步步骤.

Safety-Certified CRT Sparse FFT: $Ω(k^2)$ Lower Bound and $O(N \log N)$ Worst-Case

Aaron R. Flouro, Shawn P. Chadwick

eess.SP cs.DS cs.IT

本文针对基于CRT的稀疏FFT算法，分析了当模数非两两互素时存在的潜在风险，并提出了一个鲁棒性框架。该工作揭示了在特定模数配置下，算法可能面临$\Omega(k^2)$的候选频率增长下界，导致最坏情况复杂度可能超过传统FFT。作为应对，作者设计了一个结合轻量级证书验证和自适应回退到稠密FFT的框架，从而在最坏情况下保证了$O(N \log N)$的时间复杂度。

From Particles to Perils: SVGD-Based Hazardous Scenario Generation for Autonomous Driving Systems Testing

Linfeng Liang et al.

cs.SE cs.LG

本文提出了一种基于Stein Variational Gradient Descent (SVGD)的自动驾驶系统危险场景生成框架PtoP. 该框架通过结合自适应随机种子生成与SVGD, 旨在产生多样且能诱发系统失效的初始条件, 以提升仿真测试的效率和覆盖率.

Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features

Chenqian Le et al.

cs.SD cs.CL

本文比较了使用发音特征(SPARC)和音素特征预测表面肌电信号(sEMG)包络的准确性. 研究发现, 在多种语音模式下, SPARC特征都能提供更准确且可解释的预测.

Tadabur: A Large-Scale Quran Audio Dataset

Faisal Alherran

cs.SD cs.AI

本文介绍了一个名为Tadabur的大规模《古兰经》音频数据集。该数据集包含超过1400小时的诵读音频，旨在为《古兰经》语音研究提供一个多样化的资源。

Gated Memory Policy

Yihuai Gao et al.

cs.RO cs.AI

本文提出了一种用于机器人操作任务的视觉运动策略GMP, 它通过一个可学习的记忆门机制和轻量级交叉注意力模块, 来学习何时以及如何利用历史信息. 该方法在非马尔可夫任务上相比长历史基线有显著性能提升, 同时在马尔可夫任务上保持竞争力.

Superficial Success vs. Internal Breakdown: An Empirical Study of Generalization in Adaptive Multi-Agent Systems

Namyoung So, Seokgyu Jang, Taeuk Kim

cs.MA cs.CL

本文通过实证研究揭示了自适应多智能体系统(MAS)在泛化能力上的局限性. 研究发现系统存在拓扑过拟合和虚假协调问题, 表明其表面成功与内部协作机制失效并存.

Beyond Bellman: High-Order Generator Regression for Continuous-Time Policy Evaluation

Yaowei Zheng et al.

stat.ML cs.LG math.OC

本文提出了一种高阶生成器回归方法,用于有限时域连续时间策略评估。该方法通过匹配多步转移的矩来估计时间相关的生成器,并结合后向回归,以超越Bellman基线的精度。理论分析将误差分解为多个来源,并给出了决策频率区间图以解释高阶增益的出现条件。

Ground-Level Near Real-Time Modeling for PM2.5 Pollution Prediction

Zachary R. Fox et al.

stat.AP cs.LG

本文提出了一种用于PM2.5浓度近实时预测的深度学习模型。该模型以无网格方式，结合地形、气象等多源数据，在稀疏监测站点之间进行插值预测，具有轻量化和快速更新的特点。

AutoAWG: Adverse Weather Generation with Adaptive Multi-Controls for Automotive Videos

Jiagao Hu et al.

cs.CV cs.AI cs.MM

本文提出了一个可控的自动驾驶视频恶劣天气生成框架AutoAWG. 它通过语义引导的自适应多控制融合来平衡天气风格化与关键目标保真度, 并利用静态图像构建训练序列以减少对合成数据的依赖.

Refute-or-Promote: An Adversarial Stage-Gated Multi-Agent Review Methodology for High-Precision LLM-Assisted Defect Discovery

Abhinav Agarwal

cs.CR cs.AI cs.SE

本文提出了一种名为Refute-or-Promote的对抗性多智能体审查方法, 旨在提高LLM辅助缺陷发现的精度. 该方法通过分层上下文搜索生成候选, 并利用对抗性智能体和跨模型批评者来过滤误报, 在实际项目中验证了其有效性.

Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization

Andrei Andrusenko et al.

eess.AS cs.AI cs.CL cs.HC

本文提出了一种支持离线与流式解码的统一ASR Transducer框架, 并引入了mode-consistency regularization来减小两种模式间的性能差距. 实验表明该方法能在保持离线性能的同时提升低延迟流式识别的准确率.

ProjLens: Unveiling the Role of Projectors in Multimodal Model Safety

Kun Wang et al.

cs.CR cs.AI

本文提出了一个名为ProjLens的可解释性框架, 用于分析多模态大语言模型(MLLMs)中后门攻击的机制. 研究发现, 即使仅微调投影器(projector)也会引入后门漏洞, 且其激活机制与纯文本模型不同, 后门关键参数存在于投影器的低秩子空间中.

Fast estimation of Gaussian mixture components via centering and singular value thresholding

Huan Qing

stat.ML cs.LG

本文提出了一种基于数据中心化和奇异值阈值处理的高斯混合模型分量数快速估计方法. 该方法无需迭代拟合或似然计算, 在满足分量中心适度分离的条件下, 能够一致地恢复真实分量数, 并适用于高维、多分量及严重类别不平衡的场景.

RoboWM-Bench: A Benchmark for Evaluating World Models in Robotic Manipulation

Feng Jiang et al.

cs.RO cs.AI

本文提出了RoboWM-Bench，一个用于评估视频世界模型在机器人操作任务中物理可执行性的基准测试。该基准通过将生成的视频行为转化为可执行的机器人动作序列并进行实际验证，揭示了当前模型在空间推理和物理一致性方面仍面临挑战。

Multi-modal Test-time Adaptation via Adaptive Probabilistic Gaussian Calibration

Jinglin Xu et al.

cs.CV cs.AI

本文提出了一种针对多模态测试时适应(TTA)的自适应概率高斯校准方法. 该方法通过显式建模类别条件分布并校正模态不对称性, 提升了模型在分布偏移下的鲁棒性.

Relational AI in Education: Reciprocity, Participatory Design, and Indigenous Worldviews

Roberto Martinez-Maldonado et al.

cs.HC cs.AI

本文探讨了教育中人工智能的设计应注重社会关系与生态责任, 而非仅仅追求效率与个性化. 作者基于参与式设计和原住民世界观, 提出了以互惠性为核心的关系型AI教育设计框架.

Multi-Gait Learning for Humanoid Robots Using Reinforcement Learning with Selective Adversarial Motion Prior

Yuanye Wu et al.

cs.RO cs.AI

本文提出了一种用于人形机器人的多步态学习方法, 通过选择性应用Adversarial Motion Prior (AMP)来平衡不同步态对稳定性和动态表现力的需求. 该方法在仿真中使用PPO和domain randomization进行训练, 并实现了零样本的sim-to-real迁移, 在物理机器人上验证了其有效性.

Reinforcement Learning Enabled Adaptive Multi-Task Control for Bipedal Soccer Robots

Yulai Zhang et al.

cs.RO cs.AI

本文提出了一种用于双足足球机器人的模块化强化学习框架, 通过结合开环前馈振荡器和基于强化学习的反馈残差策略来分离基础步态与复杂足球动作的生成. 该方法引入了姿态驱动的状态机来切换寻球/踢球网络与跌倒恢复网络, 并在仿真中展示了良好的空间适应性和快速的自主跌倒恢复能力.

Design Rules for Extreme-Edge Scientific Computing on AI Engines

Zhenghua Ma et al.

cs.AR cs.AI cs.LG

本文探讨了在极端边缘科学计算场景下, 如何选择在FPGA SoC的AI Engine与可编程逻辑(programmable logic)上部署神经网络. 作者提出了LARE (latency-adjusted resource equivalence) 指标来指导选择, 并针对低延迟推理提出了数据流优化方法.

DP-FlogTinyLLM: Differentially private federated log anomaly detection using Tiny LLMs

Isaiah Thompson, Tanmay Sen, Ritwik Bhattacharya

cs.CR cs.AI

本文提出了一种基于差分隐私和联邦学习的日志异常检测框架DP-FLogTinyLLM. 该框架利用参数高效的Tiny LLMs, 在保护数据隐私的同时实现了与集中式方法相当的性能.

ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving

Lin Sha et al.

cs.CV cs.AI

本文提出了一种用于自动驾驶视觉语言模型的免训练时空token剪枝框架ST-Prune. 它通过运动感知时间剪枝和环视空间剪枝模块, 有效利用了驾驶场景中的时空冗余, 在多个基准测试中实现了高压缩率下的近无损性能.

MSDS: Deep Structural Similarity with Multiscale Representation

Danling Kang et al.

cs.CV cs.LG

本文提出了一个多尺度深度结构相似性框架(MSDS), 通过在不同金字塔层级独立计算DeepSSIM并使用可学习的全局权重融合结果, 来研究空间尺度在深度特征相似性建模中的作用. 实验表明, 该最小化多尺度扩展能带来一致且显著的性能提升, 证实了空间尺度是一个不可忽视的因素.

Analytical Extraction of Conditional Sobol' Indices via Basis Decomposition of Polynomial Chaos Expansions

Shijie Zhong, Jiangfeng Fu

stat.ML cs.LG math.NA

本文提出了一种基于Polynomial Chaos Expansion (PCE) 基函数分解的分析方法, 用于高效计算conditional Sobol' indices. 该方法将条件敏感性分析转化为对预训练PCE模型的纯代数后处理, 避免了重复建模, 在数值鲁棒性和计算效率上优于传统方法.

Deep Image Prior for photoacoustic tomography can mitigate limited-view artifacts

Hanna Pulkkinen et al.

eess.IV cs.LG math.OC

本文研究了将 deep image prior (DIP) 框架应用于光声断层扫描 (PAT) 重建，以无监督的方式缓解实验环境中常见的有限视角伪影和噪声。通过使用快速正演和伴随算法，并结合总变差 (TV) 正则化进行初始化，该方法在模拟和实验数据上均显示出优于经典 TV 重建的定量性能。

Improved Anomaly Detection in Medical Images via Mean Shift Density Enhancement

Pritam Kar, Gouri Lakshmi S, Saptarshi Bej

cs.CV cs.AI

本文提出了一种结合自监督表示学习与流形密度估计的混合异常检测框架, 用于医学图像分析. 该方法通过Mean Shift Density Enhancement (MSDE) 过程在特征空间中移动样本以增强正常样本的密度估计, 并利用PCA降维空间中的高斯密度与Mahalanobis距离计算异常分数. 在多个医学影像数据集上的实验表明其性能达到了先进水平.

Auditing LLMs for Algorithmic Fairness in Casenote-Augmented Tabular Prediction

Xiao Qi Lee, Ezinne Nwankwo, Angela Zhou

cs.CY cs.LG

本文在住房安置预测任务中, 审计了基于LLM的表格分类算法的公平性. 研究发现, 结合案例摘要的微调模型能在提升准确率的同时减少公平性差距, 而零样本分类则未引入额外的文本偏见.

Attention-based Multi-modal Deep Learning Model of Spatio-temporal Crop Yield Prediction with Satellite, Soil and Climate Data

Gopal Krishna Shyam, Ila Chandrakar

cs.CV cs.AI

本文提出了一种基于注意力机制的多模态深度学习框架(ABMMDLF), 用于整合卫星影像、气象时间序列和土壤数据以预测作物产量. 该模型结合了CNN提取空间特征和时序注意力机制加权关键物候期, 在实验中取得了优于基线模型的预测精度.

Sherpa.ai Privacy-Preserving Multi-Party Entity Alignment without Intersection Disclosure for Noisy Identifiers

Daniel M. Jimenez-Gutierrez et al.

cs.CR cs.AI cs.DC cs.LG

本文提出了一种用于Vertical Federated Learning (VFL)的多方隐私保护实体对齐协议，该协议基于private set union (PSU)而非private set intersection (PSI)，以隐藏交集信息。该方法支持精确匹配和容错匹配，并扩展到多方场景，同时分析了其正确性、隐私性及通信计算复杂度。

Streamliners for Answer Set Programming

Florentina Voboril et al.

cs.LO cs.AI

本文将 StreamLLM 方法应用于 Answer Set Programming (ASP), 利用 Large Language Models (LLMs) 为给定的问题编码生成候选的 streamliner 约束. 通过筛选和评估, 最终得到的虚拟最佳编码在多个基准测试上实现了显著的加速.

Beyond Semantic Similarity: A Component-Wise Evaluation Framework for Medical Question Answering Systems with Health Equity Implications

Abu Noman Md Sakib, Md. Main Oddin Chisty, Zijie Zhang

cs.HC cs.AI cs.CL cs.LG

本文提出了一个名为VB-Score的评估框架，用于更全面地评估医疗问答系统，超越了传统的语义相似度指标。该框架从实体识别、语义相似性、事实一致性和结构化信息完整性四个维度进行分析，并在多个大型语言模型上发现了显著的性能差异与潜在的公平性问题。

HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

Feiyu Zhao et al.

cs.SD cs.AI

本文提出了一个用于评估大型音频-语言模型幻觉问题的大规模基准测试HalluAudio. 该基准覆盖语音、环境声和音乐, 包含多种任务类型, 并设计了系统性的评估协议以深入分析模型缺陷. 对多个开源和专有模型的测试揭示了其在声学基础、时序推理和音乐属性理解方面的显著不足.

Co-Refine: AI-Powered Tool Supporting Qualitative Analysis

Athikash Jeyaganthan et al.

cs.HC cs.AI

本文介绍了一个名为Co-Refine的AI增强质性编码平台，旨在通过一个三阶段审计流程来检测和减少编码过程中的时间漂移，从而提升分析的可信度。该系统结合了确定性指标和大型语言模型来提供实时、可靠的编码一致性反馈。

PLaMo 2.1-VL Technical Report

Tommi Kerola et al.

cs.CV cs.AI

本文介绍了轻量级视觉语言模型PLaMo 2.1-VL，专为本地和边缘设备部署设计，支持日语操作。该模型在日语和英语基准测试中表现优于同类开源模型，并在工厂任务分析和基础设施异常检测等实际应用场景中进行了评估。

Improvements to the post-processing of weather forecasts using machine learning and feature selection

Kazuma Iwase, Tomoyuki Takenawa

physics.ao-ph cs.LG

本文利用机器学习方法对日本气象厅的MSM预报数据进行后处理改进. 通过引入周边格点特征和相关性特征选择, LightGBM模型在多个地点和预报时效上取得了较低的RMSE. 针对降水预报, 作者还探索了Tweedie损失函数和事件加权训练策略, 以改善对强降水事件的预测.

Scalable Memristive-Friendly Reservoir Computing for Time Series Classification

Coşku Can Horuz et al.

cs.NE cs.LG

本文提出了一种名为MARS的新型并行忆阻友好储层计算架构, 通过引入减性跳跃连接简化并增强了模型. 该设计在多个长序列基准测试上取得了优于主流梯度序列模型的性能, 并大幅提升了训练速度.

Mind2Drive: Predicting Driver Intentions from EEG in Real-world On-Road Driving

Ghadah Alosaimi et al.

cs.CV cs.HC cs.LG cs.RO

本文提出了一种基于EEG信号预测驾驶员意图的框架, 并在真实道路驾驶场景中进行了评估. 研究比较了多种深度学习架构, 发现TSCeption模型在预测准确性和时间稳定性方面表现最佳.

Multimodal Transformer for Sample-Aware Prediction of Metal-Organic Framework Properties

Seunghee Han, Jaewoong Lee, Jihan Kim

cond-mat.mtrl-sci cs.AI

本文提出了一种结合MOFid与X-ray diffraction (XRD)的多模态transformer模型EXIT, 用于预测金属有机框架(MOF)的性质. 该模型通过预训练和微调, 在实验数据集上展现了优于现有方法的性能, 并能够根据不同的XRD图谱对同一MOF的不同样本给出差异化的预测.

M$^{2}$GRPO: Mamba-based Multi-Agent Group Relative Policy Optimization for Biomimetic Underwater Robots Pursuit

Yukai Feng et al.

cs.RO cs.AI

本文提出了一种名为M$^{2}$GRPO的新框架，用于解决仿生水下机器人协同追捕任务中的挑战。该方法结合了Mamba策略与分组相对策略优化，在仿真和真实水池实验中表现优于现有基线。

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Fan Li et al.

cs.CV cs.AI

本文提出了一个名为HP-Edit的后训练框架，用于提升图像编辑模型与人类偏好的对齐度。该框架利用少量人类偏好评分数据训练了一个自动评估器，并构建了一个大规模的真实世界偏好数据集用于模型微调。

GOLD-BEV: GrOund and aeriaL Data for Dense Semantic BEV Mapping of Dynamic Scenes

Joshua Niemeijer et al.

cs.CV cs.AI

本文提出了GOLD-BEV框架，利用训练时同步的航拍图像作为监督，从自车传感器学习包含动态目标的密集鸟瞰图语义地图。该方法通过生成BEV伪标签和可选的伪航拍图像重建来扩展监督范围，减少了对密集人工标注的依赖。

VCE: A zero-cost hallucination mitigation method of LVLMs via visual contrastive editing

Yanbin Huang et al.

cs.CV cs.CL

本文提出了一种名为Visual Contrastive Editing (VCE)的后处理方法, 用于缓解大型视觉语言模型(LVLMs)中的物体幻觉问题. 该方法通过分析模型对对比性视觉扰动的响应, 利用奇异值分解(SVD)识别并抑制幻觉子空间, 无需微调或标注数据即可实现.

Counting Worlds Branching Time Semantics for post-hoc Bias Mitigation in generative AI

Alessandro G. Buda et al.

cs.LO cs.AI

本文提出了一种名为CTLF的分支时间逻辑, 用于形式化地推理生成式AI输出序列中的偏见问题. 该逻辑采用计数世界语义, 允许验证输出序列是否符合受保护属性的预期概率分布, 并评估恢复公平性所需的干预.

A neural operator framework for data-driven discovery of stability and receptivity in physical systems

Chengyun Wang, Liwei Chen, Nils Thuerey

physics.flu-dyn cs.AI

本文提出了一种基于神经算子的数据驱动框架, 用于从观测数据中自动识别物理系统的稳定性与感受性(即最优强迫响应). 该方法通过训练神经网络作为动力学模拟器, 并利用自动微分提取其Jacobian, 从而直接从数据计算特征模态(eigenmodes)和感受性模态(resolvent modes). 作者在经典混沌模型和高维流体流动中验证了该框架的有效性.

Fairness Audits of Institutional Risk Models in Deployed ML Pipelines

Kelly McConvey et al.

cs.CY cs.AI cs.HC

本文通过复制一所学院已部署的早期预警系统(EWS)模型，对其机器学习流程进行了公平性审计。研究发现，流程中的数据处理和后处理阶段会放大基于性别、年龄等属性的预测偏差。

Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean

Hyunjung Joo, GyeongTaek Lee

cs.SD cs.CL

本文提出了一种基于深度监督对比学习的框架Dual-Glob，用于对首尔韩语的音高重音模式进行鲁棒分类。该方法通过在一个共享的潜在空间中增强$F_0$轮廓的结构一致性，超越了传统的局部预测模型。

Evaluating LLM-Generated Obfuscated XSS Payloads for Machine Learning-Based Detection

Divyesh Gabbireddy, Suman Saha

cs.CR cs.LG cs.SE

本文提出了一种利用大语言模型(LLM)生成和评估混淆XSS攻击载荷的流程。该流程结合了确定性变换与基于LLM的生成，并通过浏览器运行时行为评估来验证载荷的有效性。实验表明，当前LLM在生成行为保持的混淆载荷方面仍有困难，且生成的样本对下游分类器的检测性能提升有限。

BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps

Lekai Qian et al.

cs.SD cs.AI

本文提出了一种基于均匀时间步长的符号音乐tokenization方法BEAT, 将每个固定时长(如一个节拍)内的所有音符事件编码为一个token. 该方法在音乐续写和伴奏生成任务上取得了优于主流事件序列方法的效果, 表现出更高的音乐质量和结构连贯性.

Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

Alankrit Chona, Igor Kozlov, Ambuj Kumar

cs.CR cs.AI

本文提出了一个用于评估LLM在安全运维中自主威胁狩猎能力的基准测试, 通过模拟真实攻击场景和日志数据库来测试模型在无引导情况下识别恶意事件的能力. 测试结果表明, 当前最先进的LLM在此类开放任务上表现不佳, 远未达到实际部署的要求.

Mesh Memory Protocol: Semantic Infrastructure for Multi-Agent LLM Systems

Hongwei Xu

cs.MA cs.AI

本文提出了Mesh Memory Protocol (MMP), 一种用于多智能体LLM系统的语义基础设施协议. 它通过定义Cognitive Memory Block (CMB)等原语, 解决了智能体间跨会话认知协作中的信息共享与追踪问题.

EgoSelf: From Memory to Personalized Egocentric Assistant

Yanshuo Wang et al.

cs.CV cs.AI

本文提出了一个名为EgoSelf的系统，用于构建个性化的第一人称视角智能助手。该系统通过基于图的交互记忆来整合长期用户数据，并设计了一个预测未来交互的学习任务。实验验证了该方法的有效性。

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

Shuhai Peng et al.

cs.SD cs.AI

本文提出了一种用于流式目标说话人提取的自回归模型, 通过引入Chunk-wise Interleaved Splicing Paradigm实现了高效稳定的流式推理. 该方法设计了历史上下文精炼机制来缓解边界不连续问题, 在低延迟下保持了性能稳定性和可懂度.

Safety-Critical Contextual Control via Online Riemannian Optimization with World Models

Tongxin Li

eess.SY cs.AI

本文提出了一种基于在线Riemannian优化的样本惩罚预测控制(PPC)框架, 用于处理安全关键上下文控制问题. 该方法利用世界模型将可行性流形压缩为基于分数的密度, 从而在动作空间上诱导出指导规划的Riemannian几何.

CoCo-SAM3: Harnessing Concept Conflict in Open-Vocabulary Semantic Segmentation

Yanhui Chen et al.

cs.CV cs.AI

本文针对 open-vocabulary semantic segmentation 中多类别提示导致的 mask 重叠与竞争不稳定问题, 提出了 CoCo-SAM3 方法. 该方法通过解耦 intra-class 增强与 inter-class 竞争, 在不需额外训练的情况下提升了多个基准测试的性能.

Environmental Sound Deepfake Detection Using Deep-Learning Framework

Lam Pham et al.

cs.SD cs.AI

本文提出了一个用于环境声音深度伪造检测的深度学习框架, 通过实验比较了不同频谱图、网络架构和预训练模型的效果. 结果表明, 针对声音场景和声音事件的伪造检测应视为独立任务, 且微调预训练模型比从头训练更有效.

An AI Agent Execution Environment to Safeguard User Data

Robert Stanley et al.

cs.CR cs.AI cs.OS

本文提出了一个名为GAAP的AI agent执行环境, 旨在确保用户私有数据的机密性. 它通过动态收集用户权限规范并强制执行信息流控制, 来防止数据泄露, 即使面对模型或提示词攻击也能提供确定性保障.

Multi-Cycle Spatio-Temporal Adaptation in Human-Robot Teaming

Alex Cuellar, Michael Hagenow, Julie Shah

cs.RO cs.AI

本文提出了一个名为RAPIDDS的框架，用于在重复性任务场景中优化人机协作。该框架通过多轮交互学习个体的时空行为，并联合调整任务调度与机器人运动路径，以提高效率并减少干扰。仿真与用户研究表明，该方法在客观指标和主观感受上均优于非自适应系统。

Learning Hybrid-Control Policies for High-Precision In-Contact Manipulation Under Uncertainty

Hunter L. Brown, Geoffrey Hollinger, Stefan Lee

cs.RO cs.AI cs.LG

本文提出了一种用于高精度接触式操作的混合位置-力控制策略学习方法, 该方法通过动态选择每个控制维度上的力或位置控制模式来提升任务性能. 在存在极端定位不确定性的脆弱"孔中插钉"任务上验证了所提方法的有效性, 其表现优于纯位置控制策略.

VLA Foundry: A Unified Framework for Training Vision-Language-Action Models

Jean Mercat et al.

cs.RO cs.AI cs.CV cs.LG cs.SE

本文介绍了VLA Foundry, 这是一个用于统一训练Vision-Language-Action (VLA) 模型的开源框架. 该框架支持从语言预训练到动作微调的端到端流程, 并发布了基于此框架训练的两个模型, 在模拟环境中进行了评估.

Greedy Routing in a Sequentially Grown One-Dimensional Random Graph

Alexander Ponomarenko

math.CO cs.DS cs.NI cs.SI

本文研究了一种在一维随机图模型上的贪婪路由算法. 该图通过顶点按随机顺序依次插入并连接其最近邻的方式生成. 作者证明了从顶点1到顶点n的贪婪路由步数$S_n$满足$S_n = \Theta(\log n)$, 并给出了其期望和尾概率的精确界.

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Boyu Chen et al.

cs.RO cs.AI

本文提出了一个名为UniT的框架, 旨在通过视觉锚定建立统一的行为表示, 以解决人形机器人策略学习中人类数据与机器人本体差异的鸿沟. 该方法在仿真和真实机器人任务中展示了数据效率和泛化能力.

Phase Transitions in the Fluctuations of Functionals of Random Neural Networks

Simmaco Di Lillo, Leonardo Maini, Domenico Marinucci

math.PR cs.LG stat.ML

本文研究了无限宽随机神经网络在球面上高斯输出的泛函序列的中心与非中心极限定理. 作者证明了网络深度增加时, 这些泛函的渐近行为取决于协方差函数的不动点结构, 并识别出三种不同的极限状态. 证明利用了 Hermite 展开、Diagram Formula 和 Stein-Malliavin 技术等经典工具.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others