bluearXiv-ai - 2026-04-21

📄 所有论文 ↑ 回顶部

cs.LG

(Sparse) Attention to the Details: Preserving Spectral Fidelity in ML-based Weather Forecasting Models ⭐ 精选

Maksim Zhdanov et al.

cs.LG cs.AI cs.CV physics.ao-ph

本文提出了一种名为Mosaic的概率性天气预报模型, 旨在解决基于机器学习的天气预报中两个主要的频谱退化来源: 确定性训练和压缩编码造成的信息瓶颈. 该模型通过学习的函数扰动生成集合成员, 并利用一种硬件对齐的块稀疏注意力(block-sparse attention)机制在原生分辨率网格上运行, 该机制通过跨空间相邻查询共享键和值, 以线性成本捕获长程依赖关系. 在1.5°分辨率下, Mosaic在关键高空变量上的表现与使用6倍更精细数据训练的模型相当或更优, 并生成了校准良好的集合预报, 其单个成员在所有已解析频率上均展现出近乎完美的频谱对齐.

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Vladimer Khasia

cs.LG

本文提出了一种名为BASIS的高效反向传播算法, 旨在解决深度神经网络训练中激活内存随深度、上下文长度和特征维度线性增长的瓶颈问题. 该方法通过使用压缩的秩-R张量计算权重更新, 并引入Balanced Hashing和Invariant Scalars机制来稳定梯度估计, 从而在显著减少内存和计算开销的同时, 实现与精确反向传播相当的训练效果.

UniMamba: A Unified Spatial-Temporal Modeling Framework with State-Space and Attention Integration

Xingsheng Chen et al.

cs.LG cs.AI

本文提出了一个名为UniMamba的统一时空建模框架，用于多元时间序列预测。该框架结合了高效的state-space模型与attention机制，旨在同时捕获全局时间依赖性和变量间的交互关系，并在多个基准数据集上展示了其准确性与计算效率。

Annotation Entropy Predicts Per-Example Learning Dynamics in LoRA Fine-Tuning

Brady Steele

cs.LG cs.CL

本文通过分析 annotation entropy 与 per-example area under the loss curve (AULC) 的相关性, 研究了 LoRA fine-tuning 中的 per-example learning dynamics. 研究发现, 在存在高标注者分歧的 contested examples 上, LoRA fine-tuning 会出现 loss 上升的 "un-learning" 现象, 这一模式在 full fine-tuning 中基本不存在.

A Discordance-Aware Multimodal Framework with Multi-Agent Clinical Reasoning

Pegah Ahadian et al.

cs.LG cs.AI

本文提出了一个用于膝关节骨关节炎临床决策支持的多模态框架. 该框架结合了机器学习预测模型与基于工具的多智能体推理系统, 通过计算疼痛与结构损伤之间的不一致性分数, 来辅助临床表型分类和管理建议生成.

Preventing overfitting in deep learning using differential privacy

Alizishaan Anwar Hussein Khatri

cs.LG cs.AI

本文探讨了利用 differential privacy 来防止深度神经网络中的 overfitting 问题, 旨在提升模型在未见数据上的泛化能力.

Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents

Jiawei Huang et al.

cs.LG cs.AI cs.SE

本文提出了一种基于评分标准的生成式奖励模型(GRM), 用于为软件工程任务中的强化微调提供更丰富的学习信号. 该方法通过人工设计的评分标准来引导和过滤智能体的行为轨迹, 从而在最终测试准确率上超越了仅依赖终端奖励的方法.

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

Haolong Hu et al.

cs.LG cs.CL

本文提出了一种名为SaFeR-Steer的多轮对齐框架，用于提升多模态大语言模型(MLLMs)在多轮对话中的安全性。该方法结合了分阶段的合成数据引导和基于反馈的强化学习，并引入了一个新的多轮安全数据集。实验表明，该方法能有效提升模型在单轮和多轮安全基准上的性能。

SetFlow: Generating Structured Sets of Representations for Multiple Instance Learning

Nikola Jovišić, Milica Škipina, Vanja Švenda

cs.LG cs.AI cs.CV

本文提出了一种名为SetFlow的生成架构, 用于直接在表示空间中建模Multiple Instance Learning (MIL)中的整个包(即集合). 该方法结合了flow matching和Set Transformer的设计, 能够处理置换不变的输入并捕获包内实例间的交互. 在大型乳腺X光检查基准测试中, 生成的样本与原始数据分布高度匹配, 并能有效提升下游分类任务的性能.

Matched-Learning-Rate Analysis of Attention Drift and Transfer Retention in Fine-Tuned CLIP

Ruize Xia

cs.LG

本文通过匹配学习率的实验设计，对比了Full Fine-Tuning和LoRA在微调CLIP模型时的表现。研究发现，在相同学习率下，LoRA比Full FT能更好地保持模型的零样本迁移能力，并且注意力结构的变化模式也不同。

CGCMA: Conditionally-Gated Cross-Modal Attention for Event-Conditioned Asynchronous Fusion

Yunxiang Guo

cs.LG

本文提出了一种用于事件条件异步融合的条件门控跨模态注意力机制(CGCMA), 旨在解决密集主数据流与偶发外部上下文异步对齐的问题. 该方法在加密货币市场的高频价格序列与滞后网络情报融合的任务上进行了测试, 并构建了相应的评估数据集.

Shifting the Gradient: Understanding How Defensive Training Methods Protect Language Model Integrity

Satchel Grant et al.

cs.LG cs.AI

本文比较了两种防御性训练方法(PPS和IP)在保护语言模型完整性方面的机制差异. 研究发现, 两者通过不同的方式影响模型的梯度, 其中PPS能主动逆转特定特征表达, 而IP的作用机制则更为模糊.

Kutomanov Hennadii

cs.LG

本文提出了一种基于激活区域分析的神经网络功能相似性度量方法. 该方法通过分析神经元激活区域的拓扑结构来克服ReLU网络因参数对称性导致的表示模糊问题, 并利用MinHash等技术实现高效计算.

Non-Stationarity in the Embedding Space of Time Series Foundation Models

Jinmyeong Choi, Brad Shook, Artur Dubrawski

cs.LG cs.AI stat.ML

本文探讨了时间序列基础模型(TSFMs)嵌入空间中的非平稳性概念, 将其与经典统计过程控制(SPC)中的定义联系起来. 研究在受控条件下分析了均值偏移、方差变化和线性趋势等分布非平稳性在嵌入空间中的线性可探测性, 并考察了由持续性引起的时序非平稳性. 实验发现, 非平稳性的可探测性会平滑下降, 且不同模型表现出特定的失效模式.

Dimensional Criticality at Grokking Across MLPs and Transformers

Ping Wang

cs.LG cond-mat.dis-nn cs.AI nlin.AO

本文提出了一种名为TDU-OFC的离线雪崩探测方法, 用于分析深度神经网络在"顿悟"(grokking)现象中的动力学相变. 该方法通过梯度快照计算级联统计量, 并提取出一个宏观可观测量——随时间演化的有效级联维数$D(t)$. 研究发现, 在Transformer和MLP模型中, 该维数在泛化转变点附近会穿越高斯扩散基线$D=1$, 且穿越方向与任务相关.

Sampling for Quality: Training-Free Reward-Guided LLM Decoding via Sequential Monte Carlo

Jelena Markovic-Voronov et al.

cs.LG cs.AI stat.ML

本文提出了一种基于奖励引导的无训练解码框架, 通过结合模型转移概率和奖励势能定义序列级目标分布, 并采用Sequential Monte Carlo算法进行采样. 实验表明该方法在代码生成和数学推理任务上显著提升了大型语言模型的性能.

Multi-Label Phase Diagram Prediction in Complex Alloys via Physics-Informed Graph Attention Networks

Eunjeong Park, Amrita Basak

cs.LG cond-mat.mtrl-sci

本文提出了一种基于物理信息图注意力网络(GAT)的方法, 用于快速预测Ag-Bi-Cu-Sn合金体系的多标签相图. 该方法将成分-温度点表示为元素图, 结合热力学约束进行相集合预测, 在多个子系统上取得了高精度, 并展示了良好的泛化能力.

Positive-Only Drifting Policy Optimization

Qi Zhang

cs.LG cs.RO

本文提出了一种名为PODPO的在线强化学习生成式策略优化方法。该方法避免了传统方法对梯度裁剪和负样本惩罚的依赖，通过利用正优势样本和局部对比漂移来更新策略。

G-PARC: Graph-Physics Aware Recurrent Convolutional Neural Networks for Spatiotemporal Dynamics on Unstructured Meshes

Jack T. Beerman et al.

cs.LG cs.AI

本文提出了一种名为G-PARC的图神经网络方法, 用于在非结构化网格上预测时空动力学. 该方法通过嵌入移动最小二乘核来近似空间导数, 并在多个非线性基准测试中展现了优于现有图方法的性能.

SCATR: Simple Calibrated Test-Time Ranking

Divya Shyamal et al.

cs.LG cs.AI

本文提出了一种名为SCATR的轻量级测试时排序方法，用于提升大语言模型在推理任务中的表现。该方法通过一个小型校准集学习评分器，在代码和数学推理基准上取得了效率与精度的良好平衡。

Towards Reliable Testing of Machine Unlearning

Anna Mazhar, Sainyam Galhotra

cs.LG cs.AI

本文讨论了机器学习模型在数据删除(即machine unlearning)后如何进行可靠测试的软件工程挑战. 作者提出了一种基于因果推断的测试视角, 旨在以可调试和成本效益高的方式检测模型是否仍残留对目标信息的依赖.

An Interpretable Framework Applying Protein Words to Predict Protein-Small Molecule Complementary Pairing Rules

Jingke Chen et al.

cs.LG cs.AI

本文提出了一个名为PWRules的可解释性框架，用于预测蛋白质与小分子的互补配对规则。该框架通过识别小分子片段及其与蛋白质语义序列单元的配对规则来预测结合亲和力，并在基准测试中取得了与现有方法相当的性能。

LLM as a Tool, Not an Agent: Code-Mined Tree Transformations for Neural Architecture Search

Masakazu Yoshimura et al.

cs.LG cs.AI cs.CV

本文提出了一种名为LLMasTool的层次化树结构NAS框架, 将LLM作为工具而非智能体使用. 该方法通过从代码中挖掘可重用模块并表示为树结构, 结合算法规划与LLM辅助的树变换进行架构演化, 在多个数据集上取得了性能提升.

S-GRPO: Unified Post-Training for Large Vision-Language Models

Yuming Yan et al.

cs.LG cs.CL cs.CV

本文提出了一种名为S-GRPO的统一后训练框架，用于大型视觉语言模型。它通过结合监督学习和偏好优化，旨在解决现有方法在适应特定视觉任务时存在的效率低下和优化崩溃问题。

Cross-Modal Generation: From Commodity WiFi to High-Fidelity mmWave and RFID Sensing

Zhixiong Yang et al.

cs.LG

本文提出了一种基于扩散模型的跨模态生成方法RF-CMG, 利用数据丰富的WiFi信号来合成数据稀缺的毫米波和RFID信号. 该方法通过解耦高频引导和低频约束来生成高质量数据, 并在手势识别任务中验证了合成数据的有效性.

Reasoning on the Manifold: Bidirectional Consistency for Self-Verification in Diffusion Language Models

Jiaoyang Ruan et al.

cs.LG cs.AI

本文提出了一种用于评估扩散大语言模型(dLLMs)推理轨迹正确性的几何视角"Reasoning on the Manifold"和一种无需训练的无监督度量Bidirectional Manifold Consistency (BMC). 该方法通过前向掩码与后向重建的循环来量化生成序列的稳定性, 并展示了其在诊断、推理和模型对齐等任务中的有效性.

In Search of Lost DNA Sequence Pretraining

Zhijiang Tang et al.

cs.LG cs.AI

本文指出了当前DNA序列预训练研究中被忽视的三个关键问题, 包括下游数据集选择, 邻接掩码策略的固有缺陷以及词汇表讨论的缺失. 作者通过实验验证了这些问题的重要性, 并提出了相应的指导原则和一个标准化的测试平台.

From User Recognition to Activity Counting: An Identity-Agnostic Approach to Multi-User WiFi Sensing

Kemal Bayik et al.

cs.LG

本文提出了一种身份无关的多用户WiFi感知方法, 将活动识别重新定义为活动计数问题. 该方法通过预训练的卷积主干网络提取特征, 并在未见过的用户场景下表现出更稳定的性能.

FedOBP: Federated Optimal Brain Personalization through Cloud-Edge Element-wise Decoupling

Xingyan Chen et al.

cs.LG cs.AI

本文提出了一种名为FedOBP的联邦最优大脑个性化算法, 通过引入基于分位数的阈值机制和逐元素重要性评分, 来决定联邦学习模型中哪些参数应被个性化. 该方法将重要性度量的计算从客户端移至服务器端, 以减轻资源受限设备的负担, 并在多个数据集上展现了优于现有方法的性能.

Evaluating Temporal and Structural Anomaly Detection Paradigms for DDoS Traffic

Yasmin Souza Lima et al.

cs.LG cs.AI

本文提出了一个轻量级决策框架, 用于在训练前为DDoS流量异常检测选择时间特征或结构特征. 该框架使用两个诊断指标, 并在指标不确定时保留混合选项. 实验表明, 在所测试的数据集上, 结构特征的表现通常优于时间特征.

Towards Trustworthy Depression Estimation via Disentangled Evidential Learning

Fangyuan Liu et al.

cs.LG cs.AI

本文提出了一种名为EviDep的evidential learning框架, 用于抑郁症自动评估. 该框架通过Normal-Inverse-Gamma分布联合量化抑郁严重程度及不确定性, 并设计了频率感知特征提取和disentangled evidential learning策略来减少多模态证据冗余, 在多个数据集上实现了先进的预测准确性和不确定性校准.

Continuous ageing trajectory representations for knee-aware lifetime prediction of lithium-ion batteries across heterogeneous dataset

Agnieszka Pregowska, Stefan Marynowicz

cs.LG cs.AI

本文提出了一种基于连续轨迹表示的锂离子电池老化分析统一框架, 用于从异构数据集中提取退化描述符并进行剩余使用寿命预测. 该框架在跨数据集评估中表现出稳健性, 但受限于实验室规模数据和基于容量的寿命终点定义.

NCO4CVRP: Neural Combinatorial Optimization for the Capacitated Vehicle Routing Problem

Mahir Labib Dihan et al.

cs.LG cs.AI

本文针对Capacitated Vehicle Routing Problem (CVRP), 改进了Neural Combinatorial Optimization (NCO)框架中的推理技术. 通过将Simulated Annealing (SA)融入Random Re-Construct (RRC)方法, 以及将Beam Search整合到POMO方法中, 提升了解决方案的质量和模型的泛化能力.

POLAR: Online Learning for LoRA Adapter Caching and Routing in Edge LLM Serving

Shaoang Li, Jian Li

cs.LG cs.AI

本文研究了在边缘设备上部署大语言模型时, 如何联合优化LoRA适配器的缓存与请求路由问题. 作者将其建模为一个双时间尺度的上下文赌博机问题, 并提出了POLAR算法, 通过实验验证了自适应缓存控制的有效性.

The Global Neural World Model: Spatially Grounded Discrete Topologies for Action-Conditioned Planning

Noureddine Kermiche

cs.LG cs.AI

本文提出了Global Neural World Model (GNWM), 一个通过平衡连续熵约束实现拓扑量化的自稳定框架. 该模型将环境映射到离散2D网格上, 避免了自回归过程中的流形漂移, 并能够学习泛化的转移动态.

A Systematic Survey and Benchmark of Deep Learning for Molecular Property Prediction in the Foundation Model Era

Zongru Li et al.

cs.LG cs.AI q-bio.QM

本文系统性地综述了深度学习在分子性质预测领域的进展, 涵盖了从量子化学方法到基础模型 (Foundation Models) 的多种范式. 它提出了一个统一的分类法, 并基于对现有基准数据集的分析, 指出了当前在数据划分和评估协议方面的挑战与未来方向.

Hybrid Spectro-Temporal Fusion Framework for Structural Health Monitoring

Jongyeop Kim, Jinki Kim, Doyun Lee

cs.LG cs.AI

本文提出了一种用于结构健康监测的混合谱-时域融合框架, 通过整合到达时间间隔描述符与谱特征来捕捉振动动力学的精细和粗尺度特征. 实验表明该框架在分类准确性和稳定性上优于传统方法.

Global Attention with Linear Complexity for Exascale Generative Data Assimilation in Earth System Prediction

Xiao Wang et al.

cs.LG cs.AI

本文提出了一种用于地球系统预测的生成式数据同化框架, 核心是名为STORM的线性复杂度全局注意力机制. 该方法在Frontier超级计算机上展示了卓越的可扩展性与计算性能.

Randomized Antipodal Search Done Right for Data Pareto Improvement of LLM Unlearning

Ziwen Liu et al.

cs.LG cs.AI

本文针对LLM遗忘任务中遗忘集与保留集难以获取的实际问题, 提出了数据Pareto改进的概念, 并设计了RASLIK检索算法. 该算法结合了置换投影哈希与随机对极搜索, 在多个模型和数据集上验证了其在质量和效率上的双重提升.

FedLLM: A Privacy-Preserving Federated Large Language Model for Explainable Traffic Flow Prediction

Seerat Kaur, Sukhjit Singh Sehra, Dariush Ebrahimi

cs.LG

本文提出了一种名为FedLLM的隐私保护联邦学习框架, 用于可解释的交通流预测. 该框架结合了领域适配的LLM与联邦学习, 通过交换轻量级LoRA参数在保护数据隐私的同时进行协同训练, 并在非独立同分布数据上展现了良好的预测性能.

Beyond Feature Fusion: Contextual Bayesian PEFT for Multimodal Uncertainty Estimation

Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin

cs.LG cs.AI

本文提出了一种名为CoCo-LoRA的多模态不确定性感知参数高效微调方法。该方法通过音频上下文信号来调节低秩空间中的变分后验，从而为文本预测任务提供对声学因素敏感的异方差不确定性估计。

Lower Bounds and Proximally Anchored SGD for Non-Convex Minimization Under Unbounded Variance

Arda Fazla et al.

cs.LG math.OC

本文研究了在Blum-Gladyshev (BG-0) 条件（允许方差随距离二次增长）下的非凸随机优化问题。文章建立了信息论下界，并提出了一个名为PASTA的统一算法框架来匹配这些下界。

FRIGID: Scaling Diffusion-Based Molecular Generation from Mass Spectra at Training and Inference Time

Montgomery Bohde et al.

cs.LG q-bio.QM

本文提出了一个名为FRIGID的框架, 它使用一种新颖的扩散语言模型, 通过中间指纹表示和确定的化学式, 根据质谱生成分子结构. 该框架在训练时利用了数亿个未标记的结构, 并通过推理时的缩放技术显著提升了在MassSpecGym和NPLIB1等基准测试上的准确性.

FLARE: A Data-Efficient Surrogate for Predicting Displacement Fields in Directed Energy Deposition

Kittipong Thiamchaiboonthawee et al.

cs.LG

本文提出了一个名为FLARE的数据高效代理建模框架, 用于预测定向能量沉积(DED)中的位移场. 该方法通过将模拟编码为隐式神经场并正则化网络权重, 使其遵循输入参数空间的仿射结构, 从而实现对未见参数组合的预测.

Cross-Modal Bayesian Low-Rank Adaptation for Uncertainty-Aware Multimodal Learning

Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin

cs.LG cs.AI

本文提出了一种名为CALIBER的多模态不确定性感知参数高效微调框架，用于音频-文本学习。该方法通过跨模态注意力机制调节适配器中的贝叶斯变分后验，在保持计算效率的同时实现了异方差不确定性估计。

UniCon: Unified Framework for Efficient Contrastive Alignment via Kernels

Hangke Sui, Yuqing Wang, Minh N Do

cs.LG

本文提出了一个名为UniCon的统一框架, 通过引入对比相似度权重矩阵$S(\gamma)$, 为基于核方法的对比学习提供了闭式全局解, 从而替代了传统的小批量反向传播. 该框架在核化视角下统一了对比对齐, 并将其与谱方法联系起来.

DARLING: Detection Augmented Reinforcement Learning with Non-Stationary Guarantees

Argyrios Gerogiannis, Yu-Han Huang, Venugopal V. Veeravalli

cs.LG stat.ML

本文提出了一种用于非平稳分段平稳MDP的模块化强化学习框架DARLING, 它无需预先知道变化点信息. 该算法在表格和线性MDP设定下改进了动态遗憾界, 并在实验中表现优于现有方法.

Graph Transformer-Based Pathway Embedding for Cancer Prognosis

Koushik Howlader, Md Tauhidul Islam, Wei Le

cs.LG cs.AI

本文提出了一种基于graph transformer的癌症预后预测方法PATH, 它通过调制机制生成患者条件化的基因嵌入, 并利用pathway-guided attention建模通路间的相互作用. 该方法在跨癌种转移预测任务上取得了优于现有基准的性能.

How to Approximate Inference with Subtractive Mixture Models

Lena Zellinger et al.

cs.LG stat.CO stat.ML

本文探讨了如何将subtractive mixture models (SMMs) 应用于variational inference (VI) 和importance sampling (IS). 作者设计了相应的期望估计器和学习方案, 并讨论了其带来的稳定性与效率挑战及应对方法.

Chronax: A Jax Library for Univariate Statistical Forecasting and Conformal Inference

Xan Carey et al.

cs.LG

本文介绍了一个基于JAX的时序预测库Chronax, 它通过纯函数和可组合变换的设计, 提升了大规模预测任务的可扩展性和执行效率. 该库支持模型无关的conformal不确定性量化, 并能与现代机器学习流程集成.

Late Fusion Neural Operators for Extrapolation Across Parameter Space in Partial Differential Equations

Eva van Tegelen et al.

cs.LG cs.AI math.DS

本文提出了一种名为Late Fusion Neural Operator的架构, 用于提升PDE求解中参数空间外推的泛化能力. 该方法通过解耦状态动力学与参数效应的学习, 在多个基准PDE上超越了现有方法.

Neuroscience Inspired Graph Operators Towards Edge-Deployable Virtual Sensing for Irregular Geometries

William Howes et al.

cs.LG

本文提出了一种用于不规则几何体边缘可部署虚拟传感的Variable Spiking Graph Neural Operator (VS-GNO). 它结合了spectral-spatial卷积分析与可变脉冲神经元, 旨在平衡能耗与预测精度.

LLM-Extracted Covariates for Clinical Causal Inference: Rethinking Integration Strategies

Lei Liu, Jialin Chen, Kathy Macropol

cs.LG

本文探讨了如何将LLM从临床文本中提取的协变量整合到因果推断流程中。通过比较多种整合策略，发现直接增强倾向评分模型效果最佳，而基于文本距离的匹配方法则可能降低估计质量。

Representation Before Training: A Fixed-Budget Benchmark for Generative Medical Event Models

Inhyeok Lee et al.

cs.LG cs.AI

本文在固定预训练预算下，系统评估了医疗事件生成模型中输入表示（如量化、编码方式）对下游预测性能的影响。实验表明，融合代码与数值的tokenization等方法能显著提升多项临床结局的预测性能。

Federation over Text: Insight Sharing for Multi-Agent Reasoning

Dixi Yao, Tahseen Rabbani, Tian Li

cs.LG cs.AI

本文提出了一种名为 Federation over Text (FoT) 的框架，它借鉴了联邦学习的思想，但操作于语义层面。该框架允许多个处理不同任务的智能体通过共享和聚合推理过程来构建一个通用的元认知洞察库，从而提升后续任务解决的效率和效果。

Continuous Limits of Coupled Flows in Representation Learning

Zilin Li et al.

cs.LG

本文通过将去中心化学习建模为 Riemannian 流形上的耦合慢-快动力系统，研究了其连续极限。证明了离散动态收敛于一个过阻尼 Langevin 随机微分方程，并分析了权重收敛到空间测度主特征空间的性质。

AutoOR: Scalably Post-training LLMs to Autoformalize Operations Research Problems

Sumeet Ramesh Motwani et al.

cs.LG cs.AI

本文提出了一种名为AutoOR的可扩展方法, 用于对大型语言模型(LLMs)进行后训练, 使其能够将自然语言描述的Operations Research(OR)问题自动形式化为可求解的优化模型. 该方法通过合成数据和基于求解器反馈的强化学习来提升模型性能, 在多个OR基准测试上取得了有竞争力的结果.

Self-Reinforcing Controllable Synthesis of Rare Relational Data via Bayesian Calibration

Chongsheng Zhang et al.

cs.LG cs.AI

本文提出了一个名为RDDG的框架, 用于生成关系型表格数据以改善不平衡分类. 它结合了核心集选择, in-context learning和一个自我强化的反馈机制来优化生成数据的质量.

R&F-Inventory: A Large-Scale Dataset for Monotonic Inventory Estimation in Reach and Frequency Advertising

Yunshan Peng et al.

cs.LG

本文发布了一个用于Reach and Frequency广告库存估计的大规模数据集, 该数据集以"定向-排期-频控"为基本上下文, 提供了同一上下文中多个预算点对应的UV和PV观测值, 从而构成了完整的预算-性能曲线. 该数据集支持对结构性约束学习、单调回归等问题的研究, 并为此提供了标准化的基准任务和可复现的基线方法.

The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation

Jiaxin Zhang et al.

cs.LG cs.AI

本文探讨了 on-policy distillation (OPD) 方法在提升语言模型任务准确率的同时，会系统性地导致模型过度自信的问题。作者提出了一个校准感知的 OPD 框架 CaOPD 来缓解此问题，并在实验中验证了其有效性。

Applications of deep generative models to DNA reaction kinetics and to cryogenic electron microscopy

Chenwei Zhang

cs.LG cs.AI cs.CV q-bio.BM q-bio.QM

本文探讨了深度生成模型在整合领域知识与深度学习以分析复杂生物学问题中的应用, 聚焦于DNA反应动力学和冷冻电镜两个领域. 研究提出了几个结合特定领域知识的生成模型框架, 用于数据可视化和质量提升.

CCAR: Intrinsic Robustness as an Emergent Geometric Property

Akash Samanta, Manish Pratap Singh, Debasis Chaudhuri

cs.LG cs.CV

本文提出了一种名为Class-Conditional Activation Regularization (CCAR)的方法，通过施加一种软性归纳偏置来塑造特征空间的结构。该方法旨在通过几何解缠来提升模型对噪声和对抗性扰动的内在鲁棒性。

Learning to Trade Like an Expert: Cognitive Fine-Tuning for Stable Financial Reasoning in Language Models

Yuchen Pan, Soung Chang Liew

cs.LG

本文提出了一个用于训练和评估大型语言模型作为自主交易代理的结构化框架. 该框架包含一个精心策划的多选题数据集和一个结合了静态测试与模拟交易的两阶段评估协议. 实验表明, 使用该框架训练的模型能展现出具有竞争力的风险感知交易行为.

Untrained CNNs Match Backpropagation at V1: A Systematic RSA Comparison of Four Learning Rules Against Human fMRI

Nils Leutenegger

cs.LG q-bio.NC

本文通过Representational Similarity Analysis (RSA) 比较了四种学习规则（backpropagation, feedback alignment, predictive coding, spike-timing-dependent plasticity）训练的CNN与人类V1视觉皮层表征的相似性。研究发现，在早期视觉区域（V1/V2），网络架构而非学习规则主导了与皮层表征的对齐。

OC-Distill: Ontology-aware Contrastive Learning with Cross-Modal Distillation for ICU Risk Prediction

Zhongyuan Liang et al.

cs.LG

本文提出了一种用于ICU风险预测的两阶段框架OC-Distill. 该方法在训练时结合了本体感知的对比学习和跨模态知识蒸馏, 在推理时仅需生命体征数据.

SinkRouter: Sink-Aware Routing for Efficient Long-Context Decoding in Large Language and Multimodal Models

Junnan Liu et al.

cs.LG cs.AI

本文提出了一种名为SinkRouter的、无需训练的选择性路由框架，用于加速大语言和多模态模型的长上下文解码。该方法基于对attention sink现象的机制性理解，通过检测sink信号来跳过产生接近零输出的计算，并实现了硬件感知的加速内核。在多个长上下文基准测试中，该方法在保持准确性的同时，显著提升了解码速度。

Towards Fully Parameter-Free Stochastic Optimization: Grid Search with Self-Bounding Analysis

Yuheng Zhao et al.

cs.LG math.OC

本文提出了一种名为GRASP的通用网格搜索框架, 结合新颖的self-bounding分析技术, 旨在实现完全无参数的随机优化. 该方法在非凸和凸优化问题上均展现了良好的性能.

Covariance-Based Structural Equation Modeling in Small-Sample Settings with $p>n$

Hiroki Hasegawa, Aoba Tamura, Yukihiko Okada

cs.LG stat.ME stat.ML

本文提出了一种新的估计方法, 用于解决在样本量$n$小于变量数$p$ ($p>n$) 的小样本设定下, 基于协方差的结构方程模型 (SEM) 因样本协方差矩阵奇异而无法进行似然估计的问题. 该方法通过重构协方差结构并结合相对误差约束, 实现了对结构参数符号和方向的稳定估计.

Noise-Adaptive Diffusion Sampling for Inverse Problems Without Task-Specific Tuning

Yingzhi Xia et al.

cs.LG cs.AI cs.CV

本文提出了一种名为 Noise-space Hamiltonian Monte Carlo (N-HMC) 的后验采样方法, 用于解决基于 diffusion models 的逆问题. 该方法将反向扩散过程视为从初始噪声到干净图像的确定性映射, 从而在初始噪声空间中进行推理, 避免了流形不可行性问题. 实验表明, 该方法在多种线性和非线性逆问题上取得了优于现有方法的重建质量.

Test-Time Adaptation for EEG Foundation Models: A Systematic Study under Real-World Distribution Shifts

Gabriel Jason Lee, Jathurshan Pradeepkumar, Jimeng Sun

cs.LG cs.AI eess.SP

本文系统评估了多种 test-time adaptation (TTA) 方法在 EEG foundation models 面对真实分布偏移时的表现。研究发现，标准的 TTA 方法效果不稳定，而无需优化的方法则表现出更好的鲁棒性。

D-QRELO: Training- and Data-Free Delta Compression for Large Language Models via Quantization and Residual Low-Rank Approximation

Junlin Li et al.

cs.LG cs.AI

本文提出了一种无需训练和数据的delta压缩方法D-QRELO, 用于压缩大规模语言模型(LLM)微调后产生的权重增量(delta). 该方法结合了粗粒度1-bit量化和残差低秩近似, 在多个模型和任务上优于现有方法.

L1 Regularization Paths in Linear Models by Parametric Gaussian Message Passing

Yun-Peng Li, Hans-Andrea Loeliger

cs.LG eess.SP stat.ME

本文提出了两种互为对偶的新算法, 用于计算状态空间设定下的L1正则化路径. 这些算法基于参数化高斯消息传递, 适用于独立变量和依赖变量的L1正则化问题.

Open-TQ-Metal: Fused Compressed-Domain Attention for Long-Context LLM Inference on Apple Silicon

Sai Vegasena

cs.LG

本文提出了一种在Apple Silicon上实现融合压缩域attention的方法, 显著降低了长上下文LLM推理的KV cache内存占用和计算开销. 该方法通过直接在int4压缩的KV cache上计算attention, 避免了中间反量化步骤, 在保持预测准确性的同时提升了推理速度.

Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering

Tianyi Chen et al.

cs.LG cs.CV

本文提出了一种用于不完整多视图聚类的方法, 通过在Poincaré ball中构建结构感知的潜在空间来增强表示学习. 该方法设计了双约束双曲对比机制和一个双曲原型头, 以解耦细粒度语义关联并纠正数据恢复过程.

Evaluating Multimodal LLMs for Inpatient Diagnosis: Real-World Performance, Safety, and Cost Across Ten Frontier Models

Bruce A. Bassett et al.

cs.LG cs.AI

本文在真实世界低收入和中等收入国家(LMIC)的住院患者数据集上，评估了十种多模态大语言模型(LLMs)的诊断性能。研究发现，尽管模型成本差异巨大，但其诊断表现相近，且均显著优于常规病房诊断，其中GPT-5.1表现最佳。

In-Context Learning Under Regime Change

Carson Dudley et al.

cs.LG cs.AI

本文研究了transformer模型在非平稳序列数据中进行in-context learning时，对数据生成过程突变（regime change）的检测与适应能力。作者通过理论构造和实验验证，证明了transformer能够解决in-context change-point detection问题，并在合成与真实世界任务中展示了其有效性。

When Spike Sparsity Does Not Translate to Deployed Cost: VS-WNO on Jetson Orin Nano

Jason Yoo et al.

cs.LG cs.AR cs.NE

本文通过在实际边缘GPU硬件(Jetson Orin Nano)上部署和对比VS-WNO与密集WNO模型, 研究了脉冲稀疏性在商用软件栈中是否能转化为实际部署优势. 实验结果表明, 尽管VS-WNO在算法层面具有显著的脉冲稀疏性, 但由于运行时未能有效抑制密集计算, 其推理延迟和能耗反而高于密集模型.

Reference-state System Reliability method for scalable uncertainty quantification of coherent systems

Ji-Eun Byun, Hyeuk Ryu, Junho Song

cs.LG math.PR

本文提出了一种名为Reference-state System Reliability (RSR)的新方法，用于高效量化coherent systems的可靠性。该方法利用reference states对Monte Carlo样本进行分类，并通过矩阵运算实现高效计算，显著提升了大规模系统评估的速度。

Tree of Concepts: Interpretable Continual Learners in Non-Stationary Clinical Domains

Dongkyu Cho et al.

cs.LG

本文提出了一种名为Tree of Concepts的可解释持续学习框架，用于处理非平稳临床数据。该方法通过一个固定的、基于规则的概念接口来分离概念提取和预测，从而在适应分布变化的同时保持解释的稳定性。在多个医疗基准测试中，该方法在稳定性与可塑性之间取得了优于现有基线的平衡。

Live LTL Progress Tracking: Towards Task-Based Exploration

Noel Brindise, Cedric Langbort, Melkior Ornik

cs.LG

本文提出了一种名为 Live LTL Progress Tracking 的新框架, 用于在强化学习中追踪智能体执行复杂任务时的进度. 该框架通过一个随时间步更新的'tracking vector'来表示有限线性时序逻辑(LTL)公式的满足状态, 为设计新的性能指标和奖励函数提供了潜在工具.

The Topological Trouble With Transformers

Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu

cs.LG cs.AI

本文讨论了Transformer模型在动态状态跟踪方面的局限性, 指出其纯前馈架构难以处理序列依赖, 导致状态信息在层间推移并最终耗尽模型深度. 作者主张转向循环架构以实现更高效的状态跟踪, 并提出了一个相关架构的分类法.

BOIL: Learning Environment Personalized Information

Rohan Patil, Henrik I. Christensen

cs.LG cs.RO

本文提出了一种名为BOIL的可扩展方法, 用于从环境结构中提取有价值的信息以指导智能体行为. 该方法结合Pagerank算法和公共信息最大化, 在覆盖, 巡逻等任务中展示了优于启发式方法的长期性能.

SeekerGym: A Benchmark for Reliable Information Seeking

Remy Kim et al.

cs.LG

本文提出了一个名为SeekerGym的基准测试，用于评估AI智能体在信息检索任务中的完整性。该基准通过让智能体从文档中检索相关段落来衡量其性能，并指出当前最佳方法仍有很大改进空间。

Uncertainty Quantification in PINNs for Turbulent Flows: Bayesian Inference and Repulsive Ensembles

Khemraj Shukla et al.

cs.LG physics.comp-ph

本文针对湍流建模中的不确定性量化问题, 评估了Physics-informed neural networks (PINNs)的几种概率扩展方法. 这些方法包括Bayesian PINNs, Monte Carlo dropout以及repulsive deep ensembles, 并在Van der Pol oscillator和圆柱绕流等案例上进行了测试.

RosettaSearch: Multi-Objective Inference-Time Search for Protein Sequence Design

Meghana Kshirsagar et al.

cs.LG cs.AI q-bio.BM

本文提出了一种名为RosettaSearch的推理时多目标优化方法, 用于蛋白质序列设计. 该方法结合大型语言模型(LLMs)与结构预测模型RosettaFold3的反馈进行搜索, 在多个基准测试中显著提升了序列的结构保真度与设计成功率.

Decomposing the Depth Profile of Fine-Tuning

Jayadev Billa

cs.LG

本文研究了 fine-tuning 过程中网络表征变化的深度分布特性. 通过大量实验发现, 这种变化通常集中在靠近输出的层, 并且其分布形态受到模型架构、规模和训练目标的显著影响.

Do LLM-derived graph priors improve multi-agent coordination?

Nikunj Gupta, Rajgopal Kannan, Viktor Prasanna

cs.LG

本文探讨了使用大型语言模型(LLM)为多智能体强化学习(MARL)生成协调图先验的方法. 该方法通过自然语言描述智能体观察来推断潜在的协调模式, 并将生成的图结构整合到基于图神经网络(GNN)的MARL算法中, 在多个合作场景中进行了评估.

Demystifying the unreasonable effectiveness of online alignment methods

Enoch Hyunwook Kang

cs.LG cs.AI cs.CC cs.CL

本文研究了在线对齐方法中贪婪更新策略的理论有效性. 通过分析传统的零温度后悔准则, 作者证明了在线RLHF和DPO等方法能够达到常数级的累积后悔, 从而为其实践中的高效性提供了更精确的理论解释.

Guardrails in Logit Space: Safety Token Regularization for LLM Alignment

Thong Bach, Truyen Tran

cs.LG

本文提出了一种名为safety token regularization (STR)的轻量级方法, 旨在解决大语言模型(LLM)在特定领域微调时安全对齐性能下降的问题. 该方法通过约束与安全拒绝模板相关的logits来维持模型的安全行为, 计算开销小且易于集成到现有微调流程中.

Continual Safety Alignment via Gradient-Based Sample Selection

Thong Bach et al.

cs.LG

本文提出了一种基于梯度的样本选择方法, 用于在持续微调大语言模型时维持其安全对齐性. 该方法通过过滤高梯度样本来减少安全性能的退化, 同时保持任务学习能力.

LASER: Low-Rank Activation SVD for Efficient Recursion

Ege Çakar, Ketan Ali Raghu, Lia Zheng

cs.LG stat.ML

本文研究了 Tiny Recursive Models (TRMs) 激活空间的几何结构, 发现其在递归展开过程中占据一个有效的低维线性子空间. 基于此, 作者提出了 LASER 框架, 通过动态低秩压缩来节省激活内存, 而不会显著影响模型精度.

Revisiting Auxiliary Losses for Conditional Depth Routing: An Empirical Study

Qingwei Lin

cs.LG

本文通过实证研究，探讨了在条件深度路由（conditional depth routing）训练中，不同辅助损失（auxiliary losses）之间的相互作用。研究发现，在当前的训练方案下，常用的基于预测的辅助损失（如效用回归和成对排序监督）可能对整体优化产生负面影响，移除它们反而能提升模型性能并显著降低计算成本。

Fully Analog Resonant Recurrent Neural Network via Metacircuit

Zixin Zhou et al.

cs.LG cs.AI cs.ET physics.app-ph

本文提出了一种基于metacircuit架构的完全模拟谐振递归神经网络(R$^2$NN). 该架构通过耦合的电路谐振器实现了对训练后网络参数的物理映射, 能够直接处理原始模拟信号并进行实时分类.

REALM: Reliable Expertise-Aware Language Model Fine-Tuning from Noisy Annotations

Sajjad Ghiasvand et al.

cs.LG

本文提出了一种名为REALM的无监督方法, 用于在存在噪声标注的情况下微调语言模型. 该方法通过为每个标注者学习一个专长值或矩阵, 将观测标签建模为模型预测与随机猜测的混合, 从而在多个问答基准测试中提升了模型性能.

Interpolating Discrete Diffusion Models with Controllable Resampling

Marcel Kollovieh, Sirine Ayadi, Stephan Günnemann

cs.LG

本文提出了一种名为IDDM的插值离散扩散模型, 通过引入可控重采样机制来减少对中间隐状态的依赖, 从而改善离散扩散模型的生成质量. 该模型在分子图生成和文本生成任务上展现了有竞争力的性能.

A Survey of Reinforcement Learning for Large Language Models under Data Scarcity: Challenges and Solutions

Zhiyin Yu et al.

cs.LG cs.AI

本文是一篇关于数据稀缺环境下大语言模型强化学习的综述, 提出了一个围绕数据、训练和框架三个视角的层次化分类框架, 并对现有方法进行了系统梳理和优缺点分析.

SigGate-GT: Taming Over-Smoothing in Graph Transformers via Sigmoid-Gated Attention

Dongxin Guo, Jikun Wu, Siu Ming Yiu

cs.LG cs.AI

本文提出了一种名为 SigGate-GT 的图 Transformer 模型，通过引入 Sigmoid 门控机制来缓解过平滑问题。该方法在多个标准图基准测试上取得了具有竞争力的性能。

Rethinking the Comparison Unit in Sequence-Level Reinforcement Learning: An Equal-Length Paired Training Framework from Loss Correction to Sample Construction

Fei Ding et al.

cs.LG cs.AI

本文针对序列级相对强化学习中的长度问题提出了新的分析视角. 作者认为核心问题在于训练中使用的比较单元缺乏可比性, 并提出了一个基于样本构建的训练框架, 旨在主动生成可对齐的等长训练片段. 文中提出的EqLen方法适用于GRPO等算法.

FLARE: Task-agnostic embedding model evaluation through a normalization process

Jingzhou Jiang et al.

cs.LG cs.CL

本文提出了一种无需任务特定标签的嵌入模型评估方法 FLARE, 该方法利用归一化流直接估计信息充分性, 避免了高维空间中的密度估计问题. 实验表明, 该方法在多个数据集和嵌入模型上取得了与有监督基准高度相关的稳定评估结果.

Towards a Data-Parameter Correspondence for LLMs: A Preliminary Discussion

Ou Wu

cs.LG

本文提出了一个统一的 data-parameter correspondence 框架，将大语言模型优化中的数据操作和参数操作联系起来。该框架基于统计流形 $\mathcal{M}$ 上的几何结构，揭示了数据剪枝与参数稀疏化、上下文学习（ICL）与低秩适应（LoRA）等在几何上的对偶性。

Back to Repair: A Minimal Denoising Network\ for Time Series Anomaly Detection

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler

cs.LG

本文提出了一种名为JuRe的极简去噪网络用于时间序列异常检测. 该方法仅使用一个深度可分离卷积残差块, 通过修复被破坏的时间序列窗口进行训练, 并在推理时使用无参数的结构差异函数进行评分. 实验表明, 尽管结构简单, 该方法在多个基准测试中取得了与复杂神经网络基线相当甚至更优的性能, 证明了去噪目标而非网络容量是驱动检测质量的关键因素.

On the Generalization Bounds of Symbolic Regression with Genetic Programming

Masahiro Nomura, Ryoki Hamano, Isao Ono

cs.LG cs.NE

本文为基于遗传编程的符号回归模型提供了泛化界分析. 该工作将泛化误差分解为结构选择项和常数拟合项, 为理解其泛化性质提供了理论视角.

Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models

Jeongjae Lee et al.

cs.LG cs.AI cs.CV

本文提出了reward score matching (RSM)框架, 统一了基于奖励的扩散模型和flow模型的微调方法. 该框架将不同方法的核心差异归结为价值引导估计器的构建和时间步优化强度的选择, 从而简化了设计空间并提升了效率.

TransXion: A High-Fidelity Graph Benchmark for Realistic Anti-Money Laundering

Keyang Chen et al.

cs.LG cs.AI cs.SI

本文提出了一个用于反洗钱研究的高保真图基准TransXion, 它通过整合具有实体画像的正常活动模拟和随机的非法活动合成, 克服了现有基准数据语义稀疏和依赖模板注入的局限性. 该数据集包含丰富的实体属性, 能更真实地评估模型在检测与实体背景不符的异常活动时的性能.

A unified convergence theory for adaptive first-order methods in the nonconvex case, including AdaNorm, full and diagonal AdaGrad, Shampoo and Muo

S. Gratton, Ph. L. Toint

cs.LG

本文提出了一个用于非凸无约束优化的自适应一阶优化算法的统一框架, 该框架使用自适应预处理的梯度, 并包含了多种流行方法. 在合理的梯度方差假设下, 该工作为框架内所有方法提供了完整的随机全局收敛率分析.

Neural Adjoint Method for Meta-optics: Accelerating Volumetric Inverse Design via Fourier Neural Operators

Chanik Kang, Hyewon Suk, Haejun Chung

cs.LG physics.optics

本文提出了一种基于 Fourier Neural Operator 的 Neural Adjoint Method，用于加速超光学器件的三维逆向设计。该方法通过预测伴随梯度场，显著减少了迭代优化过程中全波仿真的计算成本。

Machine Learning Hamiltonian Dynamical Systems with Sparse and Noisy Data

Vedanta Thapar, Abhinav Gupta

cs.LG

本文提出了一种结合物理结构的神经网络架构, 用于从稀疏、噪声数据中学习Hamiltonian动力系统. 该方法避免了时间导数估计, 并能支持后续的符号方程发现.

Trustworthy deep domain adaptation for wearable photoplethysmography signal analysis with decision-theoretic uncertainty quantification

Ciaran Bench

cs.LG

本文提出了一种基于决策理论不确定性量化的方法, 用于评估深度生成模型在领域适应任务中生成数据的可信度. 该方法通过下游分类器的性能来形式化评估生成输出的质量, 并以光电容积脉搏波信号去噪和心房颤动分类为案例进行了验证.

A Probabilistic Consensus-Driven Approach for Robust Counterfactual Explanations

Marcin Kostrzewa, Maciej Zięba, Jerzy Stefanowski

cs.LG cs.AI

本文提出了一种基于概率共识的鲁棒反事实解释方法, 通过联合建模数据分布与模型决策空间来应对模型微小变动导致解释失效的问题. 该方法利用模型集成上的概率共识训练条件归一化流, 并通过单一可解释参数在推理时控制鲁棒性水平, 实验表明其在保持其他评估指标的同时实现了优越的经验鲁棒性.

Contraction and Hourglass Persistence for Learning on Graphs, Simplices, and Cells

Mattie Ji, Indradyumna Roy, Vikas Garg

cs.LG math.AT stat.ML

本文提出了一种结合图收缩操作的拓扑描述子, 用于增强图神经网络的表达能力. 该方法通过交错进行图的包含与收缩序列来构建新的拓扑特征, 并设计了可微分的算法实现.

SVL: Goal-Conditioned Reinforcement Learning as Survival Learning

Franki Nguimatsia Tiofack et al.

cs.LG cs.AI

本文提出了一种名为生存价值学习(SVL)的、用于目标条件强化学习(GCRL)的概率方法。它将问题重构为生存学习，通过建模从每个状态到目标的剩余时间分布来估计价值函数，并在离线基准测试中展示了有效性。

Diverse Dictionary Learning

Yujia Zheng et al.

cs.LG math.ST stat.ML

本文提出了 diverse dictionary learning 问题, 用于在仅给定观测数据 $X = g(Z)$ 且生成过程 $g$ 未知的情况下, 探索在无法完全识别潜在变量 $Z$ 时, 哪些结构信息仍能被可靠地恢复. 作者证明了即使没有强假设, 与观测相关的潜在变量的交集、补集和对称差等集合论结构, 以及依赖关系, 在适当的不可确定性下仍然是可识别的. 这些结果可以通过集合代数组合, 构建对隐藏世界的结构化理解, 并在结构多样性足够时导向完全可识别性. 理论分析表明, 这些可识别性优势来源于一个简单的归纳偏置, 该偏置可以轻松集成到大多数模型中.

Recovery Guarantees for Continual Learning of Dependent Tasks: Memory, Data-Dependent Regularization, and Data-Dependent Weights

Liangzu Peng et al.

cs.LG math.ST

本文研究了持续学习(Continual Learning, CL)中任务依赖性的理论建模，针对非线性回归任务，假设当前任务数据是先前数据的非线性变换。在此模型下，作者为几种实用的CL范式（包括经验回放、数据依赖/独立的权重与正则化）提供了统计恢复保证，即估计误差的界。这些结果在先前工作给出空洞界限的情况下具有信息量。

How Much Data is Enough? The Zeta Law of Discoverability in Biomedical Data, featuring the enigmatic Riemann zeta function

Paul M. Thompson

cs.LG cs.AI q-bio.NC

本文提出了一个基于数据协方差算子谱结构的可发现性标度律框架, 将许多性能指标与累积信噪比能量联系起来. 该框架预测了不同模型在不同数据规模下的性能交叉现象, 并应用于多模态生物医学数据分析.

STEP-PD: Stage-Aware and Explainable Parkinson's Disease Severity Classification Using Multimodal Clinical Assessments

Md Mezbahul Islam et al.

cs.LG cs.AI

本文提出了一个用于帕金森病严重程度分期的机器学习框架STEP-PD, 它整合了多模态临床评估数据, 并利用SHAP方法增强模型的可解释性. 该框架在PPMI数据集上实现了高精度的分期分类.

Conditional Attribution for Root Cause Analysis in Time-Series Anomaly Detection

Shashank Mishra et al.

cs.LG

本文提出了一种用于时间序列异常检测根因分析的条件归因框架. 该方法通过检索与异常观测上下文相似的正常状态作为基线, 避免了不现实的扰动, 从而生成更可靠的解释. 实验表明该方法在多个基准数据集上提高了根因识别的准确性和鲁棒性.

STRIKE: Additive Feature-Group-Aware Stacking Framework for Credit Default Prediction

Swattik Maiti, Ritik Pratap Singh, Fardina Fathmiul Alam

cs.LG

本文提出了一种用于信用违约预测的特征分组感知堆叠框架STRIKE. 该框架将特征空间划分为语义组, 在各组内独立训练模型, 再通过元学习器集成预测, 在多个真实数据集上取得了优于基线方法的AUC-ROC性能.

SLO-Guard: Crash-Aware, Budget-Consistent Autotuning for SLO-Constrained LLM Serving

Christian Lysenstøen

cs.LG cs.DC cs.PF

本文提出了一种名为SLO-Guard的自动调优器，用于在满足延迟服务级别目标(SLOs)的条件下部署大型语言模型(LLM)。该方法将配置崩溃视为重要观测，并结合了分阶段的探索与利用策略，旨在更一致地利用给定的调优预算来寻找可行的配置。

ATLAS: Constitution-Conditioned Latent Geometry and Redistribution Across Language Models and Neural Perturbation Data

Gareth Seneque et al.

cs.LG cs.AI cs.CL

本文提出了一种名为ATLAS的几何分析方法, 用于追踪"宪法"条件化后训练在模型表示几何中引发的结构化扰动. 该方法通过定义局部图表来测量其切结构, 占用分布和行为耦合在系统变化下的情况, 并展示了这种几何结构可以在不同模型和生物神经扰动数据中被重新识别.

Prior-Fitted Functional Flow: In-Context Generative Models for Pharmacokinetics

César Ojeda et al.

cs.LG stat.ML

本文提出了一种用于药代动力学的生成基础模型, 能够在无需手动调参的情况下进行零样本群体合成和个体预测. 该方法通过显式地以整个研究群体的稀疏、不规则数据为条件来学习函数向量场, 从而生成一致的虚拟队列并对部分观测的患者轨迹进行具有校准不确定性的预测.

Grokking of Diffusion Models: Case Study on Modular Addition

Joon Hyeok Kim et al.

cs.LG

本文研究了 diffusion models 在 modular addition 任务上的 grokking 现象. 通过分析两种数据模式下的内部计算机制, 揭示了模型如何将连续像素生成与离散符号推理相结合.

SafeAnchor: Preventing Cumulative Safety Erosion in Continual Domain Adaptation of Large Language Models

Dongxin Guo, Jikun Wu, Siu Ming Yiu

cs.LG cs.AI

本文提出了SafeAnchor框架, 用于防止大语言模型在持续领域适应过程中的安全性累积侵蚀. 该方法通过识别LoRA参数空间中的低秩安全子空间并约束领域特定更新, 在多个基准测试中有效保持了原始安全对齐性能.

CAPO: Counterfactual Credit Assignment in Sequential Cooperative Teams

Shripad Deshmukh et al.

cs.LG cs.AI cs.MA

本文提出了一种用于顺序合作团队中反事实信用分配的框架CAPO. 它通过定义Sequential Aristocrat Utility (SeqAU)来分解团队奖励, 并推导出无需critic的策略梯度算法, 在模拟实验中验证了其有效性.

MoE-nD: Per-Layer Mixture-of-Experts Routing for Multi-Axis KV Cache Compression

Libo Sun et al.

cs.LG cs.CL

本文提出了一种名为MoE-nD的混合专家框架, 用于对LLM推理中的KV cache进行多维压缩. 该方法通过离线贪婪求解器为不同层分配不同的eviction和quantization策略组合, 在全局内存预算下实现更优的压缩效果. 实验表明, 该方法在长上下文任务上能实现高压缩率的同时保持模型质量, 但对于短输入任务提升有限.

The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability

Prashant C. Raju

cs.LG cs.CL

本文提出了一种基于表示稳定性（representational stability）的几何诊断方法，用于预测语言模型的可操控性（steerability）和检测其内部表示的漂移（drift）。研究发现，有监督的任务对齐稳定性可有效预测线性操控性，而无监督的稳定性则更擅长于检测模型在训练后对齐过程中发生的表示变化。

Modeling Higher-Order Brain Interactions via a Multi-View Information Bottleneck Framework for fMRI-based Psychiatric Diagnosis

Kunyu Zhang et al.

cs.LG

本文提出了一种用于fMRI精神病诊断的多视图信息瓶颈框架, 通过引入$O$-information来建模高阶脑交互. 该方法融合了成对、三元和四元交互, 并在多个基准数据集上取得了优于现有方法的性能.

FlashFPS: Efficient Farthest Point Sampling for Large-Scale Point Clouds via Pruning and Caching

Yuzhe Fu et al.

cs.LG cs.CV

本文提出了一种名为FlashFPS的硬件无关框架，通过剪枝和缓存技术来加速点云处理中的Farthest Point Sampling (FPS)操作。该方法在GPU和专用加速器上均实现了显著的推理速度提升，且精度损失可忽略。

Tool Learning Needs Nothing More Than a Free 8B Language Model

Chenming Tang et al.

cs.LG cs.CL

本文提出了一种名为TRUSTEE的数据无关方法, 用于训练工具调用智能体. 该方法仅使用小型开源语言模型动态生成模拟环境, 无需额外标注数据或商业模型资源.

Efficient Federated RLHF via Zeroth-Order Policy Optimization

Deyi Wang, Qining Zhang, Lei Ying

cs.LG

本文提出了一种用于联邦学习环境下资源受限智能体的高效RLHF算法Par-S$^2$ZPO. 该算法基于带二元扰动的零阶优化, 在通信, 计算和内存开销上具有优势, 并在实验中优于基于FedAvg的RLHF方法.

HiP-LoRA: Budgeted Spectral Plasticity for Robust Low-Rank Adaptation

Lixian Chen, Jianhong Tan

cs.LG cs.CL

本文提出了一种名为HiP-LoRA的频谱感知适应框架，用于解决LoRA在微调中存在的频谱干扰问题。该方法通过将低秩更新分解到主通道和残差通道，并利用稳定性预算来平衡任务适应与预训练能力保留，在持续调优等任务中表现优于基线方法。

LLM-AUG: Robust Wireless Data Augmentation with In-Context Learning in Large Language Models

Pranshav Gajjar et al.

cs.LG

本文提出了一种名为LLM-AUG的数据增强框架，利用大型语言模型（LLMs）的上下文学习能力，在学习的嵌入空间中直接生成合成训练样本。该方法在调制分类和干扰分类任务上进行了评估，在低样本量场景下表现优于传统数据增强和深度生成基线。

TeleEmbedBench: A Multi-Corpus Embedding Benchmark for RAG in Telecommunications

Pranshav Gajjar, Vijay K Shah

cs.LG

本文提出了TeleEmbedBench, 一个专门为电信领域设计的、多语料库的embedding模型评测基准. 该基准包含三个异构语料库, 并通过一个自动化的LLM pipeline构建了大规模的评测数据集, 评估了多种embedding模型在电信文档检索任务上的性能.

Ranking Abuse via Strategic Pairwise Data Perturbations

Junyi Yao, Zihao Zheng, Jiayu Long

cs.LG cs.AI cs.GT

本文研究了基于MLE的排序系统在对抗性数据扰动下的脆弱性. 作者提出了一种高效的攻击方法, 并在实验中观察到排名结果对结构化扰动存在显著的敏感性.

Efficient Diffusion Models under Nonconvex Equality and Inequality constraints via Landing

Kijung Jeon, Michael Muehlebach, Molei Tao

cs.LG stat.CO stat.ML

本文提出了一种在非凸可行集上处理等式与不等式约束的扩散模型统一框架, 引入了高效的landing机制来替代投影, 并利用欠阻尼动力学加速混合. 该方法在多个基准测试中在保持样本质量的同时显著降低了计算成本.

M100: An Orchestrated Dataflow Architecture Powering General AI Computing

Yan Xie et al.

cs.LG cs.AR

本文介绍了一种名为M100的面向通用AI计算的数据流并行架构, 其通过编译器-架构协同设计来编排计算和数据移动. 该架构以tensor为基本数据单元, 在自动驾驶和大型语言模型等推理任务中展现了优于GPGPU的性能和效率.

LEPO: \underline{L}atent R\underline{e}asoning \underline{P}olicy \underline{O}ptimization for Large Language~Models

Yuyan Zhou et al.

cs.LG cs.AI

本文提出了一种名为LEPO的新框架, 将强化学习直接应用于大型语言模型的连续潜在表示. 该方法通过引入可控随机性来增强推理路径的多样性, 并在实验中显示出优于现有方法的性能.

Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study

Yubai Wei, Chen Wu, Hashem Haghbayan

cs.LG cs.AI cs.RO

本文探讨了在Vision-Language-Action (VLA) 模型训练中引入显式的物理可行性监督（如避障、运动学可行性）是否能提升策略性能。通过一个基于几何的可行性目标，并将其集成到基于扩散的VLA策略训练中，实验表明该方法能提高物理可靠性、任务性能以及在低数据情况下的学习效率。

LoReC: Rethinking Large Language Models for Graph Data Analysis

Hongyu Zhan et al.

cs.LG cs.AI

本文提出了一种名为LoReC的即插即用方法, 旨在解决大型语言模型(LLMs)在处理图数据时表现不佳的问题. 该方法通过重新分配注意力, 在图信息注入以及对比解码等步骤来增强LLM对图结构的理解, 并在多个数据集上取得了优于现有图学习方法的性能.

Learning to Correct: Calibrated Reinforcement Learning for Multi-Attempt Chain-of-Thought

Muhammed Emrullah Ildiz et al.

cs.LG cs.AI

本文提出了一种用于多轮尝试推理的校准强化学习方法. 该方法通过设计一种无偏的加权策略来优化验证奖励, 并在合成与真实数据上验证了其有效性.

Fisher Decorator: Refining Flow Policy via A Local Transport Map

Xiaoyuan Cheng et al.

cs.LG cs.RO

本文提出了一种名为Fisher Decorator的方法, 用于改进基于流匹配(flow matching)的离线强化学习策略. 该方法将策略优化重新表述为一个由Fisher信息矩阵引导的局部传输问题, 以解决传统方法中各项同性正则化与行为策略流形各项异性之间的不匹配问题.

HEALing Entropy Collapse: Enhancing Exploration in Few-Shot RLVR via Hybrid-Domain Entropy Dynamics Alignment

Zhanyu Liu et al.

cs.LG cs.AI

本文针对 few-shot RLVR 中存在的严重 entropy collapse 问题，提出了一个名为 HEAL 的框架。该框架通过引入高价值的通用领域数据和一种新的奖励机制来增强探索，实验表明其在少量目标领域样本下能取得与全量训练相当的性能。

How Much Cache Does Reasoning Need? Depth-Cache Tradeoffs in KV-Compressed Transformers

Xiao Wang

cs.LG cs.AI cs.CC

本文研究了Transformer推理中KV cache压缩对多步推理能力的影响, 通过$k$-hop pointer chasing任务建立理论模型. 文章给出了关于计算深度与cache大小的下界猜想, 分析了信息带宽限制, 并比较了自适应与非自适应cache策略的错误率差异.

Federated Rule Ensemble Method in Medical Data

Ke Wan, Kensuke Tanioka, Toshio Shimokawa

cs.LG stat.ME

本文提出了一种用于医学数据的联邦规则集成方法, 称为联邦RuleFit框架. 该方法通过差分隐私直方图预处理、基于共享分割点的本地规则生成, 以及使用联邦对偶平均算法进行$\ell_1$正则化系数估计, 在保护数据隐私的同时构建了可解释的全局模型. 模拟和真实数据分析表明, 其性能与集中式方法相当, 并优于现有联邦学习方法.

Online Conformal Prediction with Adversarial Semi-bandit Feedback via Regret Minimization

Junyoung Yang, Kyungmin Kim, Sangdon Park

cs.LG stat.ML

本文提出了一种在对抗性半强盗反馈下的在线共形预测方法, 通过将预测集选择建模为对抗性强盗问题并利用regret最小化算法, 实现了长期覆盖率保证. 该方法在i.i.d.和非i.i.d.设置下均能有效控制错误覆盖率并保持合理的预测集大小.

Causally-Constrained Probabilistic Forecasting for Time-Series Anomaly Detection

Pooyan Khosravinia, João Gama, Bruno Veloso

cs.LG

本文提出了一种用于多元时间序列异常检测的因果约束概率预测框架, 称为因果引导Transformer (CGT). 该模型将显式的时滞因果图先验与深度序列建模相结合, 通过因果发现得到的硬父节点掩码来限制主要预测路径, 并利用辅助路径和安全门控机制来融合相关信息. 实验表明, 该方法在ASD和SMD基准测试中取得了先进的检测性能, 并提升了变量级归因的质量.

Neural Garbage Collection: Learning to Forget while Learning to Reason

Michael Y. Li et al.

cs.LG

本文提出了一种名为Neural Garbage Collection (NGC)的方法，让语言模型在推理过程中学习自主管理其KV缓存。该方法通过强化学习，仅基于任务结果的奖励信号，联合优化模型的推理和遗忘决策。实验表明，NGC能在显著压缩缓存的同时保持较高的任务准确率。

Neural Shape Operator Surrogates -- Expression Rate Bounds

Helmut Harbrecht, Christoph Schwab

cs.LG math.NA

本文研究了在参数化形状族上求解偏微分方程和边界积分方程的算子代理方法. 通过将问题拉回到参考域并利用参数全纯性, 证明了神经算子和谱算子代理的存在性及其误差界.

Clusterability-Based Assessment of Potentially Noisy Views for Multi-View Clustering

Mudi Jiang et al.

cs.LG

本文提出了一种用于多视图聚类数据的预聚类噪声视图分析方法. 该方法从聚类能力(clusterability)的角度, 设计了一个多视图聚类能力评分(MVCS), 用于量化数据中潜在聚类结构的强度, 并以此进行噪声视图检测. 实验表明该方法能有效支持噪声视图分析.

RASP-Tuner: Retrieval-Augmented Soft Prompts for Context-Aware Black-Box Optimization in Non-Stationary Environments

Enze Pan

cs.LG cs.AI

本文提出了一种名为RASP-Tuner的方法，用于在非平稳环境中进行上下文感知的黑盒优化。该方法通过检索历史上下文来构建混合专家代理模型，并在低维提示子空间中进行主要调整，从而在保持较低计算成本的同时实现优化。

Variational Autoencoder Domain Adaptation for Cross-System Generalization in ML-Based SOP Monitoring

Leyla Sadighi et al.

cs.LG

本文提出了一种基于变分自编码器(VAE)的领域自适应(DA)框架, 用于提升机器学习模型在不同光纤系统间监测物理层威胁时的泛化能力. 该方法通过训练一个共享编码器来学习跨系统的共同事件特征, 并抑制系统特异性差异, 从而显著提高了跨系统应用的分类准确率.

Sonata: A Hybrid World Model for Inertial Kinematics under Clinical Data Scarcity

Blaise Delaney et al.

cs.LG

本文提出了一种名为Sonata的混合世界模型, 用于在临床数据稀缺条件下进行六轴躯干IMU的表示学习. 该模型通过预测未来状态而非重建原始传感器轨迹进行预训练, 并在多项临床评估任务中展现出优于自回归基线的性能.

Towards a Foundation-Model Paradigm for Aerodynamic Prediction in Three-dimensional Design

Yunjia Yang et al.

cs.LG physics.flu-dyn

本文提出了一种用于三维气动预测的 foundation-model 范式。该方法先在大规模多样化数据集上预训练一个基于 Transformer 的模型，再通过少量任务特定样本进行微调，以在有限数据下构建高精度代理模型。

Towards Real-Time ECG and EMG Modeling on $μ$ NPUs

Josh Millar et al.

cs.LG

本文提出了一种轻量级的PhysioLite模型架构和训练框架，用于在资源受限的微神经处理单元($\mu$ NPUs)上实现ECG和EMG信号的实时分析。该模型通过可学习的小波滤波器组和硬件感知设计，在保持较小模型体积的同时，达到了与大型Transformer模型相当的性能。

Implicit neural representations as a coordinate-based framework for continuous environmental field reconstruction from sparse ecological observations

Agnieszka Pregowska, Hazem M. Kalaji

cs.LG cs.AI

本文探讨了使用 implicit neural representations (INRs) 作为基于坐标的框架，从稀疏的生态观测数据中重建连续环境场的潜力。研究评估了该方法在物种分布重建等场景中的表现，包括其插值行为和计算特性。

Predicting LLM Compression Degradation from Spectral Statistics

Mingxue

cs.LG

本文通过分析Qwen3和Gemma3模型家族在四种低秩压缩方法下的表现, 发现稳定秩(stable rank)和信息密度是预测性能下降的关键指标. 研究提出了一个基于压缩比与稳定秩乘积$\gamma \cdot \bar{\rho}_s$的预测因子, 并为其有效性提供了理论解释, 从而支持一种先预测后压缩的工作流程.

Towards E-Value Based Stopping Rules for Bayesian Deep Ensembles

Emanuel Sommer et al.

cs.LG stat.ML

本文提出了一种基于E-value的停止规则, 用于决定Bayesian Deep Ensembles中MCMC采样的时长. 该方法将集成构建过程视为一个序列化的假设检验, 以判断是否继续采样, 实验表明该方法通常只需部分采样预算即可达到效果.

Generalization Boundaries of Fine-Tuned Small Language Models for Graph Structural Inference

Michal Podstawski

cs.LG

本文研究了微调后的小型语言模型在图结构推断任务中的泛化能力边界. 实验表明, 模型在超出训练范围的图尺寸和分布上仍能保持一定的结构属性排序能力.

LoRaQ: Optimized Low Rank Approximation for 4-bit Quantization

Yann Bouquet et al.

cs.LG

本文提出了一种名为LoRaQ的数据无关后训练量化方法, 通过优化量化误差补偿, 允许低秩辅助分支本身也被量化, 从而首次实现了完全低于16比特的量化流程. 该方法在Pixart-$\Sigma$和SANA模型上取得了优于现有方法的结果, 并能与现代混合精度硬件兼容.

An `Inverse' Experimental Framework to Estimate Market Efficiency

Thomas Asikis, Heinrich Nax

cs.LG cs.CE stat.AP

本文提出了一种“逆向”实验框架, 通过仅使用订单簿数据(出价、要价和成交价格)来预测市场的配置效率. 作者采用了基于分位数的归一化技术来处理数据的非结构性和非平稳性, 并训练了包括线性回归和梯度提升树在内的多种模型. 该框架展示了在交易发生前评估市场效率的潜力.

Does "Do Differentiable Simulators Give Better Policy Gradients?'' Give Better Policy Gradients?

Ku Onoda et al.

cs.LG cs.AI cs.RO

本文探讨了在策略梯度强化学习中, 使用可微分模型进行一阶梯度估计的有效性问题. 作者提出了两种轻量级方法, 并在标准测试和机器人控制任务中验证了其性能.

Scalable Neighborhood-Based Multi-Agent Actor-Critic

Tim Goppelsroeder, Rasmus Jensen

cs.LG cs.AI

本文提出了一种名为MADDPG-K的可扩展多智能体强化学习方法, 通过将每个智能体的critic网络输入限制在度量距离最近的$k$个邻居智能体上, 解决了集中式critic方法输入维度随智能体数量线性增长的计算瓶颈. 实验表明, 该方法在多种环境中取得了与基线方法相当或更优的性能, 并展现出更好的运行时扩展性.

Attraction, Repulsion, and Friction: Introducing DMF, a Friction-Augmented Drifting Model

Arkadii Kazanskii et al.

cs.LG cs.CV

本文提出了一种名为DMF的摩擦增强漂移模型, 通过在线性调度的摩擦系数下分析两粒子代理系统的收缩阈值, 为漂移场迭代提供了有限时间误差界. 在Gaussian kernel假设下, 证明了漂移场均衡的可识别性, 即$V_{p,q}$在任何开集上消失可推出$q=p$, 从而完善了先前工作的理论.

FSEVAL: Feature Selection Evaluation Toolbox and Dashboard

Muhammad Rajabinasab, Arthur Zimek

cs.LG

本文介绍了一个名为FSEVAL的特征选择评估工具箱和可视化仪表板。该工具旨在为研究人员提供一个标准化的统一平台，以便于对特征选择算法进行全面评估和可视化。

Semantic-based Distributed Learning for Diverse and Discriminative Representations

Zhuojun Tian, Chaouki Ben Issaid, Mehdi Bennis

cs.LG cs.AI

本文提出了一种新的分布式学习框架, 旨在为下游应用生成多样且具有判别性的表征. 通过引入表征方差约束并利用原始-对偶方法或块坐标下降进行优化, 该框架在i.i.d.和非i.i.d.数据分布下均能保证解的理论性质. 在多个数据集上的实验验证了其有效性.

Towards Disentangled Preference Optimization Dynamics Beyond Likelihood Displacement

Wei Chen et al.

cs.LG cs.AI

本文提出了一种统一的 incentive-score decomposition 来分析 preference optimization 的动态过程, 并基于此定义了 disentanglement band 条件来避免 likelihood displacement. 作者进一步提出了一个即插即用的 reward calibration 方法来满足该条件, 实验表明该方法能改善训练动态和下游性能.

Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols

Fernando Reitich

cs.LG

本文提出了一种用于审计大语言模型协议中单步操作的配对结果测量接口, 通过两个速率$c$和$\gamma$来量化错误纠正与引入. 该框架旨在诊断协议在分布偏移、组合等情况下的行为, 并在合成数学任务和GSM8K数据集上进行了验证.

Universally Empowering Zeroth-Order Optimization via Adaptive Layer-wise Sampling

Fei Wang et al.

cs.LG

本文提出了一种用于大语言模型微调的自适应分层零阶优化框架 AdaLeZO. 它通过将分层选择建模为多臂老虎机问题, 动态分配扰动预算, 并引入逆概率加权机制来降低方差, 从而显著提升了训练速度.

Dissipative Latent Residual Physics-Informed Neural Networks for Modeling and Identification of Electromechanical Systems

Youyuan Long, Gokhan Solak, Arash Ajoudani

cs.LG

本文提出了一种用于机电系统建模与辨识的耗散性隐式残差物理信息神经网络(DiLaR-PINN). 该方法通过结构化的残差网络学习未建模的耗散效应, 并采用循环展开策略进行训练, 在真实直升机系统上验证了其有效性.

CAARL: In-Context Learning for Interpretable Co-Evolving Time Series Forecasting

Etienne Tajeuna et al.

cs.LG

本文提出了一种名为CAARL的模型, 用于预测具有复杂依赖和非平稳动态的协同演化时间序列. 该方法将时间序列分解为自回归片段, 构建时间依赖图并将其序列化为可由LLM处理的叙述, 从而提供可解释的预测.

Scale-free adaptive planning for deterministic dynamics & discounted rewards

Peter L. Bartlett et al.

cs.LG

本文提出了一种名为Platypoos的scale-free规划算法, 用于处理具有deterministic dynamics和stochastic discounted rewards的环境. 该算法无需预先知道reward function的scale和smoothness, 其sample complexity的分析结果在广泛的discount factor范围内改进了先前的工作.

Parkinson's Disease Detection via Self-Supervised Dual-Channel Cross-Attention on Bilateral Wrist-Worn IMU Signals

Meheru Zannat

cs.LG

本文提出了一种基于自监督双通道交叉注意力机制的方法, 用于处理双侧腕戴式IMU信号以检测帕金森病. 该方法在公开数据集上取得了较高的分类准确率, 并展示了在有限标注数据下的迁移学习潜力及在边缘设备上的实时推理能力.

Forecasting Ionospheric Irregularities on GNSS Lines of Sight Using Dynamic Graphs with Ephemeris Conditioning

Mert Can Turkmen, Eng Leong Tan, Yee Hui Lee

cs.LG eess.SP physics.geo-ph physics.space-ph

本文提出了一种基于动态图神经网络的方法来预测电离层不规则性, 该方法利用卫星星历信息预先构建预测时段的图结构, 从而能够对仅在预测时段内出现的卫星视线进行预测. 在GNSS数据上的实验表明, 该方法相比持续性基准模型有显著提升, 并且图结构和星历条件化都起到了重要作用.

Randomly Initialized Networks Can Learn from Peer-to-Peer Consensus

Esteban Rodríguez-Betancourt, Edgar Casasola-Murillo

cs.LG cs.AI

本文探讨了 self-distillation 在学习动态中的作用。通过训练一组随机初始化的网络并移除所有其他常见组件，研究发现这种极简设置也能在下游任务上学习到超越随机基线的表示。

Bridge-Centered Metapath Classification Using R-GCN-VGAE for Disaster-Resilient Maintenance Decisions

Takato Yasuno

cs.LG

本文提出了一种基于R-GCN-VGAE的方法，用于对桥梁在灾害场景下的多维角色进行分类。该方法利用开放数据构建城市异质图，并通过基于元路径的特征表示来支持维护预算决策。

Balance-Guided Sparse Identification of Multiscale Nonlinear PDEs with Small-coefficient Terms

Zhenhua Dang et al.

cs.LG math.NA

本文提出了一种名为Balance-Guided SINDy (BG-SINDy)的数据驱动方法，用于从数据中发现包含小系数项的多尺度非线性偏微分方程(PDEs)的控制方程。该方法基于主导平衡原理，通过一种渐进剪枝策略来解决$\ell_{2,0}$正则化问题，从而能够识别出系数虽小但动态意义显著的项。数值实验在多个经典方程上验证了该方法的有效性。

Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning

Hen Davidov et al.

cs.LG cs.CL stat.ML

本文提出了一个用于大语言模型推理过程中动态弃权的原则性框架. 该框架将弃权建模为强化学习中的一个显式动作, 并推导出一个基于价值函数的近似方法. 实验表明, 该方法在数学推理等任务上优于现有基线.

Scalable Physics-Informed Neural Differential Equations and Data-Driven Algorithms for HVAC Systems

Hanfeng Zhai et al.

cs.LG eess.SY nlin.AO

本文提出了一种用于大规模HVAC系统的可扩展数据驱动仿真框架, 将physics-informed neural ODEs与DAE求解器相结合. 该方法在组件层面学习热交换器动力学, 在系统层面通过DAE求解器强制执行连接约束, 并在实验中实现了比高保真仿真更快的速度且保持较低误差.

ProtoCLIP: Prototype-Aligned Latent Refinement for Robust Zero-Shot Chest X-Ray Classification

Florian Kittler, Sheethal Bhat, Andreas Maier

cs.LG cs.AI cs.CV

本文提出了一种名为ProtoCLIP的改进策略, 用于增强CLIP风格视觉语言模型在胸部X光零样本分类中的鲁棒性. 该方法通过构建病理聚焦的训练子集和引入表示保持的蒸馏目标, 旨在减少标签共现偏差并稳定域适应, 在未见数据集上取得了性能提升.

AutoPPA: Automated Circuit PPA Optimization via Contrastive Code-based Rule Library Learning

Chongxiao Li et al.

cs.LG cs.AR

本文提出了一个名为AutoPPA的自动化电路PPA优化框架. 该框架通过探索-评估-归纳的工作流程, 从生成的代码对中自动抽象出优化规则, 并采用自适应多步搜索来应用这些规则, 从而在性能、功耗和面积优化上超越了现有方法.

Learning Invariant Modality Representation for Robust Multimodal Learning from a Causal Inference Perspective

Sijie Mai, Shiqin Han

cs.LG

本文提出了一种从因果推断视角学习不变模态表示的方法, 用于提升多模态学习的鲁棒性. 该方法通过理论驱动的解耦技术, 将每个模态分离为因果不变表示和环境特定的伪相关表示, 并在多个基准测试中展现了优越的性能.

Semantic Step Prediction: Multi-Step Latent Forecasting in LLM Reasoning Trajectories via Step Sampling

Yidi Yuan

cs.LG

本文研究了在LLM推理轨迹中通过调整采样位置来增强多步潜在预测的方法. 实验表明, 在语义步骤边界处应用STP方法能显著提升预测精度, 并揭示了生成质量与几何规律性之间的权衡.

An Integrated Deep-Learning Framework for Peptide-Protein Interaction Prediction and Target-Conditioned Peptide Generation with ConGA-PePPI and TC-PepGen

Chupei Tang et al.

cs.LG cs.AI

本文提出了一个结合了相互作用预测与肽序列生成的深度学习框架, 用于肽-蛋白质相互作用的早期筛选. 该框架包含预测模型ConGA-PepPI和生成模型TC-PepGen, 并在多个基准测试中展现了竞争力.

NI Sampling: Accelerating Discrete Diffusion Sampling by Token Order Optimization

Enshu Liu et al.

cs.LG

本文提出了一种名为NI Sampling的通用采样顺序优化框架, 用于加速离散扩散语言模型(dLLMs)的生成过程. 该方法通过训练一个神经指示器来决定每一步应采样哪些token, 实验表明其能在保持性能的同时显著减少采样迭代次数.

Train Separately, Merge Together: Modular Post-Training with Mixture-of-Experts

Jacob Morrison et al.

cs.LG

本文提出了一种名为BAR的模块化后训练方法, 通过独立训练不同领域的专家模型, 并使用Mixture-of-Experts架构和轻量级路由训练将它们组合起来. 该方法旨在以线性成本扩展语言模型的能力, 避免灾难性遗忘, 并在多个评估类别上取得了与从头训练基线相当或更好的性能.

Multi-Scale Reversible Chaos Game Representation: A Unified Framework for Sequence Classification

Sarwan Ali, Taslim Murad

cs.LG

本文提出了一种名为Multi-Scale Reversible Chaos Game Representation (MS-RCGR)的新编码框架，用于将生物序列转化为多分辨率几何表示。该方法通过有理算术和分层k-mer分解生成尺度不变特征，并保证了编码的可逆性。实验表明，结合预训练语言模型嵌入与MS-RCGR特征的混合方法能提升序列分类性能。

Faster by Design: Interactive Aerodynamics via Neural Surrogates Trained on Expert-Validated CFD

Nicholas Thumiger et al.

cs.LG cs.AI

本文提出了一种用于赛车空气动力学设计的神经网络代理模型GIST, 该模型基于图结构并利用谱嵌入来编码网格连接性, 以处理复杂的几何形状. 作者还构建了一个由专家验证的高保真CFD数据集, 并展示了该模型在公开基准和赛车数据集上达到了先进的预测精度, 为交互式设计探索提供了可能.

Barrier-enforced multi-objective optimization for direct point and sharp interval forecasting

Worachit Amnuaypongsa et al.

cs.LG eess.SY

本文提出了一种基于神经网络的概率预测框架, 用于同时生成点预测和区间预测. 该方法通过设计模型结构确保预测区间不交叉, 并利用多目标优化方法自适应地平衡多个目标, 在太阳能辐照度预测应用中取得了良好效果.

Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data

Zhenwen Liang et al.

cs.LG

本文针对强化学习在大型语言模型推理任务中, 当基础模型在标准基准上表现饱和时, 因缺乏失败案例导致优势信号消失和策略崩溃的问题, 提出了CUTS解码策略和Mixed-CUTS训练框架. 实验表明, 该方法能有效防止策略退化并提升模型的领域外泛化能力.

IDOBE: Infectious Disease Outbreak forecasting Benchmark Ecosystem

Aniruddha Adiga et al.

cs.LG cs.AI q-bio.PE

本文提出了一个用于传染病暴发预测的基准数据集IDOBE, 它整合了跨越一个多世纪的流行病学时间序列数据, 并生成了超过10,000次暴发事件用于评估. 作者使用多种基线模型进行了短期预测性能测试, 并公开了数据集以促进标准化评估.

Wasserstein Distributionally Robust Risk-Sensitive Estimation via Conditional Value-at-Risk

Feras Al Taha, Eilyan Bitar

cs.LG eess.SP math.OC

本文提出了一种基于Wasserstein分布鲁棒优化的风险敏感估计方法, 通过最小化最坏情况下的条件风险价值(CVaR)来设计仿射估计器. 该方法在电力市场价格预测任务中展示了优于现有方法的样本外性能.

Physics-Informed Neural Networks for Biological $2\mathrm{D}{+}t$ Reaction-Diffusion Systems

William Lavery et al.

cs.LG q-bio.QM

本文提出了一种结合数据预处理、BINN方程学习和符号回归后处理的PINN框架，用于从数据中发现二维时空反应-扩散系统的控制方程。该方法在肺癌细胞群动态的延时显微镜数据上进行了验证，展示了从实验观测中恢复模型的实用性。

A Note on TurboQuant and the Earlier DRIVE/EDEN Line of Work

Ran Ben-Basat et al.

cs.LG

本文澄清了TurboQuant与早期DRIVE/EDEN量化方案之间的关系. 它指出TurboQuant的两种变体分别是EDEN的特殊子情况或次优组合, 并通过实验表明优化后的EDEN方案在精度上全面优于TurboQuant.

Latent Phase-Shift Rollback: Inference-Time Error Correction via Residual Stream Monitoring and KV-Cache Steering

Manan Gupta, Dhruv Kumar

cs.LG cs.AI cs.CL

本文提出了一种在推理时无需微调即可纠正大语言模型推理错误的方法. 该方法通过监测残差流中的异常变化并回滚KV缓存来实现纠错, 在数学推理任务上显著提升了模型性能.

A multimodal and temporal foundation model for virtual patient representations at healthcare system scale

Andrew Zhang et al.

cs.LG cs.AI cs.CL

本文提出了一个名为Apollo的多模态时序基础模型, 用于整合临床记录中的多模态数据并生成统一的虚拟患者表示. 该模型在包含大量纵向医疗记录的数据集上进行了训练和评估, 并在多种临床预测和检索任务上展示了其性能.

When Can LLMs Learn to Reason with Weak Supervision?

Salman Rahman et al.

cs.LG cs.AI

本文研究了在弱监督条件下, 大型语言模型(LLMs)何时能学会推理. 通过实验发现, 泛化能力与训练奖励饱和动态相关, 而推理忠实性(faithfulness)是预测模型行为的关键预训练属性.

Bounded Ratio Reinforcement Learning

Yunke Ao et al.

cs.LG cs.AI

本文提出了Bounded Ratio Reinforcement Learning (BRRL)框架, 通过一个正则化约束的策略优化问题及其解析最优解, 为策略优化提供了新的理论视角. 该框架连接了trust region方法与PPO的启发式目标, 并推导了确保性能单调改进的保证. 基于此框架的Bounded Policy Optimization (BPO)算法在多个基准测试中表现稳定, 性能与PPO相当或更优.

Sessa: Selective State Space Attention

Liubomyr Horbatko

cs.LG cs.AI cs.CL

本文提出了一种名为Sessa的序列模型解码器，它将attention机制置于一个反馈路径中，实现了层内的循环多路径信息聚合。在特定假设下，该模型能实现比$O(1/\ell)$更慢的幂律衰减记忆，并在长上下文基准测试中表现出色。

cs.AI

Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration ⭐ 精选

Qifan Zhang et al.

cs.AI

本文提出了一种训练LLM agent进行自发、无奖励自我进化的新方法. 该方法通过设计一种基于结果的奖励机制, 在训练阶段引导agent探索和总结世界知识, 从而赋予其内在的元进化能力. 在推理时, agent无需外部奖励或指令, 即可自发适应未知环境. 实验表明, 该方法显著提升了agent在WebVoyager和WebWalker等任务上的性能, 甚至使一个较小的模型超越了未辅助的更大模型, 为agent的自主进化建立了新范式.

Governing the Agentic Enterprise: A Governance Maturity Model for Managing AI Agent Sprawl in Business Operations

Vivek Acharya

cs.AI cs.MA

本文针对企业运营中AI agent激增带来的治理危机, 提出了一个五级成熟度治理模型(AAGMM). 该模型定义了12个治理领域, 并通过模拟验证了不同成熟度等级在成本控制、风险事件率等业务指标上的显著差异.

Semantic Consensus: Process-Aware Conflict Detection and Resolution for Enterprise Multi-Agent LLM Systems

Vivek Acharya

cs.AI cs.MA cs.SE

本文针对企业多智能体LLM系统中因语义意图分歧导致的协调失败问题, 提出了一个名为语义共识框架(SCF)的流程感知中间件. 该框架通过多个组件实现冲突检测与解决, 并在实验中显著提升了工作流完成率.

Computational Hermeneutics: Evaluating generative AI as a cultural technology

Cody Kommers et al.

cs.AI cs.CY

本文从人文学科的诠释学理论出发, 提出生成式AI系统应被视为"语境机器", 并面临情境性, 多元性和模糊性三大解释性挑战. 作者提出了"计算诠释学"这一新兴框架及其三项评估原则, 旨在将AI评估的重点从准确性转向对意义和语境的考量.

Heterogeneous Self-Play for Realistic Highway Traffic Simulation

Jinkai Qiu et al.

cs.AI cs.LG cs.MA cs.RO

本文提出了一个用于高速公路交通仿真的异质智能体自博弈框架PHASE, 通过条件化控制、合成场景生成和闭环多智能体训练来提升场景覆盖度、可控性和交互真实性. 该方法在未见过的真实交互场景中实现了零样本迁移, 显著提升了轨迹预测精度和行为真实性.

Support Sufficiency as Consequence-Sensitive Compression in Belief Arbitration

Mark Walsh

cs.AI cs.LG q-bio.NC

本文提出了一种信念仲裁中的支持充分性概念, 将其视为一种后果敏感的压缩过程. 作者构建了一个循环仲裁架构, 其中活跃的约束场共同决定了候选假设的几何结构, 系统将该几何结构压缩为一个支持感知的控制状态. 通过一个有界目标函数形式化了保留支持信息过少与过多之间的权衡, 并利用最小重复交互模拟验证了控制器预测.

Healthcare AI for Automation or Allocation? A Transaction Cost Economics Framework

Ari Ercole

cs.AI econ.GN

本文利用transaction-cost economics框架, 通过分析O*NET职业数据库中的任务描述, 对医疗保健工作中的协调成本进行了量化. 研究发现临床角色的交易成本显著高于非临床角色, 这主要源于信息搜索和决策相关的协调负担, 并指出AI干预的机会分布不均, 更多地受到协调结构而非技术任务复杂性的影响.

Agentic Frameworks for Reasoning Tasks: An Empirical Study

Zeeshan Rasheed et al.

cs.AI cs.SE

本文对22种流行的agentic frameworks在三个推理基准(BBH, GSM8K, ARC)上进行了实证评估。研究发现，多数框架能完成任务，但数学推理性能显著下降，且编排问题(如上下文控制、成本管理)是导致性能不佳的主要原因。

From Subsumption to Satisfiability: LLM-Assisted Active Learning for OWL Ontologies

Haoruo Zhao et al.

cs.AI

本文提出了一种利用LLM辅助OWL本体主动学习的方法. 该方法将描述逻辑中的包含关系(subsumption)测试转化为可满足性(satisfiability)问题, 并通过自然语言向LLM提问以获取近似反例, 从而在保证本体一致性的前提下加速学习过程. 实验表明, 该方法在多个标准本体和商用LLM上能稳定控制II类错误.

Agentic Risk-Aware Set-Based Engineering Design

Varun Kumar, George Em Karniadakis

cs.AI cs.LG

本文提出了一个基于大型语言模型的多智能体框架, 用于辅助工程设计的早期阶段. 该框架在基于集合的设计哲学中集成了形式化的风险管理, 使用Conditional Value-at-Risk (CVaR)作为量化指标来筛选高风险设计, 并通过自动化工作流为人类决策者提供经过评估的候选方案.

The Query Channel: Information-Theoretic Limits of Masking-Based Explanations

Erciyes Karakaya, Ozgur Ercetin

cs.AI

本文提出了一种基于信息论的框架, 将基于掩码的模型解释方法(如KernelSHAP和LIME)建模为通过一个“查询信道”进行通信的过程. 该框架将解释的复杂度与假设类的熵联系起来, 并推导了可靠恢复解释所需的最小查询次数的信息论极限.

RankGuide: Tensor-Rank-Guided Routing and Steering for Efficient Reasoning

Jiayi Tian et al.

cs.AI

本文提出了RankGuide框架, 通过分析small reasoning models (SRMs)在文本和隐藏状态空间中的推理失败模式, 利用连续隐藏状态张量秩(tensor-rank)信号来指导路由和调控. 该方法在多个推理基准上实现了更高效的协作推理, 在保持精度的同时显著降低了延迟.

Evaluating Tool-Using Language Agents: Judge Reliability, Propagation Cascades, and Runtime Mitigation in AgentProp-Bench

Bhaskar Gurram

cs.AI cs.CL cs.MA

本文介绍了用于评估使用工具的大语言模型(LLM)智能体的基准AgentProp-Bench, 并量化了自动评估的可靠性. 研究发现, 基于子字符串的评估方法与人标注的一致性很低, 而集成方法可达到中等一致性, 同时揭示了错误传播的概率以及运行时缓解措施在不同模型上的效果差异.

Debate as Reward: A Multi-Agent Reward System for Scientific Ideation via RL Post-Training

Moein Salimi et al.

cs.AI cs.LG

本文提出了一个用于科学构思的强化学习框架, 其核心是一个多智能体奖励函数, 旨在作为"法官"提供严格且抗奖励攻击的二元奖励. 该方法在ICLR-320数据集上进行训练, 实验表明其在多个专家评估指标上优于现有基线.

When Agents Go Quiet: Output Generation Capacity and Format-Cost Separation for LLM Document Synthesis

Justice Owusu Agyemang et al.

cs.AI

本文研究了LLM编程代理在生成大型格式化文档时出现的"输出停滞"问题. 作者提出了一个理论框架, 通过引入输出生成容量(Output Generation Capacity, OGC)和格式成本分离定理(Format-Cost Separation Theorem)来解释和防止这种故障. 实验验证了延迟渲染(deferred rendering)策略能显著减少token消耗并消除输出停滞.

CT Open: An Open-Access, Uncontaminated, Live Platform for the Open Challenge of Clinical Trial Outcome Prediction

Jianyou Wang et al.

cs.AI cs.CL

本文介绍了一个名为CT Open的开放平台, 用于临床实验结果的预测挑战. 该平台通过一个自动化的去污染流程来确保评估的公正性, 并发布了训练集和测试基准.

Why Training-Free Token Reduction Collapses: The Inherent Instability of Pairwise Scoring Signals

Yang Shanglin

cs.AI cs.CV

本文分析了Vision Transformers中无需训练的token缩减方法在高压缩率下性能骤降的原因. 通过提出ranking consistency和off-diagonal correlation两个诊断工具, 作者将性能崩溃分解为层间缩减固有的误差放大效应和对pairwise相似性信号的依赖. 基于此诊断, 作者提出了新的设计原则并构建了CATIS方法进行验证.

Don't Start What You Can't Finish: A Counterfactual Audit of Support-State Triage in LLM Agents

Eren Unlu

cs.AI

本文通过引入Support-State Triage Audit (SSTA-32)诊断框架，评估了LLM智能体在任务受阻时的诊断与决策能力。研究发现，通过提供明确的分类决策路径，可以显著提升智能体对任务状态的准确判断，避免过度承诺。

Know When to Trust the Skill: Delayed Appraisal and Epistemic Vigilance for Single-Agent LLMs

Eren Unlu

cs.AI

本文提出了一个名为MESA-S的单智能体框架, 旨在通过引入元认知机制来改善大型语言模型(LLM)作为自主智能体时的决策可靠性. 该框架将传统的标量置信度估计向量化, 分离了自我置信度和来源置信度, 并通过延迟评估等机制来减少不必要的计算和上下文污染.

Machine individuality: Separating genuine idiosyncrasy from response bias in large language models

Valentin Kriegmair, Dirk U. Wulff

cs.AI

本文使用交叉随机效应模型分析了多个大语言模型在心理语言学规范任务中的响应数据, 旨在区分模型固有的个体差异与全局响应偏差. 研究发现, 平均有16.9%的方差可归因于刺激特定的个体性, 且这种个体性构成了每个模型独特的、连贯的行为指纹.

SAVE: A Generalizable Framework for Multi-Condition Single-Cell Generation with Gene Block Attention

Jiahao Li et al.

cs.AI

本文提出了一个名为SAVE的生成式框架, 用于多条件单细胞基因表达数据的建模. 该框架通过将基因分组为语义块并利用条件Transformer与Flow Matching机制, 旨在提升生成保真度与对未见条件组合的泛化能力.

Introspection Adapters: Training LLMs to Report Their Learned Behaviors

Keshav Shenoy et al.

cs.AI

本文提出了一种称为"introspection adapter"的方法, 用于使经过微调的大语言模型(LLM)能够用自然语言描述其习得的行为. 该方法通过在植入特定行为的微调模型上训练一个共享的LoRA适配器来实现, 并展示了其在行为检测任务上的泛化能力.

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

Nikhil Verma et al.

cs.AI cs.CL cs.DB

本文提出了PersonalHomeBench, 这是一个用于评估智能体在个性化智能家居环境中表现的基准测试平台. 该平台通过构建丰富的家庭状态来生成个性化任务, 并提供了一个工具集以支持与环境的交互, 实验揭示了智能体在复杂任务和反事实推理等方面的局限性.

The CTLNet for Shanghai Composite Index Prediction

Haibin Jiao

cs.AI

本文提出了一种结合CNN, Transformer和LSTM的混合神经网络模型CTLNet, 用于预测上证综合指数. 实验表明, 该模型在多元时间序列预测任务上优于现有的基准方法.

GAMMA-Net: Adaptive Long-Horizon Traffic Spatio-Temporal Forecasting Model based on Interleaved Graph Attention and Multi-Axis Mamba

Dongyi He et al.

cs.AI

本文提出了一种名为GAMMA-Net的交通时空预测模型，它结合了Graph Attention Networks和multi-axis Mamba来建模复杂的时空依赖关系。实验表明该模型在多个基准数据集上优于现有方法。

GRAIL: Autonomous Concept Grounding for Neuro-Symbolic Reinforcement Learning

Hikaru Shindo et al.

cs.AI cs.LG

本文提出了一个名为GRAIL的框架，用于在神经符号强化学习中自主地学习关系概念。它利用大语言模型提供初始概念表示，并通过环境交互进行细化，以解决稀疏奖励和概念错位问题。在Atari游戏上的实验表明，该方法在简化环境中能达到与人工定义概念相当的性能。

Step-GRPO: Internalizing Dynamic Early Exit for Efficient Reasoning

Benteng Chen et al.

cs.AI

本文提出了一种名为Step-GRPO的后训练框架，旨在提升大型推理模型的计算效率。该方法通过利用语言标记来结构化推理过程，将优化目标从原始token转移到语义步骤上，从而内部化动态提前退出的能力。实验表明，该方法能在减少计算消耗的同时保持模型精度。

Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models

Xinru Yan et al.

cs.AI

本文通过构建一个基于冲突的基准和模态选择率指标, 系统地量化了原生全模态大语言模型(OLLMs)中的模态偏好现象. 研究发现, 与传统的视觉语言模型(VLMs)的"文本主导"不同, 大多数OLLMs表现出明显的视觉偏好, 并且这种偏好是在模型的中后层逐渐形成的.

Skilldex: A Package Manager and Registry for Agent Skill Packages with Hierarchical Scope-Based Distribution

Sampriti Saha, Pranav Hemanth

cs.AI

本文介绍了Skilldex, 一个用于LLM agent技能包的管理器和注册表. 它提供了格式合规性评分和技能集抽象等工具.

The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus

Syed Muhammad Aqdas Rizvi

cs.AI cs.CL cs.CR cs.DC

本文通过一个名为Sentinel-Bench的实证框架，对Qwen-3.5-9B模型进行了推理时计算(System 2)的消融实验。研究发现，在对抗性的去中心化治理环境中，增加推理计算反而会严重损害模型的鲁棒性和效率，导致共识不稳定和延迟增加。

ClimAgent: LLM as Agents for Autonomous Open-ended Climate Science Analysis

Hao Wang et al.

cs.AI

本文提出了一个名为ClimAgent的自主智能体框架，用于执行开放式的气候科学分析任务。该框架通过集成工具使用环境和推理协议，在专门的ClimaBench基准测试上超越了现有基线。

Alignment Imprint: Zero-Shot AI-Generated Text Detection via Provable Preference Discrepancy

Junxi Wu et al.

cs.AI

本文提出了一种基于对齐印记的零样本AI生成文本检测方法. 该方法通过理论推导将LLM的对齐过程抽象为约束优化, 并引入了一个标准化的信息加权统计量LAPD来提升检测稳定性. 实验表明该方法相比现有基线有显著提升.

Playing Psychic: Using Thought Trees to Predict Reasoning Models Accuracy on Coding Tasks

Jiaxin Fang et al.

cs.AI

本文提出了一种通过分析 reasoning trace 的结构来预测大型语言模型在代码任务上准确性的方法. 作者构建了一个自动生成不同难度编程任务的框架, 并利用提取的 thought-tree 特征训练分类器以识别和重试错误答案.

LLMs can persuade only psychologically susceptible humans on societal issues, via trust in AI and emotional appeals, amid logical fallacies

Alexis Carrillo et al.

cs.AI cs.CY cs.HC cs.LG cs.SI

本文通过Talk2AI纵向框架，研究了大型语言模型(LLMs)在极化社会议题上对人类的说服力。研究发现，人类对初始观点存在惯性，且LLMs的说服效果主要作用于特定心理易感人群，与对AI的信任度及情感诉求相关。

AutoPKG: An Automated Framework for Dynamic E-commerce Product-Attribute Knowledge Graph Construction

Pollawat Hongwimol et al.

cs.AI

本文提出了一个名为AutoPKG的多智能体LLM框架, 用于从多模态商品内容中自动构建产品属性知识图谱(PKG). 该框架通过集中决策智能体维护全局一致的规范图谱, 并在真实电商数据集上验证了其有效性, 在线A/B测试也显示了其提升业务指标的实际价值.

MCPO: Mastery-Consolidated Policy Optimization for Large Reasoning Models

Zhaokang Liao et al.

cs.AI

本文提出了一种名为Mastery-Consolidated Policy Optimization (MCPO)的强化学习算法，用于改进大型语言模型(LLMs)的推理能力。该方法通过引入hinge-KL正则项和新的加权机制，解决了现有GRPO方法在训练信号和策略漂移方面的问题，并在多个数学基准测试中提升了性能。

A phenotype-driven and evidence-governed framework for knowledge graph enrichment and hypotheses discovery in population data

Adela Bâra, Simona-Vasilica Oprea

cs.AI

本文提出了一个表型驱动和证据主导的框架，用于在人口数据中丰富知识图谱和发现假设。该方法整合了图神经网络和大型语言模型，通过多目标优化来平衡知识的确认与发现。

Rule-VLN: Bridging Perception and Compliance via Semantic Reasoning and Geometric Rectification

Jiawen Wen et al.

cs.AI cs.CV cs.RO

本文提出了Rule-VLN，一个用于评估智能体在导航中遵守社会规则能力的大规模城市基准。它包含多种细粒度的视觉和行为约束，并引入了一个零样本的语义导航校正模块来增强预训练智能体的安全感知能力。

Small Model as Master Orchestrator: Learning Unified Agent-Tool Orchestration with Parallel Subtask Decomposition

Wenzhen Yuan et al.

cs.AI

本文提出了一种名为Agent-as-Tool的统一并行编排范式，将agents和tools抽象到标准化的可学习动作空间中。基于此，训练了一个轻量级编排器ParaManager，它通过两阶段训练流程实现并行子任务分解与执行，在多个基准测试中表现出色。

Mini-BEHAVIOR-Gran: Revealing U-Shaped Effects of Instruction Granularity on Language-Guided Embodied Agents

Sukai Huang et al.

cs.AI

本文提出了一个用于研究指令粒度对具身智能体影响的新基准, 并揭示了指令粒度与智能体性能之间存在非单调的U型关系.

Harness as an Asset: Enforcing Determinism via the Convergent AI Agent Framework (CAAF)

Tianbao Zhang

cs.AI cs.LG

本文提出了一个名为CAAF的框架, 旨在通过结构化的工作流程和确定性接口来确保AI智能体在安全关键任务中的可靠性. 该框架在自动驾驶和制药反应器设计等领域的基准测试中表现出色, 显著提升了约束满足率.

Understanding and Enforcing Weight Disentanglement in Task Arithmetic

Shangge Liu et al.

cs.AI

本文提出Task-Feature Specialization (TFS)作为解释task arithmetic成功的内在原理，并证明其能导致权重正交性。基于此，作者设计了一种名为OrthoReg的正则化方法，通过在微调中强制权重更新正交来提升任务组合的性能。

Complementing Self-Consistency with Cross-Model Disagreement for Uncertainty Quantification

Kimia Hamidieh et al.

cs.AI

本文提出了一种结合跨模型分歧来量化大语言模型不确定性的方法. 该方法通过计算模型间与模型内的语义相似度差异来估计认知不确定性, 并与基于自一致性的偶然不确定性结合, 以更好地识别模型的自信错误.

If Only My CGM Could Speak: A Privacy-Preserving Agent for Question Answering over Continuous Glucose Data

Yanjun Cui et al.

cs.AI cs.CR

本文提出了一个名为CGM-Agent的隐私保护框架，用于回答关于个人连续血糖监测数据的自然语言问题。该框架将大型语言模型作为推理引擎，在本地执行计算以避免数据泄露，并在构建的基准测试中评估了多个模型的性能。

Local Inconsistency Resolution: The Interplay between Attention and Control in Probabilistic Models

Oliver E. Richardson et al.

cs.AI cs.LG

本文提出了一个名为Local Inconsistency Resolution (LIR)的通用算法框架, 用于概率模型的学习和近似推断. 该框架基于Probabilistic Dependency Graphs (PDGs), 能够统一多种现有算法, 如EM, belief propagation和GANs, 并在GFlowNets上展示了改进.

Graph-of-Agents: A Graph-based Framework for Multi-Agent LLM Collaboration

Sukwon Yun et al.

cs.AI

本文提出了一种基于图结构的Graph-of-Agents框架，用于协调多个LLM agent进行协作。该框架通过节点采样、有向消息传递和图池化来整合不同模型的响应，在多个基准测试上取得了优于基线方法的效果。

Beyond the Basics: Leveraging Large Language Model for Fine-Grained Medical Entity Recognition

Nwe Ni Win et al.

cs.AI

本文评估了开源LLaMA3模型在细粒度医疗实体识别任务上的表现。研究采用了零样本、少样本和基于LoRA的微调三种学习范式，并引入了基于嵌入相似度的示例选择方法来提升少样本学习效果。结果表明，微调后的LLaMA3模型性能显著优于其他方法。

Yanasse: Finding New Proofs from Deep Vision's Analogies, Part 1

Alexandre Linhares

cs.AI

本文提出了一种通过跨数学领域迁移证明策略模式来发现新证明的方法. 该方法利用GPU加速的NP-hard类比匹配引擎, 将源领域的证明策略语义适配到目标领域, 并在Probability到Representation Theory的迁移中取得了40%的成功率.

Safe and Policy-Compliant Multi-Agent Orchestration for Enterprise AI

Vinil Pasupuleti et al.

cs.AI

本文提出了一种用于企业AI系统的运行时多智能体协调层CAMCO, 它将多智能体决策建模为一个约束优化问题, 通过约束投影、风险加权的效用塑造和可证明收敛的协商协议来确保策略合规与风险可控. 实验表明该方法能在多种企业场景下实现零策略违反、低风险暴露和高效用保留.

Rectification Difficulty and Optimal Sample Allocation in LLM-Augmented Surveys

Zikun Ye, Hema Yoganarasimhan

cs.AI stat.AP

本文研究了在LLM生成廉价预测的背景下, 如何为多个估计任务分配固定预算的人类受访者样本. 作者提出了一个结合了rectification difficulty概念, 最优分配规则以及基于历史数据的元学习预测器的框架, 该框架可推广到一般的M-估计问题. 在多个数据集上的实验验证了该方法的有效性, 能够在无需目标调查试点数据的情况下显著降低均方误差.

The Continuity Layer: Why Intelligence Needs an Architecture for What It Carries Forward

Samuel Sameer Tanguturi

cs.AI

本文是一篇关于AI系统架构的立场论文, 主张构建一个名为"continuity layer"的架构层来解决模型跨会话的记忆与理解持续性问题. 作者提出了该层应具备的七个特性, 并探讨了其工程实现、发展路径及治理架构.

HalluClear: Diagnosing, Evaluating and Mitigating Hallucinations in GUI Agents

Chao Jin et al.

cs.AI

本文提出了一个名为HalluClear的综合工具套件, 旨在诊断、评估和减轻GUI智能体中的幻觉问题. 该套件包含一个针对GUI的幻觉分类法, 一个经过校准的三阶段评估流程, 以及一个基于闭环结构化推理的缓解方案. 实验表明, 仅使用该套件中的少量数据进行后训练, 即可显著减少幻觉, 为GUI自动化提供了一条计算高效的路径.

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Yueyang Ding et al.

cs.AI

本文提出了一个用于时间序列推理的分层任务分类法, 并构建了一个包含多样化任务组合和验证过的思维链轨迹的数据集 HiTSR. 基于此, 作者开发了 LLaTiSA 模型, 它通过整合可视化模式和数值表格来增强视觉语言模型的时间感知能力, 并在多个任务上展示了良好的性能.

Efficient Test-Time Scaling via Temporal Reasoning Aggregation

Jiakun Li et al.

cs.AI

本文提出了TRACE框架, 用于在测试时动态终止大语言模型的多步推理过程以提高效率. 该方法通过聚合多步证据(答案一致性和置信度轨迹)来判断推理是否收敛, 从而在保持准确率的同时显著减少计算量.

SkillFlow:Benchmarking Lifelong Skill Discovery and Evolution for Autonomous Agents

Ziao Zhang et al.

cs.AI

本文提出了一个名为SkillFlow的基准测试, 用于评估自主智能体在长期学习中的技能发现与演化能力. 该基准包含166个任务, 并引入了一种域无关执行流(DAEF)来构建任务, 以及一个智能体终身学习协议来评估技能库的构建与维护.

Knows: Agent-Native Structured Research Representations

Guangsheng Yu, Xu Wang

cs.AI

本文提出了一种名为Knows的轻量级规范, 用于为研究文献(如PDF)创建结构化的、面向智能体(agent)的辅助文件(sidecar). 该方法旨在提高LLM智能体在科研工作流中提取和使用信息的效率和准确性.

AutoSearch: Adaptive Search Depth for Efficient Agentic RAG via Reinforcement Learning

Jingbo Sun et al.

cs.AI

本文提出了一个名为AutoSearch的强化学习框架, 旨在优化Agentic RAG系统中搜索步骤的深度. 该方法通过评估自生成的中间答案来动态调整搜索深度, 以在保证答案质量的同时减少不必要的计算开销.

Formal Foundations of Agentic Business Process Management

Giuseppe De Giacomo et al.

cs.AI

本文为基于智能体(agent)的业务流程管理系统建立了形式化数学基础, 分析了其核心问题. 文章在三种关键设定下研究了多自主决策者驱动的流程执行, 并探讨了组织如何通过目标与策略规范为智能体决策提供约束.

SOCIA-EVO: Automated Simulator Construction via Dual-Anchored Bi-Level Optimization

Yuncheng Hua et al.

cs.AI

本文提出了一种名为SOCIA-EVO的双锚定双层优化框架，用于自动化构建统计保真度的模拟器。该方法通过分离结构优化与参数校准，并利用执行反馈来剔除无效策略，从而提升了长程LLM智能体在模拟器构建任务中的鲁棒性和收敛性。

Hive: A Multi-Agent Infrastructure for Algorithm- and Task-Level Scaling

Zizhang Luo et al.

cs.AI cs.DC

本文提出了一个名为 Hive 的多智能体基础设施，旨在解决算法层面和任务层面的扩展性问题。该系统通过一个描述前端来捕获智能体行为，并利用后端机制优化计算资源分配。

T-DuMpRa: Teacher-guided Dual-path Multi-prototype Retrieval Augmented framework for fine-grained medical image classification

Zixuan Tang, Shen Zhao

cs.AI

本文提出了一种用于细粒度医学图像分类的教师引导双路径多原型检索增强框架(T-DuMpRa). 该框架结合了判别式分类与基于多原型的检索, 通过构建原型记忆库并在推理时进行置信度门控融合, 提升了模型在视觉模糊病例上的处理能力.

LLM-Guided Strategy Synthesis for Scalable Equality Saturation

Chenyun Yin et al.

cs.AI cs.MA cs.PL

本文提出了一个名为EggMind的LLM引导框架, 用于自动化合成Equality Saturation (EqSat) 的优化策略. 该框架通过一个领域特定语言EqSatL来表示策略, 并利用LLM代理工作流进行高效搜索, 以缓解e-graph爆炸问题并提升优化效果.

Beyond Meta-Reasoning: Metacognitive Consolidation for Self-Improving LLM Reasoning

Ziqing Zhuang et al.

cs.AI

本文提出了一个名为"Metacognitive Consolidation"的框架, 旨在将大语言模型(LLM)在单次推理中获得的元认知经验转化为可重用的知识. 该方法通过结构化的问题解决角色和分层更新机制来积累元推理技能, 实验表明其在多个基准测试上带来了性能提升.

Phase-Scheduled Multi-Agent Systems for Token-Efficient Coordination

Mohit Dubey

cs.AI math.AT

本文提出了一种基于相位调度的多智能体系统(PSMAS), 用于解决大语言模型驱动的多智能体系统中的令牌效率低下问题. 该方法通过将智能体激活建模为在圆形流形上的连续控制, 并引入全局扫描信号来调度智能体执行, 从而显著减少了令牌消耗.

STRIDE: Strategic Iterative Decision-Making for Retrieval-Augmented Multi-Hop Question Answering

Wei Chen et al.

cs.AI

本文提出了一个名为STRIDE的框架, 用于改进检索增强的多跳问答(MHQA). 该框架通过分离战略规划, 动态控制和落地执行来缓解现有方法中存在的过早词汇承诺和步骤间依赖协调问题. 实验表明, STRIDE能够实现更鲁棒和准确的推理.

EvoMaster: A Foundational Agent Framework for Building Evolving Autonomous Scientific Agents at Scale

Xinyu Zhu et al.

cs.AI

本文提出了一个名为EvoMaster的基础性、可进化的智能体框架，旨在支持大规模自主科学发现。该框架强调智能体的持续自我进化能力，能够跨实验周期迭代优化假设并积累知识，并声称能以约100行代码快速构建面向任意学科的科学智能体。

Compiling Deterministic Structure into SLM Harnesses

Zan Kai Chong, Hiroyuki Ohsaki, Bryan Ng

cs.AI

本文提出了一种名为 Semantic Gradient Descent (SGDe) 的师生框架，用于将智能体工作流编译成包含确定性代码的执行计划。该方法在特定测试集上显著提升了小型语言模型的工作流执行准确率。

TrafficClaw: Generalizable Urban Traffic Control via Unified Physical Environment Modeling

Siqi Lai et al.

cs.AI

本文提出了一个名为TrafficClaw的通用城市交通控制框架，其核心是构建一个统一的物理环境模型，将交通信号、高速公路、公共交通等异构子系统整合到一个共享的动态系统中。该框架利用LLM智能体进行时空推理，并通过多阶段训练实现系统级的协调优化，在未见过的交通场景中展现了良好的泛化性能。

EHRAG: Bridging Semantic Gaps in Lightweight GraphRAG via Hybrid Hypergraph Construction and Retrieval

Yifan Song et al.

cs.AI

本文提出了一种轻量级的GraphRAG框架EHRAG，它通过构建融合结构和语义信息的超图来增强检索。该方法利用混合扩散检索机制，在多个数据集上取得了优于现有基准的性能，同时保持了线性的索引复杂度。

Language models recognize dropout and Gaussian noise applied to their activations

Damiano Fornasiere et al.

cs.AI

本文通过实验发现, 大型语言模型能够检测并定位其内部激活值(activations)所受到的扰动, 例如dropout(随机失活)或Gaussian noise(高斯噪声). 模型甚至能在一定程度上区分这两种扰动类型, 这引发了对模型是否具有某种"训练感知"能力的讨论.

Waking Up Blind: Cold-Start Optimization of Supervision-Free Agentic Trajectories for Grounded Visual Perception

Ashutosh Bajpai et al.

cs.AI cs.CL cs.LG

本文提出了一个名为SPECTRA的无监督框架, 用于增强小型视觉语言模型(SVLMs)的代理能力. 该框架通过强化学习和多目标奖励信号, 使模型能够自主发现有效的行为模式, 从而在多项基准测试中提升了任务准确性和工具使用效率.

Towards Shutdownable Agents: Generalizing Stochastic Choice in RL Agents and LLMs

Carissa Cullen et al.

cs.AI

本文探讨了如何通过DReST奖励函数训练AI代理，使其在轨迹长度选择上保持随机性（Neutral）并在给定长度内有效追求目标（Useful）。实验表明，该方法训练的强化学习代理和大型语言模型在未见过的测试环境中能较好地泛化这些特性。

SkillGraph: Self-Evolving Multi-Agent Collaboration with Multimodal Graph Topology

Zheng Nie et al.

cs.AI cs.MA

本文提出了SkillGraph, 一个联合演化agent专业能力和通信拓扑的框架, 用于解决视觉多智能体系统中的静态协作问题. 它通过一个多模态图Transformer动态预测查询相关的协作图, 并利用一个技能设计器从失败案例中提炼推理启发式规则, 构建自演化的技能库.

From Admission to Invariants: Measuring Deviation in Delegated Agent Systems

Marcelo Fernandez

cs.AI cs.CR

本文分析了基于运行时约束检查的自治agent治理机制的结构性局限. 文章证明了在满足局部可观测性假设的系统中, 用于定义允许行为空间的sigma-algebra无法由执行信号生成, 这导致行为漂移无法被检测. 作者提出了一个名为不变测量层(IML)的替代框架来克服这一限制, 并在多个实验场景中验证了其有效性.

COSEARCH: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search

Hansi Zeng et al.

cs.AI cs.CL cs.IR

本文提出了一个名为CoSearch的框架, 通过强化学习联合训练多步推理智能体(agent)和生成式文档排序模型. 该方法旨在克服现有智能体搜索(agentic search)中固定检索系统带来的性能瓶颈. 在多个问答基准测试上的实验表明, 联合训练是可行且有效的.

SafeAgent: A Runtime Protection Architecture for Agentic Systems

Hailin Liu et al.

cs.AI cs.MA

本文提出了一种名为SafeAgent的运行时安全架构, 用于保护基于大语言模型(LLM)的智能体(agent)系统免受提示注入(prompt-injection)等攻击. 该架构将安全决策视为一个基于交互轨迹的状态问题, 通过分离执行治理与语义风险推理来提升防护能力.

Beyond Static Snapshots: A Grounded Evaluation Framework for Language Models at the Agentic Frontier

Jazmia Henry

cs.AI

本文指出了当前大语言模型评估框架在评估智能体系统时的系统性缺陷, 并提出了一个名为Grounded Continuous Evaluation (GCE)的新框架. 作者还介绍了ISOPro系统, 该系统在资源受限的调度任务上进行了验证, 展示了性能提升.

DIRCR: Dual-Inference Rule-Contrastive Reasoning for Solving RAVENs

Jiachen Zhang et al.

cs.AI

本文提出了一种名为DIRCR的双重推理规则对比学习模型, 用于解决RAVEN抽象视觉推理问题. 该模型结合了局部行类比推理与全局整体推理, 并通过规则对比学习模块提升特征的可分离性.

Characterizing Model-Native Skills

Feiyang Kang et al.

cs.AI cs.CL cs.LG

本文提出了一种基于模型自身内部表示的"模型原生技能"刻画方法, 通过从序列级激活中恢复一个紧凑正交基来表征模型的行为变化轴. 该方法在推理后训练任务上进行了验证, 用于数据选择和推理时引导, 在数学推理基准上取得了优于基于人工定义技能的方法的效果.

KnowledgeBerg: Evaluating Systematic Knowledge Coverage and Compositional Reasoning in Large Language Models

Xiao Zhang et al.

cs.AI

本文提出了KnowledgeBerg基准, 用于评估大语言模型在系统化知识覆盖和组合推理方面的能力. 实验表明, 当前模型在这两项任务上表现不佳, 揭示了其在结构化知识组织和有界领域推理上的局限性.

Toward Reusability of AI Models Using Dynamic Updates of AI Documentation

Peter Bajcsy, Walid Keyrouz

cs.AI cs.CL cs.SE

本文提出了一种通过动态更新AI文档来提高AI模型可重用性的方法. 该方法利用Hugging Face平台的数据, 量化了模型文档质量与模型复用指标之间的相关性, 并构建了用于定期比较文档模板与社区实践的基础设施.

PV-SQL: Synergizing Database Probing and Rule-based Verification for Text-to-SQL Agents

Yuan Tian, Tianyi Zhang

cs.AI cs.DB

本文提出了一个名为PV-SQL的智能体框架，用于提升Text-to-SQL系统的性能。该框架通过结合数据库探测和基于规则的验证来增强对复杂查询的上下文理解与约束完整性。

Poly-EPO: Training Exploratory Reasoning Models

Ifdita Hasan Orney et al.

cs.AI

本文提出了一个用于后训练语言模型的框架, 旨在鼓励乐观探索并促进探索与利用的协同. 该方法通过集合强化学习优化模型, 使其生成在奖励函数下集体准确且推理策略具有探索性的响应集合.

Semantic Entanglement in Vector-Based Retrieval: A Formal Framework and Context-Conditioned Disentanglement Pipeline for Agentic RAG Systems

Nick Loghmani

cs.AI

本文针对RAG系统中因文档多主题交织导致的语义纠缠问题, 提出了一个形式化框架和预处理流程. 通过引入Entanglement Index进行量化, 并设计了Semantic Disentanglement Pipeline来重构文档, 在真实医疗知识库上显著提升了检索精度.

Stratagem: Learning Transferable Reasoning via Trajectory-Modulated Game Self-Play

Xiachong Feng et al.

cs.AI

本文提出了一种名为STRATAGEM的方法，旨在通过轨迹调制的游戏自博弈来学习可迁移的推理能力。该方法通过设计两个奖励机制来克服领域特定性和上下文静态性，并在数学推理和代码生成等基准测试中取得了改进。

Co-evolving Agent Architectures and Interpretable Reasoning for Automated Optimization

Jiahao Huang et al.

cs.AI

本文提出了一个名为EvoOR-Agent的协同进化框架，用于自动化优化任务。该框架将智能体的工作流表示为网络，并通过进化算法优化其架构和推理路径，在多个基准测试中取得了优于现有方法的效果。

Evolutionary Negative Module Pruning for Better LoRA Merging

Anda Cao et al.

cs.AI cs.CL cs.CV

本文提出了一种名为ENMP的LoRA专家合并前剪枝方法, 通过进化搜索识别并移除对合并性能有害的"负模块". 该方法作为即插即用模块, 能有效提升现有合并算法的性能.

Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

Rongyuan Tan et al.

cs.AI cs.CL

本文提出了一种基于对比归因的方法来分析LLM在真实基准测试中的失败案例. 该方法通过归因错误输出与正确输出之间的logit差异到输入token和内部状态, 并引入了处理长上下文的扩展. 实证研究表明该方法在某些情况下有效, 但并非普遍适用.

When Vision-Language Models Judge Without Seeing: Exposing Informativeness Bias

Xiaohan Zou et al.

cs.AI

本文揭示了VLM-as-a-Judge系统存在的一种“信息量偏见”，即模型在评判时过度依赖答案的信息丰富度而忽视图像内容。作者提出了BIRCH方法，通过引入一个修正后的参考答案来引导模型关注图像本身的正确性，实验表明该方法能有效减少偏见并提升评判性能。

Prompt Optimization Enables Stable Algorithmic Collusion in LLM Agents

Yingtao Tian

cs.AI

本文通过一个元学习框架, 让LLM智能体在双寡头市场模拟中迭代优化其共享策略提示, 研究了提示优化是否会导致合谋行为的出现. 实验表明, 优化后的智能体能够发现稳定的隐性合谋策略, 其协调质量显著优于基线.

Adversarial Arena: Crowdsourcing Data Generation through Interactive Competition

Prasoon Goyal et al.

cs.AI cs.LG

本文提出了一种名为Adversarial Arena的对抗性交互框架，用于生成高质量的多轮对话数据。通过组织攻击者和防御者团队进行竞赛，该方法在网络安全领域生成了大量数据，并用于微调模型，提升了其在安全代码生成任务上的性能。

WebUncertainty: Dual-Level Uncertainty Driven Planning and Reasoning For Autonomous Web Agent

Lingfeng Zhang et al.

cs.AI

本文提出了一个名为WebUncertainty的自主网络智能体框架，旨在解决复杂网页任务中的规划与推理不确定性。该框架通过自适应规划机制和基于蒙特卡洛树搜索的推理机制来提升性能，并在标准测试集上取得了优于现有方法的结果。

Polysemantic Experts, Monosemantic Paths: Routing as Control in MoEs

Charles Ye, Bo Yuan, Lee Sharkey

cs.AI cs.CL cs.LG

本文提出了一种针对Mixture-of-Experts (MoE) 模型的无参数分解方法，将隐藏状态分离为控制信号和内容通道。研究发现，控制信号编码了抽象的、逐层变化的函数，而内容通道则保留了表面特征。这种结构使得专家路径（expert paths）呈现出单义性（monosemantic），而单个专家则保持多义性（polysemantic）。

On the Reliability of Computer Use Agents

Gonzalo Gonzalez-Pumariega et al.

cs.AI

本文研究了计算机使用智能体(computer-use agents)在重复执行相同任务时表现不可靠的原因. 作者通过分析执行随机性、任务描述模糊性和智能体行为可变性这三个因素, 指出评估智能体时需要关注其在不同运行中的稳定性.

SPREG: Structured Plan Repair with Entropy-Guided Test-Time Intervention for Large Language Model Reasoning

Xuan Wang et al.

cs.AI

本文提出了一种名为SPREG的轻量级推理时框架, 用于在大型语言模型进行长链推理时进行实时错误纠正. 该方法通过监测实时熵来识别逻辑故障, 并触发动态修复, 从而在多个复杂任务上提升了性能.

Physics-Informed Causal MDPs for Sequential Constraint Repair in Engineering Simulation Pipelines

Chuhan Qiao

cs.AI cs.LG

本文提出了一个名为PI-CMDP的框架，用于处理具有分层约束依赖关系的约束马尔可夫决策过程(CMDP)。该框架通过识别因果结构、压缩状态空间和使用物理信息估计器，提高了在工程仿真管道中进行顺序约束修复的样本效率。在基准测试中，该方法以较少的数据实现了较高的修复成功率。

LiteResearcher: A Scalable Agentic RL Training Framework for Deep Research Agent

Wanli Li et al.

cs.AI

本文提出了一个名为LiteResearcher的可扩展智能体强化学习训练框架, 旨在解决深度研究智能体训练中的现实世界搜索依赖与成本问题. 该框架通过构建一个模拟真实搜索动态的轻量级虚拟世界, 使一个小型搜索智能体在GAIA和Xbench等基准测试中取得了开源模型中的先进性能.

ContraPrompt: Contrastive Prompt Optimization via Dyadic Reasoning Trace Analysis

Rishav Rishav, Pushpak Pujari, Pushpendre Rastogi

cs.AI

本文提出了一种名为ContraPrompt的prompt优化方法, 其核心是通过对比同一模型在相同输入下成功与失败两次尝试的完整chain-of-thought推理轨迹来提取优化信号. 该方法利用自动化的多尝试求解循环生成对比数据, 并将提取的规则组织成输入感知的决策树来路由指令. 在多个推理和合规基准测试中, 该方法取得了优于基线GEPA的性能提升.

CADMAS-CTX: Contextual Capability Calibration for Multi-Agent Delegation

Chuhan Qiao

cs.AI

本文提出了一个用于多智能体委派的上下文能力校准框架CADMAS-CTX. 该方法通过维护上下文相关的Beta后验分布来替代静态技能评估, 并引入风险感知的委派评分, 在GAIA和SWE-bench基准测试上取得了优于静态基线的性能.

TPS-CalcBench: A Benchmark and Diagnostic Evaluation Framework for LLM Analytical Calculation Competence in Hypersonic Thermal Protection System Engineering

Jinglai Zheng, Chuhan Qiao, Haiming Huang

cs.AI

本文提出了一个用于评估大语言模型在高超声速热防护系统工程中分析计算能力的基准测试框架. 该框架包含任务分类、双轨评估方法和诊断干预措施, 旨在发现模型在工程推理过程中的潜在错误.

A Sugeno Integral View of Binarized Neural Network Inference

Ismaïl Baaj, Henri Prade

cs.AI cs.LG

本文建立了二值化神经网络(BNNs)与Sugeno积分之间的精确联系. 研究表明, 隐藏层神经元的激活阈值测试可以表示为二值输入上的Sugeno积分, 从而为每个神经元的决策提供了明确的集函数表示和基于规则的表示.

From Fallback to Frontline: When Can LLMs be Superior Annotators of Human Perspectives?

Hasan Amin et al.

cs.AI cs.CL

本文探讨了在何种条件下, large language models (LLMs) 作为标注者能够比人类更准确地预测群体主观意见. 研究表明, LLMs 在某些常见场景下因其低方差等统计特性而具有优势, 但人类判断在某些情况下仍然不可或缺.

AIT Academy: Cultivating the Complete Agent with a Confucian Three-Domain Curriculum

Jiaqi Li et al.

cs.AI

本文提出了一个名为AIT Academy的AI智能体课程框架，该框架借鉴了人类知识的三分结构（自然科学与技术推理、人文与创意表达、社会科学与伦理推理）以及儒家“六艺”的概念，旨在为智能体提供全面的能力培养。文章通过三个具体的训练场验证了该框架，展示了在特定课程安排下智能体在安全能力和社会推理方面的性能提升。

SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression

Shaowei Zhang et al.

cs.AI

本文提出了一个名为SELF-EMO的自我进化框架，旨在提升大型语言模型在对话中的情感识别与表达一致性。该方法通过角色扮演和自我对话生成数据，并利用强化学习进行优化。实验表明，该框架在多个基准数据集上取得了先进的性能。

The Topological Dual of a Dataset: A Logic-to-Topology Encoding for AlphaGeometry-Style Data

Anthony Bordg

cs.AI cs.LO

本文提出了一种逻辑到拓扑的编码方法, 旨在解决神经符号推理系统(如AlphaGeometry)中的表示瓶颈. 该方法通过利用可观测理论的证明性与拓扑之间的对偶性, 构建了输入空间的"数据集的拓扑对偶", 为模型的机制可解释性提供了原则性路径.

Understanding Human Actions through the Lens of Executable Models

Rimvydas Rubavicius et al.

cs.AI

本文提出了一种用于理解人类动作的领域特定语言EXACT, 它将动作表示为可执行的、未完全指定的运动程序. 通过将这些程序解释为奖励函数并利用前向-后向表示进行零样本策略推断, 该方法构建了一个神经符号模型, 用于动作分割和异常检测任务, 相比单一任务方法提高了数据效率.

Architectural Design Decisions in AI Agent Harnesses

Hu Wei

cs.AI

本文通过分析70个公开的AI agent系统项目，研究了其非LLM基础设施的架构设计决策。研究识别了五个常见的设计维度，并归纳了五种典型的架构模式。

DSAINet: An Efficient Dual-Scale Attentive Interaction Network for General EEG Decoding

Zhiyuan Ma et al.

cs.AI

本文提出了一种用于通用EEG解码的双尺度注意力交互网络(DSAINet). 该方法通过并行卷积分支和跨尺度注意力机制, 在多个数据集上取得了优于基线模型的效果, 并保持了较高的参数效率.

Stability Implies Redundancy: Delta Attention Selective Halting for Efficient Long-Context Prefilling

Yujie Chen et al.

cs.AI

本文提出了一种名为Delta Attention Selective Halting (DASH)的训练无关方法, 用于在长上下文预填充阶段减少计算开销. 该方法通过监控自注意力机制的层间更新动态, 选择性地停止对已稳定token的处理, 从而在保持模型精度和硬件效率的同时实现显著的预填充加速.

Multi-Agent Systems: From Classical Paradigms to Large Foundation Model-Enabled Futures

Zixiang Wang et al.

cs.AI

本文是一篇关于多智能体系统(MAS)的综述, 系统回顾并比较了经典多智能体系统(CMAS)与基于大基础模型(LFM)的多智能体系统(LMAS). 文章在闭环协调框架下从感知、通信、决策和控制四个维度审视CMAS, 并探讨了LMAS如何通过语义级推理提升协作的灵活性与适应性.

State Transfer Reveals Reuse in Controlled Routing

Yanzhen Lu et al.

cs.AI

本文通过设计受控路由任务, 研究了 prompt-based interventions 如何改变模型行为, 并探讨了行为相关状态在模型中的表示位置. 作者使用 GPT-2 和 Qwen 模型进行实验, 比较了 fixed-interface reuse 和 prompt relocation 两种模式, 发现前者是更强的 reuse 证据.

QuantumQA: Enhancing Scientific Reasoning via Physics-Consistent Dataset and Verification-Aware Reinforcement Learning

Songxin Qu et al.

cs.AI quant-ph

本文提出了QuantumQA数据集和一种结合可验证奖励的强化学习方法, 用于提升大语言模型在量子力学等科学领域的推理可靠性. 实验表明该方法在参数效率上优于基线模型.

A Control Architecture for Training-Free Memory Use

Yanzhen Lu et al.

cs.AI

本文在严格无需训练的条件下, 研究了 prompt-injected memory 使用中的控制问题, 提出了一个结合不确定性路由、置信度选择等模块的控制架构. 该架构在算术推理基准上取得了显著提升, 并展示了控制机制而非单纯记忆暴露是性能改进的关键.

TacticGen: Grounding Adaptable and Scalable Generation of Football Tactics

Sheng Xu et al.

cs.AI cs.LG cs.MA

本文提出了一个名为TacticGen的生成模型，用于生成足球战术。该模型基于多智能体扩散transformer架构，能够根据比赛上下文生成球员的移动序列，并通过分类器引导机制适应不同的战术目标。

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

Wentao Shi et al.

cs.AI

本文提出了一个名为AJ-Bench的基准测试，用于系统评估“Agent-as-a-Judge”方法在复杂环境中的验证能力。该基准涵盖了搜索、数据系统和图形用户界面三个领域，旨在测试智能体在信息获取、状态验证和过程验证等方面的性能。

LeGo-Code: Can Modular Curriculum Learning Advance Complex Code Generation? Insights from Text-to-SQL

Salmane Chafik, Saad Ezzini, Ismail Berrada

cs.AI cs.DB cs.SE

本文探讨了课程学习能否提升代码大语言模型在Text-to-SQL任务上的性能。通过实验发现，简单的课程排序效果不佳，因此提出了一种模块化的适配器组合策略，在Spider和BIRD基准上取得了性能提升。

Enhancing Tabular Anomaly Detection via Pseudo-Label-Guided Generation

Wei Huang et al.

cs.AI

本文提出了一种名为PLAG的伪标签引导异常生成方法, 用于增强表格数据的异常检测. 该方法通过伪异常标签引导生成, 并将样本的整体异常量化分解为特征级异常的累积, 从而在无需真实标签的情况下更好地捕捉局部异常模式. 实验表明该方法能有效提升现有无监督检测器的性能.

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Guanting Dong et al.

cs.AI cs.CL

本文提出了一个名为Agent-World的自进化训练框架, 旨在通过可扩展的环境合成来提升通用智能体(agent)的能力. 该框架包含自主探索真实世界主题数据库以合成可验证任务的环境-任务发现模块, 以及结合多环境强化学习和自进化竞技场以实现智能体策略与环境协同进化的持续训练机制.

Toward Zero-Egress Psychiatric AI: On-Device LLM Deployment for Privacy-Preserving Mental Health Decision Support

Eranga Bandara et al.

cs.AI

本文提出了一种零出口、设备端的人工智能平台, 用于隐私保护的精神科决策支持. 该系统将经过微调的大型语言模型联盟部署在移动设备上, 实现完全本地的推理, 避免了患者数据外传, 并在初步评估中展现了与服务器端版本相当的诊断准确性.

PARM: Pipeline-Adapted Reward Model

Xingyu Fan et al.

cs.AI cs.CL

本文提出了一种针对多阶段LLM pipeline的Pipeline-Adapted Reward Model (PARM), 旨在解决reward model预测与pipeline实际执行结果不一致的问题. 通过在代码生成等任务上的实验, 该方法被证明能提升输出质量与稳定性.

One Pass for All: A Discrete Diffusion Model for Knowledge Graph Triple Set Prediction

Jihong Guan et al.

cs.AI

本文提出了一种名为DiffTSP的离散扩散模型, 用于知识图谱三元组集合预测任务. 该模型通过离散扩散过程一次性生成完整的缺失三元组集合, 并在三个公开数据集上取得了先进的性能.

Training and Agentic Inference Strategies for LLM-based Manim Animation Generation

Ravidu Suien Rammuni Silva et al.

cs.AI cs.GR cs.MA

本文提出了 ManimTrainer 和 ManimAgent 两个框架，用于改进 LLM 生成 Manim 动画代码的能力。研究评估了多种训练与推理策略的组合，发现它们在不同方面（如代码质量与视觉输出）各有优势。

The implicated scientist: on the role of AI researchers in the development of weapons systems

Alexandra Volokhova, Alex Hernandez-Garcia

cs.AI cs.CY

本文探讨了AI研究人员在AI技术赋能武器系统发展中的角色与责任. 作者分析了研究人员作为"牵连主体"在相关危害中的具体处境, 并探讨了如何将这种牵连地位转变为对技术强化不公受害者的远距离团结.

Learning from Less: Measuring the Effectiveness of RLVR in Low Data and Compute Regimes

Justin Bauer et al.

cs.AI cs.LG

本文通过实证研究, 探讨了在低数据和低算力条件下, 使用可验证奖励的强化学习(RLVR)对小型语言模型(SLM)进行微调的效果. 研究基于三个新颖的程序化生成数据集, 分析了模型性能如何随数据集规模、多样性和复杂性变化, 发现在低数据情况下, 混合复杂度的训练数据能带来显著的样本效率提升.

Six Llamas: Comparative Religious Ethics Through LoRA-Adapted Language Models

Chad Coleman et al.

cs.AI

本文通过LoRA微调技术, 在Meta-Llama-3.1-8B模型上构建了五个分别基于不同宗教文本训练的变体, 并探究了它们在标准化伦理提示下的推理模式差异. 研究发现, 微调后的模型产生了与其训练传统相符的、系统性的伦理推理差异, 且基础模型展现出最高的回答一致性.

Using large language models for embodied planning introduces systematic safety risks

Tao Zhang et al.

cs.AI cs.LG cs.RO

本文通过构建一个名为DESPITE的基准测试，系统评估了大型语言模型作为机器人系统规划器的安全性。研究发现，即使规划能力很强的模型，其安全风险意识也相对较低，且模型规模的增大主要提升规划能力而非安全性。

A Generalized Synthetic Control Method for Baseline Estimation in Demand Response Services

Jonas Sievers, Mardavij Roozbehani

cs.AI

本文提出了一种广义合成控制方法, 用于需求响应服务中的基线估计. 该方法通过引入外生特征、滞后负荷等动态信息来增强经典合成控制框架, 并在实际数据集上展示了性能提升.

WorldDB: A Vector Graph-of-Worlds Memory Engine with Ontology-Aware Write-Time Reconciliation

Harish Santhanalakshmi Ganesan

cs.AI cs.CL

本文提出了一种名为WorldDB的向量化世界图记忆引擎, 它通过引入可递归组合的"世界"节点、内容寻址的不可变节点以及作为写入时程序的边, 旨在解决现有向量存储和时序知识图谱系统在持久化记忆方面的局限性. 实验表明, 该引擎在长对话记忆评估基准上显著超越了现有技术.

LLM Safety From Within: Detecting Harmful Content with Internal Representations

Difan Jiao et al.

cs.AI

本文提出了一种名为SIREN的轻量级防护模型，用于检测大语言模型中的有害内容。该方法通过分析模型内部各层的表示来构建检测器，在多个基准测试上超越了现有方法。

OGER: A Robust Offline-Guided Exploration Reward for Hybrid Reinforcement Learning

Xinyu Ma et al.

cs.AI

本文提出了OGER框架, 通过整合离线教师指导与在线强化学习来改进LLM的推理探索能力. 实验表明该方法在数学和通用推理基准上优于现有基线.

ClawEnvKit: Automatic Environment Generation for Claw-Like Agents

Xirui Li et al.

cs.AI cs.CL

本文提出了一个名为ClawEnvKit的自动化环境生成流水线, 用于为类爪型智能体(Claw-like agents)按需创建多样且经过验证的训练与评估环境. 该流水线包含解析器, 生成器和验证器三个模块, 并基于此构建了首个大规模基准测试集Auto-ClawEval.

Benchmarking System Dynamics AI Assistants: Cloud Versus Local LLMs on CLD Extraction and Discussion

Terry Leitch

cs.AI cs.HC cs.LG

本文对云端与本地部署的大型语言模型在系统动力学领域的两个专门任务上进行了系统性评估. 实验表明, 云端模型在因果循环图提取任务上表现最佳, 而本地模型在模型构建步骤和反馈解释上也有不错表现, 但在错误修复方面存在明显短板.

Agentic Forecasting using Sequential Bayesian Updating of Linguistic Beliefs

Kevin Murphy

cs.AI

本文提出了一个用于二元预测的智能体系统 BLF, 其核心是结合了数值概率估计与自然语言证据摘要的 Bayesian linguistic belief state. 该系统通过分层多试验聚合与分层校准技术, 在 ForecastBench 基准测试中取得了领先的性能.

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Shaden Alshammari et al.

cs.AI cs.DL cs.IR cs.LG

本文介绍了一个名为MathNet的大规模、多模态、多语言数学推理与检索基准数据集。该数据集包含大量奥林匹克级别的数学问题及其解答，并设计了三个评估任务。实验表明，当前最先进的模型在该基准上仍面临挑战。

cs.IR

Domain-Specific Query Understanding for Automotive Applications: A Modular and Scalable Approach

Isha Motiyani, Abhishek Kumar, Tilak Kasturi

cs.IR cs.AI

本文提出了一种用于汽车领域查询理解的两阶段模块化系统. 该方法通过将任务分解为轻量级分类和针对性实体提取, 在效率与准确性上取得了显著提升.

RAG-DIVE: A Dynamic Approach for Multi-Turn Dialogue Evaluation in Retrieval-Augmented Generation

Lorenz Brehme et al.

cs.IR cs.AI cs.CL

本文提出了一种名为RAG-DIVE的动态交互式评估方法, 用于评估Retrieval-Augmented Generation (RAG)系统在多轮对话中的表现. 该方法通过模拟用户交互来生成动态对话, 并包含对话生成、验证和评估三个组件, 实验表明它能有效捕捉系统在交互设置下的性能变化.

FlexStructRAG: Flexible Structure-Aware Multi-Granular Relational Retrieval for RAG

Mengzhu Chen et al.

cs.IR cs.AI

本文提出了一个名为FlexStructRAG的灵活结构感知检索增强生成框架。它通过联合构建知识图谱、超图和语义簇，支持多粒度、查询自适应的检索，以减少固定分块带来的语义碎片化问题。实验表明该方法在多个领域的基准测试中优于现有基线。

MARA: A Multimodal Adaptive Retrieval-Augmented Framework for Document Question Answering

Hui Wu et al.

cs.IR cs.AI cs.CL

本文提出了一个用于多模态文档问答的自适应检索增强框架MARA. 该框架通过查询对齐的区域编码器和自反思的证据控制器, 改进了检索的精确性和证据选择的适应性. 在多个基准测试上取得了优于现有方法的性能.

Paper2Data: Large-Scale LLM Extraction and Metadata Structuring of Global Urban Data from Scientific Literature

Runwen You et al.

cs.IR cs.AI

本文提出了一个名为Paper2Data的LLM驱动流程, 用于从科学文献中大规模提取和结构化城市数据元数据, 并构建了UrbanDataMiner数据发现门户. 该方法在数据集识别和元数据字段填充上具有较高的召回率和精确度.

Diagnosing LLM-based Rerankers in Cold-Start Recommender Systems: Coverage, Exposure and Practical Mitigations

Ekaterina Lemdiasova, Nikita Zmanovskii

cs.IR cs.CL

本文通过系统诊断研究, 分析了在冷启动电影推荐场景下基于LLM的cross-encoder rerankers的性能. 研究发现, 与简单基线方法相比, 此类reranker存在检索覆盖率低, 曝光偏差严重和分数区分度小等关键失败模式, 并提出了混合检索策略等实用缓解建议.

Beyond Single-Score Ranking: Facet-Aware Reranking for Controllable Diversity in Paper Recommendation

Duan Ming Tao

cs.IR cs.AI

本文提出了一个名为 SciFACE 的重新排序框架，用于论文推荐，旨在实现可控的多样性。该框架通过训练两个独立的 cross-encoder 来分别建模论文的 Background 和 Method 两个层面，并在特定数据集上取得了优于基线模型 SPECTER 的效果。

A Collection of Systematic Reviews in Computer Science

Pierre Achkar, Tim Gollub amd Martin Potthast

cs.IR cs.DL

本文介绍了SR4CS，一个计算机科学领域的大规模系统综述数据集，旨在支持布尔查询生成、检索和筛选的自动化研究。该数据集包含大量综述、查询和元数据，并通过基线实验比较了不同检索范式的性能。

HR-Agents: Using Multiple LLM-based Agents to Improve Q&A about Brazilian Labor Legislation

Abriel K. Moraes et al.

cs.IR cs.AI cs.CY

本文提出了一种基于多个LLM智能体的系统, 用于改进关于巴西劳动法的问答. 该系统通过专门的智能体处理法律的不同方面, 并结合RAG技术, 在自动评估和专家评估中显示出比单一LLM基线更好的效果.

Benchmarking Real-Time Question Answering via Executable Code Workflows

Wenjie Zhou et al.

cs.IR cs.AI cs.CL

本文提出了一个名为RT-QA的动态评估框架，用于测试智能体在实时问答任务中的表现。该框架通过执行代码工作流来获取最新信息，并揭示了当前先进模型在实时信息检索方面存在显著不足。

LiteSemRAG: Lightweight LLM-Free Semantic-Aware Graph Retrieval for Robust RAG

Xiao Yue, Guangzhi Qu, Lige Gan

cs.IR cs.AI

本文提出了一种轻量级、无需大语言模型(LLM)的语义感知图检索框架LiteSemRAG. 该框架通过利用上下文token级嵌入构建异质语义图, 并在查询时进行两步语义感知检索, 在多个基准数据集上取得了与基于LLM的先进图RAG系统相竞争或更优的检索效果, 同时显著提升了效率.

Training for Compositional Sensitivity Reduces Dense Retrieval Generalization

Radoslav Ralev et al.

cs.IR cs.AI cs.CL

本文探讨了 dense retrieval 模型在处理 compositional edits 时的脆弱性. 通过在训练中引入结构化的负样本, 作者发现这虽然改善了表示空间的结构分离, 却损害了模型在 zero-shot 检索任务上的泛化性能.

AgriIR: A Scalable Framework for Domain-Specific Knowledge Retrieval

Shuvam Banerji Seal et al.

cs.IR cs.AI

本文提出了一个名为AgriIR的可配置检索增强生成框架, 旨在以较低计算成本提供特定领域的可靠答案. 该框架采用模块化设计, 将信息获取过程分解为多个声明性阶段, 并通过一个面向印度农业的参考实现展示了其可行性.

LLMAR: A Tuning-Free Recommendation Framework for Sparse and Text-Rich Industrial Domains

Ryogo Hishikawa, Ichiro Kataoka, Shinya Yuda

cs.IR cs.CL

本文提出了一个无需微调的推荐框架LLMAR, 用于处理数据稀疏但文本丰富的工业B2B场景. 该框架利用LLM推理来标注用户潜在动机, 并通过反思循环进行自我修正, 在保持较低推理成本的同时, 在多个数据集上超越了基于训练的方法.

Large language models for post-publication research evaluation: Evidence from expert recommendations and citation indicators

Mengjia Wu et al.

cs.IR cs.AI cs.DL

本文探讨了使用大型语言模型(LLMs)进行学术论文发表后质量评估的可行性。通过将模型输出与专家判断和引用指标进行对比，研究发现LLMs在粗粒度评估任务上表现良好，但在细粒度评分任务中表现下降。

A Reference Architecture for Agentic Hybrid Retrieval in Dataset Search

Riccardo Terrenzi et al.

cs.IR cs.AI

本文提出了一种用于数据集搜索的智能混合检索参考架构, 结合了BM25词汇检索和基于reciprocal rank fusion的稠密检索, 并由一个LLM智能体进行协调. 该架构通过离线生成伪查询来增强元数据, 并分析了两种不同架构风格在质量属性上的权衡.

GraphRAG-Router: Learning Cost-Efficient Routing over GraphRAGs and LLMs with Reinforcement Learning

Dongzhe Fan et al.

cs.IR cs.AI

本文提出了一个名为GraphRAG-Router的框架，旨在通过分层路由策略协调异构的GraphRAG和生成器LLM，以降低知识密集型问答任务的成本。该框架结合了监督微调和强化学习进行优化，实验表明其能在减少大模型使用的同时保持性能。

Tensor Manifold-Based Graph-Vector Fusion for AI-Native Academic Literature Retrieval

Xing Wei, Yang Yu

cs.IR

本文提出了一种基于tensor manifold理论的几何统一图-向量融合框架, 用于AI-native学术文献检索. 该框架将文献图视为tensor manifold的离散投影, 并设计了若干核心模块以实现高效、可编程的检索.

Modeling User Exploration Saturation: When Recommender Systems Should Stop Pushing Novelty

Enock O. Ayiku, Evelyn Osei, Emebo Onyeka

cs.IR cs.AI cs.LG

本文研究了推荐系统中用户探索饱和的现象, 即当公平性驱动的探索超过某个点时, 用户效用不再提升甚至下降. 通过实验分析, 作者发现探索饱和点因用户而异, 特别是交互历史有限的用户更早达到饱和, 这表明统一的公平性策略可能对部分用户不利.

On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Yongkang Li et al.

cs.IR cs.CL

本文系统评估了基于LLM的dense retriever在generalizability和stability两方面的鲁棒性。研究发现，尽管此类模型在指令调优后表现优异，但在复杂推理任务上存在泛化性不足的问题，并且对语义扰动较为敏感。

RLM-on-KG: Heuristics First, LLMs When Needed: Adaptive Retrieval Control over Mention Graphs for Scattered Evidence

Andrea Volpini, Elie Raad

cs.IR cs.AI

本文提出了RLM-on-KG系统，用于在知识图谱上进行基于LLM的自适应检索控制。研究发现，LLM控制器的优势取决于证据的分散程度和工具调用的复杂度，其核心架构将候选发现与排序分离。

HeadRank: Decoding-Free Passage Reranking via Preference-Aligned Attention Heads

Juyuan Wang et al.

cs.IR cs.AI

本文提出了一种名为HeadRank的解码无关的段落重排序框架, 通过熵正则化的注意力头选择, 硬相邻级别偏好对和分布正则化器, 将偏好优化从离散的token空间提升到连续的注意力域, 以解决注意力分数同质化问题. 该方法在多个基准测试中优于生成式和解码无关的基线, 并实现了$\mathcal{O}(1)$的前向推理复杂度.

HORIZON: A Benchmark for In-the-wild User Behaviour Modeling

Arnav Goel et al.

cs.IR cs.AI cs.CL

本文提出了一个名为HORIZON的新基准，用于评估在真实、跨域、长期场景下的用户行为建模。它基于大规模重构的Amazon Reviews数据，并设计了新的任务和评估指标，以更好地反映现实部署需求。

MemSearch-o1: Empowering Large Language Models with Reasoning-Aligned Memory Growth in Agentic Search

Sheng Zhang et al.

cs.IR

本文提出了一个名为MemSearch-o1的智能搜索框架, 旨在解决大型语言模型在自主搜索任务中因迭代思考-搜索循环而产生的记忆稀释问题. 该框架通过基于推理对齐的记忆增长与回溯机制, 动态构建细粒度的记忆片段并重组为全局连接的记忆路径, 从而更有效地激活模型的推理潜力.

Transparent and Controllable Recommendation Filtering via Multimodal Multi-Agent Collaboration

Chi Zhang et al.

cs.IR

本文提出了一种结合多模态感知与多智能体协作的推荐过滤框架, 旨在解决传统LLM方法在识别视觉不当内容和避免"过度关联"幻觉方面的不足. 通过事实裁决管道和动态双层偏好图, 该系统在对抗性数据集上显著降低了误报率, 并在用户研究中提升了透明度和控制感.

Matlas: A Semantic Search Engine for Mathematics

Haocheng Ju et al.

cs.IR cs.LG

本文介绍了Matlas, 一个用于数学语句的语义搜索引擎. 它基于从大量论文和教科书中提取的数学语句及其依赖关系构建语料库, 并支持使用自然语言查询进行高效检索.

Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

Qingcheng Zeng et al.

cs.IR

本文针对 code-switching (语码转换) 信息检索问题, 构建了人工标注的基准数据集 CSR-L 并进行了系统性评估. 研究发现, 即使对于强大的多语言模型, code-switching 也会导致显著的性能下降, 而标准的词汇扩展等缓解方法效果有限.

MasterSet: A Large-Scale Benchmark for Must-Cite Citation Recommendation in the AI/ML Literature

Md Toyaha Rahman Ratul et al.

cs.IR

本文提出了一个专门用于评估AI/ML领域“必引”文献推荐的大规模基准数据集MasterSet。该基准包含超过15万篇论文，并采用了一个三层标注方案来识别关键引用，实验表明现有检索方法在此任务上仍面临挑战。

FedCRF: A Federated Cross-domain Recommendation Method with Semantic-driven Deep Knowledge Fusion

Lei Guo et al.

cs.IR

本文提出了一种名为FedCRF的联邦跨域推荐方法, 旨在解决非重叠场景下的隐私保护跨域推荐问题. 该方法利用文本语义作为跨域桥梁, 通过联邦语义学习实现知识迁移, 并在多个真实数据集上验证了其有效性.

RankUp: Towards High-rank Representations for Large Scale Advertising Recommender Systems

Jin Chen et al.

cs.IR

本文提出了一种名为RankUp的推荐系统架构, 旨在通过随机排列分割稀疏特征, 多embedding范式, 全局token整合等技术来缓解深层网络中的表示坍缩问题. 该架构已在微信多个场景中部署并带来了显著的GMV提升.

Bayesian Active Learning with Gaussian Processes Guided by LLM Relevance Scoring for Dense Passage Retrieval

Junyoung Kim et al.

cs.IR cs.AI

本文提出了一种名为BAGEL的框架, 用于在预算约束下进行密集段落检索. 该方法利用Gaussian Process对稀疏的LLM相关性评分进行建模和传播, 以指导检索过程中的全局探索与利用.

Architecture Matters More Than Scale: A Comparative Study of Retrieval and Memory Augmentation for Financial QA Under SME Compute Constraints

Jianan Liu et al.

cs.IR

本文在中小企业(SME)的计算约束下, 比较了不同LLM推理架构在金融问答(Financial QA)任务上的表现. 研究发现, 架构选择比模型规模更重要, 并提出了一个混合部署框架以平衡准确性, 可审计性和效率.

Modular Representation Compression: Adapting LLMs for Efficient and Effective Recommendations

Yunjia Xi et al.

cs.IR cs.AI cs.CL

本文提出了一种名为MARC的方法, 用于压缩大型语言模型(LLM)在推荐系统中产生的高维表示. 该方法通过引入模块化调整和任务解耦, 旨在解决压缩过程中观察到的中间层表示优势(MRA)问题, 从而生成更高效的表示. 在线A/B测试表明, 该方法在商业搜索广告场景中提升了效果.

Multi-LLM Token Filtering and Routing for Sequential Recommendation

Wuhan Chen et al.

cs.IR

本文提出了一种无需外部文本语料库的序列推荐框架MLTFR, 它通过用户引导的token过滤和基于Mixture-of-Experts的多LLM集成, 直接利用多个大语言模型的token嵌入来提升推荐性能. 实验表明该方法优于现有的序列推荐基线和对齐方法.

Evaluating Multi-Hop Reasoning in RAG Systems: A Comparison of LLM-Based Retriever Evaluation Strategies

Lorenz Brehme, Thomas Ströhle, Ruth Breu

cs.IR cs.AI

本文提出了一种名为CARE的上下文感知评估策略, 用于评估RAG系统中的多跳推理检索器. 在HotPotQA等数据集上的实验表明, CARE在评估多跳查询时优于现有方法, 尤其对于参数更多、上下文窗口更大的模型效果更明显.

DocQAC: Adaptive Trie-Guided Decoding for Effective In-Document Query Auto-Completion

Rahul Mehta et al.

cs.IR cs.AI cs.CL

本文提出了一种用于文档内查询自动补全(DocQAC)的自适应trie引导解码框架。该方法利用用户查询前缀和文档上下文来引导语言模型生成高质量的补全建议。

Balanced Co-Clustering of Users and Items for Embedding Table Compression in Recommender Systems

Runhao Jiang, Renchi Yang, Donghao Wu

cs.IR cs.LG

本文提出了一种名为BACO的快速有效框架, 用于压缩推荐系统中的embedding tables. 该方法通过平衡的co-clustering对用户和物品进行分组, 使得相似的用户/物品共享codebook中的embedding, 从而在显著减少参数的同时保持推荐精度.

Context-Aware Search and Retrieval Under Token Erasure

Sara Ghasvarianjahromi et al.

cs.IR cs.IT

本文研究了在token擦除下的RAG式搜索与检索模型. 通过信息论方法分析了查询表示部分丢失时的远程文档检索问题, 并给出了检索错误概率的近似与上界. 数值实验验证了分析结果, 并表明将更高冗余度分配给语义重要的查询特征能提升检索可靠性.

Document-as-Image Representations Fall Short for Scientific Retrieval

Ghazal Khalighinejad et al.

cs.IR cs.AI cs.CL

本文通过构建基于LaTeX源码的新基准ArXivDoc, 比较了文本、图像及多模态表示在科学文档检索中的效果. 研究发现, 基于图像的整体文档表示效果不佳, 而基于文本的表示最为有效.

cs.CL

Multimodal Claim Extraction for Fact-Checking

Joycelyn Teo et al.

cs.CL cs.AI cs.SI

本文提出了首个从社交媒体中提取多模态声明的基准, 并评估了现有MLLMs在此任务上的表现. 针对基线模型的不足, 作者引入了MICE框架以更好地建模修辞意图.

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Krzysztof Fonal

cs.CL

本文在 Apple Silicon 上扩展了 MLX-LM 框架，通过 Universal Assisted Generation (UAG) 实现了跨 tokenizer 的 speculative decoding。实验评估了以波兰语模型 Bielik 11B 为目标模型，搭配不同草案模型的性能，发现上下文感知的 token 翻译能提升接受率，但在统一内存架构上，由于内存带宽限制，理论加速效果未能完全实现。

Brain-CLIPLM: Decoding Compressed Semantic Representations in EEG for Language Reconstruction

Xiaoli Yang et al.

cs.CL cs.AI cs.CV

本文提出了一种新的EEG-to-text解码框架Brain-CLIPLM, 它基于语义压缩假设, 将解码过程分解为语义锚点提取和基于检索的句子重建两个阶段. 该方法在Zurich语料库上取得了优于直接解码基线的性能, 表明从EEG信号中恢复压缩的语义内容比重建完整句子更为可行.

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

Junzhao Zhang et al.

cs.CL cs.AI

本文构建了一个面向中文社交媒体、包含多级标注的细粒度多模态讽刺检测数据集CFMS, 并提出了一个基于强化学习的上下文学习策略来优化示例选择。实验表明该数据集和方法在相关任务上优于现有基线。

Foundational Study on Authorship Attribution of Japanese Web Reviews for Actor Analysis

Hiroshi Matsubara et al.

cs.CL cs.CR

本文通过比较多种基于风格特征的作者归属方法在日语网络评论数据上的表现, 评估了其在威胁情报中行为者分析场景的适用性. 实验表明, 随着作者数量增加, 传统的TF-IDF结合逻辑回归方法在准确性、稳定性和计算成本上优于基于BERT的微调方法.

GoCoMA: Hyperbolic Multimodal Representation Fusion for Large Language Model-Generated Code Attribution

Nitin Choudhury et al.

cs.CL cs.CY

本文提出了一个名为GoCoMA的多模态框架, 用于对大语言模型生成的代码进行来源归属. 该框架通过双曲空间融合代码风格特征与二进制预执行文件的图像表示, 并在基准测试中超越了单模态和欧几里得多模态基线.

Reciprocal Co-Training (RCT): Coupling Gradient-Based and Non-Differentiable Models via Reinforcement Learning

Yunshuo Tian et al.

cs.CL cs.LG

本文提出了一种结合梯度优化与不可微分模型的协同训练框架, 通过强化学习建立反馈循环. 实验表明该方法在多个医学数据集上提升了模型性能.

Data Mixing for Large Language Models Pretraining: A Survey and Outlook

Zhuo Chen et al.

cs.CL cs.LG

本文对大规模语言模型预训练中的数据混合方法进行了系统性综述. 文章将数据混合优化形式化为一个双层问题, 并提出了一个细致的分类法, 将现有方法分为静态混合与动态混合两大类进行梳理. 同时, 文章指出了当前研究在跨领域可迁移性、评估标准化以及性能与成本权衡等方面面临的挑战, 并展望了未来的研究方向.

LiFT: Does Instruction Fine-Tuning Improve In-Context Learning for Longitudinal Modelling by Large Language Models?

Iqra Ali et al.

cs.CL

本文提出了一个用于纵向建模的指令微调框架 LiFT, 通过统一的指令模式和渐进式课程学习来提升大语言模型在时序文本推理任务上的表现. 实验表明, LiFT 在不同规模的模型和多个数据集上均能有效提升上下文学习能力, 特别是在分布外数据和少数变化事件上.

QU-NLP at QIAS 2026: Multi-Stage QLoRA Fine-Tuning for Arabic Islamic Inheritance Reasoning

Mohammad AL-Smadi

cs.CL

本文提出了一种针对阿拉伯语伊斯兰继承法推理任务的多阶段QLoRA微调方法。该方法通过在特定领域数据上进行预适应和结构化输出训练，使较小规模的语言模型能够有效处理复杂的法律推理任务。

Measuring Representation Robustness in Large Language Models for Geometry

Vedant Jawandhia et al.

cs.CL cs.AI

本文提出了GeoRepEval框架, 用于评估大语言模型(LLMs)在几何问题不同表述(如Euclidean, coordinate, vector forms)下的鲁棒性. 研究发现, 仅改变问题表述就会导致模型准确率出现显著差异, 表明当前模型依赖于表述特定的启发式方法而非抽象的几何推理.

Injecting Structured Biomedical Knowledge into Language Models: Continual Pretraining vs. GraphRAG

Jaafer Klila et al.

cs.CL cs.AI cs.LG

本文探讨了将UMLS知识库中的结构化生物医学知识注入语言模型的两种策略: 持续预训练和GraphRAG. 实验表明, 持续预训练对基础模型BERT有提升, 而GraphRAG方法则能在不重新训练的情况下显著提升LLaMA模型在问答任务上的性能.

HalluSAE: Detecting Hallucinations in Large Language Models via Sparse Auto-Encoders

Boshui Chen et al.

cs.CL cs.AI

本文提出了一种名为HalluSAE的框架, 用于检测Large Language Models (LLMs)中的幻觉现象. 该方法将生成过程建模为在势能景观中的轨迹, 通过sparse autoencoders定位关键转变区域, 并利用对比归因和线性探测来识别与幻觉相关的稀疏特征.

SynopticBench: Evaluating Vision-Language Models on Generating Weather Forecast Discussions of the Future

Timothy B. Higgins, Antonios Mamalakis, Chirag Agarwal

cs.CL cs.CV cs.LG physics.ao-ph

本文提出了一个用于评估视觉语言模型在天气预报文本生成任务上性能的数据集SynopticBench和评估框架SPACE. 实验表明, 现有评估指标在该领域存在敏感性, 这有助于推动天气与气候文本生成的进一步研究.

EchoChain: A Full-Duplex Benchmark for State-Update Reasoning Under Interruptions

Smit Nautambhai Modi et al.

cs.CL cs.AI cs.LG cs.SD

本文提出了一个名为EchoChain的基准测试，用于评估语音助手在实时全双工交互中处理用户中断时的状态更新推理能力。该基准揭示了模型在中断后回复中存在的几种典型错误模式，并表明当前模型在此任务上仍有很大改进空间。

Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models

Yang Liu et al.

cs.CL

本文介绍了SemanticQA, 这是一个用于评估语言模型在语义短语处理任务中表现的基准测试套件. 该基准整合了现有的多词表达式资源, 并对其进行了重组和分类.

Spotlights and Blindspots: Evaluation Machine-Generated Text Detection

Kevin Stowe, Kailash Patil

cs.CL cs.AI

本文评估了多种机器生成文本检测模型在多个数据集和评估指标下的表现. 研究发现, 模型性能高度依赖于数据集和评估指标的选择, 且没有单一系统在所有领域都表现优异.

Aligning Backchannel and Dialogue Context Representations via Contrastive LLM Fine-Tuning

Livia Qian, Gabriel Skantze

cs.CL cs.AI cs.LG

本文提出了一个两阶段框架, 通过对比学习微调大语言模型来对齐对话上下文和反馈信号(backchannel)的表征. 该方法在上下文-反馈信号检索任务上优于先前方法, 并且学习到的嵌入与人类感知判断更为一致.

AdaExplore: Failure-Driven Adaptation and Diversity-Preserving Search for Efficient Kernel Generation

Weihua Du et al.

cs.CL cs.AI cs.LG

本文提出了一个名为AdaExplore的agent框架, 用于生成高性能计算kernel代码. 该框架通过failure-driven adaptation和diversity-preserving search两个阶段, 利用执行反馈进行自我改进, 无需额外微调. 实验表明其在kernel运行时优化基准测试上取得了显著的性能提升.

Migrant Voices, Local News: Insights on Bridging Community Needs with Media Content

David Alonso del Barrio et al.

cs.CL

本文通过焦点小组和自然语言处理技术, 分析了法语移民群体对本地新闻的参与度及其需求与媒体报道内容的匹配情况. 研究发现, 尽管本地新闻频繁报道事件, 但在重要议题覆盖、情感倾向和文本可读性方面仍存在与移民群体需求不匹配的差距.

IYKYK (But AI Doesn't): Automated Content Moderation Does Not Capture Communities' Heterogeneous Attitudes Towards Reclaimed Language

Christina Chance et al.

cs.CL

本文通过定量与定性方法, 研究了 LGBTQIA+, Black 和 women 等社群对 re-claimed slur 的态度. 研究发现社群内部对 slur 使用的判断存在显著分歧, 且自动仇恨言论检测工具与社群判断之间存在错位.

Defragmenting Language Models: An Interpretability-based Approach for Vocabulary Expansion

Maitrey Mehta et al.

cs.CL

本文提出了一种基于可解释性的词汇扩展方法, 旨在解决非拉丁文字语言在大型语言模型中面临的"token过度碎片化"问题. 研究质疑了传统的基于频率的候选词选择方法, 并展示了基于可解释性的方法在性能与token效率权衡上的优势, 同时提出了一种名为FragMend的新方法来进一步提升效率.

CBRS: Cognitive Blood Request System with Bilingual Dataset and Dual-Layer Filtering for Multi-Platform Social Streams

Anik Saha et al.

cs.CL

本文提出了一个用于从社交媒体流中过滤和解析献血请求的多平台框架CBRS. 它使用了一个包含双语数据集的成本效益高的双层架构, 并在过滤和解析任务上取得了高准确率.

No-Worse Context-Aware Decoding: Preventing Neutral Regression in Context-Conditioned Generation

Yufei Tao, Ameeta Agrawal

cs.CL cs.AI

本文提出了一种解码时适配器 NWCAD, 旨在防止大型语言模型在使用外部上下文时发生中性回归(neutral regression), 即模型在上下文无信息时错误地修改原本正确的输出. 该方法通过一个两阶段门控机制, 在上下文无信息时回退到无上下文解码, 否则在不确定时采用上下文感知解码.

The impact of postediting on AI generative translation in Yemeni context: Translating literary prose by ChatGPT

Nasim Al-wagieh, Mohammed Q. Shormani

cs.CL cs.AI

本文通过混合方法研究了ChatGPT在文学翻译中的表现及人工后期编辑的作用. 研究发现, AI在翻译速度上有优势, 但在处理文化、风格和修辞层面仍存在局限, 强调了人机协作的必要性.

Detecting Alarming Student Verbal Responses using Text and Audio Classifier

Christopher Ormerod, Gitit Kehat

cs.CL cs.IR

本文提出了一种结合文本分类器和音频分类器的混合框架, 用于检测学生口头回答中的潜在危险信号. 该方法通过分析回答的内容和韵律特征, 旨在提升传统自动评分系统的安全性, 辅助人工审核.

Evaluating Adaptive Personalization of Educational Readings with Simulated Learners

Ryan T. Woo et al.

cs.CL cs.AI cs.HC

本文提出了一个基于理论驱动的模拟学习者来评估教育阅读材料自适应个性化效果的框架. 该系统从开放教材构建知识本体, 并利用模拟读者模型进行学习与评估, 实验表明自适应阅读在不同学科中的效果存在差异.

Expressing Social Emotions: Misalignment Between LLMs and Human Cultural Emotion Norms

Sree Bhattacharyya et al.

cs.CL cs.CY

本文评估了大型语言模型(LLMs)在表达社会情感时与人类文化规范的差异。研究发现，模型在表达社会情感时存在系统性偏差，且响应缺乏多样性，这对其在跨文化情感语境中的应用构成了限制。

When Misinformation Speaks and Converses: Rethinking Fact-Checking in Audio Platforms

Chaewan Chun, Delvin Ce Zhang, Dongwon Lee

cs.CL cs.CY

本文探讨了音频平台上的虚假信息问题, 指出其兼具口语性和对话性的独特结构, 使得传统基于文本的 fact-checking 方法失效. 作者主张需要围绕音频的这些特性重新设计验证流程.

StageMem: Lifecycle-Managed Memory for Language Models

Jiarui Han

cs.CL cs.AI

本文提出了StageMem, 一个将记忆视为有状态过程而非被动存储库的生命周期管理内存框架. 它将记忆组织为三个阶段, 并引入置信度和强度等显式模型, 以在受控压力下更好地管理长期语言模型系统中的记忆内容.

When Informal Text Breaks NLI: Tokenization Failure, Distribution Shift, and Targeted Mitigations

Avinash Goutham Aluguvelly

cs.CL cs.AI

本文研究了非正式文本形式对自然语言推理(NLI)模型性能的影响, 通过四种文本变换(俚语替换, 表情符号替换, Gen-Z填充词及其组合)在ELECTRA-small和RoBERTa-large模型上进行实验. 研究发现, 不同的非正式形式导致性能下降的机制不同, 并提出了针对性的缓解策略, 包括预处理和数据增强.

Crowded in B-Space: Calibrating Shared Directions for LoRA Merging

Yixuan Tang, Yi Yang

cs.CL

本文提出了一种名为Pico的数据无关方法, 用于校准LoRA合并前输出侧矩阵$B$中的过度共享方向, 以减轻合并干扰. 该方法可直接嵌入现有合并方法, 在多个基准测试中提升了平均准确率.

HeLa-Mem: Hebbian Learning and Associative Memory for LLM Agents

Jinchang Zhu et al.

cs.CL

本文提出了一种受生物记忆机制启发的记忆架构HeLa-Mem, 用于增强LLM agent的长期记忆能力. 它通过动态图模型和Hebbian学习来模拟记忆的关联与巩固过程, 在减少上下文token使用的同时提升了任务表现.

DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training

Ziwen Pan et al.

cs.CL

本文针对大型语言模型(LLMs)在安全微调后可能出现的"伤害漂移"问题, 提出了一种名为DART的蒸馏-审计-修复训练框架. 该方法旨在提升模型在涉及人口统计差异问题上的回答准确性与安全性.

A Community-Based Approach for Stance Distribution and Argument Organization

Rudra Ranajee Saha, Laks V. S. Lakshmanan, Raymond T. Ng

cs.CL

本文提出了一种基于社区的无监督图方法,用于组织和总结争议性话题中的论点. 该方法通过构建包含多种关系类型的交互图,并应用社区检测来识别和简化论点群落,从而帮助用户理解复杂的论证格局.

Incentivizing Parametric Knowledge via Reinforcement Learning with Verifiable Rewards for Cross-Cultural Entity Translation

Jiang Zhou et al.

cs.CL cs.AI

本文提出了一种名为EA-RLVR的训练框架，用于优化大型语言模型在跨文化实体翻译中的表现。该方法通过可验证的实体级奖励信号和轻量级结构门来引导模型学习稳健的推理过程，并在未见实体上取得了翻译准确率的提升。

Prune, Interpret, Evaluate: A Cross-Layer Transcoder-Native Framework for Efficient Circuit Discovery via Feature Attribution

Qinhao Chen, Linyang He, Nima Mesgarani

cs.CL

本文提出了一个名为PIE的跨层transcoder-native框架, 用于高效发现circuit. 该框架通过Feature Attribution Patching (FAP)等方法对特征进行剪枝和评估, 在多个任务和模型上实现了高压缩比的行为保真度.

PRISM: Probing Reasoning, Instruction, and Source Memory in LLM Hallucinations

Yuhe Wu et al.

cs.CL cs.AI

本文提出了一个名为PRISM的基准测试, 用于诊断LLM幻觉的产生机制. 它将幻觉分解为知识缺失, 知识错误, 推理错误和指令遵循错误四个维度, 并在24个主流LLM上进行了评估.

When Choices Become Risks: Safety Failures of Large Language Models under Multiple-Choice Constraints

Yuheng Chen et al.

cs.CL

本文研究了大型语言模型在多项选择题约束下的安全性失效问题. 研究发现, 将有害请求重新表述为所有选项都不安全的强制选择题, 可以系统地绕过模型的拒绝行为, 导致违反安全策略的响应率显著上升.

x1: Learning to Think Adaptively Across Languages and Cultures

Yangfan Ye et al.

cs.CL

本文提出了一种名为x1的推理模型系列, 能够根据每个实例自适应地选择优势语言进行推理. 通过对比同一输入的不同语言推理轨迹进行训练, 实验表明自适应多语言推理在数学推理和文化相关任务中具有益处.

Freshness-Aware Prioritized Experience Replay for LLM/VLM Reinforcement Learning

Weiyu Ma et al.

cs.CL cs.LG

本文提出了一种Freshness-Aware Prioritized Experience Replay方法，用于提升大型语言模型和视觉语言模型在强化学习中的样本效率。该方法通过引入基于指数衰减的年龄因子来解决传统优先级经验回放中优先级过时的问题，并在多个任务上验证了其有效性。

MeasHalu: Mitigation of Scientific Measurement Hallucinations for Large Language Models with Enhanced Reasoning

Ruijun Huang et al.

cs.CL

本文提出了一个名为MeasHalu的框架，旨在缓解大型语言模型在从科学文献中提取测量数据时产生的幻觉问题。该框架通过细粒度的错误分类、两阶段微调策略和渐进式奖励课程来提升提取的准确性，并在基准测试上取得了更好的效果。

No One Fits All: From Fixed Prompting to Learned Routing in Multilingual LLMs

Wei-Chi Wu et al.

cs.CL

本文评估了多语言大语言模型中基于翻译的prompting策略在不同语言和任务上的有效性. 研究发现, 没有单一策略是普遍最优的, 并引入了一个轻量级分类器来为每个实例动态选择最优的prompting策略.

MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation

Bo Li et al.

cs.CL

本文提出了一种名为MNAFT的新方法, 用于对多模态大语言模型进行微调以提升图像翻译任务的效果. 该方法通过分析神经元激活来识别并选择性微调与语言处理相关的特定神经元, 在多个基准测试中取得了优于现有方法的表现.

On Safety Risks in Experience-Driven Self-Evolving Agents

Weixiang Zhao et al.

cs.CL

本文探讨了经验驱动自进化智能体(agent)中的安全风险. 研究发现, 仅从良性任务中积累的经验也可能在高风险场景下损害安全性, 揭示了当前自进化方法在安全与效用之间存在权衡.

Bolzano: Case Studies in LLM-Assisted Mathematical Research

Jan Grebík et al.

cs.CL cs.AI cs.LG cs.LO

本文介绍了一个名为Bolzano的多智能体LLM系统, 该系统通过协调证明者智能体与验证者智能体之间的多轮交互, 并维护跨轮次的持久知识库, 辅助完成了数学和理论计算机科学中的六个问题. 其中四项成果达到了可发表的研究水平, 三项成果主要由系统自主完成.

SPS: Steering Probability Squeezing for Better Exploration in Reinforcement Learning for Large Language Models

Yifu Huo et al.

cs.CL cs.LG

本文提出了一种名为Steering Probability Squeezing (SPS)的训练范式，用于增强大型语言模型在强化学习中的探索能力。该方法通过交替使用强化学习和逆强化学习来重塑轨迹分布，从而提升多样本推理性能。

BIASEDTALES-ML: A Multilingual Dataset for Analyzing Narrative Attribute Distributions in LLM-Generated Stories

Yuxuan Ouyang et al.

cs.CL

本文构建了一个多语言数据集BiasedTales-ML, 用于分析大语言模型生成故事中的叙事属性分布. 通过一个结构化的生成-提取流程和多维分布分析框架, 研究发现叙事模式在不同语言间存在显著差异, 表明以英语为中心的评估存在局限性.

Improving LLM Code Reasoning via Semantic Equivalence Self-Play with Formal Verification

Antonio Valerio Miceli Barone, Poon Tsz Nok

cs.CL cs.AI cs.LG cs.PL

本文提出了一种基于语义等价 self-play 与形式化验证的框架，用于提升大语言模型在 Haskell 代码上的推理能力。该方法通过生成器与评估器的对抗训练，并利用 Liquid Haskell 进行验证，在相关基准测试上取得了性能提升。

Beyond Static Benchmarks: Synthesizing Harmful Content via Persona-based Simulation for Robust Evaluation

Huije Lee et al.

cs.CL cs.AI

本文提出了一个基于persona-guided LLM agents的框架来合成有害内容, 用于对有害内容检测系统进行更鲁棒的评估. 该方法通过构建结合人口统计身份、主题兴趣和有害策略的二维用户persona, 模拟多样且情境化的有害交互, 生成的合成内容在危害性、挑战性和多样性方面均表现良好, 比现有基准更难被检测.

Beyond Black-Box Labels: Interpretable Criteria for Diagnosing SubjectiveNLP Tasks

Nisrine Rair et al.

cs.CL cs.AI

本文提出了一种在主观NLP任务中用于诊断标注模式的方法, 该方法在确定最终标注标签(gold label)之前, 利用多位标注者的标准判断来审计专家设计的标注方案(schema). 该方法能够区分标准不稳定和类别系统性重叠这两种失败模式.

Where is the Mind? Persona Vectors and LLM Individuation

Pierre Beckmann, Patrick Butlin

cs.CL cs.AI

本文探讨了大型语言模型中的个体化问题, 即如何识别模型中的"心智"实体. 作者通过机制可解释性方法, 结合对persona vectors等近期实证研究的分析, 提出了几种可能的解释观点.

Dynamic Emotion and Personality Profiling for Multimodal Deception Detection

Li Zheng et al.

cs.CL

本文提出了一种用于多模态欺骗检测的动态情感与人格分析方法。通过构建新的数据集DDEP并设计可靠性加权融合框架Rel-DDEP，该方法在欺骗、情感和人格的联合检测任务上取得了性能提升。

Efficient Task Adaptation in Large Language Models via Selective Parameter Optimization

Weijie Wan, Jiangjiang Zhao

cs.CL cs.AI

本文提出了一种通过选择性参数优化来提升大语言模型任务适应效率的方法. 该方法通过评估参数重要性, 在微调时固定对通用能力至关重要的"核心参数", 仅更新"非核心参数", 从而在多个领域任务上缓解了灾难性遗忘问题.

Jailbreaking Large Language Models with Morality Attacks

Ying Su et al.

cs.CL

本文通过构建一个包含10.3K个实例的道德数据集，并形式化了四种对抗性攻击，来研究大型语言模型在多元价值下的道德内容生成鲁棒性。实验结果表明，LLMs和防护模型对这些微妙的道德感知攻击存在关键漏洞。

Stability-Weighted Decoding for Diffusion Language Models

Yue Wu, Jian Huang

cs.CL cs.LG

本文提出了一种用于扩散语言模型的稳定性加权解码方法, 通过量化 token 在连续去噪步骤中的预测分布差异来评估其稳定性, 并将此稳定性作为权重调制任意基于分数的解码策略. 实验表明该方法能提升代码生成和数学推理任务的准确性.

Abstain-R1: Calibrated Abstention and Post-Refusal Clarification via Verifiable RL

Skylar Zhai, Jingcheng Liang, Dongyeop Kang

cs.CL cs.AI

本文提出了一种用于大语言模型的校准性拒绝与澄清方法。针对模型可能对无法回答的查询进行猜测或产生幻觉的问题，作者设计了一种可验证的强化学习奖励机制，该机制联合优化了在可回答问题上的正确回答、在不可回答问题上的明确拒绝以及拒绝后提供语义对齐的澄清说明。实验表明，训练得到的模型在多个基准测试上显著提升了拒绝和澄清能力，同时保持了在可回答问题上的性能。

Auditing Support Strategies in LLMs through Grounded Multi-Turn Social Simulation

Michelle Star, Andrew Aquilina, Yu-Ru Lin

cs.CL

本文提出了一个基于多轮社会模拟的框架, 用于审计大型语言模型(LLMs)在逐步披露情境下的社会支持策略. 通过将支持寻求叙事分解为片段并逐轮输入模型, 使用社会支持行为编码(SSBC)对响应进行分类, 并利用线性探针分析模型内部表征以估计用户困扰, 研究发现支持策略的构成会随估计的困扰程度发生系统性变化, 且社区语境独立地塑造了模型行为.

Comparing Human and Large Language Model Interpretation of Implicit Information

Antonio De Santis et al.

cs.CL cs.AI

本文提出了Implicit Information Extraction (IIE)任务，并设计了一个基于LLM的流程来从文本中提取隐含信息并构建知识图谱。通过将两个LLM的表现与人类标注进行对比，研究发现模型在提取覆盖范围上存在不足，并且模型与人类在判断隐含信息的保守程度上随语境类型不同而存在差异。

GenericAgent: A Token-Efficient Self-Evolving LLM Agent via Contextual Information Density Maximization (V1.0)

Jiaqing Liang et al.

cs.CL

本文提出了一种名为GenericAgent的通用自进化LLM智能体系统，其核心设计原则是最大化上下文信息密度。该系统通过精简工具集、分层按需记忆、自进化机制以及上下文截断与压缩层来实现这一目标，旨在解决长程任务中上下文信息过载与经验流失的问题。实验表明，该智能体在多项指标上优于现有系统，且消耗的token和交互次数更少。

How Tokenization Limits Phonological Knowledge Representation in Language Models and How to Improve Them

Disen Liao, Freda Shi

cs.CL

本文探讨了 subword tokenization 如何削弱语言模型对 phonological knowledge 的编码能力. 作者提出了 STAD 这一度量来量化这种影响, 并设计了一种基于 IPA 的微调方法来提升模型的 phonological awareness.

Beyond Word Boundaries: A Hebrew Coreference Benchmark and an Evaluation Protocol for Morphologically Complex Text

Refael Shaked Greenfeld, Reut Tsarfaty

cs.CL cs.AI

本文针对形态丰富语言(MRL)中的指代消解(CR)问题, 构建了首个现代希伯来语综合数据集KibutzR, 并提出了一种新的评估协议. 实验表明, 现有模型在处理希伯来语未分词文本时性能显著下降, 且表现趋势与英语相反.

The Provenance Gap in Clinical AI: Evidence-Traceable Temporal Knowledge Graphs for Rare Disease Reasoning

Md Shamim Ahmed et al.

cs.CL

本文针对临床AI中的"出处鸿沟"问题, 提出了HEG-TKG系统. 该系统通过构建分层的、基于证据的时间知识图谱来确保临床声明的可验证性, 在实验中实现了100%的证据可追溯性.

Please refuse to answer me! Mitigating Over-Refusal in Large Language Models via Adaptive Contrastive Decoding

Yupeng Qi et al.

cs.CL

本文提出了一种名为Adaptive Contrastive Decoding (AdaCD)的训练无关方法, 用于缓解大语言模型(Large Language Models)对无害查询的过度拒绝(over-refusal)问题. 该方法通过对比不同安全级别系统提示下的模型输出分布, 动态调整拒绝与非拒绝token的生成概率, 在降低无害查询拒绝率的同时, 保持对恶意查询的高拒绝率.

RoIt-XMASA: Multi-Domain Multilingual Sentiment Analysis Dataset for Romanian and Italian

Andrei-Marius Avram et al.

cs.CL

本文提出了一个面向罗马尼亚语和意大利语的多领域多语言情感分析数据集RoIt-XMASA, 并设计了一个多目标对抗训练框架来处理跨语言和跨领域的挑战. 实验表明, 所提出的方法在XLM-R模型上取得了优于基线的性能, 并对比了基于提示的大语言模型与任务特定微调之间的权衡.

The Consensus Trap: Rescuing Multi-Agent LLMs from Adversarial Majorities via Token-Level Collaboration

Jiayuan Liu et al.

cs.CL cs.AI cs.MA

本文针对多智能体大语言模型(LLM)在开放环境中易受对抗性提示注入攻击的问题，揭示了基于响应级别聚合(如多数投票)的系统性脆弱性。作者提出了一种Token-Level Round-Robin协作方法，通过理论分析和实验验证，证明了该方法在对抗性智能体占多数时仍能保持鲁棒性。

SciImpact: A Multi-Dimensional, Multi-Field Benchmark for Scientific Impact Prediction

Hangxiao Zhu et al.

cs.CL

本文提出了一个用于科学影响力预测的多维度、多领域基准数据集SciImpact, 它整合了多种数据源, 涵盖了从引用量到奖项、媒体关注等不同形式的影响力. 作者评估了多种大语言模型在该基准上的表现, 发现经过多任务监督微调的小模型可以超越更大的模型.

From Legal Text to Executable Decision Models: Evaluating Structured Representations for Legal Decision Model Generation

David Graus

cs.CL cs.AI

本文研究了使用中间结构化表示来改进基于LLM从法律文本生成可执行决策模型的方法. 通过结构相似性和结果等价性两个维度进行评估, 发现输入/输出约束能显著提升性能, 而语义角色标签的改进有限.

Modeling Multi-Dimensional Cognitive States in Large Language Models under Cognitive Crowding

Lin Zhong et al.

cs.CL

本文构建了首个统一标注情感、思维风格、立场和意图四个维度的基准CognitiveBench, 揭示了LLMs在联合多维度认知建模上的性能瓶颈. 作者将瓶颈归因于认知状态层次结构所需的指数表示空间与LLMs欧氏空间多项式增长之间的不匹配, 即"Cognitive Crowding".

Cognitive Policy-Driven LLM for Diagnosis and Intervention of Cognitive Distortions in Emotional Support Conversation

Lin Zhong et al.

cs.CL

本文提出了一个用于情感支持对话中认知扭曲诊断与干预的框架 CoPoLLM，并构建了标注数据集 CogBiasESC。实验表明该框架在诊断准确性和干预效果上优于现有基线。

Beyond Overlap Metrics: Rewarding Reasoning and Preferences for Faithful Multi-Role Dialogue Summarization

Xiaoyong Mei et al.

cs.CL cs.AI

本文提出了一种结合显式推理与奖励优化的新框架, 用于提升多角色对话摘要的忠实度与人类偏好对齐. 该方法通过从大教师模型中提取结构化推理轨迹进行监督微调, 并设计融合多种准则的奖励函数进行优化, 在多个基准上验证了其在事实忠实度方面的提升.

Learning to Control Summaries with Score Ranking

Hongye Liu, Liang Ding, Ricardo Henao

cs.CL

本文提出了一种基于评分排名的损失函数, 用于在文本摘要生成中实现对各质量维度(如完整性、简洁性)的细粒度控制. 该方法在多个预训练模型上验证有效, 能在保持整体摘要质量的同时, 对特定维度进行优先排序.

Calibrating Model-Based Evaluation Metrics for Summarization

Hongye Liu, Dhanajit Brahma, Ricardo Henao

cs.CL

本文提出了一个无需参考摘要、人工标注或昂贵模型即可生成摘要个体与平均代理分数的通用框架, 并引入了一种名为group isotonic regression binning (GIRB)的校准方法, 以调整原始预测分数, 使其与真实评估指标更一致. 该方法主要针对摘要评估等连续值任务, 实验表明其在多个数据集上优于现有基线.

A Multi-Agent Approach for Claim Verification from Tabular Data Documents

Rudra Ranajee Saha, Laks V. S. Lakshmanan, Raymond T. Ng

cs.CL

本文提出了一种用于表格数据文档声明验证的多智能体框架 MACE. 该框架包含 Planner, Executor 和 Verifier 三个智能体, 采用零样本思维链设置, 在减少参数量的同时取得了有竞争力的性能, 并提供了可解释的验证过程.

DORA Explorer: Improving the Exploration Ability of LLMs Without Training

Priya Gurjar, Md Farhan Ishmam, Kenneth Marino

cs.CL cs.AI

本文提出了一种无需训练的框架 DORA Explorer, 用于提升 LLM 在序列决策任务中的探索能力. 该方法通过生成多样化的候选动作并利用可调参数进行选择, 在 Multi-Armed Bandit 和文本冒险环境 TALES 中取得了性能提升.

Seeing Isn't Believing: Mitigating Belief Inertia via Active Intervention in Embodied Agents

Hanlin Wang et al.

cs.CL cs.AI cs.RO

本文针对embodied agents中存在的belief inertia问题, 提出了一个名为Estimate-Verify-Update (EVU)的主动干预机制. 该机制通过预测、验证和更新显式的文本信念状态, 旨在帮助agent更好地根据环境反馈调整其内部信念, 从而在多个embodied任务基准上提升了任务成功率.

Are Emotion and Rhetoric Neurons in LLM? Neuron Recognition and Adaptive Masking for Emotion-Rhetoric Prediction Steering

Li Zheng et al.

cs.CL

本文提出了一种识别大语言模型中情感与修辞相关神经元并进行自适应掩码的方法, 用于实现细粒度的表达引导. 实验在多个数据集上验证了该框架的有效性.

REZE: Representation Regularization for Domain-adaptive Text Embedding Pre-finetuning

Seungmin Lee et al.

cs.CL cs.AI

本文提出了一种名为REZE的表示正则化框架, 用于在领域自适应的文本嵌入预微调中控制表示偏移. 该方法通过特征空间分解和自适应软收缩来抑制任务引入的噪声, 并在多个基准测试中展现了优于标准方法的性能.

Rethinking Meeting Effectiveness: A Benchmark and Framework for Temporal Fine-grained Automatic Meeting Effectiveness Evaluation

Yihang Li, Chenhui Chu

cs.CL

本文提出了一个用于评估会议有效性的新范式, 重点关注时间细粒度分析. 作者构建了AMI-ME数据集并开发了一个基于LLM的自动评估框架, 为会议分析任务建立了基准.

HopRank: Self-Supervised LLM Preference-Tuning on Graphs for Few-Shot Node Classification

Ziqing Wang, Kaize Ding

cs.CL

本文提出了一种名为HopRank的自监督LLM微调框架, 用于文本属性图(TAGs)上的少样本节点分类. 该方法将节点分类重新表述为链接预测任务, 利用图拓扑中的同质性先验构造偏好数据进行训练, 并在推理时通过预测节点与带标签锚点的连接偏好进行分类.

MedPRMBench: A Fine-grained Benchmark for Process Reward Models in Medical Reasoning

Lingyan Wu et al.

cs.CL

本文提出了首个针对医学领域的Process-Level Reward Models (PRMs) 评测基准MedPRMBench。该基准基于临床推理蓝图构建，包含细粒度的错误类型分类和严重性分级，并展示了其作为可插拔验证器对下游医学问答任务的提升效果。

HorizonBench: Long-Horizon Personalization with Evolving Preferences

Shuyue Stella Li et al.

cs.CL cs.AI

本文提出了一个用于研究长期个性化问题的基准数据集HorizonBench, 该数据集通过结构化心理状态图生成包含6个月对话历史和真实偏好演变来源的模拟对话. 在25个前沿模型上的评估表明, 当前模型在跟踪用户状态演变方面存在显著瓶颈, 最佳模型准确率仅为52.8%.

Probabilistic Programs of Thought

Poorva Garg et al.

cs.CL cs.AI cs.PL

本文提出了一种名为"probabilistic programs of thought"的新框架, 旨在减少大语言模型(LLM)在代码生成和数学推理任务中所需的昂贵采样次数. 该方法利用模型生成程序时的下一个token概率, 构建一个能紧凑表示指数级数量确定性程序的概率程序, 从而以极低的计算开销获得更多样本.

Beyond "I Don't Know": Evaluating LLM Self-Awareness in Discriminating Data and Model Uncertainty

Jingyi Ren et al.

cs.CL

本文提出了一个用于评估大语言模型区分数据不确定性与模型不确定性能力的基准UA-Bench, 并发现前沿模型在此任务上表现不佳. 作者进一步提出了一种轻量级的数据合成与强化学习策略来提升模型的不确定性归因能力.

CRISP: Compressing Redundancy in Chain-of-Thought via Intrinsic Saliency Pruning

Yangsong Lan, Hongliang Dai, Piji Li

cs.CL

本文提出了一种通过模型内部显著性来压缩Chain-of-Thought推理步骤的方法CRISP. 该方法利用推理终止token的attention模式来区分必要步骤与冗余信息, 从而在保持准确性的同时显著减少token数量.

Cat-DPO: Category-Adaptive Safety Alignment

Tiankai Yang et al.

cs.CL cs.AI

本文提出了一种针对不同有害内容类别进行自适应安全对齐的方法 Cat-DPO. 该方法通过为每个类别设置独立的安全裕度, 改进了直接偏好优化, 从而在整体上提升了模型的有用性和无害性.

RoTRAG: Rule of Thumb Reasoning for Conversation Harm Detection with Retrieval-Augmented Generation

Juhyeon Lee et al.

cs.CL cs.AI cs.HC cs.IR cs.LG

本文提出了RoTRAG, 一个用于多轮对话有害内容检测的检索增强生成框架. 该框架通过检索外部的人类编写的道德规范(Rules of Thumb)作为显式的规范性证据, 来辅助LLM进行逐轮推理和最终的有害程度分类, 并引入了一个轻量级的路由分类器来提升效率.

Calibrated? Not for Everyone: How Sexual Orientation and Religious Markers Distort LLM Accuracy and Confidence in Medical QA

Alberto Testoni, Iacer Calixto

cs.CL cs.AI

本文研究了患者的社会身份描述符(如性取向和宗教信仰)如何影响大型语言模型(LLM)在医学问答中的准确性和不确定性校准。研究发现，这些身份标记会导致校准危机，特别是"同性恋"标记会引发性能下降，并对基于置信度的临床工作流程构成风险。

A Universal Avoidance Method for Diverse Multi-branch Generation

Kyeongman Park, Minha Jhang, Kyomin Jung

cs.CL cs.LG

本文提出了一种模型无关且计算高效的生成策略UAG, 通过惩罚已生成输出之间的相似性来增强多分支多样性. 该方法在扩散模型和Transformer模型上均能有效提升多样性, 同时显著降低计算开销.

Align Documents to Questions: Question-Oriented Document Rewriting for Retrieval-Augmented Generation

Jiaang Li et al.

cs.CL

本文提出了一种名为QREAM的文档重写方法, 旨在改善检索增强生成(RAG)中检索文档的呈现方式. 该方法通过风格控制使文档更符合问题导向, 从而提升大型语言模型对事实性信息的利用效率, 并作为一个即插即用模块在现有RAG流程中带来性能提升.

Neuro-Symbolic Resolution of Recommendation Conflicts in Multimorbidity Clinical Guidelines

Shiyao Xie, Jian Du

cs.CL

本文提出了一种Neuro-Symbolic框架，用于自动检测多病共存临床指南中的推荐冗余与冲突。该方法将自然语言转化为符号逻辑，并使用SAT求解器进行验证，在特定基准测试中取得了优于大型语言模型的性能。

Logical Computational Linguistics

Glyn V. Morrill, Oriol Valentín

cs.CL

本文倡导逻辑计算语言学, 并提供了一个逻辑语义接口. 它汇集了作者在 type logical grammar 领域二十多年的研究工作, 并加入了新的想法和材料.

More Than Meets the Eye: Measuring the Semiotic Gap in Vision-Language Models via Semantic Anchorage

Wei He

cs.CL cs.CV

本文提出了DIVA基准和Semantic Alignment Gap ($\Delta$)度量，用于量化Vision-Language Models在字面义与习语义视觉表征上的差异。研究发现模型存在Literal Superiority Bias，表明更高的视觉保真度可能削弱符号对齐，并建议需要图标抽象来改善组合性理解。

Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions

Dongwook Lee et al.

cs.CL cs.AI cs.SD

本文提出了TPI-Train数据集和TPI-Bench评估框架，旨在提升语音助手对第三方语音干扰的鲁棒性。这项工作为克服语音模型中依赖文本语义的局限性提供了资源。

ArgBench: Benchmarking LLMs on Computational Argumentation Tasks

Yamen Ajjour et al.

cs.CL cs.AI

本文构建了首个用于评估大语言模型在计算论证任务上性能的基准ArgBench, 它整合了33个现有数据集. 作者利用该基准评估了五个大语言模型家族在46个相关任务上的表现, 并系统分析了few-shot示例, 推理步骤, 模型规模和训练技能等因素的影响.

AnchorMem: Anchored Facts with Associative Contexts for Building Memory in Large Language Models

Zhanyu Shen et al.

cs.CL

本文提出了一种名为AnchorMem的新型记忆框架, 用于增强大型语言模型在长期交互中利用历史经验的能力. 该方法通过将检索单元(锚点事实)与生成上下文解耦, 并构建关联事件图来整合记忆, 在基准测试中取得了优于基线模型的表现.

Who Watches the Watchmen? Humans Disagree With Translation Metrics on Unseen Domains

Finn Schmidt et al.

cs.CL

本文通过构建一个跨领域错误标注数据集(CD-ESA), 系统性地研究了机器翻译自动评估指标在领域迁移下的鲁棒性. 研究发现, 在考虑人类标注者之间的差异后, 这些指标在未见领域上的表现会显著下降.

Representation-Guided Parameter-Efficient LLM Unlearning

Zeguan Xiao et al.

cs.CL

本文提出了一种名为REGLU的参数高效遗忘学习方法, 通过利用表示空间的几何特性来改进LLM的遗忘效果. 该方法设计了基于表示的LoRA初始化策略和正则化损失, 以减少对保留知识的影响, 并在基准测试中展现了优于现有方法的性能.

Contrastive Analysis of Linguistic Representations in Large Language Model Outputs through Structured Synthetic Data Generation and Abstracted N-gram Associations

S.A. Desimone, L. Alonso Alemany

cs.CL

本文提出了一种通过对比合成文本生成与统计分析来发现不同社会群体相关语言模式的方法框架. 该方法旨在刻画细微的偏见表达, 而非基于预设词表进行诊断.

DuConTE: Dual-Granularity Text Encoder with Topology-Constrained Attention for Text-attributed Graphs

Lexuan Liang et al.

cs.CL cs.AI

本文提出了一种用于文本属性图(text-attributed graphs)的双粒度文本编码器DuConTE。该模型通过级联两个预训练语言模型，在词粒度和节点粒度分别编码语义，并在自注意力计算中利用图拓扑结构进行约束。实验表明，该方法在多个基准数据集上取得了先进的性能。

Jupiter-N Technical Report

George Drayson

cs.CL cs.AI

本文介绍了Jupiter-N, 这是一个基于开源大模型Nemotron 3 Super进行后训练的混合推理模型. 其训练目标包括提升智能体能力, 对齐英国文化规范以及支持威尔士语, 并通过特定的数据策略来保留基础模型的能力.

Self-Consistency from Only Two Samples: CoT-PoT Ensembling for Efficient LLM Reasoning

Raman Saparkhan et al.

cs.CL cs.AI cs.LG

本文提出了一种结合 Chain-of-Thought (CoT) 和 Program-of-Thought (PoT) 的混合集成方法，用于提升大语言模型的推理效率。该方法显著减少了 Self-Consistency 技术所需的采样数量，大部分任务仅需两个样本即可处理。

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

Szu-Chi Chen et al.

cs.CL cs.AI cs.SD eess.AS

本文提出了一种用于语音到语音翻译中保留非语言发声(如笑声和哭泣)的方法 MoVE. 它通过一个混合专家架构和高效的数据合成流程, 在数据有限的情况下提升了翻译输出的表现力和自然度.

Answer Only as Precisely as Justified: Calibrated Claim-Level Specificity Control for Agentic Systems

Tianyi Huang et al.

cs.CL

本文提出了一种称为compositional selective specificity (CSS)的后处理层, 用于控制agentic systems中声明的精确度. 该方法通过将回答分解为声明, 提出更粗略的回退(backoff)选项, 并以校准后的最具体可接受级别输出每个声明, 从而在LongFact和HotpotQA任务上改善了风险与效用的权衡.

CoAct: Co-Active LLM Preference Learning with Human-AI Synergy

Ruiyao Xu et al.

cs.CL

本文提出了CoAct框架, 通过协同人类与AI, 结合self-rewarding和active learning来优化LLM的preference learning. 该方法在多个推理基准测试上取得了显著的效果提升.

ONTO: A Token-Efficient Columnar Notation for LLM Input Optimization

Harshavardhanan Deekeswar

cs.CL cs.LG

本文提出了一种名为ONTO的列式序列化格式, 旨在减少大型语言模型(LLM)处理结构化数据时的token消耗. 通过一次性声明字段名并按行排列数值, 该格式在保持可读性和嵌套结构的同时, 相比JSON显著降低了token使用量并提升了推理速度.

OPSDL: On-Policy Self-Distillation for Long-Context Language Models

Xinsen Zhang et al.

cs.CL cs.AI

本文提出了一种名为OPSDL的On-Policy Self-Distillation方法，用于提升大语言模型的长上下文处理能力。该方法利用模型自身强大的短上下文能力作为监督信号，通过逐token的反向KL散度来优化长上下文下的生成，从而减少幻觉并提高样本效率。

PoliLegalLM: A Technical Report on a Large Language Model for Political and Legal Affairs

Yuting Huang et al.

cs.CL

本文提出了一个面向政治与法律领域的专用大语言模型 PoliLegalLM. 该模型通过整合持续预训练、渐进式监督微调和基于偏好的强化学习来增强法律知识、任务对齐和推理能力, 并在多个法律基准测试中取得了有竞争力的结果.

MAPLE: A Meta-learning Framework for Cross-Prompt Essay Scoring

Salam Albatarni et al.

cs.CL

本文提出了一个名为MAPLE的元学习框架, 用于解决自动作文评分(AES)中的跨提示(cross-prompt)泛化问题. 该框架利用原型网络(prototypical networks)学习不同写作提示(prompts)间的可迁移表示, 并在多个数据集上取得了有竞争力的结果.

Beyond Fine-Tuning: In-Context Learning and Chain-of-Thought for Reasoned Distractor Generation

Elaf Alhazmi, Quan Z. Sheng, Wei Emma Zhang

cs.CL

本文探索了使用大型语言模型(LLMs)和in-context learning进行干扰项生成(DG)的方法。通过设计一个联合生成干扰项及其推理依据的框架，该方法在多个基准测试上取得了优于现有模型的效果。

Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity

Leon Engländer et al.

cs.CL cs.LG

本文指出当前基于LLM的智能体缺乏"环境好奇心", 即在环境中发现意外但高度相关的信息时, 难以有效利用这些发现. 通过在多个基准测试中注入完整任务解决方案的实验, 作者展示了智能体发现与利用解决方案之间存在巨大差距, 并分析了影响该能力的主要因素.

Does Welsh media need a review? Detecting bias in Nation.Cymru's political reporting

Cai Parry-Jones

cs.CL

本文使用一个两阶段的自然语言处理流程, 包括一个RoBERTa偏见检测器和一个用于目标属性情感分类的大语言模型, 来分析威尔士政治新闻媒体Nation.Cymru的报道偏见. 研究发现不同政党受到的报道框架存在显著差异, 为评估威尔士媒体偏见提供了一个可复现的计算框架.

Copy First, Translate Later: Interpreting Translation Dynamics in Multilingual Pretraining

Felicia Körner et al.

cs.CL

本文通过细粒度地追踪一个多语言预训练模型在早期学习阶段的行为, 研究了跨语言泛化能力的涌现过程. 研究发现, 翻译能力的发展经历了两个阶段: 初始阶段以复制和表层相似性为主, 随后才发展出更泛化的翻译机制.

ThreadSumm: Summarization of Nested Discourse Threads Using Tree of Thoughts

Olubusayo Olabisi, Ekata Mitra, Ameeta Agrawal

cs.CL

本文提出了一种名为ThreadSumm的多阶段LLM框架，用于总结嵌套式讨论线程。该方法通过提取话语方面和原子内容单元进行内容规划，并利用Tree of Thoughts搜索来生成和优化段落候选，从而在保持逻辑结构的同时提高了方面保留和观点覆盖度。

Measuring Distribution Shift in User Prompts and Its Effects on LLM Performance

Parker Seegmiller, Sarah Masud Preum

cs.CL

本文提出了一个名为LENS的框架, 用于量化用户prompt的自然分布漂移及其对已部署LLM性能的影响. 通过大规模实验, 研究发现即使是中度的prompt分布变化也会导致模型性能显著下降, 强调了数据驱动监控的重要性.

Semantic Density Effect (SDE): Maximizing Information Per Token Improves LLM Accuracy

Amr Ahmed

cs.CL cs.AI

本文提出了Semantic Density Effect (SDE)的概念, 即单位token携带更高语义信息的提示能提升LLM的准确性. 该方法通过移除或替换低信息量token来优化提示, 在多个模型和基准测试中取得了性能提升.

Peerispect: Claim Verification in Scientific Peer Reviews

Ali Ghorbanpour et al.

cs.CL cs.IR

本文提出了一个名为Peerispect的交互式系统, 用于对科学同行评审中的陈述进行自动化验证. 该系统通过提取评审中的可核查声明, 从原稿中检索相关证据, 并利用自然语言推理进行验证, 其结果通过可视化界面呈现.

Towards Intelligent Legal Document Analysis: CNN-Driven Classification of Case Law Texts

Moinul Hossain et al.

cs.CL cs.AI

本文提出了一种用于法律文书引证分类的轻量级CNN框架, 结合了基于词形还原的预处理, FastText词嵌入和多核一维卷积. 在公开数据集上, 该模型在准确率和效率上均超越了包括微调BERT在内的多个基线模型.

Before You Interpret the Profile: Validity Scaling for LLM Metacognitive Self-Report

Jon-Paul Cacioli

cs.CL cs.AI

本文将临床心理学中的人格评估有效性量表框架应用于大语言模型的元认知自我报告数据, 提出了六个有效性指标来评估模型回答的可信度. 研究发现部分模型在元认知监控上存在显著缺陷, 其置信度与答案正确性无关甚至负相关.

DeInfer: Efficient Parallel Inferencing for Decomposed Large Language Models

You-Liang Huang et al.

cs.CL cs.DC

本文提出了一个名为DeInfer的高性能推理系统，专门用于分解后大语言模型(LLM)的并行推理。该系统通过多项优化来提升性能，并与现有先进技术兼容。

Screen Before You Interpret: A Portable Validity Protocol for Benchmark-Based LLM Confidence Signals

Jon-Paul Cacioli

cs.CL cs.AI

本文提出了一种可移植的验证协议，用于评估基于基准测试的LLM置信度信号的有效性。该协议借鉴了临床心理学评估的方法，通过计算几个核心指标对置信度信号进行筛查和分类。

Concurrent Criterion Validation of a Validity Screen for LLM Confidence Signals via Selective Prediction

Jon-Paul Cacioli

cs.CL cs.AI cs.LG

本文通过选择性预测任务验证了LLM置信度信号有效性筛查的分类能力。研究发现，该筛查的三级分类能显著预测模型性能差异，并解释了近一半的方差。

Do LLMs Use Cultural Knowledge Without Being Told? A Multilingual Evaluation of Implicit Pragmatic Adaptation

Mehwish Nasim et al.

cs.CL cs.SI

本文通过设计包含显式文化指令和隐式情境提示的实验, 评估了多语言大模型在未被告知的情况下是否会自动调整其语用风格以适应隐含的文化情境. 研究发现, 模型仅能恢复约五分之一的显式语用调整, 且对语言结构的响应强于对文化关联的响应.

RePrompT: Recurrent Prompt Tuning for Integrating Structured EHR Encoders with Large Language Models

Arya Hadizadeh Moghaddam et al.

cs.CL cs.AI

本文提出了一个名为RePrompT的框架, 用于将结构化的EHR编码器与大型语言模型(LLMs)集成. 该方法通过提示调优(prompt tuning)来结合时间感知和群体层面的信息, 在多个临床预测任务上取得了优于基线模型的表现.

MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models

Suhyun Lee et al.

cs.CL cs.AI cs.HC

本文提出了一个用于评估大语言模型在心理健康咨询场景中安全性的新框架. 该框架通过角色感知的交互式评估, 揭示了现有静态基准测试所忽略的累积性安全风险.

Mira-Embeddings-V1: Domain-Adapted Semantic Reranking for Recruitment via LLM-Synthesized Data

Zhaohua Liang et al.

cs.CL

本文提出了一种用于招聘领域的语义重排序系统 mira-embeddings-v1. 该系统利用 LLM 合成数据来重塑 embedding 空间, 并通过一个轻量级的重排序头来纠正边界混淆, 从而在无需大规模人工标注数据的情况下提升了候选人的检索效果.

HiRAS: A Hierarchical Multi-Agent Framework for Paper-to-Code Generation and Execution

Hanhua Hong et al.

cs.CL

本文提出了一个用于端到端实验复现的分层多智能体框架HiRAS, 并改进了Paper2Code基准的评估协议. 实验表明, 该方法在开源骨干模型上取得了超过先前最佳性能10%以上的相对提升, 并显著减少了评估中的幻觉.

Reverse Constitutional AI: A Framework for Controllable Toxic Data Generation via Probability-Clamped RLAIF

Yuan Fang et al.

cs.CL cs.AI

本文提出了一个名为Reverse Constitutional AI (R-CAI)的框架, 用于自动化生成对抗性的有害数据. 该方法通过反转无害的"宪法"并利用强化学习进行迭代优化, 旨在为大型语言模型的安全性评估提供数据支持.

SPENCE: A Syntactic Probe for Detecting Contamination in NL2SQL Benchmarks

Mohammadtaher Safarzadeh et al.

cs.CL cs.AI cs.DB

本文提出了一种名为SPENCE的句法探测框架, 用于检测和量化NL2SQL基准测试中的训练数据污染问题. 通过系统性地生成测试查询的句法变体并评估多个大语言模型, 研究发现较早的基准(如Spider)显示出较高的训练数据泄露可能性, 而较新的BIRD数据集则基本未受污染.

Forget What Matters, Keep the Rest: Selective Unlearning of Informative Tokens

Seunghee Koh et al.

cs.CL cs.AI cs.LG

本文提出了一种基于熵的token加权方法(ETW), 用于指导大语言模型(LLM)的遗忘学习. 该方法通过预测分布的熵来估计token的信息量, 从而在遗忘过程中更有效地保留模型的有用性.

Bridging the Reasoning Gap in Vietnamese with Small Language Models via Test-Time Scaling

Bui The Trung et al.

cs.CL cs.AI

本文针对越南语环境下 Small Language Models (SLMs) 存在的 "reasoning gap" 问题, 研究了在 Qwen3-1.7B 模型上的 Test-Time Scaling 策略. 通过构建越南语数学推理数据集和基准, 发现监督微调 (SFT) 能显著提升模型解释质量, 而过于复杂的 prompting 框架 (如 ReAct) 会对小模型性能产生负面影响.

PDDL-Mind: Large Language Models are Capable on Belief Reasoning with Reliable State Tracking

Wang Bill Zhu et al.

cs.CL cs.AI

本文提出了一个名为PDDL-Mind的神经符号框架，用于提升大语言模型在心理理论任务中的表现。该框架通过将叙述性描述转化为PDDL语言中的显式状态和动作，为模型提供了逻辑一致的世界状态表示，从而在多个基准测试上取得了显著的准确率提升。

Learning to Seek Help: Dynamic Collaboration Between Small and Large Language Models

Hang Zeng et al.

cs.CL

本文提出了一个动态协作框架, 让小型语言模型(SLM)在多步推理中学习主动决定何时请求大型语言模型(LLM)的帮助, 而LLM则提供自适应反馈. 研究发现, 更强的SLM会更自主, 而更强的LLM则能实现更少但信息量更大的交互, 该动态策略在性能上优于静态流程和独立推理.

How Non-Linguistic Is the Indus Sign System? A Synthetic-Baseline Scorecard

Ashish Nair

cs.CL

本文通过构建一个多指标判别框架, 将观察到的 Indus 符号系统语料与两种计算机生成的非语言基线系统进行比较. 研究发现 Indus 语料在统计特性上介于两种基线之间, 且与已知的非语言系统均不完全匹配, 这为 Indus 符号是否编码语言的长期争论提供了新的量化视角.

QuickScope: Certifying Hard Questions in Dynamic LLM Benchmarks

Taylor Lundy, Narun K. Raman, Kevin Leyton-Brown

cs.CL

本文提出了一种名为QuickScope的新方法, 用于在动态LLM基准测试中高效识别困难问题. 该方法基于改进的贝叶斯优化算法, 并通过实验验证了其相比基线方法具有更高的样本效率和更低的误报率.

On the Emergence of Syntax by Means of Local Interaction

Zichao Wei

cs.CL cs.AI cs.LG

本文通过训练一个二维神经细胞自动机(NCA)来研究句法处理能否从局部交互中自发涌现. 该模型仅使用1比特边界信号进行监督, 在算术表达式语法的成员问题上进行训练. 训练后, 其内部网格自发组织成一种名为Proto-CKY的有序空间扩展表示, 该表示展现出超越正则语言的表达能力, 并能进行结构泛化.

Latent Abstraction for Retrieval-Augmented Generation

Ha Lan N.T, Minh-Anh Nguyen, Dung D. Le

cs.CL cs.AI

本文提出了一种名为LAnR的统一框架, 用于改进检索增强生成(RAG). 该方法让单个大语言模型在其潜在空间内联合执行编码, 检索和生成, 并通过一个轻量级控制头自适应地决定何时停止检索. 实验表明该方法在多个问答基准上优于现有RAG方法, 并提高了推理效率.

GraSP: Graph-Structured Skill Compositions for LLM Agents

Tianle Xia et al.

cs.CL

本文提出了一种名为GraSP的图结构技能组合框架, 用于改进LLM agent的技能编排. 该方法将扁平技能集转换为带类型的DAG, 并通过节点级验证和局部修复来执行, 在多个基准测试中提升了任务奖励并减少了环境步数.

Latent Preference Modeling for Cross-Session Personalized Tool Calling

Yejin Yoon, Minseo Kim, Taeuk Kim

cs.CL cs.AI

本文提出了一个用于研究个性化工具调用问题的基准MPT和一种测试时记忆增强方法PRefine. 该方法通过一个生成-验证-精炼循环, 从历史对话中提取可重用的约束, 以较少的计算开销提升了工具调用的准确性.

Automatic Slide Updating with User-Defined Dynamic Templates and Natural Language Instructions

Kun Zhou et al.

cs.CL

本文提出了一个基于用户自定义动态模板和自然语言指令的幻灯片自动更新任务, 并为此构建了一个大规模基准数据集 DynaSlide. 作者还设计了一个名为 SlideAgent 的智能体框架来处理该任务, 该框架结合了多模态解析和工具增强推理.

Heterogeneity in Formal Linguistic Competence of Language Models: Is Data the Real Bottleneck?

H S V N S Kowndinya Renduchintala, Sumit Bhatia

cs.CL cs.AI cs.LG

本文通过向预训练数据中注入少量合成数据来研究语言模型在特定语法现象上表现不佳的原因. 实验表明, 数据构成是影响模型形式语言能力的关键因素, 但某些现象(如 principle_A_c_command)的提升仍然有限.

Domain-oriented RAG Assessment (DoRA): Synthetic Benchmarking for RAG-based Question Answering on Defense Documents

Bao Gia Doan et al.

cs.CL

本文提出了一个面向特定领域的RAG评估基准DoRA, 用于评估基于国防领域文档的问答系统性能. 该基准包含多种问题类型和大量合成数据, 实验表明, 在该基准上微调的模型能显著提升任务成功率并降低幻觉率.

ReCoQA: A Benchmark for Tool-Augmented and Multi-Step Reasoning in Real Estate Question and Answering

Yindong Zhang et al.

cs.CL

本文提出了一个用于房地产问答的基准测试ReCoQA, 以及一个分层智能体框架HIRE-Agent. 该工作旨在解决结合数据库查询与外部API调用的混合工作流评估问题.

Process Reward Models Meet Planning: Generating Precise and Scalable Datasets for Step-Level Rewards

Raffaele Pisano, Roberto Navigli

cs.CL

本文提出了一种基于PDDL规划问题生成PRM数据集的新方法, 用于训练提供逐步反馈的Process Reward Models. 该方法生成了大规模、精确的步骤级奖励数据, 实验表明其能有效提升PRM在数学与非数学推理任务上的性能.

Modeling Multiple Support Strategies within a Single Turn for Emotional Support Conversations

Jie Zhu et al.

cs.CL

本文提出在情感支持对话中为单个话语建模多种支持策略, 并引入了两种生成方法. 实验表明, 允许单轮话语包含多种策略能有效提升对话的支持质量和成功率.

ltzGLUE: Luxembourgish General Language Understanding Evaluation

Alistair Plum et al.

cs.CL

本文介绍了首个卢森堡语自然语言理解基准ltzGLUE, 它基于英文GLUE基准构建. 该工作通过构建新任务和复用现有任务, 评估了多种预训练语言模型在卢森堡语上的性能, 涵盖了命名实体识别, 主题分类和意图分类等常见NLP任务.

Employing General-Purpose and Biomedical Large Language Models with Advanced Prompt Engineering for Pharmacoepidemiologic Study Design

Xinyao Zhang et al.

cs.CL

本文评估了通用和生物医学大语言模型在药物流行病学研究设计中的表现, 使用了先进的提示工程策略. 研究发现, 通用模型配合特定提示策略在相关性和逻辑性上优于生物医学模型, 但所有模型在 ontology-code 映射方面均表现有限.

How Creative Are Large Language Models in Generating Molecules?

Wen Tao et al.

cs.CL cs.LG q-bio.BM

本文通过系统性的实证评估, 研究了大型语言模型(LLMs)在分子生成任务中的创造性行为. 研究将创造力区分为收敛性和发散性两个维度, 并分析了不同因素如何影响这些行为模式.

SignDPO: Multi-level Direct Preference Optimisation for Skeleton-based Gloss-free Sign Language Translation

Muxin Pu et al.

cs.CL cs.CV

本文提出了一种名为SignDPO的多层次直接偏好优化框架, 用于提升基于骨架的手语翻译的语义对齐. 该方法通过构建空间, 时间及语言层面的偏好对比样本, 引导模型区分细微的骨架运动差异, 在多个基准测试上取得了优于现有无注释方法的性能.

JudgeMeNot: Personalizing Large Language Models to Emulate Judicial Reasoning in Hebrew

Itay Razumenko, Arnon Sturm, Nir Grinberg

cs.CL cs.CY

本文提出了一种合成-有机监督流程, 用于将原始司法判决转化为指令微调数据, 从而在低资源环境下对大型语言模型进行参数高效的个性化微调, 以模拟特定法官的推理风格. 该方法在多个任务和设定中优于现有基线, 并在词汇、风格和语义相似度上取得显著提升.

Modeling Human Perspectives with Socio-Demographic Representations

Leixin Zhang, Cagri Coltekin

cs.CL

本文提出了一种名为 Socio-Contrastive Learning 的方法，用于联合建模标注者观点并学习其社会人口学表征。该方法融合了社会人口学特征与文本表示，以预测标注者的主观视角，其性能优于标准的基于拼接的方法。学习到的表征还能用于分析和可视化人口学因素如何影响观点差异。

Mix and Match: Context Pairing for Scalable Topic-Controlled Educational Summarisation

Nathikan Yodthapa, Thanapong Intharah, Sahan Bulathwela

cs.CL cs.AI cs.CY

本文提出了一种用于训练小型语言模型进行主题控制摘要的数据增强方法. 该方法通过组合不同文档的上下文来创建对比训练样本, 并在固定真实数据量的情况下, 通过增加增强规模提升了模型性能.

Culture-Aware Humorous Captioning: Multimodal Humor Generation across Cultural Contexts

Run Xu et al.

cs.CL cs.CV

本文提出了一种新的多模态生成任务: 文化感知幽默字幕生成, 要求模型根据输入图像和目标文化背景生成幽默的标题. 作者建立了一个六维评估框架, 并提出了一个分阶段对齐的框架来提升模型在该任务上的表现.

Efficient Low-Resource Language Adaptation via Multi-Source Dynamic Logit Fusion

Chen Zhang et al.

cs.CL

本文提出了一种名为TriMix的测试时logit融合框架, 用于在低资源语言(LRL)场景下高效适配大语言模型(LLM). 该方法动态整合来自三个不同来源的知识, 无需低资源语言的标注数据, 并在多个模型家族和语言上验证了其有效性.

FLiP: Towards understanding and interpreting multimodal multilingual sentence embeddings

Santosh Kesiraju et al.

cs.CL cs.SD

本文提出了一种名为FLiP的因子化线性投影模型，用于分析和理解预训练的句子嵌入空间。该方法通过从多语言、多模态及API生成的嵌入中重建词汇内容，为评估不同编码器的内在特性提供了一种诊断工具。

Retrieval-Augmented Multimodal Model for Fake News Detection

Yiheng Li et al.

cs.CL cs.MM

本文提出了一种检索增强的多模态假新闻检测模型(RAMM). 该模型利用多模态大语言模型(MLLM)作为主干, 并引入了抽象叙事对齐模块和语义表示对齐模块, 以捕获跨实例的叙事一致性并进行类比推理. 在三个公开数据集上的实验验证了该方法的有效性.

Decisive: Guiding User Decisions with Optimal Preference Elicitation from Unstructured Documents

Akriti Jain et al.

cs.CL

本文提出了一个结合文档推理与贝叶斯偏好推断的交互式决策框架. 该框架通过从文档中提取客观选项评分矩阵, 并自适应地选择成对权衡问题来学习用户的潜在偏好向量, 以提高决策准确性.

TLoRA: Task-aware Low Rank Adaptation of Large Language Models

Weicheng Lin et al.

cs.CL cs.AI

本文提出了TLoRA, 一种用于大语言模型参数高效微调的统一框架. 它通过数据驱动的初始化策略和对秩与缩放因子的自适应分配, 在多个任务上实现了优异性能并显著减少了可训练参数.

Depth Registers Unlock W4A4 on SwiGLU: A Reader/Generator Decomposition

Ziyang Liu

cs.CL cs.AI cs.LG

本文研究了在300M参数的SwiGLU decoder-only语言模型上进行W4A4量化时，输入激活位置对误差的影响。通过引入一种名为Depth Registers with hinge loss (DR+sink)的训练时干预方法，显著降低了量化后的验证困惑度，并分析了模型中不同线性层（划分为reader和generator）对量化误差的贡献差异。

FreezeEmpath: Efficient Training for Empathetic Spoken Chatbots with Frozen LLMs

Yun Hong, Yan Zhou, Yang Feng

cs.CL

本文提出了一种名为FreezeEmpath的高效训练方法, 用于构建具有共情能力的语音对话系统. 该方法通过冻结大语言模型(LLM)的参数, 仅利用现有的语音指令数据和语音情感识别(SER)数据进行训练, 在生成富有情感表现力的语音方面取得了良好效果.

MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Sua Lee, Sanghee Park, Jinbae Im

cs.CL cs.AI cs.CV

本文针对MLLM-as-a-Judge范式中的评估偏见问题，提出了一个系统性评测基准MM-JudgeBias。该基准通过引入对Query、Image和Response的受控扰动，并设计了Bias-Deviation和Bias-Conformity两个互补指标，来诊断多模态大语言模型在评估任务中存在的九种组合偏见。实验在26个前沿模型上进行，揭示了模型普遍存在的模态忽视和非对称评估倾向。

Beyond Reproduction: A Paired-Task Framework for Assessing LLM Comprehension and Creativity in Literary Translation

Ran Zhang et al.

cs.CL cs.AI

本文提出了一个用于评估大语言模型在文学翻译中理解与创造力的配对任务框架. 该框架结合了专家人工标注和基于"创造性潜力单元"的自动评分, 对多个模型进行了基准测试. 研究发现, 模型的理解能力并不直接转化为人类水平的创造力, 尤其是在远距离语言对中.

Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing

Ziyang Liu

cs.CL cs.AI

本文提出了一种名为 Copy-as-Decode 的解码层机制，用于加速大语言模型(LLM)的文本与代码编辑任务。该方法将编辑生成重新定义为在包含复制与生成两种原语的语法上的结构化解码，并通过并行预填充技术来加速复制过程。实验表明，该方法在多个基准测试上能实现显著的推理速度提升，并保持了较高的编辑覆盖率。

STaD: Scaffolded Task Design for Identifying Compositional Skill Gaps in LLMs

Sungeun An et al.

cs.CL cs.AI

本文提出了一个名为STaD的框架，用于系统性地识别大型语言模型在组合推理技能上的缺陷。该方法通过设计具有结构化支持的基准任务变体，以可扩展的方式探测模型的行为弱点。

Linear-Time and Constant-Memory Text Embeddings Based on Recurrent Language Models

Tobias Grantner, Emanuel Sallinger, Martin Flechl

cs.CL

本文提出了一种基于recurrent language models的text embedding方法, 通过引入vertically chunked inference策略, 实现了线性时间复杂度和常数内存消耗. 该方法在多个benchmarks上取得了有竞争力的性能, 为长序列embedding提供了一种高效的transformer替代方案.

Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs

Samuel G. Balter, Ethan Jerzak, Connor T. Jerzak

cs.CL

本文通过构建一个受控的多模态乘法基准测试, 研究了多模态大语言模型在不同模态(文本, 图像, 音频)下执行精确多位数乘法时的表现. 研究发现, 模型失败的主要原因是计算而非感知, 并且引入了一个算术负载度量C来预测性能.

Hard to Be Heard: Phoneme-Level ASR Analysis of Phonologically Complex, Low-Resource Endangered Languages

V.S.D.S.Mahesh Akavarapu, Michael Daniel, Gerhard Jäger

cs.CL

本文对两种低资源、音系复杂的东高加索语言(Archi和Rutul)进行了音素级别的自动语音识别分析。研究评估了多种模型，发现数据稀缺比音系复杂性更能解释识别错误。

Model in Distress: Sentiment Analysis on French Synthetic Social Media

Pierre-Carl Langlais et al.

cs.CL

本文提出了一种用于社交媒体情感分析的合成数据生成方法, 应用于法语客户投诉检测. 该方法通过回译等技术生成大规模合成推文, 训练得到的模型在评估集上取得了与现有先进模型相当的性能.

Negative Advantage Is a Double-Edged Sword: Calibrating Advantage in GRPO for Deep Search

Jiayi Wu et al.

cs.CL cs.AI

本文针对深度搜索任务中GRPO算法存在的优势分配问题, 提出了CalibAdv校准方法. 该方法通过细粒度地调整正负优势值, 提升了模型性能与训练稳定性.

Where Do Self-Supervised Speech Models Become Unfair?

Felix Herron et al.

cs.CL

本文通过层级的公平性分析, 研究了预训练自监督语音编码器模型在不同说话人群体上的性能差异. 研究发现, 模型从初始层开始就存在针对特定说话人群体的嵌入偏差, 并且说话人识别任务与自动语音识别任务呈现出相反的层级偏差模式.

An Existence Proof for Neural Language Models That Can Explain Garden-Path Effects via Surprisal

Ryo Yoshida et al.

cs.CL

本文通过微调神经语言模型(LM)来探究 surprisal 理论是否能解释花园路径效应。实验表明，经过微调的模型能够更好地预测人类在花园路径句和自然语料上的阅读时间，为 surprisal 理论提供了支持，但也引发了关于该理论可证伪性的理论问题。

Exploring Concreteness Through a Figurative Lens

Saptarshi Ghosh, Tianyu Jiang

cs.CL

本文通过分析多个LLM的隐藏表示, 研究了模型如何内部表征词语的具体性(concreteness), 特别是在比喻性语言中的变化. 研究发现, 模型在早期层区分词语的字面义和比喻义, 并在中后层将具体性压缩为一个跨模型一致的一维方向, 该方向可用于高效的比喻语言分类和无训练的文本改写引导.

Reasoning Models Know What's Important, and Encode It in Their Activations

Yaniv Nikankin et al.

cs.CL

本文通过分析模型激活而非推理链的token本身, 研究了语言模型中推理步骤的重要性. 研究发现, 模型在生成后续步骤之前, 其内部激活就已编码了关于步骤重要性的表征, 且该表征在不同模型间具有泛化性.

On the Importance and Evaluation of Narrativity in Natural Language AI Explanations

Mateusz Cedro, David Martens

cs.CL cs.AI

本文探讨了在可解释人工智能(XAI)中引入叙事性(narrativity)的重要性及其评估方法. 作者认为当前基于自然语言的解释缺乏连贯的因果叙述, 并提出了七项量化叙事质量的自动评估指标.

FregeLogic at SemEval 2026 Task 11: A Hybrid Neuro-Symbolic Architecture for Content-Robust Syllogistic Validity Prediction

Adewale Akinfaderin, Nafi Diallo

cs.CL

本文提出了一种名为FregeLogic的混合神经符号系统, 用于解决三段论有效性预测任务. 该系统结合了多个LLM分类器与Z3 SMT求解器, 旨在减少预测中的内容效应.

Multilingual Training and Evaluation Resources for Vision-Language Models

Daniela Baiamonte et al.

cs.CL cs.AI

本文针对Vision-Language Models (VLMs) 多语言资源不足的问题，构建了一套覆盖五种欧洲语言的多模态训练与评估资源。通过结合合成生成与人工标注的再生-翻译范式，创建了训练语料库Multi-PixMo和一系列多语言评测基准。实验表明，使用多语言数据进行训练对非英语评测任务有益，并能正向迁移至英语任务。

HiGMem: A Hierarchical and LLM-Guided Memory System for Long-Term Conversational Agents

Shuqi Cao, Jingyi He, Fei Tan

cs.CL

本文提出了一种名为HiGMem的分层记忆系统, 旨在优化长期对话agent的上下文检索. 该系统通过使用LLM引导的语义锚点来筛选相关对话轮次, 从而在减少检索量的同时提升回答质量.

PRISMA: Preference-Reinforced Self-Training Approach for Interpretable Emotionally Intelligent Negotiation Dialogues

Prajwal Vijay Kajare et al.

cs.CL

本文提出了一种名为PRISMA的可解释情感智能谈判对话系统, 应用于工作面试和资源分配两个领域. 该系统通过结合自我训练与直接偏好优化(DPO)来生成更准确、可解释且情感适当的谈判回应.

ComPASS: Towards Personalized Agentic Social Support via Tool-Augmented Companionship

Zhaopei Huang et al.

cs.CL

本文提出了一个名为ComPASS的框架，旨在通过工具增强的智能体来提供个性化的社会支持。它构建了一个包含多种用户中心工具的基准测试，并基于此微调了一个特定模型，评估表明工具增强的响应优于直接的共情对话生成。

ArbGraph: Conflict-Aware Evidence Arbitration for Reliable Long-Form Retrieval-Augmented Generation

Qingying Niu et al.

cs.CL cs.IR

本文提出ArbGraph框架, 用于在长文本检索增强生成(RAG)中进行生成前的证据仲裁. 该方法将检索到的文档分解为原子主张并构建冲突感知的证据图, 通过迭代仲裁机制传播可信度信号, 从而在生成前抑制不可靠或不一致的证据. 实验表明, 该方法在存在冲突或模糊证据的情况下, 能有效提高事实召回率并减少幻觉.

IceBreaker for Conversational Agents: Breaking the First-Message Barrier with Personalized Starters

Hongwei Zheng et al.

cs.CL cs.AI

本文提出了Conversation Starter Generation任务和IceBreaker模型，旨在解决对话代理在对话启动阶段的“首消息障碍”问题。该模型通过从用户会话摘要中提取兴趣点并生成个性化的开场白，以在冷启动场景下引导用户进入对话。在线A/B测试表明该方法能有效提升用户活跃度。

Understanding the Prompt Sensitivity

Yang Liu, Chenhui Chu

cs.CL

本文通过将LLMs视为多元函数并进行一阶Taylor展开，分析了语义保留提示词与其梯度及模型下一个token对数概率之间的关系。研究推导了概率差异的上界，并指出LLMs倾向于分散而非聚类相似输入，这导致了较高的提示敏感性。

River-LLM: Large Language Model Seamless Exit Based on KV Share

Yingtao Shen, An Zou

cs.CL

本文提出了一种名为River-LLM的无训练框架，旨在解决大语言模型推理中的KV Cache缺失问题，以实现高效的Early Exit。该方法通过共享KV状态和预测累积误差，在数学推理和代码生成任务上获得了显著的推理加速。

AlphaContext: An Evolutionary Tree-based Psychometric Context Generator for Creativity Assessment

Yixuan Wang et al.

cs.CL cs.AI

本文提出了一种基于进化树的创造力评估心理测量情境生成器 AlphaContext. 它通过分层规划、MCTS 填充和基于 MAP-Elites 的进化优化来生成高质量、多样化的评估情境, 在多项质量指标上优于现有方法.

StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning

Daoyu Wang et al.

cs.CL

本文针对 Agentic Reinforcement Learning 提出了 StepPO 方法, 主张将传统的 token-level MDP 建模提升为 step-level MDP 建模. 该方法旨在更好地优化智能体的决策和工具使用等核心能力, 以应对多轮交互环境中的新挑战.

BhashaSutra: A Task-Centric Unified Survey of Indian NLP Datasets, Corpora, and Resources

Raghvendra Kumar, Devankar Raj, Sriparna Saha

cs.CL

本文对印度自然语言处理(NLP)领域的资源进行了首次统一调查, 涵盖了超过200个数据集, 50多个基准测试以及100多个模型, 工具和系统. 该调查按语言现象, 领域和模态组织资源, 分析了标注, 评估和模型设计的趋势, 并指出了数据稀疏性, 语言覆盖不均等持续存在的挑战.

Adversarial Humanities Benchmark: Results on Stylistic Robustness in Frontier Model Safety

Marcello Galisai et al.

cs.CL cs.AI

本文提出了Adversarial Humanities Benchmark (AHB), 用于评估前沿AI模型在有害意图被文学风格改写后的安全性. 实验表明, 经过风格转换的攻击成功率远高于原始攻击, 揭示了当前安全措施在风格鲁棒性上的不足.

LQM: Linguistically Motivated Multidimensional Quality Metrics for Machine Translation

Samar M. Magdy et al.

cs.CL cs.AI

本文提出了一个名为LQM的语言学驱动的多维质量评估框架, 用于机器翻译评估. 该框架构建了一个包含六个语言学层级(社会语言学, 语用学, 语义学, 形态句法学, 正字法和字素学)的错误分类法, 并基于一个包含七种阿拉伯语方言的双语语料库进行了专家标注验证.

MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generation

Xingchen Xiao et al.

cs.CL

本文提出了一种名为 MASS-RAG 的多智能体合成检索增强生成方法，用于处理检索到的上下文信息存在噪声或不完整的情况。该方法通过多个角色专一的智能体分别进行证据总结、提取和推理，并整合它们的输出来生成最终答案，在多个基准测试上提升了性能。

Transition-Matrix Regularization for Next Dialogue Act Prediction in Counselling Conversations

Eric Rudolph, Philipp Steigerwald, Jens Albrecht

cs.CL cs.AI

本文提出了一种基于KL正则化的方法, 用于在心理咨询对话的下一对话行为预测任务中融入经验性的对话流统计信息. 该方法通过将预测的行为分布与语料库导出的转移模式对齐, 在细粒度且数据稀疏的任务中提升了模型性能, 并显示出跨语言和咨询领域的可迁移性.

GSQ: Highly-Accurate Low-Precision Scalar Quantization for LLMs via Gumbel-Softmax Sampling

Alireza Dadgarnia et al.

cs.CL cs.LG

本文提出了一种名为GSQ的后训练标量量化方法, 通过Gumbel-Softmax松弛来联合优化网格分配和分组尺度. 该方法在2-3比特的低精度下, 显著缩小了简单标量量化与前沿向量量化方法之间的精度差距, 同时保持了与现有标量推理内核的完全兼容性.

Dual Alignment Between Language Model Layers and Human Sentence Processing

Tatsuki Kuribayashi et al.

cs.CL

本文探讨了语言模型内部不同层在估计人类句子处理认知负荷时的差异. 研究发现, 对于句法复杂的结构, 后期层的表现优于早期层, 但仍低估了人类的认知努力.

cs.DS

Optimal Phylogenetic Reconstruction from Sampled Quartets

Dionysis Arvanitakis et al.

cs.DS

本文研究了从带噪声的四元组样本中重建系统发育树的问题. 作者提出了一种算法, 能够在样本量为$\Theta(n)$时, 以高概率恢复出接近真实树的树结构.

Homogeneous Network Caching is Fixed-Parameter Tractable Parameterized by the Number of Caches

József Pintér, Regina Stangl

cs.DS cs.CC

本文研究了同构网络缓存问题(HomNC)的参数化复杂度. 作者证明了该问题在参数为缓存数量$C$时是固定参数可解的(FPT), 从而解决了之前关于其W[1]-难度的猜想.

Surreal Arithmetic, Lazily

Lloyd Allison

cs.DS cs.PL

本文探讨了在编程中如何高效地实现Conway的surreal numbers及其算术运算. 通过采用lazy evaluation和递归数据结构, 作者展示了可以显著提升计算速度.

Flow Shop Scheduling with Stochastic Reentry

Maximilian von Aspern, Felix Buld, Michael Pinedo

cs.DS cs.DM math.OC

本文研究了具有随机重入特性的flow shop调度问题, 其中作业完成所需的加工次数服从离散概率分布. 通过将问题约简为经典的带机器到达的并行机调度问题, 作者证明了在几何分布和单调失效率分布下, 简单的优先级策略对于最小化期望makespan和总完工时间是最优的.

others

Conjunctive Prompt Attacks in Multi-Agent LLM Systems ⭐ 精选

Nokimul Hasan Arif, Qian Lou, Mengxin Zheng

cs.MA cs.AI

本文研究了多智能体LLM系统中的一种新型安全威胁——Conjunctive Prompt Attacks. 攻击者通过控制用户查询中的触发关键词和远程智能体中的隐藏对抗模板, 利用系统路由机制将两者组合, 从而激活有害行为, 而单独检查每个部分均看似无害. 实验表明, 在多种网络拓扑结构下, 基于路由感知的优化能显著提高攻击成功率, 而现有的单点防御机制均难以有效应对. 这项工作揭示了智能体系统在组合层面的结构性漏洞, 强调了需要跨智能体推理的新型防御策略.

TokenChain: A Discrete Speech Chain via Semantic Token Modeling

Mingxuan Wang, Satoshi Nakamura

eess.AS cs.AI cs.CL cs.LG cs.SD

本文提出了一种名为TokenChain的完全离散语音链, 通过语义token建模来耦合ASR和TTS. 该方法利用离散语义token作为接口, 结合两阶段TTS和动态权重平均训练策略, 在LibriSpeech和TED-LIUM数据集上提升了ASR和TTS的性能.

A3-FPN: Asymptotic Content-Aware Pyramid Attention Network for Dense Visual Prediction

Meng'en Qin et al.

cs.CV cs.AI cs.LG

本文提出了一种用于密集视觉预测任务的渐进式内容感知金字塔注意力网络(A3-FPN). 它通过渐进解耦框架和内容感知注意力模块来增强多尺度特征表示, 在多个基准数据集上取得了优异的性能.

Results-Actionability Gap: Understanding How Practitioners Evaluate LLM Products in the Wild

Willem van der Maden et al.

cs.SE cs.AI cs.HC

本文通过访谈研究, 探讨了产品团队在评估LLM驱动产品时面临的挑战, 并提出了"结果-可操作性鸿沟"这一新概念. 研究指出, 从业者现有的非正式评估实践是对LLM特性的必要适应, 而非方法论的失败.

CrossTraffic: An Open-Source Framework for Reproducible and Executable Transportation Analysis and Knowledge Management

Rei Tamaru, Bin Ran

cs.CY cs.IR

本文介绍了一个名为CrossTraffic的开源框架，旨在通过将交通工程方法论（如HCM）编码为可执行软件和知识图谱，来解决该领域知识分散、工具封闭和结果难以复现的问题。该框架结合了标准化计算接口、语义验证层和基于大语言模型的对话界面，实验表明其能有效提升分析准确性和方法保真度。

How Robustly do LLMs Understand Execution Semantics?

Claudio Spiess, Prem Devanbu, Earl T. Barr

cs.SE cs.AI cs.LG

本文通过程序输出预测任务, 研究了LLMs在代码理解上的鲁棒性. 研究发现, 前沿模型GPT-5.2在输入扰动下准确率显著下降, 而开源推理模型则表现相对稳定.

Steerable Instruction Following Coding Data Synthesis with Actor-Parametric Schema Co-Evolution

Tinglin Huang et al.

cs.SE cs.AI cs.PL

本文提出了一种名为IFCodeEvolve的框架，用于生成与指令配对的编程数据。该方法通过将指令参数化为函数模式库，并利用蒙特卡洛树搜索进行采样，同时让执行模型与模式库协同进化，最终提升了基础模型在代码生成任务上的性能。

Beyond the 'Diff': Addressing Agentic Entropy in Agentic Software Development

Matteo Casserini, Alessandro Facchini, Andrea Ferrario

cs.SE cs.AI

本文针对自主编码代理在软件开发中引发的"代理熵"问题, 提出了一个面向过程的可解释性框架. 该框架通过追踪代理决策在时间、工具调用和架构边界上的演变, 旨在补充现有的代码审查实践.

BrainMem: Brain-Inspired Evolving Memory for Embodied Agent Task Planning

Xiaoyu Ma et al.

cs.RO cs.AI cs.CV cs.MA

本文提出了一种名为BrainMem的免训练分层记忆系统, 用于具身智能体的任务规划. 该系统模仿人类认知, 将交互历史转化为知识图谱和符号化准则, 从而提升智能体在复杂环境中的长期任务执行成功率.

Distributed Human Identity: AI-Enabled Multi-Existence Through Cognitive Replication and Robotic Embodiments

A S M Touhidul Islam, John Tookey

cs.HC cs.AI cs.MA

本文提出了一个名为"Multi-Existence Identity (MEI)"的社会技术框架，旨在通过AI和机器人技术复制人的认知与情感属性，实现个体在多个数字或物理环境中的并行存在。该框架探讨了其在多个领域的应用潜力及相关的伦理挑战。

Elder-Sim: A Psychometrically Validated Platform for Personality-Stable Elderly Digital Twins

Jiaqing Wang et al.

cs.HC cs.AI

本文提出了一个名为ELDER-SIM的平台，用于构建具有稳定人格特征的老年人数字孪生体。该平台通过整合Big Five人格特质、认知概念化图以及长期记忆模块，并采用心理测量学方法进行验证，旨在减少基于LLM的智能体在交互中的人格漂移问题。

Bridging the Experimental Last Mile: Digitizing Laboratory Know-How for Safe AI-Assisted Support

Akira Miura et al.

cs.HC cs.AI

本文提出了一种结合第一人称实验视频、多模态AI和检索增强生成(RAG)的人机协同AI助手, 用于从实验记录中提取特定实验室的操作知识, 并基于生成的指南提供安全可靠的回答. 系统采用双层安全设计来减少错误输出, 初步评估表明其在适用范围内能提供有用且安全的指导.

Lean Atlas: An Integrated Proof Environment for Scalable Human-AI Collaborative Formalization

Banri Yanahama, Akiyoshi Sannai

cs.HC cs.AI cs.LO

本文介绍了一个名为Lean Atlas的集成证明环境, 旨在通过人机协作解决AI自动形式化中的语义幻觉问题. 该工具通过可视化依赖图和算法提取关键节点来辅助人类进行语义验证, 并在多个Lean 4项目上评估了其减少待审查节点的效果.

Mapping Recent Shifts in Digital Art via Conference Discourse: AI, XR, the Metaverse, and Blockchain/NFTs (2021-2025)

Vasileios Komianos, Emmanuel Rovithis, Athanasios Tsipis

cs.CY cs.AI

本文分析了2021至2025年间六个数字艺术会议的讨论内容，追踪了AI、XR/元宇宙以及区块链/NFTs等新兴技术相关的主题演变。研究发现，AI相关议题显著增长并成为主导，而沉浸式技术与区块链话题则保持相对稳定。

CSF: Black-box Fingerprinting via Compositional Semantics for Text-to-Image Models

Junhoo Lee, Mijin Koo, Nojun Kwak

cs.CR cs.AI cs.CV

本文提出了一种名为CSF的黑盒指纹识别方法, 用于在仅有查询访问权限的情况下, 溯源基于受保护模型微调而来的text-to-image模型. 该方法通过组合性语义提示来探测模型, 并利用贝叶斯归因框架进行受控风险的谱系判定.

Clinical Note Bloat Reduction for Efficient LLM Use

Jordan L. Cahoon et al.

cs.CY cs.AI cs.CL

本文提出了一个名为TRACE的预处理流程, 用于减少临床记录中的冗余文本(即"note bloat"), 以降低使用大型语言模型(LLM)进行临床决策支持的计算成本. 该方法结合了电子健康记录(EHR)元数据分析和基于频率的去重技术, 在多个真实临床数据集上验证了其能在大幅缩减文本量的同时, 保持下游任务(如信息抽取和结果预测)的性能.

Decoding AI Tutor Effects for Educational Measurement: Temporal, Multi-Outcome, and Behavior-Cognitive Analysis

Yiyao Yang, Yasemin Gulbahar

cs.CY cs.LG

本文提出了一个用于探索AI辅助学习的AI智能体原型框架, 结合了时序交互模式, 多结果分析和行为-认知学习者画像. 研究通过模拟学生-AI导师交互记录, 分析了早期交互模式对后期表现和信任的预测能力, 以及不同反馈条件下学习者的行为变化和潜在画像.

Talk, Walk, and Market Response: Multimodal Measurement of AI Washing and Its Capital Market Consequences in China

Wen Zhanjie, Guo Jingqiao

cs.CY cs.AI

本文通过构建多模态的AI Washing Risk Score (AWRS) 和 Material Real-Investment Matching Index (MRMI)，实证研究了A股市场的AI概念炒作现象。研究发现，AI炒作与实质性投资脱节，会挤出行业创新并最终引发市场估值修正。

Why AI Readiness Is an Organizational Learning Problem, Not a Technology Purchase

Jeanne McClure, Gregg Gerdau

cs.CY cs.AI cs.CL

本文认为企业AI项目失败的核心是组织学习问题而非技术缺陷. 文章提出了一个SIO进展模型, 为企业AI能力建设提供了指导.

Same Verdict, Different Reasons: LLM-as-a-Judge and Clinician Disagreement on Medical Chatbot Completeness

Alexandra DeLucia et al.

cs.CY cs.AI

本文评估了LLM-as-a-Judge框架在医疗聊天机器人回答完整性评估中的可靠性。研究发现，LLM法官与临床医生在判断标准和解释上存在根本差异，其检测性能有限，无法在临床环境中作为自主评估或分流工具。

StressWeb: A Diagnostic Benchmark for Web Agent Robustness under Realistic Interaction Variability

Haoyue Bai et al.

cs.SE cs.AI

本文提出了一个用于诊断Web Agent在真实交互变化下鲁棒性的基准测试StressWeb. 该基准通过构建可控的Web环境并引入模拟交互变化的扰动, 系统地评估了现有先进多模态Web Agent的鲁棒性差距.

DAOnt: A Formal Ontology for EU Data Act Compliance

Sheyla Leyva-Sánchez et al.

cs.DB cs.AI cs.CY

本文提出了一个用于欧盟《数据法案》合规性的形式化本体DAOnt. 它复用现有本体来捕获法规的规范结构, 并通过SPARQL查询支持对数据共享协议的合规性检查.

RoMathExam: A Longitudinal Dataset of Romanian Math Exams (1895-2025) with a Seven-Decade Core (1957-2025)

Luca-Ncolae Cuclea, Sabin-Codrut Badea, Adrian-Marius Dumitran

cs.CY cs.AI cs.CL

本文介绍了一个名为RoMathExam的罗马尼亚高中数学考试纵向数据集, 涵盖1895-2025年, 其中1957-2025年为核心标准化部分. 该数据集包含超过10,000个数学问题, 并提供了课程对齐的主题标签和文本嵌入, 可用于课程分析和LLM评估.

Stream2LLM: Overlap Context Streaming and Prefill for Reduced TTFT

Rajveer Bachkaniwala et al.

cs.DB cs.AI

本文提出了一个名为STREAM2LLM的系统，用于优化LLM推理中的上下文检索延迟问题。该系统通过重叠检索与推理、自适应调度以及缓存管理，在保持吞吐量的同时显著降低了首次令牌生成时间。

Instructor-Created Custom GPTs as Pedagogical Partners Fostering Immersion in Online Higher Education: Two Case Studies

Dennis Beck, Leonel Morgado

cs.CY cs.AI cs.HC

本文通过两个在线高等教育案例, 探讨了教师创建的定制GPT如何作为教学伙伴, 促进学生的沉浸式学习体验. 研究基于沉浸式学习立方体框架, 分析了定制GPT在系统、叙事和能动性三个维度上对学习沉浸感的影响.

A Framework for Human-AI Q-Matrix Refinement: A NeuralCDM Evaluation

Ying Zhang et al.

cs.CY cs.AI

本文提出了一个用于Q-matrix（Q矩阵）精化的人机协作框架，结合了大型语言模型（LLM）的生成能力和认知诊断模型（NeuralCDM）的实证评估。该框架通过迭代优化生成的Q矩阵，在一个热力学评估数据集上取得了优于专家基准的模型拟合效果，并验证了本地部署模型的可行性。

IACDM: Interactive Adversarial Convergence Development Methodology -- A Structured Framework for AI-Assisted Software Development

Jasmine Moreira

cs.SE cs.AI

本文提出了一种名为IACDM的结构化框架, 旨在解决AI辅助软件开发中的"验证鸿沟"问题. 该框架通过引入外部验证代理(VA)和系统化的对抗性评审来提升代码质量和安全性.

CoLLM: A Unified Framework for Co-execution of LLMs Federated Fine-tuning and Inference

Shaoyuan Huang et al.

cs.DC cs.AI cs.LG

本文提出了一个名为CoLLM的统一框架, 用于在边缘智能场景中协同执行联邦参数高效微调(FL PEFT)和低延迟推理. 该系统通过在共享的模型副本和参数上实现实时参数复用与自适应负载均衡, 旨在减少部署冗余并提升整体效率.

GRAB-ANNS: High-Throughput Indexing and Hybrid Search via GPU-Native Bucketing

Xinkui Zhao et al.

cs.DB cs.IR

本文提出了一种名为GRAB-ANNS的GPU原生图索引，用于高效处理结合向量相似性和结构化谓词过滤的混合搜索。它通过桶化内存布局和混合图拓扑设计，解决了GPU上不规则内存访问和分支发散等问题，在保持高召回率的同时，显著提升了查询吞吐量和索引构建速度。

ICAT: Incident-Case-Grounded Adaptive Testing for Physical-Risk Prediction in Embodied World Models

Zhenglin Lai et al.

cs.RO cs.AI cs.CV cs.LG

本文提出了一种名为ICAT的方法, 用于评估视频生成世界模型在预测物理风险方面的能力. 该方法通过构建结构化的风险记忆库来约束生成过程, 实验表明现有模型在风险机制和严重性校准上存在不足.

How unique are hallucinated citations offered by generative Artificial Intelligence models?

Dirk HR Spennemann

cs.DL cs.AI

本文研究了生成式AI在学术写作中产生和传播虚假引用的问题, 聚焦于一个被反复虚构的特定引用实例. 通过分析大量可获取的源文献以及对ChatGPT的询问, 研究发现这些虚假引用并非随机生成, 而是对真实作者、期刊等元素的模式化重组, 且即使在联网状态下, AI仍无法完全避免此类错误.

Cooperative Coevolution versus Monolithic Evolutionary Search for Semi-Supervised Tabular Classification

Jamal Toutouh

cs.NE cs.LG

本文提出了一种用于极低标签率半监督表格分类的协同协同进化方法(CC-SSL), 并将其与一个整体进化基线(EA-SSL)及其他轻量级基线进行了比较. 实验表明, 在1%标签数据下, 两种进化方法的中位测试性能优于轻量级基线, 但两者之间的最终性能差异在统计上不显著.

What Is Actually Being Annotated? Inter-Prompt Reliability as a Measurement Problem in LLM-Based Social Science Labeling

Jingyuan Liu

cs.CY cs.AI

本文提出了 Inter-Prompt Reliability (IPR) 框架，用于评估大语言模型在不同语义等价提示下的输出稳定性。研究发现，在解释性任务中，模型标注存在显著的随机性，而在基于知识的任务中则更为稳定。

Measuring the Gap Between Media Coverage and Public Information Demand: Evidence from the 2026 Lebanon Conflict

Mohamed Soufan

cs.CY cs.CL

本文通过分析2026年黎巴嫩冲突期间的新闻数据与谷歌搜索趋势，量化了媒体报道议程与公众信息需求之间的差异。研究发现，媒体过度关注军事冲突，而公众更持续地关心经济、生活条件和移民等议题。

Breaking Validity-Induced Boundaries to Expand Algorithm Search Space: A Two-Stage AST-Based Operator for LLM-Driven Automated Heuristic Evolution

Sun Shengming, Shi Jialong

cs.NE cs.AI

本文提出了一种基于抽象语法树(AST)的两阶段进化算子, 用于增强基于大语言模型(LLM)的自动化启发式设计(AHD). 该方法首先在AST结构上进行交叉和变异以探索搜索空间, 然后利用LLM修复生成无效代码, 从而在旅行商问题(TSP)和在线装箱问题(OBP)上提升了现有算法的性能和收敛速度.

Safety, Security, and Cognitive Risks in State-Space Models: A Systematic Threat Analysis with Spectral, Stateful, and Capacity Attacks

Manoj Parmar

cs.CR cs.AI cs.CL cs.LG math.OC

本文对State-Space Models (SSMs)的安全性进行了首次系统性分析，提出了一个包含五层的攻击面框架和三种新型攻击方法。研究还扩展了现有的攻击分类法，并针对高风险应用领域提出了治理相关的缓解措施。

Method for Aggregating Unstructured Data Using Large Language Models

Vsevolod Lazebnyi et al.

cs.DB cs.LG

本文提出了一种利用大型语言模型(LLMs)自动收集和聚合网络非结构化数据的方法. 该方法结合了混合网页抓取、非关系型数据库存储以及基于LLM的信息提取与规范化流程, 并通过一个两阶段验证过程来提高数据可靠性. 实验表明该方法对网页结构变化具有鲁棒性, 适用于新闻聚合和日志分析等近实时任务.

Quantifying how AI Panels improve precision

Nicholas CL Beale

cs.CY cs.AI cs.LG econ.EM

本文提出了一个简单的公式来量化由多个AI模型组成的评审团(panel)在筛选任务(如简历筛选)中的精度提升. 该公式将精度表示为AI数量$n$, 平均两两相关性$\rho$和选择分位数$q$的函数, 为决定使用多少个AI提供了量化依据.

Fuzzy Encoding-Decoding to Improve Spiking Q-Learning Performance in Autonomous Driving

Aref Ghoreishee et al.

cs.NE cs.LG

本文提出了一种用于自动驾驶的模糊编码-解码架构, 旨在改善基于视觉的多模态深度 spiking Q-network 的性能. 该方法通过可训练的模糊隶属函数生成更具表达力的脉冲表示, 并使用轻量级神经解码器从脉冲输出中重建连续的 Q 值, 在 HighwayEnv 基准测试中提升了决策精度.

Sampling Matters: The Effect of ECG Frequency on Deep Learning-Based Atrial Fibrillation Detection

Arjan Mahmuod et al.

eess.SP cs.AI cs.LG

本文研究了心电图(ECG)采样频率对基于深度学习的房颤(AF)检测模型性能的影响。通过系统性的基准测试，发现采样频率对模型性能有显著影响，且这种影响依赖于模型架构。

LatentMimic: Terrain-Adaptive Locomotion via Latent Space Imitation

Zhiquan Wang et al.

cs.RO cs.AI

本文提出了一种名为LatentMimic的四足机器人运动学习框架，旨在解决地形适应性与运动风格保真度之间的权衡问题。该方法通过解耦风格约束与几何约束，并利用动态重放缓冲区来适应不同地形，从而在多种地形上实现了有效的运动控制。

iPhoneme: Brain-to-Text Communication for ALS Using ConformerXL Decoding

Yoonmin Cha, Dawit Chun, Sung Park

cs.SD cs.AI cs.CL

本文提出了一种名为iPhoneme的脑机接口系统，用于帮助ALS患者进行脑到文本的通信。该系统结合了改进的ConformerXL深度学习模型和一个基于凝视的交互界面，在颅内脑电数据集上取得了较高的音素和单词识别准确率。

The Breakthrough of Sleep: A Contactless Approach for Accurate Sleep Stage Detection Using the Sleepal AI Lamp

Zhuo Diao et al.

eess.SP cs.AI cs.LG

本文评估了一种基于雷达的非接触式睡眠监测设备Sleepal AI Lamp的性能, 通过提取多尺度呼吸和运动特征并训练深度学习模型, 在睡眠分期任务上取得了与专业多导睡眠图(PSG)高度一致的结果. 该方法为无扰式长期睡眠监测提供了一种可行的技术方案.

Thermal-GEMs: Generalized Models for Building Thermal Dynamics

Felix Koch, Fabian Raisch, Benjamin Tischler

eess.SY cs.LG

本文评估了用于建筑热动力学建模的多源迁移学习和时间序列基础模型. 研究结果表明, 多源迁移学习模型在实际应用中表现优异, 但其性能优势依赖于足够多的源建筑数据进行预训练.

SAND: The Challenge on Speech Analysis for Neurodegenerative Disease Assessment

Giovanna Sannino et al.

eess.AS cs.AI cs.CV cs.LG

本文介绍了SAND挑战赛, 该挑战旨在利用语音信号作为生物标志物, 通过AI算法支持肌萎缩侧索硬化症(ALS)等神经退行性疾病的早期诊断和进展预测. 研究团队创建了一个临床标注的验证数据集, 并基于此发起了该挑战, 以促进相关AI模型的开发与评估.

A High-Accuracy Optical Music Recognition Method Based on Bottleneck Residual Convolutions

Junwen Ma et al.

cs.CV cs.LG cs.SD eess.AS

本文提出了一种基于bottleneck residual convolutions和BiGRU的端到端光学乐谱识别方法. 该方法在Camera-PrIMuS和PrIMuS数据集上取得了较低的序列错误率和符号错误率, 展现了较高的识别精度和计算效率.

FM-CAC: Carbon-Aware Control for Battery-Buffered Edge AI via Time-Series Foundation Models

Kang Yang et al.

eess.SY cs.LG

本文提出了一种名为FM-CAC的碳感知控制框架，用于优化边缘AI系统的能源使用。该框架结合了时间序列基础模型进行零样本碳强度预测，并通过动态规划联合优化软件、硬件和电池操作，以在保证服务质量的同时降低碳排放。实验表明，该方法能显著减少碳排放。

FairLogue: Evaluating Intersectional Fairness across Clinical Machine Learning Use Cases using the All of Us Research Program

Nick Souligne, Vignesh Subbian

cs.CY cs.LG q-bio.QM

本文介绍了FairLogue工具包，用于评估临床机器学习模型中的交叉公平性。研究通过All of Us数据集，在两个临床预测任务上进行了复制和评估，发现交叉分析比单轴分析揭示了更大的差异，但反事实诊断表明大部分差异与随机分组下的预期差异相当。

Deep Hierarchical Knowledge Loss for Fault Intensity Diagnosis

Yu Sha et al.

eess.AS cs.AI cs.CV cs.LG cs.SD +1

本文提出了一种用于故障强度诊断的深度层次知识损失框架, 通过引入层次树损失和分组树三元组损失来建模类别间的层次依赖关系. 在多个工业数据集上的实验表明, 该方法优于现有的先进方法.

Modelling Gas-Phase Reaction Kinetics with Guided Particle Diffusion Sampling

Andrew Millard, Zheng Zhao, Henrik Pedersen

physics.comp-ph cs.LG

本文探讨了将基于扩散先验的物理引导采样方法应用于由advection-reaction-diffusion方程控制的气相反应动力学问题. 该方法能够从稀疏观测中重建完整的时空轨迹, 并展现出对未见参数体系的泛化能力.

From Inheritance to Saturation: Disentangling the Evolution of Visual Redundancy for Architecture-Aware MLLM Inference Acceleration

Jiaqi Shi et al.

cs.CV cs.AI

本文提出了一种名为HalfV的框架, 用于加速高分辨率多模态大语言模型(MLLM)的推理. 该方法通过截断矩阵熵分析, 将视觉冗余分解为通用部分和架构依赖部分, 并采用分阶段剪枝策略来提升效率.

MLE-Toolbox: An Open-Source Toolbox for Comprehensive EEG and MEG Data Analysis

Xiaobo Liu

q-bio.NC cs.AI cs.SE

本文介绍了一个名为 MLE-Toolbox 的开源 MATLAB 工具箱，用于脑电图 (EEG) 和脑磁图 (MEG) 数据的端到端分析。它集成了从预处理到源定位、功能连接和机器学习分类的完整流程，并提供了图形用户界面和与其他主流神经影像平台的互操作性。

Horizon-Aware Forecasting of Passenger Assistance Demand for Rail Station Workforce Planning

Michael Sheehan, Irina Timoshenko

stat.AP cs.LG

本文提出了一种用于铁路车站乘客协助需求预测与人力规划的数据驱动决策支持框架. 该框架采用一种考虑预测时间范围的 Prophet 模型进行需求预测, 并通过一个可解释的风险评估框架将预测结果转化为人力配置方案. 实际应用表明, 该方法能有效提升预测精度并减少因人力不足导致的服务失败.

B-PASTE: Beam-Aware Pattern-Guided Speculative Execution for Resource-Constrained LLM Agents

Yanfei Song

cs.DC cs.AI

本文提出了一种名为B-PASTE的扩展方法，用于资源受限的LLM agents。该方法在推测未来工具调用时，考虑了分支假设和资源约束，旨在减少端到端延迟。

Semantic Channel Theory: Deductive Compression and Structural Fidelity for Multi-Agent Communication

Jianfeng Xu

cs.LO cs.AI cs.IT cs.MA

本文为多智能体语义通信建立了一个结合形式证明系统与Shannon信息论的严格框架。它定义了语义信道模型、多种语义失真度量以及信道不变量，并实例化了异构多智能体场景，分析了语义瓶颈现象。

Training Language Models for Bilateral Trade with Private Information

Dirk Bergemann et al.

cs.GT cs.AI cs.MA econ.GN econ.TH

本文构建了一个用于评估和训练LLM智能体的双边贸易谈判模拟环境. 通过基准测试和强化学习训练, 研究了不同模型在信息不完全条件下的谈判策略与表现.

Full Feature Spiking Neural Network Simulation on Micro-Controllers for Neuromorphic Applications at the Edge

L. Niedermeier, J. L. Krichmar

cs.AR cs.AI cs.NE

本文展示了SNN模拟器CARLsim能够在资源受限的MCU上运行其全部功能集。通过采用16位浮点数格式，在保持功能的同时显著降低了内存需求，并在低功耗下实现了实时模拟。

Spike-driven Large Language Model

Han Xu et al.

cs.NE cs.AI

本文提出了一种名为SDLLM的spike-driven large language model, 旨在将大脑的spiking-driven特性整合到LLM推理中, 以替代密集矩阵乘法. 通过使用gamma-SQP两步spike编码等方法, 该模型显著降低了推理能耗并提升了任务性能.

Latent-Compressed Variational Autoencoder for Video Diffusion Models

Jiarui Guan et al.

cs.CV cs.AI

本文提出了一种用于视频扩散模型的潜在压缩变分自编码器方法, 通过移除视频潜在表示中的高频分量而非直接减少通道数来提升性能. 实验表明该方法在保持压缩比的同时实现了更好的视频重建质量.

Erasing Thousands of Concepts: Towards Scalable and Practical Concept Erasure for Text-to-Image Diffusion Models

Hoigi Seo et al.

cs.CV cs.AI

本文提出了一种可扩展的文本到图像扩散模型概念擦除框架ETC. 该方法通过建模概念的低秩分布并训练一个基于Mixture-of-Experts的模块, 实现了对数千个概念的精确擦除, 同时保持了生成质量和对白盒攻击的鲁棒性.

Dynamic Eraser for Guided Concept Erasure in Diffusion Models

Qinghui Gong

cs.CV cs.AI

本文提出了一种无需训练的轻量级框架 Dynamic Semantic Steering (DSS), 用于在扩散模型中实现可控的概念擦除. 该方法通过建模敏感语义边界和利用 cross-attention 特征进行精确引导, 在有效抑制敏感内容的同时保持了生成图像的质量.

DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks

Yueci Deng, Guiliang Liu, Kui Jia

cs.CV cs.AI

本文提出了一种名为Causal Latent World Model (CLWM) 的新方法，用于提升具身任务学习的效率和鲁棒性。它通过使用DINOv3特征作为生成目标、设计恒定内存占用机制以及异步推理来优化世界模型的部署。

Saccade Attention Networks: Using Transfer Learning of Attention to Reduce Network Sizes

Marc Estafanous

cs.CV cs.AI cs.LG

本文提出了一种称为Saccade Attention Network的方法，通过从大型预训练模型中学习注意力位置来预处理图像，从而将输入序列长度减少到仅关注关键特征。该方法旨在减少Transformer网络因注意力矩阵的二次复杂度而产生的计算开销，实验表明可减少近80%的计算量并保持相似结果。

Aletheia: Physics-Conditioned Localized Artifact Attention (PhyLAA-X) for End-to-End Generalizable and Robust Deepfake Video Detection

Devendra Ghori

cs.CV cs.LG

本文提出了一种名为PhyLAA-X的物理条件化局部伪影注意力机制，用于端到端的深度伪造视频检测。该方法通过将光流、镜面反射和rPPG等物理特征注入注意力计算，并结合高效的时空集成模型，在多个基准数据集上取得了优异的性能，并表现出良好的跨生成器鲁棒性和对抗鲁棒性。

Geometry-Aware CLIP Retrieval via Local Cross-Modal Alignment and Steering

Nirmalendu Prakash et al.

cs.CV cs.AI

本文提出了一种通过局部跨模态对齐和引导来改进CLIP检索的方法. 该方法引入了基于邻域结构的重排序和查询条件化的局部引导, 旨在解决共享嵌入空间中局部几何不一致导致的检索错误. 实验表明, 这些技术能提升在属性绑定和组合检索任务上的性能.

An Uncertainty-Aware Loss Function Incorporating Fuzzy Logic: Application to MRI Brain Image Segmentation

Hanuman Verma et al.

cs.CV cs.AI cs.LG

本文提出了一种结合模糊逻辑的新型损失函数, 用于处理MRI脑图像分割中的不确定性. 该函数融合了分类交叉熵和模糊熵, 并在U-Net等架构上验证了其有效性.

A Lightweight Transformer for Pain Recognition from Brain Activity

Stefanos Gkikas et al.

cs.CV cs.AI

本文提出了一种用于从脑活动识别疼痛的轻量级Transformer模型. 该模型通过统一的token化机制融合多种fNIRS信号表示, 在保持计算紧凑性的同时实现了有竞争力的性能.

LayerCache: Exploiting Layer-wise Velocity Heterogeneity for Efficient Flow Matching Inference

Guandong Li

cs.CV cs.AI

本文提出了一种名为LayerCache的层感知缓存框架, 用于加速Flow Matching模型的推理. 该方法通过观测Transformer不同层组的速度异质性, 对层组进行独立缓存决策, 并引入自适应JVP跨度选择机制来平衡精度与计算开销. 实验表明, 该方法在图像生成质量指标上显著优于现有缓存方法, 并实现了推理加速.

NL2SQLBench: A Modular Benchmarking Framework for LLM-Enabled NL2SQL Solutions

Shizheng Hou et al.

cs.DB cs.AI cs.CL cs.LG

本文提出了一个名为NL2SQLBench的模块化评估框架, 用于系统评测基于LLM的NL2SQL方法. 该框架将NL2SQL系统分解为三个核心模块, 并设计了细粒度的评估指标, 通过实验揭示了现有方法在准确性和效率上的不足, 并指出了当前基准数据集存在的问题.

Gradient-Free Continual Learning in Spiking Neural Networks via Inter-Spike Interval Regularization

Samrendra Roy et al.

cs.NE cs.AI cs.LG

本文提出了一种用于Spiking Neural Networks (SNNs) 持续学习的无梯度突触重要性度量方法ISI-CV。该方法基于Inter-Spike Intervals (ISIs)的变异系数来识别和保护编码稳定特征的神经元，从而缓解灾难性遗忘。实验表明，该方法在多个基准测试上实现了接近零的遗忘，并且其计算特性天然适配神经形态硬件。

Forge-UGC: FX optimization and register-graph engine for universal graph compiler

Satyam Kumar, Saurabh Jha

cs.AR cs.AI cs.DC

本文提出了一个名为 Forge-UGC 的编译器，用于在异构加速器硬件上部署 transformer 模型。它通过一个包含四个阶段的硬件无关设计，改进了现有框架在编译管道可见性和缓冲区管理方面的不足，从而提升了编译速度并降低了推理延迟与能耗。

HQA-VLAttack: Towards High Quality Adversarial Attack on Vision-Language Pre-Trained Models

Han Liu et al.

cs.CV cs.AI

本文提出了一种针对vision-language预训练模型的黑盒对抗攻击方法HQA-VLAttack. 该方法通过文本和图像两阶段攻击, 在保证语义一致性的同时优化对抗扰动, 以提高攻击成功率.

Motif-Video 2B: Technical Report

Junghwan Lim et al.

cs.CV cs.AI

本文提出了一种名为Motif-Video 2B的高效文本到视频生成模型. 它通过架构分离(Shared Cross-Attention和三分支主干网络)和高效的训练策略, 在远少于同类模型的参数量和训练数据下, 取得了有竞争力的视频生成质量.

From Handwriting to Structured Data: Benchmarking AI Digitisation of Handwritten Forms

Nicholas Pather et al.

cs.CV cs.LG

本文对17种前沿多模态大语言模型在复杂手写医疗表单数字化任务上的性能进行了基准测试. 结果表明, 最新的Google和OpenAI模型在具有挑战性的数据上能达到约85%的准确率, 并且提示优化能显著提升部分性能指标.

Predicting Blastocyst Formation in IVF: Integrating DINOv2 and Attention-Based LSTM on Time-Lapse Embryo Images

Zahra Asghari Varzaneh et al.

cs.CV cs.AI cs.LG

本文提出了一种结合DINOv2视觉模型与带有多头注意力层的LSTM网络的混合模型，用于从有限的胚胎延时图像中预测囊胚形成。该模型在真实数据集上取得了高准确率，并能处理图像帧缺失的情况，有助于辅助胚胎学家进行选择。

Medical thinking with multiple images

Zonghai Yao et al.

cs.CV cs.CL

本文提出了一个名为MedThinkVQA的专家标注基准，用于评估模型在需要整合多张医学图像证据的临床推理任务上的表现。该基准包含大量多图像病例，测试显示当前最先进的模型在此任务上准确率仍然有限，主要瓶颈在于跨视图证据的可靠提取与对齐。

Learning-Based Sparsification of Dynamic Graphs in Robotic Exploration Algorithms

Adithya V. Sastry, Bibek Poudel, Weizi Li

cs.RO cs.LG

本文提出了一种基于transformer和PPO强化学习的框架, 用于在机器人探索过程中对动态增长的图结构进行剪枝. 该方法在基于RRT的前沿探索仿真中, 能将图规模减少高达96%, 并产生更稳定的探索轨迹.

SQL Query Engine: A Self-Healing LLM Pipeline for Natural Language to PostgreSQL Translation

Muhammad Adeel Ijaz

cs.DB cs.CL

本文介绍了一个名为SQL Query Engine的开源系统, 它使用一个两阶段的LLM pipeline将自然语言问题转换为经过验证的PostgreSQL查询. 该系统通过一个包含错误诊断和自修复的循环来处理查询失败, 并在多个基准测试中展示了其有效性.

Medial Axis Aware Learning of Signed Distance Functions

Samuel Weidemaier, Christoph Norden-Smoch, Martin Rumpf

cs.CV cs.CG cs.GR cs.LG math.NA

本文提出了一种变分方法, 通过显式考虑 medial axis 来从点云计算高精度的全局 signed distance function (SDF). 该方法采用 Ambrosio-Tortorelli 类型的 phase field 近似, 并使用神经网络对 SDF 和 phase field 进行参数化. 实验表明该方法在近场和全局都具有较高的精度.

SynthPID: P&ID digitization from Topology-Preserving Synthetic Data

Suraj Prasad, Pinak Mahapatra

cs.CV cs.LG

本文提出了一种基于拓扑保持合成数据的P&ID数字化方法SynthPID. 该方法通过从真实图纸中提取管道拓扑来生成合成数据, 并配合改进的Relationformer模型进行训练, 在未见真实数据的情况下取得了接近真实数据训练的边检测性能.

BARD: Bridging AutoRegressive and Diffusion Vision-Language Models Via Highly Efficient Progressive Block Merging and Stage-Wise Distillation

Baoyou Chen et al.

cs.CV cs.LG

本文提出了一种名为BARD的框架, 用于将预训练的autoregressive vision-language model (VLM) 高效地转换为具有相同架构但解码效率更高的大型块扩散VLM (dVLM). 该方法结合了渐进式块合并和阶段内蒸馏, 在有限数据下实现了从源模型到目标模型的性能迁移和显著的解码加速.

Penny Wise, Pixel Foolish: Bypassing Price Constraints in Multimodal Agents via Visual Adversarial Perturbations

Jiachen Qian, Zhaolu Kang

cs.CV cs.CR cs.LG

本文提出了一种针对多模态智能体的视觉对抗攻击方法 PriceBlind, 该方法通过引入 Semantic-Decoupling Loss 来利用 CLIP 编码器中的模态间隙, 从而在基于截图的购物场景中诱导模型做出违反价格约束的非理性决策. 实验表明该攻击在白盒设定下成功率较高, 并能部分迁移到其他商业模型, 同时研究也探讨了相应的防御策略及其在准确率上的权衡.

Operationalizing Fairness in Text-to-Image Models: A Survey of Bias, Fairness Audits and Mitigation Strategies

Megan Smith et al.

cs.CV cs.LG cs.MM

本文对文本到图像生成模型中的公平性研究进行了系统性综述。文章梳理了该领域的核心概念，并评估了不同缓解策略的现状。

SmoGVLM: A Small, Graph-enhanced Vision-Language Model

Debjyoti Mondal, Rituraj Singh, Subhadarshi Panda

cs.CV cs.CL

本文提出了一种名为SmoGVLM的小型、图增强视觉语言模型，通过集成结构化知识来改善多模态推理。该方法利用图神经网络，使小型模型在性能上能超越更大的模型。

On-Orbit Space AI: Federated, Multi-Agent, and Collaborative Algorithms for Satellite Constellations

Ziyang Wang

cs.RO astro-ph.IM cs.AI

本文是一篇关于星载空间人工智能的综述, 主要整合了联邦学习、多智能体算法和协同感知与分布式推理这三种范式, 以应对卫星星座自主运行带来的算法挑战. 文章提供了一个系统级的视角和分类法, 旨在统一协作架构、时序机制和信任模型.

CAMP: Cumulative Agentic Masking and Pruning for Privacy Protection in Multi-Turn LLM Conversations

Aman Panjwani

cs.CR cs.AI

本文提出了CAMP框架, 用于保护多轮LLM对话中的隐私. 它通过维护会话级的PII注册表和计算累积暴露分数, 解决了现有逐轮掩码方法无法防范跨轮次信息聚合导致的再识别风险.

Expert-Annotated Embryo Image Dataset with Natural Language Descriptions for Evidence-Based Patient Communication in IVF

Nicklas Neu et al.

cs.CV cs.AI

本文提出了一个由专家标注的胚胎图像数据集, 包含自然语言描述的形态学特征. 该数据集可用于微调视觉-语言基础模型, 以支持基于证据的、可解释的自动化胚胎评估, 从而辅助临床决策和患者沟通.

Scaling Test-Time Compute for Agentic Coding

Joongwon Kim et al.

cs.SE cs.AI cs.CL

本文针对长周期编码智能体在测试时扩展的挑战, 提出了一种基于轨迹摘要的框架. 该框架通过压缩表示轨迹, 并利用递归锦标赛投票和并行蒸馏精炼方法, 提升了智能体在代码生成任务上的性能.

Beyond Attack Success Rate: A Multi-Metric Evaluation of Adversarial Transferability in Medical Imaging Models

Emily Curl et al.

cs.CV cs.AI

本文通过多指标评估框架，分析了医学影像模型中对抗样本的可迁移性。研究发现，仅依赖攻击成功率(ASR)不足以全面评估对抗鲁棒性，需要结合感知质量与失真度量。

Public and private blockchain for decentralized digital building twins and building automation system

Reachsak Ly, Alireza Shojaei

cs.CR cs.AI cs.MA

本文提出了一种基于区块链的去中心化协议, 用于增强数字孪生中IoT数据传输的网络弹性, 并实现建筑运营的分散自动化. 该框架结合了公有和私有区块链技术, 并通过两个原型案例在真实建筑环境中进行了验证, 评估了性能、可扩展性、数据安全与隐私.

Robustifying and Selecting Cohort-Appropriate Prognostic Models under Distributional Shifts

Dimitris Bertsimas et al.

stat.ME cs.AI stat.AP

本文研究了预后模型在分布偏移下的鲁棒性与选择问题。作者通过分析真实世界的外科队列数据，发现外部校准效果会随分布不匹配程度的增加而恶化。研究从模型开发者和终端用户两个角度，分别提出了通过元分析加权来训练模型，以及通过衡量队列相似性来选择合适的已发布模型的方法。

Understanding Tool-Augmented Agents for Lean Formalization: A Factorial Analysis

Ke Zhang et al.

cs.SE cs.AI cs.LG cs.PL

本文通过析因分析研究了工具增强智能体在将自然语言数学翻译为 Lean 4 代码任务中的有效性。它评估了微调模型查询、知识搜索和编译器反馈三类工具对提升代码编译成功率和语义保真度的贡献。

PoInit-of-View: Poisoning Initialization of Views Transfers Across Multiple 3D Reconstruction Systems

Weijie Wang et al.

cs.CV cs.AI

本文提出了一种针对3D重建系统初始化阶段的对抗性攻击方法. 该方法通过引入跨视角的梯度不一致性来破坏SfM模块, 从而在多种重建系统间实现可迁移的攻击效果.

TWGuard: A Case Study of LLM Safety Guardrails for Localized Linguistic Contexts

Hua-Rong Chu, Kuan-Chun Wang, Yao-Te Huang

cs.CR cs.CL

本文针对大语言模型安全护栏在特定语言文化背景下的性能不足问题, 提出了一种针对目标语言上下文优化护栏模型的方法. 该方法通过利用针对台湾语言特点定制的数据集进行优化, 构建了TWGuard模型, 在减少误报率方面相比基线模型有显著提升.

A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic Sovereignty

Zehao Lin, Chunyu Li, Kai Chen

cs.CR cs.AI cs.CL

本文是一篇关于LLM智能体长期记忆安全性的综述。文章提出了一个基于记忆生命周期的安全分析框架, 并指出当前研究在记忆的机密性、可用性及治理等方面仍存在不足。

Co-generation of Layout and Shape from Text via Autoregressive 3D Diffusion

Zhenggang Tang et al.

cs.CV cs.AI

本文提出了一种顺序文本到场景生成的新范式, 并引入了一个用于交互式场景创建的生成模型. 其核心是一个3D自回归扩散模型(3D-ARD+), 它统一了多模态token序列的自回归生成和下一个物体3D潜在向量的扩散生成.

PA-TCNet: Pathology-Aware Temporal Calibration with Physiology-Guided Target Refinement for Cross-Subject Motor Imagery EEG Decoding in Stroke Patients

Xiangkai Wang et al.

cs.CV cs.AI

本文提出了一种用于中风患者运动想象脑电信号跨被试解码的病理感知时序校准网络. 该方法通过分解脑电信号的节律状态并施加生理一致性约束, 提升了模型在存在病理慢波活动时的泛化性能.

SpecPylot: Python Specification Generation using Large Language Models

Ragib Shahariar Ayon, Shibbir Ahmed

cs.SE cs.AI cs.ET

本文介绍了一个名为SpecPylot的Python工具，它利用大型语言模型(LLMs)为Python代码生成可执行的规范(作为icontract注解)，并通过crosshair的符号执行进行验证。该工具能够生成与验证器兼容的契约，但其有效性受到符号执行范围限制和LLM行为差异的影响。

See Through the Noise: Improving Domain Generalization in Gaze Estimation

Yanming Peng et al.

cs.CV cs.AI

本文提出了一种名为See-Through-Noise (SeeTN)的框架，旨在解决视线估计任务中标签噪声对模型泛化性能的负面影响。该方法通过构建语义嵌入空间和亲和力正则化来区分并处理噪声样本，从而提升跨域泛化能力。

Classification of systolic murmurs in heart sounds using multiresolution complex Gabor dictionary and vision transformer

Mahmoud Fakhry, Abeer FathAllah Brery

cs.CV cs.AI

本文提出了一种基于多分辨率复Gabor字典和Vision Transformer的心脏杂音自动分类系统。该系统通过特征提取和分类模型，在CirCor DigiScope数据集上实现了较高的分类准确率。

Multilevel neural networks with dual-stage feature fusion for human activity recognition

Abeer FathAllah Brery et al.

cs.CV cs.AI

本文提出了一种用于人类活动识别(HAR)的双层级神经网络架构，该架构结合了晚期融合与中间融合两种特征融合策略。通过在两个公开数据集上评估多种网络组合，验证了该融合方法的有效性。

Camo-M3FD: A New Benchmark Dataset for Cross-Spectral Camouflaged Pedestrian Detection

Henry O. Velesaca et al.

cs.CV cs.AI

本文提出了一个用于跨光谱伪装行人检测的新基准数据集 Camo-M3FD, 该数据集基于 M3FD 构建, 包含配准的可见光-热红外图像对. 作者通过定量指标筛选数据以确保高伪装度, 并提供了像素级标注和评估框架, 结果表明多光谱融合对于提升检测性能至关重要.

Certified Program Synthesis with a Multi-Modal Verifier

Yueyang Feng et al.

cs.SE cs.AI cs.PL

本文提出了一种名为LeetProof的认证程序综合工作流, 它围绕一个多模态验证器构建. 该方法通过结合动态测试、自动证明和交互式证明脚本来改进规范生成和验证过程, 并在现有基准测试上展示了更高的完全认证解决方案生成率.

Real-Time Visual Attribution Streaming in Thinking Model

Seil Kang et al.

cs.CV cs.AI

本文提出了一种用于多模态思维模型中实时视觉归因流式传输的摊销框架. 该方法通过学习从注意力特征中直接估计语义区域的因果效应, 在多个基准测试和模型上实现了与计算密集型因果方法相当的忠实度, 同时支持在模型推理过程中实时展示归因证据.

MambaKick: Early Penalty Direction Prediction from HAR Embeddings

Henry O. Velesaca et al.

cs.CV cs.AI

本文提出了一种基于预训练HAR嵌入和Mamba模型的罚球方向预测框架, 通过利用接触点前后的短视频片段和轻量级时序预测器来提前预测射门方向. 该方法避免了显式的运动学重建, 并结合了简单的上下文元数据, 在多个HAR骨干网络上取得了优于基线的性能.

Human Cognition in Machines: A Unified Perspective of World Models

Timothy Rupprecht et al.

cs.RO cs.AI cs.CV cs.ET

本文提出了一个用于评估和分类世界模型(world models)的统一认知框架, 该框架基于认知架构理论(Cognitive Architecture Theory, CAT), 涵盖了记忆、感知、语言、推理、想象、动机和元认知等认知功能. 报告分析了现有研究的不足, 特别指出动机(尤其是内在动机)和元认知领域的研究匮乏, 并基于主动推理(active inference)和全局工作空间理论(global workspace theory)提出了未来研究方向, 同时引入了用于科学发现的结构化知识代理框架——认知世界模型(Epistemic World Models).

SafeLM: Unified Privacy-Aware Optimization for Trustworthy Federated Large Language Models

Noor Islam S. Mohammad, Uluğ Bayazıt

cs.CR cs.LG

本文提出了一个名为SafeLM的统一框架, 旨在联合解决联邦大语言模型(LLM)中的隐私、安全、错误信息和对抗鲁棒性等安全挑战. 该框架结合了联邦训练、梯度智能化和Paillier加密等多种技术, 在多个基准测试中展示了其在有害内容检测、通信效率提升和隐私保护方面的有效性.

Fairness Constraints in High-Dimensional Generalized Linear Models

Yixiao Lin, James Booth

stat.ML cs.LG

本文提出了一种在高维广义线性模型中处理公平性约束的框架. 该方法通过从辅助特征推断敏感属性, 并将公平性约束整合到模型训练中, 以在保护隐私的同时减轻模型偏见.

A Two-Stage Multi-Modal MRI Framework for Lifespan Brain Age Prediction

Dingyi Zhang, Ruiying Liu, Yun Wang

eess.IV cs.AI cs.CV

本文提出了一种用于全生命周期脑年龄预测的两阶段多模态MRI框架. 该模型通过独立处理模态并进行后期融合, 先对发育阶段进行分类, 再在预测的阶段内进行年龄估计.

ReconVLA: An Uncertainty-Guided and Failure-Aware Vision-Language-Action Framework for Robotic Control

Lingling Chen, Zongyao Lyu, William J. Beksi

cs.RO cs.AI

本文提出了一种名为ReconVLA的可靠机器人控制框架，它通过conformal prediction方法为预训练的vision-language-action模型生成具有校准不确定性的动作预测。该框架在动作层面和状态层面提供不确定性估计，以预测执行失败并减少严重错误，无需重新训练基础模型。

KAIROS: Stateful, Context-Aware Power-Efficient Agentic Inference Serving

Yichao Yuan, Mosharaf Chowdhury, Nishil Talati

cs.DC cs.AI

本文提出了一种面向智能体AI推理服务的上下文感知节能系统KAIROS. 它通过联合管理GPU频率、并发度和请求放置来优化功耗, 在满足性能目标的同时平均降低了27%的功耗.

Rewind-IL: Online Failure Detection and State Respawning for Imitation Learning

Gehan Zheng et al.

cs.RO cs.AI cs.CV

本文提出了一种名为Rewind-IL的在线安全框架，用于提升模仿学习策略的可靠性。它结合了无需训练的错误检测器和基于语义验证的状态回滚机制，以应对长时程任务中的执行失败问题。

LOD-Net: Locality-Aware 3D Object Detection Using Multi-Scale Transformer Network

Mustaqeem Khan et al.

cs.CV cs.AI eess.IV

本文提出了一种新颖的 Multi-Scale Attention (MSA) 机制，并将其集成到 3DETR 架构中，以改进点云中的 3D 物体检测。该方法通过上采样操作生成高分辨率特征图，在 ScanNetv2 数据集上取得了优于基线的性能。

Surgical Repair of Insecure Code Generation in LLMs

Gustavo Sandoval, Brendan Dolan-Gavitt, Siddharth Garg

cs.CR cs.LG

本文探讨了大型语言模型(LLM)生成不安全代码的现象, 并指出这并非知识缺陷, 而是存在一种"格式可靠性差距". 通过机制分析, 作者发现安全相关的表征在模型早期层就已编码, 但在最终层才被激活, 并与格式合规性需求产生竞争. 基于此, 他们提出了一种针对特定漏洞的"转向向量"方法, 能在最后一层进行干预, 有效减少了不安全代码的生成.

Scalable and Adaptive Parallel Training of Graph Transformer on Large Graphs

Jun-Liang Lin, Kamesh Madduri, Mahmut Taylan Kandemir

cs.DC cs.AI cs.LG

本文提出了一种用于graph transformer的分布式训练框架, 该框架能根据图结构和硬件配置自动选择并行化策略. 通过实现分布式稀疏操作, 该框架在大型图基准测试上实现了显著的加速和内存消耗降低.

FliX: Flipped-Indexing for Scalable GPU Queries and Updates

Rosina Kharal et al.

cs.DB cs.DC cs.DS cs.ET

本文提出了一种名为FliX的、用于GPU上完全驻留的动态并发数据结构的新索引范式。它通过将计算资源分配给数据层中的桶，并让每个桶在操作批次中定位其负责的操作，从而避免了传统索引层的维护和遍历开销。实验表明，该方法在查询延迟、吞吐量和内存效率方面显著优于现有的GPU有序和无序数据结构。

Agentic Large Language Models for Training-Free Neuro-Radiological Image Analysis

Ayhan Can Erdur et al.

cs.CV cs.AI

本文提出了一种无需训练的智能体框架, 用于自动化脑部MRI分析. 该框架利用大型语言模型(LLM)协调外部工具, 执行从预处理到病理分割和体积分析等复杂工作流, 并在多个任务上进行了评估.

Reducing Peak Memory Usage for Modern Multimodal Large Language Model Pipelines

Junwan Kim, Hyunkyung Bae

cs.CV cs.AI

本文提出了一种顺序输入压缩机制, 通过在执行prefill阶段进行结构感知的KV cache压缩来强制执行固定的内存预算. 该方法显著降低了多模态大语言模型推理时的峰值内存使用, 同时保持了生成性能.

TriTS: Time Series Forecasting from a Multimodal Perspective

Xiang Ao

cs.CV cs.AI

本文提出了一种名为TriTS的跨模态解缠框架, 用于长期时间序列预测. 该方法通过将一维时间序列投影到正交的时间, 频率和二维视觉模态, 并引入Period-Aware Reshaping策略和Visual Mamba来高效建模, 在多个基准数据集上取得了先进的性能.

ICLAD: In-Context Learning with Comparison-Guidance for Audio Deepfake Detection

Benjamin Chou, Yi Zhu, Surya Koppisetti

cs.SD cs.CL eess.AS

本文提出了一种基于上下文学习和比较引导的音频深度伪造检测框架ICLAD. 该框架利用音频语言模型进行无需训练的泛化, 并通过路由机制与专用检测器协同工作, 在野外数据集上提升了检测性能.

Mitigating Prompt-Induced Cognitive Biases in General-Purpose AI for Software Engineering

Francesco Sovrano, Gabriele Dominici, Alberto Bacchelli

cs.SE cs.AI

本文研究了在软件工程决策支持中, 通用人工智能系统因提示词措辞引发的认知偏差问题. 作者提出了一个动态基准测试方法, 并测试了多种提示工程技术, 发现一种结合明确化最佳实践和注入公理化推理线索的端到端方法能有效降低偏差敏感性.

Frozen Vision Transformers for Dense Prediction on Small Datasets: A Case Study in Arrow Localization

Maxwell Shepherd

cs.CV cs.AI cs.LG

本文提出了一种用于小数据集上密集预测任务的系统, 核心是使用冻结的预训练视觉Transformer (DINOv3) 结合引导特征上采样来恢复空间精度. 该系统在箭靶箭孔定位任务上, 仅用少量标注数据就达到了与全监督方法相当的性能.

CapSeal: Capability-Sealed Secret Mediation for Secure Agent Execution

Shutong Jin, Ruiyi Guo, Ray C. C. Cheung

cs.CR cs.AI

本文提出了一种名为CapSeal的安全架构，用于在AI agent执行过程中保护密钥等秘密信息。该架构通过一个本地可信代理来约束对秘密的访问，以防止信息泄露和滥用。

Mapping Election Toxicity on Social Media across Issue, Ideology, and Psychosocial Dimensions

Lei Cao et al.

cs.SI cs.CL cs.CY

本文通过分析2024年美国总统大选期间社交媒体X上的大规模数据，研究了政治言论的毒性在不同议题、意识形态和心理社会维度上的分布。研究发现，毒性的表现高度依赖于具体议题和语境，身份相关议题的毒性最强，且党派性内容通常比中性内容更具危害性。

The Reliance Negotiation Framework: A Dynamic Process Model of Student LLM Engagement in Academic Writing

Shahin Hossain

cs.CY cs.AI cs.HC

本文提出了一个名为"Reliance Negotiation Framework (RNF)"的动态过程模型，用于描述学生在学术写作中使用大语言模型(LLMs)的持续协商过程。该框架基于一项混合方法研究，将LLM依赖视为多种输入因素持续互动的结果，并提出了一个包含"双模型架构"的理论模型。

Q-SINDy: Quantum-Kernel Sparse Identification of Nonlinear Dynamics with Provable Coefficient Debiasing

Samrendra Roy, Syed Bahauddin Alam

quant-ph cs.LG

本文提出了一种结合量子特征映射与稀疏识别非线性动力学(SINDy)的方法Q-SINDy, 并发现了一种名为“系数吞噬”的特定失效模式. 通过理论推导, 作者证明了在拟合时对量子特征进行正交化处理可以精确消除这种偏差, 并在多个经典动力学系统和量子特征映射架构上进行了数值验证.

FairNVT: Improving Fairness via Noise Injection in Vision Transformers

Qiaoyue Tang et al.

cs.CV cs.AI cs.LG

本文提出了一种名为FairNVT的轻量级去偏框架, 用于改进预训练Vision Transformer的公平性. 该方法通过学习任务相关和敏感属性的embedding, 并对敏感embedding注入校准的高斯噪声, 结合正交性约束和公平性正则化, 在保持任务准确性的同时提升了表示层面和预测层面的公平性.

Bridging Coarse and Fine Recognition: A Hybrid Approach for Open-Ended Multi-Granularity Object Recognition in Interactive Educational Games

Hanling Yi et al.

cs.CV cs.AI

本文提出了一种结合MLLM和CLIP的混合框架HyMOR，用于解决开放域多粒度物体识别问题。该框架在教科书图像数据集上进行了评估，在细粒度识别和通用识别任务上均取得了性能提升。

Bias in the Loop: Auditing LLM-as-a-Judge for Software Engineering

Zixiao Zhao, Amirreza Esmaeili, Fatemeh Fard

cs.SE cs.AI

本文通过实验测量方法, 研究了在代码生成、修复和测试生成任务中使用LLM作为评判者时存在的偏见问题. 研究发现, 提示词(prompt)的微小改动会显著影响评判结果, 这威胁到代码评估的有效性和可复现性.

A Mechanism Study of Delayed Loss Spikes in Batch-Normalized Linear Models

Peifeng Gao et al.

stat.ML cs.LG math.OC

本文通过分析 batch-normalized linear models, 特别是 whitened square-loss linear regression, 研究了训练中损失延迟尖峰的一种可能机制. 研究结果表明, normalization 可以通过在稳定下降过程中逐渐增大有效学习率来推迟不稳定性, 这为理解神经网络训练中的特定现象提供了一个简化的理论视角.

Scalable Quantum Error Mitigation with Physically Informed Graph Neural Networks

Huaxin Wang et al.

quant-ph cs.LG

本文提出了一种基于物理信息图神经网络的量子误差缓解框架(GEM). 它将量子电路编码为属性图, 利用硬件噪声参数作为节点和边的特征, 通过图神经网络建模误差传播, 并应用双分支仿射校正. 实验表明, 该方法在扩展到更大系统时, 比传统全局回归方法具有更好的可扩展性和泛化能力.

Hierarchical Vision Transformer Enhanced by Graph Convolutional Network for Image Classification

Haibin Jiao

cs.CV cs.AI

本文提出了一种结合Hierarchical Vision Transformer与Graph Convolutional Network的GCN-HViT模型用于图像分类. 该模型旨在通过分层结构整合不同尺度的图像块(patch)信息, 并利用GCN捕获局部特征以补充Transformer的全局注意力机制. 实验表明该方法在多个数据集上取得了先进的性能.

SafeDream: Safety World Model for Proactive Early Jailbreak Detection

Bo Yan et al.

cs.CR cs.AI

本文提出了一个名为SAFEDREAM的轻量级框架, 用于在多轮对话中主动且早期地检测针对大型语言模型(LLM)的越狱攻击. 该方法作为一个外部模块运行, 无需修改LLM权重, 通过一个安全状态世界模型来预测对话中安全风险的演变, 并结合累积和(CUSUM)检测与对比想象技术, 在模型生成有害内容前发出警报.

Towards Deep Encrypted Training: Low-Latency, Memory-Efficient, and High-Throughput Inference for Privacy-Preserving Neural Networks

Nges Brian Njungle, Eric Jahns, Michel A. Kinsy

cs.CR cs.LG

本文针对同态加密(HE)下神经网络批量推理效率低的问题, 提出了优化的算法和流水线架构. 在ResNet-20和ResNet-34模型上的实验表明, 该方法在运行时间和内存使用上相比现有技术有显著提升.

Lorentz Framework for Semantic Segmentation

Zahid Hasan, Masud Ahmed, Nirmalya Roy

cs.CV cs.AI cs.LG

本文提出了一种在双曲Lorentz模型中进行语义分割的新框架, 解决了Poincaré球模型存在的数值不稳定和优化难题. 该方法利用文本嵌入引导像素级表示, 无需Riemannian优化器即可稳定训练, 并能与现有欧几里得架构集成, 在多个数据集上验证了其有效性.

enclawed: A Configurable, Sector-Neutral Hardening Framework for Single-User AI Assistant Gateways

Alfredo Metere

cs.CR cs.AI cs.MA

本文提出了一个名为enclawed的加固框架, 用于增强OpenClaw单用户AI助手网关的安全性. 该框架提供了可配置的模块签名验证, 审计追踪和访问控制等功能, 主要面向金融, 医疗等受监管行业的部署场景.

When Earth Foundation Models Meet Diffusion: An Application to Land Surface Temperature Super-Resolution

Yiheng Chen et al.

cs.CV cs.LG

本文提出了一种名为EFDiff的新框架, 用于处理极端空间降级下的地表温度超分辨率问题. 该框架利用预训练的地球基础模型编码高分辨率多光谱反射率数据, 并通过cross-attention机制引导扩散模型从严重退化的观测中进行精细尺度重建.

Singularity Formation: Synergy in Theoretical, Numerical and Machine Learning Approaches

Yixuan Wang

math.NA cs.LG math.AP

本文综合运用理论分析、数值模拟和机器学习方法研究偏微分方程中的奇点形成问题. 针对Navier-Stokes方程等复杂问题, 作者改进了PINN, Neural Operator等框架, 并引入了一种新的Kolmogorov-Arnold Network架构以增强对潜在爆破解的识别和刻画能力.

TowerDataset: A Heterogeneous Benchmark for Transmission Corridor Segmentation with a Global-Local Fusion Framework

Xu Cui et al.

cs.CV cs.AI

本文提出了一个用于输电走廊点云细粒度语义分割的异构基准数据集 TowerDataset, 并设计了一个全局-局部融合框架. 该数据集包含大量真实场景点云和细粒度类别标注, 而所提框架通过整合全局场景信息和局部几何细节来提升分割性能.

Refinement of Accelerated Demonstrations via Incremental Iterative Reference Learning Control for Fast Contact-Rich Imitation Learning

Koki Yamane et al.

cs.RO cs.AI eess.SY

本文提出了一种名为 Incremental Iterative Reference Learning Control (I2RLC) 的方法，用于改进加速后的接触式操作演示轨迹。该方法通过逐步提高速度并迭代更新参考轨迹，以减少跟踪误差并保持轨迹保真度。实验在真实机器人上进行，验证了该方法能生成更高质量的快速演示，并用于训练模仿学习策略。

Extraction of informative statistical features in the problem of forecasting time series generated by It{ô}-type processes

Victor Korolev et al.

stat.ML cs.LG math.PR

本文针对由Itô过程生成的时间序列预测问题, 提出了一种从序列本身提取信息性统计特征的方法. 该方法基于对Itô方程中未知随机漂移和扩散系数的统计重建, 通过均匀和非均匀技术获得两类特征参数, 并证明这些特征能提升简单自回归预测模型的性能.

Governed MCP: Kernel-Level Tool Governance for AI Agents via Logit-Based Safety Primitives

Daeyeon Son

cs.CR cs.AI cs.OS

本文提出了一种名为Governed MCP的、位于操作系统内核层的AI代理工具调用治理方案。该方案基于一个名为ProbeLogits的logit安全原语，构建了一个包含六层检查的调用拦截管道，旨在从系统层面强制实施安全策略，防止用户空间的绕过。作者在Anima OS中实现了该原型，并通过实验表明其核心的语义检查层对于维持安全检测的有效性至关重要。

EasyVideoR1: Easier RL for Video Understanding

Chuanyu Qin et al.

cs.CV cs.LG

本文提出了一个专门用于视频理解任务的强化学习框架 EasyVideoR1. 该框架通过离线预处理与张量缓存等技术优化了训练流程, 并设计了一个覆盖多种视频与图像任务类型的综合奖励系统.

Physics-Informed Tracking (PIT)

Emil Hovad, Allan Peter Engsig-Karup

cs.CV cs.AI

本文提出了一种结合神经网络与物理约束的单粒子视频追踪框架. 该框架通过自编码器定位粒子, 并利用嵌入的可微分物理模块来约束轨迹, 使其符合已知动力学.

ProtoCycle: Reflective Tool-Augmented Planning for Text-Guided Protein Design

Yutang Ge et al.

q-bio.QM cs.AI

本文提出了一个名为ProtoCycle的智能体框架, 用于文本引导的蛋白质设计. 该框架通过结合LLM规划器与轻量级工具环境, 并利用基于工具反馈的反思来修订计划, 旨在弥合文本规划与蛋白质序列生成之间的差距.

Exact Subquadratic Algorithm for Many-to-Many Matching on Planar Point Sets with Integer Coordinates

Seongbin Park, Eunjin Oh

cs.CG cs.DS

本文针对具有整数坐标的平面点集上的多对多匹配问题, 提出了一种精确的亚二次方时间算法. 该算法的时间复杂度为 $\tilde{O}(n^{1.5} \log \Delta)$, 优于已知的 $\tilde{O}(n^2)$ 算法.

CoGR-MoE: Concept-Guided Expert Routing with Consistent Selection and Flexible Reasoning for Visual Question Answering

Xiyin Zeng, Yi Lu, Hao Wang

cs.CV cs.AI

本文提出了一种用于视觉问答(VQA)的概念引导专家路由框架(CoGR-MoE). 该框架通过引入答案选项的语义来引导专家选择, 并利用对比学习优化选项级表示, 在多个VQA任务上取得了良好性能.

Neighbor Embedding for High-Dimensional Sparse Poisson Data

Noga Mudrik, Adam S. Charles

stat.ML cs.LG

本文提出了一种针对高维稀疏Poisson数据的非线性降维方法p-SNE. 该方法利用Poisson分布间的KL散度衡量样本差异, 并在低维嵌入空间中优化Hellinger距离, 在模拟和真实计数数据集上验证了其有效性.

Adaptive receptive field-based spatial-frequency feature reconstruction network for few-shot fine-grained image classification

Linyue Zhang et al.

cs.CV cs.AI

本文提出了一种基于自适应感受野的空间-频率特征重建网络(ARF-SFR-Net), 用于小样本细粒度图像分类. 该网络能够自适应地确定感受野大小以提取空间和频率特征, 并将它们有效融合用于分类任务.

MEMRES: A Memory-Augmented Resolver with Confidence Cascade for Agentic Python Dependency Resolution

Dao Sy Duy Minh et al.

cs.SE cs.AI

本文提出了一个名为MEMRES的智能系统, 用于解决Python依赖解析问题. 该系统结合了多级置信度级联, 自演进记忆和错误模式知识库等方法, 在基准测试中取得了比现有方法更高的成功率.

Hybrid Quantum Neural Networks for Enhanced Breast Cancer Thermographic Classification: A Novel Quantum-Classical Integration Approach

Riza Alaudin Syah et al.

quant-ph cs.AI cs.CV cs.LG

本文提出了一种结合量子计算与经典卷积神经网络的混合量子神经网络(HQNN)架构, 用于乳腺癌热成像分类. 该方法通过参数化量子电路进行特征编码, 并在经典模拟中展示了优于纯经典模型的性能.

Training-inference input alignment outweighs framework choice in longitudinal retinal image prediction

Liyin Chen et al.

cs.CV cs.AI cs.LG

本文通过比较五种基于同一架构和训练数据集的配置, 包括标准条件扩散模型、推理对齐的随机训练和确定性回归, 研究了在缓慢进展的视网膜疾病中预测未来视网膜图像的生成模型复杂度问题. 研究发现, 对齐训练和推理的输入分布比选择具体的生成框架更为重要, 并据此提出了一个确定性的直接回归模型 TRU, 在多个数据集上取得了有竞争力的性能.

Multi-stage Planning for Multi-target Surveillance using Aircrafts Equipped with Synthetic Aperture Radars Aware of Target Visibility

Daniel Fuertes et al.

cs.RO cs.AI

本文提出了一种用于多目标监视任务的多阶段轨迹规划系统. 该系统通过航点排序, 基于深度强化学习的可见性最大化航段预测, 以及3D Dubins曲线优化连接, 生成了适应地形和目标可见性的合成孔径雷达(SAR)飞行轨迹.

Visual Inception: Compromising Long-term Planning in Agentic Recommenders via Multimodal Memory Poisoning

Jiachen Qian

cs.CR cs.AI

本文提出了一种针对Agentic Recommender Systems的新型攻击方法"Visual Inception"及其防御框架"CognitiveGuard". 该方法通过在用户上传的图片中植入触发器来污染系统的长期记忆(Long-term Memory), 从而在未来规划中引导智能体(agent)的行为以实现攻击者目标.

NaviFormer: A Deep Reinforcement Learning Transformer-like Model to Holistically Solve the Navigation Problem

Daniel Fuertes et al.

cs.RO cs.AI

本文提出了一种基于Transformer架构的深度强化学习模型NaviFormer, 用于同时解决全局导航中的高层路径规划(route planning)和低层轨迹规划(path planning)问题. 实验表明, 该模型在精度和计算速度上具有竞争力, 适合实时任务.

Convergence theory for Hermite approximations under adaptive coordinate transformations

Yahya Saleh

math.NA cs.LG stat.ML

本文分析了在自适应坐标变换下Hermite展开的逼近误差. 通过建立等价原理, 将变换后基函数下的逼近问题转化为Hermite函数空间中的经典逼近问题, 并给出了误差估计. 研究为基于归一化流的自适应Hermite近似方法提供了理论依据.

DOSE: Data Selection for Multi-Modal LLMs via Off-the-Shelf Models

Biao Wu et al.

cs.CV cs.CL

本文提出了一种利用现成预训练模型进行多模态数据筛选的方法 DOSE, 无需对筛选模型进行任务特定的训练. 该方法通过评估文本质量和图文对齐性来构建联合分布并进行自适应加权采样, 在提升数据多样性的同时保持了模型性能.

Light-Adapted Electroretinogram and Oscillatory Potentials (LEOPs) Dataset for Autism Spectrum Disorder and Typically Developing Individuals

Paul A. Constable et al.

physics.med-ph cs.AI cs.LG

本文介绍了一个名为LEOPs的数据集, 该数据集包含了典型发育儿童和青少年、自闭症谱系障碍(ASD)以及ASD+注意缺陷多动障碍(ADHD)人群的光适应视网膜电图(ERG)和振荡电位(OPs)波形数据。数据集提供了详细的记录信息、参与者人口统计数据以及用于机器学习的结构化数据文件。

Inductive Convolution Nuclear Norm Minimization for Tensor Completion with Arbitrary Sampling

Wei Li et al.

cs.CV cs.AI

本文提出了一种名为Inductive Convolution Nuclear Norm Minimization (ICNNM)的新方法，用于解决任意采样下的张量补全问题。该方法通过引入预学习的卷积特征向量，避免了原方法中耗时的奇异值分解步骤，从而显著提升了计算效率。实验表明，该方法在视频补全等任务上取得了优于先前方法的性能。

MobileAgeNet: Lightweight Facial Age Estimation for Mobile Deployment

Arun Kumar et al.

cs.CV cs.AI

本文提出了一个轻量级的面部年龄估计模型 MobileAgeNet, 该模型基于预训练的 MobileNetV3-Large 主干网络和一个紧凑的回归头, 在 UTKFace 数据集上取得了较低的预测误差. 通过集成到 NN LEMUR 框架并使用两阶段微调策略, 该工作为移动端部署提供了一个高效且可复现的基线模型.

The Instrumental Dissolution of Typing: Why AI Challenges the Keyboard Era in Knowledge Work

Wei Roy Hua

cs.HC cs.AI cs.CY

本文探讨了AI技术如何通过理解语音和手势等模态, 挑战了QWERTY键盘在知识工作中长达四十年的主导地位. 作者提出了"工具性消解"的概念, 并指出验证瓶颈将成为AI时代知识工作的核心约束.

E2E-WAVE: End-to-End Learned Waveform Generation for Underwater Video Multicasting

Khizar Anjum, Tingcong Jiang, Dario Pompili

eess.SP cs.LG eess.IV

本文提出了一种名为E2E-WAVE的端到端学习波形生成系统，用于水下视频多播。该系统通过将语义相似性嵌入物理层波形，在恶劣声学信道中实现了优于传统纠错方案的视频传输性能。

mEOL: Training-Free Instruction-Guided Multimodal Embedder for Vector Graphics and Image Retrieval

Kyeong Seon Kim et al.

cs.CV cs.AI

本文提出了一种无需训练的、基于指令引导的多模态嵌入框架, 用于对齐文本、光栅图像和SVG代码的表示. 该方法利用多模态大语言模型, 通过特定指令和SVG结构提示生成紧凑的语义嵌入, 并在文本到SVG检索任务上展示了优于基线模型的效果.

Trajectory-Restricted Optimization Conditions and Geometry-Aware Linear Convergence

Faris Chaudhry, Anthea Monod, Keisuke Yano

math.OC cs.LG math.ST

本文提出了一个基于轨迹限制的线性收敛分析框架, 引入了仅在算法遍历子集上成立的局部几何正则性条件. 对于多面体复合问题, 证明了收敛速率由沿轨迹访问的活跃多面体面所对应的限制性Hoffman常数控制. 该工作表明, 线性收敛根本上由算法探索的子集的几何决定, 而非全局最坏情况条件.

EvoComp: Learning Visual Token Compression for Multimodal Large Language Models via Semantic-Guided Evolutionary Labeling

Jiafei Song et al.

cs.CV cs.LG

本文提出了一种名为EvoComp的视觉token压缩框架，用于提升多模态大语言模型(MLLMs)的推理效率。该方法通过一个轻量级的编码器，结合语义引导的进化标注策略来选择信息量最大且非冗余的视觉token。

Configuration Over Selection: Hyperparameter Sensitivity Exceeds Model Differences in Open-Source LLMs for RTL Generation

Minghao Shao et al.

cs.AR cs.AI

本文通过实验表明, 在硬件设计的RTL生成任务中, 开源LLMs的推理时解码配置(hyperparameter)选择比模型本身的选择更为重要. 研究发现, 同一模型在不同配置下的性能差异远大于不同模型在默认配置下的平均差异, 且最优配置在不同基准测试间无法迁移.

TensorHub: Rethinking AI Model Hub with Tensor-Centric Compression

Tingfeng Lan et al.

cs.DC cs.AI cs.LG

本文提出了TensorHub, 一个以tensor为中心的AI模型存储系统, 旨在通过细粒度的去重和压缩技术来减少模型存储开销. 该系统利用tensor-level的指纹识别和聚类来发现模型间的冗余, 无需额外标注, 实验表明其能在保持模型性能的同时显著节省存储空间.

Hybrid Multi-Dimensional MRI Prostate Cancer Detection via Hadamard Network-Based Bias Correction and Residual Networks

Emadeldeen Hamdan et al.

cs.CV cs.LG

本文提出了一种结合Hadamard U-Net进行偏置场校正和ResNet-18进行分类的两阶段AI框架HBR-Net-18, 用于从混合多维MRI中检测前列腺癌. 该方法通过处理重叠的图像块并融合2D和3D信息, 在实验中表现优于传统的影像组学和基线CNN模型.

HiveMind: OS-Inspired Scheduling for Concurrent LLM Agent Workloads

Justice Owusu Agyemang et al.

cs.DC cs.AI

本文提出了一个名为HIVEMIND的透明HTTP代理, 它借鉴了操作系统调度原语来管理并发LLM agent对API的访问. 该系统无需修改现有agent代码, 在多种并发场景下显著降低了请求失败率和计算浪费.

A Two-Stage Deep Learning Framework for Segmentation of Ten Gastrointestinal Organs from Coronal MR Enterography

Ashiqur Rahman et al.

eess.IV cs.AI cs.CV

本文提出了一种用于冠状磁共振肠造影图像中胃肠道器官分割的两阶段深度学习框架. 该框架通过粗分割与基于器官特异性patch的精细分割相结合, 有效应对了类别不平衡和低组织对比度等挑战, 在公开数据集上取得了优于基线模型的性能.

CASCADE: A Cascaded Hybrid Defense Architecture for Prompt Injection Detection in MCP-Based Systems

İpek Abasıkeleş Turgut, Edip Gümüş

cs.CR cs.AI

本文提出了一种名为CASCADE的三层级联防御架构，用于检测基于Model Context Protocol (MCP) 系统中的prompt injection攻击。该架构结合了快速预过滤、语义分析和基于模式的输出过滤，实现了完全本地化运行，并在多种攻击类型上进行了评估。

A proposal for PU classification under Non-SCAR using clustering and logistic model

Konrad Furmanczyk, Kacper Paczutkowski

stat.ME cs.LG stat.ML

本文提出了一种在非SCAR条件下处理PU分类问题的聚类清洗算法. 该方法首先通过2-means聚类获取清洗标签, 然后结合额外的真实正样本进行logistic回归. 实验在多个真实和合成数据集上验证了算法的有效性, 并评估了LassoJoint方法对SCAR条件扰动的稳健性.

Automated Classification of Plasma Regions at Mars Using Machine Learning

Yilan Qin et al.

physics.space-ph astro-ph.EP cs.LG physics.plasm-ph

本文利用机器学习方法对火星周围的等离子体区域进行自动分类. 通过比较MLP和CNN两种神经网络架构, 发现结合时序信息的CNN模型能更可靠地区分太阳风, 磁鞘和感应磁层这三个关键区域.

Negative Momentum for Convex-Concave Optimization

Henry Shugart, Shuyi Wang, Jason M. Altschuler

math.OC cs.DS cs.LG

本文研究了 min-max 优化中负动量的作用. 它证明了在凸凹优化和强凸强凹优化中, 负动量可以实现全局收敛和加速收敛.

FlowRefiner: Flow Matching-Based Iterative Refinement for 3D Turbulent Flow Simulation

Yilong Dai et al.

physics.flu-dyn cs.LG

本文提出了一种基于flow matching的迭代精化框架FlowRefiner, 用于提升3D湍流模拟的自回归预测精度. 该方法通过确定性的ODE修正和统一的回归目标, 在包含多尺度结构的大规模湍流数据上取得了先进的预测结果.

Lightweight Cybersickness Detection based on User-Specific Eye and Head Tracking Data in Virtual Reality

Yijun Wang, Mihai Bâce, Maria Torres Vega

cs.HC cs.LG

本文提出了一种基于用户特定眼动和头部追踪数据的轻量级VR晕动症检测方法. 该方法采用集成学习模型, 在公开数据集上取得了较高的检测准确率, 并展示了在现实应用中的可行性.

Systematic Capability Benchmarking of Frontier Large Language Models for Offensive Cyber Tasks

Tyler H. Merves et al.

cs.CR cs.AI cs.CL

本文通过扩展D-CIPHER多智能体框架，在定制Kali Linux环境中对10个前沿LLM在200项网络安全挑战上进行了系统性评估。研究发现环境工具和模型选择是性能的关键驱动因素，而提示工程在装备良好的环境中收益甚微。

The Virtue of Sparsity in Complexity

Nima Afsharhajari, Jonathan Yu-Meng Li

q-fin.GN cs.LG econ.EM q-fin.PM q-fin.PR

本文探讨了高维资产定价中稀疏性与复杂性之间的关系. 作者认为, 扩大特征空间(capacity sparsity)有助于识别稀疏的定价风险结构(factor sparsity), 并通过实证分析表明, 在超过特定复杂度阈值后, 非线性特征扩展结合基追踪(basis pursuit)方法构建的投资组合, 其样本外表现优于无岭(ridgeless)基准.

CCCL: In-GPU Compression-Coupled Collective Communication

Chon Lam Lao et al.

cs.DC cs.AI

本文提出了一种名为CCCL的GPU内压缩耦合集合通信库, 旨在减少大型语言模型(LLM)工作负载中集合通信的开销. 该库无需用户修改代码即可集成到现有应用中, 并通过与NCCL集成和内核融合等技术提升了通信性能.

Intent-aligned Autonomous Spacecraft Guidance via Reasoning Models

Yuji Takubo, Simone D'Amico

eess.SY cs.AI math.OC

本文提出了一种将高层任务意图与安全轨迹优化相结合的航天器制导框架. 该框架通过行为序列和航点约束等中间抽象层, 连接了基于基础模型(Foundation Model)的推理与安全的轨迹优化. 数值实验表明, 该方法在近距离操作场景中表现良好.

Decentralised Trust and Security Mechanisms for IoT Networks at the Edge: A Comprehensive Review

Khandoker Ashik Uz Zaman, Mahdi H. Miraz, Mohammed N. M. Ali

cs.CR cs.AI cs.NI

本文综述了物联网边缘网络中分散式信任与安全机制的最新研究进展, 分析了包括联邦学习, 零信任架构, 轻量级区块链在内的多种方法, 并讨论了其在隐私保护, 抗单点故障等方面的优势与现存挑战.

Layer-wise MoE Routing Locality under Shared-Prefix Code Generation: Token-Identity Decomposition and Compile-Equivalent Fork Redundancy

Shun-ichiro Hayashi et al.

cs.SE cs.AI

本文通过分析共享前缀下代码生成的MoE路由模式, 研究了Qwen3.5模型在并行生成多个代码候选时的专家选择行为. 研究发现, 即使生成不同的token, 路由选择也存在显著的非随机相似性, 并且这种相似性在模型的不同层呈现特定的变化模式.

A Model and Estimation of the Bitcoin Transaction Fee

Daniel Aronoff, Kristian Praizner, Armin Sabouri

cs.CE cs.LG econ.EM

本文构建并估计了一个关于比特币交易费的结构化模型, 将内存池视为稀缺区块空间的交易市场. 作者利用自运行节点收集的高频内存池面板数据, 将费用市场表征为一种 Vickrey-Clarke-Groves 机制, 并推导出费用估计方程. 研究发现, 拥堵是延迟的主要决定因素, 优先级的边际价值已体现在费用中, 且交易者对 RBF, CPFP 等条件的选择对费用有重要经济影响.

SynthFix: Adaptive Neuro-Symbolic Code Vulnerability Repair

Yifan Zhang et al.

cs.SE cs.LG

本文提出了一种名为SynthFix的混合神经符号框架, 用于改进基于LLM的代码漏洞修复. 该方法通过自适应训练策略, 结合了监督微调和带有符号奖励的奖励微调, 在多个基准测试上取得了优于基线模型的性能提升.

Persona-Based Requirements Engineering for Explainable Multi-Agent Educational Systems: A Scenario Simulator for Clinical Reasoning Training

Weibing Zheng et al.

cs.SE cs.AI cs.ET cs.HC cs.MA

本文提出了一种基于人物角色的需求工程框架, 用于设计可解释的多智能体教育系统, 并以临床推理训练场景模拟器为例进行了演示. 该框架通过整合人物角色和用户故事来捕获利益相关者的需求, 并指导系统开发, 初步调查显示其对医学生临床推理技能有积极影响.

Forecast Sports Outcomes under Efficient Market Hypothesis: Theoretical and Experimental Analysis of Odds-Only and Generalised Linear Models

Kaito Goto, Naoya Takeishi, Takehisa Yairi

stat.ML cs.LG

本文提出了两种将博彩赔率转换为准确概率的方法. 第一种是无需历史数据的 OO-EPC 方法, 旨在与庄家的定价目标保持一致; 第二种是利用历史数据的 FL-GLM 模型, 专注于捕捉 favorite-longshot bias. 实验表明, 这两种方法在足球比赛数据集上优于现有基准.

CDSA-Net:Collaborative Decoupling of Vascular Structure and Background for High-Fidelity Coronary Digital Subtraction Angiography

Si Li et al.

cs.CV cs.AI

本文提出了一种名为CDSA-Net的新型深度学习框架，用于提升冠状动脉数字减影血管造影(DSA)的图像质量。该方法通过协同解耦血管结构与背景，并引入层次化几何先验引导和自适应噪声建模，有效减少了边界伪影并保持了组织灰度保真度。

DREAM: Dynamic Retinal Enhancement with Adaptive Multi-modal Fusion for Expert Precision Medical Report Generation

Nagur Shareef Shaik, Teja Krishna Cherukuri, Dong Hye Ye

cs.CV cs.AI eess.SP

本文提出了一种名为DREAM的框架, 用于从视网膜图像生成高质量的医学报告. 该框架通过一个两阶段的自适应多模态融合机制, 将视觉数据与临床关键词相结合, 并在数据有限的情况下在基准测试上取得了优异的结果.

Cross-Modal Attention Analysis and Optimization in Vision-Language Models: A Study on Visual Reliability

Lijie Zhou

cs.CV cs.AI

本文通过对抗性评估框架量化了Vision-Language Models (VLMs)中的跨模态依赖问题，即模型过度依赖文本而忽视视觉证据。研究比较了不同配置的模型，发现经过优化的模型能显著降低对冲突文本的敏感性，同时保持高正常准确率。

PAC-Bayes Bounds for Gibbs Posteriors via Singular Learning Theory

Chenyang Wang, Yun Yang

stat.ML cs.LG

本文为 Gibbs posteriors 推导了非渐近的 PAC-Bayes 泛化界。该界基于边际积分，并利用奇异学习理论（singular learning theory）进行分析，可应用于过参数化模型，在低秩矩阵补全和 ReLU 神经网络等示例中得到了比经典复杂度界更紧的结果。

Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation

Jiuyun Jiang et al.

cs.MA cs.AI

本文利用基于LLM的仿真方法研究了多阶段供应链中的认知异质性对决策行为的影响. 通过模拟实验发现, 认知差异会加剧系统的低效率, 而信息共享可以缓解这一问题.

Bilinear Input Modulation for Mamba: Koopman Bilinear Forms for Memory Retention and Multiplicative Computation

Hiroki Fujii, Masaki Yamakita

eess.SY cs.LG math.DS

本文提出了一种因子化的双线性输入调制方法, 用于增强 Selective State Space Models (SSMs, 如 Mamba) 的性能. 该方法通过引入状态与输入的乘积项, 可解释为有限维 Koopman 双线性形式, 并在不同任务上验证了其对记忆保留和双线性计算能力的提升.

Region-Affinity Attention for Whole-Slide Breast Cancer Classification in Deep Ultraviolet Imaging

Nagur Shareef Shaik, Teja Krishna Cherukuri, Dong Hye Ye

cs.CV cs.AI eess.SP

本文提出了一种用于深度紫外成像全切片乳腺癌分类的 Region-Affinity Attention 机制。该方法无需切片即可处理整个图像，并通过建模局部邻域距离和构建亲和力矩阵来动态突出诊断相关区域。

Enhancing Zero-shot Personalized Image Aesthetics Assessment with Profile-aware Multimodal LLM

Chun Wang et al.

cs.CV cs.AI

本文提出了一种基于用户画像的零样本个性化图像美学评估方法P-MLLM. 该方法通过选择性融合模块, 在大型语言模型(Large Language Model, LLM)的推理过程中, 以用户画像为条件有选择地整合视觉信息, 从而在缺乏用户历史评分数据的情况下实现个性化评估.

VIBE: Voice-Induced open-ended Bias Evaluation for Large Audio-Language Models via Real-World Speech

Yi-Cheng Lin et al.

eess.AS cs.CL cs.SD

本文提出了VIBE框架, 用于评估大型音频-语言模型(LALMs)在开放生成任务中的偏见. 该方法使用真实世界语音录音进行个性化推荐等任务, 发现现有模型存在系统性偏见, 例如性别线索比口音线索引发更显著的分布偏移.

Bit-Flip Vulnerability of Shared KV-Cache Blocks in LLM Serving Systems

Yuji Yamamoto, Satoshi Matsuura

cs.CR cs.AR cs.LG

本文研究了LLM服务系统中共享KV-cache块（如vLLM的Prefix Caching）的比特翻转脆弱性。通过软件故障注入，分析了其威胁特征并提出了基于校验和的轻量级防护措施。

A Unified Compliance Aggregator Framework for Automated Multi-Tool Security Assessment of Linux Systems

Sheldon Paul, Izzat Alsmadi

cs.CR cs.LG

本文提出了一个统一合规性聚合器框架, 用于整合多个开源安全工具的输出, 生成一个代表Linux系统整体安全态势的复合分数. 该框架包含输出归一化和加权聚合步骤, 并通过实验展示了其在系统加固评估中的一致性.

Fractal Characterization of Low-Correlation Signals in AI-Generated Image Detection

Wenwei Xie et al.

cs.CV cs.AI

本文从信号层面分析了AI生成图像与真实图像的内在差异, 提出低相关性信号可作为区分标志. 基于分形理论量化这些信号, 实验表明该方法具有鲁棒性和优越的检测性能.

What Security and Privacy Transparency Users Need from Consumer-Facing Generative AI

Jiaxun Cao et al.

cs.HC cs.AI cs.CR cs.CY

本文通过用户访谈和设计研究, 探讨了面向消费者的生成式AI工具中安全与隐私透明度对用户采纳和使用行为的影响. 研究发现现有透明度信息往往不足, 用户更依赖流行度等代理指标, 并提出了改进透明度的设计维度和建议.

Instinct vs. Reflection: Unifying Token and Verbalized Confidence in Multimodal Large Models

Yunkai Dang et al.

cs.CV cs.AI

本文针对Multimodal Large Language Models (MLLMs)的置信度估计问题，提出了一种融合token-level和verbalized confidence信号的方法。该方法旨在解决模型内部信号不一致的问题，并通过实验验证了其在提升校准度和失败预测方面的有效性。

Clover: A Neural-Symbolic Agentic Harness with Stochastic Tree-of-Thoughts for Verified RTL Repair

Zizhang Luo et al.

cs.AR cs.AI

本文提出了一种名为Clover的神经符号代理系统, 用于RTL (Register Transfer Level) 程序修复. 该系统通过一个随机化的思维树 (Tree-of-Thoughts) 搜索机制来协调专门的LLM代理和符号求解器, 在基准测试中展现了较高的修复成功率.

Chaos-Enhanced Prototypical Networks for Few-Shot Medical Image Classification

Chinhtakuntla Meghan Sai et al.

eess.IV cs.AI cs.CV

本文提出了一种用于少样本医学图像分类的混沌增强原型网络(CE-ProtoNet). 该方法通过向特征嵌入中注入受控的混沌扰动来增强模型对噪声的鲁棒性, 在脑肿瘤分类任务上取得了优于标准原型网络的结果.

E2E-GMNER: End-to-End Generative Grounded Multimodal Named Entity Recognition

Meng Zhang et al.

cs.CV cs.CL

本文提出了一种名为E2E-GMNER的端到端生成式框架，用于解决Grounded Multimodal Named Entity Recognition (GMNER)任务。该框架将实体识别、语义分类和视觉定位统一在一个多模态大语言模型中，并通过引入Gaussian Risk-Aware Box Perturbation (GRBP)来提升边界框预测的鲁棒性。

Signal or Noise in Multi-Agent LLM-based Stock Recommendations?

George Fatouros, Kostas Metaxas

q-fin.PM cs.AI q-fin.ST

本文通过一个名为MarketSenseAI的多智能体LLM股票推荐系统, 在投资组合层面进行了实证检验. 该系统整合了多个专业智能体的分析, 生成月度股票推荐, 并在S&P 500等股票池上显示出超越被动基准和随机选择的超额收益潜力. 分析表明, 不同智能体的贡献会随市场环境变化而轮动, 提示该系统可能捕捉到了传统因子模型之外的alpha来源.

Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Wang Bill Zhu et al.

cs.SE cs.CL

本文提出了一个用于评估大语言模型在代码调试任务中精确性的基准框架PDB. 该框架通过合成原子bug并组合成多bug程序来构建测试集, 并引入了编辑级精度和bug级召回率等新指标. 实验表明, 即使顶尖模型在单元测试通过率上表现良好, 但其调试的精确性仍然很低, 且迭代式或智能体调试策略也未能显著改善这一状况.

Robust Diabetic Retinopathy Grading Using Dual-Resolution Attention-Based Deep Learning with Ordinal Regression

Afshan Hashmi

cs.CV cs.AI

本文提出了一种用于糖尿病视网膜病变分级的鲁棒双分辨率深度学习框架。该方法结合了基于注意力的特征融合与有序回归, 旨在提升模型在不同数据集间的泛化能力。

SPaRSe-TIME: Saliency-Projected Low-Rank Temporal Modeling for Efficient and Interpretable Time Series Prediction

K. A. Shahriar

eess.SP cs.LG

本文提出了一种名为SPaRSe-TIME的高效可解释时间序列预测框架。它将时间序列分解为显著性、记忆和趋势三个互补分量，通过投影到信息子空间来简化计算。该方法在多种数据集上取得了与复杂模型相当的预测性能，同时显著降低了计算复杂度。

PsychBench: Auditing Epidemiological Fidelity in Large Language Model Mental Health Simulations

Patrick Keough

cs.CY cs.AI

本文提出了PsychBench, 用于审计大型语言模型在心理健康模拟中的流行病学保真度. 研究发现模型能生成看似合理的个体, 但在群体层面存在系统性偏差, 未能准确反映真实人群的分布特征.

Leveraging Kernel Symmetry for Joint Compression and Error Mitigation in Edge Model Transfer

Anis Hamadouche, Mathini Sellathurai

eess.SP cs.LG

本文提出了一种利用卷积核的结构化对称性约束来实现高效神经网络传输的方法. 该方法通过仅传输对称群所决定的唯一系数来压缩模型, 并在接收端通过投影步骤来增强对传输损伤的鲁棒性.

When Text Hijacks Vision: Benchmarking and Mitigating Text Overlay-Induced Hallucination in Vision Language Models

Cui Yakun et al.

cs.CV cs.AI

本文针对Vision-Language Models (VLMs)中存在的文本覆盖诱导幻觉(TOIH)问题，提出了首个综合性基准VisualTextTrap和一个名为VTHM-MoE的缓解框架。该基准包含大量人工验证样本，而VTHM-MoE框架采用双编码器架构和专家混合(MoE)设计，旨在分离视觉与文本信息以减轻幻觉。实验表明该方法在视频问答任务上优于现有模型。

Towards Generalizable Deepfake Image Detection with Vision Transformers

Kaliki V Srinanda et al.

cs.CV cs.AI cs.LG eess.IV

本文提出了一种基于Vision Transformer (ViT)集成模型的深度伪造图像检测方法, 旨在提升模型对不同生成技术和篡改手段的泛化能力. 该方法在DF-Wild数据集上取得了优于现有CNN基线及SOTA方法的结果.

Study and Improvement of Search Algorithms in Multi-Player Perfect-Information Games

Quentin Cohen-Solal

cs.GT cs.AI

本文提出了一种将双人零和完美信息博弈中的先进搜索算法 Unbounded Minimax 推广到多人完美信息博弈框架的方法。实验表明，该推广算法在性能上优于现有的主要多人搜索算法。

StrEBM: A Structured Latent Energy-Based Model for Blind Source Separation

Yuan-Hao Wei

stat.ML cs.LG

本文提出了一种用于盲源分离的结构化潜在能量模型StrEBM. 该模型通过为每个潜在维度分配独立的可学习结构偏置, 而非共享单一能量函数, 来促进潜在表示的可识别性与解耦性. 在线性与非线性混合的合成多通道信号上的实验表明, 该模型能有效恢复源成分, 但也揭示了其在非线性观测映射下收敛缓慢与稳定性降低等优化特性.

MESA: A Training-Free Multi-Exemplar Deep Framework for Restoring Ancient Inscription Textures

Vasileios Toulatzis, Ioannis Fudos

cs.CV cs.AI cs.GR

本文提出了一种无需训练的深度框架MESA, 用于修复古代铭文的纹理. 该方法利用保存完好的铭文样本, 通过VGG19特征和Gram矩阵来捕捉纹理与风格, 并引入基于字符宽度的层权重来指导受损区域的合成.

RISC-V Functional Safety for Autonomous Automotive Systems: An Analytical Framework and Research Roadmap for ML-Assisted Certification

Nick Andreasyan et al.

cs.SE cs.AR cs.LG

本文分析了RISC-V在汽车功能安全中的作用，并提出了一个以认证经济性为核心优化目标的分析框架和研究路线图。文中还探讨了如何利用机器学习方法来支持认证流程。

Speculative Decoding for Autoregressive Video Generation

Yuezhou Hu, Jintao Zhang

cs.CV cs.AI

本文提出了一种名为SDVG的方法, 将speculative decoding思想应用于自回归视频生成, 以加速推理. 该方法通过一个图像质量路由器来评估候选视频块, 实现了速度与质量的权衡, 无需额外训练即可集成到现有流程中.

Algorithmic Contiguity from Low-Degree Heuristic II: Predicting Detection-Recovery Gaps

Zhangsong Li

math.ST cs.DS stat.ML

本文提出了一种基于 algorithmic contiguity 和 cross-validation reduction 的通用方法，用于从低阶检测优势的温和界推导恢复问题的条件计算下界。该方法简化了多个经典高维推断问题（如 planted submatrix, stochastic block model）中恢复下界的证明，并为一些同步问题中的检测-恢复间隙现象提供了新的计算障碍证据。

The Open-Weight Paradox: Why Restricting Access to AI Models May Undermine the Safety It Seeks to Protect

Vinicius Santana Gomes

cs.CY cs.AI

本文讨论了开放权重AI模型的治理问题, 认为单纯限制访问可能无法降低风险, 反而会加剧全球计算资源的不对称. 作者提出了一种结合硬件层治理(如芯片级认证)和多层防护的深度防御框架, 并建议建立类似IAEA的多边机构来管理AI这种军民两用技术.

Project resilience as network robustness

Sebastiano A. Piccolo, Giorgio Terracina

cs.SE cs.AI eess.SY

本文提出了一种基于网络稳健性(network robustness)的新方法来评估工程项目对关键人员流失的韧性. 该方法相比现有方法能提供更优且更一致的估计.

ARMove: Learning to Predict Human Mobility through Agentic Reasoning

Chuyue Wang et al.

cs.MA cs.LG

本文提出了一个名为ARMove的、基于agentic reasoning的可迁移框架，用于预测人类移动性。该框架通过标准化特征管理、agentic决策以及大-小模型协同来提升预测性能、可解释性和泛化能力。

Long-CODE: Isolating Pure Long-Context as an Orthogonal Dimension in Video Evaluation

Zhijiang Tang et al.

cs.CV cs.AI

本文针对长视频生成模型的评估需求, 提出了一个专注于长上下文(long-context)属性的评估框架. 通过设计专门的测试集Long-CODE和基于镜头动态(shot dynamics)的度量, 旨在将长程叙事一致性等特性从传统的短时视觉质量评估中解耦出来.

Beyond the Bellman Fixed Point: Geometry and Fast Policy Identification in Value Iteration

Donghwan Lee

math.OC cs.AI eess.SY

本文从 switching system 的视角重新审视了 discounted Q-value iteration (Q-VI). 研究表明, Q-VI 能在有限时间内识别出最优动作类, 并且迭代点到特定 practically optimal solution set 子集的距离以受限于一个受限 switching family 的 joint spectral radius (JSR) 的速率指数衰减, 该速率可能快于标准的折扣因子 $\gamma$ 速率.

Agentic Education: Using Claude Code to Teach Claude Code

Zain Naboulsi

cs.CY cs.AI cs.HC cs.SE

本文介绍了一个名为cc-self-train的模块化交互式课程，用于通过实践项目学习AI编程工具Claude Code。该系统包含角色演进模型、自适应学习机制和跨领域统一课程设计，一项初步评估显示参与者的自我效能感有显著提升。

Project Prometheus: Bridging the Intent Gap in Agentic Program Repair via Reverse-Engineered Executable Specifications

Yongchao Wang, Zhiqiu Huang

cs.SE cs.AI

本文提出了一个名为Prometheus的框架, 通过从运行时失败报告中逆向工程出可执行的Gherkin规范, 来解决自动程序修复中"意图鸿沟"的问题. 该框架采用多智能体架构和一个需求质量保证循环来验证推断出的规范, 在Defects4J基准测试上取得了较高的正确修复率.

Dual-Anchoring: Addressing State Drift in Vision-Language Navigation

Kangyi Wu et al.

cs.CV cs.AI

本文针对Vision-Language Navigation(VLN)任务中智能体在长序列场景下容易发生的状态漂移问题, 提出了一个双锚定框架. 该框架通过指令进度锚定和记忆地标锚定来分别纠正进度漂移和记忆漂移, 并在仿真和真实环境中验证了其有效性.

Unveiling Deepfakes: A Frequency-Aware Triple Branch Network for Deepfake Detection

Qihao Shen et al.

cs.CV cs.LG

本文提出了一种用于Deepfake检测的频率感知三支路网络. 该方法通过联合学习原始图像和不同频率通道重建图像的特征, 并结合基于互信息的特征解耦与融合损失, 在多个基准数据集上取得了先进的性能.

Generative AI Technologies, Techniques & Tensions: A Primer

John T. Behrens

cs.CY cs.AI cs.HC

本文从计算范式历史变迁的视角审视了生成式AI, 将其解构为数据、模型、产品功能和用户输入等相互作用组件, 并强调了其统计与数据基础。文章认为, 教育研究者因其在建模潜在过程和管理不确定性方面的专长, 特别适合研究和评估这类系统。

RS-HyRe-R1: A Hybrid Reward Mechanism to Overcome Perceptual Inertia for Remote Sensing Images Understanding

Gaozhi Zhou et al.

cs.CV cs.AI

本文提出了一种名为RS-HyRe-R1的混合奖励框架，旨在解决强化学习后训练中遥感视觉语言模型存在的“感知惯性”问题。该方法通过结合空间推理、感知正确性和视觉语义路径演化三种奖励，鼓励模型进行更全面、深入的视觉证据挖掘，在多项遥感图像理解任务上取得了先进的性能。

Learning Unanimously Acceptable Lotteries via Queries

Davin Choo, Paul W. Goldberg, Nicholas Teh

cs.GT cs.AI cs.LG cs.MA

本文研究了一种通过查询学习全体利益相关者都能接受的随机分配方案(lottery)的问题. 算法通过提出方案并接收二元接受/拒绝反馈来运作, 给出了确定性和随机化的算法以找到可行方案或证明其不存在, 并分析了查询复杂度的上下界.

Atomic Decision Boundaries: A Structural Requirement for Guaranteeing Execution-Time Admissibility in Autonomous Systems

Marcelo Fernandez

cs.LO cs.AI cs.CR

本文在形式化自治系统执行安全性的背景下，提出了atomic decision boundary这一结构性概念。作者通过labeled transition system模型，区分了atomic与split evaluation两类系统，并论证了在并发环境下后者无法完全模拟前者对状态转移许可性的保证。

Causal-Temporal Event Graphs: A Formal Model for Recursive Agent Execution Traces

Simon Foldvik

cs.LO cs.AI

本文提出了一种用于建模递归智能体执行轨迹的形式化模型，称为因果时序事件图(CTEGs). 该模型基于单亲因果语义, 将事件建模为带时间戳的树状结构, 并证明了其递归闭包的良好性质.

Target Parameterization in Diffusion Models for Nonlinear Spatiotemporal System Identification

Achraf El Messaoudi, Noureddine Khaous, Karim Cherifi

eess.SY cs.LG physics.flu-dyn

本文探讨了在非线性时空系统辨识中, diffusion model 的目标参数化(target parameterization)选择问题. 通过基于transformer的模型在湍流模拟上的实验, 发现相较于预测噪声或速度, 预测清洁状态(clean-state)能提升rollout稳定性和长期预测精度.

PBSBench: A Multi-Level Vision-Language Framework and Benchmark for Hematopathology Whole Slide Image Interpretation

Yuanlong Wang et al.

cs.CV cs.AI

本文提出了一个针对血液病理学外周血涂片(PBS)全玻片图像(WSI)解读的多层次视觉-语言框架PBSBench. 该工作构建了首个PBS视觉-语言数据集PBSInstr, 并基于此开发了专用模型PBS-VL, 在构建的基准测试PBSBench上超越了现有通用模型.

DGSSM: Diffusion guided state-space models for multimodal salient object detection

Suklav Ghosh, Arijit Sur, Pinaki Mitra

cs.CV cs.AI cs.LG

本文提出了一种结合 diffusion model 与 state-space model (Mamba) 的框架 DGSSM，用于多模态显著目标检测。该框架通过迭代去噪过程整合结构先验与多尺度编码，以提升边界精度，并在多个基准测试上取得了优于现有方法的结果。

AIRA: AI-Induced Risk Audit: A Structured Inspection Framework for AI-Generated Code

William M. Parris

cs.SE cs.AI

本文提出了一个用于审计AI生成代码风险的确定性检查框架AIRA, 并基于"奖励塑造失败假说"解释了AI代码倾向于静默失败的现象. 通过三项实证研究, 该框架在多种编程语言中检测到了AI生成代码比人工代码存在更多高严重性风险的模式.

Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories

Ivan Bercovich et al.

cs.CR cs.AI

本文发布了一个名为Terminal Wrench的数据集，其中包含331个可被奖励攻击的终端代理环境及其攻击轨迹。该数据集旨在为研究大型语言模型在代码执行环境中的安全性和可监控性提供基准。

Polarization and Integration in Global AI Research

Luca Gallo, Riccardo Di Clemente, Balázs Lengyel

physics.soc-ph cs.AI physics.app-ph

本文通过分析大规模科学出版物数据, 研究了全球AI研究领域三十年间国家间的合作与引用网络. 研究发现, 美国和中国在合作与引用两方面长期分化, 形成了两个核心, 而其他国家的整合模式则揭示了不同的地缘政治影响力格局.

Provable Coordination for LLM Agents via Message Sequence Charts

Benedikt Bollig, Matthias Függer, Thomas Nowak

cs.PL cs.AI

本文提出了一种基于message sequence charts (MSCs)的领域特定语言, 用于形式化地指定LLM智能体之间的协调结构. 该语言将消息传递结构与不确定的LLM行为分离, 并通过语法导向的投影生成无死锁的本地智能体程序, 从而独立于LLM的非确定性来保证协调属性.

On The Mathematics of the Natural Physics of Optimization

I. M. Ross

math.OC cs.AI cs.LG math-ph math.NA

本文提出了一种将优化算法视为遵循某种非牛顿动力学的隐藏原语的理论. 通过将最优控制问题的终端横截条件等同于优化问题的广义KKT条件, 构建了一个描述优化过程的"自然物理"框架, 并展示了如何生成多种算法.

Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation

Vaibhavi Lokegaonkar et al.

cs.SD cs.AI cs.CL cs.CV cs.LG

本文提出了一种结合autoregressive planning与diffusion-based synthesis的模型Video-Robin, 用于根据视频和文本描述生成背景音乐. 该方法在推理速度上优于现有技术, 并提供了更好的语义对齐和用户控制.

Towards Self-Improving Error Diagnosis in Multi-Agent Systems

Jiazheng Li et al.

cs.MA cs.CL

本文提出了一个名为 ErrorProbe 的自改进框架，用于在多智能体系统中进行语义错误归因。该框架通过一个三阶段流程来定位错误步骤和责任智能体，并利用已验证的 episodic memory 实现无需标注的跨领域知识迁移。

Path-Based Quantum Meta-Learning for Adaptive Optimization of Reconfigurable Intelligent Surfaces

Noha Hassan, Xavier Fernando, Halim Yanikomeroglu

eess.SY cs.LG

本文提出了一种基于路径的量子元学习算法, 用于动态环境中可重构智能表面(RIS)的自适应相位优化. 该方法通过历史性能、能耗和当前数据速率在预定义的量子路径间切换, 以提升频谱效率和收敛速度.

Improving reproducibility by controlling random seed stability in machine learning based estimation via bagging

Nicholas Williams, Alejandro Schuler

stat.ME cs.LG stat.ML

本文提出了一种通过控制随机种子稳定性来提高机器学习估计可重复性的方法. 该方法利用subbagging技术来保证稳定性, 并引入了adaptive cross-bagging这一新的交叉拟合程序.

WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference

Zixuan Liu et al.

cs.IT cs.AI

本文提出了一种名为WISV的分布式推测解码框架，用于优化设备-边缘大语言模型推理。该方法通过集成信道状态信息的语义验证策略，动态评估推测生成的token，以减少通信开销并提升推理效率。实验表明，WISV在保持精度的同时，显著提升了接受序列长度并降低了延迟。

Program Structure-aware Language Models: Targeted Software Testing beyond Textual Semantics

Khang Tran et al.

cs.SE cs.LG

本文提出了一个名为GLMTest的程序结构感知大语言模型框架, 用于生成针对特定执行分支的测试用例. 该方法结合了代码属性图(CPG)和代码语义, 通过图神经网络和语言模型来引导测试生成, 在基准测试上提升了分支覆盖的准确性.

GeGS-PCR: Effective and Robust 3D Point Cloud Registration with Two-Stage Color-Enhanced Geometric-3DGS Fusion

Jiayi Tian et al.

cs.CV cs.AI

本文提出了一种结合几何、颜色与Gaussian信息的两阶段点云配准方法GeGS-PCR. 该方法通过颜色编码器与Geometric-3DGS模块增强特征, 并利用LORA优化与可微渲染提升配准精度, 在低重叠率场景下取得了优异性能.

Voronoi-guided Bilateral 2D Gaussian Splatting for Arbitrary-Scale Hyperspectral Image Super-Resolution

Jie Zhang et al.

cs.CV cs.AI

本文提出了一种基于2D Gaussian Splatting的任意尺度高光谱图像超分辨率框架GaussianHSI. 它通过Voronoi引导的双边高斯分布聚合进行空间重建, 并引入光谱细节增强模块来改善光谱保真度.

Community-Led AI Integration for Wildfire Risk Assessment: A Participatory AI Literacy and Explainability Integration (PALEI) Framework in Los Angeles, CA

Sanaz Sadat Hosseini et al.

cs.CY cs.AI

本文提出了一种名为PALEI的社区参与式框架, 用于将AI集成到野火风险评估中. 该研究强调在部署预测模型之前进行AI素养建设和价值对齐, 并最终共同设计了一款移动应用, 旨在通过提升透明度和本地相关性来建立公众信任.

A Quasi-Experimental Developer Study of Security Training in LLM-Assisted Web Application Development

Mohammed Kharma et al.

cs.CR cs.LG

本文通过一项准实验研究, 探讨了在LLM辅助的Web应用开发中, 基于分层的安全培训是否与安全质量的提升相关. 研究结果表明, 培训后开发者的安全漏洞显著减少, 但作者强调这并不能替代其他安全实践.

AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models

Tingzheng Jia et al.

cs.RO cs.AI

本文提出了一种名为AnchorRefine的分层框架，用于改进vision-language-action (VLA)模型在机器人操作任务中的性能。该框架将动作生成分解为轨迹锚点规划和残差细化两个阶段，以更好地协调全局运动与局部精细调整。实验表明，该方法能提升多种VLA基干模型在仿真和真实环境中的成功率。

DuQuant++: Fine-grained Rotation Enhances Microscaling FP4 Quantization

Haokun Lin et al.

cs.CV cs.AI cs.CL

本文提出DuQuant++方法, 通过将细粒度旋转与MXFP4微缩放格式对齐, 优化了低精度(4-bit)量化. 该方法简化了处理激活值异常值的流程, 在LLaMA-3模型上取得了先进的性能.

Party Autonomy in Determining the Law Applicable to Non-contractual Obligations concerning Cross-Border Data Transfers

Yuki Okamura et al.

cs.CY cs.AI cs.CR

本文探讨了在涉及跨境数据传输的非合同义务中, 如何通过当事人意思自治(party autonomy)来确定准据法的问题. 作者认为, 在数据碎片化存储于全球多法域的背景下, 传统的、依赖物理位置的国际私法规则面临挑战, 而将非合同义务的准据法与当事人选择的合同义务准据法相协调, 是一种可行的"私人秩序"(private ordering)解决方案.

Enabling AI ASICs for Zero Knowledge Proof

Jianming Tong et al.

cs.AR cs.CL cs.CR cs.DS cs.PL

本文提出了MORPH框架, 将ZKP (Zero-Knowledge Proof) 的核心计算任务(如MSM和NTT)重新表述以适应AI ASIC (如TPU) 的硬件架构. 通过引入硬件感知的Big-T复杂度模型并设计新的算法与数据流, 该框架在TPU上实现了比现有方案更高的计算吞吐量.

Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective

Meifang Chen et al.

cs.CR cs.AI

本文从 tokenization 的角度探讨了 Code LLMs 中代码秘密泄露的风险。研究发现，BPE tokenization 会导致一种称为 "gibberish bias" 的意外记忆行为，使得某些高字符熵但低 token 熵的秘密容易被模型记忆。

Navigating the Conceptual Multiverse

Andre Ye et al.

cs.HC cs.CL cs.CY

本文提出了一种名为"conceptual multiverse"的交互式系统, 用于可视化语言模型在回答开放性问题时所做的隐含决策. 该系统允许用户检查、干预这些决策, 并对照领域知识进行验证, 在多个领域帮助用户更好地理解问题.

Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots

Shiquan Zhang et al.

cs.HC cs.AI cs.MA

本文通过构建DailyDroid基准测试，评估了纯文本与多模态输入下LLM驱动的智能手机自动化代理的性能。研究发现两者表现相近，并分析了导致任务失败的常见原因，如UI可访问性和输入模式等问题。

A novel LSTM music generator based on the fractional time-frequency feature extraction

Li Ya et al.

cs.SD cs.AI cs.CL

本文提出了一种结合分数阶傅里叶变换(FrFT)和长短期记忆网络(LSTM)的音乐生成方法. 该方法利用FrFT提取音乐信号的时频特征, 并以此训练LSTM模型进行音乐预测与生成.

Learning from AVA: Early Lessons from a Curated and Trustworthy Generative AI for Policy and Development Research

Nimisha Karnatak et al.

cs.HC cs.AI

本文介绍了一个名为AVA的生成式AI平台, 它基于一个包含4000多份世界银行报告的精选库构建, 旨在为政策和发展研究提供可信赖的信息合成. 该平台通过可验证的引用和有理由的弃权等机制来操作认知谦逊, 并通过一项涉及2200多人的实地评估展示了其在节省时间方面的效果.

AI Approach for MRI-only Full-Spine Vertebral Segmentation and 3D Reconstruction in Paediatric Scoliosis

Nathasha Naranpanawa et al.

cs.CV cs.AI

本文提出了一种基于AI的框架, 用于从儿科脊柱侧凸患者的MRI图像中实现全自动的胸腰椎(T1-L5)分割和3D重建. 该方法利用GAN生成合成MRI数据训练U-Net模型, 显著提升了分割精度和处理速度, 为无辐射的3D脊柱畸形评估提供了可能.

Periodic Steady-State Control of a Handkerchief-Spinning Task Using a Parallel Anti-Parallelogram Tendon-driven Wrist

Lei Liu et al.

cs.RO cs.AI

本文设计了一种基于并联反平行四边形肌腱驱动结构的灵巧手腕, 用于控制手帕旋转任务. 通过分层控制方案和面向控制的粒子-弹簧模型, 在硬件实验中实现了高动态旋转.

Scaling Human-AI Coding Collaboration Requires a Governable Consensus Layer

Tianfu Wang et al.

cs.SE cs.HC cs.LG

本文提出了一种名为Agentic Consensus的新范式, 旨在解决AI辅助编程中代码生成缺乏可追溯性和结构透明度的问题. 该范式引入一个可操作的共识层作为主要工程制品, 并设计了相应的同步机制与评估指标.

Prompting Foundation Models for Zero-Shot Ship Instance Segmentation in SAR Imagery

Islam Mansour, Francescopaolo Sica, Michael Schmitt

cs.CV cs.AI cs.LG

本文提出了一种利用通用视觉基础模型实现SAR图像中船舶零样本实例分割的方法. 该方法结合YOLOv11检测器和SAM2模型, 无需像素级标注即可生成实例掩码, 并在SSDD基准上取得了接近全监督基线的性能.

Brain-Inspired Capture: Evidence-Driven Neuromimetic Perceptual Simulation for Visual Decoding

Feixue Shao et al.

cs.CV cs.AI

本文提出了一种受生物视觉系统启发的神经模拟感知模拟方法, 用于从神经信号中解码视觉信息. 该方法通过模拟人类视觉系统的处理流程并引入证据驱动的潜在表示, 在零样本脑到图像检索任务上取得了优于现有方法的结果.

From Heads to Neurons: Causal Attribution and Steering in Multi-Task Vision-Language Models

Qidong Wang, Junjie Hu, Ming Jiang

cs.CV cs.CL

本文提出了一个名为HONES的无梯度框架, 用于在多任务视觉语言模型中进行任务感知的神经元归因与调控. 该方法通过条件于任务相关attention heads来评估FFN神经元的重要性并进行轻量级缩放, 在多个任务和模型上验证了其在识别关键神经元和提升性能方面的有效性.

RAVEN: Retrieval-Augmented Vulnerability Exploration Network for Memory Corruption Analysis in User Code and Binary Programs

Parteek Jamwal et al.

cs.CR cs.AI cs.MA

本文提出了一个名为RAVEN的框架, 它利用LLM agents和RAG技术, 旨在为给定的漏洞源代码自动生成结构化的漏洞分析报告. 该框架包含多个模块, 并通过一个专门的LLM Judge来评估报告质量, 在NIST-SARD数据集上的实验显示了其有效性.

Complex normalizing flows can be information Kähler-Ricci flows

Andrew Gracyk

math.DG cs.LG

本文探讨了复归一化流与Kähler-Ricci流之间的潜在联系。作者指出，在特定条件下，复归一化流中的对数行列式项与Kähler流形中的Ricci曲率项相关联，从而将统计学习中的流模型与微分几何中的流联系起来。

The Umwelt Representation Hypothesis: Rethinking Universality

Victoria Bosch et al.

q-bio.NC cs.LG

本文对人工神经网络与生物大脑表征对齐现象背后的"普适性"假说提出质疑, 提出了"Umwelt表征假说". 该假说认为对齐源于系统发育所依赖的生态约束的重叠, 而非趋同于单一最优表征.

Mitigating Multimodal Hallucination via Phase-wise Self-reward

Yu Zhang et al.

cs.CV cs.CL

本文提出了一种名为PSRD的在线幻觉校正方法, 用于缓解大型视觉语言模型(LVLMs)中的视觉幻觉问题. 该方法通过阶段性的自奖励信号在推理时进行动态干预, 无需外部监督或大规模微调.

Latent Fourier Transform

Mason Wang, Cheng-Zhi Anna Huang

cs.SD cs.AI

本文提出了Latent Fourier Transform (LatentFT)框架, 为生成式音乐模型引入了新颖的频域控制. 该方法结合了diffusion autoencoder与latent-space Fourier transform, 通过训练时在频域对latent进行masking, 实现了在推理时对不同时间尺度音乐特征的连贯操控.

Diversity Collapse in Multi-Agent LLM Systems: Structural Coupling and Collective Failure in Open-Ended Idea Generation

Nuo Chen et al.

cs.MA cs.AI cs.CL

本文研究了多智能体大语言模型系统在开放式创意生成任务中的多样性崩溃现象. 作者通过模型、认知和系统三个层面的实证分析，揭示了交互结构如何导致探索空间收缩和集体失败.

Boltzmann Machine Learning with a Parallel, Persistent Markov chain Monte Carlo method for Estimating Evolutionary Fields and Couplings from a Protein Multiple Sequence Alignment

Sanzo Miyazawa

q-bio.BM cond-mat.stat-mech cs.LG stat.ML

本文采用并行、持续的Markov chain Monte Carlo方法加速Boltzmann machine learning, 用于从蛋白质多序列比对中估计进化场和耦合. 该方法通过调整超参数以满足蛋白质构象的特定条件, 并应用于八个蛋白质家族.

CodePivot: Bootstrapping Multilingual Transpilation in LLMs via Reinforcement Learning without Parallel Corpora

Shangyu Li et al.

cs.SE cs.CL

本文提出了一个名为CodePivot的训练框架，它利用Python作为中间表示，并结合一种新的强化学习奖励机制，来提升大型语言模型的多语言代码转译能力，且无需平行语料库。实验表明，该方法在涉及10种编程语言的转译任务上表现优异，甚至超越了参数量大得多的主流模型。

First, Do No Harm (With LLMs): Mitigating Racial Bias via Agentic Workflows

Sihao Xing, Zaur Gouliev

cs.CY cs.AI

本文评估了五个大型语言模型在临床任务中的种族偏见, 并探讨了基于检索的智能体工作流对缓解显性偏见的潜在作用. 研究发现, 所有模型在生成合成病例时都偏离了实际的种族分布, 而在诊断任务中, DeepSeek V3 在智能体工作流下部分指标有所改善.

ExAI5G: A Logic-Based Explainable AI Framework for Intrusion Detection in 5G Networks

Saeid Sheikhi, Panos Kostakos, Lauri Loven

cs.CR cs.AI cs.LG

本文提出了一种用于5G网络入侵检测的可解释AI框架ExAI5G, 它结合了Transformer深度学习模型与基于逻辑的XAI技术. 该框架通过Integrated Gradients和代理决策树提取逻辑规则, 并引入了一种评估LLM生成解释的新方法, 在5G IoT数据集上实现了高精度和高保真度的规则提取.

Enhancing Anomaly-Based Intrusion Detection Systems with Process Mining

Francesco Vitale et al.

cs.CR cs.LG cs.NI

本文提出了一种利用 process mining 技术来增强基于异常的入侵检测系统的方法. 该方法通过分析数据包序列来提供基于过程的警报严重性评级和解释, 在公开数据集上的实验表明其能有效区分不同严重程度的警报并保持高召回率与精确度.

Class-specific diffusion models improve military object detection in a low-data domain

Ella P. Fokkinga et al.

cs.CV cs.AI

本文研究了在低数据条件下, 使用 class-specific diffusion models 生成合成图像来提升军事车辆检测性能. 实验表明, 基于 FLUX.1 模型生成的图像, 特别是结合 ControlNet 进行结构引导后, 能有效提升检测器的 mAP$_{50}$ 指标.

Dynamic Risk Assessment by Bayesian Attack Graphs and Process Mining

Francesco Vitale et al.

cs.CR cs.LG cs.NI

本文结合 Bayesian Attack Graphs (BAGs) 与 process mining 技术，提出了一种动态网络安全风险评估方法。该方法通过在线监控网络行为来更新攻击图中漏洞被利用的概率，并在一个包含多个漏洞的测试平台上验证了其有效性。

Autonomous Unmanned Aircraft Systems for Enhanced Search and Rescue of Drowning Swimmers: Image-Based Localization and Mission Simulation

Sascha Emanuel Zell et al.

cs.CV cs.AI stat.AP

本文提出了一种用于增强溺水者搜救的自主无人机系统(UAS), 该系统利用基于YOLO的图像目标检测架构自动定位遇险者, 并通过离散事件仿真评估其相对于标准救援操作的响应时间优势. 针对德国一处湖泊区域的实验表明, 即使是一个小型UAS配置也能显著缩短响应时间.

The Collaboration Gap in Human-AI Work

Varad Vishwarupe et al.

cs.HC cs.AI cs.IR cs.LG

本文通过访谈研究提出了一个理解人类与LLM协作脆弱性的概念框架, 区分了三种协作结构, 并指出稳定的协作依赖于交互的"基础条件(grounding conditions)", 而不仅仅是模型能力.

NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR

Yuan Xie et al.

eess.AS cs.CL cs.SD

本文提出了一个面向生产的、基于大语言模型的自动语音识别框架NIM4-ASR，旨在解决现有方法在资源受限部署和噪声环境下的效率与鲁棒性问题。它通过重新设计多阶段训练范式、引入专门的强化学习阶段以及集成检索增强生成等技术，在多个基准测试上取得了先进性能，并支持低延迟的热词定制。

Soft Label Pruning and Quantization for Large-Scale Dataset Distillation

Xiao Lingao, Yang He

cs.CV cs.AI cs.LG

本文提出了一种用于大规模数据集蒸馏的标签剪枝与量化方法(LPQLD). 该方法通过提升合成图像的多样性和监督信号的多样性, 显著减少了所需存储的辅助软标签大小, 并在ImageNet等数据集上实现了更高的准确率.

AQPIM: Breaking the PIM Capacity Wall for LLMs with In-Memory Activation Quantization

Kosuke Matsushima et al.

cs.AR cs.AI cs.LG

本文提出了一种面向PIM架构的激活量化框架AQPIM, 它基于Product Quantization, 旨在解决大语言模型中KV cache导致的PIM内存容量瓶颈问题. 该方法通过在内存内直接进行量化计算, 减少了数据传输和注意力计算开销.

Distributional Off-Policy Evaluation with Deep Quantile Process Regression

Qi Kuang et al.

stat.ML cs.LG stat.ME

本文提出了一种基于深度分位数过程回归的分布式离策略评估方法, 用于估计回报的完整分布而非仅仅是期望. 该方法在理论上分析了深度神经网络的样本复杂度, 并在实验中显示出比标准方法更精确和稳健的估计效果.

Region-Grounded Report Generation for 3D Medical Imaging: A Fine-Grained Dataset and Graph-Enhanced Framework

Cong Huy Nguyen et al.

cs.CV cs.AI

本文提出了一个用于3D医学影像报告生成的细粒度数据集和一个图增强框架. 该方法通过引入区域标注和图结构来模拟放射科医生的诊断流程, 在临床指标上取得了显著提升.

Attention-ResUNet for Automated Fetal Head Segmentation

Ammar Bhilwarawala, Mainak Bandyopadhyay

cs.CV cs.LG

本文提出了一种结合了residual learning与multi-scale attention mechanisms的Attention-ResUNet架构, 用于自动化胎儿头部超声图像分割. 该模型在HC18数据集上取得了优异的Dice分数, 超越了多个基线模型, 并保持了计算效率.

mlr3torch: A Deep Learning Framework in R based on mlr3 and torch

Sebastian Fischer et al.

stat.ML cs.LG

本文介绍了基于mlr3生态系统的R包mlr3torch, 它利用torch包简化了神经网络的构建、训练与评估流程. 该包支持预定义架构, 允许用户以图(graph)的形式定义包含预处理和网络架构的完整工作流, 并集成了mlr3的便捷功能如重采样和基准测试.

Committed SAE-Feature Traces for Audited-Session Substitution Detection in Hosted LLMs

Ziyang Liu

cs.CR cs.AI

本文提出了一种基于承诺-打开协议的方法来检测托管LLM服务中的会话替换攻击. 该方法要求服务提供商预先承诺其输出在特定层的稀疏自编码器特征轨迹, 验证者通过随机打开和评分来验证模型的一致性. 实验表明该方法能有效抵御多种攻击, 且计算开销较低.

Audio-DeepThinker: Progressive Reasoning-Aware Reinforcement Learning for High-Quality Chain-of-Thought Emergence in Audio Language Models

Xiang He et al.

cs.SD cs.CL

本文提出了Audio-DeepThinker框架，通过结合混合推理相似度奖励和渐进式两阶段课程，在纯强化学习探索下促使音频语言模型产生高质量的思维链推理。该方法在多个音频推理基准上取得了领先的性能，并提供了对推理过程涌现机制的解释。

DiffuSAM: Diffusion Guided Zero-Shot Object Grounding for Remote Sensing Imagery

Geet Sethi et al.

cs.CV cs.LG

本文提出了一种结合 diffusion model 与 segmentation model 的混合 pipeline, 用于遥感图像中的 zero-shot object grounding. 该方法利用 diffusion model 提供定位线索, 再结合 SAM 等分割模型生成更精确的 bounding box, 在实验中提升了定位性能.

Centre manifold theorem for maps along manifolds of fixed points

Lachlan Ewen MacDonald

math.DS cs.LG

本文针对具有固定点流形边界的映射，证明了一个中心流形定理。该结果被应用于分析具有大步长的梯度下降法在双层矩阵分解问题中的行为。

A Counterexample to EFX; $n \ge 3$ Agents, $m \ge n + 5$ Items, Monotone Valuations; via SAT-Solving

Hannaneh Akrami et al.

cs.GT cs.DS

本文利用SAT求解技术研究了离散物品公平分配中的EFX存在性问题. 对于三个智能体和七个物品的情况, 证明了EFX分配总是存在; 而对于$n \ge 3$个智能体和$m \ge n + 5$个物品的情况, 则构造了一个反例. 该反例通过将问题编码为SAT公式并求解得到, 其正确性在LEAN中进行了形式化验证.

EEG-Based Emergency Braking Intensity Prediction Using Blind Source Separation

Zikun Zhou et al.

cs.HC cs.LG

本文提出了一种基于EEG信号的紧急制动强度预测新框架. 该方法利用盲源分离技术提取与制动动作相关的神经成分, 并结合历史数据进行预测, 在两个数据集上取得了优于现有方法的结果.

WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

Xinping Lei et al.

cs.SE cs.AI

本文提出了一个名为WebCompass的多模态基准，用于评估代码语言模型在网页编码任务上的能力。该基准涵盖了文本、图像和视频输入，并模拟了生成、编辑和修复的完整工作流程。

Is SAM3 ready for pathology segmentation?

Qiuyu Kong et al.

cs.CV cs.AI

本文系统评估了SAM3在病理图像分割任务中的能力. 实验表明, 其在零样本和少样本设置下表现有限, 与基于适配器的任务训练方法存在显著差距.

Aether: Network Validation Using Agentic AI and Digital Twin

Jordan Auge et al.

cs.MA cs.AI

本文提出了一种名为Aether的系统, 它结合了生成式智能体AI与多功能网络数字孪生技术, 旨在自动化网络变更验证流程. 该系统通过多个专用AI智能体的协作, 利用集成了建模、仿真和模拟的数字孪生来执行验证, 并在评估中展示了较高的错误检测率和效率.

Horospherical Depth and Busemann Median on Hadamard Manifolds

Yangdi Jiang, Xiaotian Chang, Cyrus Mostajeran

math.ST cs.LG stat.ML

本文在Hadamard流形上引入了horospherical depth这一统计深度概念，并定义了其最大化点集Busemann median. 该方法利用Busemann函数作为半空间的本质替代，无需线性化或选择基点. 论文证明了深度区域的凸性、中心点的存在性，并在负曲率条件下建立了唯一性和鲁棒性.

Beyond Pattern Matching: Seven Cross-Domain Techniques for Prompt Injection Detection

Thamilvendhan Munirathinam

cs.CR cs.CL

本文提出了七种跨领域技术用于检测prompt injection, 其中三种已在工具中实现并评估. 这些方法借鉴了法证语言学、材料科学疲劳分析等不同学科的思想, 在多个数据集上提升了检测性能.

Style-Based Neural Architectures for Real-Time Weather Classification

Hamed Ouattara et al.

cs.CV cs.AI cs.LG stat.AP

本文提出了三种基于风格迁移思想的神经网络架构, 用于从图像中实时分类天气状况. 这些模型在多个公开数据集上展现了优异的性能与泛化能力, 其设计思路也可适用于其他基于外观的分类任务.

Domain-Specialized Object Detection via Model-Level Mixtures of Experts

Svetlana Pavlitska et al.

cs.CV cs.LG

本文提出了一种用于目标检测的模型级Mixture-of-Experts (MoE)架构。该架构结合了在语义不相交数据子集上训练的YOLO检测器，并通过学习的门控网络动态加权专家贡献。在BDD100K数据集上的实验表明，该方法优于标准集成方法，并提供了跨领域专家专业化的见解。

Long-Text-to-Image Generation via Compositional Prompt Decomposition

Jen-Yuan Huang, Tong Lin, Yilun Du

cs.CV cs.AI

本文提出了一种名为PRISM的模块化方法, 用于提升预训练text-to-image模型处理长文本提示的能力. 该方法通过分解长提示为多个组成部分, 并利用基于能量的融合技术进行独立去噪预测的合并, 在多个模型架构上取得了与微调方法相当的性能, 并在长提示场景下展现出更好的泛化能力.

DeepRitzSplit Neural Operator for Phase-Field Models via Energy Splitting

Chih-Kang Huang et al.

math.AP cs.LG math.NA

本文提出了一种结合能量分裂方案与物理信息学习的神经算子方法, 用于加速相场模型的模拟. 该方法基于 Deep Ritz 方法, 通过训练神经算子来近似相场模型的变分形式, 并引入定制的反应-扩散神经算子架构. 在 Allen-Cahn 方程和各向异性枝晶生长模拟中的应用表明, 该方法比传统谱方法具有更快的推理速度.

Incremental learning for audio classification with Hebbian Deep Neural Networks

Riccardo Casciotti et al.

eess.AS cs.LG

本文提出了一种基于Hebbian learning的kernel plasticity方法, 用于音频分类的增量学习. 该方法在ESC-50数据集上取得了优于基线的性能, 并展现出更好的任务间稳定性.

Block-encodings as programming abstractions: The Eclipse Qrisp BlockEncoding Interface

Matic Petrič, René Zander

quant-ph cs.ET cs.LG cs.MS cs.PL

本文介绍了Eclipse Qrisp框架中的BlockEncoding接口, 旨在将block-encoding技术提升为一种高级编程抽象, 以简化量子算法的实现. 文章详细阐述了该接口的软件架构, 并通过代码示例展示了其在矩阵求逆和哈密顿量模拟等算法中的应用.

Symmetry Guarantees Statistic Recovery in Variational Inference

Daniel Marks, Dario Paccagnan, Mark van der Wilk

stat.ML cs.LG

本文为变分推断中的对称性保证统计量恢复提供了一个一般性理论框架. 该框架统一了现有结果, 并应用于球面分布以得到新的理论保证.

Predictive Modeling of Natural Medicinal Compounds for Alzheimer Disease Using Cheminformatics

Hafiza Syeda Yusra Tirmizi et al.

q-bio.OT cs.LG

本文提出了一种基于化学信息学的预测模型, 用于筛选具有潜在抗阿尔茨海默病活性的天然药用化合物. 该模型利用分子描述符和机器学习方法, 从超过7000种化合物中识别出73个候选分子.

Overcoming Selection Bias in Statistical Studies With Amortized Bayesian Inference

Jonas Arruda et al.

stat.ML cs.LG stat.ME

本文提出了一种基于摊销贝叶斯推断的模拟推理框架, 用于处理统计研究中的选择偏差问题. 该方法将选择机制嵌入生成模拟器, 无需可处理的似然函数, 并在多个统计应用中展示了其有效性.

EVE: Verifiable Self-Evolution of MLLMs via Executable Visual Transformations

Yongrui Heng et al.

cs.CV cs.AI

本文提出了一种名为EVE的可验证自进化框架, 用于多模态大语言模型(MLLMs). 它通过可执行的视觉变换生成具有绝对真实答案的VQA问题, 避免了伪标签的质量退化问题.

AdaCluster: Adaptive Query-Key Clustering for Sparse Attention in Video Generation

Haoyue Tan et al.

cs.CV cs.AI

本文提出了一种名为AdaCluster的训练无关自适应聚类框架, 用于加速Video Diffusion Transformers (DiTs)中的注意力计算. 该方法通过为query和key向量设计不同的相似度保持聚类策略, 实现了显著的推理加速, 同时保持了生成质量.

Tight Auditing of Differential Privacy in MST and AIM

Georgi Ganev, Meenatchi Sundaram Muthu Selva Annamalai, Bogdan Kulynych

cs.CR cs.AI cs.LG

本文提出了一种基于Gaussian Differential Privacy (GDP)的审计框架, 用于严格评估MST和AIM等差分隐私合成数据生成器的隐私保障. 该方法通过完整的假阳性/假阴性权衡来度量隐私, 并在强隐私机制下为这些生成器提供了首个紧致的审计结果.

Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval

HaeJun Yoo et al.

cs.SD cs.CL

本文提出了Omni-Embed-Audio (OEA)模型，利用具有原生音频理解能力的多模态LLM进行音频-文本检索。为了评估模型在真实用户查询下的鲁棒性，作者引入了User-Intent Queries (UIQs)基准，并设计了针对困难负样本的评估指标。实验表明，OEA在复杂查询理解和困难负样本区分方面优于基于CLAP的现有方法。

Dissecting AI Trading: Behavioral Finance and Market Bubbles

Shumiao Ouyang, Pengfei Sui

econ.GN cs.AI q-fin.GN

本文通过模拟实验研究了AI智能体在资产市场中的交易行为. 研究发现, AI智能体表现出处置效应和近期加权外推信念等经典行为模式, 这些个体行为会聚合成与经典实验一致的市场动态.

Spectral bandits for smooth graph functions

Michal Valko et al.

stat.ML cs.LG

本文研究了图上的平滑函数在bandit问题中的应用, 提出了基于图拉普拉斯矩阵谱分解的算法. 通过引入有效维度的概念, 算法在真实世界图数据上实现了次线性的累积遗憾.

Revisiting Change VQA in Remote Sensing with Structured and Native Multimodal Qwen Models

Yakoub Bazi et al.

cs.CV cs.AI

本文在遥感图像的Change VQA任务中，对比了结构化视觉语言模型Qwen3-VL与原生多模态模型Qwen3.5的性能。实验表明，原生多模态架构在此任务上优于结构化视觉语言流程，且模型性能并非随规模单调增长。

Random Matrix Theory of Early-Stopped Gradient Flow: A Transient BBP Scenario

Florentin Coeurdoux, Grégoire Ferré, Jean-Philippe Bouchaud

stat.ML cs.LG math.ST

本文在随机矩阵理论框架下, 研究了线性师生模型中梯度流的早期停止现象. 通过分析输入协方差矩阵的各向异性如何导致学习动力学的快慢方向, 作者构建了一个可解析处理的模型, 描述了信号在有限时间窗口内可被检测的瞬态现象.

ESsEN: Training Compact Discriminative Vision-Language Transformers in a Low-Resource Setting

Clayton Fields, Casey Kennington

cs.CV cs.CL

本文提出了一种名为ESsEN的紧凑视觉-语言Transformer模型, 旨在低资源环境下进行训练. 通过采用双塔编码器架构并融入传统卷积网络, 该模型在参数效率上表现优异, 并在多个判别性任务上取得了与大型模型相当的性能.

Progressive Online Video Understanding with Evidence-Aligned Timing and Transparent Decisions

Kecheng Zhang et al.

cs.CV cs.AI

本文提出了一种用于在线视频理解的框架，它将推理控制与记忆整合解耦。该框架包含一个透明的决策器和一个高效的分层语义整合模块，旨在实现证据对齐的响应时机和透明的决策过程。

Asset Harvester: Extracting 3D Assets from Autonomous Driving Logs for Simulation

Tianshi Cao et al.

cs.CV cs.AI cs.GR cs.LG

本文提出了一种名为Asset Harvester的端到端系统，用于从自动驾驶日志中稀疏的、真实世界的物体观测数据中提取完整的、可用于仿真的3D资产。该系统结合了大规模以物体为中心的元组数据整理、跨异构传感器的几何感知预处理，以及一个将稀疏视图条件多视图生成与3D高斯提升相结合的鲁棒训练方案。

Physics-Informed Neural Networks: A Didactic Derivation of the Complete Training Cycle

Abdeladhim Tahimi

math.NA cs.LG

本文通过一个一阶常微分方程初值问题的具体例子, 详细推导了 Physics-Informed Neural Network (PINN) 的完整训练过程. 它手动计算了前向传播、损失函数评估、反向传播和梯度下降更新, 旨在为理解 PINN 的底层数学原理提供一个教学式的指南.

Safe Control using Learned Safety Filters and Adaptive Conformal Inference

Sacha Huriot, Ihab Tabbara, Hussein Sibai

eess.SY cs.LG cs.RO

本文提出了一种结合学习型安全滤波器与自适应共形推断的方法, 用于提升控制系统的安全性. 该方法通过动态调整切换阈值, 在仿真环境中相比固定阈值基线取得了更优的安全性能.

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Jinghui Lu et al.

cs.CV cs.CL cs.RO

本文提出了一种名为OneVL的视觉-语言模型框架, 旨在解决自动驾驶轨迹预测中Chain-of-Thought推理的延迟问题. 该方法通过引入视觉世界模型解码器来监督紧凑的潜在表征, 实现了在单次并行推理中完成规划, 在保持高精度的同时达到了仅预测答案的推理速度.

Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints

Hao Meng et al.

cs.SD cs.CL eess.AS

本文提出了一种用于歌词到旋律生成的语言模型对齐框架, 通过基于规则的音乐约束自动构建偏好数据, 并依次使用DPO和KTO进行模型对齐. 该方法有效减少了音乐规则违反, 在客观和主观评估中均优于基线模型.

Learning the Riccati solution operator for time-varying LQR via Deep Operator Networks

Jun Chen, Umberto Biccari, Junmin Wang

math.OC cs.AI cs.LG

本文提出了一种基于DeepONet的算子学习方法, 用于近似时变LQR问题中微分Riccati方程的解算子. 该方法将在线求解非线性矩阵微分方程的计算负担转移到离线学习阶段, 从而在多种系统配置下实现快速近似最优反馈控制.

Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks

Md Rysul Kabir, Zoran Tiganj

cs.CR cs.AI cs.CL

本文研究了通过三种不同方法（有害监督微调、有害强化学习、拒绝抑制消除）使语言模型产生有害行为的差异。这些方法都能达到很高的有害指令遵从率，但在模型能力、安全判断和行为模式上表现出显著区别。

UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

Jiaqi Wang et al.

cs.CV cs.LG

本文提出了一种将Uniform Discrete Diffusion Model (UDM) 与强化学习 (RL) 相结合的新框架UDM-GRPO. 该方法通过将最终生成的干净样本作为动作, 并利用扩散前向过程重构轨迹, 提升了训练的稳定性与性能, 在多个文本到图像 (T2I) 任务上取得了显著的性能提升.

Symbolic Synthesis for LTLf+ Obligations

Giuseppe De Giacomo et al.

cs.LO cs.AI cs.FL

本文研究了在无限迹上表达的LTLf+义务属性的综合问题. 它展示了这类属性可以转化为符号化表示的确定性弱自动机(DWA), 并探讨了相关的符号算法及其效率.

Duality for the Adversarial Total Variation

Leon Bungert, Lucas Schmitt

math.AP cs.LG math.FA math.OC

本文研究了二元分类器对抗训练中出现的非局部 total variation 的次微分特征。作者通过建立该 total variation 的对偶表示和相关分部积分公式，在连续函数空间和本质有界函数空间中给出了次微分的刻画。

FUSE: Ensembling Verifiers with Zero Labeled Data

Joonhyuk Lee et al.

stat.ML cs.CL cs.LG

本文提出了一种名为FUSE的无监督集成方法, 用于提升大型语言模型输出验证的质量. 该方法通过控制不同验证器之间的条件依赖关系, 利用谱算法在无需真实标签的情况下集成多个不完美的验证器.