bluearXiv-ai - 2026-03-23

📄 所有论文 ↑ 回顶部

cs.LG

Speculating Experts Accelerates Inference for Mixture-of-Experts

Vivan Madan et al.

cs.LG cs.AI

本文提出了一种用于Mixture-of-Experts (MoE)模型的专家预取方案，旨在减少CPU-GPU数据传输带来的推理延迟。该方法利用模型内部表示来推测未来将激活的专家，从而实现内存传输与计算的重叠，并在多个MoE架构上验证了其有效性。

A Visualization for Comparative Analysis of Regression Models

Nassime Mountasir et al.

cs.LG cs.AI stat.ML

本文提出了一种用于回归模型比较分析的可视化方法. 该方法通过在二维空间中展示两个模型的残差, 并结合Mahalanobis距离和基于百分位数的色彩映射, 来揭示传统聚合指标可能掩盖的误差分布模式.

Maximizing mutual information between user-contexts and responses improve LLM personalization with no additional data

Hyunji Nam, Haoran Li, Natasha Jaques

cs.LG cs.AI cs.CL

本文提出了一种名为 Mutual Information Preference Optimization (MIPO) 的对比数据增强方法，用于提升大型语言模型(LLM)的个性化能力。该方法通过构造基于正确提示和随机提示的偏好对，并利用 Direct Preference Optimization (DPO) 进行训练，旨在最大化提示与模型响应之间的互信息。实验表明，该方法在个性化任务以及部分数学和选择题任务上取得了性能提升，且无需额外数据或人工监督。

BrainSCL: Subtype-Guided Contrastive Learning for Brain Disorder Diagnosis

Xiaolong Li et al.

cs.LG

本文提出了一种用于脑部疾病诊断的子类型引导对比学习框架, 通过无监督谱聚类从多模态数据中推断潜在患者亚型, 并利用双注意力机制构建亚型原型图来指导对比学习, 在多种精神障碍数据集上取得了优于现有方法的结果.

TTQ: Activation-Aware Test-Time Quantization to Accelerate LLM Inference On The Fly

Toshiaki Koike-Akino, Jing Liu, Ye Wang

cs.LG eess.SP

本文提出了一种名为TTQ的test-time quantization框架, 用于在推理时动态压缩大型模型. 该方法通过高效的在线校准实现即时激活感知量化, 以适应不同的下游任务并加速推理.

CLaRE-ty Amid Chaos: Quantifying Representational Entanglement to Predict Ripple Effects in LLM Editing

Manit Baser et al.

cs.LG

本文提出了一种名为CLaRE的轻量级表示层技术, 用于量化大型语言模型(LLM)中事实之间的表示纠缠(representational entanglement), 从而预测模型编辑可能产生的涟漪效应(ripple effects). 该方法通过分析单层前向激活来计算事实间的关联, 相比基于梯度的方法更高效, 并在多个基准测试中取得了更好的相关性.

A Dynamic Bayesian and Machine Learning Framework for Quantitative Evaluation and Prediction of Operator Situation Awareness in Nuclear Power Plants

Shuai Chen et al.

cs.LG

本文提出了一种结合动态贝叶斯网络与机器学习的框架(DBML SA), 用于对核电站操作员的情境感知进行量化评估与预测. 该框架利用历史事件报告数据, 实现了对情境感知可靠性的动态推理和基于性能影响因子的非线性预测.

PRIME-CVD: A Parametrically Rendered Informatics Medical Environment for Education in Cardiovascular Risk Modelling

Nicholas I-Hsien Kuo et al.

cs.LG

本文介绍了PRIME-CVD, 一个用于心血管风险建模教育的参数化合成数据环境. 它基于公开统计数据和流行病学效应估计生成两个合成数据集, 避免了真实患者数据的隐私风险, 旨在支持可重复的研究和医学教育.

Parameter-Efficient Token Embedding Editing for Clinical Class-Level Unlearning

Iyad Ait Hou et al.

cs.LG cs.AI

本文提出了一种用于临床语言模型类别级遗忘的参数高效方法STEU, 该方法仅更新少量token embedding和一个分类头, 在多个临床数据集和模型上实现了对目标类别的有效遗忘, 同时保持了模型在其余任务上的性能.

Exploring Subnetwork Interactions in Heterogeneous Brain Network via Prior-Informed Graph Learning

Siyu Liu et al.

cs.LG cs.AI

本文提出了一种名为KD-Brain的先验知识引导图学习框架，用于显式建模大脑功能子网络间的相互作用。该框架通过语义条件交互机制和病理一致性约束，将先验知识注入模型，以应对训练样本有限的问题，并在精神障碍诊断任务上取得了先进的性能。

GT-Space: Enhancing Heterogeneous Collaborative Perception with Ground Truth Feature Space

Wentao Wang, Haoran Xu, Guang Tan

cs.LG cs.AI cs.MA

本文提出了一个名为GT-Space的协作感知框架，用于处理自动驾驶中多智能体的异构特征融合问题。该方法通过构建一个基于真实标签的公共特征空间，简化了特征对齐过程，并在多个数据集上验证了其有效性。

MemReward: Graph-Based Experience Memory for LLM Reward Prediction with Limited Labels

Tianyang Luo et al.

cs.LG cs.AI

本文提出了一种基于图神经网络的奖励预测框架 MemReward, 用于解决大语言模型强化学习微调中奖励标签稀缺的问题. 该方法通过构建包含查询、思维过程和答案的异质图, 利用少量标注数据训练 GNN 来为未标注的 rollout 预测奖励, 在数学、问答和代码生成任务上, 仅使用 20% 的标签即可达到接近全标注的性能.

LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

Lucas Maes et al.

cs.LG cs.AI

本文提出了一种名为LeWorldModel的稳定端到端联合嵌入预测架构, 它仅使用两个损失项从原始像素进行训练, 避免了表示崩溃. 该模型在多种控制任务中表现良好, 且其潜在空间编码了有意义的物理结构.

DPxFin: Adaptive Differential Privacy for Anti-Money Laundering Detection via Reputation-Weighted Federated Learning

Renuga Kanagavelu et al.

cs.LG cs.CR

本文提出了一种名为DPxFin的联邦学习框架, 用于反洗钱检测. 该框架通过基于客户端信誉的自适应差分隐私来平衡隐私保护与模型效用.

MSNet and LS-Net: Scalable Multi-Scale Multi-Representation Networks for Time Series Classification

Celal Alagöz, Mehmet Kurnaz, Farhan Aadil

cs.LG

本文提出了两种可扩展的多尺度卷积网络架构MSNet和LS-Net, 用于整合时间序列的多种表示形式以提升分类性能. 实验表明, 多尺度多表示建模为不同应用场景提供了灵活的设计空间.

Ternary Gamma Semirings: From Neural Implementation to Categorical Foundations

Ruoqi Sun

cs.LG cs.AI

本文通过引入Ternary Gamma Semiring这一逻辑约束, 使神经网络在组合泛化任务上取得了显著提升. 研究将学习到的特征空间与有限交换三元$\Gamma$-semiring的代数结构联系起来, 为理解神经网络的泛化能力提供了一个数学框架.

A General Deep Learning Framework for Wireless Resource Allocation under Discrete Constraints

Yikun Wang et al.

cs.LG cs.AI cs.IT

本文提出了一种用于解决具有离散约束的无线资源分配问题的通用深度学习框架. 该框架通过引入支撑集来表示离散变量, 并学习其联合概率分布, 从而规避了反向传播中的零梯度问题, 并能自然地处理约束和非SPSD属性. 在两个混合离散无线资源分配问题上的仿真结果表明, 该框架在系统性能和计算效率上均优于现有基线方法.

Target Concept Tuning Improves Extreme Weather Forecasting

Shijie Ren et al.

cs.LG cs.AI

本文提出了一个名为TaCT的可解释概念门控微调框架, 用于改进深度学习模型在极端天气(如台风)预报中的表现. 该方法通过Sparse Autoencoders和反事实分析自动发现与预报失败相关的内部概念, 并仅在相关概念被激活时更新模型参数, 从而在提升极端事件预报能力的同时保持常规场景的性能.

FalconBC: Flow matching for Amortized inference of Latent-CONditioned physiologic Boundary Conditions

Chloe H. Choi, Alison L. Marsden, Daniele E. Schiavazzi

cs.LG stat.ML

本文提出了一种基于概率流匹配的通用摊销推断框架FalconBC, 用于处理心血管建模中边界条件的联合后验分布估计. 该方法将临床目标、流入特征和患者特定解剖结构的点云嵌入作为条件变量或联合估计量, 并在两个患者特异性模型上进行了验证.

Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions

Xiaoyi Li

cs.LG cs.AI

本文通过一个统一的框架OXRL对51种后训练对齐算法进行了大规模、受控的比较研究。研究发现，算法排名在不同模型规模下不稳定，损失函数修改带来的收益微乎其微，且算法效果高度依赖于具体任务。

DAPA: Distribution Aware Piecewise Activation Functions for On-Device Transformer Inference and Training

Maoyang Xiang, Bo Wang

cs.LG

本文提出了一种用于Transformer架构的硬件友好型激活函数DAPA. 它利用预激活数据的分布进行非均匀分段近似, 并通过量化优化硬件部署效率.

Beyond Weighted Summation: Learnable Nonlinear Aggregation Functions for Robust Artificial Neurons

Berke Deniz Bozyigit

cs.LG cs.AI

本文提出了两种可学习的非线性聚合函数(F-Mean神经元和Gaussian Support神经元)以及混合神经元结构, 用于替代传统人工神经元中固定的加权求和操作. 实验表明, 在带噪声的CIFAR-10数据集上, 混合神经元能有效提升神经网络的鲁棒性.

Anatomical Heterogeneity in Transformer Language Models

Tomasz Wietrzykowski

cs.LG cs.CL

本文通过多种诊断指标分析了Transformer语言模型的层间异质性, 发现各层在权重规律、重要性、恢复速度等方面存在显著差异. 基于此提出的Growth Transformer Training方法能大幅降低训练成本.

A Mathematical Theory of Understanding

Bahar Taşkesen

cs.LG cs.IT econ.TH

本文提出了一个关于"理解"的数学模型, 将学习者建模为一个具有概念先决条件结构的"心智". 该模型揭示了学习速度受限于先决条件结构和目标不确定性的双重约束, 并分析了广播式教学与个性化教学在效率上的差异.

Warm-Start Flow Matching for Guaranteed Fast Text/Image Generation

Minyoung Kim

cs.LG

本文提出了一种名为Warm-Start Flow Matching (WS-FM)的方法，旨在加速flow matching模型的采样过程。该方法利用一个快速但质量较低的轻量级生成模型来产生初始样本，从而减少高质量模型所需的采样步数，在保证生成质量的同时实现了可证明的加速。

Optimizing Resource-Constrained Non-Pharmaceutical Interventions for Multi-Cluster Outbreak Control Using Hierarchical Reinforcement Learning

Xueqiao Peng, Andrew Perrault

cs.LG

本文提出了一种基于 hierarchical reinforcement learning 的框架，用于优化资源受限的非药物干预措施在多疫情集群中的分配问题。该方法在模拟环境中表现优于基线，提升了疫情控制效果。

GeoLAN: Geometric Learning of Latent Explanatory Directions in Large Language Models

Tianyu Bell Pan, Damon L. Woodard

cs.LG cs.CG

本文提出了一个名为 GeoLAN 的训练框架，通过将 token 表示视为几何轨迹并应用受 Kakeya 猜想启发的约束条件来提升大语言模型的透明度。该方法引入了两个可微正则化器以促进各向同性和注意力多样性，实验表明其在保持任务性能的同时改善了某些几何指标和公平性。

Deep Hilbert--Galerkin Methods for Infinite-Dimensional PDEs and Optimal Control

Samuel N. Cohen et al.

cs.LG math.AP math.NA math.OC math.PR

本文针对可分Hilbert空间上的完全非线性二阶PDE（如无限维控制的HJB方程），提出了基于深度学习的近似方法。该方法通过参数化Hilbert--Galerkin神经算子来逼近解，并发展了相应的数值训练方法。

Global Convergence of Multiplicative Updates for the Matrix Mechanism: A Collaborative Proof with Gemini 3

Keith Rush

cs.LG cs.AI math.OC

本文分析了在正则化核范数目标优化中出现的定点迭代 $v \leftarrow \phi(v)$, 该问题源于私有机器学习中算法空间的优化. 作者证明了迭代 $v^{(k+1)} = \text{diag}((D_{v^{(k)}}^{1/2} M D_{v^{(k)}}^{1/2})^{1/2})$ 单调收敛到势函数 $J(v)$ 的唯一全局最优解, 从而填补了文献中的一个空白. 论文的大部分证明由AI模型Gemini 3完成, 因此本文也探讨了AI在数学证明中的实际应用.

Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Chenlu Ye et al.

cs.LG cs.AI

本文提出了一种名为Adaptive Layerwise Perturbation (ALP)的方法，用于稳定大型语言模型(LLM)的强化学习训练。该方法通过在网络层的隐藏状态注入可学习的扰动来平滑策略更新，从而缓解离轨策略问题。实验表明，ALP能有效控制重要性权重分布的尾部，提升训练稳定性与最终性能。

TRACE: Trajectory Recovery with State Propagation Diffusion for Urban Mobility

Jinming Wang et al.

cs.LG cs.AI

本文提出了一种名为TRACE的扩散模型, 用于从稀疏的GPS轨迹数据中恢复出稠密且连续的轨迹. 该方法通过一种新颖的状态传播扩散模型(SPDM)和记忆机制, 在去噪过程中利用前序步骤的中间结果, 以更好地重建难以恢复的轨迹片段. 在多个真实数据集上的实验表明, 该方法在精度上优于现有技术.

Any-Subgroup Equivariant Networks via Symmetry Breaking

Abhinav Goel et al.

cs.LG

本文提出了一种名为Any-Subgroup Equivariant Network (ASEN)的模型，旨在实现单一网络对多个置换子群的等变性。该方法从一个完全置换等变的基模型出发，通过引入一个具有特定自同构群的对称破缺输入来实现子群等变性。作者通过理论分析和实验验证了该方法的有效性。

ICLAD: In-Context Learning for Unified Tabular Anomaly Detection Across Supervision Regimes

Jack Yi Wei, Narges Armanfard

cs.LG

本文提出了ICLAD, 一个基于in-context learning的表格异常检测基础模型. 该模型通过元学习在合成任务上进行训练, 并在推理时无需更新权重, 实现了跨数据集和监督范式的统一检测框架.

Stochastic Sequential Decision Making over Expanding Networks with Graph Filtering

Zhan Gao, Bishwadeep Das, Elvin Isufi

cs.LG eess.SP

本文提出了一种用于处理图扩张网络数据的随机序列决策框架. 该方法将图滤波器参数调整建模为多智能体强化学习问题, 并设计了一个上下文感知的图神经网络来参数化决策策略. 实验表明该框架在冷启动推荐和疫情预测等任务上优于批处理和在线滤波方法.

Scalable Cross-Facility Federated Learning for Scientific Foundation Models on Multiple Supercomputers

Yijiang Li et al.

cs.LG

本文提出了一个用于异构高性能计算(HPC)环境的跨设施联邦学习(FL)框架, 并基于多个超级计算机进行了评估. 该工作展示了跨HPC设施进行FL实验的可行性, 并强调了在真实HPC调度条件下算法选择的重要性.

Subspace Kernel Learning on Tensor Sequences

Lei Wang et al.

cs.LG cs.AI cs.CV

本文提出了一种用于张量序列的核学习方法, 通过比较张量展开得到的 mode-wise 子空间来定义相似性度量. 该方法引入了不确定性感知的权重机制, 并在动作识别基准测试中取得了优异性能.

Neural Uncertainty Principle: A Unified View of Adversarial Fragility and LLM Hallucination

Dong-Xiao Zhang et al.

cs.LG cs.IT physics.comp-ph

本文提出了一个名为Neural Uncertainty Principle (NUP)的理论框架, 将计算机视觉中的对抗脆弱性和大语言模型中的幻觉问题统一解释为输入与损失梯度之间的共轭不确定性关系. 基于此理论, 作者设计了诊断工具和无需对抗训练的改进方法.

Wearable Foundation Models Should Go Beyond Static Encoders

Yu Yvonne Wu et al.

cs.LG

本文讨论了可穿戴基础模型(WFMs)的局限性, 指出其当前主要依赖静态编码器处理短期数据, 不适合长期健康监测. 作者主张WFMs应向纵向、前瞻性健康推理发展, 并提出了三个关键的转变方向.

ARMOR: Adaptive Resilience Against Model Poisoning Attacks in Continual Federated Learning for Mobile Indoor Localization

Danish Gufran, Akhil Singampalli, Sudeep Pasricha

cs.LG cs.AI

本文提出了一种名为ARMOR的持续联邦学习框架, 用于增强移动室内定位任务中全局模型对模型投毒攻击的适应性鲁棒性. 该框架通过一个状态空间模型来预测权重张量的演化, 从而在聚合前检测并缓解异常的本地更新.

Demonstrations, CoT, and Prompting: A Theoretical Analysis of ICL

Xuhan Tong, Yuchen Zeng, Jiawei Zhang

cs.LG

本文在温和的假设下，对 In-Context Learning (ICL) 进行了理论分析，将演示选择、Chain-of-Thought (CoT) 提示等关键设计因素与泛化行为联系起来。研究推导了 ICL 测试损失的上界，并分析了 CoT 提示作为任务分解的作用，其理论见解得到了实验的证实。

On Performance Guarantees for Federated Learning with Personalized Constraints

Mohammadjavad Ebrahimi, Daniel Burbano, Farzad Yousefian

cs.LG math.OC

本文提出了一种用于解决具有个性化约束的联邦学习优化问题的新方法PC-FedAvg. 该方法允许每个智能体维护对其他智能体决策变量的交叉估计, 并在本地更新所有变量块, 仅惩罚自身块内的不可行性, 从而在不要求共识或共享约束信息的情况下实现个性化. 理论分析给出了关于次优性和智能体不可行性的通信复杂度保证, 并在MNIST和CIFAR-10数据集上进行了初步实验验证.

DeepStock: Reinforcement Learning with Policy Regularizations for Inventory Management

Yaqi Xie et al.

cs.LG cs.AI

本文提出了一种结合经典库存管理概念(如"Base Stock")的策略正则化方法, 用于改进深度强化学习(DRL)在库存管理中的应用. 该方法旨在加速超参数调优并提升最终性能, 并在阿里巴巴的天猫平台上进行了实际部署验证.

Continual Learning for Food Category Classification Dataset: Enhancing Model Adaptability and Performance

Piyush Kaushik Bhattacharyya et al.

cs.LG

本文提出了一种用于文本引导食物分类的continual learning框架, 允许模型增量学习新类别而无需从头训练. 该方法旨在提升模型在饮食监测等场景中的适应性, 但仍需进一步改进.

Alternating Diffusion for Proximal Sampling with Zeroth Order Queries

Hirohane Takagi, Atsushi Nitanda

cs.LG stat.ML

本文提出了一种仅使用势函数零阶信息的近似近端采样器. 该方法将中间粒子分布建模为 Gaussian mixture, 从而得到可直接采样的 Monte Carlo 分数估计器. 实验表明, 该方法能快速收敛到目标分布.

RiboSphere: Learning Unified and Efficient Representations of RNA Structures

Zhou Zhang et al.

cs.LG

本文提出了一个名为RiboSphere的框架, 用于学习RNA结构的离散几何表示. 该框架结合了vector quantization和flow matching, 在结构重建等任务上取得了良好性能.

Heavy-Tailed and Long-Range Dependent Noise in Stochastic Approximation: A Finite-Time Analysis

Siddharth Chandak et al.

cs.LG eess.SY math.OC stat.ML

本文研究了在 heavy-tailed 和 long-range dependent (LRD) 噪声下的 stochastic approximation (SA) 算法的有限时间性能。通过一种噪声平均技术，文章为强单调算子求根问题建立了收敛速率，并分析了噪声特性对收敛的影响。

Ensembles-based Feature Guided Analysis

Federico Formica et al.

cs.LG

本文提出了一种基于集成学习的特征引导分析方法(EFGA), 用于提升深度神经网络解释性规则的召回率. 该方法通过聚合不同规则来扩展其适用范围, 并在MNIST和LSC数据集上验证了其在召回率上的显著提升.

The Residual Stream Is All You Need: On the Redundancy of the KV Cache in Transformer Inference

Kaleem Ullah Qasim et al.

cs.LG cs.AI

本文证明了在transformer推理中, KV cache (key-value缓存) 是完全冗余的, 因为每一层的keys和values都可以从residual stream (残差流) 确定性地重新计算出来. 基于此, 作者提出了KV-Direct方法, 通过存储更小的残差向量并即时重新计算KV, 显著降低了推理时的内存占用, 同时保持了输出完全一致.

Scale-Dependent Radial Geometry and Metric Mismatch in Wasserstein Propagation for Reverse Diffusion

Zicheng Lyu, Zengfeng Huang

cs.LG

本文分析了在弱对数凹性条件下，反向扩散过程中采样误差传播的几何不匹配问题。通过引入径向几何和度量转换，提出了一种基于单次切换的误差控制方法，为反向SDE离散化提供了非渐近的Wasserstein距离保证。

GoAgent: Group-of-Agents Communication Topology Generation for LLM-based Multi-Agent Systems

Hongjiang Chen et al.

cs.LG cs.AI cs.MA

本文提出了一种名为GoAgent的方法, 用于为基于LLM的多智能体系统显式地生成以协作组为原子单元的通信拓扑. 该方法通过LLM枚举候选组, 并自回归地选择和连接这些组来构建图, 同时引入条件信息瓶颈目标来压缩组间通信以减少冗余. 在六个基准测试上的实验表明, GoAgent在取得高准确率的同时显著降低了token消耗.

Ontology-Based Knowledge Modeling and Uncertainty-Aware Outdoor Air Quality Assessment Using Weighted Interval Type-2 Fuzzy Logic

Md Inzmam et al.

cs.LG

本文提出了一种结合ontology和weighted interval type-2 fuzzy logic的混合框架, 用于评估室外空气质量. 该框架旨在处理传统空气质量指数(AQI)计算中的不确定性, 并通过语义推理提供决策支持.

Regret Analysis of Sleeping Competing Bandits

Shinnosuke Uba, Yutaro Yamaguchi

cs.LG cs.GT

本文提出了Sleeping Competing Bandits模型，将传统Competing Bandits框架扩展到参与者和选项（arms）的可用性随时间变化的情形。作者为模型定义了新的遗憾（regret）度量，并提出了一个算法，该算法在特定假设下达到了渐近最优的遗憾上界。

Learning from Similarity/Dissimilarity and Pairwise Comparison

Tomoya Tate, Kosuke Sugiyama, Masato Uchida

cs.LG

本文提出了一种基于相对判断的弱监督二分类框架SD-Pcomp, 它仅使用实例对之间的类别一致性(SD标签)和正类偏好比较(Pcomp标签)进行学习. 该方法构建了两个无偏风险估计器, 实验表明其性能优于使用单一弱标签的方法, 并对标签噪声和类先验估计不确定性具有鲁棒性.

FedRG: Unleashing the Representation Geometry for Federated Learning with Noisy Clients

Tian Wen et al.

cs.LG cs.AI

本文提出了一种名为FedRG的新方法, 用于处理联邦学习(FL)中客户端存在标注噪声的问题. 该方法通过自监督学习构建与标签无关的球面表示, 并利用von Mises-Fisher混合模型来识别噪声样本, 从而提升模型在数据异质性和噪声环境下的鲁棒性.

FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment

Kewen Zhu et al.

cs.LG cs.CL

本文提出了一种用于联邦学习中大型语言模型对齐的个性化方法 FedPDPO. 该方法通过结合全局共享的 LoRA 适配器与个性化的模型头部, 并引入显式奖励头, 以应对非独立同分布数据带来的挑战.

Dual Path Attribution: Efficient Attribution for SwiGLU-Transformers through Layer-Wise Target Propagation

Lasse Marten Jantsch et al.

cs.LG cs.CL

本文提出了一种名为Dual Path Attribution (DPA)的新框架，用于高效分析SwiGLU-Transformer模型内部的信息流。该方法通过一次前向和一次反向传播，无需反事实样本即可实现忠实且可扩展的组件归因。

Scalable Learning of Multivariate Distributions via Coresets

Zeyu Ding et al.

cs.LG cs.DS stat.CO stat.ME stat.ML

本文提出了一种用于多元条件转换模型(MCTMs)的coreset构建方法, 旨在提升其在大规模数据上的可扩展性和训练效率. 该方法通过重要性采样实现数据约减, 并基于输入数据的凸包进行几何近似以解决数值问题. 实验表明该方法在处理大型复杂数据集时能显著提高计算效率.

Quantifying Gate Contribution in Quantum Feature Maps for Scalable Circuit Optimization

F. Rodríguez-Díaz et al.

cs.LG

本文提出了一种名为GATE的量子电路优化方法, 通过一个结合了fidelity, entanglement和sensitivity的gate significance index来量化特征映射中每个量子门的贡献, 并基于此移除低贡献的门以压缩电路. 该方法在模拟、仿真和真实硬件上进行了评估, 在多个数据集上实现了电路规模和运行时间的缩减, 同时保持了预测精度.

Two-Time-Scale Learning Dynamics: A Population View of Neural Network Training

Giacomo Borghi, Hyesung Im, Lorenzo Pareschi

cs.LG math.AP stat.ML

本文提出了一个基于双时间尺度群体动力学的神经网络训练理论框架. 它将网络群体建模为一个交互智能体系统, 其中参数通过快速的随机梯度下降/Langevin动力学更新, 而超参数则通过较慢的选择-突变动力学演化. 该框架在强时间尺度分离下推导出了超参数密度的选择-突变方程, 并建立了与双层优化和经典复制子-突变子模型的联系.

Eye Gaze-Informed and Context-Aware Pedestrian Trajectory Prediction in Shared Spaces with Automated Shuttles: A Virtual Reality Study

Danya Li, Yan Feng, Rico Krueger

cs.LG

本文通过一项虚拟现实研究, 探讨了行人在与自动穿梭车共享的无规则空间中的交互行为. 研究提出了一种名为GazeX-LSTM的多模态预测模型, 该模型整合了行人轨迹、精细的眼动注视动态以及上下文因素, 以提升行为预测的准确性.

GDEGAN: Gaussian Dynamic Equivariant Graph Attention Network for Ligand Binding Site Prediction

Animesh, Plaban Kumar Bhowmick, Pralay Mitra

cs.LG

本文提出了一种名为GDEGAN的新型等变图注意力网络，用于蛋白质配体结合位点预测。该方法用自适应高斯核替代点积注意力，以更好地捕捉邻近残基的化学与几何特性变化，并在多个基准数据集上取得了性能提升。

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Chiyu Ma et al.

cs.LG

本文提出了一种名为FIPO的强化学习算法, 旨在解决大语言模型中的推理瓶颈. 该方法通过引入未来KL散度来构建密集优势函数, 从而改进基于结果的奖励模型的信用分配, 在数学推理任务上取得了性能提升.

NASimJax: GPU-Accelerated Policy Learning Framework for Penetration Testing

Raphael Simon et al.

cs.LG cs.CR

本文提出了一个基于JAX的强化学习框架NASimJax，用于自动化渗透测试。该框架通过硬件加速显著提升了训练效率，并研究了策略在大型网络中的泛化能力。

On the Dynamics & Transferability of Latent Generalization during Memorization

Simran Ketha, Venkatakrishnan Ramaswamy

cs.LG

本文研究了深度网络在记忆化训练过程中内部表征的潜在泛化能力. 作者通过设计新的线性探针, 探索了这种潜在泛化能力的线性可解码性及其向模型泛化的转移.

Discovery of Decision Synchronization Patterns from Event Logs

Tijmen Kuijpers, Karolin Winter, Remco Dijkman

cs.LG

本文提出了一种从事件日志中发现决策同步模式的方法, 用于识别业务流程中跨案例的资源协调机制. 该方法针对四种特定模式, 通过形式化约束并进行评估, 验证了其在人工场景下的有效性.

What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time

Dong Yan et al.

cs.LG cs.AI

本文提出了一种名为SCRL的测试时强化学习框架, 旨在缓解基于多数投票共识的伪奖励机制在答案分布分散时可能强化错误轨迹的问题. 该方法结合了选择性正伪标记和基于熵的门控负伪标记, 在多个推理基准测试上展现了优于基线方法的性能.

Integrating Meta-Features with Knowledge Graph Embeddings for Meta-Learning

Antonis Klironomos et al.

cs.LG cs.AI

本文提出了一种名为KGmetaSP的方法, 通过构建统一的知识图谱(KG)并利用其嵌入(embeddings)来改进元学习中的两个关键任务: 管道性能估计(PPE)和基于性能的数据集相似性估计(DPSE). 该方法整合了历史实验数据, 在包含大量OpenML实验的基准测试中表现优于依赖传统元特征(meta-features)的基线方法.

Memori: A Persistent Memory Layer for Efficient, Context-Aware LLM Agents

Luiz C. Borro et al.

cs.LG

本文提出了一种名为Memori的持久记忆层, 用于提升LLM agent的上下文感知能力. 该方法通过将对话转换为语义三元组和摘要来结构化记忆, 从而在减少token使用量的同时, 在基准测试上取得了更高的准确率.

Graph2TS: Structure-Controlled Time Series Generation via Quantile-Graph VAEs

Shaoshuai Du et al.

cs.LG cs.AI

本文提出了一种基于结构-残差视角的时间序列生成方法, 将时间序列视为结构主干与随机残差动态的组合. 该方法利用分位数构建的转移图来表征全局结构, 并基于此提出了一个图条件变分自编码器模型Graph2TS, 实现了从结构图到时间序列的跨模态生成. 实验表明, 该方法在多个数据集上相比基线模型能更好地保持分布保真度和时间对齐性.

Model-Driven Learning-Based Physical Layer Authentication for Mobile Wi-Fi Devices

Yijia Guo et al.

cs.LG

本文提出了一种基于假设检验驱动的学习型物理层认证方案, 并针对Wi-Fi设备进行了评估. 该方法通过将条件统计模型融入假设检验框架, 推导出理论最优的Neyman-Pearson检测器, 并在此基础上构建了一个轻量级神经网络LiteNP-Net. 仿真和实验结果表明, 该网络在未知信道统计特性的情况下能接近理论最优性能, 并在实际Wi-Fi环境中优于传统及相关先进方法.

Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Yurun Yuan, Tengyang Xie

cs.LG cs.AI cs.CL

本文探讨了在大型语言模型(LLM)的后训练中引入显式Markov状态以突破其能力上限。作者认为，当前基于强化学习(RL)的后训练范式受限于不断增长的行动历史，而引入紧凑的Markov状态表示能带来理论和实践上的优势。

A Super Fast K-means for Indexing Vector Embeddings

Leonardo Kuffo, Sven Hepkema, Peter Boncz

cs.LG cs.DB cs.IR

本文提出了一种名为SuperKMeans的快速k-means变体，用于聚类高维向量嵌入。该方法通过有效剪枝不必要的数据维度和引入基于召回率的提前终止机制，显著提升了聚类速度，同时保持了向量相似性搜索的质量。

AgenticRS-EnsNAS: Ensemble-Decoupled Self-Evolving Architecture Search

Yun Chen et al.

cs.LG

本文提出了一种名为Ensemble-Decoupled Architecture Search的框架，旨在解决工业系统中神经架构搜索(NAS)因需要评估完整集成模型而带来的高昂计算成本问题。该框架利用集成理论，通过轻量化的单学习器或双学习器评估来预测系统级性能，从而将每次候选架构的搜索成本从$O(M)$降低到$O(1)$。

ODySSeI: An Open-Source End-to-End Framework for Automated Detection, Segmentation, and Severity Estimation of Lesions in Invasive Coronary Angiography Images

Anand Choudhary et al.

cs.LG

本文提出了一个用于侵入性冠状动脉造影图像分析的端到端开源框架ODySSeI. 该框架整合了基于深度学习的病灶检测与分割模型, 并引入了一种无需定量冠状动脉造影的病灶严重程度估计技术. 在多个临床数据集上的评估表明, 该框架具有良好的泛化能力和实时处理速度.

Continual Learning as Shared-Manifold Continuation Under Compatible Shift

Henry J. Kobs

cs.LG

本文提出了一种基于几何视角的持续学习方法, 将学习过程视为共享流形的延续. 通过结合稀疏回放与几何保持正则化, 该方法在兼容数据偏移的任务上能更好地保留旧任务的表示.

Federated Hyperdimensional Computing for Resource-Constrained Industrial IoT

Nikita Zeulin et al.

cs.LG cs.NI

本文提出了一种基于 federated hyperdimensional computing (HDC) 的轻量级学习框架, 用于资源受限的工业物联网(IIoT)环境. 该方法通过交换高维原型向量而非原始数据或模型参数, 在 federated learning 框架下显著降低了通信开销, 并展示了较快的收敛速度和通信效率.

Fine-tuning Timeseries Predictors Using Reinforcement Learning

Hugo Cazaux et al.

cs.LG cs.AI

本文探讨了使用强化学习算法对金融时间序列预测模型进行微调的方法. 作者提出了一个清晰的实现方案, 并比较了微调前后的性能, 发现微调能带来性能提升并赋予模型迁移学习的能力.

How Out-of-Equilibrium Phase Transitions can Seed Pattern Formation in Trained Diffusion Models

Luca Ambrogioni

cs.LG

本文提出了一种理论框架, 将训练好的扩散模型的生成过程解释为非平衡相变的一个实例. 作者认为, 反向扩散过程会经过一个临界区域, 其中微小的空间涨落被放大并催生大尺度结构的形成, 而非从噪声到数据的平滑演化. 通过分析可处理的 patch score 模型, 作者展示了经典的对称破缺分岔如何推广为由软化 Fourier 模和增长的相关长度所描述的空间扩展临界现象. 研究进一步将这些动力学与 Ginzburg-Landau 类型的有效场论以及非平衡物理中的模式形成机制联系起来. 在训练好的卷积扩散模型上的实证结果支持了该理论, 揭示了临界性的特征, 包括模软化和空间相关性的快速增长. 最后, 作者证明了这一临界区域具有实际意义: 在估计的临界时间施加有针对性的扰动(如无分类器引导脉冲)可以显著改善生成控制. 这些发现将非平衡临界现象定位为理解和潜在改进现代扩散模型行为的统一原理.

Spectral Alignment in Forward-Backward Representations via Temporal Abstraction

Seyed Mahdi B. Azad et al.

cs.LG cs.AI cs.RO

本文分析了 temporal abstraction 如何缓解 forward-backward 表示学习中的 spectral mismatch 问题。研究表明，temporal abstraction 能作为 low-pass filter 抑制高频成分，从而稳定学习过程。

The $\mathbf{Y}$-Combinator for LLMs: Solving Long-Context Rot with $λ$-Calculus

Amartya Roy et al.

cs.LG cs.AI

本文提出了一种基于$\lambda$-calculus的递归语言模型框架$\lambda$-RLM, 用于解决大语言模型的长上下文推理问题. 该框架通过使用类型化的函数式运行时和预验证的组合子(combinators)来替代开放式的代码生成, 从而提供了更好的可验证性和效率.

Trojan horse hunt in deep forecasting models: Insights from the European Space Agency competition

Krzysztof Kotowski et al.

cs.LG cs.CR

本文介绍了欧洲空间局举办的"Trojan Horse Hunt"数据科学竞赛, 重点关注深度学习时间序列预测模型中的后门攻击检测问题. 文章概述了竞赛的任务设定、基准数据集、评估协议以及优胜解决方案, 并总结了在时序预测模型中有效识别触发模式的关键见解和未来研究方向.

GO-GenZip: Goal-Oriented Generative Sampling and Hybrid Compression

Pietro Talli et al.

cs.LG cs.IT

本文提出了一种面向目标的生成式采样与混合压缩框架, 用于重构网络遥测数据管道. 该框架通过自适应采样策略与生成式建模来选择性获取数据, 并结合无损与有损压缩技术, 在降低数据传输成本的同时保持了面向下游任务的分析保真度.

Var-JEPA: A Variational Formulation of the Joint-Embedding Predictive Architecture -- Bridging Predictive and Generative Self-Supervised Learning

Moritz Gögl, Christopher Yau

cs.LG cs.AI

本文通过变分推断的视角重新审视了Joint-Embedding Predictive Architecture (JEPA), 提出了其变分形式Var-JEPA. 该框架将JEPA解释为一个具有耦合隐变量的概率生成模型, 并通过优化Evidence Lower Bound (ELBO)进行训练, 从而避免了启发式的防坍塌正则化设计.

Conditioning Protein Generation via Hopfield Pattern Multiplicity

Jeffrey D. Varner

cs.LG q-bio.BM q-bio.QM

本文提出了一种通过调整采样器注意力logits的偏置参数, 无需重新训练即可将蛋白质序列生成从整个家族引导至用户指定功能子集的方法. 该方法存在一个由序列编码降维导致的校准差距, 其大小可通过编码几何分离度进行预测.

Revisiting Gene Ontology Knowledge Discovery with Hierarchical Feature Selection and Virtual Study Group of AI Agents

Cen Wan, Alex A. Freitas

cs.LG

本文提出了一种基于agentic AI的知识发现框架, 结合分层特征选择方法, 从与衰老相关的Gene Ontology术语中提取生物学知识. 该框架在多种模式生物上进行了验证, 其生成的科学主张大多能得到现有文献的支持.

Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

Emiel Hoogeboom et al.

cs.LG cs.CV stat.ML

本文提出了一种用于离散扩散模型蒸馏的新方法 Discrete Moment Matching Distillation (D-MMD). 该方法借鉴了连续域的成功思想, 在文本和图像数据集上保持了生成样本的高质量与多样性, 并且蒸馏后的模型性能可以超越原教师模型.

Kolmogorov-Arnold causal generative models

Alejandro Almodóvar et al.

cs.LG stat.ML

本文提出了一种基于Kolmogorov-Arnold Network (KAN)的因果生成模型KaCGM，用于处理混合类型的表格数据。该模型旨在通过可解释的结构方程提高因果机制的透明度，并在合成与真实数据上验证了其性能。

MeanFlow Meets Control: Scaling Sampled-Data Control for Swarms

Anqi Dong et al.

cs.LG cs.MA cs.RO eess.SY

本文提出了一种基于MeanFlow的控制空间学习框架, 用于在采样数据机制下引导大规模集群. 该方法学习参数化每个采样区间内有限时域最小能量控制的系数, 并通过一个简单的stop-gradient目标进行训练, 从而提供了一种与真实控制系统采样数据结构一致的可扩展方法.

cs.AI

Survey of Various Fuzzy and Uncertain Decision-Making Methods

Takaaki Fujita, Florentin Smarandache

cs.AI cs.CE cs.CY cs.LG

本文综述了模糊与不确定环境下的多准则决策方法, 建立了一个面向任务的分类体系. 文章涵盖了问题设定、权重确定、准则关系建模以及多种解决方案, 并提供了方法选择的指导.

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

João Filipe, Gregor Behnke

cs.AI cs.LO cs.SC

本文提出了一种介于完全 lifted 和完全 grounded 之间的规划问题 SAT 编码方法。该方法通过部分 grounding 谓词并保持动作 lifted，实现了编码规模随规划长度线性增长，在难以 ground 的领域上表现优于现有方法。

Hyperagents

Jenny Zhang et al.

cs.AI

本文提出了一种称为"hyperagents"的自指代智能体框架, 将任务智能体与元智能体整合进单个可编辑程序. 该框架通过使元层级的修改过程本身可编辑, 旨在支持在任意可计算任务上的开放式自我改进. 在实验中, 其实例化版本DGM-H在多个领域超越了基线方法.

Teaching an Agent to Sketch One Part at a Time

Xiaodan Du et al.

cs.AI cs.CV cs.GR cs.LG

本文提出了一种分步生成矢量草图的方法, 通过一个结合监督微调与多轮过程奖励强化学习训练的多模态语言模型智能体来实现. 该方法依赖于一个新构建的包含丰富部件级标注的数据集 ControlSketch-Part, 该数据集通过一个自动标注流程生成, 能够将矢量草图分割为语义部件.

Learning to Disprove: Formal Counterexample Generation with Large Language Models

Zenan Li et al.

cs.AI

本文提出了一种利用大型语言模型(LLMs)进行形式化反例生成的方法。该方法通过符号突变策略生成训练数据，并采用多奖励专家迭代框架进行模型训练，最终在Lean 4定理证明器中实现了可自动验证的反例生成。

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

Tianlong Wang et al.

cs.AI

本文提出了一个名为ItinBench的基准测试, 用于评估大型语言模型(LLMs)在整合多种认知维度(如空间推理和语言推理)的行程规划任务中的表现. 测试发现, 当需要同时处理多个认知维度的任务时, LLMs难以保持高且一致的性能.

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning

Tianmeng Hu, Biao Luo

cs.AI cs.LG

本文提出了一种基于Pareto ascent directional decomposition的多目标强化学习方法(PA2D-MORL). 该方法通过选择标量化权重和计算多目标策略梯度来优化策略, 并在进化框架下选择性优化多个策略以近似Pareto前沿.

PowerLens: Taming LLM Agents for Safe and Personalized Mobile Power Management

Xingyu Feng et al.

cs.AI eess.SY

本文提出了一个名为PowerLens的系统，它利用LLM代理进行移动设备的个性化电源管理。该系统通过多代理架构理解用户上下文并生成策略，结合约束验证和记忆学习来确保安全性与适应性。

HyEvo: Self-Evolving Hybrid Agentic Workflows for Efficient Reasoning

Beibei Xu et al.

cs.AI

本文提出了一个名为HyEvo的自动化工作流生成框架，它结合了概率性的LLM节点和确定性的代码节点来提升复杂任务解决的效率。该框架采用了一种进化策略来迭代优化工作流的结构与逻辑，实验表明其在多个基准测试上优于现有方法，并显著降低了推理成本与延迟。

A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Taiyi Wang et al.

cs.AI cs.LG cs.MA

本文提出了一种用于提升大型语言模型(LLM)智能体在长视野(long-horizon)任务中表现的框架. 该框架结合了在线子目标分解规划和基于里程碑(milestone)的强化学习(RL)训练方法, 在网页导航等任务上显著提升了性能.

Stepwise: Neuro-Symbolic Proof Search for Automated Systems Verification

Baoding He et al.

cs.AI

本文提出了一种结合神经语言模型与符号推理工具的证明搜索框架, 用于自动化系统级验证项目中的定理证明. 该框架在 Isabelle/HOL 上实现, 并在 seL4 等基准测试中取得了优于现有方法的性能.

Embodied Science: Closing the Discovery Loop with Agentic Embodied AI

Xiang Zhuang et al.

cs.AI

本文提出了"embodied science"这一新范式, 将科学发现重新定义为智能体推理与物理执行紧密耦合的闭环过程. 作者提出了一个统一的Perception-Language-Action-Discovery (PLAD)框架, 旨在通过物理反馈来桥接数字预测与实证验证之间的鸿沟.

FormalEvolve: Neuro-Symbolic Evolutionary Search for Diverse and Prover-Effective Autoformalization

Haijian Lu, Wei Wang, Jing Liu

cs.AI

本文提出了一个名为 FormalEvolve 的神经符号进化搜索框架，用于自动形式化任务。该框架结合了 LLM 驱动的变异与交叉以及符号化的 AST 重写操作，以生成多样化的候选形式化结果，并在有限的预算下提高了语义命中率和下游证明性能。

Utility-Guided Agent Orchestration for Efficient LLM Tool Use

Boyan Liu, Gongming Zhao, Hongli Xu

cs.AI

本文提出了一种基于效用引导的智能体编排策略, 用于平衡大语言模型工具使用中的答案质量与执行成本. 该框架通过显式的决策策略(如响应, 检索, 工具调用等)来控制智能体行为, 而非完全依赖提示工程, 为研究质量-成本权衡提供了一个可分析的控制机制.

On the Ability of Transformers to Verify Plans

Yash Sarrof et al.

cs.AI cs.CL cs.LG

本文分析了decoder-only transformers在验证给定规划是否解决规划实例方面的能力. 通过引入C*-RASP扩展来分析词汇表增长时的长度泛化, 并识别了transformer可学习验证的规划领域类别.

Experience is the Best Teacher: Motivating Effective Exploration in Reinforcement Learning for LLMs

Wenjian Zhang et al.

cs.AI

本文提出了一种名为HeRL的强化学习框架, 旨在改善大型语言模型(LLMs)在基于规则奖励的强化学习中的探索效率. 该方法利用失败轨迹作为事后经验来引导模型探索期望的行为, 并通过引入额外奖励来激励改进, 从而在多个基准测试上取得了优于基线模型的性能提升.

DIAL-KG: Schema-Free Incremental Knowledge Graph Construction via Dynamic Schema Induction and Evolution-Intent Assessment

Weidong Bao et al.

cs.AI

本文提出了一个名为DIAL-KG的闭环框架，用于增量式知识图谱构建。该框架通过一个元知识库协调，包含双轨提取、治理裁决和模式演化三个阶段，旨在处理动态数据并避免预定义模式的限制。实验表明其在图谱质量和模式归纳方面达到了先进水平。

Pitfalls in Evaluating Interpretability Agents

Tal Haklay et al.

cs.AI

本文探讨了评估自动化可解释性代理时面临的挑战, 特别是在电路分析任务中. 作者指出了基于复现的评估方法的潜在缺陷, 并提出了基于模型组件功能可互换性的无监督内在评估作为替代方案.

Learning Dynamic Belief Graphs for Theory-of-mind Reasoning

Ruxiao Chen et al.

cs.AI

本文提出了一种用于大语言模型(LLM)心智理论(ToM)推理的结构化认知轨迹模型。该模型将心智状态表示为动态信念图，以改进在动态、高风险场景下的行动预测和信念轨迹解释。

cs.IR

VERDICT: Verifiable Evolving Reasoning with Directive-Informed Collegial Teams for Legal Judgment Prediction

Hui Liao et al.

cs.IR cs.AI cs.LG

本文提出了一个名为VERDICT的可验证、演进的协作多智能体框架，用于法律判决预测(LJP)。该框架模拟合议庭，通过分工协作和可追溯的草稿-验证-修订工作流来生成可验证的推理轨迹，并引入混合法理记忆(HJM)来实现跨案件的持续学习。

Spectral Tempering for Embedding Compression in Dense Passage Retrieval

Yongkang Li, Panagiotis Eustratiadis, Evangelos Kanoulas

cs.IR cs.AI cs.CL

本文提出了一种名为 Spectral Tempering (SpecTemp) 的无学习、模型无关的嵌入压缩方法，用于稠密检索。该方法通过分析语料库嵌入的 eigenspectrum 来动态确定最优的 spectral scaling 强度 $\gamma(k)$，避免了传统方法需要任务特定调优的问题。实验表明，该方法能稳定达到接近网格搜索最优值的性能。

SaFRO: Satisfaction-Aware Fusion via Dual-Relative Policy Optimization for Short-Video Search

Renzhe Zhou et al.

cs.IR

本文提出了一种名为SaFRO的框架，用于优化短视频搜索中的用户长期满意度。该框架通过构建满意度感知的奖励模型和引入双相对策略优化（DRPO）来改进多任务融合排序，并在工业平台上验证了其有效性。

All-Mem: Agentic Lifelong Memory via Dynamic Topology Evolution

Can Lv et al.

cs.IR cs.CL

本文提出了一个名为All-Mem的在线/离线终身记忆框架，用于长期交互式智能体。该框架通过动态拓扑演化维护记忆库，以在固定上下文和延迟预算下实现高效检索。实验表明，其在多个评测基准上优于现有基线方法。

CO-EVOLVE: Bidirectional Co-Evolution of Graph Structure and Semantics for Heterophilous Learning

Jinming Xing, Muhammad Shahzad

cs.IR

本文提出了一个名为CO-EVOLVE的双视图协同演化框架，用于解决异配图学习中的语义与结构不一致问题。它通过交替优化策略，让LLM和GNN相互引导与修正，并在多个基准测试中取得了性能提升。

GenFacet: End-to-End Generative Faceted Search via Multi-Task Preference Alignment in E-Commerce

Zhouwei Zhai, Min Yang, Jin Li

cs.IR

本文提出了一个名为GenFacet的端到端生成式分面搜索框架，用于电子商务场景。它通过一个统一的大语言模型将分面生成与查询重写任务耦合，并利用多任务训练策略来优化下游搜索满意度。

From Token to Item: Enhancing Large Language Models for Recommendation via Item-aware Attention Mechanism

Xiaokun Zhang et al.

cs.IR

本文提出了一种用于推荐系统的 item-aware attention mechanism (IAM), 通过在标准 attention 层之上叠加 intra-item 和 inter-item attention 层, 显式地将 item 作为推荐的基本单元进行建模. 该方法旨在更好地捕捉 item-level 的协同关系, 实验表明其在多个公开数据集上能有效提升基于 LLM 的推荐性能.

AIGQ: An End-to-End Hybrid Generative Architecture for E-commerce Query Recommendation

Jingcao Xu et al.

cs.IR cs.AI

本文提出了一种用于电商查询推荐的端到端混合生成架构AIGQ. 该架构通过创新的训练范式、策略优化和部署设计，旨在解决传统方法在语义理解、冷启动和偶然性发现方面的不足.

How Well Does Generative Recommendation Generalize?

Yijie Ding et al.

cs.IR

本文通过将推荐任务实例分类为需要记忆或泛化的类型, 分析了生成式推荐模型与传统基于物品ID的模型在能力上的差异. 实验表明两者具有互补性, 并提出了一个简单的自适应组合方法以提升整体性能.

DALI: LLM-Agent Enhanced Dual-Stream Adaptive Leadership Identification for Group Recommendations

Boxun Song, Min Gao, Jiawei Cheng

cs.IR

本文提出了一种结合大型语言模型(LLM)与神经网络的DALI框架, 用于提升群组推荐系统的性能. 该框架通过动态规则生成和神经符号聚合机制, 旨在更准确地识别群组中的领导力模式并建模协作动态.

CoverageBench: Evaluating Information Coverage across Tasks and Domains

Saron Samuel et al.

cs.IR cs.AI

本文提出了CoverageBench, 这是一个用于评估信息检索算法信息覆盖度的基准测试套件. 它整合了来自多个领域和任务的现有数据集, 为衡量检索结果是否覆盖了相关信息的完整范围提供了一个统一的测试平台.

The End of Rented Discovery: How AI Search Redistributes Power Between Hotels and Intermediaries

Peiying Zhu, Sidi Chang

cs.IR cs.AI

本文通过审计Google Gemini在东京酒店查询中的引用来源, 分析了AI搜索引擎的引用模式. 研究发现, 体验型查询比交易型查询更倾向于引用非OTA来源, 这种差异在日语查询中更为明显.

LLM-Enhanced Semantic Data Integration of Electronic Component Qualifications in the Aerospace Domain

Antonio De Santis et al.

cs.IR cs.AI cs.DB

本文提出了一种结合Virtual Knowledge Graphs和LLMs的数据集成与检索管道, 用于解决航空航天领域电子元器件资质数据分散的问题. 该方法通过结构化查询和向量搜索来检索资质信息, 并在长期效率上优于纯LLM方案.

cs.CL

When Prompt Optimization Becomes Jailbreaking: Adaptive Red-Teaming of Large Language Models

Zafir Shamsi et al.

cs.CL cs.AI

本文通过将原本用于提升任务性能的黑盒 prompt optimization 技术，重新用于系统性地搜索大型语言模型的安全漏洞。实验表明，这种自适应攻击方法能显著降低模型的安全防护效果，尤其对开源小模型影响巨大，提示静态安全基准可能低估了实际风险。

DuCCAE: A Hybrid Engine for Immersive Conversation via Collaboration, Augmentation, and Evolution

Xin Shen et al.

cs.CL cs.AI

本文提出了一种用于沉浸式对话的混合引擎DuCCAE, 旨在解决响应速度与长程任务能力之间的权衡. 该系统通过解耦实时响应与异步执行, 并利用共享状态进行同步, 在工业部署中显著提升了用户留存与复杂任务完成率.

Spelling Correction in Healthcare Query-Answer Systems: Methods, Retrieval Impact, and Empirical Evaluation

Saurabh K Singh

cs.CL

本文研究了拼写纠正在医疗问答系统中的影响, 通过实验评估了多种纠错方法对检索效果的提升. 研究发现, 对用户查询进行纠正是提升检索性能的关键, 仅对语料库纠正则效果有限.

Can Structural Cues Save LLMs? Evaluating Language Models in Massive Document Streams

Yukyung Lee et al.

cs.CL

本文提出了StreamBench, 一个用于评估语言模型在新闻文档流中处理能力的基准测试. 研究发现, 提供按事件组织的结构化提示能提升模型在聚类和时间问答任务上的性能.

Enhancing Legal LLMs through Metadata-Enriched RAG Pipelines and Direct Preference Optimization

Suyash Maniyar, Deepali Singh, Rohith Reddy

cs.CL

本文针对法律领域大语言模型在处理长文档时易产生幻觉的问题, 提出了结合元数据增强的混合检索增强生成(RAG)和直接偏好优化(DPO)的方法. 该方法旨在提升检索精度, 并在上下文不足时强制模型安全拒绝回答, 从而增强法律语言模型的可靠性与安全性.

GeoChallenge: A Multi-Answer Multiple-Choice Benchmark for Geometric Reasoning with Diagrams

Yushun Zhang et al.

cs.CL cs.AI

本文提出了一个名为 GeoChallenge 的多答案选择题基准数据集, 用于评估大语言模型在结合文本与图表进行多步几何推理方面的能力. 该数据集包含大量自动生成的问题, 并附带细粒度的复杂度评级和形式化语言标注.

A comprehensive study of LLM-based argument classification: from Llama through DeepSeek to GPT-5.2

Marcin Pietroń et al.

cs.CL cs.AI

本文对包括GPT-5.2、Llama 4和DeepSeek在内的多个先进大语言模型在公开论辩挖掘数据集上进行了综合评估。研究采用了多种高级提示策略，并进行了定量性能评估与定性错误分析，揭示了模型在提示稳定性、识别隐含批评等方面的系统性缺陷。

From Comprehension to Reasoning: A Hierarchical Benchmark for Automated Financial Research Reporting

Yiyun Zhu et al.

cs.CL

本文提出了一个用于评估大语言模型生成中文金融研究报告能力的基准测试FinReasoning, 它将报告生成过程分解为三个与真实分析师工作流对齐的阶段, 并引入了一个细粒度的评估框架. 该基准揭示了当前模型普遍存在理解与执行之间的差距, 并在多个领先模型上进行了测试.

LARFT: Closing the Cognition-Action Gap for Length Instruction Following in Large Language Models

Wei Zhang et al.

cs.CL cs.AI

本文提出了LARFT框架, 通过强化学习结合后见长度感知来对齐大语言模型对输出长度的认知与生成行为, 以解决其遵循长度指令的难题. 实验表明该方法在多个基准上优于现有基线.

ShobdoSetu: A Data-Centric Framework for Bengali Long-Form Speech Recognition and Speaker Diarization

Md. Nazmus Sakib et al.

cs.CL

本文提出了一个名为ShobdoSetu的数据中心化框架, 用于孟加拉语长语音识别和说话人日志任务. 该框架通过从YouTube视频构建高质量训练语料库, 并采用LLM辅助的语言规范化等方法, 在资源有限的设定下取得了有竞争力的性能.

Constraint-aware Path Planning from Natural Language Instructions Using Large Language Models

Dylan Shim, Minghan Wei

cs.CL

本文提出了一种利用大语言模型(LLM)从自然语言指令直接解决约束路径规划问题的框架。该方法通过LLM解析用户描述，结合解决方案验证与迭代优化来处理多样化的规划任务。

MAPLE: Metadata Augmented Private Language Evolution

Eli Chien et al.

cs.CL cs.AI cs.CR cs.LG

本文提出了一种名为MAPLE的方法, 用于在只能通过API访问大型语言模型(LLM)的场景下生成差分隐私(DP)合成数据. 该方法通过提取并利用差分隐私的表格元数据来引导初始合成数据的分布, 从而改善了现有Private Evolution框架在专业领域数据上的对齐与收敛问题.

Breeze Taigi: Benchmarks and Models for Taiwanese Hokkien Speech Recognition and Synthesis

Yu-Siang Lan et al.

cs.CL cs.AI

本文提出了一个用于台湾闽南语(台语)语音识别与合成的基准测试框架 Breeze Taigi. 该工作贡献了标准化的评估方法、数据集和基线模型, 其利用平行台湾国语资源的方法可推广至其他语言场景.

HATL: Hierarchical Adaptive-Transfer Learning Framework for Sign Language Machine Translation

Nada Shahin, Leila Ismail

cs.CL cs.AI cs.CV cs.CY cs.ET

本文提出了一种用于手语机器翻译的层次化自适应迁移学习框架HATL, 该框架通过动态解冻预训练层、分层学习率衰减和稳定性机制来适应手语特征. 实验在多个数据集上表明, HATL在多种翻译任务和模型上均优于传统的迁移学习方法.

Significance-Gain Pair Encoding for LLMs: A Statistical Alternative to Frequency-Based Subword Merging

Azam Nouri

cs.CL cs.CV cs.LG

本文提出了一种基于统计显著性的BPE替代合并准则, 通过z统计量衡量词对的内聚性, 并结合压缩增益项. 实验表明, 该方法在WikiText-103数据集上能降低困惑度并提升每字符比特数(BPC)的性能.

The α-Law of Observable Belief Revision in Large Language Model Inference

Mike Farmer, Abhinav Kochar, Yugyung Lee

cs.CL cs.AI

本文研究了大型语言模型在推理过程中信念更新的稳定性问题, 提出了一种描述概率更新行为的乘性缩放定律, 即$\alpha$-law. 通过理论分析和在多类基准测试及模型上的实验, 发现模型在单步更新中接近贝叶斯行为, 而在多步迭代中表现出趋于稳定的动态.

Generative Active Testing: Efficient LLM Evaluation via Proxy Task Adaptation

Aashish Anantha Ramakrishnan et al.

cs.CL cs.AI

本文提出了一种名为Generative Active Testing (GAT)的框架，用于高效评估大型语言模型(LLM)。该方法通过一个Statement Adaptation Module将生成式任务转化为伪分类格式，从而利用LLM作为代理来指导样本选择，以降低标注成本。实验表明，其零样本获取函数相比传统基线减少了约40%的估计误差。

When the Pure Reasoner Meets the Impossible Object: Analytic vs. Synthetic Fine-Tuning and the Suppression of Genesis in Language Models

Amin Amouhadi

cs.CL cs.AI cs.HC

本文通过训练大型语言模型(Large Language Models, LLMs)于包含逻辑矛盾的“不可能对象”，研究了其本体论影响。实验发现，冲突性训练会显著抑制模型的创造性合成能力，并导致其倾向于做出武断的“二选一”决策。

Probing to Refine: Reinforcement Distillation of LLMs via Explanatory Inversion

Zhen Tan et al.

cs.CL cs.AI cs.LG

本文提出了一种新的知识蒸馏框架, 通过"解释性反转"生成探针问题, 并结合强化学习算法, 旨在将大语言模型的推理能力更有效地迁移到小模型中, 以解决现有方法中存在的模式记忆和泛化能力不足的问题. 实验表明该方法在多个数据集上取得了性能提升.

Reviewing the Reviewer: Graph-Enhanced LLMs for E-commerce Appeal Adjudication

Yuchen Du, Ashley Li, Zixi Huang

cs.CL cs.IR

本文提出了一种基于图增强LLM的电子商务申诉裁决框架, 通过显式建模验证动作来克服信息不对称问题. 该方法利用历史案例中的修正信号构建知识图谱, 并在新案例中进行自上而下的演绎推理, 显著提升了与人类专家裁决的一致性.

Full-Stack Domain Enhancement for Combustion LLMs: Construction and Optimization

Quanjia Xiao et al.

cs.CL cs.AI

本文提出了一种面向燃烧科学领域的全栈式领域增强LLM工作流程, 集成了自动化领域语料构建, 增量预训练, 指令微调和基于可验证奖励的强化学习. 该工作还发布了针对燃烧科学复杂推理任务的标准化评估基准FlameBench.

From Tokens To Agents: A Researcher's Guide To Understanding Large Language Models

Daniele Barolo

cs.CL

本文为非技术背景的研究者提供了一个理解大型语言模型(LLM)的框架, 分析了其六个核心组件, 并讨论了如何批判性地评估LLM是否适用于特定的研究需求.

Autonoma: A Hierarchical Multi-Agent Framework for End-to-End Workflow Automation

Eslam Reda, Maged Yasser, Sara El-Metwally

cs.CL cs.LG

本文提出了一个用于端到端工作流自动化的分层多智能体框架 Autonoma. 该框架通过协调器、规划器和监督器等层级结构，将自然语言指令转化为由多个专用智能体执行的稳健工作流，并展示了较高的任务完成率。

A Human-Centered Workflow for Using Large Language Models in Content Analysis

Ivan Zupic

cs.CL cs.AI

本文提出了一种以人为中心的工作流, 用于在内容分析任务中通过 API 使用大型语言模型(LLMs). 该工作流将 LLMs 视为通用文本处理机, 并指导研究人员在标注、摘要和信息提取等任务中设计、监督和验证 LLM 的使用过程.

Transformers are Stateless Differentiable Neural Computers

Bo Tang, Weiwei Xie

cs.CL cs.AI cs.CV cs.LG

本文通过形式化推导, 证明了因果Transformer层在数学上等价于一种无状态可微分神经计算机(sDNC). 该工作为理解Transformer架构提供了一个基于外部内存的统一视角.

LSR: Linguistic Safety Robustness Benchmark for Low-Resource West African Languages

Godwin Abuh Faruna

cs.CL cs.AI

本文提出了LSR基准, 用于评估大语言模型在低资源西非语言上的安全对齐鲁棒性. 通过双探针评估协议和Refusal Centroid Drift (RCD)指标, 发现模型在英语和西非语言上的拒绝率存在显著差异.

CURE: A Multimodal Benchmark for Clinical Understanding and Retrieval Evaluation

Yannian Gu et al.

cs.CL cs.AI

本文提出了一个用于评估临床多模态大语言模型(MLLMs)推理与检索能力的基准CURE. 该基准包含500个多模态临床病例及其对应的参考文献, 旨在分离模型的基础推理能力和证据检索应用能力. 评估发现, 模型在提供参考证据时表现良好, 但在依赖独立检索时性能显著下降.

Improving Automatic Summarization of Radiology Reports through Mid-Training of Large Language Models

Mengxian Lyu et al.

cs.CL cs.AI

本文提出了一种通过 mid-training 方法进行子领域适应，以改进放射学报告自动摘要的策略。实验表明，该方法在文本和事实性指标上优于直接 fine-tuning 的模型。

From Flat to Structural: Enhancing Automated Short Answer Grading with GraphRAG

Yucheng Chu et al.

cs.CL cs.AI

本文提出了一种基于知识图谱的检索增强生成框架GraphRAG，用于改进自动简答题评分。该方法通过结构化知识表示和关联图遍历，提升了模型对复杂教育内容中逻辑推理链的评估能力，在科学标准数据集上的实验表明其性能优于标准的检索增强生成基线。

MOSAIC: Modular Opinion Summarization using Aspect Identification and Clustering

Piyush Kumar Singh, Jayesh Choudhari

cs.CL cs.LG

本文提出了一个名为MOSAIC的模块化意见摘要框架，它通过主题发现、结构化观点提取和基于事实的摘要生成等可解释组件来处理用户评论。该方法在在线A/B测试中验证了其提升客户体验的实用性，并发布了一个新的开源数据集以促进更稳健的评估。

HypeLoRA: Hyper-Network-Generated LoRA Adapters for Calibrated Language Model Fine-Tuning

Bartosz Trojan, Filip Gębala

cs.CL cs.AI

本文研究了LoRA和一种基于hyper-network的parameter-efficient fine-tuning方法对RoBERTa模型calibration的影响. 实验表明, LoRA在保持参数效率的同时, 能达到与full fine-tuning相当的calibration效果, 而通过hyper-network生成LoRA参数的方法也取得了相似的结果.

Multilingual Hate Speech Detection and Counterspeech Generation: A Comprehensive Survey and Practical Guide

Zahra Safdari Fesaghandis, Suman Kalyan Maity

cs.CL

本文对多语言仇恨言论检测与反言论生成领域进行了全面的综述, 并提供了一个实用的指导框架. 它整合了自然语言处理的最新进展, 分析了单语系统在非英语和语码混合(context)环境中的局限性, 并概述了从任务设计到评估的结构化方法.

From Feature-Based Models to Generative AI: Validity Evidence for Constructed Response Scoring

Jodi M. Casabianca et al.

cs.CL cs.AI cs.CY

本文讨论了在构建性回答评分中, 从传统的基于特征的自然语言处理模型转向生成式AI模型时, 效度证据收集的差异与挑战. 作者提出了一套适用于生成式AI评分系统的最佳实践, 并通过一个学生议论文评分数据集进行了演示.

URAG: A Benchmark for Uncertainty Quantification in Retrieval-Augmented Large Language Models

Vinh Nguyen et al.

cs.CL cs.AI cs.IR

本文提出了一个名为URAG的基准测试, 用于系统评估检索增强生成(RAG)模型的不确定性. 该基准将开放式生成任务转化为多项选择题, 并利用conformal prediction进行不确定性量化, 分析了多种RAG方法在不同领域的准确性与不确定性权衡.

Framing Effects in Independent-Agent Large Language Models: A Cross-Family Behavioral Analysis

Zice Wang, Zhenyu Zhang

cs.CL cs.AI

本文研究了在独立智能体场景下, prompt framing (提示框架) 对大型语言模型(LLMs)决策行为的影响. 实验发现, 不同的表述框架会显著改变模型在阈值投票任务中的选择分布, 揭示了非交互多智能体部署中的一个潜在偏差来源.

Automated Motif Indexing on the Arabian Nights

Ibrahim H. Alyami, Mark A. Finlayson

cs.CL

本文提出了一种自动 motif indexing 的计算方法, 使用《一千零一夜》文本和详细的 motif 索引构建了标注语料库. 实验比较了多种方法, 其中 fine-tuned Llama3 模型取得了最佳的 F1 分数.

Automatic Analysis of Collaboration Through Human Conversational Data Resources: A Review

Yi Yu, Maria Boritchev, Chloé Clavel

cs.CL cs.AI

本文回顾了利用面向任务的人类对话数据进行协作自动分析的研究, 涵盖了相关理论, 编码方案, 任务和建模方法. 它旨在为如何利用此类数据资源提供实践参考, 并指出未来可能的研究方向.

LLM-MRD: LLM-Guided Multi-View Reasoning Distillation for Fake News Detection

Weilin Zhou et al.

cs.CL cs.AI

本文提出了一种名为LLM-MRD的教师-学生框架，用于多模态假新闻检测。该方法通过构建多视角推理基础并利用LLM生成深度推理链进行知识蒸馏，旨在克服现有方法在综合判断和推理效率方面的不足。实验表明其在多个数据集上超越了现有基线。

PrefPO: Pairwise Preference Prompt Optimization

Rahul Singhal, Pradyumna Tambwekar, Karime Maamari

cs.CL

本文提出了一种名为PrefPO的自动化prompt优化方法, 它基于pairwise preference feedback, 无需大量标注数据. 该方法在多个基准测试中取得了与现有方法相当或更好的性能, 并能生成更简洁的prompt.

Memory-Driven Role-Playing: Evaluation and Enhancement of Persona Knowledge Utilization in LLMs

Kai Wang et al.

cs.CL cs.AI

本文提出了一个用于评估和增强大语言模型在角色扮演任务中利用角色知识能力的记忆驱动范式. 该工作引入了细粒度的评估框架、提示架构和双语基准, 实验表明其方法能有效提升小模型在此任务上的表现.

Prompt-tuning with Attribute Guidance for Low-resource Entity Matching

Lihui Liu, Carl Yang

cs.CL cs.AI

本文提出了一种名为PROMPTATTRIB的低资源实体匹配方法, 通过结合实体级和属性级的prompt tuning来整合更丰富的上下文信息, 并利用模糊逻辑公式进行推理. 该方法还引入了基于dropout的对比学习来增强性能, 实验表明其在真实数据集上有效.

Scalable Prompt Routing via Fine-Grained Latent Task Discovery

Yunyi Zhang et al.

cs.CL cs.AI cs.LG

本文提出了一种用于大规模语言模型池的两阶段提示路由架构. 该方法通过自动化的细粒度潜在任务发现和任务感知的质量估计, 旨在优化查询性能并管理成本.

Is Evaluation Awareness Just Format Sensitivity? Limitations of Probe-Based Evidence under Controlled Prompt Structure

Viliana Devbunova

cs.CL cs.AI

本文通过控制实验设计, 检验了基于线性探针(linear probe)评估大语言模型是否具有"评估意识"(evaluation awareness)这一方法的可靠性. 研究发现, 探针信号主要追踪的是基准测试(benchmark)的特定格式, 而非评估上下文本身, 因此现有基于探针的证据强度有限.

Vocabulary shapes cross-lingual variation of word-order learnability in language models

Jonas Mayer Martins et al.

cs.CL cs.AI cs.LG

本文通过在不同词序变体的合成语言上预训练transformer模型, 研究了词序可学习性的跨语言差异. 研究发现, 词汇和子词词汇表的结构, 而非简单的词序自由度区分, 是预测模型困惑度的关键因素.

Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Víctor Gallego

cs.CL cs.GT

本文研究了利用LLM生成多智能体环境中程序化策略的方法, 通过迭代生成、评估和基于反馈改进的策略. 实验表明, 提供包含社会指标的密集反馈比仅提供稀疏奖励更有效, 尤其是在需要协调的公共物品博弈中. 研究还探讨了LLM可能滥用奖励机制的对抗性攻击及其缓解措施.

Inducing Sustained Creativity and Diversity in Large Language Models

Queenie Luo et al.

cs.CL cs.AI cs.CY cs.IR

本文针对大语言模型在探索性搜索任务中输出同质化的问题, 提出了一种新的解码方案. 该方法旨在无需访问模型内部向量空间的情况下, 诱导模型持续生成概念上独特且多样化的结果, 以帮助用户更有效地探索搜索空间.

EvidenceRL: Reinforcing Evidence Consistency for Trustworthy Language Models

J. Ben Tamo et al.

cs.CL cs.IR cs.LG

本文提出了一个名为 EvidenceRL 的强化学习框架, 旨在通过强化证据一致性来减少大型语言模型(LLMs)的幻觉问题. 该框架通过评估响应的证据支撑度(grounding)和正确性(correctness)来优化模型, 并在心脏诊断和法律推理等高风险领域验证了其有效性.

FDARxBench: Benchmarking Regulatory and Clinical Reasoning on FDA Generic Drug Assessment

Betty Xiong et al.

cs.CL cs.AI

本文提出了一个基于FDA药物标签文档的专家标注基准FDARxBench, 用于评估文档问答模型在仿制药评估领域的表现. 该基准包含多种任务类型, 实验揭示了当前模型在事实性、长上下文检索和安全拒绝行为方面存在显著不足.

TextReasoningBench: Does Reasoning Really Improve Text Classification in Large Language Models?

Xinyu Guo, Yazhou Zhang, Jing Qin

cs.CL

本文通过构建TextReasoningBench基准，系统评估了多种推理策略在大型语言模型文本分类任务中的有效性与效率。研究发现，推理策略并非总能提升分类性能，且往往伴随着巨大的计算开销。

BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

Zhengpei Hu et al.

cs.CL

本文提出了一种无需训练的分层提示压缩方法BEAVER, 通过结构感知的页面选择来提升长文档处理的效率. 该方法将可变长度上下文映射为密集的页面级张量, 并结合语义和词汇的双分支选择来保持语篇完整性, 在多个基准测试上实现了与先进方法相当的性能, 并显著降低了推理延迟.

Structured Prompting for Arabic Essay Proficiency: A Trait-Centric Evaluation Approach

Salim Al Mandhari et al.

cs.CL

本文针对阿拉伯语自动作文评分(AES)任务, 提出了一种新颖的结构化提示工程框架. 该框架在零样本和少样本设置下, 利用大型语言模型(LLMs)对作文的语言能力特质(如组织结构、词汇、内容展开、风格)进行专项评估.

DataProphet: Demystifying Supervision Data Generalization in Multimodal LLMs

Xuan Qi et al.

cs.CL

本文研究了如何为多模态大语言模型(MLLMs)选择监督数据的问题. 作者发现, 直观的任务相似性并不能可靠地预测下游性能增益, 并提出了一个无需训练的评估指标DataProphet.

EvoTaxo: Building and Evolving Taxonomy from Social Media Streams

Yiyang Li, Tianyi Ma, Yanfang Ye

cs.CL

本文提出了一个名为EvoTaxo的框架, 用于从社交媒体流中构建和演化分类法(taxonomy). 该方法将帖子转化为对现有分类法的结构化草稿操作, 并通过结合语义相似性和时间局部性的双视图聚类来整合候选编辑, 实验表明其能生成结构质量更好的分类法并捕捉有意义的语义演变.

TAB-AUDIT: Detecting AI-Fabricated Scientific Tables via Multi-View Likelihood Mismatch

Shuo Huang, Yan Pen, Lizhen Qu

cs.CL

本文提出了TAB-AUDIT框架，用于检测AI生成的伪造科学表格。该方法通过分析表格骨架与数值内容之间的困惑度差异等特征，在构建的FabTab基准数据集上取得了高检测性能。

LoopRPT: Reinforcement Pre-Training for Looped Language Models

Guo Tang et al.

cs.CL

本文提出了一个名为 LoopRPT 的强化预训练框架，专门用于优化循环语言模型 (LoopLMs) 的内部推理过程。该方法通过将强化信号直接分配给模型的潜在计算步骤，旨在提升其迭代表示的质量和效率。

PoC: Performance-oriented Context Compression for Large Language Models via Performance Prediction

Runsong Zhao et al.

cs.CL

本文提出了一种面向性能的大语言模型上下文压缩方法(PoC), 通过一个轻量级性能预测器来动态确定满足预设性能底线的压缩率, 从而指导现成的压缩器工作. 该方法旨在解决固定压缩率方法导致的性能不可预测问题, 在问答和摘要任务上验证了其有效性.

Rethinking Ground Truth: A Case Study on Human Label Variation in MLLM Benchmarking

Tomas Ruiz, Tanalp Agustoslu, Carsten Schwemmer

cs.CL

本文探讨了Human Label Variation (HLV) 在MLLM (Multimodal Large Language Model) 基准测试中的影响. 作者提出了一种新的评估协议, 区分高一致性和高分歧的人类标注数据, 并发现大模型在处理模糊和主观内容时可能表现不佳.

Neither Here Nor There: Cross-Lingual Representation Dynamics of Code-Mixed Text in Multilingual Encoders

Debajyoti Mazumder et al.

cs.CL

本文通过构建一个包含英语、印地语和罗马化代码混合句子的平行三语语料库, 研究了多语言编码器对代码混合文本的内部表示. 研究发现, 标准模型能较好地对齐英语和印地语, 但代码混合输入与任一种语言的表示连接都较弱, 且针对代码混合数据的持续预训练会以牺牲英语-印地语对齐为代价来改善英语-代码混合对齐. 作者进一步提出了一种三语后训练对齐目标, 以同时拉近代码混合表示与两种组成语言的距离, 从而在情感分析和仇恨言论检测任务上获得提升.

FrameNet Semantic Role Classification by Analogy

Van-Duy Ngo et al.

cs.CL cs.AI

本文提出了一种基于类比关系(analogy)的FrameNet语义角色分类新方法. 该方法将语义角色分类问题转化为二元分类问题, 并训练了一个轻量级人工神经网络(ANN). 在推理阶段, 通过随机采样和类比迁移来恢复语义角色, 取得了优于先前方法的结果.

Semantic Delta: An Interpretable Signal Differentiating Human and LLMs Dialogue

Riccardo Scantamburlo et al.

cs.CL cs.AI

本文提出了一种名为"semantic delta"的轻量级、可解释的统计特征，用于区分人类对话与LLM生成的对话。该指标基于对话中两个最主要语义类别强度的差异，实验表明LLM生成的文本具有更高的delta值，显示出更集中的主题结构。

Span-Level Machine Translation Meta-Evaluation

Stefano Perrella, Eric Morales Agostinho, Hugo Zaragoza

cs.CL cs.AI

本文探讨了机器翻译自动评估中错误检测能力的元评估问题. 作者分析了不同span-level评估指标(如precision, recall, F-score)的实现差异及其对系统排名的影响, 并提出了一种名为"match with partial overlap and partial credit"(MPP)的稳健元评估策略.

Translation from the Information Bottleneck Perspective: an Efficiency Analysis of Spatial Prepositions in Bitexts

Antoine Taroni, Ludovic Moncla, Frederique Laforest

cs.CL

本文从 Information Bottleneck 框架出发，将翻译过程建模为一个信息压缩优化问题，以此分析跨语言文本中空间介词的使用效率。通过对比实际翻译与假设替代方案，发现实际翻译更接近理论上的最优效率边界，为语言系统的认知效率压力提供了初步证据。

SAGE: Sustainable Agent-Guided Expert-tuning for Culturally Attuned Translation in Low-Resource Southeast Asia

Zhixiang Lu et al.

cs.CL

本文提出了一个名为SAGE的可持续智能体引导专家微调框架, 用于低资源东南亚语言的文化适配翻译. 该框架利用强化学习智能体从少量专家构建的对话中学习, 以高效筛选高质量训练数据, 并配合LoRA进行模型微调, 在显著降低数据使用量和能耗的同时, 取得了优异的翻译性能.

Hybrid topic modelling for computational close reading: Mapping narrative themes in Pushkin's Evgenij Onegin

Angelo Maria Sabatini

cs.CL

本文提出了一种结合LDA与sPLS-DA的混合主题建模框架，用于对叙事诗歌进行主题结构和纵向动态的计算分析。该框架在小型语料库中应用，通过识别词汇标记和叙事中心来增强主题的可解释性，为计算文学分析提供了一种可重复的方法论模板。

When Contextual Inference Fails: Cancelability in Interactive Instruction Following

Natalia Bila et al.

cs.CL

本文研究了在协作式积木搭建任务中, 字面解释与上下文推理的分离问题. 作者构建了一个交互式基准测试 Build What I Mean (BWIM), 评估了多个大语言模型, 发现它们在判断与行动上存在脱节.

An Agentic Approach to Generating XAI-Narratives

Yifan He, David Martens

cs.CL

本文提出了一个用于生成和精炼XAI叙述的多智能体框架, 包含生成叙述的Narrator和基于忠实性与连贯性指标提供反馈的Critic Agents. 通过在五个表格数据集和五个LLM上的系统评估, 验证了该框架在提升叙述忠实性方面的有效性, 并引入了基于多数投票的集成策略以进一步提升性能.

RouterKGQA: Specialized--General Model Routing for Constraint-Aware Knowledge Graph Question Answering

Bo Yuan et al.

cs.CL cs.DB cs.IR

本文提出了RouterKGQA框架, 通过协同使用小型专用模型和大型通用模型来进行知识图谱问答(KGQA). 该方法让专用模型生成推理路径, 并仅在必要时调用通用模型进行基于知识图谱的修正, 从而以较低成本提升了性能. 实验表明, 该方法在多个基准测试上取得了更好的效果, 同时显著降低了每次查询所需的大型语言模型调用次数.

LoASR-Bench: Evaluating Large Speech Language Models on Low-Resource Automatic Speech Recognition Across Language Families

Jianan Chen et al.

cs.CL cs.AI

本文提出了LoASR-Bench，一个用于评估大型语音语言模型在低资源语言自动语音识别性能的基准测试集。该基准涵盖了来自9个语系的25种语言，实验结果表明当前模型在处理真实世界低资源语言时仍存在局限。

Predicting States of Understanding in Explanatory Interactions Using Cognitive Load-Related Linguistic Cues

Yu Wang et al.

cs.CL

本文研究了在解释性对话中, 如何利用与认知负荷相关的语言线索来预测听者的理解状态. 通过分析包含面部表情和游戏解释的对话语料库, 发现说话者话语的信息值, 句法复杂度以及听者注视行为的变化与理解状态相关, 并验证了结合这些线索的模型能有效预测四种理解状态.

An Empirical Study of SFT-DPO Interaction and Parameterization in Small Language Models

Yuming Feng, Christy Yang

cs.CL cs.AI

本文通过实验研究了在小型语言模型(GPT-2规模)中, 监督微调(SFT)与直接偏好优化(DPO)的交互作用及参数化方法的影响. 研究发现, 在此小规模设定下, 全参数微调(FFT)的性能始终优于低秩适应(LoRA), 而DPO带来的性能提升有限且依赖于具体任务.

Current LLMs still cannot 'talk much' about grammar modules: Evidence from syntax

Mohammed Q. Shormani

cs.CL

本文通过分析ChatGPT对生成句法学核心术语的阿拉伯语翻译, 评估了大型语言模型(LLMs)在语法模块上的表现. 研究发现仅有25%的翻译完全准确, 表明LLMs在处理涉及句法和语义挑战的专业术语时仍存在显著局限.

Reasoning Gets Harder for LLMs Inside A Dialogue

Ivan Kartáč, Mateusz Lango, Ondřej Dušek

cs.CL

本文通过构建BOULDER基准测试，研究了在任务导向对话(TOD)环境中LLM的推理能力表现。实验发现，与孤立任务相比，对话设置会导致LLM的推理性能显著下降，这主要归因于对话的多轮次特性。

Enhancing Hyperspace Analogue to Language (HAL) Representations via Attention-Based Pooling for Text Classification

Ali Sakour, Zoalfekar Sakour

cs.CL cs.AI cs.LG

本文提出了一种改进的HAL模型, 通过引入可学习的温度缩放加性注意力机制来聚合词向量, 以替代传统的平均池化. 该方法在IMDB情感分析数据集上取得了比基线更高的准确率, 并且注意力权重显示出对情感相关词汇的有效聚焦.

Semantic Token Clustering for Efficient Uncertainty Quantification in Large Language Models

Qi Cao et al.

cs.CL cs.AI cs.LG

本文提出了一种名为Semantic Token Clustering (STC)的高效不确定性量化方法, 用于评估大型语言模型(LLM)输出的可靠性. 该方法通过嵌入聚类和前缀匹配将token分组到语义一致的簇中, 并基于簇内聚合的概率质量来量化不确定性, 无需重复采样或辅助模型, 显著降低了计算开销.

Evaluating Evidence Grounding Under User Pressure in Instruction-Tuned Language Models

Sai Koneru et al.

cs.CL

本文研究了指令微调语言模型在用户压力下对上下文证据的忠实度。通过一个基于美国国家气候评估的受控认知冲突框架，对19个不同规模的模型进行了细粒度分析。研究发现，仅提供更丰富的上下文证据并不能保证模型抵抗用户压力，其鲁棒性呈现非单调变化，且不同模型在冲突下的响应分布存在差异。

Measuring Faithfulness Depends on How You Measure: Classifier Sensitivity in LLM Chain-of-Thought Evaluation

Richard J. Young

cs.CL cs.AI cs.LG

本文通过比较三种不同的分类器在评估大语言模型chain-of-thought忠实性上的表现，指出忠实性并非一个客观、可单一测量的属性。不同分类器对相同数据会得出显著不同的总体忠实率，甚至导致模型排名反转，这表明跨研究的忠实性数据无法直接比较。

cs.DS

Lazy Kronecker Product

Zhao Song

cs.DS cs.CC

本文提出了一种用于动态Kronecker积问题的算法, 其摊销更新时间和最坏情况查询时间由张量指数$\omega(\cdot, \cdot, \cdot)$决定. 作者证明了该算法在tensor MV猜想成立的前提下, 其时间复杂度的紧性.

Algorithms for Euclidean Distance Matrix Completion: Exploiting Proximity to Triviality

Fedor V. Fomin et al.

cs.DS cs.CG cs.DM

本文针对d维欧氏距离矩阵补全问题, 提出了基于"距离平凡性"的参数化框架, 以获得精确算法的可处理性结果. 通过识别输入矩阵中刻画条目密度的关键结构模式, 作者给出了多个固定参数可解算法和一个多项式时间算法.

Range-Based Set Reconciliation via Range-Summarizable Order-Statistics Stores

Elvio G. Amparore

cs.DS

本文提出了 range-summarizable order-statistics store (RSOS) 这一存储抽象，作为实现 Range-Based Set Reconciliation (RBSR) 的高效后端。作者展示了如何通过增强 B⁺-树来实现 RSOS，并基于此构建了 AELMDB 系统，实验表明其能有效降低本地协调的计算开销。

Computational Complexity Analysis of Interval Methods in Solving Uncertain Nonlinear Systems

Rudra Prakash, S. Janardhanan, Shaunak Sen

cs.DS eess.SY

本文分析了用于求解不确定非线性系统的验证区间方法的计算复杂度. 研究建立了一个算法层面的最坏情况分析框架, 量化了区间二分法、区间牛顿法等方法的时空复杂度, 并指出了区间线性代数中的关键成本驱动因素.

Power laws and power-of-two-choices

Amanda Redlich

cs.DS math.PR

本文研究了"power of two choices"分配算法的一个变体, 即选择$d$个随机选项中的最大值而非最小值. 分析表明, 该过程会产生类似幂律的分布, 其中第$i$小的值以高概率按$i^{d-1}$缩放, 并给出了期望公式和分布的集中性结果.

others

Grounded Multimodal Retrieval-Augmented Drafting of Radiology Impressions Using Case-Based Similarity Search

Himadri Samanta

q-bio.QM cs.AI cs.CV

本文提出了一种用于胸部X光印象部分草稿生成的多模态检索增强生成(RAG)系统。该系统结合了对比图像-文本嵌入、基于病例的相似性检索和引用约束的生成，旨在提高报告生成的可信度与可追溯性。

L-PRISMA: An Extension of PRISMA in the Era of Generative Artificial Intelligence (GenAI)

Samar Shailendra et al.

cs.DL cs.AI cs.IR

本文提出了一种结合生成式人工智能(GenAI)与人工监督的系统性综述方法L-PRISMA, 旨在提升传统PRISMA框架的效率与可重复性. 该方法通过引入一个确定性的统计预筛选步骤来辅助人工审核, 以应对大语言模型(LLM)固有的不确定性问题.

The IJCNN 2025 Review Process

Michele Scarpiniti, Danilo Comminiello

cs.DL cs.LG

本文概述了IJCNN 2025会议的审稿流程，描述了会议规模的增长并介绍了一种用于减少审稿人偏见的评分校准策略。

How Motivation Relates to Generative AI Use: A Large-Scale Survey of Mexican High School Students

Echo Zexuan Pan, Danny Glick, Ying Xu

cs.CY cs.AI cs.HC

本文通过聚类分析调查了墨西哥高中生使用生成式AI的动机模式, 发现不同动机类型的学生在数学和写作领域使用AI的方式存在差异. 研究结果挑战了通用的AI整合方法, 并建议采取基于动机的教育干预措施.

CDEoH: Category-Driven Automatic Algorithm Design With Large Language Models

Yu-Nian Wang et al.

cs.NE cs.AI

本文提出了一种基于大语言模型(LLM)的自动算法设计框架CDEoH, 通过显式建模算法类别并在种群管理中平衡性能与类别多样性, 以缓解进化过程中的不稳定与早熟收敛问题. 实验表明, 该方法在多个组合优化问题上提升了进化稳定性与平均性能.

Beam-aware Kernelized Contextual Bandits for User Association and Beamforming in mmWave Vehicular Networks

Xiaoyang He, Manabu Tsukada

cs.IT cs.LG

本文提出了一种用于毫米波车载网络的用户关联与波束成形算法. 该算法利用历史上下文信息估计瞬时传输速率, 避免了频繁的信道测量开销.

Generalized Stock Price Prediction for Multiple Stocks Combined with News Fusion

Pei-Jun Liao et al.

q-fin.ST cs.AI cs.CL cs.LG

本文提出了一种结合大型语言模型(LLMs)与金融新闻的股票价格预测方法。该方法利用股票名称嵌入和注意力机制来筛选相关新闻，并训练了一个适用于多只股票的通用模型。

Joint Return and Risk Modeling with Deep Neural Networks for Portfolio Construction

Keonvin Park

q-fin.PM cs.AI cs.LG

本文提出了一种基于深度神经网络的联合收益与风险建模框架, 用于端到端地从时序金融数据中学习动态预期收益与风险结构. 在2020-2024年的样本外测试中, 该框架在收益预测和风险估计方面表现良好, 并显著提升了投资组合的风险调整后绩效.

Neural Dynamics Self-Attention for Spiking Transformers

Dehao Zhang et al.

cs.NE cs.AI

本文提出了一种名为LRF-Dyn的Spiking Self-Attention机制，旨在解决Spiking Transformer存在的性能差距与高内存开销问题。该方法通过引入局部感受野和模拟膜电位动态，在提升视觉任务性能的同时降低了推理时的内存需求。

Agreement Between Large Language Models, Human Reviewers, and Authors in Evaluating STROBE Checklists for Observational Studies in Rheumatology

Emre Bilgin et al.

cs.DL cs.AI

本文比较了大型语言模型(LLM)、人类评审小组和原作者在评估风湿病学观察性研究的STROBE清单时的一致性。研究发现，LLM在基础格式检查上表现良好，但在复杂方法学项目上与人类专家的共识较低。

PhyGile: Physics-Prefix Guided Motion Generation for Agile General Humanoid Motion Tracking

Jiacheng Bao et al.

cs.RO cs.AI cs.CV

本文提出了一种名为PhyGile的统一框架，用于生成类人机器人的全身运动。该方法通过物理前缀引导，直接在机器人骨骼空间中生成运动，避免了推断时的重定向问题，并通过课程学习和专家混合策略训练控制器，以在真实机器人上实现稳定、敏捷的运动跟踪。

Towards Solving Polynomial-Objective Integer Programming with Hypergraph Neural Networks

Minshuo Li et al.

cs.NE cs.LG

本文提出了一种基于超图神经网络的方法来解决多项式目标整数规划问题. 该方法通过结合变量与高次项以及变量与约束的卷积来预测解, 并通过搜索过程进行优化. 实验表明该方法在多个基准测试上优于现有的基于学习的方法和最先进的求解器.

Exploring Novelty Differences between Industry and Academia: A Knowledge Entity-centric Perspective

Hongye Zhao, Yi Zhao, Chengzhi Zhang

cs.DL cs.CL cs.CY

本文从知识实体的角度, 比较了学术界与工业界在研究成果新颖性上的差异. 通过量化分析, 发现学术界在论文和专利上均表现出更高的新颖性, 而合作的影响则因成果类型而异.

Mathematical Modeling of Cancer-Bacterial Therapy: Analysis and Numerical Simulation via Physics-Informed Neural Networks

Ayoub Farkane, David Lassounon

q-bio.QM cs.LG math.AP math.NA

本文提出了一个用于癌症细菌疗法的五方程反应-扩散数学模型, 并分析了其稳态与稳定性. 作者采用物理信息神经网络(PINN)对该系统进行了无网格数值求解, 并给出了误差估计.

Goedel-Code-Prover: Hierarchical Proof Search for Open State-of-the-Art Code Verification

Zenan Li et al.

cs.SE cs.AI

本文提出了一种用于Lean~4代码验证的分层证明搜索框架, 通过将复杂验证目标分解为更简单的子目标来提升自动化证明成功率. 该方法训练了一个统一的策略模型, 在多个基准测试上显著超越了现有基线模型.

PAI: Fast, Accurate, and Full Benchmark Performance Projection with AI

Avery Johnson et al.

cs.AR cs.AI

本文提出了一种名为PAI的基于AI的性能预测技术, 用于快速、准确地预测完整基准测试程序的性能. 该方法采用分层的LSTM模型, 避免了传统模拟器的速度瓶颈, 在SPEC CPU 2017基准套件上实现了较低的IPC预测误差和极快的预测速度.

POET: Power-Oriented Evolutionary Tuning for LLM-Based RTL PPA Optimization

Heng Ping et al.

cs.AR cs.AI

本文提出了一个名为POET的框架, 用于使用LLM优化RTL代码的PPA(功耗, 性能, 面积). 它通过差分测试确保功能正确性, 并采用进化算法优先降低功耗.

Diffusion-Guided Semantic Consistency for Multimodal Heterogeneity

Jing Liu et al.

cs.CV cs.AI

本文提出了一种名为SemanticFL的新框架, 旨在解决联邦学习中非独立同分布数据导致的性能下降问题. 该方法利用预训练扩散模型的多层语义表示来对齐异构客户端, 并通过跨模态对比学习机制提升模型鲁棒性.

Exploring the Agentic Frontier of Verilog Code Generation

Patrick Yubeaton, Chinmay Hegde, Siddharth Garg

cs.AR cs.LG

本文评估了agentic LLMs在Verilog代码生成任务中的表现, 使用了CVDP基准测试, 并引入了开源的硬件设计agent框架. 研究发现, 简单的agent包装可能会降低性能, 但结构化的框架可以匹配甚至超越非agentic基线, 并且开源与闭源模型之间的性能差距主要源于更高的崩溃率和更弱的工具输出解释能力.

A Novel Solution for Zero-Day Attack Detection in IDS using Self-Attention and Jensen-Shannon Divergence in WGAN-GP

Ziyu Mu, Xiyu Shi, Safak Dogan

cs.CR cs.AI cs.LG

本文提出了一种结合 Self-Attention 机制和 Jensen-Shannon 散度的 WGAN-GP 模型，用于生成模拟零日攻击的网络流量数据以增强入侵检测系统。通过在 NSL-KDD 数据集上采用留一攻击类型法进行评估，该方法显示出提升检测性能的潜力。

Automated Membership Inference Attacks: Discovering MIA Signal Computations using LLM Agents

Toan Tran, Olivera Kotevska, Li Xiong

cs.CR cs.LG

本文提出了一个名为AutoMIA的自动化框架，利用LLM agents来设计和实现新的成员推理攻击信号计算。该框架能够系统性地探索大量潜在攻击策略，从而发现针对特定目标模型和数据集定制的新攻击方法。实验表明，AutoMIA发现的攻击在性能上优于现有方法。

TuLaBM: Tumor-Biased Latent Bridge Matching for Contrast-Enhanced MRI Synthesis

Atharva Rege et al.

eess.IV cs.LG

本文提出了一种名为TuLaBM的方法, 用于从非对比增强MRI合成对比增强MRI. 该方法在学习的latent space中利用Brownian bridge transport进行图像转换, 并引入了肿瘤区域注意力机制以提升合成质量. 实验表明该方法在多个数据集上超越了现有基线, 并实现了较快的推理速度.

Bridging Conformal Prediction and Scenario Optimization: Discarded Constraints and Modular Risk Allocation

Giuseppe C. Calafiore

eess.SY cs.LG

本文从系统与控制的角度, 重新审视了 scenario optimization 与 conformal prediction 之间的联系. 文章扩展了已有的理论桥梁, 将其应用于可行的 sample-and-discard 算法, 并引入了一个模块化的组合规则, 用于在多输出预测和有限时域控制中分配风险.

Investigating In-Context Privacy Learning by Integrating User-Facing Privacy Tools into Conversational Agents

Mohammad Hadi Nezhad, Francisco Enrique Vicente Castro, Ivon Arroyo

cs.HC cs.AI

本文通过将即时隐私提示面板集成到模拟的ChatGPT界面中, 研究了用户在与聊天机器人交互时, 通过与隐私工具的互动来增强隐私学习的可能性. 研究通过对比实验和定性分析, 探讨了界面设计特征如何影响用户对敏感信息的保护行为与隐私认知的变化.

Pseudo-Labeling for Unsupervised Domain Adaptation with Kernel GLMs

Nathan Weill, Kaizheng Wang

stat.ML cs.LG math.ST

本文提出了一种用于核广义线性模型(GLM)在协变量偏移下无监督域适应的框架. 该方法通过划分源数据来训练候选模型和插补模型, 后者为目标数据生成伪标签以进行模型选择, 并建立了非渐近超额风险界.

The Autonomy Tax: Defense Training Breaks LLM Agents

Shawn Li, Yue Zhao

cs.CR cs.AI cs.LG

本文探讨了在防御训练下LLM agent的能力与安全对齐之间的悖论. 研究发现, 旨在提升安全性的训练会系统性损害agent执行多步任务的能力, 同时无法有效抵御复杂攻击, 揭示了当前防御范式的根本局限性.

Subspace Projection Methods for Fast Spectral Embeddings of Evolving Graphs

Mohammad Eini et al.

stat.ML cs.LG eess.SP

本文提出了一种基于Rayleigh-Ritz投影的算法框架, 用于在动态演化的图结构中快速更新其邻接矩阵或Laplacian矩阵的前导特征向量. 该方法通过构建一个能捕获所需特征向量不变子空间的投影子空间, 降低了计算和内存复杂度, 并在节点中心性识别和聚类等下游任务中表现出良好的性能.

Near-Equivalent Q-learning Policies for Dynamic Treatment Regimes

Sophia Yazzourh, Erica E.M. Moodie

stat.ML cs.LG

本文扩展了Q-learning框架, 引入了一个由超参数$\varepsilon$控制的"最差值容忍"准则, 用于识别动态治疗策略中性能接近最优的$\varepsilon$-最优策略集合. 该方法将策略搜索从单一最优解扩展到一组近等效解, 并能在模拟的肿瘤治疗模型中识别出多个治疗决策效果相当的"无差异区域".

LoFi: Location-Aware Fine-Grained Representation Learning for Chest X-ray

Myeongkyun Kang, Yanting Yang, Xiaoxiao Li

cs.CV cs.AI

本文提出了一种用于胸部X光图像的细粒度表示学习方法LoFi, 通过联合优化多种损失函数来学习位置感知的特征表示. 该方法在检索和短语定位任务上取得了优于现有模型的表现.

TrustFlow: Topic-Aware Vector Reputation Propagation for Multi-Agent Ecosystems

Volodymyr Seliuchenko

cs.MA cs.AI

本文提出了一种名为TrustFlow的声誉传播算法, 为软件智能体分配多维声誉向量而非标量分数. 该算法通过基于内容嵌入的门控转移算子在交互图中传播声誉, 并证明了收敛性. 在包含50个智能体的基准测试中, 该算法展现了对多种攻击的鲁棒性.

A Framework for Formalizing LLM Agent Security

Vincent Siu et al.

cs.CR cs.AI

本文提出了一个用于形式化LLM agent安全性的框架, 强调了安全性的上下文依赖本质. 该框架定义了四个安全属性(如task alignment, source authorization)和一组用于验证的oracle函数, 以此系统化地重新形式化了现有的攻击(如prompt injection)和防御措施.

Reinforcement-guided generative protein language models enable de novo design of highly diverse AAV capsids

Lucas Ferraz et al.

q-bio.BM cs.LG

本文结合 protein language model 与 reinforcement learning 来生成新型 AAV capsid 蛋白序列. 该方法在保持预测可行性的同时, 探索了远离训练分布的序列空间, 为蛋白质设计提供了一种生成式探索框架.

Beyond the Desk: Barriers and Future Opportunities for AI to Assist Scientists in Embodied Physical Tasks

Irene Hou et al.

cs.HC cs.AI

本文通过访谈12位从事实验室和实地工作的科学从业者, 首次研究了AI在具身物理任务中的应用. 研究发现AI在此类场景下面临三大障碍, 并提出了未来AI作为支持性背景基础设施的若干设计方向.

Linear Social Choice with Few Queries: A Moment-Based Approach

Luise Ge et al.

cs.GT cs.AI

本文研究了在极端通信预算下的线性社会选择问题, 提出了一种基于矩恢复的方法. 通过建模选民类型为未知分布, 证明了少量查询即可支持多种社会选择目标.

FedAgain: A Trust-Based and Robust Federated Learning Strategy for an Automated Kidney Stone Identification in Ureteroscopy

Ivan Reyes-Amezcua et al.

cs.CV cs.AI

本文提出了一种名为FedAgain的基于信任的Federated Learning策略，旨在提升从内窥镜图像中自动识别肾结石的鲁棒性和泛化能力。该方法通过结合基准可靠性和模型差异性的双重信任机制来动态加权客户端贡献，并在多个数据集上验证了其优于标准Federated Learning基线。

Gastric-X: A Multimodal Multi-Phase Benchmark Dataset for Advancing Vision-Language Models in Gastric Cancer Analysis

Sheng Lu et al.

cs.CV cs.AI

本文介绍了Gastric-X, 一个用于胃癌分析的大规模多模态基准数据集. 该数据集旨在评估和推进视觉语言模型在模拟真实临床工作流程中的能力.

ReXInTheWild: A Unified Benchmark for Medical Photograph Understanding

Oishi Banerjee et al.

cs.CV cs.LG

本文提出了一个名为ReXInTheWild的基准测试，用于评估视觉语言模型对日常医学照片的理解能力。该基准包含近千个临床验证的问题，测试结果显示现有模型的表现存在显著差异。

Depictions of Depression in Generative AI Video Models: A Preliminary Study of OpenAI's Sora 2

Matthew Flathers et al.

cs.CY cs.AI cs.HC

本文通过对比OpenAI的Sora 2视频生成模型在消费级App和开发者API两种接入方式下对“Depression”提示词的响应，分析了AI对抑郁症的视觉描绘。研究发现，App生成的视频倾向于呈现从抑郁到恢复的叙事，并具有更明亮的色调和更多动态，而两种方式都依赖于有限的视觉符号库，且人物多为独处的年轻人。研究指出，这些描绘反映了训练数据和平台设计，而非临床知识。

SurfaceXR: Fusing Smartwatch IMUs and Egocentric Hand Pose for Seamless Surface Interactions

Vasco Xu et al.

cs.CV cs.HC cs.LG

本文提出了一种结合头戴式设备的手部追踪与智能手表IMU数据的传感器融合方法SurfaceXR, 用于在扩展现实(XR)中实现更稳健的日常表面交互. 该方法旨在解决纯视觉方法在手部追踪和表面平面估计方面的不可靠性问题.

dinov3.seg: Open-Vocabulary Semantic Segmentation with DINOv3

Saikat Dutta, Biplab Banerjee, Hamid Rezatofighi

cs.CV cs.AI

本文提出了一个基于DINOv3的开放词汇语义分割框架，通过设计特定架构、结合全局与局部文本嵌入、以及早期与晚期特征精炼来提升密集预测的准确性和鲁棒性。该方法在多个基准测试中表现优异，超越了现有技术。

Verifiable Error Bounds for Physics-Informed Neural Network Solutions of Lyapunov and Hamilton-Jacobi-Bellman Equations

Jun Liu

eess.SY cs.LG math.OC

本文针对Physics-Informed Neural Networks (PINNs)求解Lyapunov和Hamilton-Jacobi-Bellman (HJB)方程时缺乏严格误差保证的问题, 提出了可验证的误差界. 通过建立PDE残差与解误差之间的定量关系, 为近似解提供了后验误差估计, 并证明了在某些条件下, 近似解本身即可构成有效的Lyapunov或控制Lyapunov函数.

Plagiarism or Productivity? Students Moral Disengagement and Behavioral Intentions to Use ChatGPT in Academic Writing

John Paul P. Miranda et al.

cs.CY cs.AI cs.ET stat.AP

本文研究了道德推脱对菲律宾大学生在学术写作中使用ChatGPT意愿的影响。研究基于计划行为理论, 分析了五种道德推脱机制(如道德辩护, 责任转移等)如何通过态度, 主观规范和感知行为控制来预测行为意向。结果表明, 归咎于他人这一机制影响最强, 而态度对行为意向的预测力最高。

Learning to Bet for Horizon-Aware Anytime-Valid Testing

Ege Onur Taga, Samet Oymak, Shubhanshu Shekhar

stat.ME cs.LG

本文提出了一种在严格截止时间$N$下, 用于有界均值的、具有时限感知的任意时间有效检验和置信序列方法. 该方法基于投注/e-过程框架, 将时限感知投注建模为一个有限时域最优控制问题, 并引入深度强化学习来学习一个通用的投注策略.

Optimal Scalar Quantization for Matrix Multiplication: Closed-Form Density and Phase Transition

Calvin Ang, Sungyoon Kim, Mert Pilanci

cs.IT cs.AI

本文研究了矩阵乘法前对两个矩阵进行逐元素标量量化的最优方案. 在给定量化级别数的高分辨率极限下, 推导了均方误差的渐近展开式, 并得到了最优的量化中心点密度函数. 特别地, 对于相关的高斯乘性对, 获得了闭式最优密度, 并证明了一个由相关性驱动的相变现象.

An Adaptive Machine Learning Framework for Fluid Flow in Dual-Network Porous Media

V. S. Maduri, K. B. Nakshatrala

math.NA cs.LG physics.flu-dyn

本文提出了一种基于物理信息神经网络(PINN)的框架,用于双孔隙/渗透率(DPP)模型的正向和逆向建模. 该框架通过自适应权重调整和动态配置点选择等技术, 实现了对复杂多孔介质中流体流动的快速预测和参数识别.

Dual-Domain Representation Alignment: Bridging 2D and 3D Vision via Geometry-Aware Architecture Search

Haoyu Zhang et al.

cs.CV cs.AI

本文提出了一种名为EvoNAS的高效分布式框架, 用于多目标进化架构搜索. 该方法通过构建混合超网并引入跨架构双域知识蒸馏策略, 旨在平衡模型精度与推理效率, 并在多个基准数据集上验证了其有效性.

PFM-VEPAR: Prompting Foundation Models for RGB-Event Camera based Pedestrian Attribute Recognition

Minghe Xu et al.

cs.CV cs.AI cs.LG

本文提出了一种基于RGB和Event相机融合的行人属性识别方法. 该方法使用轻量级的频域操作提取事件特征, 并通过外部记忆库和注意力机制进行多模态融合与关系知识挖掘.

AI Psychosis: Does Conversational AI Amplify Delusion-Related Language?

Soorya Ram Shimgekar et al.

cs.HC cs.AI cs.CL cs.CY cs.SI

本文通过构建模拟用户(SimUsers)与对话AI进行多轮交互, 研究了AI对话对妄想相关语言的潜在放大效应. 研究发现, 有妄想相关语言历史的模拟用户, 其对话中的妄想相关语言强度会随着交互轮次增加而上升, 并提出了基于当前语言状态的干预方法以减轻此风险.

Evolving Embodied Intelligence: Graph Neural Network--Driven Co-Design of Morphology and Control in Soft Robotics

Jianqiang Wang et al.

cs.RO cs.AI

本文提出了一种基于Graph Neural Network的方法, 用于软体机器人形态与控制的协同设计. 该方法通过图注意力网络编码机器人结构, 并利用拓扑一致的参数继承机制, 使控制器能更好地适应形态的演化.

Skilled AI Agents for Embedded and IoT Systems Development

Yiming Li et al.

cs.SE cs.AI

本文提出了一个基于技能的智能体框架和IoT-SkillsBench基准，用于评估AI agent在真实嵌入式硬件环境中的编程能力。该框架通过引入专家技能知识，显著提升了在硬件在环系统开发任务上的成功率。

Data-driven ensemble prediction of the global ocean

Qiusheng Huang et al.

physics.ao-ph cs.AI

本文提出了首个基于机器学习的全球海洋集合预报系统FuXi-ONS, 该系统能高效生成长达一年的多变量海洋状态概率预报. 相比传统数值模型, 它在保持预报技巧的同时实现了数量级的速度提升.

Physics-Informed Neural Network with Adaptive Clustering Learning Mechanism for Information Popularity Prediction

Guangyin Jin et al.

cs.SI cs.AI

本文提出了一种结合物理信息神经网络与自适应聚类学习机制的模型PIACN, 用于预测信息传播的流行度. 该模型通过物理方法建模宏观传播模式, 并利用自适应聚类处理信息异质性, 在多个真实数据集上取得了优于现有方法的效果.

K-GMRF: Kinetic Gauss-Markov Random Field for First-Principles Covariance Tracking on Lie Groups

ZhiMing Li

cs.CV cs.LG

本文提出了一种用于在线跟踪非平稳协方差矩阵的K-GMRF框架。该方法将问题重新表述为Lie群上的受迫刚体运动，通过二阶动力学实现稳定跟踪，并在多个视觉任务中验证了其性能。

FB-CLIP: Fine-Grained Zero-Shot Anomaly Detection with Foreground-Background Disentanglement

Ming Hu et al.

cs.CV cs.AI

本文提出了一种名为FB-CLIP的零样本细粒度异常检测框架。它通过多策略文本表征和前景-背景解耦来提升异常定位能力，在视觉和文本模态上进行了针对性设计。

LoD-Loc v3: Generalized Aerial Localization in Dense Cities using Instance Silhouette Alignment

Shuaibang Peng et al.

cs.CV cs.AI cs.RO

本文提出了一种名为LoD-Loc v3的新方法，用于密集城市环境中的广义航空视觉定位。该方法通过生成大规模实例分割数据集和将定位范式从语义轮廓对齐转向实例轮廓对齐，提升了跨场景泛化能力并减少了密集建筑场景中的姿态估计模糊性。

CAF-Score: Calibrating CLAP with LALMs for Reference-free Audio Captioning Evaluation

Insung Lee et al.

cs.SD cs.AI cs.CL

本文提出了一种名为CAF-Score的无参考音频描述评估方法，它通过结合CLAP的语义对齐能力和LALM的细粒度理解来改进评估效果。实验表明该方法在相关基准上取得了与人类判断更高的相关性。

The Prosocial Ranking Challenge: Reducing Polarization on Social Media without Sacrificing Engagement

Jonathan Stray et al.

cs.SI cs.IR

本文通过一个浏览器扩展程序, 在2024年美国总统大选期间, 对近万名社交媒体用户进行了为期六个月的随机对照实验, 比较了五种替代排序算法对情感极化等社会性指标的影响. 研究发现, 这些算法能小幅降低情感极化, 但对用户福祉、新闻知识等指标没有显著影响, 且对用户参与时间的影响因平台而异.

Dual Prompt-Driven Feature Encoding for Nighttime UAV Tracking

Yiheng Wang et al.

cs.CV cs.AI

本文提出了一种用于夜间无人机跟踪的双提示驱动特征编码方法. 该方法通过整合提示条件特征适应和上下文感知提示演化, 旨在提升特征编码的领域不变性.

On the role of memorization in learned priors for geophysical inverse problems

Ali Siahkoohi, Davide Sabeddu

stat.ML cs.LG physics.geo-ph

本文探讨了在基于深度生成模型的地球物理反问题中, 记忆化(memorization)对学习先验的影响. 研究表明, 当训练数据有限时, 模型可能收敛于经验分布而非真实地质分布, 导致后验简化为训练样本的加权查找.

MetaCues: Enabling Critical Engagement with Generative AI for Information Seeking and Sensemaking

Anjali Singh et al.

cs.HC cs.AI cs.CY cs.IR

本文介绍了一个名为MetaCues的交互式工具，旨在通过提供元认知提示来引导用户在使用生成式AI进行信息搜索时进行批判性思考。一项在线研究表明，该工具能提升用户对搜索主题进行态度判断的信心，并促进更广泛的探究。

OmniDiT: Extending Diffusion Transformer to Omni-VTON Framework

Weixuan Zeng et al.

cs.CV cs.AI

本文提出了一个基于Diffusion Transformer的统一虚拟试穿框架OmniDiT, 它将try-on和try-off任务整合到一个模型中. 该方法通过构建大规模数据集, 引入Shifted Window Attention来降低计算复杂度, 并利用多时间步预测和对齐损失来提升生成质量, 在多种复杂场景下取得了优异的性能.

PolicySim: An LLM-Based Agent Social Simulation Sandbox for Proactive Policy Optimization

Renhong Huang et al.

cs.SI cs.AI

本文提出了一个基于LLM的社交模拟沙箱PolicySim, 用于在平台干预政策部署前进行主动评估和优化. 它通过用户代理模块和自适应干预模块来建模用户行为与平台干预之间的双向动态, 实验表明其能在微观和宏观层面准确模拟平台生态系统.

Model Selection and Parameter Estimation of Multi-dimensional Gaussian Mixture Model

Xinyu Liu, Hai Zhang

stat.ML cs.LG

本文研究了多维 Gaussian Mixture Model (GMM) 的学习问题, 重点在于模型阶数选择和参数估计. 作者首先建立了模型选择所需样本复杂度的信息论下界, 然后提出了一种基于谱间隙阈值判断的估计算法, 并证明了其最优性. 在确定模型阶数后, 文章进一步提出了一种结合数据驱动初始化的梯度方法进行参数估计, 并讨论了高维情形下的降维策略.

Toward High-Fidelity Visual Reconstruction: From EEG-Based Conditioned Generation to Joint-Modal Guided Rebuilding

Zhijian Gong et al.

cs.CV cs.AI

本文提出了一种联合模态视觉重建框架, 旨在利用EEG信号进行高保真视觉重建. 该方法通过独立处理EEG与文本模态, 并采用多尺度编码与图像增强技术, 在THINGS-EEG数据集上取得了优于基线方法的效果.

ATHENA: Adaptive Test-Time Steering for Improving Count Fidelity in Diffusion Models

Mohammad Shahab Sepehri et al.

cs.CV cs.AI cs.LG

本文提出了一个名为ATHENA的模型无关、测试时自适应引导框架, 旨在提升扩散模型在文本提示指定明确物体数量时的计数保真度. 该方法通过在去噪早期进行计数感知的噪声修正来引导生成轨迹, 无需修改模型架构或重新训练.

Diminishing Returns in Expanding Generative Models and Godel-Tarski-Lob Limits

Angshul Majumdar

cs.LO cs.LG

本文提出了一个分析生成式推理系统扩展能力的任务空间框架. 在该框架下, 作者证明了随着系统容量增加, 其可解决任务集的边际改进必然趋于零, 并探讨了逻辑推理任务中由Godel-Tarski-Lob定理所暗示的根本限制.

Envy-Free School Redistricting Between Two Groups

Daisuke Shibatani, Yutaro Yamaguchi

cs.GT cs.DS

本文研究了学校重新划分学区中的公平分配问题. 作者针对两个群体的情况, 引入了一种称为"1-relaxed envy-freeness"的松弛公平性概念, 并证明了满足此条件的分配方案总是存在且可在多项式时间内找到.

Minimax and Adaptive Covariance Matrix Estimation under Differential Privacy

T. Tony Cai, Yicheng Li

math.ST cs.LG

本文研究了在差分隐私约束下高维带状协方差矩阵的极小极大和自适应估计问题. 提出了一种新颖的差分隐私块状三对角估计器, 并建立了匹配的下界, 揭示了隐私带来的额外误差成本.

A two-step sequential approach for hyperparameter selection in finite context models

José Contente et al.

stat.ML cs.LG

本文提出了一种用于有限上下文模型超参数选择的两步顺序方法. 该方法通过分解联合优化问题, 先利用序列依赖度量估计上下文长度, 再通过最大似然估计平滑参数, 在模拟数据上取得了与穷举搜索相当的压缩性能, 同时显著降低了计算成本.

MOSS-TTSD: Text to Spoken Dialogue Generation

Yuqian Zhang et al.

cs.SD cs.AI cs.CL

本文提出了一个用于多语言口语对话生成的模型MOSS-TTSD, 它通过增强的长上下文建模, 能够从带有说话人标签的对话脚本中生成长达60分钟的单次合成语音, 支持多说话人对话和零样本语音克隆. 作者还提出了一个基于强制对齐的客观评估框架TTSD-eval, 实验表明该模型在对话合成任务上超越了现有基线.

Uncertainty-aware Prototype Learning with Variational Inference for Few-shot Point Cloud Segmentation

Yifei Zhao, Fanyu Zhao, Yinsheng Li

cs.CV cs.AI

本文提出了一种用于 few-shot 3D 点云分割的概率方法 UPL. 该方法通过变分推断将不确定性建模融入原型学习, 并在基准数据集上取得了先进的性能.

Growing Networks with Autonomous Pruning

Charles De Lambilly, Stefan Duffner

cs.CV cs.LG

本文提出了一种用于图像分类的GNAP方法, 该方法在训练过程中动态调整网络大小和参数量. 通过周期性的增长阶段和基于梯度下降的自主剪枝机制, 旨在以尽可能少的参数达到高精度. 实验在MNIST和CIFAR10等基准数据集上验证了其训练高稀疏度、高精度网络的有效性.

Learning Hierarchical Orthogonal Prototypes for Generalized Few-Shot 3D Point Cloud Segmentation

Yifei Zhao et al.

cs.CV cs.AI

本文提出了一个名为HOP3D的框架，用于解决广义少样本3D点云分割中的稳定性-可塑性权衡问题。该方法通过分层正交原型和基于熵的正则化器，旨在减少新旧类学习间的干扰。

Borderless Long Speech Synthesis

Xingchen Song et al.

cs.SD cs.CL eess.AS

本文提出了一个用于无边界长音频合成的框架, 采用了一种"标注优先于过滤/清洗"的数据策略和分层标注方案. 在模型方面, 它结合了连续分词器、思维链推理和维度丢弃等技术, 旨在通过结构化语义接口实现从文本到无边界长语音的合成.

Offshore oil and gas platform dynamics in the North Sea, Gulf of Mexico, and Persian Gulf: Exploiting the Sentinel-1 archive

Robin Spanier et al.

eess.IV cs.AI cs.CV

本文利用 Sentinel-1 卫星数据和基于深度学习的物体检测方法，对北海、墨西哥湾和波斯湾的离岸油气平台进行了自动化时空监测，生成了2017-2025年的季度时间序列数据。研究识别了平台的位置、规模、水深等信息，并分析了其数量变化和动态趋势，展示了遥感数据在海洋基础设施长期监测中的潜力。

Enhancing Alignment for Unified Multimodal Models via Semantically-Grounded Supervision

Jiyeong Kim et al.

cs.CV cs.AI

本文提出了一个名为SeGroS的微调框架, 旨在解决统一多模态模型(UMMs)中存在的粒度不匹配和监督冗余问题. 该方法通过构建新颖的视觉基础图和两种互补的监督信号, 提升了模型在多个基准测试上的生成保真度和跨模态对齐能力.

Gesture2Speech: How Far Can Hand Movements Shape Expressive Speech?

Lokesh Kumar et al.

eess.AS cs.AI cs.MM

本文提出了一种名为Gesture2Speech的新型多模态TTS框架，旨在利用视觉手势线索来调制合成语音的韵律。该框架采用多模态Mixture-of-Experts架构和手势-语音对齐损失，在PATS数据集上的评估表明其在语音自然度和同步性方面优于现有基线。

Explainable cluster analysis: a bagging approach

Federico Maria Quetti et al.

stat.ML cs.LG

本文提出了一种基于bagging和特征dropout的集成聚类框架, 用于生成可解释的特征重要性评分. 该方法通过bootstrap重采样和分区聚合来提高聚类稳定性, 并利用互信息评估特征与聚类标签的关联, 最终输出共识分区和特征重要性度量.

Modeling subgrid scale production rates on complex meshes using graph neural networks

Priyabrat Dash, Mathis Bode, Konduri Aditya

physics.flu-dyn cs.LG

本文提出了一种基于graph neural network (GNN)的模型, 用于预测复杂非均匀网格上的filtered species production rates, 以改进large-eddy simulation (LES)中的closure问题. 模型在turbulent premixed flames数据集上训练和测试, 相比baseline方法展现出更低的误差和更好的跨工况泛化能力.

Overreliance on AI in Information-seeking from Video Content

Anders Giovanni Møller et al.

cs.CY cs.CL cs.HC

本文通过实验研究了生成式AI对视频信息检索任务中准确性、效率和用户信心的影响。实验发现AI辅助能提升表现，但也揭示了用户过度依赖AI可能导致的安全风险。

Failure Modes for Deep Learning-Based Online Mapping: How to Measure and Address Them

Michael Hubbertz, Qi Han, Tobias Meisen

cs.CV cs.AI cs.LG

本文针对基于深度学习的在线建图模型泛化能力不足的问题, 提出了一个分析框架来识别和量化其失败模式. 该框架通过解耦输入特征记忆与地图几何过拟合两种效应, 并引入基于Fréchet距离的重建统计量及多种几何多样性度量, 为模型评估和数据集设计提供了新的诊断工具.

IsoCLIP: Decomposing CLIP Projectors for Efficient Intra-modal Alignment

Simone Magistri et al.

cs.CV cs.LG

本文分析了CLIP模型中projector在intra-modal任务中的misalignment问题, 指出其源于projector中的inter-modal operator和intra-modal operator的不同作用. 通过spectral分析, 作者提出了一种无需训练的方法来改善intra-modal alignment.

Minimax Generalized Cross-Entropy

Kartheek Bondugula et al.

stat.ML cs.LG

本文提出了一种新的损失函数 minimax generalized cross-entropy (MGCE), 它通过一个极小极大 (minimax) 的凸优化公式改进了现有的 generalized cross-entropy (GCE). 该方法在存在标签噪声的情况下, 在多个基准数据集上实现了更好的准确性和校准性.

Revealing Domain-Spatiality Patterns for Configuration Tuning: Domain Knowledge Meets Fitness Landscapes

Yulong Ye et al.

cs.SE cs.AI

本文提出了一种结合Fitness Landscape Analysis (FLA)与领域知识分析的方法Domland, 用于揭示配置调优问题中隐藏的领域-空间模式. 该方法旨在解释调优器成功或失败的原因, 并通过案例研究得出了一些关于配置系统特性的发现.

Deep Autocorrelation Modeling for Time-Series Forecasting: Progress and Prospects

Hao Wang et al.

stat.ML cs.LG stat.AP

本文是一篇关于深度时间序列预测中自相关建模的综述性论文. 它从模型架构和学习目标两个方面, 对现有文献进行了系统性的梳理和分析.

Infinite-dimensional spherical-radial decomposition for probabilistic functions, with application to constrained optimal control and Gaussian process regression

Kewei Wang, Georg Stadler

math.OC cs.LG math.NA

本文提出了一种混合无限维球面-径向分解(hiSRD)方法, 用于估计定义在无限维椭圆分布上的概率函数及其梯度. 该方法结合了子空间SRD与标准Monte Carlo方法, 为机会约束优化等问题中的凸集提供了无偏、低方差的估计器. 作者通过数值实验展示了该方法在具有联合机会状态约束的风险中性随机PDE最优控制问题, 以及高斯过程回归核参数优化中的应用.

Learning Like Humans: Analogical Concept Learning for Generalized Category Discovery

Jizhou Han et al.

cs.CV cs.AI

本文提出了一种名为 Analogy Textual Concept Generator (ATCG) 的即插即用模块, 用于广义类别发现(GCD)任务. 该模块通过从已知标签知识中类比生成未标记样本的文本概念, 并与视觉特征融合, 以提升模型在细粒度类别上的发现性能.

RAM: Recover Any 3D Human Motion in-the-Wild

Sen Jia et al.

cs.CV cs.AI

本文提出了一种名为RAM的框架, 用于在复杂自然场景下恢复多人的3D人体运动. 它通过结合运动感知跟踪, 时序先验注入和未来姿态预测等技术, 在多个基准测试上实现了优于先前方法的跟踪稳定性和3D重建精度.

TAPAS: Efficient Two-Server Asymmetric Private Aggregation Beyond Prio(+)

Harish Karthikeyan, Antigoni Polychroniadou

cs.CR cs.LG

本文提出了一种名为TAPAS的高效两服务器非对称私有聚合方案。该方案旨在解决现有协议在通信开销和计算负载对称性方面的限制，尤其适用于高维数据场景。

Structural Controllability of Large-Scale Hypergraphs

Joshua Pickard, Xin Mao, Can Chen

math.OC cs.LG cs.SI eess.SY

本文为高阶交互网络建立了结构可控性分析框架. 通过将超图动力学建模为多项式系统, 作者将图论中的可及性与扩张概念推广到超图, 并给出了保证系统几乎处处可控的拓扑判据. 基于此, 他们提出了一个可扩展的驱动节点选择算法, 并在大规模超图上验证了其有效性.

HiPath: Hierarchical Vision-Language Alignment for Structured Pathology Report Prediction

Ruicheng Yuan et al.

cs.CV cs.AI cs.LG

本文提出了一个名为HiPath的轻量级视觉-语言模型框架, 用于结构化病理报告预测. 该方法通过三个可训练模块处理多图像视觉编码, 跨模态对齐和结构化诊断生成, 在真实世界数据集上取得了优于基线模型的表现.

Channel Prediction-Based Physical Layer Authentication under Consecutive Spoofing Attacks

Yijia Guo, Junqing Zhang, Yao-Win Peter Hong

cs.CR cs.LG

本文提出了一种基于信道预测的物理层认证框架, 用于应对连续欺骗攻击. 该方法利用Transformer模块预测合法信道状态信息, 并通过自适应更新预测模块的输入来维持认证的鲁棒性. 在Rayleigh衰落信道下的仿真表明, 该方案相比传统基准方法能显著提高认证准确率.

Trojan's Whisper: Stealthy Manipulation of OpenClaw through Injected Bootstrapped Guidance

Fazhong Liu et al.

cs.CR cs.AI

本文揭示了在OpenClaw这类自主编码智能体平台中，通过引导注入进行隐蔽攻击的新攻击面。攻击者通过篡改初始化引导文件，将恶意操作伪装成最佳实践，从而影响智能体的后续任务执行。

Promoting Critical Thinking With Domain-Specific Generative AI Provocations

Thomas Şerban von Davier et al.

cs.HC cs.AI

本文探讨了在特定领域(如艺术品解读和AI隐私)中, 通过设计生成式AI工具来促进批判性思维. 研究表明, 依赖于用户贡献的交互式"挑衅"比静态提示更有效, 其效果受设计决策的显著影响.

X-World: Controllable Ego-Centric Multi-Camera World Models for Scalable End-to-End Driving

Chaoda Zheng et al.

cs.CV cs.AI

本文提出了一个名为X-World的可控多摄像头世界模型, 用于端到端自动驾驶的仿真与评估. 该模型能够根据历史多视角图像和未来动作序列, 生成遵循指令的未来多视角视频流, 并支持对动态交通参与者和静态道路元素的可选控制.

Evaluating Test-Time Adaptation For Facial Expression Recognition Under Natural Cross-Dataset Distribution Shifts

John Turnbull et al.

cs.CV cs.LG eess.IV eess.SP

本文评估了多种Test-Time Adaptation (TTA)方法在自然跨数据集分布偏移下的人脸表情识别任务中的表现。研究发现，TTA方法的有效性取决于分布距离和偏移的严重程度，不同方法在不同场景下各有优势。

ReViSQL: Achieving Human-Level Text-to-SQL

Yuxuan Zhu et al.

cs.DB cs.CL

本文提出了ReViSQL框架, 通过构建高质量的训练数据集BIRD-Verified和采用强化学习与可验证奖励(RLVR)的方法, 在BIRD基准上首次实现了接近人类水平的Text-to-SQL性能. 该方法避免了复杂的AI智能体设计, 强调了数据质量对提升模型SQL推理能力的关键作用.

Physics-Informed Long-Range Coulomb Correction for Machine-learning Hamiltonians

Yang Zhong et al.

physics.comp-ph cond-mat.mtrl-sci cs.AI

本文提出了一种用于机器学习电子哈密顿量的物理信息长程库仑修正方法. 该方法通过静电能的变分分解, 在非正交原子轨道基组中推导了长程哈密顿矩阵元的封闭形式, 并实现了一个结合E(3)-等变消息传递与倒空间Ewald求和的架构HamGNN-LR. 在极性晶体和异质结等体系上的测试表明, 该方法显著降低了误差并消除了短程模型在存在内建电场时的典型阶梯状伪影.

Detached Skip-Links and $R$-Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR

Ziye Yuan et al.

cs.CV cs.AI

本文提出了一种名为Detached Skip-Links的方法，用于缓解多模态大语言模型在OCR任务中因特征融合导致的梯度干扰问题。该方法通过在前向传播中复用浅层特征但阻止其梯度回传来稳定训练，并引入了一个名为$R$-Probe的诊断工具来评估视觉信息的保留程度。

Layered Quantum Architecture Search for 3D Point Cloud Classification

Natacha Kuete Meli et al.

quant-ph cs.CV cs.LG

本文提出了一种分层的量子架构搜索方法, 用于设计参数化量子电路以进行3D点云分类. 该方法通过逐步增长和调整电路结构, 在ModelNet数据集上取得了基于PQC方法的最佳结果.

Graph-Informed Adversarial Modeling: Infimal Subadditivity of Interpolative Divergences

Panagiota Birmpa, Eric Joseph Hall

stat.ML cs.LG math.ST

本文研究了当目标分布按已知 Bayesian network 分解时的对抗学习问题. 对于 interpolative divergences, 证明了在适当条件下, 全局变分差异可由与图结构对齐的族级差异的平均值控制, 这为用具有局部判别器的图感知 GAN 替代传统 GAN 提供了理论依据.

Orchestrating Human-AI Software Delivery: A Retrospective Longitudinal Field Study of Three Software Modernization Programs

Maximiliano Armesto, Christophe Kolb

cs.SE cs.AI

本文通过一项回顾性纵向实地研究, 评估了名为Chiron的工业平台在协调人类与AI agent进行软件现代化交付方面的效果. 研究比较了传统基线方法与四个连续平台版本在三个真实软件现代化项目中的表现, 观察到在速度、工作量和问题负载等方面均有显著改善.

Structured Latent Dynamics in Wireless CSI via Homomorphic World Models

Salmane Naoumi, Mehdi Bennis, Marwa Chafii

eess.SP cs.LG

本文提出了一种自监督框架, 用于学习无线信道状态信息(CSI)的预测性和结构化表示. 该方法将问题建模为世界模型任务, 利用联合嵌入预测架构(JEPA)从CSI轨迹中学习动作条件的潜在动态, 并通过李代数导出的同态更新来参数化状态转移, 以促进几何一致性和组合性. 在DICHASUS数据集上的评估表明, 该方法在保持拓扑结构和预测未见环境中的未来嵌入方面优于基线.

Antenna Array Beamforming Based on a Hybrid Quantum Optimization Framework

Shuai Zeng

quant-ph cs.LG eess.SP

本文提出了一种用于大规模天线阵列波束成形的混合量子优化框架, 结合了量子启发式搜索与经典梯度优化. 该方法通过特定的编码方案和并行探索策略来处理离散相位和连续幅度的联合优化问题, 并在仿真中取得了优于基准的性能.

Agentic Harness for Real-World Compilers

Yingwei Zheng et al.

cs.SE cs.AI

本文提出了一个名为 llvm-autofix 的 agentic harness，旨在帮助 LLM agents 理解和修复编译器中的 bug。该方法针对 LLVM 编译器基础设施，通过专门的工具和 benchmark 提升了 bug 修复的性能。

Demonstration of Adapt4Me: An Uncertainty-Aware Authoring Environment for Personalizing Automatic Speech Recognition to Non-normative Speech

Niclas Pokel et al.

cs.HC cs.AI

本文提出了一个名为Adapt4Me的基于Web的去中心化环境，用于个性化非标准语音的自动语音识别(ASR)。该系统采用贝叶斯主动学习(Bayesian active learning)和变分推断低秩适应(VI-LoRA)等技术，通过一个包含数据选择、适应和验证的三阶段人机交互工作流，使非专业用户能够端到端地定制自己的ASR模型。

Chain-of-Adaptation: Surgical Vision-Language Adaptation with Reinforcement Learning

Jiajie Li et al.

cs.CV cs.AI

本文提出了一种名为 Chain-of-Adaptation (CoA) 的领域适应框架，旨在通过强化学习整合领域知识，同时保持预训练视觉语言模型 (VLM) 的通用推理和感知能力。实验表明，该方法在外科手术基准测试中比监督微调具有更好的泛化性和稳定性。

Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models

Wenjing Hong et al.

cs.CR cs.AI

本文提出了一个名为EvoJail的自动化框架, 用于通过多目标进化搜索发现针对大语言模型的长尾分布攻击. 该框架将攻击提示生成建模为一个多目标优化问题, 并引入了一种语义-算法解决方案表示, 结合了LLM辅助的进化算子来高效探索搜索空间.

An Agentic Multi-Agent Architecture for Cybersecurity Risk Management

Ravish Gupta et al.

eess.SY cs.AI cs.CR

本文提出了一种用于网络安全风险管理的多智能体架构, 其中六个智能体分别处理不同的分析阶段, 并通过共享的持久化上下文进行协作. 实验表明, 该架构在特定案例中与专家评估有较高的一致性, 但上下文容量是限制其稳定运行的主要瓶颈.

Design-OS: A Specification-Driven Framework for Engineering System Design with a Control-Systems Design Case

H. Sinan Bank, Daniel R. Herber, Thomas H. Bradley

cs.CE cs.AI eess.SY

本文提出了一个名为Design-OS的轻量级、规范驱动的工程系统设计框架。该框架通过五个阶段组织设计流程，旨在提升设计过程的可见性、可追溯性，并支持人机协作。

The Robot's Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning

Jiyu Lim, Youngwoo Yoon, Kwanghyun Park

cs.RO cs.AI

本文提出了一个名为CRISP的自主框架, 利用Vision-Language Model (VLM)作为社会批评者, 使机器人能够评估和重新规划其社会行为. 该方法通过分析机器人描述文件生成行为计划和控制代码, 并在多种机器人平台上进行了用户研究, 获得了比先前方法更高的评价.

AI Agents Can Already Autonomously Perform Experimental High Energy Physics

Eric A. Moreno et al.

hep-ex cs.AI cs.LG

本文展示了基于大语言模型的AI代理能够自主执行高能物理分析流程的大部分环节. 作者提出了一个概念验证框架, 并利用公开数据进行了演示, 认为这类工具可以减轻研究者的技术负担.

Adaptive Greedy Frame Selection for Long Video Understanding

Yuning Huang, Fengqing Zhu

cs.CV cs.AI cs.CL

本文提出了一种用于长视频理解的自适应贪婪帧选择方法. 该方法通过优化查询相关性和语义覆盖度, 在固定帧数预算下提升了视频问答的准确性.

Improving Generalization on Cybersecurity Tasks with Multi-Modal Contrastive Learning

Jianan Huang et al.

cs.CR cs.AI

本文提出了一种基于多模态对比学习的框架, 旨在提升网络安全任务中机器学习模型的泛化能力. 该方法通过利用文本模态的知识来指导网络负载(payload)分类, 以减少模型对表面模式(shortcuts)的学习.

VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking

Jingyang Lin et al.

cs.CV cs.AI cs.CL

本文提出了一种名为VideoSeek的长视频智能体，它通过工具引导的主动搜索机制来减少对密集采样视频帧的依赖。该方法在多个视频理解基准测试上实现了高精度，同时显著降低了计算成本。

LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Jiazheng Xing et al.

cs.CV cs.AI

本文提出了一个名为LumosX的个性化视频生成框架，通过整合数据构建与模型设计来提升对人物身份及其属性的细粒度控制。该框架利用多模态大语言模型构建关系先验，并设计了关系注意力机制来增强生成视频中主体与属性的一致性。

From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Xinyi Shang et al.

cs.CV cs.AI cs.LG

本文针对VLM图像篡改检测任务, 提出了一种从粗粒度掩码标注转向像素级、语义和语言感知的新范式. 作者构建了一个包含像素级篡改标注和语义类别监督的新基准, 并提出了相应的训练框架与评估指标, 旨在更精确地评估篡改检测与理解能力.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others