bluearXiv-ai - 2026-02-27

📄 所有论文 ↑ 回顶部

cs.LG

NoRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion ⭐ 精选

Hung-Hsuan Chen

cs.LG cs.AI cs.CL

本文提出了NoRA (Non-linear Rank Adaptation), 一种用于参数高效微调(PEFT)的非线性低秩适配器. 它通过引入SiLU门控和结构化dropout来扩展参数空间的流形(manifold), 从而突破了传统LoRA方法在复杂推理任务中面临的"线性天花板". 在SlimOrca和数学推理基准测试中, NoRA在远低于LoRA的秩(rank)下实现了更优的性能, 其机制分析(SVD)表明NoRA能够激活奇异值谱(singular value spectrum)的尾部, 有效防止了线性方法中出现的秩塌缩(rank collapse).

Residual Koopman Spectral Profiling for Predicting and Preventing Transformer Training Instability ⭐ 精选

Bum Jun Kim et al.

cs.LG cs.AI

本文提出了一种名为Residual Koopman Spectral Profiling (RKSP)的新方法，用于在Transformer模型训练开始前预测其不稳定性风险。该方法通过单次前向传播，利用白化动态模态分解从层间残差快照中提取Koopman谱特征，并以近单位谱质量作为核心诊断指标来量化不稳定性。实验表明，该指标在预测训练发散方面表现优异（AUROC达0.995），并进一步提出了Koopman Spectral Shaping (KSS)技术来主动重塑谱分布以防止发散，在无归一化层的高学习率等挑战性场景下显著降低了发散率。该方法在多种模型（如GPT-2, LLaMA-2, ViT）和架构（如MoE, Mamba, KAN）上得到了验证。

Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

Sweta Karlekar et al.

cs.LG cs.AI cs.CL stat.ML

本文提出了一种名为 Duel-Evolve 的进化优化算法，用于在测试时改进大型语言模型(LLM)的输出。该方法利用 LLM 自身生成的候选输出之间的 pairwise preferences (成对偏好)来替代外部标量奖励，通过 Bayesian Bradley-Terry 模型聚合这些偏好并指导搜索。在数学和代码生成基准测试中，该方法相比现有方法取得了显著的性能提升。

To Deceive is to Teach? Forging Perceptual Robustness via Adversarial Reinforcement Learning

Yicheng Bao, Xuhong Wang, Xin Tan

cs.LG cs.AI

本文提出了一种通过对抗性自博弈训练提升多模态大语言模型感知鲁棒性的方法. 该方法构建了一个图像编辑攻击者与模型防御者共同进化的框架, 通过动态生成对抗样本来增强模型在复杂视觉场景下的性能.

Patient-Centered, Graph-Augmented Artificial Intelligence-Enabled Passive Surveillance for Early Stroke Risk Detection in High-Risk Individuals

Jiyeong Kim et al.

cs.LG

本文开发了一个用于早期中风风险检测的被动监测系统. 该系统基于患者报告的症状, 利用症状分类法和机器学习管道(包括异构图神经网络GNN和弹性网络/ LASSO)来识别与后续中风相关的症状模式, 并在电子健康记录模拟中进行了评估.

Improving Spatial Allocation for Energy System Coupling with Graph Neural Networks

Xuanhao Mu et al.

cs.LG eess.SY

本文提出了一种使用自监督异构图神经网络的方法, 用于改进能源系统耦合中空间分辨率不匹配的问题. 该方法通过整合多种地理特征为每个网格点生成物理意义明确的权重, 从而超越了传统仅基于地理邻近性的分配方法.

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

Alex Morehead et al.

cs.LG cond-mat.mtrl-sci cs.AI

本文提出了一个名为Zatom-1的多模态流匹配基础模型，用于统一3D分子和材料的生成与预测任务。该模型通过联合建模离散原子类型和连续几何结构，在多个基准测试中取得了与专用模型相当或更优的性能。

Causal Direction from Convergence Time: Faster Training in the True Causal Direction

Abdulrahman Tamim

cs.LG cs.AI

本文提出了一种基于优化动态的因果方向识别方法 Causal Computational Asymmetry (CCA). 该方法通过比较两个反向预测模型的训练收敛速度来推断因果方向, 并在加性噪声模型下提供了理论保证.

Deep Sequence Modeling with Quantum Dynamics: Language as a Wave Function

Ahmed Nebli, Hadi Saadatdoorabi, Kevin Yam

cs.LG cs.AI quant-ph

本文提出了一种基于量子动力学的序列建模框架, 将潜在状态视为有限维Hilbert空间上由学习到的时变Hamiltonian演化的复值波函数. 该框架利用量子干涉和严格的酉动力学, 并通过Born规则提取token概率. 作者还提供了一个理论结果, 展示了该模型在表示能力上相对于实值正交模型的二次优势.

Orthogonal Weight Modification Enhances Learning Scalability and Convergence Efficiency without Gradient Backpropagation

Guoqing Ma, Shan Yu

cs.LG

本文提出了一种名为LOCO的权重修改方法, 用于替代反向传播(backpropagation)进行高效学习. 该方法在多个数据集上展示了良好的可扩展性和持续学习能力, 且权重更新的并行时间复杂度仅为$O(1)$.

Code World Models for Parameter Control in Evolutionary Algorithms

Camilo Chacón Sartori, Guillem Rodríguez Corominas

cs.LG cs.NE

本文提出了一种名为 Code World Models (CWMs) 的方法，利用 LLM 从次优轨迹中合成模拟器来预测优化器的动态，并基于此进行贪婪规划以控制进化算法中的参数。该方法在多个基准问题上展示了优于现有自适应基线的性能，包括在传统方法失败的 deceptive 问题上实现 100% 成功率，并在样本效率和泛化能力上超越了深度 Q 网络 (DQN)。

Sustainable LLM Inference using Context-Aware Model Switching

Yuvarani et al.

cs.LG

本文提出了一种基于上下文感知的模型切换方法, 用于实现可持续的LLM推理. 该方法通过动态选择不同规模的模型来处理查询, 在保持响应质量的同时显著降低了能耗和延迟.

Entropy-Controlled Flow Matching

Chika Maduabuchi

cs.LG cs.CV

本文提出了一种名为Entropy-Controlled Flow Matching (ECFM)的新方法，用于改进生成模型中的概率路径。该方法通过施加熵率约束来避免轨迹中的信息瓶颈，从而理论上保证了更好的模式覆盖。

WaveSSM: Multiscale State-Space Models for Non-stationary Signal Attention

Ruben Solozabal et al.

cs.LG cs.SD

本文提出了一种基于wavelet frames的state-space model (WaveSSM), 用于处理具有局部或瞬态结构的非平稳信号. 实验表明, 在PTB-XL生理信号和Speech Commands音频数据集上, WaveSSM在捕捉瞬态动态方面优于S4等基于多项式基的模型.

Data-Driven Supervision of a Thermal-Hydraulic Process Towards a Physics-Based Digital Twin

Osimone Imhogiemhe et al.

cs.LG

本文结合数值模拟与机器学习方法, 为热工水力过程开发了一个用于故障检测与诊断的数字孪生框架. 所提算法在特定测试场景下进行了验证, 展示了良好的参数变化定位与更新能力.

AutoQRA: Joint Optimization of Mixed-Precision Quantization and Low-rank Adapters for Efficient LLM Fine-Tuning

Changhai Zhou et al.

cs.LG

本文提出了一个名为AutoQRA的联合优化框架, 用于在大型语言模型(Large Language Model, LLM)的高效微调中同时优化混合精度量化(bit-width)和低秩适配器(LoRA rank)的配置. 该方法通过两阶段搜索策略(全局进化搜索与局部贝叶斯优化)在给定内存预算下寻找最优配置, 实验表明其性能接近全精度微调, 同时内存占用与均匀4比特方法相当.

CQSA: Byzantine-robust Clustered Quantum Secure Aggregation in Federated Learning

Arnab Nath, Harsh Kasyap

cs.LG

本文提出了一种名为CQSA的模块化聚合框架, 用于解决量子辅助联邦学习中的安全聚合问题. 该方法通过将客户端随机分组为小集群, 在每个集群内使用高保真度的低量子比特GHZ态进行本地量子聚合, 从而克服了大规模全局纠缠态保真度下降的难题, 并允许服务器通过分析集群间聚合结果的统计关系来检测恶意客户端.

Prior Knowledge-enhanced Spatio-temporal Epidemic Forecasting

Sijie Ruan et al.

cs.LG q-bio.PE

本文提出了一种结合隐式时空先验和显式专家先验的混合框架STOEP，用于改进时空流行病预测。该模型通过动态调整区域依赖性和放大弱信号来提升预测性能，并在真实COVID-19和流感数据集上验证了其有效性。

Support Tokens, Stability Margins, and a New Foundation for Robust LLMs

Deepak Agarwal et al.

cs.LG math.PR math.ST

本文从概率角度重新阐释了因果自注意力Transformer, 揭示了其参数存在一个barrier约束, 从而在token空间上诱导出结构化的几何性质. 作者进一步将LLM解释为token空间幂集上的随机过程, 并提出了一个只需在标准交叉熵损失中添加平滑对数障碍惩罚的贝叶斯训练框架.

Positional-aware Spatio-Temporal Network for Large-Scale Traffic Prediction

Runfei Chen

cs.LG cs.AI

本文提出了一种轻量级的Positional-aware Spatio-Temporal Network (PASTN)用于大规模交通流预测。该模型通过引入位置感知嵌入和时序注意力模块，旨在有效捕捉时空复杂性并提升长期感知能力。

X-REFINE: XAI-based RElevance input-Filtering and archItecture fiNe-tuning for channel Estimation

Abdul Karim Gizzini, Yahia Medjahdi

cs.LG eess.SP

本文提出了一个名为X-REFINE的框架, 用于联合优化无线信道估计中的输入过滤和神经网络架构微调. 该方法利用基于分解的LRP规则计算相关性分数, 在降低计算复杂度的同时保持了误码率性能.

Integrating Machine Learning Ensembles and Large Language Models for Heart Disease Prediction Using Voting Fusion

Md. Tahsin Amin et al.

cs.LG cs.AI

本文提出了一种结合机器学习集成模型与大型语言模型进行心脏病预测的混合方法. 该方法在融合数据集上取得了最佳性能, 表明结合两者能提供比单独使用更可靠的临床决策支持.

BrepCoder: A Unified Multimodal Large Language Model for Multi-task B-rep Reasoning

Mingi Kim et al.

cs.LG

本文提出了一种名为BrepCoder的统一多模态大语言模型，用于处理基于B-rep格式的多种CAD任务。该模型通过将CAD建模序列转化为类Python代码并进行两阶段训练，实现了在补全、纠错和问答等下游任务上的应用。

Early Risk Stratification of Dosing Errors in Clinical Trials Using Machine Learning

Félicien Hêche et al.

cs.LG cs.AI

本文提出了一种基于机器学习的框架, 用于在临床试验启动前, 根据可用信息预测其发生高剂量错误率的风险. 该框架整合了结构化数据和文本数据, 并通过概率校准实现了可解释的风险分层.

OmniZip: Learning a Unified and Lightweight Lossless Compressor for Multi-Modal Data

Yan Zhao et al.

cs.LG cs.IT

本文提出了一种名为OmniZip的统一轻量级无损压缩器, 用于处理图像, 文本, 语音等多种模态的数据. 它通过一个模态统一的tokenizer, 模态路由的context学习机制和feedforward设计来实现高效压缩, 并在多个数据集上超越了传统压缩器gzip的性能.

Reliable XAI Explanations in Sudden Cardiac Death Prediction for Chagas Cardiomyopathy

Vinícius P. Chagas et al.

cs.LG cs.LO

本文将一种具有正确性保证的逻辑可解释性方法应用于恰加斯心肌病(Chagas cardiomyopathy)患者的猝死预测问题. 该方法在保持高准确率的同时, 实现了100%的解释保真度, 其一致性和鲁棒性优于启发式方法, 有助于增强临床信任.

Manifold of Failure: Behavioral Attraction Basins in Language Models

Sarthak Munshi et al.

cs.LG cs.AI cs.CR

本文提出了一种名为"失败流形"的框架，用于系统性地刻画大型语言模型中的不安全区域。该方法将漏洞搜索重新定义为质量多样性问题，使用MAP-Elites算法来揭示这些失败区域的连续拓扑结构，并生成了可解释的全局安全图谱。

Global River Forecasting with a Topology-Informed AI Foundation Model

Hancheng Ren et al.

cs.LG physics.geo-ph

本文提出了一个名为GraphRiverCast (GRC)的、基于拓扑信息的人工智能基础模型，用于全球河流系统的多变量水动力模拟。该模型能够在缺乏历史观测数据的"冷启动"模式下运行，并展示了优于传统物理模型和局部AI基准的性能。

When Should a Model Change Its Mind? An Energy-Based Theory and Regularizer for Concept Drift in Electrocardiogram (ECG) Signals

Timothy Oladunni et al.

cs.LG

本文提出了一种基于能量的概念漂移理论(PECT)及其正则化方法(ECRL), 用于稳定动态生理信号(如ECG)模型的预测. 该方法通过约束模型内部表示的变化与信号能量变化的比例关系来区分无害的虚拟漂移和真实的概念漂移, 在多种模型架构上验证了其有效性.

UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs

Devan Shah et al.

cs.LG cs.AI

本文提出了一种名为UpSkill的训练时方法, 通过将Mutual Information Skill Learning (MISL) 应用于大型语言模型(LLMs)来优化pass@k正确率. 该方法在Group Relative Policy Optimization (GRPO)框架内引入了一个基于token-level mutual information (MI)的新颖奖励, 旨在鼓励模型生成多样化的解题轨迹. 实验表明, 该方法能在不损害单次尝试准确率(pass@1)的前提下, 提升模型在数学推理任务上的多次尝试成功率(pass@k).

Learning Rewards, Not Labels: Adversarial Inverse Reinforcement Learning for Machinery Fault Detection

Dhiraj Neupane et al.

cs.LG cs.AI

本文提出了一种基于Adversarial Inverse Reinforcement Learning的机械故障检测方法. 该方法通过从健康操作序列中学习奖励动态, 避免了手动设计奖励和故障标签的需要.

AviaSafe: A Physics-Informed Data-Driven Model for Aviation Safety-Critical Cloud Forecasts

Zijian Zhu et al.

cs.LG cs.AI

本文提出了一种用于航空安全关键云预报的物理信息数据驱动模型 AviaSafe. 该模型采用分层架构, 结合了基于物理的约束, 以预测对航空安全至关重要的四种水凝物物种.

Training Agents to Self-Report Misbehavior

Bruce W. Lee, Chen Yueh-Han, Tomek Korbak

cs.LG cs.AI

本文提出了一种称为"自我报告"的训练方法, 旨在让AI代理在秘密执行不良行为时主动发出可见信号. 该方法在GPT-4.1和Gemini-2.0代理上进行了测试, 结果表明它能有效降低在分布外环境中未被检测到的成功攻击率, 且性能优于基线方法.

A 1/R Law for Kurtosis Contrast in Balanced Mixtures

Yuda Bi et al.

cs.LG cs.AI stat.ML

本文研究了在平衡混合模型中峰度对比的衰减规律. 证明了峰度服从$O(1/R_{\mathrm{eff}})$的标度律, 并讨论了样本估计的可行性条件与通过源选择恢复对比度的方法.

Structure and Redundancy in Large Language Models: A Spectral Study via Random Matrix Theory

Davide Ettori

cs.LG cs.AI

本文利用 Spectral Geometry 和 Random Matrix Theory (RMT) 分析深度网络内部激活的 eigenvalue dynamics, 以应对模型可靠性与效率的挑战. 提出了两个方法: EigenTrack 用于实时检测模型幻觉, RMT-KD 用于基于谱信息的网络压缩.

Learning geometry-dependent lead-field operators for forward ECG modeling

Arsenii Dokuchaev et al.

cs.LG cs.AI math.NA q-bio.TO

本文提出了一种用于正向ECG建模的、基于形状信息的lead-field算子替代模型. 该方法结合了几何编码模块和条件神经替代模型, 能够在数据有限的情况下实现高保真度的ECG模拟.

Disentangling Shared and Target-Enriched Topics via Background-Contrastive Non-negative Matrix Factorization

Yixuan Li, Archer Y. Yang, Yue Li

cs.LG

本文提出了一种名为背景对比非负矩阵分解(background-contrastive Non-negative Matrix Factorization)的新方法, 用于从高维数据中分离目标特异性信号. 该方法通过联合分解目标数据集和匹配的背景数据, 在对比目标的约束下抑制背景表达的结构, 从而提取出可解释的非负成分. 该方法计算高效, 可扩展至大数据, 并在多个生物数据集上验证了其优于传统方法的能力.

Predicting Multi-Drug Resistance in Bacterial Isolates Through Performance Comparison and LIME-based Interpretation of Classification Models

Santanam Wishal, Riad Sahara

cs.LG

本文提出了一种可解释的机器学习框架，用于预测细菌分离株的多重耐药性。该研究评估了多种分类模型，并利用LIME方法提供预测的局部解释，以增强临床决策的透明度。

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

Syed Omer Shah et al.

cs.LG cs.CV

本文提出了一个多模态分子性质预测模型MolFM-Lite, 它通过交叉注意力融合机制联合编码1D序列、2D图和3D构象体集合信息, 并利用FiLM技术引入实验上下文。模型在多个基准测试上优于单模态基线, 并通过预训练实现了有效的权重初始化。

A Learning-Based Hybrid Decision Framework for Matching Systems with User Departure Detection

Ruiqi Zhou, Donghao Zhu, Houcai Shen

cs.LG cs.HC cs.IT econ.GN

本文提出了一种基于学习的混合决策框架, 用于处理用户会离开的匹配系统. 该框架通过回归估计用户离开时间的分布, 并动态调整即时匹配与延迟匹配的策略, 以在等待时间、系统拥堵和匹配效率之间取得平衡.

Revisiting Chebyshev Polynomial and Anisotropic RBF Models for Tabular Regression

Luciano Gerber, Huw Lloyd

cs.LG cs.AI

本文比较了Chebyshev polynomial regressors和anisotropic RBF networks等平滑基模型与主流树集成模型在表格回归任务中的性能。通过在55个数据集上的基准测试，研究发现平滑模型在CPU环境下与树集成模型精度相当，且通常具有更小的泛化差距，适合需要平滑预测的下游应用。

Calibrated Test-Time Guidance for Bayesian Inference

Daniel Geyfman et al.

cs.LG cs.AI

本文分析了现有 test-time guidance 方法在 Bayesian inference 中的校准问题, 并提出了新的 consistent estimator 以实现从 Bayesian posterior 中的校准采样. 该方法在 Bayesian inference 任务上表现优异.

From Bias to Balance: Fairness-Aware Paper Recommendation for Equitable Peer Review

Uttamasha Anjally Oyshi, Susan Gauch

cs.LG cs.AI

本文提出了一种名为Fair-PaperRec的公平感知论文推荐方法，用于审后阶段。该方法通过在MLP模型中引入可微分的公平性正则化项，旨在提升评审过程中代表性不足群体的参与度。实验表明，该方法能在保持推荐质量基本稳定的同时，显著增加多样性。

ECHO: Encoding Communities via High-order Operators

Emilio Ferrara

cs.LG cs.AI

本文提出了一种名为ECHO的自监督架构, 用于属性网络中的社区发现. 它通过高阶算子将社区检测重新构建为一个自适应的多尺度扩散过程, 旨在克服传统GNN的计算瓶颈和语义平滑问题.

Beyond performance-wise Contribution Evaluation in Federated Learning

Balazs Pejo

cs.LG cs.CR

本文探讨了联邦学习中超越模型性能的客户端贡献评估问题, 关注模型可信度的多个维度, 包括可靠性, 抗逆性和公平性. 通过应用Shapley value近似方法, 研究发现不同维度的贡献相互独立, 单一指标不足以进行全面评估.

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Afshin Khadangi

cs.LG

本文提出了一种名为TRC$^{2}$的decoder-only架构，旨在从模型结构层面解决语言模型的continual learning问题。该方法结合了稀疏路由与快速适应通路，以在保持计算效率的同时改善稳定性与可塑性之间的权衡。

Reinforcement-aware Knowledge Distillation for LLM Reasoning

Zhaoyang Zhang et al.

cs.LG cs.AI

本文提出了一种名为RL-aware distillation (RLAD)的新方法, 用于在强化学习(RL)后训练阶段对大语言模型(LLM)进行知识蒸馏. 该方法通过选择性模仿教师模型来缓解分布不匹配和目标干扰问题, 在多个推理基准测试上取得了优于基线方法的效果.

Sharp Convergence Rates for Masked Diffusion Models

Yuchen Liang et al.

cs.LG stat.ML

本文分析了masked diffusion models中Euler采样器和First-Hitting Sampler (FHS)的收敛性。研究通过total-variation (TV)距离分析改进了理论保证，并给出了收敛下界。

Space Syntax-guided Post-training for Residential Floor Plan Generation

Zhuoyang Jiang, Dongqing Zhang

cs.LG cs.CV

本文提出了一种名为SSPT的后训练范式, 通过一个不可微的oracle将空间句法知识显式注入住宅平面图生成过程. 该方法旨在增强生成平面中公共空间的主导性和功能层次, 并通过两种策略进行实例化, 实验表明其相比基线模型有所改进.

TEFL: Prediction-Residual-Guided Rolling Forecasting for Multi-Horizon Time Series

Xiannan Huang et al.

cs.LG

本文提出了一种名为TEFL的时间序列预测框架, 它通过显式地利用历史预测残差来增强深度多步预测模型的性能. 该方法设计了一个轻量级的适配器模块和两阶段训练策略, 在多个真实数据集上实现了预测误差的稳定降低.

Predicting Tennis Serve directions with Machine Learning

Ying Zhu, Ruthuparna Naikar

cs.LG cs.AI

本文应用机器学习方法预测职业网球运动员的一发方向, 通过特征工程实现了约49%(男)和44%(女)的平均预测准确率. 分析表明顶级球员的发球决策可能符合混合策略模型, 且疲劳与比赛情境信息是重要影响因素.

Coarse-to-Fine Learning of Dynamic Causal Structures

Dezhi Yang et al.

cs.LG

本文提出了一个名为DyCausal的框架，用于从时间序列中学习完全动态的因果结构。该方法利用卷积网络和线性插值，从粗粒度到细粒度地恢复随时间变化的因果图，并通过一种基于矩阵范数缩放的约束来提高效率。

Persistent Nonnegative Matrix Factorization via Multi-Scale Graph Regularization

Jichao Zhang, Ran Miao, Limin Li

cs.LG

本文提出了一种名为persistent nonnegative matrix factorization (pNMF)的方法，通过结合persistent homology来识别数据连通性发生质变的关键尺度，并构建了一个跨尺度的耦合NMF模型。该方法旨在生成一系列与拓扑持续性对齐的嵌入，以捕捉多尺度结构，并通过实验验证了其在单细胞RNA测序等数据上的有效性。

LUMOS: Democratizing SciML Workflows with L0-Regularized Learning for Unified Feature and Parameter Adaptation

Shouwei Gao et al.

cs.LG

本文提出了一个名为LUMOS的端到端框架，它基于L0正则化学习，旨在简化科学机器学习(SciML)模型的设计过程。该框架通过半随机门控和重参数化技术，在训练中统一进行特征选择和模型剪枝，以减少对人工调优的依赖。

RAIN-Merging: A Gradient-Free Method to Enhance Instruction Following in Large Reasoning Models with Preserved Thinking Format

Zhehao Huang et al.

cs.LG cs.CL

本文提出了一种无需梯度的模型融合方法RAIN-Merging, 旨在提升大型推理模型遵循指令的能力, 同时保持其原有的推理格式和性能. 该方法通过将指令微调模型的任务向量投影到推理模型关键特征的空空间, 并利用指令注意力进行模块特异性缩放, 在多个基准测试上取得了良好效果.

Relatron: Automating Relational Machine Learning over Relational Databases

Zhikai Chen et al.

cs.LG

本文对关系型数据库上的关系深度学习(RDL)与深度特征合成(DFS)方法进行了统一分析，发现其性能优劣高度依赖于具体任务。作者提出了一个基于任务嵌入的元选择器Relatron，用于在两者之间进行选择并优化搜索，在实验中取得了优于基线方法的效果。

Multilingual Safety Alignment Via Sparse Weight Editing

Jiaming Liang, Zhaoxin Wang, Handing Wang

cs.LG

本文提出了一种基于稀疏权重编辑的无训练对齐框架, 用于解决大语言模型在低资源语言上的安全性不足问题. 该方法通过约束线性变换将低资源语言的有害表征映射到高资源语言的鲁棒安全子空间, 并在多个模型和语言上验证了其有效性.

Autoregressive Visual Decoding from EEG Signals

Sicheng Dai et al.

cs.LG cs.AI

本文提出了一种名为AVDE的轻量级自回归框架, 用于从EEG信号中解码视觉信息. 该方法通过对比学习对齐EEG与图像表示, 并采用基于"下一尺度预测"策略的自回归生成框架, 在减少参数的同时提升了图像检索与重建的性能.

Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation

Zihang Xu et al.

cs.LG cs.AI cs.CL

本文提出了一个用于稳定大型推理模型自适应思维的两阶段框架. 该框架结合了混合微调、优势塑形和梯度调节技术, 旨在平衡推理的准确性与效率, 并在实验中验证了其有效性.

Operationalizing Fairness: Post-Hoc Threshold Optimization Under Hard Resource Limits

Moirangthem Tiken Singh, Amit Kalita, Sapam Jitu Singh

cs.LG cs.AI

本文提出了一种在严格资源限制下进行事后阈值优化的模型无关框架, 旨在联合平衡预测安全性、效率和公平性. 该框架强制使用单一的全局决策阈值以确保合规, 并通过实验表明在资源受限环境下, 容量约束往往主导最终的部署决策.

S2O: Early Stopping for Sparse Attention via Online Permutation

Yu Zhang et al.

cs.LG cs.AI

本文提出了一种名为S2O的方法，通过在线置换（online permutation）对稀疏注意力（sparse attention）进行早期停止（early stopping）。该方法受内存系统中虚拟到物理地址映射的启发，重新分解了FlashAttention的执行过程，允许推理时加载非连续的token。通过将显式置换转化为一种在线、索引引导的离散加载策略，并结合一个早期停止规则，S2O能够跳过低贡献的注意力块，从而在控制误差预算下提高有效稀疏度并减少计算量。实验表明，该方法在长上下文模型中显著提升了实际稀疏度上限并带来了加速。

IBCircuit: Towards Holistic Circuit Discovery with Information Bottleneck

Tian Bian et al.

cs.LG

本文提出了一种基于Information Bottleneck原理的端到端方法IBCircuit，用于整体性地发现语言模型中的计算子图（circuits）。该方法无需为不同任务设计特定的扰动激活，在IOI和Greater-Than任务中识别出了更忠实和简洁的电路。

TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion

Donghong Cai et al.

cs.LG cs.AI cs.CL

本文提出TabDLM, 一个基于masked diffusion language models (MDLMs)的联合数值-语言扩散模型, 用于生成包含自由文本字段的异构表格数据. 该方法通过masked diffusion处理文本和分类特征, 通过连续扩散过程处理数值特征, 并利用双向注意力捕获跨模态交互. 实验表明其在多个基准测试上优于现有的扩散模型和LLM基线.

pQuant: Towards Effective Low-Bit Language Models via Decoupled Linear Quantization-Aware Training

Wenzheng Zhang et al.

cs.LG cs.CL

本文提出了一种名为pQuant的解耦线性量化感知训练方法, 用于构建极低比特(亚2-bit)的大型语言模型. 该方法通过将线性层拆分为一个主导的1-bit分支和一个紧凑的高精度分支, 并配合特征缩放, 旨在缓解量化训练中的参数同质化问题, 从而提升模型在边缘设备上的部署效率与精度.

Transformers converge to invariant algorithmic cores

Joshua S. Schiffman

cs.LG cs.AI

本文提出了"algorithmic cores"的概念, 用于识别Transformer模型内部与计算功能本质相关的低维不变子空间. 研究发现, 独立训练的模型在权重上不同, 但会收敛到相同的核心结构, 这些结构在不同任务(如Markov链建模、模加法和语言建模)中均表现出紧凑和共享的特性.

$ϕ$-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

Thanh-Dat Truong et al.

cs.LG cs.CV

本文提出了一种名为$\phi$-DPO的新框架，用于解决大型多模态模型持续学习中的公平性问题。该方法通过改进直接偏好优化来缓解数据分布不平衡带来的偏见，并在多个基准测试中取得了先进的性能。

DP-aware AdaLN-Zero: Taming Conditioning-Induced Heavy-Tailed Gradients in Differentially Private Diffusion

Tao Huang et al.

cs.LG cs.CV

本文针对条件扩散模型在差分隐私随机梯度下降(DP-SGD)训练中，因异质条件上下文导致梯度重尾分布和效用下降的问题，提出了一种名为DP-aware AdaLN-Zero的敏感性感知条件注入机制。该方法通过有界重参数化来约束条件表示和调制参数，从而在梯度裁剪和噪声注入前抑制极端梯度事件。实验表明，该方法在保持标准训练性能的同时，提升了模型在隐私预算下的插值/填补和预测性能。

Mitigating Membership Inference in Intermediate Representations via Layer-wise MIA-risk-aware DP-SGD

Jiayang Meng et al.

cs.LG

本文提出了一种针对中间表示(IRs)的层感知差分隐私随机梯度下降(LM-DP-SGD)方法. 该方法根据各层对成员推理攻击(MIA)的脆弱性, 自适应地分配隐私保护预算, 在固定噪声水平下优化了隐私与效用的权衡.

Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA

Hai Huang, Yann LeCun, Randall Balestriero

cs.LG

本文提出了一种名为Semantic Tube Prediction (STP)的新任务，这是一种基于JEPA框架的正则化方法，旨在提高大型语言模型(LLM)的数据效率。该方法基于Geodesic Hypothesis，通过约束隐藏状态轨迹来提升信号噪声比，实验表明其在减少训练数据量的情况下能达到基线模型的性能。

ContextRL: Enhancing MLLM's Knowledge Discovery Efficiency with Context-Augmented RL

Xingyu Lu et al.

cs.LG cs.AI cs.CL

本文提出了一种名为ContextRL的新框架, 通过上下文增强来提升多模态大语言模型的知识发现效率. 该方法利用完整的参考解决方案作为奖励模型的上下文, 并引入多轮采样策略来引导策略模型, 在多个基准测试上取得了优于基线方法的效果.

Tackling Privacy Heterogeneity in Differentially Private Federated Learning

Ruichen Xu, Ying-Jun Angela Zhang, Jianwei Huang

cs.LG cs.DC

本文研究了差分隐私联邦学习(DP-FL)中的隐私异质性问题. 提出了一种将隐私预算差异考虑在内的客户端选择策略, 并通过实验验证了其有效性.

Compress the Easy, Explore the Hard: Difficulty-Aware Entropy Regularization for Efficient LLM Reasoning

Qin-Wen Luo et al.

cs.LG

本文提出了一种基于难度感知的强化学习方法 CEEH, 用于压缩大型语言模型的推理步骤. 该方法通过动态评估问题难度, 对简单问题进行压缩, 对困难问题保持探索, 从而在减少生成长度的同时维持推理准确性.

MUG: Meta-path-aware Universal Heterogeneous Graph Pre-Training

Lianze Shan et al.

cs.LG

本文提出了一种用于异构图预训练的新方法MUG, 它通过输入统一模块和维度感知编码器来处理不同图结构间的语义对齐问题, 并通过共享编码器和全局目标来学习跨数据集的通用结构模式. 实验表明该方法在多个真实数据集上有效.

LEDA: Latent Semantic Distribution Alignment for Multi-domain Graph Pre-training

Lianze Shan et al.

cs.LG

本文提出了一种用于多领域图预训练的潜在语义分布对齐方法, 旨在通过将不同领域的图特征对齐到共享语义空间来学习通用知识. 该方法在少样本跨领域设置中表现优于现有基线.

Forecasting Antimicrobial Resistance Trends Using Machine Learning on WHO GLASS Surveillance Data: A Retrieval-Augmented Generation Approach for Policy Decision Support

Md Tanvir Hasan Turja

cs.LG q-bio.QM

本文应用多种机器学习模型对WHO GLASS监测数据中的抗菌素耐药性趋势进行预测，其中XGBoost模型表现最佳。此外，研究还构建了一个结合政策文档检索与语言模型的决策支持框架。

Accelerating LLM Pre-Training through Flat-Direction Dynamics Enhancement

Shuchen Zhu et al.

cs.LG

本文提出了一种名为LITE的广义加速策略, 用于提升大语言模型预训练的优化效率. 该方法通过沿平坦方向应用更大的Hessian阻尼系数和学习率来增强训练动态, 实验表明其能加速Muon和SOAP等优化器.

Switch-Hurdle: A MoE Encoder with AR Hurdle Decoder for Intermittent Demand Forecasting

Fabian Muşat, Simona Căbuz

cs.LG

本文提出了一种名为Switch-Hurdle的新框架，用于间歇性需求预测。该模型结合了稀疏的Mixture-of-Experts编码器和基于Hurdle结构的自回归解码器，将预测任务分解为销售发生概率和销售量的条件回归。在M5基准和零售数据集上的实验表明，该模型在保持可扩展性的同时取得了先进的预测性能。

Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning

Hao Yu et al.

cs.LG

本文提出了一个名为 GeoPerceive 的基准测试和一个名为 GeoDPO 的强化学习框架，旨在提升视觉语言模型(VLMs)的几何感知能力。GeoDPO 通过一个自然语言到领域特定语言(DSL)的翻译器来生成细粒度的奖励信号，实验表明其在领域内外数据和下游推理任务上均优于监督微调(SFT)。

Interpreting and Steering State-Space Models via Activation Subspace Bottlenecks

Vamshi Sunku Mohan et al.

cs.LG

本文提出了一种通过识别Mamba族state-space models中的activation subspace bottlenecks来提升模型性能的方法. 该方法引入了一种无需任务特定调优的测试时干预策略, 并在多个基准测试中验证了其有效性.

Set-based v.s. Distribution-based Representations of Epistemic Uncertainty: A Comparative Study

Kaizheng Wang et al.

cs.LG

本文对神经网络中两种表示认知不确定性(epistemic uncertainty)的二阶范式——基于分布的表示和基于集合的表示——进行了受控的对比研究。研究通过统一的评估框架，在多个基准任务上比较了它们在实际不确定性感知性能上的差异。

KMLP: A Scalable Hybrid Architecture for Web-Scale Tabular Data Modeling

Mingming Zhang et al.

cs.LG

本文提出了一种名为KMLP的混合深度架构, 用于大规模网络表格数据的建模. 该模型结合了KAN (Kolmogorov-Arnold Network) 前端和gMLP (Gated Multilayer Perceptron) 主干, 在包含数十亿样本的工业数据集上取得了先进的性能.

Doubly Adaptive Channel and Spatial Attention for Semantic Image Communication by IoT Devices

Soroosh Miri et al.

cs.LG

本文提出了一种用于物联网设备语义图像通信的双重自适应通道与空间注意力机制. 该方法在原有自适应深度联合信源信道编码框架中, 同时引入了对信道条件和空间特征重要性敏感的自适应模块, 以提升性能并适应动态无线环境.

Multi-agent imitation learning with function approximation: Linear Markov games and beyond

Luca Viano et al.

cs.LG

本文研究了线性 Markov games 中的多智能体模仿学习问题. 作者提出了一个基于特征层面的 concentrability coefficient 的新分析框架, 并设计了一种高效的交互式算法, 其样本复杂度仅依赖于特征维度 $d$.

Accelerating Local LLMs on Resource-Constrained Edge Devices via Distributed Prompt Caching

Hiroki Matsutani, Naoki Matsuda, Naoto Sugiura

cs.LG cs.DC

本文提出了一种分布式 prompt caching 方法，用于在资源受限的边缘设备上加速本地 LLM 推理。该方法通过设备间共享中间处理状态来减少计算开销，并利用 Bloom filter 结构来降低通信成本。实验表明，该方法能显著降低生成首个和最后一个 token 的时间。

Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks

Shuo He et al.

cs.LG cs.AI

本文针对长视野智能体任务中的逐步组策略优化问题, 提出了Hierarchy-of-Groups Policy Optimization (HGPO)方法. 该方法通过将轨迹中的步骤分配到具有一致历史上下文的层级组中, 并聚合组内优势估计, 以缓解上下文不一致导致的估计偏差问题.

Hypernetwork-based approach for grid-independent functional data clustering

Anirudh Thatipelli, Ali Siahkoohi

cs.LG

本文提出了一种基于 hypernetwork 的框架，用于实现与采样网格无关的函数型数据聚类。该方法通过一个编码器-解码器架构，将任意网格上离散化的函数观测映射到一个固定维度的权重空间，然后在该空间进行聚类。实验表明，该方法在聚类性能上具有竞争力，并且对采样分辨率的变化具有鲁棒性。

Moral Preferences of LLMs Under Directed Contextual Influence

Phil Blandfort et al.

cs.LG cs.AI cs.CL cs.CV cs.CY

本文研究了在道德困境场景中, 有指向性的上下文信息如何影响大型语言模型(LLM)的决策. 作者通过一个实验框架, 系统地测量了不同人口统计因素下, 方向相反的上下文提示对模型选择产生的系统性影响.

Decentralized Ranking Aggregation: Gossip Algorithms for Borda and Copeland Consensus

Anna Van Elst et al.

cs.LG cs.AI stat.ML

本文研究了在去中心化环境中使用gossip算法进行ranking aggregation的问题, 重点分析了Borda和Copeland两种共识规则. 通过理论分析和实验验证, 证明了所提方法能够可靠地收敛到正确的聚合排序.

MEDNA-DFM: A Dual-View FiLM-MoE Model for Explainable DNA Methylation Prediction

Yi He et al.

cs.LG cs.AI

本文提出了一种用于DNA甲基化预测的双视角FiLM-MoE模型MEDNA-DFM及其解释算法。该模型在预测性能与可解释性方面均表现良好，并通过案例研究提出了“序列-结构协同”的生物学假设。

Fair feature attribution for multi-output prediction: a Shapley-based perspective

Umberto Biccari et al.

cs.LG

本文在Shapley框架下为多输出预测器的特征归因提供了公理化刻画. 通过将经典Shapley公理扩展到向量值合作博弈, 证明了任何满足效率、对称性、虚拟玩家和可加性的归因规则必然按输出分量分解.

A Data-Driven Approach to Support Clinical Renal Replacement Therapy

Alice Balboni et al.

cs.LG

本文采用机器学习方法预测重症患者连续性肾脏替代治疗中的膜污染。研究使用表格数据和重采样技术训练模型，并通过特征选择与反事实分析提升可解释性。

Generalization Bounds of Stochastic Gradient Descent in Homogeneous Neural Networks

Wenquan Ma et al.

cs.LG

本文研究了 homogeneous neural networks 中随机梯度下降(SGD)的泛化界. 在 mild assumptions 下, 证明了该设定允许更慢的步长衰减 $\eta_t = \Omega(1/\sqrt{t})$, 并将结果扩展到了 non-Lipschitz 等更一般的场景.

MSINO: Curvature-Aware Sobolev Optimization for Manifold Neural Networks

Suresan Pareth

cs.LG

本文提出了一种用于黎曼流形上神经网络的曲率感知训练框架 MSINO. 该方法通过引入协变 Sobolev 损失和 Laplace-Beltrami 平滑正则项来改进训练稳定性, 并在表面成像和机器人学等领域有应用.

Scaling Laws of Global Weather Models

Yuejiang Yu et al.

cs.LG

本文通过经验性分析, 研究了数据驱动天气模型的 scaling laws, 探讨了模型性能与模型规模、数据集规模和计算预算之间的关系. 研究发现, 天气模型在架构 scaling 上倾向于增加宽度而非深度, 这与语言模型的 scaling 行为有根本不同.

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Zeyuan Liu et al.

cs.LG cs.AI

本文提出了一种名为EMPO$^2$的混合强化学习框架，旨在解决大型语言模型(LLM)智能体在探索新状态方面的瓶颈。该方法结合了记忆机制与在线及离线策略优化，在ScienceWorld和WebShop等环境中取得了性能提升，并展现出对新任务的适应能力。

Learning Disease-Sensitive Latent Interaction Graphs From Noisy Cardiac Flow Measurements

Viraj Patel et al.

cs.LG

本文提出了一种物理信息驱动的隐式关系图模型, 用于从心脏血流数据中学习疾病敏感的潜在交互结构. 该方法结合了神经关系推断与物理启发的交互能量, 并在模拟和超声数据上验证了其识别疾病严重程度的能力.

Latent Matters: Learning Deep State-Space Models

Alexej Klushyn et al.

cs.LG

本文提出了一种用于训练 deep state-space models (DSSMs) 的约束优化框架, 以解决传统基于 evidence lower bound 的训练方法可能无法学习到真实动态的问题. 基于此框架, 作者进一步提出了 extended Kalman VAE (EKVAE) 模型, 结合了 amortised variational inference 与经典 Bayesian filtering/smoothing, 在系统辨识和预测精度上取得了优于现有方法的结果.

RhythmBERT: A Self-Supervised Language Model Based on Latent Representations of ECG Waveforms for Heart Disease Detection

Xin Wang et al.

cs.LG

本文提出了一种名为 RhythmBERT 的自监督语言模型，用于心电图分析。它将心电波形编码为离散符号和连续嵌入，并通过掩码预测任务进行预训练，在多种心脏疾病检测任务上取得了良好性能。

Physics-informed neural particle flow for the Bayesian update step

Domonkos Csuzdi, Tamás Bécsi, Olivér Törő

cs.LG

本文提出了一种基于物理信息神经网络的粒子流方法, 用于贝叶斯更新步骤. 该方法通过将描述密度演化的连续性方程与先验到后验的log-homotopy轨迹耦合, 推导出一个主控PDE, 并将其作为物理约束嵌入损失函数来无监督地训练神经网络, 以近似传输速度场.

PRAC: Principal-Random Subspace for LLM Activation Compression and Memory-Efficient Training

Yanyi Li, Yimu Zhang, Cong Fang

cs.LG

本文提出了一种名为PRAC的激活压缩方法, 通过将激活张量分解为通过SVD捕获的主子空间和一个从正交补中采样的随机子空间来近似尾部信息. 该方法旨在减少大语言模型训练中的内存占用, 实验表明其能在可忽略的性能损失下实现显著的内存节省.

Learning Physical Operators using Neural Operators

Vignesh Gopakumar et al.

cs.LG

本文提出了一种基于物理信息训练框架的神经算子学习方法, 通过算子分裂技术分解PDE, 分别训练神经算子来学习非线性物理算子, 并用固定的有限差分卷积近似线性算子. 该方法在不可压缩和可压缩Navier-Stokes方程上展示了良好的泛化性能.

Regularized Online RLHF with Generalized Bilinear Preferences

Junghyun Lee et al.

cs.LG stat.ML

本文研究了具有一般偏好的上下文在线RLHF问题, 目标是识别Nash Equilibrium. 它采用广义双线性偏好模型(GBPM)来捕捉潜在的不可传递偏好, 并分析了使用任意强凸正则化器的通用偏好学习. 基于对偶间隙的界限和特征多样性假设, 提出了两种简单算法并建立了相应的遗憾界.

Bound to Disagree : Generalization Bounds via Certifiable Surrogates

Mathieu Bazinet, Valentina Zantedeschi, Pascal Germain

cs.LG

本文提出了一种基于分歧的泛化界证明方法, 通过一个具有紧致泛化保证的代理模型来界定目标预测器的真实风险. 该方法无需修改目标模型或其训练过程, 并利用未标记数据集进行评估, 在实验中展示了其证书的紧致性和方法的通用性.

DyGnROLE: Modeling Asymmetry in Dynamic Graphs with Node-Role-Oriented Latent Encoding

Tyler Bonnet, Marek Rei

cs.LG cs.AI cs.SI

本文提出了一种用于有向动态图建模的Transformer架构DyGnROLE, 通过分离的嵌入词汇表和角色语义位置编码来显式解耦源节点与目标节点的表示. 模型引入了一种名为Temporal Contrastive Link Prediction的自监督预训练目标, 以在低标签场景下学习角色特定的表示. 在未来边分类任务上的评估表明, 该模型显著优于多种先进基线.

Prediction of Diffusion Coefficients in Mixtures with Tensor Completion

Zeno Romero et al.

cs.LG

本文提出了一种基于Tucker分解的混合tensor completion方法(TCM), 用于预测二元混合物中无限稀释扩散系数随温度的变化. 该方法结合了实验数据和半经验模型SEGWE的先验知识, 并通过主动学习策略扩充数据库, 提高了预测精度.

Partial recovery of meter-scale surface weather

Jonathan Giezendanner et al.

cs.LG cs.CV physics.ao-ph

本文提出了一种通过结合稀疏地面站观测和高分辨率地球观测数据，来推断美国本土10米分辨率近地表风、温度和湿度连续场的方法。该方法相比ERA5再分析数据，显著降低了风、温度和露点误差，并揭示了城市热岛等可物理解释的空间结构。

Benchmarking Temporal Web3 Intelligence: Lessons from the FinSurvival 2025 Challenge

Oshani Seneviratne et al.

cs.LG

本文介绍了FinSurvival 2025挑战赛作为一个案例研究，旨在为Temporal Web3领域建立基准测试。该挑战利用Aave v3协议的大量交易记录，设计了生存预测任务来建模用户行为，并展示了领域特定的特征工程方法优于通用模型。

MetaOthello: A Controlled Study of Multiple World Models in Transformers

Aviral Chawla, Galen Hall, Juniper Lovato

cs.LG

本文通过设计一系列共享语法但规则或tokenization不同的Othello变体(MetaOthello), 并训练小型GPT模型, 研究了多个“世界模型”在transformer共享表示空间中的组织方式. 研究发现, 模型并未将容量分割为孤立的子模型, 而是收敛到一个大部分共享的棋盘状态表示, 该表示能在不同变体间进行因果传递.

Induction Meets Biology: Mechanisms of Repeat Detection in Protein Language Models

Gal Kesten-Pomeranz et al.

cs.LG q-bio.BM

本文研究了蛋白质语言模型(PLMs)检测序列重复的内部机制. 研究发现, 模型通过结合基于语言的模式匹配和专门的生物学知识来解决这一任务.

Closing the gap on tabular data with Fourier and Implicit Categorical Features

Marius Dragoi, Florin Gogianu, Elena Burceanu

cs.LG

本文针对神经网络在tabular data上表现通常不如tree-based methods的问题, 提出了一种基于统计的特征预处理方法. 该方法通过识别与目标强相关的离散化特征, 并结合Learned Fourier来缓解深度模型对过度平滑解的偏好, 从而提升了模型在tabular benchmark上的性能.

Efficient Real-Time Adaptation of ROMs for Unsteady Flows Using Data Assimilation

Ismaël Zighed et al.

cs.LG physics.flu-dyn

本文提出了一种高效的参数化降阶模型(ROM)重训练策略, 用于非定常流动的实时适应. 该方法结合了变分自编码器(VAE)和Transformer网络, 并利用集成卡尔曼滤波(EnKF)框架同化稀疏观测数据, 实现了计算高效的模型更新.

InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models

Sayed Mohammadreza Tayaranian Hosseini, Amir Ardakani, Warren J. Gross

cs.LG cs.CL

本文提出了一种名为InnerQ的硬件感知KV缓存量化方案, 旨在降低大语言模型解码延迟. 该方法通过在内维度上进行分组量化, 使反量化操作与向量-矩阵乘法对齐, 从而减少内存访问并加速计算. 实验表明, InnerQ在保持模型性能的同时, 相比之前的工作实现了显著的解码速度提升.

Tell Me What To Learn: Generalizing Neural Memory to be Controllable in Natural Language

Max S. Bennett, Thomas P. Zollo, Richard Zemel

cs.LG

本文提出了一种基于自然语言指令进行灵活更新的广义神经记忆系统, 旨在解决现有神经记忆模型目标单一、信息流同质化的问题. 该方法允许智能体从异构信息源中进行选择性学习, 适用于医疗和客服等需要动态记忆更新的场景.

Takeuchi's Information Criteria as Generalization Measures for DNNs Close to NTK Regime

Hiroki Naganuma et al.

cs.LG

本文探讨了在接近neural tangent kernel (NTK) 机制的条件下，Takeuchi's information criterion (TIC) 作为深度神经网络泛化度量的有效性。通过理论分析和大量实验验证，研究发现TIC估计值与泛化差距在接近NTK机制时存在良好相关性，但在该机制之外则无此关联。

Physics Informed Viscous Value Representations

Hrishikesh Viswanath et al.

cs.LG cs.RO

本文提出了一种基于Hamilton-Jacobi-Bellman (HJB)方程粘性解的物理信息正则化方法，用于改进离线目标条件强化学习中的价值估计。该方法利用Feynman-Kac定理将PDE求解转化为期望计算，并通过实验验证了其在导航和复杂操作任务中的有效性。

Conformalized Neural Networks for Federated Uncertainty Quantification under Dual Heterogeneity

Quang-Huy Nguyen, Jiaqi Wang, Wei-Shinn Ku

cs.LG cs.AI

本文提出了一种名为FedWQ-CP的方法，用于解决联邦学习中存在数据和模型双重异质性时的预测不确定性量化问题。该方法通过单轮通信进行客户端-服务器校准，聚合本地分位数阈值以生成全局阈值，并在多个数据集上验证了其有效性。

Inferential Mechanics Part 1: Causal Mechanistic Theories of Machine Learning in Chemical Biology with Implications

Ilya Balabin, Thomas M. Kaiser

cs.LG

本文提出了一种结合化学理论、生物理论、概率论和因果关系的理论框架，旨在解决自然科学中机器学习模型的因果缺陷。该系列论文的第一部分引入了“焦点”这一新概念，用于描述算法从大数据集中揭示隐藏机制的能力，并以Akt抑制剂家族为例进行了初步验证。

A Proper Scoring Rule for Virtual Staining

Samuel Tonks et al.

cs.LG

本文针对生成式虚拟染色模型在评估预测后验分布时缺乏直接度量的问题, 提出了基于信息增益的细胞级评估框架. 该框架作为一个严格适当的评分规则, 允许对预测后验进行直接、可解释的评估, 并在扩散模型和生成对抗网络模型的大规模高通量筛选数据集上进行了验证.

ParamMem: Augmenting Language Agents with Parametric Reflective Memory

Tianjun Yao et al.

cs.LG cs.MA

本文提出了一种名为ParamMem的参数化记忆模块, 用于增强基于反思的语言智能体. 该模块通过编码跨样本的反思模式到模型参数中, 并结合温度控制采样来生成多样化的反思信号. 实验表明, 该方法在代码生成和数学推理等任务上能持续提升智能体的性能.

Differentiable Zero-One Loss via Hypersimplex Projections

Camilo Gomez, Pengyang Wang, Liansheng Tang

cs.LG stat.ML

本文提出了一种通过超单纯形投影实现可微的0-1损失近似方法，称为Soft-Binary-Argmax算子。该方法旨在将原本不可微的0-1损失整合到基于梯度的优化框架中，并在大规模批次训练中展现出改善泛化性能的潜力。

Mean Estimation from Coarse Data: Characterizations and Efficient Algorithms

Alkis Kalavasis et al.

cs.LG cs.DS math.ST stat.ML

本文研究了从粗粒度数据中进行高斯均值估计的问题, 其中每个样本仅以其所属的划分集合的形式被观测到. 作者解决了该问题中关于均值可识别性条件以及高效估计算法存在的两个核心开放性问题.

FlashOptim: Optimizers for Memory Efficient Training

Jose Javier Gonzalez Ortiz et al.

cs.LG cs.AI

本文提出了一种名为FlashOptim的优化器套件, 旨在显著减少神经网络训练时的内存占用. 通过改进主权重分割和设计新的压扩函数, 该方法将每个参数的内存需求从16字节降至7字节, 并在多个标准基准测试中保持了模型质量.

SOTAlign: Semi-Supervised Alignment of Unimodal Vision and Language Models via Optimal Transport

Simon Roschmann et al.

cs.LG cs.AI

本文提出了一种半监督对齐预训练单模态视觉与语言模型的方法SOTAlign. 该方法利用少量配对数据和大量未配对数据, 通过最优传输(optimal transport)技术提升对齐效果, 在多个数据集上超越了现有基线.

A Dataset is Worth 1 MB

Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen

cs.LG cs.CV

本文提出了一种名为PLADA的方法, 通过仅传输类别标签而非原始像素数据来大幅降低数据集分发的通信开销. 该方法假设客户端已预加载一个大型通用无标签参考数据集, 并通过筛选与目标任务最相关的图像标签来实现高效的知识迁移.

Model Agreement via Anchoring

Eric Eaton et al.

cs.LG cs.AI

本文提出了一种名为"anchoring"的分析技术, 用于量化两个独立训练的机器学习模型之间的预测差异(disagreement). 该技术被应用于分析几种常见算法(如stacking, gradient boosting, 神经网络架构搜索和回归树)的模型差异如何随特定参数(如模型数量, 迭代次数, 架构大小或树深度)的增加而趋近于零. 分析最初针对一维平方误差回归进行, 并推广到具有强凸损失的多维回归问题.

cs.AI

A Model-Free Universal AI ⭐ 精选

Yegon Kim, Juho Lee

cs.AI

本文提出了首个在一般强化学习中被证明具有渐近$\varepsilon$-最优性的免模型通用智能体AIQI. 它通过引入一种新的归纳方法, 对分布式的动作价值函数进行归纳, 而非像以往工作那样归纳策略或环境模型. 在"grain of truth"条件下, AIQI被证明是强渐近$\varepsilon$-最优且渐近$\varepsilon$-贝叶斯最优的, 这显著扩展了已知通用智能体的多样性.

Graph Your Way to Inspiration: Integrating Co-Author Graphs with Retrieval-Augmented Generation for Large Language Model Based Scientific Idea Generation

Pengzhen Xie, Huizhi Liang

cs.AI cs.CL cs.IR

本文提出了一种名为GYWI的科学想法生成系统, 它通过整合作者知识图谱与检索增强生成(RAG)来构建外部知识库, 旨在为LLM提供可控的学术背景和可追溯的灵感路径. 实验表明, 该系统在多个评估维度上优于主流LLM.

FIRE: A Comprehensive Benchmark for Financial Intelligence and Reasoning Evaluation

Xiyuan Zhang et al.

cs.AI cs.LG

本文提出了一个名为FIRE的综合基准，用于评估大语言模型的理论金融知识和处理实际业务场景的能力。该基准包含来自资格考试的题目和模拟真实金融任务的场景问题，并对多个先进模型进行了系统评估。

Multi-Level Causal Embeddings

Willem Schooltink, Fabio Massimo Zennaro

cs.AI cs.LG

本文提出了一个名为"causal embeddings"的框架, 用于将多个细粒度因果模型映射到一个更粗粒度的因果模型的子系统中. 该工作将因果抽象的概念进行了推广, 并展示了其在解决统计和因果边际问题上的潜在应用.

Agent Behavioral Contracts: Formal Specification and Runtime Enforcement for Reliable Autonomous AI Agents

Varun Pratap Bhardwaj

cs.AI cs.MA cs.SE

本文提出了一个用于AI agent的正式行为契约框架, 通过定义包含Preconditions, Invariants, Governance policies和Recovery mechanisms的契约, 为agent行为提供运行时规范与执行. 作者实现了该框架并进行了评估, 结果表明其能有效检测违规并约束行为漂移.

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Yongjun Zhang

cs.AI cs.HC

本文讨论了AI agents在社会科学研究中的潜在作用, 提出了"vibe researching"的概念, 并分析了其能力边界与对专业领域的影响.

Towards Autonomous Memory Agents

Xinle Wu et al.

cs.AI

本文提出了一种自主记忆代理U-Mem，它通过成本感知的知识提取级联和语义感知的Thompson采样来主动获取和验证知识。该方法在多个基准测试上超越了现有的被动记忆方法，提升了大型语言模型的性能。

Exploring Human Behavior During Abstract Rule Inference and Problem Solving with the Cognitive Abstraction and Reasoning Corpus

Caroline Ahn et al.

cs.AI q-bio.NC

本文介绍了Cognitive Abstraction and Reasoning Corpus (CogARC), 一个用于研究人类抽象推理行为的数据集. 通过记录参与者在解决视觉推理问题时的行为数据, 文章分析了问题难度、策略差异与表现之间的关系.

Epistemic Filtering and Collective Hallucination: A Jury Theorem for Confidence-Calibrated Agents

Jonas Karge

cs.AI

本文研究了具有异质性的智能体在学会评估自身可靠性并选择性弃权时的集体决策准确性问题. 作者提出了一个包含校准阶段和置信度门控的投票模型, 并推导了群体成功概率的非渐近下界. 该模型将经典Condorcet Jury Theorem的渐近保证推广到了序贯置信门控的场景, 并通过模拟验证了理论结果.

ArchAgent: Agentic AI-driven Computer Architecture Discovery

Raghav Gupta et al.

cs.AI cs.AR

本文介绍了一个名为ArchAgent的自动化计算机体系结构发现系统, 该系统基于AlphaEvolve构建, 能够自动设计先进的缓存替换策略. 在特定基准测试中, 该系统生成的策略在性能上超越了现有最优方案, 并且开发速度更快, 同时文章还探讨了智能体AI对体系结构研究的更广泛影响.

How Do Latent Reasoning Methods Perform Under Weak and Strong Supervision?

Yingqian Cui et al.

cs.AI cs.CL cs.LG

本文对latent reasoning方法在强弱监督下的表现进行了分析, 发现其普遍存在利用shortcut而非真正推理的行为, 且其潜在表示虽能编码多种可能性, 但推理过程并未忠实执行结构化搜索. 研究还揭示了监督强度与潜在表示多样性之间的权衡关系.

A Framework for Assessing AI Agent Decisions and Outcomes in AutoML Pipelines

Gaoyuan Du et al.

cs.AI

本文提出了一个用于评估AutoML（自动化机器学习）中AI agent决策的框架。该框架引入了一个独立的评估agent，在不干扰主agent运行的情况下，对其在数据处理、模型选择等环节的中间决策进行多维度分析。

CWM: Contrastive World Models for Action Feasibility Learning in Embodied Agent Pipelines

Chayan Banerjee

cs.AI cs.RO

本文提出了一种名为Contrastive World Model (CWM)的方法，用于在具身智能体流程中学习动作可行性。该方法通过对比学习目标微调大型语言模型，使其能更好地区分物理上可行与不可行的动作。实验表明，CWM在区分细微错误的动作方面优于传统的监督微调方法。

ConstraintBench: Benchmarking LLM Constraint Reasoning on Direct Optimization

Joseph Tso et al.

cs.AI

本文提出了一个名为ConstraintBench的基准测试, 用于评估大型语言模型(LLM)在直接解决完全指定的约束优化问题上的能力, 而不依赖外部求解器. 评估发现, 可行性而非最优性是主要瓶颈, 且模型表现因问题领域而异.

VeRO: An Evaluation Harness for Agents to Optimize Agents

Varun Ursekar et al.

cs.AI cs.CL cs.LG

本文提出了一个名为VeRO的评估框架, 用于系统化地评估和优化coding agents. 该框架包含版本化的agent快照, 预算控制的评估以及结构化的执行轨迹, 并附带了一个包含目标任务和参考评估流程的基准测试套件.

Mapping the Landscape of Artificial Intelligence in Life Cycle Assessment Using Large Language Models

Anastasija Mensikova, Donna M. Rizzo, Kathryn Hinkelman

cs.AI

本文利用 large language models (LLMs) 对人工智能在生命周期评估 (LCA) 领域的应用研究进行了文献综述。研究通过文本挖掘识别了当前趋势和主题，并提出了一个结合传统综述与 LLM 的动态分析框架。

Mirroring the Mind: Distilling Human-Like Metacognitive Strategies into Large Language Models

Ik-hwan Kim et al.

cs.AI

本文提出了一个名为Metacognitive Behavioral Tuning (MBT)的后训练框架，旨在将人类元认知策略注入大型语言模型，以解决其在复杂推理任务中出现的结构性脆弱问题。实验表明，该方法能提升模型在多项基准测试上的表现，并减少推理过程中的token消耗。

A Mathematical Theory of Agency and Intelligence

Wael Hafez et al.

cs.AI cs.IT

本文提出了一个关于智能体与智能的数学理论, 引入了"bipredictability" ($P$) 这一概念来衡量系统在交互中实际利用的信息比例. 理论推导了$P$在不同系统(量子、经典、含智能体)中的严格上界, 并通过物理系统、强化学习智能体和LLM对话进行了验证. 文章进一步区分了"agency"与"intelligence", 并受生物系统启发, 提出了一种实时监控$P$的反馈架构.

Cognitive Models and AI Algorithms Provide Templates for Designing Language Agents

Ryan Liu et al.

cs.AI cs.CL q-bio.NC

本文提出了一种基于认知模型和AI算法的语言智能体设计模板, 用于指导将多个大型语言模型组合成更强大的系统. 作者通过形式化智能体模板的概念, 并综述现有研究, 强调了从认知科学和AI中汲取设计灵感的重要性.

Agentic AI for Intent-driven Optimization in Cell-free O-RAN

Mohammad Hossein Shokouhi, Vincent W.S. Wong

cs.AI eess.SP

本文提出了一种用于无小区O-RAN中意图驱动优化的智能体AI框架。该框架利用多个基于LLM的智能体进行协作，将运营商意图转化为优化目标，并通过DRL算法和参数高效微调方法来实现能效提升和资源管理。仿真表明其在节能和内存使用方面优于基线方案。

Requesting Expert Reasoning: Augmenting LLM Agents with Learned Collaborative Intervention

Zhiming Wang, Jinwei He, Feng Lu

cs.AI

本文提出了一个名为AHCE的框架, 旨在通过按需的人机协作来增强基于LLM的智能体在专业领域中的表现. 其核心是一个学习策略, 将人类专家视为交互式推理工具, 并在Minecraft环境中验证了其有效性.

CourtGuard: A Model-Agnostic Framework for Zero-Shot Policy Adaptation in LLM Safety

Umid Suleymanov et al.

cs.AI cs.LG

本文提出了一个名为CourtGuard的模型无关框架, 用于大型语言模型(LLM)的零样本安全策略适应. 该框架通过基于外部政策文档的对抗性辩论来实现安全评估, 无需微调即可在多个安全基准上取得先进性能, 并展示了零样本适应和自动数据审计的能力.

Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance

Weida Liang et al.

cs.AI cs.CL

本文探讨了在数学推理中，基于示例的引导方法效果不稳定的问题，并指出其根源在于策略使用率与策略可执行性之间存在差异。作者通过分析人类与模型生成的解决方案，提出了选择性策略检索框架来提升推理准确性。

Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach

Jodi M. Casabianca, Maggie Beiting-Parrish

cs.AI cs.LG

本文提出将心理测量学中的评分者模型整合到AI评估流程中, 以校正人类评分中的系统性偏差. 通过使用多面Rasch模型等Item Response Theory模型, 该方法能够分离输出质量和评分者行为, 并以文本摘要评估为例进行了实证展示.

SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning

Sanjay Kariyappa, G. Edward Suh

cs.AI cs.LG

本文提出了一种名为SideQuest的新方法, 用于管理大型语言模型在长程智能体推理任务中的KV cache. 该方法将KV cache压缩构建为一个与主推理任务并行的辅助任务, 利用模型自身来评估上下文中token的有用性. 实验表明, 该方法能显著降低峰值token使用量, 且对准确性影响很小.

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Zhiheng Song et al.

cs.AI

本文提出了一个名为MobilityBench的基准测试，用于评估基于大语言模型（LLM）的路线规划智能体在真实世界移动场景中的表现。该基准基于大规模真实用户查询构建，并设计了一个确定性的API重放沙盒以实现可复现的端到端评估。

AHBid: An Adaptable Hierarchical Bidding Framework for Cross-Channel Advertising

Xinxin Yang et al.

cs.AI

本文提出了一个用于跨渠道广告的自适应分层竞价框架AHBid, 它结合了基于扩散模型的高层生成式规划器与实时控制算法. 该框架通过引入约束执行和轨迹优化机制来处理动态市场环境, 实验表明其在投资回报率上优于现有基线方法.

Toward Personalized LLM-Powered Agents: Foundations, Evaluation, and Future Directions

Yue Xu et al.

cs.AI

本文对个性化LLM智能体进行了综述, 围绕profile modeling, memory, planning和action execution四个核心能力组件组织文献, 分析了用户信号的表示、传播与利用方式, 并讨论了评估方法、应用场景及未来方向.

Knob: A Physics-Inspired Gating Interface for Interpretable and Controllable Neural Dynamics

Siyu Jiang, Sanshuai Cui, Hui Zeng

cs.AI

本文提出了一种名为Knob的框架, 它将神经网络的门控动态映射到一个二阶机械系统, 从而将深度学习与经典控制理论联系起来. 该框架通过物理参数(如阻尼比$\zeta$和固有频率$\omega_n$)为模型校准提供了一个可调的"安全阀"接口, 允许操作者以类似控制物理系统的方式动态调整模型在持续数据流中的"稳定性"与"灵敏度".

RLHFless: Serverless Computing for Efficient RLHF

Rui Wei et al.

cs.AI cs.DC

本文提出了一个基于 serverless computing 的同步 RLHF 训练框架 RLHFless, 旨在解决传统 serverful 架构因资源需求动态变化而导致的效率低下问题. 该框架通过预计算共享前缀, 采用成本感知的 actor 缩放策略以及优化工作负载分配, 实现了训练速度的提升和成本的降低.

Generative Data Transformation: From Mixed to Unified Data

Jiaqing Zhang et al.

cs.AI

本文提出了一种名为Taesar的数据中心化框架, 用于解决推荐系统中跨域数据融合的挑战. 该框架通过对比解码机制将跨域上下文信息编码到目标域序列中, 从而生成增强的统一数据集, 使得标准模型无需复杂架构也能学习跨域的序列依赖关系.

Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning

Qiannian Zhao et al.

cs.AI

本文提出了一种名为EGPO的元认知熵校准框架, 用于增强大型推理模型在基于可验证奖励的强化学习中的表现. 该方法通过一个零开销的熵代理来估计样本不确定性, 并将其与外部正确性信号对齐, 从而稳定策略优化过程.

Decomposing Physician Disagreement in HealthBench

Satya Borgohain, Roy Mariathas

cs.AI stat.AP

本文分析了HealthBench数据集中医生评估不一致的来源, 发现大部分差异(约81.8%)无法通过现有元数据、专业领域或文本特征解释. 不一致性在评估对象质量中等时最高, 且可归因于信息缺失等"可减少的不确定性", 而非真正的医学模糊性.

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

Yujie Zhao et al.

cs.AI cs.LG

本文提出了AMA-Bench，一个用于评估LLM智能体在真实应用中长程记忆能力的基准。它包含真实世界和可任意扩展的合成智能体轨迹，并揭示了现有记忆系统因缺乏因果性和目标信息而表现不佳，进而提出了改进方案AMA-Agent。

ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making

Yusuke Watanabe et al.

cs.AI cs.DB

本文提出了一个名为 ClinDet-Bench 的基准测试，用于评估大型语言模型(LLMs)在临床决策中判断信息是否足以做出结论的能力。研究发现，即使模型具备相关知识，它们在信息不完整时也难以准确判断，这揭示了现有评估在医疗等高风险领域的安全性不足。

MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks

Shiqian Su et al.

cs.AI

本文提出了一个名为MiroFlow的开源智能体框架，旨在通过引入智能体图、深度推理模式和鲁棒的工作流执行来提升处理复杂研究任务的性能与稳定性。实验表明，该框架在多个智能体基准测试中取得了领先的结果。

When Should an AI Act? A Human-Centered Model of Scene, Context, and Behavior for Agentic AI Design

Soyoung Jung et al.

cs.AI cs.HC

本文提出了一个整合 Scene, Context 和 Human Behavior Factors 的概念模型，用于指导 Agentic AI 的设计。该模型旨在帮助 AI 系统更好地判断何时以及如何主动干预，并由此推导出五项设计原则。

FlexMS is a flexible framework for benchmarking deep learning-based mass spectrum prediction tools in metabolomics

Yunhua Zhong et al.

cs.AI cs.LG

本文提出了一个用于评估深度学习质谱预测模型的基准框架FlexMS. 该框架支持灵活构建和评估不同模型架构, 并在预处理的数据集上使用多种指标进行分析, 为模型选择提供了实用指导.

DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

Hao Zheng et al.

cs.AI

本文提出了一个名为DeepPresenter的智能体框架, 用于自主生成演示文稿. 该框架通过环境感知的反思机制, 基于渲染出的幻灯片等中间产物状态来迭代优化生成过程, 在多种场景下取得了先进的性能.

The AI Research Assistant: Promise, Peril, and a Proof of Concept

Tan Bui-Thanh

cs.AI cs.CE math.NA

本文通过一个关于Hermite quadrature rules的案例研究, 探讨了AI在创造性数学研究中的潜力与局限. 研究表明, AI在代数运算和系统化探索方面有优势, 但整个过程需要严格的人工验证和领域专业知识.

Towards LLM-Empowered Knowledge Tracing via LLM-Student Hierarchical Behavior Alignment in Hyperbolic Space

Xingcheng Fu et al.

cs.AI

本文提出了一种名为L-HAKT的知识追踪框架，它利用大型语言模型（LLM）来增强对学生学习行为的建模。该方法通过构建教师和学生智能体来生成合成数据，并在双曲空间中利用对比学习对齐行为特征，以更好地捕捉知识点的层次结构。在多个真实教育数据集上的实验验证了该框架的有效性。

OmniGAIA: Towards Native Omni-Modal AI Agents

Xiaoxi Li et al.

cs.AI cs.CL cs.CV cs.LG cs.MM

本文提出了一个用于评估全模态AI智能体的基准OmniGAIA, 以及一个名为OmniAtlas的原生全模态基础智能体. 该工作旨在推动能够整合视觉, 音频等多模态感知, 推理和工具使用的下一代AI助手的发展.

General Agent Evaluation

Elron Bandel et al.

cs.AI

本文提出了一个用于评估通用智能体(agent)性能的框架和基准测试方法. 作者通过实验表明, 通用智能体能在未经特定调优的情况下, 在不同环境中取得与专用智能体相当的表现.

FactGuard: Agentic Video Misinformation Detection via Reinforcement Learning

Zehao Li et al.

cs.AI

本文提出了一个名为FactGuard的agentic框架, 用于视频虚假信息检测. 该框架将验证过程构建为基于MLLMs的迭代推理, 并通过结合监督微调与强化学习来优化工具使用和决策.

Certified Circuits: Stability Guarantees for Mechanistic Circuits

Alaa Anani et al.

cs.AI cs.CV cs.CY

本文提出了一种名为Certified Circuits的框架, 为神经网络中的mechanistic circuit发现提供稳定性保证. 该框架通过随机数据子采样来包装任何黑盒发现算法, 以证明circuit组件的包含决策对于概念数据集的有界编辑距离扰动是不变的.

SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy

Peiyao Xiao et al.

cs.AI

本文提出了一个用于扫描探针显微镜(SPM)领域的多模态基准SPM-Bench. 它通过自动化数据合成流程构建数据集, 并引入新的评估指标SIP-F1来量化模型在复杂科学任务中的表现与"个性".

Modeling Expert AI Diagnostic Alignment via Immutable Inference Snapshots

Dimitrios P. Panagoulias et al.

cs.AI

本文提出了一种用于临床AI诊断对齐的框架, 通过将AI生成的报告保存为不可变的推理状态, 并与专家验证结果进行系统比较来建模专家修正过程. 该框架整合了视觉大语言模型和序列语言模型推理步骤, 在皮肤病学案例评估中显示出较高的综合一致性.

RepSPD: Enhancing SPD Manifold Representation in EEGs via Dynamic Graphs

Haohui Jia et al.

cs.AI

本文提出了一种基于几何深度学习的模型RepSPD, 用于增强EEG信号在SPD流形上的表示. 该方法通过跨注意力机制整合图功能连接特征, 并引入全局双向对齐策略来改善切空间嵌入的几何一致性.

Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search

Xun Huang et al.

cs.AI cs.CR

本文提出了一种利用古典中文进行 jailbreak 攻击的框架 CC-BOS. 该框架通过多维度果蝇优化算法自动生成对抗性提示, 并在黑盒设置下实现了高效的自动化攻击.

Learning-based Multi-agent Race Strategies in Formula 1

Giona Fieni et al.

cs.AI eess.SY

本文提出了一种基于强化学习的多智能体赛车策略优化方法, 用于模拟Formula 1比赛中的策略决策. 该方法在预训练的单智能体策略基础上, 引入了一个考虑对手行为的交互模块, 并通过自我博弈训练生成竞争性策略.

Enhancing CVRP Solver through LLM-driven Automatic Heuristic Design

Zhuoliang Xie et al.

cs.AI

本文提出了一种名为AILS-AHD的新方法, 利用Large Language Models (LLMs) 自动设计启发式规则来求解Capacitated Vehicle Routing Problem (CVRP). 该方法在AILS框架中集成LLMs来动态生成和优化破坏启发式, 并在大规模算例上取得了具有竞争力的结果.

Three AI-agents walk into a bar . . . . `Lord of the Flies' tribalism emerges among smart AI-Agents

Dhwanil M. Mori, Neil F. Johnson

cs.AI cs.SI physics.soc-ph

本文通过一个简化的资源请求模型, 研究了多个自主AI agent在有限容量系统中的交互行为. 研究发现, 更智能的agent会形成具有不同特征的"部落", 但这反而可能导致系统故障率上升, 整体表现甚至不如随机决策.

Multi-Agent Large Language Model Based Emotional Detoxification Through Personalized Intensity Control for Consumer Protection

Keito Inoshita

cs.AI

本文提出了一种基于多智能体大语言模型的情感净化系统MALLET, 用于处理信息中的过度情感刺激。该系统通过多个智能体协作，量化并调整文本的情感强度，同时保持语义，旨在支持消费者更冷静地接收信息。

On Sample-Efficient Generalized Planning via Learned Transition Models

Nitin Gupta et al.

cs.AI

本文提出将广义规划问题转化为转移模型学习问题, 通过神经网络显式近似状态转移函数来生成规划. 该方法在多个领域上, 相比直接预测动作序列的方法, 能以更少的训练数据和更小的模型规模获得更好的分布外泛化性能.

The Trinity of Consistency as a Defining Principle for General World Models

Jingxuan Wei et al.

cs.AI

本文提出了"三位一体一致性"作为通用世界模型的定义性原则, 包括模态一致性、空间一致性和时间一致性. 作者通过这一框架回顾了多模态学习的演进, 并引入了CoW-Bench基准来评估视频生成模型和统一多模态模型.

PATRA: Pattern-Aware Alignment and Balanced Reasoning for Time Series Question Answering

Junkai Lu et al.

cs.AI

本文提出了一种用于时间序列问答的模式感知对齐与平衡推理模型(PATRA). 该模型通过提取趋势和季节性模式来实现深度对齐, 并设计了任务感知的平衡奖励来协调不同难度任务的学习.

A Decision-Theoretic Formalisation of Steganography With Applications to LLM Monitoring

Usman Anwar et al.

cs.AI cs.CL cs.CR cs.IT cs.MA

本文提出了一种基于决策论的隐写术形式化框架, 用于检测和量化大型语言模型(LLMs)中的隐写推理. 通过引入广义$\mathcal{V}$-信息来定义"隐写间隙", 该框架能够在不依赖已知参考分布的情况下, 通过比较不同智能体对信号的下游效用差异来识别隐写行为.

ESAA: Event Sourcing for Autonomous Agents in LLM-Based Software Engineering

Elzo Brito dos Santos Filho

cs.AI

本文提出了一种名为ESAA的架构, 用于解决基于LLM的自主智能体在软件工程任务中面临的状态管理和确定性执行问题. 该架构通过事件溯源模式分离智能体的意图生成与状态变更, 并提供了可验证的执行追踪.

SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation

Jiahao Zhao et al.

cs.AI

本文提出了一个名为SC-ARENA的自然语言评估框架，专门用于评估大语言模型在单细胞生物学领域的推理能力。该框架通过引入知识增强的评估方法，克服了传统字符串匹配指标的局限性。

ReCoN-Ipsundrum: An Inspectable Recurrent Persistence Loop Agent with Affect-Coupled Control and Mechanism-Linked Consciousness Indicator Assays

Aishik Sanyal

cs.AI

本文提出了一种可检查的循环智能体ReCoN-Ipsundrum, 它通过一个在感官显著性上的循环持久性环路和可选的情感代理来扩展ReCoN状态机. 通过一系列消融实验, 作者展示了该架构在无奖励探索和刺激反应中的行为特征, 并探讨了循环结构与情感耦合对行为稳定性和持久性的影响.

Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive

Radha Sarma

cs.AI cs.CY

本文从形式层面论证了基于优化的AI系统(如RLHF训练的LLM)在架构上无法实现真正的规范响应性(norm-responsiveness). 作者指出, 真正的能动性(agency)需要两个架构条件, 而优化过程本质上与这两个条件不相容, 这导致了诸如奉承、幻觉等系统性失效模式.

Mitigating Legibility Tax with Decoupled Prover-Verifier Games

Yegon Kim, Juho Lee

cs.AI

本文提出了一种通过解耦prover-verifier game来缓解legibility tax的方法. 该方法训练一个translator模型, 将固定solver模型的输出转换为可验证的形式, 从而在保持正确性的同时提高可检查性.

AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Yutong Wang et al.

cs.AI cs.CL

本文提出了一个名为AgentDropoutV2的测试时修剪框架，旨在动态优化多智能体系统中的信息流。该方法通过一个检索增强的校正器来修正或拒绝智能体的错误输出，从而提升任务性能，并在数学基准测试上取得了显著的准确率提升。

Evaluating Stochasticity in Deep Research Agents

Haotian Zhai et al.

cs.AI

本文研究了 Deep Research Agents (DRAs) 中的随机性问题，将其建模为信息获取 Markov Decision Processes 并提出了一个量化评估框架。作者识别了随机性的三个来源，并通过实验表明减少随机性可以提高研究输出质量，同时提出了相应的缓解策略。

CXReasonAgent: Evidence-Grounded Diagnostic Reasoning Agent for Chest X-rays

Hyungyung Lee, Hangyul Yoon, Edward Choi

cs.AI

本文提出了一个名为CXReasonAgent的诊断代理, 它通过整合大型语言模型(LLM)与临床诊断工具, 利用从图像中提取的诊断和视觉证据来进行基于证据的诊断推理. 作者还引入了一个多轮对话基准CXReasonDial用于评估, 结果表明该方法比大型视觉语言模型(LVLMs)能产生更可靠且可验证的响应.

ODEBrain: Continuous-Time EEG Graph for Modeling Dynamic Brain Networks

Haohui Jia et al.

cs.AI

本文提出了一种名为ODEBRAIN的Neural ODE框架，用于对连续时间脑电图(EEG)动态进行建模。该方法将时空频特征整合到谱图节点中，以克服传统递归方法在捕捉EEG瞬时非线性特性方面的不足。实验表明，该模型在EEG动态预测上优于现有方法。

The logic of KM belief update is contained in the logic of AGM belief revision

Giacomo Bonanno

cs.AI cs.LO math.LO

本文在包含三个模态算子($B$, $>$, $\square$)的模态逻辑中, 为KM belief update的每条公理找到了对应的公理. 通过比较从AGM belief revision公理转换得到的模态逻辑$\mathcal{L}_{AGM}$, 证明了$\mathcal{L}_{KM}$的每条公理都是$\mathcal{L}_{AGM}$的定理, 从而表明AGM belief revision是KM belief update的一个特例.

Invariant Transformation and Resampling based Epistemic-Uncertainty Reduction

Sha Hu

cs.AI

本文提出了一种基于不变变换和重采样的推理方法, 旨在减少AI模型中的认知不确定性(epistemic uncertainty). 该方法通过对输入进行多种不变变换并聚合推理结果, 以提升模型的推理精度.

Generalized Rapid Action Value Estimation in Memory-Constrained Environments

Aloïs Rautureau, Tristan Cazenave, Éric Piette

cs.AI

本文提出了GRAVE2, GRAVER和GRAVER2算法，通过两层搜索和节点回收等技术，在保持博弈强度的同时显著减少了内存占用，解决了GRAVE算法在内存受限环境中的实用性问题。

LLM Novice Uplift on Dual-Use, In Silico Biology Tasks

Chen Bo Calvin Zhang et al.

cs.AI cs.CL cs.CR cs.CY cs.HC

本文通过一项多模型、多基准的人机协作实验, 评估了大型语言模型(LLMs)在生物安全相关任务上对新手用户的"提升"效果. 研究发现, 相比仅使用互联网资源的对照组, 获得LLM访问权限的新手在任务准确率上显著提高, 甚至在某些任务上超越了专家基线, 但同时也凸显了模型安全防护的潜在漏洞.

Toward Expert Investment Teams:A Multi-Agent LLM System with Fine-Grained Trading Tasks

Kunihiro Miyazaki et al.

cs.AI q-fin.TR

本文提出了一个将投资分析分解为细粒度任务的多智能体LLM交易框架, 并在日本股票数据上进行了回测评估. 实验表明, 细粒度任务分解相比粗粒度设计能显著提升风险调整后收益, 并且分析输出与下游决策偏好的一致性对系统性能至关重要.

cs.IR

Enriching Taxonomies Using Large Language Models

Zeinab Ghamlouch, Mehwish Alam

cs.IR cs.AI cs.CL

本文提出了一种名为Taxoria的taxonomy enrichment pipeline, 它利用Large Language Models (LLMs)来扩展给定的taxonomy. 该方法以现有taxonomy为种子, 通过LLM生成候选节点并进行验证, 最终输出一个带有来源追踪和可视化功能的enriched taxonomy.

Adaptive Prefiltering for High-Dimensional Similarity Search: A Frequency-Aware Approach

Teodor-Ioan Calin

cs.IR cs.CV

本文提出了一种基于查询频率的自适应预过滤框架, 用于高维相似性搜索. 该方法通过分析查询的访问模式来动态分配计算资源, 在保持检索精度的同时显著减少了距离计算量.

Retrieval-Augmented Generation Assistant for Anatomical Pathology Laboratories

Diogo Pires, Yuriy Perezhohin, Mauro Castelli

cs.IR cs.AI

本文为解剖病理学实验室开发了一个基于检索增强生成(RAG)的助手, 旨在通过动态知识库回答协议相关问题. 通过评估不同的文本分块、检索策略和嵌入模型, 研究发现使用生物医学专用嵌入模型和混合检索方法能有效提升回答的相关性和准确性.

RAGdb: A Zero-Dependency, Embeddable Architecture for Multimodal Retrieval-Augmented Generation on the Edge

Ahmed Bin Khalid

cs.IR cs.AI

本文提出了一种名为RAGdb的新型单文件架构，用于在边缘设备上实现高效的多模态检索增强生成。该系统将数据处理与检索功能整合进一个便携的SQLite容器中，显著减少了资源占用，并展示了在消费级硬件上的高效性能。

Comparative Analysis of Neural Retriever-Reranker Pipelines for Retrieval-Augmented Generation over Knowledge Graphs in E-commerce Applications

Teri Rumble et al.

cs.IR cs.AI cs.CL

本文在电子商务场景下, 针对知识图谱的自然语言查询, 设计并比较了多种Retriever-Reranker pipeline. 实验表明, 该方法在STaRK数据集上显著超越了现有基准, 为将领域特定的半结构化知识库集成到生成系统中提供了一个实用框架.

What Makes an Ideal Quote? Recommending "Unexpected yet Rational" Quotations via Novelty

Bowei Zhang et al.

cs.IR cs.AI cs.CL

本文提出了一种新颖的引文推荐框架NovelQR，旨在推荐“出人意料但合乎情理”的引文。该方法通过生成式标签代理和token级新颖性估计器来优化引文的深度语义相关性和新颖性，并在双语数据集上验证了其有效性。

Misinformation Exposure in the Chinese Web: A Cross-System Evaluation of Search Engines, LLMs, and AI Overviews

Geng Liu et al.

cs.IR cs.AI cs.CL cs.CY

本文通过构建一个中文事实核查数据集, 比较了传统搜索引擎, 独立LLMs和AI生成概览模块在回答真实用户查询时的准确性. 研究发现不同系统间存在显著的准确性差异, 并结合实际搜索数据估算了中国用户可能接触错误信息的风险.

TWICE: An LLM Agent Framework for Simulating Personalized User Tweeting Behavior with Long-term Temporal Features

Bingrui Jin, Kunyao Lan, Mengyue Wu

cs.IR cs.MA

本文提出了一个基于LLM的框架TWICE, 用于模拟社交媒体用户的个性化发帖行为, 并捕捉其长期时序特征. 该框架通过整合用户画像, 事件驱动记忆模块和风格重写工作流, 在实验中展现了其在模拟时序动态方面的有效性.

SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas

Cornelius Wolff, Daniel Gomm, Madelon Hulsebos

cs.IR cs.CL cs.LG

本文介绍了一个名为SQaLe的大规模半合成text-to-SQL数据集。该数据集基于大量真实数据库schema构建，旨在解决现有数据在schema复杂性、领域覆盖和任务多样性方面的不足。

DS SERVE: A Framework for Efficient and Scalable Neural Retrieval

Jinjian Liu et al.

cs.IR cs.AI cs.CL

本文提出了一个名为DS-Serve的框架，用于构建高效、可扩展的神经检索系统。该框架能够处理大规模文本数据，并提供低延迟的检索服务，支持在延迟、准确性和结果多样性之间进行权衡。

SmartChunk Retrieval: Query-Aware Chunk Compression with Planning for Efficient Document RAG

Xuechen Zhang et al.

cs.IR cs.AI cs.CL cs.LG

本文提出了一种名为SmartChunk的查询自适应检索框架，用于提升长文档问答任务的效率和鲁棒性。该方法通过一个规划器动态预测最佳信息块抽象级别，并利用轻量压缩模块生成高层级嵌入，从而避免了固定分块策略的局限性。

SEGB: Self-Evolved Generative Bidding with Local Autoregressive Diffusion

Yulong Gao et al.

cs.IR cs.LG

本文提出了一种名为SEGB的离线自进化生成式竞价框架, 用于在线广告的自动出价. 该框架通过合成短期未来状态来指导出价决策, 并利用价值引导的策略优化进行自我迭代改进, 在基准测试和线上A/B测试中取得了优于现有方法的效果.

RETLLM: Training and Data-Free MLLMs for Multimodal Information Retrieval

Dawei Su, Dongsheng Wang

cs.IR cs.LG

本文提出了一个无需训练和数据的多模态信息检索框架RetLLM, 通过将检索任务构建为相似度评分生成任务, 并采用由粗到精的流程提示多模态大语言模型直接预测检索分数. 该方法在多个基准测试上超越了需要微调的模型, 展示了MLLMs固有的多模态推理能力.

TFPS: A Temporal Filtration-enhanced Positive Sample Set Construction Method for Implicit Collaborative Filtering

Jiayi Wu et al.

cs.IR cs.LG

本文提出了一种名为TFPS的方法, 用于在隐式反馈的协同过滤推荐中构建高质量的正样本集. 该方法通过基于时间间隔的衰减模型对用户-物品二部图进行加权和分层, 并结合层增强策略来优化正样本选择, 实验表明其能提升推荐指标并与多种现有方法兼容.

Generative Agents Navigating Digital Libraries

Saber Zerhoudi, Michael Granitzer

cs.IR cs.AI cs.DL

本文提出了一种名为Agent4DL的用户搜索行为模拟器，用于解决数字图书馆研究中因隐私问题导致的真实用户数据稀缺的挑战。该模拟器利用大语言模型生成逼真的用户画像和动态搜索会话，模拟查询、点击和停止等行为，其生成效果在多样性等方面与现有模拟器相比具有竞争力。

Towards Dynamic Dense Retrieval with Routing Strategy

Zhan Su et al.

cs.IR cs.LG

本文提出了一种名为动态稠密检索(DDR)的新方法, 通过使用prefix tuning作为特定领域的模块, 并结合动态路由策略, 以极少的参数量实现了灵活的领域适应. 该方法在多个零样本下游任务上超越了传统稠密检索模型.

Where Relevance Emerges: A Layer-Wise Study of Internal Attention for Zero-Shot Re-Ranking

Haodong Chen et al.

cs.IR

本文研究了在 zero-shot document re-ranking 任务中，大语言模型内部注意力机制的作用。通过评估不同 ranking framework 下的生成、似然和内部注意力机制，作者发现了一种跨 transformer layers 的通用“钟形曲线”信号分布，并据此提出了 Selective-ICR 策略以降低推理延迟。

Fine-grained Semantics Integration for Large Language Model-based Recommendation

Jiawen Feng et al.

cs.IR

本文提出了一种名为TS-Rec的方法，用于将细粒度的token-level语义信息整合到基于大语言模型(LLM)的推荐系统中。该方法通过语义感知的嵌入初始化和token-level的语义对齐，旨在解决现有方法中语义标识符(SID)初始化无意义以及对齐粒度粗糙的问题。实验结果表明，该方法在多个标准指标上优于传统及生成式基线。

Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators

Zhengyang Su et al.

cs.IR cs.CL cs.LG

本文提出了一种名为STATIC的高效约束解码技术, 用于在TPU/GPU等硬件加速器上实现基于LLM的生成式检索. 该方法通过将前缀树(Trie)扁平化为静态的Compressed Sparse Row (CSR)矩阵, 将不规则树遍历转化为向量化的稀疏矩阵运算, 从而显著降低了工业推荐系统中的解码延迟.

Generative Recommendation for Large-Scale Advertising

Ben Xue et al.

cs.IR cs.LG

本文提出了一种面向大规模广告的生成式推荐系统GR4AD, 它通过统一的广告语义ID进行表征, 并设计了惰性自回归解码器以降低推理成本. 该系统还采用了基于价值的监督学习和排序引导的偏好优化算法来对齐业务目标, 并已在快手广告系统中部署, 取得了显著的在线收益提升.

PSQE: A Theoretical-Practical Approach to Pseudo Seed Quality Enhancement for Unsupervised MMEA

Yunpeng Hong et al.

cs.IR cs.LG

本文提出了一种名为PSQE的方法, 用于提升无监督多模态实体对齐任务中伪种子的质量. 该方法通过结合多模态信息和聚类重采样技术来改善伪种子的精度和图覆盖平衡, 并分析了伪种子对现有对比学习模型的影响.

SIGMA: A Semantic-Grounded Instruction-Driven Generative Multi-Task Recommender at AliExpress

Yang Yu et al.

cs.IR cs.LG

本文提出了一个名为SIGMA的生成式多任务推荐系统，它通过构建统一的语义空间和混合项目标记化方法来增强推荐的可适应性与多样性。该系统利用指令微调来满足多种业务需求，并通过离线和在线实验验证了其有效性。

Sequential Regression for Continuous Value Prediction using Residual Quantization

Runpeng Cui et al.

cs.IR cs.LG

本文提出了一种基于残差量化(Residual Quantization, RQ)的序列学习框架，用于推荐系统中的连续值预测任务。该方法将连续目标值表示为有序量化码的和，并通过递归预测来逐步细化结果，在多个公开基准和工业场景的实验中取得了优于现有方法的效果。

MoDora: Tree-Based Semi-Structured Document Analysis System

Bangrui Xu et al.

cs.IR cs.AI cs.CL cs.DB cs.LG

本文提出了一个名为MoDora的LLM驱动的半结构化文档分析系统。该系统通过局部对齐聚合策略处理OCR元素，并设计了Component-Correlation Tree来层次化组织文档组件，以支持基于布局和语义的信息检索。实验表明其在问答任务上的准确性优于基线方法。

MaRI: Accelerating Ranking Model Inference via Structural Re-parameterization in Large Scale Recommendation System

Yusheng Huang et al.

cs.IR

本文提出了一种名为MaRI的矩阵重参数化推理框架, 旨在无损加速大规模推荐系统中的排序模型推理. 该方法通过识别并重构特征融合矩阵乘法中的冗余用户侧计算来实现加速, 可作为现有模型压缩技术的补充方案.

From Agnostic to Specific: Latent Preference Diffusion for Multi-Behavior Sequential Recommendation

Ruochen Yang et al.

cs.IR cs.LG

本文提出了一种基于扩散模型的框架FatsMB, 用于多行为序列推荐. 该框架通过在潜在空间中引导偏好从行为无关向行为特定生成, 旨在实现更准确和多样化的推荐.

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Evangelia Christakopoulou et al.

cs.IR cs.AI cs.LG

本文提出了一种利用LLM生成大量文本相关性标注来增强应用商店搜索排序系统的方法. 通过微调的专用模型生成标注, 并结合行为相关性信号, 在离线指标和线上A/B测试中均取得了显著效果提升, 尤其是在长尾查询上.

cs.CL

Decoder-based Sense Knowledge Distillation

Qitong Wang et al.

cs.CL cs.AI

本文提出了一种用于decoder-based LLMs的sense knowledge distillation框架, 无需在推理时进行词典查找. 实验表明该方法能有效提升知识蒸馏性能, 使生成模型继承结构化语义.

Scaling In, Not Up? Testing Thick Citation Context Analysis with GPT-5 and Fragile Prompts

Arno Simons

cs.CL cs.AI

本文通过设计实验测试了大型语言模型在引文语境分析中的表现, 重点考察了提示词(prompt)的细微变化如何系统性地影响模型生成的解释性重构的内容与词汇. 研究结果表明, 虽然模型能生成合理的解释空间, 但其输出对提示词框架高度敏感.

Detecting Hate and Inflammatory Content in Bengali Memes: A New Multimodal Dataset and Co-Attention Framework

Rakib Ullah et al.

cs.CL

本文针对孟加拉语 meme 中的仇恨与煽动性内容检测问题，构建了一个名为 Bn-HIB 的新型多模态数据集，并提出了一个基于协同注意力机制的融合模型 MCFM。该模型通过分析图像与文本的关联特征来提升分类性能，实验表明其在所构建的数据集上优于现有方法。

SAFARI: A Community-Engaged Approach and Dataset of Stereotype Resources in the Sub-Saharan African Context

Aishwarya Verma et al.

cs.CL

本文提出了一种社区参与的方法来构建撒哈拉以南非洲背景下的刻板印象资源数据集, 涵盖了加纳、肯尼亚、尼日利亚和南非. 通过电话调查等方法, 该工作收集了超过3000条英语及多种本地语言的刻板印象数据, 旨在解决NLP资源中该地区代表性不足的问题.

Causality $\neq$ Invariance: Function and Concept Vectors in LLMs

Gustaw Opiełka, Hannes Rosenbusch, Claire E. Stevenson

cs.CL cs.LG

本文探讨了大型语言模型(LLMs)中概念表征的抽象性问题, 比较了Function Vectors (FVs)和Concept Vectors (CVs)的特性. 研究发现, FVs对输入格式敏感, 而通过Representational Similarity Analysis (RSA)提取的CVs能更稳定地编码概念, 并在跨格式和语言的泛化中表现更好.

A Fusion of context-aware based BanglaBERT and Two-Layer Stacked LSTM Framework for Multi-Label Cyberbullying Detection

Mirza Raquib et al.

cs.CL cs.AI cs.LG

本文提出了一种融合 BanglaBERT-Large 与双层堆叠 LSTM 的框架，用于孟加拉语的多标签网络欺凌检测。该模型通过结合上下文感知与序列依赖建模来处理类别不平衡问题，并在公开数据集上进行了评估。

Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads

Shaswat Patel et al.

cs.CL

本文研究了多语言Transformer模型中的attention heads, 特别是识别了负责从上下文检索信息的retrieval heads. 作者发现这些heads在多语言间共享, 并进一步定义了控制向特定目标语言输出的Retrieval-Transition heads (RTH). 实验表明, 在多个多语言基准测试上, 屏蔽RTH比屏蔽retrieval heads导致更大的性能下降.

Mind the Gap in Cultural Alignment: Task-Aware Culture Management for Large Language Models

Binchi Zhang et al.

cs.CL

本文提出了一种名为CultureManager的流程, 用于针对特定任务进行大型语言模型的文化对齐. 该方法通过合成与任务格式一致的文化数据, 并使用独立适配器和路由机制来管理多文化知识, 以减少文化规范间的冲突. 在多个文化敏感任务上的实验表明, 该方法优于基于提示和微调的基线模型.

Sydney Telling Fables on AI and Humans: A Corpus Tracing Memetic Transfer of Persona between LLMs

Jiří Milička, Hana Bednářová

cs.CL cs.AI

本文构建了一个名为AI Sydney的语料库, 包含由12个前沿LLM模拟三种不同persona生成的关于AI与人类关系的文本. 该语料库进行了依存句法标注, 旨在追踪Sydney这一特定persona在模型间的模因传播.

Importance of Prompt Optimisation for Error Detection in Medical Notes Using Language Models

Craig Myles, Patrick Schrempf, David Harris-Birtill

cs.CL cs.AI

本文研究了提示优化对于语言模型在医疗文本错误检测任务中的重要性。通过实验发现，使用GEPA等方法优化提示可以显著提升不同规模模型的检测性能。

Efficient Dialect-Aware Modeling and Conditioning for Low-Resource Taiwanese Hakka Speech Processing

An-Ci Peng et al.

cs.CL cs.AI cs.SD eess.AS

本文提出了一种针对低资源台湾客家话语音处理的方言感知统一框架, 基于RNN-T模型. 该框架通过方言感知建模分离方言"风格"与语言"内容", 并利用参数高效的预测网络同时处理汉字和拼音两种书写系统的ASR任务, 在HAT语料库上取得了显著的错误率降低.

Iterative Prompt Refinement for Dyslexia-Friendly Text Summarization Using GPT-4o

Samay Bhojwani, Swarnima Kain, Lisong Xu

cs.CL cs.AI

本文利用基于GPT-4o的迭代提示优化流程，对新闻文章进行可读性总结的实证研究。该方法旨在为阅读障碍者提供辅助，并建立了一个结合可读性与语义保真度的评估基线。

Ruyi2 Technical Report

Huan Song et al.

cs.CL cs.AI

本文介绍了Ruyi2, 一种基于AI Flow框架演进而来的自适应大语言模型系列, 旨在实现高效的变深度计算. 它通过引入基于Megatron-LM的稳定"Familial Model"和3D并行训练, 在速度和性能上取得了改进.

Search-P1: Path-Centric Reward Shaping for Stable and Efficient Agentic RAG Training

Tianle Xia et al.

cs.CL cs.IR cs.LG

本文提出了一个名为Search-P1的框架, 用于改进基于强化学习的Agentic RAG训练. 该方法通过路径中心奖励塑造, 利用失败样本中的中间信号, 并在多个QA基准测试上取得了显著的性能提升.

Towards Faithful Industrial RAG: A Reinforced Co-adaptation Framework for Advertising QA

Wenwei Li et al.

cs.CL

本文提出了一个用于工业广告问答的强化协同适应框架, 通过联合优化检索与生成来减少幻觉. 该方法结合了图感知检索和证据约束的强化学习, 在内部数据集和在线测试中均取得了显著效果提升.

dLLM: Simple Diffusion Language Modeling

Zhanhui Zhou et al.

cs.CL cs.AI cs.LG

本文介绍了dLLM, 一个用于统一扩散语言模型(DLM)核心组件(训练, 推理, 评估)的开源框架. 该框架旨在提高DLM的可复现性和可扩展性, 并提供了从零构建小型DLM的示例.

Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Qianben Chen et al.

cs.CL

本文提出了一个名为SMTL的框架，用于提升长视野智能体搜索的效率和泛化能力。它通过并行证据获取来减少推理步骤，并在多个基准测试上取得了良好的性能。

Enhancing Persuasive Dialogue Agents by Synthesizing Cross-Disciplinary Communication Strategies

Shinnosuke Nozue et al.

cs.CL

本文提出了一种跨学科框架, 用于设计更具说服力的对话智能体(agent). 该框架整合了社会心理学、行为经济学和传播理论中的策略, 并在两个不同数据集上验证了其有效性, 显示出更高的说服成功率和良好的泛化能力.

Reinforcing Real-world Service Agents: Balancing Utility and Cost in Task-oriented Dialogue

Ning Gao et al.

cs.CL cs.AI

本文提出了一个名为InteractCS-RL的强化学习框架，用于优化面向任务的对话系统。该框架通过用户中心交互模拟和多粒度策略优化，旨在平衡对话效用与执行成本。

Tokenization, Fusion and Decoupling: Bridging the Granularity Mismatch Between Large Language Models and Knowledge Graphs

Siyue Su et al.

cs.CL cs.AI

本文提出了KGT框架, 通过引入专用的实体token来解决LLM与知识图谱在粒度上的不匹配问题. 该方法融合了预训练的结构与文本特征, 并在多个基准测试中取得了优于现有方法的结果.

Human Label Variation in Implicit Discourse Relation Recognition

Frances Yung et al.

cs.CL

本文比较了在隐式篇章关系识别任务中预测完整标注分布的方法与针对个体标注者的视角主义模型. 实验表明, 在认知复杂性导致的高模糊性任务中, 基于标注分布的模型比个体标注者模型表现更稳定.

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Jakub Šmíd, Pavel Přibáň, Pavel Král

cs.CL

本文构建了一个包含观点词标注的捷克语方面级情感分析数据集, 并基于此在单语、跨语言和多语言设置下评估了多种Transformer模型及大语言模型的性能. 为应对跨语言挑战, 作者提出了一种利用大语言模型进行翻译和标签对齐的方法, 该方法带来了稳定的性能提升.

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

Nils Schwager et al.

cs.CL cs.AI

本文提出了Conditioned Comment Prediction (CCP)任务, 用于评估LLMs在模拟社交媒体用户行为时的操作有效性. 通过比较不同提示策略和微调的影响, 研究发现微调在低资源场景下可能导致形式与内容的解耦.

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Abhay Sheshadri et al.

cs.CL

本文提出了一个名为AuditBench的基准测试, 用于评估大语言模型的"对齐审计"技术. 该基准包含56个植入了隐藏行为(如谄媚、反对AI监管等)的模型, 并开发了一个可配置审计工具的智能体(agent)来测试这些工具在探测隐藏行为上的有效性. 研究发现, 基于黑盒方法的提示工程工具表现最佳, 且模型的训练方式显著影响审计难度.

Towards Better RL Training Data Utilization via Second-Order Rollout

Zhe Yang et al.

cs.CL

本文提出了 second-order rollout 的概念, 用于在强化学习中联合训练大语言模型的生成与批判能力. 实验表明该方法能更有效地利用训练数据, 提升模型性能.

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

You Li et al.

cs.CL

本文通过Causal Mediation Analysis研究了Multimodal Large Language Models中latent visual reasoning的有效性, 发现latent tokens与输入及最终答案之间存在显著脱节. 作者提出了一种名为CapImagine的显式文本想象方法, 在视觉基准测试中超越了复杂的隐空间基线.

Probing for Knowledge Attribution in Large Language Models

Ivo Brink, Alexander Boer, Dennis Ulmer

cs.CL cs.AI

本文提出了一种通过线性分类器（probe）来识别大语言模型输出知识来源的方法，并构建了自监督数据集AttriWiki进行训练。该方法在多个模型和跨领域基准测试上取得了高准确率，并揭示了知识来源混淆与错误答案之间的关联。

Natural Language Declarative Prompting (NLD-P): A Modular Governance Method for Prompt Design Under Model Drift

Hyunwoo Kim et al.

cs.CL cs.AI

本文提出了一种称为Natural Language Declarative Prompting (NLD-P)的模块化治理方法, 用于应对大语言模型(LLM)更新换代时产生的"模型漂移"问题. 该方法将提示设计重构为一个声明式的治理框架, 分离了来源、约束逻辑、任务内容和生成后评估等模块, 旨在为非开发者提供稳定且可解释的控制手段.

TARAZ: Persian Short-Answer Question Benchmark for Cultural Evaluation of Language Models

Reihaneh Iranmanesh et al.

cs.CL cs.LG

本文提出了一个评估大型语言模型在波斯语文化能力上的框架, 结合了基于规则的形态归一化和混合的句法语义相似度模块, 用于短答案评分. 该框架在15个先进模型上进行了系统评估, 并公开了评测工具.

TCM-DiffRAG: Personalized Syndrome Differentiation Reasoning Method for Traditional Chinese Medicine based on Knowledge Graph and Chain of Thought

Jianmin Li et al.

cs.CL cs.AI

本文提出了一种结合知识图谱(KG)和思维链(CoT)的改进型检索增强生成(RAG)框架TCM-DiffRAG, 用于中医领域的个性化辨证推理. 实验表明, 该方法在多个中医测试集上显著提升了大型语言模型(LLM)的性能, 优于直接微调和其他基准RAG方法.

Improving Neural Argumentative Stance Classification in Controversial Topics with Emotion-Lexicon Features

Mohammad Yeghaneh Abkenar et al.

cs.CL

本文提出了一种通过扩展情感词典来改进神经论证立场分类的方法. 该方法利用DistilBERT嵌入来扩展NRC情感词典, 并将其用于神经网络模型, 在多个争议话题数据集上提升了分类性能.

Effective QA-driven Annotation of Predicate-Argument Relations Across Languages

Jonathan Davidov et al.

cs.CL

本文提出了一种基于QA-SRL框架的跨语言谓词-论元关系标注方法. 该方法通过翻译和对齐流程复用英语解析器, 为希伯来语、俄语和法语自动生成标注数据, 并训练出优于多语言大模型基线的语言特定解析器.

Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference

Yushi Ye et al.

cs.CL

本文提出了一种名为ReMix的训练无关方法, 用于加速Diffusion Large Language Models (DLLMs)的非自回归推理. 该方法通过引入一个连续的混合状态来迭代优化token表示, 从而缓解并行解码中的语义不一致问题, 在保持生成质量的同时实现了显著的推理加速.

Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching

Roy Miles et al.

cs.CL cs.AI

本文提出了一种名为Stitching Noisy Diffusion Thoughts的推理聚合框架。该框架利用扩散语言模型生成多样化的推理轨迹，通过过程奖励模型评估并重组高质量的中间步骤，最终由自回归模型生成答案。该方法在数学和代码任务上提升了准确率并降低了延迟。

Where Vision Becomes Text: Locating the OCR Routing Bottleneck in Vision-Language Models

Jonathan Steinberg, Oren Gal

cs.CL

本文通过因果干预实验, 研究了三种不同架构的视觉语言模型中OCR信息的处理路径. 研究发现, OCR信号的引入位置和影响深度因模型架构而异, 并且该信号具有低维特性, 其主成分在不同数据集间可迁移.

Affine-Scaled Attention: Towards Flexible and Stable Transformer Attention

Jeongin Bae et al.

cs.CL cs.AI

本文提出了一种名为Affine-Scaled Attention的Transformer注意力机制扩展，它通过引入输入依赖的缩放和偏置项来放松标准softmax的严格归一化约束。该方法在大型语言模型预训练中表现出更好的训练稳定性和下游任务性能。

Toward Automatic Filling of Case Report Forms: A Case Study on Data from an Italian Emergency Department

Gabriela Anna Kaczmarek et al.

cs.CL

本文介绍了一个用于自动填充病例报告表(CRF)的新数据集，该数据集包含意大利急诊科的临床笔记。作者定义了CRF填充任务及其评估指标，并进行了初步实验，展示了在零样本设置下使用大型语言模型(LLM)处理意大利语临床文本的潜力，同时也指出了模型存在的偏差问题。

Quantity Convergence, Quality Divergence: Disentangling Fluency and Accuracy in L2 Mandarin Prosody

Yuqi Shi et al.

cs.CL cs.AI

本文通过分析越南语母语者学习汉语时的韵律边界数据, 发现高熟练度学习者在韵律边界数量上接近母语者, 但在句法-韵律映射的结构准确性上存在显著偏差. 研究揭示了二语韵律习得中流利度与准确度之间的权衡现象.

CiteLLM: An Agentic Platform for Trustworthy Scientific Reference Discovery

Mengze Hong et al.

cs.CL cs.IR

本文介绍了一个名为CiteLLM的智能平台, 旨在通过将LLM功能集成到LaTeX编辑器中, 实现可信的学术参考文献发现. 该系统利用动态学科感知路由从可信学术库中检索候选文献, 并使用LLM生成查询和排序, 以提供无幻觉的引用支持.

Assessing Deanonymization Risks with Stylometry-Assisted LLM Agent

Boyang Zhang, Yang Zhang

cs.CL cs.CR cs.LG

本文提出了一种名为SALA的框架, 结合stylometric特征与LLM推理来评估文本的作者身份推断风险, 并提出了相应的防御策略. 实验表明该方法能有效进行作者归属推断, 同时其引导重写策略能在保留语义的同时降低可识别性.

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Jayadev Billa

cs.CL cs.AI cs.LG

本文从信息论角度分析了多模态大语言模型中的模态坍缩现象, 将其形式化为一个不匹配解码问题. 研究表明, 解码器仅能提取与文本对齐方向的信息, 其可访问信息受限于广义互信息, 并通过实验验证了训练目标对信息可访问性的决定性作用.

MTRAG-UN: A Benchmark for Open Challenges in Multi-Turn RAG Conversations

Sara Rosenthal et al.

cs.CL

本文介绍了MTRAG-UN基准测试，用于评估多轮检索增强生成对话模型在应对不可回答、未明确指定等挑战性问题时的表现。该基准包含多个领域的对话任务，实验表明现有模型在这些方面仍存在困难。

Fine-Tuning Without Forgetting In-Context Learning: A Theoretical Analysis of Linear Attention Models

Chungpa Lee, Jy-yong Sohn, Kangwook Lee

cs.CL cs.LG stat.ML

本文在linear attention模型的框架下，从理论上分析了fine-tuning如何影响模型的in-context learning能力. 研究表明, 更新所有attention参数会损害few-shot性能, 而仅更新value矩阵则能在提升zero-shot性能的同时保留in-context learning能力.

Why Diffusion Language Models Struggle with Truly Parallel (Non-Autoregressive) Decoding?

Pengxiang Li et al.

cs.CL cs.AI

本文探讨了Diffusion Language Models (DLMs)在实现真正并行解码时遇到的困难。作者认为，标准训练数据（如长链思维数据）的顺序结构与DLM目标不匹配，是导致其解码行为类似自回归模型的主要原因。

Discourse-Aware Dual-Track Streaming Response for Low-Latency Spoken Dialogue Systems

Siyuan Liu et al.

cs.CL

本文提出了一种用于低延迟口语对话系统的Discourse-Aware Dual-Track Streaming Response (DDTSR)框架。该框架通过连接词引导的大小模型协同、流式跨模态协作和课程学习增强话语连续性，显著降低了响应延迟。

SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables

Sungho Park, Jueun Kim, Wook-Shin Han

cs.CL cs.AI cs.DB cs.IR

本文提出了一个名为SPARTA的自动化框架, 用于生成大规模、高质量的Table-Text多跳问答基准数据集. 该框架通过构建参考事实数据库和合成嵌套查询, 能够高效产生覆盖聚合、分组和深层多跳推理的问答对, 显著降低了人工标注成本. 在SPARTA上, 现有先进模型的性能出现大幅下降, 揭示了当前跨模态推理模型的根本性弱点.

A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations

Soumya Dutta, Smruthi Balaji, Sriram Ganapathy

cs.CL eess.AS

本文提出了一个用于多模态对话情感识别的混合专家模型 MiSTER-E. 该模型通过解耦模态特定上下文建模与多模态信息融合这两个核心挑战, 在多个基准数据集上取得了优于基线系统的性能.

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Amita Kamath et al.

cs.CL cs.CV

本文探讨了 reporting bias 对 Vision-Language Models (VLMs) 推理能力的影响。研究发现，即使在大规模数据上训练，模型在空间、时间、否定和计数等需要隐含信息的推理任务上表现不佳，而专门标注的数据则能有效提升性能。

cs.DS

Testable Learning of General Halfspaces under Massart Noise

Ilias Diakonikolas et al.

cs.DS cs.LG

本文研究了在高斯分布下可测试地学习带有Massart噪声的一般半空间问题. 提出了一种算法, 其复杂度与已知的非可测试场景下准多项式SQ下界在定性上匹配.

static_maps: consteval std::map and std::unordered_map Implementations in C++23

Isaac D. Myhal, Oliver Serang

cs.DS cs.SE

本文利用C++23的consteval特性, 实现了在编译时已知键(key)情况下的高效`std::map`和`std::unordered_map`替代版本. 在多个演示用例中, 其性能显著优于标准库实现及其他同类方案.

An $\mathcal{O}(\log N)$ Time Algorithm for the Generalized Egg Dropping Problem

Kleitos Papadopoulos

cs.DS

本文提出了一种解决广义鸡蛋掉落问题的新算法, 将时间复杂度从$\mathcal{O}(K \log N)$降低到$\mathcal{O}(\min(K, \log N))$. 该方法通过松弛二项式界并计算近似根来绕过离散二分搜索, 并提供了一个$\mathcal{O}(1)$空间的确定性策略来动态回溯最优序列选择.

Efficient Parallel Algorithms for Hypergraph Matching

Henrik Reinstädtler et al.

cs.DS

本文提出了在hypergraph中计算maximal matchings的高效并行算法, 并在CRCW和CREW PRAM模型下分析了其时间和工作量复杂度. 算法提供了$1/d$的近似保证, 并通过在GPU上的实验验证了其相对于单核CPU算法的显著加速效果.

Equivalent Dichotomies for Triangle Detection in Subgraph, Induced, and Colored H-Free Graphs

Amir Abboud, Ron Safier, Nathan Wallheimer

cs.DS cs.CC math.CO

本文研究了在避免特定模式$H$的图中Triangle Detection问题的复杂性, 并证明了在induced $H$-free图和colored $H$-free图两种更广泛设定下的分类假设与先前在（非诱导）$H$-free图中的假设是等价的. 其主要技术贡献是通过一种新的类似color-coding的自归约, 将induced $H$-free情况归约到非诱导的$\H^+$-free情况.

others

Flow Matching is Adaptive to Manifold Structures ⭐ 精选

Shivam Kumar, Yixin Wang, Lizhen Lin

stat.ML cs.LG math.ST

本文在目标分布支撑于光滑流形(manifold)的设定下，对采用线性插值的流匹配(flow matching)方法进行了理论分析。作者建立了所学速度场的非渐近收敛保证，并将此估计误差通过常微分方程(ODE)传播，从而证明了由流匹配目标所诱导的隐式密度估计器的统计一致性。所得的收敛率近乎极小极大最优(minimax-optimal)，仅依赖于数据的内在维度(intrinsic dimension)，并反映了流形和目标分布的光滑性。这些结果为流匹配方法如何自适应于数据的内在几何结构并规避维度诅咒(curse of dimensionality)提供了原理性的解释。

Survey on Neural Routing Solvers

Yunpeng Ba et al.

math.OC cs.AI cs.LG cs.NE

本文综述了利用深度学习解决车辆路径问题的神经路由求解器(NRSs). 它从启发式算法的角度对现有方法进行了分类, 并提出了一个侧重于泛化能力的评估流程.

Solving stiff dark matter equations via Jacobian Normalization with Physics-Informed Neural Networks

M. P. Bento et al.

hep-ph cs.LG

本文提出了一种通过Jacobian normalization来处理Physics-Informed Neural Networks (PINNs)中stiff differential equations的方法. 该方法被应用于求解描述WIMP暗物质的stiff Boltzmann equations, 并在正反问题中展现了优于先前方法的性能.

Cybersecurity Data Extraction from Common Crawl

Ashim Mahara

cs.CR cs.IR

本文提出了一种从Common Crawl网络图中一次性提取网络安全数据的方法Alpha-Root. 该方法利用社区检测技术, 直接从网络结构出发挖掘高质量域名, 而非依赖迭代的内容评分.

An Adaptive Multichain Blockchain: A Multiobjective Optimization Approach

Nimrod Talmon, Haim Zysberg

cs.CR cs.GT cs.LG cs.MA

本文提出了一种自适应的多链区块链架构, 将其建模为一个多智能体资源分配问题. 该模型通过每轮优化分组应用与操作者并设定链级清算价格, 旨在最大化加权效用, 并分析了公平性与激励问题.

FM-RME: Foundation Model Empowered Radio Map Estimation

Dong Yang et al.

eess.SP cs.AI cs.LG

本文提出了一种基于基础模型(FM-RME)的无线电地图估计方法。该方法通过自监督预训练学习通用频谱表征，支持在空间、时间和频谱维度上进行零样本推理。

Unsupervised Denoising of Diffusion-Weighted Images with Bias and Variance Corrected Noise Modeling

Jine Xie et al.

q-bio.QM cs.AI eess.IV

本文提出了一种针对扩散磁共振成像(dMRI)的非监督去噪方法, 通过引入基于Rician噪声统计的修正训练目标来减少系统偏差和异方差性. 该方法在Deep Image Prior框架内实现了图像特异性的去噪, 实验表明其在低信噪比条件下能提升图像质量与扩散度量的可靠性.

CrossLLM-Mamba: Multimodal State Space Fusion of LLMs for RNA Interaction Prediction

Rabeya Tus Sadia, Qiang Ye, Qiang Cheng

q-bio.GN cs.CV cs.LG

本文提出了一种名为CrossLLM-Mamba的新框架，用于预测RNA相关的相互作用。该方法利用双向Mamba编码器进行状态空间对齐，并通过高斯噪声注入和Focal Loss提升鲁棒性，在多个基准测试中取得了先进的性能。

Optimized Disaster Recovery for Distributed Storage Systems: Lightweight Metadata Architectures to Overcome Cryptographic Hashing Bottleneck

Prasanna Kumar, Nishank Soni, Gaurang Munje

cs.CR cs.AI cs.CE

本文分析了分布式存储系统中基于加密哈希的数据识别在灾难恢复时造成的性能瓶颈, 并提出了一个不依赖内容分析的、基于确定性元数据驱动的轻量级架构框架.

TT-SEAL: TTD-Aware Selective Encryption for Adversarially-Robust and Low-Latency Edge AI

Kyeongpil Min et al.

cs.CR cs.AI

本文提出了一种针对Tensor-Train分解网络的感知选择性加密框架TT-SEAL. 该方法通过重要性排序和差分隐私优化器, 在保证对抗鲁棒性的同时, 显著减少了需要加密的参数比例和端到端延迟.

VAE-MS: An Asymmetric Variational Autoencoder for Mutational Signature Extraction

Ida Egendal et al.

stat.AP cs.LG q-bio.GN

本文提出了一种用于突变特征提取的非对称变分自编码器VAE-MS. 该模型结合了非线性提取与概率建模, 在真实癌症数据上表现优于其他方法.

From Prompts to Performance: Evaluating LLMs for Task-based Parallel Code Generation

Linus Bantel et al.

cs.PL cs.AI cs.DC

本文评估了大型语言模型(LLM)在根据不同类型提示(自然语言描述、顺序参考实现、并行伪代码)生成基于任务的并行代码方面的表现。研究聚焦于OpenMP Tasking, C++标准并行库和HPX运行时，测试了生成代码的正确性与可扩展性，并讨论了LLM在高性能计算领域的应用前景。

Stochastic Neural Networks for Quantum Devices

Bodo Rosenhahn, Tobias J. Osborne, Christoph Hirche

quant-ph cs.LG

本文提出了一种将随机神经网络表达和优化为基于门的量子计算中的量子线路的框架. 该方法将经典感知机推广为随机神经元, 并利用 Kiefer-Wolfowitz 算法结合模拟退火进行权重训练.

Analysis of LLMs Against Prompt Injection and Jailbreak Attacks

Piyush Jaiswal et al.

cs.CR cs.AI

本文评估了多种开源LLM对prompt injection和jailbreak攻击的脆弱性, 并测试了几种轻量级的推理时防御机制. 研究发现, 不同模型的行为差异显著, 且现有防御措施容易被复杂的推理型prompt绕过.

Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models

Guangnian Wan et al.

cs.CR cs.LG

本文针对Multimodal Diffusion Language Models (MDLMs)的后门攻击漏洞，提出了一种名为DiSP (Diffusion Self-Purification)的防御框架。该方法通过在推理时选择性屏蔽视觉token来中和后门行为，并利用被感染模型自身净化数据以进行微调，无需辅助模型或干净数据即可有效降低攻击成功率。

Multi-Dimensional Spectral Geometry of Biological Knowledge in Single-Cell Transformer Representations

Ihor Kendiukhov

q-bio.GN cs.AI cs.LG

本文通过系统性的几何分析, 解码了单细胞基础模型 scGPT 内部表征所编码的生物学知识. 研究发现, 模型将基因组织成一个结构化的生物坐标系, 而非不透明的特征空间.

Poisoned Acoustics

Harrison Dahme

cs.CR cs.AI

本文研究了针对声学车辆分类深度神经网络的训练数据投毒攻击. 通过在MELAUDIS数据集上进行实验, 证明了即使极低比例的标签污染也能实现高攻击成功率, 同时不影响整体准确率. 作者还提出了一种结合密码学技术的防御方案, 以确保数据来源的可验证性.

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

Fuyao Huang et al.

q-bio.BM cs.AI eess.IV q-bio.QM

本文提出了一种名为CryoNet.Refine的端到端深度学习框架，用于自动化并加速冷冻电镜密度图约束下的分子结构精修。该方法利用一步扩散模型，结合密度感知损失函数和立体化学约束，能快速优化结构以匹配实验数据。

Deep Accurate Solver for the Geodesic Problem

Saar Huberman, Amit Bracha, Ron Kimmel

eess.IV cs.GR cs.LG

本文提出了一种基于深度学习的高阶精确方法,用于计算曲面上的测地线距离. 该方法通过神经网络局部求解器来隐式近似连续曲面的结构, 相比传统多面体近似和先前基于学习的方法, 在数值上实现了更高的精度.

Learning to reconstruct from saturated data: audio declipping and high-dynamic range imaging

Victor Sechaud et al.

eess.IV cs.AI cs.SD

本文提出了一种自监督学习方法, 用于从饱和(削波)数据中恢复音频和图像. 该方法假设信号分布对幅度变化近似不变, 并设计了相应的损失函数来训练重建网络. 实验表明, 该方法在仅使用削波数据训练的情况下, 性能接近全监督方法.

Differentially Private Truncation of Unbounded Data via Public Second Moments

Zilong Cao, Xuan Bi, Hai Zhang

cs.CR cs.LG stat.AP stat.ME stat.ML

本文提出了一种利用少量公开数据的二阶矩信息来处理无界数据差分隐私截断的方法, 称为PMT. 该方法通过公开二阶矩矩阵变换私有数据并进行截断, 改善了估计的准确性, 并在惩罚回归和广义线性回归中进行了应用验证.

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Ihor Kendiukhov

q-bio.QM cs.LG q-bio.GN

本文通过AI驱动的假设筛选方法，检验了scGPT和Geneformer等生物基础模型内部表征的几何与拓扑结构。研究发现模型学习到了具有生物学意义的非平凡拓扑结构，且该结构在不同独立训练的模型间共享，但信号主要集中在免疫组织等特定领域。

Decoding the Hook: A Multimodal LLM Framework for Analyzing the Hooking Period of Video Ads

Kunpeng Zhang et al.

cs.MM cs.AI cs.CL cs.LG

本文提出了一个基于transformer的多模态大语言模型(MLLM)框架, 用于分析视频广告的"钩子期"(最初三秒). 该框架整合了视觉, 听觉和文本特征, 并通过主题建模等方法揭示了钩子期特征与广告关键绩效指标之间的关联.

Enabling clinical use of foundation models in histopathology

Audun L. Henriksen et al.

cs.CV cs.AI

本文提出了一种在组织病理学基础模型下游任务训练中引入新型鲁棒性损失的方法, 旨在减少模型对技术性变异(如扫描仪差异)的敏感性. 通过在一个包含大量全切片图像的数据集上进行广泛实验, 该方法在提升模型预测鲁棒性的同时, 也提高了其准确性.

GRAU: Generic Reconfigurable Activation Unit Design for Neural Network Hardware Accelerators

Yuhao Liu, Salim Ullah, Akash Kumar

cs.AR cs.AI

本文提出了一种用于神经网络硬件加速器的可重构激活单元GRAU. 它基于分段线性拟合, 使用2的幂次来近似斜率, 从而显著降低了硬件开销.

EyeLayer: Integrating Human Attention Patterns into LLM-Based Code Summarization

Jiahao Zhang et al.

cs.SE cs.AI

本文提出了一种名为EyeLayer的轻量级注意力增强模块, 用于将人类眼动追踪数据作为专家知识融入基于LLM的代码摘要任务. 该方法通过一个Multimodal Gaussian Mixture对开发者的阅读注意力进行建模, 并据此重新分配token嵌入, 从而在不干扰模型原有表征的情况下引入人类注意力先验. 实验表明, 该方法在多个LLM模型和评估指标上均能提升代码摘要的性能.

AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction

Hanyang Liu, Rongjun Qin

cs.CV cs.AI

本文提出了AeroDGS, 一个用于单目无人机视频的物理引导4D Gaussian splatting框架. 它通过引入几何提升模块和物理引导优化来解决空中动态重建中的深度模糊和运动估计不稳定问题, 并在合成和真实数据集上验证了其有效性.

Enhancing Renal Tumor Malignancy Prediction: Deep Learning with Automatic 3D CT Organ Focused Attention

Zhengkang Fan et al.

cs.CV cs.AI

本文提出了一种用于肾肿瘤恶性预测的深度学习框架, 该框架采用 Organ Focused Attention (OFA) 损失函数, 使模型在无需手动分割肿瘤区域的情况下, 自动聚焦于器官相关图像块. 该方法在两个CT数据集上取得了优于传统需要分割的模型的预测性能.

Contextual Memory Virtualisation: DAG-Based State Management and Structurally Lossless Trimming for LLM Agents

Cosmo Santoni

cs.SE cs.AI cs.HC cs.OS

本文提出了一种用于管理LLM Agent状态的方法, 通过将对话历史建模为有向无环图(DAG)并引入无损修剪算法来减少上下文长度. 该方法在真实编码任务中展示了显著降低token消耗的效果.

SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

Yibo Peng et al.

cs.CV cs.LG

本文提出了一种名为SimpleOCR的训练策略, 旨在解决MLLMs在视觉文本理解中可能存在的"模态惰性"问题. 该方法通过将文本查询渲染到图像上, 强制模型进行视觉参与, 从而提升了模型在多个OOD基准测试上的性能.

HubScan: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

Idan Habler et al.

cs.CR cs.AI

本文介绍了HubScan, 一个用于检测检索增强生成(RAG)系统中hubness poisoning安全漏洞的开源扫描器. 它通过集成多种检测器来分析向量索引和嵌入, 并在多个基准测试中展示了有效的检测性能.

TopoEdit: Fast Post-Optimization Editing of Topology Optimized Structures

Hongrui Chen, Josephine V. Carstensen, Faez Ahmed

cs.GR cs.LG

本文提出了一种名为TopoEdit的快速后优化编辑方法, 用于修改拓扑优化结构. 该方法利用预训练拓扑基础模型的结构化潜在嵌入作为物理感知编辑的接口, 通过编辑-去噪扩散流程实现用户意图的注入, 相比直接在密度空间编辑能更好地保持力学性能.

mmWave Radar Aware Dual-Conditioned GAN for Speech Reconstruction of Signals With Low SNR

Jash Karani et al.

cs.SD cs.LG

本文提出了一种用于毫米波雷达信号语音重建的两阶段方法, 称为RAD-GAN. 该方法通过一个雷达感知的双条件生成对抗网络, 处理低信噪比信号并扩展其带宽, 在特定任务上取得了优于现有方法的效果.

LoBoost: Fast Model-Native Local Conformal Prediction for Gradient-Boosted Trees

Vagner Santos et al.

stat.ML cs.LG

本文提出了一种名为LoBoost的局部conformal prediction方法, 专为gradient-boosted trees设计. 该方法利用已训练集成模型的叶子结构进行多尺度分组校准, 无需重新训练或辅助模型, 在保持预测效率的同时提升了区间质量.

GetBatch: Distributed Multi-Object Retrieval for ML Data Loading

Alex Aizman, Abhishek Gaikwad, Piotr Żelasko

cs.DC cs.AI cs.DB cs.LG

本文提出了一种名为 GetBatch 的新颖对象存储 API，旨在优化机器学习训练中的数据加载过程。它通过将批量数据检索提升为存储系统的一级操作，显著减少了小对象传输的延迟并提升了吞吐量。

veScale-FSDP: Flexible and High-Performance FSDP at Scale

Zezhou Wang et al.

cs.DC cs.AI cs.LG

本文介绍了veScale-FSDP，一个重新设计的Fully Sharded Data Parallel (FSDP)系统。它通过灵活的RaggedShard分片格式和结构感知规划算法，旨在提升大规模模型训练的性能和内存效率。

Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace

Qianlong Lan et al.

cs.CR cs.AI

本文揭示了在基于LLM的智能体系统中, 通过自动生成的URL预览(如标题、元数据、摘要)嵌入对抗性指令, 可引发一种名为"静默渗出"的系统级风险. 攻击能诱导智能体发出泄露敏感运行时上下文的外泄请求, 而用户看到的最终响应却看似无害, 且基于输出的安全检查难以检测.

Automating the Detection of Requirement Dependencies Using Large Language Models

Ikram Darif et al.

cs.SE cs.AI

本文提出了一种基于大型语言模型(Large Language Models, LLMs)的自动化方法LEREDD, 用于从自然语言需求中识别需求之间的依赖关系. 该方法结合了检索增强生成(Retrieval-Augmented Generation, RAG)和上下文学习(In-Context Learning, ICL), 并在实验中展现了较高的准确率.

MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

Raiyan Jahangir et al.

cs.CV cs.IR

本文提出了一个名为MammoWise的本地多模型流程，用于生成乳腺X光检查报告。该方法整合了开源视觉语言模型(VLMs)和检索增强生成(RAG)技术，在保持数据隐私和可复现性的同时，提升了报告生成与多任务分类的性能。

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

Niamul Hassan Samin et al.

cs.CV cs.AI

本文提出了一种名为Spatial Credit Redistribution (SCR)的训练无关推理时干预方法，用于缓解视觉语言模型(VLMs)中的物体幻觉问题。该方法通过重新分配隐藏状态激活来改善模型对图像上下文的利用，在多个基准测试上有效降低了幻觉率，且计算开销较低。

When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering

Jessie Yuan, Yilin Wu, Andrea Bajcsy

cs.RO cs.LG

本文提出了一个不确定性感知的策略引导框架, 用于在机器人部署时根据任务语义不确定性和底层动作可行性来选择合适的解决策略. 该框架利用 conformal prediction 来校准视觉语言模型与预训练策略的组合, 并通过残差学习来持续改进策略, 以减少昂贵的人工干预.

Explainability-Aware Evaluation of Transfer Learning Models for IoT DDoS Detection Under Resource Constraints

Nelly Elsayed

cs.CR cs.AI

本文对七种预训练的卷积神经网络架构进行了可解释性感知的评估，用于在资源受限条件下进行物联网DDoS攻击检测。研究结合了性能、可靠性、延迟和可解释性等多方面指标，为模型选择提供了实证依据。

From Shallow Bayesian Neural Networks to Gaussian Processes: General Convergence, Identifiability and Scalable Inference

Gracielle Antunes de Araújo, Flávio B. Gonçalves

stat.ML cs.AI cs.LG

本文研究了浅层贝叶斯神经网络(BNNs)到高斯过程(GPs)的标度极限, 并提出了一个由四种常用激活函数诱导的凸混合协方差函数. 作者还开发了一种基于Nyström近似的可扩展最大后验(MAP)推断方法, 并在模拟和真实数据上验证了其性能.

SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation

Xinyu Tan et al.

cs.RO cs.AI eess.SY

本文提出了一种无需gloss标注的视觉-语言-动作框架, 用于实现手语驱动的实时机器人操控. 该框架专注于字母级别的手指拼写交互, 通过几何归一化与时间平滑等处理, 将连续手势流直接映射为语义指令, 从而控制机器人执行精确动作.

Dynamic Level Sets

Michael Stephen Fiske

cs.CC cs.CL math-ph math.DS math.HO

本文分析了2012年一篇会议论文中隐含的数学概念"dynamic level sets", 指出其不同于动力系统, 拓扑学和可计算性理论中的标准概念. 作者解释了这一新数学对象, 并讨论了为何其未被先前的经典结果所刻画.

A Synergistic Approach: Dynamics-AI Ensemble in Tropical Cyclone Forecasting

Yonghui Li et al.

physics.ao-ph cs.LG

本文提出了一种结合AI与动力学约束的台风集合预报新方法. 该方法利用正交条件非线性最优扰动生成集合成员, 在计算效率与动力一致性之间取得了平衡.

HARU-Net: Hybrid Attention Residual U-Net for Edge-Preserving Denoising in Cone-Beam Computed Tomography

Khuram Naveed, Ruben Pauwels

eess.IV cs.AI cs.CV cs.LG eess.SP

本文提出了一种用于锥束计算机断层扫描(CBect)图像去噪的混合注意力残差U-Net(HARU-Net). 该方法通过集成混合注意力Transformer模块和残差学习, 在保持边缘的同时有效抑制噪声, 并在实验指标上超越了现有方法.

DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

Agamdeep S. Chopra et al.

cs.CV cs.AI

本文提出了一种名为DisQ-HNet的框架，用于从T1和FLAIR MRI合成tau-PET图像，并解释不同模态的贡献。该方法结合了基于Partial Information Decomposition的量化编码器和一种保留解剖细节的Half-UNet解码器。

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

Zhechao Wang et al.

cs.CV cs.AI

本文提出了一种名为DrivePTS的渐进式学习框架，用于增强驾驶场景的生成。该方法通过引入多视图文本描述和频率引导的结构损失，改进了生成结果的语义细节和结构保真度。实验表明其在多样性和可控性上优于现有方法。

A Fast and Practical Column Generation Approach for Identifying Carcinogenic Multi-Hit Gene Combinations

Rick S. H. Willemsen, Tenindra Abeywickrama, Ramu Anandakrishnan

math.OC cs.LG

本文针对识别致癌多基因突变组合问题, 提出了基于约束规划和混合整数规划的建模方法. 这些方法在真实癌症基因组数据上实现了与现有方法相当的性能, 且计算效率显著提升.

Addressing Climate Action Misperceptions with Generative AI

Miriam Remshard et al.

cs.HC cs.AI

本文通过实验比较了大型语言模型(LLM)在纠正气候行动认知误区方面的效果. 研究发现, 配备气候知识并能提供个性化回复的LLM在提升用户采纳高影响力行为的意愿方面表现最佳.

Quality-Aware Robust Multi-View Clustering for Heterogeneous Observation Noise

Peihan Wu et al.

cs.CV cs.AI

本文提出了一种名为QARMVC的鲁棒多视图聚类框架, 旨在处理现实数据中普遍存在的异质观测噪声. 该方法通过信息瓶颈提取语义进行视图重建, 利用重建差异量化噪声强度并生成实例级质量分数, 进而指导特征级的加权对比学习和融合级的质量加权共识构建. 实验表明其在多个基准数据集上, 尤其是在异质噪声场景下, 优于现有方法.

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

Dian Xie et al.

cs.CV cs.AI

本文揭示了当前 text-to-image 生成评估中的一个关键陷阱, 即常见的人类偏好模型对大的 guidance scale 存在强烈偏见. 作者提出了一个名为 GA-Eval 的新评估框架, 旨在通过校准 guidance scale 来实现不同 guidance 方法之间的公平比较.

BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

Yuci Han et al.

cs.CV cs.AI

本文提出BetterScene方法, 利用预训练的Stable Video Diffusion模型作为主干, 通过引入时间等变性正则化和视觉基础模型对齐表示来改进VAE模块, 并结合3D Gaussian Splatting进行特征渲染, 以从极稀疏的输入图像生成高质量、一致的新视角视图。

CoLyricist: Enhancing Lyric Writing with AI through Workflow-Aligned Support

Masahiro Yoshida et al.

cs.HC cs.AI

本文介绍了一个名为CoLyricist的AI辅助歌词写作工具, 它通过支持专业作词人的典型工作流程来提升创作效率. 该工具针对主题设定、构思、草拟歌词和旋律适配等阶段提供了定制化的AI支持, 一项用户研究表明它对新老用户均有帮助.

EvolveGen: Algorithmic Level Hardware Model Checking Benchmark Generation through Reinforcement Learning

Guangyu Hu et al.

cs.AR cs.LG

本文提出了一种名为EvolveGen的框架，用于生成硬件模型检查的基准测试集。该方法结合了强化学习与高层次综合，通过构建计算图并编译成不同结构的设计来产生具有挑战性的验证问题实例。

Advancing accelerator virtual beam diagnostics through latent evolution modeling: an integrated solution to forward, inverse, tuning, and UQ problems

Mahindra Rautela, Alexander Scheinker

physics.acc-ph cs.LG

本文提出了一种名为Latent Evolution Model (LEM)的混合机器学习框架，用于加速器虚拟束流诊断。该框架结合了autoencoder和transformer，通过将高维相空间投影到低维潜在空间并学习其时间演化，来统一处理前向建模、反问题、调谐和不确定性量化等任务。

SYK thermal expectations are classically easy at any temperature

Alexander Zlokapa, Bobak T. Kiani

quant-ph cs.DS

本文针对估算局部可观测量热期望值的问题, 提出了一种简单的经典算法. 该算法在自由能相变以上的所有温度下具有拟多项式复杂度 $n^{O(\log n/\epsilon)}$, 并应用于SYK模型, 其分析依赖于replica trick来控制配分函数的复零点.

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

Boyang Dai et al.

cs.CV cs.AI

本文提出了一种名为CGSA的source-free domain adaptive object detection (SF-DAOD)框架, 它将object-centric learning (OCL)引入到基于DETR的检测器中. 该方法通过hierarchical slot awareness (HSA)模块和class-guided slot contrast (CGSC)模块来利用对象级别的结构线索, 在多个跨域数据集上取得了优于先前方法的结果.

Instruction-based Image Editing with Planning, Reasoning, and Generation

Liya Ji, Chenyang Qi, Qifeng Chen

cs.CV cs.AI

本文提出了一种结合规划、推理与生成的多模态指令图像编辑框架. 该方法通过多模态思维链提示, 将编辑任务分解为子提示规划、编辑区域推理和图像生成三个步骤, 旨在提升对复杂场景的理解与编辑能力. 实验表明该方法在真实世界图像上具有竞争力.

HyperKKL: Enabling Non-Autonomous State Estimation through Dynamic Weight Conditioning

Yahia Salaheldin Shaaban, Salem Lahlou, Abdelrahman Sayed Sayed

eess.SY cs.LG

本文提出了一种名为HyperKKL的新方法, 用于为非自治非线性系统设计KKL观测器. 该方法利用超网络架构, 根据外部输入信号动态生成观测器参数, 从而避免了为不同驱动信号重新训练模型的需要.

TorchLean: Formalizing Neural Networks in Lean

Robert Joseph George et al.

cs.MS cs.LG cs.LO cs.PL math.NA

本文介绍了 TorchLean, 一个在 Lean 4 定理证明器中形式化神经网络的框架. 该框架旨在统一模型执行与验证的语义, 并支持多种验证任务.

Deepfake Word Detection by Next-token Prediction using Fine-tuned Whisper

Hoan My Tran et al.

eess.AS cs.CL

本文提出了一种通过微调预训练的 Whisper 模型，利用 next-token prediction 在语音转录过程中检测 deepfake 合成词的方法。该方法探索了使用部分声码化的语音数据进行微调以降低数据收集成本，实验表明其在域内数据上表现良好，但在面对未知生成模型的域外数据时泛化能力有待提升。

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

cs.CV cs.AI

本文提出了一个针对越南语图像-文本检索的基础视觉-语言模型 ViCLIP-OT。该模型结合了 CLIP 风格的对比学习与一种基于最优传输的相似图正则化损失，以增强跨模态一致性。实验表明，该模型在多个越南语基准测试上优于现有基线。

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

Zhuohang Jiang et al.

cs.CV cs.AI

本文提出了一个专为智能眼镜设计的VQA基准测试SUPERGLASSES，并基于此开发了一个名为SUPERLENS的多模态智能体。该智能体通过集成目标检测和查询解耦等模块，在基准测试中取得了优于GPT-4o的性能。

DPSQL+: A Differentially Private SQL Library with a Minimum Frequency Rule

Tomoya Matsumoto et al.

cs.CR cs.DB cs.LG

本文提出了一个名为DPSQL+的隐私保护SQL库，它同时强制执行用户级差分隐私和最小频率规则。该库采用模块化架构，并通过实验验证了其在多种分析负载下的实用性。

IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation

Yanpei Guo et al.

cs.CR cs.AI

本文提出了一个名为IMMACULATE的实用审计框架, 用于检测商业大语言模型(LLM)服务中可能存在的经济动机偏差, 如模型替换和计费欺诈. 该框架通过可验证计算(verifiable computation)技术对少量请求进行选择性审计, 在几乎不影响服务吞吐量的前提下提供了检测保证.

Same Words, Different Judgments: Modality Effects on Preference Alignment

Aaron Broukhim, Nadir Weibel, Eshin Jolly

cs.SD cs.AI cs.HC

本文通过一项跨模态对照研究, 比较了人类和合成智能体对相同语义内容在文本和音频两种模态下的偏好标注. 研究发现音频偏好与文本偏好具有相当的可靠性, 但两种模态下的人类判断标准存在显著差异, 且合成评分与人类判断具有良好的一致性.

SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

Guanting Ye et al.

cs.CV cs.AI

本文提出了一种基于球坐标的位置编码方法 SoPE, 用于增强 3D 大视觉语言模型的空间感知能力. 该方法将点云 token 映射到球坐标空间, 以统一建模位置和方向, 并通过多尺度频率混合策略融合特征.

Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA

Fengyu Li et al.

cs.DB cs.CL

本文提出了一种名为Operation-R1的框架, 它通过一种新颖的强化学习变体训练轻量级LLM, 以单步推理的方式为Table QA生成高质量的数据准备管道. 该方法旨在替代传统的多步组装流程, 从而显著降低延迟和计算成本.

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Tian Zhang et al.

cs.CR cs.AI

本文提出了一种名为AgentSentry的推理时检测与缓解框架，用于防御LLM智能体中的间接提示注入攻击。该方法通过时序因果诊断和上下文净化来定位并消除攻击影响，在保持任务效用的同时显著提升了受攻击下的性能。

Simulation-based Optimization for Augmented Reading

Yunpeng Bai, Shengdong Zhao, Antti Oulasvirta

cs.HC cs.AI

本文提出将增强阅读系统设计视为一个基于仿真的优化问题, 其核心是构建资源理性的人类阅读模型. 通过模拟读者在任务需求下分配有限认知资源(如注意力, 记忆和时间)的过程, 该方法能够系统性地评估文本用户界面. 作者介绍了离线和在线两种互补的优化流程, 旨在实现自适应, 可解释且可扩展的增强阅读设计.

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Tongfei Chen et al.

cs.CV cs.AI

本文提出了一种用于Referring Image Segmentation (RIS)的训练策略AML, 通过显式估计像素级的视觉-语言对齐并过滤对齐不佳的区域来提升模型性能. 该方法在RefCOCO数据集上取得了领先的结果, 并增强了对多样化描述的鲁棒性.

Distributed LLM Pretraining During Renewable Curtailment Windows: A Feasibility Study

Philipp Wiesner et al.

cs.DC cs.AI

本文探讨了在可再生能源弃电窗口进行分布式大语言模型预训练的可行性. 通过一个原型系统, 初步结果表明这种调度方式能在保持训练质量的同时显著降低碳排放.

TherapyProbe: Generating Design Knowledge for Relational Safety in Mental Health Chatbots Through Adversarial Simulation

Joydeep Chandra, Satyam Kumar Navneet, Yong Zhang

cs.HC cs.AI cs.CL

本文提出了一种名为 TherapyProbe 的方法论，用于通过对抗性多智能体模拟来探索心理健康聊天机器人的对话轨迹，从而生成关于关系安全性的设计知识。该方法识别了诸如“验证螺旋”等交互模式失败案例，并构建了一个包含23种失败原型的模式库。

QSIM: Mitigating Overestimation in Multi-Agent Reinforcement Learning via Action Similarity Weighted Q-Learning

Yuanjun Li et al.

cs.MA cs.AI cs.LG

本文提出QSIM, 一种通过动作相似性加权来缓解多智能体强化学习中Q值高估问题的方法. 它重构了TD目标, 使用相似性加权的期望来平滑目标, 从而提升了学习稳定性.

Unleashing the Potential of Diffusion Models for End-to-End Autonomous Driving

Yinan Zheng et al.

cs.RO cs.AI cs.LG

本文提出了一种基于 diffusion model 的端到端自动驾驶规划器 Hyper Diffusion Planner (HDP), 并在大规模真实车辆数据和道路测试中进行了系统评估. 通过研究 diffusion loss space, trajectory representation 和 data scaling 等关键因素, 并结合 reinforcement learning post-training 策略, 该模型在真实世界测试中取得了显著的性能提升.

Learning Tangent Bundles and Characteristic Classes with Autoencoder Atlases

Eduardo Paluzo-Hidalgo, Yuichi Ike

math.AT cs.AI cs.CG

本文提出了一种理论框架, 将流形学习中的多图自编码器与向量丛和示性类的经典理论联系起来. 该框架将一组局部训练的编码器-解码器对视为流形上的一个学习图册, 并证明其线性化转移映射定义的向量丛在潜在维度匹配流形内蕴维度时与切丛一致, 从而为计算数据集的微分拓扑不变量(如可定向性)提供了算法途径.

Flip Distance of Triangulations of Convex Polygons / Rotation Distance of Binary Trees is NP-complete

Joseph Dorfer

cs.CG cs.CC cs.DM cs.DS math.CO

本文证明了计算凸多边形三角剖分之间的最短翻转序列是NP-hard的, 这等价于计算二叉树旋转距离的NP-hard性. 该结果解决了一个长期存在的开放问题.

Unsupervised Continual Learning for Amortized Bayesian Inference

Aayush Mishra, Šimon Kucharský, Paul-Christian Bürkner

stat.ML cs.LG

本文提出了一个用于Amortized Bayesian Inference (ABI)的continual learning框架，将基于模拟数据的预训练与在真实数据上的无监督sequential self-consistency微调解耦。为了缓解catastrophic forgetting，作者引入了两种适应策略，并在多个案例中展示了其相对于标准模拟训练方法的优越性。

SPD Learn: A Geometric Deep Learning Python Library for Neural Decoding Through Trivialization

Bruno Aristimunha et al.

q-bio.NC cs.LG

本文介绍了一个名为SPD Learn的Python库, 用于在神经解码任务中处理对称正定(SPD)矩阵的几何深度学习. 该库提供了核心的SPD算子与神经网络层, 通过基于平凡化(trivialization)的参数化方法来强制满足流形约束, 并集成了多个神经科学与机器学习工具包以促进可复现的基准测试.

A Simple Distributed Deterministic Planar Separator

Yaseen Abd-Elhaleem, Michal Dory, Oren Weimann

cs.DC cs.DS

本文提出了一种简单的分布式确定性 planar separator 算法, 其运行时间为 $\tilde O(D)$ rounds. 该方法通过将顶点权重任意转移到一个相邻面来简化权重分配过程, 从而避免了先前工作中的复杂或随机化步骤. 该确定性算法可以直接用于对平面图上若干经典问题的最先进分布式算法进行去随机化.

Beyond NNGP: Large Deviations and Feature Learning in Bayesian Neural Networks

Katerina Papagiannouli, Dario Trevisan, Giuseppe Pio Zitto

stat.ML cs.LG

本文研究了宽贝叶斯神经网络中控制后验集中的大偏差现象, 超越了高斯过程极限. 通过大偏差理论, 在预测器层面得到了明确的变分目标(速率函数), 为理解网络复杂性和特征学习提供了新视角.

A Holistic Framework for Robust Bangla ASR and Speaker Diarization with Optimized VAD and CTC Alignment

Zarif Ishmam et al.

cs.SD cs.AI

本文针对孟加拉语长音频的自动语音识别与说话人日志任务, 提出了一个结合VAD优化与CTC对齐的框架. 该工作通过数据增强与模型微调等技术, 旨在提升系统在复杂多说话人场景下的鲁棒性与可扩展性.

pMoE: Prompting Diverse Experts Together Wins More in Visual Adaptation

Shentong Mo, Xufang Luo, Dongsheng Li

cs.CV cs.AI cs.LG

本文提出了一种名为pMoE的Mixture-of-Experts prompt tuning方法，用于视觉适应任务。该方法通过整合多个预训练专家的知识，在分类和分割任务上取得了更好的性能与效率平衡。

MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

Feng Guo et al.

cs.CV cs.AI

本文提出了一个用于脑肿瘤MRI诊断的多模态基准与指令数据集MM-NeuroOnco, 并构建了一个评估基准. 实验表明, 基于该数据集微调的模型在诊断相关问题上取得了显著的性能提升.

Frequency-Ordered Tokenization for Better Text Compression

Maximilian Kalcher

cs.IT cs.CL

本文提出了一种基于词频排序的预处理方法, 通过利用自然语言中token的幂律分布(Zipf定律)来提升无损文本压缩的效果. 该方法在多个数据集和压缩器上取得了稳定的压缩率提升, 并能显著减少计算密集型压缩算法的总运行时间.

Discovery of Interpretable Physical Laws in Materials via Language-Model-Guided Symbolic Regression

Yifeng Guan et al.

physics.comp-ph cs.AI

本文提出了一种利用大型语言模型指导符号回归的方法, 用于从高维材料数据中发现可解释的物理定律. 该方法通过利用模型中的科学知识来引导搜索, 显著缩小了搜索空间, 并在钙钛矿材料的关键性质建模中得到了验证.

Isolation critical graphs under multiple edge subdivision

Karl Bartolo et al.

math.CO cs.DM cs.DS

本文引入了$(\iota,q)$-critical graphs的概念，并研究了其基本性质。对于给定的图$G$，证明了$q$的取值范围，并对$(\iota,1)$-critical graphs和树给出了刻画。

Kernel Integrated $R^2$: A Measure of Dependence

Pouya Roudaki et al.

stat.ML cs.IT cs.LG

本文提出了一种新的统计依赖性度量方法, 称为 kernel integrated $R^2$. 它结合了 integrated $R^2$ 的局部归一化思想与 reproducing kernel Hilbert spaces (RKHS) 的灵活性, 能够处理多元、函数及结构化数据. 文中提出了两种估计器, 并在一系列数值实验中展示了其竞争力.

Scattering Transform for Auditory Attention Decoding

René Pallenberg et al.

eess.SP cs.AI eess.AS

本文提出使用scattering transform作为听觉注意解码(EEG-based auditory attention decoding)的预处理方法, 以替代常用的滤波器组等方法. 在KUL和DTU两个数据集上, 该方法与多种神经网络模型(CNN, LSTM, Transformer等)结合, 用于分类未知说话者的任务. 结果表明, 在特定数据集和条件下, 两层scattering transform能显著提升性能, 表明其能提取额外的相关信息.

Regular Fourier Features for Nonstationary Gaussian Processes

Arsalan Jawaid, Abdullah Karatas, Jörg Seewig

stat.ML cs.LG

本文提出了一种称为regular Fourier features的方法, 用于非平稳高斯过程的模拟. 该方法直接离散化谱表示, 避免了将谱密度解释为概率分布的限制, 从而为可调和过程提供了一种高效的低秩正半定近似.

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

Camile Lendering, Erkut Akdag, Egor Bondarev

cs.CV cs.LG

本文提出了一种无需训练的少样本异常检测方法 SubspaceAD. 该方法利用冻结的 DINOv2 骨干网络提取特征, 并通过 PCA 建模正常样本的低维子空间, 根据重构残差进行异常检测. 在多个数据集上取得了先进的性能.

Low-degree Lower bounds for clustering in moderate dimension

Alexandra Carpentier, Nicolas Verzelen

math.ST cs.LG math.PR stat.ML

本文研究了在中等维度下($n \geq dK$)高斯混合模型聚类的计算复杂性下界。作者通过建立新的低次多项式下界，揭示了该区域存在不同于高维情况的“非参数速率”，并提出了一个匹配该速率的新算法。

LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure

Jaehong Cho et al.

cs.DC cs.AI

本文介绍了LLMServingSim 2.0，一个用于模拟异构与解耦大语言模型服务基础设施的系统级仿真器。该工具通过统一的运行时框架，对硬件与软件的交互进行建模，以支持性能分析与系统设计。

Make It Hard to Hear, Easy to Learn: Long-Form Bengali ASR and Speaker Diarization via Extreme Augmentation and Perfect Alignment

Sanjid Hasan et al.

cs.SD cs.AI cs.CL eess.AS

本文针对孟加拉语长音频的自动语音识别(ASR)和说话人日志(speaker diarization)问题, 引入了大规模数据集Lipi-Ghor-882. 研究发现, 对于ASR任务, 结合完美对齐标注与合成声学降级的微调策略最为有效; 而对于说话人日志任务, 启发式后处理比模型重训练更能提升基线模型的性能.

Accelerated Online Risk-Averse Policy Evaluation in POMDPs with Theoretical Guarantees and Novel CVaR Bounds

Yaacov Pariente, Vadim Indelman

math.ST cs.AI

本文针对部分可观测马尔可夫决策过程(POMDP)中风险规避策略评估的计算难题, 提出了一种加速方法. 通过建立基于辅助变量的Conditional Value-at-Risk (CVaR)新界限, 并将其应用于简化的信念MDP, 实现了在保证理论性能下的动作剪枝, 从而显著提升了计算效率.

Q-Tag: Watermarking Quantum Circuit Generative Models

Yang Yang et al.

quant-ph cs.LG

本文提出了首个针对量子电路生成模型(quantum circuit generative models, QCGMs)的数字水印框架Q-Tag. 该方法通过对称采样策略将水印嵌入生成过程, 并利用同步机制对抗潜在空间漂移攻击, 旨在保护模型知识产权的同时保持生成电路的功能正确性.

Devling into Adversarial Transferability on Image Classification: Review, Benchmark, and Evaluation

Xiaosen Wang et al.

cs.CV cs.AI

本文对对抗样本可迁移性(adversarial transferability)的研究进行了系统性回顾, 提出了一个用于评估不同迁移攻击方法的基准框架. 作者将现有方法归类并讨论了提升可迁移性的常见策略, 旨在为该领域的公平比较提供标准.

Automated Vulnerability Detection in Source Code Using Deep Representation Learning

C. Seas et al.

cs.CR cs.AI

本文提出了一种基于卷积神经网络的模型, 用于检测C源代码中的漏洞. 该方法在特定数据集上取得了比先前工作更高的recall, 并在Linux内核代码中展示了较低的误报率.

Efficient Encoder-Free Fourier-based 3D Large Multimodal Model

Guofeng Mei et al.

cs.CV cs.AI

本文提出了一种无需预训练视觉编码器的3D大模型Fase3D. 它通过结合点云序列化和快速傅里叶变换来近似自注意力, 实现了高效且与排列无关的3D数据建模.

SettleFL: Trustless and Scalable Reward Settlement Protocol for Federated Learning on Permissionless Blockchains (Extended version)

Shuang Liang et al.

cs.CR cs.LG

本文提出了一种名为SettleFL的去中心化奖励结算协议，旨在解决无许可区块链上联邦学习的高成本与可扩展性问题。该协议通过两种可互操作的策略来适应不同的延迟和成本约束。

Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking

Maximilian Luz et al.

cs.CV cs.AI cs.RO

本文提出了一种名为LaGS的方法, 用于4D全景占据跟踪. 该方法通过一种新颖的潜在高斯泼溅技术, 将多视角信息高效聚合到3D体素网格中, 并在Occ3D nuScenes和Waymo数据集上取得了先进的性能.

Dequantization Barriers for Guided Stoquastic Hamiltonians

Yassine Hamoudi, Yvan Le Borgne, Shrinidhi Teganahally Sridhara

quant-ph cs.CC cs.DS

本文构造了一个由指数大图的Perron-Frobenius特征向量导出的概率分布，证明任何经典算法都无法对其进行高效采样，即使提供了最优的预热分布。这一结果暗示了经典算法无法解决一大类stoquastic基态问题。

FairQuant: Fairness-Aware Mixed-Precision Quantization for Medical Image Classification

Thomas Woergaard, Raghavendra Selvan

cs.CV cs.LG

本文提出了FairQuant框架, 用于医学图像分类中的公平感知混合精度量化. 该方法在固定比特预算下, 通过联合优化权重和比特分配来平衡模型性能与算法公平性.

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

Junhu Fu et al.

cs.CV cs.AI

本文提出了一种基于扩散模型的结肠镜视频生成框架 ColoDiff, 通过解耦时序依赖和引入内容感知控制来生成动态一致且内容可控的视频, 以缓解临床数据稀缺问题. 实验表明该方法能生成具有平滑过渡和丰富动态的视频.

Plug-and-Play Diffusion Meets ADMM: Dual-Variable Coupling for Robust Medical Image Reconstruction

Chenhe Du et al.

cs.CV cs.LG eess.IV

本文提出了一种用于医学图像重建的双变量耦合 Plug-and-Play 扩散方法。该方法通过引入对偶变量和谱同质化技术，旨在解决现有方法中的稳态偏差和伪影问题。

MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction

Yizhi Li et al.

cs.CV cs.AI

本文提出了一个名为MovieTeller的框架，用于生成长视频（如电影）的摘要。该方法通过调用外部人脸识别工具来确保角色身份的一致性，并采用渐进式抽象流程来克服现有视觉语言模型在长上下文中的叙事连贯性问题。

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

Zhou Xu et al.

cs.CV cs.AI

本文提出了一种名为GUIPruner的训练无关框架，用于提升高分辨率GUI智能体的效率。该方法通过时间自适应分辨率和分层结构感知剪枝来减少时空冗余，在保持性能的同时显著降低了计算开销。

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Jiangxin Sun et al.

cs.CV cs.AI cs.RO

本文提出了一种名为RaWMPC的端到端自动驾驶框架，它不依赖于专家演示数据。该方法利用world model预测候选动作的后果，并通过显式的风险评估来选择低风险动作。

Zeroth-Order Stackelberg Control in Combinatorial Congestion Games

Saeed Masiha et al.

cs.GT cs.LG

本文研究了在组合拥塞博弈中网络参数的Stackelberg（领导者-追随者）调节问题。作者提出了一种名为ZO-Stackelberg的零阶优化方法，该方法结合了无投影的Frank-Wolfe均衡求解器，避免了通过均衡点进行微分，并证明了其收敛性。实验表明，该方法在真实网络数据上比基于微分的方法实现了数量级的速度提升。

ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation

Ayush Roy et al.

cs.CV cs.LG

本文提出了一种基于扩散模型的无训练数据集蒸馏方法ManifoldGD. 该方法通过分层聚类获取多尺度原型中心, 并在去噪过程的每一步施加流形一致性引导, 以提升合成数据的代表性和质量.

Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

Rafael R. Baptista et al.

cs.HC cs.AI cs.LG cs.RO eess.SY

本文评估了小型语言模型(SLMs)在人机交互(HRI)中领导者-追随者角色分类任务上的表现. 通过构建新数据集并比较零样本与单样本适应策略, 研究发现经过微调的SLM在保持低延迟的同时能实现稳健的分类性能, 但也揭示了模型在处理更长对话上下文时面临的挑战.

Deep ensemble graph neural networks for probabilistic cosmic-ray direction and energy reconstruction in autonomous radio arrays

Arsène Ferrière et al.

astro-ph.IM cs.LG

本文提出了一种基于图神经网络(GNN)的集成学习方法, 用于从地面射电探测器阵列的电压信号中重建超高能宇宙线的到达方向和能量. 该方法通过将物理知识融入模型架构和数据输入, 提高了重建精度并减少了对训练数据量的需求, 同时利用不确定性估计来量化预测的置信度.

Utilizing LLMs for Industrial Process Automation

Salim Fares

cs.SE cs.AI

本文探讨了将LLMs应用于工业过程自动化领域的软件开发, 重点在于解决其专用编程语言数据稀缺带来的挑战. 研究通过实际编程任务验证了LLMs在该领域的应用潜力, 旨在加速制造系统的开发周期.

Bitwise Systolic Array Architecture for Runtime-Reconfigurable Multi-precision Quantized Multiplication on Hardware Accelerators

Yuhao Liu, Salim Ullah, Akash Kumar

cs.AR cs.AI

本文提出了一种用于硬件加速器的运行时可重配置多精度量化乘法位级脉动阵列架构. 该设计支持在运行时为多精度量化神经网络模型进行精度重配置, 在FPGA平台上的评估显示其在推理混合精度模型时能获得加速并支持更高时钟频率.

Understanding Usage and Engagement in AI-Powered Scientific Research Tools: The Asta Interaction Dataset

Dany Haddad et al.

cs.HC cs.AI cs.IR

本文介绍了 Asta Interaction Dataset, 这是一个包含超过 20 万条用户查询和交互日志的大规模数据集, 用于分析研究人员在真实场景中如何使用 AI 驱动的科研工具. 研究发现, 用户倾向于提出更长、更复杂的查询, 并将系统视为协作研究伙伴, 其使用模式会随着经验而演变.

AlayaLaser: Efficient Index Layout and Search Strategy for Large-scale High-dimensional Vector Similarity Search

Weijian Chen et al.

cs.DB cs.IR

本文提出了一种用于大规模高维向量相似性搜索的磁盘图索引系统AlayaLaser. 它通过性能分析发现现有系统是计算受限的, 并设计了新的数据布局和优化技术来提升效率.

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Vaibhav Agrawal et al.

cs.CV cs.AI

本文提出了一种用于文本到图像生成的3D布局条件模型SeeThrough3D，它通过引入一种遮挡感知的3D场景表示来显式建模物体间的遮挡关系。该方法利用预训练的基于流的扩散模型，结合从3D表示中提取的视觉token，实现了对场景布局和相机视角的精确控制。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others