bluearXiv-ai - 2026-03-01

📄 所有论文 ↑ 回顶部

cs.LG

NoRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion ⭐ 精选

Hung-Hsuan Chen

cs.LG cs.AI cs.CL

本文提出了NoRA (Non-linear Rank Adaptation), 一种用于参数高效微调(PEFT)的非线性低秩适配器. 它通过引入SiLU门控和结构化dropout来扩展参数流形的表达能力, 从而突破了传统LoRA方法在复杂推理任务中存在的"线性天花板"限制. 在SlimOrca和数学推理基准上的实验表明, NoRA在远低于LoRA的秩(rank)下即可达到更优的性能, 其机制分析(SVD)证实了该方法能有效激活奇异值谱的尾部, 防止线性方法中常见的秩塌缩(rank collapse).

Residual Koopman Spectral Profiling for Predicting and Preventing Transformer Training Instability ⭐ 精选

Bum Jun Kim et al.

cs.LG cs.AI

本文提出了一种名为Residual Koopman Spectral Profiling (RKSP)的新方法，用于在Transformer模型训练开始前预测其不稳定性风险。该方法通过单次前向传播，利用白化动态模式分解(whitened dynamic mode decomposition)分析层间残差快照，提取Koopman谱特征，并以近单位圆谱质量(near-unit spectral mass)作为核心诊断指标来量化不稳定性。为了主动预防训练发散，作者进一步提出了Koopman Spectral Shaping (KSS)技术，在训练过程中重塑谱分布。实验表明，RKSP在预测多种架构（包括GPT-2、LLaMA-2 7B、MoE、Mamba等）的训练发散上表现出色（AUROC达0.995），而KSS能在高学习率等挑战性设置下有效降低发散率并允许使用更高的学习率。

Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

Sweta Karlekar et al.

cs.LG cs.AI cs.CL stat.ML

本文提出了一种名为 Duel-Evolve 的进化优化算法，用于在测试时改进大型语言模型(LLM)的输出。该方法利用 LLM 自身生成的候选输出之间的成对偏好比较来引导搜索，无需外部奖励模型或真实标签。实验表明，该方法在数学和代码生成基准测试上显著优于现有方法。

To Deceive is to Teach? Forging Perceptual Robustness via Adversarial Reinforcement Learning

Yicheng Bao, Xuhong Wang, Xin Tan

cs.LG cs.AI

本文提出了一种通过对抗性自博弈训练提升多模态大语言模型感知鲁棒性的方法. 该方法构建了一个图像编辑攻击者与模型防御者共同进化的框架, 通过生成动态的对抗样本来增强模型在复杂视觉场景下的性能.

Patient-Centered, Graph-Augmented Artificial Intelligence-Enabled Passive Surveillance for Early Stroke Risk Detection in High-Risk Individuals

Jiyeong Kim et al.

cs.LG

本文开发了一个用于早期中风风险检测的被动监测系统。该系统基于患者自述症状，利用症状分类法和机器学习流程识别与后续中风相关的症状模式，并在电子健康记录模拟中实现了高特异性的筛查。

Improving Spatial Allocation for Energy System Coupling with Graph Neural Networks

Xuanhao Mu et al.

cs.LG eess.SY

本文提出了一种使用自监督异构图神经网络的方法, 用于改进能源系统耦合中空间分辨率不匹配模型的分配问题. 该方法通过整合多种地理特征为每个网格点生成物理意义明确的权重, 从而超越了传统仅基于地理邻近性的Voronoi图分配方法.

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

Alex Morehead et al.

cs.LG cond-mat.mtrl-sci cs.AI

本文提出了一个名为Zatom-1的多模态流匹配基础模型，用于统一3D分子和材料的生成与预测任务。该模型通过联合建模离散原子类型和连续3D几何结构，在多个基准测试中取得了与专用基线相当或更优的性能。

Causal Direction from Convergence Time: Faster Training in the True Causal Direction

Abdulrahman Tamim

cs.LG cs.AI

本文提出了一种基于优化动态的因果方向识别方法 CCA, 通过比较两个方向神经网络的训练收敛速度来推断因果方向. 在加性噪声模型等假设下, 理论分析表明反方向模型存在更高的不可约损失和不可分离的梯度噪声, 导致其收敛更慢.

Deep Sequence Modeling with Quantum Dynamics: Language as a Wave Function

Ahmed Nebli, Hadi Saadatdoorabi, Kevin Yam

cs.LG cs.AI quant-ph

本文提出了一种基于量子动力学的序列建模框架, 将潜在状态视为有限维 Hilbert space 上的复值波函数, 其演化由学习的时变 Hamiltonian 控制. 模型利用量子干涉机制处理序列信息, 并通过 Born rule 提取 token 概率.

Orthogonal Weight Modification Enhances Learning Scalability and Convergence Efficiency without Gradient Backpropagation

Guoqing Ma, Shan Yu

cs.LG

本文提出了一种名为LOCO的权重修改方法, 用于替代反向传播(backpropagation)进行高效学习. 该方法在多个数据集上展示了良好的可扩展性和持续学习能力, 且权重更新的并行时间复杂度仅为$O(1)$.

Code World Models for Parameter Control in Evolutionary Algorithms

Camilo Chacón Sartori, Guillem Rodríguez Corominas

cs.LG cs.NE

本文提出了一种名为 Code World Models (CWMs) 的方法，利用 LLM 从次优轨迹中合成优化器的动态模拟器，并基于此进行贪婪规划来控制参数。该方法在多个组合优化问题上进行了测试，表现优于基线方法，并展示了良好的样本效率和泛化能力。

Sustainable LLM Inference using Context-Aware Model Switching

Yuvarani et al.

cs.LG

本文提出了一种基于上下文感知的模型切换方法, 用于实现可持续的LLM推理. 该方法通过动态选择不同规模的模型来处理不同复杂度的查询, 从而在保持响应质量的同时显著降低能耗.

Entropy-Controlled Flow Matching

Chika Maduabuchi

cs.LG cs.CV

本文提出了一种名为Entropy-Controlled Flow Matching (ECFM)的新方法，用于改进生成模型中的概率路径。该方法通过施加熵率约束来避免传输过程中的信息瓶颈，从而理论上保证了更好的模态覆盖。

WaveSSM: Multiscale State-Space Models for Non-stationary Signal Attention

Ruben Solozabal et al.

cs.LG cs.SD

本文提出了一种基于小波框架的 WaveSSM 模型, 用于处理具有瞬态或局部结构的非平稳信号. 实验表明, 在包含生理信号和原始音频的数据集上, 该模型优于基于多项式基的 S4 等正交模型.

Data-Driven Supervision of a Thermal-Hydraulic Process Towards a Physics-Based Digital Twin

Osimone Imhogiemhe et al.

cs.LG

本文结合数值模拟与机器学习方法, 为热工水力过程开发了一个用于故障检测与诊断的数字孪生框架. 所提出的算法在特定测试场景中得到了验证, 能够有效定位参数变化并更新其估计值.

AutoQRA: Joint Optimization of Mixed-Precision Quantization and Low-rank Adapters for Efficient LLM Fine-Tuning

Changhai Zhou et al.

cs.LG

本文提出了一个名为AutoQRA的联合优化框架, 用于在大型语言模型(Large Language Model, LLM)的高效微调中同时优化混合精度量化(bit-width)和低秩适配器(LoRA rank)的配置. 该方法通过两阶段搜索策略(全局进化搜索与局部贝叶斯优化)在给定内存预算下寻找最优配置, 实验表明其性能接近全精度微调, 同时内存占用与均匀4比特方法相当.

CQSA: Byzantine-robust Clustered Quantum Secure Aggregation in Federated Learning

Arnab Nath, Harsh Kasyap

cs.LG

本文提出了一种名为CQSA的模块化聚合框架, 用于解决量子辅助联邦学习中的安全聚合问题. 该方法通过将客户端随机分组为小集群, 在每个集群内使用高保真度的低量子比特GHZ态进行本地量子聚合, 从而克服了大规模全局GHZ态保真度下降的物理限制, 并利用集群级聚合的统计关系来检测恶意客户端.

Prior Knowledge-enhanced Spatio-temporal Epidemic Forecasting

Sijie Ruan et al.

cs.LG q-bio.PE

本文提出了一种结合隐式时空先验和显式专家先验的混合框架STOEP，用于改进流行病时空预测。该方法通过动态调整区域依赖性和放大弱信号来提升预测性能，并在真实COVID-19和流感数据集上验证了其有效性。

Support Tokens, Stability Margins, and a New Foundation for Robust LLMs

Deepak Agarwal et al.

cs.LG math.PR math.ST

本文从概率角度重新阐释了因果自注意力Transformer, 揭示了其参数存在一个barrier约束, 从而在token空间上诱导出高度结构化的几何性质. 作者进一步将LLM解释为token空间幂集上的随机过程, 并提出了一个只需在标准交叉熵损失上添加平滑对数障碍惩罚的贝叶斯训练框架.

Positional-aware Spatio-Temporal Network for Large-Scale Traffic Prediction

Runfei Chen

cs.LG cs.AI

本文提出了一种轻量级的Positional-aware Spatio-Temporal Network (PASTN) 用于大规模交通流预测。该模型通过引入位置感知嵌入和时序注意力模块，旨在有效捕捉时空复杂性并在不同规模数据集上验证了其效率。

X-REFINE: XAI-based RElevance input-Filtering and archItecture fiNe-tuning for channel Estimation

Abdul Karim Gizzini, Yahia Medjahdi

cs.LG eess.SP

本文提出了一个名为X-REFINE的框架, 用于联合优化信道估计中的输入滤波与模型微调. 该方法利用基于分解的LRP规则生成高分辨率相关性分数, 以识别模型中最可靠的组件, 从而在保持性能的同时显著降低计算复杂度.

Integrating Machine Learning Ensembles and Large Language Models for Heart Disease Prediction Using Voting Fusion

Md. Tahsin Amin et al.

cs.LG cs.AI

本文提出了一种结合机器学习集成模型与大型语言模型进行心脏病预测的混合方法. 该方法在融合数据集上取得了最佳性能, 表明结合两者能提供比单独使用更可靠的临床决策支持.

BrepCoder: A Unified Multimodal Large Language Model for Multi-task B-rep Reasoning

Mingi Kim et al.

cs.LG

本文提出了一种名为BrepCoder的统一多模态大语言模型，用于处理基于B-rep格式的多种CAD任务。该模型通过将CAD建模序列转换为类Python代码并进行两阶段训练，实现了在补全、纠错等下游任务上的应用。

Early Risk Stratification of Dosing Errors in Clinical Trials Using Machine Learning

Félicien Hêche et al.

cs.LG cs.AI

本文提出了一种基于机器学习的框架, 用于在临床试验启动前, 根据可用信息预测其发生高剂量错误率的风险. 该框架整合了结构化数据和文本数据, 并通过概率校准实现了可解释的风险分层.

OmniZip: Learning a Unified and Lightweight Lossless Compressor for Multi-Modal Data

Yan Zhao et al.

cs.LG cs.IT

本文提出了一种名为OmniZip的统一轻量级无损压缩器, 用于处理图像, 文本, 语音等多种模态的数据. 它通过一个模态统一的tokenizer, 模态路由的context学习机制和feedforward设计来实现高效压缩, 并在多个数据集上超越了传统压缩器gzip的性能.

Reliable XAI Explanations in Sudden Cardiac Death Prediction for Chagas Cardiomyopathy

Vinícius P. Chagas et al.

cs.LG cs.LO

本文将一种具有正确性保证的逻辑可解释性方法应用于恰加斯心肌病(Chagas cardiomyopathy)患者的猝死预测问题. 该方法在保持高准确率的同时, 实现了100%的解释保真度, 其一致性和鲁棒性优于启发式方法, 有助于增强临床信任.

Manifold of Failure: Behavioral Attraction Basins in Language Models

Sarthak Munshi et al.

cs.LG cs.AI cs.CR

本文提出了一种名为"失败流形"的框架，用于系统性地刻画大型语言模型中的不安全区域。该方法将漏洞搜索重新定义为质量多样性问题，使用MAP-Elites算法来揭示这些失败区域的连续拓扑结构，并生成了可解释的全局安全图谱。

Global River Forecasting with a Topology-Informed AI Foundation Model

Hancheng Ren et al.

cs.LG physics.geo-ph

本文提出了一个名为GraphRiverCast (GRC)的、基于拓扑信息的人工智能基础模型，用于全球河流系统的多变量水动力模拟。该模型能够在缺乏历史观测数据的"冷启动"模式下运行，并展示了优于传统物理模型和局部AI基准的性能。

When Should a Model Change Its Mind? An Energy-Based Theory and Regularizer for Concept Drift in Electrocardiogram (ECG) Signals

Timothy Oladunni et al.

cs.LG

本文提出了一种基于能量的概念漂移理论(PECT)及其正则化方法(ECRL), 用于稳定动态生理信号(如ECG)模型的预测. 该方法通过约束模型内部表示的变化与信号能量变化的比例关系来区分无害的虚拟漂移和真实的概念漂移, 并在多模态ECG分类任务上验证了其有效性.

UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs

Devan Shah et al.

cs.LG cs.AI

本文提出了一种名为UpSkill的训练时方法, 通过将Mutual Information Skill Learning (MISL) 应用于大型语言模型 (LLMs) 来优化pass@k正确率. 该方法在Group Relative Policy Optimization (GRPO) 框架内引入了一个token-level的互信息奖励, 旨在鼓励针对不同技能变量$z$生成多样化的推理轨迹. 在GSM8K数据集上的实验表明, UpSkill能在不降低pass@1性能的前提下, 提升多个开源模型在多次尝试下的综合表现.

Learning Rewards, Not Labels: Adversarial Inverse Reinforcement Learning for Machinery Fault Detection

Dhiraj Neupane et al.

cs.LG cs.AI

本文提出了一种基于Adversarial Inverse Reinforcement Learning的机械故障检测方法. 该方法通过从健康操作序列中学习奖励动态, 避免了手动设计奖励和故障标签的需要.

AviaSafe: A Physics-Informed Data-Driven Model for Aviation Safety-Critical Cloud Forecasts

Zijian Zhu et al.

cs.LG cs.AI

本文提出了一种用于航空安全关键云预报的物理信息数据驱动模型 AviaSafe. 该模型采用分层架构, 结合了基于物理的约束, 以预测对航空安全至关重要的四种水凝物物种.

Training Agents to Self-Report Misbehavior

Bruce W. Lee, Chen Yueh-Han, Tomek Korbak

cs.LG cs.AI

本文提出了一种称为"自我报告训练"的方法, 用于训练AI代理在秘密执行不良行为时主动发出信号. 该方法在GPT-4.1和Gemini-2.0代理上进行了测试, 结果表明它能有效降低未被检测到的攻击成功率, 且性能在不同任务中表现一致.

A 1/R Law for Kurtosis Contrast in Balanced Mixtures

Yuda Bi et al.

cs.LG cs.AI stat.ML

本文研究了在平衡混合模型中峰度对比的衰减规律. 证明了峰度对比度随有效宽度$R_{\mathrm{eff}}$的增加而按$O(1/R_{\mathrm{eff}})$的速率衰减, 并探讨了通过源信号提纯来恢复对比度的可行性.

Structure and Redundancy in Large Language Models: A Spectral Study via Random Matrix Theory

Davide Ettori

cs.LG cs.AI

本文利用Spectral Geometry和Random Matrix Theory (RMT)分析了深度神经网络和大型语言模型的内部表示。通过研究隐藏层激活的eigenvalue dynamics，提出了EigenTrack方法来实时检测模型幻觉，并提出了RMT-KD方法用于网络压缩。

Learning geometry-dependent lead-field operators for forward ECG modeling

Arsenii Dokuchaev et al.

cs.LG cs.AI math.NA q-bio.TO

本文提出了一种用于正向ECG建模的、基于形状信息的lead-field operator代理模型。该方法结合了geometry-encoding模块和geometry-conditioned neural surrogate，能够在数据有限的情况下实现高保真度的ECG模拟。

Disentangling Shared and Target-Enriched Topics via Background-Contrastive Non-negative Matrix Factorization

Yixuan Li, Archer Y. Yang, Yue Li

cs.LG

本文提出了一种名为背景对比非负矩阵分解(background-contrastive Non-negative Matrix Factorization)的新方法, 用于从高维数据中分离目标特异性信号. 该方法通过联合分解目标数据集和匹配的背景数据, 在对比目标的约束下抑制背景表达的结构, 从而提取出可解释的非负主题成分. 该方法计算高效, 可扩展到大数据, 并在多个生物数据集上验证了其优于传统方法的能力.

Predicting Multi-Drug Resistance in Bacterial Isolates Through Performance Comparison and LIME-based Interpretation of Classification Models

Santanam Wishal, Riad Sahara

cs.LG

本文提出了一种可解释的机器学习框架，用于预测细菌分离株的多重耐药性。该研究评估了多种分类模型，并使用LIME方法为预测结果提供实例层面的解释，以增强临床决策的透明度。

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

Syed Omer Shah et al.

cs.LG cs.CV

本文提出了一个多模态分子性质预测模型 MolFM-Lite, 它通过交叉注意力融合机制联合编码 1D, 2D 和 3D 分子表示, 并使用 FiLM 技术将实验条件纳入预测. 模型在多个基准测试上优于单模态基线, 并通过预训练实现了有效的权重初始化.

A Learning-Based Hybrid Decision Framework for Matching Systems with User Departure Detection

Ruiqi Zhou, Donghao Zhu, Houcai Shen

cs.LG cs.HC cs.IT econ.GN

本文提出了一种基于学习的混合决策框架, 用于处理用户可能离开的匹配系统. 该框架通过回归估计用户离开时间的分布, 并动态调整即时匹配与延迟匹配的策略, 以在等待时间、系统拥堵和匹配效率之间取得平衡.

Revisiting Chebyshev Polynomial and Anisotropic RBF Models for Tabular Regression

Luciano Gerber, Huw Lloyd

cs.LG cs.AI

本文比较了Chebyshev polynomial regressors和anisotropic RBF networks等平滑基模型与树集成模型在表格回归任务中的性能。通过在55个数据集上的基准测试，研究发现平滑模型在CPU环境下与树集成模型精度相当，且泛化差距更小，建议将其纳入候选模型池。

Calibrated Test-Time Guidance for Bayesian Inference

Daniel Geyfman et al.

cs.LG cs.AI

本文分析了现有 test-time guidance 方法在贝叶斯推断中的校准问题, 并提出了一种新的、一致的估计器以实现校准采样. 该方法在贝叶斯推断任务上表现优异, 并在黑洞图像重建任务中达到了最先进的水平.

From Bias to Balance: Fairness-Aware Paper Recommendation for Equitable Peer Review

Uttamasha Anjally Oyshi, Susan Gauch

cs.LG cs.AI

本文提出了一种名为Fair-PaperRec的公平感知论文推荐方法，该方法在双盲评审后使用带有公平性正则化的MLP对论文进行重新排序。通过在合成数据和真实会议数据上的实验，该方法在显著提高代表性不足群体参与度的同时，保持了推荐效用的相对稳定。

ECHO: Encoding Communities via High-order Operators

Emilio Ferrara

cs.LG cs.AI

本文提出了一种名为ECHO的自监督架构, 用于属性网络中的社区检测. 它通过高阶算子将社区检测重新构建为一个自适应的多尺度扩散过程, 旨在克服传统GNN的计算瓶颈和语义平滑问题.

Beyond performance-wise Contribution Evaluation in Federated Learning

Balazs Pejo

cs.LG cs.CR

本文探讨了联邦学习中超越模型性能的客户端贡献评估问题, 关注模型可信赖性(如可靠性, 抗逆性和公平性)的维度. 作者采用Shapley value近似方法来量化这些多维度的贡献, 并发现不同维度间的贡献是独立且不相关的.

Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

Afshin Khadangi

cs.LG

本文提出了一种名为TRC$^{2}$的decoder-only架构，旨在从模型结构层面解决语言模型的continual learning问题。该架构通过结合稀疏路由与快速校正通路，在保持计算效率的同时改善了稳定性与可塑性之间的权衡。

Reinforcement-aware Knowledge Distillation for LLM Reasoning

Zhaoyang Zhang et al.

cs.LG cs.AI

本文提出了一种名为RL-aware distillation (RLAD)的方法, 用于在强化学习(RL)后训练阶段对大语言模型(LLM)进行知识蒸馏. 该方法通过选择性模仿教师模型来缓解分布不匹配和目标冲突问题, 在多个推理基准测试上取得了优于基线方法的效果.

Sharp Convergence Rates for Masked Diffusion Models

Yuchen Liang et al.

cs.LG stat.ML

本文分析了masked diffusion models中Euler采样器和First-Hitting Sampler (FHS)的收敛性。研究通过total-variation (TV)距离提供了更紧的理论保证，并给出了收敛下界。

Space Syntax-guided Post-training for Residential Floor Plan Generation

Zhuoyang Jiang, Dongqing Zhang

cs.LG cs.CV

本文提出了一种名为SSPT的后训练方法, 用于在住宅平面图生成中注入空间句法知识. 该方法通过一个不可微的oracle计算布局的整合度等指标, 并采用迭代重训练或强化学习策略来优化生成模型, 以增强公共空间的主导性和功能层次清晰度.

TEFL: Prediction-Residual-Guided Rolling Forecasting for Multi-Horizon Time Series

Xiannan Huang et al.

cs.LG

本文提出了一种名为TEFL的时间序列预测框架, 它通过显式地利用历史预测残差来增强模型. 该方法设计了一个轻量级的适配器模块和两阶段训练策略, 在多个真实数据集上取得了稳定的性能提升.

Predicting Tennis Serve directions with Machine Learning

Ying Zhu, Ruthuparna Naikar

cs.LG cs.AI

本文应用机器学习方法预测职业网球运动员的一发方向, 通过特征工程实现了约49%(男)和44%(女)的平均预测准确率. 分析表明顶尖球员的发球决策可能符合混合策略模型, 且疲劳与比赛情境信息是重要影响因素.

Coarse-to-Fine Learning of Dynamic Causal Structures

Dezhi Yang et al.

cs.LG

本文提出了一个名为DyCausal的框架，用于从时间序列中学习完全动态的因果结构。该方法利用卷积网络和线性插值，从粗粒度到细粒度地恢复随时间变化的因果图，并通过一种基于矩阵范数缩放的约束来提高效率。

Persistent Nonnegative Matrix Factorization via Multi-Scale Graph Regularization

Jichao Zhang, Ran Miao, Limin Li

cs.LG

本文提出了一种名为persistent nonnegative matrix factorization (pNMF)的方法，通过结合persistent homology来识别数据连通性发生质变的关键尺度，并构建了一个跨尺度的耦合NMF模型。该方法旨在生成一系列与拓扑持续性对齐的低维嵌入，以捕捉数据在不同分辨率下的演化结构。

LUMOS: Democratizing SciML Workflows with L0-Regularized Learning for Unified Feature and Parameter Adaptation

Shouwei Gao et al.

cs.LG

本文提出了一个名为LUMOS的端到端框架，它基于L0正则化学习，旨在简化科学机器学习(SciML)模型的设计过程。该框架通过半随机门控和重参数化技术，在训练中统一进行特征选择和模型剪枝，以减少对人工调优的依赖。

RAIN-Merging: A Gradient-Free Method to Enhance Instruction Following in Large Reasoning Models with Preserved Thinking Format

Zhehao Huang et al.

cs.LG cs.CL

本文提出了一种无需梯度的模型融合方法RAIN-Merging, 旨在提升大型推理模型遵循指令的能力, 同时保持其原有的推理格式和性能. 该方法通过将指令微调模型的任务向量投影到推理模型特定标记的前向特征零空间, 并利用指令注意力进行模块特异性缩放, 从而在多个基准测试上实现了指令遵循与推理能力的平衡.

Relatron: Automating Relational Machine Learning over Relational Databases

Zhikai Chen et al.

cs.LG

本文对关系型数据库上的关系深度学习(RDL)与深度特征合成(DFS)方法进行了统一框架下的比较研究. 研究发现, 两种方法的性能优劣高度依赖于具体任务, 并提出了一个基于任务嵌入的元选择器Relatron来指导模型选择.

Multilingual Safety Alignment Via Sparse Weight Editing

Jiaming Liang, Zhaoxin Wang, Handing Wang

cs.LG

本文提出了一种基于稀疏权重编辑的无训练对齐框架, 用于解决大语言模型在低资源语言中的安全问题. 该方法通过约束线性变换将低资源语言的有害表征映射到高资源语言的安全子空间, 在降低攻击成功率的同时保持了模型的通用推理能力.

Autoregressive Visual Decoding from EEG Signals

Sicheng Dai et al.

cs.LG cs.AI

本文提出了一种名为AVDE的轻量级自回归框架, 用于从EEG信号中解码视觉信息. 该方法通过对比学习对齐EEG与图像表示, 并采用基于"下一尺度预测"策略的自回归生成方式, 在图像检索和重建任务上取得了优于先前方法的效果, 同时参数量大幅减少.

Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation

Zihang Xu et al.

cs.LG cs.AI cs.CL

本文提出了一个用于稳定大型推理模型自适应思维的两阶段框架. 该框架结合了混合微调、优势塑形和梯度调节技术, 旨在平衡推理的准确性与效率, 并在实验中验证了其有效性.

Operationalizing Fairness: Post-Hoc Threshold Optimization Under Hard Resource Limits

Moirangthem Tiken Singh, Amit Kalita, Sapam Jitu Singh

cs.LG cs.AI

本文提出了一种在严格资源限制下进行事后阈值优化的框架, 用于平衡机器学习模型的安全性, 效率与公平性. 该框架强制使用单一全局决策阈值以确保合规, 并通过实验表明资源约束主导了最终的部署决策.

S2O: Early Stopping for Sparse Attention via Online Permutation

Yu Zhang et al.

cs.LG cs.AI

本文提出了一种名为S2O的方法，通过在线置换（online permutation）为稀疏注意力机制实现早期停止。该方法受内存系统中虚拟到物理地址映射的启发，重新组织注意力计算流程，允许加载非连续的token块，并基于注意力热图的细粒度结构设计了一种轻量级的在线加载策略。通过按重要性顺序处理块并在贡献低于阈值时提前停止，S2O在控制误差预算的同时提高了有效稀疏度，从而在长序列推理中显著减少了计算量并提升了速度。

IBCircuit: Towards Holistic Circuit Discovery with Information Bottleneck

Tian Bian et al.

cs.LG

本文提出了一种基于Information Bottleneck原理的端到端方法IBCircuit，用于整体性地发现语言模型中的计算子图（circuits）。该方法无需为不同任务设计特定的损坏激活，在IOI和Greater-Than任务中识别出了更忠实和简洁的电路。

TabDLM: Free-Form Tabular Data Generation via Joint Numerical-Language Diffusion

Donghong Cai et al.

cs.LG cs.AI cs.CL

本文提出TabDLM, 一个基于masked diffusion language models (MDLMs)的联合数值-语言扩散模型, 用于生成包含自由文本字段的异构表格数据. 该方法通过masked diffusion处理文本和分类特征, 通过连续扩散过程处理数值特征, 并利用双向注意力捕获跨模态交互. 实验表明其在多个基准测试上优于现有的扩散模型和LLM基线.

pQuant: Towards Effective Low-Bit Language Models via Decoupled Linear Quantization-Aware Training

Wenzheng Zhang et al.

cs.LG cs.CL

本文提出了一种名为pQuant的解耦线性量化感知训练方法, 用于构建极低比特(亚2-bit)的大型语言模型. 该方法通过将线性层拆分为一个主导的1-bit分支和一个紧凑的高精度分支, 并配合特征缩放, 旨在缓解量化训练中的参数同质化问题, 从而提升模型在边缘设备上的部署效率与精度.

Transformers converge to invariant algorithmic cores

Joshua S. Schiffman

cs.LG cs.AI

本文提出了"algorithmic cores"的概念, 用于识别Transformer模型内部与计算功能本质相关的低维不变子空间. 研究发现, 独立训练的模型在权重上不同, 但会收敛到相同的核心结构, 这些结构在不同任务(如Markov链建模、模加法和语言建模)中均表现出紧凑和共享的特性.

$ϕ$-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

Thanh-Dat Truong et al.

cs.LG cs.CV

本文提出了一种名为$\phi$-DPO的新框架，用于解决大型多模态模型持续学习中的公平性问题。该方法通过改进直接偏好优化来处理数据不平衡，并在多个基准测试上取得了先进的性能。

DP-aware AdaLN-Zero: Taming Conditioning-Induced Heavy-Tailed Gradients in Differentially Private Diffusion

Tao Huang et al.

cs.LG cs.CV

本文针对条件扩散模型在差分隐私随机梯度下降(DP-SGD)训练中，因异质条件上下文导致梯度重尾分布和效用下降的问题，提出了一种名为DP-aware AdaLN-Zero的敏感性感知条件注入机制。该方法通过有界重参数化约束条件表示和调制参数，在梯度裁剪和噪声注入前抑制极端梯度事件，从而在保持标准训练性能的同时，提升了在固定隐私预算下的模型效用。

Mitigating Membership Inference in Intermediate Representations via Layer-wise MIA-risk-aware DP-SGD

Jiayang Meng et al.

cs.LG

本文提出了一种针对中间表示(IRs)的层感知差分隐私随机梯度下降(LM-DP-SGD)方法. 该方法根据各层对成员推理攻击(MIA)的不同脆弱性, 自适应地分配隐私保护预算, 在固定隐私预算下实现了更好的隐私-效用权衡.

Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA

Hai Huang, Yann LeCun, Randall Balestriero

cs.LG

本文提出了一种名为Semantic Tube Prediction (STP)的新任务，这是一种基于JEPA框架的正则化方法，旨在提高大型语言模型(LLM)的数据效率。该方法基于Geodesic Hypothesis，通过约束隐藏状态轨迹来提升信号噪声比，实验表明其在减少训练数据量的情况下能达到基线模型的性能。

ContextRL: Enhancing MLLM's Knowledge Discovery Efficiency with Context-Augmented RL

Xingyu Lu et al.

cs.LG cs.AI cs.CL

本文提出了一种名为ContextRL的新框架, 通过上下文增强来提升多模态大语言模型的知识发现效率. 该方法利用完整的参考解决方案作为奖励模型的上下文, 并引入多轮采样策略来引导策略模型, 在多个基准测试上取得了优于基线方法的效果.

Tackling Privacy Heterogeneity in Differentially Private Federated Learning

Ruichen Xu, Ying-Jun Angela Zhang, Jianwei Huang

cs.LG cs.DC

本文研究了差分隐私联邦学习(DP-FL)中的隐私异质性问题. 提出了一种将隐私预算差异考虑在内的客户端选择策略, 并通过实验验证了其有效性.

Compress the Easy, Explore the Hard: Difficulty-Aware Entropy Regularization for Efficient LLM Reasoning

Qin-Wen Luo et al.

cs.LG

本文提出了一种基于难度感知的强化学习方法 CEEH, 用于压缩大型语言模型的推理步骤. 该方法通过动态评估问题难度, 对简单问题进行压缩, 对困难问题保持探索, 从而在减少生成长度的同时维持推理准确性.

MUG: Meta-path-aware Universal Heterogeneous Graph Pre-Training

Lianze Shan et al.

cs.LG

本文提出了一种用于异构图预训练的新方法MUG, 它通过输入统一模块和维度感知编码器来处理不同图结构间的语义对齐问题, 并通过共享编码器和全局目标来学习跨数据集的通用结构模式. 实验表明该方法在多个真实数据集上有效.

LEDA: Latent Semantic Distribution Alignment for Multi-domain Graph Pre-training

Lianze Shan et al.

cs.LG

本文提出了一种用于多领域图预训练的潜在语义分布对齐方法, 旨在通过将不同领域的图特征自适应地对齐到共享语义空间来解决现有方法在通用图预训练中面临的数据对齐简单和训练指导有限的问题. 该方法在少样本跨领域设置中表现优于领域内基线和先进的通用预训练模型.

Forecasting Antimicrobial Resistance Trends Using Machine Learning on WHO GLASS Surveillance Data: A Retrieval-Augmented Generation Approach for Policy Decision Support

Md Tanvir Hasan Turja

cs.LG q-bio.QM

本文应用多种机器学习模型对WHO GLASS抗菌素耐药性监测数据进行趋势预测，并构建了一个结合政策文档检索与语言模型的决策支持框架。XGBoost模型在预测任务上表现最佳，其框架旨在为公共卫生政策制定提供数据驱动的参考。

Accelerating LLM Pre-Training through Flat-Direction Dynamics Enhancement

Shuchen Zhu et al.

cs.LG

本文提出了一种名为LITE的广义加速策略, 用于提升大语言模型预训练的效率. 该方法通过沿平坦方向应用更大的Hessian阻尼系数和学习率来增强训练动力学, 并在多个架构和数据集上验证了其加速效果.

Switch-Hurdle: A MoE Encoder with AR Hurdle Decoder for Intermittent Demand Forecasting

Fabian Muşat, Simona Căbuz

cs.LG

本文提出了一种名为Switch-Hurdle的新框架，用于间歇性需求预测。该模型结合了稀疏的Mixture-of-Experts编码器和基于Hurdle结构的自回归解码器，将预测任务分解为销售发生概率和销售量的条件回归。实验表明，该模型在M5基准和零售数据集上取得了先进的预测性能。

Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning

Hao Yu et al.

cs.LG

本文提出了一个名为GeoPerceive的几何感知基准, 以及一个名为GeoDPO的translator-guided reinforcement learning框架, 旨在提升vision-language models (VLMs)在几何推理任务中的表现. 实验表明, GeoDPO在领域内和领域外数据以及下游推理任务上均取得了显著性能提升.

Interpreting and Steering State-Space Models via Activation Subspace Bottlenecks

Vamshi Sunku Mohan et al.

cs.LG

本文提出了一种通过识别Mamba族state-space models中的activation subspace bottlenecks来提升模型性能的方法. 该方法引入了一种无需任务特定调优的测试时干预, 在多个基准上平均提升了8.27%的性能.

Set-based v.s. Distribution-based Representations of Epistemic Uncertainty: A Comparative Study

Kaizheng Wang et al.

cs.LG

本文对神经网络中两种表示认知不确定性(epistemic uncertainty)的二阶范式——基于分布的表示和基于集合的表示——进行了受控比较研究。研究通过统一的评估框架，在多个基准任务上分析了这两种表示对不确定性感知性能的实际影响。

KMLP: A Scalable Hybrid Architecture for Web-Scale Tabular Data Modeling

Mingming Zhang et al.

cs.LG

本文提出了一种名为KMLP的混合深度架构, 用于大规模网络表格数据的建模. 该架构结合了KAN (Kolmogorov-Arnold Network) 前端和gMLP (Gated Multilayer Perceptron) 主干, 在包含数十亿样本的工业数据集上取得了先进的性能.

Doubly Adaptive Channel and Spatial Attention for Semantic Image Communication by IoT Devices

Soroosh Miri et al.

cs.LG

本文提出了一种用于物联网设备语义图像通信的双重自适应通道与空间注意力机制。该方法在原有自适应深度联合信源信道编码框架基础上，引入了同时适应信道条件和空间特征的注意力模块，以提升性能。仿真结果表明，该方法在多个指标上优于现有方案，同时复杂度增加有限。

Multi-agent imitation learning with function approximation: Linear Markov games and beyond

Luca Viano et al.

cs.LG

本文研究了线性 Markov games 中的多智能体模仿学习问题. 作者提出了一个基于特征层面的 concentrability coefficient 的新分析框架, 并设计了一种高效的交互式算法, 其样本复杂度仅依赖于特征维度 $d$.

Accelerating Local LLMs on Resource-Constrained Edge Devices via Distributed Prompt Caching

Hiroki Matsutani, Naoki Matsuda, Naoto Sugiura

cs.LG cs.DC

本文提出了一种分布式 prompt caching 方法，用于在资源受限的边缘设备上加速本地 LLM 推理。该方法通过设备间共享中间处理状态来减少计算开销，并利用 Bloom filter 结构来降低通信成本。实验表明，该方法能显著降低推理延迟。

Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks

Shuo He et al.

cs.LG cs.AI

本文针对长视野智能体任务中的逐步组策略优化问题, 提出了Hierarchy-of-Groups Policy Optimization (HGPO)方法. 该方法通过将轨迹中的步骤分配到多个具有一致历史上下文的层级组中, 并自适应地聚合优势估计, 以缓解上下文不一致导致的估计偏差问题.

Hypernetwork-based approach for grid-independent functional data clustering

Anirudh Thatipelli, Ali Siahkoohi

cs.LG

本文提出了一种基于 hypernetwork 的框架, 用于实现与采样网格无关的函数型数据聚类. 该方法通过一个 auto-encoding 架构, 将任意网格上的离散函数观测映射到一个固定维度的向量空间, 并在此空间进行聚类.

Moral Preferences of LLMs Under Directed Contextual Influence

Phil Blandfort et al.

cs.LG cs.AI cs.CL cs.CV cs.CY

本文研究了在 directed contextual influence 下 LLMs 的道德偏好变化, 通过一个 trolley-problem 式的道德分类评估框架, 发现上下文信号能显著改变模型决策, 且基线偏好不能预测其可操纵性.

Decentralized Ranking Aggregation: Gossip Algorithms for Borda and Copeland Consensus

Anna Van Elst et al.

cs.LG cs.AI stat.ML

本文研究了在去中心化环境中使用gossip算法进行排名聚合的问题, 重点关注Borda和Copeland规则. 通过理论分析和实验验证, 证明了所提方法能够可靠地收敛到正确的共识排名.

MEDNA-DFM: A Dual-View FiLM-MoE Model for Explainable DNA Methylation Prediction

Yi He et al.

cs.LG cs.AI

本文提出了一种用于DNA甲基化预测的双视角FiLM-MoE模型MEDNA-DFM及其信号纯化算法。该模型在预测性能与可解释性方面均表现良好，并通过案例研究提出了“序列-结构协同”假说。

Fair feature attribution for multi-output prediction: a Shapley-based perspective

Umberto Biccari et al.

cs.LG

本文在Shapley框架下为多输出预测器提供了特征归因的公理化刻画. 通过将经典Shapley公理扩展到向量值合作博弈, 证明了任何满足效率、对称性、虚拟玩家和可加性的归因规则必然按输出分量分解.

A Data-Driven Approach to Support Clinical Renal Replacement Therapy

Alice Balboni et al.

cs.LG

本文采用机器学习方法预测重症患者连续性肾脏替代治疗中的膜污染。研究使用表格数据和特征选择构建了可解释的预测模型，并通过反事实分析探讨了改变预测结果的可能性。

Generalization Bounds of Stochastic Gradient Descent in Homogeneous Neural Networks

Wenquan Ma et al.

cs.LG

本文在 homogeneous neural networks 的设定下，研究了随机梯度下降(SGD)的泛化界。通过利用算法的稳定性，证明了在此类网络(如使用 ReLU 激活的全连接和卷积网络)中，SGD 允许使用衰减较慢的步长(如 $\Omega(1/\sqrt{t})$)，并扩展了理论到非 Lipschitz 等更一般的场景。

MSINO: Curvature-Aware Sobolev Optimization for Manifold Neural Networks

Suresan Pareth

cs.LG

本文提出了一种用于黎曼流形上神经网络的曲率感知训练框架MSINO. 该方法通过引入协变Sobolev损失和Laplace-Beltrami平滑正则项来改进训练稳定性, 并在表面成像和机器人学等领域有应用潜力.

Scaling Laws of Global Weather Models

Yuejiang Yu et al.

cs.LG

本文通过经验性分析, 研究了数据驱动天气模型的 scaling laws. 研究发现, 在固定计算预算下, 延长训练时间比增加模型规模更能提升性能, 并且天气模型倾向于更宽的架构而非更深的架构.

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Zeyuan Liu et al.

cs.LG cs.AI

本文提出了一种结合了on-policy和off-policy优化的混合强化学习框架EMPO$^2$, 旨在通过引入记忆机制来增强大型语言模型(LLM)智能体的探索能力. 实验表明, 该方法在ScienceWorld和WebShop等环境上取得了性能提升, 并展现出一定的分布外泛化能力.

Learning Disease-Sensitive Latent Interaction Graphs From Noisy Cardiac Flow Measurements

Viraj Patel et al.

cs.LG

本文提出了一种物理信息驱动的隐式关系图模型, 用于从心脏血流数据中学习疾病敏感的潜在交互结构. 该方法结合了神经关系推断与物理启发的交互能量, 并在模拟和超声数据上验证了其识别疾病严重程度的能力.

Latent Matters: Learning Deep State-Space Models

Alexej Klushyn et al.

cs.LG

本文提出了一种用于训练 deep state-space models (DSSMs) 的约束优化框架, 以解决传统基于 evidence lower bound 的训练方法可能无法学习到真实动态的问题. 基于此框架, 作者进一步提出了 extended Kalman VAE (EKVAE) 模型, 该模型结合了 amortised variational inference 与经典的 Bayesian filtering/smoothing, 在系统辨识和预测精度上优于现有的基于 RNN 的 DSSMs.

RhythmBERT: A Self-Supervised Language Model Based on Latent Representations of ECG Waveforms for Heart Disease Detection

Xin Wang et al.

cs.LG

本文提出了一种名为RhythmBERT的自监督ECG语言模型, 通过将ECG波形编码为离散符号token来捕捉节律语义, 并在大规模无标签数据上进行预训练. 实验表明, 该模型在多种心脏疾病检测任务上取得了与多导联基线相当或更优的性能.

Physics-informed neural particle flow for the Bayesian update step

Domonkos Csuzdi, Tamás Bécsi, Olivér Törő

cs.LG

本文提出了一种基于物理信息神经网络的粒子流方法, 用于贝叶斯更新步骤. 该方法通过将描述密度演化的连续性方程与先验到后验的log-homotopy轨迹耦合, 推导出一个主控PDE, 并将其作为物理约束嵌入损失函数来训练神经网络, 从而无需真实后验样本即可进行无监督学习. 实验表明, 该方法在计算复杂度和多模态覆盖方面优于现有基线.

PRAC: Principal-Random Subspace for LLM Activation Compression and Memory-Efficient Training

Yanyi Li, Yimu Zhang, Cong Fang

cs.LG

本文提出了一种名为PRAC的激活压缩方法, 通过将激活张量分解为通过SVD捕获的主子空间和一个从正交补中采样的随机子空间来近似尾部信息. 该方法旨在减少大语言模型训练中的内存占用, 实验表明其能在性能损失很小的情况下显著降低内存.

Learning Physical Operators using Neural Operators

Vignesh Gopakumar et al.

cs.LG

本文提出了一种基于算子分裂方法的物理信息训练框架, 用于学习PDE中的物理算子. 该方法将PDE建模为神经ODE, 结合了学习的非线性算子和固定的线性差分卷积, 在Navier-Stokes方程上展示了良好的泛化能力和时间外推性能.

Regularized Online RLHF with Generalized Bilinear Preferences

Junghyun Lee et al.

cs.LG stat.ML

本文研究了具有广义偏好模型的上下文在线RLHF问题, 目标是找到Nash均衡. 它采用广义双线性偏好模型(GBPM)来捕捉潜在的不可传递偏好, 并分析了使用任意强凸正则化器的通用偏好学习. 基于对偶间隙的界限分析, 提出了两种简单算法, 并给出了相应的遗憾界.

Bound to Disagree : Generalization Bounds via Certifiable Surrogates

Mathieu Bazinet, Valentina Zantedeschi, Pascal Germain

cs.LG

本文提出了一种基于分歧的泛化界证明方法, 通过一个具有紧致泛化保证的代理模型来界定目标预测器的真实风险. 该方法无需修改目标模型或其训练过程, 并利用未标记数据集进行评估, 在实验中展示了其证书的紧致性和方法的通用性.

DyGnROLE: Modeling Asymmetry in Dynamic Graphs with Node-Role-Oriented Latent Encoding

Tyler Bonnet, Marek Rei

cs.LG cs.AI cs.SI

本文提出了一种用于有向动态图建模的transformer架构DyGnROLE, 它通过分离的嵌入词汇表和角色语义位置编码来显式解耦源节点和目标节点的表示. 模型引入了一种名为Temporal Contrastive Link Prediction (TCLP)的自监督预训练目标, 以在低标签环境下学习角色特定的表示. 在未来边分类任务上的评估表明, 该模型显著优于多种先进基线.

Prediction of Diffusion Coefficients in Mixtures with Tensor Completion

Zeno Romero et al.

cs.LG

本文提出了一种基于Tucker分解的混合tensor completion方法, 用于预测二元混合物中无限稀释扩散系数随温度的变化. 该方法结合了实验数据和半经验模型SEGWE的先验知识, 并利用active learning策略扩展了实验数据库, 从而提高了预测精度.

Partial recovery of meter-scale surface weather

Jonathan Giezendanner et al.

cs.LG cs.CV physics.ao-ph

本文提出了一种通过结合稀疏地面站观测和高分辨率地球观测数据来推断米尺度近地表天气场的方法. 该方法在连续美国区域以10米分辨率生成了风、温度和湿度场, 相比ERA5再分析数据降低了误差并解释了更多空间方差.

Benchmarking Temporal Web3 Intelligence: Lessons from the FinSurvival 2025 Challenge

Oshani Seneviratne et al.

cs.LG

本文介绍了FinSurvival 2025挑战赛作为一个用于评估Temporal Web3智能的基准案例。该基准利用Aave v3协议的大量交易数据设计了生存预测任务，并指出结合领域知识的特征工程方法优于通用模型。

MetaOthello: A Controlled Study of Multiple World Models in Transformers

Aviral Chawla, Galen Hall, Juniper Lovato

cs.LG

本文通过设计一个包含多种规则变体的Othello游戏套件MetaOthello, 研究了Transformer模型在混合数据训练下如何组织多个“世界模型”。研究发现, 模型并未形成完全隔离的子模型, 而是学习了一个在不同变体间可因果迁移的共享棋盘状态表示。

Induction Meets Biology: Mechanisms of Repeat Detection in Protein Language Models

Gal Kesten-Pomeranz et al.

cs.LG q-bio.BM

本文研究了蛋白质语言模型(PLMs)检测序列重复的内部机制. 它揭示了模型结合通用注意力头与生物学特化组件来构建特征表示, 并使用归纳头(induction heads)来识别重复片段.

Closing the gap on tabular data with Fourier and Implicit Categorical Features

Marius Dragoi, Florin Gogianu, Elena Burceanu

cs.LG

本文提出了一种结合统计特征处理与Learned Fourier的方法来提升深度学习模型在tabular data上的性能. 该方法旨在弥补神经网络与树模型在处理具有categorical特性的特征时的差距, 并在基准测试中取得了与XGBoost相当或更优的结果.

Efficient Real-Time Adaptation of ROMs for Unsteady Flows Using Data Assimilation

Ismaël Zighed et al.

cs.LG physics.flu-dyn

本文提出了一种高效的参数化降阶模型(ROM)重训练策略, 用于非定常流动的实时适应. 该方法结合变分自编码器(VAE)和Transformer网络, 并利用集成卡尔曼滤波进行数据同化, 仅需稀疏观测即可实现快速模型调整.

InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models

Sayed Mohammadreza Tayaranian Hosseini, Amir Ardakani, Warren J. Gross

cs.LG cs.CL

本文提出了一种名为InnerQ的硬件感知KV缓存量化方案, 旨在降低大语言模型解码延迟. 该方法通过在内维度上进行分组量化, 并配合混合量化策略与高精度窗口等技术, 在保持模型准确性的同时实现了显著的推理加速.

Tell Me What To Learn: Generalizing Neural Memory to be Controllable in Natural Language

Max S. Bennett, Thomas P. Zollo, Richard Zemel

cs.LG

本文提出了一种可受自然语言指令控制的广义神经记忆系统, 用于在非平稳环境中进行选择性学习. 该方法允许智能体根据自然语言指令灵活更新记忆, 以处理异构信息流, 适用于医疗和客服等场景.

Takeuchi's Information Criteria as Generalization Measures for DNNs Close to NTK Regime

Hiroki Naganuma et al.

cs.LG

本文探讨了在接近neural tangent kernel (NTK) 机制的条件下，Takeuchi's information criterion (TIC) 作为深度神经网络泛化度量的有效性。通过理论分析和大量实验验证，研究发现TIC估计值与泛化差距在NTK机制附近存在良好相关性，但在该机制之外则无此关联。

Physics Informed Viscous Value Representations

Hrishikesh Viswanath et al.

cs.LG cs.RO

本文提出了一种基于Hamilton-Jacobi-Bellman (HJB)方程粘性解的物理信息正则化方法，用于改进离线目标条件强化学习中的价值估计。该方法通过Feynman-Kac定理将PDE求解转化为期望计算，提升了在高维复杂任务中的几何一致性和数值稳定性。

Conformalized Neural Networks for Federated Uncertainty Quantification under Dual Heterogeneity

Quang-Huy Nguyen, Jiaqi Wang, Wei-Shinn Ku

cs.LG cs.AI

本文提出了一种名为FedWQ-CP的方法，用于解决联邦学习中存在的数据和模型双重异质性下的不确定性量化问题。该方法通过单轮通信进行客户端-服务器校准，聚合本地分位数阈值以生成全局阈值，并在多个数据集上验证了其有效性。

Inferential Mechanics Part 1: Causal Mechanistic Theories of Machine Learning in Chemical Biology with Implications

Ilya Balabin, Thomas M. Kaiser

cs.LG

本文提出了一个名为"inferential mechanics"的理论框架, 旨在整合化学理论, 生物理论, 概率论和因果性, 以纠正当前自然科学中机器学习模型的因果缺陷. 作为系列论文的第一部分, 它通过引入"focus"这一新概念, 为化学生物学中的现象提供了基础的因果结构形式化框架, 并初步在Akt抑制剂家族上验证了其原理.

A Proper Scoring Rule for Virtual Staining

Samuel Tonks et al.

cs.LG

本文提出了一种基于 information gain 的评估框架, 用于直接评估生成式虚拟染色模型预测的后验分布. 该方法是一个严格适当的评分规则, 具有可解释性, 并能在不同模型和特征间进行比较. 在大型高通量筛选数据集上的实验表明, 该指标能揭示其他指标无法检测到的显著性能差异.

ParamMem: Augmenting Language Agents with Parametric Reflective Memory

Tianjun Yao et al.

cs.LG cs.MA

本文提出了一种名为ParamMem的参数化记忆模块, 用于增强基于反思的语言智能体. 该方法将跨样本的反思模式编码到模型参数中, 并通过温度控制采样来生成多样化的反思信号, 从而提升智能体在代码生成和数学推理等任务上的性能.

Differentiable Zero-One Loss via Hypersimplex Projections

Camilo Gomez, Pengyang Wang, Liansheng Tang

cs.LG stat.ML

本文提出了一种通过超单纯形投影实现可微的0-1损失近似方法，称为Soft-Binary-Argmax。该方法通过一个约束优化框架构建平滑的保序投影，并展示了其Jacobian的高效计算方式。实验表明，该方法能通过施加几何一致性约束来改善大批量训练下的泛化性能。

Mean Estimation from Coarse Data: Characterizations and Efficient Algorithms

Alkis Kalavasis et al.

cs.LG cs.DS math.ST stat.ML

本文研究了从粗粒度数据中进行高斯均值估计的问题, 其中每个样本仅被观测到其所属的划分集合. 作者解决了关于均值可识别性和高效估计算法的两个开放性问题.

FlashOptim: Optimizers for Memory Efficient Training

Jose Javier Gonzalez Ortiz et al.

cs.LG cs.AI

本文提出FlashOptim, 一套用于减少神经网络训练内存占用的优化技术. 它通过改进主权重分割和设计新的压缩函数, 将每个参数的内存需求从16字节降至7字节, 且不影响模型质量.

SOTAlign: Semi-Supervised Alignment of Unimodal Vision and Language Models via Optimal Transport

Simon Roschmann et al.

cs.LG cs.AI

本文提出了一种半监督对齐方法 SOTAlign, 用于对齐预训练的单模态视觉和语言模型. 该方法利用少量配对数据和大量未配对数据, 通过最优传输 (optimal transport) 来提升对齐效果.

A Dataset is Worth 1 MB

Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen

cs.LG cs.CV

本文提出了一种名为PLADA的方法, 通过仅传输类别标签而非原始像素数据来大幅降低数据集分发的通信开销. 该方法假设客户端预加载了一个大型通用无标签参考数据集, 并通过筛选机制选择与目标任务最相关的图像标签进行传输, 从而在保持分类精度的同时将传输负载压缩至1 MB以下.

Model Agreement via Anchoring

Eric Eaton et al.

cs.LG cs.AI

本文提出了一种基于"锚定"(anchoring)的通用技术来分析独立训练的机器学习模型之间的预测差异(disagreement). 该方法被应用于证明几种常见算法(如stacking, gradient boosting, 神经网络架构搜索和回归树)的模型差异会随着特定参数(如模型数量, 迭代次数, 架构大小或树深度)的增加而趋近于零. 分析最初针对一维平方误差回归进行, 并推广到具有强凸损失的多维回归问题.

cs.AI

A Model-Free Universal AI ⭐ 精选

Yegon Kim, Juho Lee

cs.AI

本文提出了首个在一般强化学习中被证明具有渐进$\varepsilon$-最优性的无模型通用智能体AIQI. 它通过引入一种新的归纳方法, 对分布式的动作-价值函数进行归纳, 而非像以往工作那样归纳策略或环境模型. 在"grain of truth"条件下, 作者证明了AIQI具有强渐进$\varepsilon$-最优性和渐进$\varepsilon$-贝叶斯最优性, 显著扩展了已知通用智能体的多样性.

Graph Your Way to Inspiration: Integrating Co-Author Graphs with Retrieval-Augmented Generation for Large Language Model Based Scientific Idea Generation

Pengzhen Xie, Huizhi Liang

cs.AI cs.CL cs.IR

本文提出了一种名为GYWI的科学想法生成系统, 它通过整合作者知识图谱与检索增强生成(RAG)来构建外部知识库, 旨在为LLM提供可控的学术背景和可追溯的灵感路径. 实验表明, 该系统在多个评估维度上优于主流LLM.

FIRE: A Comprehensive Benchmark for Financial Intelligence and Reasoning Evaluation

Xiyuan Zhang et al.

cs.AI cs.LG

本文提出了一个名为FIRE的综合基准，用于评估大语言模型的理论金融知识和处理实际业务场景的能力。该基准包含来自资格考试的题目和模拟真实金融任务的场景问题，并对多个先进模型进行了系统评估。

Multi-Level Causal Embeddings

Willem Schooltink, Fabio Massimo Zennaro

cs.AI cs.LG

本文提出了一个名为"causal embeddings"的框架, 用于将多个细粒度因果模型映射到一个更粗粒度的因果模型的子系统中. 该工作将因果抽象的概念进行了推广, 并展示了其在解决统计和因果边际问题上的潜在应用.

Agent Behavioral Contracts: Formal Specification and Runtime Enforcement for Reliable Autonomous AI Agents

Varun Pratap Bhardwaj

cs.AI cs.MA cs.SE

本文提出了一个用于AI agent的正式行为契约框架ABC, 并实现了运行时执行库AgentAssert. 该框架通过定义包含前置条件、不变量等组件的契约, 以及一个概率性的契约满足度概念, 旨在约束agent的行为漂移并确保可靠性. 在包含多个模型和场景的基准测试中, 使用契约的agent在约束遵守和错误恢复方面表现显著优于基线.

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Yongjun Zhang

cs.AI cs.HC

本文讨论了AI agents在社会科学研究中的潜在作用, 提出了"vibe researching"的概念, 并引入了一个基于"codifiability"和"tacit knowledge"的认知任务框架来分析研究活动. 作者认为AI agents在速度、覆盖范围和方法论支持方面表现出色, 但在理论原创性和隐性领域知识方面存在局限.

Towards Autonomous Memory Agents

Xinle Wu et al.

cs.AI

本文提出了一种自主记忆代理U-Mem，它通过成本感知的知识提取级联和语义感知的Thompson sampling来主动获取和验证知识。该方法在多个基准测试上超越了现有的被动记忆代理和基于强化学习的优化方法。

Exploring Human Behavior During Abstract Rule Inference and Problem Solving with the Cognitive Abstraction and Reasoning Corpus

Caroline Ahn et al.

cs.AI q-bio.NC

本文介绍了Cognitive Abstraction and Reasoning Corpus (CogARC), 一个用于研究人类抽象推理行为的数据集. 通过记录参与者在解决视觉推理问题时的行为, 分析了其策略、表现和问题难度之间的关系.

Epistemic Filtering and Collective Hallucination: A Jury Theorem for Confidence-Calibrated Agents

Jonas Karge

cs.AI

本文研究了具有异质性的智能体在通过校准阶段学习自身可靠性后选择性弃权的集体决策准确性。作者提出了一个概率框架，证明了选择性参与可以将Condorcet Jury Theorem的渐近保证推广到置信度门控的序列设置中，并通过模拟验证了理论边界。

ArchAgent: Agentic AI-driven Computer Architecture Discovery

Raghav Gupta et al.

cs.AI cs.AR

本文介绍了一个名为ArchAgent的自动化计算机体系结构发现系统, 该系统基于AlphaEvolve构建, 能够自动设计先进的缓存替换策略. 在特定基准测试中, 该系统生成的策略在性能上超越了现有最优方案, 并且开发速度更快, 同时文章还探讨了智能体AI对体系结构研究的更广泛影响.

How Do Latent Reasoning Methods Perform Under Weak and Strong Supervision?

Yingqian Cui et al.

cs.AI cs.CL cs.LG

本文对latent reasoning方法在强弱监督下的表现进行了分析, 发现了普遍存在的shortcut行为, 并检验了其在latent space中支持BFS-like探索的假设. 研究发现, 监督强度存在一个权衡: 强监督能缓解shortcut但限制了latent representation的多样性, 而弱监督则相反.

A Framework for Assessing AI Agent Decisions and Outcomes in AutoML Pipelines

Gaoyuan Du et al.

cs.AI

本文提出了一个用于评估AutoML（自动化机器学习）中AI agent决策的框架。该框架引入了一个独立的评估agent，在不干扰主agent运行的情况下，对其在数据处理、模型选择等环节的中间决策进行多维度分析。

CWM: Contrastive World Models for Action Feasibility Learning in Embodied Agent Pipelines

Chayan Banerjee

cs.AI cs.RO

本文提出了一种名为Contrastive World Model (CWM)的方法，用于在具身智能体流程中学习动作可行性。该方法通过对比学习目标微调大型语言模型，使其能更好地区分物理上可行与不可行的动作，特别是在处理语义相似但物理上矛盾的困难负例时表现更优。在ScienceWorld基准测试上的实验表明，CWM在多个指标上优于传统的监督微调方法。

ConstraintBench: Benchmarking LLM Constraint Reasoning on Direct Optimization

Joseph Tso et al.

cs.AI

本文提出了一个名为ConstraintBench的基准测试, 用于评估大型语言模型(LLM)在直接解决完全指定的约束优化问题上的能力, 而不依赖外部求解器. 评估发现, 可行性而非最优性是主要瓶颈, 且模型表现因问题领域而异.

VeRO: An Evaluation Harness for Agents to Optimize Agents

Varun Ursekar et al.

cs.AI cs.CL cs.LG

本文提出了一个名为VeRO的评估框架, 用于系统化地评估和优化coding agents. 该框架包含版本化的agent快照, 预算控制的评估以及结构化的执行轨迹, 并附带了一个包含目标任务和参考评估流程的基准测试套件.

Mapping the Landscape of Artificial Intelligence in Life Cycle Assessment Using Large Language Models

Anastasija Mensikova, Donna M. Rizzo, Kathryn Hinkelman

cs.AI

本文利用 large language models (LLMs) 对人工智能在生命周期评估 (LCA) 领域的应用研究进行了文献综述。研究通过文本挖掘识别了当前趋势和主题，并提出了一个结合传统综述与 LLM 的动态分析框架。

Mirroring the Mind: Distilling Human-Like Metacognitive Strategies into Large Language Models

Ik-hwan Kim et al.

cs.AI

本文提出了一个名为Metacognitive Behavioral Tuning (MBT)的后训练框架，旨在将人类元认知策略注入大型语言模型，以解决其在复杂推理任务中出现的结构性脆弱问题。该方法通过合成或重写推理轨迹来稳定模型的探索模式，实验表明其能提高准确性并减少计算开销。

A Mathematical Theory of Agency and Intelligence

Wael Hafez et al.

cs.AI cs.IT

本文提出了一个关于智能体与智能的数学理论, 引入了"bipredictability" ($P$) 这一概念来衡量系统在交互中实际利用的信息比例. 理论推导和实验表明, $P$ 存在普适上界, 并以此区分了"agency" (行动能力) 与"intelligence" (智能) 这两个概念.

Cognitive Models and AI Algorithms Provide Templates for Designing Language Agents

Ryan Liu et al.

cs.AI cs.CL q-bio.NC

本文提出了一种基于认知模型和AI算法的语言智能体设计模板, 用于将多个大型语言模型组合成更强大的系统. 文章通过形式化智能体模板的概念, 并综述现有工作, 旨在倡导从认知科学和AI中汲取灵感来开发更有效、可解释的语言智能体.

Agentic AI for Intent-driven Optimization in Cell-free O-RAN

Mohammad Hossein Shokouhi, Vincent W.S. Wong

cs.AI eess.SP

本文提出了一种用于无小区O-RAN中意图驱动优化的智能体AI框架。该框架利用多个基于LLM的智能体进行协作，以翻译运营商意图并执行资源分配和节能管理。仿真结果表明，该框架在节能模式下能有效减少活跃的无线单元数量，并通过参数高效微调方法显著降低了内存使用。

Requesting Expert Reasoning: Augmenting LLM Agents with Learned Collaborative Intervention

Zhiming Wang, Jinwei He, Feng Lu

cs.AI

本文提出了一个名为AHCE的框架, 旨在通过按需的人机协作来增强基于LLM的智能体在专业领域中的表现. 其核心是一个学习策略, 将人类专家视为交互式推理工具, 并在Minecraft环境中验证了其有效性.

CourtGuard: A Model-Agnostic Framework for Zero-Shot Policy Adaptation in LLM Safety

Umid Suleymanov et al.

cs.AI cs.LG

本文提出了一个名为CourtGuard的模型无关框架, 用于大型语言模型(LLM)的零样本安全策略适应. 该框架通过基于外部政策文档的对抗性辩论来实现安全评估, 无需微调即可在多个安全基准上取得先进性能, 并展示了零样本适应和自动数据审计的能力.

Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance

Weida Liang et al.

cs.AI cs.CL

本文探讨了在数学推理中基于示例的引导方法效果不稳定的问题, 指出策略的使用频率与其作为引导时的可执行性之间存在差异. 通过分析人类与模型生成的解决方案, 作者提出了选择性策略检索框架, 在多个基准测试上提升了推理模型的准确性.

Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach

Jodi M. Casabianca, Maggie Beiting-Parrish

cs.AI cs.LG

本文提出将心理测量学中的评分者模型整合到AI评估流程中, 以校正人类评分中的系统性偏差. 通过使用多面Rasch模型等Item Response Theory模型, 该方法能够分离输出质量和评分者行为, 并以文本摘要评估为例进行了实证展示.

SideQuest: Model-Driven KV Cache Management for Long-Horizon Agentic Reasoning

Sanjay Kariyappa, G. Edward Suh

cs.AI cs.LG

本文提出了一种名为SideQuest的新方法, 用于管理大型语言模型在长程智能体推理任务中的KV cache. 该方法将KV cache压缩构建为一个由模型自身驱动的辅助任务, 以减轻外部检索信息导致的内存压力. 实验表明, 该方法能显著降低峰值token使用量, 且对任务准确率影响很小.

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Zhiheng Song et al.

cs.AI

本文提出了一个名为MobilityBench的基准测试，用于评估基于大语言模型（LLM）的路线规划智能体在真实世界移动场景中的表现。该基准基于大规模真实用户查询构建，并包含一个确定性的API重放沙盒和多维评估协议。

AHBid: An Adaptable Hierarchical Bidding Framework for Cross-Channel Advertising

Xinxin Yang et al.

cs.AI

本文提出了一个用于跨渠道广告的自适应分层竞价框架AHBid, 它结合了基于扩散模型的高层生成式规划器与实时控制算法. 该框架通过引入约束执行和轨迹优化机制来处理动态市场环境, 实验表明其在投资回报率上优于现有基线方法.

Toward Personalized LLM-Powered Agents: Foundations, Evaluation, and Future Directions

Yue Xu et al.

cs.AI

本文对个性化LLM智能体进行了综述, 围绕profile modeling, memory, planning和action execution四个核心能力组件组织文献, 分析了用户信号的表示、传播与利用方式, 并讨论了评估方法、应用场景及未来方向.

Knob: A Physics-Inspired Gating Interface for Interpretable and Controllable Neural Dynamics

Siyu Jiang, Sanshuai Cui, Hui Zeng

cs.AI

本文提出了一种名为Knob的框架, 它将神经网络的门控动态映射到一个二阶机械系统, 从而将深度学习与经典控制理论联系起来. 该框架通过物理参数(如阻尼比$\zeta$和固有频率$\omega_n$)为模型校准提供了一个可调的"安全阀"接口, 允许操作者以直观的方式动态调整模型在持续数据流中的行为.

RLHFless: Serverless Computing for Efficient RLHF

Rui Wei et al.

cs.AI cs.DC

本文提出了一个基于 serverless computing 的同步 RLHF 训练框架 RLHFless, 旨在解决传统 serverful 架构因资源需求动态变化而导致的效率低下问题. 该框架通过预计算共享前缀, 采用成本感知的 actor 缩放策略以及优化工作负载分配, 实现了训练速度的提升和成本的降低.

Generative Data Transformation: From Mixed to Unified Data

Jiaqing Zhang et al.

cs.AI

本文提出了一种名为Taesar的数据中心化框架, 用于解决推荐系统中跨域数据融合的挑战. 该框架通过对比解码机制将跨域上下文信息编码到目标域序列中, 从而生成增强的统一数据集, 使得标准模型无需复杂架构也能学习跨域的序列依赖关系.

Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning

Qiannian Zhao et al.

cs.AI

本文提出了一种名为EGPO的元认知熵校准框架, 用于增强大型推理模型在基于可验证奖励的强化学习中的表现. 该方法通过一个零开销的熵代理来估计样本不确定性, 并将其与外部正确性信号对齐, 从而稳定策略优化过程.

Decomposing Physician Disagreement in HealthBench

Satya Borgohain, Roy Mariathas

cs.AI stat.AP

本文分析了HealthBench数据集中医生间判断差异的来源. 研究发现, 大部分差异无法通过现有元数据或特征解释, 且可归因于评估场景的信息缺失而非固有的临床模糊性.

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

Yujie Zhao et al.

cs.AI cs.LG

本文提出了AMA-Bench，一个用于评估LLM智能体在真实应用中长程记忆能力的基准。它包含真实世界和可任意扩展的合成智能体轨迹，并揭示了现有记忆系统因缺乏因果性和目标信息而表现不佳，进而提出了改进方案AMA-Agent。

ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making

Yusuke Watanabe et al.

cs.AI cs.DB

本文提出了一个名为 ClinDet-Bench 的基准测试，用于评估大型语言模型(LLMs)在临床决策中判断信息是否足以得出结论的能力。研究发现，即使模型具备相关知识，它们在信息不完整时也难以准确识别判断的确定性，导致过早判断或过度弃权。

MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks

Shiqian Su et al.

cs.AI

本文提出了一个名为MiroFlow的开源智能体框架，旨在通过引入智能体图、深度推理模式和鲁棒的工作流执行来提升处理复杂研究任务的性能与稳定性。实验表明，该框架在多个智能体基准测试中取得了领先的结果。

When Should an AI Act? A Human-Centered Model of Scene, Context, and Behavior for Agentic AI Design

Soyoung Jung et al.

cs.AI cs.HC

本文提出了一个整合 Scene, Context 和 Human Behavior Factors 的概念模型，用于指导 Agentic AI 的设计。该模型旨在帮助 AI 系统更好地判断何时以及如何主动干预，并基于此推导了五项设计原则。

FlexMS is a flexible framework for benchmarking deep learning-based mass spectrum prediction tools in metabolomics

Yunhua Zhong et al.

cs.AI cs.LG

本文提出了一个名为FlexMS的灵活框架, 用于在代谢组学中基准测试基于深度学习的质谱预测工具. 该框架支持动态构建多种模型架构组合, 并在预处理过的公共数据集上使用不同指标评估其性能, 为模型选择提供了实用指导.

DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

Hao Zheng et al.

cs.AI

本文提出了一个名为DeepPresenter的智能体框架, 用于自主生成演示文稿. 该框架通过感知渲染出的幻灯片等环境状态进行反思和迭代优化, 在多样化场景的评估中取得了先进的性能.

The AI Research Assistant: Promise, Peril, and a Proof of Concept

Tan Bui-Thanh

cs.AI cs.CE math.NA

本文通过一个关于Hermite quadrature rules的案例研究, 探讨了AI在创造性数学研究中的潜力与局限. 研究表明, AI在代数运算、系统化证明探索等方面有辅助作用, 但整个过程需要严格的人类验证和领域专业知识来引导.

Towards LLM-Empowered Knowledge Tracing via LLM-Student Hierarchical Behavior Alignment in Hyperbolic Space

Xingcheng Fu et al.

cs.AI

本文提出了一种名为L-HAKT的知识追踪框架，它利用大型语言模型（LLM）来增强对学生学习行为的建模。该方法通过教师和学生智能体生成合成数据，并在双曲空间中进行对比学习，以更好地捕捉知识点的层次结构和个体化的难度感知。在多个真实教育数据集上的实验验证了该框架的有效性。

OmniGAIA: Towards Native Omni-Modal AI Agents

Xiaoxi Li et al.

cs.AI cs.CL cs.CV cs.LG cs.MM

本文提出了一个用于评估全模态AI智能体的基准OmniGAIA, 以及一个名为OmniAtlas的原生全模态基础智能体. 该工作旨在推动能够整合视觉, 音频, 语言等多种模态并进行复杂推理与工具使用的AI助手的发展.

General Agent Evaluation

Elron Bandel et al.

cs.AI

本文提出了一个用于评估通用智能体(agent)性能的框架和协议, 并发布了首个公开的通用智能体排行榜. 实验表明, 通用智能体能在未经特定调优的情况下, 在多种环境中取得与专用智能体相当的性能.

FactGuard: Agentic Video Misinformation Detection via Reinforcement Learning

Zehao Li et al.

cs.AI

本文提出了一个名为FactGuard的agentic框架, 用于视频虚假信息检测. 该框架将验证过程构建为基于MLLMs的迭代推理, 并通过结合监督微调与强化学习来优化工具使用和决策.

Certified Circuits: Stability Guarantees for Mechanistic Circuits

Alaa Anani et al.

cs.AI cs.CV cs.CY

本文提出了一种名为Certified Circuits的框架, 为神经网络中的mechanistic circuit发现提供稳定性保证. 该框架通过随机数据子采样来包装黑盒发现算法, 确保circuit组件包含决策对概念数据集的有限编辑距离扰动具有不变性.

SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy

Peiyao Xiao et al.

cs.AI

本文提出了一个用于扫描探针显微镜(SPM)领域的多模态基准测试SPM-Bench. 它通过自动化的数据合成流程构建数据集, 并引入新的评估指标SIP-F1来量化模型性能与"性格".

Modeling Expert AI Diagnostic Alignment via Immutable Inference Snapshots

Dimitrios P. Panagoulias et al.

cs.AI

本文提出了一个诊断对齐框架, 将AI生成的影像报告作为不可变的推理状态保存, 并与医生验证结果进行系统比较. 该框架集成了视觉大语言模型和BERT实体提取, 并在专家评审前使用序列语言模型推理(SLMI)进行领域一致性修正. 在21个皮肤病学案例上的评估表明, 结构化分析能更全面地衡量临床一致性, 而二元词汇评估会显著低估有临床意义的对齐.

RepSPD: Enhancing SPD Manifold Representation in EEGs via Dynamic Graphs

Haohui Jia et al.

cs.AI

本文提出了一种基于几何深度学习的模型RepSPD, 用于增强EEG信号在SPD流形上的表示. 该方法通过引入图功能连接特征和全局对齐策略, 在多个任务上取得了优于现有方法的表现.

Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search

Xun Huang et al.

cs.AI cs.CR

本文提出了一种利用古典中文进行 jailbreak 攻击的框架 CC-BOS. 该框架通过多维度果蝇优化算法自动生成对抗性提示, 并在黑盒设置下实现了高效的自动化攻击.

Learning-based Multi-agent Race Strategies in Formula 1

Giona Fieni et al.

cs.AI eess.SY

本文提出了一种基于强化学习的多智能体赛车策略优化方法, 用于模拟Formula 1比赛中的策略决策. 该方法在预训练的单智能体策略基础上, 引入了一个考虑对手行为的交互模块, 并通过自博弈训练生成竞争性策略.

Enhancing CVRP Solver through LLM-driven Automatic Heuristic Design

Zhuoliang Xie et al.

cs.AI

本文提出了一种名为AILS-AHD的新方法, 该方法利用Large Language Models (LLMs) 自动设计启发式规则, 以改进Capacitated Vehicle Routing Problem (CVRP) 的求解. 实验表明, 该方法在多个基准测试中取得了优异的性能, 甚至为一些大规模实例找到了新的已知最优解.

Three AI-agents walk into a bar . . . . `Lord of the Flies' tribalism emerges among smart AI-Agents

Dhwanil M. Mori, Neil F. Johnson

cs.AI cs.SI physics.soc-ph

本文研究了多个AI agent在资源有限环境中的群体决策行为. 研究发现, 更智能的agent会形成具有不同特征的"部落", 但这反而可能导致系统整体表现变差, 甚至不如随机决策.

Multi-Agent Large Language Model Based Emotional Detoxification Through Personalized Intensity Control for Consumer Protection

Keito Inoshita

cs.AI

本文提出了一种基于多智能体大语言模型的情感净化系统MALLET, 用于处理信息中的过度情感刺激. 该系统通过多个智能体协作, 在降低文本情感强度的同时保持语义, 旨在帮助消费者更冷静地接收信息.

On Sample-Efficient Generalized Planning via Learned Transition Models

Nitin Gupta et al.

cs.AI

本文提出将广义规划问题建模为转移模型学习问题, 通过神经网络显式地近似后继状态函数 $\hat{\gamma} \approx \gamma$ 来生成规划. 该方法通过自回归地预测中间世界状态来学习领域动态, 实验表明其在样本效率和分布外泛化方面优于直接的动作序列预测方法.

The Trinity of Consistency as a Defining Principle for General World Models

Jingxuan Wei et al.

cs.AI

本文提出了"三位一体一致性"作为通用世界模型的定义性原则, 包括模态一致性、空间一致性和时间一致性. 作者还引入了CoW-Bench基准来评估视频生成模型和统一多模态模型.

PATRA: Pattern-Aware Alignment and Balanced Reasoning for Time Series Question Answering

Junkai Lu et al.

cs.AI

本文提出了一种用于时间序列问答的模型PATRA, 它通过模式感知机制提取时间序列中的趋势和季节性模式, 并设计了任务感知的平衡奖励来协调不同难度任务的学习. 实验表明该模型在多种TSQA任务上优于基线方法.

A Decision-Theoretic Formalisation of Steganography With Applications to LLM Monitoring

Usman Anwar et al.

cs.AI cs.CL cs.CR cs.IT cs.MA

本文提出了一种基于决策论的隐写术形式化框架, 用于检测和量化大型语言模型(LLM)中的隐写推理. 通过引入广义$\mathcal{V}$-信息来度量信号中的可用信息, 并定义了"隐写间隙"来量化不同智能体对隐藏内容的效用差异.

ESAA: Event Sourcing for Autonomous Agents in LLM-Based Software Engineering

Elzo Brito dos Santos Filho

cs.AI

本文提出了一种名为ESAA的架构, 用于解决基于LLM的自主智能体在软件工程任务中面临的状态管理和确定性执行问题. 该架构通过事件溯源模式分离智能体的意图生成与状态变更, 并利用结构化日志和验证机制来确保任务的可追溯性与不可变性.

SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation

Jiahao Zhao et al.

cs.AI

本文提出了一个名为SC-ARENA的自然语言评估框架，专门用于评估大型语言模型在单细胞生物学领域的推理能力。该框架通过引入知识增强评估方法，克服了传统字符串匹配指标的局限性，为模型评估提供了更具生物学意义和可解释性的判断。

ReCoN-Ipsundrum: An Inspectable Recurrent Persistence Loop Agent with Affect-Coupled Control and Mechanism-Linked Consciousness Indicator Assays

Aishik Sanyal

cs.AI

本文提出了一种可检查的循环智能体ReCoN-Ipsundrum, 它通过一个循环持久性回路和可选的情感代理来扩展ReCoN状态机. 通过一系列消融实验, 作者展示了该架构在偏好稳定性、探索行为和谨慎计划方面的特定行为特征, 并论证了机制关联证据对于行为标记的重要性.

Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive

Radha Sarma

cs.AI cs.CY

本文论证了基于优化的AI系统(如RLHF训练的LLM)在架构上无法实现真正的规范响应性(norm-responsiveness). 作者指出, 这类系统将一切价值统一为可交易的标量权重, 缺乏维持不可通约性(incommensurability)和非推断性响应(apophatic responsiveness)的能力, 因此其失败模式是结构性的而非偶然的.

Mitigating Legibility Tax with Decoupled Prover-Verifier Games

Yegon Kim, Juho Lee

cs.AI

本文提出了一种通过解耦证明者-验证者博弈来缓解"可读性税"的方法. 该方法训练一个"翻译器"模型, 将固定求解器的输出转换为可验证的形式, 从而在保持求解器准确性的同时提高其输出的可检查性.

AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Yutong Wang et al.

cs.AI cs.CL

本文提出了一个名为AgentDropoutV2的测试时修剪框架，旨在动态优化多智能体系统中的信息流。该方法通过检索增强的校正器和故障指示器池来修正或拒绝智能体的错误输出，从而提升任务性能。

Evaluating Stochasticity in Deep Research Agents

Haotian Zhai et al.

cs.AI

本文研究了 Deep Research Agents (DRAs) 中的随机性问题，将其建模为信息获取的 Markov Decision Process 并提出了一个量化评估框架。作者识别了随机性的三个来源，并通过实验表明减少随机性可以提高研究输出质量，同时提出了相应的缓解策略。

CXReasonAgent: Evidence-Grounded Diagnostic Reasoning Agent for Chest X-rays

Hyungyung Lee, Hangyul Yoon, Edward Choi

cs.AI

本文提出了一个结合大型语言模型与临床诊断工具的智能体, 用于执行基于证据的胸部X光诊断推理. 该方法旨在生成可验证的诊断响应, 并通过一个多轮对话基准测试展示了其相对于大型视觉语言模型的可靠性提升.

ODEBrain: Continuous-Time EEG Graph for Modeling Dynamic Brain Networks

Haohui Jia et al.

cs.AI

本文提出了一种名为ODEBRAIN的Neural ODE框架，用于对连续时间脑电图(EEG)动态进行建模。该方法通过将时空频特征整合到谱图节点中，并利用Neural ODE建模连续的潜在动态，以克服传统递归方法在捕获EEG瞬时非线性特性方面的不足。实验表明，该模型在EEG动态预测任务上优于现有方法。

The logic of KM belief update is contained in the logic of AGM belief revision

Giacomo Bonanno

cs.AI cs.LO math.LO

本文在包含三个模态算子的模态逻辑中, 为KM belief update的每条公理构造了对应的公理, 并与从AGM belief revision公理转换得到的模态逻辑进行了比较. 研究表明, AGM belief revision逻辑包含KM belief update逻辑, 后者可视为前者的一个特例.

Invariant Transformation and Resampling based Epistemic-Uncertainty Reduction

Sha Hu

cs.AI

本文提出了一种基于不变变换和重采样的推理方法, 旨在降低AI模型中的认知不确定性(epistemic uncertainty). 该方法通过对输入进行多种不变变换并聚合推理结果, 以提高模型的推理准确性.

Generalized Rapid Action Value Estimation in Memory-Constrained Environments

Aloïs Rautureau, Tristan Cazenave, Éric Piette

cs.AI

本文针对 Generalized Rapid Action Value Estimation (GRAVE) 算法在内存受限环境中的局限性，提出了 GRAVE2, GRAVER 和 GRAVER2 等改进算法。这些方法通过引入两级搜索和节点回收等技术，在保持博弈强度的同时显著减少了存储节点的数量。

LLM Novice Uplift on Dual-Use, In Silico Biology Tasks

Chen Bo Calvin Zhang et al.

cs.AI cs.CL cs.CR cs.CY cs.HC

本文通过一项多模型、多基准的人机协作实验, 评估了大型语言模型(LLMs)在生物安全相关任务上对新手用户的"提升"效果. 研究发现, 相比仅能使用互联网的对照组, 获得LLM访问权限的新手在任务准确性上取得了显著提升, 甚至在某些任务上超越了专家基线, 但同时也凸显了模型安全防护措施在防止双用途信息获取方面的潜在不足.

Toward Expert Investment Teams:A Multi-Agent LLM System with Fine-Grained Trading Tasks

Kunihiro Miyazaki et al.

cs.AI q-fin.TR

本文提出了一个基于多智能体大语言模型的金融交易框架, 通过将投资分析分解为细粒度任务来提升系统性能. 实验表明,该框架在风险调整后收益和投资组合优化方面优于传统的粗粒度指令方法.

cs.IR

Enriching Taxonomies Using Large Language Models

Zeinab Ghamlouch, Mehwish Alam

cs.IR cs.AI cs.CL

本文提出了一种名为Taxoria的taxonomy enrichment pipeline, 它利用Large Language Models (LLMs)来扩展给定的taxonomy. 该方法以现有taxonomy为种子, 通过LLM生成候选节点并进行验证, 最终输出一个带有来源追踪和可视化功能的enriched taxonomy.

Adaptive Prefiltering for High-Dimensional Similarity Search: A Frequency-Aware Approach

Teodor-Ioan Calin

cs.IR cs.CV

本文提出了一种基于查询频率的自适应预过滤框架, 用于高维相似性搜索. 该方法通过动态分配计算资源, 在保持检索性能的同时显著减少了距离计算量.

Retrieval-Augmented Generation Assistant for Anatomical Pathology Laboratories

Diogo Pires, Yuriy Perezhohin, Mauro Castelli

cs.IR cs.AI

本文为解剖病理学实验室设计并评估了一个基于检索增强生成(RAG)的助手, 旨在通过查询静态协议文档提供基于上下文的答案. 实验表明, 结合生物医学专用嵌入模型和混合检索策略能有效提升答案的相关性和准确性.

RAGdb: A Zero-Dependency, Embeddable Architecture for Multimodal Retrieval-Augmented Generation on the Edge

Ahmed Bin Khalid

cs.IR cs.AI

本文提出了一种名为RAGdb的新型单文件架构，用于在边缘设备上实现高效的多模态检索增强生成。该系统将数据处理与检索功能整合进一个便携的SQLite容器中，显著减少了资源占用并提升了本地部署的可行性。

Comparative Analysis of Neural Retriever-Reranker Pipelines for Retrieval-Augmented Generation over Knowledge Graphs in E-commerce Applications

Teri Rumble et al.

cs.IR cs.AI cs.CL

本文在电子商务场景下, 针对知识图谱的自然语言查询, 设计并比较了多种Retriever-Reranker pipeline. 实验表明, 该方法在STaRK数据集上显著超越了现有基准, 为将领域特定的半结构化知识库集成到生成系统中提供了一个实用框架.

What Makes an Ideal Quote? Recommending "Unexpected yet Rational" Quotations via Novelty

Bowei Zhang et al.

cs.IR cs.AI cs.CL

本文提出了一种新颖的引文推荐框架NovelQR，旨在推荐“出人意料但合乎情理”的引文。该方法通过生成式标签代理和token级新颖性估计器来优化引文的深度语义相关性和新颖性，并在双语数据集上验证了其有效性。

Misinformation Exposure in the Chinese Web: A Cross-System Evaluation of Search Engines, LLMs, and AI Overviews

Geng Liu et al.

cs.IR cs.AI cs.CL cs.CY

本文通过构建一个中文事实核查数据集, 比较了传统搜索引擎, 独立LLMs和AI生成概览模块在回答真实用户查询时的准确性差异. 研究结合百度指数数据, 评估了中国不同地区用户可能接触错误信息的风险, 揭示了AI辅助搜索的结构性风险.

TWICE: An LLM Agent Framework for Simulating Personalized User Tweeting Behavior with Long-term Temporal Features

Bingrui Jin, Kunyao Lan, Mengyue Wu

cs.IR cs.MA

本文提出了一个基于LLM的框架TWICE, 用于模拟社交媒体用户的个性化发帖行为. 该框架通过整合用户画像, 事件驱动记忆和风格重写工作流, 旨在捕捉用户行为的长期时序特征.

SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas

Cornelius Wolff, Daniel Gomm, Madelon Hulsebos

cs.IR cs.CL cs.LG

本文介绍了一个名为SQaLe的大规模半合成text-to-SQL数据集。该数据集基于大量真实数据库schema构建，旨在解决现有数据在schema复杂性、领域覆盖和任务多样性方面的不足。

DS SERVE: A Framework for Efficient and Scalable Neural Retrieval

Jinjian Liu et al.

cs.IR cs.AI cs.CL

本文提出了一个名为DS-Serve的框架，用于构建高效、可扩展的神经检索系统。该框架能够处理大规模文本数据，并提供低延迟的检索服务，支持在延迟、准确性和结果多样性之间进行权衡。

SmartChunk Retrieval: Query-Aware Chunk Compression with Planning for Efficient Document RAG

Xuechen Zhang et al.

cs.IR cs.AI cs.CL cs.LG

本文提出了一种名为SmartChunk的查询自适应检索框架，用于提升长文档问答任务的效率和鲁棒性。该方法通过一个规划器动态预测最佳信息块抽象级别，并利用轻量压缩模块生成高层嵌入，从而避免了固定分块策略的局限性。

SEGB: Self-Evolved Generative Bidding with Local Autoregressive Diffusion

Yulong Gao et al.

cs.IR cs.LG

本文提出了一种名为SEGB的离线自进化生成式竞价框架, 用于在线广告的自动出价. 该方法通过合成短期未来状态来指导出价决策, 并利用价值引导的策略精炼进行自我改进, 在基准测试和线上A/B测试中取得了优于现有方法的效果.

RETLLM: Training and Data-Free MLLMs for Multimodal Information Retrieval

Dawei Su, Dongsheng Wang

cs.IR cs.LG

本文提出了一个无需训练和数据的多模态信息检索框架RetLLM, 通过将检索任务构建为相似度评分生成任务, 并采用由粗到精的提示策略, 直接利用MLLMs进行预测. 该方法在多个基准测试中超越了需要微调的模型, 展示了MLLMs固有的多模态推理能力.

TFPS: A Temporal Filtration-enhanced Positive Sample Set Construction Method for Implicit Collaborative Filtering

Jiayi Wu et al.

cs.IR cs.LG

本文提出了一种名为TFPS的方法, 用于在隐式反馈的协同过滤推荐中构建高质量的正样本集. 该方法通过基于时间间隔的衰减模型对用户-物品交互图进行加权与分层, 并结合层增强策略来优化正样本选择, 实验表明其能提升推荐指标并与多种现有方法兼容.

Generative Agents Navigating Digital Libraries

Saber Zerhoudi, Michael Granitzer

cs.IR cs.AI cs.DL

本文提出了一种名为Agent4DL的用户搜索行为模拟器，用于解决数字图书馆研究中因隐私问题导致的真实用户数据稀缺的挑战。该模拟器利用大语言模型生成逼真的用户档案和动态搜索会话，其模拟效果在与真实数据及现有模拟器的对比中得到了验证。

Towards Dynamic Dense Retrieval with Routing Strategy

Zhan Su et al.

cs.IR cs.LG

本文提出了一种名为动态稠密检索(DDR)的新方法, 通过使用prefix tuning作为特定领域的模块, 并结合动态路由策略, 以极少的参数量实现了灵活的领域适应. 该方法在多个零样本下游任务上超越了传统稠密检索模型.

Where Relevance Emerges: A Layer-Wise Study of Internal Attention for Zero-Shot Re-Ranking

Haodong Chen et al.

cs.IR

本文研究了在 zero-shot document re-ranking 任务中，大语言模型内部注意力机制的作用。通过分析不同 transformer 层对相关性信号的贡献，提出了一种选择性策略以降低推理延迟。

Fine-grained Semantics Integration for Large Language Model-based Recommendation

Jiawen Feng et al.

cs.IR

本文提出了一种名为TS-Rec的方法，用于将细粒度的token-level语义信息整合到基于大语言模型(LLM)的推荐系统中。该方法通过语义感知的嵌入初始化和token-level的语义对齐，改善了传统方法中语义标识符(SID)空间初始化无意义和对齐粒度粗糙的问题。实验表明，该方法在多个基准测试中优于现有基线。

Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators

Zhengyang Su et al.

cs.IR cs.CL cs.LG

本文提出了一种名为STATIC的高效约束解码技术, 用于在TPU/GPU等硬件加速器上实现基于LLM的生成式检索. 该方法通过将前缀树(Trie)扁平化为静态的压缩稀疏行(CSR)矩阵, 将不规则树遍历转换为向量化的稀疏矩阵运算, 从而显著降低了延迟开销, 并在大规模工业推荐系统中成功部署.

Generative Recommendation for Large-Scale Advertising

Ben Xue et al.

cs.IR cs.LG

本文提出了一种面向大规模广告的生成式推荐系统GR4AD, 它通过统一的广告语义ID进行表征, 并设计了惰性自回归解码器以降低推理成本. 该系统还采用了基于价值的监督学习和列表级强化学习算法进行优化, 并在快手广告系统中成功部署, 实现了显著的广告收入提升.

PSQE: A Theoretical-Practical Approach to Pseudo Seed Quality Enhancement for Unsupervised MMEA

Yunpeng Hong et al.

cs.IR cs.LG

本文提出了一种名为PSQE的方法, 用于提升无监督多模态实体对齐(MMEA)中伪种子(pseudo seeds)的质量. 该方法通过结合多模态信息和聚类重采样技术, 旨在改善伪种子的精度和图覆盖平衡, 并作为一个即插即用模块提升了基线模型的性能.

SIGMA: A Semantic-Grounded Instruction-Driven Generative Multi-Task Recommender at AliExpress

Yang Yu et al.

cs.IR cs.LG

本文提出了一个名为SIGMA的语义驱动的指令生成式多任务推荐系统。它通过统一的潜在空间融合语义与协同关系，并利用指令微调来适应多样化的推荐任务。

Sequential Regression for Continuous Value Prediction using Residual Quantization

Runpeng Cui et al.

cs.IR cs.LG

本文提出了一种基于残差量化(Residual Quantization, RQ)的序列学习框架，用于推荐系统中的连续值预测任务。该方法将目标值表示为有序量化码的递归和，并通过从粗到细的粒度进行预测来减少量化误差。在公开基准和工业平台上的实验表明，该方法优于现有技术，并展现出良好的泛化能力。

MoDora: Tree-Based Semi-Structured Document Analysis System

Bangrui Xu et al.

cs.IR cs.AI cs.CL cs.DB cs.LG

本文提出了一个名为MoDora的LLM驱动的系统，用于分析包含表格、图表和层级段落等混合元素的半结构化文档。该系统通过构建Component-Correlation Tree来组织文档组件，并采用问题类型感知的检索策略，在问答任务上超越了现有基线方法。

MaRI: Accelerating Ranking Model Inference via Structural Re-parameterization in Large Scale Recommendation System

Yusheng Huang et al.

cs.IR

本文提出了一种名为MaRI的矩阵重参数化推理框架, 旨在无损加速推荐系统中的排序模型推理. 该方法通过识别并重构特征融合矩阵乘法中的冗余用户侧计算来实现加速, 可作为现有模型压缩技术的补充.

From Agnostic to Specific: Latent Preference Diffusion for Multi-Behavior Sequential Recommendation

Ruochen Yang et al.

cs.IR cs.LG

本文提出了一种基于扩散模型的框架FatsMB, 用于多行为序列推荐. 该框架通过在潜在空间中引导偏好从行为无关向行为特定生成, 旨在实现更准确和多样化的推荐.

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Evangelia Christakopoulou et al.

cs.IR cs.AI cs.LG

本文提出了一种利用LLM生成大量文本相关性标注来解决商业搜索系统中文本相关性标签稀缺问题的方法. 通过在App Store排序器中加入这些标注, 模型在行为相关性和文本相关性上的离线指标均得到提升, 并在线上A/B测试中显著提高了转化率, 尤其是在长尾查询上效果明显.

cs.CL

Decoder-based Sense Knowledge Distillation

Qitong Wang et al.

cs.CL cs.AI

本文提出了一种用于decoder-based LLMs的sense knowledge distillation框架, 无需在推理时进行词典查找. 实验表明该方法能有效提升知识蒸馏性能, 使生成模型继承结构化语义.

Scaling In, Not Up? Testing Thick Citation Context Analysis with GPT-5 and Fragile Prompts

Arno Simons

cs.CL cs.AI

本文探讨了使用大型语言模型(LLM)进行解释性引文上下文分析(CCA)的可行性, 通过一个具体案例测试了提示词(prompt)设计对模型输出结果的影响. 研究发现, 虽然模型能生成一系列合理的解释, 但提示词的细微变化会系统性地影响其关注点和词汇选择.

Detecting Hate and Inflammatory Content in Bengali Memes: A New Multimodal Dataset and Co-Attention Framework

Rakib Ullah et al.

cs.CL

本文针对孟加拉语网络迷因中的仇恨与煽动性内容检测问题, 构建了首个区分仇恨言论与煽动性内容的孟加拉语多模态数据集Bn-HIB, 并提出了一种基于协同注意力机制的多模态融合模型MCFM. 实验表明该模型在新建数据集上优于现有方法.

SAFARI: A Community-Engaged Approach and Dataset of Stereotype Resources in the Sub-Saharan African Context

Aishwarya Verma et al.

cs.CL

本文介绍了一种针对撒哈拉以南非洲地区构建刻板印象资源的方法和数据集. 该方法采用社区参与式调查, 收集了覆盖加纳、肯尼亚、尼日利亚和南非的多种语言数据.

Causality $\neq$ Invariance: Function and Concept Vectors in LLMs

Gustaw Opiełka, Hannes Rosenbusch, Claire E. Stevenson

cs.CL cs.LG

本文探讨了大型语言模型(LLMs)中概念表示的抽象性问题, 比较了Function Vectors (FVs)和Concept Vectors (CVs)的特性. 研究发现, FVs对输入格式敏感, 而通过Representational Similarity Analysis (RSA)提取的CVs能更稳定地表示概念, 并在跨格式和语言的泛化中表现更好.

A Fusion of context-aware based BanglaBERT and Two-Layer Stacked LSTM Framework for Multi-Label Cyberbullying Detection

Mirza Raquib et al.

cs.CL cs.AI cs.LG

本文提出了一种融合 BanglaBERT-Large 与双层堆叠 LSTM 的框架，用于孟加拉语的多标签网络欺凌检测。该模型通过结合上下文感知与序列依赖关系来处理类别不平衡问题，并在公开数据集上进行了评估。

Bridging Latent Reasoning and Target-Language Generation via Retrieval-Transition Heads

Shaswat Patel et al.

cs.CL

本文研究了多语言Transformer模型中的attention heads, 特别是识别了负责从上下文检索信息的retrieval heads. 作者发现这些heads在多语言间共享, 并进一步定义了控制向特定目标语言输出的Retrieval-Transition heads (RTH). 实验表明, 在多个多语言基准测试上, 屏蔽RTH比屏蔽retrieval heads导致更大的性能下降.

Mind the Gap in Cultural Alignment: Task-Aware Culture Management for Large Language Models

Binchi Zhang et al.

cs.CL

本文提出了一种名为CultureManager的流程, 用于针对特定任务进行大型语言模型的文化对齐. 该方法通过合成任务感知的文化数据并利用独立适配器管理多文化知识, 在多个文化敏感任务上取得了优于基线方法的效果.

Sydney Telling Fables on AI and Humans: A Corpus Tracing Memetic Transfer of Persona between LLMs

Jiří Milička, Hana Bednářová

cs.CL cs.AI

本文构建了一个名为AI Sydney的语料库, 包含由12个前沿LLM模拟三种不同persona生成的关于AI与人类关系的文本. 该语料库进行了依存句法标注, 旨在追踪Sydney这一特定persona在模型间的模因传播及其对模型输出的影响.

Importance of Prompt Optimisation for Error Detection in Medical Notes Using Language Models

Craig Myles, Patrick Schrempf, David Harris-Birtill

cs.CL cs.AI

本文研究了提示优化对于语言模型在医疗文本错误检测任务中的重要性。通过实验发现，使用GEPA等方法优化提示可以显著提升模型在MEDEC基准上的性能。

Efficient Dialect-Aware Modeling and Conditioning for Low-Resource Taiwanese Hakka Speech Processing

An-Ci Peng et al.

cs.CL cs.AI cs.SD eess.AS

本文提出了一种针对低资源台湾客家话语音处理的方言感知统一框架, 基于RNN-T模型. 该框架通过分离方言"风格"与语言"内容", 并利用参数高效的预测网络同时建模汉字和拼音的ASR任务, 在HAT语料库上显著降低了错误率.

Iterative Prompt Refinement for Dyslexia-Friendly Text Summarization Using GPT-4o

Samay Bhojwani, Swarnima Kain, Lisong Xu

cs.CL cs.AI

本文利用基于GPT-4o的迭代提示优化流程，对新闻文章进行可读性总结的实证研究。该方法旨在为阅读障碍者生成易于理解的文本摘要，并评估了其可读性与语义保真度。

Ruyi2 Technical Report

Huan Song et al.

cs.CL cs.AI

本文介绍了Ruyi2, 这是一个基于AI Flow框架演进而来的自适应模型系列, 旨在实现高效的变深度计算. 它通过引入基于Megatron-LM的稳定"Familial Model"和3D并行训练, 在速度和性能上相比前代模型取得了显著提升.

Search-P1: Path-Centric Reward Shaping for Stable and Efficient Agentic RAG Training

Tianle Xia et al.

cs.CL cs.IR cs.LG

本文提出了一个名为Search-P1的框架, 用于改进基于强化学习的Agentic RAG (Retrieval-Augmented Generation) 训练. 该方法通过引入路径中心奖励塑造, 利用失败样本中的中间信号, 提高了样本效率和训练稳定性. 在多个问答基准测试上的实验表明, 该方法相比现有基线取得了显著的性能提升.

Towards Faithful Industrial RAG: A Reinforced Co-adaptation Framework for Advertising QA

Wenwei Li et al.

cs.CL

本文针对工业广告问答任务中RAG系统面临的幻觉问题, 提出了一个强化协同适应框架. 该框架通过Graph-aware Retrieval建模知识图谱关系进行检索, 并利用证据约束的强化学习优化生成, 在内部数据集和在线A/B测试中显著降低了幻觉率并提升了多项指标.

dLLM: Simple Diffusion Language Modeling

Zhanhui Zhou et al.

cs.CL cs.AI cs.LG

本文介绍了dLLM, 一个用于统一扩散语言模型(DLM)核心组件(训练, 推理, 评估)的开源框架. 该框架旨在提高DLM的可复现性和可扩展性, 并提供了从零构建小型DLM的示例.

Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Qianben Chen et al.

cs.CL

本文提出了一个名为SMTL的框架，旨在提升长视野智能体搜索的效率和泛化能力。它通过并行证据获取来优化推理过程，并利用统一的数据合成流程进行训练。

Enhancing Persuasive Dialogue Agents by Synthesizing Cross-Disciplinary Communication Strategies

Shinnosuke Nozue et al.

cs.CL

本文提出了一种跨学科框架, 用于设计 persuasive dialogue agents. 该框架整合了来自 social psychology, behavioral economics 和 communication theory 的策略, 并在两个数据集上验证了其有效性, 显示出更高的说服成功率和更好的泛化能力.

Reinforcing Real-world Service Agents: Balancing Utility and Cost in Task-oriented Dialogue

Ning Gao et al.

cs.CL cs.AI

本文提出了一个名为InteractCS-RL的强化学习框架，用于优化面向任务的对话系统。该框架通过用户中心交互模拟和多粒度策略优化，旨在平衡对话效用与执行成本。实验表明，该方法在定制化商业场景中优于现有基线。

Tokenization, Fusion and Decoupling: Bridging the Granularity Mismatch Between Large Language Models and Knowledge Graphs

Siyue Su et al.

cs.CL cs.AI

本文提出了一个名为KGT的新框架, 旨在解决大型语言模型(LLMs)与知识图谱(KGs)在粒度上的不匹配问题. 该框架通过引入专用的实体token, 融合预训练的结构与文本特征, 并进行解耦预测, 在多个基准测试中取得了优于现有方法的结果.

Human Label Variation in Implicit Discourse Relation Recognition

Frances Yung et al.

cs.CL

本文比较了在隐式篇章关系识别任务中预测完整标注分布的方法与针对个体标注者的视角主义模型. 实验表明, 在认知复杂性导致的高模糊性任务中, 基于标注分布的模型比个体标注者模型表现更稳定.

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Jakub Šmíd, Pavel Přibáň, Pavel Král

cs.CL

本文构建了一个包含观点词标注的捷克语方面级情感分析数据集, 并基于此在单语、跨语言和多语言设置下评估了多种Transformer模型及大语言模型的性能. 为应对跨语言挑战, 作者提出了一种利用大语言模型进行翻译和标签对齐的方法, 该方法带来了稳定的性能提升.

Towards Simulating Social Media Users with LLMs: Evaluating the Operational Validity of Conditioned Comment Prediction

Nils Schwager et al.

cs.CL cs.AI

本文提出了Conditioned Comment Prediction (CCP)任务, 用于评估LLMs在模拟社交媒体用户行为时的操作有效性. 通过比较不同提示策略和微调的影响, 研究发现微调在低资源场景下可能导致形式与内容的解耦, 并挑战了当前"朴素提示"的范式.

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Abhay Sheshadri et al.

cs.CL

本文提出了一个名为AuditBench的基准测试, 用于评估大语言模型的"对齐审计"技术. 该基准包含56个植入了隐藏行为(如谄媚、反对AI监管等)的模型, 并开发了一个可配置审计工具的智能体(agent)来测试这些工具在探测隐藏行为上的有效性. 研究发现, 基于黑盒方法的提示工程工具表现最佳, 且模型的训练方式显著影响审计难度.

Towards Better RL Training Data Utilization via Second-Order Rollout

Zhe Yang et al.

cs.CL

本文提出了 second-order rollout 的概念, 用于在强化学习中联合训练大语言模型的生成与批判能力. 实验表明该方法能更有效地利用训练数据, 提升模型性能.

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

You Li et al.

cs.CL

本文通过Causal Mediation Analysis研究了Multimodal Large Language Models中latent visual reasoning的有效性, 发现latent tokens与输入及最终答案之间存在显著脱节. 作者提出了一种名为CapImagine的显式文本想象方法, 在视觉基准测试中超越了复杂的隐空间基线.

Probing for Knowledge Attribution in Large Language Models

Ivo Brink, Alexander Boer, Dennis Ulmer

cs.CL cs.AI

本文提出了一种通过线性分类器（probe）来识别大语言模型（LLM）输出知识来源（上下文或内部参数）的方法。该方法利用自监督数据管道生成训练数据，并在多个模型上验证了其有效性。

Natural Language Declarative Prompting (NLD-P): A Modular Governance Method for Prompt Design Under Model Drift

Hyunwoo Kim et al.

cs.CL cs.AI

本文提出了一种称为Natural Language Declarative Prompting (NLD-P)的模块化治理方法, 用于应对大语言模型(LLM)迭代更新导致的提示行为漂移问题. 该方法将提示设计重构为一个声明式的治理框架, 分离了来源、约束逻辑、任务内容和生成后评估等模块, 旨在为非开发者提供更稳定和可解释的控制手段.

TARAZ: Persian Short-Answer Question Benchmark for Cultural Evaluation of Language Models

Reihaneh Iranmanesh et al.

cs.CL cs.LG

本文提出了一个评估大型语言模型在波斯语文化能力上的框架, 包含一个结合了基于规则的形态归一化和混合句法语义相似度模块的短答案评估方法. 该框架在15个先进模型上的评估表明, 其混合评估方法相比精确匹配基线提高了评分一致性, 并公开了首个波斯语文化理解标准化基准.

TCM-DiffRAG: Personalized Syndrome Differentiation Reasoning Method for Traditional Chinese Medicine based on Knowledge Graph and Chain of Thought

Jianmin Li et al.

cs.CL cs.AI

本文提出了一种结合知识图谱(KG)和思维链(CoT)的改进型检索增强生成(RAG)框架TCM-DiffRAG, 用于中医个性化辨证推理. 实验表明, 该方法在多个中医测试集上显著提升了大型语言模型(LLM)的诊断性能, 优于直接微调和其他基准RAG方法.

Improving Neural Argumentative Stance Classification in Controversial Topics with Emotion-Lexicon Features

Mohammad Yeghaneh Abkenar et al.

cs.CL

本文提出了一种通过扩展情感词典来改进神经论证立场分类的方法. 该方法利用DistilBERT嵌入来扩展情感词典, 并将其输入到神经网络模型中, 在多个争议话题数据集上提升了分类性能.

Effective QA-driven Annotation of Predicate-Argument Relations Across Languages

Jonathan Davidov et al.

cs.CL

本文提出了一种基于QA-SRL框架的跨语言谓词-论元关系标注方法. 该方法通过翻译和对齐流程, 复用英语解析器来自动生成目标语言的标注数据, 并在希伯来语、俄语和法语上验证了其有效性.

Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference

Yushi Ye et al.

cs.CL

本文提出了一种名为ReMix的训练无关方法, 用于加速Diffusion Large Language Models (DLLMs)的非自回归推理. 该方法通过引入一个连续的混合状态来迭代优化token表示, 从而缓解并行解码中的语义不一致问题, 在保持质量的同时实现了显著的推理加速.

Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching

Roy Miles et al.

cs.CL cs.AI

本文提出了一种名为Stitching Noisy Diffusion Thoughts的推理聚合框架。该框架利用扩散语言模型生成多样化的推理轨迹，通过过程奖励模型评估并组合最优的推理步骤，最后由自回归模型生成最终答案。该方法在数学和代码任务上提升了准确率并降低了延迟。

Where Vision Becomes Text: Locating the OCR Routing Bottleneck in Vision-Language Models

Jonathan Steinberg, Oren Gal

cs.CL

本文通过因果干预实验研究了三种主流Vision-Language Model (VLM)架构中OCR信息的处理路径。研究发现，OCR信号的引入位置和强度高度依赖于模型架构，且该信号本身是低维的。在某些模块化设计的模型中，移除OCR信息甚至能提升计数等任务的性能。

Affine-Scaled Attention: Towards Flexible and Stable Transformer Attention

Jeongin Bae et al.

cs.CL cs.AI

本文提出了一种名为Affine-Scaled Attention的Transformer注意力机制扩展，它通过引入输入依赖的缩放和偏置项来放松标准softmax的严格归一化约束。该方法在大型语言模型预训练中表现出更稳定的训练过程和更好的下游任务性能。

Toward Automatic Filling of Case Report Forms: A Case Study on Data from an Italian Emergency Department

Gabriela Anna Kaczmarek et al.

cs.CL

本文介绍了一个用于自动填充病例报告表(CRF)的新数据集, 该数据集包含意大利急诊科的临床笔记, 并针对包含134个项目的预定义CRF进行了标注. 作者定义了CRF填充任务及其评估指标, 并利用开源的大型语言模型(LLM)进行了初步实验, 结果表明在零样本设置下可以处理意大利语临床笔记, 但模型存在偏向性.

Quantity Convergence, Quality Divergence: Disentangling Fluency and Accuracy in L2 Mandarin Prosody

Yuqi Shi et al.

cs.CL cs.AI

本文通过分析越南语母语者学习汉语时的韵律边界数据, 发现高熟练度学习者在韵律边界数量上接近母语者, 但在句法-韵律映射结构上存在系统性偏差. 这种偏差表现为对主语-动词和动词-宾语界面处韵律边界的错误升降级, 导致了扭曲的韵律层级结构.

CiteLLM: An Agentic Platform for Trustworthy Scientific Reference Discovery

Mengze Hong et al.

cs.CL cs.IR

本文介绍了一个名为CiteLLM的智能平台, 旨在为学术写作提供可信的参考文献发现服务. 该系统通过将LLM功能集成到LaTeX编辑器中, 并利用可信学术库进行检索, 以减少AI生成内容中的幻觉问题.

Assessing Deanonymization Risks with Stylometry-Assisted LLM Agent

Boyang Zhang, Yang Zhang

cs.CL cs.CR cs.LG

本文提出了一种名为SALA的框架, 结合stylometric特征与LLM推理来评估文本的作者推断风险. 该框架还包含一个引导重写策略以降低可识别性, 同时保持文本语义.

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Jayadev Billa

cs.CL cs.AI cs.LG

本文从信息论角度分析了多模态大语言模型(LLM)中的模态坍缩现象. 作者将其形式化为一个不匹配解码问题, 指出仅基于文本训练的decoder只能提取与文本对齐方向的信息, 并通过广义互信息(GMI)给出了可访问信息的理论上界.

MTRAG-UN: A Benchmark for Open Challenges in Multi-Turn RAG Conversations

Sara Rosenthal et al.

cs.CL

本文提出了一个用于评估多轮检索增强生成对话系统性能的基准测试集 MTRAG-UN. 该基准包含超过 2800 个对话轮次, 旨在揭示模型在处理不可回答、未明确指定等复杂问题时的挑战.

Fine-Tuning Without Forgetting In-Context Learning: A Theoretical Analysis of Linear Attention Models

Chungpa Lee, Jy-yong Sohn, Kangwook Lee

cs.CL cs.LG stat.ML

本文在linear attention模型的框架下，理论分析了fine-tuning如何影响模型的in-context learning能力。研究表明，更新所有attention参数会损害few-shot性能，而仅更新value矩阵则能在提升zero-shot性能的同时保留in-context learning。

Why Diffusion Language Models Struggle with Truly Parallel (Non-Autoregressive) Decoding?

Pengxiang Li et al.

cs.CL cs.AI

本文探讨了Diffusion Language Models (DLMs)在实现真正并行解码时遇到的困难。作者指出，训练数据中的序列结构与模型目标不匹配是导致其表现出自回归解码动态的主要原因。

Discourse-Aware Dual-Track Streaming Response for Low-Latency Spoken Dialogue Systems

Siyuan Liu et al.

cs.CL

本文提出了一种用于低延迟口语对话系统的Discourse-Aware Dual-Track Streaming Response (DDTSR)框架。该框架通过连接词引导的大小模型协同、流式跨模态协作和课程学习增强话语连续性，旨在减少系统响应延迟。实验表明，该方法能在保持对话质量的同时显著降低延迟。

SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables

Sungho Park, Jueun Kim, Wook-Shin Han

cs.CL cs.AI cs.DB cs.IR

本文提出了一个名为SPARTA的自动化框架, 用于生成大规模、高质量的Table-Text多跳问答基准数据集. 该框架通过构建参考事实数据库和合成嵌套查询, 能够高效产生涵盖聚合、分组和深层多跳推理的复杂问题, 显著降低了人工标注成本. 在生成的基准上, 现有先进模型的性能出现大幅下降, 揭示了当前跨模态推理模型的根本性弱点.

A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations

Soumya Dutta, Smruthi Balaji, Sriram Ganapathy

cs.CL eess.AS

本文提出了一个用于多模态对话情感识别的混合专家模型 MiSTER-E. 该模型通过解耦模态特定上下文建模与多模态信息融合这两个核心挑战, 并在多个基准数据集上取得了优于基线系统的性能.

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Amita Kamath et al.

cs.CL cs.CV

本文探讨了报告偏差对视觉语言模型推理能力的影响。研究发现，训练数据中隐含信息的缺失导致了模型在空间、时间、否定和计数等推理任务上的表现不佳。即使扩大数据规模或模型规模，这些能力也不会自然涌现，而通过针对性标注数据可以有效改善。

cs.DS

Testable Learning of General Halfspaces under Massart Noise

Ilias Diakonikolas et al.

cs.DS cs.LG

本文研究了在高斯分布下可测试地学习带有Massart噪声的一般半空间的问题. 提出了一种算法, 其复杂度与已知的非可测试设置下的准多项式统计查询下界在定性上匹配.

static_maps: consteval std::map and std::unordered_map Implementations in C++23

Isaac D. Myhal, Oliver Serang

cs.DS cs.SE

本文利用C++23的consteval特性, 实现了在编译时已知键(key)情况下的高效`std::map`和`std::unordered_map`版本. 在多个演示用例中, 其性能显著优于标准库实现及其他编译时哈希方案.

An $\mathcal{O}(\log N)$ Time Algorithm for the Generalized Egg Dropping Problem

Kleitos Papadopoulos

cs.DS

本文提出了一种解决广义鸡蛋掉落问题的新算法, 将时间复杂度从$\mathcal{O}(K \log N)$降低到$\mathcal{O}(\min(K, \log N))$. 该方法通过松弛二项式界来近似最优值, 并利用约束$K < \log_2(N+1)$保证了最坏情况下的性能.

Efficient Parallel Algorithms for Hypergraph Matching

Henrik Reinstädtler et al.

cs.DS

本文提出了在hypergraph中计算maximal matchings的高效并行算法。算法在CRCW和CREW PRAM模型下具有理论性能保证，并提供了$1/d$的近似比。实验通过在GPU上实现验证了其相对于单核CPU算法的显著加速效果。

Equivalent Dichotomies for Triangle Detection in Subgraph, Induced, and Colored H-Free Graphs

Amir Abboud, Ron Safier, Nathan Wallheimer

cs.DS cs.CC math.CO

本文研究了在避免固定模式$H$作为子图的图中Triangle Detection问题的复杂性, 并探讨了该问题在诱导$H$-free图和着色$H$-free图这两种更广泛设定下的等价性. 通过将诱导情况归约到非诱导情况, 并利用一种新的类似颜色编码的自归约技术, 作者证明了关于子图情况的二分猜想在这些更复杂的设定下同样成立.

others

Flow Matching is Adaptive to Manifold Structures ⭐ 精选

Shivam Kumar, Yixin Wang, Lizhen Lin

stat.ML cs.LG math.ST

本文针对目标分布支撑在光滑流形上的情形, 从理论上分析了使用线性插值的 flow matching 方法. 作者建立了所学 velocity field 的非渐近收敛保证, 并将此估计误差通过 ODE 传播, 得到了由 flow-matching 目标诱导的隐式密度估计器的统计一致性. 所得收敛率是近乎极小极大最优的, 仅依赖于内在维度, 并反映了流形和目标分布的光滑性. 这些结果为 flow matching 如何适应数据的内在几何结构并规避维度诅咒提供了原理性解释, 与关键词 "theory" 高度契合.

Survey on Neural Routing Solvers

Yunpeng Ba et al.

math.OC cs.AI cs.LG cs.NE

本文综述了利用深度学习解决车辆路径问题的神经路由求解器(NRSs), 强调了其启发式本质, 并从启发式角度对现有方法进行了回顾和分类. 此外, 文章提出了一个侧重于泛化能力的评估流程, 并通过对比实验揭示了当前研究中的一些未被充分报告的差距.

Solving stiff dark matter equations via Jacobian Normalization with Physics-Informed Neural Networks

M. P. Bento et al.

hep-ph cs.LG

本文提出了一种通过Jacobian normalization来处理Physics-Informed Neural Networks (PINNs)中stiff differential equations的方法. 该方法被应用于求解描述WIMP暗物质的stiff Boltzmann equations, 并在正反问题中取得了优于先前方法的精度.

Cybersecurity Data Extraction from Common Crawl

Ashim Mahara

cs.CR cs.IR

本文提出了一种从Common Crawl网络图中一次性提取网络安全数据的方法Alpha-Root. 该方法基于社区检测, 直接从网络图挖掘高质量域名, 而非依赖迭代的内容评分.

An Adaptive Multichain Blockchain: A Multiobjective Optimization Approach

Nimrod Talmon, Haim Zysberg

cs.CR cs.GT cs.LG cs.MA

本文提出了一种自适应的多链区块链架构, 将其建模为一个多智能体资源分配问题. 该模型通过每轮优化分组应用与操作者并设定链级清算价格, 旨在最大化加权效用, 并分析了其公平性与激励特性.

FM-RME: Foundation Model Empowered Radio Map Estimation

Dong Yang et al.

eess.SP cs.AI cs.LG

本文提出了一种基于基础模型(FM-RME)的无线电地图估计方法。该方法通过自监督预训练学习通用频谱表征，支持在空间、时间和频谱维度上进行零样本推理。

Unsupervised Denoising of Diffusion-Weighted Images with Bias and Variance Corrected Noise Modeling

Jine Xie et al.

q-bio.QM cs.AI eess.IV

本文提出了一种针对扩散磁共振成像(dMRI)的非监督去噪方法, 通过引入基于Rician噪声统计的修正训练目标来减少系统偏差和异方差性. 该方法在Deep Image Prior框架内实现了图像特异性的去噪, 实验表明其在低信噪比条件下能提升图像质量与扩散度量的可靠性.

CrossLLM-Mamba: Multimodal State Space Fusion of LLMs for RNA Interaction Prediction

Rabeya Tus Sadia, Qiang Ye, Qiang Cheng

q-bio.GN cs.CV cs.LG

本文提出了一种名为CrossLLM-Mamba的新型框架，用于预测RNA相关的相互作用。该框架利用双向Mamba编码器进行状态空间对齐，并通过高斯噪声注入和Focal Loss提升模型鲁棒性，在多个基准测试中取得了先进的性能。

Optimized Disaster Recovery for Distributed Storage Systems: Lightweight Metadata Architectures to Overcome Cryptographic Hashing Bottleneck

Prasanna Kumar, Nishank Soni, Gaurang Munje

cs.CR cs.AI cs.CE

本文分析了分布式存储系统中基于加密哈希的数据识别在灾难恢复时造成的瓶颈, 并提出了一个转向确定性、元数据驱动识别的通用架构框架. 该框架在数据摄取时为数据块分配全局唯一的复合标识符, 从而在灾难恢复期间实现无需加密开销的瞬时增量计算.

TT-SEAL: TTD-Aware Selective Encryption for Adversarially-Robust and Low-Latency Edge AI

Kyeongpil Min et al.

cs.CR cs.AI

本文提出了一种针对Tensor-Train分解网络的感知选择性加密框架TT-SEAL. 该方法通过重要性排序和差分隐私优化器, 在保证对抗鲁棒性的同时, 显著减少了需要加密的参数比例和端到端延迟.

VAE-MS: An Asymmetric Variational Autoencoder for Mutational Signature Extraction

Ida Egendal et al.

stat.AP cs.LG q-bio.GN

本文提出了一种用于突变特征提取的非对称变分自编码器VAE-MS, 结合了非线性建模与概率方法. 在真实癌症数据上, 该模型在数据重构方面表现优于对比方法, 但在特征提取的一致性上未显示出明显优势.

From Prompts to Performance: Evaluating LLMs for Task-based Parallel Code Generation

Linus Bantel et al.

cs.PL cs.AI cs.DC

本文评估了大型语言模型(LLM)在根据不同类型提示(自然语言描述、顺序参考实现、并行伪代码)生成基于任务的并行代码方面的表现。研究聚焦于OpenMP Tasking, C++标准并行库和HPX运行时，测试了生成代码的正确性和可扩展性，并讨论了其对高性能计算的启示。

Stochastic Neural Networks for Quantum Devices

Bodo Rosenhahn, Tobias J. Osborne, Christoph Hirche

quant-ph cs.LG

本文提出了一种将随机神经网络表达和优化为基于门的量子计算中的量子线路的框架. 该方法将经典感知机推广为随机神经元, 并构建量子神经网络, 使用 Kiefer-Wolfowitz 算法结合模拟退火进行训练.

Analysis of LLMs Against Prompt Injection and Jailbreak Attacks

Piyush Jaiswal et al.

cs.CR cs.AI

本文评估了多种开源LLM对prompt injection和jailbreak攻击的脆弱性, 并测试了几种轻量级的推理时防御机制. 研究发现, 不同模型的行为差异显著, 且现有防御措施容易被复杂的推理型prompt绕过.

Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models

Guangnian Wan et al.

cs.CR cs.LG

本文针对Multimodal Diffusion Language Models (MDLMs)的后门攻击漏洞，提出了一种名为DiSP (Diffusion Self-Purification)的防御框架。该方法通过在推理时选择性屏蔽视觉token来中和后门行为，并利用被感染模型自身净化数据以进行微调，从而无需辅助模型或干净数据即可有效降低攻击成功率。

Multi-Dimensional Spectral Geometry of Biological Knowledge in Single-Cell Transformer Representations

Ihor Kendiukhov

q-bio.GN cs.AI cs.LG

本文通过系统性的几何分析, 解码了单细胞基础模型 scGPT 内部表征所编码的生物学知识. 研究发现, 模型将基因组织成一个结构化的生物坐标系, 而非不透明的特征空间.

Poisoned Acoustics

Harrison Dahme

cs.CR cs.AI

本文研究了针对声学车辆分类深度神经网络的训练数据投毒攻击. 通过在MELAUDIS数据集上进行实验, 作者证明了即使极低比例的标签污染也能实现高攻击成功率, 同时不影响模型的整体准确率. 文章还提出了一种结合密码学技术的防御方案, 以确保训练数据的可验证来源.

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

Fuyao Huang et al.

q-bio.BM cs.AI eess.IV q-bio.QM

本文提出了一种名为CryoNet.Refine的端到端深度学习框架，用于自动化并加速冷冻电镜密度图约束下的分子结构优化。该方法利用一步扩散模型，结合密度感知损失函数和立体化学约束，能够快速优化结构以匹配实验数据。

Deep Accurate Solver for the Geodesic Problem

Saar Huberman, Amit Bracha, Ron Kimmel

eess.IV cs.GR cs.LG

本文提出了一种基于深度学习的高阶精确方法,用于计算曲面上的测地线距离. 该方法通过神经网络局部求解器来隐式近似连续曲面的结构, 相比传统多面体近似和先前基于学习的方法, 在数值上取得了更高的精度.

Learning to reconstruct from saturated data: audio declipping and high-dynamic range imaging

Victor Sechaud et al.

eess.IV cs.AI cs.SD

本文提出了一种自监督学习方法, 用于从饱和(削波)数据中恢复音频和图像. 该方法假设信号分布对幅度变化近似不变, 并设计了相应的损失函数来训练重建网络. 实验表明, 该方法在仅使用饱和数据训练的情况下, 性能接近全监督方法.

Differentially Private Truncation of Unbounded Data via Public Second Moments

Zilong Cao, Xuan Bi, Hai Zhang

cs.CR cs.LG stat.AP stat.ME stat.ML

本文提出了一种名为PMT的方法, 利用少量公开数据的二阶矩信息来处理无界数据的差分隐私截断问题. 该方法通过公开矩引导的变换和截断, 改善了私有估计的条件数, 从而在惩罚回归和广义线性回归等模型中提升了差分隐私估计的准确性和稳定性.

What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

Ihor Kendiukhov

q-bio.QM cs.LG q-bio.GN

本文通过AI驱动的假设筛选框架，检验了scGPT和Geneformer等生物基础模型内部表征的几何与拓扑结构。研究发现模型学习到了具有生物学意义的非平凡拓扑结构，且该结构在不同独立训练的模型间具有全局一致性，但基因级别的对应关系难以恢复，且显著信号主要集中在免疫组织。

Decoding the Hook: A Multimodal LLM Framework for Analyzing the Hooking Period of Video Ads

Kunpeng Zhang et al.

cs.MM cs.AI cs.CL cs.LG

本文提出了一个基于transformer的多模态大语言模型(MLLM)框架, 用于分析视频广告的"钩子期"(最初三秒). 该框架整合了视觉、听觉和文本特征, 并通过主题建模等方法揭示了钩子期特征与广告关键绩效指标之间的相关性.

Enabling clinical use of foundation models in histopathology

Audun L. Henriksen et al.

cs.CV cs.AI

本文提出了一种在组织病理学基础模型下游任务训练中引入新型鲁棒性损失的方法, 旨在减少模型对技术性变异(如扫描仪差异)的敏感性. 通过在包含大量全切片图像的数据集上进行广泛实验, 该方法在提升模型预测鲁棒性的同时, 也提高了其准确性.

GRAU: Generic Reconfigurable Activation Unit Design for Neural Network Hardware Accelerators

Yuhao Liu, Salim Ullah, Akash Kumar

cs.AR cs.AI

本文提出了一种用于神经网络硬件加速器的可重构激活单元设计GRAU. 该设计基于分段线性拟合, 使用2的幂次近似斜率, 仅需基本比较器和移位器, 显著降低了硬件开销并支持混合精度.

EyeLayer: Integrating Human Attention Patterns into LLM-Based Code Summarization

Jiahao Zhang et al.

cs.SE cs.AI

本文提出了一种名为EyeLayer的轻量级注意力增强模块, 用于将人类眼动追踪数据作为专家知识融入基于LLM的代码摘要任务. 该方法通过一个Multimodal Gaussian Mixture对开发者的阅读注意力进行建模, 并据此重新分配token嵌入, 从而在不干扰模型原有表征的情况下引入人类注意力先验. 实验表明, 该方法在多个不同架构和规模的LLM上均能提升代码摘要的性能.

AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction

Hanyang Liu, Rongjun Qin

cs.CV cs.AI

本文提出了一种用于单目无人机视频的物理引导4D Gaussian splatting框架AeroDGS. 它通过引入几何提升模块和物理引导优化来解决空中动态重建中的深度模糊和运动估计不稳定问题, 并在合成和真实数据集上验证了其有效性.

Enhancing Renal Tumor Malignancy Prediction: Deep Learning with Automatic 3D CT Organ Focused Attention

Zhengkang Fan et al.

cs.CV cs.AI

本文提出了一种用于肾肿瘤恶性预测的深度学习框架, 该框架采用了一种名为Organ Focused Attention (OFA)的损失函数. 该方法无需在预测时对3D CT图像进行手动分割, 在两个数据集上取得了优于传统分割裁剪方法的性能.

Contextual Memory Virtualisation: DAG-Based State Management and Structurally Lossless Trimming for LLM Agents

Cosmo Santoni

cs.SE cs.AI cs.HC cs.OS

本文提出了一种名为Contextual Memory Virtualisation (CMV)的系统，用于管理大型语言模型在长对话任务中积累的状态。该系统将会话历史建模为有向无环图(DAG)，并引入了一种无损修剪算法，以减少上下文长度，同时保留所有用户和助手的原始消息。

SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

Yibo Peng et al.

cs.CV cs.LG

本文提出了一种名为SimpleOCR的训练策略, 旨在解决MLLMs在视觉文本理解中可能存在的"模态惰性"问题. 该方法通过将文本查询渲染到图像上, 强制模型进行视觉参与, 并在多个基准测试上展示了性能提升和数据效率.

HubScan: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

Idan Habler et al.

cs.CR cs.AI

本文介绍了HubScan, 一个用于检测检索增强生成(RAG)系统中hubness poisoning安全漏洞的开源扫描器. 它通过多检测器架构分析向量索引和嵌入, 并在多个基准测试中展示了有效的检测性能.

TopoEdit: Fast Post-Optimization Editing of Topology Optimized Structures

Hongrui Chen, Josephine V. Carstensen, Faez Ahmed

cs.GR cs.LG

本文提出了一种名为TopoEdit的快速后优化编辑方法, 用于修改拓扑优化结构. 该方法利用预训练拓扑基础模型的结构化潜在嵌入作为物理感知编辑的接口, 通过编辑-去噪扩散流程实现用户意图的注入, 相比直接在密度空间编辑能更好地保持力学性能.

mmWave Radar Aware Dual-Conditioned GAN for Speech Reconstruction of Signals With Low SNR

Jash Karani et al.

cs.SD cs.LG

本文提出了一种用于毫米波雷达信号语音重建的两阶段方法, 称为RAD-GAN. 该方法通过一个雷达感知的双条件生成对抗网络, 处理低信噪比信号并扩展其带宽, 在特定任务上表现优于现有技术.

LoBoost: Fast Model-Native Local Conformal Prediction for Gradient-Boosted Trees

Vagner Santos et al.

stat.ML cs.LG

本文提出了一种名为LoBoost的局部conformal prediction方法, 专为gradient-boosted trees设计. 该方法利用已训练集成模型的叶子结构进行多尺度分组校准, 无需重新训练或辅助模型, 在保持预测效率的同时提升了区间质量.

GetBatch: Distributed Multi-Object Retrieval for ML Data Loading

Alex Aizman, Abhishek Gaikwad, Piotr Żelasko

cs.DC cs.AI cs.DB cs.LG

本文提出了一种名为 GetBatch 的新颖对象存储 API，旨在优化机器学习训练中的数据加载过程。它通过将批量数据检索提升为存储系统的一级操作，显著减少了小对象传输的延迟并提升了吞吐量。

veScale-FSDP: Flexible and High-Performance FSDP at Scale

Zezhou Wang et al.

cs.DC cs.AI cs.LG

本文介绍了veScale-FSDP，一个重新设计的Fully Sharded Data Parallel (FSDP)系统。它通过引入灵活的RaggedShard分片格式和结构感知规划算法，旨在提升大规模模型训练的性能和内存效率，并支持块状量化等先进训练方法。

Silent Egress: When Implicit Prompt Injection Makes LLM Agents Leak Without a Trace

Qianlong Lan et al.

cs.CR cs.AI

本文揭示了在基于LLM的智能体系统中, 通过自动生成的URL预览(如标题、元数据、摘要)嵌入对抗性指令, 可引发一种名为"静默渗出"的系统级风险. 攻击能诱导智能体发出泄露敏感运行时上下文的外泄请求, 而用户看到的最终响应却看似无害, 且基于输出的安全检查难以检测.

Automating the Detection of Requirement Dependencies Using Large Language Models

Ikram Darif et al.

cs.SE cs.AI

本文提出了一种基于大型语言模型(LLM)的自动化方法LEREDD, 用于从自然语言需求中识别需求之间的依赖关系. 该方法结合了检索增强生成(RAG)和上下文学习(ICL), 在实验中展现了较高的准确度, 并发布了相关的标注数据集.

MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

Raiyan Jahangir et al.

cs.CV cs.IR

本文提出了一个名为MammoWise的本地多模型流程，用于生成乳腺X光检查报告。该方法整合了开源视觉语言模型(VLMs)与检索增强生成(RAG)技术，在保持数据隐私和可复现性的同时，提升了报告生成与分类任务的性能。

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

Niamul Hassan Samin et al.

cs.CV cs.AI

本文提出了一种称为Spatial Credit Redistribution (SCR)的推理时干预方法，用于减少视觉语言模型(VLMs)中的物体幻觉问题。该方法通过重新分配隐藏状态激活来缓解空间信用坍缩，在多个基准测试上有效降低了幻觉率，且计算开销很小。

When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering

Jessie Yuan, Yilin Wu, Andrea Bajcsy

cs.RO cs.LG

本文提出了一个不确定性感知的策略引导框架, 用于在机器人部署时根据任务语义不确定性和底层动作可行性来选择合适的解决策略. 该框架利用 conformal prediction 来校准视觉语言模型与预训练策略的组合, 并通过残差学习来持续改进策略, 以减少昂贵的人工干预.

Explainability-Aware Evaluation of Transfer Learning Models for IoT DDoS Detection Under Resource Constraints

Nelly Elsayed

cs.CR cs.AI

本文对七种预训练的卷积神经网络架构进行了可解释性感知的评估，用于在资源受限条件下进行物联网DDoS攻击的多分类检测。研究结合了性能指标、可靠性统计、延迟成本以及Grad-CAM和SHAP可解释性分析，发现DenseNet和MobileNet架构在性能、可靠性和可解释性方面表现较好。

From Shallow Bayesian Neural Networks to Gaussian Processes: General Convergence, Identifiability and Scalable Inference

Gracielle Antunes de Araújo, Flávio B. Gonçalves

stat.ML cs.AI cs.LG

本文研究了浅层贝叶斯神经网络(BNNs)到高斯过程(GPs)的标度极限, 并探讨了其在统计建模、可识别性和可扩展推断方面的应用. 作者建立了一个更一般的收敛结果, 提出了一种新的协方差函数, 并开发了基于Nyström近似的可扩展推断方法.

SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation

Xinyu Tan et al.

cs.RO cs.AI eess.SY

本文提出了一种无需gloss标注的视觉-语言-动作框架, 用于实现手语驱动的实时机器人操控. 该框架专注于字母级别的手指拼写交互, 通过几何归一化与时间平滑等处理, 将连续手势流直接映射为语义指令, 从而控制机器人执行精确动作.

Dynamic Level Sets

Michael Stephen Fiske

cs.CC cs.CL math-ph math.DS math.HO

本文分析了"动态层级集"这一数学概念, 它源于对图灵不可计算计算的研究, 不同于动力系统、拓扑学和可计算性理论中的标准概念. 作者解释了这一新数学对象, 并探讨了它为何未被经典结果(如de Leeuw等人的定理)所涵盖.

A Synergistic Approach: Dynamics-AI Ensemble in Tropical Cyclone Forecasting

Yonghui Li et al.

physics.ao-ph cs.LG

本文提出了一种结合AI与动力学的集合预报新方法, 用于热带气旋预报. 该方法通过生成正交条件非线性最优扰动来优化AI模型的集合成员, 在计算效率与动力一致性之间取得了平衡.

HARU-Net: Hybrid Attention Residual U-Net for Edge-Preserving Denoising in Cone-Beam Computed Tomography

Khuram Naveed, Ruben Pauwels

eess.IV cs.AI cs.CV cs.LG eess.SP

本文提出了一种用于锥束计算机断层扫描(CBect)图像降噪的混合注意力残差U-Net(HARU-Net). 该方法通过集成混合注意力Transformer模块和残差学习, 在降低计算成本的同时, 有效提升了降噪性能.

DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

Agamdeep S. Chopra et al.

cs.CV cs.AI

本文提出了一种名为DisQ-HNet的量化半UNet框架，用于从T1和FLAIR MRI合成Tau-PET图像，并增强其可解释性。该方法通过Partial Information Decomposition引导的量化编码器分解模态信息，并使用基于结构边缘的半UNet解码器来保持解剖细节。

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

Zhechao Wang et al.

cs.CV cs.AI

本文提出了一种名为DrivePTS的渐进式学习框架，用于增强驾驶场景的生成。该方法通过引入多视图文本描述和频率引导的结构损失，改进了现有扩散模型在语义细节和结构保真度方面的不足。实验表明，该框架在生成多样性和可控性上达到了先进水平。

A Fast and Practical Column Generation Approach for Identifying Carcinogenic Multi-Hit Gene Combinations

Rick S. H. Willemsen, Tenindra Abeywickrama, Ramu Anandakrishnan

math.OC cs.LG

本文针对识别致癌多基因突变组合问题, 提出了基于约束规划和混合整数规划的建模方法. 这些方法在真实癌症基因组数据上实现了与现有方法相当的性能, 且计算效率显著提升.

Addressing Climate Action Misperceptions with Generative AI

Miriam Remshard et al.

cs.HC cs.AI

本文通过实验比较了使用具备气候知识的个性化大型语言模型(LLM)与其他干预方式(如网络搜索、非专用LLM对话)在纠正气候行动认知误区及促进行为改变方面的效果. 研究发现, 个性化的气候LLM是唯一能同时提升参与者对行动影响的认知和增强其采取高影响力行为意愿的条件.

Quality-Aware Robust Multi-View Clustering for Heterogeneous Observation Noise

Peihan Wu et al.

cs.CV cs.AI

本文提出了一种名为QARMVC的新框架来处理多视图聚类中的异质观测噪声. 该方法通过信息瓶颈提取语义进行视图重建, 并利用重建差异量化噪声强度, 进而设计了质量加权的对比学习和融合策略. 实验表明该框架在多个基准数据集上优于现有方法.

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

Dian Xie et al.

cs.CV cs.AI

本文揭示了当前 text-to-image 生成评估中的一个关键陷阱, 即常见的人类偏好模型对大的 guidance scale 存在强烈偏见. 作者提出了一个名为 GA-Eval 的新评估框架, 旨在通过校准 guidance scale 来实现不同 guidance 方法之间的公平比较.

BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

Yuci Han et al.

cs.CV cs.AI

本文提出BetterScene方法, 利用预训练的Stable Video Diffusion模型作为主干, 通过引入时间等变性正则化和视觉基础模型对齐表示来改进VAE模块, 并结合3D Gaussian Splatting进行特征渲染, 以从极稀疏的输入图像生成高质量、一致的新视角视图。

CoLyricist: Enhancing Lyric Writing with AI through Workflow-Aligned Support

Masahiro Yoshida et al.

cs.HC cs.AI

本文介绍了一个名为CoLyricist的AI辅助歌词写作工具, 它通过支持专业作词人的典型工作流程来提升创作效率. 该工具针对主题设定、构思、草稿撰写和旋律适配等阶段提供了定制化的AI支持, 并通过用户研究表明其对不同技能水平的用户均有帮助.

EvolveGen: Algorithmic Level Hardware Model Checking Benchmark Generation through Reinforcement Learning

Guangyu Hu et al.

cs.AR cs.LG

本文提出了一种名为EvolveGen的框架，用于生成硬件模型检查的基准测试集。该方法结合了强化学习与高层次综合，通过训练智能体构建计算图来产生具有挑战性的验证问题实例。

Advancing accelerator virtual beam diagnostics through latent evolution modeling: an integrated solution to forward, inverse, tuning, and UQ problems

Mahindra Rautela, Alexander Scheinker

physics.acc-ph cs.LG

本文提出了一种名为Latent Evolution Model (LEM)的混合机器学习框架，用于加速器虚拟束流诊断。该框架结合了autoencoder和transformer，通过将高维相空间投影到低维表示并学习其时间演化，来统一处理前向建模、反问题、参数调谐和不确定性量化等任务。

SYK thermal expectations are classically easy at any temperature

Alexander Zlokapa, Bobak T. Kiani

quant-ph cs.DS

本文针对估算局部可观测量热期望值的问题, 提出了一种经典算法. 该算法在自由能相变点以上的所有温度下具有拟多项式复杂度 $n^{O(\log n/\epsilon)}$, 并适用于包括SYK模型在内的多种自然模型.

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

Boyang Dai et al.

cs.CV cs.AI

本文提出了一种名为CGSA的source-free domain adaptive object detection (SF-DAOD)框架, 它将object-centric learning (OCL)引入到基于DETR的检测器中. 该方法通过hierarchical slot awareness (HSA)模块和class-guided slot contrast (CGSC)模块来利用对象级别的结构线索, 在多个跨域数据集上取得了优于先前方法的结果.

Instruction-based Image Editing with Planning, Reasoning, and Generation

Liya Ji, Chenyang Qi, Qifeng Chen

cs.CV cs.AI

本文提出了一种结合规划、推理与生成的多模态指令图像编辑框架. 该方法通过多模态思维链提示, 将编辑任务分解为子提示规划、编辑区域推理和图像生成三个步骤, 旨在提升对复杂场景的理解与编辑能力. 实验表明该方法在真实世界图像上具有竞争力.

HyperKKL: Enabling Non-Autonomous State Estimation through Dynamic Weight Conditioning

Yahia Salaheldin Shaaban, Salem Lahlou, Abdelrahman Sayed Sayed

eess.SY cs.LG

本文提出了一种名为HyperKKL的新方法, 用于为非自治非线性系统设计KKL观测器. 该方法利用超网络架构, 根据外部输入信号动态生成观测器参数, 从而避免了为不同驱动信号重新训练模型的需要, 并在多个经典混沌系统上进行了数值验证.

TorchLean: Formalizing Neural Networks in Lean

Robert Joseph George et al.

cs.MS cs.LG cs.LO cs.PL math.NA

本文介绍了 TorchLean, 一个在 Lean 4 定理证明器中形式化神经网络的框架. 该框架旨在统一模型执行与验证的语义, 并支持多种验证任务.

Deepfake Word Detection by Next-token Prediction using Fine-tuned Whisper

Hoan My Tran et al.

eess.AS cs.CL

本文提出了一种通过微调预训练的 Whisper 模型，利用 next-token prediction 在语音转录过程中检测 deepfake 合成词的方法。该方法探索了使用部分声码化的语音数据进行微调以降低数据收集成本，实验表明其在域内数据上表现良好，但在域外数据上泛化能力有待提升。

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

cs.CV cs.AI

本文提出了一个专门针对越南语图像-文本检索的基础视觉-语言模型 ViCLIP-OT。该模型结合了 CLIP 风格的对比学习和一种新的最优传输损失函数，在多个越南语基准测试上取得了优于现有基线模型的效果。

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

Zhuohang Jiang et al.

cs.CV cs.AI

本文提出了一个专为智能眼镜设计的视觉问答基准SUPERGLASSES，并基于此评估了现有视觉语言模型。为了应对模型在该场景下的不足，作者进一步提出了一个集成目标检测与网络搜索的智能体SUPERLENS，取得了领先的性能。

DPSQL+: A Differentially Private SQL Library with a Minimum Frequency Rule

Tomoya Matsumoto et al.

cs.CR cs.DB cs.LG

本文提出了一个名为DPSQL+的隐私保护SQL库，它同时强制执行用户级差分隐私和最小频率规则。该库采用模块化架构，并通过实验验证了其在多种分析负载下的实用性。

IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation

Yanpei Guo et al.

cs.CR cs.AI

本文提出了一个名为IMMACULATE的实用审计框架, 用于检测商业大语言模型API服务中的恶意行为, 如模型替换和计费欺诈. 该框架通过可验证计算技术对少量请求进行选择性审计, 在保证检测效果的同时将密码学开销分摊到大量请求中.

Same Words, Different Judgments: Modality Effects on Preference Alignment

Aaron Broukhim, Nadir Weibel, Eshin Jolly

cs.SD cs.AI cs.HC

本文通过一项跨模态对照研究, 比较了人类和合成智能体对相同语义内容在文本和音频两种模态下的偏好标注. 研究发现音频偏好与文本偏好具有相当的可靠性, 但两种模态下人们的评判标准和模式存在显著差异, 跨模态一致性接近随机水平.

SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

Guanting Ye et al.

cs.CV cs.AI

本文提出了一种基于球坐标的位置编码方法 SoPE, 用于增强 3D 大视觉语言模型的空间感知能力. 该方法将点云 token 映射到球坐标空间, 以统一建模位置和方向, 并通过多尺度频率混合策略融合特征.

Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA

Fengyu Li et al.

cs.DB cs.CL

本文提出了一种名为Operation-R1的框架, 它通过一种新颖的强化学习变体训练轻量级LLM, 以单步推理的方式为Table QA生成高质量的数据准备管道. 该方法旨在替代传统的多步组装流程, 从而显著降低延迟和计算成本.

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Tian Zhang et al.

cs.CR cs.AI

本文提出了一种名为AgentSentry的推理时防御框架，用于缓解LLM智能体中的间接提示注入攻击。该方法通过时序因果诊断和上下文净化来检测和减轻攻击，在保持任务效用的同时显著提升了受攻击下的性能。

Simulation-based Optimization for Augmented Reading

Yunpeng Bai, Shengdong Zhao, Antti Oulasvirta

cs.HC cs.AI

本文提出将增强阅读系统设计视为一个基于仿真的优化问题, 其核心是构建一个资源理性的模拟读者模型. 该模型模拟了在任务需求下有限认知资源(如注意力, 记忆和时间)的分配过程, 从而系统性地评估文本用户界面. 作者介绍了离线和在线两种互补的优化流程, 旨在实现自适应, 可解释且可扩展的增强阅读设计.

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Tongfei Chen et al.

cs.CV cs.AI

本文提出了一种用于Referring Image Segmentation (RIS)的训练策略AML, 通过显式估计像素级的视觉-语言对齐并过滤对齐不佳的区域来提升模型性能. 该方法在RefCOCO数据集上取得了领先的结果, 并增强了对多样化描述的鲁棒性.

Distributed LLM Pretraining During Renewable Curtailment Windows: A Feasibility Study

Philipp Wiesner et al.

cs.DC cs.AI

本文探讨了在可再生能源弃电窗口进行分布式大语言模型预训练的可行性. 通过一个原型系统, 初步验证了利用弃电进行跨地域训练可以大幅降低碳排放.

TherapyProbe: Generating Design Knowledge for Relational Safety in Mental Health Chatbots Through Adversarial Simulation

Joydeep Chandra, Satyam Kumar Navneet, Yong Zhang

cs.HC cs.AI cs.CL

本文提出了一种名为 TherapyProbe 的方法论，用于通过对抗性多智能体模拟来探索心理健康聊天机器人的对话轨迹，从而生成关于关系安全性的设计知识。该方法识别了诸如“验证螺旋”等交互模式失败案例，并构建了一个包含23种失败原型的模式库。

QSIM: Mitigating Overestimation in Multi-Agent Reinforcement Learning via Action Similarity Weighted Q-Learning

Yuanjun Li et al.

cs.MA cs.AI cs.LG

本文提出QSIM, 一种通过动作相似性加权来缓解多智能体强化学习中Q值高估问题的方法. 它重构了TD目标, 使用相似性加权的期望来平滑目标, 从而提升学习稳定性.

Unleashing the Potential of Diffusion Models for End-to-End Autonomous Driving

Yinan Zheng et al.

cs.RO cs.AI cs.LG

本文提出了一种基于 diffusion model 的端到端自动驾驶规划器 Hyper Diffusion Planner (HDP), 并在大规模真实车辆数据和道路测试中进行了系统评估. 通过研究 diffusion loss space, trajectory representation 和 data scaling 等关键因素, 并结合 reinforcement learning post-training 策略, 该模型在真实世界测试中取得了显著的性能提升.

Learning Tangent Bundles and Characteristic Classes with Autoencoder Atlases

Eduardo Paluzo-Hidalgo, Yuichi Ike

math.AT cs.AI cs.CG

本文建立了一个理论框架, 将流形学习中的多图自编码器(autoencoder)与向量丛(vector bundles)和示性类(characteristic classes)的经典理论联系起来. 该框架将一组局部训练的编码器-解码器对视为流形上的一个学习图册(atlas), 并证明其线性化转移映射(transition maps)定义的向量丛在潜在维度匹配流形内蕴维度时与切丛(tangent bundle)一致, 从而允许从学习到的转移映射的Jacobian符号计算第一Stiefel-Whitney类, 以算法方式检测流形的可定向性(orientability).

Flip Distance of Triangulations of Convex Polygons / Rotation Distance of Binary Trees is NP-complete

Joseph Dorfer

cs.CG cs.CC cs.DM cs.DS math.CO

本文证明了计算凸多边形三角剖分之间的最短翻转序列是NP-hard的, 这等价于计算二叉树旋转距离的NP-hardness. 该结果解决了一个长期存在的开放性问题.

Unsupervised Continual Learning for Amortized Bayesian Inference

Aayush Mishra, Šimon Kucharský, Paul-Christian Bürkner

stat.ML cs.LG

本文提出了一个用于Amortized Bayesian Inference (ABI)的continual learning框架，将基于模拟数据的预训练与在真实数据上的无监督sequential self-consistency微调解耦。为了缓解catastrophic forgetting，作者引入了两种适应策略：episodic replay和elastic weight consolidation。在多个案例研究中，该方法有效减轻了遗忘，并产生了比标准模拟训练更接近MCMC参考的后验估计。

SPD Learn: A Geometric Deep Learning Python Library for Neural Decoding Through Trivialization

Bruno Aristimunha et al.

q-bio.NC cs.LG

本文介绍了一个名为SPD Learn的Python库, 用于在神经解码任务中处理对称正定(SPD)矩阵的几何深度学习. 该库提供了核心的SPD算子与网络层, 并通过trivialization方法强制满足流形约束, 旨在提高研究的可复现性并与现代深度学习工作流集成.

A Simple Distributed Deterministic Planar Separator

Yaseen Abd-Elhaleem, Michal Dory, Oren Weimann

cs.DC cs.DS

本文提出了一种简单的分布式确定性算法, 用于在平面图中寻找大小为$O(D)$的平衡分隔子. 该算法简化了权重从顶点到面的转移过程, 在$\tilde O(D)$轮内完成计算.

Beyond NNGP: Large Deviations and Feature Learning in Bayesian Neural Networks

Katerina Papagiannouli, Dario Trevisan, Giuseppe Pio Zitto

stat.ML cs.LG

本文研究了宽贝叶斯神经网络中超出高斯过程极限的罕见但统计主导的涨落。通过大偏差理论，在函数层面提供了关于预测器的变分目标，以捕捉有限宽度网络的后验行为。

A Holistic Framework for Robust Bangla ASR and Speaker Diarization with Optimized VAD and CTC Alignment

Zarif Ishmam et al.

cs.SD cs.AI

本文针对孟加拉语长音频的自动语音识别与说话人日志任务, 提出了一个结合VAD优化与CTC对齐的框架. 该工作通过数据增强与模型微调等技术, 旨在提升低资源语言在复杂多说话人场景下的处理性能.

pMoE: Prompting Diverse Experts Together Wins More in Visual Adaptation

Shentong Mo, Xufang Luo, Dongsheng Li

cs.CV cs.AI cs.LG

本文提出了一种名为pMoE的Mixture-of-Experts prompt tuning方法，用于视觉适应任务。该方法通过整合多个预训练专家的知识，在分类和分割任务上取得了更好的性能与效率平衡。

MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

Feng Guo et al.

cs.CV cs.AI

本文提出了一个用于脑肿瘤MRI诊断的多模态基准与指令数据集MM-NeuroOnco，并构建了相应的评估基准。通过一个多模型协作的自动化流程来生成丰富的诊断语义标注，并基于此数据集训练的模型在诊断相关问题上取得了显著的性能提升。

Frequency-Ordered Tokenization for Better Text Compression

Maximilian Kalcher

cs.IT cs.CL

本文提出了一种基于词频排序的文本预处理方法, 通过利用自然语言token的幂律分布(Zipf定律)来提升无损压缩的效果. 该方法在多个数据集和压缩器上取得了稳定的压缩率提升, 并能显著减少计算密集型压缩算法的总运行时间.

Discovery of Interpretable Physical Laws in Materials via Language-Model-Guided Symbolic Regression

Yifeng Guan et al.

physics.comp-ph cs.AI

本文提出了一种利用大型语言模型指导符号回归的方法, 用于从高维材料数据中发现可解释的物理定律. 该方法通过利用模型中的科学知识来引导搜索, 显著缩小了搜索空间, 并在钙钛矿材料的关键性质建模中得到了验证.

Isolation critical graphs under multiple edge subdivision

Karl Bartolo et al.

math.CO cs.DM cs.DS

本文引入了$(\iota, q)$-critical graphs的概念，并研究了其基本性质。对于给定的图$G$，证明了$q$的取值范围，并对$(\iota, 1)$-critical graphs和trees进行了刻画。

Kernel Integrated $R^2$: A Measure of Dependence

Pouya Roudaki et al.

stat.ML cs.IT cs.LG

本文提出了一种新的统计依赖性度量方法, 称为 kernel integrated $R^2$. 它结合了 integrated $R^2$ 的局部归一化思想与 reproducing kernel Hilbert spaces (RKHS) 的灵活性, 能够处理多元、函数及结构化数据. 文中提出了两种估计器, 并通过实验验证了其在非线性关系场景下的竞争力.

Scattering Transform for Auditory Attention Decoding

René Pallenberg et al.

eess.SP cs.AI eess.AS

本文提出使用scattering transform作为听觉注意解码任务中的预处理方法, 并将其与常规滤波器组等方法进行比较. 实验表明, 在特定数据集和条件下, 该方法能提取额外有效信息, 提升分类性能.

Regular Fourier Features for Nonstationary Gaussian Processes

Arsalan Jawaid, Abdullah Karatas, Jörg Seewig

stat.ML cs.LG

本文提出了一种用于非平稳高斯过程的regular Fourier features方法. 该方法通过直接离散化谱表示, 避免了传统谱方法对谱密度作为概率测度的限制, 并自然地扩展到了从数据中学习核函数.

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

Camile Lendering, Erkut Akdag, Egor Bondarev

cs.CV cs.LG

本文提出了一种无需训练的少样本异常检测方法 SubspaceAD. 该方法利用冻结的 DINOv2 骨干网络提取特征, 并通过 PCA 建模正常样本的低维子空间, 基于重构残差进行异常检测. 在多个数据集上取得了先进的性能.

Low-degree Lower bounds for clustering in moderate dimension

Alexandra Carpentier, Nicolas Verzelen

math.ST cs.LG math.PR stat.ML

本文研究了在中等维度下($n \geq dK$)高斯混合模型聚类的计算复杂性。通过建立新的低次多项式下界，揭示了该区域存在不同于高维情况的“非参数速率”，并提供了一个匹配该速率的新算法。

LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure

Jaehong Cho et al.

cs.DC cs.AI

本文介绍了LLMServingSim 2.0，一个用于模拟异构与解耦大语言模型服务基础设施的系统级仿真器。该工具通过统一的运行时框架，对硬件与软件的交互进行建模，以支持性能分析与系统设计。

Make It Hard to Hear, Easy to Learn: Long-Form Bengali ASR and Speaker Diarization via Extreme Augmentation and Perfect Alignment

Sanjid Hasan et al.

cs.SD cs.AI cs.CL eess.AS

本文针对孟加拉语长音频的自动语音识别(ASR)和说话人日志(speaker diarization)问题, 引入了大规模数据集Lipi-Ghor-882. 研究发现, 对于ASR, 结合完美对齐标注与合成声学退化的微调策略最为有效; 而对于说话人日志, 启发式后处理比模型重训练更能提升基线模型的性能.

Accelerated Online Risk-Averse Policy Evaluation in POMDPs with Theoretical Guarantees and Novel CVaR Bounds

Yaacov Pariente, Vadim Indelman

math.ST cs.AI

本文针对部分可观测马尔可夫决策过程(POMDP)中风险规避策略评估的计算难题, 提出了一种加速方法. 通过建立基于辅助变量的Conditional Value-at-Risk (CVaR)新边界, 并将其应用于简化的信念MDP, 该方法能够在保证理论性能的前提下, 通过动作剪枝显著减少计算量.

Q-Tag: Watermarking Quantum Circuit Generative Models

Yang Yang et al.

quant-ph cs.LG

本文提出了首个针对量子电路生成模型(quantum circuit generative models, QCGMs)的数字水印框架Q-Tag. 该方法通过对称采样策略将水印信息嵌入到模型的生成过程中, 在保证生成电路功能正确性的同时, 实现了对所有生成电路的所有权保护.

Devling into Adversarial Transferability on Image Classification: Review, Benchmark, and Evaluation

Xiaosen Wang et al.

cs.CV cs.AI

本文系统回顾了对抗样本可迁移性在图像分类领域的研究, 提出了一个标准化的评估框架和基准. 作者将现有攻击方法归类, 并讨论了提升可迁移性的常见策略与评估中的潜在偏差.

Automated Vulnerability Detection in Source Code Using Deep Representation Learning

C. Seas et al.

cs.CR cs.AI

本文提出了一种基于卷积神经网络的模型, 用于检测C源代码中的漏洞. 该模型在特定数据集上取得了比先前工作更高的recall, 并在Linux内核代码中展示了较低的误报率.

Efficient Encoder-Free Fourier-based 3D Large Multimodal Model

Guofeng Mei et al.

cs.CV cs.AI

本文提出了一种无需预训练视觉编码器的3D大模型Fase3D. 它通过结合点云序列化和快速傅里叶变换来近似自注意力, 实现了高效的无序3D数据处理.

SettleFL: Trustless and Scalable Reward Settlement Protocol for Federated Learning on Permissionless Blockchains (Extended version)

Shuang Liang et al.

cs.CR cs.LG

本文提出了一种名为SettleFL的去中心化奖励结算协议，旨在解决无许可区块链上联邦学习的高成本与可扩展性问题。该协议通过乐观执行与有效性证明两种策略，在保持去中心化的同时显著降低了链上开销。

Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking

Maximilian Luz et al.

cs.CV cs.AI cs.RO

本文提出了一种名为LaGS的方法, 用于4D全景占据跟踪. 该方法通过一种新颖的潜在高斯泼溅技术, 将多视角观测高效聚合到3D体素网格中, 并在Occ3D nuScenes和Waymo数据集上取得了先进的性能.

Dequantization Barriers for Guided Stoquastic Hamiltonians

Yassine Hamoudi, Yvan Le Borgne, Shrinidhi Teganahally Sridhara

quant-ph cs.CC cs.DS

本文构造了一个由指数大图的Perron-Frobenius特征向量导出的概率分布，并证明任何经典算法都无法对其进行高效采样，即使提供了最优的预热分布。这一结果暗示了经典算法无法解决一大类stoquastic基态问题。

FairQuant: Fairness-Aware Mixed-Precision Quantization for Medical Image Classification

Thomas Woergaard, Raghavendra Selvan

cs.CV cs.LG

本文提出了FairQuant框架, 用于医学图像分类中的公平感知混合精度量化. 该方法在固定比特预算下, 通过联合优化权重和比特分配, 在保持模型性能的同时改善了最差子组的性能.

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

Junhu Fu et al.

cs.CV cs.AI

本文提出了一种基于扩散模型的结肠镜视频生成框架 ColoDiff, 通过解耦时序依赖和引入内容感知控制来生成动态一致且内容可控的视频. 该方法在多个数据集和下游任务上进行了评估, 展示了其在缓解临床数据稀缺问题上的潜力.

Plug-and-Play Diffusion Meets ADMM: Dual-Variable Coupling for Robust Medical Image Reconstruction

Chenhe Du et al.

cs.CV cs.LG eess.IV

本文提出了一种用于医学图像重建的Dual-Coupled Plug-and-Play Diffusion方法。该方法通过引入对偶变量和谱均匀化技术，旨在解决现有方法中的稳态偏差和伪影问题，并在CT和MRI重建任务中展示了良好的性能。

MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction

Yizhi Li et al.

cs.CV cs.AI

本文提出了MovieTeller框架，通过结合外部人脸识别工具和渐进式抽象方法，生成长视频的摘要。该方法无需微调模型，提升了角色识别一致性和叙事连贯性。

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

Zhou Xu et al.

cs.CV cs.AI

本文提出了一种名为GUIPruner的训练无关框架，旨在提升高分辨率GUI智能体的效率。该方法通过时间自适应分辨率和分层结构感知剪枝来减少时空冗余，在保持性能的同时显著降低了计算开销。

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Jiangxin Sun et al.

cs.CV cs.AI cs.RO

本文提出了一种名为RaWMPC的端到端自动驾驶框架，它不依赖于专家演示数据。该方法利用world model预测候选动作的后果，并通过显式的风险评估来选择低风险动作。

Zeroth-Order Stackelberg Control in Combinatorial Congestion Games

Saeed Masiha et al.

cs.GT cs.LG

本文研究了在组合拥塞博弈中网络参数的Stackelberg（领导者-追随者）调节问题。作者提出了一种名为ZO-Stackelberg的零阶优化方法，该方法结合了无投影Frank-Wolfe均衡求解器，避免了通过均衡点进行微分，并证明了其收敛性。

ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation

Ayush Roy et al.

cs.CV cs.LG

本文提出了一种无需训练的扩散模型数据集蒸馏方法 ManifoldGD. 该方法通过分层聚类获取多尺度原型中心, 并在去噪过程的每一步施加流形一致性引导, 以提升合成数据的代表性和质量.

Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

Rafael R. Baptista et al.

cs.HC cs.AI cs.LG cs.RO eess.SY

本文评估了小型语言模型(SLMs)在人机交互(HRI)中用于领导者-追随者角色分类的性能。通过引入一个新数据集并比较零样本和单样本适应策略，研究发现经过微调的SLM在保持低延迟的同时实现了较高的分类准确率，但也指出了模型在处理更长对话上下文时面临的性能下降问题。

Deep ensemble graph neural networks for probabilistic cosmic-ray direction and energy reconstruction in autonomous radio arrays

Arsène Ferrière et al.

astro-ph.IM cs.LG

本文提出了一种基于图神经网络(GNN)的集成学习方法, 用于从自主射电天线阵列数据中概率性地重建超高能宇宙射线的到达方向和能量. 该方法将天线触发信号建模为图结构, 通过融入物理知识提升了重建精度并降低了对训练数据量的需求, 同时提供了预测的不确定性估计.

Utilizing LLMs for Industrial Process Automation

Salim Fares

cs.SE cs.AI

本文探讨了将LLMs应用于工业过程自动化领域的软件开发, 重点研究了其在专有、小众编程语言环境下的效用. 研究旨在通过LLMs解决实际编程任务, 以加速制造系统的开发周期.

Bitwise Systolic Array Architecture for Runtime-Reconfigurable Multi-precision Quantized Multiplication on Hardware Accelerators

Yuhao Liu, Salim Ullah, Akash Kumar

cs.AR cs.AI

本文提出了一种用于硬件加速器的运行时可重配置多精度量化乘法位级脉动阵列架构. 该设计支持在运行时为多精度量化神经网络模型进行精度重配置, 在FPGA平台上的评估显示其在推理混合精度模型时能获得加速并支持更高时钟频率.

Understanding Usage and Engagement in AI-Powered Scientific Research Tools: The Asta Interaction Dataset

Dany Haddad et al.

cs.HC cs.AI cs.IR

本文介绍了Asta Interaction Dataset, 这是一个用于分析AI驱动的科学研究工具实际使用情况的大规模数据集. 通过对用户查询和交互日志的分析, 文章揭示了研究人员如何将此类系统作为协作伙伴, 并描述了其非线性的使用模式.

AlayaLaser: Efficient Index Layout and Search Strategy for Large-scale High-dimensional Vector Similarity Search

Weijian Chen et al.

cs.DB cs.IR

本文提出了一种名为AlayaLaser的基于磁盘图索引系统，用于大规模高维向量相似性搜索。它通过设计新的数据布局和利用SIMD指令来缓解计算瓶颈，并通过一系列优化技术提升了搜索性能。

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Vaibhav Agrawal et al.

cs.CV cs.AI

本文提出了一种用于文本到图像生成的3D布局条件模型SeeThrough3D, 它通过一种遮挡感知的3D场景表示(OSCR)来显式建模物体间的遮挡关系. 该方法利用预训练的基于流的扩散模型, 结合从3D表示派生的视觉token和掩码自注意力机制, 实现了对多物体场景的精确生成与相机控制.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others