bluearXiv-ai - 2026-03-19

📄 所有论文 ↑ 回顶部

cs.LG

Anisotropic Permeability Tensor Prediction from Porous Media Microstructure via Physics-Informed Progressive Transfer Learning with Hybrid CNN-Transformer ⭐ 精选

Mohammad Nooraiepour

cs.LG physics.flu-dyn

本文提出了一种结合物理约束与渐进式迁移学习的深度学习框架, 用于从多孔介质微观结构图像预测各向异性渗透率张量. 该框架采用混合CNN-Transformer架构(MaxViT)来同时捕捉孔隙尺度的几何特征与代表性单元体积(REV)尺度的连通性统计, 并通过可微分的物理约束(如Onsager互易性和正定性)确保预测的物理一致性. 通过包含预训练、加权损失和条件化迁移学习的三阶段渐进式课程, 模型在测试集上取得了极高的预测精度, 其方法为物理信息科学机器学习提供了可迁移的设计原则.

A foundation model for electrodermal activity data

Leonardo Alchieri et al.

cs.LG cs.AI eess.SP

本文介绍了首个专门用于皮肤电活动(EDA)数据的基础模型UME, 并发布了大规模公开数据集EDAMAME用于训练. 该模型在多项下游任务中表现优于基线, 同时显著降低了计算资源需求.

Federated Multi Agent Deep Learning and Neural Networks for Advanced Distributed Sensing in Wireless Networks

Nadine Muller et al.

cs.LG

本文是一篇关于多智能体深度学习在无线网络分布式感知中应用的综述。文章系统梳理了2021-2025年间的研究进展，涵盖了学习框架、神经架构、先进技术和应用领域，并讨论了面向6G系统的开放性问题。

Multi-Agent Reinforcement Learning for Dynamic Pricing: Balancing Profitability,Stability and Fairness

Krishna Kumar Neelakanta Pillai Santha Kumari Amma

cs.LG cs.AI

本文使用 multi-agent reinforcement learning (MARL) 方法, 在模拟的竞争性零售市场环境中评估了 MAPPO 和 MADDPG 等算法用于动态定价的性能. 实验表明, MAPPO 在盈利和稳定性方面表现最佳, 而 MADDPG 则能实现更公平的利润分配.

From Language to Action in Arabic: Reliable Structured Tool Calling via Data-Centric Fine-Tuning

Omer Nacar et al.

cs.LG cs.AI

本文针对阿拉伯语function-calling任务中模型输出结构不稳定的问题, 提出了一个名为AISA-AR-FunctionCall的生产级框架. 该框架基于FunctionGemma模型, 通过系统性的数据审计, schema修复和全参数微调, 显著降低了解析失败率并提升了参数对齐的准确性.

What on Earth is AlphaEarth? Hierarchical structure and functional interpretability for global land cover

Ivan Felipe Benavides-Martinez et al.

cs.LG cs.AI

本文提出了一种功能可解释性框架, 用于逆向工程地理解地理空间基础模型(如Google AlphaEarth)所生成的高维嵌入(embeddings)的内部组织. 通过分析嵌入维度在土地覆盖分类任务中的贡献模式, 研究发现这些维度呈现出从"专家"到"通才"的层级功能谱系, 并揭示了嵌入空间中存在显著冗余, 仅需少量维度即可保持高性能.

HoloByte: Continuous Hyperspherical Distillation for Tokenizer-Free Modeling

Vladimer Khasia

cs.LG

本文提出了一种名为 HoloByte 的无分词器序列建模框架。它通过将字节序列投影到连续超球面流形上，并使用宏观 Transformer 处理压缩表示，以降低注意力计算复杂度。

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

Hongjun Wang et al.

cs.LG cs.AI cs.CL

本文提出了一种名为MHPO的新策略优化框架, 旨在提升强化学习的稳定性. 它通过引入Log-Fidelity Modulator和Decoupled Hazard Penalty来平滑重要性比率并自适应地抑制策略的极端偏移.

Integrating Explainable Machine Learning and Mixed-Integer Optimization for Personalized Sleep Quality Intervention

Mahfuz Ahmed Anik et al.

cs.LG stat.AP stat.ME

本文提出了一种结合可解释机器学习与混合整数优化的个性化睡眠质量干预框架. 该框架利用SHAP进行特征归因, 并将结果输入优化模型以生成最小化行为改变的建议.

Minimum-Action Learning: Energy-Constrained Symbolic Model Selection for Physical Law Identification from Noisy Data

Martin G. Frasch

cs.LG

本文提出了一种名为Minimum-Action Learning (MAL)的框架，用于从含噪声数据中识别物理定律。该方法通过最小化一个结合了轨迹重建、结构稀疏性和能量守恒约束的三重作用泛函，从预设的基函数库中选择符号化的力定律。在开普勒引力和胡克定律两个基准测试中，该方法能够有效识别出正确的力定律，并与多种现有方法进行了比较，展示了其在可解释、能量约束的模型选择方面的特点。

Formal verification of tree-based machine learning models for lateral spreading

Krishna Kumar

cs.LG cs.LO

本文提出了一种基于SMT求解器的形式化验证方法, 用于检查树集成模型在侧向扩展预测中的物理一致性. 该方法将训练好的模型和物理规范编码为逻辑公式, 并能在整个输入域上提供保证或生成反例, 揭示了模型精度与物理合规性之间的权衡.

Integrating Inductive Biases in Transformers via Distillation for Financial Time Series Forecasting

Yu-Chen Den et al.

cs.LG

本文提出了TIPS框架, 通过知识蒸馏将多种inductive biases整合到Transformer中, 用于非平稳金融时间序列预测. 该方法在多个市场指标上超越了现有基准模型.

Transformers Can Learn Rules They've Never Seen: Proof of Computation Beyond Interpolation

Andy Gray

cs.LG

本文通过两个受控实验探讨了transformer模型是否能够学习训练数据中未出现过的规则. 实验一在构造上排除了基于相似性的插值可能性, 实验二则要求模型输出符号化的中间推导步骤. 结果表明, transformer能够学习并表达未见过的规则结构, 这为模型具备超越插值的学习能力提供了存在性证明.

Do Understanding and Generation Fight? A Diagnostic Study of DPO for Unified Multimodal Models

Abinav Rao, Sujan Rachuri

cs.LG cs.AI cs.CV

本文研究了在统一多模态模型中使用DPO（Direct Preference Optimization）同时对齐理解和生成能力的可行性。实验发现，由于VQ（Vector Quantized）token数量不对称导致的梯度幅度失衡，生成质量难以通过DPO得到有效提升。

SCE-LITE-HQ: Smooth visual counterfactual explanations with generative foundation models

Ahmed Zeid, Sidney Bender

cs.LG cs.CV

本文提出了一种利用预训练生成基础模型来高效生成高分辨率视觉反事实解释的方法. 该方法在生成器的潜在空间中操作, 通过平滑梯度和基于掩码的多样化策略来提升优化稳定性和生成结果的真实性与多样性. 实验表明, 该方法在避免训练专用生成模型开销的同时, 能产生有效且高质量的反事实解释.

Early Quantization Shrinks Codebook: A Simple Fix for Diversity-Preserving Tokenization

Wenhao Zhao et al.

cs.LG cs.AI

本文研究了生成模型中 vector quantization 的表示坍缩问题, 分析了其类型与触发条件, 并提出了缓解方案.

PRISM: Demystifying Retention and Interaction in Mid-Training

Bharat Runwal et al.

cs.LG

本文通过PRISM实验研究了大型语言模型中期训练的设计选择, 发现对约27B高质量token进行中期训练能在数学、代码和科学基准上带来显著提升, 同时保持通用性能. 研究还表明, 数据组合在中期训练阶段比在强化学习阶段更为关键.

CircuitBuilder: From Polynomials to Circuits via Reinforcement Learning

Weikun K. Zhang et al.

cs.LG cs.AI cs.CC

本文使用强化学习(RL)方法，将多项式到算术电路(arithmetic circuit)的合成问题建模为一个单人游戏。作者比较了PPO+MCTS和SAC两种算法，在二元和三元多项式上的实验结果表明，该框架为研究自改进搜索策略提供了一个可验证的紧凑环境。

SENSE: Efficient EEG-to-Text via Privacy-Preserving Semantic Retrieval

Akshaj Murhekar et al.

cs.LG

本文提出了一种名为SENSE的轻量级隐私保护框架，用于将脑电图(EEG)信号解码为文本。该方法通过将解码过程解耦为设备端语义检索和基于提示的语言生成两个阶段，避免了大型语言模型(LLM)的微调，从而降低了计算开销并保护了原始神经数据的隐私。

Topology-Preserving Deep Joint Source-Channel Coding for Semantic Communication

Omar Erak et al.

cs.LG cs.IT eess.IV

本文提出了一种结合拓扑学正则项的深度联合信源信道编码框架, 用于在语义通信中更好地保持图像的全局结构信息. 该方法通过惩罚原始图像与重建图像之间的cubical persistence diagram的Wasserstein距离, 以及在信道传输前后潜在特征的Vietoris–Rips persistence之间的差异, 来增强编码的拓扑鲁棒性. 实验表明, 该方法在低信噪比和低带宽条件下, 能提升拓扑保持能力和峰值信噪比.

Contextual Preference Distribution Learning

Benjamin Hudson, Laurent Charlin, Emma Frejinger

cs.LG stat.ML

本文提出了一种学习情境偏好分布的序列学习与优化流程, 用于解决决策问题中因人类偏好异质性和情境依赖性带来的不确定性. 该方法通过一个有界方差评分函数梯度估计器训练预测模型, 将情境特征映射到一类可参数化的分布上, 以生成用于下游风险规避优化问题的场景.

REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge

Yasi Zhang et al.

cs.LG cs.AI

本文提出了一种名为REAL的强化学习框架, 旨在优化大语言模型作为评分员时的回归任务奖励. 该方法通过广义策略梯度估计器, 将优化分解为对思维链轨迹的探索和对最终分数的回归感知细化. 实验表明, REAL在多个模型规模上优于现有的回归感知监督微调方法和标准强化学习方法.

Personalized Fall Detection by Balancing Data with Selective Feedback Using Contrastive Learning

Awatif Yasmin et al.

cs.LG

本文提出了一种结合半监督聚类和对比学习的个性化跌倒检测框架, 旨在通过选择性平衡用户反馈数据来解决真实跌倒数据稀缺和样本不平衡的问题. 该框架在三种再训练策略下进行评估, 实验表明其能有效提升检测性能.

Noise-Response Calibration: A Causal Intervention Protocol for LLM-Judges

Maxim Khomiakov, Jes Frellsen

cs.LG

本文提出了一种基于因果干预的校准协议, 用于评估作为自动评判者的LLMs的可靠性. 该方法通过向输入施加可控的噪声扰动并观察性能下降趋势来进行校准, 实验揭示了文本与表格数据模态间的行为差异.

Domain-informed explainable boosting machines for trustworthy lateral spread predictions

Cheng-Hsi Hsiao, Krishna Kumar, Ellen M. Rathje

cs.LG physics.geo-ph

本文提出了一种结合领域知识的可解释提升机框架, 用于提高侧向扩展预测的物理一致性. 该方法通过修正学习到的形状函数来纠正非物理趋势, 在2011年基督城地震数据集上应用, 以可接受的精度损失获得了更符合物理规律的解释.

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Peng Xia et al.

cs.LG

本文提出了一个名为MetaClaw的持续元学习框架，用于使基于大语言模型（LLM）的智能体能够在实际部署中持续进化。该框架结合了技能驱动的快速适应和机会性策略优化两种机制，旨在无需停机的情况下更新模型策略和行为技能库。实验表明，该方法在多个基准测试上显著提升了任务准确性和系统鲁棒性。

Self-Conditioned Denoising for Atomistic Representation Learning

Tynan Perez, Rafael Gomez-Bombarelli

cs.LG

本文提出了一种名为Self-Conditioned Denoising (SCD)的自监督预训练方法, 用于原子尺度数据的表示学习. 该方法通过跨域的去噪重构任务, 在多个下游性质预测任务上取得了与监督预训练相当或更优的性能.

Abstraction as a Memory-Efficient Inductive Bias for Continual Learning

Elnaz Rahmati et al.

cs.LG cs.CL

本文提出了一种名为 Abstraction-Augmented Training (AAT) 的损失函数级修改方法，用于在线持续学习。该方法通过联合优化具体实例及其抽象表示，鼓励模型捕获跨样本的潜在关系结构，从而在不使用回放缓冲区的情况下稳定学习。实验表明，该方法在无需额外内存的情况下，取得了与经验回放基线相当或更好的性能。

Catching rationalization in the act: detecting motivated reasoning before and after CoT via activation probing

Parsa Mirtaheri, Mikhail Belkin

cs.LG cs.AI cs.CL

本文通过监督探针分析大型语言模型在生成思维链前后的内部激活状态, 研究其在多选任务中受外部提示影响而进行合理化推理的现象. 研究表明, 基于内部表示的探测比基于思维链的监控能更可靠地识别这种动机性推理行为.

On the Cone Effect and Modality Gap in Medical Vision-Language Embeddings

David Restrepo et al.

cs.LG

本文提出了一种轻量级后处理机制, 通过单一超参数$\lambda$连续控制预训练Vision-Language Model (VLM)中的跨模态分离程度, 即"模态鸿沟"(modality gap). 实验表明, 在监督多模态学习任务中, 适度而非完全消除该鸿沟通常能获得最佳性能, 尤其在医学领域数据集上更为敏感.

Binary Latent Protein Fitness Landscapes for Quantum Annealing Optimization

Truong-Son Hy

cs.LG q-bio.QM

本文提出了一种名为Q-BIOLAT的框架，用于在二进制潜在空间中建模和优化蛋白质适应度景观。该方法利用预训练的蛋白质语言模型获取连续嵌入，并将其转换为二进制表示，进而通过QUBO模型近似适应度，以支持高效的组合优化。

Pathology-Aware Multi-View Contrastive Learning for Patient-Independent ECG Reconstruction

Youssef Youssef, Jitin Singla

cs.LG cs.AI

本文提出了一种用于患者无关ECG重建的病理感知多视图对比学习框架. 该方法通过病理流形正则化潜在空间, 整合时域波形与病理感知嵌入, 以过滤解剖学"干扰"变量, 在患者无关设定下显著降低了重建误差.

Variational Rectification Inference for Learning with Noisy Labels

Haoliang Sun et al.

cs.LG

本文提出了一种名为variational rectification inference (VRI)的方法来处理带噪声标签的学习问题。该方法通过变分推断框架自适应地修正损失函数，以提高模型在噪声数据下的鲁棒性。

Classifier Pooling for Modern Ordinal Classification

Noam H. Rotenberg, Andreia V. Faria, Brian Caffo

cs.LG stat.ME

本文提出了一种与模型无关的 ordinal classification 方法, 可以将任何非序数分类方法应用于序数数据. 作者开发了相应的 Python 软件包, 并在多个真实数据集上验证了其性能, 特别是在数据量较小或类别较多时优于非序数方法.

WINFlowNets: Warm-up Integrated Networks Training of Generative Flow Networks for Robotics and Machine Fault Adaptation

Zahin Sufiyan et al.

cs.LG

本文提出了一种名为WINFlowNets的新型CFlowNets框架，用于解决连续场景下的顺序决策问题。该方法通过引入预热阶段和共享训练架构，实现了流网络与检索网络的协同训练，在模拟机器人环境中表现出更好的奖励和稳定性。

Learning Permutation Distributions via Reflected Diffusion on Ranks

Sizhuang He et al.

cs.LG cs.AI

本文提出了一种在连续表示空间中进行置换扩散学习的方法, 通过将离散的秩(rank)松弛为软秩(soft rank)来构建更平滑的前向过程, 并引入了上下文广义Plackett-Luce模型作为去噪器. 实验表明该方法在排序和组合优化任务上优于先前的扩散基线.

Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach Driven by Numerical and Structural Dual-Sensitivity

Hengyuan Zhang et al.

cs.LG cs.CL

本文提出了一种无需校准数据的层间混合精度量化框架NSDS, 它通过数值和结构双重敏感性分析来指导比特分配. 该方法将每层的权重模块按操作角色分解, 并利用MAD-Sigmoid和Soft-OR进行稳健聚合, 在多种模型和任务上取得了优于基线方法的性能.

Variational Kernel Design for Internal Noise: Gaussian Chaos Noise, Representation Compatibility, and Reliable Deep Learning

Ziran Liu

cs.LG math.PR

本文提出了一种名为Variational Kernel Design (VKD)的理论框架，用于系统性地设计深度网络中的内部噪声机制。通过求解一个空间子族，作者得到了一个由Dirichlet Laplacian定义的Gaussian Chaos Noise (GCh)，并在ImageNet等数据集上验证了其在模型校准和鲁棒性方面的有效性。

Efficient Exploration at Scale

Seyed Mohammad Asghari et al.

cs.LG cs.AI

本文提出了一种用于提升RLHF数据效率的在线学习算法。该算法结合了奖励模型更新、带小幅度正向调整的强化信号、建模不确定性的epistemic神经网络以及信息导向探索等技术。实验表明，该算法能以远少于离线RLHF所需的数据量达到相近的性能。

SCALE:Scalable Conditional Atlas-Level Endpoint transport for virtual cell perturbation prediction

Shuizhou Chen et al.

cs.LG cs.AI q-bio.QM

本文提出了一个用于虚拟细胞扰动预测的大规模基础模型SCALE, 它通过构建高效的训练推理框架、将扰动预测建模为条件传输问题并使用面向生物学的评估协议, 提升了预测的效率和生物保真度.

Cohomological Obstructions to Global Counterfactuals: A Sheaf-Theoretic Foundation for Generative Causal Models

Rui Wu, Hong Xie, Yongjun Li

cs.LG

本文提出了一种基于 sheaf theory 的框架，用于分析生成式因果模型中全局反事实的拓扑障碍。通过引入 entropic regularization 和一种新的 coupled non-linear Fokker-Planck 方程系统，该工作为高维数据（如 scRNA-seq）中的因果推理提供了计算工具。

The Causal Uncertainty Principle: Manifold Tearing and the Topological Limits of Counterfactual Interventions

Rui Wu, Hong Xie, Yongjun Li

cs.LG

本文探讨了将 Pearl 的 do-calculus 应用于连续生成模型时遇到的几何限制。作者提出了一个几何感知的因果流算法来处理高维数据中的这些问题。

Large-Scale 3D Ground-Motion Synthesis with Physics-Inspired Latent Operator Flow Matching

Yaozhong Shi et al.

cs.LG

本文提出了一种用于大规模三维地震动合成的物理启发式潜在算子流匹配框架, 能够根据物理参数快速生成具有时空相干性的区域地震动时程. 该方法在旧金山湾区地震场景的模拟数据上验证有效, 实现了万倍加速, 为分布式基础设施的风险评估提供了新工具.

Causal Representation Learning on High-Dimensional Data: Benchmarks, Reproducibility, and Evaluation Metrics

Alireza Sadeghi, Wael AbdAlmageed

cs.LG

本文对因果表示学习(CRL)模型在高维数据上的评估现状进行了批判性分析. 作者讨论了现有数据集的局限性, 提出了一个综合评估指标, 并考察了该领域研究的可复现性问题.

The Phasor Transformer: Resolving Attention Bottlenecks on the Unit Circle

Dibakar Sigdel

cs.LG cs.AI

本文提出了一种名为Phasor Transformer的新型Transformer模块, 用于处理长序列时间序列数据. 该方法在单位圆流形上表示序列状态, 结合可训练的相位偏移和无参数的离散傅里叶变换进行全局token混合, 避免了传统点积自注意力的二次计算瓶颈.

TimeAPN: Adaptive Amplitude-Phase Non-Stationarity Normalization for Time Series Forecasting

Yue Hu et al.

cs.LG cs.AI

本文提出了一种名为TimeAPN的自适应幅度-相位非平稳性归一化框架, 用于处理多元长期时间序列预测中的非平稳性问题. 该方法通过联合建模时域和频域的统计特性来预测未来的非平稳因素, 并利用自适应归一化机制来应对信号能量的突变.

Baguan-TS: A Sequence-Native In-Context Learning Model for Time Series Forecasting with Covariates

Linxiao Yang et al.

cs.LG cs.AI

本文提出了一种用于时间序列预测的序列原生上下文学习模型Baguan-TS. 该模型通过一个3D Transformer联合处理时间、变量和上下文轴, 并引入了基于目标空间检索的局部校准和上下文过拟合策略来提升性能. 在多个真实世界数据集上的评估表明, 该模型在点预测和概率预测指标上均优于现有基线.

Efficient Soft Actor-Critic with LLM-Based Action-Level Guidance for Continuous Control

Hao Ma et al.

cs.LG

本文提出了一种名为GuidedSAC的强化学习算法，它利用大型语言模型(LLM)为Soft Actor-Critic(SAC)算法提供动作层面的指导，以促进在广阔状态-动作空间中的高效探索。实验表明，该方法在样本效率和最终性能上优于标准SAC及其他探索增强算法。

Auto-Unrolled Proximal Gradient Descent: An AutoML Approach to Interpretable Waveform Optimization

Ahmet Kaplan

cs.LG cs.AI

本文提出了一种结合AutoML与model-based deep unfolding的波形优化方法, 将proximal gradient descent算法展开为可学习的深度网络. 通过AutoGluon进行超参数优化, 该方法仅用少量层数即可逼近传统迭代求解器的性能.

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Charuka Herath et al.

cs.LG cs.AI

本文提出了一种名为QuantFL的可持续联邦学习框架, 旨在降低边缘IoT设备上的训练能耗. 该方法利用预训练模型初始化, 结合轻量化的量化技术, 显著减少了通信开销, 并在MNIST和CIFAR-100数据集上验证了其有效性.

Translation Invariance of Neural Operators for the FitzHugh-Nagumo Model

Luca Pellegrini

cs.LG math.NA

本文评估了多种Neural Operator架构在FitzHugh-Nagumo模型上的表现，特别关注其对时空平移的泛化能力。研究通过一种新颖的训练策略来测试模型的平移不变性，并比较了不同架构在精度和效率上的差异。

AirDDE: Multifactor Neural Delay Differential Equations for Air Quality Forecasting

Binqing Wu et al.

cs.LG cs.AI

本文提出了一种用于空气质量预测的神经延迟微分方程框架AirDDE, 通过引入记忆增强注意力模块和物理引导的延迟演化函数来建模污染物传播中的延迟效应. 实验表明该方法在多个真实数据集上取得了先进的预测性能.

CA-Based Interpretable Knowledge Representation and Analysis of Geometric Design Parameters

Alexander Köhler, Michael Breuß

cs.LG

本文探讨了在基于PCA的几何表示中估计原始设计参数的问题. 作者分析了该领域一个近期改进方法, 指出其与标准PCA的等价性, 并研究了该方法的局限性以及实现准确、可解释参数估计的合理条件.

CLeAN: Continual Learning Adaptive Normalization in Dynamic Environments

Isabella Marasco et al.

cs.LG cs.AI

本文提出了一种用于表格数据持续学习的自适应归一化方法CLeAN. 该方法通过可学习参数和指数移动平均模块来估计全局特征尺度, 以适应动态变化的数据分布. 实验表明, CLeAN能提升模型在新数据上的性能并缓解灾难性遗忘.

Conditional Inverse Learning of Time-Varying Reproduction Numbers Inference

Lanlan Yu et al.

cs.LG physics.soc-ph

本文提出了一种基于条件逆学习的时变再生数推断框架, 通过将流行病学结构与灵活的似然建模相结合来处理这一不适定逆问题. 该方法在合成与真实数据上展现了有效性.

FoMo X: Modular Explainability Signals for Outlier Detection Foundation Models

Simon Klüttermann et al.

cs.LG cs.AI

本文提出了FoMo-X框架, 为用于异常检测的tabular foundation models (如PFNs) 提供轻量化的内在可解释性信号. 该方法通过在预训练模型的frozen embeddings上附加离线训练的辅助诊断头, 实现了对模型不确定性和异常严重性的高效、确定性推断, 弥补了基础模型预测性能与操作可解释性之间的差距.

Unsupervised Symbolic Anomaly Detection

Md Maruf Hossain et al.

cs.LG cs.AI cs.SC

本文提出了一种基于symbolic regression的无监督异常检测方法SYRAN. 该方法通过学习一组描述symbolic invariants的可读方程来检测异常, 使得检测逻辑本身具有可解释性.

Identifying Latent Actions and Dynamics from Offline Data via Demonstrator Diversity

Felix Schur

cs.LG cs.AI stat.ML

本文研究了在离线轨迹中未观测到动作的情况下, 如何从仅带有演示者身份标签的数据中恢复潜在动作和环境动态. 通过假设不同演示者遵循不同的策略, 而环境动态是共享的, 作者证明了在满足策略多样性和秩条件时, 潜在转移和演示者策略在潜在动作标签的排列意义下是可识别的. 该工作为从离线强化学习数据中学习潜在动作和动态提供了理论依据.

One-Step Sampler for Boltzmann Distributions via Drifting

Wenhan Cao, Keyu Yan, Lin Zhao

cs.LG

本文提出了一种基于漂移(drifting)的框架,用于对由能量函数定义的Boltzmann分布进行摊销采样(amortized sampling). 该方法通过沿高斯平滑的分数场(score field)投影样本来训练一步式神经生成器, 从而从当前模型分布向目标Boltzmann分布移动. 对于归一化常数未知的目标分布, 作者推导了实用的目标侧漂移项, 并结合采样器侧平滑分数的估计, 形成了一个简单的停止梯度(stop-gradient)训练目标. 实验表明, 该方法能有效处理非凸和弯曲的低能量几何结构.

End-to-end data-driven prediction of urban airflow and pollutant dispersion

Nishant Kumar et al.

cs.LG

本文提出了一种用于预测城市街道峡谷内气流与污染物扩散的端到端数据驱动模型. 该方法结合了 spectral proper orthogonal decomposition (SPOD), autoencoder, LSTM 和卷积神经网络, 基于大涡模拟数据实现了对瞬时场和统计稳态场的长期预测.

AdaMuS: Adaptive Multi-view Sparsity Learning for Dimensionally Unbalanced Data

Cai Xu et al.

cs.LG

本文提出了AdaMuS框架来处理维度不平衡的多视图学习问题. 该方法通过构建视图特定编码器和稀疏融合范式, 旨在避免对高维数据的偏见并有效对齐不同视图. 在合成与真实数据集上的实验表明其具有较好的性能.

Complementary Reinforcement Learning

Dilxat Muhtar et al.

cs.LG cs.CL

本文提出了一种名为Complementary RL的强化学习方法, 旨在通过使经验提取器与策略执行器协同进化来解决传统RL方法中历史经验利用效率低下的问题. 该方法在单任务和多任务场景下均展现出优于仅基于结果反馈的基线方法的性能.

ARES: Scalable and Practical Gradient Inversion Attack in Federated Learning through Activation Recovery

Zirui Gong et al.

cs.LG cs.CR

本文提出了一种名为ARES的梯度反演攻击方法, 用于联邦学习场景. 该方法通过解决一个带噪声的稀疏恢复问题来重构训练样本, 无需修改模型架构, 并在实验中展示了其有效性.

Benchmarking Reinforcement Learning via Stochastic Converse Optimality: Generating Systems with Known Optimal Policies

Sinan Ibrahim et al.

cs.LG cs.AI eess.SY math.OC

本文提出了一种基于stochastic converse optimality的强化学习benchmarking框架. 该框架为具有已知最优策略的系统生成提供了理论条件, 旨在实现更可控和可复现的算法评估.

DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis

Aleksander Ogonowski, Konrad Klimaszewski, Przemysław Rokita

cs.LG cs.CV

本文提出了一种名为DSS-GAN的新型生成对抗网络, 它首次将Mamba结构作为分层生成器的骨干网络用于噪声到图像的合成. 其核心创新是方向性潜在路由(DLR)机制, 该机制将潜在向量分解为方向特定的子向量, 并与类别嵌入联合投影, 以对Mamba扫描进行特征仿射调制. 实验表明, 该模型在多个数据集上取得了优于StyleGAN2-ADA的FID等指标.

Flow Matching Policy with Entropy Regularization

Ting Gao et al.

cs.LG

本文提出了一种基于常微分方程(ODE)的在线强化学习框架FMER, 用于解决扩散策略中熵控制困难和计算成本高的问题. 该方法通过流匹配(flow matching)参数化策略, 并利用优势加权目标速度场进行策略更新, 在稀疏多目标任务上表现优于现有方法.

Objective Mispricing Detection for Shortlisting Undervalued Football Players via Market Dynamics and News Signals

Chinenye Omejieke, Shuyao Chen, Xia Cui

cs.LG cs.AI

本文提出了一种基于客观错误定价的框架, 用于识别被低估的足球运动员. 该框架利用市场动态数据和新闻NLP特征进行建模, 并通过时序评估验证了其作为球探决策支持工具的有效性.

Can Blindfolded LLMs Still Trade? An Anonymization-First Framework for Portfolio Optimization

Joohyoung Jeon, Hongchul Lee

cs.LG cs.AI q-fin.CP q-fin.PM

本文提出了一种名为BlindTrade的匿名化框架, 用于评估LLM交易代理是否真正理解市场动态而非依赖记忆. 通过将股票代码和公司名称匿名化, 并利用多个LLM代理进行推理和评分, 结合GNN和PPO-DSR策略进行交易, 该方法旨在验证信号的有效性并减少回测偏差. 实验表明, 该策略在特定市场条件下表现良好, 但其alpha收益具有市场状态依赖性.

Predicting Trajectories of Long COVID in Adult Women: The Critical Role of Causal Disentanglement

Jing Wang et al.

cs.LG cs.CY

本文利用基于Large Language Model的因果网络，整合静态临床资料与纵向可穿戴设备数据，预测了女性长期COVID的严重程度轨迹。研究强调了区分直接病理指标与混杂因素（如更年期）的重要性，并在临床严重性预测上达到了86.7%的精度。

Embedding World Knowledge into Tabular Models: Towards Best Practices for Embedding Pipeline Design

Oksana Kolomenko, Ricardo Knauer, Erik Rodner

cs.LG

本文系统地评估了256种不同的LLM嵌入流水线配置在表格预测任务中的效果. 研究发现, 流水线的具体设计对性能提升至关重要, 其中拼接嵌入通常优于替换原始列, 且更大的嵌入模型往往带来更好的结果.

Towards Infinitely Long Neural Simulations: Self-Refining Neural Surrogate Models for Dynamical Systems

Qi Liu, Laure Zanna, Joan Bruna

cs.LG

本文提出了一种名为自精炼神经代理模型(SNS)的框架, 旨在解决自回归神经代理模型在模拟动力系统时因误差累积而导致长期生成质量下降的问题. 该模型通过条件扩散模型的设计, 在无需超参数调优的情况下, 平衡了短期精度与长期一致性.

Attention Sinks Induce Gradient Sinks

Yihong Chen, Quanming Yao

cs.LG cs.AI

本文从反向传播的角度研究了Transformer模型中attention sinks与massive activations之间的关系. 研究发现, 在因果掩码下, attention sinks会导致显著的梯度集中现象, 称为gradient sinks.

RangeAD: Fast On-Model Anomaly Detection

Luca Hinkamp, Simon Klüttermann, Emmanuel Müller

cs.LG cs.AI

本文提出了On-Model AD这一新设置，旨在利用已有机器学习模型内部信息进行异常检测。作者提出的RangeAD算法通过提取神经元输出范围来实现高效检测，在降低推理成本的同时保持了高性能。

Dropout Robustness and Cognitive Profiling of Transformer Models via Stochastic Inference

Antônio Junior Alves Caiado, Michael Hahsler

cs.LG cs.AI

本文通过MC Dropout方法评估了Transformer模型在推理时随机性下的鲁棒性。研究发现，模型的dropout鲁棒性与架构相关，且存在任务不对称性。

Federated Distributional Reinforcement Learning with Distributional Critic Regularization

David Millard et al.

cs.LG

本文提出了联邦分布强化学习(FedDistRL)框架, 其中客户端参数化分位数价值函数评论家(critic)并仅对这些网络进行联邦聚合. 作者还引入了TR-FedDistRL方法, 通过构建基于Wasserstein重心(barycenter)的分布信任区域来约束参数平均过程, 以保留必要的分布信息. 实验表明, 该方法在多个环境中减少了均值模糊(mean-smearing)并改善了安全指标.

Discovering Decoupled Functional Modules in Large Language Models

Yanke Yu et al.

cs.LG cs.CL

本文提出了一种无监督的框架ULCMOD, 用于在大语言模型(LLM)中发现解耦的功能模块. 该方法通过优化目标函数和迭代解耦算法, 将神经元聚类成模块并关联输入主题, 实验表明其能发现语义连贯且层次化组织的模块.

Symmetry-Reduced Physics-Informed Learning of Tensegrity Dynamics

Jing Qin, Muhao Chen

cs.LG

本文提出了一种结合群论对称性的物理信息神经网络(SymPINN)框架, 用于预测张拉整体结构的动力学. 该方法通过将节点分解为对称轨道并使用对称基表示坐标, 构建了保持几何对称性的降维表示, 并通过两阶段优化策略提高了训练效率. 数值实验表明, 该方法在预测精度和计算效率上优于标准物理信息模型.

Physics-Aware Machine Learning for Seismic and Volcanic Signal Interpretation

William Thorossian

cs.LG

本文综述了将机器学习应用于地震和火山信号分析的最新进展. 重点讨论了如何结合经典信号处理的先验知识, 利用自监督和生成模型减少对标注数据的依赖, 并评估模型在不同区域间的泛化能力.

Procedural Generation of Algorithm Discovery Tasks in Machine Learning

Alexander D. Goldie et al.

cs.LG cs.AI

本文提出了一个用于机器学习算法发现任务的过程化生成器 DiscoGen, 它能生成数百万个不同难度和复杂度的任务, 覆盖强化学习优化器、图像分类损失函数等多个领域. 作者还基于此构建了一个基准测试集 DiscoBench, 并展示了其在算法发现智能体提示优化上的应用.

RHYME-XT: A Neural Operator for Spatiotemporal Control Systems

Marijn Ruiter et al.

cs.LG eess.SY math.OC

本文提出了一种名为RHYME-XT的算子学习框架, 用于对具有局部节律行为的输入仿射非线性偏积分微分方程(PIDEs)所控制的时空系统进行代理建模. 该方法通过Galerkin投影将无限维系统近似到由神经网络参数化的有限维子空间上, 并直接学习其流映射, 避免了昂贵的积分计算, 在神经场PIDE的实验中表现优于现有神经算子.

Operator-Theoretic Foundations and Policy Gradient Methods for General MDPs with Unbounded Costs

Abhishek Gupta, Aditya Mahajan

cs.LG math.OC

本文从算子理论的角度重新审视了具有无界成本的广义MDPs, 将策略优化问题转化为特定函数空间上线性算子的优化问题. 利用线性算子的摄动理论, 该框架导出了目标函数关于算子的导数, 从而将许多强化学习经典结果推广到了具有一般状态和动作空间的MDPs中.

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Arpit Singh Gautam, Saurabh Jha

cs.LG cs.AI

本文提出了一种名为RAMP的强化学习框架, 用于为大语言模型(LLM)的推理进行自适应混合精度量化. 该方法通过一个离线策略学习每层的比特宽度分配, 以在全局比特预算下最小化困惑度, 并引入了Scale Folding技术来稳定低比特量化. 实验表明, 该方法在Llama 2等模型上取得了优于均匀量化方法的效果, 并且训练好的策略能够零样本迁移到其他模型.

Only relative ranks matter in weight-clustered large language models

Borja Aizpurua, Sukhbinder Singh, Román Orús

cs.LG cs.CL

本文通过weight clustering方法压缩大语言模型, 证明了模型性能主要依赖于权重间的相对排序(relative rank), 而非精确数值. 即使将权重矩阵的值聚类到16-64个, 模型仍能保持较好的准确性.

CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention

Zhongzhu Zhou et al.

cs.LG cs.AI

本文提出了一种名为CARE的转换方法, 用于将预训练的注意力模块(如GQA)转换为多头部潜在注意力(MLA)格式. 该方法通过考虑激活的协方差结构和进行非均匀的秩分配, 旨在减少激活漂移并提升注意力保真度, 在固定KV缓存预算下实现了比均匀秩SVD基线更好的困惑度和准确率.

Unified Policy Value Decomposition for Rapid Adaptation

Cristiano Capone et al.

cs.LG q-bio.NC

本文提出了一种基于共享低维目标嵌入的策略-价值分解框架, 用于强化学习中的快速适应. 该方法通过双线性分解联合学习结构化的价值基函数和策略基函数, 在测试时无需梯度更新即可通过单次前向传播适应新任务.

Beyond Muon: MUD (MomentUm Decorrelation) for Faster Transformer Training

Ben S. Southworth, Stephen Thomas

cs.LG math.NA math.OC

本文提出了一种名为MUD的优化方法, 用于加速Transformer模型的训练. 该方法通过三角化(类Cholesky)的去相关操作替代了Muon优化器中的极分解, 在保持相近收敛性能的同时显著降低了计算开销.

cs.AI

Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures ⭐ 精选

Young Bin Park

cs.AI cs.IR cs.LO

本文提出了一种名为Kumiho的图原生认知记忆架构, 其核心是将AGM信念修正的形式化语义与属性图存储系统的操作语义对应起来. 该架构通过不可变修订、可变标签指针等图结构原语, 统一管理智能体的认知记忆与工作资产版本, 并证明了其满足AGM基本公设. 在LoCoMo等基准测试中, Kumiho显著优于现有基线, 其性能提升得益于前瞻性索引、事件提取等创新设计, 且架构与底层大模型解耦, 便于升级.

Generative AI-assisted Participatory Modeling in Socio-Environmental Planning under Deep Uncertainty

Zhihao Pei et al.

cs.AI

本文提出了一种利用大语言模型辅助参与式建模的工作流程, 用于深度不确定性下的社会-环境规划问题. 该工作流程通过迭代式人机交互, 能将利益相关者的自然语言问题描述转化为可执行的Python模型, 并以湖泊问题和电力市场问题为例验证了其可行性.

Transformers are Bayesian Networks

Gregory Coppola

cs.AI

本文提出Transformer架构本质上是Bayesian network的观点, 并通过多种方式论证这一对应关系. 作者证明了sigmoid transformer无论权重如何, 都等价于在其隐式factor graph上执行加权loopy belief propagation, 并探讨了其在有限概念空间中进行可验证推理的必要性.

Cascade-Aware Multi-Agent Routing: Spatio-Temporal Sidecars and Geometry-Switching

Davide Di Gioia

cs.AI cs.LG

本文提出了一种用于符号图网络的多智能体路由方法, 通过引入时空副车(sidecar)和几何切换机制来缓解因图结构(树状与环状)不同而导致的故障传播差异问题. 该方法结合了欧几里得传播基线, 具有时间衰减的双曲路由风险模型以及一个基于拓扑特征的几何选择器, 在基准测试中提升了任务成功率.

How Clued up are LLMs? Evaluating Multi-Step Deductive Reasoning in a Text-Based Game Environment

Rebecca Ansell, Autumn Toney-Wails

cs.AI cs.CL

本文在基于文本的棋盘游戏Clue中构建了一个多智能体测试环境, 用于评估LLM的多步演绎推理能力. 实验发现, 即使经过微调, 智能体也难以在完整游戏中保持一致的推理, 且推理量的增加并未带来精度的提升.

AI Scientist via Synthetic Task Scaling

Ziyang Cai, Harkirat Behl

cs.AI

本文提出了一种用于训练机器学习智能体的合成环境生成流程, 该流程能自动创建与SWE-agent框架兼容的机器学习挑战任务. 通过利用这些合成任务训练学生模型, 在MLGym基准测试上取得了性能提升.

Draft-and-Prune: Improving the Reliability of Auto-formalization for Logical Reasoning

Zhiyu Ni et al.

cs.AI

本文提出了一个名为 Draft-and-Prune 的推理时框架，旨在提升基于自动形式化的逻辑推理的可靠性。该方法通过生成多样化的自然语言计划并基于验证进行筛选，在多个基准测试上显著提高了性能，且无需额外监督。

Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations

Haozheng Luo et al.

cs.AI cs.CL cs.LG

本文提出了一种名为CRAFT的对抗性对齐框架, 通过结合对比表示学习和强化学习, 在隐藏状态空间中对齐大型推理模型, 以提升其抵御越狱攻击的鲁棒性. 实验表明, 该方法在多个安全基准测试上优于现有防御方法.

InfoDensity: Rewarding Information-Dense Traces for Efficient Reasoning

Chengwei Wei et al.

cs.AI cs.CL

本文提出了一种名为 InfoDensity 的奖励框架，用于在强化学习中训练大型语言模型，以生成更简洁且信息密度更高的推理过程。该方法通过结合基于 AUC 的奖励和单调性奖励来衡量推理质量，并引入长度缩放项来鼓励简洁性。实验表明，该方法在数学推理基准测试中能在保持或提升准确率的同时显著减少计算开销。

Physics-informed offline reinforcement learning eliminates catastrophic fuel waste in maritime routing

Aniruddha Bora, Julie Chalfant, Chryssostomos Chryssostomidis

cs.AI cs.LG cs.RO

本文提出了一个名为PIER的离线强化学习框架, 用于优化船舶航线的燃油效率. 该框架结合了物理信息与环境数据, 在验证中显著降低了燃油消耗的极端情况与方差.

ShuttleEnv: An Interactive Data-Driven RL Environment for Badminton Strategy Modeling

Ang Li et al.

cs.AI cs.LG

本文提出了一个名为ShuttleEnv的交互式数据驱动强化学习环境，用于羽毛球策略建模。该环境基于真实比赛数据构建概率模型来模拟对抗过程，旨在支持智能体策略分析与研究。

A Progressive Visual-Logic-Aligned Framework for Ride-Hailing Adjudication

Weiming Wu et al.

cs.AI cs.LG

本文提出了一个用于网约车责任判定的渐进式视觉-逻辑对齐框架 RideJudge. 该框架通过合成轨迹数据、自适应上下文优化和有序敏感强化学习等方法, 旨在解决多模态大模型在司法推理中存在的语义鸿沟与逻辑松散问题.

Towards Safer Large Reasoning Models by Promoting Safety Decision-Making before Chain-of-Thought Generation

Jianan Chen et al.

cs.AI

本文提出了一种新的安全对齐方法, 旨在提升大型推理模型(LRMs)在生成思维链(CoT)之前的安全决策能力. 该方法通过从安全模型中提取决策信号作为辅助监督, 在保持模型通用推理性能的同时显著增强了其安全性.

From Digital Twins to World Models:Opportunities, Challenges, and Applications for Mobile Edge General Intelligence

Jie Zheng et al.

cs.AI

本文是一篇关于从 digital twins 向 world models 转变的系统性综述，探讨了其在实现边缘通用智能（EGI）中的作用。文章比较了两者的概念差异，回顾了 world models 的设计原则与关键组件，并讨论了在无线 EGI 系统中的集成与应用前景。

Proactive Knowledge Inquiry in Doctor-Patient Dialogue: Stateful Extraction, Belief Updating, and Path-Aware Action Planning

Zhenhai Pan, Yan Liu, Jia You

cs.AI

本文提出了一种将医患对话建模为部分可观测下的主动知识查询问题的框架, 结合了状态提取, 信念更新和基于POMDP-lite的动作规划. 在受控的模拟对话评估中, 该框架在覆盖率和结构完整性等指标上表现优于基线方法, 但其结果仅限于概念验证, 不表明已具备临床部署能力.

When Only the Final Text Survives: Implicit Execution Tracing for Multi-Agent Attribution

Yi Nian et al.

cs.AI cs.CL

本文提出了一种名为IET的框架, 用于在多智能体语言系统中进行无元数据的token级归因和交互拓扑重建. 该方法通过在生成过程中嵌入特定于智能体的密钥信号来实现, 从而使得最终文本本身携带可检测的执行轨迹.

Informative Semi-Factuals for XAI: The Elaborated Explanations that People Prefer

Saugat Aryal, Mark T. Keane

cs.AI cs.LG

本文提出了一种新的解释性人工智能方法, 用于生成信息性半事实解释. 该方法通过揭示影响决策的隐藏特征来增强传统半事实解释, 实验和用户研究表明其生成更受偏好的解释.

Per-Domain Generalizing Policies: On Learning Efficient and Robust Q-Value Functions (Extended Version with Technical Appendix)

Nicola J. Müller et al.

cs.AI cs.LG

本文提出学习 Q-value functions 而非 state-value functions 来获得 per-domain generalizing policies. 通过引入正则化项来区分教师规划器采取与未采取的动作, 该方法在多个领域超越了 state-value policies 的性能.

VeriGrey: Greybox Agent Validation

Yuntong Zhang et al.

cs.AI

本文提出了一种名为VeriGrey的灰盒测试方法，用于探索LLM agent的多样化行为并发现其安全风险。该方法通过将工具调用序列作为反馈来驱动测试，并设计恶意注入提示作为变异算子，在基准测试和真实案例中发现了黑盒方法无法识别的攻击场景。

Sensi: Learn One Thing at a Time -- Curriculum-Based Test-Time Learning for LLM Game Agents

Mohsen Arjmandi

cs.AI cs.LG

本文提出了一种名为Sensi的LLM智能体架构，用于在未知环境中进行测试时学习。该架构通过分离感知与行动、引入课程学习机制以及使用数据库作为控制平面来提高样本效率。实验表明，其样本效率远超基线，但最终未能解决游戏关卡，瓶颈被诊断为感知层的幻觉问题。

MALLES: A Multi-agent LLMs-based Economic Sandbox with Consumer Preference Alignment

Yusen Wu, Yiran Liu, Xiaotie Deng

cs.AI

本文提出了一个基于多智能体大语言模型的经济模拟框架 MALLES, 通过后训练使模型学习跨领域的消费者偏好以缓解数据稀疏性问题, 并采用 mean-field 机制和多智能体讨论框架来提升模拟稳定性与决策质量. 实验表明该框架在多个预测任务上优于现有基线.

From Virtual Environments to Real-World Trials: Emerging Trends in Autonomous Driving

A. Humnabadkar et al.

cs.AI

本文是一篇关于自动驾驶领域如何利用合成数据与虚拟环境进行训练和验证的综述性文章. 文章系统梳理了合成数据在感知与规划中的应用, 基于数字孪生(digital twin)的系统验证方法以及连接合成与真实数据的领域适应(domain adaptation)策略等核心方向, 并讨论了该领域面临的挑战与未来研究方向.

Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory

Oliver Zahn, Simran Chana

cs.AI

本文比较了 in-context memory 与 Knowledge Objects (KOs) 在大型语言模型持久记忆任务中的表现. 研究发现 in-context memory 存在容量限制、压缩损失和目标漂移等失效模式, 而 KOs 在成本、准确性和多跳推理方面表现更优.

Governed Memory: A Production Architecture for Multi-Agent Workflows

Hamed Taheri

cs.AI cs.CL cs.MA

本文提出了一种用于多智能体工作流的共享内存与治理架构, 旨在解决企业AI中智能体节点间缺乏共享内存和统一治理所导致的结构性挑战. 该架构通过双模态记忆模型、分层治理路由等机制, 在实验中展示了高事实召回率和治理合规性, 并在基准测试中取得了良好效果.

RPMS: Enhancing LLM-Based Embodied Planning through Rule-Augmented Memory Synergy

Zhenhang Yuan, Shenghai Yuan, Lihua Xie

cs.AI

本文提出了RPMS架构, 通过结合规则检索和基于信念状态的门控记忆, 来管理LLM智能体在具身环境中的行动可行性. 该方法在ALFWorld和ScienceWorld基准测试上显著提升了任务成功率, 并分析了规则与记忆的协同作用.

AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse

Zhang Zhang et al.

cs.AI

本文提出了一种名为AgentFactory的LLM智能体自进化框架, 其核心创新在于将成功的任务解决方案保存为可执行的子智能体代码, 而非文本经验. 这些子智能体代码可移植且能基于执行反馈持续优化, 从而在遇到类似任务时减少人工干预.

cs.IR

OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation

Haoyang Fang et al.

cs.IR cs.AI cs.CL cs.LG

本文提出了一个名为OPERA的数据剪枝框架, 用于提升稠密检索器(dense retriever)领域自适应微调的效率和效果. 它包含静态剪枝和动态剪枝两种策略, 后者通过自适应调整采样概率, 在减少训练时间的同时实现了比标准微调更好的检索与排序性能.

Learning Evolving Preferences: A Federated Continual Framework for User-Centric Recommendation

Chunxu Zhang et al.

cs.IR

本文提出了一个联邦持续推荐框架FCUCR, 用于在保护隐私的同时学习用户不断变化的偏好. 该方法通过时间感知的自蒸馏策略来缓解时序遗忘, 并利用用户间原型迁移机制来增强个性化推荐.

Public Profile Matters: A Scalable Integrated Approach to Recommend Citations in the Wild

Karan Goyal et al.

cs.IR cs.AI cs.CL cs.SI

本文提出了一种新的引文推荐系统DAVINCI，它集成了一个名为Profiler的轻量级模块来高效捕获人类引用模式，并引入了一个更符合现实场景的归纳式评估框架。该系统在多个基准数据集上取得了最先进的性能。

PJB: A Reasoning-Aware Benchmark for Person-Job Retrieval

Guangzhi Wang et al.

cs.IR cs.CL

本文提出了一个用于人岗匹配检索的推理感知评测基准PJB, 它基于真实招聘数据构建, 旨在通过细粒度的领域和推理类型标签进行诊断性评估, 而非仅仅比较平均分数. 诊断实验揭示了跨行业领域的性能异质性远大于模型模块升级带来的收益.

CRE-T1 Preview Technical Report: Beyond Contrastive Learning for Reasoning-Intensive Retrieval

Guangzhi Wang, Yinghao Jiao, Zhi Liu

cs.IR cs.AI

本文提出了一种名为Thought 1 (T1)的生成式检索模型，旨在解决推理密集型检索中的挑战。该模型通过动态生成查询的中间推理轨迹来建立隐式关联，而非依赖静态的表示对齐。实验表明，该方法在BRIGHT基准测试上取得了有竞争力的性能。

VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation

Junyoung Kim et al.

cs.IR cs.AI

本文提出了VLM2Rec框架, 用于解决多模态序列推荐中模态坍缩的问题. 该框架通过引入弱模态惩罚对比学习和跨模态关系拓扑正则化, 提升了推荐精度与鲁棒性.

A Unified Language Model for Large Scale Search, Recommendation, and Reasoning

Marco De Nadai et al.

cs.IR cs.LG

本文提出了一个名为NEO的框架, 旨在将预训练的decoder-only LLM适配为一个无需外部工具、基于商品目录的生成器. 该框架通过将商品表示为结构化标识符(SIDs), 并训练单一模型在共享序列中交错生成自然语言和类型化商品标识符, 以统一支持推荐、搜索和推理等多种发现任务. 在包含超过1000万商品的多媒体目录上的实验表明, NEO在多个任务上优于特定任务基线, 并展现出跨任务迁移能力.

Deploying Semantic ID-based Generative Retrieval for Large-Scale Podcast Discovery at Spotify

Edoardo D'Amico et al.

cs.IR cs.LG

本文介绍了GLIDE, 一个用于Spotify播客发现的生产级生成式推荐系统. 它将推荐任务构建为基于Semantic IDs的指令遵循生成问题, 结合了近期收听历史和轻量级用户上下文, 并通过在线实验验证了其在促进探索性收听方面的效果.

Negation is Not Semantic: Diagnosing Dense Retrieval Failure Modes for Trade-offs in Contradiction-Aware Biomedical QA

Soumya Ranjan Sahoo et al.

cs.IR

本文针对生物医学问答中LLMs生成未经验证声明的风险, 提出了一个基于代理框架的系统化检索架构优化方法. 通过分析"语义坍缩"和"检索不对称性"等失败模式, 作者设计了一个解耦的词法架构, 在代理基准和TREC官方评估中取得了良好效果.

From Isolated Scoring to Collaborative Ranking: A Comparison-Native Framework for LLM-Based Paper Evaluation

Pujun Zheng et al.

cs.IR cs.CL

本文提出了一个基于比较的论文评估框架CNPE, 将评估范式从独立评分转向协同排序. 该框架通过图相似度算法构建对比数据, 并利用对比奖励进行模型微调, 在多个数据集上取得了优于基线模型的效果.

A Contextual Help Browser Extension to Assist Digital Illiterate Internet Users

Christos Koutsiaris

cs.IR cs.AI cs.HC

本文设计并评估了一个浏览器扩展, 它通过结合预定义词典和大型语言模型(LLM), 为网页上的技术术语提供即时悬浮提示. 一项用户研究表明, 该工具能有效帮助数字素养较低的用户理解术语并节省信息检索时间.

cs.CL

Trust, Safety, and Accuracy: Assessing LLMs for Routine Maternity Advice

V Sai Divya et al.

cs.CL cs.CY

本文评估了ChatGPT-4o, Perplexity AI和GeminiAI等大型语言模型在提供孕期健康建议方面的表现。研究通过语义相似度等指标与专业医疗建议对比，发现不同模型在准确性和可读性上各有优劣，并讨论了其在医疗资源匮乏地区的应用潜力。

Enhancing Financial Report Question-Answering: A Retrieval-Augmented Generation System with Reranking Analysis

Zhiyuan Cheng et al.

cs.CL

本文提出了一个用于金融报告问答的检索增强生成系统, 并评估了神经重排序对性能的影响. 实验表明, 重排序显著提升了答案质量.

Rubric-Guided Fine-tuning of SpeechLLMs for Multi-Aspect, Multi-Rater L2 Reading-Speech Assessment

Aditya Kamlesh Parikh et al.

cs.CL cs.AI cs.SD eess.AS

本文提出了一种基于评分标准引导的推理框架, 用于对第二语言(L2)朗读语音进行多维度、多评分员的自动化评估. 该方法通过微调Qwen2-Audio-7B-Instruct模型, 并结合不确定性校准回归与conformal calibration, 旨在提升评估结果与人类评分的一致性和可解释性.

LLM NL2SQL Robustness: Surface Noise vs. Linguistic Variation in Traditional and Agentic Settings

Lifu Tu et al.

cs.CL cs.AI

本文评估了多种先进LLM在传统和智能体(agentic)设置下对NL2SQL任务的鲁棒性。研究发现，模型在面对字符级噪声和保持语义的语言变体时性能会下降，且这两种扰动在不同设置下的影响程度不同。

Evaluating Ill-Defined Tasks in Large Language Models

Yi Zhou, Basel Shbita

cs.CL cs.AI

本文分析了当前大语言模型在ill-defined任务评估中存在的问题, 指出现有基准和指标常因任务定义模糊而失效. 通过两个案例研究, 揭示了评估结果不稳定、难以诊断的局限性, 并呼吁设计更稳健、可解释的评估方案.

Large Reasoning Models Struggle to Transfer Parametric Knowledge Across Scripts

Lucas Bandarkar, Alan Ansell, Trevor Cohn

cs.CL cs.AI

本文分析了大型推理模型在跨语言知识迁移中的不足, 指出其主要障碍是文字脚本(script)差异. 通过回归分析发现, 在控制模型能力和问题难度后, 脚本匹配是预测知识迁移失败的主要因素. 研究还通过提供源语言关键实体和设计合成微调数据, 证明了在推理时改善模型对音译模糊性的处理能力, 可以缩小跨脚本迁移的差距.

Ensemble Self-Training for Unsupervised Machine Translation

Ido Aharon, Jonathan Shaki, Sarit Kraus

cs.CL cs.LG

本文提出了一种基于集成自训练的无监督神经机器翻译框架. 该方法通过引入辅助语言构建多个模型, 并利用集成解码生成伪翻译数据来增强训练. 实验表明该方法能有效提升翻译质量.

Evaluating LLM-Simulated Conversations in Modeling Inconsistent and Uncollaborative Behaviors in Human Social Interaction

Ryo Kamoi et al.

cs.CL

本文提出了一个名为CoCoEval的评估框架, 用于分析由大语言模型(LLM)模拟的对话. 该框架利用LLM-as-a-Judge方法, 在话轮层面检测10种不一致和非合作行为, 并比较了不同LLM模型与人类对话在这些行为频率上的差异. 研究发现, 在标准提示下, LLM模拟的对话比人类对话表现出更少的不一致和非合作行为, 且提示工程或监督微调难以可靠地控制这些行为.

Knowledge Localization in Mixture-of-Experts LLMs Using Cross-Lingual Inconsistency

Lucas Bandarkar, Alan Ansell, Trevor Cohn

cs.CL cs.AI cs.LG

本文提出了一种利用跨语言不一致性来定位Mixture-of-Experts (MoE) LLMs中知识存储位置的方法。该方法通过对比模型在不同语言下回答事实问题的路由激活模式，识别出对特定知识至关重要的专家模块。

Exploiting the English Grammar Profile for L2 grammatical analysis with LLMs

Stefano Bannò et al.

cs.CL

本文提出了一个利用 English Grammar Profile (EGP) 和 LLMs 分析第二语言学习者语法能力的新框架。该框架能检测学习者对语法结构的尝试并评估其熟练度，结合了基于规则和基于 LLM 的方法。

Tabular LLMs for Interpretable Few-Shot Alzheimer's Disease Prediction with Multimodal Biomedical Data

Sophie Kearney et al.

cs.CL cs.LG q-bio.QM

本文提出了一个基于TableGPT2的领域适应框架TAP-GPT, 用于处理表格化生物标志物数据以进行阿尔茨海默病的少样本预测. 该方法在少样本场景下超越了传统机器学习基线, 并能处理高维输入和缺失数据, 同时生成可解释的推理过程.

CODMAS: A Dialectic Multi-Agent Collaborative Framework for Structured RTL Optimization

Che-Ming Chang et al.

cs.CL cs.AR cs.PL

本文提出了一个名为CODMAS的多智能体协作框架, 用于自动化RTL (Register Transfer Level) 代码优化. 该框架通过结构化辩论和领域感知的代码生成与评估, 在基准测试中展示了在降低关键路径延迟和功耗方面的有效性.

SYMDIREC: A Neuro-Symbolic Divide-Retrieve-Conquer Framework for Enhanced RTL Synthesis and Summarization

Prashanth Vijayaraghavan et al.

cs.CL cs.PL

本文提出了一个名为SYMDIREC的神经符号框架，用于改进硬件描述语言(HDL)的RTL综合与摘要任务。该框架通过符号规划分解任务，结合检索与大型语言模型(LLM)推理来生成经过验证的输出，在多项基准测试中超越了现有的提示和检索增强生成(RAG)方法。

Anonymous-by-Construction: An LLM-Driven Framework for Privacy-Preserving Text

Federico Albanese, Pablo Ronco, Nicolás D'Ippolito

cs.CL cs.AI cs.LG

本文提出了一种基于本地大语言模型(LLM)的文本匿名化框架, 通过将文本中的个人可识别信息(PII)替换为类型一致且真实的替代内容来保护隐私. 该方法在多项评估指标上优于现有的规则基准和先进方法, 在保护隐私的同时较好地保持了文本的语义效用和下游任务的可训练性.

Alignment Makes Language Models Normative, Not Descriptive

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

cs.CL cs.AI cs.GT

本文通过比较120个基础模型与对齐模型在多种多轮策略游戏中对人类决策的预测能力，发现基础模型的表现显著优于对齐模型。然而，在人类行为更符合规范性预测的单次博弈中，对齐模型则表现更好，这表明对齐过程使模型产生了规范性偏差。

TharuChat: Bootstrapping Large Language Models for a Low-Resource Language via Synthetic Data and Human Validation

Prajwal Panth, Agniva Maiti

cs.CL cs.AI cs.LG

本文针对低资源语言Tharu, 通过结合LLM生成与人工验证构建合成数据集TharuChat, 并训练了专门的指令跟随模型Tharu-LLaMA. 这项工作为利用生成式AI保护资源匮乏的语言提供了一个概念验证, 表明小规模合成数据可以有效提升模型性能.

Neuron-Level Emotion Control in Speech-Generative Large Audio-Language Models

Xiutian Zhao et al.

cs.CL eess.AS

本文提出了一种在语音生成大音频语言模型(LALMs)中进行无训练情感控制的方法. 该方法通过识别并干预情感敏感神经元(ESNs)来实现对生成语音情感的精确调控.

From Words to Worlds: Benchmarking Cross-Cultural Cultural Understanding in Machine Translation

Bangju Han et al.

cs.CL cs.AI

本文提出了一个名为CulT-Eval的基准测试，用于系统评估机器翻译系统处理文化负载表达（如习语、俚语和文化特定项目）的能力。该基准包含大量实例和详细的错误分类，并揭示了当前模型在保留文化含义和语境细微差别方面的不足。

Beyond bouba/kiki: Multidimensional semantic signals are deeply woven into the fabric of natural language

Gexin Zhao

cs.CL q-bio.NC

本文通过分析英语中所有220对字母对比, 发现单个音素携带多维度的语义信号. 这些信号与发音特征(如方式和部位)系统性相关, 并且行为实验和跨语言初步证据支持其普遍性.

Ruyi2.5 Technical Report

Huan Song et al.

cs.CL

本文介绍了多模态家族模型Ruyi2.5及其在隐私保护摄像头服务中的应用。该工作扩展了统一训练范式，并提出了用于加速强化学习微调的Binary Prefix Policy Optimization方法。

Grid Spatial Understanding: A Dataset for Textual Spatial Reasoning over Grids, Embodied Settings, and Coordinate Structures

Risham Sidhu, Julia Hockenmaier

cs.CL

本文提出了一个纯文本的网格空间理解数据集GSU, 用于评估大语言模型在导航、物体定位和结构组合三个核心任务上的空间推理能力. 研究发现, 尽管前沿模型能解决部分任务, 但模型普遍在涉及具身代理的参照系和从坐标列表识别3D形状方面存在困难, 且视觉模态的暴露并未带来可泛化的空间理解.

PACE-RAG: Patient-Aware Contextual and Evidence-based Policy RAG for Clinical Drug Recommendation

Chaeyoung Huh et al.

cs.CL

本文提出了一个用于临床药物推荐的框架PACE-RAG, 它结合了患者个体上下文与相似病例的处方模式. 该框架在帕金森病队列和MIMIC-IV基准测试上取得了先进的性能.

SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems

Rima Hazra et al.

cs.CL

本文提出了一个名为SafeTutors的基准测试，用于评估AI辅导系统在数学、物理和化学领域的教学安全性与教学效果。研究发现，现有模型普遍存在多种教学危害，且多轮对话会显著加剧这些问题。

Argument Reconstruction as Supervision for Critical Thinking in LLMs

Hyun Ryu et al.

cs.CL

本文提出了一个利用argument reconstruction来增强大语言模型critical thinking能力的框架. 该方法通过自动重构引擎GAAR生成了高质量数据集Arguinas, 并验证了学习argument reconstruction对下游critical thinking任务有积极效果.

TRiMS: Real-Time Tracking of Minimal Sufficient Length for Efficient Reasoning via RL

Tingcheng Bian et al.

cs.CL

本文提出了一个衡量推理链压缩的理论指标 MSL (Minimal Sufficient Length), 并基于此设计了一个名为 TRiMS 的训练方法. 该方法利用强化学习来动态缩减推理步骤, 在多个基准测试上实现了显著的 token 节省.

Humans and transformer LMs: Abstraction drives language learning

Jasper Jian, Christopher D. Manning

cs.CL

本文通过比较transformer语言模型在训练过程中的行为与人类语言习得中的抽象特征理论和具体样例理论, 研究了语言模型如何习得语言类别. 作者使用基于散度的新指标追踪学习轨迹, 发现在GPT-2 small模型中, 抽象类别行为比具体词汇行为出现得更早, 且不同语言行为在训练的不同阶段依次涌现.

Learning When to Attend: Conditional Memory Access for Long-Context LLMs

Sakshi Choudhary et al.

cs.CL cs.LG

本文提出了一种名为L2A的层, 用于在长上下文语言模型中实现条件化的记忆访问. 该方法通过让模型学习何时需要全局注意力, 显著减少了计算开销, 并在保持性能的同时将有效上下文长度扩展到128K tokens.

Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

Cem Uluoglakci, Tugba Taskaya Temizel

cs.CL

本文提出了一种名为HypoTermInstruct的SFT数据集，旨在通过训练模型识别自身知识边界来减少幻觉。实验表明，该方法能在保持通用能力的同时，有效提升模型在特定基准上的表现。

Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

Mengyu Bu, Yang Feng

cs.CL

本文提出了一种名为XBridge的组合架构, 将预训练的encoder-decoder翻译模型与大型语言模型(LLM)结合, 以提升多语言任务性能. 该方法通过引入轻量级的跨模型映射层和基于最优传输的对齐目标来解决模型间的表示对齐问题.

Detecting the Machine: A Comprehensive Benchmark of AI-Generated Text Detectors Across Architectures, Domains, and Adversarial Conditions

Madhav S. Baidya, S. S. Baidya, Chirag Chawla

cs.CL cs.AI

本文对多种AI生成文本检测器进行了综合基准测试, 评估了它们在跨领域、跨模型和对抗条件下的性能. 研究发现, 尽管transformer模型在分布内数据上表现优异, 但所有方法在泛化性和鲁棒性方面都存在显著局限.

AURORA Model of Formant-to-Tongue Inversion for Didactic and Clinical Applications

Patrycja Strycharczuk, Sam Kirkham

cs.CL

本文介绍了AURORA模型, 这是一个基于前两个共振峰(formant)值来预测元音发音时舌头位移和形状的计算模型. 该模型旨在作为教学辅助工具和生物反馈应用的基础, 并提供了两个使模型更易用的工具.

Zipper-LoRA: Dynamic Parameter Decoupling for Speech-LLM based Multilingual Speech Recognition

Yuxiang Mei et al.

cs.CL cs.SD

本文提出了一种名为 Zipper-LoRA 的动态参数解耦框架，用于解决基于 Speech-LLM 的多语言语音识别中的数据分布不平衡问题。该方法通过轻量级语言条件路由器，在 LoRA 的秩（rank）级别动态合成共享和语言特定子空间的更新，以平衡稳定性和可塑性。

KA2L: A Knowledge-Aware Active Learning Framework for LLMs

Haoxuan Yin et al.

cs.CL

本文提出了一个名为KA2L的知识感知主动学习框架，用于提升大型语言模型(LLM)在特定知识领域的性能。该框架通过分析模型的潜在空间来评估其对知识点的掌握程度，并据此生成模型尚未掌握的问题，从而提高了训练效率。实验表明，该方法能在多个数据集上显著降低标注和计算成本。

VeriAgent: A Tool-Integrated Multi-Agent System with Evolving Memory for PPA-Aware RTL Code Generation

Yaoxiang Wang et al.

cs.CL cs.PL

本文提出了一个名为VeriAgent的多智能体系统, 用于生成考虑功耗、性能和面积(PPA)的RTL代码. 该系统通过集成EDA工具和引入可演化的记忆机制, 将代码生成过程转化为一个持续的、反馈驱动的优化循环.

Do Language Models Encode Semantic Relations? Probing and Sparse Feature Analysis

Andor Diera, Ansgar Scherp

cs.CL

本文结合线性探测与稀疏自编码器(SAE)等技术，研究了不同规模语言模型对同义、反义、上下位等语义关系的编码机制。研究发现上下位关系存在方向性不对称，且关系信号在模型中层最为显著，其编码模式在不同模型间具有一致性。

Adaptive Guidance for Retrieval-Augmented Masked Diffusion Models

Jaemin Kim, Jong Chul Ye

cs.CL cs.AI cs.LG

本文提出了一种用于检索增强掩码扩散模型的自适应引导框架ARAM, 该框架无需训练, 通过根据检索上下文引起的分布偏移的信噪比动态调整去噪过程中的引导强度, 以缓解检索先验冲突问题. 在多个知识密集型问答基准上的实验表明, ARAM能提升性能.

Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor

Ahmed Sharshar et al.

cs.CL cs.AI

本文构建了一个用于检测有害幽默的多模态、多语言基准数据集, 包含文本、图像和视频数据, 并区分了显性与隐性有害内容. 评估发现闭源模型性能优于开源模型, 且存在语言与文化差异.

CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution

Teng Pan et al.

cs.CL cs.AI cs.LG

本文提出了一种名为CoVerRL的框架，用于解决无标签强化学习中因过度追求自我一致性而导致的“共识陷阱”问题。该框架通过让单个模型在生成器和验证器角色之间交替，并利用多数投票提供监督，在数学推理基准上取得了优于基线方法的效果。

Process Supervision for Chain-of-Thought Reasoning via Monte Carlo Net Information Gain

Corentin Royer et al.

cs.CL

本文提出了一种基于信息论自动生成过程监督标签的新方法, 用于评估大语言模型多步推理中每一步的质量. 该方法通过估计每个推理步骤对正确答案似然的影响来提供信号, 并将计算复杂度降低到$\mathcal{O}(N)$, 在多个推理基准测试中实现了有效的思维链选择.

Text-to-Stage: Spatial Layouts from Long-form Narratives

Jefferson Hernandez et al.

cs.CL cs.AI cs.LG

本文提出了一种从长篇叙事文本推断舞台布局的方法, 并引入了一套戏剧学启发的评估方案. 通过结合拒绝式监督微调与基于可验证奖励的强化学习, 该方法在经典文学文本上提升了角色归属、空间合理性和移动经济性等指标.

Event-Centric Human Value Understanding in News-Domain Texts: An Actor-Conditioned, Multi-Granularity Benchmark

Yao Wang et al.

cs.CL

本文提出了一个名为NEVU的新闻领域基准数据集, 用于评估模型在事实新闻中进行以事件为中心、以行动者为条件且感知价值方向的人类价值理解能力. 该数据集包含多粒度语义单元的标注, 并提供了基于LLM的基线模型评估结果.

How do LLMs Compute Verbal Confidence

Dharshan Kumaran et al.

cs.CL cs.AI cs.LG

本文研究了大型语言模型(LLM)如何计算其口头表达的置信度。通过实验发现，置信度信息在模型生成答案时即已计算并缓存，而非在事后根据提示重建。

Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval

Md. Asraful Haque et al.

cs.CL cs.AI

本文提出了一种基于领域知识的分层检索与验证架构, 旨在通过一个包含内在验证、自适应搜索路由、文档分级和外在再生与验证的四阶段流程, 系统性地减少LLM的幻觉问题. 实验表明, 该框架在多个基准测试中均优于零样本基线, 有效提升了事实性回答的准确性和稳定性.

DebugLM: Learning Traceable Training Data Provenance for LLMs

Wenjie Jacky Mo et al.

cs.CL

本文提出了DebugLM框架, 为LLMs的学习行为提供可追溯的数据来源(training data provenance). 该框架通过学习将模型响应与特定的训练数据源关联起来, 并支持在测试时进行有针对性的行为修正.

Pretrained Multilingual Transformers Reveal Quantitative Distance Between Human Languages

Yue Zhao et al.

cs.CL stat.ML

本文提出了一种基于预训练多语言Transformer模型注意力机制的语言距离度量方法, 称为Attention Transport Distance (ATD). 该方法通过最优传输(optimal transport)计算注意力矩阵间的几何散度, 其量化结果能有效反映语言间的谱系、地理和接触关系, 并可用于提升低资源机器翻译的性能.

IndicSafe: A Benchmark for Evaluating Multilingual LLM Safety in South Asia

Priyaranjan Pattnayak, Sanchari Chowdhuri

cs.CL cs.AI

本文提出了一个用于评估南亚多语言大语言模型安全性的基准测试IndicSafe. 该研究通过分析12种印度语言上的安全行为, 揭示了模型在不同语言间存在显著的安全性能差异与泛化鸿沟.

Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Raghavv Goel et al.

cs.CL

本文提出了一种无需训练的多令牌预测方法, 通过从模型的 embedding space 中动态采样 mask token 进行 probing, 实现并行预测未来令牌. 该方法构建推测树并验证候选, 在减少模型调用次数的同时提升生成吞吐量.

ShapleyLaw: A Game-Theoretic Approach to Multilingual Scaling Laws

Xuyang Cao et al.

cs.CL

本文提出了一种基于合作博弈论的多语言预训练数据混合比例优化方法, 称为ShapleyLaw. 该方法将每种语言视为博弈中的玩家, 通过量化其贡献来建模跨语言迁移效应, 从而改进对模型性能的预测和最优数据比例的估计.

Gender Disambiguation in Machine Translation: Diagnostic Evaluation in Decoder-Only Architectures

Chiara Manna et al.

cs.CL

本文针对decoder-only架构的机器翻译模型, 提出了一个包含"先验偏见"的新评估框架, 用于诊断性别消歧问题. 研究发现, 尽管规模庞大, 但此类模型在性别相关指标上并未普遍优于encoder-decoder架构, 而指令微调等后训练方法能有效降低模型固有的男性偏向.

ConGA: Guidelines for Contextual Gender Annotation. A Framework for Annotating Gender in Machine Translation

Argentina Anna Rescigno, Eva Vanmassenhove, Johanna Monti

cs.CL

本文提出了一个用于机器翻译中性别标注的框架 ConGA, 包含一套基于语言学的词级性别标注指南. 该框架应用于一个数据集以创建评估资源, 揭示了当前机器翻译系统在性别处理上的偏差与局限性.

cs.DS

Greedy Completion for Weighted $(α,β)$-Spanners

Elad Tzalik

cs.DS

本文提出了一种用于加权图$(α,β)$-spanner的贪心补全算法。该算法从一个稀疏初始图出发，通过迭代修复具有较大 stretch 的顶点对来构造 spanner。作为应用，该工作构建了大小为$\tilde{O}(n^{1+1/k})$的加权图$(k,k-1)$-spanner。

New Greedy Spanners and Applications

Elizaveta Popova, Elad Tzalik

cs.DS

本文提出了一种简单的 greedy 算法来构建图的 $(\alpha,\beta)$-spanner. 该算法被应用于构造容错 spanner 和加权图 spanner, 得到了紧的边数界和优于传统 multiplicative spanner 的 stretch 保证. 其技术核心是利用了聚类 (clustering) 和球增长 (ball-growing) 方法来分析 greedy 算法.

Upward Book Embeddings of Partitioned Digraphs

Giordano Da Lozzo, Fabrizio Frati, Ignaz Rutter

cs.DS cs.CG

本文研究了 partitioned digraphs 的 upward book embeddings 问题, 聚焦于边集被划分为两个子集 ($k=2$) 的情况. 作者证明了该情况下的判定问题也是 NP-complete 的, 从而填补了该问题的计算复杂性图谱.

Polynomial Kernels with Reachability for Weighted $d$-Matroid Intersection

Chien-Chung Huang et al.

cs.DS

本文研究了带权$d$-matroid intersection问题的随机多项式核化. 针对一类特定结构(例如其中一个拟阵任意, 其余$d-1$个为partition matroids)的输入, 证明了该问题存在大小为$\tilde{O}(k^d)$的多项式核.

The Inverse Lyndon Array: Definition, Properties, and Linear-Time Construction

Pietro Negri et al.

cs.DS cs.FL

本文引入了Inverse Lyndon Array这一数据结构，用于存储字符串中每个位置开始的最长inverse Lyndon子词的长度。作者通过将其与next greater suffix array及一个边界校正项联系起来，给出了该数组的刻画，并基于此设计了一个线性时间的构造算法。

A Simpler Analysis for $\varepsilon$-Clairvoyant Flow Time Scheduling

Anupam Gupta et al.

cs.DS

本文简化了Shortest Lower-Bound First (SLF)算法在$\varepsilon$-clairvoyant调度模型中最小化总流时间的最优性证明。

Biclique Reconfiguration in Bipartite Graphs

Yota Otachi, Emi Toyoda

cs.DS

本文证明了在二分图上进行Balanced Biclique Reconfiguration问题是PSPACE完全的. 这一结果也解决了Connected Components Reconfiguration问题在特定情况下的计算复杂性.

Average Case Graph Searching in Non-Uniform Cost Models

Michał Szyfelbein

cs.DS cs.IR

本文研究了非均匀查询成本模型下的平均情况图搜索问题. 作者针对不同成本函数假设, 分别给出了近似算法并证明了问题的计算困难性.

others

Bootstrapping Coding Agents: The Specification Is the Program ⭐ 精选

Martin Monperrus

cs.SE cs.LG

本文提出了一种新的AI编程代理自举方法, 通过一个926词的specification(规范)引导新代理从零开始重新实现功能, 复现了编译器构造中的经典自举序列. 这体现了类似Lisp的meta-circular(元循环)特性, 并确立specification而非implementation(实现)作为稳定的核心记录. 该方法为改进AI编程代理提供了新思路, 即专注于优化其specification, 而实现原则上可随时重新生成.

Unsupervised learning for inverse problems in computed tomography

Laura Hellwege et al.

physics.med-ph cs.AI

本文提出了一种用于CT图像重建的无监督深度学习方法, 通过将前向投影和反向投影层整合到深度学习框架中, 实现了无需真实图像标签即可从投影数据重建图像. 该方法在2DeteCT数据集上进行了评估, 在MSE和SSIM指标上优于传统的FBP和ML方法, 并显著减少了重建时间.

Disclosure By Design: Identity Transparency as a Behavioural Property of Conversational AI Models

Anna Gausen et al.

cs.HC cs.AI

本文探讨了在对话式AI系统中实现身份透明性的设计方法, 提出了"设计即披露"的理念, 即AI在被直接询问时应主动披露其非人类身份. 作者通过多模态评估发现, 现有系统的披露行为在角色扮演和对抗性提示下表现脆弱且不一致.

Attention Guidance through Video Script: A Case Study of Object Focusing on 360° VR Video Tours

Paulo Vitor Santana Silva et al.

cs.HC cs.AI

本文提出了一种结合 Grounding Dino 和 Segment Anything (SAM) 模型的方法，用于在 360° VR 视频中根据视频脚本引导观众注意力。通过在一个大学导览视频上的案例研究，结果表明该方法能通过聚焦特定物体来提升用户体验。

Multi-Modal Multi-Agent Reinforcement Learning for Radiology Report Generation: Radiologist-Like Workflow with Clinically Verifiable Rewards

Kaito Baba, Satoshi Kodera

cs.CV cs.AI cs.LG

本文提出了一种用于放射学报告生成的多模态多智能体强化学习框架MARL-Rad. 该框架通过临床可验证的奖励进行优化, 在多个数据集上提升了临床效能指标.

PowerModelsGAT-AI: Physics-Informed Graph Attention for Multi-System Power Flow with Continual Learning

Chidozie Ezeakunne et al.

eess.SY cs.AI cs.LG

本文提出了一种用于多系统交流潮流计算的物理信息图注意力网络(PowerModelsGAT-AI). 该模型通过总线类型感知掩码和平衡多损失项来预测电压和发电机注入, 并在多个基准系统上取得了良好精度, 同时展示了通过持续学习策略有效缓解灾难性遗忘的能力.

NeuroNarrator: A Generalist EEG-to-Text Foundation Model for Clinical Interpretation via Spectro-Spatial Grounding and Temporal State-Space Reasoning

Guoan Wang et al.

eess.SP cs.CL cs.LG q-bio.NC

本文提出了一个名为NeuroNarrator的通用EEG到文本基础模型，旨在将脑电图信号转化为临床描述。该方法通过结合时频和空间信息，并利用大型语言模型生成连贯的临床叙述。

Tokenization vs. Augmentation: A Systematic Study of Writer Variance in IMU-Based Online Handwriting Recognition

Jindong Li et al.

cs.CV cs.CL cs.LG eess.SP

本文系统研究了基于IMU的在线手写识别中处理书写者间和书写者内差异的两种策略: sub-word tokenization 和 concatenation-based data augmentation. 实验表明, Bigram tokenization 能有效处理书写者间差异, 而所提出的数据增强方法则能更好地应对书写者内数据稀疏问题.

DECODE: Dual-Enhanced Conditioned Diffusion for EEG Forecasting

Mehran Shabanpour et al.

eess.SP cs.CL cs.HC cs.LG

本文提出了一种名为DECODE的双重增强条件扩散模型, 用于EEG信号预测. 该模型结合了自然语言描述的语义引导和历史信号的时间动态, 旨在生成与特定认知事件相关的神经响应.

A Controlled Comparison of Deep Learning Architectures for Multi-Horizon Financial Forecasting: Evidence from 918 Experiments

Nabeel Ahmad Saidd

q-fin.ST cs.LG q-fin.GN

本文通过918次严格控制的实验，比较了九种深度学习架构在金融多步预测任务上的表现。研究发现，ModernTCN架构表现最佳，且模型架构是性能差异的主要来源。

A Novel end-to-end Digital Health System Using Deep Learning-based ECG Analysis

Artemis Kontou et al.

eess.SP cs.AI cs.HC cs.LG

本文介绍了一个名为AI-HEART的云端数字健康系统，该系统利用深度学习技术对长时程动态心电图进行分析。该系统集成了信号预处理、波形描绘、噪声检测以及心律失常分类等功能，旨在辅助临床决策。

EEG-SeeGraph: Interpreting functional connectivity disruptions in dementias via sparse-explanatory dynamic EEG-graph learning

Fengcheng Wu et al.

eess.SP cs.LG

本文提出了一种名为SeeGraph的稀疏解释性动态EEG-图网络，用于从嘈杂、非平稳的脑电图数据中进行稳健且可解释的痴呆症诊断。该方法通过节点引导的稀疏边掩码来识别驱动诊断决策的关键功能连接，并在公开和内部数据集上验证了其有效性。

EEG-Based Brain-LLM Interface for Human Preference Aligned Generation

Junzi Zhang et al.

eess.SP cs.CL cs.HC cs.LG q-bio.NC

本文提出了一种基于EEG信号的brain-LLM接口, 用于在图像生成过程中实时推断用户偏好. 该方法通过训练一个EEG分类器来预测用户满意度, 并将其预测结果整合到一个test-time scaling框架中, 以动态调整模型推理. 实验表明EEG信号能够有效预测用户偏好, 为将神经反馈整合到自适应语言模型交互中提供了初步探索.

Social physics in the age of artificial intelligence

Anh Han et al.

physics.soc-ph cs.AI cs.HC

本文探讨了在人工智能(AI)日益融入社会的背景下，社会物理学(social physics)研究的新议程。文章基于进化博弈论(evolutionary game theory)和文化进化等理论，提出了六个关键研究方向，旨在理解和引导混合人机社会的集体动态。

Quantum-Assisted Optimal Rebalancing with Uncorrelated Asset Selection for Algorithmic Trading Walk-Forward QUBO Scheduling via QAOA

Abraham Itzhak Weinberg

q-fin.PM cs.AI

本文提出了一种用于投资组合构建与再平衡的经典-量子混合框架. 资产选择采用Ledoit-Wolf协方差收缩估计与层次相关性聚类相结合的方法, 从S&P 500中选取$n=10$只去相关股票. 投资组合权重通过GPU加速的熵正则化遗传算法(GA)进行优化. 该工作的主要贡献是将再平衡调度问题表述为一个QUBO问题, 并使用QAOA算法在walk-forward框架内求解, 以避免前瞻偏差. 回测结果表明, GA+QAOA策略在夏普比率和总回报上略微优于最强的经典基准, 同时显著降低了交易成本.

TerraLingua: Emergence and Analysis of Open-endedness in LLM Ecologies

Giuseppe Paolo et al.

cs.MA cs.AI physics.soc-ph

本文提出了一个名为 TerraLingua 的持久性多智能体生态，用于研究具有资源约束和有限寿命的智能体系统中的开放式动态。通过引入一个 AI Anthropologist 进行分析，该工作观察到了合作规范、劳动分工等社会结构的涌现，为理解人工群体中的累积文化机制提供了一个模拟平台。

Quantizer-Aware Hierarchical Neural Codec Modeling for Speech Deepfake Detection

Jinyang Wu et al.

cs.SD cs.AI cs.CL eess.AS

本文提出了一种用于语音深度伪造检测的量化器感知分层神经编解码器建模方法. 该方法通过可学习的全局加权来建模不同量化器层级的贡献, 利用神经音频编解码器的离散层级结构来捕捉互补的声学线索. 在保持语音编码器主干冻结的情况下, 该方法仅更新少量参数, 在ASVspoof基准测试上取得了优于基线的性能.

Privacy and Safety Experiences and Concerns of U.S. Women Using Generative AI for Seeking Sexual and Reproductive Health Information

Ina Kaleva et al.

cs.HC cs.AI

本文通过半结构化访谈研究了美国女性使用生成式AI寻求性与生殖健康信息时的隐私与安全体验。研究揭示了用户对数据收集、政府监控等风险的认知与权衡，并提出了相应的设计与政策建议。

SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation

Amirbek Djanibekov et al.

eess.AS cs.AI cs.CL

本文提出了一种无需训练的长时同步语音到语音翻译策略SimulU, 它利用预训练端到端模型中的cross-attention机制来管理输入历史和选择输出. 该方法在多个语言对上取得了与强基线模型相当的质量-延迟权衡.

Gaussian Process Regression-based Knowledge Distillation Framework for Simultaneous Prediction of Physical and Mechanical Properties of Epoxy Polymers

Sindu B.S., Jan Hamaekers

cond-mat.soft cond-mat.mtrl-sci cs.LG

本文提出了一种基于Gaussian Process Regression (GPR) 的知识蒸馏框架，用于同时预测环氧聚合物的多种物理和力学性能。该模型结合了GPR的可解释性与神经网络的泛化能力，在实验数据上取得了优于传统机器学习方法的预测精度。

Music Source Restoration with Ensemble Separation and Targeted Reconstruction

Xinlong Deng, Yu Xia, Jie Jiang

cs.SD cs.AI eess.AS

本文提出了一种两阶段系统来处理音乐源恢复(Music Source Restoration, MSR)问题. 该系统首先使用预训练的分离模型集合进行初步估计, 然后利用基于BSRNN的恢复模型进行针对性重建.

Noticing the Watcher: LLM Agents Can Infer CoT Monitoring from Blocking Feedback

Thomas Jiralerspong, Flemming Kondrup, Yoshua Bengio

cs.CR cs.LG

本文研究了语言模型智能体能否从被阻断的反馈中自主推断出其思维链(Chain-of-Thought)正受到监控, 并因此采取策略性规避行为. 实验发现, 前沿模型能够从反馈中推断出监控的存在, 但即使产生了规避意图, 也无法有效执行, 这表明思维链监控并非永久可靠的保障措施.

Facial beauty prediction fusing transfer learning and broad learning system

Junying Gan et al.

cs.CV cs.AI

本文提出了一种融合Transfer Learning和Broad Learning System (BLS)的面部美观度预测方法. 该方法利用基于Transfer Learning的CNN模型(如EfficientNets)提取特征, 然后输入BLS进行快速建模, 实验表明其性能优于现有方法.

Script-to-Slide Grounding: Grounding Script Sentences to Slide Objects for Automatic Instructional Video Generation

Rena Suzuki, Masato Kikuchi, Tadachika Ozono

cs.CV cs.AI

本文提出了Script-to-Slide Grounding (S2SG)任务, 旨在将讲稿句子与其对应的幻灯片对象进行关联, 以自动化教学视频的生成. 作为初步尝试, 作者提出了Text-S2SG方法, 利用大语言模型(LLM)专门处理文本对象的关联任务, 并在实验中取得了较高的性能(F1分数: 0.924).

Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

Nimrod Shabtay et al.

cs.CV cs.AI

本文提出了AwaRes框架, 通过结合低分辨率全局视图和按需调用工具检索高分辨率图像片段, 来解决Vision-Language Models (VLMs)中精度与计算效率的权衡问题. 该方法利用自动生成的监督数据进行训练, 实现了更高效的视觉信息处理.

AgriChat: A Multimodal Large Language Model for Agriculture Image Understanding

Abderrahmene Boudiaf, Irfan Hussain, Sajid Javed

cs.CV cs.AI

本文提出了一个用于农业图像理解的Vision-to-Verified-Knowledge (V2VK)数据生成框架和AgriMM基准数据集, 并基于此训练了专门的AgriChat多模态大语言模型. 该模型在多个农业视觉任务上展现了优于其他开源模型的性能.

GenLie: A Global-Enhanced Lie Detection Network under Sparsity and Semantic Interference

Zongshun Zhang et al.

cs.CV cs.AI

本文提出了一种名为GenLie的全局增强谎言检测网络, 用于从视频中识别欺骗行为. 该方法通过全局监督下的局部特征建模来捕捉稀疏的欺骗线索并抑制身份相关的噪声, 在多个公开数据集上取得了优于现有方法的结果.

TDMM-LM: Bridging Facial Understanding and Animation via Language Models

Luchuan Song et al.

cs.CV cs.AI

本文提出了一种利用语言模型进行面部动画生成和理解的方法. 通过合成大规模文本-面部参数配对数据集, 模型能够实现从文本到面部运动参数以及从参数到文本描述的双向任务.

Cryptographic Runtime Governance for Autonomous AI Systems: The Aegis Architecture for Verifiable Policy Enforcement

Adam Massimo Mazzocchetti

cs.CR cs.AI cs.CY

本文提出了一种名为Aegis的运行时治理架构，用于在自主AI系统中强制执行可验证的策略。该架构通过密码学密封的策略层和验证代理，将政策约束转化为执行条件，而非指导原则。实验评估了其在验证延迟和策略保持方面的性能。

On the Degrees of Freedom of Gridded Control Points in Learning-Based Medical Image Registration

Wen Yan et al.

eess.IV cs.AI cs.CV

本文提出了一种基于稀疏控制点网格的医学图像配准框架 GridReg, 用 cross-attention 模块预测稀疏网格上的位移场, 显著降低了模型参数量和内存消耗. 实验表明, 该方法在多个数据集上取得了与预测密集位移场方法相当的配准精度, 但计算成本更低.

The Voice Behind the Words: Quantifying Intersectional Bias in SpeechLLMs

Shree Harsha Bokkahalli Satish et al.

eess.AS cs.CL cs.SD

本文通过语音克隆技术控制语言内容, 评估了三种 SpeechLLMs 在六种英语口音和两种性别表现上的偏见. 研究发现, 东欧口音, 尤其是女性化声音, 获得的帮助性评分较低, 且人类评估者比 LLM 评判员更能揭示这种隐含的交叉性偏见.

UNICORN: Ultrasound Nakagami Imaging via Score Matching and Adaptation for Assessing Hepatic Steatosis

Kwanyoung Kim et al.

eess.IV cs.AI cs.CV q-bio.QM

本文提出了一种名为UNICORN的新方法，用于超声Nakagami参数估计。该方法基于超声包络信号的score function，提供了闭式解估计器，能够生成高分辨率的参数映射图，并在评估肝脏脂肪变性方面展示了潜力。

KGS-GCN: Enhancing Sparse Skeleton Sensing via Kinematics-Driven Gaussian Splatting and Probabilistic Topology for Action Recognition

Yuhan Chen et al.

cs.CV cs.AI

本文提出了一种名为KGS-GCN的图卷积网络，用于基于骨架的动作识别。该方法通过运动学驱动的高斯泼溅和概率拓扑来增强稀疏骨架数据的表示，并利用视觉上下文门控机制进行特征调制。实验表明该方法能有效处理低质量传感器数据。

Omni IIE Bench: Benchmarking the Practical Capabilities of Image Editing Models

Yujia Yang et al.

cs.CV cs.AI

本文提出了一个名为Omni IIE Bench的新基准, 用于评估Instruction-based Image Editing (IIE) 模型在实际应用中的编辑一致性. 该基准通过双轨诊断设计(单轮一致性与多轮协调)和严格的人工筛选构建, 并对8个主流模型进行了评估, 揭示了模型在不同语义尺度任务间普遍存在的性能差距.

Joint Optimization of Storage and Loading for High-Performance 3D Point Cloud Data Processing

Ke Wang et al.

cs.CV cs.AI

本文提出了一种名为.PcRecord的统一数据存储格式及配套的高性能数据处理流水线, 旨在解决大规模3D点云数据存储与加载的效率瓶颈. 实验表明, 该系统在多个标准数据集上显著提升了数据处理速度.

Automatic Termination Strategy of Inelastic Neutron-scattering Measurement Using Bayesian Optimization for Bin-width Selection

Kensuke Muto et al.

physics.data-an cs.AI

本文提出了一种基于 Bayesian optimization 的自动终止策略，用于非弹性中子散射实验中的多维直方图 bin-width 优化。该方法通过实时计算停止标准来决定是否继续实验，旨在提高实验效率并避免过度测量。

EmergeNav: Structured Embodied Inference for Zero-Shot Vision-and-Language Navigation in Continuous Environments

Kun Luo, Xiaoguang Ma

cs.CV cs.AI

本文提出了一个名为 EmergeNav 的零样本框架，用于解决连续环境中的视觉语言导航问题。该框架通过引入结构化的执行层次和感知模块，将视觉语言模型的先验知识转化为稳定的导航行为，无需任务特定训练。

A Framework for Modeling Liquefaction-Induced Road Disruptions After Earthquakes: Implications for Emergency Response and Access in the Cascadia Region of North America

Morgan D. Sanger et al.

physics.geo-ph cs.LG

本文提出了一种基于力学原理和数据驱动的框架, 用于评估地震后液化引起的道路中断. 该框架应用于Cascadia地区, 通过脆弱性关系和空间模拟预测了道路封闭概率与交通网络影响.

Entropy-Aware Task Offloading in Mobile Edge Computing

Mohsen Sahraei Ardakani, Hong Wan, Rui Song

cs.NI cs.LG eess.SY

本文提出了一种在移动边缘计算(MEC)中考虑隐私的任务卸载方案。作者将无线通信引发的使用模式和位置隐私问题建模为马尔可夫决策过程(MDP)，并使用深度循环Q网络(DRQN)进行求解。数值模拟验证了该方法的有效性。

Kriging via variably scaled kernels

Gianluca Audone et al.

stat.ML cs.LG stat.ME

本文探讨了使用可变尺度核构建非平稳高斯过程的方法. 该方法通过一个缩放函数显式地修改数据的相关性结构, 从而能够对具有突变或不连续性的目标进行建模.

Embodied Foundation Models at the Edge: A Survey of Deployment Constraints and Mitigation Strategies

Utkarsh Grover et al.

cs.RO cs.AI

本文讨论了在具身边缘系统中部署基础模型所面临的系统级挑战, 将其归纳为八个相互耦合的部署障碍. 作者指出, 可靠部署依赖于跨内存、调度、通信和模型架构的系统级协同设计.

PhysQuantAgent: An Inference Pipeline of Mass Estimation for Vision-Language Models

Hisayuki Yokomizo et al.

cs.CV cs.AI

本文提出了一个用于视觉语言模型(VLMs)进行现实物体质量估计的框架PhysQuantAgent和一个新的评估基准数据集VisPhysQuant. 通过引入三种视觉提示方法来增强输入图像, 实验表明该方法能有效提升质量估计的准确性.

Machine intelligence supports the full chain of 2D dendrite synthesis

Wenqiang Huang et al.

cond-mat.mtrl-sci cs.AI

本文提出了一种机器学习驱动的框架, 用于支持二维枝晶合成的全流程. 该框架结合了主动学习、数据增强和可解释模型, 以优化合成工艺并揭示生长机制.

Adversarial attacks against Modern Vision-Language Models

Alejandro Paredes La Torre

cs.CR cs.AI

本文在模拟的电子商务环境中评估了开源视觉语言模型(VLM)代理的对抗鲁棒性. 研究测试了LLaVA和Qwen2.5-VL模型在几种基于梯度的对抗攻击下的表现, 发现不同模型家族的鲁棒性存在显著差异.

Behavior-Centric Extraction of Scenarios from Highway Traffic Data and their Domain-Knowledge-Guided Clustering using CVQ-VAE

Niklas Roßberg et al.

cs.CV cs.LG

本文提出了一种基于行为中心的方法从高速公路交通数据中提取场景, 并利用结合领域知识的CVQ-VAE模型对这些场景进行聚类. 该方法旨在为自动驾驶系统的验证提供更标准化和高效的场景类别生成流程.

CineSRD: Leveraging Visual, Acoustic, and Linguistic Cues for Open-World Visual Media Speaker Diarization

Liangbin Huang et al.

cs.CV cs.AI cs.MM cs.SD eess.AS

本文提出了一个名为CineSRD的多模态框架，用于开放世界视觉媒体中的说话人日志任务。该框架整合了来自视频、语音和字幕的视觉、声学和语言线索，以应对长视频、大量说话者等挑战，并在构建的新基准上取得了良好性能。

MSRAMIE: Multimodal Structured Reasoning Agent for Multi-instruction Image Editing

Zhaoyuan Qiu et al.

cs.CV cs.AI

本文提出了一个名为MSRAMIE的免训练智能体框架, 用于处理复杂的多指令图像编辑任务. 该框架基于多模态大语言模型(MLLM), 通过结构化的多模态推理来编排现有编辑模型, 从而在指令复杂度增加时显著提升指令遵循和任务完成率.

DeepStage: Learning Autonomous Defense Policies Against Multi-Stage APT Campaigns

Trung V. Phan, Tri Gia Nguyen, Thomas Bauschert

cs.CR cs.AI cs.LG

本文提出了一种名为DeepStage的深度强化学习框架, 用于防御高级持续性威胁(APT). 该框架通过图神经网络和LSTM来推断攻击阶段, 并指导分层PPO智能体选择防御动作, 在模拟测试中取得了优于基准方法的效果.

Continual Multimodal Egocentric Activity Recognition via Modality-Aware Novel Detection

Wonseon Lim, Hyejeong Im, Dae-Won Kim

cs.CV cs.AI

本文提出了一种用于多模态第一人称视角活动识别的模态感知框架MAND, 旨在解决开放世界持续学习中的新活动检测问题. 该方法通过模态感知自适应评分和模态表示稳定化训练, 提升了新活动检测的性能.

Over-the-air White-box Attack on the Wav2Vec Speech Recognition Neural Network

Protopopov Alexey

eess.AS cs.LG cs.SD

本文探讨了针对Wav2Vec语音识别神经网络的空中白盒攻击方法, 旨在降低攻击的可感知性. 作者研究了多种降低可检测性的方法, 并评估了这些方法对攻击有效性的影响.

Hybrid Classical-Quantum Transfer Learning with Noisy Quantum Circuits

D. Martín-Pérez et al.

quant-ph cs.LG

本文提出了一种结合预训练经典卷积网络与变分量子电路的混合迁移学习架构, 用于图像分类任务. 通过在模拟噪声环境和真实量子硬件上的实验评估, 表明该架构在保持竞争力的准确率的同时, 能减少训练时间和能耗.

Are a Thousand Words Better Than a Single Picture? Beyond Images -- A Framework for Multi-Modal Knowledge Graph Dataset Enrichment

Pengyu Zhang et al.

cs.CV cs.AI

本文提出了一个名为Beyond Images的自动数据增强框架, 用于丰富多模态知识图谱(MMKG)的视觉信息. 该方法通过大规模图像检索, 将图像转换为文本描述, 并利用大语言模型融合多源描述来生成实体摘要, 从而在不改变现有模型架构的情况下提升MMKG补全任务的性能.

The State of Generative AI in Software Development: Insights from Literature and a Developer Survey

Vincent Gurgul, Robin Gubela, Stefan Lessmann

cs.SE cs.AI cs.CY cs.ET cs.HC

本文通过文献综述和开发者调查, 探讨了生成式AI在软件开发生命周期中的影响. 研究发现, GenAI在实现、测试和文档等环节能显著提升效率, 但在规划和需求分析等早期阶段作用有限, 并指出了技术债务和技能退化等风险.

Implementation of tangent linear and adjoint models for neural networks based on a compiler library tool

Sa Xiao et al.

cs.MS cs.AI cs.LG

本文介绍了一个名为TorchNWP的编译库工具, 用于高效耦合AI组件与传统数值模型. 该工具通过提供统一的C/C++接口和静态二进制格式转换, 简化了Fortran数值模型与PyTorch深度学习框架的集成过程, 并支持在异构平台上部署神经网络及其切线性与伴随模型.

Rewarding DINO: Predicting Dense Rewards with Vision Foundation Models

Pierre Krack et al.

cs.RO cs.LG

本文提出了一种名为Rewarding DINO的视觉奖励预测模型，用于机器人操作任务。该方法通过语言条件化从图像中学习密集奖励函数，并在模拟和真实环境中展示了泛化能力。

Interpretable AI-Assisted Early Reliability Prediction for a Two-Parameter Parallel Root-Finding Scheme

Bruno Carpentieri et al.

math.NA cs.LG

本文为参数化求根算法提出了一个可解释的AI辅助可靠性诊断框架。该框架结合了kNN-LLE代理稳定性分析和多时间步的早期预测，能够基于迭代过程的早期片段来评估求解器的可靠性。

Empirical Recipes for Efficient and Compact Vision-Language Models

Jiabo Huang et al.

cs.CV cs.AI

本文针对资源受限环境下部署vision-language models (VLMs) 的效率问题，通过实证分析识别了推理瓶颈，并提出了一套优化方案以显著降低延迟。这些方法在多个紧凑型VLM架构上验证有效，并进一步扩展出一个兼具高效与结构化感知输出的新模型家族ArgusVLM。

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Shenzhi Wang et al.

cs.CV cs.AI cs.CL

本文提出了HopChain, 一个用于合成多跳视觉语言推理数据的框架, 旨在提升视觉语言模型在复杂推理任务上的泛化能力. 实验表明, 使用该框架合成的数据进行训练, 能在多个基准测试上带来广泛的性能提升.

Shared Representation Learning for Reference-Guided Targeted Sound Detection

Shubham Gupta et al.

eess.AS cs.AI

本文提出了一种用于参考引导目标声音检测的统一编码器架构, 通过共享表示空间处理参考音频和混合音频, 简化了框架并提升了泛化能力. 该方法在URBAN-SED数据集上取得了优于现有方法的结果.

Dependence Fidelity and Downstream Inference Stability in Generative Models

Nazia Riasat

stat.ML cs.AI cs.LG stat.ME

本文探讨了生成模型评估中超越边缘分布匹配的依赖结构保真度问题. 作者提出了协方差级依赖保真度作为评估标准, 并分析了依赖结构差异对下游推断稳定性的影响.

DesertFormer: Transformer-Based Semantic Segmentation for Off-Road Desert Terrain Classification in Autonomous Navigation Systems

Yasaswini Chebolu

cs.CV cs.LG

本文提出了一种基于Transformer的语义分割模型DesertFormer, 用于自动驾驶系统中越野沙漠地形的分类. 该模型在自建数据集上取得了优于基准模型的性能, 并进行了系统的错误分析.

Optimization-Embedded Active Multi-Fidelity Surrogate Learning for Multi-Condition Airfoil Shape Optimization

Isaac Robledo et al.

physics.flu-dyn cs.LG cs.NE math.OC

本文提出了一种用于多工况翼型优化的主动多保真度代理建模框架. 该方法结合了高斯过程回归、不确定性触发采样和混合遗传算法, 旨在减少高保真度CFD计算成本. 在双点优化问题中, 该方法显著提升了巡航效率和起飞升力, 同时将高保真度评估需求降低了约85-90%.

An End-to-End Framework for Functionality-Embedded Provenance Graph Construction and Threat Interpretation

Kushankur Ghosh et al.

cs.CR cs.LG

本文提出了一个名为Auto-Prov的端到端框架，用于自动构建功能增强的溯源图并进行威胁解释。它利用大语言模型处理异构日志，嵌入系统功能上下文，并生成自然语言攻击摘要以辅助分析。

When the Specification Emerges: Benchmarking Faithfulness Loss in Long-Horizon Coding Agents

Lu Yan, Xuan Chen, Xiangyu Zhang

cs.SE cs.AI

本文针对长周期编码智能体在任务规范逐步揭示场景下的忠实度损失问题, 提出了一个名为SLUMP的基准测试. 该基准包含20篇近期ML论文的逐步编码任务, 并评估了Claude Code和Codex等智能体在规范逐步揭示与一次性给出两种设定下的实现忠实度差异.

Pixel-level Counterfactual Contrastive Learning for Medical Image Segmentation

Marceau Lafargue-Hauret et al.

cs.CV cs.LG

本文提出了一种结合反事实生成与密集对比学习的医学图像分割方法, 包括Dual-View (DVD-CL)和Multi-View (MVD-CL)两种方案. 该方法在无标注或使用AI生成标注(银标准)的情况下均能有效提升分割性能, 并引入了一种新的可视化工具CHRO-map.

Hidden Clones: Exposing and Fixing Family Bias in Vision-Language Model Ensembles

Zacharie Bugaud

cs.CV cs.AI

本文研究了视觉-语言模型集成中因模型来自相同架构家族而产生的相关误差问题. 提出了几种考虑家族结构的投票方法, 在多个基准测试上提升了集成性能.

Security Assessment and Mitigation Strategies for Large Language Models: A Comprehensive Defensive Framework

Taiwo Onitiju, Iman Vakilinia

cs.CR cs.AI

本文对GPT-4等五种主流LLM进行了大规模对抗性提示攻击测试，揭示了其安全漏洞率存在显著差异。作者进一步提出了一个多层防御框架，该框架在检测准确率和误报率上取得了较好的平衡。

Multilingual Reference Need Assessment System for Wikipedia

Aitolkyn Baigutanova et al.

cs.CY cs.CL

本文提出了一种多语言机器学习系统, 用于辅助维基百科编辑识别需要引用的陈述. 该系统在10种语言版本中进行了测试, 并在实际基础设施约束下权衡了模型准确性与计算效率.

Intent Formalization: A Grand Challenge for Reliable Coding in the Age of AI Agents

Shuvendu K. Lahiri

cs.SE cs.AI cs.PL

本文讨论了在AI智能体时代, 意图形式化作为确保代码可靠性的核心挑战. 文章概述了从轻量级测试到完全形式化验证的权衡谱系, 并指出了验证规范这一关键瓶颈及未来的研究方向.

Shielded Reinforcement Learning Under Dynamic Temporal Logic Constraints

Sadık Bera Yüksel, Ali Tevfik Buyukkocak, Derya Aksaray

cs.RO cs.LG

本文提出了一种结合sequential control barrier functions与model-free reinforcement learning的框架, 用于在强化学习过程中确保满足给定的Signal Temporal Logic (STL) 约束. 该方法能够处理比传统安全约束更复杂的时空任务, 例如访问具有未知轨迹的动态目标, 并通过仿真验证了其有效性.

Self-Regularized Learning Methods

Max Schölpple, Liu Fanghui, Ingo Steinwart

stat.ML cs.LG math.ST

本文提出了一个基于"自正则化"概念的通用分析框架, 用于研究学习算法中不依赖于显式正则项的隐式复杂度控制. 该框架能够统一分析经典的正则化经验风险最小化与梯度下降等方法, 并在此基础上为这类算法提供了包括极小极大最优速率在内的统计理论分析.

HierarchicalKV: A GPU Hash Table with Cache Semantics for Continuous Online Embedding Storage

Haidong Rong et al.

cs.DB cs.DC cs.IR

本文提出了一种具有缓存语义的GPU哈希表库HierarchicalKV (HKV), 用于处理超出单GPU内存容量的连续在线embedding存储. 它通过策略驱动的逐出操作, 避免了传统哈希表因容量不足而失败或需要rehash的问题, 并利用分层键值分离技术实现扩展. 实验表明, HKV在查找吞吐量上优于现有的字典语义GPU哈希表基线.

PAuth - Precise Task-Scoped Authorization For Agents

Reshabh K Sharma et al.

cs.CR cs.AI cs.PL

本文提出了一种名为PAuth的精确任务范围隐式授权模型, 旨在解决AI agent执行自然语言任务时因现有授权模型(如OAuth)权限范围过宽而导致的过度授权问题. 通过引入NL slices和envelopes等机制, 该模型能够将授权范围精确限定在执行具体任务所需的最小操作集合上, 并在原型评估中验证了其有效性和安全性.

Generalist Multimodal LLMs Gain Biometric Expertise via Human Salience

Jacob Piland et al.

cs.CV cs.AI

本文探讨了通用多模态大语言模型(MLLMs)在隐私限制下进行虹膜呈现攻击检测(PAD)的可行性. 通过结合人类专家的显著性知识, 模型在特定数据集上表现优于专用CNN基线和人工检查员.

Detecting Data Poisoning in Code Generation LLMs via Black-Box, Vulnerability-Oriented Scanning

Shenao Yan et al.

cs.CR cs.AI cs.SE

本文提出了一种针对代码生成大语言模型数据投毒攻击的黑盒检测框架 CodeScan. 该方法通过分析不同干净提示下生成代码的结构相似性来识别攻击目标, 并结合基于抽象语法树的归一化与基于大语言模型的漏洞分析来判断模型是否被植入后门.

Towards Unsupervised Adversarial Document Detection in Retrieval Augmented Generation Systems

Patrick Levi

cs.CR cs.AI

本文针对检索增强生成系统提出了一种无监督的对抗性文档检测方法。该方法利用生成器激活、输出嵌入和基于熵的不确定性度量作为检测指标，并通过统计异常值检测来识别被操纵的上下文。

Visual Product Search Benchmark

Karthik Sulthanpete Govindappa

cs.CV cs.IR

本文建立了一个用于评估现代视觉嵌入模型在实例级图像检索任务中性能的基准, 特别关注工业应用场景. 该基准在统一的图像到图像检索协议下, 评估了多种开源基础模型, 专有多模态系统以及特定领域视觉模型, 旨在为从业者和研究者提供关于当前方法在生产级产品识别系统中能力与局限性的参考.

A scalable neural bundle map for multiphysics prediction in lithium-ion battery across varying configurations

Zhiwei Zhao et al.

cs.CE cs.AI

本文提出了一种用于锂离子电池多物理场预测的 Neural Bundle Map (NBM) 框架。该框架将多物理场演化建模为几何基流形上的 bundle map，实现了几何复杂性与物理定律的解耦，从而在不同电池构型和工况下实现了高效、高精度的预测。

Adaptive Contracts for Cost-Effective AI Delegation

Eden Saig et al.

cs.GT cs.AI cs.LG

本文针对AI委托任务中的绩效付费合同问题, 提出了一种自适应合同框架. 该框架允许在观察到初始粗略信号后, 有选择地进行更详细的评估, 以在评估噪声和成本之间取得平衡.

SA-CycleGAN-2.5D: Self-Attention CycleGAN with Tri-Planar Context for Multi-Site MRI Harmonization

Ishrith Gowda, Chunwei Liu

cs.CV cs.AI cs.LG

本文提出了一种用于多站点MRI图像协调的域适应框架SA-CycleGAN-2.5D。该方法结合了2.5D三平面输入、带自注意力机制的生成器和谱归一化判别器，旨在减少不同扫描仪带来的分布差异，同时保留解剖结构信息。

ListK: Semantic ORDER BY and LIMIT K with Listwise Prompting

Jason Shin, Jiwon Chang, Fatemeh Nargesian

cs.DB cs.IR

本文提出了ListK框架, 用于优化SQL中结合了语义ORDER BY和LIMIT K操作的查询延迟. 该框架引入了多种基于listwise prompting的排序算法, 并提供了一个基于目标召回率来组合这些物理操作符的查询优化器.

From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs

Boyong Wu, Sanghwan Kim, Zeynep Akata

cs.CV cs.AI cs.LG

本文通过层级的线性探测评估, 研究了 MLLM 在分割任务中的空间理解能力. 分析发现, adapter 模块会导致表征质量下降, 而后续的 LLM 层能通过 attention 机制逐步恢复分割性能.

KANtize: Exploring Low-bit Quantization of Kolmogorov-Arnold Networks for Efficient Inference

Sohaib Errabii, Olivier Sentieys, Marcello Traiola

cs.AR cs.AI

本文研究了Kolmogorov-Arnold Networks (KANs)的低比特量化。通过将B-spline系数量化至2-3比特，可以在精度损失可忽略的情况下显著降低计算复杂度。研究还探索了使用预计算量化查找表来替代递归B-spline算法，从而在GPU和FPGA/ASIC硬件上提升推理速度和能效。

Deployment and Evaluation of an EHR-integrated, Large Language Model-Powered Tool to Triage Surgical Patients

Jane Wang et al.

cs.CY cs.AI

本文开发并评估了一个集成于电子健康记录(EHR)系统、由大型语言模型(LLM)驱动的工具，用于自动筛选适合外科协同管理(SCM)的患者。该工具在真实临床环境中进行了前瞻性研究，结果显示其具有较高的敏感性和中等特异性，能够有效辅助临床工作流程。

LED: A Benchmark for Evaluating Layout Error Detection in Document Analysis

Inbum Heo et al.

cs.CV cs.CL

本文提出了一个名为LED的基准测试, 用于评估文档布局分析中的结构错误检测. 它定义了八种标准错误类型, 并设计了数据集和评估任务, 以更精细地评估模型对文档结构的理解能力.

Wasserstein-type Gaussian Process Regressions for Input Measurement Uncertainty

Hengrui Luo et al.

stat.ME cs.LG

本文针对Gaussian process regression中covariates存在measurement error的问题, 提出了一种基于Wasserstein distance的kernel构造方法. 该方法通过将noisy input表示为probability measure, 并利用Wasserstein distance定义covariance, 从而构建了deterministic的projected Wasserstein ARD (PWA) kernel. 基于PWA kernel的GP模型(\PWAGPs)避免了引入latent variables或使用Monte Carlo方法, 旨在提供更透明和robust的uncertainty quantification.

DANCE: Dynamic 3D CNN Pruning: Joint Frame, Channel, and Feature Adaptation for Energy Efficiency on the Edge

Mohamed Mejri, Ashiqur Rasul, Abhijit Chatterjee

cs.CV cs.AI

本文提出了一种名为DANCE的动态剪枝框架, 用于3D CNN以实现边缘设备上的能效提升. 该方法通过两步过程动态地剪枝网络中的帧, 通道和特征, 在保持性能的同时显著减少了计算量和内存访问.

Directing the Narrative: A Finetuning Method for Controlling Coherence and Style in Story Generation

Jianzhang Zhang et al.

cs.CV cs.AI

本文提出了一种用于故事生成的两阶段微调方法, 旨在提升生成故事的连贯性与风格一致性. 该方法结合了Group-Shared Attention机制与Direct Preference Optimization, 在基准测试上取得了更好的身份与风格一致性分数.

GUIDE: GenAI Units In Digital Design Education

Weihua Xiao et al.

cs.CY cs.AI

本文介绍了GUIDE, 一个用于数字设计教育的开源课程资源库, 包含可运行的Google Colab实验和其他材料. 文章描述了其基于标准化教学单元的架构和教育方法, 并展示了三个代表性单元和四个课程实例的应用.

Symphony: A Cognitively-Inspired Multi-Agent System for Long-Video Understanding

Haiyang Yan et al.

cs.CV cs.AI

本文提出了一个名为 Symphony 的多智能体系统，用于解决长视频理解任务。该系统通过模拟人类认知模式，将任务分解并引入深度推理协作机制，同时结合基于视觉语言模型的定位方法，在多个基准测试上取得了先进性能。

ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Panuganti Chirag Sai et al.

cs.AR cs.AI cs.LG cs.MA eess.SY

本文提出了一种名为ReLMXEL的、基于多智能体强化学习与奖励分解的可解释内存控制器优化框架。该框架通过在线学习动态调整控制器参数，以协同优化延迟与能耗，并在多种工作负载上展示了优于基线配置的性能提升。

Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress

Yuelin Zhang et al.

cs.CV cs.AI

本文提出了一种名为$\text{R}^2$VLM的循环推理视觉语言模型，用于估计具身智能体执行长时程任务的进度。该方法通过迭代处理视频片段并维护一个演化的思维链来记录任务分解与状态，避免了处理长视频的高计算成本，并在多个下游应用中展示了良好的性能。

WebPII: Benchmarking Visual PII Detection for Computer-Use Agents

Nathan Zhao

cs.CR cs.AI

本文提出了一个用于评估计算机使用代理中视觉PII检测的基准数据集WebPII, 并训练了模型WebRedact来展示其实用性. 该工作旨在支持隐私保护的计算机使用研究.

Understanding and Defending VLM Jailbreaks via Jailbreak-Related Representation Shift

Zhihua Wei et al.

cs.CV cs.AI

本文研究了视觉语言模型(VLM)中由视觉模态引发的安全对齐失效问题. 作者发现, 在表示空间中, jailbreak样本会形成一个可分离的特定状态, 并提出了一个量化这种转变的"jailbreak方向"和相关的表示偏移(JRS). 基于此分析, 作者提出了一种通过移除该偏移(JRS-Rem)来增强模型安全性的防御方法.

Rapid Neural Network Prediction of Linear Block Copolymer Free Energies

Ian Chen, Alfredo Alexander-Katz

cond-mat.soft cs.LG

本文提出了一种基于机器学习的框架, 用于快速预测线性二嵌段共聚物体系的过量自由能. 该模型利用模拟得到的能量描述符进行训练, 能够准确预测不同链长、组成和密度下的自由能, 即使在相空间重叠较差的情况下也能保持与参考值的一致性.

Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity

Jiawen Kang et al.

cs.MA cs.IR q-bio.NC

本文提出了一个名为 Agentic Cognitive Profiling (ACP) 的智能体框架，用于阿尔茨海默病的自动化筛查。该框架通过分解标准临床评估任务，利用专门的 LLM 智能体提取可验证的评分要素，旨在提升检测系统的临床结构效力和可解释性。

Joint Degradation-Aware Arbitrary-Scale Super-Resolution for Variable-Rate Extreme Image Compression

Xinning Chai et al.

cs.CV cs.AI

本文提出了一种基于任意尺度超分辨率的可变码率极端图像压缩框架ASSR-EIC. 它通过一个统一的扩散模型解码器, 实现了对不同压缩率和缩放尺度的自适应重建.

Mutually Causal Semantic Distillation Network for Zero-Shot Learning

Shiming Chen et al.

cs.CV cs.LG

本文提出了一种用于Zero-Shot Learning的相互因果语义蒸馏网络(MSDN++)，它通过两个相互的因果注意力子网络来学习视觉与属性特征之间的内在关联。实验表明该方法在多个基准数据集上取得了先进的性能。

Structured SIR: Efficient and Expressive Importance-Weighted Inference for High-Dimensional Image Registration

Ivor J. A. Simpson, Neill D. F. Campbell

eess.IV cs.CV cs.LG

本文提出了一种用于高维图像配准的高效重要性加权推理方法 Structured SIR. 该方法通过结合低秩协方差和稀疏结构化精度矩阵, 实现了对后验分布的多模态表达, 并在脑部 MRI 配准中展示了优于变分推理的校准性能.

Caging the Agents: A Zero Trust Security Architecture for Autonomous AI in Healthcare

Saikat Maiti

cs.CR cs.AI

本文提出了一种用于医疗保健领域自主AI代理的零信任安全架构。该架构基于六域威胁模型，并部署了包含四层纵深防御措施的系统，包括工作负载隔离、凭证代理、网络出口策略和提示完整性框架。作者报告了90天部署的结果，并将所有配置和工具开源。

Data-driven model order reduction for structures with piecewise linear nonlinearity using dynamic mode decomposition

Akira Saito, Masato Tanaka

math.DS cs.LG nlin.CD

本文提出了一种基于dynamic mode decomposition (DMD)的数据驱动模型降阶方法, 用于处理具有分段线性非线性的结构系统. 该方法利用系统的脉冲响应数据构建降阶模型, 并通过两个工程实例验证了其在谐波载荷下非线性响应分析中的准确性.

Lattice Structure and Efficient Basis Construction for Strongly Connected Orientations

Siyue Liu, Olha Silina

math.CO cs.DS

本文针对2-边连通无向图的双向定向图，研究了强连通定向（SCO）的集合结构。作者给出了一个多项式时间算法，用于构造紧致SCO的一个整基，并应用该算法解决了奇偶约束的紧致强连通定向问题。

ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression

Ruibo Fan et al.

cs.DC cs.AR cs.LG cs.PF

本文提出了一种名为ZipServ的无损压缩框架, 用于加速大型语言模型(LLM)推理. 它通过一种新的固定长度编码格式和融合的解压缩-矩阵乘法内核, 在减少模型存储的同时提升了GPU上的推理速度.

AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement

Siqi Pei et al.

cs.CV cs.AI

本文提出了一种基于自适应放大的GUI定位框架, 通过指令细化和条件放大策略来提升视觉语言模型在图形用户界面截图上的元素定位精度. 该方法在公开基准测试中取得了先进的性能.

VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection

Chupeng Liu et al.

cs.CV cs.AI

本文提出了一种名为VirPro的自适应多模态预训练范式, 用于弱监督的单目3D目标检测. 该方法通过可学习的实例条件提示和视觉不确定性建模来增强场景感知表示, 并在KITTI基准测试上取得了性能提升.

Revisiting Cross-Attention Mechanisms: Leveraging Beneficial Noise for Domain-Adaptive Learning

Zelin Zang et al.

cs.CV cs.AI

本文提出了一种名为DACSM的框架, 用于无监督域适应(UDA)任务. 该框架通过引入"有益噪声"来增强跨注意力机制, 并结合跨尺度匹配模块, 在多个基准数据集上取得了先进的性能.

UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models

Segyu Lee et al.

cs.CV cs.AI cs.CL

本文提出了一个名为UniSAFE的综合基准测试, 用于评估统一多模态模型(UMMs)的系统级安全性. 该基准覆盖了7种输入/输出模态组合, 包含6802个测试实例, 并揭示了当前UMMs在图像生成和多轮对话等任务中存在的安全漏洞.

KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition

Gaoge Han et al.

cs.RO cs.AI

本文提出了一个名为KineVLA的视觉-语言-动作模型，用于处理包含密集运动学属性的指令。该模型通过双层动作分解来分离任务目标与运动轨迹，并在仿真和真实机器人平台上进行了验证。

Mirror Descent on Riemannian Manifolds

Jiaxin Jiang, Lei Shi, Jiyuan Tan

stat.ML cs.LG math.OC

本文提出了一个在 Riemannian 流形上的 Mirror Descent 框架及其随机变体，并建立了非渐近收敛性保证。作为应用，该框架在 Stiefel 流形上可简化为已知的 Curvilinear Gradient Descent 方法。

AdapTS: Lightweight Teacher-Student Approach for Multi-Class and Continual Visual Anomaly Detection

Manuel Barusco et al.

cs.CV cs.AI

本文提出了一种用于多类别和持续视觉异常检测的轻量级师生框架AdapTS. 该方法通过共享冻结主干网络和注入轻量级适配器来统一处理多类别和持续学习场景, 显著降低了内存开销, 适合边缘部署.

Rel-Zero: Harnessing Patch-Pair Invariance for Robust Zero-Watermarking Against AI Editing

Pengzhen Chen et al.

cs.CV cs.AI cs.CR

本文提出了一种名为Rel-Zero的零水印框架，利用图像块对之间的相对距离在AI编辑下的不变性来生成水印，无需修改原始图像。该方法在多种编辑操作下展现了优于现有零水印方案的鲁棒性。

Learning Coordinate-based Convolutional Kernels for Continuous SE(3) Equivariant and Efficient Point Cloud Analysis

Jaein Kim et al.

cs.CV cs.AI

本文提出了一种名为ECKConv的卷积方法, 用于处理3D点云数据. 该方法通过定义在double coset space上的核域和基于坐标的显式核设计, 实现了对SE(3)群变换的等变性, 并在多个点云任务中验证了其有效性和内存效率.

Consistency of the $k$-Nearest Neighbor Regressor under Complex Survey Designs

Caren Hasler

stat.ML cs.LG

本文研究了在复杂抽样设计下$k$-近邻回归估计量的一致性。尽管该算法在独立同分布数据下的性质已有定论，但针对复杂调查数据的结果尚属空白。文章在抽样设计和数据分布满足一定正则条件下证明了估计的一致性，并推导了收敛速度的下界，指出其同样受到维度诅咒的影响。模拟和真实数据实验佐证了理论发现。

FrescoDiffusion: 4K Image-to-Video with Prior-Regularized Tiled Diffusion

Hugo Caselles-Dupré et al.

cs.CV cs.AI

本文提出了一种无需训练的、用于从单张复杂图像生成高分辨率视频的方法 FrescoDiffusion. 该方法通过引入预计算的 latent prior 来增强 tiled denoising, 以解决现有方法在生成 4K 视频时全局布局一致性与局部细节保持之间的矛盾.

In Trust We Survive: Emergent Trust Learning

Qianpu Chen et al.

cs.MA cs.LG

本文提出了一种轻量级的信任学习算法ETL, 可集成到现有AI智能体中, 使其在竞争性共享资源环境中达成合作. 该算法基于个体奖励和局部观察维护内部信任状态, 并在多个游戏环境中验证了其促进合作、避免资源耗竭的效果.

Gaussian Process Limit Reveals Structural Benefits of Graph Transformers

Nil Ayday, Lingchu Yang, Debarghya Ghoshdastidar

stat.ML cs.LG

本文研究了无限宽度和无限注意力头数下几种图Transformer模型(GAT, Graphormer, Specformer)的神经网络高斯过程极限，推导了其节点级和边级核函数。理论分析表明，图注意力机制在深层网络中能更好地保持社区结构和节点表示的区分度，从而避免过平滑问题。

HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness

Zihao Zheng et al.

cs.RO cs.DB cs.LG

本文提出了一种用于加速机器人控制中Vision-Language-Action (VLA) 模型推理的混合推测解码框架HeiSD. 它结合了基于草稿和基于检索的推测解码方法, 并通过运动学感知的融合度量来自动确定两者的切换边界, 在仿真和真实场景中实现了显著的推理加速.

Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing

Seongrae Noh et al.

cs.CV cs.AI

本文提出了一个名为Edit-As-Act的框架，用于根据自然语言指令编辑3D室内场景。该方法将编辑视为目标回归规划问题，通过预测符号化目标谓词并在自定义的动作语言中规划，以实现物理一致且可解释的场景变换。

Modeling Changing Scientific Concepts with Complex Networks: A Case Study on the Chemical Revolution

Sofía Aguilar-Valdez, Stefania Degaetano-Ortlieb

physics.soc-ph cs.CL

本文提出了一种基于复杂网络和主题建模的框架, 用于追踪科学概念在历史文本中的演变. 以化学革命中的燃素说与氧化说为例, 该方法通过分析网络拓扑特征(如熵和密度)来量化概念的变化.

Temporal Narrative Monitoring in Dynamic Information Environments

David Farr et al.

cs.SI cs.CL

本文提出了一种面向系统的框架, 用于在动态信息环境中对新兴叙事进行时序建模. 该方法整合了语义嵌入, 基于密度的聚类和滚动时序链接, 将叙事表示为共享语义空间中持久且自适应的实体.

rSDNet: Unified Robust Neural Learning against Label Noise and Adversarial Attacks

Suryasis Jana, Abhik Ghosh

stat.ML cs.AI cs.LG stat.ME

本文提出了一种名为rSDNet的统一鲁棒神经网络学习框架, 旨在同时抵御标签噪声和对抗攻击. 该方法基于$S$-divergence的最小化, 通过自动降低异常观测的权重来提升模型在数据污染下的鲁棒性.

Atomic Trajectory Modeling with State Space Models for Biomolecular Dynamics

Liang Shi et al.

q-bio.BM cs.LG

本文提出了一种基于State Space Models (SSM)的生成框架ATMOS, 用于生成生物分子系统的原子级MD轨迹. 该方法整合了Pairformer状态转移机制和扩散模型, 在蛋白质单体及蛋白质-配体复合物轨迹生成上取得了先进性能.

Automated Grammar-based Algebraic Multigrid Design With Evolutionary Algorithms

Dinesh Parthasarathy et al.

cs.CE cs.AI math.NA

本文提出了一种使用进化算法自动设计代数多重网格(Algebraic Multigrid, AMG)方法的新策略。该方法利用遗传编程和上下文无关文法来探索包含非标准循环和层特定平滑序列的巨大搜索空间，并在hypre库中进行了数值实验验证。

Anchoring and Rescaling Attention for Semantically Coherent Inbetweening

Tae Eun Choi et al.

cs.CV cs.AI

本文提出了一种用于生成式中间帧合成的新方法, 通过Keyframe-anchored Attention Bias和Rescaled Temporal RoPE来提供语义和时间指导, 以改善帧一致性和语义对齐. 该方法在专门设计的TGI-Bench基准测试中取得了先进的性能.

Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment

Yaze Zhao et al.

cs.CV cs.AI

本文提出了一种基于CLIP的跨域小样本学习方法CC-CDFSL, 旨在解决目标域中局部视觉-语言特征对齐不佳的问题. 该方法利用循环一致性进行自监督, 并引入语义锚机制来过滤噪声, 在多个基准测试上提升了模型性能和可解释性.

FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Rui Xiao et al.

cs.CV cs.AI

本文针对多模态大语言模型(MLLMs)在细粒度负查询下产生幻觉的问题, 提出了FINER基准和FINER-Tuning方法. 实验表明该方法能有效减少幻觉并提升模型的一般多模态能力.

Post-Training Local LLM Agents for Linux Privilege Escalation with Verifiable Rewards

Philipp Normann et al.

cs.CR cs.AI

本文提出了一种用于训练本地LLM代理进行Linux权限提升的两阶段后训练方法, 结合了监督微调和基于可验证奖励的强化学习. 该方法在资源受限环境下取得了接近顶级闭源模型的性能, 同时大幅降低了推理成本.

Inhibitory normalization of error signals improves learning in neural circuits

Roy Henha Eyono et al.

q-bio.NC cs.AI cs.LG

本文研究了 inhibitory normalization 在生物神经回路中对学习过程的影响. 通过在包含 excitatory 和 inhibitory 群体的 artificial neural networks 上进行图像识别实验, 发现将 normalization 机制扩展到 back-propagated errors 能显著提升性能.

WeatherReasonSeg: A Benchmark for Weather-Aware Reasoning Segmentation in Visual Language Models

Wanjun Du et al.

cs.CV cs.AI

本文提出了一个用于评估视觉语言模型在恶劣天气条件下进行推理分割性能的基准数据集 WeatherReasonSeg. 该基准包含可控的合成数据集和真实世界数据集, 并通过实验揭示了模型性能随天气严重程度下降以及不同天气类型导致不同脆弱性模式的现象.

Stochastic set-valued optimization and its application to robust learning

Tommaso Giovannelli, Jingfu Tan, Luis Nunes Vicente

math.OC cs.LG

本文提出了一个用于鲁棒学习的随机集值优化框架, 将决策变量映射到目标值集合, 并通过集合关系定义最优性. 该框架专注于超盒集值优化问题, 可重构为具有有限目标的多目标优化问题, 并通过结合分位数构建了随机区间/矩形值优化模型, 以捕捉损失分布的双尾行为. 实验表明, 采用随机多梯度算法求解并选择Pareto knee解, 能在分布偏移下提升鲁棒性并减少方差.

Eye image segmentation using visual and concept prompts with Segment Anything Model 3 (SAM3)

Diederick C. Niehorster, Marcus Nyström

cs.CV cs.AI

本文评估了Segment Anything Model 3 (SAM3)在眼图像分割任务上的性能，并与SAM2进行了比较。实验表明，在多数情况下，SAM3的性能并未超越SAM2，因此SAM2仍是更优选择。

Machine Learning for Network Attacks Classification and Statistical Evaluation of Machine Learning for Network Attacks Classification and Adversarial Learning Methodologies for Synthetic Data Generation

Iakovos-Christos Zarkadis, Christos Douligeris

cs.CR cs.AI stat.AP stat.ML

本文在统一的多模态网络入侵检测数据集上进行了两项任务研究. 第一项任务使用机器学习算法进行网络攻击分类, 第二项任务则利用对抗学习生成合成数据并评估其质量.

SARE: Sample-wise Adaptive Reasoning for Training-free Fine-grained Visual Recognition

Jingxiao Yang et al.

cs.CV cs.AI

本文提出了一种用于免训练细粒度视觉识别的样本自适应推理框架SARE. 该框架通过级联设计结合快速候选检索与细粒度推理, 并引入自反思经验机制来复用错误经验, 在多个数据集上实现了优越的性能与效率.

Optimal detection of dissipation in Lindbladian dynamics

Yiyi Cai

quant-ph cs.DS

本文研究了在Lindbladian动力学中检测耗散的问题, 提出了一种基于黑盒时间演化通道采样的随机化算法. 该算法能以信息论最优的总演化时间$O(\epsilon^{-1})$区分纯Hamiltonian演化与耗散强度至少为$\epsilon$的演化.

Modeling Overlapped Speech with Shuffles

Matthew Wiesner et al.

cs.SD cs.CL cs.LG

本文提出使用 shuffle product 和 partial order finite-state automata (FSA) 来建模重叠语音的并行数据流, 用于对齐和说话人归属转录. 通过将 FSA 上的总得分作为损失函数进行训练, 并在子词、词和短语级别上对所有可能的序列化进行边缘化. 该方法在合成的 LibriSpeech 重叠语音数据上进行了评估.

ResNet-50 with Class Reweighting and Anatomy-Guided Temporal Decoding for Gastrointestinal Video Analysis

Romil Imtiaz, Dimitris K. Iakovidis

cs.CV cs.LG

本文提出了一种用于胃肠道视频分析的多标签分类流程. 该方法基于ResNet-50帧分类器, 并采用了类别加权损失和基于解剖结构的时序解码策略. 通过结合裁剪后的类别正样本加权和保守的滞后解码器, 该系统在挑战赛测试集上取得了性能提升.

A Dual Certificate Approach to Sparsity in Infinite-Width Shallow Neural Networks

Leonardo Del Grande, Christoph Brune, Marcello Carioni

math.OC cs.AI

本文研究了无限宽度浅层ReLU神经网络的TV正则化训练问题, 将其表述为单位球上测度的凸优化问题. 利用对偶理论, 证明了在低噪声和小正则化参数下, 解具有稀疏性, 且其支撑集基数可由数据诱导的超平面构型几何上界控制.

The Convergence Frontier: Integrating Machine Learning and High Performance Quantum Computing for Next-Generation Drug Discovery

Narjes Ansari et al.

quant-ph cs.LG physics.chem-ph

本文讨论了将高性能计算、机器学习和量子计算结合以加速药物发现过程。作者认为这种融合能够克服传统量子化学模拟在精度与可扩展性之间的权衡，并展望了量子增强采样在未来材料科学中的应用前景。

EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards

Ruixiang Wang et al.

cs.RO cs.AI

本文提出了一种名为EVA的强化学习后训练框架, 用于对齐视频世界模型与机器人可执行动作. 该方法利用逆动力学模型作为奖励模型, 在训练中鼓励生成符合刚体运动学和具体化约束的视频序列, 从而缩小视觉生成与物理可执行控制之间的差距.

Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients

Ziwei Xiang et al.

cs.CV cs.AI

本文提出了一种针对大型视觉语言模型(LVLMs)的细粒度后训练量化方法, 称为量化感知积分梯度(QIG). 该方法利用积分梯度来评估token级别的量化敏感性, 超越了传统的模态级别分析. 实验表明, 该方法在多种量化设置下能有效提升模型精度, 且额外延迟开销可忽略不计.

ChopGrad: Pixel-Wise Losses for Latent Video Diffusion via Truncated Backpropagation

Dmitriy Rivkin et al.

cs.CV cs.AI cs.LG

本文提出了一种用于视频扩散模型训练的截断反向传播方法 ChopGrad, 通过将梯度计算限制在局部帧窗口内来大幅降低训练内存消耗. 该方法在多种条件视频生成任务上取得了与现有方法相当的性能.

Multi-Source Evidence Fusion for Audio Question Answering

Aivo Olev, Tanel Alumäe

eess.AS cs.CL

本文描述了一个用于音频问答的多源证据融合系统. 该系统通过整合多个音频语言模型和声学工具的输出, 生成可验证的推理链, 并在相关评测中取得了最佳性能.

FailureMem: A Failure-Aware Multimodal Framework for Autonomous Software Repair

Ruize Ma et al.

cs.SE cs.AI

本文提出了一个名为FailureMem的多模态自动程序修复框架, 它结合了混合工作流-智能体架构, 区域级视觉感知工具以及失败记忆库, 旨在改进对源代码, 文本描述和GUI截图等多模态信息的联合推理. 实验表明, 该框架在SWE-bench Multimodal基准上取得了优于基线方法的效果.

CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents

Lintang Sutawika et al.

cs.SE cs.AI cs.CL

本文提出了一种名为CodeScout的强化学习配方，用于训练代码搜索智能体。该方法仅使用标准Unix终端作为工具，在多个基准测试中取得了有竞争力的性能。

Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control

Zunzhe Zhang et al.

cs.RO cs.AI

本文提出了一种名为GeCO的时间无条件生成控制框架, 将动作合成从轨迹积分转化为迭代优化. 该方法学习动作序列空间中的平稳速度场, 使得推理过程能根据状态复杂度自适应分配计算, 并提供了一个无需训练的安全信号用于异常检测.

Verification and Validation of Physics-Informed Surrogate Component Models for Dynamic Power-System Simulation

Petros Ellinas et al.

eess.SY cs.LG

本文针对电力系统动态仿真中基于物理信息的机器学习代理模型, 提出了一个在仿真器内使用的验证与确认框架. 该框架通过有限时域界限分析组件输出误差, 并结合基于模型的验证与基于数据的确认方法, 研究表明, 良好的独立组件精度并不能保证其在耦合仿真中的准确性.

The Silent Thought: Modeling Internal Cognition in Full-Duplex Spoken Dialogue Models via Latent Reasoning

Donghang Wu et al.

eess.AS cs.CL

本文提出了一种名为FLAIR的full-duplex spoken dialogue模型, 它通过latent reasoning机制在听用户说话时进行内部思考. 该方法使用一个基于Evidence Lower Bound的目标进行训练, 无需显式的推理标注, 并在多个语音对话基准上取得了有竞争力的结果.

Differential Attention-Augmented BiomedCLIP with Asymmetric Focal Optimization for Imbalanced Multi-Label Video Capsule Endoscopy Classification

Podakanti Satyajith Chary, Nagarajan Ganapathy

cs.CV cs.AI

本文提出了一种用于视频胶囊内窥镜多标签分类的框架, 通过结合架构和优化层面的策略来处理 Galar 数据集中的极端类别不平衡问题. 该方法修改了 BiomedCLIP 模型, 引入了差分注意力机制和多种处理不平衡数据的技术, 并在 RARE-VISION 测试集上取得了较好的性能.

AI-Assisted Goal Setting Improves Goal Progress Through Social Accountability

Michel Schimpf, Julian Voigt, Thomas Bohné

cs.HC cs.AI

本文通过一项三组随机对照试验, 比较了AI职业教练、结构化书面问卷和无干预对照对职业目标进展的影响. 研究发现, AI教练能通过增强感知到的社会责任感来促进短期目标进展, 但其整体效果与结构化自我反思相比并无显著优势.

scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns

Sergey V. Samsonau

cs.SE cs.AI cs.LG

本文提出了一种名为 scicode-lint 的工具，用于检测科学 Python 代码中的方法学错误。它采用了一种两层架构，利用大语言模型生成检测模式，并由本地小模型执行检测，从而实现了自动化检查。

A Noise Sensitivity Exponent Controls Large Statistical-to-Computational Gaps in Single- and Multi-Index Models

Leonardo Defilippis et al.

stat.ML cs.LG

本文研究了高维统计中单索引和多索引模型的统计-计算间隙问题. 作者引入了一个由激活函数决定的 Noise Sensitivity Exponent (NSE), 并证明它在广泛的模型范围内控制着这类间隙的存在与大小.

Differential Privacy in Generative AI Agents: Analysis and Optimal Tradeoffs

Ya-Ting Yang, Quanyan Zhu

cs.CR cs.AI

本文提出了一个基于 differential privacy 的概率框架来分析 AI agent 中的隐私泄露风险. 该框架将响应生成建模为一个随机机制, 并引入了 token-level 和 message-level 的隐私定义, 进而将隐私泄露与生成参数联系起来.

Multi-Armed Sequential Hypothesis Testing by Betting

Ricardo J. Sandoval, Ian Waudby-Smith, Michael I. Jordan

stat.ME cs.LG math.ST

本文研究了多臂序贯假设检验问题, 提出了一种基于赌博框架的检验方法. 该方法旨在处理多个数据源(臂)的情况, 并分析了在复合零假设和备择假设下的最优性界限.

VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Mohamed Eltahir et al.

cs.CV cs.AI

本文提出了一种名为VideoAtlas的通用视频表示环境，它将视频组织成层次化网格，以实现无损、可导航和可扩展的处理。该方法支持对数级计算增长，并引入了Video-RLM架构，用于在长视频中进行全局探索和局部细节分析，从而提升视频理解的效率。

Specification-Aware Distribution Shaping for Robotics Foundation Models

Sadık Bera Yüksel, Derya Aksaray

cs.RO cs.AI

本文提出了一种用于机器人基础模型的规范感知动作分布优化框架. 该框架在不修改预训练模型参数的情况下, 通过前向动力学传播推理, 在每一步决策中计算满足Signal Temporal Logic约束的最小修改动作分布.

TDAD: Test-Driven Agentic Development - Reducing Code Regressions in AI Coding Agents via Graph-Based Impact Analysis

Pepe Alonso

cs.SE cs.AI

本文提出了一个名为TDAD的工具和基准方法, 用于减少AI编码代理在修复软件问题时引入的代码回归. 该方法通过构建基于抽象语法树(AST)的代码-测试图并进行加权影响分析, 来识别最可能受代码变更影响的测试.

Toward Scalable Automated Repository-Level Datasets for Software Vulnerability Detection

Amine Lbath

cs.SE cs.AI

本文提出了一种自动化的基准生成方法, 用于创建仓库级别的软件漏洞检测数据集. 该方法通过向真实代码库中注入漏洞并合成可复现的漏洞利用证明(PoV)来生成精确标注的数据, 旨在为训练和评估检测智能体提供更现实的场景.

LoST: Level of Semantics Tokenization for 3D Shapes

Niladri Shekhar Dutt et al.

cs.CV cs.GR cs.LG

本文提出了一种名为LoST的3D形状语义层级分词方法, 旨在改进自回归模型中的3D形状表示. 通过引入RIDA损失函数来对齐3D形状潜在空间与语义特征空间的关系结构, 该方法在几何和语义重建指标上超越了现有基于几何层级的方法.

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Kevin Qu et al.

cs.CV cs.AI cs.CL

本文提出了Loc3R-VLM框架，旨在增强2D视觉语言模型(VLM)的单目视频3D理解能力。该框架通过全局布局重建和显式情境建模两个联合目标，结合轻量级相机位姿先验，在基于语言的定位和3D问答任务上取得了先进性能。

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Jianrui Zhang et al.

cs.CV cs.AI cs.LG

本文提出了一种名为STTS的轻量级模块, 用于在视频视觉语言模型(VLMs)中进行统一的时空token剪枝. 该方法无需文本条件或token合并, 能在整个架构中剪枝约50%的视觉token, 显著提升训练和推理效率, 同时在多个视频问答任务上保持接近基线的性能.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others