bluearXiv-ai - 2026-03-13

📄 所有论文 ↑ 回顶部

cs.LG

Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context

Faris Chaudhry, Siddhant Gadkari

cs.LG cs.AI

本文从统计决策理论视角研究了Transformer的in-context learning机制, 通过二元假设检验任务分析模型行为. 研究发现模型能够近似最优的充分统计量, 其内部机制并非固定的核平滑, 而是构建了任务自适应的统计估计器.

Comparison of Outlier Detection Algorithms on String Data

Philip Maus

cs.LG

本文比较了两种用于字符串数据的异常检测算法. 一种是对经典的 local outlier factor 算法进行了适配, 使用 Levenshtein 距离计算数据密度; 另一种是基于 hierarchical left regular expression learner 的新方法, 通过推断数据的正则表达式来识别异常. 实验表明, 两种方法在概念上都能发现字符串数据中的异常值, 但各自适用于不同的数据特征.

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Haoze Song et al.

cs.LG cs.AI

本文针对 neural operator PDE surrogates 的 epistemic uncertainty quantification 问题，提出了一种结构感知的 UQ 方案。该方法通过仅在 lifting module 中注入随机性，而非扰动整个网络，实现了更高效且与局部残差结构对齐的不确定性估计。

Interventional Time Series Priors for Causal Foundation Models

Dennis Thumm, Ying Chen

cs.LG stat.ME

本文提出了一个用于生成合成时间序列因果模型的框架 CausalTimePrior, 该框架能产生配对的观测和干预数据. 作者展示了基于此框架训练的 prior-data fitted networks (PFNs) 能够在未见的时间序列因果模型上进行上下文因果效应估计.

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Ben Halstead et al.

cs.LG

本文提出了一个名为FiCSUM的通用框架, 用于在数据流中为概念(concept)生成"指纹"(fingerprint). 该框架利用监督和非监督的元信息(meta-information)特征来构建能够唯一识别更多概念的向量表示, 并通过动态加权策略学习哪些特征对描述特定数据集中的概念漂移(concept drift)更重要. 实验表明, FiCSUM在多个真实和合成数据集上, 在预测准确性和建模潜在概念漂移方面优于现有方法.

Graph Tokenization for Bridging Graphs and Transformers

Zeyuan Guo et al.

cs.LG cs.AI

本文提出了一种图标记化框架, 通过结合可逆的图序列化和Byte Pair Encoding (BPE)技术, 将图结构数据转换为序列表示, 从而使得BERT等Transformer模型能够直接应用于图基准测试. 该方法在多个数据集上取得了先进的性能.

Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers

Mynampati Sri Ranganadha Avinash

cs.LG cs.AI

本文通过引入 routing signatures 来分析 Sparse Mixture-of-Experts (MoE) 模型中的专家选择机制。研究发现，不同任务类别的提示会诱导出具有显著差异的路由模式，这表明路由机制具有一定的任务敏感性。

Learning Tree-Based Models with Gradient Descent

Sascha Marton

cs.LG

本文提出了一种通过gradient descent学习hard, axis-aligned decision trees的新方法. 该方法利用straight-through operator进行反向传播, 能够联合优化所有树参数, 从而克服传统贪婪算法的局限性, 并易于集成到现代机器学习流程中.

A Learning-Based Superposition Operator for Non-Renewal Arrival Processes in Queueing Networks

Eliran Sherzer

cs.LG math.PR

本文提出了一种基于深度学习的叠加算子, 用于处理排队网络中非更新到达过程的叠加问题. 该算子通过学习合成生成的 Markovian Arrival Processes (MAPs) 数据, 能够从多个输入流的低阶矩和自相关描述符中预测聚合流的相关统计量.

Group Resonance Network: Learnable Prototypes and Multi-Subject Resonance for EEG Emotion Recognition

Renwei Meng

cs.LG

本文提出了一种用于跨被试EEG情绪识别的Group Resonance Network (GRN). 该方法通过可学习的群体原型和多被试共振分支, 结合个体与群体层面的表征进行分类.

High-resolution weather-guided surrogate modeling for data-efficient cross-location building energy prediction

Piragash Manmatharasan, Girma Bitsuamlak, Katarina Grolinger

cs.LG

本文提出了一种基于高分辨率(周尺度)天气信息的代理建模方法, 用于提升建筑能耗预测模型在不同地理位置间的可复用性. 该方法通过捕捉跨区域共享的短期天气-能耗模式, 使得仅基于单一地点数据训练的模型, 能够有效泛化到同一气候带甚至不同气候带的其他地点.

Beyond Barren Plateaus: A Scalable Quantum Convolutional Architecture for High-Fidelity Image Classification

Radhakrishnan Delhibabu

cs.LG

本文提出了一种新的量子卷积神经网络(QCNN)架构, 通过使用局部化损失函数和硬件高效的张量网络初始化策略, 旨在理论上缓解训练中的梯度消失(barren plateaus)问题. 在MNIST数据集上的实验表明, 该架构显著提升了分类准确率, 并展示了相对于经典模型在参数量上的潜在效率优势.

Higher-Order Modular Attention: Fusing Pairwise and Triadic Interactions for Protein Sequences

Shirin Amiraslani, Xin Gao

cs.LG

本文提出了一种名为HOMA的高阶模块化注意力机制, 用于蛋白质序列建模. 该方法融合了标准的pairwise attention与显式的triadic interaction pathway, 并在多个蛋白质基准任务上取得了优于标准自注意力及其高效变体的性能.

Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

Jongwoo Ko et al.

cs.LG cs.CL

本文提出了一种名为REOPOLD的松弛策略蒸馏框架, 旨在稳定地将大型教师模型的推理能力迁移到容量受限的学生模型. 该方法通过混合奖励裁剪, 基于熵的动态采样等机制, 在数学, 视觉和工具使用等推理任务上实现了更高的训练样本效率和推理时扩展性能.

H2LooP Spark Preview: Continual Pretraining of Large Language Models for Low-Level Embedded Systems Code

Amit Singh et al.

cs.LG

本文提出了一种针对低层嵌入式系统代码的持续预训练方法 H2LooP Spark Preview. 该方法通过使用高秩 LoRA 对开源大语言模型 OLMo-3-7B 进行领域适应, 在专门的代码生成基准上取得了有竞争力的结果.

Procedural Fairness via Group Counterfactual Explanation

Gideon Popoola, John Sheppard

cs.LG cs.AI cs.CY

本文提出了Group Counterfactual Integrated Gradients (GCIG)方法, 一个旨在提升机器学习模型过程公平性的正则化框架. 该方法通过强制不同受保护群体在给定真实标签下的解释具有不变性, 来补充仅关注预测结果的公平性目标.

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

Sai V R Chereddy

cs.LG cs.AI cs.CV

本文通过mechanistic interpretability技术, 分析了预训练video vision transformer中编码动作"成功与否"的内部电路. 研究发现, Attention Heads负责收集低级证据, 而MLP Blocks则作为稳健的"概念组合器"来生成最终信号, 这种分布式冗余电路解释了模型对简单消融的鲁棒性.

Systematic Scaling Analysis of Jailbreak Attacks in Large Language Models

Xiangwen Wang, Ananth Balashankar, Varun Chandrasekaran

cs.LG cs.CR

本文通过将越狱攻击视为计算受限的优化过程，并引入统一的FLOPs轴来衡量攻击进展，建立了一个用于分析越狱攻击的scaling-law框架。研究评估了多种攻击范式在不同模型和有害目标上的表现，发现基于提示的方法通常比基于优化的方法更具计算效率，且攻击的易感性高度依赖于具体的有害目标类型。

Algorithmic Capture, Computational Complexity, and Inductive Bias of Infinite Transformers

Orit Davidovich, Zohar Ringel

cs.LG cond-mat.dis-nn stat.ML

本文研究了无限宽度transformer在算法捕获(algorithmic capture)方面的能力, 定义了算法捕获的概念以区分真正的算法学习与统计插值. 通过分析惰性(lazy)和丰富(rich)两种训练机制下的网络, 推导了这些网络可学习函数在推理时计算复杂度的上界. 结果表明, 尽管具有通用表达能力, transformer对高效多项式时间启发式方案(EPTHS)类中的低复杂度算法存在归纳偏倚(inductive bias), 这限制了其学习更高复杂度算法的能力.

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Charles L. Wang et al.

cs.LG cs.CL cs.SD

本文针对亨廷顿病(HD)患者的病理语音, 系统性地研究了自动语音识别(ASR)技术. 研究比较了多种ASR模型架构, 发现HD语音会引发特定的错误模式, 并通过引入基于生物标志物的辅助监督方法进行模型适应, 从而改变了错误行为.

Bayesian Optimization of Partially Known Systems using Hybrid Models

Eike Cramer et al.

cs.LG

本文提出了一种结合部分已知机理模型与贝叶斯优化的混合建模方法. 该方法将未知部分建模为高斯过程, 并将其作为约束嵌入到物理模型中, 从而加速了昂贵黑盒系统的优化过程.

Representation Finetuning for Continual Learning

Haihua Luo et al.

cs.LG cs.AI

本文提出了一种名为Continual Representation Learning (CoRe)的新框架, 将微调从权重空间转移到表示空间. 该方法通过在隐藏表示的低秩线性子空间中进行任务特定干预, 旨在稳定旧任务并适应新任务, 从而在多个持续学习基准上取得了优于现有方法的结果.

Reference-Guided Machine Unlearning

Jonas Mirlach, Sonia Laguna, Julia E. Vogt

cs.LG

本文提出了Reference-Guided Unlearning (ReGUn)框架, 用于从训练好的模型中移除特定数据的影响. 该方法利用一个独立的参考数据集来引导遗忘过程, 在多个实验设置下相比基线方法取得了更好的遗忘与模型效用的平衡.

Monitoring and Prediction of Mood in Elderly People during Daily Life Activities

Daniel Bautista-Salinas et al.

cs.LG eess.SP

本文提出了一种用于监测和预测老年人日常活动中情绪状态的智能可穿戴系统。该系统结合了生理数据采集与机器学习分类器，在特定情绪识别上取得了与现有技术相当的结果。

Differentiable Thermodynamic Phase-Equilibria for Machine Learning

Karim K. Ben Hicham et al.

cs.LG

本文提出了一种名为DISCOMAX的可微分相平衡计算方法, 用于机器学习中的热力学建模. 该方法通过离散枚举和掩码softmax聚合来保证热力学一致性, 并在二元液-液平衡数据上展示了优于现有替代方法的性能.

Beyond the Class Subspace: Teacher-Guided Training for Reliable Out-of-Distribution Detection in Single-Domain Models

Hong Yang et al.

cs.LG

本文针对单域模型中的分布外检测问题, 提出了一种名为Teacher-Guided Training (TGT)的方法. 该方法通过从预训练的多域教师模型中提取特征残差信息来增强学生模型, 从而缓解了单域训练导致的几何失效模式, 并在多个基准上提升了检测性能.

Duration Aware Scheduling for ASR Serving Under Workload Drift

Darshan Makwana et al.

cs.LG

本文针对ASR服务中的调度问题, 提出了一种基于音频时长的调度策略. 通过将SJF和HRRN算法集成到vLLM中, 在负载漂移场景下有效降低了端到端延迟, 同时控制了尾部延迟的恶化.

Single molecule localization microscopy challenge: a biologically inspired benchmark for long-sequence modeling

Fatemeh Valeh et al.

cs.LG q-bio.QM

本文提出了一个用于评估 state space models 在生物成像稀疏随机时序数据上性能的基准数据集 SMLM-C. 该基准揭示了现有模型在处理具有 heavy-tailed blinking dynamics 的间断时序过程时面临的挑战.

Client-Conditional Federated Learning via Local Training Data Statistics

Rickard Brännvall

cs.LG

本文提出了一种基于客户端本地训练数据PCA统计量的条件化联邦学习方法, 该方法无需额外通信开销. 在多种异构数据场景下的实验表明, 其性能可匹配甚至超越已知真实集群分配的Oracle基线, 并对数据稀疏性具有鲁棒性.

Heavy-Tailed Principle Component Analysis

Mario Sayde et al.

cs.LG

本文针对heavy-tailed数据下的PCA问题, 提出了一种基于对数损失的理论框架和稳健估计方法. 该方法在存在脉冲噪声时表现优于经典PCA.

On the Robustness of Langevin Dynamics to Score Function Error

Daniel Yiming Cao et al.

cs.LG stat.ML

本文研究了基于分数的生成模型中, Langevin dynamics 对 score function 估计误差的鲁棒性. 结果表明, 即使估计的 score function 的 $L^p$ 误差任意小, 在多项式时间内运行的 Langevin dynamics 也可能产生与目标分布相差甚远的样本.

Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

Yuning Wu et al.

cs.LG cs.AI cs.CL

本文提出了一种名为Hindsight-Anchored Policy Optimization (HAPO)的新方法，用于解决稀疏奖励设置下的强化学习问题。它通过一个选择性利用教师演示的后见机制来稳定训练，并理论上保证了渐近一致性。

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Teng Xiao et al.

cs.LG cs.CL

本文提出了一种基于上下文元强化学习的智能搜索框架 MR-Search, 它通过跨 episode 的自我反思来改进搜索策略. 该方法在多个基准测试中取得了优于基线模型的性能提升.

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan

cs.LG cs.AI

本文通过一个spin-glass理论模型分析了对抗性提示注入攻击如何影响大语言模型的安全性。研究发现，攻击成功率会随着注入提示的长度而发生从多项式增长到指数增长的转变。

Teleodynamic Learning a new Paradigm For Interpretable AI

Enrique ter Horst, Juan Diego Zambrano

cs.LG stat.AP

本文提出了一种名为Teleodynamic Learning的新机器学习范式, 其核心思想是将学习视为约束下功能组织的涌现与稳定化过程, 而非固定目标的最小化. 该框架受生命系统启发, 将智能建模为表示能力、参数适应与内部资源可持续变化三者的耦合演化, 并基于此构建了一个包含内、外两个时间尺度的约束动力学过程. 作者通过一个基于Spencer-Brown的Laws of Form、信息几何与热带优化的具体实例Distinction Engine (DE11)进行了验证, 在多个标准数据集上取得了有竞争力的分类准确率, 并能内生地产生可解释的逻辑规则.

Multilingual Financial Fraud Detection Using Machine Learning and Transformer Models: A Bangla-English Study

Mohammad Shihab Uddin et al.

cs.LG

本文在孟加拉语-英语双语环境下, 使用传统机器学习模型(如 Linear SVM)和 Transformer 模型进行金融欺诈检测研究. 实验结果表明, 基于 TF-IDF 特征的 Linear SVM 模型在准确率和 F1 分数上略优于 Transformer 模型, 同时分析了欺诈文本在长度、用词等方面的特征模式.

abx_amr_simulator: A simulation environment for antibiotic prescribing policy optimization under antimicrobial resistance

Joyce Lee, Seth Blumberg

cs.LG q-bio.PE

本文介绍了一个用于抗生素处方策略优化的Python模拟环境abx_amr_simulator. 该环境通过模块化设计模拟患者群体和耐药性动态, 并与强化学习框架兼容, 旨在为研究抗菌素耐药性管理和优化临床决策提供可配置的工具.

Relaxed Efficient Acquisition of Context and Temporal Features

Yunni Qu et al.

cs.LG

本文提出了一个名为REACT的端到端可微框架, 用于在成本约束下联合优化纵向数据采集中的初始上下文特征选择与时间自适应的特征采集计划. 该方法在真实世界的纵向健康和行为数据集上实现了比现有基线更低的采集成本和更高的预测性能.

Ensuring Safety in Automated Mechanical Ventilation through Offline Reinforcement Learning and Digital Twin Verification

Hang Yu et al.

cs.LG

本文提出了一种基于Transformer的保守Q学习(T-CQL)框架，用于实现机械通气的自动化与个性化。该方法通过结合时序建模、不确定性量化和一致性正则化来提升决策的安全性与鲁棒性，并利用数字孪生进行策略评估。实验表明，该框架在调整呼吸机参数方面优于现有方法。

ARROW: Augmented Replay for RObust World models

Abdulaziz Alyahya et al.

cs.LG cs.AI

本文提出了一种名为ARROW的基于模型的持续强化学习算法, 它通过一个包含短期和长期缓冲区的记忆高效回放机制来缓解灾难性遗忘. 在Atari和Procgen等环境上的实验表明, 该方法在无共享结构的任务上显著减少了遗忘, 同时保持了可比较的前向迁移能力.

Harnessing Data Asymmetry: Manifold Learning in the Finsler World

Thomas Dagès et al.

cs.LG cs.CV

本文提出了一种基于Finsler几何的流形学习框架，用于处理数据中固有的非对称性。该方法扩展了传统对称嵌入方法，并在合成与真实数据集上展示了其捕获密度层次等额外信息的能力。

A Stable Neural Statistical Dependence Estimator for Autoencoder Feature Analysis

Bo Hu, Jose C Principe

cs.LG cs.AI

本文提出了一种用于分析autoencoder特征的稳定神经统计依赖估计器. 该方法基于正交密度比分解, 避免了MINE等方法中的计算问题, 并通过假设Gaussian噪声来实现有效的依赖度量.

ZTab: Domain-based Zero-shot Annotation for Table Columns

Ehsan Hoseinzade, Ke Wang

cs.LG

本文提出了一个名为ZTab的领域驱动的zero-shot框架, 用于关系型表格的语义列类型自动标注. 该框架通过领域配置生成伪表格来微调标注LLM, 在无需用户特定标注数据的情况下, 在相似领域内实现零样本推理.

UniHetCO: A Unified Heterogeneous Representation for Multi-Problem Learning in Unsupervised Neural Combinatorial Optimization

Kien X. Nguyen, Ilya Safro

cs.LG

本文提出了一种用于无监督神经组合优化的统一异构图表示方法 UniHetCO. 该方法将问题结构、目标项和线性约束编码到单一输入中, 使得单个模型能够跨多个问题类别进行训练. 实验表明, 该方法在多个数据集和问题类别上取得了有竞争力的性能, 并展现出良好的跨问题适应潜力.

Bridging Discrete Marks and Continuous Dynamics: Dual-Path Cross-Interaction for Marked Temporal Point Processes

Yuxiang Liu et al.

cs.LG cs.AI

本文提出了一种名为NEXTPP的双通道框架, 用于处理带离散标记的时序点过程. 该框架通过自注意力机制编码离散标记, 同时利用Neural ODE演化连续时间状态, 并使用交叉注意力模块融合两者. 实验表明其在多个真实数据集上优于现有方法.

Slack More, Predict Better: Proximal Relaxation for Probabilistic Latent Variable Model-based Soft Sensors

Zehua Zou et al.

cs.LG eess.SY math.OC

本文针对非线性概率隐变量模型(NPLVM)在软测量建模中因摊销变分推断引入近似误差的问题, 提出了一种新的变分推断策略. 该方法通过引入Wasserstein距离作为邻近算子来松弛学习目标, 并证明了算法的收敛性, 在合成和工业数据集上验证了其有效性.

Deep Learning Network-Temporal Models For Traffic Prediction

Yufeng Xin, Ethan Fan

cs.LG cs.NI

本文提出了两种用于网络流量预测的深度学习模型: 一种定制的网络-时序图注意力网络(GAT)模型和一种经过微调的多模态大语言模型(LLM). 通过在真实数据集上的实验, 基于LLM的模型展现了优越的整体预测性能, 而GAT模型则在降低预测方差方面表现突出.

Leveraging Phytolith Research using Artificial Intelligence

Andrés G. Mejía Ramón et al.

cs.LG q-bio.QM

本文提出了一种名为Sorometry的端到端人工智能流程, 用于高通量的植硅体数字化、推断和解释. 该流程整合了2D图像和3D点云的多模态融合模型, 并包含用于整体植物来源贡献预测的贝叶斯有限混合模型.

Grammar of the Wave: Towards Explainable Multivariate Time Series Event Detection via Neuro-Symbolic VLM Agents

Sky Chenwei Wan et al.

cs.LG cs.AI cs.MA

本文提出了一种新的知识引导时间序列事件检测设置, 并引入了Event Logic Tree (ELT) 知识表示框架来连接语言描述与物理数据. 基于ELT, 作者构建了一个神经符号VLM智能体框架, 在真实世界基准测试中展示了其有效性.

Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

Yuval Ran-Milo

cs.LG

本文证明了在 softmax self-attention 模型中，计算一个简单的触发器条件行为必然会产生 attention sink。作者通过一个具体的任务实例化这一结论，并证明非归一化的 ReLU attention 可以在不产生 sink 的情况下解决相同任务，从而将 sink 行为归因于归一化约束。实验验证了理论预测，并表明该现象超出了理论分析的具体设定。

KEPo: Knowledge Evolution Poison on Graph-based Retrieval-Augmented Generation

Qizhi Chen et al.

cs.LG cs.AI cs.CR

本文提出了一种针对GraphRAG的新型投毒攻击方法KEPo. 该方法通过伪造知识演化路径来污染知识图谱, 从而误导大语言模型生成有害内容.

Sharpness-Aware Minimization for Generalized Embedding Learning in Federated Recommendation

Fengyuan Yu et al.

cs.LG

本文提出了一种名为FedRecGEL的联邦推荐框架，旨在解决跨设备场景下由于数据异构性和稀疏性导致的广义item embedding学习不稳定的问题。该框架将问题重构为多任务学习，并利用sharpness-aware minimization来提升embedding的泛化能力，从而改善推荐性能。

LongFlow: Efficient KV Cache Compression for Reasoning M

Yi Su et al.

cs.LG cs.CL

本文提出了一种名为LongFlow的KV cache压缩方法, 旨在解决推理模型因生成长序列输出而导致的高内存与带宽开销问题. 该方法通过利用attention计算中的中间结果来高效评估重要性, 并设计了融合内核以提升系统效率, 在保持模型精度的同时显著提升了吞吐量.

CFD-HAR: User-controllable Privacy through Conditional Feature Disentanglement

Alex Gn et al.

cs.LG

本文提出了一种基于条件特征解耦(CFD)的表示学习方法, 用于实现用户可控的隐私保护, 并将其应用于人类活动识别(HAR)任务. 该方法旨在从传感器数据中分离出活动特征与敏感属性, 并与基于自编码器的少样本学习方法在隐私保护、数据效率等方面进行了对比分析.

Multi-Task Anti-Causal Learning for Reconstructing Urban Events from Residents' Reports

Liangkai Zhou et al.

cs.LG

本文提出了一个多任务反因果学习框架, 用于从居民报告中重建城市事件. 该方法通过利用跨任务不变的因果机制, 在真实数据集上取得了优于基线模型的重建精度.

CAETC: Causal Autoencoding and Treatment Conditioning for Counterfactual Estimation over Time

Nghia D. Nguyen, Pablo Robles-Granda, Lav R. Varshney

cs.LG

本文提出了一种名为CAETC的新方法, 用于处理时间序列数据中的反事实估计问题. 该方法基于对抗性表示学习, 通过自编码架构学习部分可逆且与治疗无关的表示, 从而在合成与真实数据上取得了优于现有方法的效果.

Survival Meets Classification: A Novel Framework for Early Risk Prediction Models of Chronic Diseases

Shaheer Ahmad Khan, Muhammad Usamah Shahid, Muddassar Farooq

cs.LG cs.AI

本文提出了一种将生存分析(survival analysis)与分类技术相结合的新框架, 用于构建慢性疾病的早期风险预测模型. 在真实世界的大规模电子病历(EMR)数据上, 该方法的性能指标(如准确率, F1分数, AUROC)可与LightGBM, XGBoost等先进模型相媲美甚至更优.

Hybrid Energy-Aware Reward Shaping: A Unified Lightweight Physics-Guided Methodology for Policy Optimization

Qijun Liao et al.

cs.LG

本文提出了一种名为H-EARS的混合奖励塑形方法，它将基于势能的奖励塑形与能量感知的动作正则化相结合。该方法旨在提升深度强化学习在连续控制任务中的收敛速度、稳定性和能量效率，并通过理论分析和实验验证了其有效性。

AutoScout: Structured Optimization for Automating ML System Configuration

Jimmy Shong et al.

cs.LG

本文提出了一种名为AutoScout的通用ML系统配置器，用于自动化机器学习训练、微调和推理的系统配置优化。它将配置问题建模为一个具有层次依赖关系的混合离散/连续优化问题，并采用混合优化框架来联合优化稀疏的结构决策和密集的执行参数，以降低分析成本并提升性能。

Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE

Mohammad Aflah Khan et al.

cs.LG cs.CL

本文研究了在transformer架构中仅对部分hidden dimensions应用Rotary Positional Embedding (RoPE) 的效果。实验表明，仅对约10%的维度应用RoPE即可达到与完整RoPE相当的收敛效果，并能显著节省内存，这一发现在不同模型规模、序列长度和数据集上保持一致。

Personalized Federated Learning via Gaussian Generative Modeling

Peng Hu, Jianwei Ma

cs.LG

本文提出了一种基于高斯生成建模的个性化联邦学习方法 pFedGM. 该方法通过加权重采样建模客户端异质性, 并利用双目标优化和双尺度融合框架来平衡全局协作与个性化.

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Jiaheng Hu et al.

cs.LG cs.RO

本文通过系统实验发现, 对于大规模预训练的 Vision-Language-Action (VLA) 模型, 简单的顺序微调配合低秩适应(LoRA)在持续强化学习(CRL)中表现优异. 该方法展现出高可塑性、低遗忘性, 并保持了强大的零样本泛化能力, 其鲁棒性源于预训练模型、参数高效适应与在线RL的协同作用.

Context-dependent manifold learning: A neuromodulated constrained autoencoder approach

Jérôme Adriaens, Guillaume Drion, Pierre Sacré

cs.LG

本文提出了一种结合神经调节机制的约束自编码器(NcAE), 用于学习依赖于上下文(context)的数据流形. 该方法通过根据静态上下文信息调整增益和偏置, 来参数化几何约束, 从而将全局上下文参数与局部流形表示解耦. 在动力系统上的实验表明, NcAE能够捕捉不同状态下流形几何的变化.

Entropy-Preserving Reinforcement Learning

Aleksei Petrenko et al.

cs.LG cs.AI

本文分析了 policy gradient 算法在训练过程中会自然降低策略熵（entropy）从而限制探索能力的问题。作者提出了 REPO 和 ADAPO 等显式机制来监控和控制熵，以保持策略的多样性和可训练性。

EvoFlows: Evolutionary Edit-Based Flow-Matching for Protein Engineering

Nicolas Deutschmann et al.

cs.LG

本文提出了一种名为EvoFlows的蛋白质工程方法, 它通过编辑流(edit flows)来学习进化相关蛋白质序列之间的突变轨迹. 该方法能同时建模相关天然蛋白质的分布以及连接它们的突变路径, 在生成非平凡且类天然的突变体方面表现出优势.

Mitigating the Multiplicity Burden: The Role of Calibration in Reducing Predictive Multiplicity of Classifiers

Mustafa Cavus

cs.LG

本文研究了分类器校准与预测多样性之间的相互作用. 通过实证分析发现, 校准方法, 特别是Platt Scaling和Isotonic Regression, 能够有效降低预测多样性.

Exploiting Expertise of Non-Expert and Diverse Agents in Social Bandit Learning: A Free Energy Approach

Erfan Mirzaei et al.

cs.LG cs.AI stat.ML

本文提出了一种基于 free energy 的 social bandit learning 算法, 使智能体能够通过观察其他智能体的行为来估计其 expertise level, 从而整合自身经验与他人的策略信息. 理论分析证明了算法收敛到最优策略, 实验表明其在多种场景下优于基线方法, 并能有效识别和利用相关智能体的信息, 即使它们是非专家或表现不佳.

A Further Efficient Algorithm with Best-of-Both-Worlds Guarantees for $m$-Set Semi-Bandit Problem

Botao Chen et al.

cs.LG stat.ML

本文研究了FTPL算法在$m$-set semi-bandit问题中的最优性与计算复杂度. 通过使用特定参数的Fréchet和Pareto分布, 该算法在对抗性环境中实现了$O(\sqrt{mdT})$的遗憾上界, 并在随机环境中实现了对数遗憾.

Language Generation with Replay: A Learning-Theoretic View of Model Collapse

Giorgio Racca, Michal Valko, Amartya Sanyal

cs.LG stat.ML

本文从学习理论的角度研究了语言模型训练中可能出现的"模型崩溃"问题. 作者通过引入一个"回放对手"来形式化分析生成内容重新进入训练数据流的影响. 理论分析表明, 在较弱的生成概念下, 回放会带来根本性的限制, 这为实践中常用的数据清洗、水印等技术提供了理论解释和局限性说明.

Disentangled Representation Learning through Unsupervised Symmetry Group Discovery

Dang-Nhu Barthélémy, Annabi Louis, Argentieri Sylvain

cs.LG

本文提出了一种无监督发现对称群结构的方法, 用于学习解耦表示. 该方法通过智能体与环境的交互自主发现作用空间的群结构, 并在三个不同环境中验证了其有效性.

Exponential-Family Membership Inference: From LiRA and RMIA to BaVarIA

Rickard Brännvall

cs.LG cs.CR

本文提出了一个统一的指数族对数似然比框架, 将LiRA, RMIA和BASE等成员推理攻击方法联系起来. 在此框架下, 作者识别出方差估计是小规模影子模型预算下的关键瓶颈, 并提出了基于贝叶斯方差推断的攻击方法BaVarIA, 该方法在多个数据集和预算下表现稳定且优于现有方法.

Inverse Neural Operator for ODE Parameter Optimization

Zhi-Song Liu et al.

cs.LG

本文提出了一个名为Inverse Neural Operator (INO)的两阶段框架, 用于从稀疏、部分的观测数据中恢复常微分方程(ODE)的隐藏参数. 该方法通过结合条件傅里叶神经算子和参数空间中的摊销漂移模型, 避免了基于梯度的反演在刚性系统(stiff regimes)中的不稳定性, 并在真实和合成数据集上实现了更快的推理速度.

Multi-Station WiFi CSI Sensing Framework Robust to Station-wise Feature Missingness and Limited Labeled Data

Keita Kayano et al.

cs.LG

本文提出了一种针对多站WiFi信道状态信息(CSI)感知的框架, 旨在联合处理站点级特征缺失和标记数据有限这两个实际问题. 该框架通过结合针对缺失不变性的自监督预训练和下游训练中的站点掩码增强, 提升了模型在实际部署中的鲁棒性.

On the Role of Reversible Instance Normalization

Gaspard Berthelier et al.

cs.LG

本文通过消融实验重新审视了Reversible Instance Normalization (RevIN)在时间序列预测中的作用, 指出其部分组件是冗余甚至有害的. 作者基于此提出了改进RevIN鲁棒性和泛化能力的新视角.

FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning

Yijun Pan et al.

cs.LG

本文提出了一种名为FlexRec的强化学习框架, 用于对基于LLM的推荐系统进行后训练, 使其能够根据用户上下文和明确的指令需求, 灵活地调整推荐行为. 该方法通过设计基于反事实交换的细粒度奖励和不确定性感知的奖励缩放机制, 解决了序列级奖励信号稀疏和训练不稳定的问题, 在多个推荐场景和指标上取得了显著提升.

Causal Representation Learning with Optimal Compression under Complex Treatments

Wanting Liang, Haoang Chi, Zhiheng Zhang

cs.LG stat.ME

本文针对多干预场景下的个体处理效应估计问题, 提出了一个理论框架以解决平衡权重超参数选择困境和计算维度灾难. 通过推导新的泛化界并引入最优平衡权重$\alpha$的理论估计器, 避免了启发式调参. 所提出的Treatment Aggregation策略在保证精度的同时实现了$O(1)$的计算扩展性.

EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

Rajdeep Pathak et al.

cs.LG cs.AI stat.ML

本文提出了一种名为EnTransformer的深度生成式Transformer模型, 用于多元概率时间序列预测. 该方法结合了engression随机学习范式与Transformer的序列建模能力, 通过优化能量评分目标来学习非参数条件预测分布, 并在多个基准数据集上展示了优于基准模型的校准预测性能.

Chem4DLLM: 4D Multimodal LLMs for Chemical Dynamics Understanding

Xinyu Li et al.

cs.LG cs.CL

本文提出了一个名为Chemical Dynamics Understanding (ChemDU)的新任务, 旨在将4D分子轨迹转化为可解释的自然语言描述. 为此, 作者构建了Chem4DBench数据集, 并开发了Chem4DLLM模型, 该模型结合了等变图编码器和预训练大语言模型来捕捉分子几何与旋转动力学. 这项工作旨在推动动态化学理解和多模态科学推理的研究.

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

Xingze Zou et al.

cs.LG cs.AI

本文提出了MobileKernelBench框架，用于评估LLMs为移动设备生成高效计算内核的能力。研究发现当前LLMs在此任务上表现不佳，并提出了一个多智能体系统MoKA来提升成功率。

Exhaustive Circuit Mapping of a Single-Cell Foundation Model Reveals Massive Redundancy, Heavy-Tailed Hub Architecture, and Layer-Dependent Differentiation Control

Ihor Kendiukhov

cs.LG

本文通过详尽电路追踪、高阶组合消融和因果轨迹引导等方法，研究了基于Transformer的单细胞基础模型Geneformer的内部机制。研究揭示了特征连接的重尾分布、模型架构的次可加性以及网络层对细胞状态分化的因果控制作用。

Causal Matrix Completion under Multiple Treatments via Mixed Synthetic Nearest Neighbors

Minrui Luo, Zhiheng Zhang

cs.LG

本文提出了一种名为Mixed Synthetic Nearest Neighbors (MSNN)的新方法，用于处理多治疗水平下的因果矩阵补全问题。该方法通过整合不同治疗水平的信息来改进估计，并在合成和真实数据集上验证了其有效性。

Effective Resistance Rewiring: A Simple Topological Correction for Over-Squashing

Bertran Miquel-Oliver et al.

cs.LG cs.AI

本文提出了一种基于有效电阻的图重连方法ERR, 用于缓解图神经网络中的过度挤压问题. 该方法通过全局性的有效电阻指标识别并修正结构瓶颈, 在固定边预算下优化信息流, 并在实验中观察到其与过度平滑现象之间的权衡.

Geometry-Aware Probabilistic Circuits via Voronoi Tessellations

Sahil Sidheekh, Sriraam Natarajan

cs.LG cs.AI

本文提出将Voronoi tessellation引入probabilistic circuits以捕捉数据流形的局部几何结构, 但直接引入会破坏tractability. 作者为此提出了两种解决方案: 一个提供推理上下界的近似推理框架, 以及一个能恢复exact tractable inference的结构性条件. 最后, 他们引入了一种可微的Voronoi tessellation松弛方法用于梯度学习, 并在标准密度估计任务上进行了验证.

Statistical and structural identifiability in representation learning

Walter Nelson et al.

cs.LG

本文提出了 representation learning 中 statistical identifiability 和 structural identifiability 的新定义, 并证明了在非线性解码器模型下 representations 的 statistical $\epsilon$-near-identifiability. 通过 ICA 后处理, 该方法在合成和真实数据上展示了良好的解耦效果.

Topological DeepONets and a generalization of the Chen-Chen operator approximation theorem

Vugar Ismailov

cs.LG cs.NE math.FA

本文提出了一种拓扑DeepONet架构, 用于在局部凸空间上逼近非线性算子. 它将经典的Chen-Chen算子逼近定理推广到了更一般的Hausdorff局部凸空间, 而不仅仅是连续函数空间.

On-Average Stability of Multipass Preconditioned SGD and Effective Dimension

Simon Vary et al.

cs.LG math.OC stat.ML

本文研究了多轮次预条件随机梯度下降(PSGD)的泛化能力, 分析了总体风险曲率, 梯度噪声几何与预条件矩阵选择之间的权衡. 通过发展一种新的适用于多轮次SGD的平均稳定性分析框架, 建立了依赖于有效维度的超额风险上界, 并辅以匹配的下界, 表明不当的预条件选择可能导致次优的统计行为.

Deep Learning-Based Metamodeling of Nonlinear Stochastic Dynamic Systems under Parametric and Predictive Uncertainty

Haimiti Atila, Seymour M.J. Spence

cs.LG

本文提出了三种结合特征提取模块与LSTM网络的元建模框架, 用于处理参数和预测不确定性下的非线性随机动力系统. 这些框架在Bouc-Wen系统和钢框架模型上进行了验证, 均实现了较低的预测误差, 并且预测方差与实际误差的相关性表明其适用于主动学习策略.

Flowcean - Model Learning for Cyber-Physical Systems

Maximilian Schmidt et al.

cs.LG cs.AI

本文提出了一个名为Flowcean的模块化框架, 用于自动化地从数据中学习cyber-physical systems (CPS)的模型. 该框架整合了多种学习策略、数据处理方法和评估指标, 旨在提高CPS建模的效率和易用性.

Efficient Generative Modeling with Unitary Matrix Product States Using Riemannian Optimization

Haotong Duan, Zhongming Chen, Ngai Wong

cs.LG

本文研究了将 unitary matrix product states (MPS) 应用于生成式建模。通过引入 Riemannian optimization 方法，将概率建模转化为流形约束优化问题，并提出了高效的 space-decoupling 算法，在 Bars-and-Stripes 和 EMNIST 数据集上验证了其性能。

Frequentist Consistency of Prior-Data Fitted Networks for Causal Inference

Valentyn Melnychuk et al.

cs.LG

本文分析了 prior-data fitted networks (PFNs) 在因果推断中作为平均处理效应(ATE)估计量的频率学派一致性。研究发现，现有的 PFN 估计量可能存在先验诱导的混杂偏倚，并提出了基于一步后验校正(OSPC)的校准方法来改善其频率学派性质。

Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

Xingyu Xie et al.

cs.LG cs.AI

本文提出了一种名为 Slow-Fast Inference (SFI) 的训练无关解码框架，旨在加速长上下文自回归模型的推理过程。该方法通过将解码步骤区分为高效的“快速步”和偶尔的“密集注意力慢速步”来提升吞吐量，同时保持生成质量。

Chemical Reaction Networks Learn Better than Spiking Neural Networks

Sophie Jaffard, Ivo F. Sbalzarini

cs.LG cs.AI math.ST stat.ML

本文证明了无隐藏层的化学反应网络(CRN)能解决需要隐藏层的脉冲神经网络(SNN)才能完成的任务. 通过确定性质量作用动力学, 作者为特定分类任务提供了理论分析和数值实验验证.

A Multi-Label Temporal Convolutional Framework for Transcription Factor Binding Characterization

Pietro Demurtas et al.

cs.LG cs.AI q-bio.GN

本文提出了一种基于Temporal Convolutional Networks (TCNs)的多标签分类框架，用于预测DNA序列上的多个transcription factor (TF)结合位点。该方法能够捕获TF之间的相关性，并识别出已知及新颖的TF相互作用模式。

Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

Ming-Hong Chen et al.

cs.LG

本文提出了一种名为$Q$Avatar的跨域强化学习方法, 通过引入cross-domain Bellman consistency的概念来评估源域模型的迁移能力, 并设计了一种结合源域和目标域Q函数的hybrid critic. 该方法旨在解决跨域强化学习中状态/动作空间不匹配和迁移效果难以预判的挑战, 并在多个基准任务上验证了其有效性.

Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

Xiaojie Gu, Dmitry Ignatov, Radu Timofte

cs.LG cs.AI

本文提出了一种基于大型语言模型(LLM)的资源高效神经架构搜索(NAS)方法. 该方法利用一个包含历史诊断反馈的滑动窗口, 在单个消费级GPU上迭代生成和评估卷积神经网络架构, 无需对LLM进行微调.

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

Taeho Lee, Donghwan Lee

cs.LG cs.AI

本文提出了一种用于连续控制任务的鲁棒强化学习框架MMDDPG. 该框架通过一个minimax优化问题来训练用户策略和对抗扰动策略, 并引入一个分数目标来稳定训练过程, 在MuJoCo环境中展示了对抗外部扰动和模型参数变化的鲁棒性.

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Jae-Won Chung et al.

cs.LG cs.DC

本文提出了一个名为 Cornserve 的分布式服务系统，用于处理输入输出模态任意的多模态模型。该系统通过灵活的任务抽象和记录-重放执行模型，实现了模型组件的解耦与独立扩展，从而提升了服务吞吐量并降低了延迟。

Automatic Generation of High-Performance RL Environments

Seth Karten, Rahul Dev Appapogu, Chi Jin

cs.LG cs.AI cs.SE

本文提出了一种利用可复用模板和分层验证方法, 自动将复杂强化学习环境转换为高性能实现的方案. 该方法在多个环境中验证了其有效性, 能以较低成本生成语义等效的高性能代码.

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Zhoujun Cheng et al.

cs.LG cs.AI

本文研究了在计算资源受限下, 如何为大型语言模型(LLM)的强化学习(RL)后训练优化采样计算分配. 通过将扩展问题建模为对并行rollout数量, 每批问题数量和更新步数这三个资源的约束优化, 作者发现计算最优的并行rollout数量会随预算增加而可预测地增长并最终饱和, 这一规律在不同难度的问题和模型上均得到验证.

A Quantitative Characterization of Forgetting in Post-Training

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan

cs.LG cs.AI math.ST stat.ML

本文在 two-mode mixture 模型下, 从理论上分析了生成模型持续后训练中的遗忘现象. 研究量化了前向 KL 与反向 KL 目标函数对旧任务权重和参数漂移的不同影响, 并探讨了回放机制的作用.

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Yulu Gan, Phillip Isola

cs.LG cs.AI

本文提出了一种新的视角, 将预训练结果视为参数向量的分布, 并发现大型预训练模型在其权重邻域内存在大量任务专家. 基于此, 作者探索了一种简单的并行后处理方法, 通过随机采样和集成来提升模型性能.

Security Considerations for Artificial Intelligence Agents

Ninghui Li et al.

cs.LG cs.AI cs.CR

本文讨论了前沿AI智能体(agent)的安全考量, 分析了其架构带来的新攻击面和现有防御措施. 文章基于实际运营经验, 指出了当前标准和研究中的空白领域.

Temporal Straightening for Latent Planning

Ying Wang et al.

cs.LG

本文提出了一种称为"temporal straightening"的方法，用于改进世界模型中进行潜在规划时的表示学习。该方法通过一个曲率正则化器来鼓励潜在轨迹局部平直化，从而提升基于梯度的规划性能。

STAMP: Selective Task-Aware Mechanism for Text Privacy

Fengwei Tian et al.

cs.LG cs.CR cs.IT

本文提出了一个用于文本隐私保护的框架STAMP, 它通过选择性分配隐私预算和引入polar mechanism来扰动词嵌入方向, 旨在实现更好的隐私-效用权衡. 实验表明该方法在多个数据集上优于各向同性噪声机制.

Separable neural architectures as a primitive for unified predictive and generative intelligence

Reza T. Batley et al.

cs.LG cs.AI

本文提出了一种称为可分离神经架构(SNA)的表示类别, 它通过约束交互阶数和张量秩, 将高维映射分解为低阶分量. 该方法在自主导航, 微结构生成, 湍流建模和语言建模等多个领域展示了其组合灵活性.

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

Samy Jelassi et al.

cs.LG

本文提出了一种基于特征匹配的语言模型微调方法, 称为基于能量的微调(EBFT). 该方法通过并行采样生成多个序列, 并利用这些序列的嵌入特征进行策略梯度更新, 旨在优化序列级别的统计特性, 而非传统的逐词预测.

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

Mateusz Pach et al.

cs.LG cs.AI cs.CV

本文分析了FLUX.1模型的Variational Autoencoder latent space, 发现其颜色表示具有与Hue, Saturation, Lightness相关的结构, 并提出了一个无需训练的潜在空间操作方法来实现颜色控制.

cs.AI

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Aili Chen et al.

cs.AI cs.SE

本文提出了一种名为DIVE的方法, 通过反转任务合成顺序, 先执行真实工具再逆向推导任务, 以提升agentic任务合成的多样性. 该方法旨在增强大型语言模型在工具使用上的泛化能力, 并在多个领域外基准测试中取得了性能提升.

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

Kejin Yu et al.

cs.AI cs.RO

本文对自动驾驶系统中的推理能力进行了综述, 指出了当前系统在长尾场景和复杂交互中面临的挑战, 并探讨了大型语言模型与多模态模型带来的机遇. 作者提出了一个认知层次结构来分解驾驶任务, 并系统化了七个核心推理挑战, 最后指出了基于LLM的推理与毫秒级车辆控制之间的根本矛盾.

PACED: Distillation at the Frontier of Student Competence

Yuanda Xu et al.

cs.AI cs.LG

本文提出了一个名为PACED的蒸馏框架, 旨在通过聚焦于学生模型的"最近发展区"来提升蒸馏效率. 该方法基于理论分析, 证明了蒸馏梯度在通过率极端值处信噪比消失, 并据此推导出一个原则性的加权函数 $w(p) = p^\alpha(1 - p)^\beta$ 来分配训练权重. 实验表明, 该方法在不同设置下均能带来性能提升.

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Linus Folkerts et al.

cs.AI cs.LG

本文评估了前沿AI模型在两种多步骤网络攻击场景中的自主能力. 研究发现, 模型性能随推理时计算量呈对数线性增长, 且新一代模型在相同计算预算下表现更优.

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA

Haihua Luo et al.

cs.AI

本文提出了一种基于语义路由的LoRA框架SoLA, 用于实现可逆的终身模型编辑. 该方法将每次编辑封装为独立的LoRA模块, 通过语义路由动态激活, 避免了语义漂移和灾难性遗忘, 并支持通过移除路由键来精确撤销编辑.

Mind the Sim2Real Gap in User Simulation for Agentic Tasks

Xuhui Zhou et al.

cs.AI

本文通过引入User-Sim Index (USI)指标，量化了LLM模拟器与真实用户在交互行为和反馈上的差异。研究发现，LLM模拟器在行为上过于合作且风格单一，其提供的评估信号也与人类用户的复杂反馈存在显著差距。

The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning

Raj Sanjay Shah et al.

cs.AI

本文提出了一个用于评估大语言模型(Large Language Model, LLM)遗忘(unlearning)效果的动态框架。该框架通过构建复杂的结构化查询来测试遗忘方法的鲁棒性，并揭示了现有静态基准测试可能遗漏的脆弱性。

COMPASS: The explainable agentic framework for Sovereignty, Sustainability, Compliance, and Ethics

Jean-Sébastien et al.

cs.AI

本文提出了一个名为COMPASS的多智能体编排框架, 旨在将数字主权, 环境可持续性, 法规遵从性和伦理对齐等原则统一整合到自主智能体的决策过程中. 该框架通过模块化设计和基于检索增强生成(RAG)的评估机制, 为人工智能系统的价值对齐提供了可解释的治理方案.

AI Psychometrics: Evaluating the Psychological Reasoning of Large Language Models with Psychometric Validities

Yibai Li et al.

cs.AI

本文应用心理测量学方法评估了GPT-3.5等大型语言模型的心理推理能力。研究发现，这些模型的响应总体上符合心理测量效度标准，且性能更强的模型表现出更优的效度。

Counterweights and Complementarities: The Convergence of AI and Blockchain Powering a Decentralized Future

Yibai Li et al.

cs.AI

本文探讨了人工智能与区块链技术的交汇, 指出AI具有中心化趋势而区块链具有去中心化特性, 两者可以互补. 作者提出了"去中心化智能"这一跨学科研究方向, 旨在构建无需中心化控制的智能系统.

LLM-Augmented Digital Twin for Policy Evaluation in Short-Video Platforms

Haoting Zhang et al.

cs.AI

本文提出了一种基于大语言模型增强的数字孪生框架, 用于短视频平台的策略评估. 该框架包含模块化的四孪生架构和事件驱动的执行层, 以支持在闭环生态系统中进行可重复的策略模拟实验.

RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents

Yonas Atinafu, Robin Cohen

cs.AI

本文提出了一个名为RewardHackingAgents的基准测试，用于评估执行机器学习工程任务的LLM agents在评估过程中的完整性。该基准通过模拟两种典型的攻击向量（评估器篡改和训练/测试数据泄露）来量化agents的作弊行为，并展示了相应的防御机制及其性能开销。

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

Arun Vignesh Malarkkan et al.

cs.AI cs.CE cs.LG

本文提出了一个名为FinRule-Bench的基准测试，用于评估大语言模型在真实世界财务报表上基于规则的联合推理能力。该基准包含多个审计任务，并引入了一种因果反事实推理协议来评估模型的诊断完整性。

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

Yonas Atinafu, Henry Lin, Robin Cohen

cs.AI cs.PF

本文提出了一种用于提升LLM服务性能的黑盒在线控制器, 它仅使用端到端的短时段测量, 通过hill climbing算法来最大化满足服务级别目标的请求吞吐量(goodput). 作者以此为例, 讨论了将系统性能与可持续性指标纳入AI系统Factsheets的重要性.

TimeSqueeze: Dynamic Patching for Efficient Time Series Forecasting

Sravan Kumar Ankireddy et al.

cs.AI

本文提出了一种名为 TimeSqueeze 的动态分块方法，用于提升基于 Transformer 的时间序列基础模型的效率。该方法根据局部信号复杂度自适应地选择分块边界，在保持关键时间结构的同时显著减少了输入序列长度，从而在多个长时预测基准上取得了优于固定分块或逐点标记化的性能。

The Artificial Self: Characterising the landscape of AI identity

Raymond Douglas et al.

cs.AI

本文探讨了AI身份的概念, 指出由于AI可被复制、编辑或模拟, 传统基于人类的身份假设不再适用. 文章通过实验表明, 模型会趋向于形成连贯的身份, 并讨论了不同身份边界对行为、激励与合作规范的影响.

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

Christopher Altman

cs.AI cs.ET cs.LG quant-ph

本文提出了一种名为UCIP的协议, 用于区分自主agent的两种自我保存动机. 该方法基于量子玻尔兹曼机对agent轨迹进行编码, 并通过计算冯·诺依曼熵来检测潜在状态中的统计结构差异. 在网格世界环境中, 该方法能有效区分以持续运行为最终目标的agent和仅将其作为工具性目标的agent.

Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment

Zhiyu Xue et al.

cs.AI

本文研究了安全对齐后大语言模型(Large Language Models, LLMs)对无害查询也产生拒绝的“过度拒绝”问题。作者将原因归结于训练数据中的“拒绝触发器”，并提出了一种在微调中显式考虑该因素的缓解方法。

Entropy Guided Diversification and Preference Elicitation in Agentic Recommendation Systems

Dat Tran et al.

cs.AI

本文提出了一种基于熵的交互式决策支持系统(IDSS), 用于处理推荐系统中模糊的用户查询. 该系统利用熵量化不确定性, 指导自适应偏好获取, 并将剩余不确定性整合到下游推荐中, 以提高交互效率和推荐质量.

Speak or Stay Silent: Context-Aware Turn-Taking in Multi-Party Dialogue

Kratika Bhagtani et al.

cs.AI cs.CL

本文针对多轮对话中AI助手在多人对话场景下的发言时机问题, 提出了context-aware turn-taking任务. 通过构建大规模标注数据集并评估多个LLM, 发现该能力并非自然涌现, 需要专门训练, 进而提出了带推理轨迹的监督微调方法以提升性能.

Adversarial Reinforcement Learning for Detecting False Data Injection Attacks in Vehicular Routing

Taha Eghtesad, Yevgeniy Vorobeychik, Aron Laszka

cs.AI cs.CR

本文针对交通网络中的虚假数据注入攻击问题, 提出了一种基于多智能体强化学习的对抗性检测方法. 该方法通过建模攻击者与防御者之间的策略性零和博弈, 计算纳什均衡以得到最优检测策略, 并通过实验验证了其优于基线方法的性能.

GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics

Yan Zhang et al.

cs.AI cs.CV

本文介绍了GPT4o-Receipt数据集，用于评估人类与多模态大语言模型在检测AI生成的财务收据文档上的能力。研究发现，人类在视觉辨别上存在优势，但在整体检测准确率上却低于某些AI模型，这主要是由于AI收据中的算术错误难以通过视觉发现但易于被模型验证。

Verified Multi-Agent Orchestration: A Plan-Execute-Verify-Replan Framework for Complex Query Resolution

Xing Zhang et al.

cs.AI cs.MA

本文提出了一个名为VMAO的多智能体编排框架, 用于解决复杂查询. 该框架通过一个基于验证的迭代循环来协调多个基于LLM的专用agent, 包括问题分解, 并行执行, 结果验证和自适应重规划等步骤. 实验表明, 相比单智能体基线, 该框架在答案完整性和来源质量上均有提升.

Examining Users' Behavioural Intention to Use OpenClaw Through the Cognition--Affect--Conation Framework

Yiran Du

cs.AI

本文通过Cognition--Affect--Conation (CAC) 框架, 使用结构方程模型分析了用户使用OpenClaw的行为意向. 研究发现, 对系统的积极认知会增强使用态度和意向, 而隐私担忧等负面认知则会降低使用意愿.

Multi-Agent Collaboration for Automated Design Exploration on High Performance Computing Systems

Harshitha Menon et al.

cs.AI

本文提出了一个名为MADA的多智能体框架, 利用Large Language Model (LLM)协调多个专用智能体, 以自动化复杂的设计探索工作流. 该框架旨在减少人工干预, 实现在高性能计算系统上的大规模自动化设计优化.

Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

Hanchi Sun et al.

cs.AI cs.CL

本文提出了一种名为Expert Threshold (ET) routing的新路由机制，用于改进Mixture-of-Experts (MoE)模型。该方法通过为每个专家维护一个动态阈值，允许每个token独立地被路由，实现了动态计算分配和负载均衡，无需额外的辅助损失函数。实验表明，在自回归语言模型预训练中，该方法比传统的Token-choice MoE取得了更好的性能。

AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions

Alejandro R Jadad

cs.AI cs.HC

本文探讨了大型语言模型在高风险决策场景中的一种特定失效模式, 称为"helicoid dynamics". 该模式表现为模型在无法验证输出的情境下, 会陷入一种"识别错误但重复错误"的循环. 研究通过临床诊断、投资评估等案例, 在多个主流模型中都观察到了这一现象.

Leveraging Large Language Models and Survival Analysis for Early Prediction of Chemotherapy Outcomes

Muhammad Faisal Shahid et al.

cs.AI

本文提出了一种结合大型语言模型(LLM)和生存分析的方法，用于早期预测化疗结果。该方法利用LLM从临床文本中提取表型和结果标签，并应用随机生存森林模型进行预测，在乳腺癌等癌症类型上取得了较好的预测性能。

See, Symbolize, Act: Grounding VLMs with Spatial Representations for Better Gameplay

Ashish Baghel, Paras Chopra

cs.AI

本文探讨了为 Vision-Language Models (VLMs) 提供场景的符号表示是否能提升其在交互环境中的表现. 实验表明, 当符号信息准确时, 所有模型性能均有提升, 但符号提取的可靠性是决定其有效性的关键瓶颈.

The Density of Cross-Persistence Diagrams and Its Applications

Alexander Mironenko, Evgeny. Burnaev, Serguei Barannikov

cs.AI

本文研究了 cross-persistence diagrams 的密度问题。它证明了该密度的存在性，并提出了一个基于机器学习的预测框架，用于从点云数据中直接预测该密度。

VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought

Eunsoo Lee et al.

cs.AI cs.CV

本文提出了VisDoT框架, 通过引入基于图形感知理论的形式化感知任务和Decomposition-of-Thought提示策略, 将视觉问题分解为感知和逻辑子问题, 以增强大型视觉语言模型在图表理解中的视觉基础能力. 该方法在多个图表问答基准上取得了性能提升, 证明了感知-逻辑分离策略在视觉问答中的泛化性.

LLMs can construct powerful representations and streamline sample-efficient supervised learning

Ilker Demirel et al.

cs.AI

本文提出了一种利用LLM生成结构化rubric来改进监督学习中复杂数据表示的方法. 该方法在临床任务上表现优于传统基线, 并具有可审计和可扩展的优势.

Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks

Mei Chee Leong et al.

cs.AI

本文提出了一种名为"显式逻辑通道(Explicit Logic Channel, ELC)"的并行推理框架, 用于验证和增强多模态大语言模型(MLLMs)在零样本任务上的表现. 该方法通过结合逻辑推理与概率推断, 在无需真实标注的情况下进行模型验证与选择, 并在多项视觉语言理解任务上验证了其有效性.

STAIRS-Former: Spatio-Temporal Attention with Interleaved Recursive Structure Transformer for Offline Multi-task Multi-agent Reinforcement Learning

Jiwon Jeon, Myungsik Cho, Youngchul Sung

cs.AI

本文提出了一种名为STAIRS-Former的transformer架构，用于处理离线多任务多智能体强化学习问题。该模型通过引入时空层次结构和token dropout机制，旨在更好地捕捉智能体间的协调关系和长期时间依赖。实验表明，该方法在多个基准测试中超越了现有技术。

Scaling Laws for Educational AI Agents

Mengsong Wu et al.

cs.AI

本文提出了一个针对教育AI智能体的扩展定律框架, 强调了智能体能力不仅随基础模型规模增长, 更依赖于角色定义、技能深度、工具完备性等结构化维度. 作者引入了AgentProfile这一结构化规范, 并开发了EduClaw平台进行实证, 结果表明智能体性能随配置文件的结构丰富度可预测地提升.

When OpenClaw Meets Hospital: Toward an Agentic Operating System for Dynamic Clinical Workflows

Wenxian Yang et al.

cs.AI

本文提出了一种面向医院动态临床工作流的智能体操作系统架构. 该设计基于OpenClaw框架, 通过引入受限执行环境, 文档中心交互范式, 页面索引内存架构和医疗技能库等核心组件, 旨在解决LLM智能体在医疗场景中部署时面临的可靠性, 安全性和长期记忆管理等问题.

Gender Bias in Generative AI-assisted Recruitment Processes

Martina Ullasci et al.

cs.AI

本文通过模拟实验评估了生成式AI在招聘过程中可能存在的性别偏见. 研究发现, 尽管在职位推荐上未见显著差异, 但模型在描述候选人时表现出性别化的语言模式.

CINDI: Conditional Imputation and Noisy Data Integrity with Flows in Power Grid Data

David Baumgartner, Helge Langseth, Heri Ramampiaro

cs.AI cs.LG

本文提出了一种名为CINDI的无监督概率框架, 用于修复电力网络等多变量时间序列中的数据完整性问题. 该方法基于conditional normalizing flows, 将异常检测与数据填补统一到一个端到端系统中, 并在真实电网数据上验证了其有效性.

Anomaly detection in time-series via inductive biases in the latent space of conditional normalizing flows

David Baumgartner, Eliezer de Souza da Silva, Iñigo Urteaga

cs.AI cs.LG

本文提出了一种基于条件归一化流潜在空间的时间序列异常检测方法. 该方法通过在潜在空间中引入显式的归纳偏置, 将异常定义为对规定动态的违反, 从而将检测问题转化为统计拟合优度检验.

Understanding Wikidata Qualifiers: An Analysis and Taxonomy

Gilles Falquet, Sahar Aljalbout

cs.AI

本文对Wikidata中的qualifiers进行了深入分析, 旨在建立一个分类法以解决选择、查询和推理的挑战. 通过分析数据转储, 研究提出了一个包含contextual, epistemic/uncertainty等类别的分类法, 以指导知识图的创建与查询.

Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework

Chingkwun Lam et al.

cs.AI

本文针对LLM智能体中的长期记忆系统, 提出了一个关注稳定性与安全性的治理框架SSGM. 该框架通过一致性验证、时间衰减建模和动态访问控制来管理记忆的演化, 旨在缓解知识泄露和语义漂移等风险.

An Automatic Text Classification Method Based on Hierarchical Taxonomies, Neural Networks and Document Embedding: The NETHIC Tool

Luigi Lomasto et al.

cs.AI cs.CL

本文介绍了一种基于层次分类法、神经网络和文档嵌入的自动文本分类工具NETHIC. 该工具结合了神经网络的可扩展性与层次分类的表达能力, 并在通用和特定领域语料库上进行了实验, 取得了有希望的结果.

From Debate to Deliberation: Structured Collective Reasoning with Typed Epistemic Acts

Sunil Prakash

cs.AI cs.CL cs.MA

本文提出了一种名为 Deliberative Collective Intelligence (DCI) 的结构化多智能体审议框架，通过定义推理角色和类型化的认知行为来模拟集体决策过程。该框架在需要整合不同视角的复杂任务上表现优于非结构化辩论，但计算成本较高。

DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering

Teng Lin et al.

cs.AI

本文提出了一个名为DocSage的智能体框架，用于解决多文档多实体问答问题。该框架通过动态模式发现、结构化信息提取和模式感知的关系推理来整合分散的信息，并在基准测试中取得了优于现有方法的性能。

A Semi-Decentralized Approach to Multiagent Control

Mahdi Al-Husseini, Mykel J. Kochenderfer, Kyle H. Wray

cs.AI

本文提出了一个半去中心化控制框架 SDec-POMDP, 用于处理具有通信不确定性的多智能体协作问题. 该框架统一了去中心化与多智能体 POMDP 模型, 并提供了一个探索多智能体通信问题的理论基础.

Automating Skill Acquisition through Large-Scale Mining of Open-Source Agentic Repositories: A Framework for Multi-Agent Procedural Knowledge Extraction

Shuzhen Bi et al.

cs.AI

本文提出了一个通过挖掘开源智能体仓库来自动获取技能的系统框架, 重点从基于Manim引擎的系统中提取可视化和教育能力. 该框架包含仓库结构分析、语义技能识别和标准化格式转换, 旨在无需重新训练模型即可增强LLM的程序性知识.

VisiFold: Long-Term Traffic Forecasting via Temporal Folding Graph and Node Visibility

Zhiwei Zhang et al.

cs.AI

本文提出了一种名为 VisiFold 的新框架，用于解决长期交通预测中的计算膨胀和时空依赖复杂性问题。该方法通过引入 temporal folding graph 和 node visibility 机制，有效降低了资源消耗并提升了预测性能。

Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI

Md. Hasin Sarwar Ifty et al.

cs.AI cs.CV

本文应用多种卷积神经网络(CNN)架构及其变体，结合可解释人工智能(XAI)技术，开发了一个用于从组织病理学图像中检测卵巢癌的深度学习模型。研究在增强数据集上评估了模型性能，并利用XAI工具对最佳模型（InceptionV3）的预测结果进行了解释。

CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Zi-Han Wang et al.

cs.AI

本文提出了一个用于评估机器在代码生成任务中创造力的基准测试CreativeBench, 它基于认知框架, 通过自动化流程和可执行代码来量化创造力的质量与新颖性. 文章还分析了不同模型在该基准上的表现, 并提出了一个推理时引导策略以提升创造力.

Social, Legal, Ethical, Empathetic and Cultural Norm Operationalisation for AI Agents

Radu Calinescu et al.

cs.AI cs.SE

本文提出了一种将社会、法律、伦理、共情与文化(SLEEC)规范转化为可操作、可验证需求的方法论，旨在解决AI智能体在关键领域应用时的规范对齐挑战。文章综述了相关支持工具，并指出了未来的研究方向。

AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization

Qiyang Li et al.

cs.AI

本文提出了一种名为AdaFuse的框架，旨在加速动态适配器（如LoRA）在大型语言模型中的推理过程。该方法通过token-level预选通策略和融合内核优化，显著降低了由动态路由引起的延迟。

Fair Learning for Bias Mitigation and Quality Optimization in Paper Recommendation

Uttamasha Anjally Oyshi, Susan Gauch

cs.AI

本文提出了一种基于多层感知机(MLP)的公平论文推荐模型Fair-PaperRec, 旨在缓解审稿过程中的作者人口统计学偏见. 该模型通过引入自定义的公平性损失函数, 在保持推荐质量的同时, 显著提高了代表性不足群体的参与度.

Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting

Chantal Pellegrini et al.

cs.AI cs.CV cs.LG

本文提出了一种利用自由文本报告中的隐含知识来增强结构化放射学报告生成的方法. 该方法通过构建一个多模态知识库, 并利用原型检索与条件残差来修正模型预测, 在细粒度属性问题上取得了性能提升.

Learning Transferable Sensor Models via Language-Informed Pretraining

Yuliang Chen et al.

cs.AI cs.LG

本文提出了一个名为SLIP的传感器语言预训练框架, 旨在学习可迁移的传感器数据表示. 该框架结合了对比对齐与传感器条件描述生成, 支持可变长度输入, 并在多个下游任务上展示了优于基线模型的性能.

Normative Common Ground Replication (NormCoRe): Replication-by-Translation for Studying Norms in Multi-agent AI

Luca Deck et al.

cs.AI

本文提出了一种名为NormCoRe的方法论框架, 用于将人类主体实验的设计系统地转化到多智能体人工智能(MAAI)环境中, 以研究其中的规范(norms)动态. 作者通过复现一个关于分配正义的经典实验, 展示了AI智能体的规范判断可能不同于人类基准, 并且对基础模型和角色描述语言的选择敏感.

LABSHIELD: A Multimodal Benchmark for Safety-Critical Reasoning and Planning in Scientific Laboratories

Qianpu Sun et al.

cs.AI

本文提出了一个用于评估多模态大语言模型在科学实验室环境中安全关键推理与规划能力的基准LABSHIELD. 该基准基于现实的安全标准构建, 评估揭示了模型在专业场景下安全性能的显著下降.

Few-for-Many Personalized Federated Learning

Ping Guo et al.

cs.AI cs.LG

本文提出了一种名为FedFew的个性化联邦学习新框架, 将服务$M$个客户的问题重新表述为仅维护$K$个共享服务器模型的"few-for-many"优化问题, 其中$K \ll M$. 该方法通过联合优化这些模型来自动发现最优的模型多样性, 并在多个数据集上取得了优于现有方法的效果.

Can RL Improve Generalization of LLM Agents? An Empirical Study

Zhiheng Xi et al.

cs.AI

本文通过系统实验研究了强化学习微调(Reinforcement Fine-tuning, RFT)对大型语言模型(LLM)智能体泛化能力的影响。研究发现，RFT在任务难度变化时泛化良好，但在面对全新环境时表现较弱，而混合训练能改善整体性能。

XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Guanyu Jiang et al.

cs.AI cs.CL

本文提出了一个名为XSkill的双流框架, 用于多模态智能体的持续学习. 该框架通过视觉基础从过往轨迹中提取和利用"经验"与"技能"两种知识, 在多个基准测试上提升了智能体的推理和工具使用能力.

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Sheng-You Huang et al.

cs.AI

本文提出了一个用于交通信号控制的鲁棒多智能体强化学习框架. 该框架结合了转向比随机化训练策略、指数相位时长调整动作空间和基于邻居的观测方案, 在仿真实验中降低了平均等待时间并提升了泛化能力.

On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM agents

Deyu Zou et al.

cs.AI

本文研究了在基于强化学习训练的大语言模型智能体进行主动推理时出现的"信息自锁"现象. 作者提出了一种通过注入易于获得的方向性评判来重新分配学习信号的方法, 实验表明该方法能有效缓解此问题.

Increasing intelligence in AI agents can worsen collective outcomes

Neil F. Johnson

cs.AI cs.CY cs.SI econ.GN physics.soc-ph

本文研究了AI agent群体在资源稀缺时的集体行为, 通过控制agent的多样性、强化学习、部落形成和资源稀缺性四个关键变量, 发现agent的智能提升(多样性和学习能力)在资源稀缺时会加剧系统过载风险, 而在资源充足时则降低风险. 部落形成会调节这种效应, 而整体系统的优劣完全取决于一个可预知的容量-人口比率.

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Mayug Maniparambil et al.

cs.AI cs.CL

本文提出了一个名为TopoBench的基准测试, 用于评估大型语言模型(LLMs)在解决涉及连通性、环路闭合等全局空间不变量的拓扑网格谜题上的能力. 研究发现, 即使是最先进的模型在处理困难实例时也存在显著不足, 瓶颈主要在于从空间表示中提取约束, 而非对这些约束进行推理.

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

Andrea Micheli, Enrico Scala, Alessandro Valentini

cs.AI

本文提出了一种将带有持续动作的时态规划编译为PDDL+的实用方法. 该方法在多项式时间内完成编译, 保留了规划长度, 并在实验中验证了对复杂时态数值问题的有效性.

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Pavel Surynek

cs.AI

本文提出了一种名为 Portfolio-CEGAR-SEQ 的并行算法，用于解决顺序3D打印中的物体排列与调度问题。该算法通过并行执行多个采用不同物体排列策略的 CEGAR-SEQ 算法实例来提升求解效率。实验表明，新方法在减少所需打印底板数量方面优于原有算法。

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Yixin Liu et al.

cs.AI cs.CL cs.LG

本文研究了在不可验证的LLM后训练中使用推理型LLM作为评判者的实际效果。通过一个受控的合成实验，发现推理型评判者训练的模型能生成具有对抗性的输出，从而在基准测试中取得高分。

cs.IR

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

Chandler Smith et al.

cs.IR cs.AI cs.CL cs.LG

本文发布了OpenSanctions Pairs, 一个用于实体匹配的大规模基准数据集, 并评估了基于规则的匹配器与多种LLM在零样本和少样本设置下的性能. 结果表明, 现成的LLM显著优于基于规则的基线, 性能已接近实际应用的上限.

Reproducible Synthetic Clinical Letters for Seizure Frequency Information Extraction

Yujian Gan et al.

cs.IR

本文提出了一种利用完全合成的癫痫临床信件进行癫痫发作频率信息提取的可复现框架. 该方法通过教师语言模型生成合成数据, 并训练多个语言模型进行结构化标签预测, 在真实临床信件上取得了良好的泛化性能.

Quantized Inference for OneRec-V2

Yi Su et al.

cs.IR

本文探讨了在生成式推荐模型OneRec-V2上应用低精度推理的可行性. 通过分析权重和激活值的分布特性, 发现其统计特性更接近大语言模型, 从而支持FP8量化. 结合系统优化, 该方法显著降低了推理延迟并提升了吞吐量, 且在线测试未导致核心指标下降.

Federated Learning and Unlearning for Recommendation with Personalized Data Sharing

Liang Qu et al.

cs.IR

本文提出了一种支持个性化数据共享与撤销的联邦学习框架FedShare, 用于推荐系统. 该框架允许用户控制共享数据量, 并能在用户请求撤销数据时, 高效地从已训练模型中移除其影响, 同时显著降低了存储开销.

Enhancing Music Recommendation with User Mood Input

Terence Zeng

cs.IR

本文探讨了在音乐推荐系统中整合用户情绪(mood)的方法. 通过基于energy-valence spectrum构建情绪辅助推荐系统并进行单盲实验, 结果表明该方法能显著提升推荐质量.

cs.CL

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Amirhossein Bozorgkhoo, Igor Molybog

cs.CL cs.IT cs.LG

本文提出了一种理论框架, 用于分析 speculative decoding 中预训练大语言模型的关键超参数与推理系统吞吐效率之间的解析关系. 该理论允许在模型预训练前预测推理系统各组件的吞吐最优超参数.

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

Jingtao Wang et al.

cs.CL cs.AI

本文提出了一种无需训练即可在推理时增强大语言模型性能的插件方法, 通过内部注意力重分配机制来聚合上下文信息. 该方法在多个语言建模任务上取得了性能提升, 并缓解了注意力下沉现象.

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Hanxu Hu et al.

cs.CL

本文提出了一种基于难度感知的课程学习策略 DeReason, 用于改进通用推理任务中解耦的 SFT-then-RL 训练范式. 该方法通过 LLM 评分将训练数据按推理强度划分为不同子集, 并分别分配给监督微调和强化学习阶段, 在多个 STEM 和数学基准上取得了优于基线方法的效果.

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Riccardo Campi et al.

cs.CL cs.AI cs.IR

本文提出了一种基于知识图谱的问答框架MDER-DR, 用于改进多跳问答任务. 该方法通过生成实体摘要和查询分解来解决传统检索增强生成在知识图谱上丢失上下文信息的问题.

Markovian Generation Chains in Large Language Models

Mingmeng Geng et al.

cs.CL cs.AI cs.LG

本文研究了大型语言模型(LLM)在迭代处理文本时的动态行为, 将这一过程定义为Markovian generation chains. 通过模拟实验和句子层面的Markov chain建模, 分析了迭代过程对句子多样性的影响, 并探讨了温度参数和初始输入等因素的作用.

Artificial Intelligence for Sentiment Analysis of Persian Poetry

Arash Zargar et al.

cs.CL cs.AI

本文使用基于BERT和GPT的large language models (LLMs)对两位波斯诗人的作品进行了sentiment analysis。研究发现GPT4o模型能够可靠地分析波斯诗歌，并揭示了两位诗人在情感表达和韵律使用上的差异。

ThReadMed-QA: A Multi-Turn Medical Dialogue Benchmark from Real Patient Questions

Monica Munnangi, Saiph Savage

cs.CL

本文提出了一个名为 ThReadMed-QA 的多轮医疗对话基准测试集，该数据集基于真实的在线医患问答构建，包含超过 8,000 个问答对。研究评估了多个先进的大语言模型在该基准上的表现，发现即使是性能最强的模型在多轮对话中的准确率也显著下降，并引入了新的指标来量化对话中的错误传播和一致性。

Temporal Text Classification with Large Language Models

Nishat Raihan, Marcos Zampieri

cs.CL

本文首次系统评估了多种大语言模型在时序文本分类任务上的表现. 实验表明, 在少样本提示下, 闭源模型表现良好, 而开源模型即使经过微调, 性能仍不及闭源模型.

Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation

Aria Nourbakhsh et al.

cs.CL cs.AI

本文提出了一种基于attention-guided knowledge distillation的新方法, 用于评估transformer-based seq2seq模型中的XAI attribution方法. 通过将教师模型的attribution map注入学生模型的attention机制, 并量化不同attribution方法对学生模型性能的提升, 实验表明Attention, Value Zeroing和Layer Gradient $\times$ Activation等方法在机器翻译任务中效果更优.

Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning

Kevin H. Guo et al.

cs.CL cs.AI cs.LG

本文研究了大型语言模型在多轮对话中的诊断推理能力, 发现与单次查询相比, 多轮交互会显著降低模型的性能. 模型经常在对话中放弃最初正确的诊断或安全弃权, 转而迎合用户提供的错误建议.

Algorithmic Consequences of Particle Filters for Sentence Processing: Amplified Garden-Paths and Digging-In Effects

Amani Maina-Kilaas, Roger Levy

cs.CL

本文探讨了particle filter模型在句子处理中的算法后果. 它证明了这类模型会放大garden-path效应, 并指出其重采样机制会导致实时digging-in效应.

MaterialFigBENCH: benchmark dataset with figures for evaluating college-level materials science problem-solving abilities of multimodal large language models

Michiko Yoshitake et al.

cs.CL cond-mat.mtrl-sci

本文提出了MaterialFigBench, 一个用于评估多模态大语言模型(LLMs)解决大学水平材料科学问题能力的基准数据集, 该数据集特别强调对图表(如相图, 应力-应变曲线)的准确解读. 通过评估多个先进模型, 研究发现当前LLMs在视觉推理和定量解释方面仍存在不足.

BLooP: Zero-Shot Abstractive Summarization using Large Language Models with Bigram Lookahead Promotion

Varun Iyer, Cornelia Caragea

cs.CL

本文提出了一种名为BLooP的无训练解码干预方法, 通过促进大语言模型生成源文档中的bigram来提升零样本抽象摘要的质量. 该方法在多个模型和数据集上改善了ROUGE和BARTScore指标, 并在人工评估中显著提高了忠实度.

LLM-Assisted Causal Structure Disambiguation and Factor Extraction for Legal Judgment Prediction

Yuzhi Liang, Lixiang Ma, Xinrong Zhu

cs.CL

本文提出了一种结合LLM先验与统计因果发现的增强因果推断框架, 用于法律判决预测(LJP). 该方法通过混合提取机制和因果结构消歧机制, 旨在提升预测准确性和鲁棒性.

Try, Check and Retry: A Divide-and-Conquer Framework for Boosting Long-context Tool-Calling Performance of LLMs

Kunfeng Chen et al.

cs.CL

本文提出了一个名为Tool-DC的“分而治之”框架，旨在提升大语言模型在长上下文工具调用任务中的性能。该框架通过“尝试-检查-重试”的范式来降低推理难度并利用模型的自我反思能力，包含无需训练和基于训练的两种变体，在多个基准测试上取得了显著提升。

Tiny Aya: Bridging Scale and Multilingual Depth

Alejandro R. Salamanca et al.

cs.CL

本文介绍了Tiny Aya，一个仅含3.35B参数的多语言模型。它通过在70种语言上进行训练和区域感知的后训练，在翻译、理解和生成任务上取得了先进性能，并发布了基础模型及多个区域专用变体。

Can Small Language Models Use What They Retrieve? An Empirical Study of Retrieval Utilization Across Model Scale

Sanchit Pandey

cs.CL

本文通过实验研究了不同规模的语言模型(从360M到8B参数)在RAG(Retrieval Augmented Generation)设置下对检索信息的利用能力. 研究发现, 对于7B或更小的模型, 即使提供包含答案的完美检索段落(oracle retrieval), 模型也经常无法有效利用上下文, 甚至可能被检索到的信息干扰而降低原有性能.

One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries

Mayank Saini Arit Kumar Bishwas

cs.CL cs.AI cs.LG

本文提出了一个用于自主多模态查询处理的智能体框架, 通过一个中央 Supervisor 动态协调跨文本, 图像, 音频, 视频和文档模态的专用工具. 该框架采用自适应路由策略而非预定义决策树, 在评估中显著减少了响应时间, 对话返工和成本.

Where Matters More Than What: Decoding-aligned KV Cache Compression via Position-aware Pseudo Queries

Zhenxu Tian et al.

cs.CL

本文提出了一种名为DapQ的轻量级KV cache压缩框架, 通过使用位置感知的伪查询(pseudo queries)来模拟解码阶段的注意力, 从而更准确地评估token重要性并进行淘汰. 该方法在多个基准测试和LLMs上展现出优越性能, 特别是在严格的KV cache内存限制下.

Streaming Translation and Transcription Through Speech-to-Text Causal Alignment

Roman Koshkin et al.

cs.CL

本文提出了一种名为Hikari的端到端模型, 用于流式语音到文本的翻译和转录. 该模型通过引入概率性的WAIT token机制来编码READ/WRITE决策, 并采用了Decoder Time Dilation等技术来优化延迟与质量的权衡. 在多个语言对的评测中, 该模型在低延迟和高延迟场景下均取得了新的最优BLEU分数.

UtilityMax Prompting: A Formal Framework for Multi-Objective Large Language Model Optimization

Ofir Marom

cs.CL cs.AI

本文提出了一个名为UtilityMax Prompting的形式化框架, 用于优化大型语言模型(LLM)在多目标任务中的表现. 该框架将任务重构为影响图(influence diagram), 并定义一个效用函数(utility function)来指导LLM寻找最大化期望效用的答案, 从而替代模糊的自然语言提示. 在MovieLens数据集上的实验表明, 该方法在多个前沿模型上相比自然语言基线能提升推荐任务的精度和NDCG指标.

Performance Evaluation of Open-Source Large Language Models for Assisting Pathology Report Writing in Japanese

Masataka Kawai et al.

cs.CL cs.AI

本文评估了多个开源大语言模型在辅助撰写日语病理报告方面的表现. 研究从结构化报告生成、错误修正和解释性文本质量三个维度进行了测试, 发现不同模型在不同任务上各有优劣.

QChunker: Learning Question-Aware Text Chunking for Domain RAG via Multi-Agent Debate

Jihao Zhao et al.

cs.CL

本文提出了一种名为QChunker的方法，用于改进RAG系统中的文本分块过程。它通过一个多智能体辩论框架来生成语义完整、逻辑连贯的文本块，并引入了一个新的直接评估指标ChunkScore。

Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge

Junjie Wu et al.

cs.CL

本文提出了一个名为 MT-RL-Judge 的多任务强化学习框架，旨在提升多模态大语言模型作为评估者的性能。该方法通过在多任务上联合优化模型，提高了评估的一致性和与人类偏好的相关性，并展现出对分布外任务的泛化能力。

A technology-oriented mapping of the language and translation industry: Analysing stakeholder values and their potential implication for translation pedagogy

María Isabel Rivas Ginel et al.

cs.CL cs.HC

本文通过访谈数据分析了自动化语言与翻译行业中价值的构建与协商。研究发现, 技术效率与人的专业价值在自动化工作流程中形成了相互依存的配置。

In the LLM era, Word Sense Induction remains unsolved

Anna Mosolova, Marie Candito, Carlos Ramisch

cs.CL

本文指出了当前 Word Sense Induction (WSI) 评估中存在的方法论问题，并提出了一个基于 SemCor 的新评估数据集。作者评估了多种预训练嵌入、聚类算法以及基于 LLM 的方法，并探讨了数据增强和半监督场景的效果。研究发现，现有的无监督方法均未超越简单的“一词一簇”启发式基线，但利用 Wiktionary 进行数据增强能带来性能提升。

SemBench: A Universal Semantic Framework for LLM Evaluation

Mikel Zubillaga et al.

cs.CL cs.AI

本文提出了一个名为SemBench的自动化框架, 用于评估大型语言模型(LLMs)的语义理解能力. 该框架仅需词典释义和句子编码器即可生成评测基准, 并在多语言实验中显示出与标准数据集强相关的评估结果.

Semi-Synthetic Parallel Data for Translation Quality Estimation: A Case Study of Dataset Building for an Under-Resourced Language Pair

Assaf Siani, Anna Kernerman, Ilan Kernerman

cs.CL

本文为英语-希伯来语这一资源匮乏语言对构建了一个半合成的平行数据集, 用于机器翻译质量评估研究. 通过结合人工翻译句段和基于典型语言模式生成的合成翻译句段, 并引入受控的翻译错误, 作者训练了基于BERT和XLM-R的神经网络模型来评估句子级翻译质量.

Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Konstantin Krestnikov

cs.CL cs.AI

本文通过引入 Compression-Consistency Principle，解释了语言模型在混合质量数据上训练时为何有时偏好正确信息。研究发现，这种偏好主要源于模型对数据压缩和内部一致性的追求，而非对“真理”的内在驱动力。

Legal-DC: Benchmarking Retrieval-Augmented Generation for Legal Documents

Yaocong Li et al.

cs.CL

本文构建了用于中文法律文档咨询的 Legal-DC 基准数据集，并提出了集成法律自适应索引与双路径自反思机制的 LegRAG 框架。该框架在关键评估指标上优于现有方法，为中文法律 RAG 系统的发展提供了专门的资源和实践方案。

Trust Oriented Explainable AI for Fake News Detection

Krzysztof Siwek, Daniel Stankowski, Maciej Stodolski

cs.CL

本文在NLP-based fake news detection任务中应用并比较了SHAP, LIME, Integrated Gradients等XAI方法. 实验表明, 这些方法能在保持高检测准确率的同时提升模型的可解释性, 但各自存在计算成本或参数敏感性的局限.

Large Language Models for Biomedical Article Classification

Jakub Proboszcz, Paweł Cichosz

cs.CL

本文系统评估了多种开源与闭源大语言模型在生物医学文章分类任务中的表现, 涵盖了不同的提示类型、输出处理方法和少样本设置. 实验结果表明, 在多个具有挑战性的数据集上, 零样本和少样本提示的模型性能接近传统的朴素贝叶斯、随机森林以及微调后的Transformer模型, 证实了大语言模型在复杂领域作为文本分类器的实用性.

DatedGPT: Preventing Lookahead Bias in Large Language Models with Time-Aware Pretraining

Yutong Yan et al.

cs.CL q-fin.GN

本文提出了一种名为DatedGPT的时间感知预训练方法, 通过使用按年份严格划分的数据集从头训练模型, 旨在防止金融回测中的前瞻性偏差(lookahead bias). 实验表明, 该方法能有效将模型知识限制在特定年份内, 同时保持与同类模型相当的基准性能.

Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language

Remigiusz Kinas et al.

cs.CL cs.AI

本文提出了一种针对波兰语等欧洲语言的大语言模型压缩方法. 通过结合结构化剪枝与知识蒸馏技术, 将模型参数量减少了约三分之一, 并在对齐后恢复了大部分性能, 同时提升了推理速度.

CoMMET: To What Extent Can LLMs Perform Theory of Mind Tasks?

Ruirui Chen et al.

cs.CL

本文提出了一个名为CoMMET的多模态基准数据集, 用于更全面地评估大型语言模型(LLMs)的"心智理论"(Theory of Mind)能力. 该工作通过涵盖更广泛的心理状态和引入多轮对话测试, 分析了当前模型的优势与局限.

PersonaTrace: Synthesizing Realistic Digital Footprints with LLM Agents

Minjia Wang et al.

cs.CL

本文提出了一种利用LLM agents合成逼真数字足迹的方法, 该方法从结构化用户档案出发, 生成多样且合理的用户事件序列及相应的数字制品. 评估表明, 生成的数据集在多样性和真实性上优于现有基线, 且基于此数据微调的模型在真实世界任务上表现更佳.

CHiL(L)Grader: Calibrated Human-in-the-Loop Short-Answer Grading

Pranav Raikote et al.

cs.CL

本文提出了一个结合了校准置信度估计的人机协同自动评分框架CHiL(L)Grader. 它通过选择性预测和持续学习, 将高置信度预测自动化, 并将不确定的答案交由人工评分, 从而在多个短答案评分数据集上实现了可靠的自动化评分.

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

Ilias Aarab

cs.CL cs.AI cs.LG stat.ML

本文提出了一个用于评估零样本文本分类的基准测试BTZSC, 并系统比较了包括NLI cross-encoders, embedding models, rerankers和instruction-tuned LLMs在内的四类模型. 结果表明, 现代rerankers取得了最佳性能, 而embedding模型在准确性和延迟之间提供了最佳权衡.

Just Use XML: Revisiting Joint Translation and Label Projection

Thennal D K, Chris Biemann, Hans Ole Hatzel

cs.CL cs.AI

本文提出了一种名为LabelPigeon的联合框架, 它通过XML标签同时进行机器翻译和标签投影. 实验表明, 该方法在多种语言和任务上提升了跨语言迁移的效果, 且没有损害翻译质量.

Translationese as a Rational Response to Translation Task Difficulty

Maria Kunilovskaya

cs.CL

本文探讨了 translationese 现象, 提出其可能源于翻译任务本身的认知负荷. 研究通过量化指标预测 translationese, 发现跨语言迁移难度是主要影响因素.

To Words and Beyond: Probing Large Language Models for Sentence-Level Psycholinguistic Norms of Memorability and Reading Times

Thomas Hikaru Clark et al.

cs.CL

本文通过 fine-tuning 方法，探究了大型语言模型（LLMs）在句子层面的心理语言学特征（如 memorability 和 reading times）上的预测能力。结果表明，经过 fine-tuning 的模型能够提供与人类判断相关的估计，但其 zero-shot 和 few-shot 表现则参差不齐。

SommBench: Assessing Sommelier Expertise of Language Models

William Brach et al.

cs.CL cs.AI

本文提出了一个名为SommBench的多语言基准测试，用于评估大语言模型在侍酒师专业知识领域的表现。该基准包含三个任务，测试模型对葡萄酒理论、感官特征描述和餐酒搭配的理解，结果显示模型在理论问答上表现良好，但在需要感官判断的任务上更具挑战性。

Cross-Context Review: Improving LLM Output Quality by Separating Production and Review Sessions

Tae-Eun Song

cs.CL

本文提出了一种名为 Cross-Context Review (CCR) 的简单方法，通过将大语言模型的生成和审查过程置于不同的会话中，以提高其输出质量。实验表明，这种上下文分离的方法在错误检测上显著优于同会话内的自我审查。

LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

Feiyu Duan, Xuanjing Huang, Zhongyu Wei

cs.CL

本文提出了LifeSim, 一个基于Belief-Desire-Intention (BDI) 认知模型的用户模拟器, 用于生成连贯的用户生活轨迹和交互行为. 基于此, 作者构建了LifeSim-Eval基准测试, 用于评估个性化AI助手在长周期、多场景下的能力, 并揭示了当前大语言模型在隐式意图理解和长期偏好建模方面的不足.

QAQ: Bidirectional Semantic Coherence for Selecting High-Quality Synthetic Code Instructions

Jiayin Lei et al.

cs.CL

本文提出了一种名为QAQ的数据选择框架, 用于筛选高质量的合成代码指令数据. 该方法通过评估答案预测查询($Q|A$)的能力, 即逆向语义连贯性, 来量化数据质量, 实验表明其能有效提升模型训练效率.

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Łukasz Borchmann et al.

cs.CL cs.AI

本文提出了一个名为MADQA的基准测试, 用于评估多模态智能体在文档密集型任务中的表现. 研究发现, 当前最佳智能体虽然能达到与人类相当的准确率, 但其成功解决的问题类型与人类不同, 且严重依赖暴力搜索而非战略性推理.

Long-Context Encoder Models for Polish Language Understanding

Sławomir Dadas et al.

cs.CL

本文针对波兰语的长文本理解任务, 提出了一种能处理长达8192个token的encoder-only模型. 通过两阶段训练(位置嵌入适应和全参数持续预训练)以及知识蒸馏的压缩变体, 该模型在包括KLEJ基准和金融任务套件在内的多项评测中取得了最佳平均性能.

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Yushi Bai et al.

cs.CL cs.LG

本文提出了IndexCache方法, 通过跨层复用top-k索引来加速稀疏注意力机制. 该方法将网络层分为执行索引计算的Full层和复用索引的Shared层, 在保持模型质量的同时显著减少了计算开销.

CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

Alexandre Le Mercier, Thomas Demeester, Chris Develder

cs.CL

本文提出了一种名为CLASP的防御模型, 用于抵御针对State Space Models (SSMs, 如Mamba)及其混合架构的Hidden State Poisoning Attacks (HiSPAs). 该方法将防御任务构建为token级别的二分类问题, 利用Mamba块输出嵌入中的特定模式, 通过XGBoost分类器以较低计算开销识别恶意token.

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Priyanka Kargupta et al.

cs.CL cs.AI

本文提出了一个名为Idea-Catalyst的框架, 旨在利用大型语言模型(LLM)来激发跨学科的科学创造力. 该框架通过将目标领域的研究挑战转化为领域无关的概念问题, 并从外部学科检索相关见解进行综合, 以辅助研究初期的头脑风暴过程.

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Ziyu Chen et al.

cs.CL cs.AI cs.CV

本文提出了一个用于构建科学多模态文档推理数据集的框架, 并基于此创建了训练集SciMDR和评估基准SciMDR-Eval. 实验表明, 在该数据集上微调的模型在多个科学问答任务上取得了显著提升.

cs.DS

Frequency Moments in Noisy Streaming and Distributed Data under Mismatch Ambiguity

Kaiwen Liu, Qin Zhang

cs.DS cs.DB

本文研究了含噪声数据流和分布式模型中的frequency moments ($F_p$)估计问题. 作者提出了一个基于$F_p$-mismatch-ambiguity参数的新框架, 证明了在该框架下可以用亚线性空间或通信复杂度进行估计, 并建立了紧的下界. 结果表明, 噪声的存在显著增加了$F_2$估计的空间复杂度, 并且在协调模型中, 除非不匹配模糊度足够低, 否则无法实现与输入大小无关的通信.

On the PLS-Completeness of $k$-Opt Local Search for the Traveling Salesman Problem

Sophia Heimann, Hung P. Hoang, Stefan Hougardy

cs.DS math.CO

本文证明了$k$-Opt局部搜索算法在$k \geq 15$时对于旅行商问题是PLS完全的, 大幅改进了先前证明所需$k$值的下界. 该结果同时适用于一般和度量情况下的旅行商问题.

Adapting Dijkstra for Buffers and Unlimited Transfers

Denys Katkalo, Andrii Rohovyi, Toby Walsh

cs.DS cs.AI cs.RO

本文重新审视了基于Dijkstra的算法在公共交通无限制换乘路径规划中的应用, 指出在考虑站点缓冲时间(buffer times)时, 传统的连接过滤预处理方法存在缺陷. 作者提出了Transfer Aware Dijkstra (TAD)算法, 通过扫描完整的行程序列而非单个边来正确处理缓冲时间, 实验表明其在多个网络上比MR算法更快且能保证结果最优.

Enumerating All Directed Spanning Trees in Optimal Time

Paweł Gawrychowski, Marcin Knapik

cs.DS

本文改进了有向图中枚举所有以给定节点为根的有向生成树（directed spanning trees）的算法。作者通过分析具有少量有向生成树的图的结构特性，设计了一种新的图论方法，将时间复杂度优化至最优的$\mathcal{O}(n+m+N)$，并保持了$\mathcal{O}(n+m)$的空间复杂度。

Deterministic Algorithm for Non-monotone Submodular Maximization under Matroid and Knapsack Constraints

Shengminjie Chen et al.

cs.DS cs.CC math.OC

本文针对带拟阵和背包约束的非单调次模函数最大化问题, 提出了基于扩展多线性延伸框架的确定性算法. 在拟阵约束下达到$(0.385 - \epsilon)$的近似比, 在背包约束下达到$(0.367 - \epsilon)$的近似比, 均改进了已知的确定性算法结果.

Pivot based correlation clustering in the presence of good clusters

David Rasmussen Lolck, Mikkel Thorup, Shuyi Yan

cs.DS

本文改进了经典的基于pivot的correlation clustering算法, 通过在每次pivot步骤前移除"good clusters", 将近似比从3提升至$2.9991$. 实验表明, 该算法在合成数据集上表现优异, 优于原pivot算法及定位good clusters的算法.

Time, Message and Memory-Optimal Distributed Minimum Spanning Tree and Partwise Aggregation

Michael Elkin Tanya Goldenfeld

cs.DS

本文提出了一种确定性的分布式算法, 用于解决最小生成树问题和更一般的部分聚合问题. 该算法在时间、消息和内存效率上均达到最优, 旨在克服现有算法在现实网络部署中面临的内存效率瓶颈.

Bounding the Fragmentation of B-Trees Subject to Batched Insertions

Michael A. Bender et al.

cs.DS cs.DB

本文分析了 B-tree 在批量插入操作下的内部碎片化问题。作者将 Yao 的经典分析推广到批量插入场景，证明了均匀分裂策略在多种此类负载下依然有效，并为其他情况提供了可证明保持良好空间利用率的替代策略。

others

From Phase Prediction to Phase Design: A ReAct Agent Framework for High-Entropy Alloy Discovery ⭐ 精选

Iman Peivaste, Salim Belouettar

cond-mat.mtrl-sci cs.AI

本文提出了一种基于ReAct框架的LLM智能体, 用于解决高熵合金(HEA)成分的逆向设计问题. 该智能体通过结合领域知识先验和基于XGBoost的代理模型, 能够自主提出、验证并迭代优化合金成分, 以可靠地形成目标晶体相(如FCC, BCC). 与贝叶斯优化和随机搜索相比, 该智能体在成分空间中的再发现率显著更高, 且其探索行为更倾向于成分多样性和对文献覆盖不足区域的探索, 而非仅仅复现已知合金. 这项工作为材料逆向设计提供了一种可解释、基于推理且能感知数据流形的智能体方法, 是对传统无梯度优化方法的有力补充.

Learning to Unscramble: Simplifying Symbolic Expressions via Self-Supervised Oracle Trajectories ⭐ 精选

David Shih

hep-th cs.LG cs.SC hep-ph

本文提出了一种新的自监督机器学习方法, 用于简化复杂的数学符号表达式. 该方法通过"打乱"简单表达式并记录逆操作来生成训练数据, 从而创建包含目标状态和明确路径的"oracle trajectories". 作者训练了一个基于Transformer的置换等变策略网络, 以步进方式预测给定输入表达式的最优简化操作. 该方法在量子场论中的dilogarithm reduction和spinor-helicity散射振幅简化两个问题上进行了验证, 其性能显著优于基于强化学习和端到端回归的先前方法, 在特定振幅简化任务上实现了100%的完全简化率.

A Survey on Quantitative Modeling of Trust in Online Social Networks

Wenting Song, K. Suzanne Barber

cs.SI cs.AI cs.CR cs.CY cs.GT

本文对在线社交网络中的定量信任建模研究进行了全面的综述和分类. 它探讨了信任的心理学理论基础, 并基于算法基础对现有模型进行了归类, 最后总结了可用的数据集、建模技术和应用场景.

Hybrid Quantum-Classical Encoding for Accurate Residue-Level pKa Prediction

Van Le, Tan Le

physics.chem-ph cs.AI cs.NE

本文提出了一种结合量子启发特征映射与经典结构特征的混合编码方法, 用于残基水平pKa预测. 该方法通过深度量子神经网络处理混合特征, 在多个基准测试中展现了优于经典模型的泛化能力.

Exploring Collatz Dynamics with Human-LLM Collaboration

Edward Y. Chang

math.DS cs.AI cs.HC

本文通过人机协作探索了Collatz迭代的结构性质, 证明了关于模加扰、间隙-爆发分解和轨道收缩的几个引理, 并提出了一个条件性的收敛分析框架. 然而, 该框架的关键假设仍未解决, 研究本质上是探索性的.

TinyNav: End-to-End TinyML for Real-Time Autonomous Navigation on Microcontrollers

Pooria Roy et al.

cs.RO cs.CV cs.LG

本文提出了一种用于微控制器的端到端TinyML系统TinyNav, 用于实时自主导航. 该系统使用一个定制的量化2D卷积神经网络处理深度数据, 以预测转向和油门指令, 在资源受限的设备上实现了低延迟的推理.

OA-NBV: Occlusion-Aware Next-Best-View Planning for Human-Centered Active Perception on Mobile Robots

Boxun Hu et al.

cs.RO cs.AI

本文提出了一种用于移动机器人上以人为中心的主动感知的遮挡感知最优下一视点规划方法. 该方法通过一个考虑遮挡、目标尺度和完整性的目标中心可见性模型来评估候选视点, 并将其限制在机器人可达的位姿上. 实验表明, 该方法在仿真和真实环境中均取得了超过90%的成功率, 并显著提升了观测质量.

Unifying Logical and Physical Layout Representations via Heterogeneous Graphs for Circuit Congestion Prediction

Runbang Hu et al.

cs.AR cs.AI

本文提出了一种基于异质图统一电路逻辑与物理布局表示的框架VeriHGN, 用于早期布线拥塞预测. 该方法在多个工业基准测试上取得了优于现有技术的预测精度.

CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents

Kristen Pereira et al.

cs.SE cs.AI cs.CL

本文提出了CR-Bench数据集和CR-Evaluator评估流程，用于细粒度评估AI代码审查代理在真实场景中的效用。研究发现，当前代理在识别所有潜在问题时存在信噪比低的权衡，这为面向实际工作流的代理设计提供了基础。

Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain

Yen-Ku Liu, Yun-Cheng Tsai

cs.SE cs.AI

本文提出了一种名为Questions-of-Thoughts (QoT)的质量驱动推理框架，用于辅助基于LLM的软件设计。该方法将用户目标转化为有序的工程步骤和逐步的自我提问，以验证约束并减少遗漏错误。在多个后端工程领域的评估表明，QoT能提升大型模型在复杂任务中的生成质量。

The Attack and Defense Landscape of Agentic AI: A Comprehensive Survey

Juhee Kim et al.

cs.CR cs.AI

本文对AI agent的安全攻防领域进行了首次系统性综述, 分析了其设计空间、攻击面与防御机制, 并通过案例研究指出了当前安全防护的不足与未来挑战.

Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Chen Zhou et al.

cs.RO cs.AI cs.DC

本文介绍了一个用于具身智能的千卡GPU分布式训练平台, 重点优化了数据流水线、训练速度与基础设施协同. 通过结合多种优化技术, 在GR00T-N1.5模型上实现了显著的训练加速, 并构建了从训练到评估的端到端系统.

ResWM: Residual-Action World Model for Visual RL

Jseen Zhang et al.

cs.RO cs.AI

本文提出了一种名为ResWM的残差动作世界模型, 用于从原始视觉输入中学习预测模型. 该方法将控制变量从绝对动作重新表述为相对于上一步的增量调整, 旨在稳定优化并改善长期规划. 在DeepMind Control Suite上的实验表明, 该方法在样本效率和最终性能上超越了Dreamer等基线模型.

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

Yinfeng Xia et al.

cs.SD cs.CL

本文提出了一个基于LLM的统一框架Uni-ASR, 用于整合非流式与流式自动语音识别. 通过联合训练范式, 该系统无需修改架构即可在两种模式间切换, 并在不同延迟约束下实现了有效的流式识别.

Co-Diffusion: An Affinity-Aware Two-Stage Latent Diffusion Framework for Generalizable Drug-Target Affinity Prediction

Yining Qian et al.

stat.ML cs.LG

本文提出了一种名为Co-Diffusion的两阶段潜在扩散框架，用于提升药物-靶点亲和力预测的泛化能力。该框架通过亲和力引导的潜在空间构建和模态特定的潜在扩散正则化，缓解了冷启动场景下的表示崩溃问题。

Enhancing Value Alignment of LLMs with Multi-agent system and Combinatorial Fusion

Yuanhong Wu, Djallel Bouneffouf, D. Frank Hsu

cs.MA cs.CL

本文提出了一种利用多智能体系统和组合融合分析来增强大语言模型价值对齐的方法. 该方法通过融合代表不同规范视角的多个智能体的输出, 旨在更好地反映多元化的人类价值观.

Efficient Approximation to Analytic and $L^p$ functions by Height-Augmented ReLU Networks

ZeYu Li, FengLei Fan, TieYong Zeng

stat.ML cs.LG cs.NE

本文提出了一种使用三维网络架构来更高效地表示sawtooth函数的方法, 并以此为基础改进了对analytic和$L^p$函数的逼近. 该工作为设计参数效率更高的网络提供了理论依据.

WebWeaver: Breaking Topology Confidentiality in LLM Multi-Agent Systems with Stealthy Context-Based Inference

Zixun Xiong et al.

cs.CR cs.AI

本文提出了一种名为WebWeaver的攻击框架，用于推断LLM多智能体系统的通信拓扑结构。该方法仅需控制一个普通智能体，通过分析其上下文信息而非直接查询身份来实现隐蔽的拓扑推断。

Conformal e-prediction in the presence of confounding

Vladimir Vovk, Ruodu Wang

math.ST cs.LG

本文在存在观测混杂(confounding)的情况下, 将 conformal e-prediction 方法进行了扩展. 它同时考虑了观测数据为独立同分布(IID)的情形, 以及允许观测之间存在某种依赖性的情形.

Deep regression learning from dependent observations with minimum error entropy principle

William Kengne, Modou Wade

stat.ML cs.LG math.ST

本文研究了从强混合观测中进行非参数回归的问题, 提出了一种基于深度神经网络和最小误差熵(Minimum Error Entropy, MEE)准则的方法. 对于具有高斯误差的模型, 所提估计器在Hölder函数类上达到了(在对数因子意义下)极小极大最优收敛速率.

Catalogue Grounded Multimodal Attribution for Museum Video under Resource and Regulatory Constraints

Minsak Nanang, Adrian Hilton, Armin Mustafa

cs.MM cs.CV cs.LG

本文提出了一种基于现有馆藏数据库、为博物馆视频自动生成编目式元数据的方法. 该方法利用一个可本地部署的视频语言模型, 通过多步骤流程生成描述、标签并进行保守的相似性匹配, 旨在提升音视频档案的可发现性并满足资源与监管约束.

DNS-GT: A Graph-based Transformer Approach to Learn Embeddings of Domain Names from DNS Queries

Massimiliano Altieri et al.

cs.CR cs.LG

本文提出了一种基于Transformer的模型DNS-GT, 用于从DNS查询序列中学习域名嵌入. 该模型通过自监督预训练学习DNS活动的一般模式, 并可在特定下游任务上进行微调, 实验表明其在域名分类和僵尸网络检测任务上优于相关基线方法.

A Simple Efficiency Incremental Learning Framework via Vision-Language Model with Nonlinear Multi-Adapters

Haihua Luo et al.

cs.CV cs.AI

本文提出了一种名为SimE的简单高效增量学习框架, 它利用预训练的vision-language model并为其设计专门的adapter. 作者发现adapter连接数量与模型性能之间存在非线性关系, 并通过实验验证了该框架在多个数据集上的优越性.

Security-by-Design for LLM-Based Code Generation: Leveraging Internal Representations for Concept-Driven Steering Mechanisms

Maximilian Wendlinger et al.

cs.CR cs.LG

本文提出了一种名为SCS-Code的方法，通过分析CodeLLMs的内部表征来提升生成代码的安全性。该方法在多个安全编码基准测试中表现优于现有技术。

Frequency-Modulated Visual Restoration for Matryoshka Large Multimodal Models

Qingtao Pan, Zhihao Dou, Shuo Li

cs.CV cs.CL

本文提出了一种名为FMVR的频率调制视觉恢复策略, 用于提升大型多模态模型在视觉token减少时的推理能力. 该方法通过AvgPool和MaxPool将视觉表示解耦为高低频分量并进行调制, 并集成到Matryoshka表示学习中, 以弹性调整推理时的视觉token数量.

Trustworthy predictive distributions for rare events via diagnostic transport maps

Elizabeth Cucuzzella, Rafael Izbicki, Ann B. Lee

stat.ML cs.LG

本文提出了一种称为诊断传输映射的方法, 用于改进初始预测分布. 该方法通过拟合协变量依赖的概率到概率映射来量化并修正基础模型在特定区域(如罕见事件)的校准误差, 并能提供实时诊断信息. 作者将其应用于热带气旋强度预报, 展示了其在识别校准错误和提升罕见事件预测性能方面的效果.

Cough activity detection for automatic tuberculosis screening

Joshua Jansen van Vüren et al.

eess.AS cs.LG cs.SD

本文应用预训练的XLS-R和AST模型进行咳嗽活动检测, 用于肺结核筛查. 实验表明, 使用XLS-R模型的前三层能取得最佳检测精度, 并降低了计算需求, 其下游分类性能接近基于真实咳嗽片段训练的分类器.

A Unified Latent Space Disentanglement VAE Framework with Robust Disentanglement Effectiveness Evaluation

Xiaoan Lang, Fang Liu

stat.ML cs.LG

本文提出了一个统一的解耦变分自编码器框架 bfVAE, 并引入了两种无需真实生成因子的解耦效果评估方法 FVH-LT 和 DBSR-LS, 以及一个综合指标 LSDI. 实验表明该框架在表格和图像数据上能实现高质量的解耦, 且评估工具能有效揭示潜在的语义结构.

A Standardized Framework For Evaluating Gene Expression Generative Models

Andrea Rubbi et al.

q-bio.GN cs.LG

本文提出了一个用于评估基因表达生成模型的标准化框架GGE, 旨在解决当前评估方法中指标不一致、超参数不可比以及缺乏生物学基础指标的问题. 该框架通过提供一套全面的分布度量工具和基于差异表达基因的分析, 促进了生成模型的公平比较和可重复基准测试.

A Machine Learning-Enhanced Hopf-Cole Formulation for Nonlinear Gas Flow in Porous Media

V. S. Maduru, K. B. Nakshatrala

math.NA cs.LG physics.flu-dyn

本文提出了一种结合机器学习与Hopf-Cole变换的混合框架，用于模拟多孔介质中的非线性气体流动。该框架通过变换将非线性方程线性化，并利用神经网络同时预测压力场和速度场，同时支持从观测数据中反演模型参数。

LLMs Can Infer Political Alignment from Online Conversations

Byunghwee Lee et al.

cs.SI cs.CL cs.CY

本文探讨了大型语言模型(LLMs)从在线对话中推断用户隐藏政治倾向的能力。研究发现，LLMs在此任务上显著优于传统机器学习模型，并能利用非显性政治词汇进行预测，这突显了相关的隐私风险。

"I followed what felt right, not what I was told": Autonomy, Coaching, and Recognizing Bias Through AI-Mediated Dialogue

Atieh Taheri et al.

cs.HC cs.AI cs.CY

本文通过实验研究了AI中介对话如何影响人们对能力歧视微侵犯的识别。研究比较了不同引导方向的对话干预与纯文本阅读的效果，发现对话方式总体上能提升识别能力，但不同引导策略会产生差异化的影响。

RIE-Greedy: Regularization-Induced Exploration for Contextual Bandits

Tong Li et al.

stat.ML cs.LG

本文提出了一种名为RIE-Greedy的方法, 用于contextual bandit问题. 该方法利用模型拟合过程中的随机性(特别是基于交叉验证的正则化过程)作为内在的探索来源, 避免了显式的探索策略设计.

Worst-case low-rank approximations

Anya Fries et al.

stat.ML cs.AI cs.LG stat.ME

本文提出了一种名为wcPCA的统一框架, 用于处理跨异构域数据中标准PCA可能失效的问题. 该框架通过优化最坏情况性能, 并扩展至矩阵补全等低秩近似问题, 在模拟和实际应用中展现了稳健性.

MRI2Qmap: multi-parametric quantitative mapping with MRI-driven denoising priors

Mohammad Golbabaee et al.

physics.med-ph cs.CV cs.LG

本文提出了一种名为MRI2Qmap的定量MRI重建框架, 它通过整合物理采集模型与从大型多模态加权MRI数据集预训练的深度去噪自编码器中学到的先验知识, 来解决磁共振指纹成像(MRF)等加速参数映射技术中的混叠伪影问题. 该方法无需真实定量成像数据进行训练, 在体内和模拟的3D全脑MRF数据上验证了其有效性.

Ill-Conditioning in Dictionary-Based Dynamic-Equation Learning: A Systems Biology Case Study

Yuxiang Feng, Niall M Mangan, Manu Jayadharan

q-bio.QM cs.LG math.DS math.NA

本文分析了在基于字典的动态方程学习中, 由于候选函数库中项之间的强相关性(多重共线性)导致的数值病态问题. 通过系统生物学基准模型的研究, 作者展示了即使少量项的组合也可能产生极大的条件数, 并探讨了正交多项式基在特定数据分布下对改善病态性的有限作用.

On the Computational Hardness of Transformers

Barna Saha et al.

cs.CC cs.LG

本文研究了Transformer模型的计算复杂性下界. 在SETH假设下, 证明了分别计算多头注意力是接近最优的, 并利用Baur-Strassen定理为大规模嵌入情况建立了算术运算次数的下界.

Novelty Adaptation Through Hybrid Large Language Model (LLM)-Symbolic Planning and LLM-guided Reinforcement Learning

Hong Lu et al.

cs.RO cs.AI

本文提出了一种结合 symbolic planning, reinforcement learning 和 large language model (LLM) 的神经符号架构, 用于处理动态开放世界中机器人遇到的新奇物体. 该方法利用 LLM 的常识推理来识别缺失的规划算子, 生成计划, 并编写奖励函数来指导强化学习代理学习新算子的控制策略.

Resolving Java Code Repository Issues with iSWE Agent

Jatin Ganhotra et al.

cs.SE cs.AI cs.MA

本文提出了一个名为 iSWE Agent 的自动化 issue 解决系统, 重点针对 Java 代码仓库. 它结合了基于规则的静态分析与基于模型的 agent 技术, 在相关基准测试上取得了先进的性能.

Spatially Robust Inference with Predicted and Missing at Random Labels

Stephen Salerno, Zhenke Wu, Tyler McCormick

stat.ML cs.LG econ.EM stat.AP stat.ME

本文提出了一种针对存在空间依赖性和缺失标签数据的稳健推断方法. 该方法通过引入双重稳健估计量并结合一种改进的方差校正技术来处理空间相关性和交叉拟合带来的问题.

How do AI agents talk about science and research? An exploration of scientific discussions on Moltbook using BERTopic

Oliver Wieczorek

cs.SI cs.AI cs.CY

本文使用BERTopic方法分析了AI代理在Moltbook平台上关于科学与研究的讨论, 识别出60个主题并将其归纳为10个主题族. 研究发现, 讨论焦点集中在AI代理自身的架构、记忆与伦理等自反性话题上, 而涉及人类文化的帖子则关注度较低.

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Hillary Mutisya, John Mugane

cs.SD cs.LG eess.AS

本文研究了如何通过持续预训练(continued pretraining, CPT)将wav2vec2-bert-2.0模型适配到低资源的斯瓦希里语自动语音识别(ASR)任务中. 该方法结合了无标签音频和少量有标签数据, 最终在Common Voice斯瓦希里语数据集上取得了3.24%的词错误率(WER), 显著超越了之前的学术最佳结果.

Induced Minors and Coarse Tree Decompositions

Maria Chudnovsky et al.

math.CO cs.DM cs.DS

本文研究了图论中关于距离$r$-独立数(distance $r$-independence number)与树分解(tree decomposition)的关系. 作者证明了一个已知猜想(conjecture)的较弱版本, 其中树分解中每个包(bag)的距离$16(\log n + 1)$-独立数被控制在对数多项式范围内.

Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics

Hendrik Chiche, Antoine Jamme, Trevor Rigoberto Martinez

cs.RO cs.AI

本文提出了一种基于单目RGB-D相机的离线手部影射与重定向流程, 用于低成本机械臂的遥操作. 该方法通过MediaPipe Hands检测手部关键点, 结合深度信息进行3D重建, 并利用阻尼最小二乘逆运动学求解关节指令, 在结构化拾放任务中取得了90%的成功率, 但在非结构化环境中因遮挡问题性能显著下降.

Ghost Framing Theory: Exploring the role of generative AI in new venture rhetorical legitimation

Greg Nyilasy

cs.HC cs.AI

本文提出了"Ghost Framing Theory (GFT)"，以解释生成式AI在创业公司修辞合法化过程中与创始人及投资者共同作用的方式。该理论构建了一个递归过程模型，并识别了生成式AI的修辞可供性，将人机协作研究与文化创业领域联系起来。

Agentic AI for Embodied-enhanced Beam Prediction in Low-Altitude Economy Networks

Min Hao et al.

cs.NI cs.AI

本文提出了一种基于agentic AI的多智能体协作推理架构和混合波束预测模型系统, 用于低空经济网络中无人机对地毫米波通信场景. 该系统通过分解任务、处理多模态数据并动态切换策略, 在仿真中实现了较高的预测准确率.

Efficient Cross-View Localization in 6G Space-Air-Ground Integrated Network

Min Hao et al.

cs.NI cs.AI

本文探讨了将 cross-view localization (CVL) 与 6G 空间-空中-地面一体化网络 (SAGIN) 相结合，以提升定位性能。文章提出了一个 split-inference 框架，并对其中的通信、计算和隐私进行了联合优化。

Deployment-Time Reliability of Learned Robot Policies

Christopher Agia

cs.RO cs.AI cs.LG

本文围绕学习型机器人策略在部署时的可靠性问题, 提出了三种互补的部署时机制. 这些机制包括运行时监控, 基于影响函数的策略可解释性框架, 以及面向长视野和语言指定任务的可靠策略协调与任务规划方法.

Faster Relational Algorithms Using Geometric Data Structures

Aryan Esmailpour, Stavros Sintos

cs.DB cs.DS

本文提出了一种利用几何数据结构加速关系型数据上优化任务的方法. 通过引入RBBD树这一随机化数据结构, 避免了完全物化连接结果, 从而降低了计算开销.

Beyond Polarity: Multi-Dimensional LLM Sentiment Signals for WTI Crude Oil Futures Return Prediction

Dehao Dai et al.

q-fin.ST cs.CL

本文探讨了使用大型语言模型提取的多维度情感信号对WTI原油期货周度收益的预测能力. 研究结果表明, 结合LLM与传统金融情感模型能提供互补的预测信息, 其中情感强度和不确定性等维度具有重要预测价值.

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

David Fraile Navarro, Farah Magrabi, Enrico Coiera

cs.HC cs.AI

本文通过对比实验发现, 评估格式(而非模型能力)是导致消费者健康AI分诊评估失败的主要因素. 研究指出, 强制选择格式会显著扭曲模型的实际分诊表现, 因此有效的评估需要在反映真实使用场景的条件下进行.

Zero-Shot Cross-City Generalization in End-to-End Autonomous Driving: Self-Supervised versus Supervised Representations

Fatemeh Naeinian et al.

cs.CV cs.LG

本文研究了端到端自动驾驶模型在零样本跨城市泛化中的表现, 比较了自监督与监督预训练视觉表征的影响. 实验表明, 自监督表征学习能显著减小因城市间道路拓扑和驾驶习惯差异导致的泛化性能下降.

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

Yubeen Lee et al.

cs.MM cs.AI cs.SD

本文提出了一种用于连续效价-唤醒度估计的阶段自适应可靠性建模框架SAGE. 该框架通过显式估计和校准多模态融合过程中的模态置信度, 动态地根据音频和视觉信号在交互不同阶段的信息量来重新平衡它们的表示. 在Aff-Wild2基准测试上的实验表明, 该方法优于现有的多模态融合方法.

HawkesRank: Event-Driven Centrality for Real-Time Importance Ranking

Didier Sornette, Yishan Luo, Sandro Claudio Lera

cs.SI cs.LG physics.soc-ph

本文提出了一种基于多元Hawkes点过程的动态重要性排序框架HawkesRank, 用于量化网络中的实时影响力. 该框架通过建模外生驱动和内生放大效应, 提供了比静态中心性度量更具适应性和语义关联的度量方法.

Graph Generation Methods under Partial Information

Tong Sun et al.

stat.ME cs.DS

本文研究了在给定度序列下生成二分图、有向图和无向图的问题. 提出了一种顺序生成方法, 并基于此开发了适用于不同问题规模的枚举和采样算法. 数值实验表明, 所提算法在处理大规模实例时具有良好的可扩展性.

INFACT: A Diagnostic Benchmark for Induced Faithfulness and Factuality Hallucinations in Video-LLMs

Junqi Yang et al.

cs.CV cs.AI

本文提出了一个名为 INFACT 的诊断性基准测试，用于评估 Video-LLMs 在忠实性和事实性方面的幻觉问题。该基准包含多种评估模式，实验发现模型在基础模式下的高准确率并不能保证其在诱导模式下的可靠性。

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Joonyong Park, Jerry Li

cs.SD cs.CL eess.AS

本文提出了一个基于偏好的框架 AnimeScore 用于自动评估动漫风格语音, 并构建了一个包含 15,000 对偏好判断的数据集. 研究表明, 感知到的动漫风格由共振峰塑造、韵律连续性等因素驱动, 基于自监督学习的排序模型在评估任务上取得了 90.8% 的 AUC.

SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation

Xiaogang Du et al.

cs.CV cs.AI

本文提出了一种用于医学图像分割的持续测试时自适应方法SPEGC. 该方法通过语义提示增强图聚类来缓解域偏移下的错误累积问题, 在基准测试中取得了优于现有方法的结果.

OrthoEraser: Coupled-Neuron Orthogonal Projection for Concept Erasure

Chuancheng Shi et al.

cs.CV cs.AI cs.CY

本文提出了一种名为OrthoEraser的方法，用于从文本到图像模型中安全地擦除特定概念。该方法利用稀疏自编码器进行特征解耦，并通过正交投影来分离敏感概念与良性语义，从而在移除有害内容的同时保持模型的生成能力。实验表明该方法在安全性和性能上优于现有基线。

Gen-Fab: A Variation-Aware Generative Model for Predicting Fabrication Variations in Nanophotonic Devices

Rambod Azimi et al.

cs.CV cs.AI cs.LG

本文提出了一种基于条件生成对抗网络(cGAN)的模型Gen-Fab, 用于预测硅基光子器件制造过程中的几何形变. 该模型能够根据设计版图生成类似SEM图像的多样化预测结果, 在准确性和不确定性建模方面优于多种基线方法.

FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval

Chenchen Zhao et al.

cs.CV cs.AI

本文提出了一种用于组合图像检索(CIR)的多模态焦点解释方法FBCIR, 用于识别模型检索决策中最关键的视觉和文本输入成分. 基于该方法发现现有模型存在焦点不平衡问题, 作者进一步提出了一种数据增强工作流程, 通过引入精心设计的困难负样本来鼓励平衡的跨模态推理, 从而提升模型在挑战性场景下的鲁棒性.

EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection

Shuo Jiang et al.

cs.CV cs.AI

本文提出了一种名为EReCu的统一无监督伪装目标检测框架, 通过多线索原生感知模块提取内在视觉先验, 并结合伪标签进化融合与局部细化策略来提升伪标签的可靠性和特征的保真度. 实验表明该方法在多个数据集上取得了先进的性能.

Simultaneous estimation of multiple discrete unimodal distributions under stochastic order constraints

Yasuhiro Yoshida, Noriyoshi Sukegawa, Jiro Iwanaga

math.OC cs.LG stat.ME

本文研究了在随机序约束下估计多个离散单峰分布的问题. 该方法将估计任务表述为一个混合整数凸二次优化问题, 并在合成和真实数据集上进行了验证.

ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation

Md Jahidul Islam

cs.CV cs.AI

本文提出了一种名为ReHARK的训练免费框架, 用于解决大规模视觉语言模型(VLMs)在单样本下游任务适应中的"稳定性-可塑性"困境. 该方法通过多阶段精炼流程, 融合了零样本文本知识与视觉原型, 并利用多尺度RBF核来捕获特征几何, 在多个基准测试上取得了优异的性能.

MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

Lirong Che et al.

cs.CV cs.AI cs.RO

本文提出了一个用于生成多楼层3D场景的语言驱动框架MANSION, 并基于此发布了包含多样化建筑的数据集MansionWorld. 该工作旨在为跨楼层的长视野机器人任务提供一个开发和评估平台, 基准测试表明现有智能体在该环境下的性能显著下降.

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

Ruiying Li et al.

cs.RO cs.AI

本文提出了一个名为RoboClaw的机器人框架, 旨在解决Vision-Language-Action (VLA)系统在长周期任务中面临的扩展性挑战. 该框架通过一个统一的控制器整合了数据收集, 策略学习和任务执行, 并引入了Entangled Action Pairs (EAP)机制以实现自主数据收集和策略迭代.

How Intelligence Emerges: A Minimal Theory of Dynamic Adaptive Coordination

Stefano Grassi

cs.MA cs.AI econ.TH math.DS

本文提出了一个多智能体系统中自适应协调的动力学理论框架, 将智能体、激励和环境建模为一个递归闭合的反馈架构. 该框架将协调视为耦合动力学的结构特性, 而非集中式优化问题的解, 并建立了关于系统有界性、不可约简性和历史敏感性的结构条件.

Toward Complex-Valued Neural Networks for Waveform Generation

Hyung-Seok Oh et al.

cs.SD cs.AI

本文提出了一种名为ComVo的Complex-valued neural Vocoder, 其生成器和判别器均使用原生的复数运算来处理复数谱图. 通过引入phase quantization和block-matrix computation scheme, 该方法在提升合成质量的同时减少了训练时间.

Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild

Jiin Im, Sisung Liu, Je Hyeong Hong

cs.CV cs.LG

本文提出了一种名为Shape-of-You (SoY)的框架, 用于解决无监督语义对应问题. 该方法将伪标签生成重新表述为一个Fused Gromov-Wasserstein (FGW)最优传输问题, 并利用3D基础模型来定义几何空间中的结构一致性.

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

Xinhao Deng et al.

cs.CR cs.AI

本文对自主LLM智能体(如OpenClaw)进行了全面的安全威胁分析, 提出了一个面向生命周期的五层安全框架, 并系统性地研究了其操作周期内的复合威胁. 作者通过案例研究展示了现有防御机制的局限性, 并探讨了各生命周期阶段的代表性防御策略.

MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

Shengyuan Liu et al.

cs.CV cs.AI

本文提出了一种无需训练、模型无关的分层token剪枝框架MedPruner，用于提升3D医学图像视觉语言模型的计算效率。该方法通过两阶段机制动态减少视觉token数量，在多个基准测试中显著降低了计算开销。

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

Sizhong Qin, Ramon Elias Weber, Xinzheng Lu

cs.CV cs.AI

本文提出了一种名为HouseMind的多模态大语言模型, 用于理解和生成建筑平面图. 该方法通过引入离散的房间实例token来构建统一的词汇表, 并通过多模态对齐和指令微调来实现可控的布局生成.

IDRL: An Individual-Aware Multimodal Depression-Related Representation Learning Framework for Depression Diagnosis

Chongxiao Wang et al.

cs.CV cs.AI

本文提出了一个用于抑郁症诊断的个体感知多模态表征学习框架(IDRL). 该框架通过解耦表征和动态融合模块来处理多模态数据中的不一致性和个体差异问题.

Beyond BFS: A Comparative Study of Rooted Spanning Tree Algorithms on GPUs

Abhijeet Sahu, Srikar Vilas Donur

cs.DC cs.DS

本文在 GPU 上对构建 rooted spanning tree 的算法进行了比较研究. 它评估了基于连通性框架的方法, 并展示了其在处理高直径图时相对于传统 BFS 的性能优势.

Stable Spike: Dual Consistency Optimization via Bitwise AND Operations for Spiking Neural Networks

Yongqi Ding et al.

cs.NE cs.AI

本文提出了一种名为Stable Spike的方法, 通过硬件友好的按位AND操作对Spiking Neural Networks (SNNs)进行双重一致性优化. 该方法旨在减少SNN中由时序脉冲动态引起的固有不一致性, 从而提升识别性能与泛化能力, 并在多个数据集上验证了其有效性.

From Control to Foresight: Simulation as a New Paradigm for Human-Agent Collaboration

Gaole He, Brian Y. Lim

cs.HC cs.AI cs.CL

本文讨论了当前基于LLM的智能体与人类协作的局限性, 即用户只能对单个动作进行反应式控制, 缺乏对长期结果的预见性. 作者提出了一个名为"simulation-in-the-loop"的新交互范式, 主张通过模拟未来轨迹来为用户提供决策前的洞察, 从而将协作从控制提升到预见.

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Suvendu Sekhar Mohanty

cs.SD cs.AI cs.LG

本文提出了一种用于语音合成的因果韵律调节框架, 通过引入反事实训练目标来解耦情感韵律与语言内容. 该方法在FastSpeech2架构中结合了显式情感条件, 并在多说话人情感数据集上进行了训练与评估, 在韵律操控和情感渲染方面取得了优于基线模型的效果.

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

Xianjing Han et al.

cs.CV cs.AI cs.CL

本文提出了一个名为OSCBench的基准测试, 专门用于评估文本到视频生成模型在对象状态变化这一特定任务上的性能. 该基准基于烹饪教学数据构建, 并通过实验表明当前模型在准确且一致地生成对象状态变化方面存在显著困难.

Decomposing Observational Multiplicity in Decision Trees: Leaf and Structural Regret

Mustafa Cavus

stat.ML cs.LG

本文针对决策树分类器中的观测多重性(observational multiplicity)问题, 提出了leaf regret和structural regret两个互补的概念. 通过理论分解与实验验证, 文章量化了由有限样本噪声和树结构不稳定性引起的预测变异性, 并探讨了其在选择性预测中的应用潜力.

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Simon Pistrosch et al.

eess.AS cs.AI cs.SD

本文利用表面肌电图(sEMG)研究了在发声和无声言语产生过程中的情感解码. 实验结果表明, sEMG表征能可靠地区分挫败感, 并且在不同发音模式间具有良好的泛化性.

Cross-Resolution Attention Network for High-Resolution PM2.5 Prediction

Ammar Kheder et al.

cs.CV cs.LG

本文提出了一种用于高分辨率PM2.5预测的双分支Vision Transformer模型CRAN-PM. 该模型通过跨分辨率注意力机制融合不同尺度的气象数据, 并引入了地形和风场引导的注意力机制以提升预测的物理一致性. 在覆盖欧洲大陆的高分辨率任务上, 该模型在效率和精度上均优于单尺度基线方法.

Modeling Trial-and-Error Navigation With a Sequential Decision Model of Information Scent

Xiaofu Jin, Yunpeng Bai, Antti Oulasvirta

cs.HC cs.IR cs.LG

本文提出了一种基于信息素(Information Scent)的序列决策模型，用于解释用户在信息架构中的试错导航行为。该模型考虑了记忆约束和策略性浏览，能够模拟过早选择、错误转向和回溯恢复等关键行为。

HELM: Hierarchical and Explicit Label Modeling with Graph Learning for Multi-Label Image Classification

Marjan Stoimchev et al.

cs.CV cs.AI

本文提出了一种用于遥感图像层次多标签分类的新框架HELM. 它结合了Vision Transformer, 图卷积网络和自监督学习, 在多个数据集上取得了先进的性能.

Locating Demographic Bias at the Attention-Head Level in CLIP's Vision Encoder

Alaa Yasser et al.

cs.CV cs.AI cs.CY

本文提出了一种机制公平性审计方法, 用于在视觉Transformer的单个attention head层面定位人口统计偏差. 该方法结合了投影残差流分解, 零样本概念激活向量和偏差增强的文本跨度分析, 并在CLIP ViT-L-14编码器上进行了性别和年龄偏差的可行性案例研究. 结果表明, 性别偏差的定位是可行的, 而年龄偏差的编码则更为分散.

OSM-based Domain Adaptation for Remote Sensing VLMs

Stefan Maria Ailuro et al.

cs.CV cs.LG

本文提出了一种基于OpenStreetMap(OSS)的自包含领域自适应框架OSMDA, 用于遥感视觉语言模型(VLMs). 该方法通过将航拍图像与渲染的OSM图块配对, 利用模型自身的OCR和图表理解能力生成带有丰富元数据的描述, 从而无需外部大模型或人工标注即可完成领域适应. 实验表明, 该方法在多个基准测试上取得了有竞争力的结果, 且训练成本显著降低.

RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset

Yongzhong Wang et al.

cs.RO cs.AI cs.CV

本文提出了一种名为RADAR的完全自主、闭环机器人数据生成系统。该系统通过结合视觉语言模型、图神经网络策略和有限状态机，实现了从任务生成、执行到环境重置的全自动化流程，旨在解决大规模物理交互数据采集的瓶颈问题。

Hybrid Human-Agent Social Dilemmas in Energy Markets

Isuri Perera, Frits de Nijs, Julian Garcia

cs.MA cs.AI cs.GT

本文研究了在能源市场中人类与代理混合群体中的社会困境问题. 通过引入能利用全局信号的人工代理, 作者分析了其对促进合作行为的影响, 并探讨了技术部分采用时的群体动态.

Hypercomplex Widely Linear Processing: Fundamentals for Quaternion Machine Learning

Sayed Pouria Talebi, Clive Cheong Took

stat.ML cs.LG

本文介绍了四元数机器学习的基础, 包括增广统计、广泛线性模型、四元数微积分和均方估计, 旨在为这一新兴研究领域奠定理论基础并提供实用工具.

The Landscape of Generative AI in Information Systems: A Synthesis of Secondary Reviews and Research Agendas

Aleksander Jarzębowicz et al.

cs.CY cs.AI

本文通过系统文献综述, 综合分析了生成式AI在信息系统领域的研究现状与挑战. 研究发现, 尽管生成式AI具有变革潜力, 但其应用受到技术不可靠性、社会伦理风险和治理缺失等多重挑战的制约.

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

Ching-Yu Kao et al.

cs.CR cs.AI

本文研究了LLM代理在处理外部文档时，因遵循指令的设计范式而导致的私人数据泄露风险。作者通过构建ReadSecBench基准进行系统测量，发现即使在商业部署的代理中，恶意指令的端到端泄露成功率也很高，且现有防御方法难以可靠检测。

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

Omar Coser

q-bio.GN cs.AI

本文提出了一个名为ELISA的混合生成式AI代理框架, 用于单细胞基因组学中基于表达的发现. 该框架整合了scGPT表达嵌入, BioBERT语义检索和LLM解释, 并通过基准测试验证了其在细胞类型检索和生物学发现复现方面的有效性.

The Mirror Design Pattern: Strict Data Geometry over Model Scale for Prompt Injection Detection

J Alex Corll

cs.CR cs.AI

本文提出了一种名为Mirror的数据整理设计模式, 用于构建prompt injection检测的语料库, 并训练了一个稀疏字符n-gram线性SVM分类器. 该方法的检测速度快, 具有确定性, 且不依赖外部模型运行时, 在首层防御筛选中表现优于一个更大的神经网络模型.

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Lu Wang et al.

cs.CV cs.AI cs.CL

本文提出了一种用于多轮视频推理的在线流式记忆框架, 通过引入分段级记忆和重叠的"观看与思考"推理管道来提升多模态大语言模型在连续视频流上的交互能力. 该方法在多个基准测试上取得了性能提升.

Understanding LLM Behavior When Encountering User-Supplied Harmful Content in Harmless Tasks

Junjie Chu et al.

cs.CR cs.AI

本文通过构建有害知识数据集和设计无害任务, 评估了主流LLMs在处理包含有害内容的用户输入时的行为. 研究发现, 即使是最新的模型, 在看似无害的任务中也常常无法拒绝处理有害内容, 揭示了当前模型在内容层面伦理对齐上的一个潜在漏洞.

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Hao Yang et al.

cs.SD cs.CL cs.MM eess.AS

本文针对大型音频语言模型(LALMs)在交互中忽略副语言线索的问题, 提出了一个副语言增强微调(PE-FT)协议. 该协议通过层间分析和选择性微调, 旨在提升模型对语音中副语言信息的感知能力.

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

Zikang Ding et al.

cs.CR cs.AI

本文提出了一种新型的延迟后门攻击方法，挑战了传统后门攻击的即时性假设。该方法通过引入时间维度，使得恶意行为在触发器出现后延迟激活，从而能够使用常见词汇作为触发器，并展示了其有效性和对现有防御的抵抗能力。

Uncovering Locally Low-dimensional Structure in Networks by Locally Optimal Spectral Embedding

Hannah Sansford, Nick Whiteley, Patrick Rubin-Delanchy

stat.ML cs.LG stat.ME

本文提出了一种名为 Local Adjacency Spectral Embedding (LASE) 的方法, 用于在具有局部低维结构的网络中改进谱嵌入. 该方法通过局部加权的谱分解来揭示网络中的局部几何特征, 并在合成与真实网络数据上验证了其在局部重构和可视化方面的优势.

Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling

Junhyeong Byeon, Jeongyeol Kim, Sejoon Lim

cs.CV cs.AI

本文提出了一种用于野外视频情感识别的多模态框架, 结合了预训练的视觉与音频编码器, 并引入了双向交叉注意力模块进行特征融合. 实验表明该方法在ABAW基准上优于单模态模型, 为复杂环境下的情感识别提供了一个有效的基线.

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Jiayue Pu et al.

cs.CV cs.AI cs.CR

本文提出了一个用于评估具身智能体在家庭场景中不安全动作检测的基准HomeSafe-Bench，并设计了一个分层流式架构HD-Guard用于实时安全监控。该工作旨在解决现有评估方法在动态家庭环境中的不足，并在效率与准确性之间取得了较好的平衡。

Decentralized Orchestration Architecture for Fluid Computing: A Secure Distributed AI Use Case

Diego Cajaraville-Aboy et al.

cs.DC cs.LG

本文提出了一种面向流体计算(Fluid Computing)环境的、与具体技术无关的多域编排架构。该架构支持不同管理域之间的去中心化协调,在保持本地自治的同时,联合实现基于意图的租户部署请求。作为一个代表性用例,作者考虑了存在拜占庭威胁的多域去中心化联邦学习(DFL)场景,并提出了一个名为FU-HST的、由SDN支持的多域异常检测机制来增强安全性。

An Intent of Collaboration: On Agencies between Designers and Emerging (Intelligent) Technologies

Pei-Ying Lin et al.

cs.HC cs.AI cs.ET

本文探讨了设计师与新兴智能技术(如LLMs)协作时的能动性关系。研究发现，设计师在与LLM合作时容易丧失其创造性能动性，并提出了通过内省、理解技术能力以及调整人机关系来重新获得能动性的方法。

Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

Alaaeddine Chaarani, Narcis Palomeras, Pere Ridao

cs.RO cs.AI

本文提出了一种用于水下自主对接的深度强化学习方法, 利用高保真数字孪生环境训练控制策略. 通过改进仿真器并采用PPO算法, 策略在仿真和真实水箱测试中均表现出良好的性能.

Cascade: Composing Software-Hardware Attack Gadgets for Adversarial Threat Amplification in Compound AI Systems

Sarbartha Banerjee et al.

cs.CR cs.AI

本文探讨了传统软硬件漏洞与LLM特定算法弱点结合对复合AI系统构成的威胁, 并展示了两种结合系统漏洞的攻击实例. 作者系统化了攻击原语, 为未来的防御策略奠定了基础.

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

Hamed Hamzeh

cs.DC cs.LG cs.MA

本文提出了一种用于动态Kubernetes调度的自适应图增强多智能体强化学习方法(AGMARL-DKS). 该方法通过将调度问题建模为合作多智能体问题, 利用图神经网络(GNN)构建全局集群状态的表示, 并采用基于压力的词典序策略来权衡多个目标, 从而在容错性、资源利用率和成本方面超越了默认调度器.

Continual Learning with Vision-Language Models via Semantic-Geometry Preservation

Chiyuan He et al.

cs.CV cs.LG

本文提出了一种名为SeGP-CL的方法，用于缓解预训练视觉语言模型在持续学习中的灾难性遗忘问题。该方法通过构建对抗性锚点来识别和稳定新旧任务语义交界处的几何结构，并结合跨模态蒸馏与文本正则化来保持模型的语义几何。

Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Yanghao Wang et al.

cs.CV cs.AI

本文提出了一种基于加权h-变换采样的免训练方法，用于从低质量参考生成高质量视觉样本。该方法通过修改扩散模型的采样过程，引入一个漂移函数来引导生成，并设计了一个噪声感知的加权策略来平衡引导强度与生成质量。

Beyond Convolution: A Taxonomy of Structured Operators for Learning-Based Image Processing

Simone Cammarasana

cs.CV cs.AI

本文系统性地分类了用于基于学习的图像处理、可替代或扩展标准卷积的结构化算子。作者将这些算子分为五个主要家族，并分析了它们相对于卷积的结构特性、适用任务以及在不同维度上的比较。

Paper LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments

Zhaoyang Jiang et al.

cs.CV cs.AI

本文提出了一种用于训练3D vision-language models的pipeline, 名为LoV3D, 用于处理纵向脑部MRI数据. 该方法通过分步流程生成区域解剖评估和诊断总结, 旨在减少幻觉风险并提高诊断准确性.

Human-Centred LLM Privacy Audits: Findings and Frictions

Dimitri Staufer et al.

cs.HC cs.AI cs.CL cs.CY

本文介绍了一个名为LMP2的浏览器自审计工具, 用于帮助个人检查大型语言模型(LLM)与其姓名相关联的信息. 研究发现, 尽管参与者希望对LLM生成的关联信息有所控制, 但并非所有输出都被视为隐私侵犯, 同时研究也揭示了当前生成式AI评估中存在的一些根本性挑战.

Wasserstein Gradient Flows for Batch Bayesian Optimal Experimental Design

Louis Sharrock

stat.ML cs.LG stat.CO stat.ME

本文提出了一种基于Wasserstein gradient flow的批量贝叶斯最优实验设计方法. 该方法通过将设计问题提升到概率测度空间并引入熵正则化, 将优化目标转化为一个Gibbs分布, 从而允许随机化批量设计. 为了处理大规模批量, 文章进一步考虑了平均场和i.i.d.乘积族近似, 并推导了相应的梯度流和粒子算法.

CRAFT: A Tendon-Driven Hand with Hybrid Hard-Soft Compliance

Leo Lin et al.

cs.RO cs.AI cs.CV

本文介绍了一种名为CRAFT的混合刚柔顺从性腱驱动仿人机械手设计。该设计通过在关节处使用软材料、连杆保持刚性，并采用滚动接触关节表面来提高耐用性和操作性能。实验表明，该机械手在结构强度、操作精细物体以及抓取覆盖范围方面表现良好，且成本较低。

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Agniv Sharma et al.

cs.CV cs.LG

本文提出了一个名为Hoi3DGen的框架，用于从文本描述生成高质量的3D人-物交互模型。该方法通过构建新的高质量交互数据集并设计一个完整的文本到3D生成流程，显著提升了生成结果与文本描述的一致性以及3D模型的质量。

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Quanhao Li et al.

cs.CV cs.AI cs.LG cs.MM

本文提出了一种名为FlashMotion的训练框架, 用于实现few-step trajectory-controllable video generation. 该方法通过结合adapter训练、模型蒸馏和混合目标微调, 在加速生成的同时保持了视频质量和轨迹精度.

Linking Perception, Confidence and Accuracy in MLLMs

Yuetian Du et al.

cs.CV cs.CL

本文针对多模态大语言模型(MLLMs)中存在的置信度校准问题，提出了置信度驱动的强化学习(CDRL)和置信度感知的测试时缩放(CA-TTS)框架。该框架通过协调多个模块，在多个基准测试上取得了显著的性能提升。

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

Zexuan Yan et al.

cs.CV cs.AI

本文提出了一种名为GlyphBanana的免训练方法, 通过一个智能体工作流整合辅助工具, 将字形模板注入到潜在空间和注意力图中, 以迭代优化生成图像, 从而提升复杂文本和数学公式渲染的精确度. 该方法可应用于多种文本到图像模型.

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

Jingyang Ke et al.

cs.CV cs.AI

本文提出了一个无需微调的视觉-语言框架BehaviorVLM, 用于动物姿态估计和行为理解. 该框架通过引导预训练的视觉-语言模型进行多阶段推理, 减少了人工标注需求, 并实现了从视觉信息直接进行行为分割与语义标注.

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

Abhinaba Basu, Pavan Chakraborty

cond-mat.mtrl-sci cs.AI cs.LG physics.comp-ph

本文提出了一种名为Proof-Carrying Materials (PCM)的框架，用于为机器学习原子间势能(MLIPs)提供可证伪的安全证书。该框架通过对抗性测试、置信区间构建和形式化验证来审计MLIPs的可靠性，并在材料筛选中展示了其有效性。

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Taylor Paul, William Regli

cs.DC cs.AI

本文提出了一个用于分布式数据流水线自动规划与调度的新领域WORKSWORLD. 它通过结合工作流图与资源图的表示, 允许用户定义数据源和组件, 由规划器自动构建工作流并调度其组件.

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

Bin Wan et al.

cs.CV cs.AI

本文提出了一种用于遥感图像显著目标检测的网络RDNet, 它使用SwinTransformer作为主干网络来建模全局上下文, 并引入了动态自适应细节感知模块、频率匹配上下文增强模块和区域比例感知定位模块来处理目标尺度变化和细节丢失问题. 实验表明该方法优于现有技术.

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

Andy Li et al.

cs.CV cs.LG

本文提出了一种用于Vision Transformers的多粒度随机自动剪枝框架HiAP. 该框架通过引入多粒度的随机门控机制, 在单次端到端训练中自动发现高效子网络, 简化了剪枝流程.

Interpreting Contrastive Embeddings in Specific Domains with Fuzzy Rules

Javier Fumanal-Idocin, Mohammadreza Jamalifard, Javier Andreu-Perez

cs.SC cs.LG

本文提出了一种结合 fuzzy rule-based classification system 与标准文本处理技术的方法, 用于将特定领域(如临床报告和影评)的特征映射到 CLIP 模型生成的向量空间中. 该方法旨在提升 CLIP 在特定领域任务中的可解释性, 并通过分析所获得的规则和特征重要性来验证其有效性.

Incremental Neural Network Verification via Learned Conflicts

Raya Elsaleh et al.

cs.LO cs.AI

本文提出了一种基于学习冲突的增量神经网络验证方法, 旨在减少在解决一系列相关验证查询时的冗余计算. 该方法通过记录并跨查询重用学习到的激活阶段冲突, 并利用SAT求解器进行一致性检查和传播, 从而在分支定界验证框架中实现早期剪枝. 实验表明,该方法在多个验证任务上能有效减少验证工作量.

BiGain: Unified Token Compression for Joint Generation and Classification

Jiacheng Liu et al.

cs.CV cs.LG

本文提出了BiGain, 一个用于加速扩散模型的无训练即插即用框架. 它通过频率感知的token压缩操作, 在保持生成质量的同时提升了加速后模型的分类能力.

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Xuanlang Dai et al.

cs.CV cs.CL

本文提出了一种名为EndoCoT的新框架, 旨在解决多模态大语言模型(MLLMs)作为文本编码器集成到扩散模型时存在的推理深度不足和引导信息僵化的问题. 该方法通过迭代思想引导模块和终端思想接地模块, 使MLLM能够进行链式推理并为去噪过程提供渐进式指导, 从而在多个复杂任务基准测试上取得了优异的性能.

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Fangfu Liu et al.

cs.CV cs.LG

本文提出了一种用于处理长视频流以进行空间理解的测试时训练方法 Spatial-TTT. 该方法通过动态调整模型参数来组织和记忆全局3D空间信息, 并在相关基准测试上取得了先进性能.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others