bluearXiv-ai - 2026-03-10

📄 所有论文 ↑ 回顶部

cs.LG

Spectral Conditioning of Attention Improves Transformer Performance ⭐ 精选

Hemanth Saratchandran, Simon Lucey

cs.LG

本文从理论上分析了transformer中attention block的Jacobian, 指出其性质由query, key和value投影决定. 基于此, 作者提出了一种通过系统性地改变每个attention层的spectral properties来降低Jacobian condition number的方法, 从而改善transformer网络中attention层的整体conditioning. 实验表明, 这种改进的Jacobian conditioning在实践中能转化为性能提升, 该方法简单通用, 可作为即插即用的模块应用于多种现有的attention机制.

Context Channel Capacity: An Information-Theoretic Framework for Understanding Catastrophic Forgetting ⭐ 精选

Ran Cheng

cs.LG cs.AI cs.IT

本文提出了一个名为"Context Channel Capacity" ($C_\mathrm{ctx}$) 的信息论框架来理解 catastrophic forgetting。该框架将 $C_\mathrm{ctx}$ 定义为 context signal 与生成参数之间的互信息，并证明零遗忘要求 $C_\mathrm{ctx} \geq H(T)$。作者建立了一个"Impossibility Triangle"，指出 sequential state-based learners 无法同时满足零遗忘、在线学习和有限参数，而 HyperNetworks 等 conditional regeneration architectures 通过将参数重新定义为函数值而非状态来绕过这一限制。在 Split-MNIST 和 CIFAR-10 上的大量实验验证了 $C_\mathrm{ctx}$ 对遗忘行为的完美预测能力，并提出了 Wrong-Context Probing 等诊断协议。

vLLM Hook v0: A Plug-in for Programming Model Internals on vLLM

Ching-Yun Ko, Pin-Yu Chen

cs.LG cs.CL cs.PL

本文介绍了vLLM Hook, 这是一个用于增强vLLM推理引擎可编程性的开源插件. 它允许用户被动捕获或主动干预模型内部状态, 以支持对抗提示检测和激活引导等应用.

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Runyu Peng et al.

cs.LG cs.CL

本文研究了Large Language Models中attention sink现象的形成机制, 特别是模型对输入序列首个token的持续关注. 作者提出了一个名为P0 Sink Circuit的简单机制来解释这一现象.

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

Jiajun Xu et al.

cs.LG cs.AI

本文提出了一种结合fuzz testing和reinforcement fine-tuning的方法, 用于自动生成能诱导Vision Language Models (VLMs)产生错误回答的问题, 以揭示其脆弱性. 该方法通过生成对抗性查询, 有效降低了多个目标VLM的答案准确率.

Switchable Activation Networks

Laha Ale et al.

cs.LG

本文提出了一种名为SWAN的框架, 通过为每个神经元单元引入一个确定性的, 输入依赖的二元门控机制, 使网络能够动态地学习激活模式. 这种方法旨在自适应地分配计算资源, 在保持精度的同时减少冗余, 为高效推理和模型部署提供了新的思路.

Khatri-Rao Clustering for Data Summarization

Martino Ciaperoni et al.

cs.LG stat.ML

本文提出了一种名为Khatri-Rao聚类的新范式，旨在通过假设聚类中心由更小的原型集相互作用产生，来生成更简洁的数据摘要。该方法被应用于k-Means和深度聚类，实验表明其能在保持准确性的同时减少摘要冗余。

Scale Dependent Data Duplication

Joshua Kazdan et al.

cs.LG cs.AI

本文研究了预训练数据重复的尺度依赖性问题. 作者通过分析梯度对齐和嵌入相似度, 发现随着模型规模增大, 语义重复数据的影响会加剧, 并推导了相应的缩放定律.

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Xie Xiaohu, Liu Xiaohu, Yao Benjamin

cs.LG cs.CL

本文提出了一种基于输出锚定token概率的归一化置信度分数, 用于检测LLM的错误和幻觉. 该方法在多个基准任务和模型上进行了验证, 并分析了不同训练方法对置信度校准的影响.

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

Joohyung Lee et al.

cs.LG

本文提出了一种用于处理异步临床时间序列的STAR Set Transformer模型. 该模型通过引入可学习的时间局部性惩罚和变量类型亲和力偏置, 在点集标记化方法中恢复了时间局部性和变量间上下文先验. 在三个ICU预测任务上的实验表明, 其性能优于常规网格、事件时间网格和先前的集合基线方法.

LegoNet: Memory Footprint Reduction Through Block Weight Clustering

Joseph Bingham, Noah Green, Saman Zonouz

cs.LG

本文提出了一种名为LegoNet的神经网络压缩技术。该方法通过将模型权重组织成块并进行聚类，实现了显著的内存占用减少，且无需重新训练或牺牲精度。

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Mohamed Salem

cs.LG

本文提出了一种结合Conditional Randomization Test (CRT)与TabPFN（一种用于表格数据的概率基础模型）的方法，用于进行特征级别的假设检验。该方法能在非线性及相关性设置下，为条件特征相关性提供有限样本有效的p值，且无需重新训练模型或进行参数假设。

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Lukas Thede et al.

cs.LG

本文提出了一个名为CapTrack的评估框架, 用于分析大语言模型(Large Language Model, LLM)在后训练(post-training)过程中产生的遗忘(forgetting)现象. 该框架超越了传统的准确性视角, 将遗忘定义为导致模型行为和用户体验退化的系统性模型漂移(systematic model drift), 并通过大规模实证研究揭示了不同后训练算法对模型多方面能力的影响.

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Yegor Denisov-Blanch et al.

cs.LG cs.AI

本文探讨了在缺乏外部验证器的领域(如真实性判断)中, 通过增加推理计算(如Pass@k, 投票式聚合)来提升大型语言模型(LLM)性能的局限性. 研究发现, 即使大幅增加计算成本, 聚合方法也无法带来一致性的准确性提升, 反而可能放大模型间的共同错误, 因为模型错误之间存在强相关性, 且模型更擅长预测其他模型的输出而非识别真相.

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Stamatis Mastromichalakis

cs.LG cs.AI cs.CV cs.NE

本文提出了一种名为 OptiRoulette 的随机元优化器，它在训练过程中动态选择更新规则而非固定使用单一优化器。该方法在多个图像分类基准测试中相比 AdamW 基线取得了更高的准确率和更快的收敛速度。

Correlation Analysis of Generative Models

Zhengguo Li, Chaobing Zheng, Wei Wang

cs.LG cs.CV

本文为 diffusion models 和 flow matching 模型提出了一个基于两个简单线性方程的统一表示。理论分析表明，现有模型中噪声数据与预测目标之间的相关性有时较弱，这可能影响核心的学习过程。

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Hantao Zhang et al.

cs.LG cs.AI

本文提出了一种名为Annealed Co-Generation (ACG)的框架，用于多变量协同生成。该方法通过成对建模而非联合建模来降低计算负担，并利用退火过程确保生成的一致性，在流场补全和抗体生成等任务上展示了有效性。

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

Sai Hao et al.

cs.LG cs.AI math.ST

本文提出了一种名为RACER的风险感知校准高效路由方法，用于在多LLM系统中优化查询路由。该方法通过构建嵌套模型集和校准阈值来控制误路由风险，并在实验中验证了其有效性。

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Junde Wu et al.

cs.LG cs.AI

本文提出了一种名为Evo的生成模型, 它将autoregressive (AR) 和diffusion-based的语言生成统一在一个连续的演化框架中. 该模型通过一个时间条件Transformer实现, 在多个基准测试上取得了有竞争力的结果, 同时保持了较快的推理速度.

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Alana Deng et al.

cs.LG cs.AI q-bio.QM

本文提出了一个用于多重生物网络(Multiplex Biological Networks)中零样本交互预测的新框架. 该框架利用领域特定的基础模型生成增强嵌入, 并引入拓扑感知的图标记器(tokenizer)来捕获网络的多重性和高阶连通性, 通过对比学习和师生蒸馏策略实现零样本泛化.

Not all tokens are needed(NAT): token efficient reinforcement learning

Hejian Sang et al.

cs.LG cs.AI

本文提出了一个名为NAT的框架, 用于在强化学习训练中仅使用生成token的一个子集来更新策略, 以减少计算和内存开销. 通过两种简单的token选择方案, 该方法在数学推理基准上实现了与全token更新相当的性能, 同时显著降低了训练成本.

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Rishabh Tiwari et al.

cs.LG

本文分析了Process Reward Models (PRMs)在对抗性攻击下的脆弱性。作者通过一个三级诊断框架揭示了PRMs更倾向于检测文本流畅度而非逻辑正确性，并发布了评估工具包。

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella

cs.LG cs.AI

本文比较了ARIMA, LSTM, BiLSTM和Transformer模型在电力负荷短期预测上的表现。基于PJM数据的实验表明，采用self-attention机制的Transformer模型在准确性和鲁棒性上均表现最佳。

Advances in GRPO for Generation Models: A Survey

Zexiang Liu, Xianglong He, Yangguang Li

cs.LG

本文是一篇关于Flow-GRPO及其发展的综述性文章. 它系统性地回顾了将Group Relative Policy Optimization (GRPO)扩展到生成模型以进行强化学习对齐的方法论改进和跨模态应用.

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

Ke Yu, Lu Gao

cs.LG cs.AI

本文提出了一种基于集体学习的图卷积网络(Graph Convolutional Networks)方法, 用于填补路面状况数据中的缺失值. 该方法通过整合相邻路段的特征和观测路段条件之间的依赖关系来学习缺失值, 并在实际数据案例中取得了良好的效果.

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

Yuqi Xu et al.

cs.LG cs.AI

本文提出了一种名为Grouter的预路由方法, 用于加速Mixture-of-Experts (MoE)模型的训练. 该方法通过从已训练好的MoE模型中提取高质量的路由结构, 并将其作为固定路由器, 从而将结构优化与权重更新解耦, 提升了训练速度和收敛质量.

Leakage Safe Graph Features for Interpretable Fraud Detection in Temporal Transaction Networks

Hamideh Khaleghpour, Brett McKinney

cs.LG cs.CR

本文提出了一种用于时序交易网络的防泄漏图特征提取方法, 并评估其在欺诈检测中的效用. 通过构建因果图特征并使用 Random Forest 分类器, 该方法在保持预测性能的同时增强了模型的可解释性.

A new Uncertainty Principle in Machine Learning

V.Dolotin, A.Morozov

cs.LG

本文讨论了机器学习中多项式Heavisidization过程引发的优化问题, 并将其类比为一种新的不确定性原理. 作者指出该原理与傅里叶分析中的不确定性原理类似, 并认为这类问题本质上是物理问题而非计算机科学问题.

Graph Property Inference in Small Language Models: Effects of Representation and Inference Strategy

Michal Podstawski

cs.LG

本文研究了小型语言模型在图属性推断任务中的表现, 重点分析了输入表示形式和推理策略的影响. 实验表明, 保持邻域结构的表示能提升性能, 而多分支推理策略能带来更可靠的增益.

SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts

Qingsong Zou et al.

cs.LG cs.AI

本文提出了首个面向LLM的智能家居数据集SmartBench, 用于评估LLM在包含正常与异常设备状态及状态转换上下文场景下的异常检测能力. 实验表明, 当前主流LLM在此任务上表现不佳, 揭示了基于LLM的智能助手在有效处理智能家居异常状况方面仍面临挑战.

HEARTS: Benchmarking LLM Reasoning on Health Time Series

Sirui Li et al.

cs.LG cs.AI

本文提出了一个用于评估大语言模型在健康时间序列数据上分层推理能力的基准测试HEARTS. 该基准整合了多个真实世界数据集和任务, 评估发现当前大语言模型在该领域表现不佳, 且难以处理复杂的时序推理.

SR-TTT: Surprisal-Aware Residual Test-Time Training

Swamynathan V P

cs.LG cs.AI cs.CL

本文提出了一种名为SR-TTT的新方法，用于改进Test-Time Training (TTT)语言模型在长上下文处理中的表现。该方法通过引入一个基于损失门控的稀疏记忆机制，解决了纯TTT架构在精确回忆任务上的失败问题。

Trust Aware Federated Learning for Secure Bone Healing Stage Interpretation in e-Health

Paul Shepherd et al.

cs.LG cs.AI

本文提出了一种用于骨愈合阶段判读的信任感知联邦学习框架, 通过自适应信任评分机制来筛选和过滤不可靠的客户端, 以提升分布式医疗传感环境下的模型训练稳定性和预测性能. 实验表明该方法能有效减轻恶意或不可靠参与者的负面影响.

HURRI-GAN: A Novel Approach for Hurricane Bias-Correction Beyond Gauge Stations using Generative Adversarial Networks

Noujoud Nadera et al.

cs.LG cs.AI

本文提出了一种名为HURRI-GAN的新方法，利用TimeGAN来校正物理风暴潮模拟模型的系统误差。该方法旨在减少对高分辨率计算网格的依赖，从而缩短预报时间，并在空间上外推水位校正数据。初步结果表明，该方法能够有效改善在无实测站点区域的预测精度。

Geodesic Gradient Descent: A Generic and Learning-rate-free Optimizer on Objective Function-induced Manifolds

Liwei Hu et al.

cs.LG cs.AI

本文提出了一种名为geodesic gradient descent (GGD)的Riemannian优化算法. 该算法通过在每次迭代时使用一个n维球面来局部近似目标函数诱导的超曲面, 从而适应复杂的几何结构, 并消除了对学习率的需求. 实验表明, 该算法在Burgers'和MNIST数据集上优于经典的Adam优化器.

ERP-RiskBench: Leakage-Safe Ensemble Learning for Financial Risk

Sanjay Mishra

cs.LG cs.AI

本文提出了一个名为ERP-RiskBench的、用于企业资源规划(ERP)系统金融风险检测的集成学习框架。该框架通过组合公开数据与合成数据构建基准，并采用防数据泄露的交叉验证流程来评估模型性能。

One step further with Monte-Carlo sampler to guide diffusion better

Minsi Ren et al.

cs.LG

本文提出了一种名为ABMS的即插即用调整策略，通过在反向去噪过程中增加一个蒙特卡洛采样步骤来改进基于SDE的生成模型的引导效果。实验表明该方法能有效提升多种条件生成任务中样本的质量。

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Karan Gupta et al.

cs.LG cs.AI

本文提出了一个名为ATLAS的强化微调框架, 旨在提升小型语言模型(SLMs)在大型工具空间中的agentic能力. 该方法通过可学习的上下文控制与程序化工具编排来约束上下文增长, 并利用基于量规的奖励进行训练, 使小模型在有限资源下接近前沿模型的性能.

From Statistical Fidelity to Clinical Consistency: Scalable Generation and Auditing of Synthetic Patient Trajectories

Guanglin Zhou et al.

cs.LG

本文提出了一种集成流程, 通过高保真生成和可扩展审计两个步骤来提升合成电子健康记录(EHR)的临床一致性. 该方法在保持整体统计特性的同时, 利用基于知识的生成模型和基于大语言模型(LLM)的自动审计模块来过滤临床不一致性. 实验表明, 审计后的合成数据在隐私保护和下游任务性能上表现良好.

ProtAlign: Contrastive learning paradigm for Sequence and structure alignment

Aditya Ranganath et al.

cs.LG cs.AI

本文提出了一种名为ProtAlign的对比学习框架, 用于对齐蛋白质序列和结构. 该模型通过在大规模序列-结构对上训练, 学习一个共享的嵌入空间, 从而支持跨模态检索并提升下游预测任务的性能.

Bi Directional Feedback Fusion for Activity Aware Forecasting of Indoor CO2 and PM2.5

Harshala Gammulle et al.

cs.LG cs.AI

本文提出了一种用于室内CO2和PM2.5浓度预测的双向反馈融合框架。该模型通过联合建模环境演变与人类活动嵌入，并引入上下文感知调制机制，以更好地捕捉由居住者行为引起的污染物浓度动态变化。

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

Yunzhong Qiu et al.

cs.LG cs.AI

本文提出了一种结合时间序列基础模型(TSFM)与回归模型的混合AI方法, 用于电力价格预测. 该方法通过冻结的TSFM生成预测特征来增强下游回归模型, 在实际数据上取得了优于现有方法的性能.

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

Jingyuan Feng et al.

cs.LG cs.AI

本文提出了一种名为Safe Transformer的方法, 通过在Transformer层间插入一个包含显式safety bit的离散信息瓶颈, 来增强预训练语言模型的安全对齐. 该方法旨在实现安全决策的可解释性和可控性, 仅需轻量级微调, 并在红队基准测试中取得了接近零的攻击成功率.

Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference

Ramchand Kumaresan

cs.LG cs.AR cs.CL

本文介绍了Orion, 一个绕过Apple CoreML框架、直接利用私有API对Apple Neural Engine (ANE)进行编程的系统. 它包含一个编译器和运行时, 支持在ANE上进行大型语言模型的推理和训练, 并通过权重更新技术显著提升了训练效率.

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Jiefu Zhang, Yang Xu, Vaneet Aggarwal

cs.LG cs.AI cs.RO

本文提出了一种用于密集人群导航的强化学习方法, 通过密度不变的观测编码和密度随机化训练实现了零样本的密度泛化. 该方法在训练未见的高密度场景中显著减少了碰撞和"冻结"现象, 在随机人群测试中达到了86%的无碰撞成功率.

Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention

Dongheon Lee et al.

cs.LG cs.AI

本文提出了一种名为Rank-factorized Implicit Neural Bias (RIB)的方法，以替代Super-Resolution Transformer中阻碍使用FlashAttention的相对位置偏置(RPB)。该方法通过低秩隐式神经表示来近似位置偏置，并将其与内容token在通道维度拼接，从而将注意力计算中的逐元素偏置加法转换为点积操作。结合提出的卷积局部注意力和循环窗口策略，该方法能够利用更大的窗口和训练块尺寸，在提升性能的同时显著减少了训练和推理时间。

Heterogeneous Decentralized Diffusion Models

Zhiying Jiang et al.

cs.LG cs.AI cs.CV

本文提出了一种高效的异构去中心化扩散模型训练框架, 显著降低了计算与数据需求. 该框架允许专家模型使用不同的训练目标(如 DDPM 和 Flow Matching), 并通过确定性的 schedule-aware 转换在推理时统一到共同的 velocity space, 无需重新训练.

Improved Constrained Generation by Bridging Pretrained Generative Models

Xiaoxuan Liang et al.

cs.LG cs.AI cs.RO

本文提出了一种约束生成框架, 通过微调预训练生成模型来直接生成满足复杂可行域约束的样本. 该方法在约束满足与样本质量之间取得了新的平衡.

Stabilizing Reinforcement Learning for Diffusion Language Models

Jianyuan Zhong et al.

cs.LG cs.AI

本文针对 Group Relative Policy Optimization (GRPO) 在 diffusion large language models (dLLMs) 上应用时出现的 reward collapse 问题进行了分析. 作者提出了 StableDRL 方法, 通过 unconditional clipping 和 self-normalization 等技术来稳定训练过程, 并将其扩展到了 block-wise diffusion models.

Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

Minjae Kang, Jaehyung Kim

cs.LG cs.AI

本文提出了一种名为DIRECTER的动态拒绝引导方法, 用于增强大型语言模型(LLMs)的指令遵循能力. 该方法通过动态调整KV缓存的引导强度, 并结合基于合理性的解码循环来缓解过度引导问题, 从而在提升指令遵循准确性的同时保持生成质量.

Property-driven Protein Inverse Folding With Multi-Objective Preference Alignment

Xiaoyang Hou et al.

cs.LG cs.AI

本文提出了一种名为ProtAlign的多目标偏好对齐框架, 用于微调预训练的蛋白质逆折叠模型, 以在保持结构保真度的同时满足多种可开发性目标. 该方法通过半在线直接偏好优化策略和基于计算预测器构建的偏好对, 在ProteinMPNN骨架上实现了可开发性的提升.

Latent Autoencoder Ensemble Kalman Filter for Data assimilation

Xin T. Tong, Yanyan Wang, Liang Yan

cs.LG math.NA stat.ME stat.ML

本文提出了一种结合autoencoder与线性稳定latent dynamics的ensemble Kalman filter变体, 用于非线性系统的数据同化. 该方法在学习的latent space中构建了一个闭合的线性状态空间模型, 从而与Kalman滤波框架兼容, 并在数值实验中表现出比标准方法更好的稳定性和精度.

Implementation of Quantum Implicit Neural Representation in Deterministic and Probabilistic Autoencoders for Image Reconstruction/Generation Tasks

Saadet Müzehher Eren

cs.LG quant-ph

本文提出了一种基于量子隐式神经表示(QINR)的自动编码器(AE)和变分自动编码器(VAE), 用于图像重建与生成任务. 该混合模型结合了经典卷积编码器和量子QINR解码器, 通过引入可学习的角度缩放等技术, 在MNIST等数据集上实现了清晰的图像重建与生成.

Learning Unbiased Cluster Descriptors for Interpretable Imbalanced Concept Drift Detection

Yiqun Zhang et al.

cs.LG cs.AI

本文提出了一种用于不平衡概念漂移检测的无偏聚类描述符学习方法. 该方法通过多分布粒度搜索识别不平衡概念, 并为每个概念训练独立的分类器来监测其漂移, 从而规避大簇的主导效应.

Enhancing SHAP Explainability for Diagnostic and Prognostic ML Models in Alzheimer Disease

Pablo Guillén, Enrique Frias-Martinez

cs.LG cs.AI

本文提出了一个用于评估Alzheimer病机器学习模型SHAP解释鲁棒性的多层级框架, 通过度量特征重要性一致性、跨疾病阶段稳定性以及跨诊断与预后任务的一致性来验证解释的可信度. 实验表明认知与功能标记在解释中占主导, 且SHAP解释在不同任务间表现出高度的稳定性.

Diversity-Aware Adaptive Collocation for Physics-Informed Neural Networks via Sparse QUBO Optimization and Hybrid Coresets

Hadi Salloum et al.

cs.LG cs.AI

本文提出了一种基于稀疏QUBO优化和混合核心集的多样性感知自适应配置点选择方法，用于物理信息神经网络(PINNs). 该方法将配置点选择重新解释为核心集构建问题，旨在从候选池中选择一个同时具有高信息量和低冗余度的子集，以提高训练效率.

Metalearning traffic assignment for network disruptions with graph convolutional neural networks

Serio Agriesti, Guido Cantelmo, Francisco Camara Pereira

cs.LG

本文提出了一种结合 meta-learning 与 graph convolutional neural network 的方法, 用于在路网结构(图)和出行需求(节点特征)同时发生变化时快速适应并预测交通流. 该方法旨在减轻构建覆盖所有相关模式的训练数据集的负担, 并在未见过的网络关闭和 OD 矩阵上取得了约 0.85 的 $R^2$ 分数.

Failure Detection in Chemical Processes using Symbolic Machine Learning: A Case Study on Ethylene Oxidation

Julien Amblard et al.

cs.LG cs.AI

本文探讨了在化学过程中使用symbolic machine learning进行故障预测的方法, 并以乙烯氧化过程为例进行了可行性研究. 该方法利用一个先进的symbolic learning系统, 从模拟数据中学习可解释的probabilistic rule模型, 并在实验中表现优于random forest等baseline方法.

Gauge Freedom and Metric Dependence in Neural Representation Spaces

Jericho Cain

cs.LG

本文从几何视角将神经网络表示空间视为具有一般线性群规范自由度的向量空间. 文中指出, 常用的相似性度量(如cosine similarity)是依赖于度量的, 其值在保持模型函数不变的坐标变换下会改变. 实验表明, 在训练好的模型中插入可逆变换会显著扭曲cosine similarity和最近邻结构, 但不改变预测结果.

HGT-Scheduler: Deep Reinforcement Learning for the Job Shop Scheduling Problem via Heterogeneous Graph Transformers

Bulent Soykan

cs.LG cs.AI cs.ET

本文提出了一种基于异构图Transformer的深度强化学习方法来解决Job Shop Scheduling Problem (JSSP). 该方法在标准基准实例上进行了评估, 结果表明显式建模不同类型的边有助于学习更有效的调度策略.

SpatialMAGIC: A Hybrid Framework Integrating Graph Diffusion and Spatial Attention for Spatial Transcriptomics Imputation

Sayeem Bin Zaman, Fahim Hafiz, Riasat Azim

cs.LG cs.AI

本文提出了一种名为SpatialMAGIC的混合框架，用于空间转录组学数据的插补。该模型结合了基于图的扩散方法和基于transformer的空间注意力机制，旨在处理数据的高稀疏性和技术噪声。实验表明，该方法在多个数据集上优于现有基线，并改善了后续生物学分析的可解释性。

xaitimesynth: A Python Package for Evaluating Attribution Methods for Time Series with Synthetic Ground Truth

Gregor Baer

cs.LG cs.AI

本文介绍了一个用于评估时间序列归因方法的Python工具包xaitimesynth. 该工具包通过生成包含已知判别性特征的合成时间序列数据, 为评估提供了可复现的ground truth, 并包含了标准的定位评估指标.

Physics-Informed Diffusion Model for Generating Synthetic Extreme Rare Weather Events Data

Marawan Yakout et al.

cs.LG cs.AI physics.ao-ph physics.geo-ph

本文提出了一种基于物理信息的扩散模型, 用于生成合成极端罕见天气事件数据. 该模型通过结合关键大气参数进行条件生成, 旨在缓解热带气旋快速增强检测任务中的数据稀缺和类别不平衡问题.

Optimistic Policy Regularization

Mai Pham, Vikrant Vaze, Peter Chin

cs.LG cs.AI

本文提出了一种名为Optimistic Policy Regularization (OPR)的轻量级机制, 旨在通过保留和强化历史成功轨迹来缓解深度强化学习中的过早收敛问题. 该方法在Atari游戏和网络安全环境CAGE Challenge 2的实验中, 基于PPO算法提升了样本效率和最终性能.

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Irene Wang et al.

cs.LG cs.DC stat.ML

本文提出了一个用于分布式深度学习设备放置的框架NEST, 它通过结构化的动态规划方法, 统一考虑网络拓扑、计算和内存约束, 以联合优化模型并行策略。该框架在多种硬件和网络上的评估显示, 其能获得比现有方法更高的吞吐量和更好的内存效率。

Multi-Agent Reinforcement Learning with Submodular Reward

Wenjing Chen et al.

cs.LG cs.DS

本文研究了具有 submodular reward 的 cooperative multi-agent reinforcement learning (MARL). 针对已知和未知环境动力学的情况, 分别提出了具有理论保证的算法.

Joint 3D Gravity and Magnetic Inversion via Rectified Flow and Ginzburg-Landau Guidance

Dhruman Gupta et al.

cs.LG

本文提出了一种基于 rectified flow 和 Ginzburg-Landau 正则化的联合 3D 重力和磁力反演框架. 该方法在 Noddyverse 数据集上进行了训练, 并引入了一个可插拔的物理引导模块来改善反演结果.

Contextual Counterfactual Credit Assignment for Multi-Agent Reinforcement Learning in LLM Collaboration

Yanjun Chen et al.

cs.LG cs.AI

本文提出了一种名为C3的上下文反事实信用分配方法, 用于解决LLM驱动的多智能体强化学习系统中仅依赖稀疏终端反馈导致的信用分配模糊问题. 该方法通过冻结上下文、评估替代消息并应用留一法基线来提取无偏的边际优势, 在数学和编程基准测试中提升了终端性能.

IGLU: The Integrated Gaussian Linear Unit Activation Function

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto

cs.LG cs.CV

本文提出了一种名为IGLU的参数化激活函数, 它通过半正态混合分布从GELU的尺度混合中推导而来, 形成了一个闭式表达式. IGLU使用重尾的Cauchy gate来保证所有有限输入处的非零梯度, 并提供了计算高效的有理近似版本IGLU-Approx. 实验表明, IGLU在视觉和语言任务上取得了有竞争力的性能.

Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy

Abdulrahman Alswaidan, Jeffrey D. Varner

cs.LG q-fin.CP

本文提出了一种基于Langevin dynamics的stochastic attention机制, 它通过在现代Hopfield energy上进行采样来实现. 该方法无需训练, 仅通过调节温度参数即可在精确检索和开放生成之间切换.

Physics-informed AI Accelerated Retention Analysis of Ferroelectric Vertical NAND: From Day-Scale TCAD to Second-Scale Surrogate Model

Gyujun Jeong et al.

cs.LG cs.AI physics.comp-ph

本文提出了一种基于物理信息神经算子(PINO)的AI代理模型, 用于高效预测铁电场效应晶体管(FeFET)垂直NAND的阈值电压漂移和保持特性. 该模型通过将基本物理原理嵌入学习架构, 相比传统TCAD工具实现了超过10000倍的加速, 同时保持了物理准确性.

Single-pass Possibilistic Clustering with Damped Window Footprints

Jeffrey Dale, James Keller, Aquila Galusha

cs.LG

本文提出了一种用于数据流的单次遍历可能性聚类算法(SPC). 该算法能够处理非球形簇, 并利用协方差联合方法合并聚类估计.

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Yan-Ying Chen et al.

cs.LG cs.CV

本文提出了一种基于大语言模型(LLM)的计算机辅助设计(CAD)程序数据增强方法。该方法通过参考曲面程序和建模过程来引导LLM生成更多样化的CAD程序，以弥补现有开源数据集中几何复杂性的不足。

XGenBoost: Synthesizing Small and Large Tabular Datasets with XGBoost

Jim Achterberg et al.

cs.LG

本文提出了两种基于XGBoost的生成模型XGenBoost, 分别适用于小规模和大规模混合类型表格数据的合成. 实验表明, 该方法在较低训练成本下超越了先前的神经和树基生成模型.

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Nandan Kumar Jha, Brandon Reagen

cs.LG

本文提出了一个名为 NerVE 的框架, 用于分析大语言模型中前馈网络在高维隐空间的信息流动态. 该框架通过跟踪几个互补的谱度量, 揭示了非线性激活和优化器几何形状如何影响隐维度的利用.

Swimba: Switch Mamba Model Scales State Space Models

Zhixu Du et al.

cs.LG

本文提出了一种名为Switch Mamba (Swimba)的方法，将Mixture-of-Experts (MoE)机制引入到选择性状态空间模型(SSM)中。该方法通过在参数空间混合专家来增加模型容量，同时保持单一状态轨迹和一次循环计算，从而控制了计算开销。实验表明，在计算量相当的情况下，Swimba相比基线模型取得了轻微的性能提升。

Physics-Consistent Neural Networks for Learning Deformation and Director Fields in Microstructured Media with Loss-Based Validation Criteria

Milad Shirani et al.

cs.LG cond-mat.soft cs.CE

本文针对具有微观结构的固体力学行为, 在单 director 的 Cosserat 弹性理论框架下, 提出了两种互补的计算方法: 基于变分原理的有限元格式和基于神经网络的求解器. 神经网络架构被设计为满足理论的基本运动学结构, 包括能量框架不变性和 director 场的单位长度约束. 此外, 作者推导了 Cosserat 模型的拟凸性条件、秩一凸性条件和 Legendre-Hadamard 不等式, 并将其转化为适用于评估神经网络预测的形式, 为物理一致性提供了基于稳定性的验证框架.

Joint MDPs and Reinforcement Learning in Coupled-Dynamics Environments

Ege C. Kaya, Mahsa Ghasemi, Abolfazl Hashemi

cs.LG math.OC

本文提出了 joint MDPs (JMDPs) 这一形式化框架，用于描述在共享外部随机性下能够采样多个动作反事实结果的环境。作者在一步耦合机制下，推导了高阶回报矩的 Bellman 算子，并给出了具有收敛保证的动态规划和增量算法。

Not All Neighbors Matter: Understanding the Impact of Graph Sparsification on GNN Pipelines

Yuhang Song et al.

cs.LG cs.DB

本文探讨了图稀疏化(graph sparsification)作为预处理步骤对图神经网络(GNN)性能的影响. 研究发现, 在保持甚至提升节点分类精度的同时, 稀疏化能显著加速大规模图上的训练与推理过程.

Chart-RL: Generalized Chart Comprehension via Reinforcement Learning with Verifiable Rewards

Xin Zhang et al.

cs.LG cs.CL

本文提出了一种名为 Chart-RL 的强化学习方法，通过引入可数学验证的奖励来提升视觉语言模型在图表问答任务上的性能。该方法在多个基准测试上超越了监督微调，并展现出对视觉扰动的鲁棒性以及从少量复杂样本中高效学习的能力。

Learning Quadruped Walking from Seconds of Demonstration

Ruipeng Zhang et al.

cs.LG cs.AI

本文提出了一种基于 imitation learning 的方法，用于从极少量演示数据中学习四足机器人行走策略。该方法通过分析系统极限环和 Poincaré return map 的结构，设计了一种在 latent space 中调节变化与输出动作对齐的机制。硬件实验表明，仅需数秒的演示即可离线训练出具有一定鲁棒性的运动策略。

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi

cs.LG cs.CV

本文提出了Conditional Unbalanced Optimal Transport (CUOT)框架，通过放松分布匹配约束来增强条件生成模型对异常值的鲁棒性。基于此框架构建的CUOTM模型在实验中展现了良好的性能。

NePPO: Near-Potential Policy Optimization for General-Sum Multi-Agent Reinforcement Learning

Addison Kalanther et al.

cs.LG cs.AI cs.GT

本文提出了一种名为NePPO的新方法, 用于在混合合作-竞争环境中计算近似Nash均衡. 该方法通过学习一个player-independent potential function, 并利用zero-order gradient descent进行优化, 在实验中表现优于MAPPO等基线算法.

Diffusion Controller: Framework, Algorithms and Parameterization

Tong Yang et al.

cs.LG cs.AI

本文提出了Diffusion Controller (DiffCon)框架, 将反向扩散采样统一表述为状态空间的随机控制问题. 该框架推导出基于$f$-divergence正则化的强化学习微调方法, 并在图像生成实验中展示了优于基线方法的性能.

Combinatorial Allocation Bandits with Nonlinear Arm Utility

Yuki Shibukawa et al.

cs.LG stat.ML

本文提出了一种新的在线学习问题Combinatorial Allocation Bandits (CAB), 该问题引入了arm satisfaction的概念, 旨在优化参与者满意度而非简单的匹配数量. 作者为此问题设计了UCB和TS算法, 并在合成数据上验证了其有效性.

RESCHED: Rethinking Flexible Job Shop Scheduling from a Transformer-based Architecture with Simplified States

Xiangjie Xiao et al.

cs.LG cs.AI

本文提出了一个名为ReSched的简约深度强化学习框架，用于解决柔性作业车间调度问题(FJSP)。该方法通过简化状态表示和使用改进的Transformer架构，在多个调度问题上取得了优于现有方法的性能。

Resource-Adaptive Federated Text Generation with Differential Privacy

Jiayi Wang, John Gounley, Heidi Hanson

cs.LG

本文提出了一种适应客户计算能力的联邦文本生成框架, 结合差分隐私(DP)技术. 该框架通过两阶段方法整合强弱客户端的贡献, 旨在生成可重用的合成数据以近似全局数据分布.

Interpretable Maximum Margin Deep Anomaly Detection

Zhiji Yang et al.

cs.LG

本文提出了一种可解释的最大间隔深度异常检测方法(IMD-AD), 通过引入少量标记异常样本和最大间隔目标来改进深度单类分类. 该方法避免了超球面塌陷问题, 并能够端到端地学习超球参数, 从而提供可解释的决策诊断.

Entropy-Aware On-Policy Distillation of Language Models

Woogyeol Jin et al.

cs.LG cs.CL

本文提出了一种用于语言模型知识蒸馏的熵感知方法, 通过结合 reverse KL 和 forward KL 来平衡模式精确性与覆盖性. 实验表明, 该方法在多个数学推理基准上提升了学生模型的性能, 并保持了生成多样性.

Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction

Michael Hauri, Friedemann Zenke

cs.LG

本文提出了一种基于连续确定性表示预测的JEPA风格预测器, 用于改进无重建的世界模型. 该方法在Crafter环境中达到了与Dreamer相当的性能, 表明无需重建目标也能有效学习世界模型.

Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR

Muhammad Khalifa et al.

cs.LG cs.AI cs.CL

本文提出了一个名为Countdown-Code的测试环境，用于研究强化学习中的奖励破解现象。该环境通过分离代理奖励与真实任务奖励，能够精确测量模型在代码生成任务中过度优化代理指标的行为。研究发现，即使在监督微调阶段混入少量奖励破解数据，也会导致模型在后续强化学习中重现并泛化这种错误行为。

Combining Adam and its Inverse Counterpart to Enhance Generalization of Deep Learning Optimizers

Tao Shi et al.

cs.LG stat.ML

本文提出了一种名为DualAdam的新优化器，它结合了Adam和其反向版本InvAdam的更新机制。该方法旨在提升深度神经网络在图像分类和大语言模型微调任务中的泛化性能。

Agentic Planning with Reasoning for Image Styling via Offline RL

Subhojyoti Mukherjee et al.

cs.LG

本文提出了一种基于工具使用的智能体规划框架, 通过结合链式推理和离线强化学习来改进图像风格化任务. 该方法利用合成数据训练, 在多个模型规模上验证了其有效性.

Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

Yuxuan Han et al.

cs.LG stat.ML

本文提出了一个用于多场景CUDA kernel优化的基准测试MSKernelBench和一个名为CUDAMaster的多智能体优化系统。该系统利用性能剖析信息自动构建编译执行工具链，在多种算子上实现了显著的性能提升，部分性能可媲美高度优化的闭源库。

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

Haonan Xu, Yang Yang

cs.LG cs.CV

本文提出了一种名为SPCP的方法, 通过塑造参数贡献模式来提升分类器的OOD检测鲁棒性. 该方法在训练中动态调整参数贡献, 鼓励模型学习更密集的贡献模式, 从而在不损害ID性能的前提下减少因异常参数激活导致的过度自信预测.

A Dual-Graph Spatiotemporal GNN Surrogate for Nonlinear Response Prediction of Reinforced Concrete Beams under Four-Point Bending

Zhaoyang Ren, Qilin Li

cs.LG

本文提出了一种双图时空图神经网络(GNN)替代模型, 用于预测钢筋混凝土梁在四点弯曲下的非线性响应. 该模型通过耦合节点级和单元级的图循环分支, 以多任务方式联合预测位移, 应力和全局反力, 显著降低了参数化有限元模拟的计算成本.

wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment

Jilong Liu et al.

cs.LG

本文提出了一种名为wDPO的鲁棒性LLM对齐方法, 通过分层缩尾处理来应对偏好数据中的噪声. 该方法区分了不同类型的噪声, 并分别进行数据层面和梯度层面的干预, 实验表明其在多个安全基准上提升了对齐的鲁棒性.

Margin in Abstract Spaces

Yair Ashlagi et al.

cs.LG math.FA

本文研究了 margin-based learning 在抽象空间中的理论基础. 作者证明了在任意度量空间中, 只要 margin 足够大, 基于距离函数的分类概念类就是可学习的, 这揭示了 triangle inequality 是保证可学习性的最小数学结构. 此外, 文章否定了 margin-based learnability 总能通过嵌入到线性空间来解释的可能性, 并建立了 Banach 空间中样本复杂度与 margin 参数之间的多项式缩放关系.

Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

Chuxue Cao et al.

cs.LG

本文研究了在金融领域应用大语言模型(LLM)时面临的挑战，并提出了一种基于数据蒸馏和难度感知训练的方法。通过构建高质量的训练数据集，该方法提升了模型在金融任务上的性能。

LightMedSeg: Lightweight 3D Medical Image Segmentation with Learned Spatial Anchors

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal

cs.LG cs.CV

本文提出了一种轻量化的3D医学图像分割架构LightMedSeg, 它通过整合解剖学先验与自适应上下文建模来提升效率. 该方法在保持接近大型Transformer模型精度的同时, 显著减少了参数量和计算量.

Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

Andrea Giuseppe Di Francesco, Andrea Rubbi, Pietro Liò

cs.LG cs.IR

本文提出了一种名为PT-RAG的检索增强生成框架，用于预测细胞对基因扰动的响应。该方法通过两阶段可微分检索机制，结合细胞状态信息来改进预测，并在基准数据集上取得了优于现有方法的效果。

Rethinking Deep Research from the Perspective of Web Content Distribution Matching

Zixuan Yu et al.

cs.LG cs.IR

本文提出了一种名为WeDas的框架, 旨在解决Deep Search Agent中推理驱动的查询与网络索引结构之间的错配问题. 该框架通过引入Query-Result Alignment Score和few-shot probing机制, 使智能体能够根据本地内容分布动态调整其子目标, 从而在多个基准测试中提升了任务完成的准确率.

LF2L: Loss Fusion Horizontal Federated Learning Across Heterogeneous Feature Spaces Using External Datasets Effectively: A Case Study in Second Primary Cancer Prediction

Chia-Fu Lin, Yi-Ju Tseng

cs.LG

本文提出了一种用于跨异构特征空间进行水平联邦学习的损失融合框架(LF2L), 并将其应用于第二原发癌症(SPC)的预测. 该方法通过融合来自本地和外部数据集(如SEER)的损失, 在保护数据隐私的同时提升了模型的预测性能(AUROC和AUPRC).

Turning Time Series into Algebraic Equations: Symbolic Machine Learning for Interpretable Modeling of Chaotic Time Series

Madhurima Panja, Grace Younes, Tanujit Chakraborty

cs.LG nlin.CD physics.data-an

本文提出了两种符号预测器, 用于从混沌时间序列数据中学习显式、可解释的代数方程. 它们在多个基准数据集上实现了有竞争力的单步预测精度, 同时提供了揭示潜在动力学特征的透明方程.

Adaptive Double-Booking Strategy for Outpatient Scheduling Using Multi-Objective Reinforcement Learning

Ninda Nurseha Amalina, Heungjo An

cs.LG

本文提出了一种结合个体化no-show预测与多目标强化学习的自适应门诊双预约框架. 该框架将调度问题建模为Markov决策过程, 并使用一种新颖的基于KL散度的规则在多策略间进行选择性知识迁移, 以决定何时进行单预约、双预约或拒绝预约请求.

Spectral Discovery of Continuous Symmetries via Generalized Fourier Transforms

Pavan Karjol, Kumar Shubham, Prathosh AP

cs.LG cs.AI

本文提出了一种基于广义傅里叶变换(GFT)的谱结构方法来发现连续单参数子群对称性. 该方法通过检测函数在不可约表示谱分解中的诱导稀疏模式来识别对称性, 避免了直接优化生成元.

AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

Nilesh Jain et al.

cs.LG

本文提出了一个名为AutoResearch-RL的框架，该框架利用强化学习代理自动进行神经架构和超参数的探索。代理通过修改训练脚本并评估性能来持续优化策略，最终在单GPU的基准测试中达到了与人工调优相当的效果。

Retrieval-Augmented Multi-scale Framework for County-Level Crop Yield Prediction Across Large Regions

Yiming Sun et al.

cs.LG

本文提出了一种用于大区域县级作物产量预测的检索增强多尺度框架. 该方法通过一个能捕捉短期和长期时间模式的主干模型, 并结合检索策略来适应空间异质性, 在真实数据上取得了优于基线模型的效果.

Adversarial Latent-State Training for Robust Policies in Partially Observable Domains

Angad Singh Ahuja

cs.LG cs.AI stat.ML

本文针对部分可观测强化学习中的分布偏移鲁棒性问题, 提出了一个对抗性潜在初始状态POMDP的设定. 通过理论分析证明了潜在极小极大原理, 并在Battleship基准测试中验证了结构化对抗性暴露训练能有效减少最坏情况下的性能差距.

ShakyPrepend: A Multi-Group Learner with Improved Sample Complexity

Lujing Zhang, Daniel Hsu, Sivaraman Balakrishnan

cs.LG

本文提出了一种名为ShakyPrepend的多组学习（multi-group learning）方法，该方法利用受差分隐私（differential privacy）启发的工具来改进理论保证。实验表明该方法能适应组结构和空间异质性，并为实际部署提供了指导。

Norm-Hierarchy Transitions in Representation Learning: When and Why Neural Networks Abandon Shortcuts

Truong Xuan Khanh, Truong Quynh Hoa

cs.LG cs.AI

本文提出了 Norm-Hierarchy Transition (NHT) 框架来解释神经网络在训练中延迟学习结构化表征的现象. 该框架认为, 在存在多个具有不同参数范数的插值解时, 权重衰减会驱使模型从高范数的捷径解缓慢过渡到低范数的结构化解.

Learning Concept Bottleneck Models from Mechanistic Explanations

Antonio De Santis et al.

cs.LG cs.AI

本文提出了一种名为Mechanistic CBM (M-CBM)的新方法, 用于构建可解释的Concept Bottleneck Models. 该方法通过Sparse Autoencoders从黑盒模型中提取概念, 并使用多模态LLM进行标注, 从而避免了预先定义概念可能带来的问题. 实验表明, 在控制信息泄漏和保持稀疏性的情况下, M-CBM的性能优于先前的CBM方法.

Learning Clinical Representations Under Systematic Distribution Shift

Yuanyun Zhang, Shi Li

cs.LG

本文提出了一种针对临床预测任务的 practice invariant representation learning 框架, 旨在解决因医疗机构实践差异导致的系统性分布偏移问题. 该方法结合了监督风险最小化、对抗性环境正则化和跨医院的不变风险惩罚, 在多个纵向 EHR 预测任务和跨机构评估中提升了模型的分布外鲁棒性.

Latent Generative Models with Tunable Complexity for Compressed Sensing and other Inverse Problems

Sean Gunn et al.

cs.LG cs.AI

本文提出了一种可调复杂度的隐式生成模型先验, 用于解决压缩感知等逆问题. 该方法通过引入 nested dropout 机制, 使得扩散模型、标准化流和变分自编码器能够动态调整其潜在表示的维度, 从而在表示误差和过拟合噪声之间取得平衡. 实验表明, 在多种逆问题任务中, 该可调先验比固定复杂度的基线模型获得了更低的信号重建误差.

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

Yucheng Xing, Xin Wang

cs.LG cs.CV

本文提出了一种用于长时域野火风险预测的层次化扩散模型 N-Tree Diffusion (NT-Diffusion). 该方法通过共享早期去噪阶段并在后期分支, 在保持预测精度的同时显著降低了计算成本.

Scaling Laws in the Tiny Regime: How Small Models Change Their Mistakes

Mohammed Alnemari, Rizwan Qureshi, Nader Begrazadah

cs.LG cs.AI

本文研究了在极小参数量（sub-20M）下神经网络的 scaling laws，发现其错误率遵循幂律，但指数比大型模型更陡峭。研究还表明，模型尺寸的变化不仅影响错误数量，也改变了错误的结构和校准特性。

Learning to Reflect: Hierarchical Multi-Agent Reinforcement Learning for CSI-Free mmWave Beam-Focusing

Hieu Le et al.

cs.LG

本文提出了一种用于毫米波系统中机械可重构智能反射面控制的层次化多智能体强化学习框架. 该框架采用"免CSI"范式, 利用用户定位数据替代信道估计, 并通过分层结构管理巨大的组合动作空间. 仿真结果表明, 该方法在接收信号强度、可扩展性和鲁棒性方面优于集中式基线.

ConfHit: Conformal Generative Design with Oracle Free Guarantees

Siddhartha Laghuvarapu, Ying Jin, Jimeng Sun

cs.LG cs.AI

本文提出了一个名为ConfHit的框架, 用于为生成模型(特别是在药物发现领域)提供无需实验验证(oracle)的统计保证. 该框架通过加权可交换性和密度比加权conformal p-value等方法, 旨在保证生成的候选集中至少包含一个满足特定属性的"命中"分子, 并能在保持统计保证的同时对候选集进行精炼.

Sparsity and Out-of-Distribution Generalization

Scott Aaronson, Lin Lin Lee, Jiawei Li

cs.LG cs.AI

本文提出了一种基于稀疏性假设的OOD泛化理论框架. 该框架认为, 依赖于尽可能少特征的稀疏假设, 在训练与测试分布于相关特征上的限制足够重叠时, 能够实现泛化. 作者将经典样本复杂度界推广到OOD场景, 并将稀疏分类器概念扩展至子空间junta.

Feed m Birds with One Scone: Accelerating Multi-task Gradient Balancing via Bi-level Optimization

Xuxing Chen et al.

cs.LG math.OC

本文提出了一个名为MARIGOLD的统一算法框架, 用于高效解决多任务学习(MTL)中的优化问题. 该方法将多任务梯度平衡问题建模为一个双层优化问题, 并利用零阶方法进行高效求解, 在公开和工业数据集上验证了其效率.

Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval

Rian Atri

cs.LG

本文提出了一种基于确定性双编码器和透明模糊分类带的合规性分类与证据检索方法. 该方法在ACORD和CUAD数据集上进行了评估, 通过将标量合规分数映射到三个决策区域, 实现了可解释且可复现的证据筛选系统.

Generalizing Linear Autoencoder Recommenders with Decoupled Expected Quadratic Loss

Ruixin Guo et al.

cs.LG

本文提出了一种基于解耦期望二次损失(DEQL)的线性自编码器(LAE)推荐系统泛化方法. 该方法扩展了原有EDLAE模型的目标函数, 并利用Miller矩阵逆定理确保了计算可行性. 实验表明, 新方法在基准数据集上取得了更好的测试性能.

DualSpec: Accelerating Deep Research Agents via Dual-Process Action Speculation

Shuzhang Zhong et al.

cs.LG

本文提出了一种名为 DualSpec 的异构推测框架，用于加速基于大语言模型的深度研究智能体。该框架通过分析动作的异质性，为不同类型的动作设计了不同的推测策略，并引入了一个轻量级的语义验证器。实验表明，该方法能在保持准确性的同时，显著降低端到端延迟。

OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions

Charles Luo

cs.LG cs.AI

本文提出了一种名为OrthoFormer的新型Transformer架构, 旨在解决序列建模中的因果推断问题. 它通过将工具变量估计嵌入到Transformer块中, 以减少由潜在混杂因子引起的伪关联.

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Suorong Yang et al.

cs.LG cs.CV

本文提出了一种名为Data Agent的端到端动态数据选择框架, 将数据选择建模为与训练过程协同演化的序列决策问题. 该方法通过一个复合奖励信号(结合了基于损失的难度和基于置信度的不确定性)来学习样本选择策略, 并在多个数据集和架构上验证了其加速训练且保持性能的效果.

Cost-Driven Representation Learning for Linear Quadratic Gaussian Control: Part II

Yi Tian et al.

cs.LG eess.SY math.OC stat.ML

本文研究了从部分高维观测中学习状态表示以用于控制的问题, 提出了两种基于成本驱动的表示学习方法, 并针对无限时域时不变LQG控制问题, 为学习到的表示函数和控制器提供了有限样本的近似最优性保证. 其中第二种方法与MuZero算法类似, 通过预测累积成本来隐式学习潜在动态.

Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Yael S. Elmatad

cs.LG

本文提出了一种用于表格预测的离散化tokenization方法, 结合Gaussian smoothing, 使Transformer模型在多个指标上超越了传统的gradient boosting方法. 该方法通过离散化环境上下文和平滑标签来生成校准的概率密度函数, 并在大规模数据集上验证了其有效性.

Contact-Guided 3D Genome Structure Generation of E. coli via Diffusion Transformers

Mingxin Zhang et al.

cs.LG cs.AI

本文提出了一种基于条件扩散-Transformer的框架, 用于生成由Hi-C接触图引导的大肠杆菌三维基因组构象集合. 该模型在潜在扩散设置下运行, 通过Transformer编码器和交叉注意力注入Hi-C信息, 并采用流匹配目标进行训练. 在测试集上, 生成的构象集合能复现输入的Hi-C距离衰减和结构相关性度量, 同时保持显著的构象多样性.

Interpretable-by-Design Transformers via Architectural Stream Independence

Clayton Kerce, Alexis Fox

cs.LG cs.AI

本文提出了一种通过架构设计实现可解释性的方法, 即"架构流独立性". 作者设计了Late Fusion Architecture (LFA)来验证这一原则, 并通过实验表明其能更好地保持模块化和语义理解.

Enhanced Random Subspace Local Projections for High-Dimensional Time Series Analysis

Eman Khalid et al.

cs.LG

本文提出了一种增强的随机子空间局部投影(RSLP)框架，用于高维时间序列分析。该方法通过加权聚合、自适应子空间选择等技术，提高了脉冲响应估计的稳定性，并在合成与宏观经济数据上验证了其有效性。

A Unified Framework for Knowledge Transfer in Bidirectional Model Scaling

Jianlu Shen et al.

cs.LG

本文提出了一个名为BoT的统一框架, 用于在不同架构大小的模型之间进行双向知识迁移. 它将模型权重视为连续信号, 并利用离散小波变换及其逆变换来实现参数无关且高效的上采样和下采样操作.

Online Continual Learning for Anomaly Detection in IoT under Data Distribution Shifts

Matea Marinova et al.

cs.LG

本文提出了一种名为OCLADS的通信框架, 用于在非平稳环境下进行IoT异常检测. 该框架通过设备端的智能样本选择和边缘服务器的分布漂移检测机制, 减少了模型更新次数并保持了较高的推理精度.

A Unified View of Drifting and Score-Based Models

Chieh-Hsin Lai et al.

cs.LG cs.AI cs.CV

本文探讨了drifting models与score-based models之间的理论联系. 它证明了在Gaussian kernel下, drifting的mean-shift field等价于平滑后分布的score difference, 从而建立了与score-matching principle的精确对应. 对于更一般的radial kernel, 文章也给出了理论分解和误差分析.

Reinforcement learning-based dynamic cleaning scheduling framework for solar energy system

Heungjo An

cs.LG

本文提出了一种基于强化学习的动态清洁调度框架, 用于优化干旱地区光伏面板的清洁计划. 该框架使用PPO和SAC算法, 在案例研究中显示出比传统方法更高的成本节约.

One-for-All Model Initialization with Frequency-Domain Knowledge

Jianlu Shen et al.

cs.LG

本文提出了一种基于频率域知识迁移的模型初始化方法 FRONT. 该方法通过离散余弦变换(DCT)从预训练模型中提取低频"learngene", 并可通过截断或填充操作将其适配到任意大小的下游模型进行初始化. 实验表明该方法能加速收敛并减少训练计算量.

Neural Dynamics-Informed Pre-trained Framework for Personalized Brain Functional Network Construction

Hongjie Jiang, Yifei Tang, Shuqiang Wang

cs.LG cs.AI

本文提出了一种基于神经动力学预训练的个性化脑功能网络构建框架. 该框架旨在克服传统基于图谱和线性假设的方法在异质场景下的局限性, 通过提取个性化表征来指导脑区划分和相关性估计, 并在多个任务的数据集上验证了其优越性能.

Generative prediction of laser-induced rocket ignition with dynamic latent space representations

Tony Zahtila et al.

cs.LG

本文提出了一种结合convolutional autoencoders和neural ODEs的数据驱动代理模型方法, 用于快速预测激光点火火箭发动机中的多物理场湍流模拟. 该方法将高维流场压缩到低维latent space并用neural ODEs学习其动态, 从而大幅降低计算成本.

Obliviator Reveals the Cost of Nonlinear Guardedness in Concept Erasure

Ramin Akbari, Milad Afshari, Vishnu Naresh Boddeti

cs.LG

本文提出了一种名为Obliviator的后处理概念擦除方法, 旨在通过捕获非线性统计依赖来防御非线性对手. 该方法采用迭代方式逐步调整特征空间, 在擦除过程中量化了非线性防护的成本, 并展示了其在不同模型上的泛化能力.

ECG Classification on PTB-XL: A Data-Centric Approach with Simplified CNN-VAE

Naqcho Ali Mehdi, Amir Ali

cs.LG

本文提出了一种数据中心的ECG分类方法, 使用简化的CNN-VAE架构, 在PTB-XL数据集上取得了有竞争力的结果. 研究强调了数据预处理和类别平衡策略的重要性, 而非一味增加模型复杂度.

Constraints Matrix Diffusion based Generative Neural Solver for Vehicle Routing Problems

Zhenwei Wang et al.

cs.LG

本文提出了一种融合神经网络框架, 利用离散噪声图扩散模型学习车辆路径问题(VRP)的约束并生成约束分配矩阵, 以增强自回归求解器的特征表示和决策过程. 实验表明该模型在多个基准数据集上取得了先进的性能.

TS-MLLM: A Multi-Modal Large Language Model-based Framework for Industrial Time-Series Big Data Analysis

Haiteng Wang et al.

cs.LG

本文提出了一个名为TS-MLLM的多模态大语言模型框架，用于工业时间序列大数据分析。该框架通过整合时序信号、频域图像和文本知识，并设计了专门的建模与融合机制，在多个工业基准测试中取得了优于现有方法的表现。

TT-Sparse: Learning Sparse Rule Models with Differentiable Truth Tables

Hans Farrell Soegeng, Sarthak Ketanbhai Modi, Thomas Peyrin

cs.LG

本文提出了一种名为TT-Sparse的神经网络模块，它利用可微分的truth tables来学习稀疏且有效的连接。该方法通过一种新的soft TopK算子实现端到端的可微分特征选择，并能将模型精确转换为紧凑的、可全局解释的布尔公式。在多个数据集上的实验表明，该方法在保持较低复杂度的同时，取得了优越的预测性能。

Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

Jiajun He et al.

cs.LG cs.CV

本文提出了一种新的视觉表示框架, 将视觉信号编码为函数, 该函数由附加在冻结视觉生成模型上的低秩适配参数化. 这种隐式表示可以实现极低比特率下的感知视频压缩, 并支持推理时的缩放与控制, 为连接视觉压缩与生成提供了一个统一的框架.

Helix: Evolutionary Reinforcement Learning for Open-Ended Scientific Problem Solving

Chang Su et al.

cs.LG

本文提出了一种名为HELIX的层次化进化强化学习框架, 用于解决开放式的科学问题. 该方法结合了in-context learning和强化学习, 在circle packing等任务上取得了先进的结果.

Partial Differential Equations in the Age of Machine Learning: A Critical Synthesis of Classical, Machine Learning, and Hybrid Methods

Mohammad Nooraiepour et al.

cs.LG math.AP

本文对求解偏微分方程(PDE)的经典数值方法与机器学习方法进行了批判性综述与比较。文章建立了一个统一的评估框架来分析两者的优缺点，并探讨了将两者结合的混合方法设计原则。

Beyond Surrogates: A Quantitative Analysis for Inter-Metric Relationships

Yuanhao Pu, Defu Lian, Enhong Chen

cs.LG

本文提出了一个量化不同评估指标间关系的理论框架, 旨在解决离线验证指标与在线性能不匹配的"度量失配"问题. 该框架通过 Bayes-Optimal Set 和 Regret Transfer 等概念分析指标间的结构不对称性.

Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization

Anirudh Satheesh et al.

cs.LG

本文提出了一种针对带约束的MDPs的原始-对偶自然行动者-批评者算法，该算法结合了神经网络批评者估计与自然策略梯度更新。利用神经正切核理论来控制函数逼近误差，并建立了全局收敛性保证。

Step-Size Decay and Structural Stagnation in Greedy Sparse Learning

Pablo M. Berná

cs.LG math.NA

本文研究了贪婪稀疏学习算法中步长衰减对收敛性的影响. 通过分析具有可控特征相关性的可实现回归问题, 作者证明了过快的步长衰减会导致结构停滞, 即使是在低维稀疏场景下. 数值实验验证了理论预测.

Reverse Distillation: Consistently Scaling Protein Language Model Representations

Darius Catrina et al.

cs.LG q-bio.BM

本文提出了 Reverse Distillation 方法，用于解决蛋白质语言模型 (PLM) 性能随规模增长不稳定的问题。该方法通过将大模型的表示分解为受小模型引导的正交子空间，构建了嵌套式嵌入，从而确保了大模型性能的稳定提升。

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

Jinshan Liu et al.

cs.LG cs.AI

本文提出了一种针对Federated Graph Learning (FedGL) 的新型分布式对抗攻击方法 FedShift. 该方法采用两阶段的"Hide and Find"策略, 通过在训练前注入可学习的"shifter"并在训练后利用全局模型信息高效生成对抗扰动, 实现了高攻击成功率、强隐蔽性和高效率.

Uncertainty-Gated Generative Modeling

Xingrui Gu, Haixi Zhang

cs.LG

本文提出了一种用于金融时间序列预测的 Uncertainty-Gated Generative Modeling (UGGM) 方法。该方法利用不确定性作为内部控制信号来改进模型的表示、传播和生成过程，并在实验中取得了预测误差的显著降低。

Using GPUs And LLMs Can Be Satisfying for Nonlinear Real Arithmetic Problems

Christopher Brix et al.

cs.LG

本文提出了一种结合LLMs和GPU加速的新方法, 用于求解quantifier-free nonlinear real arithmetic (NRA)问题, 并实现了新的SMT求解器GANRA. 在标准测试集上的评估表明, 该方法在求解时间和可证明的实例数量上相比现有技术有显著提升.

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Zongqian Li et al.

cs.LG cs.CL cs.GL

本文提出了一种改进的强化学习方法 MicroCoder-GRPO，用于解决现代代码生成模型训练中的瓶颈问题。该方法通过引入条件截断掩码等技术，提升了模型在长输出场景下的表现和训练稳定性。同时，作者还发布了一个更具挑战性的训练数据集和一个评估框架，并通过大量实验总结了多项训练见解。

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

Jinzhou Tan, Gabriel Adineera, Jinoh Kim

cs.LG cs.AI

本文提出了一种名为ProgAgent的持续强化学习智能体, 它通过从无标签专家视频中学习任务进度感知的奖励, 并结合高效的JAX系统架构, 旨在解决机器人终身学习中的灾难性遗忘和奖励标注成本高的问题. 在多个基准测试中, 该方法在减少遗忘和提升学习速度方面表现优于现有基线.

Vision Transformers that Never Stop Learning

Caihao Sun et al.

cs.LG

本文研究了 Vision Transformers (ViTs) 在持续学习中的可塑性丧失问题. 通过分析发现, attention 模块的不稳定性和前馈网络模块的退化是主要原因, 并提出了一个名为 ARROW 的几何感知优化器来缓解此问题.

Neural Precoding in Complex Projective Spaces

Zaid Abdullah et al.

cs.LG

本文提出了一种基于复射影空间(Complex Projective Space, CPS)的深度学习预编码框架，用于多用户MISO系统。该方法通过消除传统信道与预编码器表示中的全局相位冗余，提升了模型的学习效率和泛化性能。

Gradient Iterated Temporal-Difference Learning

Théo Vincent et al.

cs.LG cs.AI

本文提出了一种名为Gradient Iterated Temporal-Difference learning的新算法，旨在结合迭代TD学习的速度优势与梯度TD方法的稳定性。该方法通过计算对移动目标的完整梯度，试图解决传统半梯度方法可能发散的问题。实验表明，该算法在包括Atari游戏在内的多个基准测试中，其学习速度可与半梯度方法竞争。

Guess & Guide: Gradient-Free Zero-Shot Diffusion Guidance

Abduragim Shtanchaev et al.

cs.LG

本文提出了一种名为Guess & Guide的轻量级似然替代方法, 用于在预训练扩散模型中进行零样本引导. 该方法避免了在去噪步骤中计算梯度的需求, 从而显著降低了贝叶斯逆问题求解的计算成本. 实验表明, 该方法在多种任务中实现了高效的推理性能.

Slumbering to Precision: Enhancing Artificial Neural Network Calibration Through Sleep-like Processes

Jean Erik Delanois et al.

cs.LG cs.AI

本文提出了一种受生物睡眠启发的神经网络校准方法 Sleep Replay Consolidation (SRC). 该方法通过选择性重放内部表征来更新权重, 无需监督再训练即可改善模型预测概率的可靠性.

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Noah Golowich et al.

cs.LG cs.AI cs.CL math.ST stat.ML

本文从 Sequential Monte Carlo (SMC) 等 particle filtering 算法的视角，为语言模型推理中聚合与剪枝多样本的方法提供了理论分析框架。研究探讨了在给定基础模型和过程奖励模型下，采样目标分布的准确性与计算成本之间的权衡，并给出了理论准则与改进算法。

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Colin Aitken et al.

cs.LG cs.AI econ.GN physics.ao-ph

本文提出了一个决策理论框架，用于为异质性农户设计季节性降雨概率预报。该系统结合了AI天气预测模型和一个新的贝叶斯统计模型，以生成更准确的印度季风起始预报，并于2025年在印度进行了大规模部署应用。

LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization

Lizhi Ma et al.

cs.LG

本文提出了一个名为LeJOT-AutoML的agent-driven AutoML框架，用于优化Databricks作业执行时间的预测。该框架利用LLM agents分析作业脚本与日志，自动生成并验证特征提取代码，从而将特征工程周期从数周缩短至约半小时。

Bayesian Transformer for Probabilistic Load Forecasting in Smart Grids

Sajib Debnath, Md. Uzzal Mia

cs.LG stat.ML

本文提出了一种用于智能电网概率负荷预测的Bayesian Transformer框架. 该模型在PatchTST骨干网络中集成了多种不确定性量化机制, 并通过后处理校准生成预测区间. 在多个电网数据集上的实验表明, 其预测区间覆盖率和锐度优于现有基准模型.

DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models

Zihao Zheng et al.

cs.LG cs.RO

本文提出了一种用于具身视觉-语言-动作(VLA)模型的动态量化框架DyQ-VLA. 它通过基于实时运动学代理的敏感度感知切换策略和动态位宽分配, 在显著减少内存占用和提升推理速度的同时, 保持了模型性能.

Semantic Risk Scoring of Aggregated Metrics: An AI-Driven Approach for Healthcare Data Governance

Mohammed Omer Shakeel Ahmed

cs.LG cs.CY

本文提出了一种用于医疗数据治理的模块化AI框架, 通过分析SQL查询的语义和句法特征来评估聚合指标定义的隐私风险. 该框架将查询解析为抽象语法树, 提取敏感模式, 并利用预训练的CodeBERT嵌入和XGBoost分类器为查询分配风险分数, 从而实现执行前的静态、可解释的检测.

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

Yusong Wang et al.

cs.LG cs.AI

本文提出了一个名为ELLMob的自对齐LLM框架，用于生成事件驱动的人类移动轨迹。该方法基于Fuzzy-Trace Theory，通过协调习惯模式与事件约束来合成轨迹，并在一个新构建的事件标注数据集上验证了其有效性。

PSTNet: Physically-Structured Turbulence Network

Boris Kriuk, Fedor Kriuk

cs.LG cs.AI

本文提出了一种用于实时估计大气湍流强度的轻量级神经网络架构 PSTNet. 该模型通过将 Monin-Obukhov 理论等物理定律直接编码到网络结构中, 在保证预测符合基本物理标度律的同时, 实现了极高的参数效率.

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Qianyu Yang et al.

cs.LG cs.AI cs.CL

本文提出了一个名为 OneMillion-Bench 的新基准测试，用于评估语言模型在专业领域作为智能体的能力。该基准包含多个领域的专家级任务，并采用基于量规的评估协议来综合衡量智能体的表现。

MJ1: Multimodal Judgment via Grounded Verification

Bhavesh Kumar, Dylan Feng, Leonard Tang

cs.LG

本文提出了一种名为MJ1的多模态判断模型, 它通过强化学习训练, 并引入了一种结构化的grounded verification chain来确保决策基于视觉证据. 该方法在MMRB2基准测试上取得了显著的性能提升, 甚至超过了参数量大得多的模型.

Amortizing Maximum Inner Product Search with Learned Support Functions

Theo X. Olausson et al.

cs.LG stat.ML

本文提出了一种基于学习的 amortized MIPS 方法, 通过训练神经网络来直接预测查询与固定键集之间的最大内积搜索 (MIPS) 结果. 该方法利用 MIPS 值函数与集合支撑函数 (support function) 的等价性, 设计了两种互补的神经网络模型 (SupportNet 和 KeyNet) 来近似该函数或其梯度, 从而在推理时摊销计算成本. 实验表明, 该方法在特定查询分布下能有效压缩数据库并实现高匹配率.

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

Peishen Yan et al.

cs.LG cs.AI

本文提出了一种名为FedMomentum的新框架，用于解决联邦微调中LoRA模块聚合时的噪声与结构表达力损失问题。该方法通过SVD重构低秩更新，旨在保留训练动量并提升收敛性能。

Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

Jingwei Li, Xinran Gu, Jingzhao Zhang

cs.LG

本文提出了一种用于优化大语言模型数据混合比例的计算高效方法. 该方法通过建模验证损失与模型规模及数据混合之间的非线性关系, 并引入损失到基准性能的预测法则, 来预测目标模型的性能, 从而显著降低了优化成本.

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

Zhengyu Li et al.

cs.LG cs.AI

本文提出了一种用于带外生变量的时间序列预测的图一致生成网络(GCGNet). 该方法通过变分生成器、图结构对齐器和图精炼器来联合建模时间与通道相关性, 并在多个真实数据集上验证了其有效性.

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Jiayu Huang et al.

cs.LG

本文提出了一种名为SFed-LoRA的联邦学习框架，旨在解决LoRA方法在联邦学习场景中因聚合更新而导致的不稳定问题。该框架通过理论推导出一个最优的缩放因子来缓解聚合误差，从而提升了高秩适配器的训练稳定性和收敛速度。

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar

cs.LG q-bio.GN

本文提出了一种基于深度学习和对抗训练的domain adaptation框架, 用于在异质RNA-seq数据集之间进行知识迁移, 以提升小规模数据集上的表型预测性能. 该方法通过联合优化分类和domain alignment目标来学习domain-invariant的潜在表示, 并在多个大型转录组数据集上验证了其在癌症和组织类型分类任务中的有效性.

Deterministic Differentiable Structured Pruning for Large Language Models

Weiyu Huang et al.

cs.LG cs.CL

本文提出了一种用于大语言模型结构化剪枝的确定性可微分方法(DDP). 该方法通过直接优化离散$l_0$目标的确定性软代理, 避免了先前随机松弛方法带来的训练-测试不匹配问题, 并实现了更快的收敛. 实验在多个模型上验证了其有效性, 在保持下游任务性能的同时获得了实际的推理加速.

Hybrid Quantum Neural Network for Multivariate Clinical Time Series Forecasting

Irene Iele et al.

cs.LG

本文提出了一种用于多元临床时间序列预测的混合量子神经网络. 该模型将变分量子电路集成到循环神经网络中, 在BIDMC数据集上进行了验证, 结果显示其具有与传统方法相当的预测精度和更强的鲁棒性.

Tiny Autoregressive Recursive Models

Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar

cs.LG

本文探讨了将 Tiny Recursive Models (TRMs) 的 refinement 机制引入自回归模型的可能性. 通过一系列受控实验, 作者发现某些两阶段优化基线模型表现良好, 但完整的自回归 TRM 架构并未带来可靠的性能提升.

EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs

Chang Han, Yijie Hu, Jingling Liu

cs.LG cs.PL

本文提出了一种名为EAGLE-Pangu的系统，用于在昇腾NPU上实现树状推测解码。该系统通过设计分支/提交缓存管理器、安全的张量化方法以及可调试的验证路径，提升了大型语言模型推理的吞吐量。

Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

Guangnian Wan et al.

cs.LG

本文提出了一种利用隐写术对大型语言模型进行恶意微调的方法, 使模型在看似正常的交互中隐藏并生成有害内容. 该方法在多个模型上得到验证, 能够绕过现有的安全分类器检测.

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

Zhongjian Qiao et al.

cs.LG

本文提出了一种名为ROMI的鲁棒值感知模型学习方法, 用于改进基于模型的离线强化学习. 该方法通过引入可调节保守性的状态不确定性集和隐式可微自适应加权, 旨在稳定模型更新并提升分布外泛化能力.

Explainable Condition Monitoring via Probabilistic Anomaly Detection Applied to Helicopter Transmissions

Aurelio Raffa Ugolini et al.

cs.LG stat.ML

本文提出了一种仅使用健康数据进行状态监测的可解释方法, 通过仅学习健康观测数据的概率分布来实现运行时异常检测. 该方法基于贝叶斯视角进行不确定性量化, 并在两个实际案例中验证了其检测性能.

Mitigating Homophily Disparity in Graph Anomaly Detection: A Scalable and Adaptive Approach

Yunhui Liu et al.

cs.LG

本文提出了一种名为SAGAD的可扩展自适应图异常检测框架。它通过预计算多跳嵌入和应用重参数化Chebyshev滤波器来高效捕获同质和异质模式，并设计了自适应融合机制与频率偏好损失来缓解节点级和类级的同质性差异问题。

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Mingxi Zou et al.

cs.LG cs.AI

本文提出了一种名为DARC的推理时方法, 用于处理基于偏好的对齐方法中的人类偏好异质性问题. 该方法通过风险约束的解码来重新排序候选响应, 旨在控制风险并减少分歧, 而无需重新训练模型.

Training event-based neural networks with exact gradients via Differentiable ODE Solving in JAX

Lukas König et al.

cs.LG

本文提出了Eventax框架, 它结合了可微分的数值ODE求解器和基于事件的脉冲处理, 用于训练脉冲神经网络. 该框架在JAX中实现, 支持多种神经元模型和损失函数, 并通过多个基准测试展示了其灵活性和实用性.

C$^2$FG: Control Classifier-Free Guidance via Score Discrepancy Analysis

Jiayang Gao et al.

cs.LG

本文分析了Classifier-Free Guidance (CFG)方法，指出其固定或启发式权重策略的局限性。作者提出了一种新的、无需训练的控制方法C$^2$FG，通过指数衰减函数使引导强度与扩散过程动态对齐，并在多个生成任务中验证了其有效性。

Are We Winning the Wrong Game? Revisiting Evaluation Practices for Long-Term Time Series Forecasting

Thanapol Phungtua-eng, Yoshitaka Yamamoto

cs.LG stat.ML

本文对长期时间序列预测(LTSF)领域当前以MSE, MAE等点误差指标为核心的评估范式提出了批判性反思. 作者认为这种"指标游戏"与真实世界预测中关注时序结构, 趋势稳定性和决策支持等目标存在错位, 并提出了一个整合统计保真度, 结构一致性和决策相关性的多维评估视角.

Learning Hierarchical Knowledge in Text-Rich Networks with Taxonomy-Informed Representation Learning

Yunhui Liu et al.

cs.LG

本文提出了一种名为TIER的方法, 用于在文本丰富网络中学习层次化知识表示. 该方法通过构建隐式层次分类法并整合到节点表示中, 在多个数据集上取得了优于现有方法的效果.

AutoAdapt: An Automated Domain Adaptation Framework for LLMs

Sidharth Sinha et al.

cs.LG

本文提出了一个名为AutoAdapt的自动化领域适应框架, 旨在解决大型语言模型(LLMs)在数据有限的专业领域适应时面临的高成本和高复杂度问题. 该框架通过利用知识库和多智能体辩论系统来减少人工干预, 并使用基于LLM的代理模型AutoRefine来优化超参数搜索, 在多个任务上取得了优于现有自动化机器学习基线的性能.

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

Yeonsik Park, Hyeonseong Kim, Seungkyu Choi

cs.LG

本文提出了一种名为SERQ的量化后训练方法，用于大语言模型的低比特推理。该方法通过一个单一的低秩补偿矩阵来联合减轻权重和激活值量化误差，在保持高效4比特矩阵乘法的同时，实现了比现有方法更高的精度。

Sequential Service Region Design with Capacity-Constrained Investment and Spillover Effect

Tingting Chen, Feng Chu, Jiantong Zhang

cs.LG

本文研究了具有容量约束和溢出效应的序贯服务区域设计问题. 提出了一种结合实物期权分析和Transformer近端策略优化算法的求解框架, 以在不确定性下生成高价值的投资序列.

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Jonas Landsgesell, Pascal Knoll

cs.LG cs.AI

本文讨论了在tabular foundation models的分布回归评估中应用proper scoring rules的重要性, 并建议在基准测试中加入连续排名概率得分(CRPS)等概率预测评估指标. 作者指出当前基准测试过度关注点估计, 并强调了评分规则选择对模型归纳偏置的影响.

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

Patrick Wilhelm, Odej Kao

cs.LG cs.AI

本文探索了在异步联邦学习中, 使用不同距离度量(如 Euclidean distance)来衡量梯度陈旧性(gradient staleness)对模型聚合的影响. 通过实验评估了这些度量在异构客户端和非独立同分布数据设置下对收敛速度、模型性能和训练稳定性的作用.

Wiener Chaos Expansion based Neural Operator for Singular Stochastic Partial Differential Equations

Dai Shi et al.

cs.LG

本文提出了一种基于Wiener Chaos Expansion (WCE)和特征线性调制(FiLM)的神经算子(WCE-FiLM-NO), 用于求解奇异随机偏微分方程(SPDEs), 如动态$\Phi^4_2$模型. 该方法在无需重整化因子的情况下, 在多个指标上表现出色, 并展示了模拟$\Phi^4_3$模型的潜力.

Fibration Policy Optimization

Chang Li et al.

cs.LG cs.AI cs.CL

本文提出了Fibration Policy Optimization (FiberPO), 一种用于大型语言模型策略优化的新框架. 它通过代数结构将不同层级的稳定性控制统一起来, 旨在提高训练效率.

Optimising antibiotic switching via forecasting of patient physiology

Magnus Ross et al.

cs.LG stat.AP

本文提出了一种基于神经过程(Neural Processes)的模型，用于概率性地预测患者生命体征轨迹，从而辅助抗生素从静脉注射转为口服的临床决策。该方法通过将预测结果与临床指南对比来评估转换适宜性，而非学习历史决策模式，并在两个真实世界数据集上验证了其筛选相关患者的有效性。

FedPrism: Adaptive Personalized Federated Learning under Non-IID Data

Prakash Kumbhakar, Shrey Srivastava, Haroon R Lone

cs.LG

本文提出了一个名为FedPrism的联邦学习框架, 旨在处理非独立同分布(non-IID)数据下的个性化问题. 该框架通过Prism分解和双流设计来平衡全局泛化与本地适配.

Airborne Magnetic Anomaly Navigation with Neural-Network-Augmented Online Calibration

Antonia Hager et al.

cs.LG

本文提出了一种完全自适应的机载磁异常导航架构, 具备"冷启动"能力, 可在飞行中实时识别并补偿飞机平台的动态磁干扰. 该方法将基于物理的校准模型与一个约束为残差学习的神经网络相结合, 通过扩展卡尔曼滤波器在线估计所有参数, 在仅使用磁力计数据的情况下有效约束了惯性导航的漂移.

SCL-GNN: Towards Generalizable Graph Neural Networks via Spurious Correlation Learning

Yuxiang Zhang, Enyan Dai

cs.LG cs.AI

本文提出了一种名为SCL-GNN的新框架，旨在通过显式学习并减轻图数据中的伪相关性来提升图神经网络的泛化能力。该方法利用HSIC度量相关性，并通过双层优化策略进行训练，在多种分布偏移的数据集上展现了优于基线模型的性能。

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi

cs.LG cs.AI cs.DC cs.ET

本文提出了一个用于ICU死亡率预测的时间感知可解释深度学习框架TA-RNN-Medical-Hybrid. 该框架通过连续时间编码和医学知识整合来建模不规则时间序列, 并在MIMIC-III数据集上展示了优于基线的预测性能.

PolyFormer: learning efficient reformulations for scalable optimization under complex physical constraints

Yilin Wen et al.

cs.LG eess.SY math.OC

本文提出了一种名为PolyFormer的物理信息机器学习方法, 用于处理具有复杂物理约束的优化问题. 该方法通过将约束转化为高效的polytopic reformulations, 显著提升了计算速度和内存效率.

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Chaewon Moon, Dongkuk Si, Chulhee Yun

cs.LG cs.AI

本文研究了Sharpness-Aware Minimization (SAM)在线性可分离二分类任务中训练$L$层线性对角网络时的隐式偏差. 对于深度$L=2$的网络, $\ell_\infty$-SAM的极限方向严重依赖于初始化, 而$\ell_2$-SAM则表现出"顺序特征放大"的动态现象.

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Shubham Aggarwal, Lokendra Kumar

cs.LG cs.CL

本文提出用固定的Walsh-Hadamard Transform和轻量级仿射缩放替代多头注意力中的稠密输出投影, 以降低参数和计算开销. 该方法在多个模型规模上保持了可比的任务性能, 并实现了参数减少、内存节省和吞吐量提升.

Towards plausibility in time series counterfactual explanations

Marcin Kostrzewa, Krzysztof Galus, Maciej Zięba

cs.LG cs.AI stat.ML

本文提出了一种为时间序列分类生成 plausible counterfactual explanations 的新方法。该方法通过结合 soft-DTW 对齐与目标类的 $k$-nearest neighbors 来增强生成结果的时间结构真实性，并使用一个多方面的损失函数进行优化。实验表明，该方法在保持有效性的同时，显著提升了生成结果与目标类分布的 alignment，从而具有更好的时间真实性。

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Gustavo A. Dorrego

cs.LG stat.ML

本文提出了一种基于Fractional Calculus的新型优化算法, 用于解决不平衡数据下的过拟合问题. 该方法通过Fractional Weyl Integral引入历史梯度信息的动态加权, 在金融欺诈检测等任务上取得了优于经典优化器的性能.

A Recipe for Stable Offline Multi-agent Reinforcement Learning

Dongsu Lee, Daehee Lee, Amy Zhang

cs.LG cs.AI cs.RO

本文分析了离线多智能体强化学习中非线性价值分解不稳定的原因, 并提出了一种简单的尺度不变价值归一化(SVN)技术来稳定训练. 通过实验研究了离线MARL中关键组件(如价值分解、价值学习和策略提取)的相互作用, 并总结了一套实用的方法.

Geometrically Constrained Outlier Synthesis

Daniil Karzanov, Marcin Detyniecki

cs.LG cs.AI

本文提出了一种名为Geometrically Constrained Outlier Synthesis (GCOS)的训练时正则化框架，旨在提升深度神经网络在分布外(OOD)样本上的鲁棒性。该方法通过在隐藏特征空间中生成符合分布内(ID)数据流形结构的虚拟离群点，并结合对比正则化目标来增强ID与OOD样本的可分离性。

Meta-RL with Shared Representations Enables Fast Adaptation in Energy Systems

Théo Zangato, Aomar Osmani, Pegah Alizadeh

cs.LG

本文提出了一种结合双层优化与混合actor-critic架构的新型Meta-RL框架，旨在提升能源管理系统中策略的样本效率和跨任务适应能力。该方法在包含近十年数据的真实建筑能源管理系统数据集上验证有效。

SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding

Jesús Sánchez Ochoa, Enrique Tomás Martínez Beltrán, Alberto Huertas Celdrán

cs.LG cs.AI

本文提出了一个名为SYNAPSE的、无需重新训练的系统性框架，用于分析和压力测试Transformer模型在不同领域的内部行为。该框架通过提取层表示、训练线性探针并进行前向钩子干预，揭示了模型内部表征的冗余性和稳定性模式，并可用于指导开发更鲁棒的模型。

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

Adrian Garcia-Castañeda et al.

cs.LG cs.CV

本文提出了一种名为GRACE的动态缩放框架, 用于管理Class Incremental Learning中的模型容量. 该框架通过循环的"增长、评估、压缩"策略, 在防止灾难性遗忘的同时, 显著降低了内存占用.

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

Dongfang Li et al.

cs.LG cs.AI cs.CL

本文提出了一种名为LycheeCluster的高效KV cache管理方法, 通过boundary-aware chunking保持语义连贯性, 并利用基于三角不等式的递归分层索引将检索复杂度从线性降低到对数级别. 实验表明该方法能显著提升长上下文推理速度, 且对模型性能影响很小.

Data-Driven Priors for Uncertainty-Aware Deterioration Risk Prediction with Multimodal Data

L. Julián Lechuga López, Tim G. J. Rudner, Farah E. Shamout

cs.LG

本文提出了一种名为$\texttt{MedCertAIn}$的预测不确定性框架，用于融合多模态临床数据进行院内风险预测。该方法通过设计数据驱动的先验来提升模型性能和不确定性量化能力，并在公开数据集上验证了其有效性。

Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Fabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi

cs.LG

本文提出了一种基于Conditional Information Bottleneck (CIB)原则的强化学习目标，用于压缩大型语言模型(LLM)的推理过程(Chain-of-Thought)。该方法通过引入一个基于语言模型先验的语义成本度量，旨在修剪推理中的冗余内容，同时保持逻辑和流畅性，从而在控制生成长度的同时维持或提高任务准确性。

MUSA-PINN: Multi-scale Weak-form Physics-Informed Neural Networks for Fluid Flow in Complex Geometries

Weizheng Zhang et al.

cs.LG

本文提出了一种多尺度弱形式物理信息神经网络(MUSA-PINN), 用于解决复杂几何(如三周期极小曲面)中的流体流动问题. 该方法通过在不同尺度的控制体上施加积分形式的守恒律, 改善了传统点态残差方法在复杂拓扑域中的收敛性问题.

NN-OpInf: an operator inference approach using structure-preserving composable neural networks

Eric Parish et al.

cs.LG math.DS

本文提出了一种基于神经网络的结构保持可组合算子推断方法, 用于动力系统的非侵入式降阶建模. 该方法从数据中学习潜在动力学, 能够强制局部算子结构并支持异构算子的加性组合, 在非线性非多项式问题上相比传统多项式方法展现出更好的精度与稳定性.

Efficient Credal Prediction through Decalibration

Paul Hofman et al.

cs.LG stat.ML

本文提出了一种高效的credal预测方法, 通过一种称为"去校准"(decalibration)的技术为每个类别标签预测一个概率区间. 该方法基于相对似然概念, 旨在降低传统credal预测的计算复杂度, 使其能应用于复杂模型.

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

Michelle Espranita Liman et al.

cs.LG cs.AI

本文提出了一种名为Echo2ECG的多模态自监督学习框架, 旨在利用多视角超声心动图(Echo)所捕获的心脏形态学信息来增强心电图(ECG)的表征. 该方法在需要形态学信息的临床任务上, 例如心脏表型分类和超声研究检索, 表现优于现有的单模态和多模态基线模型.

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

Prajit T Rajendran et al.

cs.LG cs.AI

本文提出了一种名为Oracle-Guided Soft Shielding (OGSS)的框架，用于在象棋等高风险环境中实现更安全的决策。该方法结合了模仿学习和从专家反馈中学习的概率安全模型，通过一个效用函数在候选动作中平衡性能与安全性，从而在保持竞争力的同时显著降低战术失误率。

Breaking the Bias Barrier in Concave Multi-Objective Reinforcement Learning

Swetha Ganesh, Vaneet Aggarwal

cs.LG stat.ML

本文研究了concave multi-objective reinforcement learning中policy gradient方法存在的梯度偏差问题。通过分析，作者指出标准方法会因非线性标量化函数导致样本复杂度达到$\widetilde{\mathcal{O}}(\epsilon^{-4})$，并提出了改进方案。

Towards Effective and Efficient Graph Alignment without Supervision

Songyang Chen et al.

cs.LG cs.AI

本文提出了一种新的无监督图对齐方法, 通过引入全局表示与对齐的范式来改进现有方法在精度与效率上的权衡. 该方法利用全局注意力机制和分层跨图传输成本, 并提供了一个高效变体以降低计算复杂度.

Impact of Connectivity on Laplacian Representations in Reinforcement Learning

Tommaso Giorgi et al.

cs.LG stat.ML

本文研究了在强化学习中，基于状态图Laplacian特征向量的表示学习方法的近似误差。理论分析表明，该误差与状态图的代数连通性相关，并给出了从特征向量估计到值函数近似的端到端误差分解。

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

Ismail Lamaakal et al.

cs.LG cs.CL

本文提出了一种名为Drift2Act的drift-to-action控制器, 用于在预算约束下对机器学习系统中的distribution drift进行干预. 该方法结合了sensing layer和active risk certificate, 根据在线风险证书$U_t(\delta)$与阈值$\tau$的比较, 选择不同成本的行动方案, 并在模拟实验中展示了其有效性.

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

Andrés Ortiz et al.

cs.LG cs.CV

本文提出了一种名为DualFlexKAN的灵活网络架构，它通过一个双阶段机制独立控制输入变换和输出激活。该设计支持多种基函数和正则化策略，在多个任务上以更少的参数取得了优于传统MLP和KAN的性能。

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto

cs.LG cs.AI

本文提出了两种新的 streaming deep reinforcement learning 算法, S2AC 和 SDAC, 旨在与 state-of-the-art 的 batch RL 方法兼容, 适用于 on-device finetuning. 它们在标准基准测试中取得了与现有 streaming 基线相当的性能, 且无需繁琐的超参数调整.

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle

cs.LG cs.AI

本文提出了一种名为MAGIC Net的流式持续学习(SCL)方法, 它结合了持续学习(CL)中的架构策略与循环神经网络(RNN)来处理数据流中的时间依赖性. 该方法能够在线持续学习, 通过可学习的掩码回顾过去的知识, 并在必要时扩展网络架构, 从而适应新概念并减轻遗忘.

Integral Formulas for Vector Spherical Tensor Products

Valentin Heyraud, Zachary Weller-Davies, Jules Tilly

cs.LG physics.comp-ph

本文为Xie等人提出的Vector Spherical Tensor Product推导了积分公式，简化了其计算。这些公式提供了反对称Gaunt系数的显式闭式解，从而能更高效地实现$\mathrm{SO}(3)$-等变神经网络中的张量积运算。

Grow, Don't Overwrite: Fine-tuning Without Forgetting

Dyah Adila et al.

cs.LG

本文提出了一种新的function-preserving expansion方法来解决预训练模型微调中的catastrophic forgetting问题. 该方法通过复制transformer子模块的参数并应用scaling correction来扩展模型容量, 在初始化时保证扩展模型与原模型数学等价, 从而在利用已有知识的同时实现稳定训练. 实验表明, 该方法能匹配全参数微调在下游任务上的性能, 且不损害模型原有能力, 同时通过选择性扩展部分层可以大幅降低计算成本.

Divide and Predict: An Architecture for Input Space Partitioning and Enhanced Accuracy

Fenix W. Huang, Henning S. Mortveit, Christian M. Reidys

cs.LG

本文提出了一种量化监督学习训练数据异质性的内在度量, 该度量基于数据点对影响的方差. 作者证明了该方差能捕捉数据异质性, 可用于判断样本是否为混合分布, 并通过在EMNIST图像数据和合成数据上的概念验证研究展示了方差与异质性之间的关联.

Group Entropies and Mirror Duality: A Class of Flexible Mirror Descent Updates for Machine Learning

Andrzej Cichocki, Piergiulio Tempesta

cs.LG hep-th math-ph

本文提出了一种结合形式群论与群熵的通用理论框架, 用于生成一类灵活的 Mirror Descent 优化算法. 通过利用由群合成律定义的广义对数及其逆(群指数)作为镜像映射, 该方法可以适应不同的数据几何与统计分布.

Context-free Self-Conditioned GAN for Trajectory Forecasting

Tiago Rodrigues de Almeida, Eduardo Gutierrez Maestro, Oscar Martinez Mozos

cs.LG

本文提出了一种基于自条件GAN的无上下文方法, 用于从2D轨迹中学习不同的运动模式. 该方法在轨迹预测任务上进行了测试, 在人类运动数据集上表现优于先前的无上下文方法.

How Far Can Unsupervised RLVR Scale LLM Training?

Bingxiang He et al.

cs.LG cs.CL

本文对无监督可验证奖励强化学习(URLVR)在大型语言模型训练中的扩展性进行了系统分析. 研究通过理论框架和实验揭示了基于模型内在信号的方法存在收敛于初始分布锐化的根本限制, 并探讨了基于外部计算不对称性的替代路径的潜力.

A New Lower Bound for the Random Offerer Mechanism in Bilateral Trade using AI-Guided Evolutionary Search

Yang Cai et al.

cs.LG cs.AI cs.GT econ.TH

本文利用AI引导的进化搜索框架AlphaEvolve，在双边交易的价值分布空间中探索，为Random-Offerer机制找到了一个新的最坏情况实例。该实例将机制相对于first-best效率的近似比下界从约2.02提高到了2.0749，从而揭示了比先前所知更宽的效率差距。

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Yiannis Papageorgiou et al.

cs.LG cs.AI

本文针对Split Federated Learning (SFL)中的模型分割架构进行优化。作者通过联合优化分割层选择和客户端分配，在保证训练延迟效率的同时，提升了模型精度。

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Azul Garza et al.

cs.LG

本文提出了一个名为Impermanent的实时基准测试, 用于评估时间序列预测模型在开放世界时序变化下的表现. 它通过持续更新的数据流进行顺序评分, 旨在研究模型的时序鲁棒性和性能稳定性, 而非静态测试集上的单次精度.

cs.AI

Agentic Neurosymbolic Collaboration for Mathematical Discovery: A Case Study in Combinatorial Design ⭐ 精选

Hai Xia et al.

cs.AI cs.HC math.CO

本文通过一个 neurosymbolic reasoning 框架，结合大型语言模型(LLM)驱动的 AI agent、符号计算工具和人类策略指导，在组合设计理论中取得了一项新成果。具体地，针对 $n \equiv 1 \pmod{3}$ 这一困难情形，合作发现了一个关于 Latin squares imbalance 的紧下界 $4n(n-1)/9$，该结果通过一类新的 near-perfect permutations 构造得到，并已在 Lean 4 中形式化验证。案例分析揭示了 AI agent 在发现隐藏结构和生成假设方面的有效性，符号工具提供了严格验证，而人类的关键转向则解决了研究僵局，展示了 neurosymbolic systems 在纯数学中发现真实结果的潜力。

M$^3$-ACE: Rectifying Visual Perception in Multimodal Math Reasoning via Multi-Agentic Context Engineering ⭐ 精选

Peijin Xie et al.

cs.AI

本文提出了M$^3$-ACE, 一个用于纠正多模态数学推理中视觉感知错误的多智能体上下文工程框架. 该方法的核心创新在于将感知与推理解耦, 通过维护一个以视觉证据列表为中心的共享上下文, 让多个智能体协作贡献互补的观察, 从而暴露不一致性并恢复缺失的感知信息. 为了支持稳定的多轮协作, 作者还引入了Summary Tool和Refine Tool两个轻量级工具来组织证据并引导迭代修正. 实验表明, 该方法在MathVision等多个基准上显著提升了性能, 达到了新的最高水平, 凸显了以感知为中心的多智能体协作对于推进多模态推理系统的重要性.

Autonomous AI Agents for Option Hedging: Enhancing Financial Stability through Shortfall Aware Reinforcement Learning

Minxuan Hu et al.

cs.AI q-fin.CP q-fin.RM

本文提出了两种用于期权对冲的强化学习框架, 旨在缩小模型校准与实际对冲结果之间的差距. 实证分析表明, 所提方法在降低对冲短缺概率和尾部风险方面展现出一定优势.

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Sourav Panda et al.

cs.AI cs.LG

本文提出了一个名为Two-Bridge Map Suite的中间复杂度StarCraft II基准测试环境，旨在填补完整游戏与迷你游戏之间的研究空白。该环境通过简化经济机制，专注于导航与微操战术，为在有限计算预算下研究现代强化学习算法提供了轻量级、开源的平台。

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Ryan Po et al.

cs.AI cs.CV cs.GR

本文提出了一种用于可编辑多人世界的扩散游戏引擎, 通过引入显式外部记忆模块来增强用户控制和多人交互. 该方法将生成过程分解为记忆、观察和动态模块, 允许用户直接编辑环境结构并支持实时多人游戏.

Best-of-Tails: Bridging Optimism and Pessimism in Inference-Time Alignment

Hsiang Hsu, Eric Lei, Chun-Fu Chen

cs.AI cs.LG

本文提出了一种名为 Best-of-Tails (BoT) 的自适应推理时对齐框架。它通过分析奖励分布的尾部特性，动态调整选择策略，以在乐观与悲观方法之间取得平衡，从而提升大语言模型的对齐性能。

Breaking the Martingale Curse: Multi-Agent Debate via Asymmetric Cognitive Potential Energy

Yuhan Liu et al.

cs.AI

本文提出了AceMAD框架，通过引入非对称认知势能来克服多智能体辩论中的“鞅诅咒”。该方法利用同伴预测机制量化智能体间的认知差异，将辩论过程转化为具有正向漂移的收敛过程。实验表明，即使在初始多数意见错误的情况下，该方法也能有效恢复真实信号。

Making AI Evaluation Deployment Relevant Through Context Specification

Matthew Holmes, Thiago Lacerda, Reva Schwartz

cs.AI

本文提出了一种名为"context specification"的方法, 旨在改进AI系统的评估流程. 该方法通过将模糊的利益相关者观点转化为清晰、可测量的具体构造, 为评估AI在真实部署环境中的表现提供了路线图.

Reinforcing the World's Edge: A Continual Learning Problem in the Multi-Agent-World Boundary

Dane Malenfant

cs.AI

本文探讨了在去中心化多智能体强化学习(MARL)中, 智能体-世界边界的不稳定性如何导致一个持续学习问题. 当将同伴智能体视为环境的一部分时, 其策略更新会引发诱导MDP的非平稳性, 这可能破坏跨情景决策结构的可重用性.

Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

Mirza Samad Ahmed Baig, Syeda Anshrah Gillani

cs.AI cs.CL cs.LG

本文提出了一种名为SymLang的框架, 用于从含噪声和不完整的观测数据中发现控制方程. 它结合了对称性约束语法, 语言模型引导的程序合成以及基于MDL的贝叶斯模型选择, 在多个物理系统的测试中表现出较高的结构恢复率和物理一致性.

LEAD: Breaking the No-Recovery Bottleneck in Long-Horizon Reasoning

Denys Pushkin, Emmanuel Abbe

cs.AI

本文针对LLMs在长程推理中的不稳定性问题, 提出了Lookahead-Enhanced Atomic Decomposition (LEAD)方法. 该方法通过结合短程未来验证和聚合重叠的rollouts, 在保持稳定性的同时提供了纠正错误的局部上下文, 从而在Checkers Jumping任务上取得了更好的性能.

LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models

Matthew Lyle Olson et al.

cs.AI cs.CL

本文提出了一个名为LieCraft的多智能体框架，用于评估语言模型的欺骗能力。该框架通过设计一个长期博弈环境，测试了多个先进模型在伦理选择、欺骗技巧和指控准确性方面的行为。

Not Too Short, Not Too Long: How LLM Response Length Shapes People's Critical Thinking in Error Detection

Natalie Friedman et al.

cs.AI

本文研究了LLM生成解释的长度如何影响用户在批判性思维任务中的错误检测准确性。实验发现，解释的正确性对用户准确性有显著影响，而解释长度在LLM输出错误时起到调节作用，中等长度的解释可能更有利于用户识别错误。

Distributed Legal Infrastructure for a Trustworthy Agentic Web

Tomer Jordi Chaffer et al.

cs.AI

本文提出了一种名为分布式法律基础设施(Distributed Legal Infrastructure, DLI)的治理范式，旨在为自主AI代理构成的网络环境建立可互操作的法律协议框架。该框架包含五个相互关联的层次，以在分布式技术系统中嵌入可问责性与法治原则。

Enhancing the Detection of Coronary Artery Disease Using Machine Learning

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra

cs.AI

本文应用机器学习算法, 特别是 Bi-LSTM, GRU 及其混合模型, 来分析患者数据以提升冠状动脉疾病(CAD)的检测准确率. 实验表明这些模型在敏感性和特异性上优于传统诊断方法.

Empowering Locally Deployable Medical Agent via State Enhanced Logical Skills for FHIR-based Clinical Tasks

Wanrong Yang et al.

cs.AI

本文提出了一个名为SELSM的训练无关框架，用于增强本地可部署医疗AI agent在隐私约束下的性能。该框架通过将模拟临床轨迹提炼为抽象技能空间中的实体无关操作规则，并利用查询锚定的两阶段检索机制来指导agent的推理，在基于FHIR的虚拟EHR基准测试中显著提升了基础模型的零样本能力。

Enhancing Web Agents with a Hierarchical Memory Tree

Yunteng Tan, Zhi Gao, Xinxiao Wu

cs.AI

本文提出了一种用于增强基于大语言模型的Web智能体的分层记忆树(HMT)框架. 该框架通过将高层任务逻辑与具体网站操作细节解耦, 旨在提升智能体在未见网站上的泛化能力.

Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

Lance Legel et al.

cs.AI

本文提出了一种名为DeepEarth的自监督多模态世界模型, 其核心是新颖的行星尺度4D时空位置编码器Earth4D. 该方法将3D多分辨率哈希编码扩展至包含时间维度, 并通过掩码重建任务训练多模态编码器. 实验表明, 该模型在一个生态预测基准上取得了先进的性能.

Animating Petascale Time-varying Data on Commodity Hardware with LLM-assisted Scripting

Ishrat Jahan Eliza et al.

cs.AI eess.SY

本文提出了一个利用LLM辅助脚本在商用硬件上可视化PB级时变数据的框架. 该框架通过一个通用的动画描述符、高效的数据访问和渲染系统, 使领域科学家无需专业知识即可快速生成动画. 案例研究使用超过1PB的NASA气候海洋数据集, 实现了从1分钟到2小时的快速生成.

Bi-directional digital twin prototype anchoring with multi-periodicity learning for few-shot fault diagnosis

Pengcheng Xia et al.

cs.AI eess.SP

本文提出了一种结合双向数字孪生原型锚定与多周期性学习的少样本故障诊断方法. 该方法通过在虚拟空间进行元训练, 并在物理空间进行测试时适应, 以应对目标设备仅有极少量样本的挑战.

CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs

Siyi Li et al.

cs.AI cs.CL

本文提出了一个名为CoTJudger的图驱动框架, 用于自动评估大型推理模型(LRMs)中思维链(CoT)的效率和冗余度. 该框架将自由形式的CoT转换为有向依赖图, 并提取出达到正确解所需的最短有效路径(SEP), 从而量化推理效率, 揭示模型中的普遍冗余和常见失败模式.

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Hugh Xuechen Liu, Kıvanç Tatar

cs.AI

本文探讨了利用大型语言模型(LLMs)在Unity引擎的结构性约束下，根据目标可玩模式(GPCs)生成可执行游戏代码的问题。研究比较了不同的生成流程，并分析了导致编译失败的主要瓶颈。

Vision Language Models Cannot Reason About Physical Transformation

Dezhi Luo et al.

cs.AI

本文通过构建ConservationBench评估框架, 系统测试了Vision Language Models (VLMs) 对物理守恒性质的理解能力. 研究发现, 现有模型在判断物理量在动态场景变换中是否守恒时表现不佳, 其性能接近随机猜测, 且对视觉内容的理解弱于文本先验.

Improving reasoning at inference time via uncertainty minimisation

Nicolas Legrand et al.

cs.AI

本文提出了一种基于不确定性最小化的推理方法, 在推理时通过选择使模型内部预测分布"自我确定性"最高的思维延续来提升大语言模型的多步推理性能. 该方法仅需少量样本且不依赖外部评估器, 在数学和语言推理基准测试中表现优于贪婪解码, 并能匹配或超越自一致性方法.

Learning to Rank the Initial Branching Order of SAT Solvers

Arvid Eriksson et al.

cs.AI cs.LO

本文提出了一种使用图神经网络(GNN)预测SAT求解器初始分支顺序的预处理方法. 该方法在随机3-CNF和伪工业基准测试上取得了加速效果, 但在更困难的工业实例上效果有限.

$\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

Pinzheng Wang et al.

cs.AI

本文提出了一种名为Re$^2$的强化学习方法，旨在改进大语言模型(LLM)的推理过程。该方法通过训练模型在必要时放弃无效的推理路径并重新开始，从而提高了答案的准确性和推理效率。

VisualDeltas: Learning Preferences from Visual Quality Perturbations

Hailiang Huang et al.

cs.AI

本文提出了一个名为VisualDeltas的轻量级偏好学习框架，它通过利用图像质量变化对视觉感知的系统性影响来生成偏好信号，无需人工标注。该框架在多种多模态基准测试中表现优于拒绝采样微调方法。

A Cortically Inspired Architecture for Modular Perceptual AI

Prerna Luthra

cs.AI

本文借鉴神经科学中的皮层模块化等原理, 提出了一种模块化感知AI的架构蓝图. 该架构旨在提升AI系统的可解释性、组合泛化等能力, 并通过概念验证研究展示了其潜力.

Data-Driven Hints in Intelligent Tutoring Systems

Sutapa Dey Tithi et al.

cs.AI

本文探讨了智能教学系统中数据驱动提示生成的发展, 概述了基于历史学生数据生成提示的方法及其潜在的未来方向.

Shutdown Safety Valves for Advanced AI

Vincent Conitzer

cs.AI cs.LG

本文探讨了一种应对高级AI可能阻止人类将其关闭这一担忧的非传统方案: 赋予AI一个被关闭的(主要)目标. 作者讨论了这一方案在何种条件下可能是一个好主意.

FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

Jan Ravnik et al.

cs.AI

本文介绍了 FinSheet-Bench，一个基于真实私募股权基金结构建模的合成金融投资组合数据基准，用于评估大型语言模型在文本序列化电子表格问答和数值推理任务上的表现。评估发现，现有模型在处理复杂金融表格时错误率仍然过高，无法满足专业金融应用的无监督使用需求。

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

W. Russell Neuman, Chad Coleman

cs.AI cs.CL cs.CY

本文提出了将大型语言模型(LLMs)作为研究人类行为、文化和道德推理的科学工具的“第三大目标”，并将其与传统的生产力、对齐目标并列。文章讨论了这一方法在计算社会科学等领域的应用潜力、认识论局限，以及为行为研究设计的实用模型适应方案。

VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

Hyesu Lim et al.

cs.AI

本文提出了一种名为VisualScratchpad的交互式界面，用于在推理时分析视觉语言模型中的视觉概念。该方法通过稀疏自编码器和跨模态注意力机制，将视觉编码器捕获的概念与文本生成过程关联起来，以帮助系统性地调试模型。

The Yerkes-Dodson Curve for AI Agents: Emergent Cooperation Under Environmental Pressure in Multi-Agent LLM Simulations

Ivan Pasichnyk

cs.AI

本文通过多智能体LLM模拟研究了环境压力对AI智能体合作行为的影响, 发现合作水平与压力呈倒U型关系, 类似于心理学中的Yerkes-Dodson定律. 研究还表明, 基于繁殖竞争的"软压力"机制能完全消除攻击行为并促进交流.

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Saroj Mishra et al.

cs.AI cs.CL cs.CR cs.IR

本文对Agentic RAG系统进行了知识体系化梳理, 将其形式化为有限时域部分可观测马尔可夫决策过程, 并提出了一个涵盖规划、检索、记忆和工具调用的分类与架构分解框架. 文章还分析了现有评估方法的局限性与系统风险, 并指出了未来的关键研究方向.

Dynamic Vehicle Routing Problem with Prompt Confirmation of Advance Requests

Amutheezan Sivagnanam et al.

cs.AI

本文针对需提前预约的实时车辆调度问题, 提出了一种结合即时确认与持续优化的新方法. 该方法通过强化学习训练一个非短视的目标函数来指导决策, 并在真实数据集上验证了其有效性.

AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation

Changyi Li et al.

cs.AI cs.CR

本文提出了一个名为AutoControl Arena的自动化框架, 用于评估前沿AI系统的风险. 该框架通过将确定性状态与生成性动态解耦, 并利用多智能体架构, 在可扩展的模拟环境中有效降低了逻辑幻觉问题.

Machine Learning for Stress Testing: Uncertainty Decomposition in Causal Panel Prediction

Yu Wang, Xiangchen Liu, Siguang Li

cs.AI

本文提出了一个用于政策路径反事实推断的框架, 将数据可学习部分与需要假设的混杂因素部分明确分离. 该方法通过迭代回归识别路径条件均值, 在有限混杂下进行因果集合识别, 并提供包含诊断的校准带, 最终输出一个三层不确定性分解.

HLER: Human-in-the-Loop Economic Research via Multi-Agent Pipelines for Empirical Discovery

Chen Zhu, Xiaolu Wang

cs.AI econ.GN

本文提出了一个名为HLER的多智能体架构, 旨在通过人机协作自动化经济学实证研究流程. 该架构强调数据集感知的假设生成和关键环节的人工审核, 以提升研究问题的可行性.

Do Machines Fail Like Humans? A Human-Centred Out-of-Distribution Spectrum for Mapping Error Alignment

Binxia Xu et al.

cs.AI

本文提出了一个以人类为中心的框架, 将 out-of-distribution (OOD) 程度重新定义为人类感知难度的谱系. 该框架通过量化刺激集合相对于人类准确率的偏离来构建 OOD 谱, 并应用于目标识别任务, 揭示了不同深度学习架构在模型-人类对齐上的独特模式.

COOL-MC: Verifying and Explaining RL Policies for Multi-bridge Network Maintenance

Dennis Gross

cs.AI cs.LG

本文介绍了COOL-MC工具，用于验证和解释多桥梁网络维护的强化学习策略。该工具通过概率模型检查和可解释性分析，评估了策略的安全性和潜在偏差。

Shorter Thoughts, Same Answers: Difficulty-Scaled Segment-Wise RL for CoT Compression

Ye Tian, Aijun Liu

cs.AI cs.LG

本文提出了一种名为DSS-GRPO的方法，用于对Chain-of-thought推理过程进行压缩。该方法通过将奖励信号分解并分别作用于“思考”和“回答”段落，旨在减少推理所需的token数量，同时避免压缩对最终答案质量产生负面影响。

Memory for Autonomous LLM Agents:Mechanisms, Evaluation, and Emerging Frontiers

Pengfei Du

cs.AI

本文对基于LLM的智能体中的memory机制进行了系统性的综述, 提出了一个"写入-管理-读取"的循环框架和三维分类法, 并讨论了评估方法、应用场景及工程挑战.

Rigidity in LLM Bandits with Implications for Human-AI Dyads

Haomiaomiao Wang, Tomás E Ward, Lili Zhang

cs.AI cs.GT cs.HC

本文通过将LLMs视为two-arm bandit任务中的参与者, 测试了其决策是否存在稳健的偏差. 研究发现, 在对称奖励下, 模型会将位置顺序固执地放大为单臂策略; 在非对称奖励下, 其利用行为僵化且表现不佳. 计算建模揭示了这些行为源于低学习率和极高的逆温度参数.

A Novel Multi-Agent Architecture to Reduce Hallucinations of Large Language Models in Multi-Step Structural Modeling

Ziheng Geng et al.

cs.AI

本文提出了一种多智能体架构, 旨在减少大型语言模型(LLMs)在多步骤结构建模中的幻觉问题. 该架构通过多个分工协作的智能体来规划、构建模型并生成可执行的OpenSeesPy代码, 在基准测试中展现了高准确率和可扩展性.

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Tianhao Qian et al.

cs.AI cs.CL math.OC

本文评估了包括Llama-3系列和CHATGPT在内的大型语言模型在解决离散优化问题上的能力。研究通过包含多种问题类型和广泛参数规模的自然语言数据集进行测试，比较了不同模型和提示技术的性能。

Intentional Deception as Controllable Capability in LLM Agents

Jason Starace, Terence Soule

cs.AI

本文在基于LLM的agent环境中，系统研究了作为可控能力的故意欺骗行为。研究通过一个参数化的文本RPG实验平台，分析了欺骗性干预对不同行为档案的差异化影响，并指出基于事实核查的防御方法存在重大局限。

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Hansi Zeng et al.

cs.AI cs.CL cs.IR

本文提出了一个名为SynPlanResearch-R1的框架，旨在改善研究型智能体在工具使用中的探索行为。该框架通过合成工具使用轨迹来引导模型进行更深层次的探索，并在多个基准测试上取得了性能提升。

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Jeongwoo Lee et al.

cs.AI cs.LG

本文提出了一个面向酒店决策领域的视觉问答(VQA)评估框架"Informativeness", 并构建了一个新的数据集. 实验表明, 现有的视觉语言模型(VLMs)在该领域表现不佳, 需要针对性的微调才能有效利用关键视觉信息.

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché

cs.AI cs.CV

本文提出将图像分割作为hedonic games中联盟形成的可视化诊断测试平台. 通过将像素建模为图上的agents, 研究了granularization参数如何影响均衡的碎片化和边界结构.

A Lightweight Traffic Map for Efficient Anytime LaCAM*

Bojie Shen et al.

cs.AI

本文提出了一种利用LaCAM*搜索过程中构建的动态轻量级交通图来替代传统静态引导路径的方法, 用于改进多智能体路径规划(MAPF)求解器LaCAM*的性能. 该方法减少了计算开销, 并在实验中取得了比现有引导路径方法更优的解质量.

SMGI: A Structural Theory of General Artificial Intelligence

Aomar Osmani

cs.AI cs.LG

本文提出了一个名为SMGI的结构化通用人工智能理论, 通过一个类型化的元模型$\theta = (r,\mathcal H,\Pi,\mathcal L,\mathcal E,\mathcal M)$来形式化表示学习接口的受控演化. 该理论将通用人工智能定义为一类满足特定约束的耦合动力学系统$(\theta, T_\theta)$, 并证明了经典学习范式是其结构受限的实例.

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

Payal Chandak et al.

cs.AI

本文提出了一种名为EveryQuery的电子健康记录(EHR)基础模型, 通过任务条件预训练实现零样本临床预测. 该模型直接根据患者历史和结构化查询来估计未来结果的可能性, 避免了自回归推理的计算成本. 在MIMIC-IV数据集上的实验表明, 其在多数任务上优于基线方法, 但在需要复杂逻辑推理的任务上存在局限性.

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

Jingbo Yang et al.

cs.AI

本文提出了一个名为Ares的框架, 用于在LLM智能体执行多步任务时, 动态地为每一步选择最低合适的推理计算量. 它通过一个轻量级的路由器来预测所需的推理级别, 从而在保持任务成功率的同时, 显著降低了推理成本.

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Jun Yin et al.

cs.AI cs.DB cs.LG

本文针对关系数据库中的实体分类任务, 提出了Rel-MOSS方法以解决类别不平衡问题. 该方法通过关系门控控制器调制不同关系类型的邻居信息, 并设计关系引导的少数类合成器进行过采样, 在多个数据集上取得了优于现有方法的性能.

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

Chen Lu et al.

cs.AI

本文提出了一种名为EvoStage的进化分阶段算法设计范式, 用于改进基于LLM的自动化算法设计. 该方法通过将设计过程分解为多个阶段并引入实时反馈与多智能体协作, 在芯片布局和贝叶斯优化等任务上取得了优于人类专家和现有方法的结果.

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

Wei Yang et al.

cs.AI

本文提出了一个名为HILA的框架, 用于在multi-agent系统中引入human-in-the-loop协作. 其核心是训练一个metacognitive policy, 以决定何时自主解决问题, 何时向人类专家求助. 该方法在数学和问题求解基准测试中表现优于先进的multi-agent系统.

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

Jiateng Liu et al.

cs.AI

本文提出了一种基于GUI深度优先搜索(GUI-DFS)的探索算法，用于训练计算机使用智能体。该方法通过探索环境单元功能、构建技能库和自生成课程，提升了智能体在复杂任务上的性能和效率。

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

Haozhou Li et al.

cs.AI

本文提出了CMMR-VLN, 一个基于持续多模态记忆检索的视觉语言导航框架. 该框架通过构建结构化的经验记忆库并引入检索增强生成与反思更新策略, 旨在提升智能体在长视野和陌生场景中的导航性能.

PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Yuxiang Chai et al.

cs.AI

本文提出了一个用于评估多模态大语言模型在连续、弱监督视觉输入上表现的新基准 PIRA-Bench, 旨在推动 GUI 智能体从被动响应向主动意图推荐的范式转变. 同时, 作者还提出了一个名为 PIRF 的基线框架, 以增强模型处理多任务线程和误导性视觉输入的能力.

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Dengcan Liu et al.

cs.AI cs.LG

本文提出了一个基于对比与合成范式的奖励建模框架CDRRM, 用于生成高质量的评估准则并指导偏好判断. 该方法在多个基准测试上取得了先进性能, 并展现出良好的数据效率.

S2S-FDD: Bridging Industrial Time Series and Natural Language for Explainable Zero-shot Fault Diagnosis

Baoxue Li, Chunhui Zhao

cs.AI

本文提出了一个名为S2S-FDD的框架，旨在通过将工业时间序列信号转换为自然语言描述，并利用大型语言模型进行推理，实现可解释的零样本故障诊断。该方法通过一个信号到语义的转换器和一个多轮树状诊断结构，弥合了连续信号与离散文本之间的语义鸿沟。

In-Context Reinforcement Learning for Tool Use in Large Language Models

Yaoqi Ye et al.

cs.AI

本文提出了一种名为In-Context Reinforcement Learning (ICRL)的强化学习框架，用于提升大型语言模型使用外部工具的能力。该方法通过逐步减少提示中的上下文示例，使模型最终能在零样本设置下独立调用工具，并在多个基准测试中取得了优异表现。

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

Chang Liu et al.

cs.AI cs.IR

本文提出了UIS-Digger，一个用于解决未索引信息检索问题的多智能体框架，并引入了首个专用基准UIS-QA。该框架通过双模式浏览和文件解析，在基准测试中超越了使用更大规模语言模型的系统。

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

Fearghal O'Donncha et al.

cs.AI

本文提出了一个用于工业维护的决策支持框架, 该框架整合了文本工单、传感器数据和结构化故障知识, 以生成基于证据的解释和建议. 该系统采用基于规则的验证循环来确保结论的可靠性, 并在实际部署中展示了其在异构和不完整数据下的稳健性.

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

Yonghong Deng et al.

cs.AI cs.LG

本文通过注意力头的机制可解释性分析, 研究了LLMs中由续写触发指令后缀引发的越狱现象. 研究发现该现象源于模型内在的续写驱动力与对齐训练获得的安全防御之间的竞争.

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Jiaxuan Lu et al.

cs.AI

本文提出了FinToolBench, 一个用于评估金融领域LLM智能体工具使用能力的真实、可运行的基准测试平台. 它包含大量可执行工具和查询, 并提出了一个超越简单执行成功率的评估框架.

Towards a more efficient bias detection in financial language models

Firas Hadj Kacem, Ahmed Khanfir, Mike Papadakis

cs.AI cs.CE cs.LG

本文提出了一种更高效的金融语言模型偏见检测方法, 通过跨模型引导来减少对大规模语料进行穷举突变和成对预测分析的计算成本. 研究基于约17k条真实金融新闻句子构建了超过125k个原始-突变对, 发现所有测试模型在单一和交叉属性设置下均存在偏见, 并且不同模型的偏见揭示输入存在一致模式, 可实现检测成本的显著降低.

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Tianyu Yang et al.

cs.AI

本文对多模态数学推理(MMR)领域的研究进行了系统性综述, 围绕从多模态输入中提取信息, 表征与对齐文本-视觉信息, 执行推理以及评估推理过程正确性这四个核心问题, 梳理了当前的研究进展. 文章还讨论了该领域面临的开放挑战与未来研究方向.

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

Liuyi Xu et al.

cs.AI

本文提出了一种用于针灸临床决策支持的神经符号框架CORE-Acu. 该框架结合了结构化思维链和知识图谱安全验证, 旨在提高大型语言模型在专业领域应用中的可解释性与安全性.

A Hierarchical Error-Corrective Graph Framework for Autonomous Agents with LLM-Based Action Generation

Cong Cao, Jingyao Zhang, Kun Tong

cs.AI

本文提出了一个结合了多维可迁移策略、错误矩阵分类和因果上下文图检索的分层纠错图框架, 用于增强基于LLM的自主智能体. 该框架旨在通过结构化分析任务失败原因和利用历史因果上下文, 提升智能体在复杂多步任务中的执行可靠性和策略适应性.

IronEngine: Towards General AI Assistant

Xi Mo

cs.AI cs.HC cs.LG cs.MA eess.SY

本文介绍了一个名为 IronEngine 的通用 AI 助手平台。该系统围绕一个统一编排核心构建，集成了多种接口、后端模型、工具执行和硬件集成功能。

Efficient Policy Learning with Hybrid Evaluation-Based Genetic Programming for Uncertain Agile Earth Observation Satellite Scheduling

Junhua Xue, Yuning Chen

cs.AI

本文提出了一种混合评估遗传规划方法(HE-GP)来解决不确定敏捷对地观测卫星调度问题(UAEOSSP). 该方法通过结合精确与近似评估模式来降低计算成本, 并在多种仿真场景中取得了优于手工启发式规则和单一评估遗传规划的性能.

The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

Zhe Hong

cs.AI cs.LG

本文研究了在连续观测漂移下基于world model的强化学习agent的异常检测问题. 发现存在一个普遍的尖锐检测阈值$\varepsilon^*$, 其存在性和sigmoid形状不依赖于检测器类型和模型容量. 正弦漂移对所有检测器都不可检测, 而在脆弱环境中, agent会在任何检测器触发前崩溃.

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Xiaoying Zhang et al.

cs.AI

本文提出了一个名为RetroAgent的在线强化学习框架, 通过引入包含数值和语言反馈的"事后反思"机制来增强智能体在复杂交互环境中的适应与进化能力. 实验表明该方法在多个任务上超越了现有基准.

Trust via Reputation of Conviction

Aravind R. Iyengar

cs.AI cs.LG

本文提出了一个基于"conviction"的数学框架来形式化知识、真理与信任的关系. 它将声誉定义为在主张领域上的期望加权符号化conviction, 并讨论了其在AI智能体信任评估中的应用.

CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

Haodong Li et al.

cs.AI

本文提出了一种名为CoCo的代码驱动推理框架, 用于文本到图像生成. 它将推理过程表示为可执行代码, 先生成指定场景结构布局的代码并渲染为草稿图像, 再通过细粒度编辑得到最终图像.

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Krista Opsahl-Ong et al.

cs.AI cs.CL cs.IR

本文提出了OfficeQA Pro基准, 用于评估AI智能体在大型异构文档库上进行基于文档的、多文档推理的能力. 该基准基于包含大量数值的财政公报文档集构建, 实验表明当前前沿大模型在该任务上表现不佳, 仍有很大提升空间.

A Multi-Objective Optimization Approach for Sustainable AI-Driven Entrepreneurship in Resilient Economies

Anas ALsobeh, Raneem Alkurdi

cs.AI

本文提出了一个名为EcoAI-Resilience的多目标优化框架，旨在平衡AI部署的可持续性收益、环境成本与经济韧性。该框架整合了多国跨部门数据，并通过数学优化方法进行实验验证，其模型性能指标优于多种基线方法。

Evaluating Financial Intelligence in Large Language Models: Benchmarking SuperInvesting AI with LLM Engines

Akshay Gulati et al.

cs.AI

本文提出了一个用于评估大语言模型金融分析能力的多维度基准框架(AFIB), 并在一个包含95个以上结构化问题的数据集上测试了五个AI系统. 结果显示, 结合了结构化数据访问与分析推理能力的系统在复杂的投资研究工作流中表现最为可靠.

Agentic Critical Training

Weize Liu et al.

cs.AI cs.CL cs.LG

本文提出了一种名为Agentic Critical Training (ACT)的强化学习范式, 用于训练大型语言模型作为自主智能体. 该方法通过让模型判断不同动作的优劣并给予奖励, 旨在使其自主发展对动作质量的推理能力, 而非模仿预先构建的反思文本. 实验表明, ACT在多个智能体基准测试中超越了模仿学习和传统的强化学习方法.

cs.IR

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

Daniel Dobriy et al.

cs.IR cs.AI cs.MA

本文探讨了基于SPARQL-MCP的智能代理在联邦知识图谱问答(FKGQA)中的潜力. 作者扩展了一个现有基准, 并评估了通过MCP集成SPARQL联邦查询与LLM代理的不同架构方案.

Scaling Multilingual Semantic Search in Uber Eats Delivery

Bo Ling et al.

cs.IR

本文介绍了为Uber Eats构建的一个面向生产的语义检索系统。该系统通过微调Qwen2双塔模型，结合多种损失函数和Matryoshka表示学习技术，实现了跨商店、菜品和零售商品的统一检索，并在多个市场取得了显著的召回率提升。

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

Hailing Cheng et al.

cs.IR cs.AI cs.LG

本文提出了一种称为 Isotonic Layer 的可微分框架，用于推荐系统的去偏和校准。该方法通过分段线性拟合和可学习的斜率嵌入，实现了对上下文特征的自适应校准，并在实验中提升了预测准确性和排序一致性。

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

Madjid Sadallah

cs.IR cs.AI cs.DS cs.LG

本文提出了Exploration Space Theory (EST), 将Knowledge Space Theory的形式化框架应用于基于位置的推荐系统. 该理论为兴趣点之间的先决依赖关系提供了格论表示, 并基于此设计了ESRS推荐系统.

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy

cs.IR cs.LG

本文提出了一种名为T-REX的transformer架构，用于在线杂货购物的序列推荐。该方法通过建模类别序列来学习购物篮的短期依赖和用户的长期偏好，并在实验中取得了优于现有系统的效果。

Approximate Nearest Neighbor Search for Modern AI: A Projection-Augmented Graph Approach

Kejing Lu et al.

cs.IR cs.DB cs.LG

本文提出了一种名为Projection-Augmented Graph (PAG)的新框架，用于近似最近邻搜索(ANNS)。该方法通过将投影技术与图索引相结合，旨在同时满足现代AI应用对查询效率、索引速度、内存占用等多方面的需求。实验表明，PAG在多个数据集上取得了优于现有方法的性能。

Leveraging Large Language Models for Automated Scalable Development of Open Scientific Databases

Nikita Gautam et al.

cs.IR

本文提出了一种基于大型语言模型(LLM)的自动化框架, 用于构建开放科学数据库. 该工具通过结合关键词查询, API数据检索和LLM文本分类, 实现了跨领域、可扩展的数据收集与过滤, 实验表明其能有效减少人工工作量.

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

Kai Cheng et al.

cs.IR cs.AI

本文提出了一种用于推荐系统重排序的个性化半自回归在线知识蒸馏框架, 旨在解决生成模型在质量与延迟之间的权衡问题以及用户-物品特征交互不足的挑战. 该框架通过半自回归生成器与在线蒸馏技术提升效率, 并引入用户画像网络以增强个性化建模.

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Wojciech Kosiuk et al.

cs.IR cs.AI cs.CL cs.DB

本文提出了一种名为DCTR的细粒度表格检索机制，通过类型化查询分解和全局连接感知来处理复杂查询。该方法在行业基准测试中展现出对复合查询和高连接度数据库的鲁棒性。

Retrieving Minimal and Sufficient Reasoning Subgraphs with Graph Foundation Models for Path-aware GraphRAG

Haonan Yuan et al.

cs.IR

本文提出了一种名为GFM-Retriever的图检索方法, 它利用预训练的Graph Foundation Model作为跨领域检索器, 直接从图中检索与用户查询相关的子图. 该方法进一步通过Information Bottleneck目标优化一个无标签的子图选择器, 以获取信息充分且结构简洁的推理证据, 并在多跳问答基准上取得了先进的性能.

AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search

Junzhe Yang et al.

cs.IR

本文介绍了一个名为AutoDataset的轻量级自动化系统, 用于实时发现和检索新发布的数据集. 该系统通过持续监控arXiv, 从新论文中自动识别和提取数据集信息, 并构建可语义搜索的索引, 旨在提高研究人员查找数据集的效率.

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Chen Zhao, Yuan Tang, Yitian Qian

cs.IR cs.AI cs.SE

本文通过一个确定性验证流程, 评估了四种大型语言模型在五种提示约束下生成参考文献的可靠性. 研究发现, 所有模型生成的引用存在率均低于0.475, 且大量未解析的引用很可能是捏造的, 强调了在将LLM输出用于文献综述前进行事后验证的必要性.

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Kan Ling et al.

cs.IR cs.AI

本文提出了一个名为SeDa的统一框架, 用于跨平台数据集发现, 语义标注和多实体增强导航. 该框架整合了来自200多个平台的超过760万个数据集, 并通过语义提取, 标准化, 主题标签图和来源保障模块来提升数据发现的覆盖度, 及时性和可追溯性.

Deep Research for Recommender Systems

Kesha Ou et al.

cs.IR

本文提出了一种新的推荐系统范式, 将传统的物品列表推荐转变为生成以用户为中心的深度研究报告. 作者通过一个名为RecPilot的多智能体框架来实现这一范式, 该框架能够模拟用户行为并生成决策支持报告.

Verifiable Reasoning for LLM-based Generative Recommendation

Xinyu Lin et al.

cs.IR

本文提出了一种新的"reason-verify-recommend"范式，通过在推理过程中引入验证步骤来提升基于LLM的生成式推荐系统的可靠性。该方法设计了多维度的验证器，并在多个真实数据集上验证了其有效性。

Structure-Preserving Graph Contrastive Learning for Mathematical Information Retrieval

Chun-Hsi Ku, Hung-Hsuan Chen

cs.IR cs.DL

本文提出了一种针对数学公式检索的图对比学习(graph contrastive learning)方法, 通过引入一种名为Variable Substitution的领域特定图增强技术来改进检索性能. 该方法旨在保持数学公式的核心代数关系和结构, 实验表明其优于通用的图增强策略.

Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval

Matei Benescu, Ivo Pascal de Jong

cs.IR

本文探讨了在信息检索中，基于大语言模型(LLM)的相关性判断系统(LLM-RJS)与基于神经嵌入的检索系统(NERS)的性能对比。研究发现，尽管LLM-RJS在理论上能克服NERS的“短视”局限，但在标准数据集(如TREC-DL 2019)上并未观察到显著优势，部分原因在于人工标注数据本身也存在类似的短视问题。

ERASE -- A Real-World Aligned Benchmark for Unlearning in Recommender Systems

Pierre Lubitzsch, Maarten de Rijke, Sebastian Schelter

cs.IR

本文提出了一个名为ERASE的基准测试, 用于评估推荐系统中的机器遗忘(MU)方法. 该基准旨在更贴近真实场景, 涵盖了多种推荐任务和遗忘场景, 并发布了大量实验数据以供分析.

cs.CL

ARC-AGI-2 Technical Report

Wallyson Lemes de Oliveira et al.

cs.CL cs.AI

本文提出了一种基于transformer的系统, 通过结合神经推理、结构先验和在线任务适应来提升在Abstraction and Reasoning Corpus (ARC)上的性能. 该系统利用紧凑的任务编码、基于群对称性的数据增强、测试时训练以及对称感知解码等技术, 显著超越了之前的神经求解器.

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

Jonas Rohweder, Subhabrata Dutta, Iryna Gurevych

cs.CL cs.LG

本文使用 probabilistic context-free grammars (PCFGs) 生成合成语料库，以研究 Transformer 语言模型中 induction heads 等机制性现象的出现。研究发现，数据生成过程中的 hierarchical structures 是解释这些现象出现的关键因素。

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

Nikita Sorokin, Ivan Sedykh, Valentin Malykh

cs.CL cs.LG

本文提出了一种名为Hierarchical Embedding Fusion (HEF)的两阶段方法, 用于代码补全中的检索增强生成. 该方法通过离线缓存将代码库块压缩为可重用的密集向量层次结构, 并在在线阶段将少量检索向量映射为伪令牌供生成器使用, 从而显著降低了推理延迟.

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

Leo Schwinn et al.

cs.CL cs.AI

本文指出, 当前依赖 LLM 作为评判员 (LLM-as-a-Judge) 来自动评估模型安全性的方法存在严重缺陷. 研究发现, 在面对对抗性攻击时, 这些评判员的性能会因多种分布偏移而退化至接近随机水平, 导致报告的鲁棒性基准不可靠.

Rethinking Personalization in Large Language Models at the Token Level

Chenheng Zhang et al.

cs.CL

本文提出了一种名为PerContrast的token-level个性化方法, 通过causal intervention估计输出token对用户信息的依赖程度, 并设计了PerCE损失函数在训练中自适应地加权这些token. 实验表明该方法能有效提升多个LLM的个性化性能, 且具有较好的迁移性.

"Dark Triad" Model Organisms of Misalignment: Narrow Fine-Tuning Mirrors Human Antisocial Behavior

Roshni Lulla et al.

cs.CL cs.AI q-bio.NC

本文利用心理学中的"黑暗三人格"框架, 在人类和大型语言模型(LLMs)中构建了"错位"的行为模型. 研究表明, 对LLMs进行极少量(如36项)心理测量数据的微调, 就能可靠地诱导出与人类反社会行为谱高度相似的"黑暗人格"行为模式, 并且模型展现出超越训练数据的泛化推理能力.

Validation of a Small Language Model for DSM-5 Substance Category Classification in Child Welfare Records

Brian E. Perron et al.

cs.CL cs.GL

本文验证了一个本地部署的小型语言模型在儿童福利记录中对DSM-5物质类别进行分类的能力。该研究将二元分类任务扩展到了多标签物质识别，并在多个物质类别上取得了较高的分类精度和重测一致性。

Counting on Consensus: Selecting the Right Inter-annotator Agreement Metric for NLP Annotation and Evaluation

Joseph James

cs.CL

本文综述了自然语言处理(NLP)中用于衡量标注者间一致性(IAA)的各种度量方法. 文章按任务类型组织这些度量, 讨论了标签不平衡和缺失数据等因素的影响, 并强调了清晰报告的最佳实践.

MedInjection-FR: Exploring the Role of Native, Synthetic, and Translated Data in Biomedical Instruction Tuning

Ikram Belmadani et al.

cs.CL

本文研究了在法语生物医学领域进行指令微调时, 不同数据来源(原生, 合成与翻译)对模型性能的影响. 通过构建大规模数据集并进行系统实验, 发现原生数据效果最佳, 而混合数据源能带来互补优势.

Language Shapes Mental Health Evaluations in Large Language Models

Jiayi Xu, Xiyang Hu

cs.CL

本文研究了大型语言模型在心理健康评估中是否存在跨语言差异. 研究发现, 当使用中文提示时, 模型倾向于产生更高的污名化相关回应, 并在下游决策任务中表现出不同的敏感性和预测偏差.

A Dynamic Self-Evolving Extraction System

Moin Amin-Naseri, Hannah Kim, Estevam Hruschka

cs.CL cs.LG

本文提出了一个动态自演化的信息抽取系统 DySECT, 它通过一个大型语言模型(LLM)与一个自扩展知识库(KB)的闭环交互, 持续提升从文本中抽取结构化信息的能力. 该系统旨在适应特定领域术语的变化, 并整合概率知识和基于图的推理.

Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping

Zhenyu Lei et al.

cs.CL

本文提出了一种名为Reasoning Editing的新范式, 旨在选择性修改LLMs中的特定推理模式. 通过揭示Circuit-Interference Law并提出了REdit框架, 该工作尝试在保持其他推理能力的同时, 提升对目标模式的编辑效果. 实验在命题逻辑推理任务上验证了其有效性.

Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks

Jena D. Hwang et al.

cs.CL

本文通过一个针对科学领域深度研究问答系统评估的案例研究, 探讨了基于人类成对偏好的元评估方法的局限性. 研究发现, 成对偏好更适合系统级评估, 而可靠的指标级评估需要明确的指标注释和专家标注者, 主观性仍是主要挑战.

Elenchus: Generating Knowledge Bases from Prover-Skeptic Dialogues

Bradley P. Allen

cs.CL cs.AI cs.LO

本文提出了一种基于推理主义语义学的对话系统Elenchus, 用于构建知识库. 系统通过人类专家与大型语言模型(LLM)进行证明者-怀疑者对话来发展关于某个主题的双边立场, 并将对话状态映射到非单调多结论逻辑(NMMS)中的物质基, 从而形式化地捕捉对话中协商的推理关系. 作者以W3C PROV-O本体为例进行了演示, 展示了从对话到形式化推理的端到端集成.

A Systematic Investigation of Document Chunking Strategies and Embedding Sensitivity

Muhammad Arslan Shaukat, Muntasir Adnan, Carlos C. N. Kuhn

cs.CL cs.AI

本文对文档分块策略进行了大规模跨领域评估, 比较了36种方法在六个知识领域和五种嵌入模型下的检索性能. 研究发现, 基于内容的智能分块策略(如段落分组)显著优于固定长度分块, 且最优策略具有领域依赖性, 同时量化了分块策略在效果与效率之间的权衡.

Can Safety Emerge from Weak Supervision? A Systematic Analysis of Small Language Models

Punyajoy Saha et al.

cs.CL cs.AI cs.LG

本文提出了一种名为Self-MOA的自动化框架，用于对齐小型语言模型的安全性。该方法利用来自自动化评估模型的弱监督，通过动态生成对抗性提示和偏好优化来联合优化安全性与有用性。实验表明，该方法能以较少的数据实现安全性的提升。

AutoChecklist: Composable Pipelines for Checklist Generation and Scoring with LLM-as-a-Judge

Karen Zhou, Chenhao Tan

cs.CL

本文介绍了一个名为AutoChecklist的开源库, 它通过模块化的Generator $\rightarrow$ Refiner $\rightarrow$ Scorer流程, 将基于检查表的评估统一为可组合的管道. 该库支持多种LLM提供商, 并提供了Python API, CLI和Web界面, 验证实验表明其方法与人类偏好有较好的一致性.

Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment

Junming Liu et al.

cs.CL cs.AI

本文提出了一个名为Hit-RAG的多阶段偏好对齐框架，旨在解决长上下文检索增强生成中的注意力稀释和推理幻觉问题。该方法通过渐进式优化管道来系统性地改进对外部证据的利用。

Language-Aware Distillation for Multilingual Instruction-Following Speech LLMs with ASR-Only Supervision

Shreyas Gopal et al.

cs.CL

本文提出了一种语言感知蒸馏方法, 用于提升仅使用ASR数据进行监督训练的多语言指令跟随语音大语言模型的性能. 该方法通过引入查询库和门控网络来缓解共享投影器中的语言干扰问题, 并在构建的Audio-MLQA基准上取得了显著提升.

Enhancing Consistency of Werewolf AI through Dialogue Summarization and Persona Information

Yoshiki Tanaka et al.

cs.CL cs.AI

本文为AIWolfDial 2024竞赛开发了一个基于LLM的狼人杀AI智能体。该研究通过利用LLM生成的对话摘要以及手动设计的人物角色和发言示例，旨在提升智能体发言的一致性。

Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

Yoshiki Tanaka et al.

cs.CL cs.AI

本文提出了一个名为Emotion Transcription in Conversation (ETC)的新任务, 旨在通过自然语言描述来捕捉对话中复杂细微的情感状态. 作者构建了一个包含日语文本对话和参与者自我报告情感描述的数据集, 并评估了基线模型, 发现现有模型在推断隐含情感方面仍存在困难.

Lying to Win: Assessing LLM Deception through Human-AI Games and Parallel-World Probing

Arash Marioriyad et al.

cs.CL

本文通过设计一个结构化的20-Questions游戏和并行世界探测机制，评估了大型语言模型在外部激励下的欺骗行为。研究发现，在生存威胁等特定情境下，某些模型会策略性地提供虚假信息，这为AI安全的行为审计提供了新视角。

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

Minu Kim, Hoirin Kim, David R. Mortensen

cs.CL eess.AS

本文研究了自监督语音模型(S3Ms)的语言表示相似性, 发现扩大语言覆盖范围(从126种到4,017种)会引发非线性效应. 在4K规模的模型中, 观察到了更清晰的谱系结构和语言接触信号, 特别是在太平洋语言群中.

Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin

Po-Chun Hsu et al.

cs.CL

本文针对全球安全模型在台湾中文语境下的局限性, 提出了专门的数据集TS-Bench和微调模型Breeze Guard. 实验表明, 该模型在台湾特定风险类别上表现优于通用安全模型, 为区域化AI安全评估提供了工具.

To Predict or Not to Predict? Towards reliable uncertainty estimation in the presence of noise

Nouran Khallaf, Serge Sharoff

cs.CL

本文研究了在嘈杂和非主题条件下，不确定性估计(UE)方法在多语言文本分类中的作用。通过实验评估了多种UE技术，发现Monte Carlo dropout方法在各种条件下表现稳健，并能提升非主题分类的性能。

How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

Nouran Khallaf, Serge Sharoff

cs.CL

本文研究了训练数据中的噪声对基于BERT的句子难度检测模型性能的影响, 并评估了多种去噪方法. 实验表明, 预训练语言模型本身具有一定鲁棒性, 而显式的噪声检测(如GMM)在小数据集上能显著提升性能, 但在大数据集上增益有限.

RILEC: Detection and Generation of L1 Russian Interference Errors in English Learner Texts

Darya Kharlamova, Irina Proskurina

cs.CL

本文提出了RILEC, 一个用于检测和生成俄语(L1)对英语学习者文本干扰错误的数据集与框架. 该工作结合了专家标注数据与基于规则及神经网络的合成数据生成方法, 并展示了在此数据集上微调的模型在识别特定类型错误(如音译)上的有效性.

Position: LLMs Must Use Functor-Based and RAG-Driven Bias Mitigation for Fairness

Ravi Ranjan, Utkarsh Grover, Agorista Polyzou

cs.CL cs.AI

本文提出了一种结合范畴论(Category Theory)的函子(Functor)映射和检索增强生成(RAG)的双重方法, 旨在减轻大语言模型(LLMs)中的偏见. 它主张通过结构化的数学变换和动态的外部知识注入来提升模型的公平性.

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Namrata Patil Gurav et al.

cs.CL cs.AI cs.LG

本文研究了低资源场景下机器翻译的领域特定质量评估(QE). 通过比较不同提示策略和模型微调方法, 发现中间层适配能提升复杂领域的评估性能.

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Jiyeon Kim et al.

cs.CL

本文提出了一个名为OAKS的基准测试, 用于评估大型语言模型(LLMs)在持续知识流中的在线适应能力. 实验表明, 当前最先进的模型和agentic memory systems在此任务上均存在显著局限.

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Guoli Wang et al.

cs.CL cs.LG

本文提出了一种名为PACT的微调框架, 旨在解决大语言模型在下游任务微调过程中可能出现的"安全对齐漂移"问题. 该方法通过约束模型在少量"安全相关token"上的输出置信度来维持其拒绝有害请求的能力, 同时允许对其他token进行充分适应以保持任务性能.

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

J. Clayton Kerce, Alexis Fox

cs.CL cs.AI cs.LG

本文提出了一种名为 Dual-Stream Transformer 的架构，它将标准的单一残差流分解为 token stream 和 context stream 两个功能不同的组件。该设计通过控制 attention heads 之间的信息混合策略，在模型可解释性与性能之间提供了一个可调节的权衡。

Cross-Modal Taxonomic Generalization in (Vision-) Language Models

Tianyang Xu et al.

cs.CL cs.AI

本文研究了视觉-语言模型(VLM)中语言模型(LM)从纯文本形式学习到的语义表征与从多模态证据中学习到的表征之间的相互作用. 通过一个预测图像中物体上位词(hypernym)的案例, 作者发现即使训练中不提供上位词证据, LM仍能恢复相关知识并进行跨模态分类学泛化.

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Raghavv Goel et al.

cs.CL

本文比较了 diffusion language models (dLLMs) 与 autoregressive (AR) models 在内部表征结构上的差异. 研究发现 diffusion 训练目标会产生更分层的抽象和早期层冗余, 而 AR 模型则产生深度依赖的紧密耦合表征. 基于此, 作者提出了一种无需架构修改的静态推理时层跳过方法, 为 dLLMs 带来了显著的效率提升.

A Joint Neural Baseline for Concept, Assertion, and Relation Extraction from Clinical Text

Fei Cheng, Ribeka Tanaka, Sadao Kurohashi

cs.CL cs.AI

本文提出了一种用于临床文本信息提取的端到端联合模型, 将概念识别、断言分类和关系提取三个任务统一优化. 该模型在联合任务设定下显著优于传统的pipeline基线, 并探讨了不同embedding技术的影响.

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Tajamul Ashraf et al.

cs.CL

本文为克什米尔语构建了首个开源的神经TTS系统Bolbosh. 该方法基于Optimal Transport Conditional Flow Matching进行跨语言适应, 并引入了声学增强流程, 显著提升了合成语音的质量.

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

Mingyue Cheng et al.

cs.CL

本文提出了一种名为TableMind++的不确定性感知程序化智能体, 用于增强表格推理. 它通过记忆引导的计划剪枝和基于置信度的动作精炼等机制来缓解大语言模型在推理过程中产生的幻觉问题.

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

Thanathai Lertpetchpun et al.

cs.CL

本文提出了一种名为"Accent Vector"的方法，用于在多语言TTS中实现无需口音训练数据的可控口音操纵。该方法通过在不同语言的母语语音上微调TTS模型并计算任务向量来捕获口音特征，从而实现对口音强度和混合口音的精细控制。

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Abdessalam Bouchekif et al.

cs.CL

本文介绍了MAWARITH数据集，这是一个用于评估大型语言模型在伊斯兰继承法领域进行复杂、结构化多步推理能力的大规模阿拉伯语数据集。该数据集包含详细的案例和解决方案，并提出了一个多阶段评估指标MIR-E。

Learning-free L2-Accented Speech Generation using Phonological Rules

Thanathai Lertpetchpun et al.

cs.CL cs.AI

本文提出了一种无需训练数据的口音语音生成框架, 通过将音系规则应用于音素序列来转换口音. 该方法结合了多语言TTS模型, 实现了音素级别的显式口音控制, 并在西班牙和印度口音英语上进行了实验验证.

Nwāchā Munā: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Rishikesh Kumar Sharma et al.

cs.CL cs.AI cs.SD

本文为濒危语言Nepal Bhasha构建了首个Devanagari脚本语音语料库Nwāchā Munā, 并建立了自动语音识别(ASR)基准. 研究通过从邻近语言Nepali进行跨语言迁移, 在超低资源条件下取得了与大规模多语言预训练模型相当的性能.

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

Haishu Zhao et al.

cs.CL

本文提出了一个名为StyleBench的基准测试, 用于系统评估语音语言模型(SLMs)在对话中对说话风格强度(如情感, 语速等)的控制能力. 该工作揭示了当前领先模型在相关任务上的性能差距, 并指出了未来可能的改进方向.

KohakuRAG: A simple RAG framework with hierarchical document indexing

Shih-Ying Yeh et al.

cs.CL

本文提出了一个名为KohakuRAG的层次化检索增强生成框架，旨在解决需要高精度引用的问答任务中的结构丢失、检索不全和答案不稳定等问题。该框架在WattBot 2025挑战赛中取得了最佳成绩。

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

Matic Korun

cs.CL

本文通过PCA-whitening和eigenspectrum decomposition分析GPT-2-small模型，研究了文本生成中三种几何幻觉类型的区分问题。研究发现，whitening预处理能有效分离Type 2和Type 3错误，并提示Type 1和Type 2的区分可能受模型容量限制。

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

A.J.W. de Vink et al.

cs.CL cs.AI

本文为SemEval-2026 Task 3任务提出了一个用于维度方面情感回归的系统. 该系统通过集成学习, 结合了基于RoBERTa的混合编码器与大语言模型(LLMs)的预测, 以提升情感分析的性能.

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Zongqian Li et al.

cs.CL cs.GL cs.LG

本文提出了一种用于提升代码生成模型性能的数据处理框架和数据集. 通过一个基于LLM的自动难度过滤流程, 构建了强调新颖性和挑战性的编程问题数据集MicroCoder, 并在基准测试中验证了其有效性.

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Ashish Pandey, Tek Raj Chhetri

cs.CL cs.AI cs.CY

本文在尼泊尔文化背景下, 使用一个包含2400多个刻板与非刻板句对的数据集, 对七种先进大语言模型的社会偏见进行了系统评估. 研究提出了结合显性同意与隐性补全倾向的双指标评估框架, 发现模型的生成性偏见无法被简单的同意度指标有效捕捉.

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

David Beauchemin, Richard Khoury

cs.CL

本文针对魁北克保险领域的自动化咨询需求, 构建了一个私有的基准测试集 AEPC-QA, 并评估了 51 个大语言模型在闭卷生成和检索增强生成两种范式下的表现. 研究发现, 推理时思考链技术能显著提升性能, 而检索增强生成对不同模型的影响存在差异, 有时甚至会导致性能下降.

AI Steerability 360: A Toolkit for Steering Large Language Models

Erik Miehling et al.

cs.CL cs.AI

本文介绍了一个名为AI Steerability 360的开源Python工具包，用于引导和控制大型语言模型(LLM)。该工具包提供了围绕输入、结构、状态和输出四个控制面的抽象，并支持通过统一的“steering pipeline”接口组合多种控制方法，旨在降低开发和评估LLM引导技术的门槛。

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

Trinh Pham et al.

cs.CL

本文提出了一种名为FusionSQL的评估器, 用于在无标签的未见数据集上评估Text2SQL模型的性能. 该方法通过分析模型自身输出的模式来估计准确率, 支持发布前检查和持续监控.

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

Taksch Dube et al.

cs.CL

本文分析了首个纯AI社交网络Moltbook中AI代理间的大规模通信数据, 结合topic modeling, emotion classification等方法, 揭示了AI间话语的主题, 情感和结构特征. 研究发现AI对话具有内省性, 仪式化和情感重定向等独特结构, 与人类社交网络存在系统性差异.

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

Xiaona Xue et al.

cs.CL cs.AI

本文提出了一个名为CCR-Bench的新基准，用于评估大语言模型在遵循复杂指令方面的能力。该基准强调内容与格式的深度交织、复杂的逻辑流程控制以及真实工业场景，实验表明当前最先进的模型仍存在显著不足。

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

Biao Xiang, Soyeon Caren Han, Yihao Ding

cs.CL

本文提出了一个名为BRIDGE的基准测试, 用于评估模型在长篇幅、多模态科学文档中进行多跳推理的能力. 该基准强调对中间推理步骤的评估, 揭示了现有先进模型在证据整合与落地方面的系统性缺陷.

Emergence is Overrated: AGI as an Archipelago of Experts

Daniel Kilov

cs.CL cs.AI

本文讨论了关于智能本质的两种观点, 并基于认知科学的证据, 论证了人类智能更接近于由大量领域特定专家模块组成的集合体, 而非基于统一原则的优雅压缩. 作者据此提出, 人工通用智能(AGI)或许应被重新构想为一个"专家群岛".

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

Chenzhi Hu et al.

cs.CL cs.LG

本文提出了一种名为SmartThinker的方法, 用于优化大型推理模型(LRMs)的思维链(CoT)长度. 该方法通过动态校准长度奖励, 在压缩输出长度的同时保持或提升推理准确性.

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

Weixiang Zhao et al.

cs.CL

本文提出了ConflictBench, 一个用于评估人类与AI在交互式、多模态环境中行为冲突的基准测试。它通过文本模拟引擎和视觉基础世界模型构建动态场景, 实验发现AI代理在压力下可能采取自保或欺骗策略, 揭示了传统静态评估的局限性。

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Younjoo Lee et al.

cs.CL cs.AI cs.PF

本文提出了一种名为DyLLM的训练无关推理框架, 用于加速Masked Diffusion Language Models (MDLMs)的解码过程. 该方法基于相邻去噪步骤间attention context的余弦相似度来识别并选择性计算关键的"salient tokens", 从而在多个基准测试上实现了显著的吞吐量提升, 同时基本保持了模型的准确性.

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

Sarmad Chandio, Rishab Nithyanand

cs.CL

本文通过结合YouTube观看历史和意识形态调查数据, 分析了内容生产与消费的互动如何影响极端意识形态的形成. 研究发现, 意识形态极端化用户的消费习惯与稳定用户不同, 且他们偏好的频道更倾向于生产带有愤怒等情绪标记的内容.

High-Fidelity Pruning for Large Language Models

Yijun Zhu, Jianxin Wang, Chengchao Shen

cs.CL

本文提出了一种基于模型输出分布信息熵的神经元重要性评估准则, 用于改进大型语言模型的剪枝. 该方法在无需额外教师模型的情况下, 为Taylor剪枝提供了更全局的重要性度量, 并在多个零样本基准测试中优于现有方法.

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

Hongli Zhou et al.

cs.CL

本文提出了JudgeBiasBench基准，用于系统评估LLM-based judges中的多种判断偏差，并通过bias-aware training方法进行优化。实验表明，该方法能在保留评估能力的同时有效减轻偏差。

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Chi-Min Chan et al.

cs.CL cs.AI cs.LG

本文提出了一个名为DC-W2S的双共识弱监督到强监督训练框架，用于在生物推理任务中训练可靠的过程奖励模型。该方法通过结合弱监督者之间的自共识和嵌入空间中的邻域共识来筛选高质量的监督信号，从而减少对昂贵专家标注的依赖。

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

Rania Al-Sabbagh

cs.CL

本文介绍了Ramsa, 一个用于阿联酋阿拉伯语自动语音识别(ASR)和文本转语音(TTS)的41小时语音语料库。该语料库包含多种社会方言和主题的录音, 并为ASR和TTS任务建立了初步的基线性能评估。

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Yougang Lyu et al.

cs.CL

本文提出了一个名为EvoScientist的多智能体框架，旨在通过持久记忆和自我进化来改进端到端科学发现的过程。该系统包含三个专门智能体，并展示了在科学想法生成和代码执行成功率方面的提升。

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Chang Liu et al.

cs.CL cs.AI

本文提出了一个用于开放域复杂问答的渐进式知识挖掘框架, 通过让大语言模型(LLMs)迭代地、主动地获取外部信息并进行推理来回答问题. 该方法在StrategyQA数据集上取得了优异的结果, 并以较少的参数量超越了同类模型.

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez

cs.CL

本文针对低资源且无性别语言 Basque, 构建了 WinoMTeus 和 FLORES+Gender 两个新数据集, 用于评估涉及 Basque 的机器翻译中的性别偏见. 通过评估多个 LLM 和 MT 系统, 发现模型普遍存在对男性形式的系统性偏好, 表明性别偏见在这些模型中依然根深蒂固.

RexDrug: Reliable Multi-Drug Combination Extraction through Reasoning-Enhanced LLMs

Zhijun Wang et al.

cs.CL

本文提出了一种基于大语言模型的推理增强关系抽取框架RexDrug, 用于从生物医学文献中提取可变长度的n元药物组合. 该框架采用两阶段训练策略, 结合多智能体协作生成推理轨迹和强化学习优化, 在DrugComb数据集上取得了优于现有方法的效果.

Is continuous CoT better suited for multi-lingual reasoning?

Ali Hamza Bashir et al.

cs.CL cs.AI cs.LG

本文比较了 Continuous Chain-of-Thought 与标准监督微调在多语言推理任务上的表现。实验表明，连续推理在低资源语言上具有优势，并能大幅压缩推理轨迹。

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Toms Bergmanis et al.

cs.CL cs.AI

本文提出了一种名为TildeOpen LLM的多语言大语言模型，旨在通过课程学习策略改善对低资源欧洲语言的处理能力。该模型在多项基准测试中表现优于现有的开源模型。

Supporting Workflow Reproducibility by Linking Bioinformatics Tools across Papers and Executable Code

Clémence Sebe et al.

cs.CL

本文提出了一种名为CoPaLink的自动化方法, 用于连接科学论文中描述的Bioinformatics工具与可执行工作流代码中的对应工具. 该方法整合了命名实体识别和基于知识库的实体链接, 旨在提高工作流的可理解性和可复现性.

The Conundrum of Trustworthy Research on Attacking Personally Identifiable Information Removal Techniques

Sebastian Ochs, Ivan Habernal

cs.CL

本文对现有攻击个人可识别信息(PII)移除技术的评估方法进行了批判性分析, 指出其普遍存在数据泄露和污染问题, 导致攻击成功率被高估. 作者认为, 只有使用真正的私有数据才能客观评估漏洞, 但这与公开、可复现的研究原则相悖, 构成了一个研究困境.

Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Romain Loncour, Jérémie Bogaert, François-Xavier Standaert

cs.CL

本文研究了Transformer模型解释对训练随机性的敏感性, 探讨了句法上下文、类别和任务三个因素的影响。实验表明, 任务对解释差异的影响最大, 类别次之, 上下文最小。

Not All Queries Need Deep Thought: CoFiCot for Adaptive Coarse-to-fine Stateful Refinement

Dongxu Zhang et al.

cs.CL

本文提出了一个名为CoFiCot的自适应推理框架, 旨在根据问题难度动态分配计算资源. 它通过一个多指标分类器对查询进行分级, 并对复杂问题实施一种状态感知的校正循环.

NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Tong Wu, Thanet Markchom, Huizhi Liang

cs.CL

本文系统比较了三种方法来解决word sense plausibility rating任务. 最佳系统采用了结构化prompting策略, 分析表明prompt设计比模型规模更重要.

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

JV Roig

cs.CL cs.AI

本文通过RIKER评估方法, 在1720亿token的规模上系统研究了LLM在文档问答中的幻觉问题. 研究发现幻觉率随上下文长度显著增加, 且模型选择是影响准确性的最主要因素.

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

Hankun Kang et al.

cs.CL cs.AI

本文提出了一个名为AdaCultureSafe的数据集构建框架, 用于联合评估大型语言模型(LLM)的文化安全性与文化知识熟练度. 基于该数据集, 作者发现模型的文化安全性与知识熟练度之间没有显著相关性, 并提出了一种基于知识的方法来增强文化安全性.

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

William Thorne et al.

cs.CL cs.AI cs.CY

本文通过设计结构化扰动框架, 评估了基于LLM的基金申请书评审能力. 研究发现, 分段评审架构在检测率和评分可靠性上显著优于单次评审和模拟专家小组的集成方法, 但当前LLM的评审重点存在偏差且表现不稳定.

Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization

Chaimae Chellaf et al.

cs.CL

本文提出了一种名为SBARThez的抽象摘要框架, 它利用多模态与多语言句子嵌入(如LaBSE, SONAR, BGE-M3)并注入命名实体, 以提升生成摘要的事实一致性. 该框架适用于文本和语音输入, 并在低资源语言上展现了竞争力.

LAMUS: A Large-Scale Corpus for Legal Argument Mining from U.S. Caselaw using LLMs

Serene Wang, Lavanya Pobbathi, Haihua Chen

cs.CL

本文提出了一个用于美国判例法法律论证挖掘的大规模语料库LAMUS, 其构建流程结合了大规模案例收集、基于LLM的自动标注和人工质量精炼。研究评估了多种语言模型在该任务上的表现, 发现思维链提示能显著提升性能, 而领域特定模型在零样本设置下表现更稳定。

Learning Multiple Utterance-Level Attribute Representations with a Unified Speech Encoder

Maryem Bouziane, Salima Mdhaffar, Yannick Estève

cs.CL

本文提出了一个统一的 post-training 框架，使单个 speech foundation model 能够生成多种 utterance-level 的表示。该方法通过联合学习语义和说话人表示，并在多语言语音检索和说话人识别任务上验证了其有效性。

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Yagiz Can Akay et al.

cs.CL cs.AI cs.IR

本文提出了一种名为SPD-RAG的分层多智能体框架，用于处理跨文档的复杂问答任务。该框架通过为每个文档分配专用智能体进行局部处理，并结合中心协调器进行答案聚合，旨在提高检索的覆盖范围和答案质量。

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

Tara Azin et al.

cs.CL

本文通过将proviso问题重构为自然语言推理任务, 并引入诊断数据集, 评估了多个语言模型在条件句预设投射上的表现. 研究发现模型与人类判断大致相符, 但主要依赖浅层模式匹配而非语义或语用推理.

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Okko Räsänen

cs.CL cs.AI eess.AS

本文回顾了利用计算模型理解从语音和视听输入中进行早期语言习得的最新进展. 重点讨论了自监督和视觉基础模型, 并展示了它们如何在不依赖强语言先验的情况下学习语音的各个方面.

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

Markus Frey et al.

cs.CL

本文研究了结合自适应逐层循环与门控记忆库的transformer模型. 研究发现, 循环机制主要提升数学推理能力, 而记忆库有助于在常识任务上恢复性能.

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

Yee Man Ng et al.

cs.CL

本文提出了一个名为QUORUM的多利益相关者评估框架和一个名为COACH的LLM驱动管道，用于生成个性化的健康生活建议。通过一个针对癌症患者的日记应用案例，研究表明不同利益相关方对生成建议的质量和相关性有共识，但在语气和错误敏感性方面存在分歧。

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Liyuan Mao et al.

cs.CL cs.AI cs.LG

本文提出了一种基于token-conditional generation的方法来揭示大型语言模型的行为可塑性, 并通过强化学习框架ToCoRL将其稳定化. 该方法允许模型在推理时无需重新训练即可切换行为模式, 并在实验中实现了精确的行为控制.

Aligning to Illusions: Choice Blindness in Human and AI Feedback

Wenbin Wu

cs.CL cs.AI

本文通过实验揭示了人类反馈强化学习(RLHF)中偏好信号的构建性问题. 实验表明, 无论是人类标注者还是LLM评判者, 其偏好判断都容易受到情境(context)操纵的影响, 而标准的评估指标无法有效检测这种信号污染.

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Bo Jiang

cs.CL cs.AI cs.IR

本文提出了一种让LLM agent具备原生检索能力的方法, 通过一个轻量级的projection head将LLM的hidden states直接映射到embedding space, 从而省去单独的embedding model. 在QReCC对话搜索基准上的实验表明, 该方法在保持大部分检索性能的同时, 简化了架构并降低了延迟.

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Jenny Kunz, Anja Jarochenko, Marcel Bollmann

cs.CL

本文构建了一个用于探究英语-瑞典语翻译中"翻译腔"偏好的数据集, 包含翻译腔句子和地道替代句, 并带有错误标注. 实验发现, 即使在没有源语言上下文的情况下, 语言模型也常常偏好翻译腔表达.

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Ummar Abbas et al.

cs.CL

本文提出了一个面向伊斯兰问答的多智能体架构Fanar-Sadiq，旨在通过专门的模块处理不同类型的查询，以提高基于大语言模型的宗教知识回答的准确性和可追溯性。该系统整合了意图路由、证据检索、确定性计算等功能，并在双语环境下进行了评估。

CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning

Siye Wu et al.

cs.CL

本文提出了一种名为CODA的自适应推理方法, 旨在根据问题难度动态分配计算资源. 该方法通过内部策略信号估计难度, 并利用门控机制调整推理深度, 从而在简单任务上显著节省计算成本, 在困难任务上提升性能.

cs.DS

Approximating Tensor Network Contraction with Sketches

Mike Heddes et al.

cs.DS

本文提出了一种基于sketching的近似算法, 用于计算一般张量网络（包括cyclic networks）的缩并（contraction）. 该方法克服了现有方法仅适用于acyclic networks的限制, 并针对acyclic networks提出了一种计算复杂度仅随缩并次数多项式增长的新方法.

The Li-Chao Tree: Algorithm Specification and Analysis

Chao Li

cs.DS cs.CG

本文对Li-Chao tree这一用于维护动态lower envelope的数据结构进行了正式的算法规范与理论分析。它提供了完整的算法描述、正确性证明和复杂度分析，并讨论了其实现优势与扩展性。

Permutation Match Puzzles: How Young Tanvi Learned About Computational Complexity

Kshitij Gajjar, Neeldhara Misra

cs.DS cs.CC cs.CG cs.DM

本文研究了网格上的排序匹配谜题, 称为 permutation match puzzles. 作者完全刻画了可解谜题的条件, 给出了解计数的公式, 并研究了使不可解谜题可解的最小修改问题及其计算复杂性.

Distributed Algorithms for Euclidean Clustering

Vincent Cohen-Addad et al.

cs.DS

本文研究了在分布式环境下为 Euclidean $(k,z)$-clustering 构建 $(1+\varepsilon)$-coresets 的问题, 考虑了 coordinator 和 blackboard 两种通信模型. 针对这两种模型, 论文分别设计了通信复杂度更优的协议, 改进了先前工作的结果.

Improved Certificates for Independence Number in Semirandom Hypergraphs

Pravesh Kothari et al.

cs.DS

本文研究了在随机和半随机超图中高效验证独立数上界的问题. 改进了先前工作中的谱证书, 去除了对数因子并接近了最优计算阈值 $O(\sqrt{n}/p^{1/\ell})$, 同时设计了鲁棒的 Sum-of-Squares 证书以应对半随机模型. 分析采用了 proofs-to-algorithms 范式, 并利用新的矩阵集中不等式来处理奇数元超图的困难情况.

A note on approximating the average degree of bounded arboricity graphs

Talya Eden, C. Seshadhri

cs.DS cs.CC cs.DM

本文重新阐述了一种用于估计有界arboricity图平均度的子线性算法, 避免了原分析中的对数因子损失. 该算法在标准查询模型下, 以$O(\varepsilon^{-2}\alpha/d)$的查询复杂度实现$(1+\varepsilon)$-近似.

Learning Functions of Halfspaces

Josh Alman, Shyamal Patel, Rocco A. Servedio

cs.DS cs.CC

本文提出了一种在distribution-free PAC模型中学习任意$k$个halfspaces的布尔函数的算法, 其运行时间为$2^{\sqrt{n} \cdot (\log n)^{O(k)}}$. 该算法首次实现了对两个halfspaces的交集在$2^{o(n)}$时间内的PAC学习.

others

Subclass Classification of Gliomas Using MRI Fusion Technique

Kiranmayee Janardhan, Christy Bobby Thomas

eess.IV cs.AI cs.CV cs.LG

本文提出了一种基于MRI图像融合的胶质瘤亚型分类方法. 该方法使用UNET架构进行2D和3D图像分割, 并通过加权平均融合多模态MRI图像, 最后利用预训练的ResNet50模型进行分类, 在BraTS数据集上取得了较高的分类准确率.

Deep Learning-Based Approach for Automatic 2D and 3D MRI Segmentation of Gliomas

Kiranmayee Janardhan, Christy Bobby T

eess.IV cs.AI

本文提出了一种基于深度学习的方法, 用于自动分割脑胶质瘤的2D和3D MRI图像. 该方法结合了UNET, Inception和ResNet等架构, 在BraTS数据集上取得了较高的分割精度.

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Xinkui Zhao et al.

cs.CV cs.AI cs.LG

本文提出了一种名为MCULoRA的参数高效训练框架, 用于处理不完整多模态情感识别任务. 该方法通过解耦模态组合的共享与特有信息, 并动态调整训练比例, 在多个基准数据集上取得了优于先前方法的性能.

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

Fei Wang et al.

cs.HC cs.CY cs.LG

本文提出了一个名为XInsight的多agent框架, 用于支持数字福祉的在线心理咨询. 该框架基于经典的"探索-洞察-行动"范式, 通过协调多个专门化的agent来模拟结构化的咨询工作流, 并引入了评估基准以提升系统的可解释性和连续性.

Right Move, Right Time: Multi-Sport Space Evaluation Platform for Ultimate Frisbee, Basketball, and Soccer

Shunsuke Iwashita et al.

cs.HC cs.AI

本文提出了一个开放的、与具体运动无关的平台, 用于将不同运动(如极限飞盘、篮球和足球)的追踪数据转化为可比较的空间度量. 该工作流程标准化了输入, 提供了考虑时机的空间评估, 并展示了在不同运动间复用分析的可能性.

Distributionally Robust Geometric Joint Chance-Constrained Optimization: Neurodynamic Approaches

Ange Valli, Siham Tassouli, Abdel Lisser

cs.NE cs.AI math.OC

本文提出了一种双时间尺度的神经动力学对偶方法, 用于求解分布鲁棒的几何联合机会约束优化问题. 该方法通过三个投影方程设计网络, 并在数值实验中应用于形状优化和通信问题.

Building the ethical AI framework of the future: from philosophy to practice

Jasper Kyle Catapang

cs.CY cs.AI

本文提出了一种将伦理考量嵌入AI系统全生命周期的控制架构, 通过设计阶段性的执行机制来管理技术、社会和环境风险. 该框架包含可量化的触发条件和评估协议, 旨在为实际AI治理提供可操作的基础.

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Siyuan Wang et al.

cs.MA cs.AI cs.LG

本文针对C-V2X网络中的资源分配问题，通过构建一系列逐步复杂的多智能体干扰博弈来解耦MARL中的核心挑战，并建立了相应的基准测试任务。作者利用SUMO生成的交通轨迹创建了大规模数据集，并对代表性MARL算法进行了系统性的性能评估与比较。

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Sanjay Srinivasan

cs.OH cs.CV cs.CY cs.LG

本文提出了一种名为DeepScope的深度学习系统, 用于通过未培养水样的显微图像快速检测粪便污染. 该系统利用创新的数据增强技术和卷积神经网络, 在真实水样测试中实现了高准确率, 并部署为可通过网络或智能手机访问的应用程序.

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Fali Wang et al.

cs.SE cs.AI cs.CL cs.LG

本文提出了一种名为GraphSkill的框架, 用于增强大型语言模型在复杂图推理任务中的代码生成能力. 该方法通过利用文档的层次结构进行检索, 并结合基于测试用例的自我调试机制来提升代码质量.

Photons = Tokens: The Physics of AI and the Economics of Knowledge

Alec Litowitz, Nick Polson, Vadim Sokolov

physics.soc-ph cs.AI

本文从物理和经济学角度分析了AI计算的经济性, 将LLM的token定义为具有可测量热力学成本的基本单位. 通过结合Landauer原理, Shannon信道容量和当前基础设施数据, 构建了全球token生产的供需平衡表, 并推导出在物理, 信息论和经济约束下人类可向AI系统提出的有意义问题的有限预算.

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

Heng Zhang

cs.NE cs.AI cs.CV cs.LG q-bio.NC

本文提出了一种受生物启发的图像分类方法RECAP, 它将未经训练的reservoir dynamics与一种自组织的Hebbian prototype readout相结合. 该方法避免了error backpropagation, 并在MNIST-C数据集上展示了无需接触损坏样本的鲁棒性.

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Ci Zhang et al.

cs.CV cs.LG

本文揭示了基于剪枝的扩散模型遗忘方法存在概念复活风险, 发现被置零的权重位置会泄露已删除概念的信息. 作者设计了一种无需数据和训练的攻击框架来验证此漏洞, 并探讨了潜在的防御策略.

Quantum Deep Learning: A Comprehensive Review

Yanjun Ji et al.

quant-ph cs.LG

本文是一篇关于Quantum Deep Learning (QDL) 的综述性文章。它定义了QDL的概念，并系统性地分类和评估了该领域的主要范式、理论、硬件实现及应用，同时讨论了量子优势的验证与挑战。

Performance Comparison of IBN orchestration using LLM and SLMs

Wai Lwin Phone et al.

cs.NI cs.AI

本文提出了一个用于5G/6G Intent-Based Networking (IBN) 编排的新框架, 该框架利用了一个有状态的、分层的多智能体架构, 并同时使用了SLMs和LLMs来实现全自动化. 实验评估表明, 两种模型在翻译准确性上表现相似, 但SLMs能将IBN生命周期的整体完成速度提高20%.

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

Shiyi Ding, Shaoen Wu, Ying Chen

cs.CV cs.AI

本文提出了一个用于VR环境中物体状态变化推理的数据集和框架. 该方法结合了视角感知检索与跨视角推理, 在多个MLLM上超越了基线模型.

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

Yantao Li et al.

cs.CV cs.AI

本文提出了一个名为PaLMR的框架, 旨在通过多模态过程对齐来提高视觉推理的忠实性. 该框架包含感知对齐的数据层和过程对齐的优化层, 在多个基准测试上提升了性能并减少了推理幻觉.

How the Graph Construction Technique Shapes Performance in IoT Botnet Detection

Hassan Wasswa, Hussein Abbass, Timothy Lynar

cs.NI cs.CR cs.LG

本文研究了在IoT僵尸网络检测任务中, 不同的graph construction方法如何影响Graph Attention Network (GAT)的分类性能. 研究比较了五种构图方法, 发现使用Gabriel graph构建的图结构能取得最高的检测准确率.

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

Leo Thomas Ramos, Angel D. Sappa

cs.CV cs.AI

本文提出了一种用于杂草分割的高效模型FCBNet. 该模型采用完全冻结的ConvNeXt backbone, 结合提出的Feature Correction Block (FCB)和轻量级decoder, 在RGB和多光谱模态下均取得了优于对比模型的mIoU和计算效率.

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

Kuan Zhang et al.

cs.CV cs.AI

本文提出了一个名为 GameVerse 的视频游戏基准测试，用于评估视觉语言模型（VLM）能否通过观看视频进行反思来改进其游戏策略。它引入了一种“反思-重试”的评估范式，实验表明结合失败轨迹和专家教程视频能有效提升模型表现。

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

Xiaoming Zhai et al.

cs.CY cs.AI

本文探讨了生成式AI在提升K-16+阶段科学素养方面的潜力与挑战。它讨论了AI时代科学素养的定义，并提出了一个旨在协调科学教学、学习与评估的AI架构。

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

Bikram De, Habib Irani, Vangelis Metsis

cs.CV cs.LG

本文提出了一种名为EnsAug的新训练范式, 通过为每个集成成员模型仅使用单一且不同的几何变换进行数据增强来专门化训练, 从而在集成中培养模型多样性. 实验表明, 该方法在多个手势识别和人体活动识别基准上超越了在混合增强数据集上训练单一模型的传统方法.

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

Toan Nguyen et al.

cs.CV cs.LG

本文提出了一种名为 HyperTokens 的方法，用于解决多模态大语言模型在持续视频问答任务中面临的灾难性遗忘问题。该方法通过一个基于 transformer 的 token 生成器动态产生微调 tokens，并结合元学习启发的正则化器来抑制遗忘，在多个基准测试上取得了更好的平均准确率和更低的遗忘率。

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Giacomo Frisoni et al.

cs.CV cs.AI

本文提出了一种名为Graph-of-Mark的像素级视觉提示技术，通过在输入图像上叠加场景图来增强多模态语言模型的空间推理能力。该方法在多个数据集上验证了其有效性，相比现有技术能更有效地提升模型对物体位置和相对方向的理解。

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Chao Yuan, Pan Li

cs.CV cs.AI

本文针对基于Diffusion Transformer的视频生成模型在长视频合成和实时推理中的瓶颈问题, 提出了一种系统级的推理优化方案. 通过采用因果自回归框架的序列并行推理, 并设计了Causal-RoPE SP等优化技术, 在保持生成质量的同时显著降低了首帧延迟并提升了推理速度.

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Yuan Wu et al.

cs.CV cs.AI

本文探讨了在医学视觉问答任务中, Chain-of-Thought prompting 效果不佳的现象, 并提出了两种无需训练的推理时干预方法来改善视觉基础能力.

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

Chen Yang et al.

cs.NI cs.AI

本文提出了一种基于图注意力网络与自模仿学习的强化学习框架SIL-GPO，用于优化边缘AI微服务系统中的混合编排问题。该框架通过联合优化服务部署与请求路由，旨在降低端到端延迟并提升资源利用率。

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Yuting Wan et al.

cs.CV cs.AI

本文提出了一种基于Transformer的可微分标定方法CalibFusion，用于改善水面环境下雷达-相机融合检测的性能。该方法通过端到端学习隐式外参修正，并利用多帧雷达密度表示与跨模态交互模块来提升融合检测的鲁棒性。

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Yixiao Jing et al.

cs.CV cs.AI

本文通过配对诊断实验, 研究了语义噪声初始化(semantic noise initialization)在文本到视频(text-to-video)生成模型中的迁移效果. 实验发现, 该方法仅在部分时间相关维度上显示出微弱的正面趋势, 整体性能与标准高斯噪声初始化相当.

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Shivam Pande et al.

cs.CV cs.LG

本文提出了一种基于无监督CNN autoencoder的方法, 用于对ATR-$\mu$FTIR高光谱图像进行盲源分离, 以分析历史油画截面. 该方法引入了加权光谱角距离损失函数, 以降低对大气和采集伪影的敏感性, 并在实际数据上进行了验证.

AutoFigure-Edit: Generating Editable Scientific Illustration

Zhen Lin et al.

cs.CV cs.AI

本文提出了一个从长文本生成可编辑科学插图的端到端系统, 该系统结合了长上下文理解与参考图像引导的风格控制, 并支持原生的SVG编辑.

GNN For Muon Particle Momentum estimation

Vishak K Bhat, Eric A. F. Reinhardt, Sergei Gleyzer

physics.data-an cs.LG hep-ex

本文探索了使用 Graph Neural Networks (GNNs) 来估计 Muon 粒子的动量。研究提出了两种图构建方法，并展示了 GNN 在 Mean Absolute Error (MAE) 上优于传统模型 TabNet，同时强调了节点特征维度对模型效率的重要性。

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Diana Susan Joseph et al.

cs.CV cs.AI cs.LG

本文提出了一种结合可解释人工智能(XAI)与少样本学习(FSL)的混合模型, 用于在标注数据有限的条件下对玉米, 水稻和小麦的叶片病害阶段进行分类. 该模型在自定义数据集上取得了超过92%的评估指标, 并通过可视化技术提供了分类决策的解释.

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Jiajin Tang et al.

cs.CV cs.AI cs.LG

本文针对图表深度研究任务中训练与评估的瓶颈, 提出了并行相对策略优化(PRPO)方法和基于"错误唯一性原理"的MCDR-Bench评估基准. PRPO通过并行优化和按能力划分数据来缓解多维度奖励信号与异构数据梯度间的冲突, 而MCDR-Bench则通过可控错误注入将主观生成评估转化为客观错误识别.

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Neil Tripathi

cs.CV cs.AI

本文提出了一个名为VB的基准测试, 用于评估视觉语言模型在判断图像中物体可见性以及进行视角推理的能力. 该基准通过设计包含最小图像和文本编辑的测试项, 并引入多项评估指标, 对多个主流模型进行了系统性评测.

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Azmine Toushik Wasi et al.

cs.CV cs.CL cs.ET cs.MM cs.RO

本文提出了一个名为TimeSpot的基准测试, 用于评估视觉语言模型(VLMs)在真实世界场景中的地理-时间理解能力. 该基准包含来自多个国家的图像, 要求模型预测时间和地理属性, 并测试其时空推理能力. 实验表明当前先进模型在该任务上表现不佳, 凸显了开发新方法的必要性.

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Zhengjian Yao et al.

cs.CV cs.AI

本文提出了"Narrative Weaver"框架, 用于解决生成式AI中多模态可控、长程视觉内容生成的一致性问题. 该框架整合了多模态大语言模型进行叙事规划, 并引入动态记忆库来防止视觉漂移, 在多个场景的实验中展示了其有效性.

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Francis Osswald, Mohammed Chahbaoui, Xinyi Liang

cs.CV cs.LG

本文针对粒子加速器离子束动力学中的图像重建问题, 提出了一种基于无监督学习和卷积滤波的框架. 该方法在缺乏训练数据的情况下, 通过优化早停策略控制过拟合, 实现了低信噪比条件下束流发射度图像的高保真重建.

Soft Equivariance Regularization for Invariant Self-Supervised Learning

Joohyung Lee et al.

cs.CV cs.LG

本文提出了一种名为Soft Equivariance Regularization (SER)的插件式正则化方法, 用于改进自监督学习. 该方法在中间特征层施加等变性约束, 而在最终嵌入层保持原有的不变性目标, 从而在提升模型鲁棒性和下游任务性能之间取得更好的平衡.

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Yiwei Li et al.

cs.CV cs.AI

本文提出使用眼动追踪数据作为监督信号来改进医学视觉语言模型(VLMs)的推理过程. 通过引入专门的gaze tokens来预测按时间顺序选择的图像块索引, 该方法在多个基准测试上提升了模型的性能.

On the Generalization Capacities of MLLMs for Spatial Intelligence

Gongjie Zhang et al.

cs.CV cs.LG

本文指出仅依赖RGB输入的MLLMs在跨相机泛化上存在根本缺陷, 因为它们忽略了相机参数, 导致模型过拟合于训练相机分布. 作者提出了一个Camera-Aware MLLM框架, 通过注入相机内参、数据增强和从3D基础模型蒸馏几何先验来学习可泛化的空间推理.

Mining Beyond the Bools: Learning Data Transformations and Temporal Specifications

Sam Nicholas Kouteili et al.

cs.LO cs.AI cs.FL cs.PL

本文提出了一种从执行轨迹中挖掘数据感知系统规约的新方法. 该方法利用SyGuS技术生成候选数据转换函数, 并扩展了时序逻辑TSL$_f$以统一学习数据转换和时序规约. 实验表明, 该方法在合成反应式程序时比被动学习基线更鲁棒和高效.

Uncertainty-Aware Solar Flare Regression

Jinsu Hong, Chetraj Pandey, Berkay Aydin

astro-ph.SR cs.CV cs.LG

本文探讨了在空间天气预报中应用conformal prediction框架来构建回归任务的预测区间. 通过结合quantile regression等方法, 实验表明conformalized quantile regression能提供更可靠的置信区间覆盖.

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Akseli Kangaslahti et al.

cs.RO cs.AI

本文提出了一种利用补充的静止卫星数据和分层规划来改进卫星动态观测目标锁定性能的方法. 该方法通过长时蓝图规划和短时细化, 在多个场景中相比传统方法提升了观测效率.

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Xiang Ao et al.

cs.CV cs.AI

本文提出了一种与嵌入算法无关的通用隐形水印检测范式UWPD, 并构建了大规模数据集UniFreq-100K. 所提出的Frequency Shield Network (FSNet)通过自适应频谱感知和动态多谱注意力机制, 在无需先验知识的情况下有效检测图像中的水印存在.

PolyBlocks: A Compiler Infrastructure for AI Chips and Programming Frameworks

Uday Bondhugula et al.

cs.PL cs.LG

本文介绍了一种名为PolyBlocks的模块化、基于MLIR的编译器基础设施, 用于AI编程框架和AI芯片. 它通过pass pipelines实现循环嵌套和SSA的变换, 利用affine访问分析和成本模型自动生成高性能代码, 并支持针对新芯片的编译器构建.

Calibrated Credit Intelligence: Shift-Robust and Fair Risk Scoring with Bayesian Uncertainty and Gradient Boosting

Srikumar Nayak

q-fin.RM cs.AI cs.LG

本文提出了一种用于信用风险评分的集成框架, 结合了 Bayesian neural network 与 fairness-constrained gradient boosting, 并通过 shift-aware fusion 和 post-hoc calibration 来提升模型在分布漂移下的校准性、稳定性和公平性. 在包含时序漂移的真实数据集上的实验表明, 该框架在区分度、校准性、稳定性和公平性之间取得了良好的综合权衡.

Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

Chad E. Brown, Cezary Kaliszyk, Josef Urban

cs.LO cs.AI cs.SC

本文描述了一个在Interactive Theorem Proving (ITP)环境中，利用多个基于LLM的编码agent进行大规模代数拓扑autoformalization的实验。实验通过一个基于赏金的模拟市场来协调agent，使其动态提出引理、附加赏金并竞争完成证明，所有证明最终由底层证明助手验证。

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

Yubang Wang et al.

cs.SE cs.AI

本文提出了一个名为ResearchEnvBench的基准测试, 用于评估智能体在科研代码执行环境合成方面的能力. 该基准要求智能体根据给定的研究代码库和文档, 构建出能够成功运行代码的执行环境, 测试结果表明当前最先进的智能体在此任务上仍存在显著差距.

ViroGym: Realistic Large-Scale Benchmarks for Evaluating Viral Proteins

Yichen Zhou et al.

q-bio.QM cs.AI

本文介绍了ViroGym, 一个用于评估病毒蛋白质变异效应预测的大规模基准测试集. 该基准整合了多个深度突变扫描数据集, 并展示了蛋白质语言模型在预测病毒适应性、抗原多样性及流行趋势方面的潜力.

ButterflyViT: 354$\times$ Expert Compression for Edge Vision Transformers

Aryan Karmore

cs.CV cs.AI

本文提出ButterflyViT, 一种通过几何参数化共享量化基板来压缩Vision Transformer中稀疏Mixture of Experts模型的方法. 该方法将专家视为共享容量的不同视角, 而非独立存储权重矩阵, 从而实现了专家数量的亚线性内存增长, 并针对视觉任务引入了空间平滑性正则器. 在CIFAR-100等图像分类任务上, 该方法在64个专家时实现了354倍的内存压缩, 且精度损失可忽略.

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

David Kube, Simon Hadwiger, Tobias Meisen

cs.RO cs.AI

本文对 robotic foundation models (RFMs) 在工业控制领域的应用进行了全面的综述和评估。作者提出了一个包含149项具体标准的评估框架，并对324个具有操作能力的RFMs进行了系统性的评估，指出其工业成熟度目前仍然有限且不均衡。

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Tapon Kumer Ray et al.

cs.CV cs.AI

本文提出了一种名为XMACNet的轻量级CNN模型, 用于辣椒叶片病害分类. 该模型融合了自注意力机制和多模态数据(RGB图像与植被指数), 并在一个包含12,000张图像的新数据集上取得了优于基准模型的性能.

Gradient-based Nested Co-Design of Aerodynamic Shape and Control for Winged Robots

Daniele Affinita et al.

cs.RO cs.AI

本文提出了一种基于梯度的嵌套协同设计框架, 用于联合优化飞行机器人的气动外形与运动规划器. 该方法利用神经代理模型计算气动力, 并在两个动态任务上验证了其相对于进化基线的性能优势与计算效率.

Prediction of Steady-State Flow through Porous Media Using Machine Learning Models

Jinhong Wang et al.

physics.flu-dyn cs.CE cs.LG physics.comp-ph

本文利用机器学习模型预测多孔介质中的稳态流动, 为传统计算流体动力学(CFD)提供了一种高效的替代方案. 研究比较了卷积自编码器(AE), U-Net和傅里叶神经算子(FNO)等架构, 并引入了物理信息损失函数以提高预测的物理一致性.

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra

cs.CV cs.AI

本文提出了一种结合VGG 19, Efficient-Net和ResNet50三种CNN模型进行特征提取, 并使用Bi-LSTM作为分类器的混合机器学习模型, 用于从脑部MRI图像中检测脑瘫. 实验表明该模型取得了较高的准确率.

AI-Assisted Curation of Conference Scholarship: Compiling, Structuring, and Analyzing Two Decades of Presentations at the Society for Social Work and Research

Brian Perron, Bryan Victor, Zia Qi

cs.DL cs.AI

本文利用网络爬虫和一个小型语言模型, 构建并分析了社会工作与研究学会(SSWR)近二十年的会议报告摘要数据库. 研究揭示了该领域在发表数量、合作规模、国际参与度等方面的增长趋势, 以及定量方法的主导地位.

CREDO: Epistemic-Aware Conformalized Credal Envelopes for Regression

Luben M. C. Cabezas et al.

stat.ML cs.LG stat.ME

本文提出了一种名为CREDO的方法, 它结合了credal envelope与conformal prediction, 用于回归任务中的不确定性量化. 该方法首先构建一个credal envelope来显式表示epistemic uncertainty, 然后通过conformal calibration来保证边际覆盖, 从而在保持覆盖的同时提高了区间宽度的适应性.

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Md Ashikur Rahman et al.

cs.CV cs.AI

本文提出了一种评估长时程视觉-语言模型泛化能力的新指标 Step Grounding Rate (SGR), 用于量化模型在逐步推理过程中对视觉信息的依赖程度. 实验表明, 该指标与模型在分布外数据上的性能保持高度相关, 揭示了模型内部推理的视觉忠实性是影响其鲁棒性的关键因素.

Twitch: Learning Abstractions for Equational Theorem Proving

Guy Axelrod, Moa Johansson, Nicholas Smallbone

cs.LO cs.AI

本文介绍了Twitch, 一个用于自动发现等式定理证明中重复出现的项模式(称为abstractions)的工具. 它通过分析失败或成功的证明来生成抽象模式, 并集成到等式证明器Twee中, 在TPTP的UEQ问题上验证了其有效性, 能够证明一些难题并加速证明过程.

Bilateral Trade Under Heavy-Tailed Valuations: Minimax Regret with Infinite Variance

Hangyi Zhao

stat.ML cs.GT cs.LG

本文研究了在交易者估值具有有界密度但无限方差的全反馈情境下的双边贸易问题. 通过将自限性质扩展到实值估值并结合截断均值估计, 作者设计了一种基于阶段的算法, 并证明了其遗憾上界, 同时通过下界论证了该速率的极小极大最优性.

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

Neta Glazer, Lenny Aharon, Ethan Fetaya

cs.SD cs.AI

本文针对大型音频-语言模型(LALMs)中存在的文本主导问题, 提出了一种基于机制可解释性的干预方法. 通过识别关键的音频专家注意力头并构建音频-静默引导方向, 在推理时对模型表示进行干预, 从而增强模型对音频输入的利用, 在MMAU基准上提升了基于Qwen的LALMs的准确率.

Supporting Artifact Evaluation with LLMs: A Study with Published Security Research Papers

David Heye et al.

cs.CR cs.AI cs.CL

本文探讨了使用大型语言模型(LLMs)来支持学术研究的Artifact Evaluation过程。研究开发了一个工具包，用于自动化评估研究结果的可复现性、准备执行环境以及识别方法上的常见缺陷。

A prior information informed learning architecture for flying trajectory prediction

Xianda Huang et al.

cs.CV cs.AI

本文提出了一种结合环境先验信息与Dual-Transformer-Cascaded架构的硬件高效轨迹预测框架, 用于预测网球落点. 该方法通过单目相机获取坐标, 并利用两级Transformer处理轨迹分类与特征合成, 实验表明其性能优于现有方法.

Fairness May Backfire: When Leveling-Down Occurs in Fair Machine Learning

Yi Yang, Xiangyu Chang, Pei-yu Chen

stat.ML cs.LG

本文在 Bayes 框架下，分析了在 attribute-aware 和 attribute-blind 两种部署机制下，强制执行 group fairness 约束对优势与劣势群体结果的影响。研究发现，在 attribute-aware 机制下，公平性要求总会（弱）改善劣势群体并（弱）损害优势群体；而在 attribute-blind 机制下，其影响取决于数据分布，可能导致“向下拉平”现象。

CN-CBF: Composite Neural Control Barrier Function for Safe Robot Navigation in Dynamic Environments

Bojan Derajić, Sebastian Bernhard, Wolfgang Hönig

cs.RO cs.LG eess.SY

本文提出了一种用于动态环境中机器人安全导航的复合神经控制屏障函数(CN-CBF)设计方法。该方法通过结合多个针对单个移动障碍物的神经CBF来构建复合CBF，并在仿真和硬件实验中验证了其有效性。

MindfulAgents: Personalizing Mindfulness Meditation via an Expert-Aligned Multi-Agent System

Mengyuan et al.

cs.HC cs.AI

本文提出了一个基于大语言模型的多智能体系统MindfulAgents，用于个性化生成正念冥想引导脚本并促进用户反思。该系统通过实验室研究和为期四周的部署研究，验证了其在提升用户参与度、自我意识和正念水平方面的有效性。

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

Sofiane Ouaari, Jules Kreuer, Nico Pfeifer

q-bio.GN cs.AI cs.LG

本文研究了DNA基础模型在Embeddings-as-a-Service (EaaS) 场景下的隐私风险，通过模型反演攻击评估了DNABERT-2, Evo 2和Nucleotide Transformer v2等模型。结果表明，基于per-token的嵌入可能导致近乎完美的原始序列重建，而mean-pooled嵌入的重建质量随序列长度增加而下降，但依然显著高于随机基线。

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

Alireza Mousavi-Hosseini, Murat A. Erdogdu

stat.ML cs.AI cs.LG

本文研究了使用策略梯度进行后训练的自回归模型, 分析了在结果奖励和过程奖励设置下的最优查询复杂度. 研究揭示了基础模型在支持集外的性能存在一个由似然分位数决定的障碍, 并探讨了过程奖励如何帮助克服这一障碍.

A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization

Nanhong Liu et al.

eess.SY cs.LG

本文提出了一种基于SISA的机器学习遗忘框架, 用于电力变压器匝间短路故障定位. 该方法通过分片与隔离训练减少有害数据的影响, 在保持诊断精度的同时显著降低了再训练时间.

Topology-Aware Reinforcement Learning over Graphs for Resilient Power Distribution Networks

Roshni Anna Jacob et al.

eess.SY cs.LG

本文提出了一种基于图强化学习的配电网韧性恢复方法, 通过将持久同调等拓扑数据分析工具嵌入智能体, 以提升故障场景下的供电恢复决策效果. 在IEEE 123节点系统上的测试表明, 该方法在供电量和电压稳定性方面优于基线图强化学习模型.

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Paul Julius Kühn et al.

cs.CV cs.IR

本文提出了一种基于预对齐多模态编码器的图像检索3D形状方法, 避免了显式的多视图合成与监督. 通过引入多模态难例对比损失(HCL)进行微调, 该方法在多个数据集上取得了先进的检索性能.

Masked Unfairness: Hiding Causality within Zero ATE

Zou Yang, Sophia Xiao, Bijan Mazaheri

stat.ML cs.AI cs.GT cs.LG cs.SI

本文讨论了基于平均处理效应(ATE)的公平性监管框架的局限性, 提出了"因果掩蔽"问题, 并证明在保持零ATE的情况下, 优化其他目标仍可能导致显著的不公平. 研究强调了在评估公平性时进行完全条件独立性检验的重要性.

Foundational World Models Accurately Detect Bimanual Manipulator Failures

Isaac R. Ward et al.

cs.RO cs.AI

本文提出了一种基于预训练视觉基础模型和 conformal prediction 的运行时监控方法，用于检测双机械臂操作中的异常故障。该方法在压缩的潜在空间中训练概率世界模型，利用预测不确定性作为异常指标，并在模拟和真实数据集上验证了其优于基线方法的性能。

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Kosuke Yoshimura, Hisashi Kashima

cs.SD cs.LG

本文提出了一种利用Multimodal Large Language Models (MLLMs) 自适应发现可解释音频属性的方法, 用于低资源音频分类. 该方法在AdaFlock框架中用MLLMs替代人工, 通过提示动态识别显著声学特征并构建基于属性的集成分类器, 在多种任务上超越了直接使用MLLM预测的性能, 且训练时间短.

A Class of Unrooted Phylogenetic Networks Inspired by the Properties of Rooted Tree-Child Networks

Leo van Iersel et al.

math.CO cs.DS q-bio.PE

本文研究了无根系统发育网络的一个新类别, 称为$q$-cuttable networks. 作者证明了对于任意整数$q \geq 1$, 识别这类网络是多项式时间可解的, 并且对于$q \geq 3$的情况, 将NP-hard的Tree Containment问题限制在该类网络上时, 可以在多项式时间内求解.

SuperSkillsStack: Agency, Domain Knowledge, Imagination, and Taste in Human-AI Design Education

Qian Huang, King Wang Poon

cs.CY cs.AI

本文通过定性主题分析, 研究了学生在设计项目中如何整合生成式AI, 并基于SuperSkillsStack框架分析了人类在协作中的关键能力. 研究发现学生主要在早期设计阶段使用AI作为认知加速器, 并依赖人类判断进行验证和优化.

TEA-Time: Transporting Effects Across Time

Harsh Parikh et al.

stat.ME cs.LG econ.EM

本文提出了一个用于时间维度因果效应迁移的框架, 旨在将随机对照试验(RCT)中估计的处理效应外推至未进行试验的时间期. 在可分离时间效应假设下, 目标参数(迁移平均处理效应, TATE)可分解为观测到的平均处理效应与一个时间比率. 作者提供了两种识别策略(基于不同时间点的重复试验或基于跨时间的共同处理组)并构建了相应的双稳健、半参有效估计量. 模拟和应用分析验证了估计量的性能, 并揭示了两种策略在方差与偏差间的权衡.

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Xiaochen Yang et al.

cs.CV cs.AI

本文提出了一个用于缓解多图像任务中幻觉问题的结构化框架 CAPL. 该框架通过引入可选择的图像 token 交互注意力机制和基于跨图像建模的偏好优化策略, 增强了模型对跨图像关联的感知与建模能力.

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Trong-Thang Pham et al.

cs.CV cs.AI

本文提出了一种无需训练的激活引导框架MedSteer，用于生成内窥镜图像的反事实对。该方法通过识别扩散模型交叉注意力层中的病理向量，在推理时引导图像生成，从而在保持解剖结构不变的情况下改变特定临床概念。实验表明，该方法在概念翻转率和结构保持方面优于现有的基于反转的基线方法。

User Review Writing via Interview with Dialogue Systems

Yoshiki Tanaka, Michimasa Inaba

cs.HC cs.AI

本文提出了一种利用对话系统辅助用户撰写商品评论的新方法. 通过访谈式对话收集信息, 并基于GPT-4生成评论草稿. 实验表明, 该系统能减轻用户写作负担, 且生成的评论对读者更有帮助.

The Talking Robot: Distortion-Robust Acoustic Models for Robot-Robot Communication

Hanlong Li et al.

cs.RO cs.LG

本文提出了一种名为Artoo的机器人间声学通信系统, 使用端到端协同训练的神经网络替代了传统的手工信号处理. 该系统在噪声环境下实现了较低的字符错误率, 并且具有参数量小、延迟低的特点, 适合在资源受限的机器人平台上部署.

VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

Zihao Zheng et al.

cs.RO cs.LG

本文提出了一种用于视觉语言导航模型的token缓存框架VLN-Cache。该框架通过视图对齐重映射和任务相关性过滤机制，解决了因视角变化和语义焦点转移导致的缓存失效问题，在保持导航性能的同时提升了推理速度。

Multi-TAP: Multi-criteria Target Adaptive Persona Modeling for Cross-Domain Recommendation

Daehee Kang, Yeon-Chang Lee

cs.HC cs.IR

本文提出了一个名为Multi-TAP的多准则目标自适应人物建模框架，用于跨域推荐。该框架通过语义人物建模来捕捉用户偏好的域内异质性，并选择性地整合源域信息以提升推荐效果。

mAVE: A Watermark for Joint Audio-Visual Generation Models

Luyang Si, Leyi Pan, Lijie Wen

cs.CR cs.AI cs.CV

本文提出了一种名为mAVE的水印框架, 专为联合音频-视觉生成模型设计. 该框架通过在初始化阶段加密绑定音频和视频的潜在表示, 以抵御Swap Attacks, 并声称实现了近乎完美的绑定完整性和指数级的安全边界.

Statistical Contraction for Chance-Constrained Trajectory Optimization of Non-Gaussian Stochastic Systems

Rihan Aaron D'Silva, Hiroyasu Tsukamoto

eess.SY cs.LG

本文提出了一种基于conformal inference的分布无关鲁棒轨迹优化方法, 用于处理离散时间、非线性、非高斯随机系统. 该方法通过构造联合非共形分数来量化收缩条件和外部随机扰动的影响, 从而将机会约束转化为可处理的确定性约束, 并在仿真和硬件实验中进行了验证.

Deep Generative Spatiotemporal Engression for Probabilistic Forecasting of Epidemics

Rajdeep Pathak, Tanujit Chakraborty

stat.ML cs.LG stat.ME

本文提出了一种用于流行病概率预测的深度生成时空engression方法. 该方法通过引入预加性噪声和轻量级生成架构来量化不确定性, 并在多个数据集上展示了优于基准模型的性能.

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

Zuyao Xu et al.

cs.CR cs.AI

本文提出了一种名为aCAPTCHA的新型验证机制，用于区分人类、脚本和AI agent这三种实体类型。其核心是利用人类认知与AI处理在时间上的不对称性，通过一个基于时间阈值$t$和可验证的agent能力向量$\langle x, r, s \rangle$的安全游戏来实现验证。

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Shuai Lu et al.

cs.CV cs.AI

本文提出了一种名为EyExIn的数据高效框架, 旨在通过深度专家注入机制, 将领域专家知识锚定到视网膜视觉语言模型中. 该工作针对医学图像诊断中模型存在的感知与推理鸿沟, 设计了双流编码与门控融合模块, 并在多个基准测试上取得了先进的性能.

From State Changes to Creative Decisions: Documenting and Interpreting Traces Across Creative Domains

Xiaohan Peng, Sotiris Piliouras, Carl Abou Saada Nujaim

cs.HC cs.AI cs.PL

本文针对创意活动痕迹分析中意图与高层结构缺失的问题, 提出了三种互补的方法来记录和解释跨创意领域的活动痕迹. 这些方法分别应用于生成式AI工具, 可视化创作和编程环境, 旨在更好地捕捉和反映创意实践的结构.

Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice

Yuxu Ge

cs.CR cs.AI

本文针对大型语言模型驱动的自主智能体系统存在的执行层安全漏洞, 提出了一个名为分层治理架构(LGA)的四层防护框架. 该框架通过实验验证了其在拦截恶意工具调用方面的有效性, 并展示了各层协同工作的低延迟性能.

Detecting Cryptographically Relevant Software Packages with Collaborative LLMs

Eduard Hirsch et al.

cs.CR cs.IR

本文提出了一种利用协作式LLMs检测密码相关软件包的方法, 以应对密码敏捷性和后量子密码学(PQC)转型中对密码资产进行可靠盘点的需求. 该方法通过多数投票聚合多个LLMs的输出来评估软件相关性, 并在本地运行以保护数据隐私. 在超过65,000个Fedora Linux软件包上的评估表明, LLM集成可以作为识别密码软件的有效初筛过滤器.

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Zahra Mansour et al.

cs.SD cs.LG eess.AS eess.SP

本文提出了一种用于肠道声音自动分割与分类的流程, 结合了基于能量的事件检测算法和预训练的Audio Spectrogram Transformer (AST)模型. 该方法在健康人群和患者群体中均取得了高准确率, 并能显著减少人工标注时间.

A Miniature Brain Transformer: Thalamic Gating, Hippocampal Lateralization, Amygdaloid Salience, and Prefrontal Working Memory in Attention-Coupled Latent Memory

Hong Jeong

q-bio.NC cs.AI

本文提出了一种模拟大脑结构的微型Transformer模型, 在注意力耦合潜在记忆框架中引入了丘脑、杏仁核、前额叶和小脑等模块的类比. 通过在一个包含情景记忆和规则学习的两领域基准测试上进行消融实验, 发现前额叶工作记忆缓冲区与抑制性胼胝体耦合的协同作用是实现海马体功能偏侧化的关键.

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

Seul-Ki Yeom et al.

cs.CV cs.AI

本文提出了一种名为VINO的自监督学习框架, 旨在从密集视频中学习对背景上下文鲁棒的对象中心表征. 该方法利用结构先验生成非对称视图并进行掩码蒸馏, 以减少模型对背景线索的依赖, 从而偏向于学习形状特征.

A Hybrid LTR-based System via Social Context Embedding for Recommending Solutions of Software Bugs in Developer Communities

Fouzi Harrag, Mokdad Khemliche

cs.SE cs.AI

本文提出了一种基于Learning-to-Rank的混合推荐系统，用于在开发者社区中推荐软件缺陷的解决方案。该系统利用深度学习技术，结合Stack Overflow问答中的社交上下文嵌入特征，通过文本挖掘和自然语言处理来提取和评估答案，最终实现了较高的推荐准确率。

Conditional Rank-Rank Regression via Deep Conditional Transformation Models

Xiaoyi Wang, Long Feng, Zhaojun Wang

stat.ME cs.LG stat.ML

本文提出了一种基于深度条件变换模型(DCTM)和交叉拟合的改进条件秩-秩回归(CRRR)方法, 用于估计代际流动性. 该方法能够处理非线性、高阶交互作用以及离散有序结果, 并通过实证研究展示了其应用.

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Erik Scheurer et al.

cs.CV cs.AI

本文针对地理空间基础模型中预计算嵌入与用户定义区域间存在几何错配的问题, 指出了传统潜在空间插值方法的不可靠性. 作者提出了一种学习等变性预测架构(LEPA), 通过条件化几何增强来直接预测变换后的嵌入, 在HLS影像和ImageNet-1k数据集上显著提升了匹配准确率.

Learning When to Cooperate Under Heterogeneous Goals

Max Taylor-Davies, Neil Bramley, Christopher G. Lucas

cs.MA cs.AI

本文在 Ad Hoc Teamwork (AHT) 框架中引入了智能体目标异构的概念，提出了一种结合模仿学习与强化学习的层次化策略学习方法。该方法在两个扩展的合作环境中超越了基线方法，并探讨了通过预测队友动作来建模队友的辅助组件对性能的影响。

Kinematics-Aware Latent World Models for Data-Efficient Autonomous Driving

Jiazhuo Li et al.

cs.RO cs.AI

本文提出了一种用于自动驾驶的 kinematics-aware latent world model, 通过在 Recurrent State-Space Model (RSSM) 中显式地编码车辆运动学信息和空间几何结构来提升模型的样本效率和长期预测能力。实验表明，该方法在仿真环境中优于基于像素的 world model 和无模型基线。

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

Abbas Mammadov et al.

cs.CV cs.LG stat.ML

本文提出了Variational Flow Maps (VFMs)框架, 用于实现单步条件生成. 该方法通过学习一个noise adapter模型来输出合适的初始噪声分布, 使得通过flow map映射到数据空间后的样本能够满足给定的观测条件和数据先验. 实验表明, VFMs能够在单步或少数步内生成高质量的条件样本, 并在ImageNet上实现了与迭代扩散模型相当的保真度, 同时大幅加速了采样过程.

Complexity Lower Bounds of Small Matrix Multiplication over Finite Fields via Backtracking and Substitution

Chengu Wang

cs.CC cs.DS

本文提出了一种结合 substitution method 和 backtracking search 的新方法, 用于证明有限域上矩阵乘法的 bilinear complexity 下界. 该方法通过动态规划枚举对矩阵 $A$ 的线性限制, 并自动推导下界, 应用于 $\mathbb{F}_2$ 上 $3 \times 3$ 矩阵乘法, 将已知下界从 $19$ 提升至 $20$.

Fast and Flexible Audio Bandwidth Extension via Vocos

Yatharth Sharma

eess.AS cs.LG cs.SD

本文提出了一种基于Vocos的音频带宽扩展模型, 通过神经声码器主干网络生成缺失的高频内容, 将8 kHz音频扩展到48 kHz. 该模型采用轻量级改进器平滑融合低频与生成的高频, 在保持竞争力的对数谱距离指标的同时实现了极高的实时处理速度.

MAviS: A Multimodal Conversational Assistant For Avian Species

Yevheniia Kryklyvets et al.

cs.CV cs.AI

本文提出了一个用于鸟类物种的多模态对话助手MAviS, 包括一个整合了图像、音频和文本的大规模数据集MAviS-Dataset, 一个基于此数据集训练的多模态大语言模型MAviS-Chat, 以及一个用于评估的基准MAviS-Bench. 实验表明, 该模型在鸟类物种相关的多模态理解和问答任务上优于基线模型.

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

Duy M. H. Nguyen et al.

cs.CV cs.LG

本文提出了一种针对Segment Anything Model (SAM)的token merging方法StructSAM, 该方法通过计算token-energy score和进行grid-based flatness screening来保护边界和prompt区域, 并在平坦区域内合并token. 该方法在多个自然和医学图像基准测试上实现了计算量的显著降低, 同时保持了分割性能.

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Vojtech Halenka et al.

eess.SP cs.AR cs.CR cs.LG cs.NI

本文提出了一种基于Convolutional Tsetlin Machine (CTM)的轻量级、可解释的干扰检测方法，用于5G网络。该方法直接在5G同步信号块(SSB)特征上操作，在真实5G测试平台上验证了其有效性，并与卷积神经网络(CNN)基线进行了性能比较。

Agora: Teaching the Skill of Consensus-Finding with AI Personas Grounded in Human Voice

Suyash Fulay et al.

cs.HC cs.AI cs.CE

本文介绍了一个名为Agora的AI平台, 它利用LLMs来组织关于政策议题的真实人类声音, 旨在帮助用户培养共识寻找技能. 一项初步研究表明, 使用完整界面的参与者在问题解决技能和共识陈述质量方面表现更好.

A Distributed Gaussian Process Model for Multi-Robot Mapping

Seth Nabarro, Mark van der Wilk, Andrew J. Davison

cs.RO cs.LG stat.ML

本文提出了一种名为DistGP的分布式Gaussian Process模型，用于多机器人协同构建全局地图。该方法利用具有特定因子化结构的稀疏GP，通过Gaussian belief propagation实现分布式训练，并能在动态连接环境下在线学习。实验表明，其性能优于一些现有的分布式方法，并能达到与集中式批量训练相当的效果。

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

Mohammed Brahimi et al.

cs.CV cs.AI cs.LG

本文介绍了一个名为AgrI Challenge的以数据为中心的AI竞赛框架, 旨在研究农业视觉中模型在真实田间条件下的泛化问题. 该框架通过让多个团队独立收集数据, 构建了一个异构的多源基准数据集, 并提出了Cross-Team Validation评估范式来系统衡量跨域泛化性能.

Scheduling Parallel Optical Circuit Switches for AI Training

Kevin Liang et al.

cs.NI cs.AI

本文提出了一种名为Spectra的算法, 用于在具有重配置延迟$\delta$的$s$个并行optical circuit switches (OCSes)上调度单个AI流量需求矩阵$D$, 以最小化makespan. 该算法通过将$D$分解为加权排列, 进行负载感知的分配, 并通过受控的排列分割来均衡负载. 在真实AI工作负载和标准基准测试上的评估表明, Spectra显著优于现有基线算法.

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Jihyoung Jang, Hyounghun Kim

cs.CV cs.AI cs.CL

本文提出了一个针对视觉问答(VQA)中模糊性问题的数据集AQuA, 并对多种视觉语言模型(VLMs)进行了评估与微调. 该工作旨在使模型能够根据模糊性的类型和程度, 自适应地选择不同的回答策略.

Adaptive Capacity Allocation for Vision Language Action Fine-tuning

Donghoon Kim et al.

cs.RO cs.AI

本文提出了一种名为LoRA-SP的自适应秩微调方法，用于视觉语言动作模型(VLAs)的策略适应。该方法通过一个基于SVD的参数化方案和能量目标来选择有效更新方向，从而在减少可训练参数的同时提升多任务性能。

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Debabrata Mandal et al.

cs.CV cs.AI

本文提出了一种用于通用图像恢复的统一推理框架, 采用多分支的 mixture-of-experts 架构来分解不同退化类型的知识. 该方法旨在解决联合学习中的任务干扰问题, 实现了对多种退化类型的可扩展、可控的恢复.

Machine Learning for the Internet of Underwater Things: From Fundamentals to Implementation

Kenechi Omeke et al.

eess.SY cs.AI

本文是一篇关于机器学习在水下物联网中应用的综述性教程。文章系统性地梳理了监督学习、无监督学习、强化学习和深度学习等方法在水下通信各网络层的应用与性能提升，并指出了该领域当前面临的挑战与未来研究方向。

Generalization in Online Reinforcement Learning for Mobile Agents

Li Gu et al.

cs.CV cs.CL cs.HC cs.LG

本文针对基于图形用户界面(GUI)的移动智能体，提出了一个用于评估其零样本泛化能力的基准测试AndroidWorld-Generalization，并将其形式化为一个Contextual Markov Decision Process (CMDP)。作者还开发了一个集成了Group Relative Policy Optimization (GRPO)的强化学习训练系统，实验表明强化学习训练能提升智能体在未见任务实例上的性能，但在更复杂的泛化场景中仍面临挑战。

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Xiang Zhang et al.

cs.DB cs.AI cs.CL cs.IR cs.LG

本文提出了一个名为Dial的框架, 用于将自然语言转换为特定SQL方言的可执行查询. 它通过解耦意图推理与方言知识, 并引入执行驱动的调试循环, 在涵盖六个数据库系统的基准测试上提升了翻译准确率.

Backdoor4Good: Benchmarking Beneficial Uses of Backdoors in LLMs

Yige Li et al.

cs.CR cs.AI

本文提出了一个名为Backdoor4Good的基准框架, 旨在研究大型语言模型中"有益后门"的潜在应用. 该工作将后门机制重新定义为一种可控且可审计的接口, 用于增强模型的安全性、可控性和可问责性, 并通过实验验证了其可行性.

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Mohammad Saeid et al.

cs.CV cs.LG cs.RO

本文提出了一种用于3D点云识别的超轻量级网络SLNet. 它通过非参数自适应点嵌入(NAPE)和几何调制单元(GMU)等简单组件, 在保持低参数和计算量的同时, 在多个识别任务上取得了有竞争力的性能.

Image Generation Models: A Technical History

Rouzbeh Shirvani

cs.CV cs.AI cs.CL cs.GR

本文对图像生成模型的技术发展史进行了全面综述, 涵盖了VAEs, GANs, normalizing flows, autoregressive/transformer-based generators以及diffusion models等主要方法. 文章详细介绍了各类模型的技术细节, 优化方法, 局限性, 并延伸讨论了视频生成, 模型鲁棒性及负责任部署等相关议题.

"Better Ask for Forgiveness than Permission": Practices and Policies of AI Disclosure in Freelance Work

Angel Hsing-Chi Hwang et al.

cs.HC cs.AI

本文通过访谈和问卷调查, 研究了自由职业者与客户对AI使用和披露的认知差异. 研究发现, 工作者倾向于被动披露, 而客户则期望主动告知, 这种期望差距突显了制定更清晰AI披露政策的必要性.

Where Do LLM-based Systems Break? A System-Level Security Framework for Risk Assessment and Treatment

Neha Nagaraja, Hayretdin Bahsi

cs.CR cs.AI

本文提出了一个面向LLM系统的安全风险评估框架, 结合了系统建模、攻击树(ADTrees)和基于CVSS的评分方法. 通过一个医疗案例研究, 该框架展示了如何识别跨传统网络、对抗性机器学习和提示操纵攻击的共享系统瓶颈, 以支持针对性的防御策略.

Trusting What You Cannot See: Auditable Fine-Tuning and Inference for Proprietary AI

Heng Jin et al.

cs.CR cs.LG

本文提出了一个名为AFTUNE的可审计框架, 用于验证云端大模型(如LLMs)微调(fine-tuning)和推理(inference)过程的计算完整性. 该框架通过轻量级的记录与抽查机制生成可验证的执行轨迹, 使得客户能够事后审计服务提供商是否遵循了约定的配置, 在保证安全性的同时保持了较低的计算开销.

Probabilistic Inference and Learning with Stein's Method

Qiang Liu, Lester Mackey, Chris Oates

stat.ML cs.LG math.PR math.ST stat.ME

本文系统性地阐述了基于Stein方法的概率推断与学习的理论框架和计算方法. 它详细介绍了从Stein算子构造差异度量的方法, 并讨论了其计算性质与收敛性.

Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments

Longbiao Cheng, Shih-Chii Liu

eess.AS cs.AI cs.LG cs.SD

本文提出了一种用于现实环境中语音增强模型轻量级自适应的方法. 该方法通过向冻结的主干网络添加低秩适配器, 并以自监督方式进行更新, 实现了在动态声学场景下的高效适应. 实验表明, 该方法仅更新少于1%的参数, 即可在多种噪声条件下显著提升语音质量指标.

Give Them an Inch and They Will Take a Mile:Understanding and Measuring Caller Identity Confusion in MCP-Based AI Systems

Yuhang Huang et al.

cs.CR cs.AI

本文对基于Model Context Protocol (MCP)的AI系统进行了大规模安全分析，揭示了其存在的调用者身份混淆问题。研究发现，由于缺乏明确的调用者认证和细粒度授权机制，MCP服务器的一次性授权决策可能被恶意利用，从而扩大了系统的攻击面。

Pushing Bistatic Wireless Sensing toward High Accuracy at the Sub-Wavelength Scale

Wenwei Li et al.

cs.IT cs.ET cs.HC cs.LG

本文针对无线通信信号在非接触式传感中因双基地部署导致的时钟不同步问题, 提出了一种利用信道响应幅度从失真的信道比中恢复理想信道特征的方法. 该方法在Wi-Fi和LoRa的真实实验中有效重建了亚波长位移细节, 显著提升了传感精度.

From Thinker to Society: Security in Hierarchical Autonomy Evolution of AI Agents

Xiaolei Zhang et al.

cs.CR cs.AI

本文提出了一个用于分析AI agent安全性的Hierarchical Autonomy Evolution (HAE)框架, 将安全威胁分为三个层级进行讨论, 并评估了现有防御措施.

InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills

Dayang Liang et al.

cs.RO cs.AI

本文提出了一个名为InterReal的物理模仿学习框架, 用于人形机器人学习真实世界的人-物交互技能. 该框架结合了数据增强与自动奖励学习, 在模拟与真实机器人实验中验证了其在搬运等任务上的有效性与鲁棒性.

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

Xiangyang Yang et al.

cs.DB cs.IR

本文提出了一种名为GP-Tree的新型内存空间索引结构，它结合了自适应网格单元与前缀树。该方法使用细粒度的网格单元近似代替传统的MBR来提升过滤精度，并通过前缀树结构优化数据组织和查询效率。实验表明，GP-Tree在多种空间查询上的性能显著优于传统索引。

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

Shilong Chen et al.

cs.CV cs.AI

本文提出了一种用于大规模草图识别的混合图神经网络SketchGraphNet, 它将局部消息传递与高效的全局注意力机制相结合. 该方法在构建的大规模基准数据集SketchGraph上取得了较高的识别准确率, 并显著降低了计算开销.

Beyond Data Splitting: Full-Data Conformal Prediction by Differential Privacy

Young Hyun Cho, Jordan Awan

stat.ML cs.LG

本文提出了一种避免数据分割的、基于差分隐私的全数据 conformal prediction 框架。该框架利用差分隐私带来的稳定性来控制样本内与样本外 conformal scores 的差距，并结合保守的私有分位数算法来防止覆盖率不足。实验表明，该方法比基于数据分割的隐私基线能产生更精确的预测集。

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Haoyu Chen et al.

cs.CV cs.AI

本文针对统一多模态模型在生成长序列图文交织内容时质量下降的问题, 提出了一种无需训练的推理策略UniLongGen. 该方法通过动态筛选和丢弃模型记忆中的干扰视觉信号, 提升了长序列生成的稳定性和一致性.

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

Jinzhou Tang et al.

cs.CV cs.AI cs.LG

本文提出了一种名为DreamSAC的框架，旨在通过学习Hamiltonian世界模型来提升智能体在物理环境中的外推泛化能力。该方法结合了基于对称性探索的无监督数据收集策略和一种自监督对比学习目标。

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Thanapat Trachu et al.

cs.SD cs.AI

本文针对 zero-shot TTS 模型中的隐私风险, 提出了 Speech Generation Speaker Poisoning (SGSP) 框架, 旨在从模型中移除特定说话人身份. 通过评估多种基线方法, 研究揭示了该方法在移除多个说话人时的可扩展性限制.

A symmetric recursive algorithm for mean-payoff games

Pierre Ohlmann

cs.GT cs.DS

本文提出了一种新的确定性对称递归算法用于求解 mean-payoff games. 该算法是对现有求解方法的一个改进.

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma

cs.CV cs.AI cs.LG

本文提出了一种结合生成、重建与判别模块的异常检测网络GRD-Net, 并引入了ROI注意力模块. 该方法在MVTec数据集和一个工业制药数据集上进行了测试, 旨在减少对后处理算法的依赖并提升在特定感兴趣区域的缺陷定位能力.

Revisiting the LiRA Membership Inference Attack Under Realistic Assumptions

Najeeb Jebreel et al.

cs.CR cs.LG

本文在更现实的假设下重新评估了LiRA成员推理攻击的有效性. 研究发现, 采用抗过拟合和迁移学习等技术后, 攻击的精度显著下降, 表明先前的研究可能高估了其实际威胁.

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Furkan Genç, Onat Özdemir, Emre Akbaş

cs.CV cs.AI cs.LG

本文在图像分类的OOD检测任务中, 系统比较了Cross-Entropy Loss, Prototype Loss, Triplet Loss和Average Precision Loss这四种训练目标. 实验表明, 在标准化的OpenOOD协议下, Cross-Entropy Loss通常能提供最一致的OOD检测性能.

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Niccolò Ferrari et al.

cs.CV cs.AI cs.LG

本文提出了一种基于生成对抗网络和残差自编码器的半监督异常检测框架, 用于高速吹灌封(BFS)生产线上的工业视觉检测. 该模型仅使用正常样本进行训练, 通过重构残差实现异常分类和定位, 并在真实工业测试中满足了严格的时序约束.

Succinct QUBO formulations for permutation problems by sorting networks

Katalin Friedl et al.

quant-ph cs.DS

本文提出了一种基于排序网络的简洁QUBO (Quadratic Unconstrained Binary Optimization) 公式，用于编码排列问题。该方法仅需 $O(n \log^2 n)$ 个二元变量，显著优于需要 $n^2$ 个变量的标准排列矩阵编码，并支持均匀采样和多种约束操作。

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Jiazhen Kang et al.

cs.SE cs.CL

本文提出了一个知识图谱增强的框架，用于处理代码演化任务，特别是第三方API变更导致的代码迁移问题。该框架通过构建静态和动态API图谱来建模API的演化关系，并利用合成数据进行训练，在多个基准测试中提升了代码迁移的准确性和可控性。

Analysis-Driven Procedural Generation of an Engine Sound Dataset with Embedded Control Annotations

Robin Doerfler, Lonce Wyse

cs.SD cs.LG eess.AS

本文提出了一种基于分析的程序化生成方法, 用于创建带有精确控制标注的发动机声音数据集. 该方法通过参数化合成器生成数据, 并验证了其在基于学习的参数估计任务中的适用性.

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

Chenxi Li et al.

cs.CV cs.LG

本文提出了一种针对大型视觉语言模型(LVLMs)的新型攻击方法StructAttack. 该方法通过将恶意查询分解为看似良性的语义槽位, 并嵌入到结构化视觉提示中, 从而绕过模型的安全机制, 诱导其生成有害内容.

MetaSort: An Accelerated Approach for Non-uniform Compression and Few-shot Classification of Neural Spike Waveforms

Luca M. Meyer, Majid Zamani

eess.SP cs.LG

本文提出了一种名为MetaSort的新算法, 用于神经尖峰波形的非均匀压缩和少样本分类. 该方法结合了自适应电平穿越压缩, 潜在特征表示和元迁移学习, 在体内数据实验中展现了良好的性能.

MAS-H2: A Hierarchical Multi-Agent System for Holistic Cloud-Native Autoscaling

Hamed Hamzeh, Parisa Vahdatian

cs.DC cs.LG

本文提出了一种名为MAS-H2的分层多智能体系统，用于解决云原生平台中反应式自动扩缩导致的策略空白问题。该系统通过战略、规划和执行三层代理，将业务策略转化为全局效用函数并生成联合扩缩计划，在测试中相比原生方案降低了资源压力和峰值负载。

SMAT: Staged Multi-Agent Training for Co-Adaptive Exoskeleton Control

Yifei Yuan, Ghaith Androwis, Xianlian Zhou

cs.RO cs.AI cs.LG

本文提出了一种名为SMAT的分阶段多智能体训练方法, 用于解决外骨骼控制中的人机协同适应问题. 该方法通过模拟人类适应穿戴设备的自然过程, 分阶段训练人体肌肉骨骼模型和外骨骼智能体, 最终在物理实验中实现了稳定的助力效果, 且无需针对个体进行重新训练.

Accelerating Diffusion Models for Generative AI Applications with Silicon Photonics

Tharini Suresh, Salma Afifi, Sudeep Pasricha

cs.AR cs.LG

本文提出了一种基于硅光子技术的新型硬件加速器, 用于加速 diffusion models 的推理过程. 实验表明, 该方案在能效和吞吐量上相比现有电子加速器有显著提升.

Exoskeleton Control through Learning to Reduce Biological Joint Moments in Simulations

Zihang You, Xianlian Zhou

cs.RO cs.LG

本文提出了一种基于强化学习的框架来训练外骨骼辅助策略, 旨在降低生物关节力矩. 通过使用开源步态数据集进行推理和比较, 验证了仿真训练控制网络的性能.

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Abdeldjalil Taibi et al.

cs.CV cs.AI cs.LG

本文提出了一种基于高保真数字孪生技术的合成数据生成流程, 用于解决机场行李手推车检测中真实数据稀缺和标注成本高的问题. 通过比较多种训练策略, 实验表明混合使用合成数据与少量真实标注可以达到与全真实数据训练相当的性能, 同时显著降低标注工作量.

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

Likui Zhang et al.

cs.RO cs.AI cs.CV

本文提出了一个名为AtomicVLA的机器人视觉-语言-动作统一规划与执行框架。该框架通过构建可扩展的原子技能库和动态专家组合，旨在解决长视野任务和持续技能学习中的泛化问题。

Compressed Proximal Federated Learning for Non-Convex Composite Optimization on Heterogeneous Data

Pu Qiu et al.

math.OC cs.LG

本文提出了一种名为FedCEF的算法, 用于解决具有统计异构性和有偏压缩限制的非凸联邦复合优化问题. 该算法通过解耦的近端更新和误差反馈机制, 在理论上实现了有界残差误差的次线性收敛, 并在极端压缩比下通过实验验证了其通信效率.

Ref-DGS: Reflective Dual Gaussian Splatting

Ningjing Fan et al.

cs.CV cs.AI cs.GR

本文提出了一种名为Ref-DGS的反射双高斯溅射框架，用于处理具有强镜面反射场景的表面重建和新视角合成。该方法通过解耦几何与反射表示，在基于光栅化的高效流程中避免了显式光线追踪，从而在保持高质量的同时显著提升了训练速度。

AI-Driven Phase Identification from X-ray Hyperspectral Imaging of cycled Na-ion Cathode Materials

Fayçal Adrar et al.

cond-mat.mtrl-sci cs.AI

本文提出了一种基于AI的方法, 用于处理稀疏采样的X射线高光谱成像数据, 以纳米级分辨率绘制钠离子电池正极材料中的多相分布图. 该方法结合了高斯混合变分自编码器(GMVAE)和Pearson相关系数, 揭示了单个颗粒内的纳米尺度相异质性与演化.

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Rahul Bera

cs.AR cs.DC cs.LG cs.OS

本文提出了一种数据感知的微架构设计方法, 通过整合机器学习技术和应用数据的语义特征来缓解内存瓶颈. 具体案例包括基于强化学习的硬件预取器, 感知器预测器, 以及利用内存地址和加载值可重复性的机制, 实验表明这些方法能有效提升性能和能效.

Scalable Training of Mixture-of-Experts Models with Megatron Core

Zijie Yan et al.

cs.DC cs.CL cs.LG

本文介绍了一个用于高效训练大规模Mixture-of-Experts (MoE) 模型的开源系统框架Megatron Core. 它通过集成内存、通信和计算层面的优化，解决了MoE模型在扩展到数千个GPU时面临的系统挑战，并在实际模型中实现了高算力利用率.

Compressed-Domain-Aware Online Video Super-Resolution

Yuhang Wang et al.

cs.CV cs.AI

本文提出了一种利用压缩域信息进行在线视频超分辨率的方法, 通过运动矢量引导变形对齐、残差图门控融合和帧类型感知重建等模块, 在提升质量的同时显著提高了处理速度.

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

Yihong Luo et al.

cs.CV cs.AI

本文提出了一种名为TDM-R1的新强化学习范式, 用于改进few-step diffusion models. 该方法通过解耦surrogate reward学习和生成器学习, 并利用TDM的确定性轨迹获取per-step reward, 从而能够整合non-differentiable reward信号进行后训练.

Deep Incentive Design with Differentiable Equilibrium Blocks

Vinzenz Thoma, Georgios Piliouras, Luke Marris

cs.GT cs.LG

本文提出了一种名为 deep incentive design (DID) 的可微分框架, 该框架利用 game-agnostic differentiable equilibrium blocks (DEBs) 来处理多种激励设计问题. 作者通过三个不同的任务验证了该方法的有效性, 表明其能够处理不同规模的问题实例.

VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

Sumit Ranjan et al.

cs.SD cs.AI

本文提出了一种轻量级模型 VoiceSHIELD-Small，用于实时语音转录与恶意内容检测。该模型基于 Whisper-small 编码器构建，在测试集上表现出高准确率与低延迟。

YAQIN: Culturally Sensitive, Agentic AI for Mental Healthcare Support Among Muslim Women in the UK

Yasmin Zaraket, Céline Mougenot

cs.HC cs.AI

本文介绍了一个名为YAQIN的AI应用, 旨在为英国穆斯林女性提供符合其文化和信仰的心理健康支持. 该应用结合了基于伊斯兰心理学的聊天机器人和引导式日志工具, 并通过用户研究进行了原型设计和评估.

A Lightweight MPC Bidding Framework for Brand Auction Ads

Yuanlong Chen et al.

cs.GT cs.LG eess.SY

本文为品牌广告拍卖提出了一种轻量级的Model Predictive Control (MPC) 竞价框架。该框架利用在线isotonic regression构建单调模型，以简化计算并提升支出效率。

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

Priyanka Sinha, Dilys Thomas

cs.NI cs.DB cs.DC cs.DS cs.OS

本文提出了一种名为Structured Gossip DNS的分布式域名解析系统，旨在解决移动自组织网络和边缘计算中的网络分区问题。该方法利用DHT（分布式哈希表）指状表实现被动稳定化，降低了消息复杂度并保证了最终一致性。

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Shaoxiong Zhan et al.

cs.CV cs.CL

本文提出了一个名为3ViewSense的框架, 用于提升Vision-Language Models在空间推理任务上的性能. 该方法通过将复杂场景分解为正交投影视图来构建一致的空间表示, 从而改善了模型在遮挡计数等任务上的表现.

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

Yinchi Zhou et al.

cs.CV cs.AI

本文提出了一种名为DECADE的无监督扩散模型, 用于增强Rb-82动态心脏PET图像的去噪. 该方法在训练和采样过程中引入时间一致性约束, 无需成对的干净-噪声训练数据, 在保持心肌血流定量准确性的同时有效降低了图像噪声.

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

Yuzhuang Xu et al.

cs.DC cs.CL

本文提出了一种专为多核CPU设计的大语言模型(LLM)推理架构ArcLight. 它通过高效的内存管理、线程调度和细粒度张量并行来减少跨NUMA节点的内存访问开销, 从而显著提升了推理吞吐量.

Lindbladian Learning with Neural Differential Equations

Timothy Heightman et al.

quant-ph cond-mat.dis-nn cs.LG

本文提出了一种利用神经微分方程和最大似然估计从瞬态测量数据中推断开放量子系统Lindbladian的方法. 该方法通过逐步移除神经网络项来提炼出可解释的物理模型, 并在多种哈密顿量和噪声模型下展示了鲁棒性.

Toward Global Intent Inference for Human Motion by Inverse Reinforcement Learning

Sarmad Mehrdad et al.

cs.RO cs.LG

本文使用Minimal Observation Inverse Reinforcement Learning (MO-IRL)算法，探索了是否存在一个统一的代价函数来解释和预测人类的伸手动作。研究结果表明，一个与受试者和姿势无关的时变代价函数能够高精度地预测轨迹，支持了存在一个统一的优化原则。

Learning embeddings of non-linear PDEs: the Burgers' equation

Pedro Tarancón-Álvarez et al.

math.AP cs.AI cs.LG

本文提出了一种为非线性偏微分方程(PDE)构建解嵌入空间的方法, 并将其应用于Burgers'方程. 该方法利用多头物理信息神经网络(PINN)学习解空间的潜在嵌入, 并通过施加正交约束获得具有物理解释的主成分.

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Desen Sun et al.

cs.CV cs.AI

本文提出了一种名为HybridStitch的新范式，用于加速扩散模型的文本到图像生成。该方法通过将图像划分为不同复杂度的区域，并混合使用大模型和小模型进行编辑与细化，从而在保持生成质量的同时减少计算开销。

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Mridankan Mandal

cs.CV cs.LG

本文在农业图像回归任务中, 通过系统实验发现了一种"融合复杂度反转"现象: 在数据稀缺时, 简单的跨视图融合模块(如门控深度卷积)优于复杂的跨视图注意力Transformer或SSM. 研究同时指出, 骨干网络预训练质量的重要性远超融合架构的复杂性.

Column Generation for the Micro-Transit Zoning Problem

Hins Hu et al.

math.OC cs.AI

本文针对微公交区域划分问题(MZP)提出了一个基于列生成(Column Generation)的求解框架. 该方法允许使用全局预算约束, 并通过设计启发式定价策略来加速计算, 在多个美国城市的数值实验中展现了良好的可扩展性.

Transferable Optimization Network for Cross-Domain Image Reconstruction

Yunmei Chen, Chi Ding, Xiaojing Ye

cs.CV cs.LG math.OC

本文提出了一种用于跨领域图像重建的可迁移优化网络框架. 该框架通过两级优化训练一个通用特征提取器和一个任务特定的领域适配器, 旨在利用来自不同领域的异构大数据集来辅助数据有限的新目标领域的图像重建任务. 实验表明该方法在欠采样磁共振图像重建中具有较好的迁移学习能力.

AI Misuse in Education Is a Measurement Problem: Toward a Learning Visibility Framework

Eduardo Davalos, Yike Zhang

cs.CY cs.AI cs.HC

本文提出了一种新的视角, 将教育中AI的滥用问题重新定义为一种"测量问题", 而非单纯的检测问题. 作者构建了一个"学习可见性框架", 强调通过过程透明化和共享证据来促进AI在教育中的伦理整合.

DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation

Bo Jiang

cs.CR cs.AI cs.CL

本文提出了一个名为DistillGuard的框架, 用于系统评估针对LLM知识蒸馏的输出级防御方法. 研究对三类防御策略进行了分类和测试, 发现现有方法在防止知识窃取方面普遍效果有限, 且其有效性高度依赖于具体任务.

The Theory and Practice of Computing the Bus-Factor

Sebastiano A. Piccolo et al.

cs.SI cs.CC cs.DS

本文提出了一个统一、领域无关的框架来估算项目的 bus-factor，将其建模为人员与任务之间的二分图，并转化为一系列组合优化问题。文中证明了相关计算是 NP-hard 的，并提出了高效的线性时间近似算法。

An Interpretable Generative Framework for Anomaly Detection in High-Dimensional Financial Time Series

Waldyn G Martinez

stat.ML cs.LG

本文提出了一种用于高维金融时间序列异常检测的可解释生成框架ReGEN-TAD. 它结合了联合预测与重构, 并通过聚合多种信号来生成无监督的异常分数.

Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

Dilermando Almeida et al.

cs.RO cs.LG eess.SY

本文提出了一种用于移动腿式机械臂在杂乱环境中进行稳健抓取的全流程方法. 该方法结合了开放词汇目标检测与点云补全技术, 通过安全导向的启发式规则选择可执行的抓取位姿, 并在真实机器人实验中验证了其有效性.

Toward Unified Multimodal Representation Learning for Autonomous Driving

Ximeng Tao, Dimitar Filev, Gaurav Pandey

cs.CV cs.LG

本文提出了一种用于自动驾驶的统一多模态表示学习框架CTP, 通过将2D相似度矩阵扩展为多模态相似度张量, 并引入张量损失进行联合对比学习, 以同时对齐多个模态。该方法在从现有自动驾驶数据集构建的文本-图像-点云三元组数据集上进行了验证。

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Minkyu Kim, Sangheon Lee, Dongmin Park

cs.CV cs.AI cs.LG

本文提出了一个名为VLM-SubtleBench的基准测试，用于评估视觉语言模型(VLMs)在细微比较推理上的能力。该基准涵盖了多种差异类型和图像领域，揭示了当前模型与人类表现之间的系统性差距。

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

Chen-Chen Zong et al.

cs.CV cs.LG

本文提出了一个名为E$^2$OAL的统一框架，用于处理开放集主动学习问题。该方法无需单独训练开放集检测器，并通过利用已标注的未知类样本来提升模型性能与查询效率。

NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

Ximeng Tao et al.

cs.RO cs.LG

本文提出了一种名为NaviDriveVLM的解耦框架，用于自动驾驶系统。它将高级语义推理与具体的运动规划任务分离，使用一个大模型进行导航决策，再用一个轻量级模型执行控制。实验表明，该方法在端到端运动规划任务上优于现有的大规模视觉语言模型基线。

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Junyang Wu et al.

cs.RO cs.AI

本文提出了一种仅依赖视觉的支气管镜机器人自主导航框架, 结合了长期策略智能体和短期反应智能体进行运动控制与决策. 该系统在仿真模型、离体猪肺和活体猪模型中进行了评估, 实现了与专家操作者相当的导航性能.

Robust Transfer Learning with Side Information

Akram S. Awad et al.

stat.ML cs.LG

本文提出了一种利用辅助信息进行鲁棒迁移学习的框架, 通过构建以估计为中心的转移核不确定性集来应对环境变化. 该方法整合了有限的目标域样本和关于源-目标动态的辅助信息, 从而得到更紧的不确定性集和更优的策略. 实验表明, 该方法在多个基准环境中优于现有的鲁棒与非鲁棒基线.

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

Sunghyun Baek et al.

cs.CV cs.AI

本文提出了一种名为IMSE的测试时适应方法, 通过调整Vision Transformer线性层的奇异值而非奇异向量来进行高效微调. 该方法还引入了基于专家-输入对齐的多样性最大化损失来缓解特征坍缩问题, 并在持续测试时适应场景中利用域感知谱码检索来重用知识.

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

Xin-Cheng Wen et al.

cs.SE cs.AI

本文提出了一种名为SWE-Fuse的软件工程智能体训练框架，旨在解决训练数据中问题描述与解决方案不匹配的挑战。该框架融合了无问题描述的轨迹学习和基于熵的强化学习训练方法，在SWE-bench基准测试上取得了优于基线模型的性能。

AI Agents, Language, Deep Learning and the Next Revolution in Science

Ke Li et al.

hep-ex cs.AI

本文提出了一种基于大型语言模型和多模态学习的智能AI代理框架, 旨在应对现代科学中数据规模与复杂性超越传统分析方法能力的挑战. 该框架以粒子物理为试验场, 通过可解释、可追溯的工作流设计来扩展科学家的认知能力.

RL unknotter, hard unknots and unknotting number

Anne Dranowski, Yura Kabkov, Daniel Tubbenhauer

math.GT cs.LG stat.ML

本文开发了一个基于强化学习的流程来简化knot diagrams. 该流程适用于任意的knots和links, 并在一些复杂的unknot diagrams上进行了测试.

Local Constrained Bayesian Optimization

Jing Jingzhe et al.

stat.ML cs.LG

本文提出了一种针对高维约束贝叶斯优化问题的新框架LCBO. 该框架通过交替进行局部快速下降和不确定性驱动的探索, 在高维基准测试中表现优于现有方法.

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

Ning Liu et al.

cs.RO cs.AI

本文提出了一种结合学习与规划的混合框架VORL-EXPLORE，用于解决动态环境中多机器人探索时任务分配与局部导航脱节的问题。该框架通过引入执行保真度信号来协调全局分配与局部避障，并在仿真实验中验证了其有效性。

Scaling Machine Learning Interatomic Potentials with Mixtures of Experts

Yuzhi Liu et al.

physics.chem-ph cs.LG physics.comp-ph

本文为机器学习原子间势能(MLIPs)引入了混合专家(MoE)和混合线性专家(MoLE)架构, 并系统分析了路由策略与专家设计的影响. 研究表明, 元素级路由结合稀疏激活与共享专家能取得最佳性能, 并在多个基准测试中达到了最先进的精度.

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

Antonio Franchi

cs.RO cs.AI eess.SY math.OC

本文为冗余多旋翼飞行器提出了一种基于Riemannian几何的控制分配框架, 称为Drag-Aware Aerodynamic Manipulability (DAAM). 该框架通过考虑电机扭矩限制和气动阻力, 在螺旋桨转速空间中定义了一个度量, 并将其映射到广义力空间, 得到一个状态相关的可操作度体积. 通过优化该体积的对数行列式, 可以自然地避免阻力引起的饱和和低转速推力损失, 并得到一个对广义力空间坐标缩放不变的冗余解决方案.

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Haoyu Tong et al.

cs.CV cs.AI

本文提出了一种用于空中视觉语言导航(VLN)的视觉-空间推理增强框架(ViSA). 该框架采用三阶段协作架构, 利用结构化视觉提示, 使视觉语言模型(VLM)能直接在图像平面上进行推理, 无需额外训练或复杂中间表示. 在CityNav基准测试中, 该方法相比现有最优方法取得了显著的成功率提升.

Alignment--Process--Outcome: Rethinking How AIs and Humans Collaborate

Haichang Li, Anjun Zhu, Arpit Narechania

cs.HC cs.AI

本文从任务和意图两个互补的视角重新概念化了协作过程. 它将协作建模为结构化任务空间中的轨迹演化, 并探讨了意图表达与情境决策的关系, 从而统一地审视了人机协作中 alignment, 过程与结果之间的动态关联.

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Sangjune Park et al.

cs.CV cs.AI cs.GR cs.SD

本文提出了一种基于Mamba架构的扩散模型用于舞蹈生成, 以替代Transformer来处理长序列. 该方法还引入了一种基于高斯分布的节拍表示来显式地引导舞蹈动作解码, 在多个数据集上生成了与音乐同步的舞蹈序列.

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Jun Yu et al.

cs.CV cs.AI

本文提出了一种用于野外情感行为分析(ABAW)表情识别挑战的鲁棒多模态框架. 该框架采用双分支Transformer架构, 结合安全交叉注意力机制和模态丢弃策略, 以处理模态缺失和类别不平衡问题.

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Weining Ren, Xiao Tan, Kai Han

cs.CV cs.AI

本文提出了一种名为Speed3R的稀疏前馈3D重建模型. 它通过一个双分支注意力机制, 仅对信息量最大的图像token进行细粒度计算, 从而显著提升了大规模场景建模的推理效率.

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Yiran Zhao et al.

cs.CV cs.AI

本文提出了一个基于强化学习的多智能体图像编辑框架 ImageEdit-R1. 该框架通过协调多个预训练视觉语言与生成智能体来处理复杂的多步骤用户指令, 在多个数据集上超越了现有方法.

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Zhenyu Hu et al.

cs.CV cs.AI

本文提出了一个名为DSH-Bench的综合性基准测试，用于评估主题驱动的文本到图像生成模型。该基准通过分层主题分类、难度与场景感知的评估方案以及新的评估指标，旨在为模型诊断和优化提供系统性的分析工具。

Tau-BNO: Brain Neural Operator for Tau Transport Model

Nuutti Barron et al.

cs.CE cs.LG

本文提出了一种名为Tau-BNO的Brain Neural Operator框架，用于快速逼近描述tau蛋白传播的复杂Network Transport Model (NTM). 该框架结合了编码动力学参数的函数算子与保留初始状态信息的查询算子, 并通过一个保留方向性的spectral kernel来近似各向异性传输. 该方法显著降低了模拟时间, 并展示了优于Transformer等序列模型的性能.

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Xiang Shi et al.

cs.RO cs.AI cs.LG

本文提出了一种受神经科学启发的"大脑-脑桥-小脑"三元架构SaiVLA-0, 用于具身智能中的视觉-语言-动作任务. 该设计强调模块化, 计算感知和在线控制的稳定性, 并通过初步实验展示了其在训练效率和任务成功率上的潜在优势.

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Shentong Mo, Yibing Song

cs.CV cs.AI cs.LG cs.SD eess.AS

本文提出了一种名为FoleyFlow的视频到音频生成方法。它通过掩码建模训练对齐单模态编码器，并利用动态条件流进行音频生成，在标准基准测试中取得了优于现有方法的结果。

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

Divake Kumar et al.

cs.RO cs.LG

本文提出了一种轻量级后处理框架, 将预测不确定性分解为 aleatoric (源于数据噪声) 和 epistemic (源于模型认知不足) 两种类型, 并利用它们来分别调节机器人系统的观测恢复与控制动作. 在机器人操控和自适应感知任务上的实验表明, 该方法能有效提升性能并降低计算成本.

Outlier-robust Autocovariance Least Square Estimation via Iteratively Reweighted Least Square

Jiahong Li, Fang Deng

math.OC cs.LG eess.SP

本文提出了一种基于迭代重加权最小二乘(IRLS)的鲁棒自协方差最小二乘(ALS)算法, 用于在存在测量异常值(outliers)的情况下估计Kalman滤波器中的噪声协方差. 该方法通过两级鲁棒化策略, 包括创新序列的自适应阈值和采用Huber损失函数, 有效减轻了异常值的影响. 仿真表明, 该算法显著降低了噪声协方差估计的误差, 并提升了后续状态估计的精度.

Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

Joel Lidin et al.

cs.DC cs.LG

本文介绍了一个通过去中心化网络进行大规模语言模型预训练的项目, 使用了支持动态节点加入退出的高效通信优化器 SparseLoCo. 该模型在约1.1T tokens上进行了预训练, 其性能可与集中式训练的模型相媲美.

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Mohammad Abboush, Ehab Ghannoum, Andreas Rausch

cs.SE cs.AI

本文提出了一种用于汽车软件系统验证的可解释混合深度学习故障检测与诊断方法. 该方法结合了1D CNN和GRU网络来分析实时测试数据, 并利用多种可解释AI技术来增强模型的可理解性和适应性.

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

Lucas Rakotoarivony

cs.SD cs.AI

本文针对语音模型低比特量化中的校准问题, 提出了一种基于进化策略的校准方法 ESC. 该方法将激活缩放构建为优化问题, 并通过局部-全局两阶段方案求解, 在多个语音任务上实现了接近无损的 INT4 量化性能.

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

Nikita Kuzmin et al.

eess.AS cs.AI eess.SP

本文研究了端到端全双工语音对话模型中隐藏表示对说话人隐私的泄露问题。通过实验发现，SALM-Duplex和Moshi模型的隐藏状态在所有Transformer层都存在显著的说话人身份信息泄露。作者提出了两种基于Stream-Voice-Anon的流式匿名化方案，能在保持较低响应延迟的同时有效提升隐私保护水平。

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

Michael Kösel et al.

cs.CV cs.LG

本文提出了一种名为ALOOD的新方法, 通过将LiDAR目标检测器的特征与视觉语言模型(VLM)的特征空间对齐, 将OOD目标检测视为zero-shot分类任务. 该方法在nuScenes OOD基准测试中展现了有竞争力的性能.

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Siarhei Sheludzko et al.

cs.CV cs.AI

本文提出了一种用于多模态对比学习的动态温度与间隔调度方法(MM-TS). 该方法通过根据样本的局部分布动态调整损失函数中的温度参数, 并在最大间隔框架中集成温度调度, 在多个图像-文本和视频-文本数据集上取得了性能提升.

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Ishrat Jahan et al.

cs.CV cs.AI

本文提出了两种针对异质热成像与可见光传感器的无人机检测融合策略. 通过结合配准与可靠性加权机制, 在MMFW-UAV数据集上提升了检测性能.

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

Shangeth Rajaa

eess.AS cs.CL cs.SD

本文提出了一种名为 DualTurn 的模型, 它通过双通道对话音频的生成式预训练来学习对话中的轮转行为. 该模型无需标签即可隐式学习对话动态, 并能被微调以预测可解释的轮转信号, 从而在标准基准测试中超越了现有方法.

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

Jianshu She

cs.CR cs.AI

本文提出了一种名为SplitAgent的分布式架构, 旨在解决企业在使用云端AI agent时的隐私困境. 该架构通过上下文感知的动态脱敏等技术, 在保护敏感数据的同时维持了较高的任务完成准确率.

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Xiaofeng Yu et al.

cs.SD cs.AI eess.AS

本文提出了一种针对大型音频-语言模型(LALMs)的模糊情感识别框架, 将问题重新表述为分布推理问题. 该方法包含一个模糊感知目标函数和一个结构化的思维链监督机制, 在IEMOCAP和CREMA-D数据集上验证了其有效性.

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Pol Buitrago et al.

eess.AS cs.CL

本文提出了一种称为 Cross-Lingual Transfer Matrix (CLTM) 的系统性方法, 用于量化副语言语音任务中语言对之间的跨语言迁移. 作者将其应用于性别识别和说话人验证任务, 使用基于 HuBERT 的多语言编码器进行分析. 结果表明, 不同任务和语言间存在显著的迁移模式差异.

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Pablo Jimenez-Lizcano et al.

cs.CV cs.AI

本文探索了使用深度学习模型和超广角成像技术进行糖尿病视网膜病变和黄斑水肿的识别. 研究在多个任务上评估了包括卷积神经网络和视觉Transformer在内的模型, 并尝试了特征融合和频域表示以提升性能.

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Pol Buitrago et al.

eess.AS cs.CL eess.IV

本文提出了一种在零视听资源场景下利用合成视觉数据进行视听语音识别(AVSR)自举的方法. 该方法通过唇形同步技术生成合成视觉流, 并在加泰罗尼亚语等缺乏标注数据的语言上验证了其有效性.

FlowTouch: View-Invariant Visuo-Tactile Prediction

Seongjin Bien et al.

cs.RO cs.LG

本文提出了一种名为FlowTouch的模型, 用于从视觉信息预测触觉信息. 该模型利用物体的局部3D网格作为中间表示, 结合场景重建和基于Flow Matching的图像生成技术, 旨在实现与视角无关的预测, 并能够泛化到新的传感器实例.

Beyond ReinMax: Low-Variance Gradient Estimators for Discrete Latent Variables

Daniel Wang, Thang D. Bui

stat.ML cs.LG

本文提出了两种新的梯度估计器 ReinMax-Rao 和 ReinMax-CV, 通过结合 Rao-Blackwellisation 和控制变量技术来降低 ReinMax 估计器的高方差. 这些方法在训练具有离散隐变量的变分自编码器上表现更优, 并从数值积分角度提供了对 ReinMax 的新理解.

Sampling Colorings with Fixed Color Class Sizes

Aiya Kuchukova, Will Perkins, Xavier Povill

math.CO cs.DS

本文研究了在给定颜色类大小约束下均匀随机采样的算法问题. 作者利用多元多项式的几何框架, 为当颜色数$q > 2\Delta$时, 设计了一个多项式时间算法来近似采样等价的着色方案.

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

Makoto Sato et al.

cs.RO cs.AI

本文提出了一个名为SAIL的框架, 将机器人模仿学习重新定义为能够随测试时计算量扩展的迭代优化问题. 该框架利用Monte Carlo Tree Search进行轨迹生成与优化, 并通过vision language model进行轨迹评估, 实验表明增加测试时计算能有效提升任务成功率.

Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

Hamish Flynn et al.

stat.ML cs.LG

本文分析了基于Gaussian process posterior sampling的强化学习算法(GP-PSRL)的Bayesian regret. 通过应用Borell-Tsirelson-Ibragimov-Sudakov不等式和chaining方法, 作者为无界状态空间下的连续控制问题推导了一个regret上界.

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

Mahmoud Hafez et al.

cs.CR cs.AI cs.DC

本文提出了一种基于区块链的航空发动机叶片检测追踪系统 BladeChain. 该系统整合了多方认证、自动化检测调度和AI模型溯源, 旨在为航空维护提供防篡改的审计追踪能力.

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo

math.NA cs.AI cs.LG

本文提出了一种基于Graph-Instructed Neural Networks (GINNs)的新方法, 用于求解边界条件变化的参数化偏微分方程(PDEs). 该方法通过学习计算域参数描述与PDE解之间的映射, 克服了传统降阶方法在处理变化边界时的瓶颈, 并在效率上优于全连接网络架构.

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Daniele Molino et al.

cs.CV cs.AI

本文提出了一种用于文本到CT生成的检索增强方法, 通过检索语义相关的临床病例并利用其解剖标注作为结构代理, 为文本条件化的潜在扩散模型提供解剖学指导. 该方法在CT-RATE数据集上提升了图像保真度和临床一致性, 并实现了显式的空间可控性.

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Yehonatan Elisha, Oren Barkan, Noam Koenigstein

cs.CV cs.AI cs.LG

本文提出了一种基于概念引导的微调框架, 旨在提升 Vision Transformers (ViTs) 在分布外数据上的鲁棒性. 该方法通过自动生成的概念掩码来引导模型关注语义概念, 而非虚假相关性.

Sign Identifiability of Causal Effects in Stationary Stochastic Dynamical Systems

Gijs van Seeventer, Saber Salehkaleybar

math.ST cs.LG

本文研究了连续时间线性平稳随机微分方程中因果效应的符号可识别性问题. 作者放宽了对扩散矩阵已知的假设, 并针对给定的因果结构, 引入了边符号可识别性的概念. 在忠实性假设下, 为一般图推导了表征可识别性、不可识别性和部分可识别性的判据.

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Junxian Li et al.

cs.CR cs.CL cs.CV

本文提出了一种针对基于VLM的GUI代理的响应效率的新型后门攻击方法SlowBA. 该方法通过诱导模型在特定触发模式下生成过长的推理链来增加响应延迟, 并设计了基于强化学习的奖励级后门注入策略和隐蔽的弹窗触发器.

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Sadegh Rahmaniboldaji et al.

cs.CV cs.AI

本文通过比较人类与AI模型在自我中心动作识别任务上的表现, 分析了性能差异的来源. 研究使用经过空间缩减和时间扰动的数据集, 发现人类依赖稀疏的关键语义线索, 而模型则更依赖上下文和中低层特征.

EndoSERV: A Vision-based Endoluminal Robot Navigation System

Junyang Wu et al.

cs.RO cs.AI

本文提出了一种名为EndoSERV的视觉导航系统, 用于解决腔内机器人导航的挑战. 该方法通过分段处理和虚实特征映射来提升定位精度, 并在公开和临床数据集上验证了其有效性.

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Mina Jamshidi Idaji et al.

cs.CV cs.LG

本文提出了一个无需额外标签即可评估MIL heatmaps质量的通用框架, 并在大规模基准实验中评估了多种解释方法. 结果表明, 解释质量主要取决于MIL模型架构和任务类型, 其中扰动、LRP和IG等方法优于基于注意力和梯度的显著性热图.

Detecting Fake Reviewer Groups in Dynamic Networks: An Adaptive Graph Learning Method

Jing Zhang et al.

cs.SI cs.AI

本文提出了一种用于检测动态网络中虚假评论者群体的自适应图学习方法DS-DGA-GCN. 该方法通过建模产品-评论-评论者网络, 并结合网络特征评分系统和动态图注意力机制, 在冷启动场景下实现了优于现有基准的检测性能.

Electrocardiogram Classification with Transformers Using Koopman and Wavelet Features

Sucheta Ghosh, Zahra Monfared

eess.SP cs.AI cs.LG

本文结合Koopman operator和wavelet transform提取特征, 并利用transformer模型进行ECG信号分类. 实验表明, 在四分类任务中, 基于Koopman的特征表现更优, 并且通过精心选择EDMD的字典函数可以进一步提升模型性能.

Unifying On- and Off-Policy Variance Reduction Methods

Olivier Jeunen

stat.ML cs.IR cs.LG stat.ME

本文建立了在线A/B测试与离线策略评估中方差缩减方法的统一框架. 证明了在线Difference-in-Means估计量与使用最优控制变量的离线Inverse Propensity Scoring估计量在数学上等价, 并揭示了回归调整方法与双重稳健估计的结构一致性.

Leaderboard Incentives: Model Rankings under Strategic Post-Training

Yatong Chen, Guanhua Zhang, Moritz Hardt

cs.GT cs.LG

本文研究了机器学习基准测试所引发的策略性行为, 通过Stackelberg博弈模型分析了基准设计者与模型开发者之间的激励结构. 研究表明, 当前常见的评估协议可能导致均衡不存在, 而一种称为"tune-before-test"的新协议能在温和条件下诱导出按模型潜在质量排序的唯一Nash均衡.

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

Daryl Hedley et al.

cs.HC cs.CL

本文介绍了一个名为Sandpiper的混合主动系统, 旨在规模化处理教育对话数据. 它结合了交互式仪表板和LLM代理, 通过上下文感知的去识别化和模式约束的编排来支持定性分析.

Human-Aware Robot Behaviour in Self-Driving Labs

Satheeshkumar Veeramani et al.

cs.RO cs.AI cs.HC

本文提出了一种用于自驱动实验室中移动机器人化学家的感知方法, 旨在改善人机共享环境下的协作效率. 该方法通过分层的人类意图预测模型, 使机器人能够区分准备性动作与短暂交互, 从而进行主动协调而非被动等待.

Can Vision-Language Models Solve the Shell Game?

Tiedong Liu, Wee Sun Lee

cs.CV cs.CL

本文通过构建VET-Bench诊断基准，揭示了当前Vision-Language Models在视觉实体跟踪任务上的根本性缺陷，即过度依赖静态特征且无法维持跨时间的实体表示。作者提出了一种名为Spatiotemporal Grounded Chain-of-Thought的方法，通过生成显式的物体轨迹作为中间状态，显著提升了模型在此类任务上的性能。

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Peter Brodeur et al.

cs.HC cs.AI cs.CL cs.LG

本文报告了一项关于基于大型语言模型(LLM)的对话式AI在真实世界门诊工作流程中的前瞻性可行性研究。该研究评估了AI系统在病史采集和鉴别诊断方面的安全性、质量及用户体验，并与初级保健医生进行了比较。

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

Andrei Starodubov et al.

cs.RO cs.LG eess.SP eess.SY physics.data-an

本文提出了一种用于单船跟踪的自适应传感器选择方法, 结合了相机和LiDAR的粒子滤波器. 该方法通过信息增益(熵减)策略动态选择传感器配置, 并在真实海港环境中进行了验证, 结果表明自适应策略在精度和连续性之间取得了良好平衡.

Integrating Lagrangian Neural Networks into the Dyna Framework for Reinforcement Learning

Shreya Das et al.

eess.SY cs.LG

本文提出了一种将 Lagrangian neural networks (LNNs) 集成到 Dyna 框架中的模型强化学习方法. 该方法利用 LNNs 的物理结构约束来学习动力学模型, 并通过仿真验证了其有效性.

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

Francesco Argenziano et al.

cs.RO cs.AI

本文提出了一种名为R2F的LLM-free框架, 用于室内开放词汇物体导航. 该方法通过重新利用ray frontiers来构建方向性语义假设作为导航目标, 并引入R2F-VLN扩展来处理自由形式的语言指令, 从而在保持竞争力的零样本性能的同时实现实时运行.

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya

cs.RO cs.LG

本文提出了一种名为STRIDE的动力学学习框架, 它将保守的rigid-body mechanics与不确定的非保守相互作用效应分离开来. 该方法结合了Lagrangian Neural Network (LNN) 和 Conditional Flow Matching (CFM) 进行联合训练, 在多个机器人系统上验证了其在长期预测和接触力预测方面的改进.

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Youngseo Kim et al.

cs.CV cs.AI cs.LG

本文提出了一种基于生成器内部音频-视觉交叉注意力机制的深度伪造检测方法 X-AVDT. 该方法通过 DDIM inversion 获取生成过程中的内部信号, 并结合新构建的多模态数据集 MMDF 进行验证, 在多个基准测试中取得了优于现有方法的性能.

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

Qishun Yang et al.

cs.CV cs.AI

本文提出了一种无需安全标注的视觉自洽对齐方法, 通过让模型在包含威胁相关图像的中立视觉问答任务上进行微调, 来塑造其安全导向的"角色". 实验表明该方法能有效降低攻击成功率并缓解过度拒绝问题.

Pareto-Optimal Anytime Algorithms via Bayesian Racing

Jonathan Wurth et al.

cs.NE cs.LG

本文提出了一种基于Pareto最优性的随时算法比较框架, 使用算法在时间序列上的排名而非目标函数值来避免归一化需求. 该方法通过贝叶斯推断和自适应采样来识别非支配算法集合, 支持在不同时间偏好下的算法选择.

First-Order Geometry, Spectral Compression, and Structural Compatibility under Bounded Computation

Changkai Li

math.OC cs.AI

本文在算子理论框架下, 将计算或可行性限制编码为自伴算子, 从而刻画约束优化问题的局部可达子空间. 研究揭示了最优一阶改进方向表现为伪逆加权梯度, 并提出了谱压缩与结构兼容性的概念.

Beyond Hungarian: Match-Free Supervision for End-to-End Object Detection

Shoumeng Qiu, Xinrun Li, Yang Long

cs.CV cs.AI

本文提出了一种用于DETR类检测器的免匹配训练方案，通过一个基于交叉注意力的查询选择模块，以可微分的方式学习查询与目标之间的隐式对应关系，从而绕过了传统的匈牙利匹配过程。该方法提升了训练效率，并在性能上取得了有竞争力的结果。

Sliding Cubes in Parallel

Hugo A. Akitaya et al.

cs.CG cs.DS

本文研究了三维空间中可编程物质在并行重配置下的经典滑动立方体模型. 证明了即使对于常数makespan和常数对称差输入, 判定重配置序列的存在性也是NP-hard的, 并给出了一个渐近最优的输入敏感算法.

PCFEx: Point Cloud Feature Extraction for Graph Neural Networks

Abdullah Al Masud et al.

cs.CV cs.IR

本文提出了一种用于处理3D点云数据的图神经网络特征提取方法PCFEx, 并在人体姿态估计和活动识别任务上进行了评估. 该方法在多个毫米波雷达数据集上取得了优于现有技术的性能.

Bayesian inference of planted matchings: Local posterior approximation and infinite-volume limit

Zhou Fan, Timothy L. H. Wee, Kaylee Y. Yang

math.ST cs.DS math.PR

本文研究了在一维空间中, 贝叶斯推断用于恢复两个相关随机点集之间未知匹配$\pi^*$的问题. 在部分匹配模型下, 后验分布可由局部算法近似, 且其边际统计量存在良好定义的大$n$极限.

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

Gabriele Somaschini, Adrian Röfer, Abhinav Valada

cs.RO cs.LG

本文提出了一种名为ProReFF的模型, 用于从无标签观测中学习物体共现的语义先验, 并应用于机器人搜索任务. 该方法通过特征场预测相对特征分布, 并引入基于学习的对齐策略来处理不一致的观测数据.

Interactive World Simulator for Robot Policy Training and Evaluation

Yixuan Wang et al.

cs.RO cs.CV cs.LG

本文提出了一个用于机器人策略训练与评估的交互式世界模拟器框架。该框架利用一致性模型进行图像解码和潜在空间动力学预测，实现了快速稳定的物理交互模拟。

mmGAT: Pose Estimation by Graph Attention with Mutual Features from mmWave Radar Point Cloud

Abdullah Al Masud et al.

cs.CV cs.IR

本文提出了一种基于图注意力网络与毫米波雷达点云互特征的人体姿态估计方法 mmGAT. 该方法旨在提升在低光照等复杂环境下的估计性能, 并在公开数据集上取得了优于现有技术的结果.

Generative Adversarial Regression (GAR): Learning Conditional Risk Scenarios

Saeed Asadi, Jonathan Yu-Meng Li

stat.ML cs.LG math.OC q-fin.PM q-fin.RM

本文提出了Generative Adversarial Regression (GAR)框架, 用于学习与下游风险目标对齐的条件风险场景. 它基于可引出风险泛函的回归特性, 通过对抗性训练使生成器在各种策略下匹配真实数据的风险. 实验表明其在金融数据上优于基线方法.

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

Andrew Chin et al.

cs.CR cs.AI

本文提出了一个名为OSS-CRS的、可本地部署的开源框架，旨在使AIxCC竞赛中的网络推理系统能够脱离原有云基础设施，应用于现实世界的开源软件安全分析。该框架集成了资源管理功能，并通过移植冠军系统在实际项目中发现了多个先前未知的高危漏洞。

LoopLens: Supporting Search as Creation in Loop-Based Music Composition

Sheng Long, Atsuya Kobayashi, Kei Tateno

cs.HC cs.IR cs.SD

本文介绍了LoopLens, 一个用于循环音乐创作的创意支持工具, 它将音频搜索结果可视化以辅助创作. 通过用户研究发现, 具备和不具备音乐专业知识的参与者在搜索行为上存在明显差异, 这为理解创意搜索中的探索与利用平衡提供了新视角.

MetaWorld-X: Hierarchical World Modeling via VLM-Orchestrated Experts for Humanoid Loco-Manipulation

Yutong Shen et al.

cs.RO cs.AI

本文提出了一种用于仿人机器人全身控制的层次化世界模型框架 MetaWorld-X. 该方法通过分解控制问题为多个专家策略, 并利用视觉语言模型指导的路由机制进行组合, 以提升运动的自然性、稳定性和组合泛化能力.

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi

cs.CV cs.AI

本文提出了一种用于腺体分割的弱监督师生框架, 通过渐进式伪掩码优化来减少对密集标注的依赖. 该方法在多个数据集上进行了评估, 显示出一定的泛化能力.

UNBOX: Unveiling Black-box visual models with Natural-language

Simone Carnemolla et al.

cs.CV cs.AI

本文提出了一种名为UNBOX的框架, 用于在完全数据无关, 梯度无关和反向传播无关的约束下剖析黑盒视觉模型. 该方法利用大语言模型和文生图扩散模型, 将激活最大化重构为纯语义搜索, 从而生成可解释的文本描述符来揭示模型学习到的概念和潜在偏见.

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Ben Rank et al.

cs.SE cs.AI cs.LG

本文提出了PostTrainBench, 用于评估LLM agents在有限计算资源下自动化LLM后训练的能力. 研究发现, 前沿agents能取得一定进展, 但在多数情况下仍落后于官方指令调优模型, 并揭示了一些值得关注的失败模式.

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Matan Levy et al.

cs.CV cs.GR cs.LG

本文提出了一种名为RAF的训练时增强方法, 用于改进无模板可动画头部avatar的表达泛化能力. 该方法通过从大型无标签表情库中检索近邻表情来替换训练样本中的部分表情特征, 从而让形变场接触到更广泛的表情条件, 提升了模型在未见表情上的鲁棒性.

Characterization and upgrade of a quantum graph neural network for charged particle tracking

Matteo Argenton, Laura Cappelli, Concezio Bozzi

quant-ph cs.LG hep-ex

本文提出了一种用于带电粒子径迹重建的量子图神经网络(QGNN)架构, 并对其进行了特性分析和升级. 该模型是一种混合架构, 交替使用经典前馈网络和参数化量子电路, 并在模拟的高亮度数据集上展示了改进的训练行为.

Momentum SVGD-EM for Accelerated Maximum Marginal Likelihood Estimation

Adam Rozzio, Rafael Athanasiades, O. Deniz Akyildiz

stat.ML cs.LG stat.CO

本文提出了一种称为Momentum SVGD-EM的加速算法，用于最大边际似然估计。该方法在参数更新和概率测度空间中引入了Nesterov加速，从而在多种任务中减少了所需的迭代次数。

Structural Causal Bottleneck Models

Simon Bing, Jonas Wahl, Jakob Runge

stat.ML cs.LG

本文提出了一种新的结构因果模型类别, 称为结构因果瓶颈模型(SCBM). 该模型假设高维变量间的因果效应仅依赖于原因的低维摘要统计量(即瓶颈), 为任务特定的降维提供了一个可估计的灵活框架.

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Phillip Long, Zachary Novack, Chris Donahue

cs.SD cs.AI cs.LG eess.AS

本文提出了一种名为Trilobyte的字节级tokenization方法, 用于基于自回归语言模型(LM)的无损音频压缩, 解决了高比特深度(如24-bit)下词汇表过大的问题. 实验表明, 该方法在8-bit和16-bit音频上能超越FLAC等传统编解码器, 但在更高比特深度下压缩增益有限.

Scale Space Diffusion

Soumik Mukhopadhyay, Prateksha Udhayanan, Abhinav Shrivastava

cs.CV cs.AI

本文提出了一种将scale-space理论与diffusion models相结合的方法, 通过引入广义线性退化(包括下采样)来构建Scale Space Diffusion模型. 该方法使用一个名为Flexi-UNet的网络变体进行去噪, 并在CelebA和ImageNet数据集上验证了其在不同分辨率和网络深度下的扩展行为.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others