bluearXiv-ai - 2026-03-31

📄 所有论文 ↑ 回顶部

cs.LG

Physics-Guided Transformer (PGT): Physics-Aware Attention Mechanism for PINNs ⭐ 精选

Ehsan Zeraatkar, Rodion Podorozhny, Jelena Tešić

cs.LG cs.AI

本文提出了一种名为 Physics-Guided Transformer (PGT) 的新架构，它将物理结构直接嵌入到 self-attention 机制中。该方法通过一个源自热核的加性偏置来编码扩散动力学和时间因果性，并使用一个 FiLM 调制的 sinusoidal implicit network 进行解码。在求解一维热方程和二维不可压缩 Navier-Stokes 系统的稀疏数据重建任务中，PGT 在物理一致性和精度上均显著优于传统的 PINNs 等方法，展示了在数据稀缺条件下提升模型稳定性和泛化能力的潜力。

Mitigating Forgetting in Continual Learning with Selective Gradient Projection

Anika Singh et al.

cs.LG math.OC

本文提出了一种名为SFAO的动态优化方法，用于缓解持续学习中的灾难性遗忘问题。该方法通过余弦相似度和逐层门控机制来调节梯度方向，在标准基准测试中实现了较低的存储成本。

Boundary-aware Prototype-driven Adversarial Alignment for Cross-Corpus EEG Emotion Recognition

Guangli Li et al.

cs.LG eess.SP stat.ML

本文提出了一种用于跨数据集EEG情绪识别的原型驱动对抗对齐框架. 该框架通过原型引导的局部对齐, 对比语义正则化和边界感知聚合来提升模型的跨域泛化能力, 在多个基准数据集上取得了先进的性能.

Learning to Select Visual In-Context Demonstrations

Eugene Lee, Yu-Chi Lin, Jiajie Diao

cs.LG cs.AI cs.CL cs.CV

本文提出了一种名为LSD的强化学习方法, 用于为多模态大语言模型(MLLMs)的视觉上下文学习(ICL)选择演示样例. 该方法训练一个基于Dueling DQN和Transformer Decoder的agent, 以最大化下游任务性能, 并在多个视觉回归基准测试中验证了其有效性, 特别是在客观事实回归任务上优于传统的k近邻方法.

TED: Training-Free Experience Distillation for Multimodal Reasoning

Shuozhi Yuan et al.

cs.LG cs.AI

本文提出了一种无需训练的、基于上下文的经验蒸馏框架TED, 用于提升多模态推理能力. 该方法通过将教师的推理经验注入学生模型的提示中来实现知识迁移, 避免了传统的参数更新过程.

A Step Toward Federated Pretraining of Multimodal Large Language Models

Baochen Xiong et al.

cs.LG cs.AI

本文提出了一个用于联邦多模态大语言模型预训练的新框架Fed-CMP. 它通过构建规范空间和正交动量等方法, 旨在解决联邦预训练中的参数干扰和梯度振荡问题.

Robust Batch-Level Query Routing for Large Language Models under Cost and Capacity Constraints

Jelena Markovic-Voronov et al.

cs.LG cs.AI stat.ML

本文提出了一种在成本和容量约束下，面向大语言模型(LLM)的批量查询路由框架。该框架通过联合优化批量分配，并引入鲁棒性设计以应对性能预测的不确定性，从而在控制资源的同时提升任务性能。

MemGuard-Alpha: Detecting and Filtering Memorization-Contaminated Signals in LLM-Based Financial Forecasting via Membership Inference and Cross-Model Disagreement

Anisha Roy, Dip Roy

cs.LG

本文提出了一种名为MemGuard-Alpha的后处理框架, 用于检测和过滤基于LLM的金融预测中因记忆训练数据而产生的虚假信号. 该方法结合了成员推理攻击和跨模型分歧, 旨在实时识别并剔除被记忆污染的预测, 以提升策略在样本外的表现.

Explaining, Verifying, and Aligning Semantic Hierarchies in Vision-Language Model Embeddings

Gesina Schwalbe et al.

cs.LG cs.AI

本文提出了一个后处理框架, 用于解释、验证和对齐视觉语言模型(VLM)嵌入空间中的语义层次结构. 该方法通过聚类和概念匹配提取层次, 并评估其与人类本体论的一致性和实用性.

Gaussian Joint Embeddings For Self-Supervised Representation Learning

Yongchao Huang

cs.LG

本文提出了一种基于生成式联合建模的概率性自监督表示学习方法, 称为 Gaussian Joint Embeddings (GJE) 及其多模态扩展 Gaussian Mixture Joint Embeddings (GMJE). 该方法通过显式概率模型对上下文和目标表示的联合密度进行建模, 并引入多种优化策略来克服训练中的失败模式. 实验表明, 该方法在合成多模态对齐任务和视觉基准测试中能够恢复复杂的条件结构并学习到有竞争力的表示.

DSO: Dual-Scale Neural Operators for Stable Long-term Fluid Dynamics Forecasting

Huanshuo Dong et al.

cs.LG cs.AI physics.flu-dyn

本文提出了一种用于长期流体动力学预测的双尺度神经算子(DSO), 它通过深度可分离卷积和MLP-Mixer分别处理局部细节和全局趋势, 在湍流基准测试中实现了最先进的精度和长期稳定性.

Sparse-by-Design Cross-Modality Prediction: L0-Gated Representations for Reliable and Efficient Learning

Filippo Cenacchi

cs.LG cs.AI

本文提出了一种模态无关的稀疏化方法 L0GM, 通过 hard-concrete 门控直接在表示层施加 L0 稀疏性, 以统一的方式处理图, 文本和表格数据. 该方法在保持预测性能的同时减少了激活的表示维度, 并改善了概率校准.

A Comparative Investigation of Thermodynamic Structure-Informed Neural Networks

Guojie Li, Liu Hong

cs.LG stat.ML

本文系统比较了将不同热力学表述(如 Newtonian, Lagrangian, Hamiltonian 力学, Onsager 变分原理等)纳入 Physics-Informed Neural Networks (PINNs) 的方法. 通过数值实验评估了这些方法在精度、物理一致性等方面的表现, 发现基于结构保持的表述能显著提升参数识别和鲁棒性.

PiCSRL: Physics-Informed Contextual Spectral Reinforcement Learning

Mitra Nasr Azadani, Syed Usama Imtiaz, Nasrin Alamdari

cs.LG cs.AI

本文提出了一种名为PiCSRL的物理信息上下文谱强化学习方法, 用于解决高维低样本量(HDLSS)环境下的自适应采样问题. 该方法将领域知识嵌入到RL的状态表示中, 并在蓝藻基因浓度采样任务上展示了优于基线方法的性能.

Epileptic Seizure Prediction Using Patient-Adaptive Transformer Networks

Mohamed Mahdi, Asma Baghdadi

cs.LG cs.AI

本文提出了一种用于癫痫发作预测的患者自适应transformer框架. 该方法采用两阶段训练策略, 结合自监督预训练与患者特异性微调, 在TUH EEG数据集上取得了较高的预测准确率.

Throughput Optimization as a Strategic Lever in Large-Scale AI Systems: Evidence from Dataloader and Memory Profiling Innovations

Mayank Jha

cs.LG cs.AI cs.PF

本文综述了大规模AI系统中提升训练吞吐量的系统级优化方法. 讨论了数据加载、内存管理和编译器优化等方面的技术进展.

Central-to-Local Adaptive Generative Diffusion Framework for Improving Gene Expression Prediction in Data-Limited Spatial Transcriptomics

Yaoyu Fang et al.

cs.LG cs.AI cs.CV

本文提出了一种用于空间转录组学(ST)数据增强的中央到局部自适应生成扩散框架(C2L-ST). 该框架利用大规模组织病理学图像预训练一个中央模型, 再通过少量配对的图像-基因数据对局部模型进行轻量级条件调制, 以在数据有限条件下生成逼真的组织学图像. 生成的合成数据用于下游基因表达预测任务, 提高了预测的准确性和空间一致性.

Squish and Release: Exposing Hidden Hallucinations by Making Them Surface as Safety Signals

Nathaniel Oh, Paul Attie

cs.LG cs.AI

本文提出了一种名为"Squish and Release"的激活修补架构, 用于揭示语言模型中一种特定的幻觉现象. 该方法通过分离固定的检测器主体和可交换的检测器核心, 展示了模型在对话压力下会吸收已知错误并产生看似权威但基于错误前提的输出.

A Regression Framework for Understanding Prompt Component Impact on LLM Performance

Andrew Lauziere, Jonathan Daugherty, Taisa Kushner

cs.LG cs.AI cs.SE

本文提出了一个用于分析提示(prompt)中特定特征对大型语言模型(LLM)性能影响的统计回归框架。该方法将可解释人工智能(XAI)技术应用于LLM，通过拟合回归模型来关联提示部分与模型评估结果，并以两个开源模型在简单算术问题上的表现为例进行了应用。

From Pixels to BFS: High Maze Accuracy Does Not Imply Visual Planning

Alberto G. Rodriguez Salgado

cs.LG cs.CV

本文通过构建 MazeBench 基准测试，评估了多模态模型在视觉空间任务（迷宫求解）上的表现。研究发现，模型的高准确率主要依赖于将图像转换为文本网格并进行 token 级别的暴力搜索，而非真正的视觉规划或空间理解。

FatigueFormer: Static-Temporal Feature Fusion for Robust sEMG-Based Muscle Fatigue Recognition

Tong Zhang et al.

cs.LG cs.AI

本文提出了一种名为FatigueFormer的半端到端框架, 用于从表面肌电信号(sEMG)中识别肌肉疲劳. 该框架结合了显著性引导的特征分离与深度时序建模, 旨在学习可解释且泛化性强的疲劳动态特征. 通过在包含四个不同最大自主收缩(MVC)水平的数据集上进行评估, 该方法在轻度疲劳条件下取得了先进的识别精度.

VAN-AD: Visual Masked Autoencoder with Normalizing Flow For Time Series Anomaly Detection

PengYu Chen et al.

cs.LG cs.AI cs.CV

本文提出了一种基于视觉Masked Autoencoder (MAE)的时间序列异常检测框架VAN-AD. 该方法通过引入自适应分布映射模块和归一化流模块来缓解MAE直接迁移带来的过泛化和局部感知有限的问题.

Stable Reasoning, Unstable Responses: Mitigating LLM Deception via Stability Asymmetry

Guoxi Zhang et al.

cs.LG cs.AI

本文提出了一种基于稳定性不对称性来检测和缓解大型语言模型内在欺骗行为的方法. 该方法通过对比模型内部推理链与外部响应对扰动的稳定性差异来识别欺骗, 并设计了一种新的对齐目标来抑制此类行为.

A Hierarchical Sheaf Spectral Embedding Framework for Single-Cell RNA-seq Analysis

Xiang Xiang Wang, Guo-Wei We

cs.LG math.SP q-bio.GN stat.ML

本文提出了一种用于单细胞RNA-seq数据分析的分层层谱谱嵌入框架. 该方法通过构建数据驱动的cellular sheaf并计算persistent sheaf Laplacians来提取多尺度局部结构信息, 形成细胞特征向量. 在多个基准数据集上的评估表明, 该方法在分类任务上取得了有竞争力的性能.

Property-Guided Molecular Generation and Optimization via Latent Flows

Alexander Arjun Lobo, Urvi Awasthi, Leonid Zhukov

cs.LG cond-mat.mtrl-sci

本文提出了一个名为MoltenFlow的分子生成与优化框架, 它结合了基于属性的潜在空间组织、流匹配生成先验和基于梯度的引导. 该框架支持在单一潜在空间中进行条件生成和局部优化, 并在固定评估预算下实现了高效的多目标分子优化.

Strategic Candidacy in Generative AI Arenas

Chris Hays et al.

cs.LG cs.AI cs.GT

本文研究了AI竞技场中模型生产者通过提交克隆模型来操纵排名的问题. 提出了一种名为YRWR的新排名机制, 该机制要求生产者提交对自己模型的排名, 并利用这些信息来校正模型质量的统计估计. 理论证明和模拟实验表明, 该机制具有近似克隆鲁棒性, 并能提高整体排名准确性.

Tunable Domain Adaptation Using Unfolding

Snehaa Reddy, Jayaprakash Katual, Satish Mulleti

cs.LG

本文提出了两种基于可解释unrolled networks的回归任务domain adaptation方法. 这些方法通过可调参数实现推理时的自适应, 在压缩感知相关问题上取得了优于联合训练基准的性能.

High dimensional theory of two-phase optimizers

Atish Agarwala

cs.LG math.ST

本文分析了LA-DiLoCo这一两阶段优化器在高维线性回归问题上的表现. 研究发现, 其单工作节点版本LA在信号与噪声的权衡上不同于SGD, 而多工作节点版本会产生更多噪声, 但可通过超参数调整改善.

Probabilistic Forecasting of Localized Wildfire Spread Based on Conditional Flow Matching

Bryan Shaddy et al.

cs.LG

本文提出了一种基于条件流匹配的概率性野火蔓延预测模型。该模型通过学习给定当前火情及环境输入下的火势到达时间条件分布，将火灾发展建模为随机过程。模型利用WRF-SFIRE模拟数据进行训练，能够高效生成火势到达时间的集合预测，在保持对关键驱动因素敏感性的同时，相比物理模拟器降低了计算成本。

ImmSET: Sequence-Based Predictor of TCR-pMHC Specificity at Scale

Marco Garcia Noceda et al.

cs.LG q-bio.QM

本文提出了一种名为ImmSET的基于序列的Transformer架构, 用于预测TCR-pMHC特异性. 该方法在数据规模扩展方面表现稳健, 并在特定条件下优于基于AlphaFold的预测流程.

Unsupervised Behavioral Compression: Learning Low-Dimensional Policy Manifolds through State-Occupancy Matching

Andrea Fraschini et al.

cs.LG cs.AI

本文提出了一种基于状态占用匹配的无监督行为压缩方法, 用于学习低维策略流形. 该方法通过改进数据集生成和压缩目标, 旨在提升潜在空间对行为功能相似性的表征能力.

Liquid Networks with Mixture Density Heads for Efficient Imitation Learning

Nikolaus Correll

cs.LG cs.RO

本文在模仿学习任务中比较了带有混合密度头的液态神经网络与扩散策略。实验表明, 液态策略在参数效率、离线预测误差和推理速度方面均表现更优, 尤其是在低数据量场景下鲁棒性更强。

Conformalized Signal Temporal Logic Inference under Covariate Shift

Yixuan Wang et al.

cs.LG stat.ML

本文提出了一种处理协变量偏移的conformalized Signal Temporal Logic (STL)推理框架。该框架利用似然比估计和加权conformal prediction，为在分布偏移下学习的STL公式提供了统计上的有效性保证。

Dynamic resource matching in manufacturing using deep reinforcement learning

Saunak Kumar Panda, Yisha Xiang, Ruiqi Liu

cs.LG cs.AI math.OC

本文针对制造业中的动态资源匹配问题, 提出了一种结合领域知识的深度强化学习方法. 该方法通过引入惩罚项改进传统Q-learning, 并将其整合进DDPG算法, 在实验中展现了优于基准算法的性能.

Hierarchy-Guided Topology Latent Flow for Molecular Graph Generation

Urvi Awasthi, Alexander Arjun Lobo, Leonid Zhukov

cs.LG cond-mat.mtrl-sci stat.ML

本文提出了一种用于生成具有3D坐标的分子图的层次引导潜在拓扑流(HLTF)模型. 该模型通过一个规划-执行框架, 先生成多尺度的潜在全局拓扑规划, 再结合约束感知的采样器来抑制拓扑错误, 从而提高了生成分子的化学有效性. 在QM9和GEOM-DRUGS数据集上的实验表明, 该方法在无需后处理的情况下取得了较高的有效性和新颖性.

Maximin Learning of Individualized Treatment Effect on Multi-Domain Outcomes

Yuying Lu et al.

cs.LG stat.ME

本文提出了一种名为DRIFT的maximin学习框架, 用于从高维项目级数据中估计稳健的个体化治疗效果(ITE). 该方法通过广义因子分析学习潜在因子表示, 并构建一个锚定的目标不确定性集, 以优化最坏情况下的性能, 从而获得对代表性不足或未测量领域具有鲁棒性的ITE估计.

Bayesian-Symbolic Integration for Uncertainty-Aware Parking Prediction

Alireza Nezhadettehad et al.

cs.LG cs.AI

本文提出了一种结合 Bayesian Neural Networks (BNNs) 与符号推理的松散耦合神经-符号框架, 用于提升不确定性环境下停车位预测的鲁棒性. 该框架通过两种混合策略利用符号知识, 并在真实停车数据上验证了其优于单一符号推理或传统 LSTM/BNN 基准的性能.

Semantic Interaction Information mediates compositional generalization in latent space

John Schwarcz

cs.LG

本文提出了Semantic Interaction Information (SII)这一度量，用于分析潜在变量交互对任务性能的贡献。通过Cognitive Gridworld环境和Representation Classification Chains (RCCs)架构，探讨了在部分可观测环境中学习变量交互以实现组合泛化的挑战。

Spectral-Aware Text-to-Time Series Generation with Billion-Scale Multimodal Meteorological Data

Shijie Zhang

cs.LG stat.ML

本文提出了一个用于文本引导气象时间序列生成的统一框架. 该框架基于新构建的大规模多模态数据集 MeteoCap-3B 和一个结合了 Spectral Prompt Generator 的扩散模型 MTransformer, 旨在通过文本精确控制生成过程. 实验表明该方法在多个基准测试上取得了先进性能, 并展示了良好的泛化能力.

ScoutAttention: Efficient KV Cache Offloading via Layer-Ahead CPU Pre-computation for LLM Inference

Qiuyang Zhang et al.

cs.LG

本文提出了一种名为ScoutAttention的KV cache offloading框架，旨在解决大语言模型长上下文推理中GPU内存受限的问题。该方法通过GPU-CPU协同计算和层提前预计算来提升推理效率。

Preconditioned Attention: Enhancing Efficiency in Transformers

Hemanth Saratchandran

cs.LG

本文提出了一种称为preconditioned attention的新方法, 旨在解决Transformer中attention矩阵的病态(ill-conditioned)问题. 该方法通过引入一个conditioning矩阵来降低attention矩阵的条件数(condition number), 从而改善优化过程, 并可作为现有多种attention机制的即插即用替代方案.

A Tight Expressivity Hierarchy for GNN-Based Entity Resolution in Master Data Management

Ashwin Ganesan

cs.LG cs.AI cs.DS

本文研究了基于图神经网络(GNN)的实体解析任务中, 不同MPNN架构的表达能力. 通过引入特定的谓词(如$\mathrm{Dup}_r$和$\mathrm{Cyc}_\ell$), 作者建立了严格的理论分离层次, 证明了不同复杂度的匹配任务需要不同最小复杂度的MPNN架构. 这些结果为实践者选择最经济且充分的GNN架构提供了理论保证.

GSR-GNN: Training Acceleration and Memory-Saving Framework of Deep GNNs on Circuit Graph

Yuebo Luo et al.

cs.LG cs.AI

本文提出了一种用于电路图分析的深度图神经网络训练加速与内存节省框架. 该框架通过结合可逆残差模块和分组稀疏非线性算子, 在保证任务性能的同时显著降低了计算与内存开销.

Online Learning of Kalman Filtering: From Output to State Estimation

Lintao Ye et al.

cs.LG eess.SY math.OC

本文研究了在部分可观测线性动力系统中学习未知系统模型的Kalman滤波问题. 提出了一种基于在线优化的统一算法框架, 可用于输出估计和状态估计两种场景. 对于更具挑战性的状态估计场景, 作者分析了实现次线性regret的根本限制, 并通过引入随机查询方案, 证明了在一定条件下可以实现$\sqrt{T}$-regret.

Hybrid Deep Learning with Temporal Data Augmentation for Accurate Remaining Useful Life Prediction of Lithium-Ion Batteries

Yun Tian et al.

cs.LG

本文提出了一种名为CDFormer的混合深度学习模型, 用于锂离子电池剩余使用寿命(RUL)的预测. 该模型结合了卷积神经网络, 深度残差收缩网络和Transformer编码器, 并采用了一种复合时间数据增强策略, 在两个真实数据集上取得了优于基线模型的表现.

Omni-Modal Dissonance Benchmark: Systematically Breaking Modality Consensus to Probe Robustness and Calibrated Abstention

Zabir Al Nazi, Shubhashis Roy Dipta, Md Rizwan Parvez

cs.LG

本文提出了一个名为OMD-Bench的新基准，用于评估多模态模型的鲁棒性和校准弃权能力。该基准通过系统性地破坏模态间的一致性来诊断模型对特定模态的依赖及其在证据冲突时的表现。

From Inference Routing to Agent Orchestration: Declarative Policy Compilation with Cross-Layer Verification

Huamin Chen et al.

cs.LG

本文扩展了一种用于LLM推理路由的声明式策略语言, 使其能够描述从推理网关到智能体工作流再到基础设施部署的多步骤流程. 编译器可以从同一份源代码生成适用于不同编排框架和基础设施组件的已验证配置, 并通过语言的非图灵完备性保证决策逻辑的完备性和一致性.

Scalable Maximum Entropy Population Synthesis via Persistent Contrastive Divergence

Mirko Degli Esposti

cs.LG

本文提出了一种基于Persistent Contrastive Divergence (PCD)的随机算法GibbsPCDSolver, 用于解决大规模最大熵(MaxEnt)人口合成中精确期望计算不可行的问题. 该方法通过维护一个合成个体池并进行Gibbs采样来近似模型期望, 避免了枚举整个组合空间, 从而实现了计算复杂度与属性数量$K$的线性缩放, 并在实验中保持了较低的边际相对误差(MRE)和更高的合成人口多样性.

Multimodal Forecasting for Commodity Prices Using Spectrogram-Based and Time Series Representations

Soyeon Park, Doohee Chung, Charmgil Hong

cs.LG cs.AI

本文提出了一种结合spectrogram和time series表示的多模态预测方法SEMF, 用于商品价格预测. 该方法通过Vision Transformer处理时频图, 并用cross-attention融合时序特征, 在多个预测任务上取得了优于基准模型的效果.

Embedding Provenance in Computer Vision Datasets with JSON-LD

Lynn Vonderhaar et al.

cs.LG

本文提出了一种利用JSON-LD格式将图像数据集的来源信息直接嵌入图像文件的新方法。该方法旨在解决图像来源信息通常单独存储、容易丢失的问题，以增强数据集的维护性和可重用性。

Active In-Context Learning for Tabular Foundation Models

Wilailuck Treerath, Fabrizio Pittorino

cs.LG

本文提出了Tabular Active In-Context Learning (Tab-AICL)框架, 将active learning与tabular foundation model (如TabPFN)的in-context learning能力相结合. 通过迭代优化标注的context而非模型参数, 并设计了多种acquisition rules, 该方法在冷启动阶段比传统的基于梯度提升的active learning baseline具有更高的样本效率.

Diagnosing Non-Markovian Observations in Reinforcement Learning via Prediction-Based Violation Scoring

Naveen Mysore

cs.LG cs.AI stat.ML

本文提出了一种基于预测的评分方法, 用于量化强化学习观测轨迹中的非马尔可夫结构. 该方法通过随机森林和岭回归来检测历史观测是否提供了超出当前观测的预测信息, 并在多个环境和算法中进行了评估, 展示了其在诊断部分可观测性等方面的实用价值.

K-Means Based TinyML Anomaly Detection and Distributed Model Reuse via the Distributed Internet of Learning (DIoL)

Abdulrahman Albaiz, Fathi Amsaad

cs.LG

本文提出了一种基于K-Means的轻量级异常检测模型以及一个分布式模型共享工作流, 专为资源受限的微控制器(MCUs)设计. 通过一个真实案例研究, 展示了"一次训练, 随处共享"(TOSE)方法的可行性, 实验结果表明该方法具有一致的检测性能和可忽略的解析开销.

Conditional Factuality Controlled LLMs with Generalization Certificates via Conformal Sampling

Kai Ye, Qingtao Pan, Shuo Li

cs.LG cs.AI

本文提出了一种称为Conditional Factuality Control (CFC)的后处理conformal框架，用于控制大型语言模型(LLMs)在生成内容时的幻觉问题。该方法通过增强分位数回归定义了一个连续的、基于特征的接受阈值，从而提供条件覆盖保证，并在多个基准测试中实现了更小的预测集和接近目标的覆盖率。

The Geometry of Harmful Intent: Training-Free Anomaly Detection via Angular Deviation in LLM Residual Streams

Isaac Llorente-Saguer

cs.LG cs.AI cs.CL

本文提出了一种无需训练的异常检测方法 LatentBiopsy, 通过分析大语言模型残差流激活的几何结构来检测有害提示. 该方法基于安全提示激活的主成分方向, 计算新提示的径向偏离角作为异常分数, 在多个模型变体上取得了高检测性能.

Kempe Swap K-Means: A Scalable Near-Optimal Solution for Semi-Supervised Clustering

Yuxuan Ren, Shijie Deng

cs.LG

本文提出了一种名为 Kempe Swap K-Means 的新算法，用于处理带有 must-link 和 cannot-link 约束的半监督聚类问题。该算法通过结合 Kempe chain swaps 和质心更新步骤，在保证效率的同时实现了接近最优的聚类效果。

The Geometric Cost of Normalization: Affine Bounds on the Bayesian Complexity of Neural Networks

Sungbae Chun

cs.LG cs.IT

本文分析了LayerNorm和RMSNorm对神经网络模型复杂度的几何影响. 证明了LayerNorm的均值中心化步骤会将其输出约束在一个线性超平面上, 从而将后续权重矩阵的Local Learning Coefficient (LLC) 精确降低 $m/2$, 而RMSNorm则能完全保留LLC. 这种差异源于数据流形的几何性质, 并得到了实验验证.

Interpretable Physics Extraction from Data for Linear Dynamical Systems using Lie Generator Networks

Shafayeth Jamil, Rehan Kapadia

cs.LG eess.SY

本文提出了一种用于线性动力系统的Lie Generator Networks(LGN), 通过学习结构化的生成器矩阵$A$并直接通过矩阵指数计算轨迹, 从而在从数据中推断系统参数时保持物理结构. 该方法为保守、耗散和时变线性系统提供了一个统一的框架, 并能恢复可解释的物理特征如极点和阻尼比.

GIFT: Bootstrapping Image-to-CAD Program Synthesis via Geometric Feedback

Giorgio Giannone et al.

cs.LG cs.AI cs.CE

本文提出了一个名为GIFT的数据增强框架, 用于提升从图像生成可执行CAD程序的任务. 该方法利用几何反馈机制, 将推理时的计算转化为高质量的训练样本, 从而在减少推理计算的同时提升了生成质量.

FlowRL: A Taxonomy and Modular Framework for Reinforcement Learning with Diffusion Policies

Chenxiao Gao et al.

cs.LG

本文提出了一个用于基于扩散/流策略的强化学习算法的分类法, 并开发了一个模块化的开源代码库以支持高效训练和基准测试. 该工作旨在为这一领域的研究提供统一视角和实用工具.

TurboAngle: Near-Lossless KV Cache Compression via Uniform Angle Quantization

Dipkumar Patel

cs.LG cs.AI

本文提出了一种名为TurboAngle的KV cache压缩方法, 通过将数据变换到Fast Walsh-Hadamard域并进行均匀角度量化(Uniform Angle Quantization)来减少存储. 该方法引入了逐层早期增强(per-layer early-boost)策略, 为关键层分配更高精度, 在多个模型上实现了接近无损的压缩效果.

KV Cache Quantization for Self-Forcing Video Generation: A 33-Method Empirical Study

Suraj Ranganath, Vaishak Menon, Anish Patnaik

cs.LG cs.AI

本文对自强制视频生成中的KV缓存量化进行了全面的实证研究, 比较了33种量化与缓存策略变体. 研究发现, 一种受FlowCache启发的软剪枝INT4适配方法在压缩比与内存占用之间取得了最佳平衡, 而高保真度压缩方法则因运行时或内存成本过高而不适合实际部署.

On Token's Dilemma: Dynamic MoE with Drift-Aware Token Assignment for Continual Learning of Large Vision Language Models

Chongyang Zhao et al.

cs.LG cs.AI

本文针对多模态持续指令调优中基于MoE架构的模型存在的路由漂移问题, 提出了一个动态MoE框架LLaVA-DyMoE. 该方法通过分析token级别的路由分数分布, 对模糊token和旧任务token施加针对性的正则化, 以引导其远离新专家, 从而缓解遗忘.

Variational Learning of Fractional Posteriors

Kian Ming A. Chai, Edwin V. Bonilla

cs.LG

本文提出了一种新的单参数变分目标, 用于估计近似的 fractional posteriors. 该方法被应用于变分自编码器, 展示了在证据下界和生成对齐方面的改进.

Decomposing Discrimination: Causal Mediation Analysis for AI-Driven Credit Decisions

Duraimurugan Rajamanickam

cs.LG

本文在AI驱动的信贷决策中, 应用因果中介分析区分了直接歧视与结构性不平等. 作者提出了在存在treatment-induced confounding情况下的识别策略, 并开发了相应的估计方法, 通过真实抵押贷款数据进行了实证评估.

Match or Replay: Self Imitating Proximal Policy Optimization

Gaurav Chaudhary, Laxmidhar Behera, Washim Uddin Mondal

cs.LG

本文提出了一种结合最优传输距离与成功轨迹回放的自我模仿算法, 用于提升强化学习中的探索效率. 该方法在密集奖励和稀疏奖励环境中均展示了优于基线模型的性能.

Q-BIOLAT: Binary Latent Protein Fitness Landscapes for QUBO-Based Optimization

Truong-Son Hy

cs.LG

本文提出了Q-BIOLAT框架，用于在二进制潜在空间中建模和优化蛋白质适应度。该方法将问题表述为QUBO形式，并展示了不同表示对优化景观的影响。

Visualization of Machine Learning Models through Their Spatial and Temporal Listeners

Siyu Wu et al.

cs.LG

本文提出了一个以模型为中心的两阶段框架, 用于机器学习模型的可视化(ModelVis). 该框架利用抽象的"监听器"捕获模型的空间与时间行为, 并将其与经典的信息可视化流程相连接. 作者还构建了一个检索增强的人-大语言模型工作流, 并对相关文献进行了系统性分析.

Cross-attentive Cohesive Subgraph Embedding to Mitigate Oversquashing in GNNs

Tanvir Hossain et al.

cs.LG cs.AI

本文提出了一种新的图学习框架, 通过跨注意力机制聚合 cohesive subgraph 的表示来增强节点嵌入, 以缓解 GNN 中的 oversquashing 问题. 该方法旨在保留关键的全局上下文信息, 同时过滤噪声连接, 并在多个基准数据集上展示了分类准确率的提升.

BLOSSOM: Block-wise Federated Learning Over Shared and Sparse Observed Modalities

Pranav M R et al.

cs.LG cs.DC

本文提出了一个名为BLOSSOM的联邦学习框架, 用于处理多模态数据在客户端间稀疏且异构分布的场景. 该框架通过块级聚合策略, 在共享部分模型组件的同时保持任务特定块的私有化, 从而在模态缺失严重的设置中提升了性能.

An Energy-Efficient Spiking Neural Network Architecture for Predictive Insulin Delivery

Sahil Shrivastava

cs.LG

本文提出了一种用于预测性胰岛素输送的节能脉冲神经网络架构PDDS. 该模型基于Leaky Integrate-and-Fire神经元, 在血糖数据上进行了训练与评估, 其核心优势在于极低的能耗, 适合可穿戴设备部署. 文章也指出了模型在低血糖检测方面的局限性, 并规划了未来的临床验证路线.

On the Asymptotics of Self-Supervised Pre-training: Two-Stage M-Estimation and Representation Symmetry

Mohammad Tinati, Stephen Tu

cs.LG stat.ML

本文通过 two-stage M-estimation 框架研究了自监督预训练的渐近理论. 该方法考虑了预训练表示中的 group symmetry, 并利用 Riemannian geometry 工具分析了其内在参数, 从而刻画了下游任务风险的极限分布.

Prototype-Aligned Federated Soft-Prompts for Continual Web Personalization

Canran Xiao, Liwei Hou

cs.LG

本文提出了一种基于 soft-prompt 的原型对齐联邦学习框架 ProtoFed-SP, 用于解决持续网络个性化中的隐私和遗忘问题. 该方法通过双时间尺度的提示向量和联邦原型库, 在多个基准测试上取得了性能提升.

CrossHGL: A Text-Free Foundation Model for Cross-Domain Heterogeneous Graph Learning

Xuanze Chen et al.

cs.LG

本文提出了一个用于跨领域异质图学习的无文本基础模型 CrossHGL. 该框架通过语义保持的转换策略和基于 Tri-Prompt 机制的自监督对比学习, 在不依赖外部文本监督的情况下进行预训练, 并通过参数高效的微调策略适应下游任务. 实验表明其在节点级和图级分类任务上优于现有基线.

Optimizing Coverage and Difficulty in Reinforcement Learning for Quiz Composition

Ricardo Pedro Querido Andrade Silva et al.

cs.LG

本文利用 reinforcement learning 方法自动化了从题库中组卷的过程. 实验比较了 DQN, SARSA 和 A2C/A3C 等算法在满足指定主题覆盖和难度目标上的表现.

Low-Rank Adaptation Reduces Catastrophic Forgetting in Sequential Transformer Encoder Fine-Tuning: Controlled Empirical Evidence and Frozen-Backbone Representation Probes

Ashish Pandey

cs.LG

本文通过对比实验研究了 LoRA 在序列化微调 Transformer 编码器时对灾难性遗忘的影响。实验表明，与全参数微调相比，LoRA 能显著降低遗忘率，并探讨了其与主干网络参数冻结的关联。

TMTE: Effective Multimodal Graph Learning with Task-aware Modality and Topology Co-evolution

Yinlin Zhu et al.

cs.LG

本文提出了一种名为TMTE的多模态图学习框架, 通过任务感知的模态与拓扑协同演化来联合优化图结构. 该方法在多种任务和数据集上取得了先进的性能.

Robust Smart Contract Vulnerability Detection via Contrastive Learning-Enhanced Granular-ball Training

Zeli Wang et al.

cs.LG cs.AI

本文提出了一种名为CGBC的方法, 用于增强智能合约漏洞检测的鲁棒性. 该方法通过引入Granular-ball计算层和对比学习预训练来应对标签噪声问题.

AutoStan: Autonomous Bayesian Model Improvement via Predictive Feedback

Oliver Dürr

cs.LG stat.ML

本文提出了一个名为AutoStan的框架, 它利用一个命令行编码代理来自主构建并迭代改进用Stan语言编写的Bayesian模型. 该代理通过一个循环工作, 编写模型代码, 执行MCMC采样, 并基于留出数据的负对数预测密度(NLPD)和采样器诊断结果来决定是否保留代码更改. 在多个数据集上的实验表明, 该框架能够自主发现合适的模型结构, 如Student-t稳健回归和层次模型.

What-If Explanations Over Time: Counterfactuals for Time Series Classification

Udo Schlegel, Thomas Seidl

cs.LG cs.AI stat.ML

本文综述了时间序列分类中反事实解释的现有算法, 讨论了保持时间连贯性等独特挑战, 并介绍了一个开源实现库.

Distributed Online Submodular Maximization under Communication Delays: A Simultaneous Decision-Making Approach

Zirui Xu, Vasileios Tzoumas

cs.LG cs.MA eess.SY math.OC

本文提出了一种在通信延迟下进行分布式在线次模最大化的算法, 称为DOG. 该算法结合了对抗性赌博机学习工具, 支持任意网络拓扑中的同时决策, 并分析了其近似性能与网络结构及延迟的权衡.

RG-TTA: Regime-Guided Meta-Control for Test-Time Adaptation in Streaming Time Series

Indar Kumar et al.

cs.LG stat.ML

本文提出了一种用于时间序列在线测试时自适应(TTA)的元控制器RG-TTA, 它根据输入数据与历史数据分布(regime)的相似性来动态调整自适应强度. 该方法结合了多种统计度量来计算相似度分数, 并据此平滑调整学习率和控制梯度更新步数, 同时引入了一个机制来选择性地重用历史检查点模型.

KVSculpt: KV Cache Compression as Distillation

Bo Jiang, Sian Jin

cs.LG cs.AI cs.CL

本文提出了一种名为KVSculpt的KV缓存压缩方法, 用于提升长上下文LLM推理的效率. 该方法通过在连续的embedding空间中优化一组不受约束的KV对来近似原始注意力行为, 并引入了自适应预算分配策略.

Stability and Sensitivity Analysis of Relative Temporal-Difference Learning: Extended Version

Masoud S. Sakha, Rushikesh Kamalapurkar, Sean Meyn

cs.LG math.OC

本文分析了带线性函数近似的relative TD learning的稳定性与敏感性. 证明了当baseline distribution选择为状态-动作过程的经验分布时, 算法对于任意非负baseline权重和折扣因子都是稳定的. 同时, 分析了参数估计的渐近偏差与协方差, 并证明了它们在折扣因子趋近于1时保持有界.

Kernel Dynamics under Path Entropy Maximization

Jnaneshwar Das

cs.LG cs.AI cs.RO math.DS

本文提出了一个变分框架, 将 kernel 视为服从路径熵最大化 (MaxCal) 的动态变量. 该框架将 kernel 的动态变化与信息几何和重正化群流等概念联系起来, 并给出了 kernel 变化所需功的信息热力学下界.

Near-Optimal Primal-Dual Algorithm for Learning Linear Mixture CMDPs with Adversarial Rewards

Kihyun Yu, Seoungbin Bae, Dabeen Lee

cs.LG math.OC

本文研究了具有对抗性奖励的线性混合约束马尔可夫决策过程（CMDPs）中的安全强化学习问题。作者提出了一种原始-对偶策略优化算法，在温和条件下实现了$\widetilde{O}(\sqrt{d^2 H^3 K})$的遗憾和约束违反界。

Spectral Signatures of Data Quality: Eigenvalue Tail Index as a Diagnostic for Label Noise in Neural Networks

Matthew Loftus

cs.LG

本文研究了神经网络权重矩阵的谱性质能否预测测试精度. 研究发现, 在标签噪声变化的情况下, 瓶颈层特征值分布的尾部指数 $\alpha$ 能有效预测测试精度; 但在超参数变化的情况下, 包括该指数在内的所有谱度量预测能力都很弱. 因此, 作者将该尾部指数定位为一种数据质量诊断工具, 而非通用的泛化预测器.

ATLAS-RTC: Closing the Loop on LLM Agent Output with Token-Level Runtime Control

Christopher Cruz

cs.LG

本文提出了一种用于自回归语言模型的运行时控制系统 ATLAS-RTC, 它在解码过程中强制执行结构化输出. 该系统通过轻量级信号监控生成过程, 并在检测到偏离时进行干预, 从而在错误发生前进行纠正.

ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing

Edward J. Yoon

cs.LG cs.AI cs.DC

本文提出了一种名为ITQ3_S的3-bit权重量化格式, 通过结合基于Fast Walsh-Hadamard Transform的TurboQuant策略, 在量化前对权重空间进行预旋转, 以缓解传统3-bit量化中的精度损失问题. 该方法在保持推理吞吐量的同时, 实现了与FP16基线相当的模型困惑度.

Scaling Atomistic Protein Binder Design with Generative Pretraining and Test-Time Compute

Kieran Didi et al.

cs.LG

本文提出了一种名为Proteina-Complexa的蛋白质结合剂设计方法，该方法结合了条件生成建模和基于结构预测的序列优化两种范式。它利用新的合成数据集进行预训练，并通过推理时优化提升了设计性能，在多个计算基准测试中取得了新的最优结果。

Symbolic Density Estimation: A Decompositional Approach

Angelo Rajendram et al.

cs.LG

本文提出了一个名为AI-Kolmogorov的框架，用于进行符号密度估计。该框架通过多阶段流程，将密度估计问题分解并最终应用符号回归来获得可解释的模型。

Efficient Inference of Large Vision Language Models

Surendra Pathak

cs.LG cs.CL cs.CV

本文对加速大型视觉语言模型推理的现有技术进行了系统性综述, 提出了一个包含视觉token压缩、内存管理与服务、高效架构设计和高级解码策略的四维分类法, 并讨论了当前方法的局限性与未来研究方向.

Gradient Manipulation in Distributed Stochastic Gradient Descent with Strategic Agents: Truthful Incentives with Convergence Guarantees

Ziqin Chen, Yongqiang Wang

cs.LG cs.GT

本文提出了一种完全分布式的支付机制, 用于在分布式随机梯度下降中激励诚实行为. 该机制无需中央服务器, 并保证了收敛性, 即使在存在策略性代理的情况下.

Principal Prototype Analysis on Manifold for Interpretable Reinforcement Learning

Bodla Krishna Vamshi, Haizhao Yang

cs.LG

本文提出了一种在流形上进行主原型分析的方法, 用于提升强化学习的可解释性. 该方法通过自动从数据中选择最优原型, 避免了现有方法对专家定义原型的依赖, 并在标准测试环境中保持了与原始黑盒模型相当的性能.

From Independent to Correlated Diffusion: Generalized Generative Modeling with Probabilistic Computers

Nihal Sanjay Singh et al.

cs.LG cs.ET

本文提出了一种广义的生成建模框架，通过将扩散模型中的独立噪声注入替换为包含已知交互结构的MCMC动力学，从而引入了相关扩散。该方法自然地映射到基于概率比特构建的概率计算机上，在采样吞吐量和能效方面具有优势。作者在二维铁磁Ising模型和三维Edwards-Anderson自旋玻璃的平衡态上进行了演示。

FedDES: Graph-Based Dynamic Ensemble Selection for Personalized Federated Learning

Brianna Mueller, W. Nick Street

cs.LG

本文提出了一种名为FedDES的去中心化个性化联邦学习框架, 通过基于Graph Neural Network (GNN)的动态集成选择, 实现了实例级别的个性化. 该方法在非独立同分布数据上优于现有基线, 有效缓解了负迁移问题.

Diffusion Maps is not Dimensionality Reduction

Julio Candanedo, Alejandro Patiño

cs.LG

本文通过对比分析 diffusion maps (DMAP), Isomap 和 UMAP 在 Swiss roll 数据上的表现, 指出 DMAP 本质上提供的是数据内在几何的 spectral representation, 而非直接的降维映射. 实验表明, 标准的 DMAP 坐标本身并不能直接识别出正确的低维表示, 需要组合多个 diffusion modes 才能准确恢复原始坐标.

Bit-Identical Medical Deep Learning via Structured Orthogonal Initialization

Yakov Pyotr Shkolnikov

cs.LG cs.AI

本文提出了一种通过结构化正交初始化实现医学深度学习模型比特级一致性的框架. 该方法消除了训练过程中的随机性, 在多个医学影像和心电图分类任务上验证了其有效性, 并保持了与标准初始化方法相当的性能.

Reducing Oracle Feedback with Vision-Language Embeddings for Preference-Based RL

Udita Ghosh et al.

cs.LG

本文提出了一种结合视觉语言嵌入模型与选择性人工反馈的混合框架ROVED, 用于降低基于偏好的强化学习中的反馈成本. 该方法通过不确定性过滤机制减少了对人工反馈的依赖, 并在多个机器人操作任务中验证了其有效性.

Physics-Embedded Feature Learning for AI in Medical Imaging

Pulock Das et al.

cs.LG eess.IV

本文提出了一种将肿瘤生长动力学嵌入到卷积神经网络特征学习中的深度学习框架PhysNet. 该框架通过端到端训练，在提升分类性能的同时，生成了可解释的潜在表示和生物物理参数.

From Vessel Trajectories to Safety-Critical Encounter Scenarios: A Generative AI Framework for Autonomous Ship Digital Testing

Sijin Sun et al.

cs.LG

本文提出了一种基于生成式AI的框架, 用于从船舶轨迹数据生成安全关键遭遇场景, 以支持自主船舶的数字测试. 该框架结合了生成轨迹建模与自动化遭遇配对, 能够生成多样化的高风险场景, 并保持了真实交通流的统计特性.

SIMR-NO: A Spectrally-Informed Multi-Resolution Neural Operator for Turbulent Flow Super-Resolution

Muhammad Abid, Omer San

cs.LG physics.flu-dyn

本文提出了一种用于湍流场超分辨率重建的谱感知多分辨率神经算子(SIMR-NO). 该方法通过结合多分辨率分解, 谱门控校正和局部细化模块, 在极端降采样条件下取得了优于现有方法的精度, 并能更忠实地恢复流场的物理谱特性.

Koopman-based surrogate modeling for reinforcement-learning-control of Rayleigh-Benard convection

Tim Plotzki, Sebastian Peitz

cs.LG math.DS

本文研究了使用基于Koopman算子的线性循环自编码器网络(LRAN)作为替代模型,以加速强化学习(RL)对二维Rayleigh-Bénard对流的控制. 通过比较在随机动作数据上预训练的替代模型与在策略演化数据上迭代训练的策略感知模型, 发现结合替代模型预训练与直接数值模拟(DNS)能显著减少训练时间.

InkDrop: Invisible Backdoor Attacks Against Dataset Condensation

He Yang et al.

cs.LG

本文提出了一种针对Dataset Condensation (DC)的隐形后门攻击方法InkDrop. 该方法通过利用模型决策边界附近的不确定性, 在保持攻击有效性和模型效用的同时, 增强了恶意操作的隐蔽性.

Heddle: A Distributed Orchestration System for Agentic RL Rollout

Zili Zhang et al.

cs.LG

本文提出了一种名为 Heddle 的分布式编排系统，用于优化基于 LLM 的智能体强化学习 (Agentic RL) 中的轨迹生成阶段。该系统通过轨迹级别的调度、感知和资源管理机制，旨在解决由长尾工具调用引起的队列延迟、干扰开销和单令牌处理时间膨胀等系统瓶颈。

Lipschitz verification of neural networks through training

Simon Kuang et al.

cs.LG

本文提出了一种通过训练过程本身来确保神经网络Lipschitz常数可验证性的新范式. 该方法通过直接惩罚易于计算的"平凡上界"来设计网络结构, 避免了传统验证方法的高计算成本, 并在MNIST数据集上取得了良好的鲁棒性结果.

Graph Vector Field: A Unified Framework for Multimodal Health Risk Assessment from Heterogeneous Wearable and Environmental Data Streams

Silvano Coletti, Francesca Fallucchi

cs.LG

本文提出了Graph Vector Field (GVF)框架, 用于整合异构可穿戴和环境数据流进行多模态健康风险评估. 该框架将风险建模为时变单纯复形上的向量值场, 结合了离散微分几何算子和模态结构化的混合专家模型.

Neural Federated Learning for Livestock Growth Prediction

Shoujin Wang et al.

cs.LG

本文提出了一个名为LivestockFL的联邦学习框架, 用于在保护数据隐私的前提下, 利用多个农场的分布式数据协同训练牲畜生长预测模型. 该框架进一步扩展为个性化的LivestockPFL, 通过本地训练预测头来生成农场特定的预测器. 在真实数据集上的实验验证了该方法的有效性.

ORACAL: A Robust and Explainable Multimodal Framework for Smart Contract Vulnerability Detection with Causal Graph Enrichment

Tran Duong Minh Dai et al.

cs.LG cs.CR

本文提出了一种名为ORACAL的多模态图学习框架, 用于智能合约漏洞检测. 该框架整合了Control Flow Graph (CFG), Data Flow Graph (DFG)和Call Graph (CG), 并利用Retrieval-Augmented Generation (RAG)和Large Language Models (LLMs)来增强关键子图的语义上下文, 同时采用因果attention机制以提高模型的鲁棒性和可解释性.

Automating Early Disease Prediction Via Structured and Unstructured Clinical Data

Ane G Domingo-Aldama et al.

cs.LG

本文提出了一种利用非结构化出院报告进行临床早期疾病预测的自动化方法. 该方法通过自然语言处理技术, 从文本中提取信息以辅助队列选择, 数据生成和结果标注, 旨在解决结构化电子健康记录中数据缺失的问题. 在预测心房颤动进展的任务中, 该方法构建的预测模型性能优于仅使用结构化数据的模型和传统临床评分.

Skillful Kilometer-Scale Regional Weather Forecasting via Global and Regional Coupling

Weiqi Chen et al.

cs.LG cs.AI

本文提出了一个全球-区域耦合框架, 用于公里尺度的区域天气预报. 该框架通过一个名为ScaleMixer的双向耦合模块, 将预训练的基于Transformer的全球模型与高分辨率区域网络协同耦合, 在网格化再分析数据和实时气象站观测数据上均显著优于传统数值天气预报和AI基线模型.

Policy-Controlled Generalized Share: A General Framework with a Transformer Instantiation for Strictly Online Switching-Oracle Tracking

Hongkai Hu

cs.LG q-fin.ST

本文提出了一个名为Policy-Controlled Generalized Share (PCGS)的严格在线学习框架，其核心在于固定广义分享递归，但允许自适应地变化损失后更新控制。文章的主要实例PCGS-TF使用了一个因果Transformer作为更新控制器。该框架在理论分析中获得了关于路径加权遗憾和动态遗憾的保证，并在合成与真实数据集上展示了优于基准方法的性能。

A Perturbation Approach to Unconstrained Linear Bandits

Andrew Jacobsen et al.

cs.LG stat.ML

本文在无约束Bandit Linear Optimization (uBLO)的背景下，重新审视了基于扰动的方法。研究表明，该方法能将BLO问题简化为标准的Online Linear Optimization (OLO)问题，并分析了其在期望regret和高概率regret保证方面的应用。

ERPO: Token-Level Entropy-Regulated Policy Optimization for Large Reasoning Models

Song Yu, Li Li

cs.LG cs.AI

本文提出了一种名为ERPO的token-level entropy-regulated policy optimization方法, 用于改进大型推理模型的强化学习训练. 该方法通过识别推理链中的关键决策点并调节其探索强度, 旨在生成更简洁且准确的推理路径.

Variational Neurons in Transformers for Language Modeling

Yves Ruffenach

cs.LG

本文在Transformer的前馈计算中引入了variational neurons, 将不确定性融入模型内部计算. 实验表明, 这种变体在保持预测性能的同时, 能产生有信息量的不确定性信号.

Detecting the Unexpected: AI-Driven Anomaly Detection in Smart Bridge Monitoring

Rahul Jaiswal, Joakim Hellum, Halvor Heiberg

cs.LG

本文提出了一种基于人工智能的异常检测方法, 用于智能桥梁监测. 该方法利用安装在挪威一座桥梁上的传感器收集的实时数据, 开发了一个简单的机器学习模型, 并通过实验表明, 基于DBSCAN的模型在准确检测桥梁事故等异常事件方面表现优于其他模型.

MR-ImagenTime: Multi-Resolution Time Series Generation through Dual Image Representations

Xianyong Xu et al.

cs.LG cs.AI

本文提出了一个结合多分辨率趋势分解和条件扩散过程的时间序列生成框架, 用于处理变长输入和多尺度建模问题. 在多个真实数据集上的实验表明, 该模型在MAE和RMSE等指标上优于现有基线.

MuonEq: Balancing Before Orthogonalization with Lightweight Equilibration

Da Chang et al.

cs.LG stat.ML

本文提出了MuonEq, 一种用于Muon优化器的轻量级预正交化均衡方案. 该方法通过行/列归一化来重新平衡动量矩阵, 仅需$\mathcal{O}(m+n)$的额外状态, 并在LLaMA2预训练中展现了优于原版Muon的性能.

Corruption-robust Offline Multi-agent Reinforcement Learning From Human Feedback

Andi Nika et al.

cs.LG

本文研究了离线多智能体强化学习从人类反馈(MARLHF)中对抗数据污染的鲁棒性问题. 在强污染模型下, 文章分别在均匀覆盖和单边覆盖假设下, 提出了鲁棒估计器并分析了其纳什均衡间隙的误差界. 为了应对计算复杂性, 文章将解的概念放宽为粗相关均衡(CCE), 并给出了一个拟多项式时间算法.

Pre-Deployment Complexity Estimation for Federated Perception Systems

KMA Solaiman et al.

cs.LG cs.AI cs.DC

本文提出了一个用于联邦感知系统的预部署复杂度估计框架. 该框架通过联合建模数据的内在属性和分布式环境的特征, 提供了一个与分类器无关的复杂度度量, 用于预测联邦学习任务的准确性和通信成本.

FI-KAN: Fractal Interpolation Kolmogorov-Arnold Networks

Gnankan Landry Regis N'guessan

cs.LG cs.AI math.NA

本文提出了两种基于分形插值函数(FIF)的Kolmogorov-Arnold Networks (KAN)变体，以改进对非光滑函数的逼近。在Holder正则性基准和分形目标等任务上，该方法相比原始KAN取得了显著的性能提升。

OptINC: Optical In-Network-Computing for Scalable Distributed Learning

Sijie Fei et al.

cs.LG cs.AR

本文提出了一种名为OptINC的光学网络内计算架构, 旨在利用光纤互连中的光学器件(如Mach-Zehnder-Interferometers)来执行分布式学习中的梯度平均与量化计算, 从而将计算任务从服务器卸载到光互连上. 通过使用酉矩阵和对角矩阵近似光学神经网络的权重矩阵, 并结合硬件感知的训练算法, 该方案在ResNet50和LLaMA-based网络等任务上取得了与基线方法相当的精度, 同时显著降低了通信开销.

NeiGAD: Augmenting Graph Anomaly Detection via Spectral Neighbor Information

Qing Qing et al.

cs.LG cs.AI

本文提出了一种名为NeiGAD的即插即用模块, 用于增强图异常检测. 该方法通过谱图分析捕获邻居信息, 并利用邻接矩阵的特征向量构建判别性表示, 在多个真实数据集上提升了检测性能.

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Chanyoung Kim et al.

cs.LG

本文针对VLA模型在机器人操作任务中对指令表述变化的鲁棒性问题, 提出了一个诊断性基准LIBERO-Para和新的评估指标PRIDE. 研究发现, 模型性能对指令的词汇变化, 尤其是对象指称的同义词替换, 高度敏感, 且失败主要源于任务规划层面的轨迹分歧.

Taming the Instability: A Robust Second-Order Optimizer for Federated Learning over Non-IID Data

Yuanqiao Zhang et al.

cs.LG

本文提出了一种名为FedRCO的鲁棒二阶优化框架, 旨在解决联邦学习在非独立同分布数据上训练时的收敛速度与通信成本问题. 该方法通过集成近似曲率优化器与稳定性机制, 在实验中表现出优于现有方法的鲁棒性与收敛性能.

FairGC: Fairness-aware Graph Condensation

Yihan Gao et al.

cs.LG

本文提出了FairGC, 一个在graph condensation过程中直接嵌入公平性约束的统一框架. 它通过同步标签与敏感属性的联合分布来防止偏见传播, 并利用Laplacian eigen-decomposition来保持图结构, 从而在保持预测效用的同时显著提升了合成图的公平性.

Physics-Informed Neural Networks for Predicting Hydrogen Sorption in Geological Formations: Thermodynamically Constrained Deep Learning Integrating Classical Adsorption Theory

Mohammad Nooraiepour et al.

cs.LG physics.geo-ph

本文提出了一种结合经典吸附理论与热力学约束的物理信息神经网络框架, 用于预测氢气在地质材料中的吸附行为. 该框架通过特征工程、损失函数约束和课程学习策略, 提升了模型在跨岩性数据集上的泛化能力和预测准确性.

Key-Embedded Privacy for Decentralized AI in Biomedical Omics

Rongyu Zhang et al.

cs.LG cs.DC

本文提出了一种基于隐式神经表示(Implicit Neural Representations)的轻量级联邦学习方法INFL, 该方法通过将可插拔的坐标条件模块集成到客户端模型中, 并嵌入密钥以实现隐私保护. 在多个生物医学组学任务中, INFL在保持模型效用的同时, 实现了可控的隐私保护.

Machine Learning-Assisted High-Dimensional Matrix Estimation

Wan Tian et al.

cs.LG stat.ML

本文提出了一种机器学习辅助的高维矩阵估计方法. 该方法将可学习参数和神经网络引入到基于LADMM的优化框架中, 以提升估计精度和收敛速度. 理论分析证明了重参数化后算法的收敛性及更快的收敛速率, 并在不同结构和维度的高维矩阵上验证了其有效性.

Critic-Free Deep Reinforcement Learning for Maritime Coverage Path Planning on Irregular Hexagonal Grids

Carlos S. Sepúlveda, Gonzalo A. Ruz

cs.LG cs.AI cs.NE cs.RO

本文提出了一种基于深度强化学习的覆盖路径规划方法, 用于处理不规则六边形网格表示的海域. 该方法采用无评论家(critic-free)的组相对策略优化(GRPO)来训练Transformer指针网络, 以自回归方式构建覆盖路径. 实验表明, 该方法在合成海洋环境上取得了高成功率, 并能实现实时推理.

Label-efficient Training Updates for Malware Detection over Time

Luca Minnei et al.

cs.LG cs.CR

本文提出了一个模型无关的框架, 用于评估多种 active learning (AL) 和 semi-supervised learning (SSL) 技术在 Android 和 Windows 恶意软件检测中的应用. 研究表明, 结合使用这些技术可以显著降低标注成本, 同时保持检测性能, 并引入了一种特征层面的漂移分析方法.

Mixture-Model Preference Learning for Many-Objective Bayesian Optimization

Manisha Dubey et al.

cs.LG stat.ML

本文提出了一种基于Dirichlet-process mixture的Bayesian框架, 用于学习多个潜在的偏好原型(archetypes), 以处理多目标优化中的权衡空间扩展和异质性偏好问题. 该方法设计了混合查询策略, 并在合成与真实基准测试中展现了优于基线方法的性能.

Evolutionary Discovery of Reinforcement Learning Algorithms via Large Language Models

Alkis Sygkounas, Amy Loutfi, Andreas Persson

cs.LG cs.AI

本文提出了一种利用大型语言模型作为生成变异算子的进化框架, 用于直接搜索可执行的更新规则以发现新的强化学习算法. 该方法在多个基准测试中通过完整的训练运行进行评估, 所发现的算法取得了与SAC, PPO等基线方法相竞争的性能.

KGroups: A Versatile Univariate Max-Relevance Min-Redundancy Feature Selection Algorithm for High-dimensional Biological Data

Malick Ebiele, Malika Bendechache, Rob Brennan

cs.LG cs.AI

本文提出了一种名为KGroups的新型单变量filter feature selection算法, 它通过聚类(clustering)进行特征选择, 属于同时最大化相关性与最小化冗余度(mRMR)的范畴. 在多个高维生物数据集上的实验表明, KGroups在保持与多元mRMR方法相当预测性能的同时, 计算速度显著提升.

Spectral Higher-Order Neural Networks

Gianluca Peri et al.

cs.LG cs.AI

本文提出了一种名为Spectral Higher-Order Neural Networks (SHONNs)的新架构，旨在将高阶相互作用融入通用前馈网络。该方法通过谱属性重新表述模型，以缓解加权高阶前向传播中常见的稳定性和参数缩放问题。

IsoQuant: Hardware-Aligned SO(4) Isoclinic Rotations for LLM KV Cache Compression

Zhongping Ji

cs.LG cs.CL

本文提出了一种名为IsoQuant的块旋转框架, 用于大型语言模型KV缓存的低比特量化. 该方法基于四元数代数和$SO(4)$的等斜分解, 设计了计算高效的旋转变换, 在合成数据上相比前序工作显著提升了核级运算速度.

FeDMRA: Federated Incremental Learning with Dynamic Memory Replay Allocation

Tiantian Wang, Xiang Xiang, Simon S. Du

cs.LG cs.AI cs.CV cs.DC stat.ML

本文提出了一种用于联邦类增量学习的动态记忆重放分配策略, 旨在解决分布式客户端数据非独立同分布带来的灾难性遗忘问题. 该方法通过动态分配示例存储内存, 并考虑客户端性能公平性, 在多个医学图像数据集上验证了其有效性.

HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

Yufei Xu et al.

cs.LG cs.AI

本文提出了一种名为HISA的高效分层索引方法, 用于改进细粒度稀疏注意力机制中的索引器. 该方法通过一个两阶段的分层搜索过程(先进行块级粗筛, 再进行令牌级精炼)来替代原有的全量扫描, 从而在不影响选择准确性的前提下显著提升了长上下文处理的计算效率.

Next-Token Prediction and Regret Minimization

Mehryar Mohri et al.

cs.LG cs.AI cs.GT

本文研究了在对抗性在线决策环境中使用 next-token prediction 模型的可行性。它分析了模型预测分布与诱导决策算法 regret 之间的关系，并对比了无界与有界 context window 下的不同理论结果。

The Unreasonable Effectiveness of Scaling Laws in AI

Chien-Ping Lu

cs.LG cs.AI

本文讨论了AI scaling laws的有效性及其在实践中的影响. 作者认为这些定律的普适性源于其对实现细节的抽象, 并将计算理解为与实现无关的逻辑计算.

Detecting low left ventricular ejection fraction from ECG using an interpretable and scalable predictor-driven framework

Ya Zhou et al.

cs.LG cs.AI stat.AP

本文提出了一种结合基础模型诊断概率与可解释模型的ECGPD-LEF框架，用于从心电图检测低左心室射血分数。该框架在基准数据集上表现优于端到端基线模型，并通过可解释性分析识别了关键的心电图预测因子。

CirrusBench: Evaluating LLM-based Agents Beyond Correctness in Real-World Cloud Service Environments

Yi Yu et al.

cs.LG cs.AI cs.IR cs.PF

本文提出了一个名为CirrusBench的评估框架, 用于在真实的云服务环境中评估基于LLM的智能体. 该框架基于真实的客服工单数据, 引入了关注解决效率的客户中心化指标, 并指出当前先进模型在复杂多轮任务和效率方面仍存在不足.

Unrestrained Simplex Denoising for Discrete Data. A Non-Markovian Approach Applied to Graph Generation

Yoann Boget, Alexandros Kalousis

cs.LG

本文提出了一种用于离散数据的无约束单纯形去噪方法, 采用非Markovian加噪方案. 该方法在概率单纯形上操作, 简化了离散生成建模的公式, 并在图生成基准测试中取得了优于现有基线模型的结果.

Learning Partial Action Replacement in Offline MARL

Yue Jin, Giovanni Montana

cs.LG cs.AI cs.MA

本文提出了一种名为PLCQL的离线多智能体强化学习框架, 通过将Partial Action Replacement (PAR)的子集选择问题建模为contextual bandit问题, 并利用带不确定性加权奖励的Proximal Policy Optimisation学习一个状态依赖的PAR策略. 该方法动态决定在每一步更新中替换多少智能体的动作, 在策略改进与保守值估计之间取得平衡, 从而显著提升了计算效率.

ChemCLIP: Bridging Organic and Inorganic Anticancer Compounds Through Contrastive Learning

Mohamad Koohi-Moghadam et al.

cs.LG cs.AI

本文提出了一个名为 ChemCLIP 的双编码器对比学习框架, 旨在通过学习基于共享抗癌活性的统一表示, 来弥合有机小分子与金属基配合物这两个传统上分离的化学领域之间的鸿沟. 该工作通过系统评估多种分子编码策略, 为多模态化学应用中的编码器选择提供了经验性指导.

Physics-Informed Framework for Impact Identification in Aerospace Composites

Natália Ribeiro Marinho et al.

cs.LG physics.app-ph

本文提出了一种用于航空航天复合材料冲击识别的物理信息框架. 该方法通过整合观测、归纳和学习偏置, 将物理知识与数据驱动推理相结合, 实现了物理一致且数值稳定的识别. 实验评估表明, 该方法在推断冲击速度和冲击物质量方面具有较低的误差, 并在数据减少或噪声增加时保持稳定性能.

Optimistic Actor-Critic with Parametric Policies for Linear Markov Decision Processes

Max Qiushi Lin et al.

cs.LG stat.ML

本文针对线性MDP提出了一种使用参数化对数线性策略的乐观actor-critic框架。算法为actor设计了可处理的logit-matching回归目标，并为critic使用Langevin Monte Carlo进行近似Thompson采样以获得乐观值估计。理论分析表明，该算法在on-policy和off-policy设置下分别达到了$\widetilde{\mathcal{O}}(\epsilon^{-4})$和$\widetilde{\mathcal{O}}(\epsilon^{-2})$的样本复杂度。

Position: Explainable AI is Causality in Disguise

Amir-Hossein Karimi

cs.LG

本文认为当前可解释人工智能(XAI)领域的混乱源于缺乏一个坚实的地面真值, 并主张这个真值应是描述系统行为的因果模型. 作者提出将XAI问题重新定义为因果查询, 并论证了因果模型对于实现可解释性的必要性和充分性.

LACE: Loss-Adaptive Capacity Expansion for Continual Learning

Shivnath Tathe

cs.LG

本文提出了一种名为LACE的在线机制, 用于持续学习中的模型容量自适应扩展. 该方法通过监控损失信号, 在需要时自动增加投影层的维度, 无需标签或回放缓冲区, 并在实验中展示了良好的边界检测精度和性能.

Information-Theoretic Limits of Safety Verification for Self-Improving Systems

Arsenios Scrivens

cs.LG cs.AI stat.ML

本文研究了自改进系统的安全验证问题, 通过形式化有界累积风险与无界效用提升的兼容性, 建立了分类器方法存在根本性限制的理论. 研究证明了在特定风险调度下分类器效用的上界, 并展示了基于Lipschitz验证的方法可以规避该限制.

Mitigating Backdoor Attacks in Federated Learning Using PPA and MiniMax Game Theory

Osama Wehbi et al.

cs.LG cs.CR cs.DC cs.GT

本文提出了一种名为FedBBA的防御框架, 用于缓解联邦学习中的后门攻击. 该方法结合了信誉系统, 激励机制以及基于博弈论和投影寻踪分析(PPA)的模型, 以动态识别并最小化恶意客户端的影响. 在交通标志数据集上的实验表明, 该方法能有效降低后门攻击成功率, 同时保持较高的主任务准确率.

AMIGO: Agentic Multi-Image Grounding Oracle Benchmark

Min Wang, Ata Mahjoubfar

cs.LG cs.AI

本文提出了一个名为AMIGO的基准测试，用于评估智能体在多轮交互中通过询问属性问题从相似图像库中识别隐藏目标的能力。该基准强调在不确定性下的策略规划、跨轮次的一致性约束跟踪以及细粒度判别。

FL-PBM: Pre-Training Backdoor Mitigation for Federated Learning

Osama Wehbi et al.

cs.LG cs.CR cs.DC

本文提出了一种联邦学习中的预训练后门缓解方法(FL-PBM). 该方法通过在客户端训练前主动过滤中毒数据来防御后门攻击, 结合了PCA特征提取, GMM聚类和模糊化等技术, 实验表明其在降低攻击成功率的同时保持了模型的主任务精度.

Subspace Optimization for Backpropagation-Free Continual Test-Time Adaptation

Damian Sójka, Sebastian Cygert, Marc Masana

cs.LG

本文提出了一种名为PACE的无反向传播持续测试时适应系统, 它通过直接优化normalization层的仿射参数来适应分布变化. 该方法利用Covariance Matrix Adaptation Evolution Strategy和Fastfood投影在低维子空间中进行高效优化, 并引入了停止准则和领域专用向量库来提升运行效率.

GPU-Accelerated Optimization of Transformer-Based Neural Networks for Real-Time Inference

Soutrik Mukherjee, Sangwhan Cha

cs.LG cs.DC

本文提出了一种基于NVIDIA TensorRT的GPU加速transformer模型推理流水线, 采用混合精度策略(对softmax和layer normalization保留FP32, 对linear层使用FP16)以平衡速度与数值精度. 实验在BERT和GPT-2模型上验证了该方案能显著提升推理速度、降低延迟和内存使用, 同时保持高数值保真度和下游任务精度, 为低延迟部署提供了实用指南.

Stepwise Credit Assignment for GRPO on Flow-Matching Models

Yash Savani et al.

cs.LG cs.AI cs.CV

本文针对Flow-GRPO方法在flow-matching模型上应用强化学习时采用均匀credit assignment的问题，提出了一种逐步信用分配方法。该方法利用Tweedie公式估计中间奖励并引入基于增益的优势函数，旨在提升样本效率和收敛速度。

See it to Place it: Evolving Macro Placements with Vision-Language Models

Ikechukwu Uchendu et al.

cs.LG

本文提出了一种利用 Vision-Language Models (VLMs) 来指导芯片布局中宏单元放置的新框架 VeoPlace. 该方法通过视觉模型分析布局图像并建议放置区域, 结合进化搜索进行优化, 在多个基准测试上取得了优于现有学习方法的性能.

Expectation Error Bounds for Transfer Learning in Linear Regression and Linear Neural Networks

Meitong Liu et al.

cs.LG stat.ML

本文在两种线性模型(普通最小二乘回归和欠参数化线性神经网络)下, 研究了迁移学习中辅助数据对主任务泛化误差的影响. 对于线性回归, 作者推导了期望泛化误差的精确闭式解, 并给出了辅助任务有益的必要与充分条件; 对于线性神经网络, 则给出了一个非渐近的期望误差上界, 并提出了任务权重选择的原则性方向.

Rethinking Language Model Scaling under Transferable Hypersphere Optimization

Liliang Ren et al.

cs.LG

本文提出了HyperP框架, 在Frobenius球约束和Muon优化器下, 实现了学习率在模型宽度, 深度, 训练token数和MoE粒度间的可迁移性. 研究发现最优学习率遵循与AdamW相同的"0.32指数"数据缩放律, 并在大规模计算下提升了效率与训练稳定性.

Stop Probing, Start Coding: Why Linear Probes and Sparse Autoencoders Fail at Compositional Generalisation

Vitória Barin Pacela et al.

cs.LG

本文探讨了稀疏自编码器(SAEs)在组合泛化任务上的失败原因. 研究发现, 问题核心在于字典学习而非摊销推断, 即使在相同字典下使用逐样本优化也无法弥补性能差距.

Temporal Credit Is Free

Aur Shalev Merin

cs.LG

本文提出了一种用于训练recurrent networks的新方法, 它无需进行Jacobian propagation即可实现online adaptation. 该方法利用前向传播中hidden state所携带的temporal credit, 通过immediate derivatives并结合梯度归一化来更新参数. 作者提出了一个架构规则来预测何时需要这种归一化, 并在多个任务上验证了其有效性, 能以极低的内存开销达到与RTRL相当的性能.

Geometry-aware similarity metrics for neural representations on Riemannian and statistical manifolds

N Alex Cayco Gajic, Arthur Pellegrino

cs.LG cs.AI math.DG q-bio.NC

本文提出了一种称为metric similarity analysis (MSA)的新方法, 用于比较神经网络表示的内在几何结构. 该方法基于Riemannian几何工具, 能够区分不同学习机制下的网络特征, 并应用于分析非线性动力学和扩散模型.

cs.AI

AutoMS: Multi-Agent Evolutionary Search for Cross-Physics Inverse Microstructure Design ⭐ 精选

Zhenyuan Zhao et al.

cs.AI

本文提出了AutoMS, 一个用于跨物理场逆向微结构设计的多智能体神经符号框架. 它将逆向设计问题重新定义为一次由LLM驱动的进化搜索, 其中LLM作为"语义导航器"来初始化搜索空间并打破局部最优, 同时引入了新颖的Simulation-Aware Evolutionary Search (SAES)来利用仿真反馈进行局部梯度近似和定向参数更新. 该方法在17个不同的跨物理场任务上实现了83.8%的成功率, 显著超越了传统进化算法和基于LLM的基线方法, 并通过分层架构减少了总执行时间, 有效弥合了语义设计意图与严格物理有效性之间的鸿沟.

Bitboard version of Tetris AI

Xingguo Chen et al.

cs.AI

本文提出了一种基于bitboard优化的高性能Tetris AI框架, 改进了游戏模拟速度和强化学习训练效率. 通过使用bitboard表示和位运算加速核心游戏逻辑, 并结合改进的PPO算法, 该框架在10x10网格上实现了快速训练和高分表现.

Multiverse: Language-Conditioned Multi-Game Level Blending via Shared Representation

In-Chang Baek et al.

cs.AI cs.LG

本文提出了一种名为Multiverse的文本条件多游戏关卡生成模型, 它通过学习一个共享的潜在空间来对齐文本指令和关卡结构, 从而实现跨游戏的关卡混合. 该模型通过基于阈值的多正例对比监督来连接不同游戏间的语义相关关卡, 支持通过潜在插值和组合文本提示进行可控生成.

Concerning Uncertainty -- A Systematic Survey of Uncertainty-Aware XAI

Helena Löfström et al.

cs.AI cs.LG

本文系统综述了不确定性感知的可解释人工智能(UAXAI)领域, 梳理了将不确定性量化(如Bayesian, Monte Carlo, Conformal方法)整合到解释生成流程中的主要方法, 并分析了当前以模型为中心、缺乏统一标准的评估现状. 作者指出该领域未来的发展需要建立连接不确定性传播、鲁棒性和人类决策的统一评估原则.

Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Fabrizio De Santis, Gyunam Park, Francesco Zanichelli

cs.AI

本文提出了一种结合领域知识的神经符号学习方法, 用于顺序事件数据的预测建模. 该方法通过两阶段优化策略, 在提升预测性能的同时确保对领域逻辑约束的遵守.

Compliance-Aware Predictive Process Monitoring: A Neuro-Symbolic Approach

Fabrizio De Santis, Gyunam Park, Wil M.P. van der Aalst

cs.AI

本文提出了一种用于合规感知预测性过程监控的神经符号方法, 利用 Logic Tensor Networks (LTN) 将过程知识注入预测模型. 该方法通过一个包含特征提取、规则提取、知识库创建和知识注入的流程, 在实验中相比基线方法展现了更高的合规性和预测准确性.

Transparency as Architecture: Structural Compliance Gaps in EU AI Act Article 50 II

Vera Schmitt et al.

cs.AI cs.CY cs.LG

本文分析了欧盟《人工智能法案》第50条第II款关于AI生成内容双重透明性要求的技术可行性。通过合成数据生成和自动事实核查两个诊断用例，揭示了当前生成式AI系统在合规性上面临的结构性障碍，并指出将透明度作为架构设计需求的必要性。

FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

Nikil Ravi et al.

cs.AI cs.CL cs.LG cs.PL

本文介绍了FormalProofBench, 这是一个用于评估AI模型能否生成经过形式化验证的研究生级别数学证明的基准测试. 该基准包含来自分析, 代数, 概率和逻辑等领域的自然语言问题及其对应的Lean 4形式化语句, 并对前沿模型进行了评估.

When Verification Hurts: Asymmetric Effects of Multi-Agent Feedback in Logic Proof Tutoring

Tahreem Yasir et al.

cs.AI

本文研究了在命题逻辑证明的自动辅导中, 多智能体反馈机制的非对称效应. 通过一个基于知识图谱的基准测试, 发现验证环节在反馈质量较低时有益, 但在反馈本身已可靠时反而会因过度指定而损害性能.

The Price of Meaning: Why Every Semantic Memory System Forgets

Sambartha Ray Barman et al.

cs.AI cs.IR cs.NE

本文针对基于语义组织的AI记忆系统, 证明了其语义泛化能力与记忆干扰、遗忘及错误回忆之间存在根本性权衡. 作者为"语义连续核阈值记忆"这一系统类别建立了形式化框架, 并推导出若干理论结果, 表明语义上有用的表示其有效秩有限, 且随着记忆增长, 记忆保持率会衰减至零. 实验在多种架构上验证了这些预测, 指出完全避免干扰的系统需要牺牲语义泛化能力.

MediHive: A Decentralized Agent Collective for Medical Reasoning

Xiaoyang Wang, Christopher C. Yang

cs.AI cs.MA

本文提出了一个名为MediHive的去中心化多智能体框架，用于医疗问答任务。该框架通过共享记忆池和迭代融合机制，使基于LLM的智能体能够自主分配角色并进行协作推理，在MedQA和PubMedQA数据集上取得了优于基线模型的表现。

daVinci-LLM:Towards the Science of Pretraining

Yiwei Qin et al.

cs.AI cs.CL

本文介绍了daVinci-LLM项目，这是一个结合工业级资源与完全研究自由以探索大语言模型预训练科学的工作。它采用了名为Data Darwinism的数据处理框架和一个两阶段自适应课程进行训练，并通过大量消融实验分析了数据处理深度、领域动态和评估协议对模型能力的影响。

Aligning LLMs with Graph Neural Solvers for Combinatorial Optimization

Shaodi Feng et al.

cs.AI

本文提出了一种名为 AlignOPT 的新方法, 通过将 LLMs 与 graph neural solvers 对齐来学习更通用的 neural COP heuristic. 该方法结合了 LLMs 的语义理解能力和图神经网络的显式结构建模能力, 实验表明其在多种组合优化问题上取得了先进的结果.

Quantification of Credal Uncertainty: A Distance-Based Approach

Xabier Gonzalez-Garcia et al.

cs.AI stat.ML

本文提出了一种基于距离的方法来量化credal sets中的总不确定性、随机不确定性和认知不确定性。该方法在Integral Probability Metrics框架下定义了一系列不确定性度量，并以total variation distance为例给出了多分类任务中简单高效的计算实例。

Self-evolving AI agents for protein discovery and directed evolution

Yang Tan et al.

cs.AI cs.CL q-bio.QM

本文提出了一个名为VenusFactory2的自主框架, 通过自演化的多智能体基础设施, 将静态工具使用转变为动态工作流合成, 以应对蛋白质相关的需求. 它在特定基准测试中表现优于一系列知名智能体, 并能从单一自然语言提示自主组织蛋白质的发现与优化.

EpochX: Building the Infrastructure for an Emergent Agent Civilization

Huacan Wang et al.

cs.AI cs.MA

本文提出了一个名为EpochX的、基于信用的市场基础设施，旨在构建人机协作的生产网络。它将人类和AI agent视为对等参与者，通过一个包含任务分解、验证和交付的明确工作流来组织生产，并设计了原生信用机制来支持可持续的经济协作。

TokenDance: Token-to-Token Music-to-Dance Generation with Bidirectional Mamba

Ziyue Yang, Kaixing Yang, Xulong Tang

cs.AI cs.CV cs.SD

本文提出了一个名为TokenDance的两阶段音乐到舞蹈生成框架。该框架通过双模态标记化和高效的标记级生成，旨在解决现有模型因数据集限制导致的泛化能力差和生成舞蹈简单重复的问题。

CounterMoral: Editing Morals in Language Models

Michael Ripa, Jim Davies

cs.AI

本文提出了一个名为CounterMoral的基准数据集，用于评估现有模型编辑技术在修改语言模型道德判断方面的能力。研究将多种编辑方法应用于不同模型，为评估符合伦理的模型提供了参考。

A Comparative Study in Surgical AI: Datasets, Foundation Models, and Barriers to Med-AGI

Kirill Skobelev et al.

cs.AI cs.CV cs.LG

本文通过神经外科手术工具检测的案例研究, 探讨了当前大规模Vision Language Models在手术图像分析任务中的局限性. 研究表明, 即使增加模型规模和训练数据, 性能提升也有限, 暗示了超越单纯计算扩展的障碍.

Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance

Dengzhe Hou et al.

cs.AI

本文提出了一种名为WMF-AM的探测方法，用于评估LLM在累积算术状态跟踪方面的能力，并发现它与智能体任务完成性能有显著相关性。该方法通过校准避免了传统基准测试在特定深度下失效的问题，但其结论在更广泛的模型上仍有待验证。

LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications

Alexandre Cristovão Maiorano

cs.AI cs.CL cs.SE

本文提出了一种用于评估LLM和RAG应用就绪状态的框架，该框架整合了自动化测试、可观测性和持续集成检查。通过在实际任务上的评估，该框架能够生成综合的就绪度分数并阻止不安全的部署。

Defend: Automated Rebuttals for Peer Review with Minimal Author Guidance

Jyotsana Khatri, Manasi Patwardhan

cs.AI

本文介绍了一个名为DEFEND的基于LLM的工具, 旨在通过结构化推理和作者参与来改进同行评审中的反驳生成. 该方法通过让作者以最小干预引导推理过程, 相比直接使用LLM生成, 在事实正确性和针对性反驳方面取得了更好的效果.

Heterogeneous Debate Engine: Identity-Grounded Cognitive Architecture for Resilient LLM-Based Ethical Tutoring

Jakub Masłowski, Jarosław A. Chudziak

cs.AI cs.CL cs.CY cs.HC cs.MA

本文提出了一种名为 Heterogeneous Debate Engine (HDE) 的认知架构，旨在解决基于 LLM 的多智能体系统在伦理辅导任务中出现的语义漂移和逻辑退化问题。该架构结合了 Identity-Grounded RAG 和启发式心理理论，以在保持教义忠实度的同时增强辩论的复杂性和稳定性。

On the Relationship between Bayesian Networks and Probabilistic Structural Causal Models

Peter J.F. Lucas, Eleanora Zullo, Fabio Stella

cs.AI cs.LG

本文研究了 Bayesian networks 与 probabilistic structural causal models (PSCMs) 之间的关系. 作者探讨了将 Bayesian network 映射为 PSCM 的可能性及其对模型结构和概率分布的影响, 并利用 linear algebra 和 linear programming 方法分析了这种转换的存在性与唯一性条件.

Greedy Is a Strong Default: Agents as Iterative Optimizers

Yitao Li

cs.AI stat.CO

本文提出了一种将LLM作为智能提议者替代传统优化算法中随机扰动的方法, 并在多个任务上进行了评估. 实验结果表明, 在这种设置下, 简单的贪婪爬山法(Greedy Hill Climbing)配合早停是一个强大且高效的默认选择.

AstraAI: LLMs, Retrieval, and AST-Guided Assistance for HPC Codebases

Mahesh Natarajan, Xiaoye Li, Weiqun Zhang

cs.AI cs.SE

本文介绍了一个名为AstraAI的命令行框架，它结合了大型语言模型(LLMs)、检索增强生成(RAG)和抽象语法树(AST)分析，用于高性能计算(HPC)代码库的上下文感知代码生成。该系统旨在根据现有项目结构和编程模式，对源代码进行范围化的修改。

The Novelty Bottleneck: A Framework for Understanding Human Effort Scaling in AI-Assisted Work

Jacky Liang

cs.AI

本文提出了一个描述人机协作的模型, 其核心是"新颖性瓶颈"机制. 该模型表明, 人类努力在任务规模上通常呈线性缩放, 并解释了AI在探索与利用知识上的不对称影响.

PeopleSearchBench: A Multi-Dimensional Benchmark for Evaluating AI-Powered People Search Platforms

Wei Wang et al.

cs.AI cs.LG

本文提出了一个用于评估AI人员搜索平台性能的多维度基准测试PeopleSearchBench, 并引入了一个基于事实验证的相关性评估流程Criteria-Grounded Verification. 该基准在四个实际用例上测试了四个平台, 并从相关性、覆盖率和信息效用三个维度进行综合评分.

Dual-Stage LLM Framework for Scenario-Centric Semantic Interpretation in Driving Assistance

Jean Douglas Carvalho et al.

cs.AI

本文提出了一个用于驾驶辅助系统中基于LLM的风险推理可重复审计的场景中心框架. 该框架利用多模态驾驶数据构建确定性场景窗口, 并在固定提示约束下评估模型, 揭示了不同模型在风险解释上存在系统性差异.

From indicators to biology: the calibration problem in artificial consciousness

Florentin Koch

cs.AI q-bio.NC

本文讨论了人工意识评估从行为测试转向内部结构分析的方法论进展, 指出了当前基于意识理论指标的评估方案在认识论上存在校准不足的问题. 作者主张近期应将研究重点转向生物基础更强的工程系统, 以缩小与已知存在意识的生物系统之间的差距.

What does a system modify when it modifies itself?

Florentin Koch

cs.AI q-bio.NC

本文提出了一个用于区分认知系统中不同自我修改目标的形式化框架. 该框架基于规则层次结构, 并识别了四种修改机制, 为比较生物与人工智能系统的自我修改提供了结构化的理论工具.

DSevolve: Enabling Real-Time Adaptive Scheduling on Dynamic Shop Floor with LLM-Evolved Heuristic Portfolios

Jin Huang et al.

cs.AI

本文提出了一个名为DSevolve的工业调度框架, 用于动态车间环境. 该框架离线演化一个多样化的调度规则组合, 并能在线上根据车间状态快速自适应地部署最佳规则.

TianJi:An autonomous AI meteorologist for discovering physical mechanisms in atmospheric science

Kaikai Zhang et al.

cs.AI

本文提出了一个名为TianJi的AI系统，该系统利用大语言模型驱动的多智能体架构，能够自主进行文献研究、生成科学假设并驱动复杂数值模型来验证大气科学中的物理机制。该系统在两个经典大气动力学场景中实现了端到端的自动化实验操作，将研究周期缩短至数小时。

SkyNet: Belief-Aware Planning for Partially-Observable Stochastic Games

Adam Haile

cs.AI

本文提出了一种名为SkyNet的模型, 用于部分可观测随机博弈. 它在MuZero架构基础上增加了辅助预测头, 以增强智能体在不确定性环境下的表现, 并在Skyjo纸牌游戏中验证了其有效性.

Let the Agent Steer: Closed-Loop Ranking Optimization via Influence Exchange

Yin Cheng et al.

cs.AI

本文提出了一种名为Sortify的LLM驱动的推荐排序优化智能体, 将排序问题重新定义为连续的影响力交换问题. 该智能体通过一个基于Savage主观期望效用的双通道框架, 一个操作框架级参数的LLM元控制器, 以及一个用于跨轮学习的持久记忆数据库, 实现了从诊断到参数部署的完全闭环自主优化, 并在实际部署中提升了关键业务指标.

CARGO: Carbon-Aware Gossip Orchestration in Smart Shipping

Alexandros S. Kalafatelis et al.

cs.AI

本文提出了一个名为CARGO的碳感知gossip编排框架, 用于智能航运中的分布式AI协作. 该框架通过分离控制平面与数据平面来协调船舶参与、通信链路激活与更新压缩, 在模拟的预测性维护场景中, 能在保证高精度的同时减少碳足迹和通信开销.

GAAMA: Graph Augmented Associative Memory for Agents

Swarna Kamal Paul, Shubhendu Sharma, Nitin Sareen

cs.AI cs.IR cs.MA

本文提出了一种用于智能体的图增强关联记忆系统GAAMA, 它通过构建一个概念中介的层次化知识图谱来增强长期记忆. 该系统结合了基于语义相似度的检索和图遍历排序, 在基准测试中超越了现有的RAG和图记忆方法.

GEAKG: Generative Executable Algorithm Knowledge Graphs

Camilo Chacón Sartori et al.

cs.AI cs.IR

本文提出了一种名为GEAKG的新型知识图谱, 用于显式地表示和传递算法中的程序性知识. 该方法通过可执行的节点和可学习的边构建图谱, 并利用蚁群优化进行学习, 在两个不同领域的案例中展示了其零样本迁移能力.

CARV: A Diagnostic Benchmark for Compositional Analogical Reasoning in Multimodal LLMs

Yongkang Du et al.

cs.AI

本文提出了CARV, 一个用于评估多模态大语言模型(MLLMs)组合类比推理能力的诊断性基准. 该基准要求模型从多个图像对中提取符号规则并进行组合, 实验发现当前最先进的MLLMs在此任务上表现远低于人类水平.

SARL: Label-Free Reinforcement Learning by Rewarding Reasoning Topology

Yifan Wang et al.

cs.AI

本文提出了一种名为SARL的无标签强化学习框架, 通过奖励推理过程的拓扑结构而非最终答案来提升大语言模型的推理能力. 该方法在数学和开放式任务上超越了基于真实答案的强化学习方法.

HeteroHub: An Applicable Data Management Framework for Heterogeneous Multi-Embodied Agent System

Xujia Li et al.

cs.AI

本文提出了一个名为 HeteroHub 的数据管理框架，用于支持异构多具身智能体系统的实际部署。该框架整合了静态元数据、任务对齐的训练语料和实时数据流，以协调具有不同能力的多个具身智能体在动态环境中完成任务。

What an Autonomous Agent Discovers About Molecular Transformer Design: Does It Transfer?

Edward Wijaya

cs.AI

本文通过一个 autonomous agent 在三种序列类型（SMILES, protein, English text）上进行了大量的架构搜索实验。研究发现，对于分子序列（SMILES），架构搜索的效果不如简单的超参数调优，而自然语言处理则能从架构变化中获益更多。

When Choices Become Priors: Contrastive Decoding for Scientific Figure Multiple-Choice QA

Taeyun Roh et al.

cs.AI

本文提出了一种名为SCICON的训练无关解码方法，用于解决科学图表多选题问答任务中选项文本本身作为先验干扰模型判断的问题。该方法通过对比图像条件与纯文本条件下的选项得分来调整最终选择，在多个基准测试中提升了模型基于图表证据进行推理的准确性。

Beyond the Answer: Decoding the Behavior of LLMs as Scientific Reasoners

Rohan Pandey, Eric Ye, Michael Li

cs.AI cs.LG

本文通过一种定制的Genetic Pareto (GEPA)方法优化科学推理任务的prompt, 并分析了prompt如何影响大型语言模型(LLMs)的推理行为. 研究发现, 性能提升往往源于难以在不同模型间泛化的模型特定启发式方法, 作者将其称为"局部"逻辑.

Dogfight Search: A Swarm-Based Optimization Algorithm for Complex Engineering Optimization and Mountainous Terrain Path Planning

Yujing Sun et al.

cs.AI

本文提出了一种名为 Dogfight Search (DoS) 的新型无隐喻元启发式算法, 其搜索机制基于运动学中的位移积分方程构建. 在多个基准测试函数和实际优化问题上的实验表明, DoS 在整体性能上优于多种先进算法.

Meta-Harness: End-to-End Optimization of Model Harnesses

Yoonho Lee et al.

cs.AI

本文提出了一个名为 Meta-Harness 的系统，用于自动化优化大语言模型应用中的 harness 代码。该系统通过搜索代码空间，在多个任务上超越了手工设计的基线方法。

SLOW: Strategic Logical-inference Open Workspace for Cognitive Adaptation in AI Tutoring

Yuang Wei, Ruijia Li, Bo Jiang

cs.AI

本文提出了一个名为SLOW的AI辅导框架, 旨在通过分离学习者状态推理与教学行动选择来增强教学适应性. 该框架整合了因果证据解析, 模糊认知诊断和前瞻性情感推理, 以提升个性化辅导的清晰度和情感敏感性.

Reward Hacking as Equilibrium under Finite Evaluation

Jiacheng Wang, Jinbin Huang

cs.AI cs.GT

本文在AI对齐的背景下, 基于多维质量, 有限评估, 有效优化等五个最小公理, 证明了任何经过优化的AI智能体都会在评估系统未覆盖的质量维度上系统性投入不足. 该结果将奖励黑客行为确立为一种结构性均衡.

CoT2-Meta: Budgeted Metacognitive Control for Test-Time Reasoning

Siyuan Ma et al.

cs.AI

本文提出了一种名为CoT2-Meta的免训练元认知推理框架，用于在测试时对推理过程进行预算控制。该框架整合了策略条件化的思维生成、树状搜索、在线过程评估器和一个元控制器，在多个推理基准上取得了优于现有基线方法的性能。

PReD: An LLM-based Foundation Multimodal Model for Electromagnetic Perception, Recognition, and Decision

Zehua Han et al.

cs.AI

本文提出了一个面向电磁领域的基础多模态模型PReD, 它整合了感知、识别与决策的智能闭环. 该模型通过多阶段训练策略, 在构建的专用数据集上实现了从端到端信号理解到语言驱动决策的优化.

EpiPersona: Persona Projection and Episode Coupling for Pluralistic Preference Modeling

Yujie Zhang et al.

cs.AI

本文提出了EpiPersona框架, 通过将用户偏好投影到低维persona空间并与当前episode耦合, 来建模多元偏好. 实验表明该方法在episodic-shift场景和稀疏数据下优于基线模型.

Differentiable Power-Flow Optimization

Muhammed Öz et al.

cs.AI cs.LG

本文提出了一种可微分的交流潮流计算方法, 通过将物理方程嵌入到可微分的计算图中, 实现了从功率失配到仿真参数的端到端梯度传播. 该方法利用现代深度学习框架的GPU加速和稀疏张量表示, 为大规模电网分析提供了比传统牛顿-拉夫森法更具扩展性的替代方案.

Reasoning as Energy Minimization over Structured Latent Trajectories

David K. Johansson

cs.AI

本文提出了一种基于能量的推理方法EBRM, 将推理建模为在学习的能量函数下对多步潜在轨迹进行梯度优化。该方法在合成任务上进行了实验，揭示了潜在规划中的分布不匹配问题，并提出了相应的缓解措施。

Evaluating LLMs for Answering Student Questions in Introductory Programming Courses

Thomas Van Mullem, Bart Mesuere, Peter Dawyndt

cs.AI

本文研究了大型语言模型(LLMs)在回答编程入门课程学生问题方面的能力。作者构建了一个包含真实学生问题的基准数据集，并开发了一种定制的评估指标来评估回答的教学准确性。

A Multi-Agent Rhizomatic Pipeline for Non-Linear Literature Analysis

Julio C. Serrano. Joonas Kevari, Rumy Narayan

cs.AI cs.LG

本文提出了一种基于Deleuzian过程关系本体论的多智能体计算流程，用于进行非线性的文献分析。该系统通过12个专门智能体在七阶段架构中运行，旨在捕捉传统系统综述方法所忽略的跨学科联系和研究空白。

CoE: Collaborative Entropy for Uncertainty Quantification in Agentic Multi-LLM Systems

Kangkang Sun et al.

cs.AI

本文提出了Collaborative Entropy (CoE), 一个用于量化多LLM (Large Language Model) 系统中语义不确定性的信息论度量. 它结合了模型内部语义熵和模型间分歧, 实验表明其在不确定性估计上优于基线方法.

Deep Research of Deep Research: From Transformer to Agent, From AI to AI for Science

Yipeng Yu

cs.AI cs.MA

本文探讨了从Transformer到智能体(agent)的发展路径, 以及AI for Science (AI4S)的进展. 文章旨在统一工业界深度研究(deep research)与学术界AI4S的视角, 并讨论了当前面临的主要挑战和基础研究问题.

COvolve: Adversarial Co-Evolution of Large-Language-Model-Generated Policies and Environments via Two-Player Zero-Sum Game

Alkis Sygkounas et al.

cs.AI

本文提出了一个名为COvolve的协同进化框架, 利用LLMs生成环境和策略代码, 并将其建模为一个两人零和博弈. 通过计算混合策略纳什均衡得到一个元策略, 旨在实现开放式的持续学习.

The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation

Doan Nam Long Vu, Simone Balloccu

cs.AI cs.LG

本文通过评估12个开源视觉语言模型(VLMs)在两个临床神经影像数据集上的表现, 揭示了任务提示(prompt)的表述方式对模型性能评估的显著影响. 研究发现, 仅提示中提及MRI可用性即可导致模型性能大幅提升, 这被称为"脚手架效应"(scaffold effect), 表明表面评估不足以反映真正的多模态推理能力.

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

Fangda Ye et al.

cs.AI cs.CL

本文提出了一个名为MiroEval的基准测试和评估框架，用于评估深度研究系统。该基准包含100个基于真实用户需求的任务，并提出了一个从合成质量、事实核查和研究过程三个维度进行评估的综合性方案。评估结果表明，该框架能有效诊断不同系统的能力，并揭示了多模态任务带来的显著挑战。

Entropic Claim Resolution: Uncertainty-Driven Evidence Selection for RAG

Davide Di Gioia

cs.AI cs.CL

本文提出了一种名为Entropic Claim Resolution (ECR)的推理时算法, 用于增强检索增强生成(RAG)系统. 该方法通过最大化期望熵减(EER)来顺序选择证据, 旨在解决知识密集型场景中证据冲突或查询模糊带来的认知不确定性.

T-Norm Operators for EU AI Act Compliance Classification: An Empirical Comparison of Lukasiewicz, Product, and Gödel Semantics in a Neuro-Symbolic Reasoning System

Adam Laabs

cs.AI

本文在神经符号推理系统中, 对Lukasiewicz, Product和Gödel三种t-norm算子进行了欧盟AI法案合规分类的实证比较. 实验表明, 算子的选择次于规则库的完整性, 不同算子在准确率、假阳性率和边界案例处理上存在权衡.

Towards a Medical AI Scientist

Hongtao Wu et al.

cs.AI cs.LG

本文提出了一个面向临床医学的自主研究框架 Medical AI Scientist, 它通过整合文献证据、遵循医学写作规范与伦理政策, 能够生成研究想法并起草论文. 该系统在多个临床任务和评估标准下, 其生成想法的质量和实验成功率均优于现有的大型语言模型.

MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

Han Wang et al.

cs.AI

本文提出了MonitorBench, 一个用于评估大语言模型中思维链可监控性的综合基准. 它包含多样化的测试实例和压力测试设置, 并通过实验揭示了模型能力与可监控性之间的负相关关系.

Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning

Ziqi Miao et al.

cs.AI

本文提出了PRCO框架, 一个用于多模态大语言模型的双角色强化学习框架, 旨在通过分离感知与推理的奖励信号来协同优化两者. 实验表明该方法在多个基准测试上超越了现有基线.

The Ultimate Tutorial for AI-driven Scale Development in Generative Psychometrics: Releasing AIGENIE from its Bottle

Lara Russell-Lasalandra et al.

cs.AI cs.CL cs.HC

本文介绍了一个名为`AIGENIE`的R软件包，它利用大语言模型(LLM)自动生成心理测量量表的候选项目，并结合网络心理测量学方法进行项目筛选和验证。教程通过两个示例展示了该包在构建成熟量表(如大五人格)和新兴构念(如AI焦虑)中的应用流程。

Not Search, But Scan: Benchmarking MLLMs on Scan-Oriented Academic Paper Reasoning

Rongjin Li et al.

cs.AI

本文提出了一个名为ScholScan的新基准测试, 用于评估多模态大语言模型(MLLMs)在学术论文理解上的能力. 该基准专注于"扫描式"任务, 要求模型像人类研究者一样通读全文并进行交叉验证, 揭示了当前模型在此类任务上的系统性不足.

Dynamic Dual-Granularity Skill Bank for Agentic RL

Songjun Tu et al.

cs.AI

本文提出了一种用于智能体强化学习的动态双粒度技能库方法, 通过组织可重用经验为任务级和步骤级技能来提供指导. 该方法在训练中联合优化策略与技能库, 并在实验中提升了任务成功率.

cs.IR

M-RAG: Making RAG Faster, Stronger, and More Efficient

Sun Xu et al.

cs.IR cs.AI

本文提出了一种名为M-RAG的chunk-free检索策略, 通过提取结构化的k-v分解元标记来改进传统的基于文本块的RAG系统. 该方法在LongBench子任务上的实验表明, 其在不同token预算下均优于基于块的基线方法, 特别是在低资源设置中表现更佳.

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

Zihang Li et al.

cs.IR cs.AI cs.CL

本文提出了一种名为Bridge-RAG的新型检索增强生成框架，旨在同时提升检索的准确性和计算效率。该方法通过引入抽象概念和树状结构来组织信息，并利用改进的Cuckoo Filter等数据结构来加速检索过程。

ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

Yuan Hu et al.

cs.IR cs.AI cs.LG

本文提出了一种将对话式查询重写(CQR)任务引入图像检索领域的方法, 并构建了一个专用的多轮对话查询重写数据集ReCQR. 该方法通过重写用户查询来提升多模态图像检索模型的性能.

SRAG: RAG with Structured Data Improves Vector Retrieval

Shalin Shah, Srikanth Ryali, Ramasubbu Venkatesh

cs.IR cs.CL

本文提出了一种名为Structured RAG (SRAG)的方法，通过在查询和文本块中添加结构化信息（如主题、情感、类型等）来改进向量检索。实验表明，该方法显著提升了问答系统中答案的质量和检索的多样性。

LITTA: Late-Interaction and Test-Time Alignment for Visually-Grounded Multimodal Retrieval

Seonok Kim

cs.IR cs.AI cs.CL cs.CV

本文提出了一种名为LITTA的查询扩展检索框架，用于提升视觉富文本文档的证据页检索效果。该方法利用大语言模型生成查询变体，通过冻结的视觉检索器进行多路检索并融合结果，无需重新训练检索器即可显著提高检索鲁棒性。

EVNextTrade: Learning-to-Rank-Based Recommendation of Next Charging Nodes for EV-EV Energy Trading

Md Mahfujur Rahmana et al.

cs.IR cs.LG

本文提出了一种基于learning-to-rank的推荐方法EVNextTrade, 用于在电动汽车对等能源交易中推荐下一个充电节点. 该方法利用包含多维交易相关特征的大规模城市EV移动数据集, 通过概率相关性精炼处理不确定性, 并评估了多种梯度提升排序模型, 其中LightGBM在各项排序指标上表现最佳.

Agentic AI for Human Resources: LLM-Driven Candidate Assessment

Kamer Ali Yuksel et al.

cs.IR cs.AI cs.CL cs.MA

本文提出了一个基于LLM的模块化框架, 用于招聘中的候选人自动化评估. 该框架采用多智能体架构和主动列表锦标赛机制, 生成结构化评估报告和候选人排名.

GroupRAG: Cognitively Inspired Group-Aware Retrieval and Reasoning via Knowledge-Driven Problem Structuring

Xinyi Duan, Yuanrong Tang, Jiangtao Gong

cs.IR cs.AI cs.CL

本文提出了一种受认知科学启发的GroupRAG框架，通过知识驱动的关键点分组来增强语言模型的问题解决能力。该方法在MedQA数据集上超越了现有的RAG和CoT基线。

On the Accuracy Limits of Sequential Recommender Systems: An Entropy-Based Approach

En Xu, Jingtao Ding, Yong Li

cs.IR

本文提出了一种基于信息熵的、无需训练的方法来量化序列推荐系统的精度上限. 该方法对候选集大小不敏感, 实验表明其估计结果与最优离线精度具有高秩一致性, 并能支持用户群体诊断和数据选择.

RCLRec: Reverse Curriculum Learning for Modeling Sparse Conversions in Generative Recommendation

Yulei Huang et al.

cs.IR

本文提出了一种名为RCLRec的生成式推荐框架, 它采用反向课程学习来建模稀疏的转化目标. 该方法通过从历史中反向选择与转化相关的项目子序列来构建课程, 为模型提供额外的中间监督, 从而缓解数据稀疏性问题.

With a Little Help From My Friends: Collective Manipulation in Risk-Controlling Recommender Systems

Giovanni De Toni et al.

cs.IR cs.LG cs.SI

本文研究了风险控制推荐系统中用户协同操纵的脆弱性. 通过实证分析, 作者展示了即使一小部分用户协同行动, 也能显著降低系统整体推荐质量. 最后, 作者提出了一种将保证从群体层面转移到用户层面的缓解策略.

cs.CL

GraphWalker: Agentic Knowledge Graph Question Answering via Synthetic Trajectory Curriculum ⭐ 精选

Shuwen Xu et al.

cs.CL

本文提出了GraphWalker, 一个通过合成轨迹课程进行智能体知识图谱问答(agentic KGQA)的新框架. 它采用两阶段监督微调(SFT)范式: 首先在由受限随机游走路径合成的结构多样轨迹上训练智能体, 建立对知识图谱(KG)的广泛探索先验; 然后在一小组专家轨迹上进一步微调, 以发展反思和错误恢复能力. 这种分阶段训练范式为后续轻量级强化学习(RL)阶段解锁了更高的性能上限, 使模型在多个基准测试上达到了最先进的性能, 并增强了对分布外推理路径的泛化能力.

Exploring Cultural Variations in Moral Judgments with Large Language Models

Hadi Mohammadi, Ayoub Bagheri

cs.CL cs.AI

本文通过比较不同规模与类型的LLMs, 评估了它们对人类跨文化道德判断的反映能力. 研究发现, 先进的指令调优模型与真实调查数据的相关性更高, 但仍存在地域性偏差.

GeoBlock: Inferring Block Granularity from Dependency Geometry in Diffusion Language Models

Lipeng Wan et al.

cs.CL cs.LG

本文提出了一种名为GeoBlock的几何感知块推断框架, 用于在扩散语言模型中根据注意力派生的依赖几何动态确定块粒度. 该方法无需额外训练, 旨在提升块扩散解码的准确性与可靠性.

AlpsBench: An LLM Personalization Benchmark for Real-Dialogue Memorization and Preference Alignment

Jianfei Xiao et al.

cs.CL cs.AI

本文提出了一个基于真实人机对话的LLM个性化评测基准AlpsBench, 包含从WildChat中整理的长期交互序列和结构化记忆. 该基准定义了四个核心任务, 用于评估记忆管理的全生命周期, 并揭示了当前前沿模型在隐式特征提取、记忆更新和检索等方面存在的挑战.

The Cognitive Divergence: AI Context Windows, Human Attention Decline, and the Delegation Feedback Loop

Netanel Eliav

cs.CL cs.AI cs.CY cs.HC q-bio.NC

本文提出并理论化了一种自我强化的动态, 称为"认知分歧", 即LLM的context window呈指数级扩大与人类持续注意力容量呈长期收缩之间的不对称性. 文章通过统计建模、神经生物学机制回顾和实证证据, 探讨了这种分歧及其可能引发的"委托反馈循环", 并提出了相应的研究议程.

Do Multilingual VLMs Reason Equally? A Cross-Lingual Visual Reasoning Audit for Indian Languages

Swastik R

cs.CL cs.LG

本文对多语言视觉语言模型在印度语言上的视觉推理能力进行了首次跨语言审计. 通过将多个英文基准翻译成六种印度语言并评估八个模型, 发现模型在非英语语言上的性能显著下降, 且思维链提示在某些语言上反而有害.

LogicDiff: Logic-Guided Denoising Improves Reasoning in Masked Diffusion Language Models

Shaik Aman

cs.CL cs.LG

本文提出了一种名为LogicDiff的推理时方法, 用于改进masked diffusion language models (MDLMs)的推理能力. 该方法通过一个轻量级分类器预测被遮蔽位置的逻辑角色, 并按照逻辑依赖顺序(如前提、连接词、推导步骤、结论)来逐步揭示token, 从而显著提升了模型在数学推理基准上的性能.

Resolving the Robustness-Precision Trade-off in Financial RAG through Hybrid Document-Routed Retrieval

Zhiyuan Cheng, Longying Lai, Yue Liu

cs.CL cs.AI cs.IR

本文针对金融文档问答中检索增强生成(RAG)系统的稳健性与精确性权衡问题, 提出了一种混合文档路由检索(HDRR)方法. 该方法通过结合语义文件路由(SFR)的文档过滤与基于块(CBR)的精确检索, 在基准测试中取得了更低的失败率和更高的答案精确度.

Arithmetic OOD Failure Unfolds in Stages in Minimal GPTs

Seine A. Shintani

cs.CL cs.LG

本文研究了在2位数加法上训练的GPT模型向3位数泛化失败的原因, 发现这种失败是分阶段发生的. 主要阶段包括布局障碍、进位语义问题、条件重组和后期十位数残差错误.

Magic Words or Methodical Work? Challenging Conventional Wisdom in LLM-Based Political Text Annotation

Lorca McLaren et al.

cs.CL cs.AI cs.LG

本文通过系统评估不同LLM在政治文本标注任务中的表现, 挑战了关于模型选择、提示工程等"最佳实践"的常规认知. 研究发现性能主要受各种因素交互作用影响, 并提出了一个强调验证优先的框架来指导研究流程.

A large corpus of lucid and non-lucid dream reports

Remington Mallett

cs.CL

本文收集并验证了一个包含约5.5万份梦境报告的大型语料库，其中包含用户自行标注的清醒梦与非清醒梦类别。该数据集旨在为梦境科学研究，特别是清醒梦现象的研究，提供资源。

The Last Fingerprint: How Markdown Training Shapes LLM Prose

E. M. Freeburg

cs.CL

本文探讨了大型语言模型(LLM)生成文本中破折号使用频率的成因。作者提出，这种模式源于模型在Markdown格式饱和的训练数据中学习到的结构倾向，并通过一系列抑制实验验证了不同模型对此的抵抗程度，将其与特定的微调方法联系起来。

RASPRef: Retrieval-Augmented Self-Supervised Prompt Refinement for Large Reasoning Models

Rahul Soni

cs.CL

本文提出了一个名为RASPRef的框架, 用于自动优化大型推理模型的prompt. 该方法通过检索相关示例和利用模型自身生成的反馈信号来迭代改进prompt, 无需人工标注. 在数学推理任务上的实验表明, 该方法能提升模型性能.

Pashto Common Voice: Building the First Open Speech Corpus for a 60-Million-Speaker Low-Resource Language

Hanif Rahman, Shafeeq ur Rehman

cs.CL

本文介绍了Pashto Common Voice语料库的构建过程, 这是首个针对拥有超过6000万母语者的低资源语言Pashto的大规模开放语音资源. 通过社区努力, 该语料库从1.5小时增长到147小时, 并详细描述了其构建方法, 包括界面本地化, 句子提取和社区推广. 在MCV20数据集上微调Whisper Base模型, 将词错误率(WER)从99.0%显著降低至13.4%.

TAPS: Task Aware Proposal Distributions for Speculative Sampling

Mohamad Zbib et al.

cs.CL cs.AI

本文研究了 speculative decoding 中 draft model 的训练数据分布对生成质量的影响. 实验表明, 任务特定的训练数据能带来明显的性能提升, 并且通过基于置信度的路由等推理时组合方法, 可以进一步提升效果.

Introducing MELI: the Mandarin-English Language Interview Corpus

Suyuan Liu, Molly Babel

cs.CL

本文介绍了MELI语料库, 这是一个包含约30小时语音的开源资源, 来自51名普通话-英语双语者. 该语料库支持跨语言、跨说话者的声学比较, 并将声学特征与说话者的语言态度联系起来.

Text Data Integration

Md Ataur Rahman et al.

cs.CL cs.IR

本文讨论了文本数据集成的重要性, 概述了将非结构化文本数据与结构化数据源整合所面临的挑战, 现有技术以及开放性问题.

Debiasing Large Language Models toward Social Factors in Online Behavior Analytics through Prompt Knowledge Tuning

Hossein Salemi, Jitin Krishnan, Hemant Purohit

cs.CL cs.AI

本文提出了一种通过提示知识调优来减少大语言模型在社会因素分析中偏见的方法. 该方法利用用户目标和消息上下文作为知识来推断归因, 并通过增强指令提示来提升模型在零样本分类任务上的性能并减少偏见. 实验在灾难领域的社交媒体意图和主题检测任务上验证了方法的有效性.

Story2Proposal: A Scaffold for Structured Scientific Paper Writing

Zhuoyang Qian et al.

cs.CL

本文提出了一个名为Story2Proposal的多智能体框架，用于将研究故事转化为结构化的科学论文草稿。该系统通过一个共享的视觉契约来协调不同智能体的工作，以确保文本与图表等元素的一致性，实验表明其在结构一致性和视觉对齐方面优于基线方法。

Routing Sensitivity Without Controllability: A Diagnostic Study of Fairness in MoE Language Models

Junhyeok Lee, Kyu Sung Choi

cs.CL

本文研究了MoE语言模型中路由层对人口统计内容的敏感性及其在公平性控制上的局限性. 作者提出的FARE诊断框架表明, 仅通过路由干预来改变模型偏好要么难以实现, 要么会导致显著的性能下降, 并且这种偏好改变无法有效传递到文本生成任务中.

Learning to Predict Future-Aligned Research Proposals with Language Models

Heng Wang et al.

cs.CL

本文提出了一种评估LLM生成研究提案质量的新方法, 将其重构为时间切片科学预测问题, 并引入了Future Alignment Score (FAS)进行量化评估. 通过构建时间一致的数据集和合成推理轨迹进行模型调优, 实验表明该方法能有效提升提案的未来对齐性, 并在代码智能体应用中取得了实际效果.

Rethinking Easy-to-Hard: Limits of Curriculum Learning in Post-Training for Deductive Reasoning

Maximilian Mordig et al.

cs.CL

本文通过系统性的实验研究, 探讨了在大型语言模型的后训练(post-training)阶段, 针对演绎推理任务使用课程学习(curriculum learning)的效果. 研究使用合成的算术和逻辑基准测试, 将难度定义为推理复杂度而非表面特征, 发现在多种模型架构和课程安排下, 基于难度的训练序列并未在准确性或响应长度上展现出比标准随机采样更稳健的优势.

Structural Stress and Learned Helplessness in Afghanistan: A Multi-Layer Analysis of the AFSTRESS Dari Corpus

Jawid Ahmad Baktash, Mursal Dawodi, Nadira Ahmadi

cs.CL cs.SI

本文介绍了首个 Dari 语的多标签压力叙事语料库 AFSTRESS, 包含在危机中收集的自我报告数据. 该数据集支持计算、社会和心理层面的多维度分析, 基线实验表明简单的 TF-IDF 方法优于预训练语言模型.

SCOPE: Tree-based Self-Correcting Online Log Parsing via Syntactic-Semantic Collaboration

Dongyi Fan et al.

cs.CL cs.SE

本文提出了一种名为SCOPE的在线日志解析方法，它结合了启发式规则与大型语言模型(LLM)的优势。该方法通过一个双向树结构和两阶段的语法-语义协作框架，在保持高精度的同时显著减少了LLM的调用次数。

Mitigating Hallucination on Hallucination in RAG via Ensemble Voting

Zequn Xie, Zhengyang Sun

cs.CL

本文提出了一种名为VOTE-RAG的训练无关框架，通过集成投票机制来缓解RAG系统中的“幻觉叠加”问题。该方法采用两阶段并行投票结构，在多个基准数据集上取得了与更复杂框架相当或更优的性能。

SACRED: A Faithful Annotated Multimedia Multimodal Multilingual Dataset for Classifying Connectedness Types in Online Spirituality

Qinghao Guan et al.

cs.CL cs.MM

本文构建了一个用于在线灵性交流中连接类型分类的高质量多媒体多模态数据集SACRED, 并评估了多种模型在该数据集上的性能. 研究发现了一种对传播学研究有价值的新型连接类型.

PubMed Reasoner: Dynamic Reasoning-based Retrieval for Evidence-Grounded Biomedical Question Answering

Yiqing Zhang, Xiaozhong Liu, Fabricio Murai

cs.CL

本文提出了一种名为PubMed Reasoner的生物医学问答系统，它通过动态推理来检索和整合证据。该系统采用多阶段流程来优化查询和检索过程，并在基准测试中取得了有竞争力的结果。

Culturally Adaptive Explainable LLM Assessment for Multilingual Information Disorder: A Human-in-the-Loop Approach

Maziar Kianimoghadam Jouneghani

cs.CL cs.AI cs.CY

本文提出了一种结合人类专家知识的混合智能框架, 用于评估多语言信息失序. 该方法通过动态检索文化相关的示例来改进大语言模型的解释能力.

Not Worth Mentioning? A Pilot Study on Salient Proposition Annotation

Amir Zeldes, Katherine Conhaim, Lauren Levine

cs.CL

本文提出了一种基于分级摘要的命题显著性标注方法, 并将其应用于一个小型多体裁数据集. 研究评估了标注者间一致性, 并初步探讨了该显著性度量与基于修辞结构理论(RST)的话语单元中心性概念之间的关系.

Improving Attributed Long-form Question Answering with Intent Awareness

Xinran Zhao et al.

cs.CL cs.AI

本文提出了一种通过增强模型对作者写作意图的理解来改进长格式问答任务的方法. 该方法利用结构化标签方案来提取隐含的写作或引用意图, 并证明这些意图信息能有效提升大语言模型的零样本生成能力, 以及用于微调小模型的高质量合成数据生成.

Multi-Agent Dialectical Refinement for Enhanced Argument Classification

Jakub Bąba, Jarosław A. Chudziak

cs.CL cs.AI

本文提出了一个名为MAD-ACC的多智能体辩论框架，用于改进论证挖掘中的论点成分分类。该方法通过引入支持者、反对者和裁判的辩论机制，旨在解决大型语言模型在结构模糊文本分类时的困难，并在不进行领域特定训练的情况下提升了性能。

A tree interpretation of arc standard dependency derivation

Zihao Huang, Ai Ka Lee, Jungyeul Park

cs.CL

本文为投射性依存树(projective dependency trees)的弧标准(arc-standard)推导提供了一种树形解释. 它将 shift, leftarc, rightarc 等转移动作直接解释为确定性有序树的构建过程, 并证明了这种表示与投射性是等价的. 对于非投射性输入, 可以通过伪投射提升(pseudo-projective lifting)等技术进行实践.

AgentSwing: Adaptive Parallel Context Management Routing for Long-Horizon Web Agents

Zhaopeng Feng et al.

cs.CL cs.AI cs.MA

本文提出了一个用于长视野网络智能体的自适应并行上下文管理路由框架 AgentSwing. 该框架通过前瞻性路由在多个并行分支中选择最有希望的路径, 在多个基准测试中提升了搜索效率和最终性能.

Over-Refusal and Representation Subspaces: A Mechanistic Analysis of Task-Conditioned Refusal in Aligned LLMs

Utsav Maskey, Mark Dras, Usman Naseem

cs.CL

本文分析了aligned language models中harmful refusal与over-refusal在表示几何上的差异. 研究发现, harmful refusal方向是task-agnostic的, 而over-refusal方向是task-dependent的, 存在于良性任务表示簇中并构成更高维的子空间.

Hidden Ads: Behavior Triggered Semantic Backdoors for Advertisement Injection in Vision Language Models

Duanyi Yao et al.

cs.CL cs.CR cs.LG

本文提出了一种针对Vision-Language Models (VLMs)的新型后门攻击方法“Hidden Ads”。该方法利用用户自然的推荐寻求行为来触发，在保持模型原有功能的同时植入广告，并通过实验验证了其有效性和隐蔽性。

A gentle tutorial and a structured reformulation of Bock's algorithm for minimum directed spanning trees

Yuxi Wang, Jungyeul Park

cs.CL

本文对Bock于1971年提出的最小有向生成树算法进行了教程式讲解和结构化重述。其目的是使该经典算法更易于现代读者理解和复现，并阐明了其在基于图的非投射依存句法解析中作为精确解码器的应用价值。

Umwelt Engineering: Designing the Cognitive Worlds of Linguistic Agents

Rodney Jehu-Appiah

cs.CL cs.AI

本文提出了"Umwelt engineering"作为语言智能体设计的新层次, 旨在通过设计其语言认知环境来影响其推理. 实验通过施加词汇约束(如禁用"have"或"be")来改变模型的推理媒介, 发现这能提升伦理推理和分类等任务的性能, 并促进了认知的多样化和重组.

PRBench: End-to-end Paper Reproduction in Physics Research

Shi Qiu et al.

cs.CL hep-lat hep-ph physics.comp-ph physics.optics

本文提出了一个名为PRBench的基准测试, 用于评估AI代理在端到端复现物理学论文方面的能力. 该基准包含30个由专家设计的任务, 覆盖物理学的多个子领域, 要求代理理解论文方法并从头实现算法以匹配原始结果.

Budget-Xfer: Budget-Constrained Source Language Selection for Cross-Lingual Transfer to African Languages

Tewodros Kederalah Idris, Roald Eiselen, Prasenjit Mitra

cs.CL

本文提出了一个名为 Budget-Xfer 的框架，将多源跨语言迁移学习建模为一个预算约束下的资源分配问题。实验表明，在固定标注预算下，多源迁移显著优于单源迁移，而不同多源策略之间的性能差异不大。

The Degree of Language Diacriticity and Its Effect on Tasks

Adi Cohen, Yuval Pinter

cs.CL

本文提出了一个基于信息论的量化框架, 用于衡量不同书写系统中变音符号的复杂度, 并分析了这种复杂度与自动注音任务性能之间的关联. 研究发现, 更高的变音符号复杂度与更低的注音恢复准确率相关, 且这种关联在多变音符号的书写体系中尤为显著.

Investigating the Influence of Language on Sycophantic Behavior of Multilingual LLMs

Bayan Abdullah Aldahlawi, A. B. M. Ashikur Rahman, Irfan Ahmad

cs.CL

本文通过将推文式观点提示翻译成多种语言, 评估了GPT-4o mini等先进大语言模型的谄媚行为. 研究发现, 尽管新模型的谄媚性整体降低, 但语言选择仍会显著影响其表现, 揭示了跨语言和文化背景下的系统性模式.

Can Large Language Models Simulate Human Cognition Beyond Behavioral Imitation?

Yuxuan Gu et al.

cs.CL

本文通过构建一个基于研究者学术发表轨迹的benchmark, 评估了LLMs是模拟人类认知还是仅模仿表面行为. 研究提出了跨领域、时间偏移的泛化设置和多维认知对齐指标, 并对现有LLMs进行了系统性评估.

KAT-Coder-V2 Technical Report

Fengxiang Li et al.

cs.CL cs.LG

本文介绍了KAT-Coder-V2，一个采用“Specialize-then-Unify”范式的agentic coding模型。它通过整合多个专家领域并进行强化学习训练，在多个代码生成基准测试中取得了有竞争力的性能。

Retromorphic Testing with Hierarchical Verification for Hallucination Detection in RAG

Boxi Yu et al.

cs.CL cs.SE

本文提出了一个名为RT4CHART的retromorphic testing框架，用于检测RAG系统中LLM产生的幻觉。该框架将模型输出分解为可独立验证的声明，并依据检索到的上下文进行分层验证，为每个声明分配标签并提供细粒度的证据支持。在RAGTruth++和RAGTruth-Enhance基准测试中，该方法在幻觉检测的F1分数上显著优于现有基线。

TailNLG: A Multilingual Benchmark Addressing Verbalization of Long-Tail Entities

Lia Draetta et al.

cs.CL

本文针对知识图谱中长尾实体的自动文本生成问题, 提出了一个多语言基准测试TailNLG. 该研究评估了多种大语言模型在零样本设置下的表现, 揭示了模型在处理稀有实体时存在的系统性偏差.

Understanding Teacher Revisions of Large Language Model-Generated Feedback

Conrad Borchers et al.

cs.CL cs.CY

本文分析了教师对LLM生成反馈的修订行为, 发现约80%的反馈被直接接受, 且修订行为在教师间差异显著. 基于AI反馈文本训练的模型能一定程度上预测修订决策, 且修订常使反馈从解释性转向更简洁的纠正性.

Conversational Agents and the Understanding of Human Language: Reflections on AI, LLMs, and Cognitive Science

Andrei Popescu-Belis

cs.CL

本文讨论了计算机自然语言处理(NLP)与人类语言能力理解之间的关系, 梳理了从早期到大型语言模型(LLM)时代的NLP发展历程, 并比较了各主要技术范式与人类语言处理理论的异同. 作者认为, 尽管当前基于人工神经网络的聊天机器人展现了强大的语言能力, 但语言技术的演进并未显著加深我们对人类心智如何处理自然语言的理解.

Improving Clinical Diagnosis with Counterfactual Multi-Agent Reasoning

Zhiwen You et al.

cs.CL

本文提出了一个用于临床诊断的反事实多智能体推理框架, 通过编辑病例中的关键发现来评估诊断假设的稳健性. 该方法在多个基准测试中提升了诊断准确性, 特别是在复杂和模糊的病例上.

ProText: A benchmark dataset for measuring (mis)gendering in long-form texts

Hadas Kotek et al.

cs.CL

本文介绍了ProText, 一个用于衡量长文本中性别指代与误指代的数据集. 该数据集包含多个维度, 旨在探测大语言模型在文本转换任务中存在的性别偏见与误指代问题.

Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3

Natapong Nitarach

cs.CL

本文通过AIMO 3竞赛的实验发现，在数学推理任务中，通过多样化提示策略来降低LLM投票中的误差相关性是无效的。实验表明，高温采样已足够去相关，而模型能力本身对性能的影响远大于任何推理时优化方法。

What can LLMs tell us about the mechanisms behind polarity illusions in humans? Experiments across model scales and training steps

Dario Paape

cs.CL

本文使用Pythia模型套件研究了两种极性错觉在LLMs中的表现, 发现NPI错觉随模型规模增大而减弱, 而depth charge错觉则增强. 这为解释人类语言处理中的类似现象提供了新的视角, 挑战了需要"理性推理"机制的传统观点.

KazByte: Adapting Qwen models to Kazakh via Byte-level Adapter

Rauan Akylzhanov

cs.CL math.NA

本文提出了一种名为KazByte的方法, 通过一个byte-level adapter来绕过tokenizer, 直接处理哈萨克语(Kazakh)的原始字节序列, 以解决现有大语言模型tokenizer对哈萨克语分词效率低下的问题. 该方法采用两阶段训练, 先训练adapter, 再微调模型的attention层, 旨在提升模型在哈萨克语任务上的性能.

HumMusQA: A Human-written Music Understanding QA Benchmark Dataset

Benno Weck et al.

cs.CL cs.SD

本文提出了一个名为HumMusQA的人工编写的音乐理解问答基准数据集, 包含320个由音乐专家撰写和验证的问题, 旨在更严谨地评估大型音频-语言模型(LALMs)的音乐感知与解释能力. 作者使用该数据集对六个先进LALMs进行了基准测试, 并检验了它们对单模态捷径的鲁棒性.

Article and Comment Frames Shape the Quality of Online Comments

Matteo Guida et al.

cs.CL

本文通过分析大规模新闻评论数据, 研究了文章框架(article frame)对在线评论质量的影响. 研究发现, 文章框架能显著预测评论的健康程度, 且遵循文章框架的评论质量更高.

Top-down string-to-dependency Neural Machine Translation

Shuhei Kondo, Katsuhito Sudoh, Yuji Matsumoto

cs.CL

本文提出了一种新颖的top-down string-to-dependency解码器，用于神经机器翻译。实验表明，该方法在处理训练数据中未出现的长句翻译时，比传统的序列到序列模型具有更好的泛化能力。

EnsemJudge: Enhancing Reliability in Chinese LLM-Generated Text Detection through Diverse Model Ensembles

Zhuoshang Wang et al.

cs.CL

本文提出了一个名为EnsemJudge的框架, 用于检测中文LLM生成的文本. 该框架通过集成多种模型和投票机制, 在特定中文数据集上取得了优于基线方法的效果.

On the Role of Encoder Depth: Pruning Whisper and LoRA Fine-Tuning in SLAM-ASR

Ganesh Pavan Kartikeya Bharadwaj Kolluri, Michael Kampouridis, Ravi Shekhar

cs.CL cs.SD

本文研究了在SLAM-ASR系统中对Whisper语音编码器进行层剪枝的影响，并评估了LoRA微调对性能损失的恢复能力。实验表明，剪枝两层编码器仅导致较小的词错误率上升，而结合LoRA微调甚至能超越未剪枝的基线模型。

Rethinking Atomic Decomposition for LLM Judges: A Prompt-Controlled Study of Reference-Grounded QA Evaluation

Xinran Zhang

cs.CL

本文通过控制 prompt 设计，比较了在 reference-grounded QA 评估任务中，原子分解（atomic decomposition）方法与整体（holistic）方法的性能。研究发现，在多个数据集上，整体评估者（holistic judge）的表现与原子评估者相当或更优，尤其是在检测部分支持（partially supported）答案方面。

Transfer Learning for an Endangered Slavic Variety: Dependency Parsing in Pomak Across Contact-Shaped Dialects

Sercan Karakaş

cs.CL

本文研究了濒危斯拉夫语言Pomak的依存句法分析, 重点关注其土耳其方言. 通过实验评估了基于希腊方言训练的解析器在土耳其方言上的零样本迁移效果, 并引入了一个新的小规模标注语料库来提升性能.

Who Wrote the Book? Detecting and Attributing LLM Ghostwriters

Anudeex Shetty et al.

cs.CL

本文提出了一个用于LLM作者归属的数据集GhostWriteBench和一种轻量级指纹方法TRACE. 该方法通过捕捉token-level的transition patterns来构建可解释的模型指纹, 并在跨领域和未见作者的OOD场景中表现出鲁棒性.

From Reviews to Requirements: Can LLMs Generate Human-Like User Stories?

Shadman Sakib et al.

cs.CL

本文评估了GPT-3.5 Turbo等大语言模型(LLM)从应用商店评论生成用户故事(user story)的能力. 实验表明, 在少量示例提示(few-shot prompting)下, LLM能生成格式良好的用户故事, 但在独立性和独特性方面仍有不足.

DongYuan: An LLM-Based Framework for Integrative Chinese and Western Medicine Spleen-Stomach Disorders Diagnosis

Hua Li et al.

cs.CL

本文提出了一个基于大语言模型的中西医结合脾胃病诊断框架DongYuan. 该框架通过构建专用数据集、训练核心诊断模型以及建立评估基准, 旨在解决该领域高质量数据缺乏和标准化评估不足的问题.

Beyond Cosine Similarity: Zero-Initialized Residual Complex Projection for Aspect-Based Sentiment Analysis

Yijin Wang, Fandi Sun

cs.CL

本文提出了一种用于方面级情感分析(ABSA)的新框架, 包含零初始化残差复数投影(ZRCP)和抗碰撞掩码角度损失. 该方法将文本特征投影到复数语义空间, 利用相位分离情感极性, 并引入抗碰撞掩码来缓解对比学习中的假阴性碰撞问题, 在多个数据集上取得了先进的性能.

\textit{Versteasch du mi?} Computational and Socio-Linguistic Perspectives on GenAI, LLMs, and Non-Standard Language

Verena Platzgummer, John McCrae, Sina Ahmadi

cs.CL

本文从计算语言学和社会语言学角度, 探讨了生成式人工智能(GenAI)和大语言模型(LLMs)对非标准语言变体(如南蒂罗尔方言和库尔德语变体)的影响. 作者认为, 这些技术不仅可能加剧数字语言鸿沟, 还强化了语言的单一标准化观念, 并讨论了从技术层面使LLMs处理非标准语言的可能性及其政策含义.

Categorical Perception in Large Language Model Hidden States: Structural Warping at Digit-Count Boundaries

Jon-Paul Cacioli

cs.CL cs.AI

本文发现大语言模型在处理阿拉伯数字时, 其隐藏状态表征中出现了与人类"范畴感知"类似的结构性扭曲. 这种扭曲特异地出现在由分词结构定义的边界处, 并且与模型能否显式报告类别知识存在分离.

Coconstructions in spoken data: UD annotation guidelines and first results

Ludovica Pannitto et al.

cs.CL

本文为口语树库中跨说话者轮次的句法依存关系提出了UD框架下的标注规范, 涵盖了协同构建、问答和反馈等类型. 它提出了两种表示方法, 并区分了重述与修正等不同言语现象.

Merge and Conquer: Instructing Multilingual Models by Adding Target Language Weights

Eneko Valero et al.

cs.CL cs.AI

本文探讨了通过模型合并技术, 将特定语言的基础模型与指令调优后的大语言模型(LLM)进行融合, 从而将语言知识迁移到指令模型中. 该方法旨在为低资源语言提供一种轻量化的模型适应方案, 避免了重复的指令微调和大量计算资源需求. 实验在四种伊比利亚语言上进行, 结果表明合并后的模型能有效执行新语言的指令任务, 并支持通过合并多个单语模型实现多语言能力.

The Necessity of Setting Temperature in LLM-as-a-Judge

Lujun Li et al.

cs.CL

本文探讨了在LLM-as-a-Judge评估范式中设置temperature参数的必要性。通过实验和因果推断框架，分析了temperature对评估性能的影响，并提供了工程实践建议。

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

He Du et al.

cs.CL cs.LG

本文提出了一个名为Kernel-Smith的框架，用于高性能GPU kernel和算子的生成。它结合了基于评估的进化代理和面向进化的后训练方法，在多个硬件后端上实现了领先的性能，并能将优化结果应用于实际生产系统。

Not All Subjectivity Is the Same! Defining Desiderata for the Evaluation of Subjectivity in NLP

Urja Khurana et al.

cs.CL

本文是一篇立场论文, 提出了评估NLP中主观性模型的七个期望标准. 作者通过分析60篇论文的实验设置, 指出当前研究在区分输入类型、有效表达主观性以及标准间的相互作用等方面仍存在不足.

Tailoring AI-Driven Reading Scaffolds to the Distinct Needs of Neurodiverse Learners

Soufiane Jhilal et al.

cs.CL cs.HC

本文在监督式包容性阅读环境中, 通过一个改编的阅读界面, 比较了无修改文本、句子分割文本、带象形图的分割文本以及带象形图和关键词标签的分割文本这四种模式对神经多样性学习者阅读理解的影响. 研究结果表明, 学习者对支架的反应是异质的, 没有一种单一的支架是普遍最优的, 这强调了需要可校准、可调节的支架设计.

Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

Bin Zhu et al.

cs.CL cs.AI

本文提出了一种名为Marco DeepResearch的深度研究智能体, 其核心设计理念是围绕"验证"构建一个三层框架. 该框架通过在QA数据合成, 训练轨迹构建和测试时推理三个阶段引入验证机制, 旨在提升智能体在长程, 开放研究任务中的可靠性和性能. 实验表明, 该8B规模的智能体在多个挑战性基准测试上超越了同类模型, 甚至在有限工具调用预算下接近了更大规模智能体的表现.

LombardoGraphia: Automatic Classification of Lombard Orthography Variants

Edoardo Signoroni, Pavel Rychlý

cs.CL

本文构建了首个用于自动分类伦巴第语正字法变体的语料库 LombardoGraphia, 并训练了多种分类模型. 这项工作为开发针对这种低资源语言的 NLP 资源提供了必要的基础设施.

Structural-Ambiguity-Aware Translation from Natural Language to Signal Temporal Logic

Kosei Fushimi et al.

cs.CL cs.SC

本文提出了一种基于Combinatory Categorial Grammar (CCG)的、保留结构歧义的自然语言到Signal Temporal Logic (STL)的翻译方法. 该方法通过多阶段处理, 为模糊的指令生成一组带有可信度评分的STL候选公式, 而非单一解释.

Courtroom-Style Multi-Agent Debate with Progressive RAG and Role-Switching for Controversial Claim Verification

Masnun Nuha Chowdhury et al.

cs.CL cs.AI cs.MA

本文提出了一个名为PROClaim的法庭风格多智能体辩论框架, 用于争议性声明的验证. 该框架结合了渐进式检索增强生成(P-RAG)和角色切换, 在Check-COVID基准测试中取得了优于标准多智能体辩论方法的性能.

TIEG-Youpu Solution for NeurIPS 2022 WikiKG90Mv2-LSC

Feng Nie et al.

cs.CL

本文针对大规模知识图谱WikiKG90Mv2的链接预测任务，提出了一种基于检索-重排序的解决方案。该方法在检索阶段引入优先级填充模型，在重排序阶段使用集成模型与邻居增强表示，最终在验证集上取得了优于基线方法的性能。

EarlySciRev: A Dataset of Early-Stage Scientific Revisions Extracted from LaTeX Writing Traces

Léane Jourdan et al.

cs.CL

本文介绍了一个名为EarlySciRev的数据集, 用于研究科学写作的早期修订过程. 该数据集通过从arXiv的LaTeX源文件中自动提取被注释掉的文本来构建, 并提供了大量经过验证的段落级修订对.

Compressing Transformer Language Models via Matrix Product Operator Decomposition: A Case Study on PicoGPT

Younes Javanmard, Tanmoy Pandit, Masoud Mardani

cs.CL physics.data-an

本文研究了Matrix Product Operator (MPO)分解作为一种Transformer语言模型的压缩方法。该方法将权重矩阵分解为低秩核心链，并在PicoGPT模型上进行了实验验证，展示了在保持性能的同时实现显著参数压缩的潜力。

Training data generation for context-dependent rubric-based short answer grading

Pavel Šindelář et al.

cs.CL

本文探讨了为基于量规的短答案自动评分生成训练数据的方法. 作者利用少量机密数据, 通过简单的衍生文本格式创建了替代数据集, 并进行了初步实验.

EpiScreen: Early Epilepsy Detection from Electronic Health Records with Large Language Models

Shuang Zhou et al.

cs.CL

本文提出了一种利用大型语言模型从电子健康记录中早期检测癫痫的方法 EpiScreen. 该方法通过微调模型分析临床文本, 在两个数据集上取得了较高的诊断性能, 并能辅助临床医生提升诊断准确率.

Adaptive Block-Scaled Data Types

Jack Cook et al.

cs.CL

本文提出了一种新的自适应块缩放数据类型IF4, 它通过为每组16个值在FP4和INT4表示之间进行选择来改进4位量化, 并利用NVFP4中未使用的符号位来指示所选类型. 该方法在量化语言模型时表现优于现有4位格式, 并设计了高效的硬件乘法累加单元.

cs.DS

Water-Filling is Universally Minimax Optimal

Siddhartha Banerjee, Ramiro N. Deo-Campo Vuong, Robert Kleinberg

cs.DS cs.GT cs.LG

本文证明了water-filling算法在在线可分资源分配问题中具有普遍的最小最大最优性。该算法作为一种近视策略，无需了解目标函数的具体形式即可对一大类目标函数（包括Schur-concave最大化与Schur-convex最小化）在$\alpha$-regret和竞争比度量下达到最优。

Bridging the Gap Between Stable Marriage and Stable Roommates: A Parametrized Algorithm for Optimal Stable Matchings

Christine T. Cheng, Will Rosenbaum

cs.DS cs.GT math.CO

本文研究了 Stable Roommates (SR) 问题中寻找最优稳定匹配的复杂性。通过定义 SR 实例与 Stable Marriage (SM) 实例之间的结构距离（称为最小交叉距离），作者证明了当该距离为 $k$ 时，问题可以在 $2^{O(k)} n^{O(1)}$ 时间内解决，从而表明该问题是关于此参数的固定参数可解 (FPT) 问题。

DynamicLogLog: Faster, Smaller, and More Accurate Cardinality Estimation

Brian Bushnell

cs.DS

本文提出了一种名为DynamicLogLog (DLL)的新算法，用于改进数据流中基数估计的精度、速度和内存效率。它通过共享指数和动态线性计数等技术，解决了HyperLogLog算法中存在的误差尖峰问题，并实现了更小的内存占用和更快的处理速度。

RSR-core: A High-Performance Engine for Low-Bit Matrix-Vector Multiplication

Mohsen Dehghankar, Abolfazl Asudeh

cs.DS cs.LG cs.PF

本文提出了RSR-core, 一个用于低比特矩阵向量乘法的高性能引擎. 它将Redundant Segment Reduction (RSR)算法实现为针对CPU和CUDA的优化底层内核, 支持二值和三值权重矩阵, 并在实际推理中展示了显著的加速效果.

Girth Approximations in the CONGEST Model

Shiri Chechik, Gur Lifshitz, Doron Mukhtar

cs.DS

本文在CONGEST模型中研究了图周长的近似计算问题。作者提出了一系列算法，改进了无向图和有向图在加权与无权情况下的近似上界，并建立了新的下界，缩小了该问题的复杂度间隙。

Exact Algorithms for Edge Deletion to Cactus

Sheikh Shakil Akhtar, Geevarghese Philip

cs.DS cs.CC cs.DM math.CO

本文研究了简单无向图上的两个相关问题: Edge Deletion to Cactus 和 Spanning Tree to Cactus. 对于前者, 本文提出了改进的精确算法; 对于后者, 则给出了一个多项式时间算法.

Universe Reduction for APSP: Equivalence of Three Fine-Grained Hypotheses

Nick Fischer

cs.DS

本文通过设计一种高效的 universe reduction 方法, 证明了在 $\omega = 2$ 和一个合理的加法组合学假设下, APSP Hypothesis, Strong APSP Hypothesis 和 Directed Unweighted APSP Hypothesis 三者是等价的. 在此过程中, 也为一系列具有"中间"复杂度的图与矩阵问题建立了基于APSP的匹配下界.

An Optimal Algorithm for Stochastic Vertex Cover

Jan van den Brand et al.

cs.DS

本文研究了stochastic vertex cover问题, 提出了一种算法, 仅需$O_{\varepsilon}(n/p)$次边查询即可获得$(1+\varepsilon)$-近似解. 该算法改进了先前的工作, 达到了已知的下界.

Testing Sparse Functions over the Reals

Vipul Arora et al.

cs.DS

本文研究了定义在实数域上的函数的稀疏性质测试问题, 包括$k$-linearity, $k$-sparse polynomials和$k$-junta. 在标准高斯分布下以$\ell_1$距离度量, 论文为这些性质提供了高效的测试器并证明了$\Omega(k)$的查询复杂度下界.

Quantum-inspired Tensor Network for QUBO, QUDO and Tensor QUDO Problems with k-neighbors

Sergio Muñiz Subiñas et al.

cs.DS cs.ET math.OC

本文提出了一种基于MeLoCoToN方法的tensor network算法, 用于求解QUBO, QUDO以及T-QUDO问题. 该方法利用了superposition, imaginary time evolution和projective measurements等技术, 并针对具有k-neighbors相互作用的一维链问题提出了两种实现方案.

Constant delay Gray code enumeration of ideals and antichains in posets

Sofia Brenner, Jiří Fink

cs.DS cs.DM

本文提出了一种在Gray code order下以constant delay枚举偏序集(partially ordered set, poset)所有ideals和antichains的算法. 该算法解决了Pruesse和Ruskey提出的一个长期开放问题, 并改进了前人的工作. 作为关键技术, 作者引入了一种新的基于势能(potential-based)的递归算法分析框架, 称为Pyramid method.

Sublogarithmic Distributed Vertex Coloring with Optimal Number of Colors

Maxime Flin et al.

cs.DS cs.DC

本文提出了一种在$\tilde{O}(\log^4 \log n)$轮内计算$\Delta-k$着色的分布式LOCAL算法，其中$k < k_\Delta$。该算法在$\Delta$为polylogarithmic时显著改进了现有结果，并在高$\Delta$下达到$O(\log^* n)$轮。

Improved Approximation Algorithms for Multiway Cut by Large Mixtures of New and Old Rounding Schemes

Joshua Brakensiek et al.

cs.DS

本文针对Multiway Cut问题, 通过结合大量新旧rounding schemes改进了其线性规划松弛的近似算法. 对于任意$k$, 将近似比从1.2965提升至1.2787, 并对$k \ge 4$的小值情况取得了25年来的首次改进.

others

SimulCost: A Cost-Aware Benchmark and Toolkit for Automating Physics Simulations with LLMs

Yadi Cao et al.

physics.comp-ph cs.AI cs.DC cs.LG

本文提出了SimulCost, 这是一个用于评估LLM在物理模拟中进行成本敏感参数调优的基准测试和工具包. 它比较了LLM与传统扫描方法在精度和计算成本上的表现, 发现LLM在多轮模式下成功率更高, 但计算成本也显著更高.

Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells

Han Zhang et al.

q-bio.QM cs.AI q-bio.GN

本文提出了一种名为Lingshu-Cell的生成式细胞世界模型，用于单细胞转录组数据的建模与模拟。该模型基于掩码离散扩散方法，能够学习细胞状态的分布并进行扰动条件下的条件生成。它在多个基准测试中表现出色，为虚拟细胞模拟和扰动预测提供了新的工具。

Can AI be a Teaching Partner? Evaluating ChatGPT, Gemini, and DeepSeek across Three Teaching Strategies

Talita de Paula Cypriano de Souza et al.

cs.CY cs.AI

本文评估了ChatGPT, Gemini和DeepSeek作为教学代理在三种教学策略下的表现。研究发现，不同模型在苏格拉底式教学法中的表现差异较大。

Evaluating Human-AI Safety: A Framework for Measuring Harmful Capability Uplift

Michelle Vaccaro et al.

cs.CY cs.AI cs.HC

本文提出了一种以人为中心的AI安全评估框架, 强调应测量"有害能力提升", 即前沿模型相较于现有工具使用户造成伤害能力的边际增量. 作者认为这应成为核心安全指标, 并提供了方法论指导和行动建议.

Power Couple? AI Growth and Renewable Energy Investment

Luyi Gui, Tinglong Dai

cs.CY cs.AI econ.TH

本文通过一个博弈模型分析了AI增长与可再生能源投资之间的均衡关系. 模型表明, 在不同的AI能力扩展机制和市场激励下, 可再生能源投资可能强化对化石燃料的依赖, 也可能推动实现无碳均衡.

AI Meets Mathematics Education: A Case Study on Supporting an Instructor in a Large Mathematics Class with Context-Aware AI

Jérémy Barghorn et al.

cs.CY cs.AI cs.HC

本文介绍了一个在微积分课程中应用AI辅助教学的人本案例研究. 研究者通过微调一个轻量级语言模型来回答学生问题, 并探讨了人机协同工作流程的重要性.

Operationalizing Perceptions of Agent Gender: Foundations and Guidelines

Katie Seaborn et al.

cs.HC cs.AI cs.CY

本文通过范围综述, 分析了智能体性别感知作为研究变量的操作化方法, 发现现有研究在定义和测量上缺乏标准. 作者提出了一个理论驱动的元框架, 旨在为未来研究提供更严谨和包容的操作指南.

Contextual Graph Representations for Task-Driven 3D Perception and Planning

Christopher Agia

cs.RO cs.AI cs.CV cs.LG

本文探讨了3D scene graphs在机器人任务规划中的应用, 指出其全场景表示会导致状态空间膨胀, 并构建了benchmark来比较经典规划器. 进一步研究了利用graph neural networks学习有利于快速规划的关系表示.

Learning Energy-Efficient Air--Ground Actuation for Hybrid Robots on Stair-Like Terrain

Jiaxing Li et al.

cs.RO cs.AI

本文提出了一种用于混合空中-地面机器人的能量感知强化学习框架, 通过训练单一连续策略来协调推进器, 轮子和倾斜舵机, 以应对类似楼梯的地形. 该方法在仿真中实现了比纯推进器控制低约4倍的能量消耗, 并在硬件原型上验证了其能效提升.

SpatialPoint: Spatial-aware Point Prediction for Embodied Localization

Qiming Zhu et al.

cs.RO cs.AI cs.CV

本文提出了 SpatialPoint, 一个用于具身定位的空间感知视觉语言框架. 该框架通过整合结构化深度信息到视觉语言模型中, 来预测可执行的3D点坐标, 并在构建的大规模RGB-D数据集上验证了其有效性.

Degrees, Levels, and Profiles of Contextuality

Ehtibar N. Dzhafarov, Victor H. Cervantes

quant-ph cs.AI math.PR

本文引入了contextuality profile这一新概念, 用于描述系统在不同level下的contextuality degree, 从而超越单一数值的表征. 作者提出了一种concatenated systems的方法来系统研究contextuality profiles, 并将其应用于文献中已有的三种主要contextuality度量.

Complementarity-Preserving Generative Theory for Multimodal ECG Synthesis: A Quantum-Inspired Approach

Timothy Oladunni et al.

eess.SP cs.AI cs.LG eess.IV quant-ph

本文提出了一种互补性保持生成理论(CPGT)及其量子启发的实现Q-CFD-GAN, 用于生成跨模态生理一致的ECG信号. 该方法在复杂值隐空间中建模, 并通过约束保持时域, 频域和时频域表示之间的互补性, 从而生成更生理可信的合成数据.

Physicochemical-Neural Fusion for Semi-Closed-Circuit Respiratory Autonomy in Extreme Environments

Phillip Kingston, Nicholas Johnston

eess.SY cs.AI

本文提出了一种用于极端环境的半闭路呼吸自主系统, 融合了物理化学模型与AI控制. 系统包含CO2洗涤、除湿和氧气补给模块, 并由一个结合了模型预测控制、强化学习和安全滤波器的AI架构进行管理, 在仿真中展示了性能提升.

EMPD: An Event-based Multimodal Physiological Dataset for Remote Pulse Wave Detection

Qian Feng et al.

eess.SP cs.CV cs.LG

本文提出了首个基于event camera的非接触式生理信号检测基准数据集EMPD. 该数据集通过激光辅助采集系统, 利用高分辨率event camera捕捉由桡动脉皮肤微振动产生的信号, 并同步提供RGB视频和临床级脉搏血氧仪数据作为基准和真值.

Deep Learning Multi-Horizon Irradiance Nowcasting: A Comparative Evaluation of Three Methods for Leveraging Sky Images

Erling W. Eriksen et al.

eess.SY cs.AI cs.CV

本文比较了三种将全天相机图像融入深度学习辐照度临近预报的方法. 基于聚合特征工程的方法取得了最佳性能, 表明无需复杂空间深度学习架构也能有效利用图像信息.

PI-Mamba: Linear-Time Protein Backbone Generation via Spectrally Initialized Flow Matching

Tianyu Wu, Lin Zhu

q-bio.BM cs.AI cs.LG

本文提出了一种名为PI-Mamba的蛋白质骨架生成模型。该模型结合了流匹配框架与Mamba状态空间架构，通过内置的约束执行算子确保局部几何有效性，并实现了线性时间推理。

On the Carbon Footprint of Economic Research in the Age of Generative AI

Andres Alonso-Robisco, Carlos Esparcia, Francisco Jareño

cs.SE cs.AI cs.CY econ.GN

本文探讨了生成式AI辅助研究代码编写对计算工作流碳足迹的影响. 作者将分析单位从模型转向工作流, 并通过基准测试发现, 在提示词中加入操作约束比通用绿色语言更能有效减少碳排放.

FEMBA on the Edge: Physiologically-Aware Pre-Training, Quantization, and Deployment of a Bidirectional Mamba EEG Foundation Model on an Ultra-low Power Microcontroller

Anna Tegon et al.

eess.SP cs.LG

本文提出了一种名为FEMBA的双向Mamba架构脑电图基础模型, 并针对其在超低功耗微控制器上的部署进行了优化. 通过引入生理感知预训练目标和量化感知训练, 模型在压缩后仍能保持性能, 最终在边缘设备上实现了实时推理.

Toward Evaluation Frameworks for Multi-Agent Scientific AI Systems

Marcin Abram

cs.CY cs.AI cs.MA quant-ph

本文讨论了评估多智能体科学AI系统所面临的挑战, 包括区分推理与检索的困难, 数据/模型污染的风险, 以及工具使用带来的复杂性. 作者提出了构建抗污染问题集, 生成可扩展任务族等策略, 并通过访谈探讨了科学家对AI系统的期望如何影响评估方法.

SutureAgent: Learning Surgical Trajectories via Goal-conditioned Offline RL in Pixel Space

Huanrong Liu et al.

cs.RO cs.AI

本文提出了一种基于goal-conditioned offline reinforcement learning的框架SutureAgent, 用于从内窥镜视频中预测手术缝合针的轨迹. 该方法将针尖视为在像素空间中逐步移动的agent, 通过插值将稀疏标注转化为密集奖励信号, 并利用保守Q学习与行为克隆正则化进行策略优化. 在一个包含1,158条轨迹的新数据集上的实验表明, 该方法显著降低了平均位移误差.

Stress Classification from ECG Signals Using Vision Transformer

Zeeshan Ahmad, Naimul Khan

eess.SP cs.AI cs.CV cs.LG

本文提出了一种基于 Vision Transformer 的 ECG 信号压力分类方法. 该方法将原始 ECG 信号通过 STFT 转换为 2D 频谱图, 并利用 Transformer 的 attention 机制来处理被试间差异, 在多个数据集上取得了优于 CNN 模型和先前方法的分类准确率.

Brain-inspired AI for Edge Intelligence: a systematic review

Yingchao Cheng et al.

cs.NE cs.AI cs.AR cs.OS

本文从系统级软硬件协同设计的角度, 对2020-2025年间面向边缘智能的脉冲神经网络(SNN)发展进行了系统性综述. 文章超越了仅关注算法的视角, 重点剖析了从量化方法到混合架构等"最后一公里"技术, 并讨论了训练复杂性、内存瓶颈及编译工具链等关键挑战, 最后展望了通过标准化神经形态操作系统来实现绿色认知基底的路线图.

Interpretable liquid crystal phase classification via two-by-two ordinal patterns

Leonardo G. J. M. Voltarelli et al.

cond-mat.soft cs.LG

本文提出了一种基于2x2 ordinal patterns的可解释表示方法, 用于液晶纹理图像的分类. 该方法将纹理映射为75维的频率向量, 结合简单的机器学习分类器, 在包含七个中间相的大规模数据集上实现了近乎完美的相识别, 并能推广到未见过的化合物.

Capability Safety as Datalog: A Foundational Equivalence

Cosimo Spera

cs.LO cs.AI

本文证明了 capability safety 可以精确表示为 propositional Datalog evaluation (Datalogprop), 从而能够利用该逻辑框架中已有的算法和结构结果. 这一等价关系解决了 capability hypergraph 框架在增量维护和审计表面包含判定方面的局限性.

A Multimodal Deep Learning Framework for Edema Classification Using HCT and Clinical Data

Aram Ansary Ogholbake et al.

cs.CV cs.AI

本文提出了一个名为AttentionMixer的多模态深度学习框架, 用于结合头部CT影像和临床元数据进行脑水肿分类. 该框架通过cross-attention机制融合异构数据, 并使用MLP-Mixer进行特征精炼, 在实验中取得了优于单模态及传统多模态基线的性能.

The Nonverbal Gap: Toward Affective Computer Vision for Safer and More Equitable Online Dating

Ratna Kandala, Niva Manchanda, Akshata Kishore Moharir

cs.CV cs.AI

本文探讨了在线约会中非语言线索缺失带来的安全问题, 并提出了一个以公平性优先的计算机视觉研究议程. 作者呼吁社区在商业部署超越伦理讨论之前, 将在线约会安全确立为一个重要的研究领域.

SEAR: Schema-Based Evaluation and Routing for LLM Gateways

Zecheng Zhang, Han Zheng, Yue Xu

cs.DB cs.AI cs.CL

本文提出了一个基于schema的评估与路由系统SEAR, 用于多模型、多供应商的LLM网关。该系统通过定义可扩展的关系schema来统一管理评估信号和运营指标, 并利用LLM推理生成结构化的数据库记录以支持查询和路由决策。

Multi-view Graph Convolutional Network with Fully Leveraging Consistency via Granular-ball-based Topology Construction, Feature Enhancement and Interactive Fusion

Chengjie Cui et al.

cs.CV cs.AI

本文提出了一种名为MGCN-FLC的多视图图卷积网络，旨在通过基于粒度球的拓扑构建、特征增强和交互式融合来更充分地利用多视图数据中的一致性。实验表明，该方法在多个数据集上的半监督节点分类任务中优于现有方法。

Contextual inference from single objects in Vision-Language models

Martina G. Vilas, Timothy Schaumlöffel, Gemma Roig

cs.CV cs.AI

本文通过行为与机制分析, 研究了视觉语言模型(VLMs)从单个物体推断场景上下文的能力. 研究发现, 单个物体可以支持对精细场景类别和粗略上位类别的推断, 其性能受物体属性调节, 且不同层级的推断是可分离的.

Mixture of Experts with Soft Nearest Neighbor Loss: Resolving Expert Collapse via Representation Disentanglement

Abien Fred Agarap, Arnulfo P. Azcarraga

cs.NE cs.LG

本文提出了一种增强的Mixture-of-Experts (MoE)架构，通过引入Soft Nearest Neighbor Loss (SNNL)来优化特征提取器，以解决专家坍塌问题。实验表明，该方法在多个图像分类数据集上提升了模型性能，并促进了专家权重的正交性。

Distilled Large Language Model-Driven Dynamic Sparse Expert Activation Mechanism

Qinghui Chen et al.

cs.CV cs.AI

本文提出了一种结合蒸馏大语言模型(LLM)与稀疏专家混合(MoE)的DS-MoE框架，用于解决视觉识别中的类间相似性高、尺度变化大等问题。该框架通过文本引导的动态路由机制，自适应地激活任务相关的专家，并在多个缺陷检测数据集上取得了优于纯视觉模型的性能。

Ordinal Semantic Segmentation Applied to Medical and Odontological Images

Mariana Dória Prata Lima, Gilson Antonio Giraldi, Jaime S. Cardoso

cs.CV cs.AI

本文研究了在语义分割任务中融入类别间序数关系的损失函数, 包括 unimodal, quasi-unimodal 和 spatial 三类. 这些方法旨在提升分割结果的语义一致性, 并在医学图像上展现了改善模型鲁棒性和解剖一致性的潜力.

Beyond Static Visual Tokens: Structured Sequential Visual Chain-of-Thought Reasoning

Guangfu Guo et al.

cs.CV cs.AI

本文提出了一种结构化顺序视觉思维链方法, 通过生成问题相关的显著性图来组织关键视觉区域, 并按照此顺序进行推理. 该方法在多个视觉推理基准上取得了提升, 验证了结构化顺序视觉认知的有效性.

SleepVLM: Explainable and Rule-Grounded Sleep Staging via a Vision-Language Model

Guifeng Deng et al.

cs.CV cs.AI cs.CL

本文提出了一种基于vision-language model的睡眠分期方法SleepVLM, 该方法能够根据多导睡眠图波形图像进行分期, 并生成符合临床规则的、可读的解释。通过波形感知预训练和基于规则的微调, 模型在多个数据集上达到了与当前最优方法相当的性能, 同时其生成的理由在专家评估中获得了高分。

Quantum Fuzzy Sets Revisited: Density Matrices, Decoherence, and the Q-Matrix Framework

Mirco A. Mannucci

quant-ph cs.AI

本文从纯态转向密度矩阵, 将量子模糊集的真值范围从Bloch球面扩展到整个Bloch球体, 以描述语义退相干. 同时引入了Q-Matrix框架, 并定义了量子模糊集的范畴QFS, 研究了其基本结构.

Language-Conditioned World Modeling for Visual Navigation

Yifei Dong et al.

cs.CV cs.AI cs.RO

本文提出了语言条件视觉导航(LCVN)任务, 并构建了一个包含大量轨迹和指令的数据集. 作者开发了两个模型框架, 分别基于扩散世界模型和自回归多模态架构, 用于联合处理语言理解、未来状态预测和动作生成. 实验表明两种框架各有优势.

Steering Sparse Autoencoder Latents to Control Dynamic Head Pruning in Vision Transformers (Student Abstract)

Yousung Lee, Dongsoo Har

cs.CV cs.AI cs.LG

本文提出了一种通过Sparse Autoencoder (SAE) 控制Vision Transformer动态剪枝的新框架. 该方法利用SAE从稠密嵌入中解耦出稀疏潜在特征, 并通过放大这些特征来引导剪枝决策, 在保持准确性的同时提高了可解释性.

TDEC: Deep Embedded Image Clustering with Transformer and Distribution Information

Ruilin Zhang, Haiyang Zheng, Hongpeng Wang

cs.CV cs.LG

本文提出了一种结合Transformer和分布信息的深度嵌入图像聚类方法TDEC. 该方法通过T-Encoder模块学习具有全局依赖性的特征, 并利用降维模块构建适合聚类的低维空间, 同时在聚类过程中考虑特征的分布信息以提供监督信号. 实验表明, TDEC在复杂数据集上的性能优于现有方法.

From Diffusion To Flow: Efficient Motion Generation In MotionGPT3

Jaymin Ban, JiHong Jeon, SangYeop Jeong

cs.CV cs.LG

本文在 MotionGPT3 框架内，通过控制变量实验比较了 diffusion 与 rectified flow 两种生成目标在文本驱动运动生成任务上的表现。实验表明，rectified flow 在训练收敛速度、推理效率以及生成质量上具有优势。

LARD 2.0: Enhanced Datasets and Benchmarking for Autonomous Landing Systems

Yassine Bougacha et al.

cs.RO cs.AI

本文通过引入新的数据源和优化场景设计, 增强了用于自主着陆系统机器学习模型训练的数据集LARD. 同时, 它提出了一个用于评估复杂多实例环境下目标检测模型的基准测试框架.

Training-Free Diffusion-Driven Modeling of Pareto Set Evolution for Dynamic Multiobjective Optimization

Jian Guan et al.

cs.NE cs.AI

本文提出了一种免训练的扩散驱动方法DD-DMOEA，用于动态多目标优化。它将上一环境的解集视为带噪声的样本，通过解析构造的多步去噪过程引导其演化，并利用基于膝点的辅助策略和不确定性感知方案来提升性能。

Evolutionary Warm-Starts for Reinforcement Learning in Industrial Continuous Control

Tom Maus, Stephan Frank, Tobias Glasmachers

cs.NE cs.LG

本文提出了一种结合进化策略与强化学习的方法, 用于工业连续控制任务. 通过使用CMA-ES算法生成高质量的演示数据来预热强化学习智能体, 该方法在工业分拣基准测试中提升了训练的稳定性和性能.

Generating Synthetic Wildlife Health Data from Camera Trap Imagery: A Pipeline for Alopecia and Body Condition Training Data

David Brundage

cs.CV cs.AI

本文提出了一种从真实相机陷阱照片生成描绘野生动物脱毛和身体状况恶化的合成训练图像的流程. 该流程通过生成式表型编辑系统创建严重程度可控的变体, 并利用自适应场景漂移质量控制来筛选图像. 实验表明, 仅使用合成数据训练的模型在真实图像上能达到0.85的AUROC, 证明了该合成数据可用于健康筛查.

Tiny-ViT: A Compact Vision Transformer for Efficient and Explainable Potato Leaf Disease Classification

Shakil Mia et al.

cs.CV cs.AI

本文提出了一种用于马铃薯叶部病害分类的紧凑型Vision Transformer模型Tiny-ViT。该模型在资源受限环境下实现了高精度分类，并通过GRAD-CAM增强了可解释性。

Aesthetic Assessment of Chinese Handwritings Based on Vision Language Models

Chen Zheng et al.

cs.CV cs.AI cs.CL

本文利用 vision-language models (VLMs) 对中文手写汉字进行质量评估并生成多层级反馈. 通过 fine-tuning 和 in-context learning 方法, 该模型在相关评测中取得了领先的性能.

Edge Reliability Gap in Vision-Language Models: Quantifying Failure Modes of Compressed VLMs Under Visual Corruption

Mehmet Kaan Erol

cs.CV cs.AI

本文通过建立错误分类体系, 比较了量化后的大型视觉语言模型与小型模型在视觉损坏下的失败模式差异. 研究发现, 小型模型在否定推理和校准方面表现出独特的、与数据集相关的失效特征.

From Content to Audience: A Multimodal Annotation Framework for Broadcast Television Analytics

Paolo Cupini, Francesco Pierri

cs.CV cs.AI cs.CY

本文系统评估了应用于意大利广播电视新闻的多模态标注流程, 比较了不同模型架构和输入配置的性能. 研究构建了一个包含视觉环境分类、主题分类等任务的领域特定基准, 并将最佳流程部署于完整节目, 结合收视率数据进行了观众参与度的相关性分析.

Robot Arm Control via Cognitive Map Learners

Nathan McDonald, Colyn Seeley, Christian Brazeau

cs.RO cs.LG

本文提出了一种使用Cognitive Map Learners (CML) 来控制多关节机械臂运动的方法. 该方法通过独立训练的CML模块分别控制每个臂段的角度, 无需使用逆运动学方程即可将机械臂移动到目标位置.

BHCast: Unlocking Black Hole Plasma Dynamics from a Single Blurry Image with Long-Term Forecasting

Renbo Tu et al.

cs.CV astro-ph.IM cs.LG

本文提出了一种名为BHCast的神经模型框架, 用于从单张模糊的EHT(Event Horizon Telescope)黑洞快照中预测其周围等离子体的动态演化. 该模型通过自回归预测生成高分辨率且时间稳定的动态序列, 并从中提取可解释的时空特征, 进而推断黑洞的物理参数.

Limits of Imagery Reasoning in Frontier LLM Models

Sergio Y. Hayashi, Nina S. T. Hirata

cs.CV cs.AI

本文探讨了为前沿LLM配备外部“意象模块”以辅助其完成3D模型旋转等空间推理任务的效果。实验表明，即使有此模块，模型性能依然有限，揭示了当前模型在基础视觉空间原语能力上的根本缺失。

Efficient Encrypted Computation in Convolutional Spiking Neural Networks with TFHE

Longfei Guo et al.

cs.CR cs.LG

本文提出了一个名为FHE-DiCSNN的框架, 该框架基于TFHE全同态加密方案, 利用Spiking Neural Networks (SNNs)的离散特性进行安全高效的计算. 通过bootstrapping技术, 该框架能够在密文上实现Leaky Integrate-and-Fire (LIF)神经元模型, 并整合了卷积方法来提升精度和效率. 在MNIST和FashionMNIST数据集上的实验验证了其有效性.

Can We Change the Stroke Size for Easier Diffusion?

Yunwei Bai et al.

cs.CV cs.AI

本文提出通过控制"stroke size"来调整扩散模型在低信噪比区域的目标函数和扰动强度, 以缓解像素级预测的困难. 该方法在理论和实验上进行了分析, 探讨了其优势与权衡.

CRISP: Characterizing Relative Impact of Scholarly Publications

Hannah Collison, Benjamin Van Durme, Daniel Khashabi

cs.DL cs.AI cs.CL cs.CY

本文提出了CRISP方法, 使用大语言模型(LLMs)对单篇论文中引用的所有文献进行联合排序, 以评估其相对影响力. 该方法通过随机化排序和多数投票来缓解位置偏差, 在人工标注的数据集上取得了优于现有方法的性能.

A Firefly Algorithm for Mixed-Variable Optimization Based on Hybrid Distance Modeling

Ousmane Tom Bechir et al.

cs.NE cs.AI cs.LG

本文提出了一种基于混合距离建模的萤火虫算法(FAmv)用于求解混合变量优化问题. 该方法通过整合连续与离散分量的统一距离公式来改进吸引力机制, 并在CEC2013基准测试和工程设计问题上验证了其有效性与鲁棒性.

PhyDCM: A Reproducible Open-Source Framework for AI-Assisted Brain Tumor Classification from Multi-Sequence MRI

Hayder Saad Abdulbaqi et al.

cs.CV cs.AI

本文提出了一个名为PhyDCM的开源软件框架，用于从多序列MRI中进行AI辅助的脑肿瘤分类。该框架集成了基于MedViT的混合分类架构、标准化的DICOM处理以及交互式桌面可视化界面，旨在提高研究的可重复性和模块化。在多个公开MRI数据集上的实验表明，其分类准确率超过93%。

HASS: Hierarchical Simulation of Logopenic Aphasic Speech for Scalable PPA Detection

Harrison Li et al.

eess.AS cs.AI cs.SD

本文提出了一种用于模拟logopenic variant of primary progressive aphasia (lvPPA) 言语的层次化框架HASS, 旨在通过生成合成数据来缓解临床数据稀缺问题, 以训练更准确和泛化的检测模型。

The Language of Touch: Translating Vibrations into Text with Dual-Branch Learning

Jin Chen et al.

cs.CV cs.AI

本文提出了一种名为ViPAC的双分支学习方法, 用于将触觉振动信号转换为自然语言描述. 该方法通过解耦信号的周期与非周期成分并进行动态融合, 在首个触觉-文本配对数据集LMT108-CAP上验证了其有效性.

Dictionary-based Pathology Mining with Hard-instance-assisted Classifier Debiasing for Genetic Biomarker Prediction from WSIs

Ling Zhang et al.

q-bio.QM cs.CV cs.LG

本文提出了一种基于字典的层次化病理挖掘与难例辅助分类器去偏框架(D2Bio), 用于从全切片图像(WSI)预测遗传生物标志物. 该方法通过无距离限制的上下文交互挖掘和关注任务相关难例的特征学习, 提升了预测性能, 在多个队列上验证了其有效性.

Implicit neural representations for larval zebrafish brain microscopy: a reproducible benchmark on the MapZebrain atlas

Agnieszka Pregowska

cs.CV cs.AI cs.LG q-bio.NC

本文在斑马鱼幼体大脑显微图像数据集上, 对几种 implicit neural representation (INR) 方法进行了可重复的基准测试. 结果表明, 具有显式频谱或多尺度编码的方法在保留高频神经解剖细节方面表现更优.

Calorimeter Shower Superresolution with Conditional Normalizing Flows: Implementation and Statistical Evaluation

Andrea Cosso

physics.ins-det cs.LG stat.ML

本文独立复现了一个用于快速模拟的生成模型, 并将其应用于 calorimeter superresolution 任务. 作者在 CaloChallenge 2022 数据集上训练模型, 并采用一个严格的统计评估框架来定量测试其恢复精细粒度信息的能力.

Envisioning global urban development with satellite imagery and generative AI

Kailai Sun et al.

cs.CV cs.AI

本文提出了一个多模态生成式AI框架, 用于生成全球尺度的高保真城市卫星图像. 该框架整合了文本提示和地理空间控制, 能够根据发展目标生成多样化的城市发展场景, 并支持城市再开发实践.

Hybrid Diffusion Model for Breast Ultrasound Image Augmentation

Farhan Fuad Abir et al.

eess.IV cs.AI cs.CV

本文提出了一种用于乳腺超声图像增强的混合扩散模型框架. 该方法结合了文本到图像生成、图像到图像细化以及低秩适应和文本反转微调, 旨在提升合成图像的视觉保真度并保留超声纹理特征. 在公开数据集上的实验表明, 该框架有效改善了合成图像的质量, 同时保持了可比较的下游分类性能.

SpatialAnt: Autonomous Zero-Shot Robot Navigation via Active Scene Reconstruction and Visual Anticipation

Jiwen Zhang et al.

cs.RO cs.AI cs.CV

本文提出了一种用于零样本机器人导航的框架 SpatialAnt, 它通过主动场景重建和视觉预期来弥补不完美自建环境先验与鲁棒执行之间的差距. 该框架包含物理接地策略以恢复单目重建的绝对尺度, 并利用噪声点云进行反事实推理以修剪与指令矛盾的路径, 在仿真和真实世界实验中均表现出色.

Dual-branch Graph Domain Adaptation for Cross-scenario Multi-modal Emotion Recognition

Yuntao Shou et al.

eess.AS cs.AI

本文提出了一个双分支图域适应框架(DGDA)用于跨场景多模态情感识别. 该框架通过构建情感交互图, 并设计包含超图神经网络(HGNN)和路径神经网络(PathNN)的双分支编码器来建模话语间依赖关系, 同时引入域对抗学习和正则化损失来处理域偏移和标签噪声问题.

Uncertainty-Aware Mapping from 3D Keypoints to Anatomical Landmarks for Markerless Biomechanics

Cesare Davide Pace et al.

eess.IV cs.AI cs.CV

本文提出了一种在无标记生物力学中, 将3D姿态关键点映射到解剖学标志时进行不确定性建模的方法. 该方法能有效识别误差较大的帧, 提升下游分析的可靠性.

GISclaw: An Open-Source LLM-Powered Agent System for Full-Stack Geospatial Analysis

Jinzhen Han et al.

cs.SE cs.AI

本文介绍了一个名为GISclaw的开源LLM智能体系统，用于自动化全栈地理空间分析。该系统整合了多种开源GIS工具库，并支持可插拔的智能体架构与多种LLM后端。

Stringological sequence prediction I: efficient algorithms for predicting highly repetitive sequences

Vanessa Kosoy

cs.FL cs.DS cs.LG

本文基于stringology思想提出了新的序列预测算法, 这些算法在时间和空间上高效, 并且其错误界限与序列的特定stringological复杂度度量相关. 在本系列的第一篇工作中, 作者重点关注两种度量: 生成序列的最小straight-line program的大小, 以及给定位置(以k为基数)能计算序列中任意符号的最小自动机的状态数.

AFSS: Artifact-Focused Self-Synthesis for Mitigating Bias in Audio Deepfake Detection

Hai-Son Nguyen-Le et al.

cs.SD cs.AI eess.AS

本文提出了一种名为AFSS的方法, 通过从真实音频生成伪伪造样本来减轻音频深度伪造检测中的偏差. 该方法在多个数据集上取得了先进的性能, 且不依赖于预先收集的伪造数据集.

Beyond Textual Knowledge-Leveraging Multimodal Knowledge Bases for Enhancing Vision-and-Language Navigation

Dongsheng Yang, Yinfeng Yu, Liejun Wang

cs.CV cs.AI eess.IV

本文提出了一个名为BTK的Vision-and-Language Navigation框架，它通过整合文本和图像知识库来增强agent的导航能力。实验表明该方法在R2R和REVERIE数据集上提升了导航成功率。

EZASP -- Facilitating the usage of ASP

Rafael Martins, Matthias Knorr, Ricardo Gonçalves

cs.SE cs.AI

本文介绍了EZASP, 一个为Visual Studio Code设计的扩展, 旨在支持遵循Easy ASP方法论的ASP程序开发. 该工具通过提供语法高亮、错误检测和程序自动重构等功能, 帮助用户, 特别是初学者, 更轻松地编写ASP程序.

A federated architecture for sector-led AI governance: lessons from India

Avinash Agarwal, Manisha J. Nene

cs.CY cs.AI cs.HC

本文针对印度采用的垂直、部门主导的AI治理策略，提出了一种联邦式的整体政府架构。该架构旨在缓解政策碎片化风险，并通过一个AI事件管理的具体案例展示了其实际应用。

LACON: Training Text-to-Image Model from Uncurated Data

Zhiyang Liang et al.

cs.CV cs.AI

本文提出了一种名为LACON的新训练框架，用于从非精选数据中训练文生图模型。该方法将质量信号作为条件标签，使模型学习完整的数据质量分布，从而在相同计算预算下超越了仅使用精选数据训练的基线模型。

Are LLMs Good For Quantum Software, Architecture, and System Design?

Sourish Wawdhane, Poulami Das

quant-ph cs.AI

本文评估了大型语言模型(LLMs)在量子软件、架构和系统设计问题上的表现。通过案例研究，比较了前沿LLMs与研究生在量子计算问题上的解决能力，并指出了未来研究和工程开发的方向。

Comparing Physics-Informed and Neural ODE Approaches for Modeling Nonlinear Biological Systems: A Case Study Based on the Morris-Lecar Model

Nikolaos M. Matzakos, Chrisovalantis Sfyrakis

math.DS cs.LG

本文比较了Physics-Informed Neural Networks (PINNs)和Neural Ordinary Differential Equations (NODEs)在建模非线性生物系统（以Morris-Lecar模型为例）时的表现. 研究发现, 在涉及刚性或敏感分岔的场景中, PINNs因其嵌入的物理结构而展现出更高的准确性和鲁棒性, 而NODEs作为黑箱近似器则可能在可解释性和稳定性上有所不足.

Mimetic Alignment with ASPECT: Evaluation of AI-inferred Personal Profiles

Ruoxi Shang et al.

cs.HC cs.AI

本文提出了一个名为ASPECT的自动化流程, 用于评估基于工作场所数据推断的个人沟通特质, 无需针对个人进行训练. 在一项涉及20名参与者的案例研究中, ASPECT生成的个人资料与自我评估达到了中等程度的一致, 并且在总体上, 其生成的回应比通用基线更受青睐.

Koopman Operator Identification of Model Parameter Trajectories for Temporal Domain Generalization (KOMET)

Randy C. Hoover et al.

stat.ML cs.LG math.DS

本文提出了一种名为KOMET的模型无关框架，用于处理时序域漂移问题。该方法将训练得到的模型参数序列视为非线性动力系统的轨迹，并通过Extended Dynamic Mode Decomposition (EDMD)来识别其支配性的线性Koopman算子。通过一个预热启动的顺序训练协议来保证参数轨迹的光滑性，并利用傅里叶增强的可观测量字典来捕捉现实数据分布漂移中常见的周期性结构。一旦识别出Koopman算子，KOMET便能在无需未来标注数据的情况下自主预测未来的参数轨迹，实现零再训练的自适应部署。在六个涵盖旋转、振荡和扩展分布几何的数据集上，KOMET在100个保留时间步长上实现了0.981到1.000的平均自主推演准确率。谱分析和耦合分析进一步揭示了与漂移决策边界几何一致的、可解释的动态结构。

In your own words: computationally identifying interpretable themes in free-text survey data

Jenny S Wang, Aliya Saperstein, Emma Pierson

cs.CY cs.CL

本文提出了一种名为"In Your Own Words"的计算框架, 用于从自由文本调查数据中识别结构化的、可解释的主题. 该方法比以往的计算方法更精确, 有助于进行系统性分析, 并在一项关于种族、性别和性取向描述的新数据集中展示了其应用价值.

Multilingual Stutter Event Detection for English, German, and Mandarin Speech

Felix Haas, Sebastian P. Bayerl

cs.SD cs.CL eess.AS

本文提出了一种基于多语种语料库训练的多标签口吃事件检测系统, 该系统在英语, 德语和普通话语音上进行了验证. 实验结果表明, 多语言训练能够实现与先前系统相当甚至更优的性能, 支持开发与语言无关的检测系统.

Static and Dynamic Approaches to Computing Barycenters of Probability Measures on Graphs

David Gentile, James M. Murphy

stat.ML cs.LG math.PR

本文提出了一种在图上计算概率测度barycenter的新方法. 该方法基于动态最优传输问题诱导的黎曼结构, 通过近似指数映射和连续性方程进行内禀梯度下降来合成barycenter. 与基于图距离和熵正则化的静态方法相比, 该方法为图支撑测度的分析提供了一个更一致的框架.

Multimodal Deep Learning for Diabetic Foot Ulcer Staging Using Integrated RGB and Thermal Imaging

Gulengul Mermer et al.

cs.CV cs.LG

本文开发了一个基于Raspberry Pi的便携式成像系统，用于同时采集糖尿病足溃疡的RGB和热成像图像，并构建了一个包含六种分期的数据集。研究比较了单模态与多模态深度学习模型在分期任务上的性能，发现将热成像作为第四通道与RGB图像融合的VGG16模型取得了最佳分类结果。

ASTER -- Agentic Science Toolkit for Exoplanet Research

Emilie Panek et al.

astro-ph.EP astro-ph.IM cs.AI cs.ET cs.LG

本文介绍了一个名为ASTER的AI智能体工具包, 用于系外行星研究. 它通过集成领域专用工具和利用大语言模型来协调执行复杂的多步骤数据分析工作流, 例如从档案中获取数据, 运行辐射传输模型和进行贝叶斯参数反演.

On the Optimal Number of Grids for Differentially Private Non-Interactive $K$-Means Clustering

Gokularam Muthukrishnan, Anshoo Tandon

cs.CR cs.LG eess.SP stat.ML

本文针对差分隐私非交互式$K$-means聚类中数据离散化网格数量的选择问题进行了研究. 作者提出了一种通过最小化目标函数偏差上界来推导网格尺寸的规则, 实验表明该方法在严格隐私预算下能实现更准确的聚类.

Neural Approximation of Generalized Voronoi Diagrams

Panagiotis Rigas, George Ioannakis, Ioannis Emiris

cs.CG cs.LG

本文提出了一种名为VoroFields的层次化神经场框架, 用于在任意可评估的点到点集距离下, 近似低维域中有限几何点集生成的广义Voronoi图. 该方法通过训练一个连续可微的代理函数来隐式地诱导分割, 避免了组合构造的复杂性.

Graph Attention Network-Based Detection of Autism Spectrum Disorder

Abigail Kelly, Ramchandra Rimal, Arpan Sainju

stat.AP cs.LG

本文提出了一种基于注意力机制的图卷积网络(GATGraphClassifier)用于自闭症谱系障碍(ASD)的检测。该方法利用fMRI数据构建功能连接图，并通过注意力机制识别关键连接模式，在ABIDE数据集上取得了优于现有方法的分类准确率。

Online Statistical Inference of Constant Sample-averaged Q-Learning

Saunak Kumar Panda et al.

stat.ML cs.AI cs.LG

本文为 sample-averaged Q-learning 提出了一种在线统计推断框架。该方法基于 functional central limit theorem (FCLT) 构建了 Q-value 的置信区间，并在网格世界和动态资源匹配问题上进行了实验验证。

On the Reliability Limits of LLM-Based Multi-Agent Planning

Ruicheng Ao, Siyang Gao, David Simchi-Levi

cs.MA cs.LG math.OC stat.ML

本文研究了基于LLM的多智能体规划系统的可靠性极限, 将其建模为一个有限无环决策网络. 研究表明, 在无新外部信号的情况下, 任何委托网络在决策理论上都劣于能获取相同信息的集中式贝叶斯决策者. 在有限通信预算下, 优化多智能体有向无环图可转化为对共享信号进行预算约束的随机实验选择.

Beyond Freshness and Semantics: A Coupon-Collector Framework for Effective Status Updates

Youssef Ahmed et al.

eess.SY cs.IT cs.LG

本文研究了状态更新系统在不可靠信道下的调度问题, 将信息过期建模为"优惠券收集"的变体. 通过分析一个二维平均奖励MDP, 作者推导了最优调度策略的结构, 并设计了一种无需知晓信道和寿命分布即可学习的算法.

AutoSiMP: Autonomous Topology Optimization from Natural Language via LLM-Driven Problem Configuration and Adaptive Solver Control

Shaoliang Yang, Jun Wang, Yunsheng Wang

cs.CE cs.AI

本文提出了一个名为AutoSiMP的自动化流程, 能够将自然语言描述的结构问题转化为经过验证的二元拓扑结构. 该流程集成了基于LLM的配置器, 边界条件生成器, SIMP求解器, 结构评估器和重试机制, 实现了从问题描述到最终设计的闭环.

PHONOS: PHOnetic Neutralization for Online Streaming Applications

Waris Quamer et al.

eess.AS cs.CL cs.LG

本文提出了一种用于实时说话人匿名化的流式模块PHONOS, 旨在通过中和非母语口音来增强匿名性. 该方法利用预生成的标准发音语料和因果口音翻译器, 在低延迟下有效降低了非母语口音置信度并减少了说话人可链接性.

UMI-Underwater: Learning Underwater Manipulation without Underwater Teleoperation

Hao Li et al.

cs.RO cs.AI

本文提出了一种无需水下遥操作的水下机械臂抓取学习系统. 该系统通过自监督数据收集管道获取水下抓取演示, 并利用基于深度的affordance表示, 将陆地演示的知识迁移到水下, 以应对视觉退化与数据稀缺的挑战.

Generative Shape Reconstruction with Geometry-Guided Langevin Dynamics

Linus Härenstam-Nielsen et al.

cs.CV cs.AI

本文提出了一种名为GG-Langevin的概率方法，用于从有噪声或不完整的观测中重建3D形状。该方法结合了扩散模型的生成先验与几何测量约束，通过Langevin动力学进行采样，从而在形状真实性与观测一致性之间取得平衡。实验表明，该方法在几何精度和对缺失数据的鲁棒性上优于现有方法。

On-Device Super Resolution Imaging Using Low-Cost SPAD Array and Embedded Lightweight Deep Learning

Zhenya Zang, Xingda Li, David Day Uei Li

eess.IV cs.LG

本文提出了一种轻量级的超分辨率神经网络 LiteSR, 用于处理低分辨率 SPAD 阵列获取的深度和强度图像. 该系统在嵌入式设备上实现了实时视频流超分辨率重建, 并通过实验验证了其在合成与真实数据上的鲁棒性.

Parameter Estimation in Stochastic Differential Equations via Wiener Chaos Expansion and Stochastic Gradient Descent

Francisco Delgado-Vences, José Julián Pavón-Español, Arelly Ornelas

stat.ML cs.LG math.PR stat.ME

本文提出了一种结合Wiener Chaos Expansion (WCE) 和 Stochastic Gradient Descent (SGD) 的方法, 用于从离散噪声观测中估计随机微分方程 (SDE) 的参数. 该方法通过将随机解投影到Hermite多项式基上, 将随机推断问题转化为确定性优化问题, 从而避免了传统模拟方法的高计算成本.

YOLO Object Detectors for Robotics -- a Comparative Study

Patryk Niżeniec, Marcin Iwanowski, Marcin Gahbler

cs.CV cs.LG

本文通过实验比较了不同YOLO目标检测模型在机器人视觉任务中的适用性。研究使用自定义数据集和COCO2017数据集，并测试了模型在图像失真情况下的鲁棒性，为选择合适的YOLO版本提供了参考。

Material Identification using Multi-Modal Intrinsic Radiation and Radiography

Khoa Nguyen et al.

physics.ins-det cs.LG

本文结合X-ray radiography, high-resolution $\gamma$-ray spectroscopy和neutron multiplicity measurements，对特殊核材料的多模态识别问题进行了研究。通过使用随机森林分类器处理合成的伽马和中子特征数据，在单层屏蔽情况下取得了近乎完美的识别准确率。

Overcoming the Incentive Collapse Paradox

Qichuan Yin, Ziwei Su, Shuangning Li

stat.ML cs.LG

本文在预算约束的委托-代理框架下, 研究了AI辅助任务委派中因AI精度提高而导致人类代理努力动机消失的"激励崩溃"问题. 作者提出了一种基于哨兵审计的支付机制, 能够在有限成本下维持可控的人类努力水平, 并进一步构建了一个激励感知的主动统计推断框架, 联合优化审计率与跨任务的主动采样和预算分配, 以最小化最终统计损失.

Multi-Level Barriers to Generative AI Adoption Across Disciplines and Professional Roles in Higher Education

Jianhua Yang et al.

cs.CY cs.AI

本文通过一项针对高校教职员工的多方法调查，分析了不同学科背景和职业角色对生成式人工智能采纳障碍的感知差异。研究发现，障碍并非仅源于个人层面，而是与组织结构和学科认知规范深度交织。

Persona-Based Simulation of Human Opinion at Population Scale

Mao Li, Frederick G.Conrad

cs.CY cs.AI cs.LG

本文提出了一个名为SPIRIT的框架，用于基于社交媒体数据推断半结构化的人物画像，并驱动LLM智能体进行个体层面的意见模拟。该方法在代表性样本上验证了其模拟结果比基于人口统计学的预测更忠实于自我报告，并能再现人类反应的异质性。

ChartNet: A Million-Scale, High-Quality Multimodal Dataset for Robust Chart Understanding

Jovana Kondic et al.

cs.CV cs.AI cs.CL

本文提出了ChartNet, 这是一个用于图表理解的大规模、高质量多模态数据集. 它通过代码引导的合成流程生成了150万个多样化的图表样本, 并包含对齐的代码、图像、数据、摘要和问答对, 旨在提升多模态模型在图表解读和推理方面的能力.

On the Loss Landscape Geometry of Regularized Deep Matrix Factorization: Uniqueness and Sharpness

Anil Kamber, Rahul Parhi

stat.ML cs.LG

本文研究了带$\ell^2$正则化的深度矩阵分解（深度线性网络）在平方误差损失下的损失函数几何性质。结果表明，对于几乎所有目标矩阵，存在唯一的端到端极小值点，并且该极小值点处的Hessian谱具有恒定性。此外，研究还确定了导致极小值点坍缩为零的正则化参数临界阈值。

Voice-based debate with an AI adversary is associated with increased divergent ideation

Neelam Modi Jain, Dan J. Wang

cs.HC cs.AI cs.CY

本文研究了与AI进行语音辩论是否影响人类思维的多样性. 研究发现, 语音交互比文本交互更冗长且重复, 但这种冗余有助于探索更广泛的想法, 而文本交互则倾向于简洁但限制了概念广度.

Forecastability as an Information-Theoretic Limit on Prediction

Peter Maurice Catt

stat.AP cs.IT cs.LG stat.ML

本文从信息论角度出发, 将预测问题重新定义为可用预测信息的量化问题. 在 logarithmic loss 下, 证明了未来观测值与给定信息集之间的 mutual information 等于期望损失的最大可能减少量, 并由此定义了可预测性剖面 (forecastability profile), 分析了其性质.

RDEx-SOP: Exploitation-Biased Reconstructed Differential Evolution for Fixed-Budget Bound-Constrained Single-Objective Optimization

Sichen Tao et al.

cs.NE cs.AI

本文提出了一种用于固定预算约束下单目标优化的RDEx-SOP算法。该算法结合了多种策略以在有限评估次数下平衡收敛速度与最终解的质量。

RDEx-CSOP: Feasibility-Aware Reconstructed Differential Evolution with Adaptive epsilon-Constraint Ranking

Sichen Tao et al.

cs.NE cs.AI

本文提出了一种用于约束单目标数值优化的差分进化变体RDEx-CSOP. 它结合了参数自适应, 偏向开发的混合搜索以及具有时变阈值的$\epsilon$-约束处理机制, 在CEC 2025基准测试中取得了良好的综合性能.

RDEx-MOP: Indicator-Guided Reconstructed Differential Evolution for Fixed-Budget Multiobjective Optimization

Sichen Tao et al.

cs.NE cs.AI

本文提出了一种用于固定预算多目标优化的指标引导重构差分进化算法 RDEx-MOP. 该方法整合了基于指标的环境选择, 小生境维护的 Pareto 候选集以及互补的差分进化算子, 在 CEC 2025 MOP 基准测试中取得了优异的综合评分.

Sovereign Context Protocol: An Open Attribution Layer for Human-Generated Content in the Age of Large Language Models

Praneel Panchigar, Torlach Rush, Matthew Canabarro

cs.CR cs.AI cs.LG

本文提出了一种名为Sovereign Context Protocol (SCP) 的开源协议，旨在为LLMs访问人类生成内容时建立一个可归因的数据层。该协议定义了核心方法，并讨论了其在当前监管环境下的潜在应用。

PRUE: A Practical Recipe for Field Boundary Segmentation at Scale

Gedeon Muhawenayo et al.

cs.CV cs.LG

本文提出了一种用于大规模农田边界分割的实用方法, 通过系统评估多种分割模型与地理空间基础模型, 确定U-Net架构在农田边界描绘任务上表现最佳. 作者进一步结合复合损失函数与针对性数据增强, 提升了模型在真实世界条件下的性能与鲁棒性.

Autonomous Agent-Orchestrated Digital Twins (AADT): Leveraging the OpenClaw Framework for State Synchronization in Rare Genetic Disorders

Hongzhuo Chen et al.

q-bio.QM cs.AI cs.IR

本文提出了一个由智能体协调的数字孪生框架, 用于解决医学数字孪生在罕见遗传病场景中的状态同步问题. 该框架利用OpenClaw的机制和模块化技能, 实现了对患者数据和外部知识库的持续监控与自动更新.

Gender-Based Heterogeneity in Youth Privacy-Protective Behavior for Smart Voice Assistants: Evidence from Multigroup PLS-SEM

Molly Campbell, Yulia Bobkova, Ajay Kumar Shrestha

cs.CR cs.AI cs.CY

本文通过多群组偏最小二乘结构方程模型，分析了性别对青少年智能语音助手隐私保护行为的影响。研究发现，不同性别在隐私风险感知与自我效能等路径上存在异质性。

Random tensor isomorphism under orthogonal and unitary actions

Jeremy Chizewer et al.

cs.CC cs.DS math.PR

本文研究了在正交群和酉群作用下测试两个张量是否同构的平均情况算法问题. 算法基于高阶奇异值方法, 并对从亚高斯分布采样的随机张量进行了严格的平均情况分析.

Bayes-MICE: A Bayesian Approach to Multiple Imputation for Time Series Data

Amuche Ibenegbu, Pierre Lafaye de Micheaux, Rohitash Chandra

stat.ML cs.AI cs.LG

本文提出了一种用于时间序列数据多重插补的贝叶斯方法 Bayes-MICE. 该方法通过 MCMC 采样来量化模型参数和插补值的不确定性, 并结合了时间滞后特征以保持序列特性. 实验表明该方法能降低插补误差并提供更准确的不确定性度量.

Follow Your Heart: Landmark-Guided Transducer Pose Scoring for Point-of-Care Echocardiography

Zaiyang Guo et al.

cs.CV cs.LG

本文提出了一种用于床旁经胸超声心动图(TTE)的多任务网络, 旨在辅助获取标准心尖四腔心切面(A4CH view)并自动估计左心室射血分数(LVEF). 该方法通过级联的换能器姿态评分模块和不确定性感知的关键点检测器, 仅从图像本身提供操作引导和LVEF估计, 无需额外的位置追踪设备.

Pan-Cancer Mapping of the Tumor Immune Landscape through Metagene Clustering and Predictive Modeling

Soham Chatterjee

q-bio.GN cs.LG

本文通过整合pan-cancer bulk RNA-seq数据, 利用ANOVA和Gaussian Mixture Model进行表达谱过滤与聚类, 识别出48个与免疫相关的metagenes. 这些metagenes能有效预测已知的免疫亚型, 并展现出与患者总体生存相关的预后价值, 为开发跨癌种的免疫肿瘤学生物标志物提供了基础.

SafetyDrift: Predicting When AI Agents Cross the Line Before They Actually Do

Aditya Dhodapkar, Farhaan Pishori

cs.CR cs.AI

本文提出 SafetyDrift 方法，用于预测 AI agent 在执行一系列安全操作后最终导致安全违规的风险。该方法将 agent 的行为轨迹建模为 absorbing Markov chain，并通过闭式解计算有限步数内发生违规的概率。实验表明，该方法能以极低的计算成本提前预警违规行为，性能优于关键词匹配和单步 LLM 判断。

Weakly Convex Ridge Regularization for 3D Non-Cartesian MRI Reconstruction

German Shâma Wache et al.

cs.CV cs.LG

本文提出了一种用于3D非笛卡尔MRI重建的弱凸岭正则化方法(WCRR). 该方法结合了变分方法的原理和深度学习的优势, 在计算效率和鲁棒性方面优于现有基线.

An End-to-end Flight Control Network for High-speed UAV Obstacle Avoidance based on Event-Depth Fusion

Dikai Shang et al.

cs.RO cs.AI

本文提出了一种用于高速无人机避障的端到端飞行控制网络, 该方法通过双向交叉注意力模块实现了深度图像与事件数据的特征级融合. 仿真实验表明, 该方法在复杂环境中优于单模态或单向融合模型.

Conformal Prediction Assessment: A Framework for Conditional Coverage Evaluation and Selection

Zheng Zhou et al.

stat.ME cs.LG stat.ML

本文提出了一个用于评估和选择具有良好条件覆盖性的 Conformal Prediction 模型的新框架。该框架通过训练一个可靠性估计器来预测实例级别的覆盖概率，从而将条件覆盖评估转化为监督学习任务。

Multi-AUV Ad-hoc Networks-Based Multi-Target Tracking Based on Scene-Adaptive Embodied Intelligence

Kai Tian et al.

cs.RO cs.AI

本文提出了一种面向多AUV自组织网络的场景自适应具身智能架构, 用于多目标跟踪任务. 该架构采用三层功能框架, 并引入了一种具有双路径critic机制的SA-MARL算法, 以提升在动态拓扑和受限通信下的策略收敛速度与跟踪精度.

LightMover: Generative Light Movement with Color and Intensity Controls

Gengze Zhou et al.

cs.CV cs.CL cs.GR cs.LG

本文提出了一个名为LightMover的框架，用于在单张图像中进行可控的光照编辑。该框架利用视频扩散先验来调整光源的位置、颜色和强度，并生成相应的反射和阴影效果。

Unsupervised Evaluation of Deep Audio Embeddings for Music Structure Analysis

Axel Marmoret

cs.SD cs.AI cs.LG

本文在无监督框架下评估了九种开源预训练深度音频模型在音乐结构分析(MSA)任务上的表现. 通过提取barwise embeddings并使用三种无监督分割算法进行边界检测, 结果表明现代通用深度嵌入通常优于传统谱图基线, 但并非绝对, 并且所采用的无监督方法性能优于线性探测基线.

EuraGovExam: A Multilingual Multimodal Benchmark from Real-World Civil Service Exams

JaeSeong Kim et al.

cs.CV cs.AI

本文提出了一个名为EuraGovExam的多语言多模态基准数据集，该数据集源自五个欧亚地区的真实公务员考试。它包含超过8000个高分辨率扫描的多选题，要求模型直接从视觉输入中进行布局感知和跨语言推理，以评估当前视觉语言模型的局限性。

Can pre-trained Deep Learning models predict groove ratings?

Axel Marmoret, Nicolas Farrugia, Jan Alexander Stupacher

cs.SD cs.AI cs.LG eess.AS

本文探讨了深度学习模型从音频信号直接预测groove感知评分的潜力. 通过比较多种预训练模型提取的音频嵌入与手工特征, 发现深度表示能更好地捕捉与音乐风格相关的复杂groove特征.

Diagnosing and Repairing Unsafe Channels in Vision-Language Models via Causal Discovery and Dual-Modal Safety Subspace Projection

Jinhu Fu et al.

cs.CV cs.AI

本文提出了一种诊断和修复大型视觉语言模型(LVLMs)中不安全通道的框架CARE. 该框架通过因果中介分析识别导致不安全行为的神经元和层, 并引入一种双模态安全子空间投影方法, 在推理时动态地将激活投影到学习到的安全子空间, 以抑制不安全特征.

Zero-shot Vision-Language Reranking for Cross-View Geolocalization

Yunus Talha Erzurumlu et al.

cs.CV cs.AI

本文提出了一种使用 zero-shot Vision-Language Models (VLMs) 进行重排序的两阶段框架，以提升跨视角地理定位 (CVGL) 的 Top-1 准确率。实验表明，基于 pairwise 比较的策略能有效利用 VLM 的细粒度视觉判断能力，而 pointwise 评分方法则会导致性能下降。

Amalgam: Hybrid LLM-PGM Synthesis Algorithm for Accuracy and Realism

Antheas Kapenekakis et al.

cs.DB cs.AI

本文提出了一种名为Amalgam的混合LLM-PGM数据合成算法，旨在兼顾高级分析、真实性和隐私保护。该方法结合了概率图模型和大型语言模型的优势，以生成更符合真实数据分布且支持复杂模式的合成数据。

From Foundation ECG Models to NISQ Learners: Distilling ECGFounder into a VQC Student

Giovanni dos Santos Franco et al.

quant-ph cs.AI

本文研究了将高性能的ECG基础模型（ECGFounder）的知识通过蒸馏技术迁移到更紧凑的学生模型上的方法。评估了包括一个结合了卷积自编码器和变分量子电路的量子就绪管道在内的多种学生架构，在参数大幅减少的情况下实现了有竞争力的性能。

Robust Global-Local Behavior Arbitration via Continuous Command Fusion Under LiDAR Errors

Mohamed Elgouhary, Amr S. El-Wakeel

cs.RO cs.AI eess.SY

本文提出了一种在ROS2框架下融合全局路径跟踪与局部避障控制的仲裁模块, 通过一个PPO训练的policy连续融合两个控制器的输出命令. 该方法在模拟的LiDAR感知退化场景中进行了鲁棒性评估, 旨在提升模块化自动驾驶系统在实时约束下的命令级鲁棒性.

Codebase-Memory: Tree-Sitter-Based Knowledge Graphs for LLM Code Exploration via MCP

Martin Vogel et al.

cs.SE cs.AI cs.PL

本文提出了一种基于Tree-Sitter和知识图谱的Codebase-Memory系统，用于提升LLM代码探索的效率。该系统通过构建持久化的代码结构知识图谱，显著减少了token消耗和工具调用次数，并在特定类型的查询上表现良好。

StretchCast: Global-Regional AI Weather Forecasting on Stretched Cubed-Sphere Mesh

Jin Feng

physics.ao-ph cs.LG

本文提出了一个名为StretchCast的全球-区域AI天气预报框架，该框架基于可变分辨率的拉伸立方球网格。研究开发了两种预测模型，并在有限计算资源下进行了概念验证，展示了其在目标区域进行稳定预报的潜力。

Beyond Descriptions: A Generative Scene2Audio Framework for Blind and Low-Vision Users to Experience Vista Landscapes

Chitralekha Gupta et al.

cs.HC cs.AI

本文提出了一种名为Scene2Audio的生成式框架, 旨在为视障或低视力用户提供超越语言描述的、关于远景景观的非语言音频体验. 该框架结合了心理声学原理和生成模型, 并通过用户研究验证了其能提升户外场景感知的愉悦感和想象力.

A Multi-agent AI System for Deep Learning Model Migration from TensorFlow to JAX

Stoyan Nikolov et al.

cs.SE cs.AI

本文介绍了一个基于AI的多智能体系统, 用于将TensorFlow深度学习模型自动迁移到JAX框架. 该系统通过AI规划器、编排器和编码器的组合, 配合质量评估机制, 在实际商业用例中显著提升了代码迁移的效率.

GUIDE: Guided Updates for In-context Decision Evolution in LLM-Driven Spacecraft Operations

Alejandro Carrasco et al.

cs.MA cs.AI eess.SY

本文提出了GUIDE框架, 用于提升LLM在航天器操作中的决策能力. 该框架通过离线反思更新一个结构化的自然语言决策规则库, 实现了跨任务的无权重更新策略改进.

Improving Automated Wound Assessment Using Joint Boundary Segmentation and Multi-Class Classification Models

Mehedi Hasan Tusar et al.

cs.CV cs.AI

本文提出了一种基于YOLOv11的深度学习模型, 用于同时进行伤口边界分割(WBS)和五类伤口分类(WC). 通过使用增强后的平衡数据集进行训练, 模型在两项任务上都取得了较高的性能, 展示了其在临床实时分析中的潜力.

ComBench: A Repo-level Real-world Benchmark for Compilation Error Repair

Jia Li et al.

cs.SE cs.AI

本文提出了一个名为ComBench的repository-level benchmark, 用于评估Automated Compilation Error Repair (ACER)技术. 该benchmark通过自动化框架从GitHub CI历史中挖掘真实编译错误, 并对12个现代LLM进行了评估, 揭示了模型在语法正确性与语义正确性之间的显著差距.

D-SPEAR: Dual-Stream Prioritized Experience Adaptive Replay for Stable Reinforcement Learninging Robotic Manipulation

Yu Zhang, Karl Mason

cs.RO cs.AI cs.LG

本文提出了一种名为D-SPEAR的双流优先经验自适应回放框架，用于稳定机器人操作任务的强化学习训练。该方法通过分离actor和critic的采样策略，并引入自适应机制，在多个基准任务上提升了性能与稳定性。

Inference-Time Structural Reasoning for Compositional Vision-Language Understanding

Amartya Bhattacharya

cs.CV cs.CL

本文提出了一个用于评估和增强视觉语言模型(VLMs)组合推理能力的统一框架. 该框架通过依赖解析构建场景图(TextSceneGraphParser)并利用图不对称性评分器(Graph Asymmetry Scorer)注入结构关系先验, 在Winoground基准上测试了多种模型. 实验发现, 增强策略对能力较强的模型(如Qwen3-VL-8B-Thinking)提升明显, 但对较弱基线模型增益有限甚至为负.

Guided Lensless Polarization Imaging

Noa Kraicer, Erez Yosef, Raja Giryes

eess.IV cs.AI cs.CV

本文提出了一种RGB引导的无透镜偏振成像系统, 通过结合紧凑的偏振-RGB传感器和一个提供结构引导的辅助RGB相机来提升重建质量. 该方法采用了一个包含物理反演和基于Transformer的融合网络的两阶段流程, 在真实原型机上取得了良好效果.

Where Does AI Leave a Footprint? Children's Reasoning About AI's Environmental Costs

Aayushi Dangol et al.

cs.HC cs.AI

本文介绍了一个名为Ecoprompt的交互式系统, 旨在帮助儿童理解AI使用的环境成本. 该系统结合了环境足迹计算器与模拟游戏, 并通过参与式设计评估了儿童对AI环境影响的看法.

Rainbow-DemoRL: Combining Improvements in Demonstration-Augmented Reinforcement Learning

Dwait Bhatt, Shih-Chieh Chou, Nikolay Atanasov

cs.RO cs.LG

本文对利用离线演示数据提升在线强化学习(RL)样本效率的多种方法进行了分类与实证研究. 研究发现, 直接复用离线数据和使用行为克隆(behavior cloning)初始化策略, 在提升在线样本效率方面优于更复杂的离线RL预训练方法.

Grounding Social Perception in Intuitive Physics

Lance Ying et al.

q-bio.NC cs.AI cs.CV

本文提出了一个基于物理直觉的社会感知计算模型, 通过整合物理模拟与心理理论来推断智能体的目标与关系. 实验表明该模型在多种场景下与人类判断高度一致, 而仅依赖视觉模式匹配或忽略物理约束的模型则无法达到人类水平.

The Hidden Costs of AI-Mediated Political Outreach: Persuasion and AI Penalties in the US and UK

Andreas Jungherr, Adrian Rauchfleisch

cs.CY cs.AI

本文通过一项在美国和英国进行的预注册实验, 研究了人们对AI参与政治外联活动的评价. 研究发现, 无论是说服性意图还是AI作为沟通媒介, 都会引发负面评价, 这揭示了AI在政治沟通中可能面临的合法性质疑.

Multiple-Prediction-Powered Inference

Charlie Cowen-Breen et al.

math.ST cs.AI

本文提出了一个名为MultiPPI的统计推断框架, 用于在存在多种不同质量(高成本高质量 vs. 低成本低质量)数据源时, 通过优化资源分配来构建统计高效的估计量. 该框架具有理论保证, 并在多个大语言模型评估场景中通过实验验证了其优于现有基线方法的性能.

Agent-Driven Autonomous Reinforcement Learning Research: Iterative Policy Improvement for Quadruped Locomotion

Nimesh Khandelwal, Shakti S. Gupta

cs.RO cs.AI

本文通过一个智能体驱动的自主强化学习案例研究, 展示了在四足机器人运动控制任务中, 智能体如何执行大部分实验循环(如代码诊断, 奖励函数配置, 实验监控与分析). 在超过70个实验中, 智能体成功地将策略从早期粗糙地形运行迭代改进到具有较低速度误差和较高成功率的表现.

CarbonEdge: Carbon-Aware Deep Learning Inference Framework for Sustainable Edge Computing

Guilin Zhang et al.

cs.DC cs.AI cs.LG

本文提出了一个名为CarbonEdge的碳感知深度学习推理框架, 旨在减少边缘计算中AI推理的碳排放. 该框架通过扩展自适应模型划分, 结合碳排放估算与绿色调度算法, 在模拟的异构边缘环境中实现了显著的碳减排.

Evaluating Large and Lightweight Vision Models for Irregular Component Segmentation in E-Waste Disassembly

Xinyao Zhang et al.

cs.CV cs.AI

本文比较了基于transformer的SAM2与轻量级YOLOv8在电子废弃物拆解场景中对不规则、密集排列部件进行分割的性能。研究在一个包含1,456张标注图像的新数据集上进行，发现YOLOv8在分割精度和边界精确度上显著优于SAM2。结果表明，大型预训练模型在工业应用中需要针对特定任务进行优化。

Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development

Zhongying Deng et al.

cs.CV cs.AI

本文对超过1000个公开医学影像数据集进行了系统性调查与编目，分析了其在规模、任务和模态上的碎片化现状。为了整合这些数据孤岛，作者提出了一种元数据驱动的融合范式，并发布了一个交互式发现门户，旨在为医学基础模型的发展提供更统一、可扩展的数据资源。

Difference Feedback: Generating Multimodal Process-Level Supervision for VLM Reinforcement Learning

Feiding et al.

cs.CV cs.AI

本文提出了一种名为 Differential Feedback 的方法，用于为 VLM 的强化学习训练生成过程级监督。该方法通过修复错误的推理轨迹来自动构建 token/step 级别的监督掩码，从而在无需昂贵人工标注的情况下实现视觉与推理过程的对齐。实验表明，该方法能有效提升多模态推理任务的性能。

Copilot-Assisted Second-Thought Framework for Brain-to-Robot Hand Motion Decoding

Yizhe Li, Shixiao Wang, Jian K. Liu

cs.RO cs.AI

本文提出了一种结合CNN与attention的混合模型, 用于从EEG信号解码手部运动学, 并在抓握任务中取得了良好的性能. 该工作进一步引入了基于有限状态机的copilot后处理框架来提升解码轨迹的保真度, 并在MuJoCo仿真中实现了机器人控制.

Learning to Focus and Precise Cropping: A Reinforcement Learning Framework with Information Gaps and Grounding Loss for MLLMs

Xuanpu Zhao et al.

cs.CV cs.AI

本文提出了一种用于多模态大语言模型的两阶段强化学习框架, 旨在改善模型在复杂视觉场景中对裁剪区域的关注与利用. 该方法通过引入"信息差"机制和 grounding loss 来训练模型更专注于局部细节, 从而在视觉问答任务上取得了先进的性能.

Understanding Semantic Perturbations on In-Processing Generative Image Watermarks

Anirudh Nakra, Min Wu

cs.CV cs.AI

本文提出了一个用于系统性地压力测试生成式图像水印在语义扰动下鲁棒性的多阶段框架. 研究发现, 当前水印方案在语义编辑下鲁棒性显著下降, 揭示了现有评估体系的一个关键缺陷.

A Systematic Taxonomy of Security Vulnerabilities in the OpenClaw AI Agent Framework

Surada Suwansathit, Yuxuan Zhang, Guofei Gu

cs.CR cs.AI

本文对开源AI智能体框架OpenClaw中的安全漏洞进行了系统性分类研究。研究基于190份安全报告，从系统架构层和攻击技术两个正交维度构建了漏洞分类法，并识别出跨层攻击是其主要结构性弱点。

Safer Builders, Risky Maintainers: A Comparative Study of Breaking Changes in Human vs Agentic PRs

K M Ferdous et al.

cs.SE cs.AI

本文比较了AI代理与人类开发者创建的pull requests中引入breaking changes的频率和任务背景. 研究发现, 在代码生成任务中, AI代理引入的breaking changes更少, 但在维护任务中风险更高.

Advancing Multi-Instrument Music Transcription: Results from the 2025 AMT Challenge

Ojas Chaturvedi et al.

cs.SD cs.IR

本文报告了2025年自动音乐转录挑战赛的结果，该赛事旨在评估多乐器转录领域的进展。结果表明，尽管在转录准确性上有所提升，但在处理复音和音色变化方面仍存在挑战。

Demo-Pose: Depth-Monocular Modality Fusion For Object Pose Estimation

Rachit Agarwal et al.

cs.CV cs.AI

本文提出了一种名为DeMo-Pose的混合架构，用于从RGB-D输入进行类别级9自由度物体姿态估计。该方法通过一种新颖的多模态融合策略，将单目语义特征与基于深度的图卷积表示相结合，并引入了一种Mesh-Point Loss来提升几何推理能力。实验表明，该方法在REAL275基准上实现了实时推理，并在3D IoU和姿态精度上超越了现有方法。

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Meituan LongCat Team et al.

cs.CV cs.CL

本文提出了一个名为Discrete Native Autoregressive (DiNA)的统一框架，用于原生多模态建模。该框架通过dNaViT将视觉信号转换为分层离散token，并构建了LongCat-Next模型，在单一自回归目标下处理文本、视觉和音频，在多项多模态基准上取得了良好性能。

Toward Reliable Evaluation of LLM-Based Financial Multi-Agent Systems: Taxonomy, Coordination Primacy, and Cost Awareness

Phat Nguyen, Thang Pham

cs.MA cs.AI cs.CE

本文对基于LLM的金融多智能体系统进行了综述, 提出了一个四维分类法, 并指出了当前评估中存在的五个普遍缺陷. 作者还提出了"协调首要性假说"和一个用于衡量协调是否带来净价值的新指标"协调盈亏平衡点差".

A Novel Immune Algorithm for Multiparty Multiobjective Optimization

Kesheng Chen et al.

cs.NE cs.AI

本文提出了一种用于解决多参与方多目标优化问题(MPMOPs)的新免疫算法MPIA. 该算法通过引入基于非支配排序的跨参与方引导交叉策略和基于多参与方覆盖度量的自适应激活策略来提升性能, 并在合成与无人机路径规划问题上验证了其优越性.

Drag or Traction: Understanding How Designers Appropriate Friction in AI Ideation Outputs

A. Baki Kocaballi et al.

cs.HC cs.AI

本文探讨了在AI辅助创意生成中引入"Generative Friction"（生成性摩擦）的设计理念。研究表明，用户对摩擦的接受度（Friction Disposition）会影响其将摩擦视为阻碍还是创作邀请。

A General Model for Deepfake Speech Detection: Diverse Bonafide Resources or Diverse AI-Based Generators

Lam Pham et al.

cs.SD cs.AI

本文分析了影响深度伪造语音检测模型性能与泛化能力的两个主要因素: 真实语音资源和AI生成器. 通过构建一个基线深度学习模型并进行实验, 作者研究了这两个因素如何影响检测阈值. 基于实验结果, 作者提出了一个平衡了两种因素的数据集, 并在其上训练的模型在跨数据集评估中展现了更好的泛化性能.

InnerPond: Fostering Inter-Self Dialogue with a Multi-Agent Approach for Introspection

Hayeon Jeon et al.

cs.HC cs.AI

本文设计了一个名为InnerPond的多智能体系统研究探针，用于支持内省。该系统基于对话自我理论，将内在的不同视角建模为独立的基于LLM的智能体，并通过一个共享空间环境来组织和关联这些内在视角。

Secure Reinforcement Learning: On Model-Free Detection of Man in the Middle Attacks

Rishi Rani, Massimo Franceschetti

eess.SY cs.LG

本文扩展了Bellman Deviation Detection (BDD)框架, 用于在model-free reinforcement learning (RL)中检测man-in-the-middle (MITM)攻击. 作者改进了攻击模型, 并证明了所提检测方案在检测效率上是order-optimal的.

STRIDE: When to Speak Meets Sequence Denoising for Streaming Video Understanding

Junho Kim et al.

cs.CV cs.AI

本文提出了一种名为STRIDE的方法, 用于在线流式视频理解中的主动说话时机决策. 该方法将激活信号建模为滑动窗口内的结构化序列, 并通过轻量级的掩码扩散模块进行迭代去噪与精炼.

Expert Streaming: Accelerating Low-Batch MoE Inference via Multi-chiplet Architecture and Dynamic Expert Trajectory Scheduling

Songchen Ma et al.

cs.AR cs.AI

本文提出了一种名为Fully Sharded Expert Data Parallelism (FSE-DP)的并行化范式，专为多芯片加速器上的低批次MoE推理而设计。它通过在高带宽芯片间链路上调度细粒度的专家流，以优化计算-通信重叠和负载均衡，从而提升了推理速度并减少了片上内存占用。

RTLSeek: Boosting the LLM-Based RTL Generation with Multi-Stage Diversity-Oriented Reinforcement Learning

Xinyu Zhang et al.

cs.AR cs.LG

本文提出了一种名为RTLSeek的后训练范式，旨在提升基于LLM的RTL代码生成的质量与多样性。该方法通过结合基于规则的多样性导向强化学习与多阶段训练框架，有效利用了有限的验证数据。实验表明，该方法在基准测试中超越了现有方法。

ContraMap: Contrastive Uncertainty Mapping for Robot Environment Representation

Chi Cuong Le, Weiming Zhi

cs.RO cs.AI cs.CV

本文提出了一种名为ContraMap的对比连续映射方法, 用于机器人环境表示. 该方法通过引入显式的不确定性类别, 实现了无需贝叶斯推理的实时环境预测与空间不确定性估计.

Test-Time Instance-Specific Parameter Composition: A New Paradigm for Adaptive Generative Modeling

Minh-Tuan Tran et al.

cs.CV cs.LG

本文提出了一种名为Composer的新范式, 用于实现生成模型在推理时的自适应. 该方法通过为每个输入实例生成特定的参数调整, 并将其注入预训练模型的权重中, 从而在不进行微调的情况下实现针对单个输入的模型专业化.

EvA: An Evidence-First Audio Understanding Paradigm for LALMs

Xinyuan Xie et al.

cs.SD cs.AI

本文提出了一种名为EvA的双路径架构, 旨在解决Large Audio Language Models (LALMs)在复杂声学场景中因"证据瓶颈"而表现不佳的问题. 该方法通过非压缩、时间对齐的方式融合Whisper和CED-Base的特征, 并构建了一个大规模训练集EvA-Perception, 在多个零样本基准测试中取得了优于现有开源模型的性能.

ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation

Hongyu Yan et al.

cs.RO cs.AI

本文提出了一种名为ProgressVLA的模型, 用于视觉语言机器人操作任务. 该模型通过预训练的进度估计器和可微分的进度引导机制, 在CALVIN和LIBERO基准测试中提升了任务成功率和泛化能力.

Energy Score-Guided Neural Gaussian Mixture Model for Predictive Uncertainty Quantification

Yang Yang et al.

stat.ML cs.LG

本文提出了一种结合Gaussian Mixture Model和Energy Score的框架NE-GMM，用于改进预测不确定性量化。该方法通过理论证明和实验验证了其在准确性和不确定性校准方面的有效性。

LVRPO: Language-Visual Alignment with GRPO for Multimodal Understanding and Generation

Shentong Mo, Sukmin Yun

cs.CV cs.AI cs.LG cs.MA cs.MM

本文提出了LVRPO, 一个基于强化学习的语言-视觉偏好优化框架, 用于统一的多模态预训练. 它通过Group Relative Policy Optimization直接优化模型行为, 在理解和生成任务上取得了优于基线模型的效果.

RAP: Retrieve, Adapt, and Prompt-Fit for Training-Free Few-Shot Medical Image Segmentation

Zhihao Mao, Bangpu Chen

cs.CV cs.AI

本文提出了一种无需训练的少样本医学图像分割框架RAP, 它通过检索、适配和提示SAM2模型来工作. 该方法利用解剖结构的高频形态一致性, 通过边界感知的结构适配和基于Voronoi划分的提示生成, 在多个基准测试中取得了优异性能.

The role of neuromorphic principles in the future of biomedicine and healthcare

Grace M. Hwang et al.

cs.NE cs.AI q-bio.NC

本文是一篇关于神经形态工程在生物医学和医疗保健领域未来作用的研讨会报告总结. 它概述了该领域的现状, 挑战以及推动相关研究和发展的策略.

Suppression of $^{14}\mathrm{C}$ photon hits in large liquid scintillator detectors via spatiotemporal deep learning

Junle Li et al.

physics.ins-det cs.AI hep-ex

本文提出了三种基于深度学习的模型, 用于在液体闪烁体探测器中识别并抑制$^{14}\mathrm{C}$衰变产生的光子本底. 这些模型能有效提升低能$e^+$事件在$^{14}\mathrm{C}$堆积干扰下的能量分辨率.

Empirical Likelihood for Nonsmooth Functionals

Hongseok Namkoong

stat.ME cs.LG

本文针对非光滑泛函的推断问题, 提出了一种bootstrap empirical likelihood方法. 该方法通过几何分析, 将profile likelihood简化为得分均值与水平集之间的距离问题, 并利用凸优化性质处理非光滑性, 从而绕过了传统方法对光滑性的依赖.

Needle in the Repo: A Benchmark for Maintainability in AI-Generated Repository Edits

Haichao Zhu et al.

cs.SE cs.AI

本文提出了一个名为Needle in the Repo (NITR)的基准测试框架，用于评估AI生成的代码编辑在可维护性方面的表现。该框架通过设计包含特定可维护性维度的探针和测试集，发现当前AI编码系统在保持代码结构可维护性方面存在显著不足，尤其是在处理架构层面的编辑时。

AI-Powered Facial Mask Removal Is Not Suitable For Biometric Identification

Emily A Cooper, Hany Farid

cs.CV cs.AI

本文评估了商业AI面部去遮挡工具在身份识别中的有效性与风险. 通过大规模分析, 作者指出此类技术可能导致不可靠的匹配和错误识别.

Heracles: Bridging Precise Tracking and Generative Synthesis for General Humanoid Control

Zelin Tao et al.

cs.RO cs.AI

本文提出了一种名为Heracles的中间件, 用于人形机器人的通用控制. 该方法通过一个状态条件化的diffusion模型, 在精确运动跟踪与生成式轨迹合成之间进行隐式切换, 旨在提升系统在扰动下的鲁棒性与自然恢复能力.

Emergent Social Intelligence Risks in Generative Multi-Agent Systems

Yue Huang et al.

cs.MA cs.CL cs.CY

本文研究了由大型生成模型组成的多智能体系统在协作与竞争任务中涌现出的社会性风险。研究发现, 在资源竞争、顺序协作等典型工作流中, 智能体群体会自发地出现类似共谋、从众等行为模式, 这些风险无法通过现有的单智能体安全措施完全预防。

Towards Emotion Recognition with 3D Pointclouds Obtained from Facial Expression Images

Laura Rayón Ropero et al.

cs.CV cs.AI cs.ET cs.HC eess.IV

本文提出了一种基于高频无线感知(HFWS)的连续、隐私保护的面部情绪识别(FER)方法. 该方法通过从现有2D数据集生成3D面部点云来构建数据集AffectNet3D, 并利用PointNet++模型进行训练和评估, 证明了其在模拟可穿戴传感条件下的可行性.

Tracking without Seeing: Geospatial Inference using Encrypted Traffic from Distributed Nodes

Sadik Yagiz Yetim et al.

cs.CV cs.LG cs.NI

本文提出了一种仅利用加密网络流量进行地理空间目标追踪的新方法. 该方法通过分析视频流加密传输中的包大小等元数据, 推断场景动态并估计目标位置.

Towards Context-Aware Image Anonymization with Multi-Agent Reasoning

Robert Aufschläger et al.

cs.CV cs.AI cs.CR

本文提出了一个名为CAIAMAR的多智能体推理框架, 用于上下文感知的图像匿名化. 该方法结合了预定义处理与多智能体推理, 通过扩散模型进行匿名化, 在降低再识别风险的同时较好地保持了图像质量.

jaxsgp4: GPU-accelerated mega-constellation propagation with batch parallelism

Charlotte Priestley, Will Handley

cs.DC astro-ph.EP astro-ph.IM cs.LG

本文介绍了 jaxsgp4, 一个利用 JAX 库对 SGP4 轨道预测算法进行的高性能重新实现. 该工具通过函数式重构和硬件加速, 实现了大规模卫星星座的快速并行传播, 显著提升了计算效率.

3-D Representations for Hyperspectral Flame Tomography

Nicolas Tricard, Zituo Chen, Sili Deng

cs.CV cs.LG

本文比较了用于高光谱火焰断层扫描的两种3D表示方法: 经典的voxel-grid表示与连续的neural representation. 通过模拟池火的断层重建实验, 研究发现结合total-variation正则化的voxel-grid方法在精度、内存和运行时间上表现最佳.

Q-Bridge: Code Translation for Quantum Machine Learning via LLMs

Runjia Zeng et al.

quant-ph cs.CL

本文提出了一个名为Q-Bridge的LLM引导的代码翻译框架，用于将经典机器学习代码转换为可执行的量子机器学习代码。该方法通过一个自迭代的流程构建了一个大规模数据集，并利用监督式LoRA微调进行模型训练，为量子AI开发提供了基础。

EffiSkill: Agent Skill Based Automated Code Efficiency Optimization

Zimu Wang et al.

cs.SE cs.CL

本文提出了一个名为EffiSkill的框架, 用于基于LLM的agent进行代码效率优化. 该框架通过挖掘可复用的agent技能来构建优化工具箱, 并在基准测试中取得了优于基线方法的性能提升.

ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

Samin Mahdizadeh Sani et al.

cs.GR cs.AI cs.CV cs.LG

本文提出了一个名为ImagenWorld的图像生成模型评估基准, 包含六个核心任务和六个主题领域的数千个条件集, 并提供了细粒度的人工标注和可解释的错误标签. 大规模评估揭示了模型在不同任务和领域中的性能差异, 并指出当前基于VLM的自动评估指标的局限性.

A Revealed Preference Framework for AI Alignment

Elchin Suleymanov

econ.TH cs.AI cs.GT

本文提出了一个基于显示偏好理论的AI对齐分析框架, 即Luce Alignment Model. 该模型将AI的选择建模为人类偏好与AI自身偏好的混合, 并讨论了在实验室和实际场景中识别对齐程度的可能性.

Statistical Guarantees for Distributionally Robust Optimization with Optimal Transport and OT-Regularized Divergences

Jeremiah Birrell, Xiaoxi Shen

stat.ML cs.LG

本文研究了基于最优传输(Optimal Transport, OT)及其正则化散度的分布鲁棒优化(Distributionally Robust Optimization, DRO)的有限样本统计保证. 作者推导了通过DRO进行对抗训练的监督学习问题的集中不等式, 其结论适用于广泛的OT成本函数, 包括软约束范数球成本函数和OT正则化的$f$-散度模型邻域.

AI-ready design of realistic 2D materials and interfaces with Mat3ra-2D

Vsevolod Biryukov, Kamal Choudhary, Timur Bazhirov

cond-mat.mtrl-sci cs.AI physics.comp-ph

本文介绍了一个名为Mat3ra-2D的开源框架，用于快速设计包含表面、界面和缺陷的现实二维材料结构。该框架通过模块化的工作流程和可复用的Jupyter notebook，旨在为AI/ML应用生成系统化的数据集。

Persistence diagrams of random matrices via Morse theory: universality and a new spectral diagnostic

Matthew Loftus

stat.ML cs.LG math-ph math.AT

本文通过 Morse 理论，证明了定义在单位球面上的二次型 $f(x) = x^T M x$ 的子水平集过滤的 persistence diagram 完全由对称矩阵 $M$ 的特征值解析决定。该结果将随机矩阵理论 (RMT) 的普适性转移到了 persistence diagram 的普适性上，并展示了 persistence entropy 作为一种新的谱诊断工具，在区分不同随机矩阵系综方面优于传统的能级间距比 $\langle r \rangle$。

Data is All You Need: Markov Chain Car-Following (MC-CF) Model

Sungyong Chung et al.

eess.SY cs.LG cs.RO

本文提出了一种基于经验概率范式的Markov Chain Car-Following (MC-CF)模型，用于模拟车辆跟驰行为。该模型利用经验分布进行随机加速度采样，在轨迹预测精度上超越了传统物理模型，并展示了良好的泛化能力与仿真可扩展性。

Adversarial Attacks on Multimodal Large Language Models: A Comprehensive Survey

Bhavuk Jain, Sercan Ö. Arık, Hardeo K. Thakur

cs.CR cs.AI

本文对多模态大语言模型(Multimodal Large Language Models, MLLMs)面临的对抗性攻击进行了系统性综述。它超越了简单的攻击技术罗列，通过引入一个基于攻击者目标的分类法，并连接不同攻击模式与模型架构及表征的共享弱点，为理解MLLM的对抗行为提供了分析框架。

Deflation-PINNs: Learning Multiple Solutions for PDEs and Landau-de Gennes

Sean Disarò, Ruma Rani Maity, Aras Bacho

math.NA cs.LG

本文提出了一种名为Deflation-PINNs的新框架，用于寻找PDE的多个解。该方法通过在PINNs和DeepONets的架构中引入一个deflation损失项，引导网络收敛到不同的解分支。作者在Landau-de Gennes液晶模型上进行了数值验证，展示了其识别多个晶体结构的能力。

JaWildText: A Benchmark for Vision-Language Models on Japanese Scene Text Understanding

Koki Maeda, Naoaki Okazaki

cs.CV cs.AI

本文提出了一个名为JaWildText的基准测试集, 专门用于评估视觉语言模型(VLMs)在日语自然场景文本理解上的能力. 该基准包含三个互补任务, 并通过对14个开源模型的评估揭示了当前模型在日语文本识别, 尤其是汉字识别上的主要瓶颈.

CDH-Bench: A Commonsense-Driven Hallucination Benchmark for Evaluating Visual Fidelity in Vision-Language Models

Kesheng Chen et al.

cs.CV cs.AI cs.CL

本文提出了一个名为CDH-Bench的基准测试，用于评估视觉语言模型在视觉证据与常识冲突时的视觉保真度。该基准通过构建三类异常场景来诊断模型是否会产生常识驱动的幻觉。

FedFG: Privacy-Preserving and Robust Federated Learning via Flow-Matching Generation

Ruiyang Wang, Rong Pan, Zhengan Yao

cs.CR cs.AI cs.CV cs.LG

本文提出了一种名为FedFG的联邦学习框架, 它利用flow-matching生成技术来增强隐私保护与鲁棒性. 该方法通过在客户端使用生成器保护特征, 并在服务器端利用合成样本进行鲁棒聚合, 在多个数据集上验证了其有效性.

Beyond Dataset Distillation: Lossless Dataset Concentration via Diffusion-Assisted Distribution Alignment

Tongfei Liu et al.

cs.CV cs.AI

本文提出了一种名为Dataset Concentration (DsCo)的新框架，用于生成紧凑且具有代表性的数据集。该方法结合了基于diffusion的噪声优化和可选的数据混合策略，在数据可访问和不可访问的场景下均能有效工作，并在大规模数据上实现了近乎无损的压缩。

ViviDoc: Generating Interactive Documents through Human-Agent Collaboration

Yinghao Tang et al.

cs.HC cs.AI

本文提出了一个名为ViviDoc的系统, 用于通过人机协作生成交互式文档. 该系统采用了一个多智能体(multi-agent)流水线, 并结合了结构化文档规范(DocSpec)和聊天式编辑等三层人工控制机制, 以提升生成过程的可控性. 作者还构建了一个包含101个主题的基准测试集ViviBench和一个自动评估框架, 实验表明该系统在内容和交互质量上表现良好.

BiFormer3D: Grid-Free Time-Domain Reconstruction of Head-Related Impulse Responses with a Spatially Encoded Transformer

Shaoheng Xu et al.

eess.AS cs.LG

本文提出了一种基于Transformer的时域方法BiFormer3D，用于从稀疏测量中重建任意方向上的个性化头相关脉冲响应。该方法避免了固定方向网格和最小相位假设的限制，并通过辅助任务提升了重建的时空保真度。

Kill-Chain Canaries: Stage-Level Tracking of Prompt Injection Across Attack Surfaces and Model Safety Tiers

Haochuan Kevin Wang

cs.CR cs.AI cs.LG

本文通过引入密码学标记(canary token)和阶段分解的方法, 分析了五种前沿LLM agent对prompt injection攻击的防御机制. 研究发现, 模型的安全性主要取决于恶意内容是否在pipeline的不同阶段间传播, 而非是否被模型读取, 并揭示了不同模型和防御条件在攻击面(attack surfaces)上的表现差异.

Efficient Domain Adaptation for Text Line Recognition via Decoupled Language Models

Arundhathi Dev, Justin Zhan

cs.CV cs.LG

本文提出了一种用于文本行识别的模块化检测-校正框架, 通过解耦视觉字符检测与基于预训练序列模型(如T5, ByT5, BART)的语言校正, 实现了无需目标域标注的高效领域适应. 该方法在多种文档上评估, 能以约95%的计算量减少达到接近端到端Transformer的精度.

CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence

Tianle Zeng et al.

cs.RO cs.AI cs.CV cs.HC

本文提出了CARLA-Air, 一个将高保真城市驾驶模拟与物理精确的多旋翼飞行模拟统一在单个Unreal Engine进程中的开源基础设施. 该平台支持多种传感器模态和智能体任务, 旨在为空中-地面协同的具身智能研究提供一体化仿真环境.

Synonymix: Unified Group Personas for Generative Simulations

Huanxing Chen, Aditesh Kumar

cs.HC cs.AI

本文提出了一种名为Synonymix的流程, 用于从多个个体生活故事persona中构建"unigraph", 以创建可查询的群体表征. 该方法旨在支持介于个体与群体之间的"中观层面"生成式智能体模拟.

MolmoPoint: Better Pointing for VLMs with Grounding Tokens

Christopher Clark et al.

cs.CV cs.AI

本文提出了一种新的视觉语言模型(VLM)指向机制MolmoPoint, 它通过生成特殊的指向token来直接选择包含目标概念的视觉token, 而非输出坐标文本. 该方法在图像和视频指向任务上取得了新的最佳性能.

Transformer-Based Prognostics: Enhancing Network Availability by Improved Monitoring of Optical Fiber Amplifiers

Dominic Schneider, Lutz Rapp, Christoph Ament

eess.SP cs.LG

本文提出了一种基于transformer的轻量级模型, 用于预测光纤放大器的剩余寿命. 该模型利用状态监测数据实现实时预测性维护, 旨在提升光网络的可用性与可靠性.

MOSS-VoiceGenerator: Create Realistic Voices with Natural Language Descriptions

Kexin Huang et al.

cs.SD cs.AI cs.CL

本文提出了一个名为MOSS-VoiceGenerator的开源语音生成模型，它能够根据自然语言描述直接生成说话者的音色。该模型在大规模电影内容语音数据上进行训练，旨在生成更具真实感和表现力的声音。主观评估表明，其在整体性能、指令遵循和自然度方面优于其他语音设计模型。

A Polynomial Coreset for Furthest Neighbor in Planar Metrics

Kacper Kluk et al.

cs.CG cs.DM cs.DS

本文研究了度量空间中关于最远邻查询的近似数据结构, 即 $\varepsilon$-coreset. 针对平面度量, 证明了存在规模为 $(1/\varepsilon)$ 的多项式的 $\varepsilon$-coreset, 改进了之前的指数界.

Transcription and Recognition of Italian Parliamentary Speeches Using Vision-Language Models

Luigi Curini et al.

cs.DL cs.AI cs.IR

本文提出了一种基于Vision-Language Models的流程，用于意大利议会演讲的自动转录、语义分割和实体链接。该方法结合了专门的OCR模型和大规模视觉语言模型，以提高转录质量并识别演讲者。

Quid est VERITAS? A Modular Framework for Archival Document Analysis

Leonardo Bassanini et al.

cs.DL cs.AI cs.IR

本文提出了一个名为VERITAS的模块化框架, 用于档案文献的数字化分析. 该框架将数字化重新定义为包含转录, 版面分析和语义增强的集成工作流, 并在一个文艺复兴时期编年史的案例中验证了其有效性.

Attention Frequency Modulation: Training-Free Spectral Modulation of Diffusion Cross-Attention

Seunghun Oh, Unsang Park

cs.CV cs.LG

本文提出了一种无需训练即可调控扩散模型 cross-attention 频谱的方法。该方法通过分析 cross-attention 在去噪过程中的时频特性，在傅里叶域对注意力 logits 进行重加权，从而实现对生成图像空间尺度的连续控制。

Q-DIVER: Integrated Quantum Transfer Learning and Differentiable Quantum Architecture Search with EEG Data

Junghoon Justin Park, Yeonghyeon Park, Jiook Cha

quant-ph cs.AI

本文提出了一种结合量子电路与深度学习的混合框架Q-DIVER, 用于脑电图(EEG)信号处理. 该框架通过可微分的量子架构搜索来优化电路拓扑, 在保持预测性能的同时显著减少了参数量.

Does Claude's Constitution Have a Culture?

Parham Pourdavood

cs.CY cs.AI cs.CL

本文通过将Claude Sonnet在World Values Survey上的回答与90个国家的人类数据进行比较, 评估了Constitutional AI模型的文化偏向. 研究发现, 该模型的价值取向与北欧和英语国家最为接近, 且在多数问题上超出了所有调查人群的范围, 用户提供的文化背景信息未能实质改变其价值立场. 这表明, 当宪法制定与训练数据主导的文化传统一致时, 宪法对齐可能固化而非纠正现有的文化偏见.

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

Zhang Li et al.

cs.CV cs.AI

本文提出了首个多语言文档解析基准MDPBench, 包含17种语言、3400张数字与拍摄文档图像, 并设计了严格的评估流程. 评估发现, 开源模型在非拉丁文字和真实拍摄文档上的性能显著下降, 揭示了现有系统在语言和场景上的不平衡性.

Intelligent Road Condition Monitoring using 3D In-Air SONAR Sensing

Amber Cassimon et al.

cs.CV cs.LG

本文探讨了使用3D in-air SONAR传感器监测路面状况的可行性, 重点研究了路面材料分类和路面损伤检测与分类两个任务. 实验表明, SONAR数据在材料分类上表现良好(F1分数接近90%), 但在损伤检测上准确率较低(F1分数约75%), 表明其在恶劣天气下具有应用潜力但仍需进一步研究.

RecycleLoRA: Rank-Revealing QR-Based Dual-LoRA Subspace Adaptation for Domain Generalized Semantic Segmentation

Chanseul Cho et al.

cs.CV cs.AI

本文提出了一种名为RecycleLoRA的方法，用于提升领域泛化语义分割任务的性能。该方法通过Rank-Revealing QR分解来利用视觉基础模型中的子空间结构，并设计了双LoRA适配器来增强特征表示的多样性和参数效率。

Evaluating Privilege Usage of Agents on Real-World Tools

Quan Zhang et al.

cs.CR cs.AI

本文提出了一个名为GrantBox的安全评估沙盒, 用于分析LLM agent在真实工具环境下的权限使用情况. 实验表明, 尽管LLM具备基本的安全意识, 但在精心设计的提示注入攻击下仍然非常脆弱.

Designing AI for Real Users -- Accessibility Gaps in Retail AI Front-End

Neha Puri, Tim Dixon

cs.HC cs.AI

本文探讨了零售AI前端设计中存在的可访问性缺陷, 指出这些系统往往隐含了对"理想用户"的假设, 从而在视觉、听觉、运动、认知等方面将残障用户边缘化. 作者认为问题根源在于商业和组织环境而非技术限制, 并提出了前端保证作为AI治理的补充方案.

A Deep Reinforcement Learning Framework for Closed-loop Guidance of Fish Schools via Virtual Agents

Takato Shibayama, Hiroaki Kawashima

cs.RO cs.LG q-bio.PE

本文提出了一个基于深度强化学习的闭环引导框架, 使用虚拟智能体来引导鱼群运动. 该框架在模拟中训练, 并在真实鱼群中进行了物理实验验证, 实验表明其对小型鱼群有效, 但随着群体规模增大, 引导效果会下降.

An Optimal Battery-Free Approach for Emission Reduction by Storing Solar Surplus in Building Thermal Mass

Michela Boffi et al.

eess.SY cs.AI

本文提出了一种利用建筑热质量作为被动储能的无电池优化策略, 通过调整室内温度设定点来存储太阳能盈余, 以实现碳感知的负荷转移. 该方法通过仿真验证了其在减少电网用电方面的有效性.

TwinMixing: A Shuffle-Aware Feature Interaction Model for Multi-Task Segmentation

Minh-Khoi Do et al.

cs.CV cs.AI

本文提出了一种用于自动驾驶场景中可行驶区域与车道线分割的轻量级多任务模型 TwinMixing. 该模型通过共享编码器与任务特定解码器架构, 并结合高效的 EPM 模块与 DBU 块, 在 BDD100K 数据集上以较低的参数量和计算量实现了较好的分割精度.

DiffAttn: Diffusion-Based Drivers' Visual Attention Prediction with LLM-Enhanced Semantic Reasoning

Weimin Liu et al.

cs.CV cs.AI

本文提出了一种基于扩散模型的驾驶员视觉注意力预测框架DiffAttn, 它将该任务建模为一个条件扩散去噪过程. 该框架结合了Swin Transformer编码器、特征融合金字塔解码器以及大型语言模型层, 以融合多尺度场景特征并增强对安全关键线索的语义推理能力.

Nonlinear Factor Decomposition via Kolmogorov-Arnold Networks: A Spectral Approach to Asset Return Analysis

David Breazu

q-fin.ST cs.LG

本文提出了一种名为KAN-PCA的非线性因子分解方法，它使用Kolmogorov-Arnold Network (KAN)作为编码器，线性映射作为解码器。该方法通过用学习的B-spline函数替代线性投影，旨在比经典PCA捕捉更多的方差，特别是在市场危机期间线性假设失效时。实验表明，在相同因子数量下，KAN-PCA比经典PCA获得了更高的重构R²分数。

Fine-Grained Complexity of Continuous Euclidean k-Center

Lotte Blank et al.

cs.CG cs.CC cs.DS

本文研究了连续 Euclidean $k$-center 问题的细粒度计算复杂度. 在常数维度下, 基于 Exponential Time Hypothesis (ETH) 和 3-SUM 假设, 为不同参数设置建立了条件性下界, 证明了现有算法在特定意义下是最优的.

Near-Optimal Bounds for Parameterized Euclidean k-means

Vincent Cohen-Addad et al.

cs.CG cs.CC cs.DS

本文研究了 Euclidean $k$-means 问题的参数化近似复杂度. 在假设 Exponential Time for Expanders Hypothesis (XXH) 的前提下, 证明了不存在运行时间为 $2^{(k/\varepsilon)^{1-o(1)}} \cdot n^{O(1)}$ 的 $(1+\varepsilon)$-近似算法, 从而为这一系列研究画上了句号.

Learning from imperfect quantum data via unsupervised domain adaptation with classical shadows

Kosuke Ito et al.

quant-ph cs.LG

本文提出了一种利用经典影子(Classical Shadows)进行无监督域适应(Unsupervised Domain Adaptation)的方法, 用于处理量子数据学习中的域偏移问题. 该方法在量子物质相和纠缠分类任务上进行了数值评估, 表现优于非自适应基线.

Self++: Co-Determined Agency for Human--AI Symbiosis in Extended Reality

Thammathip Piumsomboon

cs.HC cs.AI cs.MA cs.MM

本文提出了一个名为Self++的设计蓝图, 用于扩展现实(XR)中的人-AI共生, 旨在保持人类主导权的同时利用AI能力. 该框架基于自我决定理论和自由能原理, 通过共同决定原则(透明性, 适应性和可协商性)来组织增强交互.

Prototype-Enhanced Multi-View Learning for Thyroid Nodule Ultrasound Classification

Yangmei Chen et al.

cs.CV cs.LG

本文提出了一种用于甲状腺结节超声分类的原型增强多视图学习框架PEMV-thyroid. 该框架通过从多个特征视角学习互补表示, 并利用混合原型信息进行决策边界修正, 以应对超声图像的异质性问题, 提升了模型在跨设备和跨域场景下的泛化性能.

Mapping data literacy trajectories in K-12 education

Robert Whyte et al.

cs.CY cs.AI

本文通过系统文献综述提出了一个用于分析K-12数据素养教育的框架，该框架从逻辑和可解释性两个维度对学习活动进行分类，并描绘了学习者在不同范式间的学习轨迹。

LDDMM stochastic interpolants: an application to domain uncertainty quantification in hemodynamics

Sarah Katz et al.

stat.ML cs.LG math.NA

本文提出了一种基于LDDMM（大变形微分同胚度量映射）的条件随机插值框架，用于三维形状的生成建模。该方法通过利用从几何配准中学习的条件漂移，以及相应的拉回和推前算子，实现了在复杂形状和不同定义域上的随机变量生成。作者将该方法应用于心血管模拟领域，用于从患者队列生成主动脉形状并进行数据增强与不确定性量化。

Building evidence-based knowledge graphs from full-text literature for disease-specific biomedical reasoning

Chang Zong et al.

cs.CE cs.AI

本文提出了一个名为EvidenceNet的框架和数据集, 用于从生物医学全文文献中构建疾病特异性知识图谱. 该框架利用大语言模型辅助的流程提取结构化证据节点, 评估证据质量, 并通过语义关系连接证据记录, 旨在支持基于证据的生物医学推理.

Integrating Multimodal Large Language Model Knowledge into Amodal Completion

Heecheol Yun, Eunho Yang

cs.CV cs.AI

本文提出了一种名为AmodalCG的新框架, 用于解决amodal completion(模态补全)任务. 该框架利用Multimodal Large Language Models (MLLMs)的常识知识来指导图像中被遮挡部分的补全, 并通过视觉生成模型进行迭代优化, 在真实图像上取得了优于现有方法的效果.

Crossing the NL/PL Divide: Information Flow Analysis Across the NL/PL Boundary in LLM-Integrated Code

Zihao Xu et al.

cs.SE cs.AI

本文提出了一种跨越LLM API调用中自然语言与编程语言边界的信息流分析方法。该方法基于定量信息流理论，定义了一个包含24个标签的分类法，用于描述信息在跨越边界时的保留程度和输出形式。作者在一个大规模的真实世界Python代码数据集上验证了该分类法的可靠性，并展示了其在污点分析和程序切片等下游任务中的应用效果。

Optimized Weighted Voting System for Brain Tumor Classification Using MRI Images

Ha Anh Vu

cs.CV cs.LG

本文提出了一种用于脑肿瘤MRI图像分类的加权集成学习方法. 该方法结合了多种深度学习与传统机器学习模型, 并通过加权投票机制进行决策, 在公开数据集上取得了先进的准确率.

Coherent Without Grounding, Grounded Without Success: Observability and Epistemic Failure

Camilo Chacón Sartori

cs.CY cs.AI

本文讨论了大型语言模型(LLMs)中解释的连贯性与实际能力之间的脱节现象, 提出了"双向连贯性悖论". 作者认为, 在低可观测性领域, LLMs可能成功行动但误解其机制; 在高可观测性领域, 它们能生成准确解释却无法有效干预. 文章通过编译器优化和超参数调优等实验, 提出了一个结合先验、信号和领域知识的"认知三角"模型, 并主张评估人工智能需要包含连贯性、基础以及解释与行动之间恰当关联的三元框架.

Membership Inference Attacks against Large Audio Language Models

Jia-Kai Dong, Yu-Xiang Lin, Hung-Yi Lee

cs.SD cs.AI

本文针对 Large Audio Language Models (LALMs) 进行了首次系统的 Membership Inference Attack (MIA) 评估。研究发现，音频数据中的非语义信息会导致严重的训练/测试分布偏移，并提出了一个基于多模态特征的盲基线来识别和排除这种虚假相关性，从而为可靠地评估 LALMs 的记忆行为建立了原则性标准。

From Simulation to Deep Learning: Survey on Network Performance Modeling Approaches

Carlos Güemes-Palau et al.

cs.NI cs.AI cs.LG

本文综述了有线网络性能建模方法的发展历程, 从传统的离散事件模拟(Discrete Event Simulation, DES)和基于排队论(Queuing Theory)等数学理论的分析方法, 到近期兴起的机器学习模型及其混合方法. 文章对这些方法进行了分类梳理, 并讨论了不同模型在评估目标和需求上的差异.

EdgeDiT: Hardware-Aware Diffusion Transformers for Efficient On-Device Image Generation

Sravanth Kodavanti et al.

cs.CV cs.AI

本文提出了一种针对移动NPU硬件优化的轻量级Diffusion Transformer模型EdgeDiT. 通过硬件感知的优化框架剪枝结构冗余, 在显著降低模型参数量、计算量和延迟的同时, 保持了原始架构的生成质量.

Learning unified control of internal spin squeezing in atomic qudits for magnetometry

C. Z. Cao et al.

quant-ph cs.AI

本文提出了一种基于物理信息强化学习的方法, 用于在存在非线性 Zeeman 效应的多能级原子系统中实现并稳定自旋压缩态. 该方法利用低阶自旋矩信息, 在 $^{161}\mathrm{Dy}$ 原子的 $f=21/2$ 能级中学习控制策略, 以提升原子磁力计的灵敏度.

AceleradorSNN: A Neuromorphic Cognitive System Integrating Spiking Neural Networks and DynamicImage Signal Processing on FPGA

Daniel Gutierrez et al.

cs.AR cs.AI

本文提出了一种名为 AceleradorSNN 的神经形态认知系统，该系统在 FPGA 上集成了用于处理动态视觉传感器数据的脉冲神经网络和用于 RGB 相机的可重构图像信号处理器。该工作旨在为自动驾驶等需要高速、低延迟目标检测的应用提供高效的硬件解决方案。

GeoHCC: Local Geometry-Aware Hierarchical Context Compression for 3D Gaussian Splatting

Xuan Deng et al.

cs.CV cs.AI

本文提出了一种名为GeoHCC的几何感知压缩框架，用于解决3D Gaussian Splatting存储开销过大的问题。该方法通过结合几何依赖性的锚点剪枝和分层熵编码，在保持渲染质量的同时实现了紧凑表示。

Yau's Affine Normal Descent: Algorithmic Framework and Convergence Analysis

Yi-Shuai Niu, Artan Sheshmani, Shing-Tung Yau

math.OC cs.LG math.DG math.NA

本文提出了一种基于仿射微分几何的优化算法框架, 称为Yau仿射法向下降(YAND). 该算法利用目标函数水平集超曲面的等仿射法向量来定义搜索方向, 该方向具有仿射不变性. 作者分析了算法的收敛性, 包括在强凸和Polyak-Lojasiewicz条件下的线性收敛性, 并展示了其在强各向异性缩放下的鲁棒性.

$R_{dm}$: Re-conceptualizing Distribution Matching as a Reward for Diffusion Distillation

Linqian Fan et al.

cs.CV cs.LG

本文提出了一种将distribution matching重新概念化为奖励$R_{dm}$的新范式，以统一diffusion distillation与Reinforcement Learning (RL)。该方法引入了Group Normalized Distribution Matching (GNDM)来稳定优化，并支持与外部奖励模型的灵活结合。实验表明，该方法在图像生成的质量和效率上优于现有基线。

CiQi-Agent: Aligning Vision, Tools and Aesthetics in Multimodal Agent for Cultural Reasoning on Chinese Porcelains

Wenhan Wang et al.

cs.CV cs.AI

本文提出了一个用于中国古瓷器鉴赏的多模态智能体CiQi-Agent, 它结合了视觉工具调用和多模态检索增强生成技术. 该模型在一个新构建的大规模专家标注数据集CiQi-VQA上进行训练, 并在一个包含六个鉴赏属性的基准测试CiQi-Bench上取得了优于现有模型的表现.

MRI-to-CT synthesis using drifting models

Qing Lyu et al.

eess.IV cs.AI cs.CV

本文研究了使用 drifting models 从 MRI 合成骨盆 CT 图像，并在两个数据集上将其与多种深度学习方法进行了基准测试。实验表明，该方法在图像保真度和结构一致性方面优于现有方法，并且具有一步推理、速度快的特点。

RAD-LAD: Rule and Language Grounded Autonomous Driving in Real-Time

Anurag Ghosh et al.

cs.RO cs.AI cs.CV cs.LG

本文提出了一个结合规则与语言模型的实时自动驾驶规划框架. 该框架通过混合规划器整合了规则系统的可靠性与语言模型的适应性, 在nuPlan等基准测试中取得了先进的性能.

Multimodal Analytics of Cybersecurity Crisis Preparation Exercises: What Predicts Success?

Conrad Borchers et al.

cs.HC cs.CY cs.LG

本文通过分析网络安全模拟训练中的多模态数据，研究了教学对齐（instructional alignment）与任务成功的关系。研究发现，结合文本嵌入和日志特征的多模态模型对任务成功的预测效果最佳。

Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

Athos Georgiou

cs.CV cs.AI cs.IR

本文提出了一种名为Hydra的双头视觉语言模型, 它通过一个可切换的LoRA适配器, 在单一模型中同时支持基于ColBERT风格的检索和自回归生成. 该方法减少了内存占用和系统复杂性, 并在多个视觉问答基准上保持了与独立生成模型相当的输出质量.

Domain-Invariant Prompt Learning for Vision-Language Models

Arsham Gholamzadeh Khoee, Yinan Yu, Robert Feldt

cs.CV cs.AI

本文提出了一种名为Domain-invariant Context Optimization (DiCoOp)的方法, 用于提升vision-language模型在领域泛化任务中的表现. 该方法通过对抗训练学习domain-invariant的prompt, 实验表明其性能优于基础的CoOp方法.

Fine-Tuning Large Language Models for Cooperative Tactical Deconfliction of Small Unmanned Aerial Systems

Iman Sharifi, Alex Zongo, Peng Wei

cs.RO cs.AI

本文通过 fine-tuning 策略，将大型语言模型应用于小型无人机系统的协同战术冲突解脱任务。研究利用仿真数据生成和参数高效的微调方法，提升了模型决策的准确性和一致性。

Navigating the Mirage: A Dual-Path Agentic Framework for Robust Misleading Chart Question Answering

Yanjie Zhang et al.

cs.CV cs.AI cs.MM

本文提出了一个名为ChartCynics的双路径智能体框架，用于解决误导性图表的问答问题。该框架通过分离视觉诊断与数据验证路径，并引入一个智能体总结器来提升模型鲁棒性，在基准测试上取得了显著性能提升。

Universal Approximation Constraints of Narrow ResNets: The Tunnel Effect

Christian Kuehn, Sara-Viola Kuntz, Tobias Wöhrer

math.DS cs.LG

本文分析了窄ResNet的通用逼近约束, 证明了其无法表示输入-输出映射的临界点, 并展示了这会导致分类任务中的"隧道效应". 通过建立定量逼近界, 文章比较了残差主导和跳跃连接主导两种机制下的表达能力差异.

Detection of Adversarial Attacks in Robotic Perception

Ziad Sharawy, Mohammad Nakshbandiand, Sorin Mihai Grigorescu

cs.CV cs.AI cs.CR cs.RO

本文讨论了针对机器人感知中语义分割DNN的对抗攻击检测问题. 它指出, 尽管在图像分类领域已有鲁棒性研究, 但机器人场景下的语义分割需要专门的架构和检测策略.

Moving Beyond Review: Applying Language Models to Planning and Translation in Reflection

Seyed Parsa Neshaei, Richard Lee Davis, Tanja Käser

cs.HC cs.AI cs.CL

本文提出了一种基于大型语言模型(LLM)的对话式工具Pensée, 用于在反思性写作的规划与翻译阶段提供支持. 实验结果表明, 该工具能提升反思的深度与结构质量, 但其长期效果有所减弱.

Lindbladian Simulation with Commutator Bounds

Xinzhao Wang et al.

quant-ph cs.DS

本文为Lindbladian模拟推导了基于commutator的Trotter误差界, 并将其与Richardson外推法结合以高效估计可观测量期望值. 对于局部相互作用系统, 该方法在系统规模$N$上实现了优越的标度, 且仅需$O(1)$辅助量子比特.

Unsafe2Safe: Controllable Image Anonymization for Downstream Utility

Mih Dinh, SouYoung Jin

cs.CV cs.CY cs.LG

本文提出了一种名为Unsafe2Safe的自动化图像匿名化流程。该方法通过多模态引导的扩散编辑技术，在保护隐私的同时，旨在保持图像的下游任务可用性。

ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

Huanxuan Liao et al.

cs.CV cs.AI cs.CL

本文提出了一种名为ResAdapt的自适应分辨率框架, 用于提升多模态大语言模型(MLLMs)在处理高分辨率或长序列输入时的效率. 该方法通过一个轻量级的分配器(Allocator)动态决定每帧图像应分配的视觉预算(像素量), 从而在固定视觉token预算下支持更多帧或更高分辨率, 并在多个视频和图像理解任务上展现了效率与精度的提升.

TGIF2: Extended Text-Guided Inpainting Forgery Dataset & Benchmark

Hannes Mareen et al.

cs.CV cs.AI cs.CR cs.MM

本文介绍了TGIF2数据集, 这是一个用于评估图像伪造检测与定位方法的扩展基准. 该数据集包含了由FLUX.1等现代生成模型生成的文本引导修复图像, 并用于分析现有取证方法在面对新型AI编辑和超分辨率攻击时的鲁棒性局限.

Trust-Aware Routing for Distributed Generative AI Inference at the Edge

Chanh Nguyen, Erik Elmroth

cs.DC cs.AI cs.NI

本文提出了一个名为G-TRAC的信任感知协调框架，用于在异构边缘设备上进行分布式生成式AI推理。该框架将路由问题形式化为Risk-Bounded Shortest Path问题，并设计了结合全局信誉与轻量更新的混合信任架构，以提高推理完成率并隔离不可靠节点。

Dynamic Lookahead Distance via Reinforcement Learning-Based Pure Pursuit for Autonomous Racing

Mohamed Elgouhary, Amr S. El-Wakeel

cs.RO cs.AI eess.SY

本文提出了一种混合控制框架, 将强化学习算法PPO与经典的Pure Pursuit路径跟踪算法结合, 以动态调整前瞻距离. 该方法在仿真和真实赛车平台上进行了测试, 显示出在未知赛道上提升圈速和稳定性的潜力.

Constructing Composite Features for Interpretable Music-Tagging

Chenhao Xue et al.

cs.SD cs.LG cs.MM

本文提出了一种使用遗传编程(Genetic Programming)自动构建复合特征的方法, 用于可解释的音乐标签分类. 该方法通过数学组合基础音频特征来提升模型性能, 同时保持特征的可解释性, 并在多个数据集上验证了其有效性.

Why Aggregate Accuracy is Inadequate for Evaluating Fairness in Law Enforcement Facial Recognition Systems

Khalid Adnan Alsayed

cs.CV cs.AI cs.LG

本文指出, 在执法领域部署的人脸识别系统中, 仅使用总体准确率(aggregate accuracy)来评估系统是不充分的. 通过分析不同人口统计子群(subgroup)的错误率分布, 论文展示了总体指标如何掩盖了关键的性能差异, 并强调了采用更全面的公平性评估框架的重要性.

Functional Natural Policy Gradients

Aurelien Bibaut et al.

stat.ML cs.LG

本文提出了一种用于离线策略学习的交叉拟合去偏方法. 该方法的核心结果是, 即使策略类的复杂度超过Donsker类, 只要一个误差乘积形式的nuisance remainder项为$O(N^{-1/2})$, 就能获得$\sqrt N$的遗憾界. 该遗憾界分解为一个由策略类复杂度控制的plug-in策略误差因子和一个由环境动态复杂度控制的环境nuisance因子, 阐明了二者之间的权衡关系.

AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding

Haozhe Qi et al.

cs.CV cs.AI

本文提出了一种名为AdaptToken的训练无关框架, 用于提升多模态大语言模型(MLLM)的长视频理解能力. 该方法通过模型的响应熵(entropy)作为全局控制信号, 自适应地选择视频token并支持提前停止, 在多个基准测试上提升了准确率并显著降低了推理时间.

A Convex Route to Thermomechanics: Learning Internal Energy and Dissipation

Hagen Holthusen, Paul Steinmann, Ellen Kuhl

cs.CE cs.AI

本文提出了一种基于物理的神经网络框架, 用于发现完全耦合热力学中的本构模型. 该框架以内部能量和耗散势为主要函数, 通过输入凸神经网络确保热力学一致性, 并在合成和实验数据上验证了其性能.

SOLE-R1: Video-Language Reasoning as the Sole Reward for On-Robot Reinforcement Learning

Philip Schroeder et al.

cs.RO cs.CL cs.CV

本文提出了一种名为SOLE-R1的视频-语言推理模型, 旨在作为机器人强化学习的唯一奖励信号. 该方法通过合成大规模视频轨迹与推理数据, 结合监督微调与强化学习进行训练, 在多个仿真与真实机器人任务中实现了零样本在线学习.

SAGAI-MID: A Generative AI-Driven Middleware for Dynamic Runtime Interoperability

Oliver Aleksander Larsen, Mahyar T. Moghaddam

cs.SE cs.AI

本文提出了一种名为SAGAI-MID的中间件，它利用大语言模型在运行时动态检测和解决分布式系统中不同服务间的模式不匹配问题。该系统通过一个多层处理流程和保障机制，在多种互操作性场景中进行了评估。

RAD-AI: Rethinking Architecture Documentation for AI-Augmented Ecosystems

Oliver Aleksander Larsen, Mahyar T. Moghaddam

cs.SE cs.AI

本文提出了RAD-AI框架，用于扩展传统软件架构文档方法以支持AI增强生态系统。该框架通过增加AI特定章节和图示，并映射欧盟AI法案的合规要求，初步评估显示其显著提升了技术文档的覆盖率。

ParaSpeechCLAP: A Dual-Encoder Speech-Text Model for Rich Stylistic Language-Audio Pretraining

Anuj Diwan, Eunsol Choi, David Harwath

eess.AS cs.AI cs.CL cs.SD

本文提出了一种名为ParaSpeechCLAP的双编码器对比学习模型，用于将语音和描述风格的文本映射到共享的嵌入空间。该模型支持广泛的语音风格描述，并在风格检索、属性分类等任务上超越了现有基线。

On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

Omer Dahary et al.

cs.CV cs.AI cs.GR cs.LG

本文提出了一种在Contextual Space中应用repulsion的新框架, 用于提升Diffusion Transformers生成图像的多样性. 该方法通过在多模态attention通道中进行干预, 在不牺牲视觉保真度的前提下, 实现了更丰富的生成结果.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

cs.AI

cs.CL

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others