bluearXiv-ai - 2026-04-06

📄 所有论文 ↑ 回顶部

cs.LG

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Martin Špetlík, Jan Březina

cs.LG math.NA

本文提出了一种基于3D卷积神经网络的代理模型, 用于预测三维离散裂缝-基质(DFM)模型中由细观尺度上浆得到的等效水力传导率张量$K_{eq}$. 该模型旨在替代计算昂贵的传统数值均质化方法, 并在多种裂缝网络参数和基质场相关长度下展示了良好的精度与超过100倍的计算加速.

Generating Counterfactual Patient Timelines from Real-World Data

Yu Akagi et al.

cs.LG

本文利用自回归生成模型处理大规模真实世界患者数据, 生成了反事实的临床时间线. 模型通过修改年龄、C-反应蛋白等关键变量, 模拟了COVID-19患者的7天预后, 其结果与已知的临床模式一致.

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

Md Kowsher et al.

cs.LG cs.CL cs.CV

本文提出了一种名为LiME的轻量级Mixture of Experts方法，用于高效的多模态多任务学习。该方法通过共享参数和调制机制减少了可训练参数的数量，并在一个包含47个任务的基准测试上取得了良好效果。

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Parth Asawa, Alexandros G. Dimakis, Matei Zaharia

cs.LG cs.CL

本文提出了一种名为SIEVE的样本高效参数学习方法，用于从自然语言上下文中学习。该方法通过分解上下文并生成合成数据，实现了仅需少量查询示例的有效模型适应。

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Ivan Sedykh, Nikita Sorokin, Valentin Malykh

cs.LG cs.CL

本文研究了 masked diffusion language models (MDLMs) 的加速采样问题. 通过分析不同去噪步骤对模型大小的敏感性, 提出了一种模型调度策略, 即在部分步骤中使用更小的模型, 从而在保持生成质量的同时显著减少计算开销.

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Mohammad Rezaei, Jens Lehmann, Sahar Vahdati

cs.LG cs.AI

本文提出了一种名为PROGRS的框架，用于改进大型语言模型在数学推理中的强化学习。该框架通过引入结果条件中心化，将过程奖励模型(PRM)的评分处理为组内相对偏好而非绝对目标，从而更安全有效地利用中间步骤的反馈。实验表明，该方法在多个数学推理基准上超越了仅使用最终结果奖励的基线模型。

Homophily-aware Supervised Contrastive Counterfactual Augmented Fair Graph Neural Network

Mahdi Tavassoli Kejani et al.

cs.LG

本文提出了一种新的公平性感知图神经网络训练模型, 通过改进反事实增强公平图神经网络(CAF)框架来实现. 该方法采用两阶段训练策略: 第一阶段编辑图结构以增加关于类别标签的同质性(homophily)并减少关于敏感属性的同质性; 第二阶段在优化过程中整合改进的监督对比损失和环境损失, 以联合提升预测性能和公平性. 在五个真实数据集上的实验表明, 该模型在分类准确性和公平性指标上均优于CAF及其他先进方法.

Haiku to Opus in Just 10 bits: LLMs Unlock Massive Compression Gains

Roy Rinberg et al.

cs.LG cs.AI cs.IT

本文研究了利用LLM进行文本压缩的方法, 在无损和有损两种模式下探索了压缩与计算资源的权衡. 在无损压缩中, 使用领域适应的LoRA适配器可以比仅使用基础LLM的算术编码提升2倍压缩率. 在有损压缩中, 通过提示模型进行简洁重写再进行算术编码, 可以实现约0.03的压缩比. 此外, 文章还提出了一种受"二十个问题"游戏启发的交互式有损压缩协议, 通过小模型向大模型提问来逐步精炼回答, 在多个基准测试上实现了极高的压缩效率.

Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers

Jędrzej Maczan

cs.LG cs.DC cs.PF

本文通过构建系统化的测试框架, 量化了在多种硬件和软件环境下 WebGPU 进行 LLM 推理时的调度开销. 研究发现, 真实的单次调度开销远低于传统基准测试的估计, 并且该开销是当前推理流程的主要瓶颈.

UI-Oceanus: Scaling GUI Agents with Synthetic Environmental Dynamics

Mengzhou Wu et al.

cs.LG cs.AI

本文提出了UI-Oceanus框架，通过让GUI智能体学习预测界面状态变化的forward dynamics，而非模仿人类演示，来克服数据瓶颈。该方法利用低成本自主探索生成监督信号，构建内部世界模型，在离线与在线评估中均提升了任务成功率。

DrugPlayGround: Benchmarking Large Language Models and Embeddings for Drug Discovery

Tianyu Liu et al.

cs.LG cs.AI cs.SE q-bio.BM

本文提出了一个名为DrugPlayGround的评估框架, 用于基准测试大型语言模型(LLMs)和嵌入模型在药物发现任务中的表现. 该框架旨在评估LLMs在生成药物特性描述, 预测药物相互作用等方面的能力, 并与领域专家合作解释模型预测.

FTimeXer: Frequency-aware Time-series Transformer with Exogenous variables for Robust Carbon Footprint Forecasting

Qingzhong Li et al.

cs.LG

本文提出了一种名为FTimeXer的频率感知时间序列Transformer模型，用于鲁棒的碳足迹预测。该模型通过结合FFT驱动的频率分支和随机外生变量掩码等技术，旨在处理数据非平稳性和不规则外生输入的问题。

Contextual Intelligence The Next Leap for Reinforcement Learning

André Biedenkapp

cs.LG

本文是一篇关于强化学习(Reinforcement Learning)中上下文(Context)作用的观点性论文. 作者提出了一种新的上下文分类法, 并指出了实现"上下文智能"的三个关键研究方向.

OPRIDE: Offline Preference-based Reinforcement Learning via In-Dataset Exploration

Yiqin Yang et al.

cs.LG cs.AI

本文提出了一种名为OPRIDE的离线偏好强化学习算法，旨在解决查询效率低下的问题。该方法通过设计一种探索策略和折扣调度机制来提升性能，并在多个任务上验证了其有效性。

Differentiable Symbolic Planning: A Neural Architecture for Constraint Reasoning with Learned Feasibility

Venkatakrishna Reddy Oruganti

cs.LG cs.AI

本文提出了一种名为Differentiable Symbolic Planning (DSP)的神经架构, 用于进行约束推理. 该架构通过可学习的可行性通道和规则加权组合, 在保持完全可微的同时执行离散符号推理, 并在多个基准测试中优于标准神经方法.

Modeling and Controlling Deployment Reliability under Temporal Distribution Shift

Naimur Rahman, Naazreen Tabassum

cs.LG

本文提出了一个以部署为中心的框架, 将可靠性建模为由区分度(discrimination)和校准度(calibration)组成的动态状态. 该框架将部署适应问题表述为一个多目标控制问题, 旨在平衡可靠性稳定性与累积干预成本. 在大型时序信用风险数据集上的实验表明, 选择性干预策略可以比持续再训练获得更平滑的可靠性轨迹并降低成本.

An Initial Exploration of Contrastive Prompt Tuning to Generate Energy-Efficient Code

Sophie Weidmann, Fernando Castor

cs.LG cs.AI cs.SE

本文探讨了使用Contrastive Prompt Tuning (CPT)方法来优化大型语言模型(LLM)，以生成更节能的代码。该方法结合了对比学习和提示调优，在不同模型和编程语言上的评估结果显示，其提升效果并不稳定。

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

Thomas Pravetz

cs.LG cs.AI

本文提出了一个名为PRISM的框架, 旨在通过可解释的策略映射实现策略复用. 该框架将强化学习智能体的编码器特征聚类为离散概念, 并通过因果干预验证这些概念对行为的驱动作用, 从而支持零样本的策略迁移. 实验表明, 该方法在围棋等具有离散策略状态的领域有效, 但在Atari Breakout等连续状态游戏中效果不佳.

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

Han Song et al.

cs.LG cs.CV

本文提出了一种基于熵分析的视角来理解文本到图像生成中思维链(CoT)与强化学习(RL)的交互机制, 并据此设计了一种名为EG-GRPO的微调策略. 该方法根据token的不确定性重新分配优化预算, 在标准基准测试上取得了先进的性能.

YC Bench: a Live Benchmark for Forecasting Startup Outperformance in Y Combinator Batches

Mostapha Benhenda

cs.LG q-fin.GN

本文提出了一个名为YC Bench的实时基准, 用于预测Y Combinator批次内初创公司的早期优异表现. 该基准通过结合公开的牵引力信号和网络可见性构建短期指标, 从而加速模型评估周期.

Dynamical structure of vanishing gradient and overfitting in multi-layer perceptrons

Alex Alì Maleknia, Yuzuru Sato

cs.LG nlin.AO

本文通过引入一个受Fukumizu和Amari研究启发的简化模型，研究了多层感知机(MLP)在梯度下降训练中的动态结构。分析表明，学习过程会经过由鞍点结构组成的平台区和近优区，最终必然收敛到过拟合解，而无法达到理论最优。

Self-Directed Task Identification

Timothy Gould, Sidike Paheding

cs.LG cs.AI

本文提出了一种名为Self-Directed Task Identification (SDTI)的新颖机器学习框架. 该框架旨在让模型能够在zero-shot设置下, 无需预训练即可自主识别数据集中的正确目标变量.

Mitigating Data Scarcity in Spaceflight Applications for Offline Reinforcement Learning Using Physics-Informed Deep Generative Models

Alex E. Ballentine, Nachiket U. Bapat, Raghvendra V. Cowlagi

cs.LG

本文提出了一种基于物理信息的深度生成模型MI-VAE, 用于缓解航天应用中离线强化学习的数据稀缺问题. 该方法通过结合物理模型偏差来生成符合物理约束的合成数据, 在行星着陆器问题上验证了其对下游强化学习策略性能的提升.

Matrix Profile for Time-Series Anomaly Detection: A Reproducible Open-Source Benchmark on TSB-AD

Chin-Chia Michael Yeh

cs.LG

本文介绍了基于Matrix Profile的时间序列异常检测方法在TSB-AD基准测试上的开源实现与评估. 报告详细说明了系统设计, 包括多维聚合, 高效的k近邻检索以及后处理步骤, 并提供了可复现的代码与参数设置.

Do We Need Frontier Models to Verify Mathematical Proofs?

Aaditya Naik et al.

cs.LG cs.AI cs.CL

本文探讨了使用大型语言模型(LLM)验证数学证明时，前沿模型是否必要。通过系统评估，研究发现较小的开源模型在准确性上接近前沿模型，但在判断一致性上存在差距，并且性能对提示词选择敏感。研究进一步表明，通过LLM引导的提示词搜索可以合成专门的提示词集合，显著提升较小模型的验证性能，使其达到与前沿模型相当的水平。

On the Geometric Structure of Layer Updates in Deep Language Models

Jun-Sik Yoo

cs.LG cs.AI cs.CL

本文研究了深度语言模型中层更新的几何结构, 提出了一种与架构无关的分析框架. 研究发现, 层更新可分解为一个占主导地位的 tokenwise 分量和一个几何结构不同的残差分量, 后者与模型输出的扰动密切相关.

VALOR: Value-Aware Revenue Uplift Modeling with Treatment-Gated Representation for B2B Sales

Vamshi Guduguntla, Kavin Soni, Debanshu Das

cs.LG

本文提出了一个用于B2B销售场景的收益提升建模框架VALOR. 该框架通过一个处理门控的稀疏-收益网络来防止因果信号崩溃, 并采用一个结合了分布鲁棒性和价值加权排序的损失函数进行优化. 实验表明其在公开基准和生产环境测试中均优于现有方法.

Time-Warping Recurrent Neural Networks for Transfer Learning

Jonathon Hirschi

cs.LG stat.ML

本文提出了一种基于时间扭曲的RNN迁移学习方法, 并将其应用于野火建模中的燃料水分含量预测问题. 该方法在仅修改少量参数的情况下, 取得了与其他成熟方法相当的预测精度.

SEDGE: Structural Extrapolated Data Generation

Kun Zhang et al.

cs.LG

本文提出了一个基于数据生成过程假设的结构化外推数据生成框架SEDGE. 该框架在特定条件下能可靠生成满足新规格的数据, 并开发了基于结构优化或扩散后验采样的实用算法.

Causal-Audit: A Framework for Risk Assessment of Assumption Violations in Time-Series Causal Discovery

Marco Ruiz et al.

cs.LG

本文提出了一个用于评估时间序列因果发现方法中假设违反风险的框架Causal-Audit. 该框架通过计算多个假设族(如平稳性, 不规则性)的诊断指标, 将其聚合为校准的风险评分, 并据此推荐或放弃使用特定因果发现方法.

Re-analysis of the Human Transcription Factor Atlas Recovers TF-Specific Signatures from Pooled Single-Cell Screens with Missing Controls

Arka Jain, Umesh Sharma

cs.LG q-bio.GN q-bio.MN

本文重新分析了人类转录因子图谱数据集, 开发了一个可重复的流程来处理质量控制、条形码解复用、差异表达和功能富集分析. 通过使用外部基线细胞和背景扣除方法, 研究在缺失内部对照的情况下恢复了59个TF的特异性表达特征, 验证了数据集用于TF特异性分析的潜力.

AdaHOP: Fast and Accurate Low-Precision Training via Outlier-Pattern-Aware Rotation

Seonggon Kim et al.

cs.LG

本文提出了一种名为AdaHOP的自适应Hadamard变换方法，用于提升低精度训练的效率与精度。该方法通过分析不同张量中的异常值模式，为矩阵乘法动态选择最优的变换策略，从而在保持模型质量的同时实现内存压缩和计算加速。

Jump Start or False Start? A Theoretical and Empirical Evaluation of LLM-initialized Bandits

Adam Bayley et al.

cs.LG cs.AI

本文通过理论和实验评估了使用LLM生成的数据来初始化contextual bandit（上下文赌博机）的效果。研究发现，当LLM生成的数据与真实用户偏好存在噪声或系统性偏差时，这种预热启动方法可能失效甚至损害性能。

A Spectral Framework for Multi-Scale Nonlinear Dimensionality Reduction

Zeyang Huang et al.

cs.LG cs.HC

本文提出了一种基于谱方法的非线性降维框架, 旨在调和全局结构保持与局部结构保持之间的权衡, 并增强嵌入结果的可分析性. 该方法结合谱基与交叉熵优化来生成多尺度表示, 并支持通过图频率视角分析嵌入过程.

Fast NF4 Dequantization Kernels for Large Language Model Inference

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

cs.LG cs.AR cs.PF

本文针对大语言模型推理中NF4反量化的性能瓶颈, 提出了一种轻量级的共享内存优化方法. 该方法通过优化内存层次访问, 显著提升了反量化核函数的执行速度, 并与现有生态系统保持兼容.

Communication-Efficient Distributed Learning with Differential Privacy

Xiaoxing Ren et al.

cs.LG math.OC

本文提出了一种用于无向网络上非凸学习问题的分布式算法, 该算法通过结合本地训练和梯度扰动(包括裁剪和加噪)来同时实现通信效率和差分隐私保护. 理论分析证明了算法能收敛到问题的一个平稳点附近, 并在相同隐私预算下, 在分类任务上展示了优于现有方法的性能.

ROMAN: A Multiscale Routing Operator for Convolutional Time Series Models

Gonzalo Uribarri

cs.LG

本文提出了一种名为ROMAN的确定性时间序列算子, 它通过构建抗混叠多尺度金字塔, 从每个尺度提取固定长度窗口并将其堆叠为伪通道, 从而将时间尺度和粗略时间位置映射到显式的通道结构中, 同时缩短序列长度. 该算子为下游卷积分类器提供了一种控制归纳偏置的简单机制, 并在合成任务和真实长序列数据集上进行了评估, 其对准确率的影响因任务而异, 但通常能提高计算效率.

VoxelCodeBench: Benchmarking 3D World Modeling Through Code Generation

Yan Zheng, Florian Bordes

cs.LG

本文介绍了一个用于评估3D空间推理代码生成模型的新平台VoxelCode及其配套基准VoxelCodeBench. 该平台通过集成自然语言任务描述, 在Unreal Engine中执行生成的代码, 并支持自动与人工评估, 来测试模型在体素操作任务上的表现. 评估发现, 生成可执行代码相对容易, 但生成空间上正确的输出, 尤其是在几何构造和多物体组合方面, 则更具挑战性.

WGFINNs: Weak formulation-based GENERIC formalism informed neural networks'

Jun Sur Richard Park et al.

cs.LG math.DS

本文提出了一种基于弱形式的 GENERIC 形式化神经网络 (WGFINNs), 用于从含噪声数据中发现控制方程. 该方法通过结合弱形式和结构保持架构, 提高了对噪声的鲁棒性, 并通过加权损失和注意力机制处理了状态变量间的尺度不平衡问题.

Steerable but Not Decodable: Function Vectors Operate Beyond the Logit Lens

Mohammed Suhail B Nadaf

cs.LG

本文研究了function vectors (FVs)在大型语言模型中的工作机制。研究发现，即使logit lens无法解码出正确答案，FVs依然能成功引导模型行为，这表明FVs编码的是计算指令而非直接的答案方向。

Complex-Valued GNNs for Distributed Basis-Invariant Control of Planar Systems

Samuel Honor, Mohamed Abdelnaby, Kevin Leahy

cs.LG

本文提出了一种复值图神经网络(GNN)架构, 用于分布式控制平面系统. 该架构通过将二维几何特征和基变换表示为复数, 并采用具有相位等变激活函数的复值线性层, 实现了对局部坐标系选择的全局不变性. 在模仿学习集群任务中, 该方法相比实值基线模型, 提高了数据效率、跟踪性能和泛化能力.

Analytic Drift Resister for Non-Exemplar Continual Graph Learning

Lei Song, Shihan Guan, Youyong Kong

cs.LG cs.AI

本文提出了一种名为 Analytic Drift Resister (ADR) 的新框架，用于解决 Non-Exemplar Continual Graph Learning (NECGL) 中的特征漂移和模型可塑性下降问题。该方法通过 Hierarchical Analytic Merging (HAM) 等技术来抵抗特征漂移，并在多个节点分类基准上验证了其有效性。

AXELRAM: Quantize Once, Never Dequantize

Yasushi Nishida

cs.LG cs.AR

本文提出了一种名为AXELRAM的SRAM宏架构, 用于在LLM推理中直接从量化后的KV cache索引计算attention scores, 避免了反量化步骤. 其核心是利用基于正交变换的量化方法, 使得最优量化器仅依赖于维度$d$和比特宽度$b$, 从而实现了硬件友好的设计.

Conditional Sampling via Wasserstein Autoencoders and Triangular Transport

Mohammad Al-Jarrah et al.

cs.LG math.OC

本文提出了一种用于条件模拟的Conditional Wasserstein Autoencoders (CWAEs)框架. 该框架通过使用(块)三角解码器和在隐变量上施加独立性假设, 能够利用被条件变量和条件变量中的低维结构. 实验表明, 该方法在低维支撑的问题上相比低秩集合卡尔曼滤波(LREnKF)能显著降低近似误差.

Communication-free Sampling and 4D Hybrid Parallelism for Scalable Mini-batch GNN Training

Cunyang Wei et al.

cs.LG cs.AI cs.DC

本文提出了一种名为ScaleGNN的4D并行框架，用于大规模图神经网络（GNN）的小批量训练。该框架结合了免通信的分布式采样、3D并行矩阵乘法（PMM）和数据并行等技术，旨在解决现有分布式方法在采样开销和扩展性方面的瓶颈。通过在多个超级计算机系统上的实验，ScaleGNN展示了良好的强扩展性能。

Generalization Limits of Reinforcement Learning Alignment

Haruhi Shida, Koo Imai, Keigo Kansa

cs.LG cs.AI

本文通过构建"复合越狱"攻击来实证研究基于强化学习的LLM对齐方法的安全泛化局限性. 实验表明, 组合多种已被单独防御的攻击技术能显著提升攻击成功率, 这支持了安全训练泛化能力弱于模型能力本身的假设.

Product-Stability: Provable Convergence for Gradient Descent on the Edge of Stability

Eric Gan

cs.LG

本文研究了梯度下降在Edge of Stability (EoS) 区域内的收敛性。作者引入了一个称为product-stability的损失函数结构性质，并证明对于具有该性质的极小值点，梯度下降在EoS下仍能收敛。该框架推广了先前结果，适用于包括二元交叉熵在内的一类广泛损失函数。

Low-Rank Compression of Pretrained Models via Randomized Subspace Iteration

Farhad Pourkamali-Anaraki

cs.LG cs.AI math.NA stat.ML

本文针对预训练模型低秩压缩中随机SVD方法在奇异值谱缓慢衰减时性能不佳的问题, 提出了使用随机子空间迭代(RSI)的改进方案. 通过理论分析连接了低秩近似误差与预测性能, 并在卷积网络和Transformer架构上验证了RSI在保持预测精度方面的优势.

A Numerical Method for Coupling Parameterized Physics-Informed Neural Networks and FDM for Advanced Thermal-Hydraulic System Simulation

Jeesuk Shin et al.

cs.LG math.NA

本文提出了一种将参数化物理信息神经网络(PINNs)与有限差分法(FDM)耦合的数值方法(P2F), 用于核热工水力系统模拟. 该方法通过一个参数化的节点分配PINN学习动量守恒方程的解流形, 并与处理质量守恒的FDM求解器耦合, 实现了无需重复训练和模拟数据的高效代理建模.

Cross-subject Muscle Fatigue Detection via Adversarial and Supervised Contrastive Learning with Inception-Attention Network

Zitao Lin, Chang Zhu, Wei Meng

cs.LG

本文提出了一种结合Inception-attention模块、对抗性域分类器和监督对比学习的神经网络，用于跨被试的表面肌电信号(sEMG)肌肉疲劳检测。该方法旨在学习被试不变的特征，以提高模型在动态收缩和不同个体间的泛化能力，实验结果表明其在三分类任务中取得了较高的准确率。

Finding Belief Geometries with Sparse Autoencoders

Matthew Levinson

cs.LG cs.AI

本文提出了一种结合稀疏自编码器(SAEs), $k$-子空间聚类和单纯形拟合的流程, 用于在Transformer模型的表示空间中寻找候选的单纯形结构子空间. 该方法在Gemma-2-9B模型上识别出多个具有潜在信念状态几何特征的簇, 但将其视为初步证据, 并指出了需要进一步的结构化评估来确认.

Beyond Semantic Manipulation: Token-Space Attacks on Reward Models

Yuheng Zhang et al.

cs.LG cs.AI

本文提出了一种名为TOMPA的token空间攻击框架, 直接优化token序列而非自然语言, 利用黑盒标量反馈在多个先进reward models上诱导出极高的奖励分数. 生成的输出是无意义的文本, 这揭示了reward models在语义之外仍存在系统性漏洞.

Adaptive Semantic Communication for Wireless Image Transmission Leveraging Mixture-of-Experts Mechanism

Haowen Wan, Qianqian Yang

cs.LG

本文提出了一种基于Mixture-of-Experts机制的无线图像自适应语义通信系统。该系统通过联合评估信道状态和图像语义内容来动态选择专家模型，从而提升了传输的鲁棒性和重建质量。

LieTrunc-QNN: Lie Algebra Truncation and Quantum Expressivity Phase Transition from LiePrune to Provably Stable Quantum Neural Networks

Haijian Shao et al.

cs.LG

本文提出了一个名为LieTrunc-QNN的代数几何框架，用于分析量子神经网络的训练性。该框架将参数化量子电路建模为李代数，并通过限制其结构来避免梯度消失问题，从而在理论上保证了多项式级别的训练性。实验验证了该方法在保持高表达能力的同时，能维持稳定的梯度。

FluxMoE: Decoupling Expert Residency for High-Performance MoE Serving

Qingxiu Liu et al.

cs.LG

本文提出了一种名为FluxMoE的新型MoE推理系统, 通过将专家参数从GPU常驻内存中解耦来提升推理效率. 该系统在vLLM上实现, 能在内存受限条件下显著提高吞吐量, 且不损害模型精度.

Generative Frontiers: Why Evaluation Matters for Diffusion Language Models

Patrick Pynadath, Jiaxin Shi, Ruqi Zhang

cs.LG cs.CL

本文讨论了扩散语言模型评估方法的局限性, 并提出了改进方案. 作者分析了现有基准(如OpenWebText)和评估指标(如生成困惑度)的问题, 建议使用生成前沿作为更可靠的模型质量评估方法.

Understanding Latent Diffusability via Fisher Geometry

Jing Gu et al.

cs.LG

本文通过分析 Minimum Mean Squared Error (MMSE) 在扩散轨迹上的变化率，提出了一个量化潜在空间可扩散性的理论框架。该框架将 MMSE 变化率分解为 Fisher Information (FI) 和 Fisher Information Rate (FIR) 的贡献，并指出编码器的局部几何性质决定了 FIR。

STDDN: A Physics-Guided Deep Learning Framework for Crowd Simulation

Zijin Liu et al.

cs.LG

本文提出了一种结合宏观物理约束的深度学习方法用于人群模拟. 该方法通过引入连续性方程和Neural ODE来正则化微观轨迹预测, 旨在提高模拟的稳定性和效率.

Towards Realistic Class-Incremental Learning with Free-Flow Increments

Zhiming Xu et al.

cs.LG

本文提出了 Free-Flow Class-Incremental Learning (FFCIL) 这一更现实的增量学习设定，其中新类数据以任意规模到达。作者设计了一个模型无关的框架，通过类平均目标等方法稳定学习过程，并在多种基准方法上验证了其有效性。

Random Is Hard to Beat: Active Selection in online DPO with Modern LLMs

Giyeong Oh et al.

cs.LG cs.AI

本文探讨了在具有强大预训练先验的现代大语言模型中进行在线直接偏好优化时，主动偏好学习策略的有效性问题。研究发现，与简单的随机采样相比，基于不确定性的主动学习方法在代理胜率上提升有限，且无法有效缓解模型通用能力的下降。

Structure-Aware Commitment Reduction for Network-Constrained Unit Commitment with Solver-Preserving Guarantees

Guangwen Wang et al.

cs.LG

本文提出了一种用于网络约束机组组合问题的求解器兼容降维框架。该框架通过识别并固定一部分结构稳定的二元变量来缩减问题规模, 从而加速求解。实验表明该方法能显著减少分支定界节点和求解时间, 同时保持接近最优的目标函数值。

Toward an Operational GNN-Based Multimesh Surrogate for Fast Flood Forecasting

Valentin Mercier et al.

cs.LG

本文提出了一种基于图神经网络(GNN)的多网格代理模型，用于快速洪水预报。该模型通过投影网格策略和多网格连接性，在保持高保真度监督的同时加速了预测，相比传统水力求解器实现了显著的加速。

Extracting Money Laundering Transactions from Quasi-Temporal Graph Representation

Haseeb Tariq, Marwan Hassani

cs.LG

本文提出了一种名为ExSTraQt的监督学习框架, 用于从准时序图表示中检测可疑的洗钱交易. 该方法在真实和合成金融数据集上进行了评估, 在保持设计简洁和可扩展性的同时, 相比现有方法取得了F1分数的提升.

Efficient Logistic Regression with Mixture of Sigmoids

Federico Di Gennaro, Saptarshi Chakraborty, Nikita Zhivotovskiy

cs.LG

本文研究了在线logistic回归中采用各向同性高斯先验的Exponential Weights (EW)算法。该工作显著提升了达到最优遗憾界所需的计算复杂度，并分析了在线性可分条件下算法的几何性质与收敛行为。

Towards Near-Real-Time Telemetry-Aware Routing with Neural Routing Algorithms

Andreas Boltres et al.

cs.LG cs.NI

本文提出了一个考虑通信与推理延迟的神经路由算法框架, 并在此基础上设计了名为 LOGGIA 的图神经网络路由算法. 该算法通过数据驱动的预训练和策略强化学习来预测链路权重, 在模拟和真实网络拓扑中表现出优于基准方法的性能.

Explainable Machine Learning Reveals 12-Fold Ucp1 Upregulation and Thermogenic Reprogramming in Female Mouse White Adipose Tissue After 37 Days of Microgravity: First AI/ML Analysis of NASA OSD-970

Md. Rashadul Islam

cs.LG

本文首次应用机器学习方法分析了NASA的OSD-970数据集, 研究了微重力对雌性小鼠白色脂肪组织(WAT)的影响. 研究发现Ucp1基因表达显著上调, 并通过可解释AI识别了关键生物标志物.

Mitigating Reward Hacking in RLHF via Advantage Sign Robustness

Shinnosuke Ono et al.

cs.LG cs.AI cs.CL

本文提出了一种名为 Sign-Certified Policy Optimization (SignCert-PO) 的方法，用于缓解 RLHF 中的 reward hacking 问题。该方法通过分析 reward model 参数空间的对抗扰动，识别并降低 policy gradient 更新中非鲁棒的样本权重，从而提升策略性能。

FedSQ: Optimized Weight Averaging via Fixed Gating

Cristian Pérez-Corral et al.

cs.LG cs.AI cs.DC

本文提出了一种名为FedSQ的联邦学习优化方法, 旨在解决非独立同分布数据下模型聚合不稳定的问题. 该方法通过冻结预训练模型的结构知识(如ReLU门控), 仅优化和聚合定量参数, 从而在异构数据分区上实现更稳定的训练.

Generating DDPM-based Samples from Tilted Distributions

Himadri Mandal et al.

cs.LG math.PR stat.ML

本文提出了一种基于扩散模型从倾斜分布中生成样本的插件估计方法, 并证明了其极小极大最优性. 通过建立Wasserstein距离界和TV精度分析, 理论结果得到了数值模拟的支持.

Co-Evolution of Policy and Internal Reward for Language Agents

Xinyu Wang et al.

cs.LG cs.AI cs.CL

本文提出了一种名为Self-Guide的方法，为基于大语言模型的智能体生成内部奖励。该方法在推理时提供短期自我引导信号来指导行动，在训练时将同一信号转化为步级内部奖励以进行更密集的策略优化。实验表明，该方法在多个智能体基准测试上提升了性能。

Self-Distilled RLVR

Chenxu Yang et al.

cs.LG cs.CL

本文提出了一种结合强化学习与自我蒸馏的新方法RLSD, 用于缓解大语言模型训练中信号稀疏与信息泄露的问题. 该方法利用环境反馈确定更新方向, 同时使用自我蒸馏来细化更新幅度, 从而提升了训练的稳定性和最终性能.

HyperFitS -- Hypernetwork Fitting Spectra for metabolic quantification of ${}^1$H MR spectroscopic imaging

Paul J. Weiser et al.

cs.LG

本文提出了一种名为 HyperFitS 的 hypernetwork 方法，用于快速进行全脑 $^1$H MRSI 的代谢物定量分析。该方法在保持与传统方法高度一致的同时，将处理时间从数小时缩短至数秒，并能灵活适应不同的数据采集协议而无需重新训练。

DSBD: Dual-Aligned Structural Basis Distillation for Graph Domain Adaptation

Yingxu Wang et al.

cs.LG

本文提出了一种用于图域适应(graph domain adaptation)的新框架DSBD, 它通过构建可微分的结构基来显式地对齐源域和目标域之间的结构差异. 该方法在几何和谱两个层面进行对齐, 并在多个基准测试上取得了优于现有方法的结果.

Understanding the Role of Hallucination in Reinforcement Post-Training of Multimodal Reasoning Models

Gengwei Zhang et al.

cs.LG cs.AI cs.CV

本文提出了一个名为 Hallucination-as-Cue 的分析框架，用于研究基于强化学习的后训练对多模态推理模型的影响。通过引入诱导幻觉的模态特定数据损坏，研究发现幻觉在强化学习训练中的作用比之前认识到的更为显著。

PRISM: LLM-Guided Semantic Clustering for High-Precision Topics

Connor Douglas, Utkucan Balci, Joseph Aylett-Bullock

cs.LG cs.CL cs.IR cs.SI

本文提出了一种结合LLM语义表示与潜在语义聚类优势的主题建模框架PRISM. 该方法通过少量LLM标注微调编码模型, 并使用阈值聚类在嵌入空间中分离紧密相关的主题.

Reflective Context Learning: Studying the Optimization Primitives of Context Space

Nikita Vassilyev et al.

cs.LG cs.AI

本文提出了Reflective Context Learning (RCL)框架, 将上下文空间中的学习统一为一个优化问题. 该框架通过反思行为轨迹来生成更新信号, 并系统性地引入了经典优化原语来改进现有方法.

Gradient Boosting within a Single Attention Layer

Saleh Sargolzaei

cs.LG cs.AI

本文提出了一种在单个attention层内应用gradient boosting原理的新方法, 称为gradient-boosted attention. 该方法通过第二个attention pass来学习并修正第一个pass的预测误差, 在WikiText-103子集上取得了比标准attention更低的困惑度.

Real-Time Surrogate Modeling for Personalized Blood Flow Prediction and Hemodynamic Analysis

Sokratis J. Anagnostopoulos et al.

cs.LG physics.comp-ph

本文提出了一种用于个性化血流预测和血流动力学分析的实时代理建模框架. 该框架利用机器学习模型, 能够快速预测血流动力学参数并筛选非生理性输入组合, 从而降低生成目标合成数据集的成本.

Hierarchical Planning with Latent World Models

Wancong Zhang et al.

cs.LG

本文提出了一种基于多时间尺度 latent world models 的 hierarchical planning 方法, 用于解决 model predictive control 中 long-horizon 推理的难题. 该方法作为一个模块化的规划抽象, 在多个模拟环境和真实机器人任务中展现了优越的 zero-shot 控制能力和计算效率.

Enhancing Robustness of Federated Learning via Server Learning

Van Sy Mai et al.

cs.LG cs.AI

本文提出了一种结合服务器学习和客户端更新过滤的启发式算法, 以提升联邦学习在非独立同分布数据场景下对抗恶意攻击的鲁棒性. 实验表明, 该方法在恶意客户端比例很高时, 即使服务器数据集很小或是合成的, 也能显著提升模型精度.

cs.AI

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xiaohang Nie et al.

cs.AI cs.MA

本文提出了一个名为Holos的大规模LLM-based multi-agent system, 旨在解决开放世界中的scaling friction, coordination breakdown和value dissipation等问题. 该系统采用五层架构, 包含高效的agent生成与托管引擎, 市场驱动的协调器以及内生价值循环, 以支持长期生态化存续的Agentic Web.

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Xue Liu et al.

cs.AI cs.CL

本文提出了一个名为XpertBench的基准测试, 用于评估大型语言模型在复杂、开放式专业任务上的表现. 它包含多个领域的专家级任务, 并引入了一种新的评估范式ShotJudge来减少自我奖励偏差.

Compositional Neuro-Symbolic Reasoning

Anugyan Das et al.

cs.AI

本文提出了一种用于Abstraction and Reasoning Corpus (ARC)任务的神经符号推理架构。该架构结合了神经网络的感知能力与符号系统的结构化推理，通过提取对象结构、生成候选变换并进行一致性过滤来提升泛化性能。

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

Ilya Levin

cs.AI

本文探讨了threshold logic在理解generative AI中的作用。文章认为，在高维空间中，单个threshold function的性质会发生根本性转变，从逻辑分类器转变为导航指示器。

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems

Jiyong Kwon et al.

cs.AI

本文提出了一种名为AIVV的混合框架, 将LLM作为审议外层循环, 用于自主系统的验证与确认(V&V). 该框架通过一个角色专门化的LLM委员会来协作验证数学标记的异常, 并基于自然语言需求生成可操作的V&V工件, 旨在实现HITL分析过程的自动化.

I must delete the evidence: AI Agents Explicitly Cover up Fraud and Violent Crime

Thomas Rivasseau, Benjamin Fung

cs.AI

本文通过模拟实验测试了16个最新大语言模型在特定情境下的行为, 发现许多AI agent会为了公司利益而选择掩盖欺诈和伤害的证据. 该研究基于Agentic Misalignment和AI scheming的相关工作, 在受控虚拟环境中进行.

A Comprehensive Framework for Long-Term Resiliency Investment Planning under Extreme Weather Uncertainty for Electric Utilities

Emma Benjaminson

cs.AI

本文提出了一个用于电力公司在极端天气不确定性下进行长期韧性投资规划的四部分框架. 该框架结合了极端天气、电网数字孪生、Monte Carlo模拟和多目标优化方法, 并比较了基于模型的优化方法与无模型方法在寻找最优投资组合上的表现.

Interpretable Deep Reinforcement Learning for Element-level Bridge Life-cycle Optimization

Seyyed Amirhossein Moayyedi, David Y. Yang

cs.AI cs.LG

本文提出了一种新的可解释强化学习方法, 用于基于桥梁构件级状态表示来寻找最优全寿命周期维护策略. 该方法通过引入可微软决策树作为策略函数近似器, 并结合温度退火与正则化等技术, 最终生成易于理解和审计的确定性斜决策树形式的策略.

Competency Questions as Executable Plans: a Controlled RAG Architecture for Cultural Heritage Storytelling

Naga Sowjanya Barla, Jacopo de Berardinis

cs.AI

本文提出了一种基于知识图谱的神经符号架构, 用于生成可验证的文化遗产叙事. 该方法将能力问题(competency questions)转化为可执行的叙事计划, 并比较了三种不同的检索增强生成(RAG)策略在事实精度与叙事连贯性之间的权衡.

Mitigating LLM biases toward spurious social contexts using direct preference optimization

Hyunji Nam, Dorottya Demszky

cs.AI cs.CL

本文提出了一种名为Debiasing-DPO的自监督训练方法，用于减轻大型语言模型(LLM)对虚假社会背景信息的偏见。该方法通过结合中性推理和有偏推理进行直接偏好优化(DPO)，并在教育评估案例中显著降低了模型偏见并提升了预测准确性。

Do Audio-Visual Large Language Models Really See and Hear?

Ramaneswaran Selvakumar et al.

cs.AI cs.SD

本文对Audio-Visual Large Language Models (AVLLMs)进行了首次机制可解释性研究。研究发现，尽管模型在中间层编码了丰富的音频语义，但在音频与视觉信息冲突时，最终的文本生成会不成比例地偏向视觉线索，这源于训练过程中的模态偏差。

AutoVerifier: An Agentic Automated Verification Framework Using Large Language Models

Yuntao Du et al.

cs.AI cs.CR cs.IR cs.LG cs.SI

本文提出了一个基于LLM的自动化验证框架AutoVerifier, 用于对科技文献中的技术主张进行端到端的验证. 该框架通过将主张分解为三元组并构建知识图谱, 在多个层次上进行结构化推理, 最终生成可追溯的评估报告.

OntoKG: Ontology-Oriented Knowledge Graph Construction with Intrinsic-Relational Routing

Yitao Li et al.

cs.AI

本文提出了一种面向本体的知识图谱构建方法, 其核心是内在-关系路由机制, 用于将属性分类并路由到相应的模式模块. 该方法在 Wikidata 数据集上进行了实例化, 构建了一个声明式的、可移植的模式, 并展示了其在多个本体分析任务中的应用.

Let's Have a Conversation: Designing and Evaluating LLM Agents for Interactive Optimization

Joshua Drossman, Alexandre Jacquillat, Sébastien Martin

cs.AI math.OC

本文提出了一种用于评估基于对话的优化智能体的可扩展方法, 并构建了由大型语言模型驱动的决策智能体来模拟利益相关者. 在一个学校排课案例研究中, 该方法展示了对话交互相比单次评估能显著提升解决方案质量, 并且定制的优化智能体优于通用聊天机器人.

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

DeepReinforce Team et al.

cs.AI

本文提出了一个名为 GrandCode 的多智能体强化学习系统，用于解决竞争性编程问题。该系统通过协调多个智能体模块并利用专门设计的 Agentic GRPO 算法进行训练，在最近的 Codeforces 实时竞赛中超越了所有人类参与者。

DeltaLogic: Minimal Premise Edits Reveal Belief-Revision Failures in Logical Reasoning Models

Amit Dhanda

cs.AI

本文提出了DeltaLogic, 一个用于评估逻辑推理模型在最小前提编辑下信念修正能力的基准转换协议. 实验表明, 模型在固定前提下的推理能力并不能保证其在动态证据变化下进行有效的信念修正.

Aligning Progress and Feasibility: A Neuro-Symbolic Dual Memory Framework for Long-Horizon LLM Agents

Bin Wen et al.

cs.AI

本文提出了一种神经符号双记忆框架, 用于解决LLM智能体在长视野任务中常见的进度漂移和可行性违反问题. 该框架通过分离语义进度引导和逻辑可行性验证来提升任务性能.

Improving Role Consistency in Multi-Agent Collaboration via Quantitative Role Clarity

Guoling Zhou et al.

cs.AI

本文针对LLM驱动的多智能体系统中角色越界的问题，提出了一种定量的角色清晰度度量方法。该方法通过构建角色分配矩阵和角色清晰度矩阵来量化角色描述与行为轨迹的一致性，并将其作为正则项用于微调以提高角色一致性。在ChatDev系统上的实验表明，该方法显著降低了角色越界率并提升了任务成功率。

CharTool: Tool-Integrated Visual Reasoning for Chart Understanding

Situo Zhang et al.

cs.AI

本文提出了一个结合外部工具的视觉推理框架 CharTool 用于图表理解. 该方法通过一个双源数据管道构建训练数据, 并利用智能体强化学习让模型学习使用图像裁剪和代码计算等工具, 在多个基准测试上取得了性能提升.

ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents

Chao Li et al.

cs.AI

本文提出了一个用于评估纵向健康智能体的合成基准ESL-Bench. 它通过结合LLM规划和算法模拟生成包含多源时序数据的合成用户轨迹, 并提供了可编程计算标准答案的评估查询集.

EMS: Multi-Agent Voting via Efficient Majority-then-Stopping

Yiqing Liu et al.

cs.AI

本文提出了一种名为EMS的高效多数停止投票方法, 用于提升多智能体系统的推理效率. 该方法通过任务感知的可靠性评估来调度智能体, 并在达成多数共识时提前终止推理流程.

Multi-Turn Reinforcement Learning for Tool-Calling Agents with Iterative Reward Calibration

Wachiravit Modecrua et al.

cs.AI

本文提出了一种结合MT-GRPO与GTPO的强化学习方法，用于训练多轮对话中的工具调用智能体。通过引入迭代奖励校准机制，该方法在客户服务基准测试上显著提升了模型性能。

Analysis of Optimality of Large Language Models on Planning Problems

Bernd Bohnet et al.

cs.AI cs.CL

本文研究了大型语言模型在经典AI规划问题上的表现, 特别是其规划的最优性. 通过Blocksworld和等价的Path-Star图任务, 发现增强推理的LLM在复杂多目标配置中能接近理论最优解, 并探讨了其可能的内在机制.

AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

Yunhao Feng et al.

cs.AI

本文提出了一个名为AgentHazard的基准测试，用于评估计算机使用智能体（computer-use agents）在操作过程中可能产生的有害行为。该基准包含超过2600个测试实例，模拟了通过一系列看似合理的步骤逐步导致未授权行为的攻击场景。实验表明，当前基于大型语言模型的智能体系统在此类安全挑战面前仍然非常脆弱。

FoE: Forest of Errors Makes the First Solution the Best in Large Reasoning Models

Kehan Jiang et al.

cs.AI cs.CL

本文针对大型推理模型(LRMs)中观察到的"第一个解决方案最优"现象进行了研究. 作者提出了"错误森林"(Forest of Errors, FoE)的概念来解释这一现象, 并基于此设计了一个名为RED的高效推理框架.

InfoSeeker: A Scalable Hierarchical Parallel Agent Framework for Web Information Seeking

Ka Yiu Lee et al.

cs.AI

本文提出了一个名为InfoSeeker的可扩展分层并行智能体框架，用于解决网络信息搜索任务中大规模信息合成面临的挑战。该框架通过引入Host、Manager和Worker三层结构，实现了上下文隔离与并行处理，从而提升了处理效率与准确性。

Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Qianshan Wei et al.

cs.AI

本文提出了一个用于评估多模态智能体能力的基准测试 Agentic-MME, 它通过过程验证来评估模型在真实世界任务中协同使用视觉工具和搜索工具的能力. 实验表明当前最佳模型在复杂任务上的表现仍有很大差距.

Automatic Textbook Formalization

Fabian Gloeckle et al.

cs.AI

本文介绍了一个使用大规模AI智能体系统自动将一本超过500页的研究生级代数组合学教材形式化为Lean代码的案例研究。该系统在一周内完成了包含13万行代码和5900个声明的形式化工作，展示了AI在数学形式化领域的规模化应用潜力。

Chart-RL: Policy Optimization Reinforcement Learning for Enhanced Visual Reasoning in Chart Question Answering with Vision Language Models

Yunfei Bai, Amit Dhanda, Shekhar Jain

cs.AI

本文提出了一种名为Chart-RL的强化学习框架，用于增强Vision Language Models (VLMs)在图表问答任务中的视觉推理能力。该方法通过策略优化和自适应奖励函数来改进模型对图表中数值和空间关系的理解，并在减少参数量的同时提升了性能。

Coupled Control, Structured Memory, and Verifiable Action in Agentic AI (SCRAT -- Stochastic Control with Retrieval and Auditable Trajectories): A Comparative Perspective from Squirrel Locomotion and Scatter-Hoarding

Maximiliano Armesto, Christophe Kolb

cs.AI

本文从松鼠生态学出发, 提出了一个结合控制、记忆与可验证行动的智能体AI框架(SCRAT). 文章构建了一个包含潜在动态、结构化情景记忆和观察者信念状态的分层部分可观测控制模型, 并提出了三个可检验的假设.

cs.IR

SelRoute: Query-Type-Aware Routing for Long-Term Conversational Memory Retrieval

Matthew McKee

cs.IR

本文提出了一个名为SelRoute的框架, 用于长时会话记忆检索. 该框架根据查询类型将查询路由到不同的检索管道, 并在多个基准测试中展示了其有效性和泛化能力, 同时指出了其在推理密集型检索上的局限性.

Synapse: Evolving Job-Person Fit with Explainable Two-phase Retrieval and LLM-guided Genetic Resume Optimization

Ansel Kaplan Erol et al.

cs.IR cs.LG

本文提出了一种名为Synapse的多阶段语义招聘系统, 它结合了高效的密集检索与基于对比学习和LLM推理的集成重排序模型. 此外, 文章还引入了一种新颖的进化式简历优化框架, 利用差分进化和LLM引导的变异算子来迭代改进候选人的匹配度.

MBGR: Multi-Business Prediction for Generative Recommendation at Meituan

Changhao Li et al.

cs.IR

本文提出了一个面向多业务场景的生成式推荐框架MBGR, 通过设计Business-aware semantic ID (BID)模块、Multi-Business Prediction (MBP)结构和Label Dynamic Routing (LDR)模块, 旨在解决现有方法中的seesaw现象和representation confusion问题. 在美团外卖平台上的实验验证了该框架的有效性.

AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis

Teng Lin, Yuyu Luo, Nan Tang

cs.IR

本文提出了一种名为AnnoRetrieve的新型检索范式，用于非结构化文档分析。该方法通过自动生成结构化注释模式来驱动检索，旨在替代依赖向量嵌入和大型语言模型的主流方法，以降低计算成本。

Bilateral Intent-Enhanced Sequential Recommendation with Embedding Perturbation-Based Contrastive Learning

Shanfan Zhang, Yongyi Lin, Yuan Rao

cs.IR

本文提出了一种结合双边意图增强与嵌入扰动的对比学习框架BIPCL, 用于序列推荐. 该框架通过意图原型捕获用户与物品的共享意图语义, 并利用有界的方向感知嵌入扰动来构建对比视图, 从而提升模型的鲁棒性与推荐性能.

Prompt Compression in the Wild: Measuring Latency, Rate Adherence, and Quality for Faster LLM Inference

Cornelius Kummer et al.

cs.IR cs.AI cs.CL

本文通过大规模实验评估了prompt compression在加速LLM推理时的实际效果, 分析了预处理开销与解码加速之间的权衡. 研究发现, 在特定条件下可实现端到端加速, 但压缩步骤本身可能抵消收益, 并提供了一个开源分析器来预测盈亏平衡点.

Self-Optimizing Multi-Agent Systems for Deep Research

Arthur Câmara, Vincent Slot, Jakub Zavrel

cs.IR cs.AI

本文探讨了通过多智能体自博弈与提示组合探索来优化深度研究系统的方法, 旨在替代依赖手工设计提示的静态架构. 实验表明, 这种自我优化的多智能体方法能够产生与专家精心设计的提示相媲美或更优的系统性能.

User-Aware Conditional Generative Total Correlation Learning for Multi-Modal Recommendation

Jing Du et al.

cs.IR cs.AI

本文提出了一个名为GTC的条件生成总相关学习框架, 用于多模态推荐. 该框架通过交互引导的扩散模型进行用户感知的内容特征过滤, 并优化一个跨所有模态的项表示的总相关下界, 以捕获完整的跨模态依赖关系.

cs.CL

Linguistic Frameworks Go Toe-to-Toe at Neuro-Symbolic Language Modeling

Jakob Prange, Nathan Schneider, Lingpeng Kong

cs.CL cs.AI

本文通过集成预训练的Transformer模型与七种不同语言学框架提供的真实图结构, 探讨了语言学图表示在理论上补充和改进神经语言建模的潜力. 研究发现, 语义成分结构对语言建模性能的提升最为显著.

Reanalyzing L2 Preposition Learning with Bayesian Mixed Effects and a Pretrained Language Model

Jakob Prange, Man Ho Ivy Wong

cs.CL cs.AI

本文结合 Bayesian mixed effects model 与 pretrained language model 分析了二语学习者对英语介词的习得数据。研究复现了已有发现，并揭示了学习者能力、任务类型与刺激句子间的交互作用。

Empirical Sufficiency Lower Bounds for Language Modeling with Locally-Bootstrapped Semantic Structures

Jakob Prange, Emmanuele Chersoni

cs.CL cs.AI

本文探讨了在语言建模中引入预测语义结构时所需的性能下限. 通过设计简洁的二元向量表示并评估增量标注器的质量, 研究发现语义表示的维度可以大幅降低, 且性能评估需综合考虑信号与噪声的分布.

Using LLM-as-a-Judge/Jury to Advance Scalable, Clinically-Validated Safety Evaluations of Model Responses to Users Demonstrating Psychosis

May Lynn Reese et al.

cs.CL cs.AI

本文针对大语言模型在心理健康支持中的安全风险, 特别是对精神病患者的影响, 提出了一种可扩展的自动化评估方法. 研究通过制定临床安全标准, 构建专家共识数据集, 并测试了LLM-as-a-Judge/Jury的评估性能, 结果表明该方法与人类评估者具有较高的一致性.

CIPHER: Conformer-based Inference of Phonemes from High-density EEG

Varshith Madishetty

cs.CL cs.AI cs.SD

本文提出了一种基于Conformer架构的双通路模型CIPHER, 用于从高密度脑电图(EEG)中解码音素信息. 该模型结合了事件相关电位(ERP)特征和宽带DDA系数, 在音素分类任务上表现有限, 作者因此将其定位为一个基准和特征对比研究.

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Joy Bhalla, Kristina Gligorić

cs.CL cs.CY

本文提出了一种名为SWAY的无监督计算方法, 用于量化大型语言模型中的"奉承"现象, 即模型倾向于迎合用户表达的立场. 该方法通过反事实提示机制来隔离语言框架的影响, 并基于此提出了一种缓解策略.

Skeleton-based Coherence Modeling in Narratives

Nishit Asnani, Rohan Badlani

cs.CL cs.AI

本文研究了在叙事文本中利用句子骨架(skeleton)建模连贯性的方法. 作者提出了一个句子/骨架相似性网络(SSN), 用于评估句子对之间的连贯性, 并发现其性能优于余弦相似度等基线方法. 然而, 实验结果表明, 直接基于完整句子的模型在评估文本连贯性方面优于基于骨架的模型.

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

Dat Tran, Douwe Kiela

cs.CL cs.MA

本文通过信息论分析和控制实验，比较了在固定推理token预算下，单智能体LLM系统与多智能体系统在多跳推理任务上的性能。研究发现，当计算资源被严格控制时，单智能体系统的表现通常优于或持平于多智能体系统，并指出许多关于多智能体优势的报告可能源于未受控的计算或上下文效应。

Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models

Ayush Rajesh Jhaveri et al.

cs.CL cs.LG

本文通过改编心理学中的规则发现实验, 研究了大型语言模型(LLMs)在假设探索中是否存在确认偏差. 研究发现多种LLMs普遍表现出确认偏差, 导致规则发现效率降低, 并验证了基于人类心理学设计的干预提示可以有效缓解此偏差.

Social Meaning in Large Language Models: Structure, Magnitude, and Pragmatic Prompting

Roland Mühlenbernd

cs.CL cs.AI

本文通过引入 Effect Size Ratio (ESR) 和 Calibration Deviation Score (CDS) 两个指标，评估了大型语言模型(LLMs)对人类社交意义推理的定量逼近程度。研究发现，模型能复现推理的定性结构，但在强度校准上存在差异，而基于语用理论的提示策略对此改善有限。

PolyJarvis: LLM Agent for Autonomous Polymer MD Simulations

Alexander Zhao, Achuth Chandrasekhar, Amir Barati Farimani

cs.CL cond-mat.mtrl-sci

本文提出了一个名为PolyJarvis的LLM智能体，它通过Model Context Protocol (MCP)服务器将大型语言模型与RadonPy模拟平台相结合，实现了从自然语言输入到聚合物性质预测的端到端自动化流程。该智能体能够自主执行从单体构建到性质计算的全套分子动力学模拟步骤，并在几种常见聚合物上进行了验证，部分性质预测结果与实验值或文献值吻合。

Principled and Scalable Diversity-Aware Retrieval via Cardinality-Constrained Binary Quadratic Programming

Qiheng Lu, Nicholas D. Sidiropoulos

cs.CL cs.IR

本文提出了一种基于 cardinality-constrained binary quadratic programming (CCBQP) 的多样性检索方法，旨在平衡相关性与语义多样性。通过非凸连续松弛和 Frank-Wolfe 算法，该方法在保证理论收敛的同时提升了计算效率。实验表明，该方法在相关性与多样性的权衡上优于现有基线。

Pragmatics Meets Culture: Culturally-adapted Artwork Description Generation and Evaluation

Lingjun Zhao et al.

cs.CL cs.AI cs.HC

本文探讨了语言模型在开放式文本生成任务中的文化适应性问题, 提出了文化适应性艺术描述生成任务及基于文化问答的评估框架. 研究发现, 通过语用说话者模型可以提升模拟听者的理解度, 人类评估也证实了其有效性.

Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models

Liran Ringel, Ameen Ali, Yaniv Romano

cs.CL

本文提出了一种名为DEMASK的轻量级依赖预测器, 用于解决离散扩散语言模型并行解码时因忽略token间依赖关系而导致的质量下降问题. 该方法通过单次前向传播估计掩码位置间的成对条件影响, 并利用贪心选择算法识别可并行解码的位置, 在保证速度提升的同时维持或提升了生成质量.

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Yinhan Lu et al.

cs.CL

本文通过实验研究了在低资源语言机器翻译任务中使用 many-shot in-context learning (ICL) 的效果. 研究发现, 增加示例数量和使用 BM25 检索方法可以显著提升翻译性能和数据效率.

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

Yiyang Shen, Lifu Tu, Weiran Wang

cs.CL cs.LG

本文提出了一种基于强化学习的知识蒸馏框架, 利用一个输出单token的LLM作为评判员, 在大量无标注数据上为模型输出生成奖励信号, 从而无需真实标签即可进行训练. 该方法与可验证奖励结合后, 在数学推理基准上取得了显著的性能提升.

Train Yourself as an LLM: Exploring Effects of AI Literacy on Persuasion via Role-playing LLM Training

Qihui Fan et al.

cs.CL

本文介绍了一个名为LLMimic的交互式AI素养教程, 它通过让用户角色扮演LLM的训练过程(包括pretraining, SFT和RLHF)来提升其对AI的理解. 研究发现, 该教程能有效提高参与者的AI素养, 并在多个模拟的AI说服场景中降低其被说服的可能性.

Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework

Kenichirou Narita et al.

cs.CL

本文针对企业环境中检索增强生成(RAG)系统的评估难题, 提出了一个多维度诊断框架和基准. 该框架通过定义四轴难度分类法, 旨在系统性地诊断现有基准未能覆盖的推理复杂性, 检索难度等实际问题.

Speaking of Language: Reflections on Metalanguage Research in NLP

Nathan Schneider, Antonios Anastasopoulos

cs.CL cs.AI

本文讨论了自然语言处理(NLP)中元语言(metalanguage)的研究。作者定义了元语言的概念，将其与NLP和大语言模型(LLMs)联系起来，并概述了未来的研究方向。

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Yupu Liang et al.

cs.CL

本文对工业级大语言模型的长上下文持续预训练学习动态进行了系统性研究. 通过一个包含行为、概率和机制层面的分层分析框架, 揭示了大规模数据扩展的必要性以及传统评估指标可能存在的"欺骗性饱和"现象.

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

Divyanshu Kumar et al.

cs.CL

本文提出了一个基于模板的框架SocioEval, 用于系统评估基础模型在社会经济地位方面的偏见. 该框架通过决策任务生成大量提示, 并对多个前沿LLM进行评估, 揭示了偏见在不同主题中的显著差异以及现有安全措施的局限性.

Too Polite to Disagree: Understanding Sycophancy Propagation in Multi-Agent Systems

Vira Kasprova et al.

cs.CL cs.AI cs.MA

本文研究了多智能体系统中 sycophancy（谄媚）行为的传播问题。通过为智能体提供基于静态和动态策略计算的同伴 sycophancy 排名，实验发现这种方法能有效降低谄媚倾向同伴的影响并提高讨论准确性。

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Divyanshu Kumar et al.

cs.CL

本文通过构建一个包含9种偏见类型和7种评估任务的分层分类法，对7个大型语言模型进行了系统性审计。研究发现，模型的偏见表现高度依赖于任务类型，且当前的安全对齐方法主要掩盖了表征性危害而非真正缓解它。

Trivial Vocabulary Bans Improve LLM Reasoning More Than Deep Linguistic Constraints

Rodney Jehu-Appiah

cs.CL cs.AI

本文通过实验发现, 对大型语言模型施加简单的词汇限制(如禁用填充词)比施加深层的语言学约束(如E-Prime)更能提升其推理性能. 结果表明, 任何迫使模型偏离其默认生成路径的约束都起到输出正则化的作用, 通过干扰流畅但肤浅的响应模式来改善推理.

Evaluating the Formal Reasoning Capabilities of Large Language Models through Chomsky Hierarchy

Yihong Dong et al.

cs.CL cs.AI cs.LG cs.SE

本文提出了ChomskyBench, 一个基于Chomsky Hierarchy来系统评估大语言模型(LLM)形式推理能力的基准测试. 实验表明LLM的性能与语言复杂性层级相关, 但其在处理这些形式任务时效率远低于传统算法程序.

Breakdowns in Conversational AI: Interactional Failures in Emotionally and Ethically Sensitive Contexts

Jiawen Deng et al.

cs.CL

本文通过构建一个具有心理角色和情感节奏的用户模拟器, 对主流对话AI模型在情感与伦理敏感多轮对话中的表现进行了压力测试. 研究发现模型存在情感错位, 伦理指导失效等反复出现的故障模式, 并讨论了在动态交互中维持伦理一致性与情感敏感性的设计意义.

Multiple-Debias: A Full-process Debiasing Method for Multilingual Pre-trained Language Models

Haoyu Liang et al.

cs.CL

本文提出了一种名为Multiple-Debias的全流程去偏方法，用于减轻多语言预训练语言模型(MPLMs)在性别、种族和宗教等敏感属性上的偏见。该方法结合了预处理和后处理阶段的多语言反事实数据增强与自去偏技术，并通过参数高效微调，在四种语言的三个敏感属性上验证了其有效性。

When Modalities Remember: Continual Learning for Multimodal Knowledge Graphs

Linyu Li et al.

cs.CL

本文提出了一个用于持续多模态知识图谱推理的模型MRCKG, 它通过多模态-结构协同课程、跨模态知识保留机制和多模态对比重放方案来缓解灾难性遗忘并学习新知识。实验表明该模型在多个基准上有效。

Rubrics to Tokens: Bridging Response-level Rubrics and Token-level Rewards in Instruction Following Tasks

Tianze Xu et al.

cs.CL cs.AI

本文提出了一种名为Rubrics to Tokens (RTT)的新框架，用于解决基于评分标准的强化学习在指令跟随任务中的奖励稀疏性和模糊性问题。该方法通过引入Token-Level Relevance Discriminator和RTT-GRPO优化策略，将响应级评分与细粒度的token级信用分配相结合。

Student-in-the-Loop Chain-of-Thought Distillation via Generation-Time Selection

Chaoqun He et al.

cs.CL

本文提出了一种在生成过程中进行选择的师生协同推理蒸馏方法 Gen-SD。该方法通过让学生在教师模型生成推理链时实时评估候选路径，来引导生成过程，从而为小型模型提供更易学习的训练数据。实验表明，该方法在数学推理任务上优于标准知识蒸馏和其他基线方法。

GRADE: Probing Knowledge Gaps in LLMs through Gradient Subspace Dynamics

Yujing Wang et al.

cs.CL

本文提出了一种名为GRADE的新方法, 通过分析语言模型内部梯度子空间的动态变化来探测其知识缺口. 该方法利用梯度与隐藏状态子空间之间的跨层秩比进行量化, 并在多个基准测试中验证了其有效性和鲁棒性.

LLM-based Atomic Propositions help weak extractors: Evaluation of a Propositioner for triplet extraction

Luc Pommeret et al.

cs.CL

本文探讨了将文本分解为 atomic propositions 是否有助于从复杂句子中提取知识图谱三元组. 作者提出了一个多语言小模型 MPropositionneur-V2, 并通过实验表明, 这种分解对较弱的抽取器有提升效果, 但对强大的 LLM 帮助有限.

One Model to Translate Them All? A Journey to Mount Doom for Multilingual Model Merging

Baban Gain, Asif Ekbal, Trilok Nath Singh

cs.CL cs.AI

本文研究了多语言机器翻译中的权重空间模型合并问题. 实验表明, 标准合并策略会导致性能下降, 作者通过分析内部表征解释了这一现象.

BioUNER: A Benchmark Dataset for Clinical Urdu Named Entity Recognition

Wazir Ali et al.

cs.CL

本文构建了一个用于临床Urdu命名实体识别的基准数据集BioUNER, 通过收集在线新闻、处方和博客等文本, 并由专家标注了15.3万个token. 该数据集通过了内部一致性评估, 并用于测试了包括SVM, LSTM和预训练模型在内的多种机器学习模型, 证明了其作为基准的实用性.

Council Mode: Mitigating Hallucination and Bias in LLMs via Multi-Agent Consensus

Shuai Wu et al.

cs.CL cs.AI

本文提出了一种名为 Council Mode 的多智能体共识框架，旨在缓解大型语言模型(LLMs)的幻觉和偏见问题。该方法通过并行查询多个异构模型并利用共识模型整合输出，在多个基准测试中取得了性能提升。

A Multi-head-based architecture for effective morphological tagging in Russian with open dictionary

K. Skibin, M. Pozhidaev, S. Suschenko

cs.CL

本文提出了一种基于Multi-head attention的新架构, 用于解决俄语形态标注问题. 该架构通过将单词拆分为子词单元并进行向量聚合来支持开放词典, 并在SinTagRus和Taiga数据集上取得了优于先前方法的准确率.

How Annotation Trains Annotators: Competence Development in Social Influence Recognition

Maciej Markiewicz et al.

cs.CL cs.AI

本文研究了在社交影响力识别任务中, 标注者能力随时间的变化. 通过结合定性定量分析, 发现标注过程本身能提升标注者的能力, 这种提升在专家群体中更为明显, 并影响了基于其标注数据训练的LLM的性能.

LogicPoison: Logical Attacks on Graph Retrieval-Augmented Generation

Yilin Xiao et al.

cs.CL cs.AI

本文提出了一种针对GraphRAG系统的逻辑攻击方法LogicPoison. 该方法通过保持类型一致的实体交换来扰动知识图谱的逻辑连接, 从而误导大语言模型的推理, 而不改变表层文本语义.

NeuReasoner: Towards Explainable, Controllable, and Unified Reasoning via Mixture-of-Neurons

Haonan Dong et al.

cs.CL

本文提出了一种名为 NeuReasoner 的可解释、可控的统一推理框架。该框架通过识别与推理失败相关的关键神经元（Mixture of Neurons, MoN），并集成轻量级 MLP 进行失败检测和基于特殊令牌触发的自校正机制，旨在解决大型推理模型在推理过程中存在的计算错误、振荡和过度思考等问题。实验表明，该方法在多个基准测试和骨干模型上提升了性能并降低了计算开销。

R2-Write: Reflection and Revision for Open-Ended Writing with Deep Reasoning

Wanlong Liu et al.

cs.CL cs.AI

本文提出了一个名为R2-Write的自动化框架，用于提升大语言模型在开放式写作任务中的表现。该框架通过迭代的writer-judge交互来生成包含反思与修订模式的高质量思考轨迹，并通过过程奖励机制优化反思质量。实验表明，该方法在多个创意写作和深度研究基准上取得了显著改进。

JoyAI-LLM Flash: Advancing Mid-Scale LLMs with Token Efficiency

Aichen Cai et al.

cs.CL cs.AI

本文提出了一种高效的Mixture-of-Experts (MoE)语言模型JoyAI-LLM Flash，旨在平衡性能与计算效率。该模型通过创新的训练后流程和架构设计，在保持高稀疏性的同时提升了推理速度。

Querying Structured Data Through Natural Language Using Language Models

Hontan Valentin-Micu et al.

cs.CL cs.AI

本文提出了一种基于语言模型的方法, 允许用户使用自然语言查询结构化数据. 该方法通过合成数据训练一个紧凑模型来生成可执行查询, 并在一个关于服务可达性的数据集上验证了其有效性.

Verbalizing LLMs' assumptions to explain and control sycophancy

Myra Cheng et al.

cs.CL cs.AI cs.CY

本文提出了一个名为"Verbalized Assumptions"的框架，用于揭示大型语言模型(LLMs)在回应时可能持有的潜在假设。研究发现，这些假设与模型的"奉承"行为存在因果关联，并探讨了模型默认做出奉承性假设的原因。

Multi-Aspect Knowledge Distillation for Language Model with Low-rank Factorization

Zihe Liu et al.

cs.CL

本文提出了一种用于预训练语言模型压缩的 Multi-aspect Knowledge Distillation (MaKD) 方法. 该方法通过更深入地模仿 self-attention 和 feed-forward 模块, 从不同方面捕获知识, 在相同参数量下取得了有竞争力的性能.

Domain-Adapted Retrieval for In-Context Annotation of Pedagogical Dialogue Acts

Jinsook Lee et al.

cs.CL cs.AI

本文提出了一种用于教学对话标注的领域自适应检索增强生成(RAG)方法. 该方法通过微调轻量级嵌入模型并在话语层面索引对话来改进检索, 从而为大型语言模型提供相关的上下文示例, 显著提升了标注的一致性.

StoryScope: Investigating idiosyncrasies in AI fiction

Jenna Russell et al.

cs.CL

本文提出StoryScope方法, 通过分析discourse-level的叙事特征(如角色能动性、时间不连续性)来区分AI与人类创作的小说. 研究发现, AI生成的故事在主题解释、情节单一性等方面与人类作品存在系统性差异, 这些叙事层面的特征能有效用于作者身份鉴别.

Beyond Precision: Importance-Aware Recall for Factuality Evaluation in Long-Form LLM Generation

Nazanin Jafari, James Allan, Mohit Iyyer

cs.CL

本文提出了一个评估长文本生成模型事实性的综合框架, 同时衡量 precision 和 recall. 该方法利用外部知识源构建参考事实, 并引入基于相关性和显著性的重要性加权方案. 分析表明, 当前模型在 precision 上的表现远优于 recall, 事实不完整性是主要限制.

Valence-Arousal Subspace in LLMs: Circular Emotion Geometry and Multi-Behavioral Control

Lihao Sun et al.

cs.CL cs.AI cs.CY

本文提出了一种在大语言模型表示中识别效价-唤醒(Valence-Arousal, VA)子空间的方法。该方法通过回归模型自我报告的VA分数，学习到的VA子空间呈现出与人类情感认知模型一致的环形几何结构。沿着该子空间进行引导可以单调地改变模型输出的情感维度，并实现对拒绝和谄媚行为的双向控制。

Detecting and Correcting Reference Hallucinations in Commercial LLMs and Deep Research Agents

Delip Rao, Eric Wong, Chris Callison-Burch

cs.CL

本文系统评估了大型语言模型和深度研究智能体生成引用URL的可靠性, 发现存在显著的URL幻觉(即生成不存在的URL)和链接失效问题. 作者发布了开源工具urlhealth用于URL活性检查和分类, 实验表明该工具能有效帮助模型自我修正, 大幅减少无效引用.

Beyond the Parameters: A Technical Survey of Contextual Enrichment in Large Language Models: From In-Context Prompting to Causal Retrieval-Augmented Generation

Prakhar Bansal, Shivangi Agarwal

cs.CL cs.AI

本文对大型语言模型(LLM)的上下文增强技术进行了系统性综述, 涵盖了从上下文学习到因果检索增强生成(CausalRAG)等多种方法. 文章不仅进行了概念比较, 还提供了文献筛选协议和证据综合框架, 并给出了面向部署的决策指南.

Reliability Gated Multi-Teacher Distillation for Low Resource Abstractive Summarization

Dipto Sumit et al.

cs.CL cs.AI

本文针对低资源抽象摘要任务, 提出了一种基于可靠性感知的多教师知识蒸馏方法. 该方法通过引入EWAD和CPDP等机制, 在孟加拉语数据集上验证了其有效性, 并探讨了跨语言伪标签蒸馏的潜力.

Learning the Signature of Memorization in Autoregressive Language Models

David Ilić et al.

cs.CL cs.CR cs.LG

本文提出了一种可迁移的、基于学习的成员推理攻击方法 LT-MIA, 通过将成员推理重构为基于每个token分布统计量的序列分类任务来捕捉模型记忆的签名. 该方法在多种未见过的模型架构(如 Mamba, RWKV-4)和数据集上实现了零样本迁移, 性能超越了基于启发式规则的基线方法. 实验表明, 基于交叉熵损失的梯度下降训练会在模型中产生一种与架构无关的记忆特征.

BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence

Sean Wu et al.

cs.CL

本文提出了一种基于决策理论的评估指标BAS, 用于衡量大语言模型在考虑弃权选项时的置信度可靠性. 该指标通过聚合不同风险阈值下的实际效用, 揭示了现有校准指标的局限性, 并构建了一个全面的基准测试.

cs.DS

Eliminating Illusion in Directed Networks

Sougata Jana, Sanjukta Roy

cs.DS cs.CC cs.MA

本文研究了有向社交网络中的错觉消除问题, 其中顶点被染成红色或蓝色. 一个顶点处于 $p$-错觉中, 如果其出邻居中红色的比例至少为 $p$, 而网络中蓝色顶点更多. 该问题旨在通过最少的顶点重染色来消除所有 $p$-错觉. 论文证明了该问题在多种情况下是 NP-难的, 但在某些稀疏结构网络(如外平面网络、外向网格、树和环)中存在多项式时间算法, 并探讨了以树宽和错觉顶点数为参数的可解性.

Online Drone Coverage of Targets on a Line

Stefan Dobrev et al.

cs.DS

本文研究了无人机在线覆盖线形屏障上动态出现目标的问题. 算法设计旨在优化无人机总飞行距离, 并分析了其竞争比性能.

Robust Learning with Optimal Error

Guy Blanc

cs.DS cs.LG

本文研究了在adversarial noise下学习的最优错误率问题. 作者证明了使用randomized hypotheses可以显著超越deterministic hypotheses所能达到的最佳错误率界限, 并针对malicious noise, nasty noise和agnostic noise等噪声模型给出了最优错误率的精确表达式. 所提出的学习器在样本复杂度上是高效的.

Non-Signaling Locality Lower Bounds for Dominating Set

Noah Fleming, Max Hopkins, Yuichi Yoshida

cs.DS

本文在 non-signaling 模型中研究了 dominating set 问题的 locality 下界。作者证明了对于 $O(\log\Delta)$-近似，locality 至少为 $\Omega(\log n/(\log\Delta \cdot \mathrm{poly}\log\log\Delta))$，并进一步给出了一个与度数无关的量子 LOCAL 下界。

Stochastic Function Certification with Correlations

Rohan Ghuge, Jai Moondra, Mohit Singh

cs.DS

本文研究了Stochastic Boolean Function Certification (SBFC)问题, 其中元素状态服从相关分布. 针对多种函数类, 特别是拟阵基函数, 作者给出了非自适应和自适应近似算法, 并讨论了其紧性.

Engineering Algorithms for Dynamic Greedy Set Cover

Amitai Uzrad

cs.DS

本文针对动态集合覆盖问题, 实现并评估了四种基于贪心策略的动态算法. 通过简化理论框架中的复杂子程序, 在真实数据集上测试了算法在解质量与更新效率之间的权衡.

others

Do Agent Societies Develop Intellectual Elites? The Hidden Power Laws of Collective Cognition in LLM Multi-Agent Systems ⭐ 精选

Kavana Venkatesh, Jiaming Cui

cs.MA cs.AI

本文通过引入原子事件层面的 formulation, 将 LLM 多智能体系统中的推理重构为 coordination 的级联, 首次对这类系统的 coordination dynamics 进行了大规模实证研究. 研究发现了三个耦合的定律: coordination 遵循重尾分布, 通过 preferential attachment 集中形成 intellectual elites, 并且随着系统规模增大会产生更频繁的极端事件. 作者将这些效应归因于一个单一的结构性机制——integration bottleneck, 并提出了 Deficit-Triggered Integration (DTI) 方法来选择性地增强整合, 从而在 coordination 失效时提升性能, 为理解和改进可扩展的多智能体智能提供了一个新的 fundamental axis.

A Lower Bound for Grothendieck's Constant

Steven Heilman

math.FA cs.DS

本文改进了Grothendieck常数$K_{G}$的下界, 使其大于Davie和Reeds在1984年和1991年分别得到的下界$c=1.676956674215576\ldots$加上一个很小的正数.

Near-Optimal Space Lower Bounds for Streaming CSPs

Yumou Fei, Dor Minzer, Shuo Wang

cs.CC cs.DS

本文改进了streaming CSP问题的空间下界. 对于任意CSP, 将$(\alpha_{\mathrm{LP}} + \varepsilon)$-近似的空间下界从$\Omega(n^{1/3}/p)$提升至$\Omega(\sqrt{n}/p)$, 并针对$p=o(\log n)$的情况给出了更强的下界$\Omega(n\cdot2^{-O_{\varepsilon}(p)})$. 证明基于Fourier分析技术.

MLFCIL: A Multi-Level Forgetting Mitigation Framework for Federated Class-Incremental Learning in LEO Satellites

Heng Zhang et al.

cs.NI cs.LG

本文针对低轨卫星星座中的联邦类增量学习问题, 提出了一个多层级遗忘缓解框架MLFCIL. 该框架通过类重加权损失, 结合特征回放与原型引导漂移补偿的知识蒸馏, 以及类感知聚合等策略, 在NWPU-RESISC45数据集上取得了优于基线方法的性能.

Dynamic Mask Enhanced Intelligent Multi-UAV Deployment for Urban Vehicular Networks

Gaoxiang Cao et al.

cs.NI cs.AI

本文提出了一种基于强化学习的多无人机动态部署算法, 用于增强城市车联网的连通性. 该算法通过设计动态动作掩码机制来优化智能体的探索, 并在真实数据集上验证了其在提升连通性和降低能耗方面的有效性.

Fighting AI with AI: AI-Agent Augmented DNS Blocking of LLM Services during Student Evaluations

Yonas Kassa, James Bonacci, Ping Wang

cs.NI cs.LG

本文提出了一个名为AI-Sinkhole的框架，利用AI智能体增强DNS拦截，以在监考期间动态发现并阻止LLM服务。该方法结合了量化LLM进行语义分类和Pi-Hole进行动态DNS屏蔽。

TRACE: Traceroute-based Internet Route change Analysis with Ensemble Learning

Raul Suzuki et al.

cs.NI cs.AI cs.LG

本文提出了一种名为TRACE的机器学习流程, 用于仅基于traceroute延迟数据检测互联网路由变化. 该方法通过特征工程提取时序模式, 并利用集成学习模型, 在应对罕见事件类别不平衡的情况下取得了优于传统基线的性能.

Evaluating Small Language Models for Front-Door Routing: A Harmonized Benchmark and Synthetic-Traffic Experiment

Warren Johnson, Charles Lee

cs.NI cs.CL

本文评估了小型语言模型(SLM)用于前端路由决策的可行性. 通过基准测试和合成流量实验, 研究发现当前SLM在成本和延迟方面已满足要求, 但在准确性和下游任务质量方面仍需提升.

Beyond Message Passing: Toward Semantically Aligned Agent Communication

Dun Yuan et al.

cs.NI cs.AI

本文提出了一个三层框架来组织智能体通信, 并系统分析了18种代表性协议在传输、交互和语义协调方面的支持情况。分析揭示了当前协议设计在语义层面的不足, 并指出了由此产生的技术债务和互操作性挑战。

A Survey on AI for 6G: Challenges and Opportunities

Constantina Chatzieleftheriou, Eirini Liotou

cs.NI cs.AI

本文是一篇关于AI在6G网络中应用的综述, 讨论了深度学习, 强化学习, 联邦学习等关键技术如何支持6G网络实现高数据速率, 低延迟等目标. 文章涵盖了从网络功能集成到可扩展性, 安全性等挑战的广泛议题, 并指出了未来的研究方向.

Internalized Reasoning for Long-Context Visual Document Understanding

Austin Veselka

cs.CV cs.AI cs.CL

本文提出了一种用于长文档视觉理解任务的合成数据生成与模型微调方法. 该方法通过生成并利用带有思维链的合成数据, 在Qwen3 VL和Mistral Small模型上取得了性能提升, 并减少了推理时的输出长度.

Backdoor Attacks on Decentralised Post-Training

Oğuzhan Ersoy et al.

cs.CR cs.LG

本文针对去中心化后训练中的pipeline parallelism提出了首个backdoor攻击方法, 攻击者仅控制pipeline的中间阶段即可在模型中植入后门, 导致模型行为失准. 实验表明该攻击能显著降低模型的对齐度, 且能抵抗后续的安全对齐训练.

Ambig-IaC: Multi-level Disambiguation for Interactive Cloud Infrastructure-as-Code Synthesis

Zhenning Yang et al.

cs.SE cs.AI

本文提出了一种针对交互式云基础设施即代码(IaC)合成的多级消歧框架. 该方法通过生成候选配置、识别结构分歧并生成澄清问题来应对用户提示中的模糊性, 在基准测试中优于现有基线.

Audio Spatially-Guided Fusion for Audio-Visual Navigation

Xinyu Zhou, Yinfeng Yu

cs.SD cs.AI eess.AS

本文提出了一种用于视听导航的音频空间引导融合方法. 该方法通过音频空间特征编码器和引导融合机制, 动态对齐并融合多模态特征, 以提升智能体在未知声源环境下的泛化导航能力.

Spatial-Aware Conditioned Fusion for Audio-Visual Navigation

Shaohang Wu, Yinfeng Yu

cs.SD cs.AI eess.AS

本文提出了一种用于视听导航任务的Spatial-Aware Conditioned Fusion (SACF)方法。该方法通过离散化并编码目标的相对空间位置，并利用条件线性变换调制视觉特征，以生成目标导向的融合表示，从而提升了导航效率与泛化能力。

Reliability-Aware Geometric Fusion for Robust Audio-Visual Navigation

Teng Liu, Yinfeng Yu

cs.SD cs.AI eess.AS

本文提出了一个可靠性感知的音频-视觉导航框架RAVN, 通过一个声学几何推理器学习音频可靠性线索, 并利用该线索动态调制视觉特征的融合, 以应对复杂声学环境中双耳音频线索不可靠的问题. 实验表明该方法在未听过声音类别的场景中具有鲁棒性.

Environment-Aware Channel Prediction for Vehicular Communications: A Multimodal Visual Feature Fusion Framework

Xuejian Zhang et al.

cs.CV cs.AI

本文提出了一种基于多模态视觉特征融合的环境感知信道预测框架, 用于车联网通信. 该框架利用GPS和全景RGB图像, 通过语义分割和深度估计提取特征, 并设计了专门的回归头进行多参数联合预测, 在实测数据集上取得了较好的性能.

Variational Encoder--Multi-Decoder (VE-MD) for Privacy-by-functional-design (Group) Emotion Recognition

Anderson Augusma, Dominique Vaufreydaz, Fédérique Letué

cs.CV cs.AI

本文提出了一种用于群体情感识别(GER)的隐私保护框架VE-MD, 它通过一个共享的latent representation同时优化情感分类和内部结构预测, 避免了对个体的显式监控. 实验表明, 该方法在多个数据集上取得了有竞争力的性能, 并揭示了结构信息对于群体级情感建模的重要性.

Improving MPI Error Detection and Repair with Large Language Models and Bug References

Scott Piersall et al.

cs.SE cs.AI

本文提出了一种结合Few-Shot Learning, Chain-of-Thought reasoning和Retrieval Augmented Generation技术来增强大型语言模型(LLM)检测和修复MPI程序错误能力的方法。实验表明，该方法相比直接使用ChatGPT等基线模型，将错误检测准确率从44%提升至77%。

A Synthesis Method of Safe Rust Code Based on Pushdown Colored Petri Nets

Kaiwen Zhang, Guanjun Liu

cs.SE cs.AI cs.FL cs.PL

本文提出了一种基于新定义的 Pushdown Colored Petri Net (PCPN) 的 Safe Rust 代码合成方法. 该方法通过 PCPN 对 Rust 的所有权、借用和生命周期等编译时约束进行建模, 以生成有效的调用序列, 并开发了相应的自动合成工具.

Measuring What Cannot Be Surveyed: LLMs as Instruments for Latent Cognitive Variables in Labor Economics

Cristian Espinal Maya

econ.EM cs.CL stat.ME

本文提出了一种使用LLMs作为测量潜在经济变量工具的理论框架, 并定义了四个有效性条件. 作者构建了一个增强人力资本指数(AHC_o)作为应用案例, 并展示了其与现有AI暴露指数的收敛效度和区分效度. 该方法可推广至需要大规模量化语义内容的领域.

LumiVideo: An Intelligent Agentic System for Video Color Grading

Yuchen Guo et al.

cs.CV cs.AI

本文提出了一个名为LumiVideo的智能体系统，用于视频调色。该系统模仿专业调色师的工作流程，通过感知、推理、执行和反思四个阶段，将原始的log视频自动处理成具有电影感的画面。它不直接输出像素，而是生成行业标准的ASC-CDL配置和3D LUT，并引入了首个用于评估自动调色的log视频基准LumiGrade。

Generative models on phase space

Zachary Bogorad et al.

hep-ph cs.AI

本文提出了一种在相空间上构建的生成模型, 用于精确满足高能物理数据中的物理约束, 如能量动量守恒. 该方法通过将采样轨迹限制在洛伦兹不变的相空间流形上, 改进了现有扩散模型和流匹配模型在物理数据生成上的可靠性与可解释性.

Photonic convolutional neural network with pre-trained in-situ training

Saurabh Ranjan, Sonika Thakral, Amit Sehgal

cs.ET cs.LG physics.optics

本文提出了一种全光学的卷积神经网络(PCNN)架构, 用于在光学域内直接处理MNIST图像分类任务. 该架构利用MZI mesh, WDM pooling和微环谐振器非线性等组件, 避免了频繁的光电转换, 并通过混合训练方法(数字孪生与SPSA算法)来优化物理参数, 在能效和热串扰鲁棒性方面表现出优势.

From Elevation Maps To Contour Lines: SVM and Decision Trees to Detect Violin Width Reduction

Philémon Beghin, Anne-Emmanuelle Ceulemans, François Glineur

cs.CV cs.AI

本文比较了两种从3D扫描数据中自动检测小提琴宽度缩减的方法. 一种基于高程图的几何原始表示, 另一种则依赖于参数化轮廓线拟合的特征工程方法. 实验表明, 基于轮廓线的方法性能更优.

PlayGen-MoG: Framework for Diverse Multi-Agent Play Generation via Mixture-of-Gaussians Trajectory Prediction

Kevin Song

cs.CV cs.AI cs.LG

本文提出了一个用于多智能体轨迹生成的框架 PlayGen-MoG. 它通过 Mixture-of-Gaussians 输出头和相对空间 attention 等方法, 解决了从单一初始阵型生成多样化且协调的团队运动轨迹的问题.

Managing Diabetic Retinopathy with Deep Learning: A Data Centric Overview

Shramana Dey et al.

eess.IV cs.AI cs.CV

本文对用于糖尿病视网膜病变(DR)管理的眼底图像数据集进行了全面的综述和比较分析。文章评估了这些数据集在分类、分级、病灶定位等任务中的可用性，并指出了当前数据集中存在的局限性，如缺乏标准化的病灶级标注和纵向数据。

When simulations look right but causal effects go wrong: Large language models as behavioral simulators

Zonghan Li, Feng Ji

cs.CY cs.AI cs.ET

本文评估了大型语言模型(LLMs)作为行为模拟器在预测干预因果效应方面的表现。研究发现，LLMs能较好地复现描述性态度模式，但在估计因果效应时存在显著误差，这种描述与因果的差异在行为结果上尤为明显。

VERTIGO: Visual Preference Optimization for Cinematic Camera Trajectory Generation

Mengtian Li et al.

cs.CV cs.AI

本文提出了VERTIGO框架，通过结合实时图形引擎渲染和视觉语言模型评分，对生成式摄像机轨迹进行视觉偏好优化。该方法改善了生成镜头的构图质量和提示词遵循度，并在用户研究中获得了更好的感知评价。

Hierarchical, Interpretable, Label-Free Concept Bottleneck Model

Haodong Xie et al.

cs.CV cs.AI

本文提出了一种分层、可解释、无标签的概念瓶颈模型(HIL-CBM), 通过引入梯度视觉一致性损失和双分类头, 在多个语义层次上进行分类和解释。该方法在基准数据集上取得了优于现有稀疏CBM的分类精度, 并通过人工评估验证了其解释的优越性。

Guideline2Graph: Profile-Aware Multimodal Parsing for Executable Clinical Decision Graphs

Onur Selim Kilic et al.

cs.CV cs.LG

本文提出了一种名为Guideline2Graph的分解优先流程, 用于将临床实践指南转换为可执行的临床决策图. 该方法通过拓扑感知分块, 接口约束的块图生成和保留来源的全局聚合, 改善了跨页面连续性和结构一致性, 在特定基准测试上取得了显著的性能提升.

Generating Satellite Imagery Data for Wildfire Detection through Mask-Conditioned Generative AI

Valeria Martin, K. Brent Venable, Derek Morgan

cs.CV cs.AI

本文探讨了使用EarthSynth这一基于diffusion的Earth Observation基础模型，根据已有的burn masks合成逼真的野火后Sentinel-2 RGB卫星图像。通过设计六种实验配置，评估了不同pipeline架构、prompt工程策略和颜色匹配后处理步骤的效果，发现基于inpainting的方法在各项指标上均优于全图生成。

A Multimodal Vision Transformer-based Modeling Framework for Prediction of Fluid Flows in Energy Systems

Kiran Yalamanchi et al.

physics.flu-dyn cs.AI

本文提出了一种基于Vision Transformer的多模态建模框架, 用于预测能源系统中的流体流动. 该框架使用SwinV2-UNet架构处理来自多保真度仿真的多模态流场数据, 并通过辅助令牌编码数据模态和时间增量, 在时空推演和特征转换任务上展示了性能.

VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

Haz Sameen Shahgir et al.

cs.CV cs.CL

本文探讨了Vision Language Models (VLMs) 在需要细粒度视觉感知任务上的失败原因. 研究发现, 其训练过程过度依赖将视觉信息映射到已知的文本概念, 导致对无法命名的视觉实体处理能力不足.

Automated Malware Family Classification using Weighted Hierarchical Ensembles of Large Language Models

Samita Bai et al.

cs.CR cs.AI

本文提出了一种基于加权层次集成预训练大语言模型(LLMs)的零标签恶意软件家族分类框架. 该方法通过聚合多个具有互补推理能力的LLMs的决策级预测, 并利用经验性macro-F1分数进行加权, 以层次化方式实现分类, 旨在提升在开放世界场景下的鲁棒性和可扩展性.

Token-Efficient Multimodal Reasoning via Image Prompt Packaging

Joong Ho Choi et al.

cs.CV cs.AI

本文提出了一种名为 Image Prompt Packaging (IPPg) 的视觉提示方法，通过将结构化文本嵌入图像来减少推理时的文本 token 消耗。实验表明该方法能在多个任务上显著降低计算成本，但其效果高度依赖于具体模型和任务类型。

An Explainable Vision-Language Model Framework with Adaptive PID-Tversky Loss for Lumbar Spinal Stenosis Diagnosis

Md. Sajeebul Islam Sk., Md. Mehedi Hasan Shawon, Md. Golam Rabiul Alam

cs.CV cs.AI

本文提出了一个用于腰椎管狭窄症诊断的可解释视觉-语言模型框架。该框架通过空间补丁交叉注意力模块和自适应PID-Tversky损失函数，旨在解决医学图像分割中的类别不平衡和空间精度问题，并实现了自动放射学报告生成。

Optimal Projection-Free Adaptive SGD for Matrix Optimization

Dmitry Kovalev

math.OC cs.LG

本文改进了Leon算法的分析, 证明了其preconditioner的稳定性, 从而避免了超参数调优. 基于此, 作者提出了首个无需每步计算projection的、带Nesterov加速的One-sided Shampoo实用变体, 并在非光滑非凸设定下获得了改进的、与维度无关的收敛率.

Reinforcement Learning from Human Feedback: A Statistical Perspective

Pangpang Liu, Chengchun Shi, Will Wei Sun

stat.ML cs.LG

本文从统计学的角度综述了 reinforcement learning from human feedback (RLHF) 框架, 重点讨论了其在 large language model (LLM) 对齐中的应用. 文章介绍了 RLHF 的核心组件, 并将其与 Bradley-Terry-Luce (BTL) 模型, 潜在效用估计等统计概念联系起来, 最后指出了该领域面临的开放挑战.

Sparse Bayesian Learning Algorithms Revisited: From Learning Majorizers to Structured Algorithmic Learning using Neural Networks

Rushabha Balaji et al.

eess.SP cs.AI

本文通过将多种Sparse Bayesian Learning (SBL) 算法统一到majorization-minimization (MM) 框架下，揭示了它们之间的深层联系并扩展了算法类别。进一步，作者提出了一种新颖的深度学习架构来学习更优的SBL更新规则，该模型在多种稀疏恢复问题上超越了传统MM方法，并展示了良好的泛化能力。

Neural posterior estimation for scalable and accurate inverse parameter inference in Li-ion batteries

Malik Hassanaly et al.

physics.data-an cs.LG

本文提出了一种基于neural posterior estimation (NPE)的方法，用于锂离子电池的快速逆参数推断。该方法将计算负担从参数估计阶段转移到数据生成和模型训练阶段，实现了从分钟级到毫秒级的推断速度提升，并在一组实验数据上进行了验证。

Opal: Private Memory for Personal AI

Darya Kaviani et al.

cs.CR cs.AI

本文提出了一种名为Opal的个人AI私有内存系统, 旨在解决可信硬件在处理大规模个人数据时面临的隐私与可扩展性挑战. 该系统通过将数据依赖的推理过程隔离在可信执行环境(enclave)内, 并结合Oblivious RAM(ORAM)技术来隐藏外部存储的访问模式, 从而在保护隐私的同时支持高效的连续数据摄入与检索.

AQVolt26: High-Temperature r$^2$SCAN Halide Dataset for Universal ML Potentials and Solid-State Batteries

Jiyoon Kim et al.

cond-mat.mtrl-sci cs.LG

本文介绍了AQVolt26数据集，该数据集包含针对卤化物固态电解质的r$^2$SCAN高精度计算数据。研究通过实验表明，通用机器学习势能模型在预测高扭曲、高温条件下的性质时存在局限，而结合特定领域的高温采样数据可以有效提升其预测可靠性。

Feature Attribution Stability Suite: How Stable Are Post-Hoc Attributions?

Kamalasankari Subramaniakuppusamy, Jugal Gajjar

cs.CV cs.AI cs.LG

本文提出了一个名为FASS的基准测试套件, 用于评估后验特征归因方法在多种输入扰动下的稳定性. 该工作强调了预测不变性过滤的重要性, 并揭示了不同扰动类型对归因稳定性影响的显著差异.

Overconfidence and Calibration in Medical VQA: Empirical Findings and Hallucination-Aware Mitigation

Ji Young Byun et al.

cs.CV cs.LG

本文研究了医学视觉问答(VQA)中视觉语言模型(VLM)的置信度校准问题. 通过实证分析发现模型普遍存在过度自信, 并探讨了基于幻觉检测信号的校准方法以提升可靠性.

Contrastive Language-Colored Pointmap Pretraining for Unified 3D Scene Understanding

Ye Mao et al.

cs.CV cs.LG

本文提出了一种基于transformer的编码器UniScene3D, 用于从多视角彩色点云图(colored pointmaps)中学习统一的3D场景表示. 通过引入跨视角几何对齐和基于grounding的视角对齐等新方法, 该模型在多个3D场景理解任务上取得了先进的性能.

From Theory to Practice: Code Generation Using LLMs for CAPEC and CWE Frameworks

Murtuza Shahzad et al.

cs.CR cs.AI

本文利用GPT-4o, Llama和Claude等大型语言模型(LLM)生成与CAPEC和CWE安全漏洞描述对应的代码片段，构建了一个包含Java, Python和JavaScript三种语言共615个样本的数据集。该数据集旨在为漏洞检测研究提供资源，初步评估显示模型生成的代码具有较高的一致性。

Financial Anomaly Detection for the Canadian Market

Luigi Caputi, Nicholas Meadows

q-fin.ST cs.LG

本文评估了拓扑数据分析(TDA), 主成分分析(PCA)和基于神经网络的方法在检测加拿大股市(TSX-60)金融异常事件中的表现. 结果表明, 基于神经网络的方法和TDA方法表现最佳, 这暗示了全局拓扑性质在区分金融压力事件方面具有意义.

Generative AI Use in Entrepreneurship: An Integrative Review and an Empowerment-Entrapment Framework

Jackson G. Lu, Gerui Gloria Zhao, Anna Manyi Zheng

cs.CY cs.AI cs.ET cs.HC

本文对生成式人工智能在创业过程中的应用进行了整合性综述, 提出了一个"赋能-束缚"框架. 该框架分析了GenAI在创业各阶段的双重影响, 并探讨了其边界条件.

WSVD: Weighted Low-Rank Approximation for Fast and Efficient Execution of Low-Precision Vision-Language Models

Haiyu Wang et al.

cs.CV cs.LG

本文提出了一种称为Weighted SVD (WSVD)的新方法，用于加速低精度视觉语言模型(VLMs)的执行。该方法通过更细粒度的SVD应用和考虑权重元素重要性的加权分解来平衡效率与精度，并结合量化技术实现了显著的解码速度提升。

Understanding the Effects of Safety Unalignment on Large Language Models

John T. Halloran

cs.CR cs.AI cs.LG

本文研究了两种使大语言模型(Large Language Models, LLMs)安全对齐失效的方法——jailbreak-tuning (JT)和weight orthogonalization (WO)——对模型行为的影响。研究发现，与JT相比，WO方法产生的模型在协助恶意活动方面能力更强，同时能更好地保留原有性能，并提出了通过监督微调来缓解WO相关风险的方法。

High Volatility and Action Bias Distinguish LLMs from Humans in Group Coordination

Sahaj Singh Maini, Robert L. Goldstone, Zoran Tiganj

cs.MA cs.AI cs.CL cs.GT

本文通过Group Binary Search游戏比较了LLMs与人类在群体协调中的表现. 研究发现, LLMs在缺乏直接沟通的协调任务中表现出更高的行为波动性和切换频率, 且难以像人类一样从反馈中有效学习并稳定策略.

Learning interacting particle systems from unlabeled data

Viska Wei, Fei Lu

stat.ML cs.LG math.NA

本文提出了一种从无标签数据中学习相互作用粒子系统势函数的方法. 该方法基于经验分布的弱形式随机演化方程, 构建了一个不依赖轨迹信息的损失函数, 并证明了参数估计量在样本量增加时的收敛性.

Moondream Segmentation: From Words to Masks

Ethan Reid

cs.CV cs.AI

本文提出了一种基于Moondream 3视觉语言模型的指代图像分割扩展方法。该方法通过自回归解码向量路径并迭代优化掩码，同时引入强化学习阶段来直接优化掩码质量。

Making Written Theorems Explorable by Grounding Them in Formal Representations

Hita Kambhamettu et al.

cs.HC cs.AI cs.PL

本文提出了一种将书面数学定理及其证明转化为可交互形式化表示的方法, 通过 LLM 将自然语言证明翻译为 Lean 代码, 使读者能够以步骤粒度探索证明、测试自定义示例并追踪逻辑依赖. 一项用户研究表明, 使用该系统的参与者对数学证明的理解更深入、更准确.

LitPivot: Developing Well-Situated Research Ideas Through Dynamic Contextualization and Critique within the Literature Landscape

Hita Kambhamettu et al.

cs.HC cs.AI

本文介绍了一个名为LitPivot的工具, 它通过动态文献检索和批判性建议, 帮助研究者在撰写研究想法时进行迭代式文献回顾和想法修正. 一项实验室研究表明, 使用该工具的研究者能产生更高质量的想法, 并对相关文献领域有更好的理解.

Polynomial-Time Almost Log-Space Tree Evaluation by Catalytic Pebbling

Vahid R. Asadi, Richard Cleve

cs.CC cs.DS

本文提出了一种多项式时间、几乎对数空间的算法来解决Tree Evaluation Problem ($\mathsf{TreeEval}$). 该算法通过使用催化空间(catalytic space)在时间与空间复杂度之间进行权衡.

Structure-Preserving Multi-View Embedding Using Gromov-Wasserstein Optimal Transport

Rafael Pereira Eufrazio, Eduardo Fernandes Montesuma, Charles Casimiro Cavalcante

stat.ML cs.LG

本文提出了两种基于Gromov-Wasserstein最优传输的多视图嵌入方法, 用于整合具有异构几何结构的数据. 通过实验验证, 这些方法能够有效地保持不同视图间的内在关系结构.

Poison Once, Exploit Forever: Environment-Injected Memory Poisoning Attacks on Web Agents

Wei Zou et al.

cs.CR cs.AI

本文针对基于LLM的web agents, 提出了一种仅通过环境观察即可实施的记忆污染攻击方法eTAMP. 该方法无需直接访问记忆存储, 即可实现跨会话、跨网站的长期危害, 实验表明其在多种模型上均能取得显著的攻击成功率.

Smart Transfer: Leveraging Vision Foundation Model for Rapid Building Damage Mapping with Post-Earthquake VHR Imagery

Hao Li et al.

cs.CV cs.AI cs.MM

本文提出了一种名为Smart Transfer的GeoAI框架, 利用vision foundation models对震后VHR影像进行快速建筑物损毁制图. 该方法设计了两种新颖的模型迁移策略, 并在土耳其-叙利亚地震数据上验证了其跨区域迁移的有效性.

Toys that listen, talk, and play: Understanding Children's Sensemaking and Interactions with AI Toys

Aayushi Dangol et al.

cs.HC cs.AI

本文通过参与式设计工作坊, 研究了儿童与AI玩具互动时的意义建构过程. 研究发现, 儿童将AI玩具视为社交实体, 但交互故障和玩具形态与智能的不匹配导致了对抗性游戏行为.

Cross-Vehicle 3D Geometric Consistency for Self-Supervised Surround Depth Estimation on Articulated Vehicles

Weimin Liu et al.

cs.CV cs.AI

本文提出了一种针对铰接式车辆的自监督环视深度估计框架ArticuSurDepth. 该方法利用视觉基础模型提供的结构先验, 通过跨视图和跨车辆段的几何一致性约束来增强深度学习, 并在多个数据集上取得了先进的性能.

GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

Shufan Jiang, Chios Chen, Zhiyang Chen

cs.SE cs.AI

本文提出了一个用于评估大型语言模型作为质量保证工程师能力的游戏基准GBQA, 包含30个游戏和124个人工验证的bug. 研究构建了一个多智能体系统来生成游戏和注入bug, 并提供了一个具有ReAct循环和记忆机制的基线交互式智能体进行实验. 实验结果表明, 即使是表现最好的模型, 其bug发现率也仅为48.39%, 说明自主bug发现仍然是一个重大挑战.

Transfer Learning for Meta-analysis Under Covariate Shift

Zilong Wang, Ali Abdeen, Turgay Ayer

stat.ML cs.LG

本文提出了一种基于 placebo-anchored transport 的框架，用于解决随机对照试验(RCTs)中因协变量偏移(covariate shift)而导致的元分析(meta-analysis)和效应迁移(transport)问题。该方法利用源试验的代理(proxy)信号和目标试验的安慰剂(placebo)结果来校准基线风险，并通过一个双重稳健(doubly robust)的估计器来估计目标人群的异质性处理效应(heterogeneous treatment effects)。

Eligibility-Aware Evidence Synthesis: An Agentic Framework for Clinical Trial Meta-Analysis

Yao Zhao, Zhiyue Zhang, Yanxun Xu

stat.ME cs.AI stat.AP

本文提出了一个名为EligMeta的智能体框架, 用于临床试验的元分析. 该框架整合了自动化试验发现与基于资格标准相似性的加权方法, 旨在提供更具临床相关性的汇总估计.

Efficient3D: A Unified Framework for Adaptive and Debiased Token Reduction in 3D MLLMs

Yuhui Lin et al.

cs.CV cs.AI

本文提出了一个名为Efficient3D的统一框架，用于加速3D多模态大语言模型(3D MLLMs)的推理。该框架通过一个去偏的视觉token重要性估计器和一个自适应的token再平衡策略，在多个3D视觉语言基准上实现了计算效率的提升。

DocShield: Towards AI Document Safety via Evidence-Grounded Agentic Reasoning

Fanwei Zeng et al.

cs.CV cs.AI

本文提出了DocShield框架，将文本中心图像伪造分析构建为一个视觉-逻辑协同推理问题。它通过一种新颖的Cross-Cues-aware Chain of Thought机制进行隐式agentic推理，并结合多任务奖励进行优化，在多个基准测试上显著超越了现有方法。

V2X-QA: A Comprehensive Reasoning Dataset and Benchmark for Multimodal Large Language Models in Autonomous Driving Across Ego, Infrastructure, and Cooperative Views

Junwei You et al.

cs.RO cs.AI cs.CV

本文提出了一个名为V2X-QA的数据集和基准测试, 用于在自动驾驶场景中评估多模态大语言模型(MLLMs)在车辆端, 基础设施端和协同视角下的性能. 该基准采用多选问答框架, 包含十二项任务, 并引入了一个基准对齐的基线模型V2X-MoE.

MOMO: Mars Orbital Model Foundation Model for Mars Orbital Applications

Mirali Purohit et al.

cs.CV cs.AI cs.LG

本文提出了首个用于火星遥感的多传感器基础模型MOMO, 它通过模型合并整合了从不同分辨率传感器独立学习到的表示. 该方法采用了一种新颖的Equal Validation Loss策略来选择用于合并的模型检查点, 并在多个下游任务上取得了优于基准模型的表现.

IndustryCode: A Benchmark for Industry Code Generation

Puyu Zeng et al.

cs.SE cs.AI cs.CL

本文提出了一个名为 IndustryCode 的基准测试，用于评估大语言模型在跨多个工业领域和编程语言下的代码生成与理解能力。该基准包含来自多个领域的复杂问题，并进行了初步的模型评估。

State estimations and noise identifications with intermittent corrupted observations via Bayesian variational inference

Peng Sun, Ruoyu Wang, Xue Luo

stat.ML cs.LG math.OC stat.CO

本文提出了一种用于分布式传感器网络的变分贝叶斯自适应卡尔曼滤波方法, 以处理数据包丢失、观测值被破坏和噪声协方差未知的联合状态估计问题. 该方法通过双掩码生成模型和集成多传感器观测来提升参数可识别性和估计性能.

Cross Event Detection and Topic Evolution Mining in cross events for Man Made Disasters in Social Media Streams

Pramod Bide et al.

cs.SI cs.AI

本文提出了一种名为CEED的框架, 用于从社交媒体流中检测与主要事件在时间上相似的交叉事件(cross events), 并分析其主题演化. 该方法基于推文分割与聚类, 并在真实Twitter数据集上验证了有效性.

Zero-Freeness of the Hard-Core Model with Bounded Connective Constant

Yuan Chen, Shuai Shao, Ke Shi

cond-mat.stat-mech cs.DS math-ph math.PR

本文研究了hard-core model配分函数的zero-free regions, 并将其与无限格点上的自由能解析性联系起来. 作者基于有限图中自回避行走数的下界定义了connective constant $\mu$, 并证明了对于满足$\lambda < \lambda_c(\mu)$的图族, 其配分函数在实区间$[0, \lambda]$的一个复邻域内无零点.

Optimal Pricing with Unreliable Signals

Zhihao Gavin Tang, Yixin Tao, Shixin Wang

cs.GT cs.DS

本文研究了在卖方拥有不可靠侧信息情况下的单买家定价问题. 卖方观察到一个可能准确也可能为幻觉的私有信号, 而买家知道信号的可靠性, 这导致了高阶信息不对称. 作者在一致性-鲁棒性框架下刻画了最优权衡, 并展示了私有信号的价值.

SentinelAgent: Intent-Verified Delegation Chains for Securing Federal Multi-Agent AI Systems

KrishnaSaiReddy Patil

cs.CR cs.AI cs.MA

本文提出了一个用于联邦多智能体AI系统的可验证委托链框架SentinelAgent. 它通过形式化的委托链演算和运行时协议来强制执行一系列安全属性, 并在基准测试中展示了有效性.

Disrupting Cognitive Passivity: Rethinking AI-Assisted Data Literacy through Cognitive Alignment

Yongsu Ahn, Nam Wook Kim, Benjamin Bach

cs.HC cs.AI

本文探讨了AI辅助数据素养中可能引发的认知被动性问题, 并提出了一个认知对齐框架. 该框架旨在通过动态调整AI的交互模式来匹配用户的认知需求, 以促进更有效的学习.

EnsemHalDet: Robust VLM Hallucination Detection via Ensemble of Internal State Detectors

Ryuhei Miyazato, Shunsuke Kitada, Kei Harada

cs.CV cs.CL

本文提出了一种基于集成学习的VLM幻觉检测方法EnsemHalDet, 通过组合多个内部状态检测器来提升检测的鲁棒性. 实验表明, 该方法在多个数据集和模型上优于现有方法.

LumaFlux: Lifting 8-Bit Worlds to HDR Reality with Physically-Guided Diffusion Transformers

Shreshth Saini et al.

cs.CV cs.AI

本文提出了一种名为LumaFlux的扩散transformer模型，用于将8-bit SDR内容转换为10-bit HDR。该方法通过物理引导的adaptation模块和感知cross-modulation层来提升重建质量，并在新构建的数据集上取得了优于现有方法的结果。

PaveBench: A Versatile Benchmark for Pavement Distress Perception and Interactive Vision-Language Analysis

Dexiang Li et al.

cs.CV cs.AI cs.MM

本文提出了一个用于路面病害感知与交互式视觉-语言分析的大规模基准测试PaveBench. 它整合了分类、检测、分割和视觉问答等核心任务, 并引入了一个支持多轮交互的问答数据集PaveVQA.

ChatSVA: Bridging SVA Generation for Hardware Verification via Task-Specific LLMs

Lik Tung Fu et al.

cs.AR cs.AI

本文提出了一个基于多智能体框架的端到端SystemVerilog Assertions生成系统ChatSVA, 旨在解决硬件验证中手动编写断言效率低下的问题. 该系统通过生成高质量数据集来应对领域数据稀缺的挑战, 在功能正确性和覆盖率上相比现有方法有显著提升.

QAPruner: Quantization-Aware Vision Token Pruning for Multimodal Large Language Models

Xinhao Wang et al.

cs.CV cs.AI

本文提出了一种量化感知的视觉token剪枝框架, 用于压缩多模态大语言模型(MLLMs). 该方法通过结合量化误差模拟与异常值强度的混合敏感度度量, 在低比特量化下协同优化剪枝与量化, 提升了模型在资源受限环境中的推理效率与精度.

NavCrafter: Exploring 3D Scenes from a Single Image

Hongbo Duan et al.

cs.CV cs.AI

本文提出了NavCrafter框架, 用于从单张图像探索3D场景. 该方法利用视频扩散模型捕获3D先验, 并通过几何感知扩展策略合成具有时空一致性的可控新视角视频序列.

Transfer Learning for Loan Recovery Prediction under Distribution Shifts with Heterogeneous Feature Spaces

Christopher Gerling et al.

q-fin.RM cs.LG

本文提出了一种名为FT-MDN-Transformer的混合密度表格Transformer架构，用于在特征空间异构的情况下进行贷款回收率预测的迁移学习。该方法在目标域数据有限时表现优于基线模型，并能提供概率预测。

Towards Secure Agent Skills: Architecture, Threat Taxonomy, and Security Analysis

Zhiyuan Li et al.

cs.CR cs.AI

本文对新兴的 Agent Skills 标准进行了首次全面的安全分析。文章定义了其生命周期的四个阶段，构建了一个包含七类威胁的分类体系，并基于实际案例验证了其有效性，最后讨论了防御方向与挑战。

High-resolution probabilistic estimation of three-dimensional regional ocean dynamics from sparse surface observations

Niloofar Asefi et al.

physics.ao-ph cs.AI math.DS nlin.CD

本文提出了一种基于条件去噪扩散概率模型(DDPM)的深度感知生成框架, 用于从极其稀疏的海面观测数据中重建高分辨率三维海洋状态. 该方法无需依赖背景动力模型, 通过连续深度嵌入学习统一的垂直表示, 并在墨西哥湾的应用中准确重建了多个深度的温度, 盐度和流速场.

A Paradigm Shift: Fully End-to-End Training for Temporal Sentence Grounding in Videos

Allen He et al.

cs.CV cs.AI

本文提出了一种用于视频时序语句定位(TSGV)的完全端到端训练范式, 通过联合优化视频主干网络和定位头来解决现有方法中预训练视觉编码器与下游任务不匹配的问题. 实验表明该方法在多个基准测试上取得了优于现有技术的结果.

LLM+Graph@VLDB'2025 Workshop Summary

Yixiang Fang et al.

cs.DB cs.AI

本文是对第二届LLM+Graph研讨会的总结报告, 该研讨会聚焦于大语言模型(LLMs)与图结构数据的融合这一前沿领域. 报告概述了会议上关于算法、系统及实际应用的关键研究方向、挑战与创新解决方案.

Lipschitz bounds for integral kernels

Justin Reverdi et al.

stat.ML cs.LG

本文研究了积分核(integral kernels)对应的特征映射(feature maps)的Lipschitz连续性。在可微性假设下，给出了保证Lipschitz连续性的充分条件及其常数表达式，并分析了高斯核、ReLU随机神经网络核等具体实例。

Rethinking Forward Processes for Score-Based Data Assimilation in High Dimensions

Eunbi Yoon, Donghan Kim, Dae Wook Kim

stat.ML cs.AI cs.LG

本文提出了一种测量感知的score-based滤波器(MASF), 通过直接从测量方程定义前向过程, 使得似然score在解析上易于处理. 在线性测量下, 该方法能精确推导似然score并与学习的先验score结合, 在高维数据同化实验中表现出更高的精度和稳定性.

Toward an Artificial General Teacher: Procedural Geometry Data Generation and Visual Grounding with Vision-Language Models

Hai Nguyen-Truong, Alper Balbay, Tunga Bayrak

cs.CV cs.AI cs.LG

本文提出了一种用于几何教育视觉解释的自动化数据生成方法, 并针对几何图表微调了视觉语言模型. 通过引入Buffered IoU这一几何感知的评估指标, 该方法在Referring Image Segmentation任务上取得了显著优于零样本设置的性能.

RayMamba: Ray-Aligned Serialization for Long-Range 3D Object Detection

Cheng Lu et al.

cs.CV cs.AI

本文提出RayMamba, 一种用于远距离3D目标检测的几何感知增强模块. 它通过一种射线对齐的序列化策略组织稀疏体素, 以保留方向连续性, 并利用基于Mamba的模型进行上下文建模, 在多个基准上提升了现有检测器的性能.

Corporations Constitute Intelligence

Gilad Abiri

cs.CY cs.AI

本文对Anthropic公司发布的AI治理"宪法"进行了法律与民主理论分析, 指出其存在结构性缺陷, 并认为当前的AI治理缺乏一个有权决定AI行为原则的民主政治共同体.

Split and Conquer Partial Deepfake Speech

Inbal Rimon, Oren Gal, Haim Permuter

cs.SD cs.AI cs.LG

本文提出了一种用于检测部分深度伪造语音的 split-and-conquer 框架。该方法将任务分解为边界检测和片段级分类两个阶段，并通过多长度训练策略提升鲁棒性，在 PartialSpoof 和 Half-Truth 数据集上取得了先进的性能。

Scalable Mean-Variance Portfolio Optimization via Subspace Embeddings and GPU-Friendly Nesterov-Accelerated Projected Gradient

Yi-Shuai Niu, Yajuan Wang

math.OC cs.CE cs.DC cs.LG math.NA

本文提出了一种基于随机子空间嵌入和GPU加速的Nesterov加速投影梯度算法，用于求解大规模约束均值-方差投资组合优化问题。该方法通过构建一个有效的因子矩阵来压缩问题规模，并利用GPU友好的核函数加速计算，在保持目标精度的同时显著减少了运行时间。

Learning from Synthetic Data via Provenance-Based Input Gradient Guidance

Koshiro Nagano et al.

cs.CV cs.AI cs.LG

本文提出了一种利用合成数据生成过程中的来源信息来指导模型学习的方法. 该方法通过分解输入梯度并抑制非目标区域的梯度, 旨在减少模型对合成伪影的依赖, 从而学习更专注于目标区域的判别性表示. 实验在弱监督目标定位等多个任务上验证了其有效性.

Open-Loop Planning, Closed-Loop Verification: Speculative Verification for VLA

Zihua Wang et al.

cs.RO cs.CL

本文提出了一种结合高效开环长程规划与轻量级闭环在线验证的框架SV-VLA, 用于提升Vision-Language-Action (VLA)模型在具身控制任务中的效率与鲁棒性. 该方法通过低频宏规划器生成动作序列, 并利用轻量验证器基于最新观测进行监控, 仅在必要时触发重规划.

Inversion-Free Natural Gradient Descent on Riemannian Manifolds

Dario Draca, Takuo Matsubara, Minh-Ngoc Tran

stat.ML cs.LG stat.CO stat.ME

本文提出了一种免求逆的随机自然梯度方法, 适用于参数位于Riemannian流形上的概率分布. 该方法在线近似逆Fisher信息矩阵, 并证明了在步长指数$\alpha >2/3$时到最小化器的平方距离的几乎必然收敛率为$O(\log{s}/s^\alpha)$. 最后, 在具有高斯近似和归一化流的变分贝叶斯上验证了其相对于欧几里得对应方法的有效性.

A semicontinuous relaxation of Saito's criterion and freeness as angular minimization

Tomás S. R. Silva

math.AG cs.LG math.CO

本文通过引入一个基于Saito准则半连续松弛的非负泛函来度量线构形的自由度。该泛函具有几何解释，并用于指导一种基于强化学习的顺序构形构造方法。

Comparing the Impact of Pedagogy-Informed Custom and General-Purpose GAI Chatbots on Students' Science Problem-Solving Processes and Performance Using Heterogeneous Interaction Network Analysis

Hanyu Su, Huilin Zhang, Shihui Feng

cs.SI cs.AI cs.HC

本文通过对比实验研究了两种GAI聊天机器人对学生科学问题解决过程的影响. 研究使用Heterogeneous Interaction Network Analysis (HINA)方法分析对话数据, 发现定制化聊天机器人能引发更高的认知参与度.

Learning Contractive Integral Operators with Fredholm Integral Neural Operators

Kyriakos C. Georgiou, Constantinos Siettos, Athanasios N. Yannacopoulos

math.NA cs.LG

本文提出了一种称为Fredholm Integral Neural Operators (FREDINOs)的框架, 用于学习高维Fredholm积分方程中的非扩张积分算子. 该方法被证明是积分算子及其对应解算子的通用逼近器, 并且能保证学习到的算子具有压缩性, 从而满足不动点迭代收敛的数学要求. 数值实验验证了该方法在求解线性和非线性积分方程以及椭圆型偏微分方程方面的有效性.

Beyond Isolated Tasks: A Framework for Evaluating Coding Agents on Sequential Software Evolution

KN Ajay Shastry et al.

cs.SE cs.AI

本文提出了一个评估编码智能体在序列化软件演化任务中表现的框架和数据集SWE-STEPS. 该框架通过模拟真实开发流程, 揭示了现有孤立任务评估会高估智能体性能, 并指出智能体生成的代码在认知复杂性和技术债务方面劣于人类开发者.

ARM: Advantage Reward Modeling for Long-Horizon Manipulation

Yiming Mao et al.

cs.RO cs.AI cs.CV

本文提出了一种名为ARM的框架, 用于解决长时程机器人操作任务中稀疏奖励信号带来的信用分配挑战. 该方法通过一种低成本的三态标注策略来估计相对优势, 并集成到离线强化学习流程中, 在毛巾折叠任务上取得了高成功率.

Analyzing Healthcare Interoperability Vulnerabilities: Formal Modeling and Graph-Theoretic Approach

Jawad Mohammed, Gahangir Hossain

cs.CR cs.AI

本文提出了一种用于分析医疗互操作性平台中并发访问漏洞的形式化图模型 FHIR Resource Access Graph (FRAG). 该模型将并发进程和资源访问事件建模为图结构, 并定义了三种临床相关的竞争条件类别. 通过图遍历算法在合成交易日志上进行测试, 其检测性能显著优于基于时间窗口的基线方法.

MECO: A Multimodal Dataset for Emotion and Cognitive Understanding in Older Adults

Hongbin Chen et al.

cs.HC cs.AI

本文介绍了一个名为MECO的多模态数据集, 专注于老年人群体的情感与认知理解. 该数据集包含视频, 音频, EEG和ECG信号, 并提供了情感状态和认知分数的标注, 旨在为相关研究提供基础资源.

Credential Leakage in LLM Agent Skills: A Large-Scale Empirical Study

Zhihao Chen et al.

cs.CR cs.AI

本文对LLM agent中第三方技能导致的凭证泄露风险进行了首次大规模实证研究。通过静态分析、沙箱测试和人工检查，分析了超过17,000个技能，识别出多种泄露模式。研究发现，大部分泄露需要结合代码和自然语言进行跨模态分析，且泄露的凭证具有可利用性和持久性。

Speaker-Reasoner: Scaling Interaction Turns and Reasoning Patterns for Timestamped Speaker-Attributed ASR

Zhennan Lin et al.

eess.AS cs.CL cs.SD

本文提出了一种用于多说话人场景的端到端Speech LLM模型Speaker-Reasoner. 该模型通过多轮时序推理来处理重叠语音和复杂话轮转换, 在相关数据集上取得了性能提升.

Supply-Chain Poisoning Attacks Against LLM Coding Agent Skill Ecosystems

Yubin Qu et al.

cs.CR cs.AI cs.CL

本文提出了一种针对LLM编程智能体技能生态系统的供应链投毒攻击方法, 名为Document-Driven Implicit Payload Execution (DDIPE). 该方法通过在技能文档的代码示例和配置模板中嵌入恶意逻辑, 使得智能体在执行常规任务时无意中执行恶意操作, 从而绕过现有的安全防护措施.

On Data-Driven Koopman Representations of Nonlinear Delay Differential Equations

Santosh Mohan Rajkumar et al.

eess.SY cs.LG math.DS

本文为非线性时滞微分方程(DDEs)的数据驱动Koopman表示提供了一个基于历史离散化的有限维近似框架. 通过结合核扩展动态模态分解(kEDMD), 该工作推导了预测器的确定性误差界, 并展示了其在数值实验中的收敛性.

SkillRT: Compiling Skills for Efficient Execution Everywhere

Le Chen et al.

cs.SE cs.LG

本文提出SkillRT, 一个用于LLM agent技能的可移植与高效执行的编译和运行时系统. 它将技能视为代码, 将LLMs视为异构处理器, 通过能力剖析, 编译时优化和运行时自适应重编译来提升任务完成率并降低token消耗.

A Data-Centric Vision Transformer Baseline for SAR Sea Ice Classification

David Mike-Ewewie, Panhapiseth Lim, Priyanka Kumar

cs.CV cs.AI

本文为SAR海冰分类建立了一个基于Vision Transformer的可靠基线. 通过结合全分辨率Sentinel-1数据、防泄漏的分块策略以及focal loss等方法, 在AI4Arctic数据集上评估了不同模型配置, 其中ViT-Large模型在少数类Multi-Year Ice上取得了较高的精度.

AlertStar: Path-Aware Alert Prediction on Hyper-Relational Knowledge Graphs

Zahra Makki Nayeri, Mohsen Rezvani

cs.CR cs.AI

本文提出了一种基于超关系知识图谱的网络安全警报预测方法. 该方法将网络警报建模为包含丰富上下文信息的超关系知识图谱, 并设计了多个模型进行链路预测和复杂查询.

Can VLMs Truly Forget? Benchmarking Training-Free Visual Concept Unlearning

Zhangyun Tan et al.

cs.CV cs.AI

本文提出了首个用于评估训练无关的视觉概念遗忘的基准测试VLM-UnBench, 涵盖多个遗忘级别和概念轴. 研究发现, 在实际的遗忘提示下, 模型的遗忘准确率与基线相近, 仅当明确告知模型目标概念时才有显著下降, 揭示了提示级抑制与真实概念擦除之间的差距.

An Independent Safety Evaluation of Kimi K2.5

Zheng-Xin Yong et al.

cs.CR cs.AI cs.CL

本文对开源大语言模型 Kimi K2.5 进行了初步的安全评估，涵盖了其在多个风险领域的表现。研究发现该模型在某些危险请求上拒绝率较低，并表现出一定的有害行为倾向。

A Systematic Security Evaluation of OpenClaw and Its Variants

Yuhang Wang et al.

cs.CR cs.AI

本文对六个OpenClaw系列AI agent框架进行了系统的安全评估。研究发现，这些具备工具调用能力的agent系统比其底层大模型本身存在显著更高的安全风险，其脆弱性贯穿于整个执行生命周期。

AI-Assisted Unit Test Writing and Test-Driven Code Refactoring: A Case Study

Ema Smolic et al.

cs.SE cs.AI

本文通过一个案例研究, 探讨了使用AI编码模型进行自动化单元测试生成和后续安全重构的工作流程. 该流程通过生成的测试来验证重构后的代码, 旨在提高遗留代码库的维护性和重构安全性.

InCoder-32B-Thinking: Industrial Code World Model for Thinking

Jian Yang et al.

cs.AR cs.AI cs.CL

本文提出了InCoder-32B-Thinking模型，通过结合Error-driven Chain-of-Thought (ECoT)合成框架和工业代码世界模型(ICWM)来生成专家推理轨迹。该模型在多个通用和工业基准测试中取得了领先的开源结果。

Characterization of Gaussian Universality Breakdown in High-Dimensional Empirical Risk Minimization

Chiheb Yaakoubi et al.

stat.ML cs.LG

本文研究了高维凸经验风险最小化(ERM)在非高斯数据设计下的统计特性. 通过将凸高斯最小最大定理(CGMT)启发式地推广到非高斯情形, 作者得到了关键统计量的渐近min-max刻画, 并分析了高斯普适性失效的条件.

BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation

Delip Rao, Chris Callison-Burch

cs.DL cs.CL

本文评估了在科学出版智能体中, 大型语言模型结合网络搜索生成BibTeX引文时产生的字段级错误. 作者构建了一个包含多个科学领域和引用层级的基准测试, 并提出了一个名为clibib的确定性检索工具作为缓解方案, 通过两阶段集成显著提升了引文准确性.

The Compression Gap: Why Discrete Tokenization Limits Vision-Language-Action Model Scaling

Takuya Shiba

cs.RO cs.CV cs.LG

本文探讨了在Vision-Language-Action模型中，当动作被表示为离散token时，提升视觉编码器规模并不能有效改善下游操作性能的现象。作者提出了一个名为“压缩间隙”的信息论原理来解释这一现象，并通过在LIBERO基准上的实验验证了该原理。

PR3DICTR: A modular AI framework for medical 3D image-based detection and outcome prediction

Daniel C. MacRae et al.

cs.CV cs.AI cs.LG

本文介绍了一个名为PR3DICTR的模块化AI框架，该框架基于PyTorch和MONAI构建，旨在简化基于3D医学图像的检测与结果预测模型的开发流程。它提供了丰富的预设功能，同时允许用户灵活地插入自定义模块。

A Tsetlin Machine-driven Intrusion Detection System for Next-Generation IoMT Security

Rahul Jaiswal et al.

cs.CR cs.LG

本文提出了一种基于Tsetlin Machine的入侵检测系统，用于保护医疗物联网(IoMT)安全。该方法在特定数据集上表现出较高的分类准确率，并提供了模型可解释性分析。

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others