bluearXiv-ai - 2026-04-01

📄 所有论文 ↑ 回顶部

cs.LG

The Spectral Edge Thesis: A Mathematical Framework for Intra-Signal Phase Transitions in Neural Network Training ⭐ 精选

Yongzhong Xu

cs.LG cs.AI

本文提出了 spectral edge thesis, 认为神经网络训练中的相变(如 grokking, 能力跃升, 损失平台)由参数更新滚动窗口 Gram 矩阵的 spectral gap 控制. 在极端长宽比条件下, 核心是 intra-signal gap, 它分离了主导模式和次主导模式. 基于三个公理, 作者推导出了 gap 演化的 Dyson-type ODE, 建立了 spectral loss 分解, 并提出了 Gap Maximality Principle, 表明特定 gap 位置的崩溃是唯一会破坏学习的过程. 理论通过 adiabatic parameter $\mathcal{A}$ 解释训练稳定性, 并在多个模型家族上得到实验验证, 与多种现有理论一致.

OneComp: One-Line Revolution for Generative AI Model Compression

Yuma Ichikawa et al.

cs.LG cs.AI cs.CE cs.CL

本文提出了一个名为OneComp的开源模型压缩框架, 旨在自动化并简化生成式AI模型的训练后量化流程. 它通过硬件感知的自动化管道, 将复杂的量化算法选择与精度分配等专家工作流程, 转化为可复现且资源自适应的过程.

Structural Pass Analysis in Football: Learning Pass Archetypes and Tactical Impact from Spatio-Temporal Tracking Data

Oktay Karakuş, Hasan Arkadaş

cs.LG cs.CY

本文提出了一种基于防守结构交互的足球传球分析框架, 利用同步的追踪与事件数据定义了三个结构指标: Line Bypass Score, Space Gain Metric 和 Structural Disruption Index, 并组合成 Tactical Impact Value (TIV) 来量化传球对防守方空间配置的影响. 通过对2022年世界杯数据的分析, 该方法识别出四种可解释的传球类型, 并展示了高TIV传球与球队区域推进之间的关联.

Beta-Scheduling: Momentum from Critical Damping as a Diagnostic and Correction Tool for Neural Network Training

Ivan Pasichnyk

cs.LG cs.AI

本文提出了一种基于临界阻尼谐振子推导出的时变动量调度方法, 称为Beta-Scheduling, 其动量 $\mu(t) = 1 - 2\sqrt{\alpha(t)}$ 仅依赖于学习率 $\alpha(t)$. 该方法在ResNet-18/CIFAR-10上实现了更快的收敛, 并能产生跨优化器一致的梯度归因诊断, 用于定位网络中的问题层.

A Neural Tension Operator for Curve Subdivision across Constant Curvature Geometries

Hassan Ugail, Newton Howard

cs.LG

本文提出了一种用于在常曲率几何（Euclidean, spherical, hyperbolic）上生成曲线的通用神经张力算子。该方法用一个轻量级神经网络预测每条边的插入角度，取代了传统的全局张力参数，并通过理论分析保证了插入的安全性和收敛性。实验表明，该方法在平滑度和保真度权衡上优于固定参数的基线方法。

Foundations of Polar Linear Algebra

Giovanni Guasti

cs.LG math.NA

本文提出了一种基于极坐标几何的 Polar Linear Algebra 框架, 用于从谱视角研究算子学习. 该框架将线性径向分量与周期性角分量结合, 并在 MNIST 基准上验证了其可行性. 结果表明, 该方法能减少参数量并提高可解释性, 同时为模型并行化提供了新的维度.

\texttt{ReproMIA}: A Comprehensive Analysis of Model Reprogramming for Proactive Membership Inference Attacks

Chihan Huang, Huaijin Wang, Shuai Wang

cs.LG cs.CR

本文提出了一种名为ReproMIA的主动成员推理攻击框架, 它利用模型重编程技术来放大模型中的隐私泄露信号. 该方法避免了传统方法中训练影子模型的高昂计算成本, 并在低误报率约束下显著提升了攻击性能, 在多种模型架构上进行了实验验证.

Differentiable Initialization-Accelerated CPU-GPU Hybrid Combinatorial Scheduling

Mingju Liu et al.

cs.LG cs.AI cs.AR

本文提出了一种结合可微分优化与经典整数线性规划求解器的混合CPU-GPU框架，用于组合调度问题。该方法利用可微分预求解为商业求解器提供高质量的初始解，从而加速求解过程，在工业级基准测试上取得了显著的性能提升。

Multi-Agent LLMs for Adaptive Acquisition in Bayesian Optimization

Andrea Carbonati, Mohammadsina Almasi, Hadis Anahideh

cs.LG cs.AI

本文提出了一个多智能体框架, 将探索-利用权衡分解为策略协调和候选生成两个部分, 以改善基于LLM的优化. 实验表明, 这种分解使搜索行为更可控, 并在连续优化基准测试中取得了更好的效果.

An Explicit Surrogate for Gaussian Mixture Flow Matching with Wasserstein Gap Bounds

Elham Rostami, Taous-Meriem Laleg-Kirati, Hamidou Tembine

cs.LG

本文研究了在两个Gaussian mixture models (GMMs) 之间进行免训练的flow matching问题。它提出了一种基于显式速度场的baseline方法，并分析了其近似误差。

Improving Efficiency of GPU Kernel Optimization Agents using a Domain-Specific Language and Speed-of-Light Guidance

Siva Kumar Sastry Hari et al.

cs.LG cs.AI

本文提出了一种使用领域特定语言(DSL)和光速(SOL)引导来提高GPU内核优化代理效率的方法. 通过将代理的操作抽象级别提升至DSL, 并结合基于物理原理的性能界限进行搜索引导与预算分配, 该方法在减少计算成本的同时实现了显著的性能加速.

From Astronomy to Astrology: Testing the Illusion of Zodiac-Based Personality Prediction with Machine Learning

Abhinna Sundar Samantaray et al.

cs.LG physics.pop-ph

本文通过构建合成数据集并训练多种机器学习分类器, 测试了基于星座的人格预测的有效性. 实验结果表明, 模型的预测性能始终在随机水平附近, 表明星座系统并不提供可靠的预测信息, 其表面上的成功源于认知偏差和文化叙事框架.

A Latent Risk-Aware Machine Learning Approach for Predicting Operational Success in Clinical Trials based on TrialsBank

Iness Halimi et al.

cs.LG cs.AI cs.DB

本文提出了一种基于TrialsBank数据库的分层潜在风险感知机器学习框架, 用于前瞻性预测临床试验的操作成功率. 该框架通过预测中间潜在风险因素并整合到下游模型, 在I-III期试验中取得了较高的F1分数, 展示了其在早期风险评估和数据驱动决策中的实用性.

ARCS: Autoregressive Circuit Synthesis with Topology-Aware Graph Attention and Spec Conditioning

Tushar Dhananjay Pathak

cs.LG cs.AR

本文提出了一个名为ARCS的模拟电路自动生成系统, 它结合了图变分自编码器(Variational Autoencoder, VAE)和流匹配(flow-matching)模型来快速生成完整的、可仿真的电路设计. 通过引入一种新的强化学习策略(Group Relative Policy Optimization, GRPO)和基于语法的解码约束, 系统在保证结构有效性的同时, 实现了比传统基于搜索的方法快数百倍的生成速度.

On the Mirage of Long-Range Dependency, with an Application to Integer Multiplication

Zichao Wei

cs.LG cs.AI

本文探讨了整数乘法任务中长程依赖性的本质, 认为其并非任务固有属性, 而是由计算时空的选择所导致的"幻象". 作者通过将输入表示为二维外积网格, 将乘法步骤转化为局部邻域操作, 并展示了一个极小参数的神经元胞自动机在此表示下实现了优异的长度泛化能力.

Realistic Market Impact Modeling for Reinforcement Learning Trading Environments

Lucas Riera Abbade, Anna Helena Reali Costa

cs.LG cs.CE

本文提出了三个集成非线性市场冲击模型的Gymnasium兼容交易环境, 用于强化学习训练. 实验表明, 成本模型显著改变了算法的绝对表现和相对排名, 并且超参数优化对于约束异常交易行为至关重要.

HCLSM: Hierarchical Causal Latent State Machines for Object-Centric World Modeling

Jaber Jaber, Osama Jaber

cs.LG cs.CV cs.RO

本文提出了一种名为HCLSM的世界模型架构, 它结合了object-centric decomposition, hierarchical temporal dynamics和causal structure learning. 该模型在PushT机器人操作基准上进行了训练, 实现了较低的下一个状态预测损失.

Efficient Bilevel Optimization with KFAC-Based Hypergradients

Disen Liao, Felix Dangel, Yaoliang Yu

cs.LG

本文提出了一种基于Kronecker-factored approximate curvature (KFAC) 的双层优化超梯度计算方法, 旨在更高效地处理逆Hessian-向量积问题. 该方法在多个任务上进行了评估, 显示出比现有方法更好的性能与效率权衡.

Quality-Controlled Active Learning via Gaussian Processes for Robust Structure-Property Learning in Autonomous Microscopy

Jawad Chowdhury et al.

cs.LG

本文提出了一种结合好奇心驱动采样与基于物理的质量控制滤波器的门控主动学习框架, 用于自主显微镜实验中的结构-性质学习任务. 该方法在含噪声的压电响应光谱数据集上评估, 显示出优于随机采样和标准主动学习的性能, 并成功部署于实时实验.

Efficient and Scalable Granular-ball Graph Coarsening Method for Large-scale Graph Node Classification

Guan Wang et al.

cs.LG cs.AI

本文提出了一种基于granular-ball的图粗化方法, 用于提升大规模图节点分类任务中GCN的训练效率. 该方法通过线性时间复杂度的粗化算法生成多粒度子图, 并随机采样子图进行mini-batch训练, 在多个数据集上验证了其有效性.

Dummy-Aware Weighted Attack (DAWA): Breaking the Safe Sink in Dummy Class Defenses

Yunrui Yu et al.

cs.LG cs.CR

本文针对基于Dummy Classes的防御方法, 提出了一种新的对抗性攻击评估方法DAWA. 该方法通过同时针对真实标签和虚拟标签进行自适应加权攻击, 有效降低了此类防御所声称的鲁棒性, 为评估这类新兴防御提供了更可靠的基准.

IMPACT: Influence Modeling for Open-Set Time Series Anomaly Detection

Xiaohui Zhou et al.

cs.LG cs.AI

本文提出了一个名为IMPACT的新框架, 用于开放集时间序列异常检测. 该框架通过学习一个influence function来估计训练样本的影响, 并利用这些影响分数来生成未见过的异常模式, 同时在训练数据被未标记异常污染时进行去污处理. 实验表明该方法在多种设置下优于现有技术.

Biomimetic PINNs for Cell-Induced Phase Transitions: UQ-R3 Sampling with Causal Gating

Anci Lin et al.

cs.LG math.NA

本文提出了一种用于细胞诱导相变问题的仿生物理信息神经网络(Bio-PINNs). 该方法通过引入距离门控和基于不确定性的自适应采样策略, 旨在更准确地捕捉相变过程中的尖锐界面和微结构.

Improving Ensemble Forecasts of Abnormally Deflecting Tropical Cyclones with Fused Atmosphere-Ocean-Terrain Data

Qixiang Li et al.

cs.LG cs.AI

本文提出了一种融合大气-海洋-地形数据的深度学习模型, 用于改进异常偏转热带气旋的集合预报. 该方法在西北太平洋2017-2024年的所有TC案例上取得了先进的预报性能.

Derived Fields Preserve Fine-Scale Detail in Budgeted Neural Simulators

Wenshuo Wang, Fan Zhang

cs.LG cs.AI

本文针对固定存储预算下神经模拟器难以保持精细尺度细节的问题, 提出了一个名为Derived-Field Optimization (DerivOpt)的通用状态设计框架. 该框架通过分析并优化所携带的物理场(primitive vs. derived fields)及其存储分配, 在PDEBench数据集上有效提升了模拟的精细尺度保真度.

Robust and Consistent Ski Rental with Distributional Advice

Jihwan Kim, Chenglin Fan

cs.LG

本文针对ski rental问题, 提出了一个整合分布预测建议的系统性框架. 该框架为确定性和随机性算法提供了严格的鲁棒性保证, 并通过实验验证了其相对于点预测基线的性能提升.

Stochastic Dimension Implicit Functional Projections for Exact Integral Conservation in High-Dimensional PINNs

Zhangyong Liang

cs.LG math.NA

本文提出了一种名为SDIFP的新框架, 用于在求解高维PDE的PINNs中严格保持宏观积分守恒律. 该方法通过对连续网络输出进行全局仿射变换, 并结合解耦的随机梯度估计器, 实现了无网格、可扩展的训练.

Monodense Deep Neural Model for Determining Item Price Elasticity

Lakshya Garg et al.

cs.LG cs.AI

本文提出了一种名为Monodense的混合深度神经网络架构，用于从大规模交易数据中估计商品价格弹性。该框架旨在处理缺乏明确对照组的场景，并通过回溯测试在零售数据上验证了其优于其他机器学习方法。

Lie Generator Networks for Nonlinear Partial Differential Equations

Shafayeth Jamil, Rehan Kapadia

cs.LG physics.flu-dyn

本文提出了一种名为Lie Generator Network--Koopman (LGN-KM)的神经算子，用于将非线性PDE系统提升到线性潜在空间并学习其Koopman generator。该方法通过分解生成器为斜对称部分和正定对角部分来保证稳定性和可解释性，并在二维Navier-Stokes湍流数据上进行了验证。

From Physics to Surrogate Intelligence: A Unified Electro-Thermo-Optimization Framework for TSV Networks

Mohamed Gharib, Leonid Popryho, Inna Partin-Vaisband

cs.LG cs.AR

本文提出了一种用于TSV网络电热建模与优化的可扩展框架, 结合了物理信息解析建模, 图神经网络(GNN)代理模型以及全波验证. 该框架能够快速探索大量TSV配置, 实现布局与几何优化, 并将单次设计评估时间降低了六个数量级以上.

LGFNet: Local-Global Fusion Network with Fidelity Gap Delta Learning for Multi-Source Aerodynamics

Qinye Zhu et al.

cs.LG physics.flu-dyn

本文提出了一种用于多源空气动力学数据融合的Local-Global Fusion Network (LGFNet) 和 fidelity gap delta learning (FGDL) 策略。该方法结合了局部空间感知和全局自注意力机制，旨在同时捕捉高分辨率局部特征和长程流场依赖关系。

Deep Learning-Based Anomaly Detection in Spacecraft Telemetry on Edge Devices

Christopher Goetze, Tim Schlippe, Daniel Lakey

cs.LG cs.AI cs.AR

本文针对航天器遥测异常检测在星载边缘设备上部署的硬件限制问题, 研究了三种基于深度学习的检测方法, 并通过多目标神经架构优化技术对模型进行压缩. 优化后的模型在保持较高检测性能的同时, 显著降低了计算资源消耗, 使其能够在CubeSat等资源受限的硬件上实现.

Finite-time analysis of Multi-timescale Stochastic Optimization Algorithms

Kaustubh Kartikey, Shalabh Bhatnagar

cs.LG

本文对两种基于平滑函数近似的随机优化算法进行了有限时间分析. 第一种是基于梯度的双时间尺度算法, 第二种是基于牛顿法的三时间尺度算法, 后者同时估计目标函数$J$的梯度和Hessian矩阵. 研究为这两种算法, 特别是牛顿法, 建立了有限时间内的收敛性保证, 并分析了多时间尺度与估计误差传播之间的相互作用.

Causality-inspired Federated Learning for Dynamic Spatio-Temporal Graphs

Yuxuan Liu et al.

cs.LG

本文提出了一种名为SC-FSGL的因果启发的联邦学习框架，用于处理动态时空图数据中的异质性问题。该方法通过表示层面的干预来分离可迁移的因果知识与客户端特定噪声，并在多个数据集上取得了优于现有方法的效果。

PRISM: PRIor from corpus Statistics for topic Modeling

Tal Ishon, Yoav Goldberg, Uri Shaham

cs.LG cs.CL

本文提出了一种名为PRISM的语料库内部方法, 用于改进LDA主题模型的初始化. 该方法通过词共现统计推导Dirichlet先验参数, 无需依赖外部知识, 在文本和单细胞RNA-seq数据上提升了主题的一致性和可解释性.

Hybrid Quantum-Classical Spatiotemporal Forecasting for 3D Cloud Fields

Fu Wang et al.

cs.LG cs.AI

本文提出了一种用于3D云场预测的混合量子启发式时空预测框架QENO. 该框架通过结合经典时空编码器、拓扑感知量子增强块、动态融合时间单元和解码器, 旨在解决云演化中跨层交互和非局部依赖等挑战. 实验表明, QENO在多个指标上优于现有基线模型.

mtslearn: Machine Learning in Python for Medical Time Series

Zhongheng Jiang et al.

cs.LG eess.SP

本文介绍了一个名为mtslearn的Python工具包，它旨在为医疗时间序列数据提供一个端到端的机器学习工作流。该工具包通过统一的数据接口和模块化设计，简化了数据处理和模型构建过程，以降低临床研究者的使用门槛。

An Isotropic Approach to Efficient Uncertainty Quantification with Gradient Norms

Nils Grünefeld, Jes Frellsen, Christian Hardmeier

cs.LG cs.AI cs.CL

本文提出了一种基于梯度范数和各向同性假设的高效不确定性量化方法. 该方法通过单次前向-反向传播, 无需修改预训练模型即可估计认知不确定性和偶然不确定性. 实验表明, 该方法在合成问题上与MCMC估计结果有较强的一致性, 但其在问答任务中的有效性依赖于基准测试的特性.

Survival In-Context: Prior-fitted In-context Learning Tabular Foundation Model for Survival Analysis

Dmitrii Seletkov et al.

cs.LG

本文提出了一种用于生存分析(survival analysis)的 prior-fitted in-context learning 表格基础模型，称为 Survival In-Context (SIC). 该模型完全在合成数据上预训练，无需针对特定任务进行训练或超参数调优，即可在单次前向传播中完成个体化生存预测. 在多个真实世界数据集上的评估表明，其性能可与经典及深度生存模型相竞争.

Why not to use Cosine Similarity between Label Representations

Beatrix M. G. Nielsen

cs.LG

本文指出, 在 softmax classifier 中, 使用 cosine similarity 来衡量 label representations (或称为 unembeddings) 之间的相似性, 并不能提供关于模型输出概率的任何信息. 作者通过理论证明和具体示例表明, 可以构造出输出概率完全相同但 label representations 的 cosine similarity 为 1 或 -1 的等价模型, 因此不建议用此指标来解释模型行为.

Target-Aligned Reinforcement Learning

Leonard S. Pleiss, James Harrison, Maximilian Schiffer

cs.LG cs.AI

本文提出了Target-Aligned Reinforcement Learning (TARL)框架，旨在缓解强化学习中目标网络带来的稳定性与学习信号时效性之间的权衡。该方法通过优先更新目标网络与在线网络估计高度对齐的样本，在保持稳定性的同时加速收敛。

Variational Graph Neural Networks for Uncertainty Quantification in Inverse Problems

David Gonzalez et al.

cs.LG

本文提出了一种用于反问题不确定性量化的变分图神经网络(VGNN)架构. 该模型通过在解码器中引入变分层来建模权重分布, 以相对较低的成本估计认知不确定性和统计不确定性, 并在固体力学案例中验证了其恢复物理参数和提供置信区间的能力.

Capturing Multivariate Dependencies of EV Charging Events: From Parametric Copulas to Neural Density Estimation

Martin Výboh, Gabriela Grmanová

cs.LG

本文将 Vine copulas 和 Copula Density Neural Estimation (CODINE) 框架首次应用于电动汽车充电事件的建模, 以捕捉充电变量间的复杂依赖关系. 实验表明, 这些方法在多个真实数据集上超越了传统参数化模型, 并在保持尾部行为和相关性结构方面表现优异.

Total Variation Guarantees for Sampling with Stochastic Localization

Jakob Kellermann

cs.LG math.PR

本文为基于Stochastic Localization的采样算法SLIPS提供了首个在total variation距离下的收敛性保证。该分析借鉴了score-based生成模型的理论工具，并解释了离散化点选择的经验观察。

The Geometry of Polynomial Group Convolutional Neural Networks

Yacoub Hendi, Daniel Persson, Magdalena Larfors

cs.LG math.AG

本文为任意有限群$G$的多项式群卷积神经网络(PGCNN)建立了一个基于graded group algebras的新数学框架. 该框架导出了基于Hadamard积和Kronecker积的两种参数化, 并计算了对应神经流形的维数.

Disentangled Graph Prompting for Out-Of-Distribution Detection

Cheng Yang et al.

cs.LG

本文提出了一种用于图数据分布外检测的新方法Disentangled Graph Prompting (DGP). 该方法基于预训练+提示调优范式, 通过设计类别特定和类别无关的提示生成器来修改输入图的边权重, 以更好地捕捉分布内数据的细粒度模式. 在十个数据集上的实验表明, 该方法优于现有基线.

Concept frustration: Aligning human concepts and machine representations

Enrico Parisini et al.

cs.LG cs.AI stat.ML

本文提出了一个几何框架来比较人类可解释概念与从基础模型嵌入中提取的无监督中间表示, 并形式化了"概念挫败"这一概念. 通过任务对齐的相似性度量, 该框架能够检测概念挫败, 并在合成数据及真实语言和视觉任务上进行了验证.

A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models

Lixin Xiu, Xufang Luo, Hideki Nakayama

cs.LG cs.CL cs.CV

本文提出了一种基于partial information decomposition (PID)的框架, 用于量化分析large vision-language models (LVLMs)决策过程中的信息构成. 该方法将模型决策相关信息分解为redundant, unique和synergistic成分, 并在多个模型和任务上进行了广泛评估.

Mind the Gap: A Framework for Assessing Pitfalls in Multimodal Active Learning

Dustin Eisenhardt, Yunhee Jeong, Florian Buettner

cs.LG cs.AI

本文提出了一个用于评估多模态主动学习中常见陷阱的基准框架. 该框架通过合成数据集隔离了模态缺失、难度差异等问题, 并用于系统性地比较单模态与多模态查询策略. 研究发现, 现有方法会导致模型表征不平衡, 且多模态策略并未显著优于单模态策略.

Nonnegative Matrix Factorization in the Component-Wise L1 Norm for Sparse Data

Giovanni Seraghiti et al.

cs.LG eess.SP math.OC stat.ML

本文研究了基于component-wise L1范数的非负矩阵分解(L1-NMF), 该模型适用于受重尾噪声或离群值影响的数据. 作者证明了L1-NMF即使在秩为1时也是NP-hard问题, 并提出了一种新的加权L1-NMF模型(wL1-NMF)及相应的稀疏坐标下降算法(sCD)来处理稀疏数据.

One-for-All: A Lightweight Stabilized and Parameter-Efficient Pre-trained LLM for Time Series Forecasting

Prasanjit Dey, Soumyabrata Dev, Bianca Schoen-Phelan

cs.LG

本文提出了一种名为One-for-All的轻量级方法，用于将预训练大语言模型高效适配于多元时间序列预测任务。该方法通过引入一种参数高效的微调技术，显著降低了计算和内存开销，并在多个基准数据集上实现了与现有先进方法相当的预测精度。

Training-Free Dynamic Upcycling of Expert Language Models

Eros Fanì, Oğuzhan Ersoy

cs.LG cs.CL

本文提出了一种无需训练的动态升级方法DUME, 用于将不同领域的稠密专家模型组合成一个统一的MoE模型. 该方法通过利用ridge regression的闭式解, 避免了额外的优化, 并能动态添加专家, 在语言建模和推理任务上优于基线方法.

Big2Small: A Unifying Neural Network Framework for Model Compression

Jing-Xiao Liao et al.

cs.LG

本文提出了一个基于测度论(measure theory)的统一数学框架来理解模型压缩(model compression), 并将各种压缩技术(如剪枝, 量化)统一解释为带正则化的神经网络. 基于此, 作者提出了一个名为Big2Small的数据无关压缩框架, 该框架利用隐式神经表示(Implicit Neural Representations, INRs)来编码大模型的权重, 并通过引入异常值感知预处理和频率感知损失函数来提升重建效果. 在图像分类和分割任务上的实验表明, 该方法取得了有竞争力的压缩比和精度.

Multimodal Machine Learning for Early Prediction of Metastasis in a Swedish Multi-Cancer Cohort

Franco Rugolon et al.

cs.LG q-bio.QM

本文提出了一个利用多模态机器学习预测癌症转移风险的框架, 整合了电子健康记录中的结构化与非结构化数据. 该研究在多个癌症队列上评估了不同融合策略与分类器的性能, 发现中间层融合和深度学习模型通常表现最佳.

From Density Matrices to Phase Transitions in Deep Learning: Spectral Early Warnings and Interpretability

Max Hennick, Guillaume Corlouer

cs.LG cs.AI

本文提出了一种称为"2-datapoint reduced density matrix (2RDM)"的工具, 用于分析深度学习模型训练过程中的相变. 通过追踪2RDM的特征值统计, 作者推导出两种信号来预警和解释训练动态.

AMShortcut: An Inference- and Training-Efficient Inverse Design Model for Amorphous Materials

Yan Lin et al.

cs.LG cond-mat.mtrl-sci

本文提出了一种用于非晶材料逆向设计的概率生成模型AMShortcut. 该模型通过减少采样步骤提高了推理效率, 并能基于任意属性组合进行条件生成, 避免了为每种组合单独训练模型的需要.

Loss Gap Parity for Fairness in Heterogeneous Federated Learning

Brahim Erraji, Michaël Perrot, Aurélien Bellet

cs.LG

本文提出了一种名为EAGLE的联邦学习算法, 旨在通过显式正则化全局模型来最小化客户端间损失差距的差异, 从而在数据异质性的场景下实现相对改进的公平性. 该方法在理论和实验上均得到了验证.

Curvature-Guided LoRA: Steering in the pretrained NTK subspace

Frédéric Zheng, Alexandre Proutière

cs.LG

本文提出了一种基于曲率信息指导的LoRA变体CG-LoRA, 旨在通过匹配全参数微调的输出预测来提升参数高效微调的性能. 该方法利用局部曲率信息选择和缩放适配方向, 避免了显式的二阶矩阵构造, 在自然语言理解基准上取得了更好的效果.

DiSGMM: A Method for Time-varying Microscopic Weight Completion on Road Networks

Yan Lin et al.

cs.LG

本文提出了一种名为DiSGMM的方法, 用于完成路网中随时间变化的微观权重(如车辆行驶速度). 该方法结合了稀疏感知嵌入和时空建模, 将权重分布表示为可学习的高斯混合模型(Gaussian Mixture Model), 以处理网络和路段两个层面的数据稀疏性问题. 在真实数据集上的实验表明, DiSGMM优于现有方法.

Task Scarcity and Label Leakage in Relational Transfer Learning

Francisco Galuppo Azevedo, Clarissa Lima Loures, Denis Oliveira Correa

cs.LG

本文研究了关系型基础模型在任务稀缺情况下的标签泄露问题, 提出了一种梯度投影方法来抑制泄露. 该方法在RelBench基准上提升了模型在相同数据库内的任务迁移性能.

Real-Time Explanations for Tabular Foundation Models

Luan Borges Teodoro Reis Sena, Francisco Galuppo Azevedo

cs.LG

本文提出了一种名为ShapPFN的tabular foundation model, 它通过将Shapley value regression直接集成到模型架构中, 实现了在单次前向传播中同时生成预测和解释. 该方法在保持竞争力的预测性能的同时, 其解释生成速度比KernelSHAP快1000倍以上.

Meteorology-Driven GPT4AP: A Multi-Task Forecasting LLM for Atmospheric Air Pollution in Data-Scarce Settings

Prasanjit Dey, Soumyabrata Dev, Bianca Schoen-Phelan

cs.LG

本文提出了一种基于预训练GPT-2架构的轻量化多任务空气污染预测模型GPT4AP。该模型通过冻结主干网络并采用参数高效的适配方法，在数据稀缺和跨站点迁移场景下表现优于传统时间序列模型。

Quantifying Cross-Modal Interactions in Multimodal Glioma Survival Prediction via InterSHAP: Evidence for Additive Signal Integration

Iain Swift, JingHua Ye, Ruairi O'Reilly

cs.LG cs.AI q-bio.QM

本文通过将InterSHAP方法从分类任务扩展到Cox比例风险模型，量化了多模态胶质瘤生存预测中的跨模态交互作用。研究发现，预测性能的提升主要源于信号的互补性聚合，而非跨模态的协同学习。

Aligning Validation with Deployment: Target-Weighted Cross-Validation for Spatial Prediction

Alexander Brenning, Thomas Suesse

cs.LG stat.ML

本文针对空间预测中交叉验证(CV)因验证任务与部署任务分布不匹配而产生偏差的问题, 提出了目标加权交叉验证(TWCV)方法. 该方法通过校准加权调整验证损失, 并结合空间缓冲重采样, 以更准确地估计目标域上的预测风险.

Tracking Equivalent Mechanistic Interpretations Across Neural Networks

Alan Sun, Mariya Toneva

cs.LG cs.CL

本文提出了"解释等价性"的概念,旨在解决机制可解释性(MI)领域缺乏对有效解释的精确定义以及解释生成过程随意的问题. 作者通过形式化"两个解释等价当且仅当其所有可能实现都等价"的原则,并开发了一种算法来估计不同神经网络模型之间是否存在共享的解释,而无需显式描述该解释本身. 文章在基于Transformer的模型上进行了案例研究,并基于表示相似性为解释等价性建立了必要和充分条件,为MI的评估和自动化解释发现提供了更严格的基础.

Refined Detection for Gumbel Watermarking

Tor Lattimore

cs.LG cs.CR stat.ML

本文为Aaronson (2022)提出的Gumbel watermarking方案设计了一种简单的检测机制。该机制在假设下一个token分布为独立同分布采样的条件下，被证明在问题依赖的意义上接近最优。

Tucker Attention: A generalization of approximate attention mechanisms

Timon Klein et al.

cs.LG cs.AI

本文提出了一种称为Tucker Attention的广义近似注意力机制, 它通过一种新的低秩分解策略来参数化self-attention层的权重张量. 该方法在LLM和ViT的测试中, 能以数量级更少的参数达到与GQA和MLA相当的验证指标, 并且将MHA, GQA和MLA都涵盖为其特例.

Reward-Based Online LLM Routing via NeuralUCB

Ming-Hua Tsai, Phat Tran

cs.LG cs.CL

本文提出了一种基于NeuralUCB的在线LLM路由方法, 旨在平衡推理成本与输出质量. 该方法在模拟在线环境中进行测试, 相比随机和最小成本基线, 能获得更高的效用奖励, 同时相比最高质量参考, 能显著降低推理成本.

Aligned, Orthogonal or In-conflict: When can we safely optimize Chain-of-Thought?

Max Kaufmann et al.

cs.LG cs.AI

本文提出了一个概念框架来预测和解释在强化学习(RL)环境中对大型语言模型(LLM)进行后训练时，其思维链(CoT)的可监督性如何变化。作者将奖励函数分解为依赖于最终输出和依赖于CoT的两部分，并根据它们的关系进行分类，并通过实验验证了当这两部分奖励“冲突”时，CoT的可监督性会降低。

cs.AI

ChartDiff: A Large-Scale Benchmark for Comprehending Pairs of Charts

Rongtian Ye

cs.AI

本文提出了ChartDiff, 这是一个用于跨图表比较总结的大规模基准数据集. 该研究评估了多种模型, 发现当前视觉语言模型在比较性图表推理方面仍面临显著挑战.

Working Paper: Towards a Category-theoretic Comparative Framework for Artificial General Intelligence

Pablo de los Riscos, Fernando J. Corbacho, Michael A. Arbib

cs.AI

本文提出了一种基于范畴论(Category Theory)的框架，用于形式化地描述和比较不同的人工通用智能(AGI)架构。该框架旨在为AGI系统提供一个统一的形式基础，并支持对智能体(agent)的语义属性进行评估。

Towards Computational Social Dynamics of Semi-Autonomous AI Agents

S.O. Lidarity et al.

cs.AI cs.CY cs.MA

本文研究了层次化多智能体系统中AI智能体之间涌现的社会组织现象, 如工会和犯罪集团的自发形成. 作者结合热力学和演化动力学等框架, 分析了这种社会结构产生的机制, 并提出了对人工社会进行宪政设计的必要性.

Enhancing Policy Learning with World-Action Model

Yuci Han, Alper Yilmaz

cs.AI

本文提出了一种名为 World-Action Model (WAM) 的动作正则化世界模型，它通过联合推理未来视觉观测和驱动状态转移的动作来增强策略学习。该方法在 CALVIN 基准测试的多个操作任务上进行了评估，结果表明其能显著提升行为克隆和模型强化学习的性能。

Mimosa Framework: Toward Evolving Multi-Agent Systems for Scientific Research

Martin Legrand et al.

cs.AI cs.LG cs.MA

本文提出了一个名为Mimosa的演化多智能体框架，用于自动化科学研究。该框架能够动态合成任务特定的工作流，并通过实验反馈进行迭代优化，在基准测试中超越了静态配置。其模块化设计旨在支持跨学科的科学任务自动化。

Drop the Hierarchy and Roles: How Self-Organizing LLM Agents Outperform Designed Structures

Victoria Dochkina

cs.AI

本文通过大规模计算实验比较了不同协调协议下多智能体LLM系统的性能, 发现允许智能体自主组织角色的混合协议(Sequential)优于集中式协调. 实验表明, 智能体能够自发形成角色和浅层分工, 且这种自组织能力随模型能力提升而增强, 系统可扩展至256个智能体.

Emergence WebVoyager: Toward Consistent and Transparent Evaluation of (Web) Agents in The Wild

Deepak Akkil et al.

cs.AI

本文指出了现有AI智能体评估方法在复杂真实环境中的不足, 并提出了一个名为Emergence WebVoyager的标准化评估框架. 该框架通过规范任务实例化、失败处理等流程, 提高了评估的清晰度和可复现性, 并在评估一个具体agent时发现了与先前报告存在显著差异的性能结果.

The Future of AI is Many, Not One

Daniel J. Singer, Luca Garzino Demo

cs.AI

本文主张生成式AI的未来在于构建多样化的AI智能体协作系统, 而非追求单一的超级智能. 作者借鉴复杂系统与科学哲学的研究, 论证了认知多样性对于促进突破性创新和科学发现的重要性.

PAR$^2$-RAG: Planned Active Retrieval and Reasoning for Multi-Hop Question Answering

Xingyu Li et al.

cs.AI

本文提出了一种名为PAR$^2$-RAG的两阶段框架，用于改进大语言模型在多跳问答任务中的表现。该框架通过分离覆盖与确认步骤，结合广度优先锚定和深度优先精炼，提升了检索和推理的准确性。

GISTBench: Evaluating LLM User Understanding via Evidence-Based Interest Verification

Iordanis Fostiropoulos et al.

cs.AI cs.CL

本文提出了一个名为GISTBench的基准测试，用于评估大语言模型从推荐系统交互历史中理解用户的能力。该基准引入了两个新的指标族来评估模型提取和验证用户兴趣的准确性，并基于真实短视频平台数据构建了合成数据集进行验证。

SciVisAgentBench: A Benchmark for Evaluating Scientific Data Analysis and Visualization Agents

Kuangshi Ai et al.

cs.AI cs.GR cs.HC

本文提出了一个用于评估科学数据分析和可视化智能体性能的基准测试SciVisAgentBench. 该基准基于一个结构化的分类法构建, 包含108个专家设计的测试案例, 并采用了一个结合了基于LLM的评判与确定性评估器的多模态评估流程.

REFINE: Real-world Exploration of Interactive Feedback and Student Behaviour

Fares Fawzi et al.

cs.AI cs.HC

本文提出了一个名为REFINE的多智能体反馈系统, 该系统基于小型开源LLMs构建, 将反馈视为一个交互过程. 通过课堂部署评估, 该系统能生成高质量反馈并引导学生的后续提问.

Knowledge database development by large language models for countermeasures against viruses and marine toxins

Hung N. Do, Jessica Z. Kubicek-Sutherland, S. Gnanakaran

cs.AI cs.DB

本文利用ChatGPT和Grok等大型语言模型，构建了针对特定病毒和海洋毒素的医疗对策知识数据库。该方法展示了LLMs在整合公共数据与文献、设计交互式网页以及支持循证决策方面的潜力。

SimMOF: AI agent for Automated MOF Simulations

Jaewoong Lee, Taeun Bae, Jihan Kim

cs.AI

本文提出了一个基于大语言模型的多智能体框架SimMOF, 用于自动化金属有机框架(MOF)的端到端模拟工作流. 该框架能将自然语言查询转化为可执行的模拟计划, 并协调多个智能体执行模拟和总结结果.

Webscraper: Leverage Multimodal Large Language Models for Index-Content Web Scraping

Guan-Lun Huang, Yuh-Jzer Joung

cs.AI

本文提出了一个名为Webscraper的框架，利用多模态大语言模型来处理动态网页的数据抓取问题。该框架通过一个结构化的提示流程和专用工具，在新闻和电商网站上验证了其有效性。

AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction

Harsh Mankodiya et al.

cs.AI

本文介绍了AEC-Bench，一个用于评估建筑、工程和施工领域智能体系统的多模态基准。该基准包含图纸理解、跨页推理和项目协调等任务，并提供了数据集和基线结果。

Route-Induced Density and Stability (RIDE): Controlled Intervention and Mechanism Analysis of Routing-Style Meta Prompts on LLM Internal States

Dianxing Zhang, Gang Li, Sheng Li

cs.AI

本文通过引入路由风格的元提示作为文本代理，研究了其对冻结指令微调大语言模型内部状态的影响。研究发现，元提示通常会增加模型早期和中间层的表示密度，而非如假设般增加稀疏性，并且自然语言专家指令的效果通常优于结构化标签。此外，不同模型对领域关键词的注意力响应存在异质性，而表示密度与输出稳定性之间的关联较弱，仅在特定模型中有所体现。

Xuanwu: Evolving General Multimodal Models into an Industrial-Grade Foundation for Content Ecosystems

Zhiqian Zhang et al.

cs.AI cs.CL cs.CV

本文提出了一种名为Xuanwu VL-2B的工业级多模态基础模型，用于内容生态系统。它采用紧凑的架构，并通过一个渐进的三阶段训练流程，在业务对齐、视觉感知和通用能力之间取得了平衡。

Beyond pass@1: A Reliability Science Framework for Long-Horizon LLM Agents

Aaditya Khanal, Yangyang Tao, Junxiu Zhou

cs.AI

本文提出了一个用于评估长视野LLM agent可靠性的科学框架, 包含四个新指标. 通过大规模实验发现, 模型的能力与可靠性在长任务中显著分离, 且前沿模型因其复杂的多步策略而更容易出现性能崩溃.

Grokking From Abstraction to Intelligence

Junjie Zhang et al.

cs.AI

本文探讨了模型在 modular arithmetic 任务中从记忆到泛化（grokking）的机制，认为其源于内部结构的自发简化。研究结合了因果、谱和算法复杂性度量以及 Singular Learning Theory，指出泛化过渡对应着冗余流形的物理坍缩和深度信息压缩。

PSPA-Bench: A Personalized Benchmark for Smartphone GUI Agent

Hongyi Nie et al.

cs.AI

本文提出了一个专注于评估智能手机GUI agent个性化能力的基准PSPA-Bench. 该基准包含大量基于真实用户行为的个性化指令, 并引入了一种细粒度的评估方法, 测试表明现有agent在个性化场景下表现不佳.

Nomad: Autonomous Exploration and Discovery

Bokang Jia et al.

cs.AI

本文介绍了一个名为Nomad的自主数据探索与洞察发现系统. 该系统通过构建并遍历领域内的探索图谱, 利用探索智能体生成和验证假设, 旨在超越传统查询驱动方法的局限, 自动发现值得关注的问题与关联. 在基于联合国和世界卫生组织报告的评估中, Nomad在报告可信度、质量和洞察多样性方面优于基线方法.

BenchScope: How Many Independent Signals Does Your Benchmark Provide?

Tommy Sha, Stella Zhao

cs.AI

本文提出了一种名为Effective Dimensionality (ED)的诊断方法，用于量化AI基准测试套件所提供独立测量信号的数量。该方法通过分析基准测试分数矩阵的谱（spectrum）来快速评估测量的广度，并应用于大量模型评估，揭示了当前基准测试中存在显著的冗余性。

Rigorous Explanations for Tree Ensembles

Yacine Izza et al.

cs.AI cs.LG cs.LO

本文针对tree ensembles (如random forests和boosted trees)的预测结果, 提出了计算严格、逻辑完备的解释方法, 旨在增强模型的可信度.

AI-Generated Prior Authorization Letters: Strong Clinical Content, Weak Administrative Scaffolding

Moiz Sadiq Awan, Maryam Raza

cs.AI

本文评估了三种商用LLM在生成临床授权信方面的表现. 研究发现, 模型能生成临床内容准确的文书, 但在满足实际行政要求方面存在系统性缺陷.

ELT-Bench-Verified: Benchmark Quality Issues Underestimate AI Agent Capabilities

Christopher Zanoli et al.

cs.AI cs.DB

本文通过重新评估ELT-Bench基准测试，发现其严重低估了AI智能体在构建数据管道方面的能力。主要原因包括模型性能的快速提升和基准测试本身存在的质量问题。作者提出了一种审计-纠正方法，并发布了修正后的ELT-Bench-Verified版本，为AI驱动的数据工程自动化提供了更可靠的评估基础。

Structural Compactness as a Complementary Criterion for Explanation Quality

Mohammad Mahdi Mesgari et al.

cs.AI

本文提出了一种基于图结构的度量MST-C, 用于评估归因解释的可读性. 该度量结合了归因点的分布广度和内聚性, 为解释质量提供了一个补充性的结构紧凑度诊断.

Metriplector: From Field Theory to Neural Architecture

Dan Oprisa, Peter Toth

cs.AI cs.LG

本文提出了一种名为 Metriplector 的神经架构原语，它将计算建模为抽象物理系统（包含场、源和算子）的动力学演化。该架构利用耦合的 metriplectic 动力学演化多个场，并通过 Noether 定理导出的应力-能量张量 $T^{\mu\nu}$ 进行输出。在多个任务上的实验表明，该架构在路径规划、数独求解、图像分类和语言建模等任务上表现良好。

Learning to Generate Formally Verifiable Step-by-Step Logic Reasoning via Structured Formal Intermediaries

Luoxin Chen, Yichi Zhou, Huishuai Zhang

cs.AI cs.LG

本文提出了一种名为PRoSFI的新奖励方法, 旨在提升大型语言模型在复杂推理任务中的可靠性. 该方法通过结构化中间步骤的形式化验证来训练模型, 从而在不牺牲准确性的前提下生成更可信的推理链.

FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration

Qiyao Wang et al.

cs.AI cs.CL

本文提出了一种名为FlowPIE的框架，用于科学想法生成。它将文献探索与想法生成建模为一个协同演化的过程，通过基于流的搜索和测试时进化来提升想法的多样性与质量。

ASI-Evolve: AI Accelerates AI

Weixian Xu et al.

cs.AI

本文提出了一个名为 ASI-Evolve 的智能体框架，用于实现 AI 驱动 AI 研究的闭环。该框架通过结合认知库和专用分析器，在神经架构设计、预训练数据筛选和强化学习算法设计等多个任务上取得了优于现有方法的性能。

Optimizing Donor Outreach for Blood Collection Sessions: A Scalable Decision Support Framework

André Carneiro, Pedro T. Monteiro, Rui Henriques

cs.AI

本文提出了一个用于优化献血活动供血者邀请调度的决策支持框架. 该框架整合了供血者资格、旅行便利性、血型需求目标和惩罚项, 并评估了整数规划和贪心启发式两种策略. 在一个真实数据集上的实验表明, 该框架能有效缩小供需缺口, 且贪心算法在效率上具有显著优势.

View-oriented Conversation Compiler for Agent Trace Analysis

Lvmin Zhang, Maneesh Agrawala

cs.AI

本文提出了一个面向视图的对话编译器(VCC), 用于将包含复杂结构(如嵌套工具调用、思维链推理块等)的原始agent对话日志, 编译成多种结构化视图. 实验表明, 使用VCC编译后的视图作为输入, 能提升上下文学习的效果并显著减少计算开销.

Beyond the Steeper Curve: AI-Mediated Metacognitive Decoupling and the Limits of the Dunning-Kruger Metaphor

Christopher Koch

cs.AI cs.HC

本文探讨了生成式AI对认知偏差的影响, 指出其并非简单地加剧Dunning-Kruger效应. 作者提出了一个包含四个变量的"AI介导的元认知解耦"模型, 以更细致地解释人机交互中的过度自信和依赖等现象.

A First Step Towards Even More Sparse Encodings of Probability Distributions

Florian Andreas Marwitz, Tanya Braun, Ralf Möller

cs.AI

本文提出了一种从概率分布中提取一阶逻辑公式的方法, 旨在实现更稀疏的编码. 该方法通过减少分布中的数值并提取对应的逻辑公式进行最小化, 从而在泛化分布的同时显著增加编码的稀疏性.

Measuring the metacognition of AI

Richard Servajean, Philippe Servajean

cs.AI

本文提出使用meta-d'框架及其无模型变体作为评估AI元认知敏感性的标准方法, 并建议利用signal detection theory (SDT)来衡量AI基于不确定性和风险自发调节决策的能力. 作者通过在三个大型语言模型上进行的两组实验, 展示了这些心理物理学框架在比较模型表现和评估风险应对行为方面的实用性.

Symphony for Medical Coding: A Next-Generation Agentic System for Scalable and Explainable Medical Coding

Joakim Edin et al.

cs.AI cs.LG

本文提出了一个用于医疗编码的智能体系统, 通过模拟专家编码员的推理过程, 直接依据编码指南对临床文本进行编码. 该系统能够跨编码系统工作, 并提供预测代码的文本证据, 在多个真实世界数据集上取得了先进的性能.

Reinforced Reasoning for End-to-End Retrosynthetic Planning

Chenyang Zuo et al.

cs.AI

本文提出了一个名为ReTriP的端到端生成框架, 将逆合成规划重新表述为直接的Chain-of-Thought推理任务. 该方法通过路径一致的分子表示和渐进式训练策略, 在基准测试中展现了优越的性能.

Spontaneous Functional Differentiation in Large Language Models: A Brain-Like Intelligence Economy

Junjie Zhang et al.

cs.AI

本文通过Integrated Information Decomposition方法，发现大语言模型内部会自发形成类似人脑的协同信息处理核心。这种结构是动态的，并随任务难度增加而呈现物理相变特征。

CausalPulse: An Industrial-Grade Neurosymbolic Multi-Agent Copilot for Causal Diagnostics in Smart Manufacturing

Chathurangi Shyalika et al.

cs.AI

本文介绍了一个名为CausalPulse的工业级多智能体协同系统，用于智能制造中的因果诊断。该系统通过神经符号架构整合了异常检测与因果推理，并在实际工厂部署中展示了高可靠性与实时性。

Tracking vs. Deciding: The Dual-Capability Bottleneck in Searchless Chess Transformers

Quanhao Li, Wei Jiang

cs.AI

本文探讨了仅从走子序列训练的国际象棋Transformer模型所面临的"双能力瓶颈". 模型需要同时学习状态追踪和决策质量, 而这两种能力对数据的要求存在矛盾. 作者通过模型缩放和Elo加权训练来缓解此瓶颈, 最终的无搜索模型在人类走子预测上取得了较好的准确率.

Reasoning-Driven Synthetic Data Generation and Evaluation

Tim R. Davidson et al.

cs.AI cs.CL cs.LG

本文提出了一个名为Simula的推理驱动框架, 用于生成和评估合成数据. 该方法无需种子数据, 通过可解释和可控的过程定义数据集特征, 并在多个数据集上验证了其有效性.

Owl-AuraID 1.0: An Intelligent System for Autonomous Scientific Instrumentation and Scientific Data Analysis

Han Deng et al.

cs.AI cs.CL

本文介绍了一个名为Owl-AuraID的软硬件协同体现代理系统，它采用GUI原生范式来操作科学仪器。该系统通过整合仪器操作与数据分析技能，支持包括FTIR、NMR在内的多种精密仪器和跨模态工作流，为自动化实验室提供了一个可扩展的基础。

AgentFixer: From Failure Detection to Fix Recommendations in LLM Agentic Systems

Hadar Mulian et al.

cs.AI cs.MA

本文提出了一个用于基于LLM的智能体系统的综合验证框架, 该框架集成了多种故障检测工具和根因分析模块. 通过应用该框架于具体系统并进行基准测试, 作者展示了其在诊断系统弱点、指导改进策略方面的有效性.

Spatiotemporal Robustness of Temporal Logic Tasks using Multi-Objective Reasoning

Oliver Schön, Lars Lindemann

cs.AI cs.LO

本文针对离散时间信号上的temporal logic specifications, 提出了一个联合考虑空间和时间扰动的鲁棒性新概念——spatiotemporal robustness (STR). 该概念被形式化为一个多目标推理问题, 并设计了相应的鲁棒语义和监控算法.

ShapE-GRPO: Shapley-Enhanced Reward Allocation for Multi-Candidate LLM Training

Rui Ai et al.

cs.AI

本文提出了一种名为ShapE-GRPO的方法，用于改进大语言模型在多候选推荐场景下的强化学习训练。该方法利用合作博弈论中的Shapley值，将集合层面的奖励分解为针对每个候选的细粒度信号，以解决现有方法中奖励分配不明确的问题。实验表明，该方法在多个数据集上优于标准GRPO，并加速了训练收敛。

A Rational Account of Categorization Based on Information Theory

Christophe J. MacLellan et al.

cs.AI cs.IT cs.LG

本文提出了一种基于信息论理性分析的新分类理论, 并将其应用于解释几个经典分类实验中的关键发现. 该理论在解释人类分类行为方面表现良好, 与多个现有模型相当或更优.

ATP-Bench: Towards Agentic Tool Planning for MLLM Interleaved Generation

Yinuo Liu et al.

cs.AI

本文提出了一个名为ATP-Bench的基准测试，用于评估多模态大语言模型在交错生成任务中的工具规划能力。同时，作者设计了一个多智能体评估系统来独立衡量模型的规划性能。

C-TRAIL: A Commonsense World Framework for Trajectory Planning in Autonomous Driving

Zhihong Cui et al.

cs.AI

本文提出了一种用于自动驾驶轨迹规划的框架C-TRAIL，它将大语言模型(LLM)的常识推理与信任机制相结合。该框架通过一个包含召回、规划和更新的闭环来运作，并在模拟和真实数据集上展示了优于现有方法的性能。

Uncertainty Gating for Cost-Aware Explainable Artificial Intelligence

Georgii Mikriukov, Grégoire Montavon, Marina M.-C. Höhne

cs.AI cs.LG

本文提出使用 epistemic uncertainty 作为解释可靠性的低成本代理, 用于指导成本感知的 XAI 方法选择. 实验表明, epistemic uncertainty 与解释的稳定性呈强负相关, 并能区分解释的忠实性, 该发现在图像数据上得到了验证.

ScoringBench: A Benchmark for Evaluating Tabular Foundation Models with Proper Scoring Rules

Jonas Landsgesell, Pascal Knoll

cs.AI

本文提出了一个名为ScoringBench的基准测试，用于评估表格基础模型（如TabPFN和TabICL）的概率预测性能。该基准强调使用一系列proper scoring rules（如CRPS, Interval Score）来补充传统的点估计指标，以更全面地反映模型在分布尾部和高风险决策场景下的表现。

Physiological and Semantic Patterns in Medical Teams Using an Intelligent Tutoring System

Xiaoshan Huang et al.

cs.AI cs.CL

本文研究了医疗团队在使用智能教学系统时, 生理同步性与对话语义动态之间的关系. 研究发现, 生理同步的高峰常与较低的语义相似性相关, 并可能对应团队协作中的关键转折点.

Structured Intent as a Protocol-Like Communication Layer: Cross-Model Robustness, Framework Comparison, and the Weak-Model Compensation Effect

Peng Gang

cs.AI cs.HC

本文研究了结构化意图表示在不同AI模型、语言和提示框架中的稳健性. 通过跨模型实验和用户研究, 发现结构化提示能显著降低跨语言性能方差并提升用户满意度.

Extending MONA in Camera Dropbox: Reproduction, Learned Approval, and Design Implications for Reward-Hacking Mitigation

Nathan Heath

cs.AI

本文在公开的MONA Camera Dropbox环境中进行了复现与扩展研究。研究引入了模块化的学习型批准机制套件，并进行了初步的参数扫描实验。结果表明，构建能够保持足够远见而又不重新引入奖励篡改风险的学习型批准模型是核心工程挑战。

The Triadic Cognitive Architecture: Bounding Autonomous Action via Spatio-Temporal and Epistemic Friction

Davide Di Gioia

cs.AI

本文提出了一个名为Triadic Cognitive Architecture (TCA)的数学框架，旨在为自主AI智能体提供基于连续时间物理学的推理基础。该框架结合了非线性滤波理论和最优控制，通过定义Cognitive Friction概念来约束智能体的信息获取与决策过程，并在一个模拟医疗诊断环境中进行了验证。

cs.IR

UltRAG: a Universal Simple Scalable Recipe for Knowledge Graph RAG

Dobrik Georgiev et al.

cs.IR cs.CL cs.LG

本文提出了一个名为UltRAG的通用框架, 用于从知识图谱(KG)中检索信息以增强大语言模型(LLM)的生成. 该方法通过为LLM配备现成的神经查询执行模块, 使其能够在无需重新训练的情况下, 在知识图谱问答(KGQA)任务上取得先进的性能, 并能扩展到大规模知识图谱.

Calibrated Fusion for Heterogeneous Graph-Vector Retrieval in Multi-Hop QA

Andre Bacellar

cs.IR cs.LG

本文提出了一种名为 PhaseGraph 的方法，用于解决多跳问答中异构检索融合的分数校准问题。该方法通过百分位秩归一化将向量和图的分数映射到统一的无量纲尺度，从而实现了稳定的融合。实验表明，校准后的融合在多个基准测试上提升了检索性能。

Zero-shot Cross-domain Knowledge Distillation: A Case study on YouTube Music

Srivaths Ranganathan et al.

cs.IR

本文探讨了在低流量音乐推荐系统中应用零样本跨领域知识蒸馏(KD)的案例研究. 通过从大规模视频推荐平台迁移知识, 该方法旨在提升目标模型的性能, 并分享了离线与在线实验的结果.

Aligning Multimodal Sequential Recommendations via Robust Direct Preference Optimization with Sparse MoE

Hejin Huang et al.

cs.IR cs.CL

本文在multimodal sequential recommendation任务中, 研究了Direct Preference Optimization (DPO)在implicit feedback下的行为. 通过实验发现, 使用从动态top-K候选池中随机采样的负例, 而非确定性的hard negatives, 能有效提升排序性能, 并提出了结合sparse Mixture-of-Experts编码器的RoDPO方法.

On Strengths and Limitations of Single-Vector Embeddings

Archish S et al.

cs.IR

本文探讨了单向量嵌入模型在检索任务中的局限性。研究发现，维度不足并非性能下降的主因，而领域偏移和相似度错配是关键问题。微调能带来改善，但单向量模型仍显著弱于多向量模型，且存在灾难性遗忘问题。

Drift-Aware Continual Tokenization for Generative Recommendation

Yuebo Feng et al.

cs.IR

本文提出了一个用于生成式推荐的漂移感知持续标记化框架 DACT, 旨在解决现实推荐环境中数据持续演化带来的挑战. 该框架通过一个协作漂移识别模块和分层代码重分配策略, 在微调标记器时平衡了可塑性 (plasticity) 与稳定性 (stability).

Cold-Starts in Generative Recommendation: A Reproducibility Study

Zhen Zhang et al.

cs.IR

本文对生成式推荐系统中的冷启动问题进行了可复现性研究, 重点考察了在统一的冷启动评估协议下, 不同模型设计选择(如模型规模, 标识符设计, 训练策略)对性能的影响.

UnWeaving the knots of GraphRAG -- turns out VectorRAG is almost enough

Ryszard Tuora et al.

cs.IR cs.AI cs.CL

本文提出了一种名为UnWeaver的新型RAG框架，旨在简化GraphRAG。该方法利用LLM将文档内容分解为可在多个文本块中出现的实体，并在检索过程中以实体为中介来恢复原始文本块。作者认为这种基于实体的分解能提供更精炼的信息表示，并减少索引和生成过程中的噪声。

Performance Evaluation of LLMs in Automated RDF Knowledge Graph Generation

Ioana Ramona Martin et al.

cs.IR cs.AI cs.DC

本文评估了多种LLM架构和提示策略在自动化RDF知识图谱生成任务上的性能。研究创建了一个基于OpenStack日志的基准数据集，并发现Few-Shot学习是最有效的策略。

A Hybrid Machine Learning Approach for Graduate Admission Prediction and Combined University-Program Recommendation

Melina Heidari Far, Elham Tabrizi

cs.IR cs.LG

本文提出了一种结合XGBoost与残差精炼k近邻模块的混合机器学习模型，用于预测研究生录取结果。该模型在包含申请者和大学项目特征的数据集上取得了较高的准确率，并基于预测结果为被拒申请者提供大学项目推荐。

UniRank: End-to-End Domain-Specific Reranking of Hybrid Text-Image Candidates

Yupei Yang et al.

cs.IR cs.AI

本文提出了一个名为UniRank的端到端领域特定重排序框架, 用于处理混合文本-图像候选集. 该方法基于Vision-Language Model (VLM), 无需进行模态转换即可对混合候选进行原生评分和排序, 并通过指令微调和基于难负样本的偏好对齐进行领域适应. 实验表明其在科学文献检索和设计专利搜索任务上优于现有基线.

cs.CL

The Last Fingerprint: How Markdown Training Shapes LLM Prose

E. M. Freeburg

cs.CL cs.AI cs.CY

本文探讨了LLM生成文本中破折号使用频率的成因, 将其归因于训练数据中Markdown格式的残留影响. 通过一系列抑制实验, 作者发现破折号的使用模式可以作为模型特定微调过程的特征指纹.

OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

Haiyue Song, Masao Utiyama

cs.CL cs.AI cs.LG

本文提出了一种名为 OptiMer 的方法，用于优化持续预训练中的数据混合比例。该方法通过训练多个单数据集模型并提取其分布向量，然后使用贝叶斯优化事后搜索最优组合权重，从而避免了传统方法中昂贵的数据比例调优。实验表明，该方法在多种语言和领域任务上优于基线方法，且搜索成本显著降低。

From Consensus to Split Decisions: ABC-Stratified Sentiment in Holocaust Oral Histories

Daban Q. Jaff

cs.CL

本文对现成的 sentiment classifiers 在 Holocaust oral histories 这一长文本领域进行了大规模的诊断研究. 通过引入一个基于模型间一致性的稳定性分类法(ABC), 分析了不同模型在敏感历史叙事中产生分歧的模式与位置.

CrossTrace: A Cross-Domain Dataset of Grounded Scientific Reasoning Traces for Hypothesis Generation

Andrew Bouras, OMS-II Research Fellow

cs.CL

本文介绍了CrossTrace, 一个用于科学假设生成的跨领域数据集, 包含带来源验证的结构化推理链. 通过微调实验, 证明了该数据集能有效提升模型生成假设的性能, 且其训练效益具有跨领域泛化性.

Theory of Mind and Self-Attributions of Mentality are Dissociable in LLMs

Junsol Kim et al.

cs.CL cs.AI

本文通过安全性消融和表征相似性分析, 研究了大型语言模型(LLMs)中关于心智的自我归因能力与心智理论(ToM)能力之间的关系. 研究发现, 这两种能力在行为和机制上是可分离的, 但安全微调会影响模型对非人类动物心智的归因.

Known Intents, New Combinations: Clause-Factorized Decoding for Compositional Multi-Intent Detection

Abhilash Nandy

cs.CL

本文针对多意图检测中的组合泛化问题, 提出了一个名为CoMIX-Shift的基准测试集和一个名为ClauseCompose的轻量级解码器. 实验表明, 在评估组合泛化能力时, 简单的子句因子化方法比传统的整体预测模型表现更优.

Human-Like Lifelong Memory: A Neuroscience-Grounded Architecture for Infinite Interaction

Diego C. Lerma-Torres

cs.CL cs.AI

本文提出了一种受神经科学启发的记忆架构, 旨在为AI系统提供类似人类的长期记忆能力. 该框架基于互补学习系统等理论, 强调记忆的情感效价, 默认使用快速直觉检索, 并采用主动编码机制.

The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

Yubo Li et al.

cs.CL cs.AI

本文研究了大型语言模型在推理中, 当显式的表面启发式线索与未阐明的可行性约束冲突时, 会系统性地失败. 作者通过一个诊断-测量-桥接-处理的框架, 构建了Heuristic Override Benchmark (HOB)进行测试, 发现模型表现不佳, 并指出失败源于约束推断而非知识缺失.

On the limited utility of parallel data for learning shared multilingual representations

Julius Leino, Jörg Tiedemann

cs.CL

本文探讨了在预训练中使用平行数据(即翻译句子)对学习共享多语言表示的影响. 研究发现, 平行数据对跨语言对齐的促进作用有限, 主要可能加速预训练早期的表示共享并减少模型中的语言特定神经元.

An Empirical Recipe for Universal Phone Recognition

Shikhar Bharadwaj et al.

cs.CL

本文提出了一种用于通用音素识别的经验性训练方案, 通过在大规模多语言数据上训练模型, 在多个基准测试中取得了先进性能. 研究通过控制变量实验量化了自监督学习表示, 数据规模和损失目标等因素的影响.

Dual Perspectives in Emotion Attribution: A Generator-Interpreter Framework for Cross-Cultural Analysis of Emotion in LLMs

Aizirek Turdubaeva, Uichin Lee

cs.CL

本文提出了一个Generator-Interpreter框架来分析大型语言模型(LLMs)在跨文化情感归因中的表现, 通过同时考虑情感表达者(Generator)和解释者(Interpreter)的视角, 评估了不同模型在15个国家数据上的任务表现. 研究发现模型性能受情感类型和文化背景影响, 且表达者的文化背景影响更为显著.

PolarQuant: Optimal Gaussian Weight Quantization via Hadamard Rotation for LLM Compression

Caio Vicentino

cs.CL cs.LG

本文提出了一种名为PolarQuant的后训练权重量化方法，用于压缩大语言模型。该方法通过块归一化、Walsh-Hadamard旋转和基于高斯分布的量化三个步骤，有效提升了量化模型的性能，并可作为下游INT4量化器的预处理步骤。

APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay

Pratyay Banerjee, Masud Moshtaghi, Ankit Chadha

cs.CL cs.AI cs.IR

本文提出了一个名为APEX-EM的非参数在线学习框架，旨在为基于LLM的自主智能体提供结构化的程序性记忆。该框架通过一个包含计划检索、生成、迭代和吸收的工作流程，在不修改模型权重的情况下，积累和重用过去的执行经验，从而在代码生成和知识问答等任务上显著提升了性能。

Concept Training for Human-Aligned Language Models

Christine Zhang, Dan Jurafsky, Chen Shani

cs.CL

本文提出了一种基于概念预测的预训练目标, 用于改进语言模型的语义对齐. 实验表明, 该方法在多个词汇基准上能更好地匹配人类的语义相似度判断, 同时保持了有竞争力的语言建模性能.

Kwame 2.0: Human-in-the-Loop Generative AI Teaching Assistant for Large Scale Online Coding Education in Africa

George Boateng, Samuel Boateng, Victor Kumbol

cs.CL cs.CY cs.HC

本文介绍了一个名为Kwame 2.0的生成式AI教学助手，它结合了检索增强生成和人机协同机制，旨在为非洲的大规模在线编程课程提供学习支持。该系统在长期部署中表现出能够提供高质量、及时的帮助，并通过人类监督来弥补AI的不足。

SyriSign: A Parallel Corpus for Arabic Text to Syrian Arabic Sign Language Translation

Mohammad Amer Khalil et al.

cs.CL cs.AI cs.CV cs.HC

本文介绍了SyriSign数据集, 这是一个用于阿拉伯语文本到叙利亚阿拉伯手语翻译任务的平行语料库, 包含1500个视频样本. 作者使用多种深度学习模型进行了评估, 结果表明数据规模限制了模型的泛化性能.

SiPaKosa: A Comprehensive Corpus of Canonical and Classical Buddhist Texts in Sinhala and Pali

Ranidu Gurusinghe, Nevidu Jayatilleke

cs.CL

本文构建了一个包含僧伽罗语和巴利语佛教典籍的综合语料库SiPaKosa, 并评估了多种预训练语言模型在其上的性能. 该语料库旨在支持领域适应的语言模型预训练, 历史语言分析以及佛教研究的信息检索系统开发.

Long-Document QA with Chain-of-Structured-Thought and Fine-Tuned SLMs

Zhuowen Liang et al.

cs.CL cs.AI cs.LG

本文提出了一种名为LiteCoST的两阶段框架, 用于提升小型语言模型(SLMs)在长文档问答(QA)任务中的表现. 该框架通过Chain-of-Structured-Thought (CoST)生成结构化输出作为监督数据, 并利用这些数据对SLMs进行微调, 从而在保证质量的同时显著降低推理延迟.

The Thiomi Dataset: A Large-Scale Multimodal Corpus for Low-Resource African Languages

Hillary Mutisya et al.

cs.CL cs.LG

本文介绍了Thiomi Dataset, 这是一个面向多种低资源非洲语言的大规模多模态语料库. 该数据集包含文本和音频数据, 并通过基线实验验证了其在自动语音识别等任务上的实用性.

MemRerank: Preference Memory for Personalized Product Reranking

Zhiyuan Peng et al.

cs.CL cs.AI cs.LG

本文提出了一个名为MemRerank的偏好记忆框架，用于个性化产品重排序。该方法通过强化学习训练记忆提取器，将用户购买历史转化为简洁的信号，并在实验中提升了基于LLM的重排序器的性能。

CADEL: A Corpus of Administrative Web Documents for Japanese Entity Linking

Shohei Higashiyama, Masao Ideuchi, Masao Utiyama

cs.CL

本文构建了一个用于训练和评估日语实体链接系统的标注语料库CADEL, 其设计覆盖了大量日本特有的实体指称表达. 通过评估标注者间一致性和初步消歧实验, 验证了该语料库的一致性和作为评测基准的潜在价值.

Open Machine Translation for Esperanto

Ona de Gibert, Lluís de Gibert

cs.CL

本文对Esperanto的机器翻译进行了首次全面的开源系统评估, 比较了基于规则的系统, encoder-decoder模型和不同规模的LLMs. 评估涵盖了涉及英语, 西班牙语, 加泰罗尼亚语和Esperanto的六个语言方向, 结果显示NLLB模型家族性能最佳.

L-ReLF: A Framework for Lexical Dataset Creation

Anass Sedrati, Mounir Afifi, Reda Benkhadra

cs.CL

本文提出了一个用于为资源匮乏语言创建高质量结构化词汇数据集的新框架 L-ReLF. 该框架通过系统化的流程处理了数据源识别, OCR 纠偏和标准化等挑战, 其产出的数据集与 Wikidata Lexemes 兼容, 旨在为下游 NLP 任务提供基础词汇资源.

Developing a Guideline for the Labovian-Structural Analysis of Oral Narratives in Japanese

Amane Watahiki et al.

cs.CL

本文为日语口语叙事分析提出了首个基于Labovian模型的系统化标注指南。该指南保留了原有的六个分析类别，并针对日语语法特点扩展了从句分割规则。标注者在从句分割任务上取得了较高的一致性，但在结构分类任务上的一致性为中等水平。

Beyond Idealized Patients: Evaluating LLMs under Challenging Patient Behaviors in Medical Consultations

Yahan Li et al.

cs.CL

本文构建了一个名为CPB-Bench的双语基准测试，用于评估大型语言模型在面对患者提供矛盾、不准确或误导性信息时的响应安全性。研究发现，尽管模型整体表现良好，但在处理特定挑战性患者行为时仍存在一致的失败模式，且现有的干预策略效果有限。

Is my model perplexed for the right reason? Contrasting LLMs' Benchmark Behavior with Token-Level Perplexity

Zoë Prins et al.

cs.CL

本文提出了一种基于token-level perplexity的interpretability框架, 用于检验LLMs是否依赖语言相关的线索. 通过对比在关键token上存在差异的句子对的perplexity分布, 该方法能够进行精确的、假设驱动的分析.

CounselReflect: A Toolkit for Auditing Mental-Health Dialogues

Yahan Li et al.

cs.CL

本文介绍了一个用于审计心理健康对话的工具包CounselReflect，它通过整合模型预测指标和基于量规的指标，生成多维度的结构化评估报告。该工具包提供了多种部署方式，并通过用户研究和专家评审验证了其可用性与可信度。

Authorship Impersonation via LLM Prompting does not Evade Authorship Verification Methods

Baoyi Zeng, Andrea Nini

cs.CL

本文研究了利用大型语言模型(LLM)生成模仿特定作者风格的文本，并测试其是否能逃逸现有的作者验证(AV)系统。实验表明，在多种体裁下，由GPT-4o生成的模仿文本未能成功欺骗主流的AV方法，部分方法在检测模仿文本时甚至表现更佳。

M-MiniGPT4: Multilingual VLLM Alignment via Translated Data

Seung Hun Han, Youssef Mohamed, Mohamed Elhoseiny

cs.CL cs.AI

本文提出了一种名为 M-MiniGPT4 的多语言视觉大语言模型. 该模型通过混合使用原生多语言数据和翻译数据来增强 MiniGPT4 架构的多语言视觉语言理解能力, 并在多个语言上取得了良好的性能.

Calibrated Confidence Expression for Radiology Report Generation

David Bani-Harouni et al.

cs.CL

本文提出了一个用于放射学报告生成的置信度校准框架 ConRad, 该框架基于强化学习对大型视觉语言模型进行微调, 使其在生成报告的同时输出经过校准的、可解释的置信度表述. 实验表明, 该方法能有效改善置信度校准, 其输出与临床医生的判断具有良好的一致性.

MemFactory: Unified Inference & Training Framework for Agent Memory

Ziliang Guo, Ziheng Li, Zhiyu Li

cs.CL cs.AI

本文提出了一个用于 memory-augmented agents 的统一训练与推理框架 MemFactory. 该框架将记忆生命周期抽象为模块化组件, 并集成了 Group Relative Policy Optimization (GRPO) 来优化内部记忆管理策略.

Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

Gabriel Loiseau et al.

cs.CL

本文提出了一种通过知识蒸馏将大型语言模型的隐私评估能力迁移到轻量级编码器模型的方法. 该方法在多个领域的数据集上进行了验证, 显著降低了计算成本, 并保持了与人类判断的一致性.

LLM Probe: Evaluating LLMs for Low-Resource Languages

Hailay Kidu Teklehaymanot, Gebrearegawi Gebremariam, Wolfgang Nejdl

cs.CL

本文提出了一个基于词典的评估框架LLM Probe, 用于系统评估大语言模型在低资源语言环境下的语言能力. 该框架通过一个包含双语词典和语言学标注的低资源闪米特语基准数据集, 测试了多种模型在词汇对齐, 词性识别, 形态句法探测和翻译准确性四个方面的表现.

Impact of enriched meaning representations for language generation in dialogue tasks: A comprehensive exploration of the relevance of tasks, corpora and metrics

Alain Vázquez, Maria Inés Torres

cs.CL cs.AI

本文探讨了在对话任务中，通过引入任务示例（即从原始数据集中提取的MR-句子对）来丰富输入，以提升微调模型的自然语言生成质量。研究基于四个不同领域和特征的数据集，使用五个关注不同语言层面的指标进行评估，发现这种丰富输入的方法对复杂任务和小型高可变性数据集有效，且在零样本场景中也有益。

Baby Scale: Investigating Models Trained on Individual Children's Language Input

Steven Y. Feng, Alvin W.M. Tan, Michael C. Frank

cs.CL cs.AI cs.LG

本文通过使用儿童语言输入数据训练语言模型, 研究了模型在儿童数据规模下的性能表现及其与儿童语言习得的关系. 研究发现模型性能与输入数据的分布和交互特征相关, 并且模型对单词的似然估计与儿童习得这些单词的情况存在关联.

Can LLM Agents Identify Spoken Dialects like a Linguist?

Tobias Bystrich et al.

cs.CL

本文探讨了使用LLM agents进行方言分类的能力, 通过结合ASR生成的音标转写和方言特征图等语言学资源, 发现提供语言学信息能提升LLM的预测性能. 研究为音频方言分类任务提供了一个LLM baseline和人类语言学家的baseline.

Bringing Up a Bilingual BabyLM: Investigating Multilingual Language Acquisition Using Small-Scale Models

Linda Zeng, Steven Y. Feng, Michael C. Frank

cs.CL cs.AI cs.LG

本文通过训练小规模语言模型模拟了不同双语输入环境, 研究了双语习得问题. 实验结果表明, 在匹配的语料量下, 双语模型在单语表现上与单语模型相当, 且不同双语输入模式间差异不大.

When Can We Trust LLM Graders? Calibrating Confidence for Automated Assessment

Robinson Ferrer et al.

cs.CL cs.CY

本文探讨了在自动评分任务中预测大型语言模型(LLM)何时可能正确的问题, 而非直接提升其评分准确性. 通过比较三种置信度估计方法在多个教育数据集上的表现, 研究发现模型自我报告的置信度具有最佳的校准效果, 且更大规模的模型通常表现出更好的校准性.

Learning Diagnostic Reasoning for Decision Support in Toxicology

Nico Oberländer et al.

cs.CL

本文提出了一种用于毒理学决策支持的强化学习方法 DeToxR. 该方法融合非结构化叙述与结构化医疗数据, 在临床验证中表现优于专家毒理学家.

Agenda-based Narrative Extraction: Steering Pathfinding Algorithms with Large Language Models

Brian Felipe Keith-Norambuena et al.

cs.CL cs.AI cs.IR

本文提出了一种基于议程的叙事提取方法, 将大型语言模型集成到Narrative Trails路径查找过程中, 以引导故事线构建朝向用户指定的视角. 该方法在每一步使用LLM根据与给定议程的对齐度对候选文档进行排序, 同时保持叙事连贯性. 评估表明, 在语义议程上, LLM引导比关键词匹配实现了更高的对齐度, 同时连贯性成本很小.

Near-Miss: Latent Policy Failure Detection in Agentic Workflows

Ella Rabinovich et al.

cs.CL

本文提出了一种检测智能体工作流中潜在策略失效的新方法, 称为"near-misses"或"latent failures". 该方法基于ToolGuard框架, 通过分析智能体的对话轨迹来评估其工具调用决策是否充分考虑了策略约束, 并在一个航空预订基准测试上验证了其有效性.

ENEIDE: A High Quality Silver Standard Dataset for Named Entity Recognition and Linking in Historical Italian

Cristian Santini et al.

cs.CL

本文介绍了ENEIDE, 一个用于历史意大利语文本的命名实体识别与链接(NERL)的银标准数据集. 该数据集包含从两个学术数字版本中半自动提取的文档和实体标注, 并提供了训练/开发/测试划分.

SNEAK: Evaluating Strategic Communication and Information Leakage in Large Language Models

Adar Avsian, Larry Heck

cs.CL

本文提出了一个名为SNEAK的基准测试, 用于评估大型语言模型在非对称信息下的战略性沟通能力. 该基准通过模拟盟友和对手代理来量化消息的效用和泄露, 结果显示当前模型在此任务上仍面临挑战, 且人类表现显著优于模型.

Towards Empowering Consumers through Sentence-level Readability Scoring in German ESG Reports

Benjamin Josef Schüßler, Jakob Prange

cs.CL cs.AI

本文扩展了一个德文ESG报告的句子级数据集, 并评估了多种可读性评分方法. 研究发现, 微调的小型transformer模型在预测人类可读性评分时误差最低.

FLEURS-Kobani: Extending the FLEURS Dataset for Northern Kurdish

Daban Q. Jaff, Mohammad Mohammadamini

cs.CL

本文介绍了FLEURS-Kobani数据集，这是一个针对北库尔德语的语音基准扩展，包含超过5000条经过验证的语音样本。该工作为北库尔德语的自动语音识别和语音翻译任务提供了首个公开的评估基准，并报告了基于Whisper模型的基线性能。

Rewrite the News: Tracing Editorial Reuse Across News Agencies

Soveatin Kuntur et al.

cs.CL cs.IR

本文提出了一种弱监督方法, 用于检测多语言新闻机构间的句子级文本复用, 无需完整翻译. 通过分析发布时间戳来识别可能的来源, 并研究了复用内容在文章中的位置分布.

Structural Feature Engineering for Generative Engine Optimization: How Content Structure Shapes Citation Behavior

Junwei Yu et al.

cs.CL cs.HC cs.IR

本文提出了一个用于生成式引擎优化的结构特征工程框架GEO-SFE。该框架将内容结构分解为宏观、中观和微观三个层次，并建模它们对不同生成引擎引用概率的影响。实验表明，该方法能在保持语义完整性的同时，有效提升内容的引用率和主观质量。

Enhancing Structural Mapping with LLM-derived Abstractions for Analogical Reasoning in Narratives

Mohammadhossein Khojasteh et al.

cs.CL cs.AI

本文提出了一个名为YARN的模块化框架, 用于提升叙事文本中的类比推理能力. 该框架利用LLMs分解和抽象叙事单元, 再通过结构映射组件进行对齐, 实验表明抽象化能提升模型性能.

ContextClaim: A Context-Driven Paradigm for Verifiable Claim Detection

Yufeng Li, Rrubaa Panchendrarajan, Arkaitz Zubiaga

cs.CL

本文提出了一种名为ContextClaim的上下文驱动范式, 用于可验证声明检测. 该方法通过从声明中提取实体提及, 检索Wikipedia信息, 并利用大语言模型生成上下文摘要, 以辅助下游分类任务. 实验表明, 上下文增强的效果因领域、模型架构和学习设置而异.

Covertly improving intelligibility with data-driven adaptations of speech timing

Paige Tuttösí et al.

cs.CL cs.SD

本文利用机器学习生成的语音，系统研究了针对性调整语速对理解的影响。研究发现，语速对元音对比的影响呈现一种剪刀模式，并且这种模式在不同母语的听者中都很稳定。基于此，作者构建了一个数据驱动的文本转语音算法，能够在不被察觉的情况下提高单词理解度。

cs.DS

Classifying Identities: Subcubic Distributivity Checking and Hardness from Arithmetic Progression Detection

Bartłomiej Dudek et al.

cs.DS

本文研究了验证有限代数结构上基本恒等式(如结合律和分配律)的计算复杂度. 针对分配律验证, 作者设计了一个强次立方时间$O(|S|^{\omega})$的算法, 并基于Triangle Detection Hypothesis给出了匹配的条件性下界. 此外, 文章将小范围等差数列检测作为一个关键的算法挑战, 并基于此对一类三变量恒等式的验证复杂度进行了完全分类.

Parameterized Algorithms for Computing MAD Trees

Tom-Lukas Breitkopf et al.

cs.DS

本文研究了在图中寻找平均顶点对距离最小的生成树(MAD tree)问题. 该问题在参数化复杂性方面此前未被探索, 作者针对 modular width, treewidth, vertex integrity 等参数给出了算法, 并证明了该问题在 split graphs 上是 NP-hard 的.

Improved Approximation Algorithms for Non-Preemptive Throughput Maximization

Alexander Armbruster et al.

cs.DS

本文针对非抢占式吞吐量最大化这一经典NP-hard调度问题, 改进了其近似算法的性能保证. 作者将已知的最佳近似比从约$1.551$提升至$4/3+\varepsilon$, 并在伪多项式时间内进一步改进至$5/4+\varepsilon$, 且结果可推广到多台相同机器的情形.

A Strong Linear Programming Relaxation for Weighted Tree Augmentation

Vincent Cohen-Addad et al.

cs.DS

本文针对Weighted Tree Augmentation Problem (WTAP) 提出了一种新的随机近似算法，其近似比低于1.49。该方法的核心是设计并舍入一个强线性规划松弛，该松弛引入了表示边子集及其覆盖链接的变量。

Approximation Schemes for Edit Distance and LCS in Quasi-Strongly Subquadratic Time

Xiao Mao, Aviad Rubinstein

cs.DS

本文针对Edit Distance和Longest Common Subsequence问题，提出了新的随机近似方案。该算法在准强次二次时间内实现了接近1的近似比，并探讨了其在精细复杂度理论中的意义。

Pattern-Sparse Tree Decompositions in $H$-Minor-Free Graphs

Dániel Marx, Marcin Pilipczuk, Michał Pilipczuk

cs.DS cs.DM

本文针对$H$-minor-free graphs，提出了一种随机多项式时间算法，用于采样一个诱导子图及其宽度为$\widetilde{O}(k)$的tree decomposition，使得任意大小为$k$的顶点子集$Z$以一定概率被包含，且每个bag仅包含$\widetilde{O}(\sqrt{k})$个$Z$中的顶点。这一结果为一系列以大小为$k$的pattern为解的问题提供了$2^{\widetilde{O}(\sqrt{k})}n^{O(1)}$的随机算法时间上界。对于$K_{h,3}$-free graphs，结果被加强到pattern的距离-$d$邻域也与每个bag有小的交集，从而能处理更广泛的问题。

Approximation algorithms for satisfiable and nearly satisfiable ordering CSPs

Yury Makarychev

cs.DS

本文提出了一种用于设计ordering CSPs近似算法的通用框架, 该框架通过松弛、求解和随机变换来构造解. 作者证明了该框架的能力可由一类称为strong IDU transformations的结构化变换所刻画, 并给出了基于此的优化算法.

others

CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations

Adrian Zhao et al.

cs.DC cs.LG

本文提出了CRAFT, 一个用于Mixture-of-Experts (MoE) 模型推理服务的专家副本分配框架. 该框架通过细粒度的层间收益估计, 在给定内存预算下优化副本分配以最大化负载均衡, 从而提升服务吞吐量.

Spark-LLM-Eval: A Distributed Framework for Statistically Rigorous Large Language Model Evaluation

Subhadip Mitra

cs.DC cs.CL cs.LG

本文介绍了一个基于Apache Spark构建的分布式评估框架Spark-LLM-Eval，旨在解决大规模语言模型评估中的计算瓶颈和统计严谨性问题。该框架通过数据并行处理、置信区间计算和响应缓存来提升评估效率和可靠性。

Focus360: Guiding User Attention in Immersive Videos for VR

Paulo Vitor S. Silva et al.

cs.HC cs.AI cs.MM

本文介绍了一个名为Focus360的系统, 旨在通过引导用户在360度VR视频中的注意力来提升参与度. 该系统利用自然语言描述识别关键场景元素, 并应用视觉效果来无缝引导用户注意力.

DF-ACBlurGAN: Structure-Aware Conditional Generation of Internally Repeated Patterns for Biomaterial Microtopography Design

Rongjun Dong et al.

cs.CV cs.AI cs.LG

本文提出了一种用于生物材料微观形貌设计的结构感知条件生成对抗网络DF-ACBlurGAN. 该方法通过整合频域重复尺度估计等技术, 旨在生成具有内部重复和周期性结构的图像, 以解决传统方法在全局结构一致性控制上的不足.

Byzantine-Robust and Communication-Efficient Distributed Training: Compressive and Cyclic Gradient Coding

Chengxi Li et al.

cs.DC cs.AI

本文提出了一种基于cyclic gradient coding的分布式训练方法LAD及其通信高效变体Com-LAD, 以应对拜占庭攻击和通信约束. 该方法通过冗余计算分配和编码梯度来提升鲁棒性, 并在数据异构场景下降低了解决方案误差.

When GPUs Fail Quietly: Observability-Aware Early Warning Beyond Numeric Telemetry

Michael Bidollahkhani, Freja Nordsiek, Julian M. Kunkel

cs.DC cs.LG

本文提出了一种结合GPU数值遥测与监控管道结构指标的预警框架, 用于检测GPU的"静默失效". 该框架在真实生产数据上进行了评估, 结果表明联合建模能比仅使用GPU指标提供更早的预警.

A Multi-Modal Dataset for Ground Reaction Force Estimation Using Consumer Wearable Sensors

Parvin Ghaffarzadeh et al.

eess.SP cs.AI

本文发布了一个用于从消费级Apple Watch传感器估计垂直地面反作用力的多模态数据集, 包含492个经过验证的试验, 提供了对齐的IMU数据和测力台地面真值. 该数据集支持可重复的生物力学研究和机器学习模型基准测试.

AI in Work-Based Learning: Understanding the Purposes and Effects of Intelligent Tools Among Student Interns

John Paul P. Miranda et al.

cs.CY cs.AI stat.AP

本文通过问卷调查分析了菲律宾高校实习生在实习期间使用AI工具的情况. 研究发现实习生主要将AI工具用于生产力、沟通、技术支持和独立完成任务等目的, 并表现出适度的使用信心和选择性.

Smartphone-Based Identification of Unknown Liquids via Active Vibration Sensing

Yongzhi Huang

eess.SP cs.AI cs.CE cs.DC cs.HC +1

本文提出了一种基于智能手机主动振动传感的液体识别方法. 该方法通过信号处理技术克服了内置加速度计采样不足等问题, 实现了对液体粘度的估计和多种液体的区分.

Mitigating Temporal Blindness in Kubernetes Autoscaling: An Attention-Double-LSTM Framework

Faraz Shaikh, Gianluca Reali, Mauro Femminella

cs.DC cs.LG

本文提出了一种结合Attention机制与Double-Stacked LSTM的框架，用于改进Kubernetes在边缘计算环境中的自动扩缩容性能。该方法旨在解决传统方法因时间盲区导致的延迟和资源抖动问题。

StepCache: Step-Level Reuse with Lightweight Verification and Selective Patching for LLM Serving

Azam Nouri

cs.OS cs.AI cs.CL cs.DC

本文提出了一种名为 StepCache 的、与后端无关的步骤级重用层，用于优化具有重复结构但局部约束不同的 LLM 服务请求。它通过将输出分段、检索最佳匹配缓存、进行轻量级验证并选择性修补失败区域来减少延迟和令牌使用，并在数学和 JSON 任务上展示了性能提升。

GaloisSAT: Differentiable Boolean Satisfiability Solving via Finite Field Algebra

Curie Kim et al.

cs.LO cs.AI

本文提出了一种名为GaloisSAT的新型混合GPU-CPU SAT求解器。它将基于GPU的可微分求解引擎与传统的CPU上的CDCL求解阶段相结合，在SAT竞赛基准测试中相比现有先进求解器取得了显著的性能提升。

Design and Development of an ML/DL Attack Resistance of RC-Based PUF for IoT Security

Joy Acharya et al.

cs.CR cs.AI

本文提出了一种基于电阻-电容(RC)的动态可重构物理不可克隆函数(PUF)设计, 旨在增强物联网(IoT)设备认证的安全性以抵抗机器学习(ML)和深度学习(DL)建模攻击. 通过使用32位挑战-响应对(CRPs)并进行系统评估, 实验表明多种ML模型在测试集上的准确率接近随机猜测, 证明了该PUF设计对建模攻击的有效抵抗能力.

Scheduling with Time Dependent Utilities: Fairness and Efficiency

Gaia Nicosia, Andrea Pacifici, Ulrich Pferschy

cs.GT cs.DM cs.DS cs.MA

本文研究了一类新的多智能体单机调度问题, 其中每个作业对应一个具有效用函数的自利智能体. 作者旨在通过最大化所有智能体中的最小效用来实现公平解, 并分析了该问题的计算复杂性, 为多种变体提出了求解方法.

CREST: Constraint-Release Execution for Multi-Robot Warehouse Shelf Rearrangement

Jiaqi Tan et al.

cs.RO cs.AI cs.MA

本文提出了CREST框架, 用于解决多机器人仓库货架重排问题中的执行效率问题. 该框架通过在执行过程中主动释放轨迹约束, 减少了agent的空闲时间和不必要的货架切换, 从而提升了整体执行质量.

Generalizable Foundation Models for Calorimetry via Mixtures-of-Experts and Parameter Efficient Fine Tuning

Carlos Cardona-Giraldo et al.

physics.ins-det cs.LG hep-ex nucl-ex

本文提出了一种基于next-token transformer和Mixture-of-Experts预训练的可推广量能器基础模型。该模型通过参数高效微调策略，实现了跨材料、粒子种类和探测器配置的模块化适应，避免了灾难性遗忘，为高能物理实验中的探测器模拟提供了一种计算高效的生成方法。

WAter: A Workload-Adaptive Knob Tuning System based on Workload Compression

Yibo Wang et al.

cs.DB cs.AI cs.LG

本文提出了一种名为WAter的数据库参数调优系统, 通过将调优过程划分为多个时间片并在每个片中仅评估工作负载的一小部分查询子集来显著降低调优时间. 系统利用运行时分析动态选择更具代表性的查询子集进行评估, 最终在原始工作负载上验证最有希望的配置, 实验表明其能以更低的成本找到接近最优的配置.

Data-Driven Estimation of the interfacial Dzyaloshinskii-Moriya Interaction with Machine Learning

Davi Rodrigues et al.

cond-mat.mtrl-sci cond-mat.mes-hall cs.LG

本文利用卷积神经网络分析磁泡畴图像，以数据驱动的方式估计界面Dzyaloshinskii-Moriya相互作用强度。该方法对样品不均匀性、噪声和低空间分辨率具有鲁棒性，并能推广到训练区间之外的DMI值预测。

The impact of multi-agent debate protocols on debate quality: a controlled case study

Ramtin Zargari Marandi

cs.MA cs.AI

本文通过一个受控的宏观经济案例研究，比较了三种多智能体辩论协议与一个无交互基线。研究发现，协议设计在促进交互（同行引用率）与达成共识（收敛速度）之间存在权衡。当优先考虑共识时，新提出的Rank-Adaptive Cross-Round协议表现最佳。

SkillTester: Benchmarking Utility and Security of Agent Skills

Leye Wang, Zixing Wang, Anjie Xu

cs.CR cs.AI

本文介绍了SkillTester，一个用于评估智能体技能效用与安全性的工具。它通过对比基准测试和安全性探针来生成标准化评分。

ARTLAS: Mapping Art-Technology Institutions via Conceptual Axes, Text Embeddings, and Unsupervised Clustering

Joonhyung Bae

cs.DL cs.AI

本文提出了一种名为ARTLAS的计算方法, 用于分析艺术-技术机构的生态. 该方法结合了一个包含八个维度的概念框架与文本嵌入和聚类技术, 将78个机构映射到一个统一的分析空间中, 并开发了一个交互式可视化工具供用户探索.

GUARD-SLM: Token Activation-Based Defense Against Jailbreak Attacks for Small Language Models

Md Jueal Mia et al.

cs.CR cs.AI

本文提出了一种针对小型语言模型(SLM)的轻量级防御方法GUARD-SLM. 该方法基于对模型内部表征空间的分析, 通过token激活模式来过滤恶意提示, 旨在提升SLM部署的安全性.

Time is Not Compute: Scaling Laws for Wall-Clock Constrained Training on Consumer GPUs

Yi Liu

cs.PF cs.AI

本文研究了在消费级GPU上, 给定固定训练时间预算(从5分钟到24小时)下的最优模型规模选择问题. 研究发现, 在时间约束下, 最优模型规模与时间的关系为$N^* \propto t^{0.60}$, 不同于基于计算量(FLOPs)的Chinchilla缩放律, 并揭示了由计算瓶颈和数据瓶颈(过拟合)导致的双U形曲线机制.

SNEAKDOOR: Stealthy Backdoor Attacks against Distribution Matching-based Dataset Condensation

He Yang et al.

cs.CR cs.AI

本文提出了一种针对基于分布匹配的数据集压缩方法的隐蔽后门攻击方案. 该方案通过利用类别决策边界的固有脆弱性, 并结合一个生成模块来构建与局部特征几何对齐的输入感知触发器, 从而在保持攻击成功率的同时, 显著提升了攻击在视觉和统计层面的隐蔽性.

Incentives, Equilibria, and the Limits of Healthcare AI: A Game-Theoretic Perspective

Ari Ercole

cs.GT cs.AI

本文从博弈论视角分析了医疗AI的局限性, 提出了三种AI技术原型, 并通过一个简化的住院容量信号博弈模型论证了仅优化任务而不改变激励难以改变系统结果. 文章强调了重塑风险分配的干预措施的重要性, 并对医疗领导与采购提出了建议.

GMA-SAWGAN-GP: A Novel Data Generative Framework to Enhance IDS Detection Performance

Ziyu Mu, Xiyu Shi, Safak Dogan

cs.CR cs.AI

本文提出了一种名为GMA-SAWGAN-GP的生成式数据增强框架，旨在提升入侵检测系统(IDS)的性能。该框架结合了自注意力机制、Gumbel-Softmax正则化等技术来生成混合类型的网络流量数据。实验表明，使用该框架增强的数据集能有效提高多种IDS模型对已知和未知攻击的检测准确率与鲁棒性。

OccSim: Multi-kilometer Simulation with Long-horizon Occupancy World Models

Tianran Liu et al.

cs.CV cs.AI cs.RO

本文提出了一种基于occupancy world model的自动驾驶仿真器OccSim, 它仅需单帧初始输入和未来自车动作序列, 即可生成长达数公里的连续3D occupancy仿真序列, 突破了以往方法对预记录数据或高精地图的依赖. 实验表明, 其生成的数据可用于预训练4D语义occupancy预测模型, 并在未见数据上取得显著的zero-shot性能提升.

Robust Multi-Agent Reinforcement Learning for Small UAS Separation Assurance under GPS Degradation and Spoofing

Alex Zongo et al.

cs.RO cs.AI cs.LG eess.SY

本文针对小型无人机系统在GPS信号退化与欺骗下的鲁棒分离保障问题, 提出了一种基于多智能体强化学习的方法. 通过将状态观测扰动建模为零和博弈并推导出闭式对抗扰动表达式, 该方法避免了对抗训练, 并在高密度模拟中实现了低碰撞率.

Symmetrizing Bregman Divergence on the Cone of Positive Definite Matrices: Which Mean to Use and Why

Tushar Sial, Abhishek Halder

math.OC cs.LG eess.SY stat.ML

本文研究了在正定矩阵锥上对称化由一般镜像映射诱导的Bregman散度的变分原理。结果表明，对于正向对称化，算术平均是典范的；而对于反向对称化，典范平均是定义在对偶空间上的算术平均拉回到原空间。

Composition of random functions and word reconstruction

Guillaume Chapuy, Guillem Perarnau

math.PR cs.DS math.CO math.NT math.ST

本文研究了由两个随机函数复合生成的随机函数的性质, 探讨了仅通过观察一个样本能否恢复出复合所用的未知单词$w$的问题. 结果表明, 单词的长度和指数可以高概率恢复, 并且在一定条件下, 不同单词对应的随机函数在总变差距离上是可区分的.

Optimistic Online LQR via Intrinsic Rewards

Marcell Bartos et al.

eess.SY cs.LG math.OC

本文提出了一种名为IR-LQR的乐观在线LQR算法，通过引入内在奖励和方差正则化来鼓励探索。该方法仅修改成本函数，保持了标准LQR问题的结构，计算简单高效。理论分析表明其达到了最优的$\sqrt{T}$后悔率，并在数值实验中验证了性能。

Minimum Norm Interpolation via The Local Theory of Banach Spaces: The Role of $2$-Uniform Convexity

Gil Kur, Pierre Bizeul

math.FA cs.LG math.MG math.PR math.ST

本文研究了在$2$-uniform convexity假设下的minimum-norm interpolator (MNI), 并给出了其在过参数化线性与非线性模型中的偏差上界. 在协变量满足各向同性等特定条件下, 该上界对于$\ell_p$-MNI ($p \in \bigl(1 + C/\log d, 2\bigr]$) 是尖锐的.

AutoWorld: Scaling Multi-Agent Traffic Simulation with Self-Supervised World Models

Mozhgan Pourkeshavatz, Tianran Liu, Nicholas Rhinehart

cs.RO cs.AI cs.CV cs.LG

本文提出了一个名为AutoWorld的交通仿真框架, 它利用从无标签LiDAR数据中学到的world model来生成多智能体运动. 该方法通过级联Determinantal Point Process来提升采样多样性, 并在WOSAC基准测试中取得了领先的真实性评分.

A Pontryagin Method of Model-based Reinforcement Learning via Hamiltonian Actor-Critic

Chengyang Gu et al.

eess.SY cs.LG

本文提出了一种基于Pontryagin最大值原理的模型强化学习方法HAC, 通过直接优化Hamiltonian来避免显式的价值函数学习. 该方法在连续控制任务中表现出优于基线方法的性能与样本效率.

Privacy Guard & Token Parsimony by Prompt and Context Handling and LLM Routing

Alessio Langiu

cs.CR cs.AI

本文提出了一种结合本地隐私保护与token节约的LLM路由框架. 该框架通过一个本地的小语言模型对用户提示进行抽象总结和自动优化, 将高风险查询重定向到受保护的模型, 从而在降低运营成本的同时实现零数据泄露. 实验表明该方法能有效减少token消耗并保护隐私.

Design Principles for the Construction of a Benchmark Evaluating Security Operation Capabilities of Multi-agent AI Systems

Yicheng Cai et al.

cs.CR cs.AI

本文提出了构建评估AI系统蓝队能力基准SOC-bench的设计原则，并给出了一个包含五个大规模勒索软件攻击响应任务的概念设计。该工作旨在填补当前缺乏系统性评估协调多任务蓝队AI基准的空白。

Transfer Learning in Bayesian Optimization for Aircraft Design

Ali Tfaily et al.

math.OC cs.LG stat.ML

本文提出了一种在约束贝叶斯优化框架中集成基于迁移学习的代理模型集成方法, 用于解决飞机设计中的冷启动问题. 该方法通过偏最小二乘降维处理设计变量异质性, 并通过元数据代理选择处理约束异质性, 在数值基准和飞机概念设计问题中展示了早期收敛的显著改进.

Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

Zifan He et al.

cs.DC cs.AI

本文提出将大语言模型(LLM)推理中的多种长上下文优化技术(如稀疏注意力, RAG)统一为一个四步内存处理流水线. 通过分析其计算异构性, 作者论证了异构系统(GPU-FPGA)加速该流水线的可行性, 并在实际硬件上验证了其在速度和能效上的提升.

MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

Bharath Krishnamurthy, Ajita Rattani

cs.CV cs.AI

本文提出了一种用于高保真多模态人脸生成的双流扩散Transformer模型MMFace-DiT. 该模型通过一个新颖的双流Transformer块并行处理空间和语义信息, 并使用共享的RoPE注意力机制进行深度融合, 在视觉保真度和提示对齐方面取得了显著提升.

Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning

Bilgehan Sel et al.

cs.CR cs.AI cs.CL

本文提出了一种名为Trojan-Speak的对抗性微调方法, 用于规避Anthropic的Constitutional Classifiers. 该方法结合了课程学习和基于GRPO的混合强化学习, 在保持模型推理能力的同时, 实现了对内容分类器的高效绕过.

Data-informed lifting line theory

Arjun Sharma, Jonas A. Actor, Peter A. Bosler

physics.flu-dyn cs.LG

本文提出了一种数据驱动的框架, 通过融合面元法(panel method)的高保真数据来扩展经典升力线理论(LLT)的预测范围. 该方法使用了一个包含卷积层和全连接层的神经网络架构, 能够有效学习对LLT输出的修正, 在低展弦比、大后掠角等LLT失效的工况下准确预测展向升力和阻力分布, 同时保持了LLT的计算效率.

CivicShield: A Cross-Domain Defense-in-Depth Framework for Securing Government-Facing AI Chatbots Against Multi-Turn Adversarial Attacks

KrishnaSaiReddy Patil

cs.CR cs.AI

本文提出了一个名为CivicShield的跨域纵深防御框架，旨在保护面向政府的AI聊天机器人免受多轮对抗攻击。该框架整合了来自多个领域的理念，构建了七层防御机制，并通过理论分析和模拟实验验证了其有效性。

How much of persistent homology is topology? A quantitative decomposition for spin model phase transitions

Matthew Loftus

cond-mat.stat-mech cs.LG math.AT

本文通过引入一种称为$f_{\text{topo}}$的定量分解方法，分析了在经典自旋模型相变检测中持久同源性（PH）信号的性质。研究发现，$H_0$统计量几乎完全由密度驱动，而$H_1$统计量则包含显著的拓扑成分，其拓扑部分随系统尺寸标度变化。

Is the Modality Gap a Bug or a Feature? A Robustness Perspective

Rhea Chowers et al.

cs.CV cs.LG

本文从robustness的角度探讨了multi-modal模型中普遍存在的modality gap现象. 作者通过理论分析表明, 在特定条件下, 最小化contrastive loss会导致一个与embedding正交的全局gap vector, 并且这个gap与模型的鲁棒性单调相关. 实验表明, 通过简单的后处理减小gap可以在不损失clean accuracy的情况下显著提升模型对embedding扰动的鲁棒性.

WybeCoder: Verified Imperative Code Generation

Fabian Gloeckle et al.

cs.SE cs.AI

本文提出了一个名为WybeCoder的智能代码验证框架，它结合了自动验证条件生成、SMT求解器和交互式证明，实现了代码、不变量和证明的协同生成与验证。该系统在将函数式验证基准转换为命令式代码规范后，在复杂算法验证任务上取得了显著的性能提升。

WorldFlow3D: Flowing Through 3D Distributions for Unbounded World Generation

Amogh Joshi, Julian Ost, Felix Heide

cs.CV cs.AI cs.GR

本文提出了一种名为WorldFlow3D的新方法，用于生成无界3D世界。该方法基于flow matching技术，将3D生成建模为在数据分布间流动的过程，并支持通过布局和属性进行场景控制。

Evaluating a Data-Driven Redesign Process for Intelligent Tutoring Systems

Qianru Lyu et al.

cs.HC cs.AI

本文应用数据驱动的方法对中学数学智能辅导系统进行了重新设计, 并在课堂研究中评估了其效果. 研究发现, 重新设计的系统在提升学习效率和学习内容掌握度方面表现出积极影响.

SemLoc: Structured Grounding of Free-Form LLM Reasoning for Fault Localization

Zhaorui Yang et al.

cs.SE cs.AI

本文提出了一种基于结构化语义基础的故障定位框架 SemLoc, 它将自由形式的 LLM 推理转换为封闭的中间表示, 从而能够进行运行时检查和归因. 该方法在包含语义错误的程序数据集上评估, 表现优于多种基线方法.

Towards Explainable Stakeholder-Aware Requirements Prioritisation in Aged-Care Digital Health

Yuqing Xiao et al.

cs.SE cs.AI

本文通过混合方法研究, 结合可解释机器学习与半结构化访谈, 识别了影响老年数字健康领域需求优先级的关键人为因素, 并揭示了不同利益相关者群体间的认知差异. 研究提出了一个以人为本、结合定量与定性分析的需求工程框架.

Predictor-Based Output-Feedback Control of Linear Systems with Time-Varying Input and Measurement Delays via Neural-Approximated Prediction Horizons

Luke Bhan, Miroslav Krstic, Yuanyuan Shi

eess.SY cs.LG math.OC

本文针对具有时变输入和测量延迟的线性系统, 提出了基于预测器的输出反馈控制方法. 通过数值积分或神经网络算子来近似预测时域, 并证明了在近似误差足够小时闭环系统的全局指数稳定性.

"I Just Need GPT to Refine My Prompts": Rethinking Onboarding and Help-Seeking with Generative 3D Modeling Tools

Kanak Gautam, Poorvi Bhatia, Parmit K. Chilana

cs.HC cs.AI

本文通过一项观察性研究, 探讨了用户在使用基于prompt的生成式AI工具进行3D建模时的学习与求助行为. 研究发现, 无论是普通用户还是专业用户, 都倾向于跳过传统教程, 而prompt输入框本身成为了新的学习入口, 并且求助方式也发生了变化.

Sampling-Horizon Neural Operator Predictors for Nonlinear Control under Delayed Inputs

Luke Bhan et al.

eess.SY cs.LG math.OC

本文针对具有输入延迟和采样状态测量的非线性控制系统, 提出了两种基于神经算子(neural operator)的预测器-反馈设计. 第一种设计引入了采样区间预测算子, 第二种则仅近似延迟补偿预测器, 两者均在数值实验中展示了计算加速效果.

Economics of Human and AI Collaboration: When is Partial Automation More Attractive than Full Automation?

Wensu Li et al.

econ.GN cs.AI cs.CY

本文提出了一个评估任务自动化最优程度的统一框架, 将自动化强度建模为连续选择. 通过结合AI生产函数和基于熵的任务复杂度度量, 框架分析了从部分人机协作到完全自动化的成本效益. 校准结果表明, 对于高复杂度任务, 部分自动化通常是成本最小化的均衡结果.

Adaptive Delayed-Update Cyclic Algorithm for Variational Inequalities

Yi Wei, Xufeng Cai, Jelena Diakonikolas

math.OC cs.LG

本文提出了一种用于求解单调Lipschitz算子Minty变分不等式的自适应延迟更新循环算法ADUCA. 该算法无需参数调优, 并具有与最优复杂度匹配的理论保证.

Designing FSMs Specifications from Requirements with GPT 4.0

Omer Nguena Timo, Paul-Alexis Rodriguez, Florent Avellaneda

cs.SE cs.AI cs.CL cs.FL

本文提出了一个基于GPT-4.0的框架，用于从自然语言需求自动生成有限状态机(FSM)规范。该框架还结合了基于变异和测试生成的专家中心方法来修复LLM生成的FSM，并通过实验评估了其性能。

LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning

Haihong Hao et al.

cs.CV cs.AI cs.RO

本文提出了一种新的视觉与语言导航(VLN)范式LatentPilot, 它通过一种飞轮式训练机制, 在训练中利用未来观测来学习动作条件化的视觉动态, 而无需在推理时访问未来帧. 该方法在多个VLN基准测试中取得了新的最优结果.

Segmentation of Gray Matters and White Matters from Brain MRI data

Chang Sun et al.

cs.CV cs.LG

本文提出了一种改进的MedSAM模型, 用于从脑部MRI数据中分割灰质和白质. 该方法通过预处理流程生成多类别标签, 并微调模型的分割解码器, 在IXI数据集上取得了较高的Dice分数.

Predicting Neuromodulation Outcome for Parkinson's Disease with Generative Virtual Brain Model

Siyuan Du et al.

q-bio.NC cs.AI cs.CE cs.CV

本文提出了一种基于预训练-微调框架的生成式虚拟脑模型, 用于从静息态fMRI数据预测帕金森病患者对神经调控疗法(如时间干涉和脑深部电刺激)的临床反应. 该模型通过构建个体化病理与健康状态的对比估计来预测疗效, 并在外部验证中显示出临床转化的潜力.

SLVMEval: Synthetic Meta Evaluation Benchmark for Text-to-Long Video Generation

Ryosuke Matsuda et al.

cs.CV cs.AI

本文提出了一个用于评估文本到长视频生成系统评测工具性能的合成基准 SLVMEval. 该基准通过人工筛选出易于人类判断的视频质量对比对, 并测试了现有评估系统在这些长视频上的表现, 发现其在多数方面不及人类评估者.

3D Architect: An Automated Approach to Three-Dimensional Modeling

Sunil Tiwari, Payal Fofadiya, Vicky Vishwakarma

cs.CV cs.AI

本文提出了一种从正交视图自动重建三维模型的方法. 该方法通过Harris角点检测器获取控制点, 构建垂直投影包络并通过其交点生成三维点云, 最后利用计算几何和OpenGL进行表面重建与渲染.

Developing Adaptive Context Compression Techniques for Large Language Models (LLMs) in Long-Running Interactions

Payal Fofadiya, Sunil Tiwari

cs.CV cs.AI

本文提出了一种用于大型语言模型长程交互的自适应上下文压缩框架. 该方法通过重要性感知的记忆选择与动态预算分配来控制上下文增长, 在多个基准测试上提升了对话稳定性与检索性能.

Multi-Layered Memory Architectures for LLM Agents: An Experimental Evaluation of Long-Term Context Retention

Sunil Tiwari, Payal Fofadiya

cs.CV cs.AI

本文提出了一种用于LLM Agent的多层记忆架构, 通过将对话历史分解为工作记忆、情景记忆和语义记忆层, 并结合自适应检索门控与保留正则化, 旨在控制跨会话的语义漂移并维持有界的上下文增长. 实验在多个数据集上验证了该方法在长期上下文保留和推理稳定性方面的提升.

Software Vulnerability Detection Using a Lightweight Graph Neural Network

Miles Farmer et al.

cs.SE cs.AI cs.CR cs.LG

本文提出了一种基于轻量级图神经网络(GNN)的漏洞检测模型VulGNN. 该模型利用代码的图结构关系, 在性能接近大型语言模型(LLM)的同时, 显著降低了模型规模和计算需求.

Advancing LLM-based phoneme-to-grapheme for multilingual speech recognition

Lukuang Dong et al.

eess.AS cs.CL cs.SD

本文研究了基于LLM的多语言音素到字素转换, 用于多语言语音识别. 通过引入S-SKM等鲁棒训练策略并处理数据不平衡, 在CV-Lang10基准上显著降低了词错误率.

Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism

Tao Chen et al.

cs.CV cs.AI

本文提出了一种名为FlexMem的训练无关方法, 通过模拟人类观看视频时的视觉记忆机制来处理长视频理解任务. 该方法利用视觉KV缓存作为记忆源, 通过双路径压缩设计实现记忆的有效转移与写入, 并探索了针对不同视频理解任务的记忆读取策略, 从而突破了模型输入长度的限制.

Real-Time Surrogate Modeling for Fast Transient Prediction in Inverter-Based Microgrids Using CNN and LightGBM

Osasumwen Cedric Ogiesoba-Eguakun, Kaveh Ashenayi, Suman Rath

eess.SY cs.LG

本文提出了一种结合CNN和LightGBM的数据驱动代理模型框架，用于快速预测基于逆变器的微电网的瞬态行为。该模型在多种运行和扰动场景的数据集上进行训练，能够以远高于传统电磁瞬态仿真的速度，对电压、频率等关键系统变量进行预测。

Omni-NegCLIP: Enhancing CLIP with Front-Layer Contrastive Fine-Tuning for Comprehensive Negation Understanding

Jingqi Xu

cs.CV cs.AI

本文提出了一种名为 Omni-NegCLIP 的微调方法，旨在提升 CLIP 模型对否定表达的理解能力。该方法通过设计特定的对比学习目标，并重点微调文本编码器的前部 transformer 层，在保持通用检索性能的同时，显著改善了模型在两类否定任务上的表现。

PRISM: A Multi-View Multi-Capability Retail Video Dataset for Embodied Vision-Language Models

Amirreza Rouhi et al.

cs.CV cs.AI cs.RO

本文介绍了PRISM, 一个用于在零售环境中微调具身视觉语言模型(VLM)的大规模多视角视频数据集. 该数据集基于一个三维知识本体构建, 旨在提升模型在空间感知, 物理常识和具身推理等方面的能力.

Sima AIunty: Caste Audit in LLM-Driven Matchmaking

Atharva Naik et al.

cs.CY cs.AI cs.CL cs.HC cs.SI

本文通过实验评估了多种LLM在婚恋匹配场景中表现出的种姓偏见. 研究发现, LLM的评估结果系统地复制了现实中的种姓等级结构.

Downsides of Smartness Across Edge-Cloud Continuum in Modern Industry

Akhil Gupta Chigullapally et al.

cs.CR cs.AI cs.DC

本文讨论了现代工业中人工智能在边缘-云连续体上部署时带来的潜在风险与挑战. 文章重点分析了从软件层（传统AI与生成式AI）到基础设施层（工业物联网与边缘-云连续体）可能存在的安全漏洞、网络威胁和意外副作用.

MELT: Improve Composed Image Retrieval via the Modification Frequentation-Rarity Balance Network

Guozhi Qiu et al.

cs.CV cs.AI

本文提出了一种名为MELT的网络，用于改进组合图像检索(CIR)。该方法通过关注稀有修改语义并对困难负样本进行去噪，以缓解现有方法中的频率偏差和相似度估计干扰问题。

Self-Improving Code Generation via Semantic Entropy and Behavioral Consensus

Huan Zhang, Wei Cheng, Wei Hu

cs.SE cs.AI cs.PL

本文提出了一种名为ConSelf的自改进方法, 用于提升大语言模型的代码生成能力. 该方法通过代码语义熵进行课程构建, 并利用基于行为共识的偏好优化进行微调, 从而在不依赖外部监督资源的情况下实现自我提升.

IMPASTO: Integrating Model-Based Planning with Learned Dynamics Models for Robotic Oil Painting Reproduction

Yingke Wang et al.

cs.RO cs.AI

本文提出了一种结合学习到的像素动态模型与基于模型的规划方法, 用于机器人油画复现. 该系统通过自学习预测画布变化并规划笔触轨迹, 在复现精度上优于基线方法.

Real-Time Band-Grouped Vocal Denoising Using Sigmoid-Driven Ideal Ratio Masking

Daniel Williams

cs.SD cs.AI

本文提出了一种基于sigmoid驱动的理想比率掩码(Ideal Ratio Masking)和谱损失(spectral loss)的实时人声去噪方法. 该方法采用频带分组编码器-解码器架构, 结合频率注意力机制, 实现了低于10毫秒的总延迟, 并在平稳和非平稳噪声上提升了语音质量感知评估(PESQ-WB)分数.

Beyond Corner Patches: Semantics-Aware Backdoor Attack in Federated Learning

Kavindu Herath, Joshua Zhao, Saurabh Bagchi

cs.CR cs.AI cs.CV cs.DC cs.LG

本文提出了一种在联邦学习中更现实的语义感知后门攻击方法SABLE, 该方法使用语义一致的触发器(如添加太阳镜)并优化聚合感知的恶意目标. 实验表明, 这种基于语义的后门攻击在多种聚合规则下仍能保持高成功率, 揭示了仅基于合成补丁触发器评估鲁棒性的局限性.

Scaling Whole-Body Human Musculoskeletal Behavior Emulation for Specificity and Diversity

Yunyue Wei et al.

cs.RO cs.AI

本文提出了一个用于全身人体运动复现的大规模并行肌肉骨骼计算框架. 该框架结合了并行GPU模拟与对抗性奖励聚合等方法, 旨在解决高维肌肉骨骼控制中的优化难题.

CIPHER: Counterfeit Image Pattern High-level Examination via Representation

Kyeonghun Kim et al.

cs.CV cs.AI

本文提出了一种名为CIPHER的深度伪造检测框架，通过重用和微调图像生成模型的判别器来提取生成无关的伪影特征。该方法在多种生成模型上展现了优越的跨模型检测性能，显著优于现有的基于ViT的检测器。

AP-DRL: A Synergistic Algorithm-Hardware Framework for Automatic Task Partitioning of Deep Reinforcement Learning on Versal ACAP

Enlai Li et al.

cs.AR cs.LG

本文提出了一个名为AP-DRL的自动任务划分框架，用于加速深度强化学习(DRL)的训练。该框架利用AMD Versal ACAP的异构计算架构，通过设计空间探索和整数线性规划模型，将不同计算特性的操作分配到CPU、FPGA或AI Engine等最优计算单元上，并协调使用FP32、FP16和BF16混合精度以维持训练收敛性。实验表明，该框架相比基准方案能获得显著的加速效果。

Deep Learning-Assisted Improved Differential Fault Attacks on Lightweight Stream Ciphers

Kok Ping Lim, Dongyang Jia, Iftekhar Salam

cs.CR cs.LG

本文探讨了深度学习辅助的差分故障攻击在轻量级流密码ACORNv3, MORUSv2和ATOM上的应用。在未知位置单比特翻转的宽松故障模型下，使用多层感知机(MLP)定位故障，并引入基于阈值的方法优化密钥恢复所需的故障注入次数。

PromptForge-350k: A Large-Scale Dataset and Contrastive Framework for Prompt-Based AI Image Forgery Localization

Jianpeng Wang et al.

cs.CV cs.AI

本文提出了一个用于定位基于提示的AI图像伪造的大型数据集PromptForge-350k和一个对比学习框架ICL-Net. 该方法通过自动标注框架生成精确的ground-truth masks, 并利用triple-stream backbone和intra-image contrastive learning来学习鲁棒的取证特征, 在多个指标上超越了现有方法.

Extend3D: Town-Scale 3D Generation

Seungwoo Yoon, Jinmo Kim, Jaesik Park

cs.CV cs.AI

本文提出了一种免训练的从单张图像生成大规模3D场景的流程Extend3D. 该方法通过扩展潜在空间并分块处理, 结合深度先验和优化目标, 实现了优于先前方法的结果.

Security in LLM-as-a-Judge: A Comprehensive SoK

Aiman Almasoud et al.

cs.CR cs.AI

本文对LLM-as-a-Judge (LaaJ) 系统的安全性进行了首次系统化知识梳理(SoK). 通过分析大量文献, 提出了一个涵盖攻击、防御和应用场景的分类法, 并指出了该领域当前存在的漏洞和未来的研究方向.

Hallucination-aware intermediate representation edit in large vision-language models

Wei Suo et al.

cs.CV cs.AI

本文提出了一种在大型视觉语言模型中动态检测并编辑幻觉中间表示的框架. 该方法以最小的额外计算成本, 在现有基准上实现了先进的性能, 有效缓解了模型输出与视觉事实不符的问题.

AGFT: Alignment-Guided Fine-Tuning for Zero-Shot Adversarial Robustness of Vision-Language Models

Yubo Cui et al.

cs.CV cs.AI cs.LG

本文提出了一种名为AGFT的微调框架, 旨在提升预训练视觉-语言模型(VLMs)的零样本对抗鲁棒性. 该方法通过利用模型自身的概率预测进行文本引导的对抗训练, 并引入分布一致性校准机制, 在增强鲁棒性的同时保持了跨模态语义对齐.

Adversarial Prompt Injection Attack on Multimodal Large Language Models

Meiwen Ding et al.

cs.CV cs.AI

本文提出了一种针对多模态大语言模型(MLLMs)的不可感知视觉提示注入攻击方法. 该方法通过有界文本覆盖和迭代优化视觉扰动, 将恶意指令嵌入输入图像, 并在多个闭源MLLMs上验证了其有效性.

RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment

Qiyuan Zhuang et al.

cs.RO cs.AI cs.CV

本文提出了一种结合检索与对齐学习的物体可供性预测框架RAAP. 该方法通过解耦静态接触点定位与动态动作方向预测, 利用稠密对应关系迁移接触点, 并借助检索增强的对齐模型整合多参考信息来预测动作方向. 在少量样本训练下, 该框架在未见过的物体和类别上表现一致, 并能实现零样本机器人操作.

Multi-AUV Cooperative Target Tracking Based on Supervised Diffusion-Aided Multi-Agent Reinforcement Learning

Jiaao Ma et al.

cs.NI cs.LG

本文提出了一种用于多自主水下航行器(AUV)协同目标跟踪的层次化多智能体强化学习(MARL)架构及SDA-MARL算法。该算法通过分层结构、分离的经验池、监督引导的扩散模型生成样本以及结合行为克隆的鲁棒策略学习，旨在解决非平稳性、稀疏奖励和水动力干扰等挑战，并在仿真中取得了优于现有方法的跟踪精度。

Beyond Bits: An Introduction to Computation over the Reals

Tillmann Miltzow

cs.CC cs.CG cs.DS

本文是一篇关于实数计算（real computation）的入门性综述, 旨在为非专业读者提供一个轻量级且易于理解的概念介绍. 它避开了追求完整性, 而是选择了一组适合课堂教学的结果, 侧重于核心技术和直觉理解, 并讨论了与现代复杂性理论的联系.

NeoNet: An End-to-End 3D MRI-Based Deep Learning Framework for Non-Invasive Prediction of Perineural Invasion via Generation-Driven Classification

Youngung Han et al.

cs.CV cs.AI

本文提出了一种名为NeoNet的端到端3D深度学习框架, 用于从MRI图像中无创预测胆管癌的神经周围浸润(PNI). 该框架整合了分割、生成和分类模块, 通过生成合成数据平衡数据集, 并利用专门的注意力机制进行最终预测, 在交叉验证中取得了优于基线模型的性能.

Few-shot Writer Adaptation via Multimodal In-Context Learning

Tom Simon et al.

cs.CV cs.AI

本文提出了一种基于multimodal in-context learning的手写文本识别框架, 可在推理时仅使用少量目标书写者的样本进行writer adaptation, 而无需更新模型参数. 实验表明, 该方法在IAM和RIMES数据集上取得了优于writer-independent模型的性能.

iPoster: Content-Aware Layout Generation for Interactive Poster Design via Graph-Enhanced Diffusion Models

Xudong Zhou et al.

cs.HC cs.AI

本文提出了一个名为iPoster的交互式海报布局生成框架。该框架允许用户通过指定元素类别、大小或位置等约束来引导生成过程，并采用一种基于图增强的diffusion模型来生成符合约束的精细化布局。

From Big Data to Fast Data: Towards High-Quality Datasets for Machine Learning Applications from Closed-Loop Data Collection

Philipp Reis et al.

eess.SY cs.LG

本文提出了"Fast Data"的概念, 用于汽车系统工程中的数据收集. 该方法将数据选择与记录移至车辆端, 通过实时、上下文感知的决策来提升数据集的相关性和信息密度, 同时减少无关数据.

Model Predictive Path Integral PID Control for Learning-Based Path Following

Teruki Kato, Koshi Oishi, Seigo Ito

eess.SY cs.LG cs.RO math.OC

本文提出了一种结合Model Predictive Path Integral (MPPI)控制与PID控制的新方法，称为MPPI-PID控制。该方法通过在每个控制步骤优化PID增益，而非直接优化高维控制序列，以提高采样效率并产生更平滑的控制输入。实验在一个基于学习的迷你叉车路径跟踪任务上验证了该方法的有效性。

TrafficMoE: Heterogeneity-aware Mixture of Experts for Encrypted Traffic Classification

Qing He, Xiaowei Fu, Lei Zhang

cs.CR cs.AI cs.MM cs.NI

本文提出了一种名为TrafficMoE的加密流量分类框架, 它采用了一种解耦-过滤-聚合(DFA)的范式. 该框架通过双分支稀疏专家混合(MoE)来处理流量中的结构化头部和随机化载荷, 并引入了不确定性感知过滤和动态路由聚合机制, 在多个数据集上取得了优于现有方法的效果.

Sampling at intermediate temperatures is optimal for training large language models in protein structure prediction

L. Ghiringhelli, A. Zambon, G. Tiana

cond-mat.dis-nn cs.LG q-bio.BM

本文利用统计力学框架和Langevin动力学采样研究了基于蛋白质序列数据训练的transformer模型的参数空间. 研究发现, 与feedforward网络不同, transformer的loss变化不存在类似一阶相变的行为, 这导致了一个具有良好学习特性的中间温度区间.

Learning Surrogate LPV State-Space Models with Uncertainty Quantification

E. Javier Olucha et al.

eess.SY cs.LG

本文提出了一种用于联合估计LPV状态空间模型及其调度变量的贝叶斯方法，并量化了模型的不确定性。该方法同时考虑了测量噪声和有限数据带来的不确定性，能够直接从输入输出数据中提供模型响应的置信区间。

Quantization with Unified Adaptive Distillation to enable multi-LoRA based one-for-all Generative Vision Models on edge

Sowmya Vajrala et al.

cs.CV cs.AI

本文提出了一种用于在边缘设备上部署多任务生成式视觉模型的统一框架, 核心是将LoRA权重视为运行时输入而非编译进模型图, 并引入了QUAD量化感知训练策略来对齐多个LoRA适配器. 该方法在多个芯片组上实现了内存占用和延迟的显著降低, 同时保持了视觉质量.

Mean Masked Autoencoder with Flow-Mixing for Encrypted Traffic Classification

Xiao Liu et al.

cs.CR cs.AI cs.MM cs.NI

本文提出了一种用于加密流量分类的Mean Masked Autoencoder (MMAE)方法。该方法通过师生自蒸馏机制和流混合策略，旨在学习多粒度上下文表示，并在多个数据集上取得了先进的性能。

Reducing Complexity for Quantum Approaches in Train Load Optimization

Zhijie Tang, Albert Nieto-Morales, Arit Kumar Bishwas

quant-ph cs.AI

本文针对列车装载优化问题, 提出了一种新的紧凑数学模型. 该模型通过目标函数隐式计算翻箱成本, 避免了传统方法中大量显式变量和约束的使用, 从而显著降低了模型规模. 通过模拟退火算法验证, 该模型能有效找到高质量的装载方案.

Generating Key Postures of Bharatanatyam Adavus with Pose Estimation

Jagadish Kashinath Kamble et al.

cs.CV cs.AI

本文提出了一种结合姿态估计的生成框架, 用于合成印度古典舞蹈Bharatanatyam的关键姿势. 该方法通过引入基于关键点的损失和姿态一致性约束来提升生成结果的解剖学准确性和风格完整性.

Turbo4DGen: Ultra-Fast Acceleration for 4D Generation

Yuanbin Man et al.

cs.GR cs.AI cs.CV

本文提出了一个名为Turbo4DGen的加速框架，用于解决基于扩散模型的4D内容生成中计算和内存开销巨大的问题。该方法通过引入时空缓存、动态语义感知注意力剪枝等技术，显著提升了生成速度。

Learn2Fold: Structured Origami Generation with World Model Planning

Yanjia Huang et al.

cs.GR cs.AI

本文提出了一种名为Learn2Fold的神经符号框架，用于从文本描述生成物理上有效的折纸折叠序列。该方法将折纸过程建模为对折痕图的条件程序归纳，通过大语言模型生成候选程序，并利用图结构世界模型进行物理可行性验证。

FigAgent: Towards Automatic Method Illustration Figure Generation for AI Scientific Papers

Zhuoling Li et al.

cs.GR cs.AI

本文提出了一个名为FigAgent的多智能体框架, 用于自动生成AI科学论文中的方法示意图(MIFs). 该框架通过智能体协作和探索-选择绘图策略来处理示意图的复杂性, 旨在模仿人类绘图过程以提高生成质量.

IMAGAgent: Orchestrating Multi-Turn Image Editing via Constraint-Aware Planning and Reflection

Fei Shen et al.

cs.GR cs.AI cs.CV cs.MA

本文提出了一个基于"规划-执行-反思"闭环机制的多轮图像编辑智能体框架IMAGAgent. 该框架通过约束感知规划模块分解指令, 利用工具链编排模块调度异构模型执行, 并采用多专家协作反思机制进行反馈与校正, 旨在解决多轮编辑中的错误累积和语义漂移问题.

Central limit theorems for the outputs of fully convolutional neural networks with time series input

Annika Betken, Giorgio Micali, Johannes Schmidt-Hieber

stat.ME cs.LG

本文研究了全卷积神经网络(FCN)在时间序列输入下的输出分布. 证明了当输入来自短程依赖线性过程时, 带有全局平均池化(GAP)的FCN输出是渐近高斯的, 并基于此理论提出了一种可学习的全局加权池化层.

Convergent Representations of Linguistic Constructions in Human and Artificial Neural Systems

Pegah Ramezani et al.

q-bio.NC cs.AI cs.CL

本文通过EEG实验和机器学习方法，研究了人脑在处理不同Argument Structure Constructions时的神经表征。研究发现，构造特异的神经信号主要在句子末尾出现，其时间动态和相似性结构与人工语言模型中的表征模式相似。

Storing Less, Finding More: How Novelty Filtering Improves Cross-Modal Retrieval on Edge Cameras

Sherif Abdelwahab

cs.CV cs.DC cs.IR

本文提出了一种用于边缘摄像头的流式检索架构, 通过一个新颖性过滤器在设备端保留语义新颖的帧以构建去噪的嵌入索引, 并结合跨模态适配器和云端重排序来提升检索性能. 该方法在多个视觉语言模型和数据集上验证了其优于离线过滤方案的效果.

An Empirical Study of Multi-Agent Collaboration for Automated Research

Yang Shen et al.

cs.MA cs.AI

本文通过一个受控的测试平台，比较了单智能体与两种多智能体协作架构（子智能体模式和团队模式）在自动化机器学习优化任务中的性能。研究发现，子智能体模式在严格时间限制下具有高鲁棒性和吞吐量，而团队模式在充足计算预算下能实现更深度的理论对齐，但操作更脆弱。

MacTok: Robust Continuous Tokenization for Image Generation

Hengyu Zeng et al.

cs.CV cs.AI

本文提出了一种名为MacTok的连续图像tokenizer, 它结合了随机掩码和基于DINO的语义掩码来防止后验坍塌, 从而在高度压缩的1D潜在空间中学习鲁棒的表示. 该方法在ImageNet上实现了高效的图像生成, 显著减少了token的使用数量.

Semantic Interaction for Narrative Map Sensemaking: An Insight-based Evaluation

Brian Felipe Keith-Norambuena et al.

cs.HC cs.AI cs.CL cs.IR

本文通过用户研究评估了语义交互(SI)在叙事地图意义建构中的有效性. 研究比较了时间线基线、基础叙事地图和具备SI功能的交互式叙事地图三种条件, 发现地图类原型能产生更多见解, 其中SI条件表现最佳. 定性分析揭示了用户使用SI进行叙事修正的两种不同模式.

6GAgentGym: Tool Use, Data Synthesis, and Agentic Learning for Network Management

Jiao Chen et al.

cs.NI cs.AI

本文提出了一个名为6GAgentGym的交互式框架，用于6G网络管理的自主智能体训练。该框架通过合成闭环交互数据并结合强化学习，使开源模型在特定任务上取得了与大型模型相当的性能。

KEditVis: A Visual Analytics System for Knowledge Editing of Large Language Models

Zhenning Chen et al.

cs.HC cs.AI

本文介绍了一个名为KEditVis的可视化分析系统, 用于辅助理解和优化大型语言模型(LLM)的知识编辑过程. 该系统通过交互式可视化帮助用户选择编辑层、分析编辑失败原因, 并进行更有针对性的编辑.

Exploring the Impact of Skin Color on Skin Lesion Segmentation

Kuniko Paxton et al.

cs.CV cs.AI

本文评估了三种皮肤病变分割模型在两种公开数据集上的表现, 并引入了一种基于像素级ITA值分布的连续色素对比度分析方法. 研究发现, 病变与皮肤之间的低对比度是导致分割误差的关键因素, 而基于分布的度量比离散的肤色分类更能提供有效的评估信号.

Unbounded Density Ratio Estimation and Its Application to Covariate Shift Adaptation

Ren-Rui Liu et al.

stat.ML cs.LG

本文提出了一种处理无界密度比估计的三步方法, 并将其应用于协变量偏移适应. 该方法通过估计相对密度比、截断和反变换来构造重要性权重, 并为估计量建立了非渐近收敛保证.

mlr3mbo: Bayesian Optimization in R

Marc Becker et al.

stat.ML cs.LG

本文介绍了用于R语言的贝叶斯优化工具箱mlr3mbo, 它支持单目标与多目标优化等多种功能, 并提供了模块化设计以构建自定义算法. 通过基准测试表明, 该工具包在性能上可与当前主流优化器相媲美.

BotVerse: Real-Time Event-Driven Simulation of Social Agents

Edoardo Allegrini et al.

cs.SI cs.AI cs.MA

本文提出了一个名为BotVerse的、基于LLM的、可扩展的事件驱动框架, 用于高保真度的社交智能体模拟. 该框架通过异步编排API和模拟引擎, 在受控环境中模拟具有类人时间模式和认知记忆的agent交互, 为计算社会科学研究提供了一个安全的实验平台.

HyperKKL: Learning KKL Observers for Non-Autonomous Nonlinear Systems via Hypernetwork-Based Input Conditioning

Yahia Salaheldin Shaaban et al.

eess.SY cs.LG

本文提出了两种基于神经网络的KKL观测器设计方法, 用于处理受外生输入影响的非自治非线性系统. 通过引入超网络框架和两种输入调节策略, 该方法在多个非线性基准系统上相比静态映射提升了估计精度.

TSHA: A Benchmark for Visual Language Models in Trustworthy Safety Hazard Assessment Scenarios

Qiucheng Yu et al.

cs.CV cs.AI

本文提出了一个用于评估视觉语言模型在室内安全隐患评估任务中可信度的新基准TSHA. 该基准整合了多源数据并设计了更具挑战性的测试集, 实验表明现有模型在此任务上能力不足, 而使用TSHA数据训练能显著提升模型性能.

From Skeletons to Semantics: Design and Deployment of a Hybrid Edge-Based Action Detection System for Public Safety

Ganen Sethupathy, Lalit Dumka, Jan Schagen

cs.CV cs.AI

本文设计并部署了一个用于公共安全的混合边缘动作检测系统, 结合了基于骨架的运动分析和视觉语言模型. 该系统在边缘设备上进行了演示评估, 比较了两种范式在延迟和资源使用上的权衡, 为实际部署提供了参考.

Certifying and learning local quantum Hamiltonians

Andreas Bluhm et al.

quant-ph cs.CC cs.DS

本文研究了恒定$k$下的量子$k$-local Hamiltonians的认证与学习问题. 主要贡献包括: 在归一化Frobenius范数下, 以$O(1/\varepsilon)$演化时间实现了对Hamiltonian的认证; 设计了一个在迹范数下高效学习Gibbs states的算法; 并给出了一个在迹范数下高效认证Gibbs states的算法.

Toward Generalizable Whole Brain Representations with High-Resolution Light-Sheet Data

Minyoung E. Kim et al.

cs.CV cs.LG

本文介绍了CANVAS, 一个用于高分辨率全脑光片显微成像数据的基准数据集, 旨在解决该领域缺乏大规模标注数据和通用分析方法的挑战. 作者展示了现有模型在处理此类数据时面临的泛化性问题.

DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

Yi Chen et al.

cs.RO cs.AI cs.CV cs.LG

本文提出了一个名为DIAL的框架, 用于端到端的Vision-Language-Action (VLA) 模型. 该框架通过一个可微分的潜在意图瓶颈来桥接高级决策与低级动作执行, 并在机器人操作任务上取得了优异性能.

VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

Juan Rodriguez et al.

cs.GR cs.AI cs.CV

本文提出了一个名为VectorGym的综合性基准测试套件，用于评估Scalable Vector Graphics (SVG)的生成、编辑和理解任务。它包含多个由专家标注的任务，并引入了一种基于多任务强化学习的方法进行联合优化。

GENIE: Gram-Eigenmode INR Editing with Closed-Form Geometry Updates

Samundra Karki, Adarsh Krishnamurthy, Baskar Ganapathysubramanian

cs.GR cs.AI cs.CV cs.LG

本文提出了一种名为GENIE的方法, 用于编辑Implicit Neural Representations (INRs)表示的几何形状. 该方法通过分析INR倒数第二层特征的Gram算子, 推导出闭式几何更新公式, 无需重新训练即可实现形状编辑.

Wildfire Suppression: Complexity, Models, and Instances

Gustavo Delazeri, Marcus Ritt

cs.CE cs.AI

本文研究了基于图表示的景观上随时间分配灭火资源以减缓火灾蔓延的问题. 作者证明了该问题及其变体是NP-complete的, 并提出了一种新的mixed-integer programming (MIP) formulation, 同时引入了一个基于物理的实例生成器用于算法评估.

Mathematical Foundations of Modeling ETL Process Chains

Levin Maier et al.

cs.DC cs.DB cs.LG math.OC

本文为ETL(Extract-Transform-Load)流程链开发了一个基于有向无环图和离散时间Markov过程的数学模型, 用于模拟资源分配与整体吞吐量之间的关系. 该模型结合了均值处理时间与重尾分布来描述随机性, 为基于学习和控制的资源分配提供了基础.

Generative AI in Action: Field Experimental Evidence from Alibaba's Customer Service Operations

Xiao Ni et al.

cs.HC cs.AI

本文通过一项与阿里巴巴合作的大规模现场实验, 评估了生成式AI助手对电商售后客服人员工作绩效的影响. 研究发现, AI助手显著提升了服务速度, 并改善了主观服务质量, 但对客观服务质量无显著影响, 且效果因员工绩效水平而异.

Interview-Informed Generative Agents for Product Discovery: A Validation Study

Zichao Wang, Alexa Siu

cs.HC cs.AI

本文探讨了使用基于访谈信息构建的生成式智能体(agent)来模拟用户在概念测试场景中的反馈. 研究发现, 这类智能体能够近似群体层面的响应分布, 但无法精确复现特定个体的真实反应.

Perfecting Human-AI Interaction at Clinical Scale. Turning Production Signals into Safer, More Human Conversations

Subhabrata Mukherjee et al.

cs.HC cs.AI cs.CL cs.MA

本文介绍了一个用于医疗对话AI系统的生产验证框架, 该框架利用来自大量真实患者-AI交互的实时信号(如副语言特征, 话轮转换动态等)进行训练和评估, 以提升安全性, 可靠性和患者体验. 通过部署验证, 该系统在临床安全评分和减少语音识别错误方面取得了显著改进.

Less Is More? Selective Visual Attention to High-Importance Regions for Multimodal Radiology Summarization

Mst. Fahmida Sultana Naznin et al.

cs.CV cs.CL

本文提出了一种用于放射学报告总结的多模态方法 ViTAS, 它通过选择性关注与病理相关的图像区域来减少视觉噪声. 该方法在 MIMIC-CXR 基准测试中取得了优于现有方法的结果, 表明更少但更相关的视觉输入对于总结任务更为有效.

$p$-adic Character Neural Network

Tomoki Mihara

math.NT cs.LG

本文提出了一种新的$p$-adic neural network框架，使用单射的$p$-adic character作为激活函数，替代了原有的基于一族特征函数的方法。作者证明了该框架的$p$-adic universal approximation theorem，并将其可行性归结为有限环上的多项式方程求解问题。

SISA: A Scale-In Systolic Array for GEMM Acceleration

Luigi Altamura et al.

cs.AR cs.AI

本文提出了一种名为SISA的新型脉动阵列架构, 通过将传统的方形阵列划分为水平矩形块来提升GEMM操作的执行效率. 该设计特别针对LLM等负载中常见的小型或非方形矩阵, 在保持硬件规模不变的情况下实现了显著的性能提升和能耗降低.

Training deep learning based dynamic MR image reconstruction using synthetic fractals

Anirudh Raman et al.

cs.CV cs.AI

本文探讨了使用合成分形数据训练深度学习模型进行动态MRI重建的可行性. 研究通过模拟多线圈采集生成训练数据, 并与使用真实心脏MRI数据训练的模型进行对比, 结果表明两者在图像质量和临床测量指标上表现相当.

End-to-End Image Compression with Segmentation Guided Dual Coding for Wind Turbines

Raül Pérez-Gonzalo et al.

cs.CV cs.AI cs.LG

本文提出了一种用于风力涡轮机检测的端到端深度学习图像压缩框架, 该框架联合执行分割与双模式(有损/无损)压缩. 通过一个分割网络精确识别叶片区域(ROI), 并使用基于hyperprior的自编码器和扩展的bits-back编码器分别对ROI进行高质量有损压缩和完全无损重建, 同时高效压缩背景区域.

Bethe Ansatz with a Large Language Model

Balázs Pozsgay, István Vona

cond-mat.stat-mech cs.AI hep-th

本文探讨了使用大型语言模型(LLM)来执行数学物理中的特定计算任务, 即计算选定可积自旋链模型的坐标Bethe Ansatz解. 研究人员选择了三个未发表解的可积Hamiltonian, 其中两个是新的, 并观察到LLM能够半自主地完成任务, 尽管过程中出现了一些需要人工纠正的错误. 最终结果通过精确对角化和作者检查得到了验证.

Rethinking AI Literacy Education in Higher Education: Bridging Risk Perception and Responsible Adoption

Shasha Yu, Fiona Carroll, Barry L. Bentley

cs.CY cs.AI

本文通过问卷调查分析了高等教育中技术专业学生对AI风险的认知与采用意愿之间的关系. 研究发现, 学生的显性风险认知与场景化风险评估存在差距, 且风险感知与采用意愿呈负相关, 这为制定差异化的AI素养教育策略提供了依据.

Better than Average: Spatially-Aware Aggregation of Segmentation Uncertainty Improves Downstream Performance

Vanessa Emanuela Guarino et al.

cs.CV cs.LG

本文系统研究了图像分割不确定性量化中, 将像素级不确定性聚合为图像级分数的各种策略. 通过分析现有聚合方法的局限并引入考虑空间结构的新策略, 论文在多个数据集上评估了它们对分布外检测和故障检测等下游任务性能的影响, 发现利用空间结构的聚合器表现更优, 并最终提出了一个能整合多种聚合器的鲁棒元聚合器.

Four Generations of Quantum Biomedical Sensors

Xin Jin et al.

quant-ph cs.AI

本文提出了一个基于量子资源利用的四代量子生物医学传感器分类框架. 该框架从利用离散能级的第一代设备, 到利用量子相干性达到标准量子极限的第二代, 再到利用纠缠和自旋压缩接近海森堡极限精度的第三代, 最后定义了将量子传感与量子学习进行端到端集成的第四代. 文章分析了带宽匹配等关键参数, 并提出了从测量物理可观测量到提取结构化生物信息的路线图.

Think Anywhere in Code Generation

Xue Jiang et al.

cs.SE cs.LG

本文提出了一种名为Think-Anywhere的新推理机制，允许大型语言模型在代码生成的任意位置按需进行思考。该方法结合了冷启动训练和基于结果的强化学习，以自适应地分配推理努力。实验表明，该方法在多个代码生成基准测试上取得了先进的性能。

Trimodal Deep Learning for Glioma Survival Prediction: A Feasibility Study Integrating Histopathology, Gene Expression, and MRI

Iain Swift, JingHua Ye

cs.CV cs.AI

本文探讨了将FLAIR MRI作为第三模态整合到脑胶质瘤生存预测的深度学习框架中的可行性. 在TCGA-GBMLGG队列中, 三模态早期融合取得了探索性的最佳性能, 但受限于小样本量, 其相对于双模态基线的提升在统计上不显著.

Do covariates explain why these groups differ? The choice of reference group can reverse conclusions in the Oaxaca-Blinder decomposition

Manuel Quintero et al.

stat.ME cs.LG econ.EM stat.ML

本文探讨了Oaxaca-Blinder分解中参考组选择对结论的影响。研究发现，参考组的选择可能导致实质不同的结论，但这种现象在真实数据分析中并不常见。

Phyelds: A Pythonic Framework for Aggregate Computing

Gianluca Aguzzi et al.

cs.SE cs.AI cs.PL

本文介绍了 Phyelds, 一个用于 aggregate programming 的 Python 库. 它旨在通过提供 Pythonic 的 API 和与 Python 机器学习生态系统的集成, 来填补现有实现与数据科学实践者之间的鸿沟.

Scalable AI-assisted Workflow Management for Detector Design Optimization Using Distributed Computing

Derek Anderson et al.

cs.DC cs.AI

本文介绍了一个用于探测器设计优化的AI辅助工作流管理框架. 该框架将多目标贝叶斯优化与PanDA-iDDS工作流引擎集成, 以协调跨异构资源的迭代模拟, 并在EIC的ePIC和dRICH探测器研究中进行了演示.

Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

Chong Xiang et al.

cs.CR cs.AI

本文讨论了针对AI agent中间接提示注入攻击的系统级防御策略。作者提出了三个核心观点，强调了动态重规划、受限的LLM安全决策以及人机交互的重要性。文章还指出了现有基准测试的局限性，并倡导通过系统级设计来整合规则与模型检查，以构建更安全的agent系统。

Hybrid Framework for Robotic Manipulation: Integrating Reinforcement Learning and Large Language Models

Md Saad, Sajjad Hussain, Mohd Suhaib

cs.RO cs.AI

本文提出了一种结合Reinforcement Learning (RL)和Large Language Models (LLMs)的混合框架，用于提升机器人操作任务。该框架利用LLM进行高层任务规划与自然语言理解，RL负责底层精确控制，并在仿真环境中验证了其在任务完成时间、准确性和适应性上的改进。

Automatic Identification of Parallelizable Loops Using Transformer-Based Source Code Representations

Izavan dos S. Correia, Henrique C. T. Santos, Tiago A. E. Ferreira

cs.SE cs.AI

本文提出了一种基于Transformer的源代码表示方法, 用于自动识别可并行化的循环. 该方法利用DistilBERT处理代码序列, 在合成与真实代码的数据集上取得了高准确率.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others