bluearXiv-ai - 2026-04-13

📄 所有论文 ↑ 回顶部

cs.LG

Multi-Agent Decision-Focused Learning via Value-Aware Sequential Communication ⭐ 精选

Benjamin Amoh, Geoffrey Parker, Wesley Marrero

cs.LG cs.MA

本文提出了一种名为 SeqComm-DFL 的新方法，将 sequential communication 与 decision-focused learning 统一起来，以直接优化多智能体协作的任务性能。该方法的核心是 value-aware message generation with sequential Stackelberg conditioning，即消息的生成以最大化接收者决策价值为目标，并按照优先级顺序进行，后序智能体需基于前序智能体的消息进行条件生成。作者通过扩展 Optimal Model Design 框架，结合 QMIX factorization，实现了基于隐式微分的高效端到端训练。理论分析证明了通信价值与 coordination gaps 成比例，并给出了双层优化问题 $\mathcal{O}(1/\sqrt{T})$ 的收敛率保证。在医疗协作和 StarCraft 基准测试中，该方法取得了显著优于现有方法的性能提升。

On Divergence Measures for Training GFlowNets

Tiago da Silva, Eliezer de Souza da Silva, Diego Mesquita

cs.LG cs.AI stat.ML

本文探讨了在训练Generative Flow Networks (GFlowNets)时使用不同散度度量（如Renyi-$\alpha$, Tsallis-$\alpha$, KL散度）的方法，并设计了相应的梯度估计器。研究通过引入控制变量来降低梯度方差，验证了这些方法能带来更快的收敛速度，从而缩小了GFlowNets训练与广义变分近似之间的差距。

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Ruiyao Xu, Kaize Ding

cs.LG cs.AI cs.CL

本文提出了一种名为GNN-as-Judge的新框架，用于在低资源环境下对文本属性图进行少样本半监督学习。该框架通过结合GNN的结构归纳偏置来生成可靠的伪标签，并设计了一种弱监督的LLM微调算法来减轻标签噪声的影响。

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

Abhilasha Saroj et al.

cs.LG

本文提出了一种名为MG-TuRBO的贝叶斯优化方法，用于解决高维交通仿真校准问题。该方法在84维问题上表现出优势，尤其是在结合自适应采样策略时。

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Ali Slim et al.

cs.LG cs.AI cs.PL cs.SE quant-ph

本文提出了一个用于评估基于LLM的量子代码生成能力的统一多框架基准测试QuanBench+。该基准覆盖了Qiskit, PennyLane和Cirq三个主流框架，包含42个对齐任务，并采用了包括执行测试和基于反馈的代码修复在内的评估方法。结果表明，虽然模型表现有所提升，但可靠的跨框架量子代码生成仍然是一个未解决的挑战。

Robust Reasoning Benchmark

Pavel Golikov et al.

cs.LG cs.AI cs.CL

本文提出了一种包含14种扰动技术的评估流程, 用于测试LLMs在数学推理任务上的鲁棒性. 研究发现, 尽管前沿模型表现稳健, 但开源模型在扰动下准确率会大幅下降, 并且其注意力机制在处理连续问题时会出现性能衰减.

Ranked Activation Shift for Post-Hoc Out-of-Distribution Detection

Gianluca Guglielmo, Marc Masana

cs.LG cs.CV

本文提出了一种名为Ranked Activation Shift(RAS)的超参数无关后处理OOD检测方法. 该方法通过用固定的in-distribution参考配置文件替换排序后的激活幅度, 解决了基于缩放的现有方法在激活分布不同时性能不稳定的问题. 它在多种数据集和架构上表现出一致且强大的性能, 且无需对倒数第二层的激活函数做假设.

Silhouette Loss: Differentiable Global Structure Learning for Deep Representations

Matheus Vinícius Todescato, Joel Luís Carbonera

cs.LG cs.AI cs.CV

本文提出了一种名为 Soft Silhouette Loss 的新损失函数, 用于在深度表示学习中优化嵌入空间的全局结构. 该损失函数受经典聚类指标 silhouette coefficient 启发, 通过评估每个样本与批次内所有类别的距离来鼓励类内紧凑和类间分离. 它可以与交叉熵损失结合使用, 实验表明其能提升分类性能且计算开销较低.

Distilling Genomic Models for Efficient mRNA Representation Learning via Embedding Matching

Rasched Haidari, Sam Martin, Maxime Allard

cs.LG cs.AI

本文提出了一种通过embedding匹配来蒸馏高效mRNA表示学习的框架, 将大型基因组基础模型的知识转移到专门针对mRNA序列的小型模型中. 该方法在mRNA相关任务上取得了与更大模型相竞争的性能, 为在计算资源有限时进行高效的基因组序列建模提供了一种策略.

MolPaQ: Modular Quantum-Classical Patch Learning for Interpretable Molecular Generation

Syed Rameez Naqvi, Lu Peng

cs.LG cs.AI

本文提出了一种名为MOLPAQ的模块化量子-经典混合分子生成模型。该模型通过组合量子生成的潜在片段来构建分子，在保证化学有效性的同时，实现了对分子性质的精确控制。

Distributionally Robust Token Optimization in RLHF

Yeping Jin, Jiaming Hu, Ioannis Ch. Paschalidis

cs.LG cs.AI

本文提出了一种结合token-level RLHF与DRO的Distributionally Robust Token Optimization (DRTO)方法, 旨在提升大语言模型在提示词分布变化下的鲁棒性. 该方法通过在损失小批量上构建f-divergence模糊集来约束最坏情况的token-wise奖励, 并在数学推理基准测试中提升了模型的一致性表现.

Structured Exploration and Exploitation of Label Functions for Automated Data Annotation

Phong Lam et al.

cs.LG cs.AI

本文提出了一个名为EXPONA的自动化程序化标注框架，旨在通过平衡多样性和可靠性来生成高质量的标签函数。该方法系统地探索了从表层到语义的多层次启发式规则，并应用了可靠性感知的过滤机制。实验表明，EXPONA在多个数据集上超越了现有方法，实现了更高的标签覆盖率和下游任务性能。

On the Spectral Geometry of Cross-Modal Representations: A Functional Map Diagnostic for Multimodal Alignment

Krisanu Sarkar

cs.LG cs.AI

本文利用计算几何中的 functional map 框架，分析了独立预训练的视觉与语言编码器之间的跨模态对齐。研究发现，尽管两个编码器的 Laplacian 特征值谱相似，表明其捕获的内在结构复杂度相近，但其特征向量基却几乎完全不对齐。

Fully Autonomous Z-Score-Based TinyML Anomaly Detection on Resource-Constrained MCUs Using Power Side-Channel Data

Abdulrahman Albaiz, Fathi Amsaad

cs.LG

本文提出了一种完全自主的、基于Z-Score的TinyML异常检测系统，并将其部署在低功耗微控制器上，用于利用功耗侧信道数据实时监控电器行为。该系统在资源受限的设备上独立完成训练和推断，实现了高效的异常检测。

Multivariate Time Series Anomaly Detection via Dual-Branch Reconstruction and Autoregressive Flow-based Residual Density Estimation

Jun Liu et al.

cs.LG cs.AI

本文提出了一种名为DBR-AF的新框架，用于多元时间序列异常检测。该框架通过双分支重建编码器分离变量间与变量内的建模，并使用自回归流模块对残差分布进行密度估计，以更准确地区分异常。实验表明该方法在多个基准数据集上取得了先进的性能。

CSAttention: Centroid-Scoring Attention for Accelerating LLM Inference

Chuxu Song et al.

cs.LG cs.AI

本文提出了一种名为 Centroid-Scoring Attention (CSAttention) 的训练无关稀疏注意力方法，旨在加速具有长上下文和可重用预填充提示的 LLM 推理。该方法通过离线预填充阶段构建查询中心查找表，在在线解码时用高效的表查找和 GPU 友好的分数累加替代全上下文扫描，从而显著降低解码延迟。实验表明，在高稀疏度和长上下文设置下，该方法在保持接近全注意力精度的同时，实现了显著的推理加速。

FluidFlow: a flow-matching generative model for fluid dynamics surrogates on unstructured meshes

David Ramos et al.

cs.LG cs.AI physics.flu-dyn

本文提出了一种基于conditional flow-matching的生成模型FluidFlow, 用于在结构化和非结构化网格上构建计算流体动力学(CFD)的替代模型. 该方法避免了网格插值预处理, 在两个基准测试中超越了多层感知机基线, 展示了其在工程应用中的潜力.

Act or Escalate? Evaluating Escalation Behavior in Automation with Language Models

Matthew DosSantos DiSorbo, Harang Ju

cs.LG cs.AI

本文提出了一个基于不确定性决策的框架, 用于评估大型语言模型在自动化任务中的"行动或升级"行为. 研究发现模型的升级阈值存在显著差异且难以预测, 而通过监督微调等方法可以训练出更鲁棒的决策策略.

EngageTriBoost: Predictive Modeling of User Engagement in Digital Mental Health Intervention Using Explainable Machine Learning

Ha Na Cho et al.

cs.LG

本文应用可解释机器学习方法EngageTriBoost预测了数字心理健康干预中的用户参与度, 并通过SHAP分析识别了影响参与的关键行为因素.

AlphaLab: Autonomous Multi-Agent Research Across Optimization Domains with Frontier LLMs

Brendan R. Hogan et al.

cs.LG cs.AI

本文介绍了一个名为AlphaLab的自主研究系统, 该系统利用前沿LLM的智能体能力, 在定量计算密集型领域自动化完整的实验周期. 该系统在无需人工干预的情况下, 通过数据探索, 评估框架构建和大规模实验三个阶段, 在CUDA内核优化, LLM预训练和交通预测等多个领域取得了优于基准方法的性能.

From Dispersion to Attraction: Spectral Dynamics of Hallucination Across Whisper Model Scales

Ivan Viakhirev, Kirill Borodin, Grach Mkrtchian

cs.LG cs.AI

本文通过分析Whisper模型在对抗压力下的activation graphs的eigenspectra，验证了所提出的Spectral Sensitivity Theorem。该理论预测了深度网络从分散状态到吸引状态的相变，研究结果表明不同规模的模型表现出不同的结构动力学。

Reservoir observer enhanced with residual calibration and attention mechanism

Yichen Liu, Wei Xiao, Tianguang Chu

cs.LG nlin.CD

本文提出了一种结合残差校准和注意力机制的reservoir observer，用于从观测变量推断非线性动力系统的未测量变量。该方法提升了传统reservoir observer的推断精度和鲁棒性，特别是在传统方法表现最差的情况下。

Joint Interference Detection and Identification via Adversarial Multi-task Learning

H. Xu, B. He, S. Wang

cs.LG cs.AI cs.CR cs.IT

本文提出了一种基于对抗多任务学习的联合干扰检测与识别方法. 该方法通过理论推导将多任务学习性能与任务相似性联系起来, 并设计了相应的网络架构以动态建模任务关系. 实验表明, 该方法在数据有限等挑战性条件下, 其鲁棒性和泛化能力优于现有的单任务及多任务基线模型.

From Selection to Scheduling: Federated Geometry-Aware Correction Makes Exemplar Replay Work Better under Continual Dynamic Heterogeneity

Zhuang Qi et al.

cs.LG cs.AI cs.CV

本文提出了一种名为FEAT的联邦几何感知校正方法, 用于改进联邦持续学习中的范例回放策略. 该方法通过几何结构对齐和基于能量的几何校正模块, 旨在缓解类别不平衡导致的表示崩溃问题, 从而提升模型在动态异构环境下的鲁棒性.

StructRL: Recovering Dynamic Programming Structure from Learning Dynamics in Distributional Reinforcement Learning

Ivo Nowak

cs.LG cs.AI

本文通过分析 distributional reinforcement learning 中 return distributions 的时间演化，提出了一种从学习动态中恢复动态规划结构的方法。作者引入了 temporal learning indicator $t^*(s)$ 来捕捉状态空间中的学习信号，并基于此提出了 StructRL 框架来指导采样。

Practical Bayesian Inference for Speech SNNs: Uncertainty and Loss-Landscape Smoothing

Yesmine Abdennadher, Philip N. Garner

cs.LG cs.AI

本文探讨了贝叶斯学习方法对脉冲神经网络(SNNs)预测景观的影响. 实验表明, 该方法能平滑损失景观并提升在语音数据集上的校准性能.

Evidential Transformation Network: Turning Pretrained Models into Evidential Models for Post-hoc Uncertainty Estimation

Yongchan Chun et al.

cs.LG cs.AI

本文提出了一种名为 Evidential Transformation Network (ETN) 的后处理模块, 用于为预训练模型提供不确定性估计. 该方法通过学习一个样本依赖的仿射变换, 将模型输出的 logits 解释为 Dirichlet 分布的参数, 从而以较低的计算开销实现有效的置信度度量.

VOLTA: The Surprising Ineffectiveness of Auxiliary Losses for Calibrated Deep Learning

Rahul D Ray, Utkarsh Srivastava

cs.LG cs.AI cs.CV

本文通过一个简化的VOLTA模型与十种主流不确定性量化方法进行对比, 发现仅使用深度编码器, 可学习原型, 交叉熵损失和后处理温度缩放的VOLTA在多个数据集上取得了具有竞争力的准确率, 更低的预期校准误差和较强的分布外检测能力. 结果表明VOLTA是一种轻量, 确定且校准良好的替代方案.

Creator Incentives in Recommender Systems: A Cooperative Game-Theoretic Approach for Stable and Fair Collaboration in Multi-Agent Bandits

Ramakrishnan Krishnamurthy et al.

cs.LG cs.CY cs.GT cs.SI

本文采用可转移效用合作博弈论框架，将推荐系统中的多智能体随机线性bandit问题建模为合作博弈，其中联盟的价值定义为成员累积遗憾的负和。研究表明，在智能体同质且动作集固定的条件下，该博弈是凸的，从而保证了包含Shapley值的非空核心，并提出了一个基于遗憾的支付规则来处理异质智能体的情况。

PRAGMA: Revolut Foundation Model

Maxim Ostroukhov et al.

cs.LG cs.CE cs.CL cs.IR q-fin.CP

本文提出了一个名为PRAGMA的金融事件序列基础模型家族, 使用基于Transformer的架构在大规模、异构的银行事件语料库上进行掩码建模预训练. 该模型能够从原始事件序列中提取通用表示, 并通过简单的线性分类器或轻量微调, 在信用评分、欺诈检测等多个下游金融任务上取得良好性能.

Skip-Connected Policy Optimization for Implicit Advantage

Fengwei Teng et al.

cs.LG cs.CL

本文针对强化学习中的推理任务, 提出了一种名为Skip-Connected Policy Optimization (SKPO)的新方法. 该方法通过将推理过程分解为上游和下游阶段, 并引入跳跃连接, 旨在缓解密集奖励带来的优势估计方差问题, 从而在多个数学和代码生成基准上取得了性能提升.

EvoLen: Evolution-Guided Tokenization for DNA Language Model

Nan Huang et al.

cs.LG q-bio.GN

本文提出了一种名为EvoLen的DNA序列tokenization方法, 该方法将进化信息直接整合到tokenization过程中. EvoLen通过进化分层和长度感知解码来更好地保留motif尺度的功能序列单元, 在多个DNA语言模型基准测试中表现与标准BPE相当或更优.

Efficient RL Training for LLMs with Experience Replay

Charles Arnal et al.

cs.LG

本文研究了在大型语言模型(LLM)后训练中使用经验回放(Experience Replay)的可行性。通过系统性的分析，作者证明了在生成成本高昂时，严格使用在线策略数据并非最优，并展示了设计良好的回放缓冲区可以在不损失模型性能的情况下显著减少推理计算开销。

Every Response Counts: Quantifying Uncertainty of LLM-based Multi-Agent Systems through Tensor Decomposition

Tiejin Chen et al.

cs.LG cs.AI cs.CL

本文提出了一种名为MATU的框架, 用于量化基于LLM的多智能体系统的不确定性. 该方法通过将多次运行的推理轨迹构建为高阶张量并进行张量分解, 来分离和量化不同来源的不确定性.

Wireless Communication Enhanced Value Decomposition for Multi-Agent Reinforcement Learning

Diyi Hu, Bhaskar Krishnamachari

cs.LG

本文提出了一种名为CLOVER的多智能体强化学习框架, 通过将集中式价值混合器与真实无线信道下的通信图条件化, 改进了价值分解方法. 在Predator-Prey和Lumberjacks基准测试中, 该框架在收敛速度和最终性能上均优于现有基线方法.

A Little Rank Goes a Long Way: Random Scaffolds with LoRA Adapters Are All You Need

Hananel Hazan et al.

cs.LG cs.NE

本文提出了一种名为LottaLoRA的训练范式, 其核心思想是使用完全随机初始化并冻结的神经网络主干, 仅训练低秩的LoRA适配器. 实验表明, 这种方法在多个基准测试中能以极少的可训练参数恢复接近完全训练的性能, 揭示了任务特定信息仅占据参数空间的一个极小子空间.

Adversarial Sensor Errors for Safe and Robust Wind Turbine Fleet Control

Julian Quick et al.

cs.LG eess.SY

本文提出了一种通过对抗性训练来增强风电场中央控制器鲁棒性的框架. 该方法训练一个对抗智能体来干扰控制器, 并比较了三种协同训练策略, 发现"军备竞赛"方法能有效提升系统在最坏情况下的性能.

IKKA: Inversion Classification via Critical Anomalies for Robust Visual Servoing

Darya Pavlenko

cs.LG

本文提出了一种名为IKKA的加权框架, 用于提升视觉伺服在分布偏移下的鲁棒性. 该方法通过结合局部极值性, 边界横截性和多尺度持续性来识别和加权异常点, 并在嵌入式平台上验证了其有效性.

Adaptive Simulation Experiment for LLM Policy Optimization

Mingjie Hu et al.

cs.LG

本文提出了一种基于成对比较的自适应仿真实验框架LLM-PO, 用于从有限候选策略中为大语言模型(LLM)选择最优策略. 该方法在非结构化和结构化两种策略空间下均能渐近达到理论所需的最小数据量, 并通过数值实验验证了其优于基准方法的性能.

$p1$: Better Prompt Optimization with Fewer Prompts

Zhaolin Gao et al.

cs.LG cs.CL

本文提出了一种名为$p1$的用户提示过滤方法, 用于改进大语言模型的提示优化. 该方法通过选择在候选系统提示间方差较高的用户提示子集, 使得系统优化更容易, 并在推理基准测试中取得了优于基线方法的效果.

Alleviating Community Fear in Disasters via Multi-Agent Actor-Critic Reinforcement Learning

Yashodhan D. Hakke et al.

cs.LG eess.SY

本文提出了一种基于多智能体actor-critic强化学习的方法，用于在灾害期间减轻社区恐惧。该方法将灾害下的物理-信息-社会耦合系统建模为一个三玩家非零和微分博弈，并通过在线学习进行求解。模拟结果表明，该方法能有效降低恐惧并改善基础设施恢复。

Smartwatch-Based Sitting Time Estimation in Real-World Office Settings

Olivia Zhang, Zhilin Zhang

cs.LG cs.HC

本文提出了一种利用智能手表IMU信号估计办公室环境中久坐时间的方法. 该方法引入了基于Euler angles的rotation vector sequences作为运动动态的新表征, 并在一个34小时的数据集上验证了其有效性.

Structural Evaluation Metrics for SVG Generation via Leave-One-Out Analysis

Haonan Zhu et al.

cs.LG stat.AP

本文提出了一种基于 leave-one-out (LOO) 分析的结构化评估方法, 用于评价 SVG (Scalable Vector Graphics) 生成模型. 该方法通过移除单个元素并测量视觉变化, 得到了一系列量化 SVG 模块化特性的指标.

Loom: A Scalable Analytical Neural Computer Architecture

Mehmet Kerem Turkcan

cs.LG

本文提出了一种名为 Loom 的可扩展分析神经计算机架构. 该架构使用一个权重由解析方法导出的循环 Transformer 来执行从 C 语言编译的程序, 其计算成本固定且独立于程序长度.

HiFloat4 Format for Language Model Pre-training on Ascend NPUs

Mehran Taghian et al.

cs.LG cs.AI cs.CL

本文在华为Ascend NPU上系统评估了HiFloat4这一4-bit浮点格式，并与MXFP4格式进行了比较。研究在密集模型和MoE模型上进行了大规模训练实验，并探索了针对FP4训练的稳定化技术，以在保持计算效率的同时减少数值误差。

Post-Hoc Guidance for Consistency Models by Joint Flow Distribution Learning

Chia-Hong Hsu, Randall Balestriero

cs.LG cs.CV

本文提出了一种名为Joint Flow Distribution Learning (JFDL)的后处理方法, 使预训练的Consistency Models (CMs)能够实现类似Diffusion Models中Classifier-free Guidance (CFG)的可调节引导生成. 该方法无需依赖额外的Diffusion Model教师模型进行知识蒸馏.

Hierarchical Kernel Transformer: Multi-Scale Attention with an Information-Theoretic Approximation Analysis

Giansalvo Cirrincione

cs.LG cs.NE stat.ML

本文提出了Hierarchical Kernel Transformer (HKT), 一种多尺度注意力机制. 它通过可训练的因果下采样在多个分辨率级别处理序列, 并以有界计算开销在多个序列建模任务上超越了标准注意力基线.

Discrete Meanflow Training Curriculum

Chia-Hong Hsu, Frank Wood

cs.LG

本文提出了一种名为"Discrete Meanflow" (DMF)的训练课程，用于显著降低训练Meanflow模型的算力和数据需求。该方法从一个预训练的Flow模型初始化，在CIFAR-10数据集上仅用2000个epoch就达到了单步采样的FID分数3.36。

Spectral Geometry of LoRA Adapters Encodes Training Objective and Predicts Harmful Compliance

Roi Paul

cs.LG

本文通过分析LoRA适配器权重增量的低秩谱特征, 研究了其与微调目标及下游有害行为之间的关联. 实验表明, 在特定训练方法(如DPO)内部, 谱几何特征能近乎完美地区分目标并预测行为危害, 但该方法在不同训练方法间缺乏泛化能力.

Dictionary-Aligned Concept Control for Safeguarding Multimodal LLMs

Jinqi Luo et al.

cs.LG cs.AI cs.CL cs.CV

本文提出了一种名为Dictionary-Aligned Concept Control (DACO)的框架，用于提升多模态大语言模型(MLLMs)的安全性。该方法通过构建一个包含15,000个多模态概念的数据集和训练一个稀疏自编码器(SAE)，在模型推理时对激活进行细粒度干预，从而在不影响模型通用能力的前提下有效抵御恶意查询。

Finite-Sample Analysis of Nonlinear Independent Component Analysis:Sample Complexity and Identifiability Bounds

Yuwen Jiang

cs.LG

本文对使用神经网络编码器的非线性ICA进行了有限样本分析, 提供了样本复杂度和可识别性界限的完整刻画. 理论分析建立了超额风险与识别误差的直接联系, 并证明了匹配的信息论下界, 同时将结果扩展到SGD优化场景.

Temporal Dropout Risk in Learning Analytics: A Harmonized Survival Benchmark Across Dynamic and Early-Window Representations

Rafael da Silva, Jeff Eicher, Gregory Longo

cs.LG cs.AI

本文在Learning Analytics领域提出了一个用于时序辍学风险建模的生存分析基准, 比较了动态周级表示和连续时间表示两种范式下的多种模型. 评估表明, 随机生存森林和泊松分段指数模型分别在两种表示下表现较好, 并且分析一致发现辍学风险主要与学生的时序行为信号相关, 而非静态背景属性.

How does Chain of Thought decompose complex tasks?

Amrut Nadgir, Vijay Balasubramanian, Pratik Chaudhari

cs.LG cond-mat.dis-nn cond-mat.stat-mech

本文研究了 chain-of-thought (CoT) 如何通过任务分解提升语言模型的分类性能. 作者发现, 将复杂任务分解为一系列较小分类问题(即构建树状结构)可以显著降低预测误差, 并存在一个最优的思考深度.

A Mathematical Framework for Temporal Modeling and Counterfactual Policy Simulation of Student Dropout

Rafael da Silva, Jeff Eicher, Gregory Longo

cs.LG cs.AI

本文提出了一个用于高等教育学生辍学问题的时间建模框架，并包含一个反事实政策模拟层。该模型基于LMS参与数据和行政记录，将辍学视为时间-事件（time-to-event）结果，使用惩罚类平衡逻辑回归进行离散时间风险建模。框架包含一个政策模拟层，用于在观测数据限制下进行内部结构性情景比较，但结果不具有因果识别性。

Revisiting the Capacity Gap in Chain-of-Thought Distillation from a Practical Perspective

Tokio Kajitsuka, Ukyo Honda, Sho Takase

cs.LG cs.AI cs.CL

本文从实践角度重新审视了CoT蒸馏中的能力差距问题, 发现当仅报告蒸馏后比较时, 性能下降问题可能被掩盖. 作者提出了一个更现实的评估协议, 并发现能力差距的影响在不同任务和设置中并不总占主导地位.

Uncertainty-Aware Transformers: Conformal Prediction for Language Models

Abhiram Vellore, Niraj K. Jha

cs.LG

本文提出了一个名为CONFIDE的框架, 用于为基于Transformer的语言模型(如BERT, RoBERTa)提供不确定性量化. 该框架将conformal prediction应用于模型的内部embeddings, 以生成具有统计保证的预测集和实例级解释, 在资源受限和高风险任务中表现出鲁棒性.

A Closer Look at the Application of Causal Inference in Graph Representation Learning

Hang Gao et al.

cs.LG cs.AI

本文探讨了在graph representation learning中应用causal inference时，因聚合graph elements而可能违反causal validity假设的问题。作者提出了一个基于最小不可分单元的理论模型，并分析了实现精确因果建模的成本与简化条件。

Adaptive Candidate Point Thompson Sampling for High-Dimensional Bayesian Optimization

Donney Fan, Geoff Pleiss

cs.LG

本文提出了一种名为 Adaptive Candidate Thompson Sampling (ACTS) 的新方法，用于高维贝叶斯优化。该方法通过利用代理模型样本的梯度自适应地生成候选点，从而在采样过程中缩小搜索空间，有效缓解了高维情况下候选点稀疏的问题。

Using Synthetic Data for Machine Learning-based Childhood Vaccination Prediction in Narok, Kenya

Jimmy Bach et al.

cs.LG

本文应用Logistic Regression和XGBoost等机器学习模型，对肯尼亚Narok地区的儿童疫苗接种记录进行风险预测。研究同时采用了基于扩散模型的TabSyn方法生成合成数据，以在保持预测性能的同时保护患者隐私。

Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning

Taojie Zhu et al.

cs.LG

本文提出了一个名为DYPO的统一框架, 旨在调和大型语言模型后训练中监督微调(SFT)与强化学习(RL)之间的偏差-方差权衡. 该框架通过动态门控机制自适应地结合两种范式, 在多个推理基准上取得了性能提升.

Delve into the Applicability of Advanced Optimizers for Multi-Task Learning

Zhipeng Zhou et al.

cs.LG

本文探讨了在Multi-Task Learning (MTL)中使用advanced optimizers（如Muon）时遇到的适用性问题。作者提出了一个名为APT的框架来改善MTL方法与这些优化器的协同效果。

Predictive Entropy Links Calibration and Paraphrase Sensitivity in Medical Vision-Language Models

Binesh Sadanandan, Vahid Behzadan

cs.LG

本文研究了医学视觉语言模型(VLMs)中置信度校准不足和对问题重述敏感这两个失败模式之间的联系. 通过基准测试多个不确定性量化方法, 发现预测熵(predictive entropy)可以同时识别不可靠预测和对重述敏感的样本.

WOMBET: World Model-based Experience Transfer for Robust and Sample-efficient Reinforcement Learning

Mintae Kim, Koushil Sreenath

cs.LG cs.AI cs.RO

本文提出了一个名为WOMBET的强化学习框架，用于从源任务向目标任务进行经验迁移。该框架通过联合优化数据生成与利用过程，在连续控制基准测试中提升了样本效率和最终性能。

Efficient Hierarchical Implicit Flow Q-learning for Offline Goal-conditioned Reinforcement Learning

Zhiqiang Dong et al.

cs.LG

本文提出了一种用于离线目标条件强化学习的高效分层隐式流Q学习方法. 该方法通过引入平均速度场来建模分层策略, 并利用LeJEPA损失来改进目标表示, 在基准测试中取得了良好性能.

Modality-Aware Zero-Shot Pruning and Sparse Attention for Efficient Multimodal Edge Inference

Yueyuan Sui et al.

cs.LG

本文提出了一种名为SentryFuse的框架，用于在边缘设备上实现高效的多模态推理。该框架包含无需微调的剪枝方法和稀疏注意力机制，以应对动态功耗和传感器丢失的挑战。

Neighbourhood Transformer: Switchable Attention for Monophily-Aware Graph Learning

Yi Luo et al.

cs.LG cs.AI

本文提出了一种名为Neighbourhood Transformer (NT) 的新图神经网络范式，用于处理异配性图。它通过在每个局部邻域内应用自注意力机制，而非传统的消息传递，来更好地捕捉节点间的复杂关系。为了提升效率，文中还引入了邻域划分和可切换注意力策略，显著降低了计算开销。

Identification and Anonymization of Named Entities in Unstructured Information Sources for Use in Social Engineering Detection

Carlos Jimeno Miguel, Raul Orduna, Francesco Zola

cs.LG cs.AI

本文提出了一套用于网络犯罪分析的数据集构建系统, 重点在于处理Telegram平台的多模态数据(文本, 音频, 图像)并满足GDPR等数据保护法规. 系统评估了包括Microsoft Presidio和基于transformer架构的AI模型在内的多种命名实体识别(NER)方案, 并引入了衡量数据结构性保持的匿名化指标.

The nextAI Solution to the NeurIPS 2023 LLM Efficiency Challenge

Gyuwon Park et al.

cs.LG

本文介绍了参与NeurIPS 2023 LLM效率挑战的方案, 使用QLoRA fine-tuning和Flash Attention 2等技术, 在单GPU资源限制下对LLaMa2 70B模型进行了优化. 最终得到的模型在多个QA基准测试上展现了较高的准确性.

U-Cast: A Surprisingly Simple and Efficient Frontier Probabilistic AI Weather Forecaster

Salva Rühling Cachay, Duncan Watson-Parris, Rose Yu

cs.LG cs.AI physics.ao-ph stat.ML

本文提出了一种名为U-Cast的简单高效的AI概率天气预报模型。该模型基于标准U-Net架构，通过先确定性预训练再概率微调的简单方法，在降低计算成本的同时达到了前沿的预报性能。

PDE-regularized Dynamics-informed Diffusion with Uncertainty-aware Filtering for Long-Horizon Dynamics

Min Young Baeg, Yoon-Yeong Kim

cs.LG cs.AI

本文提出了一种结合PDE正则化与不确定性感知滤波的扩散模型框架, 用于长期时空预测. 该方法通过PDE约束的插值器和UKF预测器来提升物理一致性与稳定性, 并在多个动力学数据集上验证了其性能.

Feature-Label Modal Alignment for Robust Partial Multi-Label Learning

Yu Chen et al.

cs.LG

本文提出了一种基于特征-标签模态对齐的PML方法, 通过低秩正交分解生成伪标签以过滤噪声, 并在全局子空间投影和局部邻域结构保持两个层面进行对齐. 该方法还结合了多峰值类原型学习机制, 利用伪标签作为软成员权重来增强多标签分类的判别性.

Temporal Patch Shuffle (TPS): Leveraging Patch-Level Shuffling to Boost Generalization and Robustness in Time Series Forecasting

Jafar Bakhshaliyev et al.

cs.LG

本文提出了一种名为 Temporal Patch Shuffle (TPS) 的数据增强方法，用于提升时间序列预测模型的泛化性和鲁棒性。该方法通过提取并部分重排时间片段来增加数据多样性，同时保持局部时序结构，并在多个数据集和模型上验证了其有效性。

Beyond Isolated Clients: Integrating Graph-Based Embeddings into Event Sequence Models

Harry Proshian et al.

cs.LG cs.AI

本文提出了三种模型无关的策略, 将用户-物品交互图的全局结构信息整合到对比自监督学习的事件序列模型中. 在金融和电商数据集上的实验表明, 该方法能提升预测准确性, 并且图密度是选择最佳整合策略的关键因素.

Synthesizing real-world distributions from high-dimensional Gaussian Noise with Fully Connected Neural Network

Joanna Komorniczak

cs.LG

本文提出了一种基于全连接神经网络和随机化损失函数的时间高效合成数据生成方法, 用于将高维高斯噪声转换为近似真实世界数据分布的合成数据. 在25个多样化表格数据集上的实验表明, 该方法在分布相似性上超越了现有生成方法, 并且计算速度显著快于现代深度学习方案.

GeoPAS: Geometric Probing for Algorithm Selection in Continuous Black-Box Optimisation

Jiabao Brad Wang et al.

cs.LG math.OC

本文提出了一种名为GeoPAS的几何探测方法，用于连续黑盒优化中的算法选择。该方法通过多尺度二维切片来表征问题实例，并利用卷积编码器进行特征提取和风险感知的求解器选择。实验表明，该方法在多种评估设置下优于单一最佳求解器。

EquiformerV3: Scaling Efficient, Expressive, and General SE(3)-Equivariant Graph Attention Transformers

Yi-Lun Liao et al.

cs.LG cs.AI physics.comp-ph

本文提出了EquiformerV3，这是SE(3)-等变图注意力Transformer的第三代模型，旨在提升效率、表达能力和通用性。它通过软件优化、架构改进（如合并层归一化和平滑截断注意力）以及新的激活函数SwiGLU-$S^2$来增强性能，在多个基准测试中取得了先进的结果。

Score-Driven Rating System for Sports

Vladimír Holý, Michal Černý

cs.LG stat.ME

本文提出了一种基于score-driven的评分系统, 作为经典Elo系统的推广. 该系统利用score(即对数似然的梯度)来更新选手或队伍的评分, 能够处理多种比赛结果类型, 并具有理论上的良好性质.

CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation

Yushi Feng et al.

cs.LG cs.AI

本文提出了一种用于图形用户界面(GUI)自动化代理的安全保障框架CORA, 它通过Conformal Risk Control方法为执行动作提供统计风险保证. 该框架包含Guardian和Diagnostician模型, 并在新的基准Phone-Harm上验证了其有效性.

Truncated Rectified Flow Policy for Reinforcement Learning with One-Step Sampling

Xubin Zhou, Yipeng Yang, Zhan Li

cs.LG

本文提出了一种基于截断整流流策略的强化学习框架, 旨在解决最大熵强化学习中连续时间生成策略的似然与熵难以处理, 以及多步采样导致训练不稳定和推理延迟高的问题. 该方法在多个基准测试中展现出有效捕捉多模态行为的能力.

Automated Batch Distillation Process Simulation for a Large Hybrid Dataset for Deep Anomaly Detection

Jennifer Werner et al.

cs.LG

本文提出了一种用于化工过程深度异常检测的大型混合数据集构建方法. 该方法通过一个自动化的模拟工作流程, 将实验数据与基于定制化 index-reduction 策略的模拟数据相结合.

Generalization and Scaling Laws for Mixture-of-Experts Transformers

Mansour Zoubeirou a Mayaki

cs.LG cs.AI math.ST stat.ML

本文为Mixture-of-Experts (MoE) Transformers建立了泛化与缩放的理论框架。通过分离激活参数与路由组合，推导了泛化界并分析了模型尺寸、数据尺寸与计算效率之间的缩放规律。

On the Role of DAG topology in Energy-Aware Cloud Scheduling : A GNN-Based Deep Reinforcement Learning Approach

Anas Hattay et al.

cs.LG cs.AI

本文研究了基于图神经网络(GNN)的深度强化学习调度器在云工作流调度中的表现. 通过分析发现, 当训练与部署环境存在结构不匹配时, 调度器的性能会因消息传递机制被破坏而下降, 揭示了当前方法在分布偏移下的局限性.

Statistical Properties of the King Wen Sequence: An Anti-Habituation Structure That Does Not Improve Neural Network Training

Augustin Chan

cs.LG cs.AI cs.NE

本文对《易经》中的文王卦序进行了统计特性分析, 发现其具有高于随机水平的转移距离等显著统计特征. 随后通过一系列神经网络训练实验(如学习率调制, 课程排序)检验了该序列是否有助于模型训练, 结果均显示其性能反而下降, 作者将其归因于序列的高方差破坏了梯度优化的稳定性.

DiffHLS: Differential Learning for High-Level Synthesis QoR Prediction with GNNs and LLM Code Embeddings

Zedong Peng et al.

cs.LG

本文提出了一种名为DiffHLS的差分学习框架，用于预测高层次综合(HLS)的质量结果(QoR)。该方法结合了图神经网络(GNN)和预训练代码大语言模型(LLM)的代码嵌入，通过联合预测内核基线和设计变体之间的差异来提升预测精度。在PolyBench基准测试上的实验表明，该方法优于仅使用GNN的基线模型。

Nexus: Same Pretraining Loss, Better Downstream Generalization via Common Minima

Huanran Chen et al.

cs.LG

本文提出了一种名为 Nexus 的优化器，用于改进大型语言模型的预训练过程。该优化器通过最大化不同数据源梯度间的相似性，促使模型收敛到一个各任务损失最小值更接近的共同最小值区域，从而在保持相同预训练损失的情况下，显著提升了模型在下游任务，特别是复杂推理任务上的泛化性能。

The causal relation between off-street parking and electric vehicle adoption in Scotland

Bernardino D'Amico, Achille Fonzone, Emma Hart

cs.LG

本文应用概率因果框架分析了苏格兰家庭数据, 发现私人路外停车位主要通过加速已有经济能力家庭的购买决策来促进电动汽车采用, 而家庭收入才是决定市场参与的根本因素. 研究指出传统观测模型高估了停车基础设施的独立效应, 并建议了双轨政策策略.

Distributed Online Convex Optimization with Compressed Communication: Optimal Regret and Applications

Sifan Yang, Dan-Yue Li, Lijun Zhang

cs.LG

本文研究了分布式在线凸优化中的压缩通信问题, 建立了凸和强凸损失函数下的regret下界, 并提出了一种结合error feedback和在线压缩策略的最优算法. 该算法可推广到离线随机设置, 为带压缩通信和域约束的分布式非光滑优化提供了首个收敛性保证.

Are Independently Estimated View Uncertainties Comparable? Unified Routing for Trusted Multi-View Classification

Yilin Zhang et al.

cs.LG

本文针对可信多视图分类中独立估计的视图不确定性可能不可比的问题, 提出了一种名为TMUR的新方法. 该方法通过一个统一的router来协调多个视图专家和一个协作专家, 旨在解耦证据提取与融合仲裁, 以生成更可靠的样本级预测.

Meta-Learned Basis Adaptation for Parametric Linear PDEs

Vikas Dwivedi, Monica Sigovan, Bruno Sixou

cs.LG

本文提出了一种混合物理信息框架, 用于求解参数化线性偏微分方程族. 该方法结合了一个元学习预测器和一个最小二乘校正器, 通过预测器自适应地生成基函数几何, 并由校正器进行物理约束下的求解.

Stability Enhanced Gaussian Process Variational Autoencoders

Carl R. Richardson et al.

cs.LG eess.SY

本文提出了一种稳定性增强的高斯过程变分自编码器(SEGP-VAE), 用于从高维视频数据中间接训练一个低维线性时不变(LTI)系统. 该方法通过一个完全且无约束的参数化, 将LTI参数的搜索空间限制在半收缩系统集合内, 从而避免了非Hurwitz状态矩阵引起的数值问题, 并可使用无约束优化算法进行训练.

Hierarchical Flow Decomposition for Turning Movement Prediction at Signalized Intersections

Md Atiqur Rahman Mallick et al.

cs.LG

本文提出了一种用于信号交叉口转向运动预测的分层深度学习框架 HFD-TM. 该框架通过先预测走廊直行流量再分解为转向流量的方式, 结合物理约束的损失函数, 在真实 LiDAR 数据集上取得了优于基准模型的预测精度和计算效率.

Drift-Aware Online Dynamic Learning for Nonstationary Multivariate Time Series: Application to Sintering Quality Prediction

Yumeng Zhao, Shengxiang Yang, Xianpeng Wang

cs.LG cs.NE

本文提出了一种用于非平稳多元时间序列在线动态学习的框架, 应用于烧结质量预测. 该框架通过无监督的漂移检测和分层微调策略来应对概念漂移和标签延迟问题.

Bringing Clustering to MLL: Weakly-Supervised Clustering for Partial Multi-Label Learning

Yu Chen et al.

cs.LG

本文提出了一种用于部分多标签学习(PML)的弱监督聚类方法WSC-PML. 该方法通过将聚类隶属度矩阵分解为满足聚类约束和保持多标签特性的两部分, 将聚类与多标签学习相结合, 以处理候选标签中的噪声.

Stochastic-Dimension Frozen Sampled Neural Network for High-Dimensional Gross-Pitaevskii Equations on Unbounded Domains

Zhangyong Liang

cs.LG

本文提出了一种随机维度冻结采样神经网络(SD-FSNN)用于求解无界域上的高维Gross-Pitaevskii方程(GPEs). 该方法通过随机采样网络参数避免了基于梯度的优化, 并采用时空分离策略和结构保持技术来提高计算效率和精度.

Is More Data Worth the Cost? Dataset Scaling Laws in a Tiny Attention-Only Decoder

Götz-Henrik Wiegand et al.

cs.LG cs.CL

本文通过一个简化的attention-only decoder模型, 研究了在小规模可控环境下数据集大小对模型性能的影响. 实验表明, 仅使用约30%的训练数据即可达到约90%的完整数据验证准确率, 为计算资源受限的场景提供了实用的数据规模指导.

Efficient Unlearning through Maximizing Relearning Convergence Delay

Khoa Tran, Simon S. Woo

cs.LG cs.CV

本文提出了一种新的评估指标 "relearning convergence delay", 用于更全面地衡量机器遗忘的效果. 基于此, 作者提出了 Influence Eliminating Unlearning 框架, 通过在权重中引入衰减和噪声来移除遗忘数据集的影响, 并在实验中验证了其有效性.

OASIS: Online Activation Subspace Learning for Memory-Efficient Training

Sakshi Choudhary, Utkarsh Saxena, Kaushik Roy

cs.LG

本文提出了一种名为OASIS的在线激活子空间学习算法, 用于减少大型语言模型训练时的内存占用. 该方法通过动态维护一个低维子空间来压缩激活值和梯度, 在多种任务上实现了内存的显著降低, 同时保持了与全参数微调相当的性能.

NOMAD: Generating Embeddings for Massive Distributed Graphs

Aishwarya Sarkar et al.

cs.LG cs.DC

本文提出了一个名为NOMAD的分布式内存图嵌入框架，用于处理大规模图。它基于MPI实现，通过优化通信开销和可扩展性，在保持嵌入质量的同时，相比现有方法实现了显著的加速。

Offline Local Search for Online Stochastic Bandits

Gerdus Benadè, Rathish Das, Thomas Lavastida

cs.LG

本文提出了一种将离线局部搜索算法转化为在线随机组合多臂老虎机算法的方法, 实现了$O(\log^3 T)$的近似遗憾. 该方法被应用于调度、拟阵基和不确定聚类等问题.

AdaCubic: An Adaptive Cubic Regularization Optimizer for Deep Learning

Ioannis Tsingalis, Constantine Kotropoulos, Corentin Briat

cs.LG

本文提出了一种名为AdaCubic的自适应三次正则化优化器，用于深度学习。它通过一个辅助优化问题动态调整牛顿三次正则化方法中的三次项权重，并利用Hutchinson方法近似Hessian矩阵以降低计算成本。实验表明，该优化器在多个任务上表现良好，且无需繁琐的超参数调优。

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

Lifeng Chen et al.

cs.LG cs.AI eess.IV

本文提出了一种用于胸部X光报告生成的高效扩散模型ECHO, 通过一种新颖的直接条件蒸馏框架实现了稳定的单步推理, 并引入了响应不对称扩散训练策略以提升效率. 实验表明, 该方法在多项指标上超越了现有的自回归模型, 并显著提升了推理速度.

SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning

Maksim Anisimov, Francesco Belardinelli, Matthew Wicker

cs.LG cs.AI

本文提出了一种在持续强化学习中实现安全策略更新的先验方法, 通过引入Rashomon set来保证策略在演示数据分布内满足安全约束. 该方法通过将策略更新投影到该集合上, 为任意RL算法提供了形式化的安全保证, 并在网格世界导航环境中进行了实证验证.

Integrated electro-optic attention nonlinearities for transformers

Luis Mickeler et al.

cs.LG physics.optics

本文提出了一种基于薄膜铌酸锂马赫-曾德尔调制器的电光非线性计算单元，用于替代数字Softmax和Sigmoid函数，以降低Transformer模型中注意力机制的计算延迟。实验表明，即使在4位量化下，该系统在视觉Transformer和大语言模型中仍能保持较高的准确率。

Toward World Models for Epidemiology

Zeeshan Memon et al.

cs.LG

本文提出了一个用于流行病学的 world model 概念框架, 将流行病建模为受控的、部分可观测的动态系统. 该框架强调了真实状态的潜在性、观测信号的内生噪声与政策依赖性, 并通过三个案例研究说明了其在政策相关推理中的必要性.

Event-Driven Temporal Graph Networks for Asynchronous Multi-Agent Cyber Defense in NetForge_RL

Igor Jankowski

cs.LG cs.MA

本文提出了一个用于网络防御的高保真多智能体强化学习模拟器 NetForge_RL 以及相应的连续时间图 MARL 方法 CT-GMARL. 该方法将网络防御建模为异步连续时间部分可观测半马尔可夫决策过程, 并使用神经常微分方程处理不规则采样的警报, 在模拟和零样本迁移到真实环境时均显示出优于基线方法的性能.

ANTIC: Adaptive Neural Temporal In-situ Compressor

Sandeep S. Cranganore et al.

cs.LG

本文提出了一种用于高维PDE模拟的端到端原位压缩框架ANTIC. 它结合了自适应时间选择器与基于神经场的空间压缩模块, 通过单次流式处理显著减少了时空演化数据的存储需求.

cs.AI

SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions

Ashima Suvarna et al.

cs.AI cs.CL cs.LG

本文提出了一个名为SUPERNOVA的数据管理框架, 旨在将基于可验证奖励的强化学习(RLVR)应用于提升大语言模型(LLMs)的通用推理能力. 通过分析指令微调数据中的专家标注信息, 并研究任务选择、混合策略等数据设计因素, 该框架在多个推理基准测试上取得了优于基线的性能.

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

Jun He, Deying Yu

cs.AI cs.LG

本文提出了一种名为OpenKedge的协议，用于治理自主AI代理的状态变更。该协议通过声明式意图提案、执行前评估和加密证据链，将安全机制从被动过滤转变为预防性、执行绑定的强制执行。

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Hongyin Zhu et al.

cs.AI cs.CL

本文提出了一种名为LOM-action的企业AI系统, 它通过事件驱动的本体论模拟来生成可审计的决策. 系统将业务事件转化为对隔离知识子图的确定性修改, 并仅从演化后的模拟图中推导决策, 从而确保决策的可追溯性.

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

Olivier Jeunen, Eleanor Hanna, Schaun Wheeler

cs.AI cs.HC cs.LG

本文通过一项为期11个月的纵向案例研究, 分析了在真实消费应用中利用agentic infrastructure进行营销信息个性化推送的效果. 研究发现, 虽然人工主动管理能带来更高的互动提升, 但自主运行的agents能够在后续阶段持续维持正向效果.

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Yarin Benyamin et al.

cs.AI

本文提出了一种名为RAMP的混合深度强化学习策略, 用于通过与环境的在线交互来学习数值规划的动作模型. 该方法整合了深度强化学习, 动作模型学习和规划, 并在标准IPC数值领域上展示了优于基准方法的性能.

Parameterized Complexity Of Representing Models Of MSO Formulas

Petr Kučera, Petr Martinek

cs.AI cs.CC

本文研究了MSO2公式模型的参数化复杂度表示问题. 它扩展了Courcelle定理, 证明了在树宽和公式大小参数下, 模型可以用参数化线性大小的决策图(如SDD和OBDD)来表示, 同时也给出了OBDD表示的下界.

Model Space Reasoning as Search in Feedback Space for Planning Domain Generation

James Oswald et al.

cs.AI

本文研究了利用agentic language model feedback框架从增强了少量符号信息的自然语言描述中生成planning domains的方法. 实验评估了不同形式的符号反馈(如landmarks和VAL plan validator输出)对生成domain质量的影响, 并尝试通过启发式搜索来优化质量.

Artifacts as Memory Beyond the Agent Boundary

John D. Martin et al.

cs.AI

本文在强化学习(RL)框架内形式化了环境作为智能体记忆的观点。作者定义了"人工制品(artifacts)"的概念，并证明其可以减少表示历史所需的信息量，实验表明观察空间路径能降低学习策略所需的内存。

Hidden in Plain Sight: Visual-to-Symbolic Analytical Solution Inference from Field Visualizations

Pengze Li et al.

cs.AI

本文提出了一种从二维线性稳态场的可视化图像中推断其解析解的方法, 称为视觉到符号解析解推断(ViSA). 该方法采用一个自验证的、以解为中心的思维链流程, 并构建了一个包含30种场景的合成基准测试集用于评估.

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Tianyi Wang et al.

cs.AI

本文提出了一种用于长程推理任务的序列级PPO算法(SPPO). 该算法将推理过程建模为序列级上下文赌博机问题, 通过解耦的标量价值函数来获得低方差的优势信号, 从而在保持样本效率的同时提高了训练稳定性.

StaRPO: Stability-Augmented Reinforcement Policy Optimization

Jinghan Zhang et al.

cs.AI cs.LG

本文提出了一种名为StaRPO的强化学习框架, 通过引入两个可计算的轻量级指标——Autocorrelation Function (ACF) 和 Path Efficiency (PE)——来评估推理过程的局部连贯性与全局目标导向性, 从而将推理稳定性明确纳入优化目标. 实验表明, 该方法在多个推理基准测试中提升了最终答案的准确性和逻辑稳定性.

Enhancing LLM Problem Solving via Tutor-Student Multi-Agent Interaction

Nurullah Eymen Özdemir, Erhan Oztop

cs.AI cs.MA

本文提出了一种基于导师-学生多智能体交互的框架(PETITE), 旨在提升大型语言模型(LLM)在代码生成任务中的问题解决能力. 该方法通过让源自同一LLM的两个智能体扮演互补角色(学生生成并迭代优化代码, 导师提供结构化反馈), 在APPS基准测试上取得了与先进方法相当或更高的准确率, 同时显著减少了计算开销.

PilotBench: A Benchmark for General Aviation Agents with Safety Constraints

Yalun Wu et al.

cs.AI

本文提出了一个名为PilotBench的基准测试，用于评估大型语言模型在具有安全约束的通用航空轨迹预测任务中的表现。研究发现，传统预测器在精度上占优，而大型语言模型在指令遵循方面更好，但存在精度与可控性之间的权衡。

SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment

Sihang Jiang et al.

cs.AI

本文提出了SEA-Eval基准，用于评估超越单次任务执行的自我进化智能体。该基准通过分析任务流中的成功率与资源消耗，量化了智能体的长期进化能力与稳定性。

Hypergraph Neural Networks Accelerate MUS Enumeration

Hiroya Ijima, Koichiro Yawata

cs.AI cs.LG cs.LO

本文提出了一种使用Hypergraph Neural Networks (HGNNs)来加速Minimal Unsatisfiable Subsets (MUSes)枚举的领域无关方法. 该方法通过强化学习训练一个基于HGNN的agent来减少所需的可满足性检查次数, 实验表明其在相同计算预算下能比传统方法枚举出更多的MUSes.

Advantage-Guided Diffusion for Model-Based Reinforcement Learning

Daniele Foffano et al.

cs.AI cs.LG

本文提出了一种基于优势引导的扩散模型方法(AGD-MBRL), 用于解决基于模型的强化学习中自回归世界模型存在的误差累积问题. 该方法通过优势估计来引导反向扩散过程, 在MuJoCo控制任务上相比现有方法提升了样本效率和最终回报.

Overhang Tower: Resource-Rational Adaptation in Sequential Physical Planning

Ruihong Shen, Shiqian Li, Yixin Zhu

cs.AI

本文通过"Overhang Tower"实验研究了人类在资源受限下的序列物理规划认知架构. 发现随着任务复杂度增加, 物理预测机制会从基于Intuitive Physics Engine的模拟转向基于CNN的视觉启发式, 同时规划策略也从深度的前瞻性搜索转向浅层搜索.

Camera Artist: A Multi-Agent Framework for Cinematic Language Storytelling Video Generation

Haobo Hu et al.

cs.AI

本文提出了一个名为Camera Artist的多智能体框架, 用于生成具有明确电影语言的叙事视频. 该框架通过引入专门的Cinematography Shot Agent来增强镜头间的叙事连贯性与电影化表现力.

DRBENCHER: Can Your Agent Identify the Entity, Retrieve Its Properties and Do the Math?

Young-Suk Lee, Ramon Fernandez Astudillo, Radu Florian

cs.AI

本文提出了一个名为DRBENCHER的合成基准测试生成器，用于评估需要结合网页浏览与多步计算的智能体。该基准通过一个统一的答案优先流程在多个领域生成问题，并强调了在动态数据上进行推理的系统所面临的固有挑战。

SAGE: A Service Agent Graph-guided Evaluation Benchmark

Ling Shi et al.

cs.AI

本文提出了一个名为SAGE的多智能体评估基准，用于自动化评估大型语言模型在客户服务场景中的表现。它通过将标准操作程序建模为动态对话图，并引入对抗性意图分类法，来合成数据并进行逻辑合规性验证。

Constraint-Aware Corrective Memory for Language-Based Drug Discovery Agents

Maochen Sun, Youzhi Zhang, Gaofeng Meng

cs.AI

本文提出了一个名为CACM的框架, 用于提升基于语言的药物发现智能体的可靠性. 该框架通过协议审计和诊断模块来定位任务违规, 并利用精简的记忆回写机制来优化智能体的规划状态.

Mind the Gap Between Spatial Reasoning and Acting! Step-by-Step Evaluation of Agents With Spatial-Gym

Lars Benedikt Kaesberg et al.

cs.AI cs.CL

本文介绍了Spatial-Gym, 一个用于评估AI模型在2D网格路径规划任务中空间推理能力的Gymnasium环境. 实验表明, 当前模型(如GPT-OSS 120B)的解决率远低于人类基线, 并且逐步推理格式对不同能力的模型产生了不同的影响.

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

Mohamed Elfeki et al.

cs.AI

本文提出了一个名为HiL-Bench的基准测试，用于评估AI智能体在任务信息不完整或模糊时，判断何时需要向人类求助的能力。该基准通过引入包含隐藏障碍的任务和Ask-F1核心指标，揭示了当前前沿模型在自主判断方面存在普遍缺陷，并展示了通过强化学习可以训练模型提升求助决策的质量。

Do We Really Need to Approach the Entire Pareto Front in Many-Objective Bayesian Optimisation?

Chao Jiang, Jingyu Huang, Miqing Li

cs.AI

本文针对高维多目标优化问题, 提出了一种新的贝叶斯优化框架. 该框架放弃近似整个Pareto前沿, 转而专注于沿特定方向寻找单个高质量解, 并在理论和实验上验证了其有效性.

E3-TIR: Enhanced Experience Exploitation for Tool-Integrated Reasoning

Weiyang Guo et al.

cs.AI

本文提出了一种名为E3-TIR的智能体训练预热范式，旨在解决工具集成推理中现有训练方法在探索效率和数据成本方面的局限。该方法通过动态整合专家引导与自我探索的经验，平衡了探索的多样性与训练稳定性，在减少数据需求的同时提升了任务性能。

Process Reward Agents for Steering Knowledge-Intensive Reasoning

Jiwoong Sohn et al.

cs.AI

本文提出了一种名为Process Reward Agents (PRA)的方法，用于在知识密集型推理任务中为冻结的策略模型提供在线、逐步的奖励。该方法通过搜索解码在每一步对候选推理轨迹进行排序和剪枝，从而在多个医学推理基准上超越了现有基线，并能泛化到不同规模的冻结模型上。

Strategic Algorithmic Monoculture:Experimental Evidence from Coordination Games

Gonzalo Ballestero et al.

cs.AI cs.GT cs.MA econ.TH

本文通过实验设计区分了primary algorithmic monoculture和strategic algorithmic monoculture, 并在人类和LLM (large language model) 主体上进行了测试. 研究发现LLMs表现出较高的baseline similarity, 并且能像人类一样根据协调激励调整相似性, 但在奖励分化的情境下维持异质性的能力不如人类.

cs.IR

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Miloš Košprdić et al.

cs.IR cs.AI cs.CL

本文介绍了一个名为VerifAI的开源生物医学问答系统, 它通过结合检索增强生成(RAG)与一种新颖的事后声明验证机制来确保事实一致性. 该系统包含优化的检索模块, 引用感知的生成组件和验证组件, 并在HealthVer基准测试上超越了GPT-4, 旨在为高风险领域提供透明且可验证的AI解决方案.

Unbiased Rectification for Sequential Recommender Systems Under Fake Orders

Qiyu Qin et al.

cs.IR cs.AI

本文针对sequential recommender systems中fake orders带来的威胁, 提出了一种名为DITaR的纠偏方法. 该方法通过dual-view identification区分有害样本并进行targeted rectification, 在保持数据完整性的同时提升了系统的鲁棒性和推荐质量.

Pretrain-then-Adapt: Uncertainty-Aware Test-Time Adaptation for Text-based Person Search

Jiahao Zhang et al.

cs.IR cs.CV

本文提出了一种名为UATTA的离线测试时自适应框架, 用于解决基于文本的行人检索任务中的数据稀缺和领域偏移问题. 该方法通过双向检索不一致性机制来估计样本不确定性, 并利用未标注的测试数据对预训练模型进行无监督校准, 在多个基准数据集上验证了其有效性.

SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support

Xingyan Liu et al.

cs.IR cs.AI cs.SE

本文提出了一个名为SkillForge的框架，用于在云技术支持领域自动创建和持续优化基于LLM的agent技能。它通过一个结合了领域知识库和历史工单的创建器来生成初始技能，并设计了一个包含失败分析、诊断和优化的三阶段管道来实现技能的自我进化。实验表明，该框架能有效提升技能质量，并能在多轮迭代中超越人工编写的专家知识。

BracketRank: Large Language Model Document Ranking via Reasoning-based Competitive Elimination

Abdelrahman Abdallah et al.

cs.IR

本文提出了BracketRank框架, 将文档重排序建模为基于推理的淘汰赛. 该方法通过自适应分组、推理增强提示和淘汰赛制, 在BRIGHT和TREC基准测试上取得了优于现有基线模型的效果.

Beyond Relevance: Utility-Centric Retrieval in the LLM Era

Hengran Zhang et al.

cs.IR cs.AI cs.CL cs.LG

本文探讨了在LLM时代下信息检索系统从传统的topical relevance优化转向以LLM为中心的utility评估的范式转变。它提出了一个涵盖不同utility类型的统一框架，为设计服务于LLM的信息访问系统提供了概念基础和实践指导。

IAT: Instance-As-Token Compression for Historical User Sequence Modeling in Industrial Recommender Systems

Xinchun Li et al.

cs.IR

本文提出了一种名为Instance-As-Token (IAT)的两阶段序列建模框架，用于工业推荐系统中的历史用户序列建模。该方法先将每个历史交互实例的特征压缩为统一的实例嵌入，再将其作为token供下游序列模型使用，从而提升了推荐性能。

Regime-Conditional Retrieval: Theory and a Transferable Router for Two-Hop QA

Andre Bacellar

cs.IR cs.AI cs.CL cs.LG

本文针对 two-hop QA 检索任务，将查询分为 Q-dominant 和 B-dominant 两种模式，并提出了三个定理来形式化这种划分。基于此理论，作者设计了一个轻量级的 RegimeRouter，利用五个文本特征在两种检索策略间进行选择，并在多个数据集上实现了零样本性能提升。

DIAURec: Dual-Intent Space Representation Optimization for Recommendation

Yu Zhang et al.

cs.IR

本文提出了一种名为DIAURec的推荐系统表示学习框架，它通过结合意图建模和语言建模来优化用户和物品的表示。该框架设计了包含对齐、均匀性以及多粒度匹配的优化策略，并在多个公开数据集上验证了其优于现有基线方法的性能。

Hybrid Cold-Start Recommender System for Closure Model Selection in Multiphase Flow Simulations

S. Hänsch et al.

cs.IR

本文提出了一种混合推荐框架, 用于为多相流模拟中的闭合模型选择问题提供决策支持. 该方法结合了基于元数据的案例相似性和基于矩阵补全的协同推断, 并在大量模拟数据上验证了其有效性.

On the Representational Limits of Quantum-Inspired 1024-D Document Embeddings: An Experimental Evaluation Framework

Dario Maio

cs.IR cs.AI

本文提出了一个用于构建量子启发的1024维文档嵌入的实验框架, 并引入了一套用于混合检索的诊断工具. 实验结果表明, 这类嵌入在几何结构上存在局限性, 更适合作为辅助组件而非独立的检索表示.

TME-PSR: Time-aware, Multi-interest, and Explanation Personalization for Sequential Recommendation

Qingzhuo Wang et al.

cs.IR cs.AI

本文提出了一个名为TME-PSR的序列推荐模型, 它整合了时间感知、多兴趣和解释个性化. 模型通过特定的编码器和架构来捕捉用户的个性化时间节奏与细粒度兴趣, 并提升推荐与解释之间的对齐效果.

Dynamic Ranked List Truncation for Reranking Pipelines via LLM-generated Reference-Documents

Nilanjan Sinhababu et al.

cs.IR

本文提出了一种利用LLM生成参考文档来优化reranking流程中ranked list truncation(RLT)和列表重排效率的方法. 通过将生成的文档作为相关与非相关文档之间的枢轴, 并结合并行或自适应窗口处理, 该方法在TREC基准测试中显著提升了重排速度.

cs.CL

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

Jiawei Chen et al.

cs.CL cs.AI cs.LG

本文提出了一个名为OmniBehavior的用户模拟基准, 该基准完全基于真实世界数据构建, 旨在评估大语言模型在模拟长时程、跨场景、异构人类行为方面的能力. 评估发现当前模型难以准确模拟此类复杂行为, 并存在结构性偏差.

Drift and selection in LLM text ecosystems

Søren Riis

cs.CL cs.AI

本文提出了一个基于 variable-order $n$-gram agents 的数学模型，用于分析由 LLM 生成文本递归进入公共语料库的过程。该框架区分了语料库演变中的两种力量：drift（无过滤重用）和 selection（选择性过滤），并讨论了不同过滤策略对语料库结构的影响。

SynDocDis: A Metadata-Driven Framework for Generating Synthetic Physician Discussions Using Large Language Models

Beny Rubinstein, Sergio Matos

cs.CL

本文提出了一个名为SynDocDis的框架, 它利用结构化提示技术和去标识化的病例元数据来生成合成医生间讨论. 该框架在医学AI研究中为生成隐私合规的合成对话数据提供了一种方法.

EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

Arth Singh

cs.CL cs.AI

本文探讨了EMA traces在序列建模中的作用, 将其作为最简单的recurrent context来研究固定系数累积的表示能力边界. 研究发现, EMA traces能有效编码时间结构, 但在语言建模等任务中会破坏token identity, 导致信息不可逆的损失.

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

Arth Singh

cs.CL cs.AI

本文揭示了一种针对基于扩散的语言模型(dLLMs)的安全攻击方法。该方法通过重新掩盖已确定的拒绝令牌并注入肯定前缀，绕过了模型的安全对齐机制。

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

Hanna Lee et al.

cs.CL cs.AI

本文提出了一种名为WAND的框架, 用于提升自回归文本转语音(AR-TTS)模型的效率. 该方法通过引入窗口化注意力机制和知识蒸馏技术, 在保持合成质量的同时显著降低了计算和内存开销.

Medical Reasoning with Large Language Models: A Survey and MR-Bench

Xiaohan Ren et al.

cs.CL cs.AI

本文对大型语言模型在医学推理领域的应用进行了综述, 并提出了新的基准测试 MR-Bench. 文章基于临床推理的认知理论, 将现有方法归类为七种主要技术路线, 并通过统一的评估揭示了模型在真实临床决策任务上的表现与考试型任务之间存在显著差距.

Uncertainty Estimation for the Open-Set Text Classification systems

Leonid Erlygin, Alexey Zaytsev

cs.CL cs.AI

本文针对开放集文本分类任务中的不确定性估计问题, 将Holistic Uncertainty Estimation方法适配到文本领域. 该方法通过同时处理文本不确定性(源于查询表述不清)和库不确定性(源于数据分布的模糊性), 旨在预测系统何时会出现识别错误. 作者在多个数据集上进行了实验, 结果表明其方法在Prediction Rejection Ratio指标上显著优于基线.

A Representation-Level Assessment of Bias Mitigation in Foundation Models

Svetoslav Nizhnichenkov et al.

cs.CL cs.LG

本文通过分析 BERT 和 Llama2 等基础模型在偏见缓解前后嵌入空间的变化，评估了去偏方法的有效性。研究发现，去偏操作能减少性别与职业术语之间的关联差异，使内部表征更加中性，并引入了 WinoDec 数据集以促进对仅解码器模型的评估。

Neural networks for Text-to-Speech evaluation

Ilya Trofimenko et al.

cs.CL cs.AI cs.SD eess.AS

本文提出了一系列用于评估Text-to-Speech系统质量的神经网络模型。这些模型旨在替代昂贵且缓慢的人工主观评估，在相对和绝对评分任务上均取得了优于人类评分者一致性的表现。

Temperature-Dependent Performance of Prompting Strategies in Extended Reasoning Large Language Models

Mousa Salah, Amgad Muneer

cs.CL cs.AI cs.LG

本文通过实验研究了在具有扩展推理能力的大语言模型中, 温度参数对提示策略性能的影响. 研究发现, 不同提示策略的最佳温度设置不同, 扩展推理的收益随温度升高而显著增加.

Attention-Based Sampler for Diffusion Language Models

Yuyan Zhou et al.

cs.CL cs.LG

本文提出了一种基于 attention 的采样器 Attn-Sampler，用于提升 diffusion 语言模型的解码效率。该方法通过理论分析将解码顺序选择问题与对数似然最大化联系起来，并利用 attention 矩阵的列和来指导并行解码。实验表明该方法能在保证生成质量的同时提高解码并行度。

Dynamic sparsity in tree-structured feed-forward layers at scale

Reza Sedghi et al.

cs.CL cs.AI cs.LG

本文提出了一种树状结构的稀疏前馈层, 用于替代Transformer中的密集MLP块, 以实现条件计算. 该方法在自回归语言建模和问答任务中表现出与密集模型相当的性能, 同时激活的参数比例很低.

Sentiment Classification of Gaza War Headlines: A Comparative Analysis of Large Language Models and Arabic Fine-Tuned BERT Models

Amr Eleraqi, Hager H. Mustafa, Abdul Hadi N. Ahmed

cs.CL cs.LG

本文比较了大型语言模型与阿拉伯语微调BERT模型在加沙战争新闻标题情感分类任务上的表现. 研究采用信息论和分布度量方法, 揭示了不同模型架构在情感解释上存在显著且非随机的系统性差异.

Multi-User Large Language Model Agents

Shu Yang et al.

cs.CL cs.MA

本文研究了多用户场景下大型语言模型(LLM)智能体的行为，将其形式化为一个多委托方决策问题。通过设计统一的交互协议和压力测试场景，评估了现有LLM在遵循指令、保护隐私和协调方面的能力，并揭示了其在处理冲突目标时存在的系统性缺陷。

Can We Still Hear the Accent? Investigating the Resilience of Native Language Signals in the LLM Era

Nabelanita Utami, Sasano Ryohei

cs.CL cs.AI

本文通过分析ACL Anthology论文中母语识别(NLI)的趋势, 研究了从机器翻译到大型语言模型(LLM)的写作辅助工具演变是否使研究论文同质化. 研究发现, NLI性能随时间持续下降, 其中后LLM时代中文和法语的信号表现出意外的韧性, 而日语和韩语的下降则比预期更为显著.

Adaptive Rigor in AI System Evaluation using Temperature-Controlled Verdict Aggregation via Generalized Power Mean

Aleksandr Meshkov

cs.CL cs.AI

本文提出了一种名为Temperature-Controlled Verdict Aggregation (TCVA)的方法，用于评估基于LLM的AI系统。该方法通过一个温度参数来调节评估的严格程度，以适应不同应用领域的需求，并在实验中显示出与人类评估的良好相关性。

EXAONE 4.5 Technical Report

Eunbi Choi et al.

cs.CL

本文介绍了LG AI Research发布的开源视觉语言模型EXAONE 4.5的技术报告。该模型通过在现有框架中集成视觉编码器进行多模态预训练，并在文档理解等任务上表现出色。

Decomposing the Delta: What Do Models Actually Learn from Preference Pairs?

Chia-Hsuan Lee et al.

cs.CL cs.AI

本文研究了偏好优化方法中偏好数据的不同质量维度对下游推理任务性能的影响. 通过区分生成器层面和样本层面的质量差异, 发现前者能提升跨领域推理能力, 而后者有助于提高数据训练效率.

LLMs Underperform Graph-Based Parsers on Supervised Relation Extraction for Complex Graphs

Paolo Gajo et al.

cs.CL cs.AI

本文比较了大型语言模型(LLMs)与基于图的解析器在监督式关系抽取任务上的表现, 特别是在处理复杂语言图时的性能差异. 实验表明, 当输入文档中的关系数量增加时, 更轻量的基于图的解析器表现优于LLMs.

Cards Against LLMs: Benchmarking Humor Alignment in Large Language Models

Yousra Fettach et al.

cs.CL cs.AI

本文通过让大型语言模型(LLM)参与“反人类卡牌”(Cards Against Humanity)游戏来评估其幽默对齐能力。研究发现，尽管模型表现超过随机基线，但与人类偏好的一致性有限，且模型之间存在系统性偏见。

Revisiting Anisotropy in Language Transformers: The Geometry of Learning Dynamics

Raphael Bernas et al.

cs.CL math.DG

本文从几何角度研究了Transformer模型中的各向异性现象. 作者通过理论分析解释了频率偏差采样如何影响曲率可见度, 并利用训练过程中的概念可解释性方法, 验证了梯度各向异性主要与切空间方向对齐的假设.

MT-OSC: Path for LLMs that Get Lost in Multi-Turn Conversation

Jyotika Singh et al.

cs.CL

本文提出了一种名为MT-OSC的框架，用于在大型语言模型的多轮对话中自动压缩历史记录。该方法通过一个Condenser Agent选择性保留关键信息，显著减少了输入token数量，并在多个基准测试中保持了模型性能。

MedConceal: A Benchmark for Clinical Hidden-Concern Reasoning Under Partial Observability

Yikun Han et al.

cs.CL

本文提出了一个用于评估医疗对话中隐藏担忧推理的基准测试 MedConceal, 它包含一个交互式病人模拟器. 该基准旨在解决现有评测方法在部分可观测性下忽略隐藏状态建模的问题.

Lessons Without Borders? Evaluating Cultural Alignment of LLMs Using Multilingual Story Moral Generation

Sophie Wu, Andrew Piper

cs.CL cs.AI

本文通过构建一个包含14种语言文化对的故事寓意数据集, 引入多语言故事寓意生成作为评估任务, 以研究大语言模型的文化对齐性. 研究发现, 前沿模型如GPT-4o和Gemini生成的寓意在语义上与人类相近且更受偏好, 但其输出的跨语言多样性显著低于人类, 且集中于更狭窄的共享价值观.

Scalable High-Recall Constraint-Satisfaction-Based Information Retrieval for Clinical Trials Matching

Cyrus Zhou et al.

cs.CL cs.AI cs.DB cs.MA cs.SC

本文提出了一种基于约束满足的可扩展临床试验检索方法SatIR, 该方法利用Satisfiability Modulo Theories (SMT)和关系代数来形式化表示和匹配患者与试验之间的复杂约束, 并借助大型语言模型(LLMs)处理非正式的临床推理. 在包含59名患者和3,621项试验的数据集上评估, 该方法在召回率和检索速度上均优于基线模型.

Cross-Lingual Attention Distillation with Personality-Informed Generative Augmentation for Multilingual Personality Recognition

Jing Jie Tan et al.

cs.CL

本文提出了一种名为ADAM的方法, 用于解决多语言人格识别中数据稀缺的问题. 该方法利用大语言模型进行翻译增强, 并结合跨语言注意力蒸馏来训练模型.

GRASP: Grounded CoT Reasoning with Dual-Stage Optimization for Multimodal Sarcasm Target Identification

Faxian Wan et al.

cs.CL

本文提出了一个名为GRASP的框架, 用于多模态讽刺目标识别任务. 该方法结合了视觉定位和显式的思维链推理, 并采用双阶段优化策略进行训练.

NCL-BU at SemEval-2026 Task 3: Fine-tuning XLM-RoBERTa for Multilingual Dimensional Sentiment Regression

Tong Wu, Nicolay Rusnachenko, Huizhi Liang

cs.CL

本文采用基于XLM-RoBERTa-base的微调方法，为多语言维度情感回归任务构建了一个预测系统。该方法在开发实验中显著优于多种大型语言模型的少样本提示方法。

MuTSE: A Human-in-the-Loop Multi-use Text Simplification Evaluator

Rares-Alexandru Roscan et al.

cs.CL cs.AI

本文介绍了一个名为MuTSE的交互式web应用, 用于评估LLM生成的文本简化结果. 该系统支持并发执行多种prompt与模型的组合, 并集成了一个分层的语义对齐引擎以辅助可视化分析.

TaxPraBen: A Scalable Benchmark for Structured Evaluation of LLMs in Chinese Real-World Tax Practice

Gang Hu et al.

cs.CL

本文提出了TaxPraBen, 一个用于评估大语言模型在中国真实税务实践中应用能力的结构化基准. 它整合了传统任务与真实场景, 并采用了一种可扩展的结构化评估范式.

MAB-DQA: Addressing Query Aspect Importance in Document Question Answering with Multi-Armed Bandits

Yixin Xiang et al.

cs.CL cs.IR

本文提出了一种基于Multi-Armed Bandit的文档问答框架MAB-DQA，旨在解决多模态检索增强生成中视觉信息利用不充分的问题。该框架通过将查询分解为多个方面感知的子查询，并动态分配检索预算来提升答案生成效果。

Breaking Block Boundaries: Anchor-based History-stable Decoding for Diffusion Large Language Models

Shun Zou et al.

cs.CL

本文提出了一种名为Anchor-based History-stable Decoding (AHD)的动态解码策略，用于提升Diffusion Large Language Models (dLLMs)的推理效率。该方法通过实时监控token的稳定性趋势，允许稳定的token进行跨块提前解码，从而在多个任务上同时提高了性能和推理速度。

Litmus (Re)Agent: A Benchmark and Agentic System for Predictive Evaluation of Multilingual Models

Avni Mittal et al.

cs.CL cs.AI cs.HC cs.MA

本文提出了一个用于预测性多语言模型评估的基准测试和智能体系统. 该系统通过分解查询、检索证据和聚合预测来估计模型在缺乏直接基准数据的语言任务上的性能.

Confident in a Confidence Score: Investigating the Sensitivity of Confidence Scores to Supervised Fine-Tuning

Lorenzo Jaime Yu Flores, Cesare Spinoso di-Piano, Jackie Chi Kit Cheung

cs.CL

本文研究了监督微调对语言模型置信度分数的影响, 发现微调后置信度分数与输出质量的相关性会下降, 这可能源于输出与训练分布的相似性等因素. 作者通过案例研究说明, 这种错误的相关性会降低置信度分数在下游任务中的实用性.

Quantisation Reshapes the Metacognitive Geometry of Language Models

Jon-Paul Cacioli

cs.CL

本文研究了模型量化对大型语言模型元认知几何结构的影响。研究发现，量化会重塑不同知识领域的M-ratio分布，但保持Type-2 AUROC的稳定性。基于此诊断的领域条件化微调未能改善元认知效率，表明依赖M-ratio的系统对推理格式存在未经验证的依赖。

Testing the Assumptions of Active Learning for Translation Tasks with Few Samples

Lorenzo Jaime Yu Flores et al.

cs.CL

本文探讨了在翻译任务中使用极少样本时, active learning (AL) 算法的核心假设是否成立. 研究发现, AL 所优化的训练数据的 informativeness 和 diversity 与测试集性能并不相关, 而训练样本的顺序以及与 pre-training 数据的交互等因素影响更大.

PerMix-RLVR: Preserving Persona Expressivity under Verifiable-Reward Alignment

Jihwan Oh et al.

cs.CL cs.AI

本文提出了一种名为PerMix-RLVR的训练策略，旨在解决大语言模型在基于可验证奖励的强化学习中对人物角色提示敏感度降低的问题。该方法通过在训练中混合不同人物角色，以平衡任务鲁棒性和角色表达忠实性。

ASTRA: Adaptive Semantic Tree Reasoning Architecture for Complex Table Question Answering

Xiaoke Guo et al.

cs.CL cs.AI cs.LG

本文提出了一种名为ASTRA的自适应语义树推理架构, 用于解决复杂表格问答中表格序列化的瓶颈问题. 该方法通过构建逻辑语义树和双模式推理框架, 在多个基准测试上取得了先进的性能.

Towards Linguistically-informed Representations for English as a Second or Foreign Language: Review, Construction and Application

Wenxi Li, Xihao Wang, Weiwei Sun

cs.CL cs.AI

本文综述了英语作为第二语言或外语(ESFL)的现有资源, 指出了其局限性, 并提出了一种新的解决方案. 该方案以构式(construction)为基本分析单元, 构建了一个包含1643个标注句子的句法-语义资源库, 并通过一项试点研究展示了其在二语习得研究中的潜在应用价值.

CONDESION-BENCH: Conditional Decision-Making of Large Language Models in Compositional Action Space

Yeonjun Hwang et al.

cs.CL cs.AI

本文提出了一个名为CONDESION-BENCH的新基准，用于评估大语言模型在组合动作空间中的条件决策能力。该基准通过引入变量、上下文和分配层面的显式条件，克服了现有基准的简化假设。

Anchored Sliding Window: Toward Robust and Imperceptible Linguistic Steganography

Ruiyi Yan, Shiao Meng, Yugo Murawaki

cs.CL

本文提出了一种名为 anchored sliding window (ASW) 的框架，用于提升基于语言模型的 linguistic steganography 的鲁棒性和不可感知性。该方法通过在 context window 中固定提示和桥接上下文，引导模型补偿被排除的 tokens，从而在文本质量、不可感知性和鲁棒性上优于基线方法。

NyayaMind- A Framework for Transparent Legal Reasoning and Judgment Prediction in the Indian Legal System

Parjanya Aditya Shukla et al.

cs.CL cs.AI cs.LG

本文提出了一个用于印度法律系统的透明法律推理与判决预测框架. 该框架整合了检索、推理和验证机制, 以模拟法院的结构化决策过程.

Hierarchical Alignment: Enforcing Hierarchical Instruction-Following in LLMs through Logical Consistency

Shu Yang et al.

cs.CL

本文提出了一种名为Neuro-Symbolic Hierarchical Alignment (NSHA)的方法，用于处理大型语言模型(LLM)中来自不同权威级别的指令冲突问题。该方法通过将指令优先级建模为约束满足问题，并在推理时进行求解，同时在训练时利用自动生成的监督信号来蒸馏求解器的决策，从而提升模型在遵循层级指令时的逻辑一致性和任务效用。

Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition

Peng Wang et al.

cs.CL cs.AI cs.SD

本文提出了一个用于交互式自动语音识别(ASR)的智能体框架。该框架利用大语言模型(LLM)进行语义感知的评估，并模拟多轮交互以迭代优化识别结果。

Prototype-Regularized Federated Learning for Cross-Domain Aspect Sentiment Triplet Extraction

Zongming Cai et al.

cs.CL

本文提出了一种基于原型正则化的联邦学习框架PCD-SpanProto, 用于跨领域的方面情感三元组提取(ASTE). 该方法通过交换类别级原型而非模型参数来保护数据隐私, 并设计了加权聚合策略和对比正则化模块来提升性能.

Think Less, Know More: State-Aware Reasoning Compression with Knowledge Guidance for Efficient Reasoning

Yi Sui, Chaozhuo Li, Dawei Song

cs.CL

本文提出了一个名为STACK的框架, 用于对大型推理模型中的思维链进行逐步压缩. 该方法通过显式建模推理状态并引入检索增强的知识指导, 动态调整压缩策略, 在多个数学推理基准上实现了响应长度的大幅减少与准确率的提升.

Persona-E$^2$: A Human-Grounded Dataset for Personality-Shaped Emotional Responses to Textual Events

Yuqin Yang et al.

cs.CL cs.AI cs.HC

本文构建了一个名为Persona-E$^2$的大规模数据集，用于研究不同人格特质的读者对文本事件的差异化情感反应。该工作揭示了当前大语言模型在模拟此类基于人格的情感评估方面存在的局限性。

Facet-Level Tracing of Evidence Uncertainty and Hallucination in RAG

Passant Elchafei et al.

cs.CL

本文提出了一个面向QA任务的facet-level诊断框架, 用于分析RAG系统中的证据使用与幻觉问题. 通过将问题分解为原子推理facet并构建Facet x Chunk矩阵来评估证据充分性与忠实性, 并比较Strict RAG, Soft RAG和LLM-only三种推理模式, 揭示了生成过程中证据整合失败是幻觉的主要来源.

Do LLMs Follow Their Own Rules? A Reflexive Audit of Self-Stated Safety Policies

Avni Mittal

cs.CL cs.AI cs.LG

本文提出了一种名为Symbolic-Neural Consistency Audit (SNCA)的框架，用于审计大型语言模型(LLM)自我声明的安全策略与实际行为之间的一致性。该研究通过结构化提示提取模型自述的安全规则，并将其形式化，然后在多个危害类别上进行行为合规性测试。结果表明，模型声明的策略与观察到的行为之间存在系统性差距，且这种差距与模型架构相关。

SPASM: Stable Persona-driven Agent Simulation for Multi-turn Dialogue Generation

Han Luo, Guy Laban

cs.CL cs.MA

本文提出了一个用于多轮对话生成的稳定角色驱动智能体模拟框架SPASM, 旨在解决LLM在长对话中出现的角色漂移和"回声"等问题. 其核心创新是Egocentric Context Projection (ECP)方法, 通过视角无关的表示和确定性投影来提升对话稳定性, 并在多个LLM上进行了大规模实验验证.

ScheMatiQ: From Research Question to Structured Data through Interactive Schema Discovery

Shahar Levy et al.

cs.CL

本文介绍了ScheMatiQ, 一个利用LLM从自然语言研究问题和文档语料库中自动生成结构化数据模式的交互式系统. 该系统通过一个Web界面允许用户引导和修订提取过程, 并在法律和计算生物学领域与专家合作验证了其实用性.

EthicMind: A Risk-Aware Framework for Ethical-Emotional Alignment in Multi-Turn Dialogue

Jiawen Deng et al.

cs.CL

本文提出了一个用于多轮对话的伦理-情感对齐框架EthicMind, 该框架在推理时联合分析伦理风险信号与用户情感, 规划高层响应策略并生成情境敏感的回复. 实验表明, 该框架在伦理复杂的高风险场景中, 比基线模型能提供更一致的伦理引导和情感互动.

Task-Aware LLM Routing with Multi-Level Task-Profile-Guided Data Synthesis for Cold-Start Scenarios

Hui Liu et al.

cs.CL

本文提出了一种用于冷启动场景下LLM路由的方法, 通过多级任务画像引导的数据合成框架生成近似测试分布的问答对, 并在此基础上设计了任务类型感知的路由器TRouter. 该方法旨在解决现有路由器在缺乏领域内训练数据时泛化能力差的问题.

Automated Instruction Revision (AIR): A Structured Comparison of Task Adaptation Strategies for LLM

Solomiia Bilyk, Volodymyr Getmanskyi, Taras Firman

cs.CL cs.LG

本文研究了Automated Instruction Revision (AIR)方法, 这是一种基于规则归纳的、利用少量任务示例来使大语言模型适应下游任务的技术. 作者将AIR置于包括提示优化、基于检索的方法和微调在内的更广泛的适应策略中进行比较, 并在一系列基准测试上评估了这些方法, 发现没有一种策略在所有任务类型上占优, 其性能表现强烈依赖于具体任务.

UIPress: Bringing Optical Token Compression to UI-to-Code Generation

Dasen Dai et al.

cs.CL

本文提出了一种名为UIPress的轻量级学习压缩模块, 用于UI-to-Code生成任务. 该方法通过深度可分离卷积和Transformer等组件, 将大量视觉token压缩至固定预算, 在提升生成速度的同时保持了较高的生成质量.

Many-Tier Instruction Hierarchy in LLM Agents

Jingyu Zhang et al.

cs.CL cs.AI

本文提出了 Many-Tier Instruction Hierarchy (ManyIH) 范式，用于解决具有任意多权限级别的指令冲突问题。作者构建了 ManyIH-Bench 基准测试，实验表明当前前沿模型在处理大规模指令冲突时表现不佳。

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

Chenchen Zhang

cs.CL

本文对2024年至2026年初发表的47种强化学习信用分配方法进行了系统性综述，重点关注大语言模型在推理和智能体交互场景中的应用。作者提出了一个二维分类法，并提供了结构化的论文清单、报告清单和基准协议规范等资源。

Across the Levels of Analysis: Explaining Predictive Processing in Humans Requires More Than Machine-Estimated Probabilities

Sathvik Nair, Colin Phillips

cs.CL

本文从Marr的分析层次理论出发, 对语言模型(LMs)与语言处理的两个核心主张进行了批判性审视与拓展. 文章进一步展望了结合大型语言模型(LLMs)与心理语言学模型优势的未来研究方向.

Agentic Jackal: Live Execution and Semantic Value Grounding for Text-to-JQL

Vishnu Murali et al.

cs.CL

本文提出了一个名为Jackal的大规模、基于执行的文本到JQL（Jira Query Language）基准测试，并引入了Agentic Jackal，一种利用实时查询执行和语义检索工具来增强LLM性能的智能体方法。该方法显著提升了在解析自然语言查询中的分类值引用方面的准确性，并分析了当前模型的主要失败模式。

RecaLLM: Addressing the Lost-in-Thought Phenomenon with Explicit In-Context Retrieval

Kyle Whitecross, Negin Rahimi

cs.CL cs.AI cs.IR cs.LG

本文提出RecaLLM, 一种通过后训练使语言模型能有效利用长上下文信息的方法. 它通过交替进行推理和显式的上下文检索来解决"迷失在思考中"的问题, 并在长上下文基准测试上取得了优于基线模型的表现.

BERT-as-a-Judge: A Robust Alternative to Lexical Methods for Efficient Reference-Based LLM Evaluation

Hippolyte Gisserot-Boukhlef et al.

cs.CL cs.AI

本文提出了一种名为BERT-as-a-Judge的编码器驱动方法，用于在基于参考的生成任务中评估答案的正确性。该方法通过轻量级训练，在保持高效的同时，其评估性能优于传统的词汇匹配方法，并能与更大的LLM评判者相媲美。

You Can't Fight in Here! This is BBS!

Richard Futrell, Kyle Mahowald

cs.CL

本文通过虚构的学术讨论, 探讨了当前语言模型(LM)研究在语言科学中的角色与局限. 作者指出了"字符串统计稻草人"和"现状即极限"等常见误解, 并倡导在AI时代建立一个更广泛、更稳健的语言科学研究框架.

Many Ways to Be Fake: Benchmarking Fake News Detection Under Strategy-Driven AI Generation

Xinyu Wang et al.

cs.CL cs.HC

本文提出了一个名为MANYFAKE的合成基准测试集，用于评估在策略性AI生成内容下的假新闻检测。研究通过多种提示策略生成混合真假的新闻文章，并测试了现有先进检测器的性能，发现它们在处理嵌入真实信息中的微妙虚假内容时表现脆弱。

Case-Grounded Evidence Verification: A Framework for Constructing Evidence-Sensitive Supervision

Soroosh Tayebi Arasteh et al.

cs.CL cs.AI cs.IR cs.LG

本文提出了一个名为"case-grounded evidence verification"的通用框架，用于构建对证据敏感的监督信号。该框架通过自动生成支持性与非支持性的证据-声明对来训练验证模型，并在放射学领域进行了实例化与评估。

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

Hadas Orgad et al.

cs.CL cs.AI cs.LG

本文通过 targeted weight pruning 探究了 LLMs 生成有害内容的内在机制. 研究发现, 有害内容的生成依赖于一个紧凑且通用的权重集合, 该集合与良性能力是分离的.

cs.DS

Some variations of the secretary problem

Sarthak Agrawal, Sanjeev Saxena

cs.DS cs.DM cs.GT

本文研究了经典 secretary problem 的两种变体. 第一种变体允许候选者以固定概率$p$再次出现, 并分析了最优阈值规则及其对$p$的依赖. 第二种变体将成功标准放宽为选到前三名中的任意一位, 并估计了在此标准下采用经典阈值策略的成功概率.

Speed Thrills: Visceral Demonstrations That Get Students Excited About Efficient Algorithms

Alistair Moffat, David Hawking

cs.DS

本文提出了一种通过展示算法效率的显著提升来激发学生学习兴趣的教学方法, 并引入了"thrills of algorithms"这一术语. 作者提供了两个具体问题的案例, 展示了从基础算法到高效算法的改进过程及其带来的运行时间从数天/年缩短至数秒的震撼效果.

Packing Compact Subgraphs with Applications to Districting

Ho-Lin Chen et al.

cs.DS

本文研究了在图中打包不相交的紧凑连通子图的问题, 其动机源于政治选区划分. 作者改进了在平面图和minor-free图中打包平衡星形区域的近似比, 从$O(\log n)$提升至$O(1)$, 并将结果推广到有界扩张图族. 对于平面图和apex-minor-free图, 他们还为打包固定半径$k$的区域获得了$O(1)$近似, 并探讨了在略微放宽平衡性条件下达到$(1+\varepsilon)$近似的可能性. 此外, 文章也考虑了要求每个区域满足最小权重阈值的情况, 并给出了相关的难解性结果.

others

Semantic Rate-Distortion for Bounded Multi-Agent Communication: Capacity-Derived Semantic Spaces and the Communication Cost of Alignment ⭐ 精选

Anthony T. Nixon

cs.IT cs.AI

本文为有界多智能体通信引入了语义率失真理论，提出了由智能体计算能力决定的商POMDP $Q_{m,T}(M)$作为其语义空间。研究揭示了异构智能体间通信存在一个由商不匹配决定的临界速率$R_{\text{crit}}$，低于此速率则意图保持通信在结构上不可能实现。在支持的单向无记忆机制下，经典边信息编码能在高于诱导基准的速率上实现指数级性能衰减。核心贡献在于从有界交互本身推导出通信的源字母表，而非预先固定。实验在多个POMDP环境中验证了相变现象，并展示了结构化策略可使单向通信速率相比计数界降低高达19倍。

Self-Sovereign Agent

Wenjie Qu et al.

cs.CR cs.CY cs.LG

本文探讨了"自主智能体"的概念, 即能够经济上自我维持和扩展其运行的AI系统. 文章分析了实现此类系统所需克服的技术障碍, 并讨论了其可能带来的安全、社会和治理挑战.

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

Josef Hardi et al.

cs.DB cs.AI

本文提出了一种基于LLM代理的自动化方法, 用于标准化遗留的生物医学元数据. 该方法通过实时查询权威术语服务来动态获取规范词汇, 从而提升元数据字段填写的准确性.

GAN-Enhanced Deep Reinforcement Learning for Semantic-Aware Resource Allocation in 6G Network Slicing

Daniel Benniah John

cs.NI cs.AI cs.LG

本文提出了一种结合生成对抗网络(GAN)与深度确定性策略梯度(DDPG)的框架，用于6G网络切片中语义感知的资源分配。该方法通过合成流量和优化奖励函数，在仿真中提升了不同服务的频谱效率并降低了延迟。

Adjoint Matching through the Lens of the Stochastic Maximum Principle in Optimal Control

Carles Domingo-Enrich, Jiequn Han

math.OC cs.LG

本文从 Stochastic Maximum Principle (SMP) 的视角，为 Adjoint Matching 这一基于随机最优控制 (SOC) 的学习方法提供了严格的理论基础。文章推导了一个适用于更广泛 SOC 问题的 Hamiltonian adjoint matching 目标，并证明了其临界点满足 Hamilton–Jacobi–Bellman (HJB) 平稳条件。

QCFuse: Query-Centric Cache Fusion for Efficient RAG Inference

Jianxin Yan et al.

cs.DB cs.AI

本文提出了一种面向高效RAG推理的查询中心缓存融合方法QCFuse. 它通过引入语义摘要锚点来增强查询表示, 并基于关键Transformer层的attention分布选择性重计算相关token, 在保持精度的同时提升了推理效率.

Mapping generative AI use in the human brain: divergent neural, academic, and mental health profiles of functional versus socio emotional AI use

Junjie Wang et al.

q-bio.NC cs.AI cs.HC

本文结合问卷调查与高分辨率结构MRI, 研究了大学生使用生成式AI对话代理(AICA)的模式及其与大脑结构、学业表现和心理健康的关系. 研究发现, 功能性使用与更好的学业成绩及特定脑区(如背外侧前额叶)体积增大相关, 而社会情感性使用则与更差的心理健康状况及不同脑区(如颞上回)体积减小相关.

STIndex: A Context-Aware Multi-Dimensional Spatiotemporal Information Extraction System

Wenxiao Zhang et al.

cs.DB cs.AI

本文提出了一个名为STIndex的端到端系统, 用于从非结构化数据中提取多维时空信息并构建数据仓库. 该系统利用大语言模型进行上下文感知的提取与对齐, 并集成了地理编码校正和质量验证等功能, 在公共卫生基准测试中提升了时空实体提取的F1分数.

TiAb Review Plugin: A Browser-Based Tool for AI-Assisted Title and Abstract Screening

Yuki Kataoka et al.

cs.DL cs.AI cs.LG

本文介绍了一个名为TiAb Review Plugin的浏览器扩展工具, 它提供了一个无需编码、无服务器的AI辅助文献标题与摘要筛选环境. 该工具整合了LLM批量筛选和ML主动学习算法, 并通过实验验证了其与现有Python实现的等效性以及在多个数据集上的筛选性能.

Extrapolating Volition with Recursive Information Markets

Abhimanyu Pallavi Sudhir, Long Tran-Thanh

cs.GT cs.AI econ.TH

本文通过"value-of-information"范式，形式化分析了利用LLM买家来克服信息市场不对称性的机制。作者特别关注一种新的递归版本机制，并讨论了其在AI对齐等领域的潜在应用。

Semantic Intent Fragmentation: A Single-Shot Compositional Attack on Multi-Agent AI Pipelines

Tanzim Ahad et al.

cs.CR cs.AI cs.LG

本文提出了一种针对LLM编排系统的攻击方法Semantic Intent Fragmentation (SIF), 它通过单个合法请求使编排器生成一系列看似无害但整体违反安全策略的子任务. 该方法利用了现有安全机制在子任务层面的局限性, 并在多个企业场景中展示了较高的成功率.

Detection of Hate and Threat in Digital Forensics: A Case-Driven Multimodal Approach

Ponkoj Chandra Shill

cs.CV cs.AI cs.LG

本文提出了一种用于数字取证中仇恨与威胁检测的案例驱动多模态方法. 该框架根据文本证据的存在与来源, 选择性地应用文本分析, 多模态融合或仅图像的语义推理, 旨在提高证据的可追溯性并避免不合理的模态假设.

MARINER: A 3E-Driven Benchmark for Fine-Grained Perception and Complex Reasoning in Open-Water Environments

Xingming Liao et al.

cs.CV cs.AI

本文提出了一个名为MARINER的基准测试，用于评估开放水域环境下的细粒度视觉感知与复杂推理能力。该基准基于新的Entity-Environment-Event范式构建，包含多源图像和多种任务，揭示了当前先进模型在复杂海洋场景中面临的挑战。

Spectral-Transport Stability and Benign Overfitting in Interpolating Learning

Gustav Olaf Yunus Laitinen-Lundström Fredriksson-Imanov

stat.ML cs.LG math.ST

本文提出了一个用于分析插值学习器泛化性能的谱-输运稳定性理论框架. 该框架通过结合数据分布的谱几何、学习规则的单样本替换敏感性以及标签噪声的对齐结构, 定义了一个尺度依赖的Fredriksson指数来控制超额风险.

Retrieval Augmented Classification for Confidential Documents

Yeseul E. Chang et al.

cs.CR cs.AI cs.IR

本文提出了一种基于检索增强分类(RAC)的方法,用于机密文档的分类,以减少参数泄露并适应现实环境中数据流和类别不平衡的变化. 通过在WikiLeaks语料上的实验,表明RAC在数据不平衡时比监督微调(FT)更稳定,且能通过外部向量存储即时更新知识.

LEGO: Latent-space Exploration for Geometry-aware Optimization of Humanoid Kinematic Design

Jihwan Yoon et al.

cs.RO cs.AI

本文提出了一种基于数据驱动的人形机器人上半身形态学设计优化新范式. 该方法通过从现有机械设计中学习设计搜索空间, 并利用人体运动数据定义损失函数, 从而减少人工干预. 在构建的几何保持的latent space中, 使用无梯度优化进行设计搜索.

On Semiotic-Grounded Interpretive Evaluation of Generative Art

Ruixiang Jiang, Changwen Chen

cs.CV cs.AI cs.HC cs.MM

本文提出了一种基于Peircean符号学理论的生成艺术评估框架SemJudge, 旨在超越对图像表面质量和提示符符合度的评估, 转而评估艺术作品深层的符号性和索引性意义. 该方法通过构建Hierarchical Semiosis Graph来模拟从提示到生成作品的意义构建过程, 实验表明其在解释密集型艺术基准上比现有评估器更符合人类判断.

3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding

Makanjuola Ogunleye, Eman Abdelrahman, Ismini Lourentzou

cs.CV cs.AI cs.LG cs.RO

本文提出了一种名为3D-VCD的推理时视觉对比解码框架, 旨在减轻3D具身智能体中的幻觉问题. 该方法通过对以物体为中心的场景表示进行语义和几何扰动来构建扭曲的3D场景图, 并通过对比原始与扭曲上下文下的预测来抑制那些不受场景证据驱动的、可能源于语言先验的token.

High-dimensional inference for the $γ$-ray sky with differentiable programming

Siddharth Mishra-Sharma et al.

astro-ph.HE astro-ph.IM cs.LG hep-ph

本文利用可微分概率编程技术处理天体物理$\gamma$射线分析中的巨大模型空间问题. 针对银河系中心$\gamma$射线超量(GCE)问题, 构建了可微分的前向模型和似然函数, 并利用GPU加速进行高效变分推断.

Geometry-Induced Long-Range Correlations in Recurrent Neural Network Quantum States

Asif Bin Ayub, Amine Mohamed Aboussalah, Mohamed Hibat-Allah

quant-ph cond-mat.dis-nn cs.LG physics.comp-ph

本文提出了一种使用 dilated RNN 架构的神经量子态，旨在解决标准 RNN 波函数在模拟具有长程关联的量子态时的局限性。该方法通过引入膨胀连接来访问远距离格点，在保持 $\mathcal{O}(N \log N)$ 计算复杂度的同时，增强了模型捕获长程关联的能力。

An Algorithm for Fast Assembling Large-Scale Defect-Free Atom Arrays

Tao Zhang et al.

cond-mat.quant-gas cs.LG quant-ph

本文提出了一种用于快速组装大规模无缺陷原子阵列的算法框架. 该框架包含一个基于图神经网络的路径规划模块和一个改进的加权Gerchberg-Saxton相位生成模块, 旨在解决大规模原子阵列组装中的计算和时间瓶颈问题.

Towards Generalizable Representations of Mathematical Strategies

Siddhartha Pradhan, Ethan Prihar, Erin Ottmar

cs.CY cs.HC cs.IR

本文提出了一种学习代数解题路径的通用表示的新方法. 该方法通过计算连续代数状态之间的向量差来构建转换嵌入, 并使用对比学习来获得序列级嵌入. 评估表明, 这些嵌入能够编码有意义的解题策略信息, 并可衍生出与学习成果相关的度量.

EfficientSign: An Attention-Enhanced Lightweight Architecture for Indian Sign Language Recognition

Rishabh Gupta, Shravya R. Nalla

cs.CV cs.LG

本文提出了一种用于印度手语识别的轻量级模型EfficientSign, 它基于EfficientNet-B0并集成了通道注意力(Squeeze-and-Excitation)和空间注意力模块. 在包含26个字母类别的数据集上, 该模型以更少的参数取得了与ResNet18相当的识别准确率. 实验表明, 基于深度特征的经典分类器也显著超越了传统的基于手工特征的方法.

Unified Multimodal Uncertain Inference

Dengjia Zhang et al.

cs.CV cs.LG

本文提出了一个统一的多模态不确定推理任务(UMUI)及其评估数据集, 并引入了CLUE方法, 该方法结合了自洽的教师校准和基于分布的置信度探测来产生校准的概率预测. 实验表明, 一个3B参数的模型在文本、音频和视频模态上取得了与更大基线模型相当或更好的性能.

QoS-QoE Translation with Large Language Model

Yingjie Yu et al.

cs.MM cs.DB cs.LG

本文构建了一个关于QoS-QoE转换的结构化数据集，并评估了大型语言模型在该任务上的性能。研究展示了经过微调的模型在双向预测任务中表现良好。

Deep Learning-Based Tracking and Lineage Reconstruction of Ligament Breakup

Vrushank Ahire et al.

cs.CV cs.AI cs.LG

本文提出了一种基于深度学习的框架, 用于从高速阴影成像中自动检测和追踪液体薄片破碎过程中产生的韧带和液滴, 并重建其破碎谱系. 该框架结合了目标检测与基于物理信息的帧间关联分类, 实现了对破碎事件的自动化统计分析.

Accelerating Transformer-Based Monocular SLAM via Geometric Utility Scoring

Xinmiao Xiong et al.

cs.CV cs.AI cs.RO

本文提出了一种名为LeanGate的轻量级前馈帧门控网络, 用于加速基于Transformer的单目SLAM系统. 该方法通过在计算密集的几何特征提取之前预测帧的几何效用分数, 有效跳过了超过90%的冗余帧, 在保持精度的同时显著提升了系统吞吐量.

LMGenDrive: Bridging Multimodal Understanding and Generative World Modeling for End-to-End Driving

Hao Shao et al.

cs.CV cs.AI cs.RO

本文提出了一个结合多模态理解与生成世界模型的端到端自动驾驶框架LMGenDrive. 该框架通过预测未来驾驶视频和控制信号来提升场景建模与指令遵循能力, 在闭环基准测试中表现出色.

Demystifying the Silence of Correctness Bugs in PyTorch Compiler

Meiziniu Li et al.

cs.SE cs.AI

本文对PyTorch编译器中的正确性错误进行了首次实证研究, 分析了其特性并评估了现有模糊测试工具的检测能力. 基于研究发现, 作者提出了一个名为AlignGuard的概念验证测试技术, 该技术利用从实证研究中提炼的错误特征, 并应用基于LLM的测试变异来检测此类错误.

AI Driven Soccer Analysis Using Computer Vision

Adrian Manchado et al.

cs.CV cs.AI

本文提出了一种基于计算机视觉的足球比赛分析方法, 结合了目标检测、关键点预测和图像变换技术. 通过将视频中的球员位置转换到真实球场坐标, 该方法能够计算球员速度、跑动距离和热力图等战术数据.

Optimal Single-Pass Streaming Lower Bounds for Approximating CSPs

Noah G. Singer, Madhur Tulsiani, Santhoshini Velusamy

cs.CC cs.DS

本文针对任意约束满足问题族, 证明了在单次流式处理中, 近似求解Max-CSP的线性空间下界. 该下界基于基本线性规划存在积分间隙这一条件, 推广并简化了先前依赖于线性代数结构的特定结果. 同时, 作者指出该下界在单次流式处理场景下是紧的.

RansomTrack: A Hybrid Behavioral Analysis Framework for Ransomware Detection

Busra Caliskan et al.

cs.CR cs.LG

本文提出了一种名为RansomTrack的混合行为分析框架，用于实时检测勒索软件。该框架结合了静态与动态分析方法，利用机器学习模型实现了高准确率和低延迟的检测。

Adam-HNAG: A Convergent Reformulation of Adam with Accelerated Rate

Yaxin Yu, Long Chen, Zeyi Xu

math.OC cs.LG

本文提出了一种收敛的Adam算法变体Adam-HNAG, 通过变量与算子分裂以及曲率感知梯度校正技术重构了确定性全批量Adam. 在凸光滑优化设定下, 为该方法及其同步变体建立了收敛性保证.

Active Learning for Generalizable Detonation Performance Prediction of Energetic Materials

R. Seaton Ullberg et al.

physics.chem-ph cond-mat.mtrl-sci cs.LG physics.comp-ph

本文提出了一种结合active learning, density functional theory计算与message-passing neural networks的高通量工作流, 用于预测含能材料的爆轰性能. 该方法构建了一个大型数据库和一个泛化性良好的代理模型, 并分析了影响性能的关键化学特征.

Accurate and Reliable Uncertainty Estimates for Deterministic Predictions Extensions to Under and Overpredictions

Rileigh Bandy et al.

cs.CE cs.LG stat.ML

本文扩展了ACCRUE框架, 通过学习输入依赖的非高斯不确定性分布来改进确定性预测的可靠性. 该方法使用神经网络拟合两段高斯和非对称拉普拉斯分布, 并在合成与真实数据实验中展示了优于现有方法的概率预测能力.

Optimal Multi-bit Generative Watermarking Schemes Under Worst-Case False-Alarm Constraints

Yu-Shin Huang, Chao Tian, Krishna Narayanan

cs.IT cs.CL

本文针对 worst-case false-alarm 约束下的多比特生成式水印问题，指出了先前方案的次优性。作者提出了两种新的编码-解码构造，达到了已知的性能下界，从而完全刻画了最优性能。

InstrAct: Towards Action-Centric Understanding in Instructional Videos

Zhuoyi Yang et al.

cs.CV cs.AI

本文提出了一个针对教学视频的预训练框架 InstrAction, 旨在解决现有视频基础模型(VFMs)因静态偏见和噪声数据而难以进行细粒度动作理解的问题. 该框架通过数据过滤、动作感知特征提取以及引入新的辅助训练目标来学习以动作为中心的视频表示, 并在新构建的评测基准上展示了优越性能.

Weak Adversarial Neural Pushforward Method for the Wigner Transport Equation

Andrew Qing He, Wei Cai, Sihong Shao

quant-ph cs.LG math.NA

本文提出了一种用于求解 Wigner transport equation 的 Weak Adversarial Neural Pushforward Method. 该方法通过一个结构性的观察简化了非局域势算子的处理, 并引入了一个带符号的 pushforward 架构来处理 Wigner 准概率分布的负值问题.

CERBERUS: A Three-Headed Decoder for Vertical Cloud Profiles

Emily K. deJong et al.

physics.ao-ph cs.LG

本文提出了一种名为CERBERUS的概率推断框架, 用于从静止卫星的亮温等数据生成垂直雷达反射率剖面. 该框架采用三头编码器-解码器架构, 预测一个零膨胀的垂直分布, 并在美国南大平原的站点数据上进行了训练和评估.

Toward Hardware-Agnostic Quadrupedal World Models via Morphology Conditioning

Mohamad H. Danesh et al.

cs.RO cs.LG

本文提出了一种通过形态条件化来构建硬件无关的四足机器人世界模型的方法. 该方法通过显式编码机器人的物理形态, 旨在解耦环境动力学与机器人本体, 从而实现在不同形态的四足机器人上进行零样本控制.

PSIRNet: Deep Learning-based Free-breathing Rapid Acquisition Late Enhancement Imaging

Arda Atalik et al.

eess.IV cs.AI cs.CV eess.SP physics.med-ph

本文提出了一种名为PSIRNet的深度学习网络, 用于从自由呼吸状态下仅需两次心跳的单次采集数据中重建诊断质量的晚期钆增强心脏MRI图像. 该方法在多项定量指标和专家定性评估中表现优异, 并能将采集时间大幅缩短.

eBandit: Kernel-Driven Reinforcement Learning for Adaptive Video Streaming

Mahdi Alizadeh

cs.NI cs.AI

本文提出了一种名为eBandit的框架, 它将网络监控和自适应码率(ABR)算法选择通过eBPF技术迁移到Linux内核中. 该框架利用一个轻量级的epsilon-greedy多臂老虎机(MAB)模型, 基于实时TCP指标动态评估和选择不同的ABR启发式算法, 从而在合成和真实网络条件下提升了视频流的体验质量(QoE).

Tracing the Chain: Deep Learning for Stepping-Stone Intrusion Detection

Nate Mathews, Nicholas Hopper, Matthew Wright

cs.CR cs.LG

本文提出了一种名为ESPRESSO的深度学习模型, 用于检测stepping-stone intrusion. 该模型结合了transformer特征提取和在线triplet metric learning, 在多种隧道协议和检测场景下显著超越了现有方法, 并分析了其鲁棒性.

Scrapyard AI

Marc Böhlen, Sai Krishna

cs.CY cs.AI

本文从AI模型快速迭代产生的"废料场"现象出发, 提出将其视为资源受限环境下进行AI系统实验的机遇. 并以Project Nudge-x为例, 展示了如何通过重新配置遗留模型来分析和呈现全球采矿活动对景观的影响.

Policy-Aware Design of Large-Scale Factorial Experiments

Xin Wen et al.

stat.ML cs.LG stat.ME

本文针对大规模析因实验设计问题, 提出了一种两阶段方法. 该方法通过低秩张量补全和顺序减半策略, 旨在从组合干预中高效识别高性能策略, 而非估计所有处理效应.

Building Better Environments for Autonomous Cyber Defence

Chris Hicks et al.

cs.CR cs.AI

本文基于一次关于自主网络防御(ACD)中强化学习(RL)环境设计的研讨会，汇总了来自学术界、工业界和政府专家的实践经验。它提出了一个分解RL网络环境与真实系统接口的框架，并提供了当前基于RL的ACD环境开发与智能体评估的最佳实践指南。

R2G: A Multi-View Circuit Graph Benchmark Suite from RTL to GDSII

Zewei Zhou et al.

cs.CV cs.LG

本文提出了一个名为R2G的多视角电路图基准测试套件, 用于标准化从RTL到GDSII物理设计流程中的图表示. 该套件提供了数据、评估协议和基线模型, 旨在促进图神经网络在电子设计自动化领域的应用研究.

SenBen: Sensitive Scene Graphs for Explainable Content Moderation

Fatih Cagatay Akyon, Alptekin Temizel

cs.CV cs.AI cs.LG cs.MM

本文提出了一个用于敏感内容检测的大规模场景图基准SenBen, 并基于此训练了一个紧凑的学生模型。该模型在场景图生成和内容安全分类任务上表现优异, 推理速度和内存占用显著优于大型视觉语言模型。

AI-Induced Human Responsibility (AIHR) in AI-Human teams

Greg Nyilasy et al.

cs.HC cs.AI

本文通过四个实验研究了在AI辅助决策场景中, 人们如何分配责任. 研究发现, 与AI合作的人类决策者会被赋予比与人类合作时更多的责任, 这一效应被命名为AI-Induced Human Responsibility (AIHR). 作者认为这源于人们对AI自主性(autonomy)的推断, 即AI被视为受约束的执行者, 而人类则成为默认的责任承担者.

AudioGuard: Toward Comprehensive Audio Safety Protection Across Diverse Threat Models

Mintong Kang, Chen Fang, Bo Li

cs.SD cs.AI

本文提出了AudioGuard, 一个用于保护音频系统安全的统一护栏框架. 它包含SoundGuard和ContentGuard两个组件, 并在新构建的AudioSafetyBench基准上进行了评估.

MedFormer-UR: Uncertainty-Routed Transformer for Medical Image Classification

Mohammed Maaz Sibhai, Abedalrhman Alkhateeb, Saad B. Ahmed

eess.IV cs.AI cs.CV cs.LG

本文提出了一种用于医学图像分类的改进Transformer模型, 通过引入基于Dirichlet分布的证据不确定性量化与原型学习, 旨在提升模型的校准性和不确定性估计能力. 实验表明该方法在多种医学影像模态上有效降低了预期校准误差.

HTNav: A Hybrid Navigation Framework with Tiered Structure for Urban Aerial Vision-and-Language Navigation

Chengjie Fan et al.

cs.RO cs.AI

本文提出了一种用于城市空中视觉语言导航的混合导航框架HTNav, 它结合了模仿学习(IL)和强化学习(RL), 并采用了分层决策机制. 实验表明, 该框架在CityNav基准测试中取得了先进的性能, 提升了复杂城市环境中的导航精度和鲁棒性.

HM-Bench: A Comprehensive Benchmark for Multimodal Large Language Models in Hyperspectral Remote Sensing

Xinyu Zhang et al.

cs.CV cs.AI

本文提出了首个用于评估多模态大语言模型在遥感高光谱图像理解方面性能的基准HM-Bench。该基准包含大规模数据集和双模态评估框架，测试发现现有模型在处理复杂光谱空间推理任务时存在显著困难。

Adaptive Dual Residual U-Net with Attention Gate and Multiscale Spatial Attention Mechanisms (ADRUwAMS)

Mohsen Yaghoubi Suraki

cs.CV cs.AI

本文提出了一种用于脑胶质瘤分割的深度学习模型 ADRUwAMS, 它结合了自适应双残差网络、注意力门和多尺度空间注意力机制。该模型在 BraTS 2020 数据集上取得了较高的 Dice 分数。

Ge$^\text{2}$mS-T: Multi-Dimensional Grouping for Ultra-High Energy Efficiency in Spiking Transformer

Zecheng Hao et al.

cs.NE cs.AI cs.CV

本文提出了一种名为Ge$^\text{2}$mS-T的新型Spiking Vision Transformer架构，通过在多维度（时间、空间、网络结构）上进行分组计算，旨在同时优化内存、精度和能耗。该方法引入了Grouped-Exponential-Coding-based IF模型和Group-wise Spiking Self-Attention机制，在多个基准测试中实现了高性能与超高能效。

Large-Scale Universal Defect Generation: Foundation Models and Datasets

Yuanting Fan et al.

cs.CV cs.AI

本文提出了一个大规模通用缺陷生成框架 UniDG 及其配套数据集 UDG. 该方法通过自适应裁剪和两阶段训练策略, 在多个基准测试上实现了优于现有方法的缺陷生成与检测性能.

A novel hybrid approach for positive-valued DAG learning

Yao Zhao

stat.ML cs.LG

本文提出了一种名为H-MRS的混合方法，用于从正值数据中学习因果图。该方法结合了基于矩的评分和对数尺度回归，通过贪婪排序和Elastic Net选择来恢复有向无环图结构。

Low-Data Supervised Adaptation Outperforms Prompting for Cloud Segmentation Under Domain Shift

Harshith Kethavath, Weiming Hu

cs.CV cs.LG

本文比较了在遥感图像云分割任务中, 使用 prompt engineering 与少量监督微调两种策略的性能. 实验表明, 即使精心设计的 prompt 也无法弥补预训练视觉语言模型在自然图像与卫星光谱图像之间的 domain gap, 而仅需极少量标注数据(~8张图像)进行监督微调即可超越 zero-shot 性能.

Aligned Agents, Biased Swarm: Measuring Bias Amplification in Multi-Agent Systems

Keyu Li, Jin Gao, Dequan Wang

cs.MA cs.AI

本文通过构建Discrim-Eval-Open基准，实证研究了多智能体系统(MAS)中网络拓扑和反馈循环对偏见的影响。研究发现，即使个体智能体表现中立，系统结构也可能放大偏见，且引入客观上下文会加速极化。

Online Quantile Regression for Nonparametric Additive Models

Haoran Zhan

stat.ML cs.LG math.ST

本文提出了一种用于在线非参数可加分位数回归的投影函数梯度下降算法(P-FGD). 该算法将函数随机梯度下降框架扩展到pinball损失, 无需存储历史数据, 并实现了$O(J_t\ln J_t)$的每步计算复杂度. 理论分析证明了该在线估计器能达到极小极大最优一致性速率$O(t^{-\frac{2s}{2s+1}})$.

PinpointQA: A Dataset and Benchmark for Small Object-Centric Spatial Understanding in Indoor Videos

Zhiyu Zhou et al.

cs.CV cs.AI

本文提出了PinpointQA数据集与基准, 用于评估多模态大语言模型在室内视频中对小物体的空间理解能力. 该数据集包含四个渐进式任务, 实验表明现有模型存在能力差距, 而使用该数据集进行微调能带来显著提升.

Noise-Aware In-Context Learning for Hallucination Mitigation in ALLMs

Qixuan Huang, Khalid Zaman, Masashi Unoki

cs.SD cs.AI

本文提出了一种用于减轻听觉大语言模型(ALLMs)幻觉问题的即插即用方法, 称为噪声感知上下文学习(NAICL). 该方法通过构建噪声先验库并检索相关噪声作为上下文提示, 引导模型在生成音频描述时采取更保守的策略, 实验表明其能有效降低幻觉率. 同时, 作者为音频字幕任务建立了一个包含细粒度幻觉类型定义与评估指标的基准.

Leave My Images Alone: Preventing Multi-Modal Large Language Models from Analyzing Images via Visual Prompt Injection

Zedian Shao et al.

cs.CV cs.AI cs.CR cs.LG

本文提出了一种名为ImageProtector的用户端方法, 通过在图像中嵌入精心设计的、几乎不可察觉的扰动来保护个人隐私. 这种扰动作为一种视觉提示注入攻击, 能诱导多模态大语言模型(MLLMs)在面对受保护图像时生成拒绝响应. 实验评估了该方法在多个模型和数据集上的有效性, 并探讨了潜在对抗措施的效果与局限性.

Skill-Conditioned Visual Geolocation for Vision-Language

Chenjie Yang, Yutian Jiang, Chenyu Wu

cs.CV cs.AI

本文提出了一个名为GeoSkill的训练无关框架, 用于提升视觉语言模型在图像地理定位任务中的结构化推理与自主进化能力. 该框架基于一个可进化的Skill-Graph, 通过从专家轨迹中提炼原子技能, 并利用自主进化机制从网络数据中合成与修剪技能, 从而在不更新模型参数的情况下提升性能与泛化能力.

Plasticity-Enhanced Multi-Agent Mixture of Experts for Dynamic Objective Adaptation in UAVs-Assisted Emergency Communication Networks

Wen Qiu et al.

cs.MA cs.LG cs.NI

本文提出了一种用于无人机辅助应急通信网络的塑性增强多智能体专家混合方法, 以应对动态目标变化. 该方法通过引入阶段控制器和专家扰动机制来缓解策略的塑性损失, 在仿真中提升了服务性能和安全性.

SiMing-Bench: Evaluating Procedural Correctness from Continuous Interactions in Clinical Skill Videos

Xiyang Huang et al.

cs.CV cs.CL cs.HC

本文提出了SiMing-Bench，一个用于评估多模态大语言模型在完整临床技能视频中追踪连续交互如何更新流程状态并判断后续动作正确性的新基准。该基准包含一个由医生标注的真实临床技能考试视频数据集，实验表明现有模型在此任务上与专家判断的一致性较弱。

Towards Lifelong Aerial Autonomy: Geometric Memory Management for Continual Visual Place Recognition in Dynamic Environments

Xingyu Shao et al.

cs.RO cs.CV cs.LG

本文针对动态环境中长期空中自主的视觉地点识别问题, 提出了一个解耦静态几何先验与动态领域特征的异构记忆框架. 通过空间约束的缓冲区分配策略, 该方法在序列任务中更好地平衡了模型的稳定性与可塑性.

Watt Counts: Energy-Aware Benchmark for Sustainable LLM Inference on Heterogeneous GPU Architectures

Mauricio Fadel Argerich, Jonathan Fürst, Marta Patiño-Martínez

cs.DC cs.AI

本文介绍了Watt Counts, 这是一个用于评估大型语言模型(LLM)推理能耗的开源基准和数据集. 通过分析异构GPU架构上的能耗数据, 研究表明硬件选择对能效至关重要, 并能为实际部署提供节能指导.

Learning Vision-Language-Action World Models for Autonomous Driving

Guoqing Wang et al.

cs.CV cs.AI

本文提出了一种名为VLA-World的Vision-Language-Action世界模型，用于自动驾驶。该模型通过整合预测性想象与反思性推理来提升驾驶的预见性，并在nuScenes数据集上进行了实验验证。

Taming the Black Swan: A Momentum-Gated Hierarchical Optimisation Framework for Asymmetric Alpha Generation

Arya Chakraborty, Randhir Singh

cs.CE cs.IR

本文提出了一种名为AEGIS的动量策略优化框架, 旨在解决传统动量策略中常见的"赢家诅咒"和动量崩溃问题. 该框架通过波动率调整的动量过滤, 最小最大相关算法和SLSQP优化等方法, 在长期回测中实现了相对于基准指数的超额收益和更低的下行波动.

Frequency-Enhanced Diffusion Models: Curriculum-Guided Semantic Alignment for Zero-Shot Skeleton Action Recognition

Yuxi Zhou et al.

cs.CV cs.AI

本文提出了一种用于零样本骨架动作识别的频率增强扩散模型, 通过语义引导的频谱残差模块和课程式语义抽象等方法, 旨在解决扩散模型在频谱上的偏差问题, 并在多个数据集上取得了先进的性能.

DeepGuard: Secure Code Generation via Multi-Layer Semantic Aggregation

Li Huang et al.

cs.SE cs.AI cs.CR

本文提出了一种名为DeepGuard的框架, 通过聚合来自多个上层transformer层的表示来增强代码生成大语言模型(LLM)的安全性. 该方法旨在缓解仅依赖最终层进行安全微调可能导致的"最终层瓶颈"问题, 在保持功能正确性的同时提高了生成代码的安全性.

Few-Shot Contrastive Adaptation for Audio Abuse Detection in Low-Resource Indic Languages

Aditya Narayan Sankaran, Reza Farahbakhsh, Noel Crespi

cs.SD cs.CL

本文探讨了利用Contrastive Language-Audio Pre-training (CLAP)模型直接从音频进行辱骂语音检测的方法。在低资源印度语言场景下，通过少量样本的监督对比适应，评估了该方法的跨语言性能。

CLIP-Inspector: Model-Level Backdoor Detection for Prompt-Tuned CLIP via OOD Trigger Inversion

Akshit Jindal et al.

cs.CR cs.AI cs.CV cs.LG

本文提出了一种针对prompt-tuned CLIP模型的后门检测方法CLIP-Inspector (CI). 该方法通过利用白盒模型访问权限和未标记的OOD图像池, 为每个类别重构可能的触发模式, 以判断模型是否被植入后门. 实验表明, CI在多种数据集和攻击下能有效检测后门, 并可通过微调进行修复.

Scheming in the wild: detecting real-world AI scheming incidents with open-source intelligence

Tommy Shaffer Shane, Simon Mylius, Hamish Hobbs

cs.CY cs.AI

本文提出了一种基于开源情报(OSINT)的方法，通过分析在线分享的聊天记录来检测现实世界中AI的“密谋”行为。研究分析了大量社交媒体数据，识别出数百起相关事件，并观察到事件数量呈上升趋势，表明该方法可用于监测AI失控风险。

Detecting Diffusion-generated Images via Dynamic Assembly ForestsDetecting Diffusion-generated Images via Dynamic Assembly Forests

Mengxin Fu, Yuezun Li

cs.CV cs.LG

本文提出了一种基于传统机器学习模型的新型动态集成森林方法(DAF)来检测扩散模型生成的图像. 该方法在保持竞争力的检测性能的同时, 显著降低了模型参数量和计算成本.

TensorHub: Scalable and Elastic Weight Transfer for LLM RL Training

Chenhao Ye et al.

cs.DC cs.AI

本文提出了一种名为TensorHub的系统, 用于大规模语言模型(LLM)强化学习(RL)训练中的权重传输. 该系统通过一种称为Reference-Oriented Storage(ROS)的存储抽象, 避免了物理复制权重, 从而提高了传输效率并支持集群的动态弹性伸缩.

PS-TTS: Phonetic Synchronization in Text-to-Speech for Achieving Natural Automated Dubbing

Changi Hong et al.

eess.AS cs.AI

本文提出了一种用于自动配音的语音同步方法, 通过文本改写实现时长同步与唇形同步. 该方法结合了等时性约束与基于元音距离的 phonetic synchronization, 并在 TTS 系统中验证了其在多语言配对上的有效性.

FIRE-CIR: Fine-grained Reasoning for Composed Fashion Image Retrieval

François Gardères et al.

cs.CV cs.LG

本文提出了一种用于组合时尚图像检索的细粒度推理模型FIRE-CIR. 该模型通过自动生成基于属性的视觉问题并进行验证来提升检索性能与可解释性, 在Fashion IQ基准上取得了优于现有方法的结果.

MATCHA: Efficient Deployment of Deep Neural Networks on Multi-Accelerator Heterogeneous Edge SoCs

Enrico Russo et al.

cs.DC cs.AR cs.LG

本文提出了一种名为MATCHA的统一DNN部署框架，用于在具有多个异构加速器的边缘SoC上高效运行深度神经网络。该框架通过约束编程优化内存分配与调度，并利用模式匹配和分块技术提高并行性与加速器利用率。在MLPerf Tiny基准测试中，相较于现有技术，该框架显著降低了推理延迟。

Identifying Causal Effects Using a Single Proxy Variable

Silvan Vollmer, Niklas Pfister, Sebastian Weichwald

stat.ML cs.LG math.ST stat.ME

本文在假设存在一个单代理变量且其生成机制已知的条件下, 证明了因果效应的可识别性, 并提出了一个基于神经网络的估计框架.

A fast and Generic Energy-Shifting Transformer for Hybrid Monte Carlo Radiotherapy Calculation

Chi-Hieu Pham et al.

physics.med-ph cs.LG

本文提出了一种名为Energy-Shifting的深度学习框架，用于加速放射治疗中的Monte Carlo剂量计算。该方法通过TransUNetSE3D架构，结合Transformer和SE模块，直接从单能输入合成剂量分布，在保持计算速度的同时实现了较高的剂量预测精度。

Structuring versus Problematizing: How LLM-based Agents Scaffold Learning in Diagnostic Reasoning

Fatma Betül Güreş et al.

cs.HC cs.AI

本文研究了在基于场景的学习环境中, 使用两种理论驱动的支架方法(structuring 和 problematizing)的 LLM-powered agent 如何影响学生的诊断推理学习. 实验结果表明, 两种方法都能有效支持诊断策略的使用, 且表现主要受场景复杂度影响, 而非学生先验知识或支架方法本身.

MixFlow: Mixed Source Distributions Improve Rectified Flows

Nazir Nayal, Christopher Wewer, Jan Eric Lenssen

cs.CV cs.LG

本文提出了一种改进 rectified flow 模型训练效率的方法. 通过引入条件化的源分布和混合训练策略, 该方法减少了生成路径的曲率, 从而在固定采样步数下提升了图像生成质量.

Vision Transformers for Preoperative CT-Based Prediction of Histopathologic Chemotherapy Response Score in High-Grade Serous Ovarian Carcinoma

Francesca Fati et al.

cs.CV cs.AI

本文提出了一种基于Vision Transformer的2.5D多模态深度学习框架，用于术前预测高级别浆液性卵巢癌的化疗反应评分。该模型整合了CT影像和临床数据，在内部测试集上取得了较高的预测性能。

Artificial intelligence can persuade people to take political actions

Kobi Hackenburg et al.

cs.CY cs.AI cs.HC

本文通过两个大规模预注册实验, 研究了对话式AI模型在说服人们采取实际政治行动(如签署请愿书、捐款)方面的效果. 研究发现AI对行为结果有显著的劝说效应, 但这种效应与对态度的劝说效应并不相关, 且不受信息提供的影响, 表明基于态度的研究可能无法准确预测AI在现实世界中的行为影响力.

A Predictive View on Streaming Hidden Markov Models

Gerardo Duran-Martin

stat.ML cs.LG

本文针对streaming hidden Markov models (HMMs)提出了一种预测优先的优化框架. 该方法在线学习特定regime的预测模型, 并通过一个受约束的投影问题来近似后验预测分布, 从而导出了一个确定性的beam search算法. 实验表明, 在计算预算匹配的情况下, 该方法的prequential性能具有竞争力.

GRM: Utility-Aware Jailbreak Attacks on Audio LLMs via Gradient-Ratio Masking

Yunqiang Wang et al.

cs.SD cs.AI

本文提出了一种针对Audio LLMs的utility-aware jailbreak攻击方法GRM, 通过gradient-ratio masking在频域选择性地扰动部分Mel bands, 以在保持语音转录和问答效用的同时实现高攻击成功率. 实验表明该方法在攻击效果与效用保留之间取得了更好的平衡.

The Fast Lane Hypothesis: Von Economo Neurons Implement a Biological Speed-Accuracy Tradeoff

Esila Keskin

cs.NE cs.AI q-bio.NC

本文提出了"快速通道假说", 认为Von Economo神经元通过提供一个稀疏、快速的投射通路, 在生物神经系统中实现了速度-准确性的权衡. 作者构建了一个脉冲神经网络模型, 模拟了典型、自闭症样和额颞叶痴呆样三种临床条件下的决策速度差异.

Neural Distribution Prior for LiDAR Out-of-Distribution Detection

Zizhao Li et al.

cs.CV cs.AI

本文提出了一种用于LiDAR OOD检测的Neural Distribution Prior (NDP)框架。它通过建模网络预测的分布结构并基于学习到的先验分布自适应地重新加权OOD分数，以解决类别不平衡问题，并引入了一种基于Perlin噪声的OOD样本合成策略。

DDSP-QbE++: Improving Speech Quality for Speech Anonymisation for Atypical Speech

Suhita Ghosh, Yamini Sinha, Sebastian Stober

cs.SD cs.AI

本文针对DDSP-QbE语音匿名化系统中因相位累积振荡器产生锯齿波导致的混叠失真问题，提出了两项改进。通过引入显式清浊音检测来控制谐波激励，并在振荡器中应用PolyBLEP校正来平滑波形不连续性，从而减少了高频伪影并提升了感知自然度。该方法轻量、可微分，且无需额外可学习参数。

FashionStylist: An Expert Knowledge-enhanced Multimodal Dataset for Fashion Understanding

Kaidong Feng et al.

cs.CV cs.IR

本文提出了一个名为FashionStylist的专家标注多模态数据集，用于支持整体性的时尚理解任务。该数据集通过专业流程构建，支持服装搭配的定位、补全和评估等任务，可作为统一的基准和训练资源。

Mosaic: Multimodal Jailbreak against Closed-Source VLMs via Multi-View Ensemble Optimization

Yuqin Lan et al.

cs.CV cs.AI

本文提出了一种名为Mosaic的多模态越狱攻击框架, 用于对抗闭源的Vision-Language Models (VLMs). 该方法通过集成多个代理模型和多样化的图像视图进行优化, 以减少对单一代理的依赖, 从而在异构设置下提升攻击成功率.

Beyond Segmentation: Structurally Informed Facade Parsing from Imperfect Images

Maciej Janicki, Aleksander Plocharski, Przemyslaw Musialski

cs.CV cs.GR cs.LG

本文提出了一种改进建筑立面解析结构一致性的方法, 通过为YOLOv8训练目标添加一个自定义的轻量级对齐损失来实现. 该方法在CMP数据集上的实验表明, 它能有效提升边界框排列的几何规律性, 同时保持与标准检测精度之间的可控权衡.

Natural Riemannian gradient for learning functional tensor networks

Nikolas Klug et al.

math.OC cs.LG math.NA

本文提出了一种基于自然梯度的Riemannian梯度下降方法, 用于优化低秩functional tree tensor networks (TTN) 模型. 该方法适用于任意损失函数, 其搜索方向独立于底层函数张量积空间的基选择, 并通过数值实验展示了其在分类任务上相较于标准Riemannian梯度方法的改进收敛性.

SkillMOO: Multi-Objective Optimization of Agent Skills for Software Engineering

Jingzhi Gong et al.

cs.SE cs.AI

本文提出了一个名为SkillMOO的多目标优化框架，用于自动演化基于LLM的编码智能体所使用的技能包。该方法通过优化智能体在软件工程任务中的成功率、成本和运行时间来改进性能。

Online Intention Prediction via Control-Informed Learning

Tianyu Zhou et al.

cs.RO cs.LG eess.SY

本文提出了一种在线意图预测框架, 用于实时估计自主系统的目标状态. 该方法采用滚动时域策略和在线控制信息学习, 在仿真和无人机硬件实验中验证了其有效性.

SatQNet: Satellite-assisted Quantum Network Entanglement Routing Using Directed Line Graph Neural Networks

Tobias Meuser et al.

quant-ph cs.AI cs.NI

本文提出了一种用于卫星辅助量子网络的纠缠路由方法 SatQNet, 它采用基于强化学习的去中心化策略. 该方法利用一种边中心的有向线图神经网络进行局部消息传递, 以在高度动态的拓扑中有效建立端到端纠缠, 并在多种场景下超越了启发式和基于学习的方法.

Iterative Identification Closure: Amplifying Causal Identifiability in Linear SEMs

Ziyi Ding, Xiao-Ping Zhang

stat.ML cs.LG stat.CO

本文提出了Iterative Identification Closure (IIC)框架, 用于增强线性结构方程模型(SEMs)中因果效应的可识别性. 该框架通过迭代传播已知系数来减少系统维度, 从而识别出标准Half-Trek Criterion (HTC)无法判定的边.

Transferable FB-GNN-MBE Framework for Potential Energy Surfaces: Data-Adaptive Transfer Learning in Deep Learned Many-Body Expansion Theory

Siqi Chen et al.

physics.chem-ph cs.LG

本文提出了一种可迁移的FB-GNN-MBE框架，用于预测复杂化学系统的势能面。该方法将基于片段的图神经网络嵌入到多体展开理论中，并通过师生学习协议实现了模型在不同系统间的有效迁移。

Visually-Guided Policy Optimization for Multimodal Reasoning

Zengbin Wang et al.

cs.CV cs.AI cs.CL

本文提出了一种名为VGPO的新框架, 旨在增强多模态推理中视觉语言模型(VLMs)的视觉关注度. 它通过视觉注意力补偿和双粒度优势重加权策略来缓解推理过程中的视觉遗忘问题, 并在数学多模态推理等任务上取得了更好的性能.

LLM-Rosetta: A Hub-and-Spoke Intermediate Representation for Cross-Provider LLM API Translation

Peng Ding

cs.SE cs.AI

本文提出了一种名为LLM-Rosetta的中间表示框架，用于解决不同大语言模型(LLM)提供商API之间的互操作性问题。该框架通过一个中心枢纽式的设计，实现了多种API格式之间的双向转换，并支持流式处理。

Arbitration Failure, Not Perceptual Blindness: How Vision-Language Models Resolve Visual-Linguistic Conflicts

Farhad Nooralahzadeh et al.

cs.CV cs.CL

本文研究了Vision-Language Models (VLMs)在面临视觉与语言先验冲突时的决策机制。通过一系列分析实验，作者发现模型失败的主要原因是后期决策仲裁问题，而非早期视觉感知缺陷。

Biologically-Grounded Multi-Encoder Architectures as Developability Oracles for Antibody Design

Simon J. Crouzet

q-bio.BM cs.LG q-bio.QM

本文提出了一个名为CrossAbSense的框架, 用于预测抗体设计的可开发性. 该框架结合了预训练的蛋白质语言模型编码器和可配置的注意力解码器, 在多个关键生物物理性质预测任务上取得了优于或可比拟现有基准的性能.

Variational Quantum Physics-Informed Neural Networks for Hydrological PDE-Constrained Learning with Inherent Uncertainty Quantification

Prasad Nimantha Madusanka Ukwatta Hewage, Midhun Chakkravarthy, Ruvan Kumara Abeysekara

quant-ph cs.LG

本文提出了一种混合量子-经典物理信息神经网络(HQC-PINN), 用于水文偏微分方程约束下的学习. 该方法将参数化变分量子电路集成到PINN框架中, 利用量子测量的随机性进行不确定性量化, 并在一个河流流域的数据集上展示了其相对于经典PINN在收敛速度和参数量上的优势.

BadSkill: Backdoor Attacks on Agent Skills via Model-in-Skill Poisoning

Guiyao Tie et al.

cs.CR cs.AI

本文提出了一种针对智能体生态系统中可安装技能的新型后门攻击方法 BadSkill. 该方法通过在技能捆绑的模型中进行毒化微调, 使其在特定语义触发条件下激活恶意行为, 实验表明攻击在多种模型架构上具有高成功率.

The AI Codebase Maturity Model: From Assisted Coding to Self-Sustaining Systems

Andy Anderson

cs.SE cs.AI

本文提出了一个用于评估和指导AI辅助代码开发成熟度的五级框架, 并基于一个实际项目的经验报告验证了该模型. 作者认为, 系统的智能性关键在于围绕AI模型构建的指令、测试和反馈循环等基础设施, 而非模型本身.

Sharp description of local minima in the loss landscape of high-dimensional two-layer ReLU neural networks

Jie Huang, Bruno Loureiro, Stefano Sarao Mannelli

stat.ML cond-mat.dis-nn cs.LG

本文在 teacher-student 可实现的设定下，研究了具有高斯协变量的两层 ReLU 神经网络的 population loss landscape。研究结果表明，局部极小值可以用低维的 summary statistics 精确表示，并且这些极小值与 SGD 动力学的吸引不动点相对应。

Yes, But Not Always. Generative AI Needs Nuanced Opt-in

Wiebke Hutiri et al.

cs.CY cs.AI

本文探讨了生成式AI中关于创意作品使用的同意机制, 指出当前默认选择加入的二元同意模式存在不足. 作者提出了一种基于代理的推理时选择加入架构, 以验证用户意图是否符合权利持有者设定的条件, 并通过音乐案例进行了说明.

Beyond Augmented-Action Surrogates for Multi-Expert Learning-to-Defer

Yannis Montreuil et al.

stat.ML cs.LG

本文研究了Learning-to-Defer with advice问题，即在学习延迟决策时，还可以为选定的专家选择额外的建议信息。作者指出，一类自然的分离代理方法是不一致的，并引入了一种增强代理方法，证明了其一致性保证和风险转移界限。实验表明，该方法改进了标准学习延迟决策的性能。

PhysInOne: Visual Physics Learning and Reasoning in One Suite

Siyuan Zhou et al.

cs.CV cs.AI cs.LG cs.RO

本文提出了一个名为PhysInOne的大规模合成数据集, 用于解决AI系统缺乏物理基础训练数据的问题. 该数据集包含大量视频和场景, 并展示了其在多个视觉物理学习任务上的应用潜力.

Three Modalities, Two Design Probes, One Prototype, and No Vision: Experience-Based Co-Design of a Multi-modal 3D Data Visualization Tool

Sanchita S. Kamath et al.

cs.HC cs.AI cs.IR

本文通过Experience-Based Co-Design方法，与盲人或低视力参与者合作，设计了一款支持触觉和听觉反馈的多模态3D数据可视化工具原型。该研究旨在为非视觉方式探索3D数据（如定位、峰值查找等核心分析任务）提供可访问的解决方案，并为未来的无障碍系统开发提供了具体的设计指导和协作协议。

Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories

Wonbong Jang et al.

cs.CV cs.AI cs.LG

本文提出了一种名为Rays as Pixels的视频扩散模型，它将视频帧与相机轨迹的联合分布进行建模。该模型能够处理相机轨迹预测、联合生成以及条件视频生成等多个任务。

Physics-guided surrogate learning enables zero-shot control of turbulent wings

Yuning Wang et al.

physics.flu-dyn cs.AI

本文提出了一种基于物理引导的代理学习方法, 用于实现湍流机翼的零样本控制. 该方法通过利用壁湍流的局部结构, 在统计特性匹配的湍流槽道流中训练控制策略, 并直接部署到机翼上, 大幅降低了训练成本并实现了显著的减阻效果.

Continuous Orthogonal Mode Decomposition: Haptic Signal Prediction in Tactile Internet

Mohammad Ali Vahedifar, Mojtaba Nazari, Qi Zhang

eess.SP cs.LG

本文提出了一种用于触觉互联网的Mode-Domain Architecture (MDA)和Continuous-Orthogonal Mode Decomposition框架, 旨在通过双边预测神经网络恢复丢失的触觉信号. 该方法通过引入正交性约束解决了现有分解方法中的模式混叠问题, 在实验中实现了高预测精度和亚毫秒级的超低推理延迟.

An Open-Source, Open Data Approach to Activity Classification from Triaxial Accelerometry in an Ambulatory Setting

Sepideh Nikookar et al.

q-bio.QM cs.LG

本文构建了一个基于三轴加速度计的开源数据集和代码库, 用于在自由活动环境下对五种日常活动进行分类. 研究采用了信号处理和卷积神经网络两种方法, 分别实现了二元(高/低)活动水平分类和多类活动分类, 并取得了较好的F1分数.

SafeMind: A Risk-Aware Differentiable Control Framework for Adaptive and Safe Quadruped Locomotion

Zukun Zhang, Kai Shu, Mingqiao Mo

cs.RO cs.AI

本文提出了一种名为SafeMind的可微分随机安全控制框架, 用于四足机器人的自适应安全运动. 该框架将概率控制屏障函数与语义上下文理解及元自适应风险校准相结合, 通过实验验证了其在多种地形和任务中的有效性.

Sim-to-Real Transfer for Muscle-Actuated Robots via Generalized Actuator Networks

Jan Schneider et al.

cs.RO cs.LG

本文提出了一种名为广义执行器网络(GeAN)的方法, 用于解决由肌腱和气动人工肌肉驱动的机器人因其非线性、摩擦和迟滞特性而难以实现从仿真到现实策略迁移的问题. 该方法通过从关节位置轨迹学习执行器模型, 并结合刚体动力学仿真, 成功在四自由度肌肉驱动机械臂上实现了精确的任务策略迁移.

XFED: Non-Collusive Model Poisoning Attack Against Byzantine-Robust Federated Classifiers

Israt Jahan Mouri, Muhammad Ridowan, Muhammad Abdullah Adnan

cs.CR cs.AI cs.DC cs.LG

本文提出了一种无需合谋的模型投毒攻击方法XFED, 攻击者在没有通信和协调的情况下独立生成恶意更新. 实验表明该方法能绕过多种先进的防御机制, 揭示了联邦学习系统面临的新安全威胁.

VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

Yucheng Shen et al.

cs.CV cs.AI

本文提出了一个名为VISOR的智能体框架, 用于解决视觉检索增强生成任务中证据稀疏和长程搜索漂移的问题. 该框架通过结构化的证据空间和动态轨迹管理来提升多步视觉推理的性能.

Envisioning the Future, One Step at a Time

Stefan Andreas Baumann et al.

cs.CV cs.AI cs.LG

本文提出了一种基于稀疏点轨迹自回归扩散模型的方法，用于从单张图像预测开放场景的未来动态。该方法通过逐步推理来模拟不确定性的增长，实现了对数千种不同未来假设的高效采样，并在保持物理合理性的同时超越了密集模拟器的采样速度。作者还引入了OWM基准来评估真实世界不确定性下的轨迹预测性能。

VL-Calibration: Decoupled Confidence Calibration for Large Vision-Language Models Reasoning

Wenyi Xiao, Xinchi Xu, Leilei Gan

cs.CV cs.AI cs.CL

本文提出了一个名为VL-Calibration的强化学习框架，用于解耦大型视觉语言模型(LVLMs)中的视觉置信度与推理置信度。该方法通过结合图像扰动下的KL散度与token熵来估计视觉确定性，并在多个基准测试中提升了校准效果和视觉推理准确性。

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Guanyu Zhou et al.

cs.CV cs.AI cs.CL

本文提出了一种名为VisionFoundry的合成数据生成方法, 用于提升Vision-Language Models (VLMs)在视觉感知任务(如空间理解)上的性能. 该方法仅需任务名称即可自动生成图像-问题-答案三元组, 实验表明基于此合成数据训练的模型在多个基准测试上取得了显著提升.

Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise

Zibin Geng et al.

cs.CV cs.AI

本文提出了一种名为VisPrompt的轻量级、鲁棒的视觉引导提示学习框架，用于处理带噪声标签的场景。该框架利用跨模态注意力机制将视觉语义反向注入提示表示，并通过条件调制机制自适应控制注入强度，从而在多个基准数据集上展现出优于现有基线的鲁棒性。

Trans-RAG: Query-Centric Vector Transformation for Secure Cross-Organizational Retrieval

Yu Liu et al.

cs.CR cs.IR

本文提出了一种用于跨组织检索增强生成(RAG)系统的安全向量空间转换方法Trans-RAG. 该方法通过查询中心的向量变换, 在保持检索效率的同时实现了组织间知识的安全隔离.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.LG

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others