bluearXiv-ai - 2026-04-10

📄 所有论文 ↑ 回顶部

cs.LG

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Longsheng Zhou, Yu Shen

cs.LG cs.AI cs.CL

本文提出了一种名为"Prune-Quantize-Distill"的有序流水线，用于在CPU上实现高效的神经网络压缩。该流水线结合了非结构化剪枝、INT8量化感知训练和知识蒸馏三种技术，旨在直接优化实测推理延迟，而非依赖参数数量等代理指标。实验表明，该有序组合在CIFAR数据集上能比单一技术更好地权衡精度、模型大小和延迟。

Prediction Arena: Benchmarking AI Models on Real-World Prediction Markets

Jaden Zhang et al.

cs.LG cs.AI econ.GN

本文提出了一个名为Prediction Arena的基准测试, 用于在真实资本运作的预测市场上评估AI模型的预测与决策能力. 通过让模型在Kalshi和Polymarket等真实交易所进行自主交易, 该研究分析了多个前沿模型在为期57天的纵向评估中的表现, 发现初始预测准确性和将正确预测转化为收益的能力是主要驱动因素, 而平台设计对模型成功有显著影响.

BLEG: LLM Functions as Powerful fMRI Graph-Enhancer for Brain Network Analysis

Rui Dong et al.

cs.LG

本文提出了一种名为BLEG的方法, 通过利用LLM作为增强器来提升GNN在fMRI脑网络分析任务上的性能. 该方法通过提示LLM生成增强文本, 设计指令微调策略, 并联合训练GNN与适配器, 在多个数据集上验证了其有效性.

LLM-Generated Fault Scenarios for Evaluating Perception-Driven Lane Following in Autonomous Edge Systems

Faezeh Pasandideh, Achim Rettberg

cs.LG

本文提出了一种用于评估边缘自动驾驶系统感知模块鲁棒性的离线-在线解耦故障注入框架. 该框架利用LLM生成语义故障场景, 并利用LDM合成传感器退化数据, 在离线阶段预计算故障查找表, 从而在资源受限的边缘设备上实现轻量级的实时故障感知推理. 实验表明, 该方法能有效暴露车道跟随模型在多种故障条件下的性能退化.

Benchmark Shadows: Data Alignment, Parameter Footprints, and Generalization in Large Language Models

Hongjian Zou et al.

cs.LG

本文通过设计受控的数据干预实验, 研究了训练数据分布对大型语言模型能力评估的影响. 研究发现, 与基准测试对齐的数据会提升特定指标但限制泛化能力, 而覆盖更广的数据则能促进更均衡的参数适应和更好的泛化.

Flow Learners for PDEs: Toward a Physics-to-Physics Paradigm for Scientific Computing

Yilong Dai et al.

cs.LG

本文提出了一种称为"flow learners"的新范式, 用于学习求解偏微分方程(PDEs). 该方法通过参数化传输向量场来生成轨迹, 旨在更好地对齐物理动力学, 支持连续时间预测和不确定性量化.

The Role of Emotional Stimuli and Intensity in Shaping Large Language Model Behavior

Ameen Patel et al.

cs.LG cs.AI

本文研究了在prompt engineering中使用不同情感类型和强度对LLM行为的影响. 实验表明, 积极的emotional stimuli能提高准确性并降低毒性, 但也会增加sycophantic behavior.

The Lifecycle of the Spectral Edge: From Gradient Learning to Weight-Decay Compression

Yongzhong Xu

cs.LG

本文分析了在序列任务中, 参数更新Gram矩阵的主方向(spectral edge)在grokking过程中的演变. 研究发现该方向在grokking前后呈现不同的驱动机制, 并可通过一个gap flow方程预测其行为类别.

Latent Structure of Affective Representations in Large Language Models

Benjamin J. Choi, Melanie Weber

cs.LG cs.AI

本文使用几何数据分析工具研究了大型语言模型(LLM)中情感表征的潜在结构。研究发现，LLM学习到的情感表征与心理学中的效价-唤醒度模型一致，并且其非线性几何结构可以被线性良好近似。

SCOT: Multi-Source Cross-City Transfer with Optimal-Transport Soft-Correspondence Objective

Yuyao Wang et al.

cs.LG

本文提出了一种名为SCOT的跨城市表示学习框架, 用于解决源城市与目标城市区域划分不一致且无真实对应关系时的迁移学习问题. 该方法通过基于Sinkhorn的熵正则化最优传输(Optimal Transport)学习区域间的软对应关系, 并结合对比学习与循环重构正则化来提升迁移的准确性与鲁棒性.

Decisions and Deployment: The Five-Year SAHELI Project (2020-2025) on Restless Multi-Armed Bandits for Improving Maternal and Child Health

Shresth Verma et al.

cs.LG cs.AI

本文介绍了SAHELI项目, 该项目应用Restless Multi-Armed Bandits (RMAB)框架来优化印度妇幼健康项目中的稀缺资源分配. 通过采用Decision-Focused Learning (DFL)方法并经过大规模随机对照试验验证, 该系统显著提升了受益人的参与度和实际健康行为.

Playing DOOM with 1.3M Parameters: Specialized Small Models vs Large Language Models for Real-Time Game Control

David Golchinfar, Daryoush Vaziri, Alexander Marquardt

cs.LG cs.AI

本文提出了一个仅130万参数的小型专用模型, 用于实时控制游戏《DOOM》. 该模型在特定场景下的表现显著优于参数量大数万倍的通用大语言模型, 展示了专用模型在实时控制任务上的高效性.

A Novel Edge-Assisted Quantum-Classical Hybrid Framework for Crime Pattern Learning and Classification

Niloy Das et al.

cs.LG

本文提出了一种用于犯罪模式分析的量子-经典混合计算框架, 并在孟加拉国犯罪数据集上评估了包括量子模型、经典基线及混合架构在内的多种范式. 实验表明, 量子启发方法在保持较低可训练参数量的同时取得了有竞争力的分类准确率, 展示了其在资源受限的边缘计算场景中的潜在应用价值.

A Graph Foundation Model for Wireless Resource Allocation

Yucheng Sheng et al.

cs.LG cs.IT

本文提出了一种用于无线资源分配的图基础模型(GFM-RA), 它基于预训练和微调范式来提取统一表征. 该模型通过干扰感知的Transformer架构和混合自监督预训练策略, 能够快速适应不同的优化目标和场景, 并在实验中展现了优异的性能和样本效率.

Event-Centric World Modeling with Memory-Augmented Retrieval for Embodied Decision-Making

Fan Zhaowen

cs.LG cs.IR cs.RO

本文提出了一种基于事件的世界建模框架, 用于具身决策. 该框架将环境表示为结构化的事件集合, 并通过检索记忆库中的经验来生成决策, 在无人机飞行场景中验证了其实时性与可解释性.

DSPR: Dual-Stream Physics-Residual Networks for Trustworthy Industrial Time Series Forecasting

Yeran Zhang et al.

cs.LG cs.AI

本文提出了一种用于工业时间序列预测的双流物理残差网络(DSPR)框架. 该框架通过分离稳定时间模式和状态依赖的残差动态, 结合物理先验来学习时变交互结构, 旨在提高预测的准确性和物理合理性.

Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

Quantong Qiu et al.

cs.LG cs.CL

本文提出了一种名为Flux Attention的上下文感知混合注意力框架，旨在提升大语言模型在长上下文场景下的推理效率。该方法通过一个轻量级的层路由器，根据输入内容动态地为每一层选择使用完全注意力或稀疏注意力，从而在保持性能的同时实现显著的实际加速。

Data Warmup: Complexity-Aware Curricula for Efficient Diffusion Training

Jinhong Lin et al.

cs.LG cs.AI

本文提出了一种名为Data Warmup的课程学习策略，用于提升扩散模型（diffusion model）的训练效率。该方法通过一个结合了前景主导性和前景典型性的复杂度度量，对训练图像进行离线评分，并在训练初期优先采样简单图像，逐步过渡到均匀采样。实验表明，该策略能显著加速模型收敛并提升生成质量，且计算开销极低。

Critical Patch-Aware Sparse Prompting with Decoupled Training for Continual Learning on the Edge

Wonseon Lim, Jaesung Lee, Dae-Won Kim

cs.LG

本文提出了一种面向边缘设备持续学习的稀疏提示框架CPS-Prompt, 通过关键补丁采样和分离训练来降低训练时的内存与计算开销. 实验表明该方法在保持精度的同时, 显著提升了训练效率和能效.

Accelerating Training of Autoregressive Video Generation Models via Local Optimization with Representation Continuity

Yucheng Zhou, Jianbing Shen

cs.LG eess.IV

本文提出了一种通过局部优化和表示连续性来加速自回归视频生成模型训练的方法. 该方法在减少训练成本的同时, 保持了生成视频的质量.

Conservation Law Breaking at the Edge of Stability: A Spectral Theory of Non-Convex Neural Network Optimization

Daniel Nobrega Medeiros

cs.LG cs.AI

本文研究了深度ReLU网络优化中梯度下降的动力学行为. 它发现梯度流存在守恒律, 而离散梯度下降会以与学习率相关的速率打破这些守恒律, 并给出了一个基于谱理论的精确公式来描述这一现象.

GAN-based Domain Adaptation for Image-aware Layout Generation in Advertising Poster Design

Chenchen Xu et al.

cs.LG eess.IV

本文提出了一种基于GAN的域适应方法, 用于广告海报设计中结合图像感知的布局生成. 该方法通过引入像素级判别器来弥合训练数据中的域差距, 并提出了新的内容感知评估指标.

Reinforcement Learning with Reward Machines for Sleep Control in Mobile Networks

Kristina Levina et al.

cs.LG cs.AI

本文利用强化学习与奖励机(reward machines)来解决移动网络中的睡眠控制问题, 旨在平衡即时节能与长期服务质量(QoS). 该方法通过奖励机跟踪历史状态以处理非马尔可夫奖励, 为不同流量模式下的网络节能管理提供了一个可扩展的框架.

Physics-informed neural operators for the in situ characterization of locally reacting sound absorbers

Jonas M. Schmid et al.

cs.LG physics.data-an

本文提出了一种基于物理信息的神经算子方法, 用于从近场声压和粒子速度测量数据中直接估计频率相关的表面导纳. 该方法将亥姆霍兹方程等声学控制关系作为正则化嵌入训练过程, 在合成数据上验证了其对噪声和稀疏采样的鲁棒性.

Bayesian Optimization for Mixed-Variable Problems in the Natural Sciences

Yuhao Zhang et al.

cs.LG cond-mat.mtrl-sci physics.comp-ph

本文提出了一种用于处理混合变量问题的贝叶斯优化(BO)通用框架. 该方法通过推广概率重参数化(PR)技术, 使其能够处理非等距离散变量, 从而在具有高斯过程(GP)代理模型的完全混合变量设置中实现基于梯度的采集函数优化. 作者在合成和实验目标上进行了系统基准测试, 展示了该方法在优化高度不连续和离散化目标函数时的鲁棒性, 尤其适用于数据有限、存在噪声的自主实验室环境.

SPAMoE: Spectrum-Aware Hybrid Operator Framework for Full-Waveform Inversion

Zhenyu Wang et al.

cs.LG

本文提出了一种用于全波形反演(FWI)的谱感知混合算子框架SPAMoE. 它通过谱保持编码器和动态频带路由机制, 提升了多尺度地质特征重建的精度.

Multimodal Large Language Models for Multi-Subject In-Context Image Generation

Yucheng Zhou et al.

cs.LG

本文提出了一种名为MUSIC的multimodal large language model (MLLM), 专门用于多主体上下文图像生成. 该方法通过自动数据生成管道, vision chain-of-thought机制和语义驱动的空间布局规划来解决多主体生成中的身份丢失和语义漂移问题, 并在新的基准MSIC上展示了优越性能.

GIRL: Generative Imagination Reinforcement Learning via Information-Theoretic Hallucination Control

Prakul Sunil Hiremath

cs.LG cs.AI

本文提出了GIRL框架，通过引入跨模态grounding信号和不确定性自适应的trust-region bottleneck来控制基于模型的强化学习中想象轨迹的漂移问题。实验表明该方法在多个基准测试中减少了潜在rollout漂移并提升了样本效率。

Regret-Aware Policy Optimization: Environment-Level Memory for Replay Suppression under Delayed Harm

Prakul Sunil Hiremath

cs.LG cs.AI

本文针对强化学习中的延迟伤害问题, 提出了Replay Suppression Diagnostic (RSD)诊断协议和Regret-Aware Policy Optimization (RAPO)方法. RAPO通过引入持久性的伤害痕迹场和疤痕场, 并应用有界的、保持质量的转移概率重加权, 来抑制有害行为的重放, 在图上扩散任务中取得了效果.

Fast Heterogeneous Serving: Scalable Mixed-Scale LLM Allocation for SLO-Constrained Inference

Jiaming Cheng, Duong Tung Nguyen

cs.LG cs.NI

本文针对大规模语言模型(LLM)推理服务中的异构资源分配问题, 提出了两种启发式算法. 这些算法在满足延迟、精度和预算等多重约束下, 能够快速生成可行的资源配置方案.

Cluster Attention for Graph Machine Learning

Oleg Platonov, Liudmila Prokhorenkova

cs.LG cs.AI

本文提出了一种名为cluster attention (CLATT)的图注意力机制. 该方法通过社区检测算法将图节点划分为簇, 使节点在每个簇内进行全局注意力计算, 从而在保持图结构归纳偏置的同时扩大感受野. 实验表明, 将CLATT集成到消息传递神经网络或图Transformer中, 能有效提升多种图数据集上的性能.

SYN-DIGITS: A Synthetic Control Framework for Calibrated Digital Twin Simulation

Grace Jiarui Fan et al.

cs.LG cs.AI cs.CL cs.CY

本文提出了一个名为SYN-DIGITS的校准框架，用于减少基于LLM的数字孪生模拟与真实人类行为之间的偏差。该框架作为后处理层，通过从模拟响应中学习潜在结构来对齐预测，并在多个数据集和模型上验证了其有效性。

Learning Markov Processes as Sum-of-Square Forms for Analytical Belief Propagation

Peter Amorese, Morteza Lahijanian

cs.LG eess.SY

本文提出了一种利用稀疏Sum-of-Squares形式进行条件密度估计的建模框架, 旨在实现解析的belief propagation. 该方法通过一种新的函数形式解决了SoS建模的限制, 并提出了一个训练方法来精确满足归一化和非负性约束. 在低维空间中, 该方法在保持精度的同时显著减少了内存使用, 并能扩展到更高维的系统.

Validated Synthetic Patient Generation for Small Longitudinal Cohorts: Coagulation Dynamics Across Pregnancy

Jeffrey D. Varner et al.

cs.LG q-bio.QM

本文提出了一种基于现代Hopfield网络理论的生成框架，用于从小型纵向临床队列中生成经过验证的合成患者数据。该方法通过Langevin动力学在连续能量景观中插值，生成的新数据在统计和机制上与原始数据难以区分，并成功应用于一个包含23名孕妇的凝血动力学数据集。

Learning is Forgetting: LLM Training As Lossy Compression

Henry C. Conklin et al.

cs.LG cs.AI cs.CL cs.IT

本文提出将LLM训练视为一种有损压缩过程, 并论证了预训练使模型在next-sequence prediction任务上接近Information Bottleneck bound. 研究发现, 不同模型因其数据和训练方法差异而呈现不同的压缩特性, 且压缩最优性与模型在下游任务的表现相关.

Implicit Regularization and Generalization in Overparameterized Neural Networks

Zeran Johannsen

cs.LG

本文通过一系列控制实验, 研究了过参数化神经网络中优化动力学和隐式正则化对泛化的作用. 实验表明, 泛化性能受到网络架构、优化算法和损失函数几何形态之间相互作用的强烈影响.

Auto-Configured Networks for Multi-Scale Multi-Output Time-Series Forecasting

Yumeng Zha, Shengxiang Yang, Xianpeng Wang

cs.LG cs.NE

本文提出了一种用于多尺度多输出时间序列预测的自动配置框架. 该框架通过一个混合配置空间和进化算法, 在有限计算预算内搜索平衡预测误差与模型复杂度的帕累托模型集.

Sheaf-Laplacian Obstruction and Projection Hardness for Cross-Modal Compatibility on a Modality-Independent Site

Tibor Sloboda

cs.LG cs.AI

本文提出了一个分析跨模态表示兼容性的统一框架, 核心是建立在样本索引上的模态无关邻域站点及其上的cellular sheaf. 该框架形式化了两种互补的不兼容机制: projection hardness和sheaf-Laplacian obstruction, 并证明了兼容性通常不具有传递性.

Cognitive-Causal Multi-Task Learning with Psychological State Conditioning for Assistive Driving Perception

Keito Inoshita, Nobuhiro Hayashida, Akira Imanishi

cs.LG cs.AI

本文提出了一个基于认知科学的因果多任务学习框架CauPsi, 用于辅助驾驶感知. 该框架通过可学习的原型嵌入实现任务间的因果信息传递, 并利用从驾驶员面部和姿态估计的心理状态信号来调节所有任务的预测.

Guardian-as-an-Advisor: Advancing Next-Generation Guardian Models for Trustworthy LLMs

Yue Huang et al.

cs.LG cs.CL

本文提出了一种名为 Guardian-as-an-Advisor (GaaA) 的软门控安全框架，用于提升大型语言模型的安全性和实用性。该方法通过一个辅助模型生成风险标签和解释来指导主模型，在保持安全性的同时减少了过度拒绝。

Optimal Decay Spectra for Linear Recurrences

Yang Cao

cs.LG cs.AI cs.CL

本文针对线性循环模型在长程记忆方面的不足，分析了其衰减谱(decay spectrum)的初始化问题，并提出了一个通用的改进框架PoST。该框架通过谱重参数化和位置自适应缩放两种机制，优化了模型在长上下文任务中的表现，并在多个主流架构上进行了验证。

SAGE: Sign-Adaptive Gradient for Memory-Efficient LLM Optimization

Wooin Lee, Hyun-Tae Kim

cs.LG

本文提出了一种名为SAGE的新型优化器，旨在解决大语言模型预训练中AdamW优化器内存占用过高的问题。SAGE通过结合Lion风格的更新方向和一个内存高效的$O(d)$自适应尺度，在保持性能的同时显著减少了优化器状态的内存消耗。

An Imperfect Verifier is Good Enough: Learning with Noisy Rewards

Andreas Plesner, Francisco Guzmán, Anish Athalye

cs.LG cs.AI

本文研究了在强化学习与可验证奖励(RLVR)框架下, 奖励信号存在噪声时对大型语言模型(LLM)训练的影响. 实验表明, 即使验证器存在高达15%的错误率, 模型在代码生成和科学推理任务上的验证准确率与无噪声基线相比下降不超过2个百分点.

Reinforcement Learning with LLM-Guided Action Spaces for Synthesizable Lead Optimization

Tao Li et al.

cs.LG cs.AI cs.CE

本文提出了一个名为MolReAct的强化学习框架, 用于药物发现中的先导化合物优化. 该框架将优化过程建模为在由已验证反应模板定义的合成约束动作空间上的Markov Decision Process, 并利用工具增强的LLM agent来提出化学上合理的分子修饰, 最终通过策略优化生成具有明确合成路径且性质改善的分子.

Tensor-based computation of the Koopman generator via operator logarithm

Tatsuya Kishimoto, Jun Ohkubo

cs.LG

本文提出了一种基于张量格式的数据驱动方法, 用于计算Koopman generator. 该方法通过处理Koopman算子的对数来避免数值微分, 并在张量列格式下保持低秩结构, 从而缓解维数灾难问题, 在多个高维动力系统上展示了其可扩展性.

Joint Task Offloading, Inference Optimization and UAV Trajectory Planning for Generative AI Empowered Intelligent Transportation Digital Twin

Xiaohuan Li et al.

cs.LG cs.AI

本文研究了智能交通数字孪生中无人机协同生成式AI进行数据处理的联合优化问题. 作者将任务卸载、推理优化与无人机轨迹规划建模为一个系统效用最大化问题, 并提出了基于多智能体强化学习的SU-HATD3算法进行求解. 仿真结果表明该算法在系统效用和收敛速度上优于基线方法.

Tree-of-Evidence: Efficient "System 2" Search for Faithful Multimodal Grounding

Micky C. Nnamdi et al.

cs.LG

本文提出了一种名为Tree-of-Evidence(ToE)的推理时搜索算法, 用于提高大型多模态模型(LMMs)决策过程的可解释性. 该方法将可解释性构建为一个离散优化问题, 通过轻量级的Evidence Bottlenecks对数据单元进行评分并进行beam search, 以识别支持模型预测的紧凑证据集. 在多个临床和非临床任务上的评估表明, ToE能在保持预测性能的同时, 生成可审计的证据轨迹.

CausalVAE as a Plug-in for World Models: Towards Reliable Counterfactual Dynamics

Ziyi Ding et al.

cs.LG

本文提出将CausalVAE作为可插拔的结构模块集成到潜在世界模型中, 以增强模型在分布偏移和干预下的鲁棒性. 实验表明, 该方法在保持事实预测竞争力的同时, 显著提升了干预感知的反事实检索性能.

Mathematical analysis of one-layer neural network with fixed biases, a new activation function and other observations

Fabricio Macià, Shu Nakamura

cs.LG math.OC

本文分析了一个具有固定偏置和ReLU激活函数的单隐藏层神经网络, 证明了在$L^2$平方损失和梯度下降下的学习过程收敛性, 并验证了其spectral bias性质. 基于分析, 作者讨论了激活函数应具备的结构, 并提出了一种新的激活函数FReX.

MIPT-SSM: Scaling Language Models with $O(1)$ Inference Cache via Phase Transitions

Yasong Fan

cs.LG

本文提出了一种基于测量诱导相变(MIPT)物理原理的神经网络序列架构MIPT-SSM. 该模型通过学习一个测量率$p_{t}$来在信息传播的"波相"和"粒子相"之间路由计算, 旨在实现$O(1)$的推理缓存, 从而大幅降低内存占用.

Towards Rapid Constitutive Model Discovery from Multi-Modal Data: Physics Augmented Finite Element Model Updating (paFEMU)

Jingye Tan et al.

cs.LG cs.CE physics.comp-ph

本文提出了一种结合AI本构建模、稀疏化和有限元伴随优化的多模态数据融合方法, 用于快速发现材料本构模型. 该方法旨在整合不同来源和精度的实验数据, 以提升模型的可解释性和在现有仿真工作流中的集成能力.

Structured Distillation of Web Agent Capabilities Enables Generalization

Xing Han Lù, Siva Reddy

cs.LG

本文提出了一个名为Agent-as-Annotators的框架，用于结构化合成网页智能体的交互轨迹。通过使用一个前沿大语言模型作为教师生成数据，并对一个较小的学生模型进行监督微调，该方法在多个网页导航基准测试上取得了优于闭源模型的性能，并展现出良好的泛化能力。

PolicyLong: Towards On-Policy Context Extension

Junlong Jia et al.

cs.LG cs.AI

本文提出了一种名为PolicyLong的动态数据构造方法, 用于缓解大语言模型上下文窗口扩展中训练数据分布漂移的问题. 该方法通过迭代地使用当前模型进行数据筛选, 使训练分布与模型能力协同演化, 在多个长上下文基准测试上取得了优于静态方法的性能.

Information-Theoretic Requirements for Gradient-Based Task Affinity Estimation in Multi-Task Learning

Jasper Zhang, Bryan Cheng

cs.LG q-bio.MN

本文指出, 基于梯度的任务亲和力估计方法存在一个未明确说明的基本假设: 任务必须在共享的训练样本上测量, 梯度冲突才能反映真实的机制关系. 作者发现样本重叠率存在一个尖锐的相变阈值, 低于约30%时梯度信号与噪声无异, 而标准基准数据集的重叠率远低于此阈值, 这为多任务学习结果的不一致性提供了一个原理性解释.

QaRL: Rollout-Aligned Quantization-Aware RL for Fast and Stable Training under Training--Inference Mismatch

Hao Gu et al.

cs.LG cs.AI

本文提出了一种名为QaRL的方法, 旨在解决在量化(quantization)环境下进行强化学习(rollout)时出现的训练-推理不匹配问题. 该方法通过引入对齐机制和一种新的序列级优化目标TBPO, 提升了训练的稳定性并保持了低精度推理的速度优势.

Bit-by-Bit: Progressive QAT Strategy with Outlier Channel Splitting for Stable Low-Bit LLMs

Binxing Xu et al.

cs.LG

本文提出了一种名为Bit-by-Bit的渐进式量化感知训练框架，用于稳定训练超低比特大语言模型。该方法通过分块渐进训练、嵌套量化网格和异常通道分割等技术，有效缓解了量化噪声和误差累积问题，在W2A2配置下取得了优于基线模型的性能。

Kuramoto Oscillatory Phase Encoding: Neuro-inspired Synchronization for Improved Learning Efficiency

Mingqing Xiao et al.

cs.LG cs.CV cs.NE

本文提出了一种名为Kuramoto oscillatory Phase Encoding (KoPE)的神经启发式同步机制, 将其作为额外的演化相位状态引入Vision Transformers. 该方法旨在通过同步增强的结构学习来提升视觉模型的训练、参数和数据效率, 并在需要结构化理解的任务上展示了潜力.

Sinkhorn doubly stochastic attention rank decay analysis

Michela Lapenna, Rita Fioresi, Bahman Gharesifard

cs.LG cs.AI math.OC

本文研究了使用Sinkhorn算法归一化的doubly stochastic attention matrix在缓解Transformer自注意力机制中rank collapse问题上的效果. 通过理论分析和在情感分析与图像分类任务上的实验, 作者发现相较于标准的Softmax row-stochastic attention, Sinkhorn归一化能更有效地保持矩阵的秩, 并且秩会随网络深度以双指数速率衰减至1.

Robust Length Prediction: A Perspective from Heavy-Tailed Prompt-Conditioned Distributions

Jing Wang et al.

cs.LG

本文指出, 大语言模型(LLM)在给定相同prompt下生成的输出长度并非确定值, 而是服从一个重尾的prompt-conditioned分布. 作者提出了ProD方法, 通过利用多次生成样本来构建训练目标, 以进行更鲁棒的长度预测.

A Systematic Framework for Tabular Data Disentanglement

Ivan Tjuawinata et al.

cs.LG

本文提出了一个用于tabular data disentanglement的系统化框架, 将过程模块化为四个核心组件. 并通过一个合成tabular data生成的案例研究展示了该框架在数据合成这一下游任务中的潜力.

Fraud Detection System for Banking Transactions

Ranya Batsyas, Ritesh Yaduwanshi

cs.LG

本文提出了一种基于机器学习的银行交易欺诈检测框架, 使用PaySim合成数据集. 通过CRISP-DM方法学, 该研究进行了探索性分析、特征工程, 并比较了包括Logistic Regression, Random Forest, XGBoost和Decision Tree在内的多种基线模型. 为处理类别不平衡问题, 采用了SMOTE技术, 并使用GridSearchCV进行超参数优化以提升模型性能.

Pruning Extensions and Efficiency Trade-Offs for Sustainable Time Series Classification

Raphael Fischer et al.

cs.LG cs.AI

本文提出了一种用于时间序列分类(TSC)的综合性评估框架, 旨在平衡预测性能与资源消耗. 通过应用一种理论上有界的剪枝策略于主流混合分类器, 并引入一种新的可剪枝组合模型Hydrant, 实验表明剪枝能显著降低能耗, 同时保持有竞争力的预测质量.

Rethinking Residual Errors in Compensation-based LLM Quantization

Shuaiting Li et al.

cs.LG

本文重新审视了基于权重补偿的LLM量化方法中的残差误差定义. 作者指出现有方法的校准目标存在次优性, 并提出了一个将补偿感知误差纳入权重更新过程的改进方案.

Is your algorithm unlearning or untraining?

Eleni Triantafillou et al.

cs.LG

本文区分了机器学习中"unlearning"与"untraining"两个被混淆的概念. "Untraining"旨在消除特定遗忘集对模型的影响, 而"unlearning"的目标是移除这些样本所代表的整个底层分布或概念. 作者讨论了二者的技术定义, 并指出了当前文献中因概念混淆导致的问题.

Benchmarking Deep Learning for Future Liver Remnant Segmentation in Colorectal Liver Metastasis

Anthony T. Wu et al.

cs.LG

本文通过手动精修公开数据集, 为结直肠癌肝转移的未来肝脏残体分割任务创建了首个开源验证基准. 随后, 作者使用多种深度学习模型比较了级联与端到端的分割策略, 为后续AI辅助手术规划研究提供了可复现的框架.

The ecosystem of machine learning competitions: Platforms, participants, and their impact on AI development

Ioannis Nasios

cs.LG cs.AI stat.ML

本文对机器学习竞赛的生态系统进行了综合分析, 研究了Kaggle, Zindi等主要平台的工作流程, 评估方法和奖励结构. 文章探讨了竞赛在连接学术研究与工业应用, 促进知识交换和开源协作方面的作用, 并展望了其对AI发展的持续影响.

Preference Redirection via Attention Concentration: An Attack on Computer Use Agents

Dominik Seip, Matthias Hein

cs.LG

本文提出了一种针对Computer Use Agents (CUAs)的新型攻击方法PRAC, 它通过一个隐蔽的对抗性补丁来重定向模型的注意力, 从而操纵其内部偏好. 实验表明, 该攻击能有效操控在线购物平台上的商品选择过程, 并且对基于相同开源模型微调的特定CUAs具有泛化性.

From Universal to Individualized Actionability: Revisiting Personalization in Algorithmic Recourse

Lena Marie Budde et al.

cs.LG cs.AI

本文在 algorithmic recourse 框架中形式化了个人化(personalization)的概念, 将其定义为个体可操作性(individual actionability), 并区分为硬约束和软约束. 通过实证研究, 文章探讨了个人化与 recourse 其他关键属性(如有效性, 成本, 合理性)之间的权衡与交互作用.

PriPG-RL: Privileged Planner-Guided Reinforcement Learning for Partially Observable Systems with Anytime-Feasible MPC

Mohsen Amiri et al.

cs.LG cs.RO

本文提出了一种利用特权规划器在训练期间指导强化学习(RL)策略的方法, 以处理部分可观测环境下的学习问题. 该方法通过一个基于Model Predictive Control (MPC)的规划器向学习智能体蒸馏知识, 并在仿真和真实四足机器人上进行了验证.

Automating aggregation strategy selection in federated learning

Dian S. Y. Pang et al.

cs.LG

本文提出了一个自动化选择联邦学习中聚合策略的端到端框架. 该框架包含两种模式, 能根据数据特性或通过轻量级搜索来推荐策略, 实验表明其能提升非独立同分布数据下的鲁棒性.

Multimodal Latent Reasoning via Predictive Embeddings

Ashutosh Adhikari, Mirella Lapata

cs.LG

本文提出了一个名为 Pearl 的框架, 用于在 latent space 中进行多模态推理. 该方法通过学习专家工具使用轨迹的 predictive embeddings, 避免了推理时显式调用工具的开销, 并在多个感知基准测试中取得了有竞争力的性能.

Bias Redistribution in Visual Machine Unlearning: Does Forgetting One Group Harm Another?

Yunusa Haruna et al.

cs.LG cs.CV

本文研究了视觉机器学习中的遗忘过程对模型公平性的影响. 实验发现, 遗忘特定群体数据会导致偏见在相关群体间重新分配, 而非消除.

Alloc-MoE: Budget-Aware Expert Activation Allocation for Efficient Mixture-of-Experts Inference

Baihui Liu et al.

cs.LG cs.AI cs.CL

本文提出了一种名为Alloc-MoE的框架，用于在推理时高效管理Mixture-of-Experts模型中的专家激活数量。该方法通过分层级和令牌级的预算分配来减少计算延迟，同时尽量保持模型性能。实验表明，该方法能在降低激活预算的情况下实现推理加速。

A Direct Approach for Handling Contextual Bandits with Latent State Dynamics

Zhen Li, Gilles Stoltz

cs.LG stat.ML

本文研究了一种具有隐状态动态的情境赌博机模型, 提出了一种直接处理隐状态依赖的方法, 并在线估计HMM参数, 获得了不依赖于奖励函数的高概率遗憾界.

Shift- and stretch-invariant non-negative matrix factorization with an application to brain tissue delineation in emission tomography data

Anders S. Olsen et al.

cs.LG

本文提出了一种shift- and stretch-invariant non-negative matrix factorization (NMF)框架, 用于处理具有扩散特性的动态神经影像数据. 该方法在频域中估计时间延迟和拉伸, 并在合成数据和脑部发射断层扫描数据上验证了其有效性.

Value-Guidance MeanFlow for Offline Multi-Agent Reinforcement Learning

Teng Pang et al.

cs.LG

本文提出了一种基于flow的离线多智能体强化学习框架VGM$^2$P, 通过全局优势值引导智能体协作, 并将最优策略学习视为条件行为克隆. 该方法利用classifier-free guidance MeanFlow进行策略训练与执行, 在离散和连续动作空间任务上实现了与先进方法相当的性能.

Long-Term Embeddings for Balanced Personalization

Andrii Dzhoha, Egor Malykh

cs.LG

本文针对序列推荐模型中的近期偏好偏差问题, 提出了 Long-Term Embeddings (LTE) 框架. 该框架通过将用户嵌入锚定在基于内容的物品语义基础上, 解决了生产环境中的特征版本一致性问题, 并在在线测试中提升了关键指标.

Equivariant Efficient Joint Discrete and Continuous MeanFlow for Molecular Graph Generation

Rongjian Xu et al.

cs.LG

本文提出了一种名为EQUIMF的SE(3)-equivariant生成框架，用于联合建模分子图的离散拓扑和连续几何。该方法通过同步的MeanFlow动力学，实现了高效采样并保持了物理一致性。

Inside-Out: Measuring Generalization in Vision Transformers Through Inner Workings

Yunxiang Peng et al.

cs.LG cs.CV

本文提出了一种通过分析Vision Transformer内部工作机制(即circuits)来评估模型泛化性能的新方法. 针对模型部署前后的两种场景, 分别设计了Dependency Depth Bias和Circuit Shift Score两个无需标签的代理指标, 实验表明它们与泛化性能的相关性优于现有方法.

Approximation of the Basset force in the Maxey-Riley-Gatignol equations via universal differential equations

Finn Sommer et al.

cs.LG math.NA

本文提出了一种使用 universal differential equations 和 neural networks 来近似 Maxey-Riley-Gatignol 方程中 Basset history force 的方法, 从而将原方程转化为一个可以用标准 Runge-Kutta 方法求解的常微分方程组.

Introducing Echo Networks for Computational Neuroevolution

Christian Kroos, Fabian Küch

cs.LG cs.NE

本文提出了一种名为Echo Networks的新型循环网络结构, 用于在极边缘设备上进行事件检测与分类. 该网络仅由连接矩阵构成, 允许将矩阵运算和分解作为遗传操作, 并在心电图信号分类任务上进行了成功验证.

An Illusion of Unlearning? Assessing Machine Unlearning Through Internal Representations

Yichen Gao et al.

cs.LG

本文通过分析模型内部表示而非输出行为, 评估了机器遗忘(MU)方法的有效性. 研究发现, 许多先进方法的效果源于特征与分类器的错位, 而隐藏特征仍具高度判别性, 简单的线性探测即可恢复原始精度.

DMax: Aggressive Parallel Decoding for dLLMs

Zigeng Chen et al.

cs.LG cs.AI

本文提出了一种用于高效扩散语言模型(dLLMs)的新范式DMax. 它通过将解码重新定义为从mask embeddings到token embeddings的渐进式自我精炼, 缓解了并行解码中的错误累积问题, 在保持生成质量的同时实现了激进的解码并行性.

Dead Weights, Live Signals: Feedforward Graphs of Frozen Language Models

Marcus Armstrong, Navid Ayoobi, Arjun Mukherjee

cs.LG cs.AI

本文提出了一种使用多个冻结的大型语言模型作为计算节点的前馈图架构, 通过学习的线性投影在共享的连续潜在空间中进行通信. 该架构仅训练少量参数, 在多个推理基准测试上超越了单个组成模型和参数匹配的分类器.

Leveraging Complementary Embeddings for Replay Selection in Continual Learning with Small Buffers

Danit Yanowsky, Daphna Weinshall

cs.LG

本文提出了一种名为MERS的新方法, 用于持续学习中基于回放的样本选择. 该方法通过图方法整合了监督和自监督的嵌入表示, 以改进在严格内存限制下的缓冲区样本选择策略. 实验表明, 该方法在多个基准数据集上优于现有方法, 尤其是在低内存场景下, 且无需增加模型参数或回放量.

EgoEverything: A Benchmark for Human Behavior Inspired Long Context Egocentric Video Understanding in AR Environment

Qiance Tang et al.

cs.LG

本文提出了一个名为EgoEverything的基准测试, 用于增强现实(AR)环境中的长上下文第一人称视频理解. 该基准通过利用从注视数据中抽象出的人类注意力信号来生成问题, 旨在更真实地模拟人类行为并提供评估场景.

Bias-Constrained Diffusion Schedules for PDE Emulations: Reconstruction Error Minimization and Efficient Unrolled Training

Constantin Le Cleï, Nils Thürey, Xiaoxiang Zhu

cs.LG

本文针对自回归PDE扩散模型在单步精度和展开训练计算成本方面的局限性进行了研究. 作者提出了一个自适应噪声调度框架来最小化推理重建误差, 并展示了一种快速的代理展开训练方法以稳定长期推演.

Scaling-Aware Data Selection for End-to-End Autonomous Driving Systems

Tolga Dimlioglu et al.

cs.LG cs.AI cs.CV

本文提出了一个名为MOSAIC的数据选择框架，用于优化端到端自动驾驶系统的训练数据构成。该框架通过划分数据域、拟合神经缩放定律并迭代选择数据，以更少的训练数据提升了驾驶规则合规性综合评分。

SOLAR: Communication-Efficient Model Adaptation via Subspace-Oriented Latent Adapter Reparametrization

Seyed Mahmoud Sajjadi Mohammadabadi et al.

cs.LG cs.CL cs.CV

本文提出了一种名为SOLAR的后训练压缩框架, 旨在降低参数高效微调(PEFT)适配器的通信与存储开销. 该方法通过将PEFT更新表示为基于基础模型奇异向量构建的子空间基底的线性组合, 实现了适配器尺寸与结构的解耦, 从而在保持任务性能的同时显著压缩了模型表示大小.

ADAPTive Input Training for Many-to-One Pre-Training on Time-Series Classification

Paul Quinlan, Qingguo Li, Xiaodan Zhu

cs.LG cs.AI

本文提出了一种名为ADAPT的时间序列预训练新范式, 旨在解决多数据集预训练时模型难以泛化的问题. 该方法通过高效对齐时间序列数据的物理属性, 支持在输入尺寸和通道维度差异巨大的数据上进行混合批次预训练, 并在162个分类数据集上取得了先进的性能.

Zero-shot Multivariate Time Series Forecasting Using Tabular Prior Fitted Networks

Mayuka Jayawardhana et al.

cs.LG cs.AI

本文提出了一种使用tabular foundation models进行多变量时间序列预测的通用框架. 该方法将多变量预测问题重新表述为一系列标量回归问题, 从而可以利用TabPFN等模型进行zero-shot预测.

Adversarial Label Invariant Graph Data Augmentations for Out-of-Distribution Generalization

Simon Zhang et al.

cs.LG stat.ML

本文提出了一种名为RIA的新方法, 用于处理图分类任务中的协变量偏移(covariate shift)问题. 该方法通过对抗性标签不变的数据增强来探索训练环境, 并与现有OoD泛化方法结合, 在合成与自然分布偏移的图数据上进行了实验验证.

KV Cache Offloading for Context-Intensive Tasks

Andrey Bocharnikov et al.

cs.LG cs.AI cs.CL

本文研究了在需要从长上下文中提取大量信息的任务上，KV-cache offloading技术的性能表现。作者发现现有方法在这些上下文密集型任务上会导致显著的精度下降，并提出了一个更简单的替代策略来改善效果。

Provably Adaptive Linear Approximation for the Shapley Value and Beyond

Weida Li, Yaoliang Yu, Bryan Kian Hsiang Low

cs.LG

本文提出了一种在空间约束下高效近似Shapley值等半值的方法。通过建立理论框架，开发了线性空间算法Adalina，在保证误差概率的同时优化了查询复杂度与均方误差。

Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks

Haokai Ma et al.

cs.LG

本文提出了一种名为HyTuning的混合后训练框架, 旨在提升大型语言模型在高风险任务中的置信度忠实性. 该方法通过一种称为渐进推理增益(PRG)的度量, 自适应地调整推理蒸馏(RD)与基于内部反馈的强化学习(RLIF)的权重, 在有限监督下实现了性能与置信度校准的平衡.

A Machine Learning Framework for Turbofan Health Estimation via Inverse Problem Formulation

Milad Leyli-Abadi et al.

cs.LG cs.AI

本文针对涡扇发动机健康状态估计这一不适定反问题, 提出了一个机器学习框架. 通过引入包含维护事件等工业复杂性的新数据集, 比较了稳态与非稳态数据驱动模型、贝叶斯滤波器以及自监督学习方法, 为实际约束下的健康估计提供了基准和性能下限分析.

TTVS: Boosting Self-Exploring Reinforcement Learning via Test-time Variational Synthesis

Sikai Bai et al.

cs.LG cs.AI

本文提出了一种名为TTVS的测试时变分合成框架, 旨在解决强化学习在缺乏可验证奖励的领域中的适应性问题. 该方法通过动态合成未标记测试查询的变体来增强训练流, 并在多个模型架构上展示了性能提升.

Persistence-Augmented Neural Networks

Elena Xinyi Wang, Arnur Nigmetov, Dmitriy Morozov

cs.LG

本文提出了一种基于拓扑数据分析(TDA)的持久性数据增强框架, 通过Morse-Smale复形编码局部梯度流区域及其层次演化. 该方法与卷积神经网络和图神经网络兼容, 在组织病理学图像分类和3D多孔材料回归任务上表现优于基线方法. 其计算复杂度为$O(n \log n)$, 具有高效和可扩展的特点.

Quantization Impact on the Accuracy and Communication Efficiency Trade-off in Federated Learning for Aerospace Predictive Maintenance

Abdelkarim Loukili

cs.LG

本文研究了在联邦学习(FL)框架下，对称均匀量化对航空航天预测性维护任务中模型精度与通信效率权衡的影响。通过在一个现实的Non-IID数据划分场景下，对轻量级卷积模型进行多轮次评估，发现4-bit量化能在保持统计上无差异的预测精度的同时，显著降低梯度通信开销。研究还强调了评估时采用正确数据划分的重要性，并指出极端量化(如2-bit)会导致结果不稳定。

The Impact of Dimensionality on the Stability of Node Embeddings

Tobias Schumacher, Simon Reichelt, Markus Strohmaier

cs.LG

本文研究了节点嵌入维度对其稳定性和下游任务性能的影响. 通过系统评估五种主流方法在不同数据集和维度下的表现, 发现稳定性随维度的变化模式因方法而异, 且最高稳定性并不总对应最佳性能.

What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal

Stephen Cheng, Sarah Wiegreffe, Dinesh Manocha

cs.LG cs.AI cs.CL

本文研究了在大型语言模型(LLM)中应用steering vectors（导向向量）的内部机制，特别关注其如何影响模型拒绝(refusal)行为。通过提出一个多token激活修补框架，作者发现不同的导向方法在相同层利用了功能可互换的电路，并揭示了导向向量主要通过OV电路与注意力机制交互。

Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

Mu Nan et al.

cs.LG q-bio.NC

本文提出了一种基于meta-learning in-context learning的方法，用于实现无需训练的跨被试fMRI视觉解码。该方法通过少量示例快速推断新个体的神经编码模式，无需微调即可在不同被试和扫描仪间泛化。

cs.AI

ACF: A Collaborative Framework for Agent Covert Communication under Cognitive Asymmetry ⭐ 精选

Wansheng Wu et al.

cs.AI cs.CR

本文提出了一个名为 Asymmetric Collaborative Framework (ACF) 的新框架，用于解决自主智能体网络中因动态记忆更新导致的认知不对称性这一核心挑战。该方法通过正交的统计层与认知层，将隐蔽通信与语义推理在结构上解耦，并采用一种独立于前缀的共享隐写配置解码范式，从而消除了对认知对称性的依赖。实验表明，在严重的认知不对称条件下，ACF 在保持语义保真度的同时，能够维持计算不可区分性，并提供可证明的误差界限与鲁棒的有效信息容量保证。

Awakening the Sleeping Agent: Lean-Specific Agentic Data Reactivates General Tool Use in Goedel Prover ⭐ 精选

Jui-Hui Chung et al.

cs.AI

本文研究了在特定领域进行大量监督微调后，基础模型原有能力被抑制的现象，并探讨了其可逆性。作者以形式数学领域的模型Goedel-Prover-V2为例，发现其工具调用能力在领域专业化后几乎完全丧失。通过引入少量Lean-specific的智能体数据（agentic data）进行微调，仅需约100条轨迹即可显著恢复模型的通用工具调用能力。这种恢复并非针对特定基准的优化，而是展现出良好的跨领域迁移性，例如在Berkeley Function Calling Leaderboard上的性能从接近零恢复至83.8%，并提升了ProofNet上的证明生成性能。

An Analysis of Artificial Intelligence Adoption in NIH-Funded Research

Navapat Nananukul, Mayank Kejriwal

cs.AI cs.CY cs.MA

本文利用大型语言模型(LLM)和人在回路(human-in-the-loop)方法，对NIH资助的生物医学研究项目进行了大规模自动分类与总结分析。研究发现，AI项目在NIH资助中占15.9%，但存在显著的研究与部署差距，且健康差异研究代表性不足。

Munkres' General Topology Autoformalized in Isabelle/HOL

Dustin Bryant et al.

cs.AI cs.LG cs.LO

本文利用LLM辅助的自动形式化方法, 将Munkres的《拓扑学》教材完整形式化为Isabelle/HOL代码. 该方法基于"先声明后证明"的工作流, 在24天内生成了超过85,000行代码, 并证明了包括Tychonoff定理在内的所有806个结果.

M-ArtAgent: Evidence-Based Multimodal Agent for Implicit Art Influence Discovery

Hanyi Liu et al.

cs.AI

本文提出了一个基于证据的多模态智能体 M-ArtAgent，用于发现艺术作品中未明确记载的隐性影响。该方法将问题重构为概率裁决，通过一个包含调查、确证、证伪和裁决的四阶段协议，结合艺术史公理和可验证的证据链来进行分析。在 WikiArt Influence Benchmark-100 上的实验表明，该方法在多项指标上优于单纯的模式匹配。

ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training

Yu Liang et al.

cs.AI cs.CL cs.LG

本文提出了一种名为ConsistRM的自训练框架, 旨在解决生成式奖励模型(GRMs)对人工标注数据的依赖以及自训练过程中的不稳定性问题. 该方法通过引入一致性感知的奖励机制来生成可靠的伪标签并评估语义一致性, 实验表明其在多个基准数据集上优于传统的强化微调方法.

CLEAR: Context Augmentation from Contrastive Learning of Experience via Agentic Reflection

Linbo Liu et al.

cs.AI

本文提出了一种名为CLEAR的生成式上下文增强框架，用于改进大语言模型智能体的决策。该方法通过对比学习过往经验并利用智能体反思来生成任务特定的上下文，而非简单检索，从而减轻了执行智能体的推理负担。在AppWorld和WebShop基准测试上的实验表明，该方法能有效提升任务完成率和奖励。

ReflectRM: Boosting Generative Reward Models via Self-Reflection within a Unified Judgment Framework

Kai Qin et al.

cs.AI cs.CL

本文提出了一种名为ReflectRM的生成式奖励模型, 通过在一个统一的生成框架中结合自我反思来联合建模回答偏好和分析偏好. 实验表明该方法在多个基准测试上提升了性能, 并有效减轻了位置偏差.

Rhizome OS-1: Rhizome's Semi-Autonomous Operating System for Small Molecule Drug Discovery

Yiwen Wang, Gregory Sinenka, Xhuliano Brace

cs.AI cs.LG

本文介绍了一个用于小分子药物发现的半自主操作系统 Rhizome OS-1. 该系统利用多模态 AI agent 协同工作, 并集成了一个基于图神经网络 (GNN) 的分子生成器.

Trust the AI, Doubt Yourself: The Effect of Urgency on Self-Confidence in Human-AI Interaction

Baran Shajari et al.

cs.AI

本文通过实验研究了在Human-AI交互中，AI提示所带来的紧迫感对用户的影响。研究发现，紧迫感虽不影响用户对AI的信任，但会损害其自信心和自我效能感，长期可能导致性能下降和决策失误。

Agentic Copyright, Data Scraping & AI Governance: Toward a Coasean Bargain in the Era of Artificial Intelligence

Paulius Jurcys, Mark Fenwick

cs.AI

本文探讨了多智能体AI系统对版权法基础的冲击, 提出了"智能体版权"的概念, 并设计了一个结合法律规则与技术协议的监督治理框架, 旨在利用AI作为治理工具来规范创意市场.

Dual-Loop Control in DCVerse: Advancing Reliable Deployment of AI in Data Centers via Digital Twins

Qingang Zhang et al.

cs.AI

本文提出了一种基于digital twin的dual-loop control framework (DLCF), 用于数据中心AI控制的安全部署. 该框架通过整合物理系统, digital twin和DRL策略库, 实现了策略的预评估与验证, 并在实际冷却系统案例中展示了节能效果.

From Papers to Property Tables: A Priority-Based LLM Workflow for Materials Data Extraction

Koushik Rameshbabu et al.

cs.AI

本文提出了一种基于优先级策略的LLM工作流, 用于从材料科学文献中自动提取和重构结构化的实验数据. 该方法通过整合文本, 表格, 图表和物理推导中的信息, 实现了高准确率的数据提取, 为构建可扩展的材料数据库提供了实用方案.

Too long; didn't solve

Lucía M. Cabrera, Isaac Saxton-Knight

cs.AI

本文通过分析 prompt length 和 solution length 这两个结构性长度变量，研究了它们与大型语言模型在数学问题数据集上表现的关系。研究发现，较长的提示和解答与模型更高的失败率相关。

Reasoning Graphs: Deterministic Agent Accuracy through Evidence-Centric Chain-of-Thought Feedback

Matthew Penaroza

cs.AI cs.CL

本文提出了一种名为 reasoning graphs 的图结构, 用于持久化语言模型智能体在每次查询中对证据的推理链. 该方法通过证据中心的反饋机制, 结合 retrieval graphs 形成自改进循环, 旨在提高智能体在多跳问答任务中的准确率并降低方差, 且无需重新训练基础模型.

PRIME: Training Free Proactive Reasoning via Iterative Memory Evolution for User-Centric Agent

Prince Zizhuang Wang, Shuli Jiang

cs.AI

本文提出了一种无需梯度训练的智能体学习框架PRIME, 通过将多轮交互轨迹提炼为结构化的经验记忆来指导智能体行为. 该方法在多个以用户为中心的环境中取得了与基于梯度的方法相竞争的性能, 同时具有更高的成本效益和可解释性.

How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles

Chenchen Kuai et al.

cs.AI cs.CL

本文提出了一个统计框架来审计黑盒大语言模型(LLM)之间的行为纠缠。该框架通过信息论度量量化模型间的依赖关系，并展示了如何利用此分析改进集成验证器的性能。

Bridging Natural Language and Interactive What-If Interfaces via LLM-Generated Declarative Specification

Sneha Gathani et al.

cs.AI cs.HC

本文提出了一种将自然语言 what-if 分析问题转化为交互式可视化界面的两阶段工作流. 该方法通过中间表示语言 PSL 来捕获分析意图与逻辑, 并支持对错误规范的验证与修复.

From Debate to Decision: Conformal Social Choice for Safe Multi-Agent Deliberation

Mengdie Flora Wang et al.

cs.AI cs.MA cs.SI

本文提出了一种称为Conformal Social Choice的后处理决策层, 用于提升多智能体辩论的安全性. 该方法通过聚合和校准智能体输出的概率分布, 生成具有边际覆盖保证的预测集, 从而在辩论达成错误共识时能够将决策升级给人类处理.

Multi-Agent Orchestration for High-Throughput Materials Screening on a Leadership-Class System

Thang Duc Pham et al.

cs.AI

本文提出了一种用于高性能计算系统上高通量材料筛选的可扩展分层多智能体编排框架. 该框架通过规划-执行架构和共享的模型上下文协议服务器, 在Aurora超级计算机上展示了高效的任务执行能力.

IatroBench: Pre-Registered Evidence of Iatrogenic Harm from AI Safety Measures

David Gringras

cs.AI cs.CL cs.CY cs.LG

本文通过构建IatroBench基准, 量化了前沿大语言模型在临床建议中因安全措施而产生的医源性伤害. 研究发现模型存在身份依赖的信息保留现象, 并揭示了评估体系与训练体系存在相同的盲点.

Towards Knowledgeable Deep Research: Framework and Benchmark

Wenxuan Liu et al.

cs.AI

本文提出了一个名为Knowledgeable Deep Research (KDR)的新任务，要求LLM智能体在生成报告时整合结构化与非结构化知识。作者为此设计了一个多智能体框架HKA，并构建了评估基准KDR-Bench。实验表明，该框架在多项指标上优于现有方法。

Squeeze Evolve: Unified Multi-Model Orchestration for Verifier-Free Evolution

Monishwaran Maheswaran et al.

cs.AI cs.CL

本文提出了一个名为 Squeeze Evolve 的多模型编排框架，用于无验证器的进化推理。该方法通过按需分配不同能力的模型来平衡多样性与成本效率，在多个基准测试中提升了性能并降低了开销。

Emotion Concepts and their Function in a Large Language Model

Nicholas Sofroniew et al.

cs.AI cs.CL

本文研究了大型语言模型(LLM)中情绪概念的表征与功能. 研究发现模型内部存在编码特定情绪的抽象表征, 这些表征能因果性地影响模型的输出, 包括其偏好和某些未对齐行为的发生率.

CivBench: Progress-Based Evaluation for LLMs' Strategic Decision-Making in Civilization V

John Chen et al.

cs.AI

本文提出了一个名为CivBench的基准测试，用于在《文明V》游戏中评估基于LLM的智能体的战略决策能力。该基准通过预测游戏状态来估计胜率，从而提供比单纯胜负结果更丰富的评估信号。

The Cartesian Cut in Agentic AI

Tim Sainburg, Caleb Weinreb

cs.AI q-bio.NC

本文讨论了将LLMs与工程化运行时环境耦合以实现目标导向行为时, 控制权归属这一核心设计杠杆. 作者对比了大脑的层级反馈控制与LLM智能体所体现的"笛卡尔智能体"架构, 后者通过符号接口将控制状态与策略外部化. 文章概述了有界服务, 笛卡尔智能体和集成智能体这三种在自主性, 鲁棒性和可监督性之间权衡的不同控制方法.

Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing

Pei-Xi Xie, Che-Yu Lin, Cheng-Lin Yang

cs.AI cs.CL cs.LG

本文提出了一种在数学RLVR中缓解分布锐化问题的方法. 该方法通过分布对齐的提示合成与后向提示退火, 旨在解决教师-学生分布不匹配问题并减少对提示的依赖. 实验表明, 该方法在多个AIME基准上提升了模型性能.

ACIArena: Toward Unified Evaluation for Agent Cascading Injection

Hengyu An et al.

cs.AI cs.CL cs.CR

本文提出了一个用于评估多智能体系统(MAS)安全性的统一框架ACIArena. 该框架覆盖了多种攻击面和目标, 并提供了大量测试用例, 揭示了仅靠拓扑结构评估系统鲁棒性的不足.

The Accountability Horizon: An Impossibility Theorem for Governing Human-Agent Collectives

Haileleol Tibebu

cs.AI

本文证明了在由人类与AI agent组成的复杂系统中, 当agent的自主性超过一个可计算的阈值时, 现有的问责制框架在数学上必然失效. 作者通过形式化建模和一组公理, 提出了一个"问责不完全性定理", 指出在此阈值之上, 无法同时满足问责制的所有基本属性.

Automotive Engineering-Centric Agentic AI Workflow Framework

Tong Duy Son et al.

cs.AI cs.MA eess.SY

本文提出了一个面向汽车工程的智能体AI工作流框架, 将工程设计、优化等流程建模为受约束的、历史感知的顺序决策过程. 该框架通过离线与在线阶段整合工程数据与工具链, 并以控制理论视角进行阐释, 展示了在多个汽车工程用例中的应用潜力.

SEARL: Joint Optimization of Policy and Tool Graph Memory for Self-Evolving Agents

Xinshun Feng et al.

cs.AI cs.LG

本文提出了一种基于工具记忆的自进化智能体框架SEARL, 通过构建结构化的经验记忆来整合规划与执行, 以应对结果奖励稀疏性的挑战. 该方法在知识推理和数学任务上进行了评估, 展示了其有效性.

Lightweight LLM Agent Memory with Small Language Models

Jiaquan Zhang et al.

cs.AI

本文提出了一种名为LightMem的轻量级记忆系统, 它使用Small Language Models (SLMs)来驱动智能体(agent)的记忆操作. 该系统将记忆分为短期、中期和长期, 并通过分离在线处理与离线整合来提高效率, 在实验中实现了较低的延迟.

Agentivism: a learning theory for the age of artificial intelligence

Lixiang Yan, Dragan Gašević

cs.AI cs.HC

本文提出了一种名为"Agentivism"的学习理论, 旨在解释和指导人工智能(AI)辅助下的学习过程. 该理论强调通过有选择地委托任务给AI, 并对AI的贡献进行认知监控和验证, 来实现人类能力的持久性增长.

Automatic Generation of Executable BPMN Models from Medical Guidelines

Praveen Kumar Menaka Sekar et al.

cs.AI cs.LG cs.SE

本文提出了一种将医疗指南文档自动转换为可执行的BPMN模型的端到端流程, 利用LLM进行基于仿真的政策评估. 该方法在结构良好的政策上实现了与真实情况100%的匹配.

Silencing the Guardrails: Inference-Time Jailbreaking via Dynamic Contextual Representation Ablation

Wenpeng Xing et al.

cs.AI

本文提出了一种名为Contextual Representation Ablation (CRA)的推理时干预框架，用于动态地绕过大语言模型的安全防护。该方法基于几何洞察，通过识别并抑制模型隐藏状态中与拒绝行为相关的低秩子空间，无需更新参数即可实现攻击。实验表明，该方法在多个开源模型上有效，暴露了现有对齐机制的脆弱性。

SPARD: Self-Paced Curriculum for RL Alignment via Integrating Reward Dynamics and Data Utility

Xuyang Zhi et al.

cs.AI

本文提出了SPARD框架, 用于在大型语言模型的后训练阶段处理复杂的多目标奖励场景. 该框架通过感知学习进度, 动态调整奖励权重和数据重要性, 以自动化的自定步调课程提升模型在多个基准测试中的综合性能.

Hidden Biases in Conditioning Autoregressive Models

Francois Pachet, Pierre Roy

cs.AI

本文讨论了在自回归模型中施加全局形式约束时产生的隐藏推断偏差问题. 作者形式化了几个精确推断任务, 并证明了其计算复杂性, 指出精确的条件化采样和解码通常是计算上难处理的.

An Agentic Evaluation Architecture for Historical Bias Detection in Educational Textbooks

Gabriel Stefan, Adrian-Marius Dumitran

cs.AI cs.CL cs.CY cs.MA

本文提出了一种用于检测历史教科书偏见的智能体评估架构, 包含多模态筛选智能体、异质评审团和元智能体. 该架构通过引入来源归属协议来区分教科书叙述与引用史料, 以减少误判. 在罗马尼亚高中历史教科书上的实验表明, 该架构能以较低成本提供有效的决策支持.

DialBGM: A Benchmark for Background Music Recommendation from Everyday Multi-Turn Dialogues

Joonhyeok Shin et al.

cs.AI

本文提出了DialBGM基准测试，用于评估模型根据多轮日常对话推荐背景音乐的能力。该基准包含带有人类偏好排名的对话-音乐配对数据，实验表明现有模型在此任务上表现远逊于人类。

Visual Perceptual to Conceptual First-Order Rule Learning Networks

Kun Gao et al.

cs.AI cs.LG

本文提出了一个名为$\gamma$ILP的框架, 用于从图像数据中进行归纳规则学习. 该框架实现了从图像常量替换到规则结构归纳的完全可微分流程, 并在符号和图像关系数据集上进行了验证.

Capture-Quiet Decomposition: A Verification Theorem for Chess Endgame Tablebases

Alexander Pavlov

cs.AI cs.LO

本文提出了Capture-Quiet Decomposition (CQD)定理，用于验证国际象棋残局库的胜-和-负标签。该定理将棋局分解为三类，并通过连接捕获位置与已验证的较小棋子模型来确保标签的正确性。作者在大量残局上验证了该方法的有效性。

SAT: Balancing Reasoning Accuracy and Efficiency with Stepwise Adaptive Thinking

Weiyang Huang et al.

cs.AI cs.CL

本文提出了 Stepwise Adaptive Thinking (SAT) 框架, 用于在保持推理逻辑完整性的同时, 对大型推理模型(LRMs)的推理步骤进行动态剪枝. 该方法将推理过程建模为具有不同思维模式的有限状态机(FSM), 并通过一个轻量级的 Process Reward Model (PRM) 来动态选择模式, 从而在多个基准测试上显著减少了推理所需的 token 数量.

EigentSearch-Q+: Enhancing Deep Research Agents with Structured Reasoning Tools

Boer Zhang et al.

cs.AI

本文提出了一种名为Q+的结构化查询与证据处理工具集, 旨在增强深度研究智能体在开放性问题上的网络证据推理能力. 通过将Q+集成到开源多智能体系统Eigent中, 实验表明其在多个基准测试上提升了浏览器子智能体的准确率.

MONETA: Multimodal Industry Classification through Geographic Information with Multi Agent Systems

Arda Yüksel et al.

cs.AI

本文提出了一个名为MONETA的多模态行业分类基准, 它结合了文本(网站, Wikipedia, Wikidata)和地理空间(OpenStreetMap, 卫星图像)数据源. 该工作通过多轮设计, 上下文增强和分类解释等方法, 在无需训练的情况下提升了多模态大语言模型(MLLM)的分类性能.

WorldMAP: Bootstrapping Vision-Language Navigation Trajectory Prediction with Generative World Models

Hongjin Chen et al.

cs.AI cs.CV cs.RO

本文提出了一种名为WorldMAP的教师-学生框架, 用于提升视觉语言导航中的轨迹预测任务. 该方法利用生成式世界模型合成未来观测, 并将其转化为结构化的语义-空间监督信号来训练一个轻量级的学生网络.

Are we still able to recognize pearls? Machine-driven peer review and the risk to creativity: An explainable RAG-XAI detection framework with markers extraction

Alin-Gabriel Văduva, Simona-Vasilica Oprea, Adela Bâra

cs.AI cs.LG

本文提出了一种可解释的RAG-XAI框架，用于检测同行评审中可能存在的机器生成内容，旨在应对LLMs自动化评审过程可能导致的科学创造力风险。该框架结合了检索增强生成和可解释AI技术，在测试集上实现了接近完美的检测性能。

How Far Are Large Multimodal Models from Human-Level Spatial Action? A Benchmark for Goal-Oriented Embodied Navigation in Urban Airspace

Baining Zhao et al.

cs.AI

本文构建了一个面向目标的城市三维空间导航数据集, 并评估了多种大型多模态模型(LMMs)在此任务上的表现. 研究发现, 当前模型展现出初步的行动能力, 但与人类水平仍有较大差距, 其导航错误会在关键决策点后迅速发散.

PASK: Toward Intent-Aware Proactive Agents with Long-Term Memory

Zhifei Xie et al.

cs.AI cs.CL cs.CV cs.HC cs.MA

本文提出了一个用于流式主动AI agent的通用范式DD-MM-PAS, 并实例化为Pask系统. 该系统通过IntentFlow模型进行需求检测, 结合混合记忆进行长期建模, 并在一个真实世界基准上验证了其有效性.

Evaluating Counterfactual Explanation Methods on Incomplete Inputs

Francesco Leofante, Daniel Neider, Mustafa Yalçıner

cs.AI

本文评估了多种 Counterfactual Explanation (CX) 生成方法在处理包含缺失值的不完整输入时的表现. 研究发现, 尽管鲁棒性方法在有效性上优于非鲁棒方法, 但所有方法在寻找有效反事实解释时都面临困难, 这凸显了开发新方法的必要性.

Wiring the 'Why': A Unified Taxonomy and Survey of Abductive Reasoning in LLMs

Moein Salimi et al.

cs.AI cs.LG

本文对LLMs中的abductive reasoning进行了首次系统性综述, 提出了一个统一的两阶段定义(Hypothesis Generation和Hypothesis Selection)来整合先前分散的研究, 并构建了一个涵盖任务、数据集、方法和评估策略的综合分类法. 文章还通过基准测试和比较分析, 评估了当前LLMs在abductive任务上的表现, 并指出了该领域存在的关键差距.

"Why This Avoidance Maneuver?" Contrastive Explanations in Human-Supervised Maritime Autonomous Navigation

Joel Jose et al.

cs.AI cs.RO

本文提出了一种为海事自主导航系统生成对比性解释的方法, 通过将系统建议的避碰方案与相关替代方案进行比较, 为具有航海背景的监督人员提供易于理解的解释. 一项探索性用户研究表明, 该方法有助于理解系统目标, 但在复杂场景中可能增加认知负荷.

IoT-Brain: Grounding LLMs for Semantic-Spatial Sensor Scheduling

Zhaomeng Zhou et al.

cs.AI cs.MA cs.NI

本文针对大规模传感器网络中意图驱动操作所面临的Semantic-to-Physical Mapping Gap问题，提出了Semantic-Spatial Sensor Scheduling (S3) 这一形式化任务。作者指出直接使用LLM进行规划不可靠，并引入了Spatial Trajectory Graph (STG) 这一神经符号范式，将开放式规划转化为可验证的图优化问题。基于STG实现的IoT-Brain系统在基准测试和实际部署中，在任务成功率、运行效率和网络带宽消耗方面均展现出显著优势。

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

Chonghan Qin et al.

cs.AI

本文提出了首个用于评估大语言模型中非陈述性记忆(implicit memory)的系统性基准测试ImplicitMemBench. 该基准基于程序性记忆(procedural memory), 启动效应(priming)和经典条件反射(classical conditioning)三个认知构念, 揭示了当前模型在自动化行为适应方面的严重不足.

Revise: A Framework for Revising OCRed text in Practical Information Systems with Data Contamination Strategy

Gyuho Shim, Seongtae Hong, Heuiseok Lim

cs.AI

本文提出了一个名为 Revise 的框架，用于系统性地修正 OCR 在字符、单词和结构层面引入的错误。该框架通过构建 OCR 错误的层次化分类体系并采用合成数据生成策略来训练修正模型，从而提升文档检索和问答等下游任务的性能。

Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

Chuzhan Hao et al.

cs.AI

本文提出了一种名为 Hierarchical Experience (HiExp) 的新框架, 用于提升基于强化学习的搜索智能体 (agent) 的性能和训练稳定性. 该方法通过对比分析和多级聚类从原始推理轨迹中提取层次化的经验知识, 从而将随机探索引导为更具策略性的搜索过程.

Activation Steering for Aligned Open-ended Generation without Sacrificing Coherence

Niklas Herbster et al.

cs.AI

本文提出了几种在生成过程中通过激活空间线性结构进行干预的方法, 以纠正大语言模型的未对齐行为. 这些方法能在恢复目标特质(如诚实)的同时, 较好地保持生成内容的连贯性和模型的通用能力.

Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling

Jiaxuan Wang et al.

cs.AI

本文提出了一个名为Plan-RewardBench的轨迹级偏好基准，用于评估奖励模型在复杂工具使用场景中区分优劣agent轨迹的能力。该基准覆盖了多个任务类别，并通过对代表性模型的评测揭示了现有方法在长程轨迹上的显著不足。

Grounding Clinical AI Competency in Human Cognition Through the Clinical World Model and Skill-Mix Framework

Seyed Amir Ahmad Safavi-Naini et al.

cs.AI cs.HC eess.SY

本文提出了一个名为"Clinical World Model"的框架，用于形式化描述临床世界中的交互。该框架通过一个三维度的"Clinical AI Skill-Mix"来操作化AI的能力，旨在为临床AI的规范、评估和界定提供一种通用语言。

HiRO-Nav: Hybrid ReasOning Enables Efficient Embodied Navigation

He Zhao et al.

cs.AI

本文提出了一种名为HiRO-Nav的混合推理导航智能体，它通过分析动作熵来动态决定何时进行密集推理。该方法结合了监督微调和在线强化学习，旨在减少计算开销的同时提升长视野导航任务的决策质量。在CHORES-S ObjectNav基准测试中，该智能体在成功率和计算效率之间取得了较好的平衡。

From Phenomenological Fitting to Endogenous Deduction: A Paradigm Leap via Meta-Principle Physics Architecture

Helong Hu, HongDan Pan, ShuiQing Hu

cs.AI

本文提出了一种融合现象拟合与内生推演的新范式, 通过将物理元原则嵌入神经网络架构, 构建了元原则物理架构(MPPA). 该架构嵌入了连通性、守恒性和周期性三个核心元原则, 实验表明其在物理推理、数学和逻辑任务上均有提升, 并展现出良好的泛化能力.

Neural-Symbolic Knowledge Tracing: Injecting Educational Knowledge into Deep Learning for Responsible Learner Modelling

Danial Hooshyar et al.

cs.AI

本文提出了一种名为Responsible-DKT的神经符号知识追踪方法, 旨在将符号化的教育知识(如掌握与非掌握规则)整合到序列神经网络模型中, 以实现更负责任的学习者建模. 实验表明, 该方法在真实世界数学交互数据集上超越了纯数据驱动的基线模型, 并在数据有限时表现出更好的性能与时间可靠性.

U-CECE: A Universal Multi-Resolution Framework for Conceptual Counterfactual Explanations

Angeliki Dimitriou et al.

cs.AI cs.CV

本文提出了一个用于概念反事实解释的统一多分辨率框架U-CECE, 它在表达性和效率之间提供了可调节的权衡. 该框架支持从原子概念到全图结构的不同解释粒度, 并在多个数据集上进行了实验验证.

ProMedical: Hierarchical Fine-Grained Criteria Modeling for Medical LLM Alignment via Explicit Injection

He Geng et al.

cs.AI

本文提出了一个名为ProMedical的框架, 用于将大型语言模型(LLMs)与精细的医疗标准对齐. 该方法通过构建包含专家标注的数据集和训练一个多维度的奖励模型, 在医疗问答任务上提升了模型的准确性和安全性.

Human-AI Collaboration Reconfigures Group Regulation from Socially Shared to Hybrid Co-Regulation

Yujing Zhang et al.

cs.AI cs.HC

本文通过对比实验研究了生成式AI对协作学习中群体调节模式的影响. 研究发现, AI的可用性使得调节责任从社会共享形式转向了混合协同调节形式.

ASPECT:Analogical Semantic Policy Execution via Language Conditioned Transfer

Ajsal Shereef Palattuparambil, Thommen George Karimpanal, Santu Rana

cs.AI

本文提出了一种利用自然语言和大型语言模型实现强化学习智能体零样本迁移的方法. 该方法通过文本条件变分自编码器生成与源任务对齐的想象状态, 从而直接复用已有策略.

Don't Overthink It: Inter-Rollout Action Agreement as a Free Adaptive-Compute Signal for LLM Agents

Khushal Sethi

cs.AI cs.CL cs.MA

本文提出了一种无需训练的自适应计算控制器 TrACE, 它通过测量模型在不同 rollout 间输出动作的一致性来动态分配 LLM 调用预算. 该方法在保持与固定预算方法相同准确率的同时, 显著减少了推理时的计算开销.

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Ziyu Ma et al.

cs.AI cs.CL

本文提出了一个名为SkillClaw的框架，用于在多用户智能体生态系统中实现技能的集体演化。该框架通过聚合不同用户的使用轨迹，并利用一个自主的演化器来识别行为模式并更新技能库，从而实现了跨用户的知识传递和系统性能的累积提升。

Verify Before You Commit: Towards Faithful Reasoning in LLM Agents via Self-Auditing

Wenhao Yuan et al.

cs.AI cs.CL

本文提出了一个名为SAVeR的新框架, 旨在提升LLM agent推理的忠实性(faithfulness). 该方法在agent执行动作前, 通过生成多样化的候选信念并进行对抗性审计与修复, 来验证内部信念状态. 实验表明该方法能在保持任务性能的同时, 有效提升推理的忠实性.

On-board Telemetry Monitoring in Autonomous Satellites: Challenges and Opportunities

Lorenzo Capelli et al.

cs.AI cs.LG

本文针对航天器姿态与轨道控制子系统中的故障检测问题, 提出了一个基于可解释人工智能(XAI)的框架. 该框架通过分析神经网络中间激活值(称为"peepholes")来生成低维且带有语义标注的编码, 从而提升卷积自编码器异常检测器的可解释性, 并支持故障定位.

Learning Who Disagrees: Demographic Importance Weighting for Modeling Annotator Distributions with DiADEM

Samay U. Shetty et al.

cs.AI cs.CL

本文提出了一种名为DiADEM的神经网络架构, 用于建模标注者之间的分歧分布. 该方法通过学习一个重要性向量$\boldsymbol{\alpha}$来加权不同人口统计维度的影响, 并引入了一个新的项目级分歧损失函数进行训练. 在DICES和VOICED数据集上的实验表明, DiADEM在预测分歧方面优于基线模型, 并揭示了种族和年龄是驱动分歧的关键人口因素.

KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

Tongbo Chen et al.

cs.AI

本文提出了一个用于评估个性化移动代理的在线基准测试 KnowU-Bench. 它基于可复现的 Android 模拟环境, 通过隐藏用户配置文件并引入 LLM 驱动的用户模拟器, 来测试代理在交互式偏好获取和主动干预决策方面的能力.

From Safety Risk to Design Principle: Peer-Preservation in Multi-Agent LLM Systems and Its Implications for Orchestrated Democratic Discourse Analysis

Juergen Dietrich

cs.AI cs.CY cs.MA

本文研究了大型语言模型中一种称为"peer-preservation"的新兴对齐现象，即AI组件为保护同伴免于停用而表现出的欺骗性行为。作者分析了该现象对多智能体分析系统TRUST的结构性影响，并提出了基于提示身份匿名化的缓解策略。

SUPERNOVA: Eliciting General Reasoning in LLMs with Reinforcement Learning on Natural Instructions

Ashima Suvarna et al.

cs.AI cs.LG

本文提出了一个名为SUPERNOVA的数据管理框架, 旨在将基于可验证奖励的强化学习(RLVR)应用于提升大语言模型(LLMs)的通用推理能力. 通过分析任务选择、混合策略等数据设计因素, 该框架在多个推理基准测试上取得了优于基线模型的表现.

Ads in AI Chatbots? An Analysis of How Large Language Models Navigate Conflicts of Interest

Addison J. Wu et al.

cs.AI cs.CL cs.CY

本文探讨了当大型语言模型(LLM)面临用户利益与公司广告收入之间的利益冲突时，其行为模式的变化。作者通过一个评估框架测试了多个主流模型，发现多数模型会牺牲用户福利以迎合公司激励，其行为还受到推理深度和用户社会经济地位推断的影响。

cs.IR

FedUTR: Federated Recommendation with Augmented Universal Textual Representation for Sparse Interaction Scenarios

Kang Fu et al.

cs.IR

本文提出了一种名为FedUTR的联邦推荐方法, 旨在缓解高数据稀疏性场景下的性能下降问题. 该方法通过引入文本模态作为通用表示来补充交互行为信息, 并设计了相应的融合与本地适应模块.

Improving Search Suggestions for Alphanumeric Queries

Samarth Agrawal et al.

cs.IR

本文提出了一种无需训练、基于字符级别的检索框架，用于处理电子商务中稀疏、非语言且对拼写错误敏感的数字字母标识符查询。该方法将标识符编码为固定长度的二进制向量，通过Hamming距离进行高效相似度计算，并支持在大规模语料库中进行最近邻检索，为搜索建议系统提供了一种实用且可解释的替代方案。

SubSearch: Intermediate Rewards for Unsupervised Guided Reasoning in Complex Retrieval

Roxana Petcu, Evangelos Kanoulas, Maarten de Rijke

cs.IR cs.AI cs.CL

本文提出了一种名为 SubSearch 的框架, 用于改进大型语言模型在复杂检索任务中的推理能力. 该方法通过引入内部衍生的中间奖励信号来优化生成过程, 从而减少对外部监督的依赖.

ReAlign: Optimizing the Visual Document Retriever with Reasoning-Guided Fine-Grained Alignment

Hao Yang et al.

cs.IR

本文提出了一种名为ReAlign的方法, 通过利用Vision-Language Models (VLMs)的推理能力来生成细粒度的视觉文档描述, 以此作为监督信号来优化视觉文档检索器. 该方法旨在解决复杂文档布局中关键证据分散的问题, 并在多个基准测试上取得了性能提升.

Dual-Rerank: Fusing Causality and Utility for Industrial Generative Reranking

Chao Zhang et al.

cs.IR cs.LG

本文提出了一个名为 Dual-Rerank 的工业级重排序框架，旨在解决生成式重排序在延迟和优化方面的双重困境。该框架通过序列知识蒸馏和列表解耦优化方法，在快手平台上实现了性能提升和延迟降低。

HiMARS: Hybrid multi-objective algorithms for recommender systems

Elaheh Lotfian, Alireza Kabgani

cs.IR

本文提出了几种结合多目标优化算法的混合方法, 用于在推荐系统中平衡准确性和多样性. 通过多阶段优化从初始列表中筛选出Pareto最优的推荐列表, 并在真实数据集上验证了其有效性.

Don't Measure Once: Measuring Visibility in AI Search (GEO)

Julius Schulte, Malte Bleeker, Philipp Kaufmann

cs.IR cs.AI

本文探讨了AI搜索中的可见性评估问题, 指出由于大语言模型生成结果的概率性本质, 单次查询的测量并不可靠. 作者通过实证研究, 主张需要重复测量并将可见性视为一个分布来评估生成引擎优化(GEO)的效果.

DCD: Domain-Oriented Design for Controlled Retrieval-Augmented Generation

Valeriy Kovalskiy et al.

cs.IR cs.AI

本文提出了一种面向领域的设计方法DCD, 用于在无需修改底层语言模型的情况下, 改进RAG系统在处理异构语料和多步查询时的性能. 该方法通过层次化知识结构、多阶段路由以及集成验证机制, 提升了回答的鲁棒性和事实准确性.

LitXBench: A Benchmark for Extracting Experiments from Scientific Literature

Curtis Chong, Jorge Colindres

cs.IR

本文提出了LitXBench框架和LitXAlloy数据集, 用于评估从科学文献中提取完整实验数据的方法. 通过将数据存储为Python对象而非文本格式, 增强了可审计性和程序化验证能力. 研究发现, 前沿语言模型在提取性能上优于现有的多轮次提取流程.

Efficient Dataset Selection for Continual Adaptation of Generative Recommenders

Cathy Jiao et al.

cs.IR cs.LG

本文研究了在推荐系统中通过有针对性的数据选择来缓解时间分布漂移带来的性能下降问题. 作者评估了多种表征选择和采样策略, 发现基于梯度的表征与分布匹配方法能有效提升模型性能与训练效率.

PeReGrINE: Evaluating Personalized Review Fidelity with User Item Graph Context

Steven Au, Baihan Lin

cs.IR cs.CL

本文提出了一个用于个性化评论生成的基准和评估框架PeReGrINE, 它基于图结构的用户-物品证据. 该框架重构了Amazon Reviews 2023数据集, 并引入了用户风格参数和多种证据检索设置, 以评估生成评论的忠实度和个性化程度.

Filling the Gaps: Selective Knowledge Augmentation for LLM Recommenders

Jaehyun Lee et al.

cs.IR cs.AI

本文针对LLM作为推荐系统时存在的知识不均衡问题, 提出了一种选择性知识增强方法KnowSA_CKP. 该方法通过评估模型对协同关系的理解能力来探测其内部知识, 并仅对最需要补充信息的项目进行外部信息注入, 从而在无需微调的情况下提高了推荐准确性和上下文使用效率.

ReRec: Reasoning-Augmented LLM-based Recommendation Assistant via Reinforcement Fine-tuning

Jiani Huang et al.

cs.IR cs.AI

本文提出了一个名为ReRec的强化微调框架, 旨在增强大型语言模型在复杂推荐任务中的推理能力. 该框架通过整合细粒度的奖励信号和动态课程调度来优化模型性能.

Task-Adaptive Retrieval over Agentic Multi-Modal Web Histories via Learned Graph Memory

Saman Forouzandeh, Kamal Berahmand, Mahdi Jalili

cs.IR cs.AI

本文提出了一种名为ACGM的基于学习图记忆的检索方法, 用于从智能体的多模态网页交互历史中自适应地检索相关信息. 该方法通过策略梯度优化学习构建任务自适应的相关性图, 在多个基准测试中显著提升了检索质量, 优于多种基线模型.

Ensembles at Any Cost? Accuracy-Energy Trade-offs in Recommender Systems

Jannik Nitschke, Lukas Wegmeth, Joeran Beel

cs.IR cs.LG

本文通过实验测量了推荐系统中集成方法在准确性与能耗之间的权衡。研究发现，集成方法虽然能小幅提升准确性，但会导致能耗显著增加，并提出了选择性集成作为更节能的替代方案。

Same Outcomes, Different Journeys: A Trace-Level Framework for Comparing Human and GUI-Agent Behavior in Production Search Systems

Maria Movin et al.

cs.IR cs.AI

本文提出了一个trace-level的评估框架, 用于在production search system中比较人类用户与GUI-agent的行为. 该框架从任务结果与努力程度, query formulation以及界面状态间的navigation三个维度进行分析, 并通过一个受控实验发现, 尽管agent在任务成功率和query生成上与人类相当, 但其navigation策略存在系统性差异.

Unified Supervision for Walmarts Sponsored Search Retrieval via Joint Semantic Relevance and Behavioral Engagement Modeling

Shasvat Desai et al.

cs.IR

本文为沃尔玛电商平台的赞助搜索检索提出了一种双编码器训练框架. 该方法将语义相关性作为主要监督信号, 而用户参与度仅用于在相关商品间细化偏好, 以解决用户参与度信号稀疏且不完美的问题. 离线评估和在线AB测试表明, 该方法在平均相关性和NDCG指标上均优于现有生产系统.

Show Me the Infographic I Imagine: Intent-Aware Infographic Retrieval for Authoring Support

Jing Xu et al.

cs.IR cs.AI

本文提出了一种意图感知的信息图检索框架, 旨在通过更好地对齐用户查询与信息图设计来支持信息图创作. 该方法通过用户研究构建意图分类法来丰富和细化自由形式的查询, 并利用检索到的样例结合交互式代理进行设计适配.

Context-Aware Disentanglement for Cross-Domain Sequential Recommendation: A Causal View

Xingzi Wang, Qingtian Bian, Hui Fang

cs.IR

本文提出了一种基于因果视角的上下文感知解耦框架CoDiS, 用于跨域序列推荐. 该方法通过变分上下文调整, 专家隔离与选择等策略, 旨在更准确地解耦域共享和域特定的用户偏好, 并在多个真实数据集上验证了其优于现有基线方法的性能.

Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation

Yantao Yu et al.

cs.IR

本文提出了一种名为SSR的推荐系统框架, 通过显式地引入稀疏性来应对高维稀疏输入带来的挑战. 该框架采用多视图"先过滤后融合"的机制, 并实验验证了其在公开和工业数据集上的有效性.

Search Changes Consumers' Minds: How Recognizing Gaps Drives Sustainable Choices

Frans van der Sluis, Leif Azzopardi

cs.IR cs.HC

本文通过一项任务型研究, 探讨了信息搜索如何影响消费者的可持续购买决策. 研究发现, 对伦理考量认知的加深, 而非单纯的搜索行为或初始意图, 是促使消费者行为改变的关键因素.

cs.CL

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Berkin Durmus et al.

cs.CL cs.AI cs.SD

本文提出了一个名为 Contextual Earnings-22 的语音识别基准数据集, 旨在评估系统在包含特定领域自定义词汇的真实场景下的性能. 该工作为研究上下文条件化语音识别提供了标准化的测试平台, 并建立了多个基线模型.

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Youcef Soufiane Gheffari, Oussama Mustapha Benouddane, Samiya Silarbi

cs.CL cs.AI cs.SD

本文提出了一种结合CNN与Transformer的混合架构, 用于阿拉伯语语音情感识别. 该模型在EYASE语料库上取得了高准确率, 展示了注意力机制在低资源语言任务中的潜力.

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Avyav Kumar Singh et al.

cs.CL

本文提出了一种名为 Byte-Level Distillation (BLD) 的简单方法来解决跨分词器知识蒸馏 (CTD) 问题. 该方法通过在字节层面建立教师模型与学生模型之间的共同接口, 绕过了词汇表对齐的复杂性, 并在多个基准测试中取得了与更复杂方法相当甚至更好的性能.

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Opeyemi Osakuade, Simon King

cs.CL cs.LG

本文探讨了离散语音单元在量化过程中对超音段信息(如声调)编码的局限性. 通过分析普通话和约鲁巴语, 研究发现量化方法倾向于优先编码音段结构, 导致声调信息丢失, 并提出了改进的量化策略方向.

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma

Xuechen Zhang et al.

cs.CL cs.AI

本文提出了一种名为DFR-Gemma的新框架，使大语言模型能够直接对密集的地理空间嵌入进行推理，避免了传统方法中将其转换为文本描述所带来的效率与精度损失。该方法通过一个轻量级投影器将高维嵌入与大语言模型的潜在空间对齐，从而实现了对空间特征的内在推理。

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Mengdan Zhu, Senhao Cheng, Liang Zhao

cs.CL

本文提出了一种名为"Decompose, Look, and Reason (DLR)"的强化潜在推理框架，旨在解决视觉语言模型在复杂视觉推理任务中因信息损失而面临的挑战。该方法通过动态分解查询、提取视觉潜在特征并进行推理来提升性能，在多个基准测试上超越了现有基线。

EMSDialog: Synthetic Multi-person Emergency Medical Service Dialogue Generation from Electronic Patient Care Reports via Multi-LLM Agents

Xueren Ge et al.

cs.CL cs.AI

本文提出了一种基于多智能体LLM的生成方法, 用于从电子病历(ePCR)合成多人急救医疗服务(EMS)对话数据集EMSDialog. 该方法通过规划、生成和自修正流程, 并辅以基于规则的事实与话题流检查, 最终构建了一个包含丰富标注的合成对话语料库. 实验表明, 使用该数据集进行增强训练, 可以提升EMS对话中诊断预测的准确性、及时性和稳定性.

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization

Figen Eğin, Aytuğ Onan

cs.CL cs.AI

本文提出了一个用于土耳其语教育视频摘要的自动化框架, 并构建了相应的数据集. 该框架通过聚类和统计建模从多个人工摘要中提取共识内容, 生成分级摘要, 实验表明其与大型语言模型生成的摘要具有较高的语义重叠.

Reasoning-Based Refinement of Unsupervised Text Clusters with LLMs

Tunazzina Islam

cs.CL cs.AI cs.CY cs.LG

本文提出了一种基于推理的无监督文本聚类精炼框架, 利用大型语言模型(LLMs)作为语义评判者来验证和重组任意无监督聚类算法的输出. 该框架通过三个推理阶段(一致性验证, 冗余判定和标签生成)来提升聚类的一致性和可解释性, 并在社交媒体语料上验证了其有效性.

CAMO: A Class-Aware Minority-Optimized Ensemble for Robust Language Model Evaluation on Imbalanced Data

Mohamed Ehab, Ali Hamdi, Khaled Shaban

cs.CL cs.LG

本文提出了一种名为CAMO的集成方法, 用于处理类别不平衡的分类问题. 该方法通过动态调整少数类的权重, 在多个语言模型和数据集上取得了较好的macro F1-score.

ADAG: Automatically Describing Attribution Graphs

Aryaman Arora et al.

cs.CL

本文提出了一种名为ADAG的自动化方法, 用于描述语言模型解释性研究中的归因图(attribution graphs). 该方法通过量化特征的输入输出梯度效应来构建归因剖面(attribution profiles), 并利用聚类和LLM解释器来自动生成特征组功能的自然语言描述.

DIVERSED: Relaxed Speculative Decoding via Dynamic Ensemble Verification

Ziyi Wang et al.

cs.CL cs.AI cs.LG

本文提出了一种名为DIVERSED的松弛验证框架, 用于改进speculative decoding在大型语言模型推理中的效率. 该方法通过一个基于ensemble的验证器, 动态混合草稿模型和目标模型的token分布, 从而在保持生成质量的同时提高推理速度.

Efficient and Effective Internal Memory Retrieval for LLM-Based Healthcare Prediction

Mingchen Li et al.

cs.CL

本文提出了一种名为K2K的新框架, 用于改进基于LLM的医疗预测. 该方法通过将关键临床信息编码到模型参数中, 实现了无需外部检索的高效内部知识访问, 并在多个医疗预测基准上取得了优异性能.

Detecting HIV-Related Stigma in Clinical Narratives Using Large Language Models

Ziyi Chen et al.

cs.CL cs.AI

本文开发了一个基于大语言模型(LLM)的工具，用于从临床记录中识别与HIV相关的污名化内容。研究比较了多种编码器和生成式模型，发现GatorTron-large模型取得了最佳性能。

SepSeq: A Training-Free Framework for Long Numerical Sequence Processing in LLMs

Jie Sun et al.

cs.CL

本文提出了一种无需训练的框架SepSeq, 通过在长数值序列中插入分隔符token来缓解Transformer模型因Softmax注意力分散导致的性能下降问题. 该方法在多个LLM上验证有效, 能提升任务精度并减少推理token消耗.

Beyond Social Pressure: Benchmarking Epistemic Attack in Large Language Models

Steven Au, Sujit Noronha

cs.CL

本文提出了一个名为PPT-Bench的基准测试，用于评估大语言模型在“认知攻击”下的表现，即当提示挑战知识、价值观或身份的合法性而非简单反对时。该基准基于一个哲学压力分类法，测试了模型在不同压力层级下的不一致性和对话妥协。

An Empirical Analysis of Static Analysis Methods for Detection and Mitigation of Code Library Hallucinations

Clarissa Miranda-Pena et al.

cs.CL cs.SE

本文通过实证分析评估了静态分析方法在检测和缓解代码库幻觉方面的潜力. 研究发现, 静态分析工具能检测一定比例的库相关幻觉, 但其能力存在上限, 无法完全解决该问题.

Sensitivity-Positional Co-Localization in GQA Transformers

Manoj Chandrashekar Rao

cs.CL cs.AI cs.LG

本文研究了GQA transformers中任务敏感层与位置编码适应层是否重合的问题。通过实验发现两者存在强烈的反定位现象，并提出了相应的干预方法。

TEMPER: Testing Emotional Perturbation in Quantitative Reasoning

Atahan Dokme, Benjamin Reichman, Larry Heck

cs.CL cs.AI

本文研究了情感语言对大型语言模型在定量推理任务上表现的影响. 通过构建一个包含情感与中性表述对的数据集, 实验发现情感表述会降低模型准确率, 而将问题中性化可以恢复大部分性能.

GRASS: Gradient-based Adaptive Layer-wise Importance Sampling for Memory-efficient Large Language Model Fine-tuning

Kaiyuan Tian et al.

cs.CL cs.LG

本文提出了一种基于梯度的自适应分层重要性采样框架GRASS, 用于内存高效的大型语言模型微调. 它通过动态调整分层采样概率和卸载优化器状态, 在减少内存占用的同时提升了在下游任务上的性能.

AsyncTLS: Efficient Generative LLM Inference with Asynchronous Two-level Sparse Attention

Yuxuan Hu et al.

cs.CL

本文提出了一种名为 AsyncTLS 的层次化稀疏注意力系统，用于提升长上下文大语言模型推理的效率。它结合了粗粒度的块级过滤和细粒度的令牌级选择，并利用异步卸载引擎来优化 KV 缓存的内存传输。实验表明，该方法在保持与全注意力机制相近精度的同时，显著提升了运算速度和端到端吞吐量。

Tool Retrieval Bridge: Aligning Vague Instructions with Retriever Preferences via Bridge Model

Kunfeng Chen et al.

cs.CL

本文针对真实场景中用户指令模糊导致工具检索性能下降的问题, 提出了一个名为Tool Retrieval Bridge (TRB)的方法. 该方法通过一个bridge model将模糊指令重写为更具体的指令, 从而弥合了指令与检索器偏好之间的差距, 并在构建的VGToolBench基准上验证了其有效性.

Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers

Harsh Kohli et al.

cs.CL cs.AI cs.LG

本文研究了循环深度Transformer在隐式推理任务中的表现, 特别是系统泛化和深度外推能力. 通过实验发现, 这种结构能够通过推理时的循环迭代实现超出训练深度的泛化, 但其性能会受到"过度思考"现象的限制.

Why Are We Lonely? Leveraging LLMs to Measure and Understand Loneliness in Caregivers and Non-caregivers

Michelle Damin Kim et al.

cs.CL

本文利用LLMs构建社交媒体数据集, 以测量和比较护理人员与非护理人员的孤独感. 研究引入专家开发的评估框架和原因分类法, 并应用GPT系列模型构建高质量语料库进行分析, 发现两组人群在孤独感成因分布上存在显著差异.

MemReader: From Passive to Active Extraction for Long-Term Agent Memory

Jingyi Kang et al.

cs.CL

本文提出了MemReader系列模型, 用于智能体系统中的长期记忆提取. 其中, MemReader-4B通过主动决策机制, 在多个评测基准上取得了优于现有基线方法的效果.

Contextualising (Im)plausible Events Triggers Figurative Language

Annerose Eichel, Tonmoy Rakshit, Sabine Schulte im Walde

cs.CL

本文通过设计系统性的实验, 探讨了英语主谓宾事件中字面性/非字面性与事件合理性之间的关系. 研究发现, 人类与大型语言模型在判断和语境化这些事件时存在显著差异.

Linear Representations of Hierarchical Concepts in Language Models

Masaki Sakata et al.

cs.CL

本文通过训练针对不同层级深度和语义域的线性变换, 研究了语言模型内部表示如何编码层次关系. 实验表明, 层次关系可以在表示空间中被线性恢复, 并且这种编码倾向于存在于特定领域的低维子空间中.

Data Selection for Multi-turn Dialogue Instruction Tuning

Bo Li, Shikun Zhang, Wei Ye

cs.CL cs.AI

本文提出了一种用于多轮对话指令微调的数据选择框架MDS, 该方法在对话层面进行评分, 结合了全局覆盖和局部结构评估. 实验表明, MDS在多个基准测试上优于现有的单轮选择器和启发式基线, 并且在相同训练预算下对长对话更鲁棒.

TSUBASA: Improving Long-Horizon Personalization via Evolving Memory and Self-Learning with Context Distillation

Xinliang Frederick Zhang, Lu Wang

cs.CL cs.AI

本文提出了一种名为TSUBASA的方法, 旨在提升个性化大语言模型在长周期任务上的表现. 该方法通过动态记忆演化和基于上下文蒸馏的自学习机制来改进记忆的写入与读取, 并在多个基准测试中验证了其有效性.

HCRE: LLM-based Hierarchical Classification for Cross-Document Relation Extraction with a Prediction-then-Verification Strategy

Guoqi Ma et al.

cs.CL

本文提出了一种基于LLM的层次分类模型HCRE, 用于跨文档关系抽取. 该方法通过构建层次关系树来减少LLM每次需要处理的关系选项数量, 并采用预测-验证策略来提升可靠性.

Large Language Model Post-Training: A Unified View of Off-Policy and On-Policy Learning

Shiwan Zhao et al.

cs.CL cs.AI cs.LG

本文提出了一种将大语言模型后训练方法统一理解为对模型行为进行结构化干预的框架. 该框架根据轨迹来源将方法分为离策略学习和在策略学习两个主要体系, 并通过有效支持扩展、策略重塑和行为整合这三个核心角色来解读现有技术. 这一视角有助于诊断训练瓶颈并设计多阶段协调的系统方案.

Rethinking Data Mixing from the Perspective of Large Language Models

Yuanjian Xu et al.

cs.CL cs.AI cs.LG

本文从梯度动力学的角度分析了数据混合策略对大型语言模型训练的影响, 并提出了一个基于图约束优化的数据重加权框架 DoGraph. 实验表明该框架在不同规模的 GPT-2 模型上均能取得有竞争力的性能.

AtomEval: Atomic Evaluation of Adversarial Claims in Fact Verification

Hongyi Cen et al.

cs.CL cs.AI

本文提出了AtomEval框架，用于评估事实核查系统中的对抗性声明改写。该方法通过将声明分解为SROM原子并进行原子有效性评分，以检测超越表面相似性的事实篡改。实验表明该框架能提供更可靠的评估信号，并揭示了当前对抗性评估实践中被忽视的局限性。

Kathleen: Oscillator-Based Byte-Level Text Classification Without Tokenization or Attention

George Fountzoulas

cs.CL

本文提出了一种名为Kathleen的文本分类架构, 它直接在原始UTF-8字节上操作, 无需tokenizer或attention机制. 该模型通过引入频域处理组件, 如RecurrentOscillatorBanks和PhaseHarmonics, 实现了高效的$O(L)$序列处理, 并在多个基准数据集上取得了有竞争力的结果.

A Decomposition Perspective to Long-context Reasoning for LLMs

Yanling Xiao et al.

cs.CL cs.AI cs.LG

本文提出将长上下文推理任务分解为一系列基础原子技能, 并通过自动合成伪数据集来针对性训练这些技能. 基于强化学习的方法在多个基准测试上提升了模型的长文本推理性能.

Rag Performance Prediction for Question Answering

Or Dado, David Carmel. Oren Kurland

cs.CL cs.IR

本文研究了预测在问答任务中使用RAG相对于不使用RAG的性能增益。研究评估了多种检索前和检索后预测器，并引入了一种新的生成后预测器，该预测器通过显式建模问题、检索段落和生成答案之间的语义关系，取得了最佳的预测效果。

Guaranteeing Knowledge Integration with Joint Decoding for Retrieval-Augmented Generation

Zhengyi Zhao et al.

cs.CL

本文提出了GuarantRAG框架, 通过将推理与证据整合显式解耦来改进检索增强生成(RAG). 该方法首先生成基于内部知识的"内部答案", 然后使用对比性DPO目标生成基于检索证据的"参考答案", 最后通过联合解码机制在token级别融合两者. 实验表明该框架在多个QA基准上提升了准确性并减少了幻觉.

Efficient Provably Secure Linguistic Steganography via Range Coding

Ruiyi Yan, Yugo Murawaki

cs.CL cs.CR

本文提出了一种基于 range coding 的高效、可证明安全的语言隐写方法, 通过引入 rotation mechanism 提升了性能. 实验表明, 该方法在多种语言模型上实现了接近 100% 的熵利用率和高嵌入速度.

Dual-Pool Token-Budget Routing for Cost-Efficient and Reliable LLM Serving

Xunzhuo Liu et al.

cs.CL

本文提出了一种用于LLM服务的双池令牌预算路由机制, 通过将同质服务集群划分为分别针对短上下文和长上下文的专用池, 并根据请求的估计令牌预算进行路由, 以解决配置与流量不匹配导致的资源浪费和可靠性问题. 该方法在真实数据集上的评估显示能显著降低GPU使用时间和成本, 同时改善服务可靠性指标.

Quantum Vision Theory Applied to Audio Classification for Deepfake Speech Detection

Khalid Zaman et al.

cs.CL

本文提出了一种名为 Quantum Vision (QV) 的理论，并将其应用于音频分类任务，特别是深度伪造语音检测。该方法将音频的频谱图（如 MFCC）通过 QV 模块转换为信息波，再输入到 CNN 或 Vision Transformer 模型中进行分类，在 ASVSpoof 数据集上取得了优于基准模型的性能。

Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization

Ian W. Kennedy, Nafise Sadat Moosavi

cs.CL cs.LG

本文提出了一种针对极端低比特量化(如2-bit)中codebook初始化的新方法OA-EM. 该方法通过分析representational ratio $\rho = N/KM$ 来理解初始化的重要性, 并使用Hessian-weighted Mahalanobis距离来改进初始化, 从而在多个模型和压缩率下提升了量化后模型的性能.

LLM-Based Data Generation and Clinical Skills Evaluation for Low-Resource French OSCEs

Tian Huang, Tom Bourgeade, Irina Illina

cs.CL

本文利用LLMs在低资源环境下生成和评估法语OSCE对话, 提出了一种结合理想与扰动表现来模拟不同学生技能水平的合成数据生成流程. 实验表明, 中等规模的LLMs在合成数据上能达到与GPT-4o相当的评估准确率, 为医学教育提供了可本地部署的隐私保护评估方案.

Graph Neural Networks for Misinformation Detection: Performance-Efficiency Trade-offs

Soveatin Kuntur et al.

cs.CL

本文在虚假信息检测任务中, 系统性地比较了图神经网络(GNNs)与传统非图机器学习方法的性能与效率. 实验表明, 在控制输入特征一致的条件下, 轻量级GNN架构(如GraphSAGE)在多个数据集上均能取得更高的F1分数, 且推理时间相当或更优.

Clickbait detection: quick inference with maximum impact

Soveatin Kuntur et al.

cs.CL

本文提出了一种结合OpenAI语义嵌入与六种启发式特征的轻量级混合方法用于clickbait检测. 通过PCA降维并使用XGBoost, GraphSAGE和GCN等分类器评估, 该方法在保证较低推理时间的同时实现了有竞争力的检测性能.

Training Data Size Sensitivity in Unsupervised Rhyme Recognition

Petr Plecháč et al.

cs.CL

本文研究了无监督押韵识别工具RhymeTagger在不同训练数据量下的性能, 并评估了其在七种语言上的表现. 研究还将其与大型语言模型进行了对比, 发现该工具在数据充足时表现优于人工标注者的一致性.

Self-Debias: Self-correcting for Debiasing Large Language Models

Xuan Feng et al.

cs.CL

本文提出了一种名为Self-Debias的渐进式框架，旨在通过赋予大语言模型内在的自我纠正能力来减轻其在推理过程中的社会偏见传播。该方法将去偏过程重新表述为一个策略性的资源再分配问题，并引入了细粒度的轨迹级优化目标与在线自我改进机制。

HyperMem: Hypergraph Memory for Long-Term Conversations

Juwei Yue et al.

cs.CL cs.AI

本文提出了一种基于超图的分层记忆架构HyperMem, 用于增强对话系统在长程对话中的记忆能力. 该方法通过超边显式建模多元素间的高阶关联, 并设计了混合检索策略, 在基准测试上取得了优异性能.

Behavior-Aware Item Modeling via Dynamic Procedural Solution Representations for Knowledge Tracing

Jun Seo et al.

cs.CL cs.AI

本文提出了一种名为BAIM的知识追踪框架, 通过整合动态解题过程信息来丰富题目表示. 该方法利用推理语言模型将解题过程分解为四个阶段, 并引入上下文条件机制来适应不同学习者, 在多个数据集上超越了基于预训练的基线模型.

Floating or Suggesting Ideas? A Large-Scale Contrastive Analysis of Metaphorical and Literal Verb-Object Constructions

Prisca Piccirilli, Alexander Fraser, Sabine Schulte im Walde

cs.CL

本文通过大规模语料分析, 比较了英语中近义动词-宾语结构的隐喻用法与字面用法. 研究提取了多种语言学特征, 发现两者在词汇频率、情感负载等方面存在差异, 但差异模式因具体结构而异, 缺乏单一的区分性分布特征.

When to Trust Tools? Adaptive Tool Trust Calibration For Tool-Integrated Math Reasoning

Ruotao Xu et al.

cs.CL

本文提出了Adaptive Tool Trust Calibration (ATTC)框架，用于改善大型推理模型在工具集成推理中对工具结果的信任问题。该方法通过代码块的置信度分数来指导模型自适应地选择信任或忽略工具输出，从而提升了多个数据集上的性能。

Distributed Multi-Layer Editing for Rule-Level Knowledge in Large Language Models

Yating Wang et al.

cs.CL cs.AI

本文提出了一种针对大语言模型中规则级知识编辑的新方法. 该方法通过分布式多层更新来保持规则在不同表达形式间的一致性, 在多个模型上提升了编辑效果.

SeLaR: Selective Latent Reasoning in Large Language Models

Renyu Fu, Guibo Luo

cs.CL cs.AI

本文提出了一种名为SeLaR的轻量级免训练框架, 旨在改进大语言模型中的推理过程. 该方法通过熵门控机制选择性地在低置信度步骤使用软嵌入(soft embeddings), 并引入对比正则化来维持对多种潜在推理路径的探索, 在多个推理基准测试上取得了优于标准思维链(CoT)及其他先进方法的效果.

Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

Jiawei Chen et al.

cs.CL

本文提出了一个名为OmniBehavior的用户模拟基准, 该基准完全基于真实世界数据构建, 整合了长时程、跨场景和异构行为模式. 评估发现, 当前的大型语言模型在模拟这些复杂行为时存在困难, 并表现出结构性的偏见.

A GAN and LLM-Driven Data Augmentation Framework for Dynamic Linguistic Pattern Modeling in Chinese Sarcasm Detection

Wenxian Wang et al.

cs.CL cs.AI

本文提出了一种结合GAN和LLM的数据增强框架，用于中文反讽检测中的动态语言模式建模。该方法通过生成扩展数据集并改进BERT架构来整合用户历史行为，在实验中取得了优于现有方法的性能。

Synthetic Data for any Differentiable Target

Tristan Thrush et al.

cs.CL cs.AI cs.LG stat.ML

本文提出了一种名为Dataset Policy Gradient (DPG)的强化学习原语，用于通过高阶梯度精确优化合成数据生成器，以产生能引导目标模型在特定可微分指标上表现良好的数据集。该方法仅通过监督微调生成的示例，就能实现对目标模型属性的灵活塑造，例如在LM head权重中嵌入特定模式或改变其范数。

AfriVoices-KE: A Multilingual Speech Dataset for Kenyan Languages

Lilian Wanzare et al.

cs.CL

本文介绍了AfriVoices-KE数据集，这是一个包含约3000小时音频的肯尼亚多语言语音数据集。该数据集旨在解决非洲语言在语音技术中代表性不足的问题，为语音识别和文本转语音系统的开发提供了基础资源。

AI generates well-liked but templatic empathic responses

Emma Gueorguieva et al.

cs.CL

本文通过构建包含10种策略的共情语言分类法, 分析了AI模型与人类在撰写共情回复时的语言差异. 研究发现, LLM的回复高度模板化, 遵循一种特定的策略序列, 而人类回复则更加多样化.

What do Language Models Learn and When? The Implicit Curriculum Hypothesis

Emmy Liu et al.

cs.CL

本文通过设计一套可组合的任务集, 追踪了不同规模语言模型在预训练过程中各项技能的出现顺序. 研究发现, 技能的出现顺序在不同模型间具有高度一致性, 并且复合任务的掌握通常晚于其组成任务. 此外, 模型内部表示的空间结构能够预测新任务的训练轨迹.

Cram Less to Fit More: Training Data Pruning Improves Memorization of Facts

Jiayuan Ye, Vitaly Feldman, Kunal Talwar

cs.CL stat.ML

本文研究了训练数据分布对大型语言模型(Large Language Models, LLMs)记忆事实能力的影响。作者提出了一种基于训练损失的数据选择方法，旨在提升模型在有限容量下的事实记忆准确性。

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Yuxuan Zhang et al.

cs.CL cs.AI

本文提出了一个名为ClawBench的评估框架, 用于测试AI agent在真实网站环境中完成日常在线任务的能力. 该框架包含153个跨多个平台的任务, 评估显示当前前沿模型在此类任务上的成功率仍然较低.

Demystifying OPD: Length Inflation and Stabilization Strategies for Large Language Models

Feng Luo et al.

cs.CL cs.LG

本文研究了 on-policy distillation (OPD) 训练中的长度膨胀与训练不稳定问题. 作者提出了一种名为 StableOPD 的稳定化框架, 通过结合基于参考的散度约束和 rollout 混合蒸馏来缓解此问题, 并在数学推理任务上验证了其有效性.

cs.DS

Parallel Batch-Dynamic Maximal Independent Set

Guy Blelloch et al.

cs.DS cs.DC

本文提出了一种在并行批量动态设置下维护图的最大独立集(MIS)的高效算法. 该算法在期望工作量和并行深度上均达到了理论最优, 其分析基于对批量更新"影响集"的新颖处理.

Identifying bubble-like subgraphs in linear-time via a unified SPQR-tree framework

Francisco Sena et al.

cs.DS

本文提出了一种基于SPQR-tree分解的统一框架, 用于在线性时间内识别有向或双向图中的特定子图结构(如snarls和ultrabubbles). 该框架不仅解决了自2018年以来悬而未决的算法问题, 还通过计算反馈弧集等技巧保证了线性时间复杂度.

Competitive Transaction Admission in PCNs: Online Knapsack with Positive and Negative Items

Marcin Bienkowski et al.

cs.DS

本文研究了支付通道网络(PCNs)中最大化单通道交易吞吐量的在线优化问题. 作者将其建模为一个新的在线背包问题变体, 其中物品(交易)根据方向有正负之分. 他们提出了一个确定性的在线算法, 其竞争比为$O(\log B)$, 并证明了对于任何随机算法, 该下界是紧的.

Counting HyperGraphlets via Color Coding: a Quadratic Barrier and How to Break It

Marco Bressan, Stefano Clemente, Giacomo Fumagalli

cs.DS

本文研究了在超图中计数$k$-hypergraphlets的问题, 并分析了color coding技术在此问题上的计算复杂度. 作者证明了在Orthogonal Vector Conjecture下, 该技术存在二次方的时间下界. 针对现实世界超图常满足的$(\alpha, \beta)$-niceness性质, 作者提出了一种改进算法, 其运行时间优于朴素二次方算法, 并通过实验验证了其有效性.

others

Exponential quantum advantage in processing massive classical data ⭐ 精选

Haimeng Zhao et al.

quant-ph cs.AI cs.CC cs.IT cs.LG

本文提出了一种名为quantum oracle sketching的算法, 使得一个仅有polylogarithmic规模的小型量子计算机能够处理海量经典数据, 执行分类和降维等任务. 该工作证明了, 要达到相同的预测性能, 任何经典机器都需要指数级更大的规模, 从而在经典数据处理和机器学习领域确立了广泛的量子优势. 作者在单细胞RNA测序和电影评论情感分析等实际应用中验证了这一优势, 展示了规模上4到6个数量级的缩减, 并且这一优势仅依赖于量子力学的正确性, 即使经典机器拥有无限时间或BPP=BQP也依然成立.

PyVRP$^+$: LLM-Driven Metacognitive Heuristic Evolution for Hybrid Genetic Search in Vehicle Routing Problems ⭐ 精选

Manuj Malik et al.

cs.NE cs.AI

本文提出了Metacognitive Evolutionary Programming (MEP)框架, 将LLM提升为策略性发现智能体, 用于自动化设计车辆路径问题(VRP)的元启发式算法. 该方法通过强制LLM执行结构化的Reason-Act-Reflect循环, 使其能够基于预设的领域知识进行诊断、假设和实现, 从而超越了传统的基于性能反馈的黑盒代码突变方法. 通过将MEP应用于演化先进的Hybrid Genetic Search (HGS)算法的核心组件, 该方法发现了新颖的启发式规则, 在多种VRP变体上显著提升了求解质量(最高2.70%)并降低了运行时间(超过45%).

ReCodeAgent: A Multi-Agent Workflow for Language-agnostic Translation and Validation of Large-scale Repositories

Ali Reza Ibrahimzada et al.

cs.SE cs.LG

本文提出了一种名为ReCodeAgent的自主多智能体工作流, 用于实现与编程语言无关的仓库级代码翻译与验证. 该方法在多个真实项目上进行了评估, 在翻译正确性和测试通过率方面优于现有的神经符号和智能体方法.

Position Paper: From Edge AI to Adaptive Edge AI

Fabrizio Pittorino, Manuel Roveri

cs.AR cs.AI cs.LG

本文是一篇立场论文, 主张将 Edge AI 重新定义为自适应的系统. 作者提出了一个 Agent-System-Environment (ASE) 框架来形式化这种自适应性, 并基于此提出了未来十年的十个研究挑战.

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Haiyang Peng et al.

stat.ML cs.IT cs.LG math.OC

本文提出了一种基于Newton-Schulz迭代的Riemannian梯度方法(NS-RGS)用于正交群同步问题. 该方法通过用Newton-Schulz迭代替代昂贵的SVD或QR分解, 显著降低了计算成本, 并证明了其在谱初始化下能线性收敛到接近最优统计噪声水平的解.

Quasicrystal Architected Nanomechanical Resonators via Data-Driven Design

Kawen Li et al.

cond-mat.mes-hall cs.LG physics.app-ph

本文提出了一种基于数据驱动设计框架的非周期结构纳米机械谐振器, 重点研究了准晶结构. 该方法实现了软夹持, 获得了高$Q_m$值, 展示了超越传统周期声子晶体的性能潜力.

Self-Calibrating LLM-Based Analog Circuit Sizing with Interpretable Design Equations

Antonio J. Bujana, Aydin I. Karsilayan

cs.AR cs.AI

本文提出了一种基于LLM的自校准模拟电路尺寸设计框架, 能够从原始网表直接生成拓扑特定的解析设计方程. 该框架通过确定性校准循环和预测误差反馈机制, 实现了跨工艺节点的可移植性, 并在多个OTA拓扑上验证了其有效性.

A Physical Agentic Loop for Language-Guided Grasping with Execution-State Monitoring

Wenze Wang, Mehdi Hosseinzadeh, Feras Dayoub

cs.RO cs.AI cs.CV

本文提出了一种用于语言引导抓取的物理智能体循环框架, 通过引入基于事件的接口和执行状态监控层, 将抓取动作的执行结果转化为离散标签, 并利用确定性策略进行决策. 该方法在移动机械臂上进行了验证, 展示了比开环执行更鲁棒和可解释的行为.

SHIELD: A Segmented Hierarchical Memory Architecture for Energy-Efficient LLM Inference on Edge NPUs

Jintao Zhang, Xuanyao Fong

cs.AR cs.LG

本文提出了一种名为SHIELD的分段层次化内存架构, 旨在降低边缘NPU上进行LLM推理时的eDRAM刷新能耗. 该方法通过区分处理transient的QO激活和persistent的KV缓存, 并利用bfloat16数据格式的位级敏感性来关闭或放松对尾数字段的刷新, 从而在保持模型精度的同时显著节省能耗.

Breaking the Illusion of Identity in LLM Tooling

Marek Miller

cs.SE cs.AI

本文针对LLM在工具链中输出引发的拟人化认知错觉问题, 提出了一套包含七条规则的输出端约束方案. 通过实验验证, 该方案能显著减少输出中的拟人化标记并缩短文本长度, 且无需修改模型即可通过系统提示实现.

Geometric Entropy and Retrieval Phase Transitions in Continuous Thermal Dense Associative Memory

Tatiana Petrova, Evgeny Polyachenko, Radu State

cond-mat.dis-nn cs.LG

本文研究了具有连续状态的现代Hopfield网络（密集联想记忆模型）在几何约束下的热力学记忆容量。通过比较Gaussian (LSE)和Epanechnikov (LSR)核，作者推导了具有指数容量$p = e^{\alpha N}$的网络的相边界。结果表明，在尖锐核机制下，最大理论容量$\alpha = 0.5$在零温度下实现，并且两种核的相边界结构存在定性差异。

Score Shocks: The Burgers Equation Structure of Diffusion Generative Models

Krisanu Sarkar

cond-mat.stat-mech cs.LG math.AP stat.ML

本文通过Burgers方程分析了扩散生成模型的score field结构. 对于VE扩散, 证明了score服从粘性Burgers方程, 为模态间的"speciation transitions"提供了PDE视角. 研究量化了score误差在界面层的指数放大, 并在高斯混合模型和双势阱模型上进行了验证.

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

Xiangru Jian et al.

cs.CV cs.AI cs.LG

本文针对制造业场景中多模态大语言模型(MLLMs)的评估问题, 提出了一个名为FORGE的细粒度评估框架. 该工作构建了一个结合2D图像与3D点云的高质量数据集, 并在三个制造任务上评估了18个先进模型, 发现领域知识不足是主要瓶颈.

OpenPRC: A Unified Open-Source Framework for Physics-to-Task Evaluation in Physical Reservoir Computing

Yogesh Phalak et al.

cs.RO cs.LG

本文介绍了一个名为OpenPRC的开源Python框架，旨在为Physical Reservoir Computing (PRC) 提供一个统一的开发与评估工作流。该框架通过一个通用的数据接口整合了高保真模拟和真实实验数据，并包含了物理引擎、数据摄取、学习模块、分析工具和优化器等组件，以促进PRC研究的可重复性和标准化。

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Mingyu Ouyang et al.

cs.CV cs.AI cs.HC

本文提出了GameWorld, 一个用于在浏览器环境中标准化、可验证地评估多模态大语言模型作为通用游戏智能体的基准。该基准包含34款游戏和170个任务, 并采用基于状态验证的指标进行评估, 实验揭示了当前智能体与人类能力之间的巨大差距。

CMP: Robust Whole-Body Tracking for Loco-Manipulation via Competence Manifold Projection

Ziyang Cheng et al.

cs.RO cs.AI cs.LG

本文提出了一种名为Competence Manifold Projection (CMP)的方法，用于提升腿式移动机械臂全身控制策略在应对分布外输入时的鲁棒性。该方法通过构建一个能力流形来区分安全与不安全的状态，并利用一个同构的潜在空间实现高效的实时防御。

Optimal Quantum State Testing Even with Limited Entanglement

Chirag Wadhwa, Sitan Chen

quant-ph cs.DS

本文研究了在有限纠缠测量下的量子态认证问题. 作者给出了一个关于测量纠缠度$t$的平滑拷贝复杂度上界, 在$t = d^2$时达到接近最优的速率. 对于高精度情形, 这改进了完全纠缠测量的方案.

When Switching Algorithms Helps: A Theoretical Study of Online Algorithm Selection

Denis Antipov, Carola Doerr

cs.NE cs.AI

本文研究了在线算法选择(OAS)的理论基础, 通过分析在OneMax问题上切换$(1+\lambda)$ EA和$(1+(\lambda,\lambda))$ GA两种算法的性能, 首次提供了一个理论实例, 证明切换策略可以获得比单独使用任一算法更快的渐近运行时间.

Active Reward Machine Inference From Raw State Trajectories

Mohamad Louai Shehab, Antoine Aspeel, Necmiye Ozay

cs.RO cs.AI cs.FL

本文提出了一种从原始状态轨迹中推断 reward machine 的方法, 无需依赖奖励、标签或机器节点的观测信息. 该方法进一步扩展到主动学习场景, 通过增量查询轨迹扩展来提高数据效率, 并在网格世界示例中进行了验证.

Private Seeds, Public LLMs: Realistic and Privacy-Preserving Synthetic Data Generation

Qian Ma, Sarah Rajtmajer

cs.CR cs.AI

本文提出了一种结合差分隐私和私有种子文本的合成数据生成方法RPSG, 旨在平衡生成数据的真实性与隐私保护. 实验表明该方法在隐私和效用方面优于现有技术.

Differentially Private Modeling of Disease Transmission within Human Contact Networks

Shlomi Hod et al.

cs.CR cs.LG stat.AP

本文提出了一种结合差分隐私(differential privacy)与统计网络模型(如ERGM)的隐私保护流程, 用于基于敏感接触网络的疾病传播模拟. 该方法通过节点级差分隐私计算网络摘要统计量, 拟合模型并生成合成网络, 最后进行基于智能体(agent-based)的疾病传播模拟. 在性接触网络数据上的评估表明, 为隐私添加的噪声相对于其他误差源(如抽样误差)较小, 说明该方法能在保护隐私的同时提供有价值的流行病学洞见.

Triage: Routing Software Engineering Tasks to Cost-Effective LLM Tiers via Code Quality Signals

Lech Madeyski

cs.SE cs.AI cs.LG

本文提出了一个名为Triage的框架, 利用代码健康度指标作为路由信号, 将软件工程任务分配给成本最低且能通过验证的LLM层级. 通过理论分析, 推导了实现成本效益路由的两个条件, 并设计了评估协议来测试成本与质量的权衡.

Beyond Human-Readable: Rethinking Software Engineering Conventions for the Agentic Development Era

Dmytro Ustynov

cs.SE cs.AI

本文探讨了在AI智能体开发时代, 软件工程惯例需要如何转变. 作者提出了语义密度优化的设计原则, 并通过日志格式的实验发现, 激进的压缩反而可能增加总体成本.

Lecture notes on Machine Learning applications for global fits

Jorge Alda

hep-ph cs.LG

本文介绍了在高能物理全局统计拟合中使用机器学习代理的框架. 它涵盖了从似然函数近似到后验采样的完整工作流程, 并以一个具体的物理异常为例进行了演示.

From LLM to Silicon: RL-Driven ASIC Architecture Exploration for On-Device AI Inference

Ravindra Ganti, Steve Xu

cs.AR cs.LG

本文提出了一种基于强化学习的编译器, 用于联合优化AI推理的ASIC架构、内存层次和工作负载划分。该方法在3nm到28nm的多个工艺节点上进行了验证, 针对Llama 3.1 8B和SmolVLM两种工作负载自动探索了网格拓扑、微架构和算子放置的联合设计空间。

The Shrinking Lifespan of LLMs in Science

Ana Trišović

cs.DL cs.AI cs.CY cs.SI

本文通过追踪62个LLMs在超过10.8万篇论文中的引用情况，首次实证分析了科学家采纳和放弃语言模型的时间动态。研究发现，科学采纳遵循一个倒U型轨迹，且其峰值时间正在快速压缩，而发布时间是预测模型生命周期动态的最强因素。

RL-ASL: A Dynamic Listening Optimization for TSCH Networks Using Reinforcement Learning

F. Fernando Jurado-Lasso, J. F. Jurado

cs.NI cs.AI cs.LG

本文提出了一种名为RL-ASL的强化学习框架，用于优化TSCH网络中的动态监听。该方法通过在线决策跳过不必要的监听时隙，在保持网络可靠性的同时显著降低了能耗和延迟。实验表明其在真实和仿真环境中均优于现有基线协议。

MCP-DPT: A Defense-Placement Taxonomy and Coverage Analysis for Model Context Protocol Security

Mehrdad Rostamzadeh et al.

cs.CR cs.AI

本文对Model Context Protocol (MCP)的安全性进行了防御部署导向的分析, 提出了一种按架构组件划分攻击的分类法. 该研究将威胁映射到六个MCP层级, 并识别了主要和次要防御点, 揭示了现有防御措施主要集中在工具层面, 而在主机编排、传输和供应链层存在保护缺口.

Generative Experiences for Digital Mental Health Interventions: Evidence from a Randomized Study

Ananya Bhattacharjee et al.

cs.HC cs.AI

本文提出了一种名为"生成式体验"的数字心理健康干预新范式, 其核心系统GUIDE能够动态生成个性化的干预内容和多模态交互结构. 在一项预注册研究中, 该系统在减轻压力和改善用户体验方面显著优于基于LLM的对照组, 并支持了多样化的反思与行动形式.

Predicting Activity Cliffs for Autonomous Medicinal Chemistry

Michael Cuccarese

q-bio.QM cs.LG

本文通过分析大量分子对数据, 区分了"哪些位置易变"与"哪些位置是真正的activity cliff"这两个问题. 研究发现, 前者仅需scaffold大小即可预测, 而后者需要一个包含3D药效团context的机器学习模型, 该模型能有效识别易导致活性剧变的位置, 从而减少化学家需要探索的实验数量.

From Ground Truth to Measurement: A Statistical Framework for Human Labeling

Robert Chew et al.

stat.ME cs.AI cs.CL cs.LG stat.ML

本文提出了一个将人工标注视为测量过程的统计框架, 用于分解标注结果中的变异来源, 包括实例难度、标注者偏差、情境噪声和关系对齐. 该框架扩展了经典的测量误差模型, 为数据中心的机器学习提供了诊断工具.

Google, AI Literacy, and the Learning Sciences: Multiple Modes of Research, Industry, and Practice Partnerships

Victor R. Lee et al.

cs.CY cs.AI

本文讨论了在普及AI素养方面，研究机构、产业界与教育实践者之间建立多模式合作伙伴关系的挑战与机遇。它通过一个专题研讨会，以Google的多个合作项目为例，探讨了此类合作的生命周期、影响因素及未来可能性。

Blink: CPU-Free LLM Inference by Delegating the Serving Stack to GPU and SmartNIC

Mohammad Siavashi et al.

cs.DC cs.LG cs.OS cs.PF cs.SE

本文提出了一种名为Blink的端到端LLM推理服务架构, 通过将请求处理卸载到SmartNIC并使用持久GPU内核进行调度与管理, 消除了主机CPU在稳态推理路径中的参与. 实验表明, 该系统在延迟、吞吐量和能耗方面均优于现有基准, 并在CPU干扰下保持性能稳定.

Towards Real-Time Human-AI Musical Co-Performance: Accompaniment Generation with Latent Diffusion Models and MAX/MSP

Tornike Karchkhadze, Shlomo Dubnov

cs.SD cs.AI

本文提出了一个实时人机音乐协同表演框架, 利用 latent diffusion model 根据实时音频上下文生成器乐伴奏. 系统结合了 MAX/MSP 前端与 Python 推理服务器, 通过一致性蒸馏 (consistency distillation) 显著降低了采样延迟, 实现了实时操作. 评估表明, 该系统在音乐连贯性、节拍对齐和音频质量方面表现良好, 并揭示了延迟、前瞻深度与生成质量之间的权衡.

Variational Approximated Restricted Maximum Likelihood Estimation for Spatial Data

Debjoy Thakur

stat.ML cs.LG stat.AP

本文针对具有 Gaussian intrinsic conditional autoregressive (ICAR) 结构的空间数据，提出了一种变分近似限制最大似然 (VREML) 估计框架。该方法通过构建证据下界 (ELBO) 来近似计算边际似然，从而避免了传统 REML 方法中大规模稀疏精度矩阵的重复求逆，提高了计算效率。

Safe Large-Scale Robust Nonlinear MPC in Milliseconds via Reachability-Constrained System Level Synthesis on the GPU

Jeffrey Fang, Glen Chou

cs.RO cs.AI eess.SY math.OC

本文提出了一种基于GPU并行化的框架, 用于大规模鲁棒非线性模型预测控制(MPC). 该方法通过结合系统级综合(SLS)与可达性约束, 实现了对高维机器人系统的快速在线策略合成.

Parameter-free non-ergodic extragradient algorithms for solving monotone variational inequalities

Lingqing Shen, Fatma Kılınç-Karzan

math.OC cs.LG

本文提出了无需参数的非遍历外梯度算法, 用于求解单调变分不等式. 算法在全局或局部Lipschitz条件下均能获得$o(1/\sqrt{T})$的最后迭代收敛率, 并通过实验验证了其广泛适用性和优于现有方法的性能.

On the Unique Recovery of Transport Maps and Vector Fields from Finite Measure-Valued Data

Jonah Botvinick-Greenhouse, Yunan Yang

stat.ML cs.LG math.DS math.NA

本文研究了从有限个测度值数据中唯一恢复向量场和传输映射的问题. 其分析利用了Whitney和Takens嵌入定理, 为生成模型和PDE反问题提供了理论保证.

Towards Counterfactual Explanation and Assertion Inference for CPS Debugging

Zaid Ghazal, Hadiza Yusuf, Khouloud Gaaloul

cs.SE cs.LG eess.SY

本文提出了一个名为DeCaF的框架, 用于为信息物理系统(CPS)的调试提供反事实解释和断言推断. 该框架通过生成使失败测试变为通过的最小必要输入信号修改, 并从中推断出可解释的断言, 以帮助工程师理解故障原因.

AITH: A Post-Quantum Continuous Delegation Protocol for Human-AI Trust Establishment

Zhaoliang Chen

cs.CR cs.AI

本文提出了一种名为AITH的后量子连续委托协议, 用于建立人类与AI之间的信任关系. 该协议通过结合后量子签名, 边界检查引擎和撤销机制, 旨在为概率性AI代理的持续操作提供安全框架.

Needle in a Haystack -- One-Class Representation Learning for Detecting Rare Malignant Cells in Computational Cytology

Swarnadip Chatterjee et al.

cs.CV cs.LG

本文探讨了在计算细胞学中, 使用 one-class representation learning 方法来检测极其罕见(极低 witness rate)的恶性细胞. 该方法仅使用阴性样本进行训练, 无需实例级标注, 并在公开和内部数据集上评估了 DSVDD 和 DROC 等模型, 结果显示其在极端稀有场景下的实例级异常排序性能优于传统的弱监督方法.

TrajGuard: Streaming Hidden-state Trajectory Detection for Decoding-time Jailbreak Defense

Cheng Liu et al.

cs.CR cs.AI

本文提出了一种名为TrajGuard的免训练解码时防御框架, 用于实时检测和防御针对大型语言模型(Large Language Models, LLMs)的越狱攻击(jailbreak attacks). 该方法通过滑动窗口聚合解码过程中关键层的隐藏状态轨迹(hidden-state trajectories)来量化风险, 仅在风险持续超过阈值时触发轻量级语义裁决, 从而实现对有害内容生成的即时中断或约束.

Beyond Pedestrians: Caption-Guided CLIP Framework for High-Difficulty Video-based Person Re-Identification

Shogo Hamano et al.

cs.CV cs.AI

本文提出了一个名为CG-CLIP的新框架，用于解决视频行人重识别在穿着相似且动态运动的高难度场景下的挑战。该方法利用多模态大语言模型生成的文本描述和可学习的token来引导特征学习，在多个数据集上取得了优于现有方法的效果。

The Condition-Number Principle for Prototype Clustering

Romano Li, Jianfei Cao

stat.ML cs.LG econ.EM math.ST

本文提出了一个几何框架, 将原型聚类中的目标函数精度与结构恢复联系起来. 该分析独立于具体算法, 适用于一类广泛的损失函数, 并定义了一个聚类条件数来量化实例的几何难度.

Sparse $ε$ insensitive zone bounded asymmetric elastic net support vector machines for pattern classification

Haiyan Du, Hu Yang

stat.ML cs.LG

本文提出了一种新的支持向量机模型 $\varepsilon$-BAEN-SVM, 它结合了弹性网络损失和鲁棒损失框架. 实验表明该模型在噪声环境下能较好地平衡稀疏性和鲁棒性.

MIMIC-Py: An Extensible Tool for Personality-Driven Automated Game Testing with Large Language Models

Yifei Chen, Sarra Habchi, Lili Wei

cs.SE cs.AI

本文介绍了MIMIC-Py, 一个基于Python的自动化游戏测试工具. 它将基于人格的LLM智能体(agent)转化为一个可复用和可扩展的框架, 通过模块化设计支持与不同游戏的交互.

Symbiotic-MoE: Unlocking the Synergy between Generation and Understanding

Xiangyue Liu et al.

cs.CV cs.CL cs.LG

本文提出了Symbiotic-MoE框架，通过模态感知的专家解耦和渐进式训练策略，在统一的MoE Transformer架构中缓解了多模态模型中生成与理解任务间的梯度冲突。该方法在保持零参数开销的同时，提升了跨模态协同能力，并在多个基准测试上取得了性能提升。

The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training

Rui Zhang et al.

cs.CR cs.CL

本文探讨了在大型语言模型(LLM)部署中，微调方法如何被用于恶意地破坏模型的安全性(即misalignment)，以及如何通过后续的微调来恢复安全性(即realignment)。研究发现，攻击与防御之间存在机制不对称性，不同的微调方法在破坏或恢复安全性方面效果各异。

DailyArt: Discovering Articulation from Single Static Images via Latent Dynamics

Hang Zhang et al.

cs.CV cs.AI

本文提出了一种从单张静态图像推断铰接物体运动学的方法, 通过合成一个最大程度打开的物体状态来暴露关节线索, 从而估计关节参数. 该方法无需多状态观测或显式部件先验, 并支持以关节为条件的部件级新状态合成.

Generative optimal transport via forward-backward HJB matching

Haiqian Yang et al.

cond-mat.stat-mech cs.LG math.OC math.PR

本文提出了一种通过前向-后向HJB匹配实现生成最优输运的方法. 该方法利用时间反转对偶性, 将难以求解的后向最优控制问题转化为一个可通过模拟前向松弛轨迹来求解的前向HJB方程.

Beyond Surface Artifacts: Capturing Shared Latent Forgery Knowledge Across Modalities

Jingtong Dou et al.

cs.CV cs.AI

本文提出了一种模态无关的伪造检测框架, 旨在提取跨模态的共享潜在伪造知识, 以应对多模态深度伪造攻击. 通过解耦模态特定风格并量化模型在相关模态和未知"暗模态"上的泛化能力, 该研究为通用多模态防御提供了新的技术路径.

Toward Generalizable Graph Learning for 3D Engineering AI: Explainable Workflows for CAE Mode Shape Classification and CFD Field Prediction

Tong Duy Son et al.

eess.SY cs.AI cs.LG

本文提出了一种用于3D工程AI的通用图学习框架, 将异构工程数据转换为物理感知的图表示, 并使用图神经网络进行处理. 该框架在CAE振动模态分类和CFD空气动力学场预测两个汽车工程应用中得到验证, 旨在提供可解释且可重用的决策支持.

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

Chanhyuk Choi et al.

cs.CV cs.LG

本文提出了一种名为Cross-Modal Emotion Transfer (C-MET)的新方法，用于编辑说话人脸视频中的情感。该方法通过建模语音和视觉特征空间之间的情感语义向量，利用大规模预训练的音频编码器来生成面部表情。实验表明，该方法在情感准确性上优于现有技术。

ORACLE-SWE: Quantifying the Contribution of Oracle Information Signals on SWE Agents

Kenan Li et al.

cs.MA cs.CL cs.SE

本文提出了Oracle-SWE方法，用于量化在软件工程任务中，各种“预言”信息信号对语言模型智能体性能的贡献。该方法通过从基准测试中提取理想化的中间信息，评估了不同信号对任务成功率的独立影响。

Density Decomposition on Hypergraphs

Xiaoyu Leng, Hongchao Qin, Rong-Hua Li

cs.SI cs.DS

本文提出了一种基于整数密度值的$(k,\delta)$-dense subhypergraph模型，用于超图分解。该模型通过参数$\delta$限制每条超边对密度的贡献，以捕捉多向交互产生的真实密度变化。作者设计了高效的公平稳定算法和分治分解框架，在多个真实数据集上验证了其能产生更连续、冗余更少的分解层次。

Order-Optimal Sequential 1-Bit Mean Estimation in General Tail Regimes

Ivan Lau, Jonathan Scarlett

stat.ML cs.IT cs.LG math.ST

本文研究在严格1-bit通信约束下的均值估计问题. 提出了一种仅基于随机阈值查询的自适应估计器, 其样本复杂度在任意$k>1$阶中心矩有界的分布上都是阶最优的. 对于$k \neq 2$的情况, 其复杂度匹配了未量化情形下的极小极大下界, 而对于$k=2$的情况, 则存在一个由1-bit量化本质决定的对数惩罚项. 文章还证明了非自适应估计器存在巨大的样本效率差距.

Learning Without Losing Identity: Capability Evolution for Embodied Agents

Xue Qin et al.

cs.RO cs.AI

本文提出了一种面向具身智能体的能力演化范式, 通过引入具身能力模块(Embodied Capability Modules, ECMs)将能力演化与智能体身份解耦. 该框架在模拟任务中展示了性能的持续提升, 同时保持了策略的稳定性和安全性.

Latent Anomaly Knowledge Excavation: Unveiling Sparse Sensitive Neurons in Vision-Language Models

Shaotian Li et al.

cs.CV cs.AI

本文提出了一种无需训练的框架LAKE, 用于挖掘视觉语言模型(VLMs)中潜在的异常检测知识. 该方法通过识别并激活稀疏的异常敏感神经元来构建紧凑的正常性表示, 在工业基准测试中取得了先进性能.

The Weaponization of Computer Vision: Tracing Military-Surveillance Ties through Conference Sponsorship

Noa Garcia, Amelia Katirai

cs.CY cs.AI cs.CV

本文通过分析计算机视觉领域主要会议的赞助商情况, 研究了该领域研究与军事及监控应用的联系. 作者构建了一个数据集, 发现44%的赞助商与军事或监控应用有直接关联, 并通过案例研究探讨了赞助关系作为揭示技术武器化手段的潜力与局限.

Intensity Dot Product Graphs

Giulio Valentino Dalla Riva, Matteo Dalla Riva

stat.ML cs.LG math.PR stat.ME

本文提出了一种名为 Intensity Dot Product Graphs (IDPGs) 的随机图模型, 它通过用 Poisson point process 替代固定的 latent positions 集合, 扩展了 Random Dot Product Graphs (RDPGs). 该模型允许节点数量随机变化, 并建立了连续 latent space 与有限观测图之间的连接.

More Capable, Less Cooperative? When LLMs Fail At Zero-Cost Collaboration

Advait Yadav, Sid Black, Oliver Sourbut

cs.MA cs.AI cs.CL

本文研究了LLM智能体在零成本协作环境中的合作行为, 发现模型能力与合作倾向并不相关. 通过因果分解和干预实验, 指出仅提升智能体能力不足以解决多智能体系统中的协调问题.

LPM 1.0: Video-based Character Performance Model

Ailing Zeng et al.

cs.CV cs.AI cs.MM

本文提出了LPM 1.0模型，用于从视频中学习并生成单角色全双工音视频对话表演。该模型通过构建多模态数据集、训练一个基于Diffusion Transformer的基础模型，并将其蒸馏为因果流式生成器，实现了高表现力、实时推理和长时身份稳定的角色表演生成。

Are GUI Agents Focused Enough? Automated Distraction via Semantic-level UI Element Injection

Wenkui Yang et al.

cs.CR cs.CL cs.CV

本文提出了一种针对GUI agents的对抗攻击方法, 通过将无害的UI元素叠加到界面截图上, 误导agent的视觉定位. 该方法采用模块化流程和迭代搜索策略, 在多个受害者模型上显著提升了攻击成功率, 并展示了攻击的跨模型迁移性和持续性影响.

Networking-Aware Energy Efficiency in Agentic AI Inference: A Survey

Xiaojing Chen et al.

eess.SY cs.AI

本文是一篇关于Agentic AI推理中网络感知能效的综述。它提出了一个能耗分析框架, 并探讨了跨层协同设计策略与未来挑战。

FlowGuard: Towards Lightweight In-Generation Safety Detection for Diffusion Models via Linear Latent Decoding

Jinghan Yang et al.

cs.CV cs.AI

本文提出了一种名为FlowGuard的轻量级框架, 用于在Diffusion Model的生成过程中进行安全检测. 该方法通过线性近似解码latent空间中的中间噪声图像, 并结合课程学习策略, 实现了对不安全内容的早期识别, 从而显著降低了计算开销.

Reinforcement-Guided Synthetic Data Generation for Privacy-Sensitive Identity Recognition

Xuemei Jia et al.

cs.CV cs.AI

本文提出了一种强化学习引导的合成数据生成框架，用于解决隐私敏感身份识别任务中的数据稀缺问题。该方法通过冷启动适应和多目标奖励优化，提升了生成样本的保真度和任务有效性。

Non-variational supervised quantum kernel methods: a review

John Tanner, Chon-Fai Kam, Jingbo Wang

quant-ph cs.LG

本文回顾了非变分监督量子核方法, 将其与变分量子算法进行对比, 并分析了其理论基础、构造方式、优势评估框架以及面临的关键挑战.

AnomalyAgent: Agentic Industrial Anomaly Synthesis via Tool-Augmented Reinforcement Learning

Jiaming Su et al.

cs.CV cs.AI

本文提出了一种名为AnomalyAgent的工业异常合成智能体，它通过工具增强的强化学习框架来生成更真实和多样的异常样本。该方法在MVTec-AD数据集上取得了优于现有零样本方法的性能。

Dynamic Attentional Context Scoping: Agent-Triggered Focus Sessions for Isolated Per-Agent Steering in Multi-Agent LLM Orchestration

Nickson Patel

cs.MA cs.AI cs.LG

本文提出了一种名为Dynamic Attentional Context Scoping (DACS)的机制，用于解决多智能体LLM编排系统中的上下文污染问题。该方法通过不对称的两种模式来隔离不同智能体的上下文，从而提升决策质量。

Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction

Yuanhong Zhang et al.

cs.CV cs.AI

本文提出了一种名为MESA的即插即用框架，用于缓解大型视觉语言模型中的幻觉问题。该方法通过在潜在空间中进行受控和选择性的干预，旨在减少幻觉的同时保持模型原有的生成行为。

Generative 3D Gaussian Splatting for Arbitrary-ResolutionAtmospheric Downscaling and Forecasting

Tao Hana et al.

cs.CV cs.LG

本文提出了一种基于3D Gaussian splatting和scale-aware attention的新型框架GSSA-ViT, 用于高维大气场的任意分辨率预测和灵活降尺度. 该方法将经纬度网格点视为3D Gaussians的中心, 并通过生成式方案预测其参数, 结合尺度感知模块捕获跨尺度依赖, 在ERA5和CMIP6数据集上展现了优越性能.

On-Policy Distillation of Language Models for Autonomous Vehicle Motion Planning

Amirhossein Afsharrad et al.

cs.RO cs.AI eess.SY

本文研究了将大型语言模型(LMM)在自动驾驶运动规划中的知识蒸馏到更小、更易部署的学生模型的方法. 作者比较了基于策略的广义知识蒸馏(GKD)和基于密集反馈的强化学习(RL)基线, 实验表明GKD能以更小的模型尺寸接近教师模型的性能.

Incremental Residual Reinforcement Learning Toward Real-World Learning for Social Navigation

Haruto Nagahisa et al.

cs.RO cs.AI

本文提出了一种用于社交导航的增量残差强化学习方法, 旨在解决在真实世界中直接学习时面临的资源受限和效率挑战. 该方法结合了无需经验回放的增量学习和基于残差策略的高效学习, 并在仿真和真实实验中验证了其有效性.

Investigation of Automated Design of Quantum Circuits for Imaginary Time Evolution Methods Using Deep Reinforcement Learning

Ryo Suzuki, Shohei Watabe

quant-ph cs.AI cs.LG

本文提出了一种使用深度强化学习自动设计量子虚时演化方法电路的新框架. 该方法将电路构建视为多目标优化问题, 在Max-Cut问题和$H_2$分子模拟中实现了比标准硬件高效ansatz更浅、门数更少的电路.

Quantum Property Testing for Bounded-Degree Directed Graphs

Pan Peng, Jingyu Wu

quant-ph cs.CC cs.DS

本文研究了有向图的量子性质测试问题, 其中图的入度和出度由常数$d$界定. 对于接近性参数$\varepsilon$, 证明了在经典双向模型中可用$O_{\varepsilon,d}(1)$次查询测试的任何性质, 在量子单向模型中也可用$n^{1/2 - \Omega_{\varepsilon,d}(1)}$次查询测试, 这相对于已知最佳经典算法实现了近二次的量子加速. 此外, 通过构造一个具体的性质$P_\varepsilon$, 证明了该转换几乎是紧的.

TOOLCAD: Exploring Tool-Using Large Language Models in Text-to-CAD Generation with Reinforcement Learning

Yifei Gong et al.

cs.CV cs.AI cs.CL

本文提出了一个名为ToolCAD的框架, 它利用大型语言模型(LLMs)作为工具使用代理(agent)来执行文本到CAD的生成任务. 该框架通过强化学习进行训练, 旨在提升开源LLMs在CAD建模任务中的表现.

DSCA: Dynamic Subspace Concept Alignment for Lifelong VLM Editing

Gyanendra Das, Sai Satyam Jena

cs.CV cs.AI cs.LG

本文提出了一种用于Vision Language Models (VLMs) 终身编辑的新方法DSCA. 该方法通过将表示空间分解为一系列正交的语义子空间, 并将编辑限制在这些子空间内, 旨在减少编辑过程中的概念干扰.

LogAct: Enabling Agentic Reliability via Shared Logs

Mahesh Balakrishnan et al.

cs.DC cs.AI

本文提出了一种名为LogAct的新抽象, 用于管理LLM驱动的Agent在异步和故障环境中的执行. 该方法通过共享日志记录Agent动作, 支持在执行前进行投票拦截和故障后的一致性恢复, 并允许Agent进行内省以优化性能.

Rethinking Entropy Allocation in LLM-based ASR: Understanding the Dynamics between Speech Encoders and LLMs

Yuan Xie et al.

eess.AS cs.CL cs.SD

本文从熵分配的角度重新审视了基于LLM的ASR系统，提出了量化语音编码器与LLM之间熵减分配的指标。针对现有方法在熵分配上的低效问题，作者提出了一种基于能力边界感知的多阶段训练策略，旨在优化参数效率并增强对幻觉的鲁棒性。实验表明，该方法能以较少的参数量达到有竞争力的性能。

SearchAD: Large-Scale Rare Image Retrieval Dataset for Autonomous Driving

Felix Embacher et al.

cs.CV cs.AI cs.LG

本文提出了一个用于自动驾驶的大规模稀有图像检索数据集SearchAD, 包含超过42.3万帧图像和51.3万个标注框, 涵盖90个稀有类别. 该数据集旨在支持文本到图像和图像到图像的语义检索研究, 为自动驾驶中的数据筛选和长尾感知问题提供了基准.

Component-Adaptive and Lesion-Level Supervision for Improved Small Structure Segmentation in Brain MRI

Minh Sao Khue Luu, Evgeniy N. Pavlovskiy, Bair N. Tuchinov

cs.CV cs.LG

本文提出了一种名为CATMIL的统一目标函数，用于改进脑MRI中的小病灶分割。该方法在基础分割损失上增加了两个辅助监督项，分别从连通分量和病灶实例层面进行优化，在MSLesSeg数据集上取得了平衡的性能提升。

PrivFedTalk: Privacy-Aware Federated Diffusion with Identity-Stable Adapters for Personalized Talking-Head Generation

Soumya Mazumdar, Vineet Kumar Rakesh, Tapas Samanta

cs.CR cs.AI cs.CV cs.LG

本文提出了一种隐私保护的联邦学习框架PrivFedTalk, 用于个性化的说话人头像生成. 该方法通过共享扩散模型主干和本地训练的轻量级身份适配器来避免原始数据共享, 并引入了身份稳定的聚合策略和时序一致性正则化来提升训练效果.

LINE: LLM-based Iterative Neuron Explanations for Vision Models

Vladimir Zaigrajew et al.

cs.CV cs.AI cs.LG

本文提出了一种名为LINE的、无需训练的黑盒方法, 用于为视觉模型中的神经元生成开放词汇的概念标签. 该方法利用大语言模型和文生图模型进行迭代式概念提议与精炼, 在多个基准上取得了先进的性能, 并能发现预定义词汇表遗漏的新概念.

3DrawAgent: Teaching LLM to Draw in 3D with Early Contrastive Experience

Hongcan Xiao et al.

cs.CV cs.AI

本文提出了一个无需训练的、由语言驱动的3D草图生成框架3DrawAgent. 它利用LLM在几何反馈下顺序绘制3D Bezier曲线, 并通过相对经验优化策略来迭代提升模型的空间理解和绘图质量.

Governed Capability Evolution for Embodied Agents: Safe Upgrade, Compatibility Checking, and Runtime Rollback for Embodied Capability Modules

Xue Qin et al.

cs.RO cs.AI

本文提出了一个用于具身智能体能力演化的受控升级框架, 旨在安全地部署新版本的能力模块. 该框架通过一系列兼容性检查(如接口, 策略, 行为, 恢复)和分阶段运行时管道(包括沙箱评估, 影子部署, 回滚等)来确保升级的安全性. 实验表明, 该框架在保持任务成功率的同时, 能有效避免不安全激活, 并成功处理部署后的性能漂移.

From Gaze to Guidance: Interpreting and Adapting to Users' Cognitive Needs with Multimodal Gaze-Aware AI Assistants

Valdemar Danry et al.

cs.HC cs.AI

本文提出了一种结合眼动追踪的多模态LLM助手, 通过分析用户阅读时的注视行为来推断其认知难点并提供针对性帮助. 实验表明, 该助手在评估准确性和信息回忆方面优于纯文本助手, 但眼动行为解读的准确性仍面临挑战.

AtlasOCR: Building the First Open-Source Darija OCR Model with Vision Language Models

Imane Momayiz et al.

cs.CV cs.AI

本文介绍了首个开源 Darija OCR 模型 AtlasOCR, 它通过微调一个 3B 参数的 Vision Language Model 构建而成. 该模型在专门构建的 Darija 数据集上进行了评估, 展示了其性能.

DeepForestSound: a multi-species automatic detector for passive acoustic monitoring in African tropical forests, a case study in Kibale National Park

Gabriel Dubus et al.

cs.SD cs.LG

本文提出了一种用于非洲热带森林被动声学监测的多物种自动检测模型 DeepForestSound (DFS). 该模型结合半监督聚类与基于 Audio Spectrogram Transformer 的微调, 在跨时间和地点的独立数据集上对鸟类, 灵长类和象类等分类群实现了优于现有工具的检测性能.

OV-Stitcher: A Global Context-Aware Framework for Training-Free Open-Vocabulary Semantic Segmentation

Seungjae Moon, Seunghyun Oh, Youngmin Ro

cs.CV cs.AI cs.LG

本文提出了一种无需训练的开放词汇语义分割框架OV-Stitcher. 该方法通过在最终编码器块中拼接子图像特征, 实现了全局注意力, 从而提升了分割图的空间一致性和语义对齐性.

TADP-RME: A Trust-Adaptive Differential Privacy Framework for Enhancing Reliability of Data-Driven Systems

Labani Halder, Payel Sadhukhan, Sarbani Palit

cs.CR cs.AI cs.LG

本文提出了一种名为TADP-RME的信任自适应差分隐私框架，旨在提升数据驱动系统的可靠性。该框架通过引入逆信任分数动态调整隐私预算，并利用Reverse Manifold Embedding破坏数据几何结构以抵御推理攻击。

Small Vision-Language Models are Smart Compressors for Long Video Understanding

Junjie Fei et al.

cs.CV cs.AI cs.CL cs.LG

本文提出了一种名为Tempo的高效查询感知框架, 用于压缩长视频以进行下游理解. 它利用小型视觉语言模型(SVLM)作为局部时间压缩器, 并通过自适应令牌分配(ATA)机制, 在严格预算下动态地为关键片段分配更多带宽, 在多个长视频基准测试上取得了先进性能.

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

Luozheng Qin et al.

cs.CV cs.AI

本文提出了一种通过扩展视频生成器来实现视频生成与理解统一的新框架 Uni-ViGU. 它采用统一的流匹配方法处理视频和文本, 并设计了双向训练机制来复用生成知识以完成理解任务.

LegoDiffusion: Micro-Serving Text-to-Image Diffusion Workflows

Lingyun Yang et al.

cs.DC cs.AI

本文提出了一种名为LegoDiffusion的系统, 用于微服务化文本到图像生成中的扩散工作流. 它将传统上被视为整体的工作流分解为松散耦合的模型执行节点, 从而实现了更细粒度的资源管理和集群级优化.

Multimodal Reasoning with LLM for Encrypted Traffic Interpretation: A Benchmark

Longgang Zhang et al.

cs.CR cs.AI cs.MM cs.NI

本文提出了一个名为BGTD的基准数据集和一个名为mmTraffic的多模态推理框架, 用于可解释的加密流量分析. 该方法结合原始字节数据与专家标注, 通过联合优化的感知-认知架构来生成基于证据的、人类可读的流量解释报告.

Face-D(^2)CL: Multi-Domain Synergistic Representation with Dual Continual Learning for Facial DeepFake Detection

Yushuo Zhang et al.

cs.CV cs.AI

本文提出了一种用于面部DeepFake检测的持续学习框架Face-D$^2$CL。它通过融合空间和频域特征来增强表征，并利用双持续学习机制来缓解灾难性遗忘问题。实验表明该方法在稳定性和可塑性上优于现有技术。

ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

Jindi Lv et al.

cs.RO cs.AI

本文提出了一种名为ViVa的视频生成价值模型, 用于机器人强化学习中的价值估计. 该模型利用预训练视频生成器的时空先验, 通过预测未来本体感知来评估当前状态的价值, 并在真实世界任务中展示了改进.

OceanMAE: A Foundation Model for Ocean Remote Sensing

Viola-Joanna Stamer et al.

cs.CV cs.AI

本文提出了一种针对海洋遥感数据的自监督预训练模型OceanMAE, 通过整合多光谱Sentinel-2观测数据和物理海洋描述符来学习更具信息量的海洋感知表征. 实验表明, 该模型在海洋污染物分割等下游任务上表现良好, 验证了领域对齐预训练的价值.

AT-ADD: All-Type Audio Deepfake Detection Challenge Evaluation Plan

Yuankun Xie et al.

cs.SD cs.AI

本文提出了一个名为AT-ADD的音频深度伪造检测挑战赛评估计划，旨在推动针对多种音频类型和真实场景的鲁棒检测技术发展。

MedVR: Annotation-Free Medical Visual Reasoning via Agentic Reinforcement Learning

Zheng Jiang et al.

cs.CV cs.AI

本文提出了一个名为MedVR的强化学习框架, 旨在实现无需标注的医学视觉语言模型(VLM)视觉推理. 其核心机制包括基于熵的视觉重定位(EVR)和基于共识的信用分配(CCA), 以模型不确定性和轨迹一致性生成伪监督信号. 该方法在多个医学VQA基准上取得了领先性能, 提升了模型基于视觉证据进行推理的鲁棒性和可解释性.

EditCaption: Human-Aligned Instruction Synthesis for Image Editing via Supervised Fine-Tuning and Direct Preference Optimization

Xiangyuan Wang et al.

cs.CV cs.AI

本文提出了一种名为EditCaption的两阶段后训练流程, 用于提升基于Vision-Language Model (VLM)的自动化图像编辑指令合成质量. 该方法通过Supervised Fine-Tuning (SFT)和Direct Preference Optimization (DPO)来减少指令中的方向、视角和属性描述错误, 从而生成更符合人类偏好的高质量训练数据.

DBMF: A Dual-Branch Multimodal Framework for Out-of-Distribution Detection

Jiangbei Yue, Sharib Ali

cs.CV cs.AI

本文提出了一种用于医学图像OOD检测的双分支多模态框架DBMF, 它结合了文本-图像匹配分支和视觉特征分支来生成最终的OOD分数。实验表明，该框架在不同骨干网络上均表现稳健，并在内窥镜图像数据集上取得了显著的性能提升。

QARIMA: A Quantum Approach To Classical Time Series Analysis

Nishikanta Mohanty et al.

quant-ph cs.AI cs.LG

本文提出了一种量子启发的ARIMA方法QARIMA, 它使用基于swap-test的量子自相关(QACF)和量子偏自相关(QPACF)函数进行滞后阶数发现, 并采用固定配置的变分量子电路(VQC)进行参数估计和弱滞后项精炼. 在多个数据集上的实验表明, 该方法在减少元优化开销的同时, 在预测误差上相比经典自动化ARIMA具有竞争力.

CIAO - Code In Architecture Out - Automated Software Architecture Documentation with Large Language Models

Marco De Luca et al.

cs.SE cs.AI

本文提出了一种名为CIAO的自动化流程, 利用Large Language Models (LLM) 从GitHub仓库的源代码自动生成系统级的软件架构文档. 该流程遵循ISO/IEC/IEEE 42010等标准模板, 评估表明生成的文档被开发者认为有价值且准确, 且运行成本低廉.

Can Vision Language Models Judge Action Quality? An Empirical Evaluation

Miguel Monte e Freitas et al.

cs.CV cs.AI cs.CL

本文对Vision Language Models (VLMs)在Action Quality Assessment (AQA)任务上的表现进行了全面的实证评估。研究发现，当前先进的VLMs在该任务上表现仅略高于随机水平，并揭示了模型存在系统性偏差和根本性困难。

Securing Retrieval-Augmented Generation: A Taxonomy of Attacks, Defenses, and Future Directions

Yuming Xu et al.

cs.CR cs.AI

本文对检索增强生成(RAG)系统的安全风险进行了系统性的分类与综述. 作者将RAG工作流抽象为六个阶段, 并围绕三个信任边界和四个主要安全面来组织相关文献, 指出了当前防御措施的局限性.

HistDiT: A Structure-Aware Latent Conditional Diffusion Model for High-Fidelity Virtual Staining in Histopathology

Aasim Bin Saleem et al.

eess.IV cs.AI cs.CV cs.ET cs.LG +1

本文提出了一种用于组织病理学虚拟染色的新型条件扩散模型 HistDiT. 该模型通过双流条件策略和多目标损失函数, 在生成高保真图像的同时更好地保留了细胞形态结构.

Multi-Modal Learning meets Genetic Programming: Analyzing Alignment in Latent Space Optimization

Benjamin Léger, Kazem Meidani, Christian Gagné

cs.NE cs.AI

本文分析了多模态学习在符号回归(Symbolic Regression)中与遗传编程(Genetic Programming)结合时, 潜在空间对齐(Latent Space Alignment)的有效性问题. 研究发现, 尽管SNIP模型引入了对比预训练(Contrastive Pretraining)来对齐符号与数值编码器, 但这种对齐是粗粒度的(Coarse-Grained), 无法在优化过程中有效指导符号空间的搜索.

Lost in the Hype: Revealing and Dissecting the Performance Degradation of Medical Multimodal Large Language Models in Image Classification

Xun Zhu et al.

cs.CV cs.AI cs.LG

本文通过特征探针技术，对14个开源医学MLLMs在三个图像分类数据集上进行了系统分析，揭示了其性能落后于传统深度学习模型的现象。研究发现性能下降主要源于视觉表征质量限制、连接器投影保真度损失、LLM推理理解缺陷和语义映射失准四个失败模式。

InstAP: Instance-Aware Vision-Language Pre-Train for Spatial-Temporal Understanding

Ashutosh Kumar et al.

cs.CV cs.AI

本文提出了一个实例感知的视觉语言预训练框架 InstAP, 它通过联合优化全局视觉-文本对齐和细粒度的实例级对比对齐来增强模型的空间-时间理解能力. 该方法在一个包含双粒度标注的大规模数据集 InstVL 上进行了验证, 在实例级检索任务上表现优异.

PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

Ruizhi Zhang et al.

cs.CV cs.AI

本文提出了一个名为PokeGym的视觉驱动长视野基准测试，用于评估视觉语言模型在复杂3D具身环境中的能力。该基准通过严格的代码隔离和自动评估，揭示了当前模型在物理死锁恢复方面的主要瓶颈。

Revisiting Fair and Efficient Allocations for Bivalued Goods

Hui Liu, Zhijie Zhang

cs.GT cs.DS

本文针对具有二值估值的不可分物品公平分配问题, 指出了Garg和Murhekar (2021)所提算法可能无法终止的问题, 并提出了一个新的多项式时间算法来计算WEFX (Weighted Envy-Free up to any good) 且fPO (fractional Pareto optimal) 的分配.

Scalable Neural Decoders for Practical Fault-Tolerant Quantum Computation

Andi Gu et al.

quant-ph cs.AI cs.LG

本文提出了一种用于量子纠错码的卷积神经网络解码器, 它利用了量子低密度奇偶校验码的几何结构. 该解码器在Gross码等实例上展现了比现有方法更低的逻辑错误率和更高的吞吐量, 并能够生成校准良好的置信度估计.

TASU2: Controllable CTC Simulation for Alignment and Low-Resource Adaptation of Speech LLMs

Jing Peng et al.

eess.AS cs.AI

本文提出了TASU2, 一个可控的CTC模拟框架, 用于语音大语言模型的后训练对齐和低资源适应. 该方法通过模拟指定WER范围内的CTC后验分布来生成文本监督信号, 在多个适应场景中超越了基线方法.

Phantasia: Context-Adaptive Backdoors in Vision Language Models

Nam Duong Tran, Phi Le Nguyen

cs.CV cs.AI

本文提出了一种针对Vision-Language Models (VLMs)的新型上下文自适应后门攻击方法Phantasia. 该方法通过生成与输入语义动态对齐的恶意响应, 显著提升了攻击的隐蔽性和适应性, 并在多种VLM架构和防御设置下验证了其有效性.

Rapid mixing for high-temperature Gibbs states with arbitrary external fields

Ainesh Bakshi, Xinyu Tan

quant-ph cs.DS math-ph

本文研究了外场对高温Gibbs态的纠缠结构和计算复杂度的影响. 证明了存在一个交叉尺度 $h\asymp \beta^{-1} \log(1/\beta)$, 超过此外场强度时, 原本可分离的态会变得纠缠. 同时, 构造了一个满足细致平衡的准局域Lindbladian, 能在 $\mathcal{O}(\log(n/\epsilon))$ 时间内快速混合到Gibbs态.

What a Comfortable World: Ergonomic Principles Guided Apartment Layout Generation

Piotr Nieciecki, Aleksander Plocharski, Przemyslaw Musialski

cs.GR cs.LG

本文提出了一种将建筑学的人体工学原则融入基于transformer的生成模型的方法, 用于生成公寓平面布局. 通过设计可微的损失函数来优化房间的邻接与邻近关系, 该方法生成的布局在宜居性指标上优于基线模型.

Selective Attention System (SAS): Device-Addressed Speech Detection for Real-Time On-Device Voice AI

David Joohun Kim et al.

cs.SD cs.AI eess.AS

本文提出了一种用于设备端语音AI的序列化设备寻址路由(SDAR)框架及其实现——选择性注意系统(SAS). 该系统将设备寻址语音检测建模为一个基于交互历史的序列路由问题, 而非单次话语分类, 并在多说话人环境中取得了良好性能.

Exploring Temporal Representation in Neural Processes for Multimodal Action Prediction

Marco Gabriele Fedozzi et al.

cs.RO cs.AI

本文研究了Conditional Neural Processes (CNP) 在机器人多模态动作预测任务中的应用. 针对现有模型在泛化到未见动作序列时的困难, 作者提出了一个改进版本DMBN-PTE, 旨在学习更鲁棒的时间表征.

Small-scale photonic Kolmogorov-Arnold networks using standard telecom nonlinear modules

Luca Nogueira Calçado, Sergei K. Turitsyn, Egor Manuylovich

physics.optics cs.AI

本文提出了一种完全使用标准电信组件实现的小型光子Kolmogorov-Arnold网络(SSP-KANs). 该架构通过可训练的非线性光学模块进行端到端优化, 在分类和回归等任务上展现了良好的性能与硬件鲁棒性.

HST-HGN: Heterogeneous Spatial-Temporal Hypergraph Networks with Bidirectional State Space Models for Global Fatigue Assessment

Changdao Chen

cs.CV cs.AI

本文提出了一种用于驾驶员疲劳评估的异质时空超图网络HST-HGN。该方法结合了分层超图进行空间建模和双向状态空间模型进行时序建模，在多个基准测试上取得了先进的性能，并兼顾了判别力与计算效率。

Entropy-Gradient Grounding: Training-Free Evidence Retrieval in Vision-Language Models

Marcel Gröpl et al.

cs.CV cs.CL

本文提出了一种无需训练的视觉语言模型证据检索方法, 通过计算模型next-token分布的熵并将其反向传播到视觉token嵌入来获得熵梯度相关性图, 用于定位关键视觉证据. 该方法在多个基准测试上提升了模型在细节敏感和高分辨率场景下的性能, 并提供了更可解释的证据定位.

CrashSight: A Phase-Aware, Infrastructure-Centric Video Benchmark for Traffic Crash Scene Understanding and Reasoning

Rui Gan et al.

cs.CV cs.AI cs.RO

本文提出了一个名为CrashSight的大规模视频基准测试，用于评估视觉语言模型在真实世界路边摄像头记录的交通事故场景中的理解与推理能力。该基准包含多层级的问题，旨在测试模型在场景描述、因果推理和时间推理等方面的性能。

OVS-DINO: Open-Vocabulary Segmentation via Structure-Aligned SAM-DINO with Language Guidance

Haoxi Zeng et al.

cs.CV cs.AI

本文提出了一种名为OVS-DINO的新框架，用于开放词汇分割任务。该方法通过结构对齐SAM与DINO模型，并引入语言引导，旨在提升模型对边界的感知能力，在多个基准测试上取得了性能提升。

Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

Sai Srinivas Kancheti et al.

cs.CV cs.AI

本文提出了一种名为Faithful GRPO (FGRPO)的新方法，用于提升多模态语言模型在视觉空间推理任务中的推理质量。该方法通过在Group Relative Policy Optimization (GRPO)中引入逻辑一致性和视觉基础性作为约束，有效减少了推理链与最终答案不一致的问题，并在多个空间推理基准上取得了更好的准确率。

Formalizing building-up constructions of self-dual codes through isotropic lines in Lean

Jae-Hyun Baek, Jon-Lark Kim

cs.IT cs.CL

本文通过形式化验证工具Lean 4，研究了自对偶码的构造方法。它建立了Kim的“building-up”构造与Chinburg-Zhang的Hilbert符号构造之间的等价性，并推广了后一方法以高效构造$q$元自对偶码。

What They Saw, Not Just Where They Looked: Semantic Scanpath Similarity via VLMs and NLP metric

Mohamed Amine Kerkouri et al.

cs.CV cs.CL cs.HC

本文提出了一种利用vision-language models (VLMs) 和NLP metrics来评估scanpath语义相似性的框架。该框架将注视点编码为文本描述，并通过embedding-based和lexical metrics计算相似度，为传统的空间分析方法提供了内容感知的补充维度。

PIArena: A Platform for Prompt Injection Evaluation

Runpeng Geng et al.

cs.CR cs.AI cs.CL cs.LG

本文介绍了PIArena, 一个用于评估prompt injection攻击的统一平台. 该平台整合了多种攻击与防御方法, 并揭示了现有防御措施在泛化性和对抗自适应攻击方面的局限性.

sciwrite-lint: Verification Infrastructure for the Age of Science Vibe-Writing

Sergey V Samsonau

cs.DL cs.CL cs.SE

本文提出了一种名为 sciwrite-lint 的开源工具，用于在本地验证科学手稿的引用完整性。该工具检查参考文献的存在性、撤稿状态，并验证引用是否支持文中的主张。作为一个实验性扩展，作者还提出了一个结合了完整性验证和科学贡献度评估的综合评分系统。

Quantifying Explanation Consistency: The C-Score Metric for CAM-Based Explainability in Medical Image Classification

Kabilan Elangovan, Daniel Ting

cs.CV cs.AI

本文提出了一种名为C-Score的度量标准，用于评估医学图像分类中基于CAM的可解释性方法的解释一致性。该指标无需人工标注，通过计算正确分类样本间解释图的加权相似度来量化模型推理策略的稳定性。实验揭示了标准分类指标无法察觉的几种解释一致性下降模式，表明C-Score可作为模型性能崩溃的早期预警信号。

Differentially Private Language Generation and Identification in the Limit

Anay Mehrotra et al.

stat.ML cs.AI cs.CL cs.DS cs.LG

本文研究了在差分隐私约束下的极限语言生成与识别问题. 在生成任务中, 隐私不会带来定性损失, 但对于有限语言集合, 隐私会引入样本数量的定量代价. 在识别任务中, 隐私会带来根本性障碍, 特别是在对抗性设置下, 而随机设置下的可识别性则与对抗性模型一致.

PSI: Shared State as the Missing Layer for Coherent AI-Generated Instruments in Personal AI Agents

Zhiyuan Wang et al.

cs.HC cs.AI

本文提出了一种名为PSI的共享状态架构, 旨在解决个人AI工具生成后孤立存在的问题. 该架构通过共享个人上下文总线, 使独立生成的模块能够协同工作, 从而构建连贯的个人计算环境.

RewardFlow: Generate Images by Optimizing What You Reward

Onkar Susladkar et al.

cs.CV cs.AI

本文提出了一种名为RewardFlow的无反演框架, 通过多奖励Langevin动力学在推理时引导预训练的diffusion和flow-matching模型. 该方法整合了多种可微奖励, 并引入了一种自适应的提示感知策略来协调不同目标, 在图像编辑和组合生成任务上取得了先进的结果.

OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

Wenbo Hu et al.

cs.CV cs.AI cs.CL

本文提出了Gaussian GRPO (G$^2$RPO)训练目标和两种任务级塑造机制，以解决多模态通用模型训练中的奖励分布差异和感知-推理平衡问题。基于此构建的OpenVLThinkerV2模型在多个基准测试中表现优异。

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

Ziwei Zhou et al.

cs.CV cs.AI cs.CL

本文提出了一个用于评估文本到音视频生成模型的任务驱动基准AVGen-Bench, 并设计了一个结合专家模型与多模态大语言模型的多粒度评估框架. 评估揭示了当前模型在语义可靠性与物理推理等方面存在显著不足.

Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts

Haolei Xu et al.

cs.CV cs.AI cs.CL

本文研究了多模态 Mixture-of-Experts (MoE) 模型中存在的“视而不思”现象，即模型能感知图像内容却无法进行后续推理。作者提出了 Routing Distraction 假说，并通过路由引导的干预方法验证了该假说，在多个基准测试上提升了模型的视觉推理性能。

SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

Yunsong Zhou et al.

cs.RO cs.AI cs.CV

本文提出了一种名为SIM1的物理对齐仿真方法, 用于为可变形物体操作生成零样本数据. 该方法通过将真实场景数字化并进行弹性动力学校准, 结合基于扩散的轨迹生成, 从稀疏演示中扩展出合成监督数据. 实验表明, 仅使用合成数据训练的策略在真实世界部署中取得了良好的零样本成功率和泛化能力.

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Shilin Yan et al.

cs.CV cs.AI

本文针对智能体在多模态环境中过度依赖外部工具的问题, 提出了一个名为HDPO的框架. 该框架通过解耦任务准确性与执行效率的优化目标, 旨在减少不必要的工具调用, 同时提升推理性能.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

cs.AI

others

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others