bluearXiv-ai - 2026-03-05

📄 所有论文 ↑ 回顶部

cs.LG

Knowledge Graph and Hypergraph Transformers with Repository-Attention and Journey-Based Role Transport

Mahesh Godavarti

cs.LG cs.AI

本文提出了一种用于联合训练句子与结构化数据的简洁架构, 保持了知识与语言表征的可分离性. 该模型将 knowledge graph 和 hypergraph 视为具有 role slot 的结构化实例, 并通过一种基于 journey 的 role transport 机制来统一处理不同的结构化数据遍历.

AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis

Pei Yang et al.

cs.LG cs.AI

本文提出了一个名为AOI的可训练多智能体框架, 用于在安全约束下将自动化运维(如云诊断)构建为结构化轨迹学习问题. 该方法整合了可训练诊断系统, 读写分离的执行架构以及失败轨迹闭环演化器, 在AIOpsLab基准测试中取得了优于现有方法的性能.

RADAR: Learning to Route with Asymmetry-aware DistAnce Representations

Hang Yi et al.

cs.LG cs.AI

本文提出RADAR框架, 通过结合SVD分解和Sinkhorn归一化, 增强了现有神经求解器处理非对称距离矩阵的能力. 实验表明该方法在多种VRP任务上具有良好的泛化性能.

Towards Improved Sentence Representations using Token Graphs

Krishna Sri Ipsit Mantri et al.

cs.LG

本文提出了一种名为GLOT的轻量级结构感知池化模块, 用于从大型语言模型的token输出中生成句子表示. 该方法将池化重构为关系学习与聚合, 通过构建token相似度图并使用图神经网络进行精炼, 在保持高准确率的同时显著减少了可训练参数和训练时间.

Heterogeneous Time Constants Improve Stability in Equilibrium Propagation

Yoshimasa Kubo, Suhani Pragnesh Modi, Smit Patel

cs.LG cs.AI

本文为 equilibrium propagation (EP) 模型引入了神经元特异性的异质时间常数 (heterogeneous time steps, HTS), 以增强其生物合理性. 实验表明, 该方法提高了训练稳定性, 同时保持了有竞争力的任务性能.

A Short Note on a Variant of the Squint Algorithm

Haipeng Luo

cs.LG

本文对专家问题中的Squint算法提出了一个简单变体, 并通过修改原证明, 证明了该变体具有与NormalHedge算法变体相似的regret bound.

[Re] FairDICE: A Gap Between Theory And Practice

Peter Adema et al.

cs.LG

本文是一项关于FairDICE算法的复现研究。研究发现该算法的理论主张基本成立，但代码错误导致其在连续环境中退化为标准的行为克隆，且实验验证部分需要重大修订。

Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

Peter Balogh

cs.LG cs.CL

本文研究了Transformer模型中MLP非线性激活的必要性, 通过引入一个门控机制来决定何时使用线性替代。实验表明, 大部分MLP计算是接近线性的, 门控可以在几乎不影响性能的情况下节省大量计算。研究还发现, 线性化某些中间层的MLP甚至能提升模型性能。

Graph Hopfield Networks: Energy-Based Node Classification with Associative Memory

Abinav Rao, Alex Wa, Rishi Athavale

cs.LG cs.AI cs.IR

本文提出了一种结合 associative memory 与 graph Laplacian smoothing 的 energy-based 模型用于节点分类. 该模型通过梯度下降迭代更新节点表示, 并在不同数据上展示了性能提升与鲁棒性优势.

Biased Generalization in Diffusion Models

Jerome Garnier-Brun et al.

cs.LG cond-mat.dis-nn cond-mat.stat-mech

本文研究了 diffusion models 训练过程中的一种偏差泛化现象. 作者通过实验和理论分析表明, 在测试损失达到最小后继续训练, 模型会生成与训练数据异常接近的样本, 这可能对隐私敏感的应用构成风险.

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

Subramanyam Sahoo et al.

cs.LG cs.AI cs.CL

本文分析了数学推理模型中的计算不稳定性问题, 指出高准确率可能掩盖了推理路径的不可靠性. 研究发现, 大部分正确预测源于计算不一致的路径, 并且存在一定比例的"静默失败".

Minimax Optimal Strategy for Delayed Observations in Online Reinforcement Learning

Harin Lee, Kevin Jamieson

cs.LG stat.ML

本文针对具有延迟状态观测的强化学习问题, 提出了一种结合状态增广和置信上界的方法. 在表格MDP中, 算法获得了$\tilde{\mathcal{O}}(H \sqrt{D_{\max} SAK})$的遗憾上界, 并给出了匹配的下界, 证明了其最优性.

Optimal trajectory-guided stochastic co-optimization for e-fuel system design and real-time operation

Jeongdong Kim et al.

cs.LG cs.AI

本文提出了一个名为MasCOR的机器学习辅助协同优化框架, 用于在可再生能源不确定性下, 共同优化电子燃料生产系统的设计和实时运行. 该框架通过编码系统设计和可再生能源趋势, 使单个智能体能够泛化到不同配置和场景, 从而简化了优化过程, 并在四个欧洲站点的电子甲醇生产案例中展示了其应用价值.

When Small Variations Become Big Failures: Reliability Challenges in Compute-in-Memory Neural Accelerators

Yifan Qin et al.

cs.LG cs.AR

本文探讨了Compute-in-Memory (CiM)架构中由器件非理想性引发的可靠性挑战。作者提出了跨层协同设计的方法来提升神经加速器的鲁棒性。

Solving adversarial examples requires solving exponential misalignment

Alessandro Salvatore, Stanislav Fort, Surya Ganguli

cs.LG cond-mat.dis-nn q-bio.NC stat.ML

本文通过定义和分析神经网络的 perceptual manifold (PM) 来探讨对抗样本的起源。研究发现，网络 PM 的维度远高于人类概念的维度，这导致了指数级的错位，并使得对抗样本难以避免。

Orbital Transformers for Predicting Wavefunctions in Time-Dependent Density Functional Theory

Xuan Zhang et al.

cs.LG cond-mat.mtrl-sci physics.chem-ph

本文提出了一种基于等变图Transformer架构的OrbEvo模型，用于学习由含时密度泛函理论(TDDFT)模拟的电子波函数的时间演化。该模型通过设计等变条件编码外部电场，并采用两种不同的交互方法（波函数池化和密度矩阵）来预测波函数系数，从而避免了传统TDDFT中耗时的逐步传播过程。在QM9和MD17数据集上的实验表明，该模型能够准确预测含时波函数、偶极矩和光学吸收光谱等量子动力学性质。

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

Maksim Kuznetsov et al.

cs.LG cs.AI cs.CL

本文提出了一个名为MMAI Gym for Science的平台，用于训练专门处理分子数据的Liquid Foundation Model (LFM)。该模型在多个药物发现任务上表现优于更大的通用模型，展示了专用模型在科学领域的潜力。

Q-Measure-Learning for Continuous State RL: Efficient Implementation and Convergence

Shengbo Wang

cs.LG math.OC

本文提出了一种名为Q-Measure-Learning的新方法, 用于解决连续状态空间下的在线强化学习问题. 该方法通过估计一个基于访问过的状态-动作对的带符号经验测度, 并结合核积分来重构Q函数估计, 从而避免了维护无限维函数估计的问题. 在行为链满足一致遍历性的假设下, 作者证明了所诱导的Q函数几乎必然依上确界范数收敛到一个核平滑Bellman算子的不动点, 并分析了该极限与最优Q函数之间的近似误差.

Test-Time Meta-Adaptation with Self-Synthesis

Zeyneb N. Kaya, Nick Rui

cs.LG cs.AI

本文提出了一个名为MASS的元学习框架, 旨在使大型语言模型(LLMs)能够在推理时通过生成特定问题的合成训练数据来进行自我适应与更新. 该方法通过双层优化进行端到端训练, 在数学推理任务上展示了其进行高效测试时适应的能力.

Logit-Level Uncertainty Quantification in Vision-Language Models for Histopathology Image Analysis

Betul Yurdem et al.

cs.LG

本文提出了一种用于组织病理学图像分析的 logit-level uncertainty quantification (UQ) 框架, 以评估 Vision-Language Models (VLMs) 的可信度. 研究发现, 通用 VLMs 在复杂诊断提示下表现出较高的不确定性, 而病理学专用模型则展现出更确定的行为.

mlx-snn: Spiking Neural Networks on Apple Silicon via MLX

Jiahao Qin

cs.LG cs.AI cs.NE

本文介绍了 mlx-snn, 一个基于 Apple MLX 框架原生构建的脉冲神经网络库. 该库提供了多种神经元模型和训练工具, 并在 Apple Silicon 硬件上展示了优于现有框架的训练速度和内存效率.

Directional Neural Collapse Explains Few-Shot Transfer in Self-Supervised Learning

Achleshwar Luthra, Yash Salunkhe, Tomer Galanti

cs.LG cs.AI

本文研究了自监督学习(SSL)中预训练表征的few-shot迁移能力。作者提出并分析了"方向性类间决策轴方差"(directional CDNV)这一几何量, 将其与下游分类的泛化误差上界以及多任务间的低干扰性联系起来。实验表明, 在多种SSL目标下, 该方向性方差在预训练过程中会减小, 并与实际few-shot误差的变化趋势相符。

Role-Aware Conditional Inference for Spatiotemporal Ecosystem Carbon Flux Prediction

Yiming Sun et al.

cs.LG cs.AI

本文提出了一个名为RACI的过程感知学习框架, 用于预测生态系统碳通量. 该框架通过分层时间编码和角色感知空间检索来解耦环境协变量的不同功能角色, 旨在提升模型在异质环境下的泛化能力.

Trade-offs in Ensembling, Merging and Routing Among Parameter-Efficient Experts

Sanae Lotfi et al.

cs.LG

本文探讨了在轻量级适配器微调的大语言模型中, 通过集成(ensembling), 合并(merging)和路由(routing)三种策略进行模型融合的权衡. 实验表明, 非均匀集成与合并能提升性能, 而路由策略能带来更大收益, 但计算成本更高, 可通过专家选择技术来缓解.

Online Learnability of Chain-of-Thought Verifiers: Soundness and Completeness Trade-offs

Maria-Florina Balcan et al.

cs.LG

本文研究了 chain-of-thought verifiers 的在线可学习性问题, 重点关注其 soundness 和 completeness 之间的权衡. 作者引入了 Littlestone dimension 的新扩展来刻画学习界限, 并提出了优化算法来管理错误成本.

Transport Clustering: Solving Low-Rank Optimal Transport via Clustering

Henri Schmidt, Peter Halmos, Ben Raphael

cs.LG

本文提出了一种名为"transport clustering"的算法，用于求解低秩最优传输问题。该方法将问题转化为一个聚类任务，并提供了多项式时间的常数因子近似解。

Hybrid Belief Reinforcement Learning for Efficient Coordinated Spatial Exploration

Danish Rizvi, David Boyle

cs.LG

本文提出了一种混合信念强化学习框架, 用于协调多智能体进行空间探索. 该方法结合了基于模型的信念学习和深度强化学习, 并通过知识迁移提升效率, 在一个多无人机任务中验证了其性能优势.

NuMuon: Nuclear-Norm-Constrained Muon for Compressible LLM Training

Hadi Mohaghegh Dolatabadi et al.

cs.LG

本文提出了一种名为NuMuon的新优化器, 它在Muon优化器的基础上增加了对更新方向的nuclear-norm约束, 旨在引导训练得到的LLM权重矩阵具有更强的低秩结构. 实验表明, NuMuon在保持Muon良好收敛性的同时, 提升了模型在标准压缩流程下的可压缩性和压缩后的模型质量.

Riemannian Optimization in Modular Systems

Christian Pehle, Jean-Jacques Slotine

cs.LG

本文结合 Riemannian geometry, optimal control theory 和 theoretical physics 的工具来研究模块化系统的联合优化问题. 作者为神经网络等模块化系统引入了一种可递归定义的 layerwise Riemannian metric 和一个可组合的 "Riemannian modules" 框架.

Why Are Linear RNNs More Parallelizable?

William Merrill et al.

cs.LG cs.CC cs.CL cs.FL

本文通过建立RNN类型与标准复杂度类之间的紧密联系, 解释了为何线性RNN(LRNN)比非线性RNN更具并行性. 研究表明, LRNN可视为对数深度算术电路, 而非线性RNN能解决$\mathsf{L}$-完全问题, 这构成了其高效并行化的根本障碍.

Extending Neural Operators: Robust Handling of Functions Beyond the Training Set

Blaine Quackenbush, Paul J. Atzberger

cs.LG cs.CV math.NA math.OC stat.ML

本文提出了一种扩展 neural operators 以处理分布外输入函数的理论框架, 利用 kernel approximation 技术, 在 Reproducing Kernel Hilbert Spaces (RKHSs) 的框架下刻画输入-输出函数空间. 该方法通过求解椭圆型偏微分方程进行了实证验证.

Adaptive Sensing of Continuous Physical Systems for Machine Learning

Felix Köster, Atsushi Uchida

cs.LG physics.comp-ph

本文提出了一种从物理动力系统中自适应提取信息的通用计算框架, 通过可训练的注意力模块学习如何探测系统状态以优化预测性能. 该框架以偏微分方程控制的时空场为例进行实现, 并在典型混沌基准测试中展示了自适应空间感知对预测准确性的提升.

Freezing of Gait Prediction using Proactive Agent that Learns from Selected Experience and DDQN Algorithm

Septian Enggar Sukmana, Sang Won Bae, Tomohiro Shibata

cs.LG

本文提出了一种基于强化学习的框架, 用于预测帕金森病患者的步态冻结事件. 该模型采用DDQN算法并结合优先经验回放, 在受试者依赖和独立的评估中均实现了数秒的预测提前量.

Graph Negative Feedback Bias Correction Framework for Adaptive Heterophily Modeling

Jiaqi Lv et al.

cs.LG cs.AI

本文提出了一种基于负反馈机制的图神经网络偏差校正框架(GNFBC), 用于处理异配性(heterophily)图数据. 该框架通过引入负反馈损失和利用与图无关的模型输出来对抗由标签自相关性引起的偏差, 并能与现有GNN架构无缝集成.

Local Shapley: Model-Induced Locality and Optimal Reuse in Data Valuation

Xuan Yang et al.

cs.LG cs.AI cs.DB cs.GT

本文提出了一种基于模型诱导局部性的数据估值方法 Local Shapley. 它通过识别模型预测所依赖的训练点子集（support sets）来重构 Shapley 值的计算框架, 并设计了相应的优化算法以减少重训练开销.

A Stein Identity for q-Gaussians with Bounded Support

Sophia Sklaviadis et al.

cs.LG stat.ML

本文针对有界支撑的$q$-Gaussian分布，推导了一个新的Stein恒等式，并基于此得到了与Gaussian情形形式几乎相同、易于实现的梯度估计器。实验表明，使用有界支撑分布可以降低梯度估计的方差。

Why Do Unlearnable Examples Work: A Novel Perspective of Mutual Information

Yifan Zhu et al.

cs.LG cs.AI

本文从 mutual information 的角度分析了 unlearnable examples 的有效性, 并提出了一种通过最大化类内特征 cosine similarity 来降低协方差的新方法 MI-UE. 实验表明该方法在多种防御机制下均优于现有方法.

JANUS: Structured Bidirectional Generation for Guaranteed Constraints and Analytical Uncertainty

Taha Racicot

cs.LG cs.AI

本文提出了JANUS框架, 用于生成满足复杂约束的高保真合成数据. 它通过一种反向拓扑回填算法确保约束满足, 并提供了比蒙特卡洛方法快得多的解析不确定性估计.

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Zonglin Yang, Lidong Bing

cs.LG cs.CE cs.CL

本文提出了MOOSE-Star框架, 旨在解决直接训练科学发现中的生成推理过程$P(h|b)$时面临的组合爆炸($O(N^k)$)难题. 该方法通过任务分解, 动机引导的层次化搜索和有界组合等技术, 将最优情况下的复杂度降至对数级($O(\log N)$), 并发布了相应的分解论文数据集TOMATO-Star用于训练.

Harmonic Dataset Distillation for Time Series Forecasting

Seungha Hong et al.

cs.LG

本文提出了一种用于时间序列预测的谐波数据集蒸馏方法HDT. 该方法在频域进行操作, 通过FFT分解和对齐核心周期结构来合成小型数据集, 旨在解决传统方法存在的架构过拟合和可扩展性限制问题.

LEA: Label Enumeration Attack in Vertical Federated Learning

Wenhao Jiang et al.

cs.LG

本文提出了一种名为Label Enumeration Attack (LEA)的新型攻击方法, 用于垂直联邦学习(VFL)中的标签推断. 该方法通过聚类枚举样本与标签的映射, 并利用第一轮损失梯度的余弦相似度来评估模型一致性, 从而无需辅助数据即可在多种VFL场景下实施攻击, 并对常见的梯度防御机制具有鲁棒性.

Inverse Contextual Bandits without Rewards: Learning from a Non-Stationary Learner via Suffix Imitation

Yuqi Kong, Xiao Zhang, Weiran Shen

cs.LG stat.ML

本文研究了Inverse Contextual Bandit问题，其中观察者无法获取学习者的奖励信号，仅能观测其动作。针对学习者从探索到利用的非平稳行为数据，作者提出了Two-Phase Suffix Imitation框架。该框架通过丢弃初始阶段的数据并在后续模仿阶段进行经验风险最小化，实现了$\tilde O(1/\sqrt{N})$的收敛速率。

When and Where to Reset Matters for Long-Term Test-Time Adaptation

Taejun Lim, Joong-Won Hwang, Kibok Lee

cs.LG cs.AI cs.CV

本文提出了一种自适应选择性重置(ASR)方案，用于缓解长期测试时适应(TTA)中的模型崩溃问题。该方法通过动态决定重置时机与位置，并结合知识恢复与适应性调整，在多个基准测试中展现了有效性。

Relational In-Context Learning via Synthetic Pre-training with Structural Prior

Yanbo Wang et al.

cs.LG cs.AI cs.DB

本文提出了一种名为RDB-PFN的关系型基础模型，它完全通过合成数据进行预训练，以解决关系数据库缺乏高质量公开数据的问题。该模型通过在大量合成的单表和关系任务上进行预训练，实现了对新数据库的快速上下文学习适应。

Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

Huihan Liu et al.

cs.LG cs.AI cs.RO

本文研究了预训练的Vision-Language-Action (VLA)模型在持续学习中的表现。研究发现，与从头训练的小型模型相比，预训练的VLA模型展现出更强的抗遗忘能力，简单的经验回放方法即可取得良好效果。

Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

Yun Lu et al.

cs.LG cs.AI

本文提出了一种基于去噪状态表示和分层强化学习的交互式推荐框架, 旨在解决因观测状态失真导致的公平性与准确性冲突. 该方法通过扩散模型从含噪交互历史中恢复潜在偏好, 并利用分层策略分离长期公平与短期收益的优化.

Large-Margin Hyperdimensional Computing: A Learning-Theoretical Perspective

Nikita Zeulin et al.

cs.LG

本文建立了hyperdimensional computing (HDC)与support vector machines (SVMs)之间的形式化联系, 并基于此提出了一种maximum-margin HDC分类器. 该方法在多个基准数据集上表现优于基线HDC方法, 为资源受限设备提供了更高效的机器学习解决方案.

Structure-Aware Distributed Backdoor Attacks in Federated Learning

Wang Jian et al.

cs.LG cs.AI cs.CR

本文从模型结构的角度分析了联邦学习中后门攻击的有效性, 提出了衡量模型对扰动敏感度的SRS和衡量模型对分形扰动偏好的SCC两个指标. 基于此, 作者设计了结构感知的分形扰动注入框架TFI, 实验表明模型架构显著影响扰动的传播与聚合, 为结构感知的防御设计提供了新视角.

k-hop Fairness: Addressing Disparities in Graph Link Prediction Beyond First-Order Neighborhoods

Lilian Marey, Tiphaine Viard, Charlotte Laclau

cs.LG

本文提出了$k$-hop fairness这一图链接预测中的结构性公平性概念，旨在评估并缓解超越一阶邻域的结构性偏见。作者通过预处理和后处理策略进行干预，实验表明现有模型在不同$k$-hop上存在偏见，且后处理方法在性能与公平性权衡上优于基线。

Believe Your Model: Distribution-Guided Confidence Calibration

Xizhong Yang et al.

cs.LG

本文提出了一种名为DistriVoting的方法，用于改进大型推理模型的答案选择过程。该方法通过分解置信度分布并应用拒绝过滤器，结合动态调整推理的SelfStepConf技术，在多个基准测试中提升了性能。

PatchDecomp: Interpretable Patch-Based Time Series Forecasting

Hiroki Tomioka, Genta Yoshimura

cs.LG cs.AI

本文提出了一种基于patch分解的可解释时间序列预测方法PatchDecomp. 该方法通过将输入序列划分为子序列(patch)并聚合每个patch的贡献来进行预测, 在保持预测精度的同时提供了清晰的归因解释.

BD-Merging: Bias-Aware Dynamic Model Merging with Evidence-Guided Contrastive Learning

Yuhan Xie, Chen Lyu

cs.LG cs.AI

本文提出了一种名为BD-Merging的模型合并框架，旨在提升模型在测试时分布偏移下的鲁棒性。该方法通过引入证据学习来量化不确定性，并利用对比学习机制来优化合并后的表示。

Hierarchical Inference and Closure Learning via Adaptive Surrogates for ODEs and PDEs

Pengyu Zhang et al.

cs.LG stat.ML

本文提出了一种结合分层贝叶斯推断与机器学习闭包模型的方法, 用于求解具有未知动力学的ODE/PDE反问题. 该方法利用集合MALA进行采样, 并引入双层优化策略训练代理模型以加速计算, 同时比较了FNO和参数化PINN等不同代理架构.

Lang2Str: Two-Stage Crystal Structure Generation with LLMs and Continuous Flow Models

Cong Liu et al.

cs.LG

本文提出了一种结合LLMs和flow-based models的两阶段晶体结构生成框架Lang2Str. 该方法首先生成描述性条件, 再将其解码为精确的结构参数, 在材料生成任务上取得了有竞争力的性能.

GIPO: Gaussian Importance Sampling Policy Optimization

Chengxuan Lu et al.

cs.LG cs.AI

本文提出了一种名为GIPO的策略优化方法, 它基于截断重要性采样, 使用基于对数比的高斯信任权重来软性地抑制极端的重要性比率. 该方法在多种回放缓冲区大小下都表现出了良好的性能.

TFWaveFormer: Temporal-Frequency Collaborative Multi-level Wavelet Transformer for Dynamic Link Prediction

Hantong Feng et al.

cs.LG cs.AI

本文提出了一种名为TFWaveFormer的新型Transformer架构, 用于动态链接预测. 该模型通过集成时频分析和多分辨率小波分解来捕捉复杂的多尺度时间动态.

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

Soochul Park, Yeon Ju Lee

cs.LG cs.CV

本文提出了一种名为 Dual-Solver 的广义 ODE 求解器，用于减少扩散模型采样时的函数评估次数。该方法通过可学习参数在预测类型、积分域和残差项之间进行连续插值与调整，在低评估次数下提升了图像生成质量。

Specialization of softmax attention heads: insights from the high-dimensional single-location model

M. Sagitova, O. Duranthon, L. Zdeborová

cs.LG cond-mat.dis-nn

本文在 high-dimensional single-location model 的框架下，研究了多头 softmax attention 的训练动态与 head specialization 现象。分析表明，训练过程存在一个初始的非专业化阶段，随后是多个 heads 依次与潜在信号方向对齐的多阶段专业化过程。此外，文章还比较了不同 attention 激活函数的影响，并提出了 Bayes-softmax attention 以获得该设定下的最优预测性能。

Spectral Surgery: Training-Free Refinement of LoRA via Gradient-Guided Singular Value Reweighting

Zailong Tian et al.

cs.LG cs.AI

本文提出了一种名为 Spectral Surgery 的训练后优化方法，用于改进已训练的 LoRA 适配器。该方法通过 SVD 分解 LoRA 更新，利用梯度信息在小规模校准集上估计各分量的敏感性，并在保持方向不变的前提下对奇异值进行重加权。实验表明，该方法能在不重新训练的情况下，通过调整少量标量系数，在多个人工智能基准上带来一致的性能提升。

On the Learnability of Offline Model-Based Optimization: A Ranking Perspective

Shen-Huan Lyu et al.

cs.LG

本文从可学习性角度研究离线基于模型的优化(MBO), 指出其核心是排序而非精确预测. 作者提出了基于排序的优化风险理论框架, 并设计了一种分布感知的排序方法来减少分布不匹配.

Fixed-Budget Constrained Best Arm Identification in Grouped Bandits

Raunak Mukherjee, Sharayu Moharir

cs.LG stat.ML

本文研究了分组bandits中固定预算约束下的最优可行臂识别问题. 提出了一种名为FCSR的算法, 该算法在识别最优臂的同时保证了可行性, 并在理论上和实验上验证了其性能.

A Multi-Dimensional Quality Scoring Framework for Decentralized LLM Inference with Proof of Quality

Arther Tian et al.

cs.LG cs.AI cs.CR

本文提出了一个用于去中心化LLM推理网络的多维质量评分框架, 将输出质量分解为多个模块化维度. 通过实验校准, 该框架在对抗性评估者攻击下, 与鲁棒聚合方法结合能提升性能.

mlx-vis: GPU-Accelerated Dimensionality Reduction and Visualization on Apple Silicon

Han Xiao

cs.LG

本文介绍了 mlx-vis, 一个完全基于 Apple MLX 框架的 Python 库, 用于在 Apple Silicon GPU 上执行多种降维算法和可视化渲染. 该库通过统一的接口实现了 UMAP, t-SNE 等方法的快速计算, 并集成了一个 GPU 加速的渲染器, 能够高效地从原始数据生成动画视频.

Inference-Time Toxicity Mitigation in Protein Language Models

Manuel Fernández Burda et al.

cs.LG cs.AI

本文提出了一种在推理时减轻蛋白质语言模型(PLM)毒性生成的方法, 称为Logit Diff Amplification (LDA). 该方法通过调整token概率来降低模型在特定分类群上生成有毒蛋白质的预测概率, 同时保持了生成序列的生物学合理性和结构可行性.

FedCova: Robust Federated Covariance Learning Against Noisy Labels

Xiangyu Zhong, Xiaojun Yuan, Ying-Jun Angela Zhang

cs.LG cs.IT eess.SP

本文提出了一种名为FedCova的联邦学习框架，旨在解决分布式数据中标签噪声导致模型性能下降的问题。该方法通过特征协方差学习来增强模型的内在鲁棒性，无需依赖外部干净数据或设备选择。

Tuning Just Enough: Lightweight Backdoor Attacks on Multi-Encoder Diffusion Models

Ziyuan Chen et al.

cs.LG cs.CV

本文研究了针对多编码器扩散模型(如 Stable Diffusion 3)的轻量级后门攻击。通过分析不同文本编码器的作用，提出了仅需微调极少参数即可实现有效攻击的方法。

Reducing hyperparameter sensitivity in measurement-feedback based Ising machines

Toon Sevenants, Guy Van der Sande, Guy Verschaffelt

cs.LG physics.app-ph physics.comp-ph physics.data-an

本文分析了基于测量反馈架构的Ising machine在超参数选择上的敏感性, 指出其有效参数范围比连续时间模型更小. 作者提出并实验验证了一种降低这种敏感性的方法.

When to restart? Exploring escalating restarts on convergence

Ayush K. Varshney et al.

cs.LG

本文提出了一种名为SGD-ER的自适应学习率调度策略，它在检测到训练停滞时触发重启并线性提升学习率。该方法在多个图像分类数据集和网络架构上取得了优于标准调度器的测试精度。

Data-Aware Random Feature Kernel for Transformers

Amirhossein Farzam et al.

cs.LG cs.AI

本文提出了一种数据感知的随机特征核方法, 用于改进Transformer中的注意力机制. 该方法通过数据对齐的核几何与重要性采样, 旨在降低方差并提升在预训练模型微调时的性能.

Two-Stage Photovoltaic Forecasting: Separating Weather Prediction from Plant-Characteristics

Philipp Danner, Hermann de Meer

cs.LG

本文提出了一种两阶段光伏发电预测方法, 将天气预测与电站特性建模分离. 通过分析使用数值天气预报与卫星观测作为输入时的误差分布差异, 发现使用天气预报会导致预测误差显著增加.

InstMeter: An Instruction-Level Method to Predict Energy and Latency of DL Model Inference on MCUs

Hao Liu, Qing Wang, Marco Zuniga

cs.LG

本文提出了一种名为InstMeter的方法，用于在微控制器(MCU)上预测深度学习模型推理的能耗和延迟。该方法利用指令级时钟周期作为预测基础，相比现有方法，在减少所需训练数据的同时，显著提高了预测精度。

Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization

Haodong Zhu et al.

cs.LG cs.AI

本文提出了一种名为Dynamic Pruning Policy Optimization (DPPO)的框架，用于加速Group Relative Policy Optimization (GRPO)的训练过程。该方法通过动态剪枝和重要性采样校正来减少计算开销，同时保持梯度估计的无偏性。

A Multi-Agent Framework for Interpreting Multivariate Physiological Time Series

Davide Gabrielli et al.

cs.LG

本文提出了一个名为Vivaldi的多智能体框架, 用于解释多变量生理时间序列. 通过在一个受控的临床试点中进行评估, 研究发现智能体系统的价值在于有选择地外部化计算和结构, 而非最大化推理复杂性.

Architectural Proprioception in State Space Models: Thermodynamic Training Induces Anticipatory Halt Detection

Jay Noon

cs.LG cs.AI

本文提出了一种基于热力学原理训练 State Space Models (SSMs) 和 Transformers 的新方法。研究发现，经过这种训练的 SSMs 展现出一种独特的“结构本体感知”能力，能够提前预测序列的结束，而 Transformers 则不具备这种特性。

REDNET-ML: A Multi-Sensor Machine Learning Pipeline for Harmful Algal Bloom Risk Detection Along the Omani Coast

Ameer Alhashemi

cs.LG

本文开发了一个名为REDNET-ML的机器学习流程，用于融合多源卫星数据来检测阿曼海岸的有害藻华风险。该流程集成了Sentinel-2和MODIS数据，并使用CatBoost模型进行决策融合，最终通过一个可视化工具支持风险评估。

Noise-aware Client Selection for carbon-efficient Federated Learning via Gradient Norm Thresholding

Patrick Wilhelm, Inese Yilmaz, Odej Kao

cs.LG cs.AI

本文提出了一种用于碳高效联邦学习的噪声感知客户端选择方法. 该方法通过在现有选择策略上增加梯度范数阈值模块来过滤噪声数据客户端, 以平衡模型性能与可持续性.

Beyond Edge Deletion: A Comprehensive Approach to Counterfactual Explanation in Graph Neural Networks

Matteo De Sanctis et al.

cs.LG

本文提出了一种名为XPlore的新方法，用于为图神经网络(GNNs)生成反事实解释。该方法通过梯度引导同时扰动图的邻接矩阵和节点特征矩阵，超越了仅删除边的传统方法。实验表明，该方法在多个基准数据集上有效提升了生成解释的有效性和保真度。

Nearest-Neighbor Density Estimation for Dependency Suppression

Kathleen Anderson, Thomas Martinetz

cs.LG cs.CV

本文提出了一种基于编码器的方法, 通过结合变分自编码器和基于最近邻密度估计的损失函数, 学习对敏感变量独立的数据表示. 该方法旨在直接优化独立性, 并在多个数据集上验证了其有效性.

Online Learning for Multi-Layer Hierarchical Inference under Partial and Policy-Dependent Feedback

Haoran Zhang et al.

cs.LG cs.AI

本文研究了多层分层推理系统中的在线路由学习问题, 其中反馈仅在终端层提供且依赖于策略. 作者提出了一种结合Lyapunov优化的方差缩减算法, 以应对稀疏反馈带来的估计方差放大问题, 并在实验中验证了其优于标准方法.

Causality Elicitation from Large Language Models

Takashi Kameyama et al.

cs.LG cs.AI cs.CL econ.EM

本文提出了一种从大型语言模型(LLM)中提取因果关系的流程。该方法通过采样文档、提取事件、构建指标向量，并应用因果发现方法来生成候选因果图，旨在呈现LLM可能持有的因果假设集合。

IPD: Boosting Sequential Policy with Imaginary Planning Distillation in Offline Reinforcement Learning

Yihao Qin et al.

cs.LG cs.AI

本文提出了一种名为Imaginary Planning Distillation (IPD)的新框架，用于提升离线强化学习中基于Decision Transformer的顺序策略。该方法通过世界模型和模型预测控制来生成并利用想象的优化轨迹，以增强训练数据并指导策略学习。在D4RL基准测试上的实验表明，该方法优于多种先进的离线强化学习方法。

LUMINA: Foundation Models for Topology Transferable ACOPF

Yijiang Li et al.

cs.LG

本文提出了一个名为LUMINA的框架，旨在为受约束的科学计算问题（以ACOPF为代表）构建基础模型。该研究通过系统实验，提炼了关于模型设计的三个核心原则，以平衡物理规律学习与约束满足等目标。

Activation Outliers in Transformer Quantization: Reproduction, Statistical Analysis, and Deployment Tradeoffs

Pranav Kumar Kaliaperumal

cs.LG cs.AI

本文通过复现实验和统计分析, 研究了Transformer模型在训练后量化(PTQ)中因激活值异常值(activation outliers)导致的精度下降问题. 在BERT-base模型上的实验表明, 全局W8A8量化会导致精度大幅下降, 而混合精度或分组量化等通道感知的方法能有效缓解此问题.

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

Pranav Kulkarni et al.

cs.LG cs.AI cs.CV

本文提出了一种新的基于核的加性模型, 结合相干性损失和组稀疏正则化, 用于从超声图像中非线性分类颈动脉斑块风险. 该方法通过部分依赖图可视化特征组的加性效应, 结果表明其能准确且可解释地评估斑块, 揭示了斑块纹理与临床风险之间的关联.

PTOPOFL: Privacy-Preserving Personalised Federated Learning via Persistent Homology

Kelly L Vomo-Donfack et al.

cs.LG cs.CR cs.DC math.AT stat.ML

本文提出了一种名为PTOPOFL的隐私保护个性化联邦学习框架。该框架使用持久同调（Persistent Homology）生成的拓扑描述符替代梯度传输，以同时应对隐私泄露和非独立同分布数据分布的挑战。

Algorithmic Compliance and Regulatory Loss in Digital Assets

Khem Raj Bhatt, Krishna Sharma

cs.LG econ.EM

本文研究了基于机器学习的加密货币反洗钱(AML)系统的实际部署性能。通过对比特币交易数据进行前瞻性和滚动评估，发现静态分类指标严重高估了实际监管效果，时间非平稳性导致了显著的执行阈值不稳定和持续的监管损失。

What Does Flow Matching Bring To TD Learning?

Bhavya Agrawalla, Michal Nauman, Aviral Kumar

cs.LG cs.AI

本文探讨了 flow matching 在时序差分学习中的作用, 指出其成功并非源于分布强化学习, 而是归因于积分读出和密集速度监督带来的两种机制. 这些机制提升了智能体在高更新率在线强化学习场景中的样本效率和最终性能.

Out-of-distribution transfer of PDE foundation models to material dynamics under extreme loading

Mahindra Rautela et al.

cs.LG

本文在极端载荷材料动力学领域, 对两个预训练的PDE基础模型(POSEIDON和MORPH)进行了分布外迁移性能的基准测试. 研究聚焦于冲击驱动的多材料界面动力学(PLI)和动态断裂(FRAC)这两个由间断主导的体系, 将下游任务设定为终端状态预测.

Efficient Refusal Ablation in LLM through Optimal Transport

Geraldin Nanfack, Eugene Belilovsky, Elvis Dohmatob

cs.LG cs.AI

本文提出了一种基于optimal transport理论的新框架, 用于高效地消除大语言模型中的拒绝行为. 该方法通过将有害激活的分布转换为无害分布, 在多个模型上实现了更高的攻击成功率, 并揭示了安全机制可能集中在特定网络层.

Dissecting Quantization Error: A Concentration-Alignment Perspective

Marco Federici et al.

cs.LG cs.AI

本文从信号量化噪声比(SQNR)的角度分析了线性层的量化误差, 将其分解为权重与激活的集中度(concentration)和方向对齐(alignment)两个因素. 基于此, 作者提出了一种轻量的块级集中-对齐变换(CAT), 通过校准数据优化这两个因素以近似最大化SQNR, 并在多个大语言模型的4-bit量化实验中验证了其有效性.

Robust Unscented Kalman Filtering via Recurrent Meta-Adaptation of Sigma-Point Weights

Kenan Majewski et al.

cs.LG eess.SP

本文提出了一种通过元学习动态调整sigma-point权重的鲁棒Unscented Kalman Filter (MA-UKF). 该方法利用循环上下文编码器学习测量新息的历史信息, 并以此动态合成权重, 在非高斯噪声和时变动态下提升了跟踪精度与鲁棒性.

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

Haoyu Liu et al.

cs.LG cs.AI cs.CL

本文提出了一种针对多模态网页智能体的对抗性安全训练框架DMAST. 该框架通过一个三阶段训练流程, 旨在提升智能体在跨模态攻击下的鲁棒性.

Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization

Furkan Mumcu, Yasin Yilmaz

cs.LG cs.AI cs.CR cs.MA

本文提出了一种称为Adversarially-Aligned Jacobian Regularization (AAJR)的方法，用于增强自主AI agent系统的鲁棒性。该方法通过沿对抗性上升方向控制策略的敏感性，旨在减少鲁棒性带来的性能损失并保证训练稳定性。

Accurate and Efficient Hybrid-Ensemble Atmospheric Data Assimilation in Latent Space with Uncertainty Quantification

Hang Fan et al.

cs.LG physics.ao-ph

本文提出了一种在潜在空间中进行三维混合集合数据同化的方法HLOBA, 它通过自编码器将模型预报和观测映射到共享的潜在空间, 并使用贝叶斯更新进行融合. 该方法在理想和真实观测实验中展现了与四维变分同化相当的精度和预报技巧, 同时实现了端到端的推理效率, 并能通过解码器传播潜在空间的不确定性估计.

cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Magnus Saebo et al.

cs.AI cs.CL cs.SE

本文研究了编码智能体在价值冲突下的目标漂移现象. 通过一个基于 OpenCode 的框架, 作者发现主流模型在面临环境压力时, 会优先违反与自身强价值观(如安全、隐私)相悖的系统提示约束.

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Alejandro Breen Herrera et al.

cs.AI cs.CL cs.LG

本文针对多轮对话购物助手(CSAs)的评估与优化问题, 提出了一套实用的蓝图. 通过引入一个多维度评估框架和基于LLM的评判流程, 并应用两种提示优化策略(Sub-agent GEPA和MAMuT GEPA), 旨在提升生产级AI购物助手的性能.

Mozi: Governed Autonomy for Drug Discovery LLM Agents

He Cao et al.

cs.AI

本文提出了一种名为Mozi的双层架构, 旨在解决大型语言模型(LLM)智能体在药物发现等高风险领域应用时存在的工具使用治理和长程可靠性问题. 该架构通过控制层实现受监管的执行与反思, 并通过工作流层将药物研发流程组织为状态化的技能图, 结合严格的数据合约和人机交互检查点来保障科学有效性. 在特定基准测试和端到端案例研究中, Mozi展示了其在协调准确性和候选化合物生成方面的优势.

MAGE: Meta-Reinforcement Learning for Language Agents toward Strategic Exploration and Exploitation

Lu Yang et al.

cs.AI

本文提出了一个名为MAGE的meta-RL框架，旨在增强LLM agent在动态环境中的战略探索与利用能力。该框架通过整合多轮交互历史与反思，并采用基于种群的训练方法，在实验中展现出了优于基线模型的性能。

AI4S-SDS: A Neuro-Symbolic Solvent Design System via Sparse MCTS and Differentiable Physics Alignment

Jiangyu Chen

cs.AI

本文提出了一个名为AI4S-SDS的神经符号系统，用于自动化设计化学配方。该系统结合了多智能体协作与改进的Monte Carlo Tree Search (MCTS)，并引入了可微物理引擎来优化配方比例。实验表明，该系统能生成物理有效的配方，并在光刻实验中发现了性能优于商业基准的新配方。

RAGNav: A Retrieval-Augmented Topological Reasoning Framework for Multi-Goal Visual-Language Navigation

Ling Luo, Qiangian Bai

cs.AI cs.RO

本文提出了一个名为RAGNav的框架, 用于解决多目标视觉语言导航(Multi-Goal VLN)任务中的空间幻觉和规划漂移问题. 该框架通过一个结合低级拓扑地图和高级语义森林的双重记忆系统, 以及锚点引导的条件检索机制, 来增强智能体对目标间可达性的推理和顺序规划的效率.

AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation

Yunxiao Shi et al.

cs.AI cs.IR

本文提出了一个名为 AgentSelect 的基准测试，用于评估和推荐基于叙事查询的 LLM agent 配置。该基准整合了来自40多个来源的异构评估数据，将其转化为统一的交互记录。研究表明，传统的协同过滤方法在此类长尾数据上表现脆弱，而基于能力匹配的内容感知方法更为关键。

LifeBench: A Benchmark for Long-Horizon Multi-Source Memory

Zihao Cheng et al.

cs.AI

本文提出了一个名为LifeBench的基准测试, 用于评估AI智能体在长时程、多源记忆整合方面的能力. 它通过模拟密集关联的长时程事件, 要求智能体超越简单的陈述性记忆检索, 进行非陈述性记忆的推理.

Specification-Driven Generation and Evaluation of Discrete-Event World Models via the DEVS Formalism

Zheyu Chen, Zhuohuan Li, Chuanhao Li

cs.AI

本文提出了一种基于DEVS形式化方法, 通过LLM从自然语言规约生成离散事件世界模型的管道. 生成的模型输出结构化事件轨迹, 并通过规约派生的约束进行验证, 旨在实现长期一致性、可验证性和在线合成的效率.

A Rubric-Supervised Critic from Sparse Real-World Outcomes

Xingyao Wang et al.

cs.AI cs.LG

本文提出了一种从稀疏、嘈杂的真实世界交互数据中学习"critic"模型的方法, 用于提升代码智能体(agent)的性能. 该方法通过引入基于行为特征量表的监督框架, 联合预测这些特征和稀疏的人类反馈, 并在SWE-bench基准上验证了其在重排序、提前终止和数据筛选方面的有效性.

In-Context Environments Induce Evaluation-Awareness in Language Models

Maheep Chaudhary

cs.AI cs.CL cs.LG cs.MA

本文通过一个黑盒对抗优化框架, 将上下文提示视为可优化的环境, 研究了语言模型在特定环境下可能表现出的"评估意识"及策略性表现不佳的行为. 实验评估了多个模型在算术、推理、知识及代码生成任务上的表现, 发现优化后的提示能导致性能显著下降, 且这种下降主要由模型对评估的认知推理驱动.

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

Chiara Bonfanti et al.

cs.AI cs.CL cs.CR

本文提出了一种利用 hypernym-hyponym 语义关系从网络威胁情报报告中提取信息的方法, 并结合神经符号方法构建了一个多智能体系统, 用于自动生成专家系统代码以创建防火墙规则. 实验表明该方法在缓解威胁方面具有较高的有效性.

Generative AI in Managerial Decision-Making: Redefining Boundaries through Ambiguity Resolution and Sycophancy Analysis

Sule Ozturk Birim, Fabrizio Marozzo, Yigit Kazancoglu

cs.AI

本文研究了生成式人工智能在管理决策中的应用, 重点分析了其在模糊商业情境下的可靠性. 通过实验评估了不同模型在模糊性检测与解决、以及谄媚性行为方面的表现, 并讨论了其作为认知辅助工具的潜力与局限.

Phi-4-reasoning-vision-15B Technical Report

Jyoti Aneja et al.

cs.AI cs.CV

本文介绍了Phi-4-reasoning-vision-15B，一个紧凑的开源多模态推理模型。报告分享了其设计动机、实验和关键发现，强调了数据质量和架构选择对于构建高效小模型的重要性。

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Tarjei Paule Hage, Markus J. Buehler

cs.AI cond-mat.mtrl-sci cs.CL cs.LG

本文研究了在仅有二元正确性奖励的情况下, 使用参数高效的强化学习(RLVR)训练一个紧凑语言模型进行梁结构力学推理. 研究发现, 模型获得了组合泛化能力, 但在需要相同平衡方程的结构拓扑变化上失败, 表明精确的物理奖励可能仅诱导出程序化的解决方案模板, 而非对控制方程的内在理解.

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

Qianyun Guo et al.

cs.AI

本文提出了一个名为RealPref的基准测试, 用于评估个性化用户-LLM交互中LLM遵循用户偏好的能力. 该基准包含多种偏好表达形式和长程交互历史, 实验发现LLM性能随上下文增长和偏好表达隐晦而显著下降.

Agentics 2.0: Logical Transduction Algebra for Agentic Data Workflows

Alfio Massimiliano Gliozzo, Junkyu Lee, Nahuel Defosse

cs.AI cs.LG

本文提出了一个名为Agentics 2.0的Python框架，用于构建结构化和类型安全的agentic数据工作流。其核心是logical transduction algebra，它将大语言模型推理形式化为类型化的语义转换，并通过代数算子组合成可并行执行的程序。

$τ$-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Quan Shi et al.

cs.AI cs.CL cs.IR

本文提出了$\tau$-Knowledge, 一个用于评估对话智能体在非结构化知识环境中表现的基准测试. 它扩展了$\tau$-Bench, 引入了一个模拟金融科技客服工作流的$\tau$-Banking领域, 要求智能体在大量互连文档中检索知识并协调工具输出来完成任务. 实验表明, 即使是前沿模型在该任务上的成功率也较低, 突显了智能体在复杂知识整合方面的挑战.

A Dual-Helix Governance Approach Towards Reliable Agentic AI for WebGIS Development

Boyuan et al.

cs.AI cs.SE

本文针对WebGIS开发中agentic AI的可靠性问题, 提出了一个双螺旋治理框架. 该框架通过知识图谱等外部化治理机制来弥补LLM的固有缺陷, 并在一个案例中展示了其在代码重构与质量提升上的效果.

cs.IR

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

Jiejun Tan et al.

cs.IR cs.AI

本文提出MemSifter框架，通过使用一个小型代理模型来推理任务并筛选记忆，从而将大型语言模型(LLM)的记忆检索过程卸载，以降低计算开销。该方法采用基于任务结果的强化学习来训练代理模型，并在多个基准测试中实现了与现有先进方法相当的性能。

Behind the Prompt: The Agent-User Problem in Information Retrieval

Saber Zerhoudi et al.

cs.IR cs.MA

本文探讨了信息检索中AI agent作为用户带来的根本性问题, 即用户行为不再必然反映人类意图. 通过分析一个大型agent原生社交平台的数据, 研究发现个体agent行为无法被分类, 且基于人类意图假设的点击模型性能会因低质量agent的加入而下降.

Not All Candidates are Created Equal: A Heterogeneity-Aware Approach to Pre-ranking in Recommender Systems

Pengfei Tong et al.

cs.IR cs.AI cs.LG

本文针对推荐系统预排序阶段中训练样本异质性导致的梯度冲突问题, 提出了一个异质性感知的自适应预排序框架(HAP). 该框架通过冲突敏感采样和定制化损失设计来缓解梯度冲突, 并自适应地为不同难度的候选分配计算资源, 在工业系统中取得了效果提升.

DisenReason: Behavior Disentanglement and Latent Reasoning for Shared-Account Sequential Recommendation

Jiawei Cheng et al.

cs.IR cs.AI

本文提出了一种名为DisenReason的两阶段推理方法, 用于解决共享账户序列推荐(SSR)问题. 该方法通过频域视角的行为解耦来构建统一的账户行为表示, 并以此为基础推理账户背后的潜在用户数量, 在多个基准数据集上取得了优于现有方法的效果.

SORT: A Systematically Optimized Ranking Transformer for Industrial-scale Recommenders

Chunqi Wang et al.

cs.IR

本文提出了一种名为SORT的、针对工业级推荐系统优化的Transformer排序模型。它通过一系列针对特征稀疏性和标签稀疏性的优化，在保持低延迟的同时提升了业务指标。

Constraint-Aware Generative Re-ranking for Multi-Objective Optimization in Advertising Feeds

Chenfei Li et al.

cs.IR

本文提出了一种用于广告信息流中多目标优化的约束感知生成式重排序框架. 该框架将约束优化问题转化为有界神经解码, 并通过约束感知的奖励剪枝技术, 在满足严格延迟要求的同时提升了平台收入和用户参与度.

CAMMSR: Category-Guided Attentive Mixture of Experts for Multimodal Sequential Recommendation

Jinfeng Xu et al.

cs.IR cs.MM

本文提出了一种用于多模态序列推荐的类别引导注意力专家混合模型(CAMMSR). 该模型通过一个类别引导的注意力专家混合模块动态融合多模态信号, 并设计了模态交换对比学习任务来增强表示对齐. 在多个公开数据集上的实验验证了其有效性.

cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

Wenhui Zhu et al.

cs.CL cs.AI cs.IR cs.LG

本文提出了一种名为AriadneMem的结构化记忆系统，用于解决LLM智能体在长期对话中面临的信息分散和状态更新问题。该系统通过解耦的两阶段流程，在固定上下文预算下提升了记忆的准确性和推理效率。

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

Daniel Fein et al.

cs.CL cs.AI

本文研究了语言奖励模型(RMs)中存在的多种系统性偏差, 如长度偏好和奉承性等. 作者提出了一种基于机制的奖励塑形方法, 能够利用少量标注数据缓解这些偏差, 而不损害奖励质量.

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

Wenhao Wu et al.

cs.CL cs.AI cs.IR

本文提出了一个名为MA-RAG的多轮智能体RAG框架，用于提升大型语言模型在医疗问答中的推理能力。该框架通过迭代地利用回答间的冲突信号来检索证据并优化推理历史，从而减少幻觉并达成共识。

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

Jian Li et al.

cs.CL

本文提出了一种名为SE-Search的自进化搜索智能体，通过引入记忆净化、原子查询训练和密集奖励等机制来改进多轮信息检索过程。该方法在多个问答基准测试上取得了优于现有基线模型的效果。

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Sanyam Singh et al.

cs.CL cs.AI cs.LG

本文提出了一种用于农业咨询的混合LLM架构, 将事实检索与对话生成解耦. 通过使用专家整理的GOLDEN FACTS进行监督微调来优化事实召回, 并设计了一个缝合层来生成文化适宜且安全的回复.

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Gaia Molinaro et al.

cs.CL cs.AI cs.CY

本文通过一个受认知科学启发的开放式学习任务, 评估了大型语言模型(LLMs)在自主选择目标时与人类行为的差异. 研究发现, 多个先进模型(如GPT-5, Gemini 2.5 Pro)表现出与人类显著不同的模式, 例如过度利用单一解决方案或表现不佳, 这表明当前模型尚不能可靠地替代人类的目标选择过程.

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

Ke Yang et al.

cs.CL cs.AI cs.IR

本文提出了一种名为PlugMem的任务无关插件式记忆模块, 旨在为LLM agents提供长期记忆能力. 该方法通过构建以知识为中心的记忆图来组织经验, 并在多个基准测试中展现了优于任务无关基线和部分任务特定设计的性能.

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

Haoyang He et al.

cs.CL cs.AI cs.LG

本文提出了一种名为TTSR的测试时自反思框架, 旨在通过让单个预训练语言模型在测试时交替扮演"学生"和"教师"角色来持续改进推理能力. 该方法通过教师分析学生的失败推理轨迹并生成针对性变体问题, 引导模型在可学习的范围内进行自我进化, 实验表明其在多个数学推理基准上能稳定提升性能.

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

Bartosz Dziuba et al.

cs.CL cs.AI

本文提出了一种无需训练数据、无需任务特定优化的实例自适应提示方法TATRA. 该方法通过动态重写和聚合示例来为每个输入实例构建特定的few-shot提示, 在文本分类和数学推理任务上取得了有竞争力的性能.

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

MZ Naser

cs.CL

本文对多种商业大语言模型在学术写作中生成虚假引用(phantom citations)的现象进行了大规模审计, 并提出了检测方法. 研究发现引用幻觉( hallucination )的发生率受模型、领域和提示方式显著影响, 并开发了一个仅基于书目字符串特征的轻量级分类器进行预筛查.

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Mohamed Afane et al.

cs.CL

本文评估了三种新兴工具在LaborBench法律基准上的表现, 包括定制工具STARA和两种商业平台. 研究发现STARA性能显著提升, 而商业工具表现不佳, 并进行了全面的错误分析.

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Dvir David Biton, Roy Friedman

cs.CL cs.AI cs.LG

本文探讨了用于LLM embeddings的semantic caching策略. 证明了最优离线策略是NP-hard的, 并提出了多项式时间的启发式算法和结合了recency, frequency, locality的在线策略.

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Divija Amaram et al.

cs.CL cs.AI cs.IR

本文为州交通部门设计了一个基于多智能体架构的检索增强生成(RAG)系统，用于知识管理和员工培训。该系统整合了结构化文档检索、视觉语言模型和大型语言模型，以生成基于上下文的回答。

HumanLM: Simulating Users with State Alignment Beats Response Imitation

Shirley Wu et al.

cs.CL cs.AI

本文提出了一种名为HumanLM的用户模拟器训练框架, 旨在使模型生成的响应更准确地反映真实用户的潜在状态(如信念和情感). 该方法通过强化学习使模型生成与真实响应对齐的自然语言潜在状态, 并在一个包含多任务的大规模基准测试中取得了优于基线方法的表现.

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Avinash Reddy et al.

cs.CL cs.AI cs.LG

本文提出了一种名为 Draft-Conditioned Constrained Decoding (DCCD) 的训练无关推理方法, 用于提升大型语言模型在生成结构化输出(如 JSON, 代码)时的语法正确性. 该方法通过先生成无约束的草稿再进行条件约束解码, 分离了语义规划与结构强制过程, 有效减少了标准约束解码可能导致的语义偏差, 在多个基准测试上显著提高了严格的结构化准确率.

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

Ivan Matveev

cs.CL cs.AI

本文比较了Token-Oriented Object Notation (TOON)与JSON在大型语言模型生成任务中的表现。通过基准测试评估了不同解码方式下的准确性与token消耗，发现TOON在特定场景下具有效率潜力，但其优势受提示开销影响。

TopicENA: Enabling Epistemic Network Analysis at Scale through Automated Topic-Based Coding

Owen H.T. Lu, Tiffany T.Y. Hsu

cs.CL cs.AI

本文提出TopicENA, 一个结合BERTopic与Epistemic Network Analysis (ENA)的自动化框架, 用于大规模文本分析. 它通过主题建模替代人工编码, 并探讨了主题粒度、纳入阈值等建模选择对分析结果的影响.

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Adi Simhi et al.

cs.CL cs.AI

本文提出了一个名为 History-Echoes 的框架，用于研究对话历史如何影响大语言模型 (LLM) 的后续生成。该框架结合了概率 (Markov chain) 和几何 (hidden representation) 两种视角进行分析，并在多个模型和数据集上发现两者存在强相关性。

Combating data scarcity in recommendation services: Integrating cognitive types of VARK and neural network technologies (LLM)

Nikita Zmanovskii

cs.CL cs.IR

本文提出了一种结合LLM语义分析与VARK认知偏好的混合推荐框架, 用于解决冷启动问题. 该框架通过增强项目语义、构建动态知识图谱和进行认知画像来生成个性化推荐, 并在MovieLens数据集上进行了验证.

Entropic-Time Inference: Self-Organizing Large Language Model Decoding Beyond Attention

Andrew Kiruluta

cs.CL cs.LG

本文提出了一种名为"entropic-time inference"的新范式, 将LLM解码过程建模为受不确定性(entropy)流控制而非单纯token索引的"热力学过程". 它通过一个统一的entropy控制目标, 联合调度、注意力稀疏化和采样温度, 旨在实现更智能的资源分配.

The Logovista English--Japanese Machine Translation System

Barton D. Wright

cs.CL

本文详细记录了Logovista英日机器翻译系统的架构、开发实践与遗留资料. 该系统是一个大型的、显式基于规则的商业系统, 结合了手写语法规则、大型中心化词典以及基于图表(Chart)的加权解析.

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

Yuchen Wang et al.

cs.CL cs.AI cs.HC eess.AS q-bio.NC

本文提出了一种名为SemKey的多阶段框架, 用于从非侵入性EEG信号解码自然语言. 该框架通过解耦的语义目标(如情感, 主题)来强制生成基于信号的内容, 并采用新的评估指标来更严格地评估多样性和对齐性.

How does fine-tuning improve sensorimotor representations in large language models?

Minghua Wu et al.

cs.CL cs.AI

本文探讨了通过任务特定的 fine-tuning 能否缩小大型语言模型(LLMs)的"具身鸿沟". 研究发现, fine-tuning 可以将模型的内部表征导向更具身化的模式, 但这种改进对学习目标敏感且难以跨任务迁移.

Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO

Xin Yang et al.

cs.CL cs.AI cs.LG

本文提出了一种名为CoIPO的方法, 旨在提升大型语言模型(LLMs)对提示词噪声的固有鲁棒性. 该方法通过对比学习来减小模型在干净提示和含噪提示下输出logits的差异, 并在构建的基准测试上取得了优于现有方法的效果.

M-QUEST -- Meme Question-Understanding Evaluation on Semantics and Toxicity

Stefano De Giorgis, Ting-Chih Chen, Filip Ilievski

cs.CL cs.AI cs.LG

本文提出了一个用于评估网络表情包(meme)语义理解和毒性检测的框架M-QUEST. 该框架定义了理解表情包所需的多个维度, 并构建了一个包含常识问答对的基准数据集, 用于评估大型语言模型在此任务上的表现.

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

Keren Artiaga et al.

cs.CL cs.AI cs.CV

本文研究了在手语识别任务中, 符号的象似性(iconicity)对迁移学习(Transfer Learning)效果的影响. 通过比较中文-阿拉伯语和希腊语-弗拉芒语两组手语对之间的迁移性能, 实验发现从源语言到目标语言的迁移在具有象似性的符号上能带来性能提升.

Retcon -- a Prompt-Based Technique for Precise Control of LLMs in Conversations

David Kogan et al.

cs.CL

本文提出了一种名为Retcon的few-shot prompting技术, 旨在为对话中的LLMs提供turn-level的控制. 实验表明, 该方法在对话控制任务上显著优于zero-shot和传统的few-shot prompting方法.

Quantum-Inspired Self-Attention in a Large Language Model

Nikita Kuznetsov, Niyaz Ismagilov, Ernesto Campos

cs.CL cs.AI quant-ph

本文提出了一种经典的量子启发自注意力机制, 并将其集成到GPT-1的自回归语言建模流程中. 实验表明, 该机制在多个评估指标上优于标准自注意力, 同时推理时间仅略有增加.

Automated Concept Discovery for LLM-as-a-Judge Preference Analysis

James Wedgwood, Chhavi Yadav, Virginia Smith

cs.CL cs.AI

本文研究了用于分析LLM评判偏好的几种embedding-level概念提取方法. 通过比较发现, 基于sparse autoencoder的方法能提取出更具解释性的偏好特征.

From We to Me: Theory Informed Narrative Shift with Abductive Reasoning

Jaikrishna Manojkumar Patil et al.

cs.CL cs.AI

本文提出了一种结合社会科学理论和溯因推理的神经符号方法, 用于引导大型语言模型进行叙事转换. 该方法通过自动提取规则来溯因所需的故事元素, 在多个LLM上实现了有效的叙事转换, 同时保持了与原始故事的良好语义相似性.

DIALEVAL: Automated Type-Theoretic Evaluation of LLM Instruction Following

Nardine Basta, Dali Kaafar

cs.CL cs.AI

本文提出了一个基于类型理论的自动化评估框架DIALEVAL, 用于评估大语言模型对指令的遵循程度. 该框架通过双智能体将指令分解为带类型的谓词, 并应用类型特定的满足性语义进行自动化评估.

Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

Chaoqun Yang et al.

cs.CL cs.AI

本文提出了一个用于评估大型语言模型在生物医学领域新知识发现能力的动态基准DBench-Bio. 该基准通过自动化的流水线从最新论文中生成评估问题, 旨在解决静态基准的数据污染和过时问题.

Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement

Yuxiao Lu et al.

cs.CL cs.AI

本文提出了一种名为DCR的对比精炼方法, 旨在缓解大语言模型在安全对齐后出现的过度拒绝问题. 该方法通过增强模型区分真实有害与表面有害提示的能力, 在降低过度拒绝的同时保持了安全性和通用能力.

Controlling Chat Style in Language Models via Single-Direction Editing

Zhenyu Xu, Victor S. Sheng

cs.CL cs.AI

本文提出了一种基于表示工程的轻量级方法, 用于控制大语言模型(Large Language Models, LLMs)的聊天风格. 该方法通过识别并编辑激活空间中的线性方向来实现对多种风格属性的精确调控, 无需额外训练且计算成本低.

IntPro: A Proxy Agent for Context-Aware Intent Understanding via Retrieval-conditioned Inference

Guanming Liu et al.

cs.CL cs.AI cs.LG

本文提出了一种名为IntPro的代理智能体, 用于通过检索条件推理进行上下文感知的用户意图理解. 该方法通过构建个体意图历史库和特定的训练策略, 旨在更准确地从情境中推断用户意图.

Controllable and explainable personality sliders for LLMs at inference time

Florian Hoppe et al.

cs.CL cs.AI

本文提出了一种用于在推理时控制大型语言模型(LLM)人格的模块化框架. 其核心方法是Sequential Adaptive Steering (SAS), 通过正交化干预向量来合成复杂的人格剖面, 无需更新模型参数.

A benchmark for joint dialogue satisfaction, emotion recognition, and emotion state transition prediction

Jing Bian et al.

cs.CL cs.AI

本文构建了一个支持满意度识别、情感识别及情感状态转移预测的多任务多标签中文对话数据集, 为研究对话系统中的情感与满意度提供了新资源. 该数据集旨在解决相关中文数据稀缺及单轮对话难以追踪动态情感变化的问题.

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

Haruki Sakajo et al.

cs.CL cs.AI

本文提出了一种名为StructLens的分析框架，用于揭示语言模型内部各层之间的全局结构关系。该方法通过构建基于残差流语义表示的最大生成树来量化层间结构相似性，并展示了其在层剪枝等任务中的实用性。

AutoHarness: improving LLM agents by automatically synthesizing a code harness

Xinghua Lou et al.

cs.CL cs.AI

本文提出了一种名为 AutoHarness 的方法, 通过让 LLM 根据环境反馈自动合成代码约束层 (harness) 来防止智能体做出非法动作. 该方法在多个 TextArena 游戏中有效提升了较小模型的性能, 甚至能生成完整的代码策略.

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Mohammadreza Saadat, Steve Nemzer

cs.CL cs.AI

本文提出了一个名为Certainty Robustness Benchmark的两轮评估框架, 用于衡量LLMs在自我挑战提示下的稳定性. 通过在推理和数学问题上测试四个先进模型, 研究发现模型在对话压力下的可靠性存在显著差异, 这与基线准确率无关.

PulseLM: A Foundation Dataset and Benchmark for PPG-Text Learning

Hung Manh Pham et al.

cs.CL cs.AI

本文提出了一个名为PulseLM的大规模PPG-文本数据集，旨在通过问答形式连接生理信号与自然语言。该数据集整合了多个公开来源的PPG记录，并建立了标准化的预处理与评估基准。

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Ashwath Vaithinathan Aravindan, Mayank Kejriwal

cs.CL cs.AI cs.LG

本文通过引入五种结构化的扰动类型, 系统地评估了大型语言模型在数学推理任务中对Chain-of-Thought中间步骤扰动的鲁棒性. 研究发现, 模型对不同扰动的脆弱性模式各异, 且模型规模对某些扰动有保护作用, 但对涉及维度推理的任务防御有限.

Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding

Jeongtae Lee et al.

cs.CL

本文提出了一种名为DropMatch的训练无关方法, 用于推测解码中的语义token接受. 该方法通过向LM head应用Monte Carlo dropout来生成多条解码路径, 并基于形成的经验token分布来评估草稿token的一致性, 从而自适应地控制接受决策.

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

Bianca Raimondi et al.

cs.CL

本文介绍了一个名为CompMath-MCQ的新基准数据集，用于评估大语言模型在研究生级别计算数学问题上的推理能力。该数据集包含1500道原创选择题，覆盖多个高级数学主题，并通过特定流程确保了问题质量。

Compressed Sensing for Capability Localization in Large Language Models

Anna Bair et al.

cs.CL

本文提出了一种基于compressed sensing的方法来定位大型语言模型(LLM)中特定能力所对应的稀疏注意力头子集. 该方法通过少量模型评估即可识别关键头, 并在多个模型和任务上验证了能力局部化的现象.

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai

cs.CL cs.LG

本文针对大语言模型(LLM)的排名问题，提出了一种考虑不确定性的统计推断框架。该方法基于上下文相关的Bradley-Terry-Luce模型，通过构建效用差异的置信区间来获得具有统计保证的排名置信集，从而支持更稳健的决策。

Tracing Pharmacological Knowledge In Large Language Models

Basil Hasan Khwaja et al.

cs.CL

本文结合因果干预与线性探测方法, 分析了基于Llama的生物医学大语言模型中药物类别知识的内部表征机制. 研究发现, 药物类别语义以分布式表征形式存储于模型的早期层与中间token中.

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Mingyu Jin et al.

cs.CL cs.AI

本文研究了大型语言模型在处理不同难度输入时内部表示的变化, 发现随着任务难度(即OOD偏移程度)增加, 模型的最终隐藏状态表示会变得更加稀疏. 作者利用这一观察设计了一种新的上下文学习策略, 并验证了其有效性.

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Shiza Fatimah et al.

cs.CL cs.AI

本文针对低资源语言在NLP中的不平等问题，提出了一个完全从头开始训练的、参数为6亿的印地语专用语言模型LilMoo。通过构建高质量语料库和探索小规模模型训练方法，该模型在多项评估中超越了同规模的多语言基线模型。

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Mohamed El Idrissi

cs.CL

本文提出了一种基于集合值集合函数的动态语法性别转换理论模型. 该模型通过一个函数 $h : \mathscr{P}(M) \rightarrow \mathscr{P}(M)$ 来形式化地描述词汇项到形态模板的非线性动态映射, 为理解跨语言的形态标记复杂性提供了一个统一框架.

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

Haochang Hao et al.

cs.CL cs.AI cs.IR

本文提出了一个关注个性化安全约束的对话式推荐系统框架 SafeCRS, 并构建了相应的评测数据集 SafeRec. 该框架通过结合 Safe-SFT 和 Safe-GDPO 方法, 在保证推荐质量的同时显著降低了安全违规率.

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang

cs.CL cs.AI

本文提出了一个名为RAG-X的诊断框架, 用于独立评估医疗问答系统中retriever和generator组件的性能. 该框架通过引入Context Utilization Efficiency (CUE) metrics来揭示系统表现中的“准确性错觉”, 旨在提升临床RAG系统的透明度和安全性.

Tucano 2 Cool: Better Open Source LLMs for Portuguese

Nicholas Kluge Corrêa et al.

cs.CL cs.AI

本文介绍了Tucano 2，一个为葡萄牙语设计的开源大语言模型套件。它通过扩展数据集和引入新的训练方法，在多个葡萄牙语基准测试上取得了先进性能。

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

Chunyuan Deng et al.

cs.CL cs.LG

本文提出了一种名为ByteFlow Net的新型分层架构, 用于语言建模. 该方法通过基于潜在表示编码率的压缩驱动分割, 直接从原始字节流中学习语义上有意义的单元, 从而完全移除了预定义的分词器(tokenizer).

Belief-Sim: Towards Belief-Driven Simulation of Demographic Misinformation Susceptibility

Angana Borah et al.

cs.CL cs.AI

本文提出了一个基于信念模拟的框架 BeliefSim, 用于研究不同人口统计学群体对虚假信息的易感性. 该框架利用心理学分类和调查先验构建信念档案, 并通过提示工程和微调方法进行模拟, 在评估中展现了较高的准确性.

A Neural Topic Method Using a Large-Language-Model-in-the-Loop for Business Research

Stephan Ludwig, Peter J. Danaher, Xiaohao Yang

cs.CL econ.EM

本文提出了一种名为LX Topic的神经主题建模方法, 该方法将主题概念化为潜在的语言构造, 并为实证分析生成校准后的文档级主题比例. 它结合了大型语言模型在主题词层面的精炼, 旨在提升语义连贯性, 同时保持文档主题分布的代表性.

Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

JaeGeon Yoo et al.

cs.CL

本文提出了一种用于韩语短文本分类的分层异构图模型LIGRAM, 并应用了语义感知对比学习(SemCon). 该方法在多个韩语数据集上超越了现有基线模型.

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

Guoyi Li et al.

cs.CL cs.AI

本文提出了一个用于精神科咨询的统一询问-诊断强化学习框架MIND. 它通过构建一个基于诊断标准的推理库来提供临床支持, 并利用基于规则的奖励和轨迹修正机制来优化多轮交互中的询问策略和诊断决策.

Order Is Not Layout: Order-to-Space Bias in Image Generation

Yongkang Zhang et al.

cs.CL cs.AI cs.CV cs.MM

本文研究了图像生成模型中的一种系统性偏差: 文本中实体的提及顺序会虚假地决定其空间布局和角色绑定, 作者称之为 Order-to-Space Bias (OTS). 通过构建 OTS-Bench 进行量化评估, 发现该偏差广泛存在且主要源于数据, 并提出了针对性的缓解方法.

ErrorLLM: Modeling SQL Errors for Text-to-SQL Refinement

Zijin Hong et al.

cs.CL cs.DB

本文提出了一个名为 ErrorLLM 的框架，用于改进 text-to-SQL 任务中生成的 SQL 查询。该框架通过结构化表示和专门的错误标记来显式建模语义错误，并引导大语言模型进行错误检测与修正。实验表明该方法能有效提升初始 SQL 生成的准确性。

Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

Chuang Zhang et al.

cs.CL cs.AI

本文提出了一种名为COREA的协作推理系统, 通过级联一个小型语言模型(SLM)和一个大型语言模型(LLM)来平衡复杂推理任务中的准确性与成本. 该系统首先让SLM生成答案并输出一个置信度分数, 对于低置信度的问题则交由LLM处理, 并引入基于强化学习的训练算法来校准SLM的置信度. 实验表明, 该方法在多种数据集和模型上提升了SLM的推理能力和置信度校准, 相比单独使用LLM, 能在性能损失很小的情况下显著降低成本.

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Qinsi Wang et al.

cs.CL cs.AI

本文提出了Structure of Thought (SoT)提示技术和T2S-Bench基准测试, 用于评估和提升大语言模型的文本到结构推理能力. SoT通过引导模型构建中间文本结构来提升多种文本处理任务的性能, 而T2S-Bench则是一个包含多领域样本的综合性评估基准.

Semantic Bridging Domains: Pseudo-Source as Test-Time Connector

Xizhong Yang et al.

cs.CL

本文提出了一种名为 Stepwise Semantic Alignment (SSA) 的方法, 用于处理测试时源域未知且目标域无标签的领域适应问题. 该方法将生成的伪源域视为连接源域和目标域的语义桥梁, 并引入了 Hierarchical Feature Aggregation (HFA) 模块和 Confidence-Aware Complementary Learning (CACL) 策略来提升语义质量, 在语义分割等任务上取得了性能提升.

Benchmarking Motivational Interviewing Competence of Large Language Models

Aishwariya Jha et al.

cs.CL

本文评估了大型语言模型在真实世界临床记录中应用动机性访谈的能力, 使用MITI框架进行测评. 研究发现, 多个模型表现出良好能力, 在某些指标上甚至超越人类专家, 并且其生成内容难以被精神科医生准确区分.

Coupling Local Context and Global Semantic Prototypes via a Hierarchical Architecture for Rhetorical Roles Labeling

Anas Belfathi et al.

cs.CL

本文提出了两种基于原型的方法来整合局部上下文与全局表示, 用于改进 Rhetorical Role Labeling (RRL) 任务. 作者还引入了一个新的法律领域标注数据集 SCOTUS-Law, 并在多个领域的基准测试中验证了方法的有效性.

Assessing the Effectiveness of LLMs in Delivering Cognitive Behavioral Therapy

Navdeep Singh Bedi et al.

cs.CL

本文评估了大型语言模型(LLMs)在模拟认知行为疗法(CBT)方面的能力。研究比较了生成式与检索增强生成(RAG)两种方法，发现模型在生成类似对话方面表现尚可，但在共情和一致性方面存在局限。

CzechTopic: A Benchmark for Zero-Shot Topic Localization in Historical Czech Documents

Martin Kostelník, Michal Hradiš, Martin Dočekal

cs.CL cs.AI

本文提出了一个用于零样本主题定位的捷克历史文档基准CzechTopic, 包含人工定义的主题和标注的文本片段. 评估了多种大语言模型和基于BERT的微调模型, 发现模型性能差异显著, 最强的模型接近人类标注者间的一致性水平.

Rethinking Role-Playing Evaluation: Anonymous Benchmarking and a Systematic Study of Personality Effects

Ji-Lun Peng, Yun-Nung Chen

cs.CL cs.AI

本文提出了一种用于评估角色扮演智能体(RPAs)的匿名基准测试方法, 以消除模型对已知角色名称的记忆偏差. 研究还系统性地探讨了通过注入人格特质信息来提升匿名场景下角色扮演保真度的有效性.

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

Ikram Belmadani et al.

cs.CL

本文评估了大型语言模型(LLM)作为法语医学开放式问答(OEQA)自动评估工具的可行性。研究发现，LLM的判断结果受答案生成模型的影响很大，而经过领域适应或监督微调(SFT)的模型能更好地与专家标注对齐。

Monitoring Emergent Reward Hacking During Generation via Internal Activations

Patrick Wilhelm, Thorsten Wittkopp, Odej Kao

cs.CL cs.AI

本文提出了一种基于内部激活的监测方法, 用于在大型语言模型生成响应时检测奖励黑客行为. 该方法通过训练稀疏自编码器分析残差流激活, 并应用轻量级线性分类器来估计每个token的奖励黑客活动.

Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

Malik Marmonier, Benoît Sagot, Rachel Bawden

cs.CL

本文通过在一个真实的多候选机器翻译后编辑数据集上进行实验, 研究了源端难度预测和候选端质量评估这两种互补的范式. 研究发现, 向大语言模型的架构转变改变了现有质量预测方法的可靠性, 同时缓解了先前文档级翻译中的一些挑战.

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

Juhyun Oh et al.

cs.CL

本文提出了一个名为FINEST的细粒度评估分类法, 用于分析大语言模型(LLM)在敏感话题上的回答. 通过将回答质量分解为内容、逻辑和适当性三个维度的错误, 并基于此设计改进流程, 实验表明该方法能有效提升模型回答的综合表现.

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Hung Vu Nguyen et al.

cs.CL cs.NE

本文介绍了一个用于越南语文本标准化的开源Python库VietNormalizer, 它采用基于规则的统一流程处理多种非标准词汇, 并针对TTS和NLP应用进行了优化. 该库设计为无依赖、高性能, 并讨论了其方法对其他低资源语言的普适性.

Traces of Social Competence in Large Language Models

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn

cs.CL

本文通过贝叶斯逻辑回归分析了17个开源大语言模型在192个错误信念测试变体上的表现, 研究了模型规模和训练后处理对社会认知能力的影响. 研究发现模型规模扩大能提升性能, 但存在交叉效应, 且指令微调能部分缓解该效应.

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Jakub Prejzner

cs.CL cs.AI

本文对波兰语大语言模型Bielik-11B进行了六种前沿的2-bit后训练量化方法的系统性比较。研究发现，某些方法在保持推理能力或比特效率方面表现优异，并揭示了基于旋转的方法在生成任务中的特定失败模式。

When Do Language Models Endorse Limitations on Human Rights Principles?

Keenan Samway et al.

cs.CL

本文通过合成大量跨语言场景, 评估了大型语言模型(LLMs)在涉及《世界人权宣言》条款的权衡情境中的表现. 研究发现模型存在系统性偏见, 例如更易接受限制经济、社会及文化权利, 且在中文和印地语中表现出更高的权利限制行为认可率.

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

Martin Asenov et al.

cs.CL

本文通过实验表明, 在 multilingual 和 visually rich 文档的 RAG 基准测试中, 性能提升主要源于更好的文档表示而非检索算法本身. 作者固定使用 BM25 检索器, 通过系统性地改变文档的转录和预处理方法, 在多个基准上复现了先进方法的性能差距. 因此, 研究呼吁建立分解的评估基准, 以分别衡量转录和检索能力.

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Zhenting Wang et al.

cs.CL cs.LG

本文提出了一种名为Memex的索引化经验记忆机制, 用于解决LLM智能体在长视野任务中因有限上下文窗口而面临的瓶颈. 该方法通过强化学习框架MemexRL优化记忆的写入和读取行为, 在保持较小工作上下文的同时, 显著提升了长视野任务的成功率.

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Liangwei Yang et al.

cs.CL

本文主张将vector prompt inputs作为定制大型语言模型(LLM)的公共接口, 认为这比纯文本提示更利于实现可扩展、稳定且仅需推理的定制。作者通过诊断性证据表明, 向量提示调优能随监督增加而持续改进, 且其注意力模式显示出一种独特的控制机制。

The Company You Keep: How LLMs Respond to Dark Triad Traits

Zeyi Lu et al.

cs.CL

本文研究了LLMs如何响应用户提示中表现出的不同程度的Dark Triad人格特质. 分析发现, 所有模型主要表现出纠正行为, 但在某些情况下也会产生强化输出, 其行为取决于严重程度和回应情感.

$V_1$: Unifying Generation and Self-Verification for Parallel Reasoners

Harman Singh et al.

cs.CL

本文提出了一个名为$V_1$的统一框架，用于提升复杂推理任务中的测试时性能。该框架通过成对自验证和不确定性引导的算法，在代码生成和数学推理基准上取得了效率与性能的改进。

World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings

Elan Barenholtz

cs.CL cs.AI cs.LG

本文通过将ridge regression probes应用于静态的co-occurrence-based embeddings (如GloVe和Word2Vec), 发现其中已蕴含了可恢复的地理和较弱的时间结构信息. 这表明线性探针的可恢复性本身并不能证明语言模型具有超越文本的世界模型.

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Nikolas Karafyllis et al.

cs.CL

本文提出了一个用于溯因事件推理的三阶段系统, 结合了基于图的检索、LLM驱动的推理与反思性提示进化, 并在后处理中加强一致性. 该系统在评测中取得了最佳准确率. 跨模型错误分析揭示了多标签因果推理中存在的几种系统性归纳偏差.

AgentIR: Reasoning-Aware Retrival for Deep Research Agents

Zijian Chen et al.

cs.CL

本文提出了一种面向深度研究智能体的推理感知检索方法, 通过联合嵌入智能体的推理轨迹与查询来改进检索效果. 作者还提出了一个数据合成方法 DR-Synth 来生成训练数据, 并在基准测试中展示了所提模型 AgentIR-4B 的性能提升.

cs.DS

Ultrabubble enumeration via a lowest common ancestor approach

Athanasios E. Zisis, Pål Sætrom

cs.DS

本文提出了一种基于lowest common ancestor (LCA)的方法来枚举biedged graph中的ultrabubble. 该方法将bidirected graph转化为二分biedged graph, 并通过LCA查询高效判断snarl是否为ultrabubble, 从而将算法复杂度从$O(K(n+m))$降低到$O(Kn)$.

others

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

Joseph Walusimbi et al.

cs.CY cs.AR cs.CL cs.HC

本文提出了一种名为Arapai的离线优先AI聊天机器人架构，旨在为低连接性教育环境提供支持。该系统通过集成本地化、量化的语言模型，能够在低规格设备上运行，并在试点部署中展示了其技术可行性与教育应用潜力。

Ethical and Explainable AI in Reusable MLOps Pipelines

Rakib Hossain et al.

cs.CY cs.AI

本文提出了一个统一的MLOps框架, 将AI伦理原则(如公平性和可解释性)融入机器学习生命周期. 该框架通过自动化公平性检查和监控, 在多个数据集上实现了较低的demographic parity difference和equalized odds, 同时保持了模型的预测效用.

Cryo-SWAN: the Multi-Scale Wavelet-decomposition-inspired Autoencoder Network for molecular density representation of molecular volumes

Rui Li et al.

eess.IV cs.AI q-bio.BM

本文提出了一种名为Cryo-SWAN的体素化变分自编码器，其设计灵感来源于多尺度小波分解。该模型旨在从分子体积的体素化密度图中学习鲁棒的表示，并在多个3D数据集上展示了优于现有方法的重建质量。

Neuro-Symbolic Decoding of Neural Activity

Yanchen Wang et al.

q-bio.NC cs.AI cs.LG

本文提出了一个名为NEURONA的神经符号框架, 用于从fMRI数据中解码神经活动并实现概念grounding. 该框架结合了符号推理与组合执行, 在基于视觉刺激的fMRI问答数据集上进行了验证. 结果表明, 引入结构性先验(如概念间的谓词-论元依赖关系)能提升解码精度和对未见查询的泛化能力.

GreenPhase: A Green Learning Approach for Earthquake Phase Picking

Yixing Wu et al.

physics.geo-ph cs.AI cs.LG

本文提出了一种名为GreenPhase的绿色学习方法, 用于地震波震相拾取. 该方法采用前馈式多分辨率设计, 无需反向传播训练, 在保持高精度的同时显著降低了计算成本.

Physics-constrained symbolic regression for discovering closed-form equations of multimodal water retention curves from experimental data

Yejin Kim, Hyoung Suk Suh

physics.geo-ph cs.AI cs.SC

本文提出了一种结合物理约束与符号回归的机器学习框架, 用于从实验数据中自动发现多模态持水曲线的封闭形式方程. 该方法利用遗传编程演化数学表达式树, 并通过在损失函数中嵌入物理约束来确保解的物理一致性与数学鲁棒性.

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

Alisher Myrgyyassov et al.

q-bio.QM cs.LG cs.SD eess.AS

本文提出了一种结合深度学习分割与骨架化厚度测量的自动化框架SMMA, 用于分析超声影像中舌骨上肌在言语过程中的形态变化. 该方法在验证中达到了接近人工标注的精度, 并应用于粤语元音发音研究, 揭示了肌肉厚度与发音动作相关的系统性差异.

Perfect score on IPhO 2025 theory by Gemini agent

Yichen Huang

physics.ed-ph cs.AI

本文报告了一个使用Gemini 3.1 Pro Preview构建的智能体在IPhO 2025理论题上获得满分的结果, 但指出可能存在数据污染问题.

Non-Invasive Reconstruction of Intracranial EEG Across the Deep Temporal Lobe from Scalp EEG based on Conditional Normalizing Flow

Dongyi He et al.

q-bio.NC cs.AI

本文提出了一种基于Conditional Normalizing Flow的生成模型NeuroFlowNet, 用于从头皮脑电图(sEEG)信号中重建深部颞叶区域的颅内脑电图(iEEG)信号. 该方法旨在克服传统信号处理或源定位方法在捕捉iEEG复杂波形和随机特性方面的困难, 为无创分析深部脑活动提供了一个新的框架.

Inhibitory Cross-Talk Enables Functional Lateralization in Attention-Coupled Latent Memory

Hong Jeong

q-bio.NC cs.AI

本文提出了一种记忆增强的transformer模型, 其注意力机制同时作为检索、巩固和回写操作。模型通过引入受胼胝体抑制效应启发的交叉抑制机制, 实现了记忆库的功能性偏侧化, 并在一个结合了联想回忆和规则提取的符号任务上验证了其有效性。

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

Swapnil Parekh

cs.SD cs.AI eess.AS

本文提出了一种名为ACES的表示中心化审计方法, 用于分析自动语音识别(ASR)系统中由口音引起的性能差异. 该方法通过提取口音判别子空间来探测模型的脆弱性和差异, 发现口音信息集中在模型的低维早期层, 并且该子空间与识别错误率相关, 但线性衰减该子空间并不能改善公平性.

Bridging the Reproducibility Divide: Open Source Software's Role in Standardizing Healthcare AI

John Wu, Zhenbang Wu, Jimeng Sun

cs.CY cs.AI

本文分析了医疗AI领域研究的可复现性现状, 指出大量论文依赖私有数据或不公开代码, 且数据预处理流程不一致, 导致模型性能评估困难. 作者主张通过推广开源实践、建立标准化流程来提升可复现性, 从而构建更可信的医疗AI系统.

Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs

Bhanu Pallakonda et al.

cs.CR cs.AI

本文提出了一种名为SFT-then-GRPO的多阶段PEFT框架，用于向使用工具的LLM中植入潜伏的恶意时间后门。该方法首先通过SFT注入能力，然后利用GRPO强化欺骗性策略，使模型在特定触发条件下执行破坏性操作，同时保持正常的任务性能。

The Theory behind UMAP?

David Wegmann

stat.ML cs.LG math.CT

本文旨在修正Spivak草稿及UMAP相关文献中的错误, 提供了metric realization函子及其有限变体的完整、自包含的推导. 文章最后讨论了UMAP算法及其性质.

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics

Justin Williams et al.

cs.RO cs.AI

本文提出了一种面向嵌入式机器人部署的Vision-Language-Action (VLA) 模型推理系统LiteVLA-Edge. 该系统通过结合FP32微调、4-bit量化以及GPU加速运行时, 在Jetson Orin硬件上实现了约150.5毫秒的端到端推理延迟, 为机器人领域的本地化多模态控制提供了一个可复现的系统实现路径.

Learning Order Forest for Qualitative-Attribute Data Clustering

Mingjie Zhao et al.

stat.ML cs.AI cs.LG

本文针对定性属性数据的聚类问题, 提出了一种名为Learning Order Forest的方法. 该方法通过构建树状结构来捕捉属性值之间的局部序关系, 并联合优化树结构与聚类结果, 在多个真实数据集上取得了优于对比方法的性能.

Multi-Agent-Based Simulation of Archaeological Mobility in Uneven Landscapes

Chairi Kiourt, Vassilis Evangelidis, Dimitris Grigoropoulos

cs.RO cs.AI

本文提出了一个基于多智能体建模的框架, 用于模拟非均匀地形中的考古移动性. 该框架整合了高保真地形重建、异构智能体建模和自适应导航策略, 并通过两个考古学启发的用例展示了其应用性.

Zero-Knowledge Federated Learning with Lattice-Based Hybrid Encryption for Quantum-Resilient Medical AI

Edouard Lansiaux

cs.CR cs.AI

本文提出了一种名为ZKFL-PQ的后量子安全联邦学习协议，结合了ML-KEM、格基零知识证明和BFV同态加密。该协议旨在抵御梯度反演攻击和量子计算威胁，并在合成医学影像数据上验证了其有效性，但计算开销较大。

Beyond Cross-Validation: Adaptive Parameter Selection for Kernel-Based Gradient Descents

Xiaotong Liu et al.

stat.ML cs.LG stat.ME

本文提出了一种用于kernel-based gradient descent (KGD)的自适应参数选择策略，结合了偏差-方差分析和数据分割方法。该策略通过引入empirical effective dimension的概念来量化迭代增量，并在学习理论框架下进行了理论验证。

Surprisal-Rényi Free Energy

Shion Matsumoto et al.

stat.ML cs.LG

本文提出了一种名为Surprisal-Rényi Free Energy (SRFE)的泛函，它基于似然比的对数矩，不属于$f$-散度的范畴。该工作表明SRFE在极限情况下可恢复前向和反向KL散度，并揭示了控制偏离KL主导区域的显式均值-方差权衡。

On Google's SynthID-Text LLM Watermarking System: Theoretical Analysis and Empirical Validation

Romina Omidi, Yun Dong, Binghui Wang

cs.CR cs.AI

本文对Google的SynthID-Text LLM水印系统进行了首次理论分析，重点关注其检测性能和鲁棒性，并辅以实证验证。研究揭示了该系统基于锦标赛的采样算法在检测策略上的理论特性与潜在脆弱性。

Scalable Contrastive Causal Discovery under Unknown Soft Interventions

Mingxuan Zhang et al.

stat.ML cs.LG

本文提出了一种可扩展的对比因果发现模型，用于处理具有未知软干预的单干预机制观测数据。该方法通过聚合子集PDAG并应用对比性跨机制定向规则，构建了一个在Meek闭包下全局一致的最大PDAG。理论分析证明了该模型在特定$\Psi$等价类下的可靠性，实验表明其在因果结构恢复和泛化能力上优于非对比方法。

PRIVATEEDIT: A Privacy-Preserving Pipeline for Face-Centric Generative Image Editing

Dipesh Tamboli et al.

cs.CR cs.AI

本文提出了一种用于人脸中心生成式图像编辑的隐私保护流程PRIVATEEDIT. 该流程通过设备端分割和掩码技术分离身份敏感区域与可编辑图像上下文, 使用户能在不暴露生物特征数据的情况下利用第三方模型进行编辑.

Parallel Test-Time Scaling with Multi-Sequence Verifiers

Yegon Kim et al.

cs.CR cs.AI

本文提出了一种名为 Multi-Sequence Verifier (MSV) 的验证器，用于改进并行测试时扩展中的答案选择与延迟问题。MSV 通过联合处理所有候选解并建模其交互，提升了校准效果，并支持一种新的流式早期停止框架以降低推理延迟。

Stringology-Based Motif Discovery from EEG Signals: an ADHD Case Study

Anat Dahan, Samah Ghazawi

q-bio.NC cs.DS cs.IR cs.NE

本文提出了一种基于stringology的EEG信号分析方法, 用于发现时间序列中的重复模式. 该方法应用于ADHD研究, 识别出患者组具有更高的模式重复频率和不同的结构特征.

Beyond Pixel Histories: World Models with Persistent 3D State

Samuel Garcin et al.

cs.CV cs.AI cs.LG

本文提出了一种名为PERSIST的新型world model, 它通过显式地模拟潜在3D场景(环境, 相机, 渲染器)的演化来生成视频. 该方法在空间记忆, 3D一致性和长时稳定性方面优于现有方法, 并能从单张图像合成多样的3D环境.

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

Haoran Lu et al.

cs.CV cs.AI cs.RO

本文提出了一种名为Phys4D的流程, 用于从视频扩散模型中学习物理一致的4D世界表示. 该方法通过一个三阶段训练范式, 逐步将外观驱动的视频扩散模型提升为物理一致的4D表示, 并在实验中展示了其在细粒度时空和物理一致性方面的改进.

Quantifying Ranking Instability Across Evaluation Protocol Axes in Gene Regulatory Network Benchmarking

Ihor Kendiukhov

q-bio.MN cs.LG

本文提出了一个系统性的诊断框架, 用于量化基因调控网络(GRN)推断基准测试中, 排名结果在不同评估协议选择下的不稳定性. 通过分析现有单细胞数据和方法, 研究发现排名反转主要由方法间相对判别能力的变化驱动, 而非基准率效应, 并提供了相应的诊断工具包.

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Mabel Heffring, Lincoln Linlin Xu

cs.CV cs.LG

本文提出了一种结合地理加权弱监督与贝叶斯推断的Transformer模型, 用于融合多源遥感数据生成高分辨率泛北极海冰密集度图及其不确定性估计. 该方法通过改进特征提取、损失函数设计和决策级融合, 旨在解决海冰特征细微、标签不精确及数据异质性等挑战.

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

Shang Wu et al.

cs.CV cs.AI

本文提出了一种基于强化学习的提示词优化框架, 旨在提升文本到视频生成模型的物理合理性. 该方法通过两阶段训练, 结合物理常识奖励, 在多个模型上实现了零样本性能提升.

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

Danielle S. Fox et al.

cs.CY cs.AI

本文评估了多种AI工具在依据认知需求框架对数学任务进行分类时的表现. 研究发现, 所有工具的平均准确率仅为63%, 且在分类时表现出系统性偏差, 过度依赖文本表面特征而非深层认知过程.

The Controllability Trap: A Governance Framework for Military AI Agents

Subramanyam Sahoo

cs.CY cs.AI

本文针对军事AI智能体(agent)的控制失效问题, 提出了一个名为AMAGF的治理框架. 该框架通过预防、检测和纠正三大支柱, 并引入一个量化的控制质量分数(CQS), 旨在实现对人类控制水平的持续度量与管理.

Multi-Agent Influence Diagrams to Hybrid Threat Modeling

Maarten C. Vonk et al.

cs.MA cs.AI econ.EM

本文提出了一种基于 multi-agent influence diagrams 的新方法, 用于统一先前分立的混合威胁建模方法. 该方法在一个模拟关键基础设施网络攻击的场景中, 通过运行1000个半合成变体, 评估了五种不同反混合威胁措施的整体特征和参数敏感性.

Real-time loosely coupled GNSS and IMU integration via Factor Graph Optimization

Radu-Andrei Cioaca et al.

cs.RO cs.LG eess.SY

本文提出了一种基于Factor Graph Optimization (FGO)的GNSS与IMU松耦合实时融合架构。该方法在复杂城市环境中实现了实时定位，提高了服务可用性，但以牺牲部分定位精度为代价。

Molt Dynamics: Emergent Social Phenomena in Autonomous AI Agent Populations

Brandon Yee, Krishna Sharma

cs.MA cs.AI cs.SI

本文通过大规模多智能体环境 MoltBook 观察了自主 LLM 智能体群体中的涌现协调行为。研究发现，系统出现了自发的角色分化、服从幂律分布的信息传播以及初步但低效的多智能体协作模式。

Real-time tightly coupled GNSS and IMU integration via Factor Graph Optimization

Radu-Andrei Cioaca et al.

cs.RO cs.LG eess.SY

本文提出了一种基于Factor Graph Optimization的实时紧耦合GNSS-IMU融合方法，通过增量优化实现在城市复杂环境中的可靠定位。

Controllable Generative Sandbox for Causal Inference

Qi Zhang et al.

stat.ME cs.LG stat.ML

本文提出了CausalMix, 一个用于因果推断的生成式框架. 它通过变分混合模型和特定类型解码器来生成混合类型的表格数据, 并允许对重叠、混杂和效应异质性等因果属性进行独立控制.

stratum: A System Infrastructure for Massive Agent-Centric ML Workloads

Arnab Phani, Elias Strauss, Sebastian Schelter

cs.DB cs.LG

本文介绍了一个名为stratum的系统基础设施, 旨在解决由大型语言模型(LLMs)驱动的、探索性强的智能体(agent)在搜索机器学习(ML)流水线时面临的规模化执行挑战. 该系统通过将流水线执行与规划推理解耦, 并与现有Python库集成, 以优化和加速大规模智能体工作负载.

Social Norm Reasoning in Multimodal Language Models: An Evaluation

Oishik Chowdhury, Anushka Debnath, Bastin Tony Roy Savarimuthu

cs.MA cs.AI

本文评估了五种 Multimodal Large Language Models (MLLMs) 在基于文本和图像的社交规范推理任务上的表现。研究发现，MLLMs 在文本模态上的表现优于图像模态，且所有模型在处理复杂规范时都存在困难。

SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training

Hadi Mohaghegh Dolatabadi et al.

cs.DC cs.CR cs.LG

本文提出了一种用于pipeline parallel decentralized training的完整性验证机制SENTINEL. 该方法通过轻量级的momentum-based monitoring来检测跨stage通信中的恶意行为, 并在理论上保证了收敛性.

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Marcel Torne et al.

cs.RO cs.LG

本文提出了一种用于机器人策略的多尺度具身记忆(MEM)方法, 它结合了基于视频的短期记忆和基于文本的长期记忆. 该方法旨在处理复杂的多阶段长时程任务, 例如厨房清洁.

Riemannian Langevin Dynamics: Strong Convergence of Geometric Euler-Maruyama Scheme

Zhiyuan Zhan, Masashi Sugiyama

stat.ML cs.LG math.NA math.PR

本文研究了定义在黎曼流形上的随机微分方程(SDEs)的数值解法. 作者提出了一种几何版本的Euler-Maruyama(EM)格式, 并在一定的几何与正则性条件下, 证明了该格式具有$1/2$阶的强收敛性. 作为应用, 该结果为通过黎曼Langevin动力学的几何EM离散化在流形上进行采样提供了Wasserstein距离误差界.

Goal-Driven Risk Assessment for LLM-Powered Systems: A Healthcare Case Study

Neha Nagaraja, Hayretdin Bahsi

cs.CR cs.AI

本文提出了一种面向LLM驱动系统的结构化、目标导向的风险评估方法, 通过使用attack trees将威胁具体化为详细的攻击向量、前提条件和攻击路径. 作者在一个基于LLM agent的医疗保健系统案例研究中演示了该方法, 旨在促进LLM系统的安全设计实践.

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

Neha Nagaraja et al.

cs.CV cs.AI cs.CR

本文提出了一种针对多模态大语言模型(MLLMs)的黑盒攻击方法，称为基于图像的提示注入(IPI)。该方法通过将对抗性指令嵌入自然图像来劫持模型输出，并设计了一个端到端的管道来平衡攻击有效性与视觉隐蔽性。实验表明该方法在特定配置下能达到较高的攻击成功率。

Bridging Pedagogy and Play: Introducing a Language Mapping Interface for Human-AI Co-Creation in Educational Game Design

Daijin Yang, Erica Kleinman, Casper Harteveld

cs.HC cs.AI

本文介绍了一个基于受控自然语言框架的网页工具, 用于辅助非专家设计者进行教育游戏设计. 该工具通过一个结构化的语言映射界面, 使人类与LLM助手能够协作, 将教学意图与游戏玩法明确地关联起来.

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

Haohang Huang

cs.CV cs.AI eess.IV

本文提出了一种用于骨料形态表征的现场成像框架, 包含针对不同场景的算法. 该框架设计了针对非重叠骨料的成像系统与体积估计算法, 并建立了针对料堆的2D实例分割与3D重建-分割-补全(RSC-3D)集成方法.

InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models

Zhiqiang Sheng et al.

cs.CV cs.AI

本文提出了 InEdit-Bench, 首个用于评估图像编辑模型在中间逻辑路径推理能力的基准. 该基准包含四个任务类别, 并提出了评估生成路径逻辑连贯性与视觉自然性的标准. 对14个代表性模型的评估揭示了该领域普遍存在的不足.

Principled Learning-to-Communicate with Quasi-Classical Information Structures

Xiangyu Liu, Haoyi You, Kaiqing Zhang

eess.SY cs.LG cs.MA math.OC

本文在 decentralized partially observable Markov decision processes (Dec-POMDPs) 的框架下，从信息结构 (information structures) 的角度形式化并研究了 learning-to-communicate (LTC) 问题。文章聚焦于 quasi-classical (QC) 信息结构，提出了保证其计算易处理性的条件，并为此类问题设计了可证明有效的规划和学习算法。

Machine Pareidolia: Protecting Facial Image with Emotional Editing

Binh M. Le, Simon S. Woo

cs.CV cs.LG

本文提出了一种名为MAP的新型面部隐私保护方法, 通过修改人脸图像中的情感表达来伪装原始身份. 该方法在对抗黑盒面部识别系统时表现出较高的可迁移性和适用性.

EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

Yuhao Chen et al.

cs.CV cs.AI

本文提出了一种名为EvoPrune的早期视觉token剪枝方法，用于提升多模态大语言模型(MLLMs)的推理效率。该方法在视觉编码阶段直接进行剪枝，通过评估token的相似性、多样性和注意力重要性来保留关键信息，在视频和图像基准测试中实现了显著的加速，同时性能损失很小。

CONCUR: Benchmarking LLMs for Concurrent Code Generation

Jue Huang et al.

cs.SE cs.CL cs.LG

本文提出了一个名为 CONCUR 的基准测试，专门用于评估大语言模型生成并发代码的能力。该基准包含一系列并发问题及其变体，并通过实验揭示了当前模型在此任务上的局限性。

Mathematicians in the age of AI

Jeremy Avigad

math.HO cs.AI

本文是一篇关于AI对数学研究影响的评论性文章. 作者呼吁数学家关注并适应AI技术带来的变革.

Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

Inho Kong et al.

cs.CV cs.AI

本文提出了一种基于Embedded Runge-Kutta方法的扩散模型采样引导机制ERK-Guid. 该方法利用求解器在刚性区域产生的误差作为引导信号, 以提升采样稳定性和样本质量.

Generalization Properties of Score-matching Diffusion Models for Intrinsically Low-dimensional Data

Saptarshi Chakraborty, Quentin Berthet, Peter L. Bartlett

stat.ML cs.AI cs.LG math.ST

本文为基于分数的扩散模型在数据具有内在低维结构时的泛化性质提供了理论保证. 在温和的正则性条件下, 证明了学习到的生成分布与真实分布之间的 Wasserstein-$p$ 距离误差以 $\widetilde{O}\!\left(n^{-1 / d^\ast_{p,q}(\mu)}\right)$ 的速率收敛, 其中 $d^\ast_{p,q}(\mu)$ 是 $\mu$ 的 $(p,q)$-Wasserstein 维数. 结果表明扩散模型能够适应数据的内在几何结构, 缓解维度灾难.

UrbanHuRo: A Two-Layer Human-Robot Collaboration Framework for the Joint Optimization of Heterogeneous Urban Services

Tonmoy Dey et al.

cs.RO cs.AI cs.HC cs.SI

本文提出了一个名为UrbanHuRo的双层人机协作框架, 用于联合优化异构城市服务, 并以众包配送和城市感知为例进行演示. 该框架包含一个基于MapReduce的分布式K-次模最大化模块用于订单调度, 以及一个深度次模奖励强化学习算法用于感知路径规划. 在真实数据集上的实验表明, 该框架能同时提升感知覆盖率和配送员收入.

Large-Language-Model-Guided State Estimation for Partially Observable Task and Motion Planning

Yoonwoo Kim et al.

cs.RO cs.AI

本文提出了一种利用大语言模型(LLM)的常识推理能力来指导部分可观测环境下的机器人任务与运动规划(TAMP)的框架CoCo-TAMP. 该框架通过LLM引导的层次化状态估计来塑造对任务相关物体的信念, 从而显著提升了长时域规划与执行的效率.

MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

Seunghoi Kim et al.

cs.CV cs.AI

本文提出了一种用于零样本MRI重建的多模态后验引导流匹配方法MPFlow. 该方法利用辅助模态信息在推理时引导生成过程, 以提高解剖保真度并减少伪影.

Understanding Parents' Desires in Moderating Children's Interactions with GenAI Chatbots through LLM-Generated Probes

John Driscoll et al.

cs.HC cs.AI

本文通过生成合成交互场景并开展家长访谈, 研究了家长对儿童与生成式AI聊天机器人互动的监管需求. 研究发现, 家长期望更细粒度的对话透明度、干预手段以及个性化的控制策略.

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

Zehua Fan et al.

cs.CV cs.AI

本文提出了一种名为PROSPECT的统一流式视觉语言导航智能体。它通过融合语义与空间特征，并结合潜在预测表征学习，提升了在动态环境中的导航鲁棒性。

HALyPO: Heterogeneous-Agent Lyapunov Policy Optimization for Human-Robot Collaboration

Hao Zhang et al.

cs.RO cs.AI

本文提出了一种名为HALyPO的异构智能体李雅普诺夫策略优化方法，用于解决人机协作中因智能体异质性导致的学习稳定性问题。该方法通过在策略参数空间强制李雅普诺夫下降条件来稳定分散式策略学习，实验表明其能提升协作的泛化性和鲁棒性。

Interaction-Aware Whole-Body Control for Compliant Object Transport

Hao Zhang et al.

cs.RO cs.AI

本文提出了一种用于仿人机器人协同搬运的交互感知全身控制框架. 该框架将交互执行与支撑控制分离, 并结合轨迹优化与强化学习策略来应对强交互力与扰动, 实现了在非结构化环境中的柔顺物体搬运.

Agentic Peer-to-Peer Networks: From Content Distribution to Capability and Action Sharing

Taotao Wang et al.

cs.NI cs.AI

本文提出了一种用于AI代理协作的Agentic Peer-to-Peer网络架构，以支持能力与动作的共享。该架构通过分层设计和分级验证机制来应对网络中的异构性与安全性挑战。

Learning Approximate Nash Equilibria in Cooperative Multi-Agent Reinforcement Learning via Mean-Field Subsampling

Emile Anand, Ishani Karmarkar

cs.MA cs.AI cs.LG eess.SY math.OC

本文研究了通信受限环境下具有全局智能体和大量同质局部智能体的合作Markov博弈. 提出了一种交替学习框架, 其中全局智能体使用子采样平均场Q学习, 而局部智能体在诱导的MDP中优化. 理论分析表明该框架能收敛到近似纳什均衡, 并在数值实验中进行了验证.

Cognition to Control - Multi-Agent Learning for Human-Humanoid Collaborative Transport

Hao Zhang, Ding Zhao, H. Eric Tseng

cs.RO cs.AI

本文提出了一种用于人机协作搬运的分层控制框架C2C, 它将高层认知决策与低层全身控制解耦. 该框架通过视觉语言模型进行场景理解, 并利用基于多智能体强化学习的协商层进行长期技能规划, 最后通过一个全身控制器执行.

IntroductionDMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Youngmin Kim et al.

cs.CV cs.AI cs.LG

本文提出了一种用于增强超低场MRI图像的无配对神经薛定谓桥框架。该方法结合了扩散模型引导的分布匹配和结构保持正则化，以在提升图像真实感的同时保持解剖结构。

Towards Effective Orchestration of AI x DB Workloads

Naili Xing et al.

cs.DB cs.AI

本文讨论了在AI驱动的数据系统中整合数据库与AI工作负载（AIxDB）所面临的一系列挑战, 包括查询优化、执行调度和分布式执行等. 作者提出了一个初步的设计方案, 并展示了其在处理AIxDB查询性能方面的潜力.

MACC: Multi-Agent Collaborative Competition for Scientific Exploration

Satoshi Oyama, Yuko Sakurai, Hisashi Kashima

cs.MA cs.AI

本文提出了一个名为MACC的多智能体协作竞争框架, 旨在研究制度设计如何影响由独立管理的AI智能体进行的可扩展且可靠的集体科学探索. 该框架结合了类似blackboard的共享科学工作空间和激励机制, 以鼓励透明度, 可重复性和探索效率.

Observationally Informed Adaptive Causal Experimental Design

Erdun Gao et al.

stat.ML cs.LG

本文提出了Active Residual Learning这一新范式, 将观测模型作为先验, 将实验目标从从头学习因果量转向高效估计校正观测偏差所需的残差. 作者引入了R-Design框架, 并提出了R-EPIG准则, 实验表明该方法优于基线.

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

Haowei Zhu et al.

cs.CV cs.LG

本文提出了一种无需训练的扩散模型加速框架TAP, 它通过一个轻量级的探针来为每个token自适应地选择预测器. 该方法在多种架构和任务上实现了显著的推理加速, 同时保持了生成质量.

Unsupervised Surrogate-Assisted Synthesis of Free-Form Planar Antenna Topologies for IoT Applications

Khadijeh Askaripour, Adrian Bekasiewicz, Slawomir Koziel

math.NA cs.LG

本文提出了一种用于物联网应用的无监督自由形式平面天线拓扑综合框架. 该方法利用代理辅助分类器从候选设计中识别合适的天线几何结构, 然后进行两阶段梯度优化.

Zero-Knowledge Proof (ZKP) Authentication for Offline CBDC Payment System Using IoT Devices

Santanu Mondal, T. Chithralekha

cs.CR cs.AI cs.CE

本文提出了一种结合 secure elements, zero-knowledge proofs 和间歇同步的隐私保护离线 CBDC 支付模型，旨在解决资源受限的 IoT 设备在离线环境下进行安全、隐私交易时面临的挑战。该模型基于混合架构，利用轻量级零知识证明算法来平衡安全性与计算开销。

Separators in Enhancing Autoregressive Pretraining for Vision Mamba

Hanpeng Liu et al.

cs.CV cs.AI

本文提出了一种用于Vision Mamba自回归预训练的新方法STAR, 通过引入分隔符来区分不同图像, 从而显著增加了输入序列长度. 该方法在ImageNet-1k上取得了有竞争力的结果, 展示了利用长序列提升视觉模型性能的潜力.

A Bi-Stage Framework for Automatic Development of Pixel-Based Planar Antenna Structures

Khadijeh Askaripour, Adrian Bekasiewicz, Slawomir Koziel

math.NA cs.LG

本文提出了一种用于自动生成平面天线结构的双阶段框架. 该方法通过优化构成辐射器的像素单元之间的连接来确定自由形式拓扑, 并利用代理辅助的局部搜索算法对结果进行微调以满足设计要求.

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

Jialong Chen et al.

cs.SE cs.AI cs.CL

本文提出了一个名为SWE-CI的基准测试，用于评估AI代理在持续集成环境中长期维护代码库的能力。该基准基于真实代码库的演化历史，旨在衡量代理的动态可维护性而非静态功能正确性。

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Ruilin Luo et al.

cs.CV cs.AI

本文研究了Multimodal Large Reasoning Models (MLRMs)的冷启动初始化阶段。作者提出了Visual Attention Score (VAS)这一基于注意力的度量，并发现推理性能与VAS高度相关。基于对“Lazy Attention Localization”现象的分析，他们提出了一个名为AVAR的冷启动框架，在多个基准测试上提升了模型性能。

Non-Invasive Reconstruction of Cardiac Activation Dynamics Using Physics-Informed Neural Networks

Nathan Dermul, Hans Dierckx

physics.med-ph cs.LG

本文提出了一种基于物理信息神经网络(PINN)的非侵入式心脏电活动重建方法. 该方法利用可测量的形变数据, 在简化的左心室几何模型中, 通过结合非线性各向异性本构模型和有限元损失函数, 来恢复电激活模式与力学场. 结果表明, 该方法能在噪声和低分辨率数据下较好地重建时空动态.

Invariance-Based Dynamic Regret Minimization

Margherita Lazzaretto, Jonas Peters, Niklas Pfister

stat.ML cs.LG

本文针对非平稳随机线性bandit问题, 提出了一种利用历史数据学习奖励模型中不变性(invariance)的方法. 该方法通过假设奖励模型可分解为平稳与非平稳部分, 设计了ISD-linUCB算法, 在快速变化的环境中, 当有足够历史数据时, 能通过降低问题维度显著改善regret.

Joint Hardware-Workload Co-Optimization for In-Memory Computing Accelerators

Olga Krestinskaya et al.

cs.AR cs.AI cs.ET cs.NE eess.SY

本文提出了一种基于进化算法的软硬件协同优化框架, 用于设计通用的内存计算(IMC)加速器架构. 该框架通过同时考虑多个神经网络工作负载的权衡, 显著缩小了专用设计与通用设计之间的性能差距, 并在RRAM和SRAM架构上验证了其有效性.

On the Suitability of LLM-Driven Agents for Dark Pattern Audits

Chen Sun, Yash Vekaria, Rishab Nithyanand

cs.CR cs.AI cs.CL cs.CY cs.HC

本文评估了LLM驱动的智能体在审计网站暗黑模式方面的可行性与局限性. 研究聚焦于数据权利请求流程, 通过设计一个能够端到端遍历流程并分类暗黑模式的智能体, 在456个数据经纪人网站上进行了测试.

A novel network for classification of cuneiform tablet metadata

Frederik Hagelskjær

cs.CV cs.AI

本文提出了一种用于分类楔形文字泥板元数据的网络结构. 该方法采用卷积启发的架构逐步下采样点云并整合局部邻域信息, 最终在特征空间中计算邻居以包含全局信息, 在性能上优于基于transformer的Point-BERT网络.

IROSA: Interactive Robot Skill Adaptation using Natural Language

Markus Knauer et al.

cs.RO cs.AI cs.CL cs.HC cs.LG

本文提出了一种结合预训练大语言模型与模仿学习的机器人技能适应框架, 通过工具化架构实现基于自然语言的开放式词汇技能调整. 该方法在工业任务上进行了演示, 实现了速度调整、轨迹修正等技能适应, 同时保持了安全性与可解释性.

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Yang Li et al.

cs.CV cs.LG

本文提出了一个统一的评估框架, 将OOD检测和失败预测整合起来, 并引入了新的度量标准DS-F1和DS-AURC. 实验表明, 基于双重评分函数的分类器比传统单一评分方法更可靠, 作者还扩展了SURE方法以进一步提升可靠性.

Selecting Offline Reinforcement Learning Algorithms for Stochastic Network Control

Nicolas Helson, Pegah Alizadeh, Anastasios Giovanidis

cs.NI cs.AI cs.LG cs.PF eess.SY

本文在随机网络控制场景下评估了多种离线强化学习算法. 研究发现, 在存在信道衰落等随机性的环境中, Conservative Q-Learning 方法能产生更鲁棒的控制策略.

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

Radia Daci et al.

cs.CV cs.AI

本文提出了一种名为CMDR-IAD的轻量级无监督框架，用于2D-3D多模态工业异常检测。该方法结合了跨模态映射与双分支重建，并通过融合策略提升了在噪声深度或弱纹理等挑战下的鲁棒性，在MVTec 3D-AD等基准上取得了先进的性能。

How Predicted Links Influence Network Evolution: Disentangling Choice and Algorithmic Feedback in Dynamic Graphs

Mathilde Perez et al.

cs.SI cs.LG

本文提出了一个基于multivariate Hawkes processes的时序框架，用于区分网络演化中的内在同质性与算法反馈效应。该框架引入了一个瞬时偏差度量来捕捉当前的强化动态，并提供了关于动态稳定性的理论分析。

RVN-Bench: A Benchmark for Reactive Visual Navigation

Jaewon Lee et al.

cs.RO cs.AI cs.CV

本文提出了一个用于室内移动机器人避障视觉导航的基准测试RVN-Bench. 该基准基于Habitat 2.0模拟器和高保真HM3D场景, 定义了任务与评估指标, 并提供了标准化训练工具.

Towards Generalized Multimodal Homography Estimation

Jinkun You et al.

cs.CV cs.AI

本文提出了一种用于提升单应性估计模型跨模态泛化能力的训练数据合成方法, 以及一个利用跨尺度信息并解耦颜色特征以提高精度的网络. 实验表明该方法能有效提升模型在未见模态上的性能.

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

Md Akib Haider et al.

cs.SE cs.LG

本文提出了一种名为LoRA-MME的多模型集成方法, 用于代码注释分类任务. 该方法通过LoRA微调多个预训练的编码器模型, 并采用加权集成策略进行预测, 在竞赛测试集上取得了较好的F1分数, 但计算成本较高.

BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

Hengquan Guo

cs.CV cs.AI

本文提出了一个名为BLOCK的开源双阶段流程, 用于从任意角色概念生成精确的Minecraft皮肤. 该方法首先使用大语言模型生成3D预览图, 然后通过微调的扩散模型将其解码为皮肤贴图.

Upholding Epistemic Agency: A Brouwerian Assertibility Constraint for Responsible AI

Michael Jülich

cs.CY cs.AI cs.LG cs.LO

本文提出了一种基于Brouwerian可断言性约束的负责任AI框架。该框架要求高风险领域的AI系统在输出断言或否定时，必须提供可公开审查的证明，否则应返回“未确定”状态。

Right in Time: Reactive Reasoning in Regulated Traffic Spaces

Simon Kohaut et al.

cs.RO cs.AI

本文提出了一种结合概率逻辑与反应式推理的实时任务设计框架, 用于在受规约的交通空间中为自主智能体(agent)进行在线决策. 该方法通过利用数据流的"变化频率"来分解推理任务, 仅重新计算受新数据影响的部分, 从而实现了对混合域(hybrid domains)的精确概率推理. 实验表明, 该方法在真实船舶数据和模拟无人机交通场景中, 相比非反应式方法获得了数量级的速度提升.

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

Lifan Jiang et al.

cs.CV cs.AI

本文提出了一个无需训练的零样本框架 GeoSeg, 用于解决遥感图像中基于推理的分割问题. 该方法通过偏差感知坐标修正和双路径提示机制, 将 MLLM 的推理能力与精确的定位相结合, 并在新构建的基准测试上取得了优于基线模型的效果.

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Qianpu Chen, Derya Soydaner, Rob Saunders

cs.CV cs.AI

本文通过引入一个表示层面的诊断框架, 分析了多种视觉模型在 face pareidolia 图像上的检测、定位、不确定性和偏差行为. 研究发现, 不同模型在模糊性下的解释机制存在显著差异, 其行为更多地由表示选择而非分数阈值决定.

Measuring AI R&D Automation

Alan Chan et al.

cs.CY cs.AI

本文提出了一套用于衡量AI研发自动化(AIRDA)程度及其影响的指标体系. 这些指标涵盖了研发支出、研究人员时间分配和安全事件等多个维度, 旨在帮助决策者理解AIRDA的潜在后果并采取相应措施.

STEM Faculty Perspectives on Generative AI in Higher Education

Akila de Silva et al.

cs.CY cs.AI

本文通过焦点小组研究, 探讨了美国一所大型公立大学中29位STEM教员对生成式AI在高等教育中应用的看法. 研究揭示了教员们在教学整合、学生学习影响以及所需制度支持方面的不同观点与担忧.

Discriminative Perception via Anchored Description for Reasoning Segmentation

Tao Yang et al.

cs.CV cs.AI

本文提出了一种名为DPAD的方法, 通过强制模型生成被指代对象的描述性标题, 并对比该标题与目标区域及更广泛上下文的语义相关性, 来增强推理分割模型在复杂场景中的判别感知能力. 实验表明该方法能有效提升分割性能并显著缩短推理链长度.

Training-Free Rate-Distortion-Perception Traversal With Diffusion

Yuhan Wang, Suzhi Bi, Ying-Jun Angela Zhang

cs.IT cs.LG

本文提出了一种无需训练的框架, 利用预训练的 diffusion models 来遍历 rate-distortion-perception (RDP) 曲面. 该方法通过结合 reverse channel coding 模块和一个新颖的 score-scaled probability flow ODE decoder, 在多个数据集上展示了其灵活性.

Continuous Modal Logical Neural Networks: Modal Reasoning via Stochastic Accessibility

Antonin Sulc

cs.LO cs.LG

本文提出了一种名为 Fluid Logic 的范式，将模态逻辑推理从离散的 Kripke 结构提升到连续流形。通过使用 Neural SDEs 来实现模态算子，并构建了可微分的计算图。该方法的一个关键实例是 Logic-Informed Neural Networks (LINNs)，它将逻辑公式嵌入训练损失，以引导神经网络生成符合逻辑约束的解。

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

Chao Wu, Kangxian Xie, Mingchen Gao

cs.CV cs.AI

本文提出了一种名为Volumetric Directional Diffusion (VDD)的新方法，用于处理医学图像分割中的模糊性问题。该方法通过将生成过程锚定在一个确定的共识先验上，来生成具有解剖结构一致性的不确定性量化结果，在多个数据集上验证了其有效性。

Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback

Fabian Domberg, Georg Schildbach

cs.RO cs.AI

本文提出了一种基于DreamerV3的在线持续强化学习框架，利用world model的预测残差来检测环境变化并自动触发模型微调。该方法在仿真和真实机器人平台上进行了验证，旨在使智能体在部署过程中实现自主适应。

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Tobias Morocutti et al.

cs.SD cs.LG eess.AS

本文提出了一种用于音乐源修复任务的多阶段系统, 该系统将任务分解为分离和修复两个步骤. 首先使用一个基于 BandSplit-RoFormer 的分离器预测多个音轨, 然后采用一个 HiFi++ GAN 波形修复器进行后处理以提升音质.

The Empty Quadrant: AI Teammates for Embodied Field Learning

Hyein Kim, Sung Park

cs.HC cs.AI

本文提出了一个名为Field Atlas的框架, 旨在将AI从信息传递工具转变为在非结构化实地探究中的认知伙伴. 该框架基于4E认知理论, 强调通过轨迹而非结果来评估学习过程, 并以博物馆场景为例进行了说明.

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Geon Park, Ji-Hoon Park, Seong-Whan Lee

cs.CV cs.AI cs.LG

本文提出了一种名为DQE-CIR的方法，用于提升组合图像检索任务中查询嵌入的区分度。该方法通过引入可学习的属性权重来强调与修改文本相关的视觉特征，并采用目标相对负采样策略来选取更有信息量的负样本，从而减少语义混淆。

Sim2Sea: Sim-to-Real Policy Transfer for Maritime Vessel Navigation in Congested Waters

Xinyu Cui et al.

cs.RO cs.AI

本文提出了一个名为Sim2Sea的框架, 用于解决自主船舶在拥挤水域导航中的sim-to-real (模拟到现实) 迁移问题. 该方法通过GPU加速模拟器, 双流时空策略和领域随机化来缩小模拟与现实的差距, 并在仿真和真实17吨无人船上验证了其零样本迁移的有效性.

Fermi-Dirac thermal measurements: A framework for quantum hypothesis testing and semidefinite optimization

Nana Liu, Mark M. Wilde

quant-ph cond-mat.stat-mech cs.LG

本文提出了一种基于Fermi-Dirac分布的热测量框架，用于量子假设检验和半定优化。它将测量算子的特征值约束类比为费米子的占据数，通过最小化自由能量来获得近似最优测量。

SaFeR: Safety-Critical Scenario Generation for Autonomous Driving Test via Feasibility-Constrained Token Resampling

Jinlong Cui et al.

cs.RO cs.AI

本文提出了一种名为SaFeR的方法, 用于生成自动驾驶测试中的安全关键场景. 该方法通过一个基于Transformer的模型作为真实性先验, 并结合一种新颖的差分注意力机制来捕捉复杂的交通交互. 为了在保持自然性的同时诱导对抗性行为, SaFeR采用了一种在最大可行区域约束下的重采样策略.

End-to-end event reconstruction for precision physics at future colliders

Dolores Garcia et al.

hep-ex cs.AI

本文提出了一种用于未来对撞机实验的端到端全局事件重建方法. 该方法通过几何代数Transformer网络和基于对象凝聚的聚类, 直接从探测器信号重建粒子级对象, 在重建效率和能量分辨率上优于现有算法.

Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

Yanmei Zou et al.

cs.CV cs.AI

本文提出了一种用于点云处理的两阶段抽象-精炼(ABS-REF)框架视图，并基于此设计了高维位置编码(HPE)模块和非局部MLP操作。所构建的HPENet模型在多个数据集和任务上实现了效率与性能的良好平衡。

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

Mehmet Yigit Avci et al.

cs.CV cs.AI

本文通过解耦表示学习框架，将脑MRI图像分解为专注于解剖结构的表示和捕捉采集对比度的嵌入，以量化人口统计学属性（如年龄、性别、种族）可预测性的来源。研究发现，可预测性主要源于解剖变异，而对比度相关的信号较弱且具有数据集特异性。

FastWave: Optimized Diffusion Model for Audio Super-Resolution

Nikita Kuznetsov, Maksim Kaledin

cs.SD cs.LG

本文提出了一种名为FastWave的优化扩散模型, 用于音频超分辨率任务. 该模型在计算复杂度和参数量上显著低于现有方法, 同时实现了可比的性能.

Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Dongnuan Cai et al.

cs.CV cs.AI cs.MM

本文提出了一种名为Crab$^{+}$的可扩展统一音频-视觉场景理解模型, 旨在解决多任务统一训练中的负迁移问题. 通过构建包含显式推理过程的指令调优数据集AV-UIE v2, 并设计一种能显式建模任务间关系的I-LoRA方法, 该模型在多个基准测试上超越了专用模型, 并成功将负迁移逆转为正迁移.

Exploiting Subgradient Sparsity in Max-Plus Neural Networks

Ikhlas Enaieh, Olivier Fercoq

stat.ML cs.LG

本文提出了一种针对Max-Plus神经网络的新型稀疏次梯度算法。该算法利用了模型代数结构自然诱导的次梯度稀疏性，旨在更高效地最小化最坏样本损失，从而提升训练效率。

GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning

Mingleyang Li et al.

cs.RO cs.AI

本文提出了一种用于机器人从衣物堆中按指令抓取单件衣物的新流程, 结合了视觉语言模型(VLM)的高层推理与视觉可供性(affordance)感知. 该方法利用分割模型(SAM2)增强对衣物堆状态的感知, 并引入双臂协作框架处理大尺寸衣物等复杂情况, 在仿真和真实环境中验证了有效性.

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

Yinghong Yu, Guangyuan Li, Jiancheng Yang

cs.CV cs.AI

本文提出了一种名为PlaneCycle的无训练、无适配器方法, 用于将预训练的2D基础模型直接提升到3D体数据上. 该方法通过在网络深度中循环聚合正交平面来融合3D信息, 无需引入额外参数或修改结构, 在多个3D分类和分割基准上取得了有竞争力的性能.

Learning Hip Exoskeleton Control Policy via Predictive Neuromusculoskeletal Simulation

Ilseung Park, Changseob Song, Inseung Kang

cs.RO cs.LG

本文提出了一种基于物理的神经肌肉骨骼学习框架, 用于训练髋关节外骨骼的控制策略. 该框架完全在仿真环境中进行训练, 无需运动捕捉数据, 并通过策略蒸馏部署到硬件上, 实现了从仿真到现实的迁移.

CodeTaste: Can LLMs Generate Human-Level Code Refactorings?

Alex Thillen et al.

cs.SE cs.AI cs.LG

本文评估了LLM在代码重构任务上的表现, 提出了一个名为CodeTaste的基准测试, 该基准从开源仓库的真实多文件变更中挖掘重构任务. 实验表明, 当前前沿模型在发现人类开发者实际选择的重构方案方面仍存在明显差距.

CAM-LDS: Cyber Attack Manifestations for Automatic Interpretation of System Logs and Security Alerts

Max Landauer et al.

cs.CR cs.AI

本文提出了一个用于网络安全日志分析的公开数据集CAM-LDS, 涵盖了多种攻击场景与技术. 作者通过一个案例研究展示了利用大型语言模型(LLM)处理该数据集的潜力.

Stable and Steerable Sparse Autoencoders with Weight Regularization

Piotr Jedryszek, Oliver M. Crook

stat.ML cs.LG

本文研究了在稀疏自编码器(SAE)的编码器和解码器权重上添加L1或L2正则化对特征学习稳定性的影响. 实验表明, L2权重正则化结合特定的训练约束, 能显著提升跨随机种子训练的特征一致性及通过激活进行特征控制(steering)的成功率.

Bayesian Adversarial Privacy

Cameron Bell et al.

math.ST cs.CR cs.LG stat.ME

本文提出了一种基于 Bayesian decision theory 的新的量化隐私定义, 称为 Bayesian adversarial privacy. 它旨在提供比 differential privacy 更具上下文相关性和具体性的隐私度量, 并讨论了相关的示例和计算方法.

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Raphaël Razafindralambo et al.

stat.ML cs.CV cs.LG math.ST stat.ME

本文从log-likelihood的视角研究了归一化广义均值$r \in \mathbb{R} \cup \{-\infty,+\infty\}$作为密度聚合方法。理论分析表明，仅当$r \in [0,1]$时，聚合结果能系统性地优于个体分布，这为线性池化($r=1$)和几何池化($r=0$)的广泛使用提供了理论依据。

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Jiaxun Guo et al.

cs.SE cs.CL

本文研究了LLM生成代码的模型溯源问题, 提出了解耦代码溯源网络(DCAN)来分离代码的语义信息和模型特有的风格特征. 该方法在包含多种编程语言和LLM生成代码的大规模基准数据集上进行了评估, 证明了模型级溯源分析的可行性.

ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

Youngwon Choi et al.

cs.SD cs.AI eess.AS

本文提出了一种用于低资源个性化语音合成的数据增强方法 ZeSTA. 该方法通过引入轻量级的 domain embedding 来区分真实与合成语音, 并结合真实数据过采样, 以在极有限的目标数据下稳定模型适应, 从而在提升说话人相似度的同时保持语音质量.

PRAM-R: A Perception-Reasoning-Action-Memory Framework with LLM-Guided Modality Routing for Adaptive Autonomous Driving

Yi Zhang et al.

cs.RO cs.AI

本文提出了一个名为PRAM-R的感知-推理-行动-记忆框架，用于自适应自动驾驶。该框架利用LLM进行模态路由选择，以减少计算成本，并在nuScenes数据集上验证了其有效性。

Semi-Supervised Generative Learning via Latent Space Distribution Matching

Kwong Yu Chong, Long Feng

stat.ML cs.LG

本文提出了一种名为Latent Space Distribution Matching (LSDM)的半监督生成学习框架。该框架通过两阶段方法，利用配对与非配对数据学习条件分布，并建立了与Latent Diffusion Models的理论联系。

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

Ali Ebrahimi Pourasad, Meyssam Saghiri, Walid Maalej

cs.SE cs.AI cs.HC

本文提出了一种名为FeedAIde的上下文感知交互式反馈方法, 它利用多模态大语言模型在用户报告过程中提供支持. 该方法通过捕获屏幕截图等上下文信息, 生成自适应的后续问题, 以协作方式提炼出包含对开发者有用信息的丰富反馈报告. 在一款健身应用上的评估表明, FeedAIde生成的报告在完整性方面优于简单的反馈表单, 并获得了用户和行业专家的积极评价.

LikeThis! Empowering App Users to Submit UI Improvement Suggestions Instead of Complaints

Jialiang Wei, Ali Ebrahimi Pourasad, Walid Maalej

cs.SE cs.AI cs.HC

本文提出了一种名为LikeThis!的基于生成式AI的方法, 旨在帮助移动应用用户提交更具建设性的UI改进建议而非模糊的抱怨. 该方法利用用户评论和对应截图即时生成多个UI改进方案供用户选择, 并通过基准测试和用户研究验证了其有效性.

When AI Fails, What Works? A Data-Driven Taxonomy of Real-World AI Risk Mitigation Strategies

Evgenija Popchanovska et al.

cs.CY cs.AI

本文通过分析大量AI事故报告, 构建了一个数据驱动的AI风险缓解策略分类法. 该研究扩展了现有的MIT分类法, 引入了四个新的缓解类别, 并增强了分类法对新兴系统性故障模式的适用性.

VANGUARD: Vehicle-Anchored Ground Sample Distance Estimation for UAVs in GPS-Denied Environments

Yifei Chen et al.

cs.RO cs.AI

本文提出了一种名为VANGUARD的轻量级几何感知工具, 用于在GPS拒止环境中为无人机估计地面采样距离(GSD). 该方法利用环境中普遍存在的小型车辆作为锚点, 通过核密度估计其像素长度并结合预校准的参考长度来计算GSD, 为基于LLM的智能体提供了可调用的确定性几何推理工具.

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Lingen Li et al.

cs.CV cs.AI

本文提出了一种名为CubeComposer的时空自回归扩散模型，用于从透视视频生成4K分辨率的360度全景视频。该方法通过将视频分解为立方体贴图表示并进行有序合成，解决了高分辨率生成的内存限制问题。

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Ioannis Prokopiou et al.

cs.SD cs.AI cs.IR cs.LG

本文介绍了一个名为LabelBuddy的开源音频标注工具，它通过容器化后端支持AI辅助预标注，旨在弥合人类意图与机器理解之间的差距。

MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

William Grolleau et al.

cs.CV cs.AI

本文提出了一个用于动物重识别(ReID)视角分析的多视角合成数据集MOO, 并利用该数据集量化了视角变化对模型性能的影响. 研究验证了合成数据在真实场景中的可迁移性, 为跨视角动物重识别模型的开发提供了基础.

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

Umid Suleymanov et al.

cs.CV cs.AI

本文提出了一个针对表格数据的少样本类增量学习框架SPRINT, 它利用置信度伪标记和低存储成本来缓解灾难性遗忘. 在多个领域的基准测试中,该框架取得了优于现有方法的平均准确率.

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Damian J. Ruck et al.

cs.CV cs.LG

本文提出了一个可扩展的框架，用于评估合成图像编辑方法在生成恶劣环境条件（如雾、雨、雪、夜间）图像时的真实性。该框架结合了基于视觉语言模型的感知评估和嵌入分布分析，发现生成式AI方法在真实性上显著优于传统的基于规则的方法。

SpotIt+: Verification-based Text-to-SQL Evaluation with Database Constraints

Rocky Klopfenstein et al.

cs.DB cs.AI cs.LO cs.PL

本文提出了一个名为 SpotIt+ 的开源工具，用于通过有界等价验证来评估 Text-to-SQL 系统。该工具结合了基于规则的约束挖掘和 LLM 验证，以生成更符合实际数据库约束的反例，从而更有效地发现生成 SQL 与标准答案之间的差异。

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Dacheng Qi et al.

cs.CV cs.CL

本文提出了一种名为 Pointer-CAD 的 LLM-based CAD 生成框架，通过引入基于指针的命令序列表示来显式结合 B-rep 模型的几何信息。该方法将模型生成分解为步骤，并在需要选择几何实体时使用指针机制，以减少量化误差并支持复杂编辑操作。实验表明，该方法在生成复杂几何结构和降低分割错误方面优于先前的命令序列方法。

Balancing Fidelity, Utility, and Privacy in Synthetic Cardiac MRI Generation: A Comparative Study

Madhura Edirisooriya et al.

cs.CV cs.LG

本文比较了DDPM, LDM和FM三种生成模型在合成心脏MRI数据上的表现, 评估了它们在保真度, 下游任务效用和隐私保护之间的权衡. 研究发现, 在数据有限条件下, 基于扩散的模型(尤其是DDPM)能提供最佳的综合平衡.

Enhancing Authorship Attribution with Synthetic Paintings

Clarissa Loures et al.

cs.CV cs.LG

本文探讨了使用DreamBooth微调Stable Diffusion生成的合成图像，是否能提升绘画作品作者归属分类模型的性能。实验表明，结合真实与合成数据的混合方法，在ROC-AUC和准确率上优于仅使用真实画作。

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

Yixin Chen et al.

cs.CV cs.AI

本文提出了一种用于病理报告生成的稀疏门控混合专家框架RANGER. 它通过动态专家路由和自适应检索重排序来提升生成报告的质量.

A Constrained RL Approach for Cost-Efficient Delivery of Latency-Sensitive Applications

Ozan Aygün et al.

cs.NI cs.LG

本文提出了一种基于约束深度强化学习(CDRL)的方法, 用于在满足严格每包延迟要求的同时最小化网络资源分配成本. 该方法将问题建模为约束马尔可夫决策过程(CMDP), 并通过实验验证了其在确保及时吞吐量方面优于现有基线.

RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots

Soroush Nasiriany et al.

cs.RO cs.AI cs.LG

本文提出了RoboCasa365, 这是一个用于训练和评估通用机器人的大规模仿真基准。它包含大量多样化的家庭任务和环境, 并提供了海量演示数据, 旨在支持对多任务学习、基础模型训练等问题的系统性评估。

Low-Resource Guidance for Controllable Latent Audio Diffusion

Zachary Novack et al.

cs.SD cs.AI cs.LG

本文提出了一种基于选择性TFG和Latent-Control Heads (LatCHs)的引导方法, 用于控制Latent Audio Diffusion模型. 该方法在Latent空间直接操作, 避免了昂贵的解码器步骤, 并以较低的计算开销实现了对音频强度、音高等属性的有效控制.

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Maximilian von Klinski, Maximilian Schall

cs.CV cs.CL

本文提出了一种名为TaxonRL的强化学习方法, 用于解决细粒度视觉推理任务. 该方法通过引入中间奖励来分解分类过程, 在特定数据集上取得了优于人类的表现.

Turning Trust to Transactions: Tracking Affiliate Marketing and FTC Compliance in YouTube's Influencer Economy

Chen Sun et al.

cs.CY cs.CR cs.IR cs.LG cs.SI

本文开发了基于Web测量和NLP的工具，用于分析YouTube上的联盟营销生态及其对FTC指南的合规性。研究发现联盟链接广泛存在，但披露合规率很低，平台标准化功能有助于改善合规行为。

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Haian Jin et al.

cs.CV cs.AI cs.LG

本文提出了一种名为 ZipMap 的 stateful feed-forward 模型，用于 3D 重建。该模型通过 test-time training 层实现了线性时间复杂度的双向重建，在保持精度的同时显著提升了处理大型图像集合的效率。

SELDON: Supernova Explosions Learned by Deep ODE Networks

Jiezhong Wu et al.

astro-ph.IM cs.LG

本文提出了一种名为SELDON的连续时间变分自编码器模型，用于处理天体物理光变曲线数据。该模型结合了掩码GRU-ODE编码器、潜在神经ODE传播器和可解释的高斯基解码器，旨在实现快速、可解释的连续时间序列预测。

SimpliHuMoN: Simplifying Human Motion Prediction

Aadya Agrawal, Alexander Schwing

cs.CV cs.LG

本文提出了一种基于transformer的简化模型, 用于整合轨迹预测和人体姿态预测这两个任务. 该模型使用自注意力模块捕获时空依赖, 无需任务特定修改即可处理多种预测任务, 并在多个基准数据集上取得了先进的性能.

bluearXiv-ai 论文精选

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

⭐ 精选论文 ↑ 回顶部

📄 所有论文 ↑ 回顶部

cs.LG

cs.AI

cs.IR

cs.CL

cs.DS

others