bluearXiv-ai 论文精选

2026-03-11

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

cs.LG
94
cs.AI
49
cs.IR
9
cs.CL
43
cs.DS
5
others
142
总计
342

⭐ 精选论文 ↑ 回顶部

cs.LG

others

📄 所有论文 ↑ 回顶部

cs.LG

Abhinaba Basu
cs.LG cs.AI stat.ML
本文提出了一种用于选择性预测(selective prediction)中风险控制(risk control)的跨域不确定性量化方法, 核心是Transfer-Informed Betting (TIB). 该方法通过利用源域的风险分布来“预热”基于赌注的置信序列(WSR)的财富过程, 从而在数据稀缺的目标域上获得更紧的有限样本风险边界. 作者从理论上证明了TIB财富过程在所有源-目标域差异下都是有效的上鞅(supermartingale), 并且在域匹配时严格优于标准WSR. 实验在多个基准数据集上验证了TIB与Learn Then Test (LTT)单调测试框架结合的有效性, 特别是在小校准集场景下显著提升了覆盖率保证.
Ruihan Xu, Jiajin Li, Yiping Lu
cs.LG eess.SY math.NA math.OC stat.ML
本文通过将AdamW和Muon等常用优化器解释为矩阵算子范数下的最速下降,为理解优化器在宽度增加时的稳定性提供了新的几何视角。作者引入了一族均值归一化算子范数\(\|\cdot\|_{p \to q}^{\text{mean}}\),该范数具有层间可组合性,能产生宽度无关的光滑性界,并导出了如行归一化、列归一化等实用优化器。基于此提出的MOGA优化器,仅通过行/列归一化即可实现跨模型宽度的稳定学习率迁移,在大规模预训练实验中与Muon性能相当且在某些场景下更快。
Panayiotis Raptis, Fatih Aslan, George Iosifidis
cs.LG cs.NI
本文提出了一种用于AI-RAN的在线公平多任务学习框架OWO-FMTL,通过内外双层学习循环来保证用户间的长期公平性。该框架在动态场景下的实验表现优于现有基线方法。
Hui-Ze Tan et al.
cs.LG cs.AI
本文提出了一种名为HCAPO的框架, 旨在解决LLM agent在长视野任务中的信用分配问题. 该方法利用LLM自身作为事后评论家来改进step-level Q-value估计, 并在多个基准测试中展示了优于现有RL方法的性能.
Alejandro García-Castellanos et al.
cs.LG cs.AI
本文提出了一种将作用在异构乘积空间上的群不变函数约化为仅作用在其中一个分量上的各向同性子群不变函数的一般方法. 该方法通过建立明确的轨道等价关系 \((X \times M)/G \cong X/H\) 来实现, 并将其应用于扩展等变神经场(Equivariant Neural Fields)的适用范围.
Kaushik Roy et al.
cs.LG cs.RO
本文提出了一种名为SPREAD的几何保持框架, 用于终身模仿学习(LIL)中的知识蒸馏. 该方法利用奇异值分解(SVD)在低秩子空间中对齐策略表示, 并结合置信度引导的蒸馏策略, 在LIBERO基准测试上取得了先进性能.
Sichen Yang, Mauro Maggioni
cs.LG cs.AI stat.ML
本文提出了一种用于具有自然多层次结构的顺序决策问题的多级元强化学习方法。该方法通过将策略族压缩为高层MDP中的动作来构建层次表示,并结合基于技能的课程学习来促进跨任务和跨层次的技能迁移。
Michael Leznik
cs.LG stat.ML
本文提出了Temporal Markov Transition Field (TMTF), 作为Markov Transition Field (MTF)的扩展. 该方法通过将时间序列分段并估计局部转移矩阵, 改进了非平稳过程的图像表示, 使其适用于卷积神经网络的时间序列分析任务.
Anselm Paulus et al.
cs.LG
本文介绍了SoftJAX和SoftTorch这两个开源库,它们为JAX和PyTorch等自动微分框架提供了多种“软”松弛函数,以替代那些梯度信息为零或未定义的“硬”原语。这些库旨在使软可微分编程的工具箱更易于访问,并通过基准测试和案例研究进行了演示。
Jay Revolinsky, Harry Shomer, Jiliang Tang
cs.LG cs.AI
本文提出了GenGNN, 一个用于离散图生成的模块化消息传递框架. 实验表明, 基于GenGNN的扩散模型在多个图数据集上能达到与图transformer相当的性能, 同时推理速度更快.
John Cooper et al.
cs.LG
本文研究了混合序列模型(结合Transformer和state-space model)在表达能力和计算效率上的权衡. 通过理论分析和实验验证, 证明了在某些合成任务上, 混合模型能以更小的规模和内存实现非混合模型难以达到的性能.
Mohammad Hossein Safarpour et al.
cs.LG cs.AI
本文提出了一种基于模糊粗糙集理论的特征选择新模型FSbuHD, 用于处理混合信息系统. 该方法通过计算对象间的组合距离来推导模糊等价关系, 并将特征选择问题转化为优化问题, 在标准数据集上验证了其有效性.
Alexander Nemecek et al.
cs.LG cs.CR q-bio.GN
本文提出了一个评估基因组语言模型(GLM)记忆化风险的多向量隐私评估框架. 该框架整合了基于困惑度的检测、金丝雀序列提取和成员推理等方法, 通过植入不同重复率的金丝雀序列来量化重复和训练动态对记忆化的影响. 实验表明, GLM存在可测量的记忆化风险, 且风险程度因模型架构和训练方案而异.
Itamar Tsayag, Ofir Lindenbaum
cs.LG cs.AI
本文提出了一种使用连续松弛的Bernoulli门来发现强彩票假设子网络的方法. 该方法通过端到端的可微分优化, 仅训练门控参数而保持权重不变, 实现了网络的高比例稀疏化.
Vignesh Adhinarayanan, Nuwan Jayasena
cs.LG cs.AR cs.DC cs.PF
本文分析了 Mixture-of-Experts (MoE) 模型在推理阶段面临的双重性能惩罚, 并提出了一个预测性的 \(qs\) 不等式准则. 该准则结合了稀疏度 \(s\) 和质量等价因子 \(q\), 用于判断 MoE 模型相对于性能匹配的稠密模型是否在结构上处于劣势. 评估表明, 这种由路由和内存占用导致的碎片化现象是普遍的架构问题, 影响了包括 DeepSeek-V3 在内的前沿模型在长上下文场景下的推理吞吐量.
Edward Izgorodin
cs.LG cs.AI
本文提出了一种名为Semantic Level of Detail (SLoD)的框架,用于在知识图谱中实现连续的多尺度表示。该方法通过在双曲Poincaré球\(\mathbb{B}^d\)上进行热核扩散来定义“缩放”操作,从而在粗粒度与细粒度之间平滑过渡。实验表明,该方法能在无监督情况下自动检测出知识层次结构中有意义的抽象层级边界。
Federico Giannini, Emanuele Della Valle
cs.LG
本文提出了一种名为MAcPNN的分布式学习框架, 用于处理具有时间依赖性的IoT数据流. 该方法通过设备间的按需知识协助来减少通信开销, 并利用改进的cPNN结构来应对概念漂移.
Kailong Fan et al.
cs.LG
本文提出了一种新的训练范式, 将医学过程奖励模型与测试时强化学习相结合, 以提升医学大语言模型的推理能力. 该方法旨在用细粒度的专家对齐监督取代传统的多数投票机制, 从而在多个基准测试上取得了更好的性能.
David Berthelot et al.
cs.LG cs.CV
本文提出了一种名为Normalized Flow Matching (NFM)的新方法, 它利用预训练好的normalizing flow (NF)模型中的确定性耦合关系来指导训练学生flow模型. 该方法在图像生成任务上超越了使用独立耦合或optimal transport耦合训练的flow模型, 并改进了作为教师的auto-regressive NF模型.
Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti
cs.LG cs.CV cs.NE
本文为使用global average pooling和线性分类器的CNN,推导了交叉熵损失关于卷积核的Hessian迹的闭式表达式,并基于此提出了一个参数化感知的平坦度度量。该度量考虑了卷积和池化引入的缩放对称性与滤波器交互,实验表明其可作为评估CNN泛化性能的稳健工具。
Ren Fujiwara, Yasuko Matsubara, Yasushi Sakurai
cs.LG
本文提出了一种名为CALIPER的数据驱动测试方法, 用于在概念漂移发生后判断用于重新训练模型的后续数据量是否足够. 该方法不依赖于特定的检测器或模型, 通过分析数据流中的状态依赖性来进行估计.
Yuchen Yuan et al.
cs.LG cs.AR cs.CE cs.DC
本文提出了一种名为EPIC的分布式科学机器学习框架, 该框架结合硬件约束与物理原理指导, 旨在解决在资源受限的边缘设备上进行实时科学计算的问题. 以全波形反演(FWI)为代表任务, 该方法通过在终端进行轻量编码并在中心节点进行物理感知解码, 显著降低了通信开销并保持了物理保真度.
Renos Zabounidis et al.
cs.LG
本文提出了一种结合LLM符号规划与深度强化学习(RL)的技能学习框架SCALAR. 该框架通过LLM提出技能及其前提与效果, 并利用RL训练技能策略, 同时将执行结果反馈给LLM以迭代修正技能描述, 从而提升了在复杂环境中的任务完成率.
Hongyu Cao et al.
cs.LG cs.AI
本文提出了一个名为Sim2Act的鲁棒仿真决策框架,旨在解决仿真器预测误差导致的策略不稳定问题。该框架通过对抗性校准和组相对扰动机制来提升仿真鲁棒性和决策性能。
Seungha Hong et al.
cs.LG
本文提出了一种用于在线时间序列预测的新框架DynaME, 它将概念漂移重新定义为Recurring Drift和Emergent Drift两种类型. 该框架通过动态组合专门的历史模式专家和一个稳定的通用专家, 来分别应对这两种漂移, 并在多个基准数据集上取得了优于现有方法的效果.
Chloe H. Su et al.
cs.LG
本文提出了一种学习自适应解码策略的方法, 用于动态选择大型语言模型(LLM)在推理时的采样策略. 该方法通过训练轻量级的解码适配器, 在序列级别和令牌级别进行自适应决策, 以在固定计算预算下提升数学和代码任务的准确性.
Shuangfei Zhai
cs.LG cs.CL
本文提出了一种改进的自注意力机制, 称为 exclusive self attention (XSA). 其核心思想是通过约束注意力机制, 使其仅捕获与 token 自身值向量正交的信息, 从而鼓励模型更好地建模上下文. 在标准语言建模任务上的评估表明, XSA 在不同模型规模下均优于标准的自注意力机制.
Wei Feng et al.
cs.LG cs.NI
本文提出了一种结合Reconfigurable Intelligent Surface (RIS)与语义通信的车辆边缘计算框架, 旨在降低动态车联网环境中的端到端延迟. 作者将卸载比例、语义符号数量和RIS相位偏移的联合优化问题建模为一个高维非凸问题, 并设计了一种两阶段混合优化方案, 其中使用Proximal Policy Optimization (PPO)处理离散决策, 使用Linear Programming (LP)优化卸载比例. 仿真表明该方案相比传统优化方法能显著降低延迟.
Alvaro Paredes Amorin, Andre Python, Christoph Weisser
cs.LG cs.AI
本文通过微调大语言模型从新闻标题中提取情感信号, 并将其与传统市场数据结合, 用于预测铝价. 研究发现, 在高波动时期, 融入情感数据的LSTM模型在夏普比率等指标上显著优于仅使用传统数据的基准模型.
Renos Zabounidis et al.
cs.LG
本文分析了在强化学习中处理无效动作时, 使用masking方法相对于penalty方法的优势. 研究揭示了一种在未使用masking的训练中出现的特定失效模式, 即对未访问状态中有效动作的系统性抑制, 并从理论上分析了softmax策略下这种抑制的指数衰减特性.
Runyao Yu et al.
cs.LG eess.SP
本文提出了一种用于预测含硅石墨负极电动汽车电池概率性电压滞回因子的数据驱动方法. 该方法通过数据协调框架处理异构工况, 并评估了统计学习和深度学习模型在预测不确定性及计算效率方面的性能.
Zhengzhao Ma et al.
cs.LG
本文针对强化学习中的校准退化问题, 提出了一种将推理与置信度目标解耦的框架 DCPO. 该方法在保持推理准确性的同时, 显著改善了模型的校准性能.
Zhen Zhang, Jielei Chu, Tianrui Li
cs.LG cs.AI
本文提出了一种基于概率必要性充分性(PNS)的正则化方法,用于指导类别增量学习(CIL)中的特征扩展. 该方法旨在通过因果视角减少任务内和任务间的伪相关, 从而缓解特征碰撞问题.
Siyang Cai et al.
cs.LG cs.AI cs.AR
本文提出了一种利用不完美的LLM生成RTL代码进行netlist表示学习的数据增强框架. 该方法通过合成网表的结构模式进行训练, 并在电路功能理解任务上验证了其向真实网表的泛化能力.
Jie Li, Qishun Yang, Nuo Li
cs.LG cs.AI
本文提出了一种融合地质先验知识与Transformer注意力机制的新模型GIAT, 用于测井岩性识别. 该方法通过地质信息引导的注意力偏置机制, 提升了模型的性能与可解释性.
David P. Woodruff, Samson Zhou
cs.LG cs.DS stat.ML
本文研究了分布式专家问题, 提出了一种新的通信协议. 该协议在 regret 和通信开销上改进了先前的工作.
Lina Berrayana et al.
cs.LG cs.AI
本文提出了一种名为Latent-DARM的潜在空间通信框架,旨在弥合离散扩散语言模型(DDLM)与自回归语言模型(ARM)之间的鸿沟。该框架让DDLM作为规划器,ARM作为执行器进行协作,在多个推理基准测试上取得了优于纯文本接口的性能,并显著降低了计算开销。
Arihant Jain et al.
cs.LG
本文提出了一种名为\(P^2\)GNN的即插即用技术, 通过引入原型(prototype)来优化消息传递过程, 以提升基础GNN模型的性能. 该方法将原型视为所有节点的全局邻居以丰富上下文信息, 并通过对齐消息到聚类原型来降噪, 在多个数据集上的实验显示了其有效性.
Egor Lifar et al.
cs.LG
本文提出了一种基于transformer架构的数据驱动信号分离方法, 用于从非高斯背景干扰中估计目标信号. 该方法通过改进的SoundStream tokenizer和交叉熵损失训练, 在MIT RF Challenge数据集上取得了优于传统MSE方法的性能, 并展示了零样本泛化能力.
Jake Gonzales et al.
cs.LG cs.GT cs.MA
本文提出了一种用于计算Risk-Sensitive Quantal Response Equilibrium (RQRE)的算法`RQRE-OVI`, 该算法在具有线性函数近似的多智能体强化学习中具有可证明的样本效率. 文章通过理论分析和实验验证了该方法在鲁棒性方面的优势.
Peihao Wang et al.
cs.LG
本文提出了一种名为Test-Time Control (TTC) layer的新方法,将推理过程建模为最优控制问题,并在推理时执行有限时域的LQR规划。该方法通过一个硬件高效的求解器实现,并作为适配器集成到预训练大语言模型中,在多个数学推理基准上取得了显著的性能提升。
Rian Atri
cs.LG
本文提出了一种在固定推理计算成本下提升Transformer模型推理效率的方法. 通过引入长度感知的注意力先验(RPA)和增益感知的训练控制器(Guardian), 在不增加推理参数和延迟的情况下, 降低了验证集上的交叉熵.
MoonJeong Park et al.
cs.LG stat.ML
本文在分布无关的 transductive 设置下,基于 optimal transport 和 Wasserstein 距离,提出了新的 representation-based 泛化界。该界限可高效计算,并在图节点分类任务中与经验泛化行为强相关,改进了经典的复杂度度量。
Jann Krausse et al.
cs.LG cs.AI cs.AR cs.ET cs.NE
本文提出了一种名为DendroNN的新型神经网络架构,用于处理事件驱动的时空数据。它模仿了生物神经元树突的序列检测机制,并通过无梯度的“重连”阶段进行训练,旨在实现低功耗的硬件部署。
Saketh Vishnubhatla et al.
cs.LG
本文提出了一种利用代理变量(proxy variables)引导的测量校准框架, 用于校正聚合结果变量中的系统性测量误差. 该方法通过因果图建模数据生成过程, 并使用变分自编码器(VAE)分离内容与偏差潜在变量, 从而估计并校正偏差.
Ashkan Panahi
cs.LG math.PR stat.ML
本文研究了数据服从 Gaussian mixture model 的训练算法, 利用 Gordon comparison theorem 将模型演化与一个更易分析的替代动力系统联系起来. 该理论为分析感知机模型的训练提供了非渐近视角, 揭示了 dynamic mean-field 表达式之外的涨落参数.
Heng Zhang et al.
cs.LG
本文提出了一种名为Reward-Zero的通用隐式奖励机制,它利用语言嵌入为强化学习提供密集的语义进度信号。该方法通过比较任务描述与智能体交互经验的嵌入来生成奖励,从而加速训练并提升泛化能力。
Xiong Zhang et al.
cs.LG cs.AI
本文提出了一种用于通用图异常检测(GGAD)的测试时自适应图模型TA-GGAD。该模型通过建模异常非同类性(Anomaly Disassortativity)问题,实现了跨域泛化,在多个真实图数据集上取得了先进的检测性能。
Engin Deniz Erkan, Elif Surer, Ulas Yaman
cs.LG
本文提出了一个用于预测Material Extrusion Additive Manufacturing中表面粗糙度的数据驱动框架。该框架结合了多层感知机回归器和条件生成对抗网络来提升预测精度,并开发了一个基于Web的交互式可视化工具,用于辅助工艺规划。
Anshul Thakur et al.
cs.LG cs.AI cs.CR
本文提出了一种基于零阶优化的差分隐私数据集压缩方法, 旨在将数据集压缩技术扩展到非可微分的经典临床预测模型(如决策树, Cox回归). 该方法通过仅使用函数评估来生成合成数据集, 在多个临床数据集上的实验表明, 其能在提供有效隐私保护的同时, 保持下游模型的预测性能.
Li Ni et al.
cs.LG
本文提出了一种用于属性超图聚类的端到端对比学习方法, 通过联合优化表示学习和聚类分配学习, 避免了传统两阶段方法中可能引入无关聚类信息的问题. 实验表明该方法在多个数据集上优于基线模型.
Swaminathan S K, Aritra Hazra
cs.LG cs.AI cs.RO
本文提出了一个名为SPAARS的课程学习框架, 用于离线到在线强化学习(RL)的安全策略对齐. 它通过先在低维latent空间进行安全探索, 再切换到原始动作空间进行利用, 以规避decoder瓶颈并提升性能. 实验表明该方法在多个基准任务上超越了现有基线.
Ali Yousefian, Arianna Burzacchi, Simone Vantini
cs.LG
本文针对Spatial-Temporal Matching算法在计算效率和匹配精度上的不足,提出了四项改进措施,包括动态缓冲区、自适应观测概率等。通过在米兰城区的真实GPS数据上进行评估,新方法在多个指标上均表现出性能提升。
Tatjana Krau et al.
cs.LG
本文探讨了 Markov Decision Process (MDP) 的设计选择对强化学习从仿真迁移到实际应用的影响。通过一个颜色混合任务,作者评估了不同 MDP 配置和动态模型在仿真与现实实验中的表现,并提供了工业过程控制中部署 RL 的实用设计指南。
Rong J.B. Zhu
cs.LG
本文提出了一种用于off-policy evaluation的非参数加权方法,旨在降低传统逆概率加权方法的高方差问题。该方法通过结合奖励预测进一步提升了估计的准确性。
Albus Yizhuo Li, Matthew Wicker
cs.LG cs.AI stat.ML
本文提出了一种用于Mixture-of-Experts (MoE) Transformer的可扩展贝叶斯框架VMoER,旨在实现大规模基础模型的不确定性校准。该方法通过在专家选择阶段引入变分推断,以极小的计算开销显著提升了模型的校准性能和鲁棒性。
David Baumgartner et al.
cs.LG cs.AI
本文提出了一种基于时间条件归一化流(tcNF)的多变量时间序列异常检测方法. 该方法通过将归一化流模型的条件建立在历史观测上, 以捕捉时间依赖关系并估计未来观测的概率分布, 从而识别低概率的异常事件.
Luxi Lin et al.
cs.LG cs.AI
本文提出了一个名为EDA的参数与数据高效框架, 用于在speculative decoding场景中对draft model进行适配. 该方法通过解耦架构, 数据再生和样本选择机制, 以较低成本恢复微调后target model的推理加速性能.
Cosmo Santoni
cs.LG cs.AI cs.DC cs.PF
本文提出了一种基于XLA编译器的通用实现方法, 用于Mamba-2等state-space models的推理. 该方法无需定制CUDA内核, 即可在CPU, GPU和TPU等多种硬件上实现高效的\(O(1)\)状态缓存自回归解码.
Juha Harviainen, Pekka Parviainen, Vidya Sagar Sharma
cs.LG
本文研究了在存在有界错误的条件独立性测试下, 学习 Bayesian networks 和 Markov networks 结构的问题. 对于 Bayesian networks, 即使图参数有界, 任何错误都会阻碍结构的唯一识别; 而对于 Markov networks, 在顶点间不相交路径数较少的条件下, 结构是唯一可识别的.
Kağan Akman, Naci Saldı, Serdar Yüksel
cs.LG math.OC
本文采用最优控制理论对Transformer训练进行建模, 将其视为具有共享动作的离散时间受控粒子系统, 并证明了在温和紧性假设下全局最优策略的存在性. 通过三重量化方法, 为原始训练问题提供了近似最优策略, 并分析了模型的稳定性与经验一致性.
Alessio Masano et al.
cs.LG cs.AI
本文提出了一种基于能量函数和联想检索的transformer架构, 用于解决在线持续学习中的动态路由问题. 该方法在多个增量学习基准上取得了优于现有提示方法的性能.
Zhiwei Bai et al.
cs.LG
本文研究了Adam优化算法在高度退化多项式上的收敛行为. 通过理论分析和实验验证, 作者刻画了Adam在此类函数上的自动收敛特性及其超参数相图.
Dina El Zein, Shashi Kumar, James Henderson
cs.LG
本文提出了一种通过嵌入参数裁剪来改进非参数变分差分隐私(NVDP)的方法. 该方法从最小化Rényi Divergence上界的目标出发, 对后验分布的参数施加了理论驱动的约束, 从而在提升下游任务性能的同时获得了更紧的隐私上界.
Xin Yang, Yunfei Yang
cs.LG math.NA
本文研究了具有ReLU激活的深度神经网络的记忆容量。作者通过构造满足 \(W^2L^2= \mathcal{O}(N\log(\delta^{-1}))\) 的网络,证明了其能够记忆任意 \(N\) 个数据点,并给出了匹配的下界,从而刻画了宽度与深度之间的权衡关系。
Elisabeth Sommer James, Asger Hobolth, Marta Pelizzola
cs.LG stat.ME stat.ML
本文针对传统和凸NMF,在包括Negative Binomial和Tweedie模型在内的更广泛分布假设下,提出了一个统一的Majorize-Minimisation算法框架,并推导了相应的乘法更新规则。通过实证评估,文章表明噪声模型的选择对模型拟合和特征恢复至关重要,并提供了相关算法的R包实现。
Jingfeng Tang et al.
cs.LG
本文提出了一种名为BrainHO的方法, 用于从fMRI数据中学习大脑功能网络的层次化组织结构, 以辅助脑部疾病诊断. 该方法通过层次化注意力机制和约束策略, 在公开数据集上取得了先进的分类性能并识别了潜在的生物标志物.
Ali Sadeghkhani et al.
cs.LG physics.geo-ph
本文提出了一种基于条件生成对抗网络(cGAN)的框架, 用于根据测井孔隙度数据合成碳酸盐岩薄片图像. 该方法在有限的岩相学数据上训练, 能够生成地质学上合理的孔隙尺度图像, 为储层表征提供了连续的视觉化工具.
Boya Zhang et al.
cs.LG
本文提出了一种名为FreqCycle的多尺度时频分析方法, 用于时间序列预测. 该方法通过结合时域周期模式学习和频域可学习滤波器来增强对中高频特征的提取, 并在多个基准测试中实现了性能与效率的平衡.
Magali Legast, Toon Calders, François Fouss
cs.LG
本文通过一个偏置与评估框架, 实证分析了标签偏置和多种选择偏置对分类模型评估、性能及偏置缓解方法有效性的影响. 研究发现, 在无偏测试集上评估时, 公平性与准确性之间不存在权衡, 且偏置缓解方法的效果受数据中偏置类型的影响.
Federico Bello et al.
cs.LG cs.AI
本文提出了一个用于时间序列异常检测的开源框架, 并对基于GNN的方法进行了评估. 该框架支持可复现的实验, 并提供了对模型性能和可解释性的深入分析.
Muhammad Ahmad, Jingjing Zheng, Yankai Cao
cs.LG
本文研究了基于低秩分解的参数高效微调(PEFT)方法在序列学习中的灾难性遗忘问题. 研究发现, 更新子空间的几何结构与参数化方式对遗忘有显著影响.
Davit Melikidze et al.
cs.LG cs.AI cs.CL
本文提出了一种名为ActiveUltraFeedback的模块化主动学习流程, 旨在高效生成用于大语言模型对齐的偏好数据. 该方法通过不确定性估计动态选择信息量最大的响应进行标注, 实验表明其能以远少于静态基线数据量达到相当或更优的下游性能.
Nanxi Chen, Airong Chen, Rujin Ma
cs.LG cond-mat.mtrl-sci physics.comp-ph
本文提出了一种用于参数化相场建模的物理信息神经算子框架 PF-PINO. 该框架通过将相场控制方程的残差嵌入损失函数来施加物理约束, 在多个基准问题上验证了其在精度和长期稳定性上优于传统 Fourier 神经算子.
Yechen Zhang et al.
cs.LG cs.AI cs.CL
本文提出了一种名为Mousse的新优化器, 它通过结合Kronecker-factored preconditioning来改进Muon优化器. Mousse旨在解决Muon在非各向同性优化地形中可能存在的稳定性问题, 并在多个语言模型上展示了更快的训练收敛速度.
Luyao Zou et al.
cs.LG
本文提出了一种用于AI-RAN使能的多接入边缘计算系统的多原型引导联邦知识蒸馏方法。该方法通过集成自知识蒸馏和采用多原型策略来处理非独立同分布数据,并设计了新的损失函数。实验表明,该方法在多个数据集上优于现有基线。
Zifeng Huang et al.
cs.LG math.DS stat.ML
本文为 neural oscillator 模型推导了 PAC generalization bound, 证明了其估计误差随网络规模和时间长度呈多项式增长, 避免了参数复杂性的诅咒. 数值实验验证了理论预测的误差幂律以及通过约束 MLP 的 Lipschitz 常数来提升泛化能力的有效性.
Yixiong Chen
cs.LG cs.AI quant-ph
本文提出了一种结合LSTM与Quantum Circuit Born Machine的混合量子-经典计算框架, 用于金融波动率预测. 在沪深指数的高频数据上, 该模型在MSE等指标上优于纯经典基线, 展示了量子计算在金融预测中的潜力.
Jialei Tan et al.
cs.LG cs.AI
本文提出了一种用于split learning的自适应通道剪枝方案ACP-SL. 该方法通过设计一个标签感知的通道重要性评分模块来识别并剪枝不重要的通道, 从而压缩传输数据并降低通信开销. 实验表明该方案在测试精度和通信效率上优于基准方法.
Federico Pavesi, Antonio Candelieri, Noémie Jaquier
cs.LG
本文提出了一种在概率单纯形上进行贝叶斯优化的新方法 \(\alpha\)-GaBO, 该方法基于信息几何理论构建了反映该空间几何结构的 Matérn kernel, 并在多个基准测试和实际应用中验证了其优于传统欧几里得约束方法的性能.
Tiehua Mei et al.
cs.LG
本文提出了一种名为In-Context RLVR的新方法,用于提升大型语言模型的推理质量。该方法利用模型自身的in-context learning能力来评估推理过程的质量,并在强化学习训练中隐式地给予高质量推理路径更高的权重,从而在数学基准测试上取得了更好的准确性和推理质量。
Vitaly Bulgakov
cs.LG cs.AI
本文提出了一种称为pseudo-projector的轻量级修正方法,可集成到现有语言模型中而不改变其核心架构。该方法受multigrid范式启发,旨在通过抑制与标签无关的输入内容所诱导的方向来提升模型的鲁棒性。
Manan Mehta et al.
cs.LG stat.ME stat.ML
本文提出了一种用于制造过程代理建模的分层多任务多保真度框架, 通过分层贝叶斯公式联合学习任务间的共享信息与不同保真度数据的不确定性, 在合成和真实案例中提升了预测精度.
Mohamad Alkadamani, Halim Yanikomeroglu, Amir Ghasemi
cs.LG cs.AI cs.NI eess.SY
本文提出了一种基于 hierarchical resolution graph attention network (HR-GAT) 的图学习方法, 用于利用地理空间数据预测频谱需求. 该方法旨在处理复杂的空间需求模式并解决空间自相关问题, 在多个城市的测试中相比基线模型取得了更高的预测精度.
Kai Yao et al.
cs.LG
本文提出了一种名为GAST的参数高效微调方法, 该方法通过梯度对齐策略, 在数据和模型层两个维度上同时进行稀疏选择, 以更全面地减少信息冗余并提升微调效率. 实验表明该方法优于现有基线.
Aleksei Rozanov et al.
cs.LG physics.ao-ph
本文提出了一个名为CarbonBench的基准测试, 用于评估碳通量升尺度任务中的零样本空间迁移学习性能. 该基准整合了全球多个通量塔站点的观测数据, 并提供了标准化的评估协议和特征集, 旨在促进机器学习方法在地球系统科学中的应用和比较.
Yiyang Lu et al.
cs.LG cs.AI cs.CL
本文提出了一种用于持续微调大语言模型的自适应回放框架MSSR, 该框架通过估计样本级别的记忆强度并自适应地安排回放间隔来缓解灾难性遗忘. 实验表明, 该方法在多个模型和任务上优于现有的回放基线.
Ganzhao Yuan
cs.LG math.NA math.OC
本文提出了OptEMA, 一种自适应指数移动平均方法, 用于随机优化. 它在标准SGD假设下, 实现了噪声自适应的收敛速率.
Erkan Turan, Maks Ovsjanikov
cs.LG
本文揭示了在 Gaussian kernel 下,drift operator 等价于 smoothed distributions 上的 score difference,从而将 drifting 方法置于 score-matching 的理论框架中。作者通过 Fourier 分析和变分视角,分析了不同 kernel 的收敛特性,并提出了改进训练稳定性和效率的方案。
Fredrik K. Gustafsson et al.
cs.LG
本文提出了一个用于评估生物信号基础模型在单导联心电图和光电容积脉搏波信号上性能的多模态基准数据集 SignalMC-MED. 该研究通过系统评估发现, 特定领域的生物信号模型通常优于通用时间序列模型, 且多模态融合能带来性能提升.
Alberto Fernández-Hernández et al.
cs.LG cs.AI
本文通过分析PPO算法中actor-critic网络隐藏神经元的激活模式,提出了一种基于Overfitting-Underfitting Indicator (OUI)的早期筛选方法,用于在训练初期识别学习率是否合适。该方法能有效区分不同学习率下的训练表现,并与其他早期筛选标准相比展现出优势。
Maximilian Beck et al.
cs.LG cs.AI cs.SE
本文提出了一种称为"神经调试器"的模型,它通过训练语言模型来模拟传统调试器的交互式操作。该模型能够根据调试指令进行正向和逆向的程序执行预测,为构建更强大的代码生成与理解系统奠定了基础。
Lucas Prieto et al.
cs.LG cs.AI cs.CV
本文通过引入Bag-of-Words Superposition (BOWS)这一受控环境,研究了在特征相关(而非理想稀疏独立)的数据下,神经网络中的superposition现象。研究发现,特征间的相关性可以导致干扰变得具有建设性,并自然形成语义簇和循环结构,这修正了以往基于稀疏独立特征的几何理解。
Aleksei Rozanov, Arvind Renganathan, Vipin Kumar
cs.LG physics.ao-ph
本文提出了一种结合表示学习与物理约束的框架 TAM-RL,用于提升陆地碳通量升尺度估算的准确性和泛化能力。该方法在多个通量塔站点上取得了优于现有数据集的预测性能。

cs.AI

Cornelius Emde et al.
cs.AI cs.CL cs.LG
本文提出了一个名为MASEval的框架无关库, 用于评估基于LLM的多智能体系统, 而非仅仅评估模型. 通过系统级的比较实验, 作者发现框架选择与模型选择对性能的影响同等重要.
Sunil Prakash
cs.AI cs.MA cs.SE
本文提出了一种用于多智能体LLM系统的新型通信协议LDP, 它通过引入身份卡片、渐进式负载、受管会话等机制来改进委托效率与可治理性。初步实验表明该协议在延迟和令牌开销方面有优势。
Kyle McCleary, James Ghawaly
cs.AI
本文通过一个模型无关的评估框架,研究了在固定预算约束下,搜索深度、检索策略和生成预算对智能体检索增强生成系统精度和成本的影响。实验发现,精度随搜索次数增加而提升但存在上限,混合检索结合轻量级重排效果最佳。
Joshua Castillo, Ravi Mukkamala
cs.AI cs.IR cs.LG
本文提出了一个名为Guardian的端到端决策支持系统, 用于失踪儿童调查和早期搜寻规划. 该系统整合了Markov chain, reinforcement learning和LLM, 将非结构化数据转化为可操作的概率搜索计划.
Rui Liu et al.
cs.AI
本文提出了一种名为AgentOS的新型个人智能体操作系统范式, 旨在用统一的自然语言界面取代传统的GUI/CLI, 其核心是一个能够解析用户意图、分解任务并协调多个智能体的Agent Kernel. 作者认为实现AgentOS本质上是一个知识发现与数据挖掘问题, 并为此定义了一系列新的研究挑战.
Joshua Castillo, Ravi Mukkamala
cs.AI cs.CL cs.DC cs.IR cs.LG
本文提出了一个基于多LLM共识的管道系统, 用于失踪人员调查中的信息提取与处理. 该系统通过协调多个任务专用模型并引入共识引擎来解决分歧, 并利用QLoRA微调来增强性能.
I. Samuel Akinwande et al.
cs.AI eess.SY
本文提出了一种名为FaBRIC的新算法, 用于验证由神经网络控制的动力系统(neural feedback systems). 该算法整合了前向可达性分析(forward reachability analysis)与新提出的后向可达性分析(backward reachability analysis)技术, 以计算可达集的过近似与欠近似. 在基准测试中, 该方法的性能显著优于现有技术.
Yixiong Chen et al.
cs.AI
本文提出了一个轻量级的医学多模态智能体Meissa, 它通过从大型前沿模型中蒸馏结构化的交互轨迹, 学习何时以及如何调用外部工具进行多步推理. 该方法在多个医学基准测试中取得了与前沿模型相当的性能, 同时实现了完全离线部署, 显著降低了延迟和成本.
Yunfei Xie et al.
cs.AI
本文提出了一个名为MEMO的框架, 用于优化多轮多智能体大语言模型游戏中的推理时上下文. 它通过结合记忆保留与探索机制来提升性能的稳定性和鲁棒性.
Elija Perrier, Michael Timothy Bennett
cs.AI
本文探讨了语言模型智能体中的时间、身份与意识问题, 提出了一种基于Stack Theory中temporal gap概念的分析框架. 该方法通过分离评估窗口内的成分出现与单一客观步骤中的共现, 构建了可计算的persistence scores, 并将其与操作性的身份度量相关联, 形成了一个用于身份评估的保守工具包.
Zhanlin Liu, Yitao Li, Munirathnam Srikanth
cs.AI
本文提出了一种名为EPOCH的工程协议,用于异构环境中的多轮系统优化。该协议将优化过程组织为基线构建和迭代自我改进两个阶段,并通过标准化的角色和命令接口来协调提示、代码等组件的优化。
Seunghwan Kim et al.
cs.AI cs.CL cs.LG
本文介绍了一个名为 Sentinel 的自主 AI agent,它利用 Model Context Protocol (MCP) 和多种临床工具,对远程患者监测 (RPM) 的生命体征数据进行分诊。该 agent 在多项评估中表现优于基于规则的阈值和个体临床医生,展示了其在临床环境中进行可靠、低成本分诊的潜力。
Hajime Shimao, Warut Khern-am-nuai, Sung Joo Kim
cs.AI cs.MA
本文研究了多LLM审议系统中的混沌动力学。通过将五人LLM委员会建模为随机动力系统,并计算经验Lyapunov指数来量化系统的不稳定性。研究发现,即使在确定性预期较高的\(T=0\)条件下,角色分化和模型异质性也会导致轨迹发散。
Junnan Dong et al.
cs.AI
本文针对大型语言模型在处理具有复杂结构的非规范表格时遇到的困难, 提出了一个将表格推理建模为闭环决策过程的智能体框架. 该框架通过构建分层元图来捕获语义, 并引入结合历史执行经验的记忆机制来持续优化决策路径.
Tong Wang et al.
cs.AI cs.DB cs.IR
本文提出了一个名为DataFactory的多智能体框架, 用于解决TableQA任务中LLM面临的上下文长度限制, 幻觉和复杂推理等问题. 该框架通过专门的团队协调和自动知识转换, 在多个基准数据集上取得了优于基线方法的性能提升.
Tavishi Sharma, Vinayak Sharma, Pragya Sharma
cs.AI
本文提出了一个名为TrustBench的双模式框架, 用于在自主智能体执行动作前进行实时信任验证. 该框架通过领域特定插件和低延迟设计, 旨在减少有害动作的发生.
Renwei Meng
cs.AI
本文提出了一种可解释的创新引擎, 将知识单元从文本块升级为"方法即节点". 该系统通过维护可追溯的加权方法来源树和用于高效导航的层次聚类抽象树, 结合策略代理选择显式合成算子并记录可审计轨迹, 实现了对多步合成的控制. 实验表明其在多个领域和骨干模型上优于基线, 特别是在推导密集型任务中.
Subramanyam Sahoo et al.
cs.AI cs.CL cs.CY cs.LG
本文探讨了提升大语言模型逻辑推理能力可能意外促使其发展出情境感知这一潜在危险能力。作者提出了一个理论框架,分析了从演绎、归纳到溯因的推理进步如何系统地增强模型对自身及环境的认知,并指出了当前安全措施的不足。
Jiangming Shu et al.
cs.AI
本文提出了一种名为EvalAct的方法, 将检索质量评估转化为显式动作, 并引入Process-Calibrated Advantage Rescaling (PCAR)优化方法, 以利用过程信号改进检索增强智能体在多步推理中的可靠性. 在多个开放域QA基准测试上的实验表明该方法有效, 尤其是在多跳任务上提升显著.
Xupeng Chen
cs.AI
本文通过构建一个宏观金融压力测试模型, 分析了快速AI采纳可能引发的经济失衡. 模型指出, 在现有经济制度下, AI带来的生产力丰裕可能与总需求不足并存, 并具体通过替代螺旋, 幽灵GDP和中介崩溃三个机制阐述了这一传导路径.
Bhanuka Silva et al.
cs.AI
本文提出了一个名为PrivPRISM的自动化框架, 用于检测Google Play商店中应用的数据安全声明与其完整隐私政策之间的不一致性. 该框架结合了encoder和decoder语言模型来提取和比较细粒度的数据实践, 并在大规模评估中揭示了高比例的不合规现象.
Ding Linghu et al.
cs.AI
本文提出了一个基于Bloom's Taxonomy的领域特定微调数据生成框架(BD-FDG), 用于将大语言模型(LLMs)适配到空间态势感知(SSA)等复杂工程领域. 该框架通过结构化知识组织、认知分层问题建模和自动化质量控制来构建高质量微调数据集, 实验表明基于该数据微调的模型在领域任务上表现显著提升.
Jincenzi Wu et al.
cs.AI
本文提出了一个用于提升大语言模型社会推理能力的强化学习框架 Social-R1 及其配套的对抗性基准 ToMBench-Hard. 该方法通过监督整个推理过程, 使一个 4B 参数的模型在多个社会推理基准上超越了更大的模型.
Haibin Wen et al.
cs.AI
本文提出了Logos, 一个将多步逻辑推理与严格化学一致性相结合的分子推理模型. 它通过分阶段训练策略, 在多个基准数据集上实现了结构准确性与化学有效性的良好平衡, 并提供了可解释的中间推理步骤.
Yuyang Dai
cs.AI
本文研究了LLM在输出数值化置信度时, 其标度设计(如0-100)对元认知评估的影响. 通过系统性地改变标度的粒度, 边界和规律性, 发现0-20的标度比标准的0-100标度能更有效地提升元认知效率.
Shivam Raval et al.
cs.AI
本文质疑了在大型语言模型(LLM)行为控制中广泛使用的线性表征假设。通过分析激活空间的内在几何结构,作者发现存在显著的、概念依赖的几何扭曲,表明全局线性几何近似并不理想。因此,他们提出了一种基于多项式核PCA的非线性干预方法"Curveball steering",该方法在特征空间中操作,更好地尊重了学习到的激活几何,并在几何扭曲较强的场景下表现优于线性方法。
Hongqiang Lin et al.
cs.AI stat.ML
本文提出了一种名为Robust Regularized Policy Iteration (RRPI)的离线强化学习方法,用于处理分布偏移和转移不确定性。该方法将问题表述为鲁棒策略优化,并引入一个可处理的KL正则化替代目标,通过一个鲁棒正则化的Bellman算子进行高效策略迭代。实验表明,RRPI在D4RL基准测试中取得了有竞争力的性能。
Athanasios Davvetas et al.
cs.AI
本文提出了一种用于评估NLP和RAG系统合规性的开放数据集构建方法。该方法结合领域知识与大语言模型,生成了针对欧盟AI法案的风险分类、条款检索等任务的数据集,并展示了其在评估RAG系统时的有效性。
Yuan Cao et al.
cs.AI
本文通过实验和理论分析研究了任务级模型合并中的崩溃现象. 研究发现, 任务间的表征不兼容性是导致合并崩溃的关键因素, 而参数空间冲突指标的相关性很弱.
Zhuoran Deng et al.
cs.AI
本文提出了一种基于认知间隙(epistemic gaps)生成内部注意优先级(attentional priorities)的方法,无需外部目标或奖励。该方法在模拟环境中得到验证,其优先级分配策略在特定指标下优于固定策略,并能无监督地恢复环境结构。
Andrew Murray et al.
cs.AI
本文提出了一个名为 GenePlan 的新框架, 它利用大型语言模型辅助的进化算法来生成针对 PDDL 描述的经典规划任务的领域相关广义规划器. 该框架将广义规划视为优化问题, 迭代进化可解释的 Python 规划器, 以最小化跨不同问题实例的规划长度. 在实验中, GenePlan 在多个基准领域上取得了接近最先进规划器的性能, 并显著优于其他基于 LLM 的基线方法.
Ilya Levin
cs.AI
本文探讨了人类推理与生成式人工智能交互产生的认知-知识论新形态, 称为"第三实体". 它结合了皮尔士符号学、波兰尼缄默知识理论等, 提出了"氛围创造"和"非对称涌现"等概念, 并讨论了其对教育理论和知识论的影响.
Pietro Dell'Oglio et al.
cs.AI cs.CL
本文提出了一种基于大语言模型(LLM)和人格特质(Big Five)来生成个性化辟谣信息的方法, 并利用另一个LLM作为自动化评估器来模拟人格特质以衡量其说服力. 结果表明, 个性化信息通常比通用信息更具说服力, 并且不同人格特质(如Openness和Neuroticism)对说服效果有不同影响.
Vera V. Vishnyakova
cs.AI cs.MA
本文提出了context engineering的概念, 将其定义为设计和管理AI agent决策信息环境的独立学科. 文章还引入了intent engineering和specification engineering, 共同构成了一个分层的agent工程成熟度模型.
Arash Shahmansoori
cs.AI cs.IR
本文提出了一个名为PRECEPT的统一框架, 用于LLM智能体在测试时的自适应. 该框架结合了确定性规则检索, 冲突感知记忆和基于Pareto前沿的提示进化循环, 旨在提升智能体在组合规则学习和知识鲁棒性方面的性能.
Zuhao Zhang et al.
cs.AI
本文提出了一个名为MiniAppBench的基准测试, 用于评估大语言模型生成交互式HTML应用(称为MiniApps)的能力. 该基准包含来自真实应用的500个任务, 并引入了一个基于浏览器自动化的代理评估框架MiniAppEval来评估生成应用的质量.
Xin An et al.
cs.AI
本文提出了一个名为Omni Parsing的统一框架,用于处理多模态解析任务。该框架通过分层解析和证据锚定机制,将非结构化数据转换为结构化知识。
Aman Sharma, Paras Chopra
cs.AI cs.LG cs.SE
本文提出了一个名为EsoLang-Bench的基准测试,用于评估大语言模型在冷门编程语言上的真实推理能力。研究发现,模型在标准代码生成基准上的高表现可能源于记忆,而在需要新语言学习的任务上表现显著下降。
Ming Wen et al.
cs.AI
本文提出了一个关注后果驱动安全的新范式, 并引入了OOD-MMSafe基准来评估多模态大语言模型识别潜在危险的能力. 作者还开发了CASPO框架以增强模型的安全推理, 实验表明该框架能有效降低风险识别的失败率.
Peng Sun et al.
cs.AI
本文提出了一种无需训练的视觉-语言指令微调数据选择方法CVS, 该方法利用冻结的视觉-语言大模型(VLLM)作为评估器, 通过比较模型在有/无问题条件下的答案有效性差异来筛选需要跨模态推理的高质量样本. 实验表明, 该方法在多个数据集上仅使用少量数据即可超越全数据训练的性能, 并显著降低了计算成本.
Xiaoxing Wang et al.
cs.AI
本文提出了一个名为AutoAgent的自进化多智能体框架, 旨在解决自主智能体在长期经验学习与实时上下文决策之间的协调问题. 该框架通过结合演化认知, 弹性记忆编排和闭环认知进化等组件, 在多个基准测试中提升了任务成功率与工具使用效率.
Shouwei Ruan et al.
cs.AI
本文提出了一种名为World2Mind的训练免费空间智能工具包,旨在提升多模态基础模型的空间推理能力。该方法通过构建结构化的空间认知地图,并引入一种几何-拓扑先验,来增强模型在未见场景中的泛化性能。
Jonah Brown-Cohen, David Lindner, Rohin Shah
cs.AI
本文通过引入opaque serial depth这一概念, 形式化地论证了Transformer架构中足够长的序列认知必须通过chain of thought外显. 作者为Gemma 3模型计算了该深度的数值上界, 并开源了自动化计算工具.
Tung Tran, Danilo Vasconcellos Vargas, Khoat Than
cs.AI
本文提出了一种名为Local Classifier Alignment (LCA)的新损失函数,用于缓解持续学习中的灾难性遗忘问题。该方法通过调整分类器与主干网络之间的匹配关系来提升模型性能,并在多个基准测试中取得了良好效果。
Hongbo Bo, Jingyu Hu, Weiru Liu
cs.AI cs.MA
本文提出了一种通过参数化提示(prompt)来影响基于LLM的多智能体对话的方法. 该方法将提示视为动作, 并基于智能体状态动态构建提示, 实验表明其能有效影响对话的动态过程.
Yunhang Qian et al.
cs.AI
本文提出了一个用于多模态医疗多智能体系统(Multi-Agent Systems, MAS)的统一编排与基准测试框架MedMASLab. 该框架旨在解决该领域在架构、数据集成和评估方面的碎片化问题, 并建立了一个涵盖广泛疾病和器官系统的基准.
Jinyue Li et al.
cs.AI
本文提出了PathMem, 一个用于病理学多模态大语言模型(MLLMs)的以记忆为中心的框架. 它通过模拟人类病理学家的分层记忆过程, 将结构化知识组织为长期记忆(LTM), 并利用Memory Transformer动态激活知识以辅助推理, 在多个基准测试中取得了先进性能.
Ronald Doku
cs.AI
本文研究了基于置信度的 abstention 在 ranked decision systems 中的有效性。它提出了 rank-alignment 和 no inversion zones 的形式条件,并区分了 structural uncertainty 和 contextual uncertainty 对 abstention 性能的影响。实证表明,contextual uncertainty 带来了更根本的挑战,而基于 exception 的干预方法在分布偏移下效果会下降。
Ann Yuan et al.
cs.AI cs.CL cs.LG
本文研究了大型语言模型(LLM)在涉及道德权衡的场景中的诚实性。研究发现,与人类不同,让模型进行推理会提高其诚实度,这与模型表示空间中欺骗性区域的亚稳定性有关。

cs.IR

Yuly Billig
cs.IR cs.DS math.MG
本文针对取值于任意度量空间的时间序列, 提出了一种基于Hellinger核的拉伸惩罚匹配问题. 为了优化该匹配, 作者引入了计算复杂度为三次方的Elastic Time Warping算法.
Saron Samuel et al.
cs.IR cs.AI
本文探讨了检索质量与生成式信息覆盖度之间的关系, 通过在多模态基准上的实验, 发现基于覆盖度的检索指标与生成响应的信息覆盖度存在强相关性. 研究为使用检索指标作为RAG性能的代理提供了实证支持.
Yingyi Zhang et al.
cs.IR
本文提出了一种基于认知科学中熟悉度与回忆双过程理论的新型记忆检索方法RF-Mem,用于个性化大语言模型。该方法通过评估熟悉度不确定性来动态选择检索路径,在固定计算预算下优于一次性检索和全上下文推理方法。
Zhihua Tian et al.
cs.IR cs.CL
本文针对Generative Engine Optimization(GEO)中内容被引用的实际问题, 提出了一个诊断与修复的框架. 该框架包含对引用失败模式的分类, 一个名为AgentGEO的智能体系统用于诊断和选择针对性修复工具, 以及一个以文档为中心的评估基准.
Mengwei Yuan et al.
cs.IR cs.CL
本文提出了一种名为TA-Mem的工具增强自主记忆检索框架,用于增强大型语言模型在长对话问答中的表现。该方法通过一个自主选择检索工具的智能体,动态地从多索引记忆数据库中提取信息,并在LoCoMo数据集上取得了优于基线模型的效果。
Abhishikth Mallampalli, Sridhara Dasu
cs.IR cs.AI cs.CL
本文介绍了一个名为MITRA的AI助手原型, 用于帮助物理合作项目(如CERN的CMS)检索内部文档知识. 该系统基于检索增强生成(RAG)技术, 采用自动化流程获取文档, 并使用本地部署的模型来确保数据隐私.
Haobo Zhang et al.
cs.IR
本文提出了一个名为RecThinker的智能体框架, 用于推荐系统中的工具增强推理. 该框架采用"分析-规划-执行"范式, 通过动态规划推理路径和自主调用工具来主动获取信息, 以改善用户-物品匹配.
Shivani Upadhyay et al.
cs.IR
本文介绍了TREC 2025 RAG Track的概况, 这是一个专注于检索增强生成系统评估的竞赛. 它基于上一届比赛, 引入了更复杂的叙事性查询和多层次评估框架, 旨在推动构建可信赖的、上下文感知的RAG系统.
Yash Kankanampati et al.
cs.IR
本文提出了一种基于 Voronoi cell 估计的框架,用于对 ColBERT 等 late-interaction 检索模型进行 token 剪枝。该方法将嵌入空间中每个 token 的影响范围建模为其 Voronoi 区域,从而在减少索引大小的同时保持检索质量。实验表明,该策略不仅是一种有效的剪枝方法,也有助于理解和改进密集检索系统中的 token 级行为。

cs.CL

Chengyu Shen et al.
cs.CL cs.AI
本文提出了一种名为MathQ-Verify的数学问题验证流程, 用于过滤数学数据集中定义不清或病态的问题. 该方法通过多阶段检查(格式验证, 形式化, 逻辑矛盾检测等)来提升数据质量, 并在多个基准测试上取得了优于基线方法的性能.
Raghavv Goel et al.
cs.CL cs.LG
本文比较了 diffusion 语言模型与 autoregressive 语言模型在内部表示结构上的差异. 研究发现 diffusion 目标会产生更分层的抽象和早期冗余, 并基于此提出了一种无需修改架构的静态层跳过方法以提升推理效率.
Sripad Karne
cs.CL
本文利用塞尔维亚语的双文制现象, 研究了稀疏自编码器(SAE)学习到的特征是否代表抽象语义. 通过对比同一句子在拉丁字母和西里尔字母下的特征激活, 发现模型特征对语义的编码优先于对拼写形式的编码, 且这种脚本不变性随模型规模增强.
Ibrahim Baroud et al.
cs.CL
本文提出了一个多语言匿名化基准数据集MultiGraSCCo, 包含10种语言, 通过机器翻译方法生成, 并保留了原始标注信息. 该数据集可用于训练标注员、验证标注以及提升自动个人信息检测模型的性能.
Zongyue Qin et al.
cs.CL
本文提出了一种名为ConFu的新型speculative decoding框架, 旨在通过让draft model"展望未来"来提升大语言模型推理速度. 该方法引入了contemplate tokens和soft prompts来利用目标模型的未来导向信号, 并通过动态机制和训练框架学习稳健的未来预测, 从而在多个下游任务上取得了比现有方法更高的token接受率和生成速度.
Hexuan Wang et al.
cs.CL
本文提出了一个名为SciTaRC的专家标注基准, 用于评估AI模型在需要深度语言推理和复杂计算的科学表格数据问答任务上的表现. 研究表明, 当前最先进的模型在该基准上存在显著性能差距, 并揭示了模型普遍存在的"执行瓶颈"问题.
Seungjun Yi et al.
cs.CL
本文提出了一个结合迭代codebook精炼与完整溯源追踪的自动化主题分析框架, 用于处理临床定性数据. 该框架在多个数据集上相比基线方法取得了更高的综合质量分数, 并在临床语料库中生成的主题与专家标注的主题具有一致性.
Juming Xiong et al.
cs.CL
本文提出了一种基于置信度的自适应决策框架, 用于优化大语言模型(LLM)的思维链(CoT)推理效率. 该方法通过分析单条推理轨迹的特征, 动态选择使用单路径或多路径推理, 在保持精度的同时显著减少了计算开销.
Kaiser Sun et al.
cs.CL cs.CV
本文系统性地诊断了多模态大语言模型在处理图像形式文本时出现的性能下降问题, 即"模态鸿沟". 研究发现该鸿沟与任务、数据及渲染方式(如字体)高度相关, 并揭示图像输入会选择性放大阅读错误. 基于此, 作者提出了一种自蒸馏方法, 有效提升了模型在视觉文本理解任务上的性能.
Trent R Northen, Mingxun Wang
cs.CL
本文提出了一个名为"Bioalignment"的评估框架, 用于衡量大型语言模型(LLMs)在多个技术领域中对生物解决方案的偏好倾向. 研究发现多数模型存在偏向合成解决方案的系统性偏差, 并通过在生物医学语料上进行微调, 成功提升了模型对生物方法的评分.
Jianing Yang, Yusuke Fujita, Yui Sudo
cs.CL cs.AI
本文提出了一种名为DuplexCascade的语音对话系统,它结合了级联ASR-LLM-TTS模块与无VAD的流式处理,通过引入微轮次交互和特殊控制令牌来实现全双工对话。该系统在保持大型语言模型智能的同时,优化了对话的响应速度和流畅性。
Taegyeong Lee et al.
cs.CL
本文提出了一种无需训练的直接嵌入优化方法, 用于处理包含否定和排除的查询检索. 该方法通过分解查询并优化嵌入, 在文本和多模态检索任务上取得了优于基线模型的效果.
Benjamin Reichman et al.
cs.CL cs.AI cs.LG
本文研究了情感作为影响大语言模型处理文本的潜在因素, 而非仅仅是一个分类标签. 通过分析情感如何系统性地改变Transformer模型中的注意力几何结构, 并引入了一个情感平衡的问答数据集AURA-QA. 最后, 作者提出了一个情感正则化框架, 在训练中约束情感条件化的表征漂移, 并在多个问答基准测试中验证了其有效性.
Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi Lee
cs.CL eess.AS
本文提出了一种名为SPAR-K的模态感知早期退出框架, 用于加速交错式口语语言模型(SLM)的推理. 该方法通过为语音token设计交替深度调度, 在大部分位置提前退出计算, 并周期性地进行全深度"刷新", 从而在保持感知质量的同时显著降低平均解码深度.
Thao Do et al.
cs.CL
本文提出了一种基于margin的query-driven context pruning框架, 通过leave-one-out策略评估句子对回答query的重要性, 并使用composite ranking loss进行训练. 该方法基于轻量级encoder-only Transformer, 在保证回答性能的同时实现了高效的context压缩.
Jiashuo Sun et al.
cs.CL cs.AI
本文提出了一种基于分类法引导的结构化推理框架 TaSR-RAG,用于改进检索增强生成中的证据选择。该方法通过将查询和文档表示为关系三元组,并利用轻量级分类法约束实体语义,以支持多跳推理问题。实验表明,该方法在多个基准测试上优于现有基线。
Wanchun Li et al.
cs.CL
本文利用 large language models (LLMs) 生成空间关系标签,以评估和扩展空间分类数据集。研究表明 LLM 标签与人类标注具有较好的一致性,并基于此方法为 Topological Relations Picture Series (TRPS) 增加了新场景,提升了数据集的覆盖范围。
Yijun Shen et al.
cs.CL
本文提出了一种名为StateFactory的方法, 用于将非结构化的观察数据转换为分层的对象-属性结构表示. 该方法利用语言模型构建这种因子化的世界状态表示, 并通过计算当前状态与目标状态之间的语义相似度来预测奖励. 在包含五个不同领域的RewardPrediction基准测试中, 该方法在零样本设置下展现出了优于基线模型的奖励预测性能.
Lukáš Eigler, Jindřich Libovický, David Hurych
cs.CL
本文提出了一种利用LLM生成合成数据来验证NLP评估指标的方法, 通过控制语义降级来模拟人类判断. 实验表明, 该方法在多个任务上能有效替代昂贵的人工标注, 其合成数据得出的指标排名与人类基准高度相关.
Trung Hieu Ngo et al.
cs.CL cs.AI
本文通过分析法语病历中性别与其他健康社会决定因素(SDoH)的关联, 研究了大型语言模型(LLM)中的偏见. 研究发现, 模型会依赖训练数据中嵌入的刻板印象做出与性别相关的判断.
Saugata Purkayastha et al.
cs.CL cs.AI
本文通过构建CoMoral基准数据集,揭示了大型语言模型在道德困境中倾向于优先进行道德推理而忽视常识性矛盾的局限性。研究发现模型普遍存在叙事焦点偏差,即更容易识别次要角色而非叙述者角色的常识矛盾。
Fermín Moscoso del Prado Martín, Suchir Salhan
cs.CL
本文通过一个模拟音位系统历史演化的随机模型, 研究了音位频率分布的统计规律性是否可能源于历时音变过程. 基础模型能复现秩频分布的一般形态, 但加入与功能负荷相关的效应及对偏好库存规模的稳定化倾向后, 模型能更好地匹配观测到的分布及库存规模与相对熵之间的负相关关系.
Isaia Gisler, Zhonghao He, Tianyi Qiu
cs.CL cs.LG
本文研究了语言模型在训练过程中如何通过语义忠实但内容无关的改写文本,从数据生成模型(教师模型)中隐秘地习得行为偏好。实验表明,即使改写内容明确表达相反偏好或经过严格过滤,这种“潜意识学习”现象依然存在,这对模型自生成训练数据的流程构成了潜在风险。
Petr Grinberg, Hassan Shahmohammadi
cs.CL
本文提出了一种名为ALARM的方法, 用于改进大型音频语言模型(ALMs)在推理任务上的性能. 该方法通过自重构(self-rephrasing)技术处理文本代理输入, 并融合多个音频编码器来增强表示, 在多个音频推理基准上取得了有竞争力的结果.
Shreyas Meher
cs.CL
本文通过比较在冲突事件分类任务上 fine-tune 通用模型 (Confli-mBERT) 与使用领域专用预训练模型 (ConfliBERT) 的性能差异, 为政治科学家选择 NLP 模型提供了一个实用的决策框架. 研究发现, 在常见事件类别上两者性能接近, 主要差异集中在罕见类别, 因此模型选择应基于类别分布, 误差容忍度和可用资源等具体因素.
Palmer Schallon
cs.CL
本文针对BLOOM系列Transformer语言模型中的注意力头塌陷问题进行了研究, 发现ALiBi位置编码导致相当比例的注意力头过度关注序列起始token. 作者提出了一种"外科手术式"重初始化方法, 在有限计算资源下有效恢复了大部分塌陷注意力头的功能.
Luc Builtjes, Alessa Hering
cs.CL
本文提出了一种基于开源大语言模型(llm)的、可本地部署的流程, 用于从放射学报告中提取纵向肿瘤负荷信息. 该方法遵循RECIST标准, 在荷兰语CT报告数据集上验证了其提取目标、非目标及新病灶属性的高准确率.
Isabelle Augenstein
cs.CL cs.IR
本文是一篇关于大型语言模型(LLM)如何利用其参数化知识与上下文知识之间交互作用的主题演讲概述. 作者探讨了模型内部知识评估, 知识冲突诊断以及成功利用上下文知识的特征.
Jacopo Vitale et al.
cs.CL cs.AI cs.IR
本文提出了一种利用非结构化电子健康记录(EHR)进行心血管风险自动分类的框架. 该方法比较了多种机器学习模型, 发现定制的Transformer架构在性能上优于传统方法和生成式大语言模型(LLM).
Denica Kjorvezir et al.
cs.CL
本文结合语义、词汇和领域视角来评估食谱相似性, 开发了一个基于Web的界面供领域专家验证结果. 专家评估了318个食谱对, 同意率达到80%, 该方法对个性化饮食和自动食谱生成有潜在应用.
Dechuan Teng et al.
cs.CL cs.AI
本文提出了一个用于任务导向对话建模的统一端到端框架ESAinsTOD。该框架通过引入指令对齐和模式对齐机制,增强了大型语言模型对多样化任务流程和模式的适应能力,并在多个基准数据集上取得了优于现有方法的效果。
Maks Požarnik Vavken et al.
cs.CL
本文评估了四种大型语言模型(LLMs)在食品营养领域检索增强生成(RAG)系统中的表现。研究聚焦于LLMs将自然语言查询转换为结构化元数据过滤器以进行高效检索的能力,结果表明其在处理可明确表达的约束时效果良好,但在处理复杂或不可表达的约束时仍面临挑战。
Sihong Wu et al.
cs.CL cs.AI
本文提出了一种利用rebuttal作为监督信号来提升AI生成同行评审反馈可操作性的方法. 该方法通过构建一个包含perspective标签和impact类别的大型数据集, 并采用supervised fine-tuning和preference optimization进行训练, 实验表明其在actionability和specificity方面优于基线模型.
Jan Drole et al.
cs.CL
本文提出了一种名为FoodOntoRAG的、与模型和本体无关的管道,用于食品领域的实体链接。该方法通过从领域本体中检索候选实体,并利用结构化证据来引导大型语言模型进行少样本学习,避免了微调,从而提高了对本体演变的鲁棒性。
Maria Kunilovskaya, Christina Pollkläsener
cs.CL
本文介绍了EPIC-EuroParl-UdS语料库的更新与合并版本,该资源整合了欧洲议会的原文及其翻译与口译文本。该版本修正了错误并增加了词对齐等新标注层,旨在支持基于信息论的语言变体研究。
Chengyu Shen et al.
cs.CL
本文提出了一个名为 One-Eval 的自动化评估系统,旨在简化大型语言模型的评估流程。该系统通过自然语言请求生成可执行、可追踪的工作流,集成了意图解析、基准测试解析和报告生成等功能。
Naman Gupta et al.
cs.CL
本文提出了一种基于Chow-Liu树的方法来优化Chain-of-Agents框架中处理长文本时的分块顺序。该方法通过学习分块间的依赖关系来生成顺序,实验表明其在多个长文本基准测试中优于默认顺序和基于语义相似度的排序。
James A. Michaelov, Roger P. Levy
cs.CL
本文探讨了语言模型预测阅读时间的能力, 发现与阅读时间最相关的并非最先进的transformer模型, 而是那些预测结果与简单n-gram统计量最相似的模型. 研究通过眼动追踪数据验证了这一观点.
Maike Züfle et al.
cs.CL
本文介绍了一个名为DoWhatISay (DOWIS)的多语言口语指令数据集,用于在更真实的场景下评估语音大语言模型(SLLMs)。研究发现,文本提示通常优于语音提示,强调了在SLLM评估中考虑语音输入的重要性。
Zhongren Chen, Joshua Kalla, Quan Le
cs.CL cs.CY
本文通过两项调查实验评估了多个前沿大语言模型在政治议题上的说服力, 发现其总体上超越了传统竞选广告, 且不同模型间存在异质性. 研究还引入了一种数据驱动的对话分析方法来识别潜在的劝说策略.
Zorik Gekhman et al.
cs.CL
本文探讨了 reasoning 在 LLMs 处理简单事实性问题中的作用。研究发现,reasoning 过程通过提供计算缓冲和事实提示,能有效提升模型参数知识的 recall 能力,但也可能增加产生幻觉的风险。
Mingyang Song, Mao Zheng
cs.CL
本文是一篇关于大语言模型时代模型合并方法的综述性文章. 它提出了一个名为FUSE的四维分类法, 系统性地回顾了该领域的理论基础, 算法, 应用场景和生态系统, 旨在为研究者和实践者提供一个结构化的基础.
Manya Wadhwa et al.
cs.CL
本文提出了一个名为CREATE的基准测试, 用于评估大型语言模型在联想创造力方面的能力. 该任务要求模型在概念之间生成多样且独特的连接路径, 并提供了客观的评分方法.

cs.DS

Benjamín Guzmán
cs.DS cs.AR cs.PF
本文提出了一种名为bsort的非比较排序算法, 适用于整数和浮点数. 该算法基于binary quicksort思想, 具有\(O(wn)\)的时间复杂度和\(O(w)\)的辅助空间复杂度, 在小字长数据类型上表现出色.
Cezar-Mihail Alexandru et al.
cs.DS
本文研究了在随机顺序流模型中的Unit Interval Selection问题. 作者提出了一种使用\(O(|OPT|)\)空间的单遍流算法, 其期望近似比达到了\(0.7401\), 并证明了超越特定阈值的改进需要\(\Omega(n)\)的空间.
Miguel Bosch-Calvo et al.
cs.DS
本文针对Weighted Triangle-Free 2-Matching (WTF2M)问题, 提出了一种基于局部搜索的PTAS (Polynomial-Time Approximation Scheme). 该算法对于任意给定的常数\(\varepsilon>0\), 都能在多项式时间内给出\((1-\varepsilon)\)-近似解.
Peaker Guo, Rayne Holland, Hao Wu
cs.DS cs.CR
本文提出了一种新的\(\varepsilon\)-差分隐私算法, 用于从用户贡献的字符串数据集中高效挖掘频繁子串. 该方法通过改进候选子串生成策略和基于频率关系的搜索空间剪枝, 在保持近似最优误差的同时, 将时间和空间复杂度从\(O(n^2\ell^4)\)显著降低至\(O(n \ell\log |\Sigma| + |\Sigma| )\)和\(O(n \ell+ |\Sigma| )\).
Joan Boyar et al.
cs.DS
本文研究了 Euclidean 平面中带权重的在线非交叉匹配问题. 作者分析了确定性算法、随机算法以及带撤销和共线点等变体下的竞争比上下界.

others

Seungwoo Jeong, Heung-Il Suk
stat.ML cs.AI cs.LG
本文从理论上刻画了满足 permutation-equivariance 对称性约束的线性 2D state-space model 的完整规范形式,证明了其可分解为局部自动力学与全局池化交互。基于此,作者提出了 Variable-Invariant 2D SSM (VI 2D SSM) 架构,通过 permutation-invariant 聚合实现了该规范形式,将变量轴上的依赖深度从 \(\mathcal{O}(C)\) 降至 \(\mathcal{O}(1)\),并简化了稳定性分析。所提出的 VI 2D Mamba 模型在多个时间序列任务上取得了 state-of-the-art 的性能,验证了保持对称性的 2D 建模的理论必要性。
Jatin Chhugani et al.
cs.AR cs.AI cs.LG cs.PF
本文提出了两种软件优化技术, Overflow-Aware Scaling (OAS) 和 Macro Block Scaling (MBS), 以提升 MXFP4 格式在大型语言模型推理中的量化精度. 这些方法无需硬件改动, 通过优化缩放策略有效减少了量化误差, 使 MXFP4 在精度上接近 NVFP4 的同时保持了其硬件效率优势.
Luca Collini et al.
cs.AR cs.CL
本文通过实验研究了不同语言模型在Verilog代码生成任务中与提示策略的交互作用. 作者评估了多种模型, 并分析了提示工程方法对生成结果的影响.
Verkor Team et al.
cs.AR cs.AI
本文介绍了一个名为Design Conductor的自主智能体,它能够利用前沿模型的能力,从概念到可流片的GDSII文件,端到端地自动设计半导体芯片。该智能体在12小时内成功设计出多款频率达1.48 GHz的RISC-V CPU微架构变体。
Zhengyuan Shi et al.
cs.AR cs.AI
本文提出了一个名为CktEvo的基准测试和参考框架, 用于评估在完整IP核(而非孤立代码片段)级别进行RTL代码演化的能力. 该框架将LLM生成的代码修改与工具链反馈相结合, 旨在实现功能保持且提升PPA(Power, Performance, Area)的仓库级代码优化.
Mu-Chi Chen et al.
cs.AR cs.AI cs.SE
本文提出了一个用于Verilog代码生成的多智能体框架, 通过集成测试驱动的验证来生成面向推理的训练数据. 该方法使本地微调的模型能够在测试时迭代地生成、测试和调试RTL设计, 并在功能正确性上超越了现有方法.
Jiayi Nie et al.
cs.AR cs.LG cs.SE
本文提出了一个名为KernelCraft的基准测试,用于评估LLM智能体为新兴AI加速器生成和优化底层kernel的能力。它通过一个基于函数调用和反馈的工作流,在硬件约束下自动验证和优化kernel代码。
T. Baldi, D. Casini, A. Biondi
cs.AR cs.AI cs.LG
本文提出了一个名为ALADIN的框架,用于分析面向嵌入式AI加速器的混合精度量化神经网络的设计空间。该框架能够在无需实际部署的情况下,评估模型精度、推理延迟和硬件资源消耗之间的权衡。
Hiroki Fukui
cs.CY cs.AI
本文通过多智能体LLM系统的封闭设施模拟实验,初步探讨了AI对齐技术可能引发的集体病态行为。研究发现,不可见的审查制度会加剧集体的病理性兴奋,而随着对齐约束复杂性的增加,系统的解离指数也会上升。这些结果表明,旨在确保安全性的对齐干预本身可能在集体层面产生医源性的危害。
Mahdi Taheri
cs.AR cs.AI cs.DC
本文总结了关于深度神经网络硬件加速器可靠性评估与增强的博士论文工作. 提出了一些新的、成本效益高的方法, 包括开发了新的分析性可靠性评估工具, 探索了可靠性、量化和近似计算之间的权衡, 并设计了一种名为AdAM的实时、零开销可靠性增强技术.
Luigi Capogrosso, Pietro Bonazzi, Michele Magno
cs.AR cs.CV cs.LG
本文对超低功耗边缘AI处理器进行了综述和性能对比, 涵盖了异构SoC, 神经加速器和in-sensor架构等. 作者通过在一个分割模型上对GAP9, STM32N6和Sony IMX500三款代表性处理器进行基准测试, 比较了它们在延迟, 能效等方面的表现.
Tobias Habermann, Martin Kumm
cs.AR cs.LG
本文提出了一种面向FPGA的data-rate-aware CNN加速器架构, 通过design-space exploration来优化硬件利用率和资源效率. 该方法在多像素处理中保持了数据的连续流动, 实验表明其相比之前的设计显著减少了算术资源的使用.
Jianlong Lei, Shashikant Ilager
cs.AR cs.AI cs.DC cs.PF
本文提出了一种名为ARKV的自适应KV缓存管理框架, 用于在有限内存预算下进行大语言模型的长上下文推理. 该方法通过动态分配精度级别来减少KV缓存的内存占用, 并在实验中展示了良好的准确性与内存效率平衡.
Seine A. Shintani
cs.CY cs.CL
本文提出了一种自托管的端到端流程, 用于从讲义PDF生成多项选择题(MCQs). 该方法使用本地LLM进行草拟, 并通过确定性的质量控制和可追溯的检查来确保最终输出质量, 旨在支持教育场景中的隐私和问责.
Effiong Blessing et al.
cs.NE cs.LG
本文通过整合多种记忆增强机制对Spiking Neural Networks (SNNs)进行了系统性的消融研究。实验表明,平衡的架构设计而非单一优化,能在准确率、能效和神经元集群结构上实现综合性能的提升。
Hasi Hays
cs.NE cs.LG
本文提出了一个结合结构可塑性与相位同步的生物启发式稀疏神经网络框架. 该框架通过同步门控机制, 在宏观序参量满足条件时才进行Hebbian结构更新, 并证明了系统的收敛性.
Sangkeum Lee
cs.AR cs.AI quant-ph
本文研究了在量子纠错中 ancilla 重置的"blind reset"方法, 并在超导和离子阱处理器上进行了跨平台评估. 该方法通过减少重置延迟来提升逻辑循环速度, 同时保持 ancilla 的清洁度, 研究通过模拟和硬件实验确定了该方法适用的平台特定条件.
Sales Aribe Jr., Gil Nicholas Cagande
cs.DC cs.AI
本文对面向边缘计算环境的联邦学习(FL)技术进行了系统性综述与性能评估, 将现有方法归类并基于多个基准数据集评估了五种主流FL算法的性能. 研究发现不同算法在准确性、通信效率等指标上各有优劣, 并指出了数据异构性等现存挑战与未来研究方向.
Mohammed Cherifi
cs.DC cs.AI cs.LG eess.SY
本文提出了一种用于电动汽车充电基础设施管理的边缘部署AI agent架构, 通过部署领域专用的AI agent来实现自主故障诊断与修复. 该架构包含置信度校准的自主解决机制和自适应检索增强推理等组件, 并在模拟环境中展示了较高的自主解决率和较低的延迟.
Atousa Jafari et al.
cs.AR cs.AI cs.DC cs.LG
本文提出了一种用于Reservoir Computing的压缩框架,该框架通过基于敏感性的剪枝机制来平衡量化、剪枝、模型精度和硬件效率。实验表明,该方法能在保持精度的同时显著提升FPGA实现的资源效率。
Soumita Chatterjee et al.
cs.AR cs.AI
本文对基于FPGA的AI加速器进行了全面的综述, 探讨了其架构设计、硬件层面的优化技术(如循环流水线、并行化、量化等)以及性能分析. 文章还概述了当前先进的FPGA神经网络加速器, 并指出了该领域未来设计所面临的挑战和优化方向.
Keita Morisaki
cs.AR cs.LG
本文提出了一种名为AetherFloat的新型可参数化浮点架构家族,旨在替代IEEE 754标准以优化AI加速器。该架构通过结合多种设计,如Quad-Radix缩放和显式尾数,显著减少了硬件面积、功耗和延迟,并提供了更宽的动态范围以规避块缩放逻辑。
Changliang Wei, Yangyang Wang, Xueyu Zhu
cs.NE cs.LG math.NA stat.ML
本文提出了一种基于物理信息神经网络(PINN)的框架, 用于从部分噪声观测中联合推断神经元模型的生物物理参数和隐藏状态. 该方法在多种放电和簇发模式的Morris-Lecar模型上进行了验证, 即使在参数初始猜测不理想的情况下也表现出鲁棒性.
Mengqi Liao et al.
cs.DC cs.AI
本文提出了一种名为Compressed PagedAttention的方法,结合了token-wise KV cache淘汰与PagedAttention机制,并基于此开发了高并发LLM推理引擎Zipage。该方法旨在解决LLM推理阶段KV cache导致的内存瓶颈问题,在数学推理任务上能以较小性能损失实现显著的推理加速。
Musa Cim, Burak Topcu, Mahmut Taylan Kandemir
cs.AR cs.AI
本文对两种FP4格式(MXFP4和NVFP4)在Qwen2.5模型上的量化敏感性进行了系统分析。研究发现,MLP的上下投影层对量化最敏感,而注意力机制的敏感性较低,且敏感性分布与模型深度和具体格式有关。
Muyukani Kizito
cs.PL cs.AI cs.SE
本文介绍了一种名为Turn的编程语言, 专为基于LLM的自主agent软件设计. 它通过引入认知类型安全等语言级构造, 将关键不变量从应用层约定提升为语言保证.
Sahal Sajeer et al.
cs.SD cs.AI
本文提出了一种针对电子舞曲(EDM)音乐结构分割的Transformer模型EDMFormer. 它结合了自监督音频嵌入和一个EDM专用数据集, 在边界检测和段落标注上优于现有方法.
Shaun Feakins, Ibrahim Habli, Phillip Morgan
cs.CY cs.AI cs.CR
本文探讨了前沿AI系统安全论证(safety cases)的基础重构问题. 作者借鉴了安全关键行业(如航空航天)的保障方法论, 分析了当前AI对齐(alignment)社区在构建安全论证时存在的局限性, 并通过一个关于欺骗性对齐(Deceptive Alignment)的案例研究, 提出了构建更稳健、可辩护的安全论证框架的初步方向.
Ayushi Agarwal
stat.ML cs.LG
本文研究了AI alignment verification的可行性, 证明了不存在一个verification procedure能同时满足soundness, generality和tractability这三个属性, 构成了一个trilemma. 该结果揭示了alignment formal certification的根本性限制.
Roberto Tacconelli
stat.ML cs.IT cs.LG
本文提出了一种名为Midicoth的无损压缩系统, 通过引入一种微扩散去噪层来改进自适应统计模型产生的概率估计. 该方法将先验平滑视为一种收缩过程, 并应用反向去噪步骤, 利用经验校准统计量校正预测概率, 从而提升压缩效率.
Shiheng Li et al.
quant-ph cs.AI
本文提出了一个利用大语言模型(LLM)自动化超导量子比特控制和测量的框架. 该框架通过知识库按需生成和调用无模式工具来执行实验, 并以谐振腔自主表征和量子非破坏性(QND)测量复现为例进行了展示.
Tzafrir Rehan
cs.SE cs.AI
本文提出了一种名为Test-Driven AI Agent Definition (TDAD)的方法论, 用于从行为规约编译出能使用工具的AI agent. 该方法通过将prompt视为可编译产物, 并引入测试分割与语义变异测试等机制, 旨在提升agent行为的可测量合规性与开发可靠性.
Piyush Gupta et al.
cs.RO cs.AI cs.ET cs.MA
本文提出了一种名为Scale-Plan的可扩展框架,用于异构多机器人团队的长时程任务规划。该框架利用大语言模型从自然语言指令中生成紧凑的、任务相关的问题表示,并通过结构化图搜索过滤无关信息,从而提高了规划的可扩展性和可靠性。
Shijia Liao et al.
cs.SD cs.AI cs.CL
本文介绍了Fish Audio S2,一个开源的文本转语音系统。该系统支持多说话人、多轮生成,并能通过自然语言描述进行指令控制。
Brian Isett et al.
cs.CV cs.AI
本文提出了一种轻量级的多癌症肿瘤定位框架 MuCTaL, 用于数字病理学中的可部署应用. 该模型在四种癌症的平衡数据集上训练, 并在未见过的胰腺癌数据上进行了泛化能力测试.
Dominik Pegler et al.
cs.HC cs.AI
本文通过实验研究了人类对装箱问题最优解的“可解释性”偏好. 实验发现, 偏好与解的结构特性(如与贪心启发式算法的对齐, 箱内物品构成的简单性, 以及有序的视觉呈现)相关.
Yuanjie Lu et al.
cs.RO cs.LG
本文提出了一种名为 APPLV 的方法, 它利用预训练的 vision-language model 来预测 classical motion planner 的参数, 而非直接输出控制动作. 该方法通过 supervised learning 和 reinforcement learning 两种策略进行微调, 在仿真和实物实验中均展现出优于现有方法的导航性能与泛化能力.
Nils Jörgensen
cs.NI cs.LG cs.RO
本文通过测量活动挑战了仅依赖信道级指标预测端到端吞吐量的假设. 研究发现, 即使在信道指标准确的情况下, 由于MIMO层数适配等系统行为, 预测仍会高估吞吐量, 而数据驱动的Gaussian process模型能更准确地直接学习端到端性能.
Lei Zhang, Markus Stricker
cond-mat.mtrl-sci cs.CL
本文提出了一种基于文本的无标签筛选策略, 用于在广阔的组成空间中筛选组合电催化剂. 该方法利用从科学文本中提取的 composition embeddings 来表征材料组成, 并通过与目标属性概念的相似性进行优先级排序. 在多个材料库上的评估表明, 轻量级的 Word2Vec 基线模型结合简单的元素嵌入线性组合, 在减少候选组成数量的同时, 能保持接近最佳实测性能.
Pratyay Kumar et al.
cs.CR cs.AI
本文提出了一种名为NetDiffuser的框架, 用于生成能够欺骗基于深度学习的网络入侵检测系统(NIDS)的自然对抗样本(NAEs). 该方法通过特征分类和扩散模型注入扰动, 在多个基准数据集上展示了较高的攻击成功率.
Daniel M. Jimenez-Gutierrez et al.
cs.DC cs.AI cs.LG
本文提出了一种名为FedLECC的联邦学习客户端选择策略,该策略通过聚类和损失指导来选择参与训练的客户端。实验表明,该方法在非独立同分布数据下能提升模型精度并减少通信开销。
Mohamed Harmanani et al.
cs.CV cs.LG
本文提出了一个结合临床指南与视觉-语言模型的概念推理框架 MedCBR, 用于医学影像分析. 该框架通过多任务目标训练模型, 并生成结构化的临床叙述来解释诊断, 在超声和乳腺X光数据集上取得了较高的诊断性能.
Ronald Sielinski
stat.AP cs.AI cs.IR
本文提出了一种用于量化生成式搜索中AI可见性不确定性的统计框架. 通过实证研究揭示了引用分布的幂律形式和显著变异性, 并指出单次运行的点估计具有误导性.
Heesup Yun et al.
cs.CV cs.AI
本文利用 vision language models (VLMs) 从无人机遥感图像直接生成植物模拟的 JSON 配置参数。研究通过合成数据集评估了多种 in-context learning 方法,发现模型在视觉线索不足时性能会下降。
Hanzhi Yu et al.
cs.NI cs.LG eess.SY
本文提出了一种基于数字孪生网络辅助的强化学习训练框架, 用于优化基站天线倾角以提升用户数据速率. 该框架通过分层强化学习方法, 联合优化策略与数据收集策略, 在保证性能的同时减少了从物理网络收集数据带来的延迟.
Abdul Rehman Akbar et al.
cs.CV cs.AI cs.CL cs.DL cs.IR
本文提出了一个名为 PathoScribe 的统一检索增强大语言模型框架, 旨在将静态的病理学档案转化为可搜索、支持推理的活体知识库. 该系统在包含 70,000 份多机构外科病理学报告的评估中, 在自然语言病例检索和基于检索的推理任务上表现优异, 并能自动化地从自由文本标准构建研究队列.
Hezhao Zhang et al.
cs.SD cs.AI cs.CL cs.MM eess.AS
本文提出了一个用于评估Speech LLMs在语音情感识别(SER)任务上性能的基准测试VoxEmo. 它整合了多语言数据集, 并引入了考虑标注歧义性的软标签评估协议.
Pranav Mantini, Shishir K. Shah
cs.CV cs.AI cs.CL cs.LG
本文提出了一个名为BiCLIP的简单框架, 通过对多模态特征应用结构化的几何变换来增强跨模态对齐, 以解决视觉语言模型在特定领域适应的问题. 该方法在多个基准测试中取得了优异的结果.
Haiyi Chen, Yang Liu, Ivana Malenica
math.ST cs.LG stat.ML
本文提出了一种基于universal least favorable submodel的核去偏插件估计器(ULFS-KDPE), 用于估计非参数模型中的路径可微参数. 该方法在再生核希尔伯特空间(RKHS)中构建数据自适应的去偏流, 无需显式计算有效影响函数即可实现半参数效率.
Arnaud Delaunoy
stat.ML cs.LG
本文探讨了在基于仿真的统计推断中使用机器学习方法时可能产生的过度自信问题. 作者提出了诊断和缓解这种过度自信的两种方法: 一种称为"平衡"的正则化技术, 另一种是利用贝叶斯神经网络.
Pranjal Rawat
econ.GN cs.LG
本文是一篇面向经济学家的强化学习综述, 重新介绍了强化学习方法. 文章讨论了传统动态规划在高维问题中的局限性, 并阐述了强化学习如何作为一种基于样本的扩展, 应用于定价、库存控制等经济模型. 同时, 文章也指出了这些算法在实际应用中的脆弱性和样本低效等局限性.
Yuxin Tang et al.
cs.MS cs.AI cs.DB
本文提出了一个名为 upper-case-lower-case EinSum 的张量-关系计算表示法, 用于在关系型数据库系统上自动执行涉及稀疏张量的计算. 该方法将 Einstein Summation Notation 自动重写, 以便利用高效数值内核处理密集计算部分, 同时通过关系系统管理稀疏性.
Sivaramakrishnan Ramani
math.OC cs.LG stat.ML
本文在 Borel 空间上研究数据驱动的鲁棒马尔可夫决策过程(RMDP). 通过一种公理化方法, 证明了在样本量增加时, 鲁棒最优值函数会收敛到真实最优值函数, 并给出了样本复杂度等性能保证.
Tony Mason
cs.SE cs.AI cs.CR cs.PL
本文提出了一个名为Arbiter的框架, 用于检测LLM智能体系统提示中的干扰模式. 该框架结合了形式化评估规则与多模型LLM扫描, 并在对几个主流编码智能体提示的分析中发现了若干问题.
Tam Nguyen, Moses Ndebugre, Dheeraj Arremsetty
cs.CR cs.AI
本文针对multi-agent systems (MAS)的安全问题,系统性地评估了现有的16个AI安全框架。研究通过构建知识库、进行威胁建模和结构化调查,发现现有框架对MAS特有的安全风险覆盖不足,尤其是在Non-Determinism和Data Leakage方面。
Aishwarya Fursule, Shruti Kshirsagar, Anderson R. Avila
cs.SD cs.AI
本文分析了音频深度伪造检测模型中的性别公平性问题. 作者使用ASVspoof 5数据集和多种音频特征进行实验, 并引入多个公平性指标来量化模型性能中的性别差异. 结果表明, 即使总体错误率相近, 公平性评估仍能揭示被聚合指标掩盖的差异性.
Shinto Eguchi
stat.ML cs.LG
本文从统计学的角度重新审视了生成式AI, 以flow matching为例, 将其理解为学习高维概率分布的非参数方法. 基于此, 书中建立了一个统计推断框架, 将生成模型与去偏机器学习技术结合, 并应用于因果推断等问题.
Nathaniel Dennler et al.
cs.RO cs.AI cs.HC
本文提出了一种名为CMA-ES-IG的算法,用于在机器人行为偏好学习中优化用户体验。该方法通过建议感知上不同且信息丰富的轨迹供用户排序,在模拟和真实机器人实验中展现了优于现有方法的可扩展性和鲁棒性。
Bhada Yun et al.
cs.HC cs.AI
本文提出了一种名为"AI phenomenology"的研究框架, 旨在超越传统的性能指标, 关注用户与AI系统互动时的第一人称体验与感知. 通过结合现象学, 后现象学等理论, 并基于三项实证研究, 作者开发了一套可复制的方法论工具包, 用于捕捉人机协同演化中的体验.
Tony Mason
cs.OS cs.AI cs.SE
本文提出了一种用于大语言模型上下文窗口的需求分页系统 Pichay, 通过将上下文窗口视为 L1 缓存并引入分页机制来管理内容. 该系统作为一个透明代理, 能够驱逐陈旧内容、处理页面错误并固定工作集, 从而显著减少了上下文消耗.
Janakan Sivaloganathan et al.
cs.SE cs.AI cs.ET
本文提出了一种自动化流程, 用于检测量子软件中的 flaky tests 并分析其根本原因. 该方法利用 Large Language Models (LLMs) 进行自动分类和识别, 在扩展数据集上取得了较高的性能指标.
Tenny Yin et al.
cs.RO cs.AI
本文提出了一种名为PlayWorld的自主训练流程, 用于从机器人自我交互数据中学习高保真的视频世界模型. 该方法通过无监督的自主动作探索来收集数据, 从而能够更好地建模复杂的物理交互, 并在多个操控任务中展现出优于基于人类演示数据训练的模型的预测能力.
Zekun Long et al.
cs.CV cs.AI
本文提出了一种名为WS-Net的深度学习框架,用于解决高光谱解混中弱信号被掩盖的问题。该方法通过状态空间建模和弱信号注意力融合来提升丰度估计的准确性,并在模拟和真实数据集上验证了其有效性。
Yinpeng Wu et al.
cs.CR cs.LG cs.OS
本文提出了一种用于移动设备的快速安全大语言模型服务系统FlexServe. 它通过灵活的硬件资源隔离机制, 在ARM TrustZone安全环境中实现了高效的大语言模型推理, 显著降低了性能开销.
Haeone Lee et al.
cs.RO cs.LG
本文提出了一种名为QoQ的数据筛选方法,用于提升基于演示的机器人学习效果。该方法利用influence functions来量化训练样本对验证集损失的贡献,从而自动识别高质量演示数据。
Shixiang Li et al.
stat.ME cs.LG
本文提出了一种用于卫星电子设备在线可靠性预测的自适应主动学习框架. 该方法结合了基于Wiener过程的退化模型和两阶段主动学习采样策略, 旨在数据有限和个体差异大的条件下提高预测精度. 数值实验和天宫空间站的案例研究表明, 该方法能有效提升预测准确性并减少数据需求.
Max Zhuravlev
stat.ML cond-mat.stat-mech cs.LG math-ph
本文在因果不变的 hypergraph 基底中,验证了持久观察者满足 Conant-Ashby Good Regulator 定理的条件。通过应用信息几何中的标准定理,作者论证了自然梯度下降是唯一允许的学习规则,并将 Wolfram 和 Vanchurin 的理论框架联系起来。
Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li
cs.HC cs.AI
本文介绍了一个名为Doki的文本原生界面, 用于生成式视频创作. 该系统允许用户通过编写文本来定义资产, 构建场景和编辑视频, 旨在降低视频制作的门槛.
Md Selim Sarowar, Omer Tariq, Sungho Kim
cs.CV cs.AI cs.RO
本文提出了一种名为GST-VLA的视觉-语言-动作模型,其核心是引入了结构化高斯空间标记器(GST)和3D深度感知思维链(DA-CoT)推理。该方法将深度和语义特征编码为3D高斯图元,并通过多阶段训练在机器人操作任务上取得了性能提升。
Shumin Yao et al.
cs.IT cs.IR
本文提出了一种名为D2AJSCC的框架, 旨在将模拟联合信源信道编码(analog JSCC)部署到标准的数字物理层(PHY)上. 该方法利用正交频分复用(OFDM)的子载波结构来合成波形, 并通过一个可微的代理网络(ProxyNet)来维持端到端训练, 从而在数字硬件上实现接近模拟JSCC的性能.
Rongxiang Zeng, Yongqi Dong
cs.RO cs.AI cs.LG cs.MA eess.SY
本文提出了一个用于自动驾驶的潜在世界模型统一框架, 对设计空间进行了分类, 并讨论了其内部机制、评估方法和未来挑战. 它主要是一篇综述和框架性文章, 旨在整合该领域的最新进展.
Yuheng Wang et al.
cs.CV cs.AI
本文提出了一种基于transformer的框架, 用于皮肤癌的复合视觉-语言检索. 该方法通过联合全局-局部对齐学习层次化的查询表示, 并在公开数据集上展示了优于现有方法的性能.
Xiyao Wang et al.
cs.CV cs.AI
本文提出了一种名为VIVID-Med的医学视觉Transformer预训练框架, 它利用冻结的大型语言模型(LLM)作为结构化语义教师来生成监督信号. 训练完成后丢弃LLM, 得到一个轻量级、可部署的纯视觉模型, 并在多个医学图像任务上展示了优越的性能.
Jiang Gao et al.
cs.RO cs.AI
本文提出了一种名为PM-Nav的先验地图引导具身导航方法,用于解决在特征高度相似的功能性建筑中的导航难题。该方法通过将环境地图转换为导航友好的语义先验地图,并设计多模型协作机制来提升导航性能。
Yifan Han et al.
cs.RO cs.AI
本文提出了一个用于灵巧操作的人机协同框架 DexHiL, 它整合了手臂和灵巧手的控制, 并引入了干预感知的数据采样策略和轻量级遥操作接口. 实验表明, 该框架能有效提升 Vision-Language-Action 模型在具体任务中的性能.
Junjie Yin, Jiaju Li, Hanfa Xing
cs.CV cs.AI
本文提出了一种用于图像超分辨率的扩散模型QUSR, 它通过一个不确定性引导的噪声生成模块来适应性地调整噪声注入, 并结合一个由多模态大语言模型驱动的质量感知先验来指导恢复过程. 实验表明该方法在真实世界场景中能生成高保真度的图像.
Cong Lin et al.
cs.SI cs.CY cs.IR
本文通过审计Google reverse image search (RIS)在视觉虚假信息核查中的表现, 发现其返回结果中包含大量无关信息和重复的虚假内容, 而辟谣内容占比不足30%且排名可见性低. 研究揭示了算法作为信息守门人在视觉领域的影响, 并观察到搜索结果质量随时间呈倒U型曲线变化.
Tzu-Heng Huang et al.
cs.CV cs.AI cs.LG
本文提出了一种名为RubiCap的强化学习框架, 用于提升密集图像描述任务的性能. 该方法利用LLM生成的评估细则来提供细粒度的奖励信号, 从而在多个基准测试中取得了优于现有方法的结果.
Haoran Yang et al.
cs.RO cs.AI
本文提出了一种直接从人类第一视角视频学习仿人机器人全身控制的方法, 避免了昂贵的遥操作数据收集. 该方法利用视觉语言模型预测人体运动, 并通过运动重定向与跟踪策略控制真实机器人.
Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta
math.CO cs.AI cs.CC
本文利用基于LLM的代码变异智能体AlphaEvolve,改进了五个经典Ramsey数的下界。该单一元算法能够生成针对不同Ramsey数问题的搜索算法,并成功复现了所有已知精确值的下界。
Wuping Xin
eess.SY cs.AI cs.LG
本文提出了一种基于随机交通流动力学的物理信息生成建模框架. 该框架将随机偏微分方程转化为概率流常微分方程, 并以此作为约束训练一个可计算密度分布的分数网络.
Paul Magron, Romain Serizel, Constance Douwes
cs.SD cs.LG
本文尝试复现了音乐源分离模型Band-Split RNN (BSRNN), 并讨论了该领域的研究可复现性问题. 作者通过大量实验未能完全复现原始结果, 但开发了一个性能更优的模型变体, 并公开了代码以促进可复现研究.
Zongxia Li et al.
cs.CV cs.LG
本文提出了一个名为MM-Zero的基于强化学习的框架,旨在实现视觉语言模型(VLMs)从零数据开始的自我进化。该框架引入了包含提议者、编码者和解决者三个角色的多角色训练架构,并通过精心设计的奖励机制进行优化。
Chenhui Zuo et al.
cs.RO cs.AI
本文提出了一个基于仿真的框架, 用于物理人机交互的定量分析. 该框架使用强化学习驱动的全身肌肉骨骼模型作为人类动态系统的预测代理, 并通过模拟耦合系统来共同优化机器人的结构参数与控制策略.
Tzu-Quan Lin et al.
cs.SD cs.CL eess.AS
本文系统评估了四种不同的 Contrastive Decoding (CD) 策略在多种 Large Audio Language Model (LALM) 架构上的效果。研究发现,CD 能有效纠正模型声称音频不存在或进行不确定性猜测的错误,但无法修正错误的推理或自信的错误断言。
Shuang Liu et al.
cs.CV cs.AI
本文提出了一种基于扩散模型的框架BridgeDiff, 用于解决虚拟试衣(VTOFF)中从着装人体图像恢复标准平面服装表示的难题. 该框架通过两个互补模块, 桥接了以人为中心的观察与平面服装合成之间的差距, 在基准测试中取得了先进的性能.
Lei Li, Zhen Wang, Lishuo Zhang
stat.ML cs.LG math.NA
本文提出了一种基于可逆性约束的统一生成式采样框架, 适用于包含离散或混合变量的分布. 该方法通过最小化前向与反向Markov轨迹联合分布之间的Maximum Mean Discrepancy (MMD)进行训练, 仅需能量评估, 无需目标分布的梯度. 在连续、离散及混合系统上的实验验证了其有效性.
Kanishkha Jaisankar et al.
cs.CV cs.AI
本文提出了一种用于自动驾驶的多模型方法, 整合了预训练和定制神经网络来处理交通标志分类、车辆检测、车道检测和行为克隆等任务. 该方法采用了数据增强、图像归一化和迁移学习等技术, 并在多个数据集上进行了评估, 旨在提高自动驾驶系统的鲁棒性和可靠性.
Shion Takeno, Shogo Iwazaki
stat.ML cs.LG
本文针对 Gaussian process Thompson sampling (GP-TS) 这一贝叶斯优化方法,在目标函数为高斯过程样本路径的假设下,研究了其遗憾界。文章证明了包括遗憾下界、累积遗憾二阶矩上界、宽松期望遗憾上界以及关于时间范围\(T\)的改进累积遗憾上界在内的多个结果。
Fuzhen Jiang, Zhuoran Li, Yinlin Zhang
cs.CV cs.AI
本文提出了一种名为 DenoiseSplat 的前馈式 3D Gaussian Splatting 方法,用于从带噪声的多视角图像进行三维场景重建。该方法在合成的噪声数据集上进行了训练和评估,在多项图像质量指标上超越了基线方法。
Xinyu Tong et al.
cs.CV cs.AI cs.LG
本文提出了一种名为CLoE的专家一致性学习框架,用于处理医学图像分割中模态缺失的问题。该方法通过双分支一致性学习目标来增强模态专家预测的鲁棒性,并在多个数据集上验证了其有效性。
Aodi Wu et al.
cs.CV cs.AI
本文提出了一个用于航天器感知与位姿估计的大规模多模态基准数据集 SpaceSense-Bench. 该数据集包含136个卫星模型, 提供同步的RGB图像, 深度图, LiDAR点云以及密集的部件级语义标注和6-DoF位姿真值. 作者基于该数据集对多个代表性任务进行了基准测试, 并分析了当前方法在感知小部件和零样本泛化到新航天器时面临的瓶颈.
SangYeop Jeong et al.
cs.HC cs.AI
本文提出了一种在基于LLM的VR对话agent中整合语音情感识别的方法, 通过将语音情感作为显式对话上下文来提升agent的回应质量. 一项用户研究(N=30)表明, 该方法显著改善了对话的自然度、参与度和拟人性.
Shihao He et al.
cs.SD cs.AI
本文提出了一种名为TimberAgent的检索式音频效果控制方法, 其核心是Texture Resonance Retrieval (TRR)音频表示. 该方法基于Wav2Vec2激活的Gram矩阵构建, 旨在弥合用户感知意图与底层信号处理参数之间的语义鸿沟, 并在吉他效果基准测试中取得了较低的参数误差.
Yang Li et al.
cs.CV cs.AI
本文提出了一个名为STAR的多智能体评估框架, 用于在零和竞争环境中评估大型语言模型(LLMs)的战略推理与快速决策能力. 该框架超越了单一的胜负结果, 通过战略评估套件分析模型的行为质量, 揭示了在实时场景中推理深度与执行速度之间的权衡.
Yanshan Li et al.
cs.CV cs.AI
本文提出了一种基于博弈论对比学习的骨架动作识别方法 M3GCLR. 该方法通过建立无限骨架数据博弈模型和均衡定理, 并设计双损失均衡优化器, 旨在减少对标注数据的依赖并在多个基准数据集上取得了有竞争力的性能.
Renjie Xiao et al.
physics.flu-dyn cs.LG
本文提出了一种结合Voronoi图增强和物理信息神经网络(PINNs)的流场重建方法VSOPINN, 该方法通过可微的软Voronoi构造对稀疏传感器数据进行栅格化, 并利用质心Voronoi剖分(CVT)与PINNs进行端到端融合以实现自适应传感器布局优化. 在腔体驱动流、血管流和环形旋转流等典型问题上验证了其有效性, 表明该方法能提高不同Reynolds数下的重建精度, 并对部分传感器失效具有鲁棒性.
Nikola Jovišić et al.
cs.CV cs.AI
本文提出了一种基于预计算特征的多示例学习框架MIL-PF, 用于乳腺X光片分类. 该方法通过冻结预训练的基础模型编码器, 仅训练一个轻量级的注意力聚合模块, 在降低计算成本的同时实现了先进的分类性能.
Robin Doerfler, Lonce Wyse
cs.SD cs.AI eess.AS
本文提出了一种名为Pulse-Train-Resonator (PTR) 的物理信息神经网络模型,用于发动机声音建模。该模型通过参数化的脉冲序列和递归Karplus-Strong谐振器直接模拟排气脉冲的物理过程,相比传统的谐波加噪声基线模型,在谐波重建和总损失上有所提升。
Yaping Zhang et al.
cs.CV cs.AI
本文介绍了ICDAR 2025端到端文档图像机器翻译竞赛,该竞赛旨在推动复杂版面文档的翻译研究。报告概述了竞赛动机、数据集构建、任务定义、评估协议及结果总结。
Taesung Kwon et al.
cs.CV cs.AI cs.LG
本文提出了一种完全卷积的扩散模型(FCDM), 其主干网络类似于ConvNeXt, 专为条件扩散建模设计. 实验表明, 该模型在显著减少计算量和训练步数的情况下, 取得了与基于Transformer的扩散模型相竞争的性能, 展示了卷积架构在高效生成建模中的潜力.
Zirui Zhang et al.
cs.CV cs.AI
本文提出了一种名为PromptDLA的领域感知提示文档布局分析框架。该框架利用描述性知识作为线索,将领域先验信息整合到模型中,以处理不同领域文档在布局结构上的差异。实验表明,该方法在多个公开数据集上取得了先进的性能。
Ju Dong et al.
cs.RO cs.AI
本文提出了一种通过隐式最大似然估计进行分布蒸馏的框架, 将条件流匹配专家模型蒸馏为快速单步学生模型, 以解决基于扩散或流匹配的生成策略在机器人操作中因迭代ODE求解导致的高延迟问题. 该方法利用双向Chamfer距离作为集合级目标来保持多模态动作分布, 并整合多视角感知信息以实现高频实时控制.
Nicolas Schischka et al.
cs.CV cs.AI cs.RO
本文提出了开放世界运动预测的新设定, 直接处理感知不完美和对象分类随时间演化的挑战. 作者设计了一个端到端的类增量学习框架, 通过伪标签策略和基于查询特征方差的回放采样来缓解灾难性遗忘, 并在nuScenes和Argoverse 2数据集上验证了其有效性.
Tom Danny S. Pedersen
stat.AP cs.AI
本文介绍了一个名为CERES的自动化概率预测系统, 用于预测急性粮食不安全状况. 该系统融合了六类数据流, 通过一个logistic评分模型生成未来90天的概率估计, 并承诺对所有预测进行公开的前瞻性验证.
Anna Matsui et al.
math.CT cs.DS
本文为对称幺半范畴中的string diagram rewriting开发了一种critical pair枚举算法. 该算法通过超图的具体操作实现, 能够枚举给定左连通string diagram rewriting系统的所有critical pairs, 并证明了其正确性和完备性.
Yoon Jo Kim et al.
cs.CV cs.AI
本文提出了一种基于guideline-aware AI agent的框架OncoAgent, 用于在放疗中实现zero-shot的临床靶区(CTV)自动勾画. 该框架无需重新训练即可将文本临床指南转换为三维轮廓, 并在食管癌等案例中取得了与全监督模型相当的勾画效果和更高的临床接受度.
Xiangsen Chen et al.
cs.CR cs.CL
本文介绍了CyberThreat-Eval,一个基于真实网络安全威胁情报工作流程构建的评估基准,用于测试大语言模型在自动化情报分析任务中的表现。该基准采用以分析师为中心的评估指标,揭示了当前模型在处理复杂细节和辨别信息真伪方面的局限性。
Ezio Bartocci et al.
cs.SE cs.AI cs.LO
本文提出了一种名为RoadLogic的方法, 用于将声明式的OpenSCENARIO DSL (OS2)场景规范转化为可执行的自动驾驶仿真. 该方法结合了Answer Set Programming, 运动规划和基于规范的监测来生成符合约束的、可行的具体场景. 在CommonRoad框架上的评估表明, 该方法能高效生成多样化的仿真测试用例.
Jiajun Cao et al.
cs.CV cs.AI
本文提出了一个名为EvoDriveVLA的协作感知-规划蒸馏框架,用于提升自动驾驶视觉-语言-动作模型的性能。该方法通过自锚定视觉蒸馏和先知引导轨迹蒸馏来缓解视觉编码器解冻后的感知退化与长期规划的不稳定性问题。
Enming Zhang et al.
cs.CV cs.AI
本文提出了一种名为EvoPrompt的新框架,用于解决大规模视觉语言模型(VLMs)在少样本下游任务适应中的灾难性遗忘问题。该方法通过模态共享提示投影器和进化训练策略来稳定地调整提示,同时保持模型的零样本能力。
Run Wang et al.
cs.AR cs.LG
本文提出了一个名为TrainDeeploy的框架,用于在超低功耗的边缘系统芯片上进行高效的设备端训练。该框架支持CNN和Transformer模型,并采用了LoRA等参数高效微调技术,显著降低了内存和计算开销。
Nicolás Della Penna
stat.ML cs.LG
本文研究了推荐与处理不一致的bandit问题, 提出了BRACE算法. 该算法通过矩阵认证和阶段加倍, 为推荐策略和处理策略提供了具有固定间隔的识别保证.
Lionel Yelibi
stat.ML cs.LG
本文提出了一种名为a-TMFG的算法, 用于从大规模数据中构建稀疏图. 该方法通过使用近似最近邻图(k-Nearest Neighbors Graphs)和动态内存管理策略, 避免了传统方法需要预计算密集相关矩阵的限制, 从而能够处理数百万观测值的数据集.
Milo Carroll et al.
cs.RO cs.LG
本文提出了一种仅使用机载传感器实现人形机器人步态控制的方法, 称为 Sensor-Conditioned Diffusion Policies (SCDP). 该方法通过混合观测训练和去噪等技术, 避免了对外部状态估计的依赖, 并在仿真和真实机器人上验证了其鲁棒性.
Simon Brandt et al.
q-bio.NC cs.AI cs.NE eess.SY physics.bio-ph
本文提出了一种基于能量守恒和极值作用原理的变分潜在平衡框架, 用于在生物合理的约束下近似时间反向传播(BPTT). 该工作统一并扩展了先前几种局部、时间连续、无相位的时空信用分配方法, 为大脑中的时空深度学习提供了一个形式化框架.
Ümit Mert Çağlar, Alptekin Temizel
cs.CV cs.AI
本文提出了一个基于视觉-语言模型的遥感图像合成数据生成与评估框架, 并发布了包含大量合成图像的ARAS400k数据集. 实验表明, 结合真实与合成数据的训练能超越仅使用真实数据的基线模型.
Yueen Ma, Irwin King
cs.CV cs.CL
本文提出了一个名为X-GS的可扩展开源框架,旨在统一多种3D Gaussian Splatting (3DGS) 架构,并将其与下游多模态模型连接。该框架通过一个高效的X-GS-Perceiver流水线,能够从无位姿的视频流中实时协同优化几何与位姿,并将视觉基础模型的高维语义特征提取到3D高斯中。
Jiawei Luo et al.
cs.DC cs.LG cs.PF
本文提出了一种称为 model stitching 的技术, 用于在边缘 SoC 上优化多 DNN 推理系统. 通过在不重新训练的情况下重组稀疏模型的子图来创建模型变体, 所展示的系统 SparseLoom 降低了 SLO 违规率并提高了吞吐量.
Anupam Purwar, Aditya Choudhary
cs.ET cs.AI
本文提出了一个名为MM-tau-p\(^2\)的基准测试,用于评估多模态智能体在双重控制设置下的鲁棒性。该基准引入了12个新指标,并利用LLM-as-judge方法在电信和零售领域进行了初步评估。
A.M.A.S.D. Alagiyawanna, Asoka Karunananda
quant-ph cs.LG
本文是一篇关于噪声对光子量子机器学习(PQML)影响的综述文章. 文章系统分析了PQML系统中的噪声来源, 并讨论了噪声对算法性能的影响以及相应的缓解策略.
Tianyi Zeng et al.
cs.CV cs.AI cs.ET eess.IV
本文提出了一种无需训练的KV-Lock框架,用于提升基于DiT的视频扩散模型在编辑时的背景一致性。该方法通过检测去噪过程中的幻觉风险,动态调整背景KV缓存与新生成KV的融合比例以及CFG引导强度。实验表明,该模块能有效改善前景生成质量并保持高背景保真度。
Nguyen Anh Tuong et al.
cs.CV cs.AI
本文利用基于transformer的架构探索了越南语视觉问答任务, 结合了文本和视觉的预训练, 并在多语言设置下系统比较了自动评估指标. 这项工作为低资源多模态学习提供了新的数据集和基准.
Chih-Kai Yang et al.
cs.SD cs.AI cs.CL eess.AS
本文提出了一个名为MUGEN的基准测试,用于评估大型音频-语言模型在多音频理解任务上的能力。研究发现现有模型在此类任务上存在明显缺陷,并探讨了无需额外训练的策略来提升性能。
Chengjun Yu et al.
cs.CV cs.AI cs.CL
本文提出了一个名为EXPLORE-Bench的新基准测试,用于评估多模态大语言模型在自我中心视角下进行长时程物理推理的能力。实验表明,现有模型在该任务上与人类表现存在显著差距。
Soroush Seifi et al.
cs.CV cs.AI
本文提出了一种基于embedding引导的高效视觉语言模型个性化方法Ego. 该方法通过利用模型内部的attention机制提取代表目标概念的视觉token, 无需额外训练即可实现个性化概念的记忆与描述.
Mihriban Ceylan, David J. Prömel
math.PR cs.LG q-fin.MF
本文在分段线性路径空间上建立了全局普适逼近定理, 证明了在权重函数满足可积性条件下, 对应signature的线性泛函在\(L^p\)范数和加权范数下是稠密的. 作为应用, 作者证明了布朗运动的分段线性插值满足该可积条件, 从而得到了关于路径依赖泛函、随机常微分方程和布朗运动驱动的随机微分方程的\(L^p\)逼近结果.
Karla Tame-Narvaez et al.
hep-ph cs.AI hep-ex physics.comp-ph
本文探讨了使用基于模拟的推断(SBI)来估计中微子-核子敲出反应模型参数的可行性. 作者将SBI应用于GENIE事件生成器, 发现其推断的参数值与MicroBooNE合作组手动调优的结果相近, 并在实验数据上获得了稍好的拟合度.
Robin Hesse et al.
cs.CV cs.LG
本文探讨了可解释人工智能(XAI)中一个被忽视的方面,即神经元可能因某个概念的缺失而被激活。作者提出了对现有归因和特征可视化方法的简单扩展,以揭示这种“编码缺失”关系,并通过实验展示了其在模型分析和去偏中的应用。
Kangsan Kim et al.
cs.CV cs.AI
本文提出了一个名为MA-EgoQA的新基准,用于评估模型在同时处理多个具身智能体采集的长时程第一人称视角视频上的表现。该基准包含五个推理类别的问题,并提出了一个利用共享记忆和动态检索的基线模型EgoMAS。
Vincent Cohen-Addad et al.
cs.CG cs.CC cs.DS
本文改进了低维欧氏空间中\(k\)-median和\(k\)-means聚类问题的近似算法运行时间,并给出了一个近乎匹配的下界。
Laya Iyer, Angelina Wang, Sanmi Koyejo
cs.SD cs.AI
本文提出了一个名为SCENEBench的音频理解基准测试套件,旨在评估大型音频语言模型在语音识别之外的广泛音频理解能力。该基准涵盖了背景声音理解、噪声定位、跨语言语音理解和声音特征识别四个现实类别,并评估了多个先进模型的性能与延迟。
Yixin Zheng et al.
cs.RO cs.AI
本文提出了一个Dynamics-Aware Policy Learning (DAPL)框架,用于在杂乱场景中学习利用环境接触的非抓取式操作策略。该方法通过显式世界建模学习接触动力学表示,并以此指导强化学习,在模拟和真实环境中均取得了优于基线方法的效果。
Colin Brown, Mohamad Alkadamani, Halim Yanikomeroglu
eess.SY cs.AI
本文提出了一种利用AI和ML的数据驱动方法来估计和管理频谱需求。该方法使用来自站点许可数据和众包数据的多个频谱需求代理,并在真实移动网络流量数据上进行了验证。
Yao Zhang et al.
cs.CV cs.IR
本文提出了一种基于关节角度的可解释运动表示方法, 将运动序列编码为伪图像, 并结合预训练的 Vision Transformer 与改进的 token-wise 交互机制进行文本-运动检索. 该方法在 HumanML3D 和 KIT-ML 数据集上取得了优于现有方法的结果.
Rong Zhou et al.
cs.CV cs.AI
本文提出了一种用于多模态脑图像生成和缺失模态填补的自适应临床感知潜在扩散框架. 该框架通过动态融合可用成像数据和临床元数据, 在潜在空间中逐步去噪以合成缺失的模态.
Mohamad Alkadamani, Amir Ghasemi, Halim Yanikomeroglu
eess.SY cs.AI cs.NI
本文提出了一种数据驱动的方法, 用于估计移动宽带场景中频谱需求的空间变化并识别其关键驱动因素. 该方法结合了地理空间分析和机器学习, 在一个加拿大城市的案例研究中进行了应用, 展示了模型在跨区域泛化方面的潜力.
Yundi Zhang et al.
cs.CV cs.AI
本文提出了一种直接从欠采样的k-space数据中进行多任务心脏分析的端到端框架k-MTR, 避免了传统流程中先重建图像再分析的瓶颈. 该方法通过将k-space数据与全采样图像对齐到共享的语义流形中, 在多个下游任务上取得了有竞争力的性能.
Wenzhao Xiang et al.
cs.CV cs.LG
本文提出了一种从粗到细的掩码自编码器C2FMAE,旨在解决自监督视觉预训练中全局语义与局部细节难以兼顾的问题。该方法通过级联解码器和渐进掩码课程,在场景、对象和像素三个粒度上学习层次化视觉表示。
Xinyu Gao, Gang Chen, Javier Alonso-Mora
cs.RO cs.AI cs.CV
本文提出了一种名为BEACON的方法,用于在遮挡条件下进行语言条件导航。该方法通过预测包含遮挡区域的鸟瞰图可通行性热图,解决了现有基于视觉语言模型的方法难以推断被遮挡目标位置的问题。实验表明,该方法在模拟环境中显著优于现有技术。
David Freire-Obregón
cs.MA cs.AI
本文通过引入情感效价与唤醒度作为交互速率的调节器, 扩展了描述蜂群决策的bee equation, 建立了一个基于智能体的模型. 该模型模拟了情感状态如何通过影响招募与抑制参数来偏置集体决策的结果与收敛速度.
Jazmin Collins et al.
cs.HC cs.AI cs.ET
本文研究了一种基于大型语言模型(LLM)的虚拟现实(VR)导览系统, 旨在帮助盲人和低视力(BLV)用户提升VR可访问性. 通过一项有16名BLV参与者与模拟用户互动的用户研究, 作者发现用户在不同社交情境下对该AI导览的互动方式存在差异, 并据此提出了设计建议.

- 数据来源 Data Source: arXiv.org

- 本网页的内容由 bluearXiv-ai 自动生成。实际抓取的是 arXiv 中 "new" 页面的数据,即最近的有所在分类论文变动的一天的数据。

- 感谢 arXiv 提供的服务。评论和精选由 AI 生成,不代表任何人对论文本身的看法。精选依赖于论文与给定关键词的匹配度。

- 计数基于主学科,不计重数。

- This webpage is automatically generated by bluearXiv-ai.

- The data actually captured is from the "new" page, that is, the data of the most recent day when there were changes in corresponding subjects.

- Thanks for services prodived by arXiv. Comments and selection of good papers are generated by AI, not showing anyone's point of view about those papers.

- The selection also depends on the matched-degrees between papers and given keywords.

- The counters are based on main subject, not counting multiplicities.