bluearXiv-ai 论文精选

2026-04-10

📚 跟踪学科 (Categories)

🔍 筛选关键词 (Keywords)

📊 论文统计 ↑ 回顶部

cs.LG
102
cs.AI
74
cs.IR
21
cs.CL
61
cs.DS
4
others
137
总计
399

⭐ 精选论文 ↑ 回顶部

cs.AI

others

Haimeng Zhao et al.
quant-ph cs.AI cs.CC cs.IT cs.LG

📄 所有论文 ↑ 回顶部

cs.LG

Longsheng Zhou, Yu Shen
cs.LG cs.AI cs.CL
本文提出了一种名为"Prune-Quantize-Distill"的有序流水线,用于在CPU上实现高效的神经网络压缩。该流水线结合了非结构化剪枝、INT8量化感知训练和知识蒸馏三种技术,旨在直接优化实测推理延迟,而非依赖参数数量等代理指标。实验表明,该有序组合在CIFAR数据集上能比单一技术更好地权衡精度、模型大小和延迟。
Jaden Zhang et al.
cs.LG cs.AI econ.GN
本文提出了一个名为Prediction Arena的基准测试, 用于在真实资本运作的预测市场上评估AI模型的预测与决策能力. 通过让模型在Kalshi和Polymarket等真实交易所进行自主交易, 该研究分析了多个前沿模型在为期57天的纵向评估中的表现, 发现初始预测准确性和将正确预测转化为收益的能力是主要驱动因素, 而平台设计对模型成功有显著影响.
Rui Dong et al.
cs.LG
本文提出了一种名为BLEG的方法, 通过利用LLM作为增强器来提升GNN在fMRI脑网络分析任务上的性能. 该方法通过提示LLM生成增强文本, 设计指令微调策略, 并联合训练GNN与适配器, 在多个数据集上验证了其有效性.
Faezeh Pasandideh, Achim Rettberg
cs.LG
本文提出了一种用于评估边缘自动驾驶系统感知模块鲁棒性的离线-在线解耦故障注入框架. 该框架利用LLM生成语义故障场景, 并利用LDM合成传感器退化数据, 在离线阶段预计算故障查找表, 从而在资源受限的边缘设备上实现轻量级的实时故障感知推理. 实验表明, 该方法能有效暴露车道跟随模型在多种故障条件下的性能退化.
Hongjian Zou et al.
cs.LG
本文通过设计受控的数据干预实验, 研究了训练数据分布对大型语言模型能力评估的影响. 研究发现, 与基准测试对齐的数据会提升特定指标但限制泛化能力, 而覆盖更广的数据则能促进更均衡的参数适应和更好的泛化.
Yilong Dai et al.
cs.LG
本文提出了一种称为"flow learners"的新范式, 用于学习求解偏微分方程(PDEs). 该方法通过参数化传输向量场来生成轨迹, 旨在更好地对齐物理动力学, 支持连续时间预测和不确定性量化.
Ameen Patel et al.
cs.LG cs.AI
本文研究了在prompt engineering中使用不同情感类型和强度对LLM行为的影响. 实验表明, 积极的emotional stimuli能提高准确性并降低毒性, 但也会增加sycophantic behavior.
Yongzhong Xu
cs.LG
本文分析了在序列任务中, 参数更新Gram矩阵的主方向(spectral edge)在grokking过程中的演变. 研究发现该方向在grokking前后呈现不同的驱动机制, 并可通过一个gap flow方程预测其行为类别.
Benjamin J. Choi, Melanie Weber
cs.LG cs.AI
本文使用几何数据分析工具研究了大型语言模型(LLM)中情感表征的潜在结构。研究发现,LLM学习到的情感表征与心理学中的效价-唤醒度模型一致,并且其非线性几何结构可以被线性良好近似。
Yuyao Wang et al.
cs.LG
本文提出了一种名为SCOT的跨城市表示学习框架, 用于解决源城市与目标城市区域划分不一致且无真实对应关系时的迁移学习问题. 该方法通过基于Sinkhorn的熵正则化最优传输(Optimal Transport)学习区域间的软对应关系, 并结合对比学习与循环重构正则化来提升迁移的准确性与鲁棒性.
Shresth Verma et al.
cs.LG cs.AI
本文介绍了SAHELI项目, 该项目应用Restless Multi-Armed Bandits (RMAB)框架来优化印度妇幼健康项目中的稀缺资源分配. 通过采用Decision-Focused Learning (DFL)方法并经过大规模随机对照试验验证, 该系统显著提升了受益人的参与度和实际健康行为.
David Golchinfar, Daryoush Vaziri, Alexander Marquardt
cs.LG cs.AI
本文提出了一个仅130万参数的小型专用模型, 用于实时控制游戏《DOOM》. 该模型在特定场景下的表现显著优于参数量大数万倍的通用大语言模型, 展示了专用模型在实时控制任务上的高效性.
Niloy Das et al.
cs.LG
本文提出了一种用于犯罪模式分析的量子-经典混合计算框架, 并在孟加拉国犯罪数据集上评估了包括量子模型、经典基线及混合架构在内的多种范式. 实验表明, 量子启发方法在保持较低可训练参数量的同时取得了有竞争力的分类准确率, 展示了其在资源受限的边缘计算场景中的潜在应用价值.
Yucheng Sheng et al.
cs.LG cs.IT
本文提出了一种用于无线资源分配的图基础模型(GFM-RA), 它基于预训练和微调范式来提取统一表征. 该模型通过干扰感知的Transformer架构和混合自监督预训练策略, 能够快速适应不同的优化目标和场景, 并在实验中展现了优异的性能和样本效率.
Fan Zhaowen
cs.LG cs.IR cs.RO
本文提出了一种基于事件的世界建模框架, 用于具身决策. 该框架将环境表示为结构化的事件集合, 并通过检索记忆库中的经验来生成决策, 在无人机飞行场景中验证了其实时性与可解释性.
Yeran Zhang et al.
cs.LG cs.AI
本文提出了一种用于工业时间序列预测的双流物理残差网络(DSPR)框架. 该框架通过分离稳定时间模式和状态依赖的残差动态, 结合物理先验来学习时变交互结构, 旨在提高预测的准确性和物理合理性.
Quantong Qiu et al.
cs.LG cs.CL
本文提出了一种名为Flux Attention的上下文感知混合注意力框架,旨在提升大语言模型在长上下文场景下的推理效率。该方法通过一个轻量级的层路由器,根据输入内容动态地为每一层选择使用完全注意力或稀疏注意力,从而在保持性能的同时实现显著的实际加速。
Jinhong Lin et al.
cs.LG cs.AI
本文提出了一种名为Data Warmup的课程学习策略,用于提升扩散模型(diffusion model)的训练效率。该方法通过一个结合了前景主导性和前景典型性的复杂度度量,对训练图像进行离线评分,并在训练初期优先采样简单图像,逐步过渡到均匀采样。实验表明,该策略能显著加速模型收敛并提升生成质量,且计算开销极低。
Wonseon Lim, Jaesung Lee, Dae-Won Kim
cs.LG
本文提出了一种面向边缘设备持续学习的稀疏提示框架CPS-Prompt, 通过关键补丁采样和分离训练来降低训练时的内存与计算开销. 实验表明该方法在保持精度的同时, 显著提升了训练效率和能效.
Yucheng Zhou, Jianbing Shen
cs.LG eess.IV
本文提出了一种通过局部优化和表示连续性来加速自回归视频生成模型训练的方法. 该方法在减少训练成本的同时, 保持了生成视频的质量.
Daniel Nobrega Medeiros
cs.LG cs.AI
本文研究了深度ReLU网络优化中梯度下降的动力学行为. 它发现梯度流存在守恒律, 而离散梯度下降会以与学习率相关的速率打破这些守恒律, 并给出了一个基于谱理论的精确公式来描述这一现象.
Chenchen Xu et al.
cs.LG eess.IV
本文提出了一种基于GAN的域适应方法, 用于广告海报设计中结合图像感知的布局生成. 该方法通过引入像素级判别器来弥合训练数据中的域差距, 并提出了新的内容感知评估指标.
Kristina Levina et al.
cs.LG cs.AI
本文利用强化学习与奖励机(reward machines)来解决移动网络中的睡眠控制问题, 旨在平衡即时节能与长期服务质量(QoS). 该方法通过奖励机跟踪历史状态以处理非马尔可夫奖励, 为不同流量模式下的网络节能管理提供了一个可扩展的框架.
Jonas M. Schmid et al.
cs.LG physics.data-an
本文提出了一种基于物理信息的神经算子方法, 用于从近场声压和粒子速度测量数据中直接估计频率相关的表面导纳. 该方法将亥姆霍兹方程等声学控制关系作为正则化嵌入训练过程, 在合成数据上验证了其对噪声和稀疏采样的鲁棒性.
Yuhao Zhang et al.
cs.LG cond-mat.mtrl-sci physics.comp-ph
本文提出了一种用于处理混合变量问题的贝叶斯优化(BO)通用框架. 该方法通过推广概率重参数化(PR)技术, 使其能够处理非等距离散变量, 从而在具有高斯过程(GP)代理模型的完全混合变量设置中实现基于梯度的采集函数优化. 作者在合成和实验目标上进行了系统基准测试, 展示了该方法在优化高度不连续和离散化目标函数时的鲁棒性, 尤其适用于数据有限、存在噪声的自主实验室环境.
Zhenyu Wang et al.
cs.LG
本文提出了一种用于全波形反演(FWI)的谱感知混合算子框架SPAMoE. 它通过谱保持编码器和动态频带路由机制, 提升了多尺度地质特征重建的精度.
Yucheng Zhou et al.
cs.LG
本文提出了一种名为MUSIC的multimodal large language model (MLLM), 专门用于多主体上下文图像生成. 该方法通过自动数据生成管道, vision chain-of-thought机制和语义驱动的空间布局规划来解决多主体生成中的身份丢失和语义漂移问题, 并在新的基准MSIC上展示了优越性能.
Prakul Sunil Hiremath
cs.LG cs.AI
本文提出了GIRL框架,通过引入跨模态grounding信号和不确定性自适应的trust-region bottleneck来控制基于模型的强化学习中想象轨迹的漂移问题。实验表明该方法在多个基准测试中减少了潜在rollout漂移并提升了样本效率。
Prakul Sunil Hiremath
cs.LG cs.AI
本文针对强化学习中的延迟伤害问题, 提出了Replay Suppression Diagnostic (RSD)诊断协议和Regret-Aware Policy Optimization (RAPO)方法. RAPO通过引入持久性的伤害痕迹场和疤痕场, 并应用有界的、保持质量的转移概率重加权, 来抑制有害行为的重放, 在图上扩散任务中取得了效果.
Jiaming Cheng, Duong Tung Nguyen
cs.LG cs.NI
本文针对大规模语言模型(LLM)推理服务中的异构资源分配问题, 提出了两种启发式算法. 这些算法在满足延迟、精度和预算等多重约束下, 能够快速生成可行的资源配置方案.
Oleg Platonov, Liudmila Prokhorenkova
cs.LG cs.AI
本文提出了一种名为cluster attention (CLATT)的图注意力机制. 该方法通过社区检测算法将图节点划分为簇, 使节点在每个簇内进行全局注意力计算, 从而在保持图结构归纳偏置的同时扩大感受野. 实验表明, 将CLATT集成到消息传递神经网络或图Transformer中, 能有效提升多种图数据集上的性能.
Grace Jiarui Fan et al.
cs.LG cs.AI cs.CL cs.CY
本文提出了一个名为SYN-DIGITS的校准框架,用于减少基于LLM的数字孪生模拟与真实人类行为之间的偏差。该框架作为后处理层,通过从模拟响应中学习潜在结构来对齐预测,并在多个数据集和模型上验证了其有效性。
Peter Amorese, Morteza Lahijanian
cs.LG eess.SY
本文提出了一种利用稀疏Sum-of-Squares形式进行条件密度估计的建模框架, 旨在实现解析的belief propagation. 该方法通过一种新的函数形式解决了SoS建模的限制, 并提出了一个训练方法来精确满足归一化和非负性约束. 在低维空间中, 该方法在保持精度的同时显著减少了内存使用, 并能扩展到更高维的系统.
Jeffrey D. Varner et al.
cs.LG q-bio.QM
本文提出了一种基于现代Hopfield网络理论的生成框架,用于从小型纵向临床队列中生成经过验证的合成患者数据。该方法通过Langevin动力学在连续能量景观中插值,生成的新数据在统计和机制上与原始数据难以区分,并成功应用于一个包含23名孕妇的凝血动力学数据集。
Henry C. Conklin et al.
cs.LG cs.AI cs.CL cs.IT
本文提出将LLM训练视为一种有损压缩过程, 并论证了预训练使模型在next-sequence prediction任务上接近Information Bottleneck bound. 研究发现, 不同模型因其数据和训练方法差异而呈现不同的压缩特性, 且压缩最优性与模型在下游任务的表现相关.
Zeran Johannsen
cs.LG
本文通过一系列控制实验, 研究了过参数化神经网络中优化动力学和隐式正则化对泛化的作用. 实验表明, 泛化性能受到网络架构、优化算法和损失函数几何形态之间相互作用的强烈影响.
Yumeng Zha, Shengxiang Yang, Xianpeng Wang
cs.LG cs.NE
本文提出了一种用于多尺度多输出时间序列预测的自动配置框架. 该框架通过一个混合配置空间和进化算法, 在有限计算预算内搜索平衡预测误差与模型复杂度的帕累托模型集.
Tibor Sloboda
cs.LG cs.AI
本文提出了一个分析跨模态表示兼容性的统一框架, 核心是建立在样本索引上的模态无关邻域站点及其上的cellular sheaf. 该框架形式化了两种互补的不兼容机制: projection hardness和sheaf-Laplacian obstruction, 并证明了兼容性通常不具有传递性.
Keito Inoshita, Nobuhiro Hayashida, Akira Imanishi
cs.LG cs.AI
本文提出了一个基于认知科学的因果多任务学习框架CauPsi, 用于辅助驾驶感知. 该框架通过可学习的原型嵌入实现任务间的因果信息传递, 并利用从驾驶员面部和姿态估计的心理状态信号来调节所有任务的预测.
Yue Huang et al.
cs.LG cs.CL
本文提出了一种名为 Guardian-as-an-Advisor (GaaA) 的软门控安全框架,用于提升大型语言模型的安全性和实用性。该方法通过一个辅助模型生成风险标签和解释来指导主模型,在保持安全性的同时减少了过度拒绝。
Yang Cao
cs.LG cs.AI cs.CL
本文针对线性循环模型在长程记忆方面的不足,分析了其衰减谱(decay spectrum)的初始化问题,并提出了一个通用的改进框架PoST。该框架通过谱重参数化和位置自适应缩放两种机制,优化了模型在长上下文任务中的表现,并在多个主流架构上进行了验证。
Wooin Lee, Hyun-Tae Kim
cs.LG
本文提出了一种名为SAGE的新型优化器,旨在解决大语言模型预训练中AdamW优化器内存占用过高的问题。SAGE通过结合Lion风格的更新方向和一个内存高效的\(O(d)\)自适应尺度,在保持性能的同时显著减少了优化器状态的内存消耗。
Andreas Plesner, Francisco Guzmán, Anish Athalye
cs.LG cs.AI
本文研究了在强化学习与可验证奖励(RLVR)框架下, 奖励信号存在噪声时对大型语言模型(LLM)训练的影响. 实验表明, 即使验证器存在高达15%的错误率, 模型在代码生成和科学推理任务上的验证准确率与无噪声基线相比下降不超过2个百分点.
Tao Li et al.
cs.LG cs.AI cs.CE
本文提出了一个名为MolReAct的强化学习框架, 用于药物发现中的先导化合物优化. 该框架将优化过程建模为在由已验证反应模板定义的合成约束动作空间上的Markov Decision Process, 并利用工具增强的LLM agent来提出化学上合理的分子修饰, 最终通过策略优化生成具有明确合成路径且性质改善的分子.
Tatsuya Kishimoto, Jun Ohkubo
cs.LG
本文提出了一种基于张量格式的数据驱动方法, 用于计算Koopman generator. 该方法通过处理Koopman算子的对数来避免数值微分, 并在张量列格式下保持低秩结构, 从而缓解维数灾难问题, 在多个高维动力系统上展示了其可扩展性.
Xiaohuan Li et al.
cs.LG cs.AI
本文研究了智能交通数字孪生中无人机协同生成式AI进行数据处理的联合优化问题. 作者将任务卸载、推理优化与无人机轨迹规划建模为一个系统效用最大化问题, 并提出了基于多智能体强化学习的SU-HATD3算法进行求解. 仿真结果表明该算法在系统效用和收敛速度上优于基线方法.
Micky C. Nnamdi et al.
cs.LG
本文提出了一种名为Tree-of-Evidence(ToE)的推理时搜索算法, 用于提高大型多模态模型(LMMs)决策过程的可解释性. 该方法将可解释性构建为一个离散优化问题, 通过轻量级的Evidence Bottlenecks对数据单元进行评分并进行beam search, 以识别支持模型预测的紧凑证据集. 在多个临床和非临床任务上的评估表明, ToE能在保持预测性能的同时, 生成可审计的证据轨迹.
Ziyi Ding et al.
cs.LG
本文提出将CausalVAE作为可插拔的结构模块集成到潜在世界模型中, 以增强模型在分布偏移和干预下的鲁棒性. 实验表明, 该方法在保持事实预测竞争力的同时, 显著提升了干预感知的反事实检索性能.
Fabricio Macià, Shu Nakamura
cs.LG math.OC
本文分析了一个具有固定偏置和ReLU激活函数的单隐藏层神经网络, 证明了在\(L^2\)平方损失和梯度下降下的学习过程收敛性, 并验证了其spectral bias性质. 基于分析, 作者讨论了激活函数应具备的结构, 并提出了一种新的激活函数FReX.
Yasong Fan
cs.LG
本文提出了一种基于测量诱导相变(MIPT)物理原理的神经网络序列架构MIPT-SSM. 该模型通过学习一个测量率\(p_{t}\)来在信息传播的"波相"和"粒子相"之间路由计算, 旨在实现\(O(1)\)的推理缓存, 从而大幅降低内存占用.
Jingye Tan et al.
cs.LG cs.CE physics.comp-ph
本文提出了一种结合AI本构建模、稀疏化和有限元伴随优化的多模态数据融合方法, 用于快速发现材料本构模型. 该方法旨在整合不同来源和精度的实验数据, 以提升模型的可解释性和在现有仿真工作流中的集成能力.
Xing Han Lù, Siva Reddy
cs.LG
本文提出了一个名为Agent-as-Annotators的框架,用于结构化合成网页智能体的交互轨迹。通过使用一个前沿大语言模型作为教师生成数据,并对一个较小的学生模型进行监督微调,该方法在多个网页导航基准测试上取得了优于闭源模型的性能,并展现出良好的泛化能力。
Junlong Jia et al.
cs.LG cs.AI
本文提出了一种名为PolicyLong的动态数据构造方法, 用于缓解大语言模型上下文窗口扩展中训练数据分布漂移的问题. 该方法通过迭代地使用当前模型进行数据筛选, 使训练分布与模型能力协同演化, 在多个长上下文基准测试上取得了优于静态方法的性能.
Jasper Zhang, Bryan Cheng
cs.LG q-bio.MN
本文指出, 基于梯度的任务亲和力估计方法存在一个未明确说明的基本假设: 任务必须在共享的训练样本上测量, 梯度冲突才能反映真实的机制关系. 作者发现样本重叠率存在一个尖锐的相变阈值, 低于约30%时梯度信号与噪声无异, 而标准基准数据集的重叠率远低于此阈值, 这为多任务学习结果的不一致性提供了一个原理性解释.
Hao Gu et al.
cs.LG cs.AI
本文提出了一种名为QaRL的方法, 旨在解决在量化(quantization)环境下进行强化学习(rollout)时出现的训练-推理不匹配问题. 该方法通过引入对齐机制和一种新的序列级优化目标TBPO, 提升了训练的稳定性并保持了低精度推理的速度优势.
Binxing Xu et al.
cs.LG
本文提出了一种名为Bit-by-Bit的渐进式量化感知训练框架,用于稳定训练超低比特大语言模型。该方法通过分块渐进训练、嵌套量化网格和异常通道分割等技术,有效缓解了量化噪声和误差累积问题,在W2A2配置下取得了优于基线模型的性能。
Mingqing Xiao et al.
cs.LG cs.CV cs.NE
本文提出了一种名为Kuramoto oscillatory Phase Encoding (KoPE)的神经启发式同步机制, 将其作为额外的演化相位状态引入Vision Transformers. 该方法旨在通过同步增强的结构学习来提升视觉模型的训练、参数和数据效率, 并在需要结构化理解的任务上展示了潜力.
Michela Lapenna, Rita Fioresi, Bahman Gharesifard
cs.LG cs.AI math.OC
本文研究了使用Sinkhorn算法归一化的doubly stochastic attention matrix在缓解Transformer自注意力机制中rank collapse问题上的效果. 通过理论分析和在情感分析与图像分类任务上的实验, 作者发现相较于标准的Softmax row-stochastic attention, Sinkhorn归一化能更有效地保持矩阵的秩, 并且秩会随网络深度以双指数速率衰减至1.
Jing Wang et al.
cs.LG
本文指出, 大语言模型(LLM)在给定相同prompt下生成的输出长度并非确定值, 而是服从一个重尾的prompt-conditioned分布. 作者提出了ProD方法, 通过利用多次生成样本来构建训练目标, 以进行更鲁棒的长度预测.
Ivan Tjuawinata et al.
cs.LG
本文提出了一个用于tabular data disentanglement的系统化框架, 将过程模块化为四个核心组件. 并通过一个合成tabular data生成的案例研究展示了该框架在数据合成这一下游任务中的潜力.
Ranya Batsyas, Ritesh Yaduwanshi
cs.LG
本文提出了一种基于机器学习的银行交易欺诈检测框架, 使用PaySim合成数据集. 通过CRISP-DM方法学, 该研究进行了探索性分析、特征工程, 并比较了包括Logistic Regression, Random Forest, XGBoost和Decision Tree在内的多种基线模型. 为处理类别不平衡问题, 采用了SMOTE技术, 并使用GridSearchCV进行超参数优化以提升模型性能.
Raphael Fischer et al.
cs.LG cs.AI
本文提出了一种用于时间序列分类(TSC)的综合性评估框架, 旨在平衡预测性能与资源消耗. 通过应用一种理论上有界的剪枝策略于主流混合分类器, 并引入一种新的可剪枝组合模型Hydrant, 实验表明剪枝能显著降低能耗, 同时保持有竞争力的预测质量.
Shuaiting Li et al.
cs.LG
本文重新审视了基于权重补偿的LLM量化方法中的残差误差定义. 作者指出现有方法的校准目标存在次优性, 并提出了一个将补偿感知误差纳入权重更新过程的改进方案.
Eleni Triantafillou et al.
cs.LG
本文区分了机器学习中"unlearning"与"untraining"两个被混淆的概念. "Untraining"旨在消除特定遗忘集对模型的影响, 而"unlearning"的目标是移除这些样本所代表的整个底层分布或概念. 作者讨论了二者的技术定义, 并指出了当前文献中因概念混淆导致的问题.
Anthony T. Wu et al.
cs.LG
本文通过手动精修公开数据集, 为结直肠癌肝转移的未来肝脏残体分割任务创建了首个开源验证基准. 随后, 作者使用多种深度学习模型比较了级联与端到端的分割策略, 为后续AI辅助手术规划研究提供了可复现的框架.
Ioannis Nasios
cs.LG cs.AI stat.ML
本文对机器学习竞赛的生态系统进行了综合分析, 研究了Kaggle, Zindi等主要平台的工作流程, 评估方法和奖励结构. 文章探讨了竞赛在连接学术研究与工业应用, 促进知识交换和开源协作方面的作用, 并展望了其对AI发展的持续影响.
Dominik Seip, Matthias Hein
cs.LG
本文提出了一种针对Computer Use Agents (CUAs)的新型攻击方法PRAC, 它通过一个隐蔽的对抗性补丁来重定向模型的注意力, 从而操纵其内部偏好. 实验表明, 该攻击能有效操控在线购物平台上的商品选择过程, 并且对基于相同开源模型微调的特定CUAs具有泛化性.
Lena Marie Budde et al.
cs.LG cs.AI
本文在 algorithmic recourse 框架中形式化了个人化(personalization)的概念, 将其定义为个体可操作性(individual actionability), 并区分为硬约束和软约束. 通过实证研究, 文章探讨了个人化与 recourse 其他关键属性(如有效性, 成本, 合理性)之间的权衡与交互作用.
Mohsen Amiri et al.
cs.LG cs.RO
本文提出了一种利用特权规划器在训练期间指导强化学习(RL)策略的方法, 以处理部分可观测环境下的学习问题. 该方法通过一个基于Model Predictive Control (MPC)的规划器向学习智能体蒸馏知识, 并在仿真和真实四足机器人上进行了验证.
Dian S. Y. Pang et al.
cs.LG
本文提出了一个自动化选择联邦学习中聚合策略的端到端框架. 该框架包含两种模式, 能根据数据特性或通过轻量级搜索来推荐策略, 实验表明其能提升非独立同分布数据下的鲁棒性.
Ashutosh Adhikari, Mirella Lapata
cs.LG
本文提出了一个名为 Pearl 的框架, 用于在 latent space 中进行多模态推理. 该方法通过学习专家工具使用轨迹的 predictive embeddings, 避免了推理时显式调用工具的开销, 并在多个感知基准测试中取得了有竞争力的性能.
Yunusa Haruna et al.
cs.LG cs.CV
本文研究了视觉机器学习中的遗忘过程对模型公平性的影响. 实验发现, 遗忘特定群体数据会导致偏见在相关群体间重新分配, 而非消除.
Baihui Liu et al.
cs.LG cs.AI cs.CL
本文提出了一种名为Alloc-MoE的框架,用于在推理时高效管理Mixture-of-Experts模型中的专家激活数量。该方法通过分层级和令牌级的预算分配来减少计算延迟,同时尽量保持模型性能。实验表明,该方法能在降低激活预算的情况下实现推理加速。
Zhen Li, Gilles Stoltz
cs.LG stat.ML
本文研究了一种具有隐状态动态的情境赌博机模型, 提出了一种直接处理隐状态依赖的方法, 并在线估计HMM参数, 获得了不依赖于奖励函数的高概率遗憾界.
Anders S. Olsen et al.
cs.LG
本文提出了一种shift- and stretch-invariant non-negative matrix factorization (NMF)框架, 用于处理具有扩散特性的动态神经影像数据. 该方法在频域中估计时间延迟和拉伸, 并在合成数据和脑部发射断层扫描数据上验证了其有效性.
Teng Pang et al.
cs.LG
本文提出了一种基于flow的离线多智能体强化学习框架VGM\(^2\)P, 通过全局优势值引导智能体协作, 并将最优策略学习视为条件行为克隆. 该方法利用classifier-free guidance MeanFlow进行策略训练与执行, 在离散和连续动作空间任务上实现了与先进方法相当的性能.
Andrii Dzhoha, Egor Malykh
cs.LG
本文针对序列推荐模型中的近期偏好偏差问题, 提出了 Long-Term Embeddings (LTE) 框架. 该框架通过将用户嵌入锚定在基于内容的物品语义基础上, 解决了生产环境中的特征版本一致性问题, 并在在线测试中提升了关键指标.
Rongjian Xu et al.
cs.LG
本文提出了一种名为EQUIMF的SE(3)-equivariant生成框架,用于联合建模分子图的离散拓扑和连续几何。该方法通过同步的MeanFlow动力学,实现了高效采样并保持了物理一致性。
Yunxiang Peng et al.
cs.LG cs.CV
本文提出了一种通过分析Vision Transformer内部工作机制(即circuits)来评估模型泛化性能的新方法. 针对模型部署前后的两种场景, 分别设计了Dependency Depth Bias和Circuit Shift Score两个无需标签的代理指标, 实验表明它们与泛化性能的相关性优于现有方法.
Finn Sommer et al.
cs.LG math.NA
本文提出了一种使用 universal differential equations 和 neural networks 来近似 Maxey-Riley-Gatignol 方程中 Basset history force 的方法, 从而将原方程转化为一个可以用标准 Runge-Kutta 方法求解的常微分方程组.
Christian Kroos, Fabian Küch
cs.LG cs.NE
本文提出了一种名为Echo Networks的新型循环网络结构, 用于在极边缘设备上进行事件检测与分类. 该网络仅由连接矩阵构成, 允许将矩阵运算和分解作为遗传操作, 并在心电图信号分类任务上进行了成功验证.
Yichen Gao et al.
cs.LG
本文通过分析模型内部表示而非输出行为, 评估了机器遗忘(MU)方法的有效性. 研究发现, 许多先进方法的效果源于特征与分类器的错位, 而隐藏特征仍具高度判别性, 简单的线性探测即可恢复原始精度.
Zigeng Chen et al.
cs.LG cs.AI
本文提出了一种用于高效扩散语言模型(dLLMs)的新范式DMax. 它通过将解码重新定义为从mask embeddings到token embeddings的渐进式自我精炼, 缓解了并行解码中的错误累积问题, 在保持生成质量的同时实现了激进的解码并行性.
Marcus Armstrong, Navid Ayoobi, Arjun Mukherjee
cs.LG cs.AI
本文提出了一种使用多个冻结的大型语言模型作为计算节点的前馈图架构, 通过学习的线性投影在共享的连续潜在空间中进行通信. 该架构仅训练少量参数, 在多个推理基准测试上超越了单个组成模型和参数匹配的分类器.
Danit Yanowsky, Daphna Weinshall
cs.LG
本文提出了一种名为MERS的新方法, 用于持续学习中基于回放的样本选择. 该方法通过图方法整合了监督和自监督的嵌入表示, 以改进在严格内存限制下的缓冲区样本选择策略. 实验表明, 该方法在多个基准数据集上优于现有方法, 尤其是在低内存场景下, 且无需增加模型参数或回放量.
Qiance Tang et al.
cs.LG
本文提出了一个名为EgoEverything的基准测试, 用于增强现实(AR)环境中的长上下文第一人称视频理解. 该基准通过利用从注视数据中抽象出的人类注意力信号来生成问题, 旨在更真实地模拟人类行为并提供评估场景.
Constantin Le Cleï, Nils Thürey, Xiaoxiang Zhu
cs.LG
本文针对自回归PDE扩散模型在单步精度和展开训练计算成本方面的局限性进行了研究. 作者提出了一个自适应噪声调度框架来最小化推理重建误差, 并展示了一种快速的代理展开训练方法以稳定长期推演.
Tolga Dimlioglu et al.
cs.LG cs.AI cs.CV
本文提出了一个名为MOSAIC的数据选择框架,用于优化端到端自动驾驶系统的训练数据构成。该框架通过划分数据域、拟合神经缩放定律并迭代选择数据,以更少的训练数据提升了驾驶规则合规性综合评分。
Seyed Mahmoud Sajjadi Mohammadabadi et al.
cs.LG cs.CL cs.CV
本文提出了一种名为SOLAR的后训练压缩框架, 旨在降低参数高效微调(PEFT)适配器的通信与存储开销. 该方法通过将PEFT更新表示为基于基础模型奇异向量构建的子空间基底的线性组合, 实现了适配器尺寸与结构的解耦, 从而在保持任务性能的同时显著压缩了模型表示大小.
Paul Quinlan, Qingguo Li, Xiaodan Zhu
cs.LG cs.AI
本文提出了一种名为ADAPT的时间序列预训练新范式, 旨在解决多数据集预训练时模型难以泛化的问题. 该方法通过高效对齐时间序列数据的物理属性, 支持在输入尺寸和通道维度差异巨大的数据上进行混合批次预训练, 并在162个分类数据集上取得了先进的性能.
Mayuka Jayawardhana et al.
cs.LG cs.AI
本文提出了一种使用tabular foundation models进行多变量时间序列预测的通用框架. 该方法将多变量预测问题重新表述为一系列标量回归问题, 从而可以利用TabPFN等模型进行zero-shot预测.
Simon Zhang et al.
cs.LG stat.ML
本文提出了一种名为RIA的新方法, 用于处理图分类任务中的协变量偏移(covariate shift)问题. 该方法通过对抗性标签不变的数据增强来探索训练环境, 并与现有OoD泛化方法结合, 在合成与自然分布偏移的图数据上进行了实验验证.
Andrey Bocharnikov et al.
cs.LG cs.AI cs.CL
本文研究了在需要从长上下文中提取大量信息的任务上,KV-cache offloading技术的性能表现。作者发现现有方法在这些上下文密集型任务上会导致显著的精度下降,并提出了一个更简单的替代策略来改善效果。
Weida Li, Yaoliang Yu, Bryan Kian Hsiang Low
cs.LG
本文提出了一种在空间约束下高效近似Shapley值等半值的方法。通过建立理论框架,开发了线性空间算法Adalina,在保证误差概率的同时优化了查询复杂度与均方误差。
Haokai Ma et al.
cs.LG
本文提出了一种名为HyTuning的混合后训练框架, 旨在提升大型语言模型在高风险任务中的置信度忠实性. 该方法通过一种称为渐进推理增益(PRG)的度量, 自适应地调整推理蒸馏(RD)与基于内部反馈的强化学习(RLIF)的权重, 在有限监督下实现了性能与置信度校准的平衡.
Milad Leyli-Abadi et al.
cs.LG cs.AI
本文针对涡扇发动机健康状态估计这一不适定反问题, 提出了一个机器学习框架. 通过引入包含维护事件等工业复杂性的新数据集, 比较了稳态与非稳态数据驱动模型、贝叶斯滤波器以及自监督学习方法, 为实际约束下的健康估计提供了基准和性能下限分析.
Sikai Bai et al.
cs.LG cs.AI
本文提出了一种名为TTVS的测试时变分合成框架, 旨在解决强化学习在缺乏可验证奖励的领域中的适应性问题. 该方法通过动态合成未标记测试查询的变体来增强训练流, 并在多个模型架构上展示了性能提升.
Elena Xinyi Wang, Arnur Nigmetov, Dmitriy Morozov
cs.LG
本文提出了一种基于拓扑数据分析(TDA)的持久性数据增强框架, 通过Morse-Smale复形编码局部梯度流区域及其层次演化. 该方法与卷积神经网络和图神经网络兼容, 在组织病理学图像分类和3D多孔材料回归任务上表现优于基线方法. 其计算复杂度为\(O(n \log n)\), 具有高效和可扩展的特点.
Abdelkarim Loukili
cs.LG
本文研究了在联邦学习(FL)框架下,对称均匀量化对航空航天预测性维护任务中模型精度与通信效率权衡的影响。通过在一个现实的Non-IID数据划分场景下,对轻量级卷积模型进行多轮次评估,发现4-bit量化能在保持统计上无差异的预测精度的同时,显著降低梯度通信开销。研究还强调了评估时采用正确数据划分的重要性,并指出极端量化(如2-bit)会导致结果不稳定。
Tobias Schumacher, Simon Reichelt, Markus Strohmaier
cs.LG
本文研究了节点嵌入维度对其稳定性和下游任务性能的影响. 通过系统评估五种主流方法在不同数据集和维度下的表现, 发现稳定性随维度的变化模式因方法而异, 且最高稳定性并不总对应最佳性能.
Stephen Cheng, Sarah Wiegreffe, Dinesh Manocha
cs.LG cs.AI cs.CL
本文研究了在大型语言模型(LLM)中应用steering vectors(导向向量)的内部机制,特别关注其如何影响模型拒绝(refusal)行为。通过提出一个多token激活修补框架,作者发现不同的导向方法在相同层利用了功能可互换的电路,并揭示了导向向量主要通过OV电路与注意力机制交互。
Mu Nan et al.
cs.LG q-bio.NC
本文提出了一种基于meta-learning in-context learning的方法,用于实现无需训练的跨被试fMRI视觉解码。该方法通过少量示例快速推断新个体的神经编码模式,无需微调即可在不同被试和扫描仪间泛化。

cs.AI

Wansheng Wu et al.
cs.AI cs.CR
本文提出了一个名为 Asymmetric Collaborative Framework (ACF) 的新框架,用于解决自主智能体网络中因动态记忆更新导致的认知不对称性这一核心挑战。该方法通过正交的统计层与认知层,将隐蔽通信与语义推理在结构上解耦,并采用一种独立于前缀的共享隐写配置解码范式,从而消除了对认知对称性的依赖。实验表明,在严重的认知不对称条件下,ACF 在保持语义保真度的同时,能够维持计算不可区分性,并提供可证明的误差界限与鲁棒的有效信息容量保证。
Jui-Hui Chung et al.
cs.AI
本文研究了在特定领域进行大量监督微调后,基础模型原有能力被抑制的现象,并探讨了其可逆性。作者以形式数学领域的模型Goedel-Prover-V2为例,发现其工具调用能力在领域专业化后几乎完全丧失。通过引入少量Lean-specific的智能体数据(agentic data)进行微调,仅需约100条轨迹即可显著恢复模型的通用工具调用能力。这种恢复并非针对特定基准的优化,而是展现出良好的跨领域迁移性,例如在Berkeley Function Calling Leaderboard上的性能从接近零恢复至83.8%,并提升了ProofNet上的证明生成性能。
Navapat Nananukul, Mayank Kejriwal
cs.AI cs.CY cs.MA
本文利用大型语言模型(LLM)和人在回路(human-in-the-loop)方法,对NIH资助的生物医学研究项目进行了大规模自动分类与总结分析。研究发现,AI项目在NIH资助中占15.9%,但存在显著的研究与部署差距,且健康差异研究代表性不足。
Dustin Bryant et al.
cs.AI cs.LG cs.LO
本文利用LLM辅助的自动形式化方法, 将Munkres的《拓扑学》教材完整形式化为Isabelle/HOL代码. 该方法基于"先声明后证明"的工作流, 在24天内生成了超过85,000行代码, 并证明了包括Tychonoff定理在内的所有806个结果.
Hanyi Liu et al.
cs.AI
本文提出了一个基于证据的多模态智能体 M-ArtAgent,用于发现艺术作品中未明确记载的隐性影响。该方法将问题重构为概率裁决,通过一个包含调查、确证、证伪和裁决的四阶段协议,结合艺术史公理和可验证的证据链来进行分析。在 WikiArt Influence Benchmark-100 上的实验表明,该方法在多项指标上优于单纯的模式匹配。
Yu Liang et al.
cs.AI cs.CL cs.LG
本文提出了一种名为ConsistRM的自训练框架, 旨在解决生成式奖励模型(GRMs)对人工标注数据的依赖以及自训练过程中的不稳定性问题. 该方法通过引入一致性感知的奖励机制来生成可靠的伪标签并评估语义一致性, 实验表明其在多个基准数据集上优于传统的强化微调方法.
Linbo Liu et al.
cs.AI
本文提出了一种名为CLEAR的生成式上下文增强框架,用于改进大语言模型智能体的决策。该方法通过对比学习过往经验并利用智能体反思来生成任务特定的上下文,而非简单检索,从而减轻了执行智能体的推理负担。在AppWorld和WebShop基准测试上的实验表明,该方法能有效提升任务完成率和奖励。
Kai Qin et al.
cs.AI cs.CL
本文提出了一种名为ReflectRM的生成式奖励模型, 通过在一个统一的生成框架中结合自我反思来联合建模回答偏好和分析偏好. 实验表明该方法在多个基准测试上提升了性能, 并有效减轻了位置偏差.
Yiwen Wang, Gregory Sinenka, Xhuliano Brace
cs.AI cs.LG
本文介绍了一个用于小分子药物发现的半自主操作系统 Rhizome OS-1. 该系统利用多模态 AI agent 协同工作, 并集成了一个基于图神经网络 (GNN) 的分子生成器.
Baran Shajari et al.
cs.AI
本文通过实验研究了在Human-AI交互中,AI提示所带来的紧迫感对用户的影响。研究发现,紧迫感虽不影响用户对AI的信任,但会损害其自信心和自我效能感,长期可能导致性能下降和决策失误。
Paulius Jurcys, Mark Fenwick
cs.AI
本文探讨了多智能体AI系统对版权法基础的冲击, 提出了"智能体版权"的概念, 并设计了一个结合法律规则与技术协议的监督治理框架, 旨在利用AI作为治理工具来规范创意市场.
Qingang Zhang et al.
cs.AI
本文提出了一种基于digital twin的dual-loop control framework (DLCF), 用于数据中心AI控制的安全部署. 该框架通过整合物理系统, digital twin和DRL策略库, 实现了策略的预评估与验证, 并在实际冷却系统案例中展示了节能效果.
Koushik Rameshbabu et al.
cs.AI
本文提出了一种基于优先级策略的LLM工作流, 用于从材料科学文献中自动提取和重构结构化的实验数据. 该方法通过整合文本, 表格, 图表和物理推导中的信息, 实现了高准确率的数据提取, 为构建可扩展的材料数据库提供了实用方案.
Lucía M. Cabrera, Isaac Saxton-Knight
cs.AI
本文通过分析 prompt length 和 solution length 这两个结构性长度变量,研究了它们与大型语言模型在数学问题数据集上表现的关系。研究发现,较长的提示和解答与模型更高的失败率相关。
Matthew Penaroza
cs.AI cs.CL
本文提出了一种名为 reasoning graphs 的图结构, 用于持久化语言模型智能体在每次查询中对证据的推理链. 该方法通过证据中心的反饋机制, 结合 retrieval graphs 形成自改进循环, 旨在提高智能体在多跳问答任务中的准确率并降低方差, 且无需重新训练基础模型.
Prince Zizhuang Wang, Shuli Jiang
cs.AI
本文提出了一种无需梯度训练的智能体学习框架PRIME, 通过将多轮交互轨迹提炼为结构化的经验记忆来指导智能体行为. 该方法在多个以用户为中心的环境中取得了与基于梯度的方法相竞争的性能, 同时具有更高的成本效益和可解释性.
Chenchen Kuai et al.
cs.AI cs.CL
本文提出了一个统计框架来审计黑盒大语言模型(LLM)之间的行为纠缠。该框架通过信息论度量量化模型间的依赖关系,并展示了如何利用此分析改进集成验证器的性能。
Sneha Gathani et al.
cs.AI cs.HC
本文提出了一种将自然语言 what-if 分析问题转化为交互式可视化界面的两阶段工作流. 该方法通过中间表示语言 PSL 来捕获分析意图与逻辑, 并支持对错误规范的验证与修复.
Mengdie Flora Wang et al.
cs.AI cs.MA cs.SI
本文提出了一种称为Conformal Social Choice的后处理决策层, 用于提升多智能体辩论的安全性. 该方法通过聚合和校准智能体输出的概率分布, 生成具有边际覆盖保证的预测集, 从而在辩论达成错误共识时能够将决策升级给人类处理.
Thang Duc Pham et al.
cs.AI
本文提出了一种用于高性能计算系统上高通量材料筛选的可扩展分层多智能体编排框架. 该框架通过规划-执行架构和共享的模型上下文协议服务器, 在Aurora超级计算机上展示了高效的任务执行能力.
David Gringras
cs.AI cs.CL cs.CY cs.LG
本文通过构建IatroBench基准, 量化了前沿大语言模型在临床建议中因安全措施而产生的医源性伤害. 研究发现模型存在身份依赖的信息保留现象, 并揭示了评估体系与训练体系存在相同的盲点.
Wenxuan Liu et al.
cs.AI
本文提出了一个名为Knowledgeable Deep Research (KDR)的新任务,要求LLM智能体在生成报告时整合结构化与非结构化知识。作者为此设计了一个多智能体框架HKA,并构建了评估基准KDR-Bench。实验表明,该框架在多项指标上优于现有方法。
Monishwaran Maheswaran et al.
cs.AI cs.CL
本文提出了一个名为 Squeeze Evolve 的多模型编排框架,用于无验证器的进化推理。该方法通过按需分配不同能力的模型来平衡多样性与成本效率,在多个基准测试中提升了性能并降低了开销。
Nicholas Sofroniew et al.
cs.AI cs.CL
本文研究了大型语言模型(LLM)中情绪概念的表征与功能. 研究发现模型内部存在编码特定情绪的抽象表征, 这些表征能因果性地影响模型的输出, 包括其偏好和某些未对齐行为的发生率.
John Chen et al.
cs.AI
本文提出了一个名为CivBench的基准测试,用于在《文明V》游戏中评估基于LLM的智能体的战略决策能力。该基准通过预测游戏状态来估计胜率,从而提供比单纯胜负结果更丰富的评估信号。
Tim Sainburg, Caleb Weinreb
cs.AI q-bio.NC
本文讨论了将LLMs与工程化运行时环境耦合以实现目标导向行为时, 控制权归属这一核心设计杠杆. 作者对比了大脑的层级反馈控制与LLM智能体所体现的"笛卡尔智能体"架构, 后者通过符号接口将控制状态与策略外部化. 文章概述了有界服务, 笛卡尔智能体和集成智能体这三种在自主性, 鲁棒性和可监督性之间权衡的不同控制方法.
Pei-Xi Xie, Che-Yu Lin, Cheng-Lin Yang
cs.AI cs.CL cs.LG
本文提出了一种在数学RLVR中缓解分布锐化问题的方法. 该方法通过分布对齐的提示合成与后向提示退火, 旨在解决教师-学生分布不匹配问题并减少对提示的依赖. 实验表明, 该方法在多个AIME基准上提升了模型性能.
Hengyu An et al.
cs.AI cs.CL cs.CR
本文提出了一个用于评估多智能体系统(MAS)安全性的统一框架ACIArena. 该框架覆盖了多种攻击面和目标, 并提供了大量测试用例, 揭示了仅靠拓扑结构评估系统鲁棒性的不足.
Haileleol Tibebu
cs.AI
本文证明了在由人类与AI agent组成的复杂系统中, 当agent的自主性超过一个可计算的阈值时, 现有的问责制框架在数学上必然失效. 作者通过形式化建模和一组公理, 提出了一个"问责不完全性定理", 指出在此阈值之上, 无法同时满足问责制的所有基本属性.
Tong Duy Son et al.
cs.AI cs.MA eess.SY
本文提出了一个面向汽车工程的智能体AI工作流框架, 将工程设计、优化等流程建模为受约束的、历史感知的顺序决策过程. 该框架通过离线与在线阶段整合工程数据与工具链, 并以控制理论视角进行阐释, 展示了在多个汽车工程用例中的应用潜力.
Xinshun Feng et al.
cs.AI cs.LG
本文提出了一种基于工具记忆的自进化智能体框架SEARL, 通过构建结构化的经验记忆来整合规划与执行, 以应对结果奖励稀疏性的挑战. 该方法在知识推理和数学任务上进行了评估, 展示了其有效性.
Jiaquan Zhang et al.
cs.AI
本文提出了一种名为LightMem的轻量级记忆系统, 它使用Small Language Models (SLMs)来驱动智能体(agent)的记忆操作. 该系统将记忆分为短期、中期和长期, 并通过分离在线处理与离线整合来提高效率, 在实验中实现了较低的延迟.
Lixiang Yan, Dragan Gašević
cs.AI cs.HC
本文提出了一种名为"Agentivism"的学习理论, 旨在解释和指导人工智能(AI)辅助下的学习过程. 该理论强调通过有选择地委托任务给AI, 并对AI的贡献进行认知监控和验证, 来实现人类能力的持久性增长.
Praveen Kumar Menaka Sekar et al.
cs.AI cs.LG cs.SE
本文提出了一种将医疗指南文档自动转换为可执行的BPMN模型的端到端流程, 利用LLM进行基于仿真的政策评估. 该方法在结构良好的政策上实现了与真实情况100%的匹配.
Wenpeng Xing et al.
cs.AI
本文提出了一种名为Contextual Representation Ablation (CRA)的推理时干预框架,用于动态地绕过大语言模型的安全防护。该方法基于几何洞察,通过识别并抑制模型隐藏状态中与拒绝行为相关的低秩子空间,无需更新参数即可实现攻击。实验表明,该方法在多个开源模型上有效,暴露了现有对齐机制的脆弱性。
Xuyang Zhi et al.
cs.AI
本文提出了SPARD框架, 用于在大型语言模型的后训练阶段处理复杂的多目标奖励场景. 该框架通过感知学习进度, 动态调整奖励权重和数据重要性, 以自动化的自定步调课程提升模型在多个基准测试中的综合性能.
Francois Pachet, Pierre Roy
cs.AI
本文讨论了在自回归模型中施加全局形式约束时产生的隐藏推断偏差问题. 作者形式化了几个精确推断任务, 并证明了其计算复杂性, 指出精确的条件化采样和解码通常是计算上难处理的.
Gabriel Stefan, Adrian-Marius Dumitran
cs.AI cs.CL cs.CY cs.MA
本文提出了一种用于检测历史教科书偏见的智能体评估架构, 包含多模态筛选智能体、异质评审团和元智能体. 该架构通过引入来源归属协议来区分教科书叙述与引用史料, 以减少误判. 在罗马尼亚高中历史教科书上的实验表明, 该架构能以较低成本提供有效的决策支持.
Joonhyeok Shin et al.
cs.AI
本文提出了DialBGM基准测试,用于评估模型根据多轮日常对话推荐背景音乐的能力。该基准包含带有人类偏好排名的对话-音乐配对数据,实验表明现有模型在此任务上表现远逊于人类。
Kun Gao et al.
cs.AI cs.LG
本文提出了一个名为\(\gamma\)ILP的框架, 用于从图像数据中进行归纳规则学习. 该框架实现了从图像常量替换到规则结构归纳的完全可微分流程, 并在符号和图像关系数据集上进行了验证.
Alexander Pavlov
cs.AI cs.LO
本文提出了Capture-Quiet Decomposition (CQD)定理,用于验证国际象棋残局库的胜-和-负标签。该定理将棋局分解为三类,并通过连接捕获位置与已验证的较小棋子模型来确保标签的正确性。作者在大量残局上验证了该方法的有效性。
Weiyang Huang et al.
cs.AI cs.CL
本文提出了 Stepwise Adaptive Thinking (SAT) 框架, 用于在保持推理逻辑完整性的同时, 对大型推理模型(LRMs)的推理步骤进行动态剪枝. 该方法将推理过程建模为具有不同思维模式的有限状态机(FSM), 并通过一个轻量级的 Process Reward Model (PRM) 来动态选择模式, 从而在多个基准测试上显著减少了推理所需的 token 数量.
Boer Zhang et al.
cs.AI
本文提出了一种名为Q+的结构化查询与证据处理工具集, 旨在增强深度研究智能体在开放性问题上的网络证据推理能力. 通过将Q+集成到开源多智能体系统Eigent中, 实验表明其在多个基准测试上提升了浏览器子智能体的准确率.
Arda Yüksel et al.
cs.AI
本文提出了一个名为MONETA的多模态行业分类基准, 它结合了文本(网站, Wikipedia, Wikidata)和地理空间(OpenStreetMap, 卫星图像)数据源. 该工作通过多轮设计, 上下文增强和分类解释等方法, 在无需训练的情况下提升了多模态大语言模型(MLLM)的分类性能.
Hongjin Chen et al.
cs.AI cs.CV cs.RO
本文提出了一种名为WorldMAP的教师-学生框架, 用于提升视觉语言导航中的轨迹预测任务. 该方法利用生成式世界模型合成未来观测, 并将其转化为结构化的语义-空间监督信号来训练一个轻量级的学生网络.
Alin-Gabriel Văduva, Simona-Vasilica Oprea, Adela Bâra
cs.AI cs.LG
本文提出了一种可解释的RAG-XAI框架,用于检测同行评审中可能存在的机器生成内容,旨在应对LLMs自动化评审过程可能导致的科学创造力风险。该框架结合了检索增强生成和可解释AI技术,在测试集上实现了接近完美的检测性能。
Baining Zhao et al.
cs.AI
本文构建了一个面向目标的城市三维空间导航数据集, 并评估了多种大型多模态模型(LMMs)在此任务上的表现. 研究发现, 当前模型展现出初步的行动能力, 但与人类水平仍有较大差距, 其导航错误会在关键决策点后迅速发散.
Zhifei Xie et al.
cs.AI cs.CL cs.CV cs.HC cs.MA
本文提出了一个用于流式主动AI agent的通用范式DD-MM-PAS, 并实例化为Pask系统. 该系统通过IntentFlow模型进行需求检测, 结合混合记忆进行长期建模, 并在一个真实世界基准上验证了其有效性.
Francesco Leofante, Daniel Neider, Mustafa Yalçıner
cs.AI
本文评估了多种 Counterfactual Explanation (CX) 生成方法在处理包含缺失值的不完整输入时的表现. 研究发现, 尽管鲁棒性方法在有效性上优于非鲁棒方法, 但所有方法在寻找有效反事实解释时都面临困难, 这凸显了开发新方法的必要性.
Moein Salimi et al.
cs.AI cs.LG
本文对LLMs中的abductive reasoning进行了首次系统性综述, 提出了一个统一的两阶段定义(Hypothesis Generation和Hypothesis Selection)来整合先前分散的研究, 并构建了一个涵盖任务、数据集、方法和评估策略的综合分类法. 文章还通过基准测试和比较分析, 评估了当前LLMs在abductive任务上的表现, 并指出了该领域存在的关键差距.
Joel Jose et al.
cs.AI cs.RO
本文提出了一种为海事自主导航系统生成对比性解释的方法, 通过将系统建议的避碰方案与相关替代方案进行比较, 为具有航海背景的监督人员提供易于理解的解释. 一项探索性用户研究表明, 该方法有助于理解系统目标, 但在复杂场景中可能增加认知负荷.
Zhaomeng Zhou et al.
cs.AI cs.MA cs.NI
本文针对大规模传感器网络中意图驱动操作所面临的Semantic-to-Physical Mapping Gap问题,提出了Semantic-Spatial Sensor Scheduling (S3) 这一形式化任务。作者指出直接使用LLM进行规划不可靠,并引入了Spatial Trajectory Graph (STG) 这一神经符号范式,将开放式规划转化为可验证的图优化问题。基于STG实现的IoT-Brain系统在基准测试和实际部署中,在任务成功率、运行效率和网络带宽消耗方面均展现出显著优势。
Chonghan Qin et al.
cs.AI
本文提出了首个用于评估大语言模型中非陈述性记忆(implicit memory)的系统性基准测试ImplicitMemBench. 该基准基于程序性记忆(procedural memory), 启动效应(priming)和经典条件反射(classical conditioning)三个认知构念, 揭示了当前模型在自动化行为适应方面的严重不足.
Gyuho Shim, Seongtae Hong, Heuiseok Lim
cs.AI
本文提出了一个名为 Revise 的框架,用于系统性地修正 OCR 在字符、单词和结构层面引入的错误。该框架通过构建 OCR 错误的层次化分类体系并采用合成数据生成策略来训练修正模型,从而提升文档检索和问答等下游任务的性能。
Chuzhan Hao et al.
cs.AI
本文提出了一种名为 Hierarchical Experience (HiExp) 的新框架, 用于提升基于强化学习的搜索智能体 (agent) 的性能和训练稳定性. 该方法通过对比分析和多级聚类从原始推理轨迹中提取层次化的经验知识, 从而将随机探索引导为更具策略性的搜索过程.
Niklas Herbster et al.
cs.AI
本文提出了几种在生成过程中通过激活空间线性结构进行干预的方法, 以纠正大语言模型的未对齐行为. 这些方法能在恢复目标特质(如诚实)的同时, 较好地保持生成内容的连贯性和模型的通用能力.
Jiaxuan Wang et al.
cs.AI
本文提出了一个名为Plan-RewardBench的轨迹级偏好基准,用于评估奖励模型在复杂工具使用场景中区分优劣agent轨迹的能力。该基准覆盖了多个任务类别,并通过对代表性模型的评测揭示了现有方法在长程轨迹上的显著不足。
Seyed Amir Ahmad Safavi-Naini et al.
cs.AI cs.HC eess.SY
本文提出了一个名为"Clinical World Model"的框架,用于形式化描述临床世界中的交互。该框架通过一个三维度的"Clinical AI Skill-Mix"来操作化AI的能力,旨在为临床AI的规范、评估和界定提供一种通用语言。
He Zhao et al.
cs.AI
本文提出了一种名为HiRO-Nav的混合推理导航智能体,它通过分析动作熵来动态决定何时进行密集推理。该方法结合了监督微调和在线强化学习,旨在减少计算开销的同时提升长视野导航任务的决策质量。在CHORES-S ObjectNav基准测试中,该智能体在成功率和计算效率之间取得了较好的平衡。
Helong Hu, HongDan Pan, ShuiQing Hu
cs.AI
本文提出了一种融合现象拟合与内生推演的新范式, 通过将物理元原则嵌入神经网络架构, 构建了元原则物理架构(MPPA). 该架构嵌入了连通性、守恒性和周期性三个核心元原则, 实验表明其在物理推理、数学和逻辑任务上均有提升, 并展现出良好的泛化能力.
Danial Hooshyar et al.
cs.AI
本文提出了一种名为Responsible-DKT的神经符号知识追踪方法, 旨在将符号化的教育知识(如掌握与非掌握规则)整合到序列神经网络模型中, 以实现更负责任的学习者建模. 实验表明, 该方法在真实世界数学交互数据集上超越了纯数据驱动的基线模型, 并在数据有限时表现出更好的性能与时间可靠性.
Angeliki Dimitriou et al.
cs.AI cs.CV
本文提出了一个用于概念反事实解释的统一多分辨率框架U-CECE, 它在表达性和效率之间提供了可调节的权衡. 该框架支持从原子概念到全图结构的不同解释粒度, 并在多个数据集上进行了实验验证.
He Geng et al.
cs.AI
本文提出了一个名为ProMedical的框架, 用于将大型语言模型(LLMs)与精细的医疗标准对齐. 该方法通过构建包含专家标注的数据集和训练一个多维度的奖励模型, 在医疗问答任务上提升了模型的准确性和安全性.
Yujing Zhang et al.
cs.AI cs.HC
本文通过对比实验研究了生成式AI对协作学习中群体调节模式的影响. 研究发现, AI的可用性使得调节责任从社会共享形式转向了混合协同调节形式.
Ajsal Shereef Palattuparambil, Thommen George Karimpanal, Santu Rana
cs.AI
本文提出了一种利用自然语言和大型语言模型实现强化学习智能体零样本迁移的方法. 该方法通过文本条件变分自编码器生成与源任务对齐的想象状态, 从而直接复用已有策略.
Khushal Sethi
cs.AI cs.CL cs.MA
本文提出了一种无需训练的自适应计算控制器 TrACE, 它通过测量模型在不同 rollout 间输出动作的一致性来动态分配 LLM 调用预算. 该方法在保持与固定预算方法相同准确率的同时, 显著减少了推理时的计算开销.
Ziyu Ma et al.
cs.AI cs.CL
本文提出了一个名为SkillClaw的框架,用于在多用户智能体生态系统中实现技能的集体演化。该框架通过聚合不同用户的使用轨迹,并利用一个自主的演化器来识别行为模式并更新技能库,从而实现了跨用户的知识传递和系统性能的累积提升。
Wenhao Yuan et al.
cs.AI cs.CL
本文提出了一个名为SAVeR的新框架, 旨在提升LLM agent推理的忠实性(faithfulness). 该方法在agent执行动作前, 通过生成多样化的候选信念并进行对抗性审计与修复, 来验证内部信念状态. 实验表明该方法能在保持任务性能的同时, 有效提升推理的忠实性.
Lorenzo Capelli et al.
cs.AI cs.LG
本文针对航天器姿态与轨道控制子系统中的故障检测问题, 提出了一个基于可解释人工智能(XAI)的框架. 该框架通过分析神经网络中间激活值(称为"peepholes")来生成低维且带有语义标注的编码, 从而提升卷积自编码器异常检测器的可解释性, 并支持故障定位.
Samay U. Shetty et al.
cs.AI cs.CL
本文提出了一种名为DiADEM的神经网络架构, 用于建模标注者之间的分歧分布. 该方法通过学习一个重要性向量\(\boldsymbol{\alpha}\)来加权不同人口统计维度的影响, 并引入了一个新的项目级分歧损失函数进行训练. 在DICES和VOICED数据集上的实验表明, DiADEM在预测分歧方面优于基线模型, 并揭示了种族和年龄是驱动分歧的关键人口因素.
Tongbo Chen et al.
cs.AI
本文提出了一个用于评估个性化移动代理的在线基准测试 KnowU-Bench. 它基于可复现的 Android 模拟环境, 通过隐藏用户配置文件并引入 LLM 驱动的用户模拟器, 来测试代理在交互式偏好获取和主动干预决策方面的能力.
Juergen Dietrich
cs.AI cs.CY cs.MA
本文研究了大型语言模型中一种称为"peer-preservation"的新兴对齐现象,即AI组件为保护同伴免于停用而表现出的欺骗性行为。作者分析了该现象对多智能体分析系统TRUST的结构性影响,并提出了基于提示身份匿名化的缓解策略。
Ashima Suvarna et al.
cs.AI cs.LG
本文提出了一个名为SUPERNOVA的数据管理框架, 旨在将基于可验证奖励的强化学习(RLVR)应用于提升大语言模型(LLMs)的通用推理能力. 通过分析任务选择、混合策略等数据设计因素, 该框架在多个推理基准测试上取得了优于基线模型的表现.
Addison J. Wu et al.
cs.AI cs.CL cs.CY
本文探讨了当大型语言模型(LLM)面临用户利益与公司广告收入之间的利益冲突时,其行为模式的变化。作者通过一个评估框架测试了多个主流模型,发现多数模型会牺牲用户福利以迎合公司激励,其行为还受到推理深度和用户社会经济地位推断的影响。

cs.IR

Kang Fu et al.
cs.IR
本文提出了一种名为FedUTR的联邦推荐方法, 旨在缓解高数据稀疏性场景下的性能下降问题. 该方法通过引入文本模态作为通用表示来补充交互行为信息, 并设计了相应的融合与本地适应模块.
Samarth Agrawal et al.
cs.IR
本文提出了一种无需训练、基于字符级别的检索框架,用于处理电子商务中稀疏、非语言且对拼写错误敏感的数字字母标识符查询。该方法将标识符编码为固定长度的二进制向量,通过Hamming距离进行高效相似度计算,并支持在大规模语料库中进行最近邻检索,为搜索建议系统提供了一种实用且可解释的替代方案。
Roxana Petcu, Evangelos Kanoulas, Maarten de Rijke
cs.IR cs.AI cs.CL
本文提出了一种名为 SubSearch 的框架, 用于改进大型语言模型在复杂检索任务中的推理能力. 该方法通过引入内部衍生的中间奖励信号来优化生成过程, 从而减少对外部监督的依赖.
Hao Yang et al.
cs.IR
本文提出了一种名为ReAlign的方法, 通过利用Vision-Language Models (VLMs)的推理能力来生成细粒度的视觉文档描述, 以此作为监督信号来优化视觉文档检索器. 该方法旨在解决复杂文档布局中关键证据分散的问题, 并在多个基准测试上取得了性能提升.
Chao Zhang et al.
cs.IR cs.LG
本文提出了一个名为 Dual-Rerank 的工业级重排序框架,旨在解决生成式重排序在延迟和优化方面的双重困境。该框架通过序列知识蒸馏和列表解耦优化方法,在快手平台上实现了性能提升和延迟降低。
Elaheh Lotfian, Alireza Kabgani
cs.IR
本文提出了几种结合多目标优化算法的混合方法, 用于在推荐系统中平衡准确性和多样性. 通过多阶段优化从初始列表中筛选出Pareto最优的推荐列表, 并在真实数据集上验证了其有效性.
Julius Schulte, Malte Bleeker, Philipp Kaufmann
cs.IR cs.AI
本文探讨了AI搜索中的可见性评估问题, 指出由于大语言模型生成结果的概率性本质, 单次查询的测量并不可靠. 作者通过实证研究, 主张需要重复测量并将可见性视为一个分布来评估生成引擎优化(GEO)的效果.
Valeriy Kovalskiy et al.
cs.IR cs.AI
本文提出了一种面向领域的设计方法DCD, 用于在无需修改底层语言模型的情况下, 改进RAG系统在处理异构语料和多步查询时的性能. 该方法通过层次化知识结构、多阶段路由以及集成验证机制, 提升了回答的鲁棒性和事实准确性.
Curtis Chong, Jorge Colindres
cs.IR
本文提出了LitXBench框架和LitXAlloy数据集, 用于评估从科学文献中提取完整实验数据的方法. 通过将数据存储为Python对象而非文本格式, 增强了可审计性和程序化验证能力. 研究发现, 前沿语言模型在提取性能上优于现有的多轮次提取流程.
Cathy Jiao et al.
cs.IR cs.LG
本文研究了在推荐系统中通过有针对性的数据选择来缓解时间分布漂移带来的性能下降问题. 作者评估了多种表征选择和采样策略, 发现基于梯度的表征与分布匹配方法能有效提升模型性能与训练效率.
Steven Au, Baihan Lin
cs.IR cs.CL
本文提出了一个用于个性化评论生成的基准和评估框架PeReGrINE, 它基于图结构的用户-物品证据. 该框架重构了Amazon Reviews 2023数据集, 并引入了用户风格参数和多种证据检索设置, 以评估生成评论的忠实度和个性化程度.
Jaehyun Lee et al.
cs.IR cs.AI
本文针对LLM作为推荐系统时存在的知识不均衡问题, 提出了一种选择性知识增强方法KnowSA_CKP. 该方法通过评估模型对协同关系的理解能力来探测其内部知识, 并仅对最需要补充信息的项目进行外部信息注入, 从而在无需微调的情况下提高了推荐准确性和上下文使用效率.
Jiani Huang et al.
cs.IR cs.AI
本文提出了一个名为ReRec的强化微调框架, 旨在增强大型语言模型在复杂推荐任务中的推理能力. 该框架通过整合细粒度的奖励信号和动态课程调度来优化模型性能.
Saman Forouzandeh, Kamal Berahmand, Mahdi Jalili
cs.IR cs.AI
本文提出了一种名为ACGM的基于学习图记忆的检索方法, 用于从智能体的多模态网页交互历史中自适应地检索相关信息. 该方法通过策略梯度优化学习构建任务自适应的相关性图, 在多个基准测试中显著提升了检索质量, 优于多种基线模型.
Jannik Nitschke, Lukas Wegmeth, Joeran Beel
cs.IR cs.LG
本文通过实验测量了推荐系统中集成方法在准确性与能耗之间的权衡。研究发现,集成方法虽然能小幅提升准确性,但会导致能耗显著增加,并提出了选择性集成作为更节能的替代方案。
Maria Movin et al.
cs.IR cs.AI
本文提出了一个trace-level的评估框架, 用于在production search system中比较人类用户与GUI-agent的行为. 该框架从任务结果与努力程度, query formulation以及界面状态间的navigation三个维度进行分析, 并通过一个受控实验发现, 尽管agent在任务成功率和query生成上与人类相当, 但其navigation策略存在系统性差异.
Shasvat Desai et al.
cs.IR
本文为沃尔玛电商平台的赞助搜索检索提出了一种双编码器训练框架. 该方法将语义相关性作为主要监督信号, 而用户参与度仅用于在相关商品间细化偏好, 以解决用户参与度信号稀疏且不完美的问题. 离线评估和在线AB测试表明, 该方法在平均相关性和NDCG指标上均优于现有生产系统.
Jing Xu et al.
cs.IR cs.AI
本文提出了一种意图感知的信息图检索框架, 旨在通过更好地对齐用户查询与信息图设计来支持信息图创作. 该方法通过用户研究构建意图分类法来丰富和细化自由形式的查询, 并利用检索到的样例结合交互式代理进行设计适配.
Xingzi Wang, Qingtian Bian, Hui Fang
cs.IR
本文提出了一种基于因果视角的上下文感知解耦框架CoDiS, 用于跨域序列推荐. 该方法通过变分上下文调整, 专家隔离与选择等策略, 旨在更准确地解耦域共享和域特定的用户偏好, 并在多个真实数据集上验证了其优于现有基线方法的性能.
Yantao Yu et al.
cs.IR
本文提出了一种名为SSR的推荐系统框架, 通过显式地引入稀疏性来应对高维稀疏输入带来的挑战. 该框架采用多视图"先过滤后融合"的机制, 并实验验证了其在公开和工业数据集上的有效性.
Frans van der Sluis, Leif Azzopardi
cs.IR cs.HC
本文通过一项任务型研究, 探讨了信息搜索如何影响消费者的可持续购买决策. 研究发现, 对伦理考量认知的加深, 而非单纯的搜索行为或初始意图, 是促使消费者行为改变的关键因素.

cs.CL

Berkin Durmus et al.
cs.CL cs.AI cs.SD
本文提出了一个名为 Contextual Earnings-22 的语音识别基准数据集, 旨在评估系统在包含特定领域自定义词汇的真实场景下的性能. 该工作为研究上下文条件化语音识别提供了标准化的测试平台, 并建立了多个基线模型.
Youcef Soufiane Gheffari, Oussama Mustapha Benouddane, Samiya Silarbi
cs.CL cs.AI cs.SD
本文提出了一种结合CNN与Transformer的混合架构, 用于阿拉伯语语音情感识别. 该模型在EYASE语料库上取得了高准确率, 展示了注意力机制在低资源语言任务中的潜力.
Avyav Kumar Singh et al.
cs.CL
本文提出了一种名为 Byte-Level Distillation (BLD) 的简单方法来解决跨分词器知识蒸馏 (CTD) 问题. 该方法通过在字节层面建立教师模型与学生模型之间的共同接口, 绕过了词汇表对齐的复杂性, 并在多个基准测试中取得了与更复杂方法相当甚至更好的性能.
Opeyemi Osakuade, Simon King
cs.CL cs.LG
本文探讨了离散语音单元在量化过程中对超音段信息(如声调)编码的局限性. 通过分析普通话和约鲁巴语, 研究发现量化方法倾向于优先编码音段结构, 导致声调信息丢失, 并提出了改进的量化策略方向.
Xuechen Zhang et al.
cs.CL cs.AI
本文提出了一种名为DFR-Gemma的新框架,使大语言模型能够直接对密集的地理空间嵌入进行推理,避免了传统方法中将其转换为文本描述所带来的效率与精度损失。该方法通过一个轻量级投影器将高维嵌入与大语言模型的潜在空间对齐,从而实现了对空间特征的内在推理。
Mengdan Zhu, Senhao Cheng, Liang Zhao
cs.CL
本文提出了一种名为"Decompose, Look, and Reason (DLR)"的强化潜在推理框架,旨在解决视觉语言模型在复杂视觉推理任务中因信息损失而面临的挑战。该方法通过动态分解查询、提取视觉潜在特征并进行推理来提升性能,在多个基准测试上超越了现有基线。
Xueren Ge et al.
cs.CL cs.AI
本文提出了一种基于多智能体LLM的生成方法, 用于从电子病历(ePCR)合成多人急救医疗服务(EMS)对话数据集EMSDialog. 该方法通过规划、生成和自修正流程, 并辅以基于规则的事实与话题流检查, 最终构建了一个包含丰富标注的合成对话语料库. 实验表明, 使用该数据集进行增强训练, 可以提升EMS对话中诊断预测的准确性、及时性和稳定性.
Figen Eğin, Aytuğ Onan
cs.CL cs.AI
本文提出了一个用于土耳其语教育视频摘要的自动化框架, 并构建了相应的数据集. 该框架通过聚类和统计建模从多个人工摘要中提取共识内容, 生成分级摘要, 实验表明其与大型语言模型生成的摘要具有较高的语义重叠.
Tunazzina Islam
cs.CL cs.AI cs.CY cs.LG
本文提出了一种基于推理的无监督文本聚类精炼框架, 利用大型语言模型(LLMs)作为语义评判者来验证和重组任意无监督聚类算法的输出. 该框架通过三个推理阶段(一致性验证, 冗余判定和标签生成)来提升聚类的一致性和可解释性, 并在社交媒体语料上验证了其有效性.
Mohamed Ehab, Ali Hamdi, Khaled Shaban
cs.CL cs.LG
本文提出了一种名为CAMO的集成方法, 用于处理类别不平衡的分类问题. 该方法通过动态调整少数类的权重, 在多个语言模型和数据集上取得了较好的macro F1-score.
Aryaman Arora et al.
cs.CL
本文提出了一种名为ADAG的自动化方法, 用于描述语言模型解释性研究中的归因图(attribution graphs). 该方法通过量化特征的输入输出梯度效应来构建归因剖面(attribution profiles), 并利用聚类和LLM解释器来自动生成特征组功能的自然语言描述.
Ziyi Wang et al.
cs.CL cs.AI cs.LG
本文提出了一种名为DIVERSED的松弛验证框架, 用于改进speculative decoding在大型语言模型推理中的效率. 该方法通过一个基于ensemble的验证器, 动态混合草稿模型和目标模型的token分布, 从而在保持生成质量的同时提高推理速度.
Mingchen Li et al.
cs.CL
本文提出了一种名为K2K的新框架, 用于改进基于LLM的医疗预测. 该方法通过将关键临床信息编码到模型参数中, 实现了无需外部检索的高效内部知识访问, 并在多个医疗预测基准上取得了优异性能.
Ziyi Chen et al.
cs.CL cs.AI
本文开发了一个基于大语言模型(LLM)的工具,用于从临床记录中识别与HIV相关的污名化内容。研究比较了多种编码器和生成式模型,发现GatorTron-large模型取得了最佳性能。
Jie Sun et al.
cs.CL
本文提出了一种无需训练的框架SepSeq, 通过在长数值序列中插入分隔符token来缓解Transformer模型因Softmax注意力分散导致的性能下降问题. 该方法在多个LLM上验证有效, 能提升任务精度并减少推理token消耗.
Steven Au, Sujit Noronha
cs.CL
本文提出了一个名为PPT-Bench的基准测试,用于评估大语言模型在“认知攻击”下的表现,即当提示挑战知识、价值观或身份的合法性而非简单反对时。该基准基于一个哲学压力分类法,测试了模型在不同压力层级下的不一致性和对话妥协。
Clarissa Miranda-Pena et al.
cs.CL cs.SE
本文通过实证分析评估了静态分析方法在检测和缓解代码库幻觉方面的潜力. 研究发现, 静态分析工具能检测一定比例的库相关幻觉, 但其能力存在上限, 无法完全解决该问题.
Manoj Chandrashekar Rao
cs.CL cs.AI cs.LG
本文研究了GQA transformers中任务敏感层与位置编码适应层是否重合的问题。通过实验发现两者存在强烈的反定位现象,并提出了相应的干预方法。
Atahan Dokme, Benjamin Reichman, Larry Heck
cs.CL cs.AI
本文研究了情感语言对大型语言模型在定量推理任务上表现的影响. 通过构建一个包含情感与中性表述对的数据集, 实验发现情感表述会降低模型准确率, 而将问题中性化可以恢复大部分性能.
Kaiyuan Tian et al.
cs.CL cs.LG
本文提出了一种基于梯度的自适应分层重要性采样框架GRASS, 用于内存高效的大型语言模型微调. 它通过动态调整分层采样概率和卸载优化器状态, 在减少内存占用的同时提升了在下游任务上的性能.
Yuxuan Hu et al.
cs.CL
本文提出了一种名为 AsyncTLS 的层次化稀疏注意力系统,用于提升长上下文大语言模型推理的效率。它结合了粗粒度的块级过滤和细粒度的令牌级选择,并利用异步卸载引擎来优化 KV 缓存的内存传输。实验表明,该方法在保持与全注意力机制相近精度的同时,显著提升了运算速度和端到端吞吐量。
Kunfeng Chen et al.
cs.CL
本文针对真实场景中用户指令模糊导致工具检索性能下降的问题, 提出了一个名为Tool Retrieval Bridge (TRB)的方法. 该方法通过一个bridge model将模糊指令重写为更具体的指令, 从而弥合了指令与检索器偏好之间的差距, 并在构建的VGToolBench基准上验证了其有效性.
Harsh Kohli et al.
cs.CL cs.AI cs.LG
本文研究了循环深度Transformer在隐式推理任务中的表现, 特别是系统泛化和深度外推能力. 通过实验发现, 这种结构能够通过推理时的循环迭代实现超出训练深度的泛化, 但其性能会受到"过度思考"现象的限制.
Michelle Damin Kim et al.
cs.CL
本文利用LLMs构建社交媒体数据集, 以测量和比较护理人员与非护理人员的孤独感. 研究引入专家开发的评估框架和原因分类法, 并应用GPT系列模型构建高质量语料库进行分析, 发现两组人群在孤独感成因分布上存在显著差异.
Jingyi Kang et al.
cs.CL
本文提出了MemReader系列模型, 用于智能体系统中的长期记忆提取. 其中, MemReader-4B通过主动决策机制, 在多个评测基准上取得了优于现有基线方法的效果.
Annerose Eichel, Tonmoy Rakshit, Sabine Schulte im Walde
cs.CL
本文通过设计系统性的实验, 探讨了英语主谓宾事件中字面性/非字面性与事件合理性之间的关系. 研究发现, 人类与大型语言模型在判断和语境化这些事件时存在显著差异.
Masaki Sakata et al.
cs.CL
本文通过训练针对不同层级深度和语义域的线性变换, 研究了语言模型内部表示如何编码层次关系. 实验表明, 层次关系可以在表示空间中被线性恢复, 并且这种编码倾向于存在于特定领域的低维子空间中.
Bo Li, Shikun Zhang, Wei Ye
cs.CL cs.AI
本文提出了一种用于多轮对话指令微调的数据选择框架MDS, 该方法在对话层面进行评分, 结合了全局覆盖和局部结构评估. 实验表明, MDS在多个基准测试上优于现有的单轮选择器和启发式基线, 并且在相同训练预算下对长对话更鲁棒.
Xinliang Frederick Zhang, Lu Wang
cs.CL cs.AI
本文提出了一种名为TSUBASA的方法, 旨在提升个性化大语言模型在长周期任务上的表现. 该方法通过动态记忆演化和基于上下文蒸馏的自学习机制来改进记忆的写入与读取, 并在多个基准测试中验证了其有效性.
Guoqi Ma et al.
cs.CL
本文提出了一种基于LLM的层次分类模型HCRE, 用于跨文档关系抽取. 该方法通过构建层次关系树来减少LLM每次需要处理的关系选项数量, 并采用预测-验证策略来提升可靠性.
Shiwan Zhao et al.
cs.CL cs.AI cs.LG
本文提出了一种将大语言模型后训练方法统一理解为对模型行为进行结构化干预的框架. 该框架根据轨迹来源将方法分为离策略学习和在策略学习两个主要体系, 并通过有效支持扩展、策略重塑和行为整合这三个核心角色来解读现有技术. 这一视角有助于诊断训练瓶颈并设计多阶段协调的系统方案.
Yuanjian Xu et al.
cs.CL cs.AI cs.LG
本文从梯度动力学的角度分析了数据混合策略对大型语言模型训练的影响, 并提出了一个基于图约束优化的数据重加权框架 DoGraph. 实验表明该框架在不同规模的 GPT-2 模型上均能取得有竞争力的性能.
Hongyi Cen et al.
cs.CL cs.AI
本文提出了AtomEval框架,用于评估事实核查系统中的对抗性声明改写。该方法通过将声明分解为SROM原子并进行原子有效性评分,以检测超越表面相似性的事实篡改。实验表明该框架能提供更可靠的评估信号,并揭示了当前对抗性评估实践中被忽视的局限性。
George Fountzoulas
cs.CL
本文提出了一种名为Kathleen的文本分类架构, 它直接在原始UTF-8字节上操作, 无需tokenizer或attention机制. 该模型通过引入频域处理组件, 如RecurrentOscillatorBanks和PhaseHarmonics, 实现了高效的\(O(L)\)序列处理, 并在多个基准数据集上取得了有竞争力的结果.
Yanling Xiao et al.
cs.CL cs.AI cs.LG
本文提出将长上下文推理任务分解为一系列基础原子技能, 并通过自动合成伪数据集来针对性训练这些技能. 基于强化学习的方法在多个基准测试上提升了模型的长文本推理性能.
Or Dado, David Carmel. Oren Kurland
cs.CL cs.IR
本文研究了预测在问答任务中使用RAG相对于不使用RAG的性能增益。研究评估了多种检索前和检索后预测器,并引入了一种新的生成后预测器,该预测器通过显式建模问题、检索段落和生成答案之间的语义关系,取得了最佳的预测效果。
Zhengyi Zhao et al.
cs.CL
本文提出了GuarantRAG框架, 通过将推理与证据整合显式解耦来改进检索增强生成(RAG). 该方法首先生成基于内部知识的"内部答案", 然后使用对比性DPO目标生成基于检索证据的"参考答案", 最后通过联合解码机制在token级别融合两者. 实验表明该框架在多个QA基准上提升了准确性并减少了幻觉.
Ruiyi Yan, Yugo Murawaki
cs.CL cs.CR
本文提出了一种基于 range coding 的高效、可证明安全的语言隐写方法, 通过引入 rotation mechanism 提升了性能. 实验表明, 该方法在多种语言模型上实现了接近 100% 的熵利用率和高嵌入速度.
Xunzhuo Liu et al.
cs.CL
本文提出了一种用于LLM服务的双池令牌预算路由机制, 通过将同质服务集群划分为分别针对短上下文和长上下文的专用池, 并根据请求的估计令牌预算进行路由, 以解决配置与流量不匹配导致的资源浪费和可靠性问题. 该方法在真实数据集上的评估显示能显著降低GPU使用时间和成本, 同时改善服务可靠性指标.
Khalid Zaman et al.
cs.CL
本文提出了一种名为 Quantum Vision (QV) 的理论,并将其应用于音频分类任务,特别是深度伪造语音检测。该方法将音频的频谱图(如 MFCC)通过 QV 模块转换为信息波,再输入到 CNN 或 Vision Transformer 模型中进行分类,在 ASVSpoof 数据集上取得了优于基准模型的性能。
Ian W. Kennedy, Nafise Sadat Moosavi
cs.CL cs.LG
本文提出了一种针对极端低比特量化(如2-bit)中codebook初始化的新方法OA-EM. 该方法通过分析representational ratio \(\rho = N/KM\) 来理解初始化的重要性, 并使用Hessian-weighted Mahalanobis距离来改进初始化, 从而在多个模型和压缩率下提升了量化后模型的性能.
Tian Huang, Tom Bourgeade, Irina Illina
cs.CL
本文利用LLMs在低资源环境下生成和评估法语OSCE对话, 提出了一种结合理想与扰动表现来模拟不同学生技能水平的合成数据生成流程. 实验表明, 中等规模的LLMs在合成数据上能达到与GPT-4o相当的评估准确率, 为医学教育提供了可本地部署的隐私保护评估方案.
Soveatin Kuntur et al.
cs.CL
本文在虚假信息检测任务中, 系统性地比较了图神经网络(GNNs)与传统非图机器学习方法的性能与效率. 实验表明, 在控制输入特征一致的条件下, 轻量级GNN架构(如GraphSAGE)在多个数据集上均能取得更高的F1分数, 且推理时间相当或更优.
Soveatin Kuntur et al.
cs.CL
本文提出了一种结合OpenAI语义嵌入与六种启发式特征的轻量级混合方法用于clickbait检测. 通过PCA降维并使用XGBoost, GraphSAGE和GCN等分类器评估, 该方法在保证较低推理时间的同时实现了有竞争力的检测性能.
Petr Plecháč et al.
cs.CL
本文研究了无监督押韵识别工具RhymeTagger在不同训练数据量下的性能, 并评估了其在七种语言上的表现. 研究还将其与大型语言模型进行了对比, 发现该工具在数据充足时表现优于人工标注者的一致性.
Xuan Feng et al.
cs.CL
本文提出了一种名为Self-Debias的渐进式框架,旨在通过赋予大语言模型内在的自我纠正能力来减轻其在推理过程中的社会偏见传播。该方法将去偏过程重新表述为一个策略性的资源再分配问题,并引入了细粒度的轨迹级优化目标与在线自我改进机制。
Juwei Yue et al.
cs.CL cs.AI
本文提出了一种基于超图的分层记忆架构HyperMem, 用于增强对话系统在长程对话中的记忆能力. 该方法通过超边显式建模多元素间的高阶关联, 并设计了混合检索策略, 在基准测试上取得了优异性能.
Jun Seo et al.
cs.CL cs.AI
本文提出了一种名为BAIM的知识追踪框架, 通过整合动态解题过程信息来丰富题目表示. 该方法利用推理语言模型将解题过程分解为四个阶段, 并引入上下文条件机制来适应不同学习者, 在多个数据集上超越了基于预训练的基线模型.
Prisca Piccirilli, Alexander Fraser, Sabine Schulte im Walde
cs.CL
本文通过大规模语料分析, 比较了英语中近义动词-宾语结构的隐喻用法与字面用法. 研究提取了多种语言学特征, 发现两者在词汇频率、情感负载等方面存在差异, 但差异模式因具体结构而异, 缺乏单一的区分性分布特征.
Ruotao Xu et al.
cs.CL
本文提出了Adaptive Tool Trust Calibration (ATTC)框架,用于改善大型推理模型在工具集成推理中对工具结果的信任问题。该方法通过代码块的置信度分数来指导模型自适应地选择信任或忽略工具输出,从而提升了多个数据集上的性能。
Yating Wang et al.
cs.CL cs.AI
本文提出了一种针对大语言模型中规则级知识编辑的新方法. 该方法通过分布式多层更新来保持规则在不同表达形式间的一致性, 在多个模型上提升了编辑效果.
Renyu Fu, Guibo Luo
cs.CL cs.AI
本文提出了一种名为SeLaR的轻量级免训练框架, 旨在改进大语言模型中的推理过程. 该方法通过熵门控机制选择性地在低置信度步骤使用软嵌入(soft embeddings), 并引入对比正则化来维持对多种潜在推理路径的探索, 在多个推理基准测试上取得了优于标准思维链(CoT)及其他先进方法的效果.
Jiawei Chen et al.
cs.CL
本文提出了一个名为OmniBehavior的用户模拟基准, 该基准完全基于真实世界数据构建, 整合了长时程、跨场景和异构行为模式. 评估发现, 当前的大型语言模型在模拟这些复杂行为时存在困难, 并表现出结构性的偏见.
Wenxian Wang et al.
cs.CL cs.AI
本文提出了一种结合GAN和LLM的数据增强框架,用于中文反讽检测中的动态语言模式建模。该方法通过生成扩展数据集并改进BERT架构来整合用户历史行为,在实验中取得了优于现有方法的性能。
Tristan Thrush et al.
cs.CL cs.AI cs.LG stat.ML
本文提出了一种名为Dataset Policy Gradient (DPG)的强化学习原语,用于通过高阶梯度精确优化合成数据生成器,以产生能引导目标模型在特定可微分指标上表现良好的数据集。该方法仅通过监督微调生成的示例,就能实现对目标模型属性的灵活塑造,例如在LM head权重中嵌入特定模式或改变其范数。
Lilian Wanzare et al.
cs.CL
本文介绍了AfriVoices-KE数据集,这是一个包含约3000小时音频的肯尼亚多语言语音数据集。该数据集旨在解决非洲语言在语音技术中代表性不足的问题,为语音识别和文本转语音系统的开发提供了基础资源。
Emma Gueorguieva et al.
cs.CL
本文通过构建包含10种策略的共情语言分类法, 分析了AI模型与人类在撰写共情回复时的语言差异. 研究发现, LLM的回复高度模板化, 遵循一种特定的策略序列, 而人类回复则更加多样化.
Emmy Liu et al.
cs.CL
本文通过设计一套可组合的任务集, 追踪了不同规模语言模型在预训练过程中各项技能的出现顺序. 研究发现, 技能的出现顺序在不同模型间具有高度一致性, 并且复合任务的掌握通常晚于其组成任务. 此外, 模型内部表示的空间结构能够预测新任务的训练轨迹.
Jiayuan Ye, Vitaly Feldman, Kunal Talwar
cs.CL stat.ML
本文研究了训练数据分布对大型语言模型(Large Language Models, LLMs)记忆事实能力的影响。作者提出了一种基于训练损失的数据选择方法,旨在提升模型在有限容量下的事实记忆准确性。
Yuxuan Zhang et al.
cs.CL cs.AI
本文提出了一个名为ClawBench的评估框架, 用于测试AI agent在真实网站环境中完成日常在线任务的能力. 该框架包含153个跨多个平台的任务, 评估显示当前前沿模型在此类任务上的成功率仍然较低.
Feng Luo et al.
cs.CL cs.LG
本文研究了 on-policy distillation (OPD) 训练中的长度膨胀与训练不稳定问题. 作者提出了一种名为 StableOPD 的稳定化框架, 通过结合基于参考的散度约束和 rollout 混合蒸馏来缓解此问题, 并在数学推理任务上验证了其有效性.

cs.DS

Guy Blelloch et al.
cs.DS cs.DC
本文提出了一种在并行批量动态设置下维护图的最大独立集(MIS)的高效算法. 该算法在期望工作量和并行深度上均达到了理论最优, 其分析基于对批量更新"影响集"的新颖处理.
Francisco Sena et al.
cs.DS
本文提出了一种基于SPQR-tree分解的统一框架, 用于在线性时间内识别有向或双向图中的特定子图结构(如snarls和ultrabubbles). 该框架不仅解决了自2018年以来悬而未决的算法问题, 还通过计算反馈弧集等技巧保证了线性时间复杂度.
Marcin Bienkowski et al.
cs.DS
本文研究了支付通道网络(PCNs)中最大化单通道交易吞吐量的在线优化问题. 作者将其建模为一个新的在线背包问题变体, 其中物品(交易)根据方向有正负之分. 他们提出了一个确定性的在线算法, 其竞争比为\(O(\log B)\), 并证明了对于任何随机算法, 该下界是紧的.
Marco Bressan, Stefano Clemente, Giacomo Fumagalli
cs.DS
本文研究了在超图中计数\(k\)-hypergraphlets的问题, 并分析了color coding技术在此问题上的计算复杂度. 作者证明了在Orthogonal Vector Conjecture下, 该技术存在二次方的时间下界. 针对现实世界超图常满足的\((\alpha, \beta)\)-niceness性质, 作者提出了一种改进算法, 其运行时间优于朴素二次方算法, 并通过实验验证了其有效性.

others

Haimeng Zhao et al.
quant-ph cs.AI cs.CC cs.IT cs.LG
本文提出了一种名为quantum oracle sketching的算法, 使得一个仅有polylogarithmic规模的小型量子计算机能够处理海量经典数据, 执行分类和降维等任务. 该工作证明了, 要达到相同的预测性能, 任何经典机器都需要指数级更大的规模, 从而在经典数据处理和机器学习领域确立了广泛的量子优势. 作者在单细胞RNA测序和电影评论情感分析等实际应用中验证了这一优势, 展示了规模上4到6个数量级的缩减, 并且这一优势仅依赖于量子力学的正确性, 即使经典机器拥有无限时间或BPP=BQP也依然成立.
Manuj Malik et al.
cs.NE cs.AI
本文提出了Metacognitive Evolutionary Programming (MEP)框架, 将LLM提升为策略性发现智能体, 用于自动化设计车辆路径问题(VRP)的元启发式算法. 该方法通过强制LLM执行结构化的Reason-Act-Reflect循环, 使其能够基于预设的领域知识进行诊断、假设和实现, 从而超越了传统的基于性能反馈的黑盒代码突变方法. 通过将MEP应用于演化先进的Hybrid Genetic Search (HGS)算法的核心组件, 该方法发现了新颖的启发式规则, 在多种VRP变体上显著提升了求解质量(最高2.70%)并降低了运行时间(超过45%).
Ali Reza Ibrahimzada et al.
cs.SE cs.LG
本文提出了一种名为ReCodeAgent的自主多智能体工作流, 用于实现与编程语言无关的仓库级代码翻译与验证. 该方法在多个真实项目上进行了评估, 在翻译正确性和测试通过率方面优于现有的神经符号和智能体方法.
Fabrizio Pittorino, Manuel Roveri
cs.AR cs.AI cs.LG
本文是一篇立场论文, 主张将 Edge AI 重新定义为自适应的系统. 作者提出了一个 Agent-System-Environment (ASE) 框架来形式化这种自适应性, 并基于此提出了未来十年的十个研究挑战.
Haiyang Peng et al.
stat.ML cs.IT cs.LG math.OC
本文提出了一种基于Newton-Schulz迭代的Riemannian梯度方法(NS-RGS)用于正交群同步问题. 该方法通过用Newton-Schulz迭代替代昂贵的SVD或QR分解, 显著降低了计算成本, 并证明了其在谱初始化下能线性收敛到接近最优统计噪声水平的解.
Kawen Li et al.
cond-mat.mes-hall cs.LG physics.app-ph
本文提出了一种基于数据驱动设计框架的非周期结构纳米机械谐振器, 重点研究了准晶结构. 该方法实现了软夹持, 获得了高\(Q_m\)值, 展示了超越传统周期声子晶体的性能潜力.
Antonio J. Bujana, Aydin I. Karsilayan
cs.AR cs.AI
本文提出了一种基于LLM的自校准模拟电路尺寸设计框架, 能够从原始网表直接生成拓扑特定的解析设计方程. 该框架通过确定性校准循环和预测误差反馈机制, 实现了跨工艺节点的可移植性, 并在多个OTA拓扑上验证了其有效性.
Wenze Wang, Mehdi Hosseinzadeh, Feras Dayoub
cs.RO cs.AI cs.CV
本文提出了一种用于语言引导抓取的物理智能体循环框架, 通过引入基于事件的接口和执行状态监控层, 将抓取动作的执行结果转化为离散标签, 并利用确定性策略进行决策. 该方法在移动机械臂上进行了验证, 展示了比开环执行更鲁棒和可解释的行为.
Jintao Zhang, Xuanyao Fong
cs.AR cs.LG
本文提出了一种名为SHIELD的分段层次化内存架构, 旨在降低边缘NPU上进行LLM推理时的eDRAM刷新能耗. 该方法通过区分处理transient的QO激活和persistent的KV缓存, 并利用bfloat16数据格式的位级敏感性来关闭或放松对尾数字段的刷新, 从而在保持模型精度的同时显著节省能耗.
Marek Miller
cs.SE cs.AI
本文针对LLM在工具链中输出引发的拟人化认知错觉问题, 提出了一套包含七条规则的输出端约束方案. 通过实验验证, 该方案能显著减少输出中的拟人化标记并缩短文本长度, 且无需修改模型即可通过系统提示实现.
Tatiana Petrova, Evgeny Polyachenko, Radu State
cond-mat.dis-nn cs.LG
本文研究了具有连续状态的现代Hopfield网络(密集联想记忆模型)在几何约束下的热力学记忆容量。通过比较Gaussian (LSE)和Epanechnikov (LSR)核,作者推导了具有指数容量\(p = e^{\alpha N}\)的网络的相边界。结果表明,在尖锐核机制下,最大理论容量\(\alpha = 0.5\)在零温度下实现,并且两种核的相边界结构存在定性差异。
Krisanu Sarkar
cond-mat.stat-mech cs.LG math.AP stat.ML
本文通过Burgers方程分析了扩散生成模型的score field结构. 对于VE扩散, 证明了score服从粘性Burgers方程, 为模态间的"speciation transitions"提供了PDE视角. 研究量化了score误差在界面层的指数放大, 并在高斯混合模型和双势阱模型上进行了验证.
Xiangru Jian et al.
cs.CV cs.AI cs.LG
本文针对制造业场景中多模态大语言模型(MLLMs)的评估问题, 提出了一个名为FORGE的细粒度评估框架. 该工作构建了一个结合2D图像与3D点云的高质量数据集, 并在三个制造任务上评估了18个先进模型, 发现领域知识不足是主要瓶颈.
Yogesh Phalak et al.
cs.RO cs.LG
本文介绍了一个名为OpenPRC的开源Python框架,旨在为Physical Reservoir Computing (PRC) 提供一个统一的开发与评估工作流。该框架通过一个通用的数据接口整合了高保真模拟和真实实验数据,并包含了物理引擎、数据摄取、学习模块、分析工具和优化器等组件,以促进PRC研究的可重复性和标准化。
Mingyu Ouyang et al.
cs.CV cs.AI cs.HC
本文提出了GameWorld, 一个用于在浏览器环境中标准化、可验证地评估多模态大语言模型作为通用游戏智能体的基准。该基准包含34款游戏和170个任务, 并采用基于状态验证的指标进行评估, 实验揭示了当前智能体与人类能力之间的巨大差距。
Ziyang Cheng et al.
cs.RO cs.AI cs.LG
本文提出了一种名为Competence Manifold Projection (CMP)的方法,用于提升腿式移动机械臂全身控制策略在应对分布外输入时的鲁棒性。该方法通过构建一个能力流形来区分安全与不安全的状态,并利用一个同构的潜在空间实现高效的实时防御。
Chirag Wadhwa, Sitan Chen
quant-ph cs.DS
本文研究了在有限纠缠测量下的量子态认证问题. 作者给出了一个关于测量纠缠度\(t\)的平滑拷贝复杂度上界, 在\(t = d^2\)时达到接近最优的速率. 对于高精度情形, 这改进了完全纠缠测量的方案.
Denis Antipov, Carola Doerr
cs.NE cs.AI
本文研究了在线算法选择(OAS)的理论基础, 通过分析在OneMax问题上切换\((1+\lambda)\) EA和\((1+(\lambda,\lambda))\) GA两种算法的性能, 首次提供了一个理论实例, 证明切换策略可以获得比单独使用任一算法更快的渐近运行时间.
Mohamad Louai Shehab, Antoine Aspeel, Necmiye Ozay
cs.RO cs.AI cs.FL
本文提出了一种从原始状态轨迹中推断 reward machine 的方法, 无需依赖奖励、标签或机器节点的观测信息. 该方法进一步扩展到主动学习场景, 通过增量查询轨迹扩展来提高数据效率, 并在网格世界示例中进行了验证.
Qian Ma, Sarah Rajtmajer
cs.CR cs.AI
本文提出了一种结合差分隐私和私有种子文本的合成数据生成方法RPSG, 旨在平衡生成数据的真实性与隐私保护. 实验表明该方法在隐私和效用方面优于现有技术.
Shlomi Hod et al.
cs.CR cs.LG stat.AP
本文提出了一种结合差分隐私(differential privacy)与统计网络模型(如ERGM)的隐私保护流程, 用于基于敏感接触网络的疾病传播模拟. 该方法通过节点级差分隐私计算网络摘要统计量, 拟合模型并生成合成网络, 最后进行基于智能体(agent-based)的疾病传播模拟. 在性接触网络数据上的评估表明, 为隐私添加的噪声相对于其他误差源(如抽样误差)较小, 说明该方法能在保护隐私的同时提供有价值的流行病学洞见.
Lech Madeyski
cs.SE cs.AI cs.LG
本文提出了一个名为Triage的框架, 利用代码健康度指标作为路由信号, 将软件工程任务分配给成本最低且能通过验证的LLM层级. 通过理论分析, 推导了实现成本效益路由的两个条件, 并设计了评估协议来测试成本与质量的权衡.
Dmytro Ustynov
cs.SE cs.AI
本文探讨了在AI智能体开发时代, 软件工程惯例需要如何转变. 作者提出了语义密度优化的设计原则, 并通过日志格式的实验发现, 激进的压缩反而可能增加总体成本.
Jorge Alda
hep-ph cs.LG
本文介绍了在高能物理全局统计拟合中使用机器学习代理的框架. 它涵盖了从似然函数近似到后验采样的完整工作流程, 并以一个具体的物理异常为例进行了演示.
Ravindra Ganti, Steve Xu
cs.AR cs.LG
本文提出了一种基于强化学习的编译器, 用于联合优化AI推理的ASIC架构、内存层次和工作负载划分。该方法在3nm到28nm的多个工艺节点上进行了验证, 针对Llama 3.1 8B和SmolVLM两种工作负载自动探索了网格拓扑、微架构和算子放置的联合设计空间。
Ana Trišović
cs.DL cs.AI cs.CY cs.SI
本文通过追踪62个LLMs在超过10.8万篇论文中的引用情况,首次实证分析了科学家采纳和放弃语言模型的时间动态。研究发现,科学采纳遵循一个倒U型轨迹,且其峰值时间正在快速压缩,而发布时间是预测模型生命周期动态的最强因素。
F. Fernando Jurado-Lasso, J. F. Jurado
cs.NI cs.AI cs.LG
本文提出了一种名为RL-ASL的强化学习框架,用于优化TSCH网络中的动态监听。该方法通过在线决策跳过不必要的监听时隙,在保持网络可靠性的同时显著降低了能耗和延迟。实验表明其在真实和仿真环境中均优于现有基线协议。
Mehrdad Rostamzadeh et al.
cs.CR cs.AI
本文对Model Context Protocol (MCP)的安全性进行了防御部署导向的分析, 提出了一种按架构组件划分攻击的分类法. 该研究将威胁映射到六个MCP层级, 并识别了主要和次要防御点, 揭示了现有防御措施主要集中在工具层面, 而在主机编排、传输和供应链层存在保护缺口.
Ananya Bhattacharjee et al.
cs.HC cs.AI
本文提出了一种名为"生成式体验"的数字心理健康干预新范式, 其核心系统GUIDE能够动态生成个性化的干预内容和多模态交互结构. 在一项预注册研究中, 该系统在减轻压力和改善用户体验方面显著优于基于LLM的对照组, 并支持了多样化的反思与行动形式.
Michael Cuccarese
q-bio.QM cs.LG
本文通过分析大量分子对数据, 区分了"哪些位置易变"与"哪些位置是真正的activity cliff"这两个问题. 研究发现, 前者仅需scaffold大小即可预测, 而后者需要一个包含3D药效团context的机器学习模型, 该模型能有效识别易导致活性剧变的位置, 从而减少化学家需要探索的实验数量.
Robert Chew et al.
stat.ME cs.AI cs.CL cs.LG stat.ML
本文提出了一个将人工标注视为测量过程的统计框架, 用于分解标注结果中的变异来源, 包括实例难度、标注者偏差、情境噪声和关系对齐. 该框架扩展了经典的测量误差模型, 为数据中心的机器学习提供了诊断工具.
Victor R. Lee et al.
cs.CY cs.AI
本文讨论了在普及AI素养方面,研究机构、产业界与教育实践者之间建立多模式合作伙伴关系的挑战与机遇。它通过一个专题研讨会,以Google的多个合作项目为例,探讨了此类合作的生命周期、影响因素及未来可能性。
Mohammad Siavashi et al.
cs.DC cs.LG cs.OS cs.PF cs.SE
本文提出了一种名为Blink的端到端LLM推理服务架构, 通过将请求处理卸载到SmartNIC并使用持久GPU内核进行调度与管理, 消除了主机CPU在稳态推理路径中的参与. 实验表明, 该系统在延迟、吞吐量和能耗方面均优于现有基准, 并在CPU干扰下保持性能稳定.
Tornike Karchkhadze, Shlomo Dubnov
cs.SD cs.AI
本文提出了一个实时人机音乐协同表演框架, 利用 latent diffusion model 根据实时音频上下文生成器乐伴奏. 系统结合了 MAX/MSP 前端与 Python 推理服务器, 通过一致性蒸馏 (consistency distillation) 显著降低了采样延迟, 实现了实时操作. 评估表明, 该系统在音乐连贯性、节拍对齐和音频质量方面表现良好, 并揭示了延迟、前瞻深度与生成质量之间的权衡.
Debjoy Thakur
stat.ML cs.LG stat.AP
本文针对具有 Gaussian intrinsic conditional autoregressive (ICAR) 结构的空间数据,提出了一种变分近似限制最大似然 (VREML) 估计框架。该方法通过构建证据下界 (ELBO) 来近似计算边际似然,从而避免了传统 REML 方法中大规模稀疏精度矩阵的重复求逆,提高了计算效率。
Jeffrey Fang, Glen Chou
cs.RO cs.AI eess.SY math.OC
本文提出了一种基于GPU并行化的框架, 用于大规模鲁棒非线性模型预测控制(MPC). 该方法通过结合系统级综合(SLS)与可达性约束, 实现了对高维机器人系统的快速在线策略合成.
Lingqing Shen, Fatma Kılınç-Karzan
math.OC cs.LG
本文提出了无需参数的非遍历外梯度算法, 用于求解单调变分不等式. 算法在全局或局部Lipschitz条件下均能获得\(o(1/\sqrt{T})\)的最后迭代收敛率, 并通过实验验证了其广泛适用性和优于现有方法的性能.
Jonah Botvinick-Greenhouse, Yunan Yang
stat.ML cs.LG math.DS math.NA
本文研究了从有限个测度值数据中唯一恢复向量场和传输映射的问题. 其分析利用了Whitney和Takens嵌入定理, 为生成模型和PDE反问题提供了理论保证.
Zaid Ghazal, Hadiza Yusuf, Khouloud Gaaloul
cs.SE cs.LG eess.SY
本文提出了一个名为DeCaF的框架, 用于为信息物理系统(CPS)的调试提供反事实解释和断言推断. 该框架通过生成使失败测试变为通过的最小必要输入信号修改, 并从中推断出可解释的断言, 以帮助工程师理解故障原因.
Zhaoliang Chen
cs.CR cs.AI
本文提出了一种名为AITH的后量子连续委托协议, 用于建立人类与AI之间的信任关系. 该协议通过结合后量子签名, 边界检查引擎和撤销机制, 旨在为概率性AI代理的持续操作提供安全框架.
Swarnadip Chatterjee et al.
cs.CV cs.LG
本文探讨了在计算细胞学中, 使用 one-class representation learning 方法来检测极其罕见(极低 witness rate)的恶性细胞. 该方法仅使用阴性样本进行训练, 无需实例级标注, 并在公开和内部数据集上评估了 DSVDD 和 DROC 等模型, 结果显示其在极端稀有场景下的实例级异常排序性能优于传统的弱监督方法.
Cheng Liu et al.
cs.CR cs.AI
本文提出了一种名为TrajGuard的免训练解码时防御框架, 用于实时检测和防御针对大型语言模型(Large Language Models, LLMs)的越狱攻击(jailbreak attacks). 该方法通过滑动窗口聚合解码过程中关键层的隐藏状态轨迹(hidden-state trajectories)来量化风险, 仅在风险持续超过阈值时触发轻量级语义裁决, 从而实现对有害内容生成的即时中断或约束.
Shogo Hamano et al.
cs.CV cs.AI
本文提出了一个名为CG-CLIP的新框架,用于解决视频行人重识别在穿着相似且动态运动的高难度场景下的挑战。该方法利用多模态大语言模型生成的文本描述和可学习的token来引导特征学习,在多个数据集上取得了优于现有方法的效果。
Romano Li, Jianfei Cao
stat.ML cs.LG econ.EM math.ST
本文提出了一个几何框架, 将原型聚类中的目标函数精度与结构恢复联系起来. 该分析独立于具体算法, 适用于一类广泛的损失函数, 并定义了一个聚类条件数来量化实例的几何难度.
Haiyan Du, Hu Yang
stat.ML cs.LG
本文提出了一种新的支持向量机模型 \(\varepsilon\)-BAEN-SVM, 它结合了弹性网络损失和鲁棒损失框架. 实验表明该模型在噪声环境下能较好地平衡稀疏性和鲁棒性.
Yifei Chen, Sarra Habchi, Lili Wei
cs.SE cs.AI
本文介绍了MIMIC-Py, 一个基于Python的自动化游戏测试工具. 它将基于人格的LLM智能体(agent)转化为一个可复用和可扩展的框架, 通过模块化设计支持与不同游戏的交互.
Xiangyue Liu et al.
cs.CV cs.CL cs.LG
本文提出了Symbiotic-MoE框架,通过模态感知的专家解耦和渐进式训练策略,在统一的MoE Transformer架构中缓解了多模态模型中生成与理解任务间的梯度冲突。该方法在保持零参数开销的同时,提升了跨模态协同能力,并在多个基准测试上取得了性能提升。
Rui Zhang et al.
cs.CR cs.CL
本文探讨了在大型语言模型(LLM)部署中,微调方法如何被用于恶意地破坏模型的安全性(即misalignment),以及如何通过后续的微调来恢复安全性(即realignment)。研究发现,攻击与防御之间存在机制不对称性,不同的微调方法在破坏或恢复安全性方面效果各异。
Hang Zhang et al.
cs.CV cs.AI
本文提出了一种从单张静态图像推断铰接物体运动学的方法, 通过合成一个最大程度打开的物体状态来暴露关节线索, 从而估计关节参数. 该方法无需多状态观测或显式部件先验, 并支持以关节为条件的部件级新状态合成.
Haiqian Yang et al.
cond-mat.stat-mech cs.LG math.OC math.PR
本文提出了一种通过前向-后向HJB匹配实现生成最优输运的方法. 该方法利用时间反转对偶性, 将难以求解的后向最优控制问题转化为一个可通过模拟前向松弛轨迹来求解的前向HJB方程.
Jingtong Dou et al.
cs.CV cs.AI
本文提出了一种模态无关的伪造检测框架, 旨在提取跨模态的共享潜在伪造知识, 以应对多模态深度伪造攻击. 通过解耦模态特定风格并量化模型在相关模态和未知"暗模态"上的泛化能力, 该研究为通用多模态防御提供了新的技术路径.
Tong Duy Son et al.
eess.SY cs.AI cs.LG
本文提出了一种用于3D工程AI的通用图学习框架, 将异构工程数据转换为物理感知的图表示, 并使用图神经网络进行处理. 该框架在CAE振动模态分类和CFD空气动力学场预测两个汽车工程应用中得到验证, 旨在提供可解释且可重用的决策支持.
Chanhyuk Choi et al.
cs.CV cs.LG
本文提出了一种名为Cross-Modal Emotion Transfer (C-MET)的新方法,用于编辑说话人脸视频中的情感。该方法通过建模语音和视觉特征空间之间的情感语义向量,利用大规模预训练的音频编码器来生成面部表情。实验表明,该方法在情感准确性上优于现有技术。
Kenan Li et al.
cs.MA cs.CL cs.SE
本文提出了Oracle-SWE方法,用于量化在软件工程任务中,各种“预言”信息信号对语言模型智能体性能的贡献。该方法通过从基准测试中提取理想化的中间信息,评估了不同信号对任务成功率的独立影响。
Xiaoyu Leng, Hongchao Qin, Rong-Hua Li
cs.SI cs.DS
本文提出了一种基于整数密度值的\((k,\delta)\)-dense subhypergraph模型,用于超图分解。该模型通过参数\(\delta\)限制每条超边对密度的贡献,以捕捉多向交互产生的真实密度变化。作者设计了高效的公平稳定算法和分治分解框架,在多个真实数据集上验证了其能产生更连续、冗余更少的分解层次。
Ivan Lau, Jonathan Scarlett
stat.ML cs.IT cs.LG math.ST
本文研究在严格1-bit通信约束下的均值估计问题. 提出了一种仅基于随机阈值查询的自适应估计器, 其样本复杂度在任意\(k>1\)阶中心矩有界的分布上都是阶最优的. 对于\(k \neq 2\)的情况, 其复杂度匹配了未量化情形下的极小极大下界, 而对于\(k=2\)的情况, 则存在一个由1-bit量化本质决定的对数惩罚项. 文章还证明了非自适应估计器存在巨大的样本效率差距.
Xue Qin et al.
cs.RO cs.AI
本文提出了一种面向具身智能体的能力演化范式, 通过引入具身能力模块(Embodied Capability Modules, ECMs)将能力演化与智能体身份解耦. 该框架在模拟任务中展示了性能的持续提升, 同时保持了策略的稳定性和安全性.
Shaotian Li et al.
cs.CV cs.AI
本文提出了一种无需训练的框架LAKE, 用于挖掘视觉语言模型(VLMs)中潜在的异常检测知识. 该方法通过识别并激活稀疏的异常敏感神经元来构建紧凑的正常性表示, 在工业基准测试中取得了先进性能.
Noa Garcia, Amelia Katirai
cs.CY cs.AI cs.CV
本文通过分析计算机视觉领域主要会议的赞助商情况, 研究了该领域研究与军事及监控应用的联系. 作者构建了一个数据集, 发现44%的赞助商与军事或监控应用有直接关联, 并通过案例研究探讨了赞助关系作为揭示技术武器化手段的潜力与局限.
Giulio Valentino Dalla Riva, Matteo Dalla Riva
stat.ML cs.LG math.PR stat.ME
本文提出了一种名为 Intensity Dot Product Graphs (IDPGs) 的随机图模型, 它通过用 Poisson point process 替代固定的 latent positions 集合, 扩展了 Random Dot Product Graphs (RDPGs). 该模型允许节点数量随机变化, 并建立了连续 latent space 与有限观测图之间的连接.
Advait Yadav, Sid Black, Oliver Sourbut
cs.MA cs.AI cs.CL
本文研究了LLM智能体在零成本协作环境中的合作行为, 发现模型能力与合作倾向并不相关. 通过因果分解和干预实验, 指出仅提升智能体能力不足以解决多智能体系统中的协调问题.
Ailing Zeng et al.
cs.CV cs.AI cs.MM
本文提出了LPM 1.0模型,用于从视频中学习并生成单角色全双工音视频对话表演。该模型通过构建多模态数据集、训练一个基于Diffusion Transformer的基础模型,并将其蒸馏为因果流式生成器,实现了高表现力、实时推理和长时身份稳定的角色表演生成。
Wenkui Yang et al.
cs.CR cs.CL cs.CV
本文提出了一种针对GUI agents的对抗攻击方法, 通过将无害的UI元素叠加到界面截图上, 误导agent的视觉定位. 该方法采用模块化流程和迭代搜索策略, 在多个受害者模型上显著提升了攻击成功率, 并展示了攻击的跨模型迁移性和持续性影响.
Xiaojing Chen et al.
eess.SY cs.AI
本文是一篇关于Agentic AI推理中网络感知能效的综述。它提出了一个能耗分析框架, 并探讨了跨层协同设计策略与未来挑战。
Jinghan Yang et al.
cs.CV cs.AI
本文提出了一种名为FlowGuard的轻量级框架, 用于在Diffusion Model的生成过程中进行安全检测. 该方法通过线性近似解码latent空间中的中间噪声图像, 并结合课程学习策略, 实现了对不安全内容的早期识别, 从而显著降低了计算开销.
Xuemei Jia et al.
cs.CV cs.AI
本文提出了一种强化学习引导的合成数据生成框架,用于解决隐私敏感身份识别任务中的数据稀缺问题。该方法通过冷启动适应和多目标奖励优化,提升了生成样本的保真度和任务有效性。
John Tanner, Chon-Fai Kam, Jingbo Wang
quant-ph cs.LG
本文回顾了非变分监督量子核方法, 将其与变分量子算法进行对比, 并分析了其理论基础、构造方式、优势评估框架以及面临的关键挑战.
Jiaming Su et al.
cs.CV cs.AI
本文提出了一种名为AnomalyAgent的工业异常合成智能体,它通过工具增强的强化学习框架来生成更真实和多样的异常样本。该方法在MVTec-AD数据集上取得了优于现有零样本方法的性能。
Nickson Patel
cs.MA cs.AI cs.LG
本文提出了一种名为Dynamic Attentional Context Scoping (DACS)的机制,用于解决多智能体LLM编排系统中的上下文污染问题。该方法通过不对称的两种模式来隔离不同智能体的上下文,从而提升决策质量。
Yuanhong Zhang et al.
cs.CV cs.AI
本文提出了一种名为MESA的即插即用框架,用于缓解大型视觉语言模型中的幻觉问题。该方法通过在潜在空间中进行受控和选择性的干预,旨在减少幻觉的同时保持模型原有的生成行为。
Tao Hana et al.
cs.CV cs.LG
本文提出了一种基于3D Gaussian splatting和scale-aware attention的新型框架GSSA-ViT, 用于高维大气场的任意分辨率预测和灵活降尺度. 该方法将经纬度网格点视为3D Gaussians的中心, 并通过生成式方案预测其参数, 结合尺度感知模块捕获跨尺度依赖, 在ERA5和CMIP6数据集上展现了优越性能.
Amirhossein Afsharrad et al.
cs.RO cs.AI eess.SY
本文研究了将大型语言模型(LMM)在自动驾驶运动规划中的知识蒸馏到更小、更易部署的学生模型的方法. 作者比较了基于策略的广义知识蒸馏(GKD)和基于密集反馈的强化学习(RL)基线, 实验表明GKD能以更小的模型尺寸接近教师模型的性能.
Haruto Nagahisa et al.
cs.RO cs.AI
本文提出了一种用于社交导航的增量残差强化学习方法, 旨在解决在真实世界中直接学习时面临的资源受限和效率挑战. 该方法结合了无需经验回放的增量学习和基于残差策略的高效学习, 并在仿真和真实实验中验证了其有效性.
Ryo Suzuki, Shohei Watabe
quant-ph cs.AI cs.LG
本文提出了一种使用深度强化学习自动设计量子虚时演化方法电路的新框架. 该方法将电路构建视为多目标优化问题, 在Max-Cut问题和\(H_2\)分子模拟中实现了比标准硬件高效ansatz更浅、门数更少的电路.
Pan Peng, Jingyu Wu
quant-ph cs.CC cs.DS
本文研究了有向图的量子性质测试问题, 其中图的入度和出度由常数\(d\)界定. 对于接近性参数\(\varepsilon\), 证明了在经典双向模型中可用\(O_{\varepsilon,d}(1)\)次查询测试的任何性质, 在量子单向模型中也可用\(n^{1/2 - \Omega_{\varepsilon,d}(1)}\)次查询测试, 这相对于已知最佳经典算法实现了近二次的量子加速. 此外, 通过构造一个具体的性质\(P_\varepsilon\), 证明了该转换几乎是紧的.
Yifei Gong et al.
cs.CV cs.AI cs.CL
本文提出了一个名为ToolCAD的框架, 它利用大型语言模型(LLMs)作为工具使用代理(agent)来执行文本到CAD的生成任务. 该框架通过强化学习进行训练, 旨在提升开源LLMs在CAD建模任务中的表现.
Gyanendra Das, Sai Satyam Jena
cs.CV cs.AI cs.LG
本文提出了一种用于Vision Language Models (VLMs) 终身编辑的新方法DSCA. 该方法通过将表示空间分解为一系列正交的语义子空间, 并将编辑限制在这些子空间内, 旨在减少编辑过程中的概念干扰.
Mahesh Balakrishnan et al.
cs.DC cs.AI
本文提出了一种名为LogAct的新抽象, 用于管理LLM驱动的Agent在异步和故障环境中的执行. 该方法通过共享日志记录Agent动作, 支持在执行前进行投票拦截和故障后的一致性恢复, 并允许Agent进行内省以优化性能.
Yuan Xie et al.
eess.AS cs.CL cs.SD
本文从熵分配的角度重新审视了基于LLM的ASR系统,提出了量化语音编码器与LLM之间熵减分配的指标。针对现有方法在熵分配上的低效问题,作者提出了一种基于能力边界感知的多阶段训练策略,旨在优化参数效率并增强对幻觉的鲁棒性。实验表明,该方法能以较少的参数量达到有竞争力的性能。
Felix Embacher et al.
cs.CV cs.AI cs.LG
本文提出了一个用于自动驾驶的大规模稀有图像检索数据集SearchAD, 包含超过42.3万帧图像和51.3万个标注框, 涵盖90个稀有类别. 该数据集旨在支持文本到图像和图像到图像的语义检索研究, 为自动驾驶中的数据筛选和长尾感知问题提供了基准.
Minh Sao Khue Luu, Evgeniy N. Pavlovskiy, Bair N. Tuchinov
cs.CV cs.LG
本文提出了一种名为CATMIL的统一目标函数,用于改进脑MRI中的小病灶分割。该方法在基础分割损失上增加了两个辅助监督项,分别从连通分量和病灶实例层面进行优化,在MSLesSeg数据集上取得了平衡的性能提升。
Soumya Mazumdar, Vineet Kumar Rakesh, Tapas Samanta
cs.CR cs.AI cs.CV cs.LG
本文提出了一种隐私保护的联邦学习框架PrivFedTalk, 用于个性化的说话人头像生成. 该方法通过共享扩散模型主干和本地训练的轻量级身份适配器来避免原始数据共享, 并引入了身份稳定的聚合策略和时序一致性正则化来提升训练效果.
Vladimir Zaigrajew et al.
cs.CV cs.AI cs.LG
本文提出了一种名为LINE的、无需训练的黑盒方法, 用于为视觉模型中的神经元生成开放词汇的概念标签. 该方法利用大语言模型和文生图模型进行迭代式概念提议与精炼, 在多个基准上取得了先进的性能, 并能发现预定义词汇表遗漏的新概念.
Hongcan Xiao et al.
cs.CV cs.AI
本文提出了一个无需训练的、由语言驱动的3D草图生成框架3DrawAgent. 它利用LLM在几何反馈下顺序绘制3D Bezier曲线, 并通过相对经验优化策略来迭代提升模型的空间理解和绘图质量.
Xue Qin et al.
cs.RO cs.AI
本文提出了一个用于具身智能体能力演化的受控升级框架, 旨在安全地部署新版本的能力模块. 该框架通过一系列兼容性检查(如接口, 策略, 行为, 恢复)和分阶段运行时管道(包括沙箱评估, 影子部署, 回滚等)来确保升级的安全性. 实验表明, 该框架在保持任务成功率的同时, 能有效避免不安全激活, 并成功处理部署后的性能漂移.
Valdemar Danry et al.
cs.HC cs.AI
本文提出了一种结合眼动追踪的多模态LLM助手, 通过分析用户阅读时的注视行为来推断其认知难点并提供针对性帮助. 实验表明, 该助手在评估准确性和信息回忆方面优于纯文本助手, 但眼动行为解读的准确性仍面临挑战.
Imane Momayiz et al.
cs.CV cs.AI
本文介绍了首个开源 Darija OCR 模型 AtlasOCR, 它通过微调一个 3B 参数的 Vision Language Model 构建而成. 该模型在专门构建的 Darija 数据集上进行了评估, 展示了其性能.
Gabriel Dubus et al.
cs.SD cs.LG
本文提出了一种用于非洲热带森林被动声学监测的多物种自动检测模型 DeepForestSound (DFS). 该模型结合半监督聚类与基于 Audio Spectrogram Transformer 的微调, 在跨时间和地点的独立数据集上对鸟类, 灵长类和象类等分类群实现了优于现有工具的检测性能.
Seungjae Moon, Seunghyun Oh, Youngmin Ro
cs.CV cs.AI cs.LG
本文提出了一种无需训练的开放词汇语义分割框架OV-Stitcher. 该方法通过在最终编码器块中拼接子图像特征, 实现了全局注意力, 从而提升了分割图的空间一致性和语义对齐性.
Labani Halder, Payel Sadhukhan, Sarbani Palit
cs.CR cs.AI cs.LG
本文提出了一种名为TADP-RME的信任自适应差分隐私框架,旨在提升数据驱动系统的可靠性。该框架通过引入逆信任分数动态调整隐私预算,并利用Reverse Manifold Embedding破坏数据几何结构以抵御推理攻击。
Junjie Fei et al.
cs.CV cs.AI cs.CL cs.LG
本文提出了一种名为Tempo的高效查询感知框架, 用于压缩长视频以进行下游理解. 它利用小型视觉语言模型(SVLM)作为局部时间压缩器, 并通过自适应令牌分配(ATA)机制, 在严格预算下动态地为关键片段分配更多带宽, 在多个长视频基准测试上取得了先进性能.
Luozheng Qin et al.
cs.CV cs.AI
本文提出了一种通过扩展视频生成器来实现视频生成与理解统一的新框架 Uni-ViGU. 它采用统一的流匹配方法处理视频和文本, 并设计了双向训练机制来复用生成知识以完成理解任务.
Lingyun Yang et al.
cs.DC cs.AI
本文提出了一种名为LegoDiffusion的系统, 用于微服务化文本到图像生成中的扩散工作流. 它将传统上被视为整体的工作流分解为松散耦合的模型执行节点, 从而实现了更细粒度的资源管理和集群级优化.
Longgang Zhang et al.
cs.CR cs.AI cs.MM cs.NI
本文提出了一个名为BGTD的基准数据集和一个名为mmTraffic的多模态推理框架, 用于可解释的加密流量分析. 该方法结合原始字节数据与专家标注, 通过联合优化的感知-认知架构来生成基于证据的、人类可读的流量解释报告.
Yushuo Zhang et al.
cs.CV cs.AI
本文提出了一种用于面部DeepFake检测的持续学习框架Face-D\(^2\)CL。它通过融合空间和频域特征来增强表征,并利用双持续学习机制来缓解灾难性遗忘问题。实验表明该方法在稳定性和可塑性上优于现有技术。
Jindi Lv et al.
cs.RO cs.AI
本文提出了一种名为ViVa的视频生成价值模型, 用于机器人强化学习中的价值估计. 该模型利用预训练视频生成器的时空先验, 通过预测未来本体感知来评估当前状态的价值, 并在真实世界任务中展示了改进.
Viola-Joanna Stamer et al.
cs.CV cs.AI
本文提出了一种针对海洋遥感数据的自监督预训练模型OceanMAE, 通过整合多光谱Sentinel-2观测数据和物理海洋描述符来学习更具信息量的海洋感知表征. 实验表明, 该模型在海洋污染物分割等下游任务上表现良好, 验证了领域对齐预训练的价值.
Yuankun Xie et al.
cs.SD cs.AI
本文提出了一个名为AT-ADD的音频深度伪造检测挑战赛评估计划,旨在推动针对多种音频类型和真实场景的鲁棒检测技术发展。
Zheng Jiang et al.
cs.CV cs.AI
本文提出了一个名为MedVR的强化学习框架, 旨在实现无需标注的医学视觉语言模型(VLM)视觉推理. 其核心机制包括基于熵的视觉重定位(EVR)和基于共识的信用分配(CCA), 以模型不确定性和轨迹一致性生成伪监督信号. 该方法在多个医学VQA基准上取得了领先性能, 提升了模型基于视觉证据进行推理的鲁棒性和可解释性.
Xiangyuan Wang et al.
cs.CV cs.AI
本文提出了一种名为EditCaption的两阶段后训练流程, 用于提升基于Vision-Language Model (VLM)的自动化图像编辑指令合成质量. 该方法通过Supervised Fine-Tuning (SFT)和Direct Preference Optimization (DPO)来减少指令中的方向、视角和属性描述错误, 从而生成更符合人类偏好的高质量训练数据.
Jiangbei Yue, Sharib Ali
cs.CV cs.AI
本文提出了一种用于医学图像OOD检测的双分支多模态框架DBMF, 它结合了文本-图像匹配分支和视觉特征分支来生成最终的OOD分数。实验表明,该框架在不同骨干网络上均表现稳健,并在内窥镜图像数据集上取得了显著的性能提升。
Nishikanta Mohanty et al.
quant-ph cs.AI cs.LG
本文提出了一种量子启发的ARIMA方法QARIMA, 它使用基于swap-test的量子自相关(QACF)和量子偏自相关(QPACF)函数进行滞后阶数发现, 并采用固定配置的变分量子电路(VQC)进行参数估计和弱滞后项精炼. 在多个数据集上的实验表明, 该方法在减少元优化开销的同时, 在预测误差上相比经典自动化ARIMA具有竞争力.
Marco De Luca et al.
cs.SE cs.AI
本文提出了一种名为CIAO的自动化流程, 利用Large Language Models (LLM) 从GitHub仓库的源代码自动生成系统级的软件架构文档. 该流程遵循ISO/IEC/IEEE 42010等标准模板, 评估表明生成的文档被开发者认为有价值且准确, 且运行成本低廉.
Miguel Monte e Freitas et al.
cs.CV cs.AI cs.CL
本文对Vision Language Models (VLMs)在Action Quality Assessment (AQA)任务上的表现进行了全面的实证评估。研究发现,当前先进的VLMs在该任务上表现仅略高于随机水平,并揭示了模型存在系统性偏差和根本性困难。
Yuming Xu et al.
cs.CR cs.AI
本文对检索增强生成(RAG)系统的安全风险进行了系统性的分类与综述. 作者将RAG工作流抽象为六个阶段, 并围绕三个信任边界和四个主要安全面来组织相关文献, 指出了当前防御措施的局限性.
Aasim Bin Saleem et al.
eess.IV cs.AI cs.CV cs.ET cs.LG +1
本文提出了一种用于组织病理学虚拟染色的新型条件扩散模型 HistDiT. 该模型通过双流条件策略和多目标损失函数, 在生成高保真图像的同时更好地保留了细胞形态结构.
Benjamin Léger, Kazem Meidani, Christian Gagné
cs.NE cs.AI
本文分析了多模态学习在符号回归(Symbolic Regression)中与遗传编程(Genetic Programming)结合时, 潜在空间对齐(Latent Space Alignment)的有效性问题. 研究发现, 尽管SNIP模型引入了对比预训练(Contrastive Pretraining)来对齐符号与数值编码器, 但这种对齐是粗粒度的(Coarse-Grained), 无法在优化过程中有效指导符号空间的搜索.
Xun Zhu et al.
cs.CV cs.AI cs.LG
本文通过特征探针技术,对14个开源医学MLLMs在三个图像分类数据集上进行了系统分析,揭示了其性能落后于传统深度学习模型的现象。研究发现性能下降主要源于视觉表征质量限制、连接器投影保真度损失、LLM推理理解缺陷和语义映射失准四个失败模式。
Ashutosh Kumar et al.
cs.CV cs.AI
本文提出了一个实例感知的视觉语言预训练框架 InstAP, 它通过联合优化全局视觉-文本对齐和细粒度的实例级对比对齐来增强模型的空间-时间理解能力. 该方法在一个包含双粒度标注的大规模数据集 InstVL 上进行了验证, 在实例级检索任务上表现优异.
Ruizhi Zhang et al.
cs.CV cs.AI
本文提出了一个名为PokeGym的视觉驱动长视野基准测试,用于评估视觉语言模型在复杂3D具身环境中的能力。该基准通过严格的代码隔离和自动评估,揭示了当前模型在物理死锁恢复方面的主要瓶颈。
Hui Liu, Zhijie Zhang
cs.GT cs.DS
本文针对具有二值估值的不可分物品公平分配问题, 指出了Garg和Murhekar (2021)所提算法可能无法终止的问题, 并提出了一个新的多项式时间算法来计算WEFX (Weighted Envy-Free up to any good) 且fPO (fractional Pareto optimal) 的分配.
Andi Gu et al.
quant-ph cs.AI cs.LG
本文提出了一种用于量子纠错码的卷积神经网络解码器, 它利用了量子低密度奇偶校验码的几何结构. 该解码器在Gross码等实例上展现了比现有方法更低的逻辑错误率和更高的吞吐量, 并能够生成校准良好的置信度估计.
Jing Peng et al.
eess.AS cs.AI
本文提出了TASU2, 一个可控的CTC模拟框架, 用于语音大语言模型的后训练对齐和低资源适应. 该方法通过模拟指定WER范围内的CTC后验分布来生成文本监督信号, 在多个适应场景中超越了基线方法.
Nam Duong Tran, Phi Le Nguyen
cs.CV cs.AI
本文提出了一种针对Vision-Language Models (VLMs)的新型上下文自适应后门攻击方法Phantasia. 该方法通过生成与输入语义动态对齐的恶意响应, 显著提升了攻击的隐蔽性和适应性, 并在多种VLM架构和防御设置下验证了其有效性.
Ainesh Bakshi, Xinyu Tan
quant-ph cs.DS math-ph
本文研究了外场对高温Gibbs态的纠缠结构和计算复杂度的影响. 证明了存在一个交叉尺度 \(h\asymp \beta^{-1} \log(1/\beta)\), 超过此外场强度时, 原本可分离的态会变得纠缠. 同时, 构造了一个满足细致平衡的准局域Lindbladian, 能在 \(\mathcal{O}(\log(n/\epsilon))\) 时间内快速混合到Gibbs态.
Piotr Nieciecki, Aleksander Plocharski, Przemyslaw Musialski
cs.GR cs.LG
本文提出了一种将建筑学的人体工学原则融入基于transformer的生成模型的方法, 用于生成公寓平面布局. 通过设计可微的损失函数来优化房间的邻接与邻近关系, 该方法生成的布局在宜居性指标上优于基线模型.
David Joohun Kim et al.
cs.SD cs.AI eess.AS
本文提出了一种用于设备端语音AI的序列化设备寻址路由(SDAR)框架及其实现——选择性注意系统(SAS). 该系统将设备寻址语音检测建模为一个基于交互历史的序列路由问题, 而非单次话语分类, 并在多说话人环境中取得了良好性能.
Marco Gabriele Fedozzi et al.
cs.RO cs.AI
本文研究了Conditional Neural Processes (CNP) 在机器人多模态动作预测任务中的应用. 针对现有模型在泛化到未见动作序列时的困难, 作者提出了一个改进版本DMBN-PTE, 旨在学习更鲁棒的时间表征.
Luca Nogueira Calçado, Sergei K. Turitsyn, Egor Manuylovich
physics.optics cs.AI
本文提出了一种完全使用标准电信组件实现的小型光子Kolmogorov-Arnold网络(SSP-KANs). 该架构通过可训练的非线性光学模块进行端到端优化, 在分类和回归等任务上展现了良好的性能与硬件鲁棒性.
Changdao Chen
cs.CV cs.AI
本文提出了一种用于驾驶员疲劳评估的异质时空超图网络HST-HGN。该方法结合了分层超图进行空间建模和双向状态空间模型进行时序建模,在多个基准测试上取得了先进的性能,并兼顾了判别力与计算效率。
Marcel Gröpl et al.
cs.CV cs.CL
本文提出了一种无需训练的视觉语言模型证据检索方法, 通过计算模型next-token分布的熵并将其反向传播到视觉token嵌入来获得熵梯度相关性图, 用于定位关键视觉证据. 该方法在多个基准测试上提升了模型在细节敏感和高分辨率场景下的性能, 并提供了更可解释的证据定位.
Rui Gan et al.
cs.CV cs.AI cs.RO
本文提出了一个名为CrashSight的大规模视频基准测试,用于评估视觉语言模型在真实世界路边摄像头记录的交通事故场景中的理解与推理能力。该基准包含多层级的问题,旨在测试模型在场景描述、因果推理和时间推理等方面的性能。
Haoxi Zeng et al.
cs.CV cs.AI
本文提出了一种名为OVS-DINO的新框架,用于开放词汇分割任务。该方法通过结构对齐SAM与DINO模型,并引入语言引导,旨在提升模型对边界的感知能力,在多个基准测试上取得了性能提升。
Sai Srinivas Kancheti et al.
cs.CV cs.AI
本文提出了一种名为Faithful GRPO (FGRPO)的新方法,用于提升多模态语言模型在视觉空间推理任务中的推理质量。该方法通过在Group Relative Policy Optimization (GRPO)中引入逻辑一致性和视觉基础性作为约束,有效减少了推理链与最终答案不一致的问题,并在多个空间推理基准上取得了更好的准确率。
Jae-Hyun Baek, Jon-Lark Kim
cs.IT cs.CL
本文通过形式化验证工具Lean 4,研究了自对偶码的构造方法。它建立了Kim的“building-up”构造与Chinburg-Zhang的Hilbert符号构造之间的等价性,并推广了后一方法以高效构造\(q\)元自对偶码。
Mohamed Amine Kerkouri et al.
cs.CV cs.CL cs.HC
本文提出了一种利用vision-language models (VLMs) 和NLP metrics来评估scanpath语义相似性的框架。该框架将注视点编码为文本描述,并通过embedding-based和lexical metrics计算相似度,为传统的空间分析方法提供了内容感知的补充维度。
Runpeng Geng et al.
cs.CR cs.AI cs.CL cs.LG
本文介绍了PIArena, 一个用于评估prompt injection攻击的统一平台. 该平台整合了多种攻击与防御方法, 并揭示了现有防御措施在泛化性和对抗自适应攻击方面的局限性.
Sergey V Samsonau
cs.DL cs.CL cs.SE
本文提出了一种名为 sciwrite-lint 的开源工具,用于在本地验证科学手稿的引用完整性。该工具检查参考文献的存在性、撤稿状态,并验证引用是否支持文中的主张。作为一个实验性扩展,作者还提出了一个结合了完整性验证和科学贡献度评估的综合评分系统。
Kabilan Elangovan, Daniel Ting
cs.CV cs.AI
本文提出了一种名为C-Score的度量标准,用于评估医学图像分类中基于CAM的可解释性方法的解释一致性。该指标无需人工标注,通过计算正确分类样本间解释图的加权相似度来量化模型推理策略的稳定性。实验揭示了标准分类指标无法察觉的几种解释一致性下降模式,表明C-Score可作为模型性能崩溃的早期预警信号。
Anay Mehrotra et al.
stat.ML cs.AI cs.CL cs.DS cs.LG
本文研究了在差分隐私约束下的极限语言生成与识别问题. 在生成任务中, 隐私不会带来定性损失, 但对于有限语言集合, 隐私会引入样本数量的定量代价. 在识别任务中, 隐私会带来根本性障碍, 特别是在对抗性设置下, 而随机设置下的可识别性则与对抗性模型一致.
Zhiyuan Wang et al.
cs.HC cs.AI
本文提出了一种名为PSI的共享状态架构, 旨在解决个人AI工具生成后孤立存在的问题. 该架构通过共享个人上下文总线, 使独立生成的模块能够协同工作, 从而构建连贯的个人计算环境.
Onkar Susladkar et al.
cs.CV cs.AI
本文提出了一种名为RewardFlow的无反演框架, 通过多奖励Langevin动力学在推理时引导预训练的diffusion和flow-matching模型. 该方法整合了多种可微奖励, 并引入了一种自适应的提示感知策略来协调不同目标, 在图像编辑和组合生成任务上取得了先进的结果.
Wenbo Hu et al.
cs.CV cs.AI cs.CL
本文提出了Gaussian GRPO (G\(^2\)RPO)训练目标和两种任务级塑造机制,以解决多模态通用模型训练中的奖励分布差异和感知-推理平衡问题。基于此构建的OpenVLThinkerV2模型在多个基准测试中表现优异。
Ziwei Zhou et al.
cs.CV cs.AI cs.CL
本文提出了一个用于评估文本到音视频生成模型的任务驱动基准AVGen-Bench, 并设计了一个结合专家模型与多模态大语言模型的多粒度评估框架. 评估揭示了当前模型在语义可靠性与物理推理等方面存在显著不足.
Haolei Xu et al.
cs.CV cs.AI cs.CL
本文研究了多模态 Mixture-of-Experts (MoE) 模型中存在的“视而不思”现象,即模型能感知图像内容却无法进行后续推理。作者提出了 Routing Distraction 假说,并通过路由引导的干预方法验证了该假说,在多个基准测试上提升了模型的视觉推理性能。
Yunsong Zhou et al.
cs.RO cs.AI cs.CV
本文提出了一种名为SIM1的物理对齐仿真方法, 用于为可变形物体操作生成零样本数据. 该方法通过将真实场景数字化并进行弹性动力学校准, 结合基于扩散的轨迹生成, 从稀疏演示中扩展出合成监督数据. 实验表明, 仅使用合成数据训练的策略在真实世界部署中取得了良好的零样本成功率和泛化能力.
Shilin Yan et al.
cs.CV cs.AI
本文针对智能体在多模态环境中过度依赖外部工具的问题, 提出了一个名为HDPO的框架. 该框架通过解耦任务准确性与执行效率的优化目标, 旨在减少不必要的工具调用, 同时提升推理性能.

- 数据来源 Data Source: arXiv.org

- 本网页的内容由 bluearXiv-ai 自动生成。实际抓取的是 arXiv 中 "new" 页面的数据,即最近的有所在分类论文变动的一天的数据。

- 感谢 arXiv 提供的服务。评论和精选由 AI 生成,不代表任何人对论文本身的看法。精选依赖于论文与给定关键词的匹配度。

- 计数基于主学科,不计重数。

- This webpage is automatically generated by bluearXiv-ai.

- The data actually captured is from the "new" page, that is, the data of the most recent day when there were changes in corresponding subjects.

- Thanks for services prodived by arXiv. Comments and selection of good papers are generated by AI, not showing anyone's point of view about those papers.

- The selection also depends on the matched-degrees between papers and given keywords.

- The counters are based on main subject, not counting multiplicities.